CN117059081A - 一种轻量化语音识别方法、计算机设备及可读存储介质 - Google Patents

一种轻量化语音识别方法、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN117059081A
CN117059081A CN202311111161.3A CN202311111161A CN117059081A CN 117059081 A CN117059081 A CN 117059081A CN 202311111161 A CN202311111161 A CN 202311111161A CN 117059081 A CN117059081 A CN 117059081A
Authority
CN
China
Prior art keywords
attention
module
layer
decoder
attention module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311111161.3A
Other languages
English (en)
Other versions
CN117059081B (zh
Inventor
黄海亮
魏光勇
段志奎
白剑
梁瑛玮
张海林
鲁和平
李长杰
陈焕然
李乐
王浩
洪行健
冷冬
丁一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yifang Information Technology Co ltd
Original Assignee
Yifang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yifang Information Technology Co ltd filed Critical Yifang Information Technology Co ltd
Priority to CN202311111161.3A priority Critical patent/CN117059081B/zh
Publication of CN117059081A publication Critical patent/CN117059081A/zh
Application granted granted Critical
Publication of CN117059081B publication Critical patent/CN117059081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了一种轻量化语音识别方法、计算机设备及可读存储介质,涉及语音识别技术领域,包括如下步骤SO1:获取输入音频序列并对输入音频序列进行数据预处理;步骤S02:基于注意力多重复用技术建立语音识别模型;步骤S03:利用语音识别模型对预处理后的音频序列和文本标签的进行识别。可以解决传统的注意力机制冗余的问题,并提高模型的性能和鲁棒性。

Description

一种轻量化语音识别方法、计算机设备及可读存储介质
技术领域
本发明涉及语音识别技术领域,具体涉及一种轻量化语音识别方法、计算机设备及可读存储介质。
背景技术
在语音识别技术领域,通过使用语音识别技术,可以实现自然的语音输入和控制,为人们提供更智能的互动体验,并且为人们的日常生活和工作提供了更方便易用的工具。
目前,Transformer模型已成为自然语言处理等领域中的一种重要技术,但其庞大的模型参数和复杂的计算流程限制了其在移动设备等资源受限场景的应用。为了解决这个问题,有研究人员提出了的轻量化Transformer模型,可以有效地减少模型的参数数量和计算量。
然而,在实际应用中,轻量化Transformer模型仍然存在一些问题。首先,传统的注意力机制并不能很好地处理局部特征,这限制了模型在一些语音识别和图像处理等领域的应用。其次,一些现有的轻量化方法仅仅注重模型的大小和计算量等方面的优化,而忽略了模型的鲁棒性和模型性能。
因此,本发明提出一种轻量化语音识别方法、计算机设备及可读存储介质。
发明内容
针对现有技术的不足,本发明提出一种轻量化语音识别方法、计算机设备及可读存储介质,可以解决传统的注意力机制冗余的问题,并提高模型的性能和鲁棒性。
本发明的技术方案是这样实现的:
一种轻量化语音识别方法,包括如下步骤:
步骤SO1:获取输入音频序列并对输入音频序列进行数据预处理;
步骤S02:基于注意力多重复用技术建立语音识别模型;
步骤S03:利用语音识别模型对预处理后的音频序列和文本标签的进行识别。
优选的,所述数据预处理操作步骤如下:
S011:原始音频序列通过前端模块从时域转换到频域以获得log Mel特征;
S012:通过数据增强模块对log-Mel谱图进行时间扭曲、频率掩蔽和时间掩蔽;
S013:在归一化层中使用均值-方差对特征进行归一化;
S014:通过卷积下采样模块对输入特征进行下采样,所述下采样的特征被添加到位置信息中并作为语音识别模型的输入。
优选的,所述语音识别模型包括解码器和编码器,所述编码器包括前注意力模块、后注意力模块和前馈网络模块;所述解码器包括前注意力模块、自注意力模块、后注意力模块和前馈网络模块;所述编码器输出特征值和文本标签至解码器。
优选的,所述编码器包括L层,L层分为G组,每组中的层数为L/G,每个编码器组包括前注意力模块、后注意力模块和前馈网络模块;所述编码器组的前注意力模块仅设于每组中的第一个编码层内,每组中的第一个编码器层的前注意力模块构造新的注意力分数后,每组中有N个编码器子层的后注意力模块复用每组的第一个编码器层的前注意力模块的注意力分数,其中N=L/G-1;所述解码器由L层组成,所述每个解码器层包括前注意力模块、自注意力模块、后注意力模块和前馈网络模块;所述解码器的前注意力模块仅设于第一个解码器层内,第一个解码器层的前注意力模块构造新的注意力分数后,解码器子层的后注意力模块复用第一个解码器层的前注意力模块的注意力分数,所述解码器子层数量为L-1。
优选的,所述每组的第一个编码器中的前注意力模块通过前注意力函数将预处理后的音频序列或上一编码层输出的输出结果进行注意力分数的计算和进行特征值的输出并分别将注意力分数和特征值输出至后注意力模块和前馈网络模块;
所述前注意力函数为:
和/>分别表示第i组中的前注意力模块的注意力分数和特征值,/>表示实数域,T1×dmodel表示矩阵的维度,T1表示输入序列长度,dmodel表示嵌入维度。
优选的,所述每组编码器层的后注意力模块对输入的特征值和每组的第一个编码器层的前注意力模块输出的或复用的注意力分数采用点积函数进行处理,将所处理得到的特征值输出至下一个前馈网络模块并通过下一个前馈网络模块输出至下一个编码器子层的后注意力模块或作为每组编码器所有层的输出;
所述点积函数为:
S,O=Pre-MHA(Q,K,V)
Pre-MHA(Q,K,V)=Concat(Head1,…,Headh)WO
Headi=attn(Q,K,V)
attn(Q,K,V)=SV
Q=qWQ,K=kWK,V=vWV
Post-MHA(Q,K,V)=SvWV
WO、WQ、WK和WV表示为不同的学习权重矩阵;h表示为h个头的注意力空间,/>为缩放因子;q为查询向量,k为键向量,v为值向量并作为输入映射至三个不同线性层得到Q、K、V;
所述前馈网络模块的输出为:
和/>分别表示第i组中的前注意力模块的注意力分数和特征值;/>为第i组中第j层的输出。
优选的,所述每组编码器层的前注意力模块和后注意力模块输出的特征值均通过前馈网络模块的线性变换进行输出;
所述前馈网络模块的线性变换为:
FFN(X)=ReLU(XW1+b1)W2+b2
其中ReLU为激活函数,是可训练的参数矩阵,dff是FFN的隐藏维度,b1和b2是偏置向量。
优选的,所述文本标签输入至解码器层的前注意力模块以获得文本特征,解码器层的前注意力模块将文本特征和注意力分数输出至解码器层的自注意力模块,所述编码器输出特征值到解码器层的自注意力模块,解码器层的自注意力模块将特征值、文本特征输出至解码器层的前馈网络模块和将注意力分数输出至解码器层的后注意力模块;解码器层的后注意力模块对输入的特征值、文本特征和第一个解码器层输出的注意力分数或复用的注意力分数采用点积函数进行处理,将所处理得到的特征值和文本特征输出至解码层的下一个前馈网络模块,并通过解码层的下一个前馈网络模块输入至下一个解码器子层的自注意力模块或作为解码器所有层的输出。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
本发明还提出一种计算机可读存储介质,所述可读存储介质上储存有计算机程序,所述计算机程序被处理器执行时实现如所述方法的步骤。
与现有技术相比,本发明具有以下优点:
采用以上方案,基于注意力多重复用技术建立语音识别模型,利用该语音识别模型对预处理后的音频序列和文本标签进行识别,利用该语音识别模型对局部特征进行增强即通过复用多个已有的注意力层高效实现特征提取,以解决传统的注意力机制冗余的问题,并提高模型的性能和鲁棒性,有效地控制在不同程度压缩模型的情况下对模型性能的影响进行探索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种轻量化语音识别方法的流程框图;
图2为本发明中数据预处理操作的流程框图;
图3为本发明的网络结构示意图;
图4为本发明的前注意力模块的结构示意图;
图5为本发明的后注意力模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其他情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
Transformer模型是一种端到端的语音识别模型,其在各类数据集中展现出了惊人的效果;然而,Transformer的模型庞大的体积成了将其部署在边缘设备的主要障碍;首先,边缘设备的内存空间有限,难以接受太大的模型;其次,模型体积太大会导致推理时间较慢,而推理时间是反应系统性能重要指标;最后,模型体积太大会增加训练的门槛,然而并不是所有的科研机构都拥有充足的计算力资源。一些研究人员为了解决该问题,提出轻量化Transofrmer模型,然而实际使用中,轻量化Transofrmer模型仍然存在一些问题,首先,传统的注意力机制并不能很好地处理局部特征,这限制了模型在一些语音识别和图像处理等领域的应用。其次,一些现有的轻量化方法仅仅注重模型的大小和计算量等方面的优化,而忽略了模型的鲁棒性和模型性能。针对这些问题,有研究人员从多个方面对轻量化Transofrmer模型进行改进,其中包括知识蒸馏、神经网络压缩等技术。而本实施例提出注意力多重复用技术,建立语音识别模型。通过复用已有的注意力层来实现高效的特征提取,进一步减少模型的参数数量和计算复杂度,并提高模型的性能和鲁棒性。旨在进一步提高模型的性能和计算效率,在自然语言处理和图像处理等领域中有广泛的应用前景。
本发明中对于前注意力模块命名为Pre-MHA、后注意力模块命名为Post-MHA、自注意力模块命名为MHA和前馈网络模块命名为FFN。
本发明提出一种轻量化语音识别方法,如图1所示,包括如下步骤:
步骤SO1:获取输入音频序列并对输入音频序列进行数据预处理;该输入音频序列本身就含有文本标签。
步骤S02:基于注意力多重复用技术建立语音识别模型;
步骤S03:利用语音识别模型对预处理后的音频序列和文本标签的进行识别。
在本实施例中,Transformer是基于attention极致的模型,在Transformer中,编码器和解码器不再是RNN结构,而是用编码器堆栈和解码器堆栈。编码器的主要作用是对信号进行压缩,而解码器则是进行解压缩。
在本实施例中,如图2所示,数据预处理操作步骤如下:
S011:原始音频序列通过前端模块从时域转换到频域以获得log Mel特征;
S012:通过数据增强模块对log-Mel谱图进行时间扭曲、频率掩蔽和时间掩蔽,使模型学习更鲁棒的特征,提高泛化能力。
S013:在归一化层中使用均值-方差对特征进行归一化;
S014:通过卷积下采样模块对输入特征进行下采样,可以显著减少后续的计算量,下采样的特征被添加到位置信息中并作为语音识别模型的输入。
在本实施例中,如图3所示,语音识别模型包括解码器和编码器,编码器包括前注意力模块、后注意力模块和前馈网络模块;解码器包括前注意力模块、自注意力模块、后注意力模块和前馈网络模块;编码器输出特征值和文本标签至解码器。
如图3所示,编码器包括L层,L层分为G组,每组中的层数为L/G,每个编码器组包括前注意力模块、后注意力模块和前馈网络模块;编码器组的前注意力模块仅设于每组中的第一个编码层内,每组中的第一个编码器层的前注意力模块构造新的注意力分数后,每组中有N个编码器子层的后注意力模块复用每组的第一个编码器层的前注意力模块的注意力分数,其中N=L/G-1;解码器由L层组成,每个解码器层包括前注意力模块、自注意力模块、后注意力模块和前馈网络模块;解码器的前注意力模块仅设于第一个解码器层内,第一个解码器层的前注意力模块构造新的注意力分数后,解码器子层的后注意力模块复用第一个解码器层的前注意力模块的注意力分数,解码器子层数量为L-1。其中N=L/G-1,1<=G<=L;每个模块包括残差连接和层归一化;当G=L时,意味着本语音识别模型中的编码器与原始Transformer模型中的编码器相同。也就是说,没有应用注意力权重复用。G=1表示所有编码器层共享相同的注意力权重。
在本实施例中,每组的第一个编码器中的前注意力模块通过前注意力函数将预处理后的音频序列或上一编码层输出的输出结果进行注意力分数的计算和进行特征值的输出并将注意力分数和特征值分别输出至后注意力模块和前馈网络模块;
编码器的输入特征可以表示为x=(x1,…,xT1),T1是声学特征的长度,X=(X1,…,XG)用于表示第i个编码器组的输出,用于表示第i组中第j层的输出,同理/>与/>表示含义相同,表示为第i组中第N层的输出,其中1<j≤(N+1);
前注意力函数为:
和/>分别表示第i组中的前注意力模块的注意力分数和特征值,/>表示实数域,T1×dmodel表示矩阵的维度,T1表示输入序列长度,dmodel表示嵌入维度。
可以表示为:
其中X0=x,和/>分别表示第i组中Pre-MHA的注意力分数和特征值。
在本实施例中,每组编码器层的后注意力模块对输入的特征值和每组的第一个编码器层的前注意力模块输出的或复用的注意力分数采用点积函数进行处理,将所处理得到的特征值输出至下一个前馈网络模块并通过下一个前馈网络模块输出至下一个编码器子层的后注意力模块或作为每组编码器所有层的输出;如图4和图5所示,点积函数为:
S,O=Pre-MHA(Q,K,V)
Pre-MHA(Q,K,V)=Concat(Head1,…,Headh)WO
Headi=attn(Q,K,V)
attn(Q,K,V)=SV
Q=qWQ,K=kWK,V=vWV
Post-MHA(Q,K,V)=SvWV
且/>WO、WQ、WK和WV表示为4个不同的学习权重矩阵;h表示为h个头的注意力空间,便于捕获不同空间的注意力特征;/>为缩放因子,是用于降低由于点乘计算给函数带来的影响;q为查询向量,k为键向量,v为值向量并作为输入映射至三个不同线性层得到Q、K、V;
在本实施例中,传统的Transformer网络使用自注意力来捕获输入序列的全局上下文信息。自注意力模块中的点积和Softmax产生的注意力分数可以有效地表示这个提到的全局内容。然而,注意力分数的计算是输入特征长度的二次方。这意味着它会承受繁重的计算开销和大量参数。此外,过去的研究发现相邻层的注意力分数相似,表明它们之间存在高度冗余。因此,更新每一层中的注意力分数不是最佳解决方案,从而在解码器层中提出了前注意力模块Pre-MHA和后注意力模块Post-MHA。
在本实施例中,在模型的encoder中,Pre-MHA和Post-MHA的输出都会输入到FFN即每组编码器层的前注意力模块和后注意力模块输出的特征值均通过前馈网络模块的线性变换进行输出;前馈网络模块分别由两个线性层组成,其第一线性层将模块映射至高维度,其第二层线性层将模块映射至低维度,此操作使FFN的输入和输出保持相同的维度,因此可以有效地提取稳健的特征。表示为:
FFN(X)=ReLU(XW1+b1)W2+b2
其中ReLU为激活函数,是可训练的参数矩阵,dff是FFN的隐藏维度,b1和b2是偏置向量,/>表示实数域,dmodel表示嵌入维度。
在传统Transformer中,编码器XG的输出和对应的标签特征y=(y1,…,yT2)被用作解码器输入。在解码器中,注意力机制用于计算一系列与上下文相关的声学特征和标签特征的向量空间表示。然而,标签特征的信息往往会随着网络层数的增加而减弱。同时,解码器大小决定了模型解码速度,因此,提出一种利用注意力多重复技术的解码器以利用标签序列的交互关系,如图3所示,解码器由L层组成,每个解码器层包括前注意力模块、自注意力模块、后注意力模块和前馈网络模块;第一个解码器层的前注意力模块构造新的注意力分数后,解码器子层的后注意力模块复用第一个解码器层的前注意力模块的注意力分数。每个模块包括残差连接和层归一化;
在本实施例中,文本标签输入至解码器层的前注意力模块以获得文本特征,解码器层的前注意力模块将文本特征和注意力分数输出至解码器层的自注意力模块,编码器输出特征值到解码器层的自注意力模块,解码器层的自注意力模块将特征值、文本特征输出至解码器层的前馈网络模块和将注意力分数输出至解码器层的后注意力模块;解码器层的后注意力模块对输入的特征值、文本特征和第一个解码器层输出的注意力分数或复用的注意力分数采用点积函数进行处理,与编码器中的后注意力模块利用电机函数进行处理同理,将所处理得到的特征值和文本特征输出至解码层的下一个前馈网络模块,并通过解码层的下一个前馈网络模块输入至下一个解码器子层的自注意力模块或作为解码器所有层的输出。如用Y=(Y1,…,YM)来表示每个decoder层的输出,Yi代表第i层的输出:
Yi=FFN(Post-MHA(FFN(MHA(XG,XG,Oi)),S1))
Oi,Si=Pre-MHA(Yi-1,Yi-1,Yi-1)
特别地,引入了Post-MHA模块来复用第一个解码器层中的注意力分数,即使模型能够了解更多标签交互信息。虽然每个解码器层比原来的结构多了两个模块,但实验结果表明,这样的解码器结构只需要两层就可以达到与Transformer模型的六层相同的效果。因此,可以大大减少计算开销和参数数量,最终解码器的输出用于下一步作预测。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现方法的步骤。
本发明还提出一种计算机可读存储介质,可读存储介质上储存有计算机程序,计算机程序被处理器执行时实现方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、计算机程序产品。因此,本申请可采用完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种轻量化语音识别方法,其特征在于:包括如下步骤:
步骤SO1:获取输入音频序列并对输入音频序列进行数据预处理;
步骤S02:基于注意力多重复用技术建立语音识别模型;
步骤S03:利用语音识别模型对预处理后的音频序列和文本标签的进行识别。
2.根据权利要求1所述的一种轻量化语音识别方法,其特征在于:所述数据预处理操作步骤如下:
S011:原始音频序列通过前端模块从时域转换到频域以获得log Mel特征;
S012:通过数据增强模块对log-Mel谱图进行时间扭曲、频率掩蔽和时间掩蔽;
S013:在归一化层中使用均值-方差对特征进行归一化;
S014:通过卷积下采样模块对输入特征进行下采样,所述下采样的特征被添加到位置信息中并作为语音识别模型的输入。
3.根据权利要求1所述的一种轻量化语音识别方法,其特征在于:所述语音识别模型包括解码器和编码器,所述编码器包括前注意力模块、后注意力模块和前馈网络模块;所述解码器包括前注意力模块、自注意力模块、后注意力模块和前馈网络模块;所述编码器输出特征值和文本标签至解码器。
4.根据权利要求3所述的一种轻量化语音识别方法,其特征在于:所述编码器包括L层,L层分为G组,每组中的层数为L/G,每个编码器组包括前注意力模块、后注意力模块和前馈网络模块;所述编码器组的前注意力模块仅设于每组中的第一个编码层内,每组中的第一个编码器层的前注意力模块构造新的注意力分数后,每组中有N个编码器子层的后注意力模块复用每组的第一个编码器层的前注意力模块的注意力分数,其中N=L/G-1;所述解码器由L层组成,所述每个解码器层包括前注意力模块、自注意力模块、后注意力模块和前馈网络模块;所述解码器的前注意力模块仅设于第一个解码器层内,第一个解码器层的前注意力模块构造新的注意力分数后,解码器子层的后注意力模块复用第一个解码器层的前注意力模块的注意力分数,所述解码器子层数量为L-1。
5.根据权利要求4所述的一种轻量化语音识别方法,其特征在于:所述每组的第一个编码器层中的前注意力模块通过前注意力函数将预处理后的音频序列进行注意力分数的计算和进行特征值的输出并将注意力分数和特征值分别输出至后注意力模块和前馈网络模块;
所述前注意力函数为:
和/>分别表示第i组中的前注意力模块的注意力分数和特征值,/>表示实数域,T1×dmodel表示矩阵的维度,T1表示输入序列长度,dmodel表示嵌入维度。
6.根据权利要求4所述的一种轻量化语音识别方法,其特征在于:所述每组编码器层的后注意力模块对输入的特征值和每组的第一个编码器层的前注意力模块输出的或复用的注意力分数采用点积函数进行处理,将所处理得到的特征值输出至下一个前馈网络模块并通过下一个前馈网络模块输出至下一个编码器子层的后注意力模块或作为每组编码器所有层的输出;
所述点积函数为:
S,O=Pre-MHA(Q,K,V)
Pre-MHA(Q,K,V)=Concat(Head1,...,Headh)WO
Headi=attn(Q,K,V)
attn(Q,K,V)=SV
Q=qWQ,K=kWK,V=vWV
Post-MHA(Q,K,V)=SvWV
WO、WQ、WK和WV表示为不同的学习权重矩阵;h表示为h个头的注意力空间,/>为缩放因子;q为查询向量,k为键向量,v为值向量并作为输入映射至三个不同线性层得到Q、K、V;
所述前馈网络模块的输出为:
和/>分别表示第i组中的前注意力模块的注意力分数和特征值;为第i组中第j层的输出。
7.根据权利要求5所述的一种轻量化语音识别方法,其特征在于:所述每组编码器层的前注意力模块和后注意力模块输出的特征值均通过前馈网络模块的线性变换进行输出;
所述前馈网络模块的线性变换为:
FFN(X)=ReLU(XW1+b1)W2+b2
其中ReLU为激活函数,是可训练的参数矩阵,dff是FFN的隐藏维度,b1和b2是偏置向量。
8.根据权利要求4所述的一种轻量化语音识别方法,其特征在于:所述文本标签输入至解码器层的前注意力模块以获得文本特征,解码器层的前注意力模块将文本特征和注意力分数输出至解码器层的自注意力模块,所述编码器输出特征值到解码器层的自注意力模块,解码器层的自注意力模块将特征值、文本特征输出至解码器层的前馈网络模块和将注意力分数输出至解码器层的后注意力模块;解码器层的后注意力模块对输入的特征值、文本特征和第一个解码器层输出的注意力分数或复用的注意力分数采用点积函数进行处理,将所处理得到的特征值和文本特征输出至解码层的下一个前馈网络模块,并通过解码层的下一个前馈网络模块输入至下一个解码器子层的自注意力模块或作为解码器所有层的输出。
9.一种计算机设备,其特征在于:包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述可读存储介质上储存有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
CN202311111161.3A 2023-08-30 2023-08-30 一种轻量化语音识别方法、计算机设备及可读存储介质 Active CN117059081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311111161.3A CN117059081B (zh) 2023-08-30 2023-08-30 一种轻量化语音识别方法、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311111161.3A CN117059081B (zh) 2023-08-30 2023-08-30 一种轻量化语音识别方法、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN117059081A true CN117059081A (zh) 2023-11-14
CN117059081B CN117059081B (zh) 2024-08-09

Family

ID=88653492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311111161.3A Active CN117059081B (zh) 2023-08-30 2023-08-30 一种轻量化语音识别方法、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117059081B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN110909527A (zh) * 2019-12-03 2020-03-24 北京字节跳动网络技术有限公司 文本处理模型的运行方法、装置、电子设备、及存储介质
US20220121871A1 (en) * 2020-10-16 2022-04-21 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism
WO2022121150A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置
CN114999460A (zh) * 2022-05-18 2022-09-02 匀熵智能科技(无锡)有限公司 一种结合Transformer的轻量化中文语音识别方法
CN116013309A (zh) * 2023-01-14 2023-04-25 西南大学 基于轻量化Transformer网络的语音识别系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN110909527A (zh) * 2019-12-03 2020-03-24 北京字节跳动网络技术有限公司 文本处理模型的运行方法、装置、电子设备、及存储介质
US20220121871A1 (en) * 2020-10-16 2022-04-21 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism
WO2022121150A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置
CN114999460A (zh) * 2022-05-18 2022-09-02 匀熵智能科技(无锡)有限公司 一种结合Transformer的轻量化中文语音识别方法
CN116013309A (zh) * 2023-01-14 2023-04-25 西南大学 基于轻量化Transformer网络的语音识别系统及方法

Also Published As

Publication number Publication date
CN117059081B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN112037798B (zh) 基于触发式非自回归模型的语音识别方法及系统
CN111048082B (zh) 一种改进的端到端语音识别方法
CN111415667B (zh) 一种流式端到端语音识别模型训练和解码方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN112464861B (zh) 用于智能人机交互的行为早期识别方法、系统及存储介质
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN111477221A (zh) 采用双向时序卷积与自注意力机制网络的语音识别系统
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN111261223B (zh) 一种基于深度学习的crispr脱靶效应预测方法
CN113257248B (zh) 一种流式和非流式混合语音识别系统及流式语音识别方法
CN113378973B (zh) 一种基于自注意力机制的图像分类方法
CN115101085A (zh) 一种卷积增强外部注意力的多说话人时域语音分离方法
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
CN113656569A (zh) 一种基于上下文信息推理的生成式对话方法
CN113488029A (zh) 基于参数共享非自回归语音识别训练解码方法及系统
CN114238652A (zh) 一种用于端到端场景的工业故障知识图谱建立方法
Yook et al. Voice conversion using conditional CycleGAN
Papadimitriou et al. End-to-End Convolutional Sequence Learning for ASL Fingerspelling Recognition.
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN117059081B (zh) 一种轻量化语音识别方法、计算机设备及可读存储介质
CN116994573A (zh) 一种基于脉冲神经网络的端到端语音识别方法与系统
Narayanan et al. Hierarchical sequence to sequence voice conversion with limited data
CN113946670B (zh) 一种面向对话情感识别的对比式上下文理解增强方法
Tanaka et al. End-to-end rich transcription-style automatic speech recognition with semi-supervised learning
CN115115667A (zh) 一种基于目标变换回归网络的精确目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Ding Yi

Inventor after: Li Le

Inventor after: Wang Hao

Inventor after: Hong Xingjian

Inventor after: Leng Dong

Inventor after: Li Shangran

Inventor after: Wei Guangyong

Inventor after: Duan Zhikui

Inventor after: Huang Hailiang

Inventor after: Bai Jian

Inventor after: Zhang Hailin

Inventor after: Lu Heping

Inventor after: Li Changjie

Inventor after: Chen Huanran

Inventor before: Huang Hailiang

Inventor before: Li Le

Inventor before: Wang Hao

Inventor before: Hong Xingjian

Inventor before: Leng Dong

Inventor before: Ding Yi

Inventor before: Wei Guangyong

Inventor before: Duan Zhikui

Inventor before: Bai Jian

Inventor before: Liang Yingwei

Inventor before: Zhang Hailin

Inventor before: Lu Heping

Inventor before: Li Changjie

Inventor before: Chen Huanran

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant