CN111508487A - 基于膨胀机制的特征提取方法及语音命令识别方法 - Google Patents
基于膨胀机制的特征提取方法及语音命令识别方法 Download PDFInfo
- Publication number
- CN111508487A CN111508487A CN202010286045.5A CN202010286045A CN111508487A CN 111508487 A CN111508487 A CN 111508487A CN 202010286045 A CN202010286045 A CN 202010286045A CN 111508487 A CN111508487 A CN 111508487A
- Authority
- CN
- China
- Prior art keywords
- expansion
- layer
- attention
- head
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 167
- 238000000605 extraction Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 168
- 238000004364 calculation method Methods 0.000 claims abstract description 66
- 238000004590 computer program Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 9
- 230000010339 dilation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000013409 limited attention Diseases 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了一种基于膨胀机制的特征提取方法、装置、存储介质、计算机设备以及语音命令识别方法,其中特征提取方法包括:获取第一特征矩阵;将第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,第二特征矩阵的列数为指定值N;将第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵,膨胀注意力机制网络包括M层膨胀多头注意力层,每层的注意力头数量相同且膨胀机制系数不同,每层膨胀多头注意力层的膨胀机制系数依据第二特征矩阵的列数及注意力头数量而设定,这样以堆叠多层的多头注意力机制来使网络计算量更少,再结合膨胀机制来增加注意力的视野,实现全范围内的特征选择,提高特征提取效果。
Description
技术领域
本申请涉及特征提取技术领域,具体涉及一种基于膨胀机制的特征提取方法、装置、存储介质、计算机设备及语音命令识别方法。
背景技术
目前,语音唤醒、语音识别等场景所使用的模型,通常采用Encoder-Decoder架构来实现。而在Encoder和Decoder的内部网络实现上,一般以“多头注意力机制”结合“全连接层”的形式来实现特征提取。但是由于单个多头注意力机制存在注意力视野受限的问题,学习能力有限,需要全连接层配合来提升学习能力,故每一个多头注意力(Multi_headattention)的运算前后都要有全连接层的参与,造成计算量过大。而为了减少计算量,少采用全连接层则会存在多头注意力机制的注意力视野受限问题,其视野受限主要是由于对特征维度进行“连续等分”策略导致的,每个“头”只能见到与其相邻的数据,无法学习更多的信息,从而导致全局信息的丢失,致使特征提取效果不佳。
发明内容
本申请的主要目的为提供一种基于膨胀机制的特征提取方法、装置、存储介质、计算机设备及语音命令识别方法,旨在解决现有技术中特性选择效果不佳的技术问题。
基于上述发明目的,本申请实施例提出一种基于膨胀机制的特征提取方法,包括:
获取第一特征矩阵;
将所述第一特征矩阵输入预设的全连接层进行转换得到第二特征矩阵,所述第二特征矩阵的列数为一指定值N,N为正整数;
将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述膨胀注意力机制网络包括M层膨胀多头注意力层,每层所述膨胀多头注意力层中的注意力头数量相同且膨胀机制系数不同,每层所述膨胀多头注意力层的膨胀机制系数依据所述第二特征矩阵的列数以及所述注意力头数量而设定,M为正整数。
进一步地,各所述膨胀多头注意力层的膨胀机制系数与注意力头数量以及所述第二特征矩阵列数的关系满足以下公式:
N/head*(dilate+1)=w,
其中,dilate<head,N为所述第二特征矩阵的列数,head为所述注意力头的数量,dilate为所述膨胀机制系数,w为N的约数。
进一步地,所述膨胀注意力机制网络包括横向膨胀网络,所述横向膨胀网络中的膨胀多头注意力层相互独立,所述将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入所述横向膨胀网络进行计算,得到M个第一矩阵;
将M个所述第一矩阵进行拼接,得到所述第三特征矩阵。
进一步地,所述将所述第二特征矩阵输入所述横向膨胀网络进行计算,得到M个第一矩阵的步骤,包括:
在各所述多头注意力网络中对所述第二特征矩阵按每间隔一指定列数取一次特征的方式进行选取特征,将选取后的特征进行计算得到分别对应各所述膨胀多头注意力层的第一矩阵,所述指定列数与所述膨胀机制系数一致。
进一步地,所述膨胀注意力机制网络包括纵向膨胀网络,所述纵向膨胀网络中的各所述膨胀多头注意力层依次首尾连接,所述将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入第一层膨胀多头注意力层进行计算,得到第一结果;
将所述第一结果输入第二层膨胀多头注意力层进行计算,得到第二结果,如此以上一层输出数据作为下一层输入数据的方式遍历M层所述膨胀多头注意力机制层,得到所述第三特征矩阵。
进一步地,所述纵向膨胀网络包括多层依次首尾连接且膨胀机制系数不同的多头注意力机制层,其中,连接所述全连接层的膨胀多头注意力层为所述纵向膨胀网络的第一层,且第一层的膨胀多头注意力层的膨胀机制系数最小,前一膨胀多头注意力层的膨胀机制系数均比后一膨胀多头注意力层的膨胀机制系数大。
本申请实施例还提出了一种语音命令识别方法,包括:
获取对应语音命令的音频数据,并对所述音频数据进行特征提取,得到所述第一特征矩阵;
将所述第一特征矩阵通过如权利要求1-6所述的基于膨胀机制的特征提取方法进行处理得到所述第三特征矩阵;
将所述第三特征矩阵输入soft_attention层进行计算,得到对所述第三特征矩阵进行压缩后的特征向量;
将所述特征向量输入softmax层进行计算,得到对应所述音频数据的类别及对应的概率值。
本申请实施例还提出了一种存储介质,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上述基于膨胀机制的特征提取方法以及语音命令识别方法。
本申请实施例还提出了一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被执行时实现如上述基于膨胀机制的特征提取方法以及语音命令识别方法。
本申请的有益效果:
本申请提出了一种基于膨胀机制的特征提取方法、装置、存储介质及计算机设备,该基于膨胀机制的特征提取方法中,通过多头注意力机制以及膨胀机制结合的膨胀注意力机制层来进行特征提取,在通过多头注意力机制来保持参数量足够计算量更少的情况下,通过膨胀机制来增加注意力的视野,在固定注意力头的数量的同时,让每个头能看到的不局限于左右帧的数据,从而通过多层不同膨胀机制系数的多头注意力层的堆叠实现在全范围内的特征提取。
附图说明
图1是本申请一实施例的基于基于膨胀机制的特征提取方法的流程示意图;
图2是本申请一实施例的基于多头注意力机制的特征提取装置的结构示意框图;
图3是本申请的存储介质的一实施例的结构示意框图;
图4是本申请的计算机设备的一实施例的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
参照图1,本申请提供的一种基于膨胀机制的特征提取方法的流程示意图,上述方法具体可通过模型的全连接层以及膨胀注意力机制层,上述一种基于膨胀机制的特征提取方法,包括:
步骤S1:获取第一特征矩阵;
步骤S2:将所述第一特征矩阵输入预设的全连接层进行转换得到第二特征矩阵,所述第二特征矩阵的列数为一指定值N,N为正整数;
步骤S3:将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后第三特征矩阵,所述膨胀注意力机制网络包括M个膨胀多头注意力层,每个所述膨胀多头注意力层中的注意力头数量相同且膨胀机制系数不同,每层所述膨胀多头注意力层的膨胀机制系数依据所述第二特征矩阵的列数以及所述注意力头数量而设定,M为正整数。
如上述步骤S1所述,上述特征提取方法基于多头注意力机制(Multi_headattention)实现,主要应用于语音命令识别,语音唤醒等网络模型中,具体而言,可首先获取一段音频数据,然后对该段音频数据进行提取,得到相应的特征矩阵,即上述第一特征矩阵,举例地,获取一段定长的语音片段,以20ms为窗长,10ms为步长进行分帧,提取每帧音频的Fbank特征,通常每帧语音数据提取的Fbank特征一般为40维,当提取的Fbank特征的帧数量为n帧时,上述第一特征矩阵的行列数为n*40。
如上述步骤S2-S3所述,将上述第一特征矩阵输入至全连接层,该全连接层包含有预设数量神经元,这样可将第一特征矩阵的列数扩展至与上述预设数量对应的列数,使得第二特征矩阵的列数为指定值N,例如,将上述第一特征矩阵的列数从40列扩展到64列,这样不但可以增加特征量,且可将第一特征矩阵调整至适当的列数,以便采用该列数及注意力头的数量来确定膨胀机制(dilate)系数的取值范围。然后通过全连接层计算得到第二特征矩阵后,将第二特征矩阵输入到膨胀注意力机制层进行计算,得到特征提取后的第三特征矩阵。其中膨胀注意力机制层包括M层注意力头数量相同且膨胀机制系数不同的膨胀多头注意力层,且每层膨胀多头注意力层的膨胀机制系数均依据第二特征矩阵的列数N以及注意力头数量而设定。
举例地,对于列数为64的第二特征矩阵,对应的膨胀注意力机制网络包括4层注意力头数量均为8的膨胀多头注意力层,每层的每个注意力头可对第二特征矩阵的8列进行计算,即对第二特征矩阵中的64列进行八等分,每层膨胀多头注意力层的膨胀机制系数不同,其膨胀机制系数依次分别为0、1、3以及7,也即第一层膨胀多头注意力层中的每个注意力头之间没有间隔,第二层膨胀多头注意力层中的每个注意力头之间间隔1列,第三层膨胀多头注意力层中的每个注意力头之间间隔3列,第四层膨胀多头注意力层中的每个注意力头之间间隔7列,这样可以让每个注意力头能看到的不局限于在左右帧的数据,增加注意力的视野,使得在计算量更小的前提下选择特征。
在一个实施例中,各膨胀多头注意力层的膨胀机制系数与第二特征矩阵的列数以及注意力头数量的关系满足以下公式:
N/head*(dilate+1)=w,
其中,dilate<head,N为所述第二特征矩阵的列数,head为所述注意力头的数量,dilate为所述膨胀机制系数,w为N的约数。
本实施例中,膨胀多头注意力层的层数由满足上述公式的膨胀机制系数的个数决定,举例地:N=64时,N的约数包含[1248163264],参照上述公式,当head=1,则dilate=0,此时膨胀机制系数为0;当head=2,即将64列进行2等分,对应每份为32列,此时dilate=0,1,即可设置两层膨胀机制系数分别为0和1的膨胀多头注意力层,且每层的注意力头数量为2,每个注意力头计算的矩阵列数为32列;当head=3,不满足上述公式,故不能采用上述膨胀机制;当head=4,即将64列进行4等分,每等分为16列,此时dilate=0,1,3,即可设置三层膨胀机制系数分别为0、1及3的膨胀多头注意力层,每层注意力头数量为4,每个注意力头计算的矩阵列数为16列;当head=5,不满足上述公式,故不能采用上述膨胀机制;当head=6,不满足上述公式,故不能采用上述膨胀机制;当head=7,不满足上述公式,故不能采用上述膨胀机制;当head=8,即将64列进行8等分,每等分为8列,此时dilate=0,1,3,7,即可设置四层膨胀机制系数分别为0、1、3及7的膨胀多头注意力层,注意力头的数量为8,每个注意力头计算矩阵列数为8列;以此类推,当head=16,则dilate=0,1,3,7,15;当head=32,则dilate=0,1,3,7,15,31。
又如:N=40时,N的约数包含[12458102040],当head=1,则dilate=0;当head=2,则dilate=0,1;当head=3,不满足上述公式,故不能采用上述膨胀机制;当head=4,则dilate=0,1,3;当head=5,则dilate=0,1,4;当head=6,不满足上述公式,故不能采用上述膨胀机制;head=7,不满足上述公式,故不能采用上述膨胀机制;当head=8,则dilate=0,1,3,7;当head=10,则dilate=0,1,3,4,7;当head=20,则dilate=0,1,3,4,9,19。
在一个实施例中,所述膨胀注意力机制层包括横向膨胀网络,所述横向膨胀网络中的所述膨胀多头注意力层相互独立,上述步骤S3,包括:
步骤S31:将所述第二特征矩阵输入所述横向膨胀网络进行计算,得到M个第一矩阵;
步骤S32:将各所述第一矩阵进行拼接,得到所述第三特征矩阵。
本实施例中,上述横向膨胀网络包括多层膨胀多头注意力层,每层膨胀多头注意力层相互独立运算,且各层多头注意力网络的膨胀机制系数逐个增大,当将第二特征矩阵输入上述各膨胀多头注意力层分别计算,可得到相应的第一矩阵,第一矩阵的个数与膨胀多头注意力层的层数一致,然后将这些第一矩阵进行拼接得到上述第三特征矩阵。在另一实施例中,也可以将各个第一矩阵进行求和得到上述第三特征矩阵。
在一个实施例中,上述步骤S31,包括:
步骤S310:在各所述多头注意力网络中对所述第二特征矩阵按每隔一指定列数取一次特征的方式进行选取特征,将选取后的特征进行计算得到分别对应各所述膨胀多头注意力层的第一矩阵,所述指定列数与所述膨胀机制系数一致。
本实施例中,在各层膨胀多头注意力层中,分别依据其对应的膨胀机制系数选取特征,计算得到相应的维度矩阵,具体而言,按照每个隔一指定列数取一次特征的方式进行选取特征,再将选取的特征进行计算,上述指定列数与膨胀机制得系数一致,举例地,当注意力头数为8时,即将64列特征8等分,每等分为8列,膨胀机制系数取值为[0,1,3,7],膨胀机制系数决定了等分之间的间隔,也即决定了每个多头注意力之间间隔的列数,第一个多头注意力网络中,膨胀机制系数为0时,也即间隔的指定列数为0,这时可连续取矩阵的8个8列的矩阵特征,在第二层膨胀多头注意力层中,膨胀机制系数为1,每隔1列取一份8列的矩阵特征,在第三层膨胀多头注意力层中,膨胀机制系数为3,每隔3列取一份8列的矩阵特征,在第四层膨胀多头注意力层中,膨胀机制系数为7,每隔7列取一份8列的矩阵特征,然后在各多头注意力网络中将选取的特征进行相乘计算,得到相应的第一矩阵。
在一个实施例中,上述膨胀注意力机制层包括纵向膨胀网络,所述纵向膨胀网络中的各所述多头注意力网络依次首尾连接,上述步骤S3包括:
步骤S31’:将所述第二特征矩阵输入第一层膨胀多头注意力层进行计算,得到第一结果;
步骤S32’:将所述第一结果输入第二层膨胀多头注意力网络进行计算,得到第二结果,如此以上一输出为下一输入的方式遍历M层所述膨胀多头注意力机制层,得到所述第三特征矩阵。
本实施例中,纵向网络中的各膨胀多头注意力层依次首尾相接,使得前一层的输出数据为后一层的输入数据,当将第二特征矩阵输入第一层膨胀多头注意力层进行计算,得到第一结果,然后将第一结果输入第二层膨胀多头注意力层进行计算得到第二结果,然后将第二结果输入第三层膨胀多头注意力层进行计算得到第三结果,如此类推,直至将倒数第二个结果输入最后一层膨胀多头注意力层进行计算,得到上述第三特征矩阵。
在一个实施例中,上述纵向膨胀网络的多个多头注意力网络中,从第一层膨胀多头注意力层开始,各层膨胀多头注意力层的膨胀机制系数逐个增大,其中,连接全连接层的膨胀多头注意力层为纵向膨胀网络的第一层,且第一层的膨胀多头注意力层的膨胀机制系数最小,每层膨胀多头注意力层的膨胀机制系数均比后一层的膨胀多头注意力层的膨胀机制系数大;同理的,计算时,在各层膨胀多头注意力层中对前一层输入的特征矩阵按每隔一指定列数取一次特征的方式进行选取特征,再进行计算得到相应的结果,再将该结果输入下一层,上述指定列数与膨胀机制系数一致。
本发明还提供一种语音命令识别方法,包括:
步骤S01:获取对应语音命令的音频数据,并对所述音频数据进行特征计算,得到所述第一特征矩阵;
步骤S02:将上述第一特征矩阵输入通过上述基于膨胀机制的特征提取方法进行处理,得到所述第三特征矩阵;
步骤S03:将所述第三特征矩阵输入soft_attention层进行计算,得到对上述第三特征矩阵进行压缩后的特性向量;
步骤S04:将所述特征向量输入softmax层进行计算,得到对应所述音频数据中多分类的类别及对应的概率值。
本实施例中,上述语音命令识别模型包括特征提取模块,特征提取模块后连接一个全连接层,之后接多层膨胀注意力机制层,然后再接一层soft_attention层,最后接一层softmax层。
具体而言,首先获取一段需要识别的音频数据,然后通过特征提取模块进行提取,通常提取出的特征为40维,一次输入n帧,则得到行列数为n*40的第一特征矩阵,然后将第一特征矩阵输入全连接层,得到列数经过扩展后的行列数为n*64的第二特征矩阵,然后将第二特征矩阵输入上述膨胀多头注意力机制网络进行特性选择,得到第三特征矩阵,本实施例中,膨胀注意力机制网络采用注意力头数为8,膨胀系数分别为0、1、3及7的横向膨胀网络,经过四个并行的膨胀多头注意力层计算输出四个n*64的特征矩阵,再将四个特征矩阵拼接成一个n*256的大矩阵,该大矩阵即上述第三特征矩阵,然后输入soft_attention层进行进行维度压缩,输出1*256的注意力向量,即得到对上述第三特征矩阵进行压缩后的特征向量,将特征向量输入softmax层进行计算,得到对应音频数据中多分类的类别及对应的概率值。
本申请还提出了一种基于膨胀机制的特征提取装置,用于执行上述基于基于膨胀机制的特征提取方法,基于膨胀机制的特征提取装置具体可通过软件或硬件的形式实现。参照图2,上述基于基于膨胀机制的特征提取装置包括:
获取特征单元100,用于获取第一特征矩阵;
第一计算单元200,用于将所述第一特征矩阵输入预设的全连接层进行转换得到第二特征矩阵,所述第二特征矩阵的列数为一指定值N,N为正整数;
第二计算单元300,用于将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述膨胀注意力机制网络包括M个的膨胀多头注意力层,每个所述膨胀多头注意力层中的注意力头数量相同且膨胀机制系数不同,每层所述膨胀多头注意力层的膨胀机制系数依据所述第二特征矩阵的列数以及所述注意力头数量而设定,M为正整数。
如上述获取特征单元1001所述,上述特征提取方法基于多头注意力机制(Multi_head attention)实现,主要应用于语音命令识别,语音唤醒等网络模型中,具体而言,可首先获取一段音频数据,然后对该段音频数据进行提取,得到相应的特征矩阵,即上述第一特征矩阵,举例地,获取一段定长的语音片段,以20ms为窗长,10ms为步长进行分帧,提取每帧音频的Fbank特征,通常每帧语音数据提取的Fbank特征一般为40维,当提取的Fbank特征的帧数量为n帧时,上述第一特征矩阵的行列数为n*40。
如上述第一计算单元200以及第二计算单元300所述,将上述第一特征矩阵输入至全连接层,该全连接层包含有预设数量神经元,这样可将第一特征矩阵的列数扩展至与上述预设数量对应的列数,使得第二特征矩阵的列数为指定值N,例如,将上述第一特征矩阵的列数从40列扩展到64列,这样不但可以增加特征量,且可将第一特征矩阵调整至适当的列数,以便采用该列数及注意力头的数量来确定膨胀机制(dilate)系数的取值范围。然后通过全连接层计算得到第二特征矩阵后,将第二特征矩阵输入到膨胀注意力机制层进行计算,得到特征提取后的第三特征矩阵。其中膨胀注意力机制层包括M层注意力头数量相同且膨胀机制系数不同的膨胀多头注意力层,且每层膨胀多头注意力层的膨胀机制系数均依据第二特征矩阵的列数N以及注意力头数量而设定。
举例地,对于列数为64的第二特征矩阵,对应的膨胀注意力机制网络包括4层注意力头数量均为8的膨胀多头注意力层,每层的每个注意力头可对第二特征矩阵的8列进行计算,即对第二特征矩阵中的64列进行八等分,每层膨胀多头注意力层的膨胀机制系数不同,其膨胀机制系数依次分别为0、1、3以及7,也即第一层膨胀多头注意力层中的每个注意力头之间没有间隔,第二层膨胀多头注意力层中的每个注意力头之间间隔1列,第三层膨胀多头注意力层中的每个注意力头之间间隔3列,第四层膨胀多头注意力层中的每个注意力头之间间隔7列,这样可以让每个注意力头能看到的不局限于在左右帧的数据,增加注意力的视野,使得在计算量更小的前提下选择特征。
在一个实施例中,各膨胀多头注意力层的膨胀机制系数与第二特征矩阵的列数以及注意力头数量的关系满足以下公式:
N/head*(dilate+1)=w,
其中,dilate<head,N为所述第二特征矩阵的列数,head为所述注意力头的数量,dilate为所述膨胀机制系数,w为N的约数。
本实施例中,膨胀多头注意力层的层数由满足上述公式的膨胀机制系数的个数决定,举例地:N=64时,N的约数包含[1248163264],参照上述公式,当head=1,则dilate=0,此时膨胀机制系数为0;当head=2,即将64列进行2等分,对应每份为32列,此时dilate=0,1,即可设置两层膨胀机制系数分别为0和1的膨胀多头注意力层,且每层的注意力头数量为2,每个注意力头计算的矩阵列数为32列;当head=3,不满足上述公式,故不能采用上述膨胀机制;当head=4,即将64列进行4等分,每等分为16列,此时dilate=0,1,3,即可设置三层膨胀机制系数分别为0、1及3的膨胀多头注意力层,每层注意力头数量为4,每个注意力头计算的矩阵列数为16列;当head=5,不满足上述公式,故不能采用上述膨胀机制;当head=6,不满足上述公式,故不能采用上述膨胀机制;当head=7,不满足上述公式,故不能采用上述膨胀机制;当head=8,即将64列进行8等分,每等分为8列,此时dilate=0,1,3,7,即可设置四层膨胀机制系数分别为0、1、3及7的膨胀多头注意力层,注意力头的数量为8,每个注意力头计算矩阵列数为8列;以此类推,当head=16,则dilate=0,1,3,7,15;当head=32,则dilate=0,1,3,7,15,31。
又如:N=40时,N的约数包含[12458102040],当head=1,则dilate=0;当head=2,则dilate=0,1;当head=3,不满足上述公式,故不能采用上述膨胀机制;当head=4,则dilate=0,1,3;当head=5,则dilate=0,1,4;当head=6,不满足上述公式,故不能采用上述膨胀机制;head=7,不满足上述公式,故不能采用上述膨胀机制;当head=8,则dilate=0,1,3,7;当head=10,则dilate=0,1,3,4,7;当head=20,则dilate=0,1,3,4,9,19。
在一个实施例中,所述膨胀注意力机制层包括横向膨胀网络,所述横向膨胀网络中的所述膨胀多头注意力层相互独立,上述第二计算单元300,包括:
计算特征子单元,用于将所述第二特征矩阵输入所述横向膨胀网络进行计算,得到M个第一矩阵;
拼接矩阵子单元,用于将各所述第一矩阵进行拼接,得到所述第三特征矩阵。
本实施例中,上述横向膨胀网络包括多层膨胀多头注意力层,每层膨胀多头注意力层相互独立运算,且各层多头注意力网络的膨胀机制系数逐个增大,当将第二特征矩阵输入上述各膨胀多头注意力层分别计算,可得到相应的第一矩阵,第一矩阵的个数与膨胀多头注意力层的层数一致,然后将这些第一矩阵进行拼接得到上述第三特征矩阵。在另一实施例中,也可以将各个第一矩阵进行求和得到上述第三特征矩阵。
在一个实施例中,上述计算特征子单元,包括:
选取特征模块,用于在各所述多头注意力网络中对所述第二特征矩阵按每隔一指定列数取一次特征的方式进行选取特征,将选取后的特征进行计算得到分别对应各所述膨胀多头注意力层的第一矩阵,所述指定列数与所述膨胀机制系数一致。
本实施例中,在各层膨胀多头注意力层中,分别依据其对应的膨胀机制系数选取特征,计算得到相应的维度矩阵,具体而言,按照每个隔一指定列数取一次特征的方式进行选取特征,再将选取的特征进行计算,上述指定列数与膨胀机制得系数一致,举例地,当注意力头数为8时,即将64列特征8等分,每等分为8列,膨胀机制系数取值为[0,1,3,7],膨胀机制系数决定了等分之间的间隔,也即决定了每个多头注意力之间间隔的列数,第一个多头注意力网络中,膨胀机制系数为0时,也即间隔的指定列数为0,这时可连续取矩阵的8个8列的矩阵特征,在第二层膨胀多头注意力层中,膨胀机制系数为1,每隔1列取一份8列的矩阵特征,在第三层膨胀多头注意力层中,膨胀机制系数为3,每隔3列取一份8列的矩阵特征,在第四层膨胀多头注意力层中,膨胀机制系数为7,每隔7列取一份8列的矩阵特征,然后在各多头注意力网络中将选取的特征进行相乘计算,得到相应的第一矩阵。
在一个实施例中,上述膨胀注意力机制层包括纵向膨胀网络,所述纵向膨胀网络中的各所述多头注意力网络依次首尾连接,上述第二计算单元300包括:
第一计算子单元,用于将所述第二特征矩阵输入第一层膨胀多头注意力层进行计算,得到第一结果;
第二计算单元,用于将所述第一结果输入第二层膨胀多头注意力网络进行计算,得到第二结果,如此以上一输出为下一输入的方式遍历M层所述膨胀多头注意力机制层,得到所述第三特征矩阵。
本实施例中,纵向网络中的各膨胀多头注意力层依次首尾相接,使得前一层的输出数据为后一层的输入数据,当将第二特征矩阵输入第一层膨胀多头注意力层进行计算,得到第一结果,然后将第一结果输入第二层膨胀多头注意力层进行计算得到第二结果,然后将第二结果输入第三层膨胀多头注意力层进行计算得到第三结果,如此类推,直至将倒数第二个结果输入最后一层膨胀多头注意力层进行计算,得到上述第三特征矩阵。
在一个实施例中,上述纵向膨胀网络的多个多头注意力网络中,从第一层膨胀多头注意力层开始,各层膨胀多头注意力层的膨胀机制系数逐个增大,其中,连接全连接层的膨胀多头注意力层为纵向膨胀网络的第一层,且第一层的膨胀多头注意力层的膨胀机制系数最小,每层膨胀多头注意力层的膨胀机制系数均比后一层的膨胀多头注意力层的膨胀机制系数大;同理的,计算时,在各层膨胀多头注意力层中对前一层输入的特征矩阵按每隔一指定列数取一次特征的方式进行选取特征,再进行计算得到相应的结果,再将该结果输入下一层,上述指定列数与膨胀机制系数一致。
参考图3,本申请还提供了一种计算机可读的存储介质21,存储介质21中存储有计算机程序22,当其在计算机上运行时,使得计算机执行以上实施例所描述基于膨胀机制的特征提取方法以及语音命令识别方法。
参考图4,本申请还提供了一种包含指令的计算机设备34,计算机设备包括存储器31和处理器33,存储器31存储有计算机程序22,处理器33执行计算机程序22时实现以上实施例所描述的基于膨胀机制的特征提取方法以及语音命令识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于膨胀机制的特征提取方法,其特征在于,包括:
获取第一特征矩阵;
将所述第一特征矩阵输入预设的全连接层进行转换得到第二特征矩阵,所述第二特征矩阵的列数为一指定值N,N为正整数;
将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述膨胀注意力机制网络包括M层膨胀多头注意力层,每层所述膨胀多头注意力层中的注意力头数量相同且膨胀机制系数不同,每层所述膨胀多头注意力层的膨胀机制系数依据所述第二特征矩阵的列数以及所述注意力头数量而设定,M为正整数。
2.如权利要求1所述的基于膨胀机制的特征提取方法,其特征在于,各所述膨胀多头注意力层的膨胀机制系数与注意力头数量以及所述第二特征矩阵列数的关系满足以下公式:
N/head*(dilate+1)=w,
其中,dilate<head,N为所述第二特征矩阵的列数,head为所述注意力头的数量,dilate为所述膨胀机制系数,w为N的约数。
3.如权利要求2所述的基于膨胀机制的特征提取方法,其特征在于,所述膨胀注意力机制网络包括横向膨胀网络,所述横向膨胀网络中的膨胀多头注意力层相互独立,所述将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入所述横向膨胀网络进行计算,得到M个第一矩阵;
将M个所述第一矩阵进行拼接,得到所述第三特征矩阵。
4.如权利要求3所述的基于膨胀机制的特征提取方法,其特征在于,所述将所述第二特征矩阵输入所述横向膨胀网络进行计算,得到M个第一矩阵的步骤,包括:
在各所述多头注意力网络中对所述第二特征矩阵按每间隔一指定列数取一次特征的方式进行选取特征,将选取后的特征进行计算得到分别对应各所述膨胀多头注意力层的第一矩阵,所述指定列数与所述膨胀机制系数一致。
5.如权利要求2所述的基于膨胀机制的特征提取方法,其特征在于,所述膨胀注意力机制网络包括纵向膨胀网络,所述纵向膨胀网络中的各所述膨胀多头注意力层依次首尾连接,所述将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入第一层膨胀多头注意力层进行计算,得到第一结果;
将所述第一结果输入第二层膨胀多头注意力层进行计算,得到第二结果,如此以上一层输出数据作为下一层输入数据的方式遍历M层所述膨胀多头注意力机制层,得到所述第三特征矩阵。
6.如权利要求5所述的基于膨胀机制的特征提取方法,其特征在于,
所述纵向膨胀网络包括多层依次首尾连接且膨胀机制系数不同的多头注意力机制层,其中,连接所述全连接层的膨胀多头注意力层为所述纵向膨胀网络的第一层,且第一层的膨胀多头注意力层的膨胀机制系数最小,前一膨胀多头注意力层的膨胀机制系数均比后一膨胀多头注意力层的膨胀机制系数大。
7.一种语音命令识别方法,其特征在于,包括:
获取对应语音命令的音频数据,并对所述音频数据进行特征提取,得到所述第一特征矩阵;
将所述第一特征矩阵通过如权利要求1-6任一项所述的基于膨胀机制的特征提取方法进行处理得到所述第三特征矩阵;
将所述第三特征矩阵输入soft_attention层进行计算,得到对所述第三特征矩阵进行压缩后的特征向量;
将所述特征向量输入softmax层进行计算,得到对应所述音频数据的类别及对应的概率值。
8.一种基于膨胀机制的特征提取装置,其特征在于,包括
获取特征单元,用于获取第一特征矩阵;
第一计算单元,用于将所述第一特征矩阵输入预设的全连接层进行转换得到第二特征矩阵,所述第二特征矩阵的列数为一指定值N,N为正整数;
第二计算单元,用于将所述第二特征矩阵输入预设的膨胀注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述膨胀注意力机制网络包括M层膨胀多头注意力层,每层所述膨胀多头注意力层中的注意力头数量相同且膨胀机制系数不同,每层所述膨胀多头注意力层的膨胀机制系数依据所述第二特征矩阵的列数以及所述注意力头数量而设定,M为正整数。
9.一种存储介质,其特征在于,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1~6任一项所述的基于多头注意力机制的特征提取方法,以及所述计算机程序被执行时实现如权利要求7所述的语音命令识别方法。
10.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被执行时实现如权利要求1~6任一项所述的基于多头注意力机制的特征提取方法,以及所述计算机程序被执行时实现如权利要求7所述的语音命令识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010286045.5A CN111508487B (zh) | 2020-04-13 | 2020-04-13 | 基于膨胀机制的特征提取方法及语音命令识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010286045.5A CN111508487B (zh) | 2020-04-13 | 2020-04-13 | 基于膨胀机制的特征提取方法及语音命令识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508487A true CN111508487A (zh) | 2020-08-07 |
CN111508487B CN111508487B (zh) | 2023-07-18 |
Family
ID=71875967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010286045.5A Active CN111508487B (zh) | 2020-04-13 | 2020-04-13 | 基于膨胀机制的特征提取方法及语音命令识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508487B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022053900A1 (en) * | 2020-09-09 | 2022-03-17 | International Business Machines Corporation | Speech recognition using data analysis and dilation of interlaced audio input |
US11538464B2 (en) | 2020-09-09 | 2022-12-27 | International Business Machines Corporation . | Speech recognition using data analysis and dilation of speech content from separated audio input |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
US20200034436A1 (en) * | 2018-07-26 | 2020-01-30 | Google Llc | Machine translation using neural network models |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN110767218A (zh) * | 2019-10-31 | 2020-02-07 | 南京励智心理大数据产业研究院有限公司 | 端到端语音识别方法、系统、装置及其存储介质 |
CN110930978A (zh) * | 2019-11-08 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语种识别方法、装置和用于语种识别的装置 |
-
2020
- 2020-04-13 CN CN202010286045.5A patent/CN111508487B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200034436A1 (en) * | 2018-07-26 | 2020-01-30 | Google Llc | Machine translation using neural network models |
US20200043483A1 (en) * | 2018-08-01 | 2020-02-06 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110767218A (zh) * | 2019-10-31 | 2020-02-07 | 南京励智心理大数据产业研究院有限公司 | 端到端语音识别方法、系统、装置及其存储介质 |
CN110930978A (zh) * | 2019-11-08 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语种识别方法、装置和用于语种识别的装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022053900A1 (en) * | 2020-09-09 | 2022-03-17 | International Business Machines Corporation | Speech recognition using data analysis and dilation of interlaced audio input |
US11495216B2 (en) | 2020-09-09 | 2022-11-08 | International Business Machines Corporation | Speech recognition using data analysis and dilation of interlaced audio input |
US11538464B2 (en) | 2020-09-09 | 2022-12-27 | International Business Machines Corporation . | Speech recognition using data analysis and dilation of speech content from separated audio input |
GB2615421A (en) * | 2020-09-09 | 2023-08-09 | Ibm | Speech recognition using data analysis and dilation of interlaced audio input |
Also Published As
Publication number | Publication date |
---|---|
CN111508487B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN111164601B (zh) | 情感识别方法、智能装置和计算机可读存储介质 | |
CN106960219B (zh) | 图片识别方法及装置、计算机设备及计算机可读介质 | |
CN111489738B (zh) | 基于多头注意力机制的特征提取方法及语音命令识别方法 | |
CN111489737A (zh) | 语音命令识别方法、装置、存储介质及计算机设备 | |
CN111243579B (zh) | 一种时域单通道多说话人语音识别方法与系统 | |
CN111508487A (zh) | 基于膨胀机制的特征提取方法及语音命令识别方法 | |
CN110942502A (zh) | 语音唇形拟合方法、系统及存储介质 | |
CN112800893A (zh) | 一种基于强化学习的人脸属性编辑方法 | |
CN110809126A (zh) | 一种基于自适应可变形卷积的视频帧插值方法及系统 | |
CN113673613A (zh) | 基于对比学习的多模态数据特征表达方法、装置及介质 | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
KR20180065762A (ko) | 매니폴드 제약 조건에 기반한 심층 신경망 압축 방법 및 그 장치 | |
CN113012689B (zh) | 一种电子设备和深度学习硬件加速方法 | |
CN116664731B (zh) | 人脸动画生成方法及装置、计算机可读存储介质、终端 | |
CN111985617B (zh) | 3d卷积神经网络在神经网络处理器上的处理方法和装置 | |
CN117725936A (zh) | 一种基于超图网络的长对话情感动态识别方法及系统 | |
CN115209150A (zh) | 一种视频编码参数获取方法、装置、网络模型及电子设备 | |
CN111783976B (zh) | 一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法和装置 | |
CN113095328A (zh) | 一种基尼指数引导的基于自训练的语义分割方法 | |
CN112863497B (zh) | 语音识别的方法及装置、电子设备和计算机可读存储介质 | |
CN111798859B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN113378660B (zh) | 一种低数据成本的人脸识别的方法及装置 | |
CN117292024B (zh) | 基于语音的图像生成方法、装置、介质及电子设备 | |
CN117793352B (zh) | 基于语义理解的视频压缩方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Feature extraction method and speech command recognition method based on inflation mechanism Granted publication date: 20230718 Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd. Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd. Registration number: Y2024980029366 |