CN111489738A - 基于多头注意力机制的特征提取方法及语音命令识别方法 - Google Patents

基于多头注意力机制的特征提取方法及语音命令识别方法 Download PDF

Info

Publication number
CN111489738A
CN111489738A CN202010287007.1A CN202010287007A CN111489738A CN 111489738 A CN111489738 A CN 111489738A CN 202010287007 A CN202010287007 A CN 202010287007A CN 111489738 A CN111489738 A CN 111489738A
Authority
CN
China
Prior art keywords
attention mechanism
layer
head attention
feature
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010287007.1A
Other languages
English (en)
Other versions
CN111489738B (zh
Inventor
徐泓洋
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010287007.1A priority Critical patent/CN111489738B/zh
Publication of CN111489738A publication Critical patent/CN111489738A/zh
Application granted granted Critical
Publication of CN111489738B publication Critical patent/CN111489738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本申请揭示了一种基于多头注意力机制的特征提取方法及语音命令识别方法、装置、存储介质以及计算机设备,其中基于多头注意力机制的特征提取方法包括:获取第一特征矩阵;将第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,第二特征矩阵的列数为N;将第二特征矩阵输入预设的多头注意力机制网络进行计算,得到第三特征矩阵,多头注意力机制网络包括M层多头注意力机制层,每层所述多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,且M为N所有约数的个数,这样只需一层全连接层以及多层不同的多头注意力机制层即可有效的实现特性提取,减少了由于多个全连接层所带来的巨大参数量,大大地降低计算量。

Description

基于多头注意力机制的特征提取方法及语音命令识别方法
技术领域
本申请涉及特征提取技术领域,具体涉及一种基于多头注意力机制的特征提取方法、装置、存储介质、计算机设备及语音命令识别方法。
背景技术
在语音唤醒、语音识别等场景中,其使用的模型通常采用Encoder-Decoder的架构,在Encoder和Decoder的内部网络实现上,当前一种比较新的方法是采用“多头注意力机制”结合“全连接层”的形式来实现特征提取,这种方式虽然效果上比较好,但是由于单个多头注意力机制存在注意力视野受限的问题,学习能力有限,需要全连接层配合来提升学习能力,故每一个多头注意力(Multi_head attention)的运算前后都要有全连接层的参与,通常,整个网络的全连接层数是多头注意力机制层数的三倍,而全连接层的参数量和计算量都相对比较大,导致了整个网络对计算资源的消耗比较大。
发明内容
本申请的主要目的为提供一种基于多头注意力机制的特征提取方法、装置、存储介质、计算机设备及语音命令识别方法,旨在解决现有技术中特征提取计算量过大的技术问题。
基于上述发明目的,本申请实施例提出一种基于多头注意力机制的特征提取方法,包括:
获取第一特征矩阵;
将所述第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,所述第二特征矩阵的列数为N,N为正整数;
将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述多头注意力机制网络包括M层多头注意力机制层,每层所述多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,且M为N所有约数的个数,K、M均为正整数。
进一步地,,所述多头注意力机制网络包括横向网络,所述横向网络中的多头注意力机制层相互独立,所述将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入所述横向网络进行计算,得到M个第一矩阵,每个所述第一矩阵对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
将各所述第一矩阵进行加权求和,得到所述第三特征矩阵。
进一步地,所述多头注意力机制网络包括横向网络,所述横向网络中的各多头注意力层相互独立,所述将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入所述横向网络进行计算,得到M个第二矩阵,每个所述第二矩阵对应对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
将各所述第二矩阵进行拼接,得到所述第三特征矩阵。
进一步地,所述多头注意力机制网络包括纵向网络,所述纵向网络中的多头注意力机制层依次首尾连接,所述将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入第一层多头注意力机制层进行计算,得到第一结果;
将所述第一结果输入第二层多头注意力机制层进行计算,得到第二结果,如此以上一层输出数据为下一层输入数据的方式遍历M层所述多头注意力机制层,得到所述第三特征矩阵。
进一步地,所述纵向网络包括多层依次首尾连接且K值不同的多头注意力机制层,其中,连接所述全连接层的多头注意力机制层为所述纵向网络的第一层,第一层的多头注意力机制层K值最大,且前一多头注意力机制层的K值均比后一多头注意力机制层的K值大。
本申请实施例还提出了一种语音命令识别方法,包括:
获取对应语音命令的音频数据,并对所述音频数据进行特征提取,得到所述第一特征矩阵;
将所述第一特征矩阵通过如上述的基于多头注意力机制的特征提取方法进行处理,得到第三特征矩阵;
将所述第三特征矩阵输入soft_attention层进行计算,得到对所述第三特征矩阵进行压缩后的特征向量;
将所述特征向量输入softmax层进行计算,得到对应所述音频数据多分类的类别及对应的概率值。
本申请实施例还提出了一种基于多头注意力机制的特征提取装置,包括:
获取特征单元,用于获取第一特征矩阵;
第一计算单元,用于将所述第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,所述第二特征矩阵的列数为N,N为正整数;
第二计算单元,用于将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述多头注意力机制网络包括M层多头注意力机制层,每层所述多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,且M为N所有约数的个数,K、M均为正整数。
进一步地,所述多头注意力机制网络包括横向网络,所述横向网络中的各多头注意力机制层相互独立,所述第二计算单元包括:
第一计算子单元,用于将所述第二特征矩阵输入所述横向网络进行计算,得到M个第一矩阵,每个所述第一矩阵对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
第二计算子单元,用于将各所述第一矩阵进行加权求和,得到所述第三特征矩阵。
本申请实施例还提出了一种存储介质,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述基于多头注意力机制的特征提取方法,以及所述计算机程序被执行时实现上述语音命令识别方法。
本申请实施例还提出了一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被执行时实现上述基于多头注意力机制的特征提取方法,以及所述计算机程序被执行时实现上述语音命令识别方法。
本申请的有益效果:
本申请提出了一种基于多头注意力机制的特征提取方法、存储介质及计算机设备,该特征提取方法中,通过设置一层全连接层以及多头注意力机制网络来进行特征提取,通过多头注意力机制网络中多层不同的多头注意力机制层进行计算,从而实现特征的多维选择提取,可从局部逐步扩展到全局,即可学习局部也同时兼顾全局,通过扩充特征的学习范围,增加注意力机制的作用,从而只需一层全连接层以及多层不同的多头注意力机制层即可有效的实现特性选择,减少了由于多个全连接层所带来的巨大参数量,大大地降低计算量。
附图说明
图1是本申请一实施例的基于多头注意力机制的特征提取方法的流程示意图;
图2是本申请一实施例的基于多头注意力机制的特征提取装置的结构示意框图;
图3是本申请的存储介质的一实施例的结构示意框图;
图4是本申请的计算机设备的一实施例的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
参照图1,本申请提供的一种基于多头注意力机制的特征提取方法的流程示意图,该特征提取方法,包括:
步骤S1:获取第一特征矩阵;
步骤S2:将所述第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,所述第二特征矩阵的列数为N,N为正整数;
步骤S3:将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述多头注意力机制网络包括M层多头注意力机制层,每层所述多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,且M为N所有约数的个数,K、M均为正整数。
如上述步骤S1所述,上述特征提取方法基于多头注意力机制(Multi_headattention)实现,主要应用于语音唤醒等网络模型中,具体而言,可首先获取一段音频数据,然后对该段音频数据进行提取,得到相应的特征矩阵,即上述第一特征矩阵,举例地,获取一段定长的语音片段,以20ms为窗长,10ms为步长进行分帧,提取每帧音频的Fbank特征,通常每帧语音数据提取的Fbank特征一般为40维,当提取的Fbank特征的帧数量为n帧时,上述第一特征矩阵即为行列数为n*40的特征矩阵,例如时长1s的音频处理后得到的第一特征矩阵的行列数为99*40。
如上述步骤S2所述,将第一特征矩阵输入上述全连接层,该全连接层可对第一特征矩阵进行转换,本实施例中,全连接层包含有N个的神经元,即fc(N),例如64个神经元,则全连接层为fc(64),这时计算后的第二特征矩阵的列数为N,即通过全连接层将第一特征矩阵的列数拓展至N,N为正整数,例如将99*40的第一特征矩阵拓展成99*64的第二特征矩阵,或者拓展为99*128的第二特征矩阵。
如上述步骤S3所述,将上述第二特征矩阵输入多头注意力机制网络(headattention)进行计算,得到第三特征矩阵,上述多头注意力机制网络基于多头注意力机制构建,包括M层多头注意力机制层,每层多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,也即不同层的注意力头数量是第二特征矩阵列数的不同等分,优选地,M为N所有约数的个数,也即N有多少个约数,即有多少层多头注意力机制层,K、M均为正整数。
例如N值为64,K值可为2,4,8,16,32以及64,则上述多头注意力机制网络中包括有6层多头注意力机制层,各层的注意力头数分别为2,4,8,16,32,64,当K值为2时,注意力头数量为2的多头注意力机制层,对第二特征矩阵的列数进行二等分,即该层中每个注意力头可对应计算第二特征矩阵中的32列数据,当K值为4时,注意力头数量为4的多头注意力机制层,对第二特征矩阵的列数进行四等分,即该层中每个注意力头可对应计算第二特征矩阵中的16列数据;若N值为128,当K值为2时,注意力头数量为2的多头注意力机制层,可对第二特征矩阵的列数进行二等分,即该层中每个注意力头可对应计算第二特征矩阵中的64列数据,当K值为4时,注意力头数量为4的多头注意力机制层,可对第二特征矩阵的列数进行四等分,即该层中每个注意力头可对应计算第二特征矩阵中的32列数据。这样通过不同多头注意力层对特征矩阵进行计算,多个维度选择,从局部到全局,大范围多方面进行学习,有效地进行特征提取,只需单个全连接层以及多层注意力机制层即可实现有效提取特征,且由于减少全连接层,大大地减低计算量。
优选地,上述多头注意力机制层通过横向网络(Cascade Attention Net)或纵向网络(Coordinate Attention Net)来构建,其中,横向网络通过每个层独自计算后再加权求和得到结果,或者通过各个不同维度网络计算,然后将输出结果进行拼接;纵向网络通过前一层的输出为后一层的输入的方式进行计算得到计算结果。
在一个实施例中,上述多头注意力机制网络包括横向网络,横向网络中的多头注意力机制层相互独立,上述步骤S3,包括:
步骤S31:将所述第二特征矩阵输入所述横向网络进行计算,得到M个第一矩阵,每个所述第一矩阵对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
步骤S32:将各所述第一矩阵进行加权求和,得到所述第三特征矩阵。
本实施例中,上述横向网络包括多层多头注意力机制层,每层多头注意力机制层相互独立运算,当将第二特征矩阵输入上述横向网络进行计算,也即通过各层多头注意力机制层分别计算,可得分别到对应每层的第一矩阵,每个第一矩阵的列数为为N/K,然后针对不同列数的矩阵,分别进行加权,即将各个第一矩阵乘以相应的权重向量再求和,即通过特征加权求和来进行特征压缩,得到上述第三特征矩阵。
在一个具体实施例中,上述第二特征矩阵的列数为64,多头注意力机制层包括6层不同注意力头数的多头主意力层,其注意力头数依次分别为1、2、4、8、16、32,其中注意力头数为32的多头主意力机制层对第二特征矩阵进行32等分处理,每个注意力头分别计算其2列,依次类推,注意力头数为16的多头主意力机制层对第二特征矩阵进行16等分,每个注意力头分别计算其4列,这样将上述99*64大小的特征矩阵分别通过上述6层不同的注意力层进行计算,得到分别对应每层的第一矩阵,然后将分别乘以对应其列数的权重,再求和,即对各第一矩阵进行加权求和得到行列数为99*64的第三特征矩阵。
在一个实施例中,上述多头注意力机制层包括横向网络,横向网络中的多头注意力机制层相互独立,上述步骤S3,包括:
步骤S33:将所述第二特征矩阵输入所述横向网络进行计算,得到多个第二矩阵,每个所述第二矩阵对应对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
步骤S32:将各所述第二矩阵进行拼接,得到所述第三特征矩阵。
本实施例中,将第二特征矩阵输入到多层上述多头注意力层分别计算,计算过程参照上述步骤S31,得到多个第二矩阵后,将各个第二矩阵直接进行拼接,无需计算,即得到一个大矩阵,该大矩阵即上述第三特征矩阵。
在一个实施例中,上述多头注意力机制网络为纵向网络,纵向网络中的多头注意力层依次首尾连接,上述步骤S3,包括:
步骤S33:将所述第二特征矩阵输入第一个多头注意力机制层进行计算,得到第一结果;
步骤S34:将所述第一结果输入第二层多头注意力机制层进行计算,得到第二结果,如此以上一输出为下一输入的方式遍历M个所述多头注意力机制层,得到所述第三特征矩阵。
本实施例中,纵向网络中的多层的多头注意力机制层,依次首尾连接,使得前一层的输出数据为后一层的输入数据,当将第二特征矩阵输入第一层多头注意力机制层进行计算,得到第一结果,然后将第一结果输入第二层多头注意力机制层进行计算得到第二结果,然后将第二结果输入第三层多头注意力机制层进行计算得到第三结果,如此类推,直至将倒数第二个结果输入最后一层多头注意力机制层进行计算,得到上述第三特征矩阵。
优选地,上述纵向网络包括多层依次首尾连接且K值不同的多头注意力机制层,其中,连接全连接层的为该纵向网络的第一层,且第一层的多头注意力机制层K值最大,每层多头注意力机制层的K值均比后一层的多头注意力机制层的K值大,也即在纵向网络中K值逐层减小。例如,上述纵向网络包括6层多头注意力机制层,K=32,16,8,4,2,1,即第一层的K值为32,值最大,第二层为K值为16,第三层K值为8,第三层K值为4,第三层K值为2,第三层K值为1,逐层减小,对应的每层注意力头计算的矩阵列数逐层增加,由局部向全局扩展,全面学习,提取特征效果更佳。
本发明还提供一种语音命令识别方法,该方法包括:
步骤S01:获取音频数据,并对所述音频数据进行特征计算,得到所述第一特征矩阵;
步骤S02:将所述第一特征矩阵将所述第一特征矩阵通过如前述基于多头注意力机制的特征提取方法进行处理,得到所述第三特征矩阵;
步骤S03:将所述第三特征矩阵输入soft_attention层进行计算,得到对所述第三特征矩阵进行压缩后的特征向量;
步骤S04:将所述特征向量输入softmax层进行计算,得到对应所述音频数据的类别及对应的概率值。
本实施例中,上述语音命令识别方法通过语音命令识别模型实现,语音命令识别模型包括特征提取模块、soft_attention层以及softmax层,其中soft_attention层以及softmax层均基于现有语音命令识别领域的成熟技术形成,而特征提取模块包括上述全连接层以及上述多头注意力机制层。
具体而言,首先获取一段需要识别的音频数据,然后通过特征提取模块进行提取,通常提取出的特征为40维,一次输入n帧,则得到行列数为n*40的第一特征矩阵,然后将第一特征矩阵输入全连接层,得到列数经过扩展后的大小为n*64的第二特征矩阵,然后将第二特征矩阵输入多头注意力机制层进行计算,得到第三特征矩阵,再输入soft_attention层进行计算,得到对上述第三特征矩阵进行压缩后的特性向量,将特征向量输入softmax层进行计算,得到对应音频数据中多分类的类别及对应的概率值。
本申请还提出了一种基于多头注意力机制的特征提取装置,用于执行上述基于多头注意力机制的特征提取方法,基于多头注意力机制的特征提取装置具体可通过软件或硬件的形式实现。参照图2,上述基于多头注意力机制的特征提取装置包括:
获取特征单元100,用于获取第一特征矩阵;
第一计算单元200,用于将所述第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,所述第二特征矩阵的列数为N,N为正整数;
第二计算单元300,用于将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述多头注意力机制网络包括M层多头注意力机制层,每层所述多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,且M为N所有约数的个数,K、M均为正整数。
如上述获取特征单元100所述,上述特征提取方法基于多头注意力机制(Multi_head attention)实现,主要应用于语音唤醒等网络模型中,具体而言,可首先获取一段音频数据,然后对该段音频数据进行提取,得到相应的特征矩阵,即上述第一特征矩阵,举例地,获取一段定长的语音片段,以20ms为窗长,10ms为步长进行分帧,提取每帧音频的Fbank特征,通常每帧语音数据提取的Fbank特征一般为40维,当提取的Fbank特征的帧数量为n帧时,上述第一特征矩阵即为行列数为n*40的特征矩阵,例如时长1s的音频处理后得到的第一特征矩阵的行列数为99*40。
如上述第一计算单元200所述,将第一特征矩阵输入上述全连接层,该全连接层可对第一特征矩阵进行转换,本实施例中,全连接层包含有N个的神经元,即fc(N),例如64个神经元,则全连接层为fc(64),这时计算后的第二特征矩阵的列数为N,即通过全连接层将第一特征矩阵的列数拓展为N,N为正整数,例如将99*40的第一特征矩阵拓展成99*64的第二特征矩阵,拓展为99*128的第二特征矩阵。
如上述第二计算单元300所述,将上述第二特征矩阵输入多头注意力机制网络(head attention)进行计算,得到第三特征矩阵,上述多头注意力机制网络基于多头注意力机制构建,包括M层多头注意力机制层,每层多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,也即不同层的注意力头数量是第二特征矩阵列数的不同等分,优选地,M为N所有约数的个数,也即N有多少个约数,即有多少层多头注意力机制层,K、M均为正整数。
例如N值为64,K值可为2,4,8,16,32以及64,则上述多头注意力机制网络中包括有6层多头注意力机制层,各层的注意力头数分别为2,4,8,16,32,64,当K值为2,4时,注意力头数量为2的多头注意力机制层,可对第二特征矩阵的列数进行二等分,即该层中每个注意力头可对应计算第二特征矩阵中的32列数据,注意力数据为4的多头注意力机制层,可对第二特征矩阵的列数进行四等分,即该层中每个注意力头可对应计算第二特征矩阵中的16列数据;若N值为128,当K值为2,4时,注意力头数量为2的多头注意力机制层,可对第二特征矩阵的列数进行二等分,即该层中每个注意力头可对应计算第二特征矩阵中的64列数据,注意力数据为4的多头注意力机制层,可对第二特征矩阵的列数进行四等分,即该层中每个注意力头可对应计算第二特征矩阵中的32列数据。这样通过不同多头注意力层对特征矩阵进行计算,多个维度选择,从局部到全局,大范围多方面进行学习,有效地进行特征提取,只需单个全连接层以及多层注意力机制层即可实现有效提取特征,由于减少全连接层,大大地减低计算量。
优选地,上述多头注意力机制层通过横向网络(Cascade Attention Net)或纵向网络(Coordinate Attention Net)来构建,其中,横向网络通过每层独自计算后再加权求和得到结果,或者通过各个不同维度网络计算,然后将输出结果进行拼接;纵向网络通过前一层的输出为后一层的输入的方式进行计算得到计算结果。
在一个实施例中,上述多头注意力机制网络包括横向网络,横向网络中的多头注意力机制层相互独立,上述第二计算单元300,包括:
第一计算子单元,用于将所述第二特征矩阵输入所述横向网络进行计算,得到M个第一矩阵,每个所述第一矩阵对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
第二计算子单元,用于将各所述第一矩阵进行加权求和,得到所述第三特征矩阵。
本实施例中,上述横向网络包括多层多头注意力机制层,每层多头注意力机制层相互独立运算,当将第二特征矩阵输入上述横向网络进行计算,也即通过各层多头注意力机制层分别计算,可得分别到对应每层的第一矩阵,每个第一矩阵的列数为为N/K,然后针对不同列数的矩阵,分别进行加权,即将各个第一矩阵乘以相应的权重向量再求和,即通过特征加权求和来进行特征压缩,得到上述第三特征矩阵。
在一个具体实施例中,上述第二特征矩阵的列数为64,多头注意力机制层包括6层不同注意力头数的多头主意力层,其注意力头数依次分别为1、2、4、8、16、32,其中注意力头数为32的多头主意力机制层对第二特征矩阵进行32等分处理,每个注意力头分别计算其2列,依次类推,注意力头数为1的多头主意力机制层对第二特征矩阵进行直接处理,计算64列,这样将上述99*64大小的特征矩阵分别通过上述6层不同的注意力层进行计算,得到分别对应每层的第一矩阵,然后将分别乘以对应其列数的权重,再求和,即对各第一矩阵进行加权求和得到行列数为99*64的第三特征矩阵。
在一个实施例中,上述多头注意力机制层包括横向网络,横向网络中的多头注意力机制层相互独立,上述第二计算单元300,包括:
计算矩阵子单元,用于将所述第二特征矩阵输入所述横向网络进行计算,得到多个第二矩阵,每个所述第二矩阵对应对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
拼接矩阵子单元,用于将各所述第二矩阵进行拼接,得到所述第三特征矩阵。
本实施例中,将第二特征矩阵输入到多层上述多头注意力层分别计算,计算过程参照上述第一计算子单元,得到多个第二矩阵后,将各个第二矩阵直接进行拼接,无需计算,即得到一个大矩阵,该大矩阵即上述第三特征矩阵。
在一个实施例中,上述多头注意力机制网络为纵向网络,纵向网络中的多头注意力层依次首尾连接,上述第二计算单元300,包括:
一层计算子单元,用于将所述第二特征矩阵输入第一个多头注意力机制层进行计算,得到第一结果;
二层计算子单元,用于将所述第一结果输入第二层多头注意力机制层进行计算,得到第二结果,如此以上一输出为下一输入的方式遍历M个所述多头注意力机制层,得到所述第三特征矩阵。
本实施例中,纵向网络中的多层的多头注意力机制层,依次首尾连接,使得前一层的输出数据为后一层的输入数据,当将第二特征矩阵输入第一层多头注意力机制层进行计算,得到第一结果,然后将第一结果输入第二层多头注意力机制层进行计算得到第二结果,然后将第二结果输入第三层多头注意力机制层进行计算得到第三结果,如此类推,直至将倒数第二个结果输入最后一层多头注意力机制层进行计算,得到上述第三特征矩阵。
优选地,上述纵向网络包括多层依次首尾连接且K值不同的多头注意力机制层,其中,连接全连接层的为该纵向网络的第一层,且第一层的多头注意力机制层K值最大,每层多头注意力机制层的K值均比后一层的多头注意力机制层的K值大,也即在纵向网络中K值逐层减小。例如,上述纵向网络包括6层多头注意力机制层,K=32,16,8,4,2,1,即第一层的K值为32最大,第二层为K值为16,第三层K值为8,第三层K值为4,第三层K值为2,第三层K值为1,逐层减小,对应的每层注意力头计算的矩阵列数逐层增加,由局部向全局扩展,全面学习,提取特征效果更佳。
参考图3,本申请还提供了一种计算机可读的存储介质21,存储介质21中存储有计算机程序22,当其在计算机上运行时,使得计算机执行以上实施例所描述基于多头注意力机制的特征提取方法以及语音命令识别方法。
参考图4,本申请还提供了一种包含指令的计算机设备34,计算机设备包括存储器31和处理器33,存储器31存储有计算机程序22,处理器33执行计算机程序22时实现以上实施例所描述的基于多头注意力机制的特征提取方法以及语音命令识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于多头注意力机制的特征提取方法,其特征在于,包括:
获取第一特征矩阵;
将所述第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,所述第二特征矩阵的列数为N,N为正整数;
将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述多头注意力机制网络包括M层多头注意力机制层,每层所述多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,且M为N所有约数的个数,K、M均为正整数。
2.如权利要求1所述的基于多头注意力机制的特征提取方法,其特征在于,所述多头注意力机制网络包括横向网络,所述横向网络中的各多头注意力机制层相互独立,所述将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入所述横向网络进行计算,得到M个第一矩阵,每个所述第一矩阵对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
将各所述第一矩阵进行加权求和,得到所述第三特征矩阵。
3.如权利要求1所述的基于多头注意力机制的特征提取方法,其特征在于,所述多头注意力机制网络包括横向网络,所述横向网络中的多头注意力机制层相互独立,所述将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入所述横向网络进行计算,得到M个第二矩阵,每个所述第二矩阵对应对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
将各所述第二矩阵进行拼接,得到所述第三特征矩阵。
4.如权利要求1所述的基于多头注意力机制的特征提取方法,其特征在于,所述多头注意力机制网络包括纵向网络,所述纵向网络中的多头注意力机制层依次首尾连接,所述将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵的步骤,包括:
将所述第二特征矩阵输入第一层多头注意力机制层进行计算,得到第一结果;
将所述第一结果输入第二层多头注意力机制层进行计算,得到第二结果,如此以上一层输出数据作为下一层输入数据的方式遍历M层所述多头注意力机制层,得到所述第三特征矩阵。
5.如权利要求4所述的基于多头注意力机制的特征提取方法,其特征在于,所述纵向网络包括多层依次首尾连接且K值不同的多头注意力机制层,其中,连接所述全连接层的多头注意力机制层为所述纵向网络的第一层,所述第一层的多头注意力机制层K值最大,且前一多头注意力机制层的K值均比后一多头注意力机制层的K值大。
6.一种语音命令识别方法,其特征在于,包括:
获取对应语音命令的音频数据,并对所述音频数据进行特征提取,得到所述第一特征矩阵;
将所述第一特征矩阵通过如权利要求1-5任一项所述的基于多头注意力机制的特征提取方法进行处理,得到第三特征矩阵;
将所述第三特征矩阵输入soft_attention层进行计算,得到对所述第三特征矩阵进行压缩后的特征向量;
将所述特征向量输入softmax层进行计算,得到对应所述音频数据多分类的类别及对应的概率值。
7.一种基于多头注意力机制的特征提取装置,其特征在于,包括:
获取特征单元,用于获取第一特征矩阵;
第一计算单元,用于将所述第一特征矩阵输入预设的全连接层进行计算得到第二特征矩阵,所述第二特征矩阵的列数为N,N为正整数;
第二计算单元,用于将所述第二特征矩阵输入预设的多头注意力机制网络进行计算,得到特征提取后的第三特征矩阵,所述多头注意力机制网络包括M层多头注意力机制层,每层所述多头注意力机制层的注意力头数量为K,其中,每层的K分别为N的不同约数,且M为N所有约数的个数,K、M均为正整数。
8.如权利要求7所述的基于多头注意力机制的特征提取装置,其特征在于,所述多头注意力机制网络包括横向网络,所述横向网络中的各多头注意力机制层相互独立,所述第二计算单元包括:
第一计算子单元,用于将所述第二特征矩阵输入所述横向网络进行计算,得到M个第一矩阵,每个所述第一矩阵对应一层所述多头注意力机制层,且所述第一矩阵的列数为N/K;
第二计算子单元,用于将各所述第一矩阵进行加权求和,得到所述第三特征矩阵。
9.一种存储介质,其特征在于,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1~5任一项所述的基于多头注意力机制的特征提取方法,以及所述计算机程序被执行时实现如权利要求6所述的语音命令识别方法。
10.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被执行时实现如权利要求1~5任一项所述的基于多头注意力机制的特征提取方法,以及所述计算机程序被执行时实现如权利要求6所述的语音命令识别方法。
CN202010287007.1A 2020-04-13 2020-04-13 基于多头注意力机制的特征提取方法及语音命令识别方法 Active CN111489738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010287007.1A CN111489738B (zh) 2020-04-13 2020-04-13 基于多头注意力机制的特征提取方法及语音命令识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010287007.1A CN111489738B (zh) 2020-04-13 2020-04-13 基于多头注意力机制的特征提取方法及语音命令识别方法

Publications (2)

Publication Number Publication Date
CN111489738A true CN111489738A (zh) 2020-08-04
CN111489738B CN111489738B (zh) 2021-02-23

Family

ID=71794735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010287007.1A Active CN111489738B (zh) 2020-04-13 2020-04-13 基于多头注意力机制的特征提取方法及语音命令识别方法

Country Status (1)

Country Link
CN (1) CN111489738B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687288A (zh) * 2021-03-12 2021-04-20 北京世纪好未来教育科技有限公司 回声消除方法、装置、电子设备和可读存储介质
CN113011184A (zh) * 2021-04-13 2021-06-22 北京金山数字娱乐科技有限公司 一种语言表征模型的训练方法及装置
CN113704511A (zh) * 2021-07-30 2021-11-26 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110534092A (zh) * 2019-06-28 2019-12-03 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
WO2020024646A1 (en) * 2018-07-31 2020-02-06 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110827816A (zh) * 2019-11-08 2020-02-21 杭州依图医疗技术有限公司 语音指令识别方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024646A1 (en) * 2018-07-31 2020-02-06 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110534092A (zh) * 2019-06-28 2019-12-03 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110827816A (zh) * 2019-11-08 2020-02-21 杭州依图医疗技术有限公司 语音指令识别方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687288A (zh) * 2021-03-12 2021-04-20 北京世纪好未来教育科技有限公司 回声消除方法、装置、电子设备和可读存储介质
CN112687288B (zh) * 2021-03-12 2021-12-03 北京世纪好未来教育科技有限公司 回声消除方法、装置、电子设备和可读存储介质
CN113011184A (zh) * 2021-04-13 2021-06-22 北京金山数字娱乐科技有限公司 一种语言表征模型的训练方法及装置
CN113704511A (zh) * 2021-07-30 2021-11-26 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质
CN113704511B (zh) * 2021-07-30 2022-11-22 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111489738B (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN111489738B (zh) 基于多头注意力机制的特征提取方法及语音命令识别方法
CN111164601B (zh) 情感识别方法、智能装置和计算机可读存储介质
CN111429885B (zh) 一种将音频片段映射为人脸嘴型关键点的方法
CN111489737B (zh) 语音命令识别方法、装置、存储介质及计算机设备
CN111583284A (zh) 一种基于混合模型的小样本图像语义分割方法
CN114820341A (zh) 一种基于增强Transformer的图像盲去噪方法及系统
CN116363261B (zh) 图像编辑模型的训练方法、图像编辑方法和装置
CN109063824B (zh) 深层三维卷积神经网络的创建方法、装置、存储介质及处理器
CN112016406B (zh) 一种基于全卷积网络的视频关键帧提取方法
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN111428660A (zh) 视频剪辑方法和装置、存储介质及电子装置
CN112950640A (zh) 视频人像分割方法、装置、电子设备及存储介质
CN111508487B (zh) 基于膨胀机制的特征提取方法及语音命令识别方法
CN114693934A (zh) 语义分割模型的训练方法、视频语义分割方法及装置
CN113012689B (zh) 一种电子设备和深度学习硬件加速方法
Vo et al. PPCD-GAN: Progressive pruning and class-aware distillation for large-scale conditional GANs compression
CN111985617B (zh) 3d卷积神经网络在神经网络处理器上的处理方法和装置
US20230362416A1 (en) Video processing method and apparatus, device, and storage medium
CN117314750A (zh) 一种基于残差生成网络的图像超分辨率重建方法
CN115578561A (zh) 一种基于多尺度上下文聚合网络的实时语义分割方法及装置
CN113033430B (zh) 基于双线性的多模态信息处理的人工智能方法、系统及介质
CN113033422A (zh) 基于边缘计算的人脸检测方法、系统、设备和存储介质
CN114254563A (zh) 数据处理方法及装置、电子设备、存储介质
CN113555037A (zh) 篡改音频的篡改区域检测方法、装置及存储介质
CN109800859B (zh) 一种神经网络批归一化的优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Feature extraction method and speech command recognition method based on multi head attention mechanism

Granted publication date: 20210223

Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd.

Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd.

Registration number: Y2024980029366

PE01 Entry into force of the registration of the contract for pledge of patent right