CN117275484B - 命令词识别方法、装置、设备和介质 - Google Patents
命令词识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN117275484B CN117275484B CN202311533963.3A CN202311533963A CN117275484B CN 117275484 B CN117275484 B CN 117275484B CN 202311533963 A CN202311533963 A CN 202311533963A CN 117275484 B CN117275484 B CN 117275484B
- Authority
- CN
- China
- Prior art keywords
- module
- dimension
- feature
- command word
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 90
- 238000013507 mapping Methods 0.000 claims abstract description 74
- 230000009467 reduction Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000005266 casting Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于语音识别技术领域,公开了一种命令词识别方法、装置、设备和介质,其中,方法包括:通过特征提取模块提取语音信号的语音特征;通过降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;通过线性映射模块将降维后的特征映射到低维,得到低维特征;基于低维特征,通过多个处理单元串联形成的处理模块学习更高粒度的信息,得到具有更高粒度信息的特征;基于更高粒度信息的特征预测得到命令词。本发明使低资源设备能够准确、快速、低功耗识别命令词。
Description
技术领域
本申请涉及语音识别技术领域,特别是涉及到一种命令词识别方法、装置、设备和介质。
背景技术
命令词识别属于语音识别,广泛应用于智能家居,比如应用在智能语音音箱、智能语音耳机、智能语音灯和智能语音风扇等。命令词识别在低资源设备上运行需要满足低功耗、模型体积小、运算速度快的特点才能部署到实际产品中。
但模型大小往往跟识别能力成正比,因此如何设计一种识别准确率高,且功耗低、模型体积小和运算速度快的命令词识别网络,同时网络方便流式识别,以使低资源设备能够准确、快速、低功耗识别命令词是本领域需要解决的技术问题。
发明内容
本发明的主要目的为提供一种基于命令词识别网络的命令词识别方法、装置、设备及介质,旨在使低资源设备能够准确、快速、低功耗识别命令词。
第一方面,本申请实施例提供一种命令词识别方法,所述方法包括:
将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块;
通过所述特征提取模块提取所述语音信号的语音特征;
通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;
通过所述线性映射模块将所述降维后的特征映射到低维,得到低维特征;
通过所述第一映射模块将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征;
将所述映射后的特征经过softmax或logsoftmax后,得到token的概率分布;
基于token的概率分布,利用解码算法进行解码,得到预测的命令词。
进一步的,所述未来语音特征区间的长度需要根据延时的要求确定。
进一步的,所述通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征的步骤包括:
为在预设特征区间中的语音特征增加一个维度,得到维度增加后的特征;
采用两个二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
进一步的,所述采用两个二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征的步骤包括:
采用两个步长为2的二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
进一步的,所述注意力模块为多头注意力机制模块。
进一步的,所述命令词识别网络还包括embedding模块、内部语言模型以及joiner网络;所述命令词识别网络采用如下步骤训练得到:
将音频训练样本输入编码器,得到与所述音频训练样本对应的具有更高粒度信息的特征;
通过第一映射模块将与所述音频训练样本对应的具有更高粒度信息的特征,映射到与token类别数相同的维度上,得到训练时第一映射后的特征;
基于所述训练时第一映射后的特征,采用ctc损失函数对所述命令词识别网络进行训练;
通过embedding模块将token进行embedding,然后将embedding后的结果输入内部语言模型进行处理;
基于所述内部语言模型的输出以及所述编码器的输出,通过所述joiner网络将所述内部语言模型的输出和所述处理模块的输出进行融合,并将融合后的特征映射到与token类别数相同的维度上,得到训练时第二映射后的特征;
基于所述训练时第二映射后的特征,采用rnn-t损失函数对所述命令词识别网络进行训练。
进一步的,所述方法还包括:
训练时,在所述线性映射模块将降维后的特征映射到低维后,对低维特征做一次layernorm操作。
第二方面,本申请实施例提供一种命令词识别装置,包括:
输入模块,用于将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块;
特征提取模块,用于提取所述语音信号的语音特征;
降采样模块,用于将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;
线性映射模块,用于将所述降维后的特征映射到低维,得到低维特征;
处理模块,用于基于所述低维特征,学习更高粒度的信息,得到具有更高粒度信息的特征;其中,所述处理模块由通过多个处理单元串联形成的,每一所述处理单元包括注意力模块和ffn模块;所述注意力模块输出的特征为所述ffn模块的输入,所述ffn模块用于将所述注意力模块输出的特征进行升维,并在升维后的维度上做glu处理,将glu处理后的特征作为当前状态信息,将当前状态信息和历史状态信息连接后做attention处理,最后经过一个线性层;
第一映射模块,用于将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征;
softmax层或logsoftmax层,用于接收所述映射后的特征并进行处理,得到token的概率分布;
解码模块,用于基于token的概率分布,利用解码算法进行解码,得到预测的命令词。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的命令词识别方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的命令词识别方法的步骤。
有益效果:
本申请命令词识别网络设计轻量,大部分是线性操作,可方便部署到绝大多数嵌入式芯片产品。第二,本申请引入状态信息的设计,大幅增大感受视野的大小,在不增加网络大小和处理窗长的前提下,提升了网络识别能力。第三,通过降采样,大大减少了特征维度,提升了推理的速度。由此可见,本申请提供的命令词识别网络识别准确率高,且功耗低、模型体积小和运算速度快,同时网络方便流式识别,从而使低资源设备能够准确、快速、低功耗识别命令词。
附图说明
图1为本发明一实施例提供的命令词识别方法的流程示意图;
图2为本发明一实施例提供的命令词识别装置的结构示意图;
图3为本发明一实施例提供的计算机设备的结构示意图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
请参阅图1,本申请实施例提供一种命令词识别方法,所述方法包括:
S11、将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块。
在步骤S11中,所述命令词识别网络是预先训练好的命令词识别网络。
S12、通过所述特征提取模块提取所述语音信号的语音特征。
在步骤S12中,所述通过所述特征提取模块提取所述语音信号的语音特征的步骤包括:通过特征提取算法将提取所述语音信号的语音特征。所述特征提取算法可以是fbank等特征提取算法。
S13、通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间。
在步骤S13中,由于语音识别需要满足实时处理,故网络设计需要做出流式设计。即将特征区间区分为历史语音特征区间、当前语音特征区间以及未来语音特征区间。其中,历史语音特征区间、当前语音特征区间以及未来语音特征区间中的每一块区间都有其对应的长度。未来语音特征区间的长度需要根据延时的要求确定。具体的,当获得当前语音特征区间的语音特征时,先不计算出它的识别结果,等未来语音特征区间中的语音特征来了后,再输出当前语音特征区间的语音特征的结果,这样,既看到了历史也看到了一部分将来。
S14、通过所述线性映射模块将所述降维后的特征映射到低维,得到低维特征。
在步骤S14中,通过将特征映射到低维可以减少模型大小。
S15、基于所述低维特征,通过多个处理单元串联形成的所述处理模块学习更高粒度的信息,得到具有更高粒度信息的特征;其中,每一所述处理单元包括注意力模块和ffn模块;所述注意力模块输出的特征为所述ffn模块的输入,所述ffn模块用于将所述注意力模块输出的特征进行升维,并在升维后的维度上做glu处理,将glu处理后的特征作为当前状态信息,将当前状态信息和历史状态信息连接后做attention处理,最后经过一个线性层。
在本申请实施例中,语音识别具有前后相关性,注意力模块的引入,可以提升模型的识别能力。注意力模块具体可以是多头注意力模块。所述ffn模块用于将所述注意力模块输出的特征进行升维具体可以升维到2倍大小,然后在此维度上做glu处理,glu(GatedLinear Units)处理是一种用于神经网络中的门控激活函数。通过glu处理可以学习到输入向量中的局部依赖关系,并且能够选择性地激活部分神经元。这有助于提高模型的表示能力和泛化能力,尤其在处理长序列或复杂语义结构时表现出色。
S16、通过所述第一映射模块将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征。
在步骤S16中,token是文本中的最小单位或基本元素,比如中文的可以是字、音素(声韵母)等,英文可以是音素等。通过将编码器的输出映射到与token类别数相同的维度上,这样能够方便后续的token识别。
S17、将所述映射后的特征经过softmax或logsoftmax后,得到token的概率分布。
在步骤S17中,所述命令词识别网络还包括softmax层或logsoftmax层,softmax和logsoftmax均用于将输入向量映射到一个概率分布。
S18、基于token的概率分布,利用解码算法进行解码,得到预测的命令词。
在步骤S18中,根据token的概率分布,通过解码算法可以获得最可能的token序列,进而可以得到命令词。所述解码算法具体可以是ctc(Connectionist TemporalClassification)解码算法。
本申请命令词识别网络设计轻量,大部分是线性操作,可方便部署到绝大多数嵌入式芯片产品。第二,本申请引入state信息的设计,大幅增大感受视野的大小,在不增加网络大小和处理窗长的前提下,提升了网络识别能力。第三,通过降采样,大大减少了特征维度,提升了推理的速度。由此可见,本申请提供的命令词识别网络识别准确率高,且功耗低、模型体积小和运算速度快,同时网络方便流式识别,从而使低资源设备能够准确、快速、低功耗识别命令词。
在一实施例中,所述未来语音特征区间的长度需要根据延时的要求确定。
在本申请实施例中,将特征区间区分为历史语音特征区间、当前语音特征区间以及未来语音特征区间,且根据延时的要求控制语音特征区间的长度,满足了低延时的要求,使得语音识别的实时处理得以实现。
在一实施例中,所述通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征的步骤包括:
为在预设特征区间中的语音特征增加一个维度,得到维度增加后的特征;
采用两个二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
在本申请实施例中,需要说明的是,语音一般用一维卷积(conv1d),而本申请实施例增加一个维度后,后续就可以采用二维卷积。也即为后续能够采用二维卷积网络进行降维处理提供了可能。通过对维度增加后的特征进行降维处理,大大减少了特征维度,从而提升了推理的速度。两个二维卷积网络通过串联方式连接,每个二维卷积网络均包括一个二维卷积层和ReLU层。ReLU是一个激活函数,用于增强网络的非线性表示能力。
在一实施例中,所述采用两个二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征的步骤包括:
采用两个步长为2的二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
在本申请实施例中,步长即stride,Stride是指在卷积神经网络(CNN)中,卷积核在输入数据上滑动的步长。当Stride大于1时,卷积核每次移动的距离就会增加,从而减小数据的大小。例如,当Stride为2时,卷积核每次移动两个像素,即相邻两个卷积核之间没有重叠。这种情况下,数据将减小一半。Stride的大小可以影响模型的性能和计算效率。较小的Stride可以提高模型的准确性,但会增加计算量和内存消耗;较大的Stride可以减少计算量和内存消耗,但可能会降低模型的准确性。通过将stride设置为2,既能够满足命令词识别准确性,也能够满足语音识别的速度。
在一实施例中,所述注意力模块为多头注意力机制模块。
在本申请实施例中,采用多头注意力模块即引入了多头注意力机制,多头注意力机制的优点在于它可以提高模型的表现能力。通过同时关注多个部分,模型可以更好地理解输入数据中的关键信息,从而提高了模型的准确性和鲁棒性。
在一实施例中,所述命令词识别网络还包括embedding模块、内部语言模型以及joiner网络;所述命令词识别网络采用如下步骤训练得到:
将音频训练样本输入编码器,得到与所述音频训练样本对应的具有更高粒度信息的特征;
通过第一映射模块将与所述音频训练样本对应的具有更高粒度信息的特征,映射到与token类别数相同的维度上,得到训练时第一映射后的特征;
基于所述训练时第一映射后的特征,采用ctc损失函数对所述命令词识别网络进行训练;
通过embedding模块将token进行embedding,然后将embedding后的结果输入内部语言模型进行处理;
基于所述内部语言模型的输出以及所述编码器的输出,通过所述joiner网络将所述内部语言模型的输出和所述处理模块的输出进行融合,并将融合后的特征映射到与token类别数相同的维度上,得到训练时第二映射后的特征;
基于所述训练时第二映射后的特征,采用rnn-t损失函数对所述命令词识别网络进行训练。
在本申请实施例中,命令词识别网络包括编码器和第一映射模块,编码器包括特征提取模块、降采样模块、线性映射模块、处理模块,embedding模块、内部语言模型以及joiner网络,处理模块由多个处理单元串联形成,每个处理单元包括注意力模块和ffn模块。对于注意力模块,所述注意力模块具体可以是多头注意力机制模块,即引入了多头注意力机制,训练时,可以引入跳跃连接(skip connection )增加网络的学习能力。embedding模块的作用是将单词或短语转换为向量表示。所述内部语言模型指的是与特定语音识别系统集成在一起的语言模型。它专门针对该语音识别系统进行训练和优化,以提高特定系统的性能。具体的,本发明使用一维分组卷积实现内部语言模型,这样一维卷积的kernel(卷积核)+1 大小,就相当于n-gram的 n,这样只需依赖过去有限个token,实现了stateless,即有限、可控,所述kernel具体可以取2,更有利于实现stateless。同时由于一维卷积使用了分组卷积方式,大大减少了计算量。需要说明的是,本发明使用一维分组卷积实现的内部语言模型,类似于n-gram,n-gram模型是一种基于统计的语言模型,它假设一个词的出现只与前面n-1个词有关,而与其他词无关。所述命令词网络还包括一个线性映射层,通过线性映射层将内部语言模型的输出映射到与编码器输出相同的维度上,方便后续joiner网络做融合处理。这里的融合可以是concat或者相加。另外,上述采用ctc损失函数对命令词网络进行训练,采用rnn-t损失函数对命令词网络进行训练,即最终的目标函数为:loss =loss_ctc + λ * loss_transducer,其中,loss为最终的目标函数, loss_ctc为ctc损失函数,loss_transducer为rnn-t损失函数,λ是一个权重系数,用于调整ctc损失和rnn-t损失之间的相对重要性。
在一实施例中,所述方法还包括:
训练时,在所述线性映射模块将降维后的特征映射到低维后,对低维特征做一次layernorm操作。
在本申请实施例中,在训练时,在线性映射模块将降维后的特征映射到低维后,通过对低维特征做一次layernorm操作,归一化数据分布,使训练更加稳定。layernorm是一种用于神经网络中的归一化方法,通过对每个样本的特征进行独立归一化,可以解决训练过程中输入数据分布不稳定的问题。
在一实施例中,所述内部语言模型采用transducer思想构建得到。
在本申请实施例中,transducer(转换器)是一种广泛应用于自然语言处理、语音识别等领域的模型架构,它的核心思想是将输入序列映射到输出序列的过程看作一个转换过程,即从输入状态转换为输出状态的过程。Transducer模型的优点是可以处理任意长度的输入序列和输出序列,并且能够捕捉序列之间的依赖关系。
请参阅图2,本申请实施例还提供一种命令词识别装置,包括:
输入模块1,用于将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块;
特征提取模块2,用于提取所述语音信号的语音特征;
降采样模块3,用于将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;
线性映射模块4,用于将所述降维后的特征映射到低维,得到低维特征;
处理模块5,用于基于所述低维特征,学习更高粒度的信息,得到具有更高粒度信息的特征;其中,所述处理模块由通过多个处理单元串联形成的,每一所述处理单元包括注意力模块和ffn模块;所述注意力模块输出的特征为所述ffn模块的输入,所述ffn模块用于将所述注意力模块输出的特征进行升维,并在升维后的维度上做glu处理,将glu处理后的特征作为当前状态信息,将当前状态信息和历史状态信息连接后做attention处理,最后经过一个线性层;
第一映射模块6,用于将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征;
softmax层或logsoftmax层7,用于接收所述映射后的特征并进行处理,得到token的概率分布;
解码模块8,用于基于token的概率分布,利用解码算法进行解码,得到预测的命令词。
在一实施例中,所述未来语音特征区间的长度需要根据延时的要求确定。
在一实施例中,所述降采样模块3包括:
维度增加单元,用于为在预设特征区间中的语音特征增加一个维度,得到维度增加后的特征;
降维单元,用于采用两个二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
在一实施例中,所述降维单元具体用于:
采用两个步长为2的二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
在一实施例中,所述注意力模块为多头注意力机制模块。
在一实施例中,所述命令词识别网络还包括embedding模块、内部语言模型以及joiner网络;所述命令词识别网络训练时的步骤包括:
将音频训练样本输入编码器,得到与所述音频训练样本对应的具有更高粒度信息的特征;
通过第一映射模块将与所述音频训练样本对应的具有更高粒度信息的特征,映射到与token类别数相同的维度上,得到训练时第一映射后的特征;
基于所述训练时第一映射后的特征,采用ctc损失函数对所述命令词识别网络进行训练;
通过embedding模块将token进行embedding,然后将embedding后的结果输入内部语言模型进行处理;
基于所述内部语言模型的输出以及所述编码器的输出,通过所述joiner网络将所述内部语言模型的输出和所述处理模块的输出进行融合,并将融合后的特征映射到与token类别数相同的维度上,得到训练时第二映射后的特征;
基于所述训练时第二映射后的特征,采用rnn-t损失函数对所述命令词识别网络进行训练。
在一实施例中,所述装置还包括:
layernorm操作模块,用于训练时,在所述线性映射模块将降维后的特征映射到低维后,对低维特征做一次layernorm操作。
参照图3,本发明实施例还提供一种计算机设备,该计算机设备的内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别方法的步骤等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地,上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现命令词识别方法,包括如下步骤:将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块;通过所述特征提取模块提取所述语音信号的语音特征;通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;通过所述线性映射模块将所述降维后的特征映射到低维,得到低维特征;基于所述低维特征,通过多个处理单元串联形成的所述处理模块学习更高粒度的信息,得到具有更高粒度信息的特征;其中,每一所述处理单元包括注意力模块和ffn模块;所述注意力模块输出的特征为所述ffn模块的输入,所述ffn模块用于将所述注意力模块输出的特征进行升维,并在升维后的维度上做glu处理,将glu处理后的特征作为当前状态信息,将当前状态信息和历史状态信息连接后做attention处理,最后经过一个线性层;通过所述第一映射模块将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征;将所述映射后的特征经过softmax或logsoftmax后,得到token的概率分布;基于token的概率分布,利用解码算法进行解码,得到预测的命令词。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现命令词识别方法,包括如下步骤:将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块;通过所述特征提取模块提取所述语音信号的语音特征;通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;通过所述线性映射模块将所述降维后的特征映射到低维,得到低维特征;基于所述低维特征,通过多个处理单元串联形成的所述处理模块学习更高粒度的信息,得到具有更高粒度信息的特征;其中,每一所述处理单元包括注意力模块和ffn模块;所述注意力模块输出的特征为所述ffn模块的输入,所述ffn模块用于将所述注意力模块输出的特征进行升维,并在升维后的维度上做glu处理,将glu处理后的特征作为当前状态信息,将当前状态信息和历史状态信息连接后做attention处理,最后经过一个线性层;通过所述第一映射模块将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征;将所述映射后的特征经过softmax或logsoftmax后,得到token的概率分布;基于token的概率分布,利用解码算法进行解码,得到预测的命令词。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种命令词识别方法,其特征在于,所述方法包括:
将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块;
通过所述特征提取模块提取所述语音信号的语音特征;
通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;
通过所述线性映射模块将所述降维后的特征映射到低维,得到低维特征;
基于所述低维特征,通过多个处理单元串联形成的所述处理模块学习更高粒度的信息,得到具有更高粒度信息的特征;其中,每一所述处理单元包括注意力模块和ffn模块;所述注意力模块输出的特征为所述ffn模块的输入,所述ffn模块用于将所述注意力模块输出的特征进行升维,并在升维后的维度上做glu处理,将glu处理后的特征作为当前状态信息,将当前状态信息和历史状态信息连接后做attention处理,最后经过一个线性层;
通过所述第一映射模块将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征;
将所述映射后的特征经过softmax或logsoftmax后,得到token的概率分布;
基于token的概率分布,利用解码算法进行解码,得到预测的命令词;
所述命令词识别网络还包括embedding模块、内部语言模型、第二线性映射模块以及joiner网络;所述命令词识别网络采用如下步骤训练得到:
将音频训练样本输入编码器,得到与所述音频训练样本对应的具有更高粒度信息的特征;
通过第一映射模块将与所述音频训练样本对应的具有更高粒度信息的特征,映射到与token类别数相同的维度上,得到训练时第一映射后的特征;
基于所述训练时第一映射后的特征,采用ctc损失函数对所述命令词识别网络进行训练;
通过embedding模块将token进行embedding,然后将embedding后的结果输入内部语言模型进行处理;
基于所述内部语言模型的输出以及所述编码器的输出,通过所述joiner网络将所述内部语言模型的输出和所述处理模块的输出进行融合,并将融合后的特征映射到与token类别数相同的维度上,得到训练时第二映射后的特征;
基于所述训练时第二映射后的特征,采用rnn-t损失函数对所述命令词识别网络进行训练;
其中,采用ctc损失函数对所述命令词识别网络进行训练,采用rnn-t损失函数对所述命令词识别网络进行训练,即最终的目标函数为:loss = loss_ctc + λ * loss_transducer,其中,loss为最终的目标函数, loss_ctc为ctc损失函数,loss_transducer为rnn-t损失函数,λ是一个权重系数,用于调整ctc损失和rnn-t损失之间的相对重要性。
2.根据权利要求1所述的命令词识别方法,其特征在于,所述未来语音特征区间的长度需要根据延时的要求确定。
3.根据权利要求1所述的命令词识别方法,其特征在于,所述通过所述降采样模块将在预设特征区间中的语音特征进行降维,得到降维后的特征的步骤包括:
为在预设特征区间中的语音特征增加一个维度,得到维度增加后的特征;
采用两个二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
4.根据权利要求3所述的命令词识别方法,其特征在于,所述采用两个二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征的步骤包括:
采用两个步长为2的二维卷积的网络对所述增加后的特征进行降维处理,得到降维后的特征。
5.根据权利要求1所述的命令词识别方法,其特征在于,所述注意力模块为多头注意力机制模块。
6.根据权利要求1所述的命令词识别方法,其特征在于,所述方法还包括:
训练时,在所述线性映射模块将降维后的特征映射到低维后,对低维特征做一次layernorm操作。
7.一种命令词识别装置,其特征在于,所述命令词识别装置用于执行权利要求1-6任一项所述的命令词识别方法,所述装置包括:
输入模块,用于将待识别语音信号输入命令词识别网络,所述命令词识别网络包括编码器和第一映射模块;所述编码器包括特征提取模块、降采样模块、线性映射模块以及处理模块;
特征提取模块,用于提取所述语音信号的语音特征;
降采样模块,用于将在预设特征区间中的语音特征进行降维,得到降维后的特征;其中,所述预设特征区间包括历史语音特征区间、当前语音特征区间以及未来语音特征区间;
线性映射模块,用于将所述降维后的特征映射到低维,得到低维特征;
处理模块,用于基于所述低维特征,学习更高粒度的信息,得到具有更高粒度信息的特征;其中,所述处理模块由通过多个处理单元串联形成的,每一所述处理单元包括注意力模块和ffn模块;所述注意力模块输出的特征为所述ffn模块的输入,所述ffn模块用于将所述注意力模块输出的特征进行升维,并在升维后的维度上做glu处理,将glu处理后的特征作为当前状态信息,将当前状态信息和历史状态信息连接后做attention处理,最后经过一个线性层;
第一映射模块,用于将所述具有更高粒度信息的特征映射到与token类别数相同的维度上,得到映射后的特征;
softmax层或logsoftmax层,用于接收所述映射后的特征并进行处理,得到token的概率分布;
解码模块,用于基于token的概率分布,利用解码算法进行解码,得到预测的命令词。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的命令词识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的命令词识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311533963.3A CN117275484B (zh) | 2023-11-17 | 2023-11-17 | 命令词识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311533963.3A CN117275484B (zh) | 2023-11-17 | 2023-11-17 | 命令词识别方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117275484A CN117275484A (zh) | 2023-12-22 |
CN117275484B true CN117275484B (zh) | 2024-02-20 |
Family
ID=89208369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311533963.3A Active CN117275484B (zh) | 2023-11-17 | 2023-11-17 | 命令词识别方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117275484B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN112489637A (zh) * | 2020-11-03 | 2021-03-12 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN112530410A (zh) * | 2020-12-24 | 2021-03-19 | 北京地平线机器人技术研发有限公司 | 一种命令词识别方法及设备 |
CN113362812A (zh) * | 2021-06-30 | 2021-09-07 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113823272A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
CN114255744A (zh) * | 2021-12-15 | 2022-03-29 | 山东新一代信息产业技术研究院有限公司 | 一种在线的端到端自动语音识别方法 |
CN114596841A (zh) * | 2022-03-15 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 实时语音识别方法、模型训练方法、装置及设备 |
CN115101063A (zh) * | 2022-08-23 | 2022-09-23 | 深圳市友杰智新科技有限公司 | 低算力语音识别方法、装置、设备及介质 |
CN116229945A (zh) * | 2022-06-28 | 2023-06-06 | 上海声瀚信息科技有限公司 | 一种基于参数共享的两阶段语音唤醒方法 |
CN116312502A (zh) * | 2022-12-30 | 2023-06-23 | 中国科学院自动化研究所 | 基于顺序采样分块机制的端到端流式语音识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373639B2 (en) * | 2019-12-12 | 2022-06-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
-
2023
- 2023-11-17 CN CN202311533963.3A patent/CN117275484B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN112489637A (zh) * | 2020-11-03 | 2021-03-12 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN112530410A (zh) * | 2020-12-24 | 2021-03-19 | 北京地平线机器人技术研发有限公司 | 一种命令词识别方法及设备 |
CN113823272A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
CN113362812A (zh) * | 2021-06-30 | 2021-09-07 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN114255744A (zh) * | 2021-12-15 | 2022-03-29 | 山东新一代信息产业技术研究院有限公司 | 一种在线的端到端自动语音识别方法 |
CN114596841A (zh) * | 2022-03-15 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 实时语音识别方法、模型训练方法、装置及设备 |
CN116229945A (zh) * | 2022-06-28 | 2023-06-06 | 上海声瀚信息科技有限公司 | 一种基于参数共享的两阶段语音唤醒方法 |
CN115101063A (zh) * | 2022-08-23 | 2022-09-23 | 深圳市友杰智新科技有限公司 | 低算力语音识别方法、装置、设备及介质 |
CN116312502A (zh) * | 2022-12-30 | 2023-06-23 | 中国科学院自动化研究所 | 基于顺序采样分块机制的端到端流式语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117275484A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11194972B1 (en) | Semantic sentiment analysis method fusing in-depth features and time sequence models | |
CN112613308B (zh) | 用户意图识别方法、装置、终端设备及存储介质 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN113963688B (zh) | 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备 | |
US11908457B2 (en) | Orthogonally constrained multi-head attention for speech tasks | |
WO2022198750A1 (zh) | 语义识别方法 | |
Lei et al. | Scene text recognition using residual convolutional recurrent neural network | |
US11450310B2 (en) | Spoken language understanding | |
CN112016300B (zh) | 预训练模型处理、下游任务处理方法、装置及存储介质 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN117275484B (zh) | 命令词识别方法、装置、设备和介质 | |
WO2022083165A1 (en) | Transformer-based automatic speech recognition system incorporating time-reduction layer | |
Sabab et al. | Bangla speech recognition using 1D-CNN and LSTM with different dimension reduction techniques | |
CN111210815B (zh) | 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置 | |
CN115101063B (zh) | 低算力语音识别方法、装置、设备及介质 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 | |
CN113990296B (zh) | 语音声学模型的训练方法、后处理方法和相关设备 | |
CN114399646B (zh) | 一种基于Transformer结构的图像描述方法和装置 | |
CN115497484A (zh) | 语音解码结果处理方法、装置、设备及存储介质 | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
CN115238698A (zh) | 生物医疗命名实体识别方法及系统 | |
SiChen | A neural network based text classification with attention mechanism | |
CN115713934B (zh) | 一种语音转文本的纠错方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |