CN109215662B - 端对端语音识别方法、电子装置及计算机可读存储介质 - Google Patents
端对端语音识别方法、电子装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109215662B CN109215662B CN201811088477.4A CN201811088477A CN109215662B CN 109215662 B CN109215662 B CN 109215662B CN 201811088477 A CN201811088477 A CN 201811088477A CN 109215662 B CN109215662 B CN 109215662B
- Authority
- CN
- China
- Prior art keywords
- sequence
- output sequence
- decoder
- encoder
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims description 107
- 230000006870 function Effects 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及语音识别技术领域,公开了一种端对端语音识别方法,包括:获取包含多个说话人的第一混合语音信号以及标签序列作为训练样本;构建基于Encoder‑Decoder架构的神经网络模型;训练所述神经网络模型;获取待识别的包括多个说话人的第二混合语音信号;将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。本发明对于包含多个说话人同时发声形成的混合语音源输入,输出分别与每个说话人相对应的发音内容,而无需包含明显的语音分割阶段,从单声道混合语音中生成多个独立的输出,精简语音识别过程,减少计算量。本发明还公开了一种电子装置和计算机可读存储介质。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种端对端语音识别方法、电子装置及计算机可读存储介质。
背景技术
语音识别,也被称为自动语音识别(Automatic Speech Recognition,ASR),可以通过识别和理解,将输入的语音信号转变为相应的文字或命令输出,是现代人工智能发展的重要分支。随着计算机处理能力的迅速提高,语音识别技术也得到了较大发展,语音识别技术能够有效地推动声控交互相关领域的发展并极大地方便了人们的生活,也在日益改变人类的生产和生活方式。随着语音交互方式的发展,对语音识别技术的要求越来越高。目前,语音识别系统可以实现一对一的转换,即,给定一个语音信号,识别一个单独的发音内容。但是其将自动语音识别系统限定在对于仅有一个说话人输入的语音识别,极大地限制了语音识别的应用范围,所以,对于单声道多说话人的语音识别系统的研究很有必要。现有的针对单声道多说话人的语音识别方法通常包括两个步骤:先将混合语音进行分开,然后再在分开的语音上分别做识别,一个语音信号识别一个单独的发音内容,依然是实现一对一的转换,对于多说话人的混合语音输入的处理量较大,过程繁杂,并且不能针对混合语音源输入进行直接识别,并输出多个独立的发音内容。
发明内容
本发明提供一种端对端语音识别方法、电子装置及计算机可读存储介质,以解决现有语音识别方法及系统对于多说话人的混合语音输入的处理量较大,过程繁杂,并且不能针对混合语音源输入进行直接识别,并输出多个独立的发音内容的问题。
为了实现上述目的,本发明的一个方面是提供一种端对端语音识别方法,应用于电子装置,所述端对端语音识别方法包括以下步骤:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型,所述神经网络模型包括编码网络和解码网络;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练所述神经网络模型;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息;
其中,所述编码网络包括:
第一编码器,对所述第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器均得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
优选地,所述步骤S3中,训练所述神经网络模型包括:
将所述第一混合语音信号输入所述第一编码器,输出第一特征序列;
多个所述第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个所述第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>表示从第1个到第n-1个yu,v;/>表示输入序列为O、输出序列元素为/>时,注意力机制解码器输出序列元素为/>的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
优选地,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
优选地,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
优选地,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pcTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
优选地,在损失函数中增加基于负对称相对熵散度的项。
为了实现上述目的,本发明的另一个方面是提供一种电子装置,包括:
语音接收器,用于接收语音信号;处理器;存储器,用于存储端对端语音识别程序,所述处理器执行所述端对端语音识别程序,实现如上所述的端对端语音识别方法。
为了实现上述目的,本发明的再一个方面是提供一种计算机可读存储介质,包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如上所述的端对端语音识别方法。
相对于现有技术,本发明具有以下优点和有益效果:
本发明通过结合了时序分类器CTC准则(Connectionist TemporalClassification准则)和注意力机制的Encoder-Decoder(编码-解码)架构的神经网络模型,对于包含多个说话人同时发声形成的混合语音源输入,输出分别与每个说话人相对应的发音内容,而无需包含明显的语音分割阶段,可以直接将混合语音源输入进行处理,从单声道混合语音中生成多个独立的输出,精简语音识别过程,减少计算量。
附图说明
图1为本发明所述端对端语音识别方法的流程示意图;
图2为图1中Encoder-Decoder架构示意图;
图3为本发明中端对端语音识别程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明所述端对端语音识别方法的流程示意图,如图1所示,本发明提供了一种端对端语音识别方法,该方法应用于电子装置,该电子装置可以由软件和/或硬件实现,所述端对端语音识别方法包括:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
其中,所述步骤S2中,所述基于Encoder-Decoder架构的神经网络模型包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),图2为图1中Encoder-Decoder架构示意图,如图2所示,所述编码网络包括:
第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
本发明中,对多个说话人同时发声形成的混合语音进行处理,识别发音内容,分别得到与每个说话人相对应的文本信息,将自动语音识别的一对一转换转变成一对多转换,端对端语音识别系统直接识别混合语音,扩大语音识别的应用范围。并且,构建基于Encoder-Decoder架构的神经网络模型,基于时序分类器CTC准则和注意力机制对编码网络的输出序列处理,减少计算代价,且提高语音识别的精准度。
其中,T表示序列帧数,t表示序列帧数的索引,D表示输入特征向量的维度,O表示输入序列,o表示序列元素,ot表示第t帧序列元素,RD表示元素为实数的D维特征向量;s表示说话人的索引,S表示说话人的数量,N表示标签序列中的标签数量,Ns表示第s个说话人的标签序列中的标签数量,R表示标签序列,r表示标签序列R中的标签,Rs表示第s个说话人的标签序列。
本发明中,对神经网络模型进行训练,从单声道混合语音中生成多个独立的输出,在训练时,考虑标签序列的所有可能的排列方式,例如,对于S个说话人,标签序列的排列有S!种排列方式,在神经网络训练时,选出所有排列方式中具有最小损失的标签序列用于反向传播计算,反向传播可以选用BP神经网络传播,在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值,对权重进行更新,经过训练,输出与标签序列R最接近的输出序列Y。
本发明的一个可选实施例中,步骤S3中,利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括:
将第一混合语音信号输入第一编码器,输出第一特征序列为H,
H=EncoderMix(O)
其中,O表示输入序列,H表示第一特征序列,EncoderMix表示第一编码器;
多个第二编码器分别对第一特征序列H处理,每个第二编码器得到一个第二特征序列,对于S个说话人,采用S个第二编码器(区分说话人编码器SD),生成S个第二特征序列Hu,
采用与第二编码器数量相等的多个第三编码器(识别编码器Recognitionencoder),每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列Hu处理,得到编码网络的输出序列Gu,并发送至解码网络,
Gu=EncoderRec(Hu)
其中,Gu表示第u个说话人的第三编码器的输出序列,EncoderRec表示第三编码器;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列Gu,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到解码网络的输出序列;
考虑所有标签序列的排列,根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
神经网络模型中确定的注意力权重值,使得语音信号被输入到神经网络模型之后,基于注意力权重值突出语音信号在语音帧一个或多个频率范围的特征值的不同重要程度,经过Encoder-Decoder神经网络模型之后,输出相对应的文本信息。
优选地,训练所述神经网络模型还包括:
在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,得到注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的第n个输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>表示从第1个到第n-1个yu,v;/>表示输入序列为O、输出序列元素为/>时,注意力机制解码器输出序列元素为/>的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第v个标签序列的第n个上下文向量;/>表示第u个说话人对应第v个标签序列的第n个注意力权重;/>表示第u个说话人对应第v个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>表示第v个标签序列中的第n-1个标签。
对于输入的混合语音序列,经过注意力机制解码器之后将得到与各个第三编码器的输出序列相对应的所有标签序列的条件概率分布。对与同一个标签序列相对应的第三编码器的输出序列的条件概率得到注意力机制解码器的权重,根据权重以及第三编码器的输出序列得到对应的中间语义序列,进而解码得到输出序列。
本发明中,以损失衡量神经网络的期望输出与实际输出之间的距离。优选地,根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列:
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
例如,有两个说话人,P表示集合{1,2},π包含两种排列(1,2)和(2,1),则损失值为:
Latt=min(Lossatt(Y1,i,R1)+Lossatt(Y2,2,R2),Lossatt(Y1,2,R2)
+Lossatt(Y2,1,R1))
选择使损失值最小的排列,用于反向传播,利用误差的反馈结果,训练注意力机制中的权重值。
进一步地,为了减少计算带来的损失,本发明中,优选地,结合CTC准则和注意力机制定义损失值,训练神经网络模型。
具体地,根据CTC准则,基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列,
其中,Lctc表示基于CTC的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列,Rπ(s)表示第π(s)个标签序列;
选择使得损失函数值Lctc最小的一个标签排列:
其中,表示CTC解码器确定的标签排列,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列;
其中,O表示输入序列,表示CTC解码器确定的标签排列,/>表示标签序列排列/>的第u个元素,u表示某个说话人的语音的识别结果的索引;Y表示解码器的输出序列;y表示输出序列元素;n表示元素的索引;/>表示第u个说话人对应第/>个的第n个输出序列元素;/>表示第u个说话人对应第/>个输出序列;/>表示第u个说话人对应第/>个标签的第1个到第(n-1)个输出序列元素;/>表示输入序列为O、输出序列元素为/>时,注意力机制解码器输出序列元素为/>的条件概率;/>表示输入序列为O时,注意力机制解码器的输出序列为/>的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第/>个标签序列的第n个上下文向量;表示第u个说话人对应第/>个标签序列的第n个注意力权重;/>表示第u个说话人对应第/>个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>表示第/>个标签序列中的第n-1个标签。
进一步地,结合CTC准则和注意力机制的损失值为两个目标函数带插值λ的和:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失值,Latt表示基于注意力机制的损失值,Lmtl表示基于CTC准则和注意力机制的损失值,s表示说话人的索引,Ys表示第s个说话人对应CTC解码器的输出序列,表示第s个说话人对应的第/>个注意力机制解码器的输出序列,Rπ(s)表示第/>个标签序列。
选择使损失值Lmtl最小的排列,用于反向传播,利用误差的反馈结果,更新注意力机制中的权重。
具体地,神经网络模型的输出序列可以由下式得到:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
一个单独的解码网络通过独立地解码由编码网络生成的多个隐藏层向量来输出多个标签序列。为了让解码网络生成许多不同的标签序列,编码网络需要对不同的说话人生成足够鉴别性的隐藏层向量序列。
优选地,在损失函数中增加基于负对称相对熵散度的项。通过引入一个基于负对称相对熵散度的项来增强不同隐藏层向量之间的对比。以两个说话人同时发声为例,损失函数通过下式得到:
其中,l表示神经网络中的隐藏层数量;
对于重新输入神经网络模型的一段包含多个说话人的第二混合语音信号,经过编码网络编码,输出与每个说话人相对应的输出序列Gu,利用训练后的注意力权重,求得输出序列为Yu的条件概率,进而得到解码网络的输出序列
本发明所述端对端语音识别方法应用于电子装置,电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。然而,电子装置并不限于所列举示例,电子装置可以是用户控制的通过语音识别技术处理用户命令的任何其他装置,通过输入用户的语音,在显示器等装置上以文本格式提供识别结果,或在其他的输出装置上输出用户语音的识别结果。
所述电子装置包括:语音接收器,用于接收语音信号;处理器;存储器,用于存储端对端语音识别程序,处理器执行端对端语音识别程序,实现如上所述的端对端语音识别方法。
语音接收器,通过电子装置的麦克风接收用户的语音信号输入,可以是多个说话人的混合语音信号。
存储器包括至少一种类型的可读存储介质,可以是闪存、硬盘、光盘等非易失性存储介质,也可以是插接式硬盘等,且并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中,存储器存储的软件程序包括端对端语音识别程序,并可以向处理器提供该端对端语音识别程序,以使得处理器可以执行该端对端语音识别程序,实现端对端语音识别方法。
处理器可以是中央处理器、微处理器或其他数据处理芯片等,可以运行存储器中的存储程序。
可选地,该电子装置还包括显示器,例如,可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管触摸器等。显示器用于显示在电子装置中经处理形成的文本信息。
本发明中,处理器执行端对端语音识别程序,可以实现如下的端对端语音识别方法:
获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
构建基于Encoder-Decoder架构的神经网络模型,包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),编码网络包括:第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;所述解码网络包括:解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息;
将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
获取待识别的包括多个说话人的第二混合语音信号;
将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
其中,T表示序列帧数,t表示序列帧数的索引,D表示输入特征向量的维度,O表示输入序列,o表示序列元素,ot表示第t帧序列元素,RD表示元素为实数的D维特征向量;s表示说话人的索引,S表示说话人的数量,N表示标签序列中的标签数量,Ns表示第s个说话人的标签序列中的标签数量,R表示标签序列,r表示标签序列R中的标签,Rs表示第s个说话人的标签序列。
本发明中,处理器执行端对端语音识别程序对神经网络模型进行训练,从单声道混合语音中生成多个独立的输出,在训练时,考虑标签序列的所有可能的排列方式,例如,对于S个说话人,标签序列的排列有S!种排列方式,在神经网络训练时,选出所有排列方式中具有最小损失的标签序列用于反向传播计算,反向传播可以选用BP神经网络传播,在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值,对权重进行更新,经过训练,输出与标签序列R最接近的输出序列Y。
本发明的一个可选实施例中,处理器执行端对端语音识别程序,利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括:
将第一混合语音信号输入第一编码器,输出第一特征序列为H,
H=EncoderMix(O)
其中,O表示输入序列,H表示第一特征序列,EncoderMix表示第一编码器;
多个第二编码器分别对第一特征序列H处理,每个第二编码器得到一个第二特征序列,对于S个说话人,采用S个第二编码器(区分说话人编码器SD),生成S个第二特征序列Hu,
采用与第二编码器数量相等的多个第三编码器(识别编码器Recognitionencoder),每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列Hu处理,得到编码网络的输出序列Gu,并发送至解码网络,
Gu=EncodeYRec(Hu)
其中,Gu表示第u个说话人的第三编码器的输出序列,EncoderRec表示第三编码器;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列Gu,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到解码网络的输出序列;
考虑所有标签序列的排列,根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,处理器执行端对端语音识别程序,训练所述神经网络模型还包括:
在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,得到注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的第n个输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>表示从第1个到第n-1个yu,v;/>表示输入序列为O、输出序列元素为/>时,注意力机制解码器输出序列元素为/>的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第v个标签序列的第n个上下文向量;/>表示第u个说话人对应第v个标签序列的第n个注意力权重;/>表示第u个说话人对应第v个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>表示第v个标签序列中的第n-1个标签。
优选地,处理器执行端对端语音识别程序,根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列:
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
例如,有两个说话人,P表示集合{1,2},π包含两种排列(1,2)和(2,1),则损失值为:
Latt=min(Lossatt(Y1,1,R1)+Lossatt(Y2,2,R2),Lossatt(Y1,2,R2)
+Lossatt(Y2,1,R1))
选择使损失值最小的排列,用于反向传播,利用误差的反馈结果,训练注意力机制中的权重值。
进一步地,为了减少计算带来的损失,本发明中,优选地,处理器执行端对端语音识别程序,结合CTC准则和注意力机制定义损失值,训练神经网络模型。
具体地,根据CTC准则,基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列,
其中,Lctc表示基于CTC的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列,Rπ(s)表示第π(s)个标签序列;
选择使得损失函数值Lctc最小的一个标签排列:
其中,表示CTC解码器确定的标签排列,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列;
其中,O表示输入序列,表示CTC解码器确定的标签排列,/>表示标签序列排列/>的第u个元素,u表示某个说话人的语音的识别结果的索引;Y表示解码器的输出序列;y表示输出序列元素;n表示元素的索引;/>表示第u个说话人对应第/>个的第n个输出序列元素;/>表示第u个说话人对应第/>个输出序列;/>表示第u个说话人对应第/>个标签的第1个到第(n-1)个输出序列元素;/>表示输入序列为O、输出序列元素为/>时,注意力机制解码器输出序列元素为/>的条件概率;/>表示输入序列为O时,注意力机制解码器的输出序列为/>的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第/>个标签序列的第n个上下文向量;表示第u个说话人对应第/>个标签序列的第n个注意力权重;/>表示第u个说话人对应第/>个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>表示第/>个标签序列中的第n-1个标签。
进一步地,结合CTC准则和注意力机制的损失值为两个目标函数带插值λ的和:
Lmtl=λLcTc+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失值,Latt表示基于注意力机制的损失值,Lmtl表示基于CTC准则和注意力机制的损失值,s表示说话人的索引,Ys表示第s个说话人对应CTC解码器的输出序列,表示第s个说话人对应的第/>个注意力机制解码器的输出序列,Rπ(s)表示第/>个标签序列。
选择使损失值Lmtl最小的排列,用于反向传播,利用误差的反馈结果,更新注意力机制中的权重。
具体地,神经网络模型的输出序列可以由下式得到:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
一个单独的解码网络通过独立地解码由编码网络生成的多个隐藏层向量来输出多个标签序列。为了让解码网络生成许多不同的标签序列,编码网络需要对不同的说话人生成足够鉴别性的隐藏层向量序列。
优选地,在损失函数中增加基于负对称相对熵散度的项。通过引入一个基于负对称相对熵散度的项来增强不同隐藏层向量之间的对比。以两个说话人同时发声为例,损失函数通过下式得到:
其中,l表示神经网络中的隐藏层数量;
在其他实施例中,端对端语音识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由处理器执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图3为本发明中端对端语音识别程序的模块示意图,如图3所示,所述端对端语音识别程序可以被分割为:训练样本获取模块10、模型构建模块20、模型训练模块30、语音获取模块40、语音识别模块50。各个模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
训练样本获取模块10,获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列;
模型构建模块20,构建基于Encoder-Decoder架构的神经网络模型;
模型训练模块30,将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
语音获取模块40,获取待识别的包括多个说话人的第二混合语音信号;
语音识别模块50,将第二混合语音信号输入经过训练的神经网络模型,输出识别的分别与每个说话人相对应的文本信息。
本发明的一个实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如下的端对端语音识别方法:
获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
构建基于Encoder-Decoder架构的神经网络模型,包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),编码网络包括:第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;所述解码网络包括:解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息;
将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
获取待识别的包括多个说话人的第二混合语音信号;
将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
优选地,训练所述神经网络模型包括:
将所述第一混合语音信号输入所述第一编码器,输出第一特征序列;
多个所述第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个所述第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>表示从第1个到第n-1个yu,v;/>表示输入序列为O、输出序列元素为/>时,注意力机制解码器输出序列元素为/>的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
优选地,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
优选地,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
优选地,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
优选地,在损失函数中增加基于负对称相对熵散度的项。
本发明所述计算机可读存储介质的具体实施方式与上述端对端语音识别方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种端对端语音识别方法,应用于电子装置,其特征在于,所述端对端语音识别方法包括以下步骤:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型,所述神经网络模型包括编码网络和解码网络;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练所述神经网络模型;其中,训练所述神经网络模型包括:
将所述第一混合语音信号输入第一编码器,输出第一特征序列;
多个第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息;
其中,所述编码网络包括:
第一编码器,对所述第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器均得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
2.根据权利要求1所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>表示从第1个到第n-1个yu,v;/>表示输入序列为O、输出序列元素为/>时,注意力机制解码器输出序列元素为/>的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
4.根据权利要求1所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
5.根据权利要求4所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
7.根据权利要求1所述的端对端语音识别方法,其特征在于,在损失函数中增加基于负对称相对熵散度的项。
8.一种电子装置,其特征在于,所述电子装置包括:
语音接收器,用于接收语音信号;
处理器;
存储器,用于存储端对端语音识别程序,
所述处理器执行所述端对端语音识别程序,实现如权利要求1-7中任一项权利要求所述的端对端语音识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如权利要求1-7中任一项权利要求所述的端对端语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811088477.4A CN109215662B (zh) | 2018-09-18 | 2018-09-18 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811088477.4A CN109215662B (zh) | 2018-09-18 | 2018-09-18 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109215662A CN109215662A (zh) | 2019-01-15 |
CN109215662B true CN109215662B (zh) | 2023-06-20 |
Family
ID=64984264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811088477.4A Active CN109215662B (zh) | 2018-09-18 | 2018-09-18 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109215662B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517666B (zh) | 2019-01-29 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
US11100920B2 (en) * | 2019-03-25 | 2021-08-24 | Mitsubishi Electric Research Laboratories, Inc. | System and method for end-to-end speech recognition with triggered attention |
CN113646835A (zh) * | 2019-04-05 | 2021-11-12 | 谷歌有限责任公司 | 联合自动语音识别和说话人二值化 |
CN111862985A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN110189748B (zh) * | 2019-05-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110364142B (zh) * | 2019-06-28 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110335592B (zh) * | 2019-06-28 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110444203B (zh) * | 2019-07-17 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
CN110556114B (zh) * | 2019-07-26 | 2022-06-17 | 国家计算机网络与信息安全管理中心 | 基于注意力机制的通话人识别方法及装置 |
CN110534095B (zh) * | 2019-08-22 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110797018B (zh) * | 2019-08-28 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、介质和设备 |
CN110706690A (zh) * | 2019-09-16 | 2020-01-17 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
CN110570858A (zh) * | 2019-09-19 | 2019-12-13 | 芋头科技(杭州)有限公司 | 语音唤醒方法、装置、智能音箱和计算机可读存储介质 |
CN110648659B (zh) * | 2019-09-24 | 2022-07-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110767218A (zh) * | 2019-10-31 | 2020-02-07 | 南京励智心理大数据产业研究院有限公司 | 端到端语音识别方法、系统、装置及其存储介质 |
CN111160348A (zh) * | 2019-11-20 | 2020-05-15 | 中国科学院深圳先进技术研究院 | 自然场景的文本识别方法、存储装置和计算机设备 |
CN110880328B (zh) * | 2019-11-20 | 2022-11-15 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN111104884B (zh) * | 2019-12-10 | 2022-06-03 | 电子科技大学 | 一种基于两阶段神经网络模型的汉语唇语识别方法 |
CN111128137B (zh) * | 2019-12-30 | 2023-05-30 | 广州市百果园信息技术有限公司 | 一种声学模型的训练方法、装置、计算机设备和存储介质 |
CN113192496A (zh) * | 2020-01-10 | 2021-07-30 | 普天信息技术有限公司 | 语音识别方法及装置 |
CN111276133B (zh) * | 2020-01-20 | 2023-01-03 | 厦门快商通科技股份有限公司 | 音频识别方法、系统、移动终端及存储介质 |
CN111326157B (zh) * | 2020-01-20 | 2023-09-08 | 抖音视界有限公司 | 文本生成方法、装置、电子设备和计算机可读介质 |
CN111179918B (zh) * | 2020-02-20 | 2022-10-14 | 中国科学院声学研究所 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
CN111401374A (zh) * | 2020-03-06 | 2020-07-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 基于多任务的模型训练方法、字符识别方法及装置 |
CN111583911B (zh) * | 2020-04-30 | 2023-04-14 | 深圳市优必选科技股份有限公司 | 基于标签平滑的语音识别方法、装置、终端及介质 |
CN111583909B (zh) * | 2020-05-18 | 2024-04-12 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111768762B (zh) * | 2020-06-05 | 2022-01-21 | 北京有竹居网络技术有限公司 | 语音识别方法、装置及电子设备 |
CN111899727B (zh) * | 2020-07-15 | 2022-05-06 | 思必驰科技股份有限公司 | 用于多说话人的语音识别模型的训练方法及系统 |
CN112652300A (zh) * | 2020-12-24 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN113782013B (zh) * | 2021-09-15 | 2024-01-30 | 北京百度网讯科技有限公司 | 语音识别及模型训练的方法、设备、存储介质及程序产品 |
CN115440198B (zh) * | 2022-11-08 | 2023-05-02 | 南方电网数字电网研究院有限公司 | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6836758B2 (en) * | 2001-01-09 | 2004-12-28 | Qualcomm Incorporated | System and method for hybrid voice recognition |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US10319374B2 (en) * | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
CN108122035B (zh) * | 2016-11-29 | 2019-10-18 | 科大讯飞股份有限公司 | 端到端建模方法及系统 |
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
CN108417202B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
-
2018
- 2018-09-18 CN CN201811088477.4A patent/CN109215662B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109215662A (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109215662B (zh) | 端对端语音识别方法、电子装置及计算机可读存储介质 | |
CN110136693B (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
US10872596B2 (en) | Systems and methods for parallel wave generation in end-to-end text-to-speech | |
US10811000B2 (en) | Methods and systems for recognizing simultaneous speech by multiple speakers | |
WO2020024646A1 (en) | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks | |
CN110706692B (zh) | 儿童语音识别模型的训练方法及系统 | |
CN108874174A (zh) | 一种文本纠错方法、装置以及相关设备 | |
WO2014035738A1 (en) | Computer-implemented deep tensor neural network | |
CN111415667A (zh) | 一种流式端到端语音识别模型训练和解码方法 | |
Zhen et al. | Cascaded cross-module residual learning towards lightweight end-to-end speech coding | |
CN107871496B (zh) | 语音识别方法和装置 | |
CN113505591A (zh) | 一种槽位识别方法及电子设备 | |
CN111583909A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
Zhang et al. | Improving end-to-end single-channel multi-talker speech recognition | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
CN113096634B (zh) | 语音合成方法、装置、服务器及存储介质 | |
KR20200091797A (ko) | 음성 인식 장치 및 방법 | |
CN113239147A (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
CN111625629B (zh) | 任务型对话机器人应答方法、装置及机器人、存储介质 | |
CN116310983A (zh) | 多模态情感识别方法及装置 | |
KR20190019460A (ko) | 보코더 유형 판별 장치 및 방법 | |
CN115206284A (zh) | 一种模型训练方法、装置、服务器和介质 | |
CN114005430A (zh) | 语音合成模型的训练方法、装置、电子设备和存储介质 | |
Tanaka et al. | End-to-end rich transcription-style automatic speech recognition with semi-supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |