CN109215662B - 端对端语音识别方法、电子装置及计算机可读存储介质 - Google Patents

端对端语音识别方法、电子装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109215662B
CN109215662B CN201811088477.4A CN201811088477A CN109215662B CN 109215662 B CN109215662 B CN 109215662B CN 201811088477 A CN201811088477 A CN 201811088477A CN 109215662 B CN109215662 B CN 109215662B
Authority
CN
China
Prior art keywords
sequence
output sequence
decoder
encoder
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811088477.4A
Other languages
English (en)
Other versions
CN109215662A (zh
Inventor
贾雪丽
程宁
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811088477.4A priority Critical patent/CN109215662B/zh
Publication of CN109215662A publication Critical patent/CN109215662A/zh
Application granted granted Critical
Publication of CN109215662B publication Critical patent/CN109215662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及语音识别技术领域,公开了一种端对端语音识别方法,包括:获取包含多个说话人的第一混合语音信号以及标签序列作为训练样本;构建基于Encoder‑Decoder架构的神经网络模型;训练所述神经网络模型;获取待识别的包括多个说话人的第二混合语音信号;将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。本发明对于包含多个说话人同时发声形成的混合语音源输入,输出分别与每个说话人相对应的发音内容,而无需包含明显的语音分割阶段,从单声道混合语音中生成多个独立的输出,精简语音识别过程,减少计算量。本发明还公开了一种电子装置和计算机可读存储介质。

Description

端对端语音识别方法、电子装置及计算机可读存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种端对端语音识别方法、电子装置及计算机可读存储介质。
背景技术
语音识别,也被称为自动语音识别(Automatic Speech Recognition,ASR),可以通过识别和理解,将输入的语音信号转变为相应的文字或命令输出,是现代人工智能发展的重要分支。随着计算机处理能力的迅速提高,语音识别技术也得到了较大发展,语音识别技术能够有效地推动声控交互相关领域的发展并极大地方便了人们的生活,也在日益改变人类的生产和生活方式。随着语音交互方式的发展,对语音识别技术的要求越来越高。目前,语音识别系统可以实现一对一的转换,即,给定一个语音信号,识别一个单独的发音内容。但是其将自动语音识别系统限定在对于仅有一个说话人输入的语音识别,极大地限制了语音识别的应用范围,所以,对于单声道多说话人的语音识别系统的研究很有必要。现有的针对单声道多说话人的语音识别方法通常包括两个步骤:先将混合语音进行分开,然后再在分开的语音上分别做识别,一个语音信号识别一个单独的发音内容,依然是实现一对一的转换,对于多说话人的混合语音输入的处理量较大,过程繁杂,并且不能针对混合语音源输入进行直接识别,并输出多个独立的发音内容。
发明内容
本发明提供一种端对端语音识别方法、电子装置及计算机可读存储介质,以解决现有语音识别方法及系统对于多说话人的混合语音输入的处理量较大,过程繁杂,并且不能针对混合语音源输入进行直接识别,并输出多个独立的发音内容的问题。
为了实现上述目的,本发明的一个方面是提供一种端对端语音识别方法,应用于电子装置,所述端对端语音识别方法包括以下步骤:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型,所述神经网络模型包括编码网络和解码网络;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练所述神经网络模型;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息;
其中,所述编码网络包括:
第一编码器,对所述第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器均得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
优选地,所述步骤S3中,训练所述神经网络模型包括:
将所述第一混合语音信号输入所述第一编码器,输出第一特征序列;
多个所述第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个所述第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
Figure BDA0001803759560000031
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
Figure BDA0001803759560000032
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;
Figure BDA0001803759560000033
表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>
Figure BDA0001803759560000034
表示从第1个到第n-1个yu,v;/>
Figure BDA0001803759560000035
表示输入序列为O、输出序列元素为/>
Figure BDA0001803759560000036
时,注意力机制解码器输出序列元素为/>
Figure BDA0001803759560000037
的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
优选地,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
Figure BDA0001803759560000038
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
优选地,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
优选地,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
Figure BDA0001803759560000041
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pcTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
优选地,在损失函数中增加基于负对称相对熵散度的项。
为了实现上述目的,本发明的另一个方面是提供一种电子装置,包括:
语音接收器,用于接收语音信号;处理器;存储器,用于存储端对端语音识别程序,所述处理器执行所述端对端语音识别程序,实现如上所述的端对端语音识别方法。
为了实现上述目的,本发明的再一个方面是提供一种计算机可读存储介质,包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如上所述的端对端语音识别方法。
相对于现有技术,本发明具有以下优点和有益效果:
本发明通过结合了时序分类器CTC准则(Connectionist TemporalClassification准则)和注意力机制的Encoder-Decoder(编码-解码)架构的神经网络模型,对于包含多个说话人同时发声形成的混合语音源输入,输出分别与每个说话人相对应的发音内容,而无需包含明显的语音分割阶段,可以直接将混合语音源输入进行处理,从单声道混合语音中生成多个独立的输出,精简语音识别过程,减少计算量。
附图说明
图1为本发明所述端对端语音识别方法的流程示意图;
图2为图1中Encoder-Decoder架构示意图;
图3为本发明中端对端语音识别程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明所述端对端语音识别方法的流程示意图,如图1所示,本发明提供了一种端对端语音识别方法,该方法应用于电子装置,该电子装置可以由软件和/或硬件实现,所述端对端语音识别方法包括:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
其中,所述步骤S2中,所述基于Encoder-Decoder架构的神经网络模型包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),图2为图1中Encoder-Decoder架构示意图,如图2所示,所述编码网络包括:
第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
本发明中,对多个说话人同时发声形成的混合语音进行处理,识别发音内容,分别得到与每个说话人相对应的文本信息,将自动语音识别的一对一转换转变成一对多转换,端对端语音识别系统直接识别混合语音,扩大语音识别的应用范围。并且,构建基于Encoder-Decoder架构的神经网络模型,基于时序分类器CTC准则和注意力机制对编码网络的输出序列处理,减少计算代价,且提高语音识别的精准度。
步骤S1中,对于S个说话人同时发声时,形成的第一混合语音信号为D维输入特征向量的T帧序列O=(ot∈RD|t=1,…,T),标签序列为S个分别与每个说话人相对应的标签序列
Figure BDA0001803759560000061
其中,T表示序列帧数,t表示序列帧数的索引,D表示输入特征向量的维度,O表示输入序列,o表示序列元素,ot表示第t帧序列元素,RD表示元素为实数的D维特征向量;s表示说话人的索引,S表示说话人的数量,N表示标签序列中的标签数量,Ns表示第s个说话人的标签序列中的标签数量,R表示标签序列,r表示标签序列R中的标签,Rs表示第s个说话人的标签序列。
本发明中,对神经网络模型进行训练,从单声道混合语音中生成多个独立的输出,在训练时,考虑标签序列的所有可能的排列方式,例如,对于S个说话人,标签序列的排列有S!种排列方式,在神经网络训练时,选出所有排列方式中具有最小损失的标签序列用于反向传播计算,反向传播可以选用BP神经网络传播,在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值,对权重进行更新,经过训练,输出与标签序列R最接近的输出序列Y。
本发明的一个可选实施例中,步骤S3中,利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括:
将第一混合语音信号输入第一编码器,输出第一特征序列为H,
H=EncoderMix(O)
其中,O表示输入序列,H表示第一特征序列,EncoderMix表示第一编码器;
多个第二编码器分别对第一特征序列H处理,每个第二编码器得到一个第二特征序列,对于S个说话人,采用S个第二编码器(区分说话人编码器SD),生成S个第二特征序列Hu
Figure BDA0001803759560000071
其中,u∈{1,…,S}表示某个说话人的语音的识别结果的索引,Hu表示第u个说话人的第二特征序列,
Figure BDA0001803759560000072
表示第u个说话人的第二编码器;
采用与第二编码器数量相等的多个第三编码器(识别编码器Recognitionencoder),每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列Hu处理,得到编码网络的输出序列Gu,并发送至解码网络,
Gu=EncoderRec(Hu)
其中,Gu表示第u个说话人的第三编码器的输出序列,EncoderRec表示第三编码器;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列Gu,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到解码网络的输出序列;
考虑所有标签序列的排列,根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
Figure BDA0001803759560000073
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
神经网络模型中确定的注意力权重值,使得语音信号被输入到神经网络模型之后,基于注意力权重值突出语音信号在语音帧一个或多个频率范围的特征值的不同重要程度,经过Encoder-Decoder神经网络模型之后,输出相对应的文本信息。
优选地,训练所述神经网络模型还包括:
在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,得到注意力机制解码器输出序列Yu,v的条件概率为:
Figure BDA0001803759560000081
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;
Figure BDA0001803759560000082
表示第u个说话人对应第v个标签序列的第n个输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>
Figure BDA0001803759560000083
表示从第1个到第n-1个yu,v;/>
Figure BDA0001803759560000084
表示输入序列为O、输出序列元素为/>
Figure BDA0001803759560000085
时,注意力机制解码器输出序列元素为/>
Figure BDA0001803759560000086
的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
根据下式得到第u个说话人对应第v个标签序列的第n个输出序列元素
Figure BDA0001803759560000087
Figure BDA0001803759560000088
Figure BDA0001803759560000089
Figure BDA00018037595600000810
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,
Figure BDA0001803759560000091
表示第u个说话人对应第v个标签序列的第n个上下文向量;/>
Figure BDA0001803759560000092
表示第u个说话人对应第v个标签序列的第n个注意力权重;/>
Figure BDA0001803759560000093
表示第u个说话人对应第v个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>
Figure BDA0001803759560000094
表示第v个标签序列中的第n-1个标签。
对于输入的混合语音序列,经过注意力机制解码器之后将得到与各个第三编码器的输出序列相对应的所有标签序列的条件概率分布。对与同一个标签序列相对应的第三编码器的输出序列的条件概率得到注意力机制解码器的权重,根据权重以及第三编码器的输出序列得到对应的中间语义序列,进而解码得到输出序列。
本发明中,以损失衡量神经网络的期望输出与实际输出之间的距离。优选地,根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列:
Figure BDA0001803759560000095
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
例如,有两个说话人,P表示集合{1,2},π包含两种排列(1,2)和(2,1),则损失值为:
Latt=min(Lossatt(Y1,i,R1)+Lossatt(Y2,2,R2),Lossatt(Y1,2,R2)
+Lossatt(Y2,1,R1))
选择使损失值最小的排列,用于反向传播,利用误差的反馈结果,训练注意力机制中的权重值。
进一步地,为了减少计算带来的损失,本发明中,优选地,结合CTC准则和注意力机制定义损失值,训练神经网络模型。
具体地,根据CTC准则,基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列,
Figure BDA0001803759560000101
其中,Lctc表示基于CTC的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列,Rπ(s)表示第π(s)个标签序列;
选择使得损失函数值Lctc最小的一个标签排列:
Figure BDA0001803759560000102
其中,
Figure BDA0001803759560000103
表示CTC解码器确定的标签排列,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列;
根据标签排列
Figure BDA0001803759560000104
决定的标签和与该CTC解码器相同的编码网络的输出序列Gu来实施注意力机制解码,得到注意力机制解码器的输出序列的条件概率:
Figure BDA0001803759560000105
其中,O表示输入序列,
Figure BDA0001803759560000106
表示CTC解码器确定的标签排列,/>
Figure BDA0001803759560000107
表示标签序列排列/>
Figure BDA0001803759560000108
的第u个元素,u表示某个说话人的语音的识别结果的索引;Y表示解码器的输出序列;y表示输出序列元素;n表示元素的索引;/>
Figure BDA0001803759560000109
表示第u个说话人对应第/>
Figure BDA00018037595600001010
个的第n个输出序列元素;/>
Figure BDA00018037595600001011
表示第u个说话人对应第/>
Figure BDA00018037595600001012
个输出序列;/>
Figure BDA00018037595600001013
表示第u个说话人对应第/>
Figure BDA00018037595600001014
个标签的第1个到第(n-1)个输出序列元素;/>
Figure BDA00018037595600001015
表示输入序列为O、输出序列元素为/>
Figure BDA00018037595600001016
时,注意力机制解码器输出序列元素为/>
Figure BDA00018037595600001017
的条件概率;/>
Figure BDA00018037595600001018
表示输入序列为O时,注意力机制解码器的输出序列为/>
Figure BDA00018037595600001019
的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
根据下式得到第u个说话人对应第
Figure BDA00018037595600001020
个的第n个输出序列元素/>
Figure BDA00018037595600001021
Figure BDA00018037595600001022
Figure BDA00018037595600001023
Figure BDA00018037595600001024
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,
Figure BDA0001803759560000111
表示第u个说话人对应第/>
Figure BDA0001803759560000112
个标签序列的第n个上下文向量;
Figure BDA0001803759560000113
表示第u个说话人对应第/>
Figure BDA0001803759560000114
个标签序列的第n个注意力权重;/>
Figure BDA0001803759560000115
表示第u个说话人对应第/>
Figure BDA0001803759560000116
个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>
Figure BDA0001803759560000117
表示第/>
Figure BDA0001803759560000118
个标签序列中的第n-1个标签。
进一步地,结合CTC准则和注意力机制的损失值为两个目标函数带插值λ的和:
Lmtl=λLCTC+(1-λ)Latt
Figure BDA0001803759560000119
Figure BDA00018037595600001110
其中,LCTC表示基于CTC准则的损失值,Latt表示基于注意力机制的损失值,Lmtl表示基于CTC准则和注意力机制的损失值,s表示说话人的索引,Ys表示第s个说话人对应CTC解码器的输出序列,
Figure BDA00018037595600001111
表示第s个说话人对应的第/>
Figure BDA00018037595600001112
个注意力机制解码器的输出序列,Rπ(s)表示第/>
Figure BDA00018037595600001113
个标签序列。
选择使损失值Lmtl最小的排列,用于反向传播,利用误差的反馈结果,更新注意力机制中的权重。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,得到解码网络的输出序列
Figure BDA00018037595600001114
具体地,神经网络模型的输出序列可以由下式得到:
Figure BDA00018037595600001115
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
一个单独的解码网络通过独立地解码由编码网络生成的多个隐藏层向量来输出多个标签序列。为了让解码网络生成许多不同的标签序列,编码网络需要对不同的说话人生成足够鉴别性的隐藏层向量序列。
优选地,在损失函数中增加基于负对称相对熵散度的项。通过引入一个基于负对称相对熵散度的项来增强不同隐藏层向量之间的对比。以两个说话人同时发声为例,损失函数通过下式得到:
Figure BDA0001803759560000121
其中,η是一个常数值,
Figure BDA0001803759560000122
是由第三编码器EncoderRec的输出序列Gu经过softmax操作而得:
Figure BDA0001803759560000123
其中,l表示神经网络中的隐藏层数量;
Figure BDA0001803759560000124
表示第l个隐藏层的输出序列为Gu的概率;
Figure BDA0001803759560000125
表示两个概率/>
Figure BDA0001803759560000126
与/>
Figure BDA0001803759560000127
的KL散度。
对于重新输入神经网络模型的一段包含多个说话人的第二混合语音信号,经过编码网络编码,输出与每个说话人相对应的输出序列Gu,利用训练后的注意力权重,求得输出序列为Yu的条件概率,进而得到解码网络的输出序列
Figure BDA0001803759560000128
本发明所述端对端语音识别方法应用于电子装置,电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。然而,电子装置并不限于所列举示例,电子装置可以是用户控制的通过语音识别技术处理用户命令的任何其他装置,通过输入用户的语音,在显示器等装置上以文本格式提供识别结果,或在其他的输出装置上输出用户语音的识别结果。
所述电子装置包括:语音接收器,用于接收语音信号;处理器;存储器,用于存储端对端语音识别程序,处理器执行端对端语音识别程序,实现如上所述的端对端语音识别方法。
语音接收器,通过电子装置的麦克风接收用户的语音信号输入,可以是多个说话人的混合语音信号。
存储器包括至少一种类型的可读存储介质,可以是闪存、硬盘、光盘等非易失性存储介质,也可以是插接式硬盘等,且并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中,存储器存储的软件程序包括端对端语音识别程序,并可以向处理器提供该端对端语音识别程序,以使得处理器可以执行该端对端语音识别程序,实现端对端语音识别方法。
处理器可以是中央处理器、微处理器或其他数据处理芯片等,可以运行存储器中的存储程序。
可选地,该电子装置还包括显示器,例如,可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管触摸器等。显示器用于显示在电子装置中经处理形成的文本信息。
本发明中,处理器执行端对端语音识别程序,可以实现如下的端对端语音识别方法:
获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
构建基于Encoder-Decoder架构的神经网络模型,包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),编码网络包括:第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;所述解码网络包括:解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息;
将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
获取待识别的包括多个说话人的第二混合语音信号;
将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
对于S个说话人同时发声时,形成的第一混合语音信号为D维输入特征向量的T帧序列O=(ot∈RD|t=1,…,T),标签序列为S个分别与每个说话人相对应的标签序列
Figure BDA0001803759560000131
其中,T表示序列帧数,t表示序列帧数的索引,D表示输入特征向量的维度,O表示输入序列,o表示序列元素,ot表示第t帧序列元素,RD表示元素为实数的D维特征向量;s表示说话人的索引,S表示说话人的数量,N表示标签序列中的标签数量,Ns表示第s个说话人的标签序列中的标签数量,R表示标签序列,r表示标签序列R中的标签,Rs表示第s个说话人的标签序列。
本发明中,处理器执行端对端语音识别程序对神经网络模型进行训练,从单声道混合语音中生成多个独立的输出,在训练时,考虑标签序列的所有可能的排列方式,例如,对于S个说话人,标签序列的排列有S!种排列方式,在神经网络训练时,选出所有排列方式中具有最小损失的标签序列用于反向传播计算,反向传播可以选用BP神经网络传播,在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值,对权重进行更新,经过训练,输出与标签序列R最接近的输出序列Y。
本发明的一个可选实施例中,处理器执行端对端语音识别程序,利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括:
将第一混合语音信号输入第一编码器,输出第一特征序列为H,
H=EncoderMix(O)
其中,O表示输入序列,H表示第一特征序列,EncoderMix表示第一编码器;
多个第二编码器分别对第一特征序列H处理,每个第二编码器得到一个第二特征序列,对于S个说话人,采用S个第二编码器(区分说话人编码器SD),生成S个第二特征序列Hu
Figure BDA0001803759560000141
其中,u∈{1,…,S}表示某个说话人的语音的识别结果的索引,Hu表示第u个说话人的第二特征序列,
Figure BDA0001803759560000142
表示第u个说话人的第二编码器;
采用与第二编码器数量相等的多个第三编码器(识别编码器Recognitionencoder),每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列Hu处理,得到编码网络的输出序列Gu,并发送至解码网络,
Gu=EncodeYRec(Hu)
其中,Gu表示第u个说话人的第三编码器的输出序列,EncoderRec表示第三编码器;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列Gu,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到解码网络的输出序列;
考虑所有标签序列的排列,根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
Figure BDA0001803759560000151
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,处理器执行端对端语音识别程序,训练所述神经网络模型还包括:
在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,得到注意力机制解码器输出序列Yu,v的条件概率为:
Figure BDA0001803759560000152
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;
Figure BDA0001803759560000153
表示第u个说话人对应第v个标签序列的第n个输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>
Figure BDA0001803759560000154
表示从第1个到第n-1个yu,v;/>
Figure BDA0001803759560000155
表示输入序列为O、输出序列元素为/>
Figure BDA0001803759560000156
时,注意力机制解码器输出序列元素为/>
Figure BDA0001803759560000157
的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
根据下式得到第u个说话人对应第v个标签序列的第n个输出序列元素
Figure BDA0001803759560000158
Figure BDA0001803759560000159
Figure BDA00018037595600001510
Figure BDA00018037595600001511
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,
Figure BDA0001803759560000161
表示第u个说话人对应第v个标签序列的第n个上下文向量;/>
Figure BDA0001803759560000162
表示第u个说话人对应第v个标签序列的第n个注意力权重;/>
Figure BDA0001803759560000163
表示第u个说话人对应第v个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>
Figure BDA0001803759560000164
表示第v个标签序列中的第n-1个标签。
优选地,处理器执行端对端语音识别程序,根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列:
Figure BDA0001803759560000165
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
例如,有两个说话人,P表示集合{1,2},π包含两种排列(1,2)和(2,1),则损失值为:
Latt=min(Lossatt(Y1,1,R1)+Lossatt(Y2,2,R2),Lossatt(Y1,2,R2)
+Lossatt(Y2,1,R1))
选择使损失值最小的排列,用于反向传播,利用误差的反馈结果,训练注意力机制中的权重值。
进一步地,为了减少计算带来的损失,本发明中,优选地,处理器执行端对端语音识别程序,结合CTC准则和注意力机制定义损失值,训练神经网络模型。
具体地,根据CTC准则,基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列,
Figure BDA0001803759560000166
其中,Lctc表示基于CTC的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列,Rπ(s)表示第π(s)个标签序列;
选择使得损失函数值Lctc最小的一个标签排列:
Figure BDA0001803759560000171
其中,
Figure BDA0001803759560000172
表示CTC解码器确定的标签排列,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列;
根据标签排列
Figure BDA0001803759560000173
决定的标签和与该CTC解码器相同的编码网络的输出序列Gu来实施注意力机制解码,得到注意力机制解码器的输出序列的条件概率:
Figure BDA0001803759560000174
其中,O表示输入序列,
Figure BDA0001803759560000175
表示CTC解码器确定的标签排列,/>
Figure BDA0001803759560000176
表示标签序列排列/>
Figure BDA0001803759560000177
的第u个元素,u表示某个说话人的语音的识别结果的索引;Y表示解码器的输出序列;y表示输出序列元素;n表示元素的索引;/>
Figure BDA0001803759560000178
表示第u个说话人对应第/>
Figure BDA0001803759560000179
个的第n个输出序列元素;/>
Figure BDA00018037595600001710
表示第u个说话人对应第/>
Figure BDA00018037595600001711
个输出序列;/>
Figure BDA00018037595600001712
表示第u个说话人对应第/>
Figure BDA00018037595600001713
个标签的第1个到第(n-1)个输出序列元素;/>
Figure BDA00018037595600001714
表示输入序列为O、输出序列元素为/>
Figure BDA00018037595600001715
时,注意力机制解码器输出序列元素为/>
Figure BDA00018037595600001716
的条件概率;/>
Figure BDA00018037595600001717
表示输入序列为O时,注意力机制解码器的输出序列为/>
Figure BDA00018037595600001718
的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
根据下式得到第u个说话人对应第
Figure BDA00018037595600001719
个的第n个输出序列元素/>
Figure BDA00018037595600001720
Figure BDA00018037595600001721
/>
Figure BDA00018037595600001722
Figure BDA00018037595600001723
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,
Figure BDA00018037595600001724
表示第u个说话人对应第/>
Figure BDA00018037595600001725
个标签序列的第n个上下文向量;
Figure BDA00018037595600001726
表示第u个说话人对应第/>
Figure BDA00018037595600001727
个标签序列的第n个注意力权重;/>
Figure BDA00018037595600001728
表示第u个说话人对应第/>
Figure BDA00018037595600001729
个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;/>
Figure BDA0001803759560000181
表示第/>
Figure BDA0001803759560000182
个标签序列中的第n-1个标签。
进一步地,结合CTC准则和注意力机制的损失值为两个目标函数带插值λ的和:
Lmtl=λLcTc+(1-λ)Latt
Figure BDA0001803759560000183
Figure BDA0001803759560000184
其中,LCTC表示基于CTC准则的损失值,Latt表示基于注意力机制的损失值,Lmtl表示基于CTC准则和注意力机制的损失值,s表示说话人的索引,Ys表示第s个说话人对应CTC解码器的输出序列,
Figure BDA0001803759560000185
表示第s个说话人对应的第/>
Figure BDA0001803759560000186
个注意力机制解码器的输出序列,Rπ(s)表示第/>
Figure BDA0001803759560000187
个标签序列。
选择使损失值Lmtl最小的排列,用于反向传播,利用误差的反馈结果,更新注意力机制中的权重。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,得到解码网络的输出序列
Figure BDA0001803759560000188
具体地,神经网络模型的输出序列可以由下式得到:
Figure BDA0001803759560000189
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
一个单独的解码网络通过独立地解码由编码网络生成的多个隐藏层向量来输出多个标签序列。为了让解码网络生成许多不同的标签序列,编码网络需要对不同的说话人生成足够鉴别性的隐藏层向量序列。
优选地,在损失函数中增加基于负对称相对熵散度的项。通过引入一个基于负对称相对熵散度的项来增强不同隐藏层向量之间的对比。以两个说话人同时发声为例,损失函数通过下式得到:
Figure BDA00018037595600001810
其中,η是一个常数值,
Figure BDA0001803759560000191
是由第三编码器EncoderRec的输出序列Gu经过softmax操作而得:
Figure BDA0001803759560000192
其中,l表示神经网络中的隐藏层数量;
Figure BDA0001803759560000193
表示第l个隐藏层的输出序列为Gu的概率;
Figure BDA0001803759560000194
表示两个概率/>
Figure BDA0001803759560000195
与/>
Figure BDA0001803759560000196
的KL散度。
在其他实施例中,端对端语音识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由处理器执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图3为本发明中端对端语音识别程序的模块示意图,如图3所示,所述端对端语音识别程序可以被分割为:训练样本获取模块10、模型构建模块20、模型训练模块30、语音获取模块40、语音识别模块50。各个模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
训练样本获取模块10,获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列;
模型构建模块20,构建基于Encoder-Decoder架构的神经网络模型;
模型训练模块30,将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
语音获取模块40,获取待识别的包括多个说话人的第二混合语音信号;
语音识别模块50,将第二混合语音信号输入经过训练的神经网络模型,输出识别的分别与每个说话人相对应的文本信息。
本发明的一个实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如下的端对端语音识别方法:
获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
构建基于Encoder-Decoder架构的神经网络模型,包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),编码网络包括:第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;所述解码网络包括:解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息;
将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
获取待识别的包括多个说话人的第二混合语音信号;
将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
优选地,训练所述神经网络模型包括:
将所述第一混合语音信号输入所述第一编码器,输出第一特征序列;
多个所述第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个所述第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
Figure BDA0001803759560000201
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
Figure BDA0001803759560000211
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;
Figure BDA0001803759560000212
表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>
Figure BDA0001803759560000213
表示从第1个到第n-1个yu,v;/>
Figure BDA0001803759560000214
表示输入序列为O、输出序列元素为/>
Figure BDA0001803759560000215
时,注意力机制解码器输出序列元素为/>
Figure BDA0001803759560000216
的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
优选地,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
Figure BDA0001803759560000217
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
优选地,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
优选地,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
Figure BDA0001803759560000221
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
优选地,在损失函数中增加基于负对称相对熵散度的项。
本发明所述计算机可读存储介质的具体实施方式与上述端对端语音识别方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种端对端语音识别方法,应用于电子装置,其特征在于,所述端对端语音识别方法包括以下步骤:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型,所述神经网络模型包括编码网络和解码网络;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练所述神经网络模型;其中,训练所述神经网络模型包括:
将所述第一混合语音信号输入第一编码器,输出第一特征序列;
多个第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
Figure FDA0004232854540000011
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息;
其中,所述编码网络包括:
第一编码器,对所述第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器均得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
2.根据权利要求1所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
Figure FDA0004232854540000021
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;
Figure FDA0004232854540000022
表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;/>
Figure FDA0004232854540000023
表示从第1个到第n-1个yu,v;/>
Figure FDA0004232854540000024
表示输入序列为O、输出序列元素为/>
Figure FDA0004232854540000025
时,注意力机制解码器输出序列元素为/>
Figure FDA0004232854540000026
的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
3.根据权利要求2所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
Figure FDA0004232854540000031
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
4.根据权利要求1所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
5.根据权利要求4所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
6.根据权利要求5所述的端对端语音识别方法,其特征在于,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
Figure FDA0004232854540000032
其中,
Figure FDA0004232854540000033
表示神经网络模型的输出序列;Gu表示第三编码器的输出序列;pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
7.根据权利要求1所述的端对端语音识别方法,其特征在于,在损失函数中增加基于负对称相对熵散度的项。
8.一种电子装置,其特征在于,所述电子装置包括:
语音接收器,用于接收语音信号;
处理器;
存储器,用于存储端对端语音识别程序,
所述处理器执行所述端对端语音识别程序,实现如权利要求1-7中任一项权利要求所述的端对端语音识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如权利要求1-7中任一项权利要求所述的端对端语音识别方法。
CN201811088477.4A 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质 Active CN109215662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811088477.4A CN109215662B (zh) 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811088477.4A CN109215662B (zh) 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109215662A CN109215662A (zh) 2019-01-15
CN109215662B true CN109215662B (zh) 2023-06-20

Family

ID=64984264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811088477.4A Active CN109215662B (zh) 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109215662B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517666B (zh) 2019-01-29 2021-03-02 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
US11100920B2 (en) * 2019-03-25 2021-08-24 Mitsubishi Electric Research Laboratories, Inc. System and method for end-to-end speech recognition with triggered attention
CN113646835A (zh) * 2019-04-05 2021-11-12 谷歌有限责任公司 联合自动语音识别和说话人二值化
CN111862985A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音识别装置、方法、电子设备及存储介质
CN110189748B (zh) * 2019-05-31 2021-06-11 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110364142B (zh) * 2019-06-28 2022-03-25 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110335592B (zh) * 2019-06-28 2022-06-03 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110444203B (zh) * 2019-07-17 2024-02-27 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN110556114B (zh) * 2019-07-26 2022-06-17 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110797018B (zh) * 2019-08-28 2022-03-25 腾讯科技(深圳)有限公司 语音识别方法及装置、介质和设备
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110570858A (zh) * 2019-09-19 2019-12-13 芋头科技(杭州)有限公司 语音唤醒方法、装置、智能音箱和计算机可读存储介质
CN110648659B (zh) * 2019-09-24 2022-07-01 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110767218A (zh) * 2019-10-31 2020-02-07 南京励智心理大数据产业研究院有限公司 端到端语音识别方法、系统、装置及其存储介质
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN110880328B (zh) * 2019-11-20 2022-11-15 Oppo广东移动通信有限公司 到站提醒方法、装置、终端及存储介质
CN111104884B (zh) * 2019-12-10 2022-06-03 电子科技大学 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111128137B (zh) * 2019-12-30 2023-05-30 广州市百果园信息技术有限公司 一种声学模型的训练方法、装置、计算机设备和存储介质
CN113192496A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
CN111276133B (zh) * 2020-01-20 2023-01-03 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111326157B (zh) * 2020-01-20 2023-09-08 抖音视界有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111179918B (zh) * 2020-02-20 2022-10-14 中国科学院声学研究所 联结主义时间分类和截断式注意力联合在线语音识别技术
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN111583911B (zh) * 2020-04-30 2023-04-14 深圳市优必选科技股份有限公司 基于标签平滑的语音识别方法、装置、终端及介质
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111768762B (zh) * 2020-06-05 2022-01-21 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN111899727B (zh) * 2020-07-15 2022-05-06 思必驰科技股份有限公司 用于多说话人的语音识别模型的训练方法及系统
CN112652300A (zh) * 2020-12-24 2021-04-13 百果园技术(新加坡)有限公司 多方言语音识别方法、装置、设备和存储介质
CN112905795A (zh) * 2021-03-11 2021-06-04 证通股份有限公司 文本意图分类的方法、装置和可读介质
CN113782013B (zh) * 2021-09-15 2024-01-30 北京百度网讯科技有限公司 语音识别及模型训练的方法、设备、存储介质及程序产品
CN115440198B (zh) * 2022-11-08 2023-05-02 南方电网数字电网研究院有限公司 混合音频信号的转换方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
CN108122035B (zh) * 2016-11-29 2019-10-18 科大讯飞股份有限公司 端到端建模方法及系统
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统

Also Published As

Publication number Publication date
CN109215662A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109215662B (zh) 端对端语音识别方法、电子装置及计算机可读存储介质
CN110136693B (zh) 用于使用少量样本进行神经话音克隆的系统和方法
US10872596B2 (en) Systems and methods for parallel wave generation in end-to-end text-to-speech
US10811000B2 (en) Methods and systems for recognizing simultaneous speech by multiple speakers
WO2020024646A1 (en) Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN108874174A (zh) 一种文本纠错方法、装置以及相关设备
WO2014035738A1 (en) Computer-implemented deep tensor neural network
CN111415667A (zh) 一种流式端到端语音识别模型训练和解码方法
Zhen et al. Cascaded cross-module residual learning towards lightweight end-to-end speech coding
CN107871496B (zh) 语音识别方法和装置
CN113505591A (zh) 一种槽位识别方法及电子设备
CN111583909A (zh) 一种语音识别方法、装置、设备及存储介质
Zhang et al. Improving end-to-end single-channel multi-talker speech recognition
KR20220130565A (ko) 키워드 검출 방법 및 장치
CN113096634B (zh) 语音合成方法、装置、服务器及存储介质
KR20200091797A (ko) 음성 인식 장치 및 방법
CN113239147A (zh) 基于图神经网络的智能会话方法、系统及介质
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
CN111625629B (zh) 任务型对话机器人应答方法、装置及机器人、存储介质
CN116310983A (zh) 多模态情感识别方法及装置
KR20190019460A (ko) 보코더 유형 판별 장치 및 방법
CN115206284A (zh) 一种模型训练方法、装置、服务器和介质
CN114005430A (zh) 语音合成模型的训练方法、装置、电子设备和存储介质
Tanaka et al. End-to-end rich transcription-style automatic speech recognition with semi-supervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant