CN109215662B

CN109215662B - 端对端语音识别方法、电子装置及计算机可读存储介质

Info

Publication number: CN109215662B
Application number: CN201811088477.4A
Authority: CN
Inventors: 贾雪丽; 程宁; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2023-06-20
Anticipated expiration: 2038-09-18
Also published as: CN109215662A

Abstract

本发明涉及语音识别技术领域，公开了一种端对端语音识别方法，包括：获取包含多个说话人的第一混合语音信号以及标签序列作为训练样本；构建基于Encoder‑Decoder架构的神经网络模型；训练所述神经网络模型；获取待识别的包括多个说话人的第二混合语音信号；将第二混合语音信号输入经过训练的神经网络模型，输出分别与每个说话人相对应的文本信息。本发明对于包含多个说话人同时发声形成的混合语音源输入，输出分别与每个说话人相对应的发音内容，而无需包含明显的语音分割阶段，从单声道混合语音中生成多个独立的输出，精简语音识别过程，减少计算量。本发明还公开了一种电子装置和计算机可读存储介质。

Description

端对端语音识别方法、电子装置及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种端对端语音识别方法、电子装置及计算机可读存储介质。

背景技术

语音识别，也被称为自动语音识别(Automatic Speech Recognition，ASR)，可以通过识别和理解，将输入的语音信号转变为相应的文字或命令输出，是现代人工智能发展的重要分支。随着计算机处理能力的迅速提高，语音识别技术也得到了较大发展，语音识别技术能够有效地推动声控交互相关领域的发展并极大地方便了人们的生活，也在日益改变人类的生产和生活方式。随着语音交互方式的发展，对语音识别技术的要求越来越高。目前，语音识别系统可以实现一对一的转换，即，给定一个语音信号，识别一个单独的发音内容。但是其将自动语音识别系统限定在对于仅有一个说话人输入的语音识别，极大地限制了语音识别的应用范围，所以，对于单声道多说话人的语音识别系统的研究很有必要。现有的针对单声道多说话人的语音识别方法通常包括两个步骤：先将混合语音进行分开，然后再在分开的语音上分别做识别，一个语音信号识别一个单独的发音内容，依然是实现一对一的转换，对于多说话人的混合语音输入的处理量较大，过程繁杂，并且不能针对混合语音源输入进行直接识别，并输出多个独立的发音内容。

发明内容

本发明提供一种端对端语音识别方法、电子装置及计算机可读存储介质，以解决现有语音识别方法及系统对于多说话人的混合语音输入的处理量较大，过程繁杂，并且不能针对混合语音源输入进行直接识别，并输出多个独立的发音内容的问题。

为了实现上述目的，本发明的一个方面是提供一种端对端语音识别方法，应用于电子装置，所述端对端语音识别方法包括以下步骤：

步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本；

步骤S2、构建基于Encoder-Decoder架构的神经网络模型，所述神经网络模型包括编码网络和解码网络；

步骤S3、将第一混合语音信号输入构建的神经网络模型中，训练所述神经网络模型；

步骤S4、获取待识别的包括多个说话人的第二混合语音信号；

步骤S5、将第二混合语音信号输入经过训练的神经网络模型，输出分别与每个说话人相对应的文本信息；

其中，所述编码网络包括：

第一编码器，对所述第一混合语音信号进行处理得到第一特征序列；

多个第二编码器，分别对所述第一特征序列处理，每个第二编码器均得到一个第二特征序列；

多个第三编码器，每个第三编码器与一个第二编码器相对应，对第二编码器输出的第二特征序列处理，得到编码网络的输出序列，并发送至所述解码网络；

所述解码网络包括：

解码器，包括CTC解码器和注意力机制解码器，接收由所述第三编码器发送的输出序列，基于时序分类器CTC准则和注意力机制对所述输出序列处理，得到识别的文本信息。

优选地，所述步骤S3中，训练所述神经网络模型包括：

将所述第一混合语音信号输入所述第一编码器，输出第一特征序列；

多个所述第二编码器分别对所述第一特征序列处理，每个所述第二编码器得到一个第二特征序列；

每个所述第三编码器对相应的所述第二特征序列处理，得到编码网络的输出序列，并发送至解码网络；

所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列，得到解码网络的输出序列；

根据下式基于损失函数最小选择标签序列的排列，通过反向传播更新注意力机制中的权重值，

其中，L表示损失函数值，s表示说话人的索引，S表示说话人的数量，R表示标签序列，Y表示解码网络的输出序列，P表示排列集合{1,…,S}，π表示标签序列的排列，π(s)表示排列π中的第s个元素，Y^s,π(s)表示第s个说话人第π(s)个输出序列；

权重值更新前与更新后的损失函数值的变化大于设定值，则继续训练，损失函数值的变化小于或等于设定值，则训练结束。

优选地，训练所述神经网络模型还包括：

通过下式得到在编码网络的每个第三编码器的输出序列G^u的标签序列是R^v时，对于编码网络的每个第三编码器的输出序列G^u，注意力机制解码器输出序列Y^u,v的条件概率为：

其中，O表示输入序列；u表示某个说话人的语音的识别结果的索引；v表示标签序列的索引；n表示元素的索引；Y表示解码器的输出序列；y_n表示输出序列的第n个元素；

表示第u个说话人对应第v个标签序列的输出序列元素；Y^u,v表示第u个说话人对应第v个标签序列的解码器输出序列；/>

表示从第1个到第n-1个y^u,v；/>

表示输入序列为O、输出序列元素为/>

时，注意力机制解码器输出序列元素为/>

的条件概率；p_att(Y^u,v|O)表示输入序列为O时，注意力机制解码器的输出序列为Y^u,v的条件概率；

根据注意力机制解码器输出序列Y^u,v的条件概率，得到与编码网络的输出序列G^u对应的标签序列。

优选地，训练所述神经网络模型还包括：

根据下式基于损失函数值最小选择标签序列的排列，

其中，L_att表示基于注意力机制的损失函数值，s表示说话人的索引，R表示标签序列，Y表示解码网络的输出序列，P表示排列集合{1,…,S}，π表示标签序列的排列，π(s)表示排列π中的第s个元素，Y^s,π(s)表示第s个说话人第π(s)个输出序列。

优选地，训练所述神经网络模型还包括：

基于CTC准则的损失函数值最小，CTC解码器输出一个标签排列；

根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率；

根据注意力机制解码器输出序列的条件概率，得到与编码网络的输出序列相对应的标签序列。

优选地，训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值：

L_mtl＝λL_CTC+(1-λ)L_att

其中，L_CTC表示基于CTC准则的损失函数值，L_att表示基于注意力机制的损失函数值，L_mtl表示基于CTC准则和注意力机制的损失函数值，λ表示插值。

优选地，第三编码器的同一个输出序列G^u通过CTC解码器得到输出序列Y^u的条件概率，结合通过注意力机制解码器得到输出序列Y^u的条件概率，通过下式得到神经网络模型的输出序列：

p_CTC(Y^u|G^u)表示CTC准则下，解码网络输入序列G^u，输出序列为Y^u的条件概率；p_att(Y^u|G^u)表示注意力机制下，解码网络输入序列G^u，输出序列为Y^u的条件概率；p_cTC(Y^u|G^u)和p_att(Y^u|G^u)由相同的第三编码器的输出序列G^u得到。

优选地，在损失函数中增加基于负对称相对熵散度的项。

为了实现上述目的，本发明的另一个方面是提供一种电子装置，包括：

语音接收器，用于接收语音信号；处理器；存储器，用于存储端对端语音识别程序，所述处理器执行所述端对端语音识别程序，实现如上所述的端对端语音识别方法。

为了实现上述目的，本发明的再一个方面是提供一种计算机可读存储介质，包括端对端语音识别程序，所述端对端语音识别程序被处理器执行时，实现如上所述的端对端语音识别方法。

相对于现有技术，本发明具有以下优点和有益效果：

本发明通过结合了时序分类器CTC准则(Connectionist TemporalClassification准则)和注意力机制的Encoder-Decoder(编码-解码)架构的神经网络模型，对于包含多个说话人同时发声形成的混合语音源输入，输出分别与每个说话人相对应的发音内容，而无需包含明显的语音分割阶段，可以直接将混合语音源输入进行处理，从单声道混合语音中生成多个独立的输出，精简语音识别过程，减少计算量。

附图说明

图1为本发明所述端对端语音识别方法的流程示意图；

图2为图1中Encoder-Decoder架构示意图；

图3为本发明中端对端语音识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本发明所述端对端语音识别方法的流程示意图，如图1所示，本发明提供了一种端对端语音识别方法，该方法应用于电子装置，该电子装置可以由软件和/或硬件实现，所述端对端语音识别方法包括：

步骤S2、构建基于Encoder-Decoder架构的神经网络模型；

步骤S3、将第一混合语音信号输入构建的神经网络模型中，训练神经网络模型；

步骤S5、将第二混合语音信号输入经过训练的神经网络模型，输出分别与每个说话人相对应的文本信息。

其中，所述步骤S2中，所述基于Encoder-Decoder架构的神经网络模型包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络，例如，CNN/RNN/BiRNN/GRU/LSTM等神经网络)，图2为图1中Encoder-Decoder架构示意图，如图2所示，所述编码网络包括：

第一编码器，对输入的第一混合语音信号进行处理得到第一特征序列；

多个第二编码器，分别对所述第一特征序列处理，每个第二编码器得到一个第二特征序列；

所述解码网络包括：

本发明中，对多个说话人同时发声形成的混合语音进行处理，识别发音内容，分别得到与每个说话人相对应的文本信息，将自动语音识别的一对一转换转变成一对多转换，端对端语音识别系统直接识别混合语音，扩大语音识别的应用范围。并且，构建基于Encoder-Decoder架构的神经网络模型，基于时序分类器CTC准则和注意力机制对编码网络的输出序列处理，减少计算代价，且提高语音识别的精准度。

步骤S1中，对于S个说话人同时发声时，形成的第一混合语音信号为D维输入特征向量的T帧序列O＝(o_t∈R^D|t＝1,…,T)，标签序列为S个分别与每个说话人相对应的标签序列

其中，T表示序列帧数，t表示序列帧数的索引，D表示输入特征向量的维度，O表示输入序列，o表示序列元素，o_t表示第t帧序列元素，R^D表示元素为实数的D维特征向量；s表示说话人的索引，S表示说话人的数量，N表示标签序列中的标签数量，N_s表示第s个说话人的标签序列中的标签数量，R表示标签序列，r表示标签序列R中的标签，R^s表示第s个说话人的标签序列。

本发明中，对神经网络模型进行训练，从单声道混合语音中生成多个独立的输出，在训练时，考虑标签序列的所有可能的排列方式，例如，对于S个说话人，标签序列的排列有S！种排列方式，在神经网络训练时，选出所有排列方式中具有最小损失的标签序列用于反向传播计算，反向传播可以选用BP神经网络传播，在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值，对权重进行更新，经过训练，输出与标签序列R最接近的输出序列Y。

本发明的一个可选实施例中，步骤S3中，利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括：

将第一混合语音信号输入第一编码器，输出第一特征序列为H，

H＝Encoder_Mix(O)

其中，O表示输入序列，H表示第一特征序列，Encoder_Mix表示第一编码器；

多个第二编码器分别对第一特征序列H处理，每个第二编码器得到一个第二特征序列，对于S个说话人，采用S个第二编码器(区分说话人编码器SD)，生成S个第二特征序列H^u，

其中，u∈{1，…，S}表示某个说话人的语音的识别结果的索引，H^u表示第u个说话人的第二特征序列，

表示第u个说话人的第二编码器；

采用与第二编码器数量相等的多个第三编码器(识别编码器Recognitionencoder)，每个第三编码器与一个第二编码器相对应，对第二编码器输出的第二特征序列H^u处理，得到编码网络的输出序列G^u，并发送至解码网络，

G^u＝Encoder_Rec(H^u)

其中，G^u表示第u个说话人的第三编码器的输出序列，Encoder_Rec表示第三编码器；

CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列G^u，基于时序分类器CTC准则和注意力机制对所述输出序列处理，得到解码网络的输出序列；

考虑所有标签序列的排列，根据下式基于损失函数最小选择标签序列的排列，通过反向传播更新注意力机制中的权重值，

神经网络模型中确定的注意力权重值，使得语音信号被输入到神经网络模型之后，基于注意力权重值突出语音信号在语音帧一个或多个频率范围的特征值的不同重要程度，经过Encoder-Decoder神经网络模型之后，输出相对应的文本信息。

优选地，训练所述神经网络模型还包括：

在编码网络的每个第三编码器的输出序列G^u的标签序列是R^v时，对于编码网络的每个第三编码器的输出序列G^u，得到注意力机制解码器输出序列Y^u,v的条件概率为：

表示第u个说话人对应第v个标签序列的第n个输出序列元素；Y^u,v表示第u个说话人对应第v个标签序列的解码器输出序列；/>

表示从第1个到第n-1个y^u,v；/>

表示输入序列为O、输出序列元素为/>

时，注意力机制解码器输出序列元素为/>

根据下式得到第u个说话人对应第v个标签序列的第n个输出序列元素

其中，u表示某个说话人的语音的识别结果的索引；v表示标签序列的索引，G^u表示第三编码器输出的第u个说话人的输出序列；Attention表示注意力机制，Update表示更新，Decoder表示解码，

表示第u个说话人对应第v个标签序列的第n个上下文向量；/>

表示第u个说话人对应第v个标签序列的第n个注意力权重；/>

表示第u个说话人对应第v个标签序列的注意力机制解码器的第n个隐含状态向量；r表示标签序列R中的标签；/>

表示第v个标签序列中的第n-1个标签。

对于输入的混合语音序列，经过注意力机制解码器之后将得到与各个第三编码器的输出序列相对应的所有标签序列的条件概率分布。对与同一个标签序列相对应的第三编码器的输出序列的条件概率得到注意力机制解码器的权重，根据权重以及第三编码器的输出序列得到对应的中间语义序列，进而解码得到输出序列。

本发明中，以损失衡量神经网络的期望输出与实际输出之间的距离。优选地，根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列：

例如，有两个说话人，P表示集合{1，2}，π包含两种排列(1，2)和(2，1)，则损失值为：

L_att＝min(Loss_att(Y^1，i,R¹)+Loss_att(Y^2，2,R²),Loss_att(Y^1，2,R²)

+Loss_att(Y^2，1,R¹))

选择使损失值最小的排列，用于反向传播，利用误差的反馈结果，训练注意力机制中的权重值。

进一步地，为了减少计算带来的损失，本发明中，优选地，结合CTC准则和注意力机制定义损失值，训练神经网络模型。

具体地，根据CTC准则，基于CTC准则的损失函数值最小，CTC解码器输出一个标签排列，

其中，L_ctc表示基于CTC的损失函数值，s表示说话人的索引，R表示标签序列，Y表示解码网络的输出序列，P表示排列集合{1,…,S}，π表示标签序列的排列，π(s)表示排列π中的第s个元素，Y^s表示第s个说话人的解码器的输出序列，R^π(s)表示第π(s)个标签序列；

选择使得损失函数值L_ctc最小的一个标签排列：

其中，

表示CTC解码器确定的标签排列，R表示标签序列，Y表示解码网络的输出序列，P表示排列集合{1,…,S}，π表示标签序列的排列，π(s)表示排列π中的第s个元素，Y^s表示第s个说话人的解码器的输出序列；

根据标签排列

决定的标签和与该CTC解码器相同的编码网络的输出序列G^u来实施注意力机制解码，得到注意力机制解码器的输出序列的条件概率：

其中，O表示输入序列，

表示CTC解码器确定的标签排列，/>

表示标签序列排列/>

的第u个元素，u表示某个说话人的语音的识别结果的索引；Y表示解码器的输出序列；y表示输出序列元素；n表示元素的索引；/>

表示第u个说话人对应第/>

个的第n个输出序列元素；/>

表示第u个说话人对应第/>

个输出序列；/>

表示第u个说话人对应第/>

个标签的第1个到第(n-1)个输出序列元素；/>

表示输入序列为O、输出序列元素为/>

时，注意力机制解码器输出序列元素为/>

的条件概率；/>

表示输入序列为O时，注意力机制解码器的输出序列为/>

的条件概率；

根据下式得到第u个说话人对应第

个的第n个输出序列元素/>

表示第u个说话人对应第/>

个标签序列的第n个上下文向量；

表示第u个说话人对应第/>

个标签序列的第n个注意力权重；/>

表示第u个说话人对应第/>

个标签序列的注意力机制解码器的第n个隐含状态向量；r表示标签序列R中的标签；/>

表示第/>

个标签序列中的第n-1个标签。

进一步地，结合CTC准则和注意力机制的损失值为两个目标函数带插值λ的和：

L_mtl＝λL_CTC+(1-λ)L_att

其中，L_CTC表示基于CTC准则的损失值，L_att表示基于注意力机制的损失值，L_mtl表示基于CTC准则和注意力机制的损失值，s表示说话人的索引，Y^s表示第s个说话人对应CTC解码器的输出序列，

表示第s个说话人对应的第/>

个注意力机制解码器的输出序列，R^π(s)表示第/>

个标签序列。

选择使损失值L_mtl最小的排列，用于反向传播，利用误差的反馈结果，更新注意力机制中的权重。

优选地，第三编码器的同一个输出序列G^u通过CTC解码器得到输出序列Y^u的条件概率，结合通过注意力机制解码器得到输出序列Y^u的条件概率，得到解码网络的输出序列

具体地，神经网络模型的输出序列可以由下式得到：

一个单独的解码网络通过独立地解码由编码网络生成的多个隐藏层向量来输出多个标签序列。为了让解码网络生成许多不同的标签序列，编码网络需要对不同的说话人生成足够鉴别性的隐藏层向量序列。

优选地，在损失函数中增加基于负对称相对熵散度的项。通过引入一个基于负对称相对熵散度的项来增强不同隐藏层向量之间的对比。以两个说话人同时发声为例，损失函数通过下式得到：

其中，η是一个常数值，

是由第三编码器Encoder_Rec的输出序列G^u经过softmax操作而得：

其中，l表示神经网络中的隐藏层数量；

表示第l个隐藏层的输出序列为G^u的概率；

表示两个概率/>

与/>

的KL散度。

对于重新输入神经网络模型的一段包含多个说话人的第二混合语音信号，经过编码网络编码，输出与每个说话人相对应的输出序列G^u，利用训练后的注意力权重，求得输出序列为Y^u的条件概率，进而得到解码网络的输出序列

本发明所述端对端语音识别方法应用于电子装置，电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。然而，电子装置并不限于所列举示例，电子装置可以是用户控制的通过语音识别技术处理用户命令的任何其他装置，通过输入用户的语音，在显示器等装置上以文本格式提供识别结果，或在其他的输出装置上输出用户语音的识别结果。

所述电子装置包括：语音接收器，用于接收语音信号；处理器；存储器，用于存储端对端语音识别程序，处理器执行端对端语音识别程序，实现如上所述的端对端语音识别方法。

语音接收器，通过电子装置的麦克风接收用户的语音信号输入，可以是多个说话人的混合语音信号。

存储器包括至少一种类型的可读存储介质，可以是闪存、硬盘、光盘等非易失性存储介质，也可以是插接式硬盘等，且并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中，存储器存储的软件程序包括端对端语音识别程序，并可以向处理器提供该端对端语音识别程序，以使得处理器可以执行该端对端语音识别程序，实现端对端语音识别方法。

处理器可以是中央处理器、微处理器或其他数据处理芯片等，可以运行存储器中的存储程序。

可选地，该电子装置还包括显示器，例如，可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管触摸器等。显示器用于显示在电子装置中经处理形成的文本信息。

本发明中，处理器执行端对端语音识别程序，可以实现如下的端对端语音识别方法：

获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本；

构建基于Encoder-Decoder架构的神经网络模型，包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络，例如，CNN/RNN/BiRNN/GRU/LSTM等神经网络)，编码网络包括：第一编码器，对输入的第一混合语音信号进行处理得到第一特征序列；多个第二编码器，分别对所述第一特征序列处理，每个第二编码器得到一个第二特征序列；多个第三编码器，每个第三编码器与一个第二编码器相对应，对第二编码器输出的第二特征序列处理，得到编码网络的输出序列，并发送至所述解码网络；所述解码网络包括：解码器，包括CTC解码器和注意力机制解码器，接收由所述第三编码器发送的输出序列，基于时序分类器CTC准则和注意力机制对所述输出序列处理，得到识别的文本信息；

将第一混合语音信号输入构建的神经网络模型中，训练神经网络模型；

获取待识别的包括多个说话人的第二混合语音信号；

将第二混合语音信号输入经过训练的神经网络模型，输出分别与每个说话人相对应的文本信息。

对于S个说话人同时发声时，形成的第一混合语音信号为D维输入特征向量的T帧序列O＝(o_t∈R^D|t＝1,…,T)，标签序列为S个分别与每个说话人相对应的标签序列

本发明中，处理器执行端对端语音识别程序对神经网络模型进行训练，从单声道混合语音中生成多个独立的输出，在训练时，考虑标签序列的所有可能的排列方式，例如，对于S个说话人，标签序列的排列有S！种排列方式，在神经网络训练时，选出所有排列方式中具有最小损失的标签序列用于反向传播计算，反向传播可以选用BP神经网络传播，在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值，对权重进行更新，经过训练，输出与标签序列R最接近的输出序列Y。

本发明的一个可选实施例中，处理器执行端对端语音识别程序，利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括：

H＝Encoder_Mix(O)

表示第u个说话人的第二编码器；

G^u＝EncodeY_Rec(H^u)

优选地，处理器执行端对端语音识别程序，训练所述神经网络模型还包括：

表示从第1个到第n-1个y^u,v；/>

表示输入序列为O、输出序列元素为/>

时，注意力机制解码器输出序列元素为/>

表示第u个说话人对应第v个标签序列的第n个上下文向量；/>

表示第u个说话人对应第v个标签序列的第n个注意力权重；/>

表示第v个标签序列中的第n-1个标签。

优选地，处理器执行端对端语音识别程序，根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列：

L_att＝min(Loss_att(Y^1，1,R¹)+Loss_att(Y^2，2,R²),Loss_att(Y^1，2,R²)

+Loss_att(Y^2，1,R¹))

进一步地，为了减少计算带来的损失，本发明中，优选地，处理器执行端对端语音识别程序，结合CTC准则和注意力机制定义损失值，训练神经网络模型。

选择使得损失函数值L_ctc最小的一个标签排列：

其中，

根据标签排列

其中，O表示输入序列，

表示CTC解码器确定的标签排列，/>

表示标签序列排列/>

表示第u个说话人对应第/>

个的第n个输出序列元素；/>

表示第u个说话人对应第/>

个输出序列；/>

表示第u个说话人对应第/>

个标签的第1个到第(n-1)个输出序列元素；/>

表示输入序列为O、输出序列元素为/>

时，注意力机制解码器输出序列元素为/>

的条件概率；/>

表示输入序列为O时，注意力机制解码器的输出序列为/>

的条件概率；

根据下式得到第u个说话人对应第

个的第n个输出序列元素/>

/>

表示第u个说话人对应第/>

个标签序列的第n个上下文向量；

表示第u个说话人对应第/>

个标签序列的第n个注意力权重；/>

表示第u个说话人对应第/>

表示第/>

个标签序列中的第n-1个标签。

L_mtl＝λL_cTc+(1-λ)L_att

表示第s个说话人对应的第/>

个注意力机制解码器的输出序列，R^π(s)表示第/>

个标签序列。

具体地，神经网络模型的输出序列可以由下式得到：

其中，η是一个常数值，

是由第三编码器Encoder_Rec的输出序列G^u经过softmax操作而得：

其中，l表示神经网络中的隐藏层数量；

表示第l个隐藏层的输出序列为G^u的概率；

表示两个概率/>

与/>

的KL散度。

在其他实施例中，端对端语音识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器中，并由处理器执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图3为本发明中端对端语音识别程序的模块示意图，如图3所示，所述端对端语音识别程序可以被分割为：训练样本获取模块10、模型构建模块20、模型训练模块30、语音获取模块40、语音识别模块50。各个模块所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

训练样本获取模块10，获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列；

模型构建模块20，构建基于Encoder-Decoder架构的神经网络模型；

模型训练模块30，将第一混合语音信号输入构建的神经网络模型中，训练神经网络模型；

语音获取模块40，获取待识别的包括多个说话人的第二混合语音信号；

语音识别模块50，将第二混合语音信号输入经过训练的神经网络模型，输出识别的分别与每个说话人相对应的文本信息。

本发明的一个实施例中，计算机可读存储介质可以是任何包含或存储程序或指令的有形介质，其中的程序可以被执行，通过存储的程序指令相关的硬件实现相应的功能。例如，计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括端对端语音识别程序，所述端对端语音识别程序被处理器执行时，实现如下的端对端语音识别方法：

获取待识别的包括多个说话人的第二混合语音信号；

优选地，训练所述神经网络模型包括：

其中，L表示损失函数值，s表示说话人的索引，S表示说话人的数量，R表示标签序列，Y表示解码网络的输出序列，P表示排列集合{1,…,S}，π表示标签序列的排列，π(s)表示排列π中的第s个元素，Y^s，π(s)表示第s个说话人第π(s)个输出序列；

优选地，训练所述神经网络模型还包括：

通过下式得到在编码网络的每个第三编码器的输出序列G^u的标签序列是R^v时，对于编码网络的每个第三编码器的输出序列G^u，注意力机制解码器输出序列Y^u，v的条件概率为：

表示第u个说话人对应第v个标签序列的输出序列元素；Y^u，v表示第u个说话人对应第v个标签序列的解码器输出序列；/>

表示从第1个到第n-1个y^u，v；/>

表示输入序列为O、输出序列元素为/>

时，注意力机制解码器输出序列元素为/>

的条件概率；p_att(Y^u，v|O)表示输入序列为O时，注意力机制解码器的输出序列为Y^u，v的条件概率；

优选地，训练所述神经网络模型还包括：

根据下式基于损失函数值最小选择标签序列的排列，

优选地，训练所述神经网络模型还包括：

L_mtl＝λL_CTC+(1-λ)L_att

优选地，在损失函数中增加基于负对称相对熵散度的项。

本发明所述计算机可读存储介质的具体实施方式与上述端对端语音识别方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种端对端语音识别方法，应用于电子装置，其特征在于，所述端对端语音识别方法包括以下步骤：

步骤S3、将第一混合语音信号输入构建的神经网络模型中，训练所述神经网络模型；其中，训练所述神经网络模型包括：

将所述第一混合语音信号输入第一编码器，输出第一特征序列；

多个第二编码器分别对所述第一特征序列处理，每个所述第二编码器得到一个第二特征序列；

每个第三编码器对相应的所述第二特征序列处理，得到编码网络的输出序列，并发送至解码网络；

CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列，得到解码网络的输出序列；

权重值更新前与更新后的损失函数值的变化大于设定值，则继续训练，损失函数值的变化小于或等于设定值，则训练结束；

其中，所述编码网络包括：

所述解码网络包括：

2.根据权利要求1所述的端对端语音识别方法，其特征在于，训练所述神经网络模型还包括：

表示从第1个到第n-1个y^u,v；/>

表示输入序列为O、输出序列元素为/>

时，注意力机制解码器输出序列元素为/>

3.根据权利要求2所述的端对端语音识别方法，其特征在于，训练所述神经网络模型还包括：

根据下式基于损失函数值最小选择标签序列的排列，

4.根据权利要求1所述的端对端语音识别方法，其特征在于，训练所述神经网络模型还包括：

5.根据权利要求4所述的端对端语音识别方法，其特征在于，训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值：

L_mtl＝λL_CTC+(1-λ)L_att

6.根据权利要求5所述的端对端语音识别方法，其特征在于，第三编码器的同一个输出序列G^u通过CTC解码器得到输出序列Y^u的条件概率，结合通过注意力机制解码器得到输出序列Y^u的条件概率，通过下式得到神经网络模型的输出序列：

其中，

表示神经网络模型的输出序列；G^u表示第三编码器的输出序列；p_CTC(Y^u|G^u)表示CTC准则下，解码网络输入序列G^u，输出序列为Y^u的条件概率；p_att(Y^u|G^u)表示注意力机制下，解码网络输入序列G^u，输出序列为Y^u的条件概率；p_CTC(Y^u|G^u)和p_att(Y^u|G^u)由相同的第三编码器的输出序列G^u得到。

7.根据权利要求1所述的端对端语音识别方法，其特征在于，在损失函数中增加基于负对称相对熵散度的项。

8.一种电子装置，其特征在于，所述电子装置包括：

语音接收器，用于接收语音信号；

处理器；

存储器，用于存储端对端语音识别程序，

所述处理器执行所述端对端语音识别程序，实现如权利要求1-7中任一项权利要求所述的端对端语音识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括端对端语音识别程序，所述端对端语音识别程序被处理器执行时，实现如权利要求1-7中任一项权利要求所述的端对端语音识别方法。