CN113327596B

CN113327596B - 语音识别模型的训练方法、语音识别方法和装置

Info

Publication number: CN113327596B
Application number: CN202110675836.1A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2023-01-24
Anticipated expiration: 2041-06-17
Also published as: CN113327596A

Abstract

本公开提供了一种语音识别模型的训练方法、语音识别方法和装置，涉及深度学习和自然语音处理领域，具体涉及基于深度学习的语音识别技术。具体实现方案为：语音识别模型包括提取子模型和识别子模型。训练方法包括：将第一训练音频样本的音频特征输入所述语音识别模型，其中识别子模型从提取子模型接收发言人特征，并基于发言人特征和识别子模型的参数来识别所接收的音频特征，以获得识别结果；基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息，计算针对所述识别结果的第一损失值；以及根据第一损失值调整模型参数，直至所述第一损失值收敛为止。

Description

语音识别模型的训练方法、语音识别方法和装置

技术领域

本公开涉及深度学习和自然语音处理领域，具体地，涉及基于深度学习的语音识别技术，更具体地，涉及一种语音识别模型的训练方法、语音识别方法和装置。

背景技术

随着人工智能技术的进步，语音识别技术被广泛的应用于各种场景。然而，在大多数场景下可能存在多人对话，使得语音之间存在混叠，从而增大了语音识别难度且降低了语音识别的准确性，甚至可能导致出现无法识别语音的情况。

因此，需要一种语音识别模型、语音识别方法和语音识别装置，其能够在多人对话场景下准确地执行语音识别。

发明内容

本公开提供了一种用于训练语音识别模型的方法和设备、语音识别方法和设备、以及存储介质。

根据本公开的一方面，提供了一种训练语音识别模型的方法，所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型，所述方法包括：

将第一训练音频样本的音频特征输入所述语音识别模型，其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征，并基于接收到的发言人特征和所述识别子模型的参数来识别所述音频特征，以获得识别结果，

基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息，计算针对所述识别结果的第一损失值；以及

根据所述第一损失值调整所述识别子模型的参数，直至所述第一损失值收敛为止。

根据本公开的另一方面，提供了一种语音识别方法，所述方法包括：

对待测音频样本执行特征提取，以获得关于所述待测音频样本的待测音频特征，并将所述待测音频特征输入语音识别模型；

通过所述语音识别模型的提取子模型对所述待测音频特征进行分析，得到发言人特征；

通过所述语音识别模型的识别子模型，基于所述发言人特征来识别所述待测音频特征，以获得识别结果。

根据本公开的再一方面，提供了一种训练语音识别模型的装置，所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型，所述装置包括：

语音识别模型，用于将第一训练音频样本的音频特征输入所述语音识别模型，其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征，并基于接收到的发言人特征和所述识别子模型的参数来识别所述音频特征，以获得识别结果，

损失计算模块，用于基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息，计算针对所述识别结果的第一损失值；以及

参数调整模块，用于根据所述第一损失值调整所述识别子模型的参数，直至所述第一损失值收敛为止。

根据本公开的另一方面，提供了一种语音识别装置，所述装置包括：

特征提取模块，用于对待测音频样本执行特征提取，以获得关于所述待测音频样本的待测音频特征，并将所述待测音频特征输入语音识别模型；

发言人特征提取模块，用于通过所述语音识别模型的提取子模型对所述待测音频特征进行分析，得到发言人特征；以及

音频识别模块，用于通过所述语音识别模型的识别子模型，基于所述发言人特征来识别所述待测音频特征，以获得识别结果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开示例实施例的语音识别模型的结构图；

图2是根据本公开示例实施例的训练语音识别模型的方法的流程图；

图3是根据本公开示例实施例的训练语音识别模型所包括的提取子模型的流程图；

图4是根据本公开示例实施例的语音识别模型的一个示例；

图5是根据本公开示例实施例的语音识别方法的流程图；

图6是根据本公开示例实施例的训练语音识别模型的装置的框图；

图7是根据本公开示例实施例的语音识别装置的框图；以及

图8是用来实现本公开实施例的电子设备的另一示例的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开示例实施例的语音识别模型的结构图。

语音识别模型100可以被配置用于根据输入的声音样本/声音样本的音频特征10来执行语音识别，以获得语音识别结果30。声音样本的音频特征10可以包括各种语音特征参数，例如，80维的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。

如图1所示，本公开示例实施例的语音识别模型100可以包括用于提取发出声音的发言人的特征的提取子模型110和用于识别音频的识别子模型120。识别子模型120接收由提取子模型110通过分析音频特征而获得的发言人特征20，并基于接收到的发言人特征20执行对音频特征的识别，以输出语音识别结果30。发言人特征20是指能够反映发言人的音频特征的特征向量。发言人的音频特征包括例如，音频的特征频段、发言人语速、方言习惯等。

通过构造这样的语音识别模型，更具体地，通过基于发言人特征来执行对音频特征的识别，使得可以结合发言人特征执行语音识别，从而提高语音识别的准确率，实现有针对性的语音识别。

图2示出了用于训练上述的语音识别模型的方法的流程图。如图2所示，训练语音识别模型的方法200可以包括步骤S210至步骤S230。

在步骤S210，将第一训练音频样本的音频特征输入所述语音识别模型，其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征，并基于接收到的发言人特征和所述识别子模型的参数来识别所述音频特征，以获得识别结果。

在一个示例中，第一训练音频样本可以是单人说话的音频样本或不具备混叠音频的音频样本，以便执行针对语音识别的训练。此外，还可以对音频样本进行预处理，预处理可以包括去除噪声(例如，环境噪声、忙音、彩铃声等)，以得到干净的音频样本，从而加速对语音识别模型的识别能力的训练。本领域技术人员可以理解，本公开的示例实施例不限于此，第一训练音频样本也可以是包括混叠音频的音频样本。当第一训练音频样本是包括混叠音频的音频样本时，所述识别子模型还可以附加地从所述提取子模型接收由提取子模型通过分析音频特征而得到的预测识别结果，以改善语音识别模型的识别准确度。

类似地，如上所述，第一训练音频样本的音频特征可以是例如是80维的MFCC，且发言人特征是指发言人的音频特征，例如，音频的特征频段、发言人语速、方言习惯等。

接着，在步骤S220，基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息，计算针对所述识别结果的第一损失值。在一个示例中，识别子模型可以是基于时延卷积神经网络(Time Delay Neural Networks，TDNN)和双向长短期记忆(Bidirectional Long Short-Term Memory，BLSTM)网络构造的，并使用连接时序分类(Connectionist temporal classification，CTC)函数作为识别子模型的损失函数。在这种情况下，通过使用CTC函数和样本的标注信息来计算通过步骤S210得到的识别结果的第一损失值。标注信息可以是由训练人员针对音频样本人工标注出的信息，例如，哪个发言人在该音频样本的哪个时段说了什么内容。

在步骤S230，根据所述第一损失值调整所述识别子模型的参数，直至所述第一损失值收敛为止。即，当第一损失值收敛时，则认为训练完成。

因此，本公开提供了一种训练语音识别模型的方法，由于所述方法结合发言人特征执行语音识别，因此，相较于传统语音识别方法，经过根据本公开示例实施例的方法训练的语音识别模型能够准确地识别语音，提高了语音识别的效率。

根据本公开另一示例实施例，训练语音识别模型的方法还可以附加地包括：预先训练提取子模型，以便提取子模型能够向识别子模型提供可靠的发言人特征。即，在执行步骤S210之前，预先训练提取子模型，以获得更准确、全面的发言人特征。

图3是根据所述示例实施例的训练语音识别模型所包括的提取子模型的流程图。例如，可以采用包含混叠音频的第二训练音频样本预先训练所述提取子模型，以便改善提取子模型的发言人识别能力和针对发言人特征的学习能力。

如图3所示，预先训练所述提取子模型包括：在步骤S241，所述提取子模型根据训练参数对所述第二训练音频样本执行分析，以便获得针对不同发言人的预测识别结果，即，提取子模型可以输出该音频特征属于不同说话人的概率。

接着，在步骤S242，根据所述提取子模型的损失函数和与所述第二训练音频样本相对应的标注信息，以遍历每个所述第二训练音频样本对应的标注信息的方式，计算多个损失值，并从所述多个损失值选择最小值，作为针对所述预测识别结果的第二损失值。

例如，如果提取子模型的网络输出维度是2，那么这意味着一个音频会被分割成2条子音频。因此，在训练提取子模型时，将分割得到的每个子音频的音频特征与所有子音频的标注信息进行比较，从而得到多个损失值，并从得到的多个损失值中选择最小损失值。这样，即可确定预测识别结果以及与该预测识别结果对应的损失值。可以看出，在计算损失值时，并不考虑子音频的组合序列，即，对提取子模型的训练是一种序列无关的训练(Permutation invariant training，PIT)。通过采用序列无关的训练策略，使得能够计算音频特征所有标注信息之间的损失值，从而更全面地执行预测识别，使得经训练的提取子模型能够更准确地反映出预测识别结果。

在一个示例中，所述提取子模型是基于双向长短期记忆BLSTM网络和注意力(Attention)网络构建的，并使用最小均方误差(Mean Squared Error，MSE)作为所述提取子模型的损失函数。

在步骤S243，根据针对所述预测识别结果的第二损失值，调整所述提取子模型的参数，直至第二损失值收敛为止。即，基于计算出的第二损失值来反向传播更新训练参数，这样迭代若干轮后能够得到一个具有良好的发言人识别能力和良好的发言人特征学习能力的提取子模型。

因此，在得到训练好的提取子模型之后，可以使训练好的提取子模型的参数固定，并随后执行如图2所示的训练语音识别模型的方法。这样，提取子模型可以向识别子模型提供可靠的发言人特征，或向识别子模型提供可靠的发言人特征和预测识别结果二者，从而有助于提高语音识别模型的语音识别准确率。

综上所述，本公开能够提供一种训练语音识别模型的方法，其中通过结合发言人特征来训练语音识别模型，使得经过训练的语音模型可以结合发言人特征执行语音识别，从而提高语音识别的准确率，实现有针对性的语音识别。此外，通过采用序列无关的训练策略预先训练语音识别模型所包括的提取子模型，使得提取子模型能够提供更全面、准确的预测识别结果。因此，经过本公开示例实施例的训练方法训练出的语音识别模型可以更准确地进行语音识别。

图4是根据本公开示例实施例的语音识别模型的一个示例。如图4所示，语音识别模型400可以包括提取子模型410和识别子模型420。

所述提取子模型410是基于双向长短期记忆BLSTM网络411和Attention网络412构建的，并且还包括激活函数模块413和MSE损失模块414。BLSTM网络411是一种可以学习到时间跨度更大的音频特征的相关性的网络。Attention网络412关注各音频特征之间的重要性的关系，因此，通过采用Attention网络412，可以突出更重要的音频特征，并提取出鉴别性更强的音频特征。在提取子模型410中，激活函数模块413采用Linear和Sigmoid函数，且MSE损失模块414采用MSE来计算预测识别结果的误差。

应注意，尽管在图4中提取子模型410被示出为包括一个BLSTM网络和一个Attention网络，本领域技术人员可以理解，为了更好的执行特征分析，可以根据需要包括多个BLSTM网络和多个Attention网络。

识别子模型420可以包括TDNN网络421、加权平均池422、语音转写模块423和连接时序分类CTC损失424模块，其中TDNN网络421是可用的发言人分离的算法并用于分离出针对不同发言人的音频特征，加权平均池422用于将来自提取子模型410的发言人特征20引入识别子模型420，语音转写模块423用于识别语音并将语音转写为文字，且CTC损失424用于计算基于语音识别出的文字的损失值。在一个示例中，语音转写模块423还可以包括Linear函数模块423-1、连接层423-2、BLSTM网络423-3、linear与softmax函数模块423-4。

这样，基于BLSTM网络423-3和TDNN网络421构造的识别子模型420能够分离不同发言人的音频特征，并根据分离出的音频特征执行识别和转写，从而得到针对不同发言人的语音识别转写结果30。

在对图4所示的语音识别模型进行训练时，可以首先训练提取子模型410。例如，可以通过将包括一定量的混叠音频的音频样本输入提取子模型410来训练提取子模型410。在提取子模型410训练完成之后，可以固定提取子模型410的参数，然后训练识别子模型420。在一个示例中，在固定提取子模型410的参数之后，将不包含混叠音频的音频样本输入提取子模型410和识别子模型420二者，以便识别子模型420能够执行基于来自提取子模型410的发言人特征的语音识别，从而实现训练识别子模型420的目的。

本领域技术人员可以理解，图4仅示出了根据本公开示例实施例的语音识别模型的一个示例，本公开的语音识别模型不限于图4所示的结构和/或网络。例如，为了更好地执行特征之间的维度匹配，可以在上述结构中添加更多的维度变化层。

以上描述了训练语音识别模型的方法。在语音识别模型训练完成后，可以使用训练好的语音识别模型执行语音识别。图5是根据本公开示例实施例的语音识别方法的流程图。

图5所示的语音识别方法500可以包括：在步骤S510，对待测音频样本执行特征提取，以获得关于所述待测音频样本的待测音频特征，并将所述待测音频特征输入语音识别模型。所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型，且所述语音识别模型是上述示例实施例之一所述的方法训练的。

例如，可以使用神经网络来对待测音频样本执行特征提取，以获得提取后的待测音频特征，即，80维的MFCC。接着，可以将提取后的待测音频特征并行输入提取子模型和识别子模型二者。相较于需要先对待测音频特征执行发言人分离并接着基于分离后的发言人音频执行语音识别的传统方法而言，根据本公开示例实施例的语音识别方法通过向提取子模型和识别子模型并行输入待测音频特征，可以解除提取子模型和识别子模型之间的关联，并提高语音识别速度。

方法500还可以包括：在步骤S520，通过所述语音识别模型的提取子模型对所述待测音频特征进行分析，得到发言人特征。提取子模型通过对待测音频特征进行分析而获得发言人特征。

此外，方法500还可以包括：在步骤S530，通过所述语音识别模型的识别子模型，基于所述发言人特征来识别所述待测音频特征，以获得识别结果。识别子模型可以从提取子模型接收通过分析得到的发言人特征，以便执行基于发言人特征的语音识别，从而改善语音识别的效率和准确率。

在一个示例中，方法500还可以附加地包括：所述提取子模型对所述待测音频特征执行分析，以便获得针对不同发言人的预测识别结果。在这种情况下，所述识别子模型还可以基于不同发言人的发言人特征和对应的预测识别结果来识别所述待测音频特征，以获得识别结果。换言之，除了发言人特征之外，提取子模型还可以附加地获得关于发言人的预测识别结果。此时，识别子模型可以接收发言人特征和预测识别结果二者并基于发言人特征和预测识别结果执行语音识别，以便加速对发言人音频的分离和提高语音识别的准确率。这对于待测音频样本中含有混叠音频的情况是有利的。在待测音频样本包括一定量的混叠音频的情况下，由于根据本公开示例实施例的语音识别方法采用包括并行架构的模型并将发言人特征和预测识别结果作为用于语音识别的附加参考信息，所以本公开的语音识别方法可以快速且准确地执行语音识别，从而输出针对不同发言人的语音识别结果。

根据本公开实施例，提供了一种语音识别方法。通过结合发言人特征执行语音识别，能够改善语音识别的效率和准确率，从而能够输出针对不同发言人的识别结果。在本公开的另一示例实施例中，通过结合发言人特征和预测识别结果执行语音识别，能够加速识别子模型对发言人音频的分离和提高语音识别的准确率。

图6是根据本公开示例实施例的用于训练语音识别模型的装置的框图。

图6示出了根据本公开示例实施例的用于训练语音识别模型的装置600，其中所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型。例如，所述提取子模型基于双向长短期记忆BLSTM网络和Attention网络，并使用最小均方误差MSE作为所述提取子模型的损失函数。其中所述识别子模型基于时延卷积神经网络TDNN和BLSTM网络，并使用连接时序分类CTC函数作为所述识别子模型的损失函数。

所述装置600可以包括语音识别模块610、损失计算模块620和参数调整模块630。语音识别模块610用于将第一训练音频样本的音频特征输入所述语音识别模型，其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征，并基于接收到的发言人特征和所述识别子模型的参数来识别所述音频特征，以获得识别结果。损失计算模块620用于基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息，计算针对所述识别结果的第一损失值。参数调整模块630用于根据所述第一损失值调整所述识别子模型的参数，直至所述第一损失值收敛为止。

在一个示例中，装置600还可以附加地包括：提取子模型训练模块640，配置为采用包含混叠音频的第二训练音频样本预先训练所述提取子模型，其中提取子模型训练模块640进一步包括：分析子模块641，用于根据所述提取子模型的参数对所述第二训练音频样本执行分析，以便获得针对不同发言人的预测识别结果；损失计算子模块642，用于根据所述提取子模型的损失函数和与所述第二训练音频样本相对应的标注信息，以遍历每个所述第二训练音频样本对应的标注信息的方式，计算多个损失值，并从所述多个损失值选择最小值，作为针对所述预测识别结果的第二损失值；以及参数调整子模块643，用于根据针对所述预测识别结果的第二损失值，调整所述提取子模型的参数，直至第二损失值收敛为止。

本公开提供了一种训练语音识别模型的装置，其中通过结合发言人特征来训练语音识别模型，使得经过训练的语音模型可以结合发言人特征执行语音识别，从而提高语音识别的准确率，实现有针对性的语音识别。此外，通过采用序列无关的训练策略预先训练语音识别模型所包括的提取子模型，使得提取子模型能够提供更全面、准确的预测识别结果。因此，经过本公开示例实施例的训练方法训练出的语音识别模型可以更准确地进行语音识别。

图7是根据本公开示例实施例的语音识别装置的框图。

如图7所示，根据本公开示例实施例的语音识别装置700可以包括：特征提取模块710、发言人特征提取模块720和音频识别模块730。特征提取模块710用于对待测音频样本执行特征提取，以获得关于所述待测音频样本的待测音频特征，并将所述待测音频特征输入语音识别模型，其中语音识别模型可以包括提取子模型和识别子模型。发言人特征提取模块720用于经由提取子模型对所述待测音频特征进行分析以得到发言人特征。音频识别模块730用于通过所述识别子模型基于所述发言人特征来识别所述待测音频特征以获得识别结果。

语音识别装置700还可以进一步包括预测结果获取模块，用于通过所述提取子模型对所述待测音频特征执行分析，以获得针对不同发言人的预测识别结果。在这种情况下，音频识别模块730还可以被配置为接收预测识别结果，并经由所述识别子模型基于不同发言人的发言人特征和对应的预测识别结果来识别所述待测音频特征以获得识别结果。

本公开提供了一种语音识别装置，其通过结合发言人特征执行语音识别，能够改善语音识别的效率和准确率，从而能够输出针对不同发言人的识别结果。在本公开的另一示例实施例中，通过结合发言人特征和预测识别结果执行语音识别，该语音识别装置能够加速识别子模型对发言人音频的分离和提高语音识别的准确率。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和步骤，例如，如图1至图5所示的方法和步骤。例如，在一些实施例中，图1至图5所示的方法和步骤可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的用于训练语音识别模型的方法和/或上文描述的语音识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行如上所述的用于训练语音识别模型的方法和/或上文描述的语音识别方法和其步骤。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种训练语音识别模型的方法，所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型，所述方法包括：

将第一训练音频样本的音频特征并行输入所述语音识别模型的提取子模型和识别子模型，其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征和发言人识别结果，并基于接收到的发言人特征、发言人识别结果和所述识别子模型的参数来识别所述音频特征，以获得不同发言人的语音识别结果，其中，所述第一训练音频样本为混叠音频，所述发言人识别结果包括所述音频特征属于不同说话人的概率；

基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息，计算针对所述语音识别结果的第一损失值；以及

2.根据权利要求1所述的方法，还包括：采用包含混叠音频的第二训练音频样本预先训练所述提取子模型，其中预先训练所述提取子模型包括：

根据所述提取子模型的参数对所述第二训练音频样本执行分析，以便获得发言人识别结果；

根据所述提取子模型的损失函数和与所述第二训练音频样本相对应的标注信息，以遍历每个所述第二训练音频样本对应的标注信息的方式，计算多个损失值，并从所述多个损失值中选择最小值，作为所述发言人识别结果的第二损失值；以及

根据所述发言人识别结果的第二损失值，调整所述提取子模型的参数，直至第二损失值收敛为止。

3.根据权利要求1或2所述的方法，其中所述提取子模型基于双向长短期记忆BLSTM网络和注意力Attention网络，并使用最小均方误差MSE作为所述提取子模型的损失函数。

4.根据权利要求1或2所述的方法，其中所述识别子模型基于时延卷积神经网络TDNN和BLSTM网络，并使用连接时序分类CTC函数作为所述识别子模型的损失函数。

5.一种语音识别方法，所述方法包括：

对待测音频样本执行特征提取，以获得关于所述待测音频样本的待测音频特征，并将所述待测音频特征并行输入语音识别模型的提取子模型和识别子模型，其中所述待测音频样本为混叠音频；

通过所述语音识别模型的提取子模型对所述待测音频特征进行分析，得到发言人特征和发言人识别结果，其中，所述发言人识别结果包括所述待测音频特征属于不同说话人的概率；以及

通过所述语音识别模型的识别子模型，基于所述发言人特征和所述发言人识别结果来识别所述待测音频特征，以获得不同发言人的语音识别结果；

其中，所述语音识别模型是根据权利要求1至4中任一项所述的方法进行训练得到的。

6.一种训练语音识别模型的装置，所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型，所述装置包括：

语音识别模块，用于将第一训练音频样本的音频特征并行输入所述语音识别模型的提取子模型和识别子模型，其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征和发言人识别结果，并基于接收到的发言人特征、发言人识别结果和所述识别子模型的参数来识别所述音频特征，以获得不同发言人的语音识别结果，其中，所述第一训练音频样本为混叠音频，所述发言人识别结果包括所述音频特征属于不同说话人的概率；

损失计算模块，用于基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息，计算针对所述语音识别结果的第一损失值；以及

7.根据权利要求6所述的装置，还包括：提取子模型训练模块，配置为采用包含混叠音频的第二训练音频样本预先训练所述提取子模型，

其中提取子模型训练模块进一步包括：

分析子模块，用于根据所述提取子模型的参数对所述第二训练音频样本执行分析，以便获得发言人识别结果；

损失计算子模块，用于根据所述提取子模型的损失函数和与所述第二训练音频样本相对应的标注信息，以遍历每个所述第二训练音频样本对应的标注信息的方式，计算多个损失值，并从所述多个损失值中选择最小值，作为所述发言人识别结果的第二损失值；以及

参数调整子模块，用于根据所述发言人识别结果的第二损失值，调整所述提取子模型的参数，直至第二损失值收敛为止。

8.根据权利要求6或7所述的装置，其中所述提取子模型基于双向长短期记忆BLSTM网络和注意力Attention网络，并使用最小均方误差MSE作为所述提取子模型的损失函数。

9.根据权利要求6或7所述的装置，其中所述识别子模型基于时延卷积神经网络TDNN和BLSTM网络，并使用连接时序分类CTC函数作为所述识别子模型的损失函数。

10.一种语音识别装置，所述装置包括：

特征提取模块，用于对待测音频样本执行特征提取，以获得关于所述待测音频样本的待测音频特征，并将所述待测音频特征并行输入语音识别模型的提取子模型和识别子模型，其中所述待测音频样本为混叠音频；

发言人特征提取模块，用于通过所述语音识别模型的提取子模型对所述待测音频特征进行分析，得到发言人特征和发言人识别结果，其中，所述发言人识别结果包括所述待测音频特征属于不同说话人的概率；以及

音频识别模块，用于通过所述语音识别模型的识别子模型，基于所述发言人特征和所述发言人识别结果来识别所述待测音频特征，以获得不同发言人的语音识别结果；

其中，所述语音识别模型是根据权利要求6至9中任一项所述的装置进行训练得到的。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。