CN112599118B

CN112599118B - 语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN112599118B
Application number: CN202011604891.3A
Authority: CN
Inventors: 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-02-13
Anticipated expiration: 2040-12-30
Also published as: CN112599118A

Abstract

本发明实施例提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别的语音数据；基于经训练的语音识别模型，确定语音数据的语音识别结果；其中，语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到语音数据的说话人特征，并基于语音数据的语音特征和说话人特征，对语音数据进行语音识别。本发明实施例提供的语音识别方法、装置、电子设备和存储介质，提高了说话人自适应的实时性和效果，有助于提高多人会话场景下的语音识别准确性。

Description

语音识别方法、装置、电子设备和存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

在多人会话场景下，由于不同人的口音和说话风格不同，因此需要根据说话人的特性自动调整模型参数，以适应不同说话人的语音数据，从而提高整体的识别准确率。

然而，现有的基于多人会话场景的说话人自适应方案或者需要事先收集大量的说话人语料，其自适应效果和实时性受限；或者需要基于系统中说话人相关的历史语料提取说话人编码信息，其自适应效果和实时性同样欠佳。

发明内容

本发明实施例提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中自适应效果和实时性欠佳的缺陷。

本发明实施例提供一种语音识别方法，包括：

确定待识别的语音数据；

基于经训练的语音识别模型，确定所述语音数据的语音识别结果；

其中，所述语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到所述语音数据的说话人特征，并基于所述语音数据的语音特征和说话人特征，对所述语音数据进行语音识别。

根据本发明一个实施例的语音识别方法，所述基于经训练的语音识别模型，确定所述语音数据的语音识别结果，包括：

基于所述语音识别模型的语音特征提取层对所述语音数据的当前帧进行特征提取，以生成所述当前帧的语音特征；

基于所述语音识别模型的注意力交互层将所述当前帧的语音特征与所述通用发音偏差特征集进行注意力交互，或，将所述当前帧的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，生成所述当前帧的说话人特征；

基于所述语音识别模型的解码层对所述语音数据的每一帧的语音特征和说话人特征进行解码，得到所述语音识别结果。

根据本发明一个实施例的语音识别方法，所述说话人特征包括发音偏差特征；

所述对所述当前帧的语音特征与所述通用发音偏差特征集进行注意力交互，包括：

基于所述注意力交互层的权重计算层对所述语音特征和所述通用发音偏差特征集进行注意力权重计算，得到所述通用发音偏差特征集中每一通用发音偏差特征的注意力权重；

基于所述注意力交互层的发音偏差特征重构层，结合每一通用发音偏差特征及其注意力权重，以及所述通用发音偏差特征集中易混淆发音偏差特征的激励权重进行发音偏差特征重构，得到所述发音偏差特征。

根据本发明一个实施例的语音识别方法，所述易混淆发音偏差特征是基于如下步骤确定的：

基于预设时间段内所有历史语音数据中任一正确识别分词对应的历史语音数据，确定所述任一正确识别分词的易混淆音素级发音偏差向量；

将每一正确识别分词的易混淆音素级发音偏差向量分别与每一通用发音偏差特征进行匹配，将与任一正确识别分词的易混淆音素级发音偏差向量匹配成功的通用发音偏差特征作为所述易混淆发音偏差特征。

根据本发明一个实施例的语音识别方法，所述通用发音偏差特征集是基于如下步骤确定的：

基于任一样本说话人的样本语音数据中每一语音帧的状态后验概率分布，确定所述任一样本说话人的说话人发音偏差特征；

对每一样本说话人的说话人发音偏差特征进行聚类，得到多个说话人发音偏差特征簇；

基于每个说话人发音偏差特征簇的聚类中心，构建所述通用发音偏差特征集。

根据本发明一个实施例的语音识别方法，所述基于任一样本说话人的样本语音数据中每一语音帧的状态后验概率分布，确定所述任一样本说话人的说话人发音偏差特征，包括：

基于任一语音帧的状态后验概率分布，以及所述任一语音帧的样本状态概率分布，确定所述任一语音帧的状态级残差向量；

将所述任一语音帧的状态级残差向量中属于同一音素的状态对应的残差值相加，得到所述任一语音帧的音素级残差向量；

基于所述任一样本说话人的样本语音数据中所有语音帧的音素级残差向量，确定所述任一样本说话人的说话人发音偏差特征。

根据本发明一个实施例的语音识别方法，所述基于所述语音数据的语音特征和说话人特征，对所述语音数据进行语音识别，包括：

基于所述语音数据的语音特征、说话人特征和环境特征，对所述语音数据进行语音识别；

所述语音数据的环境特征是将所述语音数据的语音特征和通用环境特征集进行匹配得到的。

根据本发明一个实施例的语音识别方法，所述基于经训练的语音识别模型，确定所述语音数据的语音识别结果，之前还包括：

基于样本语音数据及其样本语音识别结果，以及通用说话人声纹特征集和/或通用发音偏差特征集对初始模型进行训练，得到所述经训练的语音识别模型。

本发明实施例还提供一种语音识别装置，包括：

语音数据确定单元，用于确定待识别的语音数据；

语音识别单元，用于基于经训练的语音识别模型，确定所述语音数据的语音识别结果；

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。

本发明实施例提供的语音识别方法、装置、电子设备和存储介质，通过将语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将语音数据的语音特征分别与通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到语音数据的说话人特征，并基于语音数据的语音特征和说话人特征，对语音数据进行语音识别，提高了说话人自适应的实时性和效果，有助于提高多人会话场景下的语音识别准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别方法的流程示意图；

图2为本发明实施例提供的语音识别模型运行方法的流程示意图；

图3为本发明实施例提供的发音偏差特征重构方法的流程示意图；

图4为本发明实施例提供的易混淆发音偏差特征确定方法的流程示意图；

图5为本发明实施例提供的通用发音偏差特征集确定方法的流程示意图；

图6为本发明实施例提供的说话人发音偏差特征确定方法的流程示意图；

图7为本发明又一实施例提供的语音识别方法的流程示意图；

图8为本发明实施例提供的语音识别装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在多人会话场景下，由于不同说话人的口音和说话风格不同，在进行语音识别时，需要根据说话人的特性自动调整模型参数，以适应不同说话人的语音数据，从而提高整体的识别准确率。

现有的基于多人会话场景的说话人自适应方案通常包括两种：预先获知实际使用场景下多个说话人的信息，同时收集各说话人相关的语料，然后对语音识别模型进行自适应训练，使得模型能够覆盖到实际使用场景下的各个说话人；在语音识别模型实际进行识别时，通过实时的提取说话人相关的编码信息，加入到基于该编码信息训练的说话人相关的主模型中，进行自适应解码。然而，前一方案需要事先收集大量实际使用场景下的说话人语料，但这些说话人语料通常难以收集，导致自适应效果受限，且该模型需要进行有监督训练，因此需要花费较长的时间进行语料的标注，难以实现真正的实时自适应。后一方案在对说话人进行编码时，说话人编码信息的表达能力依赖于说话人历史语料的长短。当说话人的历史语料较短的时候，提取的说话人编码信息较差，自适应的效果难以保证；而若使用较长的历史语料，则会导致解码延迟较长，难以保证实时性。

对此，本发明实施例提供了一种语音识别方法。图1为本发明实施例提供的语音识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别的语音数据；

步骤120，基于经训练的语音识别模型，确定语音数据的语音识别结果；

其中，语音识别模型用于将语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将语音数据的语音特征分别与通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到语音数据的说话人特征，并基于语音数据的语音特征和说话人特征，对语音数据进行语音识别。

此处，待识别的语音数据可以通过收音设备，在多人会话场景，例如会议、采访以及授课等场景下采集得到。

将语音数据输入至语音识别模型后，语音识别模型首先将该语音数据的语音特征，与预先构建的通用发音偏差特征集进行注意力交互，或分别与通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到该语音数据的说话人特征。其中，语音数据的语音特征中包含该语音数据的语义信息以及对应说话人的相关信息。将语音特征与通用发音偏差特征集进行注意力交互之后得到的说话人特征，则可以表征该语音数据对应的说话人的发音与标准发音之间的偏差。若在此基础上，还与通用说话人声纹特征集进行注意力交互，则得到的说话人特征还可以表征该说话人的声纹特征。此处，利用通用说话人声纹特征集和通用发音偏差特征集，可以从不同角度对当前语音数据的说话人进行特征表达，以将当前语音数据的说话人区分开来。

通用发音偏差特征集中包含多个通用发音偏差特征，每一通用发音偏差特征均是对不同样本说话人的样本语音数据进行语音识别后，计算得到每一样本说话人的发音与标准发音间的偏差，从而抽取出的能够代表不同类型说话人的发音偏差。由于任一通用发音偏差特征也可以代表某一类说话人的发音偏差特征，具备明显的代表性，使得通用发音偏差特征集可以覆盖大部分说话人的发音偏差特征。基于语音数据，对通用发音偏差特征集进行匹配筛选，选取通用发音偏差特征集中与当前语音数据的说话人相关的发音偏差特征，从而组合得到说话人特征，同样使得得到的说话人特征与该语音数据对应说话人的关联度更高，对说话人的表达能力更强。

此外，通用说话人声纹特征集中包含多个通用说话人声纹特征，每一通用说话人声纹特征均是对不同样本说话人的样本语音数据进行声纹特征提取后，抽取出的能够代表不同类型说话人的声纹特征。例如，可以对不同样本说话人的样本语音数据进行声纹提取，得到不同样本说话人的声纹特征，并对所有样本说话人的声纹特征进行聚类，将每一类的聚类中心挑选出来，共同构成通用说话人声纹特征集。由于任一通用说话人声纹特征均可以代表某一类说话人的声纹特征，具备明显的代表性，使得通用说话人声纹特征集可以覆盖大部分说话人的声纹特征。基于语音数据，对通用说话人声纹特征集进行匹配筛选，选取通用说话人声纹特征集中与当前语音数据的说话人相关的通用说话人声纹特征，从而组合得到说话人特征，使得说话人特征与该语音数据对应说话人的关联度更高，对说话人的表达能力更强。

通用说话人声纹特征集可以包括通用身份矢量特征集和/或通用神经网络矢量特征集，以从不同角度获取说话人的声纹特征，从而提高通用说话人声纹特征集对不同说话人声纹特征的表达能力。其中，可以对不同样本说话人的样本语音数据提取身份认证矢量(i-vector)，并利用K-means等聚类算法对所有样本说话人的身份认证矢量进行聚类，将每一类的聚类中心挑选出来，共同构成通用身份矢量特征集。其中，可以利用现有的i-vector提取模型，例如通用背景模型UBM，提取样本语音数据的身份认证矢量，提取得到的身份认证矢量中包含有说话人信息和信道信息等，具有较高的稳定性。类似地，可以从不同样本说话人的样本语音数据提取深度神经网络矢量(d-vector)，并利用K-means等聚类算法对所有样本说话人的深度神经网络矢量进行聚类，将每一类的聚类中心挑选出来，共同构成通用神经网络矢量特征集。其中，可以利用现有的d-vector提取模型，例如卷积神经网络模型，提取样本语音数据的深度神经网络矢量。

由于语音识别模型在训练过程中，基于通用发音偏差特征集，或基于通用发音偏差特征集和通用说话人声纹特征集，以及样本语音数据的语音特征，能够学会对不同说话人进行自适应表征，并基于得到的样本语音数据的样本说话人特征进行自适应的语音识别。因此，在实际使用过程中，语音识别模型基于通用发音偏差特征集，或基于通用发音偏差特征集和通用说话人声纹特征集，以及语音数据的语音特征，可以确定得到准确的说话人特征，提高了对不同说话人的自适应效果。基于该说话人特征和语音数据的语音特征进行语音识别，可以提高语音识别的准确性。此处，实现说话人自适应时，是通过将语音数据的语音特征与通用发音偏差特征集进行注意力交互，或将语音特征分别与通用说话人声纹特征集和通用发音偏差特征集进行注意力交互，无需获取语音数据对应说话人的语料，也省去了语料的标注过程，能够提高说话人自适应的实时性。

本发明实施例提供的方法，通过将语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将语音数据的语音特征分别与通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到语音数据的说话人特征，并基于语音数据的语音特征和说话人特征，对语音数据进行语音识别，提高了说话人自适应的实时性和效果，有助于提高多人会话场景下的语音识别准确性。

基于上述实施例，步骤120之前还包括：

基于样本语音数据及其样本语音识别结果，以及通用说话人声纹特征集和/或通用发音偏差特征集对初始模型进行训练，得到经训练的语音识别模型。

此处，在执行步骤120之前，还可以预先训练得到语音识别模型，例如可以通过如下方式训练得到语音识别模型：首先，收集大量样本语音数据，并确定样本语音数据的样本语音识别结果。随即，基于样本语音数据及其样本语音识别结果，以及预先构建的通用说话人声纹特征集和/或通用发音偏差特征集训练初始模型，从而得到语音识别模型。

基于上述任一实施例，在多人会话场景，例如会议、采访以及授课等存在多人交互讨论的场景下，语音数据中包含有多个说话人，且说话人随时可能切换，因此需要在说话人切换时，即时作出自适应调整以适应新的说话人，从而进一步提高语音识别的准确性。图2为本发明实施例提供的语音识别模型运行方法的流程示意图，如图2所示，步骤120包括：

步骤121，基于语音识别模型的语音特征提取层对语音数据的当前帧进行特征提取，以生成当前帧的语音特征。

此处，为了尽可能提取到语音数据中详细的说话人信息和环境信息，可以基于声学模型神经网络中的浅层部分，例如前2个卷积层，构建语音特征层。然后，获取当前帧以及当前帧之前所有时刻浅层部分输出的向量，并采用均值池化的方式，得到当前帧的语音特征。

步骤122，基于语音识别模型的注意力交互层将当前帧的语音特征与通用发音偏差特征集进行注意力交互，或，将当前帧的语音特征分别与通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，生成当前帧的说话人特征。

此处，注意力交互层用于将当前帧的语音特征与通用发音偏差特征集进行注意力交互，筛选出通用发音偏差特征集中与当前帧的说话人相关的发音偏差特征，得到当前帧的说话人特征；或，用于将当前帧的语音特征分别与通用发音偏差特征集和通用说话人声纹特征集进行匹配，分别筛选出通用发音偏差特征集中与当前帧的说话人相关的发音偏差特征，以及通用说话人声纹特征集中与当前帧的说话人相关的通用说话人声纹特征，从而组合得到当前帧的说话人特征。其中，注意力交互层以语音帧为单位确定说话人特征，使得在一段多人会话的语音数据中，一旦说话人切换，即可立即捕捉到说话人的变化，并对当前的说话人进行特征编码，得到属于当前帧说话人的说话人特征，从而实现实时的说话人自适应。

步骤123，基于语音识别模型的解码层对语音数据的每一帧的语音特征和说话人特征进行解码，得到语音识别结果。

此处，解码层用于将语音数据的每一帧的语音特征和说话人特征进行融合，并基于融合结果进行解码，得到语音数据的语音识别结果。其中，可以将语音数据的每一语音帧依次输入至解码层，实现帧级别的实时解码，也可以将语音数据的多个语音帧一同输入至解码层，本发明实施例对此不作具体限定。

本发明实施例提供的方法，基于当前帧的语音特征，以及通用说话人声纹特征集和/或通用发音偏差特征集，确定当前帧的说话人特征，可以实现实时的说话人自适应。

基于上述任一实施例，说话人特征包括说话人声纹特征。其中，说话人声纹特征是将当前帧的语音特征与通用说话人声纹特征集进行注意力交互后得到的。

此处，可以将当前帧的语音特征和通用说话人声纹特征集输入至注意力交互层，注意力交互层将当前帧的语音特征与通用说话人声纹特征集中的每一通用说话人声纹特征进行注意力交互，得到每一通用说话人声纹特征与当前帧的语音特征之间的相关度，并基于每一通用说话人声纹特征及其对应的相关度，确定当前帧的说话人声纹特征。其中，当前帧的说话人声纹特征可以表征当前帧对应说话人的声纹特征。例如，将每一通用说话人声纹特征与当前帧的语音特征的相关度作为权重，对每一通用说话人声纹特征进行加权求和，得到当前帧的说话人声纹特征。

其中，可以将当前帧的语音特征与每一通用说话人声纹特征进行注意力交互，得到每一通用说话人声纹特征与当前帧的语音特征的相关度。例如，可以采用如下公式确定每一通用说话人声纹特征与当前帧的语音特征的相关度：

e_t,i＝Vtanh(Ws_t+Um_i)

a_t,i＝1/(1+exp(-e_t,i))

其中，s_t为当前帧的语音特征，m_i为任一通用说话人声纹特征，e_t,i为该通用说话人声纹特征与当前帧的语音特征的相关度，a_t,i为归一化后的相关度，V、W和U为可学习得到的参数。

若通用说话人声纹特征集包括通用身份矢量特征集和通用神经网络矢量特征集，则可以将当前帧的语音特征和通用身份矢量特征集输入至注意力交互层，以进行注意力交互，得到每一通用身份矢量特征与当前帧的语音特征之间的相关度，并基于每一通用身份矢量特征及其对应的相关度，确定当前帧的身份矢量特征。还将当前帧的语音特征和通用神经网络矢量特征集输入至注意力交互层，以类似方法，确定当前帧的神经网络矢量特征。此时，当前帧的说话人声纹特征包括上述身份矢量特征和神经网络矢量特征。

基于上述任一实施例，说话人特征包括发音偏差特征；

图3为本发明实施例提供的发音偏差特征重构方法的流程示意图，如图3所示，将当前帧的语音特征与通用发音偏差特征集进行注意力交互，包括：

步骤1221，基于注意力交互层的权重计算层对语音特征和通用发音偏差特征集进行注意力权重计算，得到通用发音偏差特征集中每一通用发音偏差特征的注意力权重；

步骤1222，基于注意力交互层的发音偏差特征重构层，结合每一通用发音偏差特征及其注意力权重，以及通用发音偏差特征集中易混淆发音偏差特征的激励权重进行发音偏差特征重构，得到发音偏差特征。

具体地，若仅将当前帧的语音特征和通用发音偏差特征集输入至注意力交互层，则当前帧的说话人特征仅包括发音偏差特征；若分别将当前帧的语音特征和通用说话人声纹特征集，以及当前帧的语音特征和通用发音偏差特征集输入至注意力交互层，则当前帧的说话人特征包括说话人声纹特征和发音偏差特征。

其中，权重计算层利用注意力机制分别计算当前帧的语音特征和通用发音偏差特征集中每一通用发音偏差特征之间的相关度，并将任一通用发音偏差特征与当前帧的语音特征之间的相关度，作为该通用发音偏差特征的注意力权重。例如，可以采用如下公式确定每一通用说话人声纹特征与当前帧的语音特征的相关度，或每一通用发音偏差特征与当前帧的语音特征的相关度：

e_t,i＝Vtanh(Ws_t+Um_i)

a_t,i＝1/(1+exp(-e_t,i))

其中，s_t为当前帧的语音特征，m_i为任一通用说话人声纹特征或任一通用发音偏差特征，e_t,i为该通用说话人声纹特征或该通用发音偏差特征与当前帧的语音特征的相关度，a_t,i为归一化后的相关度，V、W和U为可学习得到的参数。

基于每一通用发音偏差特征的注意力权重，可以对每一通用发音偏差特征进行加权求和，得到当前帧的发音偏差特征。然而，若当前帧处于语音数据的开始，由于可利用的历史语音帧及其语义信息较少，因此当前帧的语音特征中包含的说话人信息可能不足，导致从通用发音偏差特征集中匹配筛选出的当前帧对应说话人的发音偏差信息准确性不足，难以准确判断当前帧的说话人对于哪些音素存在发音不标准的问题。因此，可以根据历史语音数据，从通用发音偏差特征集中筛选易混淆发音偏差特征，在确定当前帧的发音偏差特征时，对易混淆发音偏差特征进行激励，以突出易混淆发音偏差特征，使得解码时可以重点关注易混淆的发音，从而提高语音识别的准确性。其中，易混淆发音偏差特征为与当前应用场景下各说话人的易混淆发音相关的通用发音偏差特征，易混淆发音为由于说话人发音不标准导致易被识别错误的音素。

发音偏差特征重构层基于通用发音偏差特征集中易混淆发音偏差特征的激励权重，将易混淆发音偏差特征的激励权重与其对应的注意力权重相加，作为易混淆发音偏差特征新的权重，再对所有通用发音偏差特征进行加权求和，得到重构后的发音偏差特征。其中，激励权重可以预先设定得到。

本发明实施例提供的方法，基于每一通用发音偏差特征及其注意力权重，以及通用发音偏差特征集中易混淆发音偏差特征的激励权重，确定发音偏差特征，提高了语音识别的准确性。

基于上述任一实施例，图4为本发明实施例提供的易混淆发音偏差特征确定方法的流程示意图，如图4所示，易混淆发音偏差特征是基于如下步骤确定的：

步骤410，基于预设时间段内所有历史语音数据中任一正确识别分词对应的历史语音数据，确定该正确识别分词的易混淆音素级发音偏差向量；

步骤420，将每一正确识别分词的易混淆音素级发音偏差向量分别与每一通用发音偏差特征进行匹配，将与任一正确识别分词的易混淆音素级发音偏差向量匹配成功的通用发音偏差特征作为易混淆发音偏差特征。

具体地，易混淆发音偏差特征可以每间隔一段时间便进行更新，以保证易混淆发音偏差特征能够真实表达当前场景下最新的易混淆发音。在更新或者首次确定易混淆发音偏差特征时，需要获取预设时间段内所有的历史语音数据。其中，预设时间段为当前时刻与上一次更新易混淆发音偏差特征的时刻之间的时间段，例如5分钟。然后，根据历史语音数据的语音识别结果，获取其中的正确识别分词。由于实际应用过程中缺少标注信息，因此无法直接获得正确识别分词。考虑到同一多人会话场景下，若多个人的语音数据的识别结果中均识别出了同一个词，则可以认为该词是正确识别分词。因此，可以基于历史语音数据中的多人语音识别结果，获取不同人均识别出的分词作为正确识别分词。

对于任一正确识别分词对应的历史语音数据，语音识别模型会对其声学特征进行声学状态和音素的识别，再根据该识别结果以及该正确识别分词实际包含的音素，可以确定该正确识别分词对应的音素级发音偏差向量。其中，音素级发音偏差向量包括每一音素对应的说话人发音与标准发音的偏差。

此处，可以根据语音识别模型对任一正确识别分词的历史语音数据进行识别得到的每一语音帧对应每一类型声学状态的后验概率，以及正确识别分词实际包含的声学状态，确定得到每一语音帧对应的状态级发音偏差向量。其中，任一语音帧对应的状态级发音偏差向量中包含每一类型声学状态对应的后验概率与真实概率的差值，而任一类型声学状态的真实概率可以根据正确识别分词得到，若正确识别分词包含某一类型声学状态，则该类型声学状态的真实概率为1，否则为0。进而根据音素类型与声学状态类型间的对应关系，将状态级发音偏差向量中对应同一音素的状态的元素值相加，从而合并得到每一语音帧对应的音素级发音偏差向量。此外，还可以设定偏差阈值，将所有元素值的绝对值均小于偏差阈值的音素级发音偏差向量删除，以消除发音较为标准的语音帧的干扰。然后，对剩余的音素级发音偏差向量求取平均值，即可得到该正确识别分词的易混淆音素级发音偏差向量。其中，任一正确识别分词的易混淆音素级发音偏差向量可以表征该正确识别分词中易被识别错误的音素。

随即，将每一正确识别分词的易混淆音素级发音偏差向量与每一通用发音偏差特征两两进行匹配。其中，可以计算任一正确识别分词的易混淆音素级发音偏差向量与任一通用发音偏差特征的相似度，例如可以计算两个向量间的欧氏距离并利用softmax函数将欧氏距离归一化。若相似度大于预设阈值，则可以认为该通用发音偏差特征与该正确识别分词的易混淆音素级发音偏差向量匹配成功。然后，将与任一正确识别分词的易混淆音素级发音偏差向量匹配成功的通用发音偏差特征作为易混淆发音偏差特征。

本发明实施例提供的方法，基于预设时间段内所有历史语音数据中任一正确识别分词对应的历史语音数据，确定该正确识别分词的易混淆音素级发音偏差向量，然后将每一正确识别分词的易混淆音素级发音偏差向量与每一通用发音偏差特征两两进行匹配，将与任一正确识别分词的易混淆音素级发音偏差向量匹配成功的通用发音偏差特征作为易混淆发音偏差特征，能够从历史语音数据中准确提取出易被识别错误的音素，从而提高易混淆发音偏差特征的表达能力。

基于上述任一实施例，图5为本发明实施例提供的通用发音偏差特征集确定方法的流程示意图，如图5所示，通用发音偏差特征集是基于如下步骤确定的：

步骤510，基于任一样本说话人的样本语音数据中每一语音帧的状态后验概率分布，确定该样本说话人的说话人发音偏差特征；

步骤520，对每一样本说话人的说话人发音偏差特征进行聚类，得到多个说话人发音偏差特征簇；

步骤530，基于每个说话人发音偏差特征簇的聚类中心，构建通用发音偏差特征集。

其中，任一语音帧的状态后验概率分布中包含该语音帧属于每一类型声学状态的概率。此处，可以通过将任一样本说话人的样本语音数据的任一语音帧输入至预先训练好的说话人无关声学模型，得到该声学模型输出的该语音帧的状态后验概率分布。根据任一样本说话人的样本语音数据中每一语音帧的状态后验概率分布，可以获知该样本说话人对任一类型声学状态的发音与该类型声学状态的标准发音间的偏差。然后根据声学状态和音素间的对应关系，确定对于每一类型音素，该样本说话人的发音与该类型音素的标准发音间的偏差，得到该样本说话人的说话人发音偏差特征。

利用聚类算法，例如K-means算法，对每一样本说话人的说话人发音偏差特征进行聚类，得到多个说话人发音偏差特征簇。其中，任一说话人发音偏差特征簇可以代表一类说话人的发音偏差特征。然后，抽取出每一个说话人发音偏差特征簇的聚类中心，作为通用发音偏差特征，共同构成通用发音偏差特征集。

本发明实施例提供的方法，基于样本说话人的样本语音数据中每一语音帧的状态后验概率分布，确定该样本说话人的说话人发音偏差特征，然后对每个样本说话人的说话人发音偏差特征进行聚类，并构建通用发音偏差特征集，提高了通用发音偏差特征集对不同说话人的发音偏差的表达能力，有助于提高说话人自适应的效果。

基于上述任一实施例，图6为本发明实施例提供的说话人发音偏差特征确定方法的流程示意图，如图6所示，步骤510包括：

步骤511，基于任一语音帧的状态后验概率分布，以及该语音帧的样本状态概率分布，确定该语音帧的状态级残差向量；

步骤512，将该语音帧的状态级残差向量中属于同一音素的状态对应的残差值相加，得到该语音帧的音素级残差向量；

步骤513，基于该样本说话人的样本语音数据中所有语音帧的音素级残差向量，确定该样本说话人的说话人发音偏差特征。

此处，将任一语音帧的状态后验概率分布，与该语音帧的样本状态概率分布相减，得到该语音帧的状态级残差向量。其中，样本状态概率分布中正确的声学状态对应的值为1，其余为0。根据音素类型与声学状态类型间的对应关系，将该语音帧的状态级残差向量中属于同一音素的状态对应的残差值相加，从而合并得到该语音帧的音素级残差向量。得到样本说话人的样本语音数据中所有语音帧的音素级残差向量之后，还可以设定偏差阈值，将所有残差值的绝对值均小于偏差阈值的音素级残差向量删除，以消除发音较为标准的语音帧的干扰。然后，对剩余的语音帧的音素级残差向量求取平均值，即可得到该样本说话人的说话人发音偏差特征。

基于上述任一实施例，基于语音数据的语音特征和说话人特征，对语音数据进行语音识别，包括：

基于语音数据的语音特征、说话人特征和环境特征，对语音数据进行语音识别；

语音数据的环境特征是将语音数据的语音特征和通用环境特征集进行匹配得到的。

此处，将语音数据输入至语音识别模型中后，语音识别模型还会将该语音数据的语音特征，与预先构建的通用环境特征集进行匹配筛选，得到该语音数据的环境特征。其中，语音数据的环境特征可以表征该语音数据对应的环境噪音信息。

通用环境特征集中包含多个通用环境特征，每一通用环境特征均是对不同样本环境噪声数据进行特征提取后，抽取出的能够代表不同类型环境噪声的环境特征。由于任一通用环境特征均可以代表某一类环境噪声的环境特征，具备明显的代表性，使得通用环境特征集可以覆盖大部分环境噪声。基于语音数据，对通用环境特征集进行匹配筛选，选取与当前语音数据的环境噪声匹配的通用环境特征，从而组合得到语音数据的环境特征，使得得到的环境特征与该语音数据的环境噪声的关联度更高，对环境噪声的表达能力更强。

通用环境特征集可以预先根据样本环境噪声数据构建得到。其中，收集的样本环境噪声数据包括真实环境下采集的噪声数据以及背景音乐数据，还可以包括人工构造的随机噪声数据，以增加样本环境噪声数据的多样性。人工构造的随机噪声数据可以包括多种不同类型的白噪声和色噪声，例如确定性单频信号、确定性带宽信号、高斯白噪声、高斯色噪声和均匀分布白噪声和t分布白噪声等。可以对不同样本环境噪声数据提取样本环境特征，并利用K-means等聚类算法对所有样本环境噪声数据的样本环境特征进行聚类，将每一类的聚类中心挑选出来，共同构成通用环境特征集。其中，可以利用现有的特征提取模型，例如卷积神经网络模型，提取样本环境噪声数据的样本环境特征。

语音识别模型在训练过程中，基于通用环境特征集，以及样本语音数据的语音特征，能够学会对不同类型环境噪声进行自适应表征，并基于得到的样本语音数据的语音特征、样本说话人特征和样本环境特征进行自适应的语音识别。因此，在实际使用过程中，语音识别模型基于通用说话人声纹特征集和/或通用发音偏差特征集，以及语音数据的语音特征，可以确定得到准确的说话人特征，提高对不同说话人的自适应效果；同时，基于通用环境特征集和语音数据的语音特征，可以确定得到准确的环境特征，提高对不同类型环境噪声的自适应效果，从而进一步提高语音识别准确性。

本发明实施例提供的方法，语音识别模型将语音数据的语音特征和通用环境特征集进行匹配，得到语音数据的环境特征，并基于语音数据的语音特征、说话人特征和环境特征，对语音数据进行语音识别，提高了对不同类型环境噪声的自适应效果，从而进一步提高了语音识别准确性。

基于上述任一实施例，图7为本发明又一实施例提供的语音识别方法的流程示意图，如图7所示，该方法包括：

获取预先构建的通用身份矢量特征集i-vectors、通用神经网络矢量特征集d-vectors、通用发音偏差特征集r-vectors和通用环境特征集n-vectors。

获取待识别的当前语音帧，并提取当前语音帧的语音特征。

将当前语音帧的语音特征分别与通用身份矢量特征集i-vectors中的每一通用身份矢量特征进行注意力交互，得到当前帧的身份矢量特征。将当前帧的语音特征分别与通用神经网络矢量特征集d-vectors中的每一通用神经网络矢量特征进行注意力交互，得到当前帧的神经网络矢量特征。将当前帧的语音特征分别与通用发音偏差特征集r-vectors中的每一通用发音偏差特征进行注意力交互，得到每一通用发音偏差特征的注意力权重后，结合其中易混淆发音偏差特征的激励权重，重构得到当前帧的发音偏差特征。此处，易混淆发音偏差特征可以采用上述任一实施例提供的易混淆发音偏差特征确定方法确定得到，在此不再赘述。其中，当前帧的身份矢量特征、神经网络矢量特征和发音偏差特征共同构成当前帧的说话人特征。此外，还将当前帧的语音特征分别与通用环境特征集n-vectors中的每一通用环境特征进行注意力交互，得到当前帧的环境特征。

然后，基于当前帧的语音特征、说话人特征和环境特征，对当前帧进行实时自适应解码。

下面对本发明实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

图8为本发明实施例提供的语音识别装置的结构示意图，如图8所示，该装置包括：语音数据确定单元810和语音识别单元820。

其中，语音数据确定单元810用于确定待识别的语音数据；

语音识别单元820用于基于经训练的语音识别模型，确定语音数据的语音识别结果；

本发明实施例提供的装置，通过将语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将语音数据的语音特征分别与通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到语音数据的说话人特征，并基于语音数据的语音特征和说话人特征，对语音数据进行语音识别，提高了说话人自适应的实时性和效果，有助于提高多人会话场景下的语音识别准确性。

基于上述任一实施例，语音识别单元820包括：

语音特征提取单元，用于基于语音识别模型的语音特征提取层对语音数据的当前帧进行特征提取，以生成当前帧的语音特征；

说话人特征匹配单元，用于基于语音识别模型的注意力交互层将当前帧的语音特征与通用发音偏差特征集进行注意力交互，或，将当前帧的语音特征分别与通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，生成当前帧的说话人特征；

解码单元，用于基于语音识别模型的解码层对语音数据的每一帧的语音特征和说话人特征进行解码，得到语音识别结果。

本发明实施例提供的装置，基于当前帧的语音特征，以及通用说话人声纹特征集和/或通用发音偏差特征集，确定当前帧的说话人特征，可以实现实时的说话人自适应。

基于上述任一实施例，说话人特征包括发音偏差特征。说话人特征匹配单元包括：

权重计算单元，用于基于注意力交互层的权重计算层对语音特征和通用发音偏差特征集进行注意力权重计算，得到通用发音偏差特征集中每一通用发音偏差特征的注意力权重；

发音偏差特征重构单元，用于基于注意力交互层的发音偏差特征重构层，结合每一通用发音偏差特征及其注意力权重，以及通用发音偏差特征集中易混淆发音偏差特征的激励权重进行发音偏差特征重构，得到发音偏差特征。

本发明实施例提供的装置，基于每一通用发音偏差特征及其注意力权重，以及通用发音偏差特征集中易混淆发音偏差特征的激励权重，确定发音偏差特征，提高了语音识别的准确性。

基于上述任一实施例，该装置还包括易混淆发音偏差特征确定单元。易混淆发音偏差特征确定单元用于：

基于预设时间段内所有历史语音数据中任一正确识别分词对应的历史语音数据，确定该正确识别分词的易混淆音素级发音偏差向量；

将每一正确识别分词的易混淆音素级发音偏差向量分别与每一通用发音偏差特征进行匹配，将与任一正确识别分词的易混淆音素级发音偏差向量匹配成功的通用发音偏差特征作为易混淆发音偏差特征。

本发明实施例提供的装置，基于预设时间段内所有历史语音数据中任一正确识别分词对应的历史语音数据，确定该正确识别分词的易混淆音素级发音偏差向量，然后将每一正确识别分词的易混淆音素级发音偏差向量与每一通用发音偏差特征两两进行匹配，将与任一正确识别分词的易混淆音素级发音偏差向量匹配成功的通用发音偏差特征作为易混淆发音偏差特征，能够从历史语音数据中准确提取出易被识别错误的音素，从而提高易混淆发音偏差特征的表达能力。

基于上述任一实施例，该装置还包括通用发音偏差特征集确定单元。通用发音偏差特征集确定单元包括：

说话人发音偏差特征确定单元，用于基于任一样本说话人的样本语音数据中每一语音帧的状态后验概率分布，确定该样本说话人的说话人发音偏差特征；

聚类单元，用于对每一样本说话人的说话人发音偏差特征进行聚类，得到多个说话人发音偏差特征簇；

通用发音偏差特征集构建单元，用于基于每个说话人发音偏差特征簇的聚类中心，构建通用发音偏差特征集。

本发明实施例提供的装置，基于样本说话人的样本语音数据中每一语音帧的状态后验概率分布，确定该样本说话人的说话人发音偏差特征，然后对每个样本说话人的说话人发音偏差特征进行聚类，并构建通用发音偏差特征集，提高了通用发音偏差特征集对不同说话人的发音偏差的表达能力，有助于提高说话人自适应的效果。

基于上述任一实施例，说话人发音偏差特征确定单元用于：

基于任一语音帧的状态后验概率分布，以及该语音帧的样本状态概率分布，确定该语音帧的状态级残差向量；

将该语音帧的状态级残差向量中属于同一音素的状态对应的残差值相加，得到该语音帧的音素级残差向量；

基于该样本说话人的样本语音数据中所有语音帧的音素级残差向量，确定该样本说话人的说话人发音偏差特征。

本发明实施例提供的装置，语音识别模型将语音数据的语音特征和通用环境特征集进行匹配，得到语音数据的环境特征，并基于语音数据的语音特征、说话人特征和环境特征，对语音数据进行语音识别，提高了对不同类型环境噪声的自适应效果，从而进一步提高了语音识别准确性。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行语音识别方法，该方法包括：确定待识别的语音数据；基于经训练的语音识别模型，确定所述语音数据的语音识别结果；其中，所述语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到所述语音数据的说话人特征，并基于所述语音数据的语音特征和说话人特征，对所述语音数据进行语音识别。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的语音识别方法，该方法包括：确定待识别的语音数据；基于经训练的语音识别模型，确定所述语音数据的语音识别结果；其中，所述语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到所述语音数据的说话人特征，并基于所述语音数据的语音特征和说话人特征，对所述语音数据进行语音识别。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音识别方法，该方法包括：确定待识别的语音数据；基于经训练的语音识别模型，确定所述语音数据的语音识别结果；其中，所述语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到所述语音数据的说话人特征，并基于所述语音数据的语音特征和说话人特征，对所述语音数据进行语音识别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

确定待识别的语音数据；

其中，所述语音识别模型用于将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互，或，将所述语音数据的语音特征分别与所述通用发音偏差特征集和通用说话人声纹特征集进行注意力交互，得到所述语音数据的说话人特征，并基于所述语音数据的语音特征和说话人特征，对所述语音数据进行语音识别；

所述说话人特征包括发音偏差特征；

所述将所述语音数据的语音特征与通用发音偏差特征集进行注意力交互，包括：

对所述语音特征和所述通用发音偏差特征集进行注意力权重计算，得到所述通用发音偏差特征集中每一通用发音偏差特征的注意力权重；

基于所述每一通用发音偏差特征及其注意力权重，以及所述通用发音偏差特征集中易混淆发音偏差特征的激励权重进行发音偏差特征重构，得到所述发音偏差特征；

所述易混淆发音偏差特征为所述通用发音偏差特征集中与易混淆发音相关的通用发音偏差特征，所述易混淆发音为说话人发音不标准导致的易被识别错误的音素。

2.根据权利要求1所述的语音识别方法，其特征在于，所述基于经训练的语音识别模型，确定所述语音数据的语音识别结果，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述对所述语音特征和所述通用发音偏差特征集进行注意力权重计算，得到所述通用发音偏差特征集中每一通用发音偏差特征的注意力权重，包括：

所述基于所述每一通用发音偏差特征及其注意力权重，以及所述通用发音偏差特征集中易混淆发音偏差特征的激励权重进行发音偏差特征重构，得到所述发音偏差特征，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述易混淆发音偏差特征是基于如下步骤确定的：

5.根据权利要求1至4任一项所述的语音识别方法，其特征在于，所述通用发音偏差特征集是基于如下步骤确定的：

6.根据权利要求5所述的语音识别方法，其特征在于，所述基于任一样本说话人的样本语音数据中每一语音帧的状态后验概率分布，确定所述任一样本说话人的说话人发音偏差特征，包括：

7.根据权利要求1至4任一项所述的语音识别方法，其特征在于，所述基于所述语音数据的语音特征和说话人特征，对所述语音数据进行语音识别，包括：

8.根据权利要求1至4任一项所述的语音识别方法，其特征在于，所述基于经训练的语音识别模型，确定所述语音数据的语音识别结果，之前还包括：

9.一种语音识别装置，其特征在于，包括：

语音数据确定单元，用于确定待识别的语音数据；

所述说话人特征包括发音偏差特征；

所述语音识别单元包括说话人特征匹配单元，所述说话人特征匹配单元包括：

权重计算单元，用于对所述语音特征和所述通用发音偏差特征集进行注意力权重计算，得到所述通用发音偏差特征集中每一通用发音偏差特征的注意力权重；

发音偏差特征重构单元，用于基于所述每一通用发音偏差特征及其注意力权重，以及所述通用发音偏差特征集中易混淆发音偏差特征的激励权重进行发音偏差特征重构，得到所述发音偏差特征；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述语音识别方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述语音识别方法的步骤。