CN113470617A

CN113470617A - 语音识别方法以及电子设备、存储装置

Info

Publication number: CN113470617A
Application number: CN202110722055.3A
Authority: CN
Inventors: 吴华鑫
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-01
Anticipated expiration: 2041-06-28

Abstract

本申请公开了一种语音识别方法以及电子设备、存储装置，其中，语音识别方法包括：提取待识别语音的声学特征表示；利用待识别语音分别与若干预设语种之间的相关度，融合若干预设语种的第一特征表示，得到待识别语音的语种特征表示；基于声学特征表示和语种特征表示进行识别，得到待识别语音的识别文本。上述方案，能够在免于手动切换的前提下，提高语音识别效果。

Description

语音识别方法以及电子设备、存储装置

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别方法以及电子设备、存储装置。

背景技术

随着语音识别技术的普及，越来越多地区不同语种的使用者对语音识别技术提出了更高的要求。目前，现有的语音识别技术在面对不同语种的使用场景时，识别结果较差。通过手动切换不同识别模块来识别不同语种，虽然可以适应不同语种的使用场景，但是一方面，手动切换存在识别效率低下的问题，另一方面若未知晓确切语种，手动切换也很难取得良好的识别效果。有鉴于此，如何在免于手动切换的前提下，提高语音识别效果成为亟待解决问题。

发明内容

本申请主要解决的技术问题文本是提供一种语音识别方法以及电子设备、存储装置，能够在免于手动切换的前提下，提高语音识别效果。

为了解决上述技术问题，本申请第一方面提供了一种语音识别方法，包括：提取待识别语音的声学特征表示；利用待识别语音分别与若干预设语种之间的相关度，融合若干预设语种的第一特征表示，得到待识别语音的语种特征表示；基于声学特征表示和语种特征表示进行识别，得到待识别语音的识别文本。

为了解决上述技术问题，本申请第二方面提供了一种语音识别装置，包括：特征提取模块、特征融合模块和文本获取模块，特征提取模块用于提取待识别语音的声学特征表示，特征融合模块用于用待识别语音分别与若干预设语种之间的相关度，融合若干预设语种的第一特征表示，得到待识别语音的语种特征表示，文本获取模块用于基于声学特征表示和语种特征表示进行识别，得到待识别语音的识别文本。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音识别方法。

为了解决上述技术问题，本申请第四方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音识别方法。

上述方案，提取待识别语音的声学特征表示，并利用待识别语音分别与若干预设语种之间的相关度，融合若干预设语种的第一特征表示，得到待识别语音的语种特征表示，基于此再基于声学特征表示和语种特征表示进行识别，得到待识别语音的识别文本，故一方面能够在语音识别过程中，免于手动切换，另一方面由于待识别语音的语种特征表示是利用待识别语音分别与若干预设语种之间的相关度对若干预设语种的第一特征表示融合得到的，即能够有利于多参考与待识别语音相关度较高的预设语种并少参考与待识别语音相关度较低的预设语种，从而能够有利于减少仅参考某一特定语种而带来的识别误差，提高识别效果。故此，能够在免于手动切换的前提下，提高语音识别效果。

附图说明

图1是本申请语音识别方法一实施例的流程示意图；

图2是语音识别模型一实施例的框架示意图；

图3是预训练识别网络一实施例的流程示意图；

图4是预训练识别网络一实施例的框架示意图；

图5是整体训练语音识别模型一实施例的流程示意图；

图6是整体训练语音识别模型一实施例的框架示意图；

图7是本申请电子设备一实施例的框架示意图；

图8是本申请语音识别装置一实施例的框架示意图；

图9是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音识别方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S11：提取待识别语音的声学特征表示。

在一个实施场景中，待识别语音可以采用一种语种。需要说明的是，本公开实施例以及下述公开实施例中，不同语种并不局限于诸如：汉语、英语、日语等采用不同文字的语言，不同语种也可以包括诸如：吴语、粤语等虽然采用相同文字但发音不同的地方语言，在此不做限定。即待识别语音可以为英语发音的语音，也可以为采用粤语发音的语音，以此类推，在此不再一一举例。

在另一个实施场景中，待识别语音也可以夹杂多种语种。例如，待识别语音可以夹杂有汉语和英语；或者，待识别语音也可以夹杂有普通话和粤语，以此类推，在此不再一一举例。

在一个实施场景中，声学特征表示可以包括但不限于：Fbank特征、MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)特征等，在此不做限定。上述Fbank特征、MFCC特征的提取方式，可以参阅Fbank、MFCC相关技术细节，在此不再赘述。

在一个实施场景中，可以利用预设滑窗对待识别语音进行音频提取，得到若干子音频，基于此可以提取若干子音频的声学特征表示。以预设滑窗的窗长是25ms且预设滑窗的帧移是10ms为例，可以每隔10ms取一段25ms的子音频，并提取该子音频的声学特征表示(如，40维的Fbank特征)。其他情况可以以此类推，在此不再一一举例。

步骤S12：利用待识别语音分别与若干预设语种之间的相关度，融合若干预设语种的第一特征表示，得到待识别语音的语种特征表示。

在一个实施场景中，若干预设语种可以根据实际应用需要进行设置。例如，在普通话夹杂地方方言的使用场景下，若干预设语种可以包括：普通话以及诸如吴语、粤语等地方方言；或者，在汉语夹杂英语的使用场景下，若干预设语种可以包括汉语和英语。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，可以对声学特征表示进行语种特征提取，得到第二特征表示，并利用第二特征表示和若干预设语种的第一特征表示，得到待识别语音分别与若干预设语种之间的相关度。上述方式，通过对待识别语音的声学特征表示进行语种特征提取，得到第二特征表示，基于此，利用第二特征表示和若干预设语种的第一特征表示，得到待识别语音分别与若干预设语种之间的相关度，能够定量计算得到相关度，从而有利于提高相关度的准确性。

在一个具体的实施场景中，为了提高语音识别的效率以及准确性，可以训练一个语音识别模型，且该语音识别模型可以包括分类网络，上述相关度可以是利用分类网络得到的。请结合参阅图2，图2是语音识别模型一实施例的框架示意图。如图2所示，可以将待识别语音的声学特征表示输入分类网络，得到待识别语音的第二特征表示u，基于此再利用第二特征表示和若干预设语种的第一特征表示(如图2中以不同底纹填充的矩形所示)，计算得到待识别语音分别与若干预设语种之间的相关度。例如，在提取到待识别语音的若干子音频的声学特征表示的情况下，可以将若干子音频的声学特征表示整体送入分类网络，得到第二特征表示。需要说明的是，分类网络可以包括全连接层，在此不做限定。

在另一个具体的实施场景中，可以将待识别语音的第二特征表示分别和若干预设语种的第一特征表示进行点乘，得到待识别语音分别和若干预设语种之间的相关度；或者，也可以计算待识别语音的第二特征表示分别和若干预设语种的第一特征表示之间的余弦相似度，得到待识别语音分别和若干预设语种之间的相关度，在此不做限定。为了便于描述，第二特征表示可以记为u，第i个预设语种的第一特征表示可以记为v_i，则待识别语音分别和第i个预设语种之间的相关度e_i可以表示为：

e_i＝f(u,v_i)……(1)

上述公式(1)中，f(·)表示计算相关度的运算函数，如前述点乘运算、余弦相似度运算等，在此不做限定。此外，为了便于融合第一特征表示，还可以对上述公式(1)所计算得到的相似度进行归一化处理：

上述公式(2)中，α_i表示待识别语音和第i个预设语种归一化之后的相关度。

在又一个具体的实施场景中，如前所述，为了提高语音识别的效率以及准确性，可以训练一个语音识别模型，该语音识别模型可以进一步包括识别网络，该识别网络用于后续基于声学特征表示和语种特征表示进行识别，得到待识别语音的识别文本，且若干预设语种的第一特征表示可以是利用若干预设语种的样本语音对待识别网络预训练至收敛而得到的。故此，通过预训练语音识别模型的识别网络至收敛，得到若干预设语种的第一特征表示，能够预先对若干预设语种统一建模，有利于降低后续语音识别的复杂度。识预训练别网络的具体过程，可以参阅下述相关公开实施例，在此暂不赘述。

在一个实施场景中，请继续结合参阅图2，可以利用待识别语音分别与若干预设语种之间的相关度，对若干预设语种的第一特征表示进行加权处理，得到语种特征表示。为了便于描述，第i个预设语种的第一特征表示可以记为v_i，则待识别语音的语种特征表示c可以表示为：

c＝∑_iα_iv_i……(3)

上述公式(3)中，α_i表示第i个预设语种与待识别语音之间的相关度。需要说明的是，相关度越高，待识别语音与预设语种之间的关联程度越高，反之，相关度越低，待识别语音与预设语种之间的关联程度越低。上述方式，通过利用待识别语音分别与若干预设语种之间的相关度，对若干预设语种的第一特征表示进行加权处理，得到待识别语音的语种特征表示，能够有利于降低融合若干预设语种的第一特征表示的复杂度。

步骤S13：基于声学特征表示和语种特征表示进行识别，得到待识别语音的识别文本。

在一个实施场景中，如前所述，为了提高语音识别的效率及准确性，可以预先训练语音识别模型，且该语音识别模型包括识别网络。识别网络可以包括顺序连接的若干网络层。例如，识别网络可以包括顺序连接的四层网络层、六层网络层、八层网络层等等，在此不做限定。基于此，可以分别将若干网络层作为当前层，并在当前层满足预设条件的情况下，将当前层的前一层网络层的输出特征表示与语种特征表示进行融合，得到融合特征表示，并利用当前层对融合特征表示进行处理，得到当前层的输出特征表示，且在当前层为第一层网络层的情况下，当前层的前一层网络层的输出特征表示为声学特征表示。需要说明的是，在当前层为最后一层网络层的情况下，利用当前层对融合特征表示进行处理，可以得到待识别语音的识别文本。上述方式，在当前层满足预设条件的情况下，将当前层的第一层网络层的输出特征表示与语种特征表示进行融合，的融合特征表示，并利用当前层对融合特征表示进行处理，能够有利于通过融合操作使语种特征表示指引识别网络进行语音识别，有利于提高语音识别的准确性。

在一个具体的实施场景中，预设条件具体可以包括当前层属于若干网络层中预先指定的至少一个网络层。例如，以识别网络包括顺序连接的6个网络层为例，预先指定的至少一个网络层为识别网络的第1层网络层和第2层网络层；或者，预先指定的至少一个网络层也可以为识别网络的第3层网络层和第4层网络层；或者，预先指定的至少一个网络层也可以为识别网络的第1层网络层和第6层网络层；或者，预先指定的至少一个网络层也可以为识别网络的第1层网络层至第6层网络层，在此不做限定。

在另一个具体的实数场景中，识别网络具体可以包括顺序连接的若干编码层和顺序连接的若干解码层。如图2所示，识别网络采用encoder-decoder(即编码器-解码器)的网络架构，编码器可以包括顺序连接的若干编码层，解码器可以包括顺序连接的若干解码层，则预先指定的至少一个网络层也可以为编码层，或者预先指定的至少一个网络层也可以是解码层，或者预先指定的至少一个网络层可以包括编码层和解码层，在此不做限定。

在又一个具体的实施场景中，为了降低融合操作的复杂度，可以将当前层的第一层网络层的输出特征表示与语种特征表示进行拼接，从而得到融合特征表示。以当前层为第一层网络层且待识别语音的声学特征表示包括N个子音频的声学特征表示为例，在当前层满足预设条件的情况下，可以将语种特征表示分别和N个子音频的声学特征表示进行拼接，得到N个子音频对应的融合特征表示，再利用当前层对N个子音频对应的融合特征表示进行处理，得到当前层的输出特征表示，即经当前层处理得到的N个子音频对应的输出特征表示。其他情况可以以此类推，在此不再一一举例。

在又一个具体的实施场景中，在当前层不满足预设条件的情况下，可以将当前层的前一层网络层的输出特征表示输入当前层进行处理，得到当前层的输出特征表示。仍以当前层为第一层网络层且待识别语音的声学特征表示包括N个子音频的声学特征表示为例，在当前层不满足预设条件的情况下，可以将N个子音频的声学特征表示输入当前层进行处理，得到当前层的输出特征表示，即经当前层处理得到的N个子音频对应的输出特征表示。其他情况可以以此类推，在此不再一一举例。

请参阅图3，图3是预训练识别网络一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S31：获取预设语种上一次预训练得到的第一特征表示。

本公开实施例中，预设语种的样本语音标注有样本文本。以夹杂普通话和粤语、吴语的使用场景为例，可以预先采集以普通话发音的样本语音、以粤语发音的样本语音以及以吴语发音的样本语音，并对样本语音标注上其所对应的样本文本，如可以对以普通话发音的样本语音“今天天气很好”标注其对应的样本文本“今天天气很好”。其他情况可以以此类推，在此不再一一举例。

需要说明的是，如前所述公开实施例所述，若干预设语种的第一特征表示是利用若干预设语种的样本语音对识别网络预训练至收敛得到的，识别网络一般经过若干次(如，100次、150次等)预训练可以收敛。特别地，在本次预训练为首次预训练时，上一次预训练得到的第一特征表示可以是随机初始化得到的。仍以夹杂普通话和粤语、吴语的使用场景为例，可以随机初始化普通话的第一特征表示，并随机初始化粤语的第一特征表示以及随机初始化吴语的第一特征表示。其他情况可以以此类推，在此不再一一举例。此外，第一特征表示的维度可以根据实际情况进行设置，例如可以根据预设语种的种数进行设置，预设语种的种数越多，第一特征表示的维度可以越高，反之，预设语种的种数越少，第一特征表示的维度可以越低。

在一个实施场景中，为了提高预训练效率，每一次预训练可以获取若干预设语种上一次预训练得到的第一特征表示。仍以夹杂普通话和粤语、吴语的使用场景为例，每一次预训练可以获取普通话、粤语和吴语在上一次预训练得到的第一特征表示，并在本次预训练，利用普通话的样本语音和普通话在上一次预训练得到的第一特征表示，以及粤语的样本语音和粤语在上一次预训练得到的第一特征表示，以及吴语的样本语音和吴语在上一次预训练得到的第一特征表示上述三者共同参与本次预训练，以获取在本次预训练得到的普通话的第一特征表示、粤语的第一特征表示以及吴语的第一特征表示。其他情况可以以此类推，在此不再一一举例。

步骤S32：将上一次预训练得到的第一特征表示和样本语音的样本声学特征表示输入识别网络，得到样本语音的第一预测文本。

在一个实施场景中，请结合参阅图4，图4是预训练识别网络一实施例的框架示意图。如前述公开实施例所述，识别网络可以包括顺序连接的若干网络层，则可以分别将若干网络层作为当前层，在当前层满足预设条件的情况下，可以将当前层的前一层网络层的样本输出特征表示与样本语音的样本语种特征表示进行融合，得到样本融合特征表示，并利用当前层对样本融合特征表示进行处理，得到当前层的样本输出特征表示，且在当前层为第一层网络层的情况下，当前层的第一层网络层的样本输出特征表示为样本语音的样本声学特征表示。此外，在当前层为最后一层网络层的情况下，利用当前层对样本融合特征表示进行处理，可以得到样本语音的第一预测文本。具体识别过程可以参阅前述公开实施例中相关描述，在此不再赘述。

需要说明的是，样本语音的样本语种特征表示具体可以为样本语音在上一次预训练得到的第一特征表示。仍以夹杂普通话和粤语、吴语的使用场景为例，以普通话发音的样本语音的样本语种特征表示具体可以为上一次预训练得到的普通话的第一特征表示，以粤语发音的样本语音的样本语种特征表示具体可以为上一次预训练得到的粤语的第一特征表示，以及以吴语发音的样本语音的样本语种特征表示具体可以为上一次预训练得到的吴语的第一特征表示。其他情况可以以此类推，在此不再一一举例。

步骤S33：基于样本文本和第一预测文本之间的差异，优化识别网络的网络参数，并优化上一次预训练得到的第一特征表示，以获取本次预训练得到的第一特征表示。

在一个实施场景中，请继续结合参阅图4，经识别网络处理可以得到各个位置处预设词典中每一文字的预测概率值，从而可以分别将各个位置处最大预测概率值对应的文字，作为该位置的预测文字，进而可以将各个位置处预测文字的组合，作为样本语音的第一预测文本。在此基础上，可以基于样本文本在各个位置处的文字分别对应的预测概率值，得到第一识别损失值，并基于第一识别损失值，优化识别网络的网络参数，以及优化上一次预训练得到的第一特征表示。

在一个实施场景中，在样本文本和第一预测文本之间的差异足够小的情况下，可以视为识别网络已经预训练至收敛，此时可以认为第一特征表示已经充分学习到语种相关信息。在此基础上，可以将不同语种的第一特征表示独立提取出来，并且不再改变。例如，可以将不同语种的第一特征表示独立提取作为记忆(Memory)模块，后续需要使用时，直接从记忆模块提取相应语种的第一特征表示即可。此外，如前所述，可以基于样本文本在各个位置处的文字分别对应的预测概率值，得到第一识别损失值，则在第一识别损失值低于预设阈值的情况下，可以认为识别网络已经预训练至收敛。预设阈值可以根据实际情况进行设置，如在对识别准确性要求较高的情况下，预设阈值可以设置地稍小一些，而在对识别准确性要求相对宽松的情况下，预设阈值可以设置地稍大一些，在此不做限定。

上述方案，通过获取预设语种上一次预训练得到的第一特征表示，且预设语种的样本语音标注有样本文本，并预设语种的样本语音标注有样本文本，从而基于样本文本和第一预测文本之间的差异，优化识别网络的网络参数，并优化上一次预训练得到的第一特征表示，以获取本次预训练得到的第一特征表示，能够通过预训练识别网络预先准确建模不同语种的第一特征表示，有利于提高后续训练语音识别模型的效率。

请参阅图5，图5是整体训练语音识别模型一实施例的流程示意图。如前述公开实施例所述，语音识别模型还可以包括分类网络，且相关度是利用分类网络得到的，则在识别网络预训练至收敛之后，可以利用若干预设语种的样本语音对语音识别模型进行整体训练。具体而言，整体训练的步骤可以包括：

步骤S51：将样本语音的样本声学特征表示输入分类网络，得到样本语音与若干预设语种之间的样本相关度。

在一个实施场景中，样本语音的样本声学特征表示的具体提取过程，可以参阅前述公开实施例中关于声学特征表示的具体描述，在此不再赘述。

在一个实施场景中，可以将样本语音的样本声学特征表示输入分类网络，以进行语种特征提取，得到样本语音的样本第二特征表示，基于此，可以利用样本第二特征表示和若干预设语种的第一特征表示，得到样本语音与若干预设语种之间的样本相关度。具体可以参阅前述公开实施例中关于相关度的计算过程，在此不在赘述。

步骤S52：基于样本语音与若干预设语种之间的样本相关度，融合若干预设语种的第一特征表示，得到样本语音的样本语种特征表示。

在一个实施场景中，可以利用样本语音分别与若干预设语种之间的样本相关度，对若干预设语种的第一特征表示进行加权处理，得到样本语音的样本语种特征表示。具体可以参阅前述公开实施例中关于语种特征表示的计算过程，在此不再赘述。

在一个实施场景中，请结合参阅图6，图6是本申请整体训练语音识别模型一实施例的框架示意图。如图6所示，不同底纹填充的矩形表示不同语种的第一特征表示，不同语种的第一特征表示经融合，可以得到以白色底纹填充的矩形所示的样本语种特征表示。

步骤S53：将样本声学特征表示和样本语种特征表示输入识别网络，得到样本语音的第二预测文本。

在一个实施场景中，如前述公开实施例所述，识别网络可以包括顺序连接的若干网络层，则可以分别将若干网络层作为当前层，在当前层满足预设条件的情况下，可以将当前层的前一层网络层的样本输出特征表示与样本语种特征表示进行融合，得到样本融合特征表示，并利用当前层对样本融合特征表示进行处理，得到当前层的样本输出特征表示，且在当前层为第一层网络层的情况下，当前层的前一层网络层的样本输出特征表示为样本声学特征表示。此外，在当前层为最后一层网络层的情况下，利用当前层对样本融合特征表示进行处理，可以得到样本语音的第二预测文本。具体过程可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S54：基于样本语音标注的样本文本和第二预测文本之间的差异，以及样本语音标注的预设语种和样本相关度，优化语音识别模型的网络参数。

在一个实施场景中，请继续参阅图6，经识别网络处理可以得到各个位置处预设词典中每一个文字的预测概率值，从而可以分别将各个位置处最大预测概率值对应的文字，作为该位置的预测文字，进而可以将各个位置处预测文字的组合，作为样本语音的第二预测文本。在此基础上，可以基于样本文本在各个位置处的文字分别对应的预测概率值，得到第二识别损失值。进一步地，可以通过交叉熵损失函数计算样本语音所标注的预设语种和样本相关度，得到分类损失值，从而可以基于第二识别损失值和分类损失值，优化语音识别模型的网络参数。

上述方案，通过将样本语音的样本声学特征表示输入分类网络，得到样本语音与若干预设语种之间的样本相关度，并基于样本语音与若干预设语种之间的样本相关度，融合若干预设语种的第一特征表示，得到样本语音的样本语种特征表示，基于此将样本声学特征表示和样本语种特征表示输入识别网络，得到样本语音的第二预测文本，从而基于样本语音标注的样本文本和第二预测文本之间的差异，以及样本语音标注的预设语种和样本相关度，优化语音识别模型的网络参数，故此能够联合分类损失和识别损失共同训练语音识别模型，有利于通过在语种分类任务上的损失对样本相关度进行控制，提升语音识别模型训练的稳定性。

请参阅图7，图7是本申请电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72，存储器71中存储有程序指令，处理器72用于执行程序指令以实现上述任一语音识别方法实施例中的步骤。具体地，电子设备70可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器72用于控制其自身以及存储器71以实现上述任一语音识别方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。

请参阅图8，图8是本申请语音识别装置80一实施例的框架示意图。语音识别装置80包括：特征提取模块81、特征融合模块82和文本获取模块83，特征提取模块81用于提取待识别语音的声学特征表示；特征融合模块82用于利用待识别语音分别与若干预设语种之间的相关度，融合若干预设语种的第一特征表示，得到待识别语音的语种特征表示；文本获取模块83用于基于声学特征表示和语种特征表示进行识别，得到待识别语音的识别文本。

在一些公开实施例中，特征融合模块82具体用于利用待识别语音分别与若干预设语种之间的相关度，对若干预设语种的第一特征表示进行加权处理，得到语种特征表示。

因此，通过利用待识别语音分别与若干预设语种之间的相关度，对若干预设语种的第一特征表示进行加权处理，得到待识别语音的语种特征表示，能够有利于降低融合若干预设语种的第一特征表示的复杂度。

在一些公开实施例中，语音识别装置80还包括语种提取模块，用于对声学特征表示进行语种特征提取，得到第二特征表示；语音识别装置80还包括相关计算模块，用于利用第二特征表示和若干预设语种的第一特征表示，得到待识别语音分别与若干预设语种之间的相关度。

因此，通过对待识别语音的声学特征表示进行语种特征提取，得到第二特征表示，基于此，利用第二特征表示和若干预设语种的第一特征表示，得到待识别语音分别与若干预设语种之间的相关度，能够定量计算得到相关度，从而有利于提高相关度的准确性。

在一些公开实施例中，识别文本是利用语音识别模型的识别网络识别得到的，识别网络包括顺序连接的若干网络层；文本获取模块83包括当前层确定子模块，用于分别将若干网络层作为当前层；文本获取模块83包括当前层处理子模块，用于在当前层满足预设条件的情况下，将当前层的前一层网络层的输出特征表示与语种特征表示进行融合，得到融合特征表示，并利用当前层对融合特征表示进行处理，得到当前层的输出特征表示。

因此，在当前层满足预设条件的情况下，将当前层的第一层网络层的输出特征表示与语种特征表示进行融合，的融合特征表示，并利用当前层对融合特征表示进行处理，能够有利于通过融合操作使语种特征表示指引识别网络进行语音识别，有利于提高语音识别的准确性。

在一些公开实施例中，识别网络包括顺序连接的若干编码层和顺序连接的若干解码层；和/或，预设条件包括：当前层属于若干网络层中预先指定的至少一个网络层。

因此，将识别网络设置为包括顺序连接的若干编码层和顺序连接的若干解码层，能够有利于提高识别准确性；而将预设条件设置为包括：当前层属于若干网络层中预先指定的至少一个网络层，能够在预先指定的网络层融合语种特征表示，有利于提高语音识别模型的扩展性。

在一些公开实施例中，识别文本是利用语音识别模型的识别网络识别得到的，且若干预设语种的第一特征表示是利用若干预设语种的样本语音对识别网络预训练至收敛得到的。

因此，通过预训练语音识别模型的识别网络至收敛，得到若干预设语种的第一特征表示，能够预先对若干预设语种统一建模，有利于降低后续语音识别的复杂度。

在一些公开实施例中，第一特征表示是经过若干次预训练得到的；语音识别装置80还包括特征获取模块，用于获取预设语种上一次预训练得到的第一特征表示；其中，预设语种的样本语音标注有样本文本；语音识别装置80还包括文本预测模块，用于将上一次预训练得到的第一特征表示和样本语音的样本声学特征表示输入识别网络，得到样本语音的第一预测文本；语音识别装置80还包括网络优化模块，用于基于样本文本和第一预测文本之间的差异，优化识别网络的网络参数，并优化上一次预训练得到的第一特征表示，以获取本次预训练得到的第一特征表示。

因此，通过获取预设语种上一次预训练得到的第一特征表示，且预设语种的样本语音标注有样本文本，并预设语种的样本语音标注有样本文本，从而基于样本文本和第一预测文本之间的差异，优化识别网络的网络参数，并优化上一次预训练得到的第一特征表示，以获取本次预训练得到的第一特征表示，能够通过预训练识别网络预先准确建模不同语种的第一特征表示，有利于提高后续训练语音识别模型的效率。

在一些公开实施例中，语音识别模型还包括分类网络，相关度是利用分类网络得到的，且语音识别模型是在识别网络预训练至收敛之后，利用若干预设语种的样本语音进行整体训练得到的。

因此，语音识别模型还包括分类网络，相关度是利用分类网络得到的，而语音识别模型是在识别网络预训练至收敛之后，利用若干预设语种的样本语音进行整体训练得到的，故在识别网络预训练收敛之后，再整体训练语义识别模型能够有助于提高训练效率。

在一些公开实施例中，语音识别装置80还包括样本分类模块，用于将样本语音的样本声学特征表示输入分类网络，得到样本语音与若干预设语种之间的样本相关度；语音识别装置80还包括样本融合模块，用于基于样本语音与若干预设语种之间的样本相关度，融合若干预设语种的第一特征表示，得到样本语音的样本语种特征表示；语音识别装置80还包括样本预测模块，用于将样本声学特征表示和样本语种特征表示输入识别网络，得到样本语音的第二预测文本；语音识别装置80还包括整体优化模块，用于基于样本语音标注的样本文本和第二预测文本之间的差异，以及样本语音标注的预设语种和样本相关度，优化语音识别模型的网络参数。

因此，通过将样本语音的样本声学特征表示输入分类网络，得到样本语音与若干预设语种之间的样本相关度，并基于样本语音与若干预设语种之间的样本相关度，融合若干预设语种的第一特征表示，得到样本语音的样本语种特征表示，基于此将样本声学特征表示和样本语种特征表示输入识别网络，得到样本语音的第二预测文本，从而基于样本语音标注的样本文本和第二预测文本之间的差异，以及样本语音标注的预设语种和样本相关度，优化语音识别模型的网络参数，故此能够联合分类损失和识别损失共同训练语音识别模型，有利于通过在语种分类任务上的损失对样本相关度进行控制，提升语音识别模型训练的稳定性。

请参阅图9，图9是本申请存储装置90一实施例的框架示意图。存储装置90存储有能够被处理器运行的程序指令91，程序指令91用于实现上述任一语音识别方法实施例中的步骤。

上述方案，一方面能够在语音识别过程中，免于手动切换，另一方面由于待识别语音的语种特征表示是利用待识别语音分别与若干预设语种之间的相关度对若干预设语种的第一特征表示融合得到的，即能够有利于多参考与待识别语音相关度较高的预设语种并少参考与待识别语音相关度较低的预设语种，从而能够有利于减少仅参考某一特定语种而带来的识别误差，提高识别效果。故此，能够在免于手动切换的前提下，提高语音识别效果。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，包括：

提取待识别语音的声学特征表示；

利用所述待识别语音分别与若干预设语种之间的相关度，融合所述若干预设语种的第一特征表示，得到所述待识别语音的语种特征表示；

基于所述声学特征表示和所述语种特征表示进行识别，得到所述待识别语音的识别文本。

2.根据权利要求1所述的方法，其特征在于，所述利用所述待识别语音分别与若干预设语种之间的相关度，融合所述若干预设语种的第一特征表示，得到所述待识别语音的语种特征表示，包括：

利用所述待识别语音分别与所述若干预设语种之间的相关度，对所述若干预设语种的第一特征表示进行加权处理，得到所述语种特征表示。

3.根据权利要求1或2所述的方法，其特征在于，在所述利用所述待识别语音分别与若干预设语种之间的相关度，融合所述若干预设语种的第一特征表示，得到所述待识别语音的语种特征表示之前，所述方法还包括：

对所述声学特征表示进行语种特征提取，得到第二特征表示；

利用所述第二特征表示和所述若干预设语种的第一特征表示，得到所述待识别语音分别与所述若干预设语种之间的相关度。

4.根据权利要求1所述的方法，其特征在于，所述识别文本是利用语音识别模型的识别网络识别得到的，所述识别网络包括顺序连接的若干网络层；所述基于所述声学特征表示和所述语种特征表示进行识别，得到所述待识别语音的识别文本，包括：

分别将所述若干网络层作为当前层；

在所述当前层满足预设条件的情况下，将所述当前层的前一层所述网络层的输出特征表示与所述语种特征表示进行融合，得到融合特征表示，并利用所述当前层对所述融合特征表示进行处理，得到所述当前层的输出特征表示。

5.根据权利要求4所述的方法，其特征在于，所述识别网络包括顺序连接的若干编码层和顺序连接的若干解码层；

和/或，所述预设条件包括：所述当前层属于所述若干网络层中预先指定的至少一个所述网络层。

6.根据权利要求1所述的方法，其特征在于，所述识别文本是利用语音识别模型的识别网络识别得到的，且所述若干预设语种的第一特征表示是利用所述若干预设语种的样本语音对所述识别网络预训练至收敛得到的。

7.根据权利要求6所述的方法，其特征在于，所述第一特征表示是经过若干次所述预训练得到的；所述预训练的步骤包括：

获取所述预设语种上一次所述预训练得到的第一特征表示；其中，所述预设语种的所述样本语音标注有样本文本；

将上一次所述预训练得到的第一特征表示和所述样本语音的样本声学特征表示输入所述识别网络，得到所述样本语音的第一预测文本；

基于所述样本文本和所述第一预测文本之间的差异，优化所述识别网络的网络参数，并优化所述上一次所述预训练得到的第一特征表示，以获取本次所述预训练得到的第一特征表示。

8.根据权利要求6所述的方法，其特征在于，所述语音识别模型还包括分类网络，所述相关度是利用所述分类网络得到的，且所述语音识别模型是在所述识别网络预训练至收敛之后，利用所述若干预设语种的样本语音进行整体训练得到的。

9.根据权利要求8所述的方法，其特征在于，所述整体训练的步骤包括：

将所述样本语音的样本声学特征表示输入所述分类网络，得到所述样本语音与所述若干预设语种之间的样本相关度；

基于所述样本语音与所述若干预设语种之间的样本相关度，融合所述若干预设语种的第一特征表示，得到所述样本语音的样本语种特征表示；

将所述样本声学特征表示和所述样本语种特征表示输入所述识别网络，得到所述样本语音的第二预测文本；

基于所述样本语音标注的样本文本和所述第二预测文本之间的差异，以及所述样本语音标注的预设语种和所述样本相关度，优化所述语音识别模型的网络参数。

10.一种语音识别装置，其特征在于，包括：

特征提取模块，用于提取待识别语音的声学特征表示；

特征融合模块，用于利用所述待识别语音分别与若干预设语种之间的相关度，融合所述若干预设语种的第一特征表示，得到所述待识别语音的语种特征表示；

文本获取模块，用于基于所述声学特征表示和所述语种特征表示进行识别，得到所述待识别语音的识别文本。

11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音识别方法。

12.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的语音识别方法。