CN114283786A

CN114283786A - 语音识别方法、装置及计算机可读存储介质

Info

Publication number: CN114283786A
Application number: CN202111669746.8A
Authority: CN
Inventors: 颜宋宋; 许丽; 尤祖寰; 熊世富
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-05

Abstract

本申请公开了一种语音识别方法、装置及计算机可读存储介质。其中，该方法包括：获取待识别语音信息；利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取，获得至少两个语音特征；其中，每个所述子编码网络根据相应语种的样本数据训练得到；利用融合网络将所述至少两个语音特征进行融合，得到融合语音特征；利用解码网络对所述融合语音特征进行解码，得到语音识别结果。通过上述方式，本申请能够提高语音识别的准确度。

Description

语音识别方法、装置及计算机可读存储介质

技术领域

本申请涉及语音识别领域，特别是涉及一种语音识别方法、装置及计算机可读存储介质。

背景技术

语音识别通过机器学习方法让机器能够自动的将语音转换成对应的文字，从而赋予了机器类似人听觉的功能，是人工智能的重要组成部分。

自十年前采用基于深度神经网络的混合建模以来，自动语音识别的准确性得到了显著提高。随着人工智能技术的不断突破和各种智能终端设备的日益普及，语音识别作为人机交互的重要环节，广泛应用于各种智能终端上，越来越多的用户习惯用语音输入。这一突破利用DNN取代了传统的高斯混合模型进行声学似然评价，同时仍然保留了声学模型、语言模型、词汇模型等所有组件作为混合ASR系统。

发明内容

本申请主要提供一种语音识别方法、装置及计算机可读存储介质，解决了现有技术中语音识别准确度低的问题。

为解决上述技术问题，本申请第一方面提供了语音识别方法，包括：获取待识别语音信息；利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取，获得至少两个语音特征；其中，每个所述子编码网络根据相应语种的样本数据训练得到；利用融合网络将所述至少两个语音特征进行融合，得到融合语音特征；利用解码网络对所述融合语音特征进行解码，得到语音识别结果。

为解决上述技术问题，本申请第二方面提供了语音识别装置，包括：获取模块，用于获取待识别语音信息；编码模块，用于利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取，获得至少两个语音特征；其中，每个所述子编码网络根据相应语种的样本数据训练得到；融合模块，用于利用融合网络将所述至少两个语音特征进行融合，得到融合语音特征；解码模块，用于利用解码网络对所述融合语音特征进行解码，得到语音识别结果。

为解决上述技术问题，本申请第三方面提供了语音识别装置，所述装置包括相互耦接的处理器和存储器；所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如上述第一方面提供的语音识别方法。

为解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，计算机可读存储介质存储有程序数据，所述程序数据被处理器执行时，实现上述第一方面提供的语音识别方法。

本申请的有益效果是：区别于现有技术的情况，本申请利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取，获得至少两个语音特征，其中，每个所述子编码网络根据相应语种的样本数据训练得到，再利用融合网络将所述至少两个语音特征进行融合，得到融合语音特征，最后利用解码网络对所述融合语音特征进行解码，得到语音识别结果，各个子编码网络之间互不影响，提取到的语音特征准确度更高，作用到最终解码，语音识别结果更准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请语音识别模型一实施例的结构示意框图；

图2是本申请语音识别模型的训练方法一实施例的流程示意框图；

图3是本申请预设语言识别模型一实施例的结构示意框图；

图4是本申请语音识别方法一实施例的流程示意框图；

图5是本申请步骤S12一实施例的流程示意框图；

图6是本申请步骤S13一实施例的流程示意框图；

图7是本申请步骤S33一实施例的流程示意框图；

图8是本申请步骤S33另一实施例的流程示意框图；

图9是本申请语音识别装置一实施例的结构示意框图；

图10是本申请语音识别装置另一实施例的结构示意框图；

图11是本申请计算机可读存储介质一实施例的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解是，本文所描述的实施例可以与其他实施例结合。

传统的混合模型构建一个多语言ASR系统是困难的，因为每种语言通常都有自己特定语言的音素和单词清单。大多数混合多语言方案都集中于构建一个具有共享隐藏层的声学模型，而每种语言都有自己的词汇模型和语言模型。相比之下，通过简单地将所有语言的标记(如字符或子字)的联合集作为输出标记集，然后对所有数据训练端到端模型，就使得构建多语言端到端ASR系统非常容易。这种端到端模型是一种通用的ASR模型，只要在训练过程中使用了该语言，它就能够识别任何语言的语音。

然而，将所有语言汇集在一起来训练一个多语言模型是一把双刃剑。虽然它很简单，并且最大限度地实现了跨语言的共享，但它也在识别过程中造成了不同语言之间的混淆。同时在设计多语言端到端模型时，有其他因素需要考虑。当多语言模型覆盖大量语言时，来自这些语言的数据严重不平衡。这种不平衡的数据通常会导致模型在资源丰富的语言上表现良好，而在资源匮乏的语言上表现失败。为了解决这一问题，通常使用数据采样来平衡训练数据量。模型容量还应扩大，以识别大量的语言。综上，使用传统模型建模多语言识别模型十分不便，虽然端到端模型在多语言建模方面取得了显著的成功，还是存在识别过程中不同语言之间的混淆及数据比例差异造成效果差异。

本申请提供一种语音识别模型，具体请参照下文各实施例的语音识别模型和语音识别方法。

请参阅图1，图1是本申请语音识别模型一实施例的结构示意框图，本实施例的语音识别模型400包括输入层410、编码网络420、融合网络430以及解码网络440。其中，输入层410用于输入待识别语音信息，编码网络420用于获取待识别语音信息的语音特征，融合网络430用于对语音特征进行融合操作，解码网络440用于将融合操作后的特征进行解码，输出待识别语音信息的识别结果。

其中，编码网络420包括多个子编码网络，并且每个子编码网络是根据相应语种的样本数据训练得到的。本实施例的语音识别模型仅示意性给出第一子编码网络421和第二子编码网络422，实际还可以包括第三子编码网络、第四子编码网络等等，不对子编码网络数量进行限制。

请参阅图2，图2是本申请语音识别模型的训练方法一实施例的流程示意框图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。本实施例子编码网络通过以下步骤得到：

步骤S41：利用至少两种语种的样本数据分别对预设的语言识别模型进行训练。

用于训练各子编码网络的各种语种的样本数据，可以是不同国家的语种数据、不同民族的语种数据、还可以是同一国家不同地区的方言语种，例如俄语、普通话、少数民族语言、粤语、吴语等，均可作为样本数据。

其中，请参阅图3，图3是本申请预设语言识别模型一实施例的结构示意框图。语言识别模型500包括输入层510、编码器520、解码器530，利用单个语种的样本数据对该语言识别模型500进行训练，输入层510输入样本语音数据，编码器520提取样本语音数据的样本语音特征，解码器530根据样本语音特征，预测出对应的语义信息并输出，根据预测的语义信息整编码器520的参数。

具体而言，本步骤利用至少两种语种的样本数据，训练至少两个预设的端到端语言识别模型500，每个语言识别模型500分别利用单个语种的样本数据进行训练。这样，得到的每个编码器520可以实现对单个语种的语音信息的高精度特征提取，降低不同语种之间的混淆。

步骤S42：分别从训练好的语言识别模型提取出编码器部分，以作为子编码网络。

训练多个语言识别模型500，从中提取出编码器520，将其作为上述编码网络420中的子编码网络。

其中，每个子编码网络的均对应一语种标签，该语种标签为用于训练相应子编码网络时使用样本数据的语种类型。例如，若上述第一子编码网络421是利用粤语训练的，则其对应的语种标签为粤语，第二子编码网络422是利用普通话训练的，则其对应的语种标签为普通话。

步骤S43：将子编码网络的输出层连接到融合网络的输入层。

本步骤将子编码网络的输出层连接到融合网络430的输入层，构成解耦语音识别模型，各个子编码网络之间相互独立。由于各个子编码网络由不同语种的样本数据训练得到的，均能够对单一语种的语音进行高精度特征提取。

由于不同语种语言数据的体量有所差异，例如粤语和普通话数据上就有明显差异，粤语数据较少，与普通话数据的比例约为1:20，在语言体量上造成了极大的不平衡，而根据各语种数据分别训练相应的子编码网络，来自各语种数据体量均衡与否，对语音信息的特征提取影响甚微，因此，可以不受限制地选取各语种的样本数据量，以使得各子编码网络对于相应语种的语音信息的特征提取都能有优异的表现，语音特征对于原语音信息的表达更准确。

其中，在子编码网络的参数固定的情况下，还可利用数据量满足一定均衡度的至少两种语种的样本数据训练融合网络430。

其中，数据量满足一定均衡度是指不同语种的样本数据两两之间的数据量差值小于或等于20％。为了提升对于不同语种的识别准确度，也可以控制样本数据两两之间的数据量差值更小，例如是10％、5％，甚至差值为0，样本数据量完全相当。

其中，用于训练融合网络430的样本数据包括子编码网络对应的语种标签的样本数据。

区别于现有技术，本实施例用各种语种的样本数据分别训练子编码网络，各语种可以使用该语种尽量多的样本数据，各子编码网络对于相应语种的语音信息识别准确度都有优异表现，可以不受数据均衡性的约束，降低了不同语言之间的混淆；同时单独训练单语言模型，再在平衡数据训练融合网络430，实现在数据不均衡的条件下均衡提升识别效果的作用。

请参阅图4，图4是本申请语音识别方法一实施例的流程示意框图。需注意的是，若有实质上相同的结果，本实施例并不以图4所示的流程顺序为限。本实施例包括以下步骤：

步骤S11：获取待识别语音信息。

待识别语音信息中可以是预先通过麦克风等声音摄取设备录制的，也可以是实时录制的，还可以是在存储设备的音频文件或包含音频信息的视频文件中截取的音频片段，对于音频文件而言，其格式可以是WAV、FLAC、MP3、AAC等，此处只作为举例说明，而不表示对语音信息内容、格式、获取途径等的限制。

步骤S12：利用编码网络中的至少两个子编码网络分别对语音信息进行特征提取，获得至少两个语音特征。

其中，语音特征为语音信息中的声学特征，例如可以提取待识别语音信息的MFCC(梅尔频率倒谱系数，Mel Frequency CepstrumCoefficient)、FBank、PLP(感知线性预测，Perceptual Linear Predictive)等特征向量，作为其语音特征表示。

至少两个子编码网络，可以是在编码网络中预先选定的部分子编码网络或全部子编码网络。例如，子编码网络的语种标签包括欧洲国家语言和中文普通话，在其部署装置上可设置语种选项，用户按照用语习惯选取其中的部分或全部语种类型，语种选定完毕，编码网络中与选定语种类型相对应的子编码网络启用，未被选定的则不启用，在语音识别过程中，未被选定的子编码网络分支不参与语音特征提取，无输出。

请参阅图5，图5是本申请步骤S12一实施例的流程示意框图。需注意的是，若有实质上相同的结果，本实施例并不以图5所示的流程顺序为限。本实施例利用每个子编码网络分别执行以下步骤：

步骤S21：获取语音信息的时序特征。

具体而言，子编码网络可包括长短期记忆网络，本实施例利用长短期记忆网络提取语音信息的时序特征，利用单双向长短期记忆网络提取语音信息的单双向特征，最终得到语音特征。

在其中一实施例中，子编码网络包括第一长短期记忆网络、第二长短期记忆网络以及第三长短期记忆网络，本实施例获取语音信息的时序特征，具体是将语音信息输入第一长短期记忆网络，获取到第一时序特征，将第一时序特征输入第二长短期记忆网络，获取到第二时序特征，将第二时序特征输入第三长短期记忆网络，获取到最终的时序特征。

也可使用其他可对语音信息进行时序特征提取的网络进行步骤S21中时序特征的获取，在此不限定。

步骤S22：根据时序特征进行单双向特征提取，以得到语音特征。

其中，子编码网络还可包括单双向长短期记忆网络(UB-LSTM，Unidirectionaland Bidirectional LSTM)，本步骤将时序特征输入单双向长短期记忆网络，实现对待识别语音信息的单双向特征的提取，输出语音特征。

本步骤利用至少两个子编码网络对语音信息进行特征提取，其中每个子编码网络均输出一语音特征，得到至少两个语音特征。

步骤S13：利用融合网络将至少两个语音特征进行融合，得到融合语音特征。

其中，融合操作是对至少两个语音特征进行注意力增强，得到的融合语音特征更加符合待识别语音信息的语种特点。

请参阅图6，图6是本申请步骤S13一实施例的流程示意框图。需注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。本实施例包括以下步骤：

步骤S31：对至少两个语音特征进行第一融合操作，得到第一融合特征。

其中，第一融合操作是利用第一全连接层网络对至少两个语音特征进行降维以及拼接操作。具体而言，上述语音识别模型400还可包括第一全连接层网络DNN，用于对至少两个语音特征进行降维操作，再利用拼接算法将降维得到的多个特征拼接起来。

步骤S32：基于第一融合特征对语音信息进行语种分类，得到语种特征。

其中，上述语音识别模型400还可包括LID(语种分类器，LanguageIdentification)，本步骤利用语种分类器进行语种信息提取，得到语种特征。

具体而言，语种分类器包括输入层、隐藏层、输出层，将第一融合特征由语种分类器的输入层输入，隐藏层对第一融合特征进行特征提取，得到语种特征。

步骤S33：对语音特征和语种特征进行第二融合操作，得到融合语音特征。

本步骤将各子编码网络输出的语音特征和语种特征进行融合。请参阅图7，图7是本申请步骤S33一实施例的流程示意框图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。本实施例包括以下步骤：

步骤S331：将各语音特征分别与语种特征相乘，得到对应的加权特征。

本步骤将各子编码网络输出的语音特征分别与语种特征相乘，分别得到各语音特征对应的加权特征。

具体而言，本步骤在将各语音特征进行降维后，分别与语种特征相乘。

上述步骤将语种特征与各语音特征相乘，实现单语种的注意力增强，得到的融合特征更加贴合待识别语音信息的实际语种类型。

步骤S332：将加权特征进行求和，并利用第二全连接层网络进行维度扩展，得到融合语音特征。

本步骤将上一步得到的所有加权特征加起来，并进行维度扩展，以得到的融合语音特征。

请参阅图8，图8是本申请步骤S33另一实施例的流程示意框图。需注意的是，若有实质上相同的结果，本实施例并不以图8所示的流程顺序为限。本实施例包括以下步骤：

步骤S333：根据语种特征，确定待识别语音信息为各子编码网络对应语种的概率。

本步骤根据语种特征进行语种类型预测，并根据参与语音特征编码的子编码网络语种标签，确定待识别语音信息的语种类型为各语种标签对应语种类型的概率。

步骤S334：根据概率对各子编码网络输出的语音特征进行加权融合操作，以得到融合语音特征。

具体而言，根据概率对语音特征进行加权融合，即，以上一步骤得到的概率值为权值，分别对相应的子编码网络输出的语音特征进行加权求和，得到融合语音特征。

例如，输入一段语音信息，利用子编码网络1、子编码网络2以及子编码网络3提取该语音信息的语音特征，得到特征a、特征b以及特征c，其中，子编码网络1对应的语种标签为语种1，子编码网络2对应的语种标签为语种2，子编码网络3对应的语种标签为语种3，上一步骤根据语种特征预测到该语音信息为语种1的概率为A、为语种2的概率为B，为语种3的概率为C，则得到的融合语音特征可表示为：a×A+b×B+c×C。

步骤S14：利用解码网络对融合语音特征进行解码，得到语音识别结果。

解码网络根据融合语音特征，得到语音识别结果。该语音识别结果可以通过文字形式显示在电子屏幕上，例如在进行语音转文字形式输入的时候，电子设备接收用户发出的语音信息，通过本申请上述方式将语音信息转化为文字，显示在电子设备的显示屏上；或者，也可以将语音识别结果发送到智能终端，以根据语音识别结果生成回复，例如在与人工智能虚拟客服对话时，用户发出语音信息，虚拟客服端进行语音识别，得到识别结果，并根据识别结果生成回复。

在其中一实施例中，解码网络可由MoChaAttention(Monotonic ChunkAttention)和长短期记忆(LSTM)网络堆叠而成。具体而言，在解码过程中，首先通过MoChaAttention，实现对融合语音特征中有效信息的注意与抽取，再通过一层LSTM增强时序关联，最终输出语音识别结果。其中，MoChaAttention机制一方面具有线性时间复杂度和实时解码的优势，有较高的解码效率，另一方面，MoChaAttention移动的是一个固定长度的窗口，窗口内部实现了软注意力，实现了局部信息注意强化作用，实现对融合语音特征的快速提纯解码功能，高效解码。

区别于现有技术，本申请编码网络中的子编码网络分别用相应语种的样本数据训练，各子编码网络对其语种标签对应的语音信息的特征提取准确度高，特征对于语音信息的表达效果好，进一步，融合网络对多个语音特征进行融合，并根据语种识别结果对各子编码网络输出的语音特征进行加权，实现单语种的注意力增强，语音特征的融合更具针对性，降低不同语种语言之间的混淆，提升识别准确度。

上述语音识别模型的可拓展性强。在需要加入新的语种识别功能时，只需要再单独利用新语种的样本数据训练一新的语言识别模型，将得到的编码器作为子编码网络，连入本申请上述编码网络420中，再利用各子编码器对应语种的均衡样本数据对融合网络430进行训练，调整融合网络430中的参数，即可完成模型的训练，更新后的语音识别模型具备新语种的语音识别功能。例如，原语音识别模型不具备四川话识别功能，即，不存在利用四川话样本数据训练得到的子编码网络，现需要添加四川话识别功能，则利用四川话样本数据训练一语言识别模型，提取该语言识别模型的编码器，连入编码网络420中，得到新的语音识别模型结构，再利用编码网络420中子编码网络对应语种的均衡样本数据训练融合网络430，得到更新后的语音识别模型，更新后的语音识别模型具备四川话识别功能。

在需要更新已具备的语种识别功能时，只需要用该语种的新样本数据重新一语言识别模型，提取其编码器，利用该编码器替换掉对应该语种的旧的子编码网络，即可提升该语种语音识别的效果，而不改变对其他语种的语音识别效果。例如，原语音识别模型的一子编码网络为2千小时的粤语样本数据训练得到，为了提升对粤语语音的识别准确度，使用5千小时的粤语样本数据训练一语言识别模型，提取其中的编码器，并将该编码器连入上述编码网络420中，去掉原用于粤语识别的子编码网络，即可得到更新的语音识别模型，更新的语音识别模型在粤语语音识别的准确度上有所提升，而对其他语种的语音识别性能不改变。

上述方式在更新语音识别模型时，编码网络420的更新只需利用新的样本数据训练新的子编码器即可，而无需对整个语音识别模型重新进行训练，易于更新。

请参阅图9，图9是本申请语音识别装置一实施例的结构示意框图。语音识别装置600包括获取模块610、编码模块620、融合模块630以及解码模块640。

其中，获取模块610用于获取待识别语音信息；编码模块620用于利用编码网络中的至少两个子编码网络分别对语音信息进行特征提取，获得至少两个语音特征，每个子编码网络根据相应语种的样本数据训练得到；融合模块630用于利用融合网络将至少两个语音特征进行融合，得到融合语音特征；解码模块640用于利用解码网络对融合语音特征进行解码，得到语音识别结果。

其中，编码模块620还用于利用每个子编码网络分别执行以下步骤：获取语音信息的时序特征，根据时序特征进行单双向特征提取，以得到语音特征。

其中，融合模块630还用于对至少两个语音特征进行第一融合操作，得到第一融合特征；基于第一融合特征对语音信息进行语种分类，得到语种特征；对语音特征和语种特征进行第二融合操作，得到融合语音特征。

其中，融合模块630还用于利用第一全连接层网络对至少两个语音特征进行降维以及拼接操作。

其中，融合模块630还用于根据语种特征，确定语音信息为各子编码网络对应语种的概率；根据概率对各子编码网络输出的语音特征进行加权融合操作，以得到融合语音特征。

其中，语音识别装置600还包括训练模块(图未示出)，训练模块用于利用至少两种语种的样本数据分别对预设的语言识别模型进行训练；分别从训练好的语言识别模型提取出编码器部分，以作为子编码网络；将子编码网络的输出层连接到融合网络的输入层。

其中，训练模块还用于在子编码网络的参数固定的情况下，利用数据量满足一定均衡度的至少两种语种的样本数据训练融合网络和编码网络。

关于语音识别装置600各功能模块所实现的功能和过程等相关的描述请参照上述本申请语音识别方法实施例的对应各步骤的描述，在此不再赘述。

请参阅图10，图10是本申请语音识别装置另一实施例的结构示意框图。该语音识别装置200包括相互耦接的处理器210和存储器220，存储器220中存储有计算机程序，处理器210用于执行计算机程序以实现上述各实施例所述的语音识别方法。

关于处理执行的各步骤的描述请参照上述本申请语音识别方法实施例的各步骤的描述，在此不再赘述。

存储器220可用于存储程序数据以及模块，处理器210通过运行存储在存储器220的程序数据以及模块，从而执行各种功能应用以及数据处理。存储器220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如语音特征提取功能、特征融合功能、特征解码功能等)等；存储数据区可存储根据语音识别装置200的使用所创建的数据(比如语音信息数据、网络参数、特征向量等)等。此外，存储器220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器220还可以包括存储器控制器，以提供处理器210对存储器220的访问。

在本申请的各实施例中，所揭露的方法、装置，可以通过其它的方式实现。例如，以上所描述的装置的各实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中。

参阅图11，图11为本申请计算机可读存储介质一实施例的结构示意框图，计算机可读存储介质300存储有程序数据310，程序数据310被执行时实现如上述语音识别方法各实施例的步骤。

计算机可读存储介质300可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音信息；

利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取，获得至少两个语音特征；其中，每个所述子编码网络根据相应语种的样本数据训练得到；

利用融合网络将所述至少两个语音特征进行融合，得到融合语音特征；

利用解码网络对所述融合语音特征进行解码，得到语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取，包括：

利用每个所述子编码网络分别执行以下步骤：

获取所述语音信息的时序特征；

根据所述时序特征进行单双向特征提取，以得到所述语音特征。

3.根据权利要求1所述的方法，其特征在于，所述利用融合网络将所述至少两个语音特征进行融合，包括：

对所述至少两个语音特征进行第一融合操作，得到第一融合特征；

基于所述第一融合特征对所述语音信息进行语种分类，得到语种特征；

对所述语音特征和所述语种特征进行第二融合操作，得到所述融合语音特征。

4.根据权利要求3所述的方法，其特征在于，所述对所述至少两个语音特征进行第一融合操作，包括：

利用第一全连接层网络对所述至少两个语音特征进行降维以及拼接操作。

5.根据权利要求3所述的方法，其特征在于，所述对所述语音特征和所述语种特征进行第二融合操作，包括：

将各所述语音特征分别与所述语种特征相乘，得到对应的加权特征；

将所述加权特征进行求和，并利用第二全连接层网络进行维度扩展，得到所述融合语音特征。

6.根据权利要求3所述的方法，其特征在于，所述对所述语音特征和所述语种特征进行第二融合操作，包括：

根据所述语种特征，确定所述语音信息为各所述子编码网络对应语种的概率；

根据所述概率对各所述子编码网络输出的语音特征进行加权融合操作，以得到所述融合语音特征。

7.根据权利要求1所述的方法，其特征在于，所述利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取之前，所述方法还包括：

利用至少两种语种的样本数据分别对预设的语言识别模型进行训练；

分别从训练好的所述语言识别模型提取出编码器部分，以作为所述子编码网络；

将所述子编码网络的输出层连接到所述融合网络的输入层。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在所述子编码网络的参数固定的情况下，利用数据量满足一定均衡度的至少两种语种的样本数据训练所述融合网络和所述编码网络；其中，所述数据量满足一定均衡度是指不同语种的所述样本数据两两之间的数据量差值小于或等于20％。

9.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别语音信息；

编码模块，用于利用编码网络中的至少两个子编码网络分别对所述语音信息进行特征提取，获得至少两个语音特征；其中，每个所述子编码网络根据相应语种的样本数据训练得到；

融合模块，用于利用融合网络将所述至少两个语音特征进行融合，得到融合语音特征；

解码模块，用于利用解码网络对所述融合语音特征进行解码，得到语音识别结果。

10.一种语音识别装置，其特征在于，所述装置包括相互耦接的处理器和存储器；所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序数据，所述程序数据被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。