CN110827805B

CN110827805B - 语音识别模型训练方法、语音识别方法和装置

Info

Publication number: CN110827805B
Application number: CN201911248839.6A
Authority: CN
Inventors: 朱森; 钱彦旻
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2022-11-29
Anticipated expiration: 2039-12-09
Also published as: CN110827805A

Abstract

本发明公开了一种语音识别模型训练方法、语音识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取多种语言中各个语言的原始语音数据，以及根据各个语言的原始语音数据的置信度，对各个语言的原始语音数据进行筛选，得到训练数据集；提取训练数据集中包括的语音数据的声学特征；基于训练数据集的声学特征以及对抗训练算法，得到语音识别模型；其中，语音识别模型用于多种语言混合的语音识别。该方法以置信度为参考依据筛选训练数据集，较容易使得各种语言的训练数据量的均衡，增加模型的鲁棒性，减少标注成本，加快声学和语言模型构件速度。

Description

语音识别模型训练方法、语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别模型训练方法、语音识别方法和装置。

背景技术

在日常交流中，人们经常会在使用一种语言进行表达时，无意识地夹杂另一种或者另几种语言的表达方式或表达用语，例如在用普通话进行交流时夹杂一些地方方言(如四川话)的用词，这种现象会给语音识别系统带来一定的困难和挑战。

目前，单一语言识别系统的构建方法并不适用于多种语言的混合识别，一般像四川话等方言的数据获取途径比普通话要少很多，训练数据量的不均衡会导致识别系统精度较低；而且不同的语言在声学上差异性较大，难以使用某一种语言的建模单元对多种语言进行建模。

为了解决四川话等方言的训练数据量比较少的情况，通常会通过人工采集数据或者网上爬取音视频数据的方法获取训练数据量，然后去做人工标注，通过该方法获取训练数据时间周期比较长，模型构架慢，且花费代价比较大。

针对不同语言的声学差异性，现有技术中采用的方法有两种：1、在声学模型中将普通话音子集与四川话的音子集融合，训练数据在中文数据的基础上加入四川话的语音和语言文本数据，在字典中加入多种语言对应文本的发音2、识别时将同一个音频同时送入两种语言的识别引擎进行识别，最后根据置信度的策略选取最终的识别结果；这样做虽然可以达到多语言同时识别的目的，但是需要在服务器上同时部署两套识别资源，且并发等工程代价比较高。

发明内容

有鉴于此，本发明实施例提供一种语音识别模型训练方法、语音识别方法和装置，能够增加模型的鲁棒性，减少标注成本，加快声学和语言模型构件速度。

为实现上述目的，根据本发明实施例的一个方面，提供了一种语音识别模型训练方法。

本发明实施例的语音识别模型训练方法包括：获取多种语言中各个语言的原始语音数据，以及根据各个语言的原始语音数据的置信度，对各个语言的原始语音数据进行筛选，得到训练数据集；

提取训练数据集中包括的语音数据的声学特征；

基于训练数据集的声学特征以及对抗训练算法，得到语音识别模型；其中，语音识别模型用于多种语言混合的语音识别。

可选地，根据各个语言的原始语音数据的置信度，对各个语言的原始语音数据进行筛选，得到训练数据集的步骤包括：

将各个语言的原始语音数据转写为文本数据；

计算文本数据中各句子的置信度；

将置信度在预设的置信度阈值区间内的句子加入训练数据集中。

可选地，预设的置信度阈值区间为0.9-1。

可选地，提取训练数据集的声学特征的步骤包括：

通过移动窗对训练数据集中的语音数据进行分帧；其中，移动窗的帧长为20-40ms，帧移为10-20ms；每一帧提取声学特征维度为40维。

可选地，基于训练数据集的声学特征以及对抗训练算法，得到语音识别模型的步骤包括：

基于训练数据集的声学特征得到音素序列，音素序列为多种语言的发音集合；

将训练数据集的声学特征以及音素序列输入对抗训练算法的网络结构，得到语音识别模型，其中，对抗训练算法的网络结构的Domain output2的输出层加入梯度反向层。

可选地，声学特征至少包括以下一种：为滤波器组特征、梅尔频率倒谱特征、感知线性预测特征。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种语音识别的方法。

本发明实施例的语音识别的方法包括：采集待识别语音数据；通过上述任一项所述的语音识别模型对所述待识别语音数据进行识别，得到识别结果；将所述识别结果进行输出。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种用于多种语言混合的语音识别的装置。

本发明实施例的语音识别模型训练装置包括：

数据筛选模块：用于获取多种语言中各个语言的原始语音数据，以及根据各个语言的原始语音数据的置信度，对各个语言的原始语音数据进行筛选，得到训练数据集；

特征提取模块，用于提取训练数据集中包括的语音数据的声学特征；

对抗训练模块：用于基于训练数据集和声学特征对抗训练声学模型结构。

可选地，数据筛选模块包括：

数据获取模块，用于获取多种语言中各个语言的原始语音数据

数据转写模块，用于将各个语言的原始语音数据转写为文本数据；

数据计算模块，用于计算文本数据中各句子的置信度，并将置信度在预设的置信度阈值区间的句子加入训练数据集中。

可选地，特征提取模块包括：分帧模块，用于通过移动窗对训练数据集中的语音数据进行分帧；提取模块，用于提取各帧语音数据的声学特征。

可选地，对抗训练模块包括：序列模块，用于基于训练数据集的声学特征得到音素序列，音素序列为多种语言的发音集合；训练模块，用于将训练数据集的声学特征以及音素序列输入对抗训练算法的网络结构，得到语音识别模型。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种语音识别的装置。

本发明实施例的语音识别装置包括：

采集模块，用于采集待识别语音数据；

识别装置，用于通过上述任一项所述的语音识别模型对所述待识别语音数据进行识别，得到识别结果；

输出模块，用于将所述识别结果进行输出。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备。

本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项的语音识别模型训练方法和/或语音识别方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述任一项的语音识别模型训练方法和/或语音识别方法。

上述发明中的一个实施例具有如下优点或有益效果：以置信度为参考依据筛选训练数据集，较容易使得各种语言的训练数据量的均衡，增加模型的鲁棒性，减少标注成本，加快声学和语言模型构件速度。通过将多种语言的音素集合并为一个音素集，以及对抗训练算法，得到一个综合的语音识别模型；可对混合有多种语言的语音一次性识别，且不需要对原来的识别服务进行大的修改，可以复用当前已有的成果，大大降低了标注成本。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的语音识别模型训练方法的主要流程的示意图；

图2是根据本发明实施例的基于置信度得到训练数据集的主要流程的示意图；

图3是根据本发明实施例的对抗训练网络结构示意图的示意图；

图4是根据本发明实施例的语音识别模型训练装置的主要模块的示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的语音识别模型训练方法的主要流程的示意图，如图1所示，本发明实施例的用于多种语言混合的语音识别的方法主要包括：

步骤S101：获取多种语言中各个语言的原始语音数据，以及根据各个语言的原始语音数据的置信度，对各个语言的原始语音数据进行筛选，得到训练数据集。

步骤S102：提取训练数据集中包括的语音数据的声学特征。

步骤S103：基于训练数据集的声学特征以及对抗训练算法，得到语音识别模型；其中，语音识别模型用于多种语言混合的语音识别。

根据本发明实施例，以置信度为参考依据筛选训练数据集，较容易使得各种语言的训练数据量的均衡，增加模型的鲁棒性，减少标注成本，加快声学和语言模型构件速度。以及，通过将多种语言的音素集合并为一个音素集，以及对抗训练算法，得到一个综合的语音识别模型；可对混合有多种语言的语音一次性识别，且不需要对原来的识别服务进行大的修改，可以复用当前已有的成果，大大降低了标注成本。

在步骤S101中，获取多种语言中各个语言的原始语音数据，即通过录制、爬取等方式获取无标注数据。从声学模型和语言模型训练的角度说，各个领域的数据量越多、覆盖范围越广越好，这种数据获取方法可适用所有方言和外文。

在步骤S102中，通过移动窗对训练数据集中的语音数据进行分帧，再对各帧语音数据的声学特征进行提取。优选的，移动窗的帧长为20-40ms，帧移为10-20ms；每一帧提取声学特征维度为40维。

优选的，声学特征至少包括以下一种：为滤波器组特征(FilterBank)、梅尔频率倒谱特征(Mel Frequency Cepstrum Coefficients)、感知线性预测特征(perceptuallinear prediction)。

对于本发明实施例，在采集待识别语音数据后，可通过上述训练的语音识别模型对待识别语音数据进行识别，得到识别结果。以及，将识别结果进行输出。在本发明实施例中，该待识别语音数据为通过麦克风等音频输入设备采集到的用户语音信息。

图2是根据本发明实施例的基于置信度得到训练数据集的主要流程的示意图，如图2所示，步骤S101中基于置信度得到训练数据集可具体包括：

步骤S201：将各个语言的原始语音数据转写为文本数据。

步骤S202：计算文本数据中各句子的置信度。

步骤S203：将置信度在预设的置信度阈值区间的句子加入训练数据集中。

在步骤S201中，语音数据转写方法均为现有技术，常用的两种分别为：一、使用一种声学模型结构和语言模型对所获取的数据进行转写；二、分别使用多种声学模型结构和语言模型对同一批音频进行转写，将多个识别资源转写出的文本一样的句子取出来。其中，声学模型结构一般为LSTM(长短期记忆人工神经网络)、DNN(深度神经网络)等。

在步骤S202中，置信度的计算方法为：使用声学模型和语言模型对音频特征X进行转写，可以得到该音频特征的后验概率P(X)，取该值为置信度。公式为：P(X)＝∑p(x，H)＝∑p(H)*p(X|H)

其中，X表示声学特征；p(x)表示声学特征的概率；H表示词图网络中的路径。

在步骤S303中，通过上述计算方法得出的各语句的置信度后，预设一个置信度阈值区间，提取置信度在此区间的句子作为标注文本，加入训练模型。优选的，预设的置信度阈值区间为0.9-1。

图3为根据本发明实施例的对抗训练网络结构示意图，如图3所示，其训练过程和普通的神经网络训练过程一样，有监督方式，最小化音素分类错误算法，训练流程包括：

准备资源：准备好训练文本和音频特征，通过已有字典将文本处理成其对应的因素序列，该因素序列各种语言的发音集合，特征按照上述说的任一特征，帧长、帧移等参数可参考上述方式。

训练目标是增加语言domain的分类错误，增加网络对各种语言的鲁棒性：采用Cross-Entropy(交叉熵)的训练准则，利用MLE(Maximum Likelihood Estimate)极大似然估计对每一帧进行分类优化，最小化每一帧的分类错误率，梯度反传更新图3所示的N层神经网络NNlayer1，NNlayer2…NNlayerN，NNlayer，Senoneoutput1这几层的参数，其中N为正整数，该N层神经网络分别为NNlayer1，NNlayer2…NNlayerN。

训练Domainoutput2：方法和Senoneoutput1大致一样，区别是在output2的输出层增加梯度反向层GRL，将梯度反传更新时将其数值乘以-1(也可以是负的其他值，不具体指某一个值)，更新NNlayer1，NNlayer2…NNlayerN，GRL，Domainoutput2这几层的参数；目标是增加语言domain的分类错误，增加网络对各种语言的鲁棒性。

所以NNlayer1，NNlayer2…NNlayerN这几层是公共层，不管是训练Senoneoutput1的任务，还是训练Domainoutput2的任务都会更新着几层的参数，这样公共层的参数既可以学习到各种语言的语言特性，所以更加鲁棒。

无监督数据的筛选可以使将各种语言的训练数据量基本均衡，训练时输入特征列表将两种语言完全打乱，尽可能保证每次更新参数的训练样本里各种语言的数据均衡，分别输入训练样本phone label和domain label，最终可以使得Senone output1对各种语言均有较好的识别效果。

以普通话和四川话两种语言混合识别方法的实例型实施例，对本发明进一步说明。在本发明实施例中，通过录制、爬取等方式获取尽可能多的无标注数据，该无标注数据包括普通话和四川话的语音数据。然后，分别使用已有的普通话和四川话识别系统对所获取的数据进行转写。转写一般使用一种声学模型结构(比如LSTM(长短期记忆人工神经网络)、DNN(深度神经网络)等)和普通话通用语言模型对所获取的数据进行转写，或者，分别使用多种声学模型结构和普通话通用语言模型对同一批音频进行解码。

通过该公式：P(X)＝∑p(x，H)＝∑p(H)*p(X|H)计算转写后的文本数据，取出置信度大于等于0.9的句子，将这些句子的解码结果作为标注文本，加入训练。

对原始数据加无监督获取的训练集数据进行处理，整理出wav和对应的文本标注，对语音数据进行声学特征提取，采用FBANK特征，使用帧长25ms、帧移10ms的窗对音频进行分帧，每一帧提取40维的Fbank特征用来训练神经网络。

基于所述训练数据集的声学特征以及对抗训练算法进行训练。输入是提取好的fbank特征，神经网络的结构采用多层DNN、LSTM等，输出层分出两个任务进行训练。其中Senone output1是普通话和四川话的音素列表，该任务的训练和传统神经网络的训练方法一样，目标是最小化phone的分类错误。Domain output2是两种语言的种类标签，在该任务的输出层加入梯度反向层GRL(gradient reversal layer)，该层是将正常的梯度下降传播的时将其置反，目标是增加语言domain的分类错误，增加网络对两种语言的鲁棒性。

图4是根据本发明实施例语音识别模型训练装置的主要模块的示意图，如图4所示，本发明实施例的用于多种语言混合的语音识别的装置400包括数据筛选模块401、特征提取模块402和对抗训练模块403。

数据筛选模块401：用于获取多种语言中各个语言的原始语音数据，以及根据各个语言的原始语音数据的置信度，对各个语言的原始语音数据进行筛选，得到训练数据集。其中，数据筛选模块包括：数据获取模块，用于获取多种语言中各个语言的原始语音数据；数据转写模块，用于将各个语言的原始语音数据转写为文本数据；数据计算模块，用于计算文本数据中各句子的置信度，并将置信度在预设的置信度阈值区间的句子加入训练数据集中。

特征提取模块402，用于提取训练数据集中包括的语音数据的声学特征。

对抗训练模块403：用于基于训练数据集和声学特征对抗训练声学模型结构。其中，特征提取模块包括：分帧模块，用于通过移动窗对训练数据集中的语音数据进行分帧；提取模块，用于提取各帧语音数据的声学特征。对抗训练模块还包括序列模块，用于基于训练数据集的声学特征得到音素序列，音素序列为多种语言的发音集合；训练模块，用于将训练数据集的声学特征以及音素序列输入对抗训练算法的网络结构，得到语音识别模型。

图5示出了可以应用本发明实施例的语音识别模型训练方法方法或语音识别模型训练装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的用于多种语言混合的语音识别方法一般由服务器505执行，相应地，用于多种语言混合的语音识别装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括数据筛选模块、特征提取模块和对抗训练模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，数据筛选模块还可以被描述为“基于置信度筛选数据的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取多种语言中各个语言的原始语音数据，以及根据各个语言的原始语音数据的置信度，对各个语言的原始语音数据进行筛选，得到训练数据集；提取训练数据集中包括的语音数据的声学特征；基于训练数据集的声学特征以及对抗训练算法，得到语音识别模型；其中，语音识别模型用于多种语言混合的语音识别。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种语音识别模型训练方法，其特征在于，包括：

获取多种语言中各个语言的原始语音数据，以及根据所述各个语言的原始语音数据的置信度，对所述各个语言的原始语音数据进行筛选，得到训练数据集；

提取所述训练数据集中包括的语音数据的声学特征；

基于所述训练数据集的声学特征以及对抗训练算法，得到语音识别模型；其中，所述语音识别模型用于所述多种语言混合的语音识别；

所述根据所述各个语言的原始语音数据的置信度，对所述各个语言的原始语音数据进行筛选，得到训练数据集的步骤包括：

将所述各个语言的原始语音数据转写为文本数据；

计算所述文本数据中各句子的置信度；

将置信度在预设的置信度阈值区间内的句子加入所述训练数据集中；

置信度的计算方法为：使用声学模型和语言模型对音频特征X进行转写，可以得到该音频特征的后验概率P(X)，取该值为置信度，

所述对抗训练算法包括：

基于所述训练数据集的声学特征以及对抗训练算法进行训练，输入是提取好的fbank特征，神经网络的结构采用多层DNN、LSTM，输出层分出两个任务Senoneoutput1和Senoneoutput2；

训练Senoneoutput1，采用Cross-Entropy的训练准则，利用MLE极大似然估计对每一帧进行分类优化，最小化每一帧的分类错误率，梯度反传更新N层神经网络NNlayer1，NNlayer2 … NNlayerN，NNlayer，Senoneoutput1这几层的参数，其中N为正整数，该N层神经网络分别为NNlayer1，NNlayer2 … NNlayerN；

训练Domainoutput2，方法和Senoneoutput1一样，区别是在output2的输出层增加梯度反向层GRL，将梯度反传更新时将其数值乘以-1，更新NNlayer1，NNlayer2…NNlayerN，GRL，Domainoutput2这几层的参数。

2.根据权利要求1所述的方法，其特征在于，提取所述训练数据集的声学特征的步骤包括：

通过移动窗对所述训练数据集中的语音数据进行分帧；其中，所述移动窗的帧长为20-40ms，帧移为10-20ms；每一帧提取声学特征维度为40维。

3.根据权利要求1所述的方法，其特征在于，基于所述训练数据集的声学特征以及对抗训练算法，得到语音识别模型的步骤包括：

基于所述训练数据集的声学特征得到音素序列，所述音素序列为所述多种语言的发音集合；

将所述训练数据集的声学特征以及音素序列输入对抗训练算法的网络结构，得到语音识别模型，其中，所述对抗训练算法的网络结构的Domain output2的输出层加入梯度反向层。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述声学特征至少包括以下一种：为滤波器组特征、梅尔频率倒谱特征、感知线性预测特征。

5.一种语音识别的方法，其特征在于，包括：

采集待识别语音数据；

通过权利要求1-4任一项所述方法得到的语音识别模型对所述待识别语音数据进行识别，得到识别结果；

将所述识别结果进行输出。

6.一种语音识别模型训练装置，其特征在于，包括：

数据筛选模块：用于获取多种语言中各个语言的原始语音数据，以及根据所述各个语言的原始语音数据的置信度，对所述各个语言的原始语音数据进行筛选，得到训练数据集；

特征提取模块，用于提取所述训练数据集中包括的语音数据的声学特征；

对抗训练模块：用于基于所述训练数据集和所述声学特征对抗训练声学模型结构；

将所述各个语言的原始语音数据转写为文本数据；

计算所述文本数据中各句子的置信度；

置信度的计算方法为：使用声学模型和语言模型对音频特征X进行转写，可以得到该音频特征的后验概率P(X)，取该值为置信度；

所述对抗训练包括：

7.一种语音识别装置，其特征在于，包括：

采集模块，用于采集待识别语音数据；

识别装置，用于通过权利要求1-4任一项所述方法得到的语音识别模型对所述待识别语音数据进行识别，得到识别结果；

输出模块，用于将所述识别结果进行输出。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。