CN110211588A

CN110211588A - 语音识别方法、装置及电子设备

Info

Publication number: CN110211588A
Application number: CN201910477492.6A
Authority: CN
Inventors: 李�杰; 王晓瑞; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-06
Also published as: US11482208B2; US20200294488A1

Abstract

本公开是关于一种语音识别方法、装置及电子设备，属于音频处理领域。所述方法包括：对语音数据进行特征提取，得到所述语音数据的语音特征；将所述语音特征输入声学模型，通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定所述语音特征对应的音节数据，其中，所述声学模型用于将语音特征转化为音节数据；根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据，输出所述文本数据，其中，所述发音词典用于将音节数据转化为对应的文本数据，所述语言模型用于对转化得到的文本数据进行评估。采用本公开，可以提高语音识别的准确性。

Description

语音识别方法、装置及电子设备

技术领域

本公开涉及音频处理领域，尤其涉及一种语音识别方法、装置及电子设备。

背景技术

自动语音识别技术(Automatic Speech Recognition，ASR)是通过算法将人类的语音转化成相应文本的过程。随着互联网的兴起、电子商务的快速发展以及全球一体化的加剧，不同语言之间的碰撞越来越频繁，这导致人们在日常交流过程中不可避免会使用多语言混杂。在中国，日常用语中掺杂其它语种的语言进行表述已经是很常见的表述方式，例如，“我今天晚上要赶我的project，你不要等我回宿舍了”、“我不是很sure，也许有些term不好translate，或者要show off自己的外语level”等。

以外语为英语为例，目前的对中英混合的语音数据进行识别的语音识别系统，通常是将语音数据利用语种识别技术识别出哪段语音数据属于中文语种，哪段语音数据属于英文语种，然后将语音数据切分开，将中文语种的语音数据输入现有的中文语音识别系统，将英文语种的语音数据输入现有的英文语音识别系统，分别得到识别结果，然后将得到的识别结果拼接起来，得到中英混合的语音数据的识别结果。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

中英混合的语音数据中英文语种的语音较短，比如，语音数据为“你这件大衣好fashion啊”，其中英文语种的语音数据长度较短，导致语种识别的准确性较低，进而导致语音识别的准确性较低。

发明内容

本公开提供一种语音识别方法、装置及电子设备，可以解决语音识别的准确性较低的问题。

根据本公开实施例的第一方面，提供一种语音识别方法，包括：

对语音数据进行特征提取，得到所述语音数据的语音特征；

将所述语音特征输入声学模型，通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定所述语音特征对应的音节数据，其中，所述声学模型用于将语音特征转化为音节数据；

根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据，输出所述文本数据，其中，所述发音词典用于将音节数据转化为对应的文本数据，所述语言模型用于对转化得到的文本数据进行评估。

可选地，所述通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定所述语音特征对应的音节数据，包括：

将所述语音特征输入声学模型，通过所述声学模型的多个特征抽取层对所述语音特征进行抽取，得到中间语音特征；

通过柔性最大值传输函数softmax确定所述中间语音特征对应于每个音节数据的概率，将最大概率对应的音节数据确定为所述语音特征对应的音节数据。

可选地，所述将所述语音特征输入声学模型之前，还包括：

获取至少一个样本数据，每个样本数据包括样本语音特征、所述样本语音特征对应的真值音节数据；

将每个样本语音特征输入初始声学模型中，根据所述初始声学模型输出的预测音节数据与对应的真值音节数据，对初始声学模型进行训练，得到所述声学模型。

可选地，所述获取至少一个样本数据，包括：

获取第一语种的第一语音特征与第一文本数据的对应关系、第二语种的第二语音特征与第二文本数据的对应关系、以及第一文本子数据与第二文本数据的对应关系，其中，所述第一文本子数据为第一文本数据的部分数据；

在每个第一文本数据中，随机选取多个第一文本子数据，根据所述第一文本子数据与第二文本数据的对应关系，确定每个第一文本子数据对应的第二文本数据；

对于每个第一文本数据，采用第二文本数据替换对应的第一文本子数据，将得到的混合文本数据确定为样本文本数据；

对于每个第一文本数据对应的第一语音特征，采用第二文本数据对应的第二语音特征替换对应的第一文本子数据对应的第一语音子特征，将得到的混合语音特征确定为样本语音特征；

确定每个样本文本数据对应的真值音节数据，将每个样本文本数据对应的真值音节数据和样本文本数据对应的样本语音特征组成一个样本数据。

可选地，所述根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据，包括：

根据发音词典中的音节数据与文本数据的对应关系，确定所述音节数据对应的预设文本数据；

根据语言模型确定每个预设文本数据的可能性概率，将可能性概率最大的预设文本数据确定为所述音节数据对应的文本数据。

可选地，所述根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据之前，还包括：

获取样本文本语料，所述样本文本语料包括第一语种的文本语料与第二语种的文本语料；

根据预设分词算法对所述样本文本语料进行分词处理，得到多个样本词语；

确定每个样本词语在所述样本文本语料中的出现概率，将每个样本词语与对应的出现概率存储到初始语言模型中，得到所述语言模型。

可选地，所述获取样本文本语料，包括：

获取第一语种的第一文本语料、第二语种的第二文本语料、以及第一文本语料与第二文本语料的对应关系；

在每个第一文本语料中选取至少一个第一文本子语料，确定第一文本子语料与第二文本语料的对应关系；

根据所述第一文本子语料与第二文本语料的对应关系，采用第一文本子语料对应的第二文本语料替换第一文本子语料，将得到的混合第一文本语料确定文样本文本语料。

可选地，所述发音词典包括第一语种的发音词典和第二语种的发音词典。

根据本公开实施例的第二方面，提供一种语音识别装置，包括：

提取模块，用于对语音数据进行特征提取，得到所述语音数据的语音特征；

确定模块，用于将所述语音特征输入声学模型，通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定所述语音特征对应的音节数据，其中，所述声学模型用于将语音特征转化为音节数据；

所述确定模块，还用于根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据，输出所述文本数据，其中，所述发音词典用于将音节数据转化为对应的文本数据，所述语言模型用于对转化得到的文本数据进行评估。

可选地，所述确定模块，用于：

可选地，所述装置还包括：

获取模块，用于将所述语音特征输入声学模型之前，获取至少一个样本数据，每个样本数据包括样本语音特征、所述样本语音特征对应的真值音节数据；

训练模块，用于将每个样本语音特征输入初始声学模型中，根据所述初始声学模型输出的预测音节数据与对应的真值音节数据，对初始声学模型进行训练，得到所述声学模型。

可选地，所述获取模块，用于：

可选地，所述确定模块，用于：

可选地，

所述获取模块，还用于根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据之前，获取样本文本语料，所述样本文本语料包括第一语种的文本语料与第二语种的文本语料；

所述装置还包括：

处理模块，用于根据预设分词算法对所述样本文本语料进行分词处理，得到多个样本词语；

存储模块，用于确定每个样本词语在所述样本文本语料中的出现概率，将每个样本词语与对应的出现概率存储到初始语言模型中，得到所述语言模型。

可选地，所述获取模块，用于：

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至8任一所述的语音识别的方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的一种语音识别方法。

根据本公开实施例的第五方面，提供一种应用程序，当应用程序在电子设备上运行时，使得电子设备执行上述第一方面所述的语音识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，根据特征提取模型对语音数据进行特征提取，得到语音数据的语音特征，将语音特征输入声学模型，声学模型包括多个特征抽取层和softmax层，通过多个特征抽取层和softmax层确定语音特征对应的音节数据，根据语言模型、发音词典以及音节数据确定语音数据对应的文本数据，输出确定出的文本数据。这样，无需先对语音数据进行语种识别进而确定语音识别结果，也就减少了语种识别的低准确性导致的语音识别的低准确性，且根据音节数据进行识别，可以较准确地区分不同语种对应的文本数据，提高了语音识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音识别方法流程图。

图2是根据一示例性实施例示出的一种语音识别方法流程图。

图3是根据一示例性实施例示出的一种语音识别模型结构示意图。

图4是根据一示例性实施例示出的一种语音识别方法流程图。

图5是根据一示例性实施例示出的一种语音识别方法流程图。

图6是根据一示例性实施例示出的一种语音识别系统结构示意图。

图7是根据一示例性实施例示出的一种语音识别装置框图。

图8是根据一示例性实施例示出的一种电子设备的结构框图。

图9是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例的方法可以用于电子设备，此电子设备中安装有语音识别系统，该电子设备可以是终端，也可以是服务器。当电子设备是终端时，终端可以直接获取语音数据，例如，可以使用终端录制语音数据，也可以通过终端向服务器获取语音数据，或用户直接向终端输入语音数据等，进而终端根据获取的语音数据进行语音识别，本公开对此不作限定。当电子设备是服务器时，可以通过服务器向终端获取语音数据，也可以由用户直接向服务器输入语音数据等，进而服务器根据获取的语音数据进行语音识别，本公开对此不作限定。

图1是根据一示例性实施例示出的一种语音识别方法的流程图，如图1所示，该方法用于服务器，包括以下步骤。

步骤101，对语音数据进行特征提取，得到语音数据的语音特征。

步骤102，将语音特征输入声学模型，通过声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定语音特征对应的音节数据，其中，声学模型用于将语音特征转化为音节数据。

步骤103，根据语言模型、发音词典以及音节数据，确定语音数据对应的文本数据，输出文本数据，其中，发音词典用于将音节数据转化为对应的文本数据，语言模型用于对转化得到的文本数据进行评估。

可选地，通过声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定语音特征对应的音节数据，包括：

将语音特征输入声学模型，通过声学模型的多个特征抽取层对语音特征进行抽取，得到中间语音特征；

通过柔性最大值传输函数softmax确定中间语音特征对应于每个音节数据的概率，将最大概率对应的音节数据确定为语音特征对应的音节数据。

可选地，将语音特征输入声学模型之前，还包括：

获取至少一个样本数据，每个样本数据包括样本语音特征、样本语音特征对应的真值音节数据；

将每个样本语音特征输入初始声学模型中，根据初始声学模型输出的预测音节数据与对应的真值音节数据，对初始声学模型进行训练，得到声学模型。

可选地，获取至少一个样本数据，包括：

获取第一语种的第一语音特征与第一文本数据的对应关系、第二语种的第二语音特征与第二文本数据的对应关系、以及第一文本子数据与第二文本数据的对应关系，其中，第一文本子数据为第一文本数据的部分数据；

在每个第一文本数据中，随机选取多个第一文本子数据，根据第一文本子数据与第二文本数据的对应关系，确定每个第一文本子数据对应的第二文本数据；

可选地，根据语言模型、发音词典以及音节数据，确定语音数据对应的文本数据，包括：

根据发音词典中的音节数据与文本数据的对应关系，确定音节数据对应的预设文本数据；

根据语言模型确定每个预设文本数据的可能性概率，将可能性概率最大的预设文本数据确定为音节数据对应的文本数据。

可选地，根据语言模型、发音词典以及音节数据，确定语音数据对应的文本数据之前，还包括：

获取样本文本语料，样本文本语料包括第一语种的文本语料与第二语种的文本语料；

根据预设分词算法对样本文本语料进行分词处理，得到多个样本词语；

确定每个样本词语在样本文本语料中的出现概率，将每个样本词语与对应的出现概率存储到初始语言模型中，得到语言模型。

可选地，获取样本文本语料，包括：

根据第一文本子语料与第二文本语料的对应关系，采用第一文本子语料对应的第二文本语料替换第一文本子语料，将得到的混合第一文本语料确定文样本文本语料。

可选地，发音词典包括第一语种的发音词典和第二语种的发音词典。

图2是根据一示例性实施例示出的一种语音识别方法的流程图，该方法用于电子设备中，此电子设备中安装有语音识别系统，该语音识别系统包括特征提取模型、声学模型、语言模型和发音词典，如图2所示，该方法包括以下步骤。

步骤201，对语音数据进行特征提取，得到语音数据的语音特征。

一种可能的实施方式中，当用户想要对某段语音数据进行语音识别时，可以获取待识别的语音数据。待识别的语音数据可以是用户说出的语音数据，这种使用场景下，电子设备可以是终端，用户使用终端录制语音数据。待识别的语音数据可以是某段音频数据，这种使用场景下，电子设备可以是终端也可以是服务器，用户将语音数据输入电子设备即可。

将语音数据输入语音识别系统的特征提取模型，特征提取模型可以先对语音数据进行预处理，如滤除噪声，然后对预处理后的语音数据进行分帧处理，将语音数据切分为多段，然后分别对每段进行特征提取。特征提取的方法有多种，例如，通过MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)算法得到每帧的特征向量。当然，这只是本公开实施例列举的一种可行方式，其它的特征提取方法均可，本公开对此不做限定。

步骤202，将语音特征输入声学模型，通过声学模型的多个特征抽取层对语音特征进行抽取，得到中间语音特征。

一种可能的实施方式中，通过上述步骤201得到语音特征后，将语音特征输入声学模型，该声学模型包括多个特征抽取层以及softmax(柔性最大值传输函数，一种归一化函数)层，先通过多个特征抽取层对语音特征进行特征抽取，得到特征抽取后的语音特征(可称为中间语音特征)。

步骤203，通过softmax确定中间语音特征对应于每个音节数据的概率，将最大概率对应的音节数据确定为语音特征对应的音节数据。

一种可能的实施方式中，目前的混合语音识别方法都是以音素作为建模单元，并且考虑上下文相关音素。为了最大程度的满足建模单元的短时平稳性，实际建模中，会进一步将音素拆分为三状态甚至更多状态。模型的输出在音素级别或者状态级别进行参数共享。但这样建模会带来两个问题：

a)音素(甚至状态)，建模粒度过于精细。语言之间的不同随着发音粒度的增大，差异性逐渐显著，比如将粒度推到单词级别就很容易区分中文还是英文。此外，大粒度的建模单元更加鲁棒，对环境、说话人的差异更加不敏感。已有的中英混合建模方案中，以音素为建模单元主要是受限于当时的建模能力。最近几年，基于深度学习的语音识别技术飞速发展，为建模更大粒度的声学单元提供了解决方法，这为解决中英混合语音识别问题带来了新的思路。本专利选用中英文音节作为建模单元，突破了小粒度音素建模单元的限制。

b)上下文相关建模增加了建模难度。在基于音素(状态)的建模方法中，上下文相关建模是不可或缺的方法。音素上下文必须要通过决策树聚类进行绑定。中英文音素混合后，上下文依赖关系变得更加复杂，增大了上下文三元组合的数目，使得两种语言的上下文依赖关系变得非常稀疏。上下文相关建模的作用在于解决协同发音对音素的影响，本专利采用音节作为建模单元，音节单元发音更加稳定，对上下文的变化更加鲁棒，因此，本专利丢弃了常用的上下文相关建模，采用上下文无关建模，从而避免了音素绑定环节对中英文混合语音识别的影响。

因此，为了解决上述问题，本公开实施例在建立声学模型时，采用上下文无关的音节数据作为建模单元进行建模。以语音识别系统识别中英语种的语音数据为例，中文语种先获取上下文五官的带调音节数据，数量可以确定为1500个，对于英文语种，可以利用maximum onset principle(最大起始音节原则)进行切分，得到10000个音节数据，将得到的中文音节数据和英文音节数据共同作为建模单元，建立声学模型。

在通过上述步骤202得到特征抽取后的中间语音特征后，将中间语音特征输入softmax层，softmax计算得出中间语音特征对应于每个预先存储的音节数据的概率，该概率相当于中间语音特征与每个音节数据的相似度，概率越大，说明中间语音特征与该概率对应的音节数据的相似度越大。确定所有概率中的最大概率，并确定最大概率对应的音节数据，该音节数据是与中间语音特征的相似度最大的音节数据，将该音节数据确定为上述语音特征对应的音节数据。

可选地，上述声学模型可以采用多种模型，由于本公开实施例采用更大粒度的建模单元(基于音节数据进行建模)，因此，声学模型需要能够捕捉更大的时长，具有更强的长时轨迹建模能力。本公开实施例可以选择链式建模方法，该方法又称之为无词格最大互信息方法。模型结构方面，可以采用TDNN-LSTM(time delay neural network-Long Short-Term Memory，时延神经网络-长短期记忆网络)模型，如图3所示，模型具体的结构可以采用七层TDNN和三层LSTM交替放置的结构，基于这种结构，声学模型的输入为当前帧的语音特征、前1帧的语音特征、前2帧的语音特征、后1帧的语音特征以及后2帧的语音特征，分别用“-2”、“-1”、“0”、“1”、“2”表示。输入声学模型后，先由三层TDNN层(即TDNN1、TDNN2、TDNN3)分别对输入的语音特征进行特征抽取，其中，1024表示每个层有1024个神经元，100Hz表示特征的采样率为100Hz。然后，再由一层LSTM层(即LSTM1)对上一层输出的中间数据进行特征抽取，并在历史数据中获取当前帧的前6帧的语音特征以及后6帧的语音特征，共同输入到下一层TDNN层(即TDNN4)中，对当前帧的语音特征、前6帧的语音特征以及后6帧的语音特征进行特征抽取，将得到的结果输入下一层TDNN层(即TDNN5)中，继续进行特征抽取，将TDNN5输出的中间数据输入下一个LSTM层(即LSTM2)中，使得LSTM2对中间数据进行特征抽取以及特征筛选，然后将输出结果输入接下来的TDNN层(即TDNN6、TDNN7)，继续对特征进行抽取，然后将得到的中间数据输入到下一层LSTM层(即LSTM3)中，对得到的中间数据进行特征抽取以及特征筛选，然后将得到的中间数据输入softmax层，计算得到当前帧对应每个预设音节数据的概率，确定多个概率中的最大概率，将最大概率对应的音节数据确定为当前帧的语音特征对应的音节数据。

步骤204，根据发音词典中的音节数据与文本数据的对应关系，确定音节数据对应的预设文本数据。

一种可能的实施方式中，通过上述步骤得到音节数据后，将音节数据分别输入发音词典和语言模型，发音词典中存储有音节数据与文本数据的对应关系，通常来说，一个音节数据可以对应多个文本数据。分别对音节数据中的每个音节数据进行搜索，确定每个音节数据对应的多个文本数据(可称为预设文本数据)。

需要说明的是，由于本公开实施例中的语音识别模型可以识别包括多个语种的语音数据，因此，发音词典中需要包括可以识别的语种的发音词典。例如，当语音识别系统可以识别包括第一语种的语音数据和第二语种的语音数据时，该语音识别系统的发音词典包括第一语种的发音词典和第二语种的发音词典，第一语种的发音词典和第二语种的发音词典为现有可用的发音词典。例如，语音识别系统是识别中英混合语音数据的系统时，该语音识别系统的发音词典可以包括现有的中文发音词典和英文发音词典。

步骤205，根据语言模型确定每个预设文本数据的可能性概率，将可能性概率最大的预设文本数据确定为音节数据对应的文本数据。

一种可能的实施方式中，根据上述步骤可以确定由不同预设文本数据组成多个文本语句，将多个预设文本数据输入语言模型，语言模型是计算一个文本语句出现概率的概率模型。它主要用于决定哪个文本数据序列的可能性更大，或者在出现几个词语的情况下预测下一个即将出现的词语的内容。也即是说，语言模型是用来约束单词搜索的。

根据语言模型确定每个预设文本数据的可能性概率，确定可能性概率最大的预设文本数据确定为音节数据对应的文本数据。

步骤206，输出语音数据对应的文本数据。

一种可能的实施方式中，语言模型确定出音节数据对应的文本数据后，输出语音数据对应的文本数据。如果电子设备是服务器，则电子设备将确定出的文本数据发送到用户操作的终端，使得终端将文本数据显示给用户。如果电子设备是终端，则电子设备直接将文本数据显示给用户。

图4是根据一示例性实施例示出的一种语音识别方法的流程图，该方法用于对声学模型进行训练，包括以下步骤。

步骤401，获取至少一个样本数据，每个样本数据包括样本语音特征、样本语音特征对应的真值音节数据。

可选地，现有的用于训练声学模型的样本数据较少，中英混合声学数据稀缺主要原因在于：1)很难收集真实数据。由于线上系统的中英混合识别性能不好，用户体验较差，很少有用户使用中英混合，从而使得中英文数据很少来自真实用户。2)录制成本较高。录制中英语音数据，首先需要准备中英混合文本数据。这种文本数据就很难获取。中英混合文本数据稀缺主要原因在于，混合文本更容易出现在口语中，书面中相对较少，使得混合文本数据的收集非常困难。为了解决上述问题，可以采用下述步骤4011-401构造样本数据：

步骤4011，获取第一语种的第一语音特征与第一文本数据的对应关系、第二语种的第二语音特征与第二文本数据的对应关系、以及第一文本子数据与第二文本数据的对应关系，其中，第一文本子数据为第一文本数据的部分数据。

步骤4012，在每个第一文本数据中，随机选取多个第一文本子数据，根据第一文本子数据与第二文本数据的对应关系，确定每个第一文本子数据对应的第二文本数据。

步骤4013，对于每个第一文本数据，采用第二文本数据替换对应的第一文本子数据，将得到的混合文本数据确定为样本文本数据。

步骤4014，对于每个第一文本数据对应的第一语音特征，采用第二文本数据对应的第二语音特征替换对应的第一文本子数据对应的第一语音子特征，将得到的混合语音特征确定为样本语音特征。

步骤4015，确定每个样本文本数据对应的真值音节数据，将每个样本文本数据对应的真值音节数据和样本文本数据对应的样本语音特征组成一个样本数据。

举例来说，上述语音识别模型是识别中英语音数据的模型，则该语音识别系统中的声学模型的训练样本由三部分组成：纯中文语音数据、纯英文语音数据、人工生成的中英混合语音数据。其中，混合语音数据的生成方法基于单词级别的强制对齐，其步骤为：

a)分别用中文、英文的单语语音数据训练两个单语的声学模型，并对各自的单语语音数据进行对齐，得到各自单语的单词级别的对齐关系。

b)选择一条中文语音特征及文本数据，根据单词级别的对应关系，在该条中文语音特征-文本数据对中，随机选择某个中文词语及语音特征，替换成某个英文词语及英文特征；或者，随机选择一个位置，插入某个英文词语及语音特征。可选地，在替换时，不需要考虑语义上的相似性。

步骤402，将每个样本语音特征输入初始声学模型中，根据初始声学模型输出的预测音节数据与对应的真值音节数据，对初始声学模型进行训练，得到声学模型。

一种可能的实施方式中，以多个样本数据中的一个样本数据为例，将该样本数据中的样本语音特征输入初始声学模型中，得到初始声学模型输出的预测音节数据，将预测音节数据与该样本数据中的真值音节数据进行对比计算误差，然后根据误差反向调整初始声学模型中的参数。使用多个样本数据参照上述训练方法反复训练，直到误差小于预设误差或者误差收敛时，停止训练，得到的声学模型即为训练好的声学模型。

需要说明的是，上述训练方法仅为基本的一种训练方法，除此之外，还可以采用其他的训练方式。例如，为了保证语音识别的准确性，在对声学模型进行建模时，可以采用链式建模，这样，在对声学模型进行训练时，可以按照对链式模型训练的方式对声学模型进行训练，主要步骤为：

a)利用上述得到的声学训练样本数据，训练现有的任一中英混合上下文无关GMM模型。

b)利用训练好的GMM模型为每个语句产生对齐以及lattice(词格，即解码过程生成的词的网格)。

c)利用产生的对齐、lattice以及语音特征，训练声学模型，训练的过程可以是现有的训练方式，本公开在此不做赘述。

本公开实施例，为解决声学语音训练样本数据不足的问题，采用基于强制对齐的中英混合语音数据生成方法，这样，可以构造大量的样本数据对声学模型进行训练，使得声学模型得到更好的训练，使得训练好的声学模型更准确，进而提高了语音识别的准确率。

图5是根据一示例性实施例示出的一种语音识别方法的流程图，该方法用于对语言模型进行训练，包括以下步骤。

步骤501，获取样本文本语料，样本文本语料包括第一语种的文本语料与第二语种的文本语料。

可选地，获取样本文本语料的方法可以包括下述步骤5011-5013：

步骤5011，获取第一语种的第一文本语料、第二语种的第二文本语料、以及第一文本语料与第二文本语料的对应关系。

步骤5012，在每个第一文本语料中选取至少一个第一文本子语料，确定第一文本子语料与第二文本语料的对应关系。

步骤5013，根据第一文本子语料与第二文本语料的对应关系，采用第一文本子语料对应的第二文本语料替换第一文本子语料，将得到的混合第一文本语料确定文样本文本语料。

举例来说，上述语音识别模型是识别中英语音数据的模型，则利用中英平行语料为基础，构建大规模的中英混合文本数据。主要步骤为：

a)构建短语对齐平行语料库。在中英机器翻译中存在大量的平行句对，利用这些平行句对构建中英平行短语语料库。

b)基于短语语料库和单语语料生成混合语料。具体的，随机选择中文文本中的部分单词，按照短语语料库替换成另外一种语言的单词。反复执行这个过程，直到生成足够数量的文本语料。

步骤502，根据预设分词算法对样本文本语料进行分词处理，得到多个样本词语。

步骤503，确定每个样本词语在样本文本语料中的出现概率，将每个样本词语与对应的出现概率存储到初始语言模型中，得到语言模型。

需要说明的是，上述可以采用KN插值的N-gram方法训练语言模型，也可以是其它可行的训练方式，本公开对此不做限定。

需要说明的是，上述语音识别系统包括的各个模型以及训练样本的结构可以如图6所示，这样，既解决了语种混合的声学模型训练数据不足的问题，又解决了混合语言模型训练数据不足的问题，进而提高了语音识别的准确性。

本公开实施例还提供一种语音识别系统，所述语音识别系统包括特征提取模块、声学模型、语言模型和发音词典；其中：

所述特征提取模型用于对语音数据进行特征提取，得到所述语音数据的语音特征；

所述声学模型用于根据得到的语音特征向量，通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定所述语音特征对应的音节数据；

所述语言模型和所述发音词典用于根据所述音节数据确定所述语音数据对应的文本数据；

所述语言模型还用于输出所述文本数据。

图7是根据一示例性实施例示出的一种语音识别装置框图。参照图7，该装置包括提取模块710和确定模块720。

提取模块710，用于对语音数据进行特征提取，得到所述语音数据的语音特征；

确定模块720，用于将所述语音特征输入声学模型，通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定所述语音特征对应的音节数据，其中，所述声学模型用于将语音特征转化为音节数据；

所述确定模块720，还用于根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据，输出所述文本数据，其中，所述发音词典用于将音节数据转化为对应的文本数据，所述语言模型用于对转化得到的文本数据进行评估。

可选地，所述确定模块720，用于：

可选地，所述装置还包括：

获取模块730，用于将所述语音特征输入声学模型之前，获取至少一个样本数据，每个样本数据包括样本语音特征、所述样本语音特征对应的真值音节数据；

训练模块740，用于将每个样本语音特征输入初始声学模型中，根据所述初始声学模型输出的预测音节数据与对应的真值音节数据，对初始声学模型进行训练，得到所述声学模型。

可选地，所述获取模块730，用于：

可选地，所述确定模块720，用于：

可选地，

所述获取模块730，还用于根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据之前，获取样本文本语料，所述样本文本语料包括第一语种的文本语料与第二语种的文本语料；

所述装置还包括：

处理模块750，用于根据预设分词算法对所述样本文本语料进行分词处理，得到多个样本词语；

存储模块760，用于确定每个样本词语在所述样本文本语料中的出现概率，将每个样本词语与对应的出现概率存储到初始语言模型中，得到所述语言模型。

可选地，所述获取模块730，用于：

图8是本公开实施例提供的一种电子设备的结构示意图，该电子设备可以为服务器800。该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述语音识别方法。当然，该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器800可以用于执行上述语音识别的方法中服务器所执行的步骤。

图9是本公开实施例提供的一种电子设备的结构示意图，该电子设备可以为终端900。比如：智能手机、平板电脑。终端900还可能被称为用户设备、便携式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中提供的语音识别方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头606、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏905还具有采集在触摸显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。触摸显示屏905用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，触摸显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，触摸显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，触摸显示屏905还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏905可以采用LCD(LiquidCrystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907用于提供用户和终端900之间的音频接口。音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，可以根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的正面。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的语音识别方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述语音识别方法，该方法包括上述实施例的方法步骤。可选地，上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

对语音数据进行特征提取，得到所述语音数据的语音特征；

2.根据权利要求1所述的语音识别方法，其特征在于，所述通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层，确定所述语音特征对应的音节数据，包括：

通过所述声学模型的多个特征抽取层对所述语音特征进行抽取，得到中间语音特征；

3.根据权利要求1所述的语音识别方法，其特征在于，所述将所述语音特征输入声学模型之前，还包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述获取至少一个样本数据，包括：

5.根据权利要求1所述的语音识别方法，其特征在于，所述根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据，包括：

6.根据权利要求1所述的语音识别方法，其特征在于，所述根据语言模型、发音词典以及所述音节数据，确定所述语音数据对应的文本数据之前，还包括：

7.根据权利要求6所述的语音识别方法，其特征在于，所述获取样本文本语料，包括：

8.根据权利要求1所述的语音识别方法，其特征在于，所述发音词典包括第一语种的发音词典和第二语种的发音词典。

9.一种语音识别装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至8任一所述的语音识别的方法。