CN110675855A

CN110675855A - 一种语音识别方法、电子设备及计算机可读存储介质

Info

Publication number: CN110675855A
Application number: CN201910952464.5A
Authority: CN
Inventors: 邢安昊; 黄美玉; 施阳阳; 雷欣
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-10
Anticipated expiration: 2039-10-09
Also published as: CN110675855B

Abstract

本发明实施例公开了一种语音识别方法、电子设备及计算机可读存储介质，通过将接收到的待识别语音的特征信息输入至语言识别系统进行识别，以获取语音识别结果，其中，语言识别系统包括预先创建的发音字典、声学模型和语言模型，所述发音字典包括根据音素级语音识别系统构建的第二语种词语的发音图，所述音素级语音识别系统包括所述声学模型和语言模型，所述声学模型基于所述第一语种音素集训练获得，所述语言模型基于所述第一语种音素集构建，由此，可以根据第一语种音素集对第二语种词语进行注音，提高了语音识别的准确率。

Description

一种语音识别方法、电子设备及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，更具体地，涉及一种语音识别方法、电子设备及计算机可读存储介质。

背景技术

语音识别是一种从语音波形中识别出对应的文字内容的技术。目前的语言识别系统通常包括声学模型、发音字典和语言模型，其中，声学模型用来描述语音特征与音素状态之间的对应关系，语言模型表示一个文字序列之间的概率连接关系，发音字典记录了词与音素之间的对应关系，是连接声学模型和语言模型的纽带。

针对多个语种混杂的语音，现有技术的语音识别方法在进行声学模型训练时，直接将多个语种的音素均输入深度神经网络进行训练，且在发音字典中分别利用各语种的音素对各语种进行注音，语音识别准确率较低。

发明内容

有鉴于此，本发明实施例提供一种语音识别方法、电子设备及计算机可读存储介质，以提高语音识别的准确率。

第一方面，本发明实施例提供一种语音识别方法，所述方法包括：

接收待识别语音；

对所述待识别语音进行特征提取以获取特征信息；

将所述特征信息输入语言识别系统进行识别以获取识别结果，所述语言识别系统包括预先创建的发音字典、声学模型和语言模型；

其中，所述发音字典包括第二语种词语的发音图，所述第二语种词语的发音图根据音素级语音识别系统构建，所述音素级语音识别系统包括所述声学模型和所述语言模型，所述声学模型基于第一语种音素集训练获得，所述语言模型基于所述第一语种音素集构建。

可选的，所述方法还包括：

根据预先设置的规则基于所述第一语种音素集构建所述语言模型，以使得获取的音素序列不包含连续相同的音素。

可选的，根据预先设置的规则基于所述第一语种音素集构建所述语言模型，以使得获取的音素序列不包含连续相同的音素包括：

将第一语种音素集中的各音素一元组的回退权重设置为0；

通过退避算法计算第一语种音素集中的各音素多元组对应的概率，以使得获取的音素序列不包含连续相同的音素。

可选的，根据音素级语音识别系统构建所述第二语种词语的发音图包括：

将所述第二语种词语的m个发音输入所述音素级语音识别系统以获取每个发音对应的n个音素序列以及各音素序列对应的后验概率，m大于等于1，n大于等于1；

对m*n个音素序列进行去重复处理，并对去重复处理后的音素序列的后验概率进行标准化处理以获取发音文本，所述发音文本包括所述第二语种词语、所述第二语种词语对应的多个音素序列、以及各音素序列对应的后验概率；

根据所述发音文本创建所述第二语种词语的发音图。

可选的，根据所述发音文本创建所述第二语种词语的发音图包括：

根据预定条件确定所述发音文本对应的参考音素序列，将所述发音文本中除所述参考音素之外的音素序列确定为第一音素序列；所述预定条件包括音素序列中的音素数量和音素序列对应的后验概率；

根据所述第一音素序列与所述参考音素序列的最小编辑距离确定所述第二语种词语对应的混淆网络；

根据所述混淆网络确定所述第二语种词语的发音图。

可选的，根据所述第一音素序列与所述参考音素序列的最小编辑距离确定所述第二语种词语对应的混淆网络包括：

根据最小编辑距离将所述第一音素序列与所述参考音素序列对齐；

响应于所述第一音素序列和/或所述参考音素序列存在空音素位置，在所述空音素位置插入预定标签，以获取对齐后的参考音素序列和第一音素序列；

根据所述对齐后的参考音素序列和第一音素序列确定所述第二语种词语对应的混淆网络，所述混淆网络包括各音素序列在同一位置的音素及对应的后验概率；

其中，音素序列中的音素的后验概率与音素序列的后验概率相同，所述预定标签的后验概率与对应的音素序列的后验概率相同。

可选的，根据所述对齐后的参考音素序列和第一音素序列确定所述第二语种词语对应的混淆网络包括：

对于同一位置的音素，删除所述位置的各音素中小于平均后验概率的音素；

对各音素的后验概率进行标准化处理以获取所述混淆网络。

可选的，所述音素级语音识别系统获取的音素序列中的音素包括位置信息；

在获取所述发音文本之前，创建所述第二语种词语的发音图还包括：

删除所述各音素序列的音素中表征位置信息的符号；

根据所述混淆网络确定所述第二语种词语的发音图包括：

采用预定的算法将对应的表征位置信息的符号插入所述混淆网络的各音素中以更新所述混淆网络；

根据更新后的混淆网络确定所述第二语种词语的发音图。

可选的，所述方法还包括：

根据各所述第二语种词语对应的发音文本训练g2p统计模型；

根据所述g2p统计模型预测新第二语种词语的至少一个音素序列；

根据所述新第二语种词语的至少一个音素序列确定所述新第二语种词语的发音图；

将所述新第二语种词语的发音图添加至所述发音字典以更新所述发音字典。

第二方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如本发明实施例第一方面和/或第二方面所述的方法。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现如本发明实施例第一方面和/或第二方面所述的方法。

本发明实施例通过将接收到的待识别语音的特征信息输入至语言识别系统进行识别，以获取语音识别结果，其中，语言识别系统包括预先创建的发音字典、声学模型和语言模型，所述发音字典包括根据音素级语音识别系统构建的第二语种词语的发音图，所述音素级语音识别系统包括所述声学模型和语言模型，所述声学模型基于所述第一语种音素集训练获得，所述语言模型基于所述第一语种音素集构建，由此，可以根据第一语种音素集对第二语种词语进行注音，提高了语音识别的准确率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的语音识别方法的流程图；

图2是本发明实施例的第二语种词语的发音图创建方法的流程图；

图3是本发明实施例的获取混淆网络的方法流程图；

图4是本发明实施例的第二语种词语的发音图；

图5是本发明实施例的发音词典的示意图；

图6是本发明实施例的发音词典更新方法的流程图；

图7是本发明实施例的发音词典创建装置的示意图；

图8是本发明实施例的语音识别装置的示意图；

图9是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在本发明的描述中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前，在日常生活中出现了一定比例的多语种混合语句以及语义转换的语句等，例如一些中文英混合的商品名称(如手机型号等)或者日常用语中的中英文混合语句(如我朋友在Canada)等。为了识别这些多语种混合语句，相关技术中存在一些语音识别方法，但是现有技术中的语音识别方法在对声学模型进行训练时，直接将多个语种的音素均输入至神经网络进行训练，且在发音词典中分别利用各语种的音素对各语种的词语进行注音，未考虑以某一语种作为母语的发音习惯，在应用于多个语种混杂的语音识别场景时，语音识别准确率较低。

由此，本实施例提供了一种语音识别方法，以根据基于第一语种音素集训练获得的声学模型、以及采用预定规则基于第一语种音素集构建的语言模型来获取发音词典，其中，发音词典包括第二语种词语的发音图，由此，本实施例通过根据第一语种音素集对第二语种进行注音，以获取符合以第一语种为母语的用户的发音习惯的语言识别系统，提高了识别该用户的第二语种语音或混合语音的准确率。

在本发明实施例中，第一语种可以包括一个语种，也即用户的母语，例如中文，第二语种可以包括一个或多个语种，例如英文等。以下以第一语种为中文、第二语种为英文为例对本发明实施例进行具体描述，应理解，本发明实施例并不对此进行限制。

图1是本发明实施例的语音识别方法的流程图。如图1所示，本实施例的语音识别方法包括以下步骤：

步骤S110，接收待识别语音。可选的，可以通过麦克风等设备接收待识别语音。

步骤S120，对待识别语音进行特征提取以获取特征信息。在一种可选的实现方式中，可以提取待识别语音的LPCC(Linear Predictive Cepstral Coefficient，线性预测倒谱系数)或者提取待识别语音的MFCC系数(Mel Frequency Cepstral Coefficient，梅尔频率倒谱系数)等。其中，LPCC体现了每个人特定的声道特性，MFCC基于人耳听觉特性，梅尔频率倒谱频带划分是在Mel刻度上等距划分的，频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性。

步骤S130，将待识别语音的特征信息输入语言识别系统进行识别以获取识别结果。其中，语言识别系统包括预先创建的发音字典、声学模型和语言模型。在本实施例中，声学模型基于第一语种音素集进行训练获得。语言模型根据预定规则基于第一语种音素集构建。发音字典包括第二语种词语的发音图，其中，第二语种词语的发音图均根据音素级语音识别系统构建，其中音素级语音识别系统包括上述声学模型和语言模型。在一种可选的实现方式中，本实施例的发音词典还包括第一语种词语的发音图，以识别多个语种混合语音的识别准确率。

在一种可选的实现方式中，语言识别系统的解码器可基于FST(有限状态转换器)或WFST(加权有限状态转换器)，例如解码图谱为HCLG的kaldi解码器等。

其中，声学模型是语言识别系统中重要组成模块之一，可以用来描述语音特征与音素状态之间的对应关系，一般用统计模型进行建模。在本实施例中，基于第一语种音素集进行训练以获得该声学模型，该声学模型符合以第一语种为母语的用户的发音习惯。可选的，声学模型可以为基于第一语种音素集训练获得的深度神经网络模型。应理解，声学模型还可以为基于第一语种音素集训练的其他模型，例如HMM(Hidden Markov Model，隐马尔可夫模型)、GMM(Gaussian Mixture Model，高斯混合模型)等，本实施例并不对此进行限制。

音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性语音单位，每一个语种中的音素是不一样的，即使是同种语音，方言的音素也是不一样的。例如，Apple在英文中的一种发音获取的音素序列为/AE P AX L/，而在中文中的一种发音获取的音素序列为/E1 p e5 l/。其中，中文音素包括如“A E I P”等多个音素，某些特定的音素还包括如“1，2，3，4”的声调，分别对应于中文中的声调“一声、二声、三声、四声”。

在一种可选的实现方式中，本实施例的语音识别方法还包括：根据预先设置的规则基于第一语种音素及构建上述语言模型，以使得音素级语音识别系统获取的音素序列不包含连续相同的音素，从而进一步提高语音识别准确率。

在本实施例的语言模型中，为例避免在解码时获取的音素序列中出现连续相同的音素，采用预先设置的规则去除所有重复出现的多元组(2-grams，3-grams等)，以降低本实施例的语言模型获取连续相同音素的概率。例如对于一个音素集合{a1，a2，q}，在获取的音素序列中，去除/a1 a1…/、/a1 a2…/、/a2 a1…/、/a2 a2…/、/q q…/等出现连续相同音素的音素序列。可选的，在本实施例中，将第一语种音素集中的各音素一元组的回退权重设置为0，由此，在根据退避算法计算各音素序列的概率时，可以使得包含有连续相同音素的音素序列的概率基本为0。例如，对于一个音素集合{a1，a2，q}，创建音素集合{a1，a2，q}对应的概率查询表\data\如下所示：

其中，在上述概率查询表中，在\1-grams中，第一列表征单个音素出现的概率P，第三列为对应的回退权重。其中，本实施例以概率的对数形式，也即logP来表征概率P，以回退权重的对数形式来表征回退权重。在\1-grams中，各一元组的回退权重的对数被设置为“-99”，也即各一元组的回退权重被设置为“0”(log(-99)无限接近于0)。在\2-grams中，例如“0 a1</s>”中的音素a1出现在音素序列末尾的概率为1。“0 a1 q”表征给定音素a1后，下一个为音素q的概率为1。由此，在计算某个音素序列的概率时，可以根据概率查询表获取对应的概率，例如，对于音素序列/a1 a2 p/，P(a1 a2 p)＝P(a1|<s>)*P(a2|a1)*P(q|a2)*P(</s>|q)。可以从上述概率查询表中查询“<s>a1”、“a1 a2”、“a2 p”、“p</s>”对应的概率，其中，“a1 a2”的概率并没有出现的表中，因此，无法直接查询得到P(a2|a1)，在本实施例中，可以根据如下公式进行回退：P(a2|a1)＝P(a2)*B(a1)，其中B(a1)为音素a1对应的回退权重为0。由此，通过将一元组的回退权重设置为0使得P(a2|a1)＝P(a2)*B(a1)为0，也即，P(a1 a2 p)＝P(a1|<s>)*P(a2|a1)*P(q|a2)*P(</s>|q)为0，则音素序列/a1 a2 p/不存在，从而可以避免在音素序列中出现连续相同音素。

应理解，本实施例以音素集合{a1，a2，q}为例进行示例性描述，在实际应用中，根据所需的第一语种的音素集来构建该音素集对应的概率查询表，从而构建对应的语言模型。

本实施例通过将接收到的待识别语音的特征信息输入至语言识别系统进行识别，以获取语音识别结果，其中，语言识别系统包括预先创建的发音字典、声学模型和语言模型，发音字典包括根据音素级语音识别系统构建的第二语种词语的发音图，音素级语音识别系统包括所述声学模型和语言模型，声学模型基于所述第一语种音素集训练获得，语言模型基于所述第一语种音素集构建，由此，可以根据第一语种音素集对第二语种词语进行注音，使得发音词典更符合以第一语种为母语的用户对第二语种进行发音的发音习惯，以提高语音识别准确率。

图2是本发明实施例的第二语种词语的发音图创建方法的流程图。如图2所示，本实施例的第二语种词语的发音图创建方法包括以下步骤：

步骤S121，将第二语种词语的m个发音输入上述音素级语音识别系统以获取每个发音对应的n个音素序列以及各音素序列对应的后验概率，m大于等于1，n大于等于1。可选的，每个发音的n个音素序列为音素级语音识别系统输出的后验概率最高的前n个音素序列。

以获取第二语种词语apple的发音图为例，假设m＝2，n＝2，获取apple的两个发音并输入至本实施例的音素级语音识别系统中，输出结果如表(1)所示。

表(1)

步骤S122，对m*n个音素序列进行去重复处理，并对去重复处理后的音素序列的后验概率进行标准化处理以获取发音文本。也就是说，将m*n个音素序列中重复的音素的后验概率进行相加作为该音素序列的后验概率，并对经过去重复处理后的音素序列的后验概率进行标准化以使得所有的音素序列的后验概率之和为1。其中，发音文本包括所述第二语种词语、所述第二语种词语对应的多个音素序列、以及各音素序列对应的后验概率。以上述apple为例，对应的发音文本如表2所示。

表(2)

第二语种词语	音素序列	后验概率
			apple	/A1 Y p o3 l/	0.50000
apple	/A1 p o3 l/	0.35000
			apple	/E1 p e5 l/	0.15000

在一种可选的实现方式中，声学模型获取的音素序列中的音素包括位置信息，例如，第二语种词语apple的一个发音的音素序列为/A1_B Y_I p_I o3_I l_E/，其中，B(beginning)为词首、I(Internal)为词中、E(ending)为词尾，位置信息还可以包括单独出现S(singleton)。

在一种可选的实现方式中，当音素级语音识别系统获取的音素序列中的音素包括位置信息时，在获取上述发音文本之前，创建发音字典还包括：删除各音素序列的音素中表征位置信息的符号。由此，可以便于后续处理。

步骤S123，根据预定条件确定发音文本对应的参考音素序列，将发音文本中除参考音素序列之外的音素序列确定为第一音素序列。在一种可选的实现方式中，预定条件包括音素序列中的音素数量和音素序列对应的后验概率。例如，从发音文本中选择音素数量最多的音素序列作为参考音素序列，在存在多个音素数量最多的音素序列时，选择其中后验概率最大的音素序列作为参考音素序列。在另一种可选的实现方式中，预定条件还可以包括音素序列中的首个音素在音素表中的位置，其中，在多个音素序列的音素数量相同、后验概率也相同时，取首个音素在音素表中的位置靠前的音素序列为参考音素序列。

步骤S124，根据第一音素序列与参考音素序列的最小编辑距离确定所述第二语种词语对应的混淆网络。

图3是本发明实施例的获取混淆网络的方法流程图。如图3所示，在一种可选的实现方式中，步骤S124进一步包括以下步骤：

步骤S124a，根据最小编辑距离将第一音素序列与参考音素序列对齐。以上述第二语种词语apple为例，音素序列/A1 Y p o3 l/作为参考音素序列，根据最小编辑距离将第一音素序列/A1 p o3 l/和/E1 p e5 l/分别与参考音素序列对齐，如下所示：

步骤S124b，响应于第一音素序列和/或参考音素序列存在空音素位置，在空音素位置插入预定标签，以获取对齐后的参考音素序列和第一音素序列。以上述第二语种词语apple为例，在第一音素序列/A1 p o3 l/与参考音素序列对齐时，第一音素序列/A1 p o3l/中与参考音素序列/A1 Y p o3 l/中的音素Y对应的位置为空音素位置，第一音素序列/E1 p e5 l/中与参考音素序列/A1 Y p o3 l/中的音素A1对应的位置为空音素位置。以预定标签为<eps>为例，则在空音素位置插入预定标签<eps>后，第一音素序列分别为/A1<eps>p o3 l/和/<eps>E1 p e5 l/。

步骤S124c，根据对齐后的参考音素序列和第一音素序列确定第二语种词语对应的混淆网络。其中，混淆网络包括第二语种词语的各音素序列在同一位置的音素及对应的后验概率。其中，将发音文本中的音素序列在同一位置的相同音素的后验概率相加。在本实施例中，音素序列中的音素的后验概率与音素序列的后验概率相同，预定标签的后验概率与对应的音素序列的后验概率相同。以下以在混淆网络中，对应位置的音素处于同一行为例进行说明，对于上述示例apple，可以得到如下混淆网络：

(0.85,A1)(0.15,<eps>)

(0.50,Y)(0.35,<eps>)(0.15,E1)

(1.00,p)

(0.85,o3)(0.15,e5)

(1.00,l)

在一种可选的实现方式中，步骤S124c还包括：对于同一位置的音素，删除该位置上的各音素中小于平均后验概率的音素，并对各音素的后验概率进行标准化处理以获取混淆网络，由此，可以减小语音识别的计算量，以提高语音识别效率。对于上述示例的第二语种词语apple的音素序列中，第一位置对应两个音素“A1”和“<eps>”，平均后验概率为0.5。第二位置对应三个音素“Y”、“<eps>”和“E1”，平均后验概率为1/3。第三位置对应一个音素“p”，平均后验概率为1。第四位置对应两个音素“o3”和“e5”，平均后验概率为0.5。第五位置对应一个音素“l”，平均后验概率为1。则在第二语种词语apple的混淆网络中，删除同一位置上的各音素中小于平均后验概率的音素，并对各音素的后验概率进行标准化处理后的混淆网络如下所示：

(1.00,A1)

(10/17,Y)(7/17,<eps>)

(1.00,p)

(1.00,o3)

(1.00,l)

步骤S125，根据混淆网络确定第二语种词语的发音图。

在一种可选的实现方式中，若音素级语音识别系统获取的音素序列中的音素包括位置信息，步骤S125包括：

采用预定的算法将对应的表征位置信息的符号插入混淆网络的各音素中以更新混淆网络，并根据更新后的混淆网络确定第二语种词语的发音图。

可选的，预定算法如下所示：

以上述第二语种词语apple对应的混淆网络为例，更新后的混淆网络如下所示：

(0.85,A1_B)(0.15,<eps>)

(0.50,Y_I)(0.35,<eps>)(0.15,E1_B)

(1.00,p_I)

(0.85,o3_I)(0.15,e5_I)

(1.00,l_E)

在一种可选的实现方式中，上述示例第二语种词语apple的发音图如图4所示，其中，各音素的后验概率未在图4中显示，其中，本实施例的发音图是基于FST或WFST构建的。

在一种可选的实现方式中，还可以采用上述类似的方法来创建第一语种的发音图，在此不再赘述，本实施例的发音词典的示意图如图5所示。其中，如图5所示，发音词典包括中文词语“早安”和英文词语“apple”等。应理解，图5所示的发音词典仅仅是示例性的，本实施例并不对此进行限制。

可选的，本实施例的发音词典可应用于kaldi解码器或其他任意FST/WFST解码器。kaldi解码器的基本解码图谱HCLG＝H*C*L*G。其中，G为语言模型；L为发音词典；C表征语境相关性，输出为音素，输入符号表征上下文相关音素；H为声学模型，其输出为音素上下文相关音素，输入包含概率分布函数。其中，为了使得L(发音词典)是可确定化的，在发音词典中引入消歧符号，如图5中#1、#2等。消歧符号通常被添加在一个词语对应的音素序列尾部，如图5中“早安”的音素序列尾部。当一个音素序列是另一个音素序列的前缀时，在音素序列尾部加上消歧符号，以使得发音词典是可确定化的。在本实施例中，对于发音图中第二语种词语的音素序列，通过在退出和进入循环“1＝loop”时，加入消歧符号，如图5所示，第二语种词语“apple”的音素序列在退出“1＝loop”和进入“1＝loop”时均添加了消歧符号#2，由此可以使得在发音词典中第二语种词语是可确定化的。

图6是本发明实施例的发音词典更新方法的流程图。在一种可选的实现方式中，本实施例的语音识别方法还包括更新发音词典，如图6所示，本实施例的发音词典更新方法包括以下步骤：

步骤S210，根据各所述第二语种词语对应的发音文本训练g2p统计模型。g2p算法是一种自动预测词汇音素序列的方法，通过建模方式，将未知音素序列的词语通过g2p统计模型预测出音素序列。在本实施例中，将上述各第二语种词语对应的发音文本作为训练数据以训练g2p统计模型，可以使得训练好的g2p统计模型预测根据第二语种词语的拼写预测出该第二语种词语的音素序列。由此，本实施例的g2p统计模型预测的该第二语种词语的音素序列符合以第一语种为母语的用户的发音习惯，进一步提高了语音识别的准确性。

步骤S220，根据g2p统计模型预测新第二语种词语的至少一个音素序列。例如，当前发音词典中没有第二语种词语“phone”的发音图，则将第二语种词语“phone”输入至训练好的g2p统计模型中，训练好的g2p统计模型的输出为第二语种词语“phone”对应的至少一个音素序列。

步骤S230，根据新第二语种词语的至少一个音素序列确定所述新第二语种词语的发音图。其中，获取第二语种词语的发音图的方法与图2和图3所述的根据音素序列确定发音图的方法类似，在此不再赘述。

步骤S240，将新第二语种词语的发音图添加至发音字典以更新发音字典。在一种可选的实现方式中，给新第二语种词语分配新的消歧符号，并将其添加至发音词典中以更新发音词典。

由此，本实施例通过训练g2p统计模型，可以逐步完善发音词典，以进一步提高语音识别的准确性。可选的，在具体实施过程中，还可以在根据g2p统计模型的输出进行人工核查，以确保发音词典的准确性。

图7是本发明实施例的发音词典创建装置的示意图。本实施例的发音词典创建装置7包括发音图构建单元71和发音词典构建单元72。发音图构建单元71被配置为根据音素级语音识别系统构建第二语种词语的发音图。发音词典构建单元72被配置为所述第二语种词语的发音图确定所述发音字典。其中，音素级语音识别系统包括基于第一语种音素集预先训练的声学模型以及基于第一语种音素集构建的语言模型。语言模型根据预先设置的规则基于第一语种音素集构建，以使得音素级语音识别系统获取的音素序列不包含连续相同的音素。

在一种可选的实现方式中，发音图构建单元71包括音素序列获取子单元711、发音文本获取子单元712、参考确定子单元713、混淆网络确定子单元714和发音图确定子单元715。其中，音素序列获取子单元711被配置为将第二语种词语的m个发音输入音素级语音识别系统以获取每个发音对应的n个音素序列以及各音素序列对应的后验概率，m大于等于1，n大于等于1。发音文本获取子单元712被配置为对m*n个音素序列进行去重复处理，并对去重复处理后的音素序列的后验概率进行标准化处理以获取发音文本。参考确定子单元713被配置为根据预定条件确定发音文本对应的参考音素序列，将发音文本中除参考音素之外的音素序列确定为第一音素序列。混淆网络确定子单元714被配置为根据第一音素序列与参考音素序列的最小编辑距离确定所述第二语种词语对应的混淆网络。发音图确定子单元715被配置为根据混淆网络确定第二语种词语的发音图。

在一种可选的实现方式中，混淆网络确定子单元714包括对齐模块714a、标签插入模块714b和混淆网络确定模块714c。其中，对齐模块714a被配置为根据最小编辑距离将第一音素序列与参考音素序列对齐。标签插入模块714b被配置为响应于第一音素序列和/或参考音素序列存在空音素位置，在空音素位置插入预定标签，以获取对齐后的参考音素序列和第一音素序列。混淆网络确定模块714c被配置为根据对齐后的参考音素序列和第一音素序列确定第二语种词语对应的混淆网络。

在本实施例中，音素级语音识别系统中的声学模型基于第一语种音素集进行训练获得，音素级语音识别系统中的语言模型基于第一语种音素集构建，由此，可以根据第一语种音素集对第二语种词语进行注音，使得发音词典更符合以第一语种为母语的用户对第二语种进行发音的发音习惯，以提高多语种混合语音的识别准确率。

在一种可选的实现方式中，发音词典创建装置7还包括更新单元73，被配置为更新发音词典。可选的，更新单元73包括训练子单元731、预测子单元732和更新子单元733。其中，训练子单元731被配置为根据各所述第二语种词语对应的发音文本训练g2p统计模型。预测子单元732被配置为根据g2p统计模型预测新第二语种词语的至少一个音素序列。更新子单元733被配置为根据新第二语种词语的至少一个音素序列确定所述新第二语种词语的发音图。由此，通过训练g2p统计模型，可以逐步完善发音词典，以进一步提高语音识别的准确性。可选的，在具体实施过程中，还可以在根据g2p统计模型的输出进行人工核查，以确保发音词典的准确性。

图8是本发明实施例的语音识别装置的示意图。如图8所示，本实施例的语音识别装置8包括接收单元81、特征信息获取单元82和识别结果获取单元83。其中，接收单元81被配置为接收待识别语音。特征信息获取单元82被配置为对待识别语音进行特征提取以获取特征信息。识别结果获取单元83被配置为将待识别语音的特征信息输入语言识别系统进行识别以获取识别结果。其中，语言识别系统包括基于上述方式预先创建的发音字典、声学模型和语言模型。在本实施例中，在本实施例中，声学模型基于第一语种音素集进行训练获得。语音模型根据预定规则基于第一语种音素集构建。发音字典包括第二语种词语的发音图，其中，第二语种词语的发音图根据音素级语音识别系统构建，其中音素级语音识别系统包括上述声学模型和语言模型。在一种可选的实现方式中，本实施例的发音词典还包括第一语种词语的发音图，以识别多个语种混合语音的识别准确率。在一种可选的实现方式中，语言识别系统为FST或WFST，例如上述解码图谱为HCLG的kaldi解码器等。

本发明实施例通过将接收到的待识别语音的特征信息输入至语言识别系统进行识别，以获取语音识别结果，其中，语言识别系统包括预先创建的发音字典、声学模型和语言模型，所述发音字典包括根据音素级语音识别系统构建的第二语种词语的发音图，所述音素级语音识别系统包括所述声学模型和语言模型，所述声学模型基于所述第一语种音素集训练获得，所述语言模型基于所述第一语种音素集构建，因此，在本实施中，可以根据第一语种音素集对第二语种词语进行注音，以使得发音词典更符合以第一语种为母语的用户对第二语种进行发音的发音习惯，由此，可以提高多个语种混合使的语音识别准确率。

图9是本发明实施例的电子设备的示意图。如图9所示，电子设备9：至少包括一个处理器91；以及，与处理器91通信连接的存储器92；以及，与扫描装置通信连接的通信组件93，通信组件93在处理器91的控制下接收和发送数据；其中，存储器92存储有可被至少一个处理器91执行的指令，指令被至少一个处理器91执行以实现上述任一实施方式的语音识别方法。

具体地，电子设备9包括：一个或多个处理器91以及存储器92，图9中以包括一个处理器91为例，处理器91用于执行本实施例中的语音识别方法的至少一个步骤。处理器91和存储器92可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器92作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器91通过运行存储在存储器92中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本发明实施例的语音识别方法。

存储器92可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器92可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器92可选包括相对于处理器91远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器92存储有一个或者多个单元，当一个或者多个单元被处理器91执行时，执行上述任意方法实施方式中的语音识别方法。

本发明的另一个实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本发明实施方式所提供的方法。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

接收待识别语音；

对所述待识别语音进行特征提取以获取特征信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，根据音素级语音识别系统构建所述第二语种词语的发音图包括：

根据所述发音文本创建所述第二语种词语的发音图。

4.根据权利要求3所述的方法，其特征在于，根据所述发音文本创建所述第二语种词语的发音图包括：

根据所述混淆网络确定所述第二语种词语的发音图。

5.根据权利要求4所述的方法，其特征在于，根据所述第一音素序列与所述参考音素序列的最小编辑距离确定所述第二语种词语对应的混淆网络包括：

6.根据权利要求5所述的方法，其特征在于，根据所述对齐后的参考音素序列和第一音素序列确定所述第二语种词语对应的混淆网络包括：

对各音素的后验概率进行标准化处理以获取所述混淆网络。

7.根据权利要求4所述的方法，其特征在于，所述音素级语音识别系统获取的音素序列中的音素包括位置信息；

删除所述各音素序列的音素中表征位置信息的符号；

根据所述混淆网络确定所述第二语种词语的发音图包括：

根据更新后的混淆网络确定所述第二语种词语的发音图。

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据各所述第二语种词语对应的发音文本训练g2p统计模型；

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行以实现如权利要求1-8中任一项所述的方法。