CN111489742B

CN111489742B - 声学模型训练方法、语音识别方法、装置及电子设备

Info

Publication number: CN111489742B
Application number: CN201910081563.0A
Authority: CN
Inventors: 吴本谷; 宋莎莎
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2023-06-27
Anticipated expiration: 2039-01-28
Also published as: CN111489742A

Abstract

本发明公开了一种声学模型训练方法、语音识别方法、装置及电子设备，所述声学模型训练方法包括：获取双语混合字典，双语混合字典包括词汇与发音标注的对应关系，双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母；根据双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，训练数据至少包括双语混合音频数据；根据所确定的发音标注，得到文本对应的发音标注序列，并将发音标注序列确定为训练数据的训练标签；根据训练数据和训练数据的训练标签，对声学模型进行训练。本发明实施例提供的技术方案，训练得到的声学模型更加符合中国人说外语时的发音习惯，提高了识别双语混合语音的准确率。

Description

声学模型训练方法、语音识别方法、装置及电子设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声学模型训练方法、语音识别方法、装置及电子设备。

背景技术

随着外语教育的普及以及生活的全球化，人们的日常交流中常夹杂着外语词汇，比如想要听英语歌曲时，会说“给我放首yesterday once more”，也会有“你给我shut up”这样的表述。在人机交互中，双语混合的表述方式无疑给语音识别带来了挑战。

目前，采用音素融合的方法解决双语混合语音识别问题，即将汉语和外语的音素融合在一起，搭建声学模型。但是，这会导致音素集变大，音素数目的增加使得三因素状态数成倍增加，而且不同语言间类似的音素很难区分，与专用的声学模型相比，这种声学模型识别双语混合语音的正确率较低，无法满足用户需求。

发明内容

本发明实施例提供一种声学模型训练方法、语音识别方法、装置、电子设备及存储介质，以解决现有技术中识别双语混合语音的正确率较低的问题。

第一方面，本发明一实施例提供了一种声学模型训练方法，包括：

获取双语混合字典，双语混合字典包括词汇与发音标注的对应关系，双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母；

根据双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，训练数据至少包括双语混合音频数据；

根据所确定的发音标注，得到文本对应的发音标注序列，并将发音标注序列确定为训练数据的训练标签；

根据训练数据和训练数据的训练标签，对声学模型进行训练。

第二方面，本发明一实施例提供了一种语音识别方法，包括：

将待识别语音输入声学模型，得到待识别语音对应的发音标注序列，声学模型为根据第一方面的声学模型训练方法得到的声学模型，发音标注包括至少一个声母和/或韵母；

基于双语混合字典和语言模型，对待识别语音对应的发音标注序列进行识别，得到待识别语音对应的文本信息。

第三方面，本发明一实施例提供了一种声学模型训练装置，包括：

获取模块，用于获取双语混合字典，双语混合字典包括词汇与发音标注的对应关系，双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母；

标注模块，用于根据双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，训练数据至少包括双语混合音频数据，根据所确定的发音标注，得到文本对应的发音标注序列，并将发音标注序列确定为训练数据的训练标签；

训练模块，用于根据训练数据和训练数据的训练标签，对声学模型进行训练。

第四方面，本发明一实施例提供了一种语音识别装置，包括：

声学模块，用于将待识别语音输入声学模型，得到待识别语音对应的发音标注序列，声学模型为根据第一方面的声学模型训练方法得到的声学模型，发音标注包括至少一个声母和/或韵母；

识别模块，用于基于双语混合字典和语言模型，对待识别语音对应的发音标注序列进行识别，得到待识别语音对应的文本信息。

第五方面，本发明一实施例提供了一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，收发机用于在处理器的控制下接收和发送数据，处理器执行程序时实现上述声学模型训练或语音识别方法的步骤。

第六方面，本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现上述声学模型训练或语音识别方法的步骤。

本发明实施例提供的技术方案，利用汉语中的声母和韵母对外语词汇的发音进行标注，使得外语词汇的发音标注更加符合中国人的发音习惯，将标注好的外语词汇增加到原有的汉语字典中，得到包含汉语和外语的双语混合字典。采集掺杂有外语和汉语的双语混合音频数据作为训练数据添加到训练数据集中，并利用双语混合字典将训练数据集中的训练数据对应的文本包含的词汇逐个转换为发音标注，得到训练数据对应的发音标注序列，将发音标注序列确定为训练数据的训练标签，利用训练数据集中的训练数据和其对应的训练标签对声学模型进行训练，得到能够识别中国人说的掺杂有外语和汉语的双语混合音频的声学模型。由于采用符合汉语发音规则的声母和韵母对训练数据集中的双语混合音频数据进行标注，因此，训练得到的声学模型更加符合中国人说外语时的发音习惯，有助于提高识别双语混合语音的准确率，且利用汉语中的音素对外语词汇的发音进行标注，未增加声学模型中的音素的总数目，降低了声学模型的复杂性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别方法的应用场景示意图；

图2为本发明一实施例提供的声学模型训练方法的流程示意图；

图3为本发明一实施例提供的语音识别方法的流程示意图；

图4为本发明一实施例提供的声学模型训练装置的结构示意图；

图5为本发明一实施例提供的语音识别装置的结构示意图；

图6为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本发明实施例中涉及的名词进行解释：

音素(phone)，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。汉语中的音素分为声母、韵母两大类。声母包括：b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s。韵母按结构可分为单韵母、复韵母、鼻韵母等，其中，单韵母由一个元音构成的韵母，例如：a、o、e、ê、i、u、ü；复韵母是由两个或三个元音组成的韵母，例如：ai、ei、ao、ou、ia、ie、ua、uo、üe、iao、iou、uai、uei；鼻韵母由一个或两个元音后面带上鼻辅音构成的韵母，例如：an、ian、uan、üan、en、in、uen、ün、ang、iang、uang、eng、ing、ueng、ong、iong。

音节在语音学上指由一个或数个音素组成的语音结构基本单位，在汉语中一般一个汉字的读音即为一个音节，如“普通话”，由三个音节组成，一个音节由一个声母和一个韵母组成，或者由一个韵母组成。

声学模型(AM，Acoustic model)是语音识别系统中最为重要的部分之一，是把语音的声学特征分类对应到音素的模型。

语言模型(Language Model，LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。也就是说，语言模型是描述词汇概率分布的模型，一个能可靠反应语言识别时用词的概率分布的模型。语言模型在自然语言处理中占有重要的地位，在语音识别、机器翻译等领域得到了广泛应用。例如，利用语言模型能够得到语音识别多种假设词序列中可能性最大的一个词序列，或者给定若干词，预测下一个最可能出现的词语等。常用的语言模型包括N-Gram LM(N元语言模型)、Big-Gram LM(二元语言模型)、Tri-Gram LM(三元语言模型)。

字典是描述词汇和其发音标注之间的对应关系的集合，根据字典中记录的发音标注可确定每个词汇的发音，例如，汉字“我”对应的发音标注为[wǒ]。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，采用音素融合的方法解决双语混合语音识别问题，即将汉语和一门外语的音素融合在一起，搭建声学模型，但是，这会导致音素集变大，音素数目的增加使得三因素状态数成倍增加，而且不同语言间类似的音素很难区分。此外，对以汉语为母语的用户来说，一般都会使用汉语的发音体系去说其他语种的语言，用户的外语发音与标准的外语发音存在一定差异，例如，英语中的元音

辅音[θ]在汉语中就没有对应的发音，一般以汉语为母语的用户很难准确地发出这些音，因此，即使声学模型使用了很完美的外语发音音标，也并不一定能够很好地识别用户带有汉语发音习惯的外语发音。因此，现有的声学模型识别双语混合语音的正确率较低，无法满足用户需求，例如，无法满足用户点播外文资源的需求。

为此，本发明的发明人考虑到，利用汉语中的声母和韵母对外语词汇的发音进行标注，使得外语词汇的发音标注更加符合中国人的发音习惯，将标注好的外语词汇增加到原有的汉语字典中，得到包含汉语和外语的双语混合字典。采集掺杂有外语和汉语的双语混合音频数据作为训练数据添加到训练数据集中，并利用双语混合字典将训练数据集中的训练数据对应的文本包含的词汇逐个转换为发音标注，得到训练数据对应的发音标注序列，将发音标注序列确定为训练数据的训练标签，利用训练数据集中的训练数据和其对应的训练标签对声学模型进行训练，得到能够识别中国人说的掺杂有外语和汉语的双语混合音频的声学模型。由于采用符合汉语发音规则的声母和韵母对训练数据集中的双语混合音频数据进行标注，因此，训练得到的声学模型更加符合中国人说外语时的发音习惯，有助于提高识别双语混合语音的准确率，且利用汉语中的音素对外语词汇的发音进行标注，未增加声学模型中的音素的总数目，降低了声学模型的复杂性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

首先参考图1，其为本发明实施例提供的语音识别方法的应用场景示意图。用户10与用户端11交互过程中，用户端11采集用户10输入的语音并发送给服务器12，服务器12对用户端11采集的语音进行识别，并将语音识别结果反馈给用户端11。用户端11可根据语音识别结果向用户10作出反馈或执行相应的操作，例如，用户10输入的语音是“播放yesterday once more”，则用户端11根据服务器12反馈的语音识别结果播放歌曲《yesterday once more》。

这种应用场景下，用户端11和服务器12之间通过网络进行通信连接，该网络可以为局域网、广域网等。用户端11可以为智能音箱、机器人等，也可以为便携设备(例如：手机、平板、笔记本电脑等)，还可以为个人电脑(PC，Personal Computer)，服务器12可以为任何能够提供语音识别服务的服务器设备。

下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。

参考图2，本发明实施例提供一种声学模型训练方法，包括以下步骤：

步骤S201、获取双语混合字典，双语混合字典包括词汇与发音标注的对应关系，双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母。

本实施例中，双语混合字典中的词汇包括汉字和外语词汇。汉字对应的发音标注可以采用新华字典等标准字典中的发音标注，例如，汉字“我”对应的发音标注为[wǒ]。汉语的发音标注必须符合以下规则：一个声母加一个韵母，如[te]、[xiang]，或者，一个韵母[an]、[ang]。

本实施例中，双语混合字典中的外语词汇的发音标注包括至少一个发音单元。其中，发音单元包括第一类音节和第二类音节，第一类音节包括一个符合汉语发音规则的声母和/或韵母，第二类音节包括至少两个符合汉语发音规则的声母和/或韵母。具体的，第一类音节是符合汉语发音规则的音节，第一类音节可以是包括一个声母和一个韵母的音节，例如，[dei]、[xiang]等音节，第一类音节还可以是包括一个韵母的音节，例如，[an]、[ang]等音节。第二类音节包括多个符合汉语发音规则的音节，例如，[dabuliu]、[eikesi]等，[da]、[bu]、[liu]是三个符合汉语发音规则的音节，将这三个音节组合得到一个第二类音节，为此，增加了标注时可使用的发音单元，为一些在汉语中无法匹配到合适的发音单元的外语词汇提供更加精准的发音标注。

以外语词汇为英文词汇为例，单词“day”在双语混合字典中的发音标注为[dei]，其包含一个第一类音节，单词“shut”在双语混合字典中的发音标注为[sha，te]，其包含两个第一类音节，单词“yesterday”在双语混合字典中的发音标注为[ye，si，te，dei]，其包含四个第一类音节，字母“W”在双语混合字典中的发音标注为[dabuliu]，其包含一个第二类音节。

本实施例中所指的外语词汇可以是除汉语以外的任意一门语言的词汇，如英语词汇、日语词汇、德语词汇等。本发明实施例中主要是以英语词汇为例进行说明的，其他外语词汇与此类似，本发明实施例中不再一一举例说明。

步骤S202、根据双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，训练数据至少包括双语混合音频数据。

具体实施时，预先获取用于进行声学模型训练的训练数据集，该训练数据集中的训练数据包括双语混合音频数据。进一步的，根据双语混合字典，确定训练数据集中的训练数据对应的文本包含的每个词汇对应的发音标注。

步骤S203、根据所确定的发音标注，得到文本对应的发音标注序列，并将发音标注序列确定为训练数据的训练标签。

具体实施时，训练数据集中的各个训练数据已预先标注好了对应的文本，其中，双语混合音频数据对应的文本由汉字和外语词汇组成。利用双语混合字典，针对训练数据集中的每个训练数据，将该训练数据对应的文本中包含的汉字和外语词汇转换为对应的发音单元，按文本中包含的汉字和外语词汇的顺序，组合对应的发音单元，得到该文本对应的发音标注序列，将该发音标注序列作为该训练数据的训练标签。实际应用中，双语混合字典中使用到的每个发音单元对应一个唯一的编号，利用map表将发音标注序列转换为声学模型可以识别的多维向量(即训练标签)，使得计算机能够识别发音标注序列。其中，map表是根据双语混合字典确定的，下面给出map表的一个可能的实施例，具体为：统计双语混合字典中所有出现过的发音单元，并添加到map表中，从编号“1”开始顺序为map表中的每个发音单元标上编号。

举例说明，一个训练数据对应的文本为“你给我shut up”，利用双语混合字典确定该文本中的各个词汇对应的发音单元，假设双语混合字典中，“你”对应的发音单元为[ni]，“给”对应的发音单元为[gei]，“我”对应的发音单元为[wo]，“shut”对应的发音单元为[sha，te]，“up”对应的发音单元为[a，po]，按顺序串联各个词汇对应的发音单元，得到该文本对应的发音标注序列为[ni，gei，wo，sha，te，a，po]，假设发音单元[ni]在map表中的编号为“15”，[gei]在map表中的编号为“120”，[wo]在map表中的编号为“20”，[sha]在map表中的编号为“44”，[te]在map表中的编号为“100”，[a]在map表中的编号为“1”，[po]在map表中的编号为“900”，则发音标注序列[ni，gei，wo，sha，te，a，po]对应的训练标签为(15，120，20，44，100，1，900)。

步骤S204、根据训练数据和训练数据的训练标签，对声学模型进行训练。

本实施例中，可采用深度神经网络作为初始的声学模型，通过训练数据集训练得到最终可识别双语混合语音的声学模型。具体实施时，声学模型可以选用一层卷积神经网络(Convolutional Neural Network,CNN)加上五层时间递归网络(Long Short-TermMemory,LSTM)是长短期记忆网络的网络结构。在将训练数据集中的训练数据输入声学模型前，需要提取训练数据的声学特征向量，提取的声学特征可以Fbank特征、MFCC(MelFrequency Cepstral Coefficents，梅尔频率倒谱系数)特征或语谱图特征等，将训练数据对应的声学特征向量输入声学模型，得到声学模型输出的预测值，该预测值为声学模型对训练数据可能对应的发音标注序列的预测；然后，利用损失函数，结合训练数据的训练标签和声学模型输出的预测值计算模型损失，并利用梯度反传法根据模型损失调整声学模型的权重参数。训练过程中，声学模型中的权重参数会根据输入的训练数据不断进行调整，直至得到可准确识别出训练数据对应的发音标注序列的声学模型。

本发明实施例的声学模型训练方法，利用汉语中的声母和韵母对外语词汇的发音进行标注，使得外语词汇的发音标注更加符合中国人的发音习惯，将标注好的外语词汇增加到原有的汉语字典中，得到包含汉语和外语的双语混合字典。采集掺杂有外语和汉语的双语混合音频数据作为训练数据添加到训练数据集中，并利用双语混合字典将训练数据集中的训练数据对应的文本包含的词汇逐个转换为发音标注，得到训练数据对应的发音标注序列，将发音标注序列确定为训练数据的训练标签，利用训练数据集中的训练数据和其对应的训练标签对声学模型进行训练，得到能够识别中国人说的掺杂有外语和汉语的双语混合音频的声学模型。由于采用符合汉语发音规则的声母和韵母对训练数据集中的双语混合音频数据进行标注，因此，训练得到的声学模型更加符合中国人说外语时的发音习惯，有助于提高识别双语混合语音的准确率，且利用汉语中的音素对外语词汇的发音进行标注，未增加声学模型中的音素的总数目，降低了声学模型的复杂性。

具体实施时，可统计出用户常用的外语词汇添加到双语混合字典中，还可以针对语音识别的应用场景筛选出常用的外语词汇。例如，当应用在智能音箱中时，可根据最新的或热门的外语歌曲筛选出外语词汇添加到双语混合字典中，双语混合字典中包含的外语词汇均可根据应用场景的变化进行调整。

具体实施时，可通过如下方式构建双语混合字典中的外语词汇与发音标注的对应关系：针对双语混合字典中的每个外语词汇，根据外语词汇的发音，选择至少一个发音单元，确定为外语词汇对应的发音标注。

对于单音节的外语词汇，选择一个与该外语词汇具有相同发音的发音单元，作为该外语词汇的发音标注，例如，单词“day”的英文发音为[dei]，在汉语中存在相同发音的发音单元[dei]，则单词“day”在双语混合字典中的发音标注为[dei]。若不存在具有相同发音的发音单元，可选择一个与该外语词汇具有相似发音的发音单元，作为该外语词汇的发音标准，例如，单词“tree”的英文发音为[tri:]，在具有相似发音的发音单元为[chui]，则单词“tree”在双语混合字典中的发音标注为[chui]。

对于多音节的外语词汇，可选择多个发音单元作为该外语词汇的发音标注，这多个发音单元中的每个发音单元与该外语词汇中对应的音节具有相同或相似的发音。具体地，根据外语词汇对应的外语发音，确定其包含的外语音节，针对外语词汇对应的每个外语音节，首先选择一个与该外语音节具有相同发音的发音单元，作为该外语音节对应的发音标注，若不存在相同的发音单元，再选择一个与该外语音节具有相似发音的发音单元，作为该外语音节对应的发音标注，然后，根据外语词汇对应的每个外语音节对应的发音标注，得到外语词汇对应的发音标注。例如，单词“shut”的英文发音为[∫Λt]，其对应的[∫Λ]和[t]两个外语音节，与[∫Λ]发音最相似的发音单元为[sha]，与[t]发音最相似的发音单元为[te]，因此，单词“shut”在双语混合字典中的发音标注可以是[sha，te]。

实际说话时，汉语是带声调的，包含第一声调、第二声调、第三声调和第四声调。在读外语单词时，单词也由轻重音之分。为了更好地区分语音中的各个词汇，提高声学模型的识别精度，基于上述任一实施例，发音标注还包括表征外语词汇发音声调的声调标识，即发音标注中的每个发音单元还包括表征外语词汇发音声调的声调标识，例如[ē]、[é]、

[è]。

基于上述任一实施例，为了保证汉语对应的发音标注和外语对应的发音标注之间的相对独立性，避免语音识别时汉语的发音标注和外语的发音标注相互干扰，本发明实施例设立一个第一音节集合和一个第二音节集合。第一音节集合中包括在汉语中无对应汉字的第一类音节，例如，[dēi]、[déi]、[dèi]在汉语中无对应的汉字，将[dēi]、[déi]和[dèi]放入第一音节集合中。第二音节集合中包括在汉语中有对应汉字的第一类音节，例如，

在汉语中对应的汉字为“得”，/>

放入第二音节集合中。

相应地，在确定外语词汇对应的发音标注时，根据外语词汇的发音，依次从第一音节集合和第二音节集合中，选择至少一个发音单元，确定为外语词汇对应的发音标注。

需要说明的是，汉语对应的发音标注中的发音单元均来自第二音节集合，即，第一音节集合中的发音单元只用来标注外语词汇的发音标注。这样，可将外语和汉语区分开来，避免语音识别时汉语和外语之间相互干扰。

作为一种可能的实现方式，在给外语词汇标注时，也会优先选择第一音节集合中的发音单元。但是，第一音节集合中的发音单元数量有限，在确定外语词汇的发音标注时，优先从第一音节集合中选择发音单元，若第一音节集合中的不存在与外语词汇的发音相同或相似的发音单元，再从第二音节集合中选择发音单元。

举例说明，对于单音节的外语词汇，先在第一音节集合中选择一个与该外语词汇具有相同或相似发音的发音单元，作为该外语词汇的发音标注。例如，单词“day”的英文发音为[dei]，可选择第一音节集合中的[dèi]作为单词“day”在双语混合字典中的发音标注，以和汉字“得”区分开来。若第一音节集合中没有与该外语词汇具有相同或相似发音的发音单元，再从第二音节集合中选择一个与该外语词汇具有相同或相似发音的发音单元，作为该外语词汇的发音标注。

对于多音节的外语词汇，根据外语词汇对应的外语发音，确定其包含的外语音节，针对外语词汇对应的每个外语音节，首先从第一音节集合中选择一个与该外语音节具有相同或相似发音的发音单元，作为该外语音节对应的发音标注，若不存在相同或相似的发音单元，再从第二音节集合中选择一个与该外语音节具有相似发音的发音单元，作为该外语音节对应的发音标注，然后，根据外语词汇对应的每个外语音节对应的发音标注，得到外语词汇对应的发音标注序列。例如，单词“shut”的英文发音为[∫Λt]，其对应的[∫Λ]和[t]两个外语音节，针对[∫Λ]，在第一音节集合中，不存在与[∫Λ]具有相同或相似发音的发音单元，则从第二音节集合中选择一个与[∫Λ]发音最相似的发音单元[shā]，作为[∫Λ]对应的发音标注；针对[t]，从第一音节集合中选择一个与[t]发音相似的发音单元

作为[t]对应的发音标注；因此，单词“shut”在双语混合字典中的发音标注可以是[shā，/>

]。

通过发音单元的声调标识，可将发同一个音的外语词汇和汉语词汇区分开来，避免语音识别时汉语和外语之间相互干扰。

基于上述任一实施例，在确定外语词汇对应的发音标注时，如果在第一音节集合和第二音节集合中均不存在与外语词汇的放音相同或相似的发音单元，可选择第二类音节，确定为外语词汇对应的发音标注。

以英语为例，在实际应用过程中，存在用户采用拼读的方式读外语词汇情况，即直接读外语词汇中字母，例如，用户不知道如何读单词“once”，用户会直接读单词中的字母。因此，为了更好的应对上述情况，本发明实施例在构建双语混合字典时，将26个英文字母和其对应的发音标注添加到双语混合字典中，例如，字母A在双语混合字典中的发音标注为[ei]，字母K在双语混合字典中的发音标注为[kèi]。但是，个别字母不能使用第一类音节进行标注，如W、X等，若采用多个第一类音节对字母进行标注，例如，将字母W标注为[da，bu，liu]，后续容易将[da，bu，liu]这串发音标注序列识别为中文或其它的英文。为此，在确定英文字母的发音标注时，可用第二类音节对其进行标注，例如，字母W可以由da、bu、liu这三个第一类音节组成，则将第二类音节[dabuliu]作为字母W的发音标注，字母X可以由ei、ke、si这三个音节组成，则将第二类音节[eikesi]作为字母X的发音标注。

实际应用中，每个用户的外语发音都存在差异，以单词“once”为例，有些人读[wansi]，有些人读成[wang si]。为了识别同一外语词汇的多种不同发音，本发明实施例在构建双语混合字典中时，根据中国人的外语发音习惯，统计了双语混合字典中各个外语词汇对应的多种常见的发音，将多种常见的发音对应的发音标注均收入双语混合字典中。为此，本发明实施例中，双语混合字典中的一个外语词汇对应至少一个发音标注。相应地，训练数据集中包括同一外语词汇对应的所有发音标注对应的训练数据。例如，单词“once”对应两个发音标注，一个是[wan，si]，另一个是[wang，si]，训练数据集中，包括发音标注[wan，si]对应的训练数据，也包括发音标注[wang，si]对应的训练数据。

因此，基于本发明实施例的双语混合字典训练得到的声学模型能够识别同一外语词汇的多种不同发音，以适应不同地区不同用户的口音，提高用户体验。

基于上述任一实施例，作为一种可能的实现方式，训练数据集中的训练数据还包括中文音频数据，将中文音频数据的发音标注序列作为中文音频数据的训练标签。利用训练数据集中的中文音频数据和双语混合音频数据，对声学模型进行训练。

该方式下，基于中文音频数据和双语混合音频数据，对声学模型进行训练。

基于上述任一实施例，作为另一种可能的实现方式，声学模型为预先利用中文音频数据和中文音频数据的训练标签训练得到的声学模型，中文音频数据的训练标签为中文音频数据对应的发音标注序列。

该方式下，在已经利用中文音频数据训练好的声学模型的基础上，再利用双语混合音频数据的对声学模型进行迭代和优化，得到能够识别中国人说的双语混合语音的声学模型，同时，可提高模型训练的效率。

基于上述任一实施例，训练声学模型时，用于训练的双语混合音频数据的数量与中文音频数据的数量的比值不超过第一比值。

具体实施时，第一比值不大于0.5，即用于训练的双语混合音频数据的总量不超过中文音频数据总量的二分一。随着双语混合音频数据比例的增加，声学模型识别外语的准确度会得到明显的提高，但是，若加入过多的双语混合音频数据，会导致一些汉语被识别成外语词汇，尤其是语气词。为此，训练数据集中的双语混合音频数据的总量不要超过中文音频数据总量的二分一。当然，本发明实施例中不对第一比值的取值进行限定，可以根据实际需求配置第一比值的取值。

如图3所示，基于与上述声学模型训练方法得到是声学模型，本发明实施例还提供了一种语音识别方法，包括以下步骤：

步骤S301、将待识别语音输入声学模型，得到待识别语音对应的发音标注序列，发音标注包括至少一个声母和/或韵母。

本实施例中的声学模型为根据上述任一声学模型训练方法训练得到的声学模型。

步骤S302、基于双语混合字典和语言模型，对待识别语音对应的发音标注序列进行识别，得到待识别语音对应的文本信息。

具体实施时，提取待识别语音的声学特征向量，该待识别语音可以是中文语音或双语混合语音，将待识别语音的声学特征向量输入声学模型，声学模型输出待识别语音对应的发音标注序列；然后，在基于所述双语混合字典和语言模型确定的搜索空间中，搜索与发音标注序列最匹配的文字串，确定为待识别语音对应的文本信息，该具体过程为现有技术，不再赘述。

由于在训练声学模型时，采用符合汉语发音规则的声母和韵母对训练数据集中的双语混合音频数据进行标注，因此，训练得到的声学模型更加符合中国人说外语时的发音习惯，有助于提高识别双语混合语音的准确率。因此，本发明实施例的语音识别方法，基于上述声学模型来识别语音，能够有效识别中国人说的掺杂有外语和汉语的双语混合语音，提高用户体验。

如图4所示，基于与上述声学模型训练方法相同的发明构思，本发明实施例还提供了一种声学模型训练装置40，包括：获取模块401、标注模块402和训练模块403。

获取模块401，用于获取双语混合字典，双语混合字典包括词汇与发音标注的对应关系，双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母。

标注模块402，用于根据双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，训练数据至少包括双语混合音频数据，根据所确定的发音标注，得到文本对应的发音标注序列，并将发音标注序列确定为训练数据的训练标签。

训练模块403，用于根据训练数据和训练数据的训练标签，对声学模型进行训练。

进一步地，还包括字典构建模块，用于：针对双语混合字典中的每个外语词汇，根据外语词汇的发音，选择至少一个发音单元，确定为外语词汇对应的发音标注；发音单元包括第一类音节和第二类音节，第一类音节包括一个符合汉语发音规则的声母和/或韵母，第二类音节包括至少两个符合汉语发音规则的声母和/或韵母。

进一步地，字典构建模块具体用于：针对双语混合字典中的每个外语词汇，根据外语词汇的发音，依次从第一音节集合和第二音节集合中，选择至少一个发音单元，确定为外语词汇对应的发音标注；其中，第一音节集合中包括在汉语中无对应汉字的第一类音节，第二音节集合中包括在汉语中有对应汉字的第一类音节。

基于上述任一实施例，每个发音单元还包括表征外语词汇发音声调的声调标识。

基于上述任一实施例，双语混合字典中的一个外语词汇对应至少一个发音标注。

基于上述任一实施例，声学模型为预先利用中文音频数据和中文音频数据的训练标签训练得到的声学模型，中文音频数据的训练标签为中文音频数据对应的发音标注序列。

基于上述任一实施例，双语混合音频数据的数量与中文音频数据的数量的比值不超过第一比值。

本发明实施例提的声学模型训练装置与上述声学模型训练方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

如图5所示，基于与上述声学模型训练方法相同的发明构思，本发明实施例还提供了一种语音识别装置50，包括：声学模块501和识别模块502。

声学模块501，用于将待识别语音输入声学模型，得到待识别语音对应的发音标注序列。其中，声学模型为根据上述任一声学模型训练方法得到的声学模型，发音标注包括至少一个声母和/或韵母。

识别模块502，用于基于双语混合字典和语言模型，对待识别语音对应的发音标注序列进行识别，得到待识别语音对应的文本信息。

本发明实施例提的语音识别装置与上述语音识别方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述声学模型训练方法相同的发明构思，本发明实施例还提供了一种电子设备，该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、服务器等。如图6所示，该电子设备60可以包括处理器601、存储器602和收发机603。收发机603用于在处理器601的控制下接收和发送数据。

存储器602可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储声学模型训练方法或语音识别方法的程序。

处理器601可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令，按照获得的程序指令实现上述任一实施例中的声学模型训练方法或语音识别方法。

本发明实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述声学模型训练方法或语音识别方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种声学模型训练方法，其特征在于，包括：

获取双语混合字典，所述双语混合字典包括词汇与发音标注的对应关系，所述双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母；

根据所述双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，所述训练数据至少包括双语混合音频数据；

根据所确定的发音标注，得到所述文本对应的发音标注序列，并将所述发音标注序列确定为所述训练数据的训练标签；

根据所述训练数据和所述训练数据的训练标签，对声学模型进行训练；

其中，按照如下方式构建所述外语词汇与发音标注的对应关系：

针对所述双语混合字典中的每个外语词汇，根据所述外语词汇的发音，选择至少一个发音单元，确定为所述外语词汇对应的发音标注；所述发音单元包括第一类音节和第二类音节，所述第一类音节包括一个符合汉语发音规则的声母和/或韵母，所述第二类音节包括至少两个符合汉语发音规则的声母和/或韵母。

2.根据权利要求1所述的方法，其特征在于，所述选择至少一个发音单元，确定为所述外语词汇对应的发音标注，包括：

根据所述外语词汇的发音，依次从第一音节集合和第二音节集合中，选择至少一个发音单元，确定为所述外语词汇对应的发音标注；

其中，所述第一音节集合中包括在汉语中无对应汉字的第一类音节，所述第二音节集合中包括在汉语中有对应汉字的第一类音节。

3.根据权利要求1所述的方法，其特征在于，每个所述发音单元还包括表征外语词汇发音声调的声调标识。

4.根据权利要求1所述的方法，其特征在于，所述双语混合字典中的一个外语词汇对应至少一个发音标注。

5.根据权利要求1至4中任一所述的方法，其特征在于，所述声学模型为预先利用中文音频数据和所述中文音频数据的训练标签训练得到的声学模型，所述中文音频数据的训练标签为所述中文音频数据对应的发音标注序列。

6.根据权利要求5所述的方法，其特征在于，所述双语混合音频数据的数量与所述中文音频数据的数量的比值不超过第一比值。

7.一种语音识别方法，其特征在于，包括：

将待识别语音输入声学模型，得到所述待识别语音对应的发音标注序列，所述声学模型为根据权利要求1至6中任一所述声学模型训练方法得到的声学模型，所述发音标注包括至少一个声母和/或韵母；

基于所述双语混合字典和语言模型，对所述待识别语音对应的发音标注序列进行识别，得到所述待识别语音对应的文本信息。

8.一种声学模型训练装置，其特征在于，包括：

获取模块，用于获取双语混合字典，所述双语混合字典包括词汇与发音标注的对应关系，所述双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母；

标注模块，用于根据所述双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，所述训练数据至少包括双语混合音频数据，根据所确定的发音标注，得到所述文本对应的发音标注序列，并将所述发音标注序列确定为所述训练数据的训练标签；

训练模块，用于根据所述训练数据和所述训练数据的训练标签，对声学模型进行训练；

所述装置，还包括字典构建模块，用于：针对所述双语混合字典中的每个外语词汇，根据所述外语词汇的发音，选择至少一个发音单元，确定为所述外语词汇对应的发音标注；所述发音单元包括第一类音节和第二类音节，所述第一类音节包括一个符合汉语发音规则的声母和/或韵母，所述第二类音节包括至少两个符合汉语发音规则的声母和/或韵母。

9.根据权利要求8所述的装置，其特征在于，所述字典构建模块具体用于：针对所述双语混合字典中的每个外语词汇，根据所述外语词汇的发音，依次从第一音节集合和第二音节集合中，选择至少一个发音单元，确定为所述外语词汇对应的发音标注；

10.根据权利要求8所述的装置，其特征在于，每个所述发音单元还包括表征外语词汇发音声调的声调标识。

11.根据权利要求8所述的装置，其特征在于，所述双语混合字典中的一个外语词汇对应至少一个发音标注。

12.根据权利要求8至11中任一所述的装置，其特征在于，所述声学模型为预先利用中文音频数据和所述中文音频数据的训练标签训练得到的声学模型，所述中文音频数据的训练标签为所述中文音频数据对应的发音标注序列。

13.根据权利要求12所述的装置，其特征在于，所述双语混合音频数据的数量与所述中文音频数据的数量的比值不超过第一比值。

14.一种语音识别装置，其特征在于，包括：

声学模块，用于将待识别语音输入声学模型，得到所述待识别语音对应的发音标注序列，所述声学模型为根据权利要求1至6中任一所述声学模型训练方法得到的声学模型，所述发音标注包括至少一个声母和/或韵母；

识别模块，用于基于所述双语混合字典和语言模型，对所述待识别语音对应的发音标注序列进行识别，得到所述待识别语音对应的文本信息。

15.一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述收发机用于在所述处理器的控制下接收和发送数据，所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。