CN110675854A

CN110675854A - 一种中英文混合语音识别方法及装置

Info

Publication number: CN110675854A
Application number: CN201910780880.1A
Authority: CN
Inventors: 张广学; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 王静
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2020-01-10
Anticipated expiration: 2039-08-22
Also published as: CN110675854B

Abstract

本发明公开一种中英文混合语音识别方法及装置，属于语音识别技术领域，该方法包括，获取中英文混合词典，该中英文混合词典包括：训练文本，基于“汉字‑拼音”和“拼音‑音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则；将中英文混合词典作为训练词典，进行语言模型训练，得到训练后的语言模型，训练语料，对语料提取语音特征，基于语音特征采用时延神经网络进行声学模型训练，得到训练后的声学模型；结合训练后的声学模型和训练后的语言模型对中英文混合语音进行语音识别。本发明避免对每个国际音标建立一个音素，解决了语音模型庞大、解码速度慢的问题，提高了中英文混合语音的识别正确率。

Description

一种中英文混合语音识别方法及装置

技术领域

本发明属于语音识别领域，特别涉及一种中英文混合语音识别方法及装置。

背景技术

目前，随着经济的发展、科技的进步，人们生活日益全球化，使用混合语言交流的现象已经成为一种普遍现象。在我们实际生活中，对常用、甚至是特殊领域英文是有需求的，但现有的语音识别模型很少进行中英文混合语音识别。中英文混合语言之间的声学和语言之间的复杂性给语音识别带来挑战。

现有技术中，在中英文混合语音识别的过程中，针对训练文本中的中英文表达和英文表达，需要在词典中建立与其相对应的音素。在词典中，对每一个国际音标建立一个相应的音素，则会使语音模型变得庞大，并且解码速度变慢。使的中英文混合语音识别速度慢，效率低。

发明内容

为了至少解决上述技术问题，本发明提供了一种中英文混合语音识别方法及装置，采用中英文混合词典，避免对每个国际音标建立一个音素，对中英文发音相似的音素标注为中文音素、做特殊标记，解决了语音模型庞大、解码速度慢的问题，提高了中英文混合语音的识别正确率。

根据本发明第一方面，提供了一种中英文混合语音识别方法，包括：

获取中英文混合词典，所述中英文混合词典包括：训练文本，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则；

将所述中英文混合词典作为训练词典，进行语音模型训练，得到训练后的语言模型，训练语料，基于语料提取语音特征，基于语音特征采用时延神经网络进行声学模型训练，得到训练后的声学模型；

结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。

进一步地，所述训练语料，包括，基于自定义数据集以及公开数据进行语料训练。

进一步地，所述训练文本，包括：收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。

进一步地，所述基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则，包括：对所述训练文本中的英文表达、中英文表达中的英文音素构建：辅音-元音-辅音的结构，以及辅音-元音的结构，然后，基于“汉字-拼音”和“拼音-音素”的结构生成音素规则。

进一步地，所述基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则时，还包括：对受中文发音影响的英文，采用相对应的中文标注。

进一步地，所述方法还包括：对中英文发音相似的音素，标注为中文音素，并进行特殊标记，以区别与不受中文发音影响的英文。

进一步地，所述基于语料采用时延神经网络进行声学模型训练之前，包括：将所述时延神经网络的延时参数设置为大于等于3，小于等于5；所述时延神经网络对每帧音频提取13维语音特征。

进一步地，所述结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别，包括：

从中英文混合语音中提取语音特征，根据所述语音特征获取匹配的训练后的声学模型，获取与所述训练后的声学模型对应的训练后的语言模型，根据所述训练后的语言模型对应的训练词典，对所述语音特征进行识别，获取并输出与语音特征对应的文本。

在本发明第二方面，提供一种中英文混合语音识别装置，包括：

获取模块，用于获取中英文混合词典，所述中英文混合词典包括：训练语料、训练文本，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则；

训练模块，用于将所述中英文混合词典作为训练词典，进行语音模型训练，得到训练后的语言模型，基于语料采用时延神经网络进行声学模型训练，得到训练后的声学模型；

识别模块，用于结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。

在本发明第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序用于实现如上所述的中英文混合语音识别方法。

本发明的有益效果：通过采用基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文、中英文表达生成音素规则的方式，能够有效避免传统词典中，对每一个国际音标建立一个相应的音素，导致语音模型变得庞大，并且解码速度变慢的问题。通过将一些中英文发音相似的音素块标注为中文音素并进行特殊标记，对其他不受中文发音影响的英文，则对其“拼音”采用其他标注符号的方式降低语言模型的规模，进一步提高工作效率，同时能够有效提高中文识别的解码正确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明提供的一种中英文混合语音识别方法流程图；

图2为本发明提供的一种中英文混合语音识别装置结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供一种中英文混合语音识别方法，如图1所示，包括：

步骤201：获取中英文混合词典，中英文混合词典包括：训练文本，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则；

在本发明实施例中，在训练文本时，具体可以收集生活中的对话、写作、专有名词等，更进一步地，可以收集生活中的对话、写作、专有名词等中文表达、中英文表达以及英文表达方式。本发明技术方案，在一方面上，收集规范、严谨、专业的中文表达、中英文表达以及英文表达方式，在另一方面上，收集表达自由，如生活中的对话的中文表达、中英文表达以及英文表达方式，在两个维度上全面地收集中文、中英文、以及中英文的表达方式，使得经训练得到的文本更为丰富、全面，扩大了文本的数据量，进而增大了中英文混合词典中的音素规则的存储量，提高了对中英文混合语音识别的准确度。

在本发明实施例中，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则，就英文音素来说，首先构建辅音-元音-辅音的结构，以及辅音-元音的结构。其中，“辅-元-辅”，即为：辅音-元音-辅音的结构，“辅-元”即为：辅音-元音的结构，再基于“汉字-拼音”和“拼音-音素”的结构，生成音素规则。

下面进行举例说明，如：believe[bI'li:v]，其对应的音素建立为“辅-元”bI和“辅-元-辅”liv:。

相对应的，就英文对应的“拼音”来说，对受中文发音影响的英文，在进行“拼音”标注时，采用相对应的中文标注。以此适应国人部分英文发音受中文发音的影响。另外，对中英文发音相似的音素，标注为中文音素，并进行特殊标记，以区别于不受中文发音影响的英文，对其他不受中文发音影响的英文，则对其“拼音”采用其他标注符号，从而降低语音模型的规模，解决现有技术中语音模型规模庞大的问题，同时能够提升在语音识别时解码的速度。

在本发明实施例中，通过采用这种基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文、中英文表达生成音素规则的方式，能够有效避免传统词典中，对每一个国际音标建立一个相应的音素，导致语音模型变得庞大，并且解码速度变慢的问题。以及在仅使用汉语音素来标注英文音素的情形下，降低中文识别的解码正确率的缺陷。

步骤202：将中英文混合词典作为训练词典，进行语音模型训练，得到训练后的语言模型，训练语料，对语料提取语音特征，基于语音特征采用时延神经网络进行声学模型训练，得到训练后的声学模型；

在本发明实施例中，基于3-gram进行语音模型训练，得到训练后的语言模型，时延神经网络基于语料进行声学模型训练，其中，在进行声学模型训练之前，可以将延时参数可以设置为大于等于3，小于等于5，并对每帧提取13维语音特征，得到语音特征到音素的映射。进一步地，本技术方案可以将延时参数设置为5，并对每帧提取13维语音特征。以此可以获取到更大的时域范围语音特征，进而解决了一部分英文单词发音时间较长，不能够获取足够的英文发音特征(语音特征)的问题，从而保障了提取到的英文发音特征的完整性，保障了中英文混合语音识别的准确度，提高识别的正确率。

步骤203：结合训练后的声学模型和语言模型对中英文混合语音进行语音识别。

在本发明实施例中，对中英文混合语音进行识别时，包括：从中英文混合语音中提取语音特征，根据所述语音特征获取匹配的训练后的声学模型，获取与该训练后的声学模型对应的训练后的语言模型，根据训练后的语言模型获取其对应的训练词典，依据该训练词典对语音特征进行识别，从训练词典中获取并输出与语音特征对应的文本。

在本发明的另一实施例中，在进行中英文混合语音识别前，需要预先训练语料，对语料提取语音特征，在基于语音特征采用时延神经网络训练声学模型，进而得到训练后的声学模型。从而对语料、语音特征以及训练后的声学模型建立关联。

进行中英文混合语音识别前，还需要训练与语料对应的文本，对文本中的英文表达、中英文表达，基于“汉字-拼音”和“拼音-音素”的结构，生成音素规则，形成中英文混合词典，在基于“汉字-拼音”和“拼音-音素”的结构，生成音素规则的过程中，不仅对受中文发音影响的英文，采用相对应的中文标注，还对中英文发音相似的音素，标注为中文音素，并进行特殊标记，以区别与不受中文发音影响的英文。再基于中英文混合词典进行语音模型训练，得到训练后的语言模型，以此对文本、中英文混合词典以及语言模型建立关联，进而完成语料、语音特征、声学模型、语言模型、中英文混合词典、语料对应的文本之间建立关联。

在进行中英文混合语音识别时，对中英文混合语音进行语音特征提取，再基于提取到的语音特征获取与之匹配的声学模型，根据声学模型获取对应的语言模型，基于语言模型查找对应的中英文混合词典，根据中英文混合词典查找与该语音特征对应的文本，输出文本，完成中英文混合语音识别。

在本发明技术方案中，通过采用基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文、中英文表达生成音素规则的方式的中英文混合词典，能够有效避免传统词典中，对每一个国际音标建立一个相应的音素，导致语音模型变得庞大，并且解码速度变慢的问题。通过将一些中英文发音相似的音素块标注为中文音素并进行特殊标记，对其他不受中文发音影响的英文，则对其“拼音”采用其他标注符号的方式降低语言模型的规模，进一步提高工作效率，同时能够有效提高中文识别的解码正确率。

在本发明的另一方面，提供一种中英文混合语音识别装置，如图2所示，包括：

获取模块401，用于获取中英文混合词典，所述中英文混合词典包括：训练文本，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则；

在本发明装置中，获取模块401，训练文本，包括：收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。本发明技术方案，获取模块401在一方面上，通过收集规范、严谨、专业的中文表达、中英文表达以及英文表达方式，在另一方面上，收集表达自由，如生活中的对话的中文表达、中英文表达以及英文表达方式，在两个维度上全面地收集中文、中英文、以及中英文的表达方式，使得经训练得到的文本更为丰富、全面，扩大了文本的数据量，进而增大了中英文混合词典中的音素规则的存储量，提高了对中英文混合语音识别的准确度。

在基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则的过程中，就英文音素来说，先构建辅音-元音-辅音的结构，以及辅音-元音的结构。其中，“辅-元-辅”，即为：辅音-元音-辅音的结构，“辅-元”即为：辅音-元音的结构，再基于“汉字-拼音”和“拼音-音素”的结构，生成音素规则。

相对应的，就英文对应的“拼音”来说，对受中文发音影响的英文，在进行“拼音”标注时，采用相对应的中文标注。以此适应国人部分英文发音受中文发音的影响。另外，对中英文发音相似的音素，标注为中文音素，并进行特殊标记，以区别与不受中文发音影响的英文，降低语言模型的规模。对其他不受中文发音影响的英文，则对其“拼音”采用其他标注符号，从而降低语音模型的规模，解决现有技术中语音模型规模庞大的问题，同时能够提升在语音识别时解码的速度。

训练模块402，用于将所述中英文混合词典作为训练词典，进行语音模型训练，得到训练后的语言模型，训练语料，对语料提取语音特征，基于语料采用时延神经网络进行声学模型训练，得到训练后的声学模型；

在本发明实施例中，训练模块402，用于训练语言模型和声学模型，具体基于3-gram进行语音模型训练，得到训练后的语言模型，时延神经网络基于语料进行声学模型训练，其中，在进行声学模型训练之前，可以将延时参数设置为大于等于3，小于等于5的参数，优选地，可以将延时参数设置为5，并对每帧提取13维语音特征，得到语音特征到音素的映射。

识别模块403，用于结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别。

在本发明实施例中，识别模块403，用于对中英文混合语音进行识别时，包括：从中英文混合语音中提取语音特征，根据所述语音特征获取匹配的训练后的声学模型，获取与该训练后的声学模型对应的训练后的语言模型，根据训练后的语言模型获取其对应的训练词典，依据该训练词典对语音特征进行识别，从训练词典中获取并输出与语音特征对应的文本。

在本发明的第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序用于实现中英文混合语音识别方法，其中，中英文混合语音识别方法，包括：

获取中英文混合词典，中英文混合词典包括：训练文本，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则；

在本发明实施例中，所述训练语料，包括，基于自定义数据集以及公开数据进行语料训练。所述训练文本，包括：收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。

进一步地，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则，包括：对所述训练文本中的英文表达、中英文表达中的英文音素构建：辅音-元音-辅音的结构，以及辅音-元音的结构，然后，基于“汉字-拼音”和“拼音-音素”的结构生成音素规则。

进一步地，对受中文发音影响的英文，采用相对应的中文标注。

将中英文混合词典作为训练词典，基于3-gram进行语音模型训练，得到训练后的语言模型，基于语料采用时延神经网络进行声学模型训练，得到训练后的声学模型；

在本发明实施例中，时延神经网络基于语料进行声学模型训练，其中，延时参数设置为5，在对中英文混合语音进行语音识别时，所述时延神经网络对每帧音频提取13维特征。

结合训练后的声学模型和语言模型对中英文混合语音进行语音识别。

在本发明实施例中，通过采用基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文、中英文表达生成音素规则的方式，能够有效避免传统词典中，对每一个国际音标建立一个相应的音素，导致语音模型变得庞大，并且解码速度变慢的问题。通过将一些中英文发音相似的音素块标注为中文音素并进行特殊标记，对其他不受中文发音影响的英文，则对其“拼音”采用其他标注符号的方式降低语言模型的规模，进一步提高工作效率，同时能够有效提高中英文识别的解码正确率，提高语音识别准确度。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种中英文混合语音识别方法，其特征在于，包括：

将所述中英文混合词典作为训练词典，进行语音模型训练，得到训练后的语言模型，训练语料，对语料提取语音特征，基于语音特征采用时延神经网络进行声学模型训练，得到训练后的声学模型；

2.如权利要求1所述的方法，其特征在于，

所述训练语料，包括，基于自定义数据集以及公开数据进行训练得到语料。

3.如权利要求1所述的方法，其特征在于，

所述训练文本，包括：收集生活中的对话、写作、专有名词中的中文表达、中英文表达以及英文表达方式。

4.如权利要求1所述的方法，其特征在于，所述基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则，包括：

对所述训练文本中的英文表达、中英文表达中的英文音素构建：辅音-元音-辅音的结构，以及辅音-元音的结构，然后，基于“汉字-拼音”和“拼音-音素”的结构生成音素规则。

5.如权利要求1所述的方法，其特征在于，所述基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则时，还包括：

对受中文发音影响的英文，采用相对应的中文标注。

6.如权利要求1所述的方法，其特征在于，

所述方法还包括：对中英文发音相似的音素，标注为中文音素，并进行特殊标记，以区别与不受中文发音影响的英文。

7.如权利要求1所述的方法，其特征在于，

所述基于语料采用时延神经网络进行声学模型训练之前，包括：将所述时延神经网络的延时参数设置为大于等于3，小于等于5；

所述时延神经网络对每帧音频提取13维语音特征。

8.如权利要求1所述的方法，其特征在于，

所述结合所述训练后的声学模型和所述训练后的语言模型对中英文混合语音进行语音识别，包括：

9.一种中英文混合语音识别装置，其特征在于，包括：

获取模块，用于获取中英文混合词典，所述中英文混合词典包括：训练文本，基于“汉字-拼音”和“拼音-音素”的结构，对训练文本中的英文表达、中英文表达生成音素规则；

训练模块，用于将所述中英文混合词典作为训练词典，进行语言模型训练，得到训练后的语言模型，训练语料，基于语料提取语音特征，基于语音特征采用时延神经网络进行声学模型训练，得到训练后的声学模型；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序，所述程序用于实现如权利要求1-8任一项所述的中英文混合语音识别方法。