CN110930980A

CN110930980A - 一种中英文混合语音的声学识别模型、方法及系统

Info

Publication number: CN110930980A
Application number: CN201911274911.2A
Authority: CN
Inventors: 游永彬
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-03-27
Anticipated expiration: 2039-12-12
Also published as: CN110930980B

Abstract

本发明公开了中英文混合语音的声学识别模型、方法及系统。其中声学识别模型，包括：语音信息的特征提取单元、共享的深度神经网络层及独立的语音识别声学模型相关的深度神经网络层。共享的深度神经网络层其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构；独立的语音识别声学模型相关的深度神经网络层，其配置为前馈深度神经网络DNN。上述深度神经网络通过中文音素及英文音素的并集作为建模单元。因此本发明中的中英文混合语音的声学识别方法，模型中将语种分类信息通过一个门函数应用到识别网络中，控制识别网络的输出，最终提升模型对中英文的区分度，进而提升中英文识别的性能。

Description

一种中英文混合语音的声学识别模型、方法及系统

技术领域

本发明属于语音识别的技术领域，尤其涉及中英文混合语音的声学识别模型、方法及系统。

背景技术

语音识别是一种让机器通过识别和理解过程把语音信息转变为相应的文本或命令的人工智能技术。近年来，随着互联网的发展及语音识别产品在生活着的普及,中英文混合识别技术被越来越多的应用到了语音识别产品中。

现有技术中的，中英文双语语音识别方法需获取国际音标IPA标注的中英文混合词典，中英文混合词典包括：中文词典和经过中式英语修正的英文词典；将中英文混合词典作为训练词典，以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型，以国际音标的状态为目标，以联结主义时间分类器CTC为训练准则对模型进行训练，得到训练后的CTC声学模型；结合训练后的CTC声学模型对中英文混合语言进行语音识别。

现有技术中的方法采用两遍音素聚类的方法统一中英文音素集，重新训练得到中英文混合声学模型，并修正相应的双语发音字典，解码器根据这些实现中英文双语识别。

现有技术中的中英文双语识别方法的问题在于，使用合并的中英文音素，包括国际音标IPA，及聚类的方法合并音素的方法会降低中英文音素之间的区分度，带来更多的跨语言的识别错误。另外因为修改了音素集合，需要重新整理字典；将带来巨大的开销。现有技术中缺陷产生的主要原因在于国际音标IPA，及聚类的方法合并音素的方法，会合并中英文独立音素集合中发音比较相近的部分。

发明内容

本发明实施方式提供中英文混合语音的声学识别模型、方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明提供了中英文混合语音的声学识别模型，包括：语音信息的特征提取单元、共享的深度神经网络层及独立的语音识别声学模型相关的深度神经网络层。

语音信息的特征提取单元，其配置为从当前采集语音信息中提取当前语音特征。

共享的深度神经网络层，其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构。共享的深度神经网络层接收从语音信息的特征提取单元发送的当前语音特征，以及当前采集语音信息。对当前采集语音信息识别，获取第一识别解码且获取词图。

独立的语音识别声学模型相关的深度神经网络层，其配置为前馈深度神经网络DNN。接收共享的深度神经网络层获取的第一识别解码且获取词图，在词图上对共享的深度神经网络层重打分。在重打分的词图上检索获取语音识别结果。

共享的深度神经网络层及独立的语音识别声学模型相关的深度神经网络层，通过中文音素及英文音素的并集作为建模单元，使用CTC作为模型训练准则。

在本发明中英文混合语音的声学识别模型的另一种优选的实施方式中，还包括，语种分类单元。

语种分类单元，其配置为通过门函数辨识中文语种及英文语种，语种分类单元接收共享的深度神经网络层的第一识别解码且获取词图。语种分类单元的输出连接独立的语音识别声学模型相关的深度神经网络层。

第二方面，本发明提供了中英文混合语音的声学识别方法，该声学识别方法应用于上述中英文混合语音的声学识别模型。中英文混合语音的声学识别方法包括：

步骤S101，通过共享的深度神经网络层和声学模型资源对当前采集语音识别，获取第一识别解码且获取词图。

步骤S102，通过独立的语音识别声学模型相关的深度神经网络层在词图上对共享的深度神经网络层重打分。

步骤S103、在重打分的词图上检索获取语音识别结果。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，步骤S101中包括，通过共享的深度神经网络层和声学模型资源，通过解码器搜索算法获取第一识别解码且获取词图。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，独立的语音识别声学模型相关的深度神经网络层为基于神经网络的语言模型。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，共享的深度神经网络层为具有中文音素及英文音素的语言模型。声学模型资源包括中文音素及英文音素资源。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，步骤S101中还包括，通过语音采集设备采集当前采集语音。

第三方面，本发明提供了中英文混合语音的声学识别系统，包括，词图获取单元、重打分单元及识别单元，其中：

词图获取单元，通过共享的深度神经网络层和声学模型资源对当前采集语音识别，获取第一识别解码且获取词图。共享的深度神经网络层，其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构。共享的深度神经网络层接收从语音信息的特征提取单元发送的当前语音特征，以及当前采集语音信息。

重打分单元，配置为通过独立的语音识别声学模型相关的深度神经网络层在词图上对共享的深度神经网络层重打分。独立的语音识别声学模型相关的深度神经网络层，其配置为前馈深度神经网络DNN。接收共享的深度神经网络层获取的第一识别解码且获取词图。

识别单元、配置为重打分的词图上检索获取语音识别结果。

在本发明中英文混合语音的声学识别系统的另一种优选的实施方式中，词图获取单元，还配置为通过共享的深度神经网络层和声学模型资源，通过解码器搜索算法获取第一识别解码且获取词图。

在本发明中英文混合语音的声学识别系统的另一种优选的实施方式中，独立的语音识别声学模型相关的深度神经网络层为基于神经网络的语言模型。

共享的深度神经网络层为具有中文音素及英文音素的语言模型。声学模型资源包括中文音素及英文音素资源。

词图获取单元，还配置为通过语音采集设备采集当前采集语音。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施方式的方法的步骤。

第五方面，本发明实施方式还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行本发明任一实施方式的方法的步骤。

因此本发明中的中英文混合语音的声学识别模型、方法及系统，即联合优化的语种识别任务作为识别任务的补充，更容易使模型收敛到较好的局部最优值，防止过拟合。另外模型中将语种分类信息通过一个门函数应用到识别网络中，控制识别网络的输出，最终提升模型对中英文的区分度，进而提升中英文识别的性能。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施方式提供的中英文混合语音的声学识别方法的流程图。

图2为本发明一实施方式提供的中英文混合语音的声学识别系统的组成图。

图3为本发明另一实施方式提供的中英文混合语音的声学识别方法的流程图。

图4为本发明一实施方式提供的中英文混合语音的声学识别模型的结构示意图。

图5为本发明另一实施方式提供的中英文混合语音的声学识别模型的结构示意图。

图6是本发明一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参考图4，其示出了本发明一实施例提供的一种中英文混合语音的声学识别模型，其包括：语音信息的特征提取单元401、共享的深度神经网络层402及独立的语音识别声学模型相关的深度神经网络层403。

语音信息的特征提取单元401，其配置为从当前采集语音信息中提取当前语音特征。

共享的深度神经网络层402，其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构。共享的深度神经网络层接收从语音信息的特征提取单元发送的当前语音特征，以及当前采集语音信息。对当前采集语音信息识别，获取第一识别解码且获取词图。

独立的语音识别声学模型相关的深度神经网络层403，其配置为前馈深度神经网络DNN。接收共享的深度神经网络层获取的第一识别解码且获取词图，在词图上对共享的深度神经网络层重打分。在重打分的词图上检索获取语音识别结果。

在本发明中英文混合语音的声学识别模型的另一种优选的实施方式中，还包括，语种分类单元404。

语种分类单元404，其配置为通过门函数辨识中文语种及英文语种，语种分类单元接收共享的深度神经网络层的第一识别解码且获取词图。语种分类单元的输出连接独立的语音识别声学模型相关的深度神经网络层。

请参考图1，其示出了本发明一实施例提供的一种中英文混合语音的声学识别方法，该声学识别方法应用于上述中英文混合语音的声学识别模型。如图1所示，该方法包括：

步骤S101，获取第一识别解码且获取词图。

本步骤中，通过共享的深度神经网络层和声学模型资源对当前采集语音识别，获取第一识别解码且获取词图。

步骤S102，优化词图。

本步骤中，通过独立的语音识别声学模型相关的深度神经网络层在词图上对共享的深度神经网络层重打分。

步骤S103、语音识别。

本步骤中，在重打分的词图上检索获取语音识别结果。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，其中，所述步骤S101中包括，通过共享的深度神经网络层和声学模型资源，通过解码器搜索算法获取第一识别解码且获取词图。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，所述独立的语音识别声学模型相关的深度神经网络层为基于神经网络的语言模型。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，所述共享的深度神经网络层为具有中文音素及英文音素的语言模型。所述声学模型资源包括中文音素及英文音素资源。

在本发明中英文混合语音的声学识别方法的另一种优选的实施方式中，所述步骤S101中还包括，通过语音采集设备采集所述当前采集语音。

请参考图2，其示出了本发明一实施例提供的一种中英文混合语音的声学识别系统，其包括，词图获取单元101、重打分单元201及识别单元301，其中：

词图获取单元101，通过共享的深度神经网络层和声学模型资源对当前采集语音识别，获取第一识别解码且获取词图。共享的深度神经网络层，其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构。共享的深度神经网络层接收从语音信息的特征提取单元发送的当前语音特征，以及当前采集语音信息。

重打分单元201，配置为通过独立的语音识别声学模型相关的深度神经网络层在词图上对共享的深度神经网络层重打分。独立的语音识别声学模型相关的深度神经网络层，其配置为前馈深度神经网络DNN。接收共享的深度神经网络层获取的第一识别解码且获取词图。

识别单元301、配置为重打分的词图上检索获取语音识别结果。

在本发明中的中英文混合语音的声学识别方法的另一种实施方式中，本发明中的中英文混合语音的声学识别方法使用原有的中英文独立的音素集合，简单的将独立的中文，英文音素集合合并，提升音素间的区分度。同时多任务联合优化；在训练语音识别任务的同时，预测语种信息；并且共享底层的网络层增强模型的泛化能力及对中英文的区分度。

本发明是一种基于语种信息联合优化的中英文混合识别系统，如图3所示，系统结构和流程如下图所示；收集用户的语音信息后，利用预先训练的语言模型和声学模型资源及解码器搜索算法完成第一遍解码得到词图；然后利用基于神经网络的语言模型再词图上完成语言模型重打分；这里使用神经网络语言模型重打分主要有两方面考虑，首先相对于n元语法语言模型，神经网络语言模型可以建模更长的历史信息；其次，神经网络语言模型在一个连续空间上建模语言信息，可以减缓中英文语料数据稀疏带来的问题，最终提升模型的性能。最后在语言模型重打分后的词图上搜索得到最终的识别结果；本发明的重点在于基于语种信息联合优化的中英文混合识别声学模型训练。

本发明的核心是基于语种信息联合优化的中英文混合识别声学模型，其结构如图5所示，包括语音信息的特征提取，共享的深度神经网络层，独立的语音识别声学模型相关的深度神经网络层，联合优化的语种识别任务，及语音识别任务。这里共享的深度神经网络层是卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构，独立的语音识别声学模型相关模块是前馈神经网络DNN，并且使用中文音素及英文音素的并集作为识别任务的建模单元，避免音素合并带来的混淆；使用CTC作为模型训练准则。联合优化的语种识别任务作为识别任务的补充，更容易使模型收敛到较好的局部最优值，防止过拟合；另外模型中将语种分类信息通过一个门函数应用到识别网络中，控制识别网络的输出，最终提升模型对中英文的区分度，进而提升中英文识别的性能。

在另一些实施方式中，本发明实施方式还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施方式中的语音信息处理和使用方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

本发明提供了中英文混合语音的声学识别方法，该声学识别方法应用于上述中英文混合语音的声学识别模型。中英文混合语音的声学识别方法包括：

步骤S103、在重打分的词图上检索获取语音识别结果。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施方式中的语音信息处理方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施方式中的语音信息处理方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音信息处理单元的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音信息处理单元。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施方式还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音信息处理方法。

图6是本发明实施方式提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。语音信息处理方法的设备还可以包括：输入单元630和输出单元640。处理器610、存储器620、输入单元630和输出单元640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施方式语音信息处理方法。输入单元630可接收输入的数字或字符信息，以及产生与信息投放单元的用户设置以及功能控制有关的键信息输入。输出单元640可包括显示屏等显示设备。

上述产品可执行本发明实施方式所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施方式中详尽描述的技术细节，可参见本发明实施方式所提供的方法。

作为一种实施方式，上述电子设备可以应用于语音识别网络的可视化生成平台中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

通过共享的深度神经网络层和声学模型资源对当前采集语音识别，获取第一识别解码且获取词图；

通过独立的语音识别声学模型相关的深度神经网络层再次在所述词图上语言模型重打分，根据所述打分结果优化所述词图；

在优化后的词图上识别所述当前采集语音获取语音识别结果。

本发明实施方式的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子单元。

以上所描述的单元实施方式仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施方式或者实施方式的某些部分的方法。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims

1.一种中英文混合语音的声学识别模型，包括：语音信息的特征提取单元、共享的深度神经网络层及独立的语音识别声学模型相关的深度神经网络层；

所述语音信息的特征提取单元，其配置为从当前采集语音信息中提取当前语音特征；

所述共享的深度神经网络层，其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构；所述共享的深度神经网络层接收从所述语音信息的特征提取单元发送的所述当前语音特征，以及所述当前采集语音信息；对所述当前采集语音信息识别，获取第一识别解码且获取词图；

所述独立的语音识别声学模型相关的深度神经网络层，其配置为前馈深度神经网络DNN；接收所述共享的深度神经网络层获取的所述第一识别解码且获取词图，在所述词图上对所述共享的深度神经网络层重打分；在重打分的词图上检索获取语音识别结果；

所述共享的深度神经网络层及所述独立的语音识别声学模型相关的深度神经网络层，通过中文音素及英文音素的并集作为建模单元，使用CTC作为模型训练准则。

2.根据权利要求1所述的中英文混合语音的声学识别模型，其特征在于，还包括，语种分类单元；

所述语种分类单元，其配置为通过门函数辨识中文语种及英文语种，所述语种分类单元接收所述共享的深度神经网络层的第一识别解码且获取词图；所述语种分类单元的输出连接所述独立的语音识别声学模型相关的深度神经网络层。

3.一种中英文混合语音的声学识别方法，所述声学识别方法应用于权利要求1～2中任一项权利要求中的中英文混合语音的声学识别模型；所述中英文混合语音的声学识别方法包括：

步骤S101，通过共享的深度神经网络层和声学模型资源对当前采集语音识别，获取第一识别解码且获取词图；

步骤S102，通过独立的语音识别声学模型相关的深度神经网络层在所述词图上对所述共享的深度神经网络层重打分；

步骤S103、在重打分的词图上检索获取语音识别结果。

4.根据权利要求1所述的中英文混合语音的声学识别方法，其中，所述步骤S101中包括，通过共享的深度神经网络层和声学模型资源，通过解码器搜索算法获取第一识别解码且获取词图。

5.根据权利要求4所述的中英文混合语音的声学识别方法，所述独立的语音识别声学模型相关的深度神经网络层为基于神经网络的语言模型。

6.根据权利要求5所述的中英文混合语音的声学识别方法，所述共享的深度神经网络层为具有中文音素及英文音素的语言模型；所述声学模型资源包括中文音素及英文音素资源。

7.根据权利要求5所述的中英文混合语音的声学识别方法，所述步骤S101中还包括，通过语音采集设备采集所述当前采集语音。

8.一种中英文混合语音的声学识别系统，包括，词图获取单元、重打分单元及识别单元，其中：

所述词图获取单元，通过共享的深度神经网络层和声学模型资源对当前采集语音识别，获取第一识别解码且获取词图；所述共享的深度神经网络层，其配置为卷积神经网络CNN串联长短时记忆神经网络LSTM的拓扑结构；所述共享的深度神经网络层接收从所述语音信息的特征提取单元发送的所述当前语音特征，以及所述当前采集语音信息；

所述重打分单元，配置为通过独立的语音识别声学模型相关的深度神经网络层在所述词图上对所述共享的深度神经网络层重打分；所述独立的语音识别声学模型相关的深度神经网络层，其配置为前馈深度神经网络DNN；接收所述共享的深度神经网络层获取的所述第一识别解码且获取词图；

所述共享的深度神经网络层及所述独立的语音识别声学模型相关的深度神经网络层，通过中文音素及英文音素的并集作为建模单元，使用CTC作为模型训练准则；

识别单元、配置为重打分的词图上检索获取语音识别结果。

9.根据权利要求8所述的中英文混合语音的声学识别系统，其中，所述词图获取单元，还配置为通过共享的深度神经网络层和声学模型资源，通过解码器搜索算法获取第一识别解码且获取词图。

10.根据权利要求8所述的中英文混合语音的声学识别系统，所述独立的语音识别声学模型相关的深度神经网络层为基于神经网络的语言模型；

所述共享的深度神经网络层为具有中文音素及英文音素的语言模型；所述声学模型资源包括中文音素及英文音素资源；

词图获取单元，还配置为通过语音采集设备采集所述当前采集语音。