CN112652311B

CN112652311B - 中英文混合语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN112652311B
Application number: CN202011399785.6A
Authority: CN
Inventors: 王知践; 钱胜; 张奇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-09-03
Anticipated expiration: 2040-12-01
Also published as: JP7204861B2; US20220139369A1; JP2022020061A; US11893977B2; CN112652311A

Abstract

本申请公开了一种中英文混合语音识别方法、装置、电子设备和存储介质，涉及语音技术领域、自然语言处理领域、深度学习领域等人工智能领域。具体实现方案为：响应于接收到语音信息，确定语音信息的发音信息和语言模型得分；根据发音信息确定语音信息的内容中是否存在英文词；响应于语音信息的内容中存在英文词，基于预设的中英文映射表确定与英文词对应的中文词；确定与英文词对应的中文词的得分，将语言模型得分之中的英文词的得分替换成中文词的得分；根据替换后的语言模型得分，获取针对语音信息的语音识别结果。本申请实施例可以提高语言模型得分之中英文词所在路径的得分，从而可以提高中英文混合语音的整体识别效果。

Description

中英文混合语音识别方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及语音技术领域、自然语言处理领域、深度学习领域等人工智能领域，具体涉及一种中英文混合语音识别方法、装置、电子设备和存储介质。

背景技术

在众多语音识别的应用中均可能存在中英文混说的情形。例如，说话内容为“很高兴我们拿下了这个deal；这个事件的behavior对我们影响很大；”，这种因为一些中文发音的谐音其实也是根据英文词“deal”很像，比如迪欧、第二等等。相关技术中，通常是基于语音识别模型直接对这种中英文混合的语音进行识别和查分。但是，由于有中文谐音的词语的关系，同时语言模型区分度在这种谐音和英文词上差异不大，导致最终语音识别结果实际上出来的不一定如预期那样的英文词，存在识别效果差等问题。

发明内容

本申请提供了一种中英文混合语音识别方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种中英文混合语音识别方法，包括：

响应于接收到语音信息，确定所述语音信息的发音信息和语言模型得分；

根据所述发音信息确定所述语音信息的内容中是否存在英文词；

响应于所述语音信息的内容中存在英文词，基于预设的中英文映射表确定与所述英文词对应的中文词；其中，所述中英文映射表中包含至少一对英文词与中文词的映射关系；

确定与所述英文词对应的中文词的得分，将所述语言模型得分之中的所述英文词的得分替换成所述中文词的得分；

根据替换后的语言模型得分，获取针对所述语音信息的语音识别结果。

根据本申请的第二方面，提供了一种中英文混合语音识别装置，包括：

第一确定模块，用于响应于接收到语音信息，确定所述语音信息的发音信息和语言模型得分；

第二确定模块，用于根据所述发音信息确定所述语音信息的内容中是否存在英文词；

第三确定模块，用于响应于所述语音信息的内容中存在英文词，基于预设的中英文映射表确定与所述英文词对应的中文词；其中，所述中英文映射表中包含至少一对英文词与中文词的映射关系；

第四确定模块，用于确定与所述英文词对应的中文词的得分；

替换模块，用于将所述语言模型得分之中的所述英文词的得分替换成所述中文词的得分；

第一获取模块，用于根据替换后的语言模型得分，获取针对所述语音信息的语音识别结果。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面实施例所述的中英文混合语音识别方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述第一方面实施例所述的中英文混合语音识别方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面所述的中英文混合语音识别方法。

根据本申请的技术方案，基于中英文映射表之中英文词和中文词的映射关系，通过在声学模型识别到语音信息的发音信息，并基于发音信息输出对应词时，使用与语音内容之中英文词对应的中文词得分来查找语言模型得分，将查找到的中文词得分替换到该语言模型得分之中英文词的得分上，以提高该英文词所在路径的得分，进而可以保证该英文词文本能够被模型输出以作为语音信息之中的英文内容对应的语音识别结果，提高了中英文混合语音的整体识别效果。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1示出了根据本申请实施例的语音识别的处理过程100的示意图；

图2是根据本申请实施例提供的一种中英文混合语音识别方法的流程图；

图3是根据本申请实施例提供的另一种中英文混合语音识别方法的流程图；

图4是根据本申请实施例提供的又一种中英文混合语音识别方法的流程图；

图5是根据本申请实施例的构建语言模型的构图空间的流程图；

图6是根据本申请实施例提供的一种中英文混合语音识别装置的结构框图；

图7是根据本申请实施例提供的另一种中英文混合语音识别装置的结构框图；

图8是根据本申请实施例的用以实现中英文混合语音识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的中英文混合语音识别方法、装置、电子设备和存储介质。

图1示出了根据本申请实施例的语音识别的处理过程100的示意图。通常，语音识别系统可以包括声学模型、语言模型以及解码器等组件。如图1所示，在获得采集到的语音信号110之后，首先在框120处对语音信号110进行信号处理和特征提取，包括从输入的语音信号110中提取特征，以供后续的声学模型等来处理。备选地，特征提取过程还包括一些其他信号处理技术，以便降低环境噪声或者其他因素对特征造成的影响。

参考图1，在完成特征提取120之后，将提取的特征输入到解码器130，并由解码器130经过处理输出文本识别结果140。具体地，解码器130根据声学模型132和语言模型134寻找最大概率输出的语音信号的文本序列，其中声学模型132可以实现语音到发音片段的转换，而语言模型134可以实现发音片段到文本的转换。

声学模型132用于对发音片段进行声学和语言的联合建模，其建模单元例如可以为音节，在本申请的一些实施例中，声学模型132可以为流式多级的截断注意力模型(StreamingMulti-LayerTruncatedAttention，简称为SMLTA)模型，其中SMLTA模型可以利用CTC(Connectionist Temporal Classification，连接时序分类)模型的尖峰信息，把语音切割成多个小片段，使得注意力模型建模和解码可以在各个小片段上展开。这样的SMLTA模型能够支持实时的流式语音识别，并且实现较高的识别准确率。

语言模型134用于对语言进行建模。通常，可以使用统计的N元文法(N-Gram)，即统计前后N个字出现的概率。应当理解，任何已知的或者将来开发的语言模型可以与本申请的实施例结合使用。在一些实施例中，声学模型132可以基于语音数据库来进行训练和/或工作，而语言模型134可以基于文本数据库来进行训练和/或工作。

解码器130可以基于声学模型132和语言模型134的输出识别结果，实现动态地解码。例如，在解码器上对可能的识别路径进行扩展，最终选取特征打分结果最高的路径作为最终识别结果。在某个语音识别的场景中，用户正在对其用户设备说话，用户产生的语音(及声音)被用户设备所采集，例如，可以通过用户设备的声音采集设备(诸如麦克风)来采集语音。用户设备可以为能够采集语音信号的任何电子设备，包括但不限于智能于机、平板电脑、台式计算机、笔记本计算机、智能可穿戴设备(诸如智能手表、智能眼镜)、导航设备、多媒体播放器设备、教育设备、游戏设备、智能音箱，等等。用户设备在采集的过程中，可以通过网络将语音分段地发送到服务器，服务器包括语音识别模型，其可以实现实时且准确的语音识别，在完成识别之后，可以通过网络将识别结果发送到用户设备。应当理解，根据本申请实施例的流式语音识别结果显示方法可以在用户设备处执行，也可以在服务器处执行，或者一部分在用户设备处执行而另一部分在服务器处执行。

图2是根据本申请实施例提供的一种中英文混合语音识别方法的流程图。需要说明的是，本申请实施例的中英文混合语音识别方法应用于本申请实施例的中英文混合语音识别装置，该中英文混合语音识别装置可被配置于电子设备。如图2所示，该中英文混合语音识别方法可以包括如下步骤。

在步骤201中，响应于接收到语音信息，确定语音信息的发音信息和语言模型得分。

在本申请一些实施例中，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。作为一种示例，该电子设备可为用户设备.

在某个语音识别的场景中，用户正在对其用户设备说话，用户产生的语音(及声音)被用户设备所采集，例如，可以通过用户设备的声音采集设备(诸如麦克风)来采集语音。在接收到用户设备所采集的语音信息时，可响应于接收到的语音信息，确定该语音信息的发音信息和语言模型得分。

在一些实施例中，可通过预先建立的声学模型确定该语音信息的发音信息。例如，可将该语音信息输入至声学模型，并获取该声学模型输出的发音信息。其中，在一些实施例中，该发音信息可包括：对应的语音帧的音高、对应的语音帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符。

在本申请一些实施例中，可通过语言模型确定该语音信息的语言模型得分。其中，该语言模型可以是N-Gram模型。

在步骤202中，根据发音信息确定语音信息的内容中是否存在英文词。

作为一种示例，本申请实施例可以是在声学模型识别到语音信息的发音信息，并基于发音信息输出对应词时，识别该语音信息的内容中是否存在英文词。

在一些实施例中，由于英文词的内容均是由字母开头的一串字母，所以，可根据该发音信息确定该语音信息的内容中是否有字母开头的词，若有，则确定该语音信息的内容中存在英文词，若该语音信息的内容中没有字母开头的词，则可确定该语音信息的内容中不存在英文词。

在步骤203中，响应于语音信息的内容中存在英文词，基于预设的中英文映射表确定与英文词对应的中文词。

其中，在本申请一些实施例中，中英文映射表中包含至少一对英文词与中文词的映射关系。例如，英文词“deal”与中文词“合同”具有映射关系，英文词“behavior”与中文词“行为”具有映射关系等。

在一些实施例中，当语音信息的内容中存在英文词时，可根据该中英文映射表之中英文词与中文词的映射关系，确定该语音信息的内容之中英文词对应的中文词。例如，以语音内容为“很高兴我们拿下了这个deal；这个事件的behavior对我们影响很大”为例，可确定语音内容中存在英文词“deal”和英文词“behavior”，可基于该中英文映射表之中英文词与中文词的映射关系，确定该语音内容之中英文词“deal”对应的中文词为“合同”，该语音内容之中英文词“behavior”对应的中文词为“行为”。

在步骤204中，确定与英文词对应的中文词的得分，将语言模型得分之中的英文词的得分替换成中文词的得分。

在本申请一些实施例中，可从预先建立的语言模型得分语料库中，获取所述与英文词对应的中文词的得分。也就是说，语言模型得分语料库中具有众多中文词及其中文词对应的得分。在本步骤中，在根据该中英文映射表之中英文词与中文词的映射关系，确定该语音信息的内容之中英文词对应的中文词时，可从该语言模型得分语料库中，获取该中文词的得分，并将该语言模型得分之中的英文词的得分替换成中文词的得分。

也就是说，在确定语音信息的内容中存在英文词时，可获取该英文词对应的中文词的得分，并将该语音信息的语言模型得分之中的英文词的得分替换成该中文词的得分，即通过使用英文词对应的中文词去查找语言模型得分，以提高该英文词所在路径的得分，进而可以保证该英文词文本能够被模型输出以作为语音信息之中的英文内容对应的语音识别结果。

需要说明的是，在本申请实施例中，将语言模型得分之中的英文词的得分替换成中文词的得分，可理解为使用中文词的得分替换该语言模型得分之中的英文词的得分，而该英文词所对应的文本词不做替换。

在步骤205中，根据替换后的语言模型得分，获取针对语音信息的语音识别结果。

可选地，根据替换后的语言模型得分，从解码路径中选取出特征打分结果最高的路径，将该打分结果最高的路径之中节点对应的词序列作为该语音信息的语音识别结果。

本申请实施例的中英文混合语音识别方法，响应于接收到语音信息，确定语音信息的发音信息和语言模型得分，并根据发音信息确定语音信息的内容中是否存在英文词，响应于语音信息的内容中存在英文词，基于预设的中英文映射表确定与英文词对应的中文词，并确定与英文词对应的中文词的得分，将语言模型得分之中的英文词的得分替换成中文词的得分，根据替换后的语言模型得分，获取针对语音信息的语音识别结果。由此，本申请实施例基于中英文映射表之中英文词和中文词的映射关系，通过在声学模型识别到语音信息的发音信息，并基于发音信息输出对应词时，使用与语音内容之中英文词对应的中文词得分来查找语言模型得分，将查找到的中文词得分替换到该语言模型得分之中英文词的得分上，以提高该英文词所在路径的得分，进而可以保证该英文词文本能够被模型输出以作为语音信息之中的英文内容对应的语音识别结果，提高了中英文混合语音的整体识别效果。

需要说明的是，在确定该语音信息的内容中不存在英文词时，可将语言信息的语言模型得分直接用于识别解码结果。在一些实施例中，如图3所示，该中英文混合语音识别方法可以包括如下步骤。

在步骤301中，响应于接收到语音信息，确定语音信息的发音信息和语言模型得分。

在本申请的实施例中，步骤301可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤302中，根据发音信息确定语音信息的内容中是否存在英文词。

在一些实施例中，由于英文词的内容均是由字母开头的一串字母，所以，可根据该发音信息确定该语音信息的内容中是否有字母开头的词，若有，则确定该语音信息的内容中存在英文词，此时可执行步骤303；若该语音信息的内容中没有字母开头的词，则可确定该语音信息的内容中不存在英文词，此时可执行步骤306。

在步骤303中，响应于语音信息的内容中存在英文词，基于预设的中英文映射表确定与英文词对应的中文词。

在本申请的实施例中，步骤303可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤304中，确定与英文词对应的中文词的得分，将语言模型得分之中的英文词的得分替换成中文词的得分。

在本申请的实施例中，步骤304可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤305中，根据替换后的语言模型得分，获取针对语音信息的语音识别结果。

在本申请的实施例中，步骤305可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤306中，响应于语音信息的内容中未存在英文词，根据语言模型得分获取针对语音信息的语音识别结果。

可选地，在确定该语音信息的内容中不存在英文词时，可根据语音信息的语言模型得分，从解码路径中选取出特征打分结果最高的路径，将该打分结果最高的路径之中节点对应的词序列作为该语音信息的语音识别结果。

本申请实施例的中英文混合语音识别方法，可根据语音信息的发音信息确定语音信息的内容中是否存在英文词，在语音信息的内容中存在英文词时，基于预设的中英文映射表确定与英文词对应的中文词，并确定与英文词对应的中文词的得分，将语言模型得分之中的英文词的得分替换成中文词的得分，根据替换后的语言模型得分，获取针对语音信息的语音识别结果；当确定该语音信息的内容中不存在英文词时，可根据语音信息的语言模型得分获取针对语音信息的语音识别结果。由此，本申请可适用于中英文混合语音识别场景，还可适用于非混合语音识别场景，例如，在识别到当前场景为非混合语音识别场景，可直接根据语音信息的语言模型得分获取针对语音信息的语音识别结果；在识别到当前场景为中英文混合语音识别场景，则可基于中英文映射表之中英文词和中文词的映射关系，通过在声学模型识别到语音信息的发音信息，并基于发音信息输出对应词时，使用与语音内容之中英文词对应的中文词得分来查找语言模型得分，将查找到的中文词得分替换到该语言模型得分之中英文词的得分上，以提高该英文词所在路径的得分，进而可以保证该英文词文本能够被模型输出以作为语音信息之中的英文内容对应的语音识别结果，提高了中英文混合语音的整体识别效果。

在一些实施例中，本申请实施例的中英文混合语音识别方法可适用于终端设备上的本地语音识别场景，为了进一步提高中英文混合语音的整体识别效果，本地语音识别需要在识别之前对预识别的文本构建语言模型的构图空间，即建立用户输入语音的所有可能路径，在进行语音识别时，遍历该构图空间，结合本申请实施例的语音识别算法，查找与输入语音最佳的匹配路径，该路径会返回识别的最终结果。在本申请一些实施例中，如图4所示，该中英文混合语音识别方法可以包括如下步骤。

在步骤401中，获取语言模型资源。

在一些实施例中，在识别之前对预识别的文本构建语言模型的构图空间，在构建该构图空间时，需要先获取语言模型资源。例如，该语言模型资源可存储于终端设备上，在构建该构图空间时，可读取该语言模型资源。

在步骤402中，根据语言模型资源和中英文映射表构建语言模型的构图空间；构图空间包括多条解码路径。

可选地，根据语言模型资源构建语言模型的初始构图空间，并根据中英文映射表之中的中文词预英文词的映射关系，利用中文词的语言模型得分替换该初始构图空间之中含有英文词的路径的得分，将替换后的初始构图空间作为所述语言模型的构图空间。

在本申请一些实施例中，如图5所示，所述根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间的具体实现过程可包括如下步骤。

在步骤501中，根据语言模型资源构建语言模型的初始构图空间。

其中，在一些实施例中，该初始构图空间可包括多条解码路径。每条解码路径中的节点具有对应的词及该词的得分。其中，所述多条解码路径中至少一条解码路径中存在有英文词的得分。

在步骤502中，确定中英文映射表之中与各英文词对应的中文词。

在步骤503中，从预先建立的语言模型得分语料库中，获取与各英文词对应的各中文词的得分。

在步骤504中，依据与各英文词对应的各中文词的得分，将初始构图空间之中英文词节点的得分，替换成与英文词节点对应的中文词的得分。

在步骤505中，将替换后的初始构图空间，作为语言模型的构图空间。

由此，通过步骤501-步骤505即可构建语言模型的构图空间，以便建立用户输入语音的所有可能路径，这样，在进行语音识别时，遍历该构图空间即可查找与输入语音最佳的匹配路径，该路径会返回识别的最终结果。

在步骤403中，响应于接收到语音信息，确定语音信息的发音信息和语言模型得分。

在本申请的实施例中，步骤403可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤404中，根据发音信息确定语音信息的内容中是否存在英文词。

在本申请的实施例中，步骤404可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤405中，响应于语音信息的内容中存在英文词，基于预设的中英文映射表确定与英文词对应的中文词。

在本申请的实施例中，步骤405可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤406中，确定与英文词对应的中文词的得分，将语言模型得分之中的英文词的得分替换成中文词的得分。

在本申请的实施例中，步骤406可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

在步骤407中，根据替换后的语言模型得分，获取针对语音信息的语音识别结果。

在本申请一些实施例中，可根据替换后的语言模型得分，从构图空间的多条解码路径中选择所有节点的得分总和最大的一条解码路径，并将所有节点的得分总和最大的一条解码路径对应的词序列，确定为针对语音信息的语音识别结果。

在步骤408中，响应于语音信息的内容中未存在英文词，根据语言模型得分获取针对语音信息的语音识别结果。

可选地，在确定语音信息的内容中未存在英文词时，可根据该语音信息的语言模型得分，从构图空间的多条解码路径中选择所有节点的得分总和最大的一条解码路径，并将所有节点的得分总和最大的一条解码路径对应的词序列，确定为针对语音信息的语音识别结果。

本申请实施例的中英文混合语音识别方法，在识别之前对预识别的文本构建语言模型的构图空间，即建立用户输入语音的所有可能路径，在进行语音识别时，遍历该构图空间，结合本申请实施例的语音识别算法，查找与输入语音最佳的匹配路径，该路径会返回识别的最终结果，从而可以进一步提高中英文混合语音的整体识别效果。

图6是根据本申请实施例提供的一种中英文混合语音识别装置的结构框图。如图6所示，该中英文混合语音识别装置500可以包括：第一确定模块601、第二确定模块602、第三确定模块603、第四确定模块604、替换模块605和第一获取模块606。

具体地，第一确定模块601用于响应于接收到语音信息，确定语音信息的发音信息和语言模型得分。

第二确定模块602用于根据发音信息确定语音信息的内容中是否存在英文词。

第三确定模块603用于响应于语音信息的内容中存在英文词，基于预设的中英文映射表确定与英文词对应的中文词；其中，中英文映射表中包含至少一对英文词与中文词的映射关系。

第四确定模块604用于确定与英文词对应的中文词的得分。

替换模块605用于将语言模型得分之中的英文词的得分替换成中文词的得分。

第一获取模块606用于根据替换后的语言模型得分，获取针对语音信息的语音识别结果。

在本申请一些实施例中，第一获取模块606还用于响应于语音信息的内容中未存在英文词，根据语言模型得分获取针对语音信息的语音识别结果。

在本申请一些实施例中，如图7所示，该中英文混合语音识别装置700还可包括：构图模块707。其中，构图模块707用于在第一确定模块701确定语音信息的发音信息和语言模型得分之前，获取语言模型资源，并根据语言模型资源和中英文映射表构建语言模型的构图空间；构图空间包括多条解码路径。

在一些实施例中，构图模块707具体用于：根据语言模型资源构建语言模型的初始构图空间；确定中英文映射表之中与各英文词对应的中文词；从预先建立的语言模型得分语料库中，获取与各英文词对应的各中文词的得分；依据与各英文词对应的各中文词的得分，将初始构图空间之中英文词节点的得分，替换成与英文词节点对应的中文词的得分；将替换后的初始构图空间，作为语言模型的构图空间。

在一些实施例中，第一获取模块706根据替换后的语言模型得分，获取针对语音信息的语音识别结果的具体实现过程可如下：根据替换后的语言模型得分，从构图空间的多条解码路径中选择所有节点的得分总和最大的一条解码路径；将所有节点的得分总和最大的一条解码路径对应的词序列，确定为针对语音信息的语音识别结果。

其中，图7中701-706和图6中601-606具有相同功能和结构。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例的中英文混合语音识别装置，基于中英文映射表之中英文词和中文词的映射关系，通过在声学模型识别到语音信息的发音信息，并基于发音信息输出对应词时，使用与语音内容之中英文词对应的中文词得分来查找语言模型得分，将查找到的中文词得分替换到该语言模型得分之中英文词的得分上，以提高该英文词所在路径的得分，进而可以保证该英文词文本能够被模型输出以作为语音信息之中的英文内容对应的语音识别结果，提高了中英文混合语音的整体识别效果。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质以及一种计算机程序产品。

如图8所示，是根据本申请实施例的用以实现中英文混合语音识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的中英文混合语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的中英文混合语音识别方法。本申请的计算机程序产品，包括计算机程序，该计算机程序在被处理器801执行时，实现本申请所提供的中英文混合语音识别方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的中英文混合语音识别方法对应的程序指令/模块(例如，附图6所示的第一确定模块601、第二确定模块602、第三确定模块603、第四确定模块604、替换模块605和第一获取模块606)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的中英文混合语音识别方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现中英文混合语音识别方法的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至用以实现中英文混合语音识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现中英文混合语音识别方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与用以实现中英文混合语音识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种中英文混合语音识别方法，包括：

2.根据权利要求1所述的中英文混合语音识别方法，还包括：

响应于所述语音信息的内容中未存在英文词，根据所述语言模型得分获取针对所述语音信息的语音识别结果。

3.根据权利要求1或2所述的中英文混合语音识别方法，在所述确定所述语音信息的发音信息和语言模型得分之前，所述方法还包括：

获取语言模型资源；

根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间；所述构图空间包括多条解码路径。

4.根据权利要求3所述的中英文混合语音识别方法，其中，所述根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间，包括：

根据所述语言模型资源构建语言模型的初始构图空间；

确定所述中英文映射表之中与各英文词对应的中文词；

从预先建立的语言模型得分语料库中，获取与所述各英文词对应的各中文词的得分；

依据与所述各英文词对应的各中文词的得分，将所述初始构图空间之中英文词节点的得分，替换成与所述英文词节点对应的中文词的得分；

将替换后的初始构图空间，作为所述语言模型的构图空间。

5.根据权利要求3所述的中英文混合语音识别方法，其中，所述根据替换后的语言模型得分，获取针对所述语音信息的语音识别结果，包括：

根据替换后的语言模型得分，从所述构图空间的多条解码路径中选择所有节点的得分总和最大的一条解码路径；

将所述所有节点的得分总和最大的一条解码路径对应的词序列，确定为针对所述语音信息的语音识别结果。

6.一种中英文混合语音识别装置，包括：

7.根据权利要求6所述的中英文混合语音识别装置，其中，所述第一获取模块，还用于响应于所述语音信息的内容中未存在英文词，根据所述语言模型得分获取针对所述语音信息的语音识别结果。

8.根据权利要求6或7所述的中英文混合语音识别装置，还包括：

构图模块，用于在所述第一确定模块确定所述语音信息的发音信息和语言模型得分之前，获取语言模型资源，并根据所述语言模型资源和所述中英文映射表构建语言模型的构图空间；所述构图空间包括多条解码路径。

9.根据权利要求8所述的中英文混合语音识别装置，其中，所述构图模块具体用于：

根据所述语言模型资源构建语言模型的初始构图空间；

确定所述中英文映射表之中与各英文词对应的中文词；

将替换后的初始构图空间，作为所述语言模型的构图空间。

10.根据权利要求8所述的中英文混合语音识别装置，其中，所述第一获取模块具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的中英文混合语音识别方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至5中任一项所述的中英文混合语音识别方法。