CN111402862B

CN111402862B - 语音识别方法、装置、存储介质及设备

Info

Publication number: CN111402862B
Application number: CN202010127215.5A
Authority: CN
Inventors: 张彬彬; 雷欣; 李志飞
Original assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-06-20
Anticipated expiration: 2040-02-28
Also published as: CN111402862A

Abstract

本发明涉及语音识别技术领域，公开了一种语音识别方法、装置、存储介质及处理器，语音识别方法包括：获取英文音素和中文音素，并根据所述英文音素和中文音素训练声学模型；获取英中文测试词典；根据所述英文音素、所述中文音素、所述声学模型、所述英中文测试词典，结合语言模型，构建解码图；采集待识别的语音；以及根据所构建的解码图对所述语音进行解码识别。本发明实施例同时根据中文音素和英文音素训练声学模型，并结合中文和英文词典来构建解码图，兼顾了英文口音和中文口音的词语读法，有效提高语音识别系统的对语音中词汇识别率，从而提升了用户体验。

Description

语音识别方法、装置、存储介质及设备

技术领域

本发明涉及语音识别技术领域，具体地涉及一种语音识别方法、装置、存储介质及设备。

背景技术

基于深度学习的语音识别技术在普通安静、近场条件下已经取得90％以上的识别率，并广泛应用于语音搜索、语音转写、智能家居、呼叫中心等领域。在语音识别系统中，词典是非常重要的一部分，只有词语在词典中有正确的发音，该词语才能够被语音识别系统正确识别。对现有的英文语音识别系统来讲，词典中一般会包含绝大多数英文词汇，通常还会通过网络资源找到一些英文词典，例如CMU dict(卡内基·梅隆大学开放的词典)。但是，在中国使用英文语音识别系统时，会涉及较多中国本地化相关信息的词语，在英文识别系统中属于OOV(Out of Vocabulary，现有词典中不存在的词)，例如：中文人名和地址名词语，而英文词典中并不包括上述本地化相关信息的词语发音，导致英文语音识别系统的识别率较低。

目前英文语音识别系统针对OOV，主要通过G2P(Graphemes to Phonemes，单词到音素)生成发音音素序列，并将其加入到英文词典，以进行后续的语音识别。该方法存在如下缺点：G2P依赖通过英文词典进行模型训练，但中文拼音的很多音素在英文词典的英文音素中不存在对应的或比较接近的发音音素。例如：中文拼音声母中的zh、c、q、r、v、x、y、z等，不存在等价或近似的英文音素。因此，G2P训练模型无法对中文拼音类的OOV生成准确的发音，词典中的利用G2P所生成的发音准确率也非常低，从而导致在中国使用的英文语音识别系统的整体识别率低、用户体验差。

发明内容

为了解决或至少部分解决上述技术问题，本发明实施例提供了一种语音识别方法及装置。

根据本发明实施例的第一方面，提供一种语音识别方法，所述方法包括：获取英文音素和中文音素，并根据所述英文音素和中文音素训练声学模型；获取英中文测试词典；根据所述英文音素、所述中文音素、所述声学模型、所述英中文测试词典，结合语言模型，构建解码图；采集待识别的语音；以及根据所构建的解码图对所述语音进行解码识别。

优选的，所述根据所述英文音素和中文音素训练声学模型包括：获取包括英文数据和中文拼音数据的训练数据；以及根据所述英文音素、所述中文音素以及所述训练数据，结合英文词典、中文词典，利用高斯混合模型和/或神经网络模型进行训练，以得到所述声学模型。

优选的，所述获取英中文测试词典包括：根据中文词典和所述中文音素，确定所述中文词典中各中文词语的第一音素序列；根据所述英文音素，对各中文词语进行单词到音素G2P训练，以确定各中文词语的第二音素序列；以及根据英文词典和所述英文音素，确定所述英文词典中各英文单词的英文音素序列。

优选的，所述根据所构建的解码图对所述待识别的语音进行解码识别，包括：实时提取所述语音所包括的音素特征；根据所述音素特征和所述声学模型，确定每一所述音素特征与所述语音的匹配概率；根据所述匹配概率和所述解码图，确定与所述语音匹配的音素序列；以及根据所述语音匹配的音素序列和所述英中文测试词典，确定所述语音对应的中文词语和/或英文单词以及所述中文词语和所述英文单词的排列顺序，其中，所述音素特征包括以下至少一者：第一音素序列；第二音素序列；以及英文音素序列。

相应地，本发明实施例还提供一种语音识别装置，所述语音识别装置包括：模型训练模块，用于获取英文音素和中文音素，并根据所述英文音素和中文音素训练声学模型；测试词典获取模块，用于获取英中文测试词典；构建模块，用于根据所述英文音素、所述中文音素、所述声学模型、所述英中文测试词典，结合语言模型，构建解码图；采集模块，用于采集待识别的语音；以及识别模块，根据所构建的解码图对所述待识别的语音进行解码识别。

优选的，所述模型训练模块包括：数据获取子模块，用于获取包括英文数据和中文拼音数据的训练数据；以及训练子模块，用于根据所述英文音素、所述中文音素以及所述训练数据，结合英文词典、中文词典，利用高斯混合模型和/或神经网络模型进行训练，以得到所述声学模型。

优选的，所述测试词典获取模块包括：第一确定子模块，用于根据中文词典和所述中文音素，确定所述中文词典中各中文词语的第一音素序列；第二确定子模块，用于根据所述英文音素，对各中文词语进行单词到音素G2P训练，以确定各中文词语的第二音素序列；以及第三确定子模块，用于根据英文词典和所述英文音素，确定所述英文词典中各英文单词的第三音素序列。

优选的，所述识别模块包括：特征提取子模块，用于实时提取所述语音所包括的音素特征；匹配子模块，用于根据所述音素特征和所述声学模型，确定每一所述音素特征与所述语音的匹配概率；音素确定子模块，用于根据所述匹配概率和所述解码图，确定与所述语音匹配的音素序列；以及词语确定子模块，用于根据所述英中文测试词典确定所述语音对应的中文词语和/或英文单词以及所述中文词语和所述英文单词的排列顺序，其中，所述音素特征包括以下至少一者：第一音素序列；第二音素序列；以及英文音素序列。

相应地，本发明实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有指令，所述指令用于使得所述机器可读存储介质能够执行上述语音识别方法。

相应地，本发明实施例还提供一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述语音识别方法。

通过上述技术方案，同时根据中文音素和英文音素训练声学模型，并结合中文和英文词典来构建解码图，兼顾了英文口音和中文口音的词语读法，有效提高语音识别系统的对语音中词汇识别率，从而提升了用户体验。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例语音识别方法的实现流程示意图一；

图2示出了本发明实施例语音识别方法的实现流程示意图二；

图3示出了本发明实施例提供的语音识别方法的具体应用示例的流程示意图；

图4示出了本发明实施例语音识别装置的组成结构示意图；

图5示出了本发明实施例模型训练模块的组成结构示意图；

图6示出了本发明实施例测试词典获取模块的组成结构示意图；

图7示出了本发明实施例识别模块的组成结构示意图。

附图标记说明

401、模型训练模块 402、测试词典获取模块

403、构建模块 404、采集模块

405、识别模块 4011、数据获取子模块

4012、训练子模块 4021、第一确定子模块

4022、第二确定子模块 4023、第三确定子模块

4051、特征提取子模块 4052、匹配子模块

4053、音素确定子模块 4054、词语确定子模块

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明实施例语音识别方法的实现流程示意图一。

参考图1，本发明实施例提供的语音识别方法可以包括如下步骤：

S100、获取英文音素和中文音素，并根据英文音素和中文音素训练声学模型。

具体来讲，音素是语音识别中的建模发音的基本单元，可以利用语言学的知识进行设计。例如：对于英文单词，可以以音标作为英文音素；对于中文词语，可以将拼音拆分为声母和韵母作为中文音素。本发明实施例主要用于在中国使用的英文识别系统，为了避免利用G2P训练模型无法对中文拼音类的OOV生成准确的发音的问题，同时获取了中文音素和英文音素，以提高待识别的语音的识别率。

在本发明的优选实施例中，通过以下方式来训练声学模型：获取包括英文数据和中文拼音数据的训练数据；以及根据英文音素、中文音素以及训练数据，结合英文词典、中文词典，利用高斯混合模型和/或神经网络模型进行训练，以得到声学模型。

举例来讲，获取的英文音素包括所有的英文音标，中文音素包括所有的汉语拼音声母和韵母。训练数据为大量的语音，其中包括中文语音、英文语音、以及带有中文地名、人名等词语的语音，并且对于包括中文词语的语音采用两种发声方式进行发声(1、采用正宗的英文口音的发声方式进行发声；2、采用具有中文口音的发声方式进行发声)。所采用的中文词典包括新华词典、辞海等，所采用的英文词典包括常用的英文词典以及通过网络资源查找的英文词典。

在本发明实施例中，根据以上所获取的中文音素、英文音素、中文训练数据、英文训练数据、中文词典以及英文词典，采用混合高斯模型和神经网络模型的方法对语音信号的分布进行拟合训练，得到声学模型。也可以仅采用混合高斯模型或神经网络模型中的一者对声学模型进行训练。训练声学模型的目的在于根据声学模型，能够对待识别的语音进行特征提取后得到的多个特征中每一特征的概率进行测算。特征提取得到的为多个音素，在本发明的实施例中，由于同时考虑中文因素和英文音素，因此，利用本发明中的声学模型，能够对待识别的语音进行更好地进行特征提取，获得较为准确的特征提取结果和每一特征的概率。

S200、获取英中文测试词典。

具体来讲，词典是记录单个词语的发音的文件，词典中包含语音识别系统可以识别的词对应的发音。

在本发明实施例中，根据中文词典和中文音素，确定中文词典中各中文词语的第一音素序列；根据英文音素，对各中文词语进行单词到音素G2P训练，以确定各中文词语的第二音素序列；以及根据英文词典和英文音素，确定英文词典中各英文单词的英文音素序列。将中文词语及其对应的第一音素序列和第二音素序列，以及英文单词对应的英文音素序列作为英中文测试词典。

具体来讲，对于本发明实施例中语音识别方法可以识别的词汇，对于中文词汇，采用以下两种方式方式分别确定其音素序列：1、根据中文词典(可以是新华词典等常用词典，包括中文字和词的汉语拼音)和中文音素，确定中文词典中各中文词语的第一音素序列，例如：suzhou(苏州)的第一音素序列为s u1zh ou1；2、根据英文音素，对各中文词语进行单词到音素G2P训练，以确定各中文词语的第二音素序列，其中G2P训练是指给定一个词，生成其发音音素序列，例如PHONIX的音素序列为/f i n I k s/。而对于英文词汇，则根据英文词典(包括常规的英文词典以及通过网络资源找到的英文词典CMU dict等)和英文音素对词汇，确定各单词的英文音素序列，例如：seattle的英文音素序列为S IY AE T AX L。

举例来说，假设所要获取的英中文测试词典中一共有2个词(事实上英中文测试词典包括大量的中文词语和英文单词，此处为了说明测试词典的获取方法，以两个词来进行简单示例)，seattle(英文词，西雅图)和suzhou(中文词，苏州)。其中，seattle的英文音素序列为S IY AE T AX L，根据中文词典和中文音素获得的suzhou的第一音素序列为s u1zh ou1，通过G2P训练获得的suzhou的第二音素序列为S UW ZH UW，则最终确定的英中文测试词典为：

seattle S IY AE T AX L；

suzhou s u1 zh ou1；

suzhou S UW ZH UW。

S300、根据英文音素、中文音素、声学模型、英中文测试词典，结合语言模型，构建解码图。

具体来讲，英文音素、中文音素、声学模型在步骤S100中已经确定，英中文测试词典在步骤S200中已经确定。语言模型是一个单纯的、统一的、抽象的形式系统，语言客观事实经过语言模型的描述，比较适合于电子计算机进行自动处理，因而语言模型对于自然语言的信息处理具有重大的意义，本发明实施例中采用语音识别系统中常用的语言模型。

在本发明的实施例中，解码图是一个WFST(Weighted Finite-StateTransducers，加权有限状态机)框架，采用现有的英文语音识别系统的解码图格式，利用步骤S100中所获取的英文音素、中文音素、声学模型，步骤S200中获取的英中文测试词典，结合语言模型进行解码图的构建。

S400、采集待识别的语音。

在本发明的实施例中，待识别的语音可以是发声的声母和韵母，也可以是发声的英文音标，也可以是由发声的声母、韵母、英文音标组成的一段话。例如：“Navigate toSuzhou”的两种发音方式读出来的语音：1、以中国人口音读出来的Navigate to Suzhou其中“Suzhou”发音为：s u1 zh ou1；2、以外国人(泛指中文不熟练，以英文发音方式读中文地名、人名等词语)口音读出来的Navigate to Suzhou，其中“Suzhou”发音为：S UW ZH UW。如此，可以同时兼顾外国人和中国人口音，对采集到的待识别语音进行更为准确地识别。

其中，待识别的语音可以通过智能终端的语音输入、车辆导航的语音输入等进行语音采集。

S500、根据所构建的解码图对语音进行解码识别。

具体来讲，对语音进行识别的主要目的是为了将语音转换为文字，或者识别语音指令并执行该指令等。步骤S100中的声学模型，能够确定语音所对应的音素(包括中文音素和英文音素)。

在发明的实施例中，采用如图5所示的流程图来对语音进行解码识别。参考图5，根据所构建的解码图对待识别的语音进行解码识别，包括：步骤S501、实时提取语音所包括的音素特征；步骤S502、根据音素特征和声学模型，确定每一音素特征与语音的匹配概率；步骤S503、根据匹配概率和解码图，确定与语音匹配的音素序列；以及步骤S504、根据语音匹配的音素序列和英中文测试词典，确定语音对应的中文词语和/或英文单词以及中文词语和英文单词的排列顺序，其中，音素特征包括以下至少一者：第一音素序列；第二音素序列；以及英文音素序列。

图3是本发明实施例提供的语音识别方法的具体应用示例的流程示意图，参考图3，在该应用示例中，首先，获取英文音素、中文音素、英文训练词典、中文训练词典、英文训练数据以及中文训练数据，并根据所获取的以上数据利用混合高斯模型和神经网络算法来训练声学模型。其次，分别采用G2P训练的方式和根据中文词典确定的方式确定每一个中文汉语拼音词对应的两种发音音素序列，并根据英文词典确定每一英文词汇的发音因素序列，以及将每一中文汉语拼音词和其对应的两种发音音素序列、每一英文词和其对应的发音因素序列组成英中文测试词典。然后，所训练和声学模型和所确定的英中文测试词典，结合语言模型，构建解码图。最后，利用解码图对待识别的语音进行识别。识别过程主要包括：接收待识别语音；对语音进行实时特征提取，例如：确定该语音可能包括的音素；使用所训练的声学模型，根据提取特征确定每一音素的概率；结合语言模型、英中文测试词典确定所述语音的音素序列及其所对应的词语(例如：中文词语和英文单词)。

本发明基于上述语音识别方法，在声学模型的训练、英中文测试词典的确定以及解码图构建过程中均同时考虑了中文音素和英文音素，并且同时考虑了对于中文汉语拼音词的中文口音和英文口音，有效降低了语音识别中词语使用的错误率，从而提高了语音识别方法的识别率、正确率，提升了用户体验。

基于如上文语音识别方法，本发明实施例还提供一种语音识别装置，如图4所示，语音识别装置40可以包括：模型训练模块401，用于获取英文音素和中文音素，并根据英文音素和中文音素训练声学模型；测试词典获取模块402，用于获取英中文测试词典；构建模块403，用于根据英文音素、中文音素、声学模型、英中文测试词典，结合语言模型，构建解码图；采集模块404，用于采集待识别的语音；以及识别模块405，根据所构建的解码图对待识别的语音进行解码识别。

参考图5，根据本发明一实施方式，本发明实施例提供的模型训练模块401包括：数据获取子模块4011，用于获取包括英文数据和中文拼音数据的训练数据；以及训练子模块4012，用于根据英文音素、中文音素以及训练数据，结合英文词典、中文词典，利用高斯混合模型和/或神经网络模型进行训练，以得到声学模型。

参考图6，根据本发明一实施方式，本发明实施例提供的测试词典获取模块402包括：第一确定子模块4021，用于根据中文词典和中文音素，确定中文词典中各中文词语的第一音素序列；第二确定子模块4022，用于根据英文音素，对各中文词语进行单词到音素G2P训练，以确定各中文词语的第二音素序列；以及第三确定子模块4023，用于根据英文词典和英文音素，确定英文词典中各英文单词的第三音素序列。

参考图7，根据本发明一实施方式，本发明实施例提供的识别模块405包括：特征提取子模块4051，用于实时提取语音所包括的音素特征；匹配子模块4052，用于根据音素特征和声学模型，确定每一音素特征与语音的匹配概率；音素确定子模块4053，用于根据匹配概率和解码图，确定与语音匹配的音素序列；以及词语确定子模块4054，用于根据英中文测试词典确定语音对应的中文词语和/或英文单词以及中文词语和英文单词的排列顺序，其中，音素特征包括以下至少一者：第一音素序列；第二音素序列；以及英文音素序列。

语音识别装置的其他具体实施细节和有益效果参考上述语音识别方法，对于本发明语音识别装置实施例中未披露的技术细节，请参照本发明前述图1至3所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

相应地，本发明实施例还提供一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线、以及存储在存储器上并可在处理器上运行的程序；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述语音识别方法。本文中的设备可以是服务器、PC、PAD、手机等。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决本申请所要解决的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取英文音素和中文音素，并根据所述英文音素和中文音素训练声学模型；

获取英中文测试词典；

根据所述英文音素、所述中文音素、所述声学模型、所述英中文测试词典，结合语言模型，构建解码图；

采集待识别的语音；以及

根据所构建的解码图对所述语音进行解码识别；

其中，所述获取英中文测试词典包括：

根据中文词典和所述中文音素，确定所述中文词典中各中文词语的第一音素序列；

根据所述英文音素，对各中文词语进行单词到音素G2P训练，以确定各中文词语的第二音素序列；以及

根据英文词典和所述英文音素，确定所述英文词典中各英文单词的英文音素序列。

2.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述英文音素和中文音素训练声学模型包括：

获取包括英文数据和中文拼音数据的训练数据；以及

根据所述英文音素、所述中文音素以及所述训练数据，结合英文词典、中文词典，利用高斯混合模型和/或神经网络模型进行训练，以得到所述声学模型。

3.根据权利要求1所述的语音识别方法，其特征在于，所述根据所构建的解码图对所述待识别的语音进行解码识别，包括：

实时提取所述语音所包括的音素特征；

根据所述音素特征和所述声学模型，确定每一所述音素特征与所述语音的匹配概率；

根据所述匹配概率和所述解码图，确定与所述语音匹配的音素序列；以及

根据所述语音匹配的音素序列和所述英中文测试词典，确定所述语音对应的中文词语和/或英文单词以及所述中文词语和所述英文单词的排列顺序，

其中，所述音素特征包括以下至少一者：

第一音素序列；第二音素序列；以及英文音素序列。

4.一种语音识别装置，其特征在于，所述语音识别装置包括：

模型训练模块，用于获取英文音素和中文音素，并根据所述英文音素和中文音素训练声学模型；

测试词典获取模块，用于获取英中文测试词典；

构建模块，用于根据所述英文音素、所述中文音素、所述声学模型、所述英中文测试词典，结合语言模型，构建解码图；

采集模块，用于采集待识别的语音；以及

识别模块，根据所构建的解码图对所述待识别的语音进行解码识别；

其中，所述测试词典获取模块包括：

第一确定子模块，用于根据中文词典和所述中文音素，确定所述中文词典中各中文词语的第一音素序列；

第二确定子模块，用于根据所述英文音素，对各中文词语进行单词到音素G2P训练，以确定各中文词语的第二音素序列；以及

第三确定子模块，用于根据英文词典和所述英文音素，确定所述英文词典中各英文单词的英文音素序列。

5.根据权利要求4所述的语音识别装置，其特征在于，所述模型训练模块包括：

数据获取子模块，用于获取包括英文数据和中文拼音数据的训练数据；以及

训练子模块，用于根据所述英文音素、所述中文音素以及所述训练数据，结合英文词典、中文词典，利用高斯混合模型和/或神经网络模型进行训练，以得到所述声学模型。

6.根据权利要求4所述的语音识别装置，其特征在于，所述识别模块包括：

特征提取子模块，用于实时提取所述语音所包括的音素特征；

匹配子模块，用于根据所述音素特征和所述声学模型，确定每一所述音素特征与所述语音的匹配概率；

音素确定子模块，用于根据所述匹配概率和所述解码图，确定与所述语音匹配的音素序列；以及

词语确定子模块，用于根据所述英中文测试词典确定所述语音对应的中文词语和/或英文单词以及所述中文词语和所述英文单词的排列顺序，

其中，所述音素特征包括以下至少一者：

第一音素序列；第二音素序列；以及英文音素序列。

7.一种机器可读存储介质，其特征在于，所述机器可读存储介质上存储有指令，所述指令用于使得所述机器可读存储介质能够执行根据权利要求1-3中任意一项所述的语音识别方法。

8.一种设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行权利要求1-3中任一项所述的语音识别方法。