CN112562640B

CN112562640B - 多语言语音识别方法、装置、系统及计算机可读存储介质

Info

Publication number: CN112562640B
Application number: CN202011389152.7A
Authority: CN
Inventors: 陈孝良; 冯大航; 焦伟
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2024-04-12
Anticipated expiration: 2040-12-01
Also published as: CN112562640A

Abstract

本发明公开了一种多语言语音识别方法、装置、系统、计算机可读存储介质及电子设备，方法包括：将采集的语音输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型；将各个语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个语音识别结果各自的第二得分；根据各个语音识别结果各自的第一得分以及各个语音识别结果各自的第二得分，确定最终识别结果。无需对语音的语言类别进行判断，确保了多语言识别的实时率，同时得到的准确性相对较高的最终识别结果。

Description

多语言语音识别方法、装置、系统及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及多语言语音识别方法、装置、系统及计算机可读介质。

背景技术

随着智能音箱的逐渐普及，人们对智能音箱中语音识别的要求也越来越高。除了要求识别引擎可以准确的识别中文外，对于同时支持其他语言识别的需求也越来越大，比如在不需要进行任何修改或配置的情况下，既能支持中文识别，也可以支持英文识别。

目前，先使用一个神经网络判断语音是中文还是英文，如果是中文则送入中文语音识别引擎，如果是英文则送入英文语音识别引擎。

但是，判断语音是中文还是英文需要一整段语音作为输入，因此需要整段语音说完之后才可以进行判断和识别，实时率相对较低。

发明内容

本发明提供一种多语言语音识别方法、装置、系统、计算机可读存储可读介质及电子设备，每种语言均有其各自的语音识别引擎，从而无需对语音的语言类别进行判断，确保了多语言识别的实时率，每种语言各自训练自己的声学模型以及语言模型，从而保证声学模型的识别效果以及语音识别结果中不会出现多种语言混杂的情况，同时，得到的最终识别结果综合考虑到了语音识别结果的得分以及语音识别结果的重打分后的得分，从而具有相对较高的准确性。

第一方面，本发明提供了一种多语言语音识别方法，包括：

将采集的语音输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型；

将各个所述语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个所述语音识别结果各自的第二得分，

根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果。

在一个实施例中，所述重打分语言模型包括基于对各个所述语音识别引擎中的语言模型进行插值得到的一个二遍打分的语言模型。

在一个实施例中，所述根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果，包括：

针对每个所述语音识别结果，根据所述语音识别结果的第一得分和所述语音识别结果的第二得分，确定所述语音识别结果的最终得分；

根据各个所述语音识别结果各自的最终得分，确定最终识别结果。

在一个实施例中，所述第一得分包括声学分，所述第二得分为重打分后的语言分；

所述语音识别结果的最终得分为所述语音识别结果的声学分和所述语音识别结果的重打分后的语言分之和；

所述最终识别结果为所述最终得分最大的语音识别结果。

在一个实施例中，所述语音同时输入到各个所述语音识别引擎中。

第二方面，本发明提供了一种多语言语音识别装置，包括：

第一识别模块，用于将采集的语音输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型；

重打分模块，用于将各个所述语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个所述语音识别结果各自的第二得分；

第二识别模块，用于根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果。

第三方面，本发明提供了一种多语言语音识别系统，包括：

至少两种语言各自的语音识别引擎以及重打分语言模型，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型所述重打分模型用于对各个所述语音识别引擎各自输出的语音识别结果进行重打分。

第四方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第五方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供了一种多语言语音识别方法、装置、系统、计算机可读存储介质及电子设备，该方法通过将采集的语音输入到两种或多种语言各自的语音识别引擎中，确定两个或多个语音识别结果及其各自的第一得分，其中，每个语音识别引擎均包括利用对应语言单独训练的声学模型以及语言模型，之后，将各个语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个语音识别结果各自的第二得分，之后，根据两个或多个语音识别结果各自的第一得分以及第二得分，确定最终识别结果。综上，本发明提供的技术方案中每种语言均有其各自的语音识别引擎，从而无需对语音的语言类别进行判断，确保了多语言识别的实时率，每种语言各自训练自己的声学模型以及语言模型，从而保证声学模型的识别效果以及语音识别结果中不会出现多种语言混杂的情况，同时，得到的最终识别结果综合考虑到了语音识别结果的得分以及语音识别结果的重打分后的得分，从而具有相对较高的准确性。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种多语言语音识别系统的结构示意图；

图2为本发明一实施例提供的一种多语言语音识别方法的流程示意图；

图3为本发明一实施例提供的另一种多语言语音识别方法的流程示意图；

图4为本发明一实施例提供的一种多语言语音识别装置的结构示意图；

图5为本发明一实施例提供的一种电子设备的结构示意图；

图6为本发明一实施例提供的一种多语言语音识别方法的场景示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，提供了一种多语言语音识别系统，请参考图1，该多语言语音识别系统100包括两种或多种语言各自的语音识别引擎101以及重打分语言模型102，其中，所述语音识别引擎101包括利用对应语言单独训练的声学模型以及语言模型所述重打分语言模型102用于对各个所述语音识别引擎101各自输出的语音识别结果进行重打分。

具体地，多种语言包括但不限于中文、英语、日语、韩语等，具体可以结合实际情况确定。每种语言均有一个语音识别引擎101，比如，中文的中文语音识别引擎，英语的英文语音识别引擎。针对每个语音识别引擎101，语音识别引擎101能够对语音进行语音识别，输出语音识别结果、语音识别结果的声学分以及语音识别结果的语言分，其中，声学分可以理解为音素概率，语言分可以理解为一个句子的概率。语音识别引擎101可以输出语言分最高的语音识别结果，也可以输出声学分和语言分之和最高的语音识别结果，还可以输出声学分和语言分均较高的语音识别结果，具体需要结合实际情况确定。此处不做具体限定。

具体地，语音识别引擎101包括声学模型以及语言模型，声学模型可以理解为是对发声的建模，它能够把语音输入转换成声学表示的输出，更准确的说是给出语音属于某个声学符号的概率。在英文中这个声学符号可以是音节(syllable)或者更小的颗粒度音素(phoneme)；在中文中这个声学符号可以是声韵母或者是颗粒度同英文一样小的音素。声学模型最终转换成了一个语音到发音序列的模型和一个发音序列到输出文字序列的字典。这里的发音序列通常是音素，换言之，声学模型是声学特征到音素的映射。语言模型的作用可以简单理解为消解多音字的问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。语音识别过程为声学模型把语音的声学特征分类对应到音素或字词这样的单元，语言模型接着把字词解码成一个完整的句子。具体地，语音识别引擎101将一条语音分成若干帧语音，每帧语音用一个特征向量来表示，然后将特征向量输入到声学模型中，得到每帧语音对应的发音概率分布，解码器根据每帧语音对应的发音概率分布和语言模型来得到最终的语音识别结果。

具体地，声学模型包括但不限于高斯混合模型(GMM)、基于神经网络的声学模型、深度神经网络(DNN)以及双向循环深度神经网络(BRDNN)等，此处不做具体限定，具体需要结合实际情况确定。这里，声学模型用lstm+ctc训练，得到语音特征到音素的映射。声学模型的任务是给定文字之后发出给到文字语音的概率。语言模型可以是ngram语言模型和rnnlm模型，ngram语言模型是一种基于统计学的语言模型，用来根据前(n-1)个词来预测第n个词，即计算一个句子的概率，亦即计算组成一个句子的一系列词语的概率。rnnlm模型为通过RNN及其变种网络来训练的语言模型，其任务是通过上文来预测下一个词。当然，在实际应用中，本领域技术人员还可以通过其他语言模型来对每种语音识别结果进行打分，本发明实施例对使用何种语言模型来对语音识别结果进行打分不加以限制。

具体地，针对每种语言，可以获得该语言对应的训练数据，该语言的语音识别引擎101和该语言的训练数据对应，举例来说，中文的语音识别引擎和中文的训练数据对应，英语的语音识别引擎和英语的训练数据对应。训练数据是用于训练声学模型和语言模型的单一语言的数据，包括语音数据以及语音数据对应的文本数据，语音识别引擎中的声学模型基于对应语言的语音数据确定，语音识别引擎中的语言模型基于对应语言的语音数据的文本数据确定。其中，语音数据可以是任一条音频，并且，语音数据具有对应的文本数据，文本数据具有对应的发音音素，这里，语音数据可以包括一个或多个领域的语音；文本数据为语音数据对应的所有的语言文本。文本数据作为语言模型的训练集语料，可以是日常生活中各个来源的语料，也即，该语料可以来源于各种渠道中的语料，涉及生活中的各个方面，比如，信息标注中的语料、网页扒取中的语料、开源库中的语料、用户提供的某个领域的有效语料等，来源广泛，数据量大。具体的，基于语音数据对声学模型进行训练，基于语音数据的文本数据训练语言模型，即文本数据为语音数据对应的语料。应当理解的，语音数据通常是标准发音的语音信号，如果有识别标准发音之外的需求，则需要确定标准发音之外的语言的语音识别引擎，换言之，一种语言可以有两个或多个语音识别引擎。

具体地，多语言语音识别系统100能够应用于语音翻译、人机交互、智能家居等应用场景。

具体地，重打分语言模型102用于对各个语音识别引擎101各自输出的语音识别结果进行重打分。重打分语言模型102包括基于对各个语音识别引擎101中的语言模型进行插值得到的一个二遍打分的语言模型。作为一种可能的实现方式，确定每个语言模型的插值系数，根据每个语言模型的插值系数对每个语言模型进行插值后合并，得到重打分语言模型102，在一些可能的情况，语言模型为ngram语言模型，在构建语言模型时，作为一种可能的情况，可以基于文本数据中一些单词的词频，统计出各个单词与其他单词的前后联系的频次，并基于频次与文本数据中的总词数的比值，确定出各个单词各自到其他单词的概率，作为另一种可能的情况，可以基于文本数据，采用模型训练的方法，确定出各个单词各自到其他单词的概率，比如，假设ngram的n＝2，以每条语料以两两相邻的词进行拆分，前面的词为输入，后面的词作为输出，进行模型训练，得到前面的词到后面的词的概率，这里的模型可以理解为输入为词输出为该词的下一个词的模型，例如，可以是神经网络，应当理解的，本申请实施例并不意图对该模型的内部结构进行任何限制，任何能够以词为输入，词的下一个词为输出的模型皆适用本申请实施例。具体地，重打分语言模型如下：

其中，n为语言模型的个数，λ_j表示第j个语言模型的插值系数，表示第j个语言模型；/>表示重打分语言模型。这里，插值系数可以采用现有技术中的插值方法确定，比如，可以是拉格朗日插值方法。

通过以上技术方案可知，本实施例存在的有益效果是：每种语言各自训练自己的声学模型以及语言模型，从而保证声学模型的识别效果以及语音识别结果中不会出现多种语言混杂的情况；同时，对各个语音识别引擎各自输出的语音识别结果进行重打分，确保语音识别结果的准确性。

本实施例的第二方面，提供了一种多语言语音识别方法，该识别方法可以通过上述的多语言语音识别系统实现，也可以通过其他方式实现。应该理解的是，该多语言语音识别方法可应用于电子设备上，电子设备可以是一般计算机、服务器、可移动设备等，其中，可移动设备可以是智能汽车、智能音箱、智能手机、智能语音机器人等需要部署语音识别功能的智能设备，本发明实施例中不一一列举。

如图2所示，为本发明提供的多语言语音识别方法的具体实施例。本实施例中，所述方法具体包括以下步骤：

步骤201、将采集的语音输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型。

具体地，当电子设备安装有语音采集设备时，通过语音采集设备采集语音，这里，电子设备可以是智能汽车、智能音箱、智能手机、智能语音机器人等智能设备。当电子设备不具有语音采集设备时，将外部的语音采集设备采集的语音发送到电子设备即可，此处不做具体限定，优选安装有语音采集设备的电子设备。其中，语音采集设备可以是麦克风或麦克风阵列，具体需要结合实际情况确定。

具体地，将采集的语音输入到各种语言各自的语音识别引擎中，每个语音识别引擎均输出一个语音识别结果以及该语音识别结果的第一得分，从而得到各个语音识别结果各自的第一得分。举例来说，假设有N种语言，每种语言均有其对应的语音识别引擎，则有N个语音识别结果以及N个语音识别结果各自的第一得分。可选地，第一得分包括声学分以及初始语言分，从而综合考虑语音识别结果的准确性。

应当理解的，每种语言均有其各自的语音识别引擎，从而无需对语音的语言类别进行预判，确保了多语言识别的实时率，每种语言各自训练自己的声学模型以及语言模型，从而保证声学模型的识别效果以及语音识别结果中不会出现多种语言混杂的情况。

在一些可能的实现方式中，将采集的语音同时输入到各个语言各自的语言识别引擎中，从而确保语音识别的实时率。

需要说明的是，考虑到声学模型是通过单一语言的语音数据训练得到的，无法识别对应语言之外的其他语言，为了确保语音识别结果的参考价值，输入到声学模型中的每帧语音不应该包括两种或多种语言。

步骤202、将各个所述语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个所述语音识别结果各自的第二得分。

具体地，针对每个语音识别结果，将语音识别结果输入到重打分语言模型中，得到语音识别结果的第二得分。其中，重打分语言模型用于对各个语音识别引擎各自输出的语音识别结果进行重打分。应当理解的，语音识别结果的第二得分为对语音识别结果进行重打分后的语言分。

在一些可能的实现方式中，重打分语言模型基于对各个语音识别引擎中的语言模型进行合并得到。具体地，可以通过现有技术中的语言模型合并方法对各个语音识别引擎中的语言模型进行合并，在一些可能的情况，语言模型为ngram语言模型，则对各个语言模型进行插值，得到插值系数，基于插值系数，对多个语言模型进行合并，以得到重打分语言模型，换言之，重打分语言模型为基于对各个语音识别引擎中的语言模型进行插值得到的一个二遍打分的语言模型。

步骤203、根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果。

具体地，得到的最终识别结果综合考虑了语音识别引擎输出的结果以及重打分后的结果，从而具有相对较高的准确性。

在一些可行的实现方式中，步骤203具体可以包括：

该实现方式中，综合考虑语音识别结果的第一得分和第二得分，确定出语音识别结果的最终得分，基于各个语音识别结果各自的最终得分，从而了解到每种语言的最终得分，从而确定最终识别结果。

作为一种可能的情况，第一得分包括声学分，第二得分为重打分后的语言分；语音识别结果的最终得分为语音识别结果的声学分和语音识别结果的重打分后的语言分之和；最终识别结果为最终得分最大的语音识别结果。

该情况中，最终识别结果为声学分和重打分后的语言分之和最高的语音识别结果，从而确保了语音识别结果的参考价值。

通过以上技术方案可知，本实施例存在的有益效果是：无需对语音的语言类别进行判断，确保了多语言识别的实时率；每种语言各自训练自己的声学模型以及语言模型，从而保证声学模型的识别效果以及语音识别结果中不会出现多种语言混杂的情况；同时，得到的最终识别结果综合考虑到了语音识别结果的得分以及语音识别结果的重打分后的得分，从而具有相对较高的准确性。

图2所示仅为本发明所述方法的基础实施例，在其基础上进行一定的优化和拓展，还能够得到所述方法的其他优选实施例。

为了更加清楚的说明本发明的技术方案，请参考图3，本发明实施例提供了另一种多语言语音识别方法，本实施例在前述实施例的基础上，结合具体应用场景进行进一步的叙述。本实施例中，具体可以包括如下各个步骤：

步骤301、将采集的语音同时输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，所述第一得分包括声学分和初始语言分，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型。

请参考图6，假设有中文、英文、韩文3种语言，对应的，有中文语音识别引擎、英文语音识别引擎以及韩文语音识别引擎，中文语音识别引擎用于识别中文，英文语音识别引擎用于识别英文，韩文语音识别引擎用于识别韩文。具体地，将语音同时输入到中文语音识别引擎、英文语音识别引擎以及韩文语音识别引擎，得到中文语音识别引擎的中文识别结果C、中文识别结果C的声学分C1以及中文识别结果C的初始语言分C2；英文语音识别引擎的英文识别结果E、英文识别结果E的声学分E1以及英文识别结果E的初始语言分E2；韩文语音识别引擎的韩文识别结果K、韩文识别结果K的声学分K1以及韩文识别结果K的初始语言分K2。具体地，语音的时长可以是10毫秒。

步骤302、将各个所述语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个所述语音识别结果各自的重打分后的语言分，所述重打分语言模型包括基于对各个所述语音识别引擎中的语言模型进行插值得到的一个二遍打分的语言模型。

请参考图6，将各个语音识别结果分别输入到重打分语言模型中进行重打分，得到中文识别结果C的重打分后的语言分C3，英文识别结果E的重打分后的语言分E3，韩文识别结果K的重打分后的语言分K3。

步骤303、针对每个所述语音识别结果，将所述语音识别结果的声学分和所述语音识别结果的重打分后的语言分之和，确定为所述语音识别结果的最终得分。

中文识别结果C的最终得分为声学分C1+重打分后的语言分C3，英文识别结果E的最终得分为声学分E1+重打分后的语言分E3，韩文识别结果K的最终得分为声学分K1+重打分后的语言分K3。

步骤304、将所述最终得分最大的语音识别结果确定为最终识别结果。

假设中文识别结果C的最终得分大于英文识别结果E的最终得分以及韩文识别结果K的最终得分，则将中文识别结果C确定为最终识别结果。

通过以上技术方案可知，本实施例存在的有益效果是：每种语言均有其各自的语音识别引擎，从而无需对语音的语言类别进行判断，且同时输入到各个语音识别引擎中，确保了多语言识别的实时率；每种语言各自训练自己的声学模型以及语言模型，从而保证声学模型的识别效果以及语音识别结果中不会出现多种语言混杂的情况；同时，得到的最终识别结果综合考虑到了语音识别结果的声学分以及语音识别结果的重打分后的语言分，从而具有相对较高的准确性。

基于与本发明方法实施例相同的构思，请参考图4，本发明实施例还提供了一种多语言语音识别装置，包括：

第一识别模块401，用于将采集的语音输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型；

重打分模块402，用于将各个所述语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个所述语音识别结果各自的第二得分；

第二识别模块403，用于根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果。

在一个实施例中，所述第二识别模块403，包括：得分确定单元以及识别单元；其中，

所述得分确定单元，用于针对每个所述语音识别结果，根据所述语音识别结果的第一得分和所述语音识别结果的第二得分，确定所述语音识别结果的最终得分；

所述识别单元，用于根据各个所述语音识别结果各自的最终得分，确定最终识别结果。

所述最终识别结果为所述最终得分最大的语音识别结果。

图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器501以及存储有执行指令的存储器502，可选地还包括内部总线503及网络接口504。其中，存储器502可能包含内存5021，例如高速随机存取存储器(Random-AccessMemory，RAM)，也可能还包括非易失性存储器5022(non-volatile memory)，例如至少1个磁盘存储器等；处理器501、网络接口504和存储器502可以通过内部总线503相互连接，该内部总线503可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等；内部总线503可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。当然，该电子设备还可能包括其他业务所需要的硬件。当处理器501执行存储器502存储的执行指令时，处理器501执行本发明任意一个实施例中的方法，并至少用于执行如图2或图3所示的方法。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成一种多语言语音识别装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本发明任一实施例中提供的一种多语言语音识别方法。

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明实施例还提供了一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行执行指令时，所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图5所示的电子设备；执行指令是一种多语言语音识别装置所对应计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种多语言语音识别方法，其特征在于，包括：

将采集的语音同时输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型；

将各个所述语音识别结果分别输入到重打分语言模型中进行重打分，以确定各个所述语音识别结果各自的第二得分；

根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果；

所述根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果，包括：针对每个所述语音识别结果，根据所述语音识别结果的第一得分和所述语音识别结果的第二得分，确定所述语音识别结果的最终得分；根据各个所述语音识别结果各自的最终得分，确定最终识别结果；

所述第一得分包括音素概率的声学分，所述第二得分为重打分后的语言分，所述语言分为形成一个句子的概率；

所述最终识别结果为所述最终得分最大的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述重打分语言模型包括基于对各个所述语音识别引擎中的语言模型进行插值得到的一个二遍打分的语言模型。

3.一种多语言语音识别装置，其特征在于，包括：

第一识别模块，用于将采集的语音同时输入到至少两种语言各自的语音识别引擎中进行语音识别，确定至少两个语音识别结果以及各个所述语音识别结果各自的第一得分，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型；

第二识别模块，用于根据各个所述语音识别结果各自的第一得分以及各个所述语音识别结果各自的第二得分，确定最终识别结果；

所述第二识别模块，包括：得分确定单元以及识别单元；其中，

所述识别单元，用于根据各个所述语音识别结果各自的最终得分，确定最终识别结果；

其中，所述第一得分包括音素概率的声学分，所述第二得分为重打分后的语言分，所述语言分为形成一个句子的概率；

所述最终识别结果为所述最终得分最大的语音识别结果。

4.一种多语言语音识别系统，其特征在于，包括：

至少两种语言各自的语音识别引擎以及重打分语言模型，其中，所述语音识别引擎包括利用对应语言单独训练的声学模型以及语言模型，所述重打分语言模型用于对各个所述语音识别引擎各自输出的语音识别结果进行重打分；

其中，所述语音识别引擎用于根据采集的语音输出语音识别结果，所述声学模型用于根据所述语音识别结果输出第一得分，所述语言模型用于根据所述重打分语言模型输出的结果得到第二得分；

所述语音识别结果的最终得分为所述语音识别结果的声学分和所述语音识别结果的重打分后的语言分之和，采集的语音的最终识别结果为所述最终得分最大的语音识别结果。

5.根据权利要求4所述的系统，其特征在于，所述重打分语言模型包括基于对各个所述语音识别引擎中的语言模型进行插值得到的一个二遍打分的语言模型。

6.一种计算机可读存储介质，其特征在于，包括执行指令，当电子设备的处理器执行所述执行指令时，所述处理器执行如权利要求1至2中任一所述的方法。

7.一种电子设备，其特征在于，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如权利要求1至2中任一所述的方法。