CN111968646B

CN111968646B - 一种语音识别方法及装置

Info

Publication number: CN111968646B
Application number: CN202010861156.4A
Authority: CN
Inventors: 曹立新
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2023-10-13
Anticipated expiration: 2040-08-25
Also published as: CN111968646A

Abstract

本申请公开了一种语音识别方法及装置；本申请与人工智能的语音技术和自然语言处理领域相关，本申请可以获取待识别的目标语音；基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本及其识别概率，初始识别文本包括第一语种文本和第二语种文本；将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，第三语种文本与第二语种文本属于相同语种的文本；对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率；基于每一候选识别文本的文本概率及其对应的初始识别文本的识别概率，确定目标语音的目标识别文本。本申请可以有效提升语音识别准确率。

Description

一种语音识别方法及装置

技术领域

本申请涉及人工智能领域，具体涉及一种语音识别方法及装置。

背景技术

随着人工智能技术的发展，语音识别技术日趋成熟，基于语音识别技术可以在办公、家居、翻译等多个领域方便人们的工作生活，在一些场景下，语音识别需要面对混合语种的语音(如中英文混合的语音)，并对其进行识别，现有技术会搭建并训练一个神经网络模型来实现对混合语种的语音的识别。

在对现有技术的研究和实践过程中，本申请的发明人发现，在训练神经网络模型的过程中需要海量的中英文样本语音，但实际上难以获得与需求数量一致的中英文样本语音，进而导致训练后的神经网络模型的识别准确率并不高。

发明内容

本申请实施例提供一种语音识别方法及装置，可以有效提升语音识别的准确率。

本申请实施例提供一种语音识别方法，包括：

获取待识别的目标语音；

基于预设声学模型和预设语言模型，对所述目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本；

将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，所述第三语种文本与所述第二语种文本属于相同语种的文本；

对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，所述文本概率表征目标候选识别文本为与所述目标语音的标准识别文本语义相同的概率；

基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定所述目标语音的目标识别文本。

相应地，本申请提供了一种语音识别装置，包括：

获取模块，用于获取待识别的目标语音；

第一识别模块，用于基于预设声学模型和预设语言模型，对所述目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本；

转化模块，用于将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，所述第三语种文本与所述第二语种文本属于相同语种的文本；

第二识别模块，用于对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，所述文本概率表征目标候选识别文本为与所述目标语音的标准识别文本语义相同的概率；

确定模块，用于基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定所述目标语音的目标识别文本。

在一些实施例中，转化模块可以包括转化子模块和确定子模块，其中，

转化子模块，用于将初始识别文本中的第一语种文本转化为第三语种文本，得到至少一个候选识别文本；

确定子模块，用于从所述初始识别文本的至少一个候选识别文本中，确定所述初始识别文本对应的目标候选识别文本。

在一些实施例中，确定子模块具体用于：

对所述初始识别文本的至少一个候选识别文本进行识别，得到每一候选识别文本的语句概率，所述语句概率表征候选识别文本为预设逻辑语句的概率；

通过每一候选识别文本的语句概率，从至少一个候选识别文本中确定所述初始识别文本对应的目标候选识别文本。

在一些实施例中，转化子模块具体用于：

从目标词集中确定与初始识别文本中的第一语种文本语义相同的至少一个候选第三语种文本；

将所述初始识别文本中的第一语种文本替换为候选第三语种文本，得到至少一个候选识别文本。

在一些实施例中，语音识别装置还包括：

样本模块，用于获取多个第二语种样本文本；

翻译模块，用于通过预设翻译模型，将每一第二语种样本文本转化为其对应的第一语种同义文本；

词集模块，用于基于所有第二语种样本文本及其对应的第一语种同义文本，生成目标词集。

在一些实施例中，词集模块具体用于：

对每一第二语种样本文本及其对应的第一语种同义文本进行词对齐，得到多个第二语种词、以及第二语种词对应的第一语种同义词；

整合所有第二语种词及其对应的第一语种同义词，以生成目标词集。

在一些实施例中，确定模块包括融合子模块和确定子模块，其中，

融合子模块，用于融合每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，得到每一目标候选识别文本的综合概率；

确定子模块，用于基于每一目标候选识别文本的综合概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

在一些实施例中，目标候选识别文本包括多个第二语种词，第二识别模块具体用于：

确定目标候选识别文本中每一第二语种词的出现概率；

融合所述目标候选识别文本中所有第二语种词的出现概率，得到所述目标候选识别文本的文本概率。

在一些实施例中，第一识别模块具体用于：

基于预设声学模型对所述目标语音进行识别，以得到候选文本序列；

基于预设语言模型对候选文本序列进行筛选，确定至少一个初始识别文本、以及每一初始识别文本的识别概率。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种语音识别方法。

相应的，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请实施例提供的任一种语音识别方法。

本申请中，首先获取待识别的目标语音，然后基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本，再将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，第三语种文本与第二语种文本属于相同语种的文本，然后对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，文本概率表征目标候选识别文本为与目标语音的标准识别文本语义相同的概率，最后基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

本申请中，在对目标语音进行识别得到至少一个初始识别文本后，可以通过语种转化的方式，将初始识别文本(包含至少两种语种的文本)转化目标候选识别文本(单一语种的文本)，接着对目标候选识别文本进行识别，区别于现有技术需要大量混合语种样本语音的方式，本申请可以显著提高语音识别的效率和准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音识别系统的场景示意图；

图2是本申请实施例提供的语音识别方法的流程示意图；

图3是本申请实施例提供的语音识别方法的另一流程示意图；

图4是本申请实施例提供的语音识别方法的另一实施示例图；

图5是本申请实施例提供的语音识别装置的结构示意图；

图6是本申请实施例提供的语音识别装置的另一结构示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，本申请所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例的语音识别方法涉及人工智能的语音技术以及自然语言处理领域，比如，通过预设声学模型和预设语言模型对目标语音进行识别，得到至少一个初始识别文本，或对目标候选识别文本进行识别，得到文本概率等，具体将通过下述实施例进行详细说明。

本申请实施例提供一种语音识别方法及装置。具体地，本申请实施例可以集成在语音识别装置中。

语音识别装置可以集成在计算机设备中，该计算机设备可以包括终端或服务器等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参见图1，语音识别装置可以集成在终端以及服务器中，其中，服务器可以获取终端发送的待识别的目标语音，基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本，将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，第三语种文本与第二语种文本属于相同语种的文本，对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，文本概率表征目标候选识别文本为与目标语音的标准识别文本语义相同的概率，基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本，并向终端发送该目标识别文本。

需要说明的是，图1所示的语音识别系统的场景示意图仅仅是一个示例，本申请实施例描述的语音识别系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着语音识别装置的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。在本实施例中，将对语音识别方法进行详细描述，该语音识别方法可以集成在计算机设备上，如图2所示，图2是本申请实施例提供的语音识别方法的流程示意图。该语音识别方法可以包括：

101、获取待识别的目标语音。

其中，目标语音可以为包含混合语种的语音片段，语种可以包括汉语、英语、法语、壮语等，混合语种可以是至少两种语种的混合，如，汉语混合英语，等。

获取目标语音的方法可以包括多种，如，可以通过多媒体采集设备(如录音机、摄像机等)进行采集；又如，可以接收从其他计算机设备或存储设备发送的目标语音，或直接从目标语音的存储地址获取，等等。

比如，接收用户终端发送的待识别的目标语音A。

102、基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本。

其中，预设声学模型可以通过统计语音片段中的发音分布，描述语音片段中的一段语音对应一组音节的概率，进而将语音片段中的声学特征对应到词单元，预设语言模型可以通过统计文本语料中的文法分布，描述一个文本串(包含若干词单元)成为自然语言的概率。其中，预设声学模型和预设语言模型可以基于实际需求进行确定，具体地，可以直接使用公开的模型，声学模型可以如连接时序分类(CTC，Connectionist TemporalClassification)声学模型，语言模型可以如N-Gram语言模型、基于循环神经网络(RNN、Recurrent Neural Network)的语言模型等，此外，也可以基于实际应用过程中的需求，自行构建和训练神经网络模型，用于实现声学模型或语言模型的功能。

具体地，目标语音可以是在计算机设备中以文件形式存储的一组声波，则需要先对目标语音进行声学特征提取，将其转化为特征向量，比如，可以通过对目标语音进行分帧，再通过波形变换将每一帧语音数据转化为特征向量。

得到特征向量后，可以通过预设声学模型和预设语言模型中存储的大量参数，确定特征向量对应的若干初始候选文本，以及每一初始候选文本的识别概率，其中，识别概率可以基于通过预设声学模型得到的声学概率和通过预设语言模型得到的语言概率确定，声学概率可以表征目标语音为匹配音素串的概率，可以通过预设词典确定词语对应的音素串，因此可以通过匹配音素串得到若干候选文本序列，而语言概率可以表征候选文本序列为自然语言的概率。

初始识别文本可以为计算机设备识别到的目标语音可能对应的文本，由于目标语言为混合语种的语音，因此初始识别文本为混合语种的文本，即初始识别文本中包含第一语种文本和第二语种文本，如，一个初始识别文本可以是“我爱tomato”，该初始识别文本中包含中文文本(第二语种文本)和英文文本(第一语种文本)。

比如，可以预设声学模型1和预设语言模型2可以作为解码器J的组成单元，可以通过解码器J对目标语音A进行识别，得到目标语音A的初始识别文本及其识别概率：文本1(识别概率1)、文本2(识别概率2)和文本3(识别概率3)。

在一些实施例中，步骤“基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率”可以包括：

基于预设声学模型对目标语音进行识别，以得到候选文本序列；基于预设语言模型对候选文本序列进行筛选，确定至少一个初始识别文本、以及每一初始识别文本的识别概率。

具体地，在通过预设声学模型和预设语言模型对目标语音进行识别的过程中，可以基于预设声学模型得到候选文本序列，可以基于预设语言模型得到初始识别文本，但是在实际过程中，两个模型在使用时并没有明确的先后顺序，预设声学模型确定帧与状态(状态可以为音素的下位语音单位)对应的概率，为了提升效率，在实际进行识别时，可以基于隐马尔科夫链(HMM、Hidden Markov Model)构建状态网络，状态网络中包含预设声学模型和预设语言模型中的参数，状态网络包含单词、音素以及状态，然后，可以基于动态规划算法(如维特比(Viterbi)算法)在状态网络中寻找最佳路径，最终可得到目标语音的若干初始识别文本、以及每一初始识别文本的识别概率。

103、将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，第三语种文本与第二语种文本属于相同语种的文本。

其中，目标候选识别文本可以为其对应的初始识别文本的单一语种文本，即一初始识别文本对应一目标候选识别文本，目标候选识别文本的数量与初始识别文本的数量保持一致，为至少一个。其中，第三语种文本为对第一语种文本进行语种转化后得到的文本，第三语种文本与第二语种文本的语种相同，故而目标候选识别文本为单一语种文本。

比如，可以分别对目标语音A的初始识别文本：文本1、文本2和文本3进行语种转化，得到文本1对应的目标文本1、文本2对应的目标文本2、以及文本3对应的目标文本3。

在一些实施例中，步骤“将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本”可以包括：

(1)将初始识别文本中的第一语种文本转化为第三语种文本，得到至少一个候选识别文本；

(2)从初始识别文本的至少一个候选识别文本中，确定初始识别文本对应的目标候选识别文本。

具体地，由于不同语种之间存在一词多义的现象，如，第一语种词M对应的第二语种词包括含义不同的词m1、词m2、词m3、以及词m4。因此，在将一初始识别文本中的第一语种文本进行语种转化的过程中，可能会得到多个候选识别文本，每一候选识别文本中的第二语种词的含义不同，则每一候选识别文本的含义不同，此时需要从多个候选识别文本中，确定初始识别文本唯一对应的目标候选识别文本，目标候选识别文本可以为与初始识别文本的语义最接近的候选识别文本。

比如，可以对目标语音A的初始识别文本(文本1)中的第一语种文本进行转化，得到文本1的候选识别文本：候选文本1、候选文本2、以及候选文本3，再从这三个候选识别文本中，确定初始识别文本(文本1)对应的目标候选识别文本(目标文本1)，目标文本1可以为候选文本2。

在一些实施例中，步骤“从初始识别文本的至少一个候选识别文本中，确定初始识别文本对应的目标候选识别文本”可以包括：

(2.1)对初始识别文本的至少一个候选识别文本进行识别，得到每一候选识别文本的语句概率，语句概率表征候选识别文本为预设逻辑语句的概率；

(2.2)通过每一候选识别文本的语句概率，从至少一个候选识别文本中确定初始识别文本对应的目标候选识别文本。

具体地，需要通过语言模型对初始识别文本的每一候选识别文本进行识别，判断每一候选识别文本的语义在多大程度上为预设逻辑语句，其中，预设逻辑语句可以为在该语句所属的语种下，符合该语种的语法习惯、用词习惯等的语句，比如，在汉语中，打篮球、踢足球等为符合汉语习惯的表达，而英语中，“play”可以表达“打”和“踢”的含义，则英语中可以play basketball和play football来表达相同的含义。

语言模型可以对每一候选识别语句含义进行识别，得到每一候选识别文本的语句概率，语句概率越高，则该候选识别文本越符合该语种的语法逻辑，比如，语言模型可以对候选识别文本：打篮球、以及踢篮球分别进行识别，得到打篮球的语句概率L1以及踢篮球的语句概率L2。

接着，可以比较所有候选识别文本的语句概率，确定语句概率最高的候选识别文本为初始识别文本的目标候选识别文本。比如，确定语句概率L1大于语句概率L2，则可以初始识别文本play篮球的目标候选识别文本为打篮球。

在一些实施例中，步骤“将初始识别文本中的第一语种文本转化为第二语种文本，得到至少一个候选识别文本”可以包括：

(1.1)从目标词集中确定与初始识别文本中的第一语种文本语义相同的至少一个候选第三语种文本；

(1.2)将初始识别文本中的第一语种文本替换为候选第三语种文本，以得到至少一个候选识别文本。

具体地，可以通过目标词集对初始识别文本中的第一语种文本进行替换，目标词集可以是已有的词典，如双语词典等，也可以基于实际需求自行生成，等。目标词集中可以包括第一语种词语，以及与其词义相同的第二语种词语，第二语种词语的数量可以为至少一个，比如，第一语种词语可以为make it，其对应的第二语种词语可以包括：达到预期、得救、受欢迎、做到等。

比如，初始识别文本可以为：你是怎么从深山中make it的，其中，可以通过目标词集确定第一语种文本make it对应的候选第三语种文本包括：达到预期、得救、受欢迎、做到，则将每一候选第三语种文本替换到初始识别文本中，即可得到候选识别文本：你是怎么从深山中达到预期的、你是怎么从深山中得救的、你是怎么从深山中受欢迎的、以及你是怎么从深山中做到的。

在一些实施例中，语音识别方法还包括：

获取多个第二语种样本文本；通过预设翻译模型，将每一第二语种样本文本转化为其对应的第一语种同义文本；基于所有第二语种样本文本及其对应的第一语种同义文本，生成目标词集。

其中，目标词集可以自行生成，在生成前，需要多个样本文本，其中，样本文本可以为第一语种样本文本，也可以为第二语种样本文本，若样本文本为第二语种样本文本，则需要通过预设翻译模型，将所有的第二语种样本文本翻译为与其语义相同的第一语种同义文本；若样本文本为第一语种样本文本，则可以通过预设翻译模型，将第一语种样本文本翻译与其语义相同的第二语种同义文本。

在一些实施例中，步骤“基于所有第二语种样本文本及其对应的第一语种同义文本，生成目标词集”可以包括：

对每一第二语种样本文本及其对应的第一语种同义文本进行词对齐，得到多个第二语种词、以及第二语种词对应的第一语种同义词；整合所有第二语种词及其对应的第一语种同义词，以生成目标词集。

具体地，可以对样本文本以及同义文本极性切分，得到若干词语，并获得可以对应的不同语种词语对，如，第二语种样本文本可以为：我做饭，对应的第一语种同义文本可以为：I make food，通过词对齐，可以得到第二语种词及其对应的第一语种同义词，即“我”对应“I”、“做”对应“make”、“饭”对应“food”。

为了构建目标词集，样本文本的数据量巨大，因此，一个第一语种同义词在不同的样本文本中对应的第二语种词可以不同，如，可以make money可以得到第一语种词同义词“make”对应另一第二语种词“赚”,因此，可以将得到的所有第二语种词及其对应的第一语种同义词整合起来，最终生成目标词集。

104、对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率。

其中，文本概率可以表征目标候选识别文本为与所述目标语音的标准识别文本语义相同的概率，由于目标语音包括多个初始识别文本，在对每一初始文本进行语种转化后，可以得到目标语音的多个目标候选识别文本，为了得到目标语音唯一对应的目标识别文本，需要对每一目标候选识别文本进行识别。

识别可以通过预设模型进行，此处的预设模型需要对目标候选识别文本进行判别，确定目标候选识别文本在多大程度上为符合该语种的语言习惯的自然语言。

比如，目标候选识别文本可以为目标文本1“我可能去逛公园”、以及目标文本2“我可能去逛公路”，则识别模型可以分别对这两个目标候选识别文本进行识别，得到目标文本1的文本概率1、以及目标文本2的文本概率2。

在一些实施例中，目标候选识别文本包括多个第二语种词，步骤“对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率”可以包括：

确定目标候选识别文本中每一第二语种词的出现概率；融合目标候选识别文本中所有第二语种词的出现概率，得到目标候选识别文本的文本概率。

具体地，可以确定目标候选识别文本中每一第二语种词的出现概率，出现概率可以基于一定的计算公式得到，也可以从已有的数据库中获取，等等，比如，一第二语种词的出现概率可以基于与其存在位置关系的第二文本词确定(如该第二语种词和该第二语种词的前一第二语种词)。然后可以对目标候选识别文本中的所有第二语种词的出现概率进行融合，得到该目标候选识别文本的文本概率，融合可以包括多种方式，如相加、相乘、平均、或加权平均等，也可以基于预设计算公式进行融合，等，在实际应用本语音识别方法时，可以根据需求灵活确定融合方式，在此不再赘述。

比如，目标候选识别文本1中可以包括携带顺序信息的第二文本词1、第二文本词2、第二文本词3以及第二文本词4，可以基于预设数据表，确定第二文本词1的出现概率，确定在第二文本词1出现的情况下，第二文本词2的出现概率，确定在第二文本词1和第二文本词2出现的情况下，第二文本词3的出现概率，以及确定在第二文本词1、第二文本词2以及第二文本词3出现的情况下，第二文本词4的出现概率，接着，将所有出现概率相乘，即可得到目标候选识别文本1的文本概率。

105、基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

其中，目标识别文本可以为通过本申请的语音识别方法得到的目标语音的最佳识别结果。初始识别文本对应一目标候选识别文本，因此在评估目标候选识别文本时，可以将初始识别文本的识别概率作为一个因素，比如，通过目标候选识别结果的识别概率和文本概率，确定目标语音的目标识别文本。

比如，对目标语音进行识别后，得到目标候选识别文本1和目标候选识别文本2，基于目标候选识别文本1的识别概率1和文本概率1、以及目标候选识别文本2的识别概率2和文本概率2，确定目标语音的目标识别文本为目标候选识别文本1。

在一些实施例中，步骤“基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本”可以包括：

融合每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，得到每一目标候选识别文本的综合概率；基于每一目标候选识别文本的综合概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

融合的方式可以包括多种，如相加、相乘、平均、或加权平均等，也可以基于预设计算公式进行融合，等，将目标候选识别文本的文本概率及其对应的初始识别文本的识别概率进行融合后，可以得到该目标候选识别文本的综合概率，得到目标语音的所有目标候选识别文本的综合概率后，可以进行排序，其中综合概率最高的目标候选识别文本即为目标语音的目标识别文本。

比如，融合目标候选识别文本1的文本概率1、以及目标候选识别文本1对应的初始识别文本的识别概率1，得到目标候选识别文本1的综合概率1，融合目标候选识别文本2的文本概率2、以及目标候选识别文本2对应的初始识别文本的识别概率2，得到目标候选识别文本2的综合概率2，通过比较可以确定综合概率1大于综合概率2，则确定目标语音的目标识别文本为目标候选识别文本1。

本申请中，在对目标语音进行识别得到至少一个初始识别文本后，可以通过语种转化的方式，将初始识别文本(包含两种语种的文本)转化目标候选识别文本(单一语种的文本)，接着对目标候选识别文本进行识别，区别于现有技术需要大量混合语种样本语音的方式，本申请可以显著提高语音识别的效率和准确率。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本申请将以集成在终端的语音识别系统为例，对语音识别方法进行介绍，如图3所示，图3是本申请实施例提供的语音识别方法的流程示意图。该语音识别方法可以包括：

201、终端获取待识别的目标语音。

比如，用户小旦的终端可以基于小旦的操作，对小旦说的中英文混合语句进行采集，终端即得到目标语音。

202、终端基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本。

比如，终端可以基于预设声学模型和预设语言模型，对采集到的目标语音进行识别，得到两个初始识别文本，以及每一个初始识别文本的识别概率，其中，初始识别文本及其识别概率分别为:想看你住的horse(识别概率为a)、以及想看你住的house(识别概率为b)。

203、终端从目标词集中确定与初始识别文本中的第一语种文本语义相同的至少一个候选第三语种文本，候选第三语种文本与第二语种文本为语种相同的文本。

比如，初始识别文本“想看你住的horse”中的第一语种文本为“horse”,可以从目标词集中确定与“horse”词义相同的候选第三语种文本为“马”，另一初始识别文本“想看你住的house”中的第一语种文本为“house”,可以从目标词集中确定与“house”词义相同的候选第三语种文本为“全家人”以及“房子”。

204、终端将初始识别文本中的第一语种文本替换为候选第三语种文本，以得到至少一个候选识别文本。

比如，对初始识别文本“想看你住的horse”进行处理后，得到候选识别文本“想看你住的马”，以及对另一初始识别文本“想看你住的house”进行处理后，得到候选识别文本“想看你住的全家人”和“想看你住的房子”。

205、终端从初始识别文本的至少一个候选识别文本中，确定初始识别文本对应的目标候选识别文本。

比如，可以确定初始识别文本“想看你住的horse”对应的目标候选识别文本为“想看你住的马”，以及从初始识别文本“想看你住的house”的两个候选识别文本中，确定目标候选识别文本为“想看你住的房子”。

206、终端对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，文本概率表征目标候选识别文本为与目标语音的标准识别文本语义相同的概率。

比如，可以分别对两个目标候选识别文本进行识别，得到目标候选识别文本“想看你住的马”的文本概率c、以及目标候选识别文本“想看你住的房子”的文本概率d。

207、终端基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

比如，终端可以融合目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，得到目标候选识别文本“想看你住的马”的综合概率ac、以及目标候选识别文本“想看你住的房子”的综合概率bd，由于ac小于bd，则可以确定小旦说的中英文混合语句的中文识别结果为“想看你住的房子”。

本申请中，进行语音识别时的流程可以参见图4，可以采集用户的中文文本，将其保存在用户中文文本数据库中，通过机器翻译模型，将中文文本翻译为同义的英文文本，如，通过机器翻译得到中文文本“我是中国人”的同义英文文本“I am Chinese”，再对含义相同的中文文本和英文文本进行词对齐，得到若干同义词对，每一同义词对包含词义相同的中文词语和英文词语，如，对“我是中国人”和“I am Chinese”进行词对齐后，得到三组同义词对：“我”和“I”、“是”和“am”、以及“中国人”和“Chinese”，接着，通过对大量的同义词对的统计汇总，最终得到目标词集。

参见图4，可以采集用户的中英文混合语音(即目标语音)，首先可以通过包含预设语言模型和预设声学模型的解码器，对目标语音进行识别，得到若干初始识别文本，以及每一初始识别文本的识别概率，接着，通过声学模型，对初始识别文本中的英文文本进行英中映射(Nbest即至少一个初始识别文本)，得到每一初始识别文本的至少一个候选识别文本，再通过消歧语言模型，确定初始识别文本对应的目标候选识别文本，得到每一初始识别文本对应的目标候选识别文本后，将至少一个目标候选识别文本输入二遍解码器，得到每一目标候选识别文本的文本概率，再基于每一目标候选识别文本的识别概率和文本概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

为便于更好的实施本申请实施例提供的语音识别方法，本申请实施例还提供一种基于上述语音识别方法的装置。其中名词的含义与上述语音识别方法中相同，具体实现细节可以参考方法实施例中的说明。

如图5所示，图5本申请一实施例提供的语音识别装置的结构示意图，其中该语音识别装置可以包括获取模块301、第一识别模块302、转化模块303、第二识别模块304和确定模块305，其中，

获取模块301，用于获取待识别的目标语音；

第一识别模块302，用于基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本；

转化模块303，用于将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，第三语种文本与第二语种文本属于相同语种的文本；

第二识别模块304，用于对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，文本概率表征目标候选识别文本为与目标语音的标准识别文本语义相同的概率；

确定模块305，用于基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

在一些实施例中，参见图6，转化模块303可以包括转化子模块3031和确定子模块3032，其中，

转化子模块3031，用于将初始识别文本中的第一语种文本转化为第三语种文本，得到至少一个候选识别文本；

确定子模块3032，用于从初始识别文本的至少一个候选识别文本中，确定初始识别文本对应的目标候选识别文本。

在一些实施例中，确定子模块具体用于：

对初始识别文本的至少一个候选识别文本进行识别，得到每一候选识别文本的语句概率，语句概率表征候选识别文本为预设逻辑语句的概率；

通过每一候选识别文本的语句概率，从至少一个候选识别文本中确定初始识别文本对应的目标候选识别文本。

在一些实施例中，转化子模块具体用于：

将初始识别文本中的第一语种文本替换为候选第三语种文本，得到至少一个候选识别文本。

在一些实施例中，语音识别装置还包括：

样本模块，用于获取多个第二语种样本文本；

在一些实施例中，词集模块具体用于：

整合所有第二语种词及其对应的第一语种同义词，得到目标词集。

在一些实施例中，目标候选识别文本包括多个第一语种词，第二识别模块具体用于：

确定目标候选识别文本中每一第二语种词的出现概率；

融合目标候选识别文本中所有第二语种词的出现概率，得到目标候选识别文本的文本概率。

在一些实施例中，第一识别模块具体用于：

基于预设声学模型对目标语音进行识别，以得到候选文本序列；

本申请中，获取模块301首先获取待识别的目标语音，然后第一识别模块302基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本，转化模块303再将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，第三语种文本与第二语种文本属于相同语种的文本，然后第二识别模块304对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，文本概率表征目标候选识别文本为与目标语音的标准识别文本语义相同的概率，最后确定模块305基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图7所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待识别的目标语音；基于预设声学模型和预设语言模型，对目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，其中，初始识别文本包括第一语种文本和第二语种文本；将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，第三语种文本与第二语种文本属于相同语种的文本；对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，文本概率表征目标候选识别文本为与目标语音的标准识别文本语义相同的概率；基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种语音识别方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种语音识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音识别方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别的目标语音；

2.根据权利要求1所述的方法，所述将每一初始识别文本中的第一语种文本转化为第三语种文本，以得到每一初始识别文本对应的目标候选识别文本，所述第三语种文本与所述第二语种文本属于相同语种的文本，包括：

将初始识别文本中的第一语种文本转化为第三语种文本，得到至少一个候选识别文本；

从所述初始识别文本的至少一个候选识别文本中，确定所述初始识别文本对应的目标候选识别文本。

3.根据权利要求2所述的方法，所述从所述初始识别文本的至少一个候选识别文本中，确定所述初始识别文本对应的目标候选识别文本，包括：

4.根据权利要求2所述的方法，所述将初始识别文本中的第一语种文本转化为第三语种文本，得到至少一个候选识别文本，包括：

将所述初始识别文本中的第一语种文本替换为候选第三语种文本，以得到至少一个候选识别文本。

5.根据权利要求4所述的方法，所述方法还包括：

获取多个第二语种样本文本；

通过预设翻译模型，将每一第二语种样本文本转化为其对应的第一语种同义文本；

基于所有第二语种样本文本及其对应的第一语种同义文本，生成目标词集。

6.根据权利要求5所述的方法，所述基于所有第二语种样本文本及其对应的第一语种同义文本，生成目标词集，包括：

7.根据权利要求1所述的方法，所述基于每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，从所有目标候选识别文本中确定所述目标语音的目标识别文本，包括：

融合每一目标候选识别文本的文本概率及其对应的初始识别文本的识别概率，得到每一目标候选识别文本的综合概率；

基于每一目标候选识别文本的综合概率，从所有目标候选识别文本中确定目标语音的目标识别文本。

8.根据权利要求1所述的方法，目标候选识别文本包括多个第二语种词，所述对每一目标候选识别文本进行识别，得到每一目标候选识别文本的文本概率，包括：

确定目标候选识别文本中每一第二语种词的出现概率；

9.根据权利要求1所述的方法，所述基于预设声学模型和预设语言模型，对所述目标语音进行识别，得到至少一个初始识别文本、以及每一初始识别文本的识别概率，包括：

10.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别的目标语音；