CN105096953B

CN105096953B - 实现多语种混合使用的语音识别方法

Info

Publication number: CN105096953B
Application number: CN201510489060.9A
Authority: CN
Inventors: 于拾全; 卫亚东; 田学红
Original assignee: Dongguan Fandou Information Technology Co Ltd
Current assignee: Dongguan Fandou Information Technology Co Ltd
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2019-03-12
Anticipated expiration: 2035-08-11
Also published as: CN105096953A

Abstract

本发明公开了一种实现多语种混合使用的语音识别方法，涉及语音识别技术领域。包括如下步骤：在云端提供多种语音识别服务器和一个识别文本后处理服务器；用户通过终端把实时语音通过网络同时传送给多个语音识别服务器；多个语音识别服务器同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理；识别文本后处理服务器根据整体语义的解析，提供第一种语言结果中的有效部分M，以及第二种语言结果中的有效部分N，然后将M和N拼接成最终的识别结果，通过网络发送给用户终端；用户终端获取到多种语音混用的正确识别结果。所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

Description

实现多语种混合使用的语音识别方法

技术领域

本发明涉及语音识别方法技术领域，尤其涉及一种实现多语种混合使用的语音识别方法。

背景技术

现有的语音识别系统都是针对单个语种进行优化设计的，在同一时间内只能实现单种语言(比如，中文普通话或英语)的语音识别，无法满足混合语音用户的使用需求，比如喜欢中英文混读的人群。

造成这种现象的原因有很多，例如基本识别单元的选择差异。

在语音识别过程中，选择识别单元是语音识别第一步基础。语音识别单元有单词(句)、音节和音素三种，一般都会根据具体的需求选择不同的识别单元。一般的选择策略如下：

1)单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

2)音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元是比较常见的。

3)音素单元以前多见于英语和其他字母型语言的语音识别的研究中。

基于以上原因，基于单个语音识别引擎很难做到对不同语种的高精度识别，因此无法实现混合语音的识别。

发明内容

本发明所要解决的技术问题是提供一种实现多语种混合使用的语音识别方法，所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

为解决上述技术问题，本发明所采取的技术方案是：一种实现多语种混合使用的语音识别方法，其特征在于所述方法包括如下步骤：

1)在云端提供多种语音识别服务器和一个识别文本后处理服务器；

2)用户通过终端把实时语音通过网络同时传送给多个语音识别服务器；

3)多个语音识别服务器同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理；

4)识别文本后处理服务器基于N元文法规则建立N-gram模型库，针对整体语义进行解析，去掉不符合N元文法规则的部分，保留第一种语言结果中的有效部分M，以及第二种语言结果中的有效部分N，以此类推，然后将M和N拼接成最终的识别结果，通过网络发送给用户终端；

5)用户终端获取到多种语音混用的正确识别结果。

进一步的技术方案在于：步骤1)中多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B。

进一步的技术方案在于：步骤2)具体为，用户通过终端把实时语音通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B。

进一步的技术方案在于：步骤3)具体为，中文语音识别服务器A和英文语音识别服务器B同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理。

进一步的技术方案在于：步骤4具体为，识别文本后处理服务器根据中文的语义解析，提供中文结果中的有效部分M，以及英文结果中的有效部分N，然后将M和N拼接成最终的识别结果，通过网络发送给用户终端。

进一步的技术方案在于：步骤5)具体为，用户终端获取到中英文混用的正确识别结果。

进一步的技术方案在于：识别文本后处理服务器具体的处理过程如下：

1)选择中文服务器的文本结果res-1的第1个字为起点，进行N-gram的判断，如果后续的第N个字和第一个字的组合概率低于常规门限p，则认为第1个字无效需要丢弃，否则保留第一个字，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为1，最终得到保留部分M，M可能包括多个段落Mi，其中i＝0，1,2,3...，只有第一个字为起点的段落有效时才标志为0；

2)选择英文服务器的文本结果res-1的第一个单词为起点，进行N-gram的判断，如果后续的第N个单词和第一个单词的组合概率低于常规门限p，则认为第1个单词无效需要丢弃，否则保留第一个单词，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为2，然后继续向后执行，最终得到保留部分N，N可能包括多个段落Ni，其中i＝0，1,2,3...，只有第一个单词为起点的段落有效时才标志为0；

3)把步骤1)和步骤2)得到的Mi和Ni交替拼接，形成最终的结果：M0\N1\M1\N2...或者N0\M1\N1\M2\N2.....；

4)识别文本后处理服务器把最终结果返回给用户终端。

8、根据权利要求7所述的实现多语种混合使用的语音识别方法，其特征在于常规门限p＝0.0003。

采用上述技术方案所产生的有益效果在于：所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明中语音识别引擎的原理框图；

图2是本发明的整体流程框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

总体的，本发明公开了一种实现多语种混合使用的语音识别方法，所述方法包括如下步骤：

2)用户通过终端把实时语音通过网络同时传送给多个语音识别服务器，每个语音识别服务器配置针对单个语种优化过的高精度语音识别引擎，基本框架如下图1所示：

N-gram一种依赖于上下文环境的词的概率分布的统计计算语言模型。

以N＝2为例(称为Bigram语言模型)。当我们看到一个句子片段“他正在认真”时，下一个词可以是“学习、工作、思考”等等，而不能是“美丽、我、中国”等等。即，自然语言中，存在着后一个词的出现条件地依赖于前一个词的出现的现象。Bigram就是把一个词的上下文定义为该词的前一个词，尽管这个定义仅仅包含了上下文的极少一部分，却对下一个词的出现具有较强的约束力。语料库学者发现，许多词的前面词的出现对于该词的出现具有很强的预测能力，英语这类有严格语序的语言更是如此。汉语的语序较英语灵活，但此约束关系依然存在。

假定，在一个语句中第i个词出现的概率，条件依赖于它前面的N-1个词，即将一个词的上下文定义为该词前面出现的N-1个词，这样的语言模型叫做N-gram模型(N元文法统计模型)。公式如下：

N-gram模型中，需要计算系统词表中词的每一个N-1元组的概率，共有|V|^(N-1)(这里是指数)个元组，有|V|^(N-1)个不同的概率分布。对于每一个分布，又必须估算N个参数，共需估算出|V|^N个参数。由于参数空间随着N的增大呈指数上升，因此，N一般取2或3。考虑目前的混合语言使用，一般都是常用语句的组合使用，因此V的数量不会太大，一般在3000以内的基本，以目前的服务器计算能力，是足以支撑的。

识别文本后处理服务器具体的处理过程如下：

1)选择中文服务器的文本结果res-1的第1个字为起点，进行N-gram的判断，如果后续的第N个字和第一个字的组合概率低于常规门限p，例如(p＝0.0003)，则认为第1个字无效需要丢弃，否则保留第一个字，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为1，最终得到保留部分M，M可能包括多个段落Mi，其中i＝0，1,2,3...，只有第一个字为起点的段落有效时才标志为0；

2)选择英文服务器的文本结果res-1的第一个单词为起点，进行N-gram的判断，如果后续的第N个单词和第一个单词的组合概率低于常规门限p，例如(p＝0.0003)，则认为第1个单词无效需要丢弃，否则保留第一个单词，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为2，然后继续向后执行，最终得到保留部分N，N可能包括多个段落Ni，其中i＝0，1,2,3...，只有第一个单词为起点的段落有效时才标志为0；

4)识别文本后处理服务器把最终结果返回给用户终端。

5)用户终端获取到多种语音混用的正确识别结果，整个过程如图2所示。

具体的：

实施例一

一种实现多语种混合使用的语音识别方法，所述方法包括如下步骤：

1)在云端提供多种语音识别服务器和一个识别文本后处理服务器，多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B；

2)用户通过终端把实时语音(例如包含：目标正前方，lets go！)通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B；

3)中文语音识别服务器A和英文语音识别服务器B同时进行语音识别，然后把识别结果文本“目标正前方，来时够。”和move fun lets go”发送给识别文本后处理服务器，进行处理；

4)识别文本后处理服务器根据中文的语义解析，提供中文结果中的有效部分N0＝“目标正前方”，以及英文结果中的有效部分M1＝“lets go”，这里由于英文中的第1个单词和后续的单词没有相关性，因此M下标从1开始然后拼接成最终的识别结果N0M1＝“目标正前方，lets go”，通过网络发送给用户终端；

5)用户终端获取到中英文混用的正确识别结果。

实施例二

2)用户通过终端把实时语音(1234one two three four1234one two threefour)通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B；

3)中文语音识别服务器A和英文语音识别服务器B同时进行语音识别，然后把识别结果文本“1234玩兔思锐发哦1234玩兔思锐发哦。”和“year signs one two three fouryear signs one two three four”发送给识别文本后处理服务器，进行处理；

4)识别文本后处理服务器根据中文的语义解析，提供中文结果中的有效部分N0＝“1234”和N1＝“1234”，以及英文结果中的有效部分M1＝“one two three four”M2＝“onetwo three four”，这里由于英文中的第1个单词和后续的单词没有相关性，因此M下标从1开始，然后拼接成最终的识别结果N0M1N1M2“1234one two three four1234one two threefour”，通过网络发送给用户终端；

5)用户终端获取到中英文混用的正确识别结果。

所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

Claims

1.一种实现多语种混合使用的语音识别方法，其特征在于所述方法包括如下步骤：

5)用户终端获取到多种语音混用的正确识别结果；

识别文本后处理服务器具体的处理过程如下：

4)识别文本后处理服务器把最终结果返回给用户终端。

2.根据权利要求1所述的实现多语种混合使用的语音识别方法，其特征在于：步骤1)中多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B。

3.根据权利要求2所述的实现多语种混合使用的语音识别方法，其特征在于：步骤2)具体为，用户通过终端把实时语音通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B。

4.根据权利要求3所述的实现多语种混合使用的语音识别方法，其特征在于：步骤3)具体为，中文语音识别服务器A和英文语音识别服务器B同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理。

5.根据权利要求4所述的实现多语种混合使用的语音识别方法，其特征在于：步骤4)具体为，识别文本后处理服务器根据中文的语义解析，提供中文结果中的有效部分M，以及英文结果中的有效部分N，然后将M和N拼接成最终的识别结果，通过网络发送给用户终端。

6.根据权利要求5所述的实现多语种混合使用的语音识别方法，其特征在于：步骤5)具体为，用户终端获取到中英文混用的正确识别结果。

7.根据权利要求1所述的实现多语种混合使用的语音识别方法，其特征在于常规门限p＝0.0003。