CN105096953B - 实现多语种混合使用的语音识别方法 - Google Patents

实现多语种混合使用的语音识别方法 Download PDF

Info

Publication number
CN105096953B
CN105096953B CN201510489060.9A CN201510489060A CN105096953B CN 105096953 B CN105096953 B CN 105096953B CN 201510489060 A CN201510489060 A CN 201510489060A CN 105096953 B CN105096953 B CN 105096953B
Authority
CN
China
Prior art keywords
server
word
speech recognition
identification
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510489060.9A
Other languages
English (en)
Other versions
CN105096953A (zh
Inventor
于拾全
卫亚东
田学红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Fandou Information Technology Co Ltd
Original Assignee
Dongguan Fandou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Fandou Information Technology Co Ltd filed Critical Dongguan Fandou Information Technology Co Ltd
Priority to CN201510489060.9A priority Critical patent/CN105096953B/zh
Publication of CN105096953A publication Critical patent/CN105096953A/zh
Application granted granted Critical
Publication of CN105096953B publication Critical patent/CN105096953B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种实现多语种混合使用的语音识别方法,涉及语音识别技术领域。包括如下步骤:在云端提供多种语音识别服务器和一个识别文本后处理服务器;用户通过终端把实时语音通过网络同时传送给多个语音识别服务器;多个语音识别服务器同时进行语音识别,然后把各自的识别结果文本发送给识别文本后处理服务器,进行处理;识别文本后处理服务器根据整体语义的解析,提供第一种语言结果中的有效部分M,以及第二种语言结果中的有效部分N,然后将M和N拼接成最终的识别结果,通过网络发送给用户终端;用户终端获取到多种语音混用的正确识别结果。所述方法能够实现对多种混合使用的语音信息进行有效识别,扩大了应用范围。

Description

实现多语种混合使用的语音识别方法
技术领域
本发明涉及语音识别方法技术领域,尤其涉及一种实现多语种混合使用的语音识别方法。
背景技术
现有的语音识别系统都是针对单个语种进行优化设计的,在同一时间内只能实现单种语言(比如,中文普通话或英语)的语音识别,无法满足混合语音用户的使用需求,比如喜欢中英文混读的人群。
造成这种现象的原因有很多,例如基本识别单元的选择差异。
在语音识别过程中,选择识别单元是语音识别第一步基础。语音识别单元有单词(句)、音节和音素三种,一般都会根据具体的需求选择不同的识别单元。一般的选择策略如下:
1)单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
2)音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元是比较常见的。
3)音素单元以前多见于英语和其他字母型语言的语音识别的研究中。
基于以上原因,基于单个语音识别引擎很难做到对不同语种的高精度识别,因此无法实现混合语音的识别。
发明内容
本发明所要解决的技术问题是提供一种实现多语种混合使用的语音识别方法,所述方法能够实现对多种混合使用的语音信息进行有效识别,扩大了应用范围。
为解决上述技术问题,本发明所采取的技术方案是:一种实现多语种混合使用的语音识别方法,其特征在于所述方法包括如下步骤:
1)在云端提供多种语音识别服务器和一个识别文本后处理服务器;
2)用户通过终端把实时语音通过网络同时传送给多个语音识别服务器;
3)多个语音识别服务器同时进行语音识别,然后把各自的识别结果文本发送给识别文本后处理服务器,进行处理;
4)识别文本后处理服务器基于N元文法规则建立N-gram模型库,针对整体语义进行解析,去掉不符合N元文法规则的部分,保留第一种语言结果中的有效部分M,以及第二种语言结果中的有效部分N,以此类推,然后将M和N拼接成最终的识别结果,通过网络发送给用户终端;
5)用户终端获取到多种语音混用的正确识别结果。
进一步的技术方案在于:步骤1)中多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B。
进一步的技术方案在于:步骤2)具体为,用户通过终端把实时语音通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B。
进一步的技术方案在于:步骤3)具体为,中文语音识别服务器A和英文语音识别服务器B同时进行语音识别,然后把各自的识别结果文本发送给识别文本后处理服务器,进行处理。
进一步的技术方案在于:步骤4具体为,识别文本后处理服务器根据中文的语义解析,提供中文结果中的有效部分M,以及英文结果中的有效部分N,然后将M和N拼接成最终的识别结果,通过网络发送给用户终端。
进一步的技术方案在于:步骤5)具体为,用户终端获取到中英文混用的正确识别结果。
进一步的技术方案在于:识别文本后处理服务器具体的处理过程如下:
1)选择中文服务器的文本结果res-1的第1个字为起点,进行N-gram的判断,如果后续的第N个字和第一个字的组合概率低于常规门限p,则认为第1个字无效需要丢弃,否则保留第一个字,同时标记段落标志为0,然后继续向后执行,如果中间出现丢弃部分后,再次遇到有效组合部分,则标记段落标志为1,最终得到保留部分M,M可能包括多个段落Mi,其中i=0,1,2,3...,只有第一个字为起点的段落有效时才标志为0;
2)选择英文服务器的文本结果res-1的第一个单词为起点,进行N-gram的判断,如果后续的第N个单词和第一个单词的组合概率低于常规门限p,则认为第1个单词无效需要丢弃,否则保留第一个单词,同时标记段落标志为0,然后继续向后执行,如果中间出现丢弃部分后,再次遇到有效组合部分,则标记段落标志为2,然后继续向后执行,最终得到保留部分N,N可能包括多个段落Ni,其中i=0,1,2,3...,只有第一个单词为起点的段落有效时才标志为0;
3)把步骤1)和步骤2)得到的Mi和Ni交替拼接,形成最终的结果:M0\N1\M1\N2...或者N0\M1\N1\M2\N2.....;
4)识别文本后处理服务器把最终结果返回给用户终端。
8、根据权利要求7所述的实现多语种混合使用的语音识别方法,其特征在于常规门限p=0.0003。
采用上述技术方案所产生的有益效果在于:所述方法能够实现对多种混合使用的语音信息进行有效识别,扩大了应用范围。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明中语音识别引擎的原理框图;
图2是本发明的整体流程框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
总体的,本发明公开了一种实现多语种混合使用的语音识别方法,所述方法包括如下步骤:
1)在云端提供多种语音识别服务器和一个识别文本后处理服务器;
2)用户通过终端把实时语音通过网络同时传送给多个语音识别服务器,每个语音识别服务器配置针对单个语种优化过的高精度语音识别引擎,基本框架如下图1所示:
3)多个语音识别服务器同时进行语音识别,然后把各自的识别结果文本发送给识别文本后处理服务器,进行处理;
4)识别文本后处理服务器基于N元文法规则建立N-gram模型库,针对整体语义进行解析,去掉不符合N元文法规则的部分,保留第一种语言结果中的有效部分M,以及第二种语言结果中的有效部分N,以此类推,然后将M和N拼接成最终的识别结果,通过网络发送给用户终端;
N-gram一种依赖于上下文环境的词的概率分布的统计计算语言模型。
以N=2为例(称为Bigram语言模型)。当我们看到一个句子片段“他正在认真”时,下一个词可以是“学习、工作、思考”等等,而不能是“美丽、我、中国”等等。即,自然语言中,存在着后一个词的出现条件地依赖于前一个词的出现的现象。Bigram就是把一个词的上下文定义为该词的前一个词,尽管这个定义仅仅包含了上下文的极少一部分,却对下一个词的出现具有较强的约束力。语料库学者发现,许多词的前面词的出现对于该词的出现具有很强的预测能力,英语这类有严格语序的语言更是如此。汉语的语序较英语灵活,但此约束关系依然存在。
假定,在一个语句中第i个词出现的概率,条件依赖于它前面的N-1个词,即将一个词的上下文定义为该词前面出现的N-1个词,这样的语言模型叫做N-gram模型(N元文法统计模型)。公式如下:
N-gram模型中,需要计算系统词表中词的每一个N-1元组的概率,共有|V|^(N-1)(这里是指数)个元组,有|V|^(N-1)个不同的概率分布。对于每一个分布,又必须估算N个参数,共需估算出|V|^N个参数。由于参数空间随着N的增大呈指数上升,因此,N一般取2或3。考虑目前的混合语言使用,一般都是常用语句的组合使用,因此V的数量不会太大,一般在3000以内的基本,以目前的服务器计算能力,是足以支撑的。
识别文本后处理服务器具体的处理过程如下:
1)选择中文服务器的文本结果res-1的第1个字为起点,进行N-gram的判断,如果后续的第N个字和第一个字的组合概率低于常规门限p,例如(p=0.0003),则认为第1个字无效需要丢弃,否则保留第一个字,同时标记段落标志为0,然后继续向后执行,如果中间出现丢弃部分后,再次遇到有效组合部分,则标记段落标志为1,最终得到保留部分M,M可能包括多个段落Mi,其中i=0,1,2,3...,只有第一个字为起点的段落有效时才标志为0;
2)选择英文服务器的文本结果res-1的第一个单词为起点,进行N-gram的判断,如果后续的第N个单词和第一个单词的组合概率低于常规门限p,例如(p=0.0003),则认为第1个单词无效需要丢弃,否则保留第一个单词,同时标记段落标志为0,然后继续向后执行,如果中间出现丢弃部分后,再次遇到有效组合部分,则标记段落标志为2,然后继续向后执行,最终得到保留部分N,N可能包括多个段落Ni,其中i=0,1,2,3...,只有第一个单词为起点的段落有效时才标志为0;
3)把步骤1)和步骤2)得到的Mi和Ni交替拼接,形成最终的结果:M0\N1\M1\N2...或者N0\M1\N1\M2\N2.....;
4)识别文本后处理服务器把最终结果返回给用户终端。
5)用户终端获取到多种语音混用的正确识别结果,整个过程如图2所示。
具体的:
实施例一
一种实现多语种混合使用的语音识别方法,所述方法包括如下步骤:
1)在云端提供多种语音识别服务器和一个识别文本后处理服务器,多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B;
2)用户通过终端把实时语音(例如包含:目标正前方,lets go!)通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B;
3)中文语音识别服务器A和英文语音识别服务器B同时进行语音识别,然后把识别结果文本“目标正前方,来时够。”和move fun lets go”发送给识别文本后处理服务器,进行处理;
4)识别文本后处理服务器根据中文的语义解析,提供中文结果中的有效部分N0=“目标正前方”,以及英文结果中的有效部分M1=“lets go”,这里由于英文中的第1个单词和后续的单词没有相关性,因此M下标从1开始然后拼接成最终的识别结果N0M1=“目标正前方,lets go”,通过网络发送给用户终端;
5)用户终端获取到中英文混用的正确识别结果。
实施例二
一种实现多语种混合使用的语音识别方法,所述方法包括如下步骤:
1)在云端提供多种语音识别服务器和一个识别文本后处理服务器,多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B;
2)用户通过终端把实时语音(1234one two three four1234one two threefour)通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B;
3)中文语音识别服务器A和英文语音识别服务器B同时进行语音识别,然后把识别结果文本“1234玩兔思锐发哦1234玩兔思锐发哦。”和“year signs one two three fouryear signs one two three four”发送给识别文本后处理服务器,进行处理;
4)识别文本后处理服务器根据中文的语义解析,提供中文结果中的有效部分N0=“1234”和N1=“1234”,以及英文结果中的有效部分M1=“one two three four”M2=“onetwo three four”,这里由于英文中的第1个单词和后续的单词没有相关性,因此M下标从1开始,然后拼接成最终的识别结果N0M1N1M2“1234one two three four1234one two threefour”,通过网络发送给用户终端;
5)用户终端获取到中英文混用的正确识别结果。
所述方法能够实现对多种混合使用的语音信息进行有效识别,扩大了应用范围。

Claims (7)

1.一种实现多语种混合使用的语音识别方法,其特征在于所述方法包括如下步骤:
1)在云端提供多种语音识别服务器和一个识别文本后处理服务器;
2)用户通过终端把实时语音通过网络同时传送给多个语音识别服务器;
3)多个语音识别服务器同时进行语音识别,然后把各自的识别结果文本发送给识别文本后处理服务器,进行处理;
4)识别文本后处理服务器基于N元文法规则建立N-gram模型库,针对整体语义进行解析,去掉不符合N元文法规则的部分,保留第一种语言结果中的有效部分M,以及第二种语言结果中的有效部分N,以此类推,然后将M和N拼接成最终的识别结果,通过网络发送给用户终端;
5)用户终端获取到多种语音混用的正确识别结果;
识别文本后处理服务器具体的处理过程如下:
1)选择中文服务器的文本结果res-1的第1个字为起点,进行N-gram的判断,如果后续的第N个字和第一个字的组合概率低于常规门限p,则认为第1个字无效需要丢弃,否则保留第一个字,同时标记段落标志为0,然后继续向后执行,如果中间出现丢弃部分后,再次遇到有效组合部分,则标记段落标志为1,最终得到保留部分M,M可能包括多个段落Mi,其中i=0,1,2,3...,只有第一个字为起点的段落有效时才标志为0;
2)选择英文服务器的文本结果res-1的第一个单词为起点,进行N-gram的判断,如果后续的第N个单词和第一个单词的组合概率低于常规门限p,则认为第1个单词无效需要丢弃,否则保留第一个单词,同时标记段落标志为0,然后继续向后执行,如果中间出现丢弃部分后,再次遇到有效组合部分,则标记段落标志为2,然后继续向后执行,最终得到保留部分N,N可能包括多个段落Ni,其中i=0,1,2,3...,只有第一个单词为起点的段落有效时才标志为0;
3)把步骤1)和步骤2)得到的Mi和Ni交替拼接,形成最终的结果:M0\N1\M1\N2...或者N0\M1\N1\M2\N2.....;
4)识别文本后处理服务器把最终结果返回给用户终端。
2.根据权利要求1所述的实现多语种混合使用的语音识别方法,其特征在于:步骤1)中多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B。
3.根据权利要求2所述的实现多语种混合使用的语音识别方法,其特征在于:步骤2)具体为,用户通过终端把实时语音通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B。
4.根据权利要求3所述的实现多语种混合使用的语音识别方法,其特征在于:步骤3)具体为,中文语音识别服务器A和英文语音识别服务器B同时进行语音识别,然后把各自的识别结果文本发送给识别文本后处理服务器,进行处理。
5.根据权利要求4所述的实现多语种混合使用的语音识别方法,其特征在于:步骤4)具体为,识别文本后处理服务器根据中文的语义解析,提供中文结果中的有效部分M,以及英文结果中的有效部分N,然后将M和N拼接成最终的识别结果,通过网络发送给用户终端。
6.根据权利要求5所述的实现多语种混合使用的语音识别方法,其特征在于:步骤5)具体为,用户终端获取到中英文混用的正确识别结果。
7.根据权利要求1所述的实现多语种混合使用的语音识别方法,其特征在于常规门限p=0.0003。
CN201510489060.9A 2015-08-11 2015-08-11 实现多语种混合使用的语音识别方法 Expired - Fee Related CN105096953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510489060.9A CN105096953B (zh) 2015-08-11 2015-08-11 实现多语种混合使用的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510489060.9A CN105096953B (zh) 2015-08-11 2015-08-11 实现多语种混合使用的语音识别方法

Publications (2)

Publication Number Publication Date
CN105096953A CN105096953A (zh) 2015-11-25
CN105096953B true CN105096953B (zh) 2019-03-12

Family

ID=54577237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510489060.9A Expired - Fee Related CN105096953B (zh) 2015-08-11 2015-08-11 实现多语种混合使用的语音识别方法

Country Status (1)

Country Link
CN (1) CN105096953B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251869B (zh) 2016-09-22 2020-07-24 浙江吉利控股集团有限公司 语音处理方法及装置
CN106856091A (zh) * 2016-12-21 2017-06-16 北京智能管家科技有限公司 一种多语言文本的自动播报方法及系统
CN108711420B (zh) * 2017-04-10 2021-07-09 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN108255917B (zh) * 2017-09-15 2020-12-18 阿里巴巴(中国)有限公司 图像管理方法、设备及电子设备
CN112133283A (zh) * 2019-06-24 2020-12-25 武汉慧人信息科技有限公司 一种多语言环境下语音应答系统设计
CN110517668B (zh) * 2019-07-23 2022-09-27 普强时代(珠海横琴)信息技术有限公司 一种中英文混合语音识别系统及方法
CN112364658B (zh) * 2019-07-24 2024-07-26 阿里巴巴集团控股有限公司 翻译以及语音识别方法、装置、设备
CN112397051B (zh) * 2019-08-16 2024-02-02 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN110491383B (zh) * 2019-09-25 2022-02-18 北京声智科技有限公司 一种语音交互方法、装置、系统、存储介质及处理器
CN110634487B (zh) * 2019-10-24 2022-05-17 科大讯飞股份有限公司 一种双语种混合语音识别方法、装置、设备及存储介质
CN118262706A (zh) * 2024-04-22 2024-06-28 广东电网有限责任公司东莞供电局 一种基于语音识别的人工智能配网调度系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266757A (ja) * 1993-03-15 1994-09-22 Csk Corp 日中機械翻訳方式
CN1731510A (zh) * 2004-08-05 2006-02-08 摩托罗拉公司 混合语言文语转换
WO2009156815A1 (en) * 2008-06-26 2009-12-30 Nokia Corporation Methods, apparatuses and computer program products for providing a mixed language entry speech dictation system
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104282302A (zh) * 2013-07-04 2015-01-14 三星电子株式会社 用于识别语音和文本的设备和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266757A (ja) * 1993-03-15 1994-09-22 Csk Corp 日中機械翻訳方式
CN1731510A (zh) * 2004-08-05 2006-02-08 摩托罗拉公司 混合语言文语转换
WO2009156815A1 (en) * 2008-06-26 2009-12-30 Nokia Corporation Methods, apparatuses and computer program products for providing a mixed language entry speech dictation system
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN104282302A (zh) * 2013-07-04 2015-01-14 三星电子株式会社 用于识别语音和文本的设备和方法

Also Published As

Publication number Publication date
CN105096953A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN105096953B (zh) 实现多语种混合使用的语音识别方法
KR102350543B1 (ko) 시맨틱 표현 모델의 처리 방법, 장치, 전자 기기 및 저장 매체
Żelasko et al. Punctuation prediction model for conversational speech
WO2018153213A1 (zh) 一种多语言混合语音识别方法
CN105279552B (zh) 一种基于字的神经网络的训练方法和装置
Malmasi et al. Language transfer hypotheses with linear SVM weights
CN106297773A (zh) 一种神经网络声学模型训练方法
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN110428823A (zh) 口语理解装置和使用该装置的口语理解方法
Narasimhan et al. Morphological segmentation for keyword spotting
Harwath et al. Zero resource spoken audio corpus analysis
US10867525B1 (en) Systems and methods for generating recitation items
CN111199151A (zh) 数据处理方法、及数据处理装置
Alam et al. Comparative study of speaker personality traits recognition in conversational and broadcast news speech.
CN112541109B (zh) 答案摘要抽取方法及装置、电子设备、可读介质、产品
Hasan et al. Comparison of Unigram, Bigram, HMM and Brill's POS tagging approaches for some South Asian languages
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
Tam et al. RNN-based labeled data generation for spoken language understanding.
CN107609096B (zh) 一种智能律师专家应答方法
Röpke et al. Training a Speech-to-Text Model for Dutch on the Corpus Gesproken Nederlands.
Seker et al. Universal morpho-syntactic parsing and the contribution of lexica: Analyzing the onlp lab submission to the conll 2018 shared task
Stoyanchev et al. Localized error detection for targeted clarification in a virtual assistant
CN113886521A (zh) 一种基于相似词汇表的文本关系自动标注方法
Blain et al. Bilexical embeddings for quality estimation
CN106815189B (zh) 一种汉语新动词识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190312

CF01 Termination of patent right due to non-payment of annual fee