CN110517668A - 一种中英文混合语音识别系统及方法 - Google Patents

一种中英文混合语音识别系统及方法 Download PDF

Info

Publication number
CN110517668A
CN110517668A CN201910665001.0A CN201910665001A CN110517668A CN 110517668 A CN110517668 A CN 110517668A CN 201910665001 A CN201910665001 A CN 201910665001A CN 110517668 A CN110517668 A CN 110517668A
Authority
CN
China
Prior art keywords
english
chinese
voice
mixing
phone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910665001.0A
Other languages
English (en)
Other versions
CN110517668B (zh
Inventor
杨素霞
胡云燎
何国涛
李全忠
蒲瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Original Assignee
Puqiang Information Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Puqiang Information Technology (beijing) Co Ltd filed Critical Puqiang Information Technology (beijing) Co Ltd
Priority to CN201910665001.0A priority Critical patent/CN110517668B/zh
Publication of CN110517668A publication Critical patent/CN110517668A/zh
Application granted granted Critical
Publication of CN110517668B publication Critical patent/CN110517668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

一种中英文语音混合识别系统及其识别方法,其包括中文识别子系统和英文识别子系统,对中英文混合语音进行识别,所述两个识别子系统中,使用相同的声学模型,对中文和英文语音均能进行识别,并且所述两个识别子系统采用不同的语言模型,所述语言模型分别进行中英文划分训练,对相同的语音采用相同的声学模型识别,可分别输出所需的语言内容。通过采集、发音融合、训练的识别方法,简单易操作,使用方便,在保障中文识别效果的同时,有效提高了其中英文的识别率。

Description

一种中英文混合语音识别系统及方法
技术领域
本发明属于双语语音识别技术领域,主要是针对中英文混合语音识别的方法以及系统开发建设。
背景技术
随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源。再加上DNN(深度神经网络)训练方法的发展,极大的提高了语音识别的准确率。
但随着现代社会信息的全球化,一方面,越来越多的外国人来到了中国,这时公司会面临有不同国家的客户,因此也增加了识别多语言语音识别的需求。另一方面,随着目前双语以及多语通信成为越来越普遍的现象。在中国,英语作为大部分人的第一外语,会被自然而然地穿插在以中文为主的日常交流中。这些都为语音识别技术带来了新的挑战。
中英文混合语音识别的具体场景如下:
单独中英文识别的场景:
例如:航空公司,可能会有不同国家的客户。如果是中国人,会说“上海航空公司”,而外国人(说英语),会说“Shanghai Airlines”,需要不同语言的语音识别
将英文穿插到中文的场景:
专有名词:ktv、excel、win7、iphone、usb等。例句:我想去附近的ktv;我的电脑有三个usb的接口
姓名、歌曲、影视作品:super star、big bang等。例句:我想听super star 这首歌
日常用语中的常见英文词汇:hello、shopping、money。例句:我们今天去shopping吧,好不好。
目前的做法是:基于语种的混合语音识别,对于多语言的输入,确定输入语言的种类,然后将语音送入到对应语言的模型去识别。多个单语言识别器并联组成的混合语音识别,为了克服语种识别引入的错误,可使用多个单语言系统直接并联而成的混合语音识别,但是这种方式同样也是每种语言建立一个模型。基于片段切分的多语言混合语音识别,这种方式主要是为了克服一句话中既包含中文又包含英文的情况。以上方法的弊端:中文语料多,但英文语料很少,因此无法像训练中文的声学模型那样训练单独的英文声学模型,英文识别无法保证。
申请号为201510489060.9的发明名称为“实现多语种混合使用的语音识别方法”,其声学模型仍是中文和英文单独识别的声学模型,中文声学模型识别中文,英文声学模型识别英文,然后还需要进行后处理来获得语音识别,其系统繁杂,识别结果准确度不高,尤其对中国国内人员表达的中英文混合语句的识别,其采用的并不是中英文混合声学模型,并不是对一句包含中英文的语句采用同一声学模型进行中英文识别。
申请号为200810110555.6和201010123191.2的两个中英文混合识别方法,采用聚类的方式对中英文词典进行融合,其中方法比较复杂,并且在中英文音素的界定处理方面与本发明存在不同,本发明将因素进行的处理方式是:使用中文数据(网络上下载及新录制采集的),训练一个单状态的中文GMM声学模型。使用英文数据(网络上下载及新录制采集的),训练一个单状态的英文GMM声学模型。每个phone有1个状态,每个状态是由多个混合高斯组成。
发明内容
本发明的目的在于提供一种中英文混合语音识别的系统和方法,针对现有技术存在的问题和缺陷,旨在解决中英文混合识别的问题,在保证中文识别的基础之上,提高其中英文识别的效率和准确性问题。
为解决上述技术问题,采用如下技术方案实现:
一种中英文语音混合识别系统,其包括中文识别子系统和英文识别子系统,对中英文混合语音进行识别,所述两个识别子系统中,使用相同的声学模型,对中文和英文语音均能进行识别,并且所述两个识别子系统采用不同的语言模型,所述语言模型分别进行中英文划分训练,对同一语音采用相同的声学模型识别,可分别输出所需的语言内容;相同声学模型为中英文混合的声学模型,主要是按语言模型划分为识别不同的语种,包括中文、英文、中英文混杂在一起;计算中文中phone的高斯分布与英文中phone的高斯分布的KL距离,如果低于某个阈值,则认为这些phone可共享参数,其他为各自语种所独有的phone;
所述KL距离为相对熵,是用来衡量两个概率分布之间差异的;如果KL距离越大,则他们之间的差异性越大,反之,他们的差异性越小;设p(x)、q(x) 是离散随机变量x中取值的两个概率分布,则p对q的相对熵是:
DKL(p||q)=∑xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)
因此,当p与q分布相同时,相对熵为0,其他情况均大于0。
一种采用上述中英文语音混合识别系统进行中英文混合语音进行识别的方法,其特征在于,该识别方法包括以下步骤:
步骤一、采集包含待识别中英文的文本以及利用语音采集设备采集相应的语音语料;
步骤二、发音词典中中英文发音的融合;
步骤三、声学及语言模型的训练:采用深度神经网络训练声学及语言模型。
所述中英文的文本以及相应的语音语料,包含只有中文的数据、只有英文的数据,同时也包含中英文混杂的数据;(包含网上下载的和采集得到的)
在步骤二中,声学模型训练所需的发音词典中中英文的融合:使用中文数据,训练一个单状态的中文GMM声学模型;使用英文数据,训练一个单状态的英文 GMM声学模型;每个phone有1个状态,每个状态是由多个混合高斯组成;计算中文中phone的高斯分布与英文中phone的高斯分布的KL距离,如果低于某个阈值,则认为这些phone可共享参数,其他为各自语种所独有的phone。
本发明中相对之前方式的区别和优点在于:
1、中文和英文的识别系统中,声学模型使用的是同一个。采用中英文混合的方式训练,声学训练时的发音词典采用中英文融合的技术,这样可以避免英文数据不足,英文的声学模型训练不好的情况。
2、中文识别系统中,语言模型使用只有中文和中文中混杂着英文单词的语料训练而成;英文识别系统中,语言模型使用只有英文的语料训练而成
3、该中英文混合语音识别方法简单易操作,使用方便,在保障中文识别效果的同时,有效提高了其中英文的识别率。
4、本发明将因素进行的处理方式是:使用中文数据(网络上下载及新录制采集的),训练一个单状态的中文GMM声学模型。使用英文数据(网络上下载及新录制采集的),训练一个单状态的英文GMM声学模型。每个phone有1个状态,每个状态是由多个混合高斯组成。因此计算中文中phone的高斯分布与英文中phone的高斯分布的KL距离。如果低于某个阈值,则认为这些phone可共享参数,其他为各自语种所独有的phone。
附图说明
图1是本发明实施例提供的中英文混合语音识别系统流程图。
图2是本发明实施例提供的中英文混合语音识别方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图1、2及具体实施例对本发明的应用原理作进一步描述。
该中英文混合语音识别系统:分为不同种语言的识别系统,但两套系统使用的声学模型相同,语言模型及训练语言模型的词典,按中英文分开。
该中英文混合语音识别方法包括以下步骤:
步骤一、采集包含待识别英文的文本及语音语料;
步骤二、中英文发音词典的融合;
步骤三、混合中英文语料
步骤四、声学、语言模型的训练
在步骤一中,先采集包含待识别英文的文本语料,然后请不同的人录制语音语料。(共10人,每人将其中的文本语料都录制一遍)
在步骤二中,使用中文数据(网络上下载及新录制采集的),训练一个单状态的中文GMM声学模型。使用英文数据(网络上下载及新录制采集的),训练一个单状态的英文GMM声学模型。每个phone有1个状态,每个状态是由多个混合高斯组成。因此计算中文中phone的高斯分布与英文中phone的高斯分布的 KL距离。如果低于某个阈值,则认为这些phone可共享参数,其他为各自语种所独有的phone。其中,KL距离是相对熵,是用来衡量两个概率分布之间差异的;如果KL距离越大,则他们之间的差异性越大,反之,他们的差异性越小;设p(x)、q(x)是离散随机变量x中取值的两个概率分布,则p对q的相对熵是:DKL(p||q)=∑xp(x)logp(x)q(x)=Ep(x)logp(x)q(x);因此,当p与q分布相同时,相对熵为0,其他情况均大于0。
在步骤三中,将中文语料和英文语料按1:1的比例混合在一起。(包含网上下载的与录制的)
在步骤四中,使用先进的深度神经网络训练声学及语言模型。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种中英文语音混合识别系统,其包括中文识别子系统和英文识别子系统,对中英文混合语音进行识别,所述两个识别子系统中,使用相同的声学模型,对中文和英文语音均能进行识别,并且所述两个识别子系统采用不同的语言模型,所述语言模型分别进行中英文划分训练,对同一语音采用相同的声学模型识别,可分别输出所需的语言内容;相同声学模型为中英文混合的声学模型,主要是按语言模型划分为识别不同的语种,包括中文、英文、中英文混杂在一起;计算中文中phone的高斯分布与英文中phone的高斯分布的KL距离,如果低于某个阈值,则认为这些phone可共享参数,其他为各自语种所独有的phone。
2.根据权利要求1所述的中英文语音识别系统,其特征在于:所述KL距离为相对熵,是用来衡量两个概率分布之间差异的;如果KL距离越大,则他们之间的差异性越大,反之,他们的差异性越小;设p(x)、q(x)是离散随机变量x中取值的两个概率分布,则p对q的相对熵是:
DKL(p||q)=∑xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)
当p与q分布相同时,相对熵为0,其他情况均大于0。
3.一种采用如权利要求1或2所述的中英文语音混合识别系统进行中英文混合语音进行识别的方法,其特征在于,该识别方法包括以下步骤:
步骤一、采集包含待识别中英文的文本以及利用语音采集设备采集相应的语音语料;
步骤二、发音词典中中英文发音的融合:使用中文数据,训练一个单状态的中文GMM声学模型;使用英文数据,训练一个单状态的英文GMM声学模型;每个phone有1个状态,每个状态是由多个混合高斯组成;计算中文中phone的高斯分布与英文中phone的高斯分布的KL距离,如果低于某个阈值,则认为这些phone可共享参数,其他为各自语种所独有的phone;
步骤三、声学及语言模型的训练:中英文语料混合,中英文phone融合后的发音词典,然后采用深度神经网络训练声学及语言模型。
4.如权利要求3所述的中英文混合语音进行识别的方法,其特征在于,在步骤二中,中英文语料并未混合,而是训练单语种的声学模型,通过KL距离,融合中英文词典中的音素。
5.如权利要求3所述的中英文混合语音进行识别的方法,其特征在于,在步骤三中,使用混合的中英文语料及词典,采用先进的深度神经网络训练声学及语言模型。
CN201910665001.0A 2019-07-23 2019-07-23 一种中英文混合语音识别系统及方法 Active CN110517668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910665001.0A CN110517668B (zh) 2019-07-23 2019-07-23 一种中英文混合语音识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910665001.0A CN110517668B (zh) 2019-07-23 2019-07-23 一种中英文混合语音识别系统及方法

Publications (2)

Publication Number Publication Date
CN110517668A true CN110517668A (zh) 2019-11-29
CN110517668B CN110517668B (zh) 2022-09-27

Family

ID=68623905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910665001.0A Active CN110517668B (zh) 2019-07-23 2019-07-23 一种中英文混合语音识别系统及方法

Country Status (1)

Country Link
CN (1) CN110517668B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN112037762A (zh) * 2020-09-10 2020-12-04 中航华东光电(上海)有限公司 一种中英文混合语音识别方法
CN112652311A (zh) * 2020-12-01 2021-04-13 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质
WO2021208455A1 (zh) * 2020-04-15 2021-10-21 南京邮电大学 一种面向家居口语环境的神经网络语音识别方法及系统
CN116386609A (zh) * 2023-04-14 2023-07-04 南通大学 一种中英混合语音识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088163A1 (en) * 2002-11-04 2004-05-06 Johan Schalkwyk Multi-lingual speech recognition with cross-language context modeling
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN105096953A (zh) * 2015-08-11 2015-11-25 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法
CN106297764A (zh) * 2015-05-27 2017-01-04 科大讯飞股份有限公司 一种多语种混语文本处理方法及系统
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088163A1 (en) * 2002-11-04 2004-05-06 Johan Schalkwyk Multi-lingual speech recognition with cross-language context modeling
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN106297764A (zh) * 2015-05-27 2017-01-04 科大讯飞股份有限公司 一种多语种混语文本处理方法及系统
CN105096953A (zh) * 2015-08-11 2015-11-25 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675854A (zh) * 2019-08-22 2020-01-10 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN110675854B (zh) * 2019-08-22 2022-10-28 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
WO2021208455A1 (zh) * 2020-04-15 2021-10-21 南京邮电大学 一种面向家居口语环境的神经网络语音识别方法及系统
CN112037762A (zh) * 2020-09-10 2020-12-04 中航华东光电(上海)有限公司 一种中英文混合语音识别方法
CN112652311A (zh) * 2020-12-01 2021-04-13 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质
CN112652311B (zh) * 2020-12-01 2021-09-03 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质
US11893977B2 (en) 2020-12-01 2024-02-06 Beijing Baidu Netcom Science Technology Co., Ltd. Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
CN116386609A (zh) * 2023-04-14 2023-07-04 南通大学 一种中英混合语音识别方法

Also Published As

Publication number Publication date
CN110517668B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN110517668A (zh) 一种中英文混合语音识别系统及方法
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN105719649B (zh) 语音识别方法及装置
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
KR20180025121A (ko) 메시지 입력 방법 및 장치
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN103853703A (zh) 一种信息处理方法及电子设备
CN112115706A (zh) 文本处理方法、装置、电子设备及介质
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN112231498A (zh) 互动信息处理方法、装置、设备及介质
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
CN107748744B (zh) 一种勾勒框知识库的建立方法及装置
CN104573099A (zh) 题目的搜索方法及装置
US10089898B2 (en) Information processing device, control method therefor, and computer program
WO2022228235A1 (zh) 生成视频语料的方法、装置及相关设备
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN113035199A (zh) 音频处理方法、装置、设备及可读存储介质
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
Płaza et al. Call transcription methodology for contact center systems
KR100438347B1 (ko) 어학 학습 시스템, 방법 및 기록매체
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN111815274A (zh) 信息处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200309

Address after: 519000 room 105-58115, No. 6, Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province (centralized office area)

Applicant after: Puqiang times (Zhuhai Hengqin) Information Technology Co.,Ltd.

Address before: 100088 2 / F, building F, siweituxin building, Yongfeng base, Haidian District, Beijing

Applicant before: PACHIRA TECHNOLOGY (BEIJING) CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Chinese-English hybrid speech recognition system and method

Effective date of registration: 20230203

Granted publication date: 20220927

Pledgee: Bank of China Limited Hengqin Guangdong-Macao Deep Cooperation Zone Branch

Pledgor: Puqiang times (Zhuhai Hengqin) Information Technology Co.,Ltd.

Registration number: Y2023980032065

PE01 Entry into force of the registration of the contract for pledge of patent right