CN101393740B - 一种计算机多方言背景的汉语普通话语音识别的建模方法 - Google Patents
一种计算机多方言背景的汉语普通话语音识别的建模方法 Download PDFInfo
- Publication number
- CN101393740B CN101393740B CN2008102253540A CN200810225354A CN101393740B CN 101393740 B CN101393740 B CN 101393740B CN 2008102253540 A CN2008102253540 A CN 2008102253540A CN 200810225354 A CN200810225354 A CN 200810225354A CN 101393740 B CN101393740 B CN 101393740B
- Authority
- CN
- China
- Prior art keywords
- mandarin
- model
- standard
- dialectal accent
- dialectal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Abstract
本发明涉及一种计算机多方言背景的汉语普通话语音识别的建模方法,属于计算机语音识别技术领域。本方法先根据标准普通话的训练数据建立基于三音子的标准普通话模型,同时分别根据方言口音普通话1和2的训练数据建立基于单音子的方言口音普通话模型1和2;然后根据标准普通话模型识别方言口音普通话1的测试数据得到的混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中得临时归并模型;最后根据临时归并模型识别方言口音普通话2的测试数据得到的混淆矩阵2将方言口音普通话模型2归并到临时归并模型中得到识别模型。本发明方法有效地提高了工作效率,明显提高对方言口音普通话的识别率,同时对于标准普通话的识别率也有所提升。
Description
技术领域
本发明涉及一种计算机多方言背景的汉语普通话语音识别的建模方法,属于计算机语音识别技术领域。
背景技术
提高稳健性一直是语音识别的重点也是难点,而口音问题正是导致稳健性降低的主要原因之一。对汉语来说,由于方言众多,口音问题显得更加突出,也更具有研究价值。目前的语音识别系统对于标准普通话的识别率很高,但是对于具有方言口音的普通话识别率则很低。对于这个问题,一般的解决方案是采用自适应等方法,但是这样做的前提是有足够多的方言口音普通话数据,而且这种方法会导致标准普通话识别率的显著下降。另一方面,由于方言的种类很多,如果针对每个方言都需要重新训练码本的话,工作效率将很低。
发明内容
本发明的目的是提出一种计算机多方言背景的汉语普通话语音识别的建模方法,以便在数据量较小的情况下提高带方言口音普通话的识别率,同时又保证对标准普通话的识别率不会显著下降。
本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法,包括以下各步骤:
(1)根据标准普通话的训练数据建立一个基于三音子的标准普通话模型,根据第一种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型1,根据第二种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型2;
(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据,得到混淆矩阵1,根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中,得到临时归并模型;
(3)使用上述临时归并模型识别第二种方言口音普通话的测试数据,得到混淆矩阵2,根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中,得到识别模型。
上述方法中,步骤(2)和(3)中所述的归并方法为:
用x表示被识别语音的观察特征矢量,用s表示标准普通话模型中的隐马尔可夫状态,用d1表示方言口音普通话模型1中的隐马尔可夫状态,用d2表示方言口音普通话模型2中的隐马尔可夫状态,由下式得到临时归并模型中的概率密度函数为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s) (1)
其中λ1是线性加权系数,0<λ1<1;
识别模型的概率密度函数为:
本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法,其优点是:本发明的方法,通过迭代的方式将多个方言口音普通话模型一一归并到标准普通话模型当中去,避免对每种方言都重复训练码本的工作,有效地提高了工作效率。本发明的方法可以明显提高对方言口音普通话的识别率,同时对于标准普通话的识别率不会显著下降甚至会有所提升,因而解决了其他方法引入方言口音普通话后导致对标准普通话的识别率显著下降的问题。
附图说明
图1是本发明方法的原理框图。
具体实施方式
本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法,包括以下各步骤:
(1)根据标准普通话的训练数据建立一个基于三音子的标准普通话模型,根据第一种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型1,根据第二种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型2;
(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据,得到混淆矩阵1,根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中,得到临时归并模型;
(3)使用上述临时归并模型识别第二种方言口音普通话的测试数据,得到混淆矩阵2,根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中,得到识别模型。
上述方法中,步骤(2)和(3)中所述的归并方法为:
用x表示被识别语音的观察特征矢量,用s表示标准普通话模型中的隐马尔可夫状态,用d1表示方言口音普通话模型1中的隐马尔可夫状态,用d2表示方言口音普通话模型2中的隐马尔可夫状态,由下式得到临时归并模型中的概率密度函数为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s) (1)
其中λ1是线性加权系数,0<λ1<1;
识别模型的概率密度函数为:
本发明方法是采用迭代的方式将各种带方言口音的数据建立的模型归并到标准普通话模型中去,其基本流程如图1所示,图1中以两个方言口音普通话模型和标准普通话模型的合并为例,用x,s,d1,d2分别表示特征矢量,标准普通话模型中的状态以及两个方言普通话模型中的状态。则临时合并模型中的概率密度函数可以写为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s) (1)
其中λ1是线性加权系数,代表了标准普通话模型在临时合并模型中占有的比重,在实际中最优的λ1是通过实验来确定的。而p(d1|s)正是前面提到的混淆矩阵1,它描述了方言1相对与标准普通话的发音变化,同理最终合并模型的概率密度函数可以写为:
从上式最后一行中可以看出,最终合并模型实际上是由标准普通话模型、方言普通话模型1和方言普通话模型2的加权和组成的。一般来讲这三个模型都由若干个高斯混合构成,而 和分别表示了这三个模型各自高斯混合的权重。由于已经知道了混淆矩阵P(d1m|s)、P(d2p|s)和加权系数λ1和λ2,所以可以很方便地确定这三个模型各自高斯混合的权重。
以下介绍本发明的实施例:
表1:实验数据说明
数据集 | 数据库 | 描述 |
标准普通话训练集 | 标准普通话训练数据 | 120个人,每人200个长句子 |
标准普通话测试集 | 标准普通话测试数据 | 12个人,每人100个命令词 |
四川普通话训练集 | 带四川口音的普通话训练数据 | 20个人,每人50个长句子 |
四川普通话测试集 | 带四川口音的普通话测试数据 | 15个人,每人75个命令词 |
闽南普通话训练集 | 带闽南口音的普通话训练数据 | 20个人,每人50个长句子 |
闽南普通话测试集 | 带四川口音的普通话测试数据 | 15个人,每人75个命令词 |
从表中可以看出,数据根据口音分为标准普通话,带四川口音的普通话和带闽南口音的普通话,都分为两部分,分别用于训练和测试。
测试基准系统(Baseline):
表2:测试基准系统说明
基准系统中采用的是混合训练识别模型,由所有三种数据加在一起训练得到。
实验结果:
表3:实验结果
可以看出在使用了本算法训练出的模型对于两种方言的识别率都有很明显的提升,同时对于标准普通话的识别率也有不小的改进。这说明这种方式确实是可行的,有效的。
另外,使用本发明方法,无论有多少种方言,都可以通过迭代的方式将方言口音普通话模型一一归并到标准普通话模型当中,归并得到最后的识别模型。
Claims (1)
1.一种用于多方言背景的汉语普通话语音识别的建模方法,其特征在于该方法包括以下各步骤:
(1)根据标准普通话的训练数据建立一个基于三音子的标准普通话模型,根据第一种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型1,根据第二种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型2;
(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据,得到混淆矩阵1,根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中,得到临时归并模型;使用上述临时归并模型识别第二种方言口音普通话的测试数据,得到混淆矩阵2,根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中,得到识别模型;具体的归并过程为:
用x表示被识别语音的观察特征矢量,用s表示标准普通话模型中的隐马尔可夫状态,用d1表示方言口音普通话模型1中的隐马尔可夫状态,用d2表示方言口音普通话模型2中的隐马尔可夫状态,由下式得到临时归并模型中的概率密度函数为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s) (1)
其中λ1是线性加权系数,0<λ1<1;
识别模型的概率密度函数为:
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102253540A CN101393740B (zh) | 2008-10-31 | 2008-10-31 | 一种计算机多方言背景的汉语普通话语音识别的建模方法 |
JP2009248013A JP4951664B2 (ja) | 2008-10-31 | 2009-10-28 | コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム |
US12/608,191 US8712773B2 (en) | 2008-10-31 | 2009-10-29 | Method and system for modeling a common-language speech recognition, by a computer, under the influence of a plurality of dialects |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102253540A CN101393740B (zh) | 2008-10-31 | 2008-10-31 | 一种计算机多方言背景的汉语普通话语音识别的建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101393740A CN101393740A (zh) | 2009-03-25 |
CN101393740B true CN101393740B (zh) | 2011-01-19 |
Family
ID=40494003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102253540A Expired - Fee Related CN101393740B (zh) | 2008-10-31 | 2008-10-31 | 一种计算机多方言背景的汉语普通话语音识别的建模方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8712773B2 (zh) |
JP (1) | JP4951664B2 (zh) |
CN (1) | CN101393740B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5413622B2 (ja) * | 2009-04-30 | 2014-02-12 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびプログラム |
CN101702314B (zh) * | 2009-10-13 | 2011-11-09 | 清华大学 | 基于语种对的鉴别式语种识别模型建立方法 |
TWI391915B (zh) * | 2009-11-17 | 2013-04-01 | Inst Information Industry | 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法 |
US8635067B2 (en) * | 2010-12-09 | 2014-01-21 | International Business Machines Corporation | Model restructuring for client and server based automatic speech recognition |
JP5703747B2 (ja) * | 2010-12-27 | 2015-04-22 | 富士通株式会社 | 音声認識装置,および音声認識プログラム |
US9235799B2 (en) | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
US9390085B2 (en) * | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
US9009049B2 (en) | 2012-06-06 | 2015-04-14 | Spansion Llc | Recognition of speech with different accents |
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
JP6110945B2 (ja) * | 2012-08-24 | 2017-04-05 | インタラクティブ・インテリジェンス・インコーポレイテッド | 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム |
EP2736042A1 (en) | 2012-11-23 | 2014-05-28 | Samsung Electronics Co., Ltd | Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method |
US9842585B2 (en) * | 2013-03-11 | 2017-12-12 | Microsoft Technology Licensing, Llc | Multilingual deep neural network |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
CN103680493A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法和装置 |
CN103839546A (zh) * | 2014-03-26 | 2014-06-04 | 合肥新涛信息科技有限公司 | 一种基于江淮语系的语音识别系统 |
US10127927B2 (en) | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
US9961200B1 (en) | 2017-03-28 | 2018-05-01 | Bank Of America Corporation | Derived intent collision detection for use in a multi-intent matrix |
KR102329127B1 (ko) * | 2017-04-11 | 2021-11-22 | 삼성전자주식회사 | 방언을 표준어로 변환하는 방법 및 장치 |
CN107170454B (zh) * | 2017-05-31 | 2022-04-05 | Oppo广东移动通信有限公司 | 语音识别方法及相关产品 |
CN107331388A (zh) * | 2017-06-15 | 2017-11-07 | 重庆柚瓣科技有限公司 | 一种基于养老机器人的方言收集系统 |
CN109741731B (zh) * | 2019-01-08 | 2020-12-29 | 国家计算机网络与信息安全管理中心 | 一种语种训练数据获得方法及装置 |
CN110310628B (zh) | 2019-06-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN110808035B (zh) * | 2019-11-06 | 2021-11-26 | 百度在线网络技术(北京)有限公司 | 用于训练混合语言识别模型的方法和装置 |
CN110827803A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 方言发音词典的构建方法、装置、设备及可读存储介质 |
CN110910865B (zh) * | 2019-11-25 | 2022-12-13 | 秒针信息技术有限公司 | 语音转换方法和装置、存储介质及电子装置 |
CN111445898B (zh) * | 2020-03-17 | 2022-05-17 | 科大讯飞股份有限公司 | 语种识别方法、装置、电子设备和存储介质 |
CN112233653B (zh) * | 2020-12-10 | 2021-03-12 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
CN113593534B (zh) * | 2021-05-28 | 2023-07-14 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5872996A (ja) * | 1981-10-28 | 1983-05-02 | 電子計算機基本技術研究組合 | 単語音声認識方法 |
JPH02173699A (ja) * | 1988-12-27 | 1990-07-05 | Oki Electric Ind Co Ltd | 音声認識装置 |
JP3256979B2 (ja) * | 1991-04-26 | 2002-02-18 | 日本電信電話株式会社 | 音響モデルの入力音声に対する尤度を求める方法 |
US5865626A (en) * | 1996-08-30 | 1999-02-02 | Gte Internetworking Incorporated | Multi-dialect speech recognition method and apparatus |
US6963837B1 (en) * | 1999-10-06 | 2005-11-08 | Multimodal Technologies, Inc. | Attribute-based word modeling |
EP1222655A1 (en) * | 1999-10-19 | 2002-07-17 | Sony Electronics Inc. | Natural language interface control system |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
US7319958B2 (en) * | 2003-02-13 | 2008-01-15 | Motorola, Inc. | Polyphone network method and apparatus |
WO2004088632A2 (en) * | 2003-03-26 | 2004-10-14 | Honda Motor Co., Ltd. | Speaker recognition using local models |
US7315811B2 (en) * | 2003-12-31 | 2008-01-01 | Dictaphone Corporation | System and method for accented modification of a language model |
US7533018B2 (en) * | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
-
2008
- 2008-10-31 CN CN2008102253540A patent/CN101393740B/zh not_active Expired - Fee Related
-
2009
- 2009-10-28 JP JP2009248013A patent/JP4951664B2/ja active Active
- 2009-10-29 US US12/608,191 patent/US8712773B2/en active Active
Non-Patent Citations (2)
Title |
---|
LI Jing, ZHEN G Thomas Fang, ByrneW, et al..A dialectal Chinese speech recognition framework.《Journal of Computer Science and Technology》.2006,106-115. * |
刘林泉,郑方,吴文虎.1基于小数据量的方言普通话语音识别声学建模.《清华大学学报(自然科学版)》.2008,604-607. * |
Also Published As
Publication number | Publication date |
---|---|
JP2010107982A (ja) | 2010-05-13 |
US8712773B2 (en) | 2014-04-29 |
JP4951664B2 (ja) | 2012-06-13 |
CN101393740A (zh) | 2009-03-25 |
US20100121640A1 (en) | 2010-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101393740B (zh) | 一种计算机多方言背景的汉语普通话语音识别的建模方法 | |
CN103345923B (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN1177313C (zh) | 带方言背景的汉语语音识别方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN104751227B (zh) | 用于语音识别的深度神经网络的构建方法及系统 | |
NZ713997A (en) | System and method for fingerprinting datasets | |
CN110232439A (zh) | 一种基于深度学习网络的意图识别方法 | |
CN105047194A (zh) | 一种用于语音情感识别的自学习语谱图特征提取方法 | |
CN106653056A (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
CN107679031B (zh) | 基于堆叠降噪自编码机的广告博文识别方法 | |
CN104091592A (zh) | 一种基于隐高斯随机场的语音转换系统 | |
CN110853629A (zh) | 一种基于深度学习的语音识别数字的方法 | |
CN103065622A (zh) | 一种用于语种识别的语种模型的训练方法及系统 | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN111709244A (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN102496366B (zh) | 一种与文本无关的说话人识别方法 | |
CN103258537A (zh) | 利用特征结合对语音情感进行识别的方法及其装置 | |
CN1879148A (zh) | 用于语法产生的语义标记到短语的分配 | |
CN1811912A (zh) | 小音库语音合成方法 | |
CN106228976A (zh) | 语音识别方法和装置 | |
CN101989261A (zh) | 统计机器翻译短语抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110119 Termination date: 20161031 |
|
CF01 | Termination of patent right due to non-payment of annual fee |