CN101393740B - 一种计算机多方言背景的汉语普通话语音识别的建模方法 - Google Patents

一种计算机多方言背景的汉语普通话语音识别的建模方法 Download PDF

Info

Publication number
CN101393740B
CN101393740B CN2008102253540A CN200810225354A CN101393740B CN 101393740 B CN101393740 B CN 101393740B CN 2008102253540 A CN2008102253540 A CN 2008102253540A CN 200810225354 A CN200810225354 A CN 200810225354A CN 101393740 B CN101393740 B CN 101393740B
Authority
CN
China
Prior art keywords
mandarin
model
standard
dialectal accent
dialectal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102253540A
Other languages
English (en)
Other versions
CN101393740A (zh
Inventor
郑方
肖熙
刘林泉
游展
曹文晓
赤羽诚
陈如新
高桥良和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Sony Interactive Entertainment Inc
Original Assignee
Tsinghua University
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Sony Computer Entertainment Inc filed Critical Tsinghua University
Priority to CN2008102253540A priority Critical patent/CN101393740B/zh
Publication of CN101393740A publication Critical patent/CN101393740A/zh
Priority to JP2009248013A priority patent/JP4951664B2/ja
Priority to US12/608,191 priority patent/US8712773B2/en
Application granted granted Critical
Publication of CN101393740B publication Critical patent/CN101393740B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Abstract

本发明涉及一种计算机多方言背景的汉语普通话语音识别的建模方法,属于计算机语音识别技术领域。本方法先根据标准普通话的训练数据建立基于三音子的标准普通话模型,同时分别根据方言口音普通话1和2的训练数据建立基于单音子的方言口音普通话模型1和2;然后根据标准普通话模型识别方言口音普通话1的测试数据得到的混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中得临时归并模型;最后根据临时归并模型识别方言口音普通话2的测试数据得到的混淆矩阵2将方言口音普通话模型2归并到临时归并模型中得到识别模型。本发明方法有效地提高了工作效率,明显提高对方言口音普通话的识别率,同时对于标准普通话的识别率也有所提升。

Description

一种计算机多方言背景的汉语普通话语音识别的建模方法
技术领域
本发明涉及一种计算机多方言背景的汉语普通话语音识别的建模方法,属于计算机语音识别技术领域。
背景技术
提高稳健性一直是语音识别的重点也是难点,而口音问题正是导致稳健性降低的主要原因之一。对汉语来说,由于方言众多,口音问题显得更加突出,也更具有研究价值。目前的语音识别系统对于标准普通话的识别率很高,但是对于具有方言口音的普通话识别率则很低。对于这个问题,一般的解决方案是采用自适应等方法,但是这样做的前提是有足够多的方言口音普通话数据,而且这种方法会导致标准普通话识别率的显著下降。另一方面,由于方言的种类很多,如果针对每个方言都需要重新训练码本的话,工作效率将很低。
发明内容
本发明的目的是提出一种计算机多方言背景的汉语普通话语音识别的建模方法,以便在数据量较小的情况下提高带方言口音普通话的识别率,同时又保证对标准普通话的识别率不会显著下降。
本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法,包括以下各步骤:
(1)根据标准普通话的训练数据建立一个基于三音子的标准普通话模型,根据第一种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型1,根据第二种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型2;
(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据,得到混淆矩阵1,根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中,得到临时归并模型;
(3)使用上述临时归并模型识别第二种方言口音普通话的测试数据,得到混淆矩阵2,根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中,得到识别模型。
上述方法中,步骤(2)和(3)中所述的归并方法为:
用x表示被识别语音的观察特征矢量,用s表示标准普通话模型中的隐马尔可夫状态,用d1表示方言口音普通话模型1中的隐马尔可夫状态,用d2表示方言口音普通话模型2中的隐马尔可夫状态,由下式得到临时归并模型中的概率密度函数为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s)               (1)
其中λ1是线性加权系数,0<λ1<1;
识别模型的概率密度函数为:
p &prime; &prime; ( x | s ) = &Sigma; k = 1 K w k ( sc ) &prime; N k ( sc ) ( &CenterDot; ) + &Sigma; m = 1 M &Sigma; n = 1 N w mn ( dc 1 ) &prime; N mn ( dc 1 ) ( &CenterDot; ) + &Sigma; p = 1 P &Sigma; q = 1 Q w pq ( dc 2 ) &prime; N pq ( dc 2 ) ( &CenterDot; ) 其中,
Figure G2008102253540D00022
为标准普通话模型中的隐马尔可夫状态所占的权重,
Figure G2008102253540D00023
Figure G2008102253540D00024
分别表示方言口音普通话模型1和方言普通话模型2中隐马尔可夫状态所占的权重,K和
Figure G2008102253540D00025
分别表示标准普通话模型高斯混合矩阵的维度和第k行k列元素,M、N和分别表示方言口音普通话模型1的高斯混合矩阵的行数、列数和第m行n列元素,P、Q和
Figure G2008102253540D00027
分别表示方言口音普通话模型2的高斯混合矩阵的行数、列数和第p行q列元素。
本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法,其优点是:本发明的方法,通过迭代的方式将多个方言口音普通话模型一一归并到标准普通话模型当中去,避免对每种方言都重复训练码本的工作,有效地提高了工作效率。本发明的方法可以明显提高对方言口音普通话的识别率,同时对于标准普通话的识别率不会显著下降甚至会有所提升,因而解决了其他方法引入方言口音普通话后导致对标准普通话的识别率显著下降的问题。
附图说明
图1是本发明方法的原理框图。
具体实施方式
本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法,包括以下各步骤:
(1)根据标准普通话的训练数据建立一个基于三音子的标准普通话模型,根据第一种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型1,根据第二种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型2;
(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据,得到混淆矩阵1,根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中,得到临时归并模型;
(3)使用上述临时归并模型识别第二种方言口音普通话的测试数据,得到混淆矩阵2,根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中,得到识别模型。
上述方法中,步骤(2)和(3)中所述的归并方法为:
用x表示被识别语音的观察特征矢量,用s表示标准普通话模型中的隐马尔可夫状态,用d1表示方言口音普通话模型1中的隐马尔可夫状态,用d2表示方言口音普通话模型2中的隐马尔可夫状态,由下式得到临时归并模型中的概率密度函数为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s)               (1)
其中λ1是线性加权系数,0<λ1<1;
识别模型的概率密度函数为:
p &prime; &prime; ( x | s ) = &Sigma; k = 1 K w k ( sc ) &prime; N k ( sc ) ( &CenterDot; ) + &Sigma; m = 1 M &Sigma; n = 1 N w mn ( dc 1 ) &prime; N mn ( dc 1 ) ( &CenterDot; ) + &Sigma; p = 1 P &Sigma; q = 1 Q w pq ( dc 2 ) &prime; N pq ( dc 2 ) ( &CenterDot; ) , 其中,
Figure G2008102253540D00032
为标准普通话模型中的隐马尔可夫状态所占的权重,分别表示方言口音普通话模型1和方言普通话模型2中隐马尔可夫状态所占的权重,K和分别表示标准普通话模型高斯混合矩阵的维度和第k行k列元素,M、N和
Figure G2008102253540D00035
分别表示方言口音普通话模型1的高斯混合矩阵的行数、列数和第m行n列元素,P、Q和
Figure G2008102253540D00036
分别表示方言口音普通话模型2的高斯混合矩阵的行数、列数和第p行q列元素。
本发明方法是采用迭代的方式将各种带方言口音的数据建立的模型归并到标准普通话模型中去,其基本流程如图1所示,图1中以两个方言口音普通话模型和标准普通话模型的合并为例,用x,s,d1,d2分别表示特征矢量,标准普通话模型中的状态以及两个方言普通话模型中的状态。则临时合并模型中的概率密度函数可以写为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s)      (1)
其中λ1是线性加权系数,代表了标准普通话模型在临时合并模型中占有的比重,在实际中最优的λ1是通过实验来确定的。而p(d1|s)正是前面提到的混淆矩阵1,它描述了方言1相对与标准普通话的发音变化,同理最终合并模型的概率密度函数可以写为:
p &prime; &prime; ( x | s ) = &lambda; 2 p &prime; ( x | s ) + ( 1 - &lambda; 2 ) p ( x | d 2 ) p &prime; ( d 2 | s )
= &lambda; 2 &lambda; 1 p ( x | s ) + &lambda; 2 ( 1 - &lambda; 1 ) p ( x | d 1 ) p ( d 1 | s ) + ( 1 - &lambda; 2 ) p ( x | d 2 ) p &prime; ( d 2 | s )
= &lambda; 2 &lambda; 1 &Sigma; k = 1 K w k ( sc ) N k ( sc ) ( &CenterDot; ) + &lambda; 2 ( 1 - &lambda; 1 ) &Sigma; m = 1 M P ( d 1 m | s ) &CenterDot; &Sigma; n = 1 N w mn ( dc 1 ) N mn ( dc 1 ) ( &CenterDot; ) +
( 1 - &lambda; 2 ) &Sigma; p = 1 P P ( d 2 p | s ) &CenterDot; &Sigma; q = 1 Q w pq ( dc 2 ) N pq ( dc 2 ) ( &CenterDot; )
= &Sigma; k = 1 K &lambda; 2 &lambda; 1 w k ( sc ) N k ( sc ) ( &CenterDot; ) + &Sigma; m = 1 M &Sigma; n = 1 N &lambda; 2 ( 1 - &lambda; 1 ) &CenterDot; P ( d 1 m | s ) &CenterDot; w mn ( dc 1 ) N mn ( dc 1 ) ( &CenterDot; ) +
&Sigma; p = 1 P &Sigma; q = 1 Q ( 1 - &lambda; 2 ) &CenterDot; P ( d 2 p | s ) &CenterDot; w pq ( dc 2 ) N pq ( dc 2 ) ( &CenterDot; )
= &Sigma; k = 1 K w k ( sc ) &prime; N k ( sc ) ( &CenterDot; ) + &Sigma; m = 1 M &Sigma; n = 1 N w mn ( dc 1 ) &prime; N mn ( dc 1 ) ( &CenterDot; ) + &Sigma; p = 1 P &Sigma; q = 1 Q w pq ( dc 2 ) &prime; N pq ( dc 2 ) ( &CenterDot; )
从上式最后一行中可以看出,最终合并模型实际上是由标准普通话模型、方言普通话模型1和方言普通话模型2的加权和组成的。一般来讲这三个模型都由若干个高斯混合构成,而
Figure G2008102253540D00048
Figure G2008102253540D00049
Figure G2008102253540D000410
分别表示了这三个模型各自高斯混合的权重。由于已经知道了混淆矩阵P(d1m|s)、P(d2p|s)和加权系数λ1和λ2,所以可以很方便地确定这三个模型各自高斯混合的权重。
以下介绍本发明的实施例:
表1:实验数据说明
 
数据集 数据库 描述
标准普通话训练集 标准普通话训练数据 120个人,每人200个长句子
标准普通话测试集 标准普通话测试数据 12个人,每人100个命令词
四川普通话训练集 带四川口音的普通话训练数据 20个人,每人50个长句子
 
四川普通话测试集 带四川口音的普通话测试数据 15个人,每人75个命令词
闽南普通话训练集 带闽南口音的普通话训练数据 20个人,每人50个长句子
 
闽南普通话测试集 带四川口音的普通话测试数据 15个人,每人75个命令词
从表中可以看出,数据根据口音分为标准普通话,带四川口音的普通话和带闽南口音的普通话,都分为两部分,分别用于训练和测试。
测试基准系统(Baseline):
表2:测试基准系统说明
Figure G2008102253540D00051
基准系统中采用的是混合训练识别模型,由所有三种数据加在一起训练得到。
实验结果:
表3:实验结果
Figure G2008102253540D00052
可以看出在使用了本算法训练出的模型对于两种方言的识别率都有很明显的提升,同时对于标准普通话的识别率也有不小的改进。这说明这种方式确实是可行的,有效的。
另外,使用本发明方法,无论有多少种方言,都可以通过迭代的方式将方言口音普通话模型一一归并到标准普通话模型当中,归并得到最后的识别模型。

Claims (1)

1.一种用于多方言背景的汉语普通话语音识别的建模方法,其特征在于该方法包括以下各步骤:
(1)根据标准普通话的训练数据建立一个基于三音子的标准普通话模型,根据第一种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型1,根据第二种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型2;
(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据,得到混淆矩阵1,根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中,得到临时归并模型;使用上述临时归并模型识别第二种方言口音普通话的测试数据,得到混淆矩阵2,根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中,得到识别模型;具体的归并过程为:
用x表示被识别语音的观察特征矢量,用s表示标准普通话模型中的隐马尔可夫状态,用d1表示方言口音普通话模型1中的隐马尔可夫状态,用d2表示方言口音普通话模型2中的隐马尔可夫状态,由下式得到临时归并模型中的概率密度函数为:
p′(x|s)=λ1p(x|s)+(1-λ1)p(x|d1)p(d1|s)    (1)
其中λ1是线性加权系数,0<λ1<1;
识别模型的概率密度函数为:
Figure FSB00000259006500011
其中,
Figure FSB00000259006500012
为标准普通话模型中的隐马尔可夫状态所占的权重,
Figure FSB00000259006500014
分别表示方言口音普通话模型1和方言普通话模型2中隐马尔可夫状态所占的权重,K和分别表示标准普通话模型高斯混合矩阵的维度和第k行k列元素,M、N和
Figure FSB00000259006500016
分别表示方言口音普通话模型1的高斯混合矩阵的行数、列数和第m行n列元素,P、Q和
Figure FSB00000259006500017
分别表示方言口音普通话模型2的高斯混合矩阵的行数、列数和第p行q列元素。
CN2008102253540A 2008-10-31 2008-10-31 一种计算机多方言背景的汉语普通话语音识别的建模方法 Expired - Fee Related CN101393740B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2008102253540A CN101393740B (zh) 2008-10-31 2008-10-31 一种计算机多方言背景的汉语普通话语音识别的建模方法
JP2009248013A JP4951664B2 (ja) 2008-10-31 2009-10-28 コンピュータによる複数の方言を背景とする共通語音声認識のモデリング方法及びシステム
US12/608,191 US8712773B2 (en) 2008-10-31 2009-10-29 Method and system for modeling a common-language speech recognition, by a computer, under the influence of a plurality of dialects

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102253540A CN101393740B (zh) 2008-10-31 2008-10-31 一种计算机多方言背景的汉语普通话语音识别的建模方法

Publications (2)

Publication Number Publication Date
CN101393740A CN101393740A (zh) 2009-03-25
CN101393740B true CN101393740B (zh) 2011-01-19

Family

ID=40494003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102253540A Expired - Fee Related CN101393740B (zh) 2008-10-31 2008-10-31 一种计算机多方言背景的汉语普通话语音识别的建模方法

Country Status (3)

Country Link
US (1) US8712773B2 (zh)
JP (1) JP4951664B2 (zh)
CN (1) CN101393740B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5413622B2 (ja) * 2009-04-30 2014-02-12 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびプログラム
CN101702314B (zh) * 2009-10-13 2011-11-09 清华大学 基于语种对的鉴别式语种识别模型建立方法
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
US8635067B2 (en) * 2010-12-09 2014-01-21 International Business Machines Corporation Model restructuring for client and server based automatic speech recognition
JP5703747B2 (ja) * 2010-12-27 2015-04-22 富士通株式会社 音声認識装置,および音声認識プログラム
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9009049B2 (en) 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
JP6110945B2 (ja) * 2012-08-24 2017-04-05 インタラクティブ・インテリジェンス・インコーポレイテッド 自動音声認識システムにおける選択的にバイアスをかけられた線形判別分析の方法及びシステム
EP2736042A1 (en) 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
US9842585B2 (en) * 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
CN103680493A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法和装置
CN103839546A (zh) * 2014-03-26 2014-06-04 合肥新涛信息科技有限公司 一种基于江淮语系的语音识别系统
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US9961200B1 (en) 2017-03-28 2018-05-01 Bank Of America Corporation Derived intent collision detection for use in a multi-intent matrix
KR102329127B1 (ko) * 2017-04-11 2021-11-22 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치
CN107170454B (zh) * 2017-05-31 2022-04-05 Oppo广东移动通信有限公司 语音识别方法及相关产品
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集系统
CN109741731B (zh) * 2019-01-08 2020-12-29 国家计算机网络与信息安全管理中心 一种语种训练数据获得方法及装置
CN110310628B (zh) 2019-06-27 2022-05-20 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN110808035B (zh) * 2019-11-06 2021-11-26 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质
CN110910865B (zh) * 2019-11-25 2022-12-13 秒针信息技术有限公司 语音转换方法和装置、存储介质及电子装置
CN111445898B (zh) * 2020-03-17 2022-05-17 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN112233653B (zh) * 2020-12-10 2021-03-12 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备
CN113593534B (zh) * 2021-05-28 2023-07-14 思必驰科技股份有限公司 针对多口音语音识别的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5872996A (ja) * 1981-10-28 1983-05-02 電子計算機基本技術研究組合 単語音声認識方法
JPH02173699A (ja) * 1988-12-27 1990-07-05 Oki Electric Ind Co Ltd 音声認識装置
JP3256979B2 (ja) * 1991-04-26 2002-02-18 日本電信電話株式会社 音響モデルの入力音声に対する尤度を求める方法
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
EP1222655A1 (en) * 1999-10-19 2002-07-17 Sony Electronics Inc. Natural language interface control system
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US7319958B2 (en) * 2003-02-13 2008-01-15 Motorola, Inc. Polyphone network method and apparatus
WO2004088632A2 (en) * 2003-03-26 2004-10-14 Honda Motor Co., Ltd. Speaker recognition using local models
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI Jing, ZHEN G Thomas Fang, ByrneW, et al..A dialectal Chinese speech recognition framework.《Journal of Computer Science and Technology》.2006,106-115. *
刘林泉,郑方,吴文虎.1基于小数据量的方言普通话语音识别声学建模.《清华大学学报(自然科学版)》.2008,604-607. *

Also Published As

Publication number Publication date
JP2010107982A (ja) 2010-05-13
US8712773B2 (en) 2014-04-29
JP4951664B2 (ja) 2012-06-13
CN101393740A (zh) 2009-03-25
US20100121640A1 (en) 2010-05-13

Similar Documents

Publication Publication Date Title
CN101393740B (zh) 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN1177313C (zh) 带方言背景的汉语语音识别方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN111243602A (zh) 基于性别、国籍和情感信息的声纹识别方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN104751227B (zh) 用于语音识别的深度神经网络的构建方法及系统
NZ713997A (en) System and method for fingerprinting datasets
CN110232439A (zh) 一种基于深度学习网络的意图识别方法
CN105047194A (zh) 一种用于语音情感识别的自学习语谱图特征提取方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN104091592A (zh) 一种基于隐高斯随机场的语音转换系统
CN110853629A (zh) 一种基于深度学习的语音识别数字的方法
CN103065622A (zh) 一种用于语种识别的语种模型的训练方法及系统
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN102496366B (zh) 一种与文本无关的说话人识别方法
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
CN1879148A (zh) 用于语法产生的语义标记到短语的分配
CN1811912A (zh) 小音库语音合成方法
CN106228976A (zh) 语音识别方法和装置
CN101989261A (zh) 统计机器翻译短语抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110119

Termination date: 20161031

CF01 Termination of patent right due to non-payment of annual fee