CN103065622A - 一种用于语种识别的语种模型的训练方法及系统 - Google Patents

一种用于语种识别的语种模型的训练方法及系统 Download PDF

Info

Publication number
CN103065622A
CN103065622A CN2012105607168A CN201210560716A CN103065622A CN 103065622 A CN103065622 A CN 103065622A CN 2012105607168 A CN2012105607168 A CN 2012105607168A CN 201210560716 A CN201210560716 A CN 201210560716A CN 103065622 A CN103065622 A CN 103065622A
Authority
CN
China
Prior art keywords
languages
gauss
model
training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105607168A
Other languages
English (en)
Other versions
CN103065622B (zh
Inventor
周若华
颜永红
杨金超
索宏彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201210560716.8A priority Critical patent/CN103065622B/zh
Publication of CN103065622A publication Critical patent/CN103065622A/zh
Application granted granted Critical
Publication of CN103065622B publication Critical patent/CN103065622B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种用于语种识别的语种模型的训练方法及系统,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度,利用权重较高的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。

Description

一种用于语种识别的语种模型的训练方法及系统
技术领域
本发明属于语音识别技术领域,具体地说,本发明涉及一种用于语种识别的语种模型的训练方法及系统。
背景技术
语种识别是语音识别技术的重点难点之一。对于跨语言的语音识别系统,相对于确定语言的语音识别系统语音识别性能会有大幅度的下降,准确识别出语音的语种信息的语种识别技术,使跨语言的语音识别转换为确定语言的语音识别,成为语音识别系统满足实际应用需求的必要手段。对于如何利用有限的语种训练数据,训练具有语种鉴别性的模型,从而快速准确的识别出语音的语种信息,目前尚未出现有效的方案,这对于语种识别技术进一步研究及应用造成困难。
发明内容
针对上述问题,本发明实施例提出一种用于语种识别的语种模型的训练方法及系统。
在第一方面,本发明实施例提出一种用于语种识别的语种模型的训练方法,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
在第二方面,本发明实施例提出一种用于语种识别的语种模型的训练系统,所述系统包括:声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征;初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度;高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
本发明实施例提取各语种的语音声学谱特征生成每个目标语种的初始高斯混合模型,量化对应语种训练数据的混淆度,利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间,对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。
附图说明
以下,结合附图来详细说明本发明实施例,其中:
图1是本发明实施例的基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图;
图2是本发明实施例的用于语种识别的语种模型的训练方法流程图;
图3是本发明实施例的用于语种识别的语种模型的训练系统示意图。
具体实施方式
图1是基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图。
下面结合图1对本发明实施例的具体实施方式做进一步详细描述:
本发明实施例旨在提供基于最大混淆度鉴别性训练的语种识别方案,该方案利用混淆度大的、语种鉴别性高的语种训练数据训练语种模型,以提高语种识别性能。具体地,本发明实施例涉及的基于最大混淆度鉴别性训练的语种识别方法的核心技术在于语种训练数据混淆度的获取以及利用好语种训练数据的混淆度进行鉴别性训练。最大混淆度鉴别性训练通过利用更具语种鉴别性的数据训练得到更具鉴别性的语种高斯混合模型。本发明利用语种初始模型定义语种训练数据混淆度并在高斯超向量空间利用该混淆度进行语种鉴别性训练。
本发明实施例的具体计算流程如下:
第一步,采集一定数量的目标语种语音数据,提取语音声学谱特征;所采集的目标语种语音数据,通过传统的语音数据前端处理,对语种训练数据切除静音,音乐等无效语音,保留有效语音,然后提取通用的美尔倒谱特征(MFCC),并对该特征进行动态扩展得到移动差分倒谱特征(MFCC-SDC),对于语种训练数据的每一帧得到56维特征向量,作为该语音数据的声学谱特征。
第二步,利用每个目标语种训练数据的声学谱特征训练该目标语种的高斯混合模型,作为每个目标语种各自的初始模型。这里利用了语音数据声学谱特征服从高斯混合分布,训练每个目标语种各自的初始高斯混合模型采用了最大似然估计,目标函数为每个语种训练数据对数似然之和,公式(6)为英语高斯混合模型估计的目标函数:
L ML ( λ english ) = Σ g ( r ) = english log p ( X r \ λ english ) - - - ( 6 )
第三步,利用每个目标语种的初始模型量化计算语种训练数据的混淆度;对于语种信息已知的某条语音数据的声学谱特征为X,设该条语音属于语种li,于是该条语音数据混淆度的量化公式被定义为公式(1):
H ( X ) = 1 h ( X ) , 0 = < h ( X ) < = &epsiv; 0 , h ( X ) > &epsiv; , ( X ) < 0 - - - ( 1 )
h ( X ) = F ( X \ l i ) - Max l j &Element; L , l j &NotEqual; l i { F ( X \ l j ) } - - - ( 2 )
其中ε为正常数,F(X\l)为该条语音声学谱特征在语种初始高斯混合模型对数似然得分,公式如下(3):
F ( X \ l ) = log { &Sigma; s = 1 N w s P ( X ; m s , &Sigma; s ) } - - - ( 3 )
其中N为语种高斯混合模型的高斯混合数,w,m,∑分别对应语种高斯混合模型的权重,均值和方差。
第四步,利用最大后验估计将语种训练数据从声学谱特征转换到高斯超向量空间。对于每一句语种训练数据,通过对背景模型(UBM)的自适应可以估计对于这句话的经最大后验估计后的高斯混合模型:
g ( X ) = &Sigma; s = 1 N w s P ( X ; M s , &Sigma; s )
其中模型均值的更新公式为:
Mi=αEi(x)+(1-α)mUBM
高斯超向量由该高斯混合模型的均值拼接得到:
M = [ m 1 a , m 2 a , . . . , m N a ]
语种信息包含在该高斯超向量中。
第五步,对第四步的语种训练数据的高斯超向量空间,利用第三步得到的训练数据的混淆度,赋予各训练数据的高斯超向量不同的权重;权重公式如下(4):
&beta; ( X ) = H ( X ) &Sigma; Y &Element; l i H ( Y ) - - - ( 4 )
其中分母是某语种所有训练数据的混淆度之和。根据混淆度计算公式(1),语种混淆度大的训练数据包含更多的信息量,在语种训练中被赋予更大的权重,语种混淆度小的训练数据,权重置为0。
第六步,利用权重高的高斯超向量进行最大似然估计得到每个语种高斯超向量空间分布的中心点,通过最大似然计算每个目标语种高斯超向量的中心点公式如下(5):
V ( l i ) = &Sigma; X &Element; l i &beta; ( X ) V ( X ) &Sigma; X &Element; l i &beta; ( X ) - - - ( 5 )
其中li为某目标语种,V(X)为目标语种li中某条训练语音的声学谱特征对应的超向量,β(X)为该条训练语音对应的基于最大混淆度的权重。
对每个语种高斯超向量空间分布的中心点,利用V(li)按照下面的方法更新每个语种新的更具鉴别性的高斯混合模型。
新的高斯混合模型的权重和方差为对应语种初始高斯混合模型的权重和方差,保持不变,通过V(li)对各语种高斯混合模型的均值进行更新的公式如下:
Figure BDA00002625347600051
其中s为高斯混合模型第s个高斯,w,∑分别对应语种初始高斯混合模型的权重和方差。
本发明实施例可实现对语音数据语种信息的更好识别。本发明实施例的优点在于:(1)量化定义语种训练数据的语种混淆度(2)提出一种新型的基于最大混淆度鉴别性训练的语种识别方法,(3)在仅依靠语种混淆度高的少量语种训练数据前提下,提高系统语种识别的性能。
在本发明实施例的基于最大混淆度鉴别性训练的语种识别方法中,通过语种初始模型,定义语种训练数据的混淆度,以利用混淆度大的语种训练数据,通过混淆度的量化进一步定义语种训练数据的鉴别性权重,通过将语种训练数据从声学谱特征映射到高斯超向量空间,对高斯超向量赋予语种鉴别性权重,用最大似然的方法估计每个语种高斯超向量空间的中心点;同时由于该方法为模型域鉴别性训练,语种识别系统的识别速度并未改变。
本发明实施例实现了更具鉴别性语种识别模型的训练,提高语种识别性能。相比传统的鉴别性语种模型训练方法,基于最大混淆度鉴别性训练的语种识别方法不需要增加更多的语种训练数据。通过对混淆度的定义和量化,赋予训练数据不同鉴别性的权重,在高斯超向量空间可以很好地利用这一权重,最后通过简单的逆变换得到更具鉴别性的语种模型。我们进行了大量实网数据的测试,结果显示在识别性能方面,由于该方法使用最易混淆的即最具鉴别性的语种训练数据进行鉴别性训练,更能反映语种间的区分性。与未使用该方法的语种识别系统相比,基于最大混淆度鉴别性训练的语种识别方法的性能有相对5%-10%的提升。
总之,基于最大混淆度鉴别性训练的语种识别方法有效利用语种训练数据的语种鉴别性信息,训练出更具鉴别性的语种高斯混合模型,在大量实网数据的测试结果显示基于最大混淆度鉴别性训练的语种识别方法的性能有相对5%-10%的提升。
图2是本发明实施例的用于语种识别的语种模型的训练方法流程图。
如图2,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
优选地,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为:利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,对每个语种高斯超向量空间分布的中心点,通过所述转换的逆变换得到每个语种新的高斯混合模型。
优选地,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为:若语种1i的某条语音数据的声学谱特征为X,该条语音数据混淆度 H ( X ) = 1 h ( X ) , 0 = < h ( X ) < = &epsiv; 0 , h ( X ) > &epsiv; , ( X ) < 0 , 其中ε为正常数, h ( X ) = F ( X \ l i ) - Max l j &Element; L , l j &NotEqual; l i { F ( X \ l j ) } , Max{}为求最大值函数,F(X\1)为该声学谱特征X在语种l的初始模型的对数似然得分,即其中N为语种l的初始模型的高斯混合数,w,m,∑分别为语种l的初始模型的权重,均值和方差。
优选地,所述根据所述混淆度赋予的语种1i的训练数据的高斯超向量的权重其中Y是语种li的某条语音数据的声学谱特征,
Figure BDA00002625347600065
是语种li的所有训练数据的声学谱特征的混淆度之和。
优选地,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式 V ( l i ) = ( &Sigma; X &Element; l i &beta; ( X ) V ( X ) ) / &Sigma; X &Element; l i &beta; ( X ) , 其中li为某目标语种,V(X)为目标语种1i中某条训练语音的声学谱特征X对应的超向量。
图3是本发明实施例的用于语种识别的语种模型的训练系统示意图。如图2,所述系统包括:声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征;初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度;高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
优选地,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为:利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,对每个语种高斯超向量空间分布的中心点,通过所述转换的逆变换得到每个语种新的高斯混合模型。
优选地,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为:若语种1i的某条语音数据的声学谱特征为X,该条语音数据混淆度 H ( X ) = 1 h ( X ) , 0 = < h ( X ) < = &epsiv; 0 , h ( X ) > &epsiv; , ( X ) < 0 , 其中ε为正常数, h ( X ) = F ( X \ l i ) - Max l j &Element; L , l j &NotEqual; l i { F ( X \ l j ) } , Max{}为求最大值函数,F(X\1)为该声学谱特征X在语种l的初始模型的对数似然得分,即
Figure BDA00002625347600073
其中N为语种l的初始模型的高斯混合数,w,m,∑分别为语种l的初始模型的权重,均值和方差。
优选地,所述根据所述混淆度赋予的语种1i的训练数据的高斯超向量的权重
Figure BDA00002625347600081
其中Y是语种li的某条语音数据的声学谱特征,
Figure BDA00002625347600082
是语种li的所有训练数据的声学谱特征的混淆度之和。
优选地,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式 V ( l i ) = ( &Sigma; X &Element; l i &beta; ( X ) V ( X ) ) / &Sigma; X &Element; l i &beta; ( X ) , 其中li为某目标语种,V(X)为目标语种1i中某条训练语音的声学谱特征X对应的超向量。
本发明实施例提取各语种的语音声学谱特征生成每个目标语种的初始高斯混合模型,量化对应语种训练数据的混淆度,利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间,对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。
本领域技术人员应该进一步意识到,结合本文中所公开的实施例描述的各示例模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
需要指出的是,以上仅为本发明较佳实施例,并非用来限定本发明的实施范围,具有专业知识基础的技术人员可以由以上实施实例实现本发明,因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进,都被本发明的专利范围所覆盖。即,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种用于语种识别的语种模型的训练方法,其特征在于,所述方法包括:
采集多个目标语种语音数据,提取各语种的语音声学谱特征;
利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;
利用每个目标语种的初始模型量化对应语种训练数据的混淆度;
利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;
对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
2.如权利要求1所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为:利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,根据每个语种高斯超向量空间分布的中心点,更新每个语种的高斯混合模型的均值,得到每个语种的新的高斯混合模型。
3.如权利要求1或2所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为:若语种1i的某条语音数据的声学谱特征为X,该条语音数据混淆度 H ( X ) = 1 h ( X ) , 0 = < h ( X ) < = &epsiv; 0 , h ( X ) > &epsiv; , ( X ) < 0 , 其中ε为正常数, h ( X ) = F ( X \ l i ) - Max l j &Element; L , l j &NotEqual; l i { F ( X \ l j ) } , Max{}为求最大值函数,F(X\1)为该声学谱特征X在语种l的初始模型的对数似然得分,即
Figure FDA00002625347500013
其中N为语种l的初始模型的高斯混合数,w,m,∑分别为语种l的初始模型的权重,均值和方差。
4.按权利要求3所述的用于语种识别的语种模型的训练方法,其特征在于,所述根据所述混淆度赋予的语种1i的训练数据的高斯超向量的权重
Figure FDA00002625347500021
其中Y是语种li的某条语音数据的声学谱特征,
Figure FDA00002625347500022
是语种li的所有训练数据的声学谱特征的混淆度之和。
5.按权利要求4所述的用于语种识别的语种模型的训练方法,其特征在于,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式 V ( l i ) = ( &Sigma; X &Element; l i &beta; ( X ) V ( X ) ) / &Sigma; X &Element; l i &beta; ( X ) , 其中1i为某目标语种,V(X)为目标语种1i中某条训练语音的声学谱特征X对应的超向量。
6.一种用于语种识别的语种模型的训练系统,其特征在于,所述系统包括:
声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征;
初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;
混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度;
高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;
语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
7.如权利要求6所述的用于语种识别的语种模型的训练系统,其特征在于,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为:利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,根据每个语种高斯超向量空间分布的中心点,更新每个语种的高斯混合模型的均值,得到每个语种的新的高斯混合模型。
8.如权利要求6或7所述的用于语种识别的语种模型的训练系统,其特征在于,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为:若语种1i的某条语音数据的声学谱特征为X,该条语音数据混淆度 H ( X ) = 1 h ( X ) , 0 = < h ( X ) < = &epsiv; 0 , h ( X ) > &epsiv; , ( X ) < 0 , 其中ε为正常数, h ( X ) = F ( X \ l i ) - Max l j &Element; L , l j &NotEqual; l i { F ( X \ l j ) } , Max{}为求最大值函数,F(X\1)为该声学谱特征X在语种l的初始模型的对数似然得分,即其中N为语种l的初始模型的高斯混合数,w,m,∑分别为语种l的初始模型的权重,均值和方差。
9.按权利要求8所述的用于语种识别的语种模型的训练系统,其特征在于,所述根据所述混淆度赋予的语种1i的训练数据的高斯超向量的权重
Figure FDA00002625347500033
其中Y是语种li的某条语音数据的声学谱特征,
Figure FDA00002625347500034
是语种li的所有训练数据的声学谱特征的混淆度之和。
10.按权利要求9所述的用于语种识别的语种模型的训练系统,其特征在于,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式 V ( l i ) = ( &Sigma; X &Element; l i &beta; ( X ) V ( X ) ) / &Sigma; X &Element; l i &beta; ( X ) , 其中1i为某目标语种,V(X)为目标语种1i中某条训练语音的声学谱特征X对应的超向量。
CN201210560716.8A 2012-12-20 2012-12-20 一种用于语种识别的语种模型的训练方法及系统 Expired - Fee Related CN103065622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210560716.8A CN103065622B (zh) 2012-12-20 2012-12-20 一种用于语种识别的语种模型的训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210560716.8A CN103065622B (zh) 2012-12-20 2012-12-20 一种用于语种识别的语种模型的训练方法及系统

Publications (2)

Publication Number Publication Date
CN103065622A true CN103065622A (zh) 2013-04-24
CN103065622B CN103065622B (zh) 2015-10-07

Family

ID=48108222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210560716.8A Expired - Fee Related CN103065622B (zh) 2012-12-20 2012-12-20 一种用于语种识别的语种模型的训练方法及系统

Country Status (1)

Country Link
CN (1) CN103065622B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN106157953A (zh) * 2015-04-16 2016-11-23 科大讯飞股份有限公司 连续语音识别方法及系统
CN106354711A (zh) * 2016-08-18 2017-01-25 中译语通科技(北京)有限公司 一种语种识别的方法及装置
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
CN109147769A (zh) * 2018-10-17 2019-01-04 北京猎户星空科技有限公司 一种语种识别方法、装置、翻译机、介质和设备
CN110164417A (zh) * 2019-05-31 2019-08-23 科大讯飞股份有限公司 一种语种向量获得、语种识别的方法和相关装置
CN110689875A (zh) * 2019-10-28 2020-01-14 国家计算机网络与信息安全管理中心 一种语种识别方法、装置及可读存储介质
CN111091809A (zh) * 2019-10-31 2020-05-01 国家计算机网络与信息安全管理中心 一种深度特征融合的地域性口音识别方法及装置
WO2020182153A1 (zh) * 2019-03-11 2020-09-17 腾讯科技(深圳)有限公司 基于自适应语种进行语音识别的方法及相关装置
CN111986650A (zh) * 2020-08-07 2020-11-24 云知声智能科技股份有限公司 借助语种识别辅助语音评测的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
US20120065974A1 (en) * 2005-12-19 2012-03-15 International Business Machines Corporation Joint factor analysis scoring for speech processing systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120065974A1 (en) * 2005-12-19 2012-03-15 International Business Machines Corporation Joint factor analysis scoring for speech processing systems
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
单煜翔,邓妍,刘加: "一种联合语种识别的新型大词汇量连续语音识别算法", 《自动化学报》, vol. 38, no. 3, 31 January 2013 (2013-01-31) *
宋彦,戴礼荣,王仁华: "基于超向量子空间分析的自动语种识别方法", 《模式识别与人工智能》, vol. 32, no. 2, 30 April 2011 (2011-04-30) *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN103345923B (zh) * 2013-07-26 2016-05-11 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN106157953A (zh) * 2015-04-16 2016-11-23 科大讯飞股份有限公司 连续语音识别方法及系统
CN106157953B (zh) * 2015-04-16 2020-02-07 科大讯飞股份有限公司 连续语音识别方法及系统
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN106598937B (zh) * 2015-10-16 2019-10-18 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN106354711A (zh) * 2016-08-18 2017-01-25 中译语通科技(北京)有限公司 一种语种识别的方法及装置
CN109313892A (zh) * 2017-05-17 2019-02-05 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
CN109313892B (zh) * 2017-05-17 2023-02-21 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
US11183171B2 (en) 2017-05-17 2021-11-23 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
CN109147769A (zh) * 2018-10-17 2019-01-04 北京猎户星空科技有限公司 一种语种识别方法、装置、翻译机、介质和设备
WO2020182153A1 (zh) * 2019-03-11 2020-09-17 腾讯科技(深圳)有限公司 基于自适应语种进行语音识别的方法及相关装置
CN110164417A (zh) * 2019-05-31 2019-08-23 科大讯飞股份有限公司 一种语种向量获得、语种识别的方法和相关装置
CN110689875A (zh) * 2019-10-28 2020-01-14 国家计算机网络与信息安全管理中心 一种语种识别方法、装置及可读存储介质
CN111091809A (zh) * 2019-10-31 2020-05-01 国家计算机网络与信息安全管理中心 一种深度特征融合的地域性口音识别方法及装置
CN111091809B (zh) * 2019-10-31 2023-05-23 国家计算机网络与信息安全管理中心 一种深度特征融合的地域性口音识别方法及装置
CN111986650A (zh) * 2020-08-07 2020-11-24 云知声智能科技股份有限公司 借助语种识别辅助语音评测的方法及系统
CN111986650B (zh) * 2020-08-07 2024-02-27 云知声智能科技股份有限公司 借助语种识别辅助语音评测的方法及系统

Also Published As

Publication number Publication date
CN103065622B (zh) 2015-10-07

Similar Documents

Publication Publication Date Title
CN103065622A (zh) 一种用于语种识别的语种模型的训练方法及系统
CN103117060B (zh) 用于语音识别的声学模型的建模方法、建模系统
CN102982811B (zh) 一种基于实时解码的语音端点检测方法
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN103077709B (zh) 一种基于共有鉴别性子空间映射的语种识别方法及装置
CN104036774A (zh) 藏语方言识别方法及系统
CN104575497B (zh) 一种声学模型建立方法及基于该模型的语音解码方法
CN101710490A (zh) 语音评测的噪声补偿方法及装置
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN102810311B (zh) 说话人估计方法和说话人估计设备
CN105469784A (zh) 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105919591A (zh) 一种基于表面肌电信号的手语识别发声系统及方法
CN102789779A (zh) 一种语音识别系统及其识别方法
Su et al. GMM-HMM acoustic model training by a two level procedure with Gaussian components determined by automatic model selection
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN109377981A (zh) 音素对齐的方法及装置
CN103021407A (zh) 一种黏着语语音识别方法及系统
CN109300339A (zh) 一种英语口语的练习方法及系统
CN1300049A (zh) 汉语普通话话音识别的方法和设备
CN102376306B (zh) 语音帧等级的获取方法及装置
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151007

CF01 Termination of patent right due to non-payment of annual fee