CN101645269A - 一种语种识别系统及方法 - Google Patents

一种语种识别系统及方法 Download PDF

Info

Publication number
CN101645269A
CN101645269A CN200810247575A CN200810247575A CN101645269A CN 101645269 A CN101645269 A CN 101645269A CN 200810247575 A CN200810247575 A CN 200810247575A CN 200810247575 A CN200810247575 A CN 200810247575A CN 101645269 A CN101645269 A CN 101645269A
Authority
CN
China
Prior art keywords
module
phone
language
training
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810247575A
Other languages
English (en)
Inventor
颜永红
肖翔
索宏彬
赵庆卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN200810247575A priority Critical patent/CN101645269A/zh
Publication of CN101645269A publication Critical patent/CN101645269A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种语种识别系统及方法,该系统包括:预处理和特征提取模块、生成性音子序列解码模块、N元文法语言语法模型模块及分类器。生成性音子序列解码模块包括:混合高斯模型训练模块、混合高斯模型解码模块及序列平滑模块。该系统及方法将训练语种语音数据通过EM迭代准则,训练生成与该语种数据相对应的混合高斯模型,并根据该混合高斯模型对输入语音的特征进行识别,产生音子序列。本发明的系统及方法利用基于混合高斯模型的生成性音子序列解码模块,避免PPRLM系统中前端音子识别器所需要的大量计算,实现在不损失检测精度的基础上识别速度大幅提高;使用平滑策略,使语音序列具有明显的短时稳定性。

Description

一种语种识别系统及方法
技术领域
本发明涉及语音识别领域,特别涉及一种语种识别系统及方法。
技术背景
语种识别是一种完全自动的判别一段语音信号的语种类别的技术,近年来,该技术在国防,安全,监控等领域获得广泛应用。目前,该技术的主要系统架构是传统的并行音子识别器加语言模型(PPRLM)方法。该方法利用不同语种之间的音位配列之间的差异,即利用不同语种之间,发音的音子,音子串,以及音子出现的频率和前后文关系的不同,来区分各个语种。这也是人类区分不同语种的重要特征。
图1为传统的PPRLM系统的一个支路的结构,称之为音子识别器加语言模型系统(PRLM)。在PRLM系统中,语音首先提取特征后被送入一个音子识别器,识别出来的音子序列送到各个备选语种的语言模型中打分,然后对各个语言模型的得分进行比较而得出结论。
而并行音子识别器加语言模型的方法,则是多个PRLM并行的方法。其结构如图2所示。
目前,PPRLM的方法是语种识别系统的主要方法,在历届NIST评测中取得了很好的效果,然而,PPRLM系统有其自身的使用局限性:前端的音子识别器需要很大的计算量,从而严重的影响了PPRLM系统的实际应用。
发明内容
为了克服现有技术中的不足,本发明提供一种语种识别系统及方法,该系统及方法利用基于混合高斯模型(GMM)的生成性音子序列解码模块,代替PPRLM前端的音子识别器,这样可以避免PPRLM系统中前端音子识别器所需要的计算量。
为了达到上述目的,本发明提供的一种语种识别系统,该系统包括:
一预处理和特征提取模块,用于对输入的语音信号做预处理、提取语音信号的特征,并将该特征送入生成性音子序列解码模块。
一生成性音子序列解码模块,用于将训练语种语音数据通过EM迭代准则,训练生成与该语种数据相对应的混合高斯模型,并根据该混合高斯模型对输入语音的特征进行识别,产生音子序列,并将该音子序列送入N元文法语言语法模型模块。
一N元文法语言语法模型模块,用于对送入的音子序列进行似然打分,并将该得分送入分类器。及
一分类器,用于将N元文法语言语法模型模块的打分进行比较,最终确定输入的语音信号的语种类别。
其中,所述生成性音子序列解码模块包括:
一混合高斯模型训练模块,用于将训练语种语音数据通过EM迭代准则训练生成与该语种数据相对应的混合高斯模型。
所述迭代准则是训练产生的混合高斯模型参数与训练种语语音的似然度达到最大,对于训练种语语音特征序列 X = { x V 1 , x V 2 , . . . x V T } , 各帧之间相互独立,则该训练种语语音特征序列对于混合高斯模型的似然度定义为:
p ( X | λ ) = Π i = 1 T p ( x V t | λ ) ;
其中,T为一段种语语音的帧数,
Figure G2008102475758D00023
是第t帧种语语音的特征。
最大期望(EM)算法基本思想是首先初始化模型参数λ,再估计新的模型参数λ,使其满足条件p(X|λ)≥p(X|λ),然后再以估计的值作为下一次重估的初始值重新估计模型参数值,不断重复此参数重估过程,直到收敛条件得到满足。
一混合高斯模型解码模块,用于利用混合高斯模型,根据后验概率计算公式对输入语音的特征进行识别,产生音子序列。
所述后验概率计算公式如下:
p ( i | x V t ) = ω i b i ( x V t ) Σ k = 1 M ω k b k ( x V t ) ;
其中,
Figure G2008102475758D00025
是观测数据
Figure G2008102475758D00026
在第i个高斯分量上的后验概率,
Figure G2008102475758D00027
是观测数据
Figure G2008102475758D00028
在第i个高斯分量上的观察概率, Σ k = 1 M ω k b k ( x V t ) 则是观测数据
Figure G2008102475758D000210
在M个高斯分量上的总观察概率。
对于每帧输入语音的特征数据,该特征数据的发音是所有混合高斯模型分量当中具有最大后验概率的分量。
一序列平滑模块,用于利用平滑公式对音子序列做平滑处理。
所述平滑公式如下:
Index ( x t ) = arg max ( i ) { Σ k = - 1 2 ( w - 1 ) k = 1 2 ( w - 1 ) P ( i / x t + k ) } ;
其中,Index(xi)是观测数据的发音,w是选择的平滑窗长。
其中,所述语种识别系统包括多个生成性音子序列解码模块及N元文法语言语法模型模块,所述生成性音子序列解码模块及N元文法语言语法模型模块采用并行结构。
本发明提供的一种语种识别方法,包括以下步骤:
(1)预处理和特征提取模块对输入的语音信号做预处理、提取语音信号的特征,并将该特征送入生成性音子序列解码模块。
(2)生成性音子序列解码模块将训练语种语音数据通过EM迭代准则,训练生成与该语种数据相对应的混合高斯模型,并根据该混合高斯模型对输入语音的特征进行识别,产生音子序列,并将该音子序列送入N元文法语言语法模型模块。
(3)N元文法语言语法模型模块对送入的音子序列进行似然打分,并将该得分送入分类器。
(4)分类器将N元文法语言语法模型模块的打分进行比较,最终确定输入的语音信号的语种类别。
其中,所述步骤(2)进一步包括以下子步骤:
(21)混合高斯模型训练模块将训练语种语音数据通过EM迭代准则训练生成与该语种数据相对应的混合高斯模型。
(22)混合高斯模型解码模块利用混合高斯模型,根据后验概率计算公式对输入语音的特征进行识别,产生音子序列。
(23)序列平滑模块利用平滑公式对音子序列做平滑处理。
其中,所述语种识别方法采用多个生成性音子序列解码模块及N元文法语言语法模型模块并行处理的方式进行语种识别。
本发明的优点在于:
1、本发明提供的语种识别系统及方法,即在输入语音信号的情况下,自动的判别输入语音的语种类别。
2、本发明提供的语种识别系统及方法利用基于混合高斯模型(GMM)的生成性音子序列解码模块,代替PPRLM前端的音子识别器,避免PPRLM系统中前端音子识别器所需要的大量计算,实现在保证不损失检测精度的基础上识别速度大幅提高。
3、本发明提供的语种识别系统及方法使用一个短时的平滑策略,使得平滑过后的语音序列具有明显的短时稳定性。
4、本发明提供的语种识别系统及方法采用基于统计思想建立的N元文法语言模型,在一定程度上可以刻画该语音在语法层的信息,通过概率计算,并经过分类以后,给出检测结果。
附图说明:
图1是现有技术PRLM系统识别流程图;
图2是现有技术并行PRLM(PPRLM)系统识别流程图;
图3是本发明生成性音子序列解码模块的训练流程图;
图4是本发明生成性音子序列解码模块的解码流程图;
图5是本发明实施例GMM解码后的发音序列示意图;
图6是本发明实施例平滑后的发音序列示意图;
图7是本发明实施例汉语、日语和英语三种语种的混合高斯模型训练示意图;
图8是本发明实施例汉语、日语和英语三种语种的语法模型训练示意图;
图9是本发明实施例汉语、日语和英语三种语种打分示意图。
具体实施方式
下面结合一个具体的实施例对本发明做详细说明。
本实施例的任务描述:假设我们的应用任务域为N个语种,每个语种有一定量的训练数据,则每个语种的训练数据我们用Si来表示。
本实施例采用的语种识别系统,包括:预处理和特征提取模块、多个生成性音子序列解码模块、多个N元文法语言语法模型模块及分类器。其中,所述生成性音子序列解码模块包括:混合高斯模型训练模块、混合高斯模型解码模块及序列平滑模块。其中,多个生成性音子序列解码模块及N元文法语言语法模型模块采用并行结构。
本实施例语种识别方法,包括以下步骤:
(1)预处理和特征提取模块对输入的语音信号做预处理、提取语音信号的特征,并将该特征送入生成性音子序列解码模块。
(2)生成性音子序列解码模块将训练语种语音数据通过EM迭代准则,训练生成与该语种数据相对应的混合高斯模型,并根据该混合高斯模型对输入语音的特征进行识别,产生音子序列,并将该音子序列送入N元文法语言语法模型模块。包括以下子步骤:
(21)混合高斯模型训练模块将训练语种语音数据通过EM迭代准则训练生成与该语种数据相对应的混合高斯模型。训练过程如下:
(211)对于所有的数据,首先提取特征。
(212)每个语种用数据Si,根据EM迭代准则,估计其语种相关的GMM模型Gi,这样我们有每个语种对应的一个GMM模型,共有N个。
(213)对于每个语种,使用数据Si,在所有N个语种对应的GMM模型Gj上计算其解码序列Dij,对于每个语种,我们有N个解码序列,而对于所有语种,我们就会产生一共N*N个解码序列。
(214)每个解码序列Dij,我们用n-gram准则训练其语法模型Lij,这样我们会得到N*N个语法模型。
对于一个特定语种(英语)的生成性音子序列解码模块的训练流程如图3所示。
其中,预处理和特征提取的步骤同传统PPRLM系统一致,GMM训练模块使用该语种数据通过EM迭代来生成该语种对应的GMM模型。EM算法的准则是使训练出来的模型参数与训练语音的似然度达到最大,也就是最佳匹配程度。对于一段给定的训练语音特征序列 X = { x V 1 , x V 2 , . . . x V T } , 认为各帧之间是相互独立的,则特征序列对于GMM的似然度定义为:
p ( X | λ ) = Π i = 1 T p ( x V t | λ ) ;
其中T为一段语音的帧数,
Figure G2008102475758D00053
是第t帧语音的说话人特征。
最大期望(EM)算法基本思想是首先初始化模型参数λ,再估计新的模型参数λ,使其满足条件p(X|λ)≥p(X|λ),然后再以估计的值作为下一次重估的初始值重新估计模型参数值,不断重复此参数重估过程,直到收敛条件得到满足。
该语种对应的GMM模型训练出来以后,予以保留,并在识别过程中用以替代PPRLM系统中的英语音子识别器,生成语音的发音序列。
(22)混合高斯模型解码模块利用混合高斯模型,根据后验概率计算公式对输入语音的特征进行识别,产生音子序列。识别过程如下:
对于一个测试语音文件X,将其送入所有语种的GMM模型Gj上计算其解码序列dj,然后我们将dj送入第j个语种相关的一系列语法模型Lij进行打分。
而在识别过程中,利用该语种的GMM模型来对待测试语音进行解码的生成性音子序列解码模块的解码流程如图4所示。
而对于每一帧数据来说,它的发音就是所有GMM分量当中具有最大后验概率的那个分量。其中:后验概率的计算公式如下:
p ( i | x V t ) = ω i b i ( x V t ) Σ k = 1 M ω k b k ( x V t ) ;
其中:
Figure G2008102475758D00062
是观测数据在第i个高斯分量上的后验概率,
Figure G2008102475758D00064
是观测数据
Figure G2008102475758D00065
在第i个高斯分量上的观察概率, Σ k = 1 M ω k b k ( x V t ) 则是观测数据
Figure G2008102475758D00067
在M个高斯分量上的总观察概率。
这样,对于语音中的每帧数据,我们都可以通过GMM解码器,确定它的发音。而对于整个语音数据段来说,它的每帧数据的发音构成了一个发音序列,对于一段1.2秒的语音,其发音序列如图5所示。
从图5中我们可以看到,语音的稳定性在短时的语音帧上表现得不明显,为了增加识别结果的稳定性,我们使用一个短时的序列平滑。
(23)序列平滑模块利用平滑公式对音子序列做平滑处理。
平滑的做法如下:
Index ( x t ) = arg max ( i ) { Σ k = - 1 2 ( w - 1 ) k = 1 2 ( w - 1 ) P ( i / x t + k ) } ;
其中:Index(xt))是观测数据
Figure G2008102475758D00069
的发音,w是我们选择的平滑窗长,在实际应用中,考虑语音的发音持续时间,我们选择w=7。
平滑过后的发音序列如图6所示。从图6中可以看出,平滑过后的语音序列具有明显的短时稳定性,而这样的序列我们可以送入后端的n-gram语言模型进行建模。语言模型建模工具我们采用斯坦福研究院公布的SRILM-ToolKit。
(3)N元文法语言语法模型模块对平滑后的音子序列进行似然打分,并将该得分送入分类器。
(4)分类器将N元文法语言语法模型模块的打分进行比较,最终确定输入的语音信号的语种类别。
下面根据上述系统及方法,以汉语、日语和英语三个语种为例,介绍该系统及方法的训练和识别流程。
一:训练流程
1)为每个语种训练一个混合高斯模型,如图7所示。
2)为每个语种wi与每个混合高斯模型Gj,训练其相应的语法模型Lij,如图8所示。
二:识别流程:
1)对于一个测试语音X,我们先通过各个混合高斯解码器Gj,生成其发音序列Xj,Xj送入相应的语法模型Lij中打分,计算其相应的得分Sij,如图9所示。
2)综合得分Sij,得到3个语种的得分,其中 Scor e i = 1 3 ( S i 1 + S i 2 + S i 3 ) , 选择综合得分最高的语种即为该语音X的语种类别。

Claims (6)

1、一种语种识别系统,该系统包括:
一预处理和特征提取模块,用于对输入的语音信号做预处理、提取语音信号的特征,并将该特征送入生成性音子序列解码模块;
一N元文法语言语法模型模块,用于对送入的音子序列进行似然打分,并将该得分送入分类器;及
一分类器,用于将N元文法语言语法模型模块的打分进行比较,最终确定输入的语音信号的语种类别;
其特征在于,所述语种识别系统还包括:
一生成性音子序列解码模块,用于将训练语种语音数据通过期望最大化EM迭代准则,训练生成与该语种数据相对应的混合高斯模型,并根据该混合高斯模型对输入语音的特征进行识别,产生音子序列,并将该音子序列送入N元文法语言语法模型模块。
2、根据权利要求1所述的语种识别系统,其特征在于,所述生成性音子序列解码模块包括:
一混合高斯模型训练模块,用于将训练语种语音数据通过期望最大化EM迭代准则训练生成与该语种数据相对应的混合高斯模型;
所述迭代准则是训练产生的混合高斯模型参数与训练种语语音的似然度达到最大,对于训练种语语音特征序列 X = { x V 1 , x V 2 , . . . x V T } , 各帧之间相互独立,则该训练种语语音特征序列对于混合高斯模型的似然度定义为:
p ( X | λ ) = Π i = 1 T p ( x V t | λ ) ;
其中,T为一段种语语音的帧数,
Figure A2008102475750002C3
是第t帧种语语音的特征;
一混合高斯模型解码模块,用于利用混合高斯模型,根据后验概率计算公式对输入语音的特征进行识别,产生音子序列;
所述后验概率计算公式如下:
p ( i | x V t ) = ω i b i ( x V t ) Σ k = 1 M ω k b k ( x V t ) ;
其中,
Figure A2008102475750002C5
是观测数据
Figure A2008102475750002C6
在第i个高斯分量上的后验概率,
Figure A2008102475750002C7
是观测数据
Figure A2008102475750002C8
在第i个高斯分量上的观察概率,
Figure A2008102475750002C9
则是观测数据
Figure A2008102475750002C10
在M个高斯分量上的总观察概率;
对于每帧输入语音的特征数据,该特征数据的发音是所有混合高斯模型分量当中具有最大后验概率的分量;
一序列平滑模块,用于利用平滑公式对音子序列做平滑处理;
所述平滑公式如下:
Index ( x t ) = arg max ( i ) { Σ k = - 1 2 ( w - 1 ) k = 1 2 ( w - 1 ) P ( i / x t + k ) } ;
其中,Index(xt)是观测数据
Figure A2008102475750003C2
的发音,w是选择的平滑窗长。
3、根据权利要求1所述的语种识别系统,其特征在于,所述语种识别系统包括多个生成性音子序列解码模块及N元文法语言语法模型模块,所述生成性音子序列解码模块及N元文法语言语法模型模块采用并行结构。
4、一种语种识别方法,该方法包括以下步骤:
(1)预处理和特征提取模块对输入的语音信号做预处理、提取语音信号的特征,并将该特征送入生成性音子序列解码模块;
(2)生成性音子序列解码模块将训练语种语音数据通过期望最大化EM迭代准则,训练生成与该语种数据相对应的混合高斯模型,并根据该混合高斯模型对输入语音的特征进行识别,产生音子序列,并将该音子序列送入N元文法语言语法模型模块;
(3)N元文法语言语法模型模块对送入的音子序列进行似然打分,并将该得分送入分类器;
(4)分类器将N元文法语言语法模型模块的打分进行比较,最终确定输入的语音信号的语种类别。
5、根据权利要求4所述的语种识别方法,其特征在于,所述步骤(2)进一步包括以下子步骤:
(21)混合高斯模型训练模块将训练语种语音数据通过期望最大化EM迭代准则训练生成与该语种数据相对应的混合高斯模型;
所述迭代准则是训练产生的混合高斯模型参数与训练种语语音的似然度达到最大,对于训练种语语音特征序列 X = { x V 1 , x V 2 , . . . x V T } , 各帧之间相互独立,则该训练种语语音特征序列对于混合高斯模型的似然度定义为:
p ( X | λ ) = Π i = 1 T p ( x V t | λ ) ;
其中,T为一段种语语音的帧数,
Figure A2008102475750004C2
是第t帧种语语音的特征;
(22)混合高斯模型解码模块利用混合高斯模型,根据后验概率计算公式对输入语音的特征进行识别,产生音子序列;
所述后验概率计算公式如下:
p ( i | x V t ) = ω i b i ( x V t ) Σ k = 1 M ω k b k ( x V t ) ;
其中,
Figure A2008102475750004C4
是观测数据
Figure A2008102475750004C5
在第i个高斯分量上的后验概率,
Figure A2008102475750004C6
是观测数据
Figure A2008102475750004C7
在第i个高斯分量上的观察概率,
Figure A2008102475750004C8
则是观测数据
Figure A2008102475750004C9
在M个高斯分量上的总观察概率;
对于每帧输入语音的特征数据,该特征数据的发音是所有混合高斯模型分量当中具有最大后验概率的分量;
(23)序列平滑模块利用平滑公式对音子序列做平滑处理;
所述平滑公式如下:
Index ( x t ) = arg max ( i ) { Σ k = - 1 2 ( w - 1 ) k = 1 2 ( w - 1 ) P ( i / x t + k ) } ;
其中,Index(xt)是观测数据
Figure A2008102475750004C11
的发音,w是选择的平滑窗长。
6、根据权利要求4所述的语种识别方法,其特征在于,所述语种识别方法采用多个生成性音子序列解码模块及N元文法语言语法模型模块并行处理的方式进行语种识别。
CN200810247575A 2008-12-30 2008-12-30 一种语种识别系统及方法 Pending CN101645269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810247575A CN101645269A (zh) 2008-12-30 2008-12-30 一种语种识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810247575A CN101645269A (zh) 2008-12-30 2008-12-30 一种语种识别系统及方法

Publications (1)

Publication Number Publication Date
CN101645269A true CN101645269A (zh) 2010-02-10

Family

ID=41657122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810247575A Pending CN101645269A (zh) 2008-12-30 2008-12-30 一种语种识别系统及方法

Country Status (1)

Country Link
CN (1) CN101645269A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN104143329A (zh) * 2013-08-19 2014-11-12 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN106878805A (zh) * 2017-02-06 2017-06-20 广东小天才科技有限公司 一种混合语种字幕文件生成方法及装置
CN107111607A (zh) * 2014-10-17 2017-08-29 机械地带有限公司 用于语言检测的系统和方法
CN107305767A (zh) * 2016-04-15 2017-10-31 中国科学院声学研究所 一种应用于语种识别的短时语音时长扩展方法
CN108648747A (zh) * 2018-03-21 2018-10-12 清华大学 语种识别系统
CN110800046A (zh) * 2018-06-12 2020-02-14 深圳市合言信息科技有限公司 语音识别及翻译方法以及翻译装置
CN110827809A (zh) * 2018-08-13 2020-02-21 中国科学院声学研究所 一种基于条件生成式对抗网络的语种识别分类方法
US10699073B2 (en) 2014-10-17 2020-06-30 Mz Ip Holdings, Llc Systems and methods for language detection
CN111613208A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种语种识别方法和设备
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
CN112185363A (zh) * 2020-10-21 2021-01-05 北京猿力未来科技有限公司 音频处理方法及装置
CN112233651A (zh) * 2020-10-10 2021-01-15 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN104143329A (zh) * 2013-08-19 2014-11-12 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
WO2015024431A1 (en) * 2013-08-19 2015-02-26 Tencent Technology (Shenzhen) Company Limited Method and apparatus for performing speech keyword retrieval
CN104143329B (zh) * 2013-08-19 2015-10-21 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
US9355637B2 (en) 2013-08-19 2016-05-31 Tencent Technology (Shenzhen) Company Limited Method and apparatus for performing speech keyword retrieval
CN105261358A (zh) * 2014-07-17 2016-01-20 中国科学院声学研究所 用于语音识别的n元文法模型构造方法及语音识别系统
CN107111607A (zh) * 2014-10-17 2017-08-29 机械地带有限公司 用于语言检测的系统和方法
US10699073B2 (en) 2014-10-17 2020-06-30 Mz Ip Holdings, Llc Systems and methods for language detection
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN106598937B (zh) * 2015-10-16 2019-10-18 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN107305767A (zh) * 2016-04-15 2017-10-31 中国科学院声学研究所 一种应用于语种识别的短时语音时长扩展方法
CN107305767B (zh) * 2016-04-15 2020-03-17 中国科学院声学研究所 一种应用于语种识别的短时语音时长扩展方法
CN106878805A (zh) * 2017-02-06 2017-06-20 广东小天才科技有限公司 一种混合语种字幕文件生成方法及装置
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
CN108648747A (zh) * 2018-03-21 2018-10-12 清华大学 语种识别系统
CN108648747B (zh) * 2018-03-21 2020-06-02 清华大学 语种识别系统
CN110800046A (zh) * 2018-06-12 2020-02-14 深圳市合言信息科技有限公司 语音识别及翻译方法以及翻译装置
CN110827809B (zh) * 2018-08-13 2022-03-08 中国科学院声学研究所 一种基于条件生成式对抗网络的语种识别分类方法
CN110827809A (zh) * 2018-08-13 2020-02-21 中国科学院声学研究所 一种基于条件生成式对抗网络的语种识别分类方法
CN111613208A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 一种语种识别方法和设备
CN111613208B (zh) * 2020-05-22 2023-08-25 云知声智能科技股份有限公司 一种语种识别方法和设备
CN112233651A (zh) * 2020-10-10 2021-01-15 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
CN112233651B (zh) * 2020-10-10 2024-06-04 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
CN112185363A (zh) * 2020-10-21 2021-01-05 北京猿力未来科技有限公司 音频处理方法及装置
CN112185363B (zh) * 2020-10-21 2024-02-13 北京猿力未来科技有限公司 音频处理方法及装置

Similar Documents

Publication Publication Date Title
CN101645269A (zh) 一种语种识别系统及方法
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN103345922B (zh) 一种长篇幅语音全自动切分方法
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN102074234B (zh) 语音变异模型建立装置、方法及语音辨识系统和方法
CN101118745B (zh) 语音识别系统中的置信度快速求取方法
CN110675860A (zh) 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN105374352A (zh) 一种语音激活方法及系统
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
Weninger et al. Deep learning based mandarin accent identification for accent robust ASR.
CN106098059A (zh) 可定制语音唤醒方法及系统
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN101447185A (zh) 一种基于内容的音频快速分类方法
CN103177733A (zh) 汉语普通话儿化音发音质量评测方法与系统
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与系统
CN103680493A (zh) 区分地域性口音的语音数据识别方法和装置
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
CN101452701B (zh) 基于反模型的置信度估计方法及装置
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN102568469A (zh) G.729a压缩语音流信息隐藏检测装置及检测方法
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Sinclair et al. A semi-markov model for speech segmentation with an utterance-break prior

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100210