CN104240699B - 一种简单有效的短语语音识别方法 - Google Patents
一种简单有效的短语语音识别方法 Download PDFInfo
- Publication number
- CN104240699B CN104240699B CN201410462400.4A CN201410462400A CN104240699B CN 104240699 B CN104240699 B CN 104240699B CN 201410462400 A CN201410462400 A CN 201410462400A CN 104240699 B CN104240699 B CN 104240699B
- Authority
- CN
- China
- Prior art keywords
- phrase
- token
- gmm
- gtr
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种简单有效的基于GMM Token配比相似度的短语语音识别方法,该方法利用测试语音和样本短语语音在背景模型上的GMM token配比向量的相似度来识别短语,该方法算法复杂度低,进一步还可以仅根据短语发音的起始片段完成短语识别,而无需等待完整的短语发音过程结束,因此可适用于实时性要求较高的场合。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种简单有效的短语语音识别方法。
背景技术
短语语音识别技术是指利用信号处理技术和模式识别方法,通过采集短语语音来识别短语内容的技术。目前,短语语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。主要采用隐马尔可夫模型、动态时间规划等方法。而这些方法的复杂度较高,不适合实时性要求较高的场合。
发明内容
针对现有技术所存在的上述技术问题,本发明提供了一种简单有效的短语语音识别方法,通过利用测试语音和目标短语的训练语音的GMM Token配比相似度识别短语。
一种简单有效的短语语音识别方法,包括如下步骤:
(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模型SBM(Speech Background Model);
(2)针对任一个目标短语,计算其训练语音特征在语音背景模型SBM上的GMMToken配比向量GTR;依此遍历所有目标短语;
(3)接收测试语音,计算测试语音特征在语音背景模型SBM上的GMM Token配比向量GTR;
(4)计算测试语音特征与每一目标短语的训练语音特征关于GMM Token配比向量GTR之间的相似度,根据相似度生成对应的目标短语得分;
(5)对最高目标短语得分进行阈值过滤后,识别确定最高目标短语得分所对应的目标短语即为测试语音的真实内容。
所述的步骤(1)中采用EM算法(Expectation-maximization algorithm,简称期望最大算法)训练生成语音背景模型SBM,其为混合阶数为M的高斯混合模型,并以λ表示,M为大于1的自然数。
所述的步骤(2)和(3)中,计算特定语音特征在语音背景模型SBM上的GMM Token配比向量GTR的具体过程如下;特定语音为训练语音或测试语音,特定语音特征以X={x1,x2,...,xn}表示,xi为特定语音的第i帧特征向量;
首先,将特定语音特征转换成一个GMM Token序列T如下:
T={t1,t2,...,tn}ti∈{1,2,...,M}
其中:ti为GMM Token序列T中第i个Token元素,其取值为语音背景模型SBM中的一高斯分量标号,M为语音背景模型SBM的混合阶数,i为自然数且1≤i≤n,n为特定语音的总特征帧数;
然后,根据以下公式统计语音背景模型SBM中每一个高斯分量标号在GMM Token序列T中出现的频率,即GMM Token配比分量fm;
其中:Nm为高斯分量标号m在GMM Token序列T中出现的次数,fm为高斯分量标号m在GMM Token序列T中出现的频率,m为自然数且1≤m≤M;
最后,根据GMM Token配比分量fm,构建特定语音特征在语音背景模型SBM上的GMMToken配比向量GTR如下:
GTR=[f1,f2,...,fM]T
对于N个目标短语的训练语音特征,则依据上述流程计算出对应的GMM Token配比向量GTRt1,GTRt2,…,GTRtN,N为大于1的自然数;对于任一测试语音特征Xe,则依据上述流程计算出对应的GMM Token配比向量GTRe。
所述的Token元素ti表示为最有可能生成对应帧特征向量xi的高斯分量标号,其表达式如下:
其中:ωm为语音背景模型SBM中第m个高斯分量对应的权重,pm(xi)为特征向量xi在语音背景模型SBM中第m个高斯分量上的似然得分,即特征向量xi由语音背景模型SBM中第m个高斯分量生成的概率。
所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值,或采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离。
当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值时,则对应的目标短语得分即为该夹角余弦值;当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离,则对应的目标短语得分等于1减去该欧式距离。
所述的步骤(5)中使最高目标短语得分与预设的得分阈值进行比较,若最高目标短语得分小于等于该得分阈值,则表明测试语音的内容不属于任一目标短语;若最高目标短语得分大于该得分阈值,则确定该最高目标短语得分所对应的目标短语为测试语音的真实内容。
本发明方法通过计算测试语音和目标短语训练语音在SBM上的GMM Token配比相似度来识别短语,该方法算法复杂度低,进一步还可以仅根据短语发音的起始片段完成短语识别,而无需等待完整的短语发音过程结束,因此可适用于实时性要求较高的场合。
附图说明
图1为本发明方法的执行流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本实施方式中的实验数据采用的是两个数据库,一个是中文情感语音数据库(MASC@CCNT),该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的,该数据库由68个母语为汉语的68个说话人组成,其中男性说话人45人,女性说话人23人。本实施方式所提供的识别方法中,可以有多种选择,本实施例中为了便于描述以及提供具体的测试结果,选取了每个说话人中性情绪下的15句短语语音(包含5个不同的短语,每个短语3遍录音)。另一个数据库是一个语音指令数据集,该指令集包括“前”,“左”,“右”三个指令;数据集中包含7个人的录音数据,其中2名女性,5名男性。每个人的“前”,“左”,“右”分别录制了20遍。
如图1所示,本实施方式的步骤如下:
(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模型SBM。
对于“前左右”指令识别,SBM的训练语音包括每个说话人的“前”,“左”,“右”的前3遍语音,模型阶数为6阶,每个说话人剩余的“前左右”的后17段录音作为测试集。对于MASC@CCNT短语库中的每个说话人,其5个短语的三遍录音中选择前两遍用于训练SBM,第三遍用于测试。
该步骤中的SBM训练过程如下:
1-1、对SBM训练语音信号进行预处理,预处理的步骤包括采样量化,去零漂,预加重(加重信号的高频部分)和加窗(将一段语音信号分为若干段),
并对每段语音信号提取短时语音特征,可以是梅尔倒谱系数(MFCC)或线性预测编码倒谱系数(LPCC)或感觉加权的线性预测系数(PLP),本实施例的实验中,特征选用13维的MFCC特征以及一维能量特征,再加上一阶delta,总共28维。
1-2、将所有SBM训练语音的短时语音特征MFCC通过EM算法训练出语音背景模型SBM,是混合阶数M的高斯混合模型GMM,以λ=(ωm,μm,Σm)表示。
一般性的,对任一M阶高斯混合模型GMM,以λ=(ωm,μm,Σm)表示。由模型λ生成语音特征序列X={x1,…,xn}的似然得分计算如下:
其中:ωm表示第m个高斯分量的权重;pm(xi)表示第m个高斯分布函数;μm表示第m个高斯分量的均值;Σm表示第m个高斯分量的方差;xi表示第i帧短时语音特征;n为语音特征序列长度;M为混合阶数,表示高斯分量的个数,可以依据需要调整,本实施方式中的实验中取64。D为语音特征向量维数,本实施方式中的实验中取13。
(2)针对每个目标短语,利用其训练语音在步骤(1)中训练得到的SBM上的GMMToken配比向量。
2-1、该步骤中,GMM Token配比向量计算方法如下:
将每个目标短语的训练语音转换为相应的GMM Token序列,每一帧特征帧都对应一个Token,而每一个Token代表GMM中使得该特征帧获得最高后验概率的高斯分量的标号值。即对于一帧特征向量xi,它的GMM Tokenti如下式所示:
其中:λ表示高斯混合模型,其阶数为M;λm表示该高斯混合模型的第m个高斯分量;ωm为第m个高斯分量在模型中的权重;pm(xi)为特征向量在模型的第m个高斯分量上的似然得分,通过公式(2)计算得到。
通过以上方式,一段语音的特征帧序列X={x1,x2,...,xn}经过计算便可得到其GMM Token序列T={t1,t2,...,tn},其中ti∈{1,2,...,M},M为GMM模型阶数,本实施例中取值为64。我们通过统计GMM Token序列中每个token出现的频率,得到GMM Token配比因子(GTR)。对于一段语音的GMM Token序列T={t1,t2,...,tn}而言,token i的频率fi通过下式计算得到:
其中:Ni为GMM Token序列中,Token i出现的次数,n为语音的总帧数,即GMMToken序列的长度。通过上式我们便能够得到一段语音的GMM Token配比向量GTR如下:
GTR=[f1,f2,...,fM]T
其中:Token配比向量GTR中第i维即表示这段语音特征帧序列中,最高后验概率得分为第i个高斯分量的特征帧占总帧数的比例。
本实施例中,对于3和5个目标短语训练语音特征,则可依据上述流程计算出对应的GMM Token配比向量GTRt1,GTRt2,GTRt3和GTRt1,…,GTRt5。
(3)采集测试语音,并提取测试语音特征,计算该测试语音特征在步骤(1)中得到的SBM上的GMM Token配比向量GTRe。
在该步骤中,本实施方式首先计算测试语音和所有目标短语语音在SBM上的GMMToken配比的相似度值GTRS。
该步骤中,GMM Token配比向量的相似度可以利用多种方法计算,如向量的欧式距离和向量的夹角余弦,以向量的夹角余弦为例,GMM Token配比向量的相似度值GTRS计算如下式所示:
其中:GTRi和GTRj为两个GMM token配比向量。
(4)根据相似度生成目标短语得分Scoretk。当相似度采用测试语音的GTR与目标短语训练语音的GTR之间的夹角余弦值时,则目标短语得分Scoretk即采用该夹角余弦值。
(5)比较测试语音的每一目标短语得分,识别确定最高得分所对应的目标短语即为测试语音对应的短语。
对于一个包含N个目标短语的系统而言,比较测试语音测试语音的每一目标短语得分Scoretk,选择最大得分对应的目标短语序号,作为最终的识别结果,如下式所示:
式中,id为得分最大的值所对应的目标短语的序号。
例如,某一段待识别语音的第20个目标短语Scoretk最大,则识别结果为待识别语音是由第20个目标短语。
以下我们对评测集中所有语句进行测试,“前左右”指令集测试语音共计357句(7个评测人×3个短语×17遍(3个短语,每个短语重复17遍),MASC@CCNT短语库测试语音共计340句(68个评测人×5个短语×1遍(3个短语,每个短语重复1遍)。实验结果如表1所示:
表1
从表1中可以看出,本发明取得了较好的识别结果。我们进一步提出根据指令起始语音片段进行短语识别的方法。在实验中,我们针对每一个指令,只选取了每个指令开始的前100ms的语音片段,然后利用基于GMM token配比相似度的短语识别方法对指令进行识别,识别准确率为94.8%,虽然相对采取完整的指令帧的准确率要略低一些,但指令的平均识别时间由原来的235.6毫秒降至112.8毫秒,这大大的降低了指令识别所需的时间,因此这种方法可适用于实时性要求较高的场合。
Claims (5)
1.一种简单有效的短语语音识别方法,包括如下步骤:
(1)搜集一定数量的待识别短语发音的语音特征训练生成一个语音背景模型SBM;
(2)计算每一目标短语的训练语音特征在语音背景模型SBM上的GMMToken配比向量GTR;
(3)接收测试语音,计算测试语音特征在语音背景模型SBM上的GMMToken配比向量GTR;
(4)计算测试语音特征与每一目标短语的训练语音特征关于GMM Token配比向量GTR之间的相似度,根据相似度生成对应的目标短语得分;
(5)对最高目标短语得分进行阈值过滤后,识别确定最高目标短语得分所对应的目标短语即为测试语音的真实内容;
所述的步骤(2)和(3)中,计算特定语音特征在语音背景模型SBM上的GMM Token配比向量GTR的具体过程如下;特定语音为训练语音或测试语音,特定语音特征以X={x1,x2,...,xn}表示,xi为特定语音的第i帧特征向量;
首先,将特定语音特征转换成一个GMM Token序列T如下:
T={t1,t2,...,tn} ti∈{1,2,...,M}
其中:ti为GMM Token序列T中第i个Token元素,其取值为语音背景模型SBM中的一高斯分量标号,M为语音背景模型SBM的混合阶数,i为自然数且1≤i≤n,n为特定语音的总特征帧数;所述的Token元素ti表示为最有可能生成对应帧特征向量xi的高斯分量标号,其表达式如下:
其中:ωm为语音背景模型SBM中第m个高斯分量对应的权重,pm(xi)为特征向量xi在语音背景模型SBM中第m个高斯分量上的似然得分,即特征向量xi由语音背景模型SBM中第m个高斯分量生成的概率;
然后,根据以下公式统计语音背景模型SBM中每一个高斯分量标号在GMM Token序列T中出现的频率,即GMM Token配比分量fm;
其中:Nm为高斯分量标号m在GMM Token序列T中出现的次数,fm为高斯分量标号m在GMMToken序列T中出现的频率,m为自然数且1≤m≤M;
最后,根据GMM Token配比分量fm,构建特定语音特征在语音背景模型SBM上的GMMToken配比向量GTR如下:
GTR=[f1,f2,...,fM]T
对于N个目标短语的训练语音特征,则依据上述流程计算出对应的GMM Token配比向量GTRt1,GTRt2,…,GTRtN,N为大于1的自然数;对于任一测试语音特征Xe,则依据上述流程计算出对应的GMM Token配比向量GTRe。
2.根据权利要求1所述的短语语音识别方法,其特征在于:所述的步骤(1)中采用EM算法训练生成语音背景模型SBM,其为混合阶数为M的高斯混合模型,并以λ表示,M为大于1的自然数。
3.根据权利要求1所述的短语语音识别方法,其特征在于:所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值,或采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离。
4.根据权利要求3所述的短语语音识别方法,其特征在于:当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的夹角余弦值时,则对应的目标短语得分即为该夹角余弦值;当所述的相似度采用测试语音特征的GMM Token配比向量GTR与目标短语训练语音特征的GMM Token配比向量GTR之间的欧式距离,则对应的目标短语得分等于1减去该欧式距离。
5.根据权利要求1所述的短语语音识别方法,其特征在于:所述的步骤(5)中使最高目标短语得分与预设的得分阈值进行比较,若最高目标短语得分小于等于该得分阈值,则表明测试语音的内容不属于任一目标短语;若最高目标短语得分大于该得分阈值,则确定该最高目标短语得分所对应的目标短语为测试语音的真实内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410462400.4A CN104240699B (zh) | 2014-09-12 | 2014-09-12 | 一种简单有效的短语语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410462400.4A CN104240699B (zh) | 2014-09-12 | 2014-09-12 | 一种简单有效的短语语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104240699A CN104240699A (zh) | 2014-12-24 |
CN104240699B true CN104240699B (zh) | 2017-05-10 |
Family
ID=52228656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410462400.4A Active CN104240699B (zh) | 2014-09-12 | 2014-09-12 | 一种简单有效的短语语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104240699B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305619B (zh) * | 2017-03-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
CN113192493B (zh) * | 2020-04-29 | 2022-06-14 | 浙江大学 | 一种结合GMM Token配比与聚类的核心训练语音选择方法 |
CN111754979A (zh) * | 2020-07-21 | 2020-10-09 | 南京智金科技创新服务中心 | 智能语音识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101114449A (zh) * | 2006-07-26 | 2008-01-30 | 大连三曦智能科技有限公司 | 非特定人孤立词的模型训练方法、识别系统及识别方法 |
US7389233B1 (en) * | 2003-09-02 | 2008-06-17 | Verizon Corporate Services Group Inc. | Self-organizing speech recognition for information extraction |
CN101419799A (zh) * | 2008-11-25 | 2009-04-29 | 浙江大学 | 基于混合t模型的说话人识别方法 |
CN102270450A (zh) * | 2010-06-07 | 2011-12-07 | 株式会社曙飞电子 | 多模型自适应和语音识别装置及其方法 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
-
2014
- 2014-09-12 CN CN201410462400.4A patent/CN104240699B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7389233B1 (en) * | 2003-09-02 | 2008-06-17 | Verizon Corporate Services Group Inc. | Self-organizing speech recognition for information extraction |
CN101114449A (zh) * | 2006-07-26 | 2008-01-30 | 大连三曦智能科技有限公司 | 非特定人孤立词的模型训练方法、识别系统及识别方法 |
CN101419799A (zh) * | 2008-11-25 | 2009-04-29 | 浙江大学 | 基于混合t模型的说话人识别方法 |
CN102270450A (zh) * | 2010-06-07 | 2011-12-07 | 株式会社曙飞电子 | 多模型自适应和语音识别装置及其方法 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
Non-Patent Citations (7)
Title |
---|
"APreliminary Study On GMM Weight Transformation for Emotional Speaker Recognition";li chen,yang yingchun;《Affective Computing and Intelligent Interaction》;20131212;全文 * |
"Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network";Bing Xiang et al;《IEEE transactions ON SPRRCH AND ALJDTO PROCRSSTNG》;20030905;第11卷(第5期);全文 * |
"Speaker Cluster based GMM Tokenization for Speaker Recognition";Bin Ma et al;《INTERSPEECH2006》;20061231;全文 * |
"Towards better GMM一based Acoustic Modeling for Spoken Language Identification";Fahime Ghasemian et al;《2011 19th Iranian Conference on Electrical Engineering》;20110519;第II-IV小节 * |
"以高斯混合模型表征器与语言模型为基础之语言辨识";张智杰,王小川;《National Tsing Hua University Institutional Repository 博硕士论文》;20051231;第5页第2.5小节 * |
"基于SVM-HMM混合模型的说话人确认";忻栋,杨莹春,吴朝晖;《计算机辅助设计与图形学学报》;20021231;第14卷(第11期);全文 * |
"基于UBM降阶算法的高效说话人识别系统";单振宇,杨莹春;《浙江大学学报(工学版)》;20090131;第43卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104240699A (zh) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104200804B (zh) | 一种面向人机交互的多类信息耦合的情感识别方法 | |
CN107221318B (zh) | 英语口语发音评分方法和系统 | |
CN106228977B (zh) | 基于深度学习的多模态融合的歌曲情感识别方法 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN104240706B (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN102800314B (zh) | 具有反馈指导的英语句子识别与评价系统及其方法 | |
CN101645271B (zh) | 发音质量评估系统中的置信度快速求取方法 | |
CN109671442A (zh) | 基于STARGAN与x向量的多对多说话人转换方法 | |
CN107301859A (zh) | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 | |
CN102122507A (zh) | 一种运用人工神经网络进行前端处理的语音检错方法 | |
CN101887725A (zh) | 一种基于音素混淆网络的音素后验概率计算方法 | |
Tu et al. | Investigating the role of L1 in automatic pronunciation evaluation of L2 speech | |
CN105280181B (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
CN110211594A (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN102982799A (zh) | 一种融合引导概率的语音识别优化解码方法 | |
Razavi et al. | On modeling context-dependent clustered states: Comparing HMM/GMM, hybrid HMM/ANN and KL-HMM approaches | |
CN108877769A (zh) | 识别方言种类的方法和装置 | |
CN111883176B (zh) | 端到端的智能语音朗读评测方法 | |
CN104240699B (zh) | 一种简单有效的短语语音识别方法 | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
Gómez et al. | Improvements on automatic speech segmentation at the phonetic level | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Lee et al. | Speech emotion recognition using spectral entropy | |
Hacioglu et al. | Parsing speech into articulatory events | |
Li et al. | Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |