CN102436809A - 英语口语机考系统中网络语音识别方法 - Google Patents

英语口语机考系统中网络语音识别方法 Download PDF

Info

Publication number
CN102436809A
CN102436809A CN2011103215389A CN201110321538A CN102436809A CN 102436809 A CN102436809 A CN 102436809A CN 2011103215389 A CN2011103215389 A CN 2011103215389A CN 201110321538 A CN201110321538 A CN 201110321538A CN 102436809 A CN102436809 A CN 102436809A
Authority
CN
China
Prior art keywords
prime
frame
voice signal
time
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103215389A
Other languages
English (en)
Other versions
CN102436809B (zh
Inventor
刘健刚
李霄翔
储琢佳
张潇丹
董静
赵力
张萍
李鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN2011103215389A priority Critical patent/CN102436809B/zh
Publication of CN102436809A publication Critical patent/CN102436809A/zh
Application granted granted Critical
Publication of CN102436809B publication Critical patent/CN102436809B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及了一种在英语口语机考系统中实现网络语音识别的方案。本方案对传统的谱相减(SS)降噪声技术和倒谱均值规整(CMN)降噪声技术进行改进,同时结合等同于连续状态隐马尔可夫模型(HMM)的概率尺度DP识别方法,提出了一种在英语网考系统中非特定人的网络语音识别方案,并利用其实现了实际环境下网络语音识别装置。本方案采用上述方法,将具有输入幅值谱自适应的SS方法和基于渐进自适应方式MAP算法的CMN方法相结合,大大降低了环境噪声对识别系统的影响。同时,本方案在传统的DP方法基础上,利用概率尺度的DP算法进行识别,使得DSP语音识别装置能够适用于户外不同场合的、非特定人的语音识别,从而使得识别系统范围和识别精度得到了提高。

Description

英语口语机考系统中网络语音识别方法
技术领域
本发明涉及一种网络语音识别技术,特别涉及一种在英语口语机考系统中非特定人的网络语音识别方案。
背景技术
我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目,并于2008年12月20日在全国53所高校实施四级网考试点考试。随着我国四、六级网考试点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端,无论对考生还是大学英语老师都是一个巨大的挑战,是英语教学理念中的一场革命。然而,英语口语机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的,对网络语音提供英语口语机考系统服务一般要求是面对非特定人的,而且由于终端机、传输网路、背景噪声的影响,在很大程度上影响了英语口语机考系统的性能。
利用传统的谱相减(SS)降噪声技术法进行降噪处理仍然是当今主要的降低环境噪声的方法。设对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是
Figure BDA0000100720840000011
,除噪后的语音功率是|xinew(ω)|2 o,则传统的谱相减(SS)降噪声技术法如(1)式所示。
| x inew ( ω ) | 2 o = | x i ( ω ) | 2 o - α | n ‾ i | 2 o if | x i ( ω ) | 2 o > α | n ‾ i | 2 o 0 if else - - - ( 1 )
由于传统的谱相减(SS)降噪声技术法考虑噪声为平稳噪声,所以对于整个语音段,噪声功率以及权系数α一般取相同的值。而实际环境下的噪声,例如展览会中的展示隔间内的噪声是非平稳噪声,所以用相同的噪声功率值是不确切的。同样,传统的谱相减(SS)降噪声技术法用相同的权值α,有可能发生减除过度或过少的问题,使得有的区段要么噪声消除不够,要么减除过多产生|xinew(ω)|2 o失真。
对于由输入和传输电路系统引起的乘法性噪声,利用倒谱均值规整(CMN)降噪声技术方法可以得到比较好的抑制效果。设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),除噪后语音的倒谱是则传统的倒谱均值规整(CMN)降噪声技术方法如(2)式所示。
C ^ o ( i ) = C o ( i ) - C ‾ - - - ( 2 )
式中
Figure BDA0000100720840000022
为整个输入语句的倒谱平均值。这种长时倒谱均值规整(CMN)降噪声技术方法存在2个问题,一是由于输入语句中音素的出现频度会改变
Figure BDA0000100720840000023
的大小,直接影响规整的效果。二是必须到终点为止计算完成以后,才能算出
Figure BDA0000100720840000024
影响了实时性。
特征提取是模式识别的关键问题,因为特征参数的好坏对于语音识别精度有很大影响。常用的识别参数是LPC倒谱系数(LPCC)。
用一片数字信号处理器即DSP实现的语音识别装置,为了节约它的存储和运算成本,一般采用矢量量化(VQ)方法或者概率尺度DP(动态编程)匹配方法进行识别,因为对于小词汇量单词或词组识别系统来讲,VQ和DP方法足以满足识别性能的要求。但是,传统的VQ和DP方法只能适用于特定人的语音识别系统。
发明内容
本发明的目的就在于解决现有技术的缺陷,提出了一种英语口语机考系统中网络语音识别方法,本发明利用改进的谱相减(SS)降噪声技术、倒谱均值规整(CMN)降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案。本发明的技术方案是:
一种英语口语机考系统中网络语音识别方法,包括以下步骤:
1.输入英语口语机考系统中的语音信号a′(t),t为时间变量;
2.预处理与特征提取
Figure BDA0000100720840000025
预处理阶段
1)语音信号进行采样:对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样,采样后的信号为s(t),
s ( t ) = a ′ ( t ) · δ T ( t ) = a ′ ( t ) · Σ n ′ = - ∞ n ′ = ∞ δ ( t - n ′ / f s ) = Σ n = - ∞ n = ∞ a ′ ( n ′ / f s ) · δ ( t - n ′ / f s ) , 再进行1-0.98Z-1的预加重处理,1-0.98Z-1的时域形式为1-0.98δ(t-1),预加重后的语音信号b(t)=s(t)*[1-0.98δ(t-1)]=s(t)-0.98s(t-1),其中,δT(t)为冲激函数,n′为整数;
2)用窗长25ms,窗移10ms的汉明窗对语音信号进行加窗分帧处理:分帧采用交叠分段的方法,前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的,即用窗函数ω′(t)来乘预加重后的语音信号b(t),从而形成加窗语音信号x(t),x(t)=b(t)·ω′(t),本发明采用汉明窗ω′(t),其窗函数为:
ω ′ ( t ) = 0.54 - 0.46 cos [ 2 πt / ( N - 1 ) ] , 0 ≤ t ≤ N - 1 0 , t = else
N为窗长,窗长即帧长,窗移即N-M,帧移长度M为15ms,
加窗分帧处理后得到的第i帧语音信号为xi(t),则xi(t)满足下式:
xi(t)=ω′(t+l)b(t),0≤t≤N-1
其中,l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M),M为帧移长度,N为帧长即窗长,
3)语音信号的端点检测:利用语音信号的短时能量进行端点检测
设第i帧语音信号xi(t)的短时能量用Ei表示,则计算公式如下:
E i = Σ t = 0 N - 1 x i 2 ( t )
设置两个门限,一个较低的门限Tlow,Tlow=min(Ei,i=1,2,...,总帧数)·0.1,数值比较小,对信号的变化比较敏感;一个较高的门限Thigh,Thigh=max(Ei,i=1,2...,总帧数)·0.1,当Thigh第一次被超过时,断定为区域语音信号的开始,当短时能量降到Tlow以下就代表区域语音信号的结束,
4)利用语音区间检测时使用的短时能量对输入波形数据进行规整,即进行归一化处理,使得输入语音基本上按等幅进行频率分析,方法为:第i帧语音信号xi(t)的短时能量Ei,归一化后的第i帧语音信号xi(t)的短时能量为
Figure BDA0000100720840000033
5)降噪处理:
I:采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声:第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω),ω为频率,j为虚数单位,则第i帧语音信号xi(t)的幅值谱为|xi(ω)|,其功率为:|xi(ω)|2,除噪后的第i帧语音信号为xinew(t),其幅值谱为|xinew(ω)|,
Figure BDA0000100720840000042
则除噪后的第i帧语音信号的功率为:|xinew(ω)|2,推定的噪声功率为|ni(ω)|2,在整个区域语音以外的当前输入第i帧信号为yi(t),其帧功率为|yi(ω)|2
Figure BDA0000100720840000043
对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是|ni(ω)|2 o,除噪后的语音功率是|xinew(ω)|2 o,为了补偿第4)步中由于规整而丢失的能量信息,推定噪声功率估计修正为:|ni(ω)|2 o=(1-β)|ni-1(ω)|2 o+βEi′|yi(ω)|2 o,0<β<1,本发明中取β=0.55,
SS权值系数修正为
Figure BDA0000100720840000044
α ^ ( i ) = α ( i ) E i
&alpha; ( i ) = &phi; 1 , | x i ( &omega; ) | 2 o < &theta; 1 &phi; 2 - &phi; 1 &theta; 2 - &theta; 1 | x i ( &omega; ) | 2 o + &phi; 1 , &theta; 1 < | x i ( &omega; ) | 2 o < &theta; 2 &phi; 2 , | x i ( &omega; ) | 2 o > &theta; 2 , 其中0<θ1,θ2<1,φ1和φ2是常数其中,φ1=0.1,φ2=0.3,θ1=0.2,θ2=0.8,Ei为第i帧语音信号的短时能量,Ei′为第i帧语音信号归一化后的短时能量,|yi(ω)|2 o为在整个区域用语音以外的当前输入信号帧功率,
除噪后语音的功率为:
| x inew ( &omega; ) | 2 o = | x i ( &omega; ) | 2 o - &alpha; ^ ( i ) | n i ( &omega; ) | 2 o if | x i ( &omega; ) | 2 o > &alpha; ^ ( i ) | n i ( &omega; ) | 2 o 0 if else
II:利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声:
设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换,即
Figure BDA0000100720840000048
|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素,除噪后语音的倒谱是
Figure BDA0000100720840000049
C ^ o ( i ) = C o ( i ) - &gamma; C o 0 + &Sigma; i = 1 k C o ( i ) &gamma; + k
式中γ是自适应训练系数,γ>1,Co0是表示先验分布的初始估计值,0<Co0<1,k为总帧数,γ=2,Co0=0.95,
6)经过上述预处理过程之后的语音信号为xnew′(t),t为时间变量,其第i帧语音信号为xinew′(t),
特征参数提取阶段
1)对预处理后的每一帧语音信号分别求取14维LPC系数:
设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(e)|2,Xinew′(e)即信号谱,表示第i帧语音信号xinew′(t)的傅里叶变换,
Figure BDA0000100720840000053
由|Xinew′(e)|2=|H(e)|2求出14维LPC系数ap,p=1,2,...,14,
则第i帧语音信号的声道模型系统函数H(z)为:
H ( z ) = 1 1 + &Sigma; p = 1 14 a p z - p - - - ( 3 )
其冲激响应为h(n″),
Figure BDA0000100720840000055
表示h(n″)的复倒谱,则有:
H ^ ( z ) = ln H ( z ) = &Sigma; n &prime; &prime; = 1 &infin; h ^ ( n &prime; &prime; ) z - n &prime; &prime; - - - ( 4 ) ,
将式(3)代入(4)式并将其两边对z-1求导数,有:
( 1 + &Sigma; p = 1 14 a p z - p ) &Sigma; n &prime; &prime; = 1 &infin; n &prime; &prime; h ^ ( n &prime; &prime; ) z - n &prime; &prime; + 1 = - &Sigma; p = 1 14 pa p z - p + 1
n″为正整数,令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由LPC系数ap求出LPC复倒谱
Figure BDA0000100720840000058
h ^ ( n &prime; &prime; ) = 0 , ( n &prime; &prime; = 0 ) h ^ ( n &prime; &prime; ) = - a n &prime; &prime; - &Sigma; p = 1 n &prime; &prime; - 1 ( 1 - p / n &prime; &prime; ) a p h ^ ( n &prime; &prime; - p ) , ( 1 &le; n &prime; &prime; &le; 14 ) h ^ ( n &prime; &prime; ) = - &Sigma; p = 1 14 ( 1 - p / n &prime; &prime; ) a p h ^ ( n &prime; &prime; - p ) , ( n &prime; &prime; > 14 )
从而LPC倒谱系数LPCC:
Figure BDA0000100720840000061
c(n″)为LPC倒谱系数LPCC,
2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数:
I:根据人的听觉特性,把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换,求出如下所示的LPC美尔倒谱系数LPCMCC:
MC g ( d ) = c ( n &prime; &prime; ) + &epsiv; &CenterDot; MC 0 ( d + 1 ) , g = 0 ( 1 - &epsiv; 2 ) &CenterDot; MC 0 ( d + 1 ) + &epsiv; &CenterDot; MC 1 ( d + 1 ) , g = 1 MC g - 1 ( d + 1 ) + &epsiv; &CenterDot; ( MC g ( d + 1 ) - MC g - 1 ( d ) ) , g > 1
这里,MCg(d)为LPC美尔倒谱系数LPCMCC,d为迭代次数,g为美尔倒谱阶数,d=g=9,c(n″)为LPC倒谱系数,当d>9时,MCg(d)=0,并且当抽样频率为8kHz时,ε取0.31,迭代是从高到低,即d从大到0取值,最后求得的美尔倒谱系数放在MC0(0),MC1(0),...,MC9(0)里面,组成一个10维的特征矢量的时间序列,
II:求取一阶的倒谱线性回归系数ΔLPCMCC:
R r ( t , T &prime; &prime; , &Delta;T , N &prime; ) = &Sigma; X &prime; = 1 N &prime; P r ( X &prime; , N &prime; ) C [ t + [ X &prime; - 1 N &prime; - 1 - 1 2 ] ( T &prime; &prime; - &Delta;T ) ] &Sigma; X &prime; = 1 N &prime; P r 2 ( X &prime; , N &prime; )
r为阶数取1,Pr(X′,N′)表示求取r阶线性回归系数时的加权函数,当r=1时,Pr(X′,N′)=X′,C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数,ΔT为15ms,由LPCMCC,求出10维的一阶的倒谱线性回归系数ΔLPCMCC,
3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数,组成一个20维的特征参数矢量Vector,
3.语音识别
I.语音识别方法采用基于概率尺度DP识别方法
1)用基于概率尺度的动态规划DP算法进行时间规整
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库;在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整:
待识别语音特征参数共有k帧矢量,设相应的参考模板共有J帧矢量,且k≠J,动态时间规整就是寻找一个时间规整函数
Figure BDA0000100720840000071
它将测试矢量的时间轴u非线性的映射到模板的时间轴v上,并使该函数满足:
Figure BDA0000100720840000072
式中,
Figure BDA0000100720840000073
是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度,D是处于最优时间规整情况下的两矢量的距离,得到的两矢量匹配是累计距离最小的规整函数,接着,用基于概率尺度动态规划DP算法来寻找最优的规整函数
基于概率尺度的DP方法的递推公式为:
G ( u , v ) = max G ( u - 2 , v - 1 ) +logP ( X u - 1 | v ) + log P ( X u | v ) + log P PS 1 ( v ) G ( u - 1 , v - 1 ) + log P ( X u | v ) + log P PS 2 ( v ) G ( u - 1 , v - 2 ) + log P ( X u | v ) +log P PS 3 ( v )
G(u,v)是当前匹配帧(u,v)的概率,PS1,PS2,PS3为带到改点的路径,DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径,组成的折线段对应的函数即为最优规整函数
Figure BDA0000100720840000076
a)条件概率P(Xu|v)的计算
假定在状态v观测到的Xu是符合(μv,∑v)的高斯分布,μv为均值,∑v为方差,Xu为第u帧语音特征参数矢量,则条件概率
P ( X u | v ) = ( 2 &pi; ) - 10 | &Sigma; v | - 1 / 2 &times; exp { - 1 / 2 ( X u - &mu; v ) t &Sigma; v - 1 ( X u - &mu; v ) } , v和μv为与Xu同维数的向量,维数是20,(Xuv)t表示向量(Xuv)的转置,
为了求出各个时刻的均值和方差,首先选择一个学习样本序列即训练数据序列作为核心样本,然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数
Figure BDA0000100720840000081
这时各个时刻的均值和方差通过最佳路径函数
Figure BDA0000100720840000082
找出和核心样本对应时刻的输入帧矢量进行计算和更新,如此重复直到同类的学习数据用完为止,渐进地求出各个时刻的均值和方差。
b)状态转移概率的计算
上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率,计算状态转移概率的方法:各个学习数据和核心样本进行DP匹配时,记下各时刻选择的路径情况,学习完毕后,假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v),则此时的三个状态转移概率可由下式计算得到:
PPS1(v)=PS1(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS2(v)=PS2(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS3(v)=PS3(v)/{PS1(v)+PS2(v)+PS3(v)}
求出最优规整函数
Figure BDA0000100720840000083
后,将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴,非线性的映射到作为坐标纵轴的模板矢量的时间轴上:
Figure BDA0000100720840000084
最后,利用模式匹配的方法进行识别:
最优路径函数
Figure BDA0000100720840000085
的起点与终点之间的距离即为待识别语音与模板语音之间的距离,与待识别语音距离最小的模板对应的单词字音即判为识别结果。
本发明的优点和效果在于:
1.对传统的谱相减(SS)方法进行改善,采用具有输入幅值谱自适应的SS方法,同时将其与基于渐进自适应方式最大后验概率(MAP)算法的倒谱均值规整(CMN)方法相结合,大大降低了噪声对系统的影响。
2.在传统的DP方法基础上,利用概率尺度的DP算法进行识别,使得DSP语音识别装置既能适用于特定人的语音识别系统,更能适用于户外不同场合的、非特定人的语音识别,从而使得识别系统范围大大提高。
3.本发明利用改进的SS、CMN降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案,其语音识别精度较高。
附图说明
图1——非对称型DP路径。
图2——实施步骤流程图。
具体实施方式
下面结合附图,对本发明所述的技术方案作进一步的阐述。
图1是非对称型DP路径。
图2是实施步骤流程图。
1.输入英语口语机考系统中的语音信号a′(t),t为时间变量;
2.预处理与特征提取
预处理阶段
1)语音信号进行采样:对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样,采样后的信号为s(t), s ( t ) = a &prime; ( t ) &CenterDot; &delta; T ( t ) = a &prime; ( t ) &CenterDot; &Sigma; n &prime; = - &infin; n &prime; = &infin; &delta; ( t - n &prime; / f s ) = &Sigma; n = - &infin; n = &infin; a &prime; ( n &prime; / f s ) &CenterDot; &delta; ( t - n &prime; / f s ) , 再进行1-0.98Z-1的预加重处理,1-0.98Z-1的时域形式为1-0.98δ(t-1),预加重后的语音信号b(t)=s(t)*[1-0.98δ(t-1)]=s(t)-0.98s(t-1),其中,δT(t)为冲激函数,n′为整数;
2)用窗长25ms,窗移10ms的汉明窗对语音信号进行加窗分帧处理:分帧采用交叠分段的方法,前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的,即用窗函数ω′(t)来乘预加重后的语音信号b(t),从而形成加窗语音信号x(t),x(t)=b(t)·ω′(t),本发明采用汉明窗ω′(t),其窗函数为:
&omega; &prime; ( t ) = 0.54 - 0.46 cos [ 2 &pi;t / ( N - 1 ) ] , 0 &le; t &le; N - 1 0 , t = else
N为窗长,窗长即帧长,窗移即N-M,帧移长度M为15ms,
加窗分帧处理后得到的第i帧语音信号为xi(t),则xi(t)满足下式:
xi(t)=ω′(t+l)b(t),0≤t≤N-1
其中,l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M),M为帧移长度,N为帧长即窗长,
3)语音信号的端点检测:利用语音信号的短时能量进行端点检测
设第i帧语音信号xi(t)的短时能量用Ei表示,则计算公式如下:
E i = &Sigma; t = 0 N - 1 x i 2 ( t )
设置两个门限,一个较低的门限Tlow,Tlow=min(Ei,i=1,2,...,总帧数)·0.1,数值比较小,对信号的变化比较敏感;一个较高的门限Thigh,Thigh=max(Ei,i=1,2...,总帧数)·0.1,当Thigh第一次被超过时,断定为区域语音信号的开始,当短时能量降到Tlow以下就代表区域语音信号的结束,
4)利用语音区间检测时使用的短时能量对输入波形数据进行规整,即进行归一化处理,使得输入语音基本上按等幅进行频率分析,方法为:第i帧语音信号xi(t)的短时能量Ei,归一化后的第i帧语音信号xi(t)的短时能量为
Figure BDA0000100720840000102
5)降噪处理:
I:采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声:
第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω),
Figure BDA0000100720840000103
ω为频率,j为虚数单位,则第i帧语音信号xi(t)的幅值谱为|xi(ω)|,其功率为:|xi(ω)|2,除噪后的第i帧语音信号为xinew(t),其幅值谱为|xinew(ω)|,
Figure BDA0000100720840000104
则除噪后的第i帧语音信号的功率为:|xinew(ω)|2,推定的噪声功率为|ni(ω)|2,在整个区域语音以外的当前输入第i帧信号为yi(t),其帧功率为|yi(ω)|2对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是|ni(ω)|2 o,除噪后的语音功率是|xinew(ω)|2 o,为了补偿第4)步中由于规整而丢失的能量信息,推定噪声功率估计修正为:|ni(ω)|2 o=(1-β)|ni-1(ω)|2 o+βEi′|yi(ω)|2 o,0<β<1,本发明中取β=0.55,
SS权值系数修正为
Figure BDA0000100720840000112
&alpha; ^ ( i ) = &alpha; ( i ) E i
&alpha; ( i ) = &phi; 1 , | x i ( &omega; ) | 2 o < &theta; 1 &phi; 2 - &phi; 1 &theta; 2 - &theta; 1 | x i ( &omega; ) | 2 o + &phi; 1 , &theta; 1 < | x i ( &omega; ) | 2 o < &theta; 2 &phi; 2 , | x i ( &omega; ) | 2 o > &theta; 2 , 其中0<θ1,θ2<1,φ1和φ2是常数其中,φ1=0.1,φ2=0.3,θ1=0.2,θ2=0.8,Ei为第i帧语音信号的短时能量,Ei′为第i帧语音信号归一化后的短时能量,|yi(ω)|2 o为在整个区域用语音以外的当前输入信号帧功率,
除噪后语音的功率为:
| x inew ( &omega; ) | 2 o = | x i ( &omega; ) | 2 o - &alpha; ^ ( i ) | n i ( &omega; ) | 2 o if | x i ( &omega; ) | 2 o > &alpha; ^ ( i ) | n i ( &omega; ) | 2 o 0 if else
II:利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声:
设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换,即|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素,除噪后语音的倒谱是
Figure BDA0000100720840000117
C ^ o ( i ) = C o ( i ) - &gamma; C o 0 + &Sigma; i = 1 k C o ( i ) &gamma; + k
式中γ是自适应训练系数,γ>1,Co0是表示先验分布的初始估计值,0<Co0<1,k为总帧数,γ=2,Co0=0.95,
6)经过上述预处理过程之后的语音信号为xnew′(t),t为时间变量,其第i帧语音信号为xinew′(t),
Figure BDA0000100720840000121
特征参数提取阶段
1)对预处理后的每一帧语音信号分别求取14维LPC系数:
设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(e)|2,Xinew′(e)即信号谱,表示第i帧语音信号xinew′(t)的傅里叶变换,
Figure BDA0000100720840000122
由|Xinew′(e)|2=|H(e)|2求出14维LPC系数ap,p=1,2,...,14,
则第i帧语音信号的声道模型系统函数H(z)为:
H ( z ) = 1 1 + &Sigma; p = 1 14 a p z - p - - - ( 3 )
其冲激响应为h(n″),
Figure BDA0000100720840000124
表示h(n″)的复倒谱,则有:
H ^ ( z ) = ln H ( z ) = &Sigma; n &prime; &prime; = 1 &infin; h ^ ( n &prime; &prime; ) z - n &prime; &prime; - - - ( 4 ) ,
将式(3)代入(4)式并将其两边对z-1求导数,有:
( 1 + &Sigma; p = 1 14 a p z - p ) &Sigma; n &prime; &prime; = 1 &infin; n &prime; &prime; h ^ ( n &prime; &prime; ) z - n &prime; &prime; + 1 = - &Sigma; p = 1 14 pa p z - p + 1
n″为正整数,令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由LPC系数ap求出LPC复倒谱
Figure BDA0000100720840000127
h ^ ( n &prime; &prime; ) = 0 , ( n &prime; &prime; = 0 ) h ^ ( n &prime; &prime; ) = - a n &prime; &prime; - &Sigma; p = 1 n &prime; &prime; - 1 ( 1 - p / n &prime; &prime; ) a p h ^ ( n &prime; &prime; - p ) , ( 1 &le; n &prime; &prime; &le; 14 ) h ^ ( n &prime; &prime; ) = - &Sigma; p = 1 14 ( 1 - p / n &prime; &prime; ) a p h ^ ( n &prime; &prime; - p ) , ( n &prime; &prime; > 14 )
从而LPC倒谱系数LPCC:
Figure BDA0000100720840000129
c(n″)为LPC倒谱系数LPCC,
2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数:
I:根据人的听觉特性,把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换,求出如下所示的LPC美尔倒谱系数LPCMCC:
MC g ( d ) = c ( n &prime; &prime; ) + &epsiv; &CenterDot; MC 0 ( d + 1 ) , g = 0 ( 1 - &epsiv; 2 ) &CenterDot; MC 0 ( d + 1 ) + &epsiv; &CenterDot; MC 1 ( d + 1 ) , g = 1 MC g - 1 ( d + 1 ) + &epsiv; &CenterDot; ( MC g ( d + 1 ) - MC g - 1 ( d ) ) , g > 1
这里,MCg(d)为LPC美尔倒谱系数LPCMCC,d为迭代次数,g为美尔倒谱阶数,d=g=9,c(n″)为LPC倒谱系数,当d>9时,MCg(d)=0,并且当抽样频率为8kHz时,ε取0.31,迭代是从高到低,即d从大到0取值,最后求得的美尔倒谱系数放在MC0(0),MC1(0),...,MC9(0)里面,组成一个10维的特征矢量的时间序列,
II:求取一阶的倒谱线性回归系数ΔLPCMCC:
R r ( t , T &prime; &prime; , &Delta;T , N &prime; ) = &Sigma; X &prime; = 1 N &prime; P r ( X &prime; , N &prime; ) C [ t + [ X &prime; - 1 N &prime; - 1 - 1 2 ] ( T &prime; &prime; - &Delta;T ) ] &Sigma; X &prime; = 1 N &prime; P r 2 ( X &prime; , N &prime; )
r为阶数取1,Pr(X′,N′)表示求取r阶线性回归系数时的加权函数,当r=1时,Pr(X′,N′)=X′,C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数,ΔT为15ms,由LPCMCC,求出10维的一阶的倒谱线性回归系数ΔLPCMCC,
3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数,组成一个20维的特征参数矢量Vector,
3.语音识别
I.语音识别方法采用基于概率尺度DP识别方法
1)用基于概率尺度的动态规划DP算法进行时间规整
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库;在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整:
待识别语音特征参数共有k帧矢量,设相应的参考模板共有J帧矢量,且k≠J,动态时间规整就是寻找一个时间规整函数
Figure BDA0000100720840000141
它将测试矢量的时间轴u非线性的映射到模板的时间轴v上,并使该函数满足:
Figure BDA0000100720840000142
式中,
Figure BDA0000100720840000143
是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度,D是处于最优时间规整情况下的两矢量的距离,得到的两矢量匹配是累计距离最小的规整函数,接着,用基于概率尺度动态规划DP算法来寻找最优的规整函数
Figure BDA0000100720840000144
基于概率尺度的DP方法的递推公式为:
G ( u , v ) = max G ( u - 2 , v - 1 ) +logP ( X u - 1 | v ) + log P ( X u | v ) + log P PS 1 ( v ) G ( u - 1 , v - 1 ) + log P ( X u | v ) + log P PS 2 ( v ) G ( u - 1 , v - 2 ) + log P ( X u | v ) +log P PS 3 ( v )
G(u,v)是当前匹配帧(u,v)的概率,PS1,PS2,PS3为带到改点的路径,DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径,组成的折线段对应的函数即为最优规整函数
Figure BDA0000100720840000146
a)条件概率P(Xu|v)的计算
假定在状态v观测到的Xu是符合(μv,∑v)的高斯分布,μv为均值,∑v为方差,Xu为第u帧语音特征参数矢量,则条件概率
P ( X u | v ) = ( 2 &pi; ) - 10 | &Sigma; v | - 1 / 2 &times; exp { - 1 / 2 ( X u - &mu; v ) t &Sigma; v - 1 ( X u - &mu; v ) } , v和μv为与Xu同维数的向量,维数是20,(Xuv)t表示向量(Xuv)的转置,
为了求出各个时刻的均值和方差,首先选择一个学习样本序列即训练数据序列作为核心样本,然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数
Figure BDA0000100720840000148
这时各个时刻的均值和方差通过最佳路径函数
Figure BDA0000100720840000149
找出和核心样本对应时刻的输入帧矢量进行计算和更新,如此重复直到同类的学习数据用完为止,渐进地求出各个时刻的均值和方差。
b)状态转移概率的计算
上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率,计算状态转移概率的方法:各个学习数据和核心样本进行DP匹配时,记下各时刻选择的路径情况,学习完毕后,假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v),则此时的三个状态转移概率可由下式计算得到:
PPS1(v)=PS1(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS2(v)=PS2(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS3(v)=PS3(v)/{PS1(v)+PS2(v)+PS3(v)}
求出最优规整函数
Figure BDA0000100720840000151
后,将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴,非线性的映射到作为坐标纵轴的模板矢量的时间轴上:
Figure BDA0000100720840000152
2)利用模式匹配的方法进行识别
最优路径函数
Figure BDA0000100720840000153
的起点与终点之间的距离即为待识别语音与模板语音之间的距离,与待识别语音距离最小的模板对应的单词字音即判为识别结果。
II.语音识别试验及结果输出
本发明进行了两个实验,第一个实验是非特定人英语连续数字语音识别实验。采用35个4位数英语连续语音数字,邀请20名男性每个人对35个4位数字各发音3遍,其中12个人的发音作为训练用数据,另8个人的发音作为识别用数据。然后,利用日本电子协会标准噪声数据库中的行驶中的汽车(2000cc组,一般道路)内的噪声(平稳噪声)和展览会中的展示隔间内的噪声(非平稳噪声),把这些噪声按一定的信噪比(SNR)叠加进无噪连续数字语音中组成带噪语音。并且为了模拟网络语音,把这些语音信号先通过如下的滤波器再进行识别处理。识别结果如表1所表。
H ( f ) = ( f 2 / f h f l + f 2 / f h 2 ) + j ( f / f h - f 3 / f l f h 2 ) ( 1 - f 2 / f l f h ) 2 + ( f 2 / f h + f 2 / f l ) 2
fl=300Hz  fh=3400Hz
表1:英语连续数字语音识别结果[%]
Figure BDA0000100720840000161
第二个识别实验是户外实际场所的电话语音识别实验。我们选择50个人名,由3人对50个人名各发音3遍,其中2遍发音作为训练用数据,另1遍发音作为识别用数据。实验是利用在学校门口、交通道路和学校食堂3种不同的环境下用电话采集的语音进行的。结果是这3种环境下的识别概率分别是96%、90.4%、92.4%,达到了较高的识别精度。

Claims (1)

1.一种英语口语机考系统中网络语音识别方法,其特征在于,包括一些步骤:
A.输入英语口语机考系统中的语音信号a′(t),t为时间变量;
B.预处理与特征提取
预处理阶段
1)语音信号进行采样:对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样,采样后的信号为s(t), s ( t ) = a &prime; ( t ) &CenterDot; &delta; T ( t ) = a &prime; ( t ) &CenterDot; &Sigma; n &prime; = - &infin; n &prime; = &infin; &delta; ( t - n &prime; / f s ) = &Sigma; n = - &infin; n = &infin; a &prime; ( n &prime; / f s ) &CenterDot; &delta; ( t - n &prime; / f s ) , 再进行1-0.98Z-1的预加重处理,1-0.98Z-1的时域形式为1-0.98δ(t-1),预加重后的语音信号b(t)=s(t)*[1-0.98δ(t-1)]=s(t)-0.98s(t-1),其中,δT(t)为冲激函数,n′为整数;
2)用窗长25ms,窗移10ms的汉明窗对语音信号进行加窗分帧处理:分帧采用交叠分段的方法,前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的,即用窗函数ω′(t)来乘预加重后的语音信号b(t),从而形成加窗语音信号x(t),x(t)=b(t)·ω′(t),本发明采用汉明窗ω′(t),其窗函数为:
&omega; &prime; ( t ) = 0.54 - 0.46 cos [ 2 &pi;t / ( N - 1 ) ] , 0 &le; t &le; N - 1 0 , t = else
N为窗长,窗长即帧长,窗移即N-M,帧移长度M为15ms,
加窗分帧处理后得到的第i帧语音信号为xi(t),则xi(t)满足下式:
xi(t)=ω′(t+l)b(t),0≤t≤N-1
其中,l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M),M为帧移长度,N为帧长即窗长,
3)语音信号的端点检测:利用语音信号的短时能量进行端点检测
设第i帧语音信号xi(t)的短时能量用Ei表示,则计算公式如下:
E i = &Sigma; t = 0 N - 1 x i 2 ( t )
设置两个门限,一个较低的门限Tlow,Tlow=min(Ei,i=1,2,...,总帧数)·0.1,数值比较小,对信号的变化比较敏感;一个较高的门限Thigh,Thigh=max(Ei,i=1,2...,总帧数)·0.1,当Thigh第一次被超过时,断定为区域语音信号的开始,当短时能量降到Tlow以下就代表区域语音信号的结束,
4)利用语音区间检测时使用的短时能量对输入波形数据进行规整,即进行归一化处理,使得输入语音基本上按等幅进行频率分析,方法为:第i帧语音信号xi(t)的短时能量Ei,归一化后的第i帧语音信号xi(t)的短时能量为
Figure FDA0000100720830000022
5)降噪处理:
I:采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声:
第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω),
Figure FDA0000100720830000023
ω为频率,j为虚数单位,则第i帧语音信号xi(t)的幅值谱为|xi(ω)|,其功率为:|xi(ω)|2,除噪后的第i帧语音信号为xinew(t),其幅值谱为|xinew(ω)|,
Figure FDA0000100720830000024
则除噪后的第i帧语音信号的功率为:|xinew(ω)|2,推定的噪声功率为|ni(ω)|2,在整个区域语音以外的当前输入第i帧信号为yi(t),其帧功率为|yi(ω)|2对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是|ni(ω)|2 o,除噪后的语音功率是|xinew(ω)|2 o,为了补偿第4)步中由于规整而丢失的能量信息,推定噪声功率估计修正为:|ni(ω)|2 o=(1-β)|ni-1(ω)|2 o+βEi′|yi(ω)|2 o,0<β<1,本发明中取β=0.55,
SS权值系数修正为
Figure FDA0000100720830000031
&alpha; ^ ( i ) = &alpha; ( i ) E i
&alpha; ( i ) = &phi; 1 , | x i ( &omega; ) | 2 o < &theta; 1 &phi; 2 - &phi; 1 &theta; 2 - &theta; 1 | x i ( &omega; ) | 2 o + &phi; 1 , &theta; 1 < | x i ( &omega; ) | 2 o < &theta; 2 &phi; 2 , | x i ( &omega; ) | 2 o > &theta; 2 , 其中0<θ1,θ2<1,φ1和φ2是常数其中,φ1=0.1,φ2=0.3,θ1=0.2,θ2=0.8,Ei为第i帧语音信号的短时能量,Ei′为第i帧语音信号归一化后的短时能量,|yi(ω)|2 o为在整个区域用语音以外的当前输入信号帧功率,
除噪后语音的功率为:
| x inew ( &omega; ) | 2 o = | x i ( &omega; ) | 2 o - &alpha; ^ ( i ) | n i ( &omega; ) | 2 o if | x i ( &omega; ) | 2 o > &alpha; ^ ( i ) | n i ( &omega; ) | 2 o 0 if else
II:利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声:
设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换,即
Figure FDA0000100720830000035
|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素,除噪后语音的倒谱是
Figure FDA0000100720830000036
C ^ o ( i ) = C o ( i ) - &gamma; C o 0 + &Sigma; i = 1 k C o ( i ) &gamma; + k
式中γ是自适应训练系数,γ>1,Co0是表示先验分布的初始估计值,0<Co0<1,k为总帧数,γ=2,Co0=0.95,
6)经过上述预处理过程之后的语音信号为xnew′(t),t为时间变量,其第i帧语音信号为xinew′(t),
Figure FDA0000100720830000041
特征参数提取阶段
1)对预处理后的每一帧语音信号分别求取14维LPC系数:
设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(e)|2,Xinew′(e)即信号谱,表示第i帧语音信号xinew′(t)的傅里叶变换,
Figure FDA0000100720830000042
由|Xinew′(e)|2=|H(e)|2求出14维LPC系数ap,p=1,2,...,14,
则第i帧语音信号的声道模型系统函数H(z)为:
H ( z ) = 1 1 + &Sigma; p = 1 14 a p z - p - - - ( 3 )
其冲激响应为h(n″),
Figure FDA0000100720830000044
表示h(n″)的复倒谱,则有:
H ^ ( z ) = ln H ( z ) = &Sigma; n &prime; &prime; = 1 &infin; h ^ ( n &prime; &prime; ) z - n &prime; &prime; - - - ( 4 ) ,
将式(3)代入(4)式并将其两边对z-1求导数,有:
( 1 + &Sigma; p = 1 14 a p z - p ) &Sigma; n &prime; &prime; = 1 &infin; n &prime; &prime; h ^ ( n &prime; &prime; ) z - n &prime; &prime; + 1 = - &Sigma; p = 1 14 pa p z - p + 1
n″为正整数,令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由LPC系数ap求出LPC复倒谱
Figure FDA0000100720830000047
h ^ ( n &prime; &prime; ) = 0 , ( n &prime; &prime; = 0 ) h ^ ( n &prime; &prime; ) = - a n &prime; &prime; - &Sigma; p = 1 n &prime; &prime; - 1 ( 1 - p / n &prime; &prime; ) a p h ^ ( n &prime; &prime; - p ) , ( 1 &le; n &prime; &prime; &le; 14 ) h ^ ( n &prime; &prime; ) = - &Sigma; p = 1 14 ( 1 - p / n &prime; &prime; ) a p h ^ ( n &prime; &prime; - p ) , ( n &prime; &prime; > 14 )
从而LPC倒谱系数LPCC:
Figure FDA0000100720830000051
c(n″)为LPC倒谱系数LPCC,
2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数:
I:根据人的听觉特性,把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换,求出如下所示的LPC美尔倒谱系数LPCMCC:
MC g ( d ) = c ( n &prime; &prime; ) + &epsiv; &CenterDot; MC 0 ( d + 1 ) , g = 0 ( 1 - &epsiv; 2 ) &CenterDot; MC 0 ( d + 1 ) + &epsiv; &CenterDot; MC 1 ( d + 1 ) , g = 1 MC g - 1 ( d + 1 ) + &epsiv; &CenterDot; ( MC g ( d + 1 ) - MC g - 1 ( d ) ) , g > 1
这里,MCg(d)为LPC美尔倒谱系数LPCMCC,d为迭代次数,g为美尔倒谱阶数,d=g=9,c(n″)为LPC倒谱系数,当d>9时,MCg(d)=0,并且当抽样频率为8kHz时,ε取0.31,迭代是从高到低,即d从大到0取值,最后求得的美尔倒谱系数放在MC0(0),MC1(0),...,MC9(0)里面,组成一个10维的特征矢量的时间序列,
II:求取一阶的倒谱线性回归系数ΔLPCMCC:
R r ( t , T &prime; &prime; , &Delta;T , N &prime; ) = &Sigma; X &prime; = 1 N &prime; P r ( X &prime; , N &prime; ) C [ t + [ X &prime; - 1 N &prime; - 1 - 1 2 ] ( T &prime; &prime; - &Delta;T ) ] &Sigma; X &prime; = 1 N &prime; P r 2 ( X &prime; , N &prime; )
r为阶数取1,Pr(X′,N′)表示求取r阶线性回归系数时的加权函数,当r=1时,Pr(X′,N′)=X′,C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数,ΔT为15ms,由LPCMCC,求出10维的一阶的倒谱线性回归系数ΔLPCMCC,
3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数,组成一个20维的特征参数矢量Vector,
C.语音识别
I.语音识别方法采用基于概率尺度DP识别方法
1)用基于概率尺度的动态规划DP算法进行时间规整
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库;在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整:
待识别语音特征参数共有k帧矢量,设相应的参考模板共有J帧矢量,且k≠J,动态时间规整就是寻找一个时间规整函数
Figure FDA0000100720830000061
它将测试矢量的时间轴u非线性的映射到模板的时间轴v上,并使该函数满足:
Figure FDA0000100720830000062
式中,
Figure FDA0000100720830000063
是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度,D是处于最优时间规整情况下的两矢量的距离,得到的两矢量匹配是累计距离最小的规整函数,接着,用基于概率尺度动态规划DP算法来寻找最优的规整函数
基于概率尺度的DP方法的递推公式为:
G ( u , v ) = max G ( u - 2 , v - 1 ) +logP ( X u - 1 | v ) + log P ( X u | v ) + log P PS 1 ( v ) G ( u - 1 , v - 1 ) + log P ( X u | v ) + log P PS 2 ( v ) G ( u - 1 , v - 2 ) + log P ( X u | v ) +log P PS 3 ( v )
G(u,v)是当前匹配帧(u,v)的概率,PS1,PS2,PS3为带到改点的路径,DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径,组成的折线段对应的函数即为最优规整函数
Figure FDA0000100720830000066
a)条件概率P(Xu|v)的计算
假定在状态v观测到的Xu是符合(μv,∑v)的高斯分布,μv为均值,∑v为方差,Xu为第u帧语音特征参数矢量,则条件概率
P ( X u | v ) = ( 2 &pi; ) - 10 | &Sigma; v | - 1 / 2 &times; exp { - 1 / 2 ( X u - &mu; v ) t &Sigma; v - 1 ( X u - &mu; v ) } , v和μv为与Xu同维数的向量,维数是20,(Xuv)t表示向量(Xuv)的转置,
为了求出各个时刻的均值和方差,首先选择一个学习样本序列即训练数据序列作为核心样本,然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数
Figure FDA0000100720830000072
这时各个时刻的均值和方差通过最佳路径函数
Figure FDA0000100720830000073
找出和核心样本对应时刻的输入帧矢量进行计算和更新,如此重复直到同类的学习数据用完为止,渐进地求出各个时刻的均值和方差。
b)状态转移概率的计算
上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率,计算状态转移概率的方法:各个学习数据和核心样本进行DP匹配时,记下各时刻选择的路径情况,学习完毕后,假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v),则此时的三个状态转移概率可由下式计算得到:
PPS1(v)=PS1(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS2(v)=PS2(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS3(v)=PS3(v)/{PS1(v)+PS2(v)+PS3(v)}
求出最优规整函数
Figure FDA0000100720830000074
后,将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴,非线性的映射到作为坐标纵轴的模板矢量的时间轴上:
Figure FDA0000100720830000075
最后,利用模式匹配的方法进行识别:
最优路径函数的起点与终点之间的距离即为待识别语音与模板语音之间的距离,与待识别语音距离最小的模板对应的单词字音即判为识别结果。
CN2011103215389A 2011-10-21 2011-10-21 英语口语机考系统中网络语音识别方法 Expired - Fee Related CN102436809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103215389A CN102436809B (zh) 2011-10-21 2011-10-21 英语口语机考系统中网络语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103215389A CN102436809B (zh) 2011-10-21 2011-10-21 英语口语机考系统中网络语音识别方法

Publications (2)

Publication Number Publication Date
CN102436809A true CN102436809A (zh) 2012-05-02
CN102436809B CN102436809B (zh) 2013-04-24

Family

ID=45984832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103215389A Expired - Fee Related CN102436809B (zh) 2011-10-21 2011-10-21 英语口语机考系统中网络语音识别方法

Country Status (1)

Country Link
CN (1) CN102436809B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN103198829A (zh) * 2013-02-25 2013-07-10 惠州市车仆电子科技有限公司 一种降低车内噪音提高语音识别率的方法、装置和设备
CN105679321A (zh) * 2016-01-29 2016-06-15 宇龙计算机通信科技(深圳)有限公司 语音识别方法、装置及终端
CN106128477A (zh) * 2016-06-23 2016-11-16 南阳理工学院 一种口语识别校正系统
TWI578307B (zh) * 2016-05-20 2017-04-11 Mitsubishi Electric Corp 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法
CN108594161A (zh) * 2018-05-03 2018-09-28 国网重庆市电力公司电力科学研究院 一种电能表内异物声音信号降噪方法、系统
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109658918A (zh) * 2018-12-03 2019-04-19 广东外语外贸大学 一种智能英语口语复述题评分方法和系统
CN109783051A (zh) * 2019-01-28 2019-05-21 中科驭数(北京)科技有限公司 一种时间序列相似性计算装置和方法
CN110277087A (zh) * 2019-07-03 2019-09-24 四川大学 一种广播信号预判预处理方法
CN110689898A (zh) * 2019-11-18 2020-01-14 安徽农业大学 用于生猪的音频信号的压缩方法及系统
WO2020029404A1 (zh) * 2018-08-08 2020-02-13 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
CN110875034A (zh) * 2018-09-03 2020-03-10 北京嘉楠捷思信息技术有限公司 用于语音识别的模板训练方法、语音识别方法及其系统
CN111612324A (zh) * 2020-05-15 2020-09-01 深圳看齐信息有限公司 一种基于英语口语考试的多维度评估方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006349723A (ja) * 2005-06-13 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006349723A (ja) * 2005-06-13 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN103198829A (zh) * 2013-02-25 2013-07-10 惠州市车仆电子科技有限公司 一种降低车内噪音提高语音识别率的方法、装置和设备
CN105679321A (zh) * 2016-01-29 2016-06-15 宇龙计算机通信科技(深圳)有限公司 语音识别方法、装置及终端
TWI578307B (zh) * 2016-05-20 2017-04-11 Mitsubishi Electric Corp 音響模式學習裝置、音響模式學習方法、聲音辨識裝置以及聲音辨識方法
CN106128477A (zh) * 2016-06-23 2016-11-16 南阳理工学院 一种口语识别校正系统
CN106128477B (zh) * 2016-06-23 2017-07-04 南阳理工学院 一种口语识别校正系统
CN108594161B (zh) * 2018-05-03 2020-06-19 国网重庆市电力公司电力科学研究院 一种电能表内异物声音信号降噪方法、系统
CN108594161A (zh) * 2018-05-03 2018-09-28 国网重庆市电力公司电力科学研究院 一种电能表内异物声音信号降噪方法、系统
WO2020029404A1 (zh) * 2018-08-08 2020-02-13 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
CN110875034B (zh) * 2018-09-03 2024-03-22 嘉楠明芯(北京)科技有限公司 用于语音识别的模板训练方法、语音识别方法及其系统
CN110875034A (zh) * 2018-09-03 2020-03-10 北京嘉楠捷思信息技术有限公司 用于语音识别的模板训练方法、语音识别方法及其系统
CN109658918A (zh) * 2018-12-03 2019-04-19 广东外语外贸大学 一种智能英语口语复述题评分方法和系统
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109783051A (zh) * 2019-01-28 2019-05-21 中科驭数(北京)科技有限公司 一种时间序列相似性计算装置和方法
CN109783051B (zh) * 2019-01-28 2020-05-29 中科驭数(北京)科技有限公司 一种时间序列相似性计算装置和方法
CN110277087A (zh) * 2019-07-03 2019-09-24 四川大学 一种广播信号预判预处理方法
CN110277087B (zh) * 2019-07-03 2021-04-23 四川大学 一种广播信号预判预处理方法
CN110689898A (zh) * 2019-11-18 2020-01-14 安徽农业大学 用于生猪的音频信号的压缩方法及系统
CN111612324A (zh) * 2020-05-15 2020-09-01 深圳看齐信息有限公司 一种基于英语口语考试的多维度评估方法
CN111612324B (zh) * 2020-05-15 2021-02-19 深圳看齐信息有限公司 一种基于英语口语考试的多维度评估方法

Also Published As

Publication number Publication date
CN102436809B (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
EP3309782B1 (en) Method, device and system for noise suppression
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
Dimitriadis et al. On the effects of filterbank design and energy computation on robust speech recognition
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
US20100094622A1 (en) Feature normalization for speech and audio processing
GB2560174A (en) A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
Eringis et al. Improving speech recognition rate through analysis parameters
Soe Naing et al. Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System.
Lee et al. Statistical model‐based noise reduction approach for car interior applications to speech recognition
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
CN112233657A (zh) 一种基于低频音节识别的语音增强方法
Neumeyer et al. Training issues and channel equalization techniques for the construction of telephone acoustic models using a high-quality speech corpus
Alam et al. A study of low-variance multi-taper features for distributed speech recognition
Higa et al. Robust ASR based on ETSI Advanced Front-End using complex speech analysis
Shannon et al. MFCC computation from magnitude spectrum of higher lag autocorrelation coefficients for robust speech recognition.
Shareef et al. Comparison between features extraction techniques for impairments arabic speech
Dev et al. A Novel Feature Extraction Technique for Speaker Identification
Gouda et al. Robust Automatic Speech Recognition system based on using adaptive time-frequency masking
Farahani et al. Features based on filtering and spectral peaks in autocorrelation domain for robust speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130424

Termination date: 20151021

EXPY Termination of patent right or utility model