CN102436809B - 英语口语机考系统中网络语音识别方法 - Google Patents
英语口语机考系统中网络语音识别方法 Download PDFInfo
- Publication number
- CN102436809B CN102436809B CN2011103215389A CN201110321538A CN102436809B CN 102436809 B CN102436809 B CN 102436809B CN 2011103215389 A CN2011103215389 A CN 2011103215389A CN 201110321538 A CN201110321538 A CN 201110321538A CN 102436809 B CN102436809 B CN 102436809B
- Authority
- CN
- China
- Prior art keywords
- prime
- frame
- voice signal
- sigma
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种在英语口语机考系统中实现网络语音识别的方案。本方案对传统的谱相减(SS)降噪声技术和倒谱均值规整(CMN)降噪声技术进行改进,同时结合等同于连续状态隐马尔可夫模型(HMM)的概率尺度DP识别方法,提出了一种在英语网考系统中非特定人的网络语音识别方案,并利用其实现了实际环境下网络语音识别装置。本方案采用上述方法,将具有输入幅值谱自适应的SS方法和基于渐进自适应方式MAP算法的CMN方法相结合,大大降低了环境噪声对识别系统的影响。同时,本方案在传统的DP方法基础上,利用概率尺度的DP算法进行识别,使得DSP语音识别装置能够适用于户外不同场合的、非特定人的语音识别,从而使得识别系统范围和识别精度得到了提高。
Description
技术领域
本发明涉及一种网络语音识别技术,特别涉及一种在英语口语机考系统中非特定人的网络语音识别方案。
背景技术
我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目,并于2008年12月20日在全国53所高校实施四级网考试点考试。随着我国四、六级网考试点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端,无论对考生还是大学英语老师都是一个巨大的挑战,是英语教学理念中的一场革命。然而,英语口语机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的,对网络语音提供英语口语机考系统服务一般要求是面对非特定人的,而且由于终端机、传输网路、背景噪声的影响,在很大程度上影响了英语口语机考系统的性能。
利用传统的谱相减(SS)降噪声技术法进行降噪处理仍然是当今主要的降低环境噪声的方法。设对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是,除噪后的语音功率是|xinew(ω)|2 o,则传统的谱相减(SS)降噪声技术法如(1)式所示。
由于传统的谱相减(SS)降噪声技术法考虑噪声为平稳噪声,所以对于整个语音段,噪声功率以及权系数α一般取相同的值。而实际环境下的噪声,例如展览会中的展示隔间内的噪声是非平稳噪声,所以用相同的噪声功率值是不确切的。同样,传统的谱相减(SS)降噪声技术法用相同的权值α,有可能发生减除过度或过少的问题,使得有的区段要么噪声消除不够,要么减除过多产生|xinew(ω)|2 o失真。
对于由输入和传输电路系统引起的乘法性噪声,利用倒谱均值规整(CMN)降噪声技术方法可以得到比较好的抑制效果。设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),除噪后语音的倒谱是则传统的倒谱均值规整(CMN)降噪声技术方法如(2)式所示。
式中为整个输入语句的倒谱平均值。这种长时倒谱均值规整(CMN)降噪声技术方法存在2个问题,一是由于输入语句中音素的出现频度会改变的大小,直接影响规整的效果。二是必须到终点为止计算完成以后,才能算出影响了实时性。
特征提取是模式识别的关键问题,因为特征参数的好坏对于语音识别精度有很大影响。常用的识别参数是LPC倒谱系数(LPCC)。
用一片数字信号处理器即DSP实现的语音识别装置,为了节约它的存储和运算成本,一般采用矢量量化(VQ)方法或者概率尺度DP(动态编程)匹配方法进行识别,因为对于小词汇量单词或词组识别系统来讲,VQ和DP方法足以满足识别性能的要求。但是,传统的VQ和DP方法只能适用于特定人的语音识别系统。
发明内容
本发明的目的就在于解决现有技术的缺陷,提出了一种英语口语机考系统中网络语音识别方法,本发明利用改进的谱相减(SS)降噪声技术、倒谱均值规整(CMN)降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案。本发明的技术方案是:
一种英语口语机考系统中网络语音识别方法,包括以下步骤:
1.输入英语口语机考系统中的语音信号a′(t),t为时间变量;
2.预处理与特征提取
1)语音信号进行采样:对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样,采样后的信号为s(t),
2)用窗长25ms,窗移10ms的汉明窗对语音信号进行加窗分帧处理:分帧采用交叠分段的方法,前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的,即用窗函数ω′(t)来乘预加重后的语音信号b(t),从而形成加窗语音信号x(t),x(t)=b(t)·ω′(t),本发明采用汉明窗ω′(t),其窗函数为:
N为窗长,窗长即帧长,窗移即N-M,帧移长度M为15ms,
加窗分帧处理后得到的第i帧语音信号为xi(t),则xi(t)满足下式:
xi(t)=ω′(t+l)b(t),0≤t≤N-1
其中,l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M),M为帧移长度,N为帧长即窗长,
3)语音信号的端点检测:利用语音信号的短时能量进行端点检测
设第i帧语音信号xi(t)的短时能量用Ei表示,则计算公式如下:
设置两个门限,一个较低的门限Tlow,Tlow=min(Ei,i=1,2,...,总帧数)·0.1,数值比较小,对信号的变化比较敏感;一个较高的门限Thigh,Thigh=max(Ei,i=1,2...,总帧数)·0.1,当Thigh第一次被超过时,断定为区域语音信号的开始,当短时能量降到Tlow以下就代表区域语音信号的结束,
4)利用语音区间检测时使用的短时能量对输入波形数据进行规整,即进行归一化处理,使得输入语音基本上按等幅进行频率分析,方法为:第i帧语音信号xi(t)的短时能量Ei,归一化后的第i帧语音信号xi(t)的短时能量为
5)降噪处理:
I:采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声:第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω),ω为频率,j为虚数单位,则第i帧语音信号xi(t)的幅值谱为|xi(ω)|,其功率为:|xi(ω)|2,除噪后的第i帧语音信号为xinew(t),其幅值谱为|xinew(ω)|,则除噪后的第i帧语音信号的功率为:|xinew(ω)|2,推定的噪声功率为|ni(ω)|2,在整个区域语音以外的当前输入第i帧信号为yi(t),其帧功率为|yi(ω)|2,对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是|ni(ω)|2 o,除噪后的语音功率是|xinew(ω)|2 o,为了补偿第4)步中由于规整而丢失的能量信息,推定噪声功率估计修正为:|ni(ω)|2 o=(1-β)|ni-1(ω)|2 o+βEi′|yi(ω)|2 o,0<β<1,本发明中取β=0.55,
除噪后语音的功率为:
II:利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声:
设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换,即|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素,除噪后语音的倒谱是
式中γ是自适应训练系数,γ>1,Co0是表示先验分布的初始估计值,0<Co0<1,k为总帧数,γ=2,Co0=0.95,
6)经过上述预处理过程之后的语音信号为xnew′(t),t为时间变量,其第i帧语音信号为xinew′(t),
1)对预处理后的每一帧语音信号分别求取14维LPC系数:
设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(ejω)|2,Xinew′(ejω)即信号谱,表示第i帧语音信号xinew′(t)的傅里叶变换,由|Xinew′(ejω)|2=|H(ejω)|2求出14维LPC系数ap,p=1,2,...,14,
则第i帧语音信号的声道模型系统函数H(z)为:
将式(3)代入(4)式并将其两边对z-1求导数,有:
2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数:
I:根据人的听觉特性,把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换,求出如下所示的LPC美尔倒谱系数LPCMCC:
这里,MCg(d)为LPC美尔倒谱系数LPCMCC,d为迭代次数,g为美尔倒谱阶数,d=g=9,c(n″)为LPC倒谱系数,当d>9时,MCg(d)=0,并且当抽样频率为8kHz时,ε取0.31,迭代是从高到低,即d从大到0取值,最后求得的美尔倒谱系数放在MC0(0),MC1(0),...,MC9(0)里面,组成一个10维的特征矢量的时间序列,
II:求取一阶的倒谱线性回归系数ΔLPCMCC:
r为阶数取1,Pr(X′,N′)表示求取r阶线性回归系数时的加权函数,当r=1时,Pr(X′,N′)=X′,C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数,ΔT为15ms,由LPCMCC,求出10维的一阶的倒谱线性回归系数ΔLPCMCC,
3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数,组成一个20维的特征参数矢量Vector,
3.语音识别
I.语音识别方法采用基于概率尺度DP识别方法
1)用基于概率尺度的动态规划DP算法进行时间规整
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库;在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整:
式中,是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度,D是处于最优时间规整情况下的两矢量的距离,得到的两矢量匹配是累计距离最小的规整函数,接着,用基于概率尺度动态规划DP算法来寻找最优的规整函数
基于概率尺度的DP方法的递推公式为:
G(u,v)是当前匹配帧(u,v)的概率,PS1,PS2,PS3为带到改点的路径,DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径,组成的折线段对应的函数即为最优规整函数
a)条件概率P(Xu|v)的计算
假定在状态v观测到的Xu是符合(μv,∑v)的高斯分布,μv为均值,∑v为方差,Xu为第u帧语音特征参数矢量,则条件概率
为了求出各个时刻的均值和方差,首先选择一个学习样本序列即训练数据序列作为核心样本,然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数这时各个时刻的均值和方差通过最佳路径函数找出和核心样本对应时刻的输入帧矢量进行计算和更新,如此重复直到同类的学习数据用完为止,渐进地求出各个时刻的均值和方差。
b)状态转移概率的计算
上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率,计算状态转移概率的方法:各个学习数据和核心样本进行DP匹配时,记下各时刻选择的路径情况,学习完毕后,假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v),则此时的三个状态转移概率可由下式计算得到:
PPS1(v)=PS1(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS2(v)=PS2(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS3(v)=PS3(v)/{PS1(v)+PS2(v)+PS3(v)}
最后,利用模式匹配的方法进行识别:
最优路径函数的起点与终点之间的距离即为待识别语音与模板语音之间的距离,与待识别语音距离最小的模板对应的单词字音即判为识别结果。
本发明的优点和效果在于:
1.对传统的谱相减(SS)方法进行改善,采用具有输入幅值谱自适应的SS方法,同时将其与基于渐进自适应方式最大后验概率(MAP)算法的倒谱均值规整(CMN)方法相结合,大大降低了噪声对系统的影响。
2.在传统的DP方法基础上,利用概率尺度的DP算法进行识别,使得DSP语音识别装置既能适用于特定人的语音识别系统,更能适用于户外不同场合的、非特定人的语音识别,从而使得识别系统范围大大提高。
3.本发明利用改进的SS、CMN降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案,其语音识别精度较高。
附图说明
图1——非对称型DP路径。
图2——实施步骤流程图。
具体实施方式
下面结合附图,对本发明所述的技术方案作进一步的阐述。
图1是非对称型DP路径。
图2是实施步骤流程图。
1.输入英语口语机考系统中的语音信号a′(t),t为时间变量;
2.预处理与特征提取
1)语音信号进行采样:对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样,采样后的信号为s(t), 再进行1-0.98Z-1的预加重处理,1-0.98Z-1的时域形式为1-0.98δ(t-1),预加重后的语音信号b(t)=s(t)*[1-0.98δ(t-1)]=s(t)-0.98s(t-1),其中,δT(t)为冲激函数,n′为整数;
2)用窗长25ms,窗移10ms的汉明窗对语音信号进行加窗分帧处理:分帧采用交叠分段的方法,前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的,即用窗函数ω′(t)来乘预加重后的语音信号b(t),从而形成加窗语音信号x(t),x(t)=b(t)·ω′(t),本发明采用汉明窗ω′(t),其窗函数为:
N为窗长,窗长即帧长,窗移即N-M,帧移长度M为15ms,
加窗分帧处理后得到的第i帧语音信号为xi(t),则xi(t)满足下式:
xi(t)=ω′(t+l)b(t),0≤t≤N-1
其中,l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M),M为帧移长度,N为帧长即窗长,
3)语音信号的端点检测:利用语音信号的短时能量进行端点检测
设第i帧语音信号xi(t)的短时能量用Ei表示,则计算公式如下:
设置两个门限,一个较低的门限Tlow,Tlow=min(Ei,i=1,2,...,总帧数)·0.1,数值比较小,对信号的变化比较敏感;一个较高的门限Thigh,Thigh=max(Ei,i=1,2...,总帧数)·0.1,当Thigh第一次被超过时,断定为区域语音信号的开始,当短时能量降到Tlow以下就代表区域语音信号的结束,
4)利用语音区间检测时使用的短时能量对输入波形数据进行规整,即进行归一化处理,使得输入语音基本上按等幅进行频率分析,方法为:第i帧语音信号xi(t)的短时能量Ei,归一化后的第i帧语音信号xi(t)的短时能量为
5)降噪处理:
I:采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声:
第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω),ω为频率,j为虚数单位,则第i帧语音信号xi(t)的幅值谱为|xi(ω)|,其功率为:|xi(ω)|2,除噪后的第i帧语音信号为xinew(t),其幅值谱为|xinew(ω)|,则除噪后的第i帧语音信号的功率为:|xinew(ω)|2,推定的噪声功率为|ni(ω)|2,在整个区域语音以外的当前输入第i帧信号为yi(t),其帧功率为|yi(ω)|2,对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是|ni(ω)|2 o,除噪后的语音功率是|xinew(ω)|2 o,为了补偿第4)步中由于规整而丢失的能量信息,推定噪声功率估计修正为:|ni(ω)|2 o=(1-β)|ni-1(ω)|2 o+βEi′|yi(ω)|2 o,0<β<1,本发明中取β=0.55,
SS权值系数修正为
除噪后语音的功率为:
II:利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声:
设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换,即|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素,除噪后语音的倒谱是
式中γ是自适应训练系数,γ>1,Co0是表示先验分布的初始估计值,0<Co0<1,k为总帧数,γ=2,Co0=0.95,
6)经过上述预处理过程之后的语音信号为xnew′(t),t为时间变量,其第i帧语音信号为xinew′(t),
1)对预处理后的每一帧语音信号分别求取14维LPC系数:
设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(ejω)|2,Xinew′(ejω)即信号谱,表示第i帧语音信号xinew′(t)的傅里叶变换,由|Xinew′(ejω)|2=|H(ejω)|2求出14维LPC系数ap,p=1,2,...,14,
则第i帧语音信号的声道模型系统函数H(z)为:
将式(3)代入(4)式并将其两边对z-1求导数,有:
2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数:
I:根据人的听觉特性,把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换,求出如下所示的LPC美尔倒谱系数LPCMCC:
这里,MCg(d)为LPC美尔倒谱系数LPCMCC,d为迭代次数,g为美尔倒谱阶数,d=g=9,c(n″)为LPC倒谱系数,当d>9时,MCg(d)=0,并且当抽样频率为8kHz时,ε取0.31,迭代是从高到低,即d从大到0取值,最后求得的美尔倒谱系数放在MC0(0),MC1(0),...,MC9(0)里面,组成一个10维的特征矢量的时间序列,
II:求取一阶的倒谱线性回归系数ΔLPCMCC:
r为阶数取1,Pr(X′,N′)表示求取r阶线性回归系数时的加权函数,当r=1时,Pr(X′,N′)=X′,C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数,ΔT为15ms,由LPCMCC,求出10维的一阶的倒谱线性回归系数ΔLPCMCC,
3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数,组成一个20维的特征参数矢量Vector,
3.语音识别
I.语音识别方法采用基于概率尺度DP识别方法
1)用基于概率尺度的动态规划DP算法进行时间规整
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库;在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整:
式中,是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度,D是处于最优时间规整情况下的两矢量的距离,得到的两矢量匹配是累计距离最小的规整函数,接着,用基于概率尺度动态规划DP算法来寻找最优的规整函数
基于概率尺度的DP方法的递推公式为:
G(u,v)是当前匹配帧(u,v)的概率,PS1,PS2,PS3为带到改点的路径,DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径,组成的折线段对应的函数即为最优规整函数
a)条件概率P(Xu|v)的计算
假定在状态v观测到的Xu是符合(μv,∑v)的高斯分布,μv为均值,∑v为方差,Xu为第u帧语音特征参数矢量,则条件概率
为了求出各个时刻的均值和方差,首先选择一个学习样本序列即训练数据序列作为核心样本,然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数这时各个时刻的均值和方差通过最佳路径函数找出和核心样本对应时刻的输入帧矢量进行计算和更新,如此重复直到同类的学习数据用完为止,渐进地求出各个时刻的均值和方差。
b)状态转移概率的计算
上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率,计算状态转移概率的方法:各个学习数据和核心样本进行DP匹配时,记下各时刻选择的路径情况,学习完毕后,假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v),则此时的三个状态转移概率可由下式计算得到:
PPS1(v)=PS1(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS2(v)=PS2(v)/{PS1(v)+PS2(v)+PS3(v)}
PPS3(v)=PS3(v)/{PS1(v)+PS2(v)+PS3(v)}
2)利用模式匹配的方法进行识别
II.语音识别试验及结果输出
本发明进行了两个实验,第一个实验是非特定人英语连续数字语音识别实验。采用35个4位数英语连续语音数字,邀请20名男性每个人对35个4位数字各发音3遍,其中12个人的发音作为训练用数据,另8个人的发音作为识别用数据。然后,利用日本电子协会标准噪声数据库中的行驶中的汽车(2000cc组,一般道路)内的噪声(平稳噪声)和展览会中的展示隔间内的噪声(非平稳噪声),把这些噪声按一定的信噪比(SNR)叠加进无噪连续数字语音中组成带噪语音。并且为了模拟网络语音,把这些语音信号先通过如下的滤波器再进行识别处理。识别结果如表1所表。
fl=300Hz fh=3400Hz
表1:英语连续数字语音识别结果[%]
第二个识别实验是户外实际场所的电话语音识别实验。我们选择50个人名,由3人对50个人名各发音3遍,其中2遍发音作为训练用数据,另1遍发音作为识别用数据。实验是利用在学校门口、交通道路和学校食堂3种不同的环境下用电话采集的语音进行的。结果是这3种环境下的识别概率分别是96%、90.4%、92.4%,达到了较高的识别精度。
Claims (1)
1.一种英语口语机考系统中网络语音识别方法,其特征在于,包括一些步骤:
1.输入英语口语机考系统中的语音信号a′(t),t为时间变量;
2.预处理与特征提取
1)语音信号进行采样:对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样,采样后的信号为s(t),
2)用窗长25ms, 窗移10ms的汉明窗对语音信号进行加窗分帧处理:分帧采用交叠分段的方法,前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的,即用窗函数ω′(t)来乘预加重后的语音信号b(t),从而形成加窗语音信号x(t),x(t)= b(t)· ω′(t),本发明采用汉明窗ω′(t),其窗函数为:
N为窗长,窗长即帧长,窗移即N-M,帧移长度M为15ms,
加窗分帧处理后得到的第i帧语音信号为,则xi(t)满足下式:
xi(t)= ω′(t-l)b(t),0≤t≤N-1
其中,l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M),M为帧移长度,N为帧长即窗长,
3)语音信号的端点检测:利用语音信号的短时能量进行端点检测
设第i帧语音信号xi(t)的短时能量用Ei表示,则计算公式如下:
设置两个门限,一个较低的门限Tlow,Tlow =min(Ei,i=1,2,…,总帧数)·0.1,数值比较小,对信号的变化比较敏感;一个较高的门限Thigh,Thigh=max(Ei,i=1,2,…,总帧数)·0.1,当Thigh第一次被超过时,断定为区域语音信号的开始,当短时能量降到Tlow以下就代表区域语音信号的结束,
4) 利用语音区间检测时使用的短时能量对输入波形数据进行规整,即进行归一化处理,使得输入语音基本上按等幅进行频率分析,方法为:第i帧语音信号xi(t)的短时能量Ei,归一化后的第i帧语音信号xi(t)的短时能量为
5) 降噪处理:
I:采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声:
第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω),,ω为频率,j为虚数单位,则第i帧语音信号xi(t)的幅值谱为|xi(ω)|,其功率为:|xi(ω)|2,除噪后的第i帧语音信号为xinew(ω),其幅值谱为|xinew(ω)|,,则除噪后的第i帧语音信号的功率为:|xinew(ω)|2,推定的噪声功率为|ni(ω)|2,在整个区域语音以外的当前输入第i帧信号为yi(t),其帧功率为|yi(ω)|2,,对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2 o,推定的噪声功率是|ni(ω)|2 o,除噪后的语音功率是|xinew(ω)|2 o,为了补偿第4)步中由于规整而丢失的能量信息,推定噪声功率估计修正为:|ni(ω)|2 o=(1-β)|ni-1(ω)|2 o+βEi′|yi(ω)|2 o,0<β<1,本发明中取β=0.55,
除噪后语音的功率为:
II:利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声:
设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换,即, |xinew(ω)|o表示第i帧语音信号幅值谱的第o元素,除噪后语音的倒谱是,
式中γ是自适应训练系数,γ>1,Co0是表示先验分布的初始估计值,0<Co0<1,k为总帧数,γ=2,Co0=0.95,
6) 经过步骤1)-5)的预处理过程之后的语音信号为xnew′(t),t为时间变量,其第i帧语音信号为xinew′(t),
1) 对预处理后的每一帧语音信号分别求取14维LPC系数:
设第i帧语音信号为xinew′(t)的功率谱为|xinew′(ejω)|2,xinew′(ejω)即信号谱,表示第i帧语音信号xinew′(t)的傅里叶变换,,由|xinew′(ejω)|2=|H(ejω)|2求出14维LPC系数ap,p=1,2,…,14,
则第i帧语音信号的声道模型系统函数H(z)为:
其冲激响应为h(n″),表示h(n″)的复倒谱,则有:
将式(3)代入(4)式并将其两边对z-1求导数,有:
n″为正整数,令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由LPC系数ap求出LPC复倒谱:
2) 利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC 系数△LPCMCC作为语音特征参数:
I:根据人的听觉特性,把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换,求出如下所示的LPC美尔倒谱系数LPCMCC:
这里,MCg(d)为LPC美尔倒谱系数LPCMCC,d为迭代次数,g为美尔倒谱阶数,d=g=9, c(n″)为LPC倒谱系数,当d>9时,MCg(d)=0,并且当抽样频率为8kHz时,ε取0.31,迭代是从高到低,即d从大到0取值,最后求得的美尔倒谱系数放在MC0(0), MC1(0),…, MC9(0)里面,组成一个10维的特征矢量的时间序列,
II: 求取一阶的倒谱线性回归系数△LPCMCC:
r为阶数取1, Pr(X′,N′)表示求取r阶线性回归系数时的加权函数,当r=1时, Pr(X′,N′)= X′,C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数,ΔT为15ms,由LPCMCC,求出10维的一阶的倒谱线性回归系数△LPCMCC,
3) 将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数△LPCMCC作为语音特征参数,组成一个20维的特征参数矢量Vector,
3. 语音识别
I. 语音识别方法采用基于概率尺度DP识别方法
1)用基于概率尺度的动态规划DP算法进行时间规整
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库;在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整:
式中,是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度,D是处于最优时间规整情况下的两矢量的距离,得到的两矢量匹配是累计距离最小的规整函数,接着,用基于概率尺度动态规划DP算法来寻找最优的规整函数:
基于概率尺度的DP方法的递推公式为:
G(u,v)是当前匹配帧(u,v)的概率,PS1,PS2,PS3为带到改点的路径,DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径,组成的折线段对应的函数即为最优规整函数,
a) 条件概率P(Xu|v)的计算
假定在状态v观测到的Xu是符合(μv,Σv)的高斯分布,μv为均值,Σv为方差,Xu为第u帧语音特征参数矢量,则条件概率
为了求出各个时刻的均值和方差,首先选择一个学习样本序列即训练数据序列作为核心样本,然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数,这时各个时刻的均值和方差通过最佳路径函数找出和核心样本对应时刻的输入帧矢量进行计算和更新,如此重复直到同类的学习数据用完为止,渐进地求出各个时刻的均值和方差;
b) 状态转移概率的计算
上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率,计算状态转移概率的方法:各个学习数据和核心样本进行DP匹配时,记下各时刻选择的路径情况,学习完毕后,假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v),则此时的三个状态转移概率可由下式计算得到:
最后,利用模式匹配的方法进行识别:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103215389A CN102436809B (zh) | 2011-10-21 | 2011-10-21 | 英语口语机考系统中网络语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103215389A CN102436809B (zh) | 2011-10-21 | 2011-10-21 | 英语口语机考系统中网络语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102436809A CN102436809A (zh) | 2012-05-02 |
CN102436809B true CN102436809B (zh) | 2013-04-24 |
Family
ID=45984832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103215389A Expired - Fee Related CN102436809B (zh) | 2011-10-21 | 2011-10-21 | 英语口语机考系统中网络语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102436809B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789779A (zh) * | 2012-07-12 | 2012-11-21 | 广东外语外贸大学 | 一种语音识别系统及其识别方法 |
CN103198829A (zh) * | 2013-02-25 | 2013-07-10 | 惠州市车仆电子科技有限公司 | 一种降低车内噪音提高语音识别率的方法、装置和设备 |
CN105679321B (zh) * | 2016-01-29 | 2020-05-19 | 宇龙计算机通信科技(深圳)有限公司 | 语音识别方法、装置及终端 |
JP6391895B2 (ja) * | 2016-05-20 | 2018-09-19 | 三菱電機株式会社 | 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法 |
CN106128477B (zh) * | 2016-06-23 | 2017-07-04 | 南阳理工学院 | 一种口语识别校正系统 |
CN108594161B (zh) * | 2018-05-03 | 2020-06-19 | 国网重庆市电力公司电力科学研究院 | 一种电能表内异物声音信号降噪方法、系统 |
CN109036381A (zh) * | 2018-08-08 | 2018-12-18 | 平安科技(深圳)有限公司 | 语音处理方法及装置、计算机装置及可读存储介质 |
CN110875034B (zh) * | 2018-09-03 | 2024-03-22 | 嘉楠明芯(北京)科技有限公司 | 用于语音识别的模板训练方法、语音识别方法及其系统 |
CN109658918A (zh) * | 2018-12-03 | 2019-04-19 | 广东外语外贸大学 | 一种智能英语口语复述题评分方法和系统 |
CN109599126B (zh) * | 2018-12-29 | 2022-04-19 | 广州丰石科技有限公司 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
CN109783051B (zh) * | 2019-01-28 | 2020-05-29 | 中科驭数(北京)科技有限公司 | 一种时间序列相似性计算装置和方法 |
CN110277087B (zh) * | 2019-07-03 | 2021-04-23 | 四川大学 | 一种广播信号预判预处理方法 |
CN110689898A (zh) * | 2019-11-18 | 2020-01-14 | 安徽农业大学 | 用于生猪的音频信号的压缩方法及系统 |
CN111612324B (zh) * | 2020-05-15 | 2021-02-19 | 深圳看齐信息有限公司 | 一种基于英语口语考试的多维度评估方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4705414B2 (ja) * | 2005-06-13 | 2011-06-22 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 |
CN102034472A (zh) * | 2009-09-28 | 2011-04-27 | 戴红霞 | 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法 |
CN101894549A (zh) * | 2010-06-24 | 2010-11-24 | 中国科学院声学研究所 | 一种语音识别应用领域中的置信度快速计算方法 |
CN101894550A (zh) * | 2010-07-19 | 2010-11-24 | 东南大学 | 基于情感对特征优化的语音情感分类方法 |
CN101950560A (zh) * | 2010-09-10 | 2011-01-19 | 中国科学院声学研究所 | 一种连续语音声调识别方法 |
CN102222500A (zh) * | 2011-05-11 | 2011-10-19 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
-
2011
- 2011-10-21 CN CN2011103215389A patent/CN102436809B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102436809A (zh) | 2012-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102436809B (zh) | 英语口语机考系统中网络语音识别方法 | |
EP3309782B1 (en) | Method, device and system for noise suppression | |
Han et al. | Deep neural network based spectral feature mapping for robust speech recognition. | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
Tolba | A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
Soe Naing et al. | Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System. | |
Eringis et al. | Improving speech recognition rate through analysis parameters | |
Priyadarshani et al. | Dynamic time warping based speech recognition for isolated Sinhala words | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Gupta et al. | Speech enhancement using MMSE estimation and spectral subtraction methods | |
CN112233657A (zh) | 一种基于低频音节识别的语音增强方法 | |
Di Persia et al. | Objective quality evaluation in blind source separation for speech recognition in a real room | |
Patil et al. | Marathi connected word speech recognition system | |
Alam et al. | A study of low-variance multi-taper features for distributed speech recognition | |
Higa et al. | Robust ASR based on ETSI Advanced Front-End using complex speech analysis | |
Shareef et al. | Comparison between features extraction techniques for impairments arabic speech | |
Wu et al. | An environment-compensated minimum classification error training approach based on stochastic vector mapping | |
Rynjah et al. | Khasi speech recognition using hidden Markov model with different spectral features: A comparison | |
Chen et al. | Robust speech recognition using spatial–temporal feature distribution characteristics | |
Mait et al. | Unsupervised phoneme segmentation of continuous Arabic speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130424 Termination date: 20151021 |
|
EXPY | Termination of patent right or utility model |