CN102436809B

CN102436809B - 英语口语机考系统中网络语音识别方法

Info

Publication number: CN102436809B
Application number: CN2011103215389A
Authority: CN
Inventors: 刘健刚; 李霄翔; 储琢佳; 张潇丹; 董静; 赵力; 张萍; 李鲁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-10-21
Filing date: 2011-10-21
Publication date: 2013-04-24
Anticipated expiration: 2031-10-21
Also published as: CN102436809A

Abstract

本发明涉及一种在英语口语机考系统中实现网络语音识别的方案。本方案对传统的谱相减（SS）降噪声技术和倒谱均值规整（CMN）降噪声技术进行改进，同时结合等同于连续状态隐马尔可夫模型（HMM）的概率尺度DP识别方法，提出了一种在英语网考系统中非特定人的网络语音识别方案，并利用其实现了实际环境下网络语音识别装置。本方案采用上述方法，将具有输入幅值谱自适应的SS方法和基于渐进自适应方式MAP算法的CMN方法相结合，大大降低了环境噪声对识别系统的影响。同时，本方案在传统的DP方法基础上，利用概率尺度的DP算法进行识别，使得DSP语音识别装置能够适用于户外不同场合的、非特定人的语音识别，从而使得识别系统范围和识别精度得到了提高。

Description

英语口语机考系统中网络语音识别方法

技术领域

本发明涉及一种网络语音识别技术，特别涉及一种在英语口语机考系统中非特定人的网络语音识别方案。

背景技术

我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目，并于2008年12月20日在全国53所高校实施四级网考试点考试。随着我国四、六级网考试点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端，无论对考生还是大学英语老师都是一个巨大的挑战，是英语教学理念中的一场革命。然而，英语口语机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的，对网络语音提供英语口语机考系统服务一般要求是面对非特定人的，而且由于终端机、传输网路、背景噪声的影响，在很大程度上影响了英语口语机考系统的性能。

利用传统的谱相减(SS)降噪声技术法进行降噪处理仍然是当今主要的降低环境噪声的方法。设对于第i帧语音信号幅值谱的第o元素，噪声下的语音功率为|x_i(ω)|² _o，推定的噪声功率是

，除噪后的语音功率是|x_inew(ω)|² _o，则传统的谱相减(SS)降噪声技术法如(1)式所示。

{| x_{inew} (ω) |}^{2}_{o} = \{\begin{matrix} {| x_{i} (ω) |}^{2}_{o} - α {| {\overset{&OverBar;}{n}}_{i} |}^{2}_{o} & if & {| x_{i} (ω) |}^{2}_{o} > α {| {\overset{&OverBar;}{n}}_{i} |}^{2}_{o} \\ 0 & if & else \end{matrix} - - - (1)

由于传统的谱相减(SS)降噪声技术法考虑噪声为平稳噪声，所以对于整个语音段，噪声功率以及权系数α一般取相同的值。而实际环境下的噪声，例如展览会中的展示隔间内的噪声是非平稳噪声，所以用相同的噪声功率值是不确切的。同样，传统的谱相减(SS)降噪声技术法用相同的权值α，有可能发生减除过度或过少的问题，使得有的区段要么噪声消除不够，要么减除过多产生|x_inew(ω)|² _o失真。

对于由输入和传输电路系统引起的乘法性噪声，利用倒谱均值规整(CMN)降噪声技术方法可以得到比较好的抑制效果。设对于第i帧倒谱的第o元素，噪声下的语音倒谱是C_o(i)，除噪后语音的倒谱是

则传统的倒谱均值规整(CMN)降噪声技术方法如(2)式所示。

{\hat{C}}_{o} (i) = C_{o} (i) - \overset{&OverBar;}{C} - - - (2)

式中

为整个输入语句的倒谱平均值。这种长时倒谱均值规整(CMN)降噪声技术方法存在2个问题，一是由于输入语句中音素的出现频度会改变

的大小，直接影响规整的效果。二是必须到终点为止计算完成以后，才能算出影响了实时性。

特征提取是模式识别的关键问题，因为特征参数的好坏对于语音识别精度有很大影响。常用的识别参数是LPC倒谱系数(LPCC)。

用一片数字信号处理器即DSP实现的语音识别装置，为了节约它的存储和运算成本，一般采用矢量量化(VQ)方法或者概率尺度DP(动态编程)匹配方法进行识别，因为对于小词汇量单词或词组识别系统来讲，VQ和DP方法足以满足识别性能的要求。但是，传统的VQ和DP方法只能适用于特定人的语音识别系统。

发明内容

本发明的目的就在于解决现有技术的缺陷，提出了一种英语口语机考系统中网络语音识别方法，本发明利用改进的谱相减(SS)降噪声技术、倒谱均值规整(CMN)降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案。本发明的技术方案是：

一种英语口语机考系统中网络语音识别方法，包括以下步骤：

1.输入英语口语机考系统中的语音信号a′(t)，t为时间变量；

2.预处理与特征提取

预处理阶段

1)语音信号进行采样：对英语口语机考系统中语音信号进行采样频率f_s为8kHz的采样，采样后的信号为s(t)，

s (t) = a^{'} (t) \cdot δ_{T} (t) = a^{'} (t) \cdot Σ_{n^{'} = - \infty}^{n^{'} = \infty} δ (t - n^{'} / f_{s}) = Σ_{n = - \infty}^{n = \infty} a^{'} (n^{'} / f_{s}) \cdot δ (t - n^{'} / f_{s}),

再进行1-0.98Z^-1的预加重处理，1-0.98Z^-1的时域形式为1-0.98δ(t-1)，预加重后的语音信号b(t)＝s(t)*[1-0.98δ(t-1)]＝s(t)-0.98s(t-1)，其中，δ_T(t)为冲激函数，n′为整数；

2)用窗长25ms，窗移10ms的汉明窗对语音信号进行加窗分帧处理：分帧采用交叠分段的方法，前一帧和后一帧的交叠部分称为帧移长度M，用可移动的有限长度窗口进行加权的方法来实现的，即用窗函数ω′(t)来乘预加重后的语音信号b(t)，从而形成加窗语音信号x(t)，x(t)＝b(t)·ω′(t)，本发明采用汉明窗ω′(t)，其窗函数为：

ω^{'} (t) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πt / (N - 1)], 0 \leq t \leq N - 1 \\ 0, t = else \end{matrix}

N为窗长，窗长即帧长，窗移即N-M，帧移长度M为15ms，

加窗分帧处理后得到的第i帧语音信号为x_i(t)，则x_i(t)满足下式：

x_i(t)＝ω′(t+l)b(t)，0≤t≤N-1

其中，l＝0，1(N-M)，2(N-M)，…，(总帧数-1)(N-M)，M为帧移长度，N为帧长即窗长，

3)语音信号的端点检测：利用语音信号的短时能量进行端点检测

设第i帧语音信号x_i(t)的短时能量用E_i表示，则计算公式如下：

E_{i} = Σ_{t = 0}^{N - 1} {x_{i}}^{2} (t)

设置两个门限，一个较低的门限T_low，T_low＝min(E_i，i＝1，2，...，总帧数)·0.1，数值比较小，对信号的变化比较敏感；一个较高的门限T_high，T_high＝max(E_i，i＝1，2...，总帧数)·0.1，当T_high第一次被超过时，断定为区域语音信号的开始，当短时能量降到T_low以下就代表区域语音信号的结束，

4)利用语音区间检测时使用的短时能量对输入波形数据进行规整，即进行归一化处理，使得输入语音基本上按等幅进行频率分析，方法为：第i帧语音信号x_i(t)的短时能量E_i，归一化后的第i帧语音信号x_i(t)的短时能量为

5)降噪处理：

I：采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声：第i帧语音信号x_i(t)含有噪声的傅里叶变换为x_i(ω)，

ω为频率，j为虚数单位，则第i帧语音信号x_i(t)的幅值谱为|x_i(ω)|，其功率为：|x_i(ω)|²，除噪后的第i帧语音信号为x_inew(t)，其幅值谱为|x_inew(ω)|，

则除噪后的第i帧语音信号的功率为：|x_inew(ω)|²，推定的噪声功率为|n_i(ω)|²，在整个区域语音以外的当前输入第i帧信号为y_i(t)，其帧功率为|y_i(ω)|²，

对于第i帧语音信号幅值谱的第o元素，噪声下的语音功率为|x_i(ω)|² _o，推定的噪声功率是|n_i(ω)|² _o，除噪后的语音功率是|x_inew(ω)|² _o，为了补偿第4)步中由于规整而丢失的能量信息，推定噪声功率估计修正为：|n_i(ω)|² _o＝(1-β)|n_i-1(ω)|² _o+βE_i′|y_i(ω)|² _o，0＜β＜1，本发明中取β＝0.55，

SS权值系数修正为

\hat{α} (i) = \frac{α (i)}{E_{i}}

α (i) = \{\begin{matrix} φ_{1}, & {| x_{i} (ω) |}^{2}_{o} < θ_{1} \\ \frac{φ_{2} - φ_{1}}{θ_{2} - θ_{1}} {| x_{i} (ω) |}^{2}_{o} + φ_{1}, & θ_{1} < {| x_{i} (ω) |}^{2}_{o} < θ_{2} \\ φ_{2}, & {| x_{i} (ω) |}^{2}_{o} > θ_{2} \end{matrix},

其中0＜θ₁，θ₂＜1，φ₁和φ₂是常数其中，φ₁＝0.1，φ₂＝0.3，θ₁＝0.2，θ₂＝0.8，E_i为第i帧语音信号的短时能量，E_i′为第i帧语音信号归一化后的短时能量，|y_i(ω)|² _o为在整个区域用语音以外的当前输入信号帧功率，

除噪后语音的功率为：

{| x_{inew} (ω) |}^{2}_{o} = \{\begin{matrix} {| x_{i} (ω) |}^{2}_{o} - \hat{α} {(i) | n_{i} (ω) |}^{2}_{o} & if & {| x_{i} (ω) |}^{2}_{o} > \hat{α} {(i) {| n_{i} (ω) |}^{2}}_{o} \\ 0 & if & else \end{matrix}

II：利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声：

设对于第i帧倒谱的第o元素，噪声下的语音倒谱是C_o(i)，是采用第I种降噪后的x_inew(t)对数幅值谱的第o元素的傅里叶逆变换，即|x_inew(ω)|_o表示第i帧语音信号幅值谱的第o元素，除噪后语音的倒谱是

{\hat{C}}_{o} (i) = C_{o} (i) - \frac{γ C_{o 0} + Σ_{i = 1}^{k} C_{o} (i)}{γ + k}

式中γ是自适应训练系数，γ＞1，C_o0是表示先验分布的初始估计值，0＜C_o0＜1，k为总帧数，γ＝2，C_o0＝0.95，

6)经过上述预处理过程之后的语音信号为x_new′(t)，t为时间变量，其第i帧语音信号为x_inew′(t)，

特征参数提取阶段

1)对预处理后的每一帧语音信号分别求取14维LPC系数：

设第i帧语音信号为x_inew′(t)的功率谱为|X_inew′(e^jω)|²，X_inew′(e^jω)即信号谱，表示第i帧语音信号x_inew′(t)的傅里叶变换，

由|X_inew′(e^jω)|²＝|H(e^jω)|²求出14维LPC系数a_p，p＝1，2，...，14，

则第i帧语音信号的声道模型系统函数H(z)为：

H (z) = \frac{1}{1 + Σ_{p = 1}^{14} a_{p} z^{- p}} - - - (3)

其冲激响应为h(n″)，

表示h(n″)的复倒谱，则有：

\hat{H} (z) = \ln H (z) = Σ_{n^{''} = 1}^{\infty} \hat{h} (n^{''}) z^{- n^{''}} - - - (4),

将式(3)代入(4)式并将其两边对z^-1求导数，有：

(1 + Σ_{p = 1}^{14} a_{p} z^{- p}) Σ_{n^{''} = 1}^{\infty} n^{''} \hat{h} (n^{''}) z^{- n^{''} + 1} = - Σ_{p = 1}^{14} {pa}_{p} z^{- p + 1}

n″为正整数，令上式左右两边的常数项和z^-1各次幂的系数分别相等，从而可由LPC系数a_p求出LPC复倒谱

\begin{matrix} \hat{h} (n^{''}) = 0, & (n^{''} = 0) \\ \hat{h} (n^{''}) = - a_{n^{''}} - Σ_{p = 1}^{n^{''} - 1} (1 - p / n^{''}) a_{p} \hat{h} (n^{''} - p), & (1 \leq n^{''} \leq 14) \\ \hat{h} (n^{''}) = - Σ_{p = 1}^{14} (1 - p / n^{''}) a_{p} \hat{h} (n^{''} - p), & (n^{''} > 14) \end{matrix}\}

从而LPC倒谱系数LPCC：

c(n″)为LPC倒谱系数LPCC，

2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数：

I：根据人的听觉特性，把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换，求出如下所示的LPC美尔倒谱系数LPCMCC：

{MC}_{g} (d) = \{\begin{matrix} c (n^{''}) + ϵ \cdot {MC}_{0} (d + 1), & g = 0 \\ (1 - ϵ^{2}) \cdot {MC}_{0} (d + 1) + ϵ \cdot {MC}_{1} (d + 1), & g = 1 \\ {MC}_{g - 1} (d + 1) + ϵ \cdot ({MC}_{g} (d + 1) - {MC}_{g - 1} (d)), & g > 1 \end{matrix}

这里，MC_g(d)为LPC美尔倒谱系数LPCMCC，d为迭代次数，g为美尔倒谱阶数，d＝g＝9，c(n″)为LPC倒谱系数，当d＞9时，MC_g(d)＝0，并且当抽样频率为8kHz时，ε取0.31，迭代是从高到低，即d从大到0取值，最后求得的美尔倒谱系数放在MC₀(0)，MC₁(0)，...，MC₉(0)里面，组成一个10维的特征矢量的时间序列，

II：求取一阶的倒谱线性回归系数ΔLPCMCC：

R_{r} (t, T^{''}, ΔT, N^{'}) = \frac{Σ_{X^{'} = 1}^{N^{'}} P_{r} (X^{'}, N^{'}) C [t + [\frac{X^{'} - 1}{N^{'} - 1} - \frac{1}{2}] (T^{''} - ΔT)]}{Σ_{X^{'} = 1}^{N^{'}} P_{r}^{2} (X^{'}, N^{'})}

r为阶数取1，P_r(X′，N′)表示求取r阶线性回归系数时的加权函数，当r＝1时，P_r(X′，N′)＝X′，C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数，ΔT为15ms，由LPCMCC，求出10维的一阶的倒谱线性回归系数ΔLPCMCC，

3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数，组成一个20维的特征参数矢量Vector，

3.语音识别

I.语音识别方法采用基于概率尺度DP识别方法

1)用基于概率尺度的动态规划DP算法进行时间规整

以单词作为一个识别单元，利用模板匹配方法进行识别，在训练阶段，将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库；在识别阶段，将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出，所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整：

待识别语音特征参数共有k帧矢量，设相应的参考模板共有J帧矢量，且k≠J，动态时间规整就是寻找一个时间规整函数

它将测试矢量的时间轴u非线性的映射到模板的时间轴v上，并使该函数满足：

式中，

是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度，D是处于最优时间规整情况下的两矢量的距离，得到的两矢量匹配是累计距离最小的规整函数，接着，用基于概率尺度动态规划DP算法来寻找最优的规整函数

基于概率尺度的DP方法的递推公式为：

G (u, v) = \max \{\begin{matrix} G (u - 2, v - 1) +logP (X_{u - 1} | v) + \log P (X_{u} | v) + \log P_{PS 1} (v) \\ G (u - 1, v - 1) + \log P (X_{u} | v) + \log P_{PS 2} (v) \\ G (u - 1, v - 2) + \log P (X_{u} | v) +log P_{PS 3} (v) \end{matrix}

G(u，v)是当前匹配帧(u，v)的概率，PS1，PS2，PS3为带到改点的路径，DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径，组成的折线段对应的函数即为最优规整函数

a)条件概率P(X_u|v)的计算

假定在状态v观测到的X_u是符合(μ_v，∑_v)的高斯分布，μ_v为均值，∑_v为方差，X_u为第u帧语音特征参数矢量，则条件概率

P (X_{u} | v) = {(2 π)}^{- 10} {| Σ_{v} |}^{- 1 / 2} \times \exp {- 1 / 2 {(X_{u} - μ_{v})}^{t} Σ_{v}^{- 1} (X_{u} - μ_{v})},

∑_v和μ_v为与X_u同维数的向量，维数是20，(X_u-μ_v)^t表示向量(X_u-μ_v)的转置，

为了求出各个时刻的均值和方差，首先选择一个学习样本序列即训练数据序列作为核心样本，然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数

这时各个时刻的均值和方差通过最佳路径函数

找出和核心样本对应时刻的输入帧矢量进行计算和更新，如此重复直到同类的学习数据用完为止，渐进地求出各个时刻的均值和方差。

b)状态转移概率的计算

上述公式里logP_PS1(v)，logP_PS2(v)，logP_PS3(v)分别表示Q((u-2，v-1)→(u，v))、Q((u-1，v-1)→(u，v))、Q((u-1，v-2)→(u，v))三个状态转移的转移概率，计算状态转移概率的方法：各个学习数据和核心样本进行DP匹配时，记下各时刻选择的路径情况，学习完毕后，假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v)，则此时的三个状态转移概率可由下式计算得到：

P_PS1(v)＝PS1(v)/{PS1(v)+PS2(v)+PS3(v)}

P_PS2(v)＝PS2(v)/{PS1(v)+PS2(v)+PS3(v)}

P_PS3(v)＝PS3(v)/{PS1(v)+PS2(v)+PS3(v)}

求出最优规整函数

后，将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴，非线性的映射到作为坐标纵轴的模板矢量的时间轴上：

最后，利用模式匹配的方法进行识别：

最优路径函数的起点与终点之间的距离即为待识别语音与模板语音之间的距离，与待识别语音距离最小的模板对应的单词字音即判为识别结果。

本发明的优点和效果在于：

1.对传统的谱相减(SS)方法进行改善，采用具有输入幅值谱自适应的SS方法，同时将其与基于渐进自适应方式最大后验概率(MAP)算法的倒谱均值规整(CMN)方法相结合，大大降低了噪声对系统的影响。

2.在传统的DP方法基础上，利用概率尺度的DP算法进行识别，使得DSP语音识别装置既能适用于特定人的语音识别系统，更能适用于户外不同场合的、非特定人的语音识别，从而使得识别系统范围大大提高。

3.本发明利用改进的SS、CMN降噪声技术和概率尺度的DP算法实现英语口语机考系统实环境下网络语音识别方案，其语音识别精度较高。

附图说明

图1——非对称型DP路径。

图2——实施步骤流程图。

具体实施方式

下面结合附图，对本发明所述的技术方案作进一步的阐述。

图1是非对称型DP路径。

图2是实施步骤流程图。

1.输入英语口语机考系统中的语音信号a′(t)，t为时间变量；

2.预处理与特征提取

预处理阶段

s (t) = a^{'} (t) \cdot δ_{T} (t) = a^{'} (t) \cdot Σ_{n^{'} = - \infty}^{n^{'} = \infty} δ (t - n^{'} / f_{s}) = Σ_{n = - \infty}^{n = \infty} a^{'} (n^{'} / f_{s}) \cdot δ (t - n^{'} / f_{s}),

ω^{'} (t) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πt / (N - 1)], 0 \leq t \leq N - 1 \\ 0, t = else \end{matrix}

N为窗长，窗长即帧长，窗移即N-M，帧移长度M为15ms，

x_i(t)＝ω′(t+l)b(t)，0≤t≤N-1

E_{i} = Σ_{t = 0}^{N - 1} {x_{i}}^{2} (t)

5)降噪处理：

I：采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声：

第i帧语音信号x_i(t)含有噪声的傅里叶变换为x_i(ω)，

SS权值系数修正为

\hat{α} (i) = \frac{α (i)}{E_{i}}

α (i) = \{\begin{matrix} φ_{1}, & {| x_{i} (ω) |}^{2}_{o} < θ_{1} \\ \frac{φ_{2} - φ_{1}}{θ_{2} - θ_{1}} {| x_{i} (ω) |}^{2}_{o} + φ_{1}, & θ_{1} < {| x_{i} (ω) |}^{2}_{o} < θ_{2} \\ φ_{2}, & {| x_{i} (ω) |}^{2}_{o} > θ_{2} \end{matrix},

除噪后语音的功率为：

{| x_{inew} (ω) |}^{2}_{o} = \{\begin{matrix} {| x_{i} (ω) |}^{2}_{o} - \hat{α} {(i) | n_{i} (ω) |}^{2}_{o} & if & {| x_{i} (ω) |}^{2}_{o} > \hat{α} {(i) {| n_{i} (ω) |}^{2}}_{o} \\ 0 & if & else \end{matrix}

{\hat{C}}_{o} (i) = C_{o} (i) - \frac{γ C_{o 0} + Σ_{i = 1}^{k} C_{o} (i)}{γ + k}

特征参数提取阶段

1)对预处理后的每一帧语音信号分别求取14维LPC系数：

则第i帧语音信号的声道模型系统函数H(z)为：

H (z) = \frac{1}{1 + Σ_{p = 1}^{14} a_{p} z^{- p}} - - - (3)

其冲激响应为h(n″)，

表示h(n″)的复倒谱，则有：

\hat{H} (z) = \ln H (z) = Σ_{n^{''} = 1}^{\infty} \hat{h} (n^{''}) z^{- n^{''}} - - - (4),

将式(3)代入(4)式并将其两边对z^-1求导数，有：

(1 + Σ_{p = 1}^{14} a_{p} z^{- p}) Σ_{n^{''} = 1}^{\infty} n^{''} \hat{h} (n^{''}) z^{- n^{''} + 1} = - Σ_{p = 1}^{14} {pa}_{p} z^{- p + 1}

\begin{matrix} \hat{h} (n^{''}) = 0, & (n^{''} = 0) \\ \hat{h} (n^{''}) = - a_{n^{''}} - Σ_{p = 1}^{n^{''} - 1} (1 - p / n^{''}) a_{p} \hat{h} (n^{''} - p), & (1 \leq n^{''} \leq 14) \\ \hat{h} (n^{''}) = - Σ_{p = 1}^{14} (1 - p / n^{''}) a_{p} \hat{h} (n^{''} - p), & (n^{''} > 14) \end{matrix}\}

从而LPC倒谱系数LPCC：

c(n″)为LPC倒谱系数LPCC，

{MC}_{g} (d) = \{\begin{matrix} c (n^{''}) + ϵ \cdot {MC}_{0} (d + 1), & g = 0 \\ (1 - ϵ^{2}) \cdot {MC}_{0} (d + 1) + ϵ \cdot {MC}_{1} (d + 1), & g = 1 \\ {MC}_{g - 1} (d + 1) + ϵ \cdot ({MC}_{g} (d + 1) - {MC}_{g - 1} (d)), & g > 1 \end{matrix}

II：求取一阶的倒谱线性回归系数ΔLPCMCC：

R_{r} (t, T^{''}, ΔT, N^{'}) = \frac{Σ_{X^{'} = 1}^{N^{'}} P_{r} (X^{'}, N^{'}) C [t + [\frac{X^{'} - 1}{N^{'} - 1} - \frac{1}{2}] (T^{''} - ΔT)]}{Σ_{X^{'} = 1}^{N^{'}} P_{r}^{2} (X^{'}, N^{'})}

3.语音识别

I.语音识别方法采用基于概率尺度DP识别方法

1)用基于概率尺度的动态规划DP算法进行时间规整

式中，是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度，D是处于最优时间规整情况下的两矢量的距离，得到的两矢量匹配是累计距离最小的规整函数，接着，用基于概率尺度动态规划DP算法来寻找最优的规整函数

基于概率尺度的DP方法的递推公式为：

G (u, v) = \max \{\begin{matrix} G (u - 2, v - 1) +logP (X_{u - 1} | v) + \log P (X_{u} | v) + \log P_{PS 1} (v) \\ G (u - 1, v - 1) + \log P (X_{u} | v) + \log P_{PS 2} (v) \\ G (u - 1, v - 2) + \log P (X_{u} | v) +log P_{PS 3} (v) \end{matrix}

a)条件概率P(X_u|v)的计算

P (X_{u} | v) = {(2 π)}^{- 10} {| Σ_{v} |}^{- 1 / 2} \times \exp {- 1 / 2 {(X_{u} - μ_{v})}^{t} Σ_{v}^{- 1} (X_{u} - μ_{v})},

这时各个时刻的均值和方差通过最佳路径函数

b)状态转移概率的计算

P_PS1(v)＝PS1(v)/{PS1(v)+PS2(v)+PS3(v)}

P_PS2(v)＝PS2(v)/{PS1(v)+PS2(v)+PS3(v)}

P_PS3(v)＝PS3(v)/{PS1(v)+PS2(v)+PS3(v)}

求出最优规整函数

2)利用模式匹配的方法进行识别

最优路径函数

的起点与终点之间的距离即为待识别语音与模板语音之间的距离，与待识别语音距离最小的模板对应的单词字音即判为识别结果。

II.语音识别试验及结果输出

本发明进行了两个实验，第一个实验是非特定人英语连续数字语音识别实验。采用35个4位数英语连续语音数字，邀请20名男性每个人对35个4位数字各发音3遍，其中12个人的发音作为训练用数据，另8个人的发音作为识别用数据。然后，利用日本电子协会标准噪声数据库中的行驶中的汽车(2000cc组，一般道路)内的噪声(平稳噪声)和展览会中的展示隔间内的噪声(非平稳噪声)，把这些噪声按一定的信噪比(SNR)叠加进无噪连续数字语音中组成带噪语音。并且为了模拟网络语音，把这些语音信号先通过如下的滤波器再进行识别处理。识别结果如表1所表。

H (f) = \frac{(f^{2} / f_{h} f_{l} + f^{2} / f_{h}^{2}) + j (f / f_{h} - f^{3} / f_{l} f_{h}^{2})}{\sqrt{{(1 - f^{2} / f_{l} f_{h})}^{2} + {(f^{2} / f_{h} + f^{2} / f_{l})}^{2}}}

f_l＝300Hz f_h＝3400Hz

表1：英语连续数字语音识别结果[％]

第二个识别实验是户外实际场所的电话语音识别实验。我们选择50个人名，由3人对50个人名各发音3遍，其中2遍发音作为训练用数据，另1遍发音作为识别用数据。实验是利用在学校门口、交通道路和学校食堂3种不同的环境下用电话采集的语音进行的。结果是这3种环境下的识别概率分别是96％、90.4％、92.4％，达到了较高的识别精度。

Claims

1.一种英语口语机考系统中网络语音识别方法，其特征在于，包括一些步骤：

1.输入英语口语机考系统中的语音信号a′(t)，t为时间变量；

2.预处理与特征提取

预处理阶段

s (t) = a^{'} (t) \cdot δ_{T} (t) = α^{'} (t) \cdot Σ_{n^{'} = - \infty}^{n^{'} = \infty} δ (t - n^{'} / f_{s}) = Σ_{m = - \infty}^{n = \infty} a^{'} (n^{'} / f_{s}) \cdot δ (t - n^{'} / f_{s})

，再进行1-0.98Z^-1的预加重处理，1-0.98Z^-1的时域形式为1-0.98δ(t-1)，预加重后的语音信号b(t)=s(t)*[1-0.98δ(t-1)]=s(t)-0.98s(t-1)，其中，δ_T (t)为冲激函数，n′为整数；

2)用窗长25ms, 窗移10ms的汉明窗对语音信号进行加窗分帧处理：分帧采用交叠分段的方法，前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的，即用窗函数ω′(t)来乘预加重后的语音信号b(t)，从而形成加窗语音信号x(t)，x(t)= b(t)· ω′(t)，本发明采用汉明窗ω′(t)，其窗函数为：

ω^{'} (t) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πt / (N - 1)], 0 \leq t \leq N - 1 \\ 0, t = else \end{matrix}

N为窗长，窗长即帧长，窗移即N-M，帧移长度M为15ms，

加窗分帧处理后得到的第i帧语音信号为，则x_i(t)满足下式：

x_i(t)= ω′(t-l)b(t),0≤t≤N-1

其中，l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M)，M为帧移长度，N为帧长即窗长，

E_{i} = Σ_{t = 0}^{N - 1} {x_{i}}^{2} (t)

设置两个门限，一个较低的门限T_low，T_low =min(E_i,i=1,2,…,总帧数)·0.1，数值比较小，对信号的变化比较敏感；一个较高的门限T_high，T_high=max(E_i,i=1,2,…,总帧数)·0.1，当T_high第一次被超过时，断定为区域语音信号的开始，当短时能量降到T_low以下就代表区域语音信号的结束，

4) 利用语音区间检测时使用的短时能量对输入波形数据进行规整，即进行归一化处理，使得输入语音基本上按等幅进行频率分析，方法为：第i帧语音信号x_i(t)的短时能量E_i，归一化后的第i帧语音信号x_i(t)的短时能量为

，

5) 降噪处理：

第i帧语音信号x_i(t)含有噪声的傅里叶变换为x_i(ω)，

，ω为频率，j为虚数单位，则第i帧语音信号x_i(t)的幅值谱为|x_i(ω)|，其功率为：|x_i(ω)|²，除噪后的第i帧语音信号为x_inew(ω)，其幅值谱为|x_inew(ω)|，

，则除噪后的第i帧语音信号的功率为：|x_inew(ω)|²，推定的噪声功率为|n_i(ω)|²，在整个区域语音以外的当前输入第i帧信号为y_i(t)，其帧功率为|y_i(ω)|²，，对于第i帧语音信号幅值谱的第o元素，噪声下的语音功率为|x_i(ω)|² _o，推定的噪声功率是|n_i(ω)|² _o，除噪后的语音功率是|x_inew(ω)|² _o，为了补偿第4)步中由于规整而丢失的能量信息，推定噪声功率估计修正为：|n_i(ω)|² _o=(1-β)|n_i-1(ω)|² _o+βE_i′|y_i(ω)|² _o，0＜β＜1，本发明中取β=0.55，

SS权值系数修正为

，

\hat{α} (i) = \frac{α (i)}{E_{i}}

α (i) = \{\begin{matrix} φ_{1}, & {| x_{i} (ω) |}^{2}_{o} < θ_{1} \\ \frac{φ_{2} - φ_{1}}{θ_{2} - θ_{1}} {| x_{i} (ω)}}^{2}_{o} + φ_{1}, & θ_{1} < {| x_{i} (ω) |}^{2}_{o} < θ_{2} \\ φ_{2}, & {| x_{i} (ω) |}^{2}_{o} > θ_{2} \end{matrix}

，其中0＜θ₁,θ₂＜1，φ₁和φ₂是常数其中，φ₁=0.1, φ₂=0.3,θ₁=0.2, θ₂=0.8，E_i为第i帧语音信号的短时能量，E_i′为第i帧语音信号归一化后的短时能量，|y_i(ω)|² _o为在整个区域用语音以外的当前输入信号帧功率，

除噪后语音的功率为：

{| x_{inew} (ω) |}^{2}_{o} = \{\begin{matrix} {| x_{i} (ω) |}^{2}_{o} - \hat{α} (i) {| n_{i} (ω) |}^{2}_{o} & if {| x_{i} (ω) |}^{2}_{o} > \hat{α} (i) {| n_{i} (ω) |}^{2}_{o} \\ 0 & if else \end{matrix}

II：利用基于最大后验概率（MAP）的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声：

设对于第i帧倒谱的第o元素，噪声下的语音倒谱是C_o(i)，是采用第I种降噪后的x_inew(t)对数幅值谱的第o元素的傅里叶逆变换，即

， |x_inew(ω)|_o表示第i帧语音信号幅值谱的第o元素，除噪后语音的倒谱是

，

{\hat{C}}_{o} (i) = C_{o} (i) - \frac{γ C_{o 0} + Σ_{i = 1}^{k} C_{o} (i)}{γ + k}

式中γ是自适应训练系数，γ＞1，C_o0是表示先验分布的初始估计值，0＜C_o0＜1，k为总帧数，γ=2，C_o0=0.95，

6) 经过步骤1）-5）的预处理过程之后的语音信号为x_new′(t)，t为时间变量，其第i帧语音信号为x_inew′(t)，

特征参数提取阶段

1) 对预处理后的每一帧语音信号分别求取14维LPC系数：

，由|x_inew′(e^jω)|²=|H(e^jω)|²求出14维LPC系数a_p,p=1,2,…,14，

则第i帧语音信号的声道模型系统函数H(z)为：

H (z) = \frac{1}{1 + Σ_{p = 1}^{14} a_{p} z^{- p}} - - - (3)

其冲激响应为h(n″)，表示h(n″)的复倒谱，则有：

\hat{H} (z) = \ln H (z) = Σ_{n^{''} = 1}^{\infty} \hat{h} (n^{''}) z^{- n^{''}} - - - (4),

将式（3）代入（4）式并将其两边对z^-1求导数，有：

(1 + Σ_{p = 1}^{14} a_{p} z^{- p}) Σ_{n^{''} = 1}^{\infty} n^{''} \hat{h} (n^{''}) z^{- n^{''} + 1} = - Σ_{p = 1}^{14} p a_{p} z^{- p + 1}

n″为正整数，令上式左右两边的常数项和z^-1各次幂的系数分别相等，从而可由LPC系数a_p求出LPC复倒谱：

\begin{matrix} \hat{h} (n^{''}) = 0, & (n^{''} = 0) \\ \hat{h} (n^{''}) = - a_{n^{''}} - Σ_{p = 1}^{n^{''} - 1} (1 - p / n^{''}) a_{p} \hat{h} (n^{''} - p), & (1 \leq n^{''} \leq 14) \\ \hat{h} (n^{''}) = - Σ_{p = 1}^{14} (1 - p / n^{''}) a_{p} \hat{h} (n^{''} - p), & (n^{''} > 14) \end{matrix}\}

从而LPC倒谱系数LPCC：

，c(n″)为LPC倒谱系数LPCC，

2) 利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC 系数△LPCMCC作为语音特征参数：

I:根据人的听觉特性，把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换，求出如下所示的LPC美尔倒谱系数LPCMCC：

{MC}_{g} (d) = \{\begin{matrix} c (n^{''}) + ϵ \cdot {MC}_{0} (d + 1), & g = 0 \\ (1 - ϵ^{2}) \cdot {MC}_{0} (d + 1) + ϵ \cdot {MC}_{1} (d + 1), & g = 1 \\ {MC}_{g - 1} (d + 1) + ϵ \cdot ({MC}_{g} (d + 1) - {MC}_{g - 1} (d)), & g > 1 \end{matrix}

这里，MC_g(d)为LPC美尔倒谱系数LPCMCC，d为迭代次数，g为美尔倒谱阶数，d=g=9， c(n″)为LPC倒谱系数，当d＞9时，MC_g(d)=0，并且当抽样频率为8kHz时，ε取0.31，迭代是从高到低，即d从大到0取值，最后求得的美尔倒谱系数放在MC₀(0), MC₁(0),…, MC₉(0)里面，组成一个10维的特征矢量的时间序列，

II: 求取一阶的倒谱线性回归系数△LPCMCC：

R_{r} (t, T^{''}, ΔT, N^{'}) = \frac{Σ_{X^{'} = 1}^{N^{'}} P_{r} (X^{'}, N^{'}) C [t + [\frac{X^{'} - 1}{N^{'} - 1} - \frac{1}{2}] (T^{''} - ΔT)}{Σ_{X^{'} = 1}^{N^{'}} P_{r}^{2} (X^{'}, N^{'})}

r为阶数取1， P_r(X′,N′)表示求取r阶线性回归系数时的加权函数，当r=1时， P_r(X′,N′)= X′，C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数，ΔT为15ms，由LPCMCC，求出10维的一阶的倒谱线性回归系数△LPCMCC，

3) 将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数△LPCMCC作为语音特征参数，组成一个20维的特征参数矢量Vector，

3. 语音识别

I. 语音识别方法采用基于概率尺度DP识别方法

1）用基于概率尺度的动态规划DP算法进行时间规整

，它将测试矢量的时间轴u非线性的映射到模板的时间轴v上，并使该函数满足：

式中，

：

基于概率尺度的DP方法的递推公式为：

G (u, v) = \max \{\begin{matrix} G (u - 2, v - 1) + \log P (X_{u - 1} | v) + \log P (X_{u} | v) + {\log P}_{PS 1} (v) \\ G (u - 1, v - 1) + \log P (X_{u} | v) + \log P_{PS 2} (v) \\ G (u - 1, v - 2) + \log P + \log P_{PS 3} (v) \end{matrix}

G(u,v)是当前匹配帧(u,v)的概率，PS1,PS2,PS3为带到改点的路径，DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径，组成的折线段对应的函数即为最优规整函数，

a) 条件概率P(X_u|v)的计算

假定在状态v观测到的X_u是符合(μ_v,Σ_v)的高斯分布，μ_v为均值，Σ_v为方差，X_u为第u帧语音特征参数矢量，则条件概率

P (X_{u} | v) = {(2 π)}^{- 10} {| Σ_{v} |}^{- 1 / 2} \times \exp {- 1 / 2 {(X_{u} - μ_{v})}^{t} Σ_{v}^{- 1} (X_{u} - μ_{v})}

，Σ_v和μ_v为与X_u同维数的向量，维数是20，(X_u-μ_v)^t表示向量(X_u-μ_v)的转置，

，这时各个时刻的均值和方差通过最佳路径函数

找出和核心样本对应时刻的输入帧矢量进行计算和更新，如此重复直到同类的学习数据用完为止，渐进地求出各个时刻的均值和方差；

b) 状态转移概率的计算

上述公式里logP_PS1(v),logP_PS2(v),logP_PS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率，计算状态转移概率的方法：各个学习数据和核心样本进行DP匹配时，记下各时刻选择的路径情况，学习完毕后，假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v)，则此时的三个状态转移概率可由下式计算得到：

\begin{matrix} P_{PS 1} (v) = PS 1 (v) / {PS 1 (v) + PS 2 (v) + PS 3 (v)} \\ P_{PS 2} (v) = PS 2 (v) / {PS 1 (v) + PS 2 (v) + PS 3 (v)} \\ P_{PS 3} (v) = PS 3 (v) / {PS 1 (v) + PS 2 (v) + PS 3 (v)} \end{matrix}

求出最优规整函数

，

最后，利用模式匹配的方法进行识别：

最优路径函数