CN1464501A

CN1464501A - 语音识别系统中限制观测概率最低取值的抗冲击噪声方法

Info

Publication number: CN1464501A
Application number: CN02123439A
Authority: CN
Inventors: 丁沛; 曹志刚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2002-06-28
Filing date: 2002-06-28
Publication date: 2003-12-31
Anticipated expiration: 2022-06-28
Also published as: CN1188830C

Abstract

语音识别系统中限制观测概率最低取值的抗冲击噪声方法属于语音识别技术领域，其特征在于：它是在隐含马尔可夫模型概率统计识别方法的最佳状态序列搜索阶段中，先用分散指数对语音特征的各维进行对噪声敏感程度的划分，再用门限对其中敏感特征的观测概率进行最低取值限制，以便更有效的消除噪声带来的影响。同时也保留更多的对识别有用的信息。它除了能显著提高语音识别系统在冲击噪声中的性能，还具有以下优点：附加计算量非常小，几乎不影响识别速度；不需要有关噪声的先验知识；合理的特征划分和门限选择能够保证在纯净情况下的正常识别，以及对传统HMM框架的改进是在最后的识别阶段，因此可以在前面加入其他的抗噪声算法。

Description

语音识别系统中限制观测概率最低取值的抗冲击噪声方法

技术领域

语音识别系统中限制观测概率最低取值的抗冲击噪声方法属于语音识别技术领域，尤其涉及隐含马尔可夫模型(Hidden Markov Model，即HMM)的概率统计识别方法的领域。

背景技术

语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文字或命令的技术。随着信息技术的迅猛发展，人们对信息的获取也越来越大，同时也希望能有一个友好的人机界面，以实现与机器的轻松交流。自然语言是人类最灵活、最有效、最方便的交流媒介，所以通过语音识别的手段实现和机器的交流自然而然成为人们追求的目标。语音识别有着广阔的应用市场，如识别出人名关键词进行电话分机的自动切换，再如用户询问一些交通、天气、股市等的问题，计算机对用户语音识别后自动从数据库中调用相应的信息传递给用户，等等。语音识别是语音智能处理技术领域里炙手可热的课题。

自动语音识别(Automatic Speech Recognition，ASR) 已经历了差不多半个世纪的研究历程。著名的隐含马尔可夫模型(Hidden Markov Model，HMM)的使用是语音识别发展史上的里程碑。基于HMM的概率统计识别方法目前仍然是语音识别研究中最常用的模型框架。

隐含马尔可夫模型可以看成是一个有限状态自动机，见图1，这是一个最常用的HMM的拓扑结构。在每一个离散时刻t，它只能处于有限多种状态中的某一种状态。假设允许出现的状态有U种，记之为S_l，l＝1～U。若自动机在时刻t所处的状态用q(t)表示，那么q(t)只能等于S₁～S_U中的某一个，这可表述为q(t)∈{S₁～S_U}，t。如果此自动机开始运行的时间起点定为t＝1，那么在以后每一时刻t它所处的状态以概率方式取决于初始状态概率矢量π和状态转移概率矩阵A。对于任何时刻t，(t≥1)，自动机的状态q(t)取S₁～S_U中哪一种的概率只取决于前一时刻(t-1)所处的状态，而与更前的任何时刻所取的状态无关。这样，由此产生的状态序列q(1)，q(2)，q(3)，…是一条一阶马尔可夫链。此系统在任何时刻t所处的状态q(t)隐藏在系统内部，不为外界所见，外界只能得到系统在该状态下提供的随机输出(语音信号特征的概率)，隐含马尔可夫模型由此得名。

我们知道，语音信号具有短时平稳特性。为此，可以将语音划分为不同的短时段，每段对应于HMM的一个状态，段与段之间的迁移可以用HMM中状态到状态的转移来表示。每个状态具有特定的模型参数，可以描述一帧语音的平稳的统计特性，如果下一帧语音具有相同的统计特性，则状态不转移，或者说下一个状态仍然跳到本状态，反之如果下一帧语音的统计特性变化了，则下一个状态会跳到与该段语音统计特性相符的状态。

由上可以看出，隐含马尔可夫模型是建立在一定物理意义上的数学模型，其中的各状态相对于发音器官在人说话中所经历的每个相对稳定的过程，比较贴切的描述了语音信号的时变性和准平稳性。

图1示出了HMM对输入语音的描述。图中语音为中文的“他去无锡市”。我们同时用相应的音子来标注输入语音。各音子标注相对于一个HMM。我们在图中示出了一个从左到右的HMM拓扑结构。各状态有相应的输出概率分布。状态1和状态9分别为起始状态和终止状态，它们用来将不同的HMM串接起来，只是一个不占时间的过渡状态，本身并不产生对外的输出。我们用实线画出了不同标注划分的语音倒谱均值。

HMM可以用如下的参数来具体表示(为表述方便，直接用状态编号i，j表示状态集合{S₁～S_U}中的第i个和第j个状态)：

A-状态转移概率矩阵，元素为：

a_ij＝P(j|i)，1≤i，j≤U (1)

表示由状态i到状态j的概率。根据转移概率的定义，我们有，

Σ_{j = 1}^{U} a_{ij} = 1, &ForAll; 1 \leq i \leq U - - - - (2)

其中U表示模型状态总数。在图1中所示的最常用的具有由左到右拓扑结构的HMM中，A实际上为一双线对角阵。

B-输出概率密度：

p(X(t)|q(t)＝i) (3)

表示在状态q(t)＝i，对于观测语音特征X(t)的似然值。语音信号特征的概率分布往往用高斯分布的叠加来逼近：

p (X | q) = Σ_{k = 1}^{M} w_{k} N (X; μ_{k}, Σ_{k})

= Σ_{k = 1}^{M} w_{k} (Π_{n = 1}^{N} \frac{1}{\sqrt{2 π} σ_{kn}} \exp (\frac{{- (x_{n} - μ_{kn})}^{2}}{σ_{kn}^{2}})) - - - (4)

为方便表述，省略时间标号t和状态编号i，其中X＝[x₁，x₂，…，x_N]是N维观测特征矢量，μ_k＝[μ_k1，μ_k2，…μ_kN]，

Σ_{k} = [σ_{k 1}^{2}, σ_{k 2}^{2}, \cdot \cdot \cdot, σ_{kN}^{2}]

和w_k分别是高斯分布N(X；μ_k，∑_k)的均值，方差和权重，由于[x₁，x₂，…，x_N]一般都是经过正交变换得到的，所以高斯分布的协方差矩阵用对角阵∑_k来描述。从(4)中可以看到，观测概率密度函数是由M个N维高斯分布按一定的权重叠加而成；由于每一个高斯分布的协方差矩阵均为对角阵，因此每个高斯分布可以写成N个1维高斯分布连乘的形式。

π-各状态的起始概率分布。元素π_i∈[0，1]，1≤i≤U。在图1所示的HMM中，状态1是唯一的起始状态，所以π₁＝1，其余状态的起始概率均为0。

以上参数是用纯净语音通过训练过程得到的。训练将通过训练语音数据来调整上述参数，也就获得了语音特征的统计信息。训练结束后，就可以进行识别了。

基于HMM的语音识别是将输入的语音特征序列[X(1)，X(2)，…，X(T]，根据最大似然准则，搜索出最佳状态序列

\hat{Q} = [\hat{q} (1), \hat{q} (2), \cdot \cdot \cdot, \hat{q} (T)],

从而揭开HMM的隐含部分，其中T是待识别的语音的长度，共有T帧特征。这一过程可以表述为：

\hat{Q} = \underset{q (t) &Element; {S_{1} ~ S_{U}} &ForAll; 1 \leq t \leq T}{\underset{Q = [q (1), q (2), \cdot \cdot \cdot, q (T)]}{\arg \max}} {P (q (1), q (2), \cdot \cdot \cdot, q (T), X (1), X (2), \cdot \cdot \cdot, X (T)}

= \underset{q (t) &Element; {S_{1} ~ S_{U}}, &ForAll; 1 \leq t \leq T}{\underset{Q = [q (1), q (2), \cdot \cdot \cdot, q (T)]}{\arg \max}} {\underset{t}{Π} (P (X (t) | q (t)) \cdot P (q (t) | q (t - 1)))}

取对数

= \underset{q (t) &Element; {S_{1} ~ S_{U}}, &ForAll; 1 \leq t \leq T}{\underset{Q = [q (1), q (2), \cdot \cdot \cdot, q (T)]}{\arg \max}} {\underset{t}{Σ} (\log (P (X (t) | q (t))) + \log (P (q (t) | q (t - 1))))} - - - - (5)

= \underset{q (t) &Element; {S_{1} ~ S_{U}}, &ForAll; 1 \leq t \leq T}{\underset{Q = [q (1), q (2), \cdot \cdot \cdot, q (T)]}{\arg \max}} {\underset{t}{Σ} \log (P (X (t) | q (t))) + \underset{t}{Σ} \log (P (q (t) | q (t - 1)))}

其中

\underset{t}{Σ} \log p (X (t) | q (t))

是累积观测对数概率值，

\underset{t}{Σ} \log P (q (t) | q (t - 1))

是累积状态转移对数概率值。从(5)式中可以看到，识别过程就是搜索最优的状态序列，候选状态序列的长度为T，每个时刻有U种状态可选择。判断最优状态序列的准则为该状态序列的概率最大，包括该状态序列上累积观测概率对数值和累积状态转移对数概率值。

对于可能的状态序列Q＝[q(1)，q(2)，…，q(T)]，q(t)∈{S₁～S_U}1≤t≤T，一共有U^T种选择，因此对(5)式直接求解的计算量是非常巨大的，在实际系统中，识别的核心算法是Viterbi迭代算法。定义：

δ_{t} (i) = \max_{q (1), q (2), \cdot \cdot \cdot, q (t - 1)} P (q (1), q (2), \cdot \cdot \cdot, q (t - 1), q (t) = i, X (1), X (2), \cdot \cdot \cdot, X (t)) - - - - (6)

即，δ_t(i)为在时刻t，以指定i为此刻的状态，对于部分观测X(1)X(2)…X(t)，部分路径q(1)q(2)…q(t-1)，q(t)＝i的最大似然值。Viterbi算法为迭代上式的动态规划算法：

①初始化

δ_t(i)＝π_ip(X(1)|q(1)＝i)，1≤i≤U (7)

_t(i)为空 (8)

②迭代：

δ_{t} (j) = \max_{1 \leq i \leq IJ} [δ_{t - 1} (i) a_{ij}] p (X (t) | q (t) = j) - - - - (9)

根据δ_t(j)的定义，其计算可以通过搜索前一时刻(t-1)的所有的δ_t-1(i)，1≤i≤U得到。这样就避免了t时刻之前的重复计算。

_t(j)记录了δ_t(j)是具体由哪一个δ_t-1(i)跳转到状态j得到的。

③终止：

最大概率

P^{*} = \max_{1 \leq i \leq U} [δ_{T} (i)] - - - - (11)

根据定义：

δ_{t} (T) = \max_{q (1), q (2), \cdot \cdot \cdot, q (T - 1)} P (q (1), q (2), \cdot \cdot \cdot, q (T) = i, X (1), X (2), \cdot \cdot \cdot, X (T)),

这和(5)式中的最优结果非常接近，只是δ_t(T)中最后一个状态是指定的。因此考虑所有可能的状态后得到的P^*即为(5)式中最优状态序列对应的概率。

最佳路径的最后的状态

q^{*} (T) = \underset{1 \leq i \leq U}{\arg \max} [δ_{T} (i)] - - - - (12)

④通过回溯依次输出最佳路径上的其它状态：

q^*(t)＝_t+1(q^*(t+1))，t＝T-1，T-2，…，1 (13)

可以看出，δ_t(i)用来记录在时刻t各状态产生部分输出的最大概率，而_t(j)则用来记录路径的连接信息。

目前纯净语音识别已达到一个比较成熟的阶段，以IBM的Via Voice为代表，对连续语音的识别率可达到90％以上，但是对背景噪声和输入话筒有较严格的要求，否则系统性能将会有很大的下降。造成这种情况的原因是训练环境和识别环境的失配。现在很多识别系统的参数都是在实验室环境中训练得到的，训练语音大多是在安静背景下，通过高质量麦克风采集的。而到了实际的应用场合，由于多种因素的影响，识别语音不可避免的会和系统参数存在失配，从而造成实际性能和实验室中的性能的大相径庭。

基于HMM的语音识别是一种统计的方法，实际运用中的测试语音和训练语音在统计特性上越接近，则识别精度越高；反之则识别精度将会急剧下降。许多无法预测的情况导致测试环境和训练环境的失配，所以识别系统的鲁棒性是其走向应用，步入市场的极其关键的制约因素，如果没有一定的鲁棒性，则这些识别系统只能在实验室里作纸上谈兵的游戏。

提高语音识别系统对冲击噪声的鲁棒性，是目前该领域中一个非常引人注目的问题。随着无线数字通信以及互联网的迅猛发展，语音识别系统将越来越多的面对来自上述信道的语音识别任务。例如，系统要求能够对手机或IP电话查询语音作出正确的识别，并根据识别结果反馈给用户正确的回答。由于无线信道中的干扰，或者是IP电话中的丢包，被错误传输的语音帧在接收端将无法恢复成原始语音，而会被译码成噪声片段，即冲击噪声。上述干扰和丢包等情况在无线信道和互联网中是经常发生的事，所以冲击噪声是上述信道特有的对语音识别不利的因素。

冲击噪声造成的当前语音特征与训练模型的严重失配，使得当前帧的观测概率p(X|q)远远低于正常的值，此时的最佳状态选择的可信度是非常低的，因此会出现大量的错误。比如在正常的无噪情况下，正确路径最后累计的观测对数概率值

\underset{t}{Σ} \log p (X (t) | q (t)),

比错误竞争路径大20，此时系统会选择正确的路径；而当出现冲击噪声时，此时的观测对数概率值，log(p(X|q))会比正常值低许多，正确路径的此处的概率比较并不能提供有效的识别信息，反而往往会扰乱正常的识别，如正确路径的观测对数概率值会比错误的低10，经过几帧后，正确路径在无噪段获得的累积概率优势将不复存在，而错误路径则依靠在噪声帧获得的不可信的概率优势被识别器最终选取。图2(b)给出了冲击噪声影响下的观测似然值。此处的识别特征是13维的MFCC(Mel-Scaled Frequency Cepstral coefficients)，即[C₀，C₁，…，C₁₂]。在冲击噪声环境中，最佳状态序列的搜索希望能够按照正确路径进行，即能够识别出无噪声情况下的结果。但是在噪声帧，如第4～第10帧，正确路径的观测概率远远低于错误的竞争路径的观测概率，尽管后者也非常低。观测概率差距造成最佳状态序列的搜索偏移到错误竞争路径上来，从而识别出错误的结果。

冲击噪声造成识别时语音特征和训练模型的严重失配，基于传统HMM的语音识别系统在这种噪声环境中的性能将急剧下降，甚至远远低于所能允许的最低限度。因此，语音识别系统是否包含了有效的抗冲击噪声技术是其今后能否真正达到实用的关键问题。

一些经典的抗噪声技术，如并行模型合并(Parallel Model Combination)，语音增强(Speech Enhancement)，倒谱均值归一化(Cepstral Mean Normalization)等，对冲击噪声的效果都不理想。这是因为这些方法需要得到噪声的先验知识，随机性是冲击噪声的最大特点，因此上述条件在实际应用中很难得到满足。

目前也出现了一些专门针对冲击噪声的方法，这些方法的核心是前端的冲击噪声检测和被损伤的语音帧的恢复。这类方法有两个明显的缺点：

(1)冲击噪声检测和数据重构所带来的附加运算将严重影响识别速度。

(2)没有考虑前端数据重构和识别器的匹配问题，这限制了识别器性能的改善空间。

因此，这类方法仍然限制了语音识别系统的实用性。

发明内容

本发明的目的在于提出一种语音识别系统中限制观测概率最低取值的抗冲击噪声方法来解决上述问题，该方法可用于FOP(Flooring Observation Probability，即限制观测概率最低取值)抗冲击噪声自动语音识别系统中。它基于对传统的HMM语音识别框架进行改进，通过对观测概率p(X(t)|q(t))的最低取值限制，直接了消除冲击噪声对识别器造成的影响，从而提高了系统在此类环境中的稳健性。

FOP抗冲击噪声自动语音识别系统设计出发点为：在语音识别最佳状态序列搜索过程中，设置一门限对观测概率最低取值进行限制，这样冲击噪声出现时的不正常概率取值能够被提高至一门限值，正确路径和错误竞争路径之间的不正常概率差距就会被消除，使得正确路径能够保持原有的概率优势，被识别器最终选择。而无噪时，正确路径和错误竞争路径上的观测概率取值均在门限之上，两者之间的正常的路径选择不会受到影响。

在传统HMM框架中，观测概率的计算是根据概率密度函数的原始定义。此处对HMM框架的改进体现在对观测概率最低取值限上。

FOP抗冲击噪声自动语音识别系统的三个核心问题

(1)特征划分与其概率的最低取值限制

FOP系统并不是直接对识别特征的整体概率进行最低取值限制，而是先根据各维特征对噪声的敏感程度进行划分，然后对各部分的概率进行严格程度不同的最低取值限制。这样可以更有效的消除噪声带来的影响，同时保留更多的对识别有利的信息。根据各维对冲击噪声的敏感程度对语音特征进行划分可以描述为：

X＝[x₁，x₂，…，x_N]＝[X₁，X₂，…，X_L]， (14)

这样语音特征X被划分成L个子向量，每个子向量对冲击噪声的敏感程度，或者是稳健程度，都是不同的。由于每一高斯分量的协方差矩阵是对角阵，因此高斯分布中各维是相互独立的，那么上述各子向量的概率对于整体观测概率的贡献在高斯分量这一级可以被分解开来：

p (X | q) = Σ_{k = 1}^{M} w_{k} Π_{l = 1}^{L} N (X_{l}; μ_{k, l}, Σ_{k, l}), - - - - (15)

其中μ_k，l，∑_k，l是子向量X_l在第k个高斯分量中对应的均值和方差。观测概率的计算进行了如下的改进：

p_{f} (X | q) = Σ_{k = 1}^{M} w_{k} Π_{l = 1}^{L} N_{f} (X_{l}; μ_{k, l}, Σ_{k, l}), - - - - (16)

其中N_f(X_l；μ_k，l，∑_k，l)是最低取值限制后的高斯分布：当M(X_l；μ_k，l，∑_k，l)≥TH_l， (17)其他

这样N_f(X_l；μ_k，l，∑_k，l)的值将不会小于TH_l，TH_l是根据各子向量X_l对冲击噪声的敏感程度所确定的门限，特别的，

\lim_{{TH}_{l} &RightArrow; 0} N_{f} (X_{l}; μ_{k, l}, Σ_{k, l}) = N (X_{l}; μ_{k, l}, Σ_{k, l}), - - - - (18)

即此时对概率取值不作任何限制，还可以看到，传统的HMM框架实际上可以看成是改进后的理论框架的特例。

p_f(X|q)将直接替代(5)式中的p(X|q)用于最佳状态序列的搜索，而状态转移概率P(q(t)|q(t-1))将保持不变，这样对识别有益的状态驻留信息将得以保持。

(2)各维语音特征对冲击噪声敏感度的量度

各维语音特征对冲击噪声的敏感程度是不同的，冲击噪声造成的影响正常识别的概率差距主要集中在这些特征维。图2(c)的例子给出的是部分特征维的观测似然值，此处的子向量是由前5维MFCC特征所组成，即[C₀，C₁，…，C₄]。由该图可以看到，正确路径和错误竞争路径在此5维子向量上的概率差距非常接近于在整体特征向量([C₀，C₁，…，C₁₂])上的概率差距，或者说冲击噪声的影响主要集中在这几维。因此消除在这几维上的概率差距，也就消除了在整体特征上的概率差距。在系统设计时应该对这几维的概率计算赋予比较高的门限进行严格的最低取值限制，而对剩余特征维的概率计算则赋予比较低的门限进行非常弱的限制，这样的特征划分在有效消除概率差距的同时，能够保留其他维的识别信息。

语音特征的划分主要依据是各维对冲击噪声的敏感程度。各维特征对冲击噪声的敏感程度可由下述分散指数衡量：

D_n＝|μ_n|/σ_n，n＝1，2，…，N， (19)

μ_n，σ_n是各维均值和标准差的统计平均值：

μ_{n} = \frac{Σ_{j = 1}^{U} Σ_{k = 1}^{M_{j}} μ_{jkn}}{Σ_{j = 1}^{U} M_{j}}, σ_{n} = \frac{Σ_{j = 1}^{U} Σ_{k = 1}^{M_{j}} σ_{jkn}}{Σ_{j = 1}^{U} M_{j}}, - - - - (20)

其中μ_jkn，σ_jkn分别是第j个状态的第k个高斯分量在第n维上的均值和标准差，M_j是第j个状态的高斯分量数目。这样将各维所有的均值和标准差加起来，除以总数，便得到了统计平均值。

D_n比较大，则说明第n维特征比较易于聚类，则冲击噪声对该维的影响也就较大。在图3的例子中，被冲击噪声干扰的特征聚类到了错误的模型中，其与正确模型的概率差距随着D_n的增加而变大。因此，语音特征应根据各维分散指数的大小划分成一系列子向量，并赋予不同的门限加以严格程度各异的最低概率取值限制，对由分散指数较大的特征维所组成的子向量应采用较高的门限进行相对严格的限制。

(3)门限确定

门限的确定是FOP抗冲击噪声自动语音识别系统设计中非常关键的步骤。所选定的门限即要能够消除观测概率在由冲击噪声造成的不正常取值情况下的概率差距，又要能够保证没有噪声时的正常的概率计算和比较，即应该在消除噪声影响和保持无噪情况下鉴别信息两者之间作出好的折中。在图1(c)中的门限对这几维来说就是比较合适的，不仅在门限之下的概率差距被有效的消除，而且门限之上的正常的概率计算也不受影响。

门限值是和一定的置信区间、置信度相联系的，如果一特征子向量的概率值小于门限，则等价于该子向量处于对应的置信区间之外，那么该子向量由于置信度过低而会被看作是不合理的或者是不正常的数据，其观测概率值也会被限制。假设子向量X_f是根据各维特征对噪声的敏感度所划分出的L个子向量中的某一个，其维数为R，则其门限TH_f与置信区间H、置信度P_c的关系如下：

N (X_{f}; μ_{f}, Σ_{f}) |_{X_{f} &Element; H} = {TH}_{f}, - - - - (21)

并且

∫_HN(x_f；μ_f，∑_f)dx_f＝P_c。 (22)

其中μ_f，∑_f是X_f对应各维的的均值和方差的统计平均值，计算方法见式(20)。置信区间H是关于均值点μ_f对称的一个区域的边界，数据落在该区域的概率为P_c，也就是该置信区间的置信度。图4(a)给出的一维时的例子清楚的说明了上述关系，对于多维的情况，门限的计算非常复杂，这里采取的是置信区间近似法，见图4(b)。(对于1维，置信区间为一线段；对于2维，置信区间为一椭圆，计算中用一外切的矩形来代替；对于3维，置信区间为一椭球，计算中用一外切的长方体来代替；对于更高的维，置信区间为一超椭球，计算中用一外切的超长方体来代替)

假设X_f＝[x₁，x₂，…，x_R]是一R维子向量，此时的置信区间H是一R维的椭球，d_r是其各维的半径，此时(22)式的积分是及其困难的。置信区间近似法将用一外切的R维长方体

来代替H。首先考虑(21)式在第r维的投影：

N (x_{f}; μ_{f}, Σ_{f}) |_{X_{f} &Element; H, \underset{z &NotEqual; 1}{Σ} {(x_{z} - d_{z})}^{2} = 0} = (Π_{z = 1}^{R} \frac{1}{\sqrt{2 π} σ_{z}}) \cdot \exp {- \frac{d_{r}^{2}}{{2 σ}_{r}^{2}}} = {TH}_{f}, r = 1,2, \cdot \cdot \cdot, R . - - - - (23)

由(23)式可以得到：

\frac{d_{r}}{σ_{r}} = \sqrt{2 \log (G / {TH}_{f})}, - - - - (24)

其中

G = Π_{z = 1}^{R} \frac{1}{\sqrt{2 π} σ_{z}} .

当(22)式的积分在中进行时，可以将各维的积分分解开：

{&Integral;}_{H} N (x_{f}; μ_{f}, Σ_{f}) {dx}_{f} &cong; {&Integral;}_{\hat{H}} N (x_{f}; μ_{f}, Σ_{f}) {dx}_{f}

= Π_{r = 1}^{R} {&Integral;}_{{- d}_{r}}^{d_{r}} N (x_{r}; 0, σ_{r}^{2}) {dx}_{r}

= Π_{r = 1}^{R} {&Integral;}_{{- d}_{r} / σ_{r}}^{d_{r} / σ_{r}} N (ξ_{r}; 0,1) d ξ_{r}

= Π_{r = 1}^{R} {&Integral;}_{- \sqrt{2 \log (G / {TH}_{f})}}^{\sqrt{2 \log (G / {TH}_{f})}} N (ξ_{r}; 0,1) d ξ_{r}

= {(2 \cdot Φ (\sqrt{2 \log (G / {TH}_{f})}) - 1)}^{R}

= P_{c} - - - (25)

其中ξ_r＝x_r/σ_r，

Φ (x) = {&Integral;}_{- \infty}^{x} N (x; 0,1) dx,

Φ(x)可以通过查标准正态分布表或者是通过计算机程序用级数累加的方法求得。从(25)式可以看到，置信区间H在各维的投影[μ_r-d_r，μ_r+d_r]具有相同的置信度：

{&Integral;}_{{- d}_{r}}^{d_{r}} N (x_{r}; 0, σ_{r}^{2}) {dx}_{r} = (2 \cdot Φ (\sqrt{2 \log (G / {TH}_{f})}) - 1) = \sqrt[R]{P_{c}} \overset{Δ}{=} P_{S}, - - - - (26)

根据经验取P_s＝99.9％，可由(26)式得到比较合适的门限TH_f。

本发明的特征在于：

在最佳状态搜索时，用分散指数对上述语音观测特征X(t)的N维特征进行对噪声敏感度的划分，即使X＝[x₁，x₂，…，x_N]＝[X₁，X₂，…，X_L]；上述各子向量的概率对于整体观测概率的贡献在高斯分量这一级被分解为：

p_{f} (X | q) = Σ_{k = 1}^{M} w_{k} Π_{l = 1}^{L} N_{f} (X_{l}; μ_{k, l}, Σ_{k ., l}),

其中μ_k，l，∑_k，l是子向量X_l在第k个高斯分量中对应的均值和方差；再用门限TH_l对各高斯分量N_f(X_l；μ_k，l，∑_k，l)进行观测概率最低取值限制，于是最低取值限制后的高斯分布可表示为：

当N(X_l；μ_k，l，∑_k，l)≥TH_l；其他

与此对应的语音识别系统中限制观测概率最低取值的抗冲击噪声方法依次会有以下步骤：

(1)读入根据有纯净语音训练得到的HMM参数：状态转移概率α_ij，各状态高斯分布的均值μ_k，方差∑_k和权重w_k，各状态起始概率π_i；

(2)计算分散指数D_n以确定语音特征X各维特征对噪声的敏感度：

D_n＝|μ_n|/σ_n，n＝1，2，…，N，

μ_n、σ_n为各维n的均值和标准差的统计平均值：

μ_{n} = \frac{Σ_{j = 1}^{U} Σ_{k = 1}^{M_{j}} μ_{jkn}}{Σ_{j = 1}^{U} M_{j}}, σ_{n} = \frac{Σ_{j = 1}^{U} Σ_{k = 1}^{M_{j}} σ_{jkn}}{Σ_{j = 1}^{U} M_{j}},

μ_jkn、σ_jkn分别是第j个状态的第k个高斯分量在第n维上的均值和标准差，M_j是第j个状态下的高斯分量的数目；

(3)根据各维n分散指数D_n的大小，把语音特征X划分为L个特征子向量：

X＝[x₁，x₂，…，x_N]＝[X₁，X₂，…，X_L]，

相应的，观测概率

p_{f} (X | q) = Σ_{k = 1}^{M} w_{k} Π_{l = 1}^{L} N_{f} (X_{l}; μ_{k, l}, Σ_{k, l}),

μ_k，l，∑_k，l是子向量X_l在第k个高斯分量中对应的均值和方差；

(4)根据各子向量对冲击噪声的敏感程度计算门限。对于根据各维特征对于噪声敏感度所划分出来L个子向量中的某一个X_f＝[x₁，x₂，…，x_R]，R是该子向量的维数，通过置信区间近似法，其门限TH_f通过公式

2 \cdot Φ (\sqrt{2 \log (G / {TH}_{f})}) - 1 = P_{S}

计算出。其中

Φ (x) = {&Integral;}_{- \infty}^{x} N (x; 0,1) dx,

Φ(x)可以通过查标准正态分布表或者是通过计算机程序用级数累加的方法求得，

G = Π_{n = 1}^{R} \frac{1}{\sqrt{2 π} σ_{n}},

σ_n为第n维特征的标准差的统计平均值，其值在第(2)步中已经得到。P_s是各维的置信度，根据经验取P_s＝99.9％可以计算出比较合适的门限值。

(5)根据门限TH求出最低取值限制后的高斯分布：当N(X_l；μ_k，l，∑_k，l)≥TH_l，其他

从而得到改进后的观测概率：

p_{f} (X | q) = Σ_{k = 1}^{M} w_{k} Π_{l = 1}^{L} N_{f} (X_{l}; μ_{k, l}, Σ_{k, l})

(6)输入识别语音文件列表；

(7)输入识别语音数据；

(8)提取语音识别特征：MFCC，ΔMFCC(动态)；

(9)最佳状态序列搜索；

(10)识别结果输出；

(11)识别语音文件列表的批处理识别结束。

所述的依次连接的核心模块，即输入识别语音文件、提取语音识别特征、最佳状态序列搜索子程序框图含有以下步骤：

(1)输入包含噪声帧及帧序号在内的识别语音数据；

(2)输入语音识别特征MFCC、动态MFCC各自的维数及敏感特征的维数。

(3)Viterbi(维特比)译码初始化；

(4)按帧序列号的顺序依次读入语音特征序列X(t)|_1≤t≤T；

(5)计算语音特征X(t)|_t＝1、状态编号j＝1、高斯分量编号k＝1时所有子向量1≤l≤L的修改后的高斯分量N_f(X_l(t)；μ_k，l，∑_k，l)以及更新高斯分量观测概率值N(t，j，k)＝N(t，j，k)·N_f(X_l(t)；μ_k，l，∑_k，l)；

(6)计算完语音特征X(t)|_t＝1、状态编号j＝1、高斯分量编号1≤k≤K下的所有的高斯分量，接着计算X(t)在状态j＝1下的观测概率值

p (X (t) | q (t)) = Σ_{k = 1}^{M} w_{k} N (t, j, k);

(7)计算完语音特征X(t)|_t＝1、状态1≤j≤U下的各观测概率值

p(X(t)|q(t))|_{1≤q(t)＝j≤U}；

(8)用Viterbi译码迭代算法求出在当前时刻下的最佳部分状态序列；

(9)计算完所有的语音特征X(t)|_1≤t≤T；

(10)Viterbi译码终止。

使用证明：它达到了预期目标。

附图说明

图1：HMM在语音识别中的应用。

图2：冲击噪声对语音识别的影响；

(a)受冲击噪声影响的语谱图；

(b)语音特征的对数概率值[C₀，C₁，…，C₁₂]；

(c)部分语音特征维的对数概率值[C₀，C₁，…，C₄]。

无噪情况下的最佳路径(正确结果)

有噪情况下的最佳路径(错误结果)

图3：各维特征对冲击噪声的敏感度与其分散指数的关系；

(a)D_n较小的情况：

(b)D_n较大的情况。

图4：门限TH与置信区间H、置信度P_c之间的关系；

(a)一维时的情况；

(b)多维时的情况。

图5：本发明所述方法的主程序流程框图。

图6：本发明所述方法的核心模块流程框图。

具体实施方式

如图5所示，在主程序的开始首先读入HMM的参数，这些参数是通过训练得到的。根据这些参数可计算出各维特征的分散指数，从而得到各维特征对噪声的敏感程度，并由此按敏感程度不同进行特征划分，然后计算出各部分特征在计算概率时的最低取值限制的门限。待识别的语音文件由文件列表所示，程序根据该列表读取要识别的语音数据，然后进行特征提取，在实际搭建的系统中，所提取的特征是13维MFCC和13维ΔMFCC。最佳状态序列的搜索是基于Viterbi译码的迭代算法，在计算每一帧语音特征的观测概率时，会对各部分的最小概率取值进行限制，这部分是核心。依据概率大小搜索出最佳状态序列后，该语音文件的识别结果也就得到。程序继续识别，直至完成对文件列表中所有语音的识别。

在图6中，含噪语音中冲击噪声是用帧长400ms、能量较高的宽带高斯白噪声来仿真，其出现概率为10％，语音识别的特征为13维MFCC和13维动态MFCC。敏感特征为

[C_{0} ~ C_{2}] \overset{Δ}{=} X_{1},

对应的门限对数值为TH_l＝-11.1，第6帧是噪声。

在根据各维特征的分散指数进行特征划分，并计算出各部分的最低概率取值门限后，最佳状态序列搜索过程将对各帧语音特征的概率计算进行最小取值限制，这是FOP抗冲击噪声自动语音识别系统的核心模块，其流程图如图7所示。观测概率最低取值限制是在高斯分量这一级展开的。首先计算每一帧特征的所划分的各子向量的观测概率值N_f(X_l(t)；μ_k，l，∑_k，l|q(t)＝j)，这一值是经过最低取值限制后得到的。然后累乘各子向量观测概率值得到高斯分量观测概率，后者经累加得到特征X(t)在状态q(t)＝j时的观测概率值，该值将更新最佳状态序列的搜索过程，当对每一状态都重复此操作后，在此时刻t的最佳状态序列搜索结束。在完成最后时刻的状态搜索后，最佳状态序列也就得到了，这即为识别的结果。

在噪声帧，如t＝6，对于传统HMM框架，正确路径和错误竞争路径在该帧对敏感特征的观测概率对数值为：-32和-17，均是不正常的值，但此处错误路径获得了不可信的概率优势：(-17)-(-32)＝15，造成识别出错误的结果。采用FOP后，两者的观测概率对数值均被修正为THl，即-11.1，不正常的概率差距因此被消除，冲击噪声对识别的影响因此被化解。

FOP抗冲击噪声自动语音识别系统在Pentium计算机上得以实现。我们用TI-digits数据库对该系统进行了测试。实验中采用了两种冲击噪声：仿真冲击噪声和机关枪噪声。仿真冲击噪声是用幅度较大的白噪声片段随机的替代纯净语音帧，冲击噪声帧的比例为10％。机关枪噪声是加性的背景噪声，实验考察了噪声对识别的影响非常大，即信噪比较低时的情况。实验中的语音特征为13维MFCC和13维ΔMFCC，即[C₀，…，C₁₂，ΔC₀，…，ΔC₁₂]。

在实验中输入纯净语音以及被冲击噪声污染后的语音，该系统输出识别的结果，即语音的内容。通过与基于传统HMM的语音识别系统的比较，发现FOP抗冲击噪声自动语音识别系统能够非常有效的提高在冲击噪声中识别的正确率，并维持在纯净环境下的高识别精度。实验结果和分析如下。

表1传统语音识别系统的识别精度RA(Recognition Accuracy，％)

	仿真冲击噪声	机关枪噪声	纯净语音
	仿真冲击噪声	机关枪噪声	纯净语音	传统语音识别系统	85.0	62.3	100.0

从表1中可以看到，传统语音识别系统对纯净语音的识别性能非常好，但当出现冲击噪声时，系统识别精度急剧下降，如在机关枪噪声下，传统语音识别系统的识别精度只有62.3％，如此低的识别率使得传统语音识别系统在实际中是无法使用的。

表2 FOP抗冲击噪声自动语音识别系统的识别精度RA(％)及对性能的改善ERR(Error RateReduction，％)

语音特征划分						仿真冲击噪声		机关枪噪声		纯净语音
语音特征划分						仿真冲击噪声		机关枪噪声		纯净语音	Part 1	T₁	Part2	T₂	Part 3	T₃	RA	ERR	RA	ERR	RA
[C₀～C₂]	-11.1	[C₃～C₁₂]	-∞	[ΔC₀～ΔC₁₂]	-33.0	96.0	73.3	95.0	86.7	100.0	Part 1	T₁	Part2	T₂	Part 3	T₃	RA	ERR	RA	ERR	RA
[C₀～C₂]	-11.1	[C₃～C₁₂]	-∞	[ΔC₀～ΔC₁₂]	-33.0	96.0	73.3	95.0	86.7	100.0	[C₀～C₃]	-13.6	[C₄～C₁₂]	-∞	[ΔC₀～ΔC₁₂]	-33.0	95.7	71.3	94.7	85.9	100.0
[C₀～C₂，C₄]	-13.7	[C₃，C₅～C₁₂]	-∞	[ΔC₀～ΔC₁₂]	-33.0	95.3	68.7	94.3	84.9	99.0	[C₀～C₃]	-13.6	[C₄～C₁₂]	-∞	[ΔC₀～ΔC₁₂]	-33.0	95.7	71.3	94.7	85.9	100.0
[C₀～C₂，C₄]	-13.7	[C₃，C₅～C₁₂]	-∞	[ΔC₀～ΔC₁₂]	-33.0	95.3	68.7	94.3	84.9	99.0	[C₀～C₄]	-16.1	[C₅～C₁₂]	-∞	[ΔC₀～ΔC₁₂]	-33.0	94.3	62.0	93.7	83.4	98.7

从表2中可以看到FOP抗冲击噪声自动语音识别系统能够有效的提高系统在冲击噪声中的性能，并且能够对纯净语音保持较高的识别精度。实验中将13MFCC+13ΔMFCC分成3部分，第一部分对冲击噪声比较敏感，所以对这部分的最低概率取值限制比较严格，其门限由(26)式求得，其中P_s＝99.9％。第二部分对冲击噪声比较稳健，所以没有限制其概率取值，第三部分也比较稳健，所以取了一个非常低的门限。相比较基于传统HMM框架的语音识别系统，所采用的各特征划分方案均能有效的提高系统在冲击噪声中的识别精度，并同时维持在纯净情况下的高性能。如在第一种特征划分方案下，系统在仿真冲击噪声的识别精度由85.0％提高到96.0％，在机关枪噪声中的识别精度由62.3％提高到95.0％，而在纯净语音中的识别精度维持100.0％不变。FOP抗冲击噪声系统除了能够有效的提高语音识别系统在冲击噪声中的性能，还具有以下一些优点，从而使之有很强的实用性：

(1)附加计算量非常小。识别阶段的观测概率取值限制只增加了一些判断和替换操作，几乎不影响识别速度。

(2)不需要有关噪声的先验知识。

(3)合理的特征划分和门限选择能够保证在纯净情况下的正常识别。

(4)对传统HMM框架的改进是在最后的识别阶段，因此可以在前面加入其他的抗噪声算法。

Claims

1.语音识别系统中限制观测概率最低取值的抗冲击噪声方法，含有用计算机执行的隐含马尔可夫模型(Hidden Markov Model，即HMM)的概率统计识别方法，它根据语音具有的短时平稳性的特点，把语音划分为一系列短时段，每段对应于HMM的一个状态，用每个状态具有的以下特定的模型参数来描述各帧语音的平稳统计特征：

(1)各状态的起始概率分布π，π_i∈[0，1]，1≤i≤U，U为HMM的状态总数，起始状态的概率π₁＝1，其余状态的起始概率为0；

(2)状态转移概率矩阵A，元素α_ij＝P(j|i)，1≤i，j≤U，表示在t时刻由状态i到j的概率，它只取决于前一时刻(t-1)所处的状态，状态转移概率满足：

Σ_{j = 1}^{U} a_{ij} = 1, &ForAll; 1 \leq i \leq U;

(3)输出概率密度，即观测概率，表示系统在某状态下向外界提供的随机输出(语音信号特征的概率)，用p(X(t)|q(t)＝i)表示，即在状态q(t)＝i下，对于观测语音特征X(t)的概率似然值；X(t)的概率分布往往用高斯分布的叠加来逼近，在省略时间标号t和状态编号i时，可以表示为

p (X | q) = Σ_{k = 1}^{M} w_{k} N (X; μ_{k}, Σ_{k})

= Σ_{k = 1}^{M} w_{k} (Π_{n = 1}^{N} \frac{1}{\sqrt{2 π} σ_{kn}} \exp (\frac{{- (x_{n} - μ_{kn})}^{2}}{σ_{kn}^{2}}));

X＝[x₁，x₂，…，x_N]是N维观测特征矢量，w_k是第k个高斯分布N(X；μ_k，∑_k)的权重，μ_k＝[μ_k1，μ_k2，…μ_kN]是高斯分布的均值，

Σ_{k} = [σ_{k 1}^{2}, σ_{k 2}^{2}, \cdot \cdot \cdot, σ_{kN}^{2}]

是高斯分布的方差；

根据最大似然准则，语音识别的过程是从输入的语音特征序列[X(1)，X(2)，…，X(T)]中搜索出相应的最佳状态序列

\hat{Q} = [\hat{q} (1), \hat{q} (2), \cdot \cdot \cdot, \hat{q} (T)],

T是待识别语音的长度，共有T帧特征；

本发明的特征在于：在最佳状态搜索时，用分散指数对上述语音观测特征X(t)的N维特征进行对噪声敏感度的划分，即使X＝[x₁，x₂，…，x_N]＝[X₁，X₂，…，X_L]；上述各子向量的概率对于整体观测概率的贡献在高斯分量这一级被分解为：

p_{f} (X | q) = Σ_{k = 1}^{M} w_{k} Π_{l = 1}^{L} N_{f} (X_{l}; μ_{k, l}, Σ_{k, l}),