CN1447278A

CN1447278A - 一种声纹识别方法

Info

Publication number: CN1447278A
Application number: CN 02149384
Authority: CN
Inventors: 郑方; 宋战江
Original assignee: Individual
Current assignee: Beijing D Ear Technologies Co ltd
Priority date: 2002-11-15
Filing date: 2002-11-15
Publication date: 2003-10-08
Anticipated expiration: 2022-11-15
Also published as: CN1188804C

Abstract

本发明属于计算机及信息服务技术领域，特别涉及通过人类的声纹信息对身份进行鉴别和确认的方法。包括模型的训练方法和声纹的识别方法两个部分，其特点为：每个说话人构建声纹模型为M＝{μ_k，∑_k，w_k|1≤k≤K}；待识别的特征矢量序列X＝{X₁，…，X_T}与说话人声纹模型M＝{μ_k，∑_k，w_k|1≤k≤K}的匹配得分(对数似然得分)如式1：本发明可按不同的应用需求调整操作点阈值，使最终准确率达到最高或使错误率降到最低。本发明可用于保安、财经、国防、公安司法等领域通过人类的声纹信息对身份进行鉴别和确认。

Description

一种声纹识别方法

技术领域

本发明属于计算机及信息服务技术领域，特别涉及通过人类的声纹信息对身份进行鉴别和确认的方法。

背景技术

声纹识别(Voiceprint Recognition)，即说话人识别(Speaker Recognition)，就是要根据人的声音中所蕴涵的说话人的生物特征，识别出说某段语音的人是谁，即所谓“闻声知人”。声纹识别可以在几乎所有需要身份鉴别或确认的安全性保护领域和个性化应用中使用。例如：(1)声纹鉴别：刑侦破案、罪犯跟踪、国防监听、个性化应用等；(2)声纹确认：证券交易、银行交易、公安取证、个人电脑和汽车声控锁、身份证、信用卡等等。

众所周知，每个人的指纹都是唯一的，与此类似，每个人的声纹也具有一定的唯一性，很难找到两个声纹完全一样的人，这就从理论上为可靠的声纹识别提供了依据。一般声纹识别方法包括模型的训练过程(或称学习过程)1和声纹的识别过程2两个部分，如图1所示。模型训练过程是从声音波形中提取出声学特征矢量(或称声学特征、特征矢量、特征)--这就是特征提取，并把每个人的声学特征建立成为一个声学模型，称为声纹模型，从而形成一个模型库的过程；而声纹的识别过程就是将待识别人声音提取的声学特征与模型库中的声纹模型进行匹配比较，从而得出判决结果的过程。

声纹识别方法包括文本相关的和文本无关的两种类型。前者要求在识别过程中说话人必须说预先约定的句子、词组、词或字等特定内容；而后者对说话人所说的内容没有任何限制，无论训练还是识别，说话人都可以随意说任何语言的任何内容。显然，后者难度大，但使用方便，应用范围广。

一个声纹识别系统的性能取决于很多因素，但特征提取的好坏和声学模型的描述能力的强弱是两个非常重要的方面。

目前声纹识别方法中常用的提取声学特征的方法包括：(1)线性预测倒谱(LPCC)参数；(2)美化倒谱参数(MFCC)；等等。

而声学模型有以下几种常用的建模方法：

(1)模板匹配方法：采用动态时间弯折(DTW)算法以对准训练和识别(测试)特征序列，主要针对词组固定的应用(通常为文本相关任务)。

(2)最近邻方法：在训练时需要保留所有的声学特征矢量；在识别/测试时，对每个矢量都找到训练矢量中最近的K个，并据此进行识别判决。使用这种方法，模型的存储量和相似度的计算量都很大。

(3)神经网络方法：有很多种形式，包括多层感知、径向基函数(RBF)等。它通过显式的训练去扩大说话人模型和其他模型之间的差异，以试图达到最大可分性。其缺点是训练量很大，训练收敛速度慢，且模型的可推广性不好。

(4)隐式马尔可夫模型(Hidden Markov Model，HMM)方法：它假定人的声音是由两个过程控制，一个是状态转移过程，一个是声学特征矢量输出过程。该方法是刻划人的发音机理较好的数学模型。通常，声学特征矢量输出过程用混合高斯分布去刻划。

(5)高斯混合模型(Gaussian Mixture Model，GMM)方法：高斯混合模型实际上是单状态的隐式马尔可夫模型。假定声学特征矢量序列为 X＝{X₁，…，X_T}，那么识别时需计算的观察特征序列相对于说话人模型M的对数似然分(简称似然分、匹配得分、得分)用下式计算：

S (\overset{&OverBar;}{X} | M) = \log P (\overset{&OverBar;}{X} | M) = \frac{1}{T} Σ_{t = 1}^{T} \log P (X_{t} | M) . . . . . . . (1)

以上诸多常用方法中，以隐式马尔可夫模型方法和高斯混合模型方法的效果为最好。但它们的总体性能并不令人满意，并且在文本无关的声纹识别中也不能达到最佳效果。另外，这些方法也通常需要较长的语音才能对说话人给出准确的鉴别或确认。

声纹的识别方法包括两种类型，即声纹鉴别或辨认(Voiceprint Identification)和声纹确认(Voiceprint Verification)。其中，声纹确认用以确认某段语音是否真正就是宣称的某个特定的人所说的，属于1-1判决问题；该类型如图2(a)所示，其步骤包括：用经过前端处理的待确认语音的特征矢量序列与宣称说话人模型匹配得分减去该特征矢量序列与宣称说话人相应的背景模型的匹配得分，得到结果Λ，然后将Λ与一个预先设定的阈值θ进行判决，如果Λ＞θ，则接受该确认结果，即认为该待确认语音是宣称说话人说的；如果Λ＜θ，则拒识该确认结果，即认为该待确认语音不是宣称说话人说的。这里所说的拒识就是把错误的结果拒绝掉，因此声纹确认也就是声纹拒识判决。

声纹鉴别用以判断某段语音是若干人中的哪一位所说的，属于N-1选择问题；其中声纹鉴别又分为闭集和开集两种情形。闭集声纹鉴别，如图2(b)所示，是把经过前端处理的待鉴别语音的特征矢量序列与模型库中的所有说话人模型逐一进行匹配比较，求出最大(MAX)的匹配得分S及相应的说话人编号，即认为该段待鉴别语音就是匹配得分最大的那个说话人所说，闭集声纹鉴别不检查说该段语音的说话人是否真的就是声纹模型库中的这个人。而开集声纹鉴别则在完成闭集声纹鉴别得到声纹模型库中的一个说话人后，需要进一步利用声纹确认方法判决应该接受还是拒识该鉴别结果。

在实际应用中，相对于闭集声纹鉴别，声纹确认和开集声纹鉴别有更大的需求，而在这两个方面的应用中，拒识问题是关键。为了进行拒识，通常需要背景(Background)模型或称假冒者(Impostor)模型。背景模型的构建有两种方式，一是任何一个说话人M都有一个或一组相应的背景模型Bkg(M)；二是使用一个与说话人无关的通用背景模型UBM(Universal Background Model)，即对任意说话人M，其背景模型都是Bkg(M)＝UMB。在此基础上，当有一个特征序列 X＝{X₁，…，X_T}时，可以求出它相对于说话人M的似然分数Λ( X|M)为：

Λ (\overset{&OverBar;}{X} | M) = \log S (\overset{&OverBar;}{X} | M) - \log S (\overset{&OverBar;}{X} | Bkg (M))

= \frac{1}{T} Σ_{t = 1}^{T} [\log P (X_{t} | M) - \log P (X_{t} | Bkg (M))] . . . . . . . (2)

其中P(X|M)按标准的混合高斯密度计算公式进行计算。然后，根据似然分数Λ( X|M)和一个预先设定的阈值θ之间的关系可以确定这段语音是说话人M的声音(Λ( X|M)＞θ)，或不是说话人M的声音(Λ( X|M)＜θ)。很明显，阈值θ的设定对拒识非常关键，而由于它通常是预先设定的，因而有时不能适应实际应用的要求。

现有拒识方法的主要问题在于，拒识阈值是固定的，因而给阈值的设定和声纹识别系统在不同硬件和软件环境下的应用带来困难。

发明内容

本发明的目的是为克服现有技术的不足之处，提出一种新的声纹识别方法，本发明通过采用矢量量化聚类、最大局部模板匹配、自动阈值估计、多级准则判决等一系列方法，很好地消除了声纹识别性能对文本内容的相关性，很好地消除了声纹识别性能对语音长度的依赖性，并使拒识阈值可以通过训练自动获得。

本发明提出一种声纹识别方法，包括模型的训练方法和声纹的识别方法两个部分，该模型训练方法的步骤为：

1)从每个说话人的声音波形中提取声学特征，形成该说话人的特征矢量序列；

2)根据每个说话人的特征矢量序列分别为每个人构建一个声纹模型，把各个人的声纹模型放在一起组成一个模型库；

该声纹的识别方法为：

3)从待识别的人的声音中提取声学特征形成待识别的特征矢量序列；

4)该待识别的特征矢量序列与该模型库中的声纹模型逐一进行匹配比较，得到特征矢量序列与每个说话人声纹模型的匹配得分(也称为对数似然得分，或似然得分，或得分)，进行判决；

5)根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认)，在需要的时候进行拒识判决，从而得出结果；

其特征在于：所说的步骤2)中为每个说话人构建声纹模型的方法是：对所说的说话人的特征矢量序列采用传统的LBG算法进行聚类，得到K个高斯分布的混合，其中第k个高斯分布均值矢量为μ_k、对角方差矩阵为∑_k；记LBG聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为w_k，则该说话人的声纹模型为M＝{μ_k，∑_k，w_k|1≤k≤K}；

所说的第4)步中的待识别的特征矢量序列 X＝{X₁，…，X_T}与说话人声纹模型M＝{μ_k，∑_k，w_k|1≤k≤K}的匹配得分(对数似然得分)S( X|M)是利用基于局部最大模板匹配的概率计算方法得到，即：

S (\overset{&OverBar;}{X} | M) = \frac{1}{T} Σ_{t = 1}^{T} \max_{1 \leq k \leq K} \ln (w_{k} \cdot p (X_{t} | μ_{k}, Σ_{k})) . . . . . . . . (3)

。

本发明具有以下特征：

1)声纹识别的性能与所说的文本和所用的语言无关；

2)声纹鉴别可以工作在开集识别模式，即：可对假冒说话人进行拒识；

3)能够以无监督的方式对开集识别的拒识阈值进行可靠的自动估计；

4)对语音的长度没有特殊的要求，只需要很短的几秒语音，就可以进行可靠的训练和识别；

5)具有很高的识别精度：说话人辨认和确认的正确率不小于98％；声纹拒识的错误接受率和错误拒绝率均低于1％；

6)模型存储所需空间小：每个说话人的声纹模型存储空间均小于5KB；

7)声纹识别的操作点阈值调整方便：根据“准确率+不确定率+错误率＝100％”，可按不同的应用需求调整操作点阈值，使最终准确率(接受的首选正确率)达到最高或使错误率(错误接受率或错误拒绝率)降到最低。

本发明可用于在电子商务、自动信息检索、个性化服务等，包括保安(包括门禁、加密信用卡等)、财经(包括银行自动转帐、查询及出纳等)、国防(包括电话监听追踪、敌我指战员身份鉴别等)、公安司法(包括刑侦追踪、取证、身份鉴别等)等领域。

附图说明

图1是已有的声纹识别方法的总体框图。

图2是已有声纹的识别方法的两个类型：声纹鉴别和声纹确认方法框图。

图3是本发明声纹识别方法的实施例总体框图。

图4是本发明方法的拒识训练方法实施例框图。

具体实施方式

本发明提出的一种的声纹识别方法结合附图及实施例，以及应用详细说明如下：

本发明的声纹识别方法实施例，如图3(a)-图3(c)所示，包括模型训练方法和声纹鉴别与声纹确认的两种类型的声纹的识别方法，分别结合附图说明如下：

本实施例的模型训练方法如图3(a)所示，其具体步骤包括：

1)取一个说话人的声音数据，对其原始语音波形数据进行分析，抛除其中的各个静音段；

2)以32毫秒帧宽和帧宽的一半为帧移，对每一帧提取16维的线性预测倒谱参数(LPCC)，并计算其自回归分析参数，组成32维的特征矢量；所有帧的特征矢量组成特征矢量序列；

3)构建该说话人的声纹模型：

对说话人的特征矢量序列采用传统的LBG算法进行聚类，得到K个高斯分布的混合，其中第k个高斯分布均值矢量为μ_k、对角方差矩阵为∑_k；记LBG聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为w_k，则该说话人的声纹模型为：

M＝{μ_k，∑_k，w_k|1≤k≤K}，并存入声纹模型库；

4)如果还有说话人没有训练，则转步骤1)进行下一个说话人的训练；否则训练过程结束。

本实施例的声纹鉴别方法如图3(b)所示，具体包括以下步骤：

1)采集待鉴别说话人的声音数据，对其原始语音波形数据进行分析，抛除其中的各个静音段；

2)以与声纹模型训练时相同的帧宽和帧移，对每一帧提取16维的线性预测倒谱参数(LPCC)，并计算其自回归分析参数矢量，组成待识别的32维特征矢量；所有帧的待识别的特征矢量组成待识别的特征矢量序列 X＝{X₁，…，X_T}；

3)从声纹模型库中取一个说话人的声纹模型M；

4)利用基于局部最大模板匹配的概率计算方法得到待识别的特征矢量序列X＝{X₁，…，X_T}与说话人声纹模型M＝{μ_k，∑_k，w_k|1≤k≤K}的匹配得分(对数似然得分)S( X|M)，即：

S (\overset{&OverBar;}{X} | M) = \frac{1}{T} Σ_{t = 1}^{T} \max_{1 \leq k \leq K} \ln (w_{k} \cdot p (X_{t} | μ_{k}, Σ_{k})) . . . . . . (3)

并记录下来；

5)如果还有说话人的匹配得分没有计算，则转步骤3)；

6)取出待识别的特征矢量与所有说话人的声纹模型中匹配得分最大的分数S_max及相应的说话人M_max作为识别结果候选；

7)如果是闭集声纹鉴别，则M_max就是鉴别结果；否则以M_max作为宣称说话人、以通用背景模型作为背景模型，利用声纹确认技术对结果进行拒识判决；

8)输出结果，声纹鉴别过程结束。

本实施例的声纹确认方法如图3(c)所示，具体包括以下步骤：

1)采集待确认说话人的声音数据，对其原始语音波形数据进行分析，抛除其中的各个静音段；

2)以与声纹模型训练时相同的帧宽和帧移，对每一帧提取32的线性预测倒谱参数(LPCC)，并计算其自回归分析参数矢量，组成32维的特征矢量；所有帧的特征矢量组成特征矢量序列；

3)取出宣称说话人的声纹模型及其背景模型；

4)进行拒识判决；

5)输出结果，声纹确认过程结束。

本发明的拒识判决方法实施例，如图4(a)-4(d)所示，可包括拒识的训练和拒识的判决两个部分，该拒识训练，包括以下步骤：

1)训练背景模型；

2)训练拒识阈值；

3)训练声纹模型，具体包括：

(1)取一个说话人的声音数据，计算其有效的特征矢量序列；

(2)训练该说话人的声纹模型；

(3)为该说话人选择Q个背景模型；

(4)将该说话人的声纹模型以及与Q个背景声纹模型相关的参数存入声纹模型库；

(5)重复步骤(1)到(4)，直到所有说话人的声纹模型训练完成。

上述的训练背景模型的实施例，如图4(a)所示，必须在首次使用声纹识别前进行，具体包括：收集N个背景说话人的声音数据，并按声纹模型的训练方法分别训练出背景说话人的声纹模型，共N个，它们称为背景声纹模型，并存入背景声纹模型库。

上述的训练拒识阈值的实施例，如图4(b)所示，具体包括以下步骤：

(1)取第n个背景模型M_n＝{μ_nk，∑_nk，w_nk|1≤k≤K}及其相应的特征矢量序列

{\overset{&OverBar;}{X}}_{n} = {X_{n 1}, . . ., X_{{nT}_{n}}},

按公式(3)计算它们之间的匹配得分

S_{TOP}^{(n)} = S ({\overset{&OverBar;}{X}}_{n} | M_{n});

(2)计算高斯分布临界区落入的待识别声音的特征矢量的百分比CAP：

CAP ({\overset{&OverBar;}{X}}_{n} | M_{n}) = \frac{1}{{KT}_{n}} Σ_{t = 1}^{T_{n}} (\underset{(\frac{1}{2} {(X_{nt} - μ_{nk})}^{T} Σ_{nk}^{- 1} (X_{nt} - μ_{nk})) < {TSH}^{2}}{Σ_{k = 1}^{K}} 1) . . . . (4)

其中TSH是用以表示混合高斯密度临界区域大小的阈值(通常TSH可以取1.0，值越小则临界区域越小，控制也越严格；

(3)按公式(3)分别计算该特征矢量序列 X_n与除M_n之外的各个背景模型的匹配得分，按得分从大到小的顺序取前Q个背景模型，其得分为

(4)重复步骤(1)～(3)，直到所有的n＝1～N个背景模型的上述值均计算完毕；

(5)求出所有背景模型中最小的值，乘上一个小于1.0的系数，作为似然得分的阈值；

(6)求出所有背景模型中最小的CAP值，乘上一个小于1.0的系数，作为CAP的阈值；

(7)求出所有背景模型中最小的

| S_{TOP}^{(n)} - S_{I_{nl}} |

值，乘上一个小于1.0的系数，作为似然得分差值的阈值；

(8)由公式(5)计算出得分总畸变值的阈值，其中β是大于1.0的系数：

{TSH}_{DIV} = \max_{1 \leq q \leq Q - 1} (\frac{1}{N} Σ_{n = 1}^{N} (S_{I_{nq}} - S_{I_{n, q + 1}})) \cdot β . . . . . (5)

上述阈值估算过程中所乘的系数不是固定的，均可以随“操作点”阈值的调整而浮动，以满足具体应用的要求。

上述的选择Q个背景模型的实施例，如图4(c)所示。该选择过程用于背景模型训练后对说话人进行声纹训练的过程中，具体包括以下步骤：

(1)当用该说话人的特征矢量序列 X＝{X₁，…，X_T}训练出其声纹模型M＝{μ_k，∑_k，w_k|1≤k≤K}后，利用公式(3)计算出 X与M的匹配得分S_TOP＝S( X|M)；

(2)用公式(3)计算出 X与N个背景模型的匹配得分，按从大到小的顺序选出匹配得分最大的前Q名背景模型的分数及其索引I₁，…，I_O；

(3)将S_TOP、

及I₁，…，I_O存入该说话人声纹模型中。

上述的拒识的判决的实施例，如图4(d)所示。该判决过程用于声纹确认或开集声纹鉴别中，对待识别声音的特征矢量序列 X＝{X₁，…，X_T}和目标说话人M＝{μ_k，∑_k，w_k|1≤k≤K}进行一致性判决，其中目标说话人M可能是声纹鉴别的结果候选或声纹确认中的宣称说话人。具体包括以下步骤：

(1)按公式(3)计算特征矢量序列 X与目标说话人的声纹模型M的匹配似然得分为R_TOP；

(2)按公式(3)分别计算 X与M的Q个背景模型的匹配得分

并按公式(6)计算总畸变值：

DIV (\overset{&OverBar;}{X} | M) = Σ_{q = 1}^{Q} | | S_{I_{q}} - R_{I_{q}} | - | S_{TOP} - R_{TOP} | | . . . . . . . (6)

(3)按公式(4)计算高斯分布临界区落入的待识别声音数据的特征矢量百分比，即CAP分数：

(4)进行拒识判决：

g)若似然得分R_TOP低于似然得分阈值则拒绝识别结果；

h)若得分CAP( X|M)低于CAP阈值则拒绝识别结果；

i)若R_TOP和一起按从大到小排序后，R_TOP的排名名次太靠后(如排名低于第2名)则拒绝识别结果；

j)若R_TOP与

中低于它的最大得分的差值的绝对值小于得分差值阈值则拒绝识别结果；

k)若总畸变值DIV( X|M)大于总畸变值阈值则拒绝识别结果；

l)以上均没有拒绝时则接受识别结果。

Claims

1、一种声纹识别方法，包括模型的训练方法和声纹的识别方法两个部分，该模型训练方法为：

该声纹的识别方法为：

4)将该待识别的特征矢量序列与该模型库中的声纹模型逐一进行匹配比较，得到特征矢量序列与每个说话人声纹模型的匹配得分(也称为对数似然得分，或似然得分，或得分)，进行判决；

5)再根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认)，在需要的时候进行拒识判决，从而得出结果；

S (\overset{&OverBar;}{X} | M) = \frac{1}{T} Σ_{t = 1}^{T} \max_{1 \leq k \leq L} \ln (w_{k} \cdot p (X_{t} | μ_{k}, Σ_{k})) . . . . . . . (3)

。

2、如权利要求1所述的声纹识别方法，其特征在于，所说的拒识判决方法，包括拒识的训练和拒识的判决两个部分，该拒识训练包括以下步骤：

1)训练背景模型；

2)训练拒识阈值；

3)训练声纹模型：

(1)取一个说话人的声音数据，计算其有效的特征矢量序列；

(2)训练该说话人的声纹模型；

(3)为该说话人选择Q个背景模型；

(5)重复步骤(1)到(4)，直到所有说话人的声纹模型训练完成。

3、如权利要求2所述的声纹识别方法，其特征在于，所说的训练背景模型具体包括：收集N个背景说话人的声音数据，并按声纹模型的训练方法分别训练出背景说话人的声纹模型，共N个，存入背景声纹模型库。

4、如权利要求2所述的声纹识别方法，其特征在于，所说的训练拒识阈值具体包括以下步骤：

{\overset{&OverBar;}{X}}_{n} = {X_{n 1}, . . ., X_{{nT}_{n}}},

按所说的公式(3)计算它们之间的匹配得分

S_{TOP}^{(n)} = S ({\overset{&OverBar;}{X}}_{n} | M_{n});

CAP ({\overset{&OverBar;}{X}}_{n} | M_{n}) = \frac{1}{{KT}_{n}} Σ_{t = 1}^{T_{n}} (\underset{(\frac{1}{2} {(X_{nt} - μ_{nk})}^{T} Σ_{nk}^{- 1} (X_{nt} - μ_{nk})) < {TSH}^{2}}{Σ_{k = 1}^{K}} 1) . . . (4)

其中TSH是用以表示混合高斯密度临界区域大小的阈值(通常TSH可以取1.0；

(3)按所说的公式(3)分别计算该特征矢量序列 X_n与除M_n之外的各个背景模型的匹

配得分，按得分从大到小的顺序取前Q个背景模型，其得分为

(5)求出所有背景模型中最小的

值，乘上一个小于1.0的系数，作为似然得分

的阈值；

(6)求出所有背景模型中最小的CAP值，乘上一个小于1.0的系数，作为CAP的阈

值；

(7)求出所有背景模型中最小的

| S_{TOP}^{(n)} - S_{I_{nl}} |

值，乘上一个小于1.0的系数，作为似然

得分差值的阈值；

(8)计算出得分总畸变值的阈值，其中β是大于1.0的系数：

{TSH}_{DIV} = \max_{1 \leq q \leq Q - 1} (\frac{1}{N} Σ_{n = 1}^{N} (S_{I_{nq}} - S_{I_{n, q + 1}})) \cdot β . . . . (5)

5、如权利要求2所述的声纹识别方法，其特征在于，所说的选择Q个背景模型具体包括以下步骤：

(1)当用该说话人的特征矢量序列 X＝{X₁，…，X_T}训练出其声纹模型

M＝{μ_k，∑_k，w_k|1≤k≤K}后，利用所说的公式(3)计算出 X与M的匹配得分

S_TOP＝S( X|M)；

(2)用所说的公式(3)计算出 X与N个背景模型的匹配得分，按从大到小的顺序选出

匹配得分最大的前Q名背景模型的分数

及其索引I₁，…，I_Q；

(3)将S_TOP、

及I₁，…，I_Q存入该说话人声纹模型中。

6、如权利要求2所述的声纹识别方法，其特征在于，所说的拒识的判决具体包括以下步骤：

(1)按所说的公式(3)计算特征矢量序列 X与目标说话人的声纹模型M的匹配似然

得分为R_TOP；

(2)按所说的公式(3)分别计算 X与M的Q个背景模型的匹配得分

，并按

公式(6)计算总畸变值：

DIV (\overset{&OverBar;}{X} | M) = Σ_{q = 1}^{Q} | | S_{I_{q}} - R_{I_{q}} | - | S_{TOP} - R_{TOP} | | . . . . . . . . . . . (6)

(3)按所说的公式(4)计算高斯分布临界区落入的待识别声音数据的特征矢量百分

比，即CAP分数：

(4)进行拒识判决：

a)若似然得分R_TOP低于似然得分阈值则拒绝识别结果；

b)若得分CAP( X|M)低于CAP阈值则拒绝识别结果；

c)若R_TOP和

一起按从大到小排序后，如R_TOP的排名名次低于第2名，

则拒绝识别结果；

d)若R_TOP与

中低于它的最大得分的差值的绝对值小于得分差值阈值

则拒绝识别结果；

e)若总畸变值DIV( X|M)大于总畸变值阈值则拒绝识别结果；

f)以上均没有拒绝时则接受识别结果。