CN103198833A

CN103198833A - 一种高精度说话人确认方法

Info

Publication number: CN103198833A
Application number: CN2013100750893A
Authority: CN
Inventors: 罗森林; 谢尔曼; 潘丽敏
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2013-07-10
Anticipated expiration: 2033-03-08
Also published as: CN103198833B

Abstract

本发明涉及一种基于文本无关说话人确认方法。本发明提出了Turbo-Boost分类算法与2D-Haar音频特征的相结合的说话人确认方法，首先使用基础音频特征构成音频特征图；进而利用音频特征图提取2D-Haar音频特征，再使用Turbo-Boost算法，通过两轮迭代运算分别完成对2D-Haar音频特征的筛选和说话人分类器的训练；最终使用训练好的说话人分类器实现说话人确认。与现有技术相比，本发明可以在同样的运算消耗下获得更高的准确率，特别适合对于运算速度和说话人确认精度有着严格要求的说话人确认场合，例如电话自动接听系统、计算机身份认证系统、高密级门禁系统等。

Description

一种高精度说话人确认方法

技术领域

本发明涉及一种高精度的文本无关说话人确认方法，属于生物识别技术领域；从技术实现的角度来讲，亦属于计算机科学与语音处理技术领域。

背景技术

说话人确认(Speaker Verification)技术是利用每个说话人的语音信号特点，从一段语音中提取说话人信息，进而确认某段语音是否是指定的某个人所说的，系统只给出“接受”或“拒绝”两种选择，是“一对一”的模式识别问题。

说话人确认技术与说话人辨认技术同属说话人识别(Speaker Recognition,SR)的范畴，而与说话人辨认技术不同，说话人确认技术对于准确率、识别时间的要求更为严格，近年来，电话自动接听系统、计算机身份认证系统、高密级门禁系统等应用平台对这项技术的应用需求越来强。

按照说话内容的类型不同，说话人确认可以分为文本有关(Text-dependent)和文本无关(Text-independent)两大类。与文本有关的说话人确认系统要求用户按照规定的内容发音，每个人的识别模型逐个被精确地建立，而识别时也必须按规定的内容发音；文本无关的识别系统则不规定说话人的发音内容，模型建立相对困难，可应用范围较宽。有些情况下，人们无法（或者不希望）强迫说话人朗读一段特定的文字，在这些应用场景中，文本无关的说话人确认方法就显得格外重要。

本无关的说话人确认的基本技术可分为语音采集，特征提取，分类方法三个层次，其中关键问题在于特征提取与分类方法。

特征提取方面，目前的主流方法多采用基于底层声学原理的梅尔倒谱系数(MFCC)或线性预测倒谱系数(Linear Predictive Coding Cepstrum，LPCC)作为特征参数。

分类方法方面，主流方法有动态时间规整（DTW）、矢量量化（VQ）、隐马尔可夫模型（HMM）、高斯混合模型（GMM）、人工神经网络（ANN）、支撑向量机（SVM）等。目前广泛受到研究的是高斯混合模型（GMM）方法以及支撑向量机（SVM）方法。上述方法中，GMM-UBM模型已经得到广泛应用，在更早的系统中，矢量量化也是一项获得了广泛研究的重要的技术。

基于上述方法，文本无关的说话人确认技术已经在一些场合得到实际应用。然而，当待确认的人数不断增加时，上述方法的准确率会明显下降，当人数增加到一定规模时，将难以满足实际应用的需求，这是文本无关说话人确认技术需要解决的一个重要问题。

发明内容

本发明的目标是：提出一种大规模说话人确认方法，能在获得高准确率的同时兼顾高运算速度的要求。具体实施方法上，本发明从特征提取和分类方法两个层次分别提出新的方法，提高特征的区分度，提升说话人分类器的速度与准确率。

本发明的设计原理为：在特征提取层次，提出2D-Haar音频特征提取方法，引入一定的时序关系信息，并将音频特征空间扩展至数十万维，为确认算法提供更加庞大的特征空间；在说话人分类器层次，提出Turbo-Boost算法，在庞大的2D-Haar特征空间中筛选具有代表性的特征组合，用于构建目标说话人的确认分类器。在相同的时间内，本发明可以将既有的识别准确率进一步提升，以满足说话人确认应用中快速、准确的技术要求。

本发明的技术方案是通过如下步骤实现的：

步骤1，获取待确认说话人（即目标说话人）的语音信号，形成基础语音库S。

具体方法为：把麦克风与计算机连接，获取目标说话人的语音信号，并以音频文件的形式存储在计算机内，每个目标说话人对应一个音频文件，形成基础语音库S={s₁，s₂，s₃，…，s_k}，其中k为目标说话人的总数。

步骤2，对基础语音库S中的语音进行音频特征积分图计算，形成基础特征库R。具体过程如下：

步骤2.1，对于第k个目标说话人，对其音频文件s_k进行分帧处理（帧长f_s、帧移Δf_s由用户设定），并提取各帧的基础音频特征（如MFCC、LPCC、子带能量等），将各帧的基础音频特征组合，形成一个包含c帧、每帧p维特征量的基础特征文件v_k。

v_k中每一帧的特征向量的内容为：{[基础特征1（p₁维）]，[基础特征2 （p₂维）]，…，[基础特征n（p_n维）]}.

以上描述中，对于一个时长为t的音频文件s_k：

p = Σ_{1}^{n} p_{n} .

步骤2.2，对于第k个目标说话人的基础特征文件v_k，采用滑窗的方式，以a为窗长、s为步进，将所有的c帧音频特征向量转换成音频特征图序列文件G_k（参见图2）。

G_k={g₁,g₂,g₃,…g_u},其中，

步骤2.3，在步骤2.2的基础上，计算对于第k个目标说话人的特征图序列文件G_k中每幅特征图g_u的特征积分图r_u，形成该说话人的特征积分图序列文件R_k={r₁,r₂,r₃,…r_u}，将基础语音库S中所有k个目标说话人的特征积分图序列文件集中起来，形成基础特征库R={R₁，R₂，…，R_k}.

易知，基础特征库中所有说话人的特征积分图总数m的计算公式为：

所述的特征积分图与原始特征图尺寸相同，其上任意一点(x,y)的值被定义为原图对应点(x’,y’)及其左上方所有的特征值之和。定义式如下：

ii (x, y) = \underset{x^{'} \leq x, y^{'} \leq y}{Σ} i (x^{'}, y^{'}),

式中ii(x,y)表示积分图上点(x,y)的取值，i(x′,y′)表示原始特征图上点(x’,y’)的特征值。

步骤3，在基础特征库R的基础上，生成每个目标说话人的训练特征文件集B。具体过程如下：

步骤3.1，对基础特征库R中的特征文件进行标注，具体方法为：

使用连续的整数编号作为说话人标签，代表不同的目标说话人，以便计算机处理。最终的标记形式为R’={(R₁，1),(R₂，2),…(R_k，k)}，其中，Y={1,2,…,k}是目标说话人标签集，k为目标说话人数目；

步骤3.2，在步骤3.1的基础上，为每个目标说话人建立用于说话人注册的特征文件集B，具体方法为：

在标记好说话人标签的特征库R’中，进行k轮整理，在每轮整理工作中，首先将第k个目标说话人的音频特征文件r_k作为正样本，保留其说话人标签k；然后将其余的说话人音频特征文件作为负样本，并将它们的说话人标签更改为“other”；最后将上述k个音频特征文件存储到单独的文件夹中，并将该特征文件夹命名为B_k，即：

B₁={(R₁，1),(R₂，other),…(R_k，other)}，

B₂={(R₁，other),(R₂，2),…(R_k，other)}，

……

B_k={(R₁，other),(R₂，other),…(R_k，k)}

k轮整理工作之后，最终形成由k个特征文件夹构成的特征文件集B={B₁，B₂，…，B_k}。

步骤4，在步骤3的基础上，提取2D-Haar音频特征，并进行说话人注册，也就是依次遍历特征文件集B中的k个文件夹，并使用其中的训练特征文件为每个目标说话人训练出单独的“1对余”分类器，最终得到由k个说话人分类器构成的分类器池。

对于第k个目标说话人，其对应的分类器W_k的训练过程如下：

步骤4.1，对步骤3.2所形成的特征文件夹B_k中的所有特征积分图序列文件R_k的每幅积分图进行2D-Haar音频特征提取。具体方法为：

根据各个积分图计算相对应的H维2D-Haar音频特征值（其中H由采用的2D-Haar音频特征类型以及积分图的尺寸决定），得到用于说话人分类器训练的数据集合S={(x₁,l_i),…,(x_m,l_i)}。其中，x_i表示第i个积分图所对应的全部H维2D-Haar音频特征向量，l_i∈Y，(Y={1,2,…,k})表示第i个积分图所对应的说话人标签。

所述的H维2D-Haar音频特征值，每维2D-Haar音频特征的取值是原始音频特征图上，任意尺寸、位置的方形区域中，使用某一特定矩形区域的特征值之和减去另一个特定矩形区域的特征值之和，可通过积分图快速计算获得。

将每幅积分图相应的H维2D-Haar音频特征向量记作一行，使特征文件夹B_k中所有m幅积分图的全部H维2D-Haar音频特征向量构成一个m行、H列的特征矩阵X。

步骤4.2，使用Turbo-Boost方法对步骤4.1得到的2D-Haar音频特征矩阵X进行特征筛选和分类器训练，得到说话人分类器。所述的Turbo-Boost方法包括两轮迭代过程：第1轮进行F轮迭代，从H维2D-Haar音频特征值集合中选择F维主要特征以完成特征筛选，得到新的F维特征子空间；第2轮进行T轮迭代，在新的F维特征子空间中训练得到T个弱分类器（T>F），将其组成强分类器。

上述迭代运算中所使用的弱分类器，需满足以下条件：1.弱分类器的输入是单维特征值（即特征向量中的某一特定维，或特征矩阵X中的某一列）；2.针对待确认的说话人标签l_i，弱分类器的输出是1或-1。

Turbo-Boost的具体训练过程为：

步骤4.2.1，初始化每幅积分图对应的权重，记作D₁(i,l_i)=1/(mk)，i=1…m,l_i∈Y。

步骤4.2.2，依次将特征矩阵X的各列数据（即所有积分图的H组同维特征）作为一个弱分类器的输入，进行H轮运算，按照下式计算r_f,j的值：

r_{f, j} = \underset{j, (i, l)}{Σ} D_{f} (i, l_{i}) K_{i} [l_{i}] h_{j} (x_{i}, l_{i}), j = 1 . . . H

其中，h_j(x_i,l_i)表示以第i个积分图中提取的第j维特征值作为输入的弱分类器，D_f(i,l_i)表示第f轮迭代中第i个训练积分图的权重值，

K_{i} [l_{i}] = \{\begin{matrix} + 1 & l_{i} &Element; [1, . . ., k] \\ - 1 & l_{i} &NotElement; [1, . . ., k] \end{matrix} .

从上述H个弱分类器中选择一个h_j(x,l_i),使得r_f＝max(r_f,j)，将该分类器对应的特征f_j(x)作为选中的特征维加入到新的特征空间。其中，f_j(x)表示H维2D-Haar音频特征向量的第j维（即特征矩阵X的第j列），h_j(x,l)表示采用第j维特征值作为输入的弱分类器；

步骤4.2.3，计算由步骤4.2.2选择出的弱分类器h_j(x,l)的权重α_f：

α_{f} = \frac{1}{2} \ln (\frac{1 + r_{f}}{1 - r_{f}});

步骤4.2.4，计算下一轮迭代中各个积分图的权重D_f+1；

D_{f + 1} = \frac{D_{f} (i, l_{i}) \exp ({- α}_{f} K_{i} [l_{i}] h_{f} (x_{i}, l_{i}))}{Z_{f}}, i = 1 . . . m .

其中，h_f(x_i,l_i)表示第f轮迭代中以第i个积分图提取的第j维特征值作为输入的弱分类器，Z_f是归一化因子

Z_{f} = \underset{i, l}{Σ} D_{f} (i, l_{i}) \exp ({- α}_{f} K_{i} [l_{i}] h_{f} (x_{i}, l_{i})), i = 1 . . . m .

步骤4.2.5，将步骤4.2.4得到的新权重代入步骤4.2.2，按照步骤4.2.2至步骤4.2.4的方法，选中一个新的特征维；

步骤4.2.6，按照步骤4.2.2至步骤4.2.5的方法迭代F次，从特征矩阵X中提取F列，形成一个m行、F列的主要特征矩阵X’，并重新初始化每幅积分图对应的权重，记作

D’₁(i,l_i)=1/(mk)，i=1…m,l_i∈Y。

步骤4.2.7，依次将主要特征矩阵X’的各列数据（即所有图像的F组同维特征）作为一个弱分类器的输入，进行F轮运算，按照下式计算r_t,j的值：

r_{t, j} = \underset{j, (i, l)}{Σ} {D^{'}}_{t} (i, l_{i}) K_{i} [l_{i}] h_{j} (x_{i}, l_{i}),

从F个弱分类器中选择一个h_j(x,l),使得r_t＝max(r_t,j)；将该弱分类器记作h_t(x,l)，添加到强分类器中。其中D‘_t(i,l)表示第t轮迭代中第i个训练图像的权重值。

步骤4.2.8，计算通过步骤4.2.7选择出的弱分类器h_j(x,l)的权重α_t：

α_{t} = \frac{1}{2} \ln (\frac{1 + r_{t}}{1 - r_{t}}),

步骤4.2.9，计算下一轮迭代中各个图像的权重D‘_t+1；

{D^{'}}_{t + 1} = \frac{{D^{'}}_{t} (i, l_{i}) \exp ({- α}_{t} K_{i} [l_{i}] h_{t} (x_{i}, l_{i}))}{Z_{t}}, i = 1 . . . m .

其中，Z_t是归一化因子

Z_{t} = \underset{i, l}{Σ} {D^{'}}_{t} (i, l_{i}) \exp ({- α}_{t} K_{i} [l_{i}] h_{t} (x_{i}, l_{i})), i = 1 . . . m .

步骤4.2.10，将步骤4.2.9得到的新权重代入步骤4.2.7，按照步骤4.2.7至步骤4.2.9的方法，得到一个新的弱分类器添加到强分类器中；

按照上述步骤4.2.7至步骤4.2.10的方法进行T轮迭代，得到由T个弱分类器组成的强分类器，即第k个说话人的确认分类器，表示为：

W_{k} (x) = \arg \max_{l} S_{l},

S_{l} = (Σ_{t = 1}^{T} α_{t} h_{t} (x, l)) - - - (1)

步骤4.2.11，待k轮训练结束后，将所有的k个说话人分类器集合起来，构成说话人分类器池W={W₁(x),W₂(x),…,W_k(x)}。

步骤5，对用户提供的、申明是说话人k发声录制的语音文件，提取其2D-Haar音频特征，输入步骤4训练得到的说话人k的分类器，以确认该文件中的语音是否确实由用户所申明的说话人讲出。具体步骤为：

步骤5.1，对确认语音文件进行音频特征积分图提取，得到待确认音频特征积分图序列G′={g′₁,g′₂,g′₃,…g′_u’}。具体方法与步骤2所述方法相同。其中，音频特征图序列转换过程中（对应于步骤2.2），窗长a、步进s的取值与步骤2中的相同；类似的，对于一个包含c′帧的待确认语音文件，特征图序列包含的特征图数量u’为：

步骤5.2，在步骤5.1的基础上，根据步骤4.1所述的2D-Haar音频特征提取方法，以及步骤4.2.5的特征筛选结果，为特征图序列中的每幅特征图提取F维2D-Haar音频特征，构成2D-Haar音频特征矩阵X’。

步骤5.3，从说话人分类器池中找到申明说话人k的说话人分类器W_k，再把步骤5.2得到的2D-Haar音频特征矩阵X’输入W_k，得到分类结果序列R。

所述分类结果序列R由u’个元素组成，其中每个元素的具体计算方法为：

步骤5.3.1，按照步骤4.2.10中的（1）式，读取说话人分类器中某个弱分类器h_t(x,l)及其相应2D-Haar音频特征f_j(x)；

步骤5.3.2，对于每种待选标签l_i∈{k，other}，分别计算该弱分类器的输出h_t(f_j(x),l)，并将该输出值以分类器中的权重α_t累加到待选标签l_i对应的加权值S_li中；

步骤5.3.3，按照步骤5.3.1-步骤5.3.2的方法进行T轮循环之后，每种待选标签l_i将得到一个加权值S_li。选出取值最大的一个加权值S_li，同时记录与其相对应的待选标签l_i作为该音频特征图的分类结果，记作（l_i,

），其中l_k为说话人标签，

为相应的强分类器加权和。

步骤5.3.4，将待确认音频的所有分类结果组合起来，构成分类结果序列

R = {(l_{i}, S_{l_{i}, u^{'}}) : (l_{1}, S_{l_{1}, 1}), (l_{1}, S_{l_{1}, 2}), (l_{2}, S_{l_{2}, 3}), \cdot \cdot \cdot (l_{i}, S_{l_{i}, u^{'}})}, l_{i} &Element; {k, other} .

步骤5.4，对步骤5.3得到的分类结果序列进行结果综合，得到最终的说话人确认结果。

具体方法为：

步骤5.4.1，统计结果序列中所有的强分类器判别权重

按说话人标签l_i加权，即分别求出

S_{k} = Σ_{1}^{u^{'}} S_{k, u^{'}}

和

S_{other} = Σ_{1}^{u^{'}} S_{other, u^{'}}

步骤5.4.2，计算置信因子η＝S_k/(S_other+S_k)，按照下式给出最终的说话人确认结果V：

V = \{\begin{matrix} True, & if & η > ω \\ False, & if & η \leq ω \end{matrix},

式中ω为判别阈值，可由用户指定。

有益效果

相比于基于底层声学原理的梅尔倒谱系数(MFCC)或线性预测倒谱系数(LPCC)等特征参数提取方法，本发明提出的2D-Haar音频特征提取方法引入le一定的时序关系信息，并将音频特征空间扩展至数十万维，为确认算法提供更加庞大的特征空间。

与GMM、SVM等说话人分类方法相比，本发明采用使用Turbo-Boost算法，结合单特征输入的Decision Stump弱分类器进行特征筛选，大大减少了说话人确认阶段的计算负担，在相同运算开销下，具有更高的准确率，可以满足说话人确认“快速、准确”的实用要求，具有较高的实用价值。

附图说明

图1为本发明的原理框图；

图2为本发明提出的音频特征图和特征图序列提取原理意图；

图3为本发明的说话人注册过程原理图；

图4为本发明的说话人确认过程原理图；

图5为具体实施方式中说话人训练及确认过程中所使用的5类2D-Haar音频特征；

图6为具体实施方式中，使用TIMIT语音库进行测试时，本发明与GMM-UBM算法、AdaBoost.MH算法的性能比对。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

以下所有测试均在同一台计算机上完成，具体配置为：Intel双核CPU（主频1.8G），1G内存，WindowsXP SP3操作系统。

第一环节

本环节将使用TIMIT音频库的语音文件，详细说明当目标说话人规模为200人时，本发明的说话人注册/训练、说话人确认的具体过程。

TIMIT语音库是由麻省理工大学、斯坦福研究院、德州仪器联合制作的标准库，包含了630个说话人(438个男性和192个女性)的语料，每个人10条语音。

从所有说话人中随机选取200人的全部语音数据，再从每个人的10条语音中选取1条持续时间大于5秒的文件作为说话人注册/训练语音文件；另外随机选取1个人的任意一条语音作为确认语音文件。

具体实施步骤如下：

由于TIMIT语音库已经是存储完整的音频文件，因此直接将200条目标说话人的语音文件形成基础语音库S={s₁，s₂，s₃，…，s_k}，其中k=200为目标说话人的总数。

步骤2.1，对于第k个目标说话人，对其音频文件s_k进行分帧处理，并提取各帧的基础音频特征（本实施例中，使用MFCC,LPCC,PLPC），将各帧的基础音频特征组合，形成一个包含c帧、每帧p维特征量的基础特征文件v_k。

本实施例中，v_k中每一帧的特征向量的内容为：{[MFCC（12维）]，[LPCC（12维）]，[PLPC（8维）]}，分帧操作的帧长设定为f_s=30ms，帧移设定为Δf_s=20ms.

p = Σ_{1}^{n} p_{n} = 12 + 12 + 8 = 32 .

步骤2.2，对于第k个目标说话人的基础特征文件v_k，采用滑窗的方式，以a为窗长、s为步进，将所有的c帧音频特征向量转换成音频特征图序列文件G_k（参见图2）。本实施例中，a=32,s=16.

G_k={g₁,g₂,g₃,…g_uk},其中，

步骤2.3，在步骤2.2的基础上，计算对于第k个目标说话人的特征图序列文件G_k中每幅特征图g_u的特征积分图r_u，形成该说话人的特征积分图序列文件R_k={r₁,r₂,r₃,…r_u}，将基础语音库S中所有200个目标说话人的特征积分图序列文件集中起来，形成基础特征库R={R₁，R₂，…，R_k}.

本实施例中，所有200个音频文件的总时长为1202.30s，因此：

ii (x, y) = \underset{x^{'} \leq x, y^{'} \leq y}{Σ} i (x^{'}, y^{'}),

使用连续的整数编号作为说话人标签，代表不同的目标说话人，以便计算机处理。最终的标记形式为R’={(R₁，1),(R₂，2),…(R₂₀₀，200)}，其中，Y={1,2,…,200}是目标说话人标签集；

在标记好说话人标签的特征库R’中，进行200轮整理，在每轮整理工作中，首先将第k个目标说话人的音频特征文件r_k作为正样本，保留其说话人标签k；然后将其余的说话人音频特征文件作为负样本，并将它们的说话人标签更改为“other”；最后将上述200个音频特征文件存储到单独的文件夹中，并将该特征文件夹命名为B_k，即：

B₁={(R₁，1),(R₂，other),…(R₂₀₀，other)}，

B₂={(R₁，other),(R₂，2),…(R₂₀₀，other)}，

……

B₂₀₀={(R₁，other),(R₂，other),…(R₂₀₀，200)}

200轮整理工作之后，最终形成由200个特征文件夹构成的特征文件集B={B₁，B₂，…，B₂₀₀}。

步骤4，在步骤3的基础上，提取2D-Haar音频特征，并进行说话人注册，也就是依次遍历特征文件集B中的200个文件夹，并使用其中的训练特征文件为每个目标说话人训练出单独的“1对余”分类器。

对于第k个目标说话人，其对应的分类器W_k的训练过程如下：

步骤4.1，对步骤3.2所形成的特征文件夹B_k中的所有特征积分图序列文件R_k的每幅积分图进行2D-Haar音频特征提取。

根据各个积分图计算相对应的H维2D-Haar音频特征值，得到用于说话人分类器训练的数据集合S={(x₁,l_i),…,(x_m,l_i)}。其中，x_i表示第i个积分图所对应的全部H维2D-Haar音频特征向量，l_i∈Y，(Y={1,2,…,k})表示第i个积分图所对应的说话人标签。

图5展示了本实施例使用的5类2D-Haar音频特征的计算模式，每维2D-Haar音频特征的取值为：原始音频特征图上，任意尺寸、位置的方形区域上，按照图5中某一类模式，计算黑色区域的特征值之和减去白色区域的特征值之和。该特征具有如下三个特点：

1.运算速度快。配合积分图，任何尺寸2D-Haar音频特征的提取只需执行固定次数的数据读取和加减运算。包含2个矩形的2D-Haar音频特征只需从积分图中读取6个点进行加/减运算，3个矩形的特征只需读取8个点，4个矩形的特征只需读取9个点。

2.区分性强。2D-Haar音频特征空间的维数很高，以本实施例使用的5类模式为例，一幅32×32的积分图，5类模式可以产生总维数超过了51万的2D-Haar音频特征，具体数量如表1所示。

表1一幅32×32积分图5类2D-Haar音频特征的数量

这一维数远远超过了音频FFT能量谱的原始信息，也远远超出了SVM非线性映射后特征空间的维度。此外，由于音频特征图是由一定数量的连续音频帧组成，因此2D-Haar音频特征也能反映一定的时序信息。

在本实施例中，2D-Haar音频特征提取的具体方法为：首先根据积分图和上述方法，计算所有的510112维2D-Haar音频特征值，得到2D-Haar音频特征值集合；进而将每幅积分图相应的510112维2D-Haar音频特征向量记作一行，使特征文件夹B_k中所有m幅积分图的全部H维2D-Haar音频特征向量构成一个m行、510112列的特征矩阵X，如步骤2.2所示，在本实施例中，m=7514.

上述迭代运算中所使用的弱分类器，其定义式为：

h_{j} (x, y) = \{\begin{matrix} 1 & p_{j, y} x_{j} < p_{j, y} θ_{j, y} \\ - 1 & p_{j, y} x_{j} &GreaterEqual; p_{j, y} θ_{j, y} \end{matrix}, - - - (2)

其中，x_j表示弱分类器的输入，θ_j，y表示训练后得到的阈值，p_j,y指示不等号的方向。

Turbo-Boost的具体训练过程为（本实施例中，训练过程中所涉及的参数取值为：H=510112，m=7514，F=200，T=400，Y={k，other}，k=200）：

r_{f, j} = \underset{j, (i, l)}{Σ} D_{f} (i, l_{i}) K_{i} [l_{i}] h_{j} (x_{i}, l_{i}), j = 1 . . . H

K_{i} [l_{i}] = \{\begin{matrix} + 1 & l_{i} &Element; [1, . . ., k] \\ - 1 & l_{i} &NotElement; [1, . . ., k] \end{matrix} .

α_{f} = \frac{1}{2} \ln (\frac{1 + r_{f}}{1 - r_{f}});

步骤4.2.4，计算下一轮迭代中各个积分图的权重Df+1；

D_{f + 1} = \frac{D_{f} (i, l_{i}) \exp ({- α}_{f} K_{i} [l_{i}] h_{f} (x_{i}, l_{i}))}{Z_{f}}, i = 1 . . . m .

Z_{f} = \underset{i, l}{Σ} D_{f} (i, l_{i}) \exp ({- α}_{f} K_{i} [l_{i}] h_{f} (x_{i}, l_{i})), i = 1 . . . m .

D’₁(i,l_i)=1/(mk)，i=1…m,l_i∈Y。

r_{t, j} = \underset{j, (i, l)}{Σ} {D^{'}}_{t} (i, l_{i}) K_{i} [l_{i}] h_{j} (x_{i}, l_{i}),

α_{t} = \frac{1}{2} \ln (\frac{1 + r_{t}}{1 - r_{t}}),

步骤4.2.9，计算下一轮迭代中各个图像的权重D‘_t+1；

{D^{'}}_{t + 1} = \frac{{D^{'}}_{t} (i, l_{i}) \exp ({- α}_{t} K_{i} [l_{i}] h_{t} (x_{i}, l_{i}))}{Z_{t}}, i = 1 . . . m .

其中，Z_t是归一化因子

Z_{t} = \underset{i, l}{Σ} {D^{'}}_{t} (i, l_{i}) \exp ({- α}_{t} K_{i} [l_{i}] h_{t} (x_{i}, l_{i})), i = 1 . . . m .

W_{k} (x) = \arg \max_{l} S_{l},

S_{l} = (Σ_{t = 1}^{T} α_{t} h_{t} (x, l)) - - - (1)

步骤5.1，对确认语音文件进行音频特征积分图提取，得到待确认音频特征积分图序列G′={g′₁,g′₂,g′₃,…g′_u’}。具体方法与步骤2所述方法相同。其中，音频特征图序列转换过程中（对应于步骤2.2），帧长设定为f_s=30ms，帧移设定为Δf_s=20ms；音频特征图序列转换过程中（对应于步骤2.2），窗长a=32、步进s=16；本实施例中，s_k的总时长为6.54s，因此

p = Σ_{1}^{n} p_{n} = 12 + 12 + 8 = 32 .

类似的，待确认语音的总帧数c′的取值也由待确认语音文件的长度确定，特征图序列包含的特征图数量u’为：

步骤5.2，在步骤5.1的基础上，根据步骤4.1所述的2D-Haar音频特征提取方法，以及步骤4.2.5的特征筛选结果，为特征图序列中的每幅特征图提取F维2D-Haar音频特征，构成由510112列，40行的2D-Haar音频特征矩阵X’。

所述分类结果序列R由40个元素组成，其中每个元素的具体计算方法为：

），其中l_k为说话人标签，

为相应的强分类器加权和。

R = {(l_{i}, S_{l_{i}, u^{'}}) : (l_{1}, S_{l_{1}, 1}), (l_{1}, S_{l_{1}, 2}), (l_{2}, S_{l_{2}, 3}), \cdot \cdot \cdot (l_{i}, S_{l_{i}, u^{'}})}, l_{i} &Element; {k, other} .

具体方法为：

步骤5.4.1，统计结果序列中所有的强分类器判别权重

按说话人标签l_i加权，即分别求出

S_{k} = Σ_{1}^{u^{'}} S_{k, u^{'}}

和

S_{other} = Σ_{1}^{u^{'}} S_{other, u^{'}}

V = \{\begin{matrix} True, & if & η > ω \\ False, & if & η \leq ω \end{matrix},

式中ω为判别阈值，可由用户指定。

在本实施例中，η=75%，ω=60%，由于η>ω，所以输出“True”，表示待确认语音的确为用户所申明的说话人所讲出。

第二环节

本环节将对本发明的性能进行测试，测试平台、说话人注册/训练流程说话人确认流程与实施例1相同，以下将不再赘述，重点说明性能测试的方法与结果。

实验数据通过以下步骤生成：(1)从所有说话人中随机选取200人的全部语音数据，(2)从每个人的语音中选取1句作为训练数据，3句作为目标测试数据，(3)针对每个目标说话人，随机选取3句他人语句作为冒认测试数据，并对每个说话人分别进行1真、1真1假、2真1假、2真2假、3真2假、3真3假的6组测试，记录每组测试下200人的识别结果。

为了进行比较，采用GMM-UBM方法、AdaBoost方法进行对比，记录三种方法的错误接受率(False Acceptance Rate。FAR)和错误拒绝率(False Rejection Rate，FRR)，绘制DET曲线，并统计准确率和确认耗时。其中：

准确率=1-等错率.

当测试规模从200次增加到1200次时，三种方法的表现如图6所示。可见，当测试次数不断增加时，对比方法的确认准确率下降比较明显，而本文所提方法下降趋势较缓，在1200次的测试规模下，较对比方法的准确率分别高出3.2%和2.6%。

为了评价本文所提算法的时间效率，统计不同2D-Haar特征维数T下每秒钟语音数据的平均识别耗时t。由表2可知，本文所提方法具有较高的识别速度。

表2不同T值下本文所提方法的平均识别耗时

由上述实验可知，2D-Haar音频特征在引入了时序信息的同时，有效地扩充了特征空间的维度，为训练出性能更优的分类器提供了可能；同时，使用Turbo-Boost算法，结合单特征输入的Decision Stump弱分类器进行特征筛选，既提高了特征向量的代表性和区分度，也减少了确认阶段的计算负担，确认速度较高。

Claims

1.一种高精度说话人确认方法，其特征在于，所述方法包括以下步骤：

步骤2，对基础语音库S中的语音进行音频特征积分图计算，形成基础特征库R。

步骤3，在基础特征库R的基础上，生成每个目标说话人的训练特征文件集B。

步骤5，对用户提供的、申明是说话人k发声录制的语音文件，提取其2D-Haar音频特征，输入步骤4训练得到的说话人k的分类器，以确认该文件中的语音是否确实由用户所申明的说话人讲出。

2.根据权利要求1所述的方法，其特征在于，所述获取待确认说话人的语音信号并不要求说话人按照特征模板中预置文本内容进行发音。

3.根据权利要求1所述的方法，其特征在于，所述音频特征积分图计算的步骤具体包括：

步骤1，对于第k个目标说话人，对其音频文件s_k进行分帧处理（帧长f_s、帧移Δf_s由用户设定），并提取各帧的基础音频特征（如MFCC、LPCC、子带能量等，具体使用哪些特征，由用户指定），将各帧的基础音频特征组合，形成一个包含c帧、每帧p维特征量的基础特征文件v_k。

v_k中每一帧的特征向量的内容为：{[基础特征1（p₁维）]，[基础特征2（p₂维）]，…，[基础特征n（p_n维）]}.

步骤2，对于第k个目标说话人的基础特征文件v_k，采用滑窗的方式，以a为窗长、s为步进，将所有的c帧音频特征向量转换成音频特征图序列文件G_k。

G_k={g₁,g₂,g₃,…g_u}.

步骤3，在步骤2的基础上，计算对于第k个目标说话人的特征图序列文件G_k中每幅特征图g_u的特征积分图r_u，形成该说话人的特征积分图序列文件R_k={r₁,r₂,r₃,…r_u}，将基础语音库S中所有k个目标说话人的特征积分图序列文件集中起来，形成基础特征库R={R₁，R₂，…，R_k}.

4.根据权利要求1所述的方法，其特征在于，所述提取2D-Haar音频特征的计算方法为：

每维2D-Haar音频特征的取值都是原始音频特征图上，任意尺寸、位置的方形区域中，使用某一特定矩形区域的特征值之和减去另一个特定矩形区域的特征值之和，可通过积分图快速计算获得。其总维数H由采用的2D-Haar音频特征类型以及积分图的尺寸决定

5.根据权利要求1所述的方法，其特征在于，所述由k个说话人分类器构成的分类器池，需通过k轮训练得到，每轮训练都要包括两轮迭代过程：第1轮进行F轮迭代，从H维2D-Haar音频特征值集合中选择F维主要特征以完成特征筛选，得到新的F维特征子空间；第2轮进行T轮迭代，在新的F维特征子空间中训练得到T个弱分类器（T>F），将其组成强分类器。

具体方法为：

步骤1，初始化每幅积分图对应的权重，记作D₁(i,l_i)=1/(mk)，i=1…m,l_i∈Y。

步骤2，依次将特征矩阵X的各列数据（即所有积分图的H组同维特征）作为一个弱分类器的输入，进行H轮运算，按照下式计算r_f,j的值：