CN1787077A

CN1787077A - 基于锚模型空间投影序数比较的快速说话人确认方法

Info

Publication number: CN1787077A
Application number: CNA2005100619559A
Authority: CN
Inventors: 杨莹春; 吴朝晖; 杨旻
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2005-12-13
Filing date: 2005-12-13
Publication date: 2006-06-14
Anticipated expiration: 2025-12-13
Also published as: CN100570712C

Abstract

本发明涉及一种基于锚模型空间投影序数比较的快速说话人确认方法，首先用将测试语音进行锚模型映射，然后将映射后的测试语音与其所声明的说话人进行序数比较。所述的锚模型映射为：首先对测试语音进行特征提取，得到一组特征向量序列，然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量。所述序数比较为将得分向量中的得分排序，并比较测试语音与声明说话人的得分序数并计算序数的欧式距离，最后将序数距离与阈值比较得到最终结果。本发明有益的效果是：利用锚模型简化确认系统中的训练过程，克服用单个人特征信息的不完整性，增强识别决策结果的可靠性，使其具有更广泛的安全性和适应性。

Description

基于锚模型空间投影序数比较的快速说话人确认方法

技术领域

本发明涉及一种生物特征技术，主要是一种基于锚模型空间投影序数比较的快速说话人确认方法。

背景技术

生物特征识别技术是指通过计算机利用人类自身生理或行为特征进行身份认定的一种技术，它以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特征(语音、击键、步态、签名等)为依据，采用计算机的强大功能和网络技术进行图像处理和模式识别，用以鉴别人的身份。说话人识别技术是一项根据语音中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。说话人识别基于语音，既包含了人的生理特征，即先天的解剖学上的差异；又包含了人的行为特征，即后天发音习惯的不同。说话人识别任务有很多类型，根据认证的方式不同，可以分为以下三类：

●说话人鉴别，也称说话人辨认，是指从给定用户集中把测试语音所属的说话人区分出来；

●说话人确认，也成说话人检测，针对单个用户，即通过测试语音来判断其是否是其所声明的用户身份；

●说话人跟踪，是指对一段包含多个说话人的语音，正确标注这段语音中说话人切换的时刻。

目前说话人识别技术普遍采用对倒谱特征(如MFCC)的概率分布进行建模估计，采用的模型大多为高斯混合模型和背景模型的比较。近年来，用与一组固定说话人(锚说话人)之间的相似程度来表示说话人的方法被提出，基于锚模型的说话人鉴别技术也逐渐得到发展。但基于锚模型的说话人鉴别技术仍有许多不足之处，直接比较模型得分的方法缺乏合理性。

发明内容

本发明要解决上述技术所存在的缺陷，提供一种基于锚模型空间投影序数比较的快速说话人确认方法，是通过将测试语音与锚模型比较，映射到锚空间后，再与其所声明的说话人进行比较的说话人检索方法。

本发明解决其技术问题所采用的技术方案：一种基于锚模型空间投影序数比较的快速说话人确认方法，首先用将测试语音进行锚模型映射，然后将映射后的测试语音与其所声明的说话人进行序数比较。

本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的锚模型映射为：首先对测试语音进行特征提取，得到一组特征向量序列，然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量。所述序数比较为将得分向量中的得分排序，并比较测试语音与声明说话人的得分序数并计算序数的欧式距离，最后将序数距离与阈值比较得到最终结果。

本发明有益的效果是：利用锚模型简化确认系统中的训练过程，克服用单个人特征信息的不完整性，增强识别决策结果的可靠性，使其具有更广泛的安全性和适应性。

附图说明

图1是匹配的锚模型上DET曲线图；

图2是不匹配的锚模型上DET曲线图；

具体实施方式

下面结合实施例对本发明作进一步描述。本发明的方法共分六步。

第一步：音频预处理

音频预处理分为采样量化，去零漂，预加重和加窗三个部分。

1、采样量化

A)、用锐截止滤波器对音频信号进行滤波，使其奈奎斯特频率F_N为4KHZ；

B)、设置音频采样率F＝2F_N；

C)、对音频信号s_a(t)按周期进行采样，得到数字音频信号的振幅序列

s (n) = s_{a} (\frac{n}{F}),

D)、用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化表示s’(n)。

2、去零漂

A)、计算量化的振幅序列的平均值s；

B)、将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列s”(n)。

3、预加重

A)、设置数字滤波器的Z传递函数H(z)＝1-αz^-1中的预加重系数α，α可取1或比1稍小的值；

B)、s”(n)通过数字滤波器，得到音频信号的高、中、低频幅度相当的振幅序列s(n)。

4、加窗

A)、计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒)，分别满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

这里F是音频采样率，单位为Hz；

B)、以帧长为N、帧移量为T，把s(n)划分成一系列的音频帧F_m，每一音频帧包含N个音频信号样本；

C)、计算哈明窗函数：

D)、对每一音频帧F_m加哈明窗：

ω(n)×F_m(n){F_m′(n)|n＝0，1，…，N-1}。

第二步：特征提取

音频帧上的特征提取包括能量和梅尔倒谱系数(MFCC)的提取。

1、能量的提取：

E = Σ_{n = 1}^{N} s^{2} (n)

2、MFCC的提取：

A)、设置梅尔倒谱系数的阶数p；

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)。

C)、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2592 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)

D)、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)

E)、计算每个梅尔域通道φ_i上的对数能量谱：

E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2}

其中

Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1 .

F)、做离散余弦变换DCT

第三步、锚模型训练

锚模型的训练过程分为背景模型的训练和锚模型自适应。背景模型和锚模型都是高斯混合模型(GMM)。

每一个说话人的语音特征在特征空间中都形成了特定的分布，可以用这一分布来描述说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合近似说话人的特征分布。

每一个说话人的概率密度函数的函数形式是相同的，所不同的只是函数中的参数。M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布，即：

p (x) = Σ_{i = 1}^{M} P_{i} b_{i} (x)

b_{i} (x) = N (x, μ_{i}, R_{i}) = \frac{1}{{(2 π)}^{p / 2} {| p_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} R_{i}^{- 1} (x - μ_{i})}

其中，p是特征的维数，b_i(x)为核函数，是均值矢量为μ_i、协方差矩阵为R_i的高斯分布函数，M是GMM模型的阶数，在建立说话人模型以前设为一确定整数，这里用64。λ＝{P_i，μ_i，R_i|i＝1，2，...，M}为说话人特征分布GMM中的参数，作为高斯混合分布的加权系数，P_i应满足使得：

{&Integral;}_{- \infty}^{+ \infty} p (x / λ) dx = 1

由于计算GMM中的p(x)需要求p×p维方阵R_i(i＝1，2，...，M)的逆，运算量大，为此，将R_i设成对角阵，将求逆运算转化维求倒数运算，提高运算速度。

背景模型由大量语音数据训练而成，用来消除背景差异和自适应锚模型。锚模型为由一组特定说话人语音训练成的一组高斯混合模型。

第四步、锚空间投影

用户语音输入后，经特征提取，得到一特征向量序列。该序列输入到锚模型的各个GMM中，得到一组相似度值组成的向量SCV：

SCV＝{s₁，s₂，...s_n}

其中s_i是第i个锚模型GMM的得分与背景模型得分之差。

第五步、基于序数比较的确认

不同于传统锚模型方法中的比较注册语音和测试语音的SCV的欧式距离，本方法比较得分向量SCV中各维度序数，可以弥补其在待确认说话人语音和锚模型不匹配时的局限性。

首先将SCV＝{s₁，s₂，...s_n}里的得分进行排序：

s_i1＞s_i2＞...＞s_in

根据这个序列，可以得到得分序数向量V’＝{o₁，o₂，...o_n}，其中，o_ij＝j。

确认时，对说声称的说话人的注册语音和测试语音都求序数向量，并比较两个向量之间的距离：d＝|V₁’-V₂’|²。将距离与阈值比较，若距离小于阈值，则接受为同一个说话人，反之则拒绝。

实验结果

本方法在SRMC多通道语音库和YOHO语音库上进行了实验。SRMC语音库包括303个说话人，分为麦克风、PDA、手机、固定电话四个通道，每个通道的语料内容分为个人信息、短文段落、数字串、省份传和看图说话等部分；YOHO语音库包括138个说话人，每个人的语料分为注册和确认两部分，为普通办公室录音环境。

我们选取了四组语料用于实验，分别是：

Dataset 0：YOHO库所有人的注册部分和SRMC库里麦克风通道的个人信息部分。这些语音用于训练背景模型。

Dataset 1：YOHO库里随机选取的50个人。用于进行确认实验，用每个人的注册语料进行注册，确认部分每个文件分别进行测试。

Dataset 2：YOHO库里剩下的88个人，用每个人的注册语料分别训练匹配的锚模型。

Dataset 3：SRMC里随机选取的88个人，用每个人的麦克风通道中短文段落部分分别训练不匹配的锚模型。

作为对比，我们同时也用传统的欧式距离和向量夹角距离在同样的条件下进行实验。实验分为两组，一组用匹配的锚模型Dataset 2，一组用不匹配的锚模型Dataset 3，测试数据和注册数据都来自Dataset 1。根据改变的阈值，画出三个算法确认的错误报警率和错误接收率DET曲线，分别如图1和图2所示：

其中，当错误接收率和错误拒绝率相等时的值，等错误率，如下表所示：

等错误率	匹配	不匹配
等错误率	匹配	不匹配	欧式距离	33.25％	35.71％
向量夹角	21.53％	30.38％	欧式距离	33.25％	35.71％
向量夹角	21.53％	30.38％	序数比较	19.96％	22.89％

实验结果表明，基于锚模型空间投影序数比较的快速说话人确认方法，比传统的锚模型方法更准确，对锚模型与测试说话人不匹配的情况更鲁棒性。

Claims

1、一种基于锚模型空间投影序数比较的快速说话人确认方法，其特征在于：首先用将测试语音进行锚模型映射，然后将映射后的测试语音与其所声明的说话人进行序数比较。

2、权利要求1所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法，其特征在于：锚模型映射为：首先对测试语音进行特征提取，得到一组特征向量序列，然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量。

3、权利要求1所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法，其特征在于：所述序数比较为将得分向量中的得分排序，并比较测试语音与声明说话人的得分序数并计算序数的欧式距离，最后将序数距离与阈值比较得到最终结果。

4、权利要求1或2或3所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法，其特征在于：该方法具体步骤如下：

第一步：音频预处理：音频预处理分为采样量化，去零漂，预加重和加窗三个部分；

第二步：特征提取：音频帧上的特征提取包括能量和梅尔倒谱系数的提取；

第三步、锚模型训练：

锚模型的训练过程分为背景模型的训练和锚模型自适应，背景模型和锚模型都是高斯混合模型，是用多个高斯分布的线性组合近似说话人的特征分布；

M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布，即：

p (x) = Σ_{i = 1}^{M} P_{i} b_{i} (x)

b_{i} (x) = N (x, μ_{i}, R_{i}) = \frac{1}{{(2 π)}^{p / 2} {| p_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} - R_{i}^{- 1} (x - μ_{i})}

其中，p是特征的维数，b_i(x)为核函数，是均值矢量为μ_i、协方差矩阵为R_i的高斯分布函数，M是GMM模型的阶数，在建立说话人模型以前设为一确定整数，λ＝{P_i，μ_i，R_i|i＝1，2，...，M}为说话人特征分布GMM中的参数，作为高斯混合分布的加权系数，P_i应满足使得：

{&Integral;}_{- \infty}^{+ \infty} p (x | λ) dx = 1

背景模型由大量语音数据训练而成，用来消除背景差异和自适应锚模型，锚模型为由一组特定说话人语音训练成的一组高斯混合模型；

第四步、锚空间投影：

用户语音输入后，经特征提取，得到一特征向量序列；该序列输入到锚模型的各个GMM中，得到一组相似度值组成的向量SCV：SCV＝{s₁，s₂，...s_n}，其中s_i是第i个锚模型GMM的得分与背景模型得分之差；

第五步、基于序数比较的确认：

比较得分向量SCV中各维度序数；首先将SCV＝{s₁，s₂，...s_n}里的得分进行排序：s_i1＞s_i2＞...＞s_in，根据这个序列，可以得到得分序数向量V’＝{o₁，o₂，...o_n}，其中，o_ij＝j；

确认时，对说声称的说话人的注册语音和测试语音都求序数向量，并比较两个向量之间的距离：d＝|V₁’-V₂’|²；将距离与阈值比较，若距离小于阈值，则接受为同一个说话人，反之则拒绝。

5、权利要求4所述的所述的基于锚模型空间投影序数比较的快速说话人确认方法，其特征在于：音频帧上的特征提取包括能量和梅尔倒谱系数的提取；具体步骤如下：

5.1)、能量的提取：

E = Σ_{n = 1}^{N} s^{2} (n)

5.2)、MFCC的提取：

A)、设置梅尔倒谱系数的阶数p；

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)；

C)、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)

D)、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)

E)、计算每个梅尔域通道φ_j上的对数能量谱：

E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2},

其中

Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1;

F)、做离散余弦变换DCT。