CN1877697A

CN1877697A - 一种基于分布式结构的说话人确认方法

Info

Publication number: CN1877697A
Application number: CNA2006101036129A
Authority: CN
Inventors: 李毅杰; 谢湘; 匡镜明
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2006-07-25
Filing date: 2006-07-25
Publication date: 2006-12-13

Abstract

本发明涉及一种基于分布式结构的说话人确认方法，这种基于分布式结构的说话人确认方法的系统(1)，包括了系统前端(2)、数据传输信道(3)和系统后端(4)。其中系统前端采集说话人语音，提取特征，压缩为比特流格式，并送入数据传输信道；数据传输信道负责系统前端与系统后端数据的传输；系统后端将比特流格式数据解压缩为特征，并进行说话人确认。本发明的有益效果是：采用分布式结构解决了移动终端的存储量和计算能力的不足；采用匹配说话人模板与语音识别模板的双门限判决方法使得说话人确认方法同时满足说话人与说话内容判决的要求；采用随机文本提示的说话人确认方法防止假冒者应用说话人录音进入系统。

Description

一种基于分布式结构的说话人确认方法

技术领域

本发明涉及一种说话人确认方法，更具体地说，它涉及一种说话人识别与语音识别相结合的说话人确认方法。

背景技术

说话人识别，也称声纹识别或者话者识别，属于生物识别技术(如DNA识别，虹膜识别，指纹识别，颅骨识别等)的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，说话人识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性；而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。

基于电话语音的说话人识别技术的兴起始于80年代，由于电话网络和移动通信网络的普及以及电话银行、远程炒股、电子商务等电信相关业务的蓬勃发展，它成为了说话人识别技术领域的研究重点。但是基于电话语音的说话人识别技术引入了话筒和传输信道，给语音带来了噪声和畸变，所以提高系统的鲁棒性一直是技术的关键，也是说话人识别技术投入实际应用需要解决的基本问题之一。另外，随着数据通信遍布于整个无线移动世界，便携式设备(如手机、笔记本电脑等)作为通过无线网络获取信息的移动终端，被更多的应用到无线通信中。然而，复杂的多媒体以及说话人识别系统的计算量对于移动终端的存储量和计算能力来说还存在着很大的挑战。在移动通信网络中对语音信号进行传输时，语音信号经过低比特率编码，再加上传输信道误码的影响，重构语音的失真严重，造成说话人识别系统的性能大幅下降。由于分布式说话人识别系统能够减少移动终端的存储量与计算量，并且对信道错误有较强的鲁棒性等优点，因此它将可能成为无线移动互联网中被应用的说话人技术的发展趋势。

对于说话人确认，根据说话内容划分，可以分为文本无关说话人确认和文本相关说话人确认。对于文本无关的说话人确认系统，由于采用自由说话文本内容，虽然系统的易用性较高，可用在用户不配合发音的场合，但是系统的安全性也较低；对于文本相关的说话人确认系统，采用的是受限说话文本内容，需要用户配合提示文本内容发音，因此系统的安全性较高。为了防止假冒者应用说话人录音进入系统，人们采用随机文本提示的说话人确认，即此说话人确认系统不仅要判决说话人信息，还要判决说话的内容，只有这两者都符合系统要求的情况下，系统才接受。对于这种随机文本的说话人确认系统，传统的方法是采用特定说话人的语音识别方法，但是这种方法需要训练数据充足，而在实际应用系统中，这点却往往不能得到满足。

本发明便是针对基于电话信道说话人识别中存在的信道匹配问题，基于分布式结构，提出一种基于分布式结构的说话人确认方法。另外，随机文本提示的说话人确认系统中，采用了说话人识别和语音识别相结合的双门限判决方法。

发明内容

本发明要解决现有基于电话语音说话人确认技术存在的缺陷，提供一种基于分布式结构的说话人确认方法，通过说话人识别和语音识别相结合的方法，实现随机文本提示的说话人确认方法，以防止假冒者应用说话人录音进入系统。

本发明解决其技术问题所采用的技术方案：这种基于分布式结构的随机文本提示说话人确认方法，是为每个说话人建立一个说话人识别模板，同时建立语音识别模板，首先在系统前端对语音进行特征提取，压缩为比特流格式，通过数据信道传输到系统后端；系统后端将比特流经过特征解压缩还原为特征，并分别训练说话人识别模板与语音识别模板；在识别阶段，采用的是说话人识别与语音识别相结合的双门限二次判决的方法，对于一条新语句，分别对说话人识别模板与语音识别模板进行打分，在通过一次判决的前提下，对得分进行归一化后进行二次判决。

本发明有益的效果是：采用分布式结构解决了移动终端的存储量和计算能力的不足；采用随机文本提示的说话人确认方法防止假冒者应用说话人录音进入系统；采用匹配说话人模板与语音识别模板的双门限方法使得随机文本提示的说话人确认方法同时满足说话人与说话内容判决的要求。

附图说明

图1为本发明的一个基于分布式结构的说话人确认拓扑结构图；

图2为本发明一个实施例的系统流程图；

图3为GMM识别的二次判决流程图；

图4为HMM识别的二次判决流程图；

具体实施方式

下面结合附图和实施例对本发明作进一步的介绍：本发明的方法共分六步。

第一步：系统前端特征提取

特征提取分为噪声削减，波形处理，谱计算，盲均衡四个部分。

1.噪声削减处理

噪声削减模块对输入信号基于帧进行二阶降噪处理。第一阶的输出信号作为第二阶的输入信号。

a)利用谱估计模块对于输入语音帧进行线性谱估计；

b)利用功率谱密度均值模块对信号按时序进行平滑处理；

c)利用当前帧的谱估计与噪声谱估计信息一起计算频域维纳滤波器系数；

d)线性维纳滤波器的系数将被一组美尔滤波器沿频率轴做平滑处理，之后再经过美尔反余弦变换便得到了美尔频率域的维纳滤波器；

e)每阶降噪处理的输入信号都经过应用滤波器进行滤波处理；

f)对待输出信号进行偏置补偿处理。

2.波形处理

波形处理模块根据信噪比，对噪声削减模块的输出信号进行处理。主要包括能量包络平滑模块、峰值检测模块和波形信噪比加权模块。

a)以帧为基础计算噪声消减模块输出的能量，并采用FIR滤波器进行能量平滑；

b)确定相应于基音频率的被平滑的能量包络的最大值；

c)构造长度为N_in的加权函数w_swp(n)，并将此函数作用于整个波形处理模块的输入语音帧，得到输出信号。

S_out(n)＝1.2·w_swp(n)·s_in(n)+0.8·(1-w_swp(n))·s_in(n)，0≤n≤N_in-1

3.谱计算

谱计算即提取美尔频率倒谱系数(MFCC)，包括能量量度计算、预加重、加窗、快速傅立叶变换、美尔滤波、非线性变换、余弦变换。计算得到的参数将被一起进行矢量量化特征压缩以及比特流帧格式化处理。

4.盲均衡

盲均衡模块是利用LMS算法对MFCC倒谱系数进行均衡处理。

第二步：系统前端特征压缩

1.特征压缩输入参数是由盲均衡模块输出的美尔频率倒谱系数，采用分裂矢量量化的特征压缩算法进行压缩；

2.对经过矢量量化压缩的比特流数据进行帧格式化和误码保护，加入CRC冗余校验，同步序列，帧头信息，装帧之后送入信道进行传输。

第三步：系统后端特征解压缩

1.对从信道接收到的比特流数据经过误码检测及其纠错；

2.将误码检测纠错后的比特流，根据分裂矢量量化的码本进行特征解压缩。

第四步：系统后端模板训练

1.说话人识别模板训练

这里，说话人识别模板采用的是高斯混合模型(GMM)。将训练语料库的语音，经过特征提取量化后，根据说话人信息，为每个人训练一个GMM。

2.语音识别模板训练

这里，语音识别模板采用的是隐马尔可夫模型(HMM)，并且，训练的时候采用说话人自适应技术。将训练语料库的语音，经过特征提取量化后，训练一个说话人无关的HMM；然后将自适应语料库的语音，经过特征提取量化后，对说话人无关的HMM进行自适应，得到说话人相关的HMM。

第五步：系统后端模板匹配

1.GMM模型匹配

a)利用该说话人的GMM对每帧的特征向量进行打分，然后取所有帧的得分的平均值S₁₁为此语句对于说话人判别的得分；

b)利用除了当前说话人外的每个说话人GMM对每帧的特征向量进行打分，并得到最高的N₁个得分，并求这N₁个得分的算术平均值S₁。

2.HMM模型匹配

a)根据说话内容，固定语法搜索网络，利用语音识别模板对每帧的特征向量进行打分，然后取所有帧的得分的平均值S₂₁为此语句对于说话人判别的得分；

b)根据词法网络循环搜索，利用语音识别模板对每帧的特征向量进行打分，所有搜索得分中并得到最高的N₂个得分，并求这N₂个得分的算术平均值S₂。

第六步：系统后端双门限判决

1.一次判决

将S₁₁与说话人一次阈值T₁₁相比较，S₂₁与说话内容一次阈值T₂₁相比较，若S₁₁＞T₁₁且S₂₁＞T₂₁时，进行二次判决，否则系统拒绝，即认为该语句不符合说话人和说话内容的双重要求；

2.二次判决

根据S₁₁与S₁，S₁₂与S₂，可以分别得到归一化得分S₁₂与S₂₂，其中：

S₁₂＝S₁₁-S₁

S₂₂＝S₂₁-S₂

将S₁₂与说话人二次阈值T₁₂相比较，S₂₂与说话内容二次阈值T₂₂相比较，若S₁₂＞T₁₂且S₂₂＞T₂₂时，则系统接受这条语句是此说话人的正确说话内容语句，否则系统拒绝即认为该语句不符合说话人和说话内容的双重要求。

实验举例

1.实验数据库

本方法在北京理工大学现代通信实验室的随机数字串语料库上进行了实验。语料库由99个说话人语音组成，其中包括45个男性说话人和44个女性说话人，录制内容为汉语普通话中“零”到“九”这十个数字以及“幺”(其意义和“一”相同)。语料被分为训练集，自适应集和测试集三部分，其中训练集包括每个说话人随机三字词、四字词、五字词各3句，共99×9＝891句语句，自适应集合包括每个说话人“零”到“九”这十个数字以及“yao1”的发音一遍，测试集包括每个说话人随机三字词、四字词、五字词各3句，共99×9＝891句语句。

2.系统性能评价指标

系统评价指标的定义如下：

其中：

在对系统性能进行评价时，我们采用等差错率(EER)，即错误拒绝率FRR和平均错误接受率FAR相等时的值。

3.实验结果

实验结果如下表所示：

表1随机数字串说话人确认实验结果

系统方法	EER	FAR_I	FAR_II	FAR_III
系统方法	EER	FAR_I	FAR_II	FAR_III	特定说话人HMM	15.01％	35.12％	8.12％	3.29％
GMM+非特定人HMM	13.33％	23.16％	10.89％	5.96％	特定说话人HMM	15.01％	35.12％	8.12％	3.29％

GMM+自适应HMM	12.03％	23.16％	9.42％	3.51％
GMM+自适应HMM	12.03％	23.16％	9.42％	3.51％	GMM+自适应HMM+二次判决	4.09％	6.73％	4.98％	0.66％

其中，本实验在采用GMM与自适应HMM相结合的双门限二次判决的说话人确认方法时，GMM判决的一次判决门限S₁₁＝-35.21，二次判决门限S₁₂＝-0.53；HMM判决的一次判决门限S₂₁＝-33.56，二次判决门限S₂₂＝-1.70。

由实验结果可以看出，对于随机文本提示的说话人确认系统，采用GMM与HMM相结合的双门限二次判决方法后，系统性能较采用特定说话人HMM识别的方法有大幅度提升。

Claims

1.一种基于分布式结构的说话人确认系统，该系统包括了系统前端、数据传输信道和系统后端；系统前端采集说话人语音，提取特征，压缩为比特流格式，并送入数据传输信道；数据传输信道负责系统前端与系统后端数据的传输；系统后端将比特流格式数据解压缩为特征，并进行说话人确认。

2.根据权利要求1所述的系统，其特征在于，所述的说话人确认是随机文本提示的说话人确认的方法。

3.根据权利要求2所述的随机文本提示的说话人确认方法，其特征在于，采用说话人识别方法与语音识别方法相结合的方法。

4.根据权利要求2所述的随机文本提示的说话人确认方法，其特征在于，采用双门限判决的方法。

5.根据权利要求3或4所述的基于分布式结构的说话人确认方法，其特征在于：该方法系统前端的主要步骤：

5.1)特征提取：特征提取分为噪声削减，波形处理，谱计算，盲均衡；

5.2)特征压缩：特征压缩分为分裂矢量量化，压缩数据的比特流帧格式化。

6.根据权利要求3或4所述的基于分布式结构的随机文本提示说话人确认方法，其特征在于：该方法系统后端的主要步骤：

6.1)特征解压缩：特征解压缩根据分裂矢量量化的码本，将压缩数据的比特流还原为特征向量序列；

6.2)模板训练：模板训练包括说话人识别模板与语音识别模板的训练；

6.3)模板匹配：模板匹配包括说话人识别模板与语音识别模板的匹配，将解压缩后的特征向量序列，利用该说话人识别模板对每帧的特征向量进行打分，然后取所有帧的得分的平均值S₁₁为此语句对于说话人判别的得分；另外，根据说话内容，利用语音识别模板对每帧的特征向量进行打分，然后取所有帧的得分的平均值S₂₁为此语句对于说话人判别的得分；

6.4)双门限判决：双门限判决采用二次判决的方法；一次判决时，将S₁₁与说话人一次阈值T₁₁相比较，S₂₁与说话内容一次阈值T₂₁相比较，若S₁₁＞T₁₁且S₂₁＞T₂₁时，进行二次判决，否则系统拒绝，即认为该语句不符合说话人和说话内容的双重要求；二次判决时，根据S₁₁得到归一化后的归一化得分S₁₂，根据S₂₁得到归一化得分S₂₂，将S₁₂与说话人二次阈值T₁₂相比较，S₂₂与说话内容二次阈值T₂₂相比较，若S₁₂＞T₁₂且S₂₂＞T₂₂时，则系统接受这条语句是此说话人的正确说话内容语句，否则系统拒绝即认为该语句不符合说话人和说话内容的双重要求。

7.根据权利要求6所述的基于分布式结构的随机文本提示说话人确认方法，其特征在于：双门限判决的二次判决归一化方法采用的是竞争模型的归一化方法：

7.1)将解压缩后的特征向量序列，利用除了当前说话人外的每个说话人识别模板对每帧的特征向量进行打分，并得到最高的N₁个得分，并求这N₁个得分的算术平均值 S₁；

7.2)将解压缩后的特征向量序列，根据词法搜索网络，利用语音识别模板对每帧的特征向量进行打分，所有搜索得分中并得到最高的N₂个得分，并求这N₂个得分的算术平均值 S₂；

7.3)根据S₁₁与S₁， S₁₂与 S₂，可以分别得到归一化得分S₁₂与S₂₂，其中：

S₁₂＝S₁₁- S₁

S₂₂＝S₂₁- S₂