CN103794207A

CN103794207A - 一种双模语音身份识别方法

Info

Publication number: CN103794207A
Application number: CN201210420105.3A
Authority: CN
Inventors: 曾向阳; 邓刚; 王志刚
Original assignee: Xi'an Yuansheng Electronic Science And Technology Co Ltd
Current assignee: Xi'an Yuansheng Electronic Science And Technology Co Ltd
Priority date: 2012-10-29
Filing date: 2012-10-29
Publication date: 2014-05-14

Abstract

本发明公开了一种双模语音身份识别方法，应用于包括声音采集装置和信息处理装置的身份识别系统，所述的系统还包括语音密码特征库和声纹特征库，将密码识别和声纹识别集成到一个身份识别系统。本发明的技术效果：本发明提出基于孤立词识别即密码识别和说话人识别即声纹识别的双模语音身份鉴别方法，在不大量增加计算量的前提下，大大提高了以单一说话人声纹特征识别的鉴别系统的稳定性，增加了这类系统的实用价值，提高了识别系统安全性。通过双重判定，能够在一定程度上克服由于模仿导致的说话人识别系统误判的缺点，又能克服单一语音密码鉴别系统密码容易泄露的缺点。

Description

一种双模语音身份识别方法

技术领域

本发明涉及语音识别技术，具体涉及一种双模语音身份识别方法。

背景技术

说话人识别是指使用机器算法从一段语音信号提取独特的特征信息，由此识别出说话人的身份。该技术主要用于基于语音的身份确认、语音侦听、法庭证物鉴定等。说话人识别的方法主要包括矢量量化（VQ）、支持向量机（SVM）、高斯混合模型（GMM）等。其中，VQ及其改进算法较为简单，且性能表现良好，在说话人识别中一直广泛应用。

目前，基于说话人识别的身份确认技术已经开始运用到智能门禁系统中来。但是，由于语音信号的不确定性以及人声的可模仿性，单纯基于说话人特征的识别系统很难在实际的应用中保持良好的鲁棒性。

发明内容

考虑到孤立词识别在对单词和短语识别上出色的性能，本发明提供了一种以单词或者短语为语音密码，将其识别作为身份识别系统的判别元素之一，然后结合说话人声纹特征进行身份权限判定。

本发明解决上述技术问题的方案是：一种双模语音身份识别方法，应用于包括声音采集装置和信息处理装置的身份识别系统，所述的系统还包括语音密码特征库和声纹特征库，包括如下步骤：

步骤1，用户对声音采集装置说出输入语音，采集装置采集该输入语音；

步骤2，密码识别，采集装置将采集的输入语音输入信息处理装置，所述的信息处理装置将所述输入语音与语音密码特征库进行模板匹配，计算得到匹配距离；

步骤3，声纹识别，所述的信息处理装置将所述的输入语音进行声纹特征提取，并对提取的声纹特征与声纹特征库进行欧式距离计算；

步骤4，将密码识别和声纹识别所得的结果结合，如果密码识别和声纹识别的结果一致，则判定说话者身份确认有效；否则，认为身份鉴别失败。

本发明还包括以下改进方案：

所述的语音密码特征由用户在使用前经声音采集装置录入语音信号，所述录入的语音信号由信息处理装置进行预处理并提取语音密码特征，对符合要求的语音密码特征保存至语音密码特征库。

所述的声纹特征由用户在使用前经声音采集装置录入语音信号，所述录入的语音信号由信息处理装置进行预处理并提取声纹特征，对提取的声纹特征进行LBG算法进行矢量量化，量化后的声纹特征即为用户码本，所述码本保持至声纹特征库。

所述的预处理包括对语音信号进行预加重处理，所述的预加重的形式如下：

所述的为预加重系数，取值为0.90-0.98。

所述的预加重处理由一阶零点数字滤波器实现，所述滤波器频域对应的形式是。

所述的预处理还包括对预加重后的语音信号进行分帧加窗处理，所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号，并对每帧语音信号加上hamming窗。

所述的预处理还包括对分帧后的语音进行端点检测，所述端点检测完成后对语音信号进行MFCC特征提取，生产语音密码特征库。

所述的预处理依次包括预加重、分帧加窗和端点检测。

本发明的技术效果：

本发明提出基于孤立词识别即密码识别和说话人识别即声纹识别的双模语音身份鉴别方法，在不大量增加计算量的前提下，大大提高了以单一说话人声纹特征识别的鉴别系统的稳定性，增加了这类系统的实用价值，提高了识别系统安全性。通过双重判定，能够在一定程度上克服由于模仿导致的说话人识别系统误判的缺点，又能克服单一语音密码鉴别系统密码容易泄露的缺点。

附图说明

图1本发明的总流程图。

图2孤立词识别流程框图。

图3说话人识别流程框图。

具体实施方式

本发明公开了一种双模语音身份识别方法，应用于包括声音采集装置和信息处理装置的身份识别系统，所述的系统还包括语音密码特征库和声纹特征库，将密码识别和声纹识别集成到一个身份识别系统，提高了以单一说话人声纹特征识别的鉴别系统的稳定性，增加了这类系统的实用价值，提高了识别系统安全性。

请参阅图1为本发的总流程图。

步骤101，用户对声音采集装置说出输入语音，采集装置采集该输入语音；

步骤102，信息处理装置对输入语音进行信号的预处理；

步骤103，对预处理完成后的信号进行端点检测；

步骤104，进一步的对信号进行特征提取，所述的特征包括密码特征和声纹特征；

步骤105A，所述的信息处理装置将所述处理后的输入语音的密码特征与语音密码特征库进行模板匹配，计算得到匹配距离；

步骤105B，所述的信息处理装置将所述处理后的输入语音的声纹特征与声纹特征库进行欧式距离计算；

步骤106，将密码识别和声纹识别所得的结果结合，如果密码识别和声纹识别的结果一致，则判定说话者身份确认有效；否则，认为身份鉴别失败。

所述的预处理还包括对预加重后的语音信号进行分帧加窗处理，所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号，并对每帧语音信号加上hamming窗。所述的预处理包括对语音信号进行预加重处理，所述的预加重的形式如下：

所述的

为预加重系数，取值为0.90-0.98。所述的预加重处理由一阶零点数字滤波器实现，所述滤波器频域对应的形式是

。

所述步骤105A中匹配距离的计算方法如下：

a）使用如下方法计算新特征

和语音密码特征库某词特征m的每帧之间的欧式距离。

b）初始化一个新的距离矩阵D使其与

的维数完全相同，将

的值赋给

；

c）计算

的方法如下，令，

，如果

，则赋给

一个极大值，

，如果

则赋给

一个极大值；，为取

、

、

之间的最小值；

d）将k逐渐变大，直到算出

或者

，作为最后的匹配距离，

或者

；按照上述的方法取最小的dis作为匹配结果。

所述步骤105B中的欧式距离的计算方法如下：

假设某说话人码本是，其中，

都是的列向量，为先前保存的说话人声纹特征，计算所有帧与所有新码本的欧式距离，求法如下，

求出每一帧对应每个码本的距离，按列寻找其最小值，如果第k行的最小值在第j列，则第k帧是属于第j个码本的；用

表示第k帧及其所属于的码本的欧式距离，用

，求出d的均值作为新的失真度误差；按照上述的方法对比新的说话人MFCC特征和每个说话人声纹特征库中的数据得到若干个失真度误差

，假设有l个说话人，则

，取其中最小的失真度误差

所对应的第j个说话人作为说话人确认的结果。

所述密码特征库的生成方法包括：

a）进入系统，假设为初次使用，调用录音功能，用户说出事先想好的词（语音密码），这样采集系统就能以采集到语音信号，假设该信号为，

。

b）对进行预处理，使用的方法是一阶零点数字滤波器实现预加重，形式如下：

该滤波器频域对应的形式：

。其中，

为预加重系数，取值为0.90-0.98，本系统取值为0.9375。

对

进行分帧加窗处理，由于语音信号的非平稳特性，通常需要将语音分成每帧10-30ms短时语音信号进行分析。本发明使用的帧长

为256个点，使用0.5帧的帧移。并对每帧加上hamming窗。得到新的矩阵形式的信号

，n为帧数。

然后就是对分帧后的语音进行端点检测，本发明中端点检测采用基于临界带功率谱方差的方法。具体步骤如下：

预处理后的语音帧

，通过FFT变换求出语音帧对应的功率谱

。

划分临界带，按照公式：

在

之间确定临界带频率分割点

。

将每个临界带中的

取和即可得到相应的临界带特征矢量。如果用

表示每一帧的临界带特征矢量，那么

可表示为：

其中

，512为FFT的点数，

为采样频率。

求临界带功率谱方差。对临界带特征矢量

求均值，用

表示：

再求临界带功率谱方差，根据方差的定义：

值随着信噪比SNR的下降而增大，固定的门限值在这种情况下不适用。为此，需要设计一个与SNR自适应的门限值，使其对噪声具有良好的跟踪性能。门限值

由初始项和调整项两部分构成，

为调整系数，为初始项。

通过大量仿真实验，得出

和

的经验值：

其中，

为最小的20个

值的平均。

取大于以上阈值且连接在一起的若干语音帧作为有效语音段，将这若干帧进行后面的处理。假设处理以后得到一个新的矩阵s，帧数是

，维度是256。

c）将按以上检测方法检出的语音进行MFCC特征提取，生成语音密码特征参数库。

在本发明中使用通用的MFCC参数特征。提取MFCC特征首先是将实际频率转化为符合人耳听觉特性的Mel频率，Mel频率与实际频率的对应关系如下：

使用melbankm函数将信号在mel频率线性的分为13个频带，并计算出每个频带的加权系数。MFCC参数是将每一帧语音频谱按照Mel频率划分的频带，进行一个滤波器滤波后加权求和输出这段频率范围的能量，再对每个频带的输出能量进行离散余弦变换（DCT），即得一帧的MFCC参数。将各帧MFCC组合起来，就得到一个新的矩阵记为m，帧数是，维度是13。其中MFCC滤波器个数可以从8-24变化，以12或者13效果最好。

在关键词识别系统中，将训练阶段所有输入语音密码的MFCC参数特征以数据形式存储起来，这样语音密码库就建立起来了。

所述声纹特征库的建立方法包括：

a）进入系统，调用录音功能，用户说出一定长度的句子，要求录音30秒，这样采集系统采集到语音信号，假设该信号为信号为

，。

b）对

进行预处理，使用的方法是一阶零点数字滤波器实现预加重，形式如下：

频域对应的形式：

。其中，为预加重系数，取值为0.90-0.98，本系统取值为0.9375。

对

进行分帧加窗处理，由于语音信号的非平稳特性，通常需要将语音分成每帧10-30ms短时语音信号进行分析。本发明使用的帧长为256个点，使用0.5帧的帧移。并对每帧加上hamming窗。得到新的矩阵形式的信号

，n为帧数。

c）将按以上检测方法检出的语音进行同步骤1中(c)的MFCC特征提取，

d）在提取说话人的MFCC特征参数后，采用通用的LBG算法进行矢量量化，得到说话人的码本。码本个数可以从16-128个，本发明使用了64个码本，每个说话人都有一个相应的码本。这样存储不同说话人的不同码本数据，声纹库就建立起来了。对任意一个说话人声音样本，在完成a、b、c3步后，使用的LBG算法具体如下：（假设MFCC特征m，帧数是

，维度是13，即MFCC特征共有13行，

列）

1）设定门限t=0.01，初始化失真度误差drt=10000，e=0.01；

2）计算输入数据m按列求均值，假设计算结果为

（

的列向量），并将作为第一个码本；

3）使用r(1+e), r(1-e)将原来某个码本分裂为两个码本，如果原来有p个码本，则能分裂出2p个码本，分别记为

，其中

，

都是

的列向量。计算所有帧与所有新码本的欧式距离，求法如下

这样就求出了每一帧对应每个码本的距离

，按列寻找其最小值，如果第k行的最小值在第j列，则第k帧是属于第j个码本的；

4）用

表示第k帧及其所属于的码本的欧式距离，用

求出d的均值作为新的失真度误差；

5）使用求出的新失真度误差

，比较两次循环前后的差距，如果小于t则循环结束，条件为

，满足条件，则使用这次求出来的，

作为新的码本。否则继续回到步骤3。使用更新；

6）回到步骤（3）共循环6次出直到分裂出64个码本为止。

将64个码本（

，

）保存起来，就得到了一个说话人声纹特征，将所有测试的说话人特征以这种形式保存起来，就得到了说话人声纹特征库。

如图2所示的孤立词识别即密码识别流程框图，在规定的录音时间内，待确认身份者输入语音密码（允许语速和语气等有一定变化）。

对输入的语音密码进行预处理，端点检测和特征提取提取出语音MFCC特征

，帧数是

，维度是13。计算新特征

和语音密码库的某一个词的特征m（维数为

）的方法是立词语音识别中常用的DTW算法，具体方法如下：

a）使用如下方法计算新特征

和语音库某词特征m的每帧之间的欧式距离。

b）初始化一个新的距离矩阵D使其与

的维数完全相同，将的值赋给

；

c）计算

的方法如下，令，，如果

，则赋给

一个极大值，

，如果

则赋给

一个极大值。

，

为取

、

、

之间的最小值。

d）将k逐渐变大，直到算出

或者

，作为最后的匹配距离，

或者

。

按照上面的方法取最小的dis作为匹配结果。

如图3所示的说话人识别即声纹识别流程框图，假设某说话人码本

，其中

，

都是

的列向量，为先前保存的说话人声纹特征。计算所有帧与所有新码本的欧式距离，求法如下：

这样就求出了每一帧对应每个码本的距离

用

表示第k帧及其所属于的码本的欧式距离，用，求出d的均值作为新的失真度误差；

这样按照上面的方法对比新的说话人MFCC特征和每个说话人声纹特征库中的数据得到若干个失真度误差

，假设有l个说话人，则

，取其中最小的失真度误差

所对应的第j个说话人作为说话人确认的结果。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种双模语音身份识别方法，应用于包括声音采集装置和信息处理装置的身份识别系统，所述的系统还包括语音密码特征库和声纹特征库，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种双模语音身份识别方法，其特征在于，所述的语音密码特征由用户在使用前经声音采集装置录入语音信号，所述录入的语音信号由信息处理装置进行预处理并提取语音密码特征，对符合要求的语音密码特征保存至语音密码特征库。

3.根据权利要求1所述的一种双模语音身份识别方法，其特征在于，所述的声纹特征由用户在使用前经声音采集装置录入语音信号，所述录入的语音信号由信息处理装置进行预处理并提取声纹特征，对提取的声纹特征进行LBG算法进行矢量量化，量化后的声纹特征即为用户码本，所述码本保持至声纹特征库。

4.根据权利要求2所述的一种双模语音身份识别方法，其特征在于，所述的预处理包括对语音信号进行预加重处理，所述的预加重的形式如下：

所述的

为预加重系数，取值为0.90-0.98。

5.根据权利要求5所述的一种双模语音身份识别方法，其特征在于，所述的预加重处理由一阶零点数字滤波器实现，所述滤波器频域对应的形式是。

6.根据权利要求5所述的一种双模语音身份识别方法，其特征在于，所述的预处理还包括对预加重后的语音信号进行分帧加窗处理，所述的分帧加窗处理包括将预加重后的语音信号分成每帧10-30ms短时语音信号，并对每帧语音信号加上hamming窗。

7.根据权利要求7所述的一种双模语音身份识别方法，其特征在于，所述的预处理还包括对分帧后的语音进行端点检测，所述端点检测完成后对语音信号进行MFCC特征提取，生产语音密码特征库。

8.根据权利要求3所述的一种双模语音身份识别方法，其特征在于，所述的预处理依次包括预加重、分帧加窗和端点检测。

9.根据权利要求1所述的一种双模语音身份识别方法，其特征在于，所述步骤1还包括对输入语音进行预处理、端点检测和特征提取。

10.根据权利要求9所述的一种双模语音身份识别方法，其特征在于，所述的预处理包括预加重和分帧加窗。