CN110931022B

CN110931022B - 基于高低频动静特征的声纹识别方法

Info

Publication number: CN110931022B
Application number: CN201911137708.0A
Authority: CN
Inventors: 魏建国; 张琳; 张瑞腾
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-09-15
Anticipated expiration: 2039-11-19
Also published as: CN110931022A

Abstract

本发明涉及模式识别、声纹识别，为提出一种针对声音信号进行更为鲁棒的声纹识别方法，所提供的发明可以更好的提取包含更为鲁棒的个性化特征，最终在说话人识别任务上得到更好的识别结果。为此，本发明采取的技术方案是，基于高低频动静特征的声纹识别方法，定义高低频的分界频率2.5kHz，在线性倒谱频率系数LFCC(Linear‑frequency cepstral coefficients)和对数能量谱基础流程上，针对高频和低频，分别设计两种梯形滤波器，分别提取低频的静态特征、提取高频的动态特征，并将其作为声纹识别分类器的输入，最终输出声纹识别认证结果。本发明主要应用于声音识别场合。

Description

基于高低频动静特征的声纹识别方法

技术领域

本发明涉及模式识别，声纹识别领域，具体是涉及一种基于高低频特征的声纹识别方法，用于更高效的针对不同声音识别对应说话人。

背景技术

声纹识别，也称作说话人识别，是通过声音来判别说话人身份的技术。虽然不像面部、指纹的个体性差异如此明显可见，但人的声纹都具有独特的特征，通过该特征能够将不同人的身份进行有效区分。然而目前在高混响、强噪声、多信道、多语种等真实复杂应用场景下，导致语音信号传输信号在不断发生变化，说话人识别技术仍无法满足实际应用性能要求，而这又对人机语音交互及信息安全领域技术进一步取得突破至关重要。

在特征层面，和语音识别一样，声纹识别中广泛使用的特征主要是基于Mel域的梅尔倒谱频率系数(Mel-frequency cepstral coefficients,MFCC)和Fbank特征，即针对人耳的感知特性，在低频具有较高的频率分辨率。但是对于声纹识别任务，使用Mel域的特征是有问题的，Mel域可以很好地提取低频信息，而大多数的文本信息也存在于低频，对于声纹识别来说，文本内容信息应该被抑制。

而很多感知实验表明，人的静态个性化特征主要集中在2.5k Hz以上，尤其是下咽腔中的喉前庭和梨状窝引起的共振。而动态特征则主要是由于相对舌体大小导致的低频范围上共振峰的变化，集中于低频。

通过本发明可以更具有针对性的提取说话人的个性化特征，大大提高了特征提取的针对性和声纹识别的鲁棒性。

发明内容

为克服现有技术的不足，本发明旨在基于言语生成的基础理论，提出一种针对声音信号，在频域范围内对高频和低频分别进行提取静态和动态特征，从而进行更为鲁棒的声纹识别方法，所提供的发明可以更好的提取包含更为鲁棒的个性化特征，最终在说话人识别任务上得到更好的识别结果。为此，本发明采取的技术方案是，基于高低频动静特征的声纹识别方法，定义高低频的分界频率2.5kHz，在线性倒谱频率系数LFCC(Linear-frequency cepstral coefficients)和对数能量谱基础流程上，针对高频和低频，分别设计两种梯形滤波器，分别提取低频的静态特征、提取高频的动态特征，并将其作为声纹识别分类器的输入，最终输出声纹识别认证结果。

具体步骤如下：

(1)特征提取前的数据准备步骤：

对数据库中的语音信号进行数据准备，划分训练集、验证集、测试集；

并进行语音活动检测VAD(Voice Activity Detection)和倒谱均值归一化CMN(Cepstral Mean Normalization)处理；

(2)特征提取步骤：

对语音信号分帧、加窗、短时傅里叶变换；

设计高低频滤波器，提出高低频滤波器振幅特征提取方法；

对于高频特征提取静态特征，对于低频提取动态信息；

(3)说话人分类模型训练步骤；

将训练集中的音频提取特征作为输入，训练基于高斯混合模型和通用背景模型GMM-UBM(Gaussian Mixture Model-Universal Background Model)的i-vector模型和概率线性判别分析程序PLDA(Probabilistic Linear Discriminant Analysis)打分模型；

(4)说话人确认打分步骤。

其中，特征提取具体包含三个步骤

1)数据预处理：把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换，其中，窗函数为Povey窗；

FFT点数设置为512，窗长25ms,窗移10ms；

2)静态特征提取：

设置高低频滤波器，滤波器由一组40维的三角滤波器组成，整体形状为梯形，高频滤波器对高频进行加强，低频进行抑制，低频滤波器对低频进行加强，高频进行抑制；

将滤波器Ψ_i(k)应用到经过快速傅里叶变换FFT(Fast Fourier Transform)变换的音频上，得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbankenergies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbankenergies).

其中，i是滤波器序号，e(i)是第i个滤波器的能量，X(k)是语音信号经过FFT变换之后的结果，Ψ_i(k)是第i个滤波器；

最后进行离散余弦变换DCT(Discrete Cosine Transform)操作，保留前19维，舍弃第0维，得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequencycepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linearfrequency cepstral coefficients)：

其中，c_m是m个倒谱系数，Q是滤波器总个数。

3)动态特征提取：

在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。

本发明的特点及有益效果是：

本发明使用针对高低频设计滤波器的方法，分别对高频和低频进行特征提取，并抉择更合适的静态动态特征，从而提取更适用于说话人任务的个性化特征，解决了说话人个性化特征不鲁棒的问题。

结果表明，该方法达到了良好的声纹识别效果。错误率得到了一定降低。这表明高频范围的静态特征更为有效。

附图说明：

图1为基于高低频动静特征的提取流程图。

图2为基于高低频动静特征的高低频滤波器示意图。

具体实施方式

实现本发明目的的技术解决方案为：

基于言语生成理论和感知实验，定义高低频的分界频率2.5kHz。在线性倒谱频率系数(Linear-frequency cepstral coefficients,LFCC)和对数能量谱(linear logfilterbank energies)基础流程上，针对高频和低频，分别设计两种梯形滤波器。提取低频的静态特征，提取高频的动态特征，并将其作为声纹识别分类器的输入，最终输出声纹识别认证结果。

本发明提出一种基于高低频动静特征的声纹识别方法，包括以下步骤：

步骤一，数据准备：

对数据库中的语音信号进行数据准备，划分训练集、验证集、测试集。

并进行语音活动检测VAD和倒谱均值归一化CMN处理。

步骤二，特征提取：

对语音信号分帧、加窗、短时傅里叶变换。

基于先验知识找到分界频率，设计高低频滤波器，提出高低频滤波器振幅特征提取方法对于高频特征提取静态特征，对于低频提取动态信息。

步骤三，说话人分类模型训练

将训练集中的音频提取特征作为输入，训练基于GMM-UBM的i-vector模型和PLDA打分模型。

步骤四，将等错误率(Equal Error rate，EER)和最小检测代价(MinimumDetection Cost Function,minDCF)作为评判指标，进行说话人确认打分

下面结合附图来描述本发明实施的基于高低频动静特征的声纹识别方法，主要包含以下步骤：

步骤一，数据准备：为了验证本发明的效果，在TIMIT数据库上进行声纹识别中的说话人确认实验。TIMIT数据库中共有来自8个地区的630个说话人，其中训练集462人，测试集168人。每人具有十句话。所有句子采样频率为16KHz。

步骤二，特征提取

如图1基于高低频动静特征的提取流程图所示，包含三个主要步骤

3)数据预处理：把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换。其中，窗函数为Povey窗。

FFT点数设置为512，窗长25ms,窗移10ms。

4)静态特征提取：

设置如图2所示的高低频滤波器，滤波器由一组40维的三角滤波器组成，整体形状为梯形。高频滤波器对高频进行加强，低频进行抑制，低频滤波器对低频进行加强，高频进行抑制。

将滤波器Ψ_i(k)应用到经过FFT变换的音频上，得到40维的高频对数滤波能量谱Hi-LFBE(high-emphasis on log filterbank energies),和低频对数滤波能量谱Lo-LFBE(low-emphasis on log filterbank energies).

其中，i是滤波器序号，e(i)是第i个滤波器的能量，X(k)是语音信号经过FFT变换之后的结果，Ψ_i(k)是第i个滤波器。

最后进行DCT操作，保留前19维，舍弃第0维。得到高频线性率倒谱系数Hi-LFCC(high-emphasis on linear frequency cepstral coefficients)和低频线性倒谱系数Lo-LFCC(low-emphasis on linear frequency cepstral coefficients)。

其中，c_m是第m个倒谱系数，Q是滤波器总个数。

3)动态特征提取：

在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取。公式如下，其中其中y_t(j)表示第t帧，第j维的倒谱系数，p＝2。

步骤三，分类模型训练：

利用kaldi工具箱，训练基于GMM-UBM的i-vector模型，并进行PLDA打分模型的训练。其中UBM为256，i-vector维度为100。在采用PLDA方法之前用LDA降维至50。

步骤四，说话人确认打分：

采用等错误率EER和最小检测代价minDCF来对模型进行评判。

本发明确认效果数据表如下：

表1静态特征上的识别结果

Feature	EER(％)	min DCF_p＝0.01	min DCF_p＝0.001
				MFCC	0.5952	0.0864	0.1733
IMFCC	0.5952	0.1007	0.2056
				LFCC	0.6803	0.0767	0.1784
Hi-LFCC	0.5102	0.0810	0.1844
				Lo-LFCC	0.6803	0.0797	0.1751
Hi-LFBE	0.5952	0.1001	0.2098
				Lo-LFBE	0.6803	0.1018	0.2380

表2一阶动态特征上的识别结果

Feature	EER(％)	min DCF_p＝0.01	min DCF_p＝0.001
				△MFCC	1.7010	0.2061	0.3484
△IMFCC	1.7010	0.2421	0.4181
				△LFCC	1.2760	0.1576	0.3075
△Hi-LFBE	1.7010	0.2405	0.4502
				△Lo-LFBE	1.8710	0.2471	0.4503

表3二阶动态特征上的识别结果

Feature	EER(％)	min DCF_p＝0.01	min DCF_p＝0.001
				△△MFCC	3.0610	0.3040	0.5200
△△IMFCC	2.5510	0.3566	0.6702
				△△LFCC	2.0410	0.2705	0.4929
△△Hi-LFBE	2.8060	0.3758	0.6645
				△△Lo-LFBE	2.8910	0.3671	0.6569

表1列出了静态特征在TIMIT数据库上的说话人确认效果，表2和表3列出了动态特征在TIIMT数据库上的说话人确认效果。

Claims

1.一种基于高低频动静特征的声纹识别方法，其特征是，定义高低频的分界频率2.5kHz，在线性倒谱频率系数LFCC和对数能量谱基础流程上，针对高频和低频，分别设计两种梯形滤波器，分别提取低频的静态特征、提取高频的动态特征，并将其作为声纹识别分类器的输入，最终输出声纹识别认证结果；具体步骤如下：

特征提取前的数据准备步骤：

并进行语音活动检测VAD和倒谱均值归一化CMN处理；

特征提取步骤：

FFT点数设置为512，窗长25ms,窗移10ms；

2)静态特征提取：

将滤波器Ψ_i(k)应用到经过快速傅里叶变换FFT变换的音频上，得到40维的高频对数滤波能量谱Hi-LFBE,和低频对数滤波能量谱Lo-LFBE；

最后进行离散余弦变换DCT操作，保留前19维，舍弃第0维，得到高频线性率倒谱系数Hi-LFCC和低频线性倒谱系数Lo-LFCC：

其中，c_m是m个倒谱系数，Q是滤波器总个数；

3)动态特征提取：

在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取；

说话人分类模型训练步骤：

将训练集中的音频提取特征作为输入，训练基于高斯混合模型和通用背景模型GMM-UBM的i-vector模型和概率线性判别分析程序PLDA打分模型；

说话人确认打分步骤。