CN109920447B

CN109920447B - 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法

Info

Publication number: CN109920447B
Application number: CN201910087795.7A
Authority: CN
Inventors: 王龙标; 刘猛; 党建武
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-07-13
Anticipated expiration: 2039-01-29
Also published as: CN109920447A

Abstract

本发明公开了一种基于自适应滤波器振幅相位特征提取的录音欺诈检测方法，包括以下步骤：步骤一，选择声纹欺诈检测数据库，进行输入数据准备；步骤二，基于F‑ratio的频段区分度能力分析；步骤三，设计自适应滤波器；步骤四，使用自适应滤波器提取自适应相位和振幅特征；步骤五，分类模型训练，利用步骤四特征进行区分度模型训练；步骤六，特征融合，充分利用振幅相位特征的互补性；最后，判别决策，输出录音回放分类结果。本发明考虑到了语音的相位信息，融合录音回放检测相位振幅相关特征，大大的提高了特征的丰富性，获得更好录音攻击检测效果，有效利用了相位与振幅的互补性，以及相同特征在不同频段的互补性。

Description

基于自适应滤波器振幅相位特征提取的录音欺诈检测方法

技术领域

本发明属于声纹欺诈检测技术领域，尤其是涉及一种基于自适应滤波器振幅相位特征提取方法。

背景技术

随着智能设备的普及和语音识别技术的快速发展，声纹识别系统的安全性越来越引起公众关注。在面对多种多样的声纹欺诈攻击时，系统变得十分脆弱从而引起性能大大降低。在各种声纹欺诈手段中，录音回放由于其技术的简易性，对系统的威胁最大。因此，提出合理高效的录音欺诈检测方法显得尤为重要。

对于声纹欺诈检测问题，比较传统的方法是根据人类的听觉感知提取一些基于听觉的特征，如基频、能量等。这类方法存在的问题是：仅仅依靠人类的先验知识来提取有效的特征是很困难的，而且有些先验知识不是完全正确；另外，人耳并不擅长声纹欺诈检测，根据人耳听觉特性设计的滤波器不能在该任务中有很好的表现。

为了解决以上的问题，人们引入了高频段特征。通过高频段特征的提取，相比于基于CQCC(Constant Q Cepstral Coefficient)特征的基线系统，录音回放检测的正确率得到了大幅度的提升，但是目前的研究仍然存在2个主要的问题：仅仅依靠振幅信息进行建模，忽略了相位信息的作用，因而不能完整的获取语音的有效信息；同时，高中低频段都不同程度地分布着具备录音检测的高区分度信息，如何量化这些区分度信息的比例设计合理的频率刻度显得尤为重要。

发明内容

本发明针对现有录音攻击检测模型在特征提取时忽略相位信息的问题，提出基于自适应滤波器振幅相位特征提取的录音欺诈检测方法，从而有效利用相位和振幅信息的互补性以及全频段上具备高区分度的信息。

为了解决上述技术问题，本发明的技术方案如下：基于自适应滤波器振幅相位特征提取的录音欺诈检测方法，包括以下步骤：

步骤一，输入数据准备：

对录音回放数据库中的语音信号进行数据准备，划分训练集、验证集、测试集。

步骤二，基于F-ratio的频段区分度能力分析：

其中

表示分类i的第j个特征向量，i代表两个分类即录音回放音频和原始音频,u_i和u分别为第i个类和所有类的均值向量，如下定义：

步骤三，自适应滤波器设计：

自适应滤波器特性可以用滤波器分布密度来描述。将全频段利用阈值φ将全频段划分为若干区间，F-ratio值大于φ的区间为具备高区分度信息的频段，所涉及的滤波器应该分布更加密集；反之，则低。定义如下：

步骤四，使用自适应滤波器提取特征：

1)振幅信息提取：对语音信号分帧、加窗、短时傅里叶变换,使用前述步骤设计的自适应滤波器，提取自适应振幅特征。

2)相位信息提取：基于相对相位提取每一段语音对应的相位信息，使用前述步骤设计的自适应滤波器，提取自适应相位特征。

步骤五，分类模型训练：

将训练集中录音回放音频和原始声音特征提取后分别作为输入，训练两个Gaussian Mixture Model分类器，GMM_genuine和GMM_spoof。

步骤六，特征融合：

对于多分辨率的相位特征和振幅特征分别进行判别决策后，在打分层面进行特征融合，采用线性打分特征融合：

L＝(1-α)L₁+αL₂, (5)

其中:L表示最终打分结果，L₁对应相位特征打分结果，L₂对应振幅特征打分结果，α表示权重系数，通过验证集打分结果进行确定。

步骤七，判别决策：

对于要检测是否为回放录音的测试音频，经过特征提取后，本发明通过计算被测试音频与GMM_genuine和GMM_spoof似然相似度，最终进行决策评分。若与GMM_genuine更为相似则判定为原始音频；若与GMM_spoof具有更高相似度，则为回放音频。

本发明所述步骤四中自适应相位信息的提取，具体提取过程如下：

原始的相位信息会随着输入语音的位裁剪置而变化，即使是在相同的频率下。为了克服这个问题，王等人提出了相对相位(Relative Phase)即某个基频ω的相位保持固定，其他频率的相位相对于这个值来估计。比如，设定基频ω的值为0，我们可以得到以下公式：

X'(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω)) (7)

对于其他频率ω'＝2πf'，频谱变成：

相位信息可以被归一化，归一化的相位信息如下：

最后，利用自适应滤波器提取相对相位特征：

与现有技术相比，本发明的有益效果为：本发明考虑到了语音的相位信息，融合录音回放检测相位振幅相关特征，大大的提高了特征的丰富性，获得更好录音攻击检测效果。通过提取频率自适应的振幅与相位信息，有效利用了相位与振幅的互补性，以及相同特征在不同频段的互补性，量化了高区分度信息在此任务中的作用。

附图说明

图1是本发明提出的基于振幅和相位信息的特征提取方法框架图；

图2是自适应滤波器线性频率和梅尔尺度映射关系；

图3是自适应滤波器在线性频率域的分布密度示意图。

具体实施方式

为了更好地理解本发明的技术方案，现结合附图及具体实施方式来对本发明进行更进一步详细的描述

图1是本发明的基于振幅和相位信息的特征提取方法的框架图，主要包含以下步骤：

步骤一，输入数据准备：为了验证本发明的效果，在ASVspoof2017数据库进行录音回放攻击检测实验。ASVspoof 2017包含14466句话共两类，分别为原始音频和录音回放音频；所有句子采样频率为16KHz，每一句话时长约3-5秒。

步骤二，基于F-ratio的频段区分度能力分析：

对于训练集中的音频进行建模分析，在全频段进行录音回放音频和原始音频区分度能力分析，分析得到高区分度的几个区间。

步骤三，自适应滤波器设计：

对于高区分度频段设置较大的滤波器分配密度，设计自适应滤波器。

步骤四，使用自适应滤波器提取特征：

1)振幅信息提取：把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换，FFT点数设为256，窗长16ms，窗移8ms，特征维数设为39维。

2)相位信息提取：本发明用到两种相位信息，提取相对相位的时候窗长12.5ms，窗移5ms，基频ω设为1000Hz，特征维数设置为118维。

步骤五，分类模型训练：

将训练集中录音回放音频和原始声音特征提取后分别作为输入，训练两个Gaussian Mixture Model分类器，高斯分量设置为512。

步骤六，特征融合：

对于自适应相位特征和振幅特征分别进行判别决策后，进行线性打分特征融合，本发明采用自适应相对相位特征、自适应振幅特征和CQCC特征进行特征融合，因为这三种特征在实验过程中表现出了良好的鲁棒性和高性能分辨能力。

步骤七，判别决策：

本发明采用Gaussian Mixture Model判别做最后的决策。一句话的所有句级别的特征输入到GMM中，然后完成句子是否为回放音频的判别。

表1列出了不同分辨率振幅及相位特征的实验配置，其中CQCC为基线特征，通过各种对比实验来评估相位信息的作用。

表2是在ASVspoof2017数据库上进行录音攻击检测结果对比，评价指标为验证集上的等错误率(越低越好)和测试集上的等错误率(越低越好)。

表1是本方法使用的特征列表

ID	特征	特征维数
			1	CQCC	29
2	梅尔相对相位	118
			3	倒梅尔相对相位	118
4	线性相对相位	118
			5	梅尔频率倒谱	39
6	倒梅尔频率倒谱	39
			7	线性频率倒谱	39

表2是在ASVspoof 2017数据库上录音攻击检测结果对比

首先，我们可以看出采用相位进行录音攻击检测是有效的，证明了相位信息在录音检测中可以表现良好。其次，振幅和相对相位结合比只用振幅信息的效果要好，表明融合相位信息是必要的。其中，振幅和相对相位结合与基线系统相比，等错误率相对降低了50％以上，这表明相对相位和振幅之间具有更高的互补性。自适应相位特征和自适应振幅特征更好地利用了全频段具备高区分度的信息，从而更有效地检测了录音攻击。