CN109935233A

CN109935233A - 一种基于振幅和相位信息的录音攻击检测方法

Info

Publication number: CN109935233A
Application number: CN201910087807.6A
Authority: CN
Inventors: 王龙标; 刘猛; 党建武
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-06-25

Abstract

本发明公开了一种融合多分辨率振幅和相位信息的录音欺诈检测方法，包括以下步骤：步骤一，选择声纹欺诈检测数据库，进行输入数据准备；步骤二，分别提取振幅和相位信息，采用多分辨率振幅及相位特征提取方法；步骤三，分类模型训练，利用步骤二特征进行区分度模型训练；步骤四，特征融合，充分利用振幅相位特征的互补性；最后，判别决策，输出录音回放分类结果。本发明的录音攻击检测方法和现有技术相比，考虑到了语音的相位信息，融合录音回放检测相位振幅相关特征，大大的提高了特征的丰富性，获得更好录音攻击检测效果。通过提取多分辨率的振幅与相位信息，有效利用了相位与振幅的互补性，以及相同特征在不同频段的互补性。

Description

一种基于振幅和相位信息的录音攻击检测方法

技术领域

本发明属于声纹欺诈检测技术领域，尤其是涉及一种基于振幅和相位信息的录音攻击检测方法。

背景技术

随着智能设备的普及和语音识别技术的快速发展，声纹识别系统的安全性越来越引起公众关注。在面对多种多样的声纹欺诈时，系统变得十分脆弱从而引起性能大大降低。在各种声纹欺诈手段中，录音回放由于其技术的简易性，对系统的威胁最大。因此，提出合理高效的录音欺诈检测方法显得尤为重要。

对于声纹欺诈检测问题，比较传统的方法是根据人类的听觉感知提取一些基于听觉的特征，如基频、能量等。这类方法存在的问题是：仅仅依靠人类的先验知识来提取有效的特征是很困难的，而且有些先验知识不是完全正确；另外，人耳并不擅长声纹欺诈检测，根据人耳听觉特性设计的滤波器不能在该任务中有很好的表现。

为了解决以上的问题，人们引入了高频段特征。通过高频段特征的提取，相比于基于 CQCC(Constant Q Cepstral Coefficient)特征的基线系统，录音回放检测的正确率得到了大幅度的提升，但是目前的研究仍然存在2个主要的问题：仅仅依靠振幅信息进行建模，忽略了相位信息的作用，因而不能完整的获取语音的有效信息。应该同时有效结合高频段和低频段信息，而不是单纯关注单一频段信息(高频或低频)。

发明内容

本发明针对现有录音攻击检测模型在特征提取时忽略相位信息的问题，提出一种基于振幅和相位信息的特征提取方法，从而有效利用相位和振幅信息的互补性。同时，为了探索不同频段信息的互补性，本发明提出了基于多分辨率的相位和振幅特征提取方法。

为了解决上述技术问题，本发明的技术方案如下：一种基于振幅和相位信息的录音攻击检测方法，包括以下步骤：

步骤一，输入数据准备：

对录音回放数据库中的语音信号进行数据准备，划分训练集、验证集、测试集。

步骤二，特征提取：

1)振幅信息提取：对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率，提出多种分辨率的振幅特征提取方法。

2)相位信息提取：基于相对相位提取每一段语音对应的相位信息，针对不同频段分辨率提出多种分辨率的相位特征提取方法。

步骤三，分类模型训练：

将训练集中录音回放音频和原始声音特征提取后分别作为输入，训练两个Gaussian Mixture Model分类器，GMM_genuine和GMM_spoof。

步骤四，特征融合：

对于多分辨率的相位特征和振幅特征分别进行判别决策后，在打分层面进行特征融合，采用线性打分特征融合：

L＝(1-α)L₁+αL₂,(1)

其中L表示最终打分结果，L₁对应相位特征打分结果，L₂对应振幅特征打分结果，α表示权重系数，通过验证集打分结果进行确定。

步骤五，判别决策：

对于要检测是否为回放录音的测试音频，经过特征提取后，本发明通过计算被测试音频与GMM_genuine和GMM_spoof似然相似度，最终进行决策评分。若与GMM_genuine更为相似则判定为原始音频；若与GMM_spoof具有更高相似度，则为回放音频。

本发明所述步骤二中多分辨率相位信息的提取，具体提取过程如下：

原始的相位信息会随着输入语音的位裁剪置而变化，即使是在相同的频率下。为了克服这个问题，王等人提出了相对相位(Relative Phase)即某个基频ω的相位保持固定，其他频率的相位相对于这个值来估计。比如，设定基频ω的值为0，我们可以得到以下公式：

X'(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω))， (3)

对于其他频率ω'＝2πf'，频谱变成：

最后，相位信息可以被归一化，归一化的相位信息如下：

进一步，针对原始相对相位特征提取方法本发明提出了对不同频段分别使用高分辨率的特征提取方法，即：

4)梅尔相对相位(Mel-Relative Phase,Mel-RP)：低频区高分辨率。

5)倒梅尔相对相位(InverseMel-Relative Phase,Mel-RP,IMel-RP)：高频区高分辨率。

6)线性相对相位(Linear Relative Phase,LRP)：高频段均匀分辨率。

mel＝0.355*f (8)

其中，f表示线性频域刻度，mel表示梅尔域刻度。

与现有技术相比，本发明的有益效果为：本发明考虑到了语音的相位信息，融合录音回放检测相位振幅相关特征，大大的提高了特征的丰富性，获得更好录音攻击检测效果。通过提取多分辨率的振幅与相位信息，有效利用了相位与振幅的互补性，以及相同特征在不同频段的互补性。

附图说明

图1是本发明提出的基于振幅和相位信息的特征提取方法框架图；

图2是多分辨率的相位和振幅特征提取方法构成图。

图3是本发明方法流程图。

具体实施方式

为了更好地理解本发明的技术方案，现结合附图及具体实施方式来对本发明进行更进一步详细的描述。

本发明具体包括以下步骤：

步骤一，输入数据准备：

步骤二，特征提取：

步骤三，分类模型训练：

步骤四，特征融合：

L＝(1-α)L₁+αL₂,(1)

步骤五，判别决策：

X'(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω))， (3)

对于其他频率ω'＝2πf'，频谱变成：

最后，相位信息可以被归一化，归一化的相位信息如下：

7)梅尔相对相位(Mel-Relative Phase,Mel-RP)：低频区高分辨率。

8)倒梅尔相对相位(InverseMel-Relative Phase,Mel-RP,IMel-RP)：高频区高分辨率。

9)线性相对相位(Linear Relative Phase,LRP)：高频段均匀分辨率。

mel＝0.355*f (8)

其中，f表示线性频域刻度，mel表示梅尔域刻度。

图1是本发明的基于振幅和相位信息的特征提取方法的框架图，主要包含以下步骤：

步骤一，输入数据准备：为了验证本发明的效果，在ASVspoof2017数据库进行录音回放攻击检测实验。ASVspoof 2017包含14466句话共两类，分别为原始音频和录音回放音频；所有句子采样频率为16KHz，每一句话时长约3-5秒。

步骤二，特征提取：

1)振幅信息提取：把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换，FFT 点数设为256，窗长16ms，窗移8ms，特征维数设为39维，并分别在不同频段设置高分辨率，得到一系列多分辨率振幅特征，如图2所示。

2)相位信息提取：本发明用到两种相位信息，提取相对相位的时候窗长12.5ms，窗移 5ms，基频ω设为1000Hz，特征维数设置为118维。分别在不同频段设置高分辨率，得到一系列多分辨率相位特征，如图2所示。

步骤三，分类模型训练：

将训练集中录音回放音频和原始声音特征提取后分别作为输入，训练两个Gaussian Mixture Model分类器，高斯分量设置为512。

步骤四，特征融合：

对于多分辨率的相位特征和振幅特征分别进行判别决策后，进行线性打分特征融合，本发明采用梅尔相对相位特征及CQCC特征进行特征融合，因为这两种特征在实验过程中表现出了良好的鲁棒性和高性能分辨能力。

步骤五，判别决策：

本发明采用Gaussian Mixture Model判别做最后的决策。一句话的所有句级别的特征输入到GMM中，然后完成句子是否为回放音频的判别。

表1是实验中用到的特征列表。

ID	特征	特征维数
			1	CQCC	29
2	梅尔相对相位	118
			3	倒梅尔相对相位	118
4	线性相对相位	118
			5	梅尔频率倒谱	39
6	倒梅尔频率倒谱	39
			7	线性频率倒谱	39

表2是在ASVspoof 2017数据库上录音攻击检测结果对比

表1列出了不同分辨率振幅及相位特征的实验配置，其中CQCC为基线特征，通过各种对比实验来评估相位信息的作用。

表2是在ASVspoof2017数据库上进行录音攻击检测结果对比，评价指标为验证集上的等错误率(越低越好)和测试集上的等错误率(越低越好)。首先，我们可以看出采用相位进行录音攻击检测是有效的，证明了相位信息在录音检测中可以表现良好。其次，振幅和相对相位结合比只用振幅信息的效果要好，表明融合相位信息是必要的。其中，振幅和相对相位结合与基线系统相比，等错误率相对降低了50％以上，这表明相对相位和振幅之间具有更高的互补性。

Claims

1.一种基于振幅和相位信息的录音攻击检测方法，其特征在于，包括以下步骤：

步骤一，输入数据准备：

对录音回放数据库中的语音信号进行数据准备，划分训练集、验证集、测试集；

步骤二，特征提取：

1)振幅信息提取：对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率，提出多种分辨率的振幅特征提取方法；

2)相位信息提取：基于相对相位提取每一段语音对应的相位信息，针对不同频段分辨率提出多种分辨率的相位特征提取方法；

步骤三，分类模型训练：

将训练集中录音回放音频和原始声音特征提取后分别作为输入，训练两个GaussianMixture Model分类器，GMM_genuine和GMM_spoof；

步骤四，特征融合：

L＝(1-α)L₁+αL₂, (1)

其中L表示最终打分结果，L₁对应相位特征打分结果，L₂对应振幅特征打分结果，α表示权重系数，通过验证集打分结果进行确定；

步骤五，判别决策：

对于要检测是否为回放录音的测试音频，经过特征提取后，通过计算被测试音频与GMM_genuine和GMM_spoof似然相似度，最终进行决策评分：

若与GMM_genuine更为相似则判定为原始音频；

若与GMM_spoof具有更高相似度，则为回放音频。

2.根据权利要求1所述的一种基于振幅和相位信息的录音攻击检测方法，其特征在于，本发明所述步骤二中多分辨率相位信息的提取，具体提取过程如下：

设定基频ω的值为0，我们可以得到以下公式：

X'(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω)) (3)

对于其他频率ω'＝2πf'，频谱变成：

最后，相位信息可以被归一化，归一化的相位信息如下：

1)梅尔相对相位(Mel-Relative Phase,Mel-RP)：低频区高分辨率

2)倒梅尔相对相位(Inverse Mel-Relative Phase,Mel-RP,IMel-RP)：高频区高分辨率

3)线性相对相位(Linear Relative Phase,LRP)：高频段均匀分辨率

mel＝0.355*f (8)

其中，f表示线性频域刻度，mel表示梅尔域刻度。