CN109935233A - 一种基于振幅和相位信息的录音攻击检测方法 - Google Patents

一种基于振幅和相位信息的录音攻击检测方法 Download PDF

Info

Publication number
CN109935233A
CN109935233A CN201910087807.6A CN201910087807A CN109935233A CN 109935233 A CN109935233 A CN 109935233A CN 201910087807 A CN201910087807 A CN 201910087807A CN 109935233 A CN109935233 A CN 109935233A
Authority
CN
China
Prior art keywords
phase
amplitude
feature
phase information
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910087807.6A
Other languages
English (en)
Inventor
王龙标
刘猛
党建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910087807.6A priority Critical patent/CN109935233A/zh
Publication of CN109935233A publication Critical patent/CN109935233A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种融合多分辨率振幅和相位信息的录音欺诈检测方法,包括以下步骤:步骤一,选择声纹欺诈检测数据库,进行输入数据准备;步骤二,分别提取振幅和相位信息,采用多分辨率振幅及相位特征提取方法;步骤三,分类模型训练,利用步骤二特征进行区分度模型训练;步骤四,特征融合,充分利用振幅相位特征的互补性;最后,判别决策,输出录音回放分类结果。本发明的录音攻击检测方法和现有技术相比,考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果。通过提取多分辨率的振幅与相位信息,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性。

Description

一种基于振幅和相位信息的录音攻击检测方法
技术领域
本发明属于声纹欺诈检测技术领域,尤其是涉及一种基于振幅和相位信息的录音攻击检测方法。
背景技术
随着智能设备的普及和语音识别技术的快速发展,声纹识别系统的安全性越来越引起公众关注。在面对多种多样的声纹欺诈时,系统变得十分脆弱从而引起性能大大降低。在各种声纹欺诈手段中,录音回放由于其技术的简易性,对系统的威胁最大。因此,提出合理高效的录音欺诈检测方法显得尤为重要。
对于声纹欺诈检测问题,比较传统的方法是根据人类的听觉感知提取一些基于听觉的特征,如基频、能量等。这类方法存在的问题是:仅仅依靠人类的先验知识来提取有效的特征是很困难的,而且有些先验知识不是完全正确;另外,人耳并不擅长声纹欺诈检测,根据人耳听觉特性设计的滤波器不能在该任务中有很好的表现。
为了解决以上的问题,人们引入了高频段特征。通过高频段特征的提取,相比于基于 CQCC(Constant Q Cepstral Coefficient)特征的基线系统,录音回放检测的正确率得到了大幅度的提升,但是目前的研究仍然存在2个主要的问题:仅仅依靠振幅信息进行建模,忽略了相位信息的作用,因而不能完整的获取语音的有效信息。应该同时有效结合高频段和低频段信息,而不是单纯关注单一频段信息(高频或低频)。
发明内容
本发明针对现有录音攻击检测模型在特征提取时忽略相位信息的问题,提出一种基于振幅和相位信息的特征提取方法,从而有效利用相位和振幅信息的互补性。同时,为了探索不同频段信息的互补性,本发明提出了基于多分辨率的相位和振幅特征提取方法。
为了解决上述技术问题,本发明的技术方案如下:一种基于振幅和相位信息的录音攻击检测方法,包括以下步骤:
步骤一,输入数据准备:
对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。
步骤二,特征提取:
1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率,提出多种分辨率的振幅特征提取方法。
2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,针对不同频段分辨率提出多种分辨率的相位特征提取方法。
步骤三,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,GMMgenuine和GMMspoof
步骤四,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:
L=(1-α)L1+αL2,(1)
其中L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定。
步骤五,判别决策:
对于要检测是否为回放录音的测试音频,经过特征提取后,本发明通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分。若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。
本发明所述步骤二中多分辨率相位信息的提取,具体提取过程如下:
原始的相位信息会随着输入语音的位裁剪置而变化,即使是在相同的频率下。为了克服这个问题,王等人提出了相对相位(Relative Phase)即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)), (3)
对于其他频率ω'=2πf',频谱变成:
最后,相位信息可以被归一化,归一化的相位信息如下:
进一步,针对原始相对相位特征提取方法本发明提出了对不同频段分别使用高分辨率的特征提取方法,即:
4)梅尔相对相位(Mel-Relative Phase,Mel-RP):低频区高分辨率。
5)倒梅尔相对相位(InverseMel-Relative Phase,Mel-RP,IMel-RP):高频区高分辨率。
6)线性相对相位(Linear Relative Phase,LRP):高频段均匀分辨率。
mel=0.355*f (8)
其中,f表示线性频域刻度,mel表示梅尔域刻度。
与现有技术相比,本发明的有益效果为:本发明考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果。通过提取多分辨率的振幅与相位信息,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性。
附图说明
图1是本发明提出的基于振幅和相位信息的特征提取方法框架图;
图2是多分辨率的相位和振幅特征提取方法构成图。
图3是本发明方法流程图。
具体实施方式
为了更好地理解本发明的技术方案,现结合附图及具体实施方式来对本发明进行更进一步详细的描述。
本发明具体包括以下步骤:
步骤一,输入数据准备:
对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。
步骤二,特征提取:
1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率,提出多种分辨率的振幅特征提取方法。
2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,针对不同频段分辨率提出多种分辨率的相位特征提取方法。
步骤三,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,GMMgenuine和GMMspoof
步骤四,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:
L=(1-α)L1+αL2,(1)
其中L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定。
步骤五,判别决策:
对于要检测是否为回放录音的测试音频,经过特征提取后,本发明通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分。若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。
本发明所述步骤二中多分辨率相位信息的提取,具体提取过程如下:
原始的相位信息会随着输入语音的位裁剪置而变化,即使是在相同的频率下。为了克服这个问题,王等人提出了相对相位(Relative Phase)即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)), (3)
对于其他频率ω'=2πf',频谱变成:
最后,相位信息可以被归一化,归一化的相位信息如下:
进一步,针对原始相对相位特征提取方法本发明提出了对不同频段分别使用高分辨率的特征提取方法,即:
7)梅尔相对相位(Mel-Relative Phase,Mel-RP):低频区高分辨率。
8)倒梅尔相对相位(InverseMel-Relative Phase,Mel-RP,IMel-RP):高频区高分辨率。
9)线性相对相位(Linear Relative Phase,LRP):高频段均匀分辨率。
mel=0.355*f (8)
其中,f表示线性频域刻度,mel表示梅尔域刻度。
图1是本发明的基于振幅和相位信息的特征提取方法的框架图,主要包含以下步骤:
步骤一,输入数据准备:为了验证本发明的效果,在ASVspoof2017数据库进行录音回放攻击检测实验。ASVspoof 2017包含14466句话共两类,分别为原始音频和录音回放音频;所有句子采样频率为16KHz,每一句话时长约3-5秒。
步骤二,特征提取:
1)振幅信息提取:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,FFT 点数设为256,窗长16ms,窗移8ms,特征维数设为39维,并分别在不同频段设置高分辨率,得到一系列多分辨率振幅特征,如图2所示。
2)相位信息提取:本发明用到两种相位信息,提取相对相位的时候窗长12.5ms,窗移 5ms,基频ω设为1000Hz,特征维数设置为118维。分别在不同频段设置高分辨率,得到一系列多分辨率相位特征,如图2所示。
步骤三,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,高斯分量设置为512。
步骤四,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,进行线性打分特征融合,本发明采用梅尔相对相位特征及CQCC特征进行特征融合,因为这两种特征在实验过程中表现出了良好的鲁棒性和高性能分辨能力。
步骤五,判别决策:
本发明采用Gaussian Mixture Model判别做最后的决策。一句话的所有句级别的特征输入到GMM中,然后完成句子是否为回放音频的判别。
表1是实验中用到的特征列表。
ID 特征 特征维数
1 CQCC 29
2 梅尔相对相位 118
3 倒梅尔相对相位 118
4 线性相对相位 118
5 梅尔频率倒谱 39
6 倒梅尔频率倒谱 39
7 线性频率倒谱 39
表2是在ASVspoof 2017数据库上录音攻击检测结果对比
表1列出了不同分辨率振幅及相位特征的实验配置,其中CQCC为基线特征,通过各种对比实验来评估相位信息的作用。
表2是在ASVspoof2017数据库上进行录音攻击检测结果对比,评价指标为验证集上的等错误率(越低越好)和测试集上的等错误率(越低越好)。首先,我们可以看出采用相位进行录音攻击检测是有效的,证明了相位信息在录音检测中可以表现良好。其次,振幅和相对相位结合比只用振幅信息的效果要好,表明融合相位信息是必要的。其中,振幅和相对相位结合与基线系统相比,等错误率相对降低了50%以上,这表明相对相位和振幅之间具有更高的互补性。

Claims (2)

1.一种基于振幅和相位信息的录音攻击检测方法,其特征在于,包括以下步骤:
步骤一,输入数据准备:
对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
步骤二,特征提取:
1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率,提出多种分辨率的振幅特征提取方法;
2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,针对不同频段分辨率提出多种分辨率的相位特征提取方法;
步骤三,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个GaussianMixture Model分类器,GMMgenuine和GMMspoof
步骤四,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:
L=(1-α)L1+αL2, (1)
其中L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定;
步骤五,判别决策:
对于要检测是否为回放录音的测试音频,经过特征提取后,通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分:
若与GMMgenuine更为相似则判定为原始音频;
若与GMMspoof具有更高相似度,则为回放音频。
2.根据权利要求1所述的一种基于振幅和相位信息的录音攻击检测方法,其特征在于,本发明所述步骤二中多分辨率相位信息的提取,具体提取过程如下:
设定基频ω的值为0,我们可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)) (3)
对于其他频率ω'=2πf',频谱变成:
最后,相位信息可以被归一化,归一化的相位信息如下:
进一步,针对原始相对相位特征提取方法本发明提出了对不同频段分别使用高分辨率的特征提取方法,即:
1)梅尔相对相位(Mel-Relative Phase,Mel-RP):低频区高分辨率
2)倒梅尔相对相位(Inverse Mel-Relative Phase,Mel-RP,IMel-RP):高频区高分辨率
3)线性相对相位(Linear Relative Phase,LRP):高频段均匀分辨率
mel=0.355*f (8)
其中,f表示线性频域刻度,mel表示梅尔域刻度。
CN201910087807.6A 2019-01-29 2019-01-29 一种基于振幅和相位信息的录音攻击检测方法 Pending CN109935233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910087807.6A CN109935233A (zh) 2019-01-29 2019-01-29 一种基于振幅和相位信息的录音攻击检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910087807.6A CN109935233A (zh) 2019-01-29 2019-01-29 一种基于振幅和相位信息的录音攻击检测方法

Publications (1)

Publication Number Publication Date
CN109935233A true CN109935233A (zh) 2019-06-25

Family

ID=66985329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910087807.6A Pending CN109935233A (zh) 2019-01-29 2019-01-29 一种基于振幅和相位信息的录音攻击检测方法

Country Status (1)

Country Link
CN (1) CN109935233A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统
CN113808603A (zh) * 2021-09-29 2021-12-17 恒安嘉新(北京)科技股份公司 一种音频篡改检测方法、装置、服务器和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN105933272A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 能够防止录音攻击的声纹认证方法、服务器、终端及系统
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN106531172A (zh) * 2016-11-23 2017-03-22 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
US20170214687A1 (en) * 2016-01-22 2017-07-27 Knowles Electronics, Llc Shared secret voice authentication
US20180211671A1 (en) * 2017-01-23 2018-07-26 Qualcomm Incorporated Keyword voice authentication
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN105933272A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 能够防止录音攻击的声纹认证方法、服务器、终端及系统
US20170214687A1 (en) * 2016-01-22 2017-07-27 Knowles Electronics, Llc Shared secret voice authentication
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN106531172A (zh) * 2016-11-23 2017-03-22 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
US20180211671A1 (en) * 2017-01-23 2018-07-26 Qualcomm Incorporated Keyword voice authentication
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENG LIU ET AL: "Replay Attacks Detection Using Phase and Magnitude Features with Various Frequency Resolutions", 《2018 11TH INTERNATIONAL SYMPOSIUN ON CHINESE SPOKEN LANGUAGE PROCESSING(ISCSLP)》 *
贺前华等: "说话人认证录音回放检测方法综述", 《数据采集与处理》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统
CN113808603A (zh) * 2021-09-29 2021-12-17 恒安嘉新(北京)科技股份公司 一种音频篡改检测方法、装置、服务器和存储介质
CN113808603B (zh) * 2021-09-29 2023-07-07 恒安嘉新(北京)科技股份公司 一种音频篡改检测方法、装置、服务器和存储介质

Similar Documents

Publication Publication Date Title
Kamble et al. Advances in anti-spoofing: from the perspective of ASVspoof challenges
CN106297772B (zh) 基于扬声器引入的语音信号失真特性的回放攻击检测方法
CN109935233A (zh) 一种基于振幅和相位信息的录音攻击检测方法
Cai et al. Highlight sound effects detection in audio stream
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
Shang et al. Score normalization in playback attack detection
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102968990B (zh) 说话人识别方法和系统
CN107342077A (zh) 一种基于因子分析的说话人分段聚类方法及系统
CN105938716A (zh) 一种基于多精度拟合的样本复制语音自动检测方法
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
CN104221079B (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
WO2012075641A1 (en) Device and method for pass-phrase modeling for speaker verification, and verification system
CN102486920A (zh) 音频事件检测方法和装置
CN103794207A (zh) 一种双模语音身份识别方法
CN108665903A (zh) 一种音频信号相似程度的自动检测方法及其系统
CN109243487A (zh) 一种归一化常q倒谱特征的回放语音检测方法
CN102436806A (zh) 一种基于相似度的音频拷贝检测的方法
Jiao et al. Convex weighting criteria for speaking rate estimation
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
CN101887722A (zh) 快速声纹认证方法
CN109920447A (zh) 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN107564543A (zh) 一种高情感区分度的语音特征提取方法
CN109841219A (zh) 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
Dhanalakshmi et al. Pattern classification models for classifying and indexing audio signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190625