CN109920447B - 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 - Google Patents

基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 Download PDF

Info

Publication number
CN109920447B
CN109920447B CN201910087795.7A CN201910087795A CN109920447B CN 109920447 B CN109920447 B CN 109920447B CN 201910087795 A CN201910087795 A CN 201910087795A CN 109920447 B CN109920447 B CN 109920447B
Authority
CN
China
Prior art keywords
phase
amplitude
adaptive filter
audio
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910087795.7A
Other languages
English (en)
Other versions
CN109920447A (zh
Inventor
王龙标
刘猛
党建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910087795.7A priority Critical patent/CN109920447B/zh
Publication of CN109920447A publication Critical patent/CN109920447A/zh
Application granted granted Critical
Publication of CN109920447B publication Critical patent/CN109920447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,包括以下步骤:步骤一,选择声纹欺诈检测数据库,进行输入数据准备;步骤二,基于F‑ratio的频段区分度能力分析;步骤三,设计自适应滤波器;步骤四,使用自适应滤波器提取自适应相位和振幅特征;步骤五,分类模型训练,利用步骤四特征进行区分度模型训练;步骤六,特征融合,充分利用振幅相位特征的互补性;最后,判别决策,输出录音回放分类结果。本发明考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性。

Description

基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
技术领域
本发明属于声纹欺诈检测技术领域,尤其是涉及一种基于自适应滤波器振幅相位特征提取方法。
背景技术
随着智能设备的普及和语音识别技术的快速发展,声纹识别系统的安全性越来越引起公众关注。在面对多种多样的声纹欺诈攻击时,系统变得十分脆弱从而引起性能大大降低。在各种声纹欺诈手段中,录音回放由于其技术的简易性,对系统的威胁最大。因此,提出合理高效的录音欺诈检测方法显得尤为重要。
对于声纹欺诈检测问题,比较传统的方法是根据人类的听觉感知提取一些基于听觉的特征,如基频、能量等。这类方法存在的问题是:仅仅依靠人类的先验知识来提取有效的特征是很困难的,而且有些先验知识不是完全正确;另外,人耳并不擅长声纹欺诈检测,根据人耳听觉特性设计的滤波器不能在该任务中有很好的表现。
为了解决以上的问题,人们引入了高频段特征。通过高频段特征的提取,相比于基于CQCC(Constant Q Cepstral Coefficient)特征的基线系统,录音回放检测的正确率得到了大幅度的提升,但是目前的研究仍然存在2个主要的问题:仅仅依靠振幅信息进行建模,忽略了相位信息的作用,因而不能完整的获取语音的有效信息;同时,高中低频段都不同程度地分布着具备录音检测的高区分度信息,如何量化这些区分度信息的比例设计合理的频率刻度显得尤为重要。
发明内容
本发明针对现有录音攻击检测模型在特征提取时忽略相位信息的问题,提出基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,从而有效利用相位和振幅信息的互补性以及全频段上具备高区分度的信息。
为了解决上述技术问题,本发明的技术方案如下:基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,包括以下步骤:
步骤一,输入数据准备:
对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。
步骤二,基于F-ratio的频段区分度能力分析:
Figure BDA0001962327350000021
其中
Figure BDA0001962327350000022
表示分类i的第j个特征向量,i代表两个分类即录音回放音频和原始音频,ui和u分别为第i个类和所有类的均值向量,如下定义:
Figure BDA0001962327350000023
步骤三,自适应滤波器设计:
自适应滤波器特性可以用滤波器分布密度来描述。将全频段利用阈值φ将全频段划分为若干区间,F-ratio值大于φ的区间为具备高区分度信息的频段,所涉及的滤波器应该分布更加密集;反之,则低。定义如下:
Figure BDA0001962327350000024
Figure BDA0001962327350000025
步骤四,使用自适应滤波器提取特征:
1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,使用前述步骤设计的自适应滤波器,提取自适应振幅特征。
2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,使用前述步骤设计的自适应滤波器,提取自适应相位特征。
步骤五,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,GMMgenuine和GMMspoof
步骤六,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:
L=(1-α)L1+αL2, (5)
Figure BDA0001962327350000031
其中:L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定。
步骤七,判别决策:
对于要检测是否为回放录音的测试音频,经过特征提取后,本发明通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分。若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。
本发明所述步骤四中自适应相位信息的提取,具体提取过程如下:
原始的相位信息会随着输入语音的位裁剪置而变化,即使是在相同的频率下。为了克服这个问题,王等人提出了相对相位(Relative Phase)即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)) (7)
对于其他频率ω'=2πf',频谱变成:
Figure BDA0001962327350000032
相位信息可以被归一化,归一化的相位信息如下:
Figure BDA0001962327350000033
最后,利用自适应滤波器提取相对相位特征:
Figure BDA0001962327350000041
与现有技术相比,本发明的有益效果为:本发明考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果。通过提取频率自适应的振幅与相位信息,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性,量化了高区分度信息在此任务中的作用。
附图说明
图1是本发明提出的基于振幅和相位信息的特征提取方法框架图;
图2是自适应滤波器线性频率和梅尔尺度映射关系;
图3是自适应滤波器在线性频率域的分布密度示意图。
具体实施方式
为了更好地理解本发明的技术方案,现结合附图及具体实施方式来对本发明进行更进一步详细的描述
图1是本发明的基于振幅和相位信息的特征提取方法的框架图,主要包含以下步骤:
步骤一,输入数据准备:为了验证本发明的效果,在ASVspoof2017数据库进行录音回放攻击检测实验。ASVspoof 2017包含14466句话共两类,分别为原始音频和录音回放音频;所有句子采样频率为16KHz,每一句话时长约3-5秒。
步骤二,基于F-ratio的频段区分度能力分析:
对于训练集中的音频进行建模分析,在全频段进行录音回放音频和原始音频区分度能力分析,分析得到高区分度的几个区间。
步骤三,自适应滤波器设计:
对于高区分度频段设置较大的滤波器分配密度,设计自适应滤波器。
步骤四,使用自适应滤波器提取特征:
1)振幅信息提取:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,FFT点数设为256,窗长16ms,窗移8ms,特征维数设为39维。
2)相位信息提取:本发明用到两种相位信息,提取相对相位的时候窗长12.5ms,窗移5ms,基频ω设为1000Hz,特征维数设置为118维。
步骤五,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,高斯分量设置为512。
步骤六,特征融合:
对于自适应相位特征和振幅特征分别进行判别决策后,进行线性打分特征融合,本发明采用自适应相对相位特征、自适应振幅特征和CQCC特征进行特征融合,因为这三种特征在实验过程中表现出了良好的鲁棒性和高性能分辨能力。
步骤七,判别决策:
本发明采用Gaussian Mixture Model判别做最后的决策。一句话的所有句级别的特征输入到GMM中,然后完成句子是否为回放音频的判别。
表1列出了不同分辨率振幅及相位特征的实验配置,其中CQCC为基线特征,通过各种对比实验来评估相位信息的作用。
表2是在ASVspoof2017数据库上进行录音攻击检测结果对比,评价指标为验证集上的等错误率(越低越好)和测试集上的等错误率(越低越好)。
表1是本方法使用的特征列表
ID 特征 特征维数
1 CQCC 29
2 梅尔相对相位 118
3 倒梅尔相对相位 118
4 线性相对相位 118
5 梅尔频率倒谱 39
6 倒梅尔频率倒谱 39
7 线性频率倒谱 39
表2是在ASVspoof 2017数据库上录音攻击检测结果对比
Figure BDA0001962327350000051
Figure BDA0001962327350000061
首先,我们可以看出采用相位进行录音攻击检测是有效的,证明了相位信息在录音检测中可以表现良好。其次,振幅和相对相位结合比只用振幅信息的效果要好,表明融合相位信息是必要的。其中,振幅和相对相位结合与基线系统相比,等错误率相对降低了50%以上,这表明相对相位和振幅之间具有更高的互补性。自适应相位特征和自适应振幅特征更好地利用了全频段具备高区分度的信息,从而更有效地检测了录音攻击。

Claims (2)

1.基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,其特征在于,包括以下步骤:
步骤一,输入数据准备:
对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
步骤二,基于F-ratio的频段区分度能力分析:
Figure FDA0003086823650000011
其中:
Figure FDA0003086823650000012
表示分类i的第j个特征向量,i代表两个分类即录音回放音频和原始音频,ui和u分别为第i个类和所有类的均值向量,如下定义:
Figure DEST_PATH_IMAGE002
步骤三,自适应滤波器设计:
将全频段利用阈值φ将全频段划分为若干区间,F-ratio值大于φ的区间为具备高区分度信息的频段,所涉及的滤波器应该分布更加密集;反之,则低
定义如下:
Figure FDA0003086823650000014
Figure FDA0003086823650000015
步骤四,使用自适应滤波器提取特征:
1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,使用前述步骤设计的自适应滤波器,提取自适应振幅特征;
2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,使用前述步骤设计的自适应滤波器,提取自适应相位特征;
步骤五,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个GaussianMixture Model分类器,GMMgenuine和GMMspoof
步骤六,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:
L=(1-α)L1+αL2, (5)
Figure FDA0003086823650000021
其中:L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定;
步骤七,判别决策:
对于要检测是否为回放录音的测试音频,经过特征提取后,本发明通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分;若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。
2.根据权利要求1所述的基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,其特征在于,所述步骤四中自适应相位信息的提取,具体提取过程如下:
设定基频ω的值为0,可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)) (7)
对于其他角频率ω'=2πf',频谱变成:
Figure FDA0003086823650000022
相位信息可以被归一化,归一化的相位信息如下:
Figure FDA0003086823650000031
最后,利用自适应滤波器提取相对相位特征:
Figure FDA0003086823650000032
CN201910087795.7A 2019-01-29 2019-01-29 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 Active CN109920447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910087795.7A CN109920447B (zh) 2019-01-29 2019-01-29 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910087795.7A CN109920447B (zh) 2019-01-29 2019-01-29 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法

Publications (2)

Publication Number Publication Date
CN109920447A CN109920447A (zh) 2019-06-21
CN109920447B true CN109920447B (zh) 2021-07-13

Family

ID=66961069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910087795.7A Active CN109920447B (zh) 2019-01-29 2019-01-29 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法

Country Status (1)

Country Link
CN (1) CN109920447B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689885B (zh) * 2019-09-18 2023-05-23 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备
CN111261189B (zh) * 2020-04-02 2023-01-31 中国科学院上海微系统与信息技术研究所 一种车辆声音信号特征提取方法
CN111653289B (zh) * 2020-05-29 2022-12-27 宁波大学 一种回放语音检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124623A (zh) * 2005-02-18 2008-02-13 富士通株式会社 语音认证系统
CN101241699A (zh) * 2008-03-14 2008-08-13 北京交通大学 一种远程汉语教学中的说话人确认系统
US20120253809A1 (en) * 2011-04-01 2012-10-04 Biometric Security Ltd Voice Verification System
CN104639770A (zh) * 2014-12-25 2015-05-20 北京奇虎科技有限公司 基于移动终端的电话举报方法、装置和系统
US20150269941A1 (en) * 2014-03-21 2015-09-24 Wells Fargo Bank, N.A. Fraud detection
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN108234485A (zh) * 2017-12-30 2018-06-29 广东世纪网通信设备股份有限公司 基于voip平台的诈骗声纹获取装置及利用该装置来拦截诈骗电话的方法、装置和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575393A (zh) * 2015-12-02 2016-05-11 中国传媒大学 一种基于人声音色的个性化点唱歌曲推荐方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124623A (zh) * 2005-02-18 2008-02-13 富士通株式会社 语音认证系统
US20080172230A1 (en) * 2005-02-18 2008-07-17 Fujitsu Limited Voice authentication system
CN101241699A (zh) * 2008-03-14 2008-08-13 北京交通大学 一种远程汉语教学中的说话人确认系统
US20120253809A1 (en) * 2011-04-01 2012-10-04 Biometric Security Ltd Voice Verification System
US20150269941A1 (en) * 2014-03-21 2015-09-24 Wells Fargo Bank, N.A. Fraud detection
US10109281B1 (en) * 2014-03-21 2018-10-23 Wells Fargo Bank, N.A. Enhanced fraud detection
CN104639770A (zh) * 2014-12-25 2015-05-20 北京奇虎科技有限公司 基于移动终端的电话举报方法、装置和系统
CN105139857A (zh) * 2015-09-02 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种自动说话人识别中针对语音欺骗的对抗方法
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN108234485A (zh) * 2017-12-30 2018-06-29 广东世纪网通信设备股份有限公司 基于voip平台的诈骗声纹获取装置及利用该装置来拦截诈骗电话的方法、装置和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Features and classifiers for replay spoofing attack detection;Cemal Hanilci;《2017 10th International Conference on Electrical and Electronics Engineering (ELECO)》;20180123;第1187-1191页 *
Replay Attack Detection Using Magnitude and Phase Information with Attention-based Adaptive Filters;Meng Liu et al.;《2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20190417;第6201-6205页 *
Replay attack: Its effect on GMM-UBM based text-independent speaker verification system;Madhusudan Singh et al.;《2016 IEEE Uttar Pradesh Section International Conference on Electrical, Computer and Electronics Engineering (UPCON)》;20170412;第619-623页 *
基于Gammachirp耳蜗能量谱特征提取的音频指纹算法;孟建华 等;《华东理工大学学报(自然科学版)》;20151031;第41卷(第5期);第666-670段 *
基于相位谱的翻录语音攻击检测算法;李璨 等;《电信科学》;20171231(第8期);第145-154页 *

Also Published As

Publication number Publication date
CN109920447A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN104835498B (zh) 基于多类型组合特征参数的声纹识别方法
Luo et al. A capsule network based approach for detection of audio spoofing attacks
EP3016314B1 (en) A system and a method for detecting recorded biometric information
Gałka et al. Playback attack detection for text-dependent speaker verification over telephone channels
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
CN109920447B (zh) 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN102968990A (zh) 说话人识别方法和系统
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
Mallidi et al. Novel neural network based fusion for multistream ASR
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
Todkar et al. Speaker recognition techniques: A review
CN109935233A (zh) 一种基于振幅和相位信息的录音攻击检测方法
Liu et al. Replay attack detection using magnitude and phase information with attention-based adaptive filters
Wu et al. Adversarial sample detection for speaker verification by neural vocoders
Liang et al. Recognition of spoofed voice using convolutional neural networks
Lapidot et al. Effects of waveform pmf on anti-spoofing detection
CN112767951A (zh) 一种基于深度稠密网络的语音转换可视化检测方法
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
Cheng et al. Cross-Database Replay Detection in Terminal-Dependent Speaker Verification.
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
Ye et al. Detection of replay attack based on normalized constant q cepstral feature
CN114639387A (zh) 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法
Mills et al. Replay attack detection based on voice and non-voice sections for speaker verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant