CN109920447B - 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 - Google Patents
基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 Download PDFInfo
- Publication number
- CN109920447B CN109920447B CN201910087795.7A CN201910087795A CN109920447B CN 109920447 B CN109920447 B CN 109920447B CN 201910087795 A CN201910087795 A CN 201910087795A CN 109920447 B CN109920447 B CN 109920447B
- Authority
- CN
- China
- Prior art keywords
- phase
- amplitude
- adaptive filter
- audio
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明公开了一种基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,包括以下步骤:步骤一,选择声纹欺诈检测数据库,进行输入数据准备;步骤二,基于F‑ratio的频段区分度能力分析;步骤三,设计自适应滤波器;步骤四,使用自适应滤波器提取自适应相位和振幅特征;步骤五,分类模型训练,利用步骤四特征进行区分度模型训练;步骤六,特征融合,充分利用振幅相位特征的互补性;最后,判别决策,输出录音回放分类结果。本发明考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性。
Description
技术领域
本发明属于声纹欺诈检测技术领域,尤其是涉及一种基于自适应滤波器振幅相位特征提取方法。
背景技术
随着智能设备的普及和语音识别技术的快速发展,声纹识别系统的安全性越来越引起公众关注。在面对多种多样的声纹欺诈攻击时,系统变得十分脆弱从而引起性能大大降低。在各种声纹欺诈手段中,录音回放由于其技术的简易性,对系统的威胁最大。因此,提出合理高效的录音欺诈检测方法显得尤为重要。
对于声纹欺诈检测问题,比较传统的方法是根据人类的听觉感知提取一些基于听觉的特征,如基频、能量等。这类方法存在的问题是:仅仅依靠人类的先验知识来提取有效的特征是很困难的,而且有些先验知识不是完全正确;另外,人耳并不擅长声纹欺诈检测,根据人耳听觉特性设计的滤波器不能在该任务中有很好的表现。
为了解决以上的问题,人们引入了高频段特征。通过高频段特征的提取,相比于基于CQCC(Constant Q Cepstral Coefficient)特征的基线系统,录音回放检测的正确率得到了大幅度的提升,但是目前的研究仍然存在2个主要的问题:仅仅依靠振幅信息进行建模,忽略了相位信息的作用,因而不能完整的获取语音的有效信息;同时,高中低频段都不同程度地分布着具备录音检测的高区分度信息,如何量化这些区分度信息的比例设计合理的频率刻度显得尤为重要。
发明内容
本发明针对现有录音攻击检测模型在特征提取时忽略相位信息的问题,提出基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,从而有效利用相位和振幅信息的互补性以及全频段上具备高区分度的信息。
为了解决上述技术问题,本发明的技术方案如下:基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,包括以下步骤:
步骤一,输入数据准备:
对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。
步骤二,基于F-ratio的频段区分度能力分析:
步骤三,自适应滤波器设计:
自适应滤波器特性可以用滤波器分布密度来描述。将全频段利用阈值φ将全频段划分为若干区间,F-ratio值大于φ的区间为具备高区分度信息的频段,所涉及的滤波器应该分布更加密集;反之,则低。定义如下:
步骤四,使用自适应滤波器提取特征:
1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,使用前述步骤设计的自适应滤波器,提取自适应振幅特征。
2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,使用前述步骤设计的自适应滤波器,提取自适应相位特征。
步骤五,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,GMMgenuine和GMMspoof。
步骤六,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:
L=(1-α)L1+αL2, (5)
其中:L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定。
步骤七,判别决策:
对于要检测是否为回放录音的测试音频,经过特征提取后,本发明通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分。若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。
本发明所述步骤四中自适应相位信息的提取,具体提取过程如下:
原始的相位信息会随着输入语音的位裁剪置而变化,即使是在相同的频率下。为了克服这个问题,王等人提出了相对相位(Relative Phase)即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)) (7)
对于其他频率ω'=2πf',频谱变成:
相位信息可以被归一化,归一化的相位信息如下:
最后,利用自适应滤波器提取相对相位特征:
与现有技术相比,本发明的有益效果为:本发明考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果。通过提取频率自适应的振幅与相位信息,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性,量化了高区分度信息在此任务中的作用。
附图说明
图1是本发明提出的基于振幅和相位信息的特征提取方法框架图;
图2是自适应滤波器线性频率和梅尔尺度映射关系;
图3是自适应滤波器在线性频率域的分布密度示意图。
具体实施方式
为了更好地理解本发明的技术方案,现结合附图及具体实施方式来对本发明进行更进一步详细的描述
图1是本发明的基于振幅和相位信息的特征提取方法的框架图,主要包含以下步骤:
步骤一,输入数据准备:为了验证本发明的效果,在ASVspoof2017数据库进行录音回放攻击检测实验。ASVspoof 2017包含14466句话共两类,分别为原始音频和录音回放音频;所有句子采样频率为16KHz,每一句话时长约3-5秒。
步骤二,基于F-ratio的频段区分度能力分析:
对于训练集中的音频进行建模分析,在全频段进行录音回放音频和原始音频区分度能力分析,分析得到高区分度的几个区间。
步骤三,自适应滤波器设计:
对于高区分度频段设置较大的滤波器分配密度,设计自适应滤波器。
步骤四,使用自适应滤波器提取特征:
1)振幅信息提取:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,FFT点数设为256,窗长16ms,窗移8ms,特征维数设为39维。
2)相位信息提取:本发明用到两种相位信息,提取相对相位的时候窗长12.5ms,窗移5ms,基频ω设为1000Hz,特征维数设置为118维。
步骤五,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,高斯分量设置为512。
步骤六,特征融合:
对于自适应相位特征和振幅特征分别进行判别决策后,进行线性打分特征融合,本发明采用自适应相对相位特征、自适应振幅特征和CQCC特征进行特征融合,因为这三种特征在实验过程中表现出了良好的鲁棒性和高性能分辨能力。
步骤七,判别决策:
本发明采用Gaussian Mixture Model判别做最后的决策。一句话的所有句级别的特征输入到GMM中,然后完成句子是否为回放音频的判别。
表1列出了不同分辨率振幅及相位特征的实验配置,其中CQCC为基线特征,通过各种对比实验来评估相位信息的作用。
表2是在ASVspoof2017数据库上进行录音攻击检测结果对比,评价指标为验证集上的等错误率(越低越好)和测试集上的等错误率(越低越好)。
表1是本方法使用的特征列表
ID | 特征 | 特征维数 |
1 | CQCC | 29 |
2 | 梅尔相对相位 | 118 |
3 | 倒梅尔相对相位 | 118 |
4 | 线性相对相位 | 118 |
5 | 梅尔频率倒谱 | 39 |
6 | 倒梅尔频率倒谱 | 39 |
7 | 线性频率倒谱 | 39 |
表2是在ASVspoof 2017数据库上录音攻击检测结果对比
首先,我们可以看出采用相位进行录音攻击检测是有效的,证明了相位信息在录音检测中可以表现良好。其次,振幅和相对相位结合比只用振幅信息的效果要好,表明融合相位信息是必要的。其中,振幅和相对相位结合与基线系统相比,等错误率相对降低了50%以上,这表明相对相位和振幅之间具有更高的互补性。自适应相位特征和自适应振幅特征更好地利用了全频段具备高区分度的信息,从而更有效地检测了录音攻击。
Claims (2)
1.基于自适应滤波器振幅相位特征提取的录音欺诈检测方法,其特征在于,包括以下步骤:
步骤一,输入数据准备:
对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
步骤二,基于F-ratio的频段区分度能力分析:
步骤三,自适应滤波器设计:
将全频段利用阈值φ将全频段划分为若干区间,F-ratio值大于φ的区间为具备高区分度信息的频段,所涉及的滤波器应该分布更加密集;反之,则低
定义如下:
步骤四,使用自适应滤波器提取特征:
1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,使用前述步骤设计的自适应滤波器,提取自适应振幅特征;
2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,使用前述步骤设计的自适应滤波器,提取自适应相位特征;
步骤五,分类模型训练:
将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个GaussianMixture Model分类器,GMMgenuine和GMMspoof;
步骤六,特征融合:
对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:
L=(1-α)L1+αL2, (5)
其中:L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定;
步骤七,判别决策:
对于要检测是否为回放录音的测试音频,经过特征提取后,本发明通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分;若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910087795.7A CN109920447B (zh) | 2019-01-29 | 2019-01-29 | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910087795.7A CN109920447B (zh) | 2019-01-29 | 2019-01-29 | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109920447A CN109920447A (zh) | 2019-06-21 |
CN109920447B true CN109920447B (zh) | 2021-07-13 |
Family
ID=66961069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910087795.7A Active CN109920447B (zh) | 2019-01-29 | 2019-01-29 | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109920447B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689885B (zh) * | 2019-09-18 | 2023-05-23 | 平安科技(深圳)有限公司 | 机器合成语音识别方法、装置、存储介质及电子设备 |
CN111261189B (zh) * | 2020-04-02 | 2023-01-31 | 中国科学院上海微系统与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN111653289B (zh) * | 2020-05-29 | 2022-12-27 | 宁波大学 | 一种回放语音检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101124623A (zh) * | 2005-02-18 | 2008-02-13 | 富士通株式会社 | 语音认证系统 |
CN101241699A (zh) * | 2008-03-14 | 2008-08-13 | 北京交通大学 | 一种远程汉语教学中的说话人确认系统 |
US20120253809A1 (en) * | 2011-04-01 | 2012-10-04 | Biometric Security Ltd | Voice Verification System |
CN104639770A (zh) * | 2014-12-25 | 2015-05-20 | 北京奇虎科技有限公司 | 基于移动终端的电话举报方法、装置和系统 |
US20150269941A1 (en) * | 2014-03-21 | 2015-09-24 | Wells Fargo Bank, N.A. | Fraud detection |
CN105139857A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
CN108234485A (zh) * | 2017-12-30 | 2018-06-29 | 广东世纪网通信设备股份有限公司 | 基于voip平台的诈骗声纹获取装置及利用该装置来拦截诈骗电话的方法、装置和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105575393A (zh) * | 2015-12-02 | 2016-05-11 | 中国传媒大学 | 一种基于人声音色的个性化点唱歌曲推荐方法 |
-
2019
- 2019-01-29 CN CN201910087795.7A patent/CN109920447B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101124623A (zh) * | 2005-02-18 | 2008-02-13 | 富士通株式会社 | 语音认证系统 |
US20080172230A1 (en) * | 2005-02-18 | 2008-07-17 | Fujitsu Limited | Voice authentication system |
CN101241699A (zh) * | 2008-03-14 | 2008-08-13 | 北京交通大学 | 一种远程汉语教学中的说话人确认系统 |
US20120253809A1 (en) * | 2011-04-01 | 2012-10-04 | Biometric Security Ltd | Voice Verification System |
US20150269941A1 (en) * | 2014-03-21 | 2015-09-24 | Wells Fargo Bank, N.A. | Fraud detection |
US10109281B1 (en) * | 2014-03-21 | 2018-10-23 | Wells Fargo Bank, N.A. | Enhanced fraud detection |
CN104639770A (zh) * | 2014-12-25 | 2015-05-20 | 北京奇虎科技有限公司 | 基于移动终端的电话举报方法、装置和系统 |
CN105139857A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
CN108234485A (zh) * | 2017-12-30 | 2018-06-29 | 广东世纪网通信设备股份有限公司 | 基于voip平台的诈骗声纹获取装置及利用该装置来拦截诈骗电话的方法、装置和系统 |
Non-Patent Citations (5)
Title |
---|
Features and classifiers for replay spoofing attack detection;Cemal Hanilci;《2017 10th International Conference on Electrical and Electronics Engineering (ELECO)》;20180123;第1187-1191页 * |
Replay Attack Detection Using Magnitude and Phase Information with Attention-based Adaptive Filters;Meng Liu et al.;《2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20190417;第6201-6205页 * |
Replay attack: Its effect on GMM-UBM based text-independent speaker verification system;Madhusudan Singh et al.;《2016 IEEE Uttar Pradesh Section International Conference on Electrical, Computer and Electronics Engineering (UPCON)》;20170412;第619-623页 * |
基于Gammachirp耳蜗能量谱特征提取的音频指纹算法;孟建华 等;《华东理工大学学报(自然科学版)》;20151031;第41卷(第5期);第666-670段 * |
基于相位谱的翻录语音攻击检测算法;李璨 等;《电信科学》;20171231(第8期);第145-154页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109920447A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104835498B (zh) | 基于多类型组合特征参数的声纹识别方法 | |
Luo et al. | A capsule network based approach for detection of audio spoofing attacks | |
EP3016314B1 (en) | A system and a method for detecting recorded biometric information | |
Gałka et al. | Playback attack detection for text-dependent speaker verification over telephone channels | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN102968990A (zh) | 说话人识别方法和系统 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Mallidi et al. | Novel neural network based fusion for multistream ASR | |
CN104221079A (zh) | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 | |
Todkar et al. | Speaker recognition techniques: A review | |
CN109935233A (zh) | 一种基于振幅和相位信息的录音攻击检测方法 | |
Liu et al. | Replay attack detection using magnitude and phase information with attention-based adaptive filters | |
Wu et al. | Adversarial sample detection for speaker verification by neural vocoders | |
Liang et al. | Recognition of spoofed voice using convolutional neural networks | |
Lapidot et al. | Effects of waveform pmf on anti-spoofing detection | |
CN112767951A (zh) | 一种基于深度稠密网络的语音转换可视化检测方法 | |
CN116884431A (zh) | 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置 | |
CN111524520A (zh) | 一种基于误差逆向传播神经网络的声纹识别方法 | |
Cheng et al. | Cross-Database Replay Detection in Terminal-Dependent Speaker Verification. | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 | |
Ye et al. | Detection of replay attack based on normalized constant q cepstral feature | |
CN114639387A (zh) | 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 | |
Mills et al. | Replay attack detection based on voice and non-voice sections for speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |