CN106297772B - 基于扬声器引入的语音信号失真特性的回放攻击检测方法 - Google Patents
基于扬声器引入的语音信号失真特性的回放攻击检测方法 Download PDFInfo
- Publication number
- CN106297772B CN106297772B CN201610716612.XA CN201610716612A CN106297772B CN 106297772 B CN106297772 B CN 106297772B CN 201610716612 A CN201610716612 A CN 201610716612A CN 106297772 B CN106297772 B CN 106297772B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice signal
- low frequency
- model
- loudspeaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 238000012360 testing method Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于扬声器引入的语音信号失真特性的回放攻击检测方法,首先对待检测语音进行预处理,保留其中的浊音帧;针对预处理后语音信号中的每一个浊音帧进行特征提取,得到基于语音信号线性失真和非线性失真特性的特征向量;所有的浊音帧的特征向量求平均值,形成统计特征向量,获得待测语音的特征模型;然后提取训练语音样本的特征向量,获得训练语音特征模型,并利用该训练语音特征模型来训练SVM模型,获得语音模型库;最后将待测语音的特征模型与已训练好的语音模型库进行SVM模式匹配,输出判决结果。本发明可实现对回放语音实时有效的检测。
Description
技术领域
本发明属于数字媒体处理领域,涉及一种回放攻击检测方法,特别涉及一种判别语音是否为回放攻击的语音内容安全的方法。
背景技术
生物特征作为生物体固有属性这一优势导致生物识别技术由之出现,说话人识别隶属于生物识别,是根据使用者的语音样本来实现身份认证。由于语音相对其他生物特征,具有拾音设备简单、随时随地可用、数据量小等优势,声纹验证技术从提出后已经经过了60多年的发展并且取得了巨大的进步,得到了广泛的应用。但是,目前针对声纹的身份认证系统却面临着各种伪装攻击,包括录音回放、语音合成、语音转换和语音模仿四种方式,其中回放攻击是指攻击者使用录音设备录制合法用户进入认证系统时的语音,然后在系统的拾音器端通过扬声器回放,达到伪装用户进入系统的目的。由于现有录音设备的低廉性和便携性,使得这一攻击操作简便,实现容易,录音回放攻击已成为最广泛威胁性最大的伪装攻击手段。现有的主流的说话人识别平台对于回放攻击的错误接受率极高,这表明录音回放攻击对于声纹认证平台的安全有极大的威胁性,由此可见如何实现录音回放攻击检测成为基于声纹的身份认证系统中急需解决的一个重要问题。
自录音回放攻击出现以来,国内外仅有少数研究团队对此进行了研究,其主要技术成果集中在2011年以前,近年来发展缓慢。并且现有研究成果对于语音采样频率,系统存储空间,语音采集环境等条件有严格要求和限制,也无法达到准确率高,实时性强的识别效果,所以均不能广泛适用于现有声纹识别平台。
语音信号频谱图可以准确直观的反映出语音信号被修改前后的变化和差异,而回放攻击的过程相比于原始语音引入了麦克风采集,数字压缩和扬声器播放三个环节,每一个环节都可能会引起语音信号的改变。所以根据三个环节中语音信号频谱图的变化进行分析,提出基于语音信号频谱特性的回放攻击检测算法,可以设计实现出具有良好普适性、实时性和较高准确性的回放攻击检测算法。
发明内容
本发明针对现有声纹识别系统无法抵抗回放攻击的安全漏洞,提供了一种基于扬声器引入的语音信号失真特性的回放攻击检测方法。
本发明所采用的技术方案是:一种基于扬声器引入的语音信号失真特性的回放攻击检测方法,其特征在于,包括以下步骤:
步骤1:对待检测语音进行预处理,保留其中的浊音帧;
步骤2:针对预处理后语音信号中的每一个浊音帧进行特征提取,得到基于语音信号线性失真和非线性失真特性的特征向量;
步骤3:所有的浊音帧的特征向量求平均值,形成统计特征向量,获得待测语音的特征模型;
步骤4:提取训练语音样本的特征向量,获得训练语音特征模型,并利用该训练语音特征模型来训练SVM模型,获得语音模型库;
步骤5:将待测语音的特征模型与已训练好的语音模型库进行SVM模式匹配,输出判决结果。
作为优选,步骤1所述对待检测语音进行预处理,是使用汉明窗对语音信号进行分帧加窗处理,帧长为70ms,保留其中的浊音帧。
作为优选,步骤2所述针对预处理后语音信号中的每一个浊音帧进行特征提取,是提取基于语音信号线性失真和非线性失真特性的26维特征向量。
作为优选,所述提取基于语音信号线性失真特征向量,由低频比、低频方差、低频差分方差、低频拟合和全局低频比五种特征,共计10维向量组成;
所述低频比其中X(f)为对每一帧的快速傅里叶变换;
所述低频方差其中
所述低频差分方差其中
所述低频拟合是利用6维拟合特征对于0~500Hz的FFT采样点进行拟合,拟合公式为其中x为0~500Hz的FFT采样点,ai表示拟合的系数;
所述全局低频比
其中,f表示频率,X(i)表示频率的幅值;n表示频率值的个数;i表示第i个。
作为优选,所述提取基于语音信号非线性失真特征向量,包括总谐波失真、削波比和音色向量三种特征,共计16维特征向量;
所述总谐波失真其中X(f)为每一帧的快速傅氏变换,f0为基音频率,fi表示第i个频率,X(fi)表示第i个频率的幅值;
所述削波比其中x为时域谱,len为时域谱长度;
所述音色向量
作为优选,步骤3所述统计特征向量,是26维统计特征向量。
作为优选,步骤4所述训练语音样本,来自若干设备和若干位录制者,包括回放语音和原始语音。
作为优选,步骤4中在提取训练语音样本特征向量以后,利用LIBSVM对训练语音样本集中的特征数据库进行二分类训练,所述特征数据库由训练语音样本特征向量组成。
本发明的有益效果是:本发明可以集成于现有的声纹识别平台,实现对回放语音实时有效的检测,为当前信息时代的司法取证、电子商务、金融系统等领域提供安全有效的身份认证技术支持。
附图说明
图1是本发明实施例的算法总体流程图;
图2是本发明实施例的特征提取流程图;
图3是本发明实施例的回放攻击引入的差异对比图;
图4是本发明实施例的加速度频率响应曲线图;
图5是本发明实施例的描述低频衰减失真的频谱图;
图6是本发明实施例的描述高频谐波失真的频谱图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例中涉及的相关术语解释如下:
1)回放攻击:利用录音设备录制说话人的声音,然后对说话人识别系统播放这段录音,从而使得说话人识别系统判断其为说话人。
2)信号频谱:信号各分量的幅度或相位关于频率的函数。
3)线性失真:由电路的线性电抗组件对不同频率的响应不同而引起的幅度或者相位的失真,输出信号中不会有新的频率分量
4)非线性失真:输出信号中产生新的谐波成分,表现为输出信号与输入信号不成线性关系。
5)基音:在复音中,频率最低的声音叫做基音,乐音的音调是由基音的频率决定的。
本发明是基于语音信号频谱特性的回放攻击检测算法,以扬声器对语音信号造成的线性失真和非线性失真特性为技术原理,提取相应特征向量,并采用SVM 进行分类判决,可实现对回放语音实时有效的检测。
请见图1,是本发明的算法流程图,参照该图所示,对一段语音的回放攻击检测过程有如下步骤:
步骤1:针对待检测语音,首先使用汉明窗对信号进行分帧加窗处理,帧长为70ms,保留其中的浊音帧。
步骤2:针对预处理后语音信号中的每一个浊音帧进行特征提取,得到基于语音信号线性失真和非线性失真特性的26维特征向量。
如图3所示,回放攻击的过程相比于原始语音引入了麦克风采集,数字压缩和扬声器播放三个环节,其中扬声器对语音信号的影响最为显着,且具有多个性能评价指标,扬声器放音的过程对于语音信号的影响可以分为线性失真和非线性失真两种。
线性失真是由于电路中存在线性组件,其阻抗随频率的不同而不同,从而导致系统对不同频率的信号分量的放大倍数与延迟时间不同。线性失真会使不同频率信号分量的大小及相对时间关系发生变化,但不会产生输入信号所没有的新的频率成分。
如图5所示,上面为原始语音,下面为回放语音,线性失真在扬声器上主要体现为低频部分的衰减现象。如图4所示,由于声辐射和加速度成正比,因此把扬声器纸盆的固有频率设计得低于工作频率,扬声器工作在质量工作区,当Qm=1 时频率响应较为平坦。在这种工作状态下,扬声器会出现明显低频衰减。
非线性失真是由于电路中的非线性组件或进入非线性区域而引起的。非线性失真的主要特征是产生了输入信号所没有的新的频率的成分。可以分为谐波失真和瞬态互调失真。
谐波失真指原有频率的各种倍频的有害干扰。如图6所示为一段原始语音信号和相应的回放语音信号,由于放大器不够理想,输出的信号除了包含放大的输入成分之外,还新添了一些原信号的整数倍的频率成分(谐波),致使输出波形走样。
由于晶体管工作特性不稳定,易受温度等因素影响而产生失真,因此会采用大深度的负反馈。为了减小由深度负反馈所引起的高频振荡,晶体管放大器一般要在前置推动级晶体管的基极和集电极之间加入一个小电容,使高频段的相位稍为滞后,称为滞后价或称分补价。当输入信号含有速度很高的瞬态脉冲时,电容来不及充电,线路是处于没有负反馈状态。由于输入讯号没有和负回输讯号相减,造成讯号过强,这些过强讯号会使放大线路瞬时过载,结果使输出讯号出现削波现象。
请见图2,本实施例基于线性失真原理和非线性失真原理特征提取过程如下:
基于线性失真现象提出的特征均是在500Hz范围下进行处理,从而达到更好的区分效果。这里我们提出了低频比、低频方差,低频差分方差,低频拟合和全局低频比五种特征,共计10维向量来描述线性失真中的低频衰减特性。
①低频比(Low Spectral Ratio)
回放语音信号在250~350Hz的范围内谱峰分布低于原始语音,而在接近 500Hz的范围时又高于原始语音,所以用250~350Hz的特征参数比上400~500Hz 特征参数可以最明显的区分两者。
公式1所示,其中X(f)为对每一帧的快速傅里叶变换。
②低频方差(Low Spectral Variance)
低频方差用于描述信号在低频区域的波动情况。首先对500Hz以内的FFT 采样点进行统计,在帧长为70ms的情况下,16kHz的采样点总共有1120个,在 0~500Hz以内的采样点共计35个;
③低频差分方差(Low Spectral Difference Variance)
一阶差分常用来描述数据的变化程度。这里,通过一阶差分的方差值,来更准确的描述低频部分的数据波动程度。
④低频曲线拟合(Low Spectral Curve Fit)
利用6维拟合特征对于0~500Hz的FFT采样点进行拟合。
其中x为0~500Hz的FFT采样点,ai表示拟合的系数;
⑤全局低频比(Global Low Spectral Ratio)
此特征的提出是基于现有的频带特征检测算法和扬声器对语音信号的衰减作用,通过对原有算法的改进使其具有广泛适用性。低频比例特征的提取验证了语音信号总体在低频部分衰减的特点。
其中,f表示频率,X(i)表示频率的幅值;n表示频率值的个数;i表示第i个;X(f)为每一帧的快速傅氏变换,本实验所使用的音频信号采样频率均为 16kHz,衰减部分主要发生在500Hz以下。
对于非线性失真现象,提取总谐波失真,削波比和音色向量三种特征,共计16维特征向量,用于描述非线性失真中的高频谐波失真和瞬态互调失真现象。
①总谐波失真(Total Harmonic Distortion)
此特征的提出是基于扬声器对于语音高频部分的谐波失真现象。各次谐波的方均根值与基波方均根值的比例称为该次谐波的谐波含量。所有谐波的方均根值的方和根与基波方均根值的比例称为总谐波失真
其中X(f)为每一帧的快速傅氏变换。f0为基音频率,fi表示第i个频率,X(fi) 表示第i个频率的幅值;
②削波比(Clipping Ratio)
将时域谱绝对值的平均值和最大值作比,用来量化由瞬态互调失真带来的削波现象。
其中x为时域谱,len为时域谱长度。
③音色向量(Timbre Vector)
回放信号与原始信号在谐波上差异明显。音色主要由各个谐波(泛音)的相对大小决定。音色向量可以描述谐波的相对大小关系。
步骤3:分别对每一个浊音帧提取完特征向量后,将所有的浊音帧的特征向量求平均值,形成26维统计特征向量。
步骤4:提取训练语音样本的特征向量,获得训练语音特征模型,并利用该训练语音特征模型来训练SVM模型,获得语音模型库;
步骤4.1:输入训练样本集,训练样本集中的训练音频来自多种设备和多位录制者,并包括回放语音和原始语音;如图2所示,对训练样本集中的所有语音样本提取26维统计特征向量。
步骤4.2:语音的判定问题实际上是二分类问题,所以使用的模型为SVM;在提取出特征向量以后,利用LIBSVM对训练样本集中的特征数据库进行二分类训练。
步骤5:将待测语音样本的特征模型与已训练好的语音模型库进行SVM模式匹配,进一步输出判决结果。
步骤5.1:提取待测语音特征向量;
步骤5.2:将待测样本特征向量与已有的语音模型库进行模式匹配,得到判决标准,进一步输出判决结果。
将待测样本特征向量与已有的语音模型库进行模式匹配,训练过的SVM模型具有区分原始语音和回放语音的分类边界,可以实现对待测样本进行二分类,进一步输出判决结果,判决为回放/原始。
为了验证本算法的有效性,设置三个实验来进行测试;
实验1:不同年龄段以及不同性别的用户在频率、语调等声音特点方面差异较大,所以对不同用户人群进行分类测试,分别为18岁以下、18—40岁和40 岁以上三个年龄段,每个年龄段都分别有男性录制者和女性录制者;不同用户人群分类测试结果请见下表1;
表1不同用户人群分类测试结果
实验2:不同扬声器的物理结构不同,其扬声器的频响曲线相对不同,针对扬声器的测试可以验证不同主流设备的识别情况,测试设备分别为华为,iPhone,三星,魅族,谷歌nexus;不同扬声器分类测试结果请见下表2;
表2不同扬声器分类测试结果
设备类型 | 样本数量 | FAR | AR |
iPhone5s | 172 | 8.55% | 91.45% |
华为 | 171 | 2.34% | 97.66% |
Nexus | 155 | 0.65% | 99.35% |
魅族 | 175 | 1.15% | 98.85% |
三星 | 254 | 3.15% | 96.85% |
平均 | 185.4 | 3.17% | 96.83% |
实验3:文献[1]中的算法是目前提出的较为优秀的回放攻击检测算法,所以将本发明的方法与文献[1]的算法进行对比测试,以验证本算法对于识别率的提升,算法对比测试结果请见下表3;
表3算法对比测试
实验结果表明,本发明提供的算法对于不同用户人群和不同扬声器设备均具有良好的检测通用性,并且算法的平均识别正确率率高达98%以上,相较于现有算法平均82%的识别率有了显着的提升。
文献[1]Villalba,Jesús,and Eduardo Lleida."Detecting replay attacksfrom far-field recordings on speaker verification systems."European Workshopon Biometrics and Identity Management.Springer Berlin Heidelberg,2011.
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于扬声器引入的语音信号失真特性的回放攻击检测方法,其特征在于,包括以下步骤:
步骤1:对待检测语音进行预处理,保留其中的浊音帧;
步骤2:针对预处理后语音信号中的每一个浊音帧进行特征提取,得到基于语音信号线性失真和非线性失真特性的特征向量;
所述针对预处理后语音信号中的每一个浊音帧进行特征提取,是提取基于语音信号线性失真和非线性失真特性的26维特征向量;
所述提取基于语音信号线性失真特征向量,由低频比、低频方差、低频差分方差、低频拟合和全局低频比五种特征,共计10维向量组成;
所述低频比其中X(f)为对每一帧的快速傅里叶变换;
所述低频方差其中
所述低频差分方差其中
所述低频拟合是利用6维拟合特征对于0~500Hz的FFT采样点进行拟合,拟合公式为其中x为0~500Hz的FFT采样点,ai表示拟合的系数;
所述全局低频比
其中,f表示频率,X(i)表示频率的幅值;n表示频率值的个数;i表示第i个;
步骤3:所有的浊音帧的特征向量求平均值,形成统计特征向量,获得待测语音的特征模型;
步骤4:提取训练语音样本的特征向量,获得训练语音特征模型,并利用该训练语音特征模型来训练SVM模型,获得语音模型库;
步骤5:将待测语音的特征模型与已训练好的语音模型库进行SVM模式匹配,输出判决结果。
2.根据权利要求1所述的基于扬声器引入的语音信号失真特性的回放攻击检测方法,其特征在于:步骤1所述对待检测语音进行预处理,是使用汉明窗对语音信号进行分帧加窗处理,帧长为70ms,保留其中的浊音帧。
3.根据权利要求1所述的基于扬声器引入的语音信号失真特性的回放攻击检测方法,其特征在于:所述提取基于语音信号非线性失真特征向量,包括总谐波失真、削波比和音色向量三种特征,共计16维特征向量;
所述总谐波失真其中X(f)为每一帧的快速傅氏变换,f0为基音频率,fi表示第i个频率,X(fi)表示第i个频率的幅值;
所述削波比其中x为时域谱,len为时域谱长度;
所述音色向量
4.根据权利要求1所述的基于扬声器引入的语音信号失真特性的回放攻击检测方法,其特征在于:步骤3所述统计特征向量,是26维统计特征向量。
5.根据权利要求1所述的基于扬声器引入的语音信号失真特性的回放攻击检测方法,其特征在于:步骤4所述训练语音样本,来自若干设备和若干位录制者,包括回放语音和原始语音。
6.根据权利要求1或5所述的基于扬声器引入的语音信号失真特性的回放攻击检测方法,其特征在于:步骤4中在提取训练语音样本特征向量以后,利用LIBSVM对训练语音样本集中的特征数据库进行二分类训练,所述特征数据库由训练语音样本特征向量组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610716612.XA CN106297772B (zh) | 2016-08-24 | 2016-08-24 | 基于扬声器引入的语音信号失真特性的回放攻击检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610716612.XA CN106297772B (zh) | 2016-08-24 | 2016-08-24 | 基于扬声器引入的语音信号失真特性的回放攻击检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297772A CN106297772A (zh) | 2017-01-04 |
CN106297772B true CN106297772B (zh) | 2019-06-25 |
Family
ID=57616077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610716612.XA Expired - Fee Related CN106297772B (zh) | 2016-08-24 | 2016-08-24 | 基于扬声器引入的语音信号失真特性的回放攻击检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106297772B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801659D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
CN108039176B (zh) * | 2018-01-11 | 2021-06-18 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
CN108053836B (zh) * | 2018-01-18 | 2021-03-23 | 成都嗨翻屋科技有限公司 | 一种基于深度学习的音频自动化标注方法 |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
CN110459204A (zh) * | 2018-05-02 | 2019-11-15 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
US10529356B2 (en) | 2018-05-15 | 2020-01-07 | Cirrus Logic, Inc. | Detecting unwanted audio signal components by comparing signals processed with differing linearity |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN111445904A (zh) * | 2018-12-27 | 2020-07-24 | 北京奇虎科技有限公司 | 基于云端的语音控制方法、装置及电子设备 |
CN110211606B (zh) * | 2019-04-12 | 2021-04-06 | 浙江大学 | 一种语音认证系统的重放攻击检测方法 |
CN113571054B (zh) * | 2020-04-28 | 2023-08-15 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN114822587B (zh) * | 2021-01-19 | 2023-07-14 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05172621A (ja) * | 1991-12-25 | 1993-07-09 | Matsushita Electric Ind Co Ltd | 歪測定装置 |
CN1268732A (zh) * | 2000-03-31 | 2000-10-04 | 清华大学 | 基于语音识别专用芯片的特定人语音识别、语音回放方法 |
JP2009139615A (ja) * | 2007-12-06 | 2009-06-25 | Toyama Univ | 音響再生装置、音響再生方法、音響再生プログラム、及び音響再生システム |
CN101529926A (zh) * | 2006-10-18 | 2009-09-09 | Dts(英属维尔京群岛)有限公司 | 用于补偿音频换能器的无记忆非线性失真的系统和方法 |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
CN102800316A (zh) * | 2012-08-30 | 2012-11-28 | 重庆大学 | 基于神经网络的声纹识别系统的最优码本设计方法 |
CN104091602A (zh) * | 2014-07-11 | 2014-10-08 | 电子科技大学 | 一种基于模糊支持向量机的语音情感识别方法 |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
-
2016
- 2016-08-24 CN CN201610716612.XA patent/CN106297772B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05172621A (ja) * | 1991-12-25 | 1993-07-09 | Matsushita Electric Ind Co Ltd | 歪測定装置 |
CN1268732A (zh) * | 2000-03-31 | 2000-10-04 | 清华大学 | 基于语音识别专用芯片的特定人语音识别、语音回放方法 |
CN101529926A (zh) * | 2006-10-18 | 2009-09-09 | Dts(英属维尔京群岛)有限公司 | 用于补偿音频换能器的无记忆非线性失真的系统和方法 |
JP2009139615A (ja) * | 2007-12-06 | 2009-06-25 | Toyama Univ | 音響再生装置、音響再生方法、音響再生プログラム、及び音響再生システム |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
CN102800316A (zh) * | 2012-08-30 | 2012-11-28 | 重庆大学 | 基于神经网络的声纹识别系统的最优码本设计方法 |
CN104091602A (zh) * | 2014-07-11 | 2014-10-08 | 电子科技大学 | 一种基于模糊支持向量机的语音情感识别方法 |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106297772A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297772B (zh) | 基于扬声器引入的语音信号失真特性的回放攻击检测方法 | |
Suthokumar et al. | Modulation Dynamic Features for the Detection of Replay Attacks. | |
CN108986824B (zh) | 一种回放语音检测方法 | |
Das et al. | Long Range Acoustic Features for Spoofed Speech Detection. | |
CN112201255B (zh) | 语音信号频谱特征和深度学习的语音欺骗攻击检测方法 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
Malik | Securing voice-driven interfaces against fake (cloned) audio attacks | |
Gunendradasan et al. | Detection of Replay-Spoofing Attacks Using Frequency Modulation Features. | |
CN103236260A (zh) | 语音识别系统 | |
CN105513598A (zh) | 一种基于频域信息量分布的回放语音检测方法 | |
CN110299141A (zh) | 一种声纹识别中录音回放攻击检测的声学特征提取方法 | |
Liu et al. | Replay attack detection using magnitude and phase information with attention-based adaptive filters | |
CN104221079A (zh) | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 | |
CN110120223A (zh) | 一种基于时延神经网络tdnn的声纹识别方法 | |
Das et al. | Instantaneous phase and excitation source features for detection of replay attacks | |
CN109841219A (zh) | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 | |
CN109935233A (zh) | 一种基于振幅和相位信息的录音攻击检测方法 | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN114639387A (zh) | 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 | |
CN110718229A (zh) | 录音回放攻击的检测方法及对应检测模型的训练方法 | |
Lapidot et al. | Effects of waveform pmf on anti-spoofing detection | |
Ye et al. | Detection of replay attack based on normalized constant q cepstral feature | |
Delgado et al. | Impact of bandwidth and channel variation on presentation attack detection for speaker verification | |
Mills et al. | Replay attack detection based on voice and non-voice sections for speaker verification | |
Suthokumar et al. | Use of claimed speaker models for replay detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190625 Termination date: 20210824 |
|
CF01 | Termination of patent right due to non-payment of annual fee |