CN109599118A - 一种鲁棒性的回放语音检测方法 - Google Patents
一种鲁棒性的回放语音检测方法 Download PDFInfo
- Publication number
- CN109599118A CN109599118A CN201910070412.5A CN201910070412A CN109599118A CN 109599118 A CN109599118 A CN 109599118A CN 201910070412 A CN201910070412 A CN 201910070412A CN 109599118 A CN109599118 A CN 109599118A
- Authority
- CN
- China
- Prior art keywords
- stop
- voice signal
- coefficient
- cepstrum
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000009432 framing Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000001568 sexual effect Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000027534 Emotional disease Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种鲁棒性的回放语音检测方法,所述方法包括步骤一、分析真实语音和回放语音的频率子带之间的差异;步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音。本发明具有检测准确性高,鲁棒性好的优点。
Description
技术领域
本发明涉及智能控制领域,尤其涉及一种鲁棒性的回放语音检测方法。
背景技术
自动说话人认证系统(Automatic Speaker Verification,ASV)因安全性较高、获取方便且可以远程访问的优点被广泛用于生活和金融领域。在该技术不断发展的同时,各种欺骗语音对ASV系统的威胁也日趋严重。其中,欺骗性最大且操作最方便的是回放语音。其生成过程如图1(b)所示,图1(a)所示为真实语音生成过程。可知,真实语音是由目标说话人认证ASV系统时得到的语音,回放语音则是攻击者偷录目标说话人的声音,在ASV系统前回放产生的语音。
随着高保真录音和回放设备的普及化及便捷化,攻击者能够轻易的录制到目标说话人的声音,由于不需要攻击者掌握特殊的技能便可实现回放攻击,且回放语音来自于目标说话人的真实语音,因而具有很大迷惑性。研究者尝试提出新的算法以试图解决该问题。如有的通过使用傅里叶变换提出多种倒谱特征,如逆梅尔频率倒谱系数、高频倒谱系数等对回放语音进行检测。
但目前的检测方法只能单独表达低频或者高频信息,不能同时兼顾二者,导致系统鲁棒性欠佳。更重要的是,这些算法不能充分考虑到特征可变性的影响,目前的检测方法大多集中在改进后端建模或开发新特征上而忽略特征的可变性,尤其是回放信道可变性的影响。在实际场景中,攻击者使用的录制设备、回放设备等性能参数多种多样,这导致回放信道随设备的变换而不断改变,而对重放攻击检测最有影响的是信道可变性,倘若无法去除多变的信道特征,则严重影响检测的准确性。
发明内容
鉴于上述问题,本发明的目的在于提供一种能同时捕获频谱的高、低频信息,能去除信道特征影响,提升语音检测准确性的鲁棒性的回放语音检测方法。
为了实现上述目的,本发明保护的技术方案为,一种鲁棒性的回放语音检测方法,其特征在于:所述方法包括,
步骤一、分析真实语音和回放语音的频率子带之间的差异;
步骤二、根据分析结果选择阻带滤波器的类型及其截止频率,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;
步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;
步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音。
优选的,所述步骤三中利用减均值去除信道影响,具体过程如下:
(a)简化回放攻击模型,得到时域线性卷积
其中,r为回放语音,s为真实语音,h为回放信道响应;
(b)将时域线性卷积变换成频域数字信号,得到
其中,F(·)表示傅里叶变换函数,F(r)、F(s)分别为回放语音r和真实语音s的频谱系数,F(h)为频域中信道响应。
(c)通过取对数并进行离散余弦变换,将频域中的乘性关系转化为倒谱域中的加性关系,即
其中,R表示回放语音r的倒谱系数,S表示真实语音s的倒谱系数,H表示倒谱域中回放信道响应h的脉冲响应。
(d)对待测语音信号进行分帧处理,得到分帧的倒谱系数关系式
Ri=Si+H (8)
其中Ri表示分帧后的回放语音r的倒谱系数,Si表示分帧后的真实语音s的倒谱系数,i表示帧数;
(e)求取整个语音信号均值,即
其中I为矢量矩阵;
(f)利用减均值,消除信道影响,即
其中,Mn表示减均值后的倒谱特征。
优选的,所述步骤二中提取差异性子带的倒谱特征,得到阻带频率倒谱特征,具体为:
(I)利用阻带滤波器对待测语音信号进行滤波处理,得到滤波后的信号s(n);
(II)对所述滤波后的信号s(n)进行预处理,得到分帧后的语音信号si(n),i表示帧数;
(III)对每帧语音信号si(n)进行离散傅里叶变换,得到每帧语音信号si(n)的频谱系数si(k),即
其中,N表示傅里叶变换点数,K表示频率点;
(IIII)根据频谱系数求取语音信号si(n)的功率谱pi(k),公式
并对功率谱取对数和离散余弦变换,得到阻带频率倒谱特征为
其中,L表示倒谱特征的维度,取值为40。
优选的,所述步骤三采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理,具体为:
将所述阻带频率倒谱特征代入公式(10)并进行方差归一化处理,得到其中,表示分帧后整个阻带频率倒谱特征Cn的均值,表示分帧后整个阻带频率倒谱特征Cn的方差,表示执行减均值并归一化后的阻带频率倒谱特征。
优选的,所述步骤四采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音,具体为:
(X1)依次执行步骤一至步骤三,提取真实语音、回放语音分别执行减均值并归一化后的倒谱特征,并根据该倒谱特征训练得到真实语音GMM模型λt和回放语音GMM模型λf(该处的);
(X2)将所述执行减均值并归一化后的阻带频率倒谱特征在两个GMM模型下计算似然比σ,公式为
(X3)将所述似然比σ与阈值T比较,大于阈值T,则判定所述待测语音信号为真实语音,反之为回放语音。
优选的,所述阻带滤波器为契比雪夫II型阻带滤波器。
优选的,所述预处理包括预加重、分帧、加窗。
优选的,所述步骤一采用变异系数分析真实语音和回放语音的频率子带之间的差异,所述变异系数公式为
其中,Mean表示语音信号幅度谱系数均值,表示语音信号幅度谱系数标准差,CV表示语音信号变异系数特征;
且所述步骤一根据真实语音和回放语音的变异系数特征分布,获取高频子带、低频子带的滤波频率。
优选的,所述语音变异系数特征具体获取过程如下:
S1、依次经过分帧、加窗、预加重操作,对语音信号进行预处理;
S2、对每帧语音信号进行离散傅里叶变换得到每帧语音信号的频谱系数;
S3、求取频谱系数幅值得到语音信号幅度谱系数;
S4、获取分帧后语音信号幅度谱系数均值和标准差;
S5、根据所述变异系数公式求取语音信号变异系数特征。
与现有技术相比,本发明的优点在于:采用阻带滤波方式,能够同时捕获频谱的低频信息和高频信息,能够有效的弥补现有方法中不能兼顾低频信息和高频信息的缺点,而减均值方式能有效去除信道影响,归一化处理方式能避免异常干扰,从而能够显著提升检测准确性和系统的鲁棒性能。
附图说明
图1(a)、1(b)分别为真实语音、回放语音生成过程示意图。
图2为本申请选择五种不同录制、回放设备获取的回放语音与真实语音的变异系数分布图。
图3为本申请阻带滤波器的幅值响应曲线。
图4为本申请中阻带频率倒谱特征提取过程示意图。
图5为本申请简化回放攻击模型结构示意图。
图6为本申请经高斯混合模型后判断过程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
图1-6示出了本申请鲁棒性的回放语音检测方法优选实施例对应的各操作阶段对应的示意图。本方法首先通过分析真实语音和回放语音在频率子带上的差异,然后针对有差异性子带提取倒谱特征,最后使用归一化方法对倒谱进行后处理,消除信道的影响。
具体的,所述方法包括,
步骤一、分析真实语音和回放语音的频率子带之间的差异;
步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;
步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;
步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音
其中,步骤一:分析真实语音和回放语音的频率子带之间的差异
首先引入变异系数对真实语音和回放语音的幅度谱系数进行分析。变异系数的定义为标准差和均值之比,即:
该Mean、Std分别表示语音幅度谱系数均值和标准差,CV表示语音变异系数特征。
该语音变异系数提取过程如下所示:
S1、依次经过分帧、加窗、预加重操作,对语音信号进行预处理;
S2、对每帧语音信号进行离散傅里叶变换得到每帧语音信号的频谱系数;
S3、求取频谱系数幅值得到语音信号幅度谱系数;
S4、获取分帧后语音信号幅度谱系数均值和标准差;
S5、根据所述变异系数公式求取语音信号变异系数特征
实验中,选择了五种不同的录制设备和回放设备产生的回放语音,将这五种由不同配置的录制设备和回放设备产生的回放语音分别定义为RC01、RC02、RC03、RC04、RC05,真实语音用genuine表示,五种配置变异系数分布图如图2所示。
由图1可以看出,真实语音和回放语音的差异主要分布在高频区:7.2-8kH(在图中用Region2表示),其次在低频区:0-0.7kHz(在图中用Region1表示)也表现出一致性差异。因此这两个具有一致性差异的子带将是我们检测回放语音的关键子带。
步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征
根据上述分析可知,真实语音和回放语音的差异性信息主要分布在高频区域,少部分分布在低频区域。为了更好的利用这两个子带的差异性信息,同时去除其他频带对信号的干扰,在时域中使用阻带滤波方式对待测语音信号进行滤波。在具体设置时,根据步骤一的分析,使阻带滤波器的低频截止频率设为0.7kHz,高频截止频率设为7.2kHz,通带波纹为3dB和阻带衰减为50dB,滤波器的类型优选为切比雪夫II型滤波器,该滤波器的形状及设计如图3所示。
待测语音信号经过阻带滤波后,仅有低频信号和高频信号被保留下来。接下来将对滤波后的语音信号提取倒谱特征,定义提取的倒谱特征为Stopband Frequencycepstral coefficient(SFCC),即阻带频率倒谱特征,其提取过程如图4所示。
首先,通过切比雪夫II型阻带滤波器对待测语音信号进行滤波处理,滤波后的信号s(n)进行预处理,包括预加重、分帧和加窗,得到分帧后的语音信号,设为si(n),其中i表示帧数。然后对每帧语音信号si(n)进行离散傅里叶变换得到频谱系数si(k),即
其中N表示傅里叶变换的点数,K表示频率点。根据频谱系数求取语音信号的功率谱,公式如下:
再对功率谱取对数,并进行离散余弦变换得到阻带频率倒谱特征,公式如下:
其中,L表示倒谱特征维度,此处L取值为40,阻带频率倒谱特征的特征维度包40维静态系数、40维一阶差分以及40维二阶差分。
步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理在步骤二中已经提取到待测语音信号的阻带频率倒谱特征。为了提高特征的鲁棒性,需要在特征层面进行信道补偿,即去除信道干扰。这是因为在现实场景中,无法实际知道攻击者使用的录制设备或者回放设备,也即无法得知回放语音在产生过程中所使用的信道。只有尽可能的去除这些信道信息,才能在实际场景中应对各种各样设备产生的回放攻击。
为了更好的分析信道对回放语音的影响,同时能够尽可能的消除信道信息的干扰,对回放语音产生的过程建立一个数学模型,然后在此基础上提出归一化方法去消除信道影响。本申请通过减均值方式消除信道影响,为了验证该方法的可靠性,首先将回放攻击模型简化成如图5所示。由图5可知,真实语音是真实的来自于合法用户的声音,而回放语音则是由真实语音经过录制和回放后产生的语音。假设真实语音的数学信号表示为s,那么回放语音信号r则表示为真实语音s和回放信道响应h的线性卷积,即:
在时域中s和h是一个卷积关系,为了更好的分析真实语音s和信道响应h的关系,将时域卷积关系变换到频域中进行分析,在频域中回放语音数字信号表示为:
其中F(·)表示傅里叶变换函数,F(r),F(s)分别是回放语音和真实语音的频谱系数,F(h)是频域中信道响应。通过取对数并进行离散余弦变换将频域中的乘性关系转化为倒谱域中的加性关系,可表示为
其中,R表示回放语音的倒谱系数,S表示真实语音的倒谱系数,H表示倒谱域中信道脉冲响应。
在进行短时语音信号处理时,通常对语音进行分帧处理,而在一个话语中,由于信道变化非常微弱,所以可以合理地假设在一句话中信道稳定不变,那么对于分帧的倒谱系数可以表示为Ri=Si+H (8)
其中Ri表示分帧后的回放语音的倒谱系数,Si表示分帧后的真实语音的倒谱系数,i表示帧数。为了能够消除信道的信息,首先对整个待测语音信号求取均值,即
然后使用分帧后的回放语音的倒谱系数减去整个待测语音信号倒谱均值以消除信道影响,表示为:
其中Mn表示减均值的倒谱特征。可以看出,将分帧后的回放语音的倒谱特征减去整个待测语音信号的倒谱均值能够有效消除信道影响。
通过上述论证已经分析出,使用减均值方法能够有效消除信道的影响。同时为了避免倒谱系数中异常值对特征的干扰,并加快模型训练阶段算法的收敛速度。在本发明中我们对提出的阻带频率倒谱特征不仅采用了减均值方法,在此基础上还对倒谱特征进行了方差归一化,具体可表示为:
Cn表示阻带频率倒谱特征,表示分帧后整个阻带频率倒谱特征的均值,表示分帧后整个阻带频率倒谱特征的方差,表示执行减去均值并归一化后的阻带频率倒谱特征。
步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音
将上述执行减去均值并归一化后的阻带频率倒谱特征使用高斯混合模(GaussianMixture Model,GMM)进行训练。在训练阶段,我们首先根据发明中步骤一至三提取真实语音信号和回放语音信号的阻带频率倒谱特征。然后根据这些特征训练两个GMM模型,一个是用真实语音训练得到的真实语音GMM模型(记作λt),另一个是用回放语音训练得到的回放语音GMM模型(记作λf)。然后,将待测语音信号提取的执行减去均值并归一化后的阻带频率倒谱特征在两个GMM模型下计算似然比σ,似然比定义如下:
其中表示执行减去均值并归一化后的阻带频率倒谱特征,用得到的似然比跟阈值T作比较,大于阈值T的判定为真实语音,小于阈值T的判定为回放语音,具体流程图如图6所示。对于阈值T的选择,可根据系统实际情况进行调节。如果在高安全性领域,则可以调高阈值T的大小,以提高安全性。若用于诸如考勤等低安全性领域,则可以适当降低阈值T提升易用性。
为了进一步验证本方法的有效性,我们将本发明提出的方法在ASVspoof2017Challenge数据集上进行实验评估。该数据库包含三个非重叠子集:train(Tra)集,Development(Dev)集和Evaluation(Eval)集。在比赛初期,赛事举办方仅仅提供了Tra子集和Dev子集,主要是给参赛团队调试算法性能的,最后公布的Eval集才是算法最终性能评估的主要数据库。表1中显示了数据集的详细信息。在本文中,我们使用Tra数据集作为训练集来训练模型,并使用Dev数据集和Eval数据集进行测试。
表1 ASV spoof2017数据集配置
我们将本发明的方法目前已提出的其他方法进行了实验,以评估我们提出的方法的性能可靠性。表2显示了我们的方法和其他方法的检测等错误概率(Equal Error Rate,EER)。EER是说话人识别以及说话人确认中最常用的评价标准。
由表2可以观察到,在Dev数据集中,IMFCC的检测效果最好,但是,在Eval数据集上检测性能下降很多,这主要是过拟合导致的,因为在Dev数据集中仅仅包含小量的样本,而Eval数据集则包含多种多样的样本。因此Eval集上的检测性能更能够测量算法的检测能力。相较于其他的检测算法,本发明提出的算法性能在Eval数据集明显优于其他的算法,这也验证了本发明方法的有效性和稳健性。
表2不同特征的实验结果
本发明提出的该方法不仅可以有效捕获频谱的低频信息,同时也能够兼顾频谱的高频信息,而且实验表明该方法有很好的检测性能,而通过减均值及归一化技术能有效消除信道影响,降低异常干扰,从而能够显著提升系统的鲁棒性。
除了上述改进外,其他相类似的改进也包含在本发明的改进范围内,此处就不再赘述。尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形。
Claims (9)
1.一种鲁棒性的回放语音检测方法,其特征在于:所述方法包括,
步骤一、分析真实语音和回放语音的频率子带之间的差异;
步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;
步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;
步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音。
2.根据权利要求1所述方法,其特征在于:
所述步骤三中利用减均值去除信道影响,其具体过程如下,
(a)简化回放攻击模型,得到时域线性卷积
其中,r为回放语音,s为真实语音,h为回放信道响应;
(b)将时域线性卷积变换成频域数字信号,得到
其中,F(·)表示傅里叶变换函数,F(r)、F(s)分别为回放语音r和真实语音s的频谱系数,F(h)为频域中信道响应。
(c)通过取对数并进行离散余弦变换,将频域中的乘性关系转化为倒谱域中的加性关系,即
其中,R表示回放语音r的倒谱系数,S表示真实语音s的倒谱系数,H表示倒谱域中回放信道响应h的脉冲响应。
(d)对待测语音信号进行分帧处理,得到分帧的倒谱系数关系式
Ri=Si+H (8)
其中Ri表示分帧后的回放语音r的倒谱系数,Si表示分帧后的真实语音s的倒谱系数,i表示帧数;
(e)求取整个语音信号均值,即
其中I为矢量矩阵;
(f)利用减均值,消除信道影响,即
其中,Mn表示减均值后的倒谱特征。
3.根据权利要求2所述方法,其特征在于:
所述步骤二中提取差异性子带的倒谱特征,得到阻带频率倒谱特征,具体为,
(I)利用阻带滤波器对待测语音信号进行滤波处理,得到滤波后的信号s(n);
(II)对所述滤波后的信号s(n)进行预处理,得到分帧后的语音信号si(n),i表示帧数;
(III)对每帧语音信号si(n)进行离散傅里叶变换,得到每帧语音信号si(n)的频谱系数si(k),即
其中,N表示傅里叶变换点数,K表示频率点;
(IIII)根据频谱系数求取语音信号si(n)的功率谱pi(k),公式为
并对功率谱取对数和离散余弦变换,得到阻带频率倒谱特征为
其中,L表示倒谱特征的维度,取值为40。
4.根据权利要求3所述方法,其特征在于:
所述步骤三采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理,具体为,
将所述阻带频率倒谱特征代入公式(10)并进行方差归一化处理,得到其中,表示分帧后整个阻带频率倒谱特征Cn的均值,表示分帧后整个阻带频率倒谱特征Cn的方差,表示执行减均值并归一化后的阻带频率倒谱特征。
5.根据权利要求4所述方法,其特征在于:
所述步骤四采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音,具体为,
(X1)依次执行步骤一至步骤三,提取真实语音、回放语音分别执行减均值并归一化后的倒谱特征,并根据该倒谱特征训练得到真实语音GMM模型λt和回放语音GMM模型λf(该处的);
(X2)将所述执行减均值并归一化后的阻带频率倒谱特征在两个GMM模型下计算似然比σ,公式为
(X3)将所述似然比σ与阈值T比较,大于阈值T,则判定所述待测语音信号为真实语音,反之为回放语音。
6.根据权利要求1所述方法,其特征在于:
所述阻带滤波器为契比雪夫II型阻带滤波器。
7.根据权利要求3所述方法,其特征在于:
所述预处理包括预加重、分帧、加窗。
8.根据权利要求1所述方法,其特征在于:
所述步骤一采用变异系数分析真实语音和回放语音的频率子带之间的差异,所述变异系数公式为
其中,Mean表示语音信号幅度谱系数均值,表示语音信号幅度谱系数标准差,CV表示语音信号变异系数特征;
且所述步骤一根据真实语音和回放语音的变异系数特征分布,获取高频子带、低频子带的滤波频率。
9.根据权利要求8所述方法,其特征在于:所述语音变异系数特征具体获取过程如下,
S1、依次经过分帧、加窗、预加重操作,对语音信号进行预处理;
S2、对每帧语音信号进行离散傅里叶变换得到每帧语音信号的频谱系数;
S3、求取频谱系数幅值得到语音信号幅度谱系数;
S4、获取分帧后语音信号幅度谱系数均值和标准差;
S5、根据所述变异系数公式求取语音信号变异系数特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910070412.5A CN109599118A (zh) | 2019-01-24 | 2019-01-24 | 一种鲁棒性的回放语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910070412.5A CN109599118A (zh) | 2019-01-24 | 2019-01-24 | 一种鲁棒性的回放语音检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109599118A true CN109599118A (zh) | 2019-04-09 |
Family
ID=65966730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910070412.5A Pending CN109599118A (zh) | 2019-01-24 | 2019-01-24 | 一种鲁棒性的回放语音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109599118A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627426A (zh) * | 2020-04-30 | 2020-09-04 | 锐迪科微电子科技(上海)有限公司 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101533642A (zh) * | 2009-02-25 | 2009-09-16 | 北京中星微电子有限公司 | 一种语音信号处理方法及装置 |
EP3016314B1 (en) * | 2014-10-28 | 2016-11-09 | Akademia Gorniczo-Hutnicza im. Stanislawa Staszica w Krakowie | A system and a method for detecting recorded biometric information |
CN107123432A (zh) * | 2017-05-12 | 2017-09-01 | 北京理工大学 | 一种自匹配Top‑N音频事件识别信道自适应方法 |
CN108986824A (zh) * | 2018-07-09 | 2018-12-11 | 宁波大学 | 一种回放语音检测方法 |
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
-
2019
- 2019-01-24 CN CN201910070412.5A patent/CN109599118A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101533642A (zh) * | 2009-02-25 | 2009-09-16 | 北京中星微电子有限公司 | 一种语音信号处理方法及装置 |
EP3016314B1 (en) * | 2014-10-28 | 2016-11-09 | Akademia Gorniczo-Hutnicza im. Stanislawa Staszica w Krakowie | A system and a method for detecting recorded biometric information |
CN107123432A (zh) * | 2017-05-12 | 2017-09-01 | 北京理工大学 | 一种自匹配Top‑N音频事件识别信道自适应方法 |
CN108986824A (zh) * | 2018-07-09 | 2018-12-11 | 宁波大学 | 一种回放语音检测方法 |
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627426A (zh) * | 2020-04-30 | 2020-09-04 | 锐迪科微电子科技(上海)有限公司 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105869630B (zh) | 基于深度学习的说话人语音欺骗攻击检测方法及系统 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN108711436A (zh) | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 | |
CN104916289A (zh) | 行车噪声环境下快速声学事件的检测方法 | |
CN111261189B (zh) | 一种车辆声音信号特征提取方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN111653289A (zh) | 一种回放语音检测方法 | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
CN107274915A (zh) | 一种基于特征融合的数字音频篡改自动检测方法 | |
Jelil et al. | Exploration of compressed ILPR features for replay attack detection | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN105513598A (zh) | 一种基于频域信息量分布的回放语音检测方法 | |
CN109841219A (zh) | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 | |
CN112529177A (zh) | 一种车辆碰撞检测方法及装置 | |
CN109599118A (zh) | 一种鲁棒性的回放语音检测方法 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
Lapidot et al. | Effects of waveform pmf on anti-spoofing detection | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
Du et al. | Dnn feature compensation for noise robust speaker verification | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
CN115293214A (zh) | 一种基于样本扩充网络的水声目标识别模型优化方法 | |
CN108766465A (zh) | 一种基于enf通用背景模型的数字音频篡改盲检测方法 | |
CN114639387A (zh) | 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |
|
RJ01 | Rejection of invention patent application after publication |