CN110299141A - 一种声纹识别中录音回放攻击检测的声学特征提取方法 - Google Patents

一种声纹识别中录音回放攻击检测的声学特征提取方法 Download PDF

Info

Publication number
CN110299141A
CN110299141A CN201910598714.XA CN201910598714A CN110299141A CN 110299141 A CN110299141 A CN 110299141A CN 201910598714 A CN201910598714 A CN 201910598714A CN 110299141 A CN110299141 A CN 110299141A
Authority
CN
China
Prior art keywords
frequency
voice signal
frame
recording
replay attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910598714.XA
Other languages
English (en)
Other versions
CN110299141B (zh
Inventor
俞一彪
郭星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Enterprise Information Technology Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910598714.XA priority Critical patent/CN110299141B/zh
Publication of CN110299141A publication Critical patent/CN110299141A/zh
Application granted granted Critical
Publication of CN110299141B publication Critical patent/CN110299141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种声纹识别中录音回放攻击检测的声学特征提取方法,该方法包括:对输入语音进行预处理;对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;计算傅里叶变换后的每一帧语音信号的谱线能量;根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。本发明通过非对称双曲正弦频率尺度变换规定了语音频谱信息的有效利用方法,强化了原始语音与录音回放攻击语音的信道差异,可以提高录音回放攻击检测的性能。

Description

一种声纹识别中录音回放攻击检测的声学特征提取方法
技术领域
本发明涉及声学信号处理技术领域,特别涉及一种声纹识别中录音回放攻击检测的声学特征提取方法。
背景技术
声纹识别是一种基于生物特征的身份识别技术,可以通过说话人的语音特征鉴别说话人的身份,具有便捷、非接触、非易失性以及采集设备简单等特点,有望成为人脸识别之外另一种被普遍应用的生物特征身份识别技术。但声纹识别系统的安全应用必须解决仿冒攻击的问题,包括语音合成仿冒攻击和录音回放仿冒攻击两大类,由于录音回放语音与原始语音的高度相似性,因此最大的挑战是录音回放攻击。
早期录音回放攻击检测由于缺乏公开的大语料数据库和基线系统,研发人员很难开展有效的研究工作并将自己的实验结果同他人的实验结果进行比较,因此录音回放攻击检测的相关研究长期处于停滞状态。2017年国际语音通信协会(ISCA)组织了ASVspoof国际挑战赛,主要针对声纹识别中录音回放攻击检测技术进行研究和交流,它提供了三个标准大语料数据库、基线系统和通用评估标准。在ASVspoof数据库上,各国研究人员提出了诸多方法提升录音回放攻击检测的性能并取得了一些进展,但在检测性能和实时性方面仍然需要提高。
语音识别中常用的声学特征是语音频谱特征,主要有线性预测倒谱系数(LPCC,Linear Prediction Cepstrum Cofficients)和美尔频率倒谱系数(MFCC,Mel-FrequencyCepstrum Cofficents)等,这些特征参数较好地表达了语音的频谱包络结构,也一定程度上反映了人类听觉系统的特点。这些特征参数可以用于录音回放攻击检测,但由于原始语音与录音回放语音在频谱包络结构上的高度相似性,以及录音回放攻击检测需要具有超越人类鉴别能力的水平,因此这些特征参数在实验中所表现出的性能一般。
现有特征提取方法中,语音频谱的特征信息没有得到充分提取和利用,影响了攻击检测性能。无论LPCC、MFCC,还是CQCC(常数Q倒谱系数,Constant Q CepstralCoefficients),都是采用了强化低频段频谱信息的方法。例如,CQCC使用了常数Q变换,该变换的频域采样点随频率呈现指数分布,低频段频率分辨率远远高于高频段频率分辨率,所以CQCC特征主要包含语音频谱低频段信息,弱化了语音频谱高频段的信息。而实际上,录音回放攻击语音与原始语音相比,由于存在录音和回放这两个额外过程,录音设备和回放设备的频响特性是非均匀的,使得其频谱在低频段和高频段都会不同程度地出现衰减或畸变现象,因此仅仅强调低频段频谱信息是不充分的。
发明内容
针对现有技术的不足,本发明目的在于提供一种能够提取更全面、有效的声学特征,提升录音回放攻击检测性能的声学特征提取方法。其采用如下技术方案:
一种声纹识别中录音回放攻击检测的声学特征提取方法,其包括以下步骤:
S10、对输入语音进行预处理;
S20、对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;
S30、计算傅里叶变换后的每一帧语音信号的谱线能量;
S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;
S50、对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;
S60、对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。
作为本发明的进一步改进,所述步骤S10中的预处理包括分帧、加窗和去噪。
作为本发明的进一步改进,所述步骤S10具体包括:
S11、对输入语音信号x(n)进行分帧,将语音信号分割成帧长为N的多个语音帧,相邻两帧之间有重叠,帧移为L;
S12、对分帧后的每一帧语音信号x(i,n)加窗,用窗长为N的汉明窗乘每一帧语音信号,得到加窗后的语音帧计算公式如下:
S13、计算每一帧的短时能量SE(i),将SE(i)小于一定阈值θSE的帧作为背景噪声消除,得到消除背景噪声之后的纯输入语音信号,计算公式如下:
作为本发明的进一步改进,阈值θSE根据应用场合的背景噪声短时能量平均值的二倍设置。
作为本发明的进一步改进,所述步骤S20具体包括:
根据离散傅里叶变换公式,采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号傅里叶变换公式如下:
其中,k表示频域中的第k条谱线。
作为本发明的进一步改进,所述步骤S40具体包括:
步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围,在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器;
步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换,计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组,得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值,得到每个滤波器的幅频响应;
步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。
作为本发明的进一步改进,所述非对称双曲正弦频率尺度变换公式为:
其中,f是原始频率,Fsinh是双曲正弦频率,两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换,参数3750控制变换的中心频率。
作为本发明的进一步改进,所述相邻滤波器中心频率与边界频率之间关系具体包括:
fc(l)=flo(l+1)=fhi(l-1),l=1~L
flo(1)=0
fhi(L)=Fsinh(fs/2)
其中,fc(l)表示第l个滤波器的中心频率,fs表示采样频率,flo(l)表示第l个滤波器的低频边界频率,fhi(l)表示第l个滤波器的高频边界频率,L表示滤波器个数。
作为本发明的进一步改进,所述步骤S43具体包括:
在频域中将每一帧语音信号能量谱与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值Sw(i,l),计算公式如下:
作为本发明的进一步改进,所述步骤60中离散余弦变换的公式为:
作为本发明的进一步改进,所述标记点的数量不少于四。
本发明的有益效果:
(1)本发明通过非对称双曲正弦频率尺度变换(HSFT)规定了语音频谱信息的有效利用方法,强化了原始语音与录音回放攻击语音的信道差异,克服了现有技术的不足,可以提高录音回放攻击检测的性能。
(2)本发明通过非对称双曲正弦频率尺度变换滤波计算得到双曲正弦倒谱系数HSCC,相对现有CQCC和MFCC特征参数,不仅充分利用了低频段的频谱信息,同时充分利用了高频段的频谱信息,有利于提高攻击检测性能。
(3)本发明双曲正弦倒谱系数HSCC的提取中,非对称双曲正弦频率尺度变换滤波器组可以事先确定,没有重采样,相对现有方法降低了计算复杂度,缩短了提取特征所需的时间。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明中实施例中声纹识别中录音回放攻击检测的声学特征提取方法的示意图;
图2是本发明实施例中非对称双曲正弦频率尺度变换的频率映射曲线图;
图3是本发明实施例中构建的非对称双曲正弦频率尺度变换滤波器组的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例
如图1所示,为本发明实施例中声纹识别中录音回放攻击检测的声学特征提取方法,该方法包括以下步骤:
S10、对输入语音进行预处理;
步骤S10中的预处理包括分帧、加窗和去噪,步骤S10具体包括以下步骤:
S11、对输入语音信号x(n)进行分帧,将语音信号分割成帧长为N(实际可选1024)的多个语音帧,相邻两帧之间有重叠,帧移为L(实际可选256);
S12、对分帧后的每一帧语音信号x(i,n)加窗,用窗长为N的汉明窗乘每一帧语音信号,得到加窗后的语音帧计算公式如下:
S13、计算每一帧的短时能量SE(i),将SE(i)小于一定阈值θSE的帧作为背景噪声消除,阈值θSE根据应用场合的背景噪声短时能量平均值的二倍设置。得到消除背景噪声之后的纯输入语音信号,计算公式如下:
S20、对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;
具体的:根据离散傅里叶变换公式,采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号傅里叶变换公式如下:
其中,k表示频域中的第k条谱线。
S30、计算傅里叶变换后的每一帧语音信号的谱线能量;
具体的,根据公式Ew(i,k)=|Xw(i,k)|2,k=0~N计算每一帧语音信号的谱线能量,其中,谱线能量是幅度谱的平方。
S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;
其中,通过非对称双曲正弦频率尺度变换(HSFT,asymmetric HyperbolicSinusoidalFrequency scale Transform)将原始频率映射到双曲正弦频率。HSFT将原始频率的低频和高频段进行了非线性扩张,而中频段进行了压缩,从而提高了高低两个频段的频率分辨率,既全面利用了语音的频谱信息,又强化了语音频谱中高低频段的特征信息。
具体的,非对称双曲正弦频率尺度变换公式为:
其中,f是原始频率,Fsinh是双曲正弦频率,两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换,参数3750控制变换的中心频率。
如图2所示,为非对称双曲正弦频率尺度变换的频率映射曲线图。
具体的,步骤S40包括以下步骤:
步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围,在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器;
其中,在新的双曲正弦频率尺度分布范围内等间隔地选取L(实际可选取48)个中心频率值,采样频率fs=16KHz,并以这些中心频率设置等宽三角形滤波器构成三角形滤波器组。
具体的,相邻滤波器中心频率与边界频率之间关系公式如下:
fc(l)=flo(l+1)=fhi(l-1),l=1~L
flo(1)=0
fhi(L)=Fsinh(fs/2)
其中,fc(l)表示第l个滤波器的中心频率,fs表示采样频率,flo(l)表示第l个滤波器的低频边界频率,fhi(l)表示第l个滤波器的高频边界频率,L表示滤波器个数。
步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换,计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组,得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值,得到每个滤波器的幅频响应,完成构建非对称双曲正弦频率尺度变换滤波器组。如图3所示,为构建的非对称双曲正弦频率尺度变换滤波器组,其中各个三角形滤波器宽度不等。
步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。
具体的,步骤S43具体包括:
在频域中将每一帧语音信号的谱线能量与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值Sw(i,l),计算公式如下:
实际计算时,非对称双曲正弦频率尺度变换滤波器组是可以预先确定的,每一个滤波器的幅频响应也是预先确定的,不需要重复计算。
S50、对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;
其中,原始频谱可视为由频谱细节和频谱包络组成,将滤波器的输出值进行对数变换后得到可将乘性信号转换为加性信号,有利于分离频谱细节和频谱包络。
S60、对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。
其中,离散余弦变换有很好的能量集中性,仅用几个变换系数就可以代表信号能量。将以上滤波器组对数输出值进行离散余弦变换,便得到双曲正弦倒谱系数。
具体的,步骤60中离散余弦变换的公式为:
接着,我们使用ASVSpoof 2017 2.0数据库中的训练集样本(包含10个说话人,1508条原始语音,1508条录音回放语音)和评估集样本(包含24个说话人,1298条正常原始语音,12008条录音回放语音)作为训练语音和测试语音,其中,将将输入语音分割成帧长为1024的语音帧,帧移为256,使用窗长为1024的汉明窗乘每一帧语音信号,录音回放攻击检测实验及结果介绍如下。
模型训练
训练集中的原始正常语音样本和录音回放语音样本被用于模型训练。这些语音通过上述特征提取方法提取双曲正弦倒谱系数HSCC,然后作为特征参数分别用于训练64分量原始语音高斯混合模型GMMgenuine和64分量录音回放攻击语音高斯混合模型GMMspoof。其中,训练高斯混合模型采用最大期望(EM)算法进行。
系统测试
测试集中的语音样本被用于系统性能测试。这些语音通过非对称双曲正弦频率尺度变换滤波提取双曲正弦倒谱系数HSCC,然后分别计算两个模型GMMgenuine和GMMspoof的似然度,得到由对数似然比表示的输入语音得分,如公式如下:
score=LL(GMMgenuine)-LL(GMMspoof)
其中,LL(GMMgenuine)和LL(GMMspoof)分别为测试语音对于原始语音模型和录音回放攻击语音模型的平均对数似然度。输入语音得分越高,表示其为原始语音的可能性越高,反之越低。
检测判决根据对数似然比得分score与阈值θs的大小关系进行,判决规则公式如下:
其中,检测判决可能存在两类错误,一种是把录音回放攻击语音判决为原始语音,称错误接受;另一种是把原始语音判决为录音回放攻击语音,称错误拒绝。错误接受率(FAR,false Accept Rate)和错误拒绝率(FRR,False Reject Rate)是两个重要性能指标,与阈值θs有关,其值越大FRR越大而FAR越小,反之其值越小FAR越大而FRR越小。等错误率(EER,Equal Error Rate)是指FAR与FRR相同时的错误率,反映系统的综合性能,该指标值越低说明检测性能越好。EER也是2017年ASVSpoof挑战赛中用于衡量录音回放攻击检测性能的唯一标准。
双曲正弦倒谱系数特征HSCC与CQCC特征(基线系统)在相同条件下测试得到的录音回放攻击检测比较结果如表1示。
表1:录音回放攻击检测比较结果
特征 双曲正弦倒谱系数HSCC CQCC(基线系统)
EER 23.99% 30.69%
从表1中可以看出在录音回放攻击检测中,基于非对称双曲正弦频率尺度变换滤波的HSCC特征提取方法性能明显优于CQCC特征提取方法。
本发明通过非对称双曲正弦频率尺度变换(HSFT)规定了语音频谱信息的有效利用方法,强化了原始语音与录音回放攻击语音的信道差异,克服了现有技术的不足,可以提高录音回放攻击检测的性能。
本发明通过非对称双曲正弦频率尺度变换滤波计算得到双曲正弦倒谱系数HSCC,相对现有CQCC和MFCC特征参数,不仅充分利用了低频段的频谱信息,同时充分利用了高频段的频谱信息,有利于提高攻击检测性能。
本发明双曲正弦倒谱系数HSCC的提取中,非对称双曲正弦频率尺度变换滤波器组可以事先确定,没有重采样,相对现有方法降低了计算复杂度,缩短了提取特征所需的时间。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,包括以下步骤:
S10、对输入语音进行预处理;
S20、对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;
S30、计算傅里叶变换后的每一帧语音信号的谱线能量;
S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;
S50、对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;
S60、对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。
2.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S10中的预处理包括分帧、加窗和去噪。
3.如权利要求2所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S10具体包括:
S11、对输入语音信号x(n)进行分帧,将语音信号分割成帧长为N的多个语音帧,相邻两帧之间有重叠,帧移为L;
S12、对分帧后的每一帧语音信号x(i,n)加窗,用窗长为N的汉明窗乘每一帧语音信号,得到加窗后的语音帧xw(i,n),计算公式如下:
S13、计算每一帧的短时能量SE(i,将SE(i)小于一定阈值θSE的帧作为背景噪声消除,得到消除背景噪声之后的纯输入语音信号,计算公式如下二
4.如权利要求3所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述阈值θSE根据应用场合的背景噪声短时能量平均值的二倍设置。
5.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S20具体包括:
根据离散傅里叶变换公式,采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号Xw(i,k),傅里叶变换公式如下:
其中,k表示频域中的第k条谱线。
6.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S40具体包括:
步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围,在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器;
步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换,计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组,得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值,得到每个滤波器的幅频响应;
步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。
7.如权利要求6所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述非对称双曲正弦频率尺度变换公式为:
其中,f是原始频率,Fsinh是双曲正弦频率,两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换,参数3750控制变换的中心频率。
8.如权利要求7所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述相邻滤波器中心频率与边界频率之间关系具体包括:
fc(l)=flo(l+1)=fhi(l-1),l=1~L
flo(1)=0
fhi(L)=Fsinh(fs/2)
其中,fc(l)表示第l个滤波器的中心频率,fs表示采样频率,flo(l)表示第l个滤波器的低频边界频率,fhi(l)表示第l个滤波器的高频边界频率,L表示滤波器个数。
9.如权利要求8所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S43具体包括:
在频域中将每一帧语音信号能量谱Ew(i,k),与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值Sw(i,l),计算公式如下:
10.如权利要求9所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤60中离散余弦变换的公式为:
CN201910598714.XA 2019-07-04 2019-07-04 一种声纹识别中录音回放攻击检测的声学特征提取方法 Active CN110299141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598714.XA CN110299141B (zh) 2019-07-04 2019-07-04 一种声纹识别中录音回放攻击检测的声学特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598714.XA CN110299141B (zh) 2019-07-04 2019-07-04 一种声纹识别中录音回放攻击检测的声学特征提取方法

Publications (2)

Publication Number Publication Date
CN110299141A true CN110299141A (zh) 2019-10-01
CN110299141B CN110299141B (zh) 2021-07-13

Family

ID=68030183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598714.XA Active CN110299141B (zh) 2019-07-04 2019-07-04 一种声纹识别中录音回放攻击检测的声学特征提取方法

Country Status (1)

Country Link
CN (1) CN110299141B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法
CN111275858A (zh) * 2020-01-22 2020-06-12 广东快车科技股份有限公司 一种声纹识别的授信方法及系统
CN112581975A (zh) * 2020-12-11 2021-03-30 中国科学技术大学 基于信号混叠和双声道相关性的超声波语音指令防御方法
CN112927694A (zh) * 2021-03-08 2021-06-08 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN114664316A (zh) * 2022-05-17 2022-06-24 深圳市盛天龙视听科技有限公司 基于自动拾音的音频修复方法、装置、设备及介质
CN114822587A (zh) * 2021-01-19 2022-07-29 四川大学 一种基于常数q变换的音频特征压缩方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254161A (zh) * 2011-07-15 2011-11-23 王世峰 基于路面轮廓及路面图像特征的路面类型识别方法及装置
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
JP5243075B2 (ja) * 2008-03-27 2013-07-24 株式会社ユニバーサルエンターテインメント 遊技機
US9928842B1 (en) * 2016-09-23 2018-03-27 Apple Inc. Ambience extraction from stereo signals based on least-squares approach
CN109613826A (zh) * 2018-12-17 2019-04-12 重庆航天职业技术学院 一种分数阶拱形mems谐振器的反振荡自适应控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5243075B2 (ja) * 2008-03-27 2013-07-24 株式会社ユニバーサルエンターテインメント 遊技機
CN102254161A (zh) * 2011-07-15 2011-11-23 王世峰 基于路面轮廓及路面图像特征的路面类型识别方法及装置
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US9928842B1 (en) * 2016-09-23 2018-03-27 Apple Inc. Ambience extraction from stereo signals based on least-squares approach
CN109613826A (zh) * 2018-12-17 2019-04-12 重庆航天职业技术学院 一种分数阶拱形mems谐振器的反振荡自适应控制方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法
CN111275858A (zh) * 2020-01-22 2020-06-12 广东快车科技股份有限公司 一种声纹识别的授信方法及系统
CN112581975A (zh) * 2020-12-11 2021-03-30 中国科学技术大学 基于信号混叠和双声道相关性的超声波语音指令防御方法
CN112581975B (zh) * 2020-12-11 2024-05-17 中国科学技术大学 基于信号混叠和双声道相关性的超声波语音指令防御方法
CN114822587A (zh) * 2021-01-19 2022-07-29 四川大学 一种基于常数q变换的音频特征压缩方法
CN112927694A (zh) * 2021-03-08 2021-06-08 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN112927694B (zh) * 2021-03-08 2022-09-13 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN114664316A (zh) * 2022-05-17 2022-06-24 深圳市盛天龙视听科技有限公司 基于自动拾音的音频修复方法、装置、设备及介质
CN114664316B (zh) * 2022-05-17 2022-10-04 深圳市盛天龙视听科技有限公司 基于自动拾音的音频修复方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110299141B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN110299141A (zh) 一种声纹识别中录音回放攻击检测的声学特征提取方法
CN106847292B (zh) 声纹识别方法及装置
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
Dhingra et al. Isolated speech recognition using MFCC and DTW
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN105825852A (zh) 一种英语口语朗读考试评分方法
US20090326942A1 (en) Methods of identification using voice sound analysis
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN102968990B (zh) 说话人识别方法和系统
CN108896878A (zh) 一种基于超声波的局部放电检测方法
CN108198545B (zh) 一种基于小波变换的语音识别方法
CN104221079B (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN112542174A (zh) 基于vad的多维特征参数声纹识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
AboElenein et al. Improved text-independent speaker identification system for real time applications
Singh et al. Preliminary analysis of cough sounds
CN104778948A (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Kumar et al. Text dependent speaker identification in noisy environment
Prajapati et al. Feature extraction of isolated gujarati digits with mel frequency cepstral coefficients (mfccs)
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法
CN112908343B (zh) 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统
Suwannakhun et al. Characterizing depressive related speech with MFCC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220728

Address after: 230000 Room 203, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Hefei Jiuzhou Longteng scientific and technological achievement transformation Co.,Ltd.

Address before: No. 188, Shihu West Road, Wuzhong District, Suzhou City, Jiangsu Province, 215168

Patentee before: SOOCHOW University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230927

Address after: 201100 room 1001, 1st floor, building B, 555 Dongchuan Road, Minhang District, Shanghai

Patentee after: Shanghai Enterprise Information Technology Co.,Ltd.

Address before: 230000 Room 203, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Hefei Jiuzhou Longteng scientific and technological achievement transformation Co.,Ltd.

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An acoustic feature extraction method for recording playback attack detection in voiceprint recognition

Granted publication date: 20210713

Pledgee: Agricultural Bank of China Limited Shanghai Huangpu Sub branch

Pledgor: Shanghai Enterprise Information Technology Co.,Ltd.

Registration number: Y2024310000041

PE01 Entry into force of the registration of the contract for pledge of patent right