CN114639387A - 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 - Google Patents

基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 Download PDF

Info

Publication number
CN114639387A
CN114639387A CN202210221453.1A CN202210221453A CN114639387A CN 114639387 A CN114639387 A CN 114639387A CN 202210221453 A CN202210221453 A CN 202210221453A CN 114639387 A CN114639387 A CN 114639387A
Authority
CN
China
Prior art keywords
spectrogram
voice
sequence
cqt
dct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210221453.1A
Other languages
English (en)
Other versions
CN114639387B (zh
Inventor
陈晨
宋耀祖
代博涵
何勇军
陈德运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210221453.1A priority Critical patent/CN114639387B/zh
Publication of CN114639387A publication Critical patent/CN114639387A/zh
Application granted granted Critical
Publication of CN114639387B publication Critical patent/CN114639387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种声纹欺诈检测方法,将能量谱经由Q‑DCT和Q‑IDCT平滑处理的重构群延迟‑常数Q变换(以下称为RGD‑CQT)语谱图特征进行检测语音欺诈攻击的方法,解决了欺诈语音特征区分性不强及欺诈语音检测系统错误率高的问题。在训练时,先对语音序列进行填充或截取操作,进而将语音序列的每一位与索引序号加一的值进行相乘,获得新的语音序列。将两个语音序列分别进行常数Q变换(CQT,constant Q transform),获得两个语谱图X和Y。分别提取两张语谱图的实部和虚部,对语谱图X进行Q‑DCT和Q‑IDCT,之后进行修改的群延迟的计算,最后进行归一化和取对数得到最终的语谱图。将其作为resnet18+cbam网络的输入;然后通过交叉熵损失和Adam优化器训练出一个最优的网络模型作为用于测试的模型。最终根据网络模型的分数,如果分数大于0则认为是真实语音,反之,则判断为欺诈语音。

Description

基于重构群延迟-常数Q变换语谱图的声纹欺诈检测方法
技术领域
本发明涉及欺诈语音检测领域,尤其涉及特征处理方面。
背景技术
近十年来,基于生物特征进行识别的身份认证技术在日常生活中的作用越来越重要。一些常见的生物特征识别技术,比如指纹识别、人脸识别和声纹识别等,均在多种场景中得到了广泛的应用。然而,任何生物识别系统都存在一定的漏洞,入侵者可以通过模仿和篡改特征等方式对生物识别系统进行欺诈攻击,对生物识别系统的安全性产生了严重的威胁。在生物识别领域,欺诈是指在生物识别系统的传感器上呈现出一个伪造的特征,进而对该系统进行非法攻击。例如,面部识别系统可以被冒认照片欺骗,指纹识别系统可以用塑胶伪造指纹进行欺骗。同理,说话人识别系统也容易受到各种程度的欺诈攻击。
语音技术已经成为人机交互的重要媒介。例如,现代语音助手可以非常方便地控制各种家用设备和应用程序,但这些设备极易受到欺诈语音的攻击。随着语音技术使用的日益广泛,说话人识别系统的安全问题受到越来越多的关注。欺诈攻击可分为四类:模仿、录音回放、语音合成和语音转换,这四种攻击方式都会严重影响说话人识别系统的性能。
在语音回放中,语音信号的时频表示必须要有较高的分辨率才能从特定的频谱区域中更好地提取出真实语音和欺骗语音的区别信息。常数Q变换(Constant Q Transform,CQT)指中心频率按指数规律分布,滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组。该方法对较低的频率给出了较高的频率分辨率,对较高的频率给出了较高的时间分辨率。常作为语音欺骗检测中的声学特征。群延迟图特征(Group Delay Spectrogram,GD-gram)同样在语音欺诈检测领域具有显著的效果,因为其同时包含功率谱和相位谱信息,所以该特征能够使真实语音与欺骗语音的区别体现得更加明显。
现有研究的多种特征,如常数Q倒谱系数、线性频率倒谱系数、基于瞬时频率的耳蜗倒谱系数、单频滤波倒谱系数等特征。均忽视了特征重构的过程。在本专利中,我们用CQT替换GD-gram中的短时傅里叶变换阶段。并对CQT能量谱进行基于常数Q变换修改的离散余弦变换(以下称为Q-DCT)及其逆变换(以下称为Q-IDCT)的特征重构,进而产生最终的重构群延迟-常数Q变换(以下称为RGD-CQT)语谱图特征。
发明内容
针对现有欺诈语音检测方法中忽略特征重构重要性的问题,本发明提供了一种声纹欺诈检测方法。先对语音的CQT语谱图进行Q-DCT和Q-IDCT,再进行群延迟计算,求出最终特征;该特征极大程度的保存了语音信号中的人为因素;最后将该特征传入含有注意力机制的残差网络中,对待测语音进行评分,进而检测出一段语音是否是欺诈语音。
本发明的技术方案是:一种声纹欺诈检测方法,基于CQT修改的离散余弦变换压缩数据和基于CQT语谱图修改的群延迟信息进行检测语音欺诈攻击的方法,主要包括以下步骤:
步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作,使每一个语音序列的长度一致,输出长度为n的语音序列x(n)。
步骤2、将步骤1中读取的语音序列x(n)作为输入,计算y(n)=x(n)×(n+1),n=0,1,...,n。
步骤3、将步骤1和2中获得的序列x(n)和y(n)进行CQT变换,分别求出语谱图X和语谱图Y,然后将获得的语谱图X和语谱图Y分别提取其实部Xr,Yr和虚部Xi,Yi
步骤4、将步骤3中获得的语谱图X取其能量谱,进行特征重构得到新的语谱图。
步骤5、将步骤3和步骤4中获得语谱图进行群延迟的计算,得到中间语谱图。
步骤6、将步骤5中获得的中间语谱图进行归一化、取对数处理,得到RGD-CQT语谱图。
步骤7、将步骤6中获得的RGD-CQT语谱图传入含有注意力机制的残差网络模型中进行训练,得到最优的网络模型。
步骤8、将步骤7中获得的最优网络模型作为测试模型,将待测语音传入该模型中,进而判断该语音是否是欺诈语音。
进一步地,步骤1中所述的预处理操作,是对每一个音频序列进行填充和截取;若序列长度小于规定长度则进行填充操作;若序列长度大于规定长度则进行截取操作,使这些序列的长度一致。
进一步地,步骤3中获取Xr,Yr,Xi,Yi的计算步骤为:1)对x(n)和y(n)分别进行CQT的计算,得到两个语谱图,语谱图X和语谱图Y。2)取出语谱图X的实部Xr和虚部Xi,取出语谱图Y的实部Yr和虚部Yi
进一步地,步骤4中将语谱图X的能量谱进行特征重构的具体过程为:1)首先提取语谱图X的幅度谱Xmag;2)对幅度谱中Xmag每个元素求取平方,求出能量谱S;3)对这个能量谱S进行中值滤波,即把能量谱中每一个像素点的灰度值用该点的一个邻域中各点值的中值代替,从而消除孤立的噪声点。4)最后对能量谱S进行特征重构得到中间语谱图;其中特征重构中的一维Q-DCT推导过程为:
1)原始的CQT公式为:
Figure BDA0003533666840000031
其中,定义加窗后的声音序列为x(n),n=0,1,...,Nk-1,Nk为第k个频率下的采样点数;X(k)为频谱,Q是中心频率与带宽的比。
将长度为n的序列x(n)扩展为原来的2倍,{x[-Nk],x[-Nk+1],...,x[0],x[1],...,x[Nk-1]};
Figure BDA0003533666840000032
其中,x'(m)∈{x[-Nk],x[-Nk+1],...,x[0],x[1],...,x[Nk-1]}。
2)将序列x'(m)向右平移
Figure BDA0003533666840000033
得:
Figure BDA0003533666840000034
3)对公式(3)中的
Figure BDA0003533666840000041
取正数,得到以下形式:
Figure BDA0003533666840000042
4)令
Figure BDA0003533666840000043
得到以下形式:
Figure BDA0003533666840000044
由上述推导过程可知,一维的Q-DCT如(6)式所示:
Figure BDA0003533666840000045
二维的Q-DCT是在一维的基础上,再进行一次Q-DCT,因此二维的Q-DCT公式(7)为:
Figure BDA0003533666840000046
其中,
Figure BDA0003533666840000047
Figure BDA0003533666840000048
分别时域和频域的采样点数。二维的Q-DCT计算可以看作是能量谱S分别左乘矩阵A和右乘矩阵B,得到新的语谱图Xdct,即Xdct=AXmagB;然后对Xdct进行逆变换,即左乘A-1和右乘B-1,得到中间语谱图X,即X=A-1XdctB-1
进一步地,步骤5中计算群延迟特征,得到GD语谱图,具体的计算公式为:
Figure BDA0003533666840000049
进一步地,步骤6中对群延迟特征进行归一化、取对数,具体计算过程为:1)对GD语谱图中的元素进行归一化,得到新的语谱MGD,计算公式为:
Figure BDA00035336668400000410
2)求出MGD语谱图中最大的元素max,再对MGD语谱图中的每个元素都除以语谱图中的最大值max,得到新的语谱图MGDmax,即
Figure BDA0003533666840000051
3)对语谱图MGDmax取对数,获得最终的特征RGD-CQT语谱图。
附图说明
图1:为根据本发明一些实施例的欺诈信号检测方法的流程图;
图2:为本发明中特征提取步骤具体过程示意图;
图3:为本发明中训练模型的网络结构图;
图4:为本发明方法在不同训练次数时对应的EER变化曲线图。
具体实施方式
下面将通过结合附图,对本发明中的技术方案进行详细清楚的描述,所描述的实施特例仅是本发明的一部分实施例。
实施例:
本发明是一种基于重构群延迟-常数Q变换(RGD-CQT)语谱图的声纹欺诈检测方法,该方法包含以下步骤:
步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作,使每一个语音序列的长度一致。
步骤2、将步骤1中读取的语音序列x(n)中的每个元素都乘上其下标加1,得到一个新的序列y(n)。
步骤3、将步骤2中获得的序列x(n)和y(n)进行CQT变换,分别求出语谱图X和语谱图Y,然后将获得的语谱图X和语谱图Y分别提取其实部Xr,Yr和虚部Xi,Yi.
步骤4、将步骤3中获得的语谱图X的能量谱S进行特征重构,得到新的语谱图。
步骤5、将步骤3和步骤4中获得语谱图进行群延迟的计算,得到中间语谱图。
步骤6、将步骤5中获得的中间语谱图进行归一化、取对数,得到最终的RGD-CQT特征。
步骤7、将步骤6中获得的最终特征传入含有注意力机制的残差网络模型中进行训练,得到最优的网络模型。
步骤8、将步骤7中获得的最优网络模型作为测试模型,将待测语音传入该模型中,进而判断该语音是否是欺诈语音。
在本实施例中,所述步骤1的具体过程为:
步骤1-1、读取数据集中的录音文件,得到相应的语音序列x(n),其中,录音文件的采样率为16000Hz。
步骤1-2、对每一条语音序列进行填充和截取操作,使所有语音序列统一为固定长度,统一的固定长度为64000。
在本实施例中,所述步骤2的具体过程为:
步骤2-1、生成1到64000的序列len。
步骤2-2、将x(n)与序列len进行点乘,得到新的序列y(n)。
在本实施例中,所述步骤3的具体过程为:
步骤3-1、将序列x(n)和序列y(n)进行常数Q变换,得到语谱图X和语谱图Y,两个语谱图的维度均为251×192。
步骤3-2、提取语谱图X的实部Xr和虚部Xi,提取语谱图Y的实部Yr和虚部Yi。其中,Xr,Xi,Yr,Yi的维度均为251×192。
在本实施例中,所述步骤4的具体过程为:
步骤4-1、先求出上述CQT语谱图X的幅度谱Xmag,然后对该幅度谱Xmag进行中值滤波,把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替,让周围的像素值接近真实值,从而消除孤立的噪声点。
步骤4-2、中值滤波后,对幅度谱进行平方,得到能量谱S,最后进行特征重构,得到平滑后的新的能量谱S。
在本实施例中,所述步骤5的具体过程为:
步骤5-1、利用上述的矩阵Xr,Xi,Yr,Yi,S进行群延迟计算,具体计算步骤为:
Figure BDA0003533666840000061
Figure BDA0003533666840000071
最终,求得中间语谱图MGD。
在本实施例中,所述步骤6的具体过程为:
步骤6-1、求出中间语谱图MGD中的最大值max,将MGD中的每个元素除以max,对MGD语谱图进行归一化。
步骤6-2、对归一化后的MGD语谱图取对数,获得最终的特征。该特征的维度为251×192。
在本实施例中,所述步骤7的具体过程为:
将步骤6中获得的特征,传入到含有注意力机制的残差网络中进行训练,获得性能最优的模型作为测试模型。
在本实施例中,所述步骤8的具体过程为:
将测试语音传入到步骤7中获得的模型中,计算得分,若得分大于0则判断测试语音是真实语音,反之,则为虚假语音。
实验结果:
(1)对比本专利所提出的RGD-CQT与其他方法的检测性能,对其进行定量分析。对比将从前端声学特征和后端模型展开,对比方法除了常数Q倒谱系数和高斯混合模型(CQCC+GMM)、线性频率倒谱系数和高斯混合模型(LFCC+GMM)外,前端声学特征还选择了CQCC特征拼接的段级特征、CQT语谱图、MGD语谱图。网络模型则选择了不包含注意力机制的ResNet-18与包含注意力机制的ResNet-18+CBAM。网络的目标函数采用交叉熵函数,优化器采用自适应矩估计(Adam,adaptive moment estimation)算法。根据上述实验设置,不同方法对应的系统性能情况如表1所示。根据表1可以看出:
(1)在开发集上,本文所提出方法RGD-CQT+ResNet-18+CBAM能够优于大多数方法,相对EER最多降低了90.8%。
(2)在评估集上,RGD-CQT特征的性能优于其他对比特征。当加入CBAM注意力机制后,性能能够有进一步的提升,相对EER最多降低了65.3%,这从性能上验证了本专利所提出方法的有效性。
(3)CQCC、CQT特征均在开发集具有理想性能,但在具有集外数据的评估集上性能不佳。与上述二者相比,RGD-CQT特征在开发集与评估集上均能取得较为理想性能,因此更适用于可能面对未知攻击的现实应用系统。。
表1:不同方法的性能对比
Figure BDA0003533666840000081
(2)本发明的重点是对经过CQT变换的特征,进一步提取有用信息,进而提高系统的性能。
(3)本发明通过对语音信号语谱图的分析,发现群延迟语谱图特征中包含能够明显判断欺诈语音的信息;其中,对语音的幅度谱进行特征提取,能够进一步提高系统性能,并且容易实现。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。因此,凡依据本发明所揭示的原理、思路所作的等同变化,仍属于本发明的保护范围之内。

Claims (1)

1.一种声纹欺诈检测方法,基于CQT修改的离散余弦变换压缩数据和基于CQT语谱图修改的群延迟信息进行检测语音欺诈攻击的方法,主要包括以下步骤:
步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作,使每一个语音序列的长度一致,输出长度为n的语音序列x(n)。
步骤2、将步骤1中读取的语音序列x(n)作为输入,计算y(n)=x(n)×(n+1),n=0,1,...,n。
步骤3、将步骤1和2中获得的序列x(n)和y(n)进行CQT变换,分别求出语谱图X和语谱图Y,然后将获得的语谱图X和语谱图Y分别提取其实部Xr,Yr和虚部Xi,Yi
步骤4、将步骤3中获得的语谱图X取其能量谱,进行特征重构得到新的语谱图。
步骤5、将步骤3和步骤4中获得语谱图进行群延迟的计算,得到中间语谱图。
步骤6、将步骤5中获得的中间语谱图进行归一化、取对数处理,得到RGD-CQT语谱图。
步骤7、将步骤6中获得的RGD-CQT语谱图传入含有注意力机制的残差网络模型中进行训练,得到最优的网络模型。
步骤8、将步骤7中获得的最优网络模型作为测试模型,将待测语音传入该模型中,进而判断该语音是否是欺诈语音。
进一步地,步骤1中所述的预处理操作,是对每一个音频序列进行填充和截取;若序列长度小于规定长度则进行填充操作;若序列长度大于规定长度则进行截取操作,使这些序列的长度一致。
进一步地,步骤3中获取Xr,Yr,Xi,Yi的计算步骤为:1)对x(n)和y(n)分别进行CQT的计算,得到两个语谱图,语谱图X和语谱图Y。2)取出语谱图X的实部Xr和虚部Xi,取出语谱图Y的实部Yr和虚部Yi
进一步地,步骤4中将语谱图X的能量谱进行特征重构的具体过程为:1)首先提取语谱图X的幅度谱Xmag;2)对幅度谱中Xmag每个元素求取平方,求出能量谱S;3)对这个能量谱S进行中值滤波,即把能量谱中每一个像素点的灰度值用该点的一个邻域中各点值的中值代替,从而消除孤立的噪声点。4)最后对能量谱S进行特征重构得到中间语谱图;其中特征重构中的一维Q-DCT推导过程为:
1)原始的CQT公式为:
Figure FDA0003533666830000021
其中,定义加窗后的声音序列为x(n),n=0,1,...,Nk-1,Nk为第k个频率下的采样点数;X(k)为频谱,Q是中心频率与带宽的比。
将长度为n的序列x(n)扩展为原来的2倍,{x[-Nk],x[-Nk+1],...,x[0],x[1],...,x[Nk-1]};
Figure FDA0003533666830000022
其中,x'(m)∈{x[-Nk],x[-Nk+1],...,x[0],x[1],...,x[Nk-1]}。
2)将序列x'(m)向右平移
Figure FDA0003533666830000023
得:
Figure FDA0003533666830000024
3)对公式(3)中的
Figure FDA0003533666830000025
取正数,得到以下形式:
Figure FDA0003533666830000026
4)令
Figure FDA0003533666830000027
得到以下形式:
Figure FDA0003533666830000028
由上述推导过程可知,一维的Q-DCT如(6)式所示:
Figure FDA0003533666830000031
二维的Q-DCT是在一维的基础上,再进行一次Q-DCT,因此二维的Q-DCT公式(7)为:
Figure FDA0003533666830000032
其中,
Figure FDA0003533666830000033
Figure FDA0003533666830000034
分别时域和频域的采样点数。二维的Q-DCT计算可以看作是能量谱S分别左乘矩阵A和右乘矩阵B,得到新的语谱图Xdct,即Xdct=AXmagB;然后对Xdct进行逆变换,即左乘A-1和右乘B-1,得到中间语谱图X,即X=A-1XdctB-1
进一步地,步骤5中计算群延迟特征,得到GD语谱图,具体的计算公式为:
Figure FDA0003533666830000035
进一步地,步骤6中对群延迟特征进行归一化、取对数,具体计算过程为:1)对GD语谱图中的元素进行归一化,得到新的语谱MGD,计算公式为:
Figure FDA0003533666830000036
2)求出MGD语谱图中最大的元素max,再对MGD语谱图中的每个元素都除以语谱图中的最大值max,得到新的语谱图MGDmax,即
Figure FDA0003533666830000037
3)对语谱图MGDmax取对数,获得最终的特征RGD-CQT语谱图。
CN202210221453.1A 2022-03-07 2022-03-07 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 Active CN114639387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221453.1A CN114639387B (zh) 2022-03-07 2022-03-07 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221453.1A CN114639387B (zh) 2022-03-07 2022-03-07 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法

Publications (2)

Publication Number Publication Date
CN114639387A true CN114639387A (zh) 2022-06-17
CN114639387B CN114639387B (zh) 2024-09-10

Family

ID=81947394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221453.1A Active CN114639387B (zh) 2022-03-07 2022-03-07 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法

Country Status (1)

Country Link
CN (1) CN114639387B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910073A (zh) * 2022-09-27 2023-04-04 哈尔滨理工大学 基于双向注意力残差网络的语音欺诈检测方法
CN117854535A (zh) * 2024-03-08 2024-04-09 中国海洋大学 基于交叉注意力的视听语音增强方法及其模型搭建方法
CN118072765A (zh) * 2024-04-24 2024-05-24 合众新能源汽车股份有限公司 一种人机交互判定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180261227A1 (en) * 2017-03-07 2018-09-13 Raphael Blouet Methods and systems for determining user liveness
CN109841219A (zh) * 2019-03-15 2019-06-04 慧言科技(天津)有限公司 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN110415722A (zh) * 2019-07-25 2019-11-05 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN111611566A (zh) * 2020-05-12 2020-09-01 珠海造极声音科技有限公司 一种说话人验证系统及其重放攻击检测方法
CN113436646A (zh) * 2021-06-10 2021-09-24 杭州电子科技大学 一种采用联合特征与随机森林的伪装语音检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180261227A1 (en) * 2017-03-07 2018-09-13 Raphael Blouet Methods and systems for determining user liveness
CN109841219A (zh) * 2019-03-15 2019-06-04 慧言科技(天津)有限公司 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN110415722A (zh) * 2019-07-25 2019-11-05 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN111611566A (zh) * 2020-05-12 2020-09-01 珠海造极声音科技有限公司 一种说话人验证系统及其重放攻击检测方法
CN113436646A (zh) * 2021-06-10 2021-09-24 杭州电子科技大学 一种采用联合特征与随机森林的伪装语音检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JICHEN YANG,等: "Extended Constant-Q Cepstral Coefficients for Detection of Spoofing Attacks", 《 2018 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)》, 7 March 2019 (2019-03-07) *
MOUSTAFA ALZANTOT,等: "Deep Residual Neural Networks for Audio Spoofing Detection", 《INTERSPEECH 2019》, 19 September 2019 (2019-09-19) *
XINGLIANG CHENG,等: "Replay detection using CQT-based modified group delay feature and ResNeWt network in ASVspoof 2019", 《 2019 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)》, 5 March 2020 (2020-03-05) *
任延珍,等: "语音伪造及检测技术研究综述", 《信号处理》, 15 October 2021 (2021-10-15) *
宋耀祖: "声纹欺诈检测中欺诈线索表示方法研究", 《中国优秀硕士学位论文全文数据库》, 15 January 2024 (2024-01-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910073A (zh) * 2022-09-27 2023-04-04 哈尔滨理工大学 基于双向注意力残差网络的语音欺诈检测方法
CN115910073B (zh) * 2022-09-27 2024-09-20 哈尔滨理工大学 基于双向注意力残差网络的语音欺诈检测方法
CN117854535A (zh) * 2024-03-08 2024-04-09 中国海洋大学 基于交叉注意力的视听语音增强方法及其模型搭建方法
CN117854535B (zh) * 2024-03-08 2024-05-07 中国海洋大学 基于交叉注意力的视听语音增强方法及其模型搭建方法
CN118072765A (zh) * 2024-04-24 2024-05-24 合众新能源汽车股份有限公司 一种人机交互判定方法及装置

Also Published As

Publication number Publication date
CN114639387B (zh) 2024-09-10

Similar Documents

Publication Publication Date Title
Chen et al. Who is real bob? adversarial attacks on speaker recognition systems
CN114639387B (zh) 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN108986824B (zh) 一种回放语音检测方法
Alegre et al. On the vulnerability of automatic speaker recognition to spoofing attacks with artificial signals
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
Chen et al. Towards understanding and mitigating audio adversarial examples for speaker recognition
CN103236260A (zh) 语音识别系统
Wu et al. Voting for the right answer: Adversarial defense for speaker verification
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN109243487A (zh) 一种归一化常q倒谱特征的回放语音检测方法
Wu et al. Adversarial sample detection for speaker verification by neural vocoders
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
CN109841219A (zh) 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN109920447B (zh) 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN115331686A (zh) 基于联合训练的噪声鲁棒伪造语音检测系统及其方法
CN114640518B (zh) 一种基于音频隐写的个性化触发器后门攻击方法
Zhao et al. Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification
Zhang et al. A highly stealthy adaptive decay attack against speaker recognition
Alegre et al. Evasion and obfuscation in automatic speaker verification
CN112349267A (zh) 基于注意力机制特征的合成语音检测方法
Ye et al. Detection of replay attack based on normalized constant q cepstral feature
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
Cheng et al. Cross-Database Replay Detection in Terminal-Dependent Speaker Verification.
CN116434774A (zh) 语音识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant