CN117153190B - 基于注意力机制组合特征的回放语音检测方法 - Google Patents

基于注意力机制组合特征的回放语音检测方法 Download PDF

Info

Publication number
CN117153190B
CN117153190B CN202311407004.7A CN202311407004A CN117153190B CN 117153190 B CN117153190 B CN 117153190B CN 202311407004 A CN202311407004 A CN 202311407004A CN 117153190 B CN117153190 B CN 117153190B
Authority
CN
China
Prior art keywords
domain
olps
octave
power spectrum
constant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311407004.7A
Other languages
English (en)
Other versions
CN117153190A (zh
Inventor
杨继臣
陈政廷
王春安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202311407004.7A priority Critical patent/CN117153190B/zh
Publication of CN117153190A publication Critical patent/CN117153190A/zh
Application granted granted Critical
Publication of CN117153190B publication Critical patent/CN117153190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于注意力机制组合特征的回放语音检测方法,采用恒Q变换模块将原始语音信号从时域变换到频域;计算语音信号的倍频程域功率谱值;对倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;分别对OLPS和LLPS的特征维度进行离散余弦变换,得到特征恒Q系数CQC和恒Q倒谱系数CQCC;将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接,形成延拓的恒Q倒谱系数‑倍频程域对数功率谱特征eCQCC‑OLPS,对eCQCC‑OLPS进行注意力加权,送入残差网络用于回放语音检测。本发明中经过注意力加权后的eCQCC‑OLPS的每个维数得到合适的权重,能够去除冗余,提高了回放语音的检测精度。

Description

基于注意力机制组合特征的回放语音检测方法
技术领域
本发明涉及回放语音检测技术领域,更具体的,涉及一种基于注意力机制eCQCC-OLPS组合特征的回放语音检测方法。
背景技术
随着语音处理技术的飞速发展,出现了合成转换、音高调整以及录音回放等声纹伪造攻击手段,对基于声纹的身份认证系统构成了严重威胁。其中,录音回放攻击作为一种简便且易实施的手段,攻击者通过隐蔽的录音设备对目标说话者的语音进行偷录,然后使用这些偷录的语音来欺骗声纹认证系统。这种攻击方式不需要对录音进行额外的修改,从而避免了留下操作痕迹的风险,同时,回放的语音与原始语音高度相似,因此现有的声纹认证系统通常无法准确辨别二者之间的差异。这一问题对声纹认证系统构成了重大挑战。合成语音的生成过程中常常伴随着细微的非自然特征,这些特征需要被准确地捕捉和分析。另一方面,重放语音检测的目标是分辨真实语音和重放语音之间的设备和环境差异。在重放语音生成过程中,环境因素以及录音和重放设备的特性都会在信号中留下痕迹,这些痕迹可用于检测欺骗攻击。
为了应对欺骗攻击,研究人员提出了多种对策,其中一些基于前端特征提取方法,如声纹特征和语音质量指标,而另一些则基于后端分类器,如深度学习模型。特征工程在欺骗语音检测中具有关键地位,因为它们有助于提取语音信号中的关键信息,为分类器提供可区分欺骗语音和自然语音的有效特征。然而,欺骗攻击检测任务的挑战性在于,欺骗者不断采用新的方法来模拟自然语音,因此需要不断改进和优化检测方法。
综上所述,现有的欺骗攻击检测方法在面临文本相关性、计算资源需求以及多种录音回放设备和不同环境下的适应性等方面存在挑战。鉴于电子设备的不断进步和多样化,开发高准确性、强韧性和高效性的欺骗语音检测方法变得至关重要,以确保声纹认证系统在实际应用中的安全性和可靠性。
发明内容
为了解决上述技术问题,本发明提出了一种基于注意力机制组合特征的回放语音检测方法。
本发明提供了基于注意力机制组合特征的回放语音检测方法,包括:
步骤S1:采用恒Q变换模块将原始语音信号从时域变换到频域;
步骤S2:在恒Q变换基础上,计算语音信号的倍频程域功率谱值OPS;
步骤S3:对计算得到的倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;
步骤S4:通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;
步骤S5:分别对OLPS和LLPS的特征维度进行离散余弦变换,去除维数之间的相关性并使能量集中分别得到特征恒Q系数CQC和恒Q倒谱系数CQCC;
步骤S6:将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS;
步骤S7:对所述eCQCC-OLPS进行注意力加权;
步骤S8:将注意力加权后的特征送入残差网络ResNet50进行训练用于回放语音检测。
本方案中,获取原始语音信号x(n),利用恒Q变换将所述原始语音信号从时域变换到频域,得到恒Q变换后的信号,实现过程定义为:
其中,为频域索引,n为时间指数,/>的取值为/>,/>为可变窗长,/>表示/>的复共轭,/>为虚数单位;
的基本函数是复值时频原子,定义为;
其中,为/>频段的中心频率,/>为采样率,/>为窗函数,/>为相位偏移,/>为缩放因子,所述缩放因子C的计算公式为:
此外,第k个频段的中心频率服从以下规则:,其中,/>为最低频段的中心频率,B为每个倍频程域的仓数;
第k个频段的频率区域带宽的计算为:
根据上述公式表明,每个频段对应恒Q变换中不同的频率范围,随着k的增加,带宽也会增加。
本方案中,获取倍频程域对数功率谱特征OLPS,利用统一重采样将OLPS转换为LLPS,对于,其倍频程域对数功率谱为/>,其中/>表示对数运算;
所述的线性域对数功率谱为/>,/>代表线性频率频段。
本方案中,离散余弦变换DCT去除维数之间的相关性并使能量集中,对和/>进行离散余弦变换后,得到的系数为:
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数;z为正整数,范围为1到Z-1,其中Z是作为特征维度选择的系数个数;/>和/>分别是/>的维数;此外,/>代表线性频率频段,/>=1,2,…,/>
本方案中,将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,eCQCC-OLPS特征组合方式具体为:
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数,/>的倍频程域对数功率谱。
本发明公开了一种基于注意力机制组合特征的回放语音检测方法,采用恒Q变换模块将原始语音信号从时域变换到频域;计算语音信号的倍频程域功率谱值;对倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;分别对OLPS和LLPS的特征维度进行离散余弦变换,得到特征恒Q系数CQC和恒Q倒谱系数CQCC;将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS,对eCQCC-OLPS进行注意力加权,送入残差网络用于回放语音检测。本发明中经过注意力加权后的eCQCC-OLPS的每个维数得到合适的权重,能够去除冗余,提取语音信号中的关键信息,为分类器提供可区分欺骗语音和自然语音的有效特征,提高了回放语音的检测精度。
附图说明
为了更清楚地说明本发明实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。
图1示出了本发明使用组合特征eCQCC-OLPS的注意力机制的方法流程图;
图2示出了本发明提取组合特征eCQCC-OLPS的示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为本发明一实施例提供的一种基于注意力机制组合特征的回放语音检测方法流程图;
如图1所示,本发明提供了一种基于注意力机制组合特征的回放语音检测方法流程图,包括:
步骤S1:采用恒Q变换模块将原始语音信号从时域变换到频域;
步骤S2:在恒Q变换基础上,计算语音信号的倍频程域功率谱值OPS;
步骤S3:对计算得到的倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;
步骤S4:通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;
步骤S5:分别对OLPS和LLPS的特征维度进行离散余弦变换,去除维数之间的相关性并使能量集中分别得到特征恒Q系数CQC和恒Q倒谱系数CQCC;
步骤S6:将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS;
步骤S7:对所述eCQCC-OLPS进行注意力加权;
步骤S8:将注意力加权后的特征送入残差网络ResNet50进行训练用于回放语音检测。
需要说明的是,获取原始语音信号x(n),利用恒Q变换将所述原始语音信号从时域变换到频域,得到恒Q变换后的信号,对于离散时域信号x(n)其恒Q变换实现过程定义为:
其中,为频域索引,n为时间指数,/>的取值为/>,/>为可变窗长,/>表示/>的复共轭,/>为虚数单位;
的基本函数是复值时频原子,定义为;
其中,为/>频段的中心频率,/>为采样率,/>为窗函数(如汉宁窗),/>为相位偏移,/>为缩放因子,所述缩放因子C的计算公式为:
此外,第k个频段的中心频率服从以下规则:,其中,/>为最低频段的中心频率,B为每个倍频程域的仓数;
第k个频段的频率区域带宽的计算为:
根据上述公式表明,每个频段对应恒Q变换中不同的频率范围,随着k的增加,带宽也会增加。与离散傅里叶变换DFT不同,在DFT中,所有频带都具有相同的带宽。就此我们得到了倍频程域对数功率谱特征(OLPS),接下来在其上利用统一重采样将OLPS转换为线性域对数功率谱特征(LLPS)。
需要说明的是,获取倍频程域对数功率谱特征OLPS,利用统一重采样将OLPS转换为LLPS,对于,其倍频程域对数功率谱为/>,其中/>表示对数运算;
所述的线性域对数功率谱为/>,/>代表线性频率频段,在此基础上应用离散余弦变换DCT,离散余弦变换DCT去除维数之间的相关性并使能量集中,对/>和/>进行离散余弦变换后,得到的系数为:
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数;z为正整数,范围为1到Z-1,其中Z是作为特征维度选择的系数个数;/>和/>分别是/>的维数;此外,/>代表线性频率频段,/>=1,2,…,/>
需要说明的是,如图2所示,将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,eCQCC-OLPS特征组合方式具体为:
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数,/>的倍频程域对数功率谱。
通过优选实施例说明本方法的可行性和有效性:
数据库:ASVspoof2017语料库是在26个不同环境中使用26台播放设备和25台录音设备收集的。该数据库由三个子集构成:训练集、验证集和测试集,采用ASVspoof2017语料库的改进版本,即ASVspoof2017-V2。表1详细列出了ASVspoof2017-V2的相关信息。所有语音信号均以16kHz的采样率进行录制。训练数据集提供了并行的训练条件,以训练重播设备特征提取器。具体而言,对于那些将欺骗语音作为神经网络输入的情况,从训练数据集中选择了1507对真实重播语音,用于训练神经网络参数;同时,对于将真实语音作为神经网络输入的情况,我们还从训练数据集中选择了额外的1507对真实语音用于神经网络参数的训练。本次实验采用等错误率(equalerrorrate,EER)作为评价指标,在我们的实验中,CQT的设备特征静态维数设置为923,以便在16kHz采样率下获得最佳等错误率(EER)性能。
表1:ASVspoof2017-V2的相关信息
实验参数设置:在CQT中,每个倍频程的分频数设置为96,倍频程数设置为9,采样周期设置为16,伽马值设置为3.3026。在扬声器识别和语音识别中,通常选择13和20作为特征静态维数(SDN)。此外,高维数(如30)可用于研究高阶系数是否包含额外的有用信息。
将所提供的方法与传统似然比检验语音检测方法进行效果对比,通过检测结果举例和检测准确率统计进一步说明所提供方法的有效性。
表2示:本实施例所提供方法与传统方法检测结果对比举例
从表2可以看出:使用组合特征eCQCC-OLPS和添加attention自注意力机制都使得回放语音检测的性能都得到了提升,充分验证了本文采用的一种基于注意力机制组合特征的回放语音检测方法具有极大的推广性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (1)

1.一种基于注意力机制组合特征的回放语音检测方法,其特征在于,包括以下步骤:
步骤S1:采用恒Q变换模块将原始语音信号从时域变换到频域;
步骤S2:在恒Q变换基础上,计算语音信号的倍频程域功率谱值OPS;
步骤S3:对计算得到的倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;
步骤S4:通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;
步骤S5:分别对OLPS和LLPS的特征维度进行离散余弦变换,去除维数之间的相关性并使能量集中分别得到特征恒Q系数CQC和恒Q倒谱系数CQCC;
步骤S6:将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS;
步骤S7:对所述eCQCC-OLPS进行注意力加权;
步骤S8:将注意力加权后的特征送入残差网络ResNet50进行训练用于回放语音检测;
获取原始语音信号x(n),利用恒Q变换将所述原始语音信号从时域变换到频域,得到恒Q变换后的信号,实现过程定义为:
其中,为频域索引,n为时间指数,/>的取值为/>,/>为可变窗长,/>表示的复共轭,/>为虚数单位;
的基本函数是复值时频原子,定义为;
其中,为/>频段的中心频率,/>为采样率,/>为窗函数,/>为相位偏移,/>为缩放因子,所述缩放因子C的计算公式为:
此外,第k个频段的中心频率服从以下规则:,其中,/>为最低频段的中心频率,B为每个倍频程域的仓数;
第k个频段的频率区域带宽的计算为:
根据上述公式表明,每个频段对应恒Q变换中不同的频率范围,随着k的增加,带宽也会增加;
获取倍频程域对数功率谱特征OLPS,利用统一重采样将OLPS转换为LLPS,对于,其倍频程域对数功率谱为/>,其中/>表示对数运算;
所述的线性域对数功率谱为/>,/>代表线性频率频段;
离散余弦变换DCT去除维数之间的相关性并使能量集中,对进行离散余弦变换后,得到的系数为:
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;/>和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数;z为正整数,范围为1到Z-1,其中Z是作为特征维度选择的系数个数;/>和/>分别是/>和/>的维数;此外,/>代表线性频率频段,/>=1,2,…,/>
将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,eCQCC-OLPS特征组合方式具体为:
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;/>和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数,/>为/>的倍频程域对数功率谱。
CN202311407004.7A 2023-10-27 2023-10-27 基于注意力机制组合特征的回放语音检测方法 Active CN117153190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311407004.7A CN117153190B (zh) 2023-10-27 2023-10-27 基于注意力机制组合特征的回放语音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311407004.7A CN117153190B (zh) 2023-10-27 2023-10-27 基于注意力机制组合特征的回放语音检测方法

Publications (2)

Publication Number Publication Date
CN117153190A CN117153190A (zh) 2023-12-01
CN117153190B true CN117153190B (zh) 2024-01-19

Family

ID=88884599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311407004.7A Active CN117153190B (zh) 2023-10-27 2023-10-27 基于注意力机制组合特征的回放语音检测方法

Country Status (1)

Country Link
CN (1) CN117153190B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN109300479A (zh) * 2018-10-31 2019-02-01 桂林电子科技大学 一种回放语音的声纹识别方法、装置及存储介质
US10403303B1 (en) * 2017-11-02 2019-09-03 Gopro, Inc. Systems and methods for identifying speech based on cepstral coefficients and support vector machines
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN112967724A (zh) * 2021-02-01 2021-06-15 西北师范大学 一种基于特征融合的长序列生物哈希认证方法
CN114387977A (zh) * 2021-12-24 2022-04-22 深圳大学 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法
CN116416997A (zh) * 2023-03-10 2023-07-11 华中科技大学 基于注意力机制的智能语音伪造攻击检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10403303B1 (en) * 2017-11-02 2019-09-03 Gopro, Inc. Systems and methods for identifying speech based on cepstral coefficients and support vector machines
CN109300479A (zh) * 2018-10-31 2019-02-01 桂林电子科技大学 一种回放语音的声纹识别方法、装置及存储介质
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN111653289A (zh) * 2020-05-29 2020-09-11 宁波大学 一种回放语音检测方法
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN112967724A (zh) * 2021-02-01 2021-06-15 西北师范大学 一种基于特征融合的长序列生物哈希认证方法
CN114387977A (zh) * 2021-12-24 2022-04-22 深圳大学 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法
CN116416997A (zh) * 2023-03-10 2023-07-11 华中科技大学 基于注意力机制的智能语音伪造攻击检测方法

Also Published As

Publication number Publication date
CN117153190A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
Wu et al. Light convolutional neural network with feature genuinization for detection of synthetic speech attacks
Aljasem et al. Secure automatic speaker verification (SASV) system through sm-ALTP features and asymmetric bagging
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN103794207A (zh) 一种双模语音身份识别方法
Yoon et al. A new replay attack against automatic speaker verification systems
Jensen et al. Evaluation of MFCC estimation techniques for music similarity
Sun et al. Ai-synthesized voice detection using neural vocoder artifacts
Rupesh Kumar et al. A novel approach towards generalization of countermeasure for spoofing attack on ASV systems
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
Su et al. Robust audio copy-move forgery detection on short forged slices using sliding window
CN117153190B (zh) 基于注意力机制组合特征的回放语音检测方法
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
Magazine et al. Fake speech detection using modulation spectrogram
Verma et al. Cell-phone identification from recompressed audio recordings
Xu et al. Device features based on linear transformation with parallel training data for replay speech detection
Cheng et al. Cross-Database Replay Detection in Terminal-Dependent Speaker Verification.
Wang et al. Revealing the processing history of pitch-shifted voice using CNNs
Singh et al. Modified group delay function using different spectral smoothing techniques for voice liveness detection
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification
Rupesh Kumar et al. Generative and discriminative modelling of linear energy sub-bands for spoof detection in speaker verification systems
Ye et al. Detection of replay attack based on normalized constant q cepstral feature
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
Alam et al. End-to-end voice spoofing detection employing time delay neural networks and higher order statistics
Lu et al. Detecting Unknown Speech Spoofing Algorithms with Nearest Neighbors
CN114639387A (zh) 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant