CN117153190A - 基于注意力机制组合特征的回放语音检测方法 - Google Patents
基于注意力机制组合特征的回放语音检测方法 Download PDFInfo
- Publication number
- CN117153190A CN117153190A CN202311407004.7A CN202311407004A CN117153190A CN 117153190 A CN117153190 A CN 117153190A CN 202311407004 A CN202311407004 A CN 202311407004A CN 117153190 A CN117153190 A CN 117153190A
- Authority
- CN
- China
- Prior art keywords
- domain
- power spectrum
- olps
- octave
- constant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims abstract description 52
- 230000009466 transformation Effects 0.000 claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000012952 Resampling Methods 0.000 claims abstract description 9
- 230000002035 prolonged effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 230000010363 phase shift Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于注意力机制组合特征的回放语音检测方法,采用恒Q变换模块将原始语音信号从时域变换到频域;计算语音信号的倍频程域功率谱值;对倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;分别对OLPS和LLPS的特征维度进行离散余弦变换,得到特征恒Q系数CQC和恒Q倒谱系数CQCC;将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接,形成延拓的恒Q倒谱系数‑倍频程域对数功率谱特征eCQCC‑OLPS,对eCQCC‑OLPS进行注意力加权,送入残差网络用于回放语音检测。本发明中经过注意力加权后的eCQCC‑OLPS的每个维数得到合适的权重,能够去除冗余,提高了回放语音的检测精度。
Description
技术领域
本发明涉及回放语音检测技术领域,更具体的,涉及一种基于注意力机制eCQCC-OLPS组合特征的回放语音检测方法。
背景技术
随着语音处理技术的飞速发展,出现了合成转换、音高调整以及录音回放等声纹伪造攻击手段,对基于声纹的身份认证系统构成了严重威胁。其中,录音回放攻击作为一种简便且易实施的手段,攻击者通过隐蔽的录音设备对目标说话者的语音进行偷录,然后使用这些偷录的语音来欺骗声纹认证系统。这种攻击方式不需要对录音进行额外的修改,从而避免了留下操作痕迹的风险,同时,回放的语音与原始语音高度相似,因此现有的声纹认证系统通常无法准确辨别二者之间的差异。这一问题对声纹认证系统构成了重大挑战。合成语音的生成过程中常常伴随着细微的非自然特征,这些特征需要被准确地捕捉和分析。另一方面,重放语音检测的目标是分辨真实语音和重放语音之间的设备和环境差异。在重放语音生成过程中,环境因素以及录音和重放设备的特性都会在信号中留下痕迹,这些痕迹可用于检测欺骗攻击。
为了应对欺骗攻击,研究人员提出了多种对策,其中一些基于前端特征提取方法,如声纹特征和语音质量指标,而另一些则基于后端分类器,如深度学习模型。特征工程在欺骗语音检测中具有关键地位,因为它们有助于提取语音信号中的关键信息,为分类器提供可区分欺骗语音和自然语音的有效特征。然而,欺骗攻击检测任务的挑战性在于,欺骗者不断采用新的方法来模拟自然语音,因此需要不断改进和优化检测方法。
综上所述,现有的欺骗攻击检测方法在面临文本相关性、计算资源需求以及多种录音回放设备和不同环境下的适应性等方面存在挑战。鉴于电子设备的不断进步和多样化,开发高准确性、强韧性和高效性的欺骗语音检测方法变得至关重要,以确保声纹认证系统在实际应用中的安全性和可靠性。
发明内容
为了解决上述技术问题,本发明提出了一种基于注意力机制组合特征的回放语音检测方法。
本发明提供了基于注意力机制组合特征的回放语音检测方法,包括:
步骤S1:采用恒Q变换模块将原始语音信号从时域变换到频域;
步骤S2:在恒Q变换基础上,计算语音信号的倍频程域功率谱值OPS;
步骤S3:对计算得到的倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;
步骤S4:通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;
步骤S5:分别对OLPS和LLPS的特征维度进行离散余弦变换,去除维数之间的相关性并使能量集中分别得到特征恒Q系数CQC和恒Q倒谱系数CQCC;
步骤S6:将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS;
步骤S7:对所述eCQCC-OLPS进行注意力加权;
步骤S8:将注意力加权后的特征送入残差网络ResNet50进行训练用于回放语音检测。
本方案中,获取原始语音信号x(n),利用恒Q变换将所述原始语音信号从时域变换到频域,得到恒Q变换后的信号,实现过程定义为:
;
其中,为频域索引,n为时间指数,/>的取值为/>,/>为可变窗长,/>表示/>的复共轭,/>为虚数单位;
的基本函数是复值时频原子,定义为;
;
其中,为/>频段的中心频率,/>为采样率,/>为窗函数,/>为相位偏移,/>为缩放因子,所述缩放因子C的计算公式为:
;
此外,第k个频段的中心频率服从以下规则:,其中,/>为最低频段的中心频率,B为每个倍频程域的仓数;
第k个频段的频率区域带宽的计算为:
;
;
;
根据上述公式表明,每个频段对应恒Q变换中不同的频率范围,随着k的增加,带宽也会增加。
本方案中,获取倍频程域对数功率谱特征OLPS,利用统一重采样将OLPS转换为LLPS,对于,其倍频程域对数功率谱为/>,其中/>表示对数运算;
所述的线性域对数功率谱为/>,/>代表线性频率频段。
本方案中,离散余弦变换DCT去除维数之间的相关性并使能量集中,对和/>进行离散余弦变换后,得到的系数为:
;
;
;
;
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数;z为正整数,范围为1到Z-1,其中Z是作为特征维度选择的系数个数;/>和/>分别是/>和的维数;此外,/>代表线性频率频段,/>=1,2,…,/>。
本方案中,将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,eCQCC-OLPS特征组合方式具体为:
;
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数,/>为的倍频程域对数功率谱。
本发明公开了一种基于注意力机制组合特征的回放语音检测方法,采用恒Q变换模块将原始语音信号从时域变换到频域;计算语音信号的倍频程域功率谱值;对倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;分别对OLPS和LLPS的特征维度进行离散余弦变换,得到特征恒Q系数CQC和恒Q倒谱系数CQCC;将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS,对eCQCC-OLPS进行注意力加权,送入残差网络用于回放语音检测。本发明中经过注意力加权后的eCQCC-OLPS的每个维数得到合适的权重,能够去除冗余,提取语音信号中的关键信息,为分类器提供可区分欺骗语音和自然语音的有效特征,提高了回放语音的检测精度。
附图说明
为了更清楚地说明本发明实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。
图1示出了本发明使用组合特征eCQCC-OLPS的注意力机制的方法流程图;
图2示出了本发明提取组合特征eCQCC-OLPS的示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为本发明一实施例提供的一种基于注意力机制组合特征的回放语音检测方法流程图;
如图1所示,本发明提供了一种基于注意力机制组合特征的回放语音检测方法流程图,包括:
步骤S1:采用恒Q变换模块将原始语音信号从时域变换到频域;
步骤S2:在恒Q变换基础上,计算语音信号的倍频程域功率谱值OPS;
步骤S3:对计算得到的倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;
步骤S4:通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;
步骤S5:分别对OLPS和LLPS的特征维度进行离散余弦变换,去除维数之间的相关性并使能量集中分别得到特征恒Q系数CQC和恒Q倒谱系数CQCC;
步骤S6:将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS;
步骤S7:对所述eCQCC-OLPS进行注意力加权;
步骤S8:将注意力加权后的特征送入残差网络ResNet50进行训练用于回放语音检测。
需要说明的是,获取原始语音信号x(n),利用恒Q变换将所述原始语音信号从时域变换到频域,得到恒Q变换后的信号,对于离散时域信号x(n)其恒Q变换实现过程定义为:
;
其中,为频域索引,n为时间指数,/>的取值为/>,/>为可变窗长,/>表示/>的复共轭,/>为虚数单位;
的基本函数是复值时频原子,定义为;
;
其中,为/>频段的中心频率,/>为采样率,/>为窗函数(如汉宁窗),/>为相位偏移,/>为缩放因子,所述缩放因子C的计算公式为:
;
此外,第k个频段的中心频率服从以下规则:,其中,/>为最低频段的中心频率,B为每个倍频程域的仓数;
第k个频段的频率区域带宽的计算为:
;
;
;
根据上述公式表明,每个频段对应恒Q变换中不同的频率范围,随着k的增加,带宽也会增加。与离散傅里叶变换DFT不同,在DFT中,所有频带都具有相同的带宽。就此我们得到了倍频程域对数功率谱特征(OLPS),接下来在其上利用统一重采样将OLPS转换为线性域对数功率谱特征(LLPS)。
需要说明的是,获取倍频程域对数功率谱特征OLPS,利用统一重采样将OLPS转换为LLPS,对于,其倍频程域对数功率谱为/>,其中/>表示对数运算;
所述的线性域对数功率谱为/>,/>代表线性频率频段,在此基础上应用离散余弦变换DCT,离散余弦变换DCT去除维数之间的相关性并使能量集中,对/>和/>进行离散余弦变换后,得到的系数为:
;
;
;
;
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数;z为正整数,范围为1到Z-1,其中Z是作为特征维度选择的系数个数;/>和/>分别是/>和的维数;此外,/>代表线性频率频段,/>=1,2,…,/>。
需要说明的是,如图2所示,将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,eCQCC-OLPS特征组合方式具体为:
;
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数,/>为的倍频程域对数功率谱。
通过优选实施例说明本方法的可行性和有效性:
数据库:ASVspoof2017语料库是在26个不同环境中使用26台播放设备和25台录音设备收集的。该数据库由三个子集构成:训练集、验证集和测试集,采用ASVspoof2017语料库的改进版本,即ASVspoof2017-V2。表1详细列出了ASVspoof2017-V2的相关信息。所有语音信号均以16kHz的采样率进行录制。训练数据集提供了并行的训练条件,以训练重播设备特征提取器。具体而言,对于那些将欺骗语音作为神经网络输入的情况,从训练数据集中选择了1507对真实重播语音,用于训练神经网络参数;同时,对于将真实语音作为神经网络输入的情况,我们还从训练数据集中选择了额外的1507对真实语音用于神经网络参数的训练。本次实验采用等错误率(equalerrorrate,EER)作为评价指标,在我们的实验中,CQT的设备特征静态维数设置为923,以便在16kHz采样率下获得最佳等错误率(EER)性能。
表1:ASVspoof2017-V2的相关信息
实验参数设置:在CQT中,每个倍频程的分频数设置为96,倍频程数设置为9,采样周期设置为16,伽马值设置为3.3026。在扬声器识别和语音识别中,通常选择13和20作为特征静态维数(SDN)。此外,高维数(如30)可用于研究高阶系数是否包含额外的有用信息。
将所提供的方法与传统似然比检验语音检测方法进行效果对比,通过检测结果举例和检测准确率统计进一步说明所提供方法的有效性。
表2示:本实施例所提供方法与传统方法检测结果对比举例
从表2可以看出:使用组合特征eCQCC-OLPS和添加attention自注意力机制都使得回放语音检测的性能都得到了提升,充分验证了本文采用的一种基于注意力机制组合特征的回放语音检测方法具有极大的推广性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种基于注意力机制组合特征的回放语音检测方法,其特征在于,包括以下步骤:
步骤S1:采用恒Q变换模块将原始语音信号从时域变换到频域;
步骤S2:在恒Q变换基础上,计算语音信号的倍频程域功率谱值OPS;
步骤S3:对计算得到的倍频程域功率谱值应用对数变换得到倍频程域对数功率谱特征OLPS;
步骤S4:通过统一重采样,将倍频程域对数功率谱转换为线性域对数功率谱特征LLPS;
步骤S5:分别对OLPS和LLPS的特征维度进行离散余弦变换,去除维数之间的相关性并使能量集中分别得到特征恒Q系数CQC和恒Q倒谱系数CQCC;
步骤S6:将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,形成延拓的恒Q倒谱系数-倍频程域对数功率谱特征eCQCC-OLPS;
步骤S7:对所述eCQCC-OLPS进行注意力加权;
步骤S8:将注意力加权后的特征送入残差网络ResNet50进行训练用于回放语音检测。
2.根据权利要求1所述的一种基于注意力机制组合特征的回放语音检测方法,其特征在于,获取原始语音信号x(n),利用恒Q变换将所述原始语音信号从时域变换到频域,得到恒Q变换后的信号,实现过程定义为:
;
其中,为频域索引,n为时间指数,/>的取值为/>,/>为可变窗长,/>表示的复共轭,/>为虚数单位;
的基本函数是复值时频原子,定义为;
;
其中,为/>频段的中心频率,/>为采样率,/>为窗函数,/>为相位偏移,/>为缩放因子,所述缩放因子C的计算公式为:
;
此外,第k个频段的中心频率服从以下规则:,其中,/>为最低频段的中心频率,B为每个倍频程域的仓数;
第k个频段的频率区域带宽的计算为:
;
;
;
根据上述公式表明,每个频段对应恒Q变换中不同的频率范围,随着k的增加,带宽也会增加。
3.根据权利要求2所述的一种基于注意力机制组合特征的回放语音检测方法,其特征在于,获取倍频程域对数功率谱特征OLPS,利用统一重采样将OLPS转换为LLPS,对于,其倍频程域对数功率谱为/>,其中/>表示对数运算;
所述的线性域对数功率谱为/>,/>代表线性频率频段。
4.根据权利要求3所述的一种基于注意力机制组合特征的回放语音检测方法,其特征在于,离散余弦变换DCT去除维数之间的相关性并使能量集中,对和进行离散余弦变换后,得到的系数为:
;
;
;
;
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;/>和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数;z为正整数,范围为1到Z-1,其中Z是作为特征维度选择的系数个数;/>和/>分别是/>和/>的维数;此外,/>代表线性频率频段,/>=1,2,…,/>。
5.根据权利要求1所述的一种基于注意力机制组合特征的回放语音检测方法,其特征在于,将经过离散余弦变换的两个输出CQC、CQCC和OLPS特征拼接起来,eCQCC-OLPS特征组合方式具体为:
;
其中,和/>分别代表从倍频程域对数功率谱中获得的0阶和z阶系数;/>和/>分别代表从线性域对数功率谱中获得的0阶和z阶系数,/>为/>的倍频程域对数功率谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311407004.7A CN117153190B (zh) | 2023-10-27 | 2023-10-27 | 基于注意力机制组合特征的回放语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311407004.7A CN117153190B (zh) | 2023-10-27 | 2023-10-27 | 基于注意力机制组合特征的回放语音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117153190A true CN117153190A (zh) | 2023-12-01 |
CN117153190B CN117153190B (zh) | 2024-01-19 |
Family
ID=88884599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311407004.7A Active CN117153190B (zh) | 2023-10-27 | 2023-10-27 | 基于注意力机制组合特征的回放语音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153190B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
CN109300479A (zh) * | 2018-10-31 | 2019-02-01 | 桂林电子科技大学 | 一种回放语音的声纹识别方法、装置及存储介质 |
US10403303B1 (en) * | 2017-11-02 | 2019-09-03 | Gopro, Inc. | Systems and methods for identifying speech based on cepstral coefficients and support vector machines |
CN111653289A (zh) * | 2020-05-29 | 2020-09-11 | 宁波大学 | 一种回放语音检测方法 |
CN112270931A (zh) * | 2020-10-22 | 2021-01-26 | 江西师范大学 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
CN112967724A (zh) * | 2021-02-01 | 2021-06-15 | 西北师范大学 | 一种基于特征融合的长序列生物哈希认证方法 |
CN114387977A (zh) * | 2021-12-24 | 2022-04-22 | 深圳大学 | 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法 |
CN116416997A (zh) * | 2023-03-10 | 2023-07-11 | 华中科技大学 | 基于注意力机制的智能语音伪造攻击检测方法 |
-
2023
- 2023-10-27 CN CN202311407004.7A patent/CN117153190B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10403303B1 (en) * | 2017-11-02 | 2019-09-03 | Gopro, Inc. | Systems and methods for identifying speech based on cepstral coefficients and support vector machines |
CN109300479A (zh) * | 2018-10-31 | 2019-02-01 | 桂林电子科技大学 | 一种回放语音的声纹识别方法、装置及存储介质 |
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
CN111653289A (zh) * | 2020-05-29 | 2020-09-11 | 宁波大学 | 一种回放语音检测方法 |
CN112270931A (zh) * | 2020-10-22 | 2021-01-26 | 江西师范大学 | 一种基于孪生卷积神经网络进行欺骗性语音检测的方法 |
CN112967724A (zh) * | 2021-02-01 | 2021-06-15 | 西北师范大学 | 一种基于特征融合的长序列生物哈希认证方法 |
CN114387977A (zh) * | 2021-12-24 | 2022-04-22 | 深圳大学 | 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法 |
CN116416997A (zh) * | 2023-03-10 | 2023-07-11 | 华中科技大学 | 基于注意力机制的智能语音伪造攻击检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117153190B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Light convolutional neural network with feature genuinization for detection of synthetic speech attacks | |
Hamza et al. | Deepfake audio detection via MFCC features using machine learning | |
CN109767776B (zh) | 一种基于密集神经网络的欺骗语音检测方法 | |
Aljasem et al. | Secure automatic speaker verification (SASV) system through sm-ALTP features and asymmetric bagging | |
Javed et al. | Voice spoofing detector: A unified anti-spoofing framework | |
Yoon et al. | A new replay attack against automatic speaker verification systems | |
Sun et al. | Ai-synthesized voice detection using neural vocoder artifacts | |
CN114639387A (zh) | 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 | |
Lu et al. | Detecting Unknown Speech Spoofing Algorithms with Nearest Neighbors. | |
Zhao et al. | Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification | |
Pan et al. | Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection | |
Nguyen-Vu et al. | On the defense of spoofing countermeasures against adversarial attacks | |
Su et al. | Robust audio copy-move forgery detection on short forged slices using sliding window | |
CN117153190B (zh) | 基于注意力机制组合特征的回放语音检测方法 | |
CN116884431A (zh) | 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置 | |
Wang et al. | Revealing the processing history of pitch-shifted voice using CNNs | |
Magazine et al. | Fake speech detection using modulation spectrogram | |
CN116469396A (zh) | 基于时频域掩蔽效应的跨域语音鉴伪方法和系统 | |
Verma et al. | Cell-phone identification from recompressed audio recordings | |
Ye et al. | Detection of replay attack based on normalized constant q cepstral feature | |
Cheng et al. | Cross-Database Replay Detection in Terminal-Dependent Speaker Verification. | |
Bui et al. | A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification | |
Rupesh Kumar et al. | Generative and discriminative modelling of linear energy sub-bands for spoof detection in speaker verification systems | |
Alam et al. | End-to-end voice spoofing detection employing time delay neural networks and higher order statistics | |
CN112309404B (zh) | 机器语音的鉴别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |