CN115050391A - 基于f0子带的虚假音频检测方法及其系统 - Google Patents
基于f0子带的虚假音频检测方法及其系统 Download PDFInfo
- Publication number
- CN115050391A CN115050391A CN202210501881.XA CN202210501881A CN115050391A CN 115050391 A CN115050391 A CN 115050391A CN 202210501881 A CN202210501881 A CN 202210501881A CN 115050391 A CN115050391 A CN 115050391A
- Authority
- CN
- China
- Prior art keywords
- band
- sub
- global
- audio detection
- false audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 230000003993 interaction Effects 0.000 claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000001125 extrusion Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于F0子带的虚假音频检测方法,包括以下步骤:S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;S2:采用全局交互模块对输入特征进行建模,获取多尺度声学特征;S3:采用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。还公开了一种基于F0子带的虚假音频检测系统,包括语音特征输入模块、全局交互模块、局部注意模块。本发明首次将F0子带特征用于虚假音频检测,能够显著提高虚假音频检测的准确率。
Description
技术领域
本发明涉及虚假音频检测领域,特别是涉及一种基于F0子带的虚假音频检测方法及其系统。
背景技术
近年来深度学习技术得以迅速发展,音频和视频等合成技术也已经能合成出欺骗人类和人机交互设备的音频和视频。目前,针对虚假音频的检测技术已经引起了国内外专家学者们的广泛关注。但相比生成语音技术的飞速发展,虚假音频检测的技术相对滞后,国际上针对虚假音频检测方法主要集中在对声纹验证系统的反欺诈。生成语音主要包括四类:语音模仿、录音重放、语音合成与语音转换。因此需要研究人员开发出有效的反欺骗系统,以应对虚假音频的欺骗攻击。
音频伪造检测技术可以有效提高反欺骗系统的性能,目前的工作主要集中在两个方面:1)改善音频的声学特征;2)设计新的分类模型。已有的研究已经表明不同频带对虚假音频检测任务有着不同的效果,但在对划分频带时仍缺乏依据。另外,在语音合成中,经常引入F0轮廓使语音更加平滑、真实。但合成语音中F0过于平均化,与真实语音差距较大。这是因为F0子带可能包含着真实和虚假语音的区分性信息。因此如何有效利用F0子带特征信息是一个具有挑战性的问题。
因此亟需提供一种新型的虚假音频检测方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于F0子带的虚假音频检测方法及其系统,能够显著提高虚假音频检测的准确率。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于F0子带的虚假音频检测方法,包括以下步骤:
S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;
S2:采用全局交互模块对输入特征进行建模,获取多尺度声学特征;
S3:用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。
在本发明一个较佳实施例中,步骤S1的具体步骤包括:
S101:利用短时傅里叶变换STFT将时域语音信号转换为时频域语音信号:
Xr[t,f]+i*Xi[t,f]=STFT(X[k]) (1).
S102:对STFT的实部和虚部进行以下操作得到对数功率谱特征:
其中,log代表取对数操作,LPSfull即为需要的对数功率谱的全频段特征;
S103:应用对数功率谱的0-400Hz频段作为所需的F0子带:
LPSF0=LPS0-400HZ (3)
在本发明一个较佳实施例中,步骤S2的具体步骤包括:
所述输入特征在1×1卷积后将通道维数分为n个子集,表示为si,其中i∈{1,2,…,n};对于s1,它不经过任何处理;对于s2,它是经过卷积K2()之后直接输出的;对于s3到sn,每个si在经过卷积Ki()之前需要加入卷积Ki-1的输出:
其中n为尺度维度,表示应用于分割特征图的通道组数,yi为每个通道的输出。
在本发明一个较佳实施例中,步骤S3的具体步骤包括:
S301:利用全局平均化池操作压缩输入特征维度:
S302:为了便于对通道的一维卷积,先采用挤压和转置操作:
其中S&T(*)表示挤压和转置操作;
S303:采用卷积核为3的一维卷积来聚焦部分通道信息:
S304:采用转置和解压操作来逐渐恢复特征图大小:
其中T&U(*)表示转置和解压操作;
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于F0子带的虚假音频检测系统,包括:
语音特征输入模块,用于提取原始语音波形的对数功率谱特征,将对数功率谱的F0子带作为虚假音频检测的输入特征;
全局交互模块,用于对输入特征进行建模,获取多尺度全局信息;
局部注意模块,用于对多尺度全局信息聚焦局部信息,以便从F0子带中获取鉴别特征。
在本发明一个较佳实施例中,所述全局交互模块获取多尺度全局信息的步骤包括:
首先将全局通道划分为多个通道组,然后通过通道组间的剩余连接进行全局信息交互,从而增加全局感受野。
本发明的有益效果是:本发明提出了一种用于虚假音频检测的F0子带全局交互-局部注意网络(GI-LANet),该网络使用F0子带作为输入特征,F0子带包含着真实和虚假音频的区分性信息,极大的提高了预测精度。并且本发明提出的F0为子带频带划分提供了有效依据。此外,为了获得多尺度特征,采用全局交互模块对F0子带进行建模,增加全局感受野,获取特征的全局信息。最后,采用局部交互模块聚焦局部信息,从F0子带中获取判别特征。本发明对虚假音频检测很有帮助,能够显著提高虚假音频检测技术的准确率。
附图说明
图1是F0在ASVspoof2019 LA训练集上的分布图;
图2是本发明基于F0子带的虚假音频检测方法的流程图;
图3是所述基于F0子带的虚假音频检测方法及其系统中GI-LANet网络的示意图;
图4是所述基于F0子带的虚假音频检测系统的结构框图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图2和图3,本发明实施例包括:
一种基于F0子带的虚假音频检测方法,包括以下步骤:
S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;具体步骤包括:
S101:利用短时傅里叶变换STFT将时域语音信号转换为时频域:
Xr[t,f]+i*Xi[t,f]=STFT(X[k]) (1).
S102:对STFT的实部和虚部进行以下操作得到对数功率谱特征:
其中,log代表取对数操作,LPSfull即为需要的对数功率谱的全频段特征。
S103:应用对数功率谱0-400Hz作为所需的F0子带:
LPSF0=LPS0-400HZ (3)
S2:采用全局交互模块对特征进行建模,获取多尺度声学特征;具体步骤包括:
特征在1×1卷积后将通道维数分为n个子集,表示为si,其中i∈{1,2,…,n}。对于s1,它不经过任何处理;对于s2,它是经过3×3卷积K2()之后直接输出的;对于s3到sn,每个si在需要经过Ki()之前加到Ki-1的输出中:
其中,n为尺度维度,表示应用于分割特征图的通道组数。
S3:用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。具体步骤包括:
S301:利用全局平均化池操作压缩输入特征维度:
S302:为了便于对通道的一维卷积,先采用挤压和转置操作:
其中S&T(*)表示挤压和转置操作;
S303:采用卷积核为3的一维卷积来聚焦部分通道信息:
S304:采用转置和解压操作来逐渐恢复特征图大小:
其中T&U(*)表示转置和解压操作;
需要说明的是,在步骤S1中,F0子带特征是基于对数功率谱的,参阅图1,F0在数据集上的分布范围大约在0-400Hz,因此本发明利用0-45作为F0子带特征的维数。此外,GI-LANet网络使用Adam作为优化器,学习率设置为0.0001。结合图3,GI-LANet网络由全局交互块和局部注意块组成。将F0子带特征作为深度神经网络分类器的输入,再对深度神经网络分类器设置一定的训练轮数进行训练,最后选取训练中最好的模型进行测试,得到的测试结果作为相对应的预测结果。
本发明实施例中,参阅图4,还提供一种基于F0子带的虚假音频检测系统,包括:
语音特征输入模块,用于提取原始语音波形的对数功率谱特征,将对数功率谱的F0子带作为虚假音频检测的输入特征;
全局交互模块,用于对输入特征进行建模,获取多尺度全局信息。首先将全局通道划分为多个通道组,然后通过通道组间的剩余连接进行全局信息交互,从而增加全局感受野;
局部注意模块,用于对多尺度全局信息聚焦局部信息,以便从F0子带中获取鉴别特征。
本发明在公共数据集ASVspoof2019 LA上进行了实验。为了定量评估虚假音频检测结果,等错误率(EER)和最小归一化串联检测代价函数(min-tDCF)被用作评估指标。
表1
表1是基于基线系统(SENet)做的消融实验,其中n表示全局交互块(GlobalInteraction,GI)中分的通道组数。从表1中可以看出,局部注意块(Local Attention,LA)较于挤压和激励块(Squeeze and Excitation,SE),性能有一定的提升。这是因为局部注意块聚焦于局部信息,能获取F0子带中更多的判别特征。若去掉挤压和激励块,单独使用全局交互块时性能变差。但在全局交互块加入局部注意块时,性能得到明显的提升。并且当全局交互块中的通道组数为8时,性能表现最好,这是因为此时全局信息交互的最为充分。这些结果表明GI-LANet比SENet更适合虚假音频检测任务,这是因为全局交互块和局部注意块能充分获取特征的全局信息,并聚焦于局部的判别信息。因此,GI-LANet可以获得比SENet更好的性能。
表2
表3
表2和表3分别是虚假音频检测任务中的其它单系统和融合系统的结果。其中B1和B2是ASVspoof2019LA上的基线系统。从表2中可以看出,本发明提出的基于F0子带的虚假音频检测方法,无论是min t-DCF还是EER都能获得最佳性能。此外,将多个单系统在分数级阶段进行融合可以进一步提升虚假音频检测系统的性能,但这样的融合系统在实际应用中比较难以直接使用。表3列举了性能最佳的融合系统,融合系统可以让子系统互补,以至于获得单系统无法达到的性能。即便如此,根据表3,本发明提出的单系统在融合系统中也能取得第二名的性能。
这些结果证明了本发明提出的方法的有效性。此外,这些结果还表明,F0子带是虚假音频检测的合适特征。这是因为本发明提出的方法基于F0子带,F0子带包含着真实和虚假音频的区分性信息。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.基于F0子带的虚假音频检测方法,其特征在于,包括以下步骤:
S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;
S2:采用全局交互模块对输入特征进行建模,获取多尺度声学特征;
S3:用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。
2.根据权利要求1所述的基于F0子带的虚假音频检测方法,其特征在于,步骤S1的具体步骤包括:
S101:利用短时傅里叶变换STFT将时域语音信号转换为时频域语音信号:
Xr[t,f]+i*Xi[t,f]=STFT(X[k])(1)
S102:对STFT的实部和虚部进行以下操作得到对数功率谱特征:
其中,log代表取对数操作,LPSfull即为需要的对数功率谱的全频段特征;
S103:应用对数功率谱的0-400Hz频段作为所需的F0子带:
LPSF0=LPS0-400HZ (3)
4.根据权利要求1所述的一种基于F0子带的虚假音频检测方法,其特征在于,步骤S3的具体步骤包括:
S301:利用全局平均化池操作压缩输入特征维度:
S302:为了便于对通道的一维卷积,先采用挤压和转置操作:
其中S&T(*)表示挤压和转置操作;
S303:采用卷积核为3的一维卷积来聚焦部分通道信息:
S304:采用转置和解压操作来逐渐恢复特征图大小:
其中T&U(*)表示转置和解压操作;
5.一种基于F0子带的虚假音频检测系统,其特征在于,包括:
语音特征输入模块,用于提取原始语音波形的对数功率谱特征,将对数功率谱的F0子带作为虚假音频检测的输入特征;
全局交互模块,用于对输入特征进行建模,获取多尺度全局信息;
局部注意模块,用于对多尺度全局信息聚焦局部信息,以便从F0子带中获取鉴别特征。
6.根据权利要求6所述的基于F0子带的虚假音频检测系统,其特征在于,所述全局交互模块获取多尺度全局信息的步骤包括:
首先将全局通道划分为多个通道组,然后通过通道组间的剩余连接进行全局信息交互,从而增加全局感受野。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210501881.XA CN115050391A (zh) | 2022-05-09 | 2022-05-09 | 基于f0子带的虚假音频检测方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210501881.XA CN115050391A (zh) | 2022-05-09 | 2022-05-09 | 基于f0子带的虚假音频检测方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115050391A true CN115050391A (zh) | 2022-09-13 |
Family
ID=83157688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210501881.XA Pending CN115050391A (zh) | 2022-05-09 | 2022-05-09 | 基于f0子带的虚假音频检测方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115050391A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825092A (zh) * | 2023-08-28 | 2023-09-29 | 珠海亿智电子科技有限公司 | 语音识别方法、语音识别模型的训练方法及装置 |
-
2022
- 2022-05-09 CN CN202210501881.XA patent/CN115050391A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825092A (zh) * | 2023-08-28 | 2023-09-29 | 珠海亿智电子科技有限公司 | 语音识别方法、语音识别模型的训练方法及装置 |
CN116825092B (zh) * | 2023-08-28 | 2023-12-01 | 珠海亿智电子科技有限公司 | 语音识别方法、语音识别模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tak et al. | Graph attention networks for anti-spoofing | |
CN102664010B (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN110675891A (zh) | 一种基于多层注意力机制的语音分离方法、模块 | |
CN108091345B (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN102129456A (zh) | 去相关稀疏映射音乐流派有监督自动分类方法 | |
Luo et al. | Group communication with context codec for lightweight source separation | |
Byun et al. | Monaural speech separation using speaker embedding from preliminary separation | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
Song et al. | A compact and discriminative feature based on auditory summary statistics for acoustic scene classification | |
CN115050391A (zh) | 基于f0子带的虚假音频检测方法及其系统 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
Fan et al. | Spatial reconstructed local attention Res2Net with F0 subband for fake speech detection | |
Fan et al. | Deep attention fusion feature for speech separation with end-to-end post-filter method | |
Nguyen-Vu et al. | On the defense of spoofing countermeasures against adversarial attacks | |
Vinitha George et al. | A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture | |
Yu et al. | Improved monaural speech segregation based on computational auditory scene analysis | |
Tan et al. | Low-complexity acoustic scene classification using blueprint separable convolution and knowledge distillation | |
CN116312628A (zh) | 基于自我知识蒸馏的虚假音频检测方法及其系统 | |
Hossain et al. | Dual-transform source separation using sparse nonnegative matrix factorization | |
Mankad et al. | On the performance of empirical mode decomposition-based replay spoofing detection in speaker verification systems | |
CN116469396A (zh) | 基于时频域掩蔽效应的跨域语音鉴伪方法和系统 | |
CN116778946A (zh) | 人声伴奏分离方法、网络训练方法、设备及存储介质 | |
Chen et al. | A robust feature extraction algorithm for audio fingerprinting | |
Kim et al. | Light-Weight Speaker Verification with Global Context Information. | |
CN115620731A (zh) | 一种语音特征提取与检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |