CN115050391A - 基于f0子带的虚假音频检测方法及其系统 - Google Patents

基于f0子带的虚假音频检测方法及其系统 Download PDF

Info

Publication number
CN115050391A
CN115050391A CN202210501881.XA CN202210501881A CN115050391A CN 115050391 A CN115050391 A CN 115050391A CN 202210501881 A CN202210501881 A CN 202210501881A CN 115050391 A CN115050391 A CN 115050391A
Authority
CN
China
Prior art keywords
band
sub
global
audio detection
false audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210501881.XA
Other languages
English (en)
Inventor
范存航
薛军
吕钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202210501881.XA priority Critical patent/CN115050391A/zh
Publication of CN115050391A publication Critical patent/CN115050391A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于F0子带的虚假音频检测方法,包括以下步骤:S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;S2:采用全局交互模块对输入特征进行建模,获取多尺度声学特征;S3:采用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。还公开了一种基于F0子带的虚假音频检测系统,包括语音特征输入模块、全局交互模块、局部注意模块。本发明首次将F0子带特征用于虚假音频检测,能够显著提高虚假音频检测的准确率。

Description

基于F0子带的虚假音频检测方法及其系统
技术领域
本发明涉及虚假音频检测领域,特别是涉及一种基于F0子带的虚假音频检测方法及其系统。
背景技术
近年来深度学习技术得以迅速发展,音频和视频等合成技术也已经能合成出欺骗人类和人机交互设备的音频和视频。目前,针对虚假音频的检测技术已经引起了国内外专家学者们的广泛关注。但相比生成语音技术的飞速发展,虚假音频检测的技术相对滞后,国际上针对虚假音频检测方法主要集中在对声纹验证系统的反欺诈。生成语音主要包括四类:语音模仿、录音重放、语音合成与语音转换。因此需要研究人员开发出有效的反欺骗系统,以应对虚假音频的欺骗攻击。
音频伪造检测技术可以有效提高反欺骗系统的性能,目前的工作主要集中在两个方面:1)改善音频的声学特征;2)设计新的分类模型。已有的研究已经表明不同频带对虚假音频检测任务有着不同的效果,但在对划分频带时仍缺乏依据。另外,在语音合成中,经常引入F0轮廓使语音更加平滑、真实。但合成语音中F0过于平均化,与真实语音差距较大。这是因为F0子带可能包含着真实和虚假语音的区分性信息。因此如何有效利用F0子带特征信息是一个具有挑战性的问题。
因此亟需提供一种新型的虚假音频检测方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于F0子带的虚假音频检测方法及其系统,能够显著提高虚假音频检测的准确率。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于F0子带的虚假音频检测方法,包括以下步骤:
S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;
S2:采用全局交互模块对输入特征进行建模,获取多尺度声学特征;
S3:用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。
在本发明一个较佳实施例中,步骤S1的具体步骤包括:
S101:利用短时傅里叶变换STFT将时域语音信号转换为时频域语音信号:
Xr[t,f]+i*Xi[t,f]=STFT(X[k]) (1).
其中,x[k]表示时域中的语音信号,k是语音信号的时间索引,
Figure BDA0003634892150000021
Figure BDA0003634892150000022
是STFT的相应实部和虚部,t是时间帧数的索引,f是频率单元的索引;
S102:对STFT的实部和虚部进行以下操作得到对数功率谱特征:
Figure BDA0003634892150000023
其中,log代表取对数操作,LPSfull即为需要的对数功率谱的全频段特征;
S103:应用对数功率谱的0-400Hz频段作为所需的F0子带:
LPSF0=LPS0-400HZ (3)
在本发明一个较佳实施例中,步骤S2的具体步骤包括:
所述输入特征在1×1卷积后将通道维数分为n个子集,表示为si,其中i∈{1,2,…,n};对于s1,它不经过任何处理;对于s2,它是经过卷积K2()之后直接输出的;对于s3到sn,每个si在经过卷积Ki()之前需要加入卷积Ki-1的输出:
Figure BDA0003634892150000024
其中n为尺度维度,表示应用于分割特征图的通道组数,yi为每个通道的输出。
在本发明一个较佳实施例中,步骤S3的具体步骤包括:
S301:利用全局平均化池操作压缩输入特征维度:
Figure BDA0003634892150000025
其中GAP(*)表示全局平均化池操作,
Figure BDA0003634892150000026
是全局交互模块后1×1卷积的输出,C是通道数;
S302:为了便于对通道的一维卷积,先采用挤压和转置操作:
Figure BDA0003634892150000031
其中S&T(*)表示挤压和转置操作;
S303:采用卷积核为3的一维卷积来聚焦部分通道信息:
Figure BDA0003634892150000032
其中Conv表示一维卷积操作,
Figure BDA0003634892150000033
表示经过卷积后的输出;
S304:采用转置和解压操作来逐渐恢复特征图大小:
Figure BDA0003634892150000034
其中T&U(*)表示转置和解压操作;
S305:将
Figure BDA0003634892150000035
通过sigmoid层得到注意权重向量,并与输入特征
Figure BDA0003634892150000036
相乘得到最终的局部注意向量:
Figure BDA0003634892150000037
其中,
Figure BDA0003634892150000038
是局部注意模块的输出,
Figure BDA0003634892150000039
代表乘法运算。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于F0子带的虚假音频检测系统,包括:
语音特征输入模块,用于提取原始语音波形的对数功率谱特征,将对数功率谱的F0子带作为虚假音频检测的输入特征;
全局交互模块,用于对输入特征进行建模,获取多尺度全局信息;
局部注意模块,用于对多尺度全局信息聚焦局部信息,以便从F0子带中获取鉴别特征。
在本发明一个较佳实施例中,所述全局交互模块获取多尺度全局信息的步骤包括:
首先将全局通道划分为多个通道组,然后通过通道组间的剩余连接进行全局信息交互,从而增加全局感受野。
本发明的有益效果是:本发明提出了一种用于虚假音频检测的F0子带全局交互-局部注意网络(GI-LANet),该网络使用F0子带作为输入特征,F0子带包含着真实和虚假音频的区分性信息,极大的提高了预测精度。并且本发明提出的F0为子带频带划分提供了有效依据。此外,为了获得多尺度特征,采用全局交互模块对F0子带进行建模,增加全局感受野,获取特征的全局信息。最后,采用局部交互模块聚焦局部信息,从F0子带中获取判别特征。本发明对虚假音频检测很有帮助,能够显著提高虚假音频检测技术的准确率。
附图说明
图1是F0在ASVspoof2019 LA训练集上的分布图;
图2是本发明基于F0子带的虚假音频检测方法的流程图;
图3是所述基于F0子带的虚假音频检测方法及其系统中GI-LANet网络的示意图;
图4是所述基于F0子带的虚假音频检测系统的结构框图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图2和图3,本发明实施例包括:
一种基于F0子带的虚假音频检测方法,包括以下步骤:
S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;具体步骤包括:
S101:利用短时傅里叶变换STFT将时域语音信号转换为时频域:
Xr[t,f]+i*Xi[t,f]=STFT(X[k]) (1).
其中,x[k]表示时域中的语音信号,k是语音信号的时间索引,
Figure BDA0003634892150000041
Figure BDA0003634892150000042
是STFT的相应实部和虚部,t是时间帧数的索引,f是频率单元的索引;
S102:对STFT的实部和虚部进行以下操作得到对数功率谱特征:
Figure BDA0003634892150000043
其中,log代表取对数操作,LPSfull即为需要的对数功率谱的全频段特征。
S103:应用对数功率谱0-400Hz作为所需的F0子带:
LPSF0=LPS0-400HZ (3)
S2:采用全局交互模块对特征进行建模,获取多尺度声学特征;具体步骤包括:
特征在1×1卷积后将通道维数分为n个子集,表示为si,其中i∈{1,2,…,n}。对于s1,它不经过任何处理;对于s2,它是经过3×3卷积K2()之后直接输出的;对于s3到sn,每个si在需要经过Ki()之前加到Ki-1的输出中:
Figure BDA0003634892150000051
其中,n为尺度维度,表示应用于分割特征图的通道组数。
S3:用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。具体步骤包括:
S301:利用全局平均化池操作压缩输入特征维度:
Figure BDA0003634892150000052
其中GAP(*)表示全局平均化池操作,
Figure BDA0003634892150000053
是全局交互模块后1×1卷积的输出,C是通道数。
S302:为了便于对通道的一维卷积,先采用挤压和转置操作:
Figure BDA0003634892150000054
其中S&T(*)表示挤压和转置操作;
S303:采用卷积核为3的一维卷积来聚焦部分通道信息:
Figure BDA0003634892150000055
其中Conv表示一维卷积操作,
Figure BDA0003634892150000056
表示经过卷积后的输出;
S304:采用转置和解压操作来逐渐恢复特征图大小:
Figure BDA0003634892150000057
其中T&U(*)表示转置和解压操作;
S305:将
Figure BDA0003634892150000058
通过sigmoid层得到注意权重向量,并与输入特征
Figure BDA0003634892150000059
相乘得到最终的局部注意向量:
Figure BDA00036348921500000510
其中,
Figure BDA00036348921500000511
是局部注意模块的输出,
Figure BDA00036348921500000512
代表乘法运算。
需要说明的是,在步骤S1中,F0子带特征是基于对数功率谱的,参阅图1,F0在数据集上的分布范围大约在0-400Hz,因此本发明利用0-45作为F0子带特征的维数。此外,GI-LANet网络使用Adam作为优化器,学习率设置为0.0001。结合图3,GI-LANet网络由全局交互块和局部注意块组成。将F0子带特征作为深度神经网络分类器的输入,再对深度神经网络分类器设置一定的训练轮数进行训练,最后选取训练中最好的模型进行测试,得到的测试结果作为相对应的预测结果。
本发明实施例中,参阅图4,还提供一种基于F0子带的虚假音频检测系统,包括:
语音特征输入模块,用于提取原始语音波形的对数功率谱特征,将对数功率谱的F0子带作为虚假音频检测的输入特征;
全局交互模块,用于对输入特征进行建模,获取多尺度全局信息。首先将全局通道划分为多个通道组,然后通过通道组间的剩余连接进行全局信息交互,从而增加全局感受野;
局部注意模块,用于对多尺度全局信息聚焦局部信息,以便从F0子带中获取鉴别特征。
本发明在公共数据集ASVspoof2019 LA上进行了实验。为了定量评估虚假音频检测结果,等错误率(EER)和最小归一化串联检测代价函数(min-tDCF)被用作评估指标。
表1
Figure BDA0003634892150000061
表1是基于基线系统(SENet)做的消融实验,其中n表示全局交互块(GlobalInteraction,GI)中分的通道组数。从表1中可以看出,局部注意块(Local Attention,LA)较于挤压和激励块(Squeeze and Excitation,SE),性能有一定的提升。这是因为局部注意块聚焦于局部信息,能获取F0子带中更多的判别特征。若去掉挤压和激励块,单独使用全局交互块时性能变差。但在全局交互块加入局部注意块时,性能得到明显的提升。并且当全局交互块中的通道组数为8时,性能表现最好,这是因为此时全局信息交互的最为充分。这些结果表明GI-LANet比SENet更适合虚假音频检测任务,这是因为全局交互块和局部注意块能充分获取特征的全局信息,并聚焦于局部的判别信息。因此,GI-LANet可以获得比SENet更好的性能。
表2
Figure BDA0003634892150000071
表3
Figure BDA0003634892150000072
表2和表3分别是虚假音频检测任务中的其它单系统和融合系统的结果。其中B1和B2是ASVspoof2019LA上的基线系统。从表2中可以看出,本发明提出的基于F0子带的虚假音频检测方法,无论是min t-DCF还是EER都能获得最佳性能。此外,将多个单系统在分数级阶段进行融合可以进一步提升虚假音频检测系统的性能,但这样的融合系统在实际应用中比较难以直接使用。表3列举了性能最佳的融合系统,融合系统可以让子系统互补,以至于获得单系统无法达到的性能。即便如此,根据表3,本发明提出的单系统在融合系统中也能取得第二名的性能。
这些结果证明了本发明提出的方法的有效性。此外,这些结果还表明,F0子带是虚假音频检测的合适特征。这是因为本发明提出的方法基于F0子带,F0子带包含着真实和虚假音频的区分性信息。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.基于F0子带的虚假音频检测方法,其特征在于,包括以下步骤:
S1:提取原始语音波形的对数功率谱特征,将对数功率谱特征的F0子带作为虚假音频检测的输入特征;
S2:采用全局交互模块对输入特征进行建模,获取多尺度声学特征;
S3:用局部注意模块聚焦局部信息,获取F0子带中的鉴别特征。
2.根据权利要求1所述的基于F0子带的虚假音频检测方法,其特征在于,步骤S1的具体步骤包括:
S101:利用短时傅里叶变换STFT将时域语音信号转换为时频域语音信号:
Xr[t,f]+i*Xi[t,f]=STFT(X[k])(1)
其中,x[k]表示时域中的语音信号,k是语音信号的时间索引,
Figure RE-FDA0003740070410000011
Figure RE-FDA0003740070410000012
是STFT的相应实部和虚部,t是时间帧数的索引,f是频率单元的索引;
S102:对STFT的实部和虚部进行以下操作得到对数功率谱特征:
Figure RE-FDA0003740070410000013
其中,log代表取对数操作,LPSfull即为需要的对数功率谱的全频段特征;
S103:应用对数功率谱的0-400Hz频段作为所需的F0子带:
LPSF0=LPS0-400HZ (3)
3.根据权利要求1所述的基于F0子带的虚假音频检测方法,其特征在于,步骤S2的具体步骤包括:
所述输入特征在1×1卷积后将通道维数分为n个子集,表示为si,其中i∈{1,2,…,n};对于s1,它不经过任何处理;对于s2,它是经过卷积K2( )之后直接输出的;对于s3到sn,每个si在经过卷积Ki( )之前需要加入卷积Ki-1的输出:
Figure RE-FDA0003740070410000014
其中n为尺度维度,表示应用于分割特征图的通道组数,yi为每个通道的输出。
4.根据权利要求1所述的一种基于F0子带的虚假音频检测方法,其特征在于,步骤S3的具体步骤包括:
S301:利用全局平均化池操作压缩输入特征维度:
Figure RE-FDA0003740070410000021
其中GAP(*)表示全局平均化池操作,
Figure RE-FDA0003740070410000022
是全局交互模块后1×1卷积的输出,c是通道数;
S302:为了便于对通道的一维卷积,先采用挤压和转置操作:
Figure RE-FDA0003740070410000023
其中S&T(*)表示挤压和转置操作;
S303:采用卷积核为3的一维卷积来聚焦部分通道信息:
Figure RE-FDA0003740070410000024
其中Conv表示一维卷积操作,
Figure RE-FDA0003740070410000025
表示经过卷积后的输出;
S304:采用转置和解压操作来逐渐恢复特征图大小:
Figure RE-FDA0003740070410000026
其中T&U(*)表示转置和解压操作;
S305:将
Figure RE-FDA0003740070410000027
通过sigmoid层得到注意权重向量,并与输入特征
Figure RE-FDA0003740070410000028
相乘得到最终的局部注意向量:
Figure RE-FDA0003740070410000029
其中,
Figure RE-FDA00037400704100000210
是局部注意模块的输出,
Figure RE-FDA00037400704100000211
代表乘法运算。
5.一种基于F0子带的虚假音频检测系统,其特征在于,包括:
语音特征输入模块,用于提取原始语音波形的对数功率谱特征,将对数功率谱的F0子带作为虚假音频检测的输入特征;
全局交互模块,用于对输入特征进行建模,获取多尺度全局信息;
局部注意模块,用于对多尺度全局信息聚焦局部信息,以便从F0子带中获取鉴别特征。
6.根据权利要求6所述的基于F0子带的虚假音频检测系统,其特征在于,所述全局交互模块获取多尺度全局信息的步骤包括:
首先将全局通道划分为多个通道组,然后通过通道组间的剩余连接进行全局信息交互,从而增加全局感受野。
CN202210501881.XA 2022-05-09 2022-05-09 基于f0子带的虚假音频检测方法及其系统 Pending CN115050391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210501881.XA CN115050391A (zh) 2022-05-09 2022-05-09 基于f0子带的虚假音频检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210501881.XA CN115050391A (zh) 2022-05-09 2022-05-09 基于f0子带的虚假音频检测方法及其系统

Publications (1)

Publication Number Publication Date
CN115050391A true CN115050391A (zh) 2022-09-13

Family

ID=83157688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210501881.XA Pending CN115050391A (zh) 2022-05-09 2022-05-09 基于f0子带的虚假音频检测方法及其系统

Country Status (1)

Country Link
CN (1) CN115050391A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825092A (zh) * 2023-08-28 2023-09-29 珠海亿智电子科技有限公司 语音识别方法、语音识别模型的训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825092A (zh) * 2023-08-28 2023-09-29 珠海亿智电子科技有限公司 语音识别方法、语音识别模型的训练方法及装置
CN116825092B (zh) * 2023-08-28 2023-12-01 珠海亿智电子科技有限公司 语音识别方法、语音识别模型的训练方法及装置

Similar Documents

Publication Publication Date Title
Tak et al. Graph attention networks for anti-spoofing
CN102664010B (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN110675891A (zh) 一种基于多层注意力机制的语音分离方法、模块
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN102129456A (zh) 去相关稀疏映射音乐流派有监督自动分类方法
Luo et al. Group communication with context codec for lightweight source separation
Byun et al. Monaural speech separation using speaker embedding from preliminary separation
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Song et al. A compact and discriminative feature based on auditory summary statistics for acoustic scene classification
CN115050391A (zh) 基于f0子带的虚假音频检测方法及其系统
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
Fan et al. Spatial reconstructed local attention Res2Net with F0 subband for fake speech detection
Fan et al. Deep attention fusion feature for speech separation with end-to-end post-filter method
Nguyen-Vu et al. On the defense of spoofing countermeasures against adversarial attacks
Vinitha George et al. A novel U-Net with dense block for drum signal separation from polyphonic music signal mixture
Yu et al. Improved monaural speech segregation based on computational auditory scene analysis
Tan et al. Low-complexity acoustic scene classification using blueprint separable convolution and knowledge distillation
CN116312628A (zh) 基于自我知识蒸馏的虚假音频检测方法及其系统
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
Mankad et al. On the performance of empirical mode decomposition-based replay spoofing detection in speaker verification systems
CN116469396A (zh) 基于时频域掩蔽效应的跨域语音鉴伪方法和系统
CN116778946A (zh) 人声伴奏分离方法、网络训练方法、设备及存储介质
Chen et al. A robust feature extraction algorithm for audio fingerprinting
Kim et al. Light-Weight Speaker Verification with Global Context Information.
CN115620731A (zh) 一种语音特征提取与检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination