CN115050391A

CN115050391A - 基于f0子带的虚假音频检测方法及其系统

Info

Publication number: CN115050391A
Application number: CN202210501881.XA
Authority: CN
Inventors: 范存航; 薛军; 吕钊
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-09-13

Abstract

本发明公开了一种基于F0子带的虚假音频检测方法，包括以下步骤：S1：提取原始语音波形的对数功率谱特征，将对数功率谱特征的F0子带作为虚假音频检测的输入特征；S2：采用全局交互模块对输入特征进行建模，获取多尺度声学特征；S3：采用局部注意模块聚焦局部信息，获取F0子带中的鉴别特征。还公开了一种基于F0子带的虚假音频检测系统，包括语音特征输入模块、全局交互模块、局部注意模块。本发明首次将F0子带特征用于虚假音频检测，能够显著提高虚假音频检测的准确率。

Description

基于F0子带的虚假音频检测方法及其系统

技术领域

本发明涉及虚假音频检测领域，特别是涉及一种基于F0子带的虚假音频检测方法及其系统。

背景技术

近年来深度学习技术得以迅速发展，音频和视频等合成技术也已经能合成出欺骗人类和人机交互设备的音频和视频。目前，针对虚假音频的检测技术已经引起了国内外专家学者们的广泛关注。但相比生成语音技术的飞速发展，虚假音频检测的技术相对滞后，国际上针对虚假音频检测方法主要集中在对声纹验证系统的反欺诈。生成语音主要包括四类：语音模仿、录音重放、语音合成与语音转换。因此需要研究人员开发出有效的反欺骗系统，以应对虚假音频的欺骗攻击。

音频伪造检测技术可以有效提高反欺骗系统的性能，目前的工作主要集中在两个方面：1)改善音频的声学特征；2)设计新的分类模型。已有的研究已经表明不同频带对虚假音频检测任务有着不同的效果，但在对划分频带时仍缺乏依据。另外，在语音合成中，经常引入F0轮廓使语音更加平滑、真实。但合成语音中F0过于平均化，与真实语音差距较大。这是因为F0子带可能包含着真实和虚假语音的区分性信息。因此如何有效利用F0子带特征信息是一个具有挑战性的问题。

因此亟需提供一种新型的虚假音频检测方法来解决上述问题。

发明内容

本发明所要解决的技术问题是提供一种基于F0子带的虚假音频检测方法及其系统，能够显著提高虚假音频检测的准确率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于F0子带的虚假音频检测方法，包括以下步骤：

S1：提取原始语音波形的对数功率谱特征，将对数功率谱特征的F0子带作为虚假音频检测的输入特征；

S2：采用全局交互模块对输入特征进行建模，获取多尺度声学特征；

S3：用局部注意模块聚焦局部信息，获取F0子带中的鉴别特征。

在本发明一个较佳实施例中，步骤S1的具体步骤包括：

S101：利用短时傅里叶变换STFT将时域语音信号转换为时频域语音信号：

X_r[t，f]+i*X_i[t，f]＝STFT(X[k]) (1).

其中，x[k]表示时域中的语音信号，k是语音信号的时间索引，

和

是STFT的相应实部和虚部，t是时间帧数的索引，f是频率单元的索引；

S102：对STFT的实部和虚部进行以下操作得到对数功率谱特征：

其中，log代表取对数操作，LPS_full即为需要的对数功率谱的全频段特征；

S103：应用对数功率谱的0-400Hz频段作为所需的F0子带：

LPS_F0＝LPS_0-400HZ (3)

在本发明一个较佳实施例中，步骤S2的具体步骤包括：

所述输入特征在1×1卷积后将通道维数分为n个子集，表示为s_i，其中i∈{1，2，…，n}；对于s₁，它不经过任何处理；对于s₂，它是经过卷积K₂()之后直接输出的；对于s₃到s_n，每个s_i在经过卷积K_i()之前需要加入卷积K_i-1的输出：

其中n为尺度维度，表示应用于分割特征图的通道组数，y_i为每个通道的输出。

在本发明一个较佳实施例中，步骤S3的具体步骤包括：

S301：利用全局平均化池操作压缩输入特征维度：

其中GAP(*)表示全局平均化池操作，

是全局交互模块后1×1卷积的输出，C是通道数；

S302：为了便于对通道的一维卷积，先采用挤压和转置操作：

其中S&T(*)表示挤压和转置操作；

S303：采用卷积核为3的一维卷积来聚焦部分通道信息：

其中Conv表示一维卷积操作，

表示经过卷积后的输出；

S304：采用转置和解压操作来逐渐恢复特征图大小：

其中T&U(*)表示转置和解压操作；

S305：将

通过sigmoid层得到注意权重向量，并与输入特征

相乘得到最终的局部注意向量：

其中，

是局部注意模块的输出，

代表乘法运算。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于F0子带的虚假音频检测系统，包括：

语音特征输入模块，用于提取原始语音波形的对数功率谱特征，将对数功率谱的F0子带作为虚假音频检测的输入特征；

全局交互模块，用于对输入特征进行建模，获取多尺度全局信息；

局部注意模块，用于对多尺度全局信息聚焦局部信息，以便从F0子带中获取鉴别特征。

在本发明一个较佳实施例中，所述全局交互模块获取多尺度全局信息的步骤包括：

首先将全局通道划分为多个通道组，然后通过通道组间的剩余连接进行全局信息交互，从而增加全局感受野。

本发明的有益效果是：本发明提出了一种用于虚假音频检测的F0子带全局交互-局部注意网络(GI-LANet)，该网络使用F0子带作为输入特征，F0子带包含着真实和虚假音频的区分性信息，极大的提高了预测精度。并且本发明提出的F0为子带频带划分提供了有效依据。此外，为了获得多尺度特征，采用全局交互模块对F0子带进行建模，增加全局感受野，获取特征的全局信息。最后，采用局部交互模块聚焦局部信息，从F0子带中获取判别特征。本发明对虚假音频检测很有帮助，能够显著提高虚假音频检测技术的准确率。

附图说明

图1是F0在ASVspoof2019 LA训练集上的分布图；

图2是本发明基于F0子带的虚假音频检测方法的流程图；

图3是所述基于F0子带的虚假音频检测方法及其系统中GI-LANet网络的示意图；

图4是所述基于F0子带的虚假音频检测系统的结构框图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图2和图3，本发明实施例包括：

一种基于F0子带的虚假音频检测方法，包括以下步骤：

S1：提取原始语音波形的对数功率谱特征，将对数功率谱特征的F0子带作为虚假音频检测的输入特征；具体步骤包括：

S101：利用短时傅里叶变换STFT将时域语音信号转换为时频域：

X_r[t，f]+i*X_i[t，f]＝STFT(X[k]) (1).

和

其中，log代表取对数操作，LPS_full即为需要的对数功率谱的全频段特征。

S103：应用对数功率谱0-400Hz作为所需的F0子带：

LPS_F0＝LPS_0-400HZ (3)

S2：采用全局交互模块对特征进行建模，获取多尺度声学特征；具体步骤包括：

特征在1×1卷积后将通道维数分为n个子集，表示为s_i，其中i∈{1，2，…，n}。对于s₁，它不经过任何处理；对于s₂，它是经过3×3卷积K₂()之后直接输出的；对于s₃到s_n，每个s_i在需要经过K_i()之前加到K_i-1的输出中：

其中，n为尺度维度，表示应用于分割特征图的通道组数。

S3：用局部注意模块聚焦局部信息，获取F0子带中的鉴别特征。具体步骤包括：

S301：利用全局平均化池操作压缩输入特征维度：

其中GAP(*)表示全局平均化池操作，

是全局交互模块后1×1卷积的输出，C是通道数。

S302：为了便于对通道的一维卷积，先采用挤压和转置操作：

其中S&T(*)表示挤压和转置操作；

S303：采用卷积核为3的一维卷积来聚焦部分通道信息：

其中Conv表示一维卷积操作，

表示经过卷积后的输出；

S304：采用转置和解压操作来逐渐恢复特征图大小：

其中T&U(*)表示转置和解压操作；

S305：将

通过sigmoid层得到注意权重向量，并与输入特征

相乘得到最终的局部注意向量：

其中，

是局部注意模块的输出，

代表乘法运算。

需要说明的是，在步骤S1中，F0子带特征是基于对数功率谱的，参阅图1，F0在数据集上的分布范围大约在0-400Hz，因此本发明利用0-45作为F0子带特征的维数。此外，GI-LANet网络使用Adam作为优化器，学习率设置为0.0001。结合图3，GI-LANet网络由全局交互块和局部注意块组成。将F0子带特征作为深度神经网络分类器的输入，再对深度神经网络分类器设置一定的训练轮数进行训练，最后选取训练中最好的模型进行测试，得到的测试结果作为相对应的预测结果。

本发明实施例中，参阅图4，还提供一种基于F0子带的虚假音频检测系统，包括：

全局交互模块，用于对输入特征进行建模，获取多尺度全局信息。首先将全局通道划分为多个通道组，然后通过通道组间的剩余连接进行全局信息交互，从而增加全局感受野；

本发明在公共数据集ASVspoof2019 LA上进行了实验。为了定量评估虚假音频检测结果，等错误率(EER)和最小归一化串联检测代价函数(min-tDCF)被用作评估指标。

表1

表1是基于基线系统(SENet)做的消融实验，其中n表示全局交互块(GlobalInteraction，GI)中分的通道组数。从表1中可以看出，局部注意块(Local Attention，LA)较于挤压和激励块(Squeeze and Excitation，SE)，性能有一定的提升。这是因为局部注意块聚焦于局部信息，能获取F0子带中更多的判别特征。若去掉挤压和激励块，单独使用全局交互块时性能变差。但在全局交互块加入局部注意块时，性能得到明显的提升。并且当全局交互块中的通道组数为8时，性能表现最好，这是因为此时全局信息交互的最为充分。这些结果表明GI-LANet比SENet更适合虚假音频检测任务，这是因为全局交互块和局部注意块能充分获取特征的全局信息，并聚焦于局部的判别信息。因此，GI-LANet可以获得比SENet更好的性能。

表2

表3

表2和表3分别是虚假音频检测任务中的其它单系统和融合系统的结果。其中B1和B2是ASVspoof2019LA上的基线系统。从表2中可以看出，本发明提出的基于F0子带的虚假音频检测方法，无论是min t-DCF还是EER都能获得最佳性能。此外，将多个单系统在分数级阶段进行融合可以进一步提升虚假音频检测系统的性能，但这样的融合系统在实际应用中比较难以直接使用。表3列举了性能最佳的融合系统，融合系统可以让子系统互补，以至于获得单系统无法达到的性能。即便如此，根据表3，本发明提出的单系统在融合系统中也能取得第二名的性能。

这些结果证明了本发明提出的方法的有效性。此外，这些结果还表明，F0子带是虚假音频检测的合适特征。这是因为本发明提出的方法基于F0子带，F0子带包含着真实和虚假音频的区分性信息。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。