CN117351997A - 基于反向知识蒸馏的合成音频检测方法及系统 - Google Patents
基于反向知识蒸馏的合成音频检测方法及系统 Download PDFInfo
- Publication number
- CN117351997A CN117351997A CN202311649622.2A CN202311649622A CN117351997A CN 117351997 A CN117351997 A CN 117351997A CN 202311649622 A CN202311649622 A CN 202311649622A CN 117351997 A CN117351997 A CN 117351997A
- Authority
- CN
- China
- Prior art keywords
- audio
- model
- module
- teacher
- teacher model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 61
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 40
- 230000002441 reversible effect Effects 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 239000002356 single layer Substances 0.000 claims abstract description 41
- 239000010410 layer Substances 0.000 claims abstract description 35
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 16
- 238000004821 distillation Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种基于反向知识蒸馏的合成音频检测方法及系统,涉及音频检测技术领域。本发明中,引入反向知识蒸馏模型,学生模型采用与教师模型反向的残差网络结构,教师模型依次提取待检测音频不同层次的音频特征,多尺度融合模块和单层嵌入模块基于该不同层次的音频特征得到瓶颈信息,将教师模型提取到的合成音频特征表示为对真实音频特征的扰动,禁止合成扰动传播到学生模型,学生模型基于该瓶颈信息进行特征重建,从而可以基于学生模型输出的音频重建特征与教师模型输出的音频特征之间的相似度差异来判断待检测音频的真实性。可见,本发明提供的基于反向知识蒸馏的合成音频检测方法不依赖于已知规则或特征,可以更好区分真实音频和合成音频。
Description
技术领域
本发明实施例涉及音频检测技术领域,尤其涉及一种基于反向知识蒸馏的合成音频检测方法及系统。
背景技术
在深度学习领域,已经存在一些合成音频检测的实现方案,其中一些方案使用了卷积神经网络、循环神经网络或自注意力模型等深度学习结构。这些方案通常依赖于训练数据集,其中包含真实音频和合成音频的样本,以监督方式进行训练。
现有的合成音频检测模型通常基于已知的合成算法,合成音频检测模型依赖于已知的特征和规则来识别合成音频。然而,对抗性攻击者不断创新,针对合成音频检测模型开发新的合成算法,这些算法能够绕过已知的特征和规则,制作更具欺骗性的音频。因此,现有技术在面对不断创新的对抗性攻击时表现出较低的鲁棒性,无法准确识别和防御新型的对抗性攻击。具体而言,由于现有的合成音频检测模型在开发时依赖于已知的合成算法和已知的合成特征,新的合成算法的出现时,由于合成音频检测模型缺乏对这些新算法的先验知识,导致检测模型无法适应新技术,检测能力受到限制,不能有效识别和防御新兴的合成音频技术,从而降低了检测准确性。
因此,目前亟需一种新的合成音频检测方案。
发明内容
本发明实施例提供一种基于反向知识蒸馏的合成音频检测方法及系统,以至少部分解决相关技术中存在的问题。
本发明实施例第一方面提供了一种基于反向知识蒸馏的合成音频检测方法,所述方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法包括:
将待检测音频输入所述教师模型,所述教师模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从小到大依次连接,依次提取待检测音频不同层次的音频特征;
将所述教师模型每个残差块输出的特征输入所述多尺度融合模块,对每个残差块输出的特征进行特征融合,得到融合特征;
将所述融合特征输入所述单层嵌入模块,所述单层嵌入模块对融合特征进行浓缩,得到瓶颈信息;
将所述瓶颈信息输入所述学生模型,所述学生模型采用反向的残差网络结构,所述学生模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从大到小依次连接,依次对得到的瓶颈信息进行重建,得到不同层次的音频重建特征;
分别计算教师模型和学生模型中尺度相同的残差块得到的音频特征和音频重建特征之间的相似度;
基于该相似度和相似度预设阈值确定待检测音频是否为合成音频。
可选地,所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程包括:
冻结完成预训练的教师模型的模型参数,将样本真实音频输入教师模型,所述多尺度融合模块对教师模型每个残差块输出的不同层次的样本特征进行融合得到样本融合特征,所述单层嵌入模块对所述样本融合特征进行浓缩,得到样本瓶颈信息,所述学生模型对所述样本瓶颈信息进行重建,得到不同层次的样本重建特征;
以最小化各个不同层次的样本重建特征和对应层次的样本特征的差异为目标,对所述多尺度融合模块、所述单层嵌入模块和所述学生模型的参数进行更新。
可选地,蒸馏损失的计算公式为:
,其中,/>表示教师模型和学生模型相对应的第/>个残差块得到的特征表示的余弦相似度/>;
其中,表示教师模型有/>个残差块,/>表示教师模型的第/>个残差块得到的样本特征,/>表示学生模型的第/>个残差块得到的样本重建特征,/>表示时频域,/>表示频率维度,/>表示时间维度;/>表示蒸馏损失,是/>个残差块特征表示的余弦相似度的累积。
可选地,所述方法还包括:
根据所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程中的累积余弦相似度,确定所述相似度预设阈值。
可选地,所述多尺度融合模块包括:K个卷积子模块、归一化子模块、步长为1的1×1卷积层;每个卷积子模块包括一个或多个步长为2的3×3卷积层,各个卷积子模块分别与教师模型的各个残差块相连接,分别对教师模块的各个残差块输出的不同层次的音频特征进行下采样;K个卷积子模块中每一个卷积子模块均与所述归一化子模块相连接,所述归一化子模块对k个卷积子模块的输出进行具有ReLU激活的批量归一化,以在特征连接中实现不同层次的音频特征的对齐;所述步长为1的1×1卷积层与所述归一化子模块相连接,基于对齐后的音频特征得到融合特征。
可选地,所述单层嵌入模块的模型结构与教师模型的最后一个残差块相同。
可选地,所述教师模型的预训练过程包括:
使用带标签的样本真实音频和样本合成音频,对待训练的教师模型进行训练,直至待训练的教师模型具备对真实音频和合成音频进行建模和编码的能力。
本发明实施例第二方面提供了一种基于反向知识蒸馏的合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述合成音频检测系统用于执行本发明第一方面所述的方法中的步骤。
本发明实施例第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面所述的方法中的步骤。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面所述的方法中的步骤。
本发明实施例中,引入反向知识蒸馏模型,学生模型采用与教师模型反向对应的残差网络结构,教师模型依次提取待检测音频不同层次的音频特征,多尺度融合模块和单层嵌入模块从教师模型输出的不同层次的音频特征中提取丰富的特征表示,得到瓶颈信息,将教师模型提取到的合成音频特征表示为对真实特征的扰动,禁止合成扰动传播到学生模型,对于合成音频,学生模型重建的特征表示与教师模型存在较大差异,从而可以基于学生模型输出的音频重建特征与教师模型输出的音频特征之间的相似度差异来判断待检测音频的真实性。由此,本发明实施例提供的基于反向知识蒸馏的合成音频检测方法不依赖于已知规则或特征,可以更好地区分真实音频和合成音频。
本发明实施例中,基于多尺度融合模块和单层嵌入模块可以有效地泛化到未知的合成算法,将教师模型提取到的合成音频特征表示为对真实特征的扰动,禁止合成扰动传播到学生模型,增强了对未知合成算法的检测能力,提高了检测方法的鲁棒性,本发明实施例提供的方法能够适应不断演化的合成音频威胁。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于反向知识蒸馏的合成音频检测方法的流程图;
图2是本发明实施例的基于反向知识蒸馏的合成音频检测方法的示例性流程示意图;
图3是本发明实施例的基于反向知识蒸馏的合成音频检测方法中涉及的多尺度融合模块和单层嵌入模块的模型结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明实施例的一种基于反向知识蒸馏的合成音频检测方法的流程图,本发明实施例提供的基于反向知识蒸馏的合成音频检测方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法可以包括以下步骤:
S101,将待检测音频输入所述教师模型,所述教师模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从小到大依次连接,依次提取待检测音频不同层次的音频特征。
S102,将所述教师模型每个残差块输出的特征输入所述多尺度融合模块,对每个残差块输出的特征进行特征融合,得到融合特征。
S103,将所述融合特征输入所述单层嵌入模块,所述单层嵌入模块对融合特征进行浓缩,得到瓶颈信息。
S104,将所述瓶颈信息输入所述学生模型,所述学生模型采用反向的残差网络结构,所述学生模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从大到小依次连接,依次对得到的瓶颈信息进行重建,得到不同层次的音频重建特征。
S105,分别计算教师模型和学生模型中尺度相同的残差块得到的音频特征和音频重建特征之间的相似度。
S106,基于该相似度和相似度预设阈值确定待检测音频是否为合成音频。
本发明实施例中,合成音频检测系统中的教师模型是基于预训练得到的,预训练得到的教师模型能够有效地对这真实音频和合成音频进行建模和编码。将教师模型和多尺度融合模块连接,多尺度融合模块和单层嵌入模块连接,多层嵌入模块和学生模型连接,再基于样本真实音频对整体模型结构进行训练,训练过程中保持教师模型的模型参数不变,对多尺度融合模块、单层嵌入模块和学生模型的参数进行更新。
本发明实施例中,教师模型每个尺度的残差块可以依次提取待检测音频不同层次的音频特征。可以理解,教师模型的多个不同尺度的残差块类似于特征金字塔,可以从待检测音频中提取多个不同层次的特征表示。
本发明实施例中,教师模型的模型结构可以为残差网络(Residual Network,ResNet)模型结构。ResNet是一种深度卷积神经网络结构,常用于图像和音频处理任务。它包括多个残差块,每个残差块由卷积层、批量归一化和激活函数(通常是ReLU)组成。
本发明实施例中,采用了反向知识蒸馏模型,其中包括教师模型和学生模型,学生模型和教师模型采用反向的网络结构。教师模型还可以考虑其他特征提取模型,例如卷积神经网络、循环神经网络或自注意力模型等,以便根据具体应用场景选择适当的结构。
本发明实施例中,多尺度融合模块可以聚合低层次和高层次的特征表示,构建用于音频特征重建的丰富嵌入,具体的,多尺度融合模块可以对齐来自教师模型的不同层次的音频特征。
本发明实施例中,单类嵌入模块可以保留对学生解码器有用的基本信息,并将获得的融合特征浓缩为紧凑的瓶颈信息。单类嵌入模块将教师模型的高维表示投影到低维空间,将合成音频特征表示为对真实特征的扰动。本发明实施例中,紧凑的瓶颈信息作为特征嵌入输入学生模型有助于禁止合成扰动传播到学生模型。单类嵌入模块是一种用于学习单类数据的嵌入表示的神经网络模型。通常被用于处理具有大量特征的数据,如图像、文本和音频等。单类嵌入模块的目标是将高维数据映射到低维空间中,同时保留数据的重要特征和结构。通过学习数据分布的潜在表示来捕捉数据的内在规律和模式。
在单类嵌入模块中,数据样本被视为从某个概率分布中采样的随机变量。模型通过最大化似然函数来学习数据的嵌入表示,使得在低维空间中重建原始数据的可能性最大化。
本发明实施例中,学生模型采用了反向的ResNet结构,用于处理从单类嵌入模块传递过来的特征表示。反向的ResNet结构的目标是将从单类嵌入模块接收的特征表示映射到原始的音频数据的特征表示空间,以重建输入的音频的特征。
本发明实施例中,在训练过程中,学生模型的主要任务是通过反向传播和余弦相似度损失最小化的方式恢复教师模型对样本真实音频在不同尺度上的特征表示来模仿教师对于样本真实音频的行为。从而,本发明实施例中,学生模型通过反向知识蒸馏的方式来学习模仿教师模型的行为。学生模型从教师模型传递过来的知识中提取有用的信息,并将其用于重建音频特征。本发明实施例中,基于样本真实音频进行反向知识蒸馏的主要目的是引导学生模型只学会重建真实语音特征。从而,在待检测音频的检测阶段,学生模型的输出可以与教师模型的输出进行比较,以判定输入的待检测音频为真实音频或合成音频。
本发明实施例中,在待检测音频的推理过程中,由于教师模型的特征提取能力,它能够有效地对真实音频或者合成音频进行建模,提取对应的真实音频特征或者合成音频特征,当输入的待检测音频为合成音频时,由于学生模型缺乏对合成音频的学习,学生模型提取的特征与教师模型提取的特征会产生较大的差异。这使得通过特征的相似度来判定输入音频是真实还是合成更为可行。如果特征的相似度大于相似度预设阈值,可以判定待检测音频为真实音频,否则为合成音频。
为了便于理解,以下结合图2对本发明实施例提供的基于反向知识蒸馏的合成音频检测方法进行解释,图2示出了本发明实施例提供的基于反向知识蒸馏的合成音频检测方法的示例性流程示意图。
本发明实施例中,教师模型包括残差块1、残差块2、残差块3和残差块4。教师模型的模型参数通过预训练固定。所述教师模型的预训练过程包括:使用带标签的样本真实音频和样本合成音频,对待训练的教师模型进行训练,直至待训练的教师模型具备对真实音频和合成音频进行建模和编码的能力。
本发明实施例中,教师模型的残差块1、残差块2、残差块3和残差块4输出的不同层次的音频特征表示均输入至多尺度融合模块,多尺度融合模块对不同层次的音频特征表示进行特征融合,得到融合特征。多尺度融合模块和单层嵌入模块连接,二者作为可学习的瓶颈嵌入模块在训练过程中进行参数更新,完成训练。单层嵌入模块对对融合特征进行浓缩,得到瓶颈信息。将瓶颈信息输入学生模型。学生模型为反向的ResNet结构,包括残差块4、残差块3、残差块2和残差块1,从瓶颈信息中提取有用的信息,用于重建不同层次的音频重建特征。
本发明实施例中,分别计算教师模型和学生模型中尺度相同的对应残差块得到的音频特征和音频重建特征之间的相似度;基于该相似度和相似度预设阈值确定待检测音频是否为合成音频。
本发明实施例中,合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程包括:
冻结完成预训练的教师模型的模型参数,将样本真实音频输入教师模型,所述多尺度融合模块对教师模型每个残差块输出的不同层次的样本特征进行融合得到样本融合特征,所述单层嵌入模块对所述样本融合特征进行浓缩,得到样本瓶颈信息,所述学生模型对所述样本瓶颈信息进行重建,得到不同层次的样本重建特征;以最小化各个不同层次的样本重建特征和对应层次的样本特征的差异为目标,对所述多尺度融合模块、所述单层嵌入模块和所述学生模型的参数进行更新。
本发明实施例中,在训练过程中,学生模型和教师模型的蒸馏损失的计算公式为:
,其中,/>表示教师模型和学生模型相对应的第/>个残差块得到的特征表示的余弦相似度/>;
其中,表示教师模型有/>个残差块,/>表示教师模型的第/>个残差块得到的样本特征,/>表示学生模型的第/>个残差块得到的样本重建特征,/>表示时频域,/>表示频率维度,/>表示时间维度;/>表示蒸馏损失,是/>个残差块特征表示的余弦相似度的累积。
本发明实施例中,还可以使用其他相似性度量方法(如欧氏距离、曼哈顿距离等)衡量学生模型输出的各个不同层次的样本重建特征和教师模型输出的对应层次的样本特征的差异。相应的,在针对待检测音频进行推理的过程中,采用与训练过程相同的相似性度量方法。
本发明实施例中,在训练过程中,可以对所有样本真实语音提取常见的特征,如线性频率倒谱系数(Linear Frequency Cepstral Coefficient, LFCC)、常数Q倒谱系数(Constant Q Cepstral Coefficients , CQCC)、线性谱(Fast Fourier Transformation, FFT)等,送入反向知识蒸馏结构的教师模型中,教师模型参数固定不更新,对学生模型和可学习的瓶颈嵌入模块(多尺度融合模块和单层嵌入模块)进行更新。
如图3所示,图3示出了本发明实施例提供的基于反向知识蒸馏的合成音频检测系统中的多尺度融合模块和单层嵌入模块的模型结构示意图。
本发明实施例中,所述多尺度融合模块包括:K个卷积子模块、归一化子模块、步长为1的1×1卷积层;每个卷积子模块包括一个或多个步长为2的3×3卷积层,各个卷积子模块分别与教师模型的各个残差块相连接,分别对教师模块的各个残差块输出的不同层次的音频特征进行下采样;K个卷积子模块中每一个卷积子模块均与所述归一化子模块相连接,所述归一化子模块对k个卷积子模块的输出进行具有ReLU激活的批量归一化,以在特征连接中实现不同层次的音频特征的对齐;所述步长为1的1×1卷积层与所述归一化子模块相连接,基于对齐后的音频特征得到融合特征。
本发明实施例中,所述单层嵌入模块的模型结构与教师模型的最后一个残差块相同。
本发明实施例中,多尺度特征融合块基于特征金字塔的原理,融合来自不同层次的特征,这有助于为音频特征重建构建丰富的特征嵌入,提供多层次的信息。本发明实施例中,采用ResNet的第四个残差块作为单类嵌入模块,可以有效地处理和提取有用的特征信息。
特征金字塔是一种在计算机视觉领域常用的技术,可以用于处理不同尺度的音频特征。音频通常包含多个尺度的信息,从粗到细。特征金字塔通过构建多个尺度的特征图,使模型能够在不同尺度上检测物体和特征。特征金字塔通常由一系列卷积层组成,用于从原始音频中提取多个尺度的特征表示。
本发明实施例中,训练完成的多尺度特征融合块和单类嵌入模块可以在在反向知识蒸馏的过程中,将教师模型提取的特征信息有效地转化为学生模型所需的紧凑信息,并确保对合成音频特征扰动的抵抗,将合成音频特征表示为对真实特征的扰动。
本发明实施例中,还可以根据所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程中的累积余弦相似度,确定推理过程中的相似度预设阈值。本发明实施例中,推理过程中的相似度预设阈值不小于训练时的累积余弦相似度。
具体的,在推理过程中,可以将待检测音频输入教师模型得到音频特征,由多尺度融合模块进行特征融合、单层嵌入模块提取瓶颈信息,由学生模型对瓶颈信息进行特征重建得到音频重建特征,累积计算教师模型与学生模型对应残差块的特征表示的时频点的余弦相似度,基于预先设定的相似度预设阈值,判定待检测音频为合成音频或者真实音频。
本发明实施例中,引入反向知识蒸馏模型,学生模型采用反向的残差网络结构,学生模型对来自于教师模型的音频特征进行重建,模仿教师模型对于样本真实音频的特征提取过程,本发明实施例中,多尺度融合模块和单层嵌入模块有助于从教师模型输出的不同层次的音频特征中提取丰富的特征表示,学生模型基于多尺度融合模块和单层嵌入模块得到的瓶颈信息进行特征重建,对于合成音频,学生模型重建的特征表示与教师模型存在较大差异,从而可以基于学生模型输出的音频重建特征与教师模型输出的音频特征之间的相似度差异来判断待检测音频的真实性。由此,本发明实施例提供的基于反向知识蒸馏的合成音频检测方法不依赖于已知规则或特征,可以更好地区分真实音频和合成音频。
本发明实施例中,基于多尺度融合模块和单层嵌入模块可以有效地泛化到未知的合成算法,将教师模型提取到的合成音频特征表示为对真实特征的扰动,禁止合成扰动传播到学生模型,增强了对未知合成算法的检测能力,提高了检测方法的鲁棒性,使其能够适应不断演化的合成音频威胁。
基于同一发明构思,本发明实施例还提供了一种基于反向知识蒸馏的合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述合成音频检测系统用于执行上述任一实施例所述的方法中的步骤。
基于同一发明构思,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的方法中的步骤。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述的方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理器以产生一个机器,使得通过计算机或其他可编程终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于反向知识蒸馏的合成音频检测方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法包括:
将待检测音频输入所述教师模型,所述教师模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从小到大依次连接,依次提取待检测音频不同层次的音频特征;
将所述教师模型每个残差块输出的特征输入所述多尺度融合模块,对每个残差块输出的特征进行特征融合,得到融合特征;
将所述融合特征输入所述单层嵌入模块,所述单层嵌入模块对融合特征进行浓缩,得到瓶颈信息;
将所述瓶颈信息输入所述学生模型,所述学生模型采用反向的残差网络结构,所述学生模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从大到小依次连接,依次对得到的瓶颈信息进行重建,得到不同层次的音频重建特征;
分别计算教师模型和学生模型中尺度相同的残差块得到的音频特征和音频重建特征之间的相似度;
基于该相似度和相似度预设阈值确定待检测音频是否为合成音频。
2.根据权利要求1所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程包括:
冻结完成预训练的教师模型的模型参数,将样本真实音频输入教师模型,所述多尺度融合模块对教师模型每个残差块输出的不同层次的样本特征进行融合得到样本融合特征,所述单层嵌入模块对所述样本融合特征进行浓缩,得到样本瓶颈信息,所述学生模型对所述样本瓶颈信息进行重建,得到不同层次的样本重建特征;
以最小化各个不同层次的样本重建特征和对应层次的样本特征的差异为目标,对所述多尺度融合模块、所述单层嵌入模块和所述学生模型的参数进行更新。
3.根据权利要求2所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,蒸馏损失的计算公式为:
,其中,/>表示教师模型和学生模型相对应的第个残差块得到的特征表示的余弦相似度/>;
其中,表示教师模型有/>个残差块,/>表示教师模型的第/>个残差块得到的样本特征,/>表示学生模型的第/>个残差块得到的样本重建特征,/>表示时频域,/>表示频率维度,/>表示时间维度;/>表示蒸馏损失,是/>个残差块特征表示的余弦相似度的累积。
4.根据权利要求3所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法还包括:
根据所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程中的累积余弦相似度,确定所述相似度预设阈值。
5.根据权利要求1所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述多尺度融合模块包括:K个卷积子模块、归一化子模块、步长为1的1×1卷积层;每个卷积子模块包括一个或多个步长为2的3×3卷积层,各个卷积子模块分别与教师模型的各个残差块相连接,分别对教师模块的各个残差块输出的不同层次的音频特征进行下采样;K个卷积子模块中每一个卷积子模块均与所述归一化子模块相连接,所述归一化子模块对k个卷积子模块的输出进行具有ReLU激活的批量归一化,以在特征连接中实现不同层次的音频特征的对齐;所述步长为1的1×1卷积层与所述归一化子模块相连接,基于对齐后的音频特征得到融合特征。
6.根据权利要求1-5任一项所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述单层嵌入模块的模型结构与教师模型的最后一个残差块相同。
7.根据权利要求6所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述教师模型的预训练过程包括:
使用带标签的样本真实音频和样本合成音频,对待训练的教师模型进行训练,直至待训练的教师模型具备对真实音频和合成音频进行建模和编码的能力。
8.一种基于反向知识蒸馏的合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述合成音频检测系统用于执行上述权利要求1-7任一项所述的基于反向知识蒸馏的合成音频检测方法。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于反向知识蒸馏的合成音频检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7任一项所述的基于反向知识蒸馏的合成音频检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311649622.2A CN117351997B (zh) | 2023-12-05 | 2023-12-05 | 基于反向知识蒸馏的合成音频检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311649622.2A CN117351997B (zh) | 2023-12-05 | 2023-12-05 | 基于反向知识蒸馏的合成音频检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117351997A true CN117351997A (zh) | 2024-01-05 |
CN117351997B CN117351997B (zh) | 2024-02-23 |
Family
ID=89363581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311649622.2A Active CN117351997B (zh) | 2023-12-05 | 2023-12-05 | 基于反向知识蒸馏的合成音频检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351997B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
CN111462768A (zh) * | 2020-03-12 | 2020-07-28 | 南京邮电大学 | 基于共享训练的多尺度StarGAN的语音转换方法 |
CN113516968A (zh) * | 2021-06-07 | 2021-10-19 | 北京邮电大学 | 一种端到端长时语音识别方法 |
CN114067819A (zh) * | 2021-11-22 | 2022-02-18 | 南京工程学院 | 基于跨层相似性知识蒸馏的语音增强方法 |
CN115376484A (zh) * | 2022-08-18 | 2022-11-22 | 天津大学 | 基于多帧预测的轻量级端到端语音合成系统构建方法 |
US20220383044A1 (en) * | 2021-05-20 | 2022-12-01 | Apple Inc. | Model compression using cycle generative adversarial network knowledge distillation |
-
2023
- 2023-12-05 CN CN202311649622.2A patent/CN117351997B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
CN111462768A (zh) * | 2020-03-12 | 2020-07-28 | 南京邮电大学 | 基于共享训练的多尺度StarGAN的语音转换方法 |
US20220383044A1 (en) * | 2021-05-20 | 2022-12-01 | Apple Inc. | Model compression using cycle generative adversarial network knowledge distillation |
CN113516968A (zh) * | 2021-06-07 | 2021-10-19 | 北京邮电大学 | 一种端到端长时语音识别方法 |
CN114067819A (zh) * | 2021-11-22 | 2022-02-18 | 南京工程学院 | 基于跨层相似性知识蒸馏的语音增强方法 |
CN115376484A (zh) * | 2022-08-18 | 2022-11-22 | 天津大学 | 基于多帧预测的轻量级端到端语音合成系统构建方法 |
Non-Patent Citations (1)
Title |
---|
葛仕明;赵胜伟;刘文瑜;李晨钰;: "基于深度特征蒸馏的人脸识别", 北京交通大学学报, no. 06, pages 32 - 38 * |
Also Published As
Publication number | Publication date |
---|---|
CN117351997B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
US10373056B1 (en) | Unsupervised model building for clustering and anomaly detection | |
US10003483B1 (en) | Biologically inspired methods and systems for automatically determining the modulation types of radio signals using stacked de-noising autoencoders | |
CN109302410B (zh) | 一种内部用户异常行为检测方法、系统及计算机存储介质 | |
CN110502738A (zh) | 中文命名实体识别方法、装置、设备和查询系统 | |
CN109978060B (zh) | 一种自然语言要素抽取模型的训练方法及装置 | |
EP4053718A1 (en) | Watermark information embedding method and apparatus | |
CN110705573A (zh) | 一种目标检测模型的自动建模方法及装置 | |
CN114676458A (zh) | 一种面向预训练语言模型隐私泄露风险的评估方法及系统 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN111814489A (zh) | 口语语义理解方法及系统 | |
CN111291552A (zh) | 一种文本内容修正的方法和系统 | |
CN113763966B (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
CN117076931B (zh) | 一种基于条件扩散模型的时间序列数据预测方法和系统 | |
CN117351997B (zh) | 基于反向知识蒸馏的合成音频检测方法及系统 | |
CN114707518B (zh) | 面向语义片段的目标情感分析方法、装置、设备及介质 | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
CN112866257B (zh) | 一种域名检测方法、系统及装置 | |
CN116232699A (zh) | 细粒度网络入侵检测模型的训练方法和网络入侵检测方法 | |
CN109960934A (zh) | 一种基于cnn的恶意请求检测方法 | |
CN115329146A (zh) | 时序网络中的链路预测方法、电子设备及存储介质 | |
CN113239075A (zh) | 一种施工数据自检方法及系统 | |
Ghifary et al. | Deep hybrid networks with good out-of-sample object recognition | |
CN117593296B (zh) | 一种基于扩散模型的无参考图像质量评价方法 | |
CN116185843B (zh) | 基于神经元覆盖率引导的两阶段神经网络测试方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |