CN116229960A - 欺骗性语音鲁棒检测方法、系统、介质及设备 - Google Patents

欺骗性语音鲁棒检测方法、系统、介质及设备 Download PDF

Info

Publication number
CN116229960A
CN116229960A CN202310220320.7A CN202310220320A CN116229960A CN 116229960 A CN116229960 A CN 116229960A CN 202310220320 A CN202310220320 A CN 202310220320A CN 116229960 A CN116229960 A CN 116229960A
Authority
CN
China
Prior art keywords
model
voice
self
supervision
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310220320.7A
Other languages
English (en)
Other versions
CN116229960B (zh
Inventor
欧嵬
孟浩
黄菊
朱新宇
尹梁伟
林烨炯
程晓倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Variable Supercomputer Tech Co ltd
Original Assignee
Jiangsu Variable Supercomputer Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Variable Supercomputer Tech Co ltd filed Critical Jiangsu Variable Supercomputer Tech Co ltd
Priority to CN202310220320.7A priority Critical patent/CN116229960B/zh
Publication of CN116229960A publication Critical patent/CN116229960A/zh
Application granted granted Critical
Publication of CN116229960B publication Critical patent/CN116229960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了一种欺骗性语音鲁棒检测方法、系统、介质及设备,能够有效地应对语音合成、语音转换、重放攻击、对抗攻击等自动说话人验证(ASV)系统中可能存在的攻击方式。该方法包括:获取无标注语音数据集并进行概率性数据增强,使用预处理后的语音数据集预训练上游自监督模型提取高级语音表示,使用深度伪造语料库训练下游分类模型并微调预训练模型,训练好的模型可以对不同的攻击方式进行语音伪造的鉴别。本发明所提出的方法,能够提高鉴别欺骗性语音的鲁棒性和准确率,有效增强ASV系统身份认证的安全性。

Description

欺骗性语音鲁棒检测方法、系统、介质及设备
技术领域
本发明涉及语音鉴伪的技术领域,具体地,涉及欺骗性语音鲁棒检测方法、系统、介质及设备。
背景技术
近年来,深度伪造技术作为人工智能第三次发展浪潮的新产物迅速兴起。其虽然有很大的正向应用潜力,但对于该项技术的不当利用严重影响了各类利益及个人隐私安全。尤其是生成对抗网络和扩散模型的进步让伪造模态数据愈发真实和难以辨别,恶意行为者可能会借此传播错误信息和控制舆论。国家层面已出台各种政策和规定来约束和管理相关伪造技术的使用场景和使用规范,但仍需要从技术层面对深度伪造技术进行检测识别和反制。
对于语音领域,存在有语音合成、语音转换、重放攻击、对抗攻击等多种伪造方式。在过去的6到7年里,已经有研究者进行了大量的语音伪造检测工作,主要针对自动说话人验证(ASV)系统。ASV提供了一种低成本且灵活的身份认证方式,但恶意的伪造攻击很容易使它的可靠性和安全性消失殆尽,ASVspoof挑战因此诞生,鼓励研究者开发不同类型的伪造语音检测系统。该挑战提供了语音深度伪造领域的标准数据集以及统一的评判标准。在ASVspoof2021发布的开源数据集中,主要包括逻辑访问(LA)、物理访问(PA)、深度伪造(DF)三个分区的数据,分别采用不同的伪造方式供开发者用于评估。在之前的工作中,提出的模型往往只对某一类伪造方式有好的检测效果,但受制于成本和场景等因素,人们一直在努力寻求统一且有效的伪造检测方案。随着人工智能与深度伪造技术的快速发展,采用语音合成、重放攻击、对抗攻击等伪造方式生成的欺骗性语音愈发难以鉴别。
因此,需要提出一种新的技术方案。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种欺骗性语音鲁棒检测方法、系统、介质及设备。
根据本发明提供的一种欺骗性语音鲁棒检测方法,所述方法包括如下步骤:
步骤S1:获取无标注语音数据集并进行概率性数据增强;
步骤S2:使用步骤S1中预处理过的语音数据集进行上游自监督模型的预训练;
步骤S3:使用深度伪造语料库训练下游分类模型并微调上游自监督模型;
步骤S4:联合训练好的上游自监督模型和下游分类模型对不同的攻击方式进行语音伪造的鉴别。
优选地,所述步骤S1采用多种数据增强方法对原始音频进行处理,数据增强方法包括频域遮蔽、时域遮蔽、时间扭曲、噪声添加、混响添加;将数据增强方法设定为概率性事件对数据集进入模型前进行预处理。
优选地,所述步骤S2中的上游自监督模型负责提取语音表征,采用多任务自监督学习的形式,使用预处理后的语音数据集进行模型的训练,上游自监督模型包括编码器和多个工作者;
构造不同的自监督任务使模型从多个角度提取语音表征,训练出的语音表征适应包括ASR、ASV、情感识别的多种不同语音相关的自监督任务,不同的自监督任务称为工作者。
优选地,所述步骤S3中的下游分类模型执行不同方式伪造语音的实际分类工作,采用多级SE-ResNeXt进行模型的搭建,进行鉴伪。
本发明还提供一种欺骗性语音鲁棒检测系统,所述系统包括如下模块:
模块M1:获取无标注语音数据集并进行概率性数据增强;
模块M2:使用模块M1中预处理过的语音数据集进行上游自监督模型的预训练;
模块M3:使用深度伪造语料库训练下游分类模型并微调上游自监督模型;
模块M4:联合训练好的上游自监督模型和下游分类模型对不同的攻击方式进行语音伪造的鉴别。
优选地,所述模块M1采用多种数据增强系统对原始音频进行处理,数据增强系统包括频域遮蔽、时域遮蔽、时间扭曲、噪声添加、混响添加;将数据增强系统设定为概率性事件对数据集进入模型前做好预处理。
优选地,所述模块M2中的上游自监督模型负责提取语音表征,采用多任务自监督学习的形式,使用预处理后的语音数据集进行模型的训练,上游自监督模型包括编码器和多个工作者;
构造不同的自监督任务使模型从多个角度提取语音表征,训练出的语音表征适应包括ASR、ASV、情感识别的多种不同语音相关的自监督任务,不同的自监督任务称为工作者。
优选地,所述模块M3中的下游分类模型执行不同方式伪造语音的实际分类工作,采用多级SE-ResNeXt进行模型的搭建,进行鉴伪。
本发明还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中的欺骗性语音鲁棒检测方法的步骤。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现上述中的欺骗性语音鲁棒检测方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种统一的伪造检测模型,能够有效检测不同伪造方式生成的欺骗性语音;核心是采用多任务自监督学习的前端模型进行表征提取,根据不同类型伪造方式的特点制定不同的解码任务,从而使提取的语音表征能够有效适应下游的伪造分类;
2、本发明设定概率性的数据增强事件,如时间扭曲、频谱掩蔽、高斯噪声等,增强模型的鲁棒性,从而有效防止可能威胁反欺骗系统安全的对抗性攻击;
3、本发明基于多级的ResNeXt网络进行后端分类,同时加入SE结构,从而更好地获得输入信息的深度特征,提升分类准确率;
4、本发明通过在ASV系统的身份认证前检测原始音频,可以得到音频的真伪置信度;使用无标注数据和有标注数据分别训练构建好的上游自监督模型和下游分类模型,达到较好的模型拟合和推理效果,从而检测出语音合成、语音转换、重放语音等多种伪造方式的语音,并具有良好的鲁棒性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的整体架构图;
图2为本发明上游多任务自监督学习模型整体架构图;
图3为本发明模型预训练使用的语音数据增强方式图;
图4为本发明非线性投影层架构图;
图5为本发明ResNet的Bottleneck Block结构图;
图6为本发明ResNeXt的Bottleneck Block结构图;
图7为本发明压缩-激励(SE)模块结构图;
图8为本发明后端鉴伪分类模型结构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
根据本发明提供的一种欺骗性语音鲁棒检测方法,所述方法包括如下步骤:
步骤S1:获取无标注语音数据集并进行概率性数据增强;采用多种数据增强方法对原始音频进行处理,数据增强方法包括频域遮蔽、时域遮蔽、时间扭曲、噪声添加、混响添加;将数据增强方法设定为概率性事件对数据集进入模型前进行预处理。
步骤S2:使用步骤S1中预处理过的语音数据集进行上游自监督模型的预训练;上游自监督模型负责提取语音表征,采用多任务自监督学习的形式,使用预处理后的语音数据集进行模型的训练,上游自监督模型包括编码器和多个工作者;构造不同的自监督任务使模型从多个角度提取语音表征,训练出的语音表征适应包括ASR、ASV、情感识别的多种不同语音相关的自监督任务,不同的自监督任务称为工作者。
步骤S3:使用深度伪造语料库训练下游分类模型并微调上游自监督模型;下游分类模型执行不同方式伪造语音的实际分类工作,采用多级SE-ResNeXt进行模型的搭建,进行鉴伪。
步骤S4:联合训练好的上游自监督模型和下游分类模型对不同的攻击方式进行语音伪造的鉴别。
本发明还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中的欺骗性语音鲁棒检测方法的步骤。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现上述中的欺骗性语音鲁棒检测方法的步骤。
本发明还提供一种欺骗性语音鲁棒检测系统,所述欺骗性语音鲁棒检测系统可以通过执行所述欺骗性语音鲁棒检测方法的流程步骤予以实现,即本领域技术人员可以将所述欺骗性语音鲁棒检测方法理解为所述欺骗性语音鲁棒检测系统的优选实施方式。
实施例2:
本发明还提供一种欺骗性语音鲁棒检测系统,所述系统包括如下模块:
模块M1:获取无标注语音数据集并进行概率性数据增强;采用多种数据增强系统对原始音频进行处理,数据增强系统包括频域遮蔽、时域遮蔽、时间扭曲、噪声添加、混响添加;将数据增强系统设定为概率性事件对数据集进入模型前做好预处理。
模块M2:使用模块M1中预处理过的语音数据集进行上游自监督模型的预训练;上游自监督模型负责提取语音表征,采用多任务自监督学习的形式,使用预处理后的语音数据集进行模型的训练,上游自监督模型包括编码器和多个工作者;构造不同的自监督任务使模型从多个角度提取语音表征,训练出的语音表征适应包括ASR、ASV、情感识别的多种不同语音相关的自监督任务,不同的自监督任务称为工作者。
模块M3:使用深度伪造语料库训练下游分类模型并微调上游自监督模型;下游分类模型执行不同方式伪造语音的实际分类工作,采用多级SE-ResNeXt进行模型的搭建,进行鉴伪。
模块M4:联合训练好的上游自监督模型和下游分类模型对不同的攻击方式进行语音伪造的鉴别。
实施例3:
随着人工智能与深度伪造技术的快速发展,采用语音合成、重放攻击、对抗攻击等伪造方式生成的欺骗性语音愈发难以鉴别。面对日新月异的伪造技术出现,本发明需要一种泛化性强和鲁棒性高的检测模型予以应对。在本文中,本发明提出了一种统一的伪造语音检测模型,目的是抵御ASV系统中可能存在的各种攻击方式。前端采用自监督学习模型提取语音表征,设定概率性的数据增强事件以提升模型的对抗攻击鲁棒性,根据不同伪造类型的特点制定多个解码任务;后端基于SE-ResNeXt网络实现伪造语音的分类和推理,采用多层特征聚合(MFA)提升模型的分类性能。
近年来,深度伪造技术作为人工智能第三次发展浪潮的新产物迅速兴起。其虽然有很大的正向应用潜力,但对于该项技术的不当利用严重影响了各类利益及个人隐私安全。尤其是生成对抗网络和扩散模型的进步让伪造模态数据愈发真实和难以辨别,恶意行为者可能会借此传播错误信息和控制舆论。国家层面已出台各种政策和规定来约束和管理相关伪造技术的使用场景和使用规范,但仍需要从技术层面对深度伪造技术进行检测识别和反制。
对于语音领域,存在有语音合成、语音转换、重放攻击、对抗攻击等多种伪造方式。在过去的6到7年里,已经有研究者进行了大量的语音伪造检测工作,主要针对自动说话人验证(ASV)系统。ASV提供了一种低成本且灵活的身份认证方式,但恶意的伪造攻击很容易使它的可靠性和安全性消失殆尽,ASVspoof挑战因此诞生,鼓励研究者开发不同类型的伪造语音检测系统。该挑战提供了语音深度伪造领域的标准数据集以及统一的评判标准。在ASVspoof2021发布的开源数据集中,主要包括逻辑访问(LA)、物理访问(PA)、深度伪造(DF)三个分区的数据,分别采用不同的伪造方式供开发者用于评估。在之前的工作中,提出的模型往往只对某一类伪造方式有好的检测效果,但受制于成本和场景等因素,人们一直在努力寻求统一且有效的伪造检测方案。
针对目前迫切的安全需求和上面提及的问题,本发明提出了一种应对多种语音伪造技术的鲁棒检测鉴别模型,主要的工作有以下几点:
(1)提出了一种统一的伪造检测模型,能够有效检测不同伪造方式生成的欺骗性语音。核心是采用多任务自监督学习的前端模型进行表征提取,根据不同类型伪造方式的特点制定不同的解码任务,从而使提取的语音表征能够有效适应下游的伪造分类。
(2)设定概率性的数据增强事件,如时间扭曲、频谱掩蔽、高斯噪声等,增强模型的鲁棒性,从而有效防止可能威胁反欺骗系统安全的对抗性攻击。
(3)基于多级的ResNeXt网络进行后端分类,同时加入SE结构,从而更好地获得输入信息的深度特征,提升分类准确率。
语音自监督学习:绝大多数的语音分类任务中都采用Fbank、STFT、MFCC、LFCC等手工特征作为模型的输入,这样的局限性是无法避免手工特征中冗余的无用信息。而自监督学习模型在学习有意义的潜在表征的同时重构原始输入,优质表征能够显著提升下游任务的评估表现。
业界提出了wav2vec、Mockingjay等语音自监督学习模型。wav2vec主要用于语音识别,通过多层CNN和对比学习来提取语音表征。Mockingjay是BERT架构在语音领域的一个应用,基于Transformer双向编码器,通过预测掩蔽帧来进行模型预训练。2019年,Pascual等人提出了一种称为PASE的多任务自监督方法,用于学习不确定问题的高级语音表示。PASE的改进版本PASE+在多种下游任务上具有更出色的性能。2020年,Jiang等人受PASE+的启发,提出了一种基于多任务自监督学习的伪造语音检测方案SSAD,该方法可以帮助编码器提取面向深度伪造检测更针对性的高级表征。与PASE+所强调的问题无关性相比,SSAD面向伪造检测问题重新定义任务,从而达成了很好的效果,但是SSAD只针对于LA的伪造方式,在本发明的工作里则利用自定义多任务的灵活性同时解决多种伪造方式的检测问题。
语音深度伪造检测:近年来,研究人员在语音伪造检测领域提出了许多表现优秀的检测方法,主要是从三个方面进行创新:前端特征、模型架构和损失函数。2019年,Alzantot等人提出了一种基于深度ResNet的检测方案,针对三种不同的前端特征(MFCC、频谱图、CQCC)进行分数融合,从而提升模型表现;Jung等人使用高分辨率的频谱特征对重放语音进行端到端的检测,有较好的性能;2020年,Yang等人提出一种利用多通道音频中的频谱和空间信息的检测模型,性能显著提高;同年,Zhang等人为伪造语音二分类问题设计了一种新的损失函数OC-Softmax,通过紧密化真实语音表征作更好的区分;另外,Wu等人基于Mockingjay设计方案抵御反欺骗模型在黑盒场景可能受到的对抗性攻击;2021年,Gao等人利用二维DCT变换提取对数梅尔谱图上捕捉伪造音频的伪影,得到长时频谱-时间调制特征GlobalM,相比于MFCC等音频特征具有更好的性能和泛化性。
每种模型方法所能应对的语音伪造方式如表1所示,从中可以看出,先前的方法均没有为不同的伪造方式提出统一的解决方案,而这就是本发明的工作所要做的。
表1各类欺骗对策所能应对的伪造方式
Figure BDA0004116385840000071
检测鉴别模型:本发明的伪造语音检测鉴别模型主要由上游模型和下游模型两部分组成,总体架构如图1所示。上游模型主要负责提取有效且有任务指向性的语音表征,采用多任务自监督学习的形式进行模型的训练,其主要由编码器和多个工作者(Workers)组成;下游模型主要负责执行不同方式伪造语音的实际分类工作,采用多级SE-ResNeXt进行模型的搭建,最终达到鉴伪的目的。
上游模型:提取语音表征信息的优劣直接影响到下游任务的具体表现及拟合效果。采用多任务自监督学习来提取特征的优点是:一方面,自监督学习的形式不需要监督性的标注数据,从而容易利用大型数据集训练模型,充分使模型理解音频语义信息;另一方面,相比于单纯的自编码器提取语音表征,多任务的形式使得本发明提取的特征包含不同任务中的知识,同时本发明可以定制任务使模型适应下游逻辑。
模型架构:本发明的上游模型主要由前端编码器和多个不同驱动任务的小型解码器组成,整体架构如图2所示。首先,通过不同数据增强方法增强后的音频数据在SincNet卷积滤波器的作用下,得到更为有效的低维特征;之后,中间特征经过七层一维的卷积网络结构,使模型能够更好地聚焦于局部关键信息;为了使模型能更好地学习到数据的长期依赖关系,本发明使用Transformer编码器对特征表示进行映射;最后通过非线性投影层以得到编码好的表征。
主要的改进有以下几点:
语音数据增强:采用多种数据增强方式对原始音频进行处理,包括频域遮蔽、时域遮蔽、时间扭曲、噪声添加、混响添加等。本发明将这些增强方法设定为概率性事件以对本发明的数据集进入模型前做好预处理,如图3所示。其目的有三个方面:第一是充分提升训练数据的利用价值,适当的数据增强可以增强模型的性能;第二是抵御对抗性攻击。对抗性攻击是通过污染输入数据而影响模型的推理结果。本发明的数据增强能够提高模型的鲁棒性,使其不容易受噪声点的干扰,削减黑盒对抗攻击的作用;第三是对于下游的重放攻击检测,重放质量和环境因素很大程度影响检测结果,而通过数据增强能尽量无关因素的影响,提升物理访问的检测效果。
Transformer编码器:本发明使用Transformer编码器捕获特征的长期依赖关系,其中的多头注意力机制可以综合各方面的信息特征,事实证明,Transfomer在语音信息的编码处理上相比于RNN更为有效。
非线性投影(Nonlinear Projection):使用非线性投影相比线性层可以提升之前层的表征质量。尤其是对比学习(分类任务)当中,非线性投影可以避免在训练最大化正例相似度时丢掉重要的特征信息。在这里本发明采用两层线性层的感知机结构来进行投影。
组归一化(Group Normalization):Batch Normalization和GroupNormalization作为常见的两种归一化方法,都能够对网络层的输入值进行约束规范,有效防止梯度消失和梯度爆炸的问题。但Batch Normalization在批量大小设置较小时,归一化后的统计结果可靠性低,对最后的模型推理性能有较大的影响,而Group Normalization计算不依赖批量大小,而能保持与前者相似的性能,所以本发明采用它代替BatchNormalization放在模型架构当中。
工作者:构造不同的自监督任务可以使模型从多个角度提取语音表征,这种方式可以使训练出的语音表征适应包括ASR、ASV、情感识别等多种不同语音相关的任务,这些不同的自监督任务可以称为工作者(Workers)。但当本发明的下游任务已经确定时,便可以有指向性地构造工作者来提升表征在下游任务的表现。在本发明的伪造检测工作中,共构建了8个工作者,其解码器均为小型的前馈神经网络(隐藏层为256个神经元)。本发明将工作者按照解码任务类型分为两大类:回归任务是通过中间层的语义信息在每个帧步长上重建不同维度的信号特征,通过均方误差(MSE)衡量重建的质量好坏;分类任务实际是采用对比学习的方式,构建采样策略,来使模型学习到数据中的一般特征。下面将介绍工作者中本发明根据伪造检测自定义的解码任务。
回归任务(信号特征):CQT:CQT是用一组恒Q滤波器对时域语音信号进行滤波,其滤波器组中心频率按指数规律分布,中心频率与带宽比为恒定因子Q,这与人耳类似,因此在伪造语音检测中性能较优。
CQCC:CQCC是语音伪造检测中很常用且效果很优秀的一种信号特征,通过时域分析常数Q(CQT)提取。本发明通过计算功率谱,并做均匀重采样和DCT,最后获得90维CQCC特征向量。
TECC:在重放语音检测中经常使用。本发明通过Gabor滤波器和TECO分别计算子带滤波信号和能量值,最后得到倒谱系数和动态差分系数。
分类任务:LIM:这个任务主要聚焦于局部感受野,使模型能够从局部提取说话人身份信息。本发明选择的正样本是和当前样本来自相同句子的中间表征信息,而负样本是句子不同且说话人不同的中间表征信息,通过逼近正样本并与负样本的距离最大化实现模型训练。
GIM:与上面的任务不同的是,GIM着眼全局语义信息。当前样本为长度1秒的所有帧级特征的平均,正样本与当前样本相同句子且相同长度,负样本则是用同样方法计算的来自另一个句子的帧级特征平均值。
多任务优化:利用多重梯度下降算法(MGDA)对该问题进行多目标优化,利用Frank-Wolfe算法求得不同损失值得权重,找到一个使所有任务均有优化的帕累托最优解,其优化目标如下面的公式所示。
Figure BDA0004116385840000101
后端模型:
SE-ResNeXt:为提升后端模型的分类准确率,本发明使用SE-ResNeXt网络架构进行语音表示的深度特征学习。ResNeXt是在ResNet基础上借鉴Inception思想得到的架构方法,其核心是分组卷积。通过堆叠相同拓扑结构的模块来转换特征图,输出结果相加融合来提高模型的表达能力。如图5和图6所示,二者主要区别在瓶颈块(BottleneckBlock)的残差结构中。分组的数量由作为超参数的基数来控制。
SE块结构主要包括压缩(Squeeze)和激励(Excitation)两个部分。压缩部分对输入进行卷积池化的转换,最终映射为一个数值,该数值具有全局感受野,使全局信息可以被较低层利用,提升模型的泛化性;激励部分将全局信息数据映射为权重向量,与原有的特征图相乘,即可自适应获取每个特征通道的权重。SE模块的具体结构如图7所示。
模型架构:首先,本发明将SE模块嵌入ResNeXt网络的残差结构中,形成一个整体的网络区块。串联三个SE-ResNeXt块以提升模型的分类能力和泛化能力。但特征在经过多层残差卷积的降维以后,难免会造成信息损失。于是,本发明采用多层特征聚合(MFA)的方式,将每个网络块的输出特征映射进行连接融合,从而保留了浅层网络特征的稳定性和深层网络特征的复杂度。网络的最后使用全局平均池化代替全连接层防止过拟合,最后使用LogSoftmax进行语音真伪的分类。
本发明提出了一种应对多种语音伪造技术的自监督鲁棒检测鉴别模型。分别从上游模型和下游模型入手,优化模型架构,提升深度伪造类型分类效果以及检测分数。上游采用多任务自监督学习模型,由编码器和多个工作者组成。基于SincNet滤波器、多层卷积网络、Transformer编码器等模块构建编码器,并适应下游深度伪造检测任务设定回归和分类的多个工作者,下游基于SE-ResNeXt改进模型架构,从而提升检测准确率和模型的泛化性。对原始音频进行概率性的多种语音数据增强,提升模型的鲁棒性和抵御对抗性攻击的能力。在未来的工作中,本发明将会改进模型架构来更好地利用海量语料数据、提升检测能力;对于新的伪造方式(如克隆重放攻击)展开跨数据库的实验研究,并将语音伪造检测用于各类存在安全威胁的应用场景中。
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种欺骗性语音鲁棒检测方法,其特征在于,所述方法包括如下步骤:
步骤S1:获取无标注语音数据集并进行概率性数据增强;
步骤S2:使用步骤S1中预处理过的语音数据集进行上游自监督模型的预训练;
步骤S3:使用深度伪造语料库训练下游分类模型并微调上游自监督模型;
步骤S4:联合训练好的上游自监督模型和下游分类模型对不同的攻击方式进行语音伪造的鉴别。
2.根据权利要求1所述的欺骗性语音鲁棒检测方法,其特征在于,所述步骤S1采用多种数据增强方法对原始音频进行处理,数据增强方法包括频域遮蔽、时域遮蔽、时间扭曲、噪声添加、混响添加;将数据增强方法设定为概率性事件对数据集进入模型前进行预处理。
3.根据权利要求1所述的欺骗性语音鲁棒检测方法,其特征在于,所述步骤S2中的上游自监督模型负责提取语音表征,采用多任务自监督学习的形式,使用预处理后的语音数据集进行模型的训练,上游自监督模型包括编码器和多个工作者;
构造不同的自监督任务使模型从多个角度提取语音表征,训练出的语音表征适应包括ASR、ASV、情感识别的多种不同语音相关的自监督任务,不同的自监督任务称为工作者。
4.根据权利要求1所述的欺骗性语音鲁棒检测方法,其特征在于,所述步骤S3中的下游分类模型执行不同方式伪造语音的实际分类工作,采用多级SE-ResNeXt进行模型的搭建,进行鉴伪。
5.一种欺骗性语音鲁棒检测系统,其特征在于,所述系统包括如下模块:
模块M1:获取无标注语音数据集并进行概率性数据增强;
模块M2:使用模块M1中预处理过的语音数据集进行上游自监督模型的预训练;
模块M3:使用深度伪造语料库训练下游分类模型并微调上游自监督模型;
模块M4:联合训练好的上游自监督模型和下游分类模型对不同的攻击方式进行语音伪造的鉴别。
6.根据权利要求5所述的欺骗性语音鲁棒检测系统,其特征在于,所述模块M1采用多种数据增强系统对原始音频进行处理,数据增强系统包括频域遮蔽、时域遮蔽、时间扭曲、噪声添加、混响添加;将数据增强系统设定为概率性事件对数据集进入模型前做好预处理。
7.根据权利要求5所述的欺骗性语音鲁棒检测系统,其特征在于,所述模块M2中的上游自监督模型负责提取语音表征,采用多任务自监督学习的形式,使用预处理后的语音数据集进行模型的训练,上游自监督模型包括编码器和多个工作者;
构造不同的自监督任务使模型从多个角度提取语音表征,训练出的语音表征适应包括ASR、ASV、情感识别的多种不同语音相关的自监督任务,不同的自监督任务称为工作者。
8.根据权利要求5所述的欺骗性语音鲁棒检测系统,其特征在于,所述模块M3中的下游分类模型执行不同方式伪造语音的实际分类工作,采用多级SE-ResNeXt进行模型的搭建,进行鉴伪。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的欺骗性语音鲁棒检测方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的欺骗性语音鲁棒检测方法的步骤。
CN202310220320.7A 2023-03-08 2023-03-08 欺骗性语音鲁棒检测方法、系统、介质及设备 Active CN116229960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310220320.7A CN116229960B (zh) 2023-03-08 2023-03-08 欺骗性语音鲁棒检测方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310220320.7A CN116229960B (zh) 2023-03-08 2023-03-08 欺骗性语音鲁棒检测方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN116229960A true CN116229960A (zh) 2023-06-06
CN116229960B CN116229960B (zh) 2023-10-31

Family

ID=86574781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310220320.7A Active CN116229960B (zh) 2023-03-08 2023-03-08 欺骗性语音鲁棒检测方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN116229960B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994590A (zh) * 2023-09-27 2023-11-03 中国信息通信研究院 一种深度伪造音频鉴别方法和系统
CN118212937A (zh) * 2024-03-18 2024-06-18 哈尔滨工程大学 一种基于特征融合和单分类的语音欺诈检测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130208881A1 (en) * 2012-02-13 2013-08-15 Tata Consultancy Services Limited System for Conversation Quality Monitoring of Call Center Conversation and a Method Thereof
CN111564163A (zh) * 2020-05-08 2020-08-21 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
US20210075806A1 (en) * 2019-09-11 2021-03-11 Artificial Intelligence Foundation, Inc. Rapid Model Retraining for a New Attack Vector
CN113593611A (zh) * 2021-07-26 2021-11-02 平安科技(深圳)有限公司 语音分类网络训练方法、装置、计算设备及存储介质
CN114117047A (zh) * 2021-11-29 2022-03-01 上海欣方智能系统有限公司 一种基于c4.5算法对非法语音进行分类的方法及系统
CN114627856A (zh) * 2022-03-30 2022-06-14 杭州网易智企科技有限公司 语音识别方法、装置、存储介质及电子设备
WO2022141868A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 一种提取语音特征的方法、装置、终端及存储介质
CN114937465A (zh) * 2022-05-18 2022-08-23 北京中科智加科技有限公司 一种基于自监督学习的语音情感识别方法和计算机设备
CN115171725A (zh) * 2022-06-15 2022-10-11 厦门快商通科技股份有限公司 一种基于自监督的防语音合成攻击方法和系统
CN115376498A (zh) * 2022-08-26 2022-11-22 杭州网易智企科技有限公司 语音识别方法、模型训练方法、装置、介质、电子设备
CN115662441A (zh) * 2022-12-29 2023-01-31 北京远鉴信息技术有限公司 一种基于自监督学习的语音鉴伪方法、装置及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130208881A1 (en) * 2012-02-13 2013-08-15 Tata Consultancy Services Limited System for Conversation Quality Monitoring of Call Center Conversation and a Method Thereof
US20210075806A1 (en) * 2019-09-11 2021-03-11 Artificial Intelligence Foundation, Inc. Rapid Model Retraining for a New Attack Vector
CN111564163A (zh) * 2020-05-08 2020-08-21 宁波大学 一种基于rnn的多种伪造操作语音检测方法
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
WO2022141868A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 一种提取语音特征的方法、装置、终端及存储介质
CN113593611A (zh) * 2021-07-26 2021-11-02 平安科技(深圳)有限公司 语音分类网络训练方法、装置、计算设备及存储介质
CN114117047A (zh) * 2021-11-29 2022-03-01 上海欣方智能系统有限公司 一种基于c4.5算法对非法语音进行分类的方法及系统
CN114627856A (zh) * 2022-03-30 2022-06-14 杭州网易智企科技有限公司 语音识别方法、装置、存储介质及电子设备
CN114937465A (zh) * 2022-05-18 2022-08-23 北京中科智加科技有限公司 一种基于自监督学习的语音情感识别方法和计算机设备
CN115171725A (zh) * 2022-06-15 2022-10-11 厦门快商通科技股份有限公司 一种基于自监督的防语音合成攻击方法和系统
CN115376498A (zh) * 2022-08-26 2022-11-22 杭州网易智企科技有限公司 语音识别方法、模型训练方法、装置、介质、电子设备
CN115662441A (zh) * 2022-12-29 2023-01-31 北京远鉴信息技术有限公司 一种基于自监督学习的语音鉴伪方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乌婷婷;: "针对多种伪造操作的数字语音取证算法", 无线通信技术, no. 03 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994590A (zh) * 2023-09-27 2023-11-03 中国信息通信研究院 一种深度伪造音频鉴别方法和系统
CN116994590B (zh) * 2023-09-27 2023-12-15 中国信息通信研究院 一种深度伪造音频鉴别方法和系统
CN118212937A (zh) * 2024-03-18 2024-06-18 哈尔滨工程大学 一种基于特征融合和单分类的语音欺诈检测方法

Also Published As

Publication number Publication date
CN116229960B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN116229960B (zh) 欺骗性语音鲁棒检测方法、系统、介质及设备
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN113488073B (zh) 一种基于多特征融合的伪造语音检测方法及装置
CN109545227A (zh) 基于深度自编码网络的说话人性别自动识别方法及系统
CN113221673A (zh) 基于多尺度特征聚集的说话人认证方法及系统
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN114495950A (zh) 一种基于深度残差收缩网络的语音欺骗检测方法
Imran et al. An analysis of audio classification techniques using deep learning architectures
CN115910097A (zh) 一种高压断路器潜伏性故障可听声信号识别方法及系统
Li et al. Long-term variable Q transform: A novel time-frequency transform algorithm for synthetic speech detection
Qin et al. Multi-branch feature aggregation based on multiple weighting for speaker verification
CN110232927A (zh) 说话人验证反欺骗方法和装置
Pan et al. Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection
CN113450806A (zh) 语音检测模型的训练方法以及相关方法、装置、设备
CN115132221A (zh) 一种人声分离的方法、电子设备和可读存储介质
Alsulaiman et al. Comparison of voice features for Arabic speech recognition
CN116386648A (zh) 跨域语音鉴伪方法和系统
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
Dua et al. Audio Deepfake Detection Using Data Augmented Graph Frequency Cepstral Coefficients
CN116189710A (zh) 语音欺骗检测方法及装置
CN115831099A (zh) 基于残差注意力网络的语音鉴伪方法及系统
Shofiyah et al. Voice recognition system for home security keys with mel-frequency cepstral coefficient method and backpropagation artificial neural network
Al-Irhayim et al. Speech recognition of isolated Arabic words via using wavelet transformation and fuzzy neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant