CN110473569A - 检测说话人欺骗攻击的优化方法及系统 - Google Patents

检测说话人欺骗攻击的优化方法及系统 Download PDF

Info

Publication number
CN110473569A
CN110473569A CN201910858649.XA CN201910858649A CN110473569A CN 110473569 A CN110473569 A CN 110473569A CN 201910858649 A CN201910858649 A CN 201910858649A CN 110473569 A CN110473569 A CN 110473569A
Authority
CN
China
Prior art keywords
audio
random
spectrum signature
spoofing attack
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910858649.XA
Other languages
English (en)
Inventor
俞凯
王鸿基
丁翰林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201910858649.XA priority Critical patent/CN110473569A/zh
Publication of CN110473569A publication Critical patent/CN110473569A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供一种检测说话人欺骗攻击的优化方法。该方法包括:接收带有真实标签或欺骗标签的训练数据集,对训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对频谱特征进行随机遮掩;将随机遮掩后的各频谱特征输入至神经网络模型,通过神经网络模型确定出随机遮掩后各音频的后验概率,根据真实标签或欺骗标签以及随机遮掩后各音频的后验概率对神经网络模型进行训练,确定说话人欺骗攻击检测模型;将待测音频输入,确定欺骗攻击检测结果。本发明实施例还提供一种检测说话人欺骗攻击的优化系统。本发明实施例通过改进的频谱特征的数据增强,可以在数据量受限的训练数据集上训练,得到泛化性能较高的模型,提高系统的整体性能。

Description

检测说话人欺骗攻击的优化方法及系统
技术领域
本发明涉及音频检测领域,尤其涉及一种检测说话人欺骗攻击的优化方法及系统。
背景技术
说话人欺骗检测技术通常用于说话人识别系统中,用于检测输入的音频是欺骗攻击还是真实音频,根据是否在传感器级别执行欺骗攻击,它们可以分为两类:具有语音合成(SS)和语音转换(VC)攻击的逻辑访问(LA)条件,以及具有重放的物理访问(PA)条件攻击。开发反欺骗系统是为了保护说话人识别系统免受恶意欺骗攻击,并确保真正的(真实的)说话人身份。
常用的技术是基于频谱特征(即傅里叶变换之后的特征)的说话人欺骗检测系统,系统采用的模型可以是简单的混合高斯模型,也可以是深度神经网络模型。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
这些技术的问题在于其泛化性能较差,表现在:集内测试时,由于测试集中加入了新的欺骗类型,验证集和测试集往往有较大的性能差距;跨数据集测试时,性能往往远差于集内测试的性能。由于在训练集中缺少和测试集相似的数据类型(欺骗类型),导致训练出来的模型对于训练中未见过的数据无法做出准确的检测判断。数据的差异表现为录音配置(如播放设备、录音设备和录音环境等)之间的不同,这种不同在跨数据集测试的时候更尤明显,所以跨数据集测试的性能往往更差。
发明内容
为了至少解决现有技术中欺骗攻击检测模型的对于训练中未见过的数据,检测性能较差,在跨数据集测试的性能更差的问题。
第一方面,本发明实施例提供一种检测说话人欺骗攻击的优化方法,包括:
接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;
将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;
将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。
第二方面,本发明实施例提供一种检测说话人欺骗攻击的优化系统,包括:
频谱特征确定程序模块,用于接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;
模型训练程序模块,用于将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;
录音检测程序模块,用于将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的检测说话人欺骗攻击的优化方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的检测说话人欺骗攻击的优化方法的步骤。
本发明实施例的有益效果在于:使用本方法所改进的频谱特征的数据增强,可以在数据量受限的训练数据集上训练,得到泛化性能较高的模型,跨数据集检测效果更好,大大提高欺骗攻击检测系统的整体性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的流程图;
图2是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的用于欺骗检测的频率屏蔽设置列表数据图;
图3是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的每个数据集的训练和测试集中的单个欺骗攻击类型的数量列表数据图;
图4是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的每个数据集的话语数量和总体子集持续时间的列表数据图;
图5是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的模型架构图;
图6是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的训练结果列表数据图;
图7是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的训练数据集和评估数据集之间的交叉数据集EER的列表数据图;
图8是本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的跨数据集评估列表数据图;
图9是本发明一实施例提供的一种检测说话人欺骗攻击的优化系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种检测说话人欺骗攻击的优化方法的流程图,包括如下步骤:
S11:接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;
S12:将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;
S13:将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。
在本实施方式中,要解决这些缺陷,最直观的想法就是往训练集里面加入更多不同类型的数据(涵盖更多的欺骗类型数据),这样便可以提升测试集中相应数据类型数据的预测准确性,这一点对于真实应用场景具有重要的意义(实际中欺骗类型是无法全部枚举的)。然而,收集带标签的欺骗数据本身就是费力费钱的,收集到的数据永远是不够的。进而首次将频谱特征增强使用在说话人欺骗检测任务上并验证了其有效性。由于识别不同任务适合的增强方法不同,频谱特征增强中的裁剪、旋转、调音等方法对于说话人欺骗检测任务并不合适,进而需要确定适合的增强方式。
对于步骤S11,在训练中,接收知道是否为真实语音或是欺骗攻击语音的带有真实标签或欺骗标签的训练数据集,例如,对于输入的音频,使用傅里叶变换等信号处理操作,得到各训练数据语音音频的频谱特征。然后再对所述各训练数据语音音频的频谱特征进行随机遮掩,通过随机遮掩,来模拟现实的欺骗场景中未知的数据。有了多种类型的数据进行训练,可以防止过拟合的数据导致的模型性能过拟合。
对于步骤S12,将在步骤S11中随机遮掩后的各频谱特征输入至神经网络模型,例如,模型可以采用LightCNN模型,通过该LightCNN模型,输出各音频的后验概率,通过后验概率来判断模型对各训练音频的检测结果是真实音频还是欺骗攻击。根据预先知道的带有真实标签或欺骗标签,来对所述后验概率验证,从而对所述神经网络进行训练,将训练后的神经网络确定为说话人欺骗攻击检测模型。
对于步骤S13,将待测的音频输入到在步骤S12中训练的说话人欺骗攻击检测模型中进行检测,从而确定所述待测音频是否为欺骗攻击。对于步骤的更进一步的数据实施,下文中会具体说明。
通过该实施方式可以看出,使用遮掩一部分频段的频谱特征增强方法可以通过遮掩掉一些频段产生不同的数据,提高了数据的多样性,使得模型在有限的数据集上看到了更多不同的训练样本,这样有利于模型提高其泛化性能。通过本方法所改进的频谱特征的数据增强,可以在数据量受限的训练数据集上训练,得到泛化性能较高的模型,跨数据集检测效果更好,大大提高系统的整体性能。
作为一种实施方式,在本实施例中,所述频谱特征的维度为时域*频域;
所述随机掩模包括:随机屏蔽音频帧、随机屏蔽所述频谱特征的频域、对所述频谱特征的时域进行音频帧变形。
在本实施方式中,对于频谱特征X,其维度为T*F(T为时域,F为频域),从而可以在各维度进行随机遮掩。例如,遮掩所述频谱特征的频域、频谱特征的时域进行帧变形,或是直接屏蔽掉部分音频帧。
更进一步地,所述随机屏蔽所述频谱特征的频域包括:
随机遮掩所述频谱特征的低频段信号或中频段信号或高频段信号,以使模型的训练聚焦于非遮掩的音频区域。
例如,随机遮掩掉频域F上的一小段频率段,遮掩的频率段可进一步细化分为低频段、中频段、高频段。
通过该实施方式可以看出,对频谱特征进行精细划分,进行随机遮掩,有效的使模型训练聚焦于非遮掩的音频区域中,避免训练过拟合。
作为一种实施方式,在本实施例中,在所述接收带有真实标签或欺骗标签的训练数据集之后,所述方法还包括:
将所述训练数据集划分为第一数据集和第二数据集,其中所述第一数数据集中音频的数量大于等于第二数据集;
将所述第一数据集用于训练所述说话人欺骗攻击检测模型,通过所述第二数据集对所述说话人欺骗攻击检测模型进行校验,根据所述校验的结果对所述说话人欺骗攻击检测模型进一步训练。
在本实施方式中,将数据集分为两个部分,一部分用于训练,一部分用于校验测试,用于校验测试的数据集不需要大量的数据,仅提取数据集中少量的数据即可。根据不同的训练目标,可以调整两个部分的数据量。特殊的情况下,两个部分的数据量可以相等。
根据校验的结果,对所述说话人欺骗攻击检测模型进行进一步训练,例如,根据结果进行反向训练,使其校验结果趋近于已知的标签。
通过该实施方式可以看出,将训练数据集拆分,有效的利用数据受限的数据集进行全面的训练。保证了在数据受限的数据集中训练出效果较好的模型。
作为进一步具体的实施方式,当使用深度神经网络进行二进制任务(例如欺骗检测)时,数据预处理和特征选择非常重要。在训练反欺骗深度神经网络模型的观点和经验中,过度拟合是一个主要问题,因为每种欺骗攻击类型都有大量数据。可以通过掩盖特定于数据集的特征(例如口语,记录设备特征或通过频谱特征增强修改的说话者信息,其中频谱特征增强,是一种简单的ASR数据增强方法。)来欺骗检测场景中的看不见的数据。频谱特征增强以三种方式修改给定的音频频谱图:1、随机屏蔽一系列帧。2、随机屏蔽频谱。3、在时域中变形帧。这项工作仅关注掩蔽频谱。通过屏蔽η个连续频率区来应用频率修改[f0;f0+η),其中η是从[0;η0]的范围内的均匀分布中随机选择的。并且f0的选择范围为[fmin,fmax—η)。
从前端特征的特定窄频率范围中提取特征对于欺骗检测是有益的。因此,提出了三种特定的频率设置:低,中和高。每个设置的灵感来自传统的信号处理低通,带通和高通滤波器。该方法的目的是鼓励模型聚焦于特定光谱区域,例如,通过掩蔽高频光谱来集中于低频光谱,反之亦然。图2所示的用于欺骗检测的频率屏蔽设置列表数据图显示了本工作中使用的所有增强设置。
在数据实验中,工作的数据集涵盖了2015年,2017年(V.2)和2019年之前的ASVspoof,以及BTAS 2016竞赛。它们细分为LA和PA子类别,其分析见图3所示的每个数据集的训练和测试集中的单个欺骗攻击类型的数量列表数据图。前四个挑战共发布了五个独特的数据集,而大多数的数据集只包含一个欺骗类型,而BTAS16包含两者的混合。
LA攻击由不同的语音合成和VC模型生成。应该注意的是,在给定不同的房间脉冲响应(RIR)配置和重放设备的情况下,ASV19数据集中的大量欺骗攻击被模拟。相比之下,ASV17数据集包含“在野外”的真实世界攻击,其中由于不同声学场景中的不同记录和重放设备(智能手机),声学条件具有高度可变性。图4所示的每个数据集的话语数量和总体子集持续时间的列表数据图,可以看到每个相应数据集的话语数和持续时间。
关于实验,选择常用的对数谱图特征。通过每10ms的512点STFT提取对数幅度能谱图特征,窗口大小为25ms,得到257维特征向量。此外,每个话语的频谱图被标准化为具有零均值和单位方差。通过将零填充到随机选择的区间[f0;f0+η)。由于数据集标准化为零均值,因此用零填充等于填充平均值。
为了提高再现性,所有随机数发生器种子都是固定的,它控制初始化的模型参数,发声顺序和谱图掩模点。然后用零填充掩蔽的频谱图。通过将每个数据集的训练子集分成90%列车和10%交叉验证集来完成模型训练。然后对训练数据集应用过采样,确保模型在相同的50%真实和50%欺骗样本上进行训练。由于网络以顺序方式处理输入(例如,空间和频率维度上的卷积),因此需要应用填充以确保固定的输入大小。这里,使用批量零填充朝向批次内最长的话语。最后,在交叉验证期间,不使用频谱图增强。对于所有实验,开发子集未包含在培训过程或交叉验证过程中。
培训运行最多20个时期,其中在保持交叉验证集上产生最低损失的模型用于评估最终性能。训练计划停止使用提前停止,等待4个阶段。采用交叉熵损失作为判据,当作为优化函数。在所有模型的训练过程中使用0.001的学习率。此外,采用端到端评分方法,其直接使用来自神经网络的评分预测来计算等错误率(EER),其被选择作为性能度量。其中,EER计算使用ASVspoof 2019挑战提供的工具包完成。
LightCNN模型的改编版本被用作该工作中的基线系统。与其他架构不同,LightCNN框架将名为max-feature-map(MFM)的新激活函数定义为:
其中x是输入量大小为F*H*W的元素,而是大小为F/2*H*W的输出张量。索引i表示时域中的索引,j表示频域中的索引,k是范围从[1;…;F]。模型输出设置为二进制,可以看出它可以提高性能。精确的模型架构和培训管道如图5所示的模型架构图。所有神经网络都在PyTorch中实现,其中Xavier正常初始化用于所有参数层。
研究了两组实验。首先,基线实验探索了使用频谱特征增强进行域内欺骗检测评估。其次,频谱特征增强和提议的修改后的频谱特征增强培训在跨数据集场景中的推广进行了比较。
使用频谱特征增强的培训可以看作在所有可用的域内评估方案中优于非增强培训,如图6所示的训练结果列表数据图。观察到ASV17任务的1.4%和ASV15任务的33%之间的相对改进。
结果表明,相对于ASV15任务,频谱特征增强可以将性能提高多达33%。具体来说,频谱特征增强提高了与欺骗类型无关的性能,引发了其泛化能力的问题。
进行了另一项实验以研究三种提出的约束频率增强设置的使用。在图7所示的训练数据集和评估数据集之间的交叉数据集EER的列表数据图。首先,可以观察到,对于大多数数据集内评估场景,低,中,高谱图增强确实与标准频谱特征增强相比略有降低。
不出所料的,在BTAS16数据集上训练的模型产生了关于跨数据集评估的平均最低EER。这是预期的,因为BTAS16数据集包含LA和PA攻击,使其成为第二大训练数据集。相反,在ASV15数据集上训练的模型通常最不可能推广到任何其他数据集。有趣的是,可以观察到ASV19攻击的LA和PA子任务之间的相关性。与其他数据集上的性能相比,在任一子集上训练的模型在另一个上表现更好。图8所示的跨数据集评估列表数据图中可以看到与传统频谱特征增强相关的低,高和中等频谱特征增强的EER性能。有趣的是,使用中频增强,ASV17模型在其测试中获得13.93%,而在BTAS16测试集上仅获得8.65%。结果表明,对于PA攻击,域外EER在相对中降低了15%EER,在绝对中使用中频增强降低了5.88%。
在这项工作中,频谱特征增强首次引入了扬声器欺骗检测。无论欺骗攻击类型如何,频谱特征增强都会降低有关场景的扬声器检测错误率。此外,提出了在特定频率范围内的修改后的增强。采用三个频率范围:低频,中频和高频掩蔽。中频屏蔽显着提高了网络的泛化能力,特别是PA任务,平均EER相对于频谱特征增强可以降低15%。具体而言,在ASVspoof 2017 V.2数据集上训练的模型平均提高了25%以上。
如图9所示为本发明一实施例提供的一种检测说话人欺骗攻击的优化系统的结构示意图,该系统可执行上述任意实施例所述的检测说话人欺骗攻击的优化方法,并配置在终端中。
本实施例提供的一种检测说话人欺骗攻击的优化系统包括:频谱特征确定程序模块11,模型训练程序模块12和录音检测程序模块13。
其中,频谱特征确定程序模块11用于接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;模型训练程序模块12将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;录音检测程序模块13用于将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。
进一步地,所述频谱特征的维度为时域*频域;
所述随机掩模包括:随机屏蔽音频帧、随机屏蔽所述频谱特征的频域、对所述频谱特征的时域进行音频帧变形。
进一步地,随机屏蔽所述频谱特征的频域包括:
随机遮掩所述频谱特征的低频段信号或中频段信号或高频段信号,以使模型的训练聚焦于非遮掩的音频区域。
进一步地,所述频谱特征确定程序模块还用于:
将所述训练数据集划分为第一数据集和第二数据集,其中所述第一数数据集中音频的数量大于等于第二数据集;
将所述第一数据集用于训练所述说话人欺骗攻击检测模型,通过所述第二数据集对所述说话人欺骗攻击检测模型进行校验,根据所述校验的结果对所述说话人欺骗攻击检测模型进一步训练。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的检测说话人欺骗攻击的优化方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;
将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;
将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的检测说话人欺骗攻击的优化方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的检测说话人欺骗攻击的优化方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有音频处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种检测说话人欺骗攻击的优化方法,所述方法包括:
接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;
将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;
将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。
2.根据权利要求1所述的方法,其中,所述频谱特征的维度为时域*频域;
所述随机掩模包括:随机屏蔽音频帧、随机屏蔽所述频谱特征的频域、对所述频谱特征的时域进行音频帧变形。
3.根据权利要求2所述的方法,其中,随机屏蔽所述频谱特征的频域包括:
随机遮掩所述频谱特征的低频段信号或中频段信号或高频段信号,以使模型的训练聚焦于非遮掩的音频区域。
4.根据权利要求1所述的方法,其中,在所述接收带有真实标签或欺骗标签的训练数据集之后,所述方法还包括:
将所述训练数据集划分为第一数据集和第二数据集,其中所述第一数数据集中音频的数量大于等于第二数据集;
将所述第一数据集用于训练所述说话人欺骗攻击检测模型,通过所述第二数据集对所述说话人欺骗攻击检测模型进行校验,根据所述校验的结果对所述说话人欺骗攻击检测模型进一步训练。
5.一种检测说话人欺骗攻击的优化系统,所述方法包括:
频谱特征确定程序模块,用于接收带有真实标签或欺骗标签的训练数据集,对所述训练数据集内的各音频进行前端特征提取,获得各音频的频谱特征,对所述频谱特征进行随机遮掩,以模拟欺骗场景中未知的数据,防止数据过拟合;
模型训练程序模块,用于将随机遮掩后的各频谱特征输入至神经网络模型,通过所述神经网络模型确定出随机遮掩后各音频的后验概率,根据所述真实标签或欺骗标签以及所述随机遮掩后各音频的后验概率对所述神经网络模型进行训练,确定说话人欺骗攻击检测模型,其中,所述后验概率用于判断随机遮掩后各音频是真实音频或是欺骗攻击;
录音检测程序模块,用于将待测音频输入至所述说话人欺骗攻击检测模型中,以确定所述待测音频的欺骗攻击检测结果。
6.根据权利要求5所述的系统,其中,所述频谱特征的维度为时域*频域;
所述随机掩模包括:随机屏蔽音频帧、随机屏蔽所述频谱特征的频域、对所述频谱特征的时域进行音频帧变形。
7.根据权利要求6所述的系统,其中,随机屏蔽所述频谱特征的频域包括:
随机遮掩所述频谱特征的低频段信号或中频段信号或高频段信号,以使模型的训练聚焦于非遮掩的音频区域。
8.根据权利要求5所述的系统,其中,所述频谱特征确定程序模块还用于:
将所述训练数据集划分为第一数据集和第二数据集,其中所述第一数数据集中音频的数量大于等于第二数据集;
将所述第一数据集用于训练所述说话人欺骗攻击检测模型,通过所述第二数据集对所述说话人欺骗攻击检测模型进行校验,根据所述校验的结果对所述说话人欺骗攻击检测模型进一步训练。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
CN201910858649.XA 2019-09-11 2019-09-11 检测说话人欺骗攻击的优化方法及系统 Pending CN110473569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910858649.XA CN110473569A (zh) 2019-09-11 2019-09-11 检测说话人欺骗攻击的优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910858649.XA CN110473569A (zh) 2019-09-11 2019-09-11 检测说话人欺骗攻击的优化方法及系统

Publications (1)

Publication Number Publication Date
CN110473569A true CN110473569A (zh) 2019-11-19

Family

ID=68515614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910858649.XA Pending CN110473569A (zh) 2019-09-11 2019-09-11 检测说话人欺骗攻击的优化方法及系统

Country Status (1)

Country Link
CN (1) CN110473569A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586071A (zh) * 2020-05-19 2020-08-25 上海飞旗网络技术股份有限公司 一种基于循环神经网络模型的加密攻击检测方法及装置
CN111785303A (zh) * 2020-06-30 2020-10-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN111798828A (zh) * 2020-05-29 2020-10-20 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN112201255A (zh) * 2020-09-30 2021-01-08 浙江大学 语音信号频谱特征和深度学习的语音欺骗攻击检测方法
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
WO2021137754A1 (en) * 2019-12-31 2021-07-08 National University Of Singapore Feedback-controlled voice conversion
CN114397875A (zh) * 2022-01-12 2022-04-26 浙江大学 基于随机控制的自动化生产线欺骗攻击检测方法及系统
CN114822587A (zh) * 2021-01-19 2022-07-29 四川大学 一种基于常数q变换的音频特征压缩方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276776A (ja) * 2009-08-17 2009-11-26 Sony Corp 楽曲同定装置及び方法、楽曲同定配信装置及び方法
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统
CN108734138A (zh) * 2018-05-24 2018-11-02 浙江工业大学 一种基于集成学习的黑色素瘤皮肤病图像分类方法
CN108806698A (zh) * 2018-03-15 2018-11-13 中山大学 一种基于卷积神经网络的伪装语音识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009276776A (ja) * 2009-08-17 2009-11-26 Sony Corp 楽曲同定装置及び方法、楽曲同定配信装置及び方法
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统
CN108806698A (zh) * 2018-03-15 2018-11-13 中山大学 一种基于卷积神经网络的伪装语音识别方法
CN108734138A (zh) * 2018-05-24 2018-11-02 浙江工业大学 一种基于集成学习的黑色素瘤皮肤病图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL S.PARK ET AL.: "《SpecAugment:A Simple Data Augmentation Method for Automatic Speech Recognition》", 《ARXIV:1904.08779V2》 *
胡海根等: "《基于深层卷积残差网络集成的黑色素瘤分类方法》", 《计算机科学》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021137754A1 (en) * 2019-12-31 2021-07-08 National University Of Singapore Feedback-controlled voice conversion
CN111586071A (zh) * 2020-05-19 2020-08-25 上海飞旗网络技术股份有限公司 一种基于循环神经网络模型的加密攻击检测方法及装置
CN111586071B (zh) * 2020-05-19 2022-05-20 上海飞旗网络技术股份有限公司 一种基于循环神经网络模型的加密攻击检测方法及装置
CN111798828A (zh) * 2020-05-29 2020-10-20 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN111798828B (zh) * 2020-05-29 2023-02-14 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
CN111785303A (zh) * 2020-06-30 2020-10-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN111785303B (zh) * 2020-06-30 2024-04-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN112201255A (zh) * 2020-09-30 2021-01-08 浙江大学 语音信号频谱特征和深度学习的语音欺骗攻击检测方法
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN114822587B (zh) * 2021-01-19 2023-07-14 四川大学 一种基于常数q变换的音频特征压缩方法
CN114822587A (zh) * 2021-01-19 2022-07-29 四川大学 一种基于常数q变换的音频特征压缩方法
CN114397875A (zh) * 2022-01-12 2022-04-26 浙江大学 基于随机控制的自动化生产线欺骗攻击检测方法及系统
CN114397875B (zh) * 2022-01-12 2022-08-05 浙江大学 基于随机控制的自动化生产线欺骗攻击检测方法及系统

Similar Documents

Publication Publication Date Title
CN110473569A (zh) 检测说话人欺骗攻击的优化方法及系统
Chettri et al. Ensemble models for spoofing detection in automatic speaker verification
CN110189769B (zh) 基于多个卷积神经网络模型结合的异常声音检测方法
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
Stöter et al. Countnet: Estimating the number of concurrent speakers using supervised learning
CN108711436A (zh) 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN111835784B (zh) 用于重放攻击检测系统的数据泛化方法及系统
CN108922515A (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN105096955A (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN108877783A (zh) 确定音频数据的音频类型的方法和装置
Zhang et al. Shape and material from sound
CN108764114A (zh) 一种信号识别方法及其设备、存储介质、终端
CN108615532A (zh) 一种应用于声场景的分类方法及装置
CN115083422B (zh) 语音溯源取证方法及装置、设备及存储介质
CN110493262A (zh) 一种改进分类的网络攻击检测方法及系统
Li et al. Anti-forensics of audio source identification using generative adversarial network
CN110232927B (zh) 说话人验证反欺骗方法和装置
CN112216287A (zh) 基于集成学习和卷积神经网络的环境声音识别方法
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
CN110189767A (zh) 一种基于双声道音频的录制移动设备检测方法
CN112735466B (zh) 一种音频检测方法及装置
CN110223676A (zh) 欺骗录音检测神经网络模型的优化方法及系统
CN113593594B (zh) 语音增强模型的训练方法和设备及语音增强方法和设备
CN113241091B (zh) 声音分离的增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200619

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201027

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.