CN113646833A - 语音对抗样本检测方法、装置、设备及计算机可读存储介质 - Google Patents

语音对抗样本检测方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113646833A
CN113646833A CN202180001899.7A CN202180001899A CN113646833A CN 113646833 A CN113646833 A CN 113646833A CN 202180001899 A CN202180001899 A CN 202180001899A CN 113646833 A CN113646833 A CN 113646833A
Authority
CN
China
Prior art keywords
voice
sample
spectrogram
training
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180001899.7A
Other languages
English (en)
Inventor
罗达
马健
王艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Publication of CN113646833A publication Critical patent/CN113646833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请提供一种语音对抗样本检测模型的训练方法,包括:获取语音训练样本,语音训练样本包括多个正常语音样本及多个对抗语音样本(110);将语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图(120);将正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型(130)。本申请还提供一种语音对抗样本检测方法、装置、设备及计算机可读存储介质。本申请实现了对语音对抗样本的准确检测。

Description

语音对抗样本检测方法、装置、设备及计算机可读存储介质
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种语音对抗样本的检测方法、语音对抗样本检测模型的训练方法、装置、设备及计算机可读存储介质。
背景技术
语音识别系统的目标是将某段语音翻译成文字,即一个语音转文字(speech-to-text)的转译过程。近年来,基于深度学习的端对端语音识别系统在市场上逐渐普及。然而,对抗样本技术的出现使得端对端ASR出现了安全问题。目前的对抗机器学习技术可以生成语音的对抗样本,通过对音频加入精心制作的扰动,有意识地使得ASR发生“转译错误”,但人耳却无法察觉。然而,本申请的发明人在实施本发明的过程中发现,现有对抗样本技术,可随便按篡改者的思路,几乎无限制地对识别系统的识别结果进行更改。在对一段正常语音添加细微的“对抗扰动噪音”之后,原来的转译结果从“我今天出去玩”变成了“我今天待在家”。这种转译错误可以让某些关键词在转译时变成”特定的文字”,对于别有用心的人,他们可让转译结果随心所欲地变成他们想要的结果。除了可以让关键词在转译中发生错误,还可在转译中,把整句话的意思完全换成另一个意思。更重要的是,这种被篡改的语音样本在听感上难以察觉。如果被带有目的性的篡改者使用,可能造成各种严重后果,譬如,利用对抗样本可以对微信的“语音锁”进行解锁从而获得他人的微信使用权。因此,对语音对抗样本进行检测,成为了一个亟待解决的重要问题。
发明内容
鉴于上述问题,本发明实施例提供了一种语音对抗样本检测方法、语音对抗样本检测模型的训练方法、装置、设备及计算机可读存储介质,用于解决现有技术中存在的对抗语音数据难以识别的技术问题。
根据本发明实施例的一个方面,提供了一种语音对抗样本检测模型的训练方法,所述方法包括:
获取语音训练样本,所述语音训练样本包括多个正常语音样本及多个对抗语音样本;所述对抗语音样本为篡改语义的负样本;
将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图;
将所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型。
在一种可选的方式中,所述获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本,包括:获取原始正常语音样本;根据所述原始正常语音样本,通过目标函数生成对抗语音样本;
所述目标函数为:min‖δ‖2+l(x′+δ,t) s.t.db(δ)≤T
其中,δ表示对抗性扰动,x′为原始正常语音样本,t为目标句子,l为CTC损失,通过分贝db(·)表示失真度,失真度表示对数尺度上音频的相对响度,T表示对抗性扰动的能量大小的阈值。
在一种可选的方式中,所述将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,包括:将每个所述语音训练样本切分成多个语音小片段;将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段;分别对所述多个加窗语音小片段进行短时傅里叶变换,得到每个所述语音训练样本对应的多个语谱图。
在一种可选的方式中,所述截断窗函数为汉宁窗函数;所述将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段,包括:所述将所述多个语音小片段加载汉宁窗函数,得到多个加窗语音小片段。
在一种可选的方式中,所述将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,包括:将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,出预测结果;根据所述正样本语谱图的标签、所述负样本语谱图的标签以及所述预测结果计算能量损失函数;根据所述能量损失函数调整所述预设神经网络的参数,并重新将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络,计算能量损失函数,调整所述预设神经网络的参数,直至所述能量损失函数收敛或达到预设阈值时,得到语音对抗样本检测模型。
在一种可选的方式中,所述能量损失函数为:
Figure BDA0003166594610000031
其中,Eθ(Y,x)=-Y·Fθ(x);θ为所述预设神经网络的参数,Y为所述语音训练样本的标签;x为所述语音训练样本;β为正常数。
根据本发明实施例的另一方面,提供了一种语音对抗样本检测方法,包括:
获取待检测语音数据;
将所述待检测语音数据转换为待检测语谱图;
将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据所述的训练方法训练得到;
输出所述待检测语音数据的检测结果。
根据本发明实施例的另一方面,提供了一种语音对抗样本检测模型的训练装置,包括:
第一获取模块,用于获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本;所述对抗语音样本为篡改语义的负样本;
提取模块,用于将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图;
训练模块,用于将所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型。
根据本发明实施例的另一方面,提供了一种语音对抗样本的检测装置,包括:
第二获取模块,用于获取待检测语音数据;
转换模块,用于将所述待检测语音数据转换为待检测语谱图;
检测模块,用于将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据所述语音对抗样本检测模型的训练方法或所述的语音对抗样本检测模型的训练装置训练得到;
输出模块,用于输出所述待检测语音数据的检测结果。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的语音对抗样本检测模型的训练方法或所述的语音对抗样本的检测方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算设备上运行时,使得计算设备执行所述的语音对抗样本检测模型的训练方法或所述的语音对抗样本的检测方法的操作。
本发明实施例通过获取语音训练样本,将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,从而能够形成自动化语音对抗样本检测工具,在保证较高判断准确性的前提下提升虚构语音的鉴定效率,为ASR的安全性提供前端保障,预防因故意制造篡改语义的对抗样本产生的不良影响。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的添加“对抗噪音扰动”导致语音识别错误的示意图;
图2示出了本发明实施例提供的语音对抗样本检测模型的训练方法的流程示意图;
图3本发明实施例提供的语音对抗样本检测方法的流程示意图;
图4示出了本发明实施例提供的语音对抗样本检测模型的训练装置的结构示意图;
图5示出了本发明实施例提供的语音对抗样本检测装置的结构示意图;
图6示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
下面对本发明实施例中出现的技术术语进行相关解释:
ASR:Automatic Speech Recognition,自动语音识别系统。
波形信号:语音的时域波形信号。
对抗扰动(Adversarial perturbation):对抗扰动是添加到干净语音中的噪声,使其成为一个语音对抗样本。
对抗样本:通过对样本加入人类难以察觉的扰动从而欺骗神经网络的样本。
短时傅立叶变换(STFT):选择一个时频局部化的窗函数,通过窗函数在时间轴上的移动,对信号进行逐段分析得到信号的一组局部“频谱”。
语谱图:spectrogram,语音频谱分析视图。
多谱图:语音信号的多个STFT语谱图。
CNN:卷积神经网络。
EBM:energy-based model,基于能量函数的模型。
首先,对本发明实施例的主要思想进行阐述。如图1所示,左边的频谱为正常语音,其识别结果为“我今天出去玩”;中间的频谱为对抗噪音扰动;右边的频谱图为叠加了左图正常语音频谱及中间对抗噪音扰动的频谱图,即篡改语义的语音对抗样本,其右图的频谱图语音识别结果为“我今天待在家”。从频谱图上可以看出,左图和右图的频谱十分相近,而语义则完全不同。篡改语义的语音对抗样本的生成方法大致分为白盒攻击和黑盒攻击。白盒攻击假定可以访问模型参数,针对性地施加梯度相关的数据修正,来达到修改原始数据的目的;在黑盒攻击中,攻击方无法访问模型内部信息,通常使用试探的方式加入噪音,并不断调整所加入的噪音,以达到修改原始数据的目的。本申请的发明人通过分析发现:相较于正常语音,语义被篡改的语音所获得的STFT语谱图,在不同频带上的一致性估计(coherence estimate)以及交叉谱相位(cross-spectrum phase)呈现出以下规律:越高频段的部分,一致性越低,并且其交叉谱相位变化更大。因此,本发明实施例依据正常语音样本与语音对抗样本在STFT语谱图的特性差异,使用STFT语谱图作为特征输入到卷积神经网络,并使用基于能量的模型进行分类,从而可以准确的识别对抗样本。
图2示出了本发明实施例提供的语音对抗样本检测模型的训练方法的流程图,该方法由计算设备执行。该计算设备可以是计算机设备,如个人计算机、台式计算机、平板电脑等;还可以是其它人工智能设备或终端,如机器人、手机等,本发明实施例不做具体限定。如图2所示,该方法包括以下步骤:
步骤110:获取语音训练样本,所述语音训练样本包括多个正常语音样本及多个对抗语音样本;所述对抗语音样本为篡改语义的负样本。
其中,对抗语音样本为篡改语义的负样本,指的是添加了对抗噪音扰动从而篡改了语义的语音。本发明实施例中,篡改语义的语音对抗样本可通过白盒攻击或黑盒攻击的方式生成。白盒攻击(如Taori Attack,Taori等人于2019提出的一种对抗样本攻击算法)假定可以访问模型参数,针对性地施加梯度相关的数据修正,来达到修改原始数据的目的。在黑盒攻击(例如C&WAttack,C&W Attack为Carlini和Wagner提出的对抗样本攻击算法)中,攻击方无法访问模型内部信息,使用试探的方式加入噪音,并不断调整所加入的噪音,以达到修改原始数据的目的。
本发明实施例中,通过C&W Attack的方法生成语音对抗样本的具体过程可以是:获取原始正常语音样本;根据所述原始正常语音样本,通过目标函数生成对抗语音样本;
所述目标函数为:
min‖δ‖2+l(x′+δ,t)
s.t.db(δ)≤T
其中,
Figure BDA0003166594610000071
δ表示对抗性扰动,x′为原始正常语音样本,
Figure BDA0003166594610000072
表示语音对抗样本,t为目标句子,l为CTC损失,通过分贝db(·)表示失真度,失真度表示对数尺度上音频的相对响度,‖·‖2表示二范数;s.t.表示约束条件;T表示对抗性扰动的能量大小的阈值,本发明实施例中该阈值可以依据具体场景进行相应设置。本发明实施例中,目标句子指的是与语音对抗样本对应的被篡改语义的句子。
其中,可以根据上述设定的目标函数,通过梯度下降法得到语音对抗样本。
步骤120:将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图。
其中,由于基于B-RNN网络梯度产生的对抗性扰动是以语音时间序列数据分布的,因此,本发明实施例将所述语音训练样本分割成多个短时帧,该短时帧的长度可以是几百毫秒。具体地,将每个所述语音训练样本切分成多个语音小片段;将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段;分别对所述多个加窗语音小片段进行短时傅里叶变换,得到每个所述语音训练样本对应的多个语谱图,从而将语音训练样本转换为频域。
其中,该转换过程为:
Figure BDA0003166594610000073
其中,Pt(w,m)为每一个语音小片段对应的语谱图,w[m]是长度为L的窗口序列,m=0、1、...、L,N是变换中使用的DFT点数。本发明实施例中,截断窗函数为汉宁窗函数。其中,汉宁窗函数的汉宁窗口可以设置为L=512,语音样本信号xt划过窗口,从而通过STFT将一个变量的xt映射为两个变量的函数,即时域中的w和频域中的m。
步骤130:将所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型。
其中,在得到正样本语谱图及负样本语谱图后,为每一个正样本语谱图及负样本语谱图添加标签,其中正样本语谱图的标签可设置为1,负样本语谱图的标签为-1。将该带标签的正样本语谱图及负样本语谱图分别输入预设神经网络进行迭代训练,从而得到语音对抗样本检测模型。
本发明实施例中,预设神经网络为卷积神经网络,该卷积神经网络包括卷积层、下采样层、全连接层及输出层。本发明的一个实施例中,具体可以是:3个卷积层与2个下采样层交替组合,再连接3个全连接层,最后的输出层为一个结点,该输出层的结点值表示模型的输出值。在设定好该卷积神经网络后,将该带标签的正样本语谱图及负样本语谱图分别输入该卷积神经网络进行迭代训练,从而得到语音对抗样本检测模型。
本发明实施例中,可通过能量损失函数对该卷积神经网络进行迭代训练,具体为:
将带标签的所述正样本语谱图和带标签的负样本语谱图分别输入所述预设神经网络进行训练,出预测结果。对于每一个模型的语音训练样本x,设其标签为Y∈(1,-1)。首先将其输入模型,得到模型输出值,记作Fθ(x)。其中,该语音对抗样本检测模型的输出Fθ(x)大于0时,判断为正样本语谱图,Fθ(x)小于0时,判断为负样本语谱图。
根据所述正样本语谱图的标签、所述负样本语谱图的标签以及所述预测结果计算能量损失函数。
其中,计算能量损失函数的过程为:
首先,根据所述正样本语谱图的标签、所述负样本语谱图的标签以及所述预测结果计算能量值:
Eθ(Y,x)=-Y·Fθ(x);
再计算能量损失函数:
Figure BDA0003166594610000091
其中,θ为所述预设神经网络的参数,Y为所述语音训练样本的标签;x为所述语音训练样本;β为正常数,本发明实施例中,β=0.5。
根据得到的能量损失函数调整所述预设神经网络的参数,并重新将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络,计算能量损失函数,调整所述预设神经网络的参数,进行迭代训练,直至所述能量损失函数收敛或达到预设阈值时,得到最优参数,从而得到最终的语音对抗样本检测模型。本发明实施例中,在根据得到的能量损失函数调整所述预设神经网络的参数时,可通过梯度下降法对参数θ进行调整。
本发明实施例中,由于一个语音训练样本被切分为了多个语音小片段,每个语音训练样本对应多个语谱图,在得到最终的语音对抗样本检测模型后,计算每一个语音训练样本为正样本或负样本的概率,从而确定该语音训练样本为正常语音还是语音对抗样本。具体地,可通过softmax函数来计算概率:通过语音对抗样本检测模型输出每个小片段的语谱图为正样本还是负样本的输出结果,并通过softmax函数统计语谱图为正样本和负样本的总数量,如果语音训练样本的N个语音小片段中,更多的小片段被判断为正样本,则认为语音样本为正常语音样本;反之,则认为语音片段为语音对抗样本。
本发明实施例通过获取语音训练样本,将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,从而能够形成自动化语音对抗样本检测工具,在保证较高判断准确性的前提下提升虚构语音的鉴定效率,为ASR的安全性提供前端保障,预防因故意制造篡改语义的对抗样本产生的不良影响。
图3示出了本发明另一实施例提供的语音对抗样本的检测方法的流程图,该方法由计算设备执行。该计算设备可以是计算机设备,如个人计算机、台式计算机、平板电脑等;还可以是其它人工智能设备或终端,如机器人、手机等,本发明实施例不做具体限定。如图3所示,该方法包括以下步骤:
步骤210:获取待检测语音数据。
步骤220:将所述待检测语音数据转换为待检测语谱图。
本发明实施例中,在得到待检测语音后,需要按照预设的规则将待检测语音数据切分成多个待检测语音小片段;将所述待检测多个语音小片段加载截断窗函数,得到多个待检测加窗语音小片段;分别对所述多个待检测加窗语音小片段进行短时傅里叶变换,得到待检测语音数据对应的多个待检测语谱图。该过程与语音对抗样本检测模型的训练过程中转换为语谱图的过程大体一致,此处不再赘述。
步骤230:将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据所述的训练方法训练得到。
本发明实施例中,将多个待检测语谱图输入对抗检测模型中之后,得到各个待检测语谱图的输出结果,通过softmax函数进行计算,得到该待检测语音数据的检测结果。
步骤240:输出所述待检测语音数据的检测结果。
其中,该检测结果为表征该待检测语音数据是正常语音还是篡改语义的对抗语音,将该检测结果输出给用户,以使得用户可以根据检测结果进行相应的操作。
本发明实施例通过获取语音训练样本,将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,从而能够形成自动化语音对抗样本检测工具,在保证较高判断准确性的前提下提升虚构语音的鉴定效率,为ASR的安全性提供前端保障,预防因故意制造篡改语义的对抗样本产生的不良影响。
图4示出了本发明实施例提供的语音对抗样本检测模型的训练装置的结构示意图。如图4所示,该装置300包括:第一获取模块310、提取模块320和训练模块330。
第一获取模块310,用于获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本;所述对抗语音样本为篡改语义的负样本。
提取模块320,用于将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图。
训练模块330,用于将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型。
本发明实施例的语音对抗样本检测模型的训练装置的具体工作过程与上述语音对抗样本检测模型的训练方法实施例的方法步骤大体一致,此处不再赘述。
本发明实施例通过获取语音训练样本,将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,从而能够形成自动化语音对抗样本检测工具,在保证较高判断准确性的前提下提升虚构语音的鉴定效率,为ASR的安全性提供前端保障,预防因故意制造篡改语义的对抗样本产生的不良影响。
图5示出了本发明实施例提供的语音对抗样本的检测装置的结构示意图。如图5所示,该装置400包括:
第二获取模块410,用于获取待检测语音数据。
转换模块420,用于将所述待检测语音数据转换为待检测语谱图。
检测模块430,用于将所述待检测语谱图输入语音对抗样本检测模型。所述语音对抗样本检测模型根据如上述语音对抗样本检测模型的训练方法或如上述的语音对抗样本检测模型的训练装置训练得到。
输出模块440,用于输出所述待检测语音数据的检测结果。
本发明实施例的语音对抗样本的检测装置的具体工作过程与上述方法实施例的语音对抗样本的检测方法步骤大体一致,此处不再赘述。
本发明实施例通过获取语音训练样本,将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,从而能够形成自动化语音对抗样本检测工具,在保证较高判断准确性的前提下提升虚构语音的鉴定效率,为ASR的安全性提供前端保障,预防因故意制造篡改语义的对抗样本产生的不良影响。
图6示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。如图6所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于语音对抗样本检测模型的训练方法或语音对抗样本的检测方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机可执行指令。处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以被处理器502调用使计算设备执行以下操作:
获取语音训练样本,所述语音训练样本包括多个正常语音样本及多个对抗语音样本;所述对抗语音样本为篡改语义的负样本;
将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图;
将所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型;或者
程序510具体可以被处理器502调用使计算设备执行以下操作:
获取待检测语音数据;
将所述待检测语音数据转换为待检测语谱图;
将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据上述的训练方法训练得到;
输出所述待检测语音数据的检测结果。
在一种可选的方式中,所述获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本,包括:获取原始正常语音样本;根据所述原始正常语音样本,通过目标函数生成对抗语音样本;
所述目标函数为:min‖δ‖2+l(x′+δ,t) s.t.db(δ)≤T
其中,δ表示对抗性扰动,x′为原始正常语音样本,t为目标句子,l为CTC损失,通过分贝db(·)表示失真度,失真度表示对数尺度上音频的相对响度,T表示对抗性扰动的能量大小的阈值。
在一种可选的方式中,所述将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,包括:将每个所述语音训练样本切分成多个语音小片段;将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段;分别对所述多个加窗语音小片段进行短时傅里叶变换,得到每个所述语音训练样本对应的多个语谱图。
在一种可选的方式中,所述截断窗函数为汉宁窗函数;所述将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段,包括:所述将所述多个语音小片段加载汉宁窗函数,得到多个加窗语音小片段。
在一种可选的方式中,所述将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,包括:将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,出预测结果;根据所述正样本语谱图的标签、所述负样本语谱图的标签以及所述预测结果计算能量损失函数;根据所述能量损失函数调整所述预设神经网络的参数,并重新将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络,计算能量损失函数,调整所述预设神经网络的参数,直至所述能量损失函数收敛或达到预设阈值时,得到语音对抗样本检测模型。
在一种可选的方式中,所述能量损失函数为:
Figure BDA0003166594610000131
其中,Eθ(Y,x)=-Y·Fθ(x);θ为所述预设神经网络的参数,Y为所述语音训练样本的标签;x为所述语音训练样本;β为正常数。
本发明实施例的计算设备的具体工作过程与上述方法实施例的方法步骤大体一致,此处不再赘述。
本发明实施例通过获取语音训练样本,将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,从而能够形成自动化语音对抗样本检测工具,在保证较高判断准确性的前提下提升虚构语音的鉴定效率,为ASR的安全性提供前端保障,预防因故意制造篡改语义的对抗样本产生的不良影响。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在计算设备上运行时,使得所述计算设备执行上述任意方法实施例中的语音对抗样本检测模型的训练方法或语音对抗样本的检测方法。
可执行指令具体可以用于使得计算设备执行以下操作:
获取语音训练样本,所述语音训练样本包括多个正常语音样本及多个对抗语音样本;所述对抗语音样本为篡改语义的负样本;
将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图;
将所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型;或者
可执行指令具体还可以用于使得计算设备执行以下操作:
获取待检测语音数据;
将所述待检测语音数据转换为待检测语谱图;
将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据上述的训练方法训练得到;
输出所述待检测语音数据的检测结果。
在一种可选的方式中,所述获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本,包括:获取原始正常语音样本;根据所述原始正常语音样本,通过目标函数生成对抗语音样本;
所述目标函数为:min‖δ‖2+l(x′+δ,t) s.t.db(δ)≤T
其中,δ表示对抗性扰动,x′为原始正常语音样本,t为目标句子,l为CTC损失,通过分贝db(·)表示失真度,失真度表示对数尺度上音频的相对响度,T表示对抗性扰动的能量大小的阈值。
在一种可选的方式中,所述将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,包括:将每个所述语音训练样本切分成多个语音小片段;将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段;分别对所述多个加窗语音小片段进行短时傅里叶变换,得到每个所述语音训练样本对应的多个语谱图。
在一种可选的方式中,所述截断窗函数为汉宁窗函数;所述将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段,包括:所述将所述多个语音小片段加载汉宁窗函数,得到多个加窗语音小片段。
在一种可选的方式中,所述将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,包括:将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,出预测结果;根据所述正样本语谱图的标签、所述负样本语谱图的标签以及所述预测结果计算能量损失函数;根据所述能量损失函数调整所述预设神经网络的参数,并重新将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络,计算能量损失函数,调整所述预设神经网络的参数,直至所述能量损失函数收敛或达到预设阈值时,得到语音对抗样本检测模型。
在一种可选的方式中,所述能量损失函数为:
Figure BDA0003166594610000151
其中,Eθ(Y,x)=-Y·Fθ(x);θ为所述预设神经网络的参数,Y为所述语音训练样本的标签;x为所述语音训练样本;β为正常数。
本发明实施例通过获取语音训练样本,将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,从而能够形成自动化语音对抗样本检测工具,在保证较高判断准确性的前提下提升虚构语音的鉴定效率,为ASR的安全性提供前端保障,预防因故意制造篡改语义的对抗样本产生的不良影响。
本发明实施例提供一种语音对抗样本检测模型的训练装置,用于执行上述语音对抗样本检测模型的训练方法。
本发明实施例提供一种语音对抗样本的检测装置,用于执行上述语音对抗样本的检测方法
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使计算设备执行上述任意方法实施例中的语音对抗样本检测模型的训练方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使计算设备执行上述任意方法实施例中的语音对抗样本的检测方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的语音对抗样本检测模型的训练方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的语音对抗样本的检测方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (11)

1.一种语音对抗样本检测模型的训练方法,其特征在于,所述方法包括:
获取语音训练样本,所述语音训练样本包括多个正常语音样本及多个对抗语音样本;所述对抗语音样本为篡改语义的负样本;
将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图;
将所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本,包括:
获取原始正常语音样本;
根据所述原始正常语音样本,通过目标函数生成对抗语音样本;
所述目标函数为:
min‖δ‖2+l(x′+δ,t)
s.t.db(δ)≤T
其中,δ表示对抗性扰动,x′为原始正常语音样本,t为目标句子,l为CTC损失,通过分贝db(·)表示失真度,失真度表示对数尺度上音频的相对响度,T表示对抗性扰动的能量大小的阈值。
3.根据权利要求1所述的方法,其特征在于,所述将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图,包括:
将每个所述语音训练样本切分成多个语音小片段;
将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段;
分别对所述多个加窗语音小片段进行短时傅里叶变换,得到每个所述语音训练样本对应的多个语谱图。
4.根据权利要求3所述的方法,其特征在于,所述截断窗函数为汉宁窗函数;所述将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段,包括:所述将所述多个语音小片段加载汉宁窗函数,得到多个加窗语音小片段。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,包括:
将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,输出预测结果;
根据所述正样本语谱图的标签、所述负样本语谱图的标签以及所述预测结果计算能量损失函数;
根据所述能量损失函数调整所述预设神经网络的参数,并重新将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络,计算能量损失函数,调整所述预设神经网络的参数,直至所述能量损失函数收敛或达到预设阈值时,得到语音对抗样本检测模型。
6.根据权利要求5所述的方法,其特征在于,所述能量损失函数为:
Figure FDA0003166594600000021
其中,Eθ(Y,x)=-Y·Fθ(x);θ为所述预设神经网络的参数,Y为所述语音训练样本的标签;x为所述语音训练样本;β为正常数。
7.一种语音对抗样本检测方法,其特征在于,所述方法包括:
获取待检测语音数据;
将所述待检测语音数据转换为待检测语谱图;
将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据如权利要求1-6任一项所述的训练方法训练得到;
输出所述待检测语音数据的检测结果。
8.一种语音对抗样本检测模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本;所述对抗语音样本为篡改语义的负样本;
提取模块,用于将所述语音训练样本进行语谱图特征提取,分别得到正样本语谱图及负样本语谱图;
训练模块,用于将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型。
9.一种语音对抗样本检测装置,其特征在于,所述装置包括:
第二获取模块,用于获取待检测语音数据;
转换模块,用于将所述待检测语音数据转换为待检测语谱图;
检测模块,用于将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据如权利要求1-6任一项所述语音对抗样本检测模型的训练方法或如权利要求8所述的语音对抗样本检测模型的训练装置训练得到;
输出模块,用于输出所述待检测语音数据的检测结果。
10.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6任意一项所述的语音对抗样本检测模型的训练方法或如权利要求7所述的语音对抗样本检测方法的操作。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算设备上运行时,使得计算设备执行如权利要求1-6任意一项所述的语音对抗样本检测模型的训练方法或如权利要求7所述的语音对抗样本检测方法的操作。
CN202180001899.7A 2021-07-14 2021-07-14 语音对抗样本检测方法、装置、设备及计算机可读存储介质 Pending CN113646833A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/106236 WO2023283823A1 (zh) 2021-07-14 2021-07-14 语音对抗样本检测方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113646833A true CN113646833A (zh) 2021-11-12

Family

ID=78427364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180001899.7A Pending CN113646833A (zh) 2021-07-14 2021-07-14 语音对抗样本检测方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN113646833A (zh)
WO (1) WO2023283823A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049884A (zh) * 2022-01-11 2022-02-15 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质
US20220407886A1 (en) * 2021-06-18 2022-12-22 International Business Machines Corporation Prohibiting voice attacks
CN116758936A (zh) * 2023-08-18 2023-09-15 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备
WO2023245869A1 (zh) * 2022-06-23 2023-12-28 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292717B (zh) * 2023-11-27 2024-03-22 广东美的制冷设备有限公司 异音识别方法、装置、电子设备和存储介质
CN118155654A (zh) * 2024-05-10 2024-06-07 腾讯科技(深圳)有限公司 模型训练方法、音频成分缺失识别方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质
CN111710346A (zh) * 2020-06-18 2020-09-25 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018160943A1 (en) * 2017-03-03 2018-09-07 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN111048071B (zh) * 2019-11-11 2023-05-30 京东科技信息技术有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN111210807B (zh) * 2020-02-21 2023-03-31 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质
CN110718232A (zh) * 2019-09-23 2020-01-21 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN111710346A (zh) * 2020-06-18 2020-09-25 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220407886A1 (en) * 2021-06-18 2022-12-22 International Business Machines Corporation Prohibiting voice attacks
US11856024B2 (en) * 2021-06-18 2023-12-26 International Business Machines Corporation Prohibiting voice attacks
CN114049884A (zh) * 2022-01-11 2022-02-15 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质
WO2023245869A1 (zh) * 2022-06-23 2023-12-28 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、电子设备及存储介质
CN116758936A (zh) * 2023-08-18 2023-09-15 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备
CN116758936B (zh) * 2023-08-18 2023-11-07 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备

Also Published As

Publication number Publication date
WO2023283823A1 (zh) 2023-01-19

Similar Documents

Publication Publication Date Title
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
JP5554893B2 (ja) 音声特徴ベクトル変換方法及び装置
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
WO2021179717A1 (zh) 一种语音识别的前端处理方法、装置及终端设备
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN112183582A (zh) 一种多特征融合的水下目标识别方法
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
CN106297769A (zh) 一种应用于语种识别的鉴别性特征提取方法
CN106297768B (zh) 一种语音识别方法
Матиченко et al. The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space
CN116564315A (zh) 一种声纹识别方法、装置、设备及存储介质
Soares et al. Voice activity detection using generalized exponential kernels for time and frequency domains
Rao Accent classification from an emotional speech in clean and noisy environments
CN113421590B (zh) 异常行为检测方法、装置、设备及存储介质
Daqrouq et al. Wavelet lpc with neural network for spoken arabic digits recognition system
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
CN117312548A (zh) 一种多源异构灾情数据融合理解方法
Płonkowski Using bands of frequencies for vowel recognition for Polish language
Atkins et al. Visualization of Babble–Speech Interactions Using Andrews Curves

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination