CN111564154A

CN111564154A - 基于语音增强算法的对抗样本攻击防御方法及装置

Info

Publication number: CN111564154A
Application number: CN202010206879.0A
Authority: CN
Inventors: 李丽香; 潘爽; 彭海朋; 李帅
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-08-21
Anticipated expiration: 2040-03-23
Also published as: CN111564154B

Abstract

本发明实施例提供基于语音增强算法的对抗样本攻击防御方法及装置，可以获取待识别语音样本与待识别语音样本的频谱特征；根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法；通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后，通过对去噪后的语音样本进行识别，增加语音识别准确率，提高防御对抗样本攻击的效率。

Description

基于语音增强算法的对抗样本攻击防御方法及装置

技术领域

本发明涉及信息技术领域，特别是涉及基于语音增强算法的对抗样本攻击防御方法及装置。

背景技术

目前，随着语音识别技术的快速发展，其用处已经越来越广泛。语音识别技术可以为人们的生活提供各种各样的服务，并且语音识别技术也大大提高了人机交互的效率。然而当攻击者通过在语音样本中加入一些特意制作的小的噪声生成对抗样本时，就可能会使精心制作的神经网络产生错误的识别结果。

然而现有技术对语音样本识别时，一般直接通过训练好的网络模型对语音样本进行识别，对于对抗样本的识别效果往往并不好，甚至会出现语音失真，识别结果错误等。

发明内容

本发明实施例的目的在于提供基于语音增强算法的对抗样本攻击防御方法及装置，以实现增加语音识别准确率的目的。具体技术方案如下：

在本申请实施的第一方面，首先提供了一种基于双层卷积神经网络的自动化威胁情报提取方法，包括：

获取待识别语音样本与待识别语音样本的频谱特征；

根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法；

通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。

可选的，根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，包括：

根据待识别语音样本的频谱特征，通过基于连续最小值跟踪的谱减法对待识别语音样本进行噪声频谱的计算，得到第一估计噪声频谱；

根据第一估计噪声频谱对待识别语音样本进行去噪，得到第一语音样本；

根据第一语音样本，通过结合语音存在概率的对数MMSE算法对第一语音样本进行噪声频谱的计算，得到第二估计噪声频谱；

根据第二估计噪声频谱对第一语音样本进行去噪，得到去噪后的语音样本。

根据待识别语音样本的频谱特征，通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算，得到第三估计噪声频谱；

根据第三估计噪声频谱对待识别语音样本进行去噪，得到第三语音样本；

根据第三语音样本，通过基于连续最小值跟踪的谱减法对第三语音样本进行噪声频谱的计算，得到第四估计噪声频谱；

根据第四估计噪声频谱对第三语音样本进行去噪，得到去噪后的语音样本。

可选的，待识别语音样本的频谱特征包括所述待识别语音样本的相位，根据第一估计噪声频谱对待识别语音样本进行去噪，得到第一语音样本，包括：

通过预设公式：

对待识别语音样本进行去噪；

其中，

为去噪后的语音样本的频谱估计，|Y(ω)|为待识别语音样本的幅度谱，φ_y(ω)为待识别语音样本的相位，

为离散时间傅立叶变换后的待识别语音的频谱，

为估计噪声的幅度谱，

为离散时间傅立叶变换后的噪声的频谱，j为虚数单位。

可选的，根据第二估计噪声频谱对第一语音样本进行去噪，得到去噪后的语音样本，包括：

通过预设公式：

对待识别语音样本进行去噪；

其中，

为去噪后的语音样本的估计谱在频率ω_k的幅度，X_k为预先获取的纯净的信号谱在频率ω_k的幅度，Y(ω_k)为待识别语音样本的频谱，

表示在频点K存在语音，

表示在待识别语音样本的频谱Y(ω_k)的条件下，存在语音的条件概率，E为求加权均值。

在本申请实施的第二方面，提供了一种基于语音增强算法的对抗样本攻击防御装置，包括：

特征获取模块，用于获取待识别语音样本与待识别语音样本的频谱特征；

样本去噪模块，用于根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法；

语音识别模块，用于通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。

可选的，样本去噪模块，包括：

第一估计子模块，用于根据待识别语音样本的频谱特征，通过基于连续最小值跟踪的谱减法对待识别语音样本进行噪声频谱的计算，得到第一估计噪声频谱；

第一去噪子模块，用于根据第一估计噪声频谱对待识别语音样本进行去噪，得到第一语音样本；

第二估计子模块，用于根据第一语音样本，通过结合语音存在概率的对数MMSE算法对第一语音样本进行噪声频谱的计算，得到第二估计噪声频谱；

第二去噪子模块，用于根据第二估计噪声频谱对第一语音样本进行去噪，得到去噪后的语音样本。

可选的，样本去噪模块，包括：

第三估计子模块，用于根据待识别语音样本的频谱特征，通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算，得到第三估计噪声频谱；

第三去噪子模块，用于根据第三估计噪声频谱对待识别语音样本进行去噪，得到第三语音样本；

第四估计子模块，用于根据第三语音样本，通过基于连续最小值跟踪的谱减法对第三语音样本进行噪声频谱的计算，得到第四估计噪声频谱；

第四去噪子模块，用于根据第四估计噪声频谱对第三语音样本进行去噪，得到去噪后的语音样本。

通过预设公式：

对待识别语音样本进行去噪；

其中，

为离散时间傅立叶变换后的待识别语音的频谱，

为估计噪声的幅度谱，

为离散时间傅立叶变换后的噪声的频谱，j为虚数单位。

通过预设公式：

对待识别语音样本进行去噪；

其中，

表示在频点K存在语音，

在本申请实施的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现上述任一基于语音增强算法的对抗样本攻击防御方法。

在本申请实施的第四方面，提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一基于语音增强算法的对抗样本攻击防御方法。

本发明实施例提供基于语音增强算法的对抗样本攻击防御方法及装置，可以获取待识别语音样本与待识别语音样本的频谱特征；根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法；通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后，通过对去噪后的语音样本进行识别，增加语音识别准确率，提高防御对抗样本攻击的效率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种流程图；

图2为本申请实施例的通过估计噪声频谱对待识别语音样本进行去噪的一种流程图；

图3为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种实例图；

图4为本申请实施例的通过估计噪声频谱对待识别语音样本进行去噪的另一种流程图；

图5a为本申请实施例的一种纯净语音样本的时域图；

图5b为本申请实施例的一种对抗样本的时域图；

图5c为本申请实施例的一种去噪后样本的时域图；

图6为本申请实施例的一种基于语音增强算法的对抗样本攻击防御的装置的一种示意图；

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请实施的第一方面，首先提供了一种基于语音增强算法的对抗样本攻击防御方法，包括：

获取待识别语音样本与待识别语音样本的频谱特征；

根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE(最小均方误差算法)算法；

可见，本发明实施例提供基于语音增强算法的对抗样本攻击防御方法及装置，可以获取待识别语音样本与待识别语音样本的频谱特征；根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法；通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后，通过对去噪后的语音样本进行识别，增加语音识别准确率，提高防御对抗样本攻击的效率。

以下进行详细说明，参见图1，图1为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种流程图，包括：

步骤S11，获取待识别语音样本与待识别语音样本的频谱特征。

其中，待识别语音样本可以为任意格式的语音样本，语音样本的频谱特征可以包括语音信号的相位谱、幅度谱等，本申请对此不进行限定。

本申请实施例的基于语音增强算法的对抗样本攻击防御方法，针对的是智能终端设备中的语音样本，因此可以通过智能终端设备执行，具体的，该智能终端设备可以为智能手机、个人电脑或服务器等。

步骤S12，根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本。

其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法。

可选的，待识别语音样本的频谱特征包括所述待识别语音样本的相位，基于连续最小值跟踪的谱减法，通过预设公式：

对待识别语音样本进行去噪；

其中，

为离散时间傅立叶变换后的待识别语音的频谱，

为估计噪声的幅度谱，

为离散时间傅立叶变换后的噪声的频谱，j为虚数单位。

其中，通过带噪语音的相位代替噪声的相位，不会对语音识别造成影响。

可选的，结合语音存在概率的对数MMSE算法，通过预设公式：

对待识别语音样本进行去噪；

其中，

表示在频点K存在语音，

步骤S13，通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。

其中，预先训练的语音识别模型可以为用于对语音进行识别的网络模型，通过语音识别模型可以对去噪后的语音样本的内容等进行识别，从而得到识别结果。例如，通过语音识别出语音对应的文字内容，或通过对某人说话的语音进行身份识别等。

可见，本发明实施例提供基于语音增强算法的对抗样本攻击防御方法，可以通过获取待识别语音样本后对待识别语音样本进行去噪处理后，通过对去噪后的语音样本进行识别，增加语音识别准确率，提高防御对抗样本攻击的效率。

可选的，参见图2，根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，包括：

步骤S21，根据待识别语音样本的频谱特征，通过基于连续最小值跟踪的谱减法对待识别语音样本进行噪声频谱的计算，得到第一估计噪声频谱。

其中，基于连续最小值跟踪的谱减法通过假设语音样本中的噪声为加性噪声，从带噪语音样本的语音谱中减去对噪声谱的估计，即第一估计噪声频谱，从而得到第一语音样本。通过语音样本中不存在需识别的信号时，对噪声谱进行估计和更新。

假定y(n)为输入的对抗样本语音，即待识别语音样本，其有纯净语音信号

x(n)和加性噪声d(n)组成，即：

y(n)＝x(n)+d(n)

两边同时做离散时间傅里叶变换：

Y(ω)＝X(ω)+D(ω)

可以将Y(ω)以极坐标形式表示：

其中，|Y(ω)|为待识别语音样本的幅度谱，φ_y(ω)为待识别语音样本的相位，j为虚数单位。

其中，噪声频谱D(ω)可以表示为

通过连续最小值跟踪法来进行噪声频谱估计。通过替换，可以得到纯净信号谱的估计：

其中，

是第一估计噪声频谱，

是通过使用逆傅里叶变换得到的去噪后的语音信号。

可选的，连续最小值跟踪通过基于相邻帧样本之间进行比较的跟踪算法，对带噪语音谱的每一个频率点进行非线性平滑，进而连续的更新噪声估计，得到

可选的，上述非线性平滑可以通过递归式对带噪语音周期图进行短时平滑：

P(λ,k)＝αP(λ-1,k)+(1-α)|Y(λ,k)|²

其中，α为平滑因子(0.7≤α≤0.9)，λ为帧数标记，p(λ,k)为第λ帧在k频点的带噪语音功率谱,|Y(λ,k)|²为带噪语音帧的短时周期图。

其中，估计噪声谱的非线性处理表示如下，通过每个频点对带噪语音功率谱的最小值(P_min(λ,k))进行跟踪：

if P_min(λ-1,k)<P(λ,k)

else

P_min(λ,k)＝P(λ,k)

其中P_min(λ,k)为噪声估计，可选的，在实际使用中参数设置可以为：

α＝0.7,β＝0.96,γ＝0.998。

步骤S22，根据第一估计噪声频谱对待识别语音样本进行去噪，得到第一语音样本。

可选的，根据第一估计噪声频谱对待识别语音样本进行去噪，可以通过对待识别语音样本的频谱中减去所得到的第一估计噪声频谱，根据计算得到的频谱得到第一语音样本。

步骤S23，根据第一语音样本，通过结合语音存在概率的对数MMSE算法对第一语音样本进行噪声频谱的计算，得到第二估计噪声频谱。

其中，由于待识别的语音样本中可能会包含大量的停顿，即使在语音活动期间也同样如此。因此可以利用结合语音存在概率的对数MMSE估计器对第一语音样本进行二次降噪。

其中，待识别的语音样本是否处于语音存在状态的双状态模型，可以通过数学表示为一个二元假设模型：

语音不存在：|Y(ω_k)|＝|D(ω_k)|

语音存在：

其中

表示在频点k不存在语音的假设，

表示存在语音的假设。结合了语音存在概率，对数MMSE估计器可以表示为:

其中，

表示在频点K存在语音，

从而可计算出

得到去噪后的语音样本，即纯净语音。

步骤S24，根据第二估计噪声频谱对第一语音样本进行去噪，得到去噪后的语音样本。

可选的，根据第二估计噪声频谱对第一语音样本进行去噪，可以通过对第一语音样本的频谱中减去所得到的第二估计噪声频谱，从而根据计算得到的频谱得到去噪后的语音样本。

例如，参见图3，图3为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种实例图，步骤S31，获取对抗样本，其中对抗样本包括噪声信号和纯净的语音信号。步骤S32，基于连续最小值跟踪的谱减法，通过基于连续最小值跟踪的谱减法对所获取的对抗样本进行去噪。步骤S33，结合语音存在概率的对数MMSE算法，通过结合语音存在概率的对数MMSE算法对步骤S32中通过基于连续最小值跟踪的谱减法去噪后的对抗样本进行再次去噪。步骤S34，去噪后样本，得到通过基于连续最小值跟踪的谱减法去噪后的对抗样本，即纯净的语音信号。

可选的，参见图4，根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，包括：

步骤S41，根据待识别语音样本的频谱特征，通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算，得到第三估计噪声频谱。

步骤S42，根据第三估计噪声频谱对待识别语音样本进行去噪，得到第三语音样本。

其中，第三估计噪声频谱为通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算得到的噪声频谱，结合语音存在概率的对数MMSE算法可以参见上述步骤S23，此处不再赘述。通过第三估计噪声频谱可以利用谱减法对待识别语音样本进行去噪，得到第三语音样本。

步骤S43，根据第三语音样本，通过基于连续最小值跟踪的谱减法对第三语音样本进行噪声频谱的计算，得到第四估计噪声频谱。

步骤S44，根据第四估计噪声频谱对第三语音样本进行去噪，得到去噪后的语音样本。

其中，第四估计噪声频谱为通过基于连续最小值跟踪的谱减法第三语音样本进行噪声频谱的计算得到的噪声频谱，基于连续最小值跟踪的谱减法可以参见上述步骤S21，此处不再赘述。

通过预设公式：

对待识别语音样本进行去噪；

其中，

为离散时间傅立叶变换后的待识别语音的频谱，

为估计噪声的幅度谱，

为离散时间傅立叶变换后的噪声的频谱，j为虚数单位。

通过预设公式：

对待识别语音样本进行去噪；

其中，

表示在频点K存在语音，

可选的，以白盒攻击CW(一种基于优化的攻击)语音攻击为例，CW攻击利用MozillaCommon Voice数据集，在BaiduDeepSpeech0.4语音识别模型上达到了100％的有目标攻击成功率。通过在数据集中选择了一个标签为“without the dataset the article isuseless”的纯净语音样本，其时域参见图5a。利用CW攻击产生的对抗样本(迭代次数：500，攻击目标语句：this is a test)，其时域图参见图5b。由于对抗样本的特点，即加入很小的扰动却可引起识别错误，攻击前后的样本差距非常微小。

DeepSpeech0.4对原干净样本的识别结果为“without the dataset the articleisusedless”，对CW产生的对抗样本的识别结果为“this is a test”，证明CW攻击可以使语音识别模型把语音错误地识别为攻击者想要的结果。

把对抗样本输入到通过上述基于语音增强算法的对抗样本攻击防御方法进行预处理，得到的去噪后样本的时域图，参见图5c，DeepSpeech0.4的识别结果为“without thedataset the article isusedless”，因此，本申请的基于语音增强算法的对抗样本攻击防御方法能够极大的恢复语音识别的准确性，达到了防御的目的。

参见图6，本申请还提供了一种基于语音增强算法的对抗样本攻击防御装置，包括：

特征获取模块601，用于获取待识别语音样本与待识别语音样本的频谱特征；

样本去噪模块602，用于根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本。

其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法；

语音识别模块603，用于通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。

可选的，样本去噪模块602，包括：

通过预设公式：

对待识别语音样本进行去噪；

其中，

为离散时间傅立叶变换后的待识别语音的频谱，

为估计噪声的幅度谱，

为离散时间傅立叶变换后的噪声的频谱，j为虚数单位。

通过预设公式：

对待识别语音样本进行去噪；

其中，

表示在频点K存在语音，

可见，本发明实施例提供基于语音增强算法的对抗样本攻击防御装置，可以获取待识别语音样本与待识别语音样本的频谱特征；根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法；通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后，通过对去噪后的语音样本进行识别，增加语音识别准确率，提高防御对抗样本攻击的效率。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取待识别语音样本与待识别语音样本的频谱特征；

根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法；

可选的，上述处理器，用于执行存储器上所存放的程序时，实现如上述任一基于语音增强算法的对抗样本攻击防御方法。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一基于语音增强算法的对抗样本攻击防御方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一基于语音增强算法的对抗样本攻击防御方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于语音增强算法的对抗样本攻击防御方法，其特征在于，包括：

获取待识别语音样本与所述待识别语音样本的频谱特征；

根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，其中，所述算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法；

通过预先训练的语音识别模型对所述去噪后的语音样本进行识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，包括：

根据所述待识别语音样本的频谱特征，通过所述基于连续最小值跟踪的谱减法对所述待识别语音样本进行噪声频谱的计算，得到第一估计噪声频谱；

根据所述第一估计噪声频谱对所述识别语音样本进行去噪，得到第一语音样本；

根据所述第一语音样本，通过结合语音存在概率的对数MMSE算法对所述第一语音样本进行噪声频谱的计算，得到第二估计噪声频谱；

根据所述第二估计噪声频谱对所述第一语音样本进行去噪，得到去噪后的语音样本。

3.根据权利要求1所述的方法，其特征在于，所述根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，包括：

根据所述待识别语音样本的频谱特征，通过所述结合语音存在概率的对数MMSE算法对所述待识别语音样本进行噪声频谱的计算，得到第三估计噪声频谱；

根据所述第三估计噪声频谱对所述识别语音样本进行去噪，得到第三语音样本；

根据所述第三语音样本，通过基于连续最小值跟踪的谱减法对所述第三语音样本进行噪声频谱的计算，得到第四估计噪声频谱；

根据所述第四估计噪声频谱对所述第三语音样本进行去噪，得到去噪后的语音样本。

4.根据权利要求2所述的方法，其特征在于，所述待识别语音样本的频谱特征包括所述待识别语音样本的相位，所述根据所述第一估计噪声频谱对所述识别语音样本进行去噪，得到第一语音样本，包括：

通过预设公式：

对所述待识别语音样本进行去噪；

其中，

为离散时间傅立叶变换后的待识别语音的频谱，

为估计噪声的幅度谱，

为离散时间傅立叶变换后的噪声的频谱，j为虚数单位。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第二估计噪声频谱对所述第一语音样本进行去噪，得到去噪后的语音样本，包括：

通过预设公式：

对所述待识别语音样本进行去噪；

其中，

表示在频点K存在语音，

6.一种基于语音增强算法的对抗样本攻击防御装置，其特征在于，包括：

特征获取模块，用于获取待识别语音样本与所述待识别语音样本的频谱特征；

样本去噪模块，用于根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，其中，所述算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法；

语音识别模块，用于通过预先训练的语音识别模型对所述去噪后的语音样本进行识别，得到识别结果。

7.根据权利要求6所述的装置，其特征在于，所述样本去噪模块，包括：

第一估计子模块，用于根据所述待识别语音样本的频谱特征，通过所述基于连续最小值跟踪的谱减法对所述待识别语音样本进行噪声频谱的计算，得到第一估计噪声频谱；

第一去噪子模块，用于根据所述第一估计噪声频谱对所述识别语音样本进行去噪，得到第一语音样本；

第二估计子模块，用于根据所述第一语音样本，通过结合语音存在概率的对数MMSE算法对所述第一语音样本进行噪声频谱的计算，得到第二估计噪声频谱；

第二去噪子模块，用于根据所述第二估计噪声频谱对所述第一语音样本进行去噪，得到去噪后的语音样本。

8.根据权利要求1所述的方法，其特征在于，所述样本去噪模块，包括：

第三估计子模块，用于根据所述待识别语音样本的频谱特征，通过所述结合语音存在概率的对数MMSE算法对所述待识别语音样本进行噪声频谱的计算，得到第三估计噪声频谱；

第三去噪子模块，用于根据所述第三估计噪声频谱对所述识别语音样本进行去噪，得到第三语音样本；

第四估计子模块，用于根据所述第三语音样本，通过基于连续最小值跟踪的谱减法对所述第三语音样本进行噪声频谱的计算，得到第四估计噪声频谱；

第四去噪子模块，用于根据所述第四估计噪声频谱对所述第三语音样本进行去噪，得到去噪后的语音样本。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的所述计算机程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。