CN112951214B

CN112951214B - 一种抗对抗样本攻击的语音识别模型训练方法

Info

Publication number: CN112951214B
Application number: CN202110357833.3A
Authority: CN
Inventors: 徐东亮; 翟文升; 刘志伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2022-04-12
Anticipated expiration: 2041-04-01
Also published as: CN112951214A

Abstract

本发明公开了一种抗对抗样本攻击的语音识别模型训练方法，包括以下步骤：A：选取由语音文件组成的数据集，B：对语音文件进行采样得到采集张量；C：对采集张量提取特征张量；D:将特征张量、语音文件对应的中文字符以及训练参数输入卷积神经网络模型，结合声学模型与语言模型使用CTC函数将输出张量映射为在每个时间步输出不同中文字符的概率，然后选取概率最大值转录出对应的中文字符作为实际输出值；最后求取目标值与实际输出值的偏差值记为loss；E：使用反向传播方法更新卷积神经网络模型的权值参数，在更新权值参数的同时对输入卷积神经网络模型的训练参数进行更新。本发明能够减少训练计算量和训练时间，提高抵抗恶意攻击的能力。

Description

一种抗对抗样本攻击的语音识别模型训练方法

技术领域

本发明涉及语音识别领域，尤其涉及一种抗对抗样本攻击的语音识别模型训练方法。

背景技术

随着深度学习与神经网络研究的发展，自动识别应用场景越来越广泛。在语音领域，深度学习正在重新塑造我们的人机交互方式，例如广泛应用于智能手机的个人助理(苹果的Siri，谷歌的Assistant)。这些系统通过运行语音识别模型来识别并执行用户的命令。事实上对自动语音识别的研究要早于计算机的出现，语音合成与识别技术最早可以追溯到原始的声码器。到新世纪后人工智能网络才在语音识别领域研究兴起，大部分的人工智能网络采用基于反向传播算法(BP算法)的多层感知网络。

而最近的研究表明，神经网络很容易受到对抗性的攻击。在语音识别领域也存这样的问题，攻击者在音频中添加轻微的扰动，会使神经网络输入截然不同的数值，而人耳却无法识别出轻微的扰动。随着近年来出现的语音对抗攻击攻击性越来越强，种类越来越多，使得语音识别领域安全问题开始凸显，也为语音识别技术的大规模商业化埋下了一定的隐患。

发明内容

本发明的目的是提供一种抗对抗样本攻击的语音识别模型训练方法，将生成对抗性样本与训练模型整合成一步，在生成对抗性样本时，同时使用反向传播计算得到偏导数用于更新神经网络模型，减少训练计算量和训练时间，简化了模型的训练步骤与训练过程，极大地提高了抵抗恶意攻击的能力。

本发明采用下述技术方案：

一种抗对抗样本攻击的语音识别模型训练方法，包括以下步骤：

A：选取由N条语音文件组成的数据集,将语音文件对应的中文字符记为y；

B：对步骤A中选取的数据集中的语音文件进行采样得到采集张量；

C：将步骤B中得到的采集张量使用梅尔频率倒谱系数(MFCC)进行语音特征提取得到特征张量x，共计得到N个特征张量x；

D:将步骤C中得到的特征张量x、步骤A中语音文件对应的中文字符y以及卷积神经网络模型的训练参数δ输入卷积神经网络模型，经过卷积神经网络模型计算后得到输出张量，结合声学模型与语言模型，并使用CTC函数将输出张量映射为在每个时间步输出不同中文字符的概率，然后选取概率最大值转录出对应的中文字符作为实际输出值；最后求取目标值与实际输出值的偏差值记为loss；

其中，训练参数δ用于表达卷积神经网络模型对输入特征张量的偏导数信息，训练参数δ的初始值为0，目标值即为步骤A中得到的中文字符y；

E：使用反向传播方法更新卷积神经网络模型的权值参数w，在更新权值参数w的同时，对输入卷积神经网络模型的训练参数δ进行更新。

所述的步骤A中，采用中文语音识别框架以及中文语音数据集Free ST-Chinese-Mandarin-Corpus。

所述的步骤B中，在对语音文件进行预处理时，首先切除语音文件首尾段的无效部分，然后对语音文件进行采样，采样频率为16000赫兹，得到采集张量。

所述的步骤E包括以下具体步骤：

E1：将步骤C中得到的N个特征张量x划分为n组，分别记为第1组，第2组，……，第n组；

E2：将0作为第一轮更新时的训练参数δ初始输入值，将第1组的特征张量x作为第一轮更新时的特征张量x初始输入值；然后通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数，然后利用计算出的偏导数结果，通过公式(7)和(8)，求得更新后的训练参数δ和权值参数w；

wⁱ⁺¹＝wⁱ+η·sign(g_adv)； (7)

δⁱ⁺¹＝δⁱ+ε·sign(g_adv)； (8)

其中，公式(5)为损失函数L对特征张量x的偏导数计算公式，公式(6)为损失函数L对训练参数δ的偏导数计算公式，公式(7)为权值参数w的更新公式，公式(8)为训练参数δ的更新公式，g_adv表示损失函数L对特征张量x的偏导数，η和ε均为常数，取值均为0.01--0.1，sign是数学中的符号函数；

E3：将上一步得到的更新后的训练参数δ作为训练参数δ初始输入值，仍将第1组的特征张量x作为第一轮的特征张量x初始输入值；然后按照步骤E2中的方法，通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数，然后利用计算出的偏导数结果，通过公式(7)和(8)，求得更新后的训练参数δ和权值参数w；

E4：按照步骤E3的方法，重复执行J次，得到第一轮循环后的训练参数δ的更新值和权值参数w的更新值；

E5：设置一个中间张量δ_max，然后将第一轮循环后的训练参数δ的更新值赋值给中间张量δ_max；然后根据第2组的特征张量x的大小，从δ_max中截取与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值；

E6：将步骤E5中从δ_max中截取得到的与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值，将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值；然后按照步骤E2中的方法，通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数，然后利用计算出的偏导数结果，通过公式(7)和(8)，求得更新后的训练参数δ和权值参数w；

E7：将上一步得到的更新后的训练参数δ作为训练参数δ初始输入值，仍将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值；然后按照步骤E6中的方法，通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数，然后利用计算出的偏导数结果，通过公式(7)和(8)，求得更新后的训练参数δ和权值参数w；

E8：按照步骤E7的方法，重复执行J次，得到第二轮循环后的训练参数δ的更新值和权值参数w的更新值；

E9：按照步骤E5的方法，得到第三轮更新时的训练参数δ的初始值输入值，并将第3组的特征张量x作为第三轮更新时的特征张量x初始输入值；然后重复执行步骤E6至E8；得到第三轮循环后的训练参数δ的更新值和权值参数w的更新值；

E10：重复执行上述步骤，直至训练次数达到设定值或者损失函数达到收敛条件后，停止训练并保存更新权值参数w后的卷积神经网络模型，最终完成抗对抗样本攻击的语音识别模型的训练。

所述的J的大于等于4小于等于8。

所述的卷积神经网络模型的结构为一维卷积，卷积神经网络模型包括10个卷积块，每个卷积块均包含3个操作，分别为一维卷积运算、门控线性单元激活和Drop out；

一维卷积运算如公式(9)所示：

式中，s(t)是卷积运算结果，u和v是关于卷积运算的自变量t的函数，a是累加变量；

门控线性单元激活函数如公式(10)所示：

式中，K是当前层的输入，F和G是不同的卷积核，σ是Sigmoid激活函数b和c是偏置参数；

Sigmoid激活函数如公式(11)所示：

式中，m为激活函数的自变量。

所述的每个卷积块参数为：

第1个卷积块输入通道数为161，输出通道数为500，Drop out参数为0.2；第2-8个卷积块输入通道数为250，输出通道数为2000,Drop out参数为0.3；第9个卷积块输入通道数1000，输出通道数2000，Drop out参数为0.5；第10个卷积块输入通道数为1000，输出通道数为4277，此时的输出即为步骤D中得到的输出张量。

本发明提出了一种面向对抗攻击的自动语音识别模型训练方法，将生成对抗性样本与训练模型整合成一步，在生成对抗性样本时，同时使用反向传播计算得到偏导数用于更新神经网络模型，成倍的减少了训练计算量，简化了模型的训练步骤与训练过程，不仅节约时间成本还有效降低购置高性能显卡的资金成本，减少训练计算量和训练时间，简化了模型的训练步骤与训练过程，极大地提高了抵抗恶意攻击的能力。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下结合附图和实施例对本发明作以详细的描述：

如图1所示，本发明所述的抗对抗样本攻击的语音识别模型训练方法，包括以下步骤：

本发明中，采用中文语音识别框架以及中文语音数据集Free ST-Chinese-Mandarin-Corpus。Free ST-Chinese-Mandarin-Corpus数据集由N条语音文件组成，每个语音文件都是由一名朗读者朗读的一句话，每句话大约包含十个左右的中文字符,将语音文件对应的中文字符记为y。

对语音文件进行预处理时，首先切除语音文件首尾段的无效部分，然后对语音文件进行采样，采样频率为16000赫兹，得到采集张量。

C：将步骤B中得到的采集张量使用梅尔频率倒谱系数(MFCC)进行语音特征提取得到特征张量x，共计得到N个特征张量x。

梅尔频率倒谱系数就是在短时傅里叶变换的基础上运用梅尔滤波器组得到梅尔频谱，取对数后做离散余弦变换，属于本领域常规技术，在此不再赘述。

其中，训练参数δ用于表达卷积神经网络模型对输入特征张量的偏导数信息，训练参数δ的初始值为0；声学模型、语言模型和CTC函数为本领域常规技术，在此不再赘述；目标值即为步骤A中得到的中文字符y。

E：使用反向传播方法更新卷积神经网络模型的权值参数w，在更新权值参数w的同时，对输入卷积神经网络模型的训练参数δ进行更新；

现有的抵抗对抗性样本攻击的方法是首先生成对抗性样本,步骤如下：

1.分别按照公式(1)和(2)计算损失函数对输入卷积神经网络模型的特征张量x的偏导数，然后根据计算出的偏导数对特征张量x进行更新,这个过程需要迭代的进行n次，n一般取4-12；

上述公式中，L为损失函数，out为经过激活后的输出值，net为未经激活的值,xⁱ表示第i次迭代后的特征张量值，xⁱ⁺¹表示第i+1次迭代后的特征张量值，η为常数。

2.在特征张量x进行更新后，利用更新后的特征张量x分别按照公式(3)和(4)计算损失函数对卷积神经网络模型的权值参数w的偏导数，并根据计算出的偏导数对卷积神经网络模型的权值参数w进行更新；

上述公式中，L为损失函数，out为经过激活后的输出值，net为未经激活的值，wⁱ表示第i次迭代后的权值参数值，wⁱ⁺¹表示第i+1次迭代后的权值参数值。

现有的抵抗对抗性样本攻击的方法计算量过大，导致卷积神经网络模型的训练时间过长，且实际应用比较困难。考虑到损失函数对输入卷积神经网络模型的特征张量x与卷积神经网络模型的参数w的偏导数计算方法中，隐藏层中的计算过程是一致的，因此可以在对训练参数δ更新的过程中，同时对卷积神经网络模型的参数w更新，以降低训练计算量和训练时间。

因此，本发明中使用反向传播方法同时更新权值参数w与训练参数δ，具体步骤如下：

wⁱ⁺¹＝wⁱ+η·sign(g_adv) (7)

δⁱ⁺¹＝δⁱ+ε·sign(g_adv) (8)

其中，公式(5)为损失函数L对特征张量x的偏导数计算公式，公式(6)为损失函数L对训练参数δ的偏导数计算公式，公式(7)为权值参数w的更新公式，公式(8)为训练参数δ的更新公式，g_adv表示损失函数L对特征张量x的偏导数，η和ε均为常数，取值均为0.01--0.1，sign是数学中的符号函数。

E3：将上一步(即步骤E2)得到的更新后的训练参数δ作为训练参数δ初始输入值，仍将第1组的特征张量x作为第一轮的特征张量x初始输入值；然后按照步骤E2中的方法，通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数，然后利用计算出的偏导数结果，通过公式(7)和(8)，求得更新后的训练参数δ和权值参数w；

E4：按照步骤E3的方法，重复执行J次，得到第一轮循环后的训练参数δ的更新值和权值参数w的更新值；J的大于等于4小于等于8

E5：设置一个中间张量δ_max，然后将第一轮循环后的训练参数δ的更新值赋值给中间张量δ_max；然后根据第2组的特征张量x的大小，从δ_max中截取与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值。

E7：将上一步(即步骤E6)得到的更新后的训练参数δ作为训练参数δ初始输入值，仍将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值；然后按照步骤E6中的方法，通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数，然后利用计算出的偏导数结果，通过公式(7)和(8)，求得更新后的训练参数δ和权值参数w；

E8：按照步骤E7的方法，重复执行4-8次，得到第二轮循环后的训练参数δ的更新值和权值参数w的更新值；

本发明中，由于经过梅尔频率倒谱系数进行语音特征提取后得到的语音张量即步骤C中得到的x是一个二维张量，因此卷积神经网络模型的结构为一维卷积。卷积神经网络模型包括10个卷积块，每个卷积块均包含3个操作，分别为一维卷积运算、门控线性单元激活和Drop out(随机丢弃一部分神经元)；

一维卷积运算如公式(9)所示：

s(t)是卷积运算结果，u和v是关于卷积运算的自变量t的函数，a是累加变量；

门控线性单元激活函数如公式(10)所示：

式中，K是当前层的输入，F和G是不同的卷积核，σ是Sigmoid激活函数b和c是偏置参数。

Sigmoid激活函数如公式(11)所示：

式中，m为激活函数的自变量；

每个卷积块参数分别如下：

由于在语音识别领域，训练数据集庞大，一般为几十G到上百G，训练时间长达数十天，因此本发明提出了一种面向对抗攻击的自动语音识别模型训练方法，在生成对抗性样本时，使用反向传播计算得到偏导数用于更新神经网络模，成倍的减少了训练计算量，简化了模型的训练步骤与训练过程，不仅节约时间成本还有效降低购置高性能显卡的资金成本。同时也为语音识别系统开发者提供一种提高模型鲁棒性的方法。

Claims

1.一种抗对抗样本攻击的语音识别模型训练方法，其特征在于，包括以下步骤：

C：将步骤B中得到的采集张量使用梅尔频率倒谱系数进行语音特征提取得到特征张量x，共计得到N个特征张量x；

其中，所述的步骤E包括以下具体步骤：

g_adv＝▽_xL(x+δ,y,w)； (5)

g_w＝▽_wL(x+δ,y,w)； (6)

wⁱ⁺¹＝wⁱ+η·sign(g_adv)； (7)

δⁱ⁺¹＝δⁱ+ε·sign(g_adv)； (8)

2.根据权利要求1所述的抗对抗样本攻击的语音识别模型训练方法，其特征在于：所述的步骤A中，采用中文语音识别框架以及中文语音数据集FreeST-Chinese-Mandarin-Corpus。

3.根据权利要求1所述的抗对抗样本攻击的语音识别模型训练方法，其特征在于：所述的步骤B中，在对语音文件进行预处理时，首先切除语音文件首尾段的无效部分，然后对语音文件进行采样，采样频率为16000赫兹，得到采集张量。

4.根据权利要求1所述的抗对抗样本攻击的语音识别模型训练方法，其特征在于：所述的J的大于等于4小于等于8。

5.根据权利要求1所述的抗对抗样本攻击的语音识别模型训练方法，其特征在于：所述的卷积神经网络模型的结构为一维卷积，卷积神经网络模型包括10个卷积块，每个卷积块均包含3个操作，分别为一维卷积运算、门控线性单元激活和Drop out；

一维卷积运算如公式(9)所示：

门控线性单元激活函数如公式(10)所示：

Sigmoid激活函数如公式(11)所示：

式中，m为激活函数的自变量。

6.根据权利要求5所述的抗对抗样本攻击的语音识别模型训练方法，其特征在于：所述的每个卷积块参数为：