CN112951214B - 一种抗对抗样本攻击的语音识别模型训练方法 - Google Patents
一种抗对抗样本攻击的语音识别模型训练方法 Download PDFInfo
- Publication number
- CN112951214B CN112951214B CN202110357833.3A CN202110357833A CN112951214B CN 112951214 B CN112951214 B CN 112951214B CN 202110357833 A CN202110357833 A CN 202110357833A CN 112951214 B CN112951214 B CN 112951214B
- Authority
- CN
- China
- Prior art keywords
- training
- tensor
- value
- parameter
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000020411 cell activation Effects 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002407 reforming Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种抗对抗样本攻击的语音识别模型训练方法,包括以下步骤:A:选取由语音文件组成的数据集,B:对语音文件进行采样得到采集张量;C:对采集张量提取特征张量;D:将特征张量、语音文件对应的中文字符以及训练参数输入卷积神经网络模型,结合声学模型与语言模型使用CTC函数将输出张量映射为在每个时间步输出不同中文字符的概率,然后选取概率最大值转录出对应的中文字符作为实际输出值;最后求取目标值与实际输出值的偏差值记为loss;E:使用反向传播方法更新卷积神经网络模型的权值参数,在更新权值参数的同时对输入卷积神经网络模型的训练参数进行更新。本发明能够减少训练计算量和训练时间,提高抵抗恶意攻击的能力。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种抗对抗样本攻击的语音识别模型训练方法。
背景技术
随着深度学习与神经网络研究的发展,自动识别应用场景越来越广泛。在语音领域,深度学习正在重新塑造我们的人机交互方式,例如广泛应用于智能手机的个人助理(苹果的Siri,谷歌的Assistant)。这些系统通过运行语音识别模型来识别并执行用户的命令。事实上对自动语音识别的研究要早于计算机的出现,语音合成与识别技术最早可以追溯到原始的声码器。到新世纪后人工智能网络才在语音识别领域研究兴起,大部分的人工智能网络采用基于反向传播算法(BP算法)的多层感知网络。
而最近的研究表明,神经网络很容易受到对抗性的攻击。在语音识别领域也存这样的问题,攻击者在音频中添加轻微的扰动,会使神经网络输入截然不同的数值,而人耳却无法识别出轻微的扰动。随着近年来出现的语音对抗攻击攻击性越来越强,种类越来越多,使得语音识别领域安全问题开始凸显,也为语音识别技术的大规模商业化埋下了一定的隐患。
发明内容
本发明的目的是提供一种抗对抗样本攻击的语音识别模型训练方法,将生成对抗性样本与训练模型整合成一步,在生成对抗性样本时,同时使用反向传播计算得到偏导数用于更新神经网络模型,减少训练计算量和训练时间,简化了模型的训练步骤与训练过程,极大地提高了抵抗恶意攻击的能力。
本发明采用下述技术方案:
一种抗对抗样本攻击的语音识别模型训练方法,包括以下步骤:
A:选取由N条语音文件组成的数据集,将语音文件对应的中文字符记为y;
B:对步骤A中选取的数据集中的语音文件进行采样得到采集张量;
C:将步骤B中得到的采集张量使用梅尔频率倒谱系数(MFCC)进行语音特征提取得到特征张量x,共计得到N个特征张量x;
D:将步骤C中得到的特征张量x、步骤A中语音文件对应的中文字符y以及卷积神经网络模型的训练参数δ输入卷积神经网络模型,经过卷积神经网络模型计算后得到输出张量,结合声学模型与语言模型,并使用CTC函数将输出张量映射为在每个时间步输出不同中文字符的概率,然后选取概率最大值转录出对应的中文字符作为实际输出值;最后求取目标值与实际输出值的偏差值记为loss;
其中,训练参数δ用于表达卷积神经网络模型对输入特征张量的偏导数信息,训练参数δ的初始值为0,目标值即为步骤A中得到的中文字符y;
E:使用反向传播方法更新卷积神经网络模型的权值参数w,在更新权值参数w的同时,对输入卷积神经网络模型的训练参数δ进行更新。
所述的步骤A中,采用中文语音识别框架以及中文语音数据集Free ST-Chinese-Mandarin-Corpus。
所述的步骤B中,在对语音文件进行预处理时,首先切除语音文件首尾段的无效部分,然后对语音文件进行采样,采样频率为16000赫兹,得到采集张量。
所述的步骤E包括以下具体步骤:
E1:将步骤C中得到的N个特征张量x划分为n组,分别记为第1组,第2组,……,第n组;
E2:将0作为第一轮更新时的训练参数δ初始输入值,将第1组的特征张量x作为第一轮更新时的特征张量x初始输入值;然后通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
wi+1=wi+η·sign(gadv); (7)
δi+1=δi+ε·sign(gadv); (8)
其中,公式(5)为损失函数L对特征张量x的偏导数计算公式,公式(6)为损失函数L对训练参数δ的偏导数计算公式,公式(7)为权值参数w的更新公式,公式(8)为训练参数δ的更新公式,gadv表示损失函数L对特征张量x的偏导数,η和ε均为常数,取值均为0.01--0.1,sign是数学中的符号函数;
E3:将上一步得到的更新后的训练参数δ作为训练参数δ初始输入值,仍将第1组的特征张量x作为第一轮的特征张量x初始输入值;然后按照步骤E2中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E4:按照步骤E3的方法,重复执行J次,得到第一轮循环后的训练参数δ的更新值和权值参数w的更新值;
E5:设置一个中间张量δmax,然后将第一轮循环后的训练参数δ的更新值赋值给中间张量δmax;然后根据第2组的特征张量x的大小,从δmax中截取与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值;
E6:将步骤E5中从δmax中截取得到的与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值,将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值;然后按照步骤E2中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E7:将上一步得到的更新后的训练参数δ作为训练参数δ初始输入值,仍将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值;然后按照步骤E6中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E8:按照步骤E7的方法,重复执行J次,得到第二轮循环后的训练参数δ的更新值和权值参数w的更新值;
E9:按照步骤E5的方法,得到第三轮更新时的训练参数δ的初始值输入值,并将第3组的特征张量x作为第三轮更新时的特征张量x初始输入值;然后重复执行步骤E6至E8;得到第三轮循环后的训练参数δ的更新值和权值参数w的更新值;
E10:重复执行上述步骤,直至训练次数达到设定值或者损失函数达到收敛条件后,停止训练并保存更新权值参数w后的卷积神经网络模型,最终完成抗对抗样本攻击的语音识别模型的训练。
所述的J的大于等于4小于等于8。
所述的卷积神经网络模型的结构为一维卷积,卷积神经网络模型包括10个卷积块,每个卷积块均包含3个操作,分别为一维卷积运算、门控线性单元激活和Drop out;
一维卷积运算如公式(9)所示:
式中,s(t)是卷积运算结果,u和v是关于卷积运算的自变量t的函数,a是累加变量;
门控线性单元激活函数如公式(10)所示:
式中,K是当前层的输入,F和G是不同的卷积核,σ是Sigmoid激活函数b和c是偏置参数;
Sigmoid激活函数如公式(11)所示:
式中,m为激活函数的自变量。
所述的每个卷积块参数为:
第1个卷积块输入通道数为161,输出通道数为500,Drop out参数为0.2;第2-8个卷积块输入通道数为250,输出通道数为2000,Drop out参数为0.3;第9个卷积块输入通道数1000,输出通道数2000,Drop out参数为0.5;第10个卷积块输入通道数为1000,输出通道数为4277,此时的输出即为步骤D中得到的输出张量。
本发明提出了一种面向对抗攻击的自动语音识别模型训练方法,将生成对抗性样本与训练模型整合成一步,在生成对抗性样本时,同时使用反向传播计算得到偏导数用于更新神经网络模型,成倍的减少了训练计算量,简化了模型的训练步骤与训练过程,不仅节约时间成本还有效降低购置高性能显卡的资金成本,减少训练计算量和训练时间,简化了模型的训练步骤与训练过程,极大地提高了抵抗恶意攻击的能力。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
如图1所示,本发明所述的抗对抗样本攻击的语音识别模型训练方法,包括以下步骤:
A:选取由N条语音文件组成的数据集,将语音文件对应的中文字符记为y;
本发明中,采用中文语音识别框架以及中文语音数据集Free ST-Chinese-Mandarin-Corpus。Free ST-Chinese-Mandarin-Corpus数据集由N条语音文件组成,每个语音文件都是由一名朗读者朗读的一句话,每句话大约包含十个左右的中文字符,将语音文件对应的中文字符记为y。
B:对步骤A中选取的数据集中的语音文件进行采样得到采集张量;
对语音文件进行预处理时,首先切除语音文件首尾段的无效部分,然后对语音文件进行采样,采样频率为16000赫兹,得到采集张量。
C:将步骤B中得到的采集张量使用梅尔频率倒谱系数(MFCC)进行语音特征提取得到特征张量x,共计得到N个特征张量x。
梅尔频率倒谱系数就是在短时傅里叶变换的基础上运用梅尔滤波器组得到梅尔频谱,取对数后做离散余弦变换,属于本领域常规技术,在此不再赘述。
D:将步骤C中得到的特征张量x、步骤A中语音文件对应的中文字符y以及卷积神经网络模型的训练参数δ输入卷积神经网络模型,经过卷积神经网络模型计算后得到输出张量,结合声学模型与语言模型,并使用CTC函数将输出张量映射为在每个时间步输出不同中文字符的概率,然后选取概率最大值转录出对应的中文字符作为实际输出值;最后求取目标值与实际输出值的偏差值记为loss;
其中,训练参数δ用于表达卷积神经网络模型对输入特征张量的偏导数信息,训练参数δ的初始值为0;声学模型、语言模型和CTC函数为本领域常规技术,在此不再赘述;目标值即为步骤A中得到的中文字符y。
E:使用反向传播方法更新卷积神经网络模型的权值参数w,在更新权值参数w的同时,对输入卷积神经网络模型的训练参数δ进行更新;
现有的抵抗对抗性样本攻击的方法是首先生成对抗性样本,步骤如下:
1.分别按照公式(1)和(2)计算损失函数对输入卷积神经网络模型的特征张量x的偏导数,然后根据计算出的偏导数对特征张量x进行更新,这个过程需要迭代的进行n次,n一般取4-12;
上述公式中,L为损失函数,out为经过激活后的输出值,net为未经激活的值,xi表示第i次迭代后的特征张量值,xi+1表示第i+1次迭代后的特征张量值,η为常数。
2.在特征张量x进行更新后,利用更新后的特征张量x分别按照公式(3)和(4)计算损失函数对卷积神经网络模型的权值参数w的偏导数,并根据计算出的偏导数对卷积神经网络模型的权值参数w进行更新;
上述公式中,L为损失函数,out为经过激活后的输出值,net为未经激活的值,wi表示第i次迭代后的权值参数值,wi+1表示第i+1次迭代后的权值参数值。
现有的抵抗对抗性样本攻击的方法计算量过大,导致卷积神经网络模型的训练时间过长,且实际应用比较困难。考虑到损失函数对输入卷积神经网络模型的特征张量x与卷积神经网络模型的参数w的偏导数计算方法中,隐藏层中的计算过程是一致的,因此可以在对训练参数δ更新的过程中,同时对卷积神经网络模型的参数w更新,以降低训练计算量和训练时间。
因此,本发明中使用反向传播方法同时更新权值参数w与训练参数δ,具体步骤如下:
E1:将步骤C中得到的N个特征张量x划分为n组,分别记为第1组,第2组,……,第n组;
E2:将0作为第一轮更新时的训练参数δ初始输入值,将第1组的特征张量x作为第一轮更新时的特征张量x初始输入值;然后通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
wi+1=wi+η·sign(gadv) (7)
δi+1=δi+ε·sign(gadv) (8)
其中,公式(5)为损失函数L对特征张量x的偏导数计算公式,公式(6)为损失函数L对训练参数δ的偏导数计算公式,公式(7)为权值参数w的更新公式,公式(8)为训练参数δ的更新公式,gadv表示损失函数L对特征张量x的偏导数,η和ε均为常数,取值均为0.01--0.1,sign是数学中的符号函数。
E3:将上一步(即步骤E2)得到的更新后的训练参数δ作为训练参数δ初始输入值,仍将第1组的特征张量x作为第一轮的特征张量x初始输入值;然后按照步骤E2中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E4:按照步骤E3的方法,重复执行J次,得到第一轮循环后的训练参数δ的更新值和权值参数w的更新值;J的大于等于4小于等于8
E5:设置一个中间张量δmax,然后将第一轮循环后的训练参数δ的更新值赋值给中间张量δmax;然后根据第2组的特征张量x的大小,从δmax中截取与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值。
E6:将步骤E5中从δmax中截取得到的与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值,将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值;然后按照步骤E2中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E7:将上一步(即步骤E6)得到的更新后的训练参数δ作为训练参数δ初始输入值,仍将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值;然后按照步骤E6中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E8:按照步骤E7的方法,重复执行4-8次,得到第二轮循环后的训练参数δ的更新值和权值参数w的更新值;
E9:按照步骤E5的方法,得到第三轮更新时的训练参数δ的初始值输入值,并将第3组的特征张量x作为第三轮更新时的特征张量x初始输入值;然后重复执行步骤E6至E8;得到第三轮循环后的训练参数δ的更新值和权值参数w的更新值;
E10:重复执行上述步骤,直至训练次数达到设定值或者损失函数达到收敛条件后,停止训练并保存更新权值参数w后的卷积神经网络模型,最终完成抗对抗样本攻击的语音识别模型的训练。
本发明中,由于经过梅尔频率倒谱系数进行语音特征提取后得到的语音张量即步骤C中得到的x是一个二维张量,因此卷积神经网络模型的结构为一维卷积。卷积神经网络模型包括10个卷积块,每个卷积块均包含3个操作,分别为一维卷积运算、门控线性单元激活和Drop out(随机丢弃一部分神经元);
一维卷积运算如公式(9)所示:
s(t)是卷积运算结果,u和v是关于卷积运算的自变量t的函数,a是累加变量;
门控线性单元激活函数如公式(10)所示:
式中,K是当前层的输入,F和G是不同的卷积核,σ是Sigmoid激活函数b和c是偏置参数。
Sigmoid激活函数如公式(11)所示:
式中,m为激活函数的自变量;
每个卷积块参数分别如下:
第1个卷积块输入通道数为161,输出通道数为500,Drop out参数为0.2;第2-8个卷积块输入通道数为250,输出通道数为2000,Drop out参数为0.3;第9个卷积块输入通道数1000,输出通道数2000,Drop out参数为0.5;第10个卷积块输入通道数为1000,输出通道数为4277,此时的输出即为步骤D中得到的输出张量。
由于在语音识别领域,训练数据集庞大,一般为几十G到上百G,训练时间长达数十天,因此本发明提出了一种面向对抗攻击的自动语音识别模型训练方法,在生成对抗性样本时,使用反向传播计算得到偏导数用于更新神经网络模,成倍的减少了训练计算量,简化了模型的训练步骤与训练过程,不仅节约时间成本还有效降低购置高性能显卡的资金成本。同时也为语音识别系统开发者提供一种提高模型鲁棒性的方法。
Claims (6)
1.一种抗对抗样本攻击的语音识别模型训练方法,其特征在于,包括以下步骤:
A:选取由N条语音文件组成的数据集,将语音文件对应的中文字符记为y;
B:对步骤A中选取的数据集中的语音文件进行采样得到采集张量;
C:将步骤B中得到的采集张量使用梅尔频率倒谱系数进行语音特征提取得到特征张量x,共计得到N个特征张量x;
D:将步骤C中得到的特征张量x、步骤A中语音文件对应的中文字符y以及卷积神经网络模型的训练参数δ输入卷积神经网络模型,经过卷积神经网络模型计算后得到输出张量,结合声学模型与语言模型,并使用CTC函数将输出张量映射为在每个时间步输出不同中文字符的概率,然后选取概率最大值转录出对应的中文字符作为实际输出值;最后求取目标值与实际输出值的偏差值记为loss;
其中,训练参数δ用于表达卷积神经网络模型对输入特征张量的偏导数信息,训练参数δ的初始值为0,目标值即为步骤A中得到的中文字符y;
E:使用反向传播方法更新卷积神经网络模型的权值参数w,在更新权值参数w的同时,对输入卷积神经网络模型的训练参数δ进行更新;
其中,所述的步骤E包括以下具体步骤:
E1:将步骤C中得到的N个特征张量x划分为n组,分别记为第1组,第2组,……,第n组;
E2:将0作为第一轮更新时的训练参数δ初始输入值,将第1组的特征张量x作为第一轮更新时的特征张量x初始输入值;然后通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
gadv=▽xL(x+δ,y,w); (5)
gw=▽wL(x+δ,y,w); (6)
wi+1=wi+η·sign(gadv); (7)
δi+1=δi+ε·sign(gadv); (8)
其中,公式(5)为损失函数L对特征张量x的偏导数计算公式,公式(6)为损失函数L对训练参数δ的偏导数计算公式,公式(7)为权值参数w的更新公式,公式(8)为训练参数δ的更新公式,gadv表示损失函数L对特征张量x的偏导数,η和ε均为常数,取值均为0.01--0.1,sign是数学中的符号函数;
E3:将上一步得到的更新后的训练参数δ作为训练参数δ初始输入值,仍将第1组的特征张量x作为第一轮的特征张量x初始输入值;然后按照步骤E2中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E4:按照步骤E3的方法,重复执行J次,得到第一轮循环后的训练参数δ的更新值和权值参数w的更新值;
E5:设置一个中间张量δmax,然后将第一轮循环后的训练参数δ的更新值赋值给中间张量δmax;然后根据第2组的特征张量x的大小,从δmax中截取与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值;
E6:将步骤E5中从δmax中截取得到的与第2组的特征张量x大小相同的部分作为第二轮更新时的训练参数δ的初始值输入值,将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值;然后按照步骤E2中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E7:将上一步得到的更新后的训练参数δ作为训练参数δ初始输入值,仍将第2组的特征张量x作为第二轮更新时的特征张量x初始输入值;然后按照步骤E6中的方法,通过公式(5)和(6)分别计算损失函数L对特征张量x及训练参数δ的偏导数,然后利用计算出的偏导数结果,通过公式(7)和(8),求得更新后的训练参数δ和权值参数w;
E8:按照步骤E7的方法,重复执行J次,得到第二轮循环后的训练参数δ的更新值和权值参数w的更新值;
E9:按照步骤E5的方法,得到第三轮更新时的训练参数δ的初始值输入值,并将第3组的特征张量x作为第三轮更新时的特征张量x初始输入值;然后重复执行步骤E6至E8;得到第三轮循环后的训练参数δ的更新值和权值参数w的更新值;
E10:重复执行上述步骤,直至训练次数达到设定值或者损失函数达到收敛条件后,停止训练并保存更新权值参数w后的卷积神经网络模型,最终完成抗对抗样本攻击的语音识别模型的训练。
2.根据权利要求1所述的抗对抗样本攻击的语音识别模型训练方法,其特征在于:所述的步骤A中,采用中文语音识别框架以及中文语音数据集FreeST-Chinese-Mandarin-Corpus。
3.根据权利要求1所述的抗对抗样本攻击的语音识别模型训练方法,其特征在于:所述的步骤B中,在对语音文件进行预处理时,首先切除语音文件首尾段的无效部分,然后对语音文件进行采样,采样频率为16000赫兹,得到采集张量。
4.根据权利要求1所述的抗对抗样本攻击的语音识别模型训练方法,其特征在于:所述的J的大于等于4小于等于8。
6.根据权利要求5所述的抗对抗样本攻击的语音识别模型训练方法,其特征在于:所述的每个卷积块参数为:
第1个卷积块输入通道数为161,输出通道数为500,Drop out参数为0.2;第2-8个卷积块输入通道数为250,输出通道数为2000,Drop out参数为0.3;第9个卷积块输入通道数1000,输出通道数2000,Drop out参数为0.5;第10个卷积块输入通道数为1000,输出通道数为4277,此时的输出即为步骤D中得到的输出张量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357833.3A CN112951214B (zh) | 2021-04-01 | 2021-04-01 | 一种抗对抗样本攻击的语音识别模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357833.3A CN112951214B (zh) | 2021-04-01 | 2021-04-01 | 一种抗对抗样本攻击的语音识别模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951214A CN112951214A (zh) | 2021-06-11 |
CN112951214B true CN112951214B (zh) | 2022-04-12 |
Family
ID=76232113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110357833.3A Active CN112951214B (zh) | 2021-04-01 | 2021-04-01 | 一种抗对抗样本攻击的语音识别模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951214B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462737A (zh) * | 2020-03-26 | 2020-07-28 | 中国科学院计算技术研究所 | 一种训练用于语音分组的分组模型的方法和语音降噪方法 |
CN112017669A (zh) * | 2020-11-02 | 2020-12-01 | 鹏城实验室 | 语音对抗样本检测方法、装置、终端设备以及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568261B2 (en) * | 2018-10-26 | 2023-01-31 | Royal Bank Of Canada | System and method for max-margin adversarial training |
US11657162B2 (en) * | 2019-03-22 | 2023-05-23 | Intel Corporation | Adversarial training of neural networks using information about activation path differentials |
CN111275115B (zh) * | 2020-01-20 | 2022-02-22 | 星汉智能科技股份有限公司 | 一种基于生成对抗网络的对抗攻击样本的生成方法 |
CN111261147B (zh) * | 2020-01-20 | 2022-10-11 | 浙江工业大学 | 一种面向语音识别系统的音乐嵌入攻击防御方法 |
CN111627429B (zh) * | 2020-05-20 | 2022-10-14 | 浙江工业大学 | 一种基于CycleGAN的语音识别模型的防御方法及装置 |
CN112216273B (zh) * | 2020-10-30 | 2024-04-16 | 东南数字经济发展研究院 | 一种针对语音关键词分类网络的对抗样本攻击方法 |
-
2021
- 2021-04-01 CN CN202110357833.3A patent/CN112951214B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462737A (zh) * | 2020-03-26 | 2020-07-28 | 中国科学院计算技术研究所 | 一种训练用于语音分组的分组模型的方法和语音降噪方法 |
CN112017669A (zh) * | 2020-11-02 | 2020-12-01 | 鹏城实验室 | 语音对抗样本检测方法、装置、终端设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112951214A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817246B (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
Winursito et al. | Improvement of MFCC feature extraction accuracy using PCA in Indonesian speech recognition | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN110444208A (zh) | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 | |
CN109448707A (zh) | 一种语音识别方法及装置、设备、介质 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN110910891A (zh) | 基于长短时记忆神经网络的说话人分段标注方法及装置 | |
CN114678030A (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Sun et al. | Text-independent speaker identification based on deep Gaussian correlation supervector | |
CN114203184A (zh) | 一种多状态声纹特征识别方法及装置 | |
CN106297769A (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
WO2020238681A1 (zh) | 音频处理方法、装置和人机交互系统 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN111755029B (zh) | 语音处理方法、装置、存储介质以及电子设备 | |
CN112951214B (zh) | 一种抗对抗样本攻击的语音识别模型训练方法 | |
CN114913859B (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
Lekshmi et al. | An acoustic model and linguistic analysis for Malayalam disyllabic words: a low resource language | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
CN113327616A (zh) | 声纹识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |