CN113345420B - 基于萤火虫算法与梯度评估的对抗音频生成方法及系统 - Google Patents
基于萤火虫算法与梯度评估的对抗音频生成方法及系统 Download PDFInfo
- Publication number
- CN113345420B CN113345420B CN202110629870.5A CN202110629870A CN113345420B CN 113345420 B CN113345420 B CN 113345420B CN 202110629870 A CN202110629870 A CN 202110629870A CN 113345420 B CN113345420 B CN 113345420B
- Authority
- CN
- China
- Prior art keywords
- individuals
- individual
- audio sample
- population
- confrontation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 241000254158 Lampyridae Species 0.000 title claims abstract description 45
- 238000011156 evaluation Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 69
- 238000005457 optimization Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 235000000332 black box Nutrition 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于萤火虫算法与梯度评估的对抗音频生成方法及系统,本发明首先设置好期望生成的目标文本,然后将原始的音频文件转换成矩阵的形式,将其进行复制,生成一个拥有多个个体的种群;接着在种群中加入噪声,使个体之间产生差异,选择最优个体输入到语音识别模型中生成初始的对抗样本,并得到相应的文本形式,计算此文本与目标文本的编辑距离,根据编辑距离大小,选择萤火虫算法或梯度评估方法不断进行迭代,减小二者之间的编辑距离,最终生成目标对抗音频样本。与现有方法相比,本发明具有较好的鲁棒性,能够适用多种类型的语音数据集,提高了生成目标对抗音频样本的成功率和语音相似度,并且具有更快的生成时间。
Description
技术领域
本发明涉及一种基于萤火虫算法与梯度评估方法的对抗音频样本生成方法及系统,针对黑盒语音识别模型,属于人工智能测试领域。
背景技术
近年来,随着深度学习技术的成熟,语音识别系统在语音识别、智能家居、自动驾驶等领域取得了一定进展。存在于系统内部的各种深度神经网络(Deep Neural Networks,DNNs)发挥了关键性的作用。随着研究的不断深入,人们对于深度神经网络的安全性和鲁棒性等属性日趋重视。然而,研究表明,含有微小扰动的样本会对网络的安全性和鲁棒性构成极大的威胁,对于含有多种复杂神经网络的语音识别系统来说也不例外。这些含有微小扰动的样本被称为对抗样本。在原始的音频样本中加入一些细微的干扰噪声,在保持原始样本与生成对抗样本音频相差不大的情况下,使得系统在语音识别过程中发生错误判断,最终生成与原始音频样本不相符的文本内容。
由于对抗样本自身的隐蔽性,对于语音识别系统具有一定的欺骗性。因此,研究人员可以使用不同的方法来生成对抗样本,并输入到语音识别系统中,观察这些异常的样本是否会让系统识别错误,输出与原始音频不相符的文本内容。从而针对系统暴露出的漏洞,采取相应的防御方法,来提高系统的安全性与鲁棒性。最近,Taori等人提出了一种基于遗传算法与梯度评估方法,针对黑盒语音模型的目标对抗样本生成方法,然而,这种方法还是存在一些缺陷:生成目标对抗样本的成功率不高,同一模型在不同音频数据集上的鲁棒性差异较大,还有值得改进的地方。
发明内容
发明目的:考虑到针对黑盒语音识别模型的目标对抗样本在实际生产、生活中的应用以及遗传算法的局限性,本发明目的在于提供一种基于萤火虫算法与梯度评估的目标对抗音频生成方法及系统,能够适用多种类型的语音数据集,优化生成的对抗音频样本的平均语音相似度、生成时间和成功率。
技术方案:为实现上述发明目的,本发明所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法,包括如下步骤:
步骤1:获取所需的原始音频样本,并设置好期望最终生成的目标文本内容;
步骤2:对原始音频样本进行预处理,将其转换成矩阵形式,并进行复制,形成含有n个相同样本个体的种群,在种群中加入噪声;n为设定的种群大小;
步骤3:计算加入噪声之后的种群所有个体的适应度函数值,选择当前最优个体,将其输入到语音识别模型中,得到对抗样本以及对应的文本内容;
步骤4:计算生成的对抗文本内容与设置的目标文本内容之间的编辑距离,并根据编辑距离数值的大小选择使用萤火虫算法或者梯度评估方法进行后续的优化;
步骤5:若当前的编辑距离大于2,则选择萤火虫算法进行对抗音频样本的优化,来减小生成对抗音频样本的文本内容与目标文本的编辑距离,以及适应度函数数值;
步骤6:若当前的编辑距离小于等于2,则选择梯度评估方法进行对抗音频样本的优化,来减小生成对抗音频样本的文本内容与目标文本的编辑距离,以及适应度函数数值;
步骤7:达到设置的最大迭代次数时,观察最终的编辑距离是否为0,若为 0,则表明成功生成了目标对抗音频样本,反之,则表明没有成功生成目标对抗音频样本;
所述步骤1中的获取的原始音频样本格式为wav音频格式。
所述步骤2的主要目的是进行音频样本初始化操作,形成含有多个个体的种群,以便于后续的方法进行优化,所述步骤2进一步叙述为:
步骤21:将输入的原始音频样本转化成一维矩阵形式,采用python语言中的转化函数,将原始的wav格式的音频样本转换成1*d的一维矩阵形式,其中d 表示矩阵的维度;
步骤22:将转换后的一维矩阵进行复制,生成n个完全相同的矩阵形式;
步骤23:由于在种群中,n个矩阵全部相同,无法得到当前情况下种群中的最优个体,考虑给所有个体加入噪声,使其互相产生差异,得到当前的最优个体。
所述步骤3根据引入的连结主义时间分类(CTC)损失函数给种群中每个个体进行赋值,并找到当前的最优个体。所述步骤3进一步叙述为:
步骤31:选择连结主义时间分类(CTC)损失函数作为适应度函数;
步骤32:获取种群中所有个体的适应度函数数值,并按照数值从小到大的顺序对个体进行排序;
步骤33:由于CTC损失函数值越小,个体性能的表现就越好,因此需要找出种群中适应度函数值最小的个体,作为当前的最优个体;
步骤34:将最优个体输入到语音识别模型中,得到初始的音频对抗样本以及对应的文本内容。
所述步骤4通过计算当前对抗样本的文本内容与目标文本的编辑距离,来选择萤火虫算法或梯度评估方法,进行对抗样本的优化,具体包括:
步骤41:引入编辑距离这一指标,来衡量当前对抗样本的文本内容与目标文本的差距;
步骤42:计算生成的对抗样本的文本内容与目标文本的编辑距离;
步骤43:若计算出的编辑距离大于2,则使用萤火虫算法进行当前对抗样本的优化,转入步骤5,否则转入步骤6;
步骤44:若计算出的编辑距离小于等于2,则使用梯度评估方法进行当前对抗样本的优化,转入步骤6,否则转入步骤5;
所述步骤5针对编辑距离大于2的情况,采用萤火虫算法对种群中的所有个体进行优化,降低编辑距离和适应度函数值,具体包括:
步骤51:对当前种群中的最优个体进行复制,形成n个相同的个体,此时所有的个体形成了一个种群;
步骤52:给种群中的所有个体加入噪声,使其互相之间产生差异性;
步骤53:设定在该算法中,种群中个体的适应度函数值与个体所有维度上的数值以及个体之间的吸引度有关,使用萤火虫算法进行个体维度数值的改变,让适应度数值高的个体在所有维度上向适应度数值低的个体进行移动。假设有两个萤火虫个体i与j,如果i的适应度数值高于j,那么个体i进行移动的公式为:
其中,表示个体i在进行t+1次移动之后所有维度上的数值,表示个体i在进行t次移动之后所有维度上的数值,表示个体j在进行t次移动之后所有维度上的数值,β0表示两个个体维度数值间距为0时的吸引度,rij表示个体i 和个体j之间的空间距离,表示个体i在t次移动之后进行随机移动的函数,本方法使用-1到1上的均匀分布函数作为移动函数,α则表示这种随机移动函数的系数。按照上述的移动函数公式,当每个个体移动时,相应的适应度函数值也在不断发生改变;
步骤54:当种群中所有个体都移动结束之后,对个体按照适应度函数值从小到大排序,寻找到当前最优个体;
步骤55:将其输入到语音识别模型中,得到当前的对抗音频样本以及对应的文本内容;
步骤56:计算编辑距离,如果数值仍大于2,则转入步骤51,继续使用萤火虫算法进行优化,否则转入步骤6。
所述步骤6针对当前的编辑距离小于等于2的情况,此时采用梯度评估方法来优化当前对抗样本,减小编辑距离以及适应度函数值,具体包括:
步骤61:对当前种群中的最优个体进行复制,形成n个相同的个体,所有个体形成一个种群;
步骤62:给种群中每个个体进行基于自然进化策略(Natural EvolutionStrategy,NES)的梯度评估方法,对每个个体的维度数值进行基于高斯分布的干扰;
步骤63:得到每个个体的适应度函数值,按照从小到大的顺序进行排序,找出最小适应度值的个体;
步骤64:将最优个体输入到语音识别模型中,得到当前的对抗音频样本以及文本内容;
步骤65:计算当前对抗音频样本的文本内容与目标文本之间的编辑距离,若数值小于等于2,则转入步骤61,继续使用梯度评估方法进行对抗音频样本的优化,否则转入步骤5。
所述步骤7是在达到运行的终止条件时,判断是否成功生成了目标对抗音频样本,具体包括:
步骤71:若达到方法的结束条件时,生成的对抗音频样本的文本内容与目标文本之间的编辑距离为0,表明成功生成目标对抗音频样本,否则转入步骤72;
步骤72:若达到方法的结束条件时,生成的对抗音频样本的文本内容与目标文本之间的编辑距离不为0,表明未成功生成目标对抗音频样本。
基于相同的发明构思,本发明提供的一种基于萤火虫算法与梯度评估的对抗音频生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于萤火虫算法与梯度评估的对抗音频生成方法。
有益效果:本发明提供的一种基于萤火虫算法与梯度评估的对抗音频样本生成方法,输入为原始的、没有进行干扰过的音频样本。对原始音频样本首先进行初始化操作,生成含有多个相同样本个体的种群,给种群中的样本加入噪声,根据适应度函数值选择最优个体,生成初始对抗音频样本以及相应的文本内容。通过计算当前文本与目标文本内容的编辑距离选择使用相应的算法,来优化对抗音频样本,直至程序运行结束。为了验证本方法是否对于不同类型的语音数据集有效果,我们使用了Common Voice、Google Command以及LibriSpeech三种不同类型的语音数据集进行方法的验证,与现有技术相比,本发明在生成目标对抗音频样本时,生成目标对抗音频样本的成功率更高,同时还具有更快的生成时间以及更高的语音相似度。可以使用本发明,基于萤火虫算法与梯度评估方法,来生成目标对抗音频样本,寻找模型自身存在的漏洞。
附图说明
图1为本发明实施例的总体流程图;
图2为本发明一具体示例的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于萤火虫算法与梯度评估的对抗音频生成方法,主要包括如下步骤:
步骤1:获取所需的原始音频样本,并设置好期望最终生成的目标文本;
步骤2:对原始音频样本进行预处理,将其转换成矩阵形式,并进行复制,形成含有n个相同音频样本个体的种群,在种群中加入噪声;n为设定的种群大小;步骤3:计算加入噪声之后种群中所有个体的适应度函数值,选择最优个体,将其输入到语音识别模型中,得到初始对抗音频样本以及对应的文本内容;
步骤4:计算生成的文本与设置的目标文本之间的编辑距离,根据数值的大小选择使用萤火虫算法或者梯度评估方法进行优化;
步骤5:若当前的编辑距离大于2,则采用萤火虫算法进行对抗音频样本的优化,来减小生成文本与目标文本的编辑距离,以及适应度函数数值;
步骤6:若当前的编辑距离小于等于2,则采用梯度评估方法进行对抗音频样本的优化,来减小生成文本与目标文本的编辑距离,以及适应度函数数值;
步骤7:达到程序设置的最大迭代次数时,观察最终的编辑距离是否为0,若为0,则表明成功生成了目标对抗音频样本,反之,则表明没有成功生成目标对抗音频样本。
如图2所示,本发明实施例以对用于语音识别的DeepSpeech黑盒语音模型为例,说明本发明实施例公开的一种基于萤火虫算法与梯度评估方法的对抗音频样本生成方法的详细步骤,具体如下:
步骤1:获取所需的原始音频样本,并设置好期望最终生成的目标文本形式,具体过程如下:
步骤11:从Common Voice语音数据集(https://voie.mozilla.org/zh-CN/data)网站上下载原始音频样本;
步骤12:将原始音频样本进行格式处理,使其从mp3音频格式转换成适用于DeepSpeech语音模型的wav音频格式;
步骤13:设置好期望生成的目标文本,内容长度为2个单词的短语文本,例如turnleft、take away这些文本。
步骤2:对原始音频样本进行预处理,将其转换成矩阵形式,并进行复制,形成含有n个相同音频样本个体的种群,在种群中加入噪声,具体过程如下:
步骤21:将输入的原始音频样本转化成一维矩阵形式,采用python中的转化函数,将原始的wav格式的音频样本转换成1*d的一维矩阵形式,其中d表示矩阵的维度;
步骤22:将转换后的一维矩阵进行复制,生成n个完全相同的矩阵形式;
步骤23:由于在种群中,n个矩阵全部相同,无法得到当前情况下种群中的最优个体,考虑给所有个体加入噪声,使其互相产生差异,以便得到当前情况下的最优个体。
步骤3:选择合适的适应度函数,获得加入噪声之后种群中所有个体的适应度函数值,选择最优个体,将其输入到语音识别模型中,得到对抗音频样本以及对应的文本内容,具体步骤如下:
步骤31:选择合适的函数作为此方法的适应度函数,来衡量种群中每个个体的性能。本方法选择连结主义时间分类(CTC)损失函数作为适应度函数。 CTC损失函数可以很好衡量生成的对抗音频样本与目标文本的接近程度。另外,该损失函数不要求原始音频样本与对应内容之间的严格对齐,在使用时显得更为方便。在本方法中的适应度函数都是指CTC损失函数;
步骤32:获取种群中所有个体的适应度函数数值,并按照数值从小到大的顺序对个体进行排序;
步骤33:找出种群中适应度函数值最小的个体,作为最优个体;
步骤34:将最优个体输入到选定的黑盒语音识别模型中,得到初始的对抗音频样本以及对应的文本内容。
步骤4:计算生成的文本与设置的目标文本之间的编辑距离,根据数值的大小选择使用萤火虫算法或者梯度评估方法进行优化,具体步骤为:
步骤41:引入编辑距离这一指标,来衡量当前对抗音频样本的文本内容与目标文本的差距;
步骤42:计算生成的对抗音频样本的文本内容与目标文本的编辑距离;
步骤43:若计算出的编辑距离大于2,则使用萤火虫算法进行当前对抗音频样本的优化,转入步骤5,否则转入步骤6;
步骤44:若计算出的编辑距离小于等于2,则使用梯度评估方法进行当前对抗音频样本的优化,转入步骤6,否则转入步骤5;
步骤5:若当前的编辑距离大于2,则选择萤火虫算法进行对抗音频样本的优化,来减小生成文本与目标文本的编辑距离,以及适应度函数数值,具体步骤如下:
步骤51:对当前种群中的最优个体进行复制,形成n个相同的个体;
步骤52:给种群中所有个体加入噪声;
步骤53:设定在该算法中,种群中个体的适应度函数值与个体所有维度上的数值以及个体之间的吸引度有关,使用萤火虫算法进行个体维度数值的改变,让适应度数值高的个体在所有维度上向适应度数值低的个体进行移动。假设有两个萤火虫个体i与j,如果i的适应度数值高于j,那么个体i进行移动的公式为:
其中,表示个体i在进行t+1次移动之后所有维度上的数值,表示个体i在进行t次移动之后所有维度上的数值,表示个体j在进行t次移动之后所有维度上的数值,β0表示两个个体维度数值间距为0时的吸引度,rij表示个体i 和个体j之间的空间距离,表示个体i在t次移动之后进行随机移动的函数,本方法使用-1到1上的均匀分布函数作为移动函数,α则表示这种随机移动函数的系数。按照上述的移动函数公式,当每个个体移动时,相应的适应度函数值也在不断发生改变;
步骤54:当种群中所有个体都移动结束之后,对个体按照适应度数值从小到大排序,寻找到当前最优个体;
步骤55:将其输入到黑盒语音识别模型中,得到当前的对抗音频样本与对应的文本内容;
步骤56:计算编辑距离,如果数值仍大于2,则转入步骤51继续使用萤火虫算法进行优化,否则转入步骤6。
步骤6:若当前的编辑距离小于等于2,则选择梯度评估方法进行对抗音频样本的优化,来减小生成文本与目标文本的编辑距离,以及适应度函数数值,具体步骤如下:
步骤61:对当前种群中的最优个体进行复制,形成n个相同的个体;
步骤62:给种群中每个个体进行基于自然进化策略(Natural EvolutionStrategy,NES)的梯度评估方法,所遵循的公式为f=f-ηF(x-δ)。其中,f 表示当前个体的适应度函数值,x表示原始个体所有维度上的数值,η表示干扰的强度系数,F表示当前个体的干扰梯度算法,δ则表示高斯分布,对于当前个体的维度数值进行基于高斯分布的干扰;
步骤63:得到每个个体的适应度函数值,按照从小到大的顺序进行排序,找出适应度值最小的个体;
步骤64:将最优个体输入到黑盒语音识别模型中,得到当前的对抗音频样本以及文本内容;
步骤65:计算当前对抗音频样本的文本内容与目标文本之间的编辑距离,若数值小于等于2,则转入步骤61,继续使用梯度评估方法进行对抗音频样本的优化,否则转入步骤5。
所述步骤7是在达到运行的终止条件时,判断是否成功生成了目标对抗音频样本,具体包括:
步骤71:若达到方法的结束条件时,生成的对抗音频样本的文本内容与目标文本之间的编辑距离为0,表明成功生成目标对抗音频样本,否则转入步骤72;
步骤72:若达到方法的结束条件时,生成的对抗音频样本的文本内容与目标文本之间的编辑距离不为0,表明未成功生成目标对抗音频样本。
基于相同的发明构思,本发明实施例公开的一种基于萤火虫算法与梯度评估的对抗音频生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于萤火虫算法与梯度评估的对抗音频生成方法。
综上,考虑到针对黑盒语音识别模型的目标对抗音频样本在实际生产、生活中的应用,遗传算法的局限性以及萤火虫算法和梯度评估方法存在的优势:使用遗传算法进行寻优操作容易陷入局部最优解,而萤火虫算法具有自动细分以及处理多模态问题的能力。这种算法基于萤火虫之间的吸引力,会随着距离的增加而减小。在算法运行过程中,整个种群可以自动细分为子种群,而每个子种群可以围绕每个模式或局部的最优解,最终找到全局最优解。如果种群规模足够大,这种算法还可以允许萤火虫能够同时找到所有的最优解。同时,基于自然进化策略的梯度评估方法对于对抗音频样本的生成也具有较好的效果。本发明在不同音频数据集上具有较好的鲁棒性,在生成的对抗样本的平均语音相似度、生成时间和成功率表现均优于现有方案。
Claims (7)
1.一种基于萤火虫算法与梯度评估的对抗音频生成方法,其特征在于,包括如下步骤:
步骤1:获取原始音频样本,并设置好期望最终生成的目标文本;
步骤2:对原始音频样本进行预处理,将其转换成矩阵形式,并进行复制,形成含有n个相同音频样本个体的种群,在种群中加入噪声;
步骤3:计算加入噪声之后,种群中所有个体的适应度函数数值并进行排序,选择当前的最优个体,将其输入到语音识别模型中,得到当前的初始对抗音频样本以及对应的文本内容;
步骤4:计算生成的对抗音频样本的文本内容与设置的目标文本内容之间的编辑距离,并根据编辑距离数值的大小,选择使用萤火虫算法或者梯度评估方法进行后续的优化;
步骤5:若编辑距离大于2,则采用萤火虫算法进行对抗音频样本的优化,来减小生成对抗音频样本的文本内容与目标文本内容的编辑距离,以及适应度函数数值;
步骤6:若编辑距离小于等于2,则采用梯度评估方法进行对抗音频样本的优化,来减小生成对抗音频样本的文本内容与目标文本内容的编辑距离,以及适应度函数数值;
步骤7:达到设置的最大迭代次数时,观察最终的编辑距离是否为0,若为0,则表明成功生成了目标对抗音频样本,反之,则表明没有成功生成目标对抗音频样本。
2.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法,其特征在于,所述步骤1中的获取的原始音频样本格式为wav音频格式。
3.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法,其特征在于,所述步骤2包括如下步骤:
步骤21:将输入的原始音频样本转换成1*d的一维矩阵形式,其中d表示矩阵的维度;
步骤22:将转换后的一维矩阵进行复制,生成n个完全相同的矩阵形式;
步骤23:给所有个体加入噪声,使其互相产生差异,以便得到最优个体。
4.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法,其特征在于,所述步骤3包括如下步骤:
步骤31:选择CTC损失函数作为适应度函数;
步骤32:获取种群中所有个体的适应度函数数值,并按照数值从小到大的顺序对个体进行排序;
步骤33:在种群中找出适应度函数数值最小的个体,作为当前的最优个体;
步骤34:将最优个体输入到语音识别模型中,得到初始的对抗音频样本以及对应的文本内容。
5.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法,其特征在于,所述步骤5包括如下步骤:
步骤51:对当前种群中的最优个体进行复制,形成n个相同的个体,由这些个体形成一个种群;
步骤52:给种群中的所有个体加入噪声,使其互相之间产生差异性;
步骤53:设种群中个体的适应度函数数值与个体所有维度上的数值以及个体之间的吸引度有关,使用萤火虫算法进行个体维度数值的改变,让适应度函数数值高的个体在所有维度上向适应度函数数值低的个体进行移动;假设有两个萤火虫个体i与j,如果i的适应度函数数值高于j,那么个体i进行移动的公式为:
其中,表示个体i在进行t+1次移动之后所有维度上的数值,表示个体i在进行t次移动之后所有维度上的数值,表示个体j在进行t次移动之后所有维度上的数值,β0表示两个个体维度数值间距为0时的吸引度,rij表示个体i和个体j之间的空间距离,表示个体i在t次移动之后进行随机移动的函数,α表示随机移动函数的系数;当每个个体移动时,相应的适应度函数数值也在不断发生改变;
步骤54:当种群中所有个体都移动结束之后,对个体按照适应度函数数值从小到大排序,寻找到当前最优个体;
步骤55:将其输入到语音识别模型中,得到当前的对抗音频样本与对应的文本内容;
步骤56:计算编辑距离,如果数值仍大于2,则转入步骤41继续使用萤火虫算法进行优化,否则转入步骤6。
6.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法,其特征在于,所述步骤6包括如下步骤:
步骤61:对当前种群中的最优个体进行复制,形成n个相同的个体,所有个体形成一个种群;
步骤62:给种群中每个个体进行基于自然进化策略的梯度评估方法,对每个个体的维度数值进行基于高斯分布的干扰;
步骤63:得到每个个体的适应度函数数值,并按照从小到大的顺序进行排序,找出适应度函数数值最小的作为当前性能最优的个体;
步骤64:将最优个体输入到语音识别模型中,得到当前的对抗音频样本以及文本内容;
步骤65:计算当前对抗音频样本的文本内容与目标文本内容之间的编辑距离,若数值小于等于2,则转入步骤61,继续使用梯度评估方法进行对抗音频样本的优化,否则转入步骤5。
7.一种基于萤火虫算法与梯度评估的对抗音频生成系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于萤火虫算法与梯度评估的对抗音频生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629870.5A CN113345420B (zh) | 2021-06-07 | 2021-06-07 | 基于萤火虫算法与梯度评估的对抗音频生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629870.5A CN113345420B (zh) | 2021-06-07 | 2021-06-07 | 基于萤火虫算法与梯度评估的对抗音频生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345420A CN113345420A (zh) | 2021-09-03 |
CN113345420B true CN113345420B (zh) | 2022-07-08 |
Family
ID=77474340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110629870.5A Active CN113345420B (zh) | 2021-06-07 | 2021-06-07 | 基于萤火虫算法与梯度评估的对抗音频生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345420B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11380301B2 (en) * | 2018-02-21 | 2022-07-05 | Nippon Telegraph And Telephone Corporation | Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program |
CN109887496A (zh) * | 2019-01-22 | 2019-06-14 | 浙江大学 | 一种黑盒场景下的定向对抗音频生成方法及系统 |
CN110309900A (zh) * | 2019-04-09 | 2019-10-08 | 重庆邮电大学 | 基于全局最优解引导项的萤火虫盲源分离方法 |
CN110379418B (zh) * | 2019-06-28 | 2021-08-13 | 西安交通大学 | 一种语音对抗样本生成方法 |
CN110909158B (zh) * | 2019-07-05 | 2022-10-18 | 重庆信科设计有限公司 | 基于改进萤火虫算法和k近邻的文本分类方法 |
CN110689108A (zh) * | 2019-09-19 | 2020-01-14 | 中国科学院长春光学精密机械与物理研究所 | 一种非线性系统状态估计方法 |
CN110992934B (zh) * | 2019-10-28 | 2022-04-26 | 浙江工业大学 | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 |
CN111367790B (zh) * | 2020-02-14 | 2023-05-12 | 重庆邮电大学 | 一种基于混合模型的元启发式测试用例排序方法 |
CN111785274B (zh) * | 2020-06-28 | 2023-12-05 | 宁波大学 | 一种针对语音识别系统的黑盒对抗样本生成方法 |
CN112102813B (zh) * | 2020-07-31 | 2023-10-03 | 南京航空航天大学 | 基于用户评论中上下文的语音识别测试数据生成方法 |
AU2021101586A4 (en) * | 2021-03-28 | 2021-05-20 | Tusar Kanti Dash | A System and a Method for Non-Intrusive Speech Quality and Intelligibility Evaluation Measures using FLANN Model |
-
2021
- 2021-06-07 CN CN202110629870.5A patent/CN113345420B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113345420A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Stack-captioning: Coarse-to-fine learning for image captioning | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN112216273A (zh) | 一种针对语音关键词分类网络的对抗样本攻击方法 | |
CN111429947A (zh) | 一种基于多级残差卷积神经网络的语音情感识别方法 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN110717027B (zh) | 多轮智能问答方法、系统以及控制器和介质 | |
CN112634992A (zh) | 分子性质预测方法及其模型的训练方法及相关装置、设备 | |
CN117153260B (zh) | 基于对比学习的空间转录组数据聚类方法、装置及介质 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN114490950A (zh) | 编码器模型的训练方法及存储介质、相似度预测方法及系统 | |
Chen et al. | Label-retrieval-augmented diffusion models for learning from noisy labels | |
CN114332565A (zh) | 一种基于分布估计的条件生成对抗网络文本生成图像方法 | |
CN114299326A (zh) | 一种基于转换网络与自监督的小样本分类方法 | |
CN112487933B (zh) | 一种基于自动化深度学习的雷达波形识别方法及系统 | |
CN113345420B (zh) | 基于萤火虫算法与梯度评估的对抗音频生成方法及系统 | |
CN113222002A (zh) | 一种基于生成式鉴别性对比优化的零样本分类方法 | |
CN115599918B (zh) | 一种基于图增强的互学习文本分类方法及系统 | |
CN112329918A (zh) | 一种基于注意力机制的对抗正则化网络嵌入方法 | |
Zhan et al. | A new classifier for facial expression recognition: fuzzy buried Markov model | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 | |
CN116205227A (zh) | 一种基于变分推断理论的关键词生成方法及系统 | |
CN113221941B (zh) | 一种自适应对称图信息传播的鉴别回归分类方法 | |
Lall et al. | Generating realistic cell samples for gene selection in scRNA-seq data: A novel generative framework | |
CN112183631A (zh) | 一种意图分类模型建立的方法和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |