CN112765355A - 基于改进的量子行为粒子群优化算法的文本对抗攻击方法 - Google Patents

基于改进的量子行为粒子群优化算法的文本对抗攻击方法 Download PDF

Info

Publication number
CN112765355A
CN112765355A CN202110106877.9A CN202110106877A CN112765355A CN 112765355 A CN112765355 A CN 112765355A CN 202110106877 A CN202110106877 A CN 202110106877A CN 112765355 A CN112765355 A CN 112765355A
Authority
CN
China
Prior art keywords
particle
attack
word
particle swarm
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110106877.9A
Other languages
English (en)
Other versions
CN112765355B (zh
Inventor
孙俊
徐尹翔
吴豪
吴小俊
方伟
陈祺东
李超
游琪
冒钟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202110106877.9A priority Critical patent/CN112765355B/zh
Publication of CN112765355A publication Critical patent/CN112765355A/zh
Application granted granted Critical
Publication of CN112765355B publication Critical patent/CN112765355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/25Design optimisation, verification or simulation using particle-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于改进的量子行为粒子群优化算法的文本对抗攻击方法,属于自然语言处理文本对抗攻击领域。本发明对抗攻击能够极大地弱化深度神经网络在自然语言处理任务中的判别能力,研究对抗攻击方法是提升深度神经网络的鲁棒性的重要方法。现有的词级别文本对抗方法在搜索对抗样本时不够有效,搜索到的往往不是最理想的样本。针对这一缺陷,提出了基于改进的量子行为粒子群优化算法的文本对抗方法。通过对量子行为粒子群优化算法进行离散化的适应性改动,结果表明,本方法在多个数据集上取得了更高的攻击成功率,同时保持了更低的改动率,人工评测则表明所提出方法生成的对抗样本相比于其他对抗样本能够更多地保留语法和语义的正确性。

Description

基于改进的量子行为粒子群优化算法的文本对抗攻击方法
技术领域
本发明属于自然语言处理文本对抗攻击领域,提供了一种基于改进的量子行为粒子群优化算法的文本对抗攻击方法
背景技术
深度神经网络被广泛应用于图像、语音、自然语言等各个领域。尽管如此,有研究表明深度神经网络对于对抗攻击十分脆弱,即向输入数据添加微小的扰动就能够改变深度神经网络给出的结果。例如,向一张熊猫图片中添加扰动后,图像的语义在人眼看来并无变化,而卷积神经网络(Convolutional Neural Network,CNN)将熊猫识别为了长臂猿。深度神经网络的脆弱性引发了对于安全的担忧,比如在路牌上贴上面积极小的涂鸦就能让自动驾驶系统无法正确地识别路牌,可能造成严重的后果。对于对抗攻击的研究可以帮助构建更鲁棒的深度神经网络,同时可以启发关于如何防御对抗攻击的研究。然而,关于自然语言处理领域的对抗攻击研究远少于对于图像领域对抗攻击的研究。部分原因是图像的像素值是连续的,易于实施基于梯度的对抗攻击,且像素值微小的扰动几乎无法被人类肉眼所察觉,也不会带来图像语义的改变。而自然语言是离散的,词语的微小变化也可能导致语义的改变。深度神经网络在自然语言处理方向上的应用也十分广泛,包括垃圾邮件过滤,情感分析和虚假新闻检测等。因而,自然语言处理领域的对抗攻击也十分具有价值。
目前自然语言处理领域的对抗攻击方法可以按照对抗攻击时所更改的元素分成三类:字符级别的对抗攻击,词级别的对抗攻击以及句级别的对抗攻击。字符级别的更改往往可能造成语法的错误,而且拼写检查或者语法检查就可以防范这类攻击。句级别的对抗攻击方法是通过增加句子或者复述句子来达成对抗攻击的效果。词级别的对抗攻击方法一般通过替换单词进行对抗样本的构建。相对于字符级别对抗攻击方法生成的对抗样本,词级别攻击方法生成的样本有更好的语义连贯性和更少的语法错误。而相对于句级别攻击方法得到的对抗样本,词级别攻击方法生成的对抗样本的改动率相对较小,更不易被察觉。词级别对抗方法在语义语法连贯性和改动率上均能取得相对较好的效果。
然而,现有词级别对抗方法存在对于对抗样本的全局搜索能力较弱,易于出现“早熟”和陷入局部最优的情况,因此提升空间较大。本发明提出了一种改进的词级别文本对抗方法,对搜索优化算法进行优化,采用改进的量子行为粒子群优化算法(ID-QPSO)来更有效地搜索对抗样本,实验证明本发明方法取得了较好的结果。
发明内容
本发明提出一种基于义原和改进的量子行为粒子群优化算法的文本对抗攻击方法。具体来说,先采用基于义原的方法得到单词的替代词集,然后应用改进的离散的量子行为粒子群优化算法在替代词集空间中进行搜索,最后得到对抗样本。
本发明的技术方案:
基于改进的量子行为粒子群优化算法的文本对抗攻击方法,步骤如下:
步骤一:遍历输入句子每个位置上的词,使用基于义原的方法得到每个词的替换词;
步骤二:将句子复制M次,建立数量为M的粒子群;
步骤三:遍历每个粒子,找出该粒子每个位置对于模型伤害最大的词,基于此进行变异操作;
步骤四:将变异后的粒子输入模型,观察模型预测值。如果攻击成功,输出结果,步骤结束;
步骤五:如果步骤四中攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置;
步骤六:将更新后的粒子群输入模型,观察模型预测值。如果攻击成功,输出结果,步骤结束;
步骤七:如果步骤六中攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置;
步骤八:重复步骤三~步骤七,直到攻击成功,或者达到最大迭代次数。
进一步的,首先定义改进的量子行为粒子群优化算法ID-QPSO的搜索空间。设输入的句子为xorig,句子长度为D,其第j个词表示为xorig,j,xorig,j及其替代词共同组成的集合为S(xorig,j),则算法的搜索空间为S={S(xorig,j)|j=1,2,...,D},即整个搜索空间为D维,每一维对应于相应的替代词集合。将一个对抗样本作为ID-QPSO算法中的一个粒子,粒子群一共包含M个粒子。
进一步的,所述的步骤二:输入句子复制M份作为M个初始粒子的位置,建立数量为M的粒子群,初始时第i个粒子位置向量记为
Figure BDA0002917865810000021
进一步的,所述的步骤三:遍历每个粒子,第t次迭代时,遍历
Figure BDA0002917865810000022
的每个位置,找到每个位置上对模型伤害最大的词,组成由替换词构成的向量。然后,使用该替换词构成的向量以一定的概率对
Figure BDA0002917865810000023
进行变异操作:
Figure BDA0002917865810000024
其中,
Figure BDA0002917865810000025
表示变异后的词,
Figure BDA0002917865810000026
表示第t次迭代时第i个粒子第j维上的词,
Figure BDA0002917865810000027
是找出的第i个粒子第j维上对模型伤害最大的词,
Figure BDA0002917865810000031
Figure BDA0002917865810000032
变异为
Figure BDA0002917865810000033
的概率,q是在[0,1]上均匀分布的独立随机变量,
Figure BDA0002917865810000034
表示该变量在第i个粒子第j维的第t次迭代时的取值;
Figure BDA0002917865810000035
Figure BDA0002917865810000036
对模型的伤害成正相关。
进一步的,所述的步骤四:将变异后的粒子
Figure BDA0002917865810000037
输入被攻击的模型F,观察模型预测值,如果
Figure BDA0002917865810000038
则对抗成功,
Figure BDA0002917865810000039
即为搜索到的对抗样本。
进一步的,步骤五:如果攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置根据式(2)~(8)更新粒子的位置:
Figure BDA00029178658100000310
Figure BDA00029178658100000311
Figure BDA00029178658100000312
Figure BDA00029178658100000313
Figure BDA00029178658100000314
Figure BDA00029178658100000315
Figure BDA00029178658100000316
其中,公式(2)表示离散化过程,
Figure BDA00029178658100000317
表示离散化操作,将
Figure BDA00029178658100000318
离散为0或1;
Figure BDA00029178658100000319
为变异后的粒子i的第j维上的词,xorg,j为原始输入句子第j维的词,
Figure BDA00029178658100000320
在该离散情形下的物理意义为第j维的词被替换的平均概率;
Figure BDA00029178658100000321
记录了该粒子在第t次迭代及之前的所有时刻中第j维的最佳位置,即粒子个体最优位置;
Figure BDA00029178658100000322
记录了整个粒子群在第t次迭代及之前的所有时刻中第j维的最佳位置,即全局最优位置;
Figure BDA00029178658100000323
是位于
Figure BDA00029178658100000324
Figure BDA00029178658100000325
之间的一个位置,吸引粒子靠近;
Figure BDA00029178658100000326
为中间变量,其值可能在[0,1]区间之外,因此通过sigmoid函数将其转换为概率值
Figure BDA00029178658100000327
Figure BDA00029178658100000328
意义为在第t次迭代时第i个粒子第j维的词应当被替换的概率,r是在[0,1]上均匀分布的随机变量;α是收缩扩张系数,T为最大迭代次数,t为当前迭代次数,
Figure BDA0002917865810000041
和μ是在[0,1]上均匀分布的两个独立随机变量,
Figure BDA0002917865810000042
分别表示独立随机变量r、
Figure BDA0002917865810000043
和μ在第i个粒子第j维的第t次迭代时的取值。
进一步的,步骤七:如果攻击不成功,更新粒子群的粒子个体最优位置
Figure BDA0002917865810000044
和全局最优位置
Figure BDA0002917865810000045
进一步的,所述的搜索空间是由句子每个词的替代词组成,因而是离散空间。
本发明的有益效果:
1.本发明方法得到的对抗样本可以更好地保持原有语法语义的正确性;
2.本发明方法攻击成功率高;
3.本发明方法对样本的改动率低。
附图说明
图1为基于ID-QPSO的文本对抗算法。
图2对
Figure BDA0002917865810000046
的变异操作。
图3笔记本(notebook)在HowNet中的义原树以及与笔记本共享相同义原的词。
具体实施方式
以下根据实施例及附图对本发明的技术方案进行进一步的说明。
义原在语言学中是指最小的不可再分的语义单位。一个词可以使用一个包含有限个义原的集合来进行表示。董振东等人使用2089个义原标注了约10万个中文词及对应的英文单词,形成了义原知识库,即知网(HowNet)。知网中的每个单词都被表示为树形的结构,由于一个单词可能有多重语义,每个语义都是一个义原树。如图3所示,“笔记本”这个词含有“笔记册子”和“笔记本电脑”两种词义,在知网中两种词义都用义原表示出来,形成了树状结构。类似知识库还有普林斯顿大学构建的语义知识库WordNet。WordNet是基于单词的知识库,知网是基于概念的知识库,相对于WordNet,知网(HowNet)可以找到更多的语义相关的词。
本实施例所用的数据集
为了验证我们的攻击方法的效果,我们在3个数据集上进行了实验,分别是IMDB数据集、SST-2数据集和SNLI数据集。三个数据集均为文本分类任务。IMDB数据集和SST-2数据集为情感分类任务,SNLI数据集为自然语言推理任务。
IMDB数据集是一个包含了50,000条电影评价的数据集,其中25,000条作为训练集,25,000条作为测试集。每条评论都被标注为积极或消极。
SST-2数据集同样是电影评论领域的数据集,其包含了约11,000条评论,被划分为训练集、验证集和测试集。
SNLI数据集是斯坦福大学发表的一个自然语言推断数据集,该数据集包含了570,000对句子,每对句子的关系被标注为矛盾、蕴含或中立,其中550,000对被划分为训练集,10,000对作为验证集,10,000对作为测试集。
本实施例被攻击模型及对比方法
我们选择Bi-LSTM模型以及BERT模型作为被攻击模型。Bi-LSTM后接最大池化的模型由Conneau等人于2017年提出[CONNEAU A,KIELA D,SCHWENK H,et al.Supervisedlearning of universal sentence representations from natu-ral languageinference data:Proceedings of the 2017Conference on Empirical Methods inNatural Language Processing[C],2017.]。BERT模型是Devlin等人于2019年提出的预训练语言模型,提出时在11项语言任务上取得了最好效果[DEVLIN J,CHANG M,LEE K,etal.Bert:Pre-training of deep bidirectional transformers for languageunderstand-ing:Proceedings of the 2019Conference of the North AmericanChapter of the Association for Computational Lin-guistics:Human LanguageTechnologies,Volume 1(Long and Short Papers)[C],2019.]。本发明的Bi-LSTM使用300维的GloVe词向量[
PENNINGTON J,SOCHER R,MANNING C D.Glove:Global vectors for wordrepresentation:Proceedings of the 2014conference on empirical methods innatural language processing(EMNLP)[C],2014.],隐层维数设置为128维;BERT模型用的base版。
我们选取了三个方法作为实验的对比方法。第一个对比方法是Alzantot等人提出的方法[ALZANTOT M,SHARMA Y,ELGOHARY A,et al.Ge-nerating natural languageadversarial examples:Proceedings of the 2018Conference on Empirical Methodsin Natural Language Processing[C],2018.],该方法在词向量中寻找替换词,通过限制词向量空间的距离来控制替换词的数量,然后使用基因算法搜索对抗样本。第二个对比方法是Ren等人提出的方法[REN S,DENG Y,HE K,et al.Generating natural languageadversarial examples through probability weighted word saliency:Proceedingsof the 57th annual meeting of the association for computational linguistics[C],2019.],使用同义词作为替换词,然后使用贪婪算法来进行对抗样本的搜索。第三种方法是Zang等人提出的方法[ZANG Y,QI F,YANG C,et al.Word-level textual adver-sarial attacking as combinatorial optimization:Proceedings of the 58th AnnualMeeting of the Association for Computational Linguistics[C],2020.],使用基于义原的方法得到替换词,然后使用粒子群优化算法来搜索对抗样本,该方法是目前的最优方法。
本实施例的实验细节及评价标准
为了更有效地进行实验,我们从IMDB数据集中随机选取500条数据,从SST-2数据集和SNLI数据集中各随机选取了1000条数据来进行实验。同Alzantot等人和Zang等人的实验设置一样,我们在选取被攻击的句子时,选取的句子必须是长度在10到100之间且模型能够给出正确预测的句子。如果模型不能正确预测原始的句子,那么没有进行对抗攻击的必要。同时为了保持对比实验的一致性,我们将量子行为粒子群优化算法的最大迭代次数T设置为20,将粒子群的粒子数量M设置为60,同Alzantot等人和Zang等人的实验设置保持一致。实验中对三个数据集采用相同的评价标准,即攻击成功率和对抗样本平均改动率,计算公式如下:
Figure BDA0002917865810000061
Figure BDA0002917865810000062
其中|sentsuccess|表示攻击成功的句子数量,|sentattack|表示被攻击的句子的总数量,c为该样本中改动的单词的数量,l为该样本原始输入中单词的总数。我们只统计改动率不超过25%的攻击成功的对抗样本,将其他情形都视为对抗攻击失败。
本实施例的实验结果
表1对抗攻击成功率(%)
Figure BDA0002917865810000063
对抗攻击成功率的结果展示在表1中,本发明提出的方法在6个实验中的5个上取得了最高的成功率。实验结果还显示同为分类任务,SST-2的攻击成功率比IMDB的攻击成功率要低。因为IMDB数据集的平均句子长度超过200,而SST-2的平均句子长度只有大约17,因此对SST中的句子进行攻击很容易超过25%的改动率限制,造成攻击失败。
攻击成功的对抗样本改动率结果展示在表2中,本发明的方法在6个实验中的4个上取得了最小的样本平均改动率。表1和表2的结果证明本发明的攻击方法能够以较少的改动率获得较高的攻击成功率。
表2攻击成功的对抗样本的平均改动率(%)
Figure BDA0002917865810000071
本实施例的人工评测及案例分析
为了评价生成的对抗样本的语法语义正确性,我们从SST-2中选取了500个句子,各对比方法和本发明的方法在这500个句子对Bi-LSTM模型的攻击都获得了成功,也就是都生成了攻击成功的对抗样本。我们请3位专业人员对500个原始句子及各对抗攻击方法生成的对抗样本进行打分。打分原则是:
1.有语法错误而且语义不通的为1分;
2.只有语法错误或者语义错误的为2分;
3.语法和语义均无错误的为3分。
评分结果如表3所展示。SST-2数据集中的原始句子是收录的用户对电影的评论,因此原始句子也存在一些语法错误或者语义不顺畅。Zang等人提出的对抗方法和本发明方法生成的对抗样本得分相近,因为寻找替换词的方法相同,替换词空间一致,而语法语义的错误主要由替换词的不合适造成,因此两种方法的评分相近。
表3语法语义人工评分
Figure BDA0002917865810000072
Figure BDA0002917865810000081
表4列出了一些针对Bi-LSTM模型在SST-2数据集上生成的对抗样本。我们列出了两个句子及Zang等人方法和本发明方法针对这两个句子生成的对抗样本。对抗样本中更改的词被以及原始文本中对应的词都以斜体粗体的形式标出。从表中可以看出,我们的方法和Zang等人方法由于搜索算法不同,在替换位置的选取及替换词的选择上有所区别。在所示的两个案例中,我们的算法可以通过改动相对较少的词来成功实施对抗攻击。
表4对抗样本实例
Figure BDA0002917865810000082
本发明提出了一种改进的词级别文本对抗攻击方法。通过改进搜索优化算法,本发明的方法可以更有效地搜索到对抗样本。实验证明本发明方法得到的对抗样本在保持原有语法语义正确性的情况下,成功率更高,改动率更低,是一种更有效的文本对抗方法。

Claims (10)

1.基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,步骤如下:
步骤一:遍历输入句子每个位置上的词,使用基于义原的方法得到每个词的替换词;
步骤二:将句子复制M次,建立数量为M的粒子群;
步骤三:遍历每个粒子,找出该粒子每个位置对于模型伤害最大的词,基于此进行变异操作;
步骤四:将变异后的粒子输入模型,观察模型预测值;如果攻击成功,输出结果,步骤结束;
步骤五:如果步骤四中攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置;
步骤六:将更新后的粒子群输入模型,观察模型预测值;如果攻击成功,输出结果,步骤结束;
步骤七:如果步骤六中攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置;
步骤八:重复步骤三~步骤七,直到攻击成功,或者达到最大迭代次数。
2.根据权利要求1所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,首先定义改进的量子行为粒子群优化算法ID-QPSO的搜索空间;设输入的句子为xorig,句子长度为D,其第j个词表示为xorig,j,xorig,j及其替代词共同组成的集合为S(xorig,j),则算法的搜索空间为S={S(xorig,j)|j=1,2,...,D},即整个搜索空间为D维,每一维对应于相应的替代词集合;将一个对抗样本作为ID-QPSO算法中的一个粒子,粒子群一共包含M个粒子。
3.根据权利要求1或2所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,所述的步骤二:输入句子复制M份作为M个初始粒子的位置,建立数量为M的粒子群,初始时第i个粒子位置向量记为
Figure FDA0002917865800000011
4.根据权利要求1或2所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,所述的步骤三:遍历每个粒子,第t次迭代时,遍历
Figure FDA0002917865800000012
的每个位置,找到每个位置上对模型伤害最大的词,组成由替换词构成的向量;然后,使用该替换词构成的向量以一定的概率对
Figure FDA0002917865800000013
进行变异操作:
Figure FDA0002917865800000014
其中,
Figure FDA0002917865800000015
表示变异后的词,
Figure FDA0002917865800000016
表示第t次迭代时第i个粒子第j维上的词,
Figure FDA0002917865800000017
是找出的第i个粒子第j维上对模型伤害最大的词,
Figure FDA0002917865800000018
Figure FDA0002917865800000019
变异为
Figure FDA00029178658000000110
的概率,q是在[0,1]上均匀分布的独立随机变量,
Figure FDA0002917865800000021
表示该变量在第i个粒子第j维的第t次迭代时的取值;
Figure FDA0002917865800000022
Figure FDA0002917865800000023
对模型的伤害成正相关。
5.根据权利要求3所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,所述的步骤三:遍历每个粒子,第t次迭代时,遍历
Figure FDA0002917865800000024
的每个位置,找到每个位置上对模型伤害最大的词,组成由替换词构成的向量;然后,使用该替换词构成的向量以一定的概率对
Figure FDA0002917865800000025
进行变异操作:
Figure FDA0002917865800000026
其中,
Figure FDA0002917865800000027
表示变异后的词,
Figure FDA0002917865800000028
表示第t次迭代时第i个粒子第j维上的词,
Figure FDA0002917865800000029
是找出的第i个粒子第j维上对模型伤害最大的词,
Figure FDA00029178658000000210
Figure FDA00029178658000000211
变异为
Figure FDA00029178658000000212
的概率,q是在[0,1]上均匀分布的独立随机变量,
Figure FDA00029178658000000213
表示该变量在第i个粒子第j维的第t次迭代时的取值;
Figure FDA00029178658000000214
Figure FDA00029178658000000215
对模型的伤害成正相关。
6.根据权利要求1、2或5所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,所述的步骤四:将变异后的粒子
Figure FDA00029178658000000216
输入被攻击的模型F,观察模型预测值,如果
Figure FDA00029178658000000217
则对抗成功,
Figure FDA00029178658000000218
即为搜索到的对抗样本。
7.根据权利要求1、2或5所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,步骤五:如果攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置根据式(2)~(8)更新粒子的位置:
Figure FDA00029178658000000219
Figure FDA00029178658000000220
Figure FDA00029178658000000221
Figure FDA00029178658000000222
Figure FDA00029178658000000223
Figure FDA0002917865800000031
Figure FDA0002917865800000032
其中,公式(2)表示离散化过程,
Figure FDA0002917865800000033
表示离散化操作,将
Figure FDA0002917865800000034
离散为0或1;
Figure FDA0002917865800000035
为变异后的粒子i的第j维上的词,xorg,j为原始输入句子第j维的词,
Figure FDA0002917865800000036
在该离散情形下的物理意义为第j维的词被替换的平均概率;
Figure FDA0002917865800000037
记录了该粒子在第t次迭代及之前的所有时刻中第j维的最佳位置,即粒子个体最优位置;
Figure FDA0002917865800000038
记录了整个粒子群在第t次迭代及之前的所有时刻中第j维的最佳位置,即全局最优位置;
Figure FDA0002917865800000039
是位于
Figure FDA00029178658000000310
Figure FDA00029178658000000311
之间的一个位置,吸引粒子靠近;
Figure FDA00029178658000000312
为中间变量,因此通过sigmoid函数将其转换为概率值
Figure FDA00029178658000000313
Figure FDA00029178658000000314
意义为在第t次迭代时第i个粒子第j维的词应当被替换的概率,r是在[0,1]上均匀分布的随机变量;α是收缩扩张系数,T为最大迭代次数,t为当前迭代次数,
Figure FDA00029178658000000315
和μ是在[0,1]上均匀分布的两个独立随机变量,
Figure FDA00029178658000000316
分别表示独立随机变量r、
Figure FDA00029178658000000317
和μ在第i个粒子第j维的第t次迭代时的取值。
8.根据权利要求6所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,步骤五:如果攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置根据式(2)~(8)更新粒子的位置:
Figure FDA00029178658000000318
Figure FDA00029178658000000319
Figure FDA00029178658000000320
Figure FDA00029178658000000321
Figure FDA00029178658000000322
Figure FDA0002917865800000041
Figure FDA0002917865800000042
其中,公式(2)表示离散化过程,
Figure FDA0002917865800000043
表示离散化操作,将
Figure FDA0002917865800000044
离散为0或1;
Figure FDA0002917865800000045
为变异后的粒子i的第j维上的词,xorg,j为原始输入句子第j维的词,
Figure FDA0002917865800000046
在该离散情形下的物理意义为第j维的词被替换的平均概率;
Figure FDA0002917865800000047
记录了该粒子在第t次迭代及之前的所有时刻中第j维的最佳位置,即粒子个体最优位置;
Figure FDA0002917865800000048
记录了整个粒子群在第t次迭代及之前的所有时刻中第j维的最佳位置,即全局最优位置;
Figure FDA0002917865800000049
是位于
Figure FDA00029178658000000410
Figure FDA00029178658000000411
之间的一个位置,吸引粒子靠近;
Figure FDA00029178658000000412
为中间变量,因此通过sigmoid函数将其转换为概率值
Figure FDA00029178658000000413
Figure FDA00029178658000000414
意义为在第t次迭代时第i个粒子第j维的词应当被替换的概率,r是在[0,1]上均匀分布的随机变量;α是收缩扩张系数,T为最大迭代次数,t为当前迭代次数,
Figure FDA00029178658000000415
和μ是在[0,1]上均匀分布的两个独立随机变量,
Figure FDA00029178658000000416
分别表示独立随机变量r、
Figure FDA00029178658000000417
和μ在第i个粒子第j维的第t次迭代时的取值。
9.根据权利要求1、2、5或8所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,步骤七:如果攻击不成功,更新粒子群的粒子个体最优位置
Figure FDA00029178658000000418
和全局最优位置
Figure FDA00029178658000000419
10.根据权利要求1、2、5或8所述的基于改进的量子行为粒子群优化算法的文本对抗攻击方法,其特征在于,所述的搜索空间是由句子每个词的替代词组成,因而是离散空间。
CN202110106877.9A 2021-01-27 2021-01-27 基于改进的量子行为粒子群优化算法的文本对抗攻击方法 Active CN112765355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110106877.9A CN112765355B (zh) 2021-01-27 2021-01-27 基于改进的量子行为粒子群优化算法的文本对抗攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110106877.9A CN112765355B (zh) 2021-01-27 2021-01-27 基于改进的量子行为粒子群优化算法的文本对抗攻击方法

Publications (2)

Publication Number Publication Date
CN112765355A true CN112765355A (zh) 2021-05-07
CN112765355B CN112765355B (zh) 2024-08-27

Family

ID=75705892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110106877.9A Active CN112765355B (zh) 2021-01-27 2021-01-27 基于改进的量子行为粒子群优化算法的文本对抗攻击方法

Country Status (1)

Country Link
CN (1) CN112765355B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221544A (zh) * 2021-05-11 2021-08-06 河海大学 基于改进ga的深度神经网络对抗性文本生成方法及系统
CN113760703A (zh) * 2020-09-07 2021-12-07 北京沃东天骏信息技术有限公司 一种Mock数据的生成方法、装置、设备及存储介质
CN113935481A (zh) * 2021-10-12 2022-01-14 中国人民解放军国防科技大学 针对自然语言处理模型在有限次数条件下的对抗测试方法
CN114169443A (zh) * 2021-12-08 2022-03-11 西安交通大学 词级文本对抗样本检测方法
CN115658907A (zh) * 2022-11-10 2023-01-31 无锡学院 一种基于历史信息的qpso算法和义原的文本对抗攻击方法
CN115964458A (zh) * 2021-10-13 2023-04-14 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、装置、存储介质及电子设备
CN116992942A (zh) * 2023-09-26 2023-11-03 苏州元脑智能科技有限公司 自然语言模型优化方法、装置、自然语言模型、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法
CN111652267A (zh) * 2020-04-21 2020-09-11 清华大学 对抗样本的生成方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072351A1 (zh) * 2016-10-20 2018-04-26 北京工业大学 一种基于粒子群优化算法对支持向量机的优化方法
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法
CN111652267A (zh) * 2020-04-21 2020-09-11 清华大学 对抗样本的生成方法、装置、电子设备及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760703A (zh) * 2020-09-07 2021-12-07 北京沃东天骏信息技术有限公司 一种Mock数据的生成方法、装置、设备及存储介质
CN113221544B (zh) * 2021-05-11 2023-10-03 河海大学 基于改进ga的深度神经网络对抗性文本生成方法及系统
CN113221544A (zh) * 2021-05-11 2021-08-06 河海大学 基于改进ga的深度神经网络对抗性文本生成方法及系统
CN113935481A (zh) * 2021-10-12 2022-01-14 中国人民解放军国防科技大学 针对自然语言处理模型在有限次数条件下的对抗测试方法
CN113935481B (zh) * 2021-10-12 2023-04-18 中国人民解放军国防科技大学 针对自然语言处理模型在有限次数条件下的对抗测试方法
CN115964458B (zh) * 2021-10-13 2024-06-14 本源量子计算科技(合肥)股份有限公司 文本的量子线路确定方法、装置、存储介质及电子设备
CN115964458A (zh) * 2021-10-13 2023-04-14 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、装置、存储介质及电子设备
CN114169443A (zh) * 2021-12-08 2022-03-11 西安交通大学 词级文本对抗样本检测方法
CN114169443B (zh) * 2021-12-08 2024-02-06 西安交通大学 词级文本对抗样本检测方法
CN115658907B (zh) * 2022-11-10 2024-03-12 无锡学院 一种基于历史信息的qpso算法和义原的文本对抗攻击方法
CN115658907A (zh) * 2022-11-10 2023-01-31 无锡学院 一种基于历史信息的qpso算法和义原的文本对抗攻击方法
CN116992942A (zh) * 2023-09-26 2023-11-03 苏州元脑智能科技有限公司 自然语言模型优化方法、装置、自然语言模型、设备和介质
CN116992942B (zh) * 2023-09-26 2024-02-02 苏州元脑智能科技有限公司 自然语言模型优化方法、装置、自然语言模型、设备和介质

Also Published As

Publication number Publication date
CN112765355B (zh) 2024-08-27

Similar Documents

Publication Publication Date Title
CN112765355A (zh) 基于改进的量子行为粒子群优化算法的文本对抗攻击方法
Wallace et al. Universal adversarial triggers for attacking and analyzing NLP
Zhou et al. Learning to discriminate perturbations for blocking adversarial attacks in text classification
Qiu et al. Adversarial attack and defense technologies in natural language processing: A survey
Dos Santos et al. Deep convolutional neural networks for sentiment analysis of short texts
CN111295674A (zh) 通过使用欺骗梯度来保护认知系统免受基于梯度的攻击
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
Kumar et al. Deep attentive ranking networks for learning to order sentences
Menai Word sense disambiguation using evolutionary algorithms–Application to Arabic language
CN113946687B (zh) 一种标签一致的文本后门攻击方法
Khodadi et al. Genetic programming-based feature learning for question answering
Shao et al. The triggers that open the NLP model backdoors are hidden in the adversarial samples
Alshemali et al. Toward mitigating adversarial texts
Yamada et al. Representation learning of entities and documents from knowledge base descriptions
CN114091448B (zh) 文本对抗样本生成方法、系统、计算机设备和存储介质
Yang et al. Generation-based parallel particle swarm optimization for adversarial text attacks
Asl et al. A Semantic, Syntactic, And Context-Aware Natural Language Adversarial Example Generator
Abdalsalam et al. Terrorism Attack Classification Using Machine Learning: The Effectiveness of Using Textual Features Extracted from GTD Dataset.
CN108595408A (zh) 一种基于端到端神经网络的指代消解方法
CN115658907B (zh) 一种基于历史信息的qpso算法和义原的文本对抗攻击方法
CN115952782A (zh) 一种基于高斯分布改进的文本对抗方法
Li et al. Textual Adversarial Attacks on Named Entity Recognition in a Hard Label Black Box Setting
Shi et al. Word-level textual adversarial attacking based on genetic algorithm
Zhang et al. An Optimized Transfer Attack Framework Towards Multi-Modal Machine Learning
Kang et al. A hybrid style transfer with whale optimization algorithm model for textual adversarial attack

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant