CN115146055A - 一种基于对抗训练的文本通用对抗防御方法及系统 - Google Patents
一种基于对抗训练的文本通用对抗防御方法及系统 Download PDFInfo
- Publication number
- CN115146055A CN115146055A CN202210404650.7A CN202210404650A CN115146055A CN 115146055 A CN115146055 A CN 115146055A CN 202210404650 A CN202210404650 A CN 202210404650A CN 115146055 A CN115146055 A CN 115146055A
- Authority
- CN
- China
- Prior art keywords
- countermeasure
- model
- training
- universal
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000012549 training Methods 0.000 title claims abstract description 82
- 230000007123 defense Effects 0.000 title claims abstract description 28
- 238000013145 classification model Methods 0.000 claims abstract description 60
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000012795 verification Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 26
- 238000003780 insertion Methods 0.000 claims description 11
- 230000037431 insertion Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002337 anti-port Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明请求保护一种基于对抗训练的文本通用对抗防御方法及系统,属于人工智能自然语言处理领域。用于增强基于深度神经网络的文本分类模型对于通用对抗攻击的鲁棒性。获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;在神经网络模型的训练过程中,首先初始化一个全局唯一的通用对抗扰动序列,然后将该扰动序列随机添加到一个批次的训练数据中,最后在更新模型参数的同时更新扰动序列,迭代训练直至模型收敛。本发明证明以对抗训练为基础的对抗防御方法不仅可以降低对抗训练的计算成本,而且可以提升模型的鲁棒性和性能。
Description
技术领域
本发明涉及人工智能自然语言处理领域,尤其涉及一种针对通用对抗攻击 的防御方法,具体涉及一种基于对抗训练的通用对抗防御方法。
背景技术
近年来,深度神经网络在自然语言处理领域的研究与应用成效十分显著, 文本分类作为一个基础任务,在现实中的应用十分广泛,如情感分析、新闻分 类、垃圾信息过滤等。这些基于深度神经网络的文本分类器在遇到对抗攻击时, 性能会显著下降并引起应用安全性、有效性的担忧。比如攻击者可以利用对抗 攻击把对某件事的恶意观点进行处理,“欺骗”文本分类器将其分类为正向观 点,扩大恶意观点的传播范围;将对产品或电影的恶意评价“伪装”成正向评 价,影响人们的购买倾向;将垃圾邮件、垃圾短信等负面信息处理成正常信息, 文本分类器错误地将其放在正常的邮件、短信文件夹下,误导人们对正确信息 的判断。因此人们往往会采取对抗样本检测、对抗训练等防御方法来加强模型 对于对抗攻击的鲁棒性。
通用对抗攻击是最近提出的一种对抗攻击方法,不仅可以在白盒情况下实 现较高的攻击成功率,而且在相似的模型中具有较高的迁移性。最重要的是, 通用对抗攻击可以提前生成一个单一的扰动,将其添加到任意的干净样本中构 成对抗样本。在文本领域中,扰动是指一个固定短语,本文称为通用对抗扰动 序列。这意味着攻击方在实际的攻击过程中,几乎不需要任何的攻击成本就可 以在短时间内对深度神经网络模型发起大规模的攻击,这有可能会给深度神经 网络系统带来不可估量的损失。在文本领域中,目前大多数的通用对抗攻击都 是白盒攻击,而对抗训练是防御白盒攻击的有效手段,也是应用最广泛的防御 方法。
由于通用对抗攻击中的通用对抗扰动序列是针对整个数据分布而生成的, 每次生成都需要较大的计算成本。按照以往的对抗训练方法,利用生成的对抗 样本对已经训练好的文本分类模型进行参数微调,这不仅会消耗巨大的计算成 本,而且只能稍微增强文本分类模型对于通用对抗攻击的鲁棒性,并会降低模 型的分类性能。因此,需要一种基于对抗训练的文本通用对抗防御方法来降低 计算成本并有效防御通用对抗攻击。
经过检索,申请公开号CN114091568A,一种面向文本分类模型的字词双粒 度对抗防御系统及方法,系统包括:SVM分类器训练与预处理模块,该模块用于 构造一个二分类的SVM分类模型,并基于SVM分类模型对本系统的输入文本进 行预处理;字符级防御模型模块,该模块实现对字符级攻击粒度的文本数据进 行正确文本分类;词汇级防御模型模块,该模块实现对词汇级攻击粒度的文本 数据进行正确文本分类;辅助信息模块,用于系统分类结果展示、性能评估和 功能拓展。本发明能够有效地防御面向文本分类模型的多级组合对抗样本攻击, 从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于对抗训练的文本通用 对抗防御方法及系统。本发明的技术方案如下:
一种基于对抗训练的文本通用对抗防御方法,其包括以下步骤:
获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机 初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;文本分类模型是 指常用于文本分类任务的深度神经网络模型,比如TextCNN、BiLSTM等;文本 分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的参数。
将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练 数据的插入位置是随机的,并将处理后的批次数据输入到文本分类模型中;
利用损失函数计算当前批次的损失值,同时利用反向传播更新模型参数, 接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击方法 来更新通用对抗扰动序列;
重复以上步骤直至训练的文本分类模型收敛;
利用通用对抗攻击方法生成对抗样本,将对抗样本用于文本分类模型训练; 在训练集和验证集上训练并优化模型参数,在测试集上观察模型的鲁棒性。
进一步的,所述通用对抗扰动序列,具体包括:
通用对抗扰动序列是由通用对抗攻击方法计算生成的一个固定短语,将其 添加到任意样本中生成对抗样本,这些对抗样本可以误导文本分类模型以很高 的概率输出一个错误的输出或者输出一个指定的输出;不影响人们对其原始语 义的理解,通用对抗攻击的定义如下:
其中F表示基于深度神经网络的文本分类模型;X表示输入的文本数据集合,服 从数据分布D(X);Y表示输出的预测结果集合;δ={δ1,δ2,…,δk-1,δk}表示通用对 抗扰动序列,其长度为k;x'表示生成的对抗样本,每个对抗样本都包含通用对 抗扰动序列。
进一步的,所述初始化全局唯一的通用对抗扰动序列,包括:
提前设定通用对抗扰动序列的长度;初始化的过程可以分为两种,第一种 是通过重复一些无意义的词,来初始化通用对抗扰动序列;第二种是从对应语 言的语料库中随机选择一些词来初始化;
进一步的,所述将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,具体包括:
通用对抗扰动序列添加到当前批次的训练样本中生成对抗样本,选择插入 的位置不同,生成的对抗样本也不一样,为了保证对抗样本的多样性,并且为 了防止模型在学习的过程中总是忽略固定位置上的词,插入的位置是随机的, 而不是固定位置。
进一步的,所述利用损失函数计算当前批次的损失值,包括:
当前批次是指将通用对抗扰动序列添加到原始批次文本中生成的对抗样本; 损失函数采用交叉熵损失函数或其他损失函数,当采用交叉熵损失函数时,损 失值计算如下:
其中yi表示第i个对抗样本的标签值;y′i表示文本分类模型对于第i个对抗样本的预测值;b表示一个批次中对抗样本的数量。
进一步的,所述利用反向传播更新模型参数,包括:
反向传播是梯度下降法的具体实现,用于优化模型参数使其损失最小,优 化器算法选择Adadelta、Adagrad、Adam、Adamax、L-BFGS、RMSprop、SGD之 一。
进一步的,所述结合通用对抗攻击方法来更新通用对抗扰动序列,包括:
所述通用对抗攻击方法直接利用通用对抗扰动序列的梯度信息计算出新的 通用对抗扰动序列,计算方法有两种,第一种是将梯度与嵌入向量 空间作矩阵乘法,选择值最小的词嵌入向量作为新的通用对抗扰动序列,计 算如下:
其中超参数α表示计算的步长。
每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行 更新;通过累计多个批次的梯度来更新通用对抗扰动序列,不需要每个批次都 更新。
进一步的,所述模型收敛,包括:
模型收敛是指经过训练后的模型在验证集上经过多个迭代后,某个指标的 变化幅度很小,则可以停止训练;指标包括模型的准确率、损失值或对于通用 对抗攻击的鲁棒性;或模型收敛是指训练的次数达到设置的最大迭代次数;
进一步的,所述模型的鲁棒性,具体包括:
评估模型的鲁棒性可以使用攻击成功率Attack Success Rate或者模型对 于对抗样本的准确率下降的程度;攻击成功率是指在所有预测正确的样本中, 有多少样本在添加了通用对抗扰动序列后,模型预测是错误的,其计算过程如 下:
其中F表示基于深度神经网络的文本分类模型;X表示原始的干净样本;X'表 示添加了通用对抗扰动序列的对抗样本;Y表示样本的原始分类标签。攻击成功 率越小,意味着模型的鲁棒性越强,相反,攻击成功率越大,说明模型越容易 受到对抗攻击。
一种基于对抗训练的文本通用对抗防御系统,其包括:
获取模块:用于获取文本分类的数据集,将数据集分为训练集、验证集和 测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列; 文本分类模型是指常用于文本分类任务的深度神经网络模型,比如TextCNN、 BiLSTM等;文本分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的 参数。
插入模块:用于将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本 分类模型中;
更新模块:用于利用损失函数计算当前批次的损失值,同时利用反向传播 更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通 用对抗攻击方法来更新通用对抗扰动序列;重复以上步骤直至训练的文本分类 模型收敛;
训练模块:用于利用通用对抗攻击方法生成对抗样本,将对抗样本用于文 本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察 模型的鲁棒性。
本发明的优点及有益效果如下:
本发明所提供的一种基于对抗训练的文本通用对抗防御方法,在文本分类 模型的训练过程中,实时维护一个全局的通用对抗扰动,随机选择位置将其插 入到一个批次的训练数据中,迫使模型学习通用对抗扰动序列的位置,充分利 用反向传播计算的梯度信息来同时更新模型参数和通用对抗扰动序列,迭代训 练直至模型收敛。该方法可以有效减少对抗训练带来的计算成本,并且可以提 高文本分类模型对于通用对抗攻击的鲁棒性和文本分类模型的分类性能。
附图说明
图1是本发明提供优选实施例基于对抗训练的通用对抗防御方法的流程图;
图2是基于对抗训练的通用对抗防御方法中同时更新模型参数和通用对抗 扰动序列的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
参见图1,本发明提供的一种基于对抗训练的通用对抗防御方法,包括以下 步骤:
S1、获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并 随机初始化文本分类模型的参数;确定通用对抗扰动序列的长度,初始化全局 唯一的通用对抗扰动序列,初始化的过程可以分为两种,第一种是通过重复一 些无意义的词,比如在中文的文本领域,可以重复“的”来初始化通用对抗扰 动序列;第二种是从对应语言的语料库中随机选择一些词来初始化;
S2、将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条 训练数据的插入位置是随机的,而不是固定位置,并将处理后的批次数据输入 到模型中;
S3、利用损失函数计算当前批次的损失值,同时更新模型参数和通用对抗 扰动序列的过程如图2所示,具体实现包括以下子步骤:
S31、用反向传播更新模型参数,优化器算法可以使用Adadelta、Adagrad、 Adam、Adamax、L-BFGS、RMSprop、SGD等;
S32、计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击 方法来更新通用对抗扰动序列,更新通用对抗扰动序列的方式应该是多样的, 每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行更新; 由于通用对抗攻击方法的计算成本比较大,可以通过累计多个批次的梯度来更 新通用对抗扰动序列,不需要每个批次都更新;
S4、重复步骤S2和S3,直至训练的次数达到设置的最大迭代次数或者经过 训练后的模型在验证集上经过多个迭代后,准确率、损失值或对于通用对抗攻 击的鲁棒性的变化幅度很小,则停止训练;评估模型的鲁棒性可以使用攻击成 功率(Attack Success Rate)或者模型对于对抗样本的准确率下降的程度。攻击 成功率是指在所有预测正确的样本中,有多少样本在添加了通用对抗扰动序列 后,模型预测是错误的,其计算过程如下:
其中F表示基于深度神经网络的文本分类模型;X表示原始的干净样本;X'表 示添加了通用对抗扰动序列的对抗样本;Y表示样本的原始分类标签。攻击成功 率越小,意味着模型的鲁棒性越强,相反,攻击成功率越大,说明模型越容易 受到对抗攻击。
进一步的,所述通用对抗扰动序列,具体包括:
通用对抗扰动序列是由通用对抗攻击方法计算生成的一个固定短语,将其 添加到任意样本中生成对抗样本,这些对抗样本可以误导文本分类模型以很高 的概率输出一个错误的输出或者输出一个指定的输出;不影响人们对其原始语 义的理解,通用对抗攻击的定义如下:
其中F表示基于深度神经网络的文本分类模型;X表示输入的文本数据集合,服 从数据分布D(X);Y表示输出的预测结果集合;δ={δ1,δ2,…,δk-1,δk}表示通用对 抗扰动序列,其长度为k;x'表示生成的对抗样本,每个对抗样本都包含通用对 抗扰动序列。
进一步的,所述初始化全局唯一的通用对抗扰动序列,包括:
提前设定通用对抗扰动序列的长度;初始化的过程可以分为两种,第一种 是通过重复一些无意义的词,来初始化通用对抗扰动序列;第二种是从对应语 言的语料库中随机选择一些词来初始化;
进一步的,所述将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,具体包括:
通用对抗扰动序列添加到当前批次的训练样本中生成对抗样本,选择插入 的位置不同,生成的对抗样本也不一样,为了保证对抗样本的多样性,并且为 了防止模型在学习的过程中总是忽略固定位置上的词,插入的位置是随机的, 而不是固定位置。
进一步的,所述利用损失函数计算当前批次的损失值,包括:
当前批次是指将通用对抗扰动序列添加到原始批次文本中生成的对抗样本; 损失函数采用交叉熵损失函数或其他损失函数,当采用交叉熵损失函数时,损 失值计算如下:
其中yi表示第i个对抗样本的标签值;y′i表示文本分类模型对于第i个对抗样本的预测值;b表示一个批次中对抗样本的数量。
进一步的,所述利用反向传播更新模型参数,包括:
反向传播是梯度下降法的具体实现,用于优化模型参数使其损失最小,优 化器算法选择Adadelta、Adagrad、Adam、Adamax、L-BFGS、RMSprop、SGD之 一。
进一步的,所述结合通用对抗攻击方法来更新通用对抗扰动序列,包括:
所述通用对抗攻击方法直接利用通用对抗扰动序列的梯度信息计算出新的 通用对抗扰动序列,计算方法有两种,第一种是将梯度与嵌入向量 空间作矩阵乘法,选择值最小的词嵌入向量作为新的通用对抗扰动序列,计 算如下:
其中超参数α表示计算的步长。每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行更新;通过累计多个批次的梯度来更新通用对抗扰动 序列,不需要每个批次都更新。
进一步的,所述模型收敛,包括:
模型收敛是指经过训练后的模型在验证集上经过多个迭代后,某个指标的 变化幅度很小,则可以停止训练;指标包括模型的准确率、损失值或对于通用 对抗攻击的鲁棒性;或模型收敛是指训练的次数达到设置的最大迭代次数;
一种基于对抗训练的文本通用对抗防御系统,其包括:
获取模块:用于获取文本分类的数据集,将数据集分为训练集、验证集和 测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列; 文本分类模型是指常用于文本分类任务的深度神经网络模型,比如TextCNN、 BiLSTM等;文本分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的 参数。
插入模块:用于将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本 分类模型中;
更新模块:用于利用损失函数计算当前批次的损失值,同时利用反向传播 更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通 用对抗攻击方法来更新通用对抗扰动序列;重复以上步骤直至训练的文本分类 模型收敛;
训练模块:用于利用通用对抗攻击方法生成对抗样本,将对抗样本用于文 本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察 模型的鲁棒性。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实 体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。 具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、 智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制 台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、 静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存 取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快 闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其 他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定, 计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据 信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅 包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包 括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者 设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范 围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或 修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (10)
1.一种基于对抗训练的文本通用对抗防御方法,其特征在于,包括以下步骤:
获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;文本分类模型是指常用于文本分类任务的深度神经网络模型,文本分类模型的参数包括嵌入层、隐藏层、输出层各个网络层的参数;
将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本分类模型中;
利用损失函数计算当前批次的损失值,同时利用反向传播更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击方法来更新通用对抗扰动序列;
重复以上步骤直至训练的文本分类模型收敛;
利用通用对抗攻击方法生成对抗样本,将对抗样本用于文本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察模型的鲁棒性。
3.根据权利要求2所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述初始化全局唯一的通用对抗扰动序列,包括:
提前设定通用对抗扰动序列的长度;初始化的过程可以分为两种,第一种是通过重复一些无意义的词,来初始化通用对抗扰动序列;第二种是从对应语言的语料库中随机选择一些词来初始化。
4.根据权利要求3所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练数据的插入位置是随机的,具体包括:
通用对抗扰动序列添加到当前批次的训练样本中生成对抗样本,选择插入的位置不同,生成的对抗样本也不一样,为了保证对抗样本的多样性,并且为了防止模型在学习的过程中总是忽略固定位置上的词,插入的位置是随机的,而不是固定位置。
6.根据权利要求5所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述利用反向传播更新模型参数,包括:
反向传播是梯度下降法的具体实现,用于优化模型参数使其损失最小,优化器算法选择Adadelta、Adagrad、Adam、Adamax、L-BFGS、RMSprop、SGD之一。
7.根据权利要求6所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述结合通用对抗攻击方法来更新通用对抗扰动序列,包括:
其中超参数α表示计算的步长;
每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行更新;通过累计多个批次的梯度来更新通用对抗扰动序列,不需要每个批次都更新。
8.根据权利要求7所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述模型收敛,包括:
模型收敛是指经过训练后的模型在验证集上经过多个迭代后,某个指标的变化幅度很小,则可以停止训练;指标包括模型的准确率、损失值或对于通用对抗攻击的鲁棒性;或模型收敛是指训练的次数达到设置的最大迭代次数。
10.一种基于对抗训练的文本通用对抗防御系统,其特征在于,包括:
获取模块:用于获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;文本分类模型是指常用于文本分类任务的深度神经网络模型;文本分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的参数;
插入模块:用于将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本分类模型中;
更新模块:用于利用损失函数计算当前批次的损失值,同时利用反向传播更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击方法来更新通用对抗扰动序列;重复以上步骤直至训练的文本分类模型收敛;
训练模块:用于利用通用对抗攻击方法生成对抗样本,将对抗样本用于文本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察模型的鲁棒性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404650.7A CN115146055B (zh) | 2022-04-18 | 2022-04-18 | 一种基于对抗训练的文本通用对抗防御方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404650.7A CN115146055B (zh) | 2022-04-18 | 2022-04-18 | 一种基于对抗训练的文本通用对抗防御方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115146055A true CN115146055A (zh) | 2022-10-04 |
CN115146055B CN115146055B (zh) | 2024-07-23 |
Family
ID=83405848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404650.7A Active CN115146055B (zh) | 2022-04-18 | 2022-04-18 | 一种基于对抗训练的文本通用对抗防御方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146055B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596406A (zh) * | 2023-07-11 | 2023-08-15 | 航天宏图信息技术股份有限公司 | 北斗导航对抗训练的智能评估方法、装置、设备和介质 |
WO2024078411A1 (zh) * | 2022-10-11 | 2024-04-18 | 华为技术有限公司 | 一种数据处理方法及其装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273445A (zh) * | 2017-05-26 | 2017-10-20 | 电子科技大学 | 一种大数据分析中缺失数据混合多重插值的装置和方法 |
CN112381149A (zh) * | 2020-11-17 | 2021-02-19 | 大连理工大学 | 一种基于深度学习用于源相机识别的合理对抗分析方法 |
CN112528675A (zh) * | 2020-12-14 | 2021-03-19 | 成都易书桥科技有限公司 | 一种基于局部扰动的对抗样本防御算法 |
US20210182394A1 (en) * | 2019-12-16 | 2021-06-17 | Robert Bosch Gmbh | System and Method for Detecting an Adversarial Attack |
WO2021244035A1 (en) * | 2020-06-03 | 2021-12-09 | Huawei Technologies Co., Ltd. | Methods and apparatuses for defense against adversarial attacks on federated learning systems |
WO2021258914A1 (zh) * | 2020-06-24 | 2021-12-30 | 深圳前海微众银行股份有限公司 | 一种序列标注模型的训练方法及装置 |
-
2022
- 2022-04-18 CN CN202210404650.7A patent/CN115146055B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273445A (zh) * | 2017-05-26 | 2017-10-20 | 电子科技大学 | 一种大数据分析中缺失数据混合多重插值的装置和方法 |
US20210182394A1 (en) * | 2019-12-16 | 2021-06-17 | Robert Bosch Gmbh | System and Method for Detecting an Adversarial Attack |
WO2021244035A1 (en) * | 2020-06-03 | 2021-12-09 | Huawei Technologies Co., Ltd. | Methods and apparatuses for defense against adversarial attacks on federated learning systems |
WO2021258914A1 (zh) * | 2020-06-24 | 2021-12-30 | 深圳前海微众银行股份有限公司 | 一种序列标注模型的训练方法及装置 |
CN112381149A (zh) * | 2020-11-17 | 2021-02-19 | 大连理工大学 | 一种基于深度学习用于源相机识别的合理对抗分析方法 |
CN112528675A (zh) * | 2020-12-14 | 2021-03-19 | 成都易书桥科技有限公司 | 一种基于局部扰动的对抗样本防御算法 |
Non-Patent Citations (4)
Title |
---|
BEHJATI M等: "Universal adversarial attacks on text classifiers", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS》, 31 December 2019 (2019-12-31), pages 7345 - 7349 * |
FENG S等: "Universal adversarial triggers for attacking and analyzing NLP", 《PROCEEDINGS OF THE 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING 》, 31 December 2019 (2019-12-31), pages 2153 - 2162 * |
SHAFAHI .A等: "Adversarial training for free", 《 ANNUAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS 2019.》, 31 December 2019 (2019-12-31), pages 3353 - 336 * |
郝志荣: "面向文本分类的通用对抗攻击与防御方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 13 June 2024 (2024-06-13), pages 1 - 62 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024078411A1 (zh) * | 2022-10-11 | 2024-04-18 | 华为技术有限公司 | 一种数据处理方法及其装置 |
CN116596406A (zh) * | 2023-07-11 | 2023-08-15 | 航天宏图信息技术股份有限公司 | 北斗导航对抗训练的智能评估方法、装置、设备和介质 |
CN116596406B (zh) * | 2023-07-11 | 2023-10-03 | 航天宏图信息技术股份有限公司 | 北斗导航对抗训练的智能评估方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115146055B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruder et al. | Character-level and multi-channel convolutional neural networks for large-scale authorship attribution | |
US11762990B2 (en) | Unstructured text classification | |
CN110379418B (zh) | 一种语音对抗样本生成方法 | |
CN115146055B (zh) | 一种基于对抗训练的文本通用对抗防御方法及系统 | |
Damie et al. | A highly accurate {Query-Recovery} attack against searchable encryption using {Non-Indexed} documents | |
CN111047054A (zh) | 一种基于两阶段对抗知识迁移的对抗样例防御方法 | |
Munir et al. | Through the looking glass: Learning to attribute synthetic text generated by language models | |
CN113204974A (zh) | 对抗文本的生成方法、装置、设备及存储介质 | |
Matyasko et al. | Improved network robustness with adversary critic | |
Kedia et al. | Keep learning: Self-supervised meta-learning for learning from inference | |
Diwan et al. | Fingerprinting fine-tuned language models in the wild | |
Yin et al. | Adversarial attack, defense, and applications with deep learning frameworks | |
Chandran et al. | Optimal deep belief network enabled malware detection and classification model | |
CN114169443B (zh) | 词级文本对抗样本检测方法 | |
Kim et al. | Multi-Domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models. | |
CN116152884A (zh) | 人脸图像的识别方法、装置、处理器及电子设备 | |
George et al. | Bangla fake news detection based on multichannel combined CNN-LSTM | |
Ali et al. | Centered self-attention layers | |
Omar | From Attack to Defense: Strengthening DNN Text Classification Against Adversarial Examples | |
Giannella et al. | (Un/Semi-) supervised SMS text message SPAM detection | |
Guan et al. | Enhancing the transferability of adversarial examples on vision transformers | |
Lee et al. | A Sequential Approach to Network Intrusion Detection | |
Yu et al. | Mitigating Forgetting in Online Continual Learning via Contrasting Semantically Distinct Augmentations | |
Khan et al. | Synonym-based Attack to Confuse Machine Learning Classifiers Using Black-box Setting | |
Zheng | Secure and Private Large Transformers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |