CN115146055A - 一种基于对抗训练的文本通用对抗防御方法及系统 - Google Patents

一种基于对抗训练的文本通用对抗防御方法及系统 Download PDF

Info

Publication number
CN115146055A
CN115146055A CN202210404650.7A CN202210404650A CN115146055A CN 115146055 A CN115146055 A CN 115146055A CN 202210404650 A CN202210404650 A CN 202210404650A CN 115146055 A CN115146055 A CN 115146055A
Authority
CN
China
Prior art keywords
countermeasure
model
training
universal
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210404650.7A
Other languages
English (en)
Other versions
CN115146055B (zh
Inventor
陈龙
郝志荣
黄嘉成
谢荣鹏
艾锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210404650.7A priority Critical patent/CN115146055B/zh
Publication of CN115146055A publication Critical patent/CN115146055A/zh
Application granted granted Critical
Publication of CN115146055B publication Critical patent/CN115146055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明请求保护一种基于对抗训练的文本通用对抗防御方法及系统,属于人工智能自然语言处理领域。用于增强基于深度神经网络的文本分类模型对于通用对抗攻击的鲁棒性。获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;在神经网络模型的训练过程中,首先初始化一个全局唯一的通用对抗扰动序列,然后将该扰动序列随机添加到一个批次的训练数据中,最后在更新模型参数的同时更新扰动序列,迭代训练直至模型收敛。本发明证明以对抗训练为基础的对抗防御方法不仅可以降低对抗训练的计算成本,而且可以提升模型的鲁棒性和性能。

Description

一种基于对抗训练的文本通用对抗防御方法及系统
技术领域
本发明涉及人工智能自然语言处理领域,尤其涉及一种针对通用对抗攻击 的防御方法,具体涉及一种基于对抗训练的通用对抗防御方法。
背景技术
近年来,深度神经网络在自然语言处理领域的研究与应用成效十分显著, 文本分类作为一个基础任务,在现实中的应用十分广泛,如情感分析、新闻分 类、垃圾信息过滤等。这些基于深度神经网络的文本分类器在遇到对抗攻击时, 性能会显著下降并引起应用安全性、有效性的担忧。比如攻击者可以利用对抗 攻击把对某件事的恶意观点进行处理,“欺骗”文本分类器将其分类为正向观 点,扩大恶意观点的传播范围;将对产品或电影的恶意评价“伪装”成正向评 价,影响人们的购买倾向;将垃圾邮件、垃圾短信等负面信息处理成正常信息, 文本分类器错误地将其放在正常的邮件、短信文件夹下,误导人们对正确信息 的判断。因此人们往往会采取对抗样本检测、对抗训练等防御方法来加强模型 对于对抗攻击的鲁棒性。
通用对抗攻击是最近提出的一种对抗攻击方法,不仅可以在白盒情况下实 现较高的攻击成功率,而且在相似的模型中具有较高的迁移性。最重要的是, 通用对抗攻击可以提前生成一个单一的扰动,将其添加到任意的干净样本中构 成对抗样本。在文本领域中,扰动是指一个固定短语,本文称为通用对抗扰动 序列。这意味着攻击方在实际的攻击过程中,几乎不需要任何的攻击成本就可 以在短时间内对深度神经网络模型发起大规模的攻击,这有可能会给深度神经 网络系统带来不可估量的损失。在文本领域中,目前大多数的通用对抗攻击都 是白盒攻击,而对抗训练是防御白盒攻击的有效手段,也是应用最广泛的防御 方法。
由于通用对抗攻击中的通用对抗扰动序列是针对整个数据分布而生成的, 每次生成都需要较大的计算成本。按照以往的对抗训练方法,利用生成的对抗 样本对已经训练好的文本分类模型进行参数微调,这不仅会消耗巨大的计算成 本,而且只能稍微增强文本分类模型对于通用对抗攻击的鲁棒性,并会降低模 型的分类性能。因此,需要一种基于对抗训练的文本通用对抗防御方法来降低 计算成本并有效防御通用对抗攻击。
经过检索,申请公开号CN114091568A,一种面向文本分类模型的字词双粒 度对抗防御系统及方法,系统包括:SVM分类器训练与预处理模块,该模块用于 构造一个二分类的SVM分类模型,并基于SVM分类模型对本系统的输入文本进 行预处理;字符级防御模型模块,该模块实现对字符级攻击粒度的文本数据进 行正确文本分类;词汇级防御模型模块,该模块实现对词汇级攻击粒度的文本 数据进行正确文本分类;辅助信息模块,用于系统分类结果展示、性能评估和 功能拓展。本发明能够有效地防御面向文本分类模型的多级组合对抗样本攻击, 从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于对抗训练的文本通用 对抗防御方法及系统。本发明的技术方案如下:
一种基于对抗训练的文本通用对抗防御方法,其包括以下步骤:
获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机 初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;文本分类模型是 指常用于文本分类任务的深度神经网络模型,比如TextCNN、BiLSTM等;文本 分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的参数。
将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练 数据的插入位置是随机的,并将处理后的批次数据输入到文本分类模型中;
利用损失函数计算当前批次的损失值,同时利用反向传播更新模型参数, 接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击方法 来更新通用对抗扰动序列;
重复以上步骤直至训练的文本分类模型收敛;
利用通用对抗攻击方法生成对抗样本,将对抗样本用于文本分类模型训练; 在训练集和验证集上训练并优化模型参数,在测试集上观察模型的鲁棒性。
进一步的,所述通用对抗扰动序列,具体包括:
通用对抗扰动序列是由通用对抗攻击方法计算生成的一个固定短语,将其 添加到任意样本中生成对抗样本,这些对抗样本可以误导文本分类模型以很高 的概率输出一个错误的输出或者输出一个指定的输出;不影响人们对其原始语 义的理解,通用对抗攻击的定义如下:
Figure BDA0003601311960000031
其中F表示基于深度神经网络的文本分类模型;X表示输入的文本数据集合,服 从数据分布D(X);Y表示输出的预测结果集合;δ={δ12,…,δk-1k}表示通用对 抗扰动序列,其长度为k;x'表示生成的对抗样本,每个对抗样本都包含通用对 抗扰动序列。
进一步的,所述初始化全局唯一的通用对抗扰动序列,包括:
提前设定通用对抗扰动序列的长度;初始化的过程可以分为两种,第一种 是通过重复一些无意义的词,来初始化通用对抗扰动序列;第二种是从对应语 言的语料库中随机选择一些词来初始化;
进一步的,所述将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,具体包括:
通用对抗扰动序列添加到当前批次的训练样本中生成对抗样本,选择插入 的位置不同,生成的对抗样本也不一样,为了保证对抗样本的多样性,并且为 了防止模型在学习的过程中总是忽略固定位置上的词,插入的位置是随机的, 而不是固定位置。
进一步的,所述利用损失函数计算当前批次的损失值,包括:
当前批次是指将通用对抗扰动序列添加到原始批次文本中生成的对抗样本; 损失函数采用交叉熵损失函数或其他损失函数,当采用交叉熵损失函数时,损 失值计算如下:
Figure BDA0003601311960000041
其中yi表示第i个对抗样本的标签值;y′i表示文本分类模型对于第i个对抗样本的预测值;b表示一个批次中对抗样本的数量。
进一步的,所述利用反向传播更新模型参数,包括:
反向传播是梯度下降法的具体实现,用于优化模型参数使其损失最小,优 化器算法选择Adadelta、Adagrad、Adam、Adamax、L-BFGS、RMSprop、SGD之 一。
进一步的,所述结合通用对抗攻击方法来更新通用对抗扰动序列,包括:
所述通用对抗攻击方法直接利用通用对抗扰动序列的梯度信息计算出新的 通用对抗扰动序列,计算方法有两种,第一种是将梯度
Figure BDA0003601311960000042
与嵌入向量 空间
Figure BDA0003601311960000043
作矩阵乘法,选择值最小的词嵌入向量作为新的通用对抗扰动序列,计 算如下:
Figure BDA0003601311960000044
其中eδ表示通用对抗扰动序列的独热编码向量;
Figure BDA0003601311960000045
表示损失函数对于 通用对抗扰动序列的平均梯度;
Figure BDA0003601311960000046
表示嵌入向量空间;
第二种是在嵌入向量空间中沿梯度方向迈出一小步,得到一个向量
Figure BDA0003601311960000047
将其投影到嵌入向量空间中余弦距离最近的词嵌入向量, 作为新的通用对抗扰动序列,计算如下:
Figure BDA0003601311960000048
其中超参数α表示计算的步长。
每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行 更新;通过累计多个批次的梯度来更新通用对抗扰动序列,不需要每个批次都 更新。
进一步的,所述模型收敛,包括:
模型收敛是指经过训练后的模型在验证集上经过多个迭代后,某个指标的 变化幅度很小,则可以停止训练;指标包括模型的准确率、损失值或对于通用 对抗攻击的鲁棒性;或模型收敛是指训练的次数达到设置的最大迭代次数;
进一步的,所述模型的鲁棒性,具体包括:
评估模型的鲁棒性可以使用攻击成功率Attack Success Rate或者模型对 于对抗样本的准确率下降的程度;攻击成功率是指在所有预测正确的样本中, 有多少样本在添加了通用对抗扰动序列后,模型预测是错误的,其计算过程如 下:
Figure BDA0003601311960000051
其中F表示基于深度神经网络的文本分类模型;X表示原始的干净样本;X'表 示添加了通用对抗扰动序列的对抗样本;Y表示样本的原始分类标签。攻击成功 率越小,意味着模型的鲁棒性越强,相反,攻击成功率越大,说明模型越容易 受到对抗攻击。
一种基于对抗训练的文本通用对抗防御系统,其包括:
获取模块:用于获取文本分类的数据集,将数据集分为训练集、验证集和 测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列; 文本分类模型是指常用于文本分类任务的深度神经网络模型,比如TextCNN、 BiLSTM等;文本分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的 参数。
插入模块:用于将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本 分类模型中;
更新模块:用于利用损失函数计算当前批次的损失值,同时利用反向传播 更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通 用对抗攻击方法来更新通用对抗扰动序列;重复以上步骤直至训练的文本分类 模型收敛;
训练模块:用于利用通用对抗攻击方法生成对抗样本,将对抗样本用于文 本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察 模型的鲁棒性。
本发明的优点及有益效果如下:
本发明所提供的一种基于对抗训练的文本通用对抗防御方法,在文本分类 模型的训练过程中,实时维护一个全局的通用对抗扰动,随机选择位置将其插 入到一个批次的训练数据中,迫使模型学习通用对抗扰动序列的位置,充分利 用反向传播计算的梯度信息来同时更新模型参数和通用对抗扰动序列,迭代训 练直至模型收敛。该方法可以有效减少对抗训练带来的计算成本,并且可以提 高文本分类模型对于通用对抗攻击的鲁棒性和文本分类模型的分类性能。
附图说明
图1是本发明提供优选实施例基于对抗训练的通用对抗防御方法的流程图;
图2是基于对抗训练的通用对抗防御方法中同时更新模型参数和通用对抗 扰动序列的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
参见图1,本发明提供的一种基于对抗训练的通用对抗防御方法,包括以下 步骤:
S1、获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并 随机初始化文本分类模型的参数;确定通用对抗扰动序列的长度,初始化全局 唯一的通用对抗扰动序列,初始化的过程可以分为两种,第一种是通过重复一 些无意义的词,比如在中文的文本领域,可以重复“的”来初始化通用对抗扰 动序列;第二种是从对应语言的语料库中随机选择一些词来初始化;
S2、将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条 训练数据的插入位置是随机的,而不是固定位置,并将处理后的批次数据输入 到模型中;
S3、利用损失函数计算当前批次的损失值,同时更新模型参数和通用对抗 扰动序列的过程如图2所示,具体实现包括以下子步骤:
S31、用反向传播更新模型参数,优化器算法可以使用Adadelta、Adagrad、 Adam、Adamax、L-BFGS、RMSprop、SGD等;
S32、计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击 方法来更新通用对抗扰动序列,更新通用对抗扰动序列的方式应该是多样的, 每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行更新; 由于通用对抗攻击方法的计算成本比较大,可以通过累计多个批次的梯度来更 新通用对抗扰动序列,不需要每个批次都更新;
S4、重复步骤S2和S3,直至训练的次数达到设置的最大迭代次数或者经过 训练后的模型在验证集上经过多个迭代后,准确率、损失值或对于通用对抗攻 击的鲁棒性的变化幅度很小,则停止训练;评估模型的鲁棒性可以使用攻击成 功率(Attack Success Rate)或者模型对于对抗样本的准确率下降的程度。攻击 成功率是指在所有预测正确的样本中,有多少样本在添加了通用对抗扰动序列 后,模型预测是错误的,其计算过程如下:
Figure BDA0003601311960000081
其中F表示基于深度神经网络的文本分类模型;X表示原始的干净样本;X'表 示添加了通用对抗扰动序列的对抗样本;Y表示样本的原始分类标签。攻击成功 率越小,意味着模型的鲁棒性越强,相反,攻击成功率越大,说明模型越容易 受到对抗攻击。
进一步的,所述通用对抗扰动序列,具体包括:
通用对抗扰动序列是由通用对抗攻击方法计算生成的一个固定短语,将其 添加到任意样本中生成对抗样本,这些对抗样本可以误导文本分类模型以很高 的概率输出一个错误的输出或者输出一个指定的输出;不影响人们对其原始语 义的理解,通用对抗攻击的定义如下:
Figure BDA0003601311960000082
其中F表示基于深度神经网络的文本分类模型;X表示输入的文本数据集合,服 从数据分布D(X);Y表示输出的预测结果集合;δ={δ12,…,δk-1k}表示通用对 抗扰动序列,其长度为k;x'表示生成的对抗样本,每个对抗样本都包含通用对 抗扰动序列。
进一步的,所述初始化全局唯一的通用对抗扰动序列,包括:
提前设定通用对抗扰动序列的长度;初始化的过程可以分为两种,第一种 是通过重复一些无意义的词,来初始化通用对抗扰动序列;第二种是从对应语 言的语料库中随机选择一些词来初始化;
进一步的,所述将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,具体包括:
通用对抗扰动序列添加到当前批次的训练样本中生成对抗样本,选择插入 的位置不同,生成的对抗样本也不一样,为了保证对抗样本的多样性,并且为 了防止模型在学习的过程中总是忽略固定位置上的词,插入的位置是随机的, 而不是固定位置。
进一步的,所述利用损失函数计算当前批次的损失值,包括:
当前批次是指将通用对抗扰动序列添加到原始批次文本中生成的对抗样本; 损失函数采用交叉熵损失函数或其他损失函数,当采用交叉熵损失函数时,损 失值计算如下:
Figure BDA0003601311960000091
其中yi表示第i个对抗样本的标签值;y′i表示文本分类模型对于第i个对抗样本的预测值;b表示一个批次中对抗样本的数量。
进一步的,所述利用反向传播更新模型参数,包括:
反向传播是梯度下降法的具体实现,用于优化模型参数使其损失最小,优 化器算法选择Adadelta、Adagrad、Adam、Adamax、L-BFGS、RMSprop、SGD之 一。
进一步的,所述结合通用对抗攻击方法来更新通用对抗扰动序列,包括:
所述通用对抗攻击方法直接利用通用对抗扰动序列的梯度信息计算出新的 通用对抗扰动序列,计算方法有两种,第一种是将梯度
Figure BDA0003601311960000092
与嵌入向量 空间
Figure BDA0003601311960000093
作矩阵乘法,选择值最小的词嵌入向量作为新的通用对抗扰动序列,计 算如下:
Figure BDA0003601311960000094
其中eδ表示通用对抗扰动序列的独热编码向量;
Figure BDA0003601311960000095
表示损失函数对于 通用对抗扰动序列的平均梯度;
Figure BDA0003601311960000096
表示嵌入向量空间;
第二种是在嵌入向量空间中沿梯度方向迈出一小步,得到一个向量
Figure BDA0003601311960000097
将其投影到嵌入向量空间中余弦距离最近的词嵌入向量, 作为新的通用对抗扰动序列,计算如下:
Figure BDA0003601311960000101
其中超参数α表示计算的步长。每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行更新;通过累计多个批次的梯度来更新通用对抗扰动 序列,不需要每个批次都更新。
进一步的,所述模型收敛,包括:
模型收敛是指经过训练后的模型在验证集上经过多个迭代后,某个指标的 变化幅度很小,则可以停止训练;指标包括模型的准确率、损失值或对于通用 对抗攻击的鲁棒性;或模型收敛是指训练的次数达到设置的最大迭代次数;
一种基于对抗训练的文本通用对抗防御系统,其包括:
获取模块:用于获取文本分类的数据集,将数据集分为训练集、验证集和 测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列; 文本分类模型是指常用于文本分类任务的深度神经网络模型,比如TextCNN、 BiLSTM等;文本分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的 参数。
插入模块:用于将初始化后的通用对抗扰动序列插入到一个批次的训练数 据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本 分类模型中;
更新模块:用于利用损失函数计算当前批次的损失值,同时利用反向传播 更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通 用对抗攻击方法来更新通用对抗扰动序列;重复以上步骤直至训练的文本分类 模型收敛;
训练模块:用于利用通用对抗攻击方法生成对抗样本,将对抗样本用于文 本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察 模型的鲁棒性。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实 体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。 具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、 智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制 台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、 静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存 取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快 闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其 他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定, 计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据 信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅 包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包 括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者 设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范 围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或 修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于对抗训练的文本通用对抗防御方法,其特征在于,包括以下步骤:
获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;文本分类模型是指常用于文本分类任务的深度神经网络模型,文本分类模型的参数包括嵌入层、隐藏层、输出层各个网络层的参数;
将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本分类模型中;
利用损失函数计算当前批次的损失值,同时利用反向传播更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击方法来更新通用对抗扰动序列;
重复以上步骤直至训练的文本分类模型收敛;
利用通用对抗攻击方法生成对抗样本,将对抗样本用于文本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察模型的鲁棒性。
2.根据权利要求1所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述通用对抗扰动序列,具体包括:
通用对抗扰动序列是由通用对抗攻击方法计算生成的一个固定短语,将其添加到任意样本中生成对抗样本,这些对抗样本可以误导文本分类模型以很高的概率输出一个错误的输出或者输出一个指定的输出;不影响人们对其原始语义的理解,通用对抗攻击的定义如下:
Figure FDA0003601311950000011
其中F表示基于深度神经网络的文本分类模型;X表示输入的文本数据集合,服从数据分布D(X);Y表示输出的预测结果集合;δ={δ12,…,δk-1k}表示通用对抗扰动序列,其长度为k;x'表示生成的对抗样本,每个对抗样本都包含通用对抗扰动序列。
3.根据权利要求2所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述初始化全局唯一的通用对抗扰动序列,包括:
提前设定通用对抗扰动序列的长度;初始化的过程可以分为两种,第一种是通过重复一些无意义的词,来初始化通用对抗扰动序列;第二种是从对应语言的语料库中随机选择一些词来初始化。
4.根据权利要求3所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练数据的插入位置是随机的,具体包括:
通用对抗扰动序列添加到当前批次的训练样本中生成对抗样本,选择插入的位置不同,生成的对抗样本也不一样,为了保证对抗样本的多样性,并且为了防止模型在学习的过程中总是忽略固定位置上的词,插入的位置是随机的,而不是固定位置。
5.根据权利要求4所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述利用损失函数计算当前批次的损失值,包括:
当前批次是指将通用对抗扰动序列添加到原始批次文本中生成的对抗样本;损失函数采用交叉熵损失函数或其他损失函数,当采用交叉熵损失函数时,损失值计算如下:
Figure FDA0003601311950000021
其中yi表示第i个对抗样本的标签值;y′i表示文本分类模型对于第i个对抗样本的预测值;b表示一个批次中对抗样本的数量。
6.根据权利要求5所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述利用反向传播更新模型参数,包括:
反向传播是梯度下降法的具体实现,用于优化模型参数使其损失最小,优化器算法选择Adadelta、Adagrad、Adam、Adamax、L-BFGS、RMSprop、SGD之一。
7.根据权利要求6所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述结合通用对抗攻击方法来更新通用对抗扰动序列,包括:
所述通用对抗攻击方法直接利用通用对抗扰动序列的梯度信息计算出新的通用对抗扰动序列,计算方法有两种,第一种是将梯度
Figure FDA0003601311950000031
与嵌入向量空间
Figure FDA0003601311950000032
作矩阵乘法,选择值最小的词嵌入向量作为新的通用对抗扰动序列,计算如下:
Figure FDA0003601311950000033
其中eδ表示通用对抗扰动序列的独热编码向量;
Figure FDA0003601311950000034
表示损失函数对于通用对抗扰动序列的平均梯度;
Figure FDA0003601311950000035
表示嵌入向量空间;
第二种是在嵌入向量空间中沿梯度方向迈出一小步,得到一个向量
Figure FDA0003601311950000036
将其投影到嵌入向量空间中余弦距离最近的词嵌入向量,作为新的通用对抗扰动序列,计算如下:
Figure FDA0003601311950000037
其中超参数α表示计算的步长;
每次更新通用对抗扰动序列的时候,随机选择一种通用对抗攻击方法进行更新;通过累计多个批次的梯度来更新通用对抗扰动序列,不需要每个批次都更新。
8.根据权利要求7所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述模型收敛,包括:
模型收敛是指经过训练后的模型在验证集上经过多个迭代后,某个指标的变化幅度很小,则可以停止训练;指标包括模型的准确率、损失值或对于通用对抗攻击的鲁棒性;或模型收敛是指训练的次数达到设置的最大迭代次数。
9.根据权利要求8所述的一种基于对抗训练的文本通用对抗防御方法,其特征在于,所述模型的鲁棒性,具体包括:
评估模型的鲁棒性可以使用攻击成功率Attack Success Rate或者模型对于对抗样本的准确率下降的程度;攻击成功率是指在所有预测正确的样本中,有多少样本在添加了通用对抗扰动序列后,模型预测是错误的,其计算过程如下:
Figure FDA0003601311950000041
其中F表示基于深度神经网络的文本分类模型;X表示原始的干净样本;X'表示添加了通用对抗扰动序列的对抗样本;Y表示样本的原始分类标签。攻击成功率越小,意味着模型的鲁棒性越强,相反,攻击成功率越大,说明模型越容易受到对抗攻击。
10.一种基于对抗训练的文本通用对抗防御系统,其特征在于,包括:
获取模块:用于获取文本分类的数据集,将数据集分为训练集、验证集和测试集,并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列;文本分类模型是指常用于文本分类任务的深度神经网络模型;文本分类模型的参数包括嵌入层、隐藏层、输出层等各个网络层的参数;
插入模块:用于将初始化后的通用对抗扰动序列插入到一个批次的训练数据中,每条训练数据的插入位置是随机的,并将处理后的批次数据输入到文本分类模型中;
更新模块:用于利用损失函数计算当前批次的损失值,同时利用反向传播更新模型参数,接着计算通用对抗扰动序列在当前批次上的平均梯度,结合通用对抗攻击方法来更新通用对抗扰动序列;重复以上步骤直至训练的文本分类模型收敛;
训练模块:用于利用通用对抗攻击方法生成对抗样本,将对抗样本用于文本分类模型训练;在训练集和验证集上训练并优化模型参数,在测试集上观察模型的鲁棒性。
CN202210404650.7A 2022-04-18 2022-04-18 一种基于对抗训练的文本通用对抗防御方法及系统 Active CN115146055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210404650.7A CN115146055B (zh) 2022-04-18 2022-04-18 一种基于对抗训练的文本通用对抗防御方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210404650.7A CN115146055B (zh) 2022-04-18 2022-04-18 一种基于对抗训练的文本通用对抗防御方法及系统

Publications (2)

Publication Number Publication Date
CN115146055A true CN115146055A (zh) 2022-10-04
CN115146055B CN115146055B (zh) 2024-07-23

Family

ID=83405848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210404650.7A Active CN115146055B (zh) 2022-04-18 2022-04-18 一种基于对抗训练的文本通用对抗防御方法及系统

Country Status (1)

Country Link
CN (1) CN115146055B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596406A (zh) * 2023-07-11 2023-08-15 航天宏图信息技术股份有限公司 北斗导航对抗训练的智能评估方法、装置、设备和介质
WO2024078411A1 (zh) * 2022-10-11 2024-04-18 华为技术有限公司 一种数据处理方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273445A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种大数据分析中缺失数据混合多重插值的装置和方法
CN112381149A (zh) * 2020-11-17 2021-02-19 大连理工大学 一种基于深度学习用于源相机识别的合理对抗分析方法
CN112528675A (zh) * 2020-12-14 2021-03-19 成都易书桥科技有限公司 一种基于局部扰动的对抗样本防御算法
US20210182394A1 (en) * 2019-12-16 2021-06-17 Robert Bosch Gmbh System and Method for Detecting an Adversarial Attack
WO2021244035A1 (en) * 2020-06-03 2021-12-09 Huawei Technologies Co., Ltd. Methods and apparatuses for defense against adversarial attacks on federated learning systems
WO2021258914A1 (zh) * 2020-06-24 2021-12-30 深圳前海微众银行股份有限公司 一种序列标注模型的训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273445A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种大数据分析中缺失数据混合多重插值的装置和方法
US20210182394A1 (en) * 2019-12-16 2021-06-17 Robert Bosch Gmbh System and Method for Detecting an Adversarial Attack
WO2021244035A1 (en) * 2020-06-03 2021-12-09 Huawei Technologies Co., Ltd. Methods and apparatuses for defense against adversarial attacks on federated learning systems
WO2021258914A1 (zh) * 2020-06-24 2021-12-30 深圳前海微众银行股份有限公司 一种序列标注模型的训练方法及装置
CN112381149A (zh) * 2020-11-17 2021-02-19 大连理工大学 一种基于深度学习用于源相机识别的合理对抗分析方法
CN112528675A (zh) * 2020-12-14 2021-03-19 成都易书桥科技有限公司 一种基于局部扰动的对抗样本防御算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BEHJATI M等: "Universal adversarial attacks on text classifiers", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS》, 31 December 2019 (2019-12-31), pages 7345 - 7349 *
FENG S等: "Universal adversarial triggers for attacking and analyzing NLP", 《PROCEEDINGS OF THE 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING 》, 31 December 2019 (2019-12-31), pages 2153 - 2162 *
SHAFAHI .A等: "Adversarial training for free", 《 ANNUAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS 2019.》, 31 December 2019 (2019-12-31), pages 3353 - 336 *
郝志荣: "面向文本分类的通用对抗攻击与防御方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 13 June 2024 (2024-06-13), pages 1 - 62 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024078411A1 (zh) * 2022-10-11 2024-04-18 华为技术有限公司 一种数据处理方法及其装置
CN116596406A (zh) * 2023-07-11 2023-08-15 航天宏图信息技术股份有限公司 北斗导航对抗训练的智能评估方法、装置、设备和介质
CN116596406B (zh) * 2023-07-11 2023-10-03 航天宏图信息技术股份有限公司 北斗导航对抗训练的智能评估方法、装置、设备和介质

Also Published As

Publication number Publication date
CN115146055B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
Ruder et al. Character-level and multi-channel convolutional neural networks for large-scale authorship attribution
US11762990B2 (en) Unstructured text classification
CN110379418B (zh) 一种语音对抗样本生成方法
CN115146055B (zh) 一种基于对抗训练的文本通用对抗防御方法及系统
Damie et al. A highly accurate {Query-Recovery} attack against searchable encryption using {Non-Indexed} documents
CN111047054A (zh) 一种基于两阶段对抗知识迁移的对抗样例防御方法
Munir et al. Through the looking glass: Learning to attribute synthetic text generated by language models
CN113204974A (zh) 对抗文本的生成方法、装置、设备及存储介质
Matyasko et al. Improved network robustness with adversary critic
Kedia et al. Keep learning: Self-supervised meta-learning for learning from inference
Diwan et al. Fingerprinting fine-tuned language models in the wild
Yin et al. Adversarial attack, defense, and applications with deep learning frameworks
Chandran et al. Optimal deep belief network enabled malware detection and classification model
CN114169443B (zh) 词级文本对抗样本检测方法
Kim et al. Multi-Domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models.
CN116152884A (zh) 人脸图像的识别方法、装置、处理器及电子设备
George et al. Bangla fake news detection based on multichannel combined CNN-LSTM
Ali et al. Centered self-attention layers
Omar From Attack to Defense: Strengthening DNN Text Classification Against Adversarial Examples
Giannella et al. (Un/Semi-) supervised SMS text message SPAM detection
Guan et al. Enhancing the transferability of adversarial examples on vision transformers
Lee et al. A Sequential Approach to Network Intrusion Detection
Yu et al. Mitigating Forgetting in Online Continual Learning via Contrasting Semantically Distinct Augmentations
Khan et al. Synonym-based Attack to Confuse Machine Learning Classifiers Using Black-box Setting
Zheng Secure and Private Large Transformers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant