CN114091568B - 一种面向文本分类模型的字词双粒度对抗防御系统及方法 - Google Patents

一种面向文本分类模型的字词双粒度对抗防御系统及方法 Download PDF

Info

Publication number
CN114091568B
CN114091568B CN202111219436.6A CN202111219436A CN114091568B CN 114091568 B CN114091568 B CN 114091568B CN 202111219436 A CN202111219436 A CN 202111219436A CN 114091568 B CN114091568 B CN 114091568B
Authority
CN
China
Prior art keywords
word
model
defense
sample
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111219436.6A
Other languages
English (en)
Other versions
CN114091568A (zh
Inventor
关志涛
董伙元
董珈良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202111219436.6A priority Critical patent/CN114091568B/zh
Publication of CN114091568A publication Critical patent/CN114091568A/zh
Application granted granted Critical
Publication of CN114091568B publication Critical patent/CN114091568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向文本分类模型的字词双粒度对抗防御系统及方法,系统包括:SVM分类器训练与预处理模块,该模块用于构造一个二分类的SVM分类模型,并基于SVM分类模型对本系统的输入文本进行预处理;字符级防御模型模块,该模块实现对字符级攻击粒度的文本数据进行正确文本分类;词汇级防御模型模块,该模块实现对词汇级攻击粒度的文本数据进行正确文本分类;辅助信息模块,用于系统分类结果展示、性能评估和功能拓展。本发明能够有效地防御面向文本分类模型的多级组合对抗样本攻击,从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。

Description

一种面向文本分类模型的字词双粒度对抗防御系统及方法
技术领域
本发明涉及一种面向文本分类模型的字词双粒度对抗防御系统及方法,属于字词双粒度对抗防御技术领域。
背景技术
自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。对于一个给定的文本序列即原始样本x,它能够被文本分类模型F分类为其真实标签Y。但攻击者可以通过微小扰动Δx将x转换为x*=x+Δx,此时,原始样本x的真实标签仍然为Y,但是,模型会将其分类为Y*≠Y。
根据攻击粒度的不同,文本领域的对抗攻击大体可以分为字符级攻击、词汇级攻击和语句级攻击。字符级攻击是对单词中的字符进行扰动,包括插入、删除、替换样本中某些字符,进而使模型无法正确处理样本。词汇级攻击是针对样本中的单词进行扰动,常见的攻击思路是先计算样本中诸单词对分类结果的贡献度,再用其他单词替换贡献度较大的单词,进而达到使模型误分类的目的。语句级攻击是通过对原样本中的句子进行删除、增加内容影响较小的句子以及同义句改写等操作实现对原样本的攻击,由于扰动过大,一般不使用该攻击方法。
目前的对抗防御一般只局限于单一的对抗训练防御方法或者是基于对抗检测的方法。因此,需要一种鲁棒的面向文本分类模字词双粒度的综合对抗防御系统。
发明内容
基于现有技术的不足,本发明所要解决的技术问题在于设计和实现一个面向文本分类模型的字词双粒度对抗防御方法和系统。
为解决上述技术问题,本发明所采用的技术方案如下:
一种面向文本分类模型的字词双粒度对抗防御系统,包括:
SVM分类器训练与预处理模块,该模块用于构造一个二分类的SVM分类模型,并基于SVM分类模型对本系统的输入文本进行预处理;
字符级防御模型模块,该模块实现对字符级攻击粒度的文本数据进行正确文本分类;
词汇级防御模型模块,该模块实现对词汇级攻击粒度的文本数据进行正确文本分类;
辅助信息模块,该辅助模块包括了分类正确率可视化、模型分类正确率对比、数据集信息展示、模型信息展示和导出预测结果等组成部分,用于系统分类结果展示、性能评估和功能拓展。
上述SVM分类器训练与预处理模块包括SVM分类模型大量原始语料的训练和基于该模型对系统输入数据的预处理;其中,预处理包括通过错次数、样本长度等指标对抗样本攻击粒度分类。
防御算法的执行由字符级防御模型和单词级防御模型并行组成。字符级防御过程实际是对字符级对抗样本进行鲁棒编码与聚类的过程。
上述字符级防御模型模块包含对字符级对抗样本进行鲁棒编码和聚类分析。
上述鲁棒编码和聚类分析的具体过程为:
字符级防御模型通过聚类方法对原始样本中的单词进行映射,所有的拼写错误会与原单词划分到同一簇中;因此,有如下定义:是V维向量空间R|V|中根据单词wi生成的一个向量,/>作为单词的词嵌入。定义编码的令牌/>与聚类Cj中的单词有如下关系:
其中,p(wi)为编码的频率;设C(i)为单词wi的聚类索引,定义保真度目标Fid为:
当高频词和罕见词在同一簇中时,Fid为高;当多个高频词在同一簇中时,Fid为低。
对稳定性而言,稳定性度量单词的拼写映射到不同编码标记的程度;因此,定义一组可以映射出拼写错误的单词wi的标记Bπ(wi):
其中,B(wi)是wi允许的打字错误集;表示B(wi)中除wi外的单词;/>表示可以映射出拼写错误的单词wi的单词集合;使用编码频率p(wi)在聚类C上定义标准化频率Stab,聚类C的标准化频率如下:
引入一个超参数γ∈[0,1]来平衡泛化性和稳定性,近似最小化Stab和Fid的加权组合:
ψ(C)=γFid(C)+(1-γ)Stab(C)。
上述词汇级防御模型模块通过PWWS方法生成对抗样本,进行对抗训练,最终得到鲁棒的对抗防御模型。
上述对抗训练过程中的训练样本由原始样本和基于PWWS方法生成的对抗样本按1∶1比例生成。
一种面向文本分类模型的字词双粒度对抗防御方法,包括如下步骤:
1)首先通过大量原始样本和对抗样本训练,得到基于SVM的机器学习SVM分类模型;训练得到的SVM分类模型对输入的文本数据进行预处理,通过错词数、样本长度等进行对抗样本攻击粒度分类,并分为字符级对抗样本和词汇级对抗样本两类;
2)对于字符级对抗样本,引入Robust Encodings防御方法,对不同数据做相同的映射,设计字符级防御模型;
3)对于词汇级对抗样本,在PWWS攻击方法的基础上设计词汇级防御模型;
4)将字符级防御模型和词汇级防御模型集成封装成一个独立可调用的综合对抗防御系统,并添加了模型信息展示、数据集信息展示和效果评估等辅助功能板块。
上述步骤1)中,若分类标签为字符粒度的对抗样本,则跳转至系统的字符粒度对抗防御模块;否则,则跳转至系统的词汇粒度对抗防御模块。
本发明能够有效地防御面向文本分类模型的多级组合对抗样本攻击,从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。
上述步骤2)中,使用凝聚聚类编码,将鲁棒性公式与泛化性公式结合起来作为优化依据,综合考虑鲁棒性与泛化性,定义编码的令牌与聚类Cj中的单词有如下关系:
其中,p(wi)为单词wi被编码的频率;设C(i)为单词wi的聚类索引,定义保真度目标Fid为:
当高频词和罕见词在同一簇中时,Fid为高;当多个高频词在同一簇中时,Fid为低。
对稳定性而言,稳定性度量单词的拼写映射到不同编码标记的程度;因此,定义一组可以映射出拼写错误的单词wi的标记Bπ(wi):
其中,B(wi)是wi允许的打字错误集;表示B(wi)中除wi外的单词;/>表示可以映射出拼写错误的单词wi的单词集合;使用编码频率p(wi)在聚类C上定义标准化频率Stab,聚类C的标准化频率如下:
引入一个超参数γ∈[0,1]来平衡泛化性和稳定性,近似最小化Stab和Fid的加权组合:
ψ(C)=γFid(C)+(1-γ)Stab(C)。
上述步骤3)中,通过单词级防御算法设计词汇级防御模型,单词级防御算法是通过使用经过对抗训练的模型来进行防御,对抗训练所需的对抗样本通过基于同义词替换的方法生成,过程如下:
选择替代词的方法R(wi,Li)如下:
其中,x是原始样本,对于x中的每一个单词wi,用Li记录所有可用的替换词。ytrue表示正确的分类标签,P表示条件概率。x′i是将wi替换为候选词w′i后的样本,得到替换词后,形成替换池;
对所有单词wi计算单词显著性S(x,wi),以获得文本的单词显著性矢量S(x);
S(x,wi)=P(ytrue|x)-P(ytrue|x*)
综合考虑替换后分类概率的变化程度以及每个单词的单词显著性,通过测评函数H(x,x*,wi)对每个单词进行降序排列。x*表示由x得到的对抗样本。
H(x,x*,wi)=φ(S(x))i·ΔPi *
其中ΔPi *表示概率变化,φ(z)i为softmax(归一化指数)函数,定义如下:
公式中的z是一个矢量。zi和φ(z)i分别代表矢量z和φ(z)的ith分量。
生成最终的对抗样本,与原始样本按1∶1比例混合,对单词级对抗防御模型进行对抗训练。
本发明未提及的技术均参照现有技术。
本发明面向文本分类模型的字词双粒度对抗防御系统及方法,实验结果表明,能够有效地防御面向文本分类模型的多级组合对抗样本攻击,从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。
附图说明
图1是本发明面向文本分类模型的字词双粒度对抗防御系统的整体框架。
图2是本发明面向文本分类模型的字词双粒度对抗防御系统在各测试集上的平均效果展示图。
图3是本发明面向文本分类模型的字词双粒度对抗系统的消融实验结果图。
具体实施方式
为了更好地理解本发明,下面结合实施例进一步阐明本发明的内容,但本发明的内容不仅仅局限于下面的实施例。
一种面向文本分类模型的字词双粒度对抗防御系统,包括:
SVM分类器训练与预处理模块,该模块用于构造一个二分类的SVM分类模型,并基于SVM分类模型对本系统的输入文本进行预处理;SVM分类器训练与预处理模块包括SVM分类模型大量原始语料的训练和基于该模型对系统输入数据的预处理;其中,预处理包括通过错次数、样本长度等指标对抗样本攻击粒度分类;
字符级防御模型模块,该模块实现对字符级攻击粒度的文本数据进行正确文本分类;
词汇级防御模型模块,该模块实现对词汇级攻击粒度的文本数据进行正确文本分类;
辅助信息模块,该辅助模块包括了分类正确率可视化、模型分类正确率对比、数据集信息展示、模型信息展示和导出预测结果等组成部分,用于系统分类结果展示、性能评估和功能拓展。
面向文本分类模型的字词双粒度对抗防御方法,包括如下步骤:
步骤1.SVM分类器的训练与使用:
步骤1.1:为了使系统能够正确分类对抗样本攻击的粒度,设计一个基于SVM的分类器;可以使用大量的原始语料库和相应的对抗样本对其进行训练,得到泛化能力足够强的SVM分类器。
步骤1.2:SVM分类器通过错词数、样本长度等指标将输入样本进行攻击粒度的分类,若分类标签为字符粒度的对抗样本,则跳转至系统的字符粒度对抗防御模块;否则,则跳转至系统的词汇粒度对抗防御模块。
步骤2.进行字符级对抗防御:
步骤2.1:使用凝聚聚类编码,将鲁棒性公式与泛化性公式结合起来作为优化依据,综合考虑鲁棒性与泛化性。定义编码的令牌与聚类Cj中的单词有如下关系:
其中,p(wi)为单词wi被编码的频率。设C(i)为单词wi的聚类索引。定义保真度目标Fid为:
步骤2.2:定义一组可以映射出拼写错误的单词wi的标记Bπ(wi)
其中,B(wi)是wi允许的打字错误集;表示B(wi)中除wi外的单词;/>表示可以映射出拼写错误的单词wi的单词集合;使用编码频率p(wi)在聚类C上定义标准化频率Stab,聚类C的标准化频率如下:
步骤2.3:引入一个超参数γ∈[0,1]来平衡泛化性和稳定性,近似最小化Stab和Fid的加权组合:
ψ(C)=γFid(C)+(1-γ)Stab(C)
步骤2.4:当γ接近0时,我们从基线获得连接的组件集群,这将使稳定性最大化。用聚类方法逼近ψ的最优值;从每个单词在其自己的集群中开始,然后迭代地组合这对集群,其结果组合使ψ增加最多。重复这一操作,直到组合任何一对集群将使ψ减少。
步骤2.5:在完成上述过程之后,便得到了凝聚聚类,这样,在后续使用模型之前,在编码阶段,通过聚类对原始样本进行映射,在这个过程中,所有的拼写错误会与原单词划分到同一个簇中,从模型角度来看,拼写错误的单词与正确的单词并没有什么区别,也就是说,拼写错误或者说字符级攻击并不会对模型产生错误的影响。从而实现了对字符级攻击的防御。
步骤3.进行单词级对抗防御
单词级防御算法是通过使用经过对抗训练的模型来进行防御。对抗训练所需的对抗样本通过基于同义词替换的方法生成。
选择替代词的方法R(wi,Li)如下:
其中,x是原始样本,对于x中的每一个单词wi,用Li记录所有可用的替换词。ytrue表示正确的分类标签,P表示条件概率。x′i是将wi替换为候选词w′i后的样本,得到替换词后,形成替换池;
对所有单词wi计算单词显著性S(x,wi),以获得文本的单词显著性矢量S(x)。
综合考虑替换后分类概率的变化程度以及每个单词的单词显著性,通过测评函数H(x,x*,wi)对每个单词进行降序排列。x*表示由x得到的对抗样本。
H(x,x*,wi)=φ(S(x))i·ΔPi *
其中ΔPi *表示概率变化,φ(z)i为softmax(归一化指数)函数,定义如下:
公式中的z是一个矢量。zi和φ(z)i分别代表矢量z和φ(z)的ith分量。
生成最终的对抗样本,与原始样本按1∶1比例混合,将其作为新的训练数据,对单词级对抗防御模型进行对抗训练,得到鲁棒的文本分类器,对抗训练的方式如下:
首先根据原始样本x,其属于一个输入样本空间X,其包含所有可能的输入文本矢量xi,同时给定一个输出空间Y,其包含xi的所有可能输出的分类标签yi。分类器F需要学习从文本X到分类标签Y的正确映射f:X→Y,其可以基于最大概率将原始样本x正确分类为标签ytrue。然后对x添加难以察觉的扰动Δx来制作对抗性样本x*
x*=x+Δx,||Δx||p<ε
原始样本可以表示为x=w1w2...wi...wn∈D,其中,其中wi代表一个单词,而D代表词典。
步骤5:消融实验测试
为测试系统各防御模型单独的防御效果以及字词双粒度综合防御系统的整体防御效果,选择数据集SST-2并生成8个测试数据集,依次对各防御模型进行消融实验测试,每个测试集均分别测试字符级防御模型单独防御、词汇级防御模型单独防御、两级综合防御模型以及原始分类模型的分类准确度。消融实验结果如图3所示,横轴表示数据集SST-2形成的8个测试数据集(每个测试数据集中从左到右的顺序均依次为防御模型、原始模型、词汇级模型和字符级模型),纵轴表示4种模型的文本分类准确度。
表1消融实验8个测试数据集说明
步骤6:系统的封装
将两级对抗防御模型和SVM分类器进行系统的封装,并添加数据集信息展示、模型信息展示和效果评估等辅助功能板块,从而实现了一个面向文本分类模型的字词双粒度对抗防御系统,用户可选择查看训练得到的防御模型信息和训练及测试数据集等信息,系统将分类结果与普通分类模型结果进行对比,可视化地给出对比图,用户还可以从系统直接导出本系统分类结果信息等。面向文本分类模型的字词双粒度对抗防御系统的整体框架如图1所示,系统提供模型训练,文本分类和效果评估功能,以及部分辅助功能,各模块实现不同的功能,但又相辅相成,共同组成防御系统,其中训练板块指根据选择的数据集对BERT预训练模型进行调整,效果评估板块对防御模型的安全性与鲁棒性进行评估,开始效果评估后,会读取前一次文本分类时选择的数据集,并加载没有防御手段的模型进行分类,统计前一次文本分类和本次的结果,得到两种模型的分类准确率,并用柱状图表示。面向文本分类模型的字词双粒度对抗防御系统的防御效果展示如图2所示,图2表明本发明中的防御系统做出的分类正确率明显优于防御前的模型。

Claims (6)

1.一种面向文本分类模型的字词双粒度对抗防御系统,其特征在于,包括:
SVM分类器训练与预处理模块,该模块用于构造一个二分类的SVM分类模型,并基于SVM分类模型对本系统的输入文本进行预处理;
字符级防御模型模块,该模块实现对字符级攻击粒度的文本数据进行正确文本分类;
词汇级防御模型模块,该模块实现对词汇级攻击粒度的文本数据进行正确文本分类;
辅助信息模块,该辅助模块包括了分类正确率可视化、模型分类正确率对比、数据集信息展示、模型信息展示和导出预测结果组成部分,用于系统分类结果展示、性能评估和功能拓展;
词汇级防御模型模块通过PWWS方法生成对抗样本,进行对抗训练,最终得到鲁棒的对抗防御模型;
对抗训练过程中的训练样本由原始样本和基于PWWS方法生成的对抗样本按1:1比例生成;
面向文本分类模型的字词双粒度对抗防御方法,包括如下步骤:
1)首先通过大量原始样本和对抗样本训练,得到基于SVM的机器学习SVM分类模型;训练得到的SVM分类模型对输入的文本数据进行预处理,通过错词数和样本长度进行对抗样本攻击粒度分类,并分为字符级对抗样本和词汇级对抗样本两类;
2)对于字符级对抗样本,引入Robust Encodings防御方法,对不同数据做相同的映射,设计字符级防御模型;
3)对于词汇级对抗样本,在PWWS攻击方法的基础上通过单词级防御算法设计词汇级防御模型;
4)将字符级防御模型和词汇级防御模型集成封装成一个独立可调用的综合对抗防御系统,并添加了模型信息展示、数据集信息展示和效果评估辅助功能板块。
2.根据权利要求1所述的面向文本分类模型的字词双粒度对抗防御系统,其特征在于,SVM分类器训练与预处理模块包括SVM分类模型原始语料的训练和基于该模型对系统输入数据的预处理;其中,预处理包括通过错词数和样本长度指标完成对抗样本攻击粒度分类。
3.根据权利要求1或2所述的面向文本分类模型的字词双粒度对抗防御系统,其特征在于,字符级防御模型模块包含对字符级对抗样本进行鲁棒编码和聚类分析。
4.根据权利要求3所述的面向文本分类模型的字词双粒度对抗防御系统,其特征在于,鲁棒编码和聚类分析的具体过程为:
字符级防御模型通过聚类方法对原始样本单词进行映射,所有的拼写错误会与原单词划分到同一簇中;因此,有如下定义:是V维向量空间R|V|中根据单词wi生成的一个向量,/>作为单词的词嵌入,定义编码的令牌/>与聚类Cj中的单词有如下关系:
其中,p(wi)为单词wi被编码的频率,表示单词聚类到j簇后的编码表示;设C(i)为单词wi的聚类索引,N表示样本中单词的数量,定义保真度目标Fid为:
当高频词和罕见词在同一簇中时,Fid为高;当多个高频词在同一簇中时,Fid为低;
对稳定性而言,稳定性度量单词的拼写映射到不同编码标记的程度;因此,定义一组可以映射出拼写错误的单词wi的标记Bπ(wi):
其中,B(wi)是wi允许的打字错误集;表示B(wi)中除wi外的单词;/>表示可以映射出拼写错误的单词wi的单词集合;使用编码频率p(wi)在聚类C上定义标准化频率Stab,聚类C的标准化频率如下:
引入一个超参数γ∈[0,1]来平衡泛化性和稳定性,近似最小化Stab和Fid的加权组合:
ψ(C)=γFid(C)+(1-γ)Stab(C)。
5.根据权利要求1或2所述的面向文本分类模型的字词双粒度对抗防御系统,其特征在于,步骤1)中,若分类标签为字符粒度的对抗样本,则跳转至系统的字符粒度对抗防御模块;否则,则跳转至系统的词汇粒度对抗防御模块。
6.根据权利要求1或2所述的面向文本分类模型的字词双粒度对抗防御系统,其特征在于,步骤3)中,单词级防御算法是通过使用经过对抗训练的模型来进行防御,对抗训练所需的对抗样本通过基于同义词替换的方法生成:
选择替代词的方法R(wi,Li)如下:
其中,x是原始样本,对于原始样本x中的每一个单词wi,用Li记录所有可用的替换词,ytrue表示正确的分类标签,P表示条件概率,x′i是将wi替换为候选词w′i后的样本,所有单词得到替换词后,替换池建立完毕;
在得到替换池后,对所有单词wi计算单词显著性S(x,wi),用表示将样本中单词wi删除后的样本,以获得样本的单词显著性矢量S(x);
综合考虑替换后分类概率的变化程度以及每个单词的单词显著性,通过测评函数H(x,x*,wi)对每个单词进行降序排列,x*表示由x得到的对抗样本:
H(x,x*,wi)=φ(S(x))i·ΔPi *
其中ΔPi *表示模型输出概率的变化量,φ(z)i为softmax(归一化指数)函数,定义如下:
公式中的z是一个矢量,zi和φ(z)i分别代表矢量z和φ(z)的ith分量,K表示归一化的总项数;基于x中的每个单词wi的测评结果H(x,x*,wi)对单词进行降序排序,按照此顺序对每个wi选择并进行替换,即得到对抗样本,最后,将生成的对抗样本与原始样本按1:1比例混合,对单词级对抗防御模型进行对抗训练。
CN202111219436.6A 2021-10-20 2021-10-20 一种面向文本分类模型的字词双粒度对抗防御系统及方法 Active CN114091568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111219436.6A CN114091568B (zh) 2021-10-20 2021-10-20 一种面向文本分类模型的字词双粒度对抗防御系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111219436.6A CN114091568B (zh) 2021-10-20 2021-10-20 一种面向文本分类模型的字词双粒度对抗防御系统及方法

Publications (2)

Publication Number Publication Date
CN114091568A CN114091568A (zh) 2022-02-25
CN114091568B true CN114091568B (zh) 2023-10-03

Family

ID=80297261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111219436.6A Active CN114091568B (zh) 2021-10-20 2021-10-20 一种面向文本分类模型的字词双粒度对抗防御系统及方法

Country Status (1)

Country Link
CN (1) CN114091568B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329070B (zh) * 2022-06-29 2023-03-24 北京数美时代科技有限公司 基于关键词的分类模型文本对抗方法、系统和电子设备
CN116051924B (zh) * 2023-01-03 2023-09-12 中南大学 一种图像对抗样本的分治防御方法
CN115994352B (zh) * 2023-03-22 2023-06-02 暨南大学 防御文本分类模型后门攻击的方法、设备及介质
CN117874222B (zh) * 2024-03-13 2024-05-17 中国石油大学(华东) 基于语义一致性的抽象摘要文本防御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法
CN112214597A (zh) * 2020-09-22 2021-01-12 合肥工业大学 基于多粒度建模的半监督文本分类方法和系统
CN113190602A (zh) * 2021-04-09 2021-07-30 桂林电子科技大学 融合字词特征与深度学习的事件联合抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187408A (zh) * 2015-08-17 2015-12-23 北京神州绿盟信息安全科技股份有限公司 网络攻击检测方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法
CN112214597A (zh) * 2020-09-22 2021-01-12 合肥工业大学 基于多粒度建模的半监督文本分类方法和系统
CN113190602A (zh) * 2021-04-09 2021-07-30 桂林电子科技大学 融合字词特征与深度学习的事件联合抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency;Shuhuai Ren等;Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics;第1085-1097页 *
Robust Encodings: A Framework for Combating Adversarial Typos;Erik Jones等;https://arxiv.org/pdf/2005.01229.pdf;第1-14页 *
文本对抗样本攻击与防御技术综述;杜小虎等;中文信息学报;第35卷(第8期);第1-15 *

Also Published As

Publication number Publication date
CN114091568A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN114091568B (zh) 一种面向文本分类模型的字词双粒度对抗防御系统及方法
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN107229610A (zh) 一种情感数据的分析方法及装置
CN113535953B (zh) 一种基于元学习的少样本分类方法
CN114036950B (zh) 一种医疗文本命名实体识别方法及系统
Mandal et al. Language identification of bengali-english code-mixed data using character & phonetic based lstm models
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN113282713A (zh) 基于差异性神经表示模型的事件触发词检测方法
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN116205211A (zh) 基于大规模预训练生成模型的文档级简历解析方法
CN116127953A (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
Namysl et al. NAT: Noise-aware training for robust neural sequence labeling
CN112214994B (zh) 基于多级词典的分词方法、装置、设备及可读存储介质
Wu et al. Image captioning with an intermediate attributes layer
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
Das et al. Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models
CN115204142A (zh) 开放关系抽取方法、设备及存储介质
Bahrami et al. Bert-sort: A zero-shot mlm semantic encoder on ordinal features for automl
CN111680513B (zh) 特征信息的识别方法、装置及计算机可读存储介质
CN114943229B (zh) 一种基于多级别特征融合的软件缺陷命名实体识别方法
CN116720123B (zh) 一种账户识别方法、装置、终端设备及介质
CN113434671B (zh) 数据处理方法、装置、计算机设备及存储介质
US11816182B2 (en) Character encoding and decoding for optical character recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant