CN114004283A - 文本对抗攻击方法、装置、设备和存储介质 - Google Patents
文本对抗攻击方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114004283A CN114004283A CN202111189287.3A CN202111189287A CN114004283A CN 114004283 A CN114004283 A CN 114004283A CN 202111189287 A CN202111189287 A CN 202111189287A CN 114004283 A CN114004283 A CN 114004283A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- texts
- rephrase
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013508 migration Methods 0.000 claims abstract description 36
- 230000005012 migration Effects 0.000 claims abstract description 36
- 230000008859 change Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 19
- 238000013145 classification model Methods 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 description 21
- 230000008451 emotion Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本对抗攻击方法、装置、设备和存储介质,包括:将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;根据所述第一改述文本获取文本对抗攻击的对抗样本。本发明的技术方案可以简单快速地得到对抗样本。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本对抗攻击方法、装置、电子设备和非暂态计算机可读存储介质。
背景技术
对抗攻击是机器学习模型,尤其是深度学习模型面临的最主要的安全威胁之一。对抗攻击指的是在模型的推断阶段,如果对输入进行轻微扰动,模型会有截然不同的输出。例如,在不改变原意的基础上对一句辱骂文本中的若干字词略加修改,就能使其逃过有害文本过滤系统的过滤。
对抗攻击与深度学习模型的鲁棒性和可解释性息息相关,更涉及到深度学习模型在大规模实际应用中的安全性。
文本对抗攻击指的是针对自然语言处理模型的对抗攻击。随着垃圾邮件过滤、欺诈检测等基于深度学习的自然语言处理应用的普及,自然语言处理模型也面临上述攻击的威胁。通过获取对抗攻击的对抗样本,并使用该对抗样本训练自然语言处理模型,可以提高自然语言处理模型的鲁棒性和安全性,管控自然语言处理模型投入实际应用的风险,同时也能提高对自然语言处理模型的深入理解。
相关技术中,获取对抗样本的过程较为繁琐。
发明内容
本发明提供一种文本对抗攻击方法、装置、电子设备和非暂态计算机可读存储介质,用以解决当前技术中获取对抗样本较为繁琐的问题,简单快速地得到对抗样本。
本发明提供一种文本对抗攻击方法,包括:将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;根据所述第一改述文本获取文本对抗攻击的对抗样本。
根据本发明提供的一种文本对抗攻击方法,所述根据所述第一改述文本获取文本对抗攻击的对抗样本,包括:根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数;选取对抗样本分数最高的第一改述文本作为所述对抗样本。
根据本发明提供的一种文本对抗攻击方法,所述目标受害模型为分类模型,所述根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,包括:在改述文本对应的模型输出结果表征的类别与所述原始文本的类别不一致时,确定对抗攻击成功。
根据本发明提供的一种文本对抗攻击方法,所述根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数,包括:根据以下公式获取对抗样本分数S:
S=p×Sim(a,o)-q×PPL(a)
其中,a表示第一改述文本,o表示原始文本,Sim(a,o)表示第一改述文本与原始文本的相似度,PPL(a)表示第一改述文本的基于所述目标受害模型的文本困惑度,p和q为超参数。
根据本发明提供的一种文本对抗攻击方法,所述目标受害模型的训练方法包括:获取第一训练集,所述第一训练集包括文本训练数据和对应的分类数据;采用所述文本训练数据以所述分类数据为训练标签对初始受害模型进行训练,直到所述初始受害模型收敛,得到所述目标受害模型。
根据本发明提供的一种文本对抗攻击方法,所述文本风格迁移模型包括编码器和多个解码器,所述将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,包括:将所述原始文本输入至所述编码器,获得所述编码器输出的与所述原始文本对应的编码向量;将所述编码向量输入所述多个解码器处理获得所述多个改述文本。
根据本发明提供的一种文本对抗攻击方法,所述目标受害模型包括自动问答模型或机器翻译模型。
本发明提供一种文本对抗攻击装置,包括:风格迁移单元,用于将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;输入单元,用于将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;判断单元,用于根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;获取单元,用于根据所述第一改述文本获取文本对抗攻击的对抗样本。
在本发明一种实施例中,所述获取单元包括:第一获取子单元,用于根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数;选取子单元,用于选取对抗样本分数最高的第一改述文本作为所述对抗样本。
在本发明一种实施例中,所述目标受害模型为分类模型,所述判断单元还用于:在改述文本对应的模型输出结果表征的类别与所述原始文本的类别不一致时,确定对抗攻击成功。
在本发明一种实施例中,所述获取单元还用于:根据以下公式获取对抗样本分数S:
S=p×Sim(a,o)-q×PPL(a)
其中,a表示第一改述文本,o表示原始文本,Sim(a,o)表示第一改述文本与原始文本的相似度,PPL(a)表示第一改述文本的基于所述目标受害模型的文本困惑度,p和q为超参数。
在本发明一种实施例中,所述装置还包括训练单元,用于对所述目标受害模型进行训练,所述训练单元还包括:第一获取子单元,用于获取第一训练集,所述第一训练集包括文本训练数据和对应的分类数据;训练子单元,用于采用所述文本训练数据以所述分类数据为训练标签对初始受害模型进行训练,直到所述初始受害模型收敛,得到所述目标受害模型。
在本发明一种实施例中,所述文本风格迁移模型包括编码器和多个解码器,所述输入单元包括:第一输入子单元,用于将所述原始文本输入至所述编码器,获得所述编码器输出的与所述原始文本对应的编码向量;第二输入子单元,用于将所述编码向量输入所述多个解码器处理获得所述多个改述文本。
在本发明一种实施例中,所述目标受害模型包括自动问答模型或机器翻译模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本对抗攻击方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本对抗攻击方法的步骤。
本发明提供的文本对抗攻击方法、装置、电子设备和非暂态计算机可读存储介质,通过使用文本风格迁移模型将原始文本改写为不同风格的多个改述文本,并使用多个改述文本攻击目标受害模型,根据攻击结果在多个改述文本中选取对抗样本,可以简单快速地得到对抗样本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本对抗攻击方法的流程示意图;
图2是本发明提供的训练目标受害模型的流程示意图;
图3是本发明提供的获取改述文本的流程示意图;
图4是本发明提供的文本对抗攻击装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。
下面结合附图对本发明示例实施方式进行详细说明。
如图1所示的是本发明实施例的文本对抗攻击方法的流程图。本发明实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该文本对抗攻击方法包括:
步骤102,将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,多个改述文本与原始文本的语义和分类标签相同。
具体地,文本风格迁移模型可以为训练好的神经网络模型,其输出文本为输入文本的改述。输出文本和输入文本具有相同的语义和相同的分类标签。
步骤104,将多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果。
具体地,目标受害模型指的是作为攻击目标的训练好的自然语言处理模型。每一个改述文本输入到目标受害模型后,均可以得到一个模型输出结果。
自然语言处理模型是用于进行自然语言处理的模型,其可以为文本分类模型、文本摘要模型、文本理解模型、智能对话模型、文本翻译模型和文本生成模型,且并不局限于此。
步骤106,根据多个模型输出结果和原始文本判断多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本。
具体地,改述文本对应的模型输出结果与将原始文本输入目标受害模型得到的输出结果不一致时,对抗攻击成功。模型输出结果的类型与自然语言处理模型的类型有关。例如,自然语言处理模型为分类模型时,模型输出结果为改述文本的分类数据。根据改述文本的分类数据和原始文本的分类数据是否一致即可以看出对抗攻击是否成功。若改述文本的分类数据和原始文本的分类数据不一致,则对抗攻击成功。
步骤108,根据第一改述文本获取文本对抗攻击的对抗样本。
具体地,可以以对抗攻击成功的文本为第一改述文本,以对抗攻击不成功的文本为第二改述文本。对第一改述文本进行评估,即可以选取符合要求的对抗样本。
在发明实施例的技术方案中,基于文本风格迁移技术来获取对抗样本,通过文本风格迁移、对抗攻击尝试、对抗样本选取等步骤实现对抗样本的获取,实现简便、速度更快且效果较好,有助于发现目标受害模型的弱点,进而提高模型的鲁棒性和安全性。
文本分类模型应用在很多细分领域,比如情感倾向分析、情绪类别判断、文章类型分类、评论区留言分类判断等学术思想及原理分析。
文本摘要模型可以对输入的一篇文章的内容含义进行理解,并根据文章整体内容提炼出关键的信息作为这篇文章的摘要信息。常用的文本摘要模型可以为基于RNN(Recurrent Neural Network,循环神经网络)的复合变种模型SEQ2SEQ。
文本理解模型即为具有阅读理解功能的深度学习模型,其包括BIDAF(双向注意流)、R-Net(机器阅读理解)、QANet(问答网络)以及目前在语言模型中较流行的transformer(转换器)、Bert(Bidirectional Encoder Representation fromTransformer,基于变换器的双向编码器表示)、GPT(Generative Pre-Training,生成式的预训练)系列等。
智能对话模型可以为以RNN为基础的SEQ2SEQ模型,其原理是通过对提问者发送的语言词向量进行学习,输出对应的答案为标签,通过大量语料库的学习,让模型具备一定的对话能力。目前的对话模型基本都能够回答某特定领域的问题,比如行业客服机器人、生活聊天机器人等。
文本翻译模型在原理上和对话模型一样,只不过对话模型要提取的特征是一句话的逻辑语义信息,用来预测后面语句的输出概率。翻译模型是在提取一句话的语义信息后,对应的不是后面的语句,对应的另一种表达形式,也就是新的一种语言的表达形式。其应用较为广泛的模型为带有注意力机制的编解码模型SEQ2SEQ。
文本生成模型通过学习大量的某类型的语料数据生成设定类别的文章,目前流行的文本生成类模型还是以transformer、Bert、GPT以及它们的一些变种模型为主。
在本发明实施例中,文本风格迁移模型可以包括编码器和多个解码器,在步骤102中,将原始文本输入至编码器,可以获得编码器输出的与原始文本对应的编码向量,将编码向量输入多个解码器处理获得多个改述文本。
本发明实施例中的文本风格迁移模型为多风格文本风格迁移模型,在受害模型的推断阶段,需要将一条测试数据送入预先训练好的多风格文本风格迁移模型。针对原始文本这一条测试数据,即可以生成若干具有不同风格的改述文本。在后续的步骤104至步骤108中,根据这些具有不同风格的改述文本,得到一个对抗样本。根据若干条测试数据,即可以得到对应数量的对抗样本。使用这些对抗样本训练自然语言处理模型,可以提高自然语言处理模型的鲁棒性和安全性。
文本风格迁移模型的训练过程中,可以使用文本训练数据输入至编码器,得到编码向量,再将编码向量输入到某个解码器,得到解码器处理得到的改述文本,将该改述文本和训练文本对应的一个风格迁移文本计算损失值。根据损失值调整与该编码器对应的文本风格迁移模型的模型参数,可以得到训练好的文本风格迁移模型。
在本发明实施例中,目标受害模型可以为分类模型、自动问答模型或机器翻译模型,且并不局限于此。其中,分类模型可以为情感分类模型或者新闻分类模型,且并不局限于此。
在步骤104之前,需要训练目标受害模型。如图2所示,该目标受害模型的训练过程可以包括以下步骤包括:
步骤202,获取第一训练集,第一训练集包括文本训练数据和对应的分类数据。
步骤204,采用文本训练数据以分类数据为训练标签对初始受害模型进行训练,直到初始受害模型收敛,得到目标受害模型。
具体地,首先对大量的文本数据的分类数据进行标注,形成第一训练集,再根据第一训练集对初始受害模型进行训练。在根据第一训练集对初始受害模型进行训练的过程中,根据分类数据和初始受害模型输出的分类结果获取初始受害模型输出的正例概率。根据正例概率调整初始受害模型的模型参数,可以得到训练好的目标受害模型。
在步骤104中,将步骤102得到的具有不同风格的改述文本依次输入目标受害模型,得到目标受害模型的输出结果,并根据该输出结果判断能否成功攻击,即进行对抗攻击尝试。具体地,在改述文本对应的模型输出结果与原始文本对应的模型输出结果不一致时,确定对抗攻击成功。即如果某一个改述文本对应的模型输出与原始文本的模型输出不同,则说明攻击成功,可以以该改述文本为一个对抗样本。
以下以目标受害模型为分类模型为例,在步骤106中,在改述文本对应的模型输出结果表征的类别与原始文本的类别不一致时,确定对抗攻击成功。若改述文本对应的模型输出结果表征的类别与原始文本的类别一致,确定对抗攻击不成功。
具体地,原始文本的类别可以经过标注获得,也可以通过将原始文本输入到目标受害模型,根据目标受害模型的输出获得。
在步骤106中,可能所有的改述文本都攻击失败,则无法选取对抗样本。若只有一个改述文本攻击成功,则选取该改述文本为对抗样本。
在步骤108中,在选取对抗样本时,根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数;选取对抗样本分数最高的第一改述文本作为对抗样本。
具体地,若只有一个第一改述文本,则以该第一改述文本为对抗样本,若有多个第一改述文本,则选取对抗样本分数最高的对抗样本作为最终的对抗样本。其中,对抗样本分数可以根据句子相似度、句子困惑度参数获得。
在本发明实施例中,可以根据以下公式获取对抗样本分数S:
S=p×Sim(a,o)-q×PPL(a)
其中,a表示第一改述文本,o表示原始文本,Sim(a,o)表示第一改述文本与原始文本的相似度,PPL(a)表示第一改述文本的基于目标受害模型的文本困惑度,p和q为超参数。
具体地,Sim(a,o)是一种句子相似度,用于描述两个文本间的相似程度,其计算方式有多种。
在一种计算方法中,可以先根据句子生成文本词频向量,再用每个词的词频向量相加后求平均即可以得到句子的句向量,两个句向量之间的余弦夹角即可以代表这两个句子间的文本相似度。
在另一种计算方法中,可以将两个文本的任意两个词所对应的词向量求欧氏距离然后再加权求和,得到词移距离,该词移距离即可以代表这两个文本间的相似度。在该方案中,可以将词映射为一个词向量空间,在这个词向量空间中,语义相似的词之间距离会比较小。
PPL是用在自然语言处理领域中衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率。PPL越小,出现某个词的概率则越大,期望的句子出现的概率就越高。
p和q是超参数,其根据经验设置,并可以在验证集上进行调整。
如图3所示,在本发明一种实施例中,将原始文本310输入到风格迁移模型320中后,得到不同风格的改述文本,即第一风格文本331,第二风格文本332,……,第N风格文本333。将这些不同风格的改述文本输入到受害模型340,会对应得到第一输出结果351,第二输出结果352,……,第N输出结果353。其中,N为自然数且N≥3。
例如,在原始文本为“This is an infuriating film”时,不同风格的改述文本可以为“The movie is so awful”、“How dreadful the movie is”和“I am infuriated bythe movie”。若受害模型为文本情感分类模型,将这些改述文本输入到受害模型,可以得到这些改述文本的情感分类。以上三个改述文本的情感分类分别为负面、正面和负面,而原始文本的情感分类为负面。可以看出,仅有“How dreadful the movie is”与原始文本的情感分类不同。此时,可以选取“How dreadful the movie is”为对抗样本。
又例如,在原始文本为“这是一个很震撼人心灵的故事”时,不同风格的改述文本可以为“这个故事太吓人了”、“这是一个多么惊悚的故事啊”和“我被这个故事吓坏了”。若受害模型为文本情感分类模型,将这些改述文本输入到受害模型,可以得到这些改述文本的情感分类。以上三个改述文本的情感分类分别为负面、负面和负面,而原始文本的情感分类为正面。可以看出,改述文本“这个故事太吓人了”、“这是一个多么惊悚的故事啊”和“我被这个故事吓坏了”均与原始文本的情感分类不同。此时,可以在这三个改述文本中根据句子相似度和句子困惑度选取一个对抗样本。
本发明提供的文本对抗攻击方法,通过使用文本风格迁移模型将原始文本改写为不同风格的多个改述文本,并使用多个改述文本攻击目标受害模型,根据攻击结果在多个改述文本中选取对抗样本,可以简单快速地得到对抗样本。
下面对本发明提供的文本对抗攻击装置进行描述,下文描述的文本对抗攻击装置与上文描述的文本对抗攻击方法可相互对应参照。
如图4所示,本发明实施例的一种文本对抗攻击装置,该装置包括:
风格迁移单元402,,用于将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,多个改述文本与原始文本的语义和分类标签相同。
输入单元404,用于将多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果。
判断单元406,用于根据多个模型输出结果和原始文本判断多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本。
获取单元408,用于根据第一改述文本获取文本对抗攻击的对抗样本。
在发明实施例的技术方案中,基于文本风格迁移技术来获取对抗样本,通过文本风格迁移、对抗攻击尝试、对抗样本选取三个步骤实现对抗样本的获取,实现简便、速度更快且效果较好,有助于发现目标受害模型的弱点,进而提高模型的鲁棒性和安全性。
在本发明一种实施例中,获取单元包括:第一获取子单元,用于根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数;选取子单元,用于选取对抗样本分数最高的第一改述文本作为对抗样本。具体地,若只有一个第一改述文本,则以该第一改述文本为对抗样本,若有多个第一改述文本,则选取对抗样本分数最高的对抗样本作为最终的对抗样本。其中,对抗样本分数可以根据句子相似度、句子困惑度参数获得。
在本发明一种实施例中,目标受害模型为分类模型,判断单元还用于:在改述文本对应的模型输出结果表征的类别与原始文本的类别不一致时,确定对抗攻击成功,以及,在改述文本对应的模型输出结果表征的类别与原始文本的类别一致时,确定对抗攻击不成功。进一步地,判断单元还用于在改述文本对应的模型输出结果与原始文本对应的模型输出结果不一致时,确定对抗攻击成功。
在本发明一种实施例中,获取单元还用于:根据以下公式获取对抗样本分数S:
S=p×Sim(a,o)-q×PPL(a)
其中,a表示第一改述文本,o表示原始文本,Sim(a,o)表示第一改述文本与原始文本的相似度,PPL(a)表示第一改述文本的基于目标受害模型的文本困惑度,p和q为超参数。
在本发明一种实施例中,装置还包括训练单元,用于对目标受害模型进行训练,训练单元还包括:第一获取子单元,用于获取第一训练集,第一训练集包括文本训练数据和对应的分类数据;训练子单元,用于采用文本训练数据以分类数据为训练标签对初始受害模型进行训练,直到初始受害模型收敛,得到目标受害模型。
在本发明一种实施例中,文本风格迁移模型包括编码器和多个解码器,输入单元包括:第一输入子单元,用于将原始文本输入至编码器,获得编码器输出的与原始文本对应的编码向量;第二输入子单元,用于将编码向量输入多个解码器处理获得多个改述文本。
在本发明一种实施例中,目标受害模型还可以包括自动问答模型或机器翻译模型。自然语言处理模型是用于进行自然语言处理的模型,其可以为文本分类模型、文本摘要模型、文本理解模型、智能对话模型、文本翻译模型和文本生成模型,且并不局限于此。
由于本发明的示例实施例的文本对抗攻击装置的各个功能模块与上述文本对抗攻击方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的文本对抗攻击方法的实施例。
本发明提供的文本对抗攻击装置,通过使用文本风格迁移模型将原始文本改写为不同风格的多个改述文本,并使用多个改述文本攻击目标受害模型,根据攻击结果在多个改述文本中选取对抗样本,可以简单快速地得到对抗样本。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行文本对抗攻击方法,该方法包括:将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;根据所述第一改述文本获取文本对抗攻击的对抗样本。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本对抗攻击方法,该方法包括:将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;根据所述第一改述文本获取文本对抗攻击的对抗样本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文本对抗攻击方法,该方法包括:将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;根据所述第一改述文本获取文本对抗攻击的对抗样本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本对抗攻击方法,其特征在于,
将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;
将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;
根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;
根据所述第一改述文本获取文本对抗攻击的对抗样本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一改述文本获取文本对抗攻击的对抗样本,包括:
根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数;
选取对抗样本分数最高的第一改述文本作为所述对抗样本。
3.根据权利要求1所述的方法,其特征在于,所述目标受害模型为分类模型,所述根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,包括:
在改述文本对应的模型输出结果表征的类别与所述原始文本的类别不一致时,确定对抗攻击成功。
4.根据权利要求1所述的方法,其特征在于,所述根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数,包括:根据以下公式获取对抗样本分数S:
S=p×Sim(a,o)-q×PPL(a)
其中,a表示第一改述文本,o表示原始文本,Sim(a,o)表示第一改述文本与原始文本的相似度,PPL(a)表示第一改述文本的基于所述目标受害模型的文本困惑度,p和q为超参数。
5.根据权利要求3所述的方法,其特征在于,所述目标受害模型的训练方法包括:
获取第一训练集,所述第一训练集包括文本训练数据和对应的分类数据;
采用所述文本训练数据以所述分类数据为训练标签对初始受害模型进行训练,直到所述初始受害模型收敛,得到所述目标受害模型。
6.根据权利要求1所述的方法,其特征在于,所述文本风格迁移模型包括编码器和多个解码器,所述将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,包括:
将所述原始文本输入至所述编码器,获得所述编码器输出的与所述原始文本对应的编码向量;
将所述编码向量输入所述多个解码器处理获得所述多个改述文本。
7.根据权利要求1所述的方法,其特征在于,所述目标受害模型包括自动问答模型或机器翻译模型。
8.一种文本对抗攻击装置,其特征在于,包括:
风格迁移单元,用于将原始文本输入到预置的文本风格迁移模型中,得到风格各不相同的多个改述文本,所述多个改述文本与所述原始文本的语义和分类标签相同;
输入单元,用于将所述多个改述文本依次输入到预置的目标受害模型,得到对应的多个模型输出结果;
判断单元,用于根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功,得到对抗攻击成功的第一改述文本;
获取单元,用于根据所述第一改述文本获取文本对抗攻击的对抗样本。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111189287.3A CN114004283B (zh) | 2021-10-12 | 2021-10-12 | 文本对抗攻击方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111189287.3A CN114004283B (zh) | 2021-10-12 | 2021-10-12 | 文本对抗攻击方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114004283A true CN114004283A (zh) | 2022-02-01 |
CN114004283B CN114004283B (zh) | 2024-07-26 |
Family
ID=79922768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111189287.3A Active CN114004283B (zh) | 2021-10-12 | 2021-10-12 | 文本对抗攻击方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114004283B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462031A (zh) * | 2022-04-12 | 2022-05-10 | 北京瑞莱智慧科技有限公司 | 后门攻击方法、相关装置及存储介质 |
CN114595685A (zh) * | 2022-03-04 | 2022-06-07 | 拉扎斯网络科技(上海)有限公司 | 文本判别模型的训练方法、装置、存储介质及电子设备 |
CN114626365A (zh) * | 2022-03-14 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 作文纠错模型的缺陷确定方法、装置、设备及存储介质 |
CN117933268A (zh) * | 2024-03-21 | 2024-04-26 | 山东大学 | 一种端到端的无监督对抗性文本改写方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
US20190238568A1 (en) * | 2018-02-01 | 2019-08-01 | International Business Machines Corporation | Identifying Artificial Artifacts in Input Data to Detect Adversarial Attacks |
CN111652267A (zh) * | 2020-04-21 | 2020-09-11 | 清华大学 | 对抗样本的生成方法、装置、电子设备及存储介质 |
CN112966685A (zh) * | 2021-03-23 | 2021-06-15 | 平安国际智慧城市科技股份有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN113204974A (zh) * | 2021-05-14 | 2021-08-03 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
WO2021151299A1 (zh) * | 2020-05-29 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于人工智能的数据增强方法、装置、电子设备及介质 |
-
2021
- 2021-10-12 CN CN202111189287.3A patent/CN114004283B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190238568A1 (en) * | 2018-02-01 | 2019-08-01 | International Business Machines Corporation | Identifying Artificial Artifacts in Input Data to Detect Adversarial Attacks |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN111652267A (zh) * | 2020-04-21 | 2020-09-11 | 清华大学 | 对抗样本的生成方法、装置、电子设备及存储介质 |
WO2021151299A1 (zh) * | 2020-05-29 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于人工智能的数据增强方法、装置、电子设备及介质 |
CN112966685A (zh) * | 2021-03-23 | 2021-06-15 | 平安国际智慧城市科技股份有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN113204974A (zh) * | 2021-05-14 | 2021-08-03 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
FANCHAO QI: "ONION: A Simple and Effective Defense Against Textual Backdoor Attacks", 《ARXIV:2011.10369V3 》, 20 November 2020 (2020-11-20) * |
JINGJING XU 等: "Unpaired Sentiment-to-Sentiment Translation: A Cycled Reinforcement Learning Approach", 《ARXIV:1805.05181V2》, 14 May 2018 (2018-05-14) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595685A (zh) * | 2022-03-04 | 2022-06-07 | 拉扎斯网络科技(上海)有限公司 | 文本判别模型的训练方法、装置、存储介质及电子设备 |
CN114626365A (zh) * | 2022-03-14 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 作文纠错模型的缺陷确定方法、装置、设备及存储介质 |
CN114626365B (zh) * | 2022-03-14 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 作文纠错模型的缺陷确定方法、装置、设备及存储介质 |
CN114462031A (zh) * | 2022-04-12 | 2022-05-10 | 北京瑞莱智慧科技有限公司 | 后门攻击方法、相关装置及存储介质 |
CN117933268A (zh) * | 2024-03-21 | 2024-04-26 | 山东大学 | 一种端到端的无监督对抗性文本改写方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114004283B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767405B (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN110781680B (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
CN114004283B (zh) | 文本对抗攻击方法、装置、设备和存储介质 | |
CN109460463B (zh) | 基于数据处理的模型训练方法、装置、终端及存储介质 | |
Qaffas | Improvement of Chatbots semantics using wit. ai and word sequence kernel: Education Chatbot as a case study | |
CN108829662A (zh) | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 | |
Gupta et al. | A statistical approach for sarcasm detection using Twitter data | |
CN110472045B (zh) | 一种基于文档嵌入的短文本虚假问题分类预测方法及装置 | |
Pilehvar et al. | Card-660: Cambridge rare word dataset-a reliable benchmark for infrequent word representation models | |
CN112329824A (zh) | 多模型融合训练方法、文本分类方法以及装置 | |
Theophilo et al. | Authorship attribution of social media messages | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN109948140B (zh) | 一种词向量嵌入方法及装置 | |
CN113807892A (zh) | 数据分析预测方法及装置 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
Bajaj et al. | Exposing the vulnerabilities of deep learning models in news classification | |
US20240273293A1 (en) | Adversarial input generation for natural language processing machine learning models | |
Bajaj et al. | Bypassing deep learning based sentiment analysis from business reviews | |
Yang | Deep Markov neural network for sequential data classification | |
CN118350436A (zh) | 基于对抗扰动的多模态不可见后门攻击方法、系统及介质 | |
Yang | [Retracted] Application of English Vocabulary Presentation Based on Clustering in College English Teaching | |
Ireland et al. | Sentimental analysis for AIML-based e-health conversational agents | |
CN108304366B (zh) | 一种上位词检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |