CN113312450A - 一种防范文本流次序变换攻击的方法 - Google Patents

一种防范文本流次序变换攻击的方法 Download PDF

Info

Publication number
CN113312450A
CN113312450A CN202110589788.4A CN202110589788A CN113312450A CN 113312450 A CN113312450 A CN 113312450A CN 202110589788 A CN202110589788 A CN 202110589788A CN 113312450 A CN113312450 A CN 113312450A
Authority
CN
China
Prior art keywords
sequence
key
attack
randomized
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110589788.4A
Other languages
English (en)
Other versions
CN113312450B (zh
Inventor
李建欣
周号益
张帅
何铭睿
陈天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110589788.4A priority Critical patent/CN113312450B/zh
Publication of CN113312450A publication Critical patent/CN113312450A/zh
Application granted granted Critical
Publication of CN113312450B publication Critical patent/CN113312450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明通过人工智能领域的方法,实现了一种防范文本流次序变换攻击的方法。方法三个步骤;基于EM算法学习随机化序列概率分布;生成随机化序列密钥;方法的训练与部署需要搭建包括pytorch与依赖库的运行环境。通过EM算法学习出抵御攻击的最佳序列概率分布,最后使得针对流次序攻击的对抗样本无法准确攻击次序编码,达到防范文本流次序攻击的效果。本发明方法具有抵御攻击的性能最佳,对于其他的文本攻击同样能够减弱其攻击强度的技术效果。

Description

一种防范文本流次序变换攻击的方法
技术领域
本发明涉及人工智能领域,尤其涉及一种防范文本流次序变换攻击的方法。
背景技术
如今自然语言处理已广泛应用到现实生活之中,例如机器翻译、自动摘要、问答系统等。而目前主流的自然语言处理模型例如Bert(Bidirectional EncoderRepresentation from Transformers)以及其变体等,皆基于Transformer模型改进而来,主要依赖于其高效的自注意力机制和长依赖对齐能力。然而自注意力机制无法单独捕捉序列中的次序信息,所以需要加入位置编码来完整的表征序列。但是这样的位置编码仅仅只是结合了次序信息后的三角函数,所以只需要破坏了位置编码中三角函数的线性性,便能够有效的破坏文本中的次序信息,以降低模型的有效性。
因此,目前主流的基于transformer改进而来的自然语言处理模型都需要利用三角函数的线性性来获得次序信息,但是这样的编码是会受到次序攻击的,并且我们通过研究与实验,目前已发现了几种针对次序编码生成对抗样本的方法,这样的对抗样本能够有效的降低模型有效性,并且不容易被人类察觉,其结论就是,目前需要一种防范此类攻击的手段来增强模型的安全性,这对于主流自然语言处理模型落地应用的安全问题有重大意义。
如上所述,目前主流的自然语言处理都加入了利用三角函数线性性的次序编码,如果针对次序编码进行攻击则能够十分轻易的降低自然语言处理模型的准确率,而目前还没有完全针对流次序攻击的抵御方法。
发明内容
为此,本发明首先提出一种防范文本流次序变换攻击的方法,包括以下三个步骤:
步骤一:基于随机化次序编码的自然语言处理模型:对于一个文本处理任务预处理后,随机生成随机生成序列,并使用随机生成序列作为生成次序编码的密钥,同时以此生成的次序编码作为记录位置信息的编码后,将所述随机生成序列进行基于EM算法的学习;
步骤二:基于EM算法学习随机化序列概率分布:对于针对流次序攻击的对抗样本,首先通过均匀分布的方式生成密钥随机序列,结合所述随机生成序列抵御对抗样本,如果对抗成功,则记录下此随机序列作为EM学习的统计数据,重复上述操作,得到一定量的成功抵御对抗样本的随机序列;这些随机序列通过频率统计在样本空间中呈现特定分布,最终作为EM算法的输入,通过EM算法学习混合高斯分布的参数,最后达成能够用此混合高斯分布来拟合所述特定分布的目标,即通过混合高斯分布来生成密钥次序编码,防范文本流次序攻击;
步骤三:生成随机化序列密钥:通过EM学习到的混合高斯分布来生成随机化序列密钥,并将其应用到随机化次序编码的自然语言处理模型中;
方法的训练与部署需要搭建包括pytorch与依赖库的运行环境。
所述预处理方法为:将普通的文本翻译训练数据作为自然语言处理模型的训练数据,将抗样本数据作为攻击自然语言处理模型的数据,对抗样本的生成方法为,在原始数据上加入与次序编码大小相同的取反数值,当自然语言处理模型在计算次序编码后,由于是直接加在注意力编码后,紧接着被扰动消除,最后位置信息丢失,达到了模型效果下降的效果,即攻击成功,成功攻击次序编码的样本即为对抗样本,作为测试的输入。
所述随机生成随机生成序列的方法以及保存位置信息的方法为:采用统一密钥的随机化次序再结合三角函数进行编码,利用统一的次序密钥,在通过密钥后得到正确的次序保存位置信息。
所述生成随机化序列密钥的方法为:首先在模型训练过程中,加载此密钥作为生成次序编码中次序的部分,
Figure BDA0003088934230000021
Figure BDA0003088934230000022
f(pos)的部分是密钥代表的位置,在测试时也采用同样的密钥所代表的位置来进行次序编码的生成。
本发明所要实现的技术效果在于:
本发明基于最大期望算法(Expectation-Maximization algorithm,EM)以及随机化编码方式,开发出了一套防范流次序攻击的方法和装置,通过学习出最佳随机化次序编码的概率分布,在每次训练时拥有不同的次序编码,从而达到对抗样本无法精准消除与干扰次序编码的目的,该方法具有以下优势:
1.采用随机化位置序列作为生成次序编码的密钥,当无法获得序列密钥时,对抗样本无法对对应位置的次序编码进行攻击;
2.基于EM算法进行随机化位置序列概率分布的学习,记录成功抵御攻击的位置序列分布,通过EM算法学习统计后的数据概率分布,最后用混合高斯分布进行拟合,使得每次生成随机化位置序列时,其抵御攻击的性能最佳;
3.扩展性强,除了有效针对流次序攻击,由于采用EM算法学习概率分布,若训练样本为其他的文本攻击,同样可以学习成功抵御的最佳分布,所以对于其他的文本攻击同样能够减弱其攻击强度;
4.算法多参数可调,所以可以根据具体任务与问题进行调整设置,算法的可移植性好。
附图说明
图1防范流次序攻击系统设计框架;
图2基于Em算法的随机化序列概率分布学习流程;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种防范文本流次序变换攻击的方法,通过EM算法学习出抵御攻击的最佳序列概率分布,最后使得针对流次序攻击的对抗样本无法准确攻击次序编码,达到防范文本流次序攻击的效果,实现设计目的与应用目标。
该方法包括以下若干部分和过程:
基于随机化次序编码的自然语言处理模型:基于原始transformer模型,使用随机化序列作为生成次序编码的密钥,并以此生成的次序编码作为记录位置信息的编码,以继续完成原先的文本处理任务。
基于EM算法学习随机化序列概率分布:对于针对流次序攻击的对抗样本,采用随机生成序列作为密钥来抵御,并记录成功抵御的随机序列作为EM学习的统计数据,最后通过EM算法来学习混合高斯分布的参数,以拟合成功抵御攻击的次序概率分布。
生成随机化序列密钥:通过EM学习到的混合高斯分布来生成随机化序列密钥,并将其应用到随机化次序编码的自然语言处理模型中。
另外,为了训练与部署该模型,需要在机器上搭建包括pytorch与其它必须的依赖库的运行环境。
防范流次序攻击系统设计框架
本发明采用随机化序列密钥来生成次序编码,在自然语言处理模型中采用注意力机制生成的信息编码后,加入该次序编码,不仅能够达到保存位置信息的目的,同时还能针对文本流次序攻击进行抵御。为了提高此随机化序列的效果,采用EM算法进行概率分布的学习,记录成功抵御的序列作为EM算法的学习数据,最后基于学习到的混合高斯分布参数来生成上述的随机化序列。上图是本发明提出的算法设计流程,首先随机生成随机化序列抵御对抗样本,抵御成功的随机化序列作为EM算法的输入数据。接着通过EM算法学习混合高斯分布参数拟合数据分布,并以此作为生成随机化序列的依据。最后将生成的随机化序列作为生成自然语言处理模型次序编码的密钥,继续完成后续文本相关任务。
数据预处理
我们使用的数据主要包含两种,一种为普通的文本翻译训练数据,作为自然语言处理模型的训练数据。第二种为对抗样本数据,此数据作为攻击自然语言处理模型的数据。对抗样本的生成方法主要为我们实验得出的成功攻击次序编码的样本,其原理为在原始数据上加入与次序编码大小相同的取反数值,当自然语言处理模型在计算次序编码后,由于是直接加在注意力编码后,紧接着被扰动消除,最后位置信息丢失,达到了模型效果下降的效果,即攻击成功。我们收集这样的对抗样本作为测试的输入。
基于随机化次序编码的自然语言处理模型
本发明防范文本流次序攻击的本质为优化了主流自然语言处理模型中的次序编码方式,将次序结合三角函数进行编码的方式改进为了采用统一密钥的随机化次序再结合三角函数进行编码,由于存在统一的次序密钥,所以在编码过程中,尽管编码的次序看似随机,但是能够在通过密钥后得到正确的次序,这样不仅保存了位置信息,同时还能够保证针对文本流次序攻击被抵御。
基于EM算法的随机化序列概率分布学习
为了使随机化序列抵御攻击的效果最佳,我们采用EM算法来进行随机化序列概率分布的学习。具体的做法为,如图所示,首先通过均匀分布的方式生成密钥随机序列,结合提到的基于此随机化次序编码的自然语言处理模型来抵御对抗样本,如果对抗成功,则记录下此随机序列,重复上述操作,得到一定量的成功抵御对抗样本的随机序列。这些随机序列通过频率统计在样本空间中呈现一种分布,最终作为EM算法的输入,通过EM算法学习混合高斯分布的参数,最后达成能够用此混合高斯分布来拟合上述分布的目标,即通过混合高斯分布来生成密钥次序编码,形成防范文本流次序攻击的装置。
随机化序列生成次序编码方法
从上述的EM算法,得到了能够拟合最佳随机化序列分布的混合高斯分布之后,再进行随机序列的生成。即根据此概率分布随机生成的序列为抵御文本流次序攻击效果最优的序列。而具体将其作为密钥生成次序编码的过程为:首先在模型训练过程中,加载此密钥作为生成次序编码中次序的部分。
Figure BDA0003088934230000051
Figure BDA0003088934230000052
即公式5.1和5.2中f(pos)的部分,并非正常次序,而是密钥代表的位置。同样,在测试时也采用同样的密钥所代表的位置来进行次序编码的生成,经过此随机化加密,文本流次序的攻击无法在对应位置消除次序编码,这样位置信息不会丢失,即成功抵御了文本流次序攻击。
防范文本流次序攻击方法的使用
本方法主要适用于主流应用了自注意力机制需要使用次序编码来保存位置信息的自然语言处理模型,使用方法为:在原始模型中,加入随机化序列密钥作为生成次序编码的位置信息加密密钥,具体的生成随机化序列密钥方式则采用前文所述的EM算法学习到的混合高斯分布进行生成。

Claims (4)

1.一种防范文本流次序变换攻击的方法,其特征在于:包括以下三个步骤:
步骤一:基于随机化次序编码的自然语言处理模型:对于一个文本处理任务预处理后,随机生成随机生成序列,并使用随机生成序列作为生成次序编码的密钥,同时以此生成的次序编码作为记录位置信息的编码后,将所述随机生成序列进行基于EM算法的学习;
步骤二:基于EM算法学习随机化序列概率分布:对于针对流次序攻击的对抗样本,首先通过均匀分布的方式生成密钥随机序列,结合所述随机生成序列抵御对抗样本,如果对抗成功,则记录下此随机序列作为EM学习的统计数据,重复上述操作,得到一定量的成功抵御对抗样本的随机序列;这些随机序列通过频率统计在样本空间中呈现特定分布,最终作为EM算法的输入,通过EM算法学习混合高斯分布的参数,最后达成能够用此混合高斯分布来拟合所述特定分布的目标,即通过混合高斯分布来生成密钥次序编码,防范文本流次序攻击;
步骤三:生成随机化序列密钥:通过EM学习到的混合高斯分布来生成随机化序列密钥,并将其输出到随机化次序编码的自然语言处理模型中;
方法的训练与部署需要搭建包括pytorch与依赖库的运行环境。
2.如权利要求1所述的一种防范文本流次序变换攻击的方法,其特征在于:所述预处理方法为:将普通的文本翻译训练数据作为自然语言处理模型的训练数据,将抗样本数据作为攻击自然语言处理模型的数据,对抗样本的生成方法为,在原始数据上加入与次序编码大小相同的取反数值,当自然语言处理模型在计算次序编码后,由于是直接加在注意力编码后,紧接着被扰动消除,最后位置信息丢失,达到了模型效果下降的效果,即攻击成功,成功攻击次序编码的样本即为对抗样本,作为测试的输入。
3.如权利要求2所述的一种防范文本流次序变换攻击的方法,其特征在于:所述随机生成随机生成序列的方法以及保存位置信息的方法为:采用统一密钥的随机化次序再结合三角函数进行编码,利用统一的次序密钥,在通过密钥后得到正确的次序保存位置信息。
4.如权利要求3所述的一种防范文本流次序变换攻击的方法,其特征在于:所述生成随机化序列密钥的方法为:首先在模型训练过程中,加载此密钥作为生成次序编码中次序的部分,
Figure FDA0003088934220000021
Figure FDA0003088934220000022
f(pos)的部分是密钥代表的位置,在测试时也采用同样的密钥所代表的位置来进行次序编码的生成。
CN202110589788.4A 2021-05-28 2021-05-28 一种防范文本流次序变换攻击的方法 Active CN113312450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110589788.4A CN113312450B (zh) 2021-05-28 2021-05-28 一种防范文本流次序变换攻击的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110589788.4A CN113312450B (zh) 2021-05-28 2021-05-28 一种防范文本流次序变换攻击的方法

Publications (2)

Publication Number Publication Date
CN113312450A true CN113312450A (zh) 2021-08-27
CN113312450B CN113312450B (zh) 2022-05-31

Family

ID=77376048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110589788.4A Active CN113312450B (zh) 2021-05-28 2021-05-28 一种防范文本流次序变换攻击的方法

Country Status (1)

Country Link
CN (1) CN113312450B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
US20190065986A1 (en) * 2017-08-29 2019-02-28 International Business Machines Corporation Text data representation learning using random document embedding
CN111710150A (zh) * 2020-05-14 2020-09-25 国网江苏省电力有限公司南京供电分公司 一种基于对抗自编码网络的异常用电数据检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
US20190065986A1 (en) * 2017-08-29 2019-02-28 International Business Machines Corporation Text data representation learning using random document embedding
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN111710150A (zh) * 2020-05-14 2020-09-25 国网江苏省电力有限公司南京供电分公司 一种基于对抗自编码网络的异常用电数据检测方法

Also Published As

Publication number Publication date
CN113312450B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
Chan et al. Baddet: Backdoor attacks on object detection
Ramakrishnan et al. Backdoors in neural models of source code
Chen et al. Secure detection of image manipulation by means of random feature selection
Bai et al. Hardly perceptible trojan attack against neural networks with bit flips
Wu et al. Just rotate it: Deploying backdoor attacks via rotation transformation
Zhu et al. Fragile neural network watermarking with trigger image set
CN113362216B (zh) 基于后门水印的深度学习模型加密方法和装置
CN113312450B (zh) 一种防范文本流次序变换攻击的方法
Liang et al. Revisiting backdoor attacks against large vision-language models
Iijima et al. A Random Ensemble of Encrypted Vision Transformers for Adversarially Robust Defense
CN113222480A (zh) 对抗样本生成模型的训练方法及装置
Chen et al. When deep learning meets watermarking: A survey of application, attacks and defenses
Ali et al. Evaluating adversarial robustness of secret key-based defenses
Tan et al. An embarrassingly simple approach for intellectual property rights protection on recurrent neural networks
Wang et al. Invisible Adversarial Watermarking: A Novel Security Mechanism for Enhancing Copyright Protection
CN115861695A (zh) 一种基于空间变换的后门攻击方法、装置和介质
Tanaka et al. On the transferability of adversarial examples between encrypted models
Lv et al. DBIA: Data-Free Backdoor Attack Against Transformer Networks
Chen et al. Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model
Gu Watermark Removal Scheme Based on Neural Network Model Pruning
Woodside et al. Investigating Trojan Attacks In Large Language Models
Wei et al. BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing
Chen et al. Extracted watermark identification using synergetic pattern recognition
Dong et al. Security and Privacy Challenges for Intelligent Internet of Things Devices 2022 TADW: Traceable and Antidetection Dynamic Watermarking of Deep Neural Networks.
CN117955747B (zh) 一种用于语音识别系统的后门安全性评估方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant