CN111046673B - 一种用于防御文本恶意样本的对抗生成网络的训练方法 - Google Patents

一种用于防御文本恶意样本的对抗生成网络的训练方法 Download PDF

Info

Publication number
CN111046673B
CN111046673B CN201911296950.2A CN201911296950A CN111046673B CN 111046673 B CN111046673 B CN 111046673B CN 201911296950 A CN201911296950 A CN 201911296950A CN 111046673 B CN111046673 B CN 111046673B
Authority
CN
China
Prior art keywords
text data
model
text
malicious
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911296950.2A
Other languages
English (en)
Other versions
CN111046673A (zh
Inventor
唐卓
周文
李肯立
方小泉
阳王东
周旭
刘楚波
曹嵘晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201911296950.2A priority Critical patent/CN111046673B/zh
Publication of CN111046673A publication Critical patent/CN111046673A/zh
Application granted granted Critical
Publication of CN111046673B publication Critical patent/CN111046673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于防御文本恶意样本的对抗生成网络及其训练方法,利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的防御与生成。生成器部分由自编码器(Auto‑encoder)构成,将离散的文本数据映射到连续的高维隐藏空间中,由此生成器可以利用隐藏向量生成恶意文本。判别器即判别模型,用于识别数据。生成模型生成的恶意文本将被打上真实标签与真实样本同时输入判别模型中,来进行判别模型的训练。加入恶意样本训练的判别模型能够对文本数据准确高效的识别。生成模型利用判别模型对恶意样本的评估分数以及文本数据与恶意样本的差别进行训练,来生成攻击力更强的恶意样本。由于训练过程中恶意样本的加入和对抗性的网络训练过程,网络识别文本数据能力和抗干扰性、防御能力都大幅提升。

Description

一种用于防御文本恶意样本的对抗生成网络的训练方法
技术领域
本发明属于文本数据处理技术领域,更具体地,涉及一种用于防御文本恶意样本的对抗生成网络及其训练方法。
背景技术
恶意样本是在近几年在图像识别以及文本处理中被发现,对于机器学习和深度学习在文本数据处理的领域有着极强的攻击性。恶意样本即对抗样本,对抗样本是在数据中加入人眼不可察觉的扰动,使得模型对数据的标签预测发生混淆和错误。对抗样本是各种机器学习系统需要克服的一大障碍。对抗样本的存在表明模型倾向于依赖不可靠的特征来最大化性能,如果特征受到干扰,那么将造成模型误分类,可能导致灾难性的后果。因此,对抗样本的防御在文本数据处理过程中至关重要。
现有的对于恶意样本防御的方法主要有两种:其一是在文本判别模型学习中修改训练过程,或者修改输入的文本样本,对样本进行人工去噪、数据压缩等预处理的过程;其二是修改进行文本处理的网络结构,例如增加多层或子网络结构、改变损失函数和激活函数等。
上述两种方法分别从样本处理的角度和改变模型的角度对网络模型进行了改进,能够起到对于对抗样本一定的防御作用,但是它们均存在着不可忽略的缺陷:其均只能从主观意识上对数据和网络进行修改,但在训练阶段没有使用恶意样本,因此其不能保证对恶意样本的完全防御。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种用于防御文本恶意样本的对抗生成网络及其训练方法,其目的在于,解决现有恶意样本防御方法中无法保证对恶意样本的完全防御的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种用于防御文本恶意样本的对抗生成网络,包括彼此互相耦接的生成模型和判别模型,生成模型用于根据文本分类数据集进行训练,并在训练好后根据输入的真实样本生成第一样本,将第一样本打上和真实样本相同的标签,并一起输入判别模型。判别模型用于根据打上标签后的第一样本和真实样本进行训练,在训练好后获取恶意标签,根据该恶意标签、以及第一样本输入判别模型后的结果得到第一损失值,将该第一损失值、以及根据第一样本和真实样本得到的第二损失值相加,并使用相加结果训练生成模型。生成模型训练好后根据输入的真实样本生成恶意样本。
按照本发明的另一方面,提供了一种用于防御文本恶意样本的对抗生成网络的训练方法,包括以下步骤:
(1)从网络获取文本分类数据集(X,Y),其中X表示文本数据集合,Y表示文本数据集合所对应的标签集合,且Y={y1,y2,…,ym},其中m表示标签集合中的标签个数;
(2)遍历步骤(1)获取的文本分类数据集中所有文本数据中的词,按照词在文本分类数据集中出现的顺序为该词分配ID号作为该词对应的索引号,并将所有词作为键、该词对应的索引号作为值建立词表;
(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号,将所有索引号输入生成模型中进行预训练,以得到预训练后的生成模型;
(4)使用每个文本数据x(i)={xi1,xi2,…,xin}对应的真实标签y(i)为每个句子
Figure GDA0003111551330000021
进行标注,将得到的所有标注结果(X*,Y)和文本分类数据集(X,Y)进行随机混合后,并将混合结果中的真实标签y1,y2,…,ym分别转换为向量y′1,y′2…,y′m,将混合结果输入判别模型,以得到每个文本数据x(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
(5)根据步骤(4)得到的每个文本数据x(i)对应于标签集合Y中各个标签的概率P(i)、以及真实标签转换后的向量y′(i)建立目标函数,并根据该目标函数对判别模型进行训练,以得到训练好的判别模型;
(6)固定步骤(5)训练后得到的判别模型中的所有参数,将每个文本数据x(i)输入步骤(3)预训练后的生成模型,以得到句子作为恶意样本x*(i),将恶意样本x*(i)输入步骤(5)训练好的判别模型,以得到恶意样本x*(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
(7)随机生成恶意标签y*(i)(其不等于真实标签y(i)),将恶意标签y*(i)分别转换为向量y′’*(i)
(8)根据步骤(6)得到的概率分布P(i)和步骤(7)得到的向量y′’*(i)获得损失函数;
(9)根据步骤(8)得到的损失函数对生成模型进行训练,以得到训练后的生成模型,此时的生成模型可以根据文本数据集合X产生恶意样本;
(10)重复上述步骤(4)到(9)达预设迭代次数,过程结束。
优选地,步骤(3)的预训练过程具体为,首先抽取文本数据集合X中的每个文本数据x(i)={xi1,xi2,…,xin},如果该文本数据长度不足n,则将其通过补零变成固定长度n,如果超过n则删除文本数据结尾处多余的词,从而得到更新后的多个文本数据,将更新后的多个文本数据输入该生成模型,根据该生成模型的输出和更新后的多个文本数据,并采用极大似然估计对生成器型进行预训练,其中xin表示第i个文本数据中的第n个单词,n表示句子长度,i表示文本数据集合X中文本数据的序号,第i个文本数据对应的标签用y(i)表示。
优选地,步骤(3)中使用的生成模型是由自编码器构成,自编码器包括彼此连接的编码器和解码器,编码器和解码器均包括词嵌入层、以及三层LSTM网络。
优选地,步骤(3)中采用极大似然估计对生成器型进行预训练,这一过程包括:
(3-1)将更新后的多个文本数据按批次输入编码器的词嵌入层,以得到m*n*200个句子向量,其中m表示一个批次的文本数据数量,并优选等于128;
(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络,以得到多个第一层隐藏状态,将多个第一层隐藏状态输入第二层LSTM网络,以得到第二层隐藏状态,再将第二层隐藏状态输入第三层LSTM网络,以得到第三层隐藏状态,从而得到3个包含句子语义信息的向量;
(3-3)将更新后的多个文本数据按批次输入解码器的词嵌入层,以得到m*n*200个句子向量;
(3-4)以步骤(3-3)得到的m*n*200个句子向量作为初始隐藏状态,将步骤(3-2)得到的3个包含句子语义信息的向量输入解码器,从而得到三层LSTM网络的隐藏状态、以及多个词向量,并根据该多个词向量获取多个对应的句子
Figure GDA0003111551330000041
(3-5)根据步骤(3-4)得到的每个句子x*(i)和文本数据集合X中的每个文本数据x(i)建立目标函数;
(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。
优选地,步骤(3-5)建立的目标函数
Figure GDA0003111551330000042
优选地,步骤(4)具体是将混合结果中的ym转换为向量y′m,就是将向量y′m中除了第m个以外的所有元素设置为0,第m个元素设置为1,步骤(4)中的判别模型是使用的是用于关系分类的双向长短期记忆网络,且包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。
优选地,步骤(5)中建立的目标函数为:
Figure GDA0003111551330000051
优选地,步骤(8)中的损失函数Loss等于:loss=loss1+loss2
其中损失函数的一部分为:
Figure GDA0003111551330000052
另一部分为:
Figure GDA0003111551330000053
其中λ为0到1之间的小数。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明在训练判别模型时,不仅使用了本发明获取的文本分类数据集,还将训练好的生成模型所生成的恶意样本标注真实标签输入判别模型,在提高判别模型识别文本数据能力的同时,极大的增强了判别模型对于恶意样本的防御能力;
2、由于本发明通过固定当前判别模型的参数,来继续训练生成模型,得到对于当前判别模型最优的生成模型,提高了生成模型生成恶意样本的能力,从而进一步提升了判别模型对于恶意样本的防御能力。
附图说明
图1是本发明使用的判别模型的训练示意图。
图2是本发明使用的判别模型的结构示意图。
图3是本发明使用的生成模型的训练流程图。
图4是本发明作为生成模型的自编码器的结构示意图。
图5是本发明用于防御文本恶意样本的对抗生成网络的训练方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
生成式对抗网络(GAN)是一个新的机器学习的思想。GAN模型中的两位博弈方分别由生成模型(Generative model)和判别模型(Discriminative model)充当。生成模型在图像以及文本生成方面表现了极大的创造力和性能。判别模型对于区分伪造的图像和文字性能会随着生成模型能力的增加而增加。生成模型G捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声z经过深度神经网络生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别模型D是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,D输出大概率,否则,D输出小概率。GAN的优化是一个极小极大博弈问题。利用生成模型生成恶意样本,判别模型作为恶意样本的防御是非常合适的。因此,如何有效地利用对抗生成网络中的博弈的方法不断地提高判别模型的鲁棒性并将其运用到文本处理的过程中来是本发明所考虑的重点。
本发明的基本思路在于,提供了一种用于防御文本恶意样本的对抗生成网络及其训练方法,利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的检测与生成。生成器部分由自编码器(auto-encoder)构成,判别模型为文本判别模型,用于识别数据。生成模型生成的恶意文本将被打上对抗标签与真实样本同时输入判别模型中,来进行判别模型的训练。由于训练过程中恶意样本的加入和对抗性的网络训练过程,网络识别文本数据能力和抗干扰性、防御能力都大幅提升。对抗生成网络包含两个部分,分为生成模型G和判别模型D。训练过程中,先固定其中一个网络模型的参数,将另一部分的网络模型训练到当前固定参数模型最优的状态,然后按照这种方式训练另一个模型的参数,双方互相博弈地提升模型性能。对生成模型和判别模型交替迭代训练,会使得判别模型的防御能力不断提升。
下面将结合附图对本发明作进一步的说明:
如图1所示,本发明提供了一种用于防御文本恶意样本的对抗生成网络,包括彼此互相耦接的生成模型和判别模型,其中生成模型用于根据文本分类数据集进行训练,并在训练好后根据输入的真实样本生成第一样本,将第一样本打上和真实样本相同的标签,并一起输入判别模型。判别模型用于根据打上标签后的第一样本和真实样本进行训练,在训练好后获取恶意标签,根据该恶意标签、以及第一样本输入判别模型后的结果得到第一损失值,将该第一损失值、以及根据第一样本和真实样本得到的第二损失值相加,并使用相加结果训练生成模型。生成模型训练好后根据输入的真实样本生成恶意样本。
具体而言,本发明中的文本分类数据集是从网络获取的公开数据集,例如DBpedia。
如图5所示,本发明用于防御文本恶意样本的对抗生成网络的训练方法包括以下步骤:
(1)从网络获取文本分类数据集(X,Y),其中X表示文本数据集合,Y表示文本数据集合所对应的标签集合,且Y={y1,y2,…,ym},其中m表示标签集合中的标签个数;
(2)遍历步骤(1)获取的文本分类数据集中所有文本数据中的词,按照词在文本分类数据集中出现的顺序为该词分配ID号作为该词对应的索引号,并将所有词作为键、该词对应的索引号作为值建立词表;
举例而言,对于文本分类数据集中第一个文本数据中的第一个词,其分配的ID号(即索引号)就是0。
(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号,将所有索引号输入生成模型(如图4所示)中进行预训练,以得到预训练后的生成模型;
具体而言,预训练过程首先是抽取文本数据集合X中的每个文本数据x(i)={xi1,xi2,…,xin},如果该文本数据长度不足n,则将其通过补零变成固定长度n,如果超过n则删除文本数据结尾处多余的词,从而得到更新后的多个文本数据,将更新后的多个文本数据输入该生成模型,根据该生成模型的输出和更新后的多个文本数据,并采用极大似然估计对生成器型进行预训练,其中xin表示第i个文本数据中的第n个单词,n表示句子长度,i表示文本数据集合X中文本数据的序号,第i个文本数据对应的标签用y(i)表示。
具体而言,本步骤中使用的生成模型是由自编码器构成,自编码器包括彼此连接的编码器和解码器,编码器和解码器均包括词嵌入(Embedding)层、以及三层LSTM网络。
本步骤中采用极大似然估计对生成器型进行预训练这一过程包括:
(3-1)将更新后的多个文本数据按批次(一批为m个)输入编码器的词嵌入层(其词向量维度是200),以得到m*n*200个句子向量,其中m优选为128个;
(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络(其包括128个神经元),以得到多个第一层隐藏状态(Hidden status),将多个第一层隐藏状态输入第二层LSTM网络(其包括128个神经元),以得到第二层隐藏状态,再将第二层隐藏状态输入第三层LSTM网络(其包括128个神经元),以得到第三层隐藏状态,从而得到3个包含句子语义信息的向量;
(3-3)将更新后的多个文本数据按批次(一批为m个)输入解码器的词嵌入层(其词向量维度是200),以得到m*n*200个句子向量,其中m优选为128个;
(3-4)以步骤(3-3)得到的m*n*200个句子向量作为初始隐藏状态,将步骤(3-2)得到的3个包含句子语义信息的向量输入解码器,从而得到三层LSTM网络的隐藏状态、以及多个词向量,并根据该多个词向量获取多个对应的句子
Figure GDA0003111551330000091
(3-5)根据步骤(3-4)得到的每个句子x*(i)和文本数据集合X中的每个文本数据x(i)建立目标函数:
Figure GDA0003111551330000092
(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。
(4)使用每个文本数据x(i)={xi1,xi2,…,xin}对应的真实标签y(i)为每个句子
Figure GDA0003111551330000093
进行标注,将得到的所有标注结果(X*,Y)和文本分类数据集(X,Y)进行随机混合后,并将混合结果中的真实标签y1,y2,…,ym分别转换为向量y′1,y′2…,y′m(每个向量都是m维的),将混合结果输入判别模型(如图2所示),以得到每个文本数据x(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
具体而言,将混合结果中的ym转换为向量y′m,就是将向量y′m中除了第m个以外的元素设置为0,第m个元素设置为1。
本步骤的判别模型是使用的是用于关系分类的双向长短期记忆网络(Bidirectional Long Short-Term Memory Networks for Relation Classification)。
判别模型包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。
(5)根据步骤(4)得到的每个文本数据x(i)对应于标签集合Y中各个标签的概率P(i)、以及真实标签转换后的向量y′(i)建立目标函数,并根据该目标函数对判别模型进行训练,以得到训练好的判别模型(如图1所示),其中目标函数为:
Figure GDA0003111551330000101
(6)固定步骤(5)训练后得到的判别模型中的所有参数,将每个文本数据x(i)输入步骤(3)预训练后的生成模型,以得到句子作为恶意样本x*(i),将恶意样本x*(i)输入步骤(5)训练好的判别模型,以得到恶意样本x*(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),…,p(ym|x(i))};
(7)随机生成恶意标签y*(i)(其不等于真实标签y(i)),将恶意标签y*(i)分别转换为向量y′’*(i)(每个向量都是m维的);
(8)根据步骤(6)得到的概率分布P(i)和步骤(7)得到的向量y′’*(i)获得损失函数,loss=loss1+loss2
其中损失函数的一部分为:
Figure GDA0003111551330000102
另一部分为:
Figure GDA0003111551330000103
其中λ为0到1之间的小数。
(9)根据步骤(8)得到的损失函数对生成模型进行训练,以得到训练后的生成模型,此时的生成模型可以根据文本数据集合X产生恶意样本,如图3所示;
(10)重复上述步骤(4)到(9)达预设迭代次数,过程结束。
在本步骤中,预设的迭代次数是150次。
本发明所示的方法采用攻防结合的方式训练,不断地提高了分类器对于文本的识别分类能力,根据合成的恶意数据对判别模型抗干扰能力、鲁棒性有了极大的增强。
本发明提出了一种用于防御文本恶意样本的对抗生成网络及其训练方法,利用对抗生成网络框架中的生成模型和判别模型进行恶意样本的检测与生成。生成器部分由自编码器(auto-encoder)构成,判别模型即判别模型,能高效准确识别数据。生成模型生成的恶意文本将被打上标签与真实样本同时输入判别模型中,来进行判别模型的训练。由于训练过程中恶意样本的加入和对抗性的网络训练过程,网络识别文本数据能力和抗干扰性、防御能力都大幅提升。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种用于防御文本恶意样本的对抗生成网络的训练方法,其特征在于,包括以下步骤:
(1)从网络获取文本分类数据集(X,Y),其中X表示文本数据集合,Y表示文本数据集合所对应的标签集合,且Y={y1,y2,...,ym},其中m表示标签集合中的标签个数;
(2)遍历步骤(1)获取的文本分类数据集中所有文本数据中的词,按照词在文本分类数据集中出现的顺序为该词分配ID号作为该词对应的索引号,并将所有词作为键、该词对应的索引号作为值建立词表;
(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号,将所有索引号输入生成模型中进行预训练,以得到预训练后的生成模型;其中步骤(3)的预训练过程具体为,首先抽取文本数据集合X中的每个文本数据x(i)={xi1,xi2,...,xin},如果该文本数据长度不足n,则将其通过补零变成固定长度n,如果超过n则删除文本数据结尾处多余的词,从而得到更新后的多个文本数据,将更新后的多个文本数据输入该生成模型,根据该生成模型的输出和更新后的多个文本数据,并采用极大似然估计对生成器型进行预训练,其中xin表示第i个文本数据中的第n个单词,n表示句子长度,i表示文本数据集合X中文本数据的序号,第i个文本数据对应的标签用y(i)表示;
(4)使用每个文本数据x(i)={xi1,xi2,...,xin}对应的真实标签y(i)为每个句子
Figure FDA0003111551320000011
进行标注,将得到的所有标注结果(X*,Y)和文本分类数据集(X,Y)进行随机混合后,并将混合结果中的真实标签y1,y2,...,ym分别转换为向量y′1,y′2...,y′m,将混合结果输入判别模型,以得到每个文本数据x(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),...,p(ym|x(i))};
(5)根据步骤(4)得到的每个文本数据x(i)对应于标签集合Y中各个标签的概率P(i)、以及真实标签转换后的向量y′(i)建立目标函数,并根据该目标函数对判别模型进行训练,以得到训练好的判别模型;
(6)固定步骤(5)训练后得到的判别模型中的所有参数,将每个文本数据x(i)输入步骤(3)预训练后的生成模型,以得到句子作为恶意样本x*(i),将恶意样本x*(i)输入步骤(5)训练好的判别模型,以得到恶意样本x*(i)对应于标签集合Y中各个标签的概率分布P(i)={p(y1|x(i)),p(y2|x(i)),...,p(ym|x(i))};
(7)随机生成恶意标签y*(i),其不等于真实标签y(i),将恶意标签y*(i)分别转换为向量y′’*(i)
(8)根据步骤(6)得到的概率分布P(i)和步骤(7)得到的向量y′’*(i)获得损失函数;
(9)根据步骤(8)得到的损失函数对生成模型进行训练,以得到训练后的生成模型,此时的生成模型可以根据文本数据集合X产生恶意样本;
(10)重复上述步骤(4)到(9)达预设迭代次数,过程结束。
2.根据权利要求1所述的训练方法,其特征在于,步骤(3)中使用的生成模型是由自编码器构成,自编码器包括彼此连接的编码器和解码器,编码器和解码器均包括词嵌入层、以及三层LSTM网络。
3.根据权利要求2所述的训练方法,其特征在于,步骤(3)中采用极大似然估计对生成器型进行预训练这一过程包括:
(3-1)将更新后的多个文本数据按批次输入编码器的词嵌入层,以得到m*n*200个句子向量,其中m表示一批次的文本数据数量,并优选等于128;
(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络,以得到多个第一层隐藏状态,将多个第一层隐藏状态输入第二层LSTM网络,以得到第二层隐藏状态,再将第二层隐藏状态输入第三层LSTM网络,以得到第三层隐藏状态,从而得到3个包含句子语义信息的向量;
(3-3)将更新后的多个文本数据按批次输入解码器的词嵌入层,以得到m*n*200个句子向量;
(3-4)以步骤(3-3)得到的m*n*200个句子向量作为初始隐藏状态,将步骤(3-2)得到的3个包含句子语义信息的向量输入解码器,从而得到三层LSTM网络的隐藏状态、以及多个词向量,并根据该多个词向量获取多个对应的句子
Figure FDA0003111551320000031
(3-5)根据步骤(3-4)得到的每个句子x*(i)和文本数据集合X中的每个文本数据x(i)建立目标函数;
(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。
4.根据权利要求3所述的训练方法,其特征在于,步骤(3-5)建立的目标函数为
Figure FDA0003111551320000032
5.根据权利要求4所述的训练方法,其特征在于,
步骤(4)具体是将混合结果中的ym转换为向量y′m,就是将向量y′m中除了第m个以外的元素设置为0,第m个元素设置为1;
步骤(4)中的判别模型是使用的是用于关系分类的双向长短期记忆网络,且包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。
6.根据权利要求5所述的训练方法,其特征在于,步骤(5)中建立的目标函数为:
Figure FDA0003111551320000033
7.根据权利要求6所述的训练方法,其特征在于,步骤(8)中的损失函数Loss等于:loss=loss1+loss2
其中损失函数的一部分为:
Figure FDA0003111551320000034
另一部分为:
Figure FDA0003111551320000041
其中λ为0到1之间的小数。
CN201911296950.2A 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法 Active CN111046673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911296950.2A CN111046673B (zh) 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911296950.2A CN111046673B (zh) 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法

Publications (2)

Publication Number Publication Date
CN111046673A CN111046673A (zh) 2020-04-21
CN111046673B true CN111046673B (zh) 2021-09-03

Family

ID=70236917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911296950.2A Active CN111046673B (zh) 2019-12-17 2019-12-17 一种用于防御文本恶意样本的对抗生成网络的训练方法

Country Status (1)

Country Link
CN (1) CN111046673B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723368B (zh) * 2020-05-28 2023-12-15 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及系统
CN111651561B (zh) * 2020-06-05 2023-05-02 拾音智能科技有限公司 一种高质量困难样本生成方法
CN111741018B (zh) * 2020-07-24 2020-12-01 中国航空油料集团有限公司 工控数据攻击样本生成方法、系统、电子设备及存储介质
CN112115267B (zh) * 2020-09-28 2023-07-07 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112287645B (zh) * 2020-11-09 2022-07-26 北京理工大学 一种基于生成式对抗网络的恶意pdf文档生成方法
CN112417151A (zh) * 2020-11-16 2021-02-26 新智数字科技有限公司 一种生成分类模型方法、文本关系分类方法和装置
CN112613036A (zh) * 2020-12-29 2021-04-06 北京天融信网络安全技术有限公司 恶意样本增强方法、恶意程序检测方法及对应装置
CN112966685B (zh) * 2021-03-23 2024-04-19 深圳赛安特技术服务有限公司 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112966112B (zh) * 2021-03-25 2023-08-08 支付宝(杭州)信息技术有限公司 基于对抗学习的文本分类模型训练和文本分类方法及装置
CN112948887B (zh) * 2021-03-29 2023-03-28 北京交通大学 基于对抗样本生成的社会工程学防御方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109871898A (zh) * 2019-02-27 2019-06-11 南京中设航空科技发展有限公司 一种利用生成对抗网络生成堆积物训练样本的方法
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures
US11741693B2 (en) * 2017-11-15 2023-08-29 Palo Alto Research Center Incorporated System and method for semi-supervised conditional generative modeling using adversarial networks
CN108923922B (zh) * 2018-07-26 2021-04-23 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN109617909B (zh) * 2019-01-07 2021-04-27 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN109871898A (zh) * 2019-02-27 2019-06-11 南京中设航空科技发展有限公司 一种利用生成对抗网络生成堆积物训练样本的方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注
CN110263324A (zh) * 2019-05-16 2019-09-20 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Adversarial Examples: Attacks and Defenses for Deep Learning;Xiaoyong Yuan 等;《IEEE Transactions on Neural Networks and Learning Systems》;20190114;第30卷(第9期);2805-2824 *
Are Generative Classifiers More Robust to Adversarial Attacks?;Yingzhen Li 等;《International Conference on Machine Learning》;20180228;3804–3814 *
Generative adversarial networks for data augmentation in machine fault diagnosis;Siyu Shao 等;《Computers in Industry》;20190430;85-93 *
Generative Adversarial Networks For Launching and Thwarting Adversarial Attacks on Network Intrusion Detection Systems;Muhammad Usama 等;《2019 15th International Wireless Communications and Mobile Computing Conference》;20190630;78-83 *
基于生成对抗网络的恶意代码识别研究与应用;曹启云;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第01期);I139-187 *
计算机网络安全防护技术研究;周文;《科技创新与应用》;20150618(第17期);89 *

Also Published As

Publication number Publication date
CN111046673A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046673B (zh) 一种用于防御文本恶意样本的对抗生成网络的训练方法
Makhzani et al. Adversarial autoencoders
Le et al. Using synthetic data to train neural networks is model-based reasoning
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
Lazaridou et al. Emergence of linguistic communication from referential games with symbolic and pixel input
Wu et al. Are you talking to me? reasoned visual dialog generation through adversarial learning
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
Ghosh et al. Contextual lstm (clstm) models for large scale nlp tasks
Amiri et al. Adventures in data analysis: A systematic review of Deep Learning techniques for pattern recognition in cyber-physical-social systems
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN109918510A (zh) 跨领域关键词提取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN110110318B (zh) 基于循环神经网络的文本隐写检测方法及系统
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
Magassouba et al. Understanding natural language instructions for fetching daily objects using gan-based multimodal target–source classification
CN112949647A (zh) 三维场景描述方法、装置、电子设备和存储介质
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
Cho et al. Non-contrastive self-supervised learning of utterance-level speech representations
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
Bie et al. Facial expression recognition from a single face image based on deep learning and broad learning
CN115797747A (zh) 基于模型权重变异和置信度距离的对抗样本检测方法
CN108829675A (zh) 文档表示方法及装置
Shekhar et al. Exploring adversaries to defend audio captcha
Starc et al. Constructing a Natural Language Inference dataset using generative neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant