CN111046673B

CN111046673B - 一种用于防御文本恶意样本的对抗生成网络的训练方法

Info

Publication number: CN111046673B
Application number: CN201911296950.2A
Authority: CN
Inventors: 唐卓; 周文; 李肯立; 方小泉; 阳王东; 周旭; 刘楚波; 曹嵘晖
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2021-09-03
Anticipated expiration: 2039-12-17
Also published as: CN111046673A

Abstract

本发明公开了一种用于防御文本恶意样本的对抗生成网络及其训练方法，利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的防御与生成。生成器部分由自编码器(Auto‑encoder)构成，将离散的文本数据映射到连续的高维隐藏空间中，由此生成器可以利用隐藏向量生成恶意文本。判别器即判别模型，用于识别数据。生成模型生成的恶意文本将被打上真实标签与真实样本同时输入判别模型中，来进行判别模型的训练。加入恶意样本训练的判别模型能够对文本数据准确高效的识别。生成模型利用判别模型对恶意样本的评估分数以及文本数据与恶意样本的差别进行训练，来生成攻击力更强的恶意样本。由于训练过程中恶意样本的加入和对抗性的网络训练过程，网络识别文本数据能力和抗干扰性、防御能力都大幅提升。

Description

一种用于防御文本恶意样本的对抗生成网络的训练方法

技术领域

本发明属于文本数据处理技术领域，更具体地，涉及一种用于防御文本恶意样本的对抗生成网络及其训练方法。

背景技术

恶意样本是在近几年在图像识别以及文本处理中被发现，对于机器学习和深度学习在文本数据处理的领域有着极强的攻击性。恶意样本即对抗样本，对抗样本是在数据中加入人眼不可察觉的扰动，使得模型对数据的标签预测发生混淆和错误。对抗样本是各种机器学习系统需要克服的一大障碍。对抗样本的存在表明模型倾向于依赖不可靠的特征来最大化性能，如果特征受到干扰，那么将造成模型误分类，可能导致灾难性的后果。因此，对抗样本的防御在文本数据处理过程中至关重要。

现有的对于恶意样本防御的方法主要有两种：其一是在文本判别模型学习中修改训练过程，或者修改输入的文本样本，对样本进行人工去噪、数据压缩等预处理的过程；其二是修改进行文本处理的网络结构，例如增加多层或子网络结构、改变损失函数和激活函数等。

上述两种方法分别从样本处理的角度和改变模型的角度对网络模型进行了改进，能够起到对于对抗样本一定的防御作用，但是它们均存在着不可忽略的缺陷：其均只能从主观意识上对数据和网络进行修改，但在训练阶段没有使用恶意样本，因此其不能保证对恶意样本的完全防御。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种用于防御文本恶意样本的对抗生成网络及其训练方法，其目的在于，解决现有恶意样本防御方法中无法保证对恶意样本的完全防御的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种用于防御文本恶意样本的对抗生成网络，包括彼此互相耦接的生成模型和判别模型，生成模型用于根据文本分类数据集进行训练，并在训练好后根据输入的真实样本生成第一样本，将第一样本打上和真实样本相同的标签，并一起输入判别模型。判别模型用于根据打上标签后的第一样本和真实样本进行训练，在训练好后获取恶意标签，根据该恶意标签、以及第一样本输入判别模型后的结果得到第一损失值，将该第一损失值、以及根据第一样本和真实样本得到的第二损失值相加，并使用相加结果训练生成模型。生成模型训练好后根据输入的真实样本生成恶意样本。

按照本发明的另一方面，提供了一种用于防御文本恶意样本的对抗生成网络的训练方法，包括以下步骤：

(1)从网络获取文本分类数据集(X,Y)，其中X表示文本数据集合，Y表示文本数据集合所对应的标签集合，且Y＝{y₁,y₂,…,y_m}，其中m表示标签集合中的标签个数；

(2)遍历步骤(1)获取的文本分类数据集中所有文本数据中的词，按照词在文本分类数据集中出现的顺序为该词分配ID号作为该词对应的索引号，并将所有词作为键、该词对应的索引号作为值建立词表；

(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号，将所有索引号输入生成模型中进行预训练，以得到预训练后的生成模型；

(4)使用每个文本数据x⁽ⁱ⁾＝{x_i1,x_i2,…,x_in}对应的真实标签y⁽ⁱ⁾为每个句子

进行标注，将得到的所有标注结果(X^*,Y)和文本分类数据集(X,Y)进行随机混合后，并将混合结果中的真实标签y₁,y₂,…,y_m分别转换为向量y′₁,y′₂…,y′_m，将混合结果输入判别模型，以得到每个文本数据x⁽ⁱ⁾对应于标签集合Y中各个标签的概率分布P⁽ⁱ⁾＝{p(y₁|x⁽ⁱ⁾),p(y₂|x⁽ⁱ⁾),…,p(y_m|x⁽ⁱ⁾)}；

(5)根据步骤(4)得到的每个文本数据x⁽ⁱ⁾对应于标签集合Y中各个标签的概率P⁽ⁱ⁾、以及真实标签转换后的向量y′⁽ⁱ⁾建立目标函数，并根据该目标函数对判别模型进行训练，以得到训练好的判别模型；

(6)固定步骤(5)训练后得到的判别模型中的所有参数，将每个文本数据x⁽ⁱ⁾输入步骤(3)预训练后的生成模型，以得到句子作为恶意样本x^*(i)，将恶意样本x^*(i)输入步骤(5)训练好的判别模型，以得到恶意样本x^*(i)对应于标签集合Y中各个标签的概率分布P⁽ⁱ⁾＝{p(y₁|x⁽ⁱ⁾),p(y₂|x⁽ⁱ⁾),…,p(y_m|x⁽ⁱ⁾)}；

(7)随机生成恶意标签y^*(i)(其不等于真实标签y⁽ⁱ⁾)，将恶意标签y^*(i)分别转换为向量y′’^*(i)；

(8)根据步骤(6)得到的概率分布P⁽ⁱ⁾和步骤(7)得到的向量y′’^*(i)获得损失函数；

(9)根据步骤(8)得到的损失函数对生成模型进行训练，以得到训练后的生成模型，此时的生成模型可以根据文本数据集合X产生恶意样本；

(10)重复上述步骤(4)到(9)达预设迭代次数，过程结束。

优选地，步骤(3)的预训练过程具体为，首先抽取文本数据集合X中的每个文本数据x⁽ⁱ⁾＝{x_i1,x_i2,…,x_in}，如果该文本数据长度不足n，则将其通过补零变成固定长度n，如果超过n则删除文本数据结尾处多余的词，从而得到更新后的多个文本数据，将更新后的多个文本数据输入该生成模型，根据该生成模型的输出和更新后的多个文本数据，并采用极大似然估计对生成器型进行预训练，其中x_in表示第i个文本数据中的第n个单词，n表示句子长度，i表示文本数据集合X中文本数据的序号，第i个文本数据对应的标签用y⁽ⁱ⁾表示。

优选地，步骤(3)中使用的生成模型是由自编码器构成，自编码器包括彼此连接的编码器和解码器，编码器和解码器均包括词嵌入层、以及三层LSTM网络。

优选地，步骤(3)中采用极大似然估计对生成器型进行预训练，这一过程包括：

(3-1)将更新后的多个文本数据按批次输入编码器的词嵌入层，以得到m*n*200个句子向量，其中m表示一个批次的文本数据数量，并优选等于128；

(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络，以得到多个第一层隐藏状态，将多个第一层隐藏状态输入第二层LSTM网络，以得到第二层隐藏状态，再将第二层隐藏状态输入第三层LSTM网络，以得到第三层隐藏状态，从而得到3个包含句子语义信息的向量；

(3-3)将更新后的多个文本数据按批次输入解码器的词嵌入层，以得到m*n*200个句子向量；

(3-4)以步骤(3-3)得到的m*n*200个句子向量作为初始隐藏状态，将步骤(3-2)得到的3个包含句子语义信息的向量输入解码器，从而得到三层LSTM网络的隐藏状态、以及多个词向量，并根据该多个词向量获取多个对应的句子

(3-5)根据步骤(3-4)得到的每个句子x^*(i)和文本数据集合X中的每个文本数据x⁽ⁱ⁾建立目标函数；

(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。

优选地，步骤(3-5)建立的目标函数

优选地，步骤(4)具体是将混合结果中的y_m转换为向量y′_m，就是将向量y′_m中除了第m个以外的所有元素设置为0，第m个元素设置为1，步骤(4)中的判别模型是使用的是用于关系分类的双向长短期记忆网络，且包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。

优选地，步骤(5)中建立的目标函数为：

优选地，步骤(8)中的损失函数Loss等于：loss＝loss₁+loss₂；

其中损失函数的一部分为：

另一部分为：

其中λ为0到1之间的小数。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明在训练判别模型时，不仅使用了本发明获取的文本分类数据集，还将训练好的生成模型所生成的恶意样本标注真实标签输入判别模型，在提高判别模型识别文本数据能力的同时，极大的增强了判别模型对于恶意样本的防御能力；

2、由于本发明通过固定当前判别模型的参数，来继续训练生成模型，得到对于当前判别模型最优的生成模型，提高了生成模型生成恶意样本的能力，从而进一步提升了判别模型对于恶意样本的防御能力。

附图说明

图1是本发明使用的判别模型的训练示意图。

图2是本发明使用的判别模型的结构示意图。

图3是本发明使用的生成模型的训练流程图。

图4是本发明作为生成模型的自编码器的结构示意图。

图5是本发明用于防御文本恶意样本的对抗生成网络的训练方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

生成式对抗网络(GAN)是一个新的机器学习的思想。GAN模型中的两位博弈方分别由生成模型(Generative model)和判别模型(Discriminative model)充当。生成模型在图像以及文本生成方面表现了极大的创造力和性能。判别模型对于区分伪造的图像和文字性能会随着生成模型能力的增加而增加。生成模型G捕捉样本数据的分布，用服从某一分布(均匀分布，高斯分布等)的噪声z经过深度神经网络生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型D是一个二分类器，估计一个样本来自于训练数据(而非生成数据)的概率，如果样本来自于真实的训练数据，D输出大概率，否则，D输出小概率。GAN的优化是一个极小极大博弈问题。利用生成模型生成恶意样本，判别模型作为恶意样本的防御是非常合适的。因此，如何有效地利用对抗生成网络中的博弈的方法不断地提高判别模型的鲁棒性并将其运用到文本处理的过程中来是本发明所考虑的重点。

本发明的基本思路在于，提供了一种用于防御文本恶意样本的对抗生成网络及其训练方法，利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的检测与生成。生成器部分由自编码器(auto-encoder)构成，判别模型为文本判别模型，用于识别数据。生成模型生成的恶意文本将被打上对抗标签与真实样本同时输入判别模型中，来进行判别模型的训练。由于训练过程中恶意样本的加入和对抗性的网络训练过程，网络识别文本数据能力和抗干扰性、防御能力都大幅提升。对抗生成网络包含两个部分，分为生成模型G和判别模型D。训练过程中，先固定其中一个网络模型的参数，将另一部分的网络模型训练到当前固定参数模型最优的状态，然后按照这种方式训练另一个模型的参数，双方互相博弈地提升模型性能。对生成模型和判别模型交替迭代训练，会使得判别模型的防御能力不断提升。

下面将结合附图对本发明作进一步的说明：

如图1所示，本发明提供了一种用于防御文本恶意样本的对抗生成网络，包括彼此互相耦接的生成模型和判别模型，其中生成模型用于根据文本分类数据集进行训练，并在训练好后根据输入的真实样本生成第一样本，将第一样本打上和真实样本相同的标签，并一起输入判别模型。判别模型用于根据打上标签后的第一样本和真实样本进行训练，在训练好后获取恶意标签，根据该恶意标签、以及第一样本输入判别模型后的结果得到第一损失值，将该第一损失值、以及根据第一样本和真实样本得到的第二损失值相加，并使用相加结果训练生成模型。生成模型训练好后根据输入的真实样本生成恶意样本。

具体而言，本发明中的文本分类数据集是从网络获取的公开数据集，例如DBpedia。

如图5所示，本发明用于防御文本恶意样本的对抗生成网络的训练方法包括以下步骤：

举例而言，对于文本分类数据集中第一个文本数据中的第一个词，其分配的ID号(即索引号)就是0。

(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号，将所有索引号输入生成模型(如图4所示)中进行预训练，以得到预训练后的生成模型；

具体而言，预训练过程首先是抽取文本数据集合X中的每个文本数据x⁽ⁱ⁾＝{x_i1,x_i2,…,x_in}，如果该文本数据长度不足n，则将其通过补零变成固定长度n，如果超过n则删除文本数据结尾处多余的词，从而得到更新后的多个文本数据，将更新后的多个文本数据输入该生成模型，根据该生成模型的输出和更新后的多个文本数据，并采用极大似然估计对生成器型进行预训练，其中x_in表示第i个文本数据中的第n个单词，n表示句子长度，i表示文本数据集合X中文本数据的序号，第i个文本数据对应的标签用y⁽ⁱ⁾表示。

具体而言，本步骤中使用的生成模型是由自编码器构成，自编码器包括彼此连接的编码器和解码器，编码器和解码器均包括词嵌入(Embedding)层、以及三层LSTM网络。

本步骤中采用极大似然估计对生成器型进行预训练这一过程包括：

(3-1)将更新后的多个文本数据按批次(一批为m个)输入编码器的词嵌入层(其词向量维度是200)，以得到m*n*200个句子向量，其中m优选为128个；

(3-2)将步骤(3-1)得到的m*n*200个句子向量输入第一层LSTM网络(其包括128个神经元)，以得到多个第一层隐藏状态(Hidden status)，将多个第一层隐藏状态输入第二层LSTM网络(其包括128个神经元)，以得到第二层隐藏状态，再将第二层隐藏状态输入第三层LSTM网络(其包括128个神经元)，以得到第三层隐藏状态，从而得到3个包含句子语义信息的向量；

(3-3)将更新后的多个文本数据按批次(一批为m个)输入解码器的词嵌入层(其词向量维度是200)，以得到m*n*200个句子向量，其中m优选为128个；

(3-5)根据步骤(3-4)得到的每个句子x^*(i)和文本数据集合X中的每个文本数据x⁽ⁱ⁾建立目标函数：

(3-6)根据步骤(3-5)建立的目标函数对生成模型进行预训练。

进行标注，将得到的所有标注结果(X^*,Y)和文本分类数据集(X,Y)进行随机混合后，并将混合结果中的真实标签y₁,y₂,…,y_m分别转换为向量y′₁,y′₂…,y′_m(每个向量都是m维的)，将混合结果输入判别模型(如图2所示)，以得到每个文本数据x⁽ⁱ⁾对应于标签集合Y中各个标签的概率分布P⁽ⁱ⁾＝{p(y₁|x⁽ⁱ⁾),p(y₂|x⁽ⁱ⁾),…,p(y_m|x⁽ⁱ⁾)}；

具体而言，将混合结果中的y_m转换为向量y′_m，就是将向量y′_m中除了第m个以外的元素设置为0，第m个元素设置为1。

本步骤的判别模型是使用的是用于关系分类的双向长短期记忆网络(Bidirectional Long Short-Term Memory Networks for Relation Classification)。

判别模型包括顺次耦接的输入层、词嵌入层、双向LSTM网络、注意力机制层、全连接层、以及输出层。

(5)根据步骤(4)得到的每个文本数据x⁽ⁱ⁾对应于标签集合Y中各个标签的概率P⁽ⁱ⁾、以及真实标签转换后的向量y′⁽ⁱ⁾建立目标函数，并根据该目标函数对判别模型进行训练，以得到训练好的判别模型(如图1所示)，其中目标函数为：

(7)随机生成恶意标签y^*(i)(其不等于真实标签y⁽ⁱ⁾)，将恶意标签y^*(i)分别转换为向量y′’^*(i)(每个向量都是m维的)；

(8)根据步骤(6)得到的概率分布P⁽ⁱ⁾和步骤(7)得到的向量y′’^*(i)获得损失函数，loss＝loss₁+loss₂；

其中损失函数的一部分为：

另一部分为：

其中λ为0到1之间的小数。

(9)根据步骤(8)得到的损失函数对生成模型进行训练，以得到训练后的生成模型，此时的生成模型可以根据文本数据集合X产生恶意样本，如图3所示；

(10)重复上述步骤(4)到(9)达预设迭代次数，过程结束。

在本步骤中，预设的迭代次数是150次。

本发明所示的方法采用攻防结合的方式训练，不断地提高了分类器对于文本的识别分类能力，根据合成的恶意数据对判别模型抗干扰能力、鲁棒性有了极大的增强。

本发明提出了一种用于防御文本恶意样本的对抗生成网络及其训练方法，利用对抗生成网络框架中的生成模型和判别模型进行恶意样本的检测与生成。生成器部分由自编码器(auto-encoder)构成，判别模型即判别模型，能高效准确识别数据。生成模型生成的恶意文本将被打上标签与真实样本同时输入判别模型中，来进行判别模型的训练。由于训练过程中恶意样本的加入和对抗性的网络训练过程，网络识别文本数据能力和抗干扰性、防御能力都大幅提升。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于防御文本恶意样本的对抗生成网络的训练方法，其特征在于，包括以下步骤：

(1)从网络获取文本分类数据集(X，Y)，其中X表示文本数据集合，Y表示文本数据集合所对应的标签集合，且Y＝{y₁，y₂，...，y_m}，其中m表示标签集合中的标签个数；

(3)将获取的文本分类数据集中的文本数据集合X通过步骤(2)所建立的词表转换为索引号，将所有索引号输入生成模型中进行预训练，以得到预训练后的生成模型；其中步骤(3)的预训练过程具体为，首先抽取文本数据集合X中的每个文本数据x⁽ⁱ⁾＝{x_i1，x_i2，...，x_in}，如果该文本数据长度不足n，则将其通过补零变成固定长度n，如果超过n则删除文本数据结尾处多余的词，从而得到更新后的多个文本数据，将更新后的多个文本数据输入该生成模型，根据该生成模型的输出和更新后的多个文本数据，并采用极大似然估计对生成器型进行预训练，其中x_in表示第i个文本数据中的第n个单词，n表示句子长度，i表示文本数据集合X中文本数据的序号，第i个文本数据对应的标签用y⁽ⁱ⁾表示；

(4)使用每个文本数据x⁽ⁱ⁾＝{x_i1，x_i2，...，x_in}对应的真实标签y⁽ⁱ⁾为每个句子

进行标注，将得到的所有标注结果(X^*，Y)和文本分类数据集(X，Y)进行随机混合后，并将混合结果中的真实标签y₁，y₂，...，y_m分别转换为向量y′₁，y′₂...，y′_m，将混合结果输入判别模型，以得到每个文本数据x⁽ⁱ⁾对应于标签集合Y中各个标签的概率分布P⁽ⁱ⁾＝{p(y₁|x⁽ⁱ⁾)，p(y₂|x⁽ⁱ⁾)，...，p(y_m|x⁽ⁱ⁾)}；

(6)固定步骤(5)训练后得到的判别模型中的所有参数，将每个文本数据x⁽ⁱ⁾输入步骤(3)预训练后的生成模型，以得到句子作为恶意样本x^*(i)，将恶意样本x^*(i)输入步骤(5)训练好的判别模型，以得到恶意样本x^*(i)对应于标签集合Y中各个标签的概率分布P⁽ⁱ⁾＝{p(y₁|x⁽ⁱ⁾)，p(y₂|x⁽ⁱ⁾)，...，p(y_m|x⁽ⁱ⁾)}；

(7)随机生成恶意标签y^*(i)，其不等于真实标签y⁽ⁱ⁾，将恶意标签y^*(i)分别转换为向量y′’^*(i)；

(10)重复上述步骤(4)到(9)达预设迭代次数，过程结束。

2.根据权利要求1所述的训练方法，其特征在于，步骤(3)中使用的生成模型是由自编码器构成，自编码器包括彼此连接的编码器和解码器，编码器和解码器均包括词嵌入层、以及三层LSTM网络。

3.根据权利要求2所述的训练方法，其特征在于，步骤(3)中采用极大似然估计对生成器型进行预训练这一过程包括：

(3-1)将更新后的多个文本数据按批次输入编码器的词嵌入层，以得到m*n*200个句子向量，其中m表示一批次的文本数据数量，并优选等于128；