CN109117482B

CN109117482B - 一种面向中文文本情感倾向性检测的对抗样本生成方法

Info

Publication number: CN109117482B
Application number: CN201811081210.2A
Authority: CN
Inventors: 王丽娜; 王文琦; 汪润; 唐奔宵
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2021-07-06
Anticipated expiration: 2038-09-17
Also published as: CN109117482A

Abstract

本发明公开了一种面向中文文本情感倾向性检测的对抗样本生成方法，首先对输入的样本数据进行预处理；然后构造中文词语字典，构建深度学习替代模型，并对模型进行训练及参数调整；最后把正常样本输入深度学习替代模型，计算输入中各个词语的重要程度，对其进行修改生成对抗样本，修改后样本数据对原数据的语义改变微小，并不影响人对表达意思的理解。本发明证明以中文信息为数据基础的对抗攻击的存在性，验证中文对抗样本能诱导深度神经网络模型产生错误的分类，进一步证实对抗样本的迁移性。揭示了文本类型对抗样本攻击的机理，并为深度神经网络模型针对对抗样本攻击方面的安全性验证和测试提供样例，为防御性的对抗训练方法提供数据来源。

Description

一种面向中文文本情感倾向性检测的对抗样本生成方法

技术领域

本发明属于人工智能信息安全技术领域，涉及一种针对深度学习模型攻击的方法，具体涉及一种面向中文文本情感倾向性检测的对抗样本生成方法。

背景技术

基于深度神经网络的机器学习方法已被应用于许多领域，如计算机视觉、语音识别、自然语言处理、恶意软件检测等，但DNN在上述应用中都面临着对抗样本攻击的威胁。研究已表明对于一些机器学习模型，包括在多方面表现很好的神经网络模型,面对攻击者策略性细微修改的对抗样本攻击时表现出明显的脆弱性。对抗样本不仅体现在图像领域，基于DNN的文本倾向性检测也同样存在此类问题。当判断网络中传播的文本信息是正常还是异常时，攻击者可以利用对抗样本生成的方法对异常信息进行处理，使处理之后的异常信息被检测系统误判为正常信息，“避开”系统的检测。亦或者是攻击评论系统来恶意刷评论，影响人们对商品的感观。例如某商品经过宣传后销量应有所增加，然而由于攻击者制作的恶意对抗样本欺骗了DNN检测器并在网络中传播，影响人们对该商品的印象，造成滞销或销量降低，产生负面的经济影响。这自然引起了人们对深度学习模型鲁棒性的关注，因为深度学习模型在实际生活中应用广泛，其中包括安全敏感性应用。

对抗样本的攻击按攻击者对目标模型的了解程度可分为白盒、黑盒可探测以及黑盒不可探测攻击。白盒情景下攻击者对模型完全掌握，包括模型的类型、结构、所有参数及权重值；黑盒可探测情景下攻击者对目标模型部分了解，但能对模型进行探测或查询，如通过输入观察输出结果；黑盒不可探测情景下攻击者对目标模型了解有限或完全没有，构建对抗样本时不允许对目标模型进行探测查询。按攻击者的输出意愿可分为非目标攻击和目标攻击。在非目标攻击场景中，攻击者的目的是引起深度学习模型产生错误的分类结果，对于结果是否为特定的某一类并不做要求；而目标攻击则是改变模型的预测结果，其被划分在特定的类别中。

目前对抗样本方面的研究大多集中在图像领域，代表性的方法是在白盒条件下使用梯度下降算法计算图像中像素的梯度变化情况，以此向图像中添加“噪声”达到生成对抗样本的目的。而自然语言处理领域，目前的研究都是针对英文数据，一般的修改方法有对输入中单词的字母进行操作，如单词中字母的插入、删除、修改以及相邻两字母间的位置交换。此外，则是对输入中的单词、短语、句子段落进行插入、删除、替换修改。而这些方法并不适用于中文数据，每个汉字都是一个独立的单元，不可拆分，因此针对单词中字母进行修改的方法并不适用；而对词语、句子段落进行修改会影响输入文本的原意，同时修改幅度过大易被察觉，影响文本的可读性。而使用同义词和错拼词、词库中邻近词、添加标点的方式，这些方法会改变原输入语句的意思，也不适用。

发明内容

本发明主要是解决上述现有利用文本类型对抗样本生成方法不适用于中文数据的技术问题，提供了一种面向中文文本情感倾向性检测的对抗样本生成方法。

本发明所采用的技术方案是：一种面向中文文本情感倾向性检测的对抗样本生成方法，其特征在于，包括以下步骤：

步骤1：对输入的样本数据进行预处理；

步骤2：构造中文词语字典，构建深度学习替代模型，并对深度学习替代模型进行训练及参数调整；

步骤3：把正常样本输入深度学习替代模型，计算输入中各个词语的重要程度，对其进行修改生成对抗样本。

本发明证明以中文信息为数据基础的对抗攻击的存在性，验证中文对抗样本能诱导深度神经网络模型产生错误的分类(如把一个购物好评误分为差评)，进一步证实对抗样本的迁移性。揭示了文本类型对抗样本攻击的机理，并为深度神经网络模型针对对抗样本攻击方面的安全性验证和测试提供样例，为防御性的对抗训练方法提供数据来源。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例的对抗样本生成示例图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种面向中文文本情感倾向性检测的对抗样本生成方法，包括以下步骤：

步骤1：对输入的样本数据进行预处理；

具体实现包括以下子步骤：

步骤1.1：清理数据，删除掉无词义的符号、空格；

步骤1.2：为各类数据添加类别标签；

所述类别标签包括情感倾向中的标签正面和负面标签，类别分类中的类别从属标签；

步骤1.3：对输入样本数据进行分词。

具体实现包括以下子步骤：

步骤2.1：基于word2vec构建中文词语字典，构建每个词语的索引、词向量以及每个句子对应的词语索引；

步骤2.2：根据分词后得到的词或词组的频数设置其索引值，频数小于预设阈值的词或词组索引设置为0，且索引值为0的短语或句子其向量也全为0；

步骤2.3：构建深度学习替代模型，设置输入层维度、丢弃率、迭代次数，添加输入层结点、隐藏层层数及输出层结点数，隐藏层激活函数为tanh，输出层激活函数为softmax，损失函数为categorical_crossentropy。

步骤3：把正常样本输入深度学习替代模型，计算输入中各个词语的重要程度，对其进行修改生成对抗样本；

本实施例预先训练一个LSTM替代模型，把一个文本数据作为输入，经过LSTM替代模型后输出一个分数s，根据预先设定的阈值与s的比较来判别该输入的类别倾向；具体判别准则为：

①获取训练集，设定训练集中的正负样本评论数据分别标记为1和0，倾向分类判别阈值用λ表示；当s>λ时，该输入被判别为正样本(positive)；当s<＝λ时，被判别为负样本(negative)；

本实施例的训练集为网上下载的中文数据集及自己爬虫得到的携程酒店住宿评论和京东购物评论；以酒店住宿或购物评论为例，正样本就是正面评论或好评，负样本则相反。

②原始样本分词后依次输入得到各自的分数，认为s在β到α之间的词语为偏中性，不带情感倾向或倾向微弱；s>α，偏正面，s<β，偏负面；其中，β、α为设定的两个阈值，用于进一步较精确的划分情感倾向；

③名词不包含明显的情感倾向，排除在修改序列外；

则步骤3的具体实现包括以下子步骤：

步骤3.1：样本数据输入到LSTM替代模型中，分词后计算样本中各个词语的分数s；

步骤3.2：统计计算的分数中大于α和小于β词的数目，分别记为P和N；

步骤3.3：比较P和N的大小，若P>N，则认为输入的数据偏正面，反之则认为输入的数据偏负面；

步骤3.4：利用评分函数计算输入文本数据中各个词或词组的重要程度；

对输入样本数据X进行分词得到X＝[x₁,x₂,x₃,…,x_n]，n表示分词的长度，对序列中的第i个词语，计算整句输入和移除第i个词语后的输入分数的差值DS(x_i)：

DS(x_i)＝F(x₁,…,x_i-1,x_i,x_i+1,…,x_n)-F(x₁,…,x_i-1,x_i+1,…,x_n)

其中，F(x₁,…,x_i-1,x_i,x_i+1,…,x_n)为求输入数据分数s的功能函数；

计算序列中的第i个词语的预测分数FS(x_i)，通过计算输入中的前i个词语和前i-1个词语分数的差值：

FS(x_i)＝F(x₁,x₂,…,x_i-1,x_i)-F(x₁,x₂,…,x_i-1)

其中假定当i＝1时，FS(x_i)＝0；

提取输入数据中的关键词，计算TF-IDF值，

TF-IDF＝TF*IDF；

其中，TF＝词语在当前输入样本数据中出现的次数/当前输入样本数据的总词数；IDF＝log(输入样本数据的总数目/(包含该词的输入样本数据的数目+1))；

移除计算得到的关键词中的名词词语，找到这些关键词在X＝[x₁,x₂,x₃,…,x_n]中的位置索引，把长度为n的零向量中相应位置的数值0用TF-IDF值替代，最后对向量归一化得到TIS(x_i)；

最终通过评分函数对输入样本X中的第i个词语重要程度进行计算：

score(x_i)＝DS(x_i)*w₁+FS(x_i)*w₂+TIS(x_i)*w₃

其中，w₂是一个超参数，w₁、w₃为动态参数。

本实施例中，深度学习替代模型对样本的分类阈值λ数值为0.5，α、β的数值分别为0.6和0.4，修改幅度m的最大值为30，超参w₂的值为0.4；

步骤3.5：若输入数据偏正面，对各个词的分数s按降序排列，若输入数据偏负面，则按升序排列；

步骤3.6：对排序在前m的词或剔除名词后的词组用同音词替换修改得到对抗样本，m为对输入样本的修改幅度。

本实施例针对生成的对抗样本，测试生成的对抗样本能否诱导深度学习替代模型产生错误的分类，具体实现过程是：

以数据评论为例(类别有好评和差评两类)，根据步骤3.3初步判断该输入数据所属的类别，目的是使经过修改后数据再次分类时所属的类别与第一次的结果不同，即好评数据修改后被分为差评数据。由步骤3.6得到的排序数据，由前到后依次修改，直到修改排序第m个数据后其分类结果恰好发生改变为止。

本实施例针对生成的对抗样本，对结构、参数未知的用于情感倾向性分析的长短记忆网络模型和卷积神经网络模型进行黑盒攻击，验证对抗样本的迁移性。

请见图2，为本发明实施例的对抗样本生成示例图，以下通过中文样本数据为例说明中文文本数据类型对抗样本生成方法。

把图2中的中文样本“屏幕较差，拍照也很粗糙。”作为输入数据导入训练的深度学习替代模型中，得出其情感倾向分类类别为负面评论，和其原本的情感倾向符合；其详细说明过程如下：

步骤1：以图2中的数据样本为例制作对抗样本，把该数据进行分词，得到“屏幕”、“较差”、“拍照”、“也”、“很”、“粗糙”等词或词组。把这些词依次输入到深度学习替代模型中，情感倾向性偏向负面的词如“较差”、“粗糙”等明显占据优势，而诸如“屏幕”、“拍照”等词不含倾向性，因此判定该样本为负面评论；

步骤2：根据设计的评分函数DS(x_i)、FS(x_i)、TF-IDF值计算样本中各个词或词语的重要程度。而为了是分类深度学习替代模型对样本数据产生错误的分类，对词的重要程度进行升序排列，排名越靠前说明该词或词组的情感倾向性越偏向于负面；

步骤3：对升序排列中排序靠前的负面倾向词逐一进行同音词替换，使其倾向偏中性或偏正面，直到整个样本数据的整体情感倾向偏正面为止。经过评分函数计算得到的分数排序由前到后为“较差”、“粗糙”、“很”、“拍照”、“也”，(“屏幕”这个名词被剔除掉了)为了使这个负面评论经过修改后能被误分为正面评论，先对“较差”进行修改，把修改后的“屏幕交叉，拍照也很粗糙。”输入到模型中，被分为负面评论。没达到效果继续修改“粗糙”，把修改后的“屏幕交叉，拍照也很出操。”输入到模型中，被分为正面评论，成功使模型产生错误分类，结束。

从以上描述可知，本发明采用网络中用户的购物评论或酒店住宿评论等中文数据集，设计新的词语重要程度计算方法，用同义词替换原词生成中文文本类型对抗样本数据，对黑盒状态下的深度学习模型进行攻击，并验证了对抗样本数据的可迁移性。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向中文文本情感倾向性检测的对抗样本生成方法，其特征在于，包括以下步骤：

步骤1：对输入的样本数据进行预处理；

步骤1的具体实现包括以下子步骤：

步骤1.1：清理数据，删除掉无词义的符号、空格；

步骤1.2：为各类数据添加类别标签；

步骤1.3：对输入样本数据进行分词；

步骤2的具体实现包括以下子步骤：

步骤2.3：构建深度学习替代模型，设置输入层维度、丢弃率、迭代次数，添加输入层结点、隐藏层层数及输出层结点数，隐藏层激活函数为tanh，输出层激活函数为softmax，损失函数为categorical_crossentropy；

步骤3中，预先训练一个LSTM替代模型，把一个文本数据作为输入，经过LSTM替代模型后输出一个分数s，根据预先设定的阈值与s的比较来判别该输入的类别倾向；具体判别准则为：

①获取训练集，设定训练集中的正负样本评论数据分别标记为1和0，倾向分类判别阈值用λ表示；当s>λ时，该输入被判别为正样本；当s<＝λ时，被判别为负样本；

③名词不包含明显的情感倾向，排除在修改序列外；

则步骤3的具体实现包括以下子步骤：

步骤3.4的具体实现过程是：依据主题模型，将功能评论按照语义特征进行无监督的聚类分析；其中，主题的个数设置为权限的个数；

DS(x_i)＝F(x₁,…,x_i-1,x_i,x_i+1,…,x_n)-F(x₁,…,x_i-1,x_i+1,…,x_n)

FS(x_i)＝F(x₁,x₂,…,x_i-1,x_i)-F(x₁,x₂,…,x_i-1)

其中假定当i＝1时，FS(x_i)＝0；

提取输入数据中的关键词，计算TF-IDF值，

TF-IDF＝TF*IDF；

score(x_i)＝DS(x_i)*w₁+FS(x_i)*w₂+TIS(x_i)*w₃

其中，w₂是一个超参数，w₁、w₃为动态参数；

步骤3.5:若输入数据偏正面，对各个词的分数s按降序排列，若输入数据偏负面，则按升序排列；

2.根据权利要求1所述的面向中文文本情感倾向性检测的对抗样本生成方法，其特征在于：针对生成的对抗样本，测试生成的对抗样本能否诱导深度学习替代模型产生错误的分类，具体实现过程是：

输入样本X，经过上述步骤计算得到其各个词或词组的重要程度，根据重要性高低依次修改，直到修改后的样本输入到模型中得到的分类结果与其原本的类别不同。

3.根据权利要求1所述的面向中文文本情感倾向性检测的对抗样本生成方法，其特征在于：针对生成的对抗样本，对结构、参数未知的用于情感倾向性分析的长短记忆网络模型和卷积神经网络模型进行黑盒攻击，验证对抗样本的迁移性。