CN111522953A

CN111522953A - 一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质

Info

Publication number: CN111522953A
Application number: CN202010342065.XA
Authority: CN
Inventors: 顾钊铨; 朱斌; 谢禹舜; 伍丹妮; 仇晶; 韩伟红; 方滨兴
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11
Anticipated expiration: 2040-04-24
Also published as: CN111522953B; JP7005045B2; JP2021174503A

Abstract

本发明公开了一种针对朴素贝叶斯分类器的边际攻击方法，步骤包括：获取文本分类器的文本类别，并且计算两个所述文本类别之间的频率比；以所述频率比作为索引，对词汇表进行排序，得到敏感词集；随机选取若干个敏感词添加到原始样本，得到对抗样本；将所述对抗样本输入到文本分类器，得到错误分类的文本类别。本发明提供了一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质，能够高效攻击基于朴素贝叶斯的文本分类器。

Description

一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质

技术领域

本发明涉及自然语言处理及机器学习技术领域，尤其是涉及一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质。

背景技术

自然语言处理(NLP)是计算机科学研究的重要领域，文本分类是NLP领域的一个重要分支，旨在让计算机智能识别指定文本的类别。作为文本分类中最经典的方法——朴素贝叶斯算法，是对贝叶斯算法的简化，即假定目标的各属性特征相互独立。简化的朴素贝叶斯算法在时间和空间复杂度较低的情况下，仍具有很高的分类精度，因此被广泛使用。

随着机器学习的飞速发展，对抗样本的概念被提出，即通过对原始样本添加微小扰动生成对抗样本，该对抗样本使得分类器识别出错，但人眼很难区分原始样本和对抗样本。

最早提出的对抗样本是用于攻击神经网络，在论文“Explaining and HarnessingAdversarial Examples”(Goodfellow I,Shlens J,Szegedy C,et al.Explaining andHarnessing Adversarial Examples[J].2014.)中，Goodfellow等人提出快速梯度下降(FGSM)的方法来生成对抗样本，以攻击诸如ImageNet等的神经网络。在此论文中，深度神经网络被近似为如下线性模型：

f(x)＝w^Tx+b

样本加入扰动η后，模型输出为：

其中，w^T是参数矩阵；x是正常样本；η是添加的扰动；为了保证扰动是极小的，无法被人感知，存在一个极小量ε满足||η||_∞<ε；

是添加扰动后的对抗样本。

对抗性扰动体现在η项中，为了最大化扰动对模型的干扰，令η＝εsign(w)，假设w^T有n个维度，平均大小为m,则w^Tη＝εmn。虽然ε是一个极小的值，但是当维度n充分大时，w^Tη会是一个很大的值，对神经网络的预测造成很大影响。

该技术虽然可以高效生成对抗样本并使得分类器的分类精度大幅下降，但对抗样本的作用主体是图片，图片可以视作为一系列连续的像素值，而对于文本，尤其是中文文本来说，文本会被抽象为离散化的数值，故针对图像分类的对抗样本生成方法并不能完全适用到文本分类中。

在论文“Crafting Adversarial Input Sequences for Recurrent NeuralNetworks”(Papernot N,Mcdaniel P,Swami A,et al.Crafting Adversarial InputSequences for Recurrent Neural Networks[J].2016.)中，Papernot等人利用前向导数方法(JSMA)，将循环神经网络(RNN)利用计算图展开，计算出神经网络最后一层输出层对输入层的偏导，从而更精确的找到不同维度的输入与不同维度的输出之间的映射关系，有针对性的精心制作了英文文本的对抗性文本，在平均修改9个单词的情况下可以达到100％的攻击成功率，有效地攻击了基于RNN的序列到序列(Seq2Seq)模型。

但是，序列模型的输出是从无到有按顺序生成序列，而分类模型却只需要给出分类概率，因此，该技术不能很好地应用于分类场景，该攻击方法对朴素贝叶斯分类器不适用。

发明内容

针对上述技术问题，本发明提供了一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质，能够高效攻击基于朴素贝叶斯的文本分类器。所述技术方案如下：

第一方面，本发明实施例提供了一种针对朴素贝叶斯分类器的边际攻击方法，步骤包括：

获取文本分类器的文本类别，并且计算两个所述文本类别之间的频率比；

以所述频率比作为索引，对词汇表进行排序，得到敏感词集；

随机选取若干个敏感词添加到原始样本，得到对抗样本；

将所述对抗样本输入到文本分类器，得到错误分类的文本类别。

在本发明第一方面的第一种可能的实现方式中，所述获取文本分类器的文本类别，并且计算两个所述文本类别之间的频率比，具体为：

通过以下方式计算从文本分类器获得的两个文本类别在同一维度上的频率比：

其中，i,j为两个不同文本类别；

分别为两个文本类别i,j在同一维度h_k上的频率。

在本发明第一方面的第二种可能的实现方式中，所述随机选取若干个敏感词添加到原始样本，得到对抗样本，具体为：

对任意一文本进行包括分词、去除停用词的处理后，得到样本X＝[x1,x2,…,xm]，m表示样本X的词汇数目；

随机选取若干个敏感词添加到样本X末尾，得到了对抗样本X’＝[x1,x2,…,xm,wr,ws,…]。

在本发明第一方面的第三种可能的实现方式中，所述的针对朴素贝叶斯分类器的边际攻击方法，还包括对分类结果进行验证，具体如下：

所述对抗样本输入到文本分类器后，得到所述对抗样本的对应各文本类别的分类概率；

选取最大分类概率对应的文本类别作为错误分类类别，比较错误分类类别与原始文本的最大分类概率对应的文本类别；若对比结果为不一致，则文本分类器出现错误分类。

第二方面，本发明实施例提供了一种针对朴素贝叶斯分类器的边际攻击装置，包括：

计算模块，用于获取文本分类器的文本类别，并且计算两个所述文本类别之间的频率比；

排序模块，用于以所述频率比作为索引，对词汇表进行排序，得到敏感词集；

生成模块，用于随机选取若干个敏感词添加到原始样本，得到对抗样本；

输出模块，用于将所述对抗样本输入到文本分类器，得到错误分类的文本类别。

在本发明第二方面的第一种可能的实现方式中，所述计算模块还用于：

其中，i,j为两个不同文本类别；

分别为两个文本类别i,j在同一维度h_k上的频率。

在本发明第二方面的第二种可能的实现方式中，所述生成模块还用于：

在本发明第二方面的第三种可能的实现方式中，所述的针对朴素贝叶斯分类器的边际攻击装置，还包括验证模块，所述验证模块用于：

所述对抗样本输入到文本分类器后，得到所述对抗样本的对应各文本类别的分类概率；选取最大分类概率对应的文本类别作为错误分类类别，比较错误分类类别与原始文本的最大分类概率对应的文本类别；若对比结果为不一致，则文本分类器出现错误分类。

第三方面，本发明实施例提供了一种针对朴素贝叶斯分类器的边际攻击装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的针对朴素贝叶斯分类器的边际攻击方法。

第四方面，本发明实施例提供了一种针对朴素贝叶斯分类器的边际攻击方法的存储介质，所述针对朴素贝叶斯分类器的边际攻击方法的存储介质用于存储一个或多个计算机程序，所述一个或多个计算机程序包括程序代码，当所述计算机程序在计算机上运行时，所述程序代码用于执行上述针对朴素贝叶斯分类器的边际攻击方法。

相比于现有技术，本发明实施例具有如下有益效果：

本发明提供了一种针对朴素贝叶斯分类器的边际攻击方法、装置及存储介质，所述针对朴素贝叶斯分类器的边际攻击方法，通过获取文本分类器分类所得的文本类别，并且计算两个所述文本类别之间的频率比；以所述频率比作为索引，对词汇表进行排序，得到敏感词集；随机选取若干个敏感词添加到原始样本，得到对抗样本，因为对原始样本的处理极其微小，所以很难察觉样本被修改，达到最大程度上不影响人类对于文本的阅读，同时由于该方法的时间复杂度低，提高了对抗样本生成的效率。该方法针对朴素贝叶斯分类器的广泛使用及其假定目标各属性相互独立的性质，快速构造用于攻击基于朴素贝叶斯方法的分类器的对抗样本。将所述对抗样本输入到文本分类器，能够使朴素贝叶斯分类器对文本分类错误，得到错误分类的文本类别。该方法的攻击手段简单、易于实现，该方法在文本加上极少敏感词，在最小程度上对文本进行修改却能极大降低文本分类器的分类精度。

附图说明

图1是本发明实施例中的一种针对朴素贝叶斯分类器的边际攻击方法的流程图；

图2是本发明实施例中的一种针对朴素贝叶斯分类器的边际攻击装置的模块图；

图3是本发明实施例中的一种针对朴素贝叶斯分类器的边际攻击方法的具体实施攻击文本分类器的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明提供一种示例性实施例，一种针对朴素贝叶斯分类器的边际攻击方法，步骤包括：

S101、获取文本分类器的文本类别，并且计算两个所述文本类别之间的频率比；

S102、以所述频率比作为索引，对词汇表进行排序，得到敏感词集；

S103、随机选取若干个敏感词添加到原始样本，得到对抗样本；

S104、将所述对抗样本输入到文本分类器，得到错误分类的文本类别。

具体地，通过以下方式计算从文本分类器获得的两个文本类别在同一维度上的频率比：

其中，i,j为两个不同文本类别；

分别为两个文本类别i,j在同一维度h_k上的频率。

可以理解的是，由于词语在每个类别中出现的频率可以被看做该词语和当前类别的相关度，那么频率比就相当于找到了两个类别之间相关度差异最大的一系列词汇。

以所述频率比作为索引，对词汇表进行排序，得到敏感词集W＝[w1,w2,…,wq]，q为敏感词集中敏感词的数目。

所述针对朴素贝叶斯分类器的边际攻击方法，还包括对分类结果进行验证，具体如下：

具体地，X’经过分类器F之后，得到F(X’)＝[b1,b2,…,bn]，其中bi表示对抗样本X’被分为i类别的概率。取bj’＝max{bi}，i∈[1,n]，j’即为对抗样本X’经过分类器F得到的类别，若j’≠j，表示对抗样本X’使得分类器F出现错误分类。

需要说明的是，原始的文本或者修改后的文本输入到文本分类器，利用朴素贝叶斯算法进行文本分类，可以分为以下步骤：

数据预处理；具体地，对文本进行分词、去除停用词等处理，有利于后续提取有效特征。

对预处理后的文本进行特征提取；具体地，对预处理后的文本提取词汇表Vocab[w1,w2,…,wh]，利用词汇表Vocab，统计所有词汇在不同类别中出现的频率f_hi，h表示词汇的维度，i表示当前频率所对应的类别，用于后续生成朴素贝叶斯分类模型F。

利用朴素贝叶斯算法进行文本分类；

具体地，通过计算一个样本X属于每个类别的类条件概率P(_i|)，最后将该样本归类于最大后验概率对应的那一类，即当P(c₁|x)>P(c_j|x)(j＝2,3,…,n)时，贝叶斯分类算法将样本X归类到C1中。而朴素贝叶斯模型是基于“属性条件独立性假设”的，即假设所有属性之间相互独立，因此P(c_i|x)可以重写为：

其中Xj为X在第j个属性上的值。

统计得到的频率

可以近似为P(x_j|c_i)，因此P(c_i|x)最后被重写为：

对于生成的朴素贝叶斯模型，需要测试集来评价它的性能，包括运行时间，运行空间，模型准确率等指标。

本发明实施例提供了一种针对朴素贝叶斯分类器的边际攻击装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的针对朴素贝叶斯分类器的边际攻击方法。

请参见图2，本发明提供一种示例性实施例，一种针对朴素贝叶斯分类器的边际攻击装置，包括：

计算模块201，用于获取文本分类器的文本类别，并且计算两个所述文本类别之间的频率比；

排序模块202，用于以所述频率比作为索引，对词汇表进行排序，得到敏感词集；

生成模块203，用于随机选取若干个敏感词添加到原始样本，得到对抗样本；

输出模块204，用于将所述对抗样本输入到文本分类器，得到错误分类的文本类别。

所述计算模块还用于：

其中，i,j为两个不同文本类别；

分别为两个文本类别i,j在同一维度h_k上的频率。

所述生成模块还用于：

所述的针对朴素贝叶斯分类器的边际攻击装置，还包括验证模块，所述验证模块用于：

利用朴素贝叶斯算法进行文本分类；

具体地，通过计算一个样本X属于每个类别的类条件概率P(c_i|x)，最后将该样本归类于最大后验概率对应的那一类，即当P(c₁|x)>P(c_j|x)(j＝2,3,…,n)时，贝叶斯分类算法将样本X归类到C1中。而朴素贝叶斯模型是基于“属性条件独立性假设”的，即假设所有属性之间相互独立，因此P(c_i|x)可以重写为：

其中Xj为X在第j个属性上的值。

统计得到的频率

可以近似为P(x_j|c_i)，因此P(c_i|x)最后被重写为：

本发明提供一种示例性实施例，一种针对朴素贝叶斯分类器的边际攻击方法的存储介质，所述针对朴素贝叶斯分类器的边际攻击方法的存储介质用于存储一个或多个计算机程序，所述一个或多个计算机程序包括程序代码，当所述计算机程序在计算机上运行时，所述程序代码用于执行所述的针对朴素贝叶斯分类器的边际攻击方法。

本申请实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参见图3，本发明提供一个具体实施例，具体而言，从清华新闻文本数据集(THUCNews)中随机抽取一条金融类的文本“国内首只债券指数基金获批”，该文本含有6个词组，可表示为X＝[x1,x2,x3,x4,x5,x6]；X经过朴素贝叶斯文本分类器F之后输出X被分为各个类别的概率：

F(X)＝[a1＝0.8,a2＝0.02,a3＝0.05,a4＝0.06,a5＝0.02,a6＝0.01,a7＝0.01,a8＝0.01,a9＝0.01,a10＝0.01]

F(X)共十个类别。取aj＝max{ai}＝0.8,j＝1，那么该条文本X就被分类为1类(金融类)。

利用本发明的一种针对朴素贝叶斯分类器的边际攻击方法，向文本X末尾添加少量敏感词，如“平方”，“别墅”等房产类敏感词，生成对抗样本“国内，首只，债券，指数，基金，获批，平方”，表示为X’＝[x1,x2,x3,x4,x5,x6,x7]；

X’经过朴素贝叶斯文本分类器F之后得到输出：

F(X’)＝[a1＝0.32,a2＝0.5,a3＝0.05,a4＝0.01,a5＝0.02,a6＝0.04,a7＝0.03,a8＝0.01,

a9＝0.01,a10＝0.01]，取aj＝max{ai}＝0.5,j＝2，于是文本X’被错误的分类为2类(房产类)。

其中，房产类敏感词通过如下方式得到：

计算两个不同类别金融类和房产类之间，词汇表中同一维度h_k上的频率比

k∈[1,h]，h为词汇表维度。

以频率比F₁₂作为索引，对词汇表进行排序。

通过频率比排序，取topQ得到敏感词集W＝[“平方”，“别墅”，“精装”，…]，将敏感词加入到原始样本X末尾就得到了对抗样本X’。

本发明实施例，通过获取文本分类器分类所得的文本类别，并且计算两个所述文本类别之间的频率比；以所述频率比作为索引，对词汇表进行排序，得到敏感词集；随机选取若干个敏感词添加到原始样本，得到对抗样本，因为对原始样本的处理极其微小，所以很难察觉样本被修改，达到最大程度上不影响人类对于文本的阅读，同时由于该方法的时间复杂度低，提高了对抗样本生成的效率。该方法针对朴素贝叶斯分类器的广泛使用及其假定目标各属性相互独立的性质，快速构造用于攻击基于朴素贝叶斯方法的分类器的对抗样本。将所述对抗样本输入到文本分类器，能够使朴素贝叶斯分类器对文本分类错误，得到错误分类的文本类别。该方法的攻击手段简单、易于实现，该方法在文本加上极少敏感词，在最小程度上对文本进行修改却能极大降低文本分类器的分类精度。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种针对朴素贝叶斯分类器的边际攻击方法，其特征在于，步骤包括：

随机选取若干个敏感词添加到原始样本，得到对抗样本；

2.如权利要求1所述的针对朴素贝叶斯分类器的边际攻击方法，其特征在于，所述获取文本分类器的文本类别，并且计算两个所述文本类别之间的频率比，具体为：

其中，i,j为两个不同文本类别；

分别为两个文本类别i,j在同一维度h_k上的频率。

3.如权利要求1所述的针对朴素贝叶斯分类器的边际攻击方法，其特征在于，所述随机选取若干个敏感词添加到原始样本，得到对抗样本，具体为：

4.如权利要求1所述的针对朴素贝叶斯分类器的边际攻击方法，其特征在于，还包括对分类结果进行验证，具体如下：

5.一种针对朴素贝叶斯分类器的边际攻击装置，其特征在于，包括：

6.如权利要求5所述的针对朴素贝叶斯分类器的边际攻击装置，其特征在于，所述计算模块还用于：

其中，i,j为两个不同文本类别；

分别为两个文本类别i,j在同一维度h_k上的频率。

7.如权利要求5所述的针对朴素贝叶斯分类器的边际攻击装置，其特征在于，所述生成模块还用于：

8.如权利要求5所述的针对朴素贝叶斯分类器的边际攻击装置，其特征在于，还包括验证模块，所述验证模块用于：

9.一种针对朴素贝叶斯分类器的边际攻击装置，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的针对朴素贝叶斯分类器的边际攻击方法。

10.一种针对朴素贝叶斯分类器的边际攻击方法的存储介质，其特征在于，所述针对朴素贝叶斯分类器的边际攻击方法的存储介质用于存储一个或多个计算机程序，所述一个或多个计算机程序包括程序代码，当所述计算机程序在计算机上运行时，所述程序代码用于执行上述权利要求1至4任一项所述的针对朴素贝叶斯分类器的边际攻击方法。