CN111984762B

CN111984762B - 一种对抗攻击敏感的文本分类方法

Info

Publication number: CN111984762B
Application number: CN202010798650.0A
Authority: CN
Inventors: 史晓雨; 尚明生; 王思源
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2022-12-13
Anticipated expiration: 2040-08-05
Also published as: CN111984762A

Abstract

本发明为一种对抗攻击敏感的文本分类方法，属于大数据、人工智能的分类领域。该方法包含以下步骤：S1：选择文本数据源；S2：对文本数据进行预处理，并采用词向量技术进行词向量训练，生成词库；S3：结合词库，建立特征提取模型，得到特征向量；S4：建立原型聚类模型，实现特征向量基于原型的分类；S5：训练步骤S3～步骤S4中的模型，将训练好的模型用于新文本数据的分类。本发明方法在拒绝和增量分类学习任务上都有很大的优势，能很好地拒绝噪声样本和异常值，在提升分类性能的同时提升了模型的鲁棒性，更进一步，优化了基于距离的中心损失函数，增加了正则化项，有效防止过拟合现象，进一步提高了本发明的泛化能力。

Description

一种对抗攻击敏感的文本分类方法

技术领域

本发明涉及一种对抗攻击敏感的文本分类方法，属于大数据挖掘、人工智能分类领域，尤其适用于大规模的文本分类处理。

背景技术

文本分类是自然语言处理当中的核心技术，有着广泛的应用场景。文本分类就是在给定的分类体系下，让计算机根据给定文本的内容，将其判断为事先确定的若干个类别的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。国内外对文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。

以医药专利分类为例。专利作为知识产权的重要载体，已成为各行业高科技企业和科研机构的重要战略资源，特别是在生物医药行业领域。在这样的背景下，为了进一步了解医疗研发的现状，制药公司在研制新药的同时往往会对涉及新药的专利分布情况进行详细的调研，以免触碰知识产权的保护范围。因此，根据制药企业的不同需求对专利进行定制化分类具有重要意义。在当今全球疫情严重的情况下，好的医药专利分类方法能够迅速地帮助制药公司和科研机构从现有的专利库里面找到有助于抑制新冠抗病毒类的相关医药专利，从而加快抑制新冠病毒药品的研发进度，具有一定的社会效益和发展前景。

目前，对于文本数据的分类工作更多的还是依靠人工分类或者强约束策略式分类方法，所谓的策略式分类往往是领域专家依靠自身经验制定的关键词匹配规则，来对文本数据进行简单的分类。虽然这些方法都能够在一定程度上对文本数据达到分类的目的，但是人工分类方法效率低下，人力资源成本过高，而强策略式分类方法受限于领域专家的知识，虽然有一定的准确率保障，但查全率往往表现很不理想。

随着机器学习技术的迅速发展，机器学习的方法如——最近邻(KNN)、支持向量机(SVM)、随机森林(RF)等分类器已被应用于文本分类，但仅适合于小样本数据集，且分类性能有待提高。深度学习方法如——卷积神经网络(CNN)、长短时记忆网络(LSTM)等能很好的处理大数据集样本，通过提取数据潜在的信息和使用softmax损失函数层进行分类，能很好的提升分类的精度。分类的准确度长期以来都是评价分类模型性能的最核心甚至唯一标准。但最近研究表明，即使是充分训练好的深度神经网络模型也很容易被对抗攻击算法攻破。以图像为例，对抗攻击是指在图像上加入特定的且人眼无法察觉的微量噪声，使得目标模型对加噪之后得到的对抗样本做出错误分类，对于文本分类而言，对抗攻击的敏感性则是指目标模型对异常文本(如噪声样本、外来样本)的辨识能力。

发明内容

有鉴于此，本发明提供一种对抗攻击敏感的文本分类方法，通过一维特征提取模型和原型聚类模型相结合，不仅能够针对不平衡文本数据进行自动分类，提高准确率和查全率，而且能够提高模型的鲁棒性和泛化能力，对抗数据干扰。

为达到上述目的，本发明提供如下技术方案：

一种对抗攻击敏感的文本分类方法，包括如下步骤：

S1：选择文本数据源；

S2：对文本数据进行预处理，并采用词向量技术进行词向量训练，生成词库；

S3：结合词库，建立特征提取模型，得到特征向量；

S4：建立原型聚类模型，实现特征向量基于原型的分类；

S5：训练步骤S3～步骤S4中的模型，将训练好的模型用于新文本数据的分类。

进一步，步骤S1根据所选取的数据源，将其分为训练集、验证集和测试集三部分，其中，训练集和验证集为已分类的文本数据，测试集为未分类文本数据——对应步骤S5中的新文本数据。

进一步，步骤S2具体为：首先，对步骤S1所选的专利数据源所有的文本数据进行分词，然后对分词后的数据进行数据清洗，去除掉停用词、低频词以及无用符号等，数据清洗完成后进行POS(part of speech tagging)词性标注和TF-IDF关键词提取，最后，采用Word2ver(word to vector)或GloVe(Global vectors for word representation)等NLP(natural language process，自然语言处理)词向量技术，选择固定的词向量长度n来对每个单词或者单字进行词向量训练，生成词库，其中n为人为选取的正整数。

进一步，步骤S3所述的特征提取模型由一个一维卷积神经网络串联一个双向的长短时记忆网络(Bi-LSTM)，最后再串联一个全连接层(Dense)构成；该模型以词库的词向量的数值形式作为输入，以特征向量作为输出。

进一步，步骤S4取代了传统的softmax层进行分类，将S3得到的特征向量直接作为原型聚类模型的输入来实现自适应聚类，以距离数值作为输出，所述的原型聚类模型为K-Means原型聚类模型。

进一步，步骤S5得训练模型具体为：首先，使用训练集来实现优化目标，训练步骤S3～步骤S4的模型参数，然后使用验证集来验证训练模型分类的准确性，直到满足需求到达训练目的。

步骤S5所述的训练步骤S3中的特征提取模型的优化目标为：

其中，

为原型聚类模型计算出的对应于第i个分类的欧氏距离，K为总分类个数，x为文本数据，f(x)为文本数据经特征提取模型处理后的特征向量，c_i为第i个分类的中心；

所采用的中心损失函数loss为带有正则项的基于距离的中心损失函数，具体为：

其中，E(i)＝e^-γ·D，γ为控制参数，λ为正则化权重参数。

本发明的有益效果在于：本发明提供了一种对抗攻击敏感的文本分类方法，首先利用词向量技术建立词库，然后利用深度网络提取文本特征，最后取代传统的softmax层进行分类，使用K-Means原型聚类方法来实现文本数据的自分类任务，在拒绝和增量分类学习任务上都有很大的优势，能很好地拒绝噪声样本和异常值，在提升分类性能的同时提升了模型的鲁棒性，起到了抵抗对抗攻击的作用；更进一步，优化了基于距离的中心损失函数，增加了正则化项，有效防止过拟合现象，进一步提高了本发明的泛化能力。

附图说明

为了使本发明的目的、技术方案，本发明提供如下附图进行说明：

图1为一种对抗攻击敏感的文本分类方法流程图；

图2为本发明实施例1结构图；

图3为本发明实施例1的医药专利英文文本数据柱状图。

具体实施方式

为使本发明的目的和技术方案更加清晰明白，下面结合附图及实施例对本发明进行详细的描述。

实施例：为了解决缺乏面向医药专利文本的特定知识发现和挖掘模型及方法等问题，某公司提供423996条已分类的医药专利文本，如图3所示，数据分布存在明显的不平衡性，为了解决数据不平衡性问题以及分类方法鲁棒性差、泛化能力弱等问题，本实施例提供“一种对抗攻击敏感的专利文本分类方法”，结合图2，该方法包含以下步骤：

步骤一：

将该公司提供423996条已分类的医药专利文本数据按照用户需求划分为十二个类别，分别为：NME(化合物)，NDT(药物衍生物)，MIP(医药中间体)，NCF(晶型)，NFP(制剂)，NCP(组合物)，NUS(用途)，NSP(制备方法)，NAM(诊断、分析与测定专利)，DDD(给药装置)，BTN(生物技术专利)，BLA(生物药)，再按照7∶1∶2的比例划分为训练集、验证集和测试集，其分类结果如图3所示，在这里我们并不对专利本身做太多完备性约束，只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。

步骤二：

对专利文本数据进行文本预处理，首先使用Jieba进行分词，然后剔除文本数据中的无用字符、低频词和停用词，其次使用POS词性标注法保留专业的医学名词，并使用TF-IDF提取专利说明书部分的前30个关键词结合标题和摘要进行专利文本的词向量训练。最后，使用GloVe方法进行词向量的训练，设置词的维度为300维，生成一个专业的医药专利词典库。

步骤三：结合词库，建立特征提取模型，得到特征向量；

特征提取模型由一维CNN和Bi-LSTM组成，预处理好的专利文本数据根据步骤二得到的词向量库找到对应词向量作为输入进行深度特征提取，结合了卷积神经网络的速度与轻量与循环神经网络的顺序敏感性，CNN将长的输入序列转换成高级特征组成的更短序列，将提取的有用特征组成序列输入到Bi-LSTM中进行处理。

步骤四：建立原型聚类模型，实现特征向量基于原型的分类；

取代了传统的softmax分类层进行分类，使用K-Means原型聚类模型。首先，随机初始化每一类的原型中心，将每个聚类对象的均值作为中心对象，计算每个对象与这些中心对象的距离；然后，将步骤三得到的训练集的特征向量作为输入通过欧氏距离不断迭代更新每一类的原型聚类中心位置，并用验证集对模型进行评估。

步骤五：

首先，使用训练集来实现优化目标，训练步骤S3～步骤S4的模型参数，然后使用验证集来验证训练模型分类的准确性，直到满足需求到达训练目的。

建立特征提取模型的优化目标为：

其中，x为文本数据，f(x)为文本数据经特征提取模型处理后的特征向量，c_i为第i个分类的中心，

为原型聚类模型计算出的对应于第i个分类的欧氏距离，K为总分类个数；

其中，E(i)＝e^-γ·D，γ为控制参数，λ为正则化权重参数。

本实施例分别采用传统的支持向量机(SVM)和针对不平衡文本的Bi-LSTM分类器做对比试验，对专利文本数据分类做对比实验。实验结果如表1所示，其中，评价该分类结果的标准为查准率(Precision)和查全率(Recall)，查准率和查全率的取值范围均为[0，1]，值越接近1，分类性能越好。其中，查准率＝预测正确类别样本数/预测类别的样本数，查全率＝预测正确类别样本数/类别样本总数。由表1可见，本发明方法的查准率和查全率相对于其他方法而言都表现较好，在每一个分类上几乎都优于或接近于现有分类方法，且每一类的查准率和查全率都达到了92％以上。

表1本发明方法对医药专利文本的分类结果

表2基于不同阈值的接受率和拒绝率结果

Thresholds	AR	RR
			0.4	94.39	100.00
0.5	97.54	100.00
			0.6	98.36	99.97
0.65	99.02	99.91

为了验证本发明的鲁棒性，将专利测试数据和选取的部分Amazon review数据(或别的非专利数据)作为异常值一起放入到训练好的模型中，来测试模型的接受能力和拒绝能力，实验结果如表2所示。这里使用接受率(AR)和拒绝率(RR)作为评价指标，取值范围均为[0，1]，值越接近1，则说明分类的鲁棒性越好。

本实施例使用一个基于距离阈值(Thresholds)的拒绝策略，当样本特性值和每个类的原型之间的距离大于预定义的阈值时，那么它会被拒绝，否则，它将被接受。其中，接受率(AR)＝被接受的医药专利测试数据条数/总的医药专利测试数据条数，拒绝率(RR)＝被拒绝的噪声样本数据条数/总的噪声样本数据条数。由表2结果可见，本发明方法具有很好的接受拒绝能力，鲁棒性好。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种对抗攻击敏感的文本分类方法，其特征在于，该方法包含以下步骤：

S1：选择文本数据源；

S3：结合词库，建立特征提取模型，得到特征向量；

S4：建立原型聚类模型，实现特征向量基于原型的分类；

S5：训练步骤S3～步骤S4中的模型，将训练好的模型用于新文本数据的分类；

步骤S3所述的特征提取模型由一个一维卷积神经网络串联一个双向的长短时记忆网络，最后再串联一个全连接层构成；该模型以词库的词向量的数值形式作为输入，以特征向量作为输出；

步骤S4所述的原型聚类模型为K-Means原型聚类模型，该模型以特征向量作为输入，以距离数值作为输出；

步骤S5所述的训练步骤S3中的特征提取模型的优化目标为：

其中，

其中，E(i)＝e^-γ·D，γ为控制参数，λ为正则化权重参数。