CN110377732A

CN110377732A - 一种基于样本缩放的文本分类的方法

Info

Publication number: CN110377732A
Application number: CN201910567013.XA
Authority: CN
Inventors: 潘雨青; 翟文鹏; 李搏; 薛惠丹
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-25

Abstract

本发明公开了一种基于样本缩放的文本分类的方法，通过计算数据样本到分类超平面的距离，找到离支持向量机的分类面较远的样本并予以删除，并根据这个距离来对剩余的样本赋予相应的权值，然后用这些加权后的数据样本进行支持向量机的训练。本发明所提出的分类方法首先对样本数据进行约减，然后再对数据进行相应的加权，以此来用于在支持向量机进行文本分类。不仅可以降低噪声数据对支持向量机分类的影响，提高模型的噪声抗扰度，而且还减少了支持向量的数量，获得了更好的文本分类准确率。

Description

一种基于样本缩放的文本分类的方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于样本缩放的文本分类的方法。

背景技术

支持向量机是一种基于统计学习理论的机器学习算法。近年来，它因具有较好的泛化性能而备受关注。在实际应用中，支持向量机已经显示出比传统学习机更高的性能。因此，支持向量机已广泛应用于模式识别和函数回归。但是，传统的支持向量机及其改进版本都假设给定训练集中的样本对构造最优分离超平面具有相等的贡献。然而，在许多实际工程应用中，所获得的训练数据往往受到噪声的污染。因此，处理大规模训练数据中的噪声成为了主要问题，如何提高支持向量机处理大规模数据的效率也变成了近年来研究的热点。

目前已经提出了一些方法来解决上述问题，主要分为两类：1.将利用标准二次型优化技术解决对偶问题的方法来解決。例如由Cortes和Vapnik提出的分块算法(Chunking)，Osuna提出的分解算法，以及Platt提出了“序列最小化”(SequentialMinimalOptimization,SM0)算法和由Keerthi等人提出的改进之后的SMO算法等。2.从原大样本的训练数据集中选择小部分具有代表性的样本数据进行训练学习，以此来减少训练样本点数量。典型的有Lee等提出了RSVM，利用随机采样技术在训练数据集中进行随机采样选取训练子集，用子集来训练分类超平面；Zheng等在RSVM的基础上进行了一些改进，在训练子集的选取上采用了聚类方法；但上述方法在缩减数据规模的同时，因其选择的具有代表性的子样本集并不能准确代表原始样本集的分布情况，导致所选择的样本分类信息含量减少，进而影响分类精度。有了上面的结论，一个自然的想法便是，找出那些对于降低验证集loss没有帮助的样本，把他们从训练集中排除，从而提升模型的性能。Wang等通过初始模型上计算每个样本的影响，去掉那些对降低验证集loss的样本后，使用新的训练集再次训练得到最终的模型。这个方法有效地提高了精度，但却受到计算费用和简化转换形式的限制，影响了分类的速度

虽然现有的方法在传统支持向量机方法上做了很大的改进，在处理大样本数据集上体现了各自的优势，但他们忽视了训练数据集中只有处于最终的分离超平面附近的训练样本点才可能成为支持向量，而其余的训练样本点大多在训练支持向量机的时候起到的作用很微小或者没有。因为在进行支持向量机学习时，只有支持向量对构建分类超平面起作用，所以在支持向量机模型学习时，不必让所有训练样本参与训练，而可以选取其中最有可能成为支持向量的边界样本来参与训练。

发明内容

本发明根据现有技术中存在的问题，提出了一种基于样本缩放的文本分类的方法，能够降低非临界样本和噪声数据对支持向量机进行文本分类的影响，提高噪声抗扰度，并能获得更好的分类准确率。

本发明所采用的技术方案如下：

一种基于样本缩放的文本分类的方法，包括以下步骤：

S1，获取部分文本数据作为训练样本集T＝{(x_i，y_i)}，其中，x_i为第i个特征向量，y_i是x_i的类别标签；

S2，利用训练样本集T训练SVM模型，从而得到相应的决策面F(x)＝(w^Tx+b)，根据样本集T中所有样本距离决策面的距离d_i，其中，x是决策面上的支持向量，w是根据训练得到的决策面上支持向量的权重，b是偏移量；

S3，设定样本的距离判断条件，将不满足距离判断条件的样本删除，对满足样本距离判断条件的样本进行加权处理，得到新的样本数据集R₁；基于新的样本数据集R₁进行支持向量机训练，从而得到新的决策面F(x)＝(w^Txv_i+b)，其中，v_i为样本权重；

S4，根据新决策面F(x)＝(w^Txv_i+b)的权值w，计算并更新损失loss_old←loss_new且代次数加1；

S5，当设定循环的判断条件，若满足则继续循环到S2再次循环求解，否则退出循环找出最优解w和b，并得到最终的决策面；

S6，将测试集输入最终的分类模型，得到测试文本数据的标签值输出结果，实现对文本的分类；

进一步，所述距离判断条件为：样本距离d_i是否大于1；

进一步，所述距离d_i＝|w^Tx_i+b|/||w²||；

进一步，对样本进行加权处理的方法为：v_i＝max(0，1-d_i)；

进一步，所述判断条件为损失loss大于1e-6或者迭代次数小于50次；

进一步，所述损失loss的计算方法为：

本发明的有益效果：

本发明提出了一种基于样本缩放的文本分类的方法，这与现有的工作技术不同。本发明通过计算数据样本到分类超平面的距离，找到离支持向量机的分类面较远的样本并予以删除，然后再进行相应的加权，以此来用于支持向量机的训练学习。我们在该发明中充分考虑了样本的因素，避免了噪声数据对决策面的影响。

在UCI数据集和文本数据集上的大量实验表明，我们的发明可以降低非临界样本和噪声数据对支持向量机学习的影响，提高噪声抗扰度，而且还减少了支持向量的数量，获得了更好的分类准确率。

附图说明

图1是本发明方法的主流程图；

图2是在训练中迭代10次时支持向量个数变化图；

图3是使用本发明与与其他方法得到的分类精度对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示，一种基于样本缩放的文本分类的方法，具体步骤如下：

S1，获取文本数据作为样本集，对于空间R，设给定一个训练样本集T＝{(x_i，y_i)}，其中x_i∈X＝Rⁿ,y_i∈Y＝{+1，-1，...，s},i＝1,2,…,N,x_i为第i个特征向量，也称为实例，y_i是x_i的类别标签，(x_i，y_i)称为样本点，训练样本集共有N个样本数据对象，这些样本对象分属于S个类别。

S2，利用训练样本集T训练SVM模型，从而得到相应的决策面F(x)＝(w^Tx+b),x是决策面上的支持向量，w是根据训练得到的决策面上支持向量的权重，b是偏移量。计算样本数据集中N个样本距离决策面的距离d_i，单个样本的距离d_i计算公式如下：

d_i＝|w^Tx_i+b|/||w²||

其中，d_i表示第i个原始待测样本到决策面的距离，w^Tx_i+b是x_i和w的夹角余弦w^Tx_i平移b个截距的结果，这样d_i越小，特别是它小于1，说明这个样本点离超平面越近。

S3，依据S2计算出的样本数据集T中各个数据对象到决策面的距离d_i,设定距离判断条件，即找到d_i大于1的的样本，因为这些样本的标签值y_i(w^Tx_id_i+b)远大于1，删除d_i大于1的样本以减少样本数据集T中所包含的对训练作用不大的样本数据。同时对样本数据集中剩下的d_i小于1的样本数据对象；

由于一个数据点的距离d_i越大，这个点作为离群值或噪声数据点的概率越高，因此需要忽略这个训练样本点。相反，当一个数据点的距离d_i越小，表示这个数据点是一个非常重要的样本，因此将给予这个训练样本点更多的权重；根据到决策面的远近对他们分配相应的权值。通过样本加权公式：

v_i＝max(0，1-d_i)依据新训练样本数据集R₁进行支持向量机训练，从而得到新的决策面F(x)＝(w^Txv_i+b)。

S4，根据新决策面F(x)＝(w^Txv_i+b)的权值w，计算出设开始时loss_old＝0，从而得到loss＝|loss_old-loss_new|。更新loss_old←loss_new，迭代次数加1。

S5，循环判断条件为：loss大于1e-6或者迭代次数小于50次。S4中计算出loss或者迭代次数与循环判断条件相比,符合条件，则继续循环到S2,再次求解；若不符合循环判断条件，则退出循环，当循环退出，则代表已经找出最优解w和b，并得到最终的决策面；

S6，将测试集输入最终的分类模型，得到测试文本数据的标签值输出结果，实现对文本的分类。

为了更清楚的说明本发明的效果，以下结合本发明在部分数据集上的实验效果进一步说明：

表1原始数据

实验中所用的数据集详细情况如表1所示，这些不同的数据集样本个数，数据维数都各不相同，可以客观的反映本发明所提出算法的有效性。

图2是表1数据经本发明处理时迭代10次过程中支持向量个数变化的过程。从图2可以看出，本发明在所有数据集上都可以降低支持向量个数，随着迭代次数的增加，支持向量个数也会逐渐收敛。

图3所得的实验数据是对表1的数据经过本发明优化后然后进行SVM的训练得出的分类准确度与libsvm、基于径向距离的SVM(R-SVMu+)、基于距离度量学习的SVM(R-SVM+)、相关距离(RMM)方法进行对比，本发明的方法在分类准确率上优于其他方法。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于样本缩放的文本分类的方法，其特征在于，S1，获取部分文本数据作为训练样本集T＝{(x_i，y_i)}，其中，x_i为第i个特征向量，y_i是x_i的类别标签；

S6，将测试集输入最终的决策面，得到测试文本数据的标签值输出结果，实现对文本的分类。

2.根据权利要求1所述的一种基于样本缩放的文本分类的方法，其特征在于，所述距离判断条件为：样本距离d_i是否大于1。

3.根据权利要求1所述的一种基于样本缩放的文本分类的方法，其特征在于，所述距离d_i＝|w^Tx_i+b|/||w²||。

4.根据权利要求1所述的一种基于样本缩放的文本分类的方法，其特征在于，对样本进行加权处理的方法为：v_i＝max(0，1-d_i)。

5.根据权利要求1所述的一种基于样本缩放的文本分类的方法，其特征在于，所述判断条件为损失loss大于1e-6或者迭代次数小于50次。

6.根据权利要求5所述的一种基于样本缩放的文本分类的方法，其特征在于，所述损失loss的计算方法为：