CN104331498B

CN104331498B - 一种对互联网用户访问的网页内容自动分类的方法

Info

Publication number: CN104331498B
Application number: CN201410663630.7A
Authority: CN
Inventors: 孙洋; 冯先宏
Original assignee: Asialnfo Technology (nanjing) Co Ltd
Current assignee: Asialnfo Technology (nanjing) Co Ltd
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2017-08-01
Anticipated expiration: 2034-11-19
Also published as: CN104331498A

Abstract

一种对互联网用户访问的网页内容自动分类的方法，基于文本分类技术，依据支持向量机和决策森林技术，通过对有限的互联网用户访问的网页内容样本进行机器学习，然后由多个分类器构建一套决策系统，最后自适应获得新的网页样本，实现对新的网页样本的自动分类。本发明能较好地解决小样本、非线性转线性、数据稀疏、数据高维度、训练分类器时间长和局部极小点等实际问题，决策系统也解决了单个分类器带来的分类不准的问题，由于很多操作可以采用并行的MapReduce架构，所以大大减小了分类器的训练时间，分类过程也可以在毫秒级的时间对移动互联网的网页内容进行分析最后划分到预定义的类别中。

Description

一种对互联网用户访问的网页内容自动分类的方法

技术领域

本发明属于计算机技术领域，涉及网络技术，为一种对互联网用户访问的网页内容自动分类的方法。

背景技术

随着移动互联网信息的迅猛发展，面对上亿级的海量信息，人们已经不能简单地靠人工来处理所有的信息，需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源，海量信息的挖掘成为了科学技术发展和人类生活质量进一步提高的瓶颈，文本自动分类作为挖掘的基础也成为现代信息处理研究的一大研究热点。

文本自动分类系统经历了三个里程碑阶段：

阶段一：知识工程法。最初大多使用知识工程的方法建立自动分类系统，即利用专家规则来进行分类，这样需要花费大量的人力、物力制定规则，而且只能在有限的领域内发挥作用，对于上亿级的数据更是束手无策；

阶段二：统计方法与机器学习相结合。九十年代以后，统计方法和机器学习的方法被引入到文本自动分类中，取得了丰硕的成果并逐渐取代了知识工程方法，但统计方法是从事物的外在数量上的表现去推断该事物可能的规律性，它主要考虑测试预想的假设和数据模型拟合，依赖于显式的基本概率模型。所以在实际问题中，样本数量往往是有限的，因此一些理论上很优秀的学习方法实际中表现却可能不尽人意，而且分类结果的准确率很低，原因在于机器学习方法较少考虑文本的语义信息。

阶段三：统计学习理论与机器学习相结合。传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有学习方法也多是基于此假设，但与传统统计学相比，统计学习理论就是研究小样本统计估计和预测，建立在一套较坚实的理论基础之上，为解决有限样本学习问题提供了一个框架。统计学习理论主要包括四个方面：(1)经验风险最小化准则下统计学习一致性的条件；(2)学习过程收敛速度的理论；(3)学习过程泛化能力的理论，即建立的小样本归纳推理准则；(4)实现新的准则的实际方法(算法)。

针对目前移动互联网的大数据，人为的干预已经不能满足要求，如何能够获得一套既解放人力又能够分类准确的文本分类系统，为以后对用户上网浏览网页打上准确的类别标签，这样对以后分析用户的行为，挖掘用户潜在价值等提供夯实的基础。目前有很多的文本分类器应用到文本当中，但是对于大规模的网页文本分类过程中存在分类规模小、文本数据稀疏、数据维度高无法解决的、分类器运行一段时间后分类效果差的缺陷。

发明内容

本发明要解决的技术问题是：随着互联网技术的发展，现有的文本自动分类系统对于大规模的网页文本分类过程中存在分类规模小、文本数据稀疏、数据维度高无法解决的、分类器运行一段时间后分类效果差的缺陷。

本发明的技术方案为：一种对互联网用户访问的网页内容自动分类的方法，基于文本分类技术，依据支持向量机和决策森林技术，通过对有限的互联网用户访问的网页内容样本进行机器学习，然后由多个分类器构建一套决策系统，最后自适应获得新的网页样本，实现对新的网页样本的自动分类，包括以下步骤：

1)训练网页文本分类器，构建分类模型，得到决策系统：首先从用户访问的网页内容中抽取训练样本集，用于训练网页文本分类器，训练样本集中，训练语料通过定向爬虫定向爬取获得，采用支持向量机对爬取的训练语料实施预处理，通过挑选最可能为支持向量的训练样本，或筛减最不可能为支持向量的训练样本，或所述两种方法同时采用，来实现训练样本集的减小，然后进行以下步骤训练网页文本分类器：

11)抽取训练样本：

采用聚类算法K-MEANS，首先将训练语料按照互联网网页固有的类别划分成N个大类，设定K值和阈值，然后分别对每个大类进行聚类，类簇中心点和到中心点的距离小于阈值的样本点组成一个子类，得到K个子类，依次对N个大类进行聚类，一共聚出N*K个子类，然后从N*K个子类中每类随机抽取M篇作为训练语料；

12)特征选择：

网页文本分类器内的特征选择是指使用指定的词汇代表网页正文内容，特征词的衡量标准是看能够为分类系统带来多少信息，带来的信息越多，该特征越重要；使用特征词直接代表正文，降低处理数据量和空间维度，减少数据稀疏问题；特征选择的过程为：将样本的网页正文中每个词作为一个特征词候选，首先通过分词后的词性过滤和去停用词两种策略筛掉一部分的特征词候选；然后采用信息增益选择特征向量，对每个特征词候选计算信息增益公式为：

IG(T)＝Entropy(C)-Entropy(C|T) (1)

其中T表示特征词候选，C表示网页文本内容的类别；

Entropy(C)表示包含所有特征词候选时的信息量；

Entropy(C|T)表示特征词候选T已经完全确定时的信息量，其中包含两种情况：一种是特征词候选T出现标记为t，一种是特征词候选T不出现标记为t'，所以

Entropy(C|T)＝P(T)Entropy(C|t)+P(T')Entropy(C|t')； (2)

其中Entropy()是信息熵公式；求得Entropy(C|T)和Entropy(C)，最后得到每个特征词候选的信息增益IG(T)，对所有特征词候选按照信息增益值进行由大到小排序，取前3000维构成一个特征词库；将所有训练样本中的网页正文使用特征词库表示后，进行文本分类器的训练；

13)使用支持向量机训练文本分类器，构建决策系统，决策系统包括由不同训练样本集训练得到的多个文本分类器；

2)对未知网页正文进行分类：首先将分类器训练出的决策系统读入到分类系统中，然后进行以下步骤：

21)首先经过Nutch适配器，Nutch适配器包括模板抽取、最大正文抽取和PDF抽取手段，根据网页的结构来自动选择适合的方法，然后抽取出网页正文；

22)对抽取出的正文，进行文本分词，表示为词汇空间；

23)通过文本分类器训练过程构建的特征词库来过滤词汇空间的特征词，通过词汇空间将未知网页的网页正文映射到特征词库构成的特征向量空间中；

24)经过决策系统内的多个文本分类器对步骤23)得到的数据进行分类，按照决策森林的方法投票表决网页正文最终的分类结果。

进一步的，定时自适应获得新样本，训练增强文本分类器：

如果某个网页样本点已经被准确地分类，那么在选入样本训练集中的概率就被降低或者不变；相反，如果某个网页样本点没有被准确地分类，那么它被选中的概率被提高；将文本分类器分类错误的或者分类模糊的网页文本作为新样本，加入原有训练样本集，得到新的训练样本集，当新的训练样本集达到设定的规模，自动重新依据步骤1)训练网页文本分类器。

对于移动互联网这个大数据平台来说，选择支持向量机(SVM)的模型理论无疑是一个非常好的文本分类方式，从算法本身已体现了它独特的优点，只需要确立最优的分类间隔，而最终的支持向量是两类样本中离分类面最近且平行于最优分类超平面的样本点，所以在文本分类过程中只是与支持向量做计算，所以计算过程会非常快。

但是支持向量机虽然分类过程很快，但是使用网页文本内容作为样本训练过程却出现时间和空间复杂度比较高，所以本发明在网页样本和空间维度上着手做改进。样本上选取训练网页样本集的时候引入常用聚类算法，这样降低了网页样本集的数量，也让参加训练的网页样本差异比较明显质量比较高；空间上使用特征选择方式，将作为样本的网页文本使用特征词来表示，映射到特征空间中，降低了空间维度和算法的复杂度；借助于决策森林思想构建决策系统，将训练集按随机划分成若干子集，并行在每个子集上训练支持向量机模块，采取多分类器投票策略，训练出多个分类器。由于很多工作都可以并行，所以采用MapReduce并行架构；

更进一步的，本发明自适应获得新样本增强分类器，在对网页文本分类工程中，自动“聚焦于”那些分类错误或分类模糊的样本上，获得新的样本集，为下一轮的文本分类器提供更有价值的训练样本。

本发明具有以下特点及有益效果：

1、训练文本分类器过程中，抽取训练样本集，使用聚类算法解决样本数据量过大问题，抽取更方便计算的样本集；

2、训练文本分类器过程中，通过特征选择，降低空间维度，减少数据稀疏问题，降低分类器训练过程中维度过高问题；

3、文本分类器过程中，借助于决策森林思想构建决策系统，采取多分类器投票策略，提高分类准确率；

4、文本分类器更新，自适应获得新的网页文本样本增强分类器，做到定期更新使得分类更加准确。

附图说明

图1为训练网页文本分类器，构建分类模型的流程图。

图2为对未知网页正文进行分类的流程图。

图3为支持向量机的示意图，(a)为随意的分类线，(b)为最优分类线及支持向量。

图4为二维图像映射到三维图像的示意图，(a)为二维图，(b)为三维图。

具体实施方式

本发明是一套依据支持向量机这种统计学习理论，借助于决策森林的多数投票策略，通过对有限的互联网用户访问的网页内容样本进行有监督的机器学习，然后由多个分类器构建一套决策系统，最后自适应获得新的网页样本，自动定期训练分类器。这套分类系统既有严格的理论基础，又能较好地解决小样本、非线性转线性、数据稀疏、数据高维度、训练分类器时间长和局部极小点等实际问题，决策系统也解决了单个分类器带来的分类不准的问题，由于很多操作可以采用并行的MapReduce架构，所以大大减小了分类器的训练时间，分类过程也可以在毫秒级的时间对移动互联网的网页内容进行分析最后划分到预定义的类别中。

本发明对移动互联网数据通过文本自动分类器自动分类，下面通过实施例进行具体说明：

一、首先是训练网页文本分类器，构建分类模型如图1给出。

用户访问的网页内容作为训练语料的作用有两点，一个是抽取部分样本来训练文本分类器，另一个是使用未参与训练的样本对文本分类器进行开放测试。

由于用户访问的网页数量过大，所以抽取训练样本集：训练语料是通过定向爬虫定向爬取获得的，对训练语料的要求是保证语料的数量多、语涵盖的范围广，比如做体育的语料中，最好涵盖足球、篮球、羽毛球、游泳等各项体育类别，但是这样就要求大量的人完成这样的工作，工作强度非常高，所以提出使用聚类来帮助训练语料的抽取工作。通过挑选最可能为支持向量的训练样本或筛减最不可能为支持向量的训练样本或以上两种方法同时采用对训练集实施预处理，以实现训练集规模的减小，实现训练过程的加速。

步骤一：训练样本抽取过程：

引入常用聚类算法KMEANS，首先将训练语料按照互联网网页固有的类别，例如体育、育儿、财经等网页的类别，划分成N个大类，设定K值和阈值。然后分别对每个类进行聚类，中心点和到中心点的距离小于此阈值的样本点组成一个子类，会聚出K个子类，通过这种方法，依次对N个大类进行聚类，一共会聚出N*K个子类，然后从N*K个子类中每类随机抽取M篇作为训练语料，这样保证语料的数量多、语涵盖的范围广。由于每个类之间动作一样互不干预所以可以使用MapReduce并行架构。

自然语言对中文的处理是将训练样本网页正文中每个词为一维映射到向量空间(VSM)中，即使对互联网网页使用了聚类方式抽取样本降低了训练样本过大的问题，但是向量空间也面临着维度特别多和数据稀疏问题，所以如何能够将几百万甚至几千万维度的空间向量降低到几千或者几万维度，将会大大减少文本分类器训练和分类的空间开销，降低计算复杂度，所以对网页正文我们采取特征选择方式。

步骤二：特征选择：

网页文本分类器内的特征选择是指使用一些意义比较明确的词汇代表网页正文内容的，特征词的衡量标准是看能够为分类系统带来多少信息，带来的信息越多，该特征越重要，例如足球、儿童这样的词汇类别比较明显。这样使用特征词直接代表正文，处理数据量和空间维度迅速降低，同时也减少数据稀疏问题。

特征选择的过程为：对作为样本的网页正文中每个词作为一个特征词，首先通过分词后的词性过滤和去停用词两种策略简单去掉一批无关紧要的特征词；然后引入了特征选择，系统中采用信息增益选择特征向量，对一个特征而言，系统有它和没它时信息量(熵)将发生变化，而前后信息量的差值就是这个特征给系统带来的信息增益。

对每个特征词计算信息增益公式为：

IG(T)＝Entropy(C)-Entropy(C|T) (1)

其中T表示特征词，C表示网页文本内容的类别；

Entropy(C)表示包含所有特征词时系统的信息量；

Entropy(C|T)表示特征T已经完全确定时系统的信息，其中包含两种情况：一种是特征T出现标记为t，一种是特征T不出现标记为t'，所以

Entropy(C|T)＝P(T)Entropy(C|t)+P(T')Entropy(C|t')； (2)

其中Entropy(x)是信息熵(Entropy)公式：

Entropy(x)＝-∑p(x_i)log(p(x_i)) (3)

一般用符号Entropy表示，用来衡量单一事件发生时所包含的信息量的多少，如果事件发生的机率是P(x)，则信息本体的定义就是：-log(P(x))，信息熵公式为现有技术，不再详述。

将公式(3)的形式带入(2)，求得Entropy(C|T)，在将公式(3)的形式带入求得Entropy(C)，最后得到每个T特征的信息增益IG(T)，对所有特征按照信息增益值进行由大到小排序，取前3000维构成一个特征词库。

这样所有的网页正文样本，包括以后待分类的网页正文都要映射到这几千维的特征空间上，也就是通过这3000维的特征词来表示每一篇网页正文。这样将所有训练样本中的网页正文使用特征词表示后，进行文本分类器的训练。

步骤三：使用支持向量机训练得到文本分类器，构建决策系统，决策系统包括由不同训练样本集训练得到的多个文本分类器：

图3给出支持向量机(SVM)如下的定义：

定义一：L为分类线，L1、L2分别为过各类中离分类线最近的样本且平行于分类线的直线，他们之间的距离叫做分类间隔。

定义二：最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0)，而且使分类间隔最大。

定义三：两类样本中离分类面最近的点且平行于最优分类超平面的样本点叫做支持向量。

支持向量机数学表示：

已知：N个观测线性可分样本(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)，

其中x_i训练样本中第i篇网页正文样本的特征向量，yi表示该网页正文的类别，n表示样本数量。

求解：

目标：最优分类面w^T·x+b＝0

使用支持向量机训练样本为现有技术，也不再详述。

实际在使用网页正文训练文本分类器过程中，特征向量维数很高而且是非线性的，所以需要提供一种手段，能够有效的将非线性问题转换为线性问题，由此引入了核函数(一种非线性映射)，将输入特征变量映射到一个高维特征空间，实现将低维空间的非线性不可分问题映射到高维空间则可能变成线性可分，然后在变换空间中寻找最优分类超平面，二维到三维的映射如图4所示，φ(x)表示核函数。常见的内核函数有如下几种：线性内核、径向基函数、内核多项式内核、S形内核，在本发明中使用的是线性核函数，实验证明核函数的引入在计算最优分类面中并没有增加计算复杂度。

引用支持向量机训练的文本分类器的优点：从支持向量机的理论模型可以看出它是一种非常快速的文本分类方法：(1)支持向量机明确提出一个分类间隔概念，并把使分类间隔最宽作为确定线性分界面的最佳原则。(2)分类间隔又有线性可分作条件，只需找到处在分类间隔边缘上的点，以便确定最优的分类间隔就行，而其它数据点的作用，只是要求所确定的分类间隔能保证把它们置在分类间隔外确定的一方就行。(3)数据点就分成两部分，一种对确定分类间隔参数很重要，而另一类(一般说占数据的大部分)对确定隔离带的参数没有直接的影响，在这个意义上说它们对确定隔离带参数无关紧要。

局限：支持向量机在机器学习中显示了很多优点，但是人们使用其来处理海量的网页文本时发现存在以下局限性：(1)由于支持向量机的训练过程实质是求解一个二次规划问题，其求解时间复杂度为O(N³)。由于要存储核矩阵，空间复杂度为O(N²)。当网页正文训练集规模巨大时，支持向量机的训练时间会太长，同时核矩阵的规模太大将导致内存空间不足；(2)支持向量机的训练结果是用支持向量表示的，当支持向量数目太大将导致超出内存限制，使得分类器不能全部装入内存，影响分类器的使用；(3)集中表示的分类器存在分类倾向的问题；

改善：针对处理互联网大规模的网页文本时存在的问题，本发明从以下几个方面改善：

(1)序贯最小化方法(SMO)，求解二次规划问题，解决内存问题：J.PLATT提出了SMO(Sequential Minimal Optimization)算法，该算法将工作集的规模减小到最小，每次只优化两个拉格朗日乘子，同时固定其他拉格朗日乘子。由于两个变量的最优化问题可以解析求解，在算法中不需要使用数值计算方法求解二次规划问题，因此内循环只需很少的计算。引入缓存策略，每次联合优化过程，需要用到上一次优化后的偏置和边界样本决策。因此，每次优化完成后，需要重新计算偏置；而边界样本决策可以存储在缓存中，便于读取和更新。工作集的样本选择上J.PLATT设计了启发式算法，每次选择两个样本进入工作集，第一个为违反KKT，条件的样本，非边界样本优先；第二个为与前一个样本有最大误差的样本。本发明在支持向量机进行文本分类器的训练时，对训练样本即采取序贯最小化方法来减少训练时间。

(2)借助于决森策林思想，即构造多个文本分类器组成一个决策系统，然后采取多分类器投票策略：这种做法也可以将大规模的网页文本训练集随机划分成若干子集，并行在每个子集上训练支持向量机模块，大大缩短了单个训练器训练的时间。之后分类的过程中也需要决策系统中的每个分类器投票分类，通过多分类器投票可以大大的减少单个分类器带来分类倾向的毛病，有点类似于三个臭皮匠等于一个诸葛亮的做法，虽然这个决策系统中的每一分类器都很简单，但是他们组合起来却很强大。

序贯最小化方法和决森策林的方法均为现有技术，本发明中不再详述。

这样使用用户网页的正文作为样本，通过以上三步根据不同样本训练出多个文本分类器，最终保存为一个文件系统，即决策系统，保存着分类器模型中所有的参数。

二、未知网页正文分类过程

对新来的待分类的移动互联网网页分类流程如图2(也是图1中的文本分类过程)：首先将分类器训练出的网页文本分类模型文件读入到系统中，然后进行以下步骤：

步骤一：首先经过Nutch适配器，此适配器包含有模板抽取、最大正文抽取、PDF抽取等多种手段，适配器会根据网页的结构来自动选择适合的方法，然后抽取出网页正文；

步骤二：对抽取出的正文，进行文本分词，表示为词汇空间；

步骤三：通过文本分类器训练过程的特征选择步骤构建的特征词库来过滤特征词，最终将文本映射到特征向量空间中；

步骤四：经过决策系统内的多个文本分类器投票表决最终的分类结果。

三、自适应获得新样本增强分类器

文本分类器在对网页文本分类一段时间后会出现分类准确率降低的现象，因为作为训练的网页文本样本都是时间比较早，内容比较落后，而且也极有可能会出现新的类别，对于日新月异的网页新内容为了保证分类质量，引入文本分类器一个增量学习的过程，这样不断添加扩充新的网页样本使分类器更准确。

我们借助于自适应增强的思想：如果某个网页样本点已经被准确地分类，那么在选入样本训练集中的概率就被降低或者不变；相反，如果某个网页样本点没有被准确地分类，那么它被选中的概率被提高。通过这样的方式，能“聚焦于”那些较难分(更富信息)的样本上。所以最终会人工评估对分类器算法最终分类错误的或者分类模糊(不确定性大)的网页文本作为新样本，然后加入到新的训练样本集中，当样本集达到一定的规模，自动重新训练网页文本分类器。

Claims

1.一种对互联网用户访问的网页内容自动分类的方法，其特征是基于文本分类技术，依据支持向量机和决策森林技术，通过对有限的互联网用户访问的网页内容样本进行机器学习，然后由多个分类器构建一套决策系统，最后自适应获得新的网页样本，实现对新的网页样本的自动分类，包括以下步骤：

11)抽取训练样本：

12)特征选择：

IG(T)＝Entropy(C)-Entropy(C|T) (1)

其中T表示特征词候选，C表示网页文本内容的类别；

Entropy(C)表示包含所有特征词候选时的信息量；

Entropy(C|T)＝P(t)Entropy(C|t)+P(t')Entropy(C|t')； (2)

其中Entropy()是信息熵公式，P()表示机率；求得Entropy(C|T)和Entropy(C)，最后得到每个特征词候选的信息增益IG(T)，对所有特征词候选按照信息增益值进行由大到小排序，取前3000维构成一个特征词库；将所有训练样本中的网页正文使用特征词库表示后，进行文本分类器的训练；

22)对抽取出的正文，进行文本分词，表示为词汇空间；

24)经过决策系统内的多个文本分类器对步骤23)得到的数据进行分类，按照决策森林的方法投票表决网页正文最终的分类结果；

最后，定时自适应获得新样本，训练增强文本分类器：