CN103744958A

CN103744958A - 一种基于分布式计算的网页分类算法

Info

Publication number: CN103744958A
Application number: CN201410004646.7A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 丁志军; 王鹏伟; 孙海春; 邓晓栋; 王昕�
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-01-06
Filing date: 2014-01-06
Publication date: 2014-04-23
Anticipated expiration: 2034-01-06
Also published as: CN103744958B

Abstract

本发明涉及一种基于分布式计算的网页分类算法，包括步骤如下：步骤一，分类模型的建立；（1）网页预处理；（2）特征词关联信息；（3）特征词位置信息；步骤二，网页分类过程；1）网页预处理；（2）计算网页归属类别；（3）动态词库；本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息，而同时也保证了随着分布式系统中的集群的数量的增加，信息处理的速度也会有显著地提高，因此基于分布式的网页分类算法具有很大的应用前景。

Description

一种基于分布式计算的网页分类算法

技术领域

本发明涉及信息服务网络领域内的网页分类。

背景技术

近年来随着互联网的普及，网络信息呈指数级增长，因特网已发展成全球性的巨大的信息服务网络而其站点遍布全球。它已成为人们搜索和获取信息的重要手段。而面对如此海量而又内容复杂的网络信息，很多时候无法准确定位自己想要的信息，人们正面临着“信息爆炸“而”知识贫乏”的矛盾，因此迫切的需要能从大规模信息资源中提取符合要求的精炼的知识的方法和手段。通过网页的分类，可以从海量的网络信息中迅速、准确的获取用户感兴趣的信息，因此可以应对网络信息复杂导致的“知识贫乏”的问题。

然而随着网络信息的指数级增长，大多数传统的网页分类算法的处理速度无法应对网络中信息的增长速度，因此很多分类算法在实际应用的效率并不高。

发明内容

本发明基于分布式计算的网页分类算法主要是对朴素贝叶斯分类算法进行改进，增加类中特征词的关联关系、特征词在文档中的位置信息以及动态词库，最后在分布式的环境下对网页分类算法进行实现。

基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息，而同时也保证了随着分布式系统中的集群的数量的增加，信息处理的速度也会有显著地提高，因此基于分布式的网页分类算法具有很大的应用前景。

本发明给出的技术方案为：

一种基于分布式计算的网页分类算法，其特征在于，包括步骤如下：

步骤一，分类模型的建立

（1）网页预处理。

网页的预处理是对网页正文部分进行切词处理。

（2）特征词关联信息。

通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息，步骤为：首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系，其关联关系为是否出现在相同文档中，然后在最初的分类器中匹配相应的特征词，取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分，求得集合中关于文档信息的特征词的子集，最后将数据存入最终的分类器。

（3）特征词位置信息。

首先根据计算特征词权值得到网页中的高频词，再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度，最后根据该值对特征词的权值进行修改，得到更精确的特征词对类别的重要程度。

步骤二，网页分类过程

（1）网页预处理。

网页的预处理是对网页正文部分进行切词处理。

（2）计算网页归属类别。

以朴素贝叶斯分类为基础，计算所有类的条件概率进而求得不同类对待分类网页的后验概率，最后取可以得到最大后验概率的类作为该网页的归属类别。类别的条件概率计算公式如下：

Figure 2014100046467100002DEST_PATH_IMAGE001

（1）

其中C_j表示类；d表示待分类的网页；d’表示特征词子集；K’表示和网页数据进行计算后的前k个的集合；T表示d’中的特征词在分类模型中的权值；S表示所有权值和；V表示所有特征词数量和；Fi表示d中的词频。D的数据是在预处理结束后得到的网页中所有特征词以及相应的词频。根据d中的特征词对分类模型中类别C_j下所有特征词子集进行计算，从分类模型中可以得到T、S和V，再根据特征词词频Fi计算出网页对C_j中所有子集的匹配结果，这里如公式（1）所示，对网页中i个特征词进行计算后累加得到。再取结果中前k个进行累加作为该类别的条件概率，从而得到类别的后验概率。类别的后验概率越大说明网页对该类别所属程度越大，进而得到类别的归属类别。

（3）动态词库

在上述分类完成后，根据特征词在文档中出现的频率记录高频词，在这些高频词中判断是否有未识别的特征词，若有未识别的特征词，则将信息记录在动态词库中，信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词。在以后的分类过程中将动态词库与分类模型结合使用，首先在分类模型中对特征词进行匹配，若匹配不到则在动态词库中进行寻找，若在动态词库中匹配得到，则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值，为分类过程服务，若在动态词库中没有相应匹配则记录相应信息。

上述技术方案，该网页分类算法主要可以分为设计和实现两大部分。算法的设计主要是以朴素贝叶斯分类算法为基础，增加类中特征词的关联关系、特征词在文档中的位置信息以及动态词库，达到最终的网页分类效果提高的目的。算法的实现主要依靠MapReduce计算模型，根据算法的具体内容以及步骤，通过Map的映射以及Reduce的汇总，将网页分类算法在分布式环境中实现，达到分类模型的建立以及网页的具体分类都是在分布式系统中实施的目的，提高网页分类的效率。

本算法以朴素贝叶斯分类算法为基础，并对其进行改进提高分类结果的准确度。改进的内容有三点：（1）增加类中特征词的关联关系。由于朴素贝叶斯分类模型中只考虑了特征词对类别的作用，而忽略了在同一类别下特征词相互之间的关系，因此会出现由于类别本身互相之间区分不明显，即其特征词大多数都相同，导致分类结果准确度降低的问题。通过增加类中特征词的关联关系，分类时匹配的对象则不是简单的类别中的特征词而是类别集合中以文档为单位的特征词集合的信息。在类别相似情况下，也会根据特征词之间的关联关系进行分类，在一定程度上提高分类的准确度。（2）增加特征词在文档中的位置信息。通过特征词的位置信息可以更好地判断特征词对文档的重要程度，提高分类的准确度。（3）增加动态词库。为了应对网络中的新词的出现，有必要在设计中增加动态词库以应对根据事训练集而生成的分类模型无法识别训练集中没有的网络新词。在分类中实时记录网络新词并更新动态词库，使在以后的分类中可以识别该特征词并给出权重信息。

本发明的创新点及改进效果：

1、在传统朴素贝叶斯分类模型基础上增加类别下特征词之间的关联信息，提高类别相似情况下的分类准确度。

2、增加特征词在网页中的位置信息，对不同类别下的不同位置的特征词进行计算，提高特征词的权值的准确度。

3、增加动态词库，在分类过程中实时更新动态词库，通过自动学习达到对网络新词的识别并作出及时的处理。

附图说明

下面结合附图和实施方式对本发明作进一步的详细说明：

图1 网页分类算法流程图。

图2特征词关联信息的计算。

图3 特征词位置计算。

具体实施方式

网页分类算法的流程如图1所示。网页分类算法包括分类模型的建立和网页分类两个过程。分类模型的建立主要有：对训练集中的网页进行预处理；根据网页数据计算类别特征词的TFIDF；计算特征词之间的关联关系；计算特征词在文档中的位置信息。其中TFIDF为传统朴素贝叶斯分类模型中使用的权值计算方法，而关联关系和位置信息是本发明中增加的计算内容。网页分类过程包括：网页的预处理；根据分类模型计算类别的后验概率；动态词库的建立和更新。最终以贝叶斯理论为基础，根据类的后验概率，对网页进行分类。

步骤一，分类模型的建立

（1）网页预处理。

网页的预处理主要是对网页正文部分进行切词处理，本发明中使用开源的中文分词工具包IKAnalyzer进行分词。

（2）特征词关联信息。

传统的贝叶斯分类模型中只考虑了分类模型中特征词对类别的作用，而没有考虑在同一类别下特征词由于属于不同文档而相互之间的影响，因此当类别相似情况下，会导致其特征词大多数都相同，分类时结果相似，降低准确度。

通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息，分类过程相对传统的只计算特征词对类别的作用程度，增加计算特征词之间的关联度，相应的提高分类准确度。主要步骤为：首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系，其关联关系为是否出现在相同文档中，然后在最初的分类器中匹配相应的特征词，取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分，求得集合中关于文档信息的特征词的子集，最后将数据存入最终的分类器。如图2所示。

（3）特征词位置信息。

位置信息是指特征词在文档中出现的位置，不同位置的特征词的权值根据位置而进行微调，具体过程如图3所示。首先根据计算特征词权值得到网页中的高频词，再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度，最后根据该值对特征词的权值进行修改，得到更精确的特征词对类别的重要程度。

步骤二，网页分类过程

（1）网页预处理。

网页预处理与步骤一中网页预处理相同。

（2）计算网页归属类别。

网页归属类别主要根据分类模型进行计算。这里以朴素贝叶斯分类为基础，计算所有类的条件概率进而求得不同类对待分类网页的后验概率，最后取可以得到最大后验概率的类作为该网页的归属类别。类别的条件概率计算公式如下：

（1）

其中Cj表示类；d表示待分类的网页；d’表示特征词子集；K’表示和网页数据进行计算后的前k个的集合；T表示d’中的特征词在分类模型中的权值；S表示所有权值和；V表示所有特征词数量和；Fi表示d中的词频。D的数据是在预处理结束后得到的网页中所有特征词以及相应的词频。根据d中的特征词对分类模型中类别Cj下所有特征词子集进行计算，从分类模型中可以得到T、S和V，再根据特征词词频Fi计算出网页对Cj中所有子集的匹配结果，这里如公式（1）所示，对网页中i个特征词进行计算后累加得到。再取结果中前k个进行累加作为该类别的条件概率，从而得到类别的后验概率。类别的后验概率可以反映网页对类别的所属程度，后验概率越大说明网页对该类别所属程度越大，进而得到类别的归属类别。

（3）动态词库

在分类完成后，根据特征词在文档中出现的频率记录高频词，在这些高频词中判断是否有未识别的特征词，若有未识别的特征词，则将信息记录在动态词库中，信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词。在以后的分类过程中将动态词库与分类模型结合使用，首先在分类模型中对特征词进行匹配，若匹配不到则在动态词库中进行寻找，若在动态词库中匹配得到，则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值，为分类过程服务，若在动态词库中没有相应匹配则记录相应信息。

为了在分布式环境下实现网页分类，本发明算法通过MapReduce设计并实现。在设计算法时根据Map和Reduce的特性，对网页数据进行相关计算，最后得到相应的分类模型。

Claims

1.一种基于分布式计算的网页分类算法，其特征在于，包括步骤如下：

步骤一，分类模型的建立；

（1）网页预处理；

网页的预处理是对网页正文部分进行切词处理；

（2）特征词关联信息；

通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息，步骤为：首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系，其关联关系为是否出现在相同文档中，然后在最初的分类器中匹配相应的特征词，取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分，求得集合中关于文档信息的特征词的子集，最后将数据存入最终的分类器；

（3）特征词位置信息；

首先根据计算特征词权值得到网页中的高频词，再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度，最后根据该值对特征词的权值进行修改，得到更精确的特征词对类别的重要程度；

步骤二，网页分类过程；

（1）网页预处理；

网页的预处理是对网页正文部分进行切词处理；

（2）计算网页归属类别；

以朴素贝叶斯分类为基础，计算所有类的条件概率进而求得不同类对待分类网页的后验概率，最后取可以得到最大后验概率的类作为该网页的归属类别；类别的条件概率计算公式如下：

Figure 2014100046467100001DEST_PATH_IMAGE002

（1）

其中C_j表示类；d表示待分类的网页；d’表示特征词子集；K’表示和网页数据进行计算后的前k个的集合；T表示d’中的特征词在分类模型中的权值；S表示所有权值和；V表示所有特征词数量和；Fi表示d中的词频；D的数据是在预处理结束后得到的网页中所有特征词以及相应的词频；根据d中的特征词对分类模型中类别C_j下所有特征词子集进行计算，从分类模型中可以得到T、S和V，再根据特征词词频Fi计算出网页对C_j中所有子集的匹配结果，这里如公式（1）所示，对网页中i个特征词进行计算后累加得到；再取结果中前k个进行累加作为该类别的条件概率，从而得到类别的后验概率；类别的后验概率越大说明网页对该类别所属程度越大，进而得到类别的归属类别；

（3）动态词库；

在上述分类完成后，根据特征词在文档中出现的频率记录高频词，在这些高频词中判断是否有未识别的特征词，若有未识别的特征词，则将信息记录在动态词库中，信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词；在以后的分类过程中将动态词库与分类模型结合使用，首先在分类模型中对特征词进行匹配，若匹配不到则在动态词库中进行寻找，若在动态词库中匹配得到，则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值，为分类过程服务，若在动态词库中没有相应匹配则记录相应信息。