CN103744958A - 一种基于分布式计算的网页分类算法 - Google Patents

一种基于分布式计算的网页分类算法 Download PDF

Info

Publication number
CN103744958A
CN103744958A CN201410004646.7A CN201410004646A CN103744958A CN 103744958 A CN103744958 A CN 103744958A CN 201410004646 A CN201410004646 A CN 201410004646A CN 103744958 A CN103744958 A CN 103744958A
Authority
CN
China
Prior art keywords
feature words
webpage
classification
words
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410004646.7A
Other languages
English (en)
Other versions
CN103744958B (zh
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
王鹏伟
孙海春
邓晓栋
王昕�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201410004646.7A priority Critical patent/CN103744958B/zh
Publication of CN103744958A publication Critical patent/CN103744958A/zh
Application granted granted Critical
Publication of CN103744958B publication Critical patent/CN103744958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于分布式计算的网页分类算法,包括步骤如下:步骤一,分类模型的建立;(1)网页预处理;(2)特征词关联信息;(3)特征词位置信息;步骤二,网页分类过程;1)网页预处理;(2)计算网页归属类别;(3)动态词库;本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。

Description

一种基于分布式计算的网页分类算法
技术领域
本发明涉及信息服务网络领域内的网页分类。
背景技术
近年来随着互联网的普及,网络信息呈指数级增长,因特网已发展成全球性的巨大的信息服务网络而其站点遍布全球。它已成为人们搜索和获取信息的重要手段。而面对如此海量而又内容复杂的网络信息,很多时候无法准确定位自己想要的信息,人们正面临着“信息爆炸“而”知识贫乏”的矛盾,因此迫切的需要能从大规模信息资源中提取符合要求的精炼的知识的方法和手段。通过网页的分类,可以从海量的网络信息中迅速、准确的获取用户感兴趣的信息,因此可以应对网络信息复杂导致的“知识贫乏”的问题。
然而随着网络信息的指数级增长,大多数传统的网页分类算法的处理速度无法应对网络中信息的增长速度,因此很多分类算法在实际应用的效率并不高。
发明内容
本发明基于分布式计算的网页分类算法主要是对朴素贝叶斯分类算法进行改进,增加类中特征词的关联关系、特征词在文档中的位置信息以及动态词库,最后在分布式的环境下对网页分类算法进行实现。 
基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。
本发明给出的技术方案为:
一种基于分布式计算的网页分类算法,其特征在于,包括步骤如下:
步骤一,分类模型的建立
(1)网页预处理。
网页的预处理是对网页正文部分进行切词处理。
(2)特征词关联信息。
通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息,步骤为:首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系,其关联关系为是否出现在相同文档中,然后在最初的分类器中匹配相应的特征词,取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分,求得集合中关于文档信息的特征词的子集,最后将数据存入最终的分类器。
(3)特征词位置信息。
首先根据计算特征词权值得到网页中的高频词,再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度,最后根据该值对特征词的权值进行修改,得到更精确的特征词对类别的重要程度。
步骤二,网页分类过程
(1)网页预处理。
网页的预处理是对网页正文部分进行切词处理。
(2)计算网页归属类别。
以朴素贝叶斯分类为基础,计算所有类的条件概率进而求得不同类对待分类网页的后验概率,最后取可以得到最大后验概率的类作为该网页的归属类别。类别的条件概率计算公式如下:
Figure 2014100046467100002DEST_PATH_IMAGE001
   (1)
其中Cj表示类;d表示待分类的网页;d’表示特征词子集;K’表示和网页数据进行计算后的前k个的集合;T表示d’中的特征词在分类模型中的权值;S表示所有权值和;V表示所有特征词数量和;Fi表示d中的词频。D的数据是在预处理结束后得到的网页中所有特征词以及相应的词频。根据d中的特征词对分类模型中类别Cj下所有特征词子集进行计算,从分类模型中可以得到T、S和V,再根据特征词词频Fi计算出网页对Cj中所有子集的匹配结果,这里如公式(1)所示,对网页中i个特征词进行计算后累加得到。再取结果中前k个进行累加作为该类别的条件概率,从而得到类别的后验概率。类别的后验概率越大说明网页对该类别所属程度越大,进而得到类别的归属类别。
(3)动态词库
在上述分类完成后,根据特征词在文档中出现的频率记录高频词,在这些高频词中判断是否有未识别的特征词,若有未识别的特征词,则将信息记录在动态词库中,信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词。在以后的分类过程中将动态词库与分类模型结合使用,首先在分类模型中对特征词进行匹配,若匹配不到则在动态词库中进行寻找,若在动态词库中匹配得到,则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值,为分类过程服务,若在动态词库中没有相应匹配则记录相应信息。
 
上述技术方案,该网页分类算法主要可以分为设计和实现两大部分。算法的设计主要是以朴素贝叶斯分类算法为基础,增加类中特征词的关联关系、特征词在文档中的位置信息以及动态词库,达到最终的网页分类效果提高的目的。算法的实现主要依靠MapReduce计算模型,根据算法的具体内容以及步骤,通过Map的映射以及Reduce的汇总,将网页分类算法在分布式环境中实现,达到分类模型的建立以及网页的具体分类都是在分布式系统中实施的目的,提高网页分类的效率。
本算法以朴素贝叶斯分类算法为基础,并对其进行改进提高分类结果的准确度。改进的内容有三点:(1)增加类中特征词的关联关系。由于朴素贝叶斯分类模型中只考虑了特征词对类别的作用,而忽略了在同一类别下特征词相互之间的关系,因此会出现由于类别本身互相之间区分不明显,即其特征词大多数都相同,导致分类结果准确度降低的问题。通过增加类中特征词的关联关系,分类时匹配的对象则不是简单的类别中的特征词而是类别集合中以文档为单位的特征词集合的信息。在类别相似情况下,也会根据特征词之间的关联关系进行分类,在一定程度上提高分类的准确度。(2)增加特征词在文档中的位置信息。通过特征词的位置信息可以更好地判断特征词对文档的重要程度,提高分类的准确度。(3)增加动态词库。为了应对网络中的新词的出现,有必要在设计中增加动态词库以应对根据事训练集而生成的分类模型无法识别训练集中没有的网络新词。在分类中实时记录网络新词并更新动态词库,使在以后的分类中可以识别该特征词并给出权重信息。
本发明的创新点及改进效果:
1、在传统朴素贝叶斯分类模型基础上增加类别下特征词之间的关联信息,提高类别相似情况下的分类准确度。
2、增加特征词在网页中的位置信息,对不同类别下的不同位置的特征词进行计算,提高特征词的权值的准确度。
3、增加动态词库,在分类过程中实时更新动态词库,通过自动学习达到对网络新词的识别并作出及时的处理。
附图说明
下面结合附图和实施方式对本发明作进一步的详细说明:
图1 网页分类算法流程图。
图2特征词关联信息的计算。
图3 特征词位置计算。
具体实施方式
    网页分类算法的流程如图1所示。网页分类算法包括分类模型的建立和网页分类两个过程。分类模型的建立主要有:对训练集中的网页进行预处理;根据网页数据计算类别特征词的TFIDF;计算特征词之间的关联关系;计算特征词在文档中的位置信息。其中TFIDF为传统朴素贝叶斯分类模型中使用的权值计算方法,而关联关系和位置信息是本发明中增加的计算内容。网页分类过程包括:网页的预处理;根据分类模型计算类别的后验概率;动态词库的建立和更新。最终以贝叶斯理论为基础,根据类的后验概率,对网页进行分类。
步骤一,分类模型的建立
(1)网页预处理。
网页的预处理主要是对网页正文部分进行切词处理,本发明中使用开源的中文分词工具包IKAnalyzer进行分词。
(2)特征词关联信息。
传统的贝叶斯分类模型中只考虑了分类模型中特征词对类别的作用,而没有考虑在同一类别下特征词由于属于不同文档而相互之间的影响,因此当类别相似情况下,会导致其特征词大多数都相同,分类时结果相似,降低准确度。
通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息,分类过程相对传统的只计算特征词对类别的作用程度,增加计算特征词之间的关联度,相应的提高分类准确度。主要步骤为:首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系,其关联关系为是否出现在相同文档中,然后在最初的分类器中匹配相应的特征词,取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分,求得集合中关于文档信息的特征词的子集,最后将数据存入最终的分类器。如图2所示。
(3)特征词位置信息。
位置信息是指特征词在文档中出现的位置,不同位置的特征词的权值根据位置而进行微调,具体过程如图3所示。首先根据计算特征词权值得到网页中的高频词,再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度,最后根据该值对特征词的权值进行修改,得到更精确的特征词对类别的重要程度。
步骤二,网页分类过程
(1)网页预处理。
网页预处理与步骤一中网页预处理相同。
(2)计算网页归属类别。
网页归属类别主要根据分类模型进行计算。这里以朴素贝叶斯分类为基础,计算所有类的条件概率进而求得不同类对待分类网页的后验概率,最后取可以得到最大后验概率的类作为该网页的归属类别。类别的条件概率计算公式如下:
Figure 108785DEST_PATH_IMAGE001
   (1)
其中Cj表示类;d表示待分类的网页;d’表示特征词子集;K’表示和网页数据进行计算后的前k个的集合;T表示d’中的特征词在分类模型中的权值;S表示所有权值和;V表示所有特征词数量和;Fi表示d中的词频。D的数据是在预处理结束后得到的网页中所有特征词以及相应的词频。根据d中的特征词对分类模型中类别Cj下所有特征词子集进行计算,从分类模型中可以得到T、S和V,再根据特征词词频Fi计算出网页对Cj中所有子集的匹配结果,这里如公式(1)所示,对网页中i个特征词进行计算后累加得到。再取结果中前k个进行累加作为该类别的条件概率,从而得到类别的后验概率。类别的后验概率可以反映网页对类别的所属程度,后验概率越大说明网页对该类别所属程度越大,进而得到类别的归属类别。
(3)动态词库
在分类完成后,根据特征词在文档中出现的频率记录高频词,在这些高频词中判断是否有未识别的特征词,若有未识别的特征词,则将信息记录在动态词库中,信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词。在以后的分类过程中将动态词库与分类模型结合使用,首先在分类模型中对特征词进行匹配,若匹配不到则在动态词库中进行寻找,若在动态词库中匹配得到,则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值,为分类过程服务,若在动态词库中没有相应匹配则记录相应信息。
为了在分布式环境下实现网页分类,本发明算法通过MapReduce设计并实现。在设计算法时根据Map和Reduce的特性,对网页数据进行相关计算,最后得到相应的分类模型。

Claims (1)

1.一种基于分布式计算的网页分类算法,其特征在于,包括步骤如下:
步骤一,分类模型的建立;
(1)网页预处理;
网页的预处理是对网页正文部分进行切词处理;
(2)特征词关联信息;
通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息,步骤为:首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系,其关联关系为是否出现在相同文档中,然后在最初的分类器中匹配相应的特征词,取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分,求得集合中关于文档信息的特征词的子集,最后将数据存入最终的分类器;
(3)特征词位置信息;
首先根据计算特征词权值得到网页中的高频词,再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度,最后根据该值对特征词的权值进行修改,得到更精确的特征词对类别的重要程度;
步骤二,网页分类过程;
(1)网页预处理;
网页的预处理是对网页正文部分进行切词处理;
(2)计算网页归属类别;
以朴素贝叶斯分类为基础,计算所有类的条件概率进而求得不同类对待分类网页的后验概率,最后取可以得到最大后验概率的类作为该网页的归属类别;类别的条件概率计算公式如下:
Figure 2014100046467100001DEST_PATH_IMAGE002
   (1)
其中Cj表示类;d表示待分类的网页;d’表示特征词子集;K’表示和网页数据进行计算后的前k个的集合;T表示d’中的特征词在分类模型中的权值;S表示所有权值和;V表示所有特征词数量和;Fi表示d中的词频;D的数据是在预处理结束后得到的网页中所有特征词以及相应的词频;根据d中的特征词对分类模型中类别Cj下所有特征词子集进行计算,从分类模型中可以得到T、S和V,再根据特征词词频Fi计算出网页对Cj中所有子集的匹配结果,这里如公式(1)所示,对网页中i个特征词进行计算后累加得到;再取结果中前k个进行累加作为该类别的条件概率,从而得到类别的后验概率;类别的后验概率越大说明网页对该类别所属程度越大,进而得到类别的归属类别;
(3)动态词库;
在上述分类完成后,根据特征词在文档中出现的频率记录高频词,在这些高频词中判断是否有未识别的特征词,若有未识别的特征词,则将信息记录在动态词库中,信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词;在以后的分类过程中将动态词库与分类模型结合使用,首先在分类模型中对特征词进行匹配,若匹配不到则在动态词库中进行寻找,若在动态词库中匹配得到,则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值,为分类过程服务,若在动态词库中没有相应匹配则记录相应信息。
CN201410004646.7A 2014-01-06 2014-01-06 一种基于分布式计算的网页分类方法 Active CN103744958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410004646.7A CN103744958B (zh) 2014-01-06 2014-01-06 一种基于分布式计算的网页分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410004646.7A CN103744958B (zh) 2014-01-06 2014-01-06 一种基于分布式计算的网页分类方法

Publications (2)

Publication Number Publication Date
CN103744958A true CN103744958A (zh) 2014-04-23
CN103744958B CN103744958B (zh) 2016-10-19

Family

ID=50501976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410004646.7A Active CN103744958B (zh) 2014-01-06 2014-01-06 一种基于分布式计算的网页分类方法

Country Status (1)

Country Link
CN (1) CN103744958B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016045378A1 (zh) * 2014-09-26 2016-03-31 中兴通讯股份有限公司 一种网页分类方法及装置
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107784034A (zh) * 2016-08-31 2018-03-09 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN108830108A (zh) * 2018-06-04 2018-11-16 成都知道创宇信息技术有限公司 一种基于朴素贝叶斯算法的网页内容篡改检测方法
CN111767728A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 短文本分类方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110252041A1 (en) * 2010-04-07 2011-10-13 Yahoo! Inc. Method and system for determining relevant text in a web page
CN102426585A (zh) * 2011-08-09 2012-04-25 中国科学技术信息研究所 一种基于贝叶斯网络的网页自动分类方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110252041A1 (en) * 2010-04-07 2011-10-13 Yahoo! Inc. Method and system for determining relevant text in a web page
CN102426585A (zh) * 2011-08-09 2012-04-25 中国科学技术信息研究所 一种基于贝叶斯网络的网页自动分类方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
兰均等: "基于特征词复合权重的关联网页分类", 《计算机科学》 *
邓晓栋等: "双向Web服务自动组合", 《小型微型计算机系统》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016045378A1 (zh) * 2014-09-26 2016-03-31 中兴通讯股份有限公司 一种网页分类方法及装置
CN107784034A (zh) * 2016-08-31 2018-03-09 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN107784034B (zh) * 2016-08-31 2021-05-25 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN107169523A (zh) * 2017-05-27 2017-09-15 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN108830108A (zh) * 2018-06-04 2018-11-16 成都知道创宇信息技术有限公司 一种基于朴素贝叶斯算法的网页内容篡改检测方法
CN111767728A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 短文本分类方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN103744958B (zh) 2016-10-19

Similar Documents

Publication Publication Date Title
CN107944559B (zh) 一种实体关系自动识别方法及系统
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN107315759B (zh) 归类关键字的方法、装置和处理系统、分类模型生成方法
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN102405495B (zh) 使用稀疏特征对信息检索进行音频分类
CN102289522B (zh) 一种对于文本智能分类的方法
CN106462807B (zh) 根据大规模非结构化数据学习多媒体语义
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN102411611B (zh) 一种面向即时交互文本的事件识别与跟踪方法
CN105095187A (zh) 一种搜索意图识别方法及装置
CN107169079B (zh) 一种基于Deepdive的领域文本知识抽取方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN105447505B (zh) 一种多层次重要邮件检测方法
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN103744958A (zh) 一种基于分布式计算的网页分类算法
CN1684072A (zh) 对多意义查询的相关术语提议
CN101290626A (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN106815310A (zh) 一种对海量文档集的层次聚类方法及系统
CN101893704A (zh) 一种基于粗糙集的雷达辐射源信号识别方法
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant