CN100578500C - 一种网页分类方法及装置 - Google Patents

一种网页分类方法及装置 Download PDF

Info

Publication number
CN100578500C
CN100578500C CN200610167466A CN200610167466A CN100578500C CN 100578500 C CN100578500 C CN 100578500C CN 200610167466 A CN200610167466 A CN 200610167466A CN 200610167466 A CN200610167466 A CN 200610167466A CN 100578500 C CN100578500 C CN 100578500C
Authority
CN
China
Prior art keywords
classification
text
webpage
feature
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200610167466A
Other languages
English (en)
Other versions
CN101178714A (zh
Inventor
文勖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200610167466A priority Critical patent/CN100578500C/zh
Publication of CN101178714A publication Critical patent/CN101178714A/zh
Application granted granted Critical
Publication of CN100578500C publication Critical patent/CN100578500C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页分类方法及装置,用以解决现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问题。所述方法包括步骤:从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词,从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本,对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别;所述系统包括分类锚文本选取模块、分类关键词确定模块、查找模块和特征文本分类模块。本发明大大提高了分类的准确率和召回率,同时减小了分类处理过程中的计算量。

Description

一种网页分类方法及装置
技术领域
本发明涉及分类技术,尤其涉及一种网页分类方法及装置。
背景技术
随着Internet的普及和飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面也产生了一些问题,如何根据网页内容把网页自动分到不同的语义类别,以提高用户的体验,是目前搜索引擎面临解决的一个问题。
现有技术中网页分类方法主要是采用对网页的正文进行文本分类的方式来实现,其主要实现过程为:首先从网页中提取正文,然后对网页的正文进行文本分类处理,得到的分类类别即为该网页的分类类别,下面详细描述对网页正文进行文本分类处理的具体过程,包括步骤:
步骤S10、对网页的正文进行分词处理,去掉其中的停用词,根据预先构建的特征词表从余下的词汇中提取特征词汇;
所述特征词表按照tf-idf方法构建。
步骤S11、查询各个类别的先验概率,以及查询各特征词汇在不同类别的文本中的权值;
词汇的权值用于表征词汇在各个类别的文本中出现的概率,某一词汇在不同类别的文本中的不同权值表示了该词汇出现在不同类别的文本中的概率,例如“电脑”在科技类别的文本中的权值就比在经济类别中的文本的权值大。
步骤S12、按照预先设置的分类算法对网页的正文进行分类,分类的算法有很多种,如贝叶斯分类器,SVM(支持向量机分类器)等,下面以贝叶斯分类器为例,对分类的具体过程进行说明:
按照贝叶斯分类公式 P ( C j | V ) ∞ P ( C j ) Π i = 1 n P ( v i | C j ) 分别计算网页正文的文本属于各个类别的概率,贝叶斯分类公式中P(Cj|V)为文本V属于类别Cj的概率,P(Cj)为类别Cj的先验概率,P(vi|Cj)为特征词汇i在类别Cj中的权值,P(Cj|V)最大值对应的类别即为网页正文的归属类别。
然而,由于网页是半结构化信息,网页除了含有文本还包括很多的其他信息,例如锚文本、链接关系、垃圾广告等,在上述提取网页正文的过程中,很可能会把广告、导航信息等误提取为正文,从而影响分类的准确率和召回率,并且根据网页正文中的特征词汇确定网页类别的计算量很大,导致时间开销很大,不利于在线分类海量网页。
发明内容
本发明提供一种网页分类方法及装置,用以解决现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问题。
本发明方法包括:
一种网页分类方法,包括步骤:
A、判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息,若是,从网页对应的锚文本中选取分类锚文本,否则,将该网页的标题字段确定为分类锚文本,确定该分类锚文本中包含的分类关键词;
B、从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本;
C、对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。
较佳的,若下载网页爬虫阶段记录了所述网页的锚文本信息,则选取其中出现次数最多的锚文本做为该网页的分类锚文本。
较佳的,所述确定分类锚文本中包含的分类关键词的过程为:
对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类锚文本的分类关键词。
较佳的,对特征文本进行文本分类处理的过程为:
对特征文本进行分词处理,去掉其中的停用词,按照预先构建的特征词表从余下的词中提取特征词汇;
按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。
一种网页分类装置,包括:
判断模块,用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息,若是,触发分类锚文本选取模块从网页对应的锚文本中选取分类锚文本,否则,触发标题字段提取模块提取网页的标题字段;
标题字段提取模块,用于提取网页的标题字段,将其做为该网页的分类锚文本发送给分类关键词确定模块;
分类锚文本选取模块,用于从网页对应的锚文本中选取分类锚文本;
分类关键词确定模块,用于确定分类锚文本中包含的分类关键词;
查找模块,用于从网页的全部内容中查找包含至少一个所述分类关键词的语句,将查找到的语句组合形成特征文本;
特征文本分类模块,用于对所述特征文本进行分类处理,将该特征文本的类别确定为所述网页的类别。
本发明有益效果如下:
本发明技术方案通过从网页对应的锚文本中选取分类锚文本,从网页的全部内容中查找包含至少一个分类锚文本中的分类关键词的语句,将查找到的语句组合形成特征文本,对该特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。与现有技术相比,本发明技术方案省却了从网页内容中提取正文的步骤,简化了分类处理的过程,并且由于网页对应的锚文本通常反映了网页内容的中心思想,因此利用网页对应的锚文本中包含的分类关键词确定出的特征文本能够更加贴切的反映该网页的内容,从而大大提高了分类的准确率和召回率,同时减小了分类处理过程中的计算量。
附图说明
图1为本发明网页分类方法的流程图;
图2为本发明网页分类装置的结构框图。
具体实施方式
本发明技术方案的主要设计构思是针对现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问题,而提出一种实现网页分类的技术方案,该方案通过从网页对应的锚文本中选取分类锚文本,从网页的全部内容中查找包含至少一个分类锚文本中的分类关键词的语句,将查找到的语句组合形成特征文本,对该特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。与现有技术相比,本发明技术方案省却了从网页内容中提取正文的步骤,简化了分类处理的过程,并且由于网页对应的锚文本通常反映了网页内容的中心思想,因此利用网页对应的锚文本中包含的分类关键词确定出的特征文本能够更加贴切的反映该网页的内容,从而大大提高了分类的准确率和召回率,同时减小了分类处理过程中的计算量。
下面将结合各个附图对本发明技术方案的具体实施过程进行进一步详细的阐述。
请参阅图1,该图为本发明网页分类方法的流程图,其主要实现过程为:
步骤S10、判断待分类的网页是否存在对应的锚文本信息,若存在,执行步骤S11,否则,执行步骤S12。
搜索引擎在网页下载过程中下载网页爬虫的阶段是否记录了该网页的锚文本信息。
步骤S11、从该网页对应的锚文本中选取出现次数最多的锚文本做为该网页的分类锚文本,执行步骤S13。
步骤S12、提取该网页的标题字段,将其做为该网页的分类锚文本,执行步骤S13。
步骤S13、确定分类锚文本中包含的分类关键词;
本步骤中分类锚文本中包含的分类关键词的具体过程为:对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类锚文本的分类关键词。
步骤S14、从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本。
步骤S15、对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。
本步骤中,对特征文本进行文本分类处理的具体过程为:
1)对特征文本进行分词处理,去掉其中的停用词,根据预先构建的特征词表从余下的词汇中提取特征词汇;
所述特征词表通过tf-idf方法在训练阶段构建。
2)查询训练阶段得到的各个类别的先验概率,以及查询训练阶段得到的各特征词汇在不同类别的文本中的权值;
其中,
Figure C20061016746600081
P(Cj)为类别Cj的先验概率,
Figure C20061016746600082
P(vi|Cj)为特征词汇i在类别Cj中的权值;
词汇的权值用于表征词汇在各个类别的文本中出现的概率,某一词汇在不同类别的文本中的不同权值表示了该词汇出现在不同类别的文本中的概率,例如“电脑”在科技类别的文本中的权值就比在经济类别中的文本的权值大。
3)按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。
分类算法有很多种,如贝叶斯分类器,SVM(支持向量机分类器)等,下面以贝叶斯分类器为例,对分类的具体过程进行说明:
按照贝叶斯分类公式 P ( C j | V ) ∞ P ( C j ) Π i = 1 n P ( v i | C j ) 分别计算特征文本属于各个类别的概率,贝叶斯分类公式中P(Cj|V)为文本V属于类别Cj的概率,P(Cj)为类别Cj的先验概率,P(vi|Cj)为特征词汇i在类别Cj中的权值,P(Cj|V)最大值对应的类别即为特征文本的归属类别。
相应于本发明上述网页分类方法,本发明进而提出了一种网页分类装置,请参阅图2,该图为本发明网页分类装置的结构框图,其主要包括分类锚文本选取模块20、分类关键词确定模块30、查找模块40和特征文本分类模块50,其中各个模块的主要作用如下:
分类锚文本选取模块20,用于从网页对应的锚文本中选取分类锚文本,通常从该网页对应的锚文本中选取出现次数最多的锚文本做为该网页的分类锚文本。
分类关键词确定模块30,用于确定分类锚文本中包含的分类关键词,其具体实现过程为:对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类锚文本的分类关键词。
查找模块40,用于从网页的全部内容中查找包含至少一个所述分类关键词的语句,将查找到的语句组合形成特征文本。
特征文本分类模块50,用于对所述特征文件进行分类处理,该特征文本的类别即为所述网页的类别,其中对特征文本进行文本分类处理的具体过程为:首先对特征文本进行分词处理,去掉其中的停用词,按照预先构建的特征词表从余下的词中提取特征词汇,然后按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。
较佳的,所述网页分类装置进一步包括判断模块60和标题字段提取模块70,其中,
判断模块60,用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息,若是,触发分类锚文本选取模块20从网页对应的锚文本中选取分类锚文本,否则,触发标题字段提取模块70提取网页的标题字段;
标题字段提取模块70,用于提取网页的标题字段,将其做为该网页的分类锚文本发送给分类关键词确定模块30。
有关本发明装置中的其他相关技术实现细节请参照本发明上述方法原理中的相应技术实现细节描述,这里不再给以过多赘述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1、一种网页分类方法,其特征在于,包括步骤:
A、判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息,若是,从网页对应的锚文本中选取分类锚文本,否则,将该网页的标题字段确定为分类锚文本,确定该分类锚文本中包含的分类关键词;
B、从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本;
C、对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。
2、如权利要求1所述的方法,其特征在于,若下载网页爬虫阶段记录了所述网页的锚文本信息,则选取其中出现次数最多的锚文本做为该网页的分类锚文本。
3、如权利要求1所述的方法,其特征在于,所述确定分类锚文本中包含的分类关键词的过程为:
对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类锚文本的分类关键词。
4、如权利要求1所述的方法,其特征在于,对特征文本进行文本分类处理的过程为:
对特征文本进行分词处理,去掉其中的停用词,按照预先构建的特征词表从余下的词中提取特征词汇;
按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在各类别文本中的权值确定出所述特征文本的类别。
5、一种网页分类装置,其特征在于,包括:
判断模块,用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息,若是,触发分类锚文本选取模块从网页对应的锚文本中选取分类锚文本,否则,触发标题字段提取模块提取网页的标题字段;
标题字段提取模块,用于提取网页的标题字段,将其做为该网页的分类锚文本发送给分类关键词确定模块;
分类锚文本选取模块,用于从网页对应的锚文本中选取分类锚文本;
分类关键词确定模块,用于确定分类锚文本中包含的分类关键词;
查找模块,用于从网页的全部内容中查找包含至少一个所述分类关键词的语句,将查找到的语句组合形成特征文本;
特征文本分类模块,用于对所述特征文本进行分类处理,将该特征文本的类别确定为所述网页的类别。
CN200610167466A 2006-12-20 2006-12-20 一种网页分类方法及装置 Active CN100578500C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610167466A CN100578500C (zh) 2006-12-20 2006-12-20 一种网页分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610167466A CN100578500C (zh) 2006-12-20 2006-12-20 一种网页分类方法及装置

Publications (2)

Publication Number Publication Date
CN101178714A CN101178714A (zh) 2008-05-14
CN100578500C true CN100578500C (zh) 2010-01-06

Family

ID=39404972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610167466A Active CN100578500C (zh) 2006-12-20 2006-12-20 一种网页分类方法及装置

Country Status (1)

Country Link
CN (1) CN100578500C (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204838B2 (en) * 2009-04-10 2012-06-19 Microsoft Corporation Scalable clustering
CN101593200B (zh) * 2009-06-19 2012-10-03 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101937436B (zh) * 2009-06-29 2013-09-25 华为技术有限公司 一种文本分类方法及装置
CN102135967B (zh) * 2010-01-27 2013-06-05 华为技术有限公司 网页关键词提取方法、装置及系统
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
JP5389130B2 (ja) * 2011-09-15 2014-01-15 株式会社東芝 文書分類装置、方法およびプログラム
CN103309862B (zh) * 2012-03-07 2017-05-17 腾讯科技(深圳)有限公司 一种网页类型识别方法和系统
CN103514168B (zh) * 2012-06-15 2017-05-03 富士通株式会社 数据处理方法和设备
CN103631787B (zh) * 2012-08-22 2019-01-11 腾讯科技(深圳)有限公司 网页类型识别方法以及网页类型识别装置
CN102831246B (zh) * 2012-09-17 2014-09-24 中央民族大学 藏文网页分类方法和装置
CN103678400B (zh) * 2012-09-21 2017-12-01 腾讯科技(深圳)有限公司 基于群体搜索行为的网页分类方法及装置
CN104239300B (zh) * 2013-06-06 2017-10-20 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN104572775B (zh) * 2013-10-28 2019-02-15 深圳市腾讯计算机系统有限公司 广告分类方法、装置及服务器
CN104915327B (zh) 2014-03-14 2019-01-29 腾讯科技(深圳)有限公司 一种文本信息的处理方法及装置
CN103914538B (zh) * 2014-04-01 2017-02-15 浙江大学 基于锚文本上下文和链接分析的主题抓取方法
CN104573021A (zh) * 2015-01-12 2015-04-29 浪潮软件集团有限公司 一种针对互联网行为进行分析的方法
CN104933178B (zh) * 2015-07-01 2018-09-11 北京奇虎科技有限公司 官方网站确定方法和系统及官方网站的排序方法
CN104965926B (zh) * 2015-07-14 2019-03-26 安一恒通(北京)科技有限公司 网页提供方法及装置
CN106484729B (zh) * 2015-08-31 2020-05-08 华为技术有限公司 一种词汇生成、分类方法及装置
CN105243091B (zh) * 2015-09-11 2018-11-13 晶赞广告(上海)有限公司 基于超链分析的页面语义信息提取方法及系统
CN106874282A (zh) * 2015-12-11 2017-06-20 北京奇虎科技有限公司 候选页面集合的生成方法及装置
CN108345599B (zh) * 2017-01-23 2021-12-14 阿里巴巴集团控股有限公司 网页类型确定方法、装置及计算机可读介质
CN108960952A (zh) * 2017-05-24 2018-12-07 阿里巴巴集团控股有限公司 一种违禁信息的检测方法及装置
CN107368542B (zh) * 2017-06-27 2020-08-14 山东华软金盾软件股份有限公司 一种涉密数据的涉密等级评定方法
CN110322153A (zh) * 2019-07-09 2019-10-11 中国工商银行股份有限公司 监控事件处理方法及系统

Also Published As

Publication number Publication date
CN101178714A (zh) 2008-05-14

Similar Documents

Publication Publication Date Title
CN100578500C (zh) 一种网页分类方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN102227724B (zh) 对于音译的机器学习
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
US9183226B2 (en) Image classification
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
US20090319449A1 (en) Providing context for web articles
CN103106287B (zh) 一种用户检索语句的处理方法及系统
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN102402604A (zh) 搜索引擎的有效前向排序
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
CN101510221A (zh) 一种用于信息检索的查询语句分析方法与系统
CN107357777B (zh) 提取标签信息的方法和装置
CN102279843A (zh) 处理短语数据的方法以及装置
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110765761A (zh) 基于人工智能的合同敏感词校验方法、装置及存储介质
CN111160019A (zh) 一种舆情监测的方法、装置及系统
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN110781669A (zh) 文本关键信息提取方法与装置、电子设备、存储介质
CN111538836A (zh) 一种识别文本类广告中金融广告的方法
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN102999521A (zh) 一种识别搜索需求的方法和装置
CN115080750A (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN110008312A (zh) 一种文档写作助手实现方法、系统及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131025

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131025

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 2, 518044, East 410 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.