CN107577783A

CN107577783A - 基于Web结构特征挖掘的网页类型自动识别方法

Info

Publication number: CN107577783A
Application number: CN201710830492.0A
Authority: CN
Inventors: 于富财; 汪辉; 文友枥; 胡光岷; 费高雷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-01-12

Abstract

本发明公开了一种基于Web结构特征挖掘的网页类型自动识别方法，包括以下步骤：S1、通过爬虫系统获取网页源码集；S2、对网页源码进行预处理；S3、进行网页特征提取；S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别。本发明在提取网页特征集之前，采用深度优先遍历搜索策略搜寻需要清除的噪声标签，减轻了网页的体积，减少了待处理标签的数量，提高了提取网页特征集的性能；通过对Web结构的挖掘，从与网页结构息息相关的四个方面提取HTML文档的特征集，再运用机器学习中分类算法构造分类器完成网页类型的自动识别，与其他网页类型识别方法相比而言，本发明具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点。

Description

基于Web结构特征挖掘的网页类型自动识别方法

技术领域

本发明属于网页识别技术领域，特别涉及一种基于Web结构特征挖掘的网页类型自动识别方法。

背景技术

随着科学技术的迅猛发展，互联网因包含海量的信息而成为人们汲取知识的主要场所。近年来，在国家的大力推广以及资金的大量投入下，互联网越来越得到普及了。通过互联网络发展状况统计显示的数据可以得到以下结果，中国网站数量呈增长趋势，2016年6月统计，有454万个网站，相比于2015年12月增长了7.4％。

由于网站数量的爆炸式增长，导致用户获取真正感兴趣的资源的难度急剧上升，这就是“信息过载”现象。面对纷繁复杂的网络世界，如何让人们快速、准确的得到有用的信息，将成为一个重要同时又有意义的研究方向。

面对人们的需求，搜索引擎技术及信息检索技术得到了很好的发展，为人们获取信息做出了重大贡献。因为现有的网络爬虫技术已比较完善，如何再进一步智能优化爬虫系统，必然是从网页源码获取后的模块入手。新闻、博客和论坛网站是重要信息的主要来源，文本抽取技术应用于这几类网站是有重大意义的。

而在文本抽取过程中，一般只关注有针对性的网页，譬如对新闻网页的文本抽取的前提条件是网页源码都是来自新闻网页，对论坛网页的文本抽取的前提条件是网页源码都是来自论文网页。在文本抽取过程之前，进行网页类型的自动分类对减少网站的多样性，提升网络爬虫的性能和精准率具有十分重要的意义。

自上世纪80年代网页自动分类技术才开始兴起，在此之前网页分类都是通过人工实现的，原因有二：一是技术限制；二是有人工完成的可行性。人工的网页分类的做法是通过专业人士的来判断网页的类别。由于人的主观意识，不同的人对网页的判别不同，为网页分类带来了不确定性。

该技术首先涉及的是文本分类，最早涉及文本分类这项技术的或者这个领域的公司是美国的IBM。在上世纪50年代公司人员Luhn将词频统计的思想率先用于文本的主动分类。与此同时，斯坦福大学、卡内基梅隆大学等都开始研究文本自动分类技术了，因此拥有比较成熟的分类算法，主要有：贝叶斯(Naive Bayes)、最小线性平方适配法LLSF(LinearLeast Square Fit)、决策树(Decision Trees)、神经网络(Neural Networks)、K近邻(k-Nearest Neighbors)和支持向量机SVM(Support Vector Machines)。

在Web结构挖掘中的URL特征挖掘可能会带来以下问题：一是URL包含的仅仅是资源的定位信息，不包含网页的全部内容信息。二是网页包括的超链接中不是都与这个页面的内容相关的，对于分类会有负效果。网页内容的挖掘是采用纯文本分类技术，相比于结构化的文本信息，网页是一种半结构化的文档，存在很多其他信息，不仅仅是文本信息，所以采用纯文本分类技术来实现网页的分类是不可靠也是不现实的。

发明内容

本发明的目的在于克服现有技术的不足，提供一种先采用深度优先遍历搜索策略搜寻需要清除的噪声标签，然后从与网页结构息息相关的四个方面提取HTML文档的特征集，再运用机器学习中分类算法构造分类器完成网页类型的自动识别，思路简单、通用性强和准确率高的基于Web结构特征挖掘的网页类型自动识别方法。

本发明的目的是通过以下技术方案来实现的：基于Web结构特征挖掘的网页类型自动识别方法，包括以下步骤：

S1、通过爬虫系统获取网页源码集；

S2、对网页源码进行预处理；

S3、进行网页特征提取；

S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别。

进一步地，所述步骤S2包括以下子步骤：

S21、清理噪声标签，把对目标网页类型正确自动识别有帮助的特征称为积极特征；把对目标网页类型正确自动识别无帮助的特征称为消极特征，将消极特征作为噪声标签清除；具体包括以下步骤：

S211、用JAVA的API接口将网页源码解析成DOM树；

S212、遍历DOM树的标签节点，判断当前标签是否属于待清除节点，若是则清除该标签节点并遍历下一个标签节点，否则将该标签节点添加到标签节点集中；

S22、对标签节点集中的标签信息进行预处理，对单个标签节点进行处理，获取标签节点的标签结构信息；包括以下两种情况：

一是节点中既有文本节点又有标签节点，在这种情况下，获取的文本内容是标签节点自身的文本，文本信息是从文本节点中获取；

二是节点中只有文本节点，那么标签节点就是叶子节点，文本信息就是全部的文本信息。

进一步地，所述步骤S3包括以下子步骤：

S31、采用正则匹配方法提取URL特征；

S32、提取文本标签特征，包括以下步骤：

S321、根据网页源码预处理中保留的标签信息，挖掘标签的9个属性：标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和标签合并个数；

S322、根据标签属性，定义用于存储标签属性信息的标签属性信息结构体，将标签属性变化为连续值的量度值；

S323、选定标签以及对应的属性，对属性相同的标签进行合并处理；

S33、提取页面特征，包括以下步骤：

S331、提取超链接特征，使用计算相似度来过滤噪声网页，提取网页超链接数量特征，计算相似度的方法为：

式中，分子表示当前网页URL的字符与超链接URL的字符进行字符串匹配，从左到右进行逐一匹配的相同字符数，分母是表示两种URL长度的最大值；

设置相似度的阈值T为0.5，若相似度大于0.5则超链接特征加1，否则不操作；

S332、提取网页源码大小特征，将网页源码解析为字符串形式，采用字符串的内置函数size()求出字符串的大小即网页源码大小。

进一步地，所述步骤S4具体实现方法为：将多分类过程转换为四个二分类过程，即新闻类和非新闻类、论坛类和非论坛类、商务类和非商务类、博客类和非博客类；采用C4.5算法构建四个不同的分类器，分别识别新闻网页、论坛网页、商务类网页以及博客类网页。

本发明的有益效果是：

1、本发明在提取网页特征集之前，对网页源码进行预处理，将网页源码转换成DOM树，采用深度优先遍历搜索策略搜寻需要清除的噪声标签，减轻了网页的体积，减少了待处理标签的数量，提高了提取网页特征集的性能；

2、通过对Web结构的挖掘，从与网页结构息息相关的四个方面(URL、标签、超链接和页面大小)入手，提取出HTML文档的特征集，再运用机器学习中分类算法构造分类器，最后通过分类器完成网页类型的自动识别，改进了现有的网页类型识别方法对网络爬虫性能和精准率的不足，以及简化了网页类型识别的复杂度。与其他网页类型识别方法相比而言，本发明具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点，对减少网络爬虫中网站的多样性、提高网络爬虫效率和精准率具有十分重要的意义。

附图说明

图1为本发明的网页类型自动识别方法流程图；

图2为本发明提取的总特征集结构示意图；

图3为本发明提取的标签特征集结构示意图。

具体实施方式

本发明经过对不同网页类型和大数量的网页的分析研究后，发现同一网站下的网页结构相似而不同类型的网页或者域名不同的网站下的网页的结构有着明显的异同。新闻网页的URL具有时间、域名的特征。Tag(标签)具有连续性、文本集中、层次性等特征。网页源码中包含的hyperlink数、源码的长度特征。基于对网页特征的总结，本发明提出了基于Web结构特征挖掘的网页类型自动识别方法。特征提取是本发明方法的重点，是有效识别网页类型的基础。该方法首先通过爬虫系统获取网页源码集，并调用JAVA的API接口将网页源码解析成DOM树，然后对DOM树的节点进行一些预处理操作，进而对HTML文档的标签进行挖掘，提取HTML文档的特征集，运用机器学习中分类算法构造分类器，最后通过分类器完成网页类型的自动识别。该方法与其他方法相比而言，具有思路简单、易于实现、便于拓展、通用性和高准确率的特点。下面结合附图进一步说明本发明的技术方案。

如图1所示，基于Web结构特征挖掘的网页类型自动识别方法，包括以下步骤：

S1、通过爬虫系统获取网页源码集；

S2、对网页源码进行预处理；包括以下子步骤：

S211、用JAVA的API接口将网页源码解析成DOM树；

本发明的目标是针对网页类型进行识别，识别网页属于主题型网页，主题型网页相比于目录型网页拥有文本特征集中、标点符号多、URL长且有规律和网页中数量较少的特点。选择特征的目标是寻求这些网页的相异的地方。

网页标签中包含大量与主题无关的噪声标签，对目标网页类型正确自动识别无帮助，所以在处理网页源码的第一步就是清理噪声标签。根据大量数据统计以及标签作用的研究，需要清除用于定义网页文档的头部的head标签、用于定义客户端脚本的，比如JavaScript，script标签、用于为HTML文档定义样式信息的style标签等等，具体清除标签如表1所示：

表1清理标签列表

<head>	<font>	<em>
			<script>	<link>	<img>
<style>	<li>	<b>
			<noscript>	<ul>	<strong>
<span>	<a>	<iframe>
			<br>	<i>	<select>
<wbr>	<ins>
			<nbsp>	<input>

在做标签清除处理时，调用JAVA的Jsoup库中函数将网页源码转换为DOM树，后文的所有操作都是对DOM树中的节点进行操作，获取DOM树后采用深度优先遍历搜索策略搜寻需要清除的目标标签，在这个过程中只保存需要的标签节点。

噪声标签的清理为后文中网页特征的提取扫清了障碍。网页的构建的方法多样，标签的类型多样，在对网页进行处理之前，提前排除一些无意义或对主题无关的标签，不仅凸显了主题标签，对后文中提取标签特征有积极作用，而且减轻了网页的体积，减少了待处理标签的数量，从程序处理的角度来说，减少了计算机的运算量，提高了程序的运行时间，使程序运行更加高效。

S22、对标签节点集中的标签信息进行预处理，对网页源码解析成的DOM树进行清除标签的处理后，得到标签节点集，标签节点包含了属性、文本等等信息，保留正确的、有效的标签信息，对后文的特征提取有积极作用。这一步也是网页源码预处理中重要的步骤。

网页的所有信息都包含在标签节点中的，合理运用这些信息，对于提高分类的准确率有着促进作用。针对以上问题，主题类型的网页有着很明显的文本特征，文本具有集中、连续且长度大于噪声文本，所以保留文本的长度、标点符号长度信息在预处理中显得尤为重要。除了纯文本之外，还有其他结构特征对分类有促进作用，比如title标签用于head中定义文档的标题、hn可用于定义层级标题，div用于定义文档中分区或节，把文档分割为独立、不同的部分。

根据以上分析，在网页源码预处理步骤中，为保留的标签信息，本发明定义预处理标签结构体如下：

将标签清理后得到的标签节点集作为输入，循环遍历数组，对单个标签节点进行处理，获取标签节点的标签结构信息；由于节点是嵌套的，在父子节点的文本内容有可能重复，因此本发明将标签节点的文本内容包括以下两种情况：包括以下两种情况：

通过对标签节点集的遍历得到了每个保留标签中本文定义的标签结构信息，为后文的特征提取做好了准备工作。

S3、进行网页特征提取；特征集的正确选取会直接影响分类结果，根据上文分析，新闻网页的URL具有时间、域名等特征。主题型网页标签具有连续性、文本集中、层次性等特征。网页源码中包含的hyperlink数、源码的长度特征。确定了方法需要的特征后，设计完成了特性工程。Web结构挖掘可以分为两种：从超链接(超链接是将网页连接到不同位置的结构之间)中提取模式和挖掘文档结构(分析页面结构的树链接结构以描述HTML或XML标签页)，因此，特征集分为URL特征、文本标签特征和页面特征。

网页特征提取包括以下子步骤：

S31、采用正则匹配方法提取URL特征；主题型网页的URL具有时间、域名的特征，这些都是网页的积极特征。其中时间特征在新闻网页中表现特别明显，本发明选取了主流新闻网页进行测试，实验显示新闻网页中大部分具有时间特征。

时间表述类型多样，比如：/2016/1208/，/2016-05-09/，/20161208/等等类型。对20个类型的新闻网页进行统计后，总结出10种不同的时间表述形式。识别是否具有时间特征，本发明采用正则匹配，正则表达式如表2所示：

表2时间特征及其正则表达式

/2016/1208/	./\d{2,4}/\d{1,2}\d{1,2}[日]{0,1}/.
		/2016-05-09/	./\d{2,4}[年/-]\d{1,2}[月/-]\d{1,2}[日]{0,1}/.
/20161208/	./\d{2,4}\d{1,2}\d{1,2}[日]{0,1}/.
		/2016-12/08/	./\d{2,4}[年/-]\d{1,2}/\d{1,2}[日]{0,1}/.
/2016/12-08/	./\d{2,4}/\d{1,2}[月/-]\d{1,2}[日]{0,1}/.
		/20161208-	./\d{2,4}\d{1,2}\d{1,2}[日]{0,1}-.
/2016-12/	./\d{2,4}[年/-]\d{1,2}/.
		/16/1208/	./\d{2,4}/\d{1,2}\d{1,2}[日]{0,1}/.
/2016/12/08/	./\d{2,4}/\d{1,2}/\d{1,2}[日]{0,1}/.
		/201612/	./\d{2,4}\d{1,2}/.

网页对应的URL的域名也是明显的特征，经过研究发现每个网页相同的板块的URL具有相同的特点。比如：搜狐新闻网页中的军事版块的URL都包含“mil”，财经版块都包含“business”，新闻版块都包含“news”等等，本发明选取了souhu、sina、163等10大常用新闻网站的10000个新闻网页的URL进行训练，总结出了45个二级域名。域名为网页类型识别提供了极大的促进作用。域名如表3所示：

表3域名特征

在识别网页的时候，非识别类型的积极特征也是一个重要的特点，非识别类型的积极特征对应了识别类型的消极特征。通过大量统计数据，本发明选取的URL的消极特征为：“list”、“tv”、“video”、“bbs”、“blog”、“index”、以“/”结尾。

S32、提取文本标签特征，在Web结构挖掘中，文档结构挖掘是分析页面结构的树链接结构以描述HTML或XML标签页。经过分析主题型网页标签具有连续性、文本集中、层次性等特点，包含的超链接数、源码的长度特点。挖掘的标签特征对于网页的识别有重大意义。

包括以下步骤：

S321、标签特征挖掘的前提是确定标签所含属性，根据网页源码预处理中保留的标签信息，挖掘标签的9个属性：标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和标签合并个数；

S322、根据标签属性，定义用于存储标签属性信息的标签属性信息结构体，为后文的标签特征属性的向量化作为准备，将标签特征属性变化为连续值的量度值，作为分类器中的输入；

S323、挖掘Web文档中标签的属性后，根据这些属性可以表示标签的特性，由于整个Web网页是由许多标签节点按照不用层次进行有机组成的，欲用特征来表示整个Web网页则不可避免的要选择不同的标签，这些不同的标签得体现出待识别网页的特征，合理地利用Web网页的不同类型的标签，有助于提高网页识别的正确率。在选定标签以及对应的属性后，对属性相同的标签进行合并处理，合并操作加强了标签的特征，对于网页分类有积极影响。

合并操作是针对上小节确定的标签集而言的，将已经预处理的输出作为合并操作的输入，这是一个循环的过程，直到提取出所有选择标签的属性值，方可结束。

S33、提取页面特征，包括以下步骤：

S331、提取超链接特征，Web网页中包括了超链接，超链接是一种允许网页与网页或者站点之间进行连接的元素，简单的说就是从一个网页指向一个目标的连接关系，这个目标可以是网页上不同的位置或者图片或者电子邮件等等。

在设计网页的时候，设计人员会遵循一定的规则设计URL，相同类型的网页的URL的是相似的，通过这一规则，本发明提出超链接URL的数量特征，即一个网页中包含的超链接URL的个数。由于网站商业化的原因，某一类型的网页中包含的超链接不仅仅是指向同一类型的网页，还有很多是指向噪声网页(不是该类型的网页)，比如导航链接、广告链接等等。在提取网页超链接数量特征的时候，需要过滤掉这些影响网页识别的链接。使用计算相似度来过滤噪声网页，提取网页超链接数量特征，计算相似度的方法为：

设置相似度的阈值T为0.5，其中阈值T设定的目的是过滤一些从URL就可以判断不为同源网页的网页，按照URL的生成规则，同源网页的域名以及主机的路径是相似的，若相似度大于0.5则超链接特征加1，否则不操作；

本发明通过对Web结构的挖掘，从与网页结构息息相关的四个方面(URL、标签、超链接和页面大小)入手，提取出特征集，为网页类型的自动识别创造了基础。归纳出如图2所示的总特征集、图3所示的标签特征集。

图2表示了总特征集的组成类别，分别是标签特征、页面特征和URL特征。显示了URL特征包含了时间、二级域名以及消极特征，页面特征包含了超链接数和页面大小。标签特征则分为11个标签，每个标签都具有9个属性值。本发明选取特征一共104个。

S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别；网页类型自动识别特征集是网页类型识别方法的基础，在此基础上，采用分类算法识别网页类型。本发明识别的类别为新闻类、论坛类、商务类、博客类和其他类别。具体实现方法为：将多分类过程转换为四个二分类过程，即新闻类和非新闻类、论坛类和非论坛类、商务类和非商务类、博客类和非博客类；采用C4.5算法构建四个不同的分类器，分别识别新闻网页、论坛网页、商务类网页以及博客类网页。运用S3构建的的特征集，通过分类算法构建4个分类器，分别识别所需识别类型。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，包括以下步骤：

S1、通过爬虫系统获取网页源码集；

S2、对网页源码进行预处理；

S3、进行网页特征提取；

2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S2包括以下子步骤：

S211、用JAVA的API接口将网页源码解析成DOM树；

S22、对标签节点集中的标签信息进行预处理，对单个标签节点进行处理，获取标签节点的标签结构信息。

3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S3包括以下子步骤：

S31、采用正则匹配方法提取URL特征；

S32、提取文本标签特征，包括以下步骤：

S33、提取页面特征，包括以下步骤：

4.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S4具体实现方法为：将多分类过程转换为四个二分类过程，即新闻类和非新闻类、论坛类和非论坛类、商务类和非商务类、博客类和非博客类；采用C4.5算法构建四个不同的分类器，分别识别新闻网页、论坛网页、商务类网页以及博客类网页。