CN104504016A

CN104504016A - 一种面向用户的web信息自动提取方法

Info

Publication number: CN104504016A
Application number: CN201410758981.6A
Authority: CN
Inventors: 刘文婷
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2014-12-10
Filing date: 2014-12-10
Publication date: 2015-04-08

Abstract

本发明提供一种面向用户的WEB信息自动提取方法，该方法主要用于用户指定的一个或多个网站内容的快速定位与自动提取。具体为：首先根据给定的链接地址(URL)，遍历整个网站，获得用户所关注的页面；然后存储相应页面的链接地址；再抽取关注页面的信息标题，发布时间、主要内容等信息；最后将抽取的信息存储于数据库和文件系统中，并且去除抽取的重复信息。本发明应用于信息检索或咨询类网站的信息采集，能够从大量的WEB页面中提取用户关注的信息，并且能快速定位用户所关注的内容。

Description

一种面向用户的WEB信息自动提取方法

技术领域

本发明涉及文本处理技术领域，尤其是一种面向用户的WEB信息自动提取方法。

背景技术

本发明涉及文本处理技术领域，如何在海量的WEB信息中快速而又准确地获取信息成为当前的研究热点，特别是从用户关注的站点中自动提取信息，并快速定位信息内容已经得到广泛关注。现有的信息提取方法，主要有基于主题和关键词的WEB信息自动提取方法，以及基于查询的WEB信息采集技术，面向主题、关键词以及基于查询的WEB信息采集都是有选择性地提取特定内容的WEB页面，采集的页面单一，不能满足用户所关注的所有WEB站点信息的自动提取。

发明内容

本发明提出了一种面向用户的WEB信息自动提取方法。本发明能分析用户关注的站点列表，能够从大量的WEB页面中提取用户关注的信息，并且能快速定位用户所关注的内容，以提高用户获取信息的效率。

为了达到上述目的，本发明所采用的技术方案为：

一种面向用户的WEB信息自动提取方法，包括以下步骤：

(1)根据用户给定的WEB站点链接列表，依次遍历每个WEB站点，获得用户关注页面；

(2)识别WEB站点中每个页面的链接地址并存储；

(3)提取用户关注页面的标题、发布时间、页面正文；

(4)将提取的内容格式规范化后存储于数据库和文件系统中，其中页面标题、发布时间存储于数据库中，页面正文存储于文件系统中；、

(5)去除抽取的重复信息；

进一步的，所述步骤(1)中，用户给定的链接列表为用户手动输入或从系统默认的WEB站点列表中选择获得。

进一步的，所述步骤(2)识别连接地址并存储具体包括以下步骤：

2a)对于每个WEB站点，以一个URL作为信息来源，根据HTML文档的DOM树结构获得相应WEB页面的HTML源代码，再根据WEB页面的编码格式获得WEB页面的分页链接格式，根据分页链接格式获得分页的全部链接地址，再根据分页链接地址获得所有分页的HTML源代码；

2b)依次获取用户关注的WEB站点列表中每个URL，连接并解析相应页面，提取页面中所有链接地址后，逐个判断这些链接是否为网站内部链接，且是否已存在于待检索链接队列或已检索链接队列中，如果某一链接被判定为该网站内部链接，且不存在于待检索链接队列与已检索链接队列中，则将该链接地址存入待检索链接队列，否则不对该链接地址进行操作，直接获取下一个链接进行判断；

2c)在该页面所有链接处理完毕后，系统将从待检索链接队列中取出下一个链接地址替代用户关注的WEB站点的首页链接地址，重复步骤2a)到2b)，处理完毕后，将该链接存入已检索链接队列，然后继续从待检索链接队列中提取下一链接地址，如此循环，直到待检索链接队列为空，则结束当前站点的检索工作，开始对下一站点进行检索。

更进一步的，所述步骤(3)具体包括以下步骤：

3a)提取标题,从目标链接队列中逐个提取信息链接地址，并对该链接地址进行连接与页面解析，过滤出该页面HTML文档中的<title>标签，提取出符合要求的节点存入节点列表，然后获取节点的显示文本信息，并对所提取的信息进行适应性修改；

3b)提取正文，提取主体内容，过滤出HTML文档中的<p>节点、<div>节点、<div>节点作为先辈节点的节点、<a>节点以及拥有后代节点<a>的节点；

3c)提取发布时间，当页面解析完成后通过正则表达式匹配法提取出信息发布时间。

再进一步的，所述步骤(5)去除抽取重复的信息具体为：对一个信息站点进行过一次采集后，为了避免对已采集信息的重复采集，仅对新产生的页面进行采集，提取信息基本属性后，在数据库中查询该信息是否存在，如果存在，直接提取下一信息链接进行操作，否则，将该条信息存入。

附图说明

图1为本发明面向用户的WEB信息自动提取方法的流程图。

具体实施方式

下面将结合说明书附图，对本发明作进一步说明。

如图1所示，一种面向用户的WEB信息自动提取方法，包括以下步骤：

步骤1，用户给定WEB站点链接列表，遍历整个WEB站点，获得用户关注的页面；用户首先手动输入关注的WEB站点列表首页的URL，或者使用系统默认的WEB站点列表，如输入各大新闻网站的首页链接地址。如，搜狐的首页链接http://www.sohu.com，新浪的首页链接http://www.sina.com.cn。

步骤2，识别WEB站点中每个页面的链接地址与并存储，具体包括以下步骤：2a)、对于每个WEB站点，采用浏览器编程技术，以一个URL作为信息来源，依照HTML文档的DOM树结构获得相应WEB页面的HTML源代码，分析WEB页面的编码格式，根据WEB页面的编码格式获得WEB页面的分页链接格式，根据分页链接格式获得分页的全部链接地址，再根据分页链接地址获得所有分页的HTML源代码。

2b)、依次获取用户关注的WEB站点列表中每个URL，连接并解析相应页面，提取页面中所有链接地址后，逐个判断这些链接是否为网站内部链接，且是否已存在于待检索链接队列或已检索链接队列中。如果某一链接被判定为该网站内部链接，且不存在于待检索链接队列与已检索链接队列中，则将该链接地址存入待检索链接队列，否则不对该链接地址进行操作，直接获取下一个链接进行判断。

2c)、在该页面所有链接处理完毕后，系统将从待检索链接队列中取出下一个链接地址替代用户关注的WEB站点的首页链接地址，重复步骤2a)到2b)，处理完毕后，将该链接存入已检索链接队列，然后继续从待检索链接队列中提取下一链接地址，如此循环，直到待检索链接队列为空，则结束当前站点的检索工作，开始对下一站点进行检索。

步骤3，提取用户关注页面的标题、发布时间、页面正文，具体为：

3a)、提取标题：当网站链接遍历完成后，系统将从目标链接队列中逐个提取信息链接地址，并对该链接地址进行连接与页面解析。页面解析完成后，调用HTMLParser中的方法TagNameFilter()过滤出该页面HTML文档中<title>标签，然后调用方法extractAllNodesThatMatch()提取出满足要求的节点存入节点列表，接着调用方法toPlainTextString()获取节点的显示文本信息，并对提取的信息进行适当的修改。如删除符号“|”及之后的文本内容、删除或以空格替换文本中的“？”、“&”、“：”等不可作为文本文档文件名使用的内容，即为提取的标题。

3b)、提取正文：主体内容提取主要是通过调用HTMLParser中的方法来完成的，调用方法TagNameFilter()，过滤出HTML文档中的<p>节点；调用方法TagNameFilter()，过滤出HTML文档中的<div>节点；调用方法HasParentFilter()，过滤出HTML文档中<div>节点作为先辈节点的节点；调用方法TagNameFilter()，过滤出HTML文档中的<a>节点；调用方法HasChildFilter()，过滤出HTML文档中拥有后代节点<a>的节点等。

3c)、提取发布时间：页面解析完成后，调用HTMLParser中正则表达式匹配法提取信息发布时间。信息发布时间的正则表达式为：\\d\\d\\d\\d-\\d+-\\d+.？\\d\\d:\\d\\d，调用Pattern类中的compile()方法后，正则表达式便被编译到了模式中，调用方法matcher()，创建出与HTML文档内容以及该模式相匹配的匹配器，最后依次调用Matcher类中的方法find()与group()，便可提取出HTML文档中形式为yyyy-MM-dd hh:mm、yyyy-M-dd hh:mm、yyyy-MM-d hh:mm或yyyy-M-dd hh:mm等形式的字符串序列，即为信息发布时间。

步骤4，一个网页除了有标题、正文、发布时间这些我们需要的信息以外，都还会有一些附带信息，最常见的是广告和对其他网站、网页的链接信息，并且还会包括一些HTML标记，我们将这些不需要的信息称为无关信息，因此要获取网页文本，首要做的就是去除网页中的无关信息。因此我们需要将提取的内容格式规范化后再存储于数据库和文件系统中，其中，页面标题、发布时间存储于数据库中，页面正文存储于文件系统中。

步骤5，去除抽取重复的信息，具体方法为：

对一个WEB站点进行过一次采集后，为了避免对已采集信息的重复采集，仅对新产生的页面进行采集，提取信息基本属性后，在数据库中查询该信息是否存在，如果存在，直接提取下一信息链接进行操作，否则，将该条信息存入系统。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种面向用户的WEB信息自动提取方法，其特征在于包含如下步骤：

(2)识别WEB站点中每个页面的链接地址并存储；

(3)提取用户关注页面的标题、发布时间、页面正文；

(4)将提取的内容格式规范化后存储于数据库和文件系统中，其中页面标题、发布时间存储于数据库中，页面正文存储于文件系统中；

(5)去除抽取的重复信息。

2.根据权利要求1所述的一种面向用户的WEB信息自动提取方法，其特征在于：所述步骤(1)中，用户给定的链接列表为用户手动输入或从系统默认的WEB站点列表中选择获得。

3.根据权利要求1所述的一种面向用户的WEB信息自动提取方法，其特征在于：所述步骤(2)识别连接地址并存储具体包括以下步骤：

4.根据权利要求1所述的一种面向用户的WEB信息自动提取方法，其特征在于：所述步骤(3)具体包括以下步骤：

5.根据权利要求1所述的一种面向用户的WEB信息自动提取方法，其特征在于：所述步骤(5)去除抽取重复的信息具体为：对一个信息站点进行过一次采集后，为了避免对已采集信息的重复采集，仅对新产生的页面进行采集，提取信息基本属性后，在数据库中查询该信息是否存在，如果存在，直接提取下一信息链接进行操作，否则，将该条信息存入系统。