CN104504016A - 一种面向用户的web信息自动提取方法 - Google Patents
一种面向用户的web信息自动提取方法 Download PDFInfo
- Publication number
- CN104504016A CN104504016A CN201410758981.6A CN201410758981A CN104504016A CN 104504016 A CN104504016 A CN 104504016A CN 201410758981 A CN201410758981 A CN 201410758981A CN 104504016 A CN104504016 A CN 104504016A
- Authority
- CN
- China
- Prior art keywords
- information
- page
- user
- web
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种面向用户的WEB信息自动提取方法,该方法主要用于用户指定的一个或多个网站内容的快速定位与自动提取。具体为:首先根据给定的链接地址(URL),遍历整个网站,获得用户所关注的页面;然后存储相应页面的链接地址;再抽取关注页面的信息标题,发布时间、主要内容等信息;最后将抽取的信息存储于数据库和文件系统中,并且去除抽取的重复信息。本发明应用于信息检索或咨询类网站的信息采集,能够从大量的WEB页面中提取用户关注的信息,并且能快速定位用户所关注的内容。
Description
技术领域
本发明涉及文本处理技术领域,尤其是一种面向用户的WEB信息自动提取方法。
背景技术
本发明涉及文本处理技术领域,如何在海量的WEB信息中快速而又准确地获取信息成为当前的研究热点,特别是从用户关注的站点中自动提取信息,并快速定位信息内容已经得到广泛关注。现有的信息提取方法,主要有基于主题和关键词的WEB信息自动提取方法,以及基于查询的WEB信息采集技术,面向主题、关键词以及基于查询的WEB信息采集都是有选择性地提取特定内容的WEB页面,采集的页面单一,不能满足用户所关注的所有WEB站点信息的自动提取。
发明内容
本发明提出了一种面向用户的WEB信息自动提取方法。本发明能分析用户关注的站点列表,能够从大量的WEB页面中提取用户关注的信息,并且能快速定位用户所关注的内容,以提高用户获取信息的效率。
为了达到上述目的,本发明所采用的技术方案为:
一种面向用户的WEB信息自动提取方法,包括以下步骤:
(1)根据用户给定的WEB站点链接列表,依次遍历每个WEB站点,获得用户关注页面;
(2)识别WEB站点中每个页面的链接地址并存储;
(3)提取用户关注页面的标题、发布时间、页面正文;
(4)将提取的内容格式规范化后存储于数据库和文件系统中,其中页面标题、发布时间存储于数据库中,页面正文存储于文件系统中;、
(5)去除抽取的重复信息;
进一步的,所述步骤(1)中,用户给定的链接列表为用户手动输入或从系统默认的WEB站点列表中选择获得。
进一步的,所述步骤(2)识别连接地址并存储具体包括以下步骤:
2a)对于每个WEB站点,以一个URL作为信息来源,根据HTML文档的DOM树结构获 得相应WEB页面的HTML源代码,再根据WEB页面的编码格式获得WEB页面的分页链接格式,根据分页链接格式获得分页的全部链接地址,再根据分页链接地址获得所有分页的HTML源代码;
2b)依次获取用户关注的WEB站点列表中每个URL,连接并解析相应页面,提取页面中所有链接地址后,逐个判断这些链接是否为网站内部链接,且是否已存在于待检索链接队列或已检索链接队列中,如果某一链接被判定为该网站内部链接,且不存在于待检索链接队列与已检索链接队列中,则将该链接地址存入待检索链接队列,否则不对该链接地址进行操作,直接获取下一个链接进行判断;
2c)在该页面所有链接处理完毕后,系统将从待检索链接队列中取出下一个链接地址替代用户关注的WEB站点的首页链接地址,重复步骤2a)到2b),处理完毕后,将该链接存入已检索链接队列,然后继续从待检索链接队列中提取下一链接地址,如此循环,直到待检索链接队列为空,则结束当前站点的检索工作,开始对下一站点进行检索。
更进一步的,所述步骤(3)具体包括以下步骤:
3a)提取标题,从目标链接队列中逐个提取信息链接地址,并对该链接地址进行连接与页面解析,过滤出该页面HTML文档中的<title>标签,提取出符合要求的节点存入节点列表,然后获取节点的显示文本信息,并对所提取的信息进行适应性修改;
3b)提取正文,提取主体内容,过滤出HTML文档中的<p>节点、<div>节点、<div>节点作为先辈节点的节点、<a>节点以及拥有后代节点<a>的节点;
3c)提取发布时间,当页面解析完成后通过正则表达式匹配法提取出信息发布时间。
再进一步的,所述步骤(5)去除抽取重复的信息具体为:对一个信息站点进行过一次采集后,为了避免对已采集信息的重复采集,仅对新产生的页面进行采集,提取信息基本属性后,在数据库中查询该信息是否存在,如果存在,直接提取下一信息链接进行操作,否则,将该条信息存入。
附图说明
图1为本发明面向用户的WEB信息自动提取方法的流程图。
具体实施方式
下面将结合说明书附图,对本发明作进一步说明。
如图1所示,一种面向用户的WEB信息自动提取方法,包括以下步骤:
步骤1,用户给定WEB站点链接列表,遍历整个WEB站点,获得用户关注的页面; 用户首先手动输入关注的WEB站点列表首页的URL,或者使用系统默认的WEB站点列表,如输入各大新闻网站的首页链接地址。如,搜狐的首页链接http://www.sohu.com,新浪的首页链接http://www.sina.com.cn。
步骤2,识别WEB站点中每个页面的链接地址与并存储,具体包括以下步骤:2a)、对于每个WEB站点,采用浏览器编程技术,以一个URL作为信息来源,依照HTML文档的DOM树结构获得相应WEB页面的HTML源代码,分析WEB页面的编码格式,根据WEB页面的编码格式获得WEB页面的分页链接格式,根据分页链接格式获得分页的全部链接地址,再根据分页链接地址获得所有分页的HTML源代码。
2b)、依次获取用户关注的WEB站点列表中每个URL,连接并解析相应页面,提取页面中所有链接地址后,逐个判断这些链接是否为网站内部链接,且是否已存在于待检索链接队列或已检索链接队列中。如果某一链接被判定为该网站内部链接,且不存在于待检索链接队列与已检索链接队列中,则将该链接地址存入待检索链接队列,否则不对该链接地址进行操作,直接获取下一个链接进行判断。
2c)、在该页面所有链接处理完毕后,系统将从待检索链接队列中取出下一个链接地址替代用户关注的WEB站点的首页链接地址,重复步骤2a)到2b),处理完毕后,将该链接存入已检索链接队列,然后继续从待检索链接队列中提取下一链接地址,如此循环,直到待检索链接队列为空,则结束当前站点的检索工作,开始对下一站点进行检索。
步骤3,提取用户关注页面的标题、发布时间、页面正文,具体为:
3a)、提取标题:当网站链接遍历完成后,系统将从目标链接队列中逐个提取信息链接地址,并对该链接地址进行连接与页面解析。页面解析完成后,调用HTMLParser中的方法TagNameFilter()过滤出该页面HTML文档中<title>标签,然后调用方法extractAllNodesThatMatch()提取出满足要求的节点存入节点列表,接着调用方法toPlainTextString()获取节点的显示文本信息,并对提取的信息进行适当的修改。如删除符号“|”及之后的文本内容、删除或以空格替换文本中的“?”、“&”、“:”等不可作为文本文档文件名使用的内容,即为提取的标题。
3b)、提取正文:主体内容提取主要是通过调用HTMLParser中的方法来完成的,调用方法TagNameFilter(),过滤出HTML文档中的<p>节点;调用方法TagNameFilter(),过滤出HTML文档中的<div>节点;调用方法HasParentFilter(),过滤出HTML文档中<div>节点作为先辈节点的节点;调用方法TagNameFilter(),过滤出HTML文档中的<a>节点;调用方法HasChildFilter(),过滤出HTML文档中拥有后代节点<a>的节点等。
3c)、提取发布时间:页面解析完成后,调用HTMLParser中正则表达式匹配法提取信息发布时间。信息发布时间的正则表达式为:\\d\\d\\d\\d-\\d+-\\d+.?\\d\\d:\\d\\d,调用Pattern类中的compile()方法后,正则表达式便被编译到了模式中,调用方法matcher(),创建出与HTML文档内容以及该模式相匹配的匹配器,最后依次调用Matcher类中的方法find()与group(),便可提取出HTML文档中形式为yyyy-MM-dd hh:mm、yyyy-M-dd hh:mm、yyyy-MM-d hh:mm或yyyy-M-dd hh:mm等形式的字符串序列,即为信息发布时间。
步骤4,一个网页除了有标题、正文、发布时间这些我们需要的信息以外,都还会有一些附带信息,最常见的是广告和对其他网站、网页的链接信息,并且还会包括一些HTML标记,我们将这些不需要的信息称为无关信息,因此要获取网页文本,首要做的就是去除网页中的无关信息。因此我们需要将提取的内容格式规范化后再存储于数据库和文件系统中,其中,页面标题、发布时间存储于数据库中,页面正文存储于文件系统中。
步骤5,去除抽取重复的信息,具体方法为:
对一个WEB站点进行过一次采集后,为了避免对已采集信息的重复采集,仅对新产生的页面进行采集,提取信息基本属性后,在数据库中查询该信息是否存在,如果存在,直接提取下一信息链接进行操作,否则,将该条信息存入系统。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种面向用户的WEB信息自动提取方法,其特征在于包含如下步骤:
(1)根据用户给定的WEB站点链接列表,依次遍历每个WEB站点,获得用户关注页面;
(2)识别WEB站点中每个页面的链接地址并存储;
(3)提取用户关注页面的标题、发布时间、页面正文;
(4)将提取的内容格式规范化后存储于数据库和文件系统中,其中页面标题、发布时间存储于数据库中,页面正文存储于文件系统中;
(5)去除抽取的重复信息。
2.根据权利要求1所述的一种面向用户的WEB信息自动提取方法,其特征在于:所述步骤(1)中,用户给定的链接列表为用户手动输入或从系统默认的WEB站点列表中选择获得。
3.根据权利要求1所述的一种面向用户的WEB信息自动提取方法,其特征在于:所述步骤(2)识别连接地址并存储具体包括以下步骤:
2a)对于每个WEB站点,以一个URL作为信息来源,根据HTML文档的DOM树结构获得相应WEB页面的HTML源代码,再根据WEB页面的编码格式获得WEB页面的分页链接格式,根据分页链接格式获得分页的全部链接地址,再根据分页链接地址获得所有分页的HTML源代码;
2b)依次获取用户关注的WEB站点列表中每个URL,连接并解析相应页面,提取页面中所有链接地址后,逐个判断这些链接是否为网站内部链接,且是否已存在于待检索链接队列或已检索链接队列中,如果某一链接被判定为该网站内部链接,且不存在于待检索链接队列与已检索链接队列中,则将该链接地址存入待检索链接队列,否则不对该链接地址进行操作,直接获取下一个链接进行判断;
2c)在该页面所有链接处理完毕后,系统将从待检索链接队列中取出下一个链接地址替代用户关注的WEB站点的首页链接地址,重复步骤2a)到2b),处理完毕后,将该链接存入已检索链接队列,然后继续从待检索链接队列中提取下一链接地址,如此循环,直到待检索链接队列为空,则结束当前站点的检索工作,开始对下一站点进行检索。
4.根据权利要求1所述的一种面向用户的WEB信息自动提取方法,其特征在于:所述步骤(3)具体包括以下步骤:
3a)提取标题,从目标链接队列中逐个提取信息链接地址,并对该链接地址进行连接与页面解析,过滤出该页面HTML文档中的<title>标签,提取出符合要求的节点存入节点列表,然后获取节点的显示文本信息,并对所提取的信息进行适应性修改;
3b)提取正文,提取主体内容,过滤出HTML文档中的<p>节点、<div>节点、<div>节点作为先辈节点的节点、<a>节点以及拥有后代节点<a>的节点;
3c)提取发布时间,当页面解析完成后通过正则表达式匹配法提取出信息发布时间。
5.根据权利要求1所述的一种面向用户的WEB信息自动提取方法,其特征在于:所述步骤(5)去除抽取重复的信息具体为:对一个信息站点进行过一次采集后,为了避免对已采集信息的重复采集,仅对新产生的页面进行采集,提取信息基本属性后,在数据库中查询该信息是否存在,如果存在,直接提取下一信息链接进行操作,否则,将该条信息存入系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410758981.6A CN104504016A (zh) | 2014-12-10 | 2014-12-10 | 一种面向用户的web信息自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410758981.6A CN104504016A (zh) | 2014-12-10 | 2014-12-10 | 一种面向用户的web信息自动提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104504016A true CN104504016A (zh) | 2015-04-08 |
Family
ID=52945414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410758981.6A Pending CN104504016A (zh) | 2014-12-10 | 2014-12-10 | 一种面向用户的web信息自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104504016A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778246A (zh) * | 2015-04-10 | 2015-07-15 | 浪潮集团有限公司 | 一种网页信息获取方法和装置 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
CN106250411A (zh) * | 2016-07-22 | 2016-12-21 | 广西防城港核电有限公司 | 一种基于微软SharePoint平台的智能内链实现方法 |
WO2017162031A1 (zh) * | 2016-03-22 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 一种信息采集方法和装置,以及一种智能终端 |
CN108228609A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 信息过滤方法和装置 |
CN111581549A (zh) * | 2020-05-09 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语料采集方法、装置及存储介质 |
CN115238210A (zh) * | 2022-09-21 | 2022-10-25 | 云账户技术(天津)有限公司 | 一种网站链接可用性检查方法及装置、存储介质、终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192213A (zh) * | 2006-11-28 | 2008-06-04 | 郑州威科姆技术开发有限公司 | 网络信息自动下载和处理方法 |
CN102087648A (zh) * | 2009-12-03 | 2011-06-08 | 北京大学 | 一种新闻评论页面的爬取方法及系统 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN102750392A (zh) * | 2012-07-09 | 2012-10-24 | 浙江省公众信息产业有限公司 | Web主题信息提取方法及系统 |
US20140047311A1 (en) * | 2012-08-13 | 2014-02-13 | Peking University Founder Group Co., Ltd. | Method and apparatus for acquiring information |
-
2014
- 2014-12-10 CN CN201410758981.6A patent/CN104504016A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192213A (zh) * | 2006-11-28 | 2008-06-04 | 郑州威科姆技术开发有限公司 | 网络信息自动下载和处理方法 |
CN102087648A (zh) * | 2009-12-03 | 2011-06-08 | 北京大学 | 一种新闻评论页面的爬取方法及系统 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN102750392A (zh) * | 2012-07-09 | 2012-10-24 | 浙江省公众信息产业有限公司 | Web主题信息提取方法及系统 |
US20140047311A1 (en) * | 2012-08-13 | 2014-02-13 | Peking University Founder Group Co., Ltd. | Method and apparatus for acquiring information |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778246A (zh) * | 2015-04-10 | 2015-07-15 | 浪潮集团有限公司 | 一种网页信息获取方法和装置 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
WO2017162031A1 (zh) * | 2016-03-22 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 一种信息采集方法和装置,以及一种智能终端 |
CN106250411A (zh) * | 2016-07-22 | 2016-12-21 | 广西防城港核电有限公司 | 一种基于微软SharePoint平台的智能内链实现方法 |
CN108228609A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 信息过滤方法和装置 |
CN111581549A (zh) * | 2020-05-09 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语料采集方法、装置及存储介质 |
CN111581549B (zh) * | 2020-05-09 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语料采集方法、装置及存储介质 |
CN115238210A (zh) * | 2022-09-21 | 2022-10-25 | 云账户技术(天津)有限公司 | 一种网站链接可用性检查方法及装置、存储介质、终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104504016A (zh) | 一种面向用户的web信息自动提取方法 | |
CN102254027A (zh) | 批量获取网页内容的方法 | |
CN107423391B (zh) | 网页结构化数据的信息提取方法 | |
CN105243159A (zh) | 一种基于可视化脚本编辑器的分布式网络爬虫系统 | |
CN108052632B (zh) | 一种网络信息获取方法、系统及企业信息搜索系统 | |
CN106547749B (zh) | 网页数据采集的方法和装置 | |
CN102129428B (zh) | 一种实现从网页中订阅信息的方法及装置 | |
CN103279567A (zh) | 一种基于AJAX的Web数据采集方法及系统 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN102063488A (zh) | 一种基于语义的代码搜索方法 | |
CN102982161A (zh) | 网页信息的获取方法和装置 | |
CN105912613A (zh) | 一种网站模板快速迁移的方法 | |
CN102982162A (zh) | 网页信息的获取系统 | |
CN102486799A (zh) | 一种环球信息网www页面处理方法和装置 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN103714116A (zh) | 网页信息提取方法及设备 | |
CN103226599A (zh) | 一种精确提取网页内容的方法及系统 | |
CN103488560B (zh) | 一种用于网页测试的测试目标处理方法和装置 | |
US20140156799A1 (en) | Method and System for Extracting Post Contents From Forum Web Page | |
CN103902667A (zh) | 一种基于元搜索的网络信息采集器简单实现方法 | |
CN104407901A (zh) | 代码的添加方法和装置 | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
KR101287371B1 (ko) | 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체 | |
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
CN107562936A (zh) | 一种基于Jsoup的网页新闻列表的抓取及保存方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150408 |