CN104361061A - 一种web页面信息感知采集方法 - Google Patents

一种web页面信息感知采集方法 Download PDF

Info

Publication number
CN104361061A
CN104361061A CN201410610479.0A CN201410610479A CN104361061A CN 104361061 A CN104361061 A CN 104361061A CN 201410610479 A CN201410610479 A CN 201410610479A CN 104361061 A CN104361061 A CN 104361061A
Authority
CN
China
Prior art keywords
url
collected
website
record
full dose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410610479.0A
Other languages
English (en)
Other versions
CN104361061B (zh
Inventor
瞿伟
史波良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Information Development Co., Ltd.
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201410610479.0A priority Critical patent/CN104361061B/zh
Publication of CN104361061A publication Critical patent/CN104361061A/zh
Application granted granted Critical
Publication of CN104361061B publication Critical patent/CN104361061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种WEB页面信息感知采集方法,通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险,大大减少了大量站点脚本定制工作量和维护成本,克服了网站改版后无法采集信息的困扰,并且通过智能增量合并,智能生成URL规则,有效保证了页面感知获得采集URL的准确性。

Description

一种WEB页面信息感知采集方法
技术领域
本发明涉及一种WEB页面信息感知采集方法。
背景技术
随着科技的进步,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,面对互联网上兼具多样性和复杂性的海量信息,仅仅靠人工收集、整理、跟踪最新信息动态,显然是不科学的、低效的,也不能满足实际需要。而互联网信息自动采集可以使用户在信息采集、资源整合、资金利用、人力投入等方面节约大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。
常规网页抓取步骤包括:
1、从网站入口开始加载页面所有链接URL;
2、加载此网站定制的脚本;
3、翻转出所有符合该站点翻转规则的帖子URL;
4、加入采集队列,采集输出结构化数据;
5、分析,处理,存储。
现有的互联网信息因为格式多样化,数据量爆炸式膨胀,监控严格,动态加载,爬虫策略限制等,导致收集难度加大,主要表现在:
1、主流网站页面刷新率快,信息丢失严重,如果当前网页中存在多种URL贴文格式,容易遗漏部分重要帖子信息;
2、不同网站需要定制不同的规则去识别需要采集的帖子URL,需要大量的脚本定制,工作量大,维护困难;
3、广告、推广外链URL等不需要的部分抓取时很难界定;
4、网站改版后,无法自动识别改版后的帖子URL。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险以及大量维护成本的WEB页面信息感知采集方法。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种WEB页面信息感知采集方法,包括如下步骤:
步骤001.从待采集网站入口,逐页加载获得各页面上所有链接URL,过滤掉非帖子信息,获得该待采集网站的全量URL,进入步骤002;
步骤002.同时判断该待采集网站是否存在URL规则和该待采集网站是否存在历史全量URL记录,并根据判断结果,分别同时进入步骤003和步骤005进行并行处理,或者分别同时进入步骤004和步骤006进行并行处理,其中,
若该待采集网站存在URL规则,进入步骤003,同时该待采集网站存在历史全量URL记录,进入步骤005,即分别同时进入步骤003和步骤005进行并行处理;
否则若该待采集网站不存在URL规则,进入步骤004,同时该待采集网站不存在历史全量URL记录,进入步骤006,即分别同时进入步骤004和步骤006进行并行处理;
步骤003.针对步骤001中获得的该待采集网站的全量URL,根据该待采集网站的URL规则输出需要采集的URL,并判断所输出的URL是否小于预设页面比例阈值,是则进入步骤004,否则记录该需要采集的URL为记录A,并进入步骤007;
步骤004.根据正则表达式的规则,将步骤001中获得的该待采集网站的全量URL抽象为URL正则表达式,并对URL正则表达式进行学习获得该待采集网站的新URL规则,作为或者更新为该待采集网站的URL规则;按照该待采集网站的URL规则,输出大于等于预设页面比例阈值的URL,作为需要采集的URL,记录该需要采集的URL为记录B,并进入步骤007;
步骤005.加载该待采集网站的历史全量URL记录,与步骤001中获得的该待采集网站的全量URL进行合并操作,获得新出现的URL,记录该新出现的URL为记录C,进入步骤007;
步骤006.记录步骤001中获得的该待采集网站的全量URL为记录D,进入步骤007;
步骤007.若该待采集网站存在历史全量URL记录,则记录合并步骤001中获得的该待采集网站的全量URL,更新该待采集网站的历史全量URL记录;若该待采集网站不存在历史全量URL记录,则记录步骤001中获得的该待采集网站的全量URL,建立该待采集网站的历史全量URL记录;针对记录C或者记录D,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;
步骤008.将记录A对应的URL和记录E对应的URL进行合并操作,或者将记录B对应的URL和记录E对应的URL进行合并操作;然后将合并操作结果所对应的URL加入到该待采集网站的待采集URL队列,获得该待采集网站的待采集URL队列,进入步骤009;
步骤009.根据该待采集网站的待采集URL队列,采集获得该待采集网站的信息数据,并进行结构化输出。
作为本发明的一种优选技术方案:所述步骤001中的所述非帖子信息包括CSS、JS、图片、音频或视频信息。
作为本发明的一种优选技术方案:所述步骤004中,将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式:
用\w代表字母[A-Za-z0-9],\d代表[0-9];
后面跟着用前面字符的次数,来确定适配规则;
用+表示前面的\w或者\d出现了1次或者多次;
用*表示前面的\w或者\d出现了0次或者多次;
用?表示前面的\w或者\d出现了0次或者1次;
不加,表示前面的\w或者\d出现了1次。
作为本发明的一种优选技术方案:所述预设页面比例阈值为页面比例15%—25%。
作为本发明的一种优选技术方案:所述预设页面比例阈值为页面比例20%。
本发明所述一种WEB页面信息感知采集方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的WEB页面信息感知采集方法,通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险,大大减少了大量站点脚本定制工作量和维护成本,克服了网站改版后无法采集信息的困扰,并且通过智能增量合并,智能生成URL规则,有效保证了页面感知获得采集URL的准确性。
附图说明
图1是本发明设计的WEB页面信息感知采集方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明设计一种WEB页面信息感知采集方法在实际应用过程当中,具体包括如下步骤:
步骤001.从待采集网站入口,逐页加载获得各页面上所有链接URL,过滤掉CSS、JS、图片、音频或视频等非帖子信息,获得该待采集网站的全量URL,进入步骤002;
步骤002.同时判断该待采集网站是否存在URL规则和该待采集网站是否存在历史全量URL记录,并根据判断结果,分别同时进入步骤003和步骤005进行并行处理,或者分别同时进入步骤004和步骤006进行并行处理,其中,
若该待采集网站存在URL规则,进入步骤003,同时该待采集网站存在历史全量URL记录,进入步骤005,即分别同时进入步骤003和步骤005进行并行处理;
否则若该待采集网站不存在URL规则,进入步骤004,同时该待采集网站不存在历史全量URL记录,进入步骤006,即分别同时进入步骤004和步骤006进行并行处理;
步骤003.针对步骤001中获得的该待采集网站的全量URL,根据该待采集网站的URL规则输出需要采集的URL,并判断所输出的URL是否小于页面比例20%,是则进入步骤004,否则记录该需要采集的URL为记录A,并进入步骤007;
步骤004.根据正则表达式的规则,将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式:
用\w代表字母[A-Za-z0-9],\d代表[0-9];
后面跟着用前面字符的次数,来确定适配规则;
用+表示前面的\w或者\d出现了1次或者多次;
用*表示前面的\w或者\d出现了0次或者多次;
用?表示前面的\w或者\d出现了0次或者1次;
不加,表示前面的\w或者\d出现了1次。
例如:news用\w+表示;
将http://news.sina.com.cn/c/2014-01-01/185330964877.shtml,
抽象为:http://\w+.sina.com.cn/\w+/\d+-\d+-\d+/\d+.shtml;
然后对URL正则表达式进行学习获得该待采集网站的新URL规则,作为或者更新为该待采集网站的URL规则;按照该待采集网站的URL规则,输出大于等于页面比例20%的URL,作为需要采集的URL,记录该需要采集的URL为记录B,并进入步骤007;
步骤005.加载该待采集网站的历史全量URL记录,与步骤001中获得的该待采集网站的全量URL进行合并操作,获得新出现的URL,记录该新出现的URL为记录C,进入步骤007;
步骤006.记录步骤001中获得的该待采集网站的全量URL为记录D,进入步骤007;
步骤007.若该待采集网站存在历史全量URL记录,则记录合并步骤001中获得的该待采集网站的全量URL,更新该待采集网站的历史全量URL记录;若该待采集网站不存在历史全量URL记录,则记录步骤001中获得的该待采集网站的全量URL,建立该待采集网站的历史全量URL记录;
操作执行本步骤007时,此时由上述操作执行过程会获得三种不同组合记录中其中一种,这三种不同组合记录分别是:记录B和记录D为一组;记录A和记录C为一组;记录B和记录C为一种;
因此得到上述三种不同组合记录中的其中一种时,若包括记录C,则针对记录C,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;若包括记录D,则针对记录D,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;
步骤008.将记录A对应的URL和记录E对应的URL进行合并操作,或者将记录B对应的URL和记录E对应的URL进行合并操作;然后将合并操作结果所对应的URL加入到该待采集网站的待采集URL队列,获得该待采集网站的待采集URL队列,进入步骤009;
步骤009.根据该待采集网站的待采集URL队列,采集获得该待采集网站的信息数据,并进行结构化输出。
本发明设计的WEB页面信息感知采集方法,通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险,大大减少了大量站点脚本定制工作量和维护成本,克服了网站改版后无法采集信息的困扰,并且通过智能增量合并,智能生成URL规则,有效保证了页面感知获得采集URL的准确性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种WEB页面信息感知采集方法,其特征在于,包括如下步骤:
步骤001.从待采集网站入口,逐页加载获得各页面上所有链接URL,过滤掉非帖子信息,获得该待采集网站的全量URL,进入步骤002;
步骤002.同时判断该待采集网站是否存在URL规则和该待采集网站是否存在历史全量URL记录,并根据判断结果,分别同时进入步骤003和步骤005进行并行处理,或者分别同时进入步骤004和步骤006进行并行处理,其中,
若该待采集网站存在URL规则,进入步骤003,同时该待采集网站存在历史全量URL记录,进入步骤005,即分别同时进入步骤003和步骤005进行并行处理;
否则若该待采集网站不存在URL规则,进入步骤004,同时该待采集网站不存在历史全量URL记录,进入步骤006,即分别同时进入步骤004和步骤006进行并行处理;
步骤003.针对步骤001中获得的该待采集网站的全量URL,根据该待采集网站的URL规则输出需要采集的URL,并判断所输出的URL是否小于预设页面比例阈值,是则进入步骤004,否则记录该需要采集的URL为记录A,并进入步骤007;
步骤004.根据正则表达式的规则,将步骤001中获得的该待采集网站的全量URL抽象为URL正则表达式,并对URL正则表达式进行学习获得该待采集网站的新URL规则,作为或者更新为该待采集网站的URL规则;按照该待采集网站的URL规则,输出大于等于预设页面比例阈值,作为需要采集的URL,记录该需要采集的URL为记录B,并进入步骤007;
步骤005.加载该待采集网站的历史全量URL记录,与步骤001中获得的该待采集网站的全量URL进行合并操作,获得新出现的URL,记录该新出现的URL为记录C,进入步骤007;
步骤006.记录步骤001中获得的该待采集网站的全量URL为记录D,进入步骤007;
步骤007.若该待采集网站存在历史全量URL记录,则记录合并步骤001中获得的该待采集网站的全量URL,更新该待采集网站的历史全量URL记录;若该待采集网站不存在历史全量URL记录,则记录步骤001中获得的该待采集网站的全量URL,建立该待采集网站的历史全量URL记录;针对记录C或者记录D,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;
步骤008.将记录A对应的URL和记录E对应的URL进行合并操作,或者将记录B对应的URL和记录E对应的URL进行合并操作;然后将合并操作结果所对应的URL加入到该待采集网站的待采集URL队列,获得该待采集网站的待采集URL队列,进入步骤009;
步骤009.根据该待采集网站的待采集URL队列,采集获得该待采集网站的信息数据,并进行结构化输出。
2.根据权利要求1所述一种WEB页面信息感知采集方法,其特征在于:所述步骤001中的所述非帖子信息包括CSS、JS、图片、音频或视频信息。
3.根据权利要求1所述一种WEB页面信息感知采集方法,其特征在于:所述步骤004中,将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式:
用\w代表字母[A-Za-z0-9],\d代表[0-9];
后面跟着用前面字符的次数,来确定适配规则;
用+表示前面的\w或者\d出现了1次或者多次;
用*表示前面的\w或者\d出现了0次或者多次;
用?表示前面的\w或者\d出现了0次或者1次;
不加,表示前面的\w或者\d出现了1次。
4.根据权利要求1所述一种WEB页面信息感知采集方法,其特征在于:所述预设页面比例阈值为页面比例15%—25%。
5.根据权利要求4所述一种WEB页面信息感知采集方法,其特征在于:所述预设页面比例阈值为页面比例20%。
CN201410610479.0A 2014-11-03 2014-11-03 一种web页面信息感知采集方法 Active CN104361061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410610479.0A CN104361061B (zh) 2014-11-03 2014-11-03 一种web页面信息感知采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410610479.0A CN104361061B (zh) 2014-11-03 2014-11-03 一种web页面信息感知采集方法

Publications (2)

Publication Number Publication Date
CN104361061A true CN104361061A (zh) 2015-02-18
CN104361061B CN104361061B (zh) 2018-02-16

Family

ID=52528322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410610479.0A Active CN104361061B (zh) 2014-11-03 2014-11-03 一种web页面信息感知采集方法

Country Status (1)

Country Link
CN (1) CN104361061B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105207852A (zh) * 2015-10-09 2015-12-30 西安未来国际信息股份有限公司 一种基于分布式网络数据定向采集的方法
CN105468664A (zh) * 2015-05-12 2016-04-06 北京众标网络科技有限公司 一种信息采集方法及装置
CN106326225A (zh) * 2015-06-16 2017-01-11 阿里巴巴集团控股有限公司 页面数据采集方法及装置
CN109032917A (zh) * 2017-06-09 2018-12-18 北京金山云网络技术有限公司 页面调试方法和系统、移动终端以及电脑端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909079A (zh) * 2010-07-15 2010-12-08 北京迈朗世讯科技有限公司 一种骨干网链路中用户上网行为数据采集方法和系统
CN102096705A (zh) * 2010-12-31 2011-06-15 南威软件股份有限公司 一种文章采集的方法
CN103399968A (zh) * 2013-07-16 2013-11-20 中国科学院计算技术研究所 一种微博信息采集方法及系统
CN103838786A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种Web数据自动采集的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909079A (zh) * 2010-07-15 2010-12-08 北京迈朗世讯科技有限公司 一种骨干网链路中用户上网行为数据采集方法和系统
CN102096705A (zh) * 2010-12-31 2011-06-15 南威软件股份有限公司 一种文章采集的方法
CN103838786A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种Web数据自动采集的方法
CN103399968A (zh) * 2013-07-16 2013-11-20 中国科学院计算技术研究所 一种微博信息采集方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468664A (zh) * 2015-05-12 2016-04-06 北京众标网络科技有限公司 一种信息采集方法及装置
CN106326225A (zh) * 2015-06-16 2017-01-11 阿里巴巴集团控股有限公司 页面数据采集方法及装置
CN105207852A (zh) * 2015-10-09 2015-12-30 西安未来国际信息股份有限公司 一种基于分布式网络数据定向采集的方法
CN109032917A (zh) * 2017-06-09 2018-12-18 北京金山云网络技术有限公司 页面调试方法和系统、移动终端以及电脑端

Also Published As

Publication number Publication date
CN104361061B (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
US20210405854A1 (en) Interactive event-based information system
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN102184184B (zh) 一种网页动态信息获取方法
CN106096056A (zh) 一种基于分布式的舆情数据实时采集方法和系统
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN103164435B (zh) 一种网络数据的采集方法和系统
CN101561802A (zh) 网页结构化数据提取方法与系统
CN104361061A (zh) 一种web页面信息感知采集方法
CN107797894A (zh) App用户行为分析方法和装置
CN103488635A (zh) 一种获取产品信息的方法及装置
CN104050037A (zh) 一种基于指定电子商务网站的定向爬虫的实现方法
CN102831220A (zh) 一种面向主题定制的新闻情报提取系统
CN104199879A (zh) 一种数据处理方法和数据处理装置
CN101996193A (zh) 一种展现网络资源链接的处理方法、系统及互联网终端
CN105069087A (zh) 基于Web日志数据挖掘的网站优化方法
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN111414520A (zh) 一种舆情信息中敏感信息的智能挖掘系统
CN106603690A (zh) 数据分析装置、数据分析处理系统和数据分析方法
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN104598536A (zh) 一种分布式网络信息结构化处理方法
CN103198078B (zh) 一种互联网新闻事件报道趋势分析方法及系统
CN104899602A (zh) 一种基于K-means算法的用户聚类分析系统
CN108509426B (zh) 一种深度多维度流量语义分析方法
CN106250397B (zh) 一种用户行为特征的分析方法及装置
CN106897313B (zh) 一种海量用户业务偏好评估方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180112

Address after: 210019 Yunlong Road 88, Jianye District, Jiangsu, Nanjing

Applicant after: Nanjing Fiberhome Information Development Co., Ltd.

Address before: 210019, A building 26F, beacon technology building, 88 Yunlong Road, Jianye District, Jiangsu, Nanjing

Applicant before: Fenghuo Communication Science &. Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant