CN104361061A - 一种web页面信息感知采集方法 - Google Patents
一种web页面信息感知采集方法 Download PDFInfo
- Publication number
- CN104361061A CN104361061A CN201410610479.0A CN201410610479A CN104361061A CN 104361061 A CN104361061 A CN 104361061A CN 201410610479 A CN201410610479 A CN 201410610479A CN 104361061 A CN104361061 A CN 104361061A
- Authority
- CN
- China
- Prior art keywords
- url
- collected
- website
- record
- full dose
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种WEB页面信息感知采集方法,通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险,大大减少了大量站点脚本定制工作量和维护成本,克服了网站改版后无法采集信息的困扰,并且通过智能增量合并,智能生成URL规则,有效保证了页面感知获得采集URL的准确性。
Description
技术领域
本发明涉及一种WEB页面信息感知采集方法。
背景技术
随着科技的进步,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,面对互联网上兼具多样性和复杂性的海量信息,仅仅靠人工收集、整理、跟踪最新信息动态,显然是不科学的、低效的,也不能满足实际需要。而互联网信息自动采集可以使用户在信息采集、资源整合、资金利用、人力投入等方面节约大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。
常规网页抓取步骤包括:
1、从网站入口开始加载页面所有链接URL;
2、加载此网站定制的脚本;
3、翻转出所有符合该站点翻转规则的帖子URL;
4、加入采集队列,采集输出结构化数据;
5、分析,处理,存储。
现有的互联网信息因为格式多样化,数据量爆炸式膨胀,监控严格,动态加载,爬虫策略限制等,导致收集难度加大,主要表现在:
1、主流网站页面刷新率快,信息丢失严重,如果当前网页中存在多种URL贴文格式,容易遗漏部分重要帖子信息;
2、不同网站需要定制不同的规则去识别需要采集的帖子URL,需要大量的脚本定制,工作量大,维护困难;
3、广告、推广外链URL等不需要的部分抓取时很难界定;
4、网站改版后,无法自动识别改版后的帖子URL。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险以及大量维护成本的WEB页面信息感知采集方法。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种WEB页面信息感知采集方法,包括如下步骤:
步骤001.从待采集网站入口,逐页加载获得各页面上所有链接URL,过滤掉非帖子信息,获得该待采集网站的全量URL,进入步骤002;
步骤002.同时判断该待采集网站是否存在URL规则和该待采集网站是否存在历史全量URL记录,并根据判断结果,分别同时进入步骤003和步骤005进行并行处理,或者分别同时进入步骤004和步骤006进行并行处理,其中,
若该待采集网站存在URL规则,进入步骤003,同时该待采集网站存在历史全量URL记录,进入步骤005,即分别同时进入步骤003和步骤005进行并行处理;
否则若该待采集网站不存在URL规则,进入步骤004,同时该待采集网站不存在历史全量URL记录,进入步骤006,即分别同时进入步骤004和步骤006进行并行处理;
步骤003.针对步骤001中获得的该待采集网站的全量URL,根据该待采集网站的URL规则输出需要采集的URL,并判断所输出的URL是否小于预设页面比例阈值,是则进入步骤004,否则记录该需要采集的URL为记录A,并进入步骤007;
步骤004.根据正则表达式的规则,将步骤001中获得的该待采集网站的全量URL抽象为URL正则表达式,并对URL正则表达式进行学习获得该待采集网站的新URL规则,作为或者更新为该待采集网站的URL规则;按照该待采集网站的URL规则,输出大于等于预设页面比例阈值的URL,作为需要采集的URL,记录该需要采集的URL为记录B,并进入步骤007;
步骤005.加载该待采集网站的历史全量URL记录,与步骤001中获得的该待采集网站的全量URL进行合并操作,获得新出现的URL,记录该新出现的URL为记录C,进入步骤007;
步骤006.记录步骤001中获得的该待采集网站的全量URL为记录D,进入步骤007;
步骤007.若该待采集网站存在历史全量URL记录,则记录合并步骤001中获得的该待采集网站的全量URL,更新该待采集网站的历史全量URL记录;若该待采集网站不存在历史全量URL记录,则记录步骤001中获得的该待采集网站的全量URL,建立该待采集网站的历史全量URL记录;针对记录C或者记录D,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;
步骤008.将记录A对应的URL和记录E对应的URL进行合并操作,或者将记录B对应的URL和记录E对应的URL进行合并操作;然后将合并操作结果所对应的URL加入到该待采集网站的待采集URL队列,获得该待采集网站的待采集URL队列,进入步骤009;
步骤009.根据该待采集网站的待采集URL队列,采集获得该待采集网站的信息数据,并进行结构化输出。
作为本发明的一种优选技术方案:所述步骤001中的所述非帖子信息包括CSS、JS、图片、音频或视频信息。
作为本发明的一种优选技术方案:所述步骤004中,将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式:
用\w代表字母[A-Za-z0-9],\d代表[0-9];
后面跟着用前面字符的次数,来确定适配规则;
用+表示前面的\w或者\d出现了1次或者多次;
用*表示前面的\w或者\d出现了0次或者多次;
用?表示前面的\w或者\d出现了0次或者1次;
不加,表示前面的\w或者\d出现了1次。
作为本发明的一种优选技术方案:所述预设页面比例阈值为页面比例15%—25%。
作为本发明的一种优选技术方案:所述预设页面比例阈值为页面比例20%。
本发明所述一种WEB页面信息感知采集方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的WEB页面信息感知采集方法,通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险,大大减少了大量站点脚本定制工作量和维护成本,克服了网站改版后无法采集信息的困扰,并且通过智能增量合并,智能生成URL规则,有效保证了页面感知获得采集URL的准确性。
附图说明
图1是本发明设计的WEB页面信息感知采集方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明设计一种WEB页面信息感知采集方法在实际应用过程当中,具体包括如下步骤:
步骤001.从待采集网站入口,逐页加载获得各页面上所有链接URL,过滤掉CSS、JS、图片、音频或视频等非帖子信息,获得该待采集网站的全量URL,进入步骤002;
步骤002.同时判断该待采集网站是否存在URL规则和该待采集网站是否存在历史全量URL记录,并根据判断结果,分别同时进入步骤003和步骤005进行并行处理,或者分别同时进入步骤004和步骤006进行并行处理,其中,
若该待采集网站存在URL规则,进入步骤003,同时该待采集网站存在历史全量URL记录,进入步骤005,即分别同时进入步骤003和步骤005进行并行处理;
否则若该待采集网站不存在URL规则,进入步骤004,同时该待采集网站不存在历史全量URL记录,进入步骤006,即分别同时进入步骤004和步骤006进行并行处理;
步骤003.针对步骤001中获得的该待采集网站的全量URL,根据该待采集网站的URL规则输出需要采集的URL,并判断所输出的URL是否小于页面比例20%,是则进入步骤004,否则记录该需要采集的URL为记录A,并进入步骤007;
步骤004.根据正则表达式的规则,将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式:
用\w代表字母[A-Za-z0-9],\d代表[0-9];
后面跟着用前面字符的次数,来确定适配规则;
用+表示前面的\w或者\d出现了1次或者多次;
用*表示前面的\w或者\d出现了0次或者多次;
用?表示前面的\w或者\d出现了0次或者1次;
不加,表示前面的\w或者\d出现了1次。
例如:news用\w+表示;
将http://news.sina.com.cn/c/2014-01-01/185330964877.shtml,
抽象为:http://\w+.sina.com.cn/\w+/\d+-\d+-\d+/\d+.shtml;
然后对URL正则表达式进行学习获得该待采集网站的新URL规则,作为或者更新为该待采集网站的URL规则;按照该待采集网站的URL规则,输出大于等于页面比例20%的URL,作为需要采集的URL,记录该需要采集的URL为记录B,并进入步骤007;
步骤005.加载该待采集网站的历史全量URL记录,与步骤001中获得的该待采集网站的全量URL进行合并操作,获得新出现的URL,记录该新出现的URL为记录C,进入步骤007;
步骤006.记录步骤001中获得的该待采集网站的全量URL为记录D,进入步骤007;
步骤007.若该待采集网站存在历史全量URL记录,则记录合并步骤001中获得的该待采集网站的全量URL,更新该待采集网站的历史全量URL记录;若该待采集网站不存在历史全量URL记录,则记录步骤001中获得的该待采集网站的全量URL,建立该待采集网站的历史全量URL记录;
操作执行本步骤007时,此时由上述操作执行过程会获得三种不同组合记录中其中一种,这三种不同组合记录分别是:记录B和记录D为一组;记录A和记录C为一组;记录B和记录C为一种;
因此得到上述三种不同组合记录中的其中一种时,若包括记录C,则针对记录C,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;若包括记录D,则针对记录D,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;
步骤008.将记录A对应的URL和记录E对应的URL进行合并操作,或者将记录B对应的URL和记录E对应的URL进行合并操作;然后将合并操作结果所对应的URL加入到该待采集网站的待采集URL队列,获得该待采集网站的待采集URL队列,进入步骤009;
步骤009.根据该待采集网站的待采集URL队列,采集获得该待采集网站的信息数据,并进行结构化输出。
本发明设计的WEB页面信息感知采集方法,通过页面中URL比例分析和自动感知学习机制进行信息采集,能够有效避免由人工定制站点URL规则带来信息丢失风险,大大减少了大量站点脚本定制工作量和维护成本,克服了网站改版后无法采集信息的困扰,并且通过智能增量合并,智能生成URL规则,有效保证了页面感知获得采集URL的准确性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.一种WEB页面信息感知采集方法,其特征在于,包括如下步骤:
步骤001.从待采集网站入口,逐页加载获得各页面上所有链接URL,过滤掉非帖子信息,获得该待采集网站的全量URL,进入步骤002;
步骤002.同时判断该待采集网站是否存在URL规则和该待采集网站是否存在历史全量URL记录,并根据判断结果,分别同时进入步骤003和步骤005进行并行处理,或者分别同时进入步骤004和步骤006进行并行处理,其中,
若该待采集网站存在URL规则,进入步骤003,同时该待采集网站存在历史全量URL记录,进入步骤005,即分别同时进入步骤003和步骤005进行并行处理;
否则若该待采集网站不存在URL规则,进入步骤004,同时该待采集网站不存在历史全量URL记录,进入步骤006,即分别同时进入步骤004和步骤006进行并行处理;
步骤003.针对步骤001中获得的该待采集网站的全量URL,根据该待采集网站的URL规则输出需要采集的URL,并判断所输出的URL是否小于预设页面比例阈值,是则进入步骤004,否则记录该需要采集的URL为记录A,并进入步骤007;
步骤004.根据正则表达式的规则,将步骤001中获得的该待采集网站的全量URL抽象为URL正则表达式,并对URL正则表达式进行学习获得该待采集网站的新URL规则,作为或者更新为该待采集网站的URL规则;按照该待采集网站的URL规则,输出大于等于预设页面比例阈值,作为需要采集的URL,记录该需要采集的URL为记录B,并进入步骤007;
步骤005.加载该待采集网站的历史全量URL记录,与步骤001中获得的该待采集网站的全量URL进行合并操作,获得新出现的URL,记录该新出现的URL为记录C,进入步骤007;
步骤006.记录步骤001中获得的该待采集网站的全量URL为记录D,进入步骤007;
步骤007.若该待采集网站存在历史全量URL记录,则记录合并步骤001中获得的该待采集网站的全量URL,更新该待采集网站的历史全量URL记录;若该待采集网站不存在历史全量URL记录,则记录步骤001中获得的该待采集网站的全量URL,建立该待采集网站的历史全量URL记录;针对记录C或者记录D,根据该待采集网站的URL规则,输出需要采集的URL,记录该需要采集的URL为记录E,进入步骤008;
步骤008.将记录A对应的URL和记录E对应的URL进行合并操作,或者将记录B对应的URL和记录E对应的URL进行合并操作;然后将合并操作结果所对应的URL加入到该待采集网站的待采集URL队列,获得该待采集网站的待采集URL队列,进入步骤009;
步骤009.根据该待采集网站的待采集URL队列,采集获得该待采集网站的信息数据,并进行结构化输出。
2.根据权利要求1所述一种WEB页面信息感知采集方法,其特征在于:所述步骤001中的所述非帖子信息包括CSS、JS、图片、音频或视频信息。
3.根据权利要求1所述一种WEB页面信息感知采集方法,其特征在于:所述步骤004中,将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式:
用\w代表字母[A-Za-z0-9],\d代表[0-9];
后面跟着用前面字符的次数,来确定适配规则;
用+表示前面的\w或者\d出现了1次或者多次;
用*表示前面的\w或者\d出现了0次或者多次;
用?表示前面的\w或者\d出现了0次或者1次;
不加,表示前面的\w或者\d出现了1次。
4.根据权利要求1所述一种WEB页面信息感知采集方法,其特征在于:所述预设页面比例阈值为页面比例15%—25%。
5.根据权利要求4所述一种WEB页面信息感知采集方法,其特征在于:所述预设页面比例阈值为页面比例20%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410610479.0A CN104361061B (zh) | 2014-11-03 | 2014-11-03 | 一种web页面信息感知采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410610479.0A CN104361061B (zh) | 2014-11-03 | 2014-11-03 | 一种web页面信息感知采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104361061A true CN104361061A (zh) | 2015-02-18 |
CN104361061B CN104361061B (zh) | 2018-02-16 |
Family
ID=52528322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410610479.0A Active CN104361061B (zh) | 2014-11-03 | 2014-11-03 | 一种web页面信息感知采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104361061B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105207852A (zh) * | 2015-10-09 | 2015-12-30 | 西安未来国际信息股份有限公司 | 一种基于分布式网络数据定向采集的方法 |
CN105468664A (zh) * | 2015-05-12 | 2016-04-06 | 北京众标网络科技有限公司 | 一种信息采集方法及装置 |
CN106326225A (zh) * | 2015-06-16 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 页面数据采集方法及装置 |
CN109032917A (zh) * | 2017-06-09 | 2018-12-18 | 北京金山云网络技术有限公司 | 页面调试方法和系统、移动终端以及电脑端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101909079A (zh) * | 2010-07-15 | 2010-12-08 | 北京迈朗世讯科技有限公司 | 一种骨干网链路中用户上网行为数据采集方法和系统 |
CN102096705A (zh) * | 2010-12-31 | 2011-06-15 | 南威软件股份有限公司 | 一种文章采集的方法 |
CN103399968A (zh) * | 2013-07-16 | 2013-11-20 | 中国科学院计算技术研究所 | 一种微博信息采集方法及系统 |
CN103838786A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种Web数据自动采集的方法 |
-
2014
- 2014-11-03 CN CN201410610479.0A patent/CN104361061B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101909079A (zh) * | 2010-07-15 | 2010-12-08 | 北京迈朗世讯科技有限公司 | 一种骨干网链路中用户上网行为数据采集方法和系统 |
CN102096705A (zh) * | 2010-12-31 | 2011-06-15 | 南威软件股份有限公司 | 一种文章采集的方法 |
CN103838786A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种Web数据自动采集的方法 |
CN103399968A (zh) * | 2013-07-16 | 2013-11-20 | 中国科学院计算技术研究所 | 一种微博信息采集方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468664A (zh) * | 2015-05-12 | 2016-04-06 | 北京众标网络科技有限公司 | 一种信息采集方法及装置 |
CN106326225A (zh) * | 2015-06-16 | 2017-01-11 | 阿里巴巴集团控股有限公司 | 页面数据采集方法及装置 |
CN105207852A (zh) * | 2015-10-09 | 2015-12-30 | 西安未来国际信息股份有限公司 | 一种基于分布式网络数据定向采集的方法 |
CN109032917A (zh) * | 2017-06-09 | 2018-12-18 | 北京金山云网络技术有限公司 | 页面调试方法和系统、移动终端以及电脑端 |
Also Published As
Publication number | Publication date |
---|---|
CN104361061B (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210405854A1 (en) | Interactive event-based information system | |
CN107943838B (zh) | 一种自动获取xpath生成爬虫脚本的方法及系统 | |
CN102184184B (zh) | 一种网页动态信息获取方法 | |
CN106096056A (zh) | 一种基于分布式的舆情数据实时采集方法和系统 | |
CN106951925A (zh) | 数据处理方法、装置、服务器及系统 | |
CN103164435B (zh) | 一种网络数据的采集方法和系统 | |
CN101561802A (zh) | 网页结构化数据提取方法与系统 | |
CN104361061A (zh) | 一种web页面信息感知采集方法 | |
CN107797894A (zh) | App用户行为分析方法和装置 | |
CN103488635A (zh) | 一种获取产品信息的方法及装置 | |
CN104050037A (zh) | 一种基于指定电子商务网站的定向爬虫的实现方法 | |
CN102831220A (zh) | 一种面向主题定制的新闻情报提取系统 | |
CN104199879A (zh) | 一种数据处理方法和数据处理装置 | |
CN101996193A (zh) | 一种展现网络资源链接的处理方法、系统及互联网终端 | |
CN105069087A (zh) | 基于Web日志数据挖掘的网站优化方法 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN111414520A (zh) | 一种舆情信息中敏感信息的智能挖掘系统 | |
CN106603690A (zh) | 数据分析装置、数据分析处理系统和数据分析方法 | |
CN106844588A (zh) | 一种基于网络爬虫的用户行为数据的分析方法及系统 | |
CN104598536A (zh) | 一种分布式网络信息结构化处理方法 | |
CN103198078B (zh) | 一种互联网新闻事件报道趋势分析方法及系统 | |
CN104899602A (zh) | 一种基于K-means算法的用户聚类分析系统 | |
CN108509426B (zh) | 一种深度多维度流量语义分析方法 | |
CN106250397B (zh) | 一种用户行为特征的分析方法及装置 | |
CN106897313B (zh) | 一种海量用户业务偏好评估方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180112 Address after: 210019 Yunlong Road 88, Jianye District, Jiangsu, Nanjing Applicant after: Nanjing Fiberhome Information Development Co., Ltd. Address before: 210019, A building 26F, beacon technology building, 88 Yunlong Road, Jianye District, Jiangsu, Nanjing Applicant before: Fenghuo Communication Science &. Technology Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |