CN105426424A - 一种网络数据定向分页式采集方法 - Google Patents
一种网络数据定向分页式采集方法 Download PDFInfo
- Publication number
- CN105426424A CN105426424A CN201510738972.5A CN201510738972A CN105426424A CN 105426424 A CN105426424 A CN 105426424A CN 201510738972 A CN201510738972 A CN 201510738972A CN 105426424 A CN105426424 A CN 105426424A
- Authority
- CN
- China
- Prior art keywords
- page
- data
- paging
- url
- network data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 5
- 238000007405 data analysis Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网络数据定向分页式采集方法,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。该一种网络数据定向分页式采集方法与现有技术相比,通过科学合理且易于复用的采集方式进行数据获取,提高了对互联网公开数据信息的利用效率。有利于大数据程序开发人员简化开发模式,在数据获取方面节省精力,降低开发成本,同时也为后续的数据分析服务提供便利,实用性强,适用范围广泛,易于推广。
Description
技术领域
本发明涉及计算机技术领域,具体地说是一种实用性强、网络数据定向分页式采集方法。
背景技术
传统的数据采集方法是在采集程序中通过获取网页上的特定组件元素,再创建该元素的实例化对象,通过模拟对该对象的操作(如点击事件、键入回车等),从而访问目标页面来获取数据信息的。
现如今网页上包含的信息量日愈增大,种类繁多且结构复杂,即便是提供同一类相关信息的网页其呈现方式也是大相径庭。如果用传统方式在众多页面组件元素中层层分离出控制访问提交的对象元素,则较为繁琐。程序开发人员会消耗较多的精力去分析页面构成,建立准确的定位方法,同时还需要消耗更多的系统资源用以创建组件元素的实例化对象。而信息含量越是大的网站往往都是分模块多人开发出来的,其页面组成虽然相似,但由于开发人员水平不同在细节处理上往往就会有不同的方式。这样的话编写提取特定组件元素的定位方法也就增加了采集程序出错的可能性,并且定位过程中也会根据需要实例化出中间组件用来执行逻辑判断,更加重了系统负担。
随着近年来互联网和信息行业的蓬勃发展,数据这一概念已经渗透到每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。大数据的概念已经渗透到各行各业的专家学者心中,也引起了大众的广泛关注。虽然大数据的应用分析在统计学、经济学、物理学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,但是在当今这个信息爆炸的时代,各个行业通过对大数据的分析与运用来拉动生产力高速增长的需求都变得极为迫切。而与此同时,大量分布式的公开信息充斥在网络上,政府数据的进一步对外开放、淘宝等电子商务平台的快速发展、线上税务办理的展开等方面都生成了海量的信息数据。这些数据无论是从分布程度上还是数据量上都与前些年有了质的提升,犹如一把双刃剑,蕴含了更多的价值却加重了采集获取数据的难度,如何更快速高效的获取这些数据就显得更为关键。对数据采集方法的优化关系到对网上公开数据的利用效率,也就成为了程序开发人员的一种责任。因而网络数据定向分页式采集方法作为一种科学合理且易于复用的采集方法就显得更有意义。
若能对传统采集网络数据的方法进行优化,使用定向分页式采集方法,略过分析复杂页面构成剥离特定组件的过程与实例化的定位方法,既能使程序开发人员节约精力和时间又能令采集程序低耗加速运行。从而使大量的数据采集工作变得有迹可循,尽可能的以模式化的方式执行,暗合了程序开发工厂化的模型。这样就减轻了数据采集的压力,能够将重心向后续的数据分析服务方面倾斜,从而更有效地推动大数据技术的运用。
基于此,现提供一种网络数据定向分页式采集方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、网络数据定向分页式采集方法。
一种网络数据定向分页式采集方法,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。
所述的分页参数通过正整数赋值的方式指定访问页码数。
所述方法的具体实现过程为:
获取默认URL:通过搜索引擎访问目标信息列表页,获取目标页面的默认访问地址URL;
截取分页参数;
拼接指定URL:以目标页面默认URL拼接以正整数赋值的分页参数,正整数的值即为指定页面的页数;
验证指定URL:在浏览器地址栏中输入拼接好的目标页面指定URL并访问,已验证能否获取到响应的数据信息;
数据采集:利用拼接指定URL的方式,从信息列表第一页至总页数循环访问全网数据,逐页采集数据信息。
所述截取分页参数的实现方式包括以下两种:
一、在浏览器中进行页面跳转操作,通过抓包软件,截获跳转过程中的传参,找出与分页相关的参数名称;
二、在浏览器中进入开发者模式或者右键查看页面源代码,从中搜索出与分页相关的参数名称。
本发明的一种网络数据定向分页式采集方法,具有以下优点:
该发明的一种网络数据定向分页式采集方法,简化了互联网页面列表上的信息的获取方式,提高了采集速度,同时也令开发人员有更多的精力去处理对所采数据的分析与数据服务的创新,有利于大数据技术的进一步发展;是对大数据应用分析领域的数据采集方法的优化,是对网络爬虫技术的提速,通过科学合理且易于复用的采集方式进行数据获取,提高了对互联网公开数据信息的利用效率。有利于大数据程序开发人员简化开发模式,在数据获取方面节省精力,降低开发成本,同时也为后续的数据分析服务提供便利,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的提供一种网络数据定向分页式采集方法,如附图1所示,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。
所述的分页参数通过正整数赋值的方式指定访问页码数。
所述方法的具体实现过程为:
获取默认URL:通过搜索引擎访问目标信息列表页,获取目标页面的默认访问地址URL;
截取分页参数;
拼接指定URL:以目标页面默认URL拼接以正整数赋值的分页参数,正整数的值即为指定页面的页数;
验证指定URL:在浏览器地址栏中输入拼接好的目标页面指定URL并访问,已验证能否获取到响应的数据信息;
数据采集:利用拼接指定URL的方式,从信息列表第一页至总页数循环访问全网数据,逐页采集数据信息。
所述截取分页参数的实现方式包括以下两种:
一、在浏览器中进行页面跳转操作,通过抓包软件,截获跳转过程中的传参,找出与分页相关的参数名称;
二、在浏览器中进入开发者模式或者右键查看页面源代码,从中搜索出与分页相关的参数名称,即以关键字检索,如:page、pNum、hidden等。
网络数据分页式采集方法主要分为两大部分,一是目标页面指定访问地址的获取,二是在数据采集程序中的运用。具体分以下几个步骤进行:
第一:通过在浏览器中访问目标页面和查看页面源代码,获取默认访问地址与分页参数。
第二:将经由指定URL访问的页面信息与经由在浏览器中跳转操作获取的页面信息进行比对,以确认指定URL的正确性。
第三:在采集程序中加以利用,略去获取特定访问组件元素的剥离过程与实例化操作,直接循环访问目标页面信息,提高采集效率。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种网络数据定向分页式采集方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (4)
1.一种网络数据定向分页式采集方法,其特征在于,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。
2.根据权利要求1所述的一种网络数据定向分页式采集方法,其特征在于,所述的分页参数通过正整数赋值的方式指定访问页码数。
3.根据权利要求2所述的一种网络数据定向分页式采集方法,其特征在于,所述方法的具体实现过程为:
获取默认URL:通过搜索引擎访问目标信息列表页,获取目标页面的默认访问地址URL;
截取分页参数;
拼接指定URL:以目标页面默认URL拼接以正整数赋值的分页参数,正整数的值即为指定页面的页数;
验证指定URL:在浏览器地址栏中输入拼接好的目标页面指定URL并访问,已验证能否获取到响应的数据信息;
数据采集:利用拼接指定URL的方式,从信息列表第一页至总页数循环访问全网数据,逐页采集数据信息。
4.根据权利要求3所述的一种网络数据定向分页式采集方法,其特征在于,所述截取分页参数的实现方式包括以下两种:
一、在浏览器中进行页面跳转操作,通过抓包软件,截获跳转过程中的传参,找出与分页相关的参数名称;
二、在浏览器中进入开发者模式或者右键查看页面源代码,从中搜索出与分页相关的参数名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510738972.5A CN105426424A (zh) | 2015-11-04 | 2015-11-04 | 一种网络数据定向分页式采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510738972.5A CN105426424A (zh) | 2015-11-04 | 2015-11-04 | 一种网络数据定向分页式采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105426424A true CN105426424A (zh) | 2016-03-23 |
Family
ID=55504636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510738972.5A Pending CN105426424A (zh) | 2015-11-04 | 2015-11-04 | 一种网络数据定向分页式采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105426424A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106168973A (zh) * | 2016-07-11 | 2016-11-30 | 浪潮软件集团有限公司 | 网络数据分类式采集方法及装置 |
CN110825742A (zh) * | 2019-10-31 | 2020-02-21 | 北京东方通科技股份有限公司 | 一种数据分页检索的方法、装置、电子设备及存储介质 |
CN111221815A (zh) * | 2019-11-07 | 2020-06-02 | 南京莱斯网信技术研究院有限公司 | 一种基于脚本的web服务分页数据采集系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004017228A2 (fr) * | 2002-08-09 | 2004-02-26 | Agency Multimedia | Plateforme de type logicielle dediee au referencement de sites du reseau internet |
CN1845098A (zh) * | 2006-02-20 | 2006-10-11 | 南京工业大学 | 仿人工细粒度网页信息采集方法 |
CN104750812A (zh) * | 2015-03-30 | 2015-07-01 | 浪潮集团有限公司 | 一种基于网页标签分析的数据自动采集方法 |
CN104767803A (zh) * | 2015-03-27 | 2015-07-08 | 浪潮集团有限公司 | 互联网数据采集方法 |
-
2015
- 2015-11-04 CN CN201510738972.5A patent/CN105426424A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004017228A2 (fr) * | 2002-08-09 | 2004-02-26 | Agency Multimedia | Plateforme de type logicielle dediee au referencement de sites du reseau internet |
CN1845098A (zh) * | 2006-02-20 | 2006-10-11 | 南京工业大学 | 仿人工细粒度网页信息采集方法 |
CN104767803A (zh) * | 2015-03-27 | 2015-07-08 | 浪潮集团有限公司 | 互联网数据采集方法 |
CN104750812A (zh) * | 2015-03-30 | 2015-07-01 | 浪潮集团有限公司 | 一种基于网页标签分析的数据自动采集方法 |
Non-Patent Citations (1)
Title |
---|
我爱绿豆: "ThinkPHP分页链接的数据拼接", 《HTTPS://WWW.CNBLOGS.COM/BEANLIU/P/3990209.HTML》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106168973A (zh) * | 2016-07-11 | 2016-11-30 | 浪潮软件集团有限公司 | 网络数据分类式采集方法及装置 |
CN110825742A (zh) * | 2019-10-31 | 2020-02-21 | 北京东方通科技股份有限公司 | 一种数据分页检索的方法、装置、电子设备及存储介质 |
CN111221815A (zh) * | 2019-11-07 | 2020-06-02 | 南京莱斯网信技术研究院有限公司 | 一种基于脚本的web服务分页数据采集系统 |
CN111221815B (zh) * | 2019-11-07 | 2021-07-27 | 南京莱斯网信技术研究院有限公司 | 一种基于脚本的web服务分页数据采集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2915619C (en) | Method and apparatus for customized software development kit (sdk) generation | |
CN103019684B (zh) | 一种基于动态模板的配置业务页面的方法 | |
CN101382893B (zh) | 一种基于Web服务的构件在线组装方法 | |
CN109522018A (zh) | 页面处理方法、装置及存储介质 | |
EP2733604A1 (en) | Service model-oriented software running platform and running method thereof | |
CN107861713A (zh) | 数据调用方法、装置及计算机可读存储介质 | |
Li et al. | A survey on modeling energy consumption of cloud applications: deconstruction, state of the art, and trade-off debates | |
CN104375818A (zh) | 一种通过配置文件实现通用数据格式录入的系统及方法 | |
CN106909361A (zh) | 基于模版引擎的web开发方法和装置 | |
CN104615748B (zh) | 基于Watir的物联网Web事件处理方法 | |
CN104182234A (zh) | 一种业务处理方法和业务系统 | |
CN113377373A (zh) | 基于解析引擎的页面加载方法、装置、计算机设备及介质 | |
CN105426424A (zh) | 一种网络数据定向分页式采集方法 | |
CN103326930B (zh) | 开放平台接口自动巡检方法和系统 | |
CN116860856A (zh) | 一种财务数据处理方法、装置、计算机设备及存储介质 | |
CN109446454A (zh) | 一种轻量级高性能的PHPWeb系统框架及工作方法 | |
Ning et al. | Research on the web information system development platform based on mvc design pattern | |
CN103970513A (zh) | 一种源数据信息的访问方法和平台 | |
Gong et al. | Wwof: an energy efficient offloading framework for mobile webpage | |
Zhang et al. | A webpage offloading framework for smart devices | |
CN103020171A (zh) | 基于Java的电力ERP业务仿真系统数据存取方法 | |
CN102833315B (zh) | 一种云计算环境中的uddi扩展模型的构造方法 | |
Zhang et al. | Intelligent business cloud service platform based on SpringBoot framework | |
CN103294483A (zh) | 用于gromacs计算程序的处理方法 | |
CN102609249A (zh) | 基于可扩展标记语言的可配置菜单实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160323 |