CN117150105B - 一种基于网页的数据采集方法及采集平台 - Google Patents
一种基于网页的数据采集方法及采集平台 Download PDFInfo
- Publication number
- CN117150105B CN117150105B CN202311405987.0A CN202311405987A CN117150105B CN 117150105 B CN117150105 B CN 117150105B CN 202311405987 A CN202311405987 A CN 202311405987A CN 117150105 B CN117150105 B CN 117150105B
- Authority
- CN
- China
- Prior art keywords
- webpage
- data
- acquisition module
- data acquisition
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004891 communication Methods 0.000 claims abstract description 4
- 238000013480 data collection Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及数据处理领域,公开了一种基于网页的数据采集方法及采集平台,包括:建立云端网页特征信息库,终端数据采集模块与匹配的云端数据采集模块通信连接,将终端数据采集模块与终端数据采集模块数据容器连接,终端数据采集模块将采集到的数据发送到终端数据采集模块数据容器;终端数据采集模块根据网页特征信息进行网页数据采集,将采集到的网页数据传输到终端数据采集模块数据容器,云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征;通过网页特征获取模块,得到采集周期的网页访问特征。通过本发明可以实现获取网页用户的访问数据,通过访问数据得到网页的访问特征。
Description
技术领域
本发明涉及数据处理领域,具体是一种基于网页的数据采集方法及采集平台。
背景技术
随着互联网技术的高速发展和大数据时代的来临,越来越多的公司或个人对网络的依赖性越来越强。为了保证网络安全,对各种网页的数据监控显得尤为重要。
从某一个网页上采集特定的数据,需要编写针对该网页页面的程序代码。如果需要采集的网页很多,则每个网页页面上都需要特定的代码,就需要很大的代码编写量,而且网页内容一旦发生变动,则需要重新修改程序代码,再发布,维护较为不便,并且容易造成用户隐私泄露。
因此,如何在能够既采集到网页访问数据的前提下,又不会造成用户隐私数据的泄露,也能避免被采集网站的反爬虫机制干扰。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于网页的数据采集方法,包括如下步骤:
步骤一,建立云端网页特征信息库,各个云端数据采集模块分别与所述的云端网页特征数据库连接,云端网页特征数据库将待进行数据采集的网页对应的网页特征信息分发给各个云端数据采集模块;
步骤二,终端数据采集模块与匹配的云端数据采集模块通信连接,云端数据采集模块建立终端数据采集模块数据容器,将终端数据采集模块与终端数据采集模块数据容器连接,终端数据采集模块将采集到的数据发送到终端数据采集模块数据容器;
步骤三,终端数据采集模块根据网页特征信息进行网页数据采集,将采集到的网页数据传输到终端数据采集模块数据容器,按照设定的采集周期,终端数据采集模块数据容器对采集到网页数据进行合法性判断,若数据合法,则对网页数据进行预处理,进入步骤四,若不合法,则将采集周期内的网页数据销毁后删除;
步骤四,对经过合法性判断的网页数据进行预处理,得到对应终端数据采集模块采集周期的网页数据,云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征;
步骤五,将得到的各个采集周期的第一网页访问特征,通过网页特征获取模块,得到采集周期的网页访问特征。
进一步的,所述的建立云端网页特征信息库,包括:
获取待进行数据采集的网页的地址,对网页页面进行页面特征划分,得到对应网页地址的网页页面特征,所有的网页地址及对应网页地址的网页页面特征构成云端网页特征信息库。
进一步的,所述的终端数据采集模块根据网页特征信息进行网页数据采集,包括根据终端数据采集模块根据网页特征,采集信息输入设备的输入信息,得到基于网页的网页数据。
进一步的,所述的终端数据采集模块数据容器对采集到网页数据进行合法性判断,包括:
在设定的采集周期内,若采集的基于网页的网页数据的数据量不小于设定数据量阈值,则为合法数据,否则为非法数据。
进一步的,所述的对经过合法性判断的网页数据进行预处理,得到对应终端数据采集模块采集周期的网页数据,包括:
将设定的采集周期内采集的基于网页的网页数据,进行数据清洗,将数据段小于数据段阈值的数据段丢弃;所述的数据段为终端数据采集模块从网页打开到网页关闭采集的网页数据的时长。
进一步的,所述的云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征,包括:
将采集周期采集的网页主页面地址对应的网页数据以及子页面地址对应的页面数据,组合得到网页的第一网页访问特征。
进一步的,所述的将得到的各个采集周期的第一网页访问特征,通过网页特征获取模块,得到采集周期的网页访问特征,包括:将各个云端数据采集模块得到的同一网页的第一网页访问特征,通过网页特征获取模块,将相同网页地址的网页数据进行合并,得到采集周期的网页访问特征。
一种基于网页的数据采集平台,应用所述的一种基于网页的数据采集方法,包括云端网页特征信息库、分布式数据采集模块和终端数据采集模块;
所述的云端网页特征信息库、分布式数据采集模块和终端数据采集模块依次连接。
本发明的有益效果是: 通过本发明所提供的技术方案,可以实现在不获取和记录用户隐私数据的情况下,实现获取网页用户的访问数据,通过访问数据得到网页的访问特征。同时也避免了网页的反爬虫干扰。
附图说明
图1为一种基于网页的数据采集方法的流程示意图;
图2为一种基于网页的数据采集平台的原理示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
为了使本发明的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,一种基于网页的数据采集方法,包括如下步骤:
步骤一,建立云端网页特征信息库,各个云端数据采集模块分别与所述的云端网页特征数据库连接,云端网页特征数据库将待进行数据采集的网页对应的网页特征信息分发给各个云端数据采集模块;
步骤二,终端数据采集模块与匹配的云端数据采集模块通信连接,云端数据采集模块建立终端数据采集模块数据容器,将终端数据采集模块与终端数据采集模块数据容器连接,终端数据采集模块将采集到的数据发送到终端数据采集模块数据容器;
步骤三,终端数据采集模块根据网页特征信息进行网页数据采集,将采集到的网页数据传输到终端数据采集模块数据容器,按照设定的采集周期,终端数据采集模块数据容器对采集到网页数据进行合法性判断,若数据合法,则对网页数据进行预处理,进入步骤四,若不合法,则将采集周期内的网页数据销毁后删除;
其中所述的根据网页特征信息进行网页数据采集,包括,所述的网页特征为预设网页特征,可以为网页的可交互区域,包括页面选项按钮、登录入口等可交互区域,也可将网页进行均匀划分为小区域,小区域即为特征区域,通过采集输入设备在特征区域的输入信息,所述的输入设备包括鼠标,采集的网页信息包括鼠标点击信息、鼠标悬停信息以及鼠标的拖动信息等数据,根据对应网页的特征区域以及对应的输入设备的输入信息就采集得到得到网页数据;
步骤四,对经过合法性判断的网页数据进行预处理,得到对应终端数据采集模块采集周期的网页数据,云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征;
步骤五,将得到的各个采集周期的第一网页访问特征,通过网页特征获取模块,得到采集周期的网页访问特征。
所述的建立云端网页特征信息库,包括:
获取待进行数据采集的网页的地址,对网页页面进行页面特征划分,得到对应网页地址的网页页面特征,所有的网页地址及对应网页地址的网页页面特征构成云端网页特征信息库。
所述的终端数据采集模块根据网页特征信息进行网页数据采集,包括根据终端数据采集模块根据网页特征,采集信息输入设备的输入信息,得到基于网页的网页数据。
所述的终端数据采集模块数据容器对采集到网页数据进行合法性判断,包括:
在设定的采集周期内,若采集的基于网页的网页数据的数据量不小于设定数据量阈值,则为合法数据,否则为非法数据。
所述的对经过合法性判断的网页数据进行预处理,得到对应终端数据采集模块采集周期的网页数据,包括:
将设定的采集周期内采集的基于网页的网页数据,进行数据清洗,将数据段小于数据段阈值的数据段丢弃;所述的数据段为终端数据采集模块从网页打开到网页关闭采集的网页数据的时长。
所述的云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征,包括:
将采集周期采集的网页主页面地址对应的网页数据以及子页面地址对应的页面数据,组合得到网页的第一网页访问特征。
所述的将得到的各个采集周期的第一网页访问特征,通过网页特征获取模块,得到采集周期的网页访问特征,包括:将各个云端数据采集模块得到的同一网页的第一网页访问特征,通过网页特征获取模块,将相同网页地址的网页数据进行合并,得到采集周期的网页访问特征。
如图2所示,一种基于网页的数据采集平台,应用所述的一种基于网页的数据采集方法,包括云端网页特征信息库、分布式数据采集模块和终端数据采集模块。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (2)
1.一种基于网页的数据采集方法,其特征在于,包括如下步骤:
步骤一,建立云端网页特征数据库,各个云端数据采集模块分别与所述的云端网页特征数据库连接,云端网页特征数据库将待进行数据采集的网页对应的网页特征信息分发给各个云端数据采集模块;
步骤二,终端数据采集模块与匹配的云端数据采集模块通信连接,云端数据采集模块建立终端数据采集模块数据容器,将终端数据采集模块与终端数据采集模块数据容器连接,终端数据采集模块将采集到的数据发送到终端数据采集模块数据容器;
步骤三,终端数据采集模块根据网页特征信息进行网页数据采集,将采集到的网页数据传输到终端数据采集模块数据容器,按照设定的采集周期,终端数据采集模块数据容器对采集到网页数据进行合法性判断,若数据合法,则对网页数据进行预处理,进入步骤四,若不合法,则将采集周期内的网页数据销毁后删除;
步骤四,对经过合法性判断的网页数据进行预处理,得到对应终端数据采集模块采集周期的网页数据,云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征;
步骤五,将得到的各个采集周期的第一网页访问特征,通过网页特征获取模块,得到采集周期的网页访问特征;
所述的建立云端网页特征数据库,包括:
获取待进行数据采集的网页的地址,对网页页面进行页面特征划分,得到对应网页地址的网页页面特征,所有的网页地址及对应网页地址的网页页面特征构成云端网页特征数据库;
所述的终端数据采集模块根据网页特征信息进行网页数据采集,包括根据终端数据采集模块根据网页特征,采集信息输入设备的输入信息,得到基于网页的网页数据;
所述的终端数据采集模块数据容器对采集到网页数据进行合法性判断,包括:
在设定的采集周期内,若采集的基于网页的网页数据的数据量不小于设定数据量阈值,则为合法数据,否则为非法数据;
所述的对经过合法性判断的网页数据进行预处理,得到对应终端数据采集模块采集周期的网页数据,包括:
将设定的采集周期内采集的基于网页的网页数据,进行数据清洗,将数据段小于数据段阈值的数据段丢弃;所述的数据段为终端数据采集模块从网页打开到网页关闭采集的网页数据的时长;
所述的云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征,包括:
将采集周期采集的网页主页面地址对应的网页数据以及子页面地址对应的页面数据,组合得到网页的第一网页访问特征;
所述的将得到的各个采集周期的第一网页访问特征,通过网页特征获取模块,得到采集周期的网页访问特征,包括:将各个云端数据采集模块得到的同一网页的第一网页访问特征,通过网页特征获取模块,将相同网页地址的网页数据进行合并,得到采集周期的网页访问特征。
2.一种基于网页的数据采集平台,其特征在于,应用权利要求1所述的一种基于网页的数据采集方法,包括云端网页特征数据库、分布式数据采集模块和终端数据采集模块;所述的云端网页特征数据库、分布式数据采集模块和终端数据采集模块依次连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311405987.0A CN117150105B (zh) | 2023-10-27 | 2023-10-27 | 一种基于网页的数据采集方法及采集平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311405987.0A CN117150105B (zh) | 2023-10-27 | 2023-10-27 | 一种基于网页的数据采集方法及采集平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150105A CN117150105A (zh) | 2023-12-01 |
CN117150105B true CN117150105B (zh) | 2023-12-26 |
Family
ID=88884596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311405987.0A Active CN117150105B (zh) | 2023-10-27 | 2023-10-27 | 一种基于网页的数据采集方法及采集平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150105B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105208113A (zh) * | 2015-08-31 | 2015-12-30 | 北京百度网讯科技有限公司 | 信息推送的方法和装置 |
CN106547914A (zh) * | 2016-11-25 | 2017-03-29 | 国信优易数据有限公司 | 一种数据采集管理系统及其方法 |
CN107622202A (zh) * | 2017-09-20 | 2018-01-23 | 杭州安恒信息技术有限公司 | 网页后门检测方法及装置 |
CN108763279A (zh) * | 2018-04-11 | 2018-11-06 | 北京中科闻歌科技股份有限公司 | 一种网页数据分布式模板采集方法及系统 |
CN109241733A (zh) * | 2018-08-07 | 2019-01-18 | 北京神州绿盟信息安全科技股份有限公司 | 基于Web访问日志的爬虫行为识别方法及装置 |
CN109558305A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 日志数据排序方法及装置 |
CN111708685A (zh) * | 2020-05-18 | 2020-09-25 | 福建天晴在线互动科技有限公司 | 一种分布式服务器的日志采集监控方法及系统 |
CN112559119A (zh) * | 2019-09-25 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 一种虚拟机的迁移方法及装置、电子设备、存储介质 |
CN116775973A (zh) * | 2022-03-11 | 2023-09-19 | 南京贝登医疗股份有限公司 | 一种医疗大数据采集的方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9003552B2 (en) * | 2010-12-30 | 2015-04-07 | Ensighten, Inc. | Online privacy management |
US11093518B1 (en) * | 2017-09-23 | 2021-08-17 | Splunk Inc. | Information technology networked entity monitoring with dynamic metric and threshold selection |
-
2023
- 2023-10-27 CN CN202311405987.0A patent/CN117150105B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105208113A (zh) * | 2015-08-31 | 2015-12-30 | 北京百度网讯科技有限公司 | 信息推送的方法和装置 |
CN106547914A (zh) * | 2016-11-25 | 2017-03-29 | 国信优易数据有限公司 | 一种数据采集管理系统及其方法 |
CN107622202A (zh) * | 2017-09-20 | 2018-01-23 | 杭州安恒信息技术有限公司 | 网页后门检测方法及装置 |
CN109558305A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 日志数据排序方法及装置 |
CN108763279A (zh) * | 2018-04-11 | 2018-11-06 | 北京中科闻歌科技股份有限公司 | 一种网页数据分布式模板采集方法及系统 |
CN109241733A (zh) * | 2018-08-07 | 2019-01-18 | 北京神州绿盟信息安全科技股份有限公司 | 基于Web访问日志的爬虫行为识别方法及装置 |
CN112559119A (zh) * | 2019-09-25 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 一种虚拟机的迁移方法及装置、电子设备、存储介质 |
CN111708685A (zh) * | 2020-05-18 | 2020-09-25 | 福建天晴在线互动科技有限公司 | 一种分布式服务器的日志采集监控方法及系统 |
CN116775973A (zh) * | 2022-03-11 | 2023-09-19 | 南京贝登医疗股份有限公司 | 一种医疗大数据采集的方法及系统 |
Non-Patent Citations (4)
Title |
---|
David Zeber 等.The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing.《WWW '20: Proceedings of The Web Conference 2020》.2020,167–178. * |
Yi Wu 等.Intelligent Distributed Web Crawler Based on Attention Mechanism.《RICAI '20: Proceedings of the 2020 2nd International Conference on Robotics, Intelligent Control and Artificial Intelligence》.2020,229–233. * |
基于网络日志的用户行为分析;李志强;《中国博士学位论文全文数据库 信息科技辑》(第06期);I138-147 * |
基于网页信息自动提取的分布式爬虫系统设计与实现;杨本栋;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01期);I139-429 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150105A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103888490B (zh) | 一种全自动的web客户端人机识别的方法 | |
CN104954372B (zh) | 一种钓鱼网站的取证与验证方法及系统 | |
US6658662B1 (en) | Retrieving information from a broadcast signal | |
CN109729044B (zh) | 一种通用的互联网数据采集反反爬系统及方法 | |
KR100848319B1 (ko) | 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치 | |
CN105718559B (zh) | 查找表单页面和目标页面转化关系的方法和装置 | |
US20020184041A1 (en) | Automated customer survey using the web | |
CN102315953B (zh) | 基于帖子的出现规律来检测垃圾帖子的方法及设备 | |
US8407766B1 (en) | Method and apparatus for monitoring sensitive data on a computer network | |
CN107908959A (zh) | 网站信息检测方法、装置、电子设备及存储介质 | |
CN105306495B (zh) | 用户识别方法和装置 | |
CN102073960A (zh) | 一种网站营销过程中运行效果的评估方法 | |
CN108667770A (zh) | 一种网站的漏洞测试方法、服务器及系统 | |
CN102750352A (zh) | 浏览器中分类收藏历史访问记录的方法及装置 | |
CN105260469B (zh) | 一种处理网站地图的方法、装置及设备 | |
CN111723083B (zh) | 用户身份识别方法、装置、电子设备及存储介质 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN107368407A (zh) | 信息处理方法和装置 | |
CN117150105B (zh) | 一种基于网页的数据采集方法及采集平台 | |
CN102684925A (zh) | 互联网访问来源信息的获取方法和装置 | |
CN116049808A (zh) | 一种基于大数据的设备指纹采集系统及方法 | |
CN107566371A (zh) | 一种面向海量日志的WebShell挖掘方法 | |
CN105763633A (zh) | 一种域名和网站访问行为的关联方法 | |
CN107579975A (zh) | 网站信息实时监控系统 | |
RU2745362C1 (ru) | Система и способ формирования индивидуального содержимого для пользователя сервиса |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |