CN117150105B

CN117150105B - 一种基于网页的数据采集方法及采集平台

Info

Publication number: CN117150105B
Application number: CN202311405987.0A
Authority: CN
Inventors: 邹家勇; 屈斌; 唐建; 王逊; 李强; 雷涛; 周琦
Original assignee: Sichuan Yinyi Technology Co ltd
Current assignee: Sichuan Yinyi Technology Co ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2023-12-26
Anticipated expiration: 2043-10-27
Also published as: CN117150105A

Abstract

本发明涉及数据处理领域，公开了一种基于网页的数据采集方法及采集平台，包括：建立云端网页特征信息库，终端数据采集模块与匹配的云端数据采集模块通信连接，将终端数据采集模块与终端数据采集模块数据容器连接，终端数据采集模块将采集到的数据发送到终端数据采集模块数据容器；终端数据采集模块根据网页特征信息进行网页数据采集，将采集到的网页数据传输到终端数据采集模块数据容器，云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征；通过网页特征获取模块，得到采集周期的网页访问特征。通过本发明可以实现获取网页用户的访问数据，通过访问数据得到网页的访问特征。

Description

一种基于网页的数据采集方法及采集平台

技术领域

本发明涉及数据处理领域，具体是一种基于网页的数据采集方法及采集平台。

背景技术

随着互联网技术的高速发展和大数据时代的来临，越来越多的公司或个人对网络的依赖性越来越强。为了保证网络安全，对各种网页的数据监控显得尤为重要。

从某一个网页上采集特定的数据，需要编写针对该网页页面的程序代码。如果需要采集的网页很多，则每个网页页面上都需要特定的代码，就需要很大的代码编写量，而且网页内容一旦发生变动，则需要重新修改程序代码，再发布，维护较为不便，并且容易造成用户隐私泄露。

因此，如何在能够既采集到网页访问数据的前提下，又不会造成用户隐私数据的泄露，也能避免被采集网站的反爬虫机制干扰。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于网页的数据采集方法，包括如下步骤：

步骤一，建立云端网页特征信息库，各个云端数据采集模块分别与所述的云端网页特征数据库连接，云端网页特征数据库将待进行数据采集的网页对应的网页特征信息分发给各个云端数据采集模块；

步骤二，终端数据采集模块与匹配的云端数据采集模块通信连接，云端数据采集模块建立终端数据采集模块数据容器，将终端数据采集模块与终端数据采集模块数据容器连接，终端数据采集模块将采集到的数据发送到终端数据采集模块数据容器；

步骤三，终端数据采集模块根据网页特征信息进行网页数据采集，将采集到的网页数据传输到终端数据采集模块数据容器，按照设定的采集周期，终端数据采集模块数据容器对采集到网页数据进行合法性判断，若数据合法，则对网页数据进行预处理，进入步骤四，若不合法，则将采集周期内的网页数据销毁后删除；

步骤四，对经过合法性判断的网页数据进行预处理，得到对应终端数据采集模块采集周期的网页数据，云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征；

步骤五，将得到的各个采集周期的第一网页访问特征，通过网页特征获取模块，得到采集周期的网页访问特征。

进一步的，所述的建立云端网页特征信息库，包括：

获取待进行数据采集的网页的地址，对网页页面进行页面特征划分，得到对应网页地址的网页页面特征，所有的网页地址及对应网页地址的网页页面特征构成云端网页特征信息库。

进一步的，所述的终端数据采集模块根据网页特征信息进行网页数据采集，包括根据终端数据采集模块根据网页特征，采集信息输入设备的输入信息，得到基于网页的网页数据。

进一步的，所述的终端数据采集模块数据容器对采集到网页数据进行合法性判断，包括：

在设定的采集周期内，若采集的基于网页的网页数据的数据量不小于设定数据量阈值，则为合法数据，否则为非法数据。

进一步的，所述的对经过合法性判断的网页数据进行预处理，得到对应终端数据采集模块采集周期的网页数据，包括：

将设定的采集周期内采集的基于网页的网页数据，进行数据清洗，将数据段小于数据段阈值的数据段丢弃；所述的数据段为终端数据采集模块从网页打开到网页关闭采集的网页数据的时长。

进一步的，所述的云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征，包括：

将采集周期采集的网页主页面地址对应的网页数据以及子页面地址对应的页面数据，组合得到网页的第一网页访问特征。

进一步的，所述的将得到的各个采集周期的第一网页访问特征，通过网页特征获取模块，得到采集周期的网页访问特征，包括：将各个云端数据采集模块得到的同一网页的第一网页访问特征，通过网页特征获取模块，将相同网页地址的网页数据进行合并，得到采集周期的网页访问特征。

一种基于网页的数据采集平台，应用所述的一种基于网页的数据采集方法，包括云端网页特征信息库、分布式数据采集模块和终端数据采集模块；

所述的云端网页特征信息库、分布式数据采集模块和终端数据采集模块依次连接。

本发明的有益效果是：通过本发明所提供的技术方案，可以实现在不获取和记录用户隐私数据的情况下，实现获取网页用户的访问数据，通过访问数据得到网页的访问特征。同时也避免了网页的反爬虫干扰。

附图说明

图1为一种基于网页的数据采集方法的流程示意图；

图2为一种基于网页的数据采集平台的原理示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

为了使本发明的目的，技术方案及优点更加清楚明白，结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”，“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程，方法，物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程，方法，物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程，方法，物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，一种基于网页的数据采集方法，包括如下步骤：

其中所述的根据网页特征信息进行网页数据采集，包括，所述的网页特征为预设网页特征，可以为网页的可交互区域，包括页面选项按钮、登录入口等可交互区域，也可将网页进行均匀划分为小区域，小区域即为特征区域，通过采集输入设备在特征区域的输入信息，所述的输入设备包括鼠标，采集的网页信息包括鼠标点击信息、鼠标悬停信息以及鼠标的拖动信息等数据，根据对应网页的特征区域以及对应的输入设备的输入信息就采集得到得到网页数据；

所述的建立云端网页特征信息库，包括：

所述的终端数据采集模块根据网页特征信息进行网页数据采集，包括根据终端数据采集模块根据网页特征，采集信息输入设备的输入信息，得到基于网页的网页数据。

所述的终端数据采集模块数据容器对采集到网页数据进行合法性判断，包括：

所述的对经过合法性判断的网页数据进行预处理，得到对应终端数据采集模块采集周期的网页数据，包括：

所述的云端数据采集模块将所有得到的采集周期的网页数据合并得到采集周期的第一网页访问特征，包括：

所述的将得到的各个采集周期的第一网页访问特征，通过网页特征获取模块，得到采集周期的网页访问特征，包括：将各个云端数据采集模块得到的同一网页的第一网页访问特征，通过网页特征获取模块，将相同网页地址的网页数据进行合并，得到采集周期的网页访问特征。

如图2所示，一种基于网页的数据采集平台，应用所述的一种基于网页的数据采集方法，包括云端网页特征信息库、分布式数据采集模块和终端数据采集模块。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于网页的数据采集方法，其特征在于，包括如下步骤：

步骤一，建立云端网页特征数据库，各个云端数据采集模块分别与所述的云端网页特征数据库连接，云端网页特征数据库将待进行数据采集的网页对应的网页特征信息分发给各个云端数据采集模块；

步骤五，将得到的各个采集周期的第一网页访问特征，通过网页特征获取模块，得到采集周期的网页访问特征；

所述的建立云端网页特征数据库，包括：

获取待进行数据采集的网页的地址，对网页页面进行页面特征划分，得到对应网页地址的网页页面特征，所有的网页地址及对应网页地址的网页页面特征构成云端网页特征数据库；

所述的终端数据采集模块根据网页特征信息进行网页数据采集，包括根据终端数据采集模块根据网页特征，采集信息输入设备的输入信息，得到基于网页的网页数据；

在设定的采集周期内，若采集的基于网页的网页数据的数据量不小于设定数据量阈值，则为合法数据，否则为非法数据；

将设定的采集周期内采集的基于网页的网页数据，进行数据清洗，将数据段小于数据段阈值的数据段丢弃；所述的数据段为终端数据采集模块从网页打开到网页关闭采集的网页数据的时长；

将采集周期采集的网页主页面地址对应的网页数据以及子页面地址对应的页面数据，组合得到网页的第一网页访问特征；

2.一种基于网页的数据采集平台，其特征在于，应用权利要求1所述的一种基于网页的数据采集方法，包括云端网页特征数据库、分布式数据采集模块和终端数据采集模块；所述的云端网页特征数据库、分布式数据采集模块和终端数据采集模块依次连接。