CN110677423A - 基于客户代理端的数据采集方法、装置、及计算机设备 - Google Patents
基于客户代理端的数据采集方法、装置、及计算机设备 Download PDFInfo
- Publication number
- CN110677423A CN110677423A CN201910943349.1A CN201910943349A CN110677423A CN 110677423 A CN110677423 A CN 110677423A CN 201910943349 A CN201910943349 A CN 201910943349A CN 110677423 A CN110677423 A CN 110677423A
- Authority
- CN
- China
- Prior art keywords
- data acquisition
- server
- data
- request
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0815—Network architectures or network communication protocols for network security for authentication of entities providing single-sign-on or federations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/141—Setup of application sessions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了基于客户代理端的数据采集方法、装置、计算机设备及存储介质。该方法包括若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息;根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址;根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站;根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果;将所述采集结果发送至所述服务器。本发明实施例实现了由有权限的客户端替代采集服务器进行数据采集后上传至采集服务器,避免了采集服务器的数据采集任务被目标网站对应的目标服务器进行拦截,确保了数据采集任务的有效进行。
Description
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于客户代理端的数据采集方法、装置、计算机设备及存储介质。
背景技术
目前,数据采集一般是通过采集服务器的采集程序对目标服务器进行数据采集。例如,采集服务器中部署了数据采集工具,若完成了对数据采集工具的具体参数设置(即设置目标服务器的地址、采集目标字段、采集数据量等信息),由数据采集工具自动从目标服务器采集数据。这种采集方式一般是目标服务器对采集服务器的采集权限无任何限制要求时才可实施,若目标服务器需对采集服务器进行身份验证时则无法成功完成数据采集任务。
发明内容
本发明实施例提供了一种基于客户代理端的数据采集方法、装置、计算机设备及存储介质,旨在解决现有技术中目标服务器需对采集服务器有身份验证要求时无法成功完成数据采集任务的问题。
第一方面,本发明实施例提供了一种基于客户代理端的数据采集方法,其包括:
若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息;
根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址;
根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站;
根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果;以及
将所述采集结果发送至所述服务器。
第二方面,本发明实施例提供了一种基于客户代理端的数据采集装置,其包括:
服务器连接单元,用于若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息;
数据采集请求获取单元,用于根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址;
目标网站登录单元,用于根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站;
数据采集单元,用于根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果;以及
结果发送单元,用于将所述采集结果发送至所述服务器。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于客户代理端的数据采集方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于客户代理端的数据采集方法。
本发明实施例提供了一种基于客户代理端的数据采集方法、装置、计算机设备及存储介质,包括若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息;根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址;根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站;根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果;将所述采集结果发送至所述服务器。本发明实施例实现了由有权限的客户端替代采集服务器进行数据采集后上传至采集服务器,避免了采集服务器的数据采集任务被目标网站对应的目标服务器进行拦截,确保了数据采集任务的有效进行。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于客户代理端的数据采集方法的应用场景示意图;
图2为本发明实施例提供的基于客户代理端的数据采集方法的流程示意图;
图3为本发明实施例提供的基于客户代理端的数据采集方法的子流程示意图;
图4为本发明实施例提供的基于客户代理端的数据采集装置的示意性框图;
图5为本发明实施例提供的基于客户代理端的数据采集装置的子单元示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于客户代理端的数据采集方法的应用场景示意图;图2为本发明实施例提供的基于客户代理端的数据采集方法的流程示意图,该基于客户代理端的数据采集方法应用于客户端中,该方法通过安装于客户端中的应用软件进行执行。其中,客户端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
如图2所示,该方法包括步骤S110~S150。
S110、若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息号。
在本实施例中,为了更清楚的理解本申请的技术方案,下面对所涉及的终端进行介绍。本申请是在客户端的角度描述技术方案。
一是采集服务器,简记为服务器,用于产生数据采集任务请求并发送至客户端,在之后接收由客户端所对应采集的采集结果。
二是客户端,用于根据服务器发送的数据采集任务请求在目标服务器中获取采集结果,在之后将采集结果发送至采集服务器。
三是目标服务器,用于部署目标网站对应的数据,在接收到客户端发送的数据采取请求和用户授权账号且对用户授权账号验证成功后,目标网站中的数据可被客户端所采集。
当服务器需通过客户端代理采集数据时,先是服务器向客户端发送数据采集任务请求,所发送的数据采集任务请求中至少包括服务器信息(例如包括服务器对应的采集服务器IP地址、采集服务器的秘钥信息等)、目标地址、数据采集任务信息及数据采集任务有效时间段等信息。而且在客户端事先也部署了采集代理程序(如数据采集工具,该数据采集工具与服务器中的数据采集工具可以是同一版本的采集工具),此时若当客户端检测到服务器发送的数据采集任务请求时,可以先根据述数据采集任务请求获取对应的服务器信息。此时,可以根据服务器信息判断该服务器是否是有权限调用其对目标服务器进行数据采集的合法服务器。
在一实施例中,步骤S110之后还包括:
获取所述服务器信息中包括的秘钥信息;
根据所述秘钥信息获取对应的身份标识;
若所述身份标识与预先存储的服务器身份标识相同,与所述服务器成功建立连接。
在本实施例中,当客户端获取了所述服务器信息后,可以获取其中所包括的秘钥信息,根据客户端中已预先存储的公钥对秘钥进行解密,获取所述秘钥信息获取对应的身份标识。由于客户端中也还预先存储了多个服务器身份标识(具有多个服务器身份标识其中之一的服务器均能有效与客户端进行连接),此时若判断所述身份标识与预先存储的服务器身份标识相同,表示该服务器为有权限调用其对目标服务器进行数据采集的合法服务器,此时客户端与所述服务器成功建立连接。
S120、根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址。
在本实施例中,当客户端接收到了数据采集任务请求后,由于客户端中部署了与采集服务器中相同的数据采集工具,此时可以根据所述数据采集任务请求生成用于填充客户端本地的数据采集工具中采集参数的数据采集请求。客户端根据数据采集请求完成对数据采集工具的配置后,即可根据目标地址去进一步与目标服务器进行连接,从而实现数据采集。
在一实施例中,步骤S120包括:
解析获取所述数据采集任务请求中的目标地址、数据采集任务信息及数据采集任务有效时间段;其中,所述采集任务信息包括数据采集目标字段、及目标字段划分信息;
根据所述目标地址、数据采集任务信息及数据采集任务有效时间段生成所述数据采集请求。
在本实施例中,也即数据采集请求为所述数据采集任务请求的子集(数据采集请求中的数据项并未全部复制于所述数据采集任务请求,所述数据采集任务请求的部分信息有省略),例如所述数据采集请求包括目标地址、数据采集任务信息及数据采集任务有效时间段等信息。当获知了数据采集请求,即可得到数据采集请求对应的目标地址,从而客户端明确了需采集数据的目标地址。
S130、根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站。
在本实施例中,由于服务器本身是无权限访问目标服务器进行数据采集,此时是间接调用具有权限的客户端与目标服务器建立连接从而实现数据采集。客户端与目标服务器建立连接时,需由客户端将其数据采集请求中用户授权账号(包括账号和密码)发送至目标服务器,由目标服务器完成验证后登录目标地址对应的目标网站,而且客户端中将用户授权账号发送至目标服务器是经过了客户端对应的用户的同意授权操作。
在一实施例中,如图3所示,步骤S130包括:
S131、判断本地是否预先存储有用户授权账号;
S132、若本地是预先存储有用户授权账号,将所述用户授权账号发送至所述目标地址对应的目标网站进行验证登录;
S133、若所述用户授权账号通过验证,与所述目标地址对应的目标网站建立连接。
在本实施例中,若客户端本地存储有用户授权账号,此时可以直接将所述用户授权账号发送至所述目标地址对应的目标网站进行验证登录。若目标服务器通过对用户授权账号的验证之后,发送验证通过的提示信息至客户端。客户端自动跳转登录成功后的目标网站,从而实现与所述目标地址对应的目标网站建立连接。
在一实施例中,如图3所示,步骤S131之后还包括:
S134、若本地未预先存储有用户授权账号,发送用户授权账号获取请求和机器识别码至账户获取端;
S135、接收由所述账户获取端根据所述机器识别码发送的用户授权账号,根据用户授权账号与所述目标地址对应的目标网站建立连接。
在本实施例中,若客户端中若存在本地资源初始化等操作的情况,之前存储的用户授权账号可能已被清除。由于该客户端是有权限与目标服务器建立连接的,此时为了有效保管个客户端申请的用户授权账号,可以部署一个账号获取端(可以视为一个专用于存储用户账号的账号服务器)。账号获取端中存储有多条账户数据,每一条账户数据都包括机器识别码(例如设备串号,IMEI码等)和与该机器识别码对应的用户授权账号。当账户获取端存储有与该发送了用户授权账号获取请求和机器识别码的客户端对应的用户授权账号,由账户获取端发送该用户授权账号至对应的客户端。此时客户端重新获取了用户授权账号后即可成功登录和访问目标网址。
S140、根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果。
在本实施例中,当客户端与目标网站成功建立连接后,即可根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果。具体是通过客户端中的数据采集工具具体根据配置参数进行目标数据的采集,从而得到采集结果。
在一实施例中,步骤140之后还包括:
将所述采集结果根据所述目标字段划分信息将所述采集结果划分为多个子数据表分别进行存储。
在本实施例中,所述采集结果是客户端根据数据采集请求而对应采集得到,而所述数据采集请求中包括数据采集目标字段、目标字段划分信息及数据采集任务有效时间段,此时可以根据目标字段划分信息将各数据采集目标字段进行有效分组,例如将数据采集目标字段1-5分配至子数据表1进行存储,将数据采集目标字段6-10分配至子数据表2进行存储,从而实现对采集结果中的数据进行有效分组。
S150、将所述采集结果发送至所述服务器。
在本实施例中,当客户端完成了数据采集而得到采集结果后,此时可以由客户端将其中缓存的采集结果发送至所述服务器进行存储,从而实现客户端代理采集过程。
该方法实现了由有权限的客户端替代采集服务器进行数据采集后上传至采集服务器,避免了采集服务器的数据采集任务被目标网站对应的目标服务器进行拦截,确保了数据采集任务的有效进行。
本发明实施例还提供一种基于客户代理端的数据采集装置,该基于客户代理端的数据采集装置用于执行前述基于客户代理端的数据采集方法的任一实施例。具体地,请参阅图4,图4是本发明实施例提供的基于客户代理端的数据采集装置的示意性框图。该基于客户代理端的数据采集装置100可以配置于客户端中。其中,客户端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
如图4所示,基于客户代理端的数据采集装置100包括服务器连接单元110、数据采集请求获取单元120、目标网站登录单元130、数据采集单元140、结果发送单元150。
服务器连接单元110,用于若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息号。
在本实施例中,当服务器需通过客户端代理采集数据时,先是服务器向客户端发送数据采集任务请求,所发送的数据采集任务请求中至少包括服务器信息(例如包括服务器对应的采集服务器IP地址、采集服务器的秘钥信息等)、目标地址、数据采集任务信息及数据采集任务有效时间段等信息。而且在客户端事先也部署了采集代理程序(如数据采集工具,该数据采集工具与服务器中的数据采集工具可以是同一版本的采集工具),此时若当客户端检测到服务器发送的数据采集任务请求时,可以先根据述数据采集任务请求获取对应的服务器信息。此时,可以根据服务器信息判断该服务器是否是有权限调用其对目标服务器进行数据采集的合法服务器。
在一实施例中,基于客户代理端的数据采集装置100还包括:
秘钥信息获取单元,用于获取所述服务器信息中包括的秘钥信息;
身份标识获取单元,用于根据所述秘钥信息获取对应的身份标识;
连接建立单元,用于若所述身份标识与预先存储的服务器身份标识相同,与所述服务器成功建立连接。
在本实施例中,当客户端获取了所述服务器信息后,可以获取其中所包括的秘钥信息,根据客户端中已预先存储的公钥对秘钥进行解密,获取所述秘钥信息获取对应的身份标识。由于客户端中也还预先存储了多个服务器身份标识(具有多个服务器身份标识其中之一的服务器均能有效与客户端进行连接),此时若判断所述身份标识与预先存储的服务器身份标识相同,表示该服务器为有权限调用其对目标服务器进行数据采集的合法服务器,此时客户端与所述服务器成功建立连接。
数据采集请求获取单元120,用于根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址。
在本实施例中,当客户端接收到了数据采集任务请求后,由于客户端中部署了与采集服务器中相同的数据采集工具,此时可以根据所述数据采集任务请求生成用于填充客户端本地的数据采集工具中采集参数的数据采集请求。客户端根据数据采集请求完成对数据采集工具的配置后,即可根据目标地址去进一步与目标服务器进行连接,从而实现数据采集。
在一实施例中,数据采集请求获取单元120包括:
请求解析单元,用于解析获取所述数据采集任务请求中的目标地址、数据采集任务信息及数据采集任务有效时间段;其中,所述采集任务信息包括数据采集目标字段、及目标字段划分信息;
请求生成单元,用于根据所述目标地址、数据采集任务信息及数据采集任务有效时间段生成所述数据采集请求。
在本实施例中,也即数据采集请求为所述数据采集任务请求的子集(数据采集请求中的数据项并未全部复制于所述数据采集任务请求,所述数据采集任务请求的部分信息有省略),例如所述数据采集请求包括目标地址、数据采集任务信息及数据采集任务有效时间段等信息。当获知了数据采集请求,即可得到数据采集请求对应的目标地址,从而客户端明确了需采集数据的目标地址。
目标网站登录单元130,用于根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站。
在本实施例中,由于服务器本身是无权限访问目标服务器进行数据采集,此时是间接调用具有权限的客户端与目标服务器建立连接从而实现数据采集。客户端与目标服务器建立连接时,需由客户端将其数据采集请求中用户授权账号(包括账号和密码)发送至目标服务器,由目标服务器完成验证后登录目标地址对应的目标网站,而且客户端中将用户授权账号发送至目标服务器是经过了客户端对应的用户的同意授权操作。
在一实施例中,如图5所示,目标网站登录单元130包括:
账号存储判断单元131,用于判断本地是否预先存储有用户授权账号;
账号验证单元132,用于若本地是预先存储有用户授权账号,将所述用户授权账号发送至所述目标地址对应的目标网站进行验证登录;
目标网站连接单元133,用于若所述用户授权账号通过验证,与所述目标地址对应的目标网站建立连接。
在本实施例中,若客户端本地存储有用户授权账号,此时可以直接将所述用户授权账号发送至所述目标地址对应的目标网站进行验证登录。若目标服务器通过对用户授权账号的验证之后,发送验证通过的提示信息至客户端。客户端自动跳转登录成功后的目标网站,从而实现与所述目标地址对应的目标网站建立连接。
在一实施例中,如图5所示,目标网站登录单元130还包括:
机器码发送单元134,用于若本地未预先存储有用户授权账号,发送用户授权账号获取请求和机器识别码至账户获取端;
账号获取单元135,用于接收由所述账户获取端根据所述机器识别码发送的用户授权账号,根据用户授权账号与所述目标地址对应的目标网站建立连接。
在本实施例中,若客户端中若存在本地资源初始化等操作的情况,之前存储的用户授权账号可能已被清除。由于该客户端是有权限与目标服务器建立连接的,此时为了有效保管个客户端申请的用户授权账号,可以部署一个账号获取端(可以视为一个专用于存储用户账号的账号服务器)。账号获取端中存储有多条账户数据,每一条账户数据都包括机器识别码(例如设备串号,IMEI码等)和与该机器识别码对应的用户授权账号。当账户获取端存储有与该发送了用户授权账号获取请求和机器识别码的客户端对应的用户授权账号,由账户获取端发送该用户授权账号至对应的客户端。此时客户端重新获取了用户授权账号后即可成功登录和访问目标网址。
数据采集单元140,用于根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果。
在本实施例中,当客户端与目标网站成功建立连接后,即可根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果。具体是通过客户端中的数据采集工具具体根据配置参数进行目标数据的采集,从而得到采集结果。
在一实施例中,基于客户代理端的数据采集装置100还包括:
分表存储单元,用于将所述采集结果根据所述目标字段划分信息将所述采集结果划分为多个子数据表分别进行存储。
在本实施例中,所述采集结果是客户端根据数据采集请求而对应采集得到,而所述数据采集请求中包括数据采集目标字段、目标字段划分信息及数据采集任务有效时间段,此时可以根据目标字段划分信息将各数据采集目标字段进行有效分组,例如将数据采集目标字段1-5分配至子数据表1进行存储,将数据采集目标字段6-10分配至子数据表2进行存储,从而实现对采集结果中的数据进行有效分组。
结果发送单元150,用于将所述采集结果发送至所述服务器。
在本实施例中,当客户端完成了数据采集而得到采集结果后,此时可以由客户端将其中缓存的采集结果发送至所述服务器进行存储,从而实现客户端代理采集过程。
该装置实现了由有权限的客户端替代采集服务器进行数据采集后上传至采集服务器,避免了采集服务器的数据采集任务被目标网站对应的目标服务器进行拦截,确保了数据采集任务的有效进行。
上述基于客户代理端的数据采集装置可以实现为计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图6,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于客户代理端的数据采集方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于客户代理端的数据采集方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于客户代理端的数据采集方法。
本领域技术人员可以理解,图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图6所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于客户代理端的数据采集方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于客户代理端的数据采集方法,其特征在于,包括:
若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息;
根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址;
根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站;
根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果;以及
将所述采集结果发送至所述服务器。
2.根据权利要求1所述的基于客户代理端的数据采集方法,其特征在于,所述若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息之后,还包括:
获取所述服务器信息中包括的秘钥信息;
根据所述秘钥信息获取对应的身份标识;
若所述身份标识与预先存储的服务器身份标识相同,与所述服务器成功建立连接。
3.根据权利要求1所述的基于客户代理端的数据采集方法,其特征在于,所述根据所述数据采集任务请求生成对应的数据采集请求,包括:
解析获取所述数据采集任务请求中的目标地址、数据采集任务信息及数据采集任务有效时间段;其中,所述采集任务信息包括数据采集目标字段、及目标字段划分信息;
根据所述目标地址、数据采集任务信息及数据采集任务有效时间段生成所述数据采集请求。
4.根据权利要求1所述的基于客户代理端的数据采集方法,其特征在于,所述根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站,包括:
判断本地是否预先存储有用户授权账号;
若本地是预先存储有用户授权账号,将所述用户授权账号发送至所述目标地址对应的目标网站进行验证登录;
若所述用户授权账号通过验证,与所述目标地址对应的目标网站建立连接。
5.根据权利要求4所述的基于客户代理端的数据采集方法,其特征在于,所述判断本地是否预先存储有用户授权账号之后,还包括:
若本地未预先存储有用户授权账号,发送用户授权账号获取请求和机器识别码至账户获取端;
接收由所述账户获取端根据所述机器识别码发送的用户授权账号,根据用户授权账号与所述目标地址对应的目标网站建立连接。
6.根据权利要求3所述的基于客户代理端的数据采集方法,所述根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果之后,还包括:
将所述采集结果根据所述目标字段划分信息将所述采集结果划分为多个子数据表分别进行存储。
7.一种基于客户代理端的数据采集装置,其特征在于,包括:
服务器连接单元,用于若检测到服务器发送的数据采集任务请求,根据所述数据采集任务请求获取对应的服务器信息;
数据采集请求获取单元,用于根据所述数据采集任务请求生成对应的数据采集请求,获取数据采集请求对应的目标地址;
目标网站登录单元,用于根据所述数据采集请求对应的用户授权账号登录所述目标地址对应的目标网站;
数据采集单元,用于根据所述数据采集请求在所述目标网站对应采集网页数据,得到采集结果;以及
结果发送单元,用于将所述采集结果发送至所述服务器。
8.根据权利要求7所述的基于客户代理端的数据采集装置,其特征在于,还包括:
秘钥信息获取单元,用于获取所述服务器信息中包括的秘钥信息;
身份标识获取单元,用于根据所述秘钥信息获取对应的身份标识;
连接建立单元,用于若所述身份标识与预先存储的服务器身份标识相同,与所述服务器成功建立连接。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于客户代理端的数据采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于客户代理端的数据采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910943349.1A CN110677423A (zh) | 2019-09-30 | 2019-09-30 | 基于客户代理端的数据采集方法、装置、及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910943349.1A CN110677423A (zh) | 2019-09-30 | 2019-09-30 | 基于客户代理端的数据采集方法、装置、及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110677423A true CN110677423A (zh) | 2020-01-10 |
Family
ID=69080627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910943349.1A Pending CN110677423A (zh) | 2019-09-30 | 2019-09-30 | 基于客户代理端的数据采集方法、装置、及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110677423A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405033A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海环融联易信息科技服务有限公司 | 数据采集方法、装置、计算机设备及存储介质 |
CN112231663A (zh) * | 2020-03-31 | 2021-01-15 | 北京来也网络科技有限公司 | 结合rpa和ai的数据采集方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106612261A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 网站数据获取方法、装置及系统 |
CN107689951A (zh) * | 2017-07-26 | 2018-02-13 | 上海壹账通金融科技有限公司 | 网页数据爬取方法、装置、用户终端及可读存储介质 |
CN107948052A (zh) * | 2017-11-14 | 2018-04-20 | 福建中金在线信息科技有限公司 | 信息爬取方法、装置、电子设备和系统 |
CN108090091A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 网页爬取方法和装置 |
US20180276302A1 (en) * | 2017-03-24 | 2018-09-27 | Sap Portals Israel Ltd. | Search provider selection using statistical characterizations |
-
2019
- 2019-09-30 CN CN201910943349.1A patent/CN110677423A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106612261A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 网站数据获取方法、装置及系统 |
CN108090091A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 网页爬取方法和装置 |
US20180276302A1 (en) * | 2017-03-24 | 2018-09-27 | Sap Portals Israel Ltd. | Search provider selection using statistical characterizations |
CN107689951A (zh) * | 2017-07-26 | 2018-02-13 | 上海壹账通金融科技有限公司 | 网页数据爬取方法、装置、用户终端及可读存储介质 |
CN107948052A (zh) * | 2017-11-14 | 2018-04-20 | 福建中金在线信息科技有限公司 | 信息爬取方法、装置、电子设备和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405033A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海环融联易信息科技服务有限公司 | 数据采集方法、装置、计算机设备及存储介质 |
CN111405033B (zh) * | 2020-03-13 | 2023-02-10 | 深圳前海环融联易信息科技服务有限公司 | 数据采集方法、装置、计算机设备及存储介质 |
CN112231663A (zh) * | 2020-03-31 | 2021-01-15 | 北京来也网络科技有限公司 | 结合rpa和ai的数据采集方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287682B (zh) | 一种登录方法、装置及系统 | |
CN108900559B (zh) | 登录凭证的管理方法、装置、计算机设备及存储介质 | |
CN111917773B (zh) | 业务数据处理方法、装置和服务器 | |
CN107196950B (zh) | 校验方法、装置及服务端 | |
CN109586969B (zh) | 内容分发网络容灾方法、装置、计算机设备及存储介质 | |
CN105991614B (zh) | 一种开放授权、资源访问的方法及装置、服务器 | |
CN104113533B (zh) | 登录授权方法和装置 | |
CN108965331B (zh) | 登录校验方法、装置和登录系统 | |
CN110198296B (zh) | 鉴权方法和装置、存储介质及电子装置 | |
CN105516135B (zh) | 用于账号登录的方法和装置 | |
CN110704566B (zh) | 基于地理位置的数据采集方法、装置、及计算机设备 | |
CN109842616B (zh) | 账号绑定方法、装置及服务器 | |
CN110798446B (zh) | 邮件批量授权方法、装置、计算机设备及存储介质 | |
CN112055017B (zh) | 单一账号多应用统一登录方法、装置及计算机设备 | |
CN106656455B (zh) | 一种网站访问方法及装置 | |
CN110708335A (zh) | 访问认证方法、装置及终端设备 | |
CN109726545B (zh) | 一种信息显示方法、设备、计算机可读存储介质和装置 | |
CN111880852A (zh) | 操作系统初始化方法、系统、计算机设备及存储介质 | |
CN105357110A (zh) | 邮件发送方法、装置及系统 | |
CN108076077A (zh) | 一种会话控制方法及装置 | |
CN110677423A (zh) | 基于客户代理端的数据采集方法、装置、及计算机设备 | |
CN113360868A (zh) | 应用程序登录方法、装置、计算机设备和存储介质 | |
CN110691091A (zh) | 基于身份认证的数据采集方法、装置、及计算机设备 | |
CN111585954A (zh) | 鉴权方法、装置、计算机设备及存储介质 | |
CN111988262B (zh) | 认证方法、装置及服务器、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |
|
RJ01 | Rejection of invention patent application after publication |