CN111083136A - 账号资源管理装置、方法及数据采集系统、方法 - Google Patents

账号资源管理装置、方法及数据采集系统、方法 Download PDF

Info

Publication number
CN111083136A
CN111083136A CN201911275230.8A CN201911275230A CN111083136A CN 111083136 A CN111083136 A CN 111083136A CN 201911275230 A CN201911275230 A CN 201911275230A CN 111083136 A CN111083136 A CN 111083136A
Authority
CN
China
Prior art keywords
account
login
resource management
task
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911275230.8A
Other languages
English (en)
Other versions
CN111083136B (zh
Inventor
苏萌
左云鹏
佘彬
陈煜东
李亚博
刘译璟
于帮付
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baifendian Information Science & Technology Co ltd
Original Assignee
Beijing Baifendian Information Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baifendian Information Science & Technology Co ltd filed Critical Beijing Baifendian Information Science & Technology Co ltd
Priority to CN201911275230.8A priority Critical patent/CN111083136B/zh
Publication of CN111083136A publication Critical patent/CN111083136A/zh
Application granted granted Critical
Publication of CN111083136B publication Critical patent/CN111083136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0815Network architectures or network communication protocols for network security for authentication of entities providing single-sign-on or federations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1023Server selection for load balancing based on a hash applied to IP addresses or costs

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及一种账号资源管理装置、方法及数据采集系统、方法。本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一账号登录模块与一下载解析服务节点对应且与一组登录IP对应,从而可以通过控制每个下载解析服务节点对应的登录IP分配,以实现控制多个下载解析服务节点的负载均衡。

Description

账号资源管理装置、方法及数据采集系统、方法
技术领域
本公开涉及数据采集技术领域,具体地,涉及一种账号资源管理装置、方法及数据采集系统、方法。
背景技术
当前互联网中由于存在大量恶意的、无视法律者滥用互联网抓取技术,从而使网站防御策略逐步升级。从而出现了IP与cookie相结合的拦截限制策略:通过验证游客用户、登录用户的Cookie是否经常变换访问IP,若是则对该IP该Cookie进行浏览拦截限制;验证单个IP是否被大量用户登录,并频繁浏览,若是则对该IP该用户进行浏览拦截限制。
上述IP与cookie相结合的拦截限制策略,使其站点无法通过很基本的、简单的爬虫程序来自动浏览公开内容,从而对一批滥用技术的人能够有效拦截,但同时也误伤了善用技术做正常分析的人。
发明内容
本公开的目的是提供一种账号资源管理装置、方法及数据采集系统、方法,以解决因IP与cookie相结合的拦截限制策略而受到浏览拦截限制。
为了实现上述目的,本公开实施例提供一种账号资源管理装置,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,其中,每一所述账号登录模块与一所述下载解析服务节点对应且与一组登录IP对应;
每一所述账号登录模块,用于获取登录IP与其对应的账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,每一所述账号资源包括账号的用户名、密码、登录IP和登录Header信息;
所述资源管理模块,用于从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列;
所述任务调度模块,用于从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点对应,以使所述下载解析服务节点能从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
可选地,所述资源管理模块,还用于对所述资源管理表内的登录后账号资源的使用次数进行标注,及在一所述登录后账号资源的使用次数达预设次数时,控制与该登录后账号资源的登录IP对应的所述账号登录模块对该登录后账号资源重新进行模拟登录。
可选地,所述资源管理模块,还用于接收多个所述下载解析服务节点发送的释放信号,并对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间。
可选地,所述资源管理模块,还用于接收多个所述下载解析服务节点发送的更新信号,并控制与所述更新信号指示的所述资源管理表内的登录后账号资源的登录IP对应的所述账号登录模块对该登录后账号资源重新进行模拟登录。
本公开实施例还提供一种数据采集系统,包括上述的账号资源管理装置和多个下载解析服务节点,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,每一所述下载解析服务节点与一所述账号登录模块、一所述任务队列及一组登录IP分别对应;
每一所述下载解析服务节点,用于从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
可选地,每一所述下载解析服务节点,还用于在所述任务包括翻页时,根据所述登录后账号资源执行翻页任务后发送所述登录后账号资源的释放信号。
本公开实施例还提供一种账号资源管理方法,应用于账号资源管理装置,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,其中,每一所述账号登录模块与一所述下载解析服务节点对应且与一组登录IP对应;
每一所述账号登录模块获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,所述账号资源包括账号的用户名、密码、登录IP和登录Header信息;
所述资源管理模块从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列;
所述任务调度模块从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点对应,以使所述下载解析服务节点能从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
本公开实施例还提供一种数据采集方法,应用于数据采集系统,所述数据采集系统包括账号资源管理装置和多个下载解析服务节点,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,每一所述账号登录模块与一所述下载解析服务节点对应且与一组登录IP对应;
每一所述账号登录模块获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,所述账号资源包括账号的用户名、密码、登录IP和登录Header信息;
所述资源管理模块从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列;
所述任务调度模块从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点对应;
每一所述下载解析服务节点从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现账号资源管理方法或数据采集方法的步骤。
本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现账号资源管理方法或数据采集方法的步骤。
本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一所述账号登录模块与一所述下载解析服务节点对应且与一组登录IP对应,每组登录IP对应的登录后账号资源及其分配的任务与一任务队列对应,每一所述任务队列与一所述下载解析服务节点对应,从而可以通过控制每个下载解析服务节点对应的登录IP分配,以控制多个所述下载解析服务节点的任务分配,以实现多个所述下载解析服务节点负载均衡。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种账号资源管理装置的框图。
图2是本公开实施例提供的一种数据采集装置的框图。
图3是本公开实施例提供的一种账号资源管理方法的流程图。
图4是本公开实施例提供的一种数据采集方法的流程图。
图5是本公开实施例提供的一种电子设备的框图。
图6是本公开实施例提供的另一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
请参阅图1,本公开实施例提供一种账号资源管理装置。所述账号资源管理装置包括:账号资源管理模块13、任务调度模块15和多个账号登录模块11。其中,每一所述账号登录模块11与一所述下载解析服务节点20对应且与一组登录IP对应。则每一所述账号登录模块11和每一所述下载解析服务节点20与同一组登录IP对应。
每一所述账号登录模块11,用于获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表。
每一所述账号资源包括账号的用户名、密码、登录IP和登录Header信息,即每一账号采用与该账号固定的登录IP、登录Header进行登录。所述账号资源可以存储在数据库中,例如存储在MySQL用户账号密码表中,则每一所述账号登录模块11可以从MySQL用户账号密码表中获取登录IP与其对应的账号资源进行模拟登录。
所述资源管理模块,用于从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列。
显而易见,对于模拟登录成功产生的且从未被任务调度模块15调度的登录后账号资源,其不需要冷却,即可认为冷却结束。对于被任务调度模块15调度且被下载解析服务节点20使用并释放后的登录后账号资源,其存在冷却时间,在达到冷却时间后,其可被认为冷却结束。
所述任务调度模块15,用于从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点20对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点20对应,以使所述下载解析服务节点20能从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
其中,任务队列组可以为Redis队列,该Redis队列是由多个任务队列构成,每个任务队列与一所述下载解析服务节点20对应。所述任务可以为采集微博数据等。
本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一所述账号登录模块11与一所述下载解析服务节点20对应且与一组登录IP对应,每组登录IP对应的登录后账号资源及其分配的任务与一任务队列对应,每一所述任务队列与一所述下载解析服务节点20对应,从而可以通过控制每个下载解析服务节点20对应的登录IP分配,以控制多个所述下载解析服务节点20的任务分配,以实现多个所述下载解析服务节点20负载均衡。
可选地,所述资源管理模块,还用于对所述资源管理表内的登录后账号资源的使用次数进行标注,及在一所述登录后账号资源的使用次数达预设次数时,控制与该登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
其中,登录后账号资源从被所述任务调度模块15调度至被所述下载解析服务节点20使用后释放,其使用次数为一次。预设次数可以根据下载解析服务节点20访问的站点特性、经验等灵活设置,在此不做限制,例如,所述预设次数可以为1024次。通过上述技术方案,对于使用次数达预设次数的登录后账号资源,可以使用所述账号登录模块11对其重新进行模拟登录,以重新生成Cookie信息,达到更新的目的。
可选地,所述资源管理模块,还用于接收多个所述下载解析服务节点20发送的释放信号,并对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间。
对于能正常使用的登录后账号资源,下载解析服务节点20使用完后会发送释放信号,所述资源管理模块接收到该释放信号后,会对所述资源管理表内的该登录后账号资源设置冷却时间,在达到冷却时间后,该登录后账号资源才会被重新加入资源管理模块的内部队列中。冷却时间可以根据下载解析服务节点20访问的站点特性、经验等灵活设置,例如可以为30秒至50秒中的任何一个,在此不作限制。
可选地,所述资源管理模块,还用于接收多个所述下载解析服务节点20发送的更新信号,并控制与所述更新信号指示的所述资源管理表内的登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
对于不能正常使用的登录后账号资源,下载解析服务节点20会发送更新信号,所述资源管理模块接收到该更新信号后,会控制对应的账号登录模块11对该登录后账号资源重新进行模拟登录,以重新生成Cookie信息,并将重新生成的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,达到更新的目的。
可选地,所述资源管理模块,还用于将所述资源管理表内的对被所述任务调度模块15调度的登录后账号资源标注为使用中。
通过上述技术方案,在资源管理表内将被所述任务调度模块15调度的登录后账号资源标注为使用中,可以防止资源管理表内的登录后账号资源被重复使用。
基于上述发明构思,本公开实施例还提供一种数据采集系统1。如图2所示,所述数据采集系统1包括账号资源管理装置和多个下载解析服务节点20。所述账号资源管理装置包括:账号资源管理模块13、任务调度模块15和多个账号登录模块11。其中,每一所述下载解析服务节点20与一所述账号登录模块11、一所述任务队列及一组登录IP分别对应。
每一所述账号登录模块11,用于获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表。
每一所述账号资源包括账号的用户名、密码、登录IP和登录Header信息,即每一账号采用与该账号固定的登录IP、登录Header进行登录。所述账号资源可以存储在数据库中,例如存储在MySQL用户账号密码表中,则每一所述账号登录模块11可以从MySQL用户账号密码表中获取登录IP与其对应的账号资源进行模拟登录。
所述资源管理模块,用于从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列。
显而易见,对于模拟登录成功产生的且从未被任务调度模块15调度的登录后账号资源,其不需要冷却,即可认为冷却结束。对于被任务调度模块15调度且被下载解析服务节点20使用并释放后的登录后账号资源,其存在冷却时间,在达到冷却时间后,其可被认为冷却结束。
所述任务调度模块15,用于从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点20对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点20对应。
其中,任务队列组可以为Redis队列,该Redis队列是由多个任务队列构成,每个任务队列与一所述下载解析服务节点20对应。
每一所述下载解析服务节点20,用于从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
所述下载解析服务节点20可以是具备数据处理能力的计算机设备,其上可以使用多个外网IP(即与其对应的一组登录IP)。所述任务可以为采集微博数据等。所述下载解析服务节点20读取与其对应的任务队列,获取任务,及获取到浏览(执行任务)时所用的包括在登录后账号资源内的Cookie信息和登录Header信息。所述下载解析服务节点20的抓取服务进行下载、解析后会根据浏览请求更新Cookie信息,更新后的Cookie信息可以发送至资源管理模块,资源管理模块再将更新后的Cookie信息替代所述资源管理表内的登录后账号资源的Cookie信息,即资源管理模块将所述资源管理表内的对应的登录后账号资源的Cookie信息更新。
本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一所述账号登录模块11与一所述下载解析服务节点20对应且与一组登录IP对应,每组登录IP对应的登录后账号资源及其分配的任务与一任务队列对应,每一所述任务队列与一所述下载解析服务节点20对应,从而可以通过控制每个下载解析服务节点20对应的登录IP分配,以控制多个所述下载解析服务节点20的任务分配,以实现多个所述下载解析服务节点20负载均衡。
可选地,所述资源管理模块,还用于对所述资源管理表内的登录后账号资源的使用次数进行标注,及在一所述登录后账号资源的使用次数达预设次数时,控制与该登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
其中,登录后账号资源从被所述任务调度模块15调度至被所述下载解析服务节点20使用后释放,其使用次数为一次。预设次数可以根据下载解析服务节点20访问的站点特性、经验等灵活设置,在此不做限制,例如,所述预设次数可以为1024次。通过上述技术方案,对于使用次数达预设次数的登录后账号资源,可以使用所述账号登录模块11对其重新进行模拟登录,以重新生成Cookie信息,达到更新的目的。
可选地,所述下载解析服务节点20还用于在执行所述任务后且判断所述登录后账号资源有效时,发送释放信号至所述资源管理模块。所述资源管理模块,还用于接收多个所述下载解析服务节点20发送的释放信号,并对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间。
所述下载解析服务节点20还用于在执行所述任务后,无论执行失败或成功,均会判断所述登录后账号资源是否有效,当所述登录后账号资源为登录状态时,判断其有效,还能正常使用。对于能正常使用的登录后账号资源,下载解析服务节点20使用完后会发送释放信号,所述资源管理模块接收到该释放信号后,会对所述资源管理表内的该登录后账号资源设置冷却时间,在达到冷却时间后,该登录后账号资源才会被重新加入资源管理模块的内部队列中。冷却时间可以根据下载解析服务节点20访问的站点特性、经验等灵活设置,例如可以为30秒至50秒中的任何一个,在此不作限制。
可选地,所述下载解析服务节点20还用于在执行所述任务后且判断所述登录后账号资源无效时,发送更新信号至所述资源管理模块。所述资源管理模块,还用于接收多个所述下载解析服务节点20发送的更新信号,并控制与所述更新信号指示的所述资源管理表内的登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
所述下载解析服务节点20还用于在执行所述任务后,无论执行失败或成功,均会判断所述登录后账号资源是否有效,当所述登录后账号资源为未登录状态时,判断其无效,不能再次使用,需要更新后使用。对于不能正常使用的登录后账号资源,下载解析服务节点20使用完后会发送更新信号,所述资源管理模块接收到该更新信号后,会控制对应的账号登录模块11对该登录后账号资源重新进行模拟登录,以重新生成Cookie信息,并将重新生成的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,达到更新的目的。
可选地,所述资源管理模块,还用于将所述资源管理表内的对被所述任务调度模块15调度的登录后账号资源标注为使用中。
通过上述技术方案,在资源管理表内将被所述任务调度模块15调度的登录后账号资源标注为使用中,可以防止资源管理表内的登录后账号资源被重复使用。
可选地,每一所述下载解析服务节点20,还用于在所述任务包括翻页时,根据所述登录后账号资源执行翻页任务后发送所述登录后账号资源的释放信号。
通过上述技术方案,下载解析服务节点20会根据任务的类型比如评论的翻页任务会使用该登录后账号资源执行下一页的模拟请求,这样尽可能模拟账号在同一个机器进行单次会话可能的操作。翻页结束后再发送释放信号通知资源管理模块对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间,以使该登录后账号资源进入冷却。相关技术中,通过高频率采集第一页的方法来获取(微博)内容,容易出现话题太火,发帖人较多而采集频率跟不上(有些内容在采集前被顶到第一页以后的第二页、第三页等情况)导致的内容漏采问题。因而,与通过高频率采集第一页的方法相比,本公开实施例提供的下载解析服务节点20会根据翻页任务使用该登录后账号资源执行下一页的模拟请求,以采集第一页以后的内容,避免漏采问题。
在多个下载解析服务节点20执行完任务,例如采集数据后,可以通过Kafka消息队列,汇总至结果输出服务进行输出。
为了更加合理的控制被抓网站访问量,使目标网站体验更好,避免因数据采集导致对方网站负载过大。文明上网,更加有素质的获取网站数据。可选地,所述数据采集系统1还包括流量服务器,用于控制每一所述下载解析服务节点20的抓取频率,以控制所述下载解析服务节点20在单位时间访问目标网站的次数。可选地,所述下载解析服务节点20还用于错开目标网站的高峰时段执行所述任务。所述目标网站的高峰时段为目标网站的用户访问量较大的时段。
基于上述发明构思,本公开实施例还提供一种账号资源管理方法,应用于上述的账号资源管理装置。图3是根据本公开一实施例示出的一种账号资源管理方法的流程图。如图3所示,该方法包括以下步骤:
步骤S11,每一所述账号登录模块11获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表。
其中,所述账号资源包括账号的用户名、密码、登录IP和登录Header信息。
步骤S13,所述资源管理模块从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列。
步骤S15,所述任务调度模块15从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点20对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列。
其中,每一所述任务队列与一所述下载解析服务节点20对应,以使所述下载解析服务节点20能从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一所述账号登录模块11与一所述下载解析服务节点20对应且与一组登录IP对应,每组登录IP对应的登录后账号资源及其分配的任务与一任务队列对应,每一所述任务队列与一所述下载解析服务节点20对应,从而可以通过控制每个下载解析服务节点20对应的登录IP分配,以控制多个所述下载解析服务节点20的任务分配,以实现多个所述下载解析服务节点20负载均衡。
可选地,所述方法还包括:所述资源管理模块对所述资源管理表内的登录后账号资源的使用次数进行标注,及在一所述登录后账号资源的使用次数达预设次数时,控制与该登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
其中,登录后账号资源从被所述任务调度模块15调度至被所述下载解析服务节点20使用后释放,其使用次数为一次。预设次数可以根据下载解析服务节点20访问的站点特性、经验等灵活设置,在此不做限制,例如,所述预设次数可以为1024次。通过上述技术方案,对于使用次数达预设次数的登录后账号资源,可以使用所述账号登录模块11对其重新进行模拟登录,以重新生成Cookie信息,达到更新的目的。
可选地,所述方法还包括:所述资源管理模块接收多个所述下载解析服务节点20发送的释放信号,并对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间。
对于能正常使用的登录后账号资源,下载解析服务节点20使用完后会发送释放信号,所述资源管理模块接收到该释放信号后,会对所述资源管理表内的该登录后账号资源设置冷却时间,在达到冷却时间后,该登录后账号资源才会被重新加入资源管理模块的内部队列中。冷却时间可以根据下载解析服务节点20访问的站点特性、经验等灵活设置,例如可以为30秒至50秒中的任何一个,在此不作限制。
可选地,所述方法还包括:所述资源管理模块接收多个所述下载解析服务节点20发送的更新信号,并控制与所述更新信号指示的所述资源管理表内的登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
对于不能正常使用的登录后账号资源,下载解析服务节点20会发送更新信号,所述资源管理模块接收到该更新信号后,会控制对应的账号登录模块11对该登录后账号资源重新进行模拟登录,以重新生成Cookie信息,并将重新生成的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,达到更新的目的。
可选地,所述方法还包括:所述资源管理模块将所述资源管理表内的对被所述任务调度模块15调度的登录后账号资源标注为使用中。
通过上述技术方案,在资源管理表内将被所述任务调度模块15调度的登录后账号资源标注为使用中,可以防止资源管理表内的登录后账号资源被重复使用。
关于上述实施例中的方法,其中各个步骤的具体实现方式可以参考账号资源管理装置的详细描述,此处将不做详细阐述说明。
基于上述发明构思,本公开实施例还提供一种数据采集方法,应用于上述数据采集系统1。图4是根据本公开一实施例示出的一种数据采集方法的流程图。如图4所示,该方法包括以下步骤:
步骤S11,每一所述账号登录模块11获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表。
其中,所述账号资源包括账号的用户名、密码、登录IP和登录Header信息。
步骤S13,所述资源管理模块从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列。
步骤S15,所述任务调度模块15从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点20对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列。
其中,每一所述任务队列与一所述下载解析服务节点20对应。
步骤S17,每一所述下载解析服务节点20从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一所述账号登录模块11与一所述下载解析服务节点20对应且与一组登录IP对应,每组登录IP对应的登录后账号资源及其分配的任务与一任务队列对应,每一所述任务队列与一所述下载解析服务节点20对应,从而可以通过控制每个下载解析服务节点20对应的登录IP分配,以控制多个所述下载解析服务节点20的任务分配,以实现多个所述下载解析服务节点20负载均衡。
可选地,所述方法还包括:所述资源管理模块对所述资源管理表内的登录后账号资源的使用次数进行标注,及在一所述登录后账号资源的使用次数达预设次数时,控制与该登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
可选地,所述方法还包括:所述下载解析服务节点20在执行所述任务后且判断所述登录后账号资源有效时,发送释放信号至所述资源管理模块。所述资源管理模块接收多个所述下载解析服务节点20发送的释放信号,并对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间。
可选地,所述方法还包括:所述下载解析服务节点20在执行所述任务后且判断所述登录后账号资源无效时,发送更新信号至所述资源管理模块。所述资源管理模块接收多个所述下载解析服务节点20发送的更新信号,并控制与所述更新信号指示的所述资源管理表内的登录后账号资源的登录IP对应的所述账号登录模块11对该登录后账号资源重新进行模拟登录。
可选地,所述方法还包括:所述资源管理模块于将所述资源管理表内的对被所述任务调度模块15调度的登录后账号资源标注为使用中。
通过上述技术方案,在资源管理表内将被所述任务调度模块15调度的登录后账号资源标注为使用中,可以防止资源管理表内的登录后账号资源被重复使用。
可选地,所述方法还包括:每一所述下载解析服务节点20在所述任务包括翻页时,根据所述登录后账号资源执行翻页任务后发送所述登录后账号资源的释放信号。
通过上述技术方案,下载解析服务节点20会根据任务的类型比如评论的翻页任务会使用该登录后账号资源执行下一页的模拟请求,这样尽可能模拟账号在同一个机器进行单次会话可能的操作。翻页结束后再发送释放信号通知资源管理模块对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间,以使该登录后账号资源进入冷却。相关技术中,通过高频率采集第一页的方法来获取(微博)内容,容易出现话题太火,发帖人较多而采集频率跟不上(有些内容在采集前被顶到第一页以后的第二页、第三页等情况)导致的内容漏采问题。因而,与通过高频率采集第一页的方法相比,本公开实施例提供的下载解析服务节点20会根据翻页任务使用该登录后账号资源执行下一页的模拟请求,以采集第一页以后的内容,避免漏采问题。
在多个下载解析服务节点20执行完任务,例如采集数据后,可以通过Kafka消息队列,汇总至结果输出服务进行输出。
为了更加合理的控制被抓网站访问量,使目标网站体验更好,避免因数据采集导致对方网站负载过大。文明上网,更加有素质的获取网站数据。可选地,所述数据采集系统1还包括流量服务器,所述方法还包括:所述流量服务器控制每一所述下载解析服务节点20的抓取频率,以控制所述下载解析服务节点20在单位时间访问目标网站的次数。可选地,所述方法还包括:所述下载解析服务节点20错开目标网站的高峰时段执行所述任务。所述目标网站的高峰时段为目标网站的用户访问量较大的时段。
关于上述实施例中的方法,其中各个步骤的具体实现方式可以参考数据采集系统1的详细描述,此处将不做详细阐述说明。
基于上述发明构思,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述账号资源管理方法或数据采集方法中的步骤。
图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的账号资源管理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的账号资源管理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的账号资源管理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的账号资源管理方法。
图6是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图6,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的数据采集方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据采集方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的数据采集方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的数据采集方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种账号资源管理装置,其特征在于,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,其中,每一所述账号登录模块与一所述下载解析服务节点对应且与一组登录IP对应;
每一所述账号登录模块,用于获取登录IP与其对应的账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,每一所述账号资源包括账号的用户名、密码、登录IP和登录Header信息;
所述资源管理模块,用于从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列;
所述任务调度模块,用于从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点对应,以使所述下载解析服务节点能从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
2.根据权利要求1所述的账号资源管理装置,其特征在于,所述资源管理模块,还用于对所述资源管理表内的登录后账号资源的使用次数进行标注,及在一所述登录后账号资源的使用次数达预设次数时,控制与该登录后账号资源的登录IP对应的所述账号登录模块对该登录后账号资源重新进行模拟登录。
3.根据权利要求1所述的账号资源管理装置,其特征在于,所述资源管理模块,还用于接收多个所述下载解析服务节点发送的释放信号,并对所述释放信号指示的所述资源管理表内的登录后账号资源设置冷却时间。
4.根据权利要求1所述的账号资源管理装置,其特征在于,所述资源管理模块,还用于接收多个所述下载解析服务节点发送的更新信号,并控制与所述更新信号指示的所述资源管理表内的登录后账号资源的登录IP对应的所述账号登录模块对该登录后账号资源重新进行模拟登录。
5.一种数据采集系统,其特征在于,包括权利要求1-4任一项所述的账号资源管理装置和多个下载解析服务节点,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,每一所述下载解析服务节点与一所述账号登录模块、一所述任务队列及一组登录IP分别对应;
每一所述下载解析服务节点,用于从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
6.根据权利要求5所述的数据采集系统,其特征在于,每一所述下载解析服务节点,还用于在所述任务包括翻页时,根据所述登录后账号资源执行翻页任务后发送所述登录后账号资源的释放信号。
7.一种账号资源管理方法,其特征在于,应用于账号资源管理装置,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,其中,每一所述账号登录模块与一所述下载解析服务节点对应且与一组登录IP对应;
每一所述账号登录模块获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,所述账号资源包括账号的用户名、密码、登录IP和登录Header信息;
所述资源管理模块从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列;
所述任务调度模块从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点对应,以使所述下载解析服务节点能从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
8.一种数据采集方法,其特征在于,应用于数据采集系统,所述数据采集系统包括账号资源管理装置和多个下载解析服务节点,所述账号资源管理装置包括:账号资源管理模块、任务调度模块和多个账号登录模块,每一所述账号登录模块与一所述下载解析服务节点对应且与一组登录IP对应;
每一所述账号登录模块获取登录IP与其对应的每一账号资源进行模拟登录,得到每一所述账号资源登录成功的Cookie信息,将每一所述账号资源的Cookie信息、登录IP和登录Header信息作为登录后账号资源存储至资源管理表,所述账号资源包括账号的用户名、密码、登录IP和登录Header信息;
所述资源管理模块从所述资源管理表中获取冷却结束的登录后账号资源并存储至内部队列;
所述任务调度模块从所述资源管理模块的内部队列获取多个所述登录后账号资源,及将多个所述登录后账号资源划分为多组,每一组所述登录后账号资源的登录IP均与一所述下载解析服务节点对应,获取任务并将所述任务分配到每一所述登录后账号资源,将每组所述登录后账号资源及其分配的任务发送至任务队列组的一任务队列,每一所述任务队列与一所述下载解析服务节点对应;
每一所述下载解析服务节点从与其对应的任务队列中获取任务和登录后账号资源,及根据所述登录后账号资源执行所述任务。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
CN201911275230.8A 2019-12-12 2019-12-12 账号资源管理装置、方法及数据采集系统、方法 Active CN111083136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911275230.8A CN111083136B (zh) 2019-12-12 2019-12-12 账号资源管理装置、方法及数据采集系统、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911275230.8A CN111083136B (zh) 2019-12-12 2019-12-12 账号资源管理装置、方法及数据采集系统、方法

Publications (2)

Publication Number Publication Date
CN111083136A true CN111083136A (zh) 2020-04-28
CN111083136B CN111083136B (zh) 2022-03-08

Family

ID=70314194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911275230.8A Active CN111083136B (zh) 2019-12-12 2019-12-12 账号资源管理装置、方法及数据采集系统、方法

Country Status (1)

Country Link
CN (1) CN111083136B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586054A (zh) * 2020-05-09 2020-08-25 山东健康医疗大数据有限公司 一种基于互联网架构的单点登录实现方法
CN111711617A (zh) * 2020-05-29 2020-09-25 北京金山云网络技术有限公司 网络爬虫的检测方法、装置、电子设备及存储介质
CN116436969A (zh) * 2023-06-15 2023-07-14 北京世冠金洋科技发展有限公司 一种人工智能引擎代理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
WO2016053499A1 (en) * 2014-09-29 2016-04-07 Cisco Technology, Inc. Network embedded framework for distributed network analytics
CN105550280A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 登录类型网站的数据采集系统
CN105721440A (zh) * 2016-01-21 2016-06-29 成都索贝数码科技股份有限公司 一种媒体内容业务流程集成管控应用云平台的使用方法
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
WO2018075803A1 (en) * 2016-10-19 2018-04-26 Relola, Inc. Collecting and providing customized user generated content across networks based on domain
CN109039776A (zh) * 2018-09-12 2018-12-18 北京信安世纪科技股份有限公司 通过模拟http请求实现多系统的统一账号管理系统
CN109933701A (zh) * 2019-03-08 2019-06-25 四川大学 一种基于多策略融合的微博数据获取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
WO2016053499A1 (en) * 2014-09-29 2016-04-07 Cisco Technology, Inc. Network embedded framework for distributed network analytics
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN105550280A (zh) * 2015-12-10 2016-05-04 天津海量信息技术有限公司 登录类型网站的数据采集系统
CN105721440A (zh) * 2016-01-21 2016-06-29 成都索贝数码科技股份有限公司 一种媒体内容业务流程集成管控应用云平台的使用方法
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
WO2018075803A1 (en) * 2016-10-19 2018-04-26 Relola, Inc. Collecting and providing customized user generated content across networks based on domain
CN109039776A (zh) * 2018-09-12 2018-12-18 北京信安世纪科技股份有限公司 通过模拟http请求实现多系统的统一账号管理系统
CN109933701A (zh) * 2019-03-08 2019-06-25 四川大学 一种基于多策略融合的微博数据获取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢体广: ""微博舆情系统中数据采集技术研究"", 《万方》 *
孙青云: ""一种基于模拟登录的微博数据采集方案"", 《万方》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586054A (zh) * 2020-05-09 2020-08-25 山东健康医疗大数据有限公司 一种基于互联网架构的单点登录实现方法
CN111711617A (zh) * 2020-05-29 2020-09-25 北京金山云网络技术有限公司 网络爬虫的检测方法、装置、电子设备及存储介质
CN116436969A (zh) * 2023-06-15 2023-07-14 北京世冠金洋科技发展有限公司 一种人工智能引擎代理方法及装置
CN116436969B (zh) * 2023-06-15 2023-09-26 北京世冠金洋科技发展有限公司 一种人工智能引擎代理方法及装置

Also Published As

Publication number Publication date
CN111083136B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN111083136B (zh) 账号资源管理装置、方法及数据采集系统、方法
US11206451B2 (en) Information interception processing method, terminal, and computer storage medium
KR101609124B1 (ko) 모바일 네트워크 환경에서 행위기반 분석 서비스 제공 방법 및 장치
CN110493184B (zh) 在客户端中登录页面的处理方法、装置、电子装置
CN105611422B (zh) 基于多媒体榜单的在线直播方法及装置
CN110557290B (zh) 网络加速服务的处理方法及装置
CN111262839A (zh) 一种漏洞扫描方法、管理设备、节点和存储介质
CN110855772B (zh) 跨设备数据存储方法、系统、装置、设备、服务器及介质
CN109618176B (zh) 一种直播业务的处理方法、设备和存储介质
CN104580192A (zh) 应用程序的网络访问请求的处理方法和装置
CN109635550B (zh) 集群数据的权限校验方法、网关及系统
US20140214921A1 (en) System and method for identification of an application executed on a mobile device
WO2013071841A1 (zh) 一种监控移动设备的应用程序的方法和系统
KR20200023485A (ko) 프록시 기반 네트워크 통신들에서의 제어 데이터의 전송
JP2015524967A (ja) 端末間でソフトウェアを共有する方法、装置、及びシステム
CN109964469A (zh) 用于在网络节点处更新白名单的方法和系统
CN110198333B (zh) 数据获取方法和装置、存储介质及电子装置
CN104618388B (zh) 快速注册登录方法及对应的重置服务器、信息服务器
CN113424155A (zh) 预测性微服务系统和方法
US20220278935A1 (en) Systems and methods for determining a policy that allocates traffic associated with a network protocol type to a network slice
CN106161396A (zh) 一种实现虚拟机网络访问控制的方法及装置
CN107196954A (zh) 一种服务访问方法、装置及系统
CN110430084A (zh) 节点状态监控方法及装置
US20170134177A1 (en) Charging method and device, access device, service quality control method and device
CN105491406A (zh) 一种视频分享装置、方法、系统和便携式设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No.27, 1st floor, building 14, Haidian Road, zhongjiancai District, Beijing 100096

Applicant after: Beijing PERCENT Technology Group Co.,Ltd.

Address before: No.27, 1st floor, building 14, Haidian Road, zhongjiancai District, Beijing 100096

Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant