CN112667901A - 一种社交媒体数据的获取方法及系统 - Google Patents

一种社交媒体数据的获取方法及系统 Download PDF

Info

Publication number
CN112667901A
CN112667901A CN202011629590.6A CN202011629590A CN112667901A CN 112667901 A CN112667901 A CN 112667901A CN 202011629590 A CN202011629590 A CN 202011629590A CN 112667901 A CN112667901 A CN 112667901A
Authority
CN
China
Prior art keywords
node
task
acquisition
executed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011629590.6A
Other languages
English (en)
Other versions
CN112667901B (zh
Inventor
刘金
杨嘉佳
唐球
徐睿
张雷
田晓娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
6th Research Institute of China Electronics Corp
Original Assignee
6th Research Institute of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 6th Research Institute of China Electronics Corp filed Critical 6th Research Institute of China Electronics Corp
Priority to CN202011629590.6A priority Critical patent/CN112667901B/zh
Publication of CN112667901A publication Critical patent/CN112667901A/zh
Application granted granted Critical
Publication of CN112667901B publication Critical patent/CN112667901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种社交媒体数据的获取方法及系统,包括:由主控节点获取待执行主任务,并对待执行主任务分别进行拆分、聚类以及聚合处理,生成目标子任务;主控节点将目标子任务放到任务池中,并标注任务状态;由从属节点中的虚拟采集节点从任务池中抓取执行优先级最高的目标子任务,以及申请执行任务所必要的资源,并将获取结果返回给主控节点;由主控节点对获取结果进行存取及可视化。这样,本申请通过对任务进行包括拆分、聚类及聚合在内的降维、优化处理,优化了任务执行过程,降低了执行任务的数量,通过虚拟采集节点自主抓取任务,使得主控节点无需提前配置及获取虚拟采集节点的数量及状态,从而可以有效的提高数据获取速度和效率。

Description

一种社交媒体数据的获取方法及系统
技术领域
本申请涉及数据获取技术领域,尤其是涉及一种社交媒体数据的获取方法及系统。
背景技术
伴随着新兴5G网络、人工智能等互联网技术的兴起,媒体进入了“自媒体”时代,人与人之间的社交也形成了“人人互联,人人互通”的新局面。因此,社交网络通道已经成为了大家了解民情民意,合理接收、转化大众诉求、企业产品广告营销、推广的重要渠道。然而基于我国庞大的网民数量、产生的海量社交数据,现有的数据获取系统在数据获取的过程中面临着数据无差别获取等诸多问题,造成了资源的极大浪费,同时也严重制约了数据获取效率的进一步提升。因此如何提高数据的获取效率是亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种社交媒体数据的获取方法及系统,通过对任务进行包括拆分、聚类及聚合在内的降维、优化处理,优化了任务执行过程,降低了执行任务的数量,通过从属节点中的虚拟采集节点自主抓取任务,使得主控节点无需提前配置及获取虚拟采集节点的数量及状态,从而在对社交媒体数据进行获取时,可以有效的提高获取速度和效率。
本申请实施例提供了一种社交媒体数据的获取方法,所述获取方法包括:
由主控节点获取用户端发送的至少一个待执行主任务;
针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;
由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;
由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;
由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;
由所述主控节点对所述获取结果进行存取以及可视化。
进一步的,所述针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务,包括:
针对于每个待执行主任务,由所述主控节点将所述待执行主任务拆分为关键词和网页链接中的至少一个,得到所述待执行主任务对应的至少一个待执行子任务;
由所述主控节点确定每个待执行子任务的获取数据的社交媒体;
由所述主控节点对至少一个待执行子任务进行去冗、降维、聚类处理,将获取数据的社交媒体相同的待执行子任务,划分为同一待执行小组;
针对于每个待执行小组,由主控节点确定所述待执行小组中每个待执行子任务的采集要素;
由所述主控节点对所述待执行小组中的每个待执行子任务进行聚合处理,将所述待执行小组中所述采集要素相同的待执行子任务合并为同一目标子任务,得到至少一个目标子任务。
进一步的,通过以下步骤确定目标子任务的执行优先级:
由所述主控节点获取每个目标子任务的创建时间、预设执行时间以及预设执行顺序;
由所述主控节点基于每个目标子任务的创建时间、预设执行时间以及预设执行顺序,确定每个目标子任务的执行优先级。
进一步的,在由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源之前,所述获取方法还包括:
由任意一个从属节点中的虚拟采集节点获取自身的运行状态信息,其中,所述运行状态信息包括所述从属节点中的虚拟采集节点的硬件运行状态以及软件运行状态中的至少一种。
进一步的,所述由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源,包括:
由所述从属节点中的虚拟采集节点去所述任务池中抓取执行优先级最高的目标子任务;
由所述从属节点中的虚拟采集节点确定所述目标子任务的获取内容以及获取数量;
基于所述目标子任务的获取内容以及获取数量,由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源。
进一步的,在由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务之后,所述获取方法还包括:
由所述主控节点接收所述从属节点中的虚拟采集节点反馈的已经抓取目标子任务的通知;
所述主控节点根据所述通知将所述目标子任务的任务状态由所述第一执行状态更改为第二执行状态,并重新确定所述任务池中任务状态为第一执行状态的目标子任务的执行优先级。
进一步的,在由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点之后,所述获取方法还包括:
由所述主控节点对接收所述从属节点中的虚拟采集节点反馈的获取结果进行分析;
当所述主控节点确定所述获取结果指示所述目标子任务执行失败时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的执行失败原因,基于所述执行失败原因,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第一执行状态或由所述主控节点将所述目标子任务删除;
当所述主控节点确定所述获取结果指示所述目标子任务执行成功时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的获取数据,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第三执行状态。
进一步的,所述获取方法还包括:
由主控节点实时监测所述任务池中各个目标子任务的任务状态,以使从属节点以及从属节点中的虚拟采集节点的数量被调整;
由主控节点实时监测各个从属节点的运行状态,以使从属节点中的目标子任务被调整。
本申请实施例还提供了一种社交媒体数据的获取系统,所述获取系统包括:
主任务获取模块,用于由主控节点获取用户端发送的至少一个待执行主任务;
子任务确定模块,用于针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;
状态更改模块,用于由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;
子任务抓取模块,用于由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;
结果反馈模块,用于由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;
结果展示模块,用于由所述主控节点对所述获取结果进行存取以及可视化。
进一步的,所述子任务确定模块包括:
拆分单元,用于针对于每个待执行主任务,由所述主控节点将所述待执行主任务拆分为关键词和网页链接中的至少一个,得到所述待执行主任务对应的至少一个待执行子任务;
聚类单元,用于由所述主控节点确定每个待执行子任务的获取数据的社交媒体,由所述主控节点对至少一个待执行子任务进行去冗、降维、聚类处理,将获取数据的社交媒体相同的待执行子任务,划分为同一待执行小组;
聚合单元,用于针对于每个待执行小组,由主控节点确定所述待执行小组中每个待执行子任务的采集要素,由所述主控节点对所述待执行小组中的每个待执行子任务进行聚合处理,将所述待执行小组中所述采集要素相同的待执行子任务合并为同一目标子任务,得到至少一个目标子任务。
进一步的,所述子任务抓取模块用于通过以下步骤确定目标子任务的执行优先级:
由所述主控节点获取每个目标子任务的创建时间、预设执行时间以及预设执行顺序;
由所述主控节点基于每个目标子任务的创建时间、预设执行时间以及预设执行顺序,确定每个目标子任务的执行优先级。
进一步的,所述获取系统还包括状态确认模块,所述状态确认模块用于:
由任意一个从属节点中的虚拟采集节点获取自身的运行状态信息,其中,所述运行状态信息包括所述从属节点中的虚拟采集节点的硬件运行状态以及软件运行状态中的至少一种。
进一步的,所述子任务抓取模块在用于由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源时,所述子任务抓取模块用于:
由所述从属节点中的虚拟采集节点去所述任务池中抓取执行优先级最高的目标子任务;
由所述从属节点中的虚拟采集节点确定所述目标子任务的获取内容以及获取数量;
基于所述目标子任务的获取内容以及获取数量,由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源。
进一步的,所述获取系统还包括任务通知模块,所述任务通知模块用于:
由所述主控节点接收所述从属节点中的虚拟采集节点反馈的已经抓取目标子任务的通知;
所述主控节点根据所述通知将所述目标子任务的任务状态由所述第一执行状态更改为第二执行状态,并重新确定所述任务池中任务状态为第一执行状态的目标子任务的执行优先级。
进一步的,所述获取系统还包括结果分析模块,所述结果分析模块用于:
由所述主控节点对接收所述从属节点中的虚拟采集节点反馈的获取结果进行分析;
当所述主控节点确定所述获取结果指示所述目标子任务执行失败时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的执行失败原因,基于所述执行失败原因,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第一执行状态或由所述主控节点将所述目标子任务删除;
当所述主控节点确定所述获取结果指示所述目标子任务执行成功时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的获取数据,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第三执行状态。
进一步的,所述获取系统还包括扩展模块,所述扩展模块用于:
由主控节点实时监测所述任务池中的各个目标子任务的任务状态,以使从属节点以及从属节点中的虚拟采集节点的数量被调整;
由主控节点实时监测各个从属节点的运行状态,以使从属节点中的目标子任务被调整。
本申请实施例提供的社交媒体数据的获取方法及系统,由主控节点获取用户端发送的至少一个待执行主任务;针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;由所述主控节点对所述获取结果进行存取以及可视化。
这样,本申请通过对任务进行包括拆分、聚类及聚合在内的降维、优化处理,优化了任务执行过程,降低了执行任务的数量,通过从属节点中的虚拟采集节点自主抓取任务,使得主控节点无需提前配置及获取虚拟采集节点的数量及状态,从而在对社交媒体数据进行获取时,可以有效的提高获取速度和效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种社交媒体数据的获取方法的流程图;
图2为本申请中任务状态更改流程示意图;
图3为本申请中主控节点与从属节点信息交互流程图;
图4为本申请实施例所提供的一种社交媒体数据的获取系统的结构示意图之一;
图5为图4中所示的子任务确定模块的结构示意图;
图6为本申请实施例所提供的一种社交媒体数据的获取系统的结构示意图之二。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
基于此,本申请实施例提供了一种社交媒体数据的获取方法。
请参阅图1,图1为本申请实施例所提供的一种社交媒体数据的获取方法的流程图。如图1中所示,本申请实施例提供的社交媒体数据的获取方法,包括:
S101、由主控节点获取用户端发送的至少一个待执行主任务。
该步骤中,主控节点接收用户通过用户端下发的待执行主任务,所述待执行主任务的数量为至少一个。
这里,可通过以下步骤确定待执行主任务:用户根据自身需要获取的社交媒体数据预先设定一些要求,根据预设要求确定出具体的任务需求,用户依据确定出具体的任务需求配置对应的获取参数,用户将任务需求和对应的获取参数整合为统一的获取社交媒体数据的待执行主任务,并下发给主控节点。
这里,任务需求可以包括用户根据预先选定的获取数据的社交媒体,选择数据采集方式和采集要素,而且用户还可以对任务指定相应的优先级以及采集字段,获取参数为软件参数。
其中,社交媒体可以包括网站、论坛、博客在内的各种公开社交媒体,采集方式可以包括实时获取数据或者指定时间获取数据,采集要素可以包括输入关键词或网页链接,采集字段可以包括但不限于博文、图片、评论等内容。
示例的,用户端需要在某社交媒体采集100条博文,那么在进行数据获取时,需要配置相应的软件参数。
S102、针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务。
该步骤中,主控节点在接收到用户下发的待执行主任务,主控节点对接收到的主任务进行处理,主控节点按照采集社交媒体、采集内容、采集策略以及优先级等要素对待执行主任务进行拆分、聚类及聚合在内的降维、优化处理,生成至少一个目标子任务,然后将目标子任务编制任务队列,逐级放入任务池中。
这里,采集策略和待执行主任务对应的获取数据的社交媒体相对应,因为许多网站会制定自己的爬虫协议,限制爬虫访问,在遵守网站爬虫协议的同时,提高采集效率,采集时,会采用不同的方式。
进一步的,所述针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务,包括:针对于每个待执行主任务,由所述主控节点将所述待执行主任务拆分为关键词和网页链接中的至少一个,得到所述待执行主任务对应的至少一个待执行子任务;由所述主控节点确定每个待执行子任务的获取数据的社交媒体;由所述主控节点对至少一个待执行子任务进行去冗、降维、聚类处理,将获取数据的社交媒体相同的待执行子任务,划分为同一待执行小组;针对于每个待执行小组,由主控节点确定所述待执行小组中每个待执行子任务的采集要素;由所述主控节点对所述待执行小组中的每个待执行子任务进行聚合处理,将所述待执行小组中所述采集要素相同的待执行子任务合并为同一目标子任务,得到至少一个目标子任务。
该步骤中,主控节点在接收用户端下发的所有待执行主任务之后,获取待执行主任务的任务需求,基于待执行主任务的任务需求对应的采集内容,将满足拆分条件的待执行主任务进行拆分,待执行主任务拆分后保证至少包括关键词和网页链接中的一个,从而得到至少一个待执行子任务。对于拆分后得到的待执行子任务,将获取数据的社交媒体相同的待执行子任务进行去冗、降维、聚类处理,并划分为同一待执行小组,聚类后生成至少一个待执行小组。对待执行子任务进行拆分处理以及聚类处理后,再进行聚合处理,对于每一个待执行小组,统计组内的待执行子任务的采集要素,将位于同一组,采集要素相同的待执行子任务进行聚合处理,即合并成同一目标子任务,最终得到至少一个目标子任务。
这里,主控节点接收到待执行主任务后,根据采集内容,先进行拆分处理,并根据时间戳或关键词的顺序等参数进行排序,生成至少一个待执行子任务。然后在设定的时间窗口内执行采集时,将采集同一网站的待执行子任务进行聚类处理,这是因为每个网站爬虫协议不同,采集方式差别较大。最后,在聚类的基础上,根据要执行的采集的关键词或网页链接任务进行聚合处理,生成至少一个目标子任务。
S103、由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态。
该步骤中,主控节点将处理后得到的至少一个目标子任务放入任务池中,等待虚拟采集节点自动抓取任务,同时,将任务池中的目标子任务的任务状态标注为第一执行状态,等待处理。
这里,主控节点将目标子任务池前,会根据目标子任务的优先级,按照优先级由高到低的顺序,编制任务队列,逐级将目标子任务注入任务池中。其中第一执行状态为Create(待创建/待执行)。
S104、由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源。
该步骤中,从属节点中的虚拟采集节点根据自身状态,主动从任务池中抓取目标子任务,其中,抓取的为执行优先级最高的目标子任务。同时,从属节点中的虚拟采集节点根据抓取到的目标子任务的信息,向主控节点申请执行所述目标子任务所必要的资源。
进一步的,通过以下步骤确定目标子任务的执行优先级:由所述主控节点获取每个目标子任务的创建时间、预设执行时间以及预设执行顺序;由所述主控节点基于每个目标子任务的创建时间、预设执行时间以及预设执行顺序,确定每个目标子任务的执行优先级。
该步骤中,在从属节点中的虚拟采集节点抓取目标子任务前,已经确定好各个目标子任务的执行优先级,是由目标子任务的创建时间、预设执行时间以及预设执行顺序三者综合因素确定目标子任务的执行优先级。主控节点根据每个目标子任务的创建时间、预设执行时间以及预设执行顺序,确定每个目标子任务的执行优先级。
这里,创建时间是目标子任务对应的主任务创建时的时间戳,预设执行时间为用户指定的任务开始执行时间,预设执行顺序指用户指定的任务优先级(任务出现排队时,优先排序位置)。其中,两个目标子任务对应的主任务为同一个时,根据目标子任务中采集要素创建的顺序确定目标子任务的执行优先级。
进一步的,在由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源之前,所述获取方法还包括:由任意一个从属节点中的虚拟采集节点获取自身的运行状态信息,其中,所述运行状态信息包括所述从属节点中的虚拟采集节点的硬件运行状态以及软件运行状态中的至少一种。
该步骤中,从属节点中的虚拟采集节点能够对自身的运行状态信息进行采集和判读,同时也能将自身的运行状态信息上传给主控节点。其中,所述运行状态信息包括所述从属节点中的虚拟采集节点的硬件运行状态以及软件运行状态中的至少一种。当检测到自身运行状态符合设定条件时,确定自身当前时刻的工作状态处于空闲状态,然后从属节点中的虚拟采集节点主动从任务中抓取执行优先级最高的目标子任务。
进一步的,所述由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源,包括:由所述从属节点中的虚拟采集节点去所述任务池中抓取执行优先级最高的目标子任务;由所述从属节点中的虚拟采集节点确定所述目标子任务的获取内容以及获取数量;基于所述目标子任务的获取内容以及获取数量,由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源。
该步骤中,从属节点中的虚拟采集节点从任务池中抓取完执行优先级最高的目标子任务后,分析抓取的目标子任务的需要获取的内容及数量,根据目标子任务的获取内容及获取数量,从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源。
这里,从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源,是指由虚拟采集节点中的虚拟爬虫节点向主控节点申请执行所述目标子任务所必要的资源。其中,一个从属节点中包含多个虚拟采集节点,一个从属节点上的虚拟采集节点之间相互独立,并且一个虚拟采集节点中又包含多个虚拟爬虫节点。其中,资源可以包括带宽信息、采集网站开发者账号等资源,并且,从属节点中的虚拟采集节点在执行目标子任务的过程中,还会持续向主控节点申请资源。
进一步的,在由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务之后,所述获取方法还包括:由所述主控节点接收所述从属节点中的虚拟采集节点反馈的已经抓取目标子任务的通知;所述主控节点根据所述通知将所述目标子任务的任务状态由所述第一执行状态更改为第二执行状态,并重新确定所述任务池中任务状态为第一执行状态的目标子任务的执行优先级。
该步骤中,从属节点中的虚拟采集节点抓取完目标子任务后,通知主控节点所述目标子任务已经被抓取,主控节点根据接收到的通知,将所述目标子任务的任务状态由所述第一执行状态更改为第二执行状态,并对任务池中剩余的未被抓取的目标自认重新进行执行优先级排序,并确定出执行优先级最高的目标子任务,等待被下个虚拟采集节点抓取。
这里,第二执行状态为Busy(忙碌/执行中),当目标子任务的状态为BUSY时,该目标子任务被锁定,其他虚拟采集节点不能抓取该目标子任务,同时任务池不释放此目标子任务。
S105、由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点。
该步骤中,从属节点中的虚拟采集节点得到最终的获取结果,然后将获取结果上传到主控节点。
这里,从属节点中的虚拟采集节点在执行目标子任务的过程中,虚拟采集节点会上传采集进度到主控节点,同时也会上报当前的采集状态等。其中,从属节点中的虚拟采集节点还会释放资源。
进一步的,在由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点之后,所述获取方法还包括:由所述主控节点对接收所述从属节点中的虚拟采集节点反馈的获取结果进行分析;当所述主控节点确定所述获取结果指示所述目标子任务执行失败时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的执行失败原因,基于所述执行失败原因,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第一执行状态或由所述主控节点将所述目标子任务删除;当所述主控节点确定所述获取结果指示所述目标子任务执行成功时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的获取数据,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第三执行状态。
该步骤中,从属节点中的虚拟采集节点中的将目标子任务的获取结果上传给主控节点,主控节点对接收到的获取结果进行分析,当确认获取结果指示目标子任务执行失败时,同时主控节点还会收到从属节点中的虚拟采集节点反馈的执行失败原因,根据接收到的失败原因,主控节点选择将对应的目标子任务的任务状态由第二执行状态更改为第一执行状态或者是主控节点将目标子任务进行删除。当主控节点确认获取结果指示目标子任务执行成功时,同时还接收从属节点中的虚拟采集节点上传的获取数据,主控节点会将对应的目标子任务的任务状态由第二执行状态更改为第三执行状态。
这里,第三执行状态为Free(释放/执行完成)。其中,当失败原因是因为资源、存储等硬件问题时,主控节点将目标子任务的第二执行状态更改为第一执行状态,等待被下个虚拟采集节点重新抓取;当失败原因是想要获取的发文被删除时及任务执行异常时,主控节点将对应的目标子任务删除,并释放资源。其中,请参阅图2,图2为本申请中任务状态更改流程示意图,如图2中所示,描述了在获取社交媒体数据的过程中,目标子任务的任务状态的更改过程。
其中,也可以为目标子任务被抓取次数设置一个阈值,当抓取次数达到阈值时(即任务挂死(Zombie)次数到达设定上限值时),主控节点可以将任务删除。此外,用户也可以直接下命令将任务删除。
S106、由所述主控节点对所述获取结果进行存取以及可视化。
该步骤中,主控节点将接收到的从属节点中的虚拟采集节点上传的获取结果进行存取以及可视化展示。
这里,当从属节点中的虚拟采集节点将获取数据上传给主控节点以及任务池中任务状态更改后,主控节点将获取数据写入数据库,并依据用户在下任务时配置的获取参数,进行获取数据的统计分析与可视化展示。
进一步的,所述获取方法还包括:由主控节点实时监测所述任务池中的各个目标子任务的任务状态,以使从属节点以及从属节点中的虚拟采集节点的数量被调整;由主控节点实时监测各个从属节点的运行状态,以使从属节点中的目标子任务被调整。
该步骤中,主控节点可以实时监测到任务中的各个目标子任务的任务状态以及各个从属节点的运行状态;统计任务池中所述目标子任务的任务状态,当达到一定条件时,从属节点以及从属节点中的虚拟采集节点的数量可以相应的增加或减少;主控节点监测各个从属节点的运行状态是否负载过高,负载过高时,该从属节点中的目标子任务会相应的被调整。
这里,当任务池中的未被执行的目标子任务的数量过多时,如果想提高任务执行效率,可以选择增加新的从属节点或从属节点中的虚拟采集节点的数量;当任务池中目标子任务的数量过少时,为了节约成本,可以选择减少从属节点的数量;当主控节点监测到某个从属节点执行的目标子任务的数量过多时(即运行状态为负载过高),而另一个从属节点执行的目标子任务的数量过少或者运行状态为空载时,主控节点可以将负载过高的从属节点中的目标子任务分配给另一个从属节点去执行,以此到达负载平衡。
其中,主控节点可以将任务池中所述目标子任务的任务状态反馈给用户端,用户端可以适应性的选择增加或减少新的从属节点或从属节点中的虚拟采集节点的数量。这里,增加新的从属节点为增加从属服务器数量,增加从属节点中的虚拟采集节点是当某个从属节点剩余的硬件资源足够时,增加所述从属节点中新的虚拟采集节点。其中,本申请也可以在任务少的时候,选择减少从属节点的数量,节约成本。此外,本申请在增加从属节点以及减少从属节点的过程中,无需停止主控节点工作。
示例的,请参阅图3,图3为本申请中主控节点与从属节点信息交互流程图。结合图3对本发明中主控节点与从属节点间信息交互过程进行说明:
确定数据获取的待执行主任务:用户根据自身需要获取的社交媒体数据,选择数据采集方式和采集要素,且用户还可以对任务指定相应的优先级以及采集字段,从而进行对应网站、论坛、博客在内的各种公开社交数据采集:采集字段包括但不限于博文、图片、评论等。用户依据确定出具体的任务需求配置对应的获取参数,用户将任务需求和对应的获取参数整合为统一的获取社交媒体数据的待执行主任务,并下发给主控节点。
拆分、聚类以及聚合确定目标子任务:主控节点负责任务调度并配有MySQL数据库。主控节点在接收到用户下达的待主任务后,对待执行主任务进行处理,按照采集内容、采集策略及优先级等要素进行统计、拆分、聚类、聚合等处理,针对多用户同时下发的同一网页链接或关键词的采集任务,进行聚合处理,针对多用户下发的同一社交网站的采集任务,进行聚类处理,针对所有主任务进行统计,同时将包含多个网页链接和多个关键词的主任务拆分成不同的子任务,再次确定优先级。将经过处理得到的目标子任务按照在制定的优先级,编制任务队列,逐级注入任务池中,任务状态全为Create,等待处理。
目标子任务的执行与数据获取:各个虚拟采集节点具有“主观能动”性,会实时检测节点自身状态。当虚拟采集节点检测到自身状态符合主控节点对任务的需求时,会主动向任务池中抓取任务(优先抓取优先级最高的目标子任务),同时向主控系统申请执行任务所必要的采集资源。节点在执行任务过程中,任务池中分任务状态由Create转为Busy状态,其它节点无法领取该任务,任务池不释放该任务。若节点执行成功后,上传数据到主控系统,任务状态由Busy转为Free,释放资源;若节点执行失败,则任务状态改由Busy转为Create,并等待下一个虚拟采集节点的抓取,为任务被抓取次数设置一个阈值。当抓取次数达到阈值上限即任务挂死(Zombie)次数过多时,主控节点可删除任务。主控节点还可以依据自身状态或用户命令删除任务。
数据的存取与可视化:当虚拟采集节点将获取数据返回主控节点,且主控节点对任务池中任务状态更改后,主控节点将获取到的数据写入数据库,依据用户在下任务时配置的获取参数,进行数据的统计分析与可视化展示。
本申请实施例提供的社交媒体数据的获取方法,由主控节点获取用户端发送的至少一个待执行主任务;针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;由所述主控节点对所述获取结果进行存取以及可视化。
这样,本申请通过对任务进行包括拆分、聚类及聚合在内的降维、优化处理,优化了任务执行过程,降低了执行任务的数量,通过从属节点中的虚拟采集节点自主抓取任务,使得主控节点无需提前配置及获取虚拟采集节点的数量及状态,从而在对社交媒体数据进行获取时,可以有效的提高获取速度和效率。
请参阅图4、图5、图6,图4为本申请实施例所提供的一种社交媒体数据的获取系统的结构示意图之一,图5为图4中所示的子任务确定模块的结构示意图,图6为本申请实施例所提供的一种社交媒体数据的获取系统的结构示意图之二。如图4中所示,所述获取系统400包括:
主任务获取模块401,用于由主控节点获取用户端发送的至少一个待执行主任务;
子任务确定模块402,用于针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;
状态更改模块403,用于由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;
子任务抓取模块404,用于由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;
结果反馈模块405,用于由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;
结果展示模块406,用于由所述主控节点对所述获取结果进行存取以及可视化。
进一步的,如图5中所示,所述子任务确定模块402包括:
拆分单元4021,用于针对于每个待执行主任务,由所述主控节点将所述待执行主任务拆分为关键词和网页链接中的至少一个,得到所述待执行主任务对应的至少一个待执行子任务;
聚类单元4022,用于由所述主控节点确定每个待执行子任务的获取数据的社交媒体,由所述主控节点对至少一个待执行子任务进行去冗、降维、聚类处理,将获取数据的社交媒体相同的待执行子任务,划分为同一待执行小组;
聚合单元4023,用于针对于每个待执行小组,由主控节点确定所述待执行小组中每个待执行子任务的采集要素,由所述主控节点对所述待执行小组中的每个待执行子任务进行聚合处理,将所述待执行小组中所述采集要素相同的待执行子任务合并为同一目标子任务,得到至少一个目标子任务。
进一步的,所述子任务抓取模块404用于通过以下步骤确定目标子任务的执行优先级:
由所述主控节点获取每个目标子任务的创建时间、预设执行时间以及预设执行顺序;
由所述主控节点基于每个目标子任务的创建时间、预设执行时间以及预设执行顺序,确定每个目标子任务的执行优先级。
进一步的,如图6中所示,所述获取系统400还包括状态确认模块407,所述状态确认模块407用于:
由任意一个从属节点中的虚拟采集节点获取自身的运行状态信息,其中,所述运行状态信息包括所述从属节点中的虚拟采集节点的硬件运行状态以及软件运行状态中的至少一种。
进一步的,所述子任务抓取模块404在用于由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源时,所述子任务抓取模块404用于:
由所述从属节点中的虚拟采集节点去所述任务池中抓取执行优先级最高的目标子任务;
由所述从属节点中的虚拟采集节点确定所述目标子任务的获取内容以及获取数量;
基于所述目标子任务的获取内容以及获取数量,由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源。
进一步的,所述获取系统400还包括任务通知模块408,所述任务通知模块408用于:
由所述主控节点接收所述从属节点中的虚拟采集节点反馈的已经抓取目标子任务的通知;
所述主控节点根据所述通知将所述目标子任务的任务状态由所述第一执行状态更改为第二执行状态,并重新确定所述任务池中任务状态为第一执行状态的目标子任务的执行优先级。
进一步的,所述获取系统400还包括结果分析模块409,所述结果分析模块409用于:
由所述主控节点对接收所述从属节点中的虚拟采集节点反馈的获取结果进行分析;
当所述主控节点确定所述获取结果指示所述目标子任务执行失败时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的执行失败原因,基于所述执行失败原因,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第一执行状态或由所述主控节点将所述目标子任务删除;
当所述主控节点确定所述获取结果指示所述目标子任务执行成功时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的获取数据,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第三执行状态。
进一步的,所述获取系统400还包括扩展模块410,所述扩展模块410用于:
由主控节点实时监测所述任务池中的各个目标子任务的任务状态,以使从属节点以及从属节点中的虚拟采集节点的数量被调整;
由主控节点实时监测各个从属节点的运行状态,以使从属节点中的目标子任务被调整。
本申请实施例提供的社交媒体数据的获取系统,由主控节点获取用户端发送的至少一个待执行主任务;针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;由所述主控节点对所述获取结果进行存取以及可视化。
这样,本申请通过对任务进行包括拆分、聚类及聚合在内的降维、优化处理,优化了任务执行过程,降低了执行任务的数量,通过从属节点中的虚拟采集节点自主抓取任务,使得主控节点无需提前配置及获取虚拟采集节点的数量及状态,从而在对社交媒体数据进行获取时,可以有效的提高获取速度和效率。
在本申请所提供的实施例中,应该理解到,所揭露的方法和系统,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种社交媒体数据的获取方法,其特征在于,所述获取方法包括:
由主控节点获取用户端发送的至少一个待执行主任务;
针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;
由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;
由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;
由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;
由所述主控节点对所述获取结果进行存取以及可视化。
2.根据权利要求1所述的获取方法,其特征在于,所述针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务,包括:
针对于每个待执行主任务,由所述主控节点将所述待执行主任务拆分为关键词和网页链接中的至少一个,得到所述待执行主任务对应的至少一个待执行子任务;
由所述主控节点确定每个待执行子任务的获取数据的社交媒体;
由所述主控节点对至少一个待执行子任务进行去冗、降维、聚类处理,将获取数据的社交媒体相同的待执行子任务,划分为同一待执行小组;
针对于每个待执行小组,由主控节点确定所述待执行小组中每个待执行子任务的采集要素;
由所述主控节点对所述待执行小组中的每个待执行子任务进行聚合处理,将所述待执行小组中所述采集要素相同的待执行子任务合并为同一目标子任务,得到至少一个目标子任务。
3.根据权利要求1所述的获取方法,其特征在于,通过以下步骤确定目标子任务的执行优先级:
由所述主控节点获取每个目标子任务的创建时间、预设执行时间以及预设执行顺序;
由所述主控节点基于每个目标子任务的创建时间、预设执行时间以及预设执行顺序,确定每个目标子任务的执行优先级。
4.根据权利要求1所述的获取方法,其特征在于,在由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源之前,所述获取方法还包括:
由任意一个从属节点中的虚拟采集节点获取自身的运行状态信息,其中,所述运行状态信息包括所述从属节点中的虚拟采集节点的硬件运行状态以及软件运行状态中的至少一种。
5.根据权利要求1所述的获取方法,其特征在于,所述由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源,包括:
由所述从属节点中的虚拟采集节点去所述任务池中抓取执行优先级最高的目标子任务;
由所述从属节点中的虚拟采集节点确定所述目标子任务的获取内容以及获取数量;
基于所述目标子任务的获取内容以及获取数量,由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源。
6.根据权利要求1所述的获取方法,其特征在于,在由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务之后,所述获取方法还包括:
由所述主控节点接收所述从属节点中的虚拟采集节点反馈的已经抓取目标子任务的通知;
所述主控节点根据所述通知将所述目标子任务的任务状态由所述第一执行状态更改为第二执行状态,并重新确定所述任务池中任务状态为第一执行状态的目标子任务的执行优先级。
7.根据权利要求6所述的获取方法,其特征在于,在由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点之后,所述获取方法还包括:
由所述主控节点对接收所述从属节点中的虚拟采集节点反馈的获取结果进行分析;
当所述主控节点确定所述获取结果指示所述目标子任务执行失败时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的执行失败原因,基于所述执行失败原因,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第一执行状态或由所述主控节点将所述目标子任务删除;
当所述主控节点确定所述获取结果指示所述目标子任务执行成功时,由所述主控节点同时接收所述从属节点中的虚拟采集节点反馈的获取数据,由所述主控节点将所述目标子任务的任务状态由第二执行状态更改为第三执行状态。
8.根据权利要求1所述的获取方法,其特征在于,所述获取方法还包括:
由主控节点实时监测所述任务池中各个目标子任务的任务状态,以使从属节点以及从属节点中的虚拟采集节点的数量被调整;
由主控节点实时监测各个从属节点的运行状态,以使从属节点中的目标子任务被调整。
9.一种社交媒体数据的获取系统,其特征在于,所述获取系统包括:
主任务获取模块,用于由主控节点获取用户端发送的至少一个待执行主任务;
子任务确定模块,用于针对每个待执行主任务,由所述主控节点对所述待执行主任务分别进行拆分处理、聚类处理以及聚合处理,生成存放于任务池中的至少一个目标子任务;
状态更改模块,用于由所述主控节点将所述目标子任务放到所述任务池中,同时将所述至少一个目标子任务的任务状态标注为第一执行状态;
子任务抓取模块,用于由从属节点中的虚拟采集节点从所述任务池中抓取执行优先级最高的目标子任务,以及由所述从属节点中的虚拟采集节点向所述主控节点申请执行所述目标子任务所必要的资源;
结果反馈模块,用于由所述从属节点中的虚拟采集节点将获取结果返回给所述主控节点;
结果展示模块,用于由所述主控节点对所述获取结果进行存取以及可视化。
10.根据权利要求9所述的获取系统,其特征在于,所述获取系统还包括扩展模块,所述扩展模块用于:
由主控节点实时监测所述任务池中各个目标子任务的任务状态,以使从属节点以及从属节点中的虚拟采集节点的数量被调整;
由主控节点实时监测各个从属节点的运行状态,以使从属节点中的目标子任务被调整。
CN202011629590.6A 2020-12-31 2020-12-31 一种社交媒体数据的获取方法及系统 Active CN112667901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011629590.6A CN112667901B (zh) 2020-12-31 2020-12-31 一种社交媒体数据的获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011629590.6A CN112667901B (zh) 2020-12-31 2020-12-31 一种社交媒体数据的获取方法及系统

Publications (2)

Publication Number Publication Date
CN112667901A true CN112667901A (zh) 2021-04-16
CN112667901B CN112667901B (zh) 2024-04-26

Family

ID=75412863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011629590.6A Active CN112667901B (zh) 2020-12-31 2020-12-31 一种社交媒体数据的获取方法及系统

Country Status (1)

Country Link
CN (1) CN112667901B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120653A1 (en) * 2000-07-05 2003-06-26 Sean Brady Trainable internet search engine and methods of using
US20070239701A1 (en) * 2006-03-29 2007-10-11 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
CN102541640A (zh) * 2011-12-28 2012-07-04 厦门市美亚柏科信息股份有限公司 一种集群gpu资源调度系统和方法
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN105045832A (zh) * 2015-06-30 2015-11-11 北京奇艺世纪科技有限公司 一种数据采集方法及装置
US9298824B1 (en) * 2010-07-07 2016-03-29 Symantec Corporation Focused crawling to identify potentially malicious sites using Bayesian URL classification and adaptive priority calculation
CN106033371A (zh) * 2015-03-13 2016-10-19 杭州海康威视数字技术股份有限公司 一种视频分析任务的调度方法及系统
CN106201715A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种任务调度方法和装置
CN108268546A (zh) * 2016-12-30 2018-07-10 中国移动通信集团黑龙江有限公司 一种优化数据库的方法及装置
CN108920261A (zh) * 2018-05-23 2018-11-30 中国航天系统科学与工程研究院 一种适于大规模并行数据处理任务的两级自适应调度方法
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN110928688A (zh) * 2019-11-29 2020-03-27 电子科技大学 一种分布式爬虫任务的调度系统及方法
CN110968406A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 处理任务的方法、装置、存储介质和处理器
CN111367630A (zh) * 2019-07-12 2020-07-03 北京关键科技股份有限公司 一种基于云计算的多用户多优先级的分布式协同处理方法
CN111400005A (zh) * 2020-03-13 2020-07-10 北京搜狐新媒体信息技术有限公司 一种数据处理方法、装置及电子设备
CN112148454A (zh) * 2020-09-29 2020-12-29 行星算力(深圳)科技有限公司 一种支持串行和并行的边缘计算方法及电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120653A1 (en) * 2000-07-05 2003-06-26 Sean Brady Trainable internet search engine and methods of using
US20070239701A1 (en) * 2006-03-29 2007-10-11 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
US9298824B1 (en) * 2010-07-07 2016-03-29 Symantec Corporation Focused crawling to identify potentially malicious sites using Bayesian URL classification and adaptive priority calculation
CN102541640A (zh) * 2011-12-28 2012-07-04 厦门市美亚柏科信息股份有限公司 一种集群gpu资源调度系统和方法
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN106033371A (zh) * 2015-03-13 2016-10-19 杭州海康威视数字技术股份有限公司 一种视频分析任务的调度方法及系统
CN105045832A (zh) * 2015-06-30 2015-11-11 北京奇艺世纪科技有限公司 一种数据采集方法及装置
CN106201715A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种任务调度方法和装置
CN108268546A (zh) * 2016-12-30 2018-07-10 中国移动通信集团黑龙江有限公司 一种优化数据库的方法及装置
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN108920261A (zh) * 2018-05-23 2018-11-30 中国航天系统科学与工程研究院 一种适于大规模并行数据处理任务的两级自适应调度方法
CN110968406A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 处理任务的方法、装置、存储介质和处理器
CN111367630A (zh) * 2019-07-12 2020-07-03 北京关键科技股份有限公司 一种基于云计算的多用户多优先级的分布式协同处理方法
CN110928688A (zh) * 2019-11-29 2020-03-27 电子科技大学 一种分布式爬虫任务的调度系统及方法
CN111400005A (zh) * 2020-03-13 2020-07-10 北京搜狐新媒体信息技术有限公司 一种数据处理方法、装置及电子设备
CN112148454A (zh) * 2020-09-29 2020-12-29 行星算力(深圳)科技有限公司 一种支持串行和并行的边缘计算方法及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张海阔;陆忠华;刘芳;李井泉;孙辰军;王珏;: "面向海量告警数据的并行处理系统设计与实现", 计算机工程与设计, no. 02, 16 February 2018 (2018-02-16), pages 115 - 121 *
徐晨初;张燕平;刘国涛;: "一种优化路径的聚焦爬虫爬行策略", 小型微型计算机系统, no. 08, 15 August 2016 (2016-08-15), pages 91 - 94 *

Also Published As

Publication number Publication date
CN112667901B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
US10972344B2 (en) Automated adjustment of subscriber policies
CN109327509B (zh) 一种主/从架构的低耦合的分布式流式计算系统
CN107734035B (zh) 一种云计算环境下的虚拟集群自动伸缩方法
CN111049705B (zh) 一种监控分布式存储系统的方法及装置
US10095547B1 (en) Stream processing at scale
CN109327351B (zh) 日志数据的实时采集方法、装置、电子设备及存储介质
US9838483B2 (en) Methods, systems, and computer readable media for a network function virtualization information concentrator
US20180039897A1 (en) Forcasting interest in an object over a future period of time using a three-stage time-series analysis process
EP2838228B1 (en) Alarm correlation analysis method, apparatus, and system
CN103019853A (zh) 一种作业任务的调度方法和装置
EP2503733A1 (en) Data collecting method, data collecting apparatus and network management device
CN106155844B (zh) 一种web服务器的自恢复方法和自恢复系统
CN103297543A (zh) 一种基于计算机集群作业调度的方法
CN102523103A (zh) 一种工业监控网络数据采集结点
CN111124830B (zh) 一种微服务的监控方法及装置
CN106131227A (zh) 负载平衡方法、元数据服务器系统及负载平衡系统
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
JP5050357B2 (ja) ロギング情報管理方法およびロギング情報管理システムおよびロギング情報管理手段
CN103414739B (zh) 采用自动漂移的云服务器自动监控系统及方法
Demirbaga et al. Autodiagn: An automated real-time diagnosis framework for big data systems
CN109376137B (zh) 一种文件处理方法及装置
CN104320433A (zh) 数据处理方法和分布式数据处理系统
CN113672452A (zh) 一种数据采集任务的运行监控方法、系统
CN112667901A (zh) 一种社交媒体数据的获取方法及系统
US11556120B2 (en) Systems and methods for monitoring performance of a building management system via log streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant