CN110782122A - 数据处理方法、装置及电子设备 - Google Patents

数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110782122A
CN110782122A CN201910872981.1A CN201910872981A CN110782122A CN 110782122 A CN110782122 A CN 110782122A CN 201910872981 A CN201910872981 A CN 201910872981A CN 110782122 A CN110782122 A CN 110782122A
Authority
CN
China
Prior art keywords
target
job
container
data
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910872981.1A
Other languages
English (en)
Other versions
CN110782122B (zh
Inventor
孔颖
黄鹤
杨璧嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Tencent Dadi Tongtu Beijing Technology Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910872981.1A priority Critical patent/CN110782122B/zh
Publication of CN110782122A publication Critical patent/CN110782122A/zh
Application granted granted Critical
Publication of CN110782122B publication Critical patent/CN110782122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本公开的实施例提供了一种数据处理方法、装置及电子设备,属于计算机和通信技术领域。该方法包括:获取目标作业;确定所述目标作业的目标作业类型;主调度器根据所述目标作业类型确定所述目标作业的目标容器;通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。本公开实施例提供的数据处理方法、装置及电子设备通过对目标作业类型与容器进行关联,能够实现业务隔离,并实现高吞吐量、高时效性、高正确率的数据处理流程。

Description

数据处理方法、装置及电子设备
技术领域
本公开涉及计算机和通信技术领域,具体而言,涉及一种数据处理方法、装置及电子设备。
背景技术
传统的数据处理流程以数据工厂为调度者,以日志形式接收数据,基于全批式或全流式的调度测量处理数据。目前,兴趣点数据(Point of Interest,POI)由于其处理量大、任务类别多,且要求百分之百准确率的特点,对数据处理流程具有较高要求。然而,上述流程中,数据工厂为通用组件,其作业长度有限,无法保证作业执行的时效性。此外,任务运行集群没有实现业务隔离,在资源不足的情况下将导致任务无法完成、任务失败、数据丢失等问题。因此,如何实现对兴趣点数据的高时效、高吞吐量、高正确率、全链路跟踪的处理是一个值得研究的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例提供一种数据处理方法、装置及电子设备,进而至少在一定程度上能够实现业务隔离,并实现高吞吐量、高时效性、高正确率的数据处理流程。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种数据处理方法,包括:获取目标作业;确定所述目标作业的目标作业类型;主调度器根据所述目标作业类型确定所述目标作业的目标容器;通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。
在本公开的一些示例性实施例中,调度集群包括多个调度器;所述方法还包括:通过协调器从所述多个调度器中选举一个调度器作为所述主调度器;若所述主调度器发生异常,则通过所述协调器从余下的调度器中选举另一个调度器作为所述主调度器。
根据本公开实施例的一个方面,提供了一种数据处理装置,包括:目标作业获取模块,用于获取目标作业;作业类型确定模块,用于确定所述目标作业的目标作业类型;目标容器确定模块,用于主调度器根据所述目标作业类型确定所述目标作业的目标容器;目标作业处理模块,用于通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。
根据本公开实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的数据处理方法。
在本公开的一些实施例所提供的技术方案中,通过目标作业的目标作业类型确定该目标作业的目标容器,以使该目标容器对该目标作业进行处理,能够根据作业类型对容器进行划分,以实现业务隔离,以避免由于资源不足导致的数据丢失、任务失败的问题和资源浪费的问题,因此能够保证数据处理的高吞吐量、高时效性和高准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在附图中:
图1示出了可以应用本公开实施例的数据处理方法或装置的示例性系统架构100的示意图;
图2示意性示出了根据本公开的一个实施例的数据处理方法的流程图;
图3是基于图2的步骤S240在一个示例性实施例中的流程图;
图4是基于图2的步骤S230在一个示例性实施例中的流程图;
图5是基于图4的步骤S233在一个示例性实施例中的流程图;
图6示意性示出了根据本公开的另一个实施例的数据处理方法的流程图;
图7示意性示出了根据本公开的又一个实施例的数据处理方法的流程图;
图8是基于图7中的步骤S720在一个示例性实施例的流程图;
图9示意性示出了根据本公开的再一个实施例的数据处理方法的流程图;
图10示意性示出了根据本公开的再一个实施例的数据处理方法的流程图;
图11示意性示出了根据本公开的再一个实施例的数据处理方法的流程图;
图12示意性示出了根据本公开的一实施例的数据处理装置的框图;
图13示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的数据处理方法或装置的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如终端设备103(也可以是终端设备101或102)向服务器105上传目标作业。服务器105可以获取目标作业;确定所述目标作业的目标作业类型;主调度器根据所述目标作业类型确定所述目标作业的目标容器;通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。并将处理反馈给终端设备103,进而终端设备103可以根据该处理结果进行显示或后续计算,从而通过对目标作业类型与容器进行关联,能够实现业务隔离,并实现高吞吐量、高时效性、高正确率的数据处理流程。
图2示意性示出了根据本公开的一个实施例的数据处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理,例如上述图1实施例中的服务器105和/或终端设备102、103,在下面的实施例中,以服务器105为执行主体为例进行举例说明,但本公开并不限定于此。
如图2所示,本公开实施例提供的数据处理方法可以包括以下步骤。
在步骤S210中,获取目标作业。
本公开实施例中,本公开实施例中,目标作业可包括一个或多个兴趣点数据。其中,兴趣点数据是地理信息系中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等。兴趣点数据的主要用途是对事物或事件的地址进行描述,能在很大程度上增强对事物或事件位置的描述能力和查询能力,提高地理定位的精度和速度。
在示例性实施例中,目标作业可存储在非关系型数据库中,非关系型数据库可例如为Redis数据库。Redis是一个开源的、支持网络、可基于内存亦可持久化的日志型、键值数据库,并提供多种语言的接口。非关系型数据库中可存储该目标作业所包括的兴趣点数据以及该目标作业的标识信息。本步骤中,可仅获取目标作业的标识信息,但本公开对此并不作特殊限定。
在示例性实施例中,作业可存储与调度库中,调度库中还可记录每一作业的优先等级。例如,优先等级可由0、1、2进行表示,其中,2的优先级高于1,1的优先级高于0。在获取目标作业时,可根据优先级,有限获取优先级最高的作业作为目标作业。
在步骤S220中,确定所述目标作业的目标作业类型。
本公开实施例中,可根据目标作业的标识信息确定该目标作业的目标作业类型。其中,标识信息中可包括作业类型字段,用于区分该目标作业的具体作业类型。标识信息中还可包括时间戳字段,以便于后续可根据时间段对作业进行查找。作业类型可包括批处理作业类型和流处理作业类型。其中,批处理作业类型中的兴趣点数据来源为批数据源,流处理作业类型中的兴趣点数据来源为流数据源。
在示例性实施例中,在某数据源在预定时间段内的数据流量大于第一预定阈值时,且该数据源的兴趣点数据的时效要求为非秒级生效时,可确认该数据源为批数据源,否则该数据源为流数据源。其中,预定时间段可为1小时、24小时等,第一预定阈值可为100万、200万等,本公开对预定时间段和第一预定值的具体数值并不作特殊限定。时效要求可包括秒级生效、非秒级生效等。非秒级生效可例如为小时级生效等。
在步骤S230中,主调度器根据所述目标作业类型确定所述目标作业的目标容器。
本公开实施例中,可通过协调器的选主机制确定主调度器。协调器是分布式系统的可靠协调系统:zookeeper,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
本公开实施例中,每一容器可具有一标识信息,该标识信息可对应一作业类型:批处理作业类型或流处理作业类型。其中,容器集群可包括多个具有批处理作业类型的容器和具有流处理作业类型的容器。例如,当目标作业类型为批处理作业类型,可在具有批处理作业类型的多个容器中确定目标容器。
在步骤S240中,通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。
本公开实施例中,目标容器可例如为应用容器引擎(docker),Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。
在示例性实施例中,可例如目标容器进行弹性伸缩扩容,以提高资源利用率,避免浪费资源与数据丢失,进而能够保证目标作业的顺利执行。
本公开实施方式提供的数据处理方法,通过目标作业的目标作业类型确定该目标作业的目标容器,以使该目标容器对该目标作业进行处理,能够根据作业类型对容器进行划分,以实现业务隔离,以避免由于资源不足导致的数据丢失、任务失败的问题和资源浪费的问题,因此能够保证数据处理的高吞吐量、高时效性和高准确率。
图3是基于图2的步骤S240在一个示例性实施例中的流程图。
如图3所示,上述图2实施例中的步骤S240可以进一步包括以下步骤。
在步骤S241中,所述主调度器从调度库中提取所述目标作业的标识信息并将其发送至所述目标容器。
本公开实施例中,调度库中可存储所有待处理的作业。例如,可存储所有待处理的作业的标识信息。主调度器执行每一调度任务时,可从该调度库中获取目标作业的标识信息,以根据该标识信息进行如上述步骤S220至S240的后续处理。
在步骤S242中,所述主调度器根据所述目标作业的标识信息从协调器中获取所述目标作业的目标数据源的配置表信息,并将其发送至所述目标容器。
本公开实施例中,协调器中可存储各数据源(例如各批数据源或各流数据源)的配置表信息。协调器还可根据与各数据源的通信对各配置表信息进行实时更新,以保证主调度器能够实时获取最新的配置表信息。配置表信息可存储各数据源对于其输出的各个作业的具体处理要求,例如对于处理结果保留小数点后两位等,但此处仅为示例,本公开对此并不作特殊限定。
在步骤S243中,所述目标容器根据所述目标作业的标识信息从非关系型数据库中提取所述目标作业的兴趣点数据。
本公开实施例中,非关系型数据库可例如为上述提及的Redis数据库,该数据库中存储了所有的作业数据以及各作业的标识信息。
在步骤S244中,所述目标容器根据所述目标数据源的配置表信息对所述目标作业的兴趣点数据进行处理,获得所述处理结果。
本公开实施例中,目标容器可根据目标作业在配置表信息中获取该目标作业的配置信息,进而能够以该配置信息为依据,对目标作业中的兴趣点数据进行处理。
图4是基于图2的步骤S230在一个示例性实施例中的流程图。
如图4所示,上述图2实施例中的步骤S230可以进一步包括以下步骤。
在步骤S231中,所述主调度器从协调器中获取容器集群中每个容器的标识信息和负载信息。
本公开实施例中,每个容器具有一标识信息和负载信息。标识信息可用于区分该容器所处理的作业类型:批处理作业类型和流处理作业类型。其中,负载信息可以包括中央处理器、内存容量、磁盘空间、网络带宽容量的总量、已使用量和剩余量等。
在步骤S232中,根据所述目标作业类型和每个容器的标识信息确定目标容器族群。
本公开实施例中,目标容器族群包括多个容器,该多个容器具有与目标作业类型相同的标识信息。例如,当目标作业类型为批数据源,本步骤确定的多个容器的标识信息均为批处理作业类型。
在步骤S233中,根据所述目标容器族群中每个容器的负载信息,确定所述目标容器。
本公开实施例中,可基于负载均衡思想对所述目标容器集群中的各容器进行过滤,以确定目标容器。负载均衡建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。
图5是基于图4的步骤S233在一个示例性实施例中的流程图。
如图5所示,上述图4实施例中的步骤S233可以进一步包括以下步骤。
在步骤S2331中,获取所述目标容器族群中负载信息小于负载阈值的容器。
本公开实施例中,负载信息可例如包括中央处理器(central processing unit,CPU)、内存容量、磁盘空间、网络带宽容量的总量、已使用量和剩余量等。负载阈值可例如为容器总负载量的80%,还可为其他数值,本公开对此并不作特殊限定。例如,若某一容器的中央处理器、内存容量、磁盘空间、网络带宽的剩余量均小于其对应总量的80%,则确认该容器为负载信息小于负载阈值的容器。又例如,若某一容器的中央处理器、内存容量、磁盘空间、网络带宽容量中的至少一者的剩余量小于其对应总量的80%,则可确认该容器为负载信息小于负载阈值的容器。上述两者判定规则均是可选的,本公开的技术方案对此并不做特殊限定。
本公开实施例中,各容器的负载信息可发送至协调器,协调器通过实时获取负载信息,能够保证负载信息的实时性,以保证确定的目标容器为可用的容器。
在步骤S2332中,在所述目标容器族群中负载信息小于负载阈值的容器中,确定所述目标容器。
本公开实施例中,可通过随机机制或轮询机制在各待选容器中确定所述目标容器,并确定该目标容器的标识信息。
图6示意性示出了根据本公开的另一个实施例的数据处理方法的流程图。
如图6所示,基于上述实施例的数据处理方法还包括以下步骤。
在本公开实施例中,调度集群包括多个调度器。
在步骤S610中,通过协调器从所述多个调度器中选举一个调度器作为所述主调度器。
本公开实施例中,调度集群中包括多个调度器,协调器可与多个调度器进行通信,以获得各调度器的节点信息,以根据各调度器的节点信息进行选举确定主调度器。在同一时刻仅有一个调度器处于活跃状态,活跃状态的调度器为主调度器,其余非活跃状态的调度器为冗余调度器,冗余调度器可处于睡眠状态。
在步骤S620中,若所述主调度器发生异常,则通过所述协调器从余下的调度器中选举另一个调度器作为所述主调度器。
本公开实施例中,主调度的异常可例如丢失连接等,本公开的技术方案对此并不做特殊限定。
本公开实施例的技术方案在进行数据处理时,以主调度器为调度依据,通过选主机制能够避免单点问题,保证了调度器的高可用性。
图7示意性示出了根据本公开的又一个实施例的数据处理方法的流程图。
如图7所示,基于上述实施例的数据处理方法还包括以下步骤。
在步骤S710中,获取兴趣点数据。
本公开实施例中,可从各数据源中获取兴趣点数据。各数据源可具有不同的类型,前述已经说明,此处不再赘述。
在步骤S720中,生成所述兴趣点数据对应的待处理作业及其标识信息,所述标识信息包括所述待处理作业的作业类型,其中所述待处理作业的作业类型根据所述兴趣点数据的数据源确定。
本公开实施例中,可根据预定数量的兴趣点数据生成待处理作业。每一待处理作业可具有一标识信息。
在步骤S730中,将所述待处理作业的兴趣点数据存储至非关系型数据库中。
在本公开实施例中,可以以待处理作业为存储最小单位,将每一待处理作业存储在非关系型数据库中(例如Redis数据库)。其中,非关系型数据库中还可存储每一待处理作业的标识信息。
在步骤S740中,将所述待处理作业的标识信息存储至调度库中。
本公开实施例中,标识信息可用于区分该待处理作业的作业类型。标识信息中还可包括时间戳信息。
图8是基于图7中的步骤S720在一个示例性实施例的流程图。
如图8所示,上述图7实施例的步骤S720可以进一步包括以下步骤。
在步骤S721中,若所述兴趣点数据的数据源为批数据源,则根据第一预定数量的兴趣点数据生成作业类型为批作业的待处理作业。
本公开实施例中,第一预定数量可为3万条,或其他具体的数值,本公开的技术方案对第一预定数量的具体数值并不作特殊限定。例如,可对3万条兴趣点数据进行整合,生成一条待处理作业,且该待处理作业具有一标识信息。
在示例性实施例中,在某一数据源在预定时间段内的兴趣点数据量大于预定阈值,且该数据源的兴趣点数据不需要秒级生效时,则确定该数据源为批数据源,否则为流数据源。
在步骤S722中,若所述兴趣点数据的数据源为流数据源,则根据第二预定数量的兴趣点数据生成作业类型为流作业的待处理作业;其中所述第一预定数量大于所述第二预定数量。
本公开实施例中,第二预定数量可为1条,也可为2条等其他具体的数值,本公开的技术方案对第二预定数量的具体数值并不作特殊限定。其中,相较于作业类型为批作业的待处理作业,作业类型为流作业的待处理作业具有更高的优先级。
本公开实施例的技术方案通过根据数据源的不同对不同数量兴趣点数据分别生成不同作业类型的待处理作业,能够对兴趣点数据进行分类,并将兴趣点数据整合为待处理作业,以便于后续根据作业类型的不同的分类处理。
图9示意性示出了根据本公开的再一个实施例的数据处理方法的流程图。
如图9所示,本实施例提供的数据处理方法包括以下步骤。
在步骤S910中,将所述处理结果存储至磁盘文件中。
本公开实施例中,磁盘文件可例如为本地的磁盘文件中。
在步骤S920中,将所述处理结果上传至分布式全文检索引擎中。
本公开实施例中,分布式全文检索引擎中(ElasticSearch,ES)是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用ElasticSearch的水平伸缩性,能使数据在生产环境变得更有价值。其中,通过分布式全文检索引擎可以实现全链路查询。
在示例性实施例中,还可将处理结果的状态上报至调度库,与调度库中的已调度的所有作业进行对账,以避免出现作业处理有遗漏、差错等情况,保证作业的高效、高质处理。
在步骤S930中,若所述处理结果的状态为异常,则将所述处理结果存储至关系型数据库,以便对与所述处理结果对应的目标作业进行异步重试。
本公开实施例中,可将需要异步重试的目标作业发送至调度库,以便主调度器对该目标作业进行异步重试。
在步骤S940中,若所述处理结果的状态为正常,则将所述处理结果存储至分布式文件系统。
本公开实施例中,分布式文件系统(Hadoop Distributed File System,HDFS)。分布式文件系统可实现数据冷备份和批量查询。
图10示意性示出了根据本公开的再一个实施例的数据处理方法的流程图。
如图10所示,本实施例提供的数据处理方法包括以下步骤。
在步骤S1010中,获取调度库中的待处理作业占比。
本公开实施中,调度库的待处理作业占比指该调度库内的待处理作业与总量间的占比。
在步骤S1020中,若所述容器集群中每个容器的负载信息均大于负载阈值,则从容器池中拉起一个新容器添加至所述容器集群中。
本公开实施例中,负载阈值可例如为容器总容量的80%,本公开的技术方案对此并不作特殊限定。容器中的负载信息可包括中央处理器、内存容量、磁盘容量和网络带宽的总量、已使用量、剩余量等。
在步骤S1030中,若所述容器集群中负载信息小于负载空闲阈值的容器的数量大于容器阈值,且所述待处理作业占比小于作业阈值,则对所述容器集群中预定数值的容器执行挂起操作。
本公开实施例中,负载空闲阈值可例如为容器总容量的20%,本公开的技术方案对此并不作特殊限定。作业阈值是指调度库中已有待处理作业的总量与调度库作业容量的具体比值,该比值可例如为20%,但本公开的技术方案对此并不作特殊限定。
本公开实施例的技术方案,通过对容器进行挂起操作和创建新的容器,能够实现容器的弹性伸缩扩容,以保证作业处理的时效性。
图11示意性示出了根据本公开的再一个实施例的数据处理方法的流程图。
如图11所示,本实施例提供的数据处理方法如下所示。
首先对兴趣点数据按照数据源进行分割获得待处理作业,并将待处理作业实时写入非关系型数据库,并将待处理作业的标识信息写入调度库。
本公开实施例中,非关系型数据库中存储的待处理作业可以用于实时查询;调度库可用于维护其内存储的待处理作业的调度状态。
然后,通过协调器在调度程序群集中选举获得主调度器。
本公开实施例中,调度集群可包括三个节点,通过协调器(例如Zookeeper)进行选主,同一时刻只有一个调度器节点处于活跃状态,称为主节点(Master节点),其余两个调度器处于睡眠状态,称为冗余节点(Slave节点),如果Master节点出现异常,比如丢失连接,将通过协调器在Slave节点中再次进行选主,接替之前Master节点的工作。Master节点根据可zookeeper中注册的容器集群信息,将调度库的作业分配给对应的容器。主调度器会根据调度库中的作业进行流量控制,保证作业调度的优先级,同时根据容器的负载信息调整其运行的作业数量,进行负载控制。
下一步,通过主调度器获取目标作业,并在容器集群中确定目标容器。
在示例性实施例中,容器集群(例如sumeru平台,一种集成化的docker容器)可根据自身负载信息,进行弹性伸缩扩容或者缩容,同时节点信息注册在协调器中,包括标识信息和负载信息,以供主调度器指派目标作业使用。
在示例性实施例中,获取各数据源的配置信息并将其整合生成配置表信息,存储在协调器中。
最终,获取目标容器对目标作业的处理结果,并将处理结果存储在本地磁盘上(包括正常和异常数据);将处理结果的状态上报至分布式全文检索引擎中,供全链路查询。
在示例性实施例中,可对处理结果为正常的作业进行打包归档,存储于分布式文件系统,用于数据冷备和批量查询;处理结果为异常的数据按条写入关系型数据库,并根据异常状态标记进行异步重试或者持久存储,以保证每条数据的完备性,即100%可以持久落地。
本公开实施例中的数据处理方法剔除了单点问题,通过协调器保证了主调度器和冗余调度器的高可用性。同时,根据容器标识信息和负载信息对目标作业进行调度,同时根据作业数量,实现容器的扩容和缩容,能够保证作业的及时处理以及避免资源的浪费。此外,根据目标作业的类型不同对接不同的容器族群,能够保证处理环境的隔离,有效提高了系统的吞吐量以及数据处理的时效性。进一步地,本公开实施例的技术方案实现了目标作业的处理结果即时落地本地磁盘,并通过上报的状态和原始调度库进行对账,保证数据百分之百的处理,以及数据的全链路跟踪。
以下介绍本公开的装置实施例,可以用于执行本公开上述的数据处理方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的数据处理方法的实施例。
图12示意性示出了根据本公开的一实施例的数据处理装置的框图。
参照图12所示,根据本公开的一个实施例的数据处理装置1200,可以包括:目标作业获取模块1210、作业类型确定模块1220、目标容器确定模块1230以及目标作业处理模块1240。
在数据处理装置1200中,目标作业获取模块1210可以配置为获取目标作业。
作业类型确定模块1220可以配置为确定所述目标作业的目标作业类型。
目标容器确定模块1230可以配置为根据所述目标作业类型确定所述目标作业的目标容器。
在示例性实施例中,目标容器确定模块1230可以包括容器信息获取单元、容器族群确定单元以及目标容器确定单元。其中,容器信息获取单元可以配置为从协调器中获取容器集群中每个容器的标识信息和负载信息。容器族群确定单元可以配置为根据所述目标作业类型和每个容器的标识信息确定目标容器族群。目标容器确定单元可以配置为根据所述目标容器族群中每个容器的负载信息,确定所述目标容器。
在示例性实施例中,目标容器确定单元可以包括阈值筛选子单元以及目标容器确定子单元。其中,阈值筛选子单元可以配置为获取所述目标容器族群中负载信息小于负载阈值的容器。目标容器确定子单元可以配置为在所述目标容器族群中负载信息小于负载阈值的容器中,确定所述目标容器。
目标作业处理模块1240可以配置为通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。
在示例性实施例中,目标作业处理模块1240可以包括作业标识单元、配置表单元、兴趣点数据获取单元以及作业处理单元。其中,作业标识单元可以配置为通过所述主调度器从调度库中提取所述目标作业的标识信息并将其发送至所述目标容器。配置表单元可以配置为通过所述主调度器根据所述目标作业的标识信息从协调器中获取所述目标作业的目标数据源的配置表信息,并将其发送至所述目标容器。兴趣点数据获取单元可以配置为通过所述目标容器根据所述目标作业的标识信息从非关系型数据库中提取所述目标作业的兴趣点数据。作业处理单元可以配置为通过所述目标容器根据所述目标数据源的配置表信息对所述目标作业的兴趣点数据进行处理,获得所述处理结果。
在示例性实施例中,数据处理装置1200还可以包括调度器选举模块和更新选举模块。其中,调度器选举模块可以配置为通过协调器从所述多个调度器中选举一个调度器作为所述主调度器。更新选举模块可以配置为若所述主调度器发生异常,则通过所述协调器从余下的调度器中选举另一个调度器作为所述主调度器。
在示例性实施例中,数据处理装置1200还可以包括兴趣点数据获取模块、待处理作业生成模块、作业存储模块以及作业发送模块。其中,兴趣点数据获取模块可以配置为获取兴趣点数据。待处理作业生成模块可以配置为生成所述兴趣点数据对应的待处理作业及其标识信息,所述标识信息包括所述待处理作业的作业类型,其中所述待处理作业的作业类型根据所述兴趣点数据的数据源确定。作业存储模块可以配置为将所述待处理作业的兴趣点数据存储至非关系型数据库中。作业发送模块可以配置为将所述待处理作业的标识信息存储至调度库中。
在示例性实施例中,待处理作业生成模块可以包括批作业生成单元以及流作业生成单元。其中,批作业生成单元可以配置为若所述兴趣点数据的数据源为批数据源,则根据第一预定数量的兴趣点数据生成作业类型为批作业的待处理作业。流作业生成单元可以配置为若所述兴趣点数据的数据源为流数据源,则根据第二预定数量的兴趣点数据生成作业类型为流作业的待处理作业;其中所述第一预定数量大于所述第二预定数量。
在示例性实施例中,数据处理装置1200还可以包括结果存储模块、结果上传模块、异常处理模块以及正常存储模块。其中,结果存储模块可以配置为将所述处理结果存储至磁盘文件中。结果上传模块可以配置为将所述处理结果上传至分布式全文检索引擎中。异常处理模块可以配置为若所述处理结果的状态为异常,将所述处理结果存储至关系型数据库,以便于对与所述处理结果对应的目标作业进行异步重试。正常存储模块可以配置为若所述处理结果的状态为正常,则将所述处理结果存储至分布式文件系统。
在示例性实施例中,数据处理装置1200还可以包括负载信息获取模块、扩容模块以及缩容模块。其中,负载信息获取模块可以配置为获取调度库中的待调度作业占比。扩容模块可以配置为若所述容器集群中每个容器的负载信息均大于负载阈值,则从容器池中拉起一个新容器添加至所述容器集群中。缩容模块可以配置为若所述容器集群中负载信息小于负载空闲阈值的容器的数量大于容器阈值,且所述待处理作业占比小于作业阈值,则将对所述容器集群中预定缩容数值的小于负载空闲阈值的容器执行删除挂起操作。
本公开实施方式提供的数据处理装置,通过目标作业的目标作业类型确定该目标作业的目标容器,以使该目标容器对该目标作业进行处理,能够根据作业类型对容器进行划分,以实现业务隔离,以避免由于资源不足导致的数据丢失、任务失败的问题和资源浪费的问题,因此能够保证数据处理的高吞吐量、高时效性和高准确率。
图13示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是,图13示出的电子设备的计算机系统1300仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,计算机系统1300包括中央处理单元(CPU)1301,其可以根据存储在只读存储器(ROM)1302中的程序或者从储存部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。在RAM 1303中,还存储有系统操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
以下部件连接至I/O接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307;包括硬盘等的储存部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入储存部分1308。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图2或图3或图4或图5或图6或图7或图8或图9或图10或图11所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元或者子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元或者子单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取目标作业;
确定所述目标作业的目标作业类型;
主调度器根据所述目标作业类型确定所述目标作业的目标容器;
通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。
2.如权利要求1所述的方法,其特征在于,通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果包括:
所述主调度器从调度库中提取所述目标作业的标识信息并将其发送至所述目标容器;
所述主调度器根据所述目标作业的标识信息从协调器中获取所述目标作业的目标数据源的配置表信息,并将其发送至所述目标容器;
所述目标容器根据所述目标作业的标识信息从非关系型数据库中提取所述目标作业的兴趣点数据;
所述目标容器根据所述目标数据源的配置表信息对所述目标作业的兴趣点数据进行处理,获得所述处理结果。
3.如权利要求1所述的方法,其特征在于,主调度器根据所述目标作业类型确定所述目标作业的目标容器,包括:
所述主调度器从协调器中获取容器集群中每个容器的标识信息和负载信息;
根据所述目标作业类型和每个容器的标识信息确定目标容器族群;
根据所述目标容器族群中每个容器的负载信息,确定所述目标容器。
4.如权利要求3所述的方法,其特征在于,根据所述目标容器族群中每个容器的负载信息,确定所述目标容器,包括:
获取所述目标容器族群中负载信息小于负载阈值的容器;
在所述目标容器族群中负载信息小于负载阈值的容器中,确定所述目标容器。
5.如权利要求3所述的方法,其特征在于,还包括:
获取调度库中的待处理作业占比;
若所述容器集群中每个容器的负载信息均大于负载阈值,则从容器池中拉起一个新容器添加至所述容器集群中;
若所述容器集群中负载信息小于所述负载空闲阈值的容器的数量大于容器阈值,且所述待处理作业占比小于作业阈值,则对所述容器集群中预定数值的容器执行挂起操作。
6.如权利要求1所述的方法,其特征在于,还包括:
获取兴趣点数据;
生成所述兴趣点数据对应的待处理作业及其标识信息,所述标识信息包括所述待处理作业的作业类型,其中所述待处理作业的作业类型根据所述兴趣点数据的数据源确定;
将所述待处理作业的兴趣点数据存储至非关系型数据库中;
将所述待处理作业的标识信息存储至调度库中。
7.如权利要求6所述的方法,其特征在于,生成所述兴趣点数据对应的待处理作业及其标识信息,包括:
若所述兴趣点数据的数据源为批数据源,则根据第一预定数量的兴趣点数据生成作业类型为批作业的待处理作业;
若所述兴趣点数据的数据源为流数据源,则根据第二预定数量的兴趣点数据生成作业类型为流作业的待处理作业;
其中所述第一预定数量大于所述第二预定数量。
8.如权利要求1所述的方法,其特征在于,还包括:
将所述处理结果存储至磁盘文件中;
将所述处理结果上传至分布式全文检索引擎中;
若所述处理结果的状态为异常,则将所述处理结果存储至关系型数据库,以便对与所述处理结果对应的目标作业进行异步重试;
若所述处理结果的状态为正常,则将所述处理结果存储至分布式文件系统。
9.一种数据处理装置,其特征在于,包括:
目标作业获取模块,用于获取目标作业;
作业类型确定模块,用于确定所述目标作业的目标作业类型;
目标容器确定模块,用于主调度器根据所述目标作业类型确定所述目标作业的目标容器;
目标作业处理模块,用于通过所述目标容器对所述目标作业进行处理,获得所述目标作业的处理结果。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
CN201910872981.1A 2019-09-16 2019-09-16 数据处理方法、装置及电子设备 Active CN110782122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872981.1A CN110782122B (zh) 2019-09-16 2019-09-16 数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872981.1A CN110782122B (zh) 2019-09-16 2019-09-16 数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110782122A true CN110782122A (zh) 2020-02-11
CN110782122B CN110782122B (zh) 2023-11-24

Family

ID=69384170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872981.1A Active CN110782122B (zh) 2019-09-16 2019-09-16 数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110782122B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111290838A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于容器集群的应用访问请求处理方法及装置
CN113204420A (zh) * 2021-05-28 2021-08-03 中国工商银行股份有限公司 一种基于分布式缓存的作业调度方法及装置
CN113434551A (zh) * 2021-06-28 2021-09-24 北京百度网讯科技有限公司 数据处理方法、装置、设备和计算机存储介质
CN114860390A (zh) * 2022-07-07 2022-08-05 中航金网(北京)电子商务有限公司 容器数据管理方法、装置、程序产品、介质及电子设备

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751396A (zh) * 2008-11-28 2010-06-23 张政 一种兴趣点信息加工处理系统
CN101853604A (zh) * 2009-04-03 2010-10-06 上海任登信息科技有限公司 一种电子地图中兴趣点的显示方法
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN104239453A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 数据处理方法及装置
CN105023188A (zh) * 2015-01-07 2015-11-04 泰华智慧产业集团股份有限公司 一种基于云数据的数字化城市管理数据共享系统
US20170006135A1 (en) * 2015-01-23 2017-01-05 C3, Inc. Systems, methods, and devices for an enterprise internet-of-things application development platform
CN106323266A (zh) * 2015-06-15 2017-01-11 北京四维图新科技股份有限公司 一种兴趣点位置信息处理方法及装置
CN106453564A (zh) * 2016-10-18 2017-02-22 北京京东尚科信息技术有限公司 弹性云分布式海量请求处理的方法、装置及系统
CN106469339A (zh) * 2015-08-14 2017-03-01 江贻芳 一种围绕地理信息应用并提供基础服务的系统
CN106549829A (zh) * 2016-10-28 2017-03-29 北方工业大学 大数据计算平台监控系统及方法
CN106776039A (zh) * 2016-12-30 2017-05-31 广东欧珀移动通信有限公司 一种数据处理方法及装置
CN108351876A (zh) * 2015-09-22 2018-07-31 纽昂斯通讯公司 用于兴趣点识别的系统和方法
CN108769905A (zh) * 2018-05-31 2018-11-06 上海连尚网络科技有限公司 用于确定无线接入点的类别的方法及装置
CN108833527A (zh) * 2018-06-08 2018-11-16 腾讯大地通途(北京)科技有限公司 一种兴趣点下线方法以及相关设备
CN109522138A (zh) * 2018-11-14 2019-03-26 北京中电普华信息技术有限公司 一种分布式流数据的处理方法及系统
CN110019600A (zh) * 2017-10-13 2019-07-16 腾讯科技(深圳)有限公司 一种地图处理方法、装置及存储介质
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN110134754A (zh) * 2019-05-23 2019-08-16 北京百度网讯科技有限公司 区域兴趣点的作业时长预测方法、装置、服务器和介质
CN110210856A (zh) * 2019-04-30 2019-09-06 重庆小雨点小额贷款有限公司 区块链数据处理方法、装置、服务器及存储介质
CN110209492A (zh) * 2019-03-21 2019-09-06 腾讯科技(深圳)有限公司 一种数据处理方法及装置

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751396A (zh) * 2008-11-28 2010-06-23 张政 一种兴趣点信息加工处理系统
CN101853604A (zh) * 2009-04-03 2010-10-06 上海任登信息科技有限公司 一种电子地图中兴趣点的显示方法
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN104239453A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 数据处理方法及装置
CN105023188A (zh) * 2015-01-07 2015-11-04 泰华智慧产业集团股份有限公司 一种基于云数据的数字化城市管理数据共享系统
US20170006135A1 (en) * 2015-01-23 2017-01-05 C3, Inc. Systems, methods, and devices for an enterprise internet-of-things application development platform
CN106323266A (zh) * 2015-06-15 2017-01-11 北京四维图新科技股份有限公司 一种兴趣点位置信息处理方法及装置
CN106469339A (zh) * 2015-08-14 2017-03-01 江贻芳 一种围绕地理信息应用并提供基础服务的系统
CN108351876A (zh) * 2015-09-22 2018-07-31 纽昂斯通讯公司 用于兴趣点识别的系统和方法
CN106453564A (zh) * 2016-10-18 2017-02-22 北京京东尚科信息技术有限公司 弹性云分布式海量请求处理的方法、装置及系统
CN106549829A (zh) * 2016-10-28 2017-03-29 北方工业大学 大数据计算平台监控系统及方法
CN106776039A (zh) * 2016-12-30 2017-05-31 广东欧珀移动通信有限公司 一种数据处理方法及装置
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN110019600A (zh) * 2017-10-13 2019-07-16 腾讯科技(深圳)有限公司 一种地图处理方法、装置及存储介质
CN108769905A (zh) * 2018-05-31 2018-11-06 上海连尚网络科技有限公司 用于确定无线接入点的类别的方法及装置
CN108833527A (zh) * 2018-06-08 2018-11-16 腾讯大地通途(北京)科技有限公司 一种兴趣点下线方法以及相关设备
CN109522138A (zh) * 2018-11-14 2019-03-26 北京中电普华信息技术有限公司 一种分布式流数据的处理方法及系统
CN110209492A (zh) * 2019-03-21 2019-09-06 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN110210856A (zh) * 2019-04-30 2019-09-06 重庆小雨点小额贷款有限公司 区块链数据处理方法、装置、服务器及存储介质
CN110134754A (zh) * 2019-05-23 2019-08-16 北京百度网讯科技有限公司 区域兴趣点的作业时长预测方法、装置、服务器和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔斌: "新型数据管理系统研究进展与趋势", 软件学报, vol. 30, no. 01, pages 164 - 193 *
张莉;汪伟;: "大数据在计算机信息处理技术中的应用", 淮北职业技术学院学报, vol. 13, no. 06, pages 130 - 132 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111290838A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于容器集群的应用访问请求处理方法及装置
CN113204420A (zh) * 2021-05-28 2021-08-03 中国工商银行股份有限公司 一种基于分布式缓存的作业调度方法及装置
CN113434551A (zh) * 2021-06-28 2021-09-24 北京百度网讯科技有限公司 数据处理方法、装置、设备和计算机存储介质
CN114860390A (zh) * 2022-07-07 2022-08-05 中航金网(北京)电子商务有限公司 容器数据管理方法、装置、程序产品、介质及电子设备
CN114860390B (zh) * 2022-07-07 2023-01-17 中航金网(北京)电子商务有限公司 容器数据管理方法、装置、程序产品、介质及电子设备

Also Published As

Publication number Publication date
CN110782122B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN110782122B (zh) 数据处理方法、装置及电子设备
WO2020258290A1 (zh) 日志数据收集方法、日志数据收集装置、存储介质和日志数据收集系统
US9852035B2 (en) High availability dynamic restart priority calculator
US10146592B2 (en) Managing resource allocation in a stream processing framework
CN108182111B (zh) 任务调度系统、方法和装置
US9558045B2 (en) Realizing graph processing based on the MapReduce architecture
CN110245023B (zh) 分布式调度方法及装置、电子设备以及计算机存储介质
CN114169427B (zh) 基于端到端自适应的分布式训练方法、装置、设备
CN111950988B (zh) 分布式工作流调度方法、装置、存储介质及电子设备
CN109117252B (zh) 基于容器的任务处理的方法、系统及容器集群管理系统
US8478623B2 (en) Automated derivation, design and execution of industry-specific information environment
Dai et al. An improved task assignment scheme for Hadoop running in the clouds
CN116508019A (zh) 用于数据库管理系统的基于学习的工作负载资源优化
CN111506414B (zh) 资源调度方法、装置、设备、系统及可读存储介质
CN114090201A (zh) 资源调度方法、装置、设备及存储介质
CN115220131A (zh) 气象数据质检方法及系统
CN112988383A (zh) 一种资源分配方法、装置、设备以及存储介质
CN112749204A (zh) 一种读取数据的方法和装置
CN111683154B (zh) 一种内容推送的方法、装置、介质及电子设备
CN116719584B (zh) 数据处理方法、装置、计算机、存储介质及程序产品
CN114153620B (zh) Hudi运行环境资源优化分配方法及装置
CN112965827B (zh) 信息调度方法、装置、电子设备和计算机介质
US20230108982A1 (en) Data processing utilizing an asynchronous communication repository
CN116755893B (zh) 面向深度学习的分布式计算系统的作业调度方法和装置
CN112988528B (zh) 日志处理方法、装置及容器组

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021694

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant