CN106445676A - 一种分布式数据计算的任务分配方法和任务分配装置 - Google Patents

一种分布式数据计算的任务分配方法和任务分配装置 Download PDF

Info

Publication number
CN106445676A
CN106445676A CN201510472782.3A CN201510472782A CN106445676A CN 106445676 A CN106445676 A CN 106445676A CN 201510472782 A CN201510472782 A CN 201510472782A CN 106445676 A CN106445676 A CN 106445676A
Authority
CN
China
Prior art keywords
data
subregion
distributed
slice
memory node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510472782.3A
Other languages
English (en)
Other versions
CN106445676B (zh
Inventor
刘志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Hangzhou Hikvision System Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201510472782.3A priority Critical patent/CN106445676B/zh
Priority to EP16832125.5A priority patent/EP3333718B1/en
Priority to PCT/CN2016/083279 priority patent/WO2017020637A1/zh
Priority to US15/749,999 priority patent/US11182211B2/en
Publication of CN106445676A publication Critical patent/CN106445676A/zh
Application granted granted Critical
Publication of CN106445676B publication Critical patent/CN106445676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式数据计算的任务分配方法和任务分配装置。该任务分配方法,包括:接收分布式数据中计算的目标数据的存储参数;根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区;将分区指定到存储节点生成计算任务进行计算。通过分布式数据库中的数据存储信息将计算任务分配到数据对应的存储节点,计算过程中只需调用本地内存数据,减少了多次数据转发导致的IO冗余和耗时。

Description

一种分布式数据计算的任务分配方法和任务分配装置
技术领域
本发明涉及视频监控技术领域,尤其涉及一种分布式数据计算的任务分配方法和任务分配装置。
背景技术
目前Spark中弹性分布式数据集的数据初始化方式主要有两种:直接从集合中获取数据,并存入RDD(Resilient Distributed Datasets,弹性分布式数据集)中;读取本地或者分布式文件系统(HDFS、S3等)的文本文件、sequence文件等。对于HBase中的数据,主要是通过HBase客户端拉取数据,进行转化处理后,保存到RDD中,分发到多个切片中,再通过RDD的算子进行分布式计算。这样数据需要反复走网络,造成IO冗余,增加耗时。
发明内容
本发明的目的是提供一种分布式数据计算的任务分配方法和任务分配装置,其将分布式数据库中的数据存储信息作为计算任务的参数,再将计算任务分配到数据存储信息对应的存储节点,由存储节点对计算任务中指向的数据进行计算,计算过程中只需调用本地内存数据,减少了多次数据转发导致的IO冗余和耗时。
为实现上述目的,具体采用以下技术方案:
一方面采用一种分布式数据计算的任务分配方法,包括:
接收分布式数据中计算的目标数据的存储参数;
根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区;
将分区指定到存储节点生成计算任务进行计算。
另一方面采用一种分布式数据计算的任务分配装置,包括:
目标数据确认单元,用于接收分布式数据中计算的目标数据的存储参数;
目标数据映射单元,用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区;
计算任务分配单元,用于将分区指定到存储节点生成计算任务进行计算。
本发明的有益效果在于:通过将分布式数据库中的数据存储信息作为计算任务的参数,再将计算任务分配到数据存储信息对应的存储节点,由存储节点对计算任务中指向的数据进行计算,计算过程中只需调用本地内存数据,减少了多次数据转发导致的IO冗余和耗时。
附图说明
图1是本发明具体实施方式中提供的一种分布式数据计算的任务分配方法的第一实施例的方法流程图;
图2是本发明具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例的方法流程图;
图3是本发明具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例中数据的结构示意图;
图4是本发明具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例中计算任务的示意图;
图5是本发明具体实施方式中提供的一种分布式数据计算的任务分配装置的第一实施例的结构方框图;
图6是本发明具体实施方式中提供的一种分布式数据计算的任务分配装置的第二实施例的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
请参考图1,其是本发明具体实施方式中提供的一种分布式数据计算的任务分配方法的第一实施例的方法流程图。本实施例中的任务分配方法,主要用于分布式数据库中对大量数据进行并行计算,提高计算效率。如图所示,该任务分配方法,包括:
步骤S101:接收分布式数据中计算的目标数据的存储参数。
分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。
分布式数据中计算的目标数据只是一个存储节点其中的一个或多个数据表,具体到数据表中的一段数据。在进行任务分配时,进行任务分配的节点只需要读取待处理的数据在数据表中的起始位置即可,不需要将所有的数据集中到本节点。如果将所有的数据本身集中到一个节点,可能需要几TB的数据传输量,如果仅仅将目标数据的存储参数集中,可能只需要不超过5M的数据传输量,免除了数据集中时大量的数据传输。
步骤S102:根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区。
一般而言,需要处理的数据在数据表中是一段连续的记录,这一段连续的记录分属于不同的存储节点,为方便数据处理,免除数据传输。在分布式数据库中,每一个数据片中的数据都是位于同一存储节点。在本方案中,即以数据片为基本的数据单位进行处理。
步骤S103:将分区指定到存储节点生成计算任务进行计算。
在将计算任务发送到存储节点进行处理时,并不是如现有技术中,将需要处理的数据随机派发到存储节点,而是根据存储信息发送到数据片对应的存储节点,并且发送的内容也不是大量的数据本身,而是数据的相关存储参数,各个存储节点在接收到计算任务之后,根据数据片所在的目标表的表名、数据片的起始和终止位置读取数据,根据计算方式执行计算任务。整个计算过程中,所有的数据都相当于从本地读取,减少了数据IO冗余,避免了由此导致的耗时。
综上所述,通过将分布式数据库中的数据存储信息作为计算任务的参数,再将计算任务分配到数据存储信息对应的存储节点,由存储节点对计算任务中指向的数据进行计算,计算过程中只需调用本地内存数据,减少了多次数据转发导致的IO冗余和耗时。
请参考图2,其是发明具体实施方式中提供的一种分布式数据计算的任务分配方法的第二实施例的方法流程图,如图所示,该方法包括:
步骤S201:接收分布式数据中计算的目标数据的存储参数。
所述分布式数据的数据库为HBase。
HBase是一个分布式的、面向列的开源数据库,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库;另一个不同的是HBase基于列的而不是基于行的模式。
本实施例中基于HBase的方案,相当于自定义弹性数据集,根据HBase的数据分区规则与用户输入的目标数据范围划分弹性数据集,将HBase数据表的数据片映射到弹性数据集的分区,指定分区数据的处理节点。实现在使用并行计算框架(例如Spark)分布式计算HBase表数据时,Spark的工作节点中的任务所处理的数据均是本节点内存中的HBase数据,最终实现针对HBase数据的分布式内存并行计算。
步骤S202:根据所述存储参数判断所述数据片中的数据是否全部属于目标数据。
在分布式数据库中,随着数据表中记录的不断增加,数据表会分裂成多个数据片,每个数据片中对应的数据存储到一个存储节点。具体到HBase中,当数据表随着记录数不断增加而变大后,会逐渐分裂成多份regions,一个region由[startkey,endkey)表示,其中startkey和endkey分别表示region的起始位置和终止位置;不同的region会被Master分配给相应的RegionServer进行管理,存储信息相当于RegionServer的信息。
在本方案中,目标数据至少与两个数据片相关联,如果所有的目标数据处于同一存储节点中,直接向该存储节点发送计算任务即可,无需进行并行计算。
因为单个数据片中的数据不一定全是需要计算的目标数据,在实际进行计算时,需要对数据片中的数据进行校准,将需要进行处理的数据映射到弹性分布式数据集中,弹性分布式数据集的一个分区对应一个数据片,弹性分布式数据集中的数据均是需要处理的目标数据。
步骤S203:若所述数据片中的数据全部属于目标数据,将该数据片映射到弹性分布式数据集的一个分区。
步骤S204:若所述数据片中的数据不是全部属于目标数据,将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。
因为数据片中本身已经记载有该数据片的存储节点的相关信息,在映射到分区时,分区同样会携带存储节点的相关信息。
步骤S205:将分区指定到该分区对应的数据片所在的存储节点。
各个分区有数据片映射而来,携带有数据片对应的存储信息,直接根据存储信息指定到对应的存储节点即可。
步骤S206:调用转化算子,在所述存储节点根据分区的数据生成计算任务。
步骤S207:调用行动算子对所述计算任务进行计算。
计算任务已经在每个存储节点中生成,每个存储节点的计算任务根据计算任务数据单调用本存储节点中与计算任务相关的数据,对其进行计算。
步骤S208:接收每个存储节点返回的计算任务的处理结果。
各个存储节点对计算任务的处理结果需要回收,各个存储节点本身也可能缓存处理结果,供迭代使用。
针对HBase中的任务分配方法的处理过程,结合图3和图4,对本方案进行进一步说明。
在分配计算任务前,获取目标数据的目标表的表名、目标表中目标数据的起始位置、目标表中目标数据的终止位置;其中目标数据的结构如图3所示,其中TableDes表示目标表的表名,Lx表示目标数据的起始位置,Ly表示目标数据的终止位置。获取目标数据关联的至少也两个数据片,也就是图3中的数据片Region1、Region2、Region3、…、Regioni,每个数据片Regioni的起始位置和终止位置分别为Lm、Ln(m=2i-1,n=2i),即HBase数据库中该数据片的起止位置。再将数据片中的无效数据去除后得到更加精确的分区P1、P2、P3、…、Pi。分区的起止位置也作为参数创建弹性分布式数据集的分区。数据片和分区的关系如图3所示。图3中所示的L1-Lx、Ly-Ln区间内的数据即为无效数据。
将HBase的Region数据映射到弹性分布式数据集的分区,每个相关的Region产生一个分区,对应将会生成一个计算任务。通过Regioni信息得到该Regioni所在节点Ni,Regioni对应弹性数据集的分区Pi,在最优选择Pi的处理节点时,指定为Ni。调用存储节点的转化算子,生成弹性分布式数据集中所有分区P1、P2、P3…Pi的计算任务Task1、Task2、Task3…Taski。Task根据分区产生,与对应的分区数据在同一存储节点。从而保证处理Regioni数据的存储节点就是Regioni所在的存储节点。HBase的数据片Regioni,弹性数据集的分区Pi(数据片Pi),存储节点Ni,作业Taski的对应关系如图4所示。
存储节点Ni中Pi读取本节点内存中Regioni数据,Ti处理Pi分区数据,节点Ni执行作业Ti,得到结果Ri返回,同时可以缓存中间结果,供迭代使用。
调用行动算子,执行作业Task1、Task2、Task3、…、Taski,进行不同的业务。通过弹性分布式数据集汇总所有作业的结果数据,完成计算任务。
整体而言,需要处理的数据量越大,本方案的技术效果越明显,由发送1M数据变为发送1M数据的存储信息,其减少的IO冗余和耗时还可以说不太明显;但是发送1G数据甚至1T数据变为发送1G数据甚至1T数据的存储信息,其减少的IO冗余和耗时则是十分突出的。
综上所述,通过将分布式数据库中的数据存储信息作为计算任务的参数,再将计算任务分配到数据存储信息对应的存储节点,由存储节点对计算任务中指向的数据进行计算,计算过程中只需调用本地内存数据,减少了多次数据转发导致的IO冗余和耗时。
以下是本发明具体实施方式中提供的一种分布式数据计算的任务分配装置的实施例,任务分配装置的实施例基于上述的任务分配方法的实施例实现,在任务分配装置的实施例中未尽的阐述,请参考上述的任务分配方法的实施例。
请参考图5,其是本发明具体实施方式中提供的一种分布式数据计算的任务分配装置的第一实施例的结构方框图,如图所示,该任务分配装置,包括:
目标数据确认单元310,用于接收分布式数据中计算的目标数据的存储参数;
目标数据映射单元320,用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区;
计算任务分配单元330,用于将分区指定到存储节点生成计算任务进行计算。
在本方案中,任何一个存储节点都可进行计算任务的派发,其它任何具备权限的客户端可以根据用户的需要选择数据派发计算任务,因为用户端本身不涉及到数据本身的传输和访问,所以只要能够通过网络接入分布式数据库的终端设备基本都可是实现该方案,实现对数据库的更为广泛的使用。
综上所述,上述各单元的协同工作,通过将分布式数据库中的数据存储信息作为计算任务的参数,再将计算任务分配到数据存储信息对应的存储节点,由存储节点对计算任务中指向的数据进行计算,计算过程中只需调用本地内存数据,减少了多次数据转发导致的IO冗余和耗时。
请参考图6,其是本发明具体实施方式中提供的一种分布式数据计算的任务分配装置的第二实施例的结构方框图,如图所示,该任务分配装置,包括:
目标数据确认单元310,用于接收分布式数据中计算的目标数据的存储参数;
目标数据映射元320,用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区;
计算任务分配单元330,用于将分区指定到存储节点生成计算任务进行计算。
其中,所述目标数据映射单元320,包括:
数据片判断模块321,用于根据所述存储参数判断所述数据片中的数据是否全部属于目标数据;
第一映射模块322,用于若所述数据片中的数据全部属于目标数据,将该数据片映射到弹性分布式数据集的一个分区;
第二映射模块323,用于若所述数据片中的数据不是全部属于目标数据,将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。
其中,所述计算任务分配单元330,包括:
分区指定模块331,用于将分区指定到该分区对应的数据片所在的存储节点;
计算任务生成模块332,用于调用转化算子,在所述存储节点根据分区的数据生成计算任务;
计算任务执行模块333,用于调用行动算子对所述计算任务进行计算。
其中,还包括:
结果接收单元340,用于接收每个存储节点返回的计算任务的处理结果。
其中,所述分布式数据的数据库为HBase。
综上所述,上述各单元和模块的协同合作,通过将分布式数据库中的数据存储信息作为计算任务的参数,再将计算任务分配到数据存储信息对应的存储节点,由存储节点对计算任务中指向的数据进行计算,计算过程中只需调用本地内存数据,减少了多次数据转发导致的IO冗余和耗时。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
尽管已经详细描述了本发明的实施方式,但是应该理解的是,在不偏离本发明的精神和范围的情况下,可以对本发明的实施方式做出各种改变、替换和变更。

Claims (10)

1.一种分布式数据计算的任务分配方法,其特征在于,包括:
接收分布式数据中计算的目标数据的存储参数;
根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区;
将分区指定到存储节点生成计算任务进行计算。
2.根据权利要求1所述的一种分布式数据计算的任务分配方法,其特征在于,所述根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区,包括:
根据所述存储参数判断所述数据片中的数据是否全部属于目标数据;
若所述数据片中的数据全部属于目标数据,将该数据片映射到弹性分布式数据集的一个分区;
若所述数据片中的数据不是全部属于目标数据,将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。
3.根据权利要求1所述的一种分布式数据计算的任务分配方法,其特征在于,所述将分区指定到存储节点生成计算任务进行计算,包括:
将分区指定到该分区对应的数据片所在的存储节点;
调用转化算子,在所述存储节点根据分区的数据生成计算任务;
调用行动算子对所述计算任务进行计算。
4.根据权利要求3所述的一种分布式数据计算的任务分配方法,其特征在于,所述将分区指定到存储节点生成计算任务进行计算之后,还包括:
接收存储节点返回的计算任务的处理结果。
5.根据权利要求1所述的一种分布式数据计算的任务分配方法,其特征在于,所述分布式数据的数据库为HBase。
6.一种分布式数据计算的任务分配装置,其特征在于,包括:
目标数据确认单元,用于接收分布式数据中计算的目标数据的存储参数;
目标数据映射单元,用于根据所述存储参数将所述目标数据的数据片映射到弹性分布式数据集,每个数据片分别对应所述弹性分布式数据集中的一个分区;
计算任务分配单元,用于将分区指定到存储节点生成计算任务进行计算。
7.根据权利要求6所述的一种分布式数据计算的任务分配装置,其特征在于,所述目标数据映射单元,包括:
数据片判断模块,用于根据所述存储参数判断所述数据片中的数据是否全部属于目标数据;
第一映射模块,用于若所述数据片中的数据全部属于目标数据,将该数据片映射到弹性分布式数据集的一个分区;
第二映射模块,用于若所述数据片中的数据不是全部属于目标数据,将该数据片中属于目标数据的部分映射到弹性分布式数据集的一个分区。
8.根据权利要求6所述的一种分布式数据计算的任务分配装置,其特征在于,所述计算任务分配单元,包括:
分区指定模块,用于将分区指定到该分区对应的数据片所在的存储节点;
计算任务生成模块,用于调用转化算子,在所述存储节点根据分区的数据生成计算任务;
计算任务执行模块,用于调用行动算子对所述计算任务进行计算。
9.根据权利要求8所述的一种分布式数据计算的任务分配装置,其特征在于,还包括:
结果接收单元,用于接收每个存储节点返回的计算任务的处理结果。
10.根据权利要求6所述的一种分布式数据计算的任务分配装置,其特征在于,所述分布式数据的数据库为HBase。
CN201510472782.3A 2015-08-05 2015-08-05 一种分布式数据计算的任务分配方法和任务分配装置 Active CN106445676B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510472782.3A CN106445676B (zh) 2015-08-05 2015-08-05 一种分布式数据计算的任务分配方法和任务分配装置
EP16832125.5A EP3333718B1 (en) 2015-08-05 2016-05-25 Task allocation method and task allocation apparatus for distributed data calculation
PCT/CN2016/083279 WO2017020637A1 (zh) 2015-08-05 2016-05-25 一种分布式数据计算的任务分配方法和任务分配装置
US15/749,999 US11182211B2 (en) 2015-08-05 2016-05-25 Task allocation method and task allocation apparatus for distributed data calculation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510472782.3A CN106445676B (zh) 2015-08-05 2015-08-05 一种分布式数据计算的任务分配方法和任务分配装置

Publications (2)

Publication Number Publication Date
CN106445676A true CN106445676A (zh) 2017-02-22
CN106445676B CN106445676B (zh) 2019-10-22

Family

ID=57942390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510472782.3A Active CN106445676B (zh) 2015-08-05 2015-08-05 一种分布式数据计算的任务分配方法和任务分配装置

Country Status (4)

Country Link
US (1) US11182211B2 (zh)
EP (1) EP3333718B1 (zh)
CN (1) CN106445676B (zh)
WO (1) WO2017020637A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256158A (zh) * 2017-06-07 2017-10-17 广州供电局有限公司 电力系统负荷削减量的检测方法和系统
CN107679701A (zh) * 2017-09-08 2018-02-09 广州供电局有限公司 负荷削减并行计算方法及装置
CN107704320A (zh) * 2017-05-12 2018-02-16 贵州白山云科技有限公司 一种分布式系统的任务分配方法及系统
CN107888684A (zh) * 2017-11-13 2018-04-06 小草数语(北京)科技有限公司 分布式系统计算任务处理方法、装置及控制器
CN108932157A (zh) * 2017-05-22 2018-12-04 北京京东尚科信息技术有限公司 分布式处理任务的方法、系统、电子设备和可读介质
CN109034381A (zh) * 2017-06-09 2018-12-18 宏达国际电子股份有限公司 训练任务优化系统、方法及其非暂态电脑可读媒体
CN109428861A (zh) * 2017-08-29 2019-03-05 阿里巴巴集团控股有限公司 网络通信方法及设备
CN110109892A (zh) * 2018-01-25 2019-08-09 杭州海康威视数字技术股份有限公司 一种数据迁移方法、装置及电子设备
CN111190949A (zh) * 2018-11-15 2020-05-22 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN112685438A (zh) * 2020-12-29 2021-04-20 杭州海康威视数字技术股份有限公司 数据处理系统、方法、装置及存储介质
CN113626207A (zh) * 2021-10-12 2021-11-09 苍穹数码技术股份有限公司 地图数据处理方法、装置、设备及存储介质
CN114398105A (zh) * 2022-01-20 2022-04-26 北京奥星贝斯科技有限公司 一种计算引擎从分布式数据库加载数据的方法及装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183904B (zh) * 2015-09-30 2020-01-10 北京金山安全软件有限公司 一种信息推送方法、装置及电子设备
CN109636097B (zh) * 2018-11-01 2021-09-21 中车工业研究院有限公司 一种产品设计任务的分配方法及装置
CN110795217B (zh) * 2019-09-27 2022-07-15 广东浪潮大数据研究有限公司 一种基于资源管理平台的任务分配方法及系统
CN110855671B (zh) * 2019-11-15 2022-02-08 三星电子(中国)研发中心 一种可信计算方法和系统
CN111090519B (zh) * 2019-12-05 2024-04-09 东软集团股份有限公司 任务执行方法、装置、存储介质及电子设备
CN115551548A (zh) * 2020-03-23 2022-12-30 赫德特生物公司 用于rna递送的组合物和方法
CN113672356A (zh) * 2020-05-13 2021-11-19 北京三快在线科技有限公司 计算资源调度方法和装置、存储介质和电子设备
CN112084017B (zh) * 2020-07-30 2024-04-19 北京聚云科技有限公司 一种内存管理方法、装置、电子设备及存储介质
CN112487125B (zh) * 2020-12-09 2022-08-16 武汉大学 一种面向时空大数据计算的分布式空间对象组织方法
CN112685177A (zh) * 2020-12-25 2021-04-20 联想(北京)有限公司 一种服务器节点的任务分配方法及装置
CN112965796B (zh) * 2021-03-01 2024-04-09 亿企赢网络科技有限公司 一种任务调度系统、方法和装置
CN114386384B (zh) * 2021-12-06 2024-03-19 鹏城实验室 一种大规模长文本数据的近似重复检测方法、系统及终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170649A (ja) * 2010-02-19 2011-09-01 Fujitsu Ltd 分散処理システム、分散処理方法、及びプログラム
US20110258246A1 (en) * 2010-04-14 2011-10-20 International Business Machines Corporation Distributed solutions for large-scale resource assignment tasks
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置
US8418181B1 (en) * 2009-06-02 2013-04-09 Amazon Technologies, Inc. Managing program execution based on data storage location
US20130232184A1 (en) * 2012-03-02 2013-09-05 Cleversafe, Inc. Redundant Task Execution in a Distributed Storage and Task Network
CN104360903A (zh) * 2014-11-18 2015-02-18 北京美琦华悦通讯科技有限公司 Spark作业调度系统中实现任务数据解耦的方法
US20150066646A1 (en) * 2013-08-27 2015-03-05 Yahoo! Inc. Spark satellite clusters to hadoop data stores

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5813025A (en) * 1994-08-10 1998-09-22 Unisys Corporation System and method for providing variable sector-format operation to a disk access system
KR20120082218A (ko) * 2011-01-13 2012-07-23 (주)인디링스 파티션 정보를 기초로 호스트의 요청에 대한 처리 기법을 적응적으로 결정하는 스토리지 장치 및 상기 스토리지 장치의 동작 방법
CN103677752B (zh) * 2012-09-19 2017-02-08 腾讯科技(深圳)有限公司 基于分布式数据的并发处理方法和系统
US9330055B2 (en) * 2013-06-04 2016-05-03 International Business Machines Corporation Modular architecture for extreme-scale distributed processing applications
US9338234B2 (en) * 2014-04-16 2016-05-10 Microsoft Technology Licensing, Llc Functional programming in distributed computing
US9369782B2 (en) * 2014-09-17 2016-06-14 Neurio Technology Inc. On-board feature extraction and selection from high frequency electricity consumption data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8418181B1 (en) * 2009-06-02 2013-04-09 Amazon Technologies, Inc. Managing program execution based on data storage location
JP2011170649A (ja) * 2010-02-19 2011-09-01 Fujitsu Ltd 分散処理システム、分散処理方法、及びプログラム
US20110258246A1 (en) * 2010-04-14 2011-10-20 International Business Machines Corporation Distributed solutions for large-scale resource assignment tasks
US20130232184A1 (en) * 2012-03-02 2013-09-05 Cleversafe, Inc. Redundant Task Execution in a Distributed Storage and Task Network
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置
US20150066646A1 (en) * 2013-08-27 2015-03-05 Yahoo! Inc. Spark satellite clusters to hadoop data stores
CN104360903A (zh) * 2014-11-18 2015-02-18 北京美琦华悦通讯科技有限公司 Spark作业调度系统中实现任务数据解耦的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾涛: "集群MapReduce环境中任务和作业调度若干关键问题的研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704320A (zh) * 2017-05-12 2018-02-16 贵州白山云科技有限公司 一种分布式系统的任务分配方法及系统
CN108932157A (zh) * 2017-05-22 2018-12-04 北京京东尚科信息技术有限公司 分布式处理任务的方法、系统、电子设备和可读介质
CN107256158A (zh) * 2017-06-07 2017-10-17 广州供电局有限公司 电力系统负荷削减量的检测方法和系统
US11144828B2 (en) 2017-06-09 2021-10-12 Htc Corporation Training task optimization system, training task optimization method and non-transitory computer readable medium for operating the same
CN109034381A (zh) * 2017-06-09 2018-12-18 宏达国际电子股份有限公司 训练任务优化系统、方法及其非暂态电脑可读媒体
CN109428861A (zh) * 2017-08-29 2019-03-05 阿里巴巴集团控股有限公司 网络通信方法及设备
CN107679701A (zh) * 2017-09-08 2018-02-09 广州供电局有限公司 负荷削减并行计算方法及装置
CN107679701B (zh) * 2017-09-08 2021-02-05 广州供电局有限公司 负荷削减并行计算方法及装置
CN107888684A (zh) * 2017-11-13 2018-04-06 小草数语(北京)科技有限公司 分布式系统计算任务处理方法、装置及控制器
CN110109892A (zh) * 2018-01-25 2019-08-09 杭州海康威视数字技术股份有限公司 一种数据迁移方法、装置及电子设备
CN111190949A (zh) * 2018-11-15 2020-05-22 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN111190949B (zh) * 2018-11-15 2023-09-26 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN112685438A (zh) * 2020-12-29 2021-04-20 杭州海康威视数字技术股份有限公司 数据处理系统、方法、装置及存储介质
CN113626207A (zh) * 2021-10-12 2021-11-09 苍穹数码技术股份有限公司 地图数据处理方法、装置、设备及存储介质
CN113626207B (zh) * 2021-10-12 2022-03-08 苍穹数码技术股份有限公司 地图数据处理方法、装置、设备及存储介质
CN114398105A (zh) * 2022-01-20 2022-04-26 北京奥星贝斯科技有限公司 一种计算引擎从分布式数据库加载数据的方法及装置

Also Published As

Publication number Publication date
US11182211B2 (en) 2021-11-23
CN106445676B (zh) 2019-10-22
US20180232257A1 (en) 2018-08-16
EP3333718A4 (en) 2019-03-27
EP3333718B1 (en) 2020-06-24
WO2017020637A1 (zh) 2017-02-09
EP3333718A1 (en) 2018-06-13

Similar Documents

Publication Publication Date Title
CN106445676A (zh) 一种分布式数据计算的任务分配方法和任务分配装置
CN106034160B (zh) 分布式计算系统和方法
Gandini et al. Performance evaluation of NoSQL databases
CN103870435B (zh) 服务器及数据访问方法
CN104834722A (zh) 基于cdn的内容管理系统
CN108182213A (zh) 一种基于分布式系统的数据处理优化装置及方法
CN105138679B (zh) 一种基于分布式缓存的数据处理系统及处理方法
CN103607424B (zh) 一种服务器连接方法及服务器系统
CN104298541A (zh) 云存储系统的数据分布算法及其装置
CN108021429B (zh) 一种基于numa架构的虚拟机内存及网卡资源亲和度计算方法
CN103218404A (zh) 一种基于关联特性的多维元数据管理方法和系统
CN103399894A (zh) 一种基于共享存储池的分布式事务处理方法
CN106502875A (zh) 一种基于云计算的日志生成方法及系统
CN103631933A (zh) 一种面向分布式去重系统的数据路由方法
TW201248418A (en) Distributed caching and cache analysis
CN104636395A (zh) 一种计数处理方法及装置
Cao et al. Timon: A timestamped event database for efficient telemetry data processing and analytics
CN110147470A (zh) 一种跨机房数据比对系统及方法
CN104283966A (zh) 云存储系统的数据分布算法及其装置
CN107276914B (zh) 基于cmdb的自助资源分配调度的方法
CN103473848A (zh) 一种基于高并发的网络发票查验构架及方法
CN101800768A (zh) 一种基于存储联盟子集划分的网格数据副本生成方法
CN105354091A (zh) 一种基于空间位置的弹性负载均衡方法及系统
CN107786358A (zh) 分布式系统及该分布式系统的扩容方法
CN106789147A (zh) 一种流量分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant