CN110309116A - 数据处理方法和装置 - Google Patents
数据处理方法和装置 Download PDFInfo
- Publication number
- CN110309116A CN110309116A CN201810223517.5A CN201810223517A CN110309116A CN 110309116 A CN110309116 A CN 110309116A CN 201810223517 A CN201810223517 A CN 201810223517A CN 110309116 A CN110309116 A CN 110309116A
- Authority
- CN
- China
- Prior art keywords
- source data
- commodity
- measurement type
- data set
- distributed memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000005259 measurement Methods 0.000 claims abstract description 156
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000009826 distribution Methods 0.000 claims abstract description 53
- 238000003860 storage Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000006116 polymerization reaction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000006854 communication Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013068 supply chain management Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了数据处理方法和装置。该方法的一具体实施方式包括:利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;利用分布式内存计算引擎基于获取到的源数据集合得到目标源数据序列,处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。实现了通过分布式内存文件系统存储与商品对应的统计类型相关联的源数据集合和商品对应的统计类型对应的处理操作的执行过程中生成的弹性分布式数据集,使得分布式内存计算引擎可以专注于执行商品对应的统计类型对应的处理操作,无需对源数据、弹性分布式数据集的存储进行管理,提升了计算效率。
Description
技术领域
本申请涉及计算机领域,具体涉及互联网领域,尤其涉及数据处理方法和装置。
背景技术
在商品的供应链管理中,获取诸如销量、库存等商品对应的统计类型的时间有序的源数据是关键环节之一。目前,通常采用的方式为:利用分布式内存计算引擎存储与商品对应的统计类型相关联的源数据集合以及对与商品对应的统计类型相关联的源数据集合进行处理,得到商品对应的统计类型的时间有序的数据。
发明内容
本申请实施例提供了数据处理方法和装置。
第一方面,本申请实施例提供了数据处理方法,该方法包括:利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列,其中,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定,所述处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。
第二方面,本申请实施例提供了数据处理装置,该装置包括:获取单元,配置用于利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;处理单元,配置用于利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列,其中,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定,所述处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。
本申请实施例提供的数据处理方法和装置,通过利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列,其中,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定,所述处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。实现了通过分布式内存文件系统存储与商品对应的统计类型相关联的源数据集合和商品对应的统计类型对应的处理操作的执行过程中生成的弹性分布式数据集,使得分布式内存计算引擎可以专注于执行商品对应的统计类型对应的处理操作,分布式内存计算引擎无需对源数据、弹性分布式数据集的存储进行管理,提升了计算效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用于本申请的数据处理方法的实施例的示例性系统架构图;
图2示出了根据本申请的数据处理方法的一个实施例的流程图;
图3示出了利用算子得到目标源数据序列的一个示例性流程图;
图4示出了弹性分布式数据集的依赖关系的一个示意图;
图5示出了根据本申请的数据处理装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了可以应用于本申请的数据处理方法的实施例的示例性系统架构图。
如图1所示,系统架构包括服务器集群101、服务器集群102、服务器集群103。服务器集群101上运行有分布式内存计算引擎。分布式内存计算引擎可以为Spark。服务器集群102上运行有分布式内存文件系统。分布式内存文件系统可以为Tachyon。服务器集群103上运行有分布式存储系统。
请参考图2,其示出了根据本申请的数据处理方法的一个实施例的流程。本申请实施例所提供的数据处理方法可以由服务器(例如图1中的服务器集群101中的服务器)执行。该方法包括以下步骤:
步骤201,利用分布式内存计算引擎从分布式内存文件系统中获取源数据集合。
在本实施例中,商品可以是指一款商品。在商品的供应链管理中,基础统计类型包括:销量、价格、库存等。基础统计类型的子类型可以作为商品对应的统计类型。
例如,在商品的供应链管理中,基础统计类型销量的总销量、大单销量等总销量的子类型可以作为商品对应的统计类型。
在本实施例中,与商品对应的统计类型相关联的源数据集合中的源数据在分布式内存文件系统中。分布式内存计算引擎可以从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合。源数据可以以条为单位,分布式内存计算引擎可以从分布式内存文件系统中获取商品对应的多个统计类型的统计数据相关联的多条源数据。
例如,对于总销量,大单销量等商品对应的统计类型,获取到的与总销量相关联的源数据、与大单销量相关联的源数据均包括电商系统中存储的每一天的各个的商品的总销量,一条源数据包括:商品的名称、商品在一天内的总销量。
在本实施例中,分布式内存计算引擎可以为Spark,分布式内存文件系统可以为Tachyon,可以利用Tachyon存储与商品对应的统计类型相关联的源数据集合。可以采用页面置换算法确保Spark需要频繁访问的与商品对应的统计类型相关联的源数据一直存储在Tachyon中,快速地访问到与商品对应的统计类型相关联的源数据。与商品对应的统计类型相关联的源数据集合以及商品对应的统计类型对应的处理操作在执行过程中生成的弹性分布式数据集(Resilient Distributed Datasets,简称RDD)和可以存储在Tachyon中。在通过Spark基于与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列时,Spark可以从Tachyon中获取与商品对应的统计类型相关联的源数据集合。在利用Spark执行商品对应的统计类型对应的处理操作的过程中,可以获取存储在Tachyon中的弹性分布式数据集,以及将基于该弹性分布式数据集生成的新的弹性分布式数据集写入到Tachyon中。通过Tachyon存储商品对应的统计类型相关联的源数据集合和商品对应的统计类型对应的处理操作的执行过程中生成的弹性分布式数据集,使得Spark可以专注于执行商品对应的统计类型对应的处理操作,Spark无需对源数据、弹性分布式数据集的存储进行管理,提升了计算效率。
在本实施例的一些可选的实现方式中,在利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合之前,可以预先将与商品对应的统计类型相关联的源数据集合从与商品对应的统计类型相关联的源数据集合的源存储区域拉取到分布式内存文件系统中。与商品对应的统计类型相关联的源数据集合的源存储区域可以为分布式文件系统、数据库中的存储区域。
在将与商品对应的统计类型相关联的源数据集合从源存储区域拉取到分布式内存文件系统中之后,可以基于拉取的与商品对应的统计类型相关联的源数据集合中的源数据的总数量以及预设分区最大存储数量,确定分布式内存文件系统中存储与商品对应的统计类型相关联的分区的数量。可以预先设置分区最大存储数量,分区最大存储数量为分布式内存文件系统中的一个分区存储源数据的数量的最大值即一个分区存储的源数据的条数的最大值。每一个分区的分区最大存储数量相同。在基于拉取的与商品对应的统计类型相关联的源数据集合中的源数据的总数量即源数据的总条数以及预设分区最大存储数量,确定分布式内存文件系统中存储与商品对应的统计类型相关联的源数据集合中的源数据的分区的数量时,可以将与商品对应的统计类型相关联的源数据集合中的源数据的总数量除以预设分区最大存储数量得到的结果作为存储与商品对应的统计类型相关联的源数据集合中的源数据的分区的数量。然后,可以创建分布式内存文件系统中确定出的数量个用于存储与商品对应的统计类型相关联的源数据集合中的源数据的分区,以及将与商品对应的统计类型相关联的源数据集合中的源数据存储在创建的分区中。除了最后一个分区,其他分区中均存储最大存储数量条与商品对应的统计类型相关联的源数据集合中的源数据,最后一个分区存储剩余的与商品对应的统计类型相关联的源数据集合中的源数据。从而,使得每个分区存储的与商品对应的统计类型相关联的源数据集合的数量基本相同,避免了因为数据倾斜造成的计算资源浪费,从而提高系统性能。
步骤202,利用分布式内存计算引擎基于获取到的源数据集合,执行处理操作得到目标源数据序列。
在本实施例中,分布式内存计算引擎在获取到与商品对应的统计类型相关联的源数据集合之后,分布式内存计算引擎可以创建多个用于执行与商品对应的统计类型对应的处理操作的分布式计算任务,利用多个用于执行与商品对应的统计类型对应的处理操作的分布式计算任务基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列。目标源数据序列中的源数据均为属于商品对应的统计类型的源数据,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定。商品对应的统计类型对应的处理操作包括确定与商品对应的统计类型相关联的源数据集合中属于商品对应的统计类型的源数据,以及对属于商品对应的统计类型的源数据按照源数据的采集时间进行排序,从而,得到目标源数据序列。
例如,对于属于基础统计类型销量的总销量、大单销量等商品对应的统计类型,获取到的与总销量相关联的源数据、与大单销量相关联的源数据均包括电商系统中存储的每一天的各个的商品的总销量,一条源数据包括:商品的名称、商品在一天内的总销量。商品对应的统计类型总销量对应的处理操作为按照采集时间对获取到的源数据进行排序,得到包含属于总销量的源数据的目标源数据序列。大单销量对应的处理操作包括确定获取到的源数据中属于大单销量的源数据,对属于大单销量的源数据进行排序,得到包含属于大单销量的源数据的目标源数据序列。
在本实施例的一些可选的实现方式中,在利用分布式内存计算引擎基于从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合时,分布式内存计算引擎可以创建多个用于执行商品对应的统计类型对应的处理操作的分布式计算任务,利用多个用于执行商品对应的统计类型对应的处理操作的分布式计算任务中的每一个分布式计算任务分别读取分布式内存文件系统中的存储与商品对应的统计类型相关联的源数据集合中的源数据的分区中的与商品对应的统计类型相关联的源数据集合中的源数据。创建的每一个分布式计算任务读取的源数据所在的分布式内存文件系统中的分区不同,通过每一个分布式计算任务各自读取到的源数据的总和为商品对应的统计类型相关联的源数据的总数量。
在利用多个用于执行与商品对应的统计类型对应的处理操作的分布式计算任务基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列时,可以由每一个创建的分布式计算任务分别确定各自读取到的源数据中属于商品对应的统计类型的源数据以及对属于商品对应的统计类型的源数据进行局部聚合,得到每一个创建的分布式计算任务各自对应的局部源数据序列。局部源数据序列中的属于商品对应的统计类型的源数据的次序根据属于商品对应的统计类型的源数据采集时间而确定。
在一个创建的分布式计算任务对由该创建的分布式计算任务从分布式内存文件系统中的分区中读取的源数据进行局部聚合时,可以首先生成由该创建的分布式计算任务从分布式内存文件系统中的分区中读取到的源数据对应的弹性分布式数据集,然后,将该弹性分布式数据集中的数据转换为预设格式,由局部聚合算子进行格式转换后源数据对应的弹性分布式数据集中的数据进行局部聚合,得到属于商品对应的统计类型的局部源数据序列。
在每一个创建的分布式计算任务分别对各自读取到的源数据进行局部聚合,得到每一个创建的分布式计算任务对应的局部源数据序列之后,可以对每一个创建的分布式计算任务对应的局部源数据序列进行全局聚合,得到目标源数据序列。
在创建的用于执行与商品对应的统计类型对应的处理操作的分布式计算任务中,可以利用源数据读取算子、格式转换算子、局部聚合算子执行相应的操作对商品对应的统计类型的源数据进行局部聚合。可以利用全局聚合算子对通过每一个创建的分布式计算任务得到的属于商品对应的统计类型的局部源数据序列进行全局聚合,得到目标源数据序列。
以商品对应的统计类型为总销量为例,可以利用源数据读取算子从分布式内存存储系统的分区中读取与总销量相关联的源数据,确定与总销量相关联的源数据中属于总销量的所有源数据,以及生成属于总销量的所有源数据对应的弹性分布式数据集。可以由格式转换算子将属于总销量的所有源数据对应的弹性分布式数据集中的数据转换为预设格式(rowkey,(start_date,num))格式。rowkey可以表示商品的名称的标识,start_date可以表示起始日期,num可以表示商品一天内的总销量。假设一个分布式计算任务对进行格式转换后属于总销量的所有源数据对应的弹性分布式数据集中的数据包括:(rowkey1,(‘2017-08-01’,5))、(rowkey1,(‘2017-08-02’,7))、(rowkey1,(‘2017-08-03’,8))、(rowkey1,(‘2017-08-04’,4))、(rowkey2,(‘2017-07-03’,2))、(rowkey2,(‘2017-07-04’,6))。rowkey1、rowkey2为商品的名称的标识,2017-08-01、2017-08-02等为日期,日期之后的数字为日期对应的一天内商品的总销量。可以由局部聚合算子进行格式转换后源数据对应的弹性分布式数据集中的数据按照(rowkey,(start_date,list))格式进行局部聚合,list表示局部源数据序列。局部聚合后得到数据(rowkey1,(‘2017-08-01’,[5,7]))、(rowkey1,(‘2017-08-03’,[8,4]))、(rowkey2,(‘2017-07-03’,[2,6]))。[5,7]、[8,4]为属于商品标识为rowkey1的商品对应的统计类型销量的局部源数据序列,[2,6]为属于商品标识为rowkey2的商品对应的统计类型销量的局部源数据序列。然后,可以可以利用全局聚合算子对通过每一个创建的分布式计算任务得到的属于商品对应的统计类型的局部源数据序列进行全局聚合,得到目标源数据序列
请参考图3,其示出了利用算子得到目标源数据序列的一个示例性流程图。
Block1、Block2、Block3表示分布式内存文件系统中的存储与商品对应的统计类型相关联的源数据集合的分区,mapPartitions1、mapPartitions2、mapPartitions3表示不同的分布式计算任务中的源数据读取算子,createCombiner 1、createCombiner2、createCombiner3表示不同的分布式计算任务中的格式转换算子,mergeValue1、mergeValue2、mergeValue3表示不同的分布式计算任务中的局部聚合算子,mergeCombiners表示全局聚合算子。
在本实施例的一些可选的实现方式中,分布式内存计算引擎可以为Spark,分布式内存文件系统可以为Tachyon,Spark通过有向无环图控制各个弹性分布式数据集的依赖关系。可以确定Spark在执行商品对应的统计类型对应的处理操作的过程中被利用的次数大于次数阈值的弹性分布式数据集,将Spark在执行商品对应的统计类型对应的处理操作的过程中被利用的次数大于次数阈值的弹性分布式数据集在Tachyon中进行缓存,避免弹性分布式数据集的重复计算,提高系统性能。
请参考图4,其示出弹性分布式数据集的依赖关系的一个示意图。
在图4中,示出了执行处理操作的过程中利用的弹性分布式数据集RDD1-RDD8。在执行处理操作的过程中,为得到弹性分布式数据集RDD6、RDD7、RDD8,均需要利用弹性分布式数据集RDD5,可以将弹性分布式数据集RDD5缓存到Tachyon,从而,在需要得到弹性分布式数据集RDD6、RDD7、RDD8时,均可以直接从Tachyon中读取出缓存的弹性分布式数据集RDD5,无需重新计算弹性分布式数据集RDD5,避免了对弹性分布式数据集RDD5的重复计算。
在本实施例中,分布式内存计算引擎可以为Spark,分布式计算任务称之为Task,分布式计算任务在分布式计算任务执行进程中,分布式计算任务执行进程称之为Executor。一个分布式计算任务执行进程中包含至少一个分布式计算任务。
在本实施例的一些可选的实现方式中,在利用分布式内存计算引擎获取存储在分布式内存文件系统中的源数据集合之前,可以将商品的覆盖关系表作为广播变量以广播方式发送至分布式内存计算引擎创建的每一个包含创建的用于执行商品对应的统计类型对应的处理操作的分布式计算任务的分布式计算任务执行进程,从而,以广播方式发送至分布式内存计算引擎创建的每一个用于执行商品对应的统计类型对应的处理操作的分布式计算任务。商品的覆盖关系表包括:商品对应的统计类型的名称。商品对应的统计类型的数量可以为多个,商品的覆盖关系表中包括商品对应的每一个统计类型的名称。
每一个分布式计算任务执行进程中的用于执行商品对应的统计类型对应的处理操作的分布式计算任务可以根据覆盖关系表,确定商品对应的统计类型,进而从分布式内存存储系统的分区中读取出商品对应的统计类型的源数据。分布式计算任务执行进程在接收到商品的覆盖关系表之后,可以根据商品的覆盖关系表得到字典类型的数据。字典类型的数据中,包括商品对应的每一个统计类型的名称和商品对应的每一个统计类型的名称的标识。商品的覆盖关系表在每一个分布式计算任务执行进程中只存储一份,一个分布式计算任务执行进程内的所有分布式计算任务可以共享该覆盖关系表,减少了数据传输,提高了系统性能。在通过分布式计算任务执行处理操作时,分布式计算任务可以根据字典类型的数据,将每一条源数据中的商品名称替换为商品的名称的标识,从而,减少了源数据之间的拼接操作即join操作的开销。
请参考图5,作为对上述各图所示方法的实现,本申请提供了一种数据处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应。
如图5所示,本实施例的数据处理装置包括:获取单元501,处理单元502。其中,获取单元501配置用于利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;处理单元502配置用于利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列,其中,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定,所述处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。
在本实施例的一些可选的实现方式中,数据处理装置还包括:存储单元,配置用于在利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合之前,将与商品对应的统计类型相关联的源数据集合从与所述商品对应的统计类型相关联的源数据集合的源存储区域拉取到分布式内存文件系统中;基于与商品对应的统计类型相关联的源数据集合中的源数据的总数量以及分区最大存储数量,确定分布式内存文件系统中存储所述与商品对应的统计类型相关联的源数据集合中的源数据的分区的数量,其中,分区最大存储数量为分布式内存文件系统中的分区中存储源数据的数量的最大值;创建分布式内存文件系统中的确定出的数量个分区,以及将所述与商品对应的统计类型相关联的源数据集合中的源数据存储在创建出的分区中。
在本实施例的一些可选的实现方式中,处理单元包括:读取子单元,配置用于利用分布式内存计算引擎创建多个用于执行商品对应的统计类型对应的处理操作的分布式计算任务;对于创建的每一个分布式计算任务,利用所述分布式计算任务从分布式内存文件系统中的存储与商品对应的统计类型相关联的源数据集合中的源数据的分区中读取与商品对应的统计类型相关联的源数据集合中的源数据;聚合子单元,配置用于对于创建的每一个分布式计算任务,利用分布式计算任务确定所述分布式计算任务读取到的源数据中的属于所述商品对应的统计类型的源数据;对确定出的属于商品对应的统计类型的源数据进行局部聚合,得到属于商品对应的统计类型的局部源数据序列,其中,所述局部源数据序列中的由所述分布式计算任务读取到的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定;对通过创建的每一个分布式计算任务得到的属于商品对应的统计类型的局部源数据序列进行全局聚合,得到目标源数据序列。
在本实施例的一些可选的实现方式中,数据处理装置还包括:缓存单元,配置用于确定商品对应的统计类型对应的处理操作的执行过程中被利用的次数大于次数阈值的弹性分布式数据集;将确定出的弹性分布式数据集在分布式内存文件系统中进行缓存。
在本实施例的一些可选的实现方式中,数据处理装置还包括:发送单元,配置用于将商品的覆盖关系表作为广播变量以广播方式发送至创建的每一个分布式计算任务,所述商品的覆盖关系表包括:商品对应的统计类型的名称。
图6示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
如图6所示,计算机系统包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:输入部分606;输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,本申请的实施例中描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
本申请还提供了一种服务器,该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述步骤201-202中描述的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述步骤201-202中描述的操作。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。上述计算机可读介质承载有一个或者多个程序,当一个或者多个程序被服务器执行时,使得服务器:利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列,其中,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定,所述处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被消息执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由消息执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行消息。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机消息的组合来实现。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种数据处理方法,包括:
利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;
利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列,其中,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定,所述处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。
2.根据权利要求1所述的方法,在利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合之前,所述方法还包括:
将与商品对应的统计类型相关联的源数据集合从与所述商品对应的统计类型相关联的源数据集合的源存储区域拉取到分布式内存文件系统中;
基于与商品对应的统计类型相关联的源数据集合中的源数据的总数量以及分区最大存储数量,确定分布式内存文件系统中存储所述与商品对应的统计类型相关联的源数据集合中的源数据的分区的数量,其中,分区最大存储数量为分布式内存文件系统中的分区中存储源数据的数量的最大值;
创建分布式内存文件系统中的确定出的数量个分区,以及将所述与商品对应的统计类型相关联的源数据集合中的源数据存储在创建出的分区中。
3.根据权利要求2所述的方法,利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合包括:
利用分布式内存计算引擎创建多个用于执行商品对应的统计类型对应的处理操作的分布式计算任务;
对于创建的每一个分布式计算任务,利用所述分布式计算任务从分布式内存文件系统中的存储与商品对应的统计类型相关联的源数据集合中的源数据的分区中读取与商品对应的统计类型相关联的源数据集合中的源数据;以及
利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作包括:
对于创建的每一个分布式计算任务,利用分布式计算任务确定所述分布式计算任务读取到的源数据中的属于所述商品对应的统计类型的源数据;对确定出的属于商品对应的统计类型的源数据进行局部聚合,得到属于商品对应的统计类型的局部源数据序列,其中,所述局部源数据序列中的由所述分布式计算任务读取到的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定;
对通过创建的每一个分布式计算任务得到的属于商品对应的统计类型的局部源数据序列进行全局聚合,得到目标源数据序列。
4.根据权利要求3所述的方法,所述方法还包括:
确定商品对应的统计类型对应的处理操作的执行过程中被利用的次数大于次数阈值的弹性分布式数据集;
将确定出的弹性分布式数据集在分布式内存文件系统中进行缓存。
5.根据权利要求4所述的方法,所述方法还包括:
将商品的覆盖关系表作为广播变量以广播方式发送至创建的每一个分布式计算任务,所述商品的覆盖关系表包括:商品对应的统计类型的名称。
6.一种数据处理装置,所述装置包括:
获取单元,配置用于利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合;
处理单元,配置用于利用分布式内存计算引擎基于获取到的与商品对应的统计类型相关联的源数据集合,执行商品对应的统计类型对应的处理操作,得到目标源数据序列,其中,目标源数据序列中的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定,所述处理操作在执行过程中生成的弹性分布式数据集存储在分布式内存文件系统中。
7.根据权利要求6所述的装置,所述装置还包括:
存储单元,配置用于在利用分布式内存计算引擎从分布式内存文件系统中获取与商品对应的统计类型相关联的源数据集合之前,将与商品对应的统计类型相关联的源数据集合从与所述商品对应的统计类型相关联的源数据集合的源存储区域拉取到分布式内存文件系统中;基于与商品对应的统计类型相关联的源数据集合中的源数据的总数量以及分区最大存储数量,确定分布式内存文件系统中存储所述与商品对应的统计类型相关联的源数据集合中的源数据的分区的数量,其中,分区最大存储数量为分布式内存文件系统中的分区中存储源数据的数量的最大值;创建分布式内存文件系统中的确定出的数量个分区,以及将所述与商品对应的统计类型相关联的源数据集合中的源数据存储在创建出的分区中。
8.根据权利要求7所述的装置,处理单元包括:
读取子单元,配置用于利用分布式内存计算引擎创建多个用于执行商品对应的统计类型对应的处理操作的分布式计算任务;对于创建的每一个分布式计算任务,利用所述分布式计算任务从分布式内存文件系统中的存储与商品对应的统计类型相关联的源数据集合中的源数据的分区中读取与商品对应的统计类型相关联的源数据集合中的源数据;
聚合子单元,配置用于对于创建的每一个分布式计算任务,利用分布式计算任务确定所述分布式计算任务读取到的源数据中的属于所述商品对应的统计类型的源数据;对确定出的属于商品对应的统计类型的源数据进行局部聚合,得到属于商品对应的统计类型的局部源数据序列,其中,所述局部源数据序列中的由所述分布式计算任务读取到的属于商品对应的统计类型的源数据的次序根据源数据的采集时间而确定;对通过创建的每一个分布式计算任务得到的属于商品对应的统计类型的局部源数据序列进行全局聚合,得到目标源数据序列。
9.根据权利要求8所述的装置,所述装置还包括:
缓存单元,配置用于确定商品对应的统计类型对应的处理操作的执行过程中被利用的次数大于次数阈值的弹性分布式数据集;将确定出的弹性分布式数据集在分布式内存文件系统中进行缓存。
10.根据权利要求9所述的装置,所述装置还包括:
发送单元,配置用于将商品的覆盖关系表作为广播变量以广播方式发送至创建的每一个分布式计算任务,所述商品的覆盖关系表包括:商品对应的统计类型的名称。
11.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其特征在于,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810223517.5A CN110309116B (zh) | 2018-03-19 | 2018-03-19 | 数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810223517.5A CN110309116B (zh) | 2018-03-19 | 2018-03-19 | 数据处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309116A true CN110309116A (zh) | 2019-10-08 |
CN110309116B CN110309116B (zh) | 2024-05-21 |
Family
ID=68073314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810223517.5A Active CN110309116B (zh) | 2018-03-19 | 2018-03-19 | 数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309116B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070061543A1 (en) * | 2005-09-13 | 2007-03-15 | Mahat Technologies | Method for a distributed column chunk data store |
CN105573674A (zh) * | 2015-12-15 | 2016-05-11 | 西安交通大学 | 一种面向海量小文件的分布式存储方法 |
US20160212584A1 (en) * | 2013-10-24 | 2016-07-21 | Nec Europe Ltd. | Method for performing distributed geographic event processing and geographic event processing system |
US20170139976A1 (en) * | 2015-11-18 | 2017-05-18 | American Express Travel Related Services Company, Inc. | Integrated big data interface for multiple storage types |
CN107015989A (zh) * | 2016-01-27 | 2017-08-04 | 博雅网络游戏开发(深圳)有限公司 | 数据处理方法和装置 |
US20170270179A1 (en) * | 2016-03-15 | 2017-09-21 | International Business Machines Corporation | Providing global metadata in a cluster computing environment |
CN107357874A (zh) * | 2017-07-04 | 2017-11-17 | 北京京东尚科信息技术有限公司 | 用户分类方法及装置、电子设备、存储介质 |
CN107526546A (zh) * | 2017-08-25 | 2017-12-29 | 深圳大学 | 一种Spark分布式计算数据处理方法及系统 |
-
2018
- 2018-03-19 CN CN201810223517.5A patent/CN110309116B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070061543A1 (en) * | 2005-09-13 | 2007-03-15 | Mahat Technologies | Method for a distributed column chunk data store |
US20160212584A1 (en) * | 2013-10-24 | 2016-07-21 | Nec Europe Ltd. | Method for performing distributed geographic event processing and geographic event processing system |
US20170139976A1 (en) * | 2015-11-18 | 2017-05-18 | American Express Travel Related Services Company, Inc. | Integrated big data interface for multiple storage types |
CN105573674A (zh) * | 2015-12-15 | 2016-05-11 | 西安交通大学 | 一种面向海量小文件的分布式存储方法 |
CN107015989A (zh) * | 2016-01-27 | 2017-08-04 | 博雅网络游戏开发(深圳)有限公司 | 数据处理方法和装置 |
US20170270179A1 (en) * | 2016-03-15 | 2017-09-21 | International Business Machines Corporation | Providing global metadata in a cluster computing environment |
CN107357874A (zh) * | 2017-07-04 | 2017-11-17 | 北京京东尚科信息技术有限公司 | 用户分类方法及装置、电子设备、存储介质 |
CN107526546A (zh) * | 2017-08-25 | 2017-12-29 | 深圳大学 | 一种Spark分布式计算数据处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
VIJAY AKKINENI: ""Predictive Spatio-Temporal Query Processor on Resilient Distributed Datasets"", 2016 IEEE INTERNATIONAL CONFERENCES ON BIG DATA AND CLOUD COMPUTING (BDCLOUD), SOCIAL COMPUTING AND NETWORKING (SOCIALCOM), SUSTAINABLE COMPUTING AND COMMUNICATIONS (SUSTAINCOM) (BDCLOUD-SOCIALCOM-SUSTAINCOM) * |
肖金: ""面向分布式存储系统的数据一致性协议设计与优化"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110309116B (zh) | 2024-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033001A (zh) | 用于分配gpu的方法和装置 | |
CN107845011B (zh) | 用于处理订单的方法和装置 | |
CN108933822B (zh) | 用于处理信息的方法和装置 | |
CN105550270B (zh) | 数据库查询方法和装置 | |
CN108415964A (zh) | 数据表查询方法、装置、终端设备及存储介质 | |
CN110738477A (zh) | 一种对账方法、装置、计算机设备及存储介质 | |
CN110019080A (zh) | 数据访问方法和装置 | |
CN107622102A (zh) | 实体卡号生成方法及终端设备 | |
CN109388626A (zh) | 用于向业务分配编号的方法和装置 | |
WO2019076001A1 (zh) | 信息更新方法和装置 | |
CN110019214A (zh) | 对数据拆分结果进行校验的方法和装置 | |
CN106708822A (zh) | 一种文件存储方法和装置 | |
CN111444077A (zh) | 一种生成流程节点测试数据的方法和装置 | |
CN105095515A (zh) | 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备 | |
CN105677645A (zh) | 一种数据表比对方法和装置 | |
CN110362583A (zh) | 一种用于多数据源的数据处理方法和装置 | |
CN108804451B (zh) | 生成主键的方法、装置、电子设备和可读存储介质 | |
CN110276566A (zh) | 信息输出方法和装置 | |
CN111339743A (zh) | 一种账号生成的方法和装置 | |
CN110309116A (zh) | 数据处理方法和装置 | |
CN110019531A (zh) | 一种获取相似对象集合的方法和装置 | |
CN109144991A (zh) | 动态分表的方法、装置、电子设备和计算机可存储介质 | |
CN110120959A (zh) | 大数据推送方法、装置、系统、设备及可读存储介质 | |
CN114996503A (zh) | 一种节点定位方法和装置 | |
US10719516B2 (en) | Scalable multistage processing of queries with percentile functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |