CN107526573B - 采用并行流水线处理遥感图像的方法 - Google Patents

采用并行流水线处理遥感图像的方法 Download PDF

Info

Publication number
CN107526573B
CN107526573B CN201710627108.7A CN201710627108A CN107526573B CN 107526573 B CN107526573 B CN 107526573B CN 201710627108 A CN201710627108 A CN 201710627108A CN 107526573 B CN107526573 B CN 107526573B
Authority
CN
China
Prior art keywords
module
modules
data stream
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710627108.7A
Other languages
English (en)
Other versions
CN107526573A (zh
Inventor
王小燕
徐文
吕争
李运伟
刘明亮
徐建艳
喻文勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Center for Resource Satellite Data and Applications CRESDA
Original Assignee
China Center for Resource Satellite Data and Applications CRESDA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Center for Resource Satellite Data and Applications CRESDA filed Critical China Center for Resource Satellite Data and Applications CRESDA
Priority to CN201710627108.7A priority Critical patent/CN107526573B/zh
Publication of CN107526573A publication Critical patent/CN107526573A/zh
Application granted granted Critical
Publication of CN107526573B publication Critical patent/CN107526573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3867Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/16Indexing scheme for image data processing or generation, in general involving adaptation to the client's capabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及采用并行流水线处理遥感图像的方法,在各个处理模块之间也无需落盘。用户能够通过指定输入输出,方便地将遥感数据从一个状态或格式处理到下一状态或格式,具体步骤包括:(1)注册可用模块,包括模块的名称,输入和输出数据流的名称以及启动模块的所需信息;(2)根据作业的输入和输出数据流,挑选作业所需模块和中间数据流;(3)创建管道和分割器模块;(4)创建读写模块和处理模块;(5)执行所述可用模块、读写模块和处理模块;(6)释放所述可用模块、读写模块、处理模块和管道,该方法能够最大限度的提高数据处理的效率,同时充分利用现有主机的多CPU计算能力,在灵活性和高效率之间能同时达到最优。

Description

采用并行流水线处理遥感图像的方法
技术领域
本发明涉及采用并行流水线处理遥感图像的方法,属于计算机技术,遥感地面处理,并行计算技术领域。
背景技术
现今,遥感卫星及其搭载的载荷越来越复杂:1、数据量成几何级数增大,一次接收需要记录的文件大小一般在几十GB,甚至几百GB;2、处理过程也非常复杂,常常需要多步才能处理到最终结果;3、载荷的种类,模式繁多,算法复杂,在研制和运行过程中不得不将处理分解为多个中间结果存盘,以使用分析工具事后找出问题。
现有的遥感处理软件使用的工作流系统对待处理的中间结果时存在一个困境:如果把中间结果存盘为文件,那么多个步骤之间读入读出磁盘常常耗费过多的时间。而把中间结果保存在一个缓冲中,却因为主机内存的限制无法做到这一点。
发明内容
本发明的目的在于克服现有技术的上述不足,提供一种采用并行流水线处理遥感图像的方法,该方法能够最大限度的提高数据处理的效率,同时充分利用现有主机的多CPU计算能力,在灵活性和高效率之间能同时达到最优。
本发明的上述目的主要是通过如下技术方案予以实现的:
采用并行流水线处理遥感图像的方法,包括:
注册可用模块,包括模块的名称,输入和输出数据流的名称以及启动模块的所需信息;
根据作业的输入和输出数据流,挑选作业所需模块和中间数据流;
创建管道和分割器模块;
创建读写模块和处理模块;
执行所述可用模块、读写模块和处理模块;
释放所述可用模块、读写模块、处理模块和管道。
在上述采用并行流水线处理遥感图像的方法中,所述注册的可用模块包括处理模块、读模块和写模块,可用模块至少有一个输入或者输出的数据流,所述数据流使用管道作为模块之间的传输介质,任意两个模块不能有一个相同的输出数据流。
在上述采用并行流水线处理遥感图像的方法中,根据作业的输入和输出数据流,挑选作业所需模块和中间数据流的具体方法如下:
(1)、选取作业的一个输出;
(2)、选取作业的一个输入;
(3)、找到所述输入和输出之间的最短路径,把所述最短路径经过的模块合并到模块集合中,把所述最短路径经过的中间数据流合并到中间数据流集合中;
(4)、若已选取作业的全部输入,进入步骤(5),否则返回步骤(2);
(5)、判断经过所述作业的输出的路径数量是否为0,若为0,表明所述作业输出错误,进入步骤(10);否则进入步骤(6);
(6)、若已选取作业的全部输出,进入步骤(7);否则返回步骤(1);
(7)、选取作业的一个模块;
(8)、判断所述模块的所有输入是否已经在作业的模块集合或者中间数据流集合中,若不在,表明所述模块的输入错误,进入步骤(10);否则进入步骤(9);
(9)、判断是否取得所述作业的全部模块,若是,则进入步骤(10),否则,返回步骤(7);
(10)、结束。
在上述采用并行流水线处理遥感图像的方法中,所述步骤(3)中采用广度优先遍历算法找到输入和输出之间的最短路径。
在上述采用并行流水线处理遥感图像的方法中,所述创建管道和分割器模块的具体方法如下:
(1)、从中间数据流集合中得到有效数据流集合;
(2)、从有效数据流集合中选取一个数据流;
(3)、得到使用所述数据流的模块集合,所述模块集合包括输入模块集合和输出模块集合,输入模块集合指模块集合中的每一个模块均是以所述数据流作为输入;输出模块集合指模块集合中的每一个模块均是以所述数据流作为输出;
(4)、根据所述步骤(2)中的数据流与步骤(3)中的模块集合创建一个管道;
(5)、判断输出模块集合中的模块个数,若模块个数大于1,则判断出现错误,进入步骤(7);若模块个数为1,则将所述数据流与输出模块集合作为键值,将创建的管道的指针加入哈希表中;
(6)、判断输入模块集合中的模块个数,若模块个数大于1,则表明所述数据流对应多个输入模块,创建一个分割器;若模块个数为1,则将所述数据流与输入模块集合作为键值,将创建的管道的指针加入哈希表中;
(7)、结束。
在上述采用并行流水线处理遥感图像的方法中,重复步骤(2)~(4),完成所有管道的创建;重复步骤(2)~(7),完成所有分割器的创建。
在上述采用并行流水线处理遥感图像的方法中,所述步骤(1)中的有效数据流,是指参与作业流程的数据流,即所有的数据流减去重复的或者无效的数据流;所述数据流包括输入数据流,输出数据流和中间数据流。
在上述采用并行流水线处理遥感图像的方法中,处理遥感图像的方法在处理器的内存中进行,中途无需落盘,以提高效率。
本发明与现有技术相比具有如下有益效果:
(1)、本发明考虑所有的模块的全部输入和输出,建立一张完全的有向无环图;再根据当前作业的输入和输出,判断出需要启动的模块和管道,组成一个并行流水线;最后执行此并行流水线,完成作业任务,能够最大限度的提高数据处理的效率,同时充分利用现有主机的多CPU计算能力,这样的设计在灵活性和高效率之间能同时达到最优。
(2)、本发明方法能够处理远超过主机内存的遥感数据,在各个处理模块之间也无需落盘,用户能够通过指定输入输出,方便地将遥感数据从一个状态或格式处理到下一状态或格式,由于遥感数据的处理过程始终在内存中进行,中途无需落盘,大大提高了处理效率。
(3)、本发明处理方法中使用者可以简单的改变作业的输入和输出,将数据从任一种状态(或格式)处理到另一种状态(或格式),而无需更新程序或者担心经过多个处理步骤带来的处理效率问题。
(4)、本发明处理方法中使用者通过将注册不同的模块,就可以轻易改变不同数据格式间处理转换使用的算法,具有较强的灵活性;另外,若处理模块发生变化,只需要对处理模块重新注册即可。
(5)、本发明处理方法具有良好的容错性、可扩展性和可移植性。
附图说明
图1为本发明采用并行流水线处理遥感图像的方法流程图。
图2为本发明挑选作业所需模块和中间数据流流程图。
图3为本发明创建管道和分割器模块流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细描述:
先定义本发明涉及的概念。
作业:也就是任务,它的每一次成功运行,把一个输入数据流集合转换到输出数据流集合。作业的运行过程类似于数据库的SQL(结构化查询语言,Structured QueryLanguage)查询过程的两个阶段,即包含构建并行工作流和执行并行工作流两个阶段(并行工作流类似于SQL中的解释计划或者执行计划),与此类似,SQL的执行包含构建解释计划和执行解释计划。通常,输入数据流需要从文件读入,而输出数据流需要从文件写出。但如果作业放在一个更大的流程如MapReduce框架中,它的输入输出也可能是网络Socket等。
模块:模块包括处理模块、读模块、写模块和分割器模块。模块至少有一个输入或者输出的数据流,这些数据流使用管道作为与其他模块的传输介质。任意两个模块不能有一个相同的输出数据流。
处理模块:至少一个输入数据流和至少一个输出数据流,它实现了用户的遥感图像处理算法。
读模块:只有一个输出数据流。
写模块:只有一个输入数据流。
分割器模块:只有一个输入数据流,并且有多于一个的输出数据流。分割器模块把该输入数据流复制到多个输出数据流。
数据流:数据流是单向的,一遍的二进制数据。意思是数据流只能从上游模块流向下游模块。除非下游模块缓存读取的字节,否则下游模块只能读取一次。
管道:把数据流从上游的模块传递到下游。每一个管道有且只有一个上游模块和一个下游模块。管道用来实现上下游模块之间数据流的读写同步。它可以用Linux的匿名或者命名管道实现,也可以由用户自定义实现,即设计包含一个缓冲区以及控制缓冲区的读写指针和同步变量的对象。
现在,对本发明采用并行流水线处理遥感图像的方法作详细说明。
一次作业的运行有4个关键数据结构:模块集合和中间数据流集合,用于记录实际使用的模块和工作流,哈希表procs和哈希表pipes,分别记录启动模块的线程(或进程)和承载数据流的管道。
具体流程如下:
(1)注册所有可用的模块,包括模块的名称,输入和输出数据流的名称,以及启动该模块的所需信息。
(2)根据作业的输入和输出数据流,挑选出作业实际用到的模块和中间数据流,即作业所需模块和中间数据流。
挑选过程采用的算法是遍历作业的每一对输入和输出数据流,采用广度优先遍历算法搜寻每一对输入输出之间的最短路径,把最短路径经过的模块和中间数据流分别合并到模块集合和中间数据流集合中。
挑选过程可能失败。即如果作业的目的(输出数据流集合)不可能被满足,则作业运行返回失败。
如图2所示为本发明挑选作业所需模块和中间数据流流程图,根据作业的输入和输出数据流,挑选出作业实际用到的模块和中间数据流的具体方法如下:
2.1选取作业的一个输出。
2.2选取作业的一个输入。
2.3采用广度优先遍历算法找到该输入和输出之间的最短路径,把最短路径经过的模块和并到模块集合中,把最短路径经过的中间数据流合并到中间数据流集合中;
2.4若已选取作业的全部输入,进入步骤2.5,否则返回步骤2.2。
2.5判断经过该作业的这一个输出的路径数量是否为0,若是0,说明该作业输出不能被满足,即作业输出错误,进入步骤2.10,否则进入步骤2.6。
2.6若已选取作业的全部输出,进入步骤2.7,否则返回步骤2.1。
2.7选取作业的一个模块。
2.8判断该模块的所有输入是否已经在作业的输入集合或者中间数据流的集合中,若有一个该模块的输入不在任何一个上述集合(作业的输入集合或者中间数据流的集合)中,说明该模块的输入不能被全部满足,即该模块的输入错误,进入步骤2.10,否则进入步骤2.9。
2.9判断是否取得所述作业的全部模块,若是,则进入步骤2.10,否则,返回步骤2.7。
2.10结束。
至此,挑选所需模块和中间数据流的过程结束。
(3)创建管道和分割器模块
该步骤的目的是为下一步骤的模块预先设置好输入和输出。需要注意的是,如果一个有效数据流的输入集合有多个元素,说明该数据流被多个模块使用,那么需要创建一个分割器模块把该数据流复制成多份。此步骤运行结束时,所有的管道存放在pipes哈希表中等待下一个创建模块的阶段使用。
如图3所示为本发明创建管道和分割器模块流程图,创建管道和分割器模块的具体方法如下:
3.1从中间数据流集合中得到有效数据流集合。所谓的有效数据流,是指真正参与作业流程的数据流,即所有的数据流(输入数据流,输出数据流和中间数据流)减去重复的或者无效的输入数据流(输入可能有多余的)。
3.2从有效数据流集合中选取一个有效数据流stream1。
3.3得到使用该数据流stream1的模块集合。模块集合包括输入模块集合和输出模块集合,输入模块集合指模块集合中的每一个模块均是以该数据流作为输入;输出模块集合指模块集合中的每一个模块均是以该数据流作为输出;即若一个模块以该数据流stream1作为一个输入,则是stream1的输入模块集合;若一个模块以该数据流stream1作为一个输出,则是stream1的输出模块集合。
3.4创建一个管道,记为pipe1。
3.5判断该数据流stream1的输出模块集合中的模块个数。若该数据流有多于一个输出模块,即模块个数大于1,则说明这些模块的输出需要定义成不同的输出(即使他们内容是相同的),判断出现错误,进入步骤3.7。若该数据流有一个输出模块,即模块个数为1。则以(streamName,moduleName)二元组作为键值把管道pipe1的指针加入pipes哈希表中。
3.6判断该数据流stream1的输入模块集合的模块个数。若该数据流有多于一个输入模块,即模块个数大于1,则说明该数据流stream1被多个模块的输入共用,需要创建一个分割器,进入步骤3.7。否则,说明该数据流被后续一个模块使用,即该数据流对应多个输入模块,以(streamName,moduleName)二元组作为键值把管道pipe1的指针加入pipes哈希表中,之后进入步骤3.9。
3.7创建一个分割器模块splitter,并把splitter加入procs哈希表。
3.8设置splitter的输入为pipe1,并对该数据流stream1的多个输入模块modulej创建一个新的管道pipe2j,splitter的输出为这些新的pipe2j,并把每一个管道pipe2j以(streamName,modulejName)二元组作为键值把管道pipe2j的指针加入pipes哈希表中。
3.9若stream1已经遍历所有的有效数据流,则成功结束。否则返回步骤3.2。
上述步骤3.7~3.9为创建下一个管道和下一个分割器的过程,重复该操作,完成所有管道和分割器的创建。
至此,创建管道和分割器模块的过程结束。
(4)创建读写模块和处理模块
该步骤根据上一步骤创建好的管道设置模块的输入和输出。
具体过程是:根据模块名称和其余运行参数生成模块,对于模块的输入和输出,使用二元组(streamName,moduleName)为键值从pipes中取出对应的管道指针进行设置。
(5)执行所有模块,即执行可用模块、读写模块和处理模块;
把所有的模块启动成进程(或线程),并记录进程(或线程)ID到procs哈希表中。
等待procs哈希表中的所有进程(或线程)运行结束。
(6)释放所有模块和管道,即释放可用模块、读写模块、处理模块和管道;
按照procs和pipes哈希表中记录的模块和管道指针,释放资源。
按照上面的步骤划分,步骤(1)、(2)、(3)、(4)对应于并行工作流的创建部分,相当于SQL的解释计划生成。而步骤(5)、(6)对应于并行工作流的执行部分,相当于SQL的解释计划执行。
如果多次重复执行相同的输入和输出,并行工作流可以缓存起来,避免每次重复生成。
本发明有效解决了遥感数据在处理过程中高性能和灵活性两个需求之间的矛盾。
好处一:遥感数据的处理过程始终在内存中进行,中途无需落盘,提高了效率。
好处二:使用者可以简单的改变作业的输入和输出,将数据从任一种状态(或格式)处理到另一种状态(或格式),而无需更新程序或者担心经过多个处理步骤带来的处理效率问题。
好处三:使用者通过将注册不同的模块,就可以轻易改变不同数据格式间处理转换使用的算法。
本发明用一种并行流水线的观点处理遥感数据。并行是指流水线上下游的各个模块是并行执行的,各个模块的链接方式可只要是有向且无环就可以。流水线的每一个模块负责进行一次处理。在构成上下游的模块之间,数据组成一个字节流。最关键的一点是,这个流水线是根据用户要求的输入输出动态构建的。这样能够最大限度的提高数据处理的效率,同时充分利用现有主机的多CPU计算能力,这样的设计在灵活性和高效率之间能同时达到最优。
采用本发明能够处理远超过主机内存的遥感数据,在各个处理模块之间也无需落盘。用户能够通过指定输入输出,方便地将遥感数据从一个状态或格式处理到下一状态或格式。
另外,若处理模块发生变化,只需要对处理模块重新注册即可。
以上所述,仅为本发明最佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims (7)

1.采用并行流水线处理遥感图像的方法,其特征在于包括:
注册可用模块,包括模块的名称,输入和输出数据流的名称以及启动模块的所需信息;
根据作业的输入和输出数据流,挑选作业所需模块和中间数据流;
创建管道和分割器模块;
创建读写模块和处理模块;
执行所述可用模块、读写模块和处理模块;
释放所述可用模块、读写模块、处理模块和管道;
根据作业的输入和输出数据流,挑选作业所需模块和中间数据流的具体方法如下:
(1)、选取作业的一个输出;
(2)、选取作业的一个输入;
(3)、找到所述输入和输出之间的最短路径,把所述最短路径经过的模块合并到模块集合中,把所述最短路径经过的中间数据流合并到中间数据流集合中;
(4)、若已选取作业的全部输入,进入步骤(5),否则返回步骤(2);
(5)、判断经过所述作业的输出的路径数量是否为0,若为0,表明所述作业输出错误,进入步骤(10);否则进入步骤(6);
(6)、若已选取作业的全部输出,进入步骤(7);否则返回步骤(1);
(7)、选取作业的一个模块;
(8)、判断所述模块的所有输入是否已经在作业的模块集合或者中间数据流集合中,若不在,表明所述模块的输入错误,进入步骤(10);否则进入步骤(9);
(9)、判断是否取得所述作业的全部模块,若是,则进入步骤(10),否则,返回步骤(7);
(10)、结束。
2.根据权利要求1所述的采用并行流水线处理遥感图像的方法,其特征在于:所述注册的可用模块包括处理模块、读模块和写模块,可用模块至少有一个输入或者输出的数据流,所述数据流使用管道作为模块之间的传输介质,任意两个模块不能有一个相同的输出数据流。
3.根据权利要求1所述的采用并行流水线处理遥感图像的方法,其特征在于:所述步骤(3)中采用广度优先遍历算法找到输入和输出之间的最短路径。
4.根据权利要求1所述的采用并行流水线处理遥感图像的方法,其特征在于:所述创建管道和分割器模块的具体方法如下:
(1)、从中间数据流集合中得到有效数据流集合;
(2)、从有效数据流集合中选取一个数据流;
(3)、得到使用所述数据流的模块集合,所述模块集合包括输入模块集合和输出模块集合,输入模块集合指模块集合中的每一个模块均是以所述数据流作为输入;输出模块集合指模块集合中的每一个模块均是以所述数据流作为输出;
(4)、根据所述步骤(2)中的数据流与步骤(3)中的模块集合创建一个管道;
(5)、判断输出模块集合中的模块个数,若模块个数大于1,则判断出现错误,进入步骤(7);若模块个数为1,则将所述数据流与输出模块集合作为键值,将创建的管道的指针加入哈希表中;
(6)、判断输入模块集合中的模块个数,若模块个数大于1,则表明所述数据流对应多个输入模块,创建一个分割器;若模块个数为1,则将所述数据流与输入模块集合作为键值,将创建的管道的指针加入哈希表中;
(7)、结束。
5.根据权利要求4所述的采用并行流水线处理遥感图像的方法,其特征在于:重复步骤(2)~(4),完成所有管道的创建;重复步骤(2)~(7),完成所有分割器的创建。
6.根据权利要求4所述的采用并行流水线处理遥感图像的方法,其特征在于:所述步骤(1)中的有效数据流,是指参与作业流程的数据流,即所有的数据流减去重复的或者无效的数据流;所述数据流包括输入数据流,输出数据流和中间数据流。
7.根据权利要求1~6之一所述的采用并行流水线处理遥感图像的方法,其特征在于:处理遥感图像的方法在处理器的内存中进行,中途无需落盘,以提高效率。
CN201710627108.7A 2017-07-28 2017-07-28 采用并行流水线处理遥感图像的方法 Active CN107526573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710627108.7A CN107526573B (zh) 2017-07-28 2017-07-28 采用并行流水线处理遥感图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710627108.7A CN107526573B (zh) 2017-07-28 2017-07-28 采用并行流水线处理遥感图像的方法

Publications (2)

Publication Number Publication Date
CN107526573A CN107526573A (zh) 2017-12-29
CN107526573B true CN107526573B (zh) 2020-12-22

Family

ID=60680290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710627108.7A Active CN107526573B (zh) 2017-07-28 2017-07-28 采用并行流水线处理遥感图像的方法

Country Status (1)

Country Link
CN (1) CN107526573B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383158A (zh) * 2018-12-27 2020-07-07 中科星图股份有限公司 遥感图像预处理方法
CN109857462B (zh) * 2019-01-25 2021-07-09 东莞理工学院 遥感图像可视化编辑器的后台Docker任务映射方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8806502B2 (en) * 2010-09-15 2014-08-12 Qualcomm Incorporated Batching resource requests in a portable computing device
CN103150148B (zh) * 2013-03-06 2016-06-01 中国科学院对地观测与数字地球科学中心 一种基于任务树的大尺度遥感影像并行镶嵌方法
US9740775B2 (en) * 2015-03-13 2017-08-22 TCL Research America Inc. Video retrieval based on optimized selected fingerprints

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐永睿.有向无环图--Dryad.《程序员》.2011,(第5期),第82-86页. *
有向无环图--Dryad;徐永睿;《程序员》;20110531(第5期);第82-86页 *
面向大数据处理的并行计算模型及性能优化;骆涛;《中国博士学位论文全文数据库 信息科技辑》;20150915(第9期);第15-16页 *

Also Published As

Publication number Publication date
CN107526573A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
US10521427B2 (en) Managing data queries
Borkar et al. Hyracks: A flexible and extensible foundation for data-intensive computing
US9720992B2 (en) DML replication with logical log shipping
US11914566B2 (en) Indexing and relaying data to hot storage
JP2020504347A (ja) 続く分析に向けてデータを準備しキュレートするユーザインターフェース
US10997124B2 (en) Query integration across databases and file systems
CN107545015B (zh) 一种查询故障的处理方法及处理装置
Hasani et al. Lambda architecture for real time big data analytic
CN107330098B (zh) 一种自定义报表的查询方法、计算节点及查询系统
WO2018040488A1 (zh) 一种处理连接查询的方法及装置
JP2017539012A (ja) SQL−on−Hadoopシステムにおける複数クエリ最適化
Nabi Pro Spark Streaming: The Zen of Real-Time Analytics Using Apache Spark
CN107526573B (zh) 采用并行流水线处理遥感图像的方法
Carbone Scalable and Reliable Data Stream Processing
Krechowicz et al. Highly scalable distributed architecture for NoSQL datastore supporting strong consistency
JP6262505B2 (ja) 分散型データ仮想化システム、クエリ処理方法及びクエリ処理プログラム
Chen et al. Pisces: optimizing multi-job application execution in mapreduce
CN103699627B (zh) 一种基于Hadoop集群的超大文件并行数据块定位方法
CN112037003A (zh) 文件对账处理方法及装置
US11934927B2 (en) Handling system-characteristics drift in machine learning applications
CN108763489B (zh) 一种优化Spark SQL执行工作流的方法
CN115062028B (zh) 一种OLTP领域多表join查询的方法
CN110008242A (zh) 一种基于Spark流式程序生成器及程序数据处理方法
US11442758B2 (en) Integration flow execution renew
Dhanda Big data storage and analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant