CN107526573B

CN107526573B - 采用并行流水线处理遥感图像的方法

Info

Publication number: CN107526573B
Application number: CN201710627108.7A
Authority: CN
Inventors: 王小燕; 徐文; 吕争; 李运伟; 刘明亮; 徐建艳; 喻文勇
Original assignee: China Center for Resource Satellite Data and Applications CRESDA
Current assignee: China Center for Resource Satellite Data and Applications CRESDA
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2020-12-22
Anticipated expiration: 2037-07-28
Also published as: CN107526573A

Abstract

本发明涉及采用并行流水线处理遥感图像的方法，在各个处理模块之间也无需落盘。用户能够通过指定输入输出，方便地将遥感数据从一个状态或格式处理到下一状态或格式，具体步骤包括：(1)注册可用模块，包括模块的名称，输入和输出数据流的名称以及启动模块的所需信息；(2)根据作业的输入和输出数据流，挑选作业所需模块和中间数据流；(3)创建管道和分割器模块；(4)创建读写模块和处理模块；(5)执行所述可用模块、读写模块和处理模块；(6)释放所述可用模块、读写模块、处理模块和管道，该方法能够最大限度的提高数据处理的效率，同时充分利用现有主机的多CPU计算能力，在灵活性和高效率之间能同时达到最优。

Description

采用并行流水线处理遥感图像的方法

技术领域

本发明涉及采用并行流水线处理遥感图像的方法，属于计算机技术，遥感地面处理，并行计算技术领域。

背景技术

现今，遥感卫星及其搭载的载荷越来越复杂：1、数据量成几何级数增大，一次接收需要记录的文件大小一般在几十GB，甚至几百GB；2、处理过程也非常复杂，常常需要多步才能处理到最终结果；3、载荷的种类，模式繁多，算法复杂，在研制和运行过程中不得不将处理分解为多个中间结果存盘，以使用分析工具事后找出问题。

现有的遥感处理软件使用的工作流系统对待处理的中间结果时存在一个困境：如果把中间结果存盘为文件，那么多个步骤之间读入读出磁盘常常耗费过多的时间。而把中间结果保存在一个缓冲中，却因为主机内存的限制无法做到这一点。

发明内容

本发明的目的在于克服现有技术的上述不足，提供一种采用并行流水线处理遥感图像的方法，该方法能够最大限度的提高数据处理的效率，同时充分利用现有主机的多CPU计算能力，在灵活性和高效率之间能同时达到最优。

本发明的上述目的主要是通过如下技术方案予以实现的：

采用并行流水线处理遥感图像的方法，包括：

注册可用模块，包括模块的名称，输入和输出数据流的名称以及启动模块的所需信息；

根据作业的输入和输出数据流，挑选作业所需模块和中间数据流；

创建管道和分割器模块；

创建读写模块和处理模块；

执行所述可用模块、读写模块和处理模块；

释放所述可用模块、读写模块、处理模块和管道。

在上述采用并行流水线处理遥感图像的方法中，所述注册的可用模块包括处理模块、读模块和写模块，可用模块至少有一个输入或者输出的数据流，所述数据流使用管道作为模块之间的传输介质，任意两个模块不能有一个相同的输出数据流。

在上述采用并行流水线处理遥感图像的方法中，根据作业的输入和输出数据流，挑选作业所需模块和中间数据流的具体方法如下：

(1)、选取作业的一个输出；

(2)、选取作业的一个输入；

(3)、找到所述输入和输出之间的最短路径，把所述最短路径经过的模块合并到模块集合中，把所述最短路径经过的中间数据流合并到中间数据流集合中；

(4)、若已选取作业的全部输入，进入步骤(5)，否则返回步骤(2)；

(5)、判断经过所述作业的输出的路径数量是否为0，若为0，表明所述作业输出错误，进入步骤(10)；否则进入步骤(6)；

(6)、若已选取作业的全部输出，进入步骤(7)；否则返回步骤(1)；

(7)、选取作业的一个模块；

(8)、判断所述模块的所有输入是否已经在作业的模块集合或者中间数据流集合中，若不在，表明所述模块的输入错误，进入步骤(10)；否则进入步骤(9)；

(9)、判断是否取得所述作业的全部模块，若是，则进入步骤(10)，否则，返回步骤(7)；

(10)、结束。

在上述采用并行流水线处理遥感图像的方法中，所述步骤(3)中采用广度优先遍历算法找到输入和输出之间的最短路径。

在上述采用并行流水线处理遥感图像的方法中，所述创建管道和分割器模块的具体方法如下：

(1)、从中间数据流集合中得到有效数据流集合；

(2)、从有效数据流集合中选取一个数据流；

(3)、得到使用所述数据流的模块集合，所述模块集合包括输入模块集合和输出模块集合，输入模块集合指模块集合中的每一个模块均是以所述数据流作为输入；输出模块集合指模块集合中的每一个模块均是以所述数据流作为输出；

(4)、根据所述步骤(2)中的数据流与步骤(3)中的模块集合创建一个管道；

(5)、判断输出模块集合中的模块个数，若模块个数大于1，则判断出现错误，进入步骤(7)；若模块个数为1，则将所述数据流与输出模块集合作为键值，将创建的管道的指针加入哈希表中；

(6)、判断输入模块集合中的模块个数，若模块个数大于1，则表明所述数据流对应多个输入模块，创建一个分割器；若模块个数为1，则将所述数据流与输入模块集合作为键值，将创建的管道的指针加入哈希表中；

(7)、结束。

在上述采用并行流水线处理遥感图像的方法中，重复步骤(2)～(4)，完成所有管道的创建；重复步骤(2)～(7)，完成所有分割器的创建。

在上述采用并行流水线处理遥感图像的方法中，所述步骤(1)中的有效数据流，是指参与作业流程的数据流，即所有的数据流减去重复的或者无效的数据流；所述数据流包括输入数据流，输出数据流和中间数据流。

在上述采用并行流水线处理遥感图像的方法中，处理遥感图像的方法在处理器的内存中进行，中途无需落盘，以提高效率。

本发明与现有技术相比具有如下有益效果：

(1)、本发明考虑所有的模块的全部输入和输出，建立一张完全的有向无环图；再根据当前作业的输入和输出，判断出需要启动的模块和管道，组成一个并行流水线；最后执行此并行流水线，完成作业任务，能够最大限度的提高数据处理的效率，同时充分利用现有主机的多CPU计算能力，这样的设计在灵活性和高效率之间能同时达到最优。

(2)、本发明方法能够处理远超过主机内存的遥感数据，在各个处理模块之间也无需落盘，用户能够通过指定输入输出，方便地将遥感数据从一个状态或格式处理到下一状态或格式，由于遥感数据的处理过程始终在内存中进行，中途无需落盘，大大提高了处理效率。

(3)、本发明处理方法中使用者可以简单的改变作业的输入和输出，将数据从任一种状态(或格式)处理到另一种状态(或格式)，而无需更新程序或者担心经过多个处理步骤带来的处理效率问题。

(4)、本发明处理方法中使用者通过将注册不同的模块，就可以轻易改变不同数据格式间处理转换使用的算法，具有较强的灵活性；另外，若处理模块发生变化，只需要对处理模块重新注册即可。

(5)、本发明处理方法具有良好的容错性、可扩展性和可移植性。

附图说明

图1为本发明采用并行流水线处理遥感图像的方法流程图。

图2为本发明挑选作业所需模块和中间数据流流程图。

图3为本发明创建管道和分割器模块流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细描述：

先定义本发明涉及的概念。

作业：也就是任务，它的每一次成功运行，把一个输入数据流集合转换到输出数据流集合。作业的运行过程类似于数据库的SQL(结构化查询语言,Structured QueryLanguage)查询过程的两个阶段，即包含构建并行工作流和执行并行工作流两个阶段(并行工作流类似于SQL中的解释计划或者执行计划)，与此类似，SQL的执行包含构建解释计划和执行解释计划。通常，输入数据流需要从文件读入，而输出数据流需要从文件写出。但如果作业放在一个更大的流程如MapReduce框架中，它的输入输出也可能是网络Socket等。

模块：模块包括处理模块、读模块、写模块和分割器模块。模块至少有一个输入或者输出的数据流，这些数据流使用管道作为与其他模块的传输介质。任意两个模块不能有一个相同的输出数据流。

处理模块：至少一个输入数据流和至少一个输出数据流，它实现了用户的遥感图像处理算法。

读模块：只有一个输出数据流。

写模块：只有一个输入数据流。

分割器模块：只有一个输入数据流，并且有多于一个的输出数据流。分割器模块把该输入数据流复制到多个输出数据流。

数据流：数据流是单向的，一遍的二进制数据。意思是数据流只能从上游模块流向下游模块。除非下游模块缓存读取的字节，否则下游模块只能读取一次。

管道：把数据流从上游的模块传递到下游。每一个管道有且只有一个上游模块和一个下游模块。管道用来实现上下游模块之间数据流的读写同步。它可以用Linux的匿名或者命名管道实现，也可以由用户自定义实现，即设计包含一个缓冲区以及控制缓冲区的读写指针和同步变量的对象。

现在，对本发明采用并行流水线处理遥感图像的方法作详细说明。

一次作业的运行有4个关键数据结构：模块集合和中间数据流集合，用于记录实际使用的模块和工作流，哈希表procs和哈希表pipes，分别记录启动模块的线程(或进程)和承载数据流的管道。

具体流程如下：

(1)注册所有可用的模块，包括模块的名称，输入和输出数据流的名称，以及启动该模块的所需信息。

(2)根据作业的输入和输出数据流，挑选出作业实际用到的模块和中间数据流，即作业所需模块和中间数据流。

挑选过程采用的算法是遍历作业的每一对输入和输出数据流，采用广度优先遍历算法搜寻每一对输入输出之间的最短路径，把最短路径经过的模块和中间数据流分别合并到模块集合和中间数据流集合中。

挑选过程可能失败。即如果作业的目的(输出数据流集合)不可能被满足，则作业运行返回失败。

如图2所示为本发明挑选作业所需模块和中间数据流流程图，根据作业的输入和输出数据流，挑选出作业实际用到的模块和中间数据流的具体方法如下：

2.1选取作业的一个输出。

2.2选取作业的一个输入。

2.3采用广度优先遍历算法找到该输入和输出之间的最短路径，把最短路径经过的模块和并到模块集合中，把最短路径经过的中间数据流合并到中间数据流集合中；

2.4若已选取作业的全部输入，进入步骤2.5，否则返回步骤2.2。

2.5判断经过该作业的这一个输出的路径数量是否为0，若是0，说明该作业输出不能被满足，即作业输出错误，进入步骤2.10，否则进入步骤2.6。

2.6若已选取作业的全部输出，进入步骤2.7，否则返回步骤2.1。

2.7选取作业的一个模块。

2.8判断该模块的所有输入是否已经在作业的输入集合或者中间数据流的集合中，若有一个该模块的输入不在任何一个上述集合(作业的输入集合或者中间数据流的集合)中，说明该模块的输入不能被全部满足，即该模块的输入错误，进入步骤2.10，否则进入步骤2.9。

2.9判断是否取得所述作业的全部模块，若是，则进入步骤2.10，否则，返回步骤2.7。

2.10结束。

至此，挑选所需模块和中间数据流的过程结束。

(3)创建管道和分割器模块

该步骤的目的是为下一步骤的模块预先设置好输入和输出。需要注意的是，如果一个有效数据流的输入集合有多个元素，说明该数据流被多个模块使用，那么需要创建一个分割器模块把该数据流复制成多份。此步骤运行结束时，所有的管道存放在pipes哈希表中等待下一个创建模块的阶段使用。

如图3所示为本发明创建管道和分割器模块流程图，创建管道和分割器模块的具体方法如下:

3.1从中间数据流集合中得到有效数据流集合。所谓的有效数据流，是指真正参与作业流程的数据流，即所有的数据流(输入数据流，输出数据流和中间数据流)减去重复的或者无效的输入数据流(输入可能有多余的)。

3.2从有效数据流集合中选取一个有效数据流stream1。

3.3得到使用该数据流stream1的模块集合。模块集合包括输入模块集合和输出模块集合，输入模块集合指模块集合中的每一个模块均是以该数据流作为输入；输出模块集合指模块集合中的每一个模块均是以该数据流作为输出；即若一个模块以该数据流stream1作为一个输入，则是stream1的输入模块集合；若一个模块以该数据流stream1作为一个输出，则是stream1的输出模块集合。

3.4创建一个管道，记为pipe1。

3.5判断该数据流stream1的输出模块集合中的模块个数。若该数据流有多于一个输出模块，即模块个数大于1，则说明这些模块的输出需要定义成不同的输出(即使他们内容是相同的)，判断出现错误，进入步骤3.7。若该数据流有一个输出模块，即模块个数为1。则以(streamName,moduleName)二元组作为键值把管道pipe1的指针加入pipes哈希表中。

3.6判断该数据流stream1的输入模块集合的模块个数。若该数据流有多于一个输入模块，即模块个数大于1，则说明该数据流stream1被多个模块的输入共用，需要创建一个分割器，进入步骤3.7。否则，说明该数据流被后续一个模块使用，即该数据流对应多个输入模块，以(streamName,moduleName)二元组作为键值把管道pipe1的指针加入pipes哈希表中，之后进入步骤3.9。

3.7创建一个分割器模块splitter，并把splitter加入procs哈希表。

3.8设置splitter的输入为pipe1，并对该数据流stream1的多个输入模块modulej创建一个新的管道pipe2j，splitter的输出为这些新的pipe2j，并把每一个管道pipe2j以(streamName,modulejName)二元组作为键值把管道pipe2j的指针加入pipes哈希表中。

3.9若stream1已经遍历所有的有效数据流，则成功结束。否则返回步骤3.2。

上述步骤3.7～3.9为创建下一个管道和下一个分割器的过程，重复该操作，完成所有管道和分割器的创建。

至此，创建管道和分割器模块的过程结束。

(4)创建读写模块和处理模块

该步骤根据上一步骤创建好的管道设置模块的输入和输出。

具体过程是：根据模块名称和其余运行参数生成模块，对于模块的输入和输出，使用二元组(streamName,moduleName)为键值从pipes中取出对应的管道指针进行设置。

(5)执行所有模块，即执行可用模块、读写模块和处理模块；

把所有的模块启动成进程(或线程)，并记录进程(或线程)ID到procs哈希表中。

等待procs哈希表中的所有进程(或线程)运行结束。

(6)释放所有模块和管道，即释放可用模块、读写模块、处理模块和管道；

按照procs和pipes哈希表中记录的模块和管道指针，释放资源。

按照上面的步骤划分，步骤(1)、(2)、(3)、(4)对应于并行工作流的创建部分，相当于SQL的解释计划生成。而步骤(5)、(6)对应于并行工作流的执行部分，相当于SQL的解释计划执行。

如果多次重复执行相同的输入和输出，并行工作流可以缓存起来，避免每次重复生成。

本发明有效解决了遥感数据在处理过程中高性能和灵活性两个需求之间的矛盾。

好处一：遥感数据的处理过程始终在内存中进行，中途无需落盘，提高了效率。

好处二：使用者可以简单的改变作业的输入和输出，将数据从任一种状态(或格式)处理到另一种状态(或格式)，而无需更新程序或者担心经过多个处理步骤带来的处理效率问题。

好处三：使用者通过将注册不同的模块，就可以轻易改变不同数据格式间处理转换使用的算法。

本发明用一种并行流水线的观点处理遥感数据。并行是指流水线上下游的各个模块是并行执行的，各个模块的链接方式可只要是有向且无环就可以。流水线的每一个模块负责进行一次处理。在构成上下游的模块之间，数据组成一个字节流。最关键的一点是，这个流水线是根据用户要求的输入输出动态构建的。这样能够最大限度的提高数据处理的效率，同时充分利用现有主机的多CPU计算能力，这样的设计在灵活性和高效率之间能同时达到最优。

采用本发明能够处理远超过主机内存的遥感数据，在各个处理模块之间也无需落盘。用户能够通过指定输入输出，方便地将遥感数据从一个状态或格式处理到下一状态或格式。

另外，若处理模块发生变化，只需要对处理模块重新注册即可。

以上所述，仅为本发明最佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims

1.采用并行流水线处理遥感图像的方法，其特征在于包括：

创建管道和分割器模块；

创建读写模块和处理模块；

执行所述可用模块、读写模块和处理模块；

释放所述可用模块、读写模块、处理模块和管道；

根据作业的输入和输出数据流，挑选作业所需模块和中间数据流的具体方法如下：

(1)、选取作业的一个输出；

(2)、选取作业的一个输入；

(7)、选取作业的一个模块；

(10)、结束。

2.根据权利要求1所述的采用并行流水线处理遥感图像的方法，其特征在于：所述注册的可用模块包括处理模块、读模块和写模块，可用模块至少有一个输入或者输出的数据流，所述数据流使用管道作为模块之间的传输介质，任意两个模块不能有一个相同的输出数据流。

3.根据权利要求1所述的采用并行流水线处理遥感图像的方法，其特征在于：所述步骤(3)中采用广度优先遍历算法找到输入和输出之间的最短路径。

4.根据权利要求1所述的采用并行流水线处理遥感图像的方法，其特征在于：所述创建管道和分割器模块的具体方法如下：

(1)、从中间数据流集合中得到有效数据流集合；

(2)、从有效数据流集合中选取一个数据流；

(7)、结束。

5.根据权利要求4所述的采用并行流水线处理遥感图像的方法，其特征在于：重复步骤(2)～(4)，完成所有管道的创建；重复步骤(2)～(7)，完成所有分割器的创建。

6.根据权利要求4所述的采用并行流水线处理遥感图像的方法，其特征在于：所述步骤(1)中的有效数据流，是指参与作业流程的数据流，即所有的数据流减去重复的或者无效的数据流；所述数据流包括输入数据流，输出数据流和中间数据流。

7.根据权利要求1～6之一所述的采用并行流水线处理遥感图像的方法，其特征在于：处理遥感图像的方法在处理器的内存中进行，中途无需落盘，以提高效率。