CN111352727A

CN111352727A - 一种应用于图像混合集群处理系统的图像处理方法

Info

Publication number: CN111352727A
Application number: CN201811589603.4A
Authority: CN
Inventors: 赵永华; 赵莲; 于天禹; 苏琳
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2020-06-30
Anticipated expiration: 2038-12-20
Also published as: CN111352727B

Abstract

本发明提供一种应用于图像混合集群处理系统的图像处理方法，图像混合集群处理系统包括至少一个管理节点和多个计算节点，管理节点和计算节点均采用CPU和GPU异构架构的混合集群系统模式，图像处理方法包括通过管理节点读取待处理的图像，将待处理的图像分割为若干个图像数据片，再将图像数据片分发到各个计算节点中；计算节点内建有多个线程，多个线程以并行方式对管理节点分发的图像数据片进行计算后向管理节点返回结果。采用本发明的技术方案，利用动态任务调度技术分发图像数据片，使各个计算节点的动态负载均衡，采用多线程动态调度并行机制计算处理图像数据片，使CPU和GPU二者的计算能力均能够充分发挥，提升了图像仿真的速度和效率。

Description

一种应用于图像混合集群处理系统的图像处理方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种应用于图像混合集群处理系统的图像处理方法。

背景技术

随着图像处理数据量的急剧增加，图像仿真处理的速度成为一个巨大的挑战性问题，基于并行计算技术的高速计算方法成为解决这一问题的主要手段。图像仿真处理高速计算是一种将图像处理应用方法同高性能计算技术相结合，用于快速实时处理大规模图像仿真计算的有效方法。通过并行处理方法和优化技术提升仿真计算过程的整体运行效率，使其达到满足实际应用的需求。

在具有CPU节点和GPU节点的混合GPU集群环境中，计算节点内的CPU和GPU也存在着严重差异的计算能力。如果任务分配策略没有充分考虑到CPU和GPU间这一差异性时，由于GPU和CPU核之间任务处理能力存在数十倍差异，将导致GPU任务结束后长时间等待 CPU任务的现象，这严重影响了大规模图像仿真高速计算的性能和扩展性。为了充分利用好节点内的CPU计算能力和GPU计算能力，需要根据二者的计算能力，协调计算任务在两个不同计算资源上的分配，使计算处理能力和任务负载相匹配，以便提高整个图像仿真模拟的效率。

根据目前CPU和GPU间的依赖关系，通常可使一个CPU核控制一个GPU，当该CPU核有需要处理的任务时，将该任务数据拷贝到对应的GPU，并启动该GPU的完成图片的高速仿真处理。由于节点的异构性以及CPU和GPU处理能力较大的差距，在多GPU节点的负载管理中，除了将根据图像目前总的处理进度、节点的个数以及节点的处理速度外，更要确定GPU和CPU计算能力比值大小。并根据这些参数确定动态分配给各节点的图片数，同时协调管理节点和计算节点的负载，以确保各节点的动态负载均衡。并通过线程动态调度并行机制，解决节点内CPU和GPU二者的计算能力巨大差距带来的负载分配问题。现有的图形处理器集群仿真技术通常采用静态的任务调度技术，采用这种任务调度技术时，由于没有充分考虑到CPU和GPU间任务处理能力存在的差异，从而导致GPU任务结束后长时间等待CPU任务的现象，严重影响了大规模图像仿真高速计算的性能和扩展性，并且使GPU承担所有计算处理，而CPU仅起到辅助计算作用，造成了计算资源的极大浪费，从而较大的影响了高速计算性能。

发明内容

本发明提供一种应用于图像混合集群处理系统的图像处理方法，所述图像混合集群处理系统包括：所述图像处理方法应用于图像混合集群处理系统，所述图像混合集群处理系统包括至少一个管理节点和多个计算节点，所述管理节点和计算节点均包括2个CPU和1 个GPU，所述管理节点和计算节点均采用CPU和GPU异构架构的混合集群系统模式，所述图像处理方法包括以下步骤：

步骤一：所述管理节点读取待处理的图像，将待处理的图像分割为若干个图像数据片，再将图像数据片分发到各个计算节点中；

步骤二：所述计算节点接收来自于所述管理节点分发的图像数据片，在所述计算节点内建立有至少一个主线程和多个从线程，所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算后向所述管理节点返回结果。

步骤一中所述管理节点将待处理的图像分割为若干个图像数据片的数量由以下方式确定：

设待处理图像的高度为H，对待处理图像进行卷积运算，设卷积运算中滑动步长为ystep，子区域高度为w_h，则所述图像数据片的数量n＝((H-w_h)/ystep)+1。

步骤一中所述管理节点将待处理的图像分割为若干个图像数据片的数量由计算节点数量确定。

所述图像处理方法还包括：计算各个计算节点以内GPU运算能力与CPU运算能力的比值，将该比值作为相对应的计算节点的权重系数，所述管理节点根据该权重系数确定分发至各个计算节点的数量。

步骤二中所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算还包括以下步骤：

步骤1：当所述主线程接收到来自于所述管理节点分发的图像数据片之后，生成一个处理任务，再将该处理任务分发給空闲的从线程；

步骤2：从线程获取步骤1所述处理任务之后，调取与该从线程绑定的GPU进行计算或由该从线程自行完成所述处理任务。

当步骤2完成之后，所述从线程向其对应的计算节点发出数据请求信息，所述计算节点将该数据请求信息转发至管理节点。

步骤二中所述所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算是指对图像数据片相关性进行计算。

所述主线程还用于所述管理节点与所述计算节点之间的数据通信。

上述技术方案具有如下有益效果：采用本发明的技术方案，利用了图形处理器集群下图像高速仿真的动态任务调度技术的原理，运行时，管理节点以图像处理进度、计算节点数量、计算节点的处理能力，或GPU和CPU计算能力比值大小等参数为依据，将确定数量的图像数据片分发至各个计算节点，同时协调管理节点和计算节点的负载，以确保各节点的动态负载均衡，从而避免了空闲的计算节点长时间等待，造成资源浪费等问题，同时，计算节点在计算处理过程中，采用多线程动态调度并行机制，解决了节点内CPU和GPU二者的计算能力巨大差距带来的负载分配问题，通过采用上述技术方案，使CPU节点内多核并行效率由原50％提升到95％以上，使用户不改变原有系统的前提下动态的加载或卸载新的应用逻辑功能加入到软件系统中。通过建立有效的调度机制和任务分配功能，避免了任务同步引起的额外开销，使图形处理器集群的处理能力充分发挥，提升了图像仿真的速度及其实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种图像混合集群处理系统，如图1所示，所述图像处理方法应用于图像混合集群处理系统，所述图像混合集群处理系统包括至少一个管理节点和多个计算节点，所述管理节点和计算节点均包括2个CPU和1个GPU，所述管理节点和计算节点均采用CPU和GPU异构架构的混合集群系统模式，所述图像处理方法包括以下步骤：

步骤二：所述计算节点接收来自于所述管理节点分发的图像数据片，在所述计算节点内建立有至少一个主线程和多个从线程，所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算后向所述管理节点返回结果。步骤二中所述所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算是指对图像数据片相关性进行计算。

进一步地，步骤一中所述管理节点将待处理的图像分割为若干个图像数据片的数量由以下方式确定：

设待处理图像的高度为H，对待处理图像进行卷积运算，设卷积运算中滑动步长为ystep，子区域高度为w_h，则所述图像数据片的数量n＝((H-w_h)/ystep)+1。其次，所述管理节点将待处理的图像分割为若干个图像数据片的数量由计算节点数量确定。

此外，所述图像处理方法还包括：计算各个计算节点以内GPU运算能力与CPU运算能力的比值，将该比值作为相对应的计算节点的权重系数，所述管理节点根据该权重系数确定分发至各个计算节点的数量。

采用本发明的技术方案，首先通过预计算，确定单GPU和单CPU核之间的计算能力比值α；根据图像剩余计算任务量、节点的个数以及比值α，计算需要动态分配给各类节点的图片数量；再调用图像数据片与进度模块将数据发给相关计算节点，从而协调管理节点和计算节点的负载，以确保各节点的动态负载均衡。负载与任务管理采用了图像数据在各处理节点的动态加载、多层负载均衡技术以及图片处理在CPU和GPU混合架构上的动态任务并行技术。该技术完全将区别于通常的基于加载数据的静态负载平衡方法和数据并行技术。可使CPU节点内多核并行效率由原40％左右提升到95％以上。并可使用户不改变原有系统的前提下动态的加载或卸载新的图像应用加入到高速仿真系统中。

进一步地，步骤二中所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算还包括以下步骤：

此外，所述主线程还用于所述管理节点与所述计算节点之间的数据通信。

采用本发明的技术方案，计算节点内并行采用了基于多线程任务并行，这样数据分配到各线程是一个动态随机过程。由主线程按一定步长划分出一定大小的图像子区域，并将所划分的子区域动态地分配给空闲线程进行，具体操作中，可通过设定一个数据请求消息 ASK_MSG，计算节点通过ASK_MSG向管理控制节点发送数据请求。GPU节点内CPU和GPU间协同并行计算一个CPU核管理一个GPU的策略，而CPU和GPU作用对等的。将管理GPU的CPU核所承担的任务加载到GPU完成，其它CPU核仍按照CPU节点内线程任务并行方案执行，同时发挥了二者的最大计算能力，CPU节点内并行将采用运行时任务并行策略，通过对各线程的动态调度和任务并行机制增强线程间动态负载，并避免线程间同步、降低访存竞争开销和瓶颈。

总之，本发明的技术方案，利用了图形处理器集群下图像高速仿真的动态任务调度技术的原理，运行时，管理节点以图像处理进度、计算节点数量、计算节点的处理能力，或 GPU和CPU计算能力比值大小等参数为依据，将确定数量的图像数据片分发至各个计算节点，同时协调管理节点和计算节点的负载，以确保各节点的动态负载均衡，从而避免了空闲的计算节点长时间等待，造成资源浪费等问题，同时，计算节点在计算处理过程中，采用多线程动态调度并行机制，解决了节点内CPU和GPU二者的计算能力巨大差距带来的负载分配问题，通过采用上述技术方案，使CPU节点内多核并行效率由原50％提升到95％以上，使用户不改变原有系统的前提下动态的加载或卸载新的应用逻辑功能加入到软件系统中。通过建立有效的调度机制和任务分配功能，避免了任务同步引起的额外开销，使图形处理器集群的处理能力充分发挥，提升了图像仿真的速度及其实时性。

在图像处理器集群下进行图像相关性计算中，基于本发明实现了相关性计算算法的多 CPU+GPU并行计算。基于上面动态调度技术，该应用案例中采用MPI、OpenMP和GPU的混合并行方法，图像处理并行计算实现了多CPU或GPU节点下相关性计算并行处理功能，本发明技术方案的主要特点有：

1、图像并行计算系统调用数据划分管理模块，该模块计算每个节点应接收和计算的图片数量，并对灰度矩阵完成分片划分，然后调用数据分配和动态负载管理模块，根据划分结果向各个进程发送相应图像数据片。

2、当进程得到图片后，调用节点内并行计算模块，该模块通过OpenMP线程动态调度机制实现节点内并行计算，节点内所有线程共享接收到的图片。

A、主线程获取待处理的图片并生成一个任务，并基于任务并行策略动态分配该任务给某个空闲线程。

B、线程获得任务任务后，首先确定该线程是否绑定了一个GPU卡。如该线程绑定了一个GPU卡，则转而调用GPU相关性计算模块接口，由GPU完成图片的相关性计算。否则，该线程直接调用相关性计算模块接口，由线程完成图片的相关性计算。

C、返回线程调度接收新的任务。

3、当进程完成节点内并行计算处理后，将计算结果并行写入计算结果文件中。

采用本发明的技术方案，在特定应用下多节点CPU+GPU图像仿真并行计算下并行效率可达到线性加速，单GPU计算相对单CPU核的计算加速比达到了50倍，而多CPU并行效率在1024核上达到85％以上，在8个GPU节点上达到了近似线性加速，并行效率达到了100％。本方案可用用于CPU节点和GPU节点混合的并行环境，使用2个CPU节点+1个GPU 节点相对3个CPU节点的时间由6637秒减少到4838秒。实验测试表明所提出的高速计算方法可适用于不同计算环境下大范围图像的高速计算处理。

在实际应用中，采用本发明的技术方案在26881*27185规模图片进行图像相关性计算的用例。相关计算数量大约为40000*14404563。在具有1、3个CPU节点以及三个CPU节点带一块图像处理器的集群上进行测试。使用全部3个节点CPU(共6棵CPU，计72个CPU 核)时间相比一个节点(2棵CPU，计24个CPU核)时间，由计算时间由19920秒减少到 6637秒，加速比为3倍，并行效率接近100％。使用3CPU节点+1GPU卡时间同使用3个CPU 节点的时间，由6637秒减少到4838秒。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种应用于图像混合集群处理系统的图像处理方法，其特征在于：所述图像处理方法应用于图像混合集群处理系统，所述图像混合集群处理系统包括至少一个管理节点和多个计算节点，所述管理节点和计算节点均包括2个CPU和1个GPU，所述管理节点和计算节点均采用CPU和GPU异构架构的混合集群系统模式，所述图像处理方法包括以下步骤：

2.如权利要求1所述的应用于图像混合集群处理系统的图像处理方法，其特征在于：步骤一中所述管理节点将待处理的图像分割为若干个图像数据片的数量由以下方式确定：

3.如权利要求1所述的应用于图像混合集群处理系统的图像处理方法，其特征在于：步骤一中所述管理节点将待处理的图像分割为若干个图像数据片的数量由计算节点数量确定。

4.如权利要求1所述的应用于图像混合集群处理系统的图像处理方法，其特征在于：所述图像处理方法还包括：计算各个计算节点以内GPU运算能力与CPU运算能力的比值，将该比值作为相对应的计算节点的权重系数，所述管理节点根据该权重系数确定分发至各个计算节点的数量。

5.如权利要求1所述的应用于图像混合集群处理系统的图像处理方法，其特征在于：步骤二中所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算还包括以下步骤：

6.如权利要求5所述的应用于图像混合集群处理系统的图像处理方法，其特征在于：当步骤2完成之后，所述从线程向其对应的计算节点发出数据请求信息，所述计算节点将该数据请求信息转发至管理节点。

7.如权利要求1所述的应用于图像混合集群处理系统的图像处理方法，其特征在于：步骤二中所述所述主线程与多个从线程以并行方式对所述管理节点分发的图像数据片进行计算是指对图像数据片相关性进行计算。

8.如权利要求1所述的应用于图像混合集群处理系统的图像处理方法，其特征在于：所述主线程还用于所述管理节点与所述计算节点之间的数据通信。