CN113504942A

CN113504942A - 一种组合式高速序列影像数据处理并行计算方法

Info

Publication number: CN113504942A
Application number: CN202110848486.4A
Authority: CN
Inventors: 金雁敏; 陈鹏; 童小华; 高飒; 汪本康; 谢欢; 冯永玖; 刘世杰; 叶真; 许雄; 柳思聪; 王超
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-15
Anticipated expiration: 2041-07-27
Also published as: CN113504942B

Abstract

本发明涉及一种组合式高速序列影像数据处理并行计算方法，该方法采用分布式并行计算模型对高速序列影像数据进行并行计算；所述分布式并行计算模型包括主控机、高速相机、多台由主控机控制并分别与每台高速相机连接的工控机；所述工控机装有用于支持影像序列跟踪和匹配的并行计算的多核CPU或多核GPU；所述多核CPU采用CPU并行计算模型，所述多核GPU采用GPU并行计算模型。与现有技术相比，本发明具有效率高，实时性强，精度高等优点。

Description

一种组合式高速序列影像数据处理并行计算方法

技术领域

本发明涉及高速视频测量和定位识别领域，尤其是涉及一种组合式高速序列影像数据处理并行计算方法。

背景技术

序列影像匹配是整个高速视频测量处理流程中最耗费时间的一步，因为它的处理对象是海量的高速视频数据。为了满足目标跟踪匹配过程中快速解算的需求，提出了三种数据并行计算模型，能够同时处理多个视频影像序列，极大地提高了数据处理效率。就目前而言，一味地改进算法步骤和提升算法性能是十分有限的，而且通过降低目标点位匹配精度来提高数据处理效率是不可取的。因此，在保障序列匹配精度的基础上，提高硬件的性能使用率是非常有效的。

经过检索，中国专利CN201810540437.2公开了一种基于分布式解析的多层框架抗震实验高速视频测量方法，该方法包括以下步骤：1)构建分布式立体摄影测量网络并获取结构物序列影像；2)通过分布式立体摄影测量网络，采用分布式并行处理策略，对待测结构物上的目标点进行跟踪匹配，并通过光束法整体平差解算目标点序列影像的三维空间坐标，进而计算出解算目标点的振动参数，完成测量，该发明具有减少数据处理时间、提高处理效率等优点。但是该方法仅仅从分布式进行考虑，没有结合组合式CPU、GPU并行角度进行考虑，对效率的提升较为有限。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种组合式高速序列影像数据处理并行计算方法。

本发明的目的可以通过以下技术方案来实现：

一种组合式高速序列影像数据处理并行计算方法，该方法采用分布式并行计算模型对高速序列影像数据进行并行计算；所述分布式并行计算模型包括主控机、高速相机、多台由主控机控制并分别与每台高速相机连接的工控机；所述工控机装有用于支持影像序列跟踪和匹配的并行计算的多核CPU或多核GPU；所述多核CPU采用CPU并行计算模型，所述多核GPU采用GPU并行计算模型。

优选地，所述采用分布式并行计算模型对高速序列影像数据进行并行计算包括以下步骤：

步骤2.1：在工控机中提取初始影像并传送至主控机；

步骤2.2：在主控机中通过立体匹配求解目标的初始同名点位；

步骤2.3：将目标点位分别传送至各工控机；

步骤2.4：影像分块后，通过多核CPU或多核GPU处理器并行解算获取序列同名点坐标；

步骤2.5：将序列同名点坐标传递至主控机来参与目标点位的序列三维重建。

优选地，所述CPU并行计算模型为基于OpenMP编译器和AVX指令集的CPU并行计算模型，包括：

采用AVX指令集加速ZNCC粗匹配算法；

采用OpenMP并行处理各影像序列的跟踪匹配过程。

优选地，所述ZNCC粗匹配算法加速过程包括加速匹配过程中相关系数的矩阵运算。

优选地，所述采用AVX指令集加速ZNCC粗匹配算法包括采用SIMD技术对ZNCC测度值进行计算，具体包括以下步骤：

步骤5.1：划分待匹配影像为多个运算块，每一个运算块包含特定数量的像素；

步骤5.2：将这特定数量的像素写入XMM寄存器中，通过AVX指令实施并行计算；

步骤5.3：将计算结果写回内存中。

优选地，所述OpenMP采用Fork/Join模型，包括主线程和工作线程，用于并行处理各影像序列的跟踪匹配过程；

所述跟踪匹配过程并行处理包括以下步骤：

步骤6.1：在主线程中指定并行区域并分配工作线程数；每个视频影像序列被划分为并行计算中的一个条带Stripe；

步骤6.2：在线程编译中，N个Stripe在并行区域中分别编译成N个独立任务，并通过OpenMP编译器执行相应的目标跟踪算法。

优选地，所述GPU并行计算模型包括多核心GPU以及与之配合的CUDA并行运算架构；

所述GPU并行计算模型的并行计算流程包括由粗到细的粗匹配流程和精匹配流程。

优选地，所述粗匹配流程用于获取目标点在序列影像中的整像素级坐标；所述目标点在当前影像中的搜索窗口由上一帧的匹配点位所提供；

所述粗匹配流程中，线程块的数量为目标点位的数量，每个线程块中的线程数量则由搜索窗口的尺寸来决定。

优选地，所述精匹配流程为：将线程网格设定为两个维度，分别为序列影像的数目和目标点位的数量，每个线程块中的线程将被用来计算灰度插值与归一化相关系数。

优选地，所述精匹配流程还可采用CPU并行计算模型进行运算。

与现有技术相比，本发明具有以下优点：

1)本发明所提出的组合式并行计算模型，能够同时处理多个视频影像序列，满足目标跟踪匹配过程中快速解算的需求，极大地提高了数据处理效率；

2)分布式并行计算模型能够实现多节点协同的高速序列影像现场快速处理，显著地减少海量影像序列的处理时间，满足现场计算的实时性要求；

2)采用OpenMP并行处理各影像序列的跟踪匹配过程，在精确获取匹配结果的同时提高计算效率。

附图说明

图1为组合式并行计算架构示意图；

图2为CPU并行计算流程图；

图3为传统计算模型的示意图；

图4为基于AXV指令并行计算模型的示意图；

图5为GPU并行计算架构的示意图；

图6为分布式并行计算架构的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明涉及了一种组合式高速序列影像数据处理并行计算方法，所述方法包括采用以下一种或多种模型对高速序列影像数据进行并行计算；所述模型包括基于OpenMP编译器和AVX指令集的CPU并行计算模型、基于CUDA的GPU并行计算模型和分布式并行计算模型。该组合式并行计算架构如图1所示。所述的三种并行计算模型如下所示：

1、基于OpenMP和AVX的CPU并行计算模型

在CPU并行计算模型中，提出了一种基于OpenMP编译器和AVX指令集的并行处理算法，通过同时处理多台高速相机的序列影像来提高目标跟踪的效率。基于OpenMP和AVX的CPU并行计算流程图如图2所示，该流程由两个主要部分组成：1)采用AVX指令集来加速ZNCC粗匹配算法，其加速方式主要体现在匹配过程中相关系数的矩阵运算；2)采用OpenMP并行处理各影像序列的跟踪匹配过程，在精确获取匹配结果的同时提高计算效率。

粗匹配过程由于需要实施大量的矩阵或数组运算，因而可以使用支持数据级并行性的SIMD技术。该技术在影像处理方面表现出很好的性能，它能够利用SSE/AVX指令集来实现快速矩阵运算。SIMD扩展由英特尔(Intel)设计，能够将数据并行加载到8个128位XMM寄存器和16个256位YMM寄存器中，并且可以通过相同的操作指令来同步处理数据。

在ZNCC粗匹配过程中，需使用该技术进行ZNCC测度值计算过程中所涉及到的求和、相乘、累加等重复运算。如图3所示，对于传统的ZNCC计算模型(单指令单数据流)来讲，每次只能采用一个指令来处理一次运算，这严重影响了计算效率。

基于AVX指令集的加速ZNCC算法可以并行地执行求和、相乘、点积运算。在高速影像中，每个像素的像素(灰度)值为8bit，且在计算过程中被视为整数运算。由于AVX寄存器的带宽为256bit，因此相同指令可以同时用于16对像素的并行计算，如图4所示。

在ZNCC加速运算中，一对待匹配影像可以被划分成多个运算块，其中每个运算块包含16个像素；然后这16个像素被写入XMM寄存器中，且通过AVX指令实施并行计算；最后将计算结果写回内存中。这种运算方式与传统的ZNCC计算模型相比，能够将时间周期减少到传统方法的1/16，并且所获得的匹配结果与传统方法一致。

OpenMP遵循Fork/Join模型来实现，其中包括主线程和工作线程。在主线程中可以指定并行区域并分配工作线程数。在高速视频测量中，N个视频序列是由N个高速相机于不同视角下对同一物体进行采集拍摄的，因此每个视频影像序列可以被划分为并行计算中的一个条带(Stripe)。在线程编译中，N个Stripe可以在并行区域中分别编译成N个独立任务，并通过OpenMP编译器执行相应的目标跟踪算法，即该编译器由此产生N个工作线程(如T1、T2…Tn)来实现高速影像的并行处理。OpenMP的并行编译和线程分配可如图1所示，当并行计算终止后，整个目标跟踪过程也就相应完成了。

2、基于CUDA的GPU并行计算模型

在GPU并行计算模型中，CUDA是NVIDIA公司开发出的一种GPU并行运算架构，可以在NVIDIA系列显卡上对一些重复性的计算进行加速处理。CUDA可以被视为一种并行计算编程库，能够高效地实现GPU并行计算目的。

借助于CUDA编程，GPU对于线程的使用思路与CPU相似。然而，虽然GPU的处理核心(core)数量较多，但是处理核心的计算能力远远不如CPU核心。因此，针对简单的矩阵计算，GPU能够高效率地处理，而对于复杂流程的数值运算，却无法取代CPU的地位。在数字影像处理中，大部分的图像处理算法皆是矩阵间的运算，其中序列影像匹配更是充斥着大量的矩阵数值计算，因而基于CUDA的GPU并行计算模型能够极大地提高数据处理效率。

在GPU软件框架中，多核心GPU是由多个计算单元(Streaming Multiprocessors，简称SM)所构成，而每个计算单元都拥有自己的控制单元、寄存器、缓存和指令流水线。每个计算单元由多个流处理器(Streaming Processors，简称SP)构成。在实际的CUDA编程中，应更多地关注线程的合理分配。一项计算任务会被直接分配给由线程块所组成的线程网格中，而每个线程块则由多个线程所组成。这里的线程概念与CPU线程相类似，是算法编程中最基础的计算组件。

如图5所示，该图概述了GPU的基本框架结构，而线程束的线程数量被设定为32个。在序列影像跟踪中，应根据算法的并行性和特殊性将任务依次分配给线程块和底层线程。

在高速视频测量方法中，序列影像跟踪匹配策略是由粗到精的匹配流程，其中粗匹配的目的是为了提供目标点在序列影像中的整像素级坐标，且目标点在当前影像中的搜索窗口将由上一帧的匹配点位所提供。

因此，各序列影像间的粗匹配过程并没有高度并行性，其并行性仅集中在两帧影像间所有点位的匹配并行以及ZNCC测度中的矩阵计算并行。

在精匹配过程中，由于粗匹配过程已经提供了所有目标点位的粗略匹配坐标，因此所有目标点的最小二乘匹配过程将是完全独立且并行的。在实际的软件处理中，可根据GPU硬件显存的容量和影像的数量来合理地分配线程。

如图5所示，展示了GPU并行计算模型流程图。在粗匹配过程中，线程块的数量为目标点位的数量，且每个线程块中的线程数量则由搜索窗口的尺寸来决定。在精匹配过程中，线程网格可设定为两个维度，分别为序列影像的数目和目标点位的数量，而每个线程块中的线程将被用来计算灰度插值与归一化相关系数。

鉴于精匹配(即最小二乘匹配)过程中含有非线性灰度插值、非线性最小二乘迭代、多元方程组求解等内容，因而也可使用CPU并行计算模型来完成序列影像匹配中的精匹配运算。

3、分布式并行计算模型

为了实现现场计算的目的，分布式并行计算模型能够显著地减少海量影像序列的处理时间。在本发明分布式传感器组网构建中，每台高速相机都配备了一台小型计算机(工控机)，并且一台主控电脑(主控机)可通过局域网络来管理和控制这些工控机。在数据处理过程中，主控机通过局域网向指定工控机发送指令及数据，同时还可以接收工控机的反馈信息，以此来实现数据的分布式并行处理。每个工控机中都安装了一个多核CPU(或GPU)以支持影像序列跟踪和匹配的并行计算。此外，根据CPU(或GPU)的核心数量对序列影像中的目标点位进行分块，以便能够并行地计算每个分块里的目标点位，详细的分布式运算机制如图6所示。

分布式并行计算的协同处理步骤可归纳如下：

1)在子控机中提取初始影像并传递至主控机；

2)在主控机中通过立体匹配求解目标的初始同名点位；

3)将目标点位分别传输至各子控机中；

4)在影像分块后，通过多核心CPU(或GPU)处理器并行解算来获取序列同名点坐标；

5)将序列同名点坐标传递至主控机来参与目标点位的序列三维重建。

根据处理器内核数量，分布式并行计算能够显著地提高计算效率。例如，当分布式网络具有m个CPU，且每个CPU中含有n个处理器内核时，则分布式并行计算将仅花费传统单线程处理时间的1/mn。随着科技的不断进步，计算机的CPU(或GPU)不断朝着多核、众核技术方向发展。因此，与单处理器系统相比，本发明所提出的分布式并行计算模型的加速比能达到数倍乃至数十倍。

例如，利用四台子控机组成的分布式并行系统来分别处理3000张、6000张和9000张高速序列影像，与单个子控机计算效率相比，分布式并行计算系统实现的加速比分别为3.99、3.81和3.84。由此可见，与单处理器计算模型相比，由N个计算单元(子控机)组成的分布式并行计算模型能实现近N倍的加速比。因此，分布式并行计算模型能够实现多节点协同的高速序列影像现场快速处理。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种组合式高速序列影像数据处理并行计算方法，其特征在于，该方法采用分布式并行计算模型对高速序列影像数据进行并行计算；所述分布式并行计算模型包括主控机、高速相机、多台由主控机控制并分别与每台高速相机连接的工控机；所述工控机装有用于支持影像序列跟踪和匹配的并行计算的多核CPU或多核GPU；所述多核CPU采用CPU并行计算模型，所述多核GPU采用GPU并行计算模型。

2.根据权利要求1所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述采用分布式并行计算模型对高速序列影像数据进行并行计算包括以下步骤：

步骤2.1：在工控机中提取初始影像并传送至主控机；

步骤2.3：将目标点位分别传送至各工控机；

3.根据权利要求1所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述CPU并行计算模型为基于OpenMP编译器和AVX指令集的CPU并行计算模型，包括：

采用AVX指令集加速ZNCC粗匹配算法；

采用OpenMP并行处理各影像序列的跟踪匹配过程。

4.根据权利要求3所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述ZNCC粗匹配算法加速过程包括加速匹配过程中相关系数的矩阵运算。

5.根据权利要求3所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述采用AVX指令集加速ZNCC粗匹配算法包括采用SIMD技术对ZNCC测度值进行计算，具体包括以下步骤：

步骤5.3：将计算结果写回内存中。

6.根据权利要求3所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述OpenMP采用Fork/Join模型，包括主线程和工作线程，用于并行处理各影像序列的跟踪匹配过程；

所述跟踪匹配过程并行处理包括以下步骤：

7.根据权利要求1所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述GPU并行计算模型包括多核心GPU以及与之配合的CUDA并行运算架构；

8.根据权利要求7所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述粗匹配流程用于获取目标点在序列影像中的整像素级坐标；所述目标点在当前影像中的搜索窗口由上一帧的匹配点位所提供；

9.根据权利要求7所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述精匹配流程为：将线程网格设定为两个维度，分别为序列影像的数目和目标点位的数量，每个线程块中的线程将被用来计算灰度插值与归一化相关系数。

10.根据权利要求7所述的一种组合式高速序列影像数据处理并行计算方法，其特征在于，所述精匹配流程还可采用CPU并行计算模型进行运算。