CN113504942B - 一种组合式高速序列影像数据处理并行计算方法 - Google Patents

一种组合式高速序列影像数据处理并行计算方法 Download PDF

Info

Publication number
CN113504942B
CN113504942B CN202110848486.4A CN202110848486A CN113504942B CN 113504942 B CN113504942 B CN 113504942B CN 202110848486 A CN202110848486 A CN 202110848486A CN 113504942 B CN113504942 B CN 113504942B
Authority
CN
China
Prior art keywords
parallel computing
parallel
sequence
image data
gpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110848486.4A
Other languages
English (en)
Other versions
CN113504942A (zh
Inventor
金雁敏
陈鹏
童小华
高飒
汪本康
谢欢
冯永玖
刘世杰
叶真
许雄
柳思聪
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110848486.4A priority Critical patent/CN113504942B/zh
Publication of CN113504942A publication Critical patent/CN113504942A/zh
Application granted granted Critical
Publication of CN113504942B publication Critical patent/CN113504942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3867Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种组合式高速序列影像数据处理并行计算方法,该方法采用分布式并行计算模型对高速序列影像数据进行并行计算;所述分布式并行计算模型包括主控机、高速相机、多台由主控机控制并分别与每台高速相机连接的工控机;所述工控机装有用于支持影像序列跟踪和匹配的并行计算的多核CPU或多核GPU;所述多核CPU采用CPU并行计算模型,所述多核GPU采用GPU并行计算模型。与现有技术相比,本发明具有效率高,实时性强,精度高等优点。

Description

一种组合式高速序列影像数据处理并行计算方法
技术领域
本发明涉及高速视频测量和定位识别领域,尤其是涉及一种组合式高速序列影像数据处理并行计算方法。
背景技术
序列影像匹配是整个高速视频测量处理流程中最耗费时间的一步,因为它的处理对象是海量的高速视频数据。为了满足目标跟踪匹配过程中快速解算的需求,提出了三种数据并行计算模型,能够同时处理多个视频影像序列,极大地提高了数据处理效率。就目前而言,一味地改进算法步骤和提升算法性能是十分有限的,而且通过降低目标点位匹配精度来提高数据处理效率是不可取的。因此,在保障序列匹配精度的基础上,提高硬件的性能使用率是非常有效的。
经过检索,中国专利CN201810540437.2公开了一种基于分布式解析的多层框架抗震实验高速视频测量方法,该方法包括以下步骤:1)构建分布式立体摄影测量网络并获取结构物序列影像;2)通过分布式立体摄影测量网络,采用分布式并行处理策略,对待测结构物上的目标点进行跟踪匹配,并通过光束法整体平差解算目标点序列影像的三维空间坐标,进而计算出解算目标点的振动参数,完成测量,该发明具有减少数据处理时间、提高处理效率等优点。但是该方法仅仅从分布式进行考虑,没有结合组合式CPU、GPU并行角度进行考虑,对效率的提升较为有限。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种组合式高速序列影像数据处理并行计算方法。
本发明的目的可以通过以下技术方案来实现:
一种组合式高速序列影像数据处理并行计算方法,该方法采用分布式并行计算模型对高速序列影像数据进行并行计算;所述分布式并行计算模型包括主控机、高速相机、多台由主控机控制并分别与每台高速相机连接的工控机;所述工控机装有用于支持影像序列跟踪和匹配的并行计算的多核CPU或多核GPU;所述多核CPU采用CPU并行计算模型,所述多核GPU采用GPU并行计算模型。
优选地,所述采用分布式并行计算模型对高速序列影像数据进行并行计算包括以下步骤:
步骤2.1:在工控机中提取初始影像并传送至主控机;
步骤2.2:在主控机中通过立体匹配求解目标的初始同名点位;
步骤2.3:将目标点位分别传送至各工控机;
步骤2.4:影像分块后,通过多核CPU或多核GPU处理器并行解算获取序列同名点坐标;
步骤2.5:将序列同名点坐标传递至主控机来参与目标点位的序列三维重建。
优选地,所述CPU并行计算模型为基于OpenMP编译器和AVX指令集的CPU并行计算模型,包括:
采用AVX指令集加速ZNCC粗匹配算法;
采用OpenMP并行处理各影像序列的跟踪匹配过程。
优选地,所述ZNCC粗匹配算法加速过程包括加速匹配过程中相关系数的矩阵运算。
优选地,所述采用AVX指令集加速ZNCC粗匹配算法包括采用SIMD技术对ZNCC测度值进行计算,具体包括以下步骤:
步骤5.1:划分待匹配影像为多个运算块,每一个运算块包含特定数量的像素;
步骤5.2:将这特定数量的像素写入XMM寄存器中,通过AVX指令实施并行计算;
步骤5.3:将计算结果写回内存中。
优选地,所述OpenMP采用Fork/Join模型,包括主线程和工作线程,用于并行处理各影像序列的跟踪匹配过程;
所述跟踪匹配过程并行处理包括以下步骤:
步骤6.1:在主线程中指定并行区域并分配工作线程数;每个视频影像序列被划分为并行计算中的一个条带Stripe;
步骤6.2:在线程编译中,N个Stripe在并行区域中分别编译成N个独立任务,并通过OpenMP编译器执行相应的目标跟踪算法。
优选地,所述GPU并行计算模型包括多核心GPU以及与之配合的CUDA并行运算架构;
所述GPU并行计算模型的并行计算流程包括由粗到细的粗匹配流程和精匹配流程。
优选地,所述粗匹配流程用于获取目标点在序列影像中的整像素级坐标;所述目标点在当前影像中的搜索窗口由上一帧的匹配点位所提供;
所述粗匹配流程中,线程块的数量为目标点位的数量,每个线程块中的线程数量则由搜索窗口的尺寸来决定。
优选地,所述精匹配流程为:将线程网格设定为两个维度,分别为序列影像的数目和目标点位的数量,每个线程块中的线程将被用来计算灰度插值与归一化相关系数。
优选地,所述精匹配流程还可采用CPU并行计算模型进行运算。
与现有技术相比,本发明具有以下优点:
1)本发明所提出的组合式并行计算模型,能够同时处理多个视频影像序列,满足目标跟踪匹配过程中快速解算的需求,极大地提高了数据处理效率;
2)分布式并行计算模型能够实现多节点协同的高速序列影像现场快速处理,显著地减少海量影像序列的处理时间,满足现场计算的实时性要求;
2)采用OpenMP并行处理各影像序列的跟踪匹配过程,在精确获取匹配结果的同时提高计算效率。
附图说明
图1为组合式并行计算架构示意图;
图2为CPU并行计算流程图;
图3为传统计算模型的示意图;
图4为基于AXV指令并行计算模型的示意图;
图5为GPU并行计算架构的示意图;
图6为分布式并行计算架构的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明涉及了一种组合式高速序列影像数据处理并行计算方法,所述方法包括采用以下一种或多种模型对高速序列影像数据进行并行计算;所述模型包括基于OpenMP编译器和AVX指令集的CPU并行计算模型、基于CUDA的GPU并行计算模型和分布式并行计算模型。该组合式并行计算架构如图1所示。所述的三种并行计算模型如下所示:
1、基于OpenMP和AVX的CPU并行计算模型
在CPU并行计算模型中,提出了一种基于OpenMP编译器和AVX指令集的并行处理算法,通过同时处理多台高速相机的序列影像来提高目标跟踪的效率。基于OpenMP和AVX的CPU并行计算流程图如图2所示,该流程由两个主要部分组成:1)采用AVX指令集来加速ZNCC粗匹配算法,其加速方式主要体现在匹配过程中相关系数的矩阵运算;2)采用OpenMP并行处理各影像序列的跟踪匹配过程,在精确获取匹配结果的同时提高计算效率。
粗匹配过程由于需要实施大量的矩阵或数组运算,因而可以使用支持数据级并行性的SIMD技术。该技术在影像处理方面表现出很好的性能,它能够利用SSE/AVX指令集来实现快速矩阵运算。SIMD扩展由英特尔(Intel)设计,能够将数据并行加载到8个128位XMM寄存器和16个256位YMM寄存器中,并且可以通过相同的操作指令来同步处理数据。
在ZNCC粗匹配过程中,需使用该技术进行ZNCC测度值计算过程中所涉及到的求和、相乘、累加等重复运算。如图3所示,对于传统的ZNCC计算模型(单指令单数据流)来讲,每次只能采用一个指令来处理一次运算,这严重影响了计算效率。
基于AVX指令集的加速ZNCC算法可以并行地执行求和、相乘、点积运算。在高速影像中,每个像素的像素(灰度)值为8bit,且在计算过程中被视为整数运算。由于AVX寄存器的带宽为256bit,因此相同指令可以同时用于16对像素的并行计算,如图4所示。
在ZNCC加速运算中,一对待匹配影像可以被划分成多个运算块,其中每个运算块包含16个像素;然后这16个像素被写入XMM寄存器中,且通过AVX指令实施并行计算;最后将计算结果写回内存中。这种运算方式与传统的ZNCC计算模型相比,能够将时间周期减少到传统方法的1/16,并且所获得的匹配结果与传统方法一致。
OpenMP遵循Fork/Join模型来实现,其中包括主线程和工作线程。在主线程中可以指定并行区域并分配工作线程数。在高速视频测量中,N个视频序列是由N个高速相机于不同视角下对同一物体进行采集拍摄的,因此每个视频影像序列可以被划分为并行计算中的一个条带(Stripe)。在线程编译中,N个Stripe可以在并行区域中分别编译成N个独立任务,并通过OpenMP编译器执行相应的目标跟踪算法,即该编译器由此产生N个工作线程(如T1、T2…Tn)来实现高速影像的并行处理。OpenMP的并行编译和线程分配可如图1所示,当并行计算终止后,整个目标跟踪过程也就相应完成了。
2、基于CUDA的GPU并行计算模型
在GPU并行计算模型中,CUDA是NVIDIA公司开发出的一种GPU并行运算架构,可以在NVIDIA系列显卡上对一些重复性的计算进行加速处理。CUDA可以被视为一种并行计算编程库,能够高效地实现GPU并行计算目的。
借助于CUDA编程,GPU对于线程的使用思路与CPU相似。然而,虽然GPU的处理核心(core)数量较多,但是处理核心的计算能力远远不如CPU核心。因此,针对简单的矩阵计算,GPU能够高效率地处理,而对于复杂流程的数值运算,却无法取代CPU的地位。在数字影像处理中,大部分的图像处理算法皆是矩阵间的运算,其中序列影像匹配更是充斥着大量的矩阵数值计算,因而基于CUDA的GPU并行计算模型能够极大地提高数据处理效率。
在GPU软件框架中,多核心GPU是由多个计算单元(Streaming Multiprocessors,简称SM)所构成,而每个计算单元都拥有自己的控制单元、寄存器、缓存和指令流水线。每个计算单元由多个流处理器(Streaming Processors,简称SP)构成。在实际的CUDA编程中,应更多地关注线程的合理分配。一项计算任务会被直接分配给由线程块所组成的线程网格中,而每个线程块则由多个线程所组成。这里的线程概念与CPU线程相类似,是算法编程中最基础的计算组件。
如图5所示,该图概述了GPU的基本框架结构,而线程束的线程数量被设定为32个。在序列影像跟踪中,应根据算法的并行性和特殊性将任务依次分配给线程块和底层线程。
在高速视频测量方法中,序列影像跟踪匹配策略是由粗到精的匹配流程,其中粗匹配的目的是为了提供目标点在序列影像中的整像素级坐标,且目标点在当前影像中的搜索窗口将由上一帧的匹配点位所提供。
因此,各序列影像间的粗匹配过程并没有高度并行性,其并行性仅集中在两帧影像间所有点位的匹配并行以及ZNCC测度中的矩阵计算并行。
在精匹配过程中,由于粗匹配过程已经提供了所有目标点位的粗略匹配坐标,因此所有目标点的最小二乘匹配过程将是完全独立且并行的。在实际的软件处理中,可根据GPU硬件显存的容量和影像的数量来合理地分配线程。
如图5所示,展示了GPU并行计算模型流程图。在粗匹配过程中,线程块的数量为目标点位的数量,且每个线程块中的线程数量则由搜索窗口的尺寸来决定。在精匹配过程中,线程网格可设定为两个维度,分别为序列影像的数目和目标点位的数量,而每个线程块中的线程将被用来计算灰度插值与归一化相关系数。
鉴于精匹配(即最小二乘匹配)过程中含有非线性灰度插值、非线性最小二乘迭代、多元方程组求解等内容,因而也可使用CPU并行计算模型来完成序列影像匹配中的精匹配运算。
3、分布式并行计算模型
为了实现现场计算的目的,分布式并行计算模型能够显著地减少海量影像序列的处理时间。在本发明分布式传感器组网构建中,每台高速相机都配备了一台小型计算机(工控机),并且一台主控电脑(主控机)可通过局域网络来管理和控制这些工控机。在数据处理过程中,主控机通过局域网向指定工控机发送指令及数据,同时还可以接收工控机的反馈信息,以此来实现数据的分布式并行处理。每个工控机中都安装了一个多核CPU(或GPU)以支持影像序列跟踪和匹配的并行计算。此外,根据CPU(或GPU)的核心数量对序列影像中的目标点位进行分块,以便能够并行地计算每个分块里的目标点位,详细的分布式运算机制如图6所示。
分布式并行计算的协同处理步骤可归纳如下:
1)在子控机中提取初始影像并传递至主控机;
2)在主控机中通过立体匹配求解目标的初始同名点位;
3)将目标点位分别传输至各子控机中;
4)在影像分块后,通过多核心CPU(或GPU)处理器并行解算来获取序列同名点坐标;
5)将序列同名点坐标传递至主控机来参与目标点位的序列三维重建。
根据处理器内核数量,分布式并行计算能够显著地提高计算效率。例如,当分布式网络具有m个CPU,且每个CPU中含有n个处理器内核时,则分布式并行计算将仅花费传统单线程处理时间的1/mn。随着科技的不断进步,计算机的CPU(或GPU)不断朝着多核、众核技术方向发展。因此,与单处理器系统相比,本发明所提出的分布式并行计算模型的加速比能达到数倍乃至数十倍。
例如,利用四台子控机组成的分布式并行系统来分别处理3000张、6000张和9000张高速序列影像,与单个子控机计算效率相比,分布式并行计算系统实现的加速比分别为3.99、3.81和3.84。由此可见,与单处理器计算模型相比,由N个计算单元(子控机)组成的分布式并行计算模型能实现近N倍的加速比。因此,分布式并行计算模型能够实现多节点协同的高速序列影像现场快速处理。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种组合式高速序列影像数据处理并行计算方法,其特征在于,该方法采用分布式并行计算模型对高速序列影像数据进行并行计算;所述分布式并行计算模型包括主控机、高速相机、多台由主控机控制并分别与每台高速相机连接的工控机;所述工控机装有用于支持影像序列跟踪和匹配的并行计算的多核CPU或多核GPU;所述多核CPU采用CPU并行计算模型,所述多核GPU采用GPU并行计算模型;
所述GPU并行计算模型包括多核心GPU以及与之配合的CUDA并行运算架构;
所述GPU并行计算模型的并行计算流程包括由粗到细的粗匹配流程和精匹配流程;
所述粗匹配流程用于获取目标点在序列影像中的整像素级坐标;所述目标点在当前影像中的搜索窗口由上一帧的匹配点位所提供;
所述粗匹配流程中,线程块的数量为目标点位的数量,每个线程块中的线程数量则由搜索窗口的尺寸来决定;
所述精匹配流程为:将线程网格设定为两个维度,分别为序列影像的数目和目标点位的数量,每个线程块中的线程将被用来计算灰度插值与归一化相关系数。
2.根据权利要求1所述的一种组合式高速序列影像数据处理并行计算方法,其特征在于,所述采用分布式并行计算模型对高速序列影像数据进行并行计算包括以下步骤:
步骤2.1:在工控机中提取初始影像并传送至主控机;
步骤2.2:在主控机中通过立体匹配求解目标的初始同名点位;
步骤2.3:将目标点位分别传送至各工控机;
步骤2.4:影像分块后,通过多核CPU或多核GPU处理器并行解算获取序列同名点坐标;
步骤2.5:将序列同名点坐标传递至主控机来参与目标点位的序列三维重建。
3.根据权利要求1所述的一种组合式高速序列影像数据处理并行计算方法,其特征在于,所述CPU并行计算模型为基于OpenMP编译器和AVX指令集的CPU并行计算模型,包括:
采用AVX指令集加速ZNCC粗匹配算法;
采用OpenMP并行处理各影像序列的跟踪匹配过程。
4.根据权利要求3所述的一种组合式高速序列影像数据处理并行计算方法,其特征在于,所述ZNCC粗匹配算法加速过程包括加速匹配过程中相关系数的矩阵运算。
5.根据权利要求3所述的一种组合式高速序列影像数据处理并行计算方法,其特征在于,所述采用AVX指令集加速ZNCC粗匹配算法包括采用SIMD技术对ZNCC测度值进行计算,具体包括以下步骤:
步骤5.1:划分待匹配影像为多个运算块,每一个运算块包含特定数量的像素;
步骤5.2:将这特定数量的像素写入XMM寄存器中,通过AVX指令实施并行计算;
步骤5.3:将计算结果写回内存中。
6.根据权利要求3所述的一种组合式高速序列影像数据处理并行计算方法,其特征在于,所述OpenMP采用Fork/Join模型,包括主线程和工作线程,用于并行处理各影像序列的跟踪匹配过程;
所述跟踪匹配过程并行处理包括以下步骤:
步骤6.1:在主线程中指定并行区域并分配工作线程数;每个视频影像序列被划分为并行计算中的一个条带Stripe;
步骤6.2:在线程编译中,N个Stripe在并行区域中分别编译成N个独立任务,并通过OpenMP编译器执行相应的目标跟踪算法。
7.根据权利要求1所述的一种组合式高速序列影像数据处理并行计算方法,其特征在于,所述精匹配流程还采用CPU并行计算模型进行运算。
CN202110848486.4A 2021-07-27 2021-07-27 一种组合式高速序列影像数据处理并行计算方法 Active CN113504942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110848486.4A CN113504942B (zh) 2021-07-27 2021-07-27 一种组合式高速序列影像数据处理并行计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110848486.4A CN113504942B (zh) 2021-07-27 2021-07-27 一种组合式高速序列影像数据处理并行计算方法

Publications (2)

Publication Number Publication Date
CN113504942A CN113504942A (zh) 2021-10-15
CN113504942B true CN113504942B (zh) 2022-09-20

Family

ID=78014115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110848486.4A Active CN113504942B (zh) 2021-07-27 2021-07-27 一种组合式高速序列影像数据处理并行计算方法

Country Status (1)

Country Link
CN (1) CN113504942B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991638A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于序列影像Harris‑DOG特征提取的多粒度并行优化的方法
CN109916322A (zh) * 2019-01-29 2019-06-21 同济大学 一种基于自适应窗口匹配的数字散斑全场形变测量方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011083413A (ja) * 2009-10-15 2011-04-28 Hitachi Medical Corp 磁気共鳴イメージング装置
CN205210868U (zh) * 2015-12-07 2016-05-04 武汉海默自控股份有限公司 一种基于多核cpu的多任务分配
CN109064499B (zh) * 2018-05-30 2021-12-31 同济大学 一种基于分布式解析的多层框架抗震实验高速视频测量方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991638A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于序列影像Harris‑DOG特征提取的多粒度并行优化的方法
CN109916322A (zh) * 2019-01-29 2019-06-21 同济大学 一种基于自适应窗口匹配的数字散斑全场形变测量方法

Also Published As

Publication number Publication date
CN113504942A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
US10424069B2 (en) System and method for optical flow estimation
Banz et al. Real-time semi-global matching disparity estimation on the GPU
Cui et al. Real-time stereo vision implementation on Nvidia Jetson TX2
Hofmann et al. A scalable high-performance hardware architecture for real-time stereo vision by semi-global matching
Zhang et al. Lucas-kanade optical flow estimation on the ti c66x digital signal processor
Fan et al. Real-time implementation of stereo vision based on optimised normalised cross-correlation and propagated search range on a gpu
Mielikainen et al. Constant coefficients linear prediction for lossless compression of ultraspectral sounder data using a graphics processing unit
CN109300083A (zh) 一种分块处理Wallis匀色方法及装置
Haidar et al. Optimization for performance and energy for batched matrix computations on GPUs
CN104200508A (zh) 基于Intel众核架构对等模式的光线追踪加速方法
CN113504942B (zh) 一种组合式高速序列影像数据处理并行计算方法
Palaniappan et al. Parallel flux tensor analysis for efficient moving object detection
Rymut et al. Real‐time multiview human pose tracking using graphics processing unit‐accelerated particle swarm optimization
Rymut et al. GPU-accelerated human motion tracking using particle filter combined with PSO
Xu et al. Acceleration of stereo-matching on multi-core cpu and gpu
Reichenbach et al. Heterogeneous computer architectures: An image processing pipeline for optical metrology
Sharma High performance GPU based optimized feature matching for computer vision applications
Tokura et al. An efficient GPU implementation of bulk computation of the eigenvalue problem for many small real non-symmetric matrices
Takizawa et al. Multi-grain parallel processing of data-clustering on programmable graphics hardware
Rymut et al. Mixing Graphics and Compute for Real-Time Multiview Human Body Tracking
Khan et al. Space-efficient Pointwise Computation of the Distance Transform on GPUs
Moustafa et al. Vectorization of a 2D–1D Iterative Algorithm for the 3D Neutron Transport Problem in Prismatic Geometries
Zunshang et al. Research on CUDA-based image parallel dense matching
Lai et al. Performance Optimization on Intel Xeon Phi Through Load Balancing
Ríos-Ramos et al. Parallel implementation in a GPU of the calculation of disparity maps for computer vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant