CN117173439A

CN117173439A - 基于gpu的图像处理方法、装置、存储介质及电子设备

Info

Publication number: CN117173439A
Application number: CN202311439464.8A
Authority: CN
Inventors: 吴文龙; 汪铖杰; 刘俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2023-12-05

Abstract

本申请公开了一种基于GPU的图像处理方法、装置、存储介质及电子设备，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。本申请中，GPU通过获取待处理图像和参考图像，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域；从匹配的候选特征区域和已知特征区域中确定匹配的特征点，得到多对配准点对；根据配准点对确定目标变换矩阵；基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。本方案中，在参考图像中标定的多个特征区域用于匹配，提高了图像配准精准度，同时通过将整个图像处理流程迁移到GPU上执行，避免了数据流来回流转，提高了图像处理效率。

Description

基于GPU的图像处理方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种基于GPU的图像处理方法、装置、存储介质及电子设备。

背景技术

随着互联网的发展和科技的进步，计算机视觉技术研究领域越来越受到重视。模板匹配（Template Matching）是一种高级的计算机视觉技术，可识别图像上与预定义模板匹配的部分。它是在整个图像上移动模板并计算模板与图像上被覆盖窗口之间的相似度的过程。

对于工业AI（Artificial Intelligence）质检场景，工业生产过程中对每个流程操作都是有时限要求的，而深度学习模型在处理数据时需要消耗大量的时间，因此留给模板匹配算法模块的时间就会相对不足，导致整体处理效率较差。

发明内容

本申请实施例提供一种基于GPU的图像处理方法、装置、存储介质及电子设备，可以提升计算机视觉技术在工业应用中的处理效率。

一种基于GPU的图像处理方法，所述方法应用于GPU，所述方法包括：

所述GPU获取待处理图像和参考图像，其中，所述参考图像包括多个已知特征区域；

所述GPU基于所述参考图像，从所述待处理图像中确定出与所述已知特征区域匹配的区域，得到多个候选特征区域；

所述GPU从匹配的所述候选特征区域和所述已知特征区域中确定匹配的特征点，得到多对配准点对；

所述GPU根据所述多对配准点对确定目标变换矩阵；

所述GPU基于所述目标变换矩阵，将所述待处理图像与所述参考图像进行配准对齐处理。

相应的，本申请实施例还提供一种基于GPU的图像处理装置，所述装置应用于GPU，所述装置包括：

获取单元，用于获取待处理图像和参考图像，其中，所述参考图像包括多个已知特征区域；

第一确定单元，用于基于所述参考图像，从所述待处理图像中确定出与所述已知特征区域匹配的区域，得到多个候选特征区域；

第二确定单元，用于从匹配的所述候选特征区域和所述已知特征区域中确定匹配的特征点，得到多对配准点对；

第三确定单元，用于根据所述多对配准点对确定目标变换矩阵；

处理单元，用于基于所述目标变换矩阵，将所述待处理图像与所述参考图像进行配准对齐处理。

可选的，在一些实施方式中，所述第一确定单元用于：

通过卷积核执行对于所述待处理图像与所述参考图像的互相关操作，以得到所述待处理图像与所述参考图像的互相关系数；

根据所述互相关系数，从所述待处理图像中确定所述已知特征区域匹配的候选特征区域。

可选的，在一些实施方式中，所述装置还包括：

归一化单元，用于在通过卷积核执行对于所述待处理图像与所述参考图像的互相关操作，以得到所述待处理图像与所述参考图像的互相关系数之前，所述GPU对所述待处理图像与所述参考图像分别进行归一化处理。

可选的，在一些实施方式中，所述第二确定单元用于：

确定所述候选特征区域中的第一中心点和所述已知特征区域中的第二中心点；

将所述第一中心点和所述第二中心点作为所述匹配的特征点，构建所述配准点对。

可选的，在一些实施方式中，所述第三确定单元用于：

将所述多对配准点对进行拟合，得到拟合结果；

根据所述拟合结果确定目标变换矩阵。

可选的，在一些实施方式中，在对所述多对配准点对进行拟合，得到拟合结果包括时，所述第三确定单元具体用于：

从所述多对配准点对中任意选择两对配准点对，得到多个样本点对组合；

针对每一所述样本点对组合计算变换矩阵，得到多个候选变换矩阵；

针对每一所述候选变换矩阵，将所述多对配准点对中的剩余配准点对，在所述候选变换矩阵中进行拟合，得到拟合结果。

可选的，在一些实施方式中，在针对每一所述候选变换矩阵，将所述多对配准点对中的剩余配准点对，在所述候选变换矩阵中进行拟合，得到拟合结果时，所述第三确定单元具体用于：

针对每一所述候选变换矩阵，计算所述多对配准点对中的剩余配准点对在所述候选变换矩阵上的误差；

根据所述误差，确定所述多对配准点对中的剩余配准点对在所述候选变换矩阵上的拟合程度；

基于所述拟合程度确定拟合结果。

可选的，在一些实施方式中，在根据所述误差，确定所述多对配准点对中的剩余配准点对在所述候选变换矩阵上的拟合程度时，若所述误差小于预设阈值，所述第三确定单元具体用于：

将对应的配准点添加到目标集合中；

根据所述目标集合中所述配准点对的数量，确定所述拟合程度。

此外，本申请实施方式还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器包括GPU，所述GPU用于运行所述存储器内的应用程序实现本申请实施例提供的基于GPU的图像处理方法中的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于GPU进行加载，以执行本申请实施例所提供的基于GPU的图像处理方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被GPU执行时实现本申请实施例提供的基于GPU的图像处理方法中的步骤。

本申请实施例，GPU基于参考图像中的多个已知特征区域，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域；从匹配的候选特征区域和已知特征区域中确定匹配的特征点，得到多对配准点对；根据配准点对确定目标变换矩阵；基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。本方案中，在参考图像中标定的多个特征区域用于匹配，提高了图像配准精准度，同时通过将整个图像处理流程迁移到GPU上执行，避免了数据流来回流转，提高了图像处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于GPU的图像处理方法的场景示意图；

图2是本申请实施例提供的基于GPU的图像处理方法的流程示意图；

图3是本申请实施例提供的参考图像的示意图；

图4是本申请实施例提供的模板匹配的场景示意图；

图5是本申请实施例提供的工业AI质检的流程示意图；

图6是本申请实施例提供的基于GPU的图像处理装置的结构示意图；

图7是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在工业制造中，由于元器件无论是结构还是质地都有着高度的一致性，可以认为是同一物件在不同条件下获取的两幅图像，因此图像配准在工业自动化中有着广泛的应用。

工业AI质检场景是一个高度重复性的场景，缺陷类型和缺陷出现位置由于工艺的一致性，通常发生概率都比较稳定，可以将这类缺陷频发区域称作感兴趣区域（egion ofinterest，ROI）。然而，由于机械手抓取时会引入一定的机械误差，导致元器件在成像上会出现一定的位置偏移和旋转，因此，引入图像配准将每一张元器件图片与预先设定的标准图片进行配准对齐，以便后续的缺陷对比学习模块能够有效的定位并识别出ROI区域内的缺陷。

在工业AI质检场景中，工业自动化平台拍摄的图像可能存在以下问题：元器件的相对偏移存在一定的误差范围、不良元器件以及平台故障引起成像上的部分缺失甚至全部缺失、周围环境的复杂性会导致成像上光照的变化较大、自动化过程中对算法的实时性要求较高。

基于此，本申请实施例提供一种基于GPU的图像处理方法、装置、存储介质及电子设备，可以快速实现图像配准的，对图像变换、光照变化及图像缺失等具有较好的鲁棒性，同时全程应用于GPU上，图像处理的实时性能好。其中，该基于GPU的图像处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以基于GPU的图像处理装置集成在电子设备中为例，电子设备通过GPU获取待处理图像和参考图像，其中，参考图像包括多个已知特征区域；GPU基于参考图像，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域；GPU从匹配的候选特征区域和已知特征区域中确定匹配的特征点，得到多对配准点对；GPU根据多对配准点对确定目标变换矩阵；GPU基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。

其中，本申请实施例提供的基于GPU的图像处理方法涉及人工智能中的计算机视觉方向。本申请实施例，在参考图像中标定的多个特征区域用于匹配，提高了图像配准精准度，同时通过将整个图像处理流程迁移到GPU上执行，避免了数据流来回流转，提高了图像处理效率。

其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉（Computer Vision）是指让机器通过数字图像或视频等视觉信息来模拟人类视觉的过程，以达到对物体的理解、识别、分类、定位、重建等目的的技术。它是人工智能领域中的一个分支，涉及图像处理、模式识别、机器学习、深度学习等多个领域。计算机视觉涉及的被用于许多领域自动化图像分析的核心技术。在许多计算机视觉应用中，计算机被预编程，以解决特定的任务。例如，计算机视觉，通过将自动化图像分析与其他方法和技术结合，可提供自动检测和指导机器人在工业上的应用。

预训练模型（Pre-training model，PTM），也称基石模型、大模型，指具有大参量的深度神经网络（Deep neural network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调（PEFT）、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（ELMO,BERT,GPT)、视觉模型（swin-transformer，ViT，V-MOE）、语音模型（VALL-E）、多模态模型(ViBERT, CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

模型并行计算，指将模型的计算任务分配给多个计算设备（例如CPU、GPU、TPU等）同时进行计算，从而加速模型的训练和推理。模型并行计算能够有效地利用计算资源，提高模型的计算效率和训练速度。例如，本申请实施例中，可将图像配准任务分配给GPU进行处理。

其中，可以理解的是，在本申请的具体实施方式中，涉及到属性数据、属性集合以及属性子集等相关数据，当本申请以下实施例运用到具体产品或技术中时，需要获得许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从基于GPU的图像处理装置的角信息进行描述，该基于GPU的图像处理装置具体可以集成在具备GPU的电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机（PC，PersonalComputer）或其他具备GPU并可以进行图像处理的智能设备等设备。

本申请实施例提供一种基于GPU的图像处理方法，应用于GPU，方法包括：GPU获取待处理图像和参考图像，其中，参考图像包括多个已知特征区域；GPU基于参考图像，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域；GPU从匹配的候选特征区域和已知特征区域中确定匹配的特征点，得到多对配准点对；GPU根据多对配准点对确定目标变换矩阵；GPU基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。

如图2所示，该基于GPU的图像处理方法的具体流程如下：

101、GPU获取待处理图像和参考图像，其中，参考图像包括多个已知特征区域。

本申请实施例中，待处理图像可以为工业应用场景中，通过工业自动化平台设置的相机拍摄得到的图像。该待处理图像的图像格式可以为RAW、YUV、RGB等格式。

本实施例中，参考图像为与该待处理图像处于同一拍摄场景下，拍摄得到的无成像缺陷的标准图像，可作为在该拍摄场景下采集到的其他图像的参考标准。标本实施例中，目的是要将待处理图像与参考图像进行图像配准，从而可以通过比较确定待处理图像与参考图像之间图像差异，进一步确定待处理图像中存在的成像缺陷。其中，参考图像中包括多个预先标定的已知特征区域。具体实施时，可以在工业自动化系统调试完毕后，在所拍摄的参考图像上选取多个局部特征区域标定为已知特征区域，所选取的局部特征区域具有唯一性。实际应用中，该已知特征区域可以为矩形区域（如图3所示的多个矩形框区域）。

需要说明的是，图像配准是将在同一场景下，但不同时间点、或不同拍摄视角、或不同采集设备拍摄的两幅图像进行匹配，使得两幅图像中对应同一空间位置的点一一对应。也即，寻找一空间变换将待处理图像变换到参考图像所在的空间位置上，或者将参考图像变换到待处理图像所在空间位置上。

102、GPU基于参考图像，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域。

具体的，将待处理图像与参考图像进行比较，针对参考图像中的每一个已知特征区域，从待处理图像中确定与其最匹配的区域。也即，从待处理图像中找到与该已知特征区域最相似的部分，并确定相似部分的位置区域，从而获取每一个已知特征区域对应的匹配区域，得到多个候选特征区域（如图4所示）。

具体实施时，由于系统可能存在成像误差，因此，可设定区域匹配时的误差范围，以提高算法针对位置变化的鲁棒性。例如，可统计系统成像的误差范围，在将参考图像中的已知特征区域对应到待处理图像中进行区域匹配时，可在已知特征区域的基础上进行区域外扩，以覆盖该误差范围内的区域。

相关技术中，通常采用基于OpenCV的模板匹配算法来实现图像配准（即从待处理图像中确定出与已知特征区域匹配的区域），基于OpenCV的算法只能运行在CPU上。然而，基于深度学习的场景下，数据的输入通常都是在GPU上的，若调用OpenCV的模板匹配算法，需要先将数据转移到CPU上处理，模板匹配算法处理完毕后，再将数据转移到GPU上处理，数据流转过程中将耗费大量的时间。因此，为了节约时间成本，本方案中将把图像配准的操作放在GPU上实现，也即在一实施方式中，在基于参考图像，从待处理图像中确定出与已知特征区域匹配的区域时，可以包括以下流程：

通过卷积核执行对于待处理图像与参考图像的互相关操作，以得到待处理图像与参考图像的互相关系数；

根据互相关系数，从待处理图像中确定已知特征区域匹配的候选特征区域。

具体实施时，GPU将通过卷积核执行对于待处理图像与参考图像的互相关操作。例如，可以利用PyTorch中的F.Conv2d函数来进行互相关操作。具体的，在执行互相关操作时，可以建立二维坐标系，获取待处理图像和参考图像中每个像素点在该二维坐标系中的坐标，作为每个像素点的位置。其中，像素值可以为像素点的亮度值、灰度值等。随后，基于获取的坐标位置和像素值，计算待处理图像中像素点与参考图像中像素点之间的互相关系数，以确定待处理图像与参考图像中像素点的相似程度，进而从待处理图像中确定与已知特征区域匹配的候选特征区域。

在一实施方式中，在根据互相关系数，从待处理图像中确定已知特征区域匹配的候选特征区域时，可以包括以下流程：

根据互相关系数的大小，从待处理图像中确定与已知特征区域匹配的目标像素点；

根据目标像素点所在的位置，确定已知特征区域匹配的候选特征区域。

具体的，可根据互相关系数的大小，从待处理图像中确定出互相关系数较大的像素点，作为已知特征区域匹配的目标像素点。随后，基于目标像素点所在待处理图像中所处的位置构建相应的图像区域，得到与已知特征区域匹配的候选特征区域。

在一实施方式中，为了抵抗图像变换过程中几何变换的攻击，可以对待处理图像和参考图像预先进行归一化处理。也即，在GPU通过卷积核执行对于待处理图像与参考图像的互相关操作，以得到待处理图像与参考图像的互相关系数之前，还可以包括：GPU对待处理图像与参考图像分别进行归一化处理。

103、GPU从匹配的候选特征区域和已知特征区域中确定匹配的特征点，得到多对配准点对。

具体的，可对候选特征区域和已知特征区域进行特征点的检测，并基于检测到的特征点来构建配准点对。实施过程中，针对每一对匹配的候选特征区域和已知特征区域，都会构建至少一对配准点对。而为了减少计算量，可以针对每一对匹配的候选特征区域和已知特征区域确定一对最匹配的特征点，仅构建一对配准点对。

在一实施方式中，可从候选特征区域和已知特征区域中选取区域中心点作为特征点，来构建配准点对。也即，从匹配的候选特征区域和已知特征区域中确定匹配的特征点，得到多对配准点对，可以包括以下流程：

确定候选特征区域中的第一中心点和已知特征区域中的第二中心点；

将第一中心点和第二中心点作为匹配的特征点，构建配准点对。

在一实施方式中，还可以从候选特征区域和已知特征区域中选取特征最为明显的点（例如，与周围其他位置点差异较大的目标位置点）作为特征点，来构建配准点对。

104、GPU根据多对配准点对确定目标变换矩阵。

具体的，基于获取的多对配准点对，计算目标变换矩阵，以为后续将待处理图像变换到参考图像所在的空间位置、或者将参考图像变换到待处理图像所在空间位置上时，空间变换效果最佳。

在一实施方式中，在根据多对配准点对确定目标变换矩阵时，可以包括以下流程：

将多对配准点对进行拟合，得到拟合结果；

根据拟合结果确定目标变换矩阵。

具体的，可以将配准点对尽可能多地拟合到同一个变换矩阵中，并将拟合效果最好的变换矩阵，确定为目标变换矩阵。实际应用中，由于是二维坐标系，因此两对配准点对便可确定一个变换矩阵。因此，可以从多对配准点对中任意选取两对配准点对计算变换矩阵后，将其他剩余配准点对在该变换矩阵上进行拟合，并根据拟合效果来确定最佳的变换矩阵，作为目标变换矩阵。也即，在一实施方式中，在对多对配准点对进行拟合，得到拟合结果时，可以包括以下流程：

从多对配准点对中任意选择两对配准点对，得到多个样本点对组合；

针对每一样本点对组合计算变换矩阵，得到多个候选变换矩阵；

针对每一候选变换矩阵，将多对配准点对中的剩余配准点对，在候选变换矩阵中进行拟合，得到拟合结果。

在一实施方式中，在针对每一候选变换矩阵，将多对配准点对中的剩余配准点对，在候选变换矩阵中进行拟合，得到拟合结果时，可以包括以下流程：

针对每一候选变换矩阵，计算多对配准点对中的剩余配准点对在候选变换矩阵上的误差；

根据误差，确定多对配准点对中的剩余配准点对在候选变换矩阵上的拟合程度；

基于拟合程度确定拟合结果。

具体的，根据误差大小确定每一对剩余配准点对在候选变换矩阵上的拟合程度。对于单对剩余配准点对而言，误差越大，拟合程度越小，拟合效果越差；误差越小，拟合程度越高，拟合效果好。具体实施时，可以依据每一对剩余配准点对在候选变换矩阵上的拟合程度和剩余配准点对的数量，进行综合评估，以确定每一候选变换矩阵对应的最终拟合结果，并选择最终拟合结果最后的候选变换矩阵，作为目标变换矩阵。

在一实施方式中，根据误差，确定多对配准点对中的剩余配准点对在候选变换矩阵上的拟合程度时，包括以下流程：

若误差小于预设阈值，则将对应的配准点添加到目标集合中；

根据目标集合中配准点对的数量，确定拟合程度。

具体的，目标集合中配准点对的数量越多，变换矩阵对应的整体拟合程度越高，相应的整体拟合效果越好；目标集合中配准点对的数量越少，变换矩阵对应的整体拟合程度越低，相应的整体拟合效果越差。

105、GPU基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。

具体的，基于选取的目标变换矩阵对待处理图像进行图像矫正，将待处理图像变换到参考图像所在的空间位置上，完成图像配准对齐操作。

参考图5，在进行图像配准之后，工业AI质检平台（即工业自动化平台）中的缺陷对比学习模块，可基于配准图像（即待处理图像进行配准对齐后的图像）和参考图像的成像内容，识别出配准图像中的缺陷区域，得到相应的缺陷结果图像，实现工业应用中产品缺陷检测的自动化过程。

需要说明的是，本申请实施例中所有处理流程均在GPU上执行。基于深度学习的场景下，数据的输入通常都是在GPU上的，若调用OpenCV的模板匹配算法，需要先将数据转移到CPU上处理，模板匹配算法处理完毕后，再将数据转移到GPU上处理，数据流转过程中将耗费大量的时间。而本方案中，图像配准操作直接放在GPU上处理，避免了在图像配准时在CPU上执行相关流程，在深度学习模型学习缺陷时又要将数据流转到GPU上执行相关流程的情况，通过节省数据的流转时间，为相关算法模块提供了更充沛的处理时间。

以输入图像大小为（1333，800）为例，在T4显卡上，基于OpenCV的模板匹配算法的单图推理时间为26.9ms，而采用本申请实施例中的方案，单图模板匹配时间为0.17ms，速度提升超过了158倍。

由上可知，本申请实施例提供的基于GPU的图像处理方法，基于参考图像中的多个已知特征区域，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域；从匹配的候选特征区域和已知特征区域中确定匹配的特征点，得到多对配准点对；根据配准点对确定目标变换矩阵；基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。本方案中，在参考图像中标定的多个特征区域用于匹配，提高了图像配准精准度，同时通过将整个图像处理流程迁移到GPU上执行，避免了数据流来回流转，提高了图像处理效率。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。本申请另一实施例中，还提供一种应用于工业检测场景的图像配准方法。

在工业检测场景中，由于工业制造元器件在结构上存在着许多局部相似度很高的区域，相关算法（如orb结合BruteForce的算法）在进行模板匹配时容易出现误匹配，导致整体配准精度较低；另外，由于工业检测场景对实时性要求非常高，且有限的时间需要尽可能的分配给深度学习算法，因此其他算法的耗时必须尽可能的小，而通过配准精度较低的算法得到的配准对基本都是无效的，造成过多的不必要耗时。基于此，本申请实施例供一种应用于工业检测场景的图像配准方法，具体如下：

（1）选取局部特征区域

待工业自动化系统调试完毕后，对平台所拍摄的标准图像，人工选取N个局部特征区域进行标定，所选取的局部特征区域具有唯一性。此外，统计系统成像的误差范围，将选取的N各局部特征区域平移距离。

本实施例中，标定的局部特征区域的数量可以在4到8个之间。

（2）模板匹配，确定配准点对

针对每一幅待配准图像，将标准图中选定的局部特征区域映射到待配准图像中，然后外扩T，以将误差范围内的所有情况包含进去，使算法针对位置变化有更好的鲁棒性。在每一幅待配准图像的每一个外扩特征区域内，采用模板匹配的方法寻找与之对应的标准图像局部特征区域最相似的区域，使每一个标准图像局部特征区域可匹配到相似度最高的区域，作为该标准图像局部特征区域的匹配对象，故N个标准图像局部特征区域可在待匹配图像中找到N个一一对应的局部特征区域。随后，获取标准图像与待配准图像中相互匹配的局部特征区域的中心点作为特征点，从而实现特征点检测和特征匹配的操作，获得N个配准点对。

其中，可应用GPU的模板匹配方法，基于TM_CCOEFF_NORMED算法计算标注图像与待配准图像之间的相关性，其数学公式如下：

其中，x和y表示待配准图像中的像素点坐标，x′和y′表示标准图像中的像素点坐标；T(x′,y′)表示标准图像中的像素值，I(x+x′,y+y′)表示待配准图像中的像素值；表示标准图像的均值，/>表示待配准图像的均值；R（x，y）表示互相关系数。

通过上述公式，计算标准图像与待配准图像之间的互相关系数，并将其归一化到0到1之间。匹配度量越接近1，表示标准图像与待配准图像之间的匹配程度越高；匹配度量越接近0，表示标准图像与待配准图像之间的匹配程度越低。具体实施时，可对待配准图像和标准图像进行归一化处理后，再进行互相关系数的求取。如下：

1）对待配准图像和标准图像分别进行归一化处理，具体操作为：

对待配准图像进行减均值再除以方差操作，公式如下：

对标准图像进行减均值再除以方差操作，公式如下：

2）对归一化后的待配准图像与标准图像做互相关系数求取操作，如下：

实际应用中，该操作可直接调用PyTorch中的F.Conv2d函数来实现。

（3）根据配准点对获取目标变换矩阵

由于工业自动化平台拍摄的图像偏移通常只包含平移和旋转这两种变换，因此最终的图像矫正变换可采取欧式变换。相似变换有三个自由度，可以由两对配准点对来确定变换矩阵。具体操作如下：

首先，从配准点对集中随机抽出两对样本数据，直接计算出变换矩阵，记为模型M。然后，计算配准点对集中其他剩余配准点对在模型M上的误差，若误差小于阈值，则认为该匹配点对是内点，并添加到内点集合C中。当内点集合C中的元素数量大于最优内点集C_best时，则更新C_best = C，并记录此时的模型M，并重复上述步骤，进行多次迭代，直至所有样本数据的组合遍历完成。最后，选取C_best时的变换矩阵作为最终的目标变换矩阵，并基于该目标变换矩阵对待配准图像进行图像矫正，完成整个图像配准过程。

本申请实施例中，在标准图像中预先标定局部特征区域用于后续模板匹配，只需要进行一次标准图像的手动标定，并未造成过多的额外工作量；同时将模板匹配和特征点检测的流程应用到GPU上，既提高了配准精度，又提高了配准速度，从而提升了计算机视觉技术在工业应用中的处理效率。

为了更好地实施以上方法，本申请实施例还提供一种基于GPU的图像处理装置，该基于GPU的图像处理装置可以集成在电子设备，并应用于电子设备的GPU中。该电子设备可以为服务器或终端等设备，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图6所示，该基于GPU的图像处理装置可以包括：获取单元301、第一确定单元302、第二确定单元303、第三确定单元304及处理单元305，如下：

获取单元301，用于获取待处理图像和参考图像，其中，该参考图像包括多个已知特征区域；

第一确定单元302，用于基于该参考图像，从该待处理图像中确定出与该已知特征区域匹配的区域，得到多个候选特征区域；

第二确定单元303，用于从匹配的该候选特征区域和该已知特征区域中确定匹配的特征点，得到多对配准点对；

第三确定单元304，用于根据多对配准点对确定目标变换矩阵；

处理单元305，用于基于该目标变换矩阵，将该待处理图像与该参考图像进行配准对齐处理。

可选的，在一些实施方式中，该第一确定单元302用于：

通过卷积核执行对于该待处理图像与该参考图像的互相关操作，以得到该待处理图像与该参考图像的互相关系数；

根据该互相关系数，从该待处理图像中确定该已知特征区域匹配的候选特征区域。

可选的，在一些实施方式中，该装置还可以包括：

归一化单元，用于在通过卷积核执行对于该待处理图像与该参考图像的互相关操作，以得到该待处理图像与该参考图像的互相关系数之前，该GPU对该待处理图像与该参考图像分别进行归一化处理。

可选的，在一些实施方式中，该第二确定单元303用于：

确定该候选特征区域中的第一中心点和该已知特征区域中的第二中心点；

将该第一中心点和该第二中心点作为该匹配的特征点，构建该配准点对。

可选的，在一些实施方式中，该第三确定单元用于：

将该多对配准点对进行拟合，得到拟合结果；

根据该拟合结果确定目标变换矩阵。

可选的，在一些实施方式中，在对该多对配准点对进行拟合，得到拟合结果包括时，该第三确定单元304具体用于：

从该多对配准点对中任意选择两对配准点对，得到多个样本点对组合；

针对每一候选变换矩阵，将该多对配准点对中的剩余配准点对，在该候选变换矩阵中进行拟合，得到拟合结果。

可选的，在一些实施方式中，在针对每一候选变换矩阵，将该多对配准点对中的剩余配准点对，在该候选变换矩阵中进行拟合，得到拟合结果时，该第三确定单元304具体用于：

针对每一候选变换矩阵，计算该多对配准点对中的剩余配准点对在该候选变换矩阵上的误差；

根据该误差，确定该多对配准点对中的剩余配准点对在该候选变换矩阵上的拟合程度；

基于该拟合程度确定拟合结果。

可选的，在一些实施方式中，在根据该误差，确定该多对配准点对中的剩余配准点对在该候选变换矩阵上的拟合程度时，若该误差小于预设阈值，该第三确定单元304具体用于：

将对应的配准点添加到目标集合中；

根据该目标集合中该配准点对的数量，确定该拟合程度。

由上可知，本申请实施例提供的基于GPU的图像处理装置，基于参考图像中的多个已知特征区域，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域；从匹配的候选特征区域和该已知特征区域中确定匹配的特征点，得到多对配准点对；根据配准点对确定目标变换矩阵；基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。本方案中，在参考图像中标定的多个特征区域用于匹配，提高了图像配准精准度，同时通过将整个图像处理流程迁移到GPU上执行，避免了数据流来回流转，提高了图像处理效率。

本申请实施例还提供一种电子设备，如图7所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。其中，处理器包括中央处理器（Central Processing Unit，CPU）401和图形处理器（即GPU）405。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

中央处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，中央处理器401可包括一个或多个处理核心；优选的，中央处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到中央处理器401中。

存储器402可用于存储软件程序以及模块，中央处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及基于GPU的图像处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供中央处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与中央处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可包括图形处理器405，图形处理器405是一种专门用于处理计算机图形和图像的处理器，该图形处理器405可用于对系统输入的视频信息进行构建和渲染，加速计算机图形渲染和处理操作，是实现高质量图形和图像的必要组件。图形处理器405可以通过多个处理单元并行处理图形、图像和计算任务来提高处理速度和效率。这些处理单元分布在不同的计算核心和计算单元中，可以同时处理多个任务，因此可以更快地处理大量的图形和图像数据，减少显卡了对中央处理器401的依赖。

同时，在科学计算、深度学习等领域中，图形处理器405也可以作为计算加速器来使用，可以大幅提高计算速度和效率。此外，图形处理器405还使用了高速缓存、显存等技术来优化数据存储和访问，进一步提高了性能和速度。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的图形处理器405会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由图形处理器405来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待处理图像和参考图像，其中，该参考图像包括多个已知特征区域；

基于该参考图像，从该待处理图像中确定出与该已知特征区域匹配的区域，得到多个候选特征区域；

从匹配的该候选特征区域和该已知特征区域中确定匹配的特征点，得到多对配准点对；

根据多对配准点对确定目标变换矩阵；

基于该目标变换矩阵，将该待处理图像与该参考图像进行配准对齐处理。在一实施方式中，在基于该参考图像，从该待处理图像中确定出与该已知特征区域匹配的区域时，图形处理器405具体用于：

在一些实施方式中，在通过卷积核执行对于待处理图像与参考图像的互相关操作，以得到待处理图像与参考图像的互相关系数之前，图形处理器405还可以用于：

对待处理图像与参考图像分别进行归一化处理。

在一些实施方式中，在从匹配的该候选特征区域和该已知特征区域中确定匹配的特征点，得到多对配准点对时，图形处理器405具体用于：

将该第一中心点和该第二中心点作为该匹配的特征点，构建该配准点对

在一些实施方式中，在根据多对配准点对确定目标变换矩阵时，图形处理器405具体用于：

将该多对配准点对进行拟合，得到拟合结果；

根据该拟合结果确定目标变换矩阵。

在一些实施方式中，在对该多对配准点对进行拟合，得到拟合结果时，图形处理器405具体用于：

在一些实施方式中，在针对每一候选变换矩阵，将该多对配准点对中的剩余配准点对，在该候选变换矩阵中进行拟合，得到拟合结果时，图形处理器405具体用于：

基于该拟合程度确定拟合结果。

在一些实施方式中，在根据该误差，确定该多对配准点对中的剩余配准点对在该候选变换矩阵上的拟合程度时，若该误差小于预设阈值，则图形处理器405具体用于：

将对应的配准点添加到目标集合中；

根据该目标集合中该配准点对的数量，确定该拟合程度。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由以上可知，本申请实施例中，电子设备基于参考图像中的多个已知特征区域，从待处理图像中确定出与已知特征区域匹配的区域，得到多个候选特征区域；从匹配的候选特征区域和该已知特征区域中确定匹配的特征点，得到多对配准点对；根据配准点对确定目标变换矩阵；基于目标变换矩阵，将待处理图像与参考图像进行配准对齐处理。本方案中，在参考图像中标定的多个特征区域用于匹配，提高了图像配准精准度，同时通过将整个图像处理流程迁移到GPU上执行，避免了数据流来回流转，提高了图像处理效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被GPU进行加载，以执行本申请实施例所提供的任一种基于GPU的图像处理方法中的步骤。例如，该指令可以执行如下步骤：

根据多对配准点对确定目标变换矩阵；

基于该目标变换矩阵，将该待处理图像与该参考图像进行配准对齐处理。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种基于GPU的图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种基于GPU的图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的GPU从计算机可读存储介质读取该计算机指令，GPU执行该计算机指令，使得该计算机设备执行上述基于GPU的图像处理方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种基于GPU的图像处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于GPU的图像处理方法，其特征在于，所述方法应用于GPU，所述方法包括：

所述GPU根据所述多对配准点对确定目标变换矩阵；

2.根据权利要求1所述的基于GPU的图像处理方法，其特征在于，所述GPU基于所述参考图像，从所述待处理图像中确定出与所述已知特征区域匹配的区域，包括：

所述GPU通过卷积核执行对于所述待处理图像与所述参考图像的互相关操作，以得到所述待处理图像与所述参考图像的互相关系数；

所述GPU根据所述互相关系数，从所述待处理图像中确定所述已知特征区域匹配的候选特征区域。

3.根据权利要求2所述的基于GPU的图像处理方法，其特征在于，在所述GPU通过卷积核执行对于所述待处理图像与所述参考图像的互相关操作，以得到所述待处理图像与所述参考图像的互相关系数之前，还包括：

所述GPU对所述待处理图像与所述参考图像分别进行归一化处理。

4.根据权利要求1所述的基于GPU的图像处理方法，其特征在于，所述GPU从匹配的所述候选特征区域和所述已知特征区域中确定匹配的特征点，得到多对配准点对，包括：

所述GPU确定所述候选特征区域中的第一中心点和所述已知特征区域中的第二中心点；

所述GPU将所述第一中心点和所述第二中心点作为所述匹配的特征点，构建所述配准点对。

5.根据权利要求1-4任一项所述的基于GPU的图像处理方法，其特征在于，所述GPU根据所述多对配准点对确定目标变换矩阵，包括：

所述GPU将所述多对配准点对进行拟合，得到拟合结果；

所述GPU根据所述拟合结果确定目标变换矩阵。

6.根据权利要求5所述的基于GPU的图像处理方法，其特征在于，所述GPU对所述多对配准点对进行拟合，得到拟合结果，包括：

所述GPU从所述多对配准点对中任意选择两对配准点对，得到多个样本点对组合；

所述GPU针对每一所述样本点对组合计算变换矩阵，得到多个候选变换矩阵；

所述GPU针对每一所述候选变换矩阵，将所述多对配准点对中的剩余配准点对，在所述候选变换矩阵中进行拟合，得到拟合结果。

7.根据权利要求6所述的基于GPU的图像处理方法，其特征在于，所述GPU针对每一所述候选变换矩阵，将所述多对配准点对中的剩余配准点对，在所述候选变换矩阵中进行拟合，得到拟合结果，包括：

所述GPU针对每一所述候选变换矩阵，计算所述多对配准点对中的剩余配准点对在所述候选变换矩阵上的误差；

所述GPU根据所述误差，确定所述多对配准点对中的剩余配准点对在所述候选变换矩阵上的拟合程度；

基于所述拟合程度确定拟合结果。

8.根据权利要求7所述的基于GPU的图像处理方法，其特征在于，所述GPU根据所述误差，确定所述多对配准点对中的剩余配准点对在所述候选变换矩阵上的拟合程度，包括：

若所述误差小于预设阈值，则所述GPU将对应的配准点添加到目标集合中；

所述GPU根据所述目标集合中所述配准点对的数量，确定所述拟合程度。

9.一种基于GPU的图像处理装置，其特征在于，所述装置应用于GPU，所述装置包括：

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器包括GPU，所述GPU用于运行所述存储器内的应用程序，以执行权利要求1-8任一项所述的基于GPU的图像处理方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于GPU进行加载，以执行权利要求1-8任一项所述的基于GPU的图像处理方法中的步骤。