CN117808855A

CN117808855A - 一种基于视觉图像的目标对位方法及系统

Info

Publication number: CN117808855A
Application number: CN202410225544.1A
Authority: CN
Inventors: 刘敏; 邱健生; 张勇; 刘中
Original assignee: Xinxiwang Intelligent Technology Shenzhen Co ltd
Current assignee: Xinxiwang Intelligent Technology Shenzhen Co ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02
Anticipated expiration: 2044-02-29

Abstract

本发明涉及图像处理技术领域，尤其是一种基于视觉图像的目标对位方法及系统，方法包括：获取对于目标物体的目标图像；对所述目标图像进行预处理；提取经过预处理后的目标图像的图像特征；将经过预处理后的目标图像的图像特征与预定义的标准形状的图像特征进行匹配，对所述目标物体进行识别；通过亚像素处理技术，提升目标图像的分辨率；通过姿态估计算法，对高分辨率的目标图像进行处理，以对所述目标物体进行姿态估计；根据所述目标物体的识别结果与姿态估计结果进行融合，得到对位融合数据；根据所述对位融合数据，对所述目标物体进行对位。

Description

一种基于视觉图像的目标对位方法及系统

技术领域

本发明涉及图像处理技术领域，尤其是一种基于视觉图像的目标对位方法及系统。

背景技术

在现代制造业中，高精度对位技术是确保产品质量和生产效率的关键环节。

然而，传统的对位特征介入方式常导致制造工序的复杂性升级。在生产过程中，引入额外的对位特征通常需要额外的加工步骤和校准工作，这不仅增加了生产周期，还加重了生产成本。复杂的制造工序可能导致生产效率低下，同时也增加了潜在的人为错误的风险，限制了制造流程的灵活性和适应性。

针对曲面、异形或复杂表面的目标对位物体，传统方法在设置对位特征时面临巨大的挑战。表面特性的多样性和变化使得确定性的对位特征选择变得非常困难，甚至有时根本无法找到适用的特征点。设置对位特征的困难不仅限制了对位的准确性，也加大了生产中出现对位偏差的风险，特别是在复杂形状的工件上。

传统介入特征方法在实现介入特征与目标对位物体的精准姿态对应方面存在困难。由于对位特征介入通常涉及到复杂的物体姿态和位置计算，特别是在处理曲面或异形物体时，传统方法往往无法准确地建立介入特征与目标物体姿态之间的关联。这造成了对位精度的降低，从而影响了制造和装配过程的质量和效率。

综上，传统的对位特征介入方式面临着制造工序复杂、设置对位特征困难以及介入特征与目标对位物体的姿态难以对应等一系列严重问题。这些问题不仅增加了制造成本和生产周期，还限制了生产流程的灵活性和适应性，对整个制造领域的进步带来了挑战。

发明内容

为解决上述现有技术问题，本发明提供一种基于视觉图像的目标对位方法及系统：

第一方面

本发明提供一种基于视觉图像的目标对位方法，包括：

S1：获取对于目标物体的目标图像；

S2：对所述目标图像进行预处理；

S3：提取经过预处理后的目标图像的图像特征；

S4：将经过预处理后的目标图像的图像特征与预定义的标准形状的图像特征进行比匹配，对所述目标物体进行识别；

S5：通过亚像素处理技术，提升目标图像的分辨率；

S6：通过姿态估计算法，对高分辨率的目标图像进行处理，以对所述目标物体进行姿态估计；

S7：根据所述目标物体的识别结果与姿态估计结果进行融合，得到对位融合数据；

S8：根据所述对位融合数据，对所述目标物体进行对位。

第二方面

本发明提供一种基于视觉图像的目标对位系统，包括：

获取模块，用于获取对于目标物体的目标图像；

预处理模块，用于对所述目标图像进行预处理；

提取模块，用于提取经过预处理后的目标图像的图像特征；

识别模块，用于将经过预处理后的目标图像的图像特征与预定义的标准形状的图像特征进行比匹配，对所述目标物体进行识别；

亚像素处理模块，用于通过亚像素处理技术，提升目标图像的分辨率；

姿态估计模块，用于通过姿态估计算法，对高分辨率的目标图像进行处理，以对所述目标物体进行姿态估计；

融合模块，用于根据所述目标物体的识别结果与姿态估计结果进行融合，得到对位融合数据；

对位模块，用于根据所述对位融合数据，对所述目标物体进行对位。

本发明的有益效果体现在，通过提取经过预处理后的目标图像的图像特征，将经过预处理后的目标图像的图像特征与预定义的标准形状的图像特征进行比匹配，可以准确识别目标对位物体，避免了传统对位方式中引入额外特征所带来的制造工序复杂性，同时更适用于处理曲面、异形或复杂表面的目标对位物体。通过亚像素处理技术，提升目标图像的分辨率，通过姿态估计算法，对高分辨率的目标图像进行处理，以对所述目标物体进行姿态估计，进而可以实现对于目标物体的高精度姿态估计，提升了目标对位的准确性。

附图说明

图1为本发明所提供的一种基于视觉图像的目标对位方法的流程示意图；

图2为本发明所提供的一种目标物体识别方法的流程示意图；

图3为本发明所提供的一种亚像素处理方法的流程示意图；

图4为本发明所提供的一种姿态估计方法的流程示意图；

图5为本发明所提供的一种基于视觉图像的目标对位系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1，示出了本发明所提供的一种基于视觉图像的目标对位方法的流程示意图。

本发明实施例提供的一种基于视觉图像的目标对位方法，包括：

S1：获取对于目标物体的目标图像。

具体而言，可以通过摄像头采集对于目标物体的目标图像。

S2：对目标图像进行预处理。

具体而言，预处理可以包括：去噪、增强对比度、灰度化、归一化等等。

S3：提取经过预处理后的目标图像的图像特征。

其中，图像特征可以包括：边缘特征、纹理特征以及颜色特征等。

在一种可能的实施方式中，S3具体为：采用局部二值模式、方向梯度直方图和/或卷积操作，提取经过预处理后的目标图像的图像特征，并组成特征向量。

其中，局部二值模式（Local Binary Pattern，LBP）是一种描述图像局部纹理特征的算子。它通过比较每个像素点与其邻域像素的灰度值来为每个像素分配一个标签（通常是0或1），然后可以进一步对这些标签进行汇总（例如，计算直方图）以提取图像的全局或局部特征。

其中，方向梯度直方图（Histogram of Oriented Gradients，HOG）是一种特征描述子，用于图像识别和计算机视觉任务。它基于图像局部区域的梯度方向和强度来描述图像特征。

其中，卷积操作是深度学习中常用的一种操作，用于提取输入数据的局部特征。具体来说，卷积操作会对输入数据中的局部区域进行加权求和（或其它类型的转换），从而得到该局部区域的特征表示。

在本发明中，采用局部二值模式、方向梯度直方图和卷积操作用于图像特征提取，可以带来鲁棒性、高效性、丰富的特征表示、可扩展性、适中的计算资源要求、灵活性、解释性和低成本等好处。

S4：将经过预处理后的目标图像的图像特征与预定义的标准形状的图像特征进行匹配，对目标物体进行识别。

在本发明中，通过与预定义的标准形状的图像特征进行比对，可以更准确地识别目标物体，降低误识别的概率。同时，预定义的标准形状的图像特征可以预先计算和存储，比在实时处理中进行特征提取更加高效。

参照图2 ，示出了本发明所提供的一种目标物体识别方法的流程示意图。

在一种可能的实施方式中，为了处理曲面、异形、复杂表面，本发明的S4具体包括子步骤S401至S406：

S401：通过卷积神经网络，估计目标表面的形变场。

其中，卷积神经网络（Convolutional Neural Networks，CNN）是一类包含卷积计算且具有深度结构的前馈神经网络。

在一种可能的实施方式中，S401具体为：通过卷积神经网络，以最小化形变场估计的损失函数为目标，估计目标表面的形变场。

其中，形变场估计的损失函数具体为：

其中，L_def表示损失函数，D_T表示目标表面形变场，D_S表示标准表面形变场，(i, j)表示像素点坐标，i表示像素点横坐标，j表示像素点纵坐标。

在本发明中，通过最小化形变场估计的损失函数，可以减少估计误差，提高形变场估计的鲁棒性。这有助于在各种条件下都能得到准确的结果，特别是在存在噪声、遮挡或光照变化等干扰因素时。同时，使用卷积神经网络进行形变场估计，可以利用神经网络的并行计算能力，实现快速、高效的计算。这有助于在实时或近实时应用中实现物体识别。

S402：提取经过预处理后的目标图像的特征图。

S403：通过空间变换网络，将形变场应用于特征图，将特征图调整为标准形状，得到形变后的目标图像的特征图。

其中，空间变换网络（Spatial Transformer Networks，STNs）是一种基于神经网络的图像处理技术，旨在通过学习图像的空间变换来提高图像识别的性能。STNs的核心思想是通过变换输入的图片，降低受到数据在空间上的多样性的影响，从而提高卷积神经网络模型的分类准确率。

在本发明中，空间变换网络能够根据估计的形变场对特征图进行相应的变换，使其适应目标物体的形变。这有助于在目标物体存在形变的情况下，提高识别的鲁棒性。

S404：对形变后的目标图像的特征图与标准形状的特征图进行互相关操作，得到匹配度图。

其中，互相关操作涉及将一个图像与另一个图像进行逐点相乘，并取乘积的积分。这个积分运算可以衡量两个信号或图像在时间或空间上的相似性。如果两个信号或图像在某个时间段或空间区域内相似，那么它们的互相关值就会较高。

进一步地，互相关操作能够衡量两个特征图之间的相似性，对于形变、光照变化等具有较好的鲁棒性。通过计算形变后的目标图像的特征图与标准形状的特征图的互相关值，可以得到匹配度图，即使目标物体存在形变，也能得到相对准确的结果。

在一种可能的实施方式中，S404具体为：根据以下公式，对形变后的目标图像的特征图与标准形状的特征图进行互相关操作，得到匹配度图：

其中，M表示匹配度图，表示形变后的目标图像的特征图，F_S表示标准形状的特征图，(i, j)表示像素点坐标，i表示像素点横坐标，j表示像素点纵坐标，u表示横坐标位移量，v表示纵坐标位移量。

在本发明中，通过互相关操作进行特征匹配，能够准确地找到形变后的目标图像与标准形状之间的相似区域。匹配度图中的高值区域表示对应特征点之间的相似性较高，有助于后续的识别和分类。

S405：在匹配度图中，搜索最大匹配度的位置，得到最佳位移量。

在一种可能的实施方式中，S405具体为：根据以下公式，在匹配度图中，搜索最大匹配度的位置，得到最佳位移量：

其中，u*表示最佳横坐标位移量，v*表示最佳纵坐标位移量，argmax表示寻找最大值操作。

在本发明中，最大匹配度对应的位置通常对应于目标物体的关键特征点，能够有效地抵抗形变、光照变化等因素的影响。通过寻找最大匹配度的位置，能够得到更准确的物体位置信息。通过寻找最大匹配度的位置，能够快速地定位到目标物体，减少计算量和时间复杂度。

S406：根据最佳位移量，确定与目标物体匹配的标准形状，对目标物体进行识别。

在本发明中，通过最佳位移量对目标物体进行匹配和识别，能够更好地适应物体形变和姿态变化的情况。由于最佳位移量是根据匹配度图得到的，它能够反映目标物体的真实位置和方向，从而提高了识别的鲁棒性。

S5：通过亚像素处理技术，提升目标图像的分辨率。

其中，亚像素（Sub Pixel）是一种图像处理技术，通过该技术可以提升目标图像的分辨率。亚像素处理技术通常利用图像中的高频细节信息，通过插值等方法，将图像的分辨率提高到超过原始采集分辨率的级别。

可选地，可以通过生成对抗网络进行亚像素处理，提升目标图像的分辨率。

参照图3，示出了本发明所提供的一种亚像素处理方法的流程示意图。

在一种可能的实施方式中，在S5具体包括子步骤S501至S504：

S501：构建图像金字塔，生成不同分辨率的图像，其中，图像金字塔共有L层，I_i表示第i层图像。

其中，图像金字塔是一种多尺度的图像表达方式，通过将图像按照一定的规则进行连续的降采样，形成一系列不同分辨率的图像集合。

S502：对每一层的图像进行特征提取，得到每一层图像的特征图F_i。

S503：通过亚像素回归网络，根据每一层图像的特征图，确定图像中每个像素的亚像素级别的偏移信息，得到每一层图像的亚像素偏移图O_i。

其中，亚像素回归网络通过亚像素回归网络确定图像中每个像素的亚像素级别的偏移信息，可以得到更精确的图像定位和更高的定位精度。亚像素级别的偏移信息可以提供比传统像素级别更丰富的位置信息，从而更好地描述图像中的细节和形状变化。

在本发明中，通过亚像素回归网络确定图像中每个像素的亚像素级别的偏移信息，可以得到更精确的图像定位和更高的定位精度。亚像素级别的偏移信息可以提供比传统像素级别更丰富的位置信息，从而更好地描述图像中的细节和形状变化。

S504：根据亚像素偏移图，以亚像素插值损失函数的函数值最小为目标，对图像金字塔进行亚像素插值，提升目标图像的分辨率。

亚像素插值损失函数具体为：

其中，L(total)表示亚像素插值损失函数，L(pyramid)表示图像金字塔重构损失，α表示图像金字塔重构损失的权重系数，L(subpixel)表示亚像素回归损失，β表示亚像素回归损失的权重系数，I_i表示第i层图像，Dow(I_res,i)表示图像金字塔重构后的第i层图像，O_i表示第i层图像的亚像素偏移图，Sub(Fea(Dow(I,i)))表示亚像素回归的特征提取损失函数值。

其中，本领域技术人员可以根据实际情况设置图像金字塔重构损失的权重系数α、亚像素回归损失的权重系数β的大小，本发明不做限定。

在本发明中，通过使用亚像素插值损失函数对图像金字塔进行亚像素插值，可以提升目标图像的分辨率，从而提供更清晰、更详细的图像信息。亚像素插值是一种利用已知的亚像素位置信息来估计未知像素位置的方法，通过最小化插值损失函数，可以使得估计的亚像素位置与实际位置之间的误差最小化。

S6：通过姿态估计算法，对高分辨率的目标图像进行处理，以对目标物体进行姿态估计。

在本发明中，通过使用姿态估计算法对高分辨率的目标图像进行处理，对目标物体进行姿态估计，可以获得更高的姿态估计精度、更可靠的姿态估计结果以及更快速的目标跟踪和识别。

参照图4，示出了本发明所提供的一种姿态估计方法的流程示意图。

在一种可能的实施方式中，S6具体包括子步骤S601至S603：

S601：对高分辨率的目标图像进行特征提取，得到特征图。

S602：通过姿态回归网络，根据特征图，确定目标物体的初估计姿态参数。

S603：通过全局优化算法，以姿态回归损失函数最小为目标，对初估计姿态参数进行精细调整，得到精细估计姿态参数。

其中，姿态回归损失函数具体为：

其中，L(pos)表示姿态回归损失函数，P表示初估计姿态参数，表示精细估计姿态参数。

在本发明中，使用全局优化算法对初步姿态参数进行精细调整，可以进一步优化姿态估计的结果。这种全局优化方法考虑到了更多的上下文信息和图像的整体结构，有助于提高姿态估计的准确性。同时，使用的姿态回归损失函数能够直接衡量初估计与精细估计之间的差异。通过最小化这个损失函数，可以促使初估计与精细估计之间的差距最小化，从而提高姿态估计的准确性。

S7：根据目标物体的识别结果与姿态估计结果进行融合，得到对位融合数据。

在一种可能的实施方式中，在S7之后，还包括：对目标物体的识别结果与姿态估计结果进行坐标转换，以使对位融合数据在空间中保持一致。

在本发明中，通过坐标转换，可以确保对位融合数据在空间中具有一致的参考坐标系，有助于避免因不同坐标系之间的差异而导致的对位误差，提升对位精度。

S8：根据对位融合数据，对目标物体进行对位。

在本发明中，通过融合识别结果和姿态估计结果，可以综合考虑目标物体的特征和其在图像中的位置信息，从而得到更为准确的对位结果，可以显著提高对位的精度、稳健性、实时性和应用范围。

在一种可能的实施方式中，本发明还可以对整个对位系统的参数进行精细优化，以确保在不同环境和场景下，对位系统能够稳定、高效地运行。通过参数敏感性分析，系统能够识别出关键参数，然后引入自动调优算法，例如遗传算法或贝叶斯优化，以自适应方式搜索最优参数配置。考虑环境变化因素，模块实现了环境自适应，保证系统在各种条件下都能达到最佳效果。

在一种可能的实施方式中，本发明还可以引入了对位系统的实时性监控和调整机制，以确保系统能够在动态环境中保持高精度的对位性能。通过性能监控机制，模块实时收集对位系统的关键性能指标，如准确度、响应时间等。结合实时环境感知，系统能够根据环境变化实时调整识别与估计的参数，维持系统的高水平性能。

实施例2

参照图5，示出了本发明所提供的一种基于视觉图像的目标对位系统的结构示意图。

本发明实施例提供的一种基于视觉图像的目标对位系统20，包括：

获取模块201，用于获取对于目标物体的目标图像；

预处理模块202，用于对所述目标图像进行预处理；

提取模块203，用于提取经过预处理后的目标图像的图像特征；

识别模块204，用于将经过预处理后的目标图像的图像特征与预定义的标准形状的图像特征进行比匹配，对所述目标物体进行识别；

亚像素处理模块205，用于通过亚像素处理技术，提升目标图像的分辨率；

姿态估计模块206，用于通过姿态估计算法，对高分辨率的目标图像进行处理，以对所述目标物体进行姿态估计；

融合模块207，用于根据所述目标物体的识别结果与姿态估计结果进行融合，得到对位融合数据；

对位模块208，用于根据所述对位融合数据，对所述目标物体进行对位。

在一种可能的实施方式中，所述提取模块203具体用于：

采用局部二值模式、方向梯度直方图和/或卷积操作，提取经过预处理后的目标图像的图像特征，并组成特征向量。

在一种可能的实施方式中，所述识别模块204具体用于：

通过卷积神经网络，估计目标表面的形变场；

提取经过预处理后的目标图像的特征图；

通过空间变换网络，将所述形变场应用于所述特征图，将所述特征图调整为标准形状，得到形变后的目标图像的特征图；

对形变后的目标图像的特征图与标准形状的特征图进行互相关操作，得到匹配度图；

在所述匹配度图中，搜索最大匹配度的位置，得到最佳位移量；

根据所述最佳位移量，确定与所述目标物体匹配的标准形状，对所述目标物体进行识别。

在一种可能的实施方式中，识别模块204具体用于：

通过卷积神经网络，以最小化形变场估计的损失函数为目标，估计目标表面的形变场；

其中，形变场估计的损失函数具体为：

在一种可能的实施方式中，识别模块204具体用于：

根据以下公式，对形变后的目标图像的特征图与标准形状的特征图进行互相关操作，得到匹配度图：

在一种可能的实施方式中，识别模块204具体用于：

根据以下公式，在所述匹配度图中，搜索最大匹配度的位置，得到最佳位移量：

在一种可能的实施方式中，在亚像素处理模块205具体用于：

构建图像金字塔，生成不同分辨率的图像，其中，所述图像金字塔共有L层，I_i表示第i层图像；

对每一层的图像进行特征提取，得到每一层图像的特征图F_i；

通过亚像素回归网络，根据每一层图像的特征图，确定图像中每个像素的亚像素级别的偏移信息，得到每一层图像的亚像素偏移图O_i；

根据所述亚像素偏移图，以亚像素插值损失函数的函数值最小为目标，对所述图像金字塔进行亚像素插值，提升目标图像的分辨率；

所述亚像素插值损失函数具体为：

其中，L(total)表示亚像素插值损失函数，L(pyramid)表示图像金字塔重构损失，α表示图像金字塔重构损失的权重系数，L(subpixel)表示亚像素回归损失，β表示亚像素回归损失的权重系数，I_i表示第i层图像，Dow(I_res,i)表示图像金字塔重构后的第i层图像，O_i表示第i层图像的亚像素偏移图。

在一种可能的实施方式中，所述姿态估计模块206具体用于：

对高分辨率的目标图像进行特征提取，得到特征图；

通过姿态回归网络，根据所述特征图，确定所述目标物体的初估计姿态参数；

通过全局优化算法，以姿态回归损失函数最小为目标，对所述初估计姿态参数进行精细调整，得到精细估计姿态参数；

其中，所述姿态回归损失函数具体为：

在一种可能的实施方式中，基于视觉图像的目标对位系统20还包括：

坐标转换模块，用于对所述目标物体的识别结果与姿态估计结果进行坐标转换，以使所述对位融合数据在空间中保持一致。

本发明实施例提供的一种基于视觉图像的目标对位系统20，可实现实施例1中的基于视觉图像的目标对位方法的步骤以及效果，为避免重复，本发明不再赘述。

在本发明的实施例的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“中心”、“顶”、“底”、“顶部”、“底部”、“内”、“外”、“内侧”、“外侧”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。其中，“里侧”是指内部或围起来的区域或空间。“外围”是指某特定部件或特定区域的周围的区域。

在本发明的实施例的描述中，术语“第一”、“第二”、“第三”、“第四”仅用以描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“组装”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的实施例的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的实施例的描述中，需要理解的是，“-”和“~”表示的是两个数值之同的范围，并且该范围包括端点。例如:“A-B”表示大于或等于A，且小于或等于B的范围。“A~B”表示大于或等于A，且小于或等于B的范围。

在本发明的实施例的描述中，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于视觉图像的目标对位方法，其特征在于，包括：

S1：获取对于目标物体的目标图像；

S2：对所述目标图像进行预处理；

S3：提取经过预处理后的目标图像的图像特征；

S4：将经过预处理后的目标图像的图像特征与预定义的标准形状的图像特征进行匹配，对所述目标物体进行识别；

S5：通过亚像素处理技术，提升目标图像的分辨率；

S8：根据所述对位融合数据，对所述目标物体进行对位。

2.根据权利要求1所述的基于视觉图像的目标对位方法，其特征在于，所述S3具体为：

3.根据权利要求1所述的基于视觉图像的目标对位方法，其特征在于，所述S4具体包括：

S401：通过卷积神经网络，估计目标表面的形变场；

S402：提取经过预处理后的目标图像的特征图；

S403：通过空间变换网络，将所述形变场应用于所述特征图，将所述特征图调整为标准形状，得到形变后的目标图像的特征图；

S404：对形变后的目标图像的特征图与标准形状的特征图进行互相关操作，得到匹配度图；

S405：在所述匹配度图中，搜索最大匹配度的位置，得到最佳位移量；

S406：根据所述最佳位移量，确定与所述目标物体匹配的标准形状，对所述目标物体进行识别。

4.根据权利要求3所述的基于视觉图像的目标对位方法，其特征在于，所述S401具体为：

其中，形变场估计的损失函数具体为：

；

5.根据权利要求3所述的基于视觉图像的目标对位方法，其特征在于，所述S404具体为：

；

6.根据权利要求3所述的基于视觉图像的目标对位方法，其特征在于，所述S405具体为：

；

7.根据权利要求1所述的基于视觉图像的目标对位方法，其特征在于，在所述S5具体包括：

S501：构建图像金字塔，生成不同分辨率的图像，其中，所述图像金字塔共有L层，I_i表示第i层图像；

S502：对每一层的图像进行特征提取，得到每一层图像的特征图F_i；

S503：通过亚像素回归网络，根据每一层图像的特征图，确定图像中每个像素的亚像素级别的偏移信息，得到每一层图像的亚像素偏移图O_i；

S504：根据所述亚像素偏移图，以亚像素插值损失函数的函数值最小为目标，对所述图像金字塔进行亚像素插值，提升目标图像的分辨率；

所述亚像素插值损失函数具体为：

；

8.根据权利要求1所述的基于视觉图像的目标对位方法，其特征在于，所述S6具体包括：

S601：对高分辨率的目标图像进行特征提取，得到特征图；

S602：通过姿态回归网络，根据所述特征图，确定所述目标物体的初估计姿态参数；

S603：通过全局优化算法，以姿态回归损失函数最小为目标，对所述初估计姿态参数进行精细调整，得到精细估计姿态参数；

其中，所述姿态回归损失函数具体为：

；

9.根据权利要求1所述的基于视觉图像的目标对位方法，其特征在于，在S7之后，还包括：

对所述目标物体的识别结果与姿态估计结果进行坐标转换，以使所述对位融合数据在空间中保持一致。

10.一种基于视觉图像的目标对位系统，其特征在于，包括：

获取模块，用于获取对于目标物体的目标图像；

预处理模块，用于对所述目标图像进行预处理；

提取模块，用于提取经过预处理后的目标图像的图像特征；