CN116228549A

CN116228549A - 基于强化学习的图像拼接方法、装置、设备和存储介质

Info

Publication number: CN116228549A
Application number: CN202310518585.5A
Authority: CN
Inventors: 高健; 梁俊朗; 张揽宇; 罗于恒; 郑卓鋆; 陈新
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-06-06
Anticipated expiration: 2043-05-10
Also published as: CN116228549B

Abstract

本申请公开了一种基于强化学习的图像拼接方法、装置、设备和存储介质，通过标定板获取初始标定参数，并采集样品图像以及运动平台的位置信息；以图像拼接质量和运动平台的位置信息为状态，以标定参数调整量为动作，基于图像拼接质量设置负奖励函数；并根据随机生成的动作集合、初始标定参数、运动平台的位置信息以及负奖励函数获取状态集合和负奖励值集合，以构建概率动力模型；基于概率动力模型获取的状态出现概率以及负奖励值构建状态价值函数，通过优化状态价值函数获取最优动作；通过最优动作和初始标定参数获取优化后标定参数，通过优化后标定参数对对应的样品图像进行图像拼接，改善了现有技术存在的图像拼接质量不高的技术问题。

Description

基于强化学习的图像拼接方法、装置、设备和存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于强化学习的图像拼接方法、装置、设备和存储介质。

背景技术

在精密视觉检测领域，检测柔性电路基板需要带有远心镜头的高分辨率相机设备，而这种相机视野范围一般远远小于检测物体的面积，因此，需要通过相机设备采集检测物体不同位置下的小范围图像信息，然后利用图像拼接技术将小范围的不同位置下的图像根据重叠区域拼接成大范围图像，最终实现对检测物体的大范围图像采集与测量。

传统的图像拼接方法一般需要标定好外部参数，需要获取承载检测物体平台的物理信息，通过将实际物理位置转换为图像位置，根据图像位置信息对两张图片进行图像拼接，该方法在进行标定后，只需通过仿射变换矩阵即可实时拼接，拼接速度快。但采用该方法进行标定时，运动平台平面与相机平面难以做到绝对平行，进行外参标定时会降低标定参数的精准度，运动平台在运动过程中，会造成一定程度的角度旋转，导致检测物体在某些时刻会有小角度旋转，因此，直接采用标定得到的初始标定参数进行图像拼接，难以保证全局拼接质量。

发明内容

本申请提供了一种基于强化学习的图像拼接方法、装置、设备和存储介质，用于改善现有技术存在的图像拼接质量不高的技术问题。

有鉴于此，本申请第一方面提供了一种基于强化学习的图像拼接方法，包括：

通过设置在运动平台上的标定板获取初始标定参数，并在所述运动平台移动的过程中，采集所述运动平台上的检测样品在各时刻的样品图像以及所述运动平台在各时刻的位置信息；

以各时刻的图像拼接质量和所述运动平台在各时刻的位置信息为各时刻的状态，以各时刻的标定参数调整量为各时刻的动作，基于各时刻的图像拼接质量设置负奖励函数；

随机生成动作集合，并根据所述动作集合、所述初始标定参数、所述运动平台在各时刻的位置信息以及所述负奖励函数获取状态集合和负奖励值集合；

根据所述动作集合、所述状态集合和所述负奖励值集合构建马尔可夫经验序列，通过所述马尔可夫经验序列构建概率动力模型，所述概率动力模型用于根据当前时刻的状态和动作预测下一时刻的状态的出现概率；

基于各时刻的状态的出现概率和各时刻的负奖励值构建状态价值函数，通过优化所述状态价值函数获取各时刻的最优动作；

通过各时刻的最优动作和所述初始标定参数获取各时刻的优化后标定参数，通过各时刻的优化后标定参数对对应的样品图像进行图像拼接。

可选的，所述图像拼接质量的计算过程为：

在将两个相邻时刻的样品图像进行图像拼接后，截取拼接图像的重叠区域，得到第一重叠图像和第二重叠图像；

计算所述第一重叠图像和所述第二重叠图像之间的相似度，得到图像拼接质量。

可选的，所述状态价值函数为：

；

式中，

为状态价值函数，s ₀为初始时刻的状态，/>

为动作策略，s _t为t时刻的状态，c(s _t)为t时刻的状态对应的负奖励值，p(s _t)为t时刻的状态的出现概率，T为最终时刻。

可选的，所述通过各时刻的优化后标定参数对对应的样品图像进行图像拼接，包括：

根据所述运动平台在各时刻的位置信息计算所述运动平台在各相邻两个时刻的平台移动距离；

根据各时刻的优化后标定参数、各相邻两个时刻的平台移动距离和所述运动平台在各时刻的位置信息计算各相邻两个时刻的样品图像的图像平移距离；

基于各相邻两个时刻的样品图像的图像平移距离对各相邻两个时刻的样品图像进行图像拼接。

本申请第二方面提供了一种基于强化学习的图像拼接装置，包括：

标定和图像采集单元，用于通过设置在运动平台上的标定板获取初始标定参数，并在所述运动平台移动的过程中，采集所述运动平台上的检测样品在各时刻的样品图像以及所述运动平台在各时刻的位置信息；

设置单元，用于以各时刻的图像拼接质量和所述运动平台在各时刻的位置信息为各时刻的状态，以各时刻的标定参数调整量为各时刻的动作，基于各时刻的图像拼接质量设置负奖励函数；

获取单元，用于随机生成动作集合，并根据所述动作集合、所述初始标定参数、所述运动平台在各时刻的位置信息以及所述负奖励函数获取状态集合和负奖励值集合；

模型构建单元，用于根据所述动作集合、所述状态集合和所述负奖励值集合构建马尔可夫经验序列，通过所述马尔可夫经验序列构建概率动力模型，所述概率动力模型用于根据当前时刻的状态和动作预测下一时刻的状态的出现概率；

优化单元，用于基于各时刻的状态的出现概率和各时刻的负奖励值构建状态价值函数，通过优化所述状态价值函数获取各时刻的最优动作；

拼接单元，用于通过各时刻的最优动作和所述初始标定参数获取各时刻的优化后标定参数，通过各时刻的优化后标定参数对对应的样品图像进行图像拼接，得到优化后的拼接图像。

可选的，所述图像拼接质量的计算过程为：

可选的，所述状态价值函数为：

；

式中，

为状态价值函数，s ₀为初始时刻的状态，/>

可选的，所述拼接单元具体用于：

通过各时刻的最优动作和所述初始标定参数获取各时刻的优化后标定参数；

本申请第三方面提供了一种基于强化学习的图像拼接设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于强化学习的图像拼接方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码被处理器执行时实现第一方面任一种所述的基于强化学习的图像拼接方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种基于强化学习的图像拼接方法，包括：通过设置在运动平台上的标定板获取初始标定参数，并在运动平台移动的过程中，采集运动平台上的检测样品在各时刻的样品图像以及运动平台在各时刻的位置信息；以各时刻的图像拼接质量和运动平台在各时刻的位置信息为各时刻的状态，以各时刻的标定参数调整量为各时刻的动作，基于各时刻的图像拼接质量设置负奖励函数；随机生成动作集合，并根据动作集合、初始标定参数、运动平台在各时刻的位置信息以及负奖励函数获取状态集合和负奖励值集合；根据动作集合、状态集合和负奖励值集合构建马尔可夫经验序列，通过马尔可夫经验序列构建概率动力模型，概率动力模型用于根据当前时刻的状态和动作预测下一时刻的状态的出现概率；基于各时刻的状态的出现概率和各时刻的负奖励值构建状态价值函数，通过优化状态价值函数获取各时刻的最优动作；通过各时刻的最优动作和初始标定参数获取各时刻的优化后标定参数，通过各时刻的优化后标定参数对对应的样品图像进行图像拼接。

本申请中，通过标定板获取到初始标定参数后，以图像拼接质量和运动平台的位置信息为状态，以标定参数调整量为动作，并根据图像拼接质量设置负奖励函数，从而构建状态价值函数，通过优化状态价值函数来优化不同位置下的标定参数，实现在线修正标定参数的局部误差，通过强化学习的方法优化硬件拼接系数达到提高图像拼接质量的目的，改善了现有技术存在的图像拼接质量不高的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种基于强化学习的图像拼接方法的一个流程示意图；

图2为本申请实施例提供的一种图像拼接系统结构示意图；

图3为本申请实施例提供的一种棋盘格标定板示意图；

图4为本申请实施例提供的一种拼接图像示意图；

图5为本申请实施例提供的采用优化后标定参数进行图像拼接得到的拼接图像示意图；

图6为本申请实施例提供的采用初始标定参数进行图像拼接得到的拼接图像示意图；

图7为本申请实施例提供的一种基于强化学习的图像拼接装置的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统的图像拼接方法一般分为软件拼接方法和硬件拼接方法，软件拼接方法一般通过检测两幅图片之间重叠部分的特征点信息，通过比较两个图片之间的特征点计算对两张图片进行位置和形状变换，融合重叠部分，实现图像拼接；而硬件拼接方法一般需要标定好外部参数，需要获取承载检测物体平台的物理信息，通过将实际物理位置转换为图像位置，根据图像位置信息对两张图片进行拼接。一般而言，软件拼接方法拼接质量较好，但耗时较长，无法实现实时拼接，而硬件拼接方法在进行标定后，只需通过仿射变换矩阵即可实时拼接，但对平台的硬件要求和运动控制精度要求高。通常硬件拼接方法速度快，但拼接质量相对软件拼接方法质量低。因此，设计一种高实时性和高精度的拼接方法及设备是工业界迫切需要解决的问题。

为了改善上述问题，本申请对硬件拼接方法进行改进，在硬件拼接方法的基础上，以初始标定参数为先验信息，采用强化学习对标定参数进行优化，以保证拼接速度的同时，提高硬件拼接方法的拼接质量。其中，强化学习包括获取状态信息，设置奖励函数，根据状态和奖励函数输出最优动作。为了便于理解，请参阅图1，本申请实施例提供了一种基于强化学习的图像拼接方法，包括：

步骤101、通过设置在运动平台上的标定板获取初始标定参数，并在运动平台移动的过程中，采集运动平台上的检测样品在各时刻的样品图像以及运动平台在各时刻的位置信息。

在采集检测样品的样品图像以及进行图像拼接时，需要相机、运动平台、检测样品、标定板以及工控机，可以参考图2（未示出工控机），相机为带远心镜头的高分辨率相机，标定板和检测样品固定在运动平台上，当运动平台移动时，检测样品和标定板随着运动平台做二维运动，相机采集样品图像至工控机，由工控机进行图像拼接。

由于带远心镜头的高分辨率相机畸变系数极低，因此，无需进行内参标定，并且是针对二维运动平面拼接，因此，本申请实施例在进行参数标定时主要标定外参，即比例尺和角度，可以通过如图3所示的棋盘格标定板获取，设选取的棋盘格的实际物理长度为L，通过相机采集的棋盘格图像的棋盘格长度为l，则可以计算得到比例尺

；通过对棋盘格图像中的正方形的角点进行识别和角点连接，得到棋盘格线f1，通过计算棋盘格线f1与水平线f2的夹角即可获取角度/>

，通过标定板标定得到的比例尺和角度即为初始标定参数。

通过精密运动平台的平面精密检测设备获取运动平台的置位置信息，运动平台在运动同时反馈位置信息，设t时刻反馈运动平台的位置信息为

，t-1时刻反馈运动平台的位置信息为/>

，t时刻与上一时刻t-1的运动距离为/>

。设t-1时刻的样品图像的二维运动坐标为(x _t-1,y _t-1)，通过上述标定后得到的比例尺/>

和角度/>

进行仿射变换，可得t时刻的样品图像的二维运动坐标(x _t,y _t)，即：

；

在通过相机标定后，运动平台移动到相机能测量到检测样品的起点位置，在t-1时刻至t时刻的时间段内，将运动平台的平台移动距离

映射为图像平移距离/>

，基于该图像平移距离/>

可以实现对t-1时刻的样品图像和t时刻的样品图像进行图像拼接。但本申请实施例考虑到，在实际物理系统中，运动平台平面与相机平面难以做到绝对平行，进行外参标定时会降低比例尺和角度的精准度；运动平台在运动过程中，会造成一定程度的角度旋转，导致检测样品在某些时刻会有小角度旋转，因此，直接采用标定得到的初始标定参数进行图像拼接，难以保证图像全局拼接质量。本申请实施例基于已有标定的外参参数，根据平台的结构特性和运动情况进行实时的比例尺补偿和角度补偿，然后通过补偿得到的标定参数（即优化后标定参数）进行图像拼接，以提高图像全局拼接质量。

步骤102、以各时刻的图像拼接质量和运动平台在各时刻的位置信息为各时刻的状态，以各时刻的标定参数调整量为各时刻的动作，基于各时刻的图像拼接质量设置负奖励函数。

为了优化图像全局拼接质量，本申请实施例通过构建智能体的状态、动作以及奖励函数来自动优化标定参数，根据优化后的标定参数进行图像拼接。

本申请实施例中，以各时刻的图像拼接质量和运动平台在各时刻的位置信息

为各时刻的状态，即/>

，s _t为t时刻的状态，/>

为t时刻的图像拼接质量，以各时刻的标定参数调整量/>

为各时刻的动作，即/>

，/>

为t时刻的动作，/>

为t时刻的比例尺调整量，/>

为t时刻的角度调整量，设标定得到的初始比例尺为/>

，初始角度为/>

，则用于t时刻拼接图像的比例尺为/>

，用于t时刻拼接图像的角度为/>

；基于各时刻的图像拼接质量设置负奖励函数，为了方便后续梯度计算，本申请实施例采用负奖励函数，负奖励函数为/>

，目标是最小化负奖励函数c _t，使/>

最大化。

本申请实施例中，将根据标定板获取的初始比例尺和初始角度作为先验信息，用于后续比例尺和角度优化，该过程是为了提高标定参数优化过程的收敛速度，若不采用标定板获取的初始比例尺和初始角度，无法为标定参数优化提供合理的动作范围，容易造成策略优化不收敛或优化速度慢，从而导致标定参数优化失败，根据标定板获取的初始标定参数作为先验信息，再根据先验信息进行标定参数优化，比单纯利用强化学习输出标定参数更优，解决了纯强化学习不稳定的缺点。

进一步，本申请实施例中，图像拼接质量的计算过程为：

计算第一重叠图像和第二重叠图像之间的相似度，得到图像拼接质量。

请参考图4，图4中的图像1和图像2为相邻两个时刻的样品图像，在将图像1和图像2进行图像拼接后，会存在重叠区域，即图4中矩形框所在位置，截取该重叠区域，可以得到第一重叠图像和第二重叠图像，即图4中的图像A和图像B，通过计算图像A和图像B之间的相似度，可以得到图像1和图像2拼接得到的拼接图像的图像拼接质量。具体可以通过计算两幅图像之间的结构相似性指数来获取两幅图像之间的相似度，当然也可以采用其他方式来计算两幅图像之间的相似度。本申请实施例以计算图像之间的结构相似性指数来计算图像之间的相似度为例进行说明，通过计算图像A与图像B之间的结构相似性指数，得到图像A与图像B之间的相似度值（即SSIM值），也就得到了图像1和图像2拼接后的图像拼接质量（即SSIM值）。其中，图像A和图像B之间的结构相似性指数SSIM(A,B)的计算公式为：

；

；

；

；

式中，l(A,B)为图像A和图像B之间的亮度比较结果，c(A,B)为图像A和图像B之间的对比度比较结果，s(A,B)为图像A和图像B之间的结构比较结果，

分别为图像A、图像B的像素平均值，/>

分别为图像A、图像B的像素标准差；/>

为图像A与图像B之间的像素协方差；c ₁、c ₂、c ₃均为常数；/>

分别为亮度、对比度、结构的重要度系数。SSIM(A,B)的取值范围为[0,1]，SSIM(A,B)值越高，表示图像A和图像B之间的相似度越高，图像拼接质量越高。

步骤103、随机生成动作集合，并根据动作集合、初始标定参数、运动平台在各时刻的位置信息以及负奖励函数获取状态集合和负奖励值集合。

在定义好状态、动作以及负奖励函数后，可以根据比例尺调整量

、角度调整量

的取值范围随机生成动作集合/>

，w为随机生成的动作总数；根据生成的动作集合、初始标定参数、运动平台在各时刻的位置信息以及负奖励函数获取相应的状态集合/>

以及相应的负奖励值集合/>

。其中，比例尺调整量/>

、角度调整量/>

的取值范围可以根据相机的设置参数确定，具体可以根据相机的分辨率与被测物的物理尺寸的比值、拼接操作所需的精度及相机温度漂移稳定性等设置比例尺调整量、角度调整量的取值范围，由于不同的拼接需要不同的精度，而且相机性能也有不同点差异性，因此，需要根据实际拼接操作选取合适的取值范围。

步骤104、根据动作集合、状态集合和负奖励值集合构建马尔可夫经验序列，通过马尔可夫经验序列构建概率动力模型，概率动力模型用于根据当前时刻的状态和动作预测下一时刻的状态的出现概率。

根据动作集合、状态集合和负奖励值集合可以构建一组马尔可夫经验序列

，其中，/>

为状态s ₁所在时刻的下一时刻的状态，/>

为状态s ₂所在时刻的下一时刻的状态，/>

为状态s _w所在时刻的下一时刻的状态。

根据上述的马尔可夫经验序列可以构建概率动力模型

，概率动力模型可以根据当前时刻的状态、当前时刻的动作预测下一时刻的状态。概率动力模型可通过深度学习方法进行拟合，以状态动作集合/>

为神经网络的输入数据，以下一时刻的状态/>

为神经网络的标签，对神经网络进行训练，以获取概率动力模型，当输入t-1时刻的状态s(t-1)、动作a(t-1)到概率动力模型，其会自动输出下一时刻的状态s(t)的出现概率p(s _t)。

步骤105、基于各时刻的状态的出现概率和各时刻的负奖励值构建状态价值函数，通过优化状态价值函数获取各时刻的最优动作。

通过概率动力模型可以预测各时刻的状态的出现概率p(s _t)，将状态的出现概率与负奖励值相乘可以获取状态价值函数，即：

；/>

式中，

为状态价值函数，s ₀为初始时刻的状态，/>

为动作策略，/>

为关于动作/>

的策略函数，可以是线性策略函数或非线性策略函数，s _t为t时刻的状态，c(s _t)为t时刻的状态对应的负奖励值，p(s _t)为t时刻的状态的出现概率，T为最终时刻。

在优化状态价值函数时，使状态价值函数的值最小化，以达到最大奖励。将概率动力模型输出的概率p(s _t)代入状态价值函数，通过对状态价值函数求梯度获取最小值，进而求取得到t时刻的最优动作策略

，从而得到t时刻的最优动作/>

。本申请实施例根据数据进行模型拟合，根据拟合得到的概率动力模型通过策略评估获取状态价值函数，再利用状态价值函数最小化实现策略优化，输出当前最优动作，在线补偿标定参数，最大化图像拼接质量，以提高图像全局拼接质量。本申请实施例在图像硬件拼接的过程中，通过硬件系统标定获取初始标定参数保证标定参数优化的收敛性，通过标定参数优化补偿硬件系统得到的初始标定参数的局部误差，实现软硬件的有机结合，在保证图像拼接实时性的同时提高图像拼接质量；本申请实施例针对相机在长时间运行下具有温度漂移的特性，首先构造了概率动力学模型，利用基于模型的强化学习，避免了无模型强化学习存在的数据效率利用低的问题。

步骤106、通过各时刻的最优动作和初始标定参数获取各时刻的优化后标定参数，通过各时刻的优化后标定参数对对应的样品图像进行图像拼接，得到优化后的拼接图像。

在获取到t时刻的最优动作

后，通过t时刻的最优动作和初始标定参数获取t时刻的优化后标定参数/>

，然后可以通过t时刻的优化后标定参数对t时刻的样品图像、t+1时刻的样品图像进行图像拼接。可以根据运动平台在各时刻的位置信息计算运动平台在各相邻两个时刻的平台移动距离；根据各时刻的优化后标定参数、各相邻两个时刻的平台移动距离和运动平台在各时刻的位置信息计算各相邻两个时刻的样品图像的图像平移距离；基于各相邻两个时刻的样品图像的图像平移距离对各相邻两个时刻的样品图像进行图像拼接。

以检测柔性电路板为例，采用上述标定参数优化获取的优化后标定参数进行图像拼接，得到图5所示的拼接图像，以及未进行标定参数优化，直接采用标定获取的初始标定参数进行图像拼接，得到图6所示的拼接图像，通过对比这两种方法的图像拼接效果，可以发现，图5的图像拼接质量明显优于图6的图像拼接质量。

本申请实施例中，通过标定板获取到初始标定参数后，以图像拼接质量和运动平台的位置信息为状态，以标定参数调整量为动作，并根据图像拼接质量设置负奖励函数，从而构建状态价值函数，通过优化状态价值函数来优化不同位置下的标定参数，实现在线修正标定参数的局部误差，通过强化学习的方法优化硬件拼接系数达到提高图像拼接质量的目的，改善了现有技术存在的图像拼接质量不高的技术问题。

以上为本申请提供的一种基于强化学习的图像拼接方法的一个实施例，以下为本申请提供的一种基于强化学习的图像拼接装置的一个实施例。

请参考图7，本申请实施例提供的一种基于强化学习的图像拼接装置，包括：

标定和图像采集单元，用于通过设置在运动平台上的标定板获取初始标定参数，并在运动平台移动的过程中，采集运动平台上的检测样品在各时刻的样品图像以及运动平台在各时刻的位置信息；

设置单元，用于以各时刻的图像拼接质量和运动平台在各时刻的位置信息为各时刻的状态，以各时刻的标定参数调整量为各时刻的动作，基于各时刻的图像拼接质量设置负奖励函数；

获取单元，用于随机生成动作集合，并根据动作集合、初始标定参数、运动平台在各时刻的位置信息以及负奖励函数获取状态集合和负奖励值集合；

模型构建单元，用于根据动作集合、状态集合和负奖励值集合构建马尔可夫经验序列，通过马尔可夫经验序列构建概率动力模型，概率动力模型用于根据当前时刻的状态和动作预测下一时刻的状态的出现概率；

优化单元，用于基于各时刻的状态的出现概率和各时刻的负奖励值构建状态价值函数，通过优化状态价值函数获取各时刻的最优动作；

拼接单元，用于通过各时刻的最优动作和初始标定参数获取各时刻的优化后标定参数，通过各时刻的优化后标定参数对对应的样品图像进行图像拼接，得到优化后的拼接图像。

作为进一步地改进，图像拼接质量的计算过程为：

作为进一步地改进，状态价值函数为：

；

式中，

为状态价值函数，s ₀为初始时刻的状态，/>

作为进一步地改进，拼接单元具体用于：

通过各时刻的最优动作和初始标定参数获取各时刻的优化后标定参数；

根据运动平台在各时刻的位置信息计算运动平台在各相邻两个时刻的平台移动距离；

根据各时刻的优化后标定参数、各相邻两个时刻的平台移动距离和运动平台在各时刻的位置信息计算各相邻两个时刻的样品图像的图像平移距离；

本申请实施例还提供了一种基于强化学习的图像拼接设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述方法实施例中的基于强化学习的图像拼接方法。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码被处理器执行时实现前述方法实施例中的基于强化学习的图像拼接方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文全称：Read-OnlyMemory，英文缩写：ROM）、随机存取存储器（英文全称：Random Access Memory，英文缩写：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。