CN116721019A

CN116721019A - 基于深度学习的多摄像头视频图像拼接方法

Info

Publication number: CN116721019A
Application number: CN202311002747.6A
Authority: CN
Inventors: 杨汶; 杨智鹏; 李露莹; 李孝杰; 朱辛
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-09-08
Anticipated expiration: 2043-08-10
Also published as: CN116721019B

Abstract

本发明公开了基于深度学习的多摄像头视频图像拼接方法，包括S1构建对准模型和拼接模型，S2获取训练集导入对准模型和拼接模型，对其进行训练优化；S3获取同一时刻K个摄像头的拍摄的视频帧；S4图像拼接视频帧k和视频帧k+1，获得拼接图；S5判断k+1是否等于K，若是，则拼接图作为最终图像，并输出最终图像；反之，则令k=k+1，然后令拼接图作为视频帧k，并返回S4；读取每个摄像头中的视频帧，再将图片输入对准模型中进行对准，再将对准后的结果输入拼接模型进行拼接，对准模型中引入自注意力机制显著提高参考图像和目标图像中的特征提取效率和精度，拼接模型中引入自注意力机制显著提高参考图像和目标图像中的特征检测效率和精度。

Description

基于深度学习的多摄像头视频图像拼接方法

技术领域

本发明涉及计算技术领域，尤其涉及一种基于深度学习的多摄像头视频图像拼接方法。

背景技术

图像拼接是将多张连续或有重叠部分的图像拼接成为一幅无缝的全景图或高分辨率图像的技术。目标检测技术是一种基于目标集合和统计特征得图像分割。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音的数据的解释有很大的帮助。三种技术大量运用于医疗病灶诊断成像，无人机航拍，自动驾驶，军事目标检测等。

传统的图像拼接流程是通过手动提取两张需要拼接图像中的对应特征点，计算得到一个能够完成图像平移、旋转、缩放和理想点变换的3×3大小的单应性矩阵，使用单应性矩阵对一张图像进行投影变换来和另外一张图像对齐，然后将对齐后的两张图像融合得到最终的全景图。但是传统方法学习特征和融合图像的能力有限，图像对齐效果并不佳，并且通过融合阶段最终得到的图片中往往有错位和鬼影的缺陷。

得益于深度学习技术强大的自动特征学习能力，基于神经网络的图像拼接方法已经成为主流。基于深度学习的图像拼接算法主要由两阶段组成，第一阶段是图像的对准，使用卷积神经网络提取需要拼接的两张图片对应的特征点，然后通过投影变换对准图像。第二阶段是图像的融合，将对准后的两张图片作为神经网络的输入，输出得到重叠区域过渡平滑的全景拼接图像。

对于目前多数基于深度学习的拼接算法，第一阶段使用的网络结构比较简单，参数量较大，训练和推理时间都很长。并且训练都是基于监督学习的方法，使用的训练图像是通过单应性变换人工自动生成的，和真实世界图像的多景深、多平面对齐任务存在偏差，并且对准的算法往往仅使用单个单应性矩阵对目标图像进行投影变换。以上要素都会导致最后图像对齐没有达到完美的效果，存在很大改进空间。在当前主流拼接算法的第二阶段中，往往通过对输出图像添加多项人工设计的损失函数来约束拼接图像的质量，这种做法难以使得拼接图像真正达到真实图像的纹理效果，融合得到的图像存在伪影和较为明显的拼接痕迹。

现有的基于深度学习的拼接算法的泛用性较低，并且都是两图片输入无法做到实时调整输入图像的数量做到多头输入。因此对于实际的应用场景还有很大的距离。

发明内容

本发明的目的就在于为了解决上述问题设计了一种基于深度学习的多摄像头视频图像拼接方法。

本发明通过以下技术方案来实现上述目的：

基于深度学习的多摄像头视频图像拼接方法，包括：

S1、构建对准模型和拼接模型，对准模型的输出作为拼接模型的输入，对准模型包括两个分支和T个分析层，两个分支分别用于提取参考图像和目标图像的特征图，分析层用于分析网格顶点偏移量，每个分支包括第一卷积层和T个特征提取层，第一卷积层和T个特征提取层按照从输入到输出依次串联，两个分支的第t个特征提取层的输出均作为第t个分析层的输入，每个特征提取层从输入到输出依次包括第一自注意力机制模块和CPS模块，每个分析层从输入到输出依次包括若干第二卷积层和回归网络，拼接模型包括对抗神经网络，t为小于或等于T的正整数，T为大于1的正整数；

S2、获取训练集导入对准模型和拼接模型，对其进行训练优化，得到优化后的对准模型和优化后的拼接模型；

S3、获取同一时刻K个摄像头的拍摄的视频帧，K为大于1的正整数；

S4、视频帧k和视频帧k+1导入优化后的对准模型和优化后的拼接模型进行图像拼接，获得拼接图，k为小于K的正整数；

S5、判断k+1是否等于K，若是，则拼接图作为最终图像，并输出最终图像；若否，则令k=k+1，然后令拼接图作为视频帧k，并返回S4。

本发明的有益效果在于：读取每个摄像头中的视频帧，再将图片输入对准模型中进行对准，再将对准后的结果输入拼接模型进行拼接，在对准模型中引入了自注意力机制显著提高参考图像和目标图像中的特征提取效率和精度，为图像对准提供了更优的特征保障，在拼接模型中引入了自注意力机制显著提高参考图像和目标图像中的特征检测效率和精度，为图像拼接提供了更优的特征保障。拼接后的最终图像根据时间序列进行排序，再将这个时间序列的视频输入预训练好的目标检测神经网络模型中进行推理实现实时目标检测。

附图说明

图1是本发明基于深度学习的多摄像头视频图像拼接方法的流程示意图；

图2是本发明基于深度学习的多摄像头视频图像拼接方法的示意图；

图3是本发明中对准模型的示意图；

图4是本发明中第一自注意力机制模块的示意图；

图5是本发明中CPS模块的示意图；

图6是本发明中CBS模块的示意图；

图7是本发明中对抗神经网络的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图，对本发明的具体实施方式进行详细说明。

如图1、图2所示，基于深度学习的多摄像头视频图像拼接方法，包括：

S1、构建对准模型和拼接模型，对准模型的输出作为拼接模型的输入，如图3所示，对准模型包括两个分支和T个分析层，两个分支分别用于提取参考图像和目标图像的特征图，分析层用于分析网格顶点偏移量，每个分支包括第一卷积层和T个特征提取层，第一卷积层和T个特征提取层按照从输入到输出依次串联，两个分支的第t个特征提取层的输出均作为第t个分析层的输入，每个特征提取层从输入到输出依次包括第一自注意力机制模块和CPS模块，每个分析层从输入到输出依次包括若干第二卷积层和回归网络，拼接模型包括对抗神经网络，t为小于或等于T的正整数，T为大于1的正整数；

第一自注意力机制模块、第二自注意力机制模块、第三自注意力机制模块和第四自注意力机制模块的结构如图4所示；

如图5所示，CPS模块包括至少三个第一CBS层和第二CBS层，多个第一CBS层依次串联，第一自注意力机制模块的输出作为第一个第一CBS层和第二CBS层的输入，第一个第一CBS层和倒数第二个第一CBS层的输出均作为最后一个第一CBS层的输入；

如图6所示，第一CBS层和第二CBS层从输入到输出均包括第七卷积层、批量标准化层和SiLU激活层；

如图7所示、对抗神经网络包括生成器和判别器，生成器的输出作为判别器的输入，生成器从输入到输出依次包括两层第三卷积层、第二自注意力机制模块、第四卷积层、第三自注意力机制模块和三层第五卷积层，判别器从输入到输出依次包括第六卷积层、第一全连接层、第四自注意力机制模块和第二全连接层。

S2、获取训练集导入对准模型和拼接模型，对其进行训练优化，得到优化后的对准模型和优化后的拼接模型；对准模型利用损失函数L进行训练优化，表示为，拼接模型的生成器利用损失函数/>进行训练优化，表示为/>，拼接模型的判别器利用损失函数进行训练优化/>，表示为/>，其中，I _A表示目标图像，I _B表示参考图像，H _i(·)表示投影矩阵，E表示和图像形状大小相同的、全为1的矩阵，λ_i表示每个变换矩阵对应的损失权重，ʘ表示像素级乘法，‖·‖₁表示一范数，γ表示合成标签，φ表示真实标签，p _m表示真实图像m地分布，真实图像包括原始图像对，p _z表示对准地目标图像和参考图像z地分布，D(·)表示判别器，G(·)表示生成器，ø表示判别器对生成数据输出的预测值地约束，n表示投影矩阵H _i(·)的数量，z表示参考图像，m表示真实图像，/>表示计算/>的期望，表示真实图像m在经过判别器D(·)计算得出的标签值与真实标签φ做差再平方，/>表示计算 />的期望，/>表示对准地目标图像和参考图像z在通过生成器和判别器后得出的标签值与合成标签做差再平方，通过将/>和/>相加得到拼接模型地判别器损失函数。

S3、获取同一时刻K个摄像头的拍摄的视频帧，K为大于1的正整数。

S4、视频帧k和视频帧k+1导入优化后的对准模型和优化后的拼接模型进行图像拼接，获得拼接图，k为小于K的正整数。

回归网络的回归拟合表示为，将上述等式进行展开得到x’=(ax+by+c)(gx+hy+i)和y’=(dx+ey+f)(gx+hy+i)，其中，x、y为参考图像的像素点坐标，x’、y’为目标图像的像素点坐标，a、b、c、d、e、f、g、h、i分别为3*3的投影矩阵H的9个值，在回归网络中拟合最终得到投影矩阵H，表示为/>。

改进后的对准模型，在该模型中引入了自注意力机制显著提高参考图像和目标图像中的特征提取效率和精度，为图像对准提供了更优的特征保障。

改进后的拼接模型，在该模型中引入了自注意力机制显著提高参考图像和目标图像中的特征检测效率和精度，为图像拼接提供了更优的特征保障。

改进后的对准模型大中小目标不同权重优化的计算投影矩阵的方式，提高对准精度。

改进了拼接方式能实现多摄像头拼接，提高观测返回。

摄像头在观测农田，草地，森林等图像信息时具有优势，由于上诉三种场景特征难以提取，给图像的对准和拼接带来较为大的难题，在对准和拼接模型中引入自注意力机制，能显著提高图像的特征提取的效率和精度。

本方法使摄像头拼接方式不再局限于双目拼接，可以实现多目摄像头拼接，显著增加监测范围。

在图像对准过程中使用对大中小目标不同的权重值，减少在对准过程中不同目标物体的大小对投影矩阵的影响，提高对准效果。

训练对准模型和拼接模型的工作原理如下：

如图1-图7所示，训练集包括数据集P1和数据集P2。

①、将数据集P1中的每张图像划分成n个图像块，再将m*n的图像块放入对准模型中提取特征，最后分别计算出大中小目标及3n个网格顶点偏移量。

②、根据大中小目标的偏移量不同的权重得到n个投影矩阵H，将分成n个图像块的目标图像，采用n个投影矩阵H分别一一对应的图像块进行投影变换在拼接起来的到对准的目标图像，通过使用损失函数L比较对准的目标图像和参考图像重合区域的相似度，损失函数值越低说明相似度越高，其用来调整与约束对准模型的网络参数权重，

，

其中，I_A表示目标图像，I_B表示参考图像，H_i(·)表示投影矩阵，E表示和图像形状大小相同的、全为1的矩阵，λ_i表示每个变换矩阵对应的损失权重，ʘ表示像素级乘法，‖·‖₁表示一范数；

其中回归拟合的等式为：

，

将上述等式进行展开得到下面两个等式：

x’=(ax+by+c)(gx+hy+i)

y’=(dx+ey+f)(gx+hy+i)，

x、y为参考图像的像素点坐标，x’、y’为目标图像的像素点坐标，在回归网络中拟合最终得到投影矩阵H，表示为。

③、将数据集P2送入到训练好的对准模型中，获得对准的目标图像，将数据集P2中原始图像对设置为真实标签，将对准的目标图像和参考图像直接堆叠，重合区域的像素值由两张图像像素的平均值代替，得到叠加图像，将叠加图像设置为合成标签，进而得到拼接模型的训练数据集。

将训练数据集送入对抗神经网络中，使用对抗生成函数训练对抗神经网络，更新网络参数权重，将参数权重更新后的对抗神经网络即为优化后的拼接模型。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.基于深度学习的多摄像头视频图像拼接方法，其特征在于，包括：

S3、获取同一时刻K个摄像头拍摄的视频帧，K为大于1的正整数；

2.根据权利要求1所述的基于深度学习的多摄像头视频图像拼接方法，其特征在于，CPS模块包括至少三个第一CBS层和第二CBS层，多个第一CBS层依次串联，第一自注意力机制模块的输出作为第一个第一CBS层和第二CBS层的输入，第一个第一CBS层和倒数第二个第一CBS层的输出均作为最后一个第一CBS层的输入。

3.根据权利要求1或2所述的基于深度学习的多摄像头视频图像拼接方法，其特征在于，对抗神经网络包括生成器和判别器，生成器的输出作为判别器的输入，生成器从输入到输出依次包括两层第三卷积层、第二自注意力机制模块、第四卷积层、第三自注意力机制模块和三层第五卷积层，判别器从输入到输出依次包括第六卷积层、第一全连接层、第四自注意力机制模块和第二全连接层。

4.根据权利要求1所述的基于深度学习的多摄像头视频图像拼接方法，其特征在于，在S2中，对准模型利用损失函数L进行训练优化，表示为，拼接模型的生成器利用损失函数/>进行训练优化，表示为/>，拼接模型的判别器利用损失函数进行训练优化/>，表示为/>，其中，I _A表示目标图像，I _B表示参考图像，H _i(·)表示投影矩阵，E表示和图像形状大小相同的、全为1的矩阵，λ_i表示每个变换矩阵对应的损失权重，ʘ表示像素级乘法，‖·‖₁表示一范数，γ表示合成标签，φ表示真实标签，p _m表示真实图像m地分布，真实图像包括原始图像对，p _z表示对准地目标图像和参考图像z地分布，D(·)表示判别器，G(·)表示生成器，ø表示判别器对生成数据输出的预测值地约束，n表示投影矩阵H _i(·)的数量，z表示参考图像，m表示真实图像，/>表示计算/>的期望，/>表示真实图像m在经过判别器D(·)计算得出的标签值与真实标签φ做差再平方，/>表示计算 />的期望，/>表示对准地目标图像和参考图像z在通过生成器和判别器后得出的标签值与合成标签做差再平方，通过将/>和/>相加得到拼接模型地判别器损失函数。

5.根据权利要求1所述的基于深度学习的多摄像头视频图像拼接方法，其特征在于，回归网络的回归拟合表示为，将上述等式进行展开得到x’=(ax+by+c)(gx+hy+ i)和y’=(dx+ey+f)(gx+hy+i)，其中，x、y为参考图像的像素点坐标，x’、y’为目标图像的像素点坐标，a、b、c、d、e、f、g、h、i分别为3*3的投影矩阵H的9个值，在回归网络中拟合最终得到投影矩阵H，表示为/>。