CN115376028A

CN115376028A - 基于稠密特征点拼接和改进型yolov 5的目标检测方法

Info

Publication number: CN115376028A
Application number: CN202211019523.1A
Authority: CN
Inventors: 黄凯; 李君惠; 廖育富; 王彦成; 何聪; 冯东阳
Original assignee: Sichuan Jiuzhou ATC Technology Co Ltd
Current assignee: Sichuan Jiuzhou ATC Technology Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-22

Abstract

本发明公开了一种基于稠密特征点拼接和改进型YOLOV5的目标检测方法，该方法包括以下步骤：通过多个相机的相邻安装并调校，获取目标区域的多个图像；其中，所述多个图像相邻之间有重叠；基于重叠区域，对多个图像进行拼接；对拼接后的图像进行目标检测。本发明使用稠密的区域匹配方式，充分利用全局的特征信息进行匹配；充分利用无人机检测的背景信息进行网络学习；在不影响实时性的前提下避免分块检测对目标的割裂；本发明能够防止拼接后出现画面明显的畸变，能够提高目标检测的精度。

Description

基于稠密特征点拼接和改进型YOLOV 5的目标检测方法

技术领域

本发明涉及目标检测技术领域，特别是一种基于稠密特征点拼接和改进型YOLOV5的目标检测方法。

背景技术

随着无人机产业的迅速发展，无人机的应用如雨后春笋般的出现，应用场景从航拍到物流，使用主体从个人到政府机关，如何对无人机统一进行管控关系到无人机产业的进一步普及和发展，也关系到空域安全，特别是城市和重点区域的低空空域安全。要进行无人机管控则需解决如何进行高效的无人机检测，超广角无人机检测对无人机管控提供切实可行的技术贡献。

目前无人机的检测大多是针对非超广角的检测，这就需要同时部署多个监测点来检测某个方向空域的无人机，不仅不经济，且后期受到设备误差的影响较大，对多点目标检测数据融合的精确度要求也较高。

基于超广角相机成像的无人机检测，很大一部分是单个超广角镜头，超广角畸变严重，特别是视场靠近边缘的区域，畸变对目标定位造成严重干扰，畸变矫正步骤繁复，消耗资源多。受镜头光学物理特征的影响，矫正的效果往往不理想，且后期需要通过剪切掉图像的边缘区域使得观察的视场角变小。

使用普通镜头进行拼接为超广角是一个可行且经济的方案，目前大部分技术采用特征点匹配，但是在无人机检测中，无人机出现的背景大多是无纹理或弱纹理的天空区域，采用稀疏的特征点匹配会得到较大的误差。

超广角无人机检测属于小目标检测，目前大部分小目标检测是通过改进提取小目标的特征的方法来获得小目标的信息，通过实验，在超广角无人机检测中存在频繁的漏检，因为将超广角图像进行resize到1280×1280或者640×640(yolov5常用的输入分辨率)之后，本来属于小目标的无人机将会进一步被压缩从而丢失特征。因此可通过分块将小目标变成大目标后进行检测。

现有采用分块检测的技术典型的是采用重叠分块来避免将一个目标分割为两个，该方法需要计算的图像子块数量多，不适合超广角视频的目标实时检测。

发明内容

鉴于此，本发明提供一种基于稠密特征点拼接和改进型YOLOV 5的目标检测方法，以解决上述技术问题。

本发明公开了一种基于稠密特征点拼接和改进型YOLOV 5的目标检测方法，包括以下步骤：

步骤1：通过多个相机的相邻安装并调校，获取目标区域的多个图像；其中，所述多个图像相邻之间有重叠；

步骤2：基于重叠区域，对所述多个图像进行拼接；

步骤3：对拼接后的图像进行目标检测。

进一步地，所述步骤1包括：

通过三个相机的相邻安装并调校，获取目标区域的三个图像；其中，所述三个图像相邻之间有重叠，即存在四个重叠区域；

所述三个相机拼接后的视角大于180°，且三个相机具备相同的参数，并进行了帧同步和图像质量对齐；所述四个重叠区域分别占对应的单个相机的FOV的10％至20％。

进一步地，所述步骤2包括：

步骤21：采用直方图匹配法，以所述三个图像的中间位置的图像为基准，两边的图像向中间位置的图像进行匹配；

步骤22：利用FAST特征检测器检测每个重叠区域中的特征点；将每个重叠区域中的特征点按响应值从大到小排序，保留前5个最大的响应值对应的特征点，形成稀疏特征集；若响应值不足5个，则全部保留；其中，每个特征点对应一个响应；

步骤23：使用Lucas-Kanade方法计算稀疏特征集的光流，利用图像金字塔在各个特征维度进行特征点匹配，以得到四个重叠区域的匹配特征点，然后计算得到匹配特征点的光流；其中，每个光流值是一个二维向量，表示水平方向和垂直方向的运动量；

步骤24：基于稀疏特征集和匹配特征点，得到每个重叠区域细分为15×3个网格后，每个网格的光流值；

步骤25：基于每个网格的光流值对所述三个图像进行拼接。

进一步地，所述步骤25包括：

步骤251：每个网格的左上顶点的光流值等于其2×2网格顶点邻域内光流值的中值平滑；再以每个网格的顶点为中心，在4×4的顶点领域内进行中值平滑，即得到每个网格的顶点的光流值；

步骤252：将每个网格细分为N×N个cell，通过三角形插值法得到每个cell的顶点的光流值；将每个cell左上角顶点的光流值作为cell中所有的像素的光流值，由此得到重叠区域所有像素的光流值，再利用重叠区域的光流值对三个图像进行拼接。

进一步地，所述步骤252包括：

步骤2521：N×N个cell组成四边形，设四边形的四个顶点P₁、P₂、P₃、P₄的光流值已知，通过三角形插值法得到每个cell的顶点的光流值，处于上三角形中的P点的光流值P_v由P₁、P₂、P₃对应的光流值P_1v、P_2v、P_3v插值而来：

P_v＝(w₁P_1v+w₂P_2v+w₃P_3v)/(w₁+w₂+w₃)

w_i＝1/D_i

其中，P_i ^y分别表示第i个顶点P_i的x，y坐标，P^x,P^y表示待求的三角形中的P点的x，y坐标，D_i表示P到P_i之间的距离，权重w_i与D_i成反比；

步骤2522：按照步骤2521类推，由P₂、P₃、P₄对应的光流值P_2v、P_3v、P_4v插值，得到处于下三角形中的cell的顶点的光流值。

进一步地，所述步骤3包括：

基于目标高概率出现在图像上半部分的空中区域，截图图像的上半部分，并对该区域的大小进行调整，使其与原始图像大小相同；

将调整后的图像和原始拼接后的图像作为训练样本输入yolov5网络学习；

提取调整后的图像和原始拼接后的图像对应的第一特征图，并将第一特征图进行拼凑得到特征图组，然后提取特征图组的第二特征图；

将第二特征图分为多块并行检测，然后将检测到的目标的位置与其在原始拼接后的图像中的位置对应，输出最终的检测结果。

进一步地，使用图像分块检测时，当目标跨越相邻的两块，则检测相邻块是否有目标框出现相接，若相接则这两个目标同属一个目标，则在最终的超广角图像上取相接两个目标框的最小外接矩形作为其最终的输出目标框。

进一步地，使用图像分块检测时，当两个目标相邻时，通过制作新的标签检查目标是否完整进行检测；

所述新的标签格式为：[cls,x,y,w,h,c]，其中，cls为类别，x和y为目标的坐标，w和h分别为目标的宽和高，c为目标完整性，c取值为0或1；0表示目标不完整，1表示是完整的目标，按照新的标签对样本集进行标签制作然后进行学习；新的损失函数增加了完整性：

Loss(all)＝Loss(confidence)+Loss(location)+Loss(class)+Loss(completeness)

其中，Loss(confidence)表示置信度损失，Loss(location)表示定位损失，Loss(class)为类别损失，Loss(completeness)为完整度损失，S²表示网格的个数，B表示每个网格中的anchor box的个数，

表示存在目标的情况，c_i是检测的c值，

是标注的真值，λ_comp是度量完整性损失的权重系数。

进一步地，遍历两个目标之间的分割线附近的目标框，将目标框的左上角和右下角的坐标格式分别转换为(x1，y1)和(x2，y2)，然后在分割线附近的10个像素内遍历坐标，检查分割线两侧的坐标是否相邻接。

进一步地，若分割线两侧的坐标不邻接，则直接输出该目标框；若分割线两侧的坐标邻接，则继续判断两个邻接的目标框是属于同一个目标还是分属于两个目标，通过检查标签中目标是否完整的标识来判断；

若邻接的两个目标框的标识都为0，则表示虚线两侧的目标不完整，则求出邻接的两个目标框的最小外接矩形作为合并之后的目标框进行输出；若不都为0则直接输出两个相邻的目标框。

由于采用了上述技术方案，本发明具有如下的优点：(1)本发明提出了一种由普通镜头拼接为超广角的方法，采用稠密光流估计来进行重叠区域的配准，可以克服天空缺少匹配特征点的不利影响，综合重叠区域的全局特征来进行图像拼接，防止拼接后出现画面明显的畸变；(2)本发明充分利用任务中目标背景的特殊性，更多地将目标出现在天空的区域纳入到网络学习中去，提高检测的精度；(3)本发明利用分块检测的方法，创新性地提出新的标签来判断物体的完整性，然后结合分割线附近目标框是否相接来避免同一个目标被分为两个目标输出。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例的图像拼接示意图；

图2为本发明实施例的图像重叠区域的网格示意图；

图3为本发明实施例的稠密光流估计流程示意图；

图4为本发明实施例的目标出现区域的概率统计结果示意图；

图5为本发明实施例的额外截取天空区域加入网络学习示意图；

图6为本发明实施例的分割线上的目标示意图；

图7为本发明实施例的两个目标为误识为一个目标示意图；

图8为本发明实施例的不完整目标检测示意图；

图9为本发明实施例的一种基于稠密特征点拼接和改进型YOLOV 5的目标检测方法的流程示意图。

具体实施方式

结合附图和实施例对本发明作进一步说明，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

本发明针对超广角无人机检测的特点，一是所需要FOV大，二是天空中缺少特征，因此采用稠密光流估计来进行图像配准和拼接。针对无人机出现区域的特点，改进YoloV5网络的输入端，将更多的背景加入到网络学习中去。创新性地改进标签格式，对目标的完整性进行检测，结合分割的结果来避免分块检测过程中对目标的一分为二。

参见图9，本发明提供了一种基于稠密特征点拼接和改进型YOLOV 5的目标检测方法的实施例，其包括以下步骤：

S1：通过多个相机的相邻安装并调校，获取目标区域的多个图像；其中，多个图像相邻之间有重叠。

参见图1，可以选用普通的三个相同的相机模组，拼接成一个超大视场角的画面。比如选择视场角在65°到75°之间的单个模组，拼接之后能看到的视场角大于180°。安装相机模组让三个镜头尽量与水平地面垂直，相机镜头处于同一水平线上，并且三个相机的FOV需要产生重叠，如图1所示。

图像拼接的预先条件：三个模组拥有相同的参数，已经做了帧同步和图像质量对齐(包括对相机中的ISP的噪声、AWB、AE、LenShading、AF、锐化等的调优，保证3台设备的生成的图像质量相同)。

重叠区域范围占单个相机FOV的占比在10％至20％左右，不低于10％，以确保有足够的特征点来匹配。

目标区域可以为无人机出现的区域。

S2：基于重叠区域，对多个图像进行拼接。

在拼接的时候，可以选择多张图像进行拼接，此处给出三个图像拼接的方法，即中间图像保持不动作为参考帧，左右两张图像分别并同时与中间图像的左右边缘区域进行对齐和拼接，即1号区域和2号区域进行匹配对齐，3号区域和4号区域进行匹配对齐，将重叠区域划分为15×3的网格，得到45个cell，如图2所示。1号区域、2号区域、3号区域和4号区域属于三张图像的重叠区域，即三张图像之间存在四个重叠区域；

图像拼接模块包括直方图匹配、稀疏特征点检测、稀疏特征匹配、稠密光流估计、图像配准。

直方图匹配：直方图匹配以中间图像为基准，两边的图像向中间的图像进行匹配，该步骤防止3帧图像的亮度和色彩不一致，有利于拼接后消除肉眼可见的色彩差异，有利于在拼接时的特征匹配。

稀疏特征点检测：利用FAST特征检测器检测2号区域，3号区域中每个cell的特征点，每个特征点会对应一个response(响应)，response的值越大，特征点表现得越明显，越能表示该点为特征点。然后对每个cell中的特征点按response从大到小排序，保留前5个最大的response的特征点，不足5个的则全部保留。

稀疏特征匹配：使用Lucas-Kanade方法计算稀疏特征集的光流，每个光流值是一个二维向量表示水平方向和垂直方向的运动量，利用图像金字塔在各个特征维度进行特征点匹配并计算光流。通过这一步计算出1号区域和2号区域的匹配特征点，4号区域和3号区域的匹配特征点。

稠密光流估计：接下来进行光流填充，如图3所示，A图中cell中的数字表示检测到并保留的特征点数目及对应相应数目的光流值对的个数，每个网格的顶点的光流等于其2×2cell邻域内光流值的中值几中值平滑。然后再以每个顶点为中心，在4×4的顶点领域内进行中值平滑，每个顶点得到平滑过后的光流值。

将每个cell再细分为3×3的网格，如B图所示。每个细分的网格顶点的光流通过三角形插值法得到，如C图，P₁、P₂、P₃、P₄对应的光流值是已知的，处于上三角形中的P点的光流值P_v由P₁、P₂、P₃对应的光流值P_1v、P_2v、P_3v插值而来：

P_v＝(w₁P_1v+w₂P_2v+w₃P_3v)/(w₁+w₂+w₃)

w_i＝1/D_i

其中，

分别表示第i个顶点P_i的x，y坐标，P^x,P^y表示待求的三角形中的P点的x，y坐标。D_i表示P到P_i之间的距离，权重w_i与D_i成反比。

按照上述方法，同理可以由P₂、P₃、P₄对应的光流值P_2v、P_3v、P_4v插值，得到处于下三角形中的cell的顶点的光流值。

将每个细分后的顶点的光流值填充到其右下角的细分cell里面(D图，不同颜色表示不同值，这里仅做示意)，这时cell里面的每个像素都分配了一个光流值。到此基于特征的稀疏匹配进化为稠密的像素匹配。

以上步骤均在离线状态下进行，完成拼接之后，在实时目标检测过程中，为了防止设备抖动等因素等造成拼接错位，在实时运行过程中检测重合区域稀疏匹配特征点的位移。当超过50％的稀疏特征点位移累积超过0.5个像素时，求取稀疏匹配特征点位移的平均值，将整个图像朝相反方向平移对应的位移。

S3：对拼接后的图像进行目标检测。

目标检测采用yolov5-tiny进行，针对该应用场景，创新性地提出的改进有两部分：特征提取和分块检测。

特征提取：由于无人机出现的背景很大概率是天空，因此可将更多的以天空为背景的无人机区域加入到特征提取中来，提高天空背景对目标检测的贡献。

如图4所示，统计样本集中无人机出现在图像上半部分的概率比出现在下半部分的概率大得多，因此在输入端可将图像的上半部分截取后resize成原图尺寸和原图一起作为输入，提供给网络学习。图5是yolov5网络的输入端以及连接输入端的3层隐藏层。输入被resize成640×640×3的图像，截取上半部分进行灰度填充后与原图进行同样的操作，得到320×320×64的特征图，然后把特征图像拼凑得到320×320×128的特征图组，然后进行下一步特征提取操作。原网络是进行虚线箭头方向，直接将原图提取特征得到320×320×64特征图，然后进一步提取特征得到160×160×128的特征图。

分块检测：由于拼接后的图像较大，目标相对于图像比较小，YoloV5的输入需要将图片进行压缩，压缩之后的目标会丢失更多的细节，不利于算法的检测。因此本方法将图像分为4块并行检测，然后将检测到的目标的位置与原图像的位置对应，最后输出最终的检测结果。

使用图像分块检测的时候，若目标跨越相邻的两块，造成检测结果合并后一个目标生成两个目标框，如图6所示。

因此，可检测相邻块是否有目标框出现相接(即目标框的边紧挨在一起且不重叠)的情况，若相接且这两个目标都同属一个目标，则在最终的超广角图像上取上述相接两个目标框的最小外接矩形作为其最终的输出目标框，从而避免同一个目标被检测为割裂的两个目标。为了增强鲁棒性，左右目标框的边相接的判定可加上±2个像素的冗余。

如果仅采用以上方法，当出现两个目标相邻的时候，最终将检测为1个目标，如图7所示。

可通过制作特殊的标签来检查目标是否完整来避免该情况出现，YoloV5官方的标签格式为：[cls,x,y,w,h]，现增加1个维度[cls,x,y,w,h,c],c取值为0或1。0表示目标不完整，1则表示是完整的目标，按照新的标签对样本集进行标签制作然后进行学习。为了提高效率，检测不完整的目标的步骤如图8所示。新的损失函数,增加了完整性一项，其余的部分参考Ultralytics的YoloV5中的损失函数表达：

Loss(all)＝Loss(confidence)+Loss(location)+Loss(class)+Loss(completeness)

表示存在目标的情况，c_i是检测的c值，

是标注的真值，λ_comp是度量完整性损失的权重系数。

遍历分割线附近的目标框是将目标框xywh转换为左上角和右下角的坐标格式，然后在分割线附近10个像素内遍历坐标，检查分割线两侧的坐标是否有相临接的。如果不是邻接则直接输出该目标框，如果是邻接就继续判断两个邻接的目标框是属于同一个目标还是分属于两个目标，该步骤通过检查标签中目标是否完整的标识c来判断。如果邻接的两个目标框的c都为0，则表示虚线两侧的目标不完整，则求出邻接的两个目标框的最小外接矩形作为合并之后的目标框进行输出，如果不都为0则直接输出两个相邻的目标框。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于稠密特征点拼接和改进型YOLOV 5的目标检测方法，其特征在于，包括以下步骤：

步骤2：基于重叠区域，对所述多个图像进行拼接；

步骤3：对拼接后的图像进行目标检测。

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤2包括：

步骤25：基于每个网格的光流值对所述三个图像进行拼接。

4.根据权利要求3所述的方法，其特征在于，所述步骤25包括：

5.根据权利要求4所述的方法，其特征在于，所述步骤252包括：

P_v＝(w₁P_1v+w₂P_2v+w₃P_3v)/(w₁+w₂+w₃)

w_i＝1/D_i

其中，P_i ^y分别表示第i个顶点P_i的x，y坐标，P^x，P^y表示待求的三角形中的P点的x，y坐标，D_i表示P到P_i之间的距离，权重w_i与D_i成反比；

6.根据权利要求1所述的方法，其特征在于，所述步骤3包括：

7.根据权利要求6所述的方法，其特征在于，使用图像分块检测时，当目标跨越相邻的两块，则检测相邻块是否有目标框出现相接，若相接则这两个目标同属一个目标，则在最终的超广角图像上取相接两个目标框的最小外接矩形作为其最终的输出目标框。

8.根据权利要求6所述的方法，其特征在于，使用图像分块检测时，当两个目标相邻时，通过制作新的标签检查目标是否完整进行检测；

所述新的标签格式为：[cls，x，y，w，h，c]，其中，cls为类别，x和y为目标的坐标，w和h分别为目标的宽和高，c为目标完整性，c取值为0或1；0表示目标不完整，1表示是完整的目标，按照新的标签对样本集进行标签制作然后进行学习；新的损失函数增加了完整性：

Loss(all)＝Loss(confidence)+Loss(location)+Loss(class)+Loss(completeness)

表示存在目标的情况，c_i是检测的c值，

是标注的真值，λ_comp是度量完整性损失的权重系数。

9.根据权利要求8所述的方法，其特征在于，遍历两个目标之间的分割线附近的目标框，将目标框的左上角和右下角的坐标格式分别转换为(x1，y1)和(x2，y2)，然后在分割线附近的10个像素内遍历坐标，检查分割线两侧的坐标是否相邻接。

10.根据权利要求9所述的方法，其特征在于，若分割线两侧的坐标不邻接，则直接输出该目标框；若分割线两侧的坐标邻接，则继续判断两个邻接的目标框是属于同一个目标还是分属于两个目标，通过检查标签中目标是否完整的标识来判断；