CN115719414A

CN115719414A - 基于任意四边形回归的目标检测与精确定位方法

Info

Publication number: CN115719414A
Application number: CN202211365117.0A
Authority: CN
Inventors: 李晖晖; 冯昱霖; 刘航
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-02-28

Abstract

本发明涉及一种基于任意四边形回归的目标检测与精确定位方法，首先，进行图像预处理，划分图像数据训练集、验证集和测试集之后，针对数据集的特点，采用相应的数据增强手段，添加基于目标坐标的随机裁剪、亮度扰度与亮度直方图均衡化等。其次，构建神经网络模型，主干网络提取特征之后，构造关键点检测分支，通过热力图回归直接预测目标区域的四个关键点位置，使得神经网络具备直接预测任意四边形的能力，从而精确定位目标的关键区域。最后，改进与优化算法模型，扩大特征尺寸并局部映射，基于注意力机制进行特征融合，利用多任务多阶段的混合级联结构与分支间的信息交互进一步提升目标检测定位精度。

Description

基于任意四边形回归的目标检测与精确定位方法

技术领域

本发明属于计算机视觉领域、目标检测技术领域，涉及一种基于任意四边形回归的目标检测与精确定位方法。

背景技术

目标检测是计算机视觉领域的基本任务之一，近些年随着深度学习技术的发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。

随着计算机视觉分类识别任务的深入研究，基于卷积神经网络检测算法的研究已经从算法的通用目标检测精度提升和检测速度提升，逐渐拓展到特定领域的目标检测。一些场景的目标普遍带有任意旋转的多角度，普通正框检测的方法无法满足需求，比如遥感目标检测、货架商品检测、自然场景下的文本检测、顶拍鱼眼镜头下的人体或物体检测。与通用目标检测相比，特定目标检测有更为具体的研究背景，其研究内容也往往是针对这些特殊背景展开。

以工业应用中的仪表检测识别任务为例，当前，深度学习方法广泛应用到仪表检测定位中，采取通用目标检测任务中位置预测方式，定位仪表所在的最小外接矩形框，效果远高于传统检测定位方式。但是由于仪表检测任务具有一定特殊性，需要准确获取仪表的表盘位置，对其进行倾斜校正以方便后续读数识别等任务。只定位包围仪表的最小矩形具有很大的局限性，可能会对后续任务带来不良影响，需要更加精确的定位结果。

利用计算机视觉技术进行目标检测与精确定位的难点主要有两方面：第一，目标由于角度的倾斜很可能会发生形变，需要进行目标区域倾斜校正，因此，算法要具备可以预测任意四边形位置的能力，通用目标检测技术只预测目标的最小包围框，这对于特定检测定位任务而言其定位的效果难以满足后续任务的要求，无法仅利用包围目标最小包围框位置信息进一步校正成正视角度下的目标图像。此外，即便使用实例分割技术，可以获取目标的位置掩码，但面临如何减少利用位置掩码进行透视变换时引入误差的问题；第二，应用场景不同，室内外光照条件不同，目标所在环境复杂存在大量的干扰信息，成像设备与目标的距离不同，目标的尺度会发生较大变化存在大量的小目标，而且目标种类多样外形多变，这些不良条件对方法的鲁棒性提出了挑战。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于任意四边形回归的目标检测与精确定位方法。首先，对目标图片数据进行四边形位置标注，然后对图像进行预处理操作，主要包括图像数据训练集、验证集和测试集的划分以及特定的图像增强处理；然后，构建基于任意四边形回归的仪表检测网络模型，包括特征提取网络模块、FPN模块、RPN模块、ROI Align池化层和基于全连接层的分类回归分支以及基于全卷积网络的关键点检测分支Grid Head；接着，利用增强后的图像数据集对网络模型进行训练，得到训练好的网络；最后，利用训练好的网络对待检测目标图像进行处理，得到最终的检测结果。本发明具有检测任意四边形的能力，能够使用预测的四边形位置信息方便地得到目标关键区域的正视图，为后续处理提供便利；此外，进行网络结构调整与优化，扩大输入关键点检测分支的特征尺寸并根据坐标进行局部区域映射，基于多重注意力机制进行多重特征融合，利用多任务多阶段的混合级联结构与分支间的信息交互，从多种角度提高算法性能，提高各种不良条件下方法的检测精度与鲁棒性。

技术方案

一种基于任意四边形回归的目标检测与精确定位方法，其特征在于步骤如下：

步骤1：构建基于任意四边形回归的目标检测网络模型，该模型基于Faster RCNN网络模型搭建，于Faster RCNN网络的ROI Align池化层与边框回归分支的输出端连接基于多重注意力机制特征交互融合的关键点检测分支Grid Head；

所述关键点检测分支Grid Head基于全卷积网络搭建，包括用于特征提取的卷积序列、增大特征局部映射模块、特征交互融合模块、改变特征尺寸的反卷积层以及混合级联结构；使用卷积序列对输入的待检测图像特征进行特征提取，特征提取后增大特征并进行局部映射，再使用基于多重注意力机制的特征融合模块对提取的特征进行多级融合处理，将融合输出的特征图输入到多层反卷积层，输出用于提取关键点坐标的热力图，利用多任务多阶段的混合级联结构与信息交互结合边框回归结果进一步提精，将最终得到的热力图转换得到待检测目标关键区域的任意四边形四个顶点Grid Point的坐标信息；

步骤2：于监控设备下自行采集目标图片数据并整理，划分图像训练集、验证集和测试集后，对每一幅目标图像分别进行相应的数据增强手段，增强处理前后的图像共同构成目标图像数据集；

步骤3：以步骤2得到的图像数据集中的训练集与验证集为输入，采用随机梯度下降法对步骤1构建的基于任意四边形回归的目标检测网络模型进行训练，得到训练好的网络模型，使用测试集对得到的网络模型进行性能评估；

步骤4：将待检测的目标图像输入到步骤3训练好的网络模型中，输出得到类别信息和目标关键区域任意四边形的顶点坐标，在完成目标检测的基础上进一步精确定位。

所述步骤1的增大特征局部映射的具体过程如下：

对于待检测的目标来说，所有的Grid Point共享一个相同的特征表达区域，为了解决特征表达区域的问题，改变热力图预测的关键点位置坐标与该点对应于原图位置坐标的映射关系，过程为：

首先，将输入Grid Head的特征图的宽高扩大到原来的两倍，增大特征图在原图上映射的区域，将Grid Point包含在RPN网络生成的候选框内部；

然后，将放大后的特征图按照Grid Point所在的位置局部映射，对于每个GridPoint，新的输出代表了整张特征图四分之一的区域，四个Grid Point对应的热力图由完整特征的不同区域生成，而不是所有的关键点共享一个相同的特征表达区域；

处理后，每个Grid Point的表达能近似地视为一个归一化的过程，在不增加计算量的同时，提升了定位精度。

所述步骤1的基于多重注意力机制特征交互融合的具体过程如下：

用于特征提取的卷积序列由多个卷积层构成，对输入的待检测图像特征F_din进行特征提取，提取后的特征记为F_d，特征提取时先增大特征并进行局部映射，再使用基于多重注意力机制的特征融合模块对提取的特征F_d进行多级融合处理，具体如下：

将特征F_d按照通道平均分成M组，与第i个Grid Point对应的特征图记为F_di，与源点集合S_i中的第j个点对应的特征图记为F_dj，i＝1，2，...，M，M为Grid Point点数，j＝1，2，...，K_i，K_i为源点集合S_i中包含的源点个数；

所述的源点为Grid网格中与第i个Grid Point距离为1的点，所有源点构成源点集合；

然后，将特征图F_dj通过卷积层，得到对应的新的待融合特征图，记为T_d：j→i(F_dj)；接着，将特征图F_di与融合的特征图T_d：j→i(F_dj)按下式进行相加融合处理，i＝1，2，...，M，得到融合后的特征图F′_di：

然后，对特征图F′_di按照下式进行二次相加融合处理，得到二级融合特征图F″_di：

其中，T′_j→i(F′_dj)表示特征图F′_dj通过卷积层得到的新的二级待融合特征图，卷积层结构与前面得到特征图T_d：j→i(F_dj)中的卷积层结构相同，i＝1，2，...，M，j＝1，2，...，K_i；

对于二次融合得到的多级特征{F_di，F′_dj，F′_di}，每级特征分别表示为一个四维张量F∈R^L×H×W×C，其中L表示特征的层数，W、H分别是特征的高度、宽度，C是通道数；定义S＝H×W，得到一个L×S×C的三维张量，应用注意力机制从特征层级、空间、任务三个维度进行学习，使用三个连续的注意力：

W(F)＝π_C(π_S(π_L(F)·F)·F)·F

π_L、π_S、π_C分别表示在L、S、C维度的不同注意力方法，对特征的三个维度单独使用注意力机制：层级注意力模块只用在层级维度上，它学习各语义层级的相对重要程度，在适当的层级上增强目标的特征；空间注意力模块用在S＝H×W维度上，学习各空间位置上内在的判别表示；任务注意力模块则用在通道维度上，依据卷积核对物体不同的响应，指导不同的特征通道来进行不同的任务，使特征更适用于关键点学习；

包含三种感知注意力的模块串联堆叠构成一个完整的注意力模块，将多级特征{F_di，F′_dj，F″_di}通过统一的注意力机制，融合得到用于预测四个顶点坐标的热力图；再将融合输出的特征图输入到多层反卷积层，输出最终的用于提取关键点坐标的热力图。

所述步骤1的多任务多阶段的混合级联结构与分支间信息交互的具体过程如下：

以多任务方式将边框回归和Grid Point预测组合在一起，抛弃平行结构交替进行，每个阶段先执行框回归分支，再将回归过的框交由Grid Head来预测Grid Point；同时，在相邻阶段的Grid Head之间增加一条连接，前一个阶段的特征G_i的特征经过卷积做特征嵌入，然后输入到后一个阶段G_i+1，G_i+1既能得到原始的特征，得到上一个阶段的特征，在每个阶段整合级联和多任务来处理来改善信息流。

所述步骤2的热力图转换为顶点坐标的具体过程如下：

将热力图坐标映射回原图按下式进行计算：

其中，(I_x，I_y)表示待检测目标在图像中的顶点位置坐标，(P_x，P_y)表示RPN模块生成的包围框的顶点位置坐标，(H_x，H_y)表示最终预测的点在特征热力图中的位置，(w_p，h_p)表示RPN模型生成的包围框的宽度和高度，(w_o，h_o)表示热力图的宽度和高度。

所述步骤3的网络模型训练的具体过程如下：

网络的损失函数按下式进行计算：

Loss＝L_cls+L_reg

其中，Loss表示网络的总损失，L_cls表示RPN模块分类损失与分类回归检测头中分类损失之和，L_reg表示RPN模块位置回归损失、检测头中框回归损失与Grid Head中关键点回归损失之和；分类损失、RPN模块位置回归损失以及框回归损失与FasterRCNN中的损失一致；关键点回归损失L_grid为GridHead中热力图与标签图的交叉熵损失，按下式计算得到：

L_grid＝L_{grid未融合}+L_{grid已融合}

其中，L_{grid未融合}表示未融合的热力图对应的交叉熵损失，L_{grid已融合}表示最终融合的热力图对应的交叉熵损失，分别按以下公式计算得到：

其中，M为GridPoint点数，N为热力图的像素个数，t_k，l表示第l个GridPoint对应的最终融合的特征热力图中第k个像素的值，t′_k，l表示第l个Grid Point对应的未融合的特征热力图中第k个像素的值，t_k，l和t′_k，l取值范围0到1，

表示第l个GridPoint对应的未融合的特征热力图所对应的标签图中第k个像素的值，取值范围0和1，像素为1是表示对应的是预测Grid Point区域，像素为0时表示对应的不是预测Grid Point区域。

有益效果

本发明提出的一种基于任意四边形回归的目标检测与精确定位方法，首先，进行图像预处理，划分图像数据训练集、验证集和测试集之后，针对数据集的特点，采用相应的数据增强手段，添加基于目标坐标的随机裁剪、亮度扰度与亮度直方图均衡化等。其次，构建神经网络模型，主干网络提取特征之后，构造关键点检测分支，通过热力图回归直接预测目标区域的四个关键点位置，使得神经网络具备直接预测任意四边形的能力，从而精确定位目标的关键区域。最后，改进与优化算法模型，扩大特征尺寸并局部映射，基于注意力机制进行特征融合，利用多任务多阶段的混合级联结构与分支间的信息交互进一步提升目标检测定位精度。

本发明采集的目标图像数据集中，目标的大小以及光照条件等不能包含所有的情况，通过基于目标坐标的随机裁剪增强、亮度扰动与亮度直方图均衡化等数据增强手段，可以增加数据图片的尺度与亮度变化范围进而增加数据的多样性，使得有利于训练出泛化能力更强的网络模型；由于采用预测heatmp的方式，预测任意四边形的顶点，顶点坐标选择灵活，通过透视变换能够直接得到目标关键区域的正视图，在校正的同时排除了干扰信息，为后续操作提供了良好的前提；通过对网络结构进一步地改进与优化，使用基于多重注意力地特征交互融合Grid Head网络模块，提升网络的检测定位精度与鲁棒性。本发明能够有效地对目标在不同成像角度下成像以后的位置进行定位，在面临光照干扰、目标尺度变化等各种不良条件时，仍能保持较高的目标检测精度，有助于推动当前利用计算机视觉技术进行特殊领域目标检测的发展。

附图说明

图1是本发明的基于任意四边形回归的目标检测与精确定位方法流程图；

图2是基于多重注意力特征交互融合的Grid Head网络模块结构图；

图3是本发明中四边形位置预测时4个Grid Point分布示意图；

图4是采用本发明方法应用于仪表检测的结果图像；

图中，(a)-避雷器1检测结果图像；(b)-避雷器1检测结果经透视变换得到的表盘图像；(c)-避雷器2检测结果图像；(d)-避雷器2检测结果经透视变换得到的表盘图像；

图5是采用本发明方法应用于车牌检测的结果图像；

图中，(a)-车牌1检测结果图像；(b)-雪天车牌2检测结果图像；(c)-车牌1检测结果经透视变换得到的车牌图像；(d)-车牌2检测结果经透视变换得到的车牌图像。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

如图1所示，本发明提供了一种基于任意四边形回归的目标检测与精确定位方法，以仪表检测定位为例，其具体实现过程如下：

1、图像数据预处理

划分仪表图像数据训练集、验证集和测试集后，根据数据的特点，对每一幅仪表图像分别进行相应的数据增强手段。采取基于仪表坐标的随机裁剪与拼接增强，添加随机角度旋转与方向翻转，应用亮度扰动与亮度直方图均衡化，增加数据图片的尺度与亮度变化范围进而增加数据的多样性。增强处理前后的图像共同构成仪表图像数据集。

2、构建基于任意四边形回归的仪表检测网络模型

为了完成对仪表关键区域的准确定位，主干网络需要保证既能高效地完成特征提取操作，也需要保证较快的处理速度，选择ResNet-50网络作为主干网络来完成特征提取。因此，本发明构建的基于任意四边形回归的仪表检测网络模型包括一个基于ResNet-50的特征提取网络模块、FPN模块、RPN模块、ROI Align池化层和基于全连接层的分类回归分支以及基于全卷积网络的关键点检测分支Grid Head。

ResNet-50神经网络由多个卷积层、池化层和残差结构构成，将待检测仪表图片输入到ResNet-50网络模块，输出得到待检测仪表图片特征。

FPN模块是特征金字塔网络，输入主干网络提取的特征图，输出多个大小不一的特征图，以应对仪表的尺度变化。

RPN模块包括多个卷积层，对待检测仪表图片特征进行初定位处理，输出得到仪表的矩形包围框坐标。

ROI Align池化层利用双线性插值的方式计算非整数位置的像素点值，实现对不同大小特征图的归一化，将不同大小的输入特征图输出成同一大小的特征图。即根据仪表的矩形包围框坐标将对应的待检测仪表图片特征池化成同一大小。

将池化后的待检测仪表图片特征输入到Grid Head，输出得到待检测仪表的四边形的四个顶点位置的标记信息。

3、基于多重注意力特征交互融合的Grid Head模块

基于多重注意力特征交互融合的Grid Head网络模块结构如图2所示，包括一个卷积序列网络模块、基于多重注意力特征交互融合模块和反卷积层。

特征提取网络模块使用8个卷积层，对输入的待检测图片特征F_din进行特征提取，提取后的特征记为F_d，特征提取时先增大特征并进行局部映射，具体如下：

对于待检测的目标来说，所有的Grid Point共享一个相同的特征表达区域，为了解决特征表达区域的问题，改变热力图预测的关键点位置坐标与该点对应于原图位置坐标的映射关系。首先，将输入Grid Head的特征图的宽高扩大到原来的两倍，增大特征图在原图上映射的区域，这样会尽可能地将Grid Point包含在RPN网络生成的候选框内部；然后，将放大后的特征图按照Grid Point所在的位置局部映射，对于每个Grid Point，新的输出代表了整张特征图四分之一的区域，四个Grid Point对应的热力图由完整特征的不同区域生成，而不是所有的关键点共享一个相同的特征表达区域。经过这样处理后，每个GridPoint的表达可以近似地视为一个归一化的过程，在不增加计算量的同时，提升了定位精度；

再使用特征交互融合模块对提取的特征F_d进行多级融合处理，具体如下：

将特征F_d按照通道平均分成M组，与第i个Grid Point对应的特征图记为F_di，与源点集合S_i中的第j个点对应的特征图记为F_dj，i＝1,2,…,M，M为Grid Point点数，j＝1,2,…,K_i，K_i为源点集合S_i中包含的源点个数，所述的源点为Grid网格中与第i个Grid Point距离为1的点，所有源点构成源点集合；然后，将特征图F_dj通过2个卷积核为3×3的卷积层，得到对应的新的待融合特征图，记为T_d：j→i(F_dj)；接着，将特征图F_di与融合的特征图T_d：j→i(Fd_j)按下式进行相加融合处理，i＝1，2，...，M，得到融合后的特征图F′_di：

其中，T′_j→i(F′_dj)表示特征图F′_dj通过2个卷积层得到的新的二级待融合特征图，这里的卷积层结构与前面得到特征图T_d：j→i(F_dj)中的卷积层结构相同，i＝1，2，...，M，j＝1，2，...，K_i。

对于二次融合得到的多级特征{F_di，F′_dj，F″_di}，每级特征可以分别表示为一个四维张量F∈R^L×H×W×C，其中L表示特征的层数，W、H分别是特征的高度、宽度，C是通道数。定义S＝H×W，得到一个L×S×C的三维张量，应用注意力机制从特征层级、空间、任务三个维度进行学习，使用三个连续的注意力：

W(F)＝π_C(π_S(π_L(F)·F)·F)·F (3)

π_L、π_S、π_S分别表示三个在L、S、C维度的不同注意力方法，每个负责一个部分。对特征的三个维度单独使用注意力机制：层级注意力模块只用在层级维度上，它学习各语义层级的相对重要程度，在适当的层级上增强目标的特征；空间注意力模块用在S＝H×W维度上，学习各空间位置上内在的判别表示；任务注意力模块则用在通道维度上，依据卷积核对物体不同的响应，指导不同的特征通道来进行不同的任务，使特征更适用于关键点学习。

包含三种感知注意力的模块串联堆叠构成一个完整的注意力模块，将多级特征{F_di，F′_dj，F″_di}通过统一的注意力机制，融合得到4通道的特征图，对应用于预测四个顶点坐标的热力图。再将融合输出的特征图输入到多层反卷积层，输出最终的用于提取关键点坐标的热力图。

为了进一步提升Grid Point检测的精度，引入级联的思想，构造了多任务多阶段的混合级联检测头。以多任务方式将边框回归和Grid Point预测组合在一起，抛弃平行结构交替进行，每个阶段先执行框回归分支，再将回归过的框交由关键点检测分支来预测Grid Point。同时，在相邻阶段的Grid Head之间增加一条连接，前一个阶段的特征G_i的特征经过一个1×1的卷积做特征嵌入，然后输入到后一个阶段G_i+1，G_i+1既能得到原始的特征，也能得到上一个阶段的特征，在每个阶段整合级联和多任务来处理来改善信息流。

3、网络模型训练

以步骤1得到的图像数据集中的图像为输入，采用随机梯度下降法对步骤2构建的基于任意四边形回归的仪表检测网络模型进行训练，得到训练好的网络模型；其中，网络的损失函数按下式进行计算：

Loss＝L_cls+L_reg (4)

其中，Loss表示网络的总损失，L_cls表示RPN模块分类损失与RCNN模块分类损失之和，L_reg表示RPN模块位置回归损失、框回归分支损失与关键点回归损失之和，分类损失、RPN模块位置回归损失以及框回归损失与Faster RCNN中的损失一致；关键点回归损失L_grid为关键点检测分支GridHead中热力图与标签图的交叉熵损失，按下式计算得到：

L_grid＝L_{grid未融合}+L_{grid已融合} (5)

其中，L_{grid未融合}表示未融合的heatmap特征图对应的交叉熵损失，L_{grid已融合}表示最终融合的heatmap特征图的交叉熵损失，分别按以下公式计算得到：

其中，M为Grid Point点数，N为heatmap特征图的像素个数，t_k，t表示第l个GridPoint对应的最终融合的heatmap特征图中第k个像素的值，t′_k，l表示第l个Grid Point对应的未融合的heatmap特征图中第k个像素的值，t_k，l和t′_k，l取值范围0到1，

表示第l个GridPoint对应的未融合的heatmap特征图所对应的标签图中第k个像素的值，取值范围0和1，像素为1是表示对应的是预测GridPoint区域，像素为0时表示对应的不是预测GridPoint区域。

4、仪表检测

将待检测的仪表图像输入到步骤3训练好的网络模型，输出得到预测的heatmap特征图，将生成的heatmap转换为待检测仪表的四边形顶点位置，Grid Point与四边形顶点位置的示意图如图3所示，具体如下：

其中，(I_x，I_y)表示待检测仪表在图像中的顶点位置坐标，(P_x，P_y)表示RPN模块生成的包围框的顶点位置坐标，(H_x，H_y)表示最终的heatmap预测点在heatmap特征图中的位置，(w_p，h_p)表示RPN模型生成的包围框的宽度和高度，(w_o，h_o)表示heatmap的宽度和高度。

为验证本发明方法的有效性，在硬件环境为：CPU：i9-9900，内存：16G，硬盘：1T，独立显卡：NVIDIA GeForce RTX 2080ti，11G，系统环境为Ubuntu18.0.4的条件下，采用软件python3.7、opencv3.4、Pytorch1.3进行仿真实验。实验采用的数据集为自建的仪表数据集，图4给出了采用本发明方法检测后得到的仪表检测结果图像。为验证本发明方法适用于不同的应用场景，在车牌公开数据集CCPD上进行了同样的处理流程，图5给出了车牌检测结果图像。可以看出，采用Gird Point预测的方式，可以准确定位目标关键区域并校正，适用于不同的应用场景，且网络模型在不同光照、不同视角以及不同尺度等不良条件下仍能达到较高的定位精度。

Claims

1.一种基于任意四边形回归的目标检测与精确定位方法，其特征在于步骤如下：

2.根据权利要求1所述的一种基于任意四边形回归的目标检测与精确定位方法，其特征在于：所述步骤1的增大特征局部映射的具体过程如下：

然后，将放大后的特征图按照Grid Point所在的位置局部映射，对于每个Grid Point，新的输出代表了整张特征图四分之一的区域，四个Grid Point对应的热力图由完整特征的不同区域生成，而不是所有的关键点共享一个相同的特征表达区域；

3.根据权利要求1所述的一种基于任意四边形回归的目标检测与精确定位方法，其特征在于：所述步骤1的基于多重注意力机制特征交互融合的具体过程如下：

将特征F_d按照通道平均分成M组，与第i个Grid Point对应的特征图记为F_di，与源点集合S_i中的第j个点对应的特征图记为F_dj，i＝1,2,…,M，M为Grid Point点数，j＝1,2,…,K_i，K_i为源点集合S_i中包含的源点个数；

然后，将特征图F_dj通过卷积层，得到对应的新的待融合特征图，记为T_d:j→i(F_dj)；接着，将特征图F_di与融合的特征图T_d:j→i(F_dj)按下式进行相加融合处理，i＝1,2,…,M，得到融合后的特征图F′_di：

其中，T′_j→i(F′_dj)表示特征图F′_dj通过卷积层得到的新的二级待融合特征图，卷积层结构与前面得到特征图T_d:j→i(F_dj)中的卷积层结构相同，i＝1,2,…,M，j＝1,2,…,K_i；

对于二次融合得到的多级特征{F_di,F′_dj,F″_di}，每级特征分别表示为一个四维张量F∈R^L×H×W×c，其中L表示特征的层数，W、H分别是特征的高度、宽度，C是通道数；定义S＝H×W，得到一个L×S×C的三维张量，应用注意力机制从特征层级、空间、任务三个维度进行学习，使用三个连续的注意力：

W(F)＝π_C(π_S(π_L(F)·F)·F)·F

包含三种感知注意力的模块串联堆叠构成一个完整的注意力模块，将多级特征{F_di,F′_dj,F″_di}通过统一的注意力机制，融合得到用于预测四个顶点坐标的热力图；再将融合输出的特征图输入到多层反卷积层，输出最终的用于提取关键点坐标的热力图。

4.根据权利要求1所述的一种基于任意四边形回归的目标检测与精确定位方法，其特征在于：所述步骤1的多任务多阶段的混合级联结构与分支间信息交互的具体过程如下：以多任务方式将边框回归和Grid Point预测组合在一起，抛弃平行结构交替进行，每个阶段先执行框回归分支，再将回归过的框交由Grid Head来预测GridPoint；同时，在相邻阶段的Grid Head之间增加一条连接，前一个阶段的特征G_i的特征经过卷积做特征嵌入，然后输入到后一个阶段G_i+1，G_i+1既能得到原始的特征，得到上一个阶段的特征，在每个阶段整合级联和多任务来处理来改善信息流。

5.根据权利要求1所述的一种基于任意四边形回归的目标检测与精确定位方法，其特征在于：所述步骤2的热力图转换为顶点坐标的具体过程如下：

将热力图坐标映射回原图按下式进行计算：

其中，(I_x,I_y)表示待检测目标在图像中的顶点位置坐标，(P_x,P_y)表示RPN模块生成的包围框的顶点位置坐标，(H_x,H_y)表示最终预测的点在特征热力图中的位置，(w_p,h_p)表示RPN模型生成的包围框的宽度和高度，(w_o,h_o)表示热力图的宽度和高度。

6.根据权利要求1所述的一种基于任意四边形回归的目标检测与精确定位方法，其特征在于：所述步骤3的网络模型训练的具体过程如下：

网络的损失函数按下式进行计算：

Loss＝L_cls+L_reg

其中，Loss表示网络的总损失，L_cls表示RPN模块分类损失与分类回归检测头中分类损失之和，L_reg表示RPN模块位置回归损失、检测头中框回归损失与Grid Head中关键点回归损失之和；分类损失、RPN模块位置回归损失以及框回归损失与Faster RCNN中的损失一致；关键点回归损失L_grid为Grid Head中热力图与标签图的交叉熵损失，按下式计算得到：

L_grid＝L_grid_未融合+L_{grid已融合}

其中，M为Grid Point点数，N为热力图的像素个数，t_k,l表示第l个Grid Point对应的最终融合的特征热力图中第k个像素的值，t′_k,l表示第l个Grid Point对应的未融合的特征热力图中第k个像素的值，t_k,l和t′_k,l取值范围0到1，

表示第l个Grid Point对应的未融合的特征热力图所对应的标签图中第k个像素的值，取值范围0和1，像素为1是表示对应的是预测Grid Point区域，像素为0时表示对应的不是预测Grid Point区域。