CN112287977B

CN112287977B - 一种基于边界框关键点距离的目标检测方法

Info

Publication number: CN112287977B
Application number: CN202011067602.0A
Authority: CN
Inventors: 涂志刚; 汤佳欣
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-10-06
Filing date: 2020-10-06
Publication date: 2024-02-09
Anticipated expiration: 2040-10-06
Also published as: CN112287977A

Abstract

本发明公开了一种基于边界框关键点距离的目标检测方法。在计算机视觉领域目标检测的研究中，正负样本分类和边界框回归损失是重中之重，关乎了目标检测内容物的定位精度和识别精度。目前目标检测方法中基于交并比的正负样本分类和框回归损失的研究虽然卓有成效，但仍然面临着诸多挑战。因此，本发明基于边界框关键点之间的距离发明了关键点交并比定义方法，针对正负样本分类不准确问题，该方法更加准确的描述边界框之间的差距。针对目前回归损失计算效率低，准确度差等问题，依据关键点交并比，设计一个新的回归损失函数。本发明所公开的方法能适用于各种类型的目标检测网络，对目标检测框的定位框取准确度和检测精度都有一定程度的提高。

Description

一种基于边界框关键点距离的目标检测方法

技术领域

本发明属于计算机视觉目标检测技术领域，特别是涉及一种基于边界框关键点距离的目标检测方法。

背景技术

目标检测是计算机视觉技术中一个重要的研究与应用领域。目标检测技术利用图像作为最主要的视觉线索之一，被广泛地应用于图像以及视频内容物识别领域的诸多视觉任务中。开发高精度的、可实时检测的目标检测算法成为图像及视频分析领域的一个重要突破点。当前，运用真实框作为训练目标检测模型的基准，将生成的锚框同真实框之间的大小与距离差距用交并比表示成数值，并对量化后的交并比进行排序，从而将诸多预测框分类成为正负样本，以供后续更加精确的得出最接近真实框的预测框。在这个过程中，交并比的作用十分突出，不同定义方式的交并比对正负样本的分类以及边界框回归的准确性影响重大。

目前主流的交并比定义方式根据其实现的方式进行区分，可以概括为以下几种主要类型：

交并比函数(IOU)。交并比函数就是计算两个边界框交集和并集之比。在计算机视觉目标检测任务中，一般约定0.5为交并比的额定阈值，用来判断预测的边界框是否正确。当交并比大于等于0.5时，就说预测框对目标物的定位检测正确；如果预测框和真实框完美重叠，那么交并比就是1，因为此时交集就等于并集。所以交并比是衡量定位精确度的一种方式，只需要统计算法正确检测和定位目标内容物的次数，就可以用这样的定义判断目标定位是否准确。将交并比作为损失函数引入训练过程，可以更加准确的挑选出与真实框更接近的预测框，从而提高目标检测的精度。

广义交并比(GIOU)。在实际使用的过程中，交并比在优化框回归上存在一些缺陷。在轴对称的情况下，交并比可以直接当做回归损失，然而，当边界框不相交(即交并比的分子——交集为0)时，交并比的数量值恒为0，无法发挥度量的作用。因此广义交并比在交并比的基础上进行了新的定义，即：广义交并比就是在交并比的基础上添加一个惩罚项。这个惩罚项带来的作用是当交并比失效的时候，惩罚项可以很好的起到辅助度量的作用，使得广义交并比在整体上是具有度量价值和优化框回归的作用的。广义交并比的惩罚项是先找到两个边界框的最大覆盖框，用最大覆盖框与两框不相交的部分的面积作为分子，最大覆盖框面积作为分母，比值得到该惩罚项。

距离交并比(DIOU)。关键点交并比和广义交并比一样，都是在交并比(IOU)的基础上添加一个惩罚项，不同之处在于惩罚项的作用形式不同。由上述可知，广义交并比仍然通过边界框相交面积来定义交并比从而得到一个分类标准，而距离交并比首次提出使用中心点距离和两个边界框的最大覆盖矩形的对角线之比作为惩罚项，用距离的优化使得边界框回归的速度得到了极大的提高。同时还将边界框的宽高比也考虑存在内，设置了由两个超参数之积组成的二级惩罚项，使得预测框从位置，宽高比，相交区域三个方面同时向真实框靠近，能够得到更加精确的位置预测模型。

交并比的定义方式是目标检测中位置精确度的实现基础。交并比的定义对正负样本分类的作用最为关键，但现存的三种交并比定义方式都基于最原始的交并比进行拼叠而成，在实际运用中还是最原始的更易于被接受。其原因在于，上述方法均存在不少缺陷，但最原始的交并比相对较为简便：(1)普通交并比在两个边界框不相交的时候就会失去度量的作用，在模型训练过程中失效，造成框回归无法进一步优化的缺陷。(2)广义交并比仅仅解决了不相交边界框回归失效，但是加入了更多的回归步骤，使得模型计算量增大且收敛很慢，带来的模型精度提升也并不明显。(3)距离交并比首先使用中心点作为回归基准解决了广义交并比模型收敛慢的缺陷，但是距离交并比本身经验性的设置了两个超参数，降低了模型的泛化能力，且更改了梯度下降参数，在有些情况下会带来较大的误差。

发明内容

针对现有交并比所存在的缺点，采用了本发明基于边界框关键点之间的距离提供了一种新的交并比定义方法运用于正负样本检测和回归损失函数，专门用于解决当前存在的问题。

针对正负样本分类不准确问题，本发明设计了新的交并比定义，更加准确的描述边界框之间的差距，对正负样本分类的数值量化参考十分有效。

针对目前回归损失计算效率低，准确度差等问题，本发明将新设计的更加有效的交并比作为基础，设计出一个新的回归损失，将目标检测准确度影响因素赋予重要的权重，可以使目标检测模型的精度得到很大的提高。

本发明方法能有效的处理了现存交并比下模型收敛速度慢，精确度不高的问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于边界框关键点之间的距离而设计的关键点交并比定义方法。本方法用于深度学习神经网络训练过程，多数情况下用于目标检测网络的训练过程。

本发明提出了一种基于边界框关键点距离的目标检测方法，其特征在于，包括以下步骤：

步骤1：对原始图像通过人工标记检测目标物真实框得到标注完备的目标检测数据集；

步骤2：构建目标检测网络；

步骤3：将标注完备的目标检测数据集样本图像通过目标检测网络预测，得到标注完备的目标检测数据集样本图像中目标检测物体的预测框；

步骤4：利用标注完备的目标检测数据集样本图像中真实框的顶点坐标与预测框的顶点坐标构建最小覆盖矩形的横坐标最大值以及最小值、构建最小覆盖矩形的纵坐标最大值以及最小值，进一步得到最小覆盖矩形的顶点坐标；

步骤5：依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离，进一步计算关键点交并比；

步骤6：结合关键点交并比以及样本阈值，将目标检测数据集中样本图像划分为正样本或负样本，进一步构建目标检测网络损失函数模型，结合正样本、负样本训练，得到优化后目标检测网络。

作为优选，步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为：

A_k＝(a_k,x,a_k,y),B_k＝(b_k,x,b_k,y),C_k＝(c_k,x,c_k,y),D_k＝(d_k,x,d_k,y)；

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，(a_k,x,a_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标，(b_k,x,b_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标，(c_k,x,c_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标，(d_k,x,d_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标；

步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标为：

H_k＝(h_k,x,h_k,y)

h_k,x＝|a_k,x-d_k,x|/2

h_k,y＝|a_k,y-b_k,x|/2

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,(h_k,x,h_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标；

步骤1所述标注完备的目标检测数据集为：

train＝{data₁,data₂,...,data_L}

其中，L为标注完备的目标检测数据集中样本图像的数量，data_k为标注完备的目标检测数据集中第k个样本图像，k∈[1,L]，data_k(i,j)为标注完备的目标检测数据集中第k个样本图像中第i行第j列的像素值，i∈[1,M]，j∈[1,N]，M为样本图像中行的数量，N为样本图像中列的数量；

步骤1所述每个样本图像真实框内目标类别为：type_k；

type_k为标注完备的目标检测数据集中第k个样本图像检测框内目标类别，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量；

步骤1所述神经网络训练数据集为：

{data_k,type_k},k∈[1,L]

作为优选，步骤2所述目标检测网络为SSD目标检测网络；

所述SSD目标检测网络包括：基础网络层、特征提取层、分类检测网络层依次级联构成；

所述基础网络层由第一区块、第二区块、...、第K区块依次级联构成；K＝5；

所述特征提取层由第K+1区块、第K+2区块、...、第K+M区块依次级联构成；M＝2；

所述分类检测网络层由第K+M+1区块、第K+M+2区块、...、第K+M+N区块依次级联构成；N＝4；

所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N]；

所述第u个区块中卷积层的数量为L_u,u∈[1,K+M+N]，v∈[1,L_u]；

所述第u个区块中待寻优的权重向量为w_u,u∈[1,K+M+N]；

所述第u个区块中待寻优的偏执向量为b_u,u∈[1,K+M+N]；

第u个区块中第v(v∈[1,L_u])个卷积层即为一个最小的神经网络单元，令该卷积层的卷积核参数为n_u,v*n_u,v*m_u,v,则该卷积层公式可表达为：

conv_u,v＝Conv(n_u,v*n_u,v*m_u,v,n_u,v-1*n_u,v-1*m_u,v-1),u∈[1,K+M+N]，v∈[1,L_u]

其中，conv_u,v表示第u个区块中第v层卷积的计算，conv表示卷积计算，n表示卷积核大小，通常由卷积层深度加深而逐渐对半缩小，m表示通道数目；

所述池化层利用一个p*q的矩阵窗口在张量上进行扫描，得到张量上对应格子的值为G[h,g]，将每个矩阵中的通过池化值表示张量上整个p*q个像素的值；

所述池化层的公式定义为：

其中，avgpool_u,v表示在第u个区块的该池化操作，h表示p*q的矩阵窗口在图片张量上对应的像素窗口的行数，g表示p*q的矩阵窗口在图片张量上对应的像素窗口的列数；

作为优选，步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框顶点坐标依次表示为：

A_k’＝(a’_k,x,a’_k,y),B_k’＝(b’_k,x,b’_k,y),C_k’＝(c’_k,x,c’_k,y),D_k’＝(d’_k,x,d’_k,y)；

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，(a’_k,x,a’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标，(b’_k,x,b’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标，(c’_k,x,c’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标，(d’_k,x,d’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标；

步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框的中心点坐标为：

H_k’＝(h’_k,x,h’_k,y)

h’_k,x＝|a’_k,x-d’_k,x|/2

h’_k,y＝|a’_k,y–b’_k,y|/2

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,(h’_k,x,h’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标；

作为优选，步骤4中所述最小覆盖矩形的横坐标最大值为：

x_k,max＝max{a_k,x，d_k,x，a’_k,x，d’_k,y}

步骤4中所述最小覆盖矩形的横坐标最小值为：

x_k,min＝min{a_k,x，d_k,x，a’_k,x，d’_k,y}

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，x_k,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值，x_k,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值，(a_k,x,a_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标，(a’_k,x,a’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标，(d_k,x,d_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标，(d’_k,x,d’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标；

步骤4中所述最小覆盖矩形的纵坐标最大值为：

y_k,max＝max{a_k,y，b_k,y，a’_k,y，b’_k,y}

步骤4中所述最小覆盖矩形的纵坐标最小值为：

y_k,min＝min{a_k,y，b_k,y，a’_k,y，b’_k,y}

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，y_k,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值，y_k,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值，(a_k,x,a_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标，(a’_k,x,a’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标，(b_k,x,b_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标，(b’_k,x,b’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标；

步骤4所述最小覆盖矩形四个顶点的顶点坐标表示为：

P_k,1＝(x_k,min,y_k,max)，P_k,2＝(x_k,min,y_k,min),P_k,3＝(x_k,max,y_k,min),P_k,4＝(x_k,max,y_k,max)

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，(x_k,min,y_k,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左上角顶点坐标，(x_k,min,y_k,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右上角顶点坐标，(x_k,max,y_k,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左下角顶点坐标，(x_k,max,y_k,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右下角顶点坐标；

作为优选，步骤5所述计算出预测框与真实框的中心点欧式平方距离为：

h_k＝(h_k,x-h’_k,x)²+(h_k,y-h’_k,y)²

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,(h_k,x,h_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标,(h’_k,x,h’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标；

步骤5所述计算预测框与真实框对应顶点的欧式平方距离为：

a_k＝(a_k,x-a’_k,x)²+(a_k,y-a’_k,y)²,

b_k＝(b_k,x-b’_k,x)²+(b_k,y-b’_k,y)²

c_k＝(c_k,x-c’_k,x)²+(c_k,y-c’_k,y)²

d_k＝(d_k,x-d’_k,x)²+(d_k,y-d’_k,y)²

其中，(a_k,x,a_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标，(b_k,x,b_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标，(c_k,x,c_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标，(d_k,x,d_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标，(a’_k,x,a’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标，(b’_k,x,b’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标，(c’_k,x,c’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标，(d’_k,x,d’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标；

步骤5所述计算最小覆盖矩形的对角线长度的欧式平方距离为：

e_k＝(x_k,max-x_k,min)²+(y_k,mmax-y_k,min)²

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,e_k为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的对角线长度的欧式平方距离，x_k,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值，x_k,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值，y_k,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值，y_k,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值；

步骤5所述进一步计算关键点交并比为：

a_k、b_k、c_k、d_k中任意选择三个顶点的欧式平方距离；

选择a_k、b_k、c_k三个顶点的欧式平方距离；

所述关键点交并比为：

Piou_k＝(a_k+b_k+c_k+h_k)/4e_k

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,Piou_k为标注完备的目标检测数据集中第k个样本图像中关键点交并比；

作为优选，步骤6所述样本阈值为β；

步骤6所述将目标检测数据集中样本图像划分为正样本或负样本为：

若Piou_k大于β则标注完备的目标检测数据集中第k个样本图像即data_k为正样本,表示为data_k,TP；

否则标注完备的目标检测数据集中第k个样本图像即data_k为负样本,表示为data_k,FP；

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量；

步骤6所述目标检测网络损失函数模型为：

其中，α为损失函数模型权重，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量；

步骤6所述结合正样本、负样本训练为：

目标检测网络损失函数模型最小化为优化目标，通过梯度下降法进行寻优；

所述梯度下降法迭代寻优过程中：

若目标检测网络判断data_k为正样本即data_TP,k时，通过梯度下降法将损失函数朝着减小的方向调整，同时更新权重即w_i和偏置即b_i，使朝着对检测出正样本——即目标物体更敏感的的趋势调整；

若目标检测网络判断data_k为负样本即data_FP,k时，同样通过梯度下降法，使得损失函数朝着减小的方向学习调整，将权重即w_i和偏置即b_i更新成对判定出非目标物更敏感的趋势调整；

步骤6所述优化后目标检测网络权重更新为：

将分类所得的正样本、负样本用于目标检测网络训练；

训练优化后第u个区块的权重向量为w_u*,u∈[1,K+M+N]；

训练优化后第u个区块的偏执向量为b_u*,u∈[1,K+M+N]；

K+M+N为目标检测网络中区块的数量。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

使用面广。新设计的距离关键点交并比可以使用到任意需要交并比来进行正负样本分类，或者需要用到回归损失的地方。用来代替原有的交并比在目标检测领域所适用的各种场景。

效率高。该关键点交并比的定义相较于现存的各种基于面积的交并比定义而言，直接用距离表达了预测框与真实框的位置差距与形态差距，将以往的二维面积层面的对比计算简化成为一维距离的对比计算，极大的缩小了计算量，使得模型在训练过程中计算量少，计算速度加快，运算效率高，模型收敛快。

精度高。新设计的关键点交并比更加注重目标检测过程中检测物内容大小对距离的要求，运用权重的设置对距离因素进行损失函数的比重调整，得到的预测位置精确度更高。对正负样本的准确分类也使得模型能够在训练中得到更好的性能，更准确的检测精度。

由此，本发明提供了一种基于关键点距离的新的交并比算法，由该交并比应用得到的正负样本分类方法和损失回归函数的计算方法得到的训练模型，训练速度快，收敛快，模型检测精度高。可有效处理目标检测模型训练过程中的正负样本分类、模型回归速度、检测精度三大难点问题。

附图说明

图1：是本发明的方法流程图。

图2：是关键点交并比的计算流程图。

图3：是正负样本分类的应用流程图。

图4：是损失函数的应用流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。对于需要实际情况分析的参数，我们在上文已注明参数设定方法在此不做赘述。

本发明提出了一种基于边界框关键点距离的目标检测方法，其特征在于训练，包括以下步骤：

步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为：

H_k＝(h_k,x,h_k,y)

h_k,x＝|a_k,x-d_k,x|/2

h_k,y＝|a_k,y-b_k,x|/2

步骤1所述标注完备的目标检测数据集为：

train＝{data₁,data₂,...,data_L}

步骤1所述每个样本图像真实框内目标类别为：type_k；

步骤1所述神经网络训练数据集为：

{data_k,type_k},k∈[1,L]

步骤2：构建目标检测网络；

步骤2所述目标检测网络为SSD目标检测网络；

所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N]；

所述第u个区块中卷积层的数量为L_u,u∈[1,K+M+N]，v∈[1,L_u]；

所述第u个区块中待寻优的权重向量为w_u,u∈[1,K+M+N]；

所述第u个区块中待寻优的偏执向量为b_u,u∈[1,K+M+N]；

所述池化层的公式定义为：

步骤3：如图1(定义阐述图)所示，获取预测框与真实框的各顶点与中心点坐标信息。即：将标注完备的目标检测数据集样本图像通过目标检测网络预测，得到标注完备的目标检测数据集样本图像中目标检测物体的预测框；

步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框顶点坐标依次表示为：

H_k’＝(h’_k,x,h’_k,y)

h’_k,x＝|a’_k,x-d’_k,x|/2

h’_k,y＝|a’_k,y–b’_k,y|/2

步骤4中所述最小覆盖矩形的横坐标最大值为：

x_k,max＝max{a_k,x，d_k,x，a’_k,x，d’_k,y}

步骤4中所述最小覆盖矩形的横坐标最小值为：

x_k,min＝min{a_k,x，d_k,x，a’_k,x，d’_k,y}

步骤4中所述最小覆盖矩形的纵坐标最大值为：

y_k,max＝max{a_k,y，b_k,y，a’_k,y，b’_k,y}

步骤4中所述最小覆盖矩形的纵坐标最小值为：

y_k,min＝min{a_k,y，b_k,y，a’_k,y，b’_k,y}

步骤4所述最小覆盖矩形四个顶点的顶点坐标表示为：

步骤5：如图2(关键点交并比及回归损失函数的计算流程图)所示，依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离，进一步计算关键点交并比；

步骤5所述计算出预测框与真实框的中心点欧式平方距离为：

h_k＝(h_k,x-h’_k,x)²+(h_k,y-h’_k,y)²

步骤5所述计算预测框与真实框对应顶点的欧式平方距离为：

a_k＝(a_k,x-a’_k,x)²+(a_k,y-a’_k,y)²,

b_k＝(b_k,x-b’_k,x)²+(b_k,y-b’_k,y)²

c_k＝(c_k,x-c’_k,x)²+(c_k,y-c’_k,y)²

d_k＝(d_k,x-d’_k,x)²+(d_k,y-d’_k,y)²

e_k＝(x_k,max-x_k,min)²+(y_k,mmax-y_k,min)²

步骤5所述进一步计算关键点交并比为：

a_k、b_k、c_k、d_k中任意选择三个顶点的欧式平方距离；

选择a_k、b_k、c_k三个顶点的欧式平方距离；

所述关键点交并比为：

Piou_k＝(a_k+b_k+c_k+h_k)/4e_k

步骤6：结合关键点交并比以及样本阈值，将目标检测数据集中样本图像划分为正样本或负样本，进一步构建目标检测网络损失函数模型，结合正样本、负样本训练，得到优化后目标检测网络；正负样本分类的操作应用流程见说明书附图3所示。

步骤6所述样本阈值为β；

如说明书附图4损失函数的操作应用流程示意所示，步骤6所述目标检测网络损失函数模型为：

步骤6所述结合正样本、负样本训练为：

所述梯度下降法迭代寻优过程中：

步骤6所述优化后目标检测网络权重更新为：

将分类所得的正样本、负样本用于目标检测网络训练；

训练优化后第u个区块的权重向量为w_u*,u∈[1,K+M+N]；

训练优化后第u个区块的偏执向量为b_u*,u∈[1,K+M+N]；

K+M+N为目标检测网络中区块的数量。

α需要根据实际任务进行训练实验得出最佳值，根据国际SPIE定义，在像素为N*N的图像中，小于整个图像的0.12％的图像目标即为小目标；

因此当目标检测物体相较于整幅图像的背景区域像素占比较大即单个物体所占像素大于等于整幅图像的0.12％时，权重的选取可以适当定为10-100之间的数值；当目标检测物体相较于整幅图像的背景区域较小即单个物体所占像素小于整幅图像的0.12％时，权重可定为1000—100000之间；

所述梯度下降法的主要目的是通过迭代找到目标函数的最小值，或者收敛到最小值；在多变量函数中，函数的梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向；

需要到达函数的最低点，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了这个方向；梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，所以只要沿着梯度的进行迭代计算，下降优化，就能走到局部的最低点，得到损失函数的最小值，此时模型收敛；

以正样本、负样本为指导，随着损失函数的下降，可以准确的表达出正样本与负样本的差异性，使得检测模型对目标检测物体更具备敏感性，从而更好的识别正样本即目标物，进而提高检测器的检测精度。

应当理解的是，本申请书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是

对本申请专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本申请权利要求所保护的范围情况下，还可以做出替换或变形，均落入本申请的保护范围之内，本申请的请求保护范围应以所附权利要求为准。

Claims

1.一种基于边界框关键点距离的目标检测方法，其特征在于，包括以下步骤：

步骤2：构建目标检测网络；

步骤6：结合关键点交并比以及样本阈值，将目标检测数据集中样本图像划分为正样本或负样本，进一步构建目标检测网络损失函数模型，结合正样本、负样本训练，得到优化后目标检测网络；

步骤5所述计算出预测框与真实框的中心点欧式平方距离为：

h_k＝(h_k,x-h’_k,x)²+(h_k,y-h’_k,y)²

步骤5所述计算预测框与真实框对应顶点的欧式平方距离为：

a_k＝(a_k,x-a’_k,x)²+(a_k,y-a’_k,y)²,

b_k＝(b_k,x-b’_k,x)²+(b_k,y-b’_k,y)²

c_k＝(c_k,x-c’_k,x)²+(c_k,y-c’_k,y)²

d_k＝(d_k,x-d’_k,x)²+(d_k,y-d’_k,y)²

e_k＝(x_k,max-x_k,min)²+(y_k,mmax-y_k,min)²

步骤5所述进一步计算关键点交并比为：

a_k、b_k、c_k、d_k中任意选择三个顶点的欧式平方距离；

选择a_k、b_k、c_k三个顶点的欧式平方距离；

所述关键点交并比为：

Piou_k＝(a_k+b_k+c_k+h_k)/4e_k

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,Piou_k为标注完备的目标检测数据集中第k个样本图像中关键点交并比。

2.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：

H_k＝(h_k,x,h_k,y)

h_k,x＝|a_k,x-d_k,x|/2

h_k,y＝|a_k,y-b_k,x|/2

步骤1所述标注完备的目标检测数据集为：

train＝{data₁,data₂,…,data_L}

步骤1所述每个样本图像真实框内目标类别为：type_k；

步骤1所述目标检测训练数据集为：

{data_k,type_k},k∈[1,L]。

3.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：

步骤2所述目标检测网络为SSD目标检测网络；

所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N]；

所述第u个区块中卷积层的数量为L_u,u∈[1,K+M+N]，v∈[1,L_u]；

所述第u个区块中待寻优的权重向量为w_u,u∈[1,K+M+N]；

所述第u个区块中待寻优的偏执向量为b_u,u∈[1,K+M+N]；

第u个区块中第v个卷积层即为一个最小的神经网络单元，令该卷积层的卷积核参数为n_u,v*n_u,v*m_u,v,则该卷积层公式可表达为：

所述池化层的公式定义为：

其中，avgpool_u,v表示在第u个区块的该池化操作，h表示p*q的矩阵窗口在图片张量上对应的像素窗口的行数，g表示p*q的矩阵窗口在图片张量上对应的像素窗口的列数。

4.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：

H_k’＝(h’_k,x,h’_k,y)

h’_k,x＝|a’_k,x-d’_k,x|/2

h’_k,y＝|a’_k,y–b’_k,y|/2

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量,(h’_k,x,h’_k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标。

5.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：

步骤4中所述最小覆盖矩形的横坐标最大值为：

x_k,max＝max{a_k,x，d_k,x，a’_k,x，d’_k,y}

步骤4中所述最小覆盖矩形的横坐标最小值为：

x_k,min＝min{a_k,x，d_k,x，a’_k,x，d’_k,y}

步骤4中所述最小覆盖矩形的纵坐标最大值为：

y_k,max＝max{a_k,y，b_k,y，a’_k,y，b’_k,y}

步骤4中所述最小覆盖矩形的纵坐标最小值为：

y_k,min＝min{a_k,y，b_k,y，a’_k,y，b’_k,y}

步骤4所述最小覆盖矩形四个顶点的顶点坐标表示为：

其中，k∈[1,L]，L为标注完备的目标检测数据集中样本图像的数量，(x_k,min,y_k,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左上角顶点坐标，(x_k,min,y_k,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右上角顶点坐标，(x_k,max,y_k,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左下角顶点坐标，(x_k,max,y_k,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右下角顶点坐标。

6.根据权利要求1所述的基于边界框关键点距离的目标检测方法，其特征在于：

步骤6所述样本阈值为β；

步骤6所述目标检测网络损失函数模型为：

步骤6所述结合正样本、负样本训练为：

所述梯度下降法迭代寻优过程中：

步骤6所述优化后目标检测网络权重更新为：

将分类所得的正样本、负样本用于目标检测网络训练；

训练优化后第u个区块的权重向量为w_u*,u∈[1,K+M+N]；

训练优化后第u个区块的偏执向量为b_u*,u∈[1,K+M+N]；

K+M+N为目标检测网络中区块的数量。