CN112287977B - 一种基于边界框关键点距离的目标检测方法 - Google Patents
一种基于边界框关键点距离的目标检测方法 Download PDFInfo
- Publication number
- CN112287977B CN112287977B CN202011067602.0A CN202011067602A CN112287977B CN 112287977 B CN112287977 B CN 112287977B CN 202011067602 A CN202011067602 A CN 202011067602A CN 112287977 B CN112287977 B CN 112287977B
- Authority
- CN
- China
- Prior art keywords
- target detection
- complete
- data set
- sample image
- detection data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 393
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000002372 labelling Methods 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 15
- 238000011478 gradient descent method Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000011160 research Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 30
- 230000008901 benefit Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于边界框关键点距离的目标检测方法。在计算机视觉领域目标检测的研究中,正负样本分类和边界框回归损失是重中之重,关乎了目标检测内容物的定位精度和识别精度。目前目标检测方法中基于交并比的正负样本分类和框回归损失的研究虽然卓有成效,但仍然面临着诸多挑战。因此,本发明基于边界框关键点之间的距离发明了关键点交并比定义方法,针对正负样本分类不准确问题,该方法更加准确的描述边界框之间的差距。针对目前回归损失计算效率低,准确度差等问题,依据关键点交并比,设计一个新的回归损失函数。本发明所公开的方法能适用于各种类型的目标检测网络,对目标检测框的定位框取准确度和检测精度都有一定程度的提高。
Description
技术领域
本发明属于计算机视觉目标检测技术领域,特别是涉及一种基于边界框关键点距离的目标检测方法。
背景技术
目标检测是计算机视觉技术中一个重要的研究与应用领域。目标检测技术利用图像作为最主要的视觉线索之一,被广泛地应用于图像以及视频内容物识别领域的诸多视觉任务中。开发高精度的、可实时检测的目标检测算法成为图像及视频分析领域的一个重要突破点。当前,运用真实框作为训练目标检测模型的基准,将生成的锚框同真实框之间的大小与距离差距用交并比表示成数值,并对量化后的交并比进行排序,从而将诸多预测框分类成为正负样本,以供后续更加精确的得出最接近真实框的预测框。在这个过程中,交并比的作用十分突出,不同定义方式的交并比对正负样本的分类以及边界框回归的准确性影响重大。
目前主流的交并比定义方式根据其实现的方式进行区分,可以概括为以下几种主要类型:
交并比函数(IOU)。交并比函数就是计算两个边界框交集和并集之比。在计算机视觉目标检测任务中,一般约定0.5为交并比的额定阈值,用来判断预测的边界框是否正确。当交并比大于等于0.5时,就说预测框对目标物的定位检测正确;如果预测框和真实框完美重叠,那么交并比就是1,因为此时交集就等于并集。所以交并比是衡量定位精确度的一种方式,只需要统计算法正确检测和定位目标内容物的次数,就可以用这样的定义判断目标定位是否准确。将交并比作为损失函数引入训练过程,可以更加准确的挑选出与真实框更接近的预测框,从而提高目标检测的精度。
广义交并比(GIOU)。在实际使用的过程中,交并比在优化框回归上存在一些缺陷。在轴对称的情况下,交并比可以直接当做回归损失,然而,当边界框不相交(即交并比的分子——交集为0)时,交并比的数量值恒为0,无法发挥度量的作用。因此广义交并比在交并比的基础上进行了新的定义,即:广义交并比就是在交并比的基础上添加一个惩罚项。这个惩罚项带来的作用是当交并比失效的时候,惩罚项可以很好的起到辅助度量的作用,使得广义交并比在整体上是具有度量价值和优化框回归的作用的。广义交并比的惩罚项是先找到两个边界框的最大覆盖框,用最大覆盖框与两框不相交的部分的面积作为分子,最大覆盖框面积作为分母,比值得到该惩罚项。
距离交并比(DIOU)。关键点交并比和广义交并比一样,都是在交并比(IOU)的基础上添加一个惩罚项,不同之处在于惩罚项的作用形式不同。由上述可知,广义交并比仍然通过边界框相交面积来定义交并比从而得到一个分类标准,而距离交并比首次提出使用中心点距离和两个边界框的最大覆盖矩形的对角线之比作为惩罚项,用距离的优化使得边界框回归的速度得到了极大的提高。同时还将边界框的宽高比也考虑存在内,设置了由两个超参数之积组成的二级惩罚项,使得预测框从位置,宽高比,相交区域三个方面同时向真实框靠近,能够得到更加精确的位置预测模型。
交并比的定义方式是目标检测中位置精确度的实现基础。交并比的定义对正负样本分类的作用最为关键,但现存的三种交并比定义方式都基于最原始的交并比进行拼叠而成,在实际运用中还是最原始的更易于被接受。其原因在于,上述方法均存在不少缺陷,但最原始的交并比相对较为简便:(1)普通交并比在两个边界框不相交的时候就会失去度量的作用,在模型训练过程中失效,造成框回归无法进一步优化的缺陷。(2)广义交并比仅仅解决了不相交边界框回归失效,但是加入了更多的回归步骤,使得模型计算量增大且收敛很慢,带来的模型精度提升也并不明显。(3)距离交并比首先使用中心点作为回归基准解决了广义交并比模型收敛慢的缺陷,但是距离交并比本身经验性的设置了两个超参数,降低了模型的泛化能力,且更改了梯度下降参数,在有些情况下会带来较大的误差。
发明内容
针对现有交并比所存在的缺点,采用了本发明基于边界框关键点之间的距离提供了一种新的交并比定义方法运用于正负样本检测和回归损失函数,专门用于解决当前存在的问题。
针对正负样本分类不准确问题,本发明设计了新的交并比定义,更加准确的描述边界框之间的差距,对正负样本分类的数值量化参考十分有效。
针对目前回归损失计算效率低,准确度差等问题,本发明将新设计的更加有效的交并比作为基础,设计出一个新的回归损失,将目标检测准确度影响因素赋予重要的权重,可以使目标检测模型的精度得到很大的提高。
本发明方法能有效的处理了现存交并比下模型收敛速度慢,精确度不高的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于边界框关键点之间的距离而设计的关键点交并比定义方法。本方法用于深度学习神经网络训练过程,多数情况下用于目标检测网络的训练过程。
本发明提出了一种基于边界框关键点距离的目标检测方法,其特征在于,包括以下步骤:
步骤1:对原始图像通过人工标记检测目标物真实框得到标注完备的目标检测数据集;
步骤2:构建目标检测网络;
步骤3:将标注完备的目标检测数据集样本图像通过目标检测网络预测,得到标注完备的目标检测数据集样本图像中目标检测物体的预测框;
步骤4:利用标注完备的目标检测数据集样本图像中真实框的顶点坐标与预测框的顶点坐标构建最小覆盖矩形的横坐标最大值以及最小值、构建最小覆盖矩形的纵坐标最大值以及最小值,进一步得到最小覆盖矩形的顶点坐标;
步骤5:依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离,进一步计算关键点交并比;
步骤6:结合关键点交并比以及样本阈值,将目标检测数据集中样本图像划分为正样本或负样本,进一步构建目标检测网络损失函数模型,结合正样本、负样本训练,得到优化后目标检测网络。
作为优选,步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为:
Ak=(ak,x,ak,y),Bk=(bk,x,bk,y),Ck=(ck,x,ck,y),Dk=(dk,x,dk,y);
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(ck,x,ck,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标;
步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标为:
Hk=(hk,x,hk,y)
hk,x=|ak,x-dk,x|/2
hk,y=|ak,y-bk,x|/2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(hk,x,hk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标;
步骤1所述标注完备的目标检测数据集为:
train={data1,data2,...,dataL}
其中,L为标注完备的目标检测数据集中样本图像的数量,datak为标注完备的目标检测数据集中第k个样本图像,k∈[1,L],datak(i,j)为标注完备的目标检测数据集中第k个样本图像中第i行第j列的像素值,i∈[1,M],j∈[1,N],M为样本图像中行的数量,N为样本图像中列的数量;
步骤1所述每个样本图像真实框内目标类别为:typek;
typek为标注完备的目标检测数据集中第k个样本图像检测框内目标类别,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤1所述神经网络训练数据集为:
{datak,typek},k∈[1,L]
作为优选,步骤2所述目标检测网络为SSD目标检测网络;
所述SSD目标检测网络包括:基础网络层、特征提取层、分类检测网络层依次级联构成;
所述基础网络层由第一区块、第二区块、...、第K区块依次级联构成;K=5;
所述特征提取层由第K+1区块、第K+2区块、...、第K+M区块依次级联构成;M=2;
所述分类检测网络层由第K+M+1区块、第K+M+2区块、...、第K+M+N区块依次级联构成;N=4;
所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N];
所述第u个区块中卷积层的数量为Lu,u∈[1,K+M+N],v∈[1,Lu];
所述第u个区块中待寻优的权重向量为wu,u∈[1,K+M+N];
所述第u个区块中待寻优的偏执向量为bu,u∈[1,K+M+N];
第u个区块中第v(v∈[1,Lu])个卷积层即为一个最小的神经网络单元,令该卷积层的卷积核参数为nu,v*nu,v*mu,v,则该卷积层公式可表达为:
convu,v=Conv(nu,v*nu,v*mu,v,nu,v-1*nu,v-1*mu,v-1),u∈[1,K+M+N],v∈[1,Lu]
其中,convu,v表示第u个区块中第v层卷积的计算,conv表示卷积计算,n表示卷积核大小,通常由卷积层深度加深而逐渐对半缩小,m表示通道数目;
所述池化层利用一个p*q的矩阵窗口在张量上进行扫描,得到张量上对应格子的值为G[h,g],将每个矩阵中的通过池化值表示张量上整个p*q个像素的值;
所述池化层的公式定义为:
其中,avgpoolu,v表示在第u个区块的该池化操作,h表示p*q的矩阵窗口在图片张量上对应的像素窗口的行数,g表示p*q的矩阵窗口在图片张量上对应的像素窗口的列数;
作为优选,步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框顶点坐标依次表示为:
Ak’=(a’k,x,a’k,y),Bk’=(b’k,x,b’k,y),Ck’=(c’k,x,c’k,y),Dk’=(d’k,x,d’k,y);
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标,(c’k,x,c’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框的中心点坐标为:
Hk’=(h’k,x,h’k,y)
h’k,x=|a’k,x-d’k,x|/2
h’k,y=|a’k,y–b’k,y|/2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(h’k,x,h’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标;
作为优选,步骤4中所述最小覆盖矩形的横坐标最大值为:
xk,max=max{ak,x,dk,x,a’k,x,d’k,y}
步骤4中所述最小覆盖矩形的横坐标最小值为:
xk,min=min{ak,x,dk,x,a’k,x,d’k,y}
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,xk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值,xk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤4中所述最小覆盖矩形的纵坐标最大值为:
yk,max=max{ak,y,bk,y,a’k,y,b’k,y}
步骤4中所述最小覆盖矩形的纵坐标最小值为:
yk,min=min{ak,y,bk,y,a’k,y,b’k,y}
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,yk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值,yk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标;
步骤4所述最小覆盖矩形四个顶点的顶点坐标表示为:
Pk,1=(xk,min,yk,max),Pk,2=(xk,min,yk,min),Pk,3=(xk,max,yk,min),Pk,4=(xk,max,yk,max)
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(xk,min,yk,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左上角顶点坐标,(xk,min,yk,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右上角顶点坐标,(xk,max,yk,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左下角顶点坐标,(xk,max,yk,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右下角顶点坐标;
作为优选,步骤5所述计算出预测框与真实框的中心点欧式平方距离为:
hk=(hk,x-h’k,x)2+(hk,y-h’k,y)2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(hk,x,hk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标,(h’k,x,h’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标;
步骤5所述计算预测框与真实框对应顶点的欧式平方距离为:
ak=(ak,x-a’k,x)2+(ak,y-a’k,y)2,
bk=(bk,x-b’k,x)2+(bk,y-b’k,y)2
ck=(ck,x-c’k,x)2+(ck,y-c’k,y)2
dk=(dk,x-d’k,x)2+(dk,y-d’k,y)2
其中,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(ck,x,ck,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标,(c’k,x,c’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤5所述计算最小覆盖矩形的对角线长度的欧式平方距离为:
ek=(xk,max-xk,min)2+(yk,mmax-yk,min)2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,ek为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的对角线长度的欧式平方距离,xk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值,xk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值,yk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值,yk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值;
步骤5所述进一步计算关键点交并比为:
ak、bk、ck、dk中任意选择三个顶点的欧式平方距离;
选择ak、bk、ck三个顶点的欧式平方距离;
所述关键点交并比为:
Piouk=(ak+bk+ck+hk)/4ek
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,Piouk为标注完备的目标检测数据集中第k个样本图像中关键点交并比;
作为优选,步骤6所述样本阈值为β;
步骤6所述将目标检测数据集中样本图像划分为正样本或负样本为:
若Piouk大于β则标注完备的目标检测数据集中第k个样本图像即datak为正样本,表示为datak,TP;
否则标注完备的目标检测数据集中第k个样本图像即datak为负样本,表示为datak,FP;
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤6所述目标检测网络损失函数模型为:
其中,α为损失函数模型权重,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤6所述结合正样本、负样本训练为:
目标检测网络损失函数模型最小化为优化目标,通过梯度下降法进行寻优;
所述梯度下降法迭代寻优过程中:
若目标检测网络判断datak为正样本即dataTP,k时,通过梯度下降法将损失函数朝着减小的方向调整,同时更新权重即wi和偏置即bi,使朝着对检测出正样本——即目标物体更敏感的的趋势调整;
若目标检测网络判断datak为负样本即dataFP,k时,同样通过梯度下降法,使得损失函数朝着减小的方向学习调整,将权重即wi和偏置即bi更新成对判定出非目标物更敏感的趋势调整;
步骤6所述优化后目标检测网络权重更新为:
将分类所得的正样本、负样本用于目标检测网络训练;
训练优化后第u个区块的权重向量为wu*,u∈[1,K+M+N];
训练优化后第u个区块的偏执向量为bu*,u∈[1,K+M+N];
K+M+N为目标检测网络中区块的数量。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
使用面广。新设计的距离关键点交并比可以使用到任意需要交并比来进行正负样本分类,或者需要用到回归损失的地方。用来代替原有的交并比在目标检测领域所适用的各种场景。
效率高。该关键点交并比的定义相较于现存的各种基于面积的交并比定义而言,直接用距离表达了预测框与真实框的位置差距与形态差距,将以往的二维面积层面的对比计算简化成为一维距离的对比计算,极大的缩小了计算量,使得模型在训练过程中计算量少,计算速度加快,运算效率高,模型收敛快。
精度高。新设计的关键点交并比更加注重目标检测过程中检测物内容大小对距离的要求,运用权重的设置对距离因素进行损失函数的比重调整,得到的预测位置精确度更高。对正负样本的准确分类也使得模型能够在训练中得到更好的性能,更准确的检测精度。
由此,本发明提供了一种基于关键点距离的新的交并比算法,由该交并比应用得到的正负样本分类方法和损失回归函数的计算方法得到的训练模型,训练速度快,收敛快,模型检测精度高。可有效处理目标检测模型训练过程中的正负样本分类、模型回归速度、检测精度三大难点问题。
附图说明
图1:是本发明的方法流程图。
图2:是关键点交并比的计算流程图。
图3:是正负样本分类的应用流程图。
图4:是损失函数的应用流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。对于需要实际情况分析的参数,我们在上文已注明参数设定方法在此不做赘述。
本发明提出了一种基于边界框关键点距离的目标检测方法,其特征在于训练,包括以下步骤:
步骤1:对原始图像通过人工标记检测目标物真实框得到标注完备的目标检测数据集;
步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为:
Ak=(ak,x,ak,y),Bk=(bk,x,bk,y),Ck=(ck,x,ck,y),Dk=(dk,x,dk,y);
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(ck,x,ck,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标;
步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标为:
Hk=(hk,x,hk,y)
hk,x=|ak,x-dk,x|/2
hk,y=|ak,y-bk,x|/2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(hk,x,hk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标;
步骤1所述标注完备的目标检测数据集为:
train={data1,data2,...,dataL}
其中,L为标注完备的目标检测数据集中样本图像的数量,datak为标注完备的目标检测数据集中第k个样本图像,k∈[1,L],datak(i,j)为标注完备的目标检测数据集中第k个样本图像中第i行第j列的像素值,i∈[1,M],j∈[1,N],M为样本图像中行的数量,N为样本图像中列的数量;
步骤1所述每个样本图像真实框内目标类别为:typek;
typek为标注完备的目标检测数据集中第k个样本图像检测框内目标类别,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤1所述神经网络训练数据集为:
{datak,typek},k∈[1,L]
步骤2:构建目标检测网络;
步骤2所述目标检测网络为SSD目标检测网络;
所述SSD目标检测网络包括:基础网络层、特征提取层、分类检测网络层依次级联构成;
所述基础网络层由第一区块、第二区块、...、第K区块依次级联构成;K=5;
所述特征提取层由第K+1区块、第K+2区块、...、第K+M区块依次级联构成;M=2;
所述分类检测网络层由第K+M+1区块、第K+M+2区块、...、第K+M+N区块依次级联构成;N=4;
所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N];
所述第u个区块中卷积层的数量为Lu,u∈[1,K+M+N],v∈[1,Lu];
所述第u个区块中待寻优的权重向量为wu,u∈[1,K+M+N];
所述第u个区块中待寻优的偏执向量为bu,u∈[1,K+M+N];
第u个区块中第v(v∈[1,Lu])个卷积层即为一个最小的神经网络单元,令该卷积层的卷积核参数为nu,v*nu,v*mu,v,则该卷积层公式可表达为:
convu,v=Conv(nu,v*nu,v*mu,v,nu,v-1*nu,v-1*mu,v-1),u∈[1,K+M+N],v∈[1,Lu]
其中,convu,v表示第u个区块中第v层卷积的计算,conv表示卷积计算,n表示卷积核大小,通常由卷积层深度加深而逐渐对半缩小,m表示通道数目;
所述池化层利用一个p*q的矩阵窗口在张量上进行扫描,得到张量上对应格子的值为G[h,g],将每个矩阵中的通过池化值表示张量上整个p*q个像素的值;
所述池化层的公式定义为:
其中,avgpoolu,v表示在第u个区块的该池化操作,h表示p*q的矩阵窗口在图片张量上对应的像素窗口的行数,g表示p*q的矩阵窗口在图片张量上对应的像素窗口的列数;
步骤3:如图1(定义阐述图)所示,获取预测框与真实框的各顶点与中心点坐标信息。即:将标注完备的目标检测数据集样本图像通过目标检测网络预测,得到标注完备的目标检测数据集样本图像中目标检测物体的预测框;
步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框顶点坐标依次表示为:
Ak’=(a’k,x,a’k,y),Bk’=(b’k,x,b’k,y),Ck’=(c’k,x,c’k,y),Dk’=(d’k,x,d’k,y);
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标,(c’k,x,c’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框的中心点坐标为:
Hk’=(h’k,x,h’k,y)
h’k,x=|a’k,x-d’k,x|/2
h’k,y=|a’k,y–b’k,y|/2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(h’k,x,h’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标;
步骤4:利用标注完备的目标检测数据集样本图像中真实框的顶点坐标与预测框的顶点坐标构建最小覆盖矩形的横坐标最大值以及最小值、构建最小覆盖矩形的纵坐标最大值以及最小值,进一步得到最小覆盖矩形的顶点坐标;
步骤4中所述最小覆盖矩形的横坐标最大值为:
xk,max=max{ak,x,dk,x,a’k,x,d’k,y}
步骤4中所述最小覆盖矩形的横坐标最小值为:
xk,min=min{ak,x,dk,x,a’k,x,d’k,y}
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,xk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值,xk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤4中所述最小覆盖矩形的纵坐标最大值为:
yk,max=max{ak,y,bk,y,a’k,y,b’k,y}
步骤4中所述最小覆盖矩形的纵坐标最小值为:
yk,min=min{ak,y,bk,y,a’k,y,b’k,y}
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,yk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值,yk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标;
步骤4所述最小覆盖矩形四个顶点的顶点坐标表示为:
Pk,1=(xk,min,yk,max),Pk,2=(xk,min,yk,min),Pk,3=(xk,max,yk,min),Pk,4=(xk,max,yk,max)
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(xk,min,yk,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左上角顶点坐标,(xk,min,yk,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右上角顶点坐标,(xk,max,yk,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左下角顶点坐标,(xk,max,yk,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右下角顶点坐标;
步骤5:如图2(关键点交并比及回归损失函数的计算流程图)所示,依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离,进一步计算关键点交并比;
步骤5所述计算出预测框与真实框的中心点欧式平方距离为:
hk=(hk,x-h’k,x)2+(hk,y-h’k,y)2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(hk,x,hk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标,(h’k,x,h’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标;
步骤5所述计算预测框与真实框对应顶点的欧式平方距离为:
ak=(ak,x-a’k,x)2+(ak,y-a’k,y)2,
bk=(bk,x-b’k,x)2+(bk,y-b’k,y)2
ck=(ck,x-c’k,x)2+(ck,y-c’k,y)2
dk=(dk,x-d’k,x)2+(dk,y-d’k,y)2
其中,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(ck,x,ck,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标,(c’k,x,c’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤5所述计算最小覆盖矩形的对角线长度的欧式平方距离为:
ek=(xk,max-xk,min)2+(yk,mmax-yk,min)2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,ek为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的对角线长度的欧式平方距离,xk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值,xk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值,yk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值,yk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值;
步骤5所述进一步计算关键点交并比为:
ak、bk、ck、dk中任意选择三个顶点的欧式平方距离;
选择ak、bk、ck三个顶点的欧式平方距离;
所述关键点交并比为:
Piouk=(ak+bk+ck+hk)/4ek
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,Piouk为标注完备的目标检测数据集中第k个样本图像中关键点交并比;
步骤6:结合关键点交并比以及样本阈值,将目标检测数据集中样本图像划分为正样本或负样本,进一步构建目标检测网络损失函数模型,结合正样本、负样本训练,得到优化后目标检测网络;正负样本分类的操作应用流程见说明书附图3所示。
步骤6所述样本阈值为β;
步骤6所述将目标检测数据集中样本图像划分为正样本或负样本为:
若Piouk大于β则标注完备的目标检测数据集中第k个样本图像即datak为正样本,表示为datak,TP;
否则标注完备的目标检测数据集中第k个样本图像即datak为负样本,表示为datak,FP;
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
如说明书附图4损失函数的操作应用流程示意所示,步骤6所述目标检测网络损失函数模型为:
其中,α为损失函数模型权重,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤6所述结合正样本、负样本训练为:
目标检测网络损失函数模型最小化为优化目标,通过梯度下降法进行寻优;
所述梯度下降法迭代寻优过程中:
若目标检测网络判断datak为正样本即dataTP,k时,通过梯度下降法将损失函数朝着减小的方向调整,同时更新权重即wi和偏置即bi,使朝着对检测出正样本——即目标物体更敏感的的趋势调整;
若目标检测网络判断datak为负样本即dataFP,k时,同样通过梯度下降法,使得损失函数朝着减小的方向学习调整,将权重即wi和偏置即bi更新成对判定出非目标物更敏感的趋势调整;
步骤6所述优化后目标检测网络权重更新为:
将分类所得的正样本、负样本用于目标检测网络训练;
训练优化后第u个区块的权重向量为wu*,u∈[1,K+M+N];
训练优化后第u个区块的偏执向量为bu*,u∈[1,K+M+N];
K+M+N为目标检测网络中区块的数量。
α需要根据实际任务进行训练实验得出最佳值,根据国际SPIE定义,在像素为N*N的图像中,小于整个图像的0.12%的图像目标即为小目标;
因此当目标检测物体相较于整幅图像的背景区域像素占比较大即单个物体所占像素大于等于整幅图像的0.12%时,权重的选取可以适当定为10-100之间的数值;当目标检测物体相较于整幅图像的背景区域较小即单个物体所占像素小于整幅图像的0.12%时,权重可定为1000—100000之间;
所述梯度下降法的主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值;在多变量函数中,函数的梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向;
需要到达函数的最低点,就需要在每一步观测到此时最陡峭的地方,梯度就恰巧告诉了这个方向;梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,所以只要沿着梯度的进行迭代计算,下降优化,就能走到局部的最低点,得到损失函数的最小值,此时模型收敛;
以正样本、负样本为指导,随着损失函数的下降,可以准确的表达出正样本与负样本的差异性,使得检测模型对目标检测物体更具备敏感性,从而更好的识别正样本即目标物,进而提高检测器的检测精度。
应当理解的是,本申请书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是
对本申请专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本申请权利要求所保护的范围情况下,还可以做出替换或变形,均落入本申请的保护范围之内,本申请的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于边界框关键点距离的目标检测方法,其特征在于,包括以下步骤:
步骤1:对原始图像通过人工标记检测目标物真实框得到标注完备的目标检测数据集;
步骤2:构建目标检测网络;
步骤3:将标注完备的目标检测数据集样本图像通过目标检测网络预测,得到标注完备的目标检测数据集样本图像中目标检测物体的预测框;
步骤4:利用标注完备的目标检测数据集样本图像中真实框的顶点坐标与预测框的顶点坐标构建最小覆盖矩形的横坐标最大值以及最小值、构建最小覆盖矩形的纵坐标最大值以及最小值,进一步得到最小覆盖矩形的顶点坐标;
步骤5:依次计算标注完备的目标检测数据集样本图像中预测框与真实框的中心点欧式平方距离、预测框与真实框对应顶点的欧式平方距离、最小覆盖矩形的对角线长度的欧式平方距离,进一步计算关键点交并比;
步骤6:结合关键点交并比以及样本阈值,将目标检测数据集中样本图像划分为正样本或负样本,进一步构建目标检测网络损失函数模型,结合正样本、负样本训练,得到优化后目标检测网络;
步骤5所述计算出预测框与真实框的中心点欧式平方距离为:
hk=(hk,x-h’k,x)2+(hk,y-h’k,y)2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(hk,x,hk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标,(h’k,x,h’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标;
步骤5所述计算预测框与真实框对应顶点的欧式平方距离为:
ak=(ak,x-a’k,x)2+(ak,y-a’k,y)2,
bk=(bk,x-b’k,x)2+(bk,y-b’k,y)2
ck=(ck,x-c’k,x)2+(ck,y-c’k,y)2
dk=(dk,x-d’k,x)2+(dk,y-d’k,y)2
其中,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(ck,x,ck,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标,(c’k,x,c’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤5所述计算最小覆盖矩形的对角线长度的欧式平方距离为:
ek=(xk,max-xk,min)2+(yk,mmax-yk,min)2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,ek为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的对角线长度的欧式平方距离,xk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值,xk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值,yk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值,yk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值;
步骤5所述进一步计算关键点交并比为:
ak、bk、ck、dk中任意选择三个顶点的欧式平方距离;
选择ak、bk、ck三个顶点的欧式平方距离;
所述关键点交并比为:
Piouk=(ak+bk+ck+hk)/4ek
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,Piouk为标注完备的目标检测数据集中第k个样本图像中关键点交并比。
2.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:
步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的顶点坐标依次为:
Ak=(ak,x,ak,y),Bk=(bk,x,bk,y),Ck=(ck,x,ck,y),Dk=(dk,x,dk,y);
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(ck,x,ck,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左下角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标;
步骤1所述标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标为:
Hk=(hk,x,hk,y)
hk,x=|ak,x-dk,x|/2
hk,y=|ak,y-bk,x|/2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(hk,x,hk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的中心点坐标;
步骤1所述标注完备的目标检测数据集为:
train={data1,data2,…,dataL}
其中,L为标注完备的目标检测数据集中样本图像的数量,datak为标注完备的目标检测数据集中第k个样本图像,k∈[1,L],datak(i,j)为标注完备的目标检测数据集中第k个样本图像中第i行第j列的像素值,i∈[1,M],j∈[1,N],M为样本图像中行的数量,N为样本图像中列的数量;
步骤1所述每个样本图像真实框内目标类别为:typek;
typek为标注完备的目标检测数据集中第k个样本图像检测框内目标类别,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤1所述目标检测训练数据集为:
{datak,typek},k∈[1,L]。
3.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:
步骤2所述目标检测网络为SSD目标检测网络;
所述SSD目标检测网络包括:基础网络层、特征提取层、分类检测网络层依次级联构成;
所述基础网络层由第一区块、第二区块、...、第K区块依次级联构成;K=5;
所述特征提取层由第K+1区块、第K+2区块、...、第K+M区块依次级联构成;M=2;
所述分类检测网络层由第K+M+1区块、第K+M+2区块、...、第K+M+N区块依次级联构成;N=4;
所述第u个区块由多个卷积层、一个池化层构成,u∈[1,K+M+N];
所述第u个区块中卷积层的数量为Lu,u∈[1,K+M+N],v∈[1,Lu];
所述第u个区块中待寻优的权重向量为wu,u∈[1,K+M+N];
所述第u个区块中待寻优的偏执向量为bu,u∈[1,K+M+N];
第u个区块中第v个卷积层即为一个最小的神经网络单元,令该卷积层的卷积核参数为nu,v*nu,v*mu,v,则该卷积层公式可表达为:
convu,v=Conv(nu,v*nu,v*mu,v,nu,v-1*nu,v-1*mu,v-1),u∈[1,K+M+N],v∈[1,Lu]
其中,convu,v表示第u个区块中第v层卷积的计算,conv表示卷积计算,n表示卷积核大小,通常由卷积层深度加深而逐渐对半缩小,m表示通道数目;
所述池化层利用一个p*q的矩阵窗口在张量上进行扫描,得到张量上对应格子的值为G[h,g],将每个矩阵中的通过池化值表示张量上整个p*q个像素的值;
所述池化层的公式定义为:
其中,avgpoolu,v表示在第u个区块的该池化操作,h表示p*q的矩阵窗口在图片张量上对应的像素窗口的行数,g表示p*q的矩阵窗口在图片张量上对应的像素窗口的列数。
4.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:
步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框顶点坐标依次表示为:
Ak’=(a’k,x,a’k,y),Bk’=(b’k,x,b’k,y),Ck’=(c’k,x,c’k,y),Dk’=(d’k,x,d’k,y);
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标,(c’k,x,c’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤3所述标注完备的目标检测数据集中第k个样本图像中目标检测物体的预测框的中心点坐标为:
Hk’=(h’k,x,h’k,y)
h’k,x=|a’k,x-d’k,x|/2
h’k,y=|a’k,y–b’k,y|/2
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(h’k,x,h’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的中心点坐标。
5.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:
步骤4中所述最小覆盖矩形的横坐标最大值为:
xk,max=max{ak,x,dk,x,a’k,x,d’k,y}
步骤4中所述最小覆盖矩形的横坐标最小值为:
xk,min=min{ak,x,dk,x,a’k,x,d’k,y}
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,xk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最大值,xk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的横坐标最小值,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(dk,x,dk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右下角顶点坐标,(d’k,x,d’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右下角顶点坐标;
步骤4中所述最小覆盖矩形的纵坐标最大值为:
yk,max=max{ak,y,bk,y,a’k,y,b’k,y}
步骤4中所述最小覆盖矩形的纵坐标最小值为:
yk,min=min{ak,y,bk,y,a’k,y,b’k,y}
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,yk,max为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最大值,yk,min为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的纵坐标最小值,(ak,x,ak,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的左上角顶点坐标,(a’k,x,a’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的左上角顶点坐标,(bk,x,bk,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体真实框的右上角顶点坐标,(b’k,x,b’k,y)为标注完备的目标检测数据集中第k个样本图像中检测目标物体预测框的右上角顶点坐标;
步骤4所述最小覆盖矩形四个顶点的顶点坐标表示为:
Pk,1=(xk,min,yk,max),Pk,2=(xk,min,yk,min),Pk,3=(xk,max,yk,min),Pk,4=(xk,max,yk,max)
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量,(xk,min,yk,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左上角顶点坐标,(xk,min,yk,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右上角顶点坐标,(xk,max,yk,min)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的左下角顶点坐标,(xk,max,yk,max)为标注完备的目标检测数据集中第k个样本图像中最小覆盖矩形的右下角顶点坐标。
6.根据权利要求1所述的基于边界框关键点距离的目标检测方法,其特征在于:
步骤6所述样本阈值为β;
步骤6所述将目标检测数据集中样本图像划分为正样本或负样本为:
若Piouk大于β则标注完备的目标检测数据集中第k个样本图像即datak为正样本,表示为datak,TP;
否则标注完备的目标检测数据集中第k个样本图像即datak为负样本,表示为datak,FP;
其中,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤6所述目标检测网络损失函数模型为:
其中,α为损失函数模型权重,k∈[1,L],L为标注完备的目标检测数据集中样本图像的数量;
步骤6所述结合正样本、负样本训练为:
目标检测网络损失函数模型最小化为优化目标,通过梯度下降法进行寻优;
所述梯度下降法迭代寻优过程中:
若目标检测网络判断datak为正样本即dataTP,k时,通过梯度下降法将损失函数朝着减小的方向调整,同时更新权重即wi和偏置即bi,使朝着对检测出正样本——即目标物体更敏感的的趋势调整;
若目标检测网络判断datak为负样本即dataFP,k时,同样通过梯度下降法,使得损失函数朝着减小的方向学习调整,将权重即wi和偏置即bi更新成对判定出非目标物更敏感的趋势调整;
步骤6所述优化后目标检测网络权重更新为:
将分类所得的正样本、负样本用于目标检测网络训练;
训练优化后第u个区块的权重向量为wu*,u∈[1,K+M+N];
训练优化后第u个区块的偏执向量为bu*,u∈[1,K+M+N];
K+M+N为目标检测网络中区块的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011067602.0A CN112287977B (zh) | 2020-10-06 | 2020-10-06 | 一种基于边界框关键点距离的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011067602.0A CN112287977B (zh) | 2020-10-06 | 2020-10-06 | 一种基于边界框关键点距离的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287977A CN112287977A (zh) | 2021-01-29 |
CN112287977B true CN112287977B (zh) | 2024-02-09 |
Family
ID=74422754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011067602.0A Active CN112287977B (zh) | 2020-10-06 | 2020-10-06 | 一种基于边界框关键点距离的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287977B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837336B (zh) * | 2021-02-23 | 2022-02-22 | 浙大宁波理工学院 | 一种基于关键点热图修正的房间布局估计获取方法与系统 |
CN113221769B (zh) * | 2021-05-18 | 2023-06-27 | 北京百度网讯科技有限公司 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
CN115223220B (zh) * | 2022-06-23 | 2023-06-09 | 北京邮电大学 | 一种基于关键点回归的人脸检测方法 |
CN115601793B (zh) * | 2022-12-14 | 2023-04-07 | 北京健康有益科技有限公司 | 一种人体骨骼点检测方法、装置、电子设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
CN109190636A (zh) * | 2018-07-30 | 2019-01-11 | 北京航空航天大学 | 一种遥感图像舰船目标信息提取方法 |
CN110263774A (zh) * | 2019-08-19 | 2019-09-20 | 珠海亿智电子科技有限公司 | 一种人脸检测方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110348312A (zh) * | 2019-06-14 | 2019-10-18 | 武汉大学 | 一种区域视频人体动作行为实时识别方法 |
CN110766058A (zh) * | 2019-10-11 | 2020-02-07 | 西安工业大学 | 一种基于优化rpn网络的战场目标检测方法 |
CN110930454A (zh) * | 2019-11-01 | 2020-03-27 | 北京航空航天大学 | 一种基于边界框外关键点定位的六自由度位姿估计算法 |
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
CN111401148A (zh) * | 2020-02-27 | 2020-07-10 | 江苏大学 | 一种基于改进的多级YOLOv3的道路多目标检测方法 |
CN111462191A (zh) * | 2020-04-23 | 2020-07-28 | 武汉大学 | 一种基于深度学习的非局部滤波器无监督光流估计方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
-
2020
- 2020-10-06 CN CN202011067602.0A patent/CN112287977B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018137357A1 (zh) * | 2017-01-24 | 2018-08-02 | 北京大学 | 一种目标检测性能优化的方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109190636A (zh) * | 2018-07-30 | 2019-01-11 | 北京航空航天大学 | 一种遥感图像舰船目标信息提取方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN110348312A (zh) * | 2019-06-14 | 2019-10-18 | 武汉大学 | 一种区域视频人体动作行为实时识别方法 |
CN110263774A (zh) * | 2019-08-19 | 2019-09-20 | 珠海亿智电子科技有限公司 | 一种人脸检测方法 |
CN110766058A (zh) * | 2019-10-11 | 2020-02-07 | 西安工业大学 | 一种基于优化rpn网络的战场目标检测方法 |
CN110930454A (zh) * | 2019-11-01 | 2020-03-27 | 北京航空航天大学 | 一种基于边界框外关键点定位的六自由度位姿估计算法 |
CN111091105A (zh) * | 2019-12-23 | 2020-05-01 | 郑州轻工业大学 | 基于新的边框回归损失函数的遥感图像目标检测方法 |
CN111401148A (zh) * | 2020-02-27 | 2020-07-10 | 江苏大学 | 一种基于改进的多级YOLOv3的道路多目标检测方法 |
CN111462191A (zh) * | 2020-04-23 | 2020-07-28 | 武汉大学 | 一种基于深度学习的非局部滤波器无监督光流估计方法 |
Non-Patent Citations (5)
Title |
---|
关于人脸关键点检测的若干问题研究;崔馨方;CNKI;全文 * |
基于Yamaguchi分解模型的全极化SAR图像分类;杨然;李坤;涂志刚;陈荣元;秦前清;;计算机工程与应用(第36期);全文 * |
改进级联卷积神经网络的平面旋转人脸检测;傅勇;潘晴;田妮莉;杨志景;Bingo Wing-Kuen Ling;Everett.X.Wang;;计算机工程与设计(第03期);全文 * |
深度学习目标检测中样本挖掘及深层网络优化算法研究;刘奎响;CNKI;全文 * |
目标检测、人体姿态估计算法叠加的监控视频分析方法;李宾皑;李颖;孙宇飞;顾书玉;;电子技术与软件工程(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112287977A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287977B (zh) | 一种基于边界框关键点距离的目标检测方法 | |
CN107134144B (zh) | 一种用于交通监控的车辆检测方法 | |
CN110070074B (zh) | 一种构建行人检测模型的方法 | |
CN109740676B (zh) | 基于相似目标的物体检测迁移方法 | |
CN111899334B (zh) | 一种基于点线特征的视觉同步定位与地图构建方法及装置 | |
CN112101430B (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN111882586B (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN104573744B (zh) | 精细粒度类别识别及物体的部分定位和特征提取方法 | |
CN113724231A (zh) | 一种基于语义分割和目标检测融合模型的工业缺陷检测方法 | |
WO2023108933A1 (zh) | 一种基于聚类算法的车辆检测方法 | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
CN114694165B (zh) | 一种pid图纸智能识别与重绘方法 | |
CN110458022B (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN110363071A (zh) | 一种协同主动学习和直推式支持向量机的海冰检测方法 | |
Zheng et al. | Improvement of grayscale image 2D maximum entropy threshold segmentation method | |
CN114648665A (zh) | 一种弱监督目标检测方法及系统 | |
CN112633174B (zh) | 一种基于改进的YOLOv4高穹顶场景下火灾检测方法、存储介质 | |
CN111275010A (zh) | 一种基于计算机视觉的行人重识别方法 | |
CN115272652A (zh) | 基于多元回归和自适应焦点损失的密集物体图像检测方法 | |
CN111652836A (zh) | 一种基于聚类算法和神经网络的多尺度目标检测方法 | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN112884135B (zh) | 一种基于边框回归的数据标注校正方法 | |
CN107644203A (zh) | 一种形状自适应分类的特征点检测方法 | |
CN117011346A (zh) | 鼓风机图像配准算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |