CN113056745A - 一种倾斜矩形范围框标注方式 - Google Patents

一种倾斜矩形范围框标注方式 Download PDF

Info

Publication number
CN113056745A
CN113056745A CN202080005609.1A CN202080005609A CN113056745A CN 113056745 A CN113056745 A CN 113056745A CN 202080005609 A CN202080005609 A CN 202080005609A CN 113056745 A CN113056745 A CN 113056745A
Authority
CN
China
Prior art keywords
vector
frame
range
labeling
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080005609.1A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN113056745A publication Critical patent/CN113056745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种倾斜矩形范围框标注方式,其用于标注的量是“中心点C的坐标、中心点到任意一个顶点D的向量
Figure DDA0003081748200000011
C到D的一个相邻顶点E的向量
Figure DDA0003081748200000012
Figure DDA0003081748200000013
E的投影向量
Figure DDA0003081748200000014
Figure DDA0003081748200000015
的比例系数”;同时要求
Figure DDA0003081748200000016
Figure DDA0003081748200000017
同向,以及从
Figure DDA0003081748200000018
Figure DDA0003081748200000019
的夹角只能是顺时针方向或者逆时针方向中的一种。范围框的基本代数表示为(xc,yc,u,v,ρ),其中(xc,yc)为中心点C的坐标,(u,v)为向量
Figure DDA00030817482000000110
的坐标,ρ为向量
Figure DDA00030817482000000111
Figure DDA00030817482000000112
的比例系数。又引入了一个量s表示
Figure DDA00030817482000000113
的两个分量是同号或异号,将
Figure DDA00030817482000000114
Figure DDA00030817482000000115
表示为(|u|,|v|,s),就可以得到一个范围框仅有一种数值表示的标注方式(xc,yc,|u|,|v|,s,ρ),其中|u|,|v|为

Description

一种倾斜矩形范围框标注方式
技术领域
本发明涉及到计算机视觉中的目标检测和跟踪算法,特别是基于监督学习的目标检测和跟踪算法,属于目标检测和跟踪算法中范围框标注方式的一种。该矩形范围框标注方式可以用于目标检测和跟踪算法的范围框输出、锚点框设置、样本标注。
背景技术
目标检测和跟踪算法具有巨大的价值,一直以来都是热门研究领域。现阶段绝大多数目标检测算法只能支持边平行于图像像素行和列的矩形范围框(后文中称之为正框),其记录的是中心点坐标、宽、高。对于倾斜范围框(后文称之为斜框),目前也有多种标注方式。第一种,记录中心点坐标、宽、高、旋转角,这是非常常见的标注方式。第二种,记录中心点到四边的距离以及旋转角,参考论文《EAST:An Efficient and Accurate Scene TextDetector》。第三种,记录四个顶点坐标,也很常见,优势是可以表示任意四边形,如果用来表示矩形会有三个冗余量。第四种,按顺时针顺序记录矩形四个顶点中的前两个和第二个顶点到第三个顶点的距离,参考论文《R2CNN:Rotational Region CNN for OrientationRobust Scene Text Detection》。第五种,记录斜框的外接正框以及斜框四个顶点与正框四个顶点顺时针方向的偏移量,参考论文《Gliding vertex on the horizontal boundingbox for multi-oriented object detection》。
背景技术的问题
对于正框,缺陷是显而易见的。对于宽高比大、密集排列、朝向任意的目标,该种标注方式会导致交并比(IOU)不能反映真实的情况。尤其是航空影像、卫星影像上容易出现宽高比大、密集排列、朝向任意的目标,比如停车场里的大汽车,港口里停靠的轮船。
对于斜框的第一种标注方式,如果交换w和h的值,再将θ加上或者减去2kπ+π/2,就能够表示同一个范围框。由于同一个范围框有多种不同的数值表示方式,会导致近似范围框之间的数值差异有大大小小多种情况。如果近似范围框之间的数值差异大,对于基于监督分类的方法来说,就是损失函数的取值异常,不利于模型训练。关于该缺陷的更详细情况可以参考论文《SCRDet:Towards More Robust Detection for Small,Cluttered andRotated Objects》。斜框的第二种和第一种本质是一样的,宽高的一半就是中心点离四边的距离,他们有相同的缺陷。
对于斜框的第三种标注方式,也会出现同一个范围框有多种数值表示的情况。避免损失异常的现行方式是按照坐标值排序顶点,然后计算对应顶点之间的差异,详情可以参考论文《DOTA:A Large-scale Dataset for Object Detection in Aerial Images》。这种处理方式也是有问题的,对坐标值排序会改变数值维度间的对应关系,也就是说,在某次损失计算过程中预测向量的第一维对应真值向量的第二维,在另外一次损失计算过程中第一维可能对应第三维。这种对应关系的随机性同样不利于模型训练。斜框的第四种标注方式就是将第三种标注方式表示矩形框时的冗余量去除后的结果,同样会出现同一个范围框有多种数值表示的情况。
第五种斜框标注方式的目的是为了先预测正框再进一步预测真实的斜框,在预测正框时将正锚点框向斜框的外接正框回归。但是要想斜框预测得准确,正框也得预测准确,增加了预测目标数量,也就增加了预测(回归)难度,同样不利于模型训练。
发明内容
为了避免背景技术中的问题,本发明提供了一种倾斜矩形范围框标注方式,其用于标注的量是“中心点C的坐标、中心点到任意一个顶点D的向量
Figure BDA0003012537630000031
C到D的一个相邻顶点E的向量
Figure BDA0003012537630000032
Figure BDA0003012537630000033
上的投影向量
Figure BDA0003012537630000034
Figure BDA0003012537630000035
的比例系数”,代数表示为(xc,yc,u,v,ρ),其中(xc,yc)为中心点C的坐标,(u,v)为向量
Figure BDA0003012537630000036
的坐标,ρ为向量
Figure BDA0003012537630000037
Figure BDA00030125376300000336
的比例系数。
为了减少同一个范围框对应的数值表示,要求ρ的取值范围为[0,1),也就是
Figure BDA0003012537630000038
Figure BDA0003012537630000039
同向,另外要求从
Figure BDA00030125376300000310
Figure BDA00030125376300000311
的夹角只能是顺时针方向或者逆时针方向中的一种。如此一来,同一个范围框仅有两种数值表示。也就是说,将向量
Figure BDA00030125376300000312
取反,但保持其它值不变,仍然表示同一个范围框。
由于同一个范围框仍有两种数值表示,需要采用某种手段避免损失异常,也就说让模型的预测结果与这两种数组表示之间求得一样的损失值。因为这两种表示之间仅有向量
Figure BDA00030125376300000313
是相反的,只需要让预测值
Figure BDA00030125376300000314
Figure BDA00030125376300000315
Figure BDA00030125376300000316
的损失值相同即可。设
Figure BDA00030125376300000317
Figure BDA00030125376300000318
上的投影为
Figure BDA00030125376300000319
那么一种可行的损失值如下。
Figure BDA00030125376300000320
参考附图2,
Figure BDA00030125376300000321
为预测向量
Figure BDA00030125376300000322
与其在
Figure BDA00030125376300000323
上的投影向量
Figure BDA00030125376300000324
的差向量的模,
Figure BDA00030125376300000325
Figure BDA00030125376300000326
的模与
Figure BDA00030125376300000327
的模之差的绝对值。
更进一步,由于同一个范围框的两种表示之间仅有向量
Figure BDA00030125376300000328
是相反的,可以引入一个量s表示
Figure BDA00030125376300000329
的两个分量是同正负的还是一正一负的(后文将称之为同号或异号,可见s仅有两种取值),那么可以用(|u|,|v|,s)表示
Figure BDA00030125376300000330
Figure BDA00030125376300000331
当同号时,
Figure BDA00030125376300000332
Figure BDA00030125376300000333
分别为(|u|,|v|)和(-|u|,-|v|);当异号时,
Figure BDA00030125376300000334
Figure BDA00030125376300000335
分别为(-|u|,|v|)和(|u|,-|v|)。此时就可以将同一个范围框的数值表示减少到一个,其代数表示为(xc,yc,|u|,|v|,s,ρ)。
既然数值表示减少到了一个,损失的计算也会更加方便。当从特征向量直接预测一个目标框时,xc,yc,|u|,|v|,ρ的损失可以采用回归的方式计算,也就是直接计算数值之间的差异,如Smooth L1、L2等。s的损失可以采用分类的方式计算,让模型为s输出两个值,分别表示取同号和异号的可能性,代表同号的值大就是同号,否则就是异号,具体的损失值则可以用Corss Entropy、L2等。
当用特征向量预测锚点框到目标框的回归参数时,可以直接人为规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归。那么就不用计算s的损失。
如果是正框,显然向量
Figure BDA0003012537630000041
的坐标就是范围框宽高的一半。可以通过令
Figure BDA0003012537630000042
使该标注方式与正框兼容。
要获得范围框四个顶点的坐标,可以通过求解以下方程组的方式实现。方程组中的
Figure BDA0003012537630000043
的坐标是未知的,求解出
Figure BDA0003012537630000044
后可以通过向量加减运算求出顶点坐标。
Figure BDA0003012537630000045
方程组中的第一个式子表示向量
Figure BDA0003012537630000046
与向量
Figure BDA0003012537630000047
垂直,第二个式子表示向量
Figure BDA0003012537630000048
与向量
Figure BDA0003012537630000049
的长度相等,第三个式子表示从
Figure BDA00030125376300000410
Figure BDA00030125376300000411
的夹角只能是顺时针方向或者逆时针方向中的一种。在使用时第三个式子只取用一个即可。
附图说明
图1是标注方式的示意图;
图2是计算
Figure BDA00030125376300000412
与其预测值
Figure BDA00030125376300000413
之间损失值的示意图。
图1中X表示表示图像行方向上的坐标轴,Y表示图像列方向上的坐标轴,C表示范围框的中心点,D、E为范围框的某两个顶点,P为
Figure BDA00030125376300000414
Figure BDA00030125376300000415
上的投影点。
图2中
Figure BDA00030125376300000416
表示范围框中心点到顶点D的向量,
Figure BDA00030125376300000417
表示
Figure BDA00030125376300000418
的预测值,
Figure BDA00030125376300000419
表示
Figure BDA0003012537630000051
Figure BDA0003012537630000052
上的投影向量,ep表示
Figure BDA0003012537630000053
ea表示
Figure BDA0003012537630000054
有益效果
本发明提供的倾斜矩形范围框标注方式解决了背景技术的问题,对于模型训练有重大积极意义。本发明提供了同一个范围框仅有两种数值表示的标注方式,且这两种数值表示中仅有(u,v)互为相反数,其它数值都相等。再引入一个量s表示
Figure BDA0003012537630000055
的两个分量是同号还是异号,就可以将同一个范围框的数值表示减少到一个。该标注方式能够有效避免损失异常,有利于模型训练。另外本发明提供的标注方式在计算损失时不需要调整维度之间的对应关系。
具体实施方式
下面是本发明的实施例。本发明不局限于下面的优选实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或者相近似的技术方案,均属于本发明的保护范围。
【实施例1】
对样本图像进行标注时对其中xc,yc,u,v的取值按照图像的宽(wi)高(hi)进行归一化。为了与正框兼容,将|u|,|v|扩大至原来的2倍。那么标注文件中对应的取值为xc/wi,yc/hi,2|u|/wi,2|v|/hi,s,ρ。
【实施例2】
规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归,从锚点框到目标框的回归参数可以用如下公式定义。
Figure BDA0003012537630000056
tu=ln(|u|*/|u|a),tv=ln(|v|*/|v|a),tρ=ln(ρ*a)
其中
Figure BDA0003012537630000057
|u|*,|v|**是目标框的值,
Figure BDA0003012537630000058
|u|a,|v|aa是预设锚点框的值,tx,ty,tu,tv,tρ为将锚点框变换为目标框的回归参数,也是模型需要直接预测的值。

Claims (3)

1.一种倾斜矩形范围框标注方式,其特征在于:
用于标注范围框的量是中心点C的坐标、中心点到任意一个顶点D的向量
Figure FDA0003012537620000011
C到D的一个相邻顶点E的向量
Figure FDA0003012537620000012
Figure FDA0003012537620000013
上的投影向量
Figure FDA0003012537620000014
Figure FDA0003012537620000015
的比例系数;要求
Figure FDA0003012537620000016
Figure FDA0003012537620000017
同向,以及从
Figure FDA0003012537620000018
Figure FDA0003012537620000019
的夹角只能是顺时针方向或者逆时针方向中的一种;范围框的代数表示为(xc,yc,u,v,ρ),其中(xc,yc)为中心点C的坐标,(u,v)为向量
Figure FDA00030125376200000110
的坐标,ρ为向量
Figure FDA00030125376200000111
Figure FDA00030125376200000112
的比例系数。
2.根据权利要求1所述的一种倾斜矩形范围框标注方式,其特征在于:
再引入一个量s表示
Figure FDA00030125376200000113
的两个分量是同号或异号,将
Figure FDA00030125376200000114
Figure FDA00030125376200000115
表示为(|u|,|v|,s),就可以得到一个范围框仅有一种数值表示的标注方式(xc,yc,|u|,|v|,s,ρ),其中|u|,|v|为
Figure FDA00030125376200000116
坐标的绝对值。
3.根据权利要求1及权利要求2所述的一种倾斜矩形范围框标注方式,其特征在于:
Figure FDA00030125376200000117
得到与正框兼容的标注方式(xc,yc,2|u|,2|v|,s,ρ)。
CN202080005609.1A 2020-03-14 2020-03-14 一种倾斜矩形范围框标注方式 Pending CN113056745A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/079379 WO2021184139A1 (zh) 2020-03-14 2020-03-14 一种倾斜矩形范围框标注方式

Publications (1)

Publication Number Publication Date
CN113056745A true CN113056745A (zh) 2021-06-29

Family

ID=76509834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080005609.1A Pending CN113056745A (zh) 2020-03-14 2020-03-14 一种倾斜矩形范围框标注方式

Country Status (3)

Country Link
US (1) US20230019343A1 (zh)
CN (1) CN113056745A (zh)
WO (1) WO2021184139A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723370A (zh) * 2021-11-01 2021-11-30 湖南自兴智慧医疗科技有限公司 基于斜框的染色体检测方法及装置
CN113762159A (zh) * 2021-09-08 2021-12-07 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008057107A2 (en) * 2005-12-05 2008-05-15 University Of Maryland Method and system for object surveillance and real time activity recognition
DE102016220874A1 (de) * 2016-10-24 2018-04-26 Bayerische Motoren Werke Aktiengesellschaft Analyseverfahren für Objektmarkierungen in Bildern
CN107895173B (zh) * 2017-11-06 2021-08-17 国网重庆市电力公司电力科学研究院 标注图像目标的方法、装置、设备及可读存储介质
CN110210418B (zh) * 2019-06-05 2021-07-23 西安电子科技大学 一种基于信息交互和迁移学习的sar图像飞机目标检测方法
CN110458161B (zh) * 2019-07-15 2023-04-18 天津大学 一种结合深度学习的移动机器人门牌定位方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762159A (zh) * 2021-09-08 2021-12-07 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统
CN113762159B (zh) * 2021-09-08 2023-08-08 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统
CN113723370A (zh) * 2021-11-01 2021-11-30 湖南自兴智慧医疗科技有限公司 基于斜框的染色体检测方法及装置
CN113723370B (zh) * 2021-11-01 2022-01-18 湖南自兴智慧医疗科技有限公司 基于斜框的染色体检测方法及装置

Also Published As

Publication number Publication date
US20230019343A1 (en) 2023-01-19
WO2021184139A1 (zh) 2021-09-23

Similar Documents

Publication Publication Date Title
US11321937B1 (en) Visual localization method and apparatus based on semantic error image
CN111191566B (zh) 基于像素分类的光学遥感图像多目标检测方法
Huang et al. Bevdet: High-performance multi-camera 3d object detection in bird-eye-view
CN111627065B (zh) 一种视觉定位方法及装置、存储介质
CN109214366B (zh) 局部目标重识别方法、装置及系统
CN113056745A (zh) 一种倾斜矩形范围框标注方式
CN110260857A (zh) 视觉地图的校准方法、装置及存储介质
CN111695567B (zh) 一种改进的倾斜矩形范围框标注方式
KR20200023211A (ko) 스테레오 이미지의 정류를 위한 방법 및 시스템
US20220327730A1 (en) Method for training neural network, system for training neural network, and neural network
CN113705669A (zh) 一种数据匹配方法、装置、电子设备以及存储介质
CN115203460A (zh) 一种基于深度学习的像素级跨视角图像定位方法及系统
Zhu et al. Depth-enhanced feature pyramid network for occlusion-aware verification of buildings from oblique images
Sun et al. Three-dimensional structural displacement measurement using monocular vision and deep learning based pose estimation
Zhang et al. PSNet: Perspective-sensitive convolutional network for object detection
Xu et al. Pandora: A panoramic detection dataset for object with orientation
Kocur et al. Traffic camera calibration via vehicle vanishing point detection
CN117315372A (zh) 一种基于特征增强的三维感知方法
CN114862866B (zh) 标定板的检测方法、装置、计算机设备和存储介质
CN113392371A (zh) 一种椭圆范围框标注方式
CN115601336A (zh) 一种确定目标投影的方法、装置及电子设备
CN113160059B (zh) 一种水下图像拼接方法、装置及存储介质
JP2024521816A (ja) 無制約画像手ぶれ補正
CN106991643B (zh) 一种低资源消耗的实时核线方法和实时核线系统
US10970855B1 (en) Memory-efficient video tracking in real-time using direction vectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210629