CN113056745A - 一种倾斜矩形范围框标注方式 - Google Patents
一种倾斜矩形范围框标注方式 Download PDFInfo
- Publication number
- CN113056745A CN113056745A CN202080005609.1A CN202080005609A CN113056745A CN 113056745 A CN113056745 A CN 113056745A CN 202080005609 A CN202080005609 A CN 202080005609A CN 113056745 A CN113056745 A CN 113056745A
- Authority
- CN
- China
- Prior art keywords
- vector
- frame
- range
- labeling
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及到计算机视觉中的目标检测和跟踪算法,特别是基于监督学习的目标检测和跟踪算法,属于目标检测和跟踪算法中范围框标注方式的一种。该矩形范围框标注方式可以用于目标检测和跟踪算法的范围框输出、锚点框设置、样本标注。
背景技术
目标检测和跟踪算法具有巨大的价值,一直以来都是热门研究领域。现阶段绝大多数目标检测算法只能支持边平行于图像像素行和列的矩形范围框(后文中称之为正框),其记录的是中心点坐标、宽、高。对于倾斜范围框(后文称之为斜框),目前也有多种标注方式。第一种,记录中心点坐标、宽、高、旋转角,这是非常常见的标注方式。第二种,记录中心点到四边的距离以及旋转角,参考论文《EAST:An Efficient and Accurate Scene TextDetector》。第三种,记录四个顶点坐标,也很常见,优势是可以表示任意四边形,如果用来表示矩形会有三个冗余量。第四种,按顺时针顺序记录矩形四个顶点中的前两个和第二个顶点到第三个顶点的距离,参考论文《R2CNN:Rotational Region CNN for OrientationRobust Scene Text Detection》。第五种,记录斜框的外接正框以及斜框四个顶点与正框四个顶点顺时针方向的偏移量,参考论文《Gliding vertex on the horizontal boundingbox for multi-oriented object detection》。
背景技术的问题
对于正框,缺陷是显而易见的。对于宽高比大、密集排列、朝向任意的目标,该种标注方式会导致交并比(IOU)不能反映真实的情况。尤其是航空影像、卫星影像上容易出现宽高比大、密集排列、朝向任意的目标,比如停车场里的大汽车,港口里停靠的轮船。
对于斜框的第一种标注方式,如果交换w和h的值,再将θ加上或者减去2kπ+π/2,就能够表示同一个范围框。由于同一个范围框有多种不同的数值表示方式,会导致近似范围框之间的数值差异有大大小小多种情况。如果近似范围框之间的数值差异大,对于基于监督分类的方法来说,就是损失函数的取值异常,不利于模型训练。关于该缺陷的更详细情况可以参考论文《SCRDet:Towards More Robust Detection for Small,Cluttered andRotated Objects》。斜框的第二种和第一种本质是一样的,宽高的一半就是中心点离四边的距离,他们有相同的缺陷。
对于斜框的第三种标注方式,也会出现同一个范围框有多种数值表示的情况。避免损失异常的现行方式是按照坐标值排序顶点,然后计算对应顶点之间的差异,详情可以参考论文《DOTA:A Large-scale Dataset for Object Detection in Aerial Images》。这种处理方式也是有问题的,对坐标值排序会改变数值维度间的对应关系,也就是说,在某次损失计算过程中预测向量的第一维对应真值向量的第二维,在另外一次损失计算过程中第一维可能对应第三维。这种对应关系的随机性同样不利于模型训练。斜框的第四种标注方式就是将第三种标注方式表示矩形框时的冗余量去除后的结果,同样会出现同一个范围框有多种数值表示的情况。
第五种斜框标注方式的目的是为了先预测正框再进一步预测真实的斜框,在预测正框时将正锚点框向斜框的外接正框回归。但是要想斜框预测得准确,正框也得预测准确,增加了预测目标数量,也就增加了预测(回归)难度,同样不利于模型训练。
发明内容
为了避免背景技术中的问题,本发明提供了一种倾斜矩形范围框标注方式,其用于标注的量是“中心点C的坐标、中心点到任意一个顶点D的向量C到D的一个相邻顶点E的向量在上的投影向量与的比例系数”,代数表示为(xc,yc,u,v,ρ),其中(xc,yc)为中心点C的坐标,(u,v)为向量的坐标,ρ为向量与的比例系数。
为了减少同一个范围框对应的数值表示,要求ρ的取值范围为[0,1),也就是与同向,另外要求从到的夹角只能是顺时针方向或者逆时针方向中的一种。如此一来,同一个范围框仅有两种数值表示。也就是说,将向量取反,但保持其它值不变,仍然表示同一个范围框。
由于同一个范围框仍有两种数值表示,需要采用某种手段避免损失异常,也就说让模型的预测结果与这两种数组表示之间求得一样的损失值。因为这两种表示之间仅有向量是相反的,只需要让预测值与和的损失值相同即可。设在上的投影为那么一种可行的损失值如下。
更进一步,由于同一个范围框的两种表示之间仅有向量是相反的,可以引入一个量s表示的两个分量是同正负的还是一正一负的(后文将称之为同号或异号,可见s仅有两种取值),那么可以用(|u|,|v|,s)表示和当同号时,和分别为(|u|,|v|)和(-|u|,-|v|);当异号时,和分别为(-|u|,|v|)和(|u|,-|v|)。此时就可以将同一个范围框的数值表示减少到一个,其代数表示为(xc,yc,|u|,|v|,s,ρ)。
既然数值表示减少到了一个,损失的计算也会更加方便。当从特征向量直接预测一个目标框时,xc,yc,|u|,|v|,ρ的损失可以采用回归的方式计算,也就是直接计算数值之间的差异,如Smooth L1、L2等。s的损失可以采用分类的方式计算,让模型为s输出两个值,分别表示取同号和异号的可能性,代表同号的值大就是同号,否则就是异号,具体的损失值则可以用Corss Entropy、L2等。
当用特征向量预测锚点框到目标框的回归参数时,可以直接人为规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归。那么就不用计算s的损失。
附图说明
图1是标注方式的示意图;
有益效果
具体实施方式
下面是本发明的实施例。本发明不局限于下面的优选实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或者相近似的技术方案,均属于本发明的保护范围。
【实施例1】
对样本图像进行标注时对其中xc,yc,u,v的取值按照图像的宽(wi)高(hi)进行归一化。为了与正框兼容,将|u|,|v|扩大至原来的2倍。那么标注文件中对应的取值为xc/wi,yc/hi,2|u|/wi,2|v|/hi,s,ρ。
【实施例2】
规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归,从锚点框到目标框的回归参数可以用如下公式定义。
tu=ln(|u|*/|u|a),tv=ln(|v|*/|v|a),tρ=ln(ρ*/ρa)
Claims (3)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/079379 WO2021184139A1 (zh) | 2020-03-14 | 2020-03-14 | 一种倾斜矩形范围框标注方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113056745A true CN113056745A (zh) | 2021-06-29 |
Family
ID=76509834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080005609.1A Pending CN113056745A (zh) | 2020-03-14 | 2020-03-14 | 一种倾斜矩形范围框标注方式 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230019343A1 (zh) |
CN (1) | CN113056745A (zh) |
WO (1) | WO2021184139A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723370A (zh) * | 2021-11-01 | 2021-11-30 | 湖南自兴智慧医疗科技有限公司 | 基于斜框的染色体检测方法及装置 |
CN113762159A (zh) * | 2021-09-08 | 2021-12-07 | 山东大学 | 一种基于有向箭头模型的目标抓取检测方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008057107A2 (en) * | 2005-12-05 | 2008-05-15 | University Of Maryland | Method and system for object surveillance and real time activity recognition |
DE102016220874A1 (de) * | 2016-10-24 | 2018-04-26 | Bayerische Motoren Werke Aktiengesellschaft | Analyseverfahren für Objektmarkierungen in Bildern |
CN107895173B (zh) * | 2017-11-06 | 2021-08-17 | 国网重庆市电力公司电力科学研究院 | 标注图像目标的方法、装置、设备及可读存储介质 |
CN110210418B (zh) * | 2019-06-05 | 2021-07-23 | 西安电子科技大学 | 一种基于信息交互和迁移学习的sar图像飞机目标检测方法 |
CN110458161B (zh) * | 2019-07-15 | 2023-04-18 | 天津大学 | 一种结合深度学习的移动机器人门牌定位方法 |
-
2020
- 2020-03-14 CN CN202080005609.1A patent/CN113056745A/zh active Pending
- 2020-03-14 WO PCT/CN2020/079379 patent/WO2021184139A1/zh active Application Filing
-
2022
- 2022-09-13 US US17/944,096 patent/US20230019343A1/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762159A (zh) * | 2021-09-08 | 2021-12-07 | 山东大学 | 一种基于有向箭头模型的目标抓取检测方法及系统 |
CN113762159B (zh) * | 2021-09-08 | 2023-08-08 | 山东大学 | 一种基于有向箭头模型的目标抓取检测方法及系统 |
CN113723370A (zh) * | 2021-11-01 | 2021-11-30 | 湖南自兴智慧医疗科技有限公司 | 基于斜框的染色体检测方法及装置 |
CN113723370B (zh) * | 2021-11-01 | 2022-01-18 | 湖南自兴智慧医疗科技有限公司 | 基于斜框的染色体检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20230019343A1 (en) | 2023-01-19 |
WO2021184139A1 (zh) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11321937B1 (en) | Visual localization method and apparatus based on semantic error image | |
CN111191566B (zh) | 基于像素分类的光学遥感图像多目标检测方法 | |
Huang et al. | Bevdet: High-performance multi-camera 3d object detection in bird-eye-view | |
CN111627065B (zh) | 一种视觉定位方法及装置、存储介质 | |
CN109214366B (zh) | 局部目标重识别方法、装置及系统 | |
CN113056745A (zh) | 一种倾斜矩形范围框标注方式 | |
CN110260857A (zh) | 视觉地图的校准方法、装置及存储介质 | |
CN111695567B (zh) | 一种改进的倾斜矩形范围框标注方式 | |
KR20200023211A (ko) | 스테레오 이미지의 정류를 위한 방법 및 시스템 | |
US20220327730A1 (en) | Method for training neural network, system for training neural network, and neural network | |
CN113705669A (zh) | 一种数据匹配方法、装置、电子设备以及存储介质 | |
CN115203460A (zh) | 一种基于深度学习的像素级跨视角图像定位方法及系统 | |
Zhu et al. | Depth-enhanced feature pyramid network for occlusion-aware verification of buildings from oblique images | |
Sun et al. | Three-dimensional structural displacement measurement using monocular vision and deep learning based pose estimation | |
Zhang et al. | PSNet: Perspective-sensitive convolutional network for object detection | |
Xu et al. | Pandora: A panoramic detection dataset for object with orientation | |
Kocur et al. | Traffic camera calibration via vehicle vanishing point detection | |
CN117315372A (zh) | 一种基于特征增强的三维感知方法 | |
CN114862866B (zh) | 标定板的检测方法、装置、计算机设备和存储介质 | |
CN113392371A (zh) | 一种椭圆范围框标注方式 | |
CN115601336A (zh) | 一种确定目标投影的方法、装置及电子设备 | |
CN113160059B (zh) | 一种水下图像拼接方法、装置及存储介质 | |
JP2024521816A (ja) | 無制約画像手ぶれ補正 | |
CN106991643B (zh) | 一种低资源消耗的实时核线方法和实时核线系统 | |
US10970855B1 (en) | Memory-efficient video tracking in real-time using direction vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210629 |