CN113056745A

CN113056745A - 一种倾斜矩形范围框标注方式

Info

Publication number: CN113056745A
Application number: CN202080005609.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-14
Filing date: 2020-03-14
Publication date: 2021-06-29
Also published as: US20230019343A1; WO2021184139A1

Abstract

一种倾斜矩形范围框标注方式，其用于标注的量是“中心点C的坐标、中心点到任意一个顶点D的向量

C到D的一个相邻顶点E的向量

在

E的投影向量

与

的比例系数”；同时要求

与

同向，以及从

到

的夹角只能是顺时针方向或者逆时针方向中的一种。范围框的基本代数表示为(x_c，y_c，u，v，ρ)，其中(x_c，y_c)为中心点C的坐标，(u，v)为向量

的坐标，ρ为向量

与

的比例系数。又引入了一个量s表示

的两个分量是同号或异号，将

和

表示为(|u|，|v|，s)，就可以得到一个范围框仅有一种数值表示的标注方式(x_c，y_c，|u|，|v|，s，ρ)，其中|u|，|v|为

Description

一种倾斜矩形范围框标注方式

技术领域

本发明涉及到计算机视觉中的目标检测和跟踪算法，特别是基于监督学习的目标检测和跟踪算法，属于目标检测和跟踪算法中范围框标注方式的一种。该矩形范围框标注方式可以用于目标检测和跟踪算法的范围框输出、锚点框设置、样本标注。

背景技术

目标检测和跟踪算法具有巨大的价值，一直以来都是热门研究领域。现阶段绝大多数目标检测算法只能支持边平行于图像像素行和列的矩形范围框(后文中称之为正框)，其记录的是中心点坐标、宽、高。对于倾斜范围框(后文称之为斜框)，目前也有多种标注方式。第一种，记录中心点坐标、宽、高、旋转角，这是非常常见的标注方式。第二种，记录中心点到四边的距离以及旋转角，参考论文《EAST:An Efficient and Accurate Scene TextDetector》。第三种，记录四个顶点坐标，也很常见，优势是可以表示任意四边形，如果用来表示矩形会有三个冗余量。第四种，按顺时针顺序记录矩形四个顶点中的前两个和第二个顶点到第三个顶点的距离，参考论文《R2CNN:Rotational Region CNN for OrientationRobust Scene Text Detection》。第五种，记录斜框的外接正框以及斜框四个顶点与正框四个顶点顺时针方向的偏移量，参考论文《Gliding vertex on the horizontal boundingbox for multi-oriented object detection》。

背景技术的问题

对于正框，缺陷是显而易见的。对于宽高比大、密集排列、朝向任意的目标，该种标注方式会导致交并比(IOU)不能反映真实的情况。尤其是航空影像、卫星影像上容易出现宽高比大、密集排列、朝向任意的目标，比如停车场里的大汽车，港口里停靠的轮船。

对于斜框的第一种标注方式，如果交换w和h的值，再将θ加上或者减去2kπ+π/2，就能够表示同一个范围框。由于同一个范围框有多种不同的数值表示方式，会导致近似范围框之间的数值差异有大大小小多种情况。如果近似范围框之间的数值差异大，对于基于监督分类的方法来说，就是损失函数的取值异常，不利于模型训练。关于该缺陷的更详细情况可以参考论文《SCRDet:Towards More Robust Detection for Small,Cluttered andRotated Objects》。斜框的第二种和第一种本质是一样的，宽高的一半就是中心点离四边的距离，他们有相同的缺陷。

对于斜框的第三种标注方式，也会出现同一个范围框有多种数值表示的情况。避免损失异常的现行方式是按照坐标值排序顶点，然后计算对应顶点之间的差异，详情可以参考论文《DOTA:A Large-scale Dataset for Object Detection in Aerial Images》。这种处理方式也是有问题的，对坐标值排序会改变数值维度间的对应关系，也就是说，在某次损失计算过程中预测向量的第一维对应真值向量的第二维，在另外一次损失计算过程中第一维可能对应第三维。这种对应关系的随机性同样不利于模型训练。斜框的第四种标注方式就是将第三种标注方式表示矩形框时的冗余量去除后的结果，同样会出现同一个范围框有多种数值表示的情况。

第五种斜框标注方式的目的是为了先预测正框再进一步预测真实的斜框，在预测正框时将正锚点框向斜框的外接正框回归。但是要想斜框预测得准确，正框也得预测准确，增加了预测目标数量，也就增加了预测(回归)难度，同样不利于模型训练。

发明内容

为了避免背景技术中的问题，本发明提供了一种倾斜矩形范围框标注方式，其用于标注的量是“中心点C的坐标、中心点到任意一个顶点D的向量

C到D的一个相邻顶点E的向量

在

上的投影向量

与

的比例系数”，代数表示为(x_c,y_c,u,v,ρ)，其中(x_c,y_c)为中心点C的坐标，(u,v)为向量

的坐标，ρ为向量

与

的比例系数。

为了减少同一个范围框对应的数值表示，要求ρ的取值范围为[0,1)，也就是

与

同向，另外要求从

到

的夹角只能是顺时针方向或者逆时针方向中的一种。如此一来，同一个范围框仅有两种数值表示。也就是说，将向量

取反，但保持其它值不变，仍然表示同一个范围框。

由于同一个范围框仍有两种数值表示，需要采用某种手段避免损失异常，也就说让模型的预测结果与这两种数组表示之间求得一样的损失值。因为这两种表示之间仅有向量

是相反的，只需要让预测值

与

和

的损失值相同即可。设

在

上的投影为

那么一种可行的损失值如下。

参考附图2，

为预测向量

与其在

上的投影向量

的差向量的模，

为

的模与

的模之差的绝对值。

更进一步，由于同一个范围框的两种表示之间仅有向量

是相反的，可以引入一个量s表示

的两个分量是同正负的还是一正一负的(后文将称之为同号或异号，可见s仅有两种取值)，那么可以用(|u|,|v|,s)表示

和

当同号时，

和

分别为(|u|,|v|)和(-|u|,-|v|)；当异号时，

和

分别为(-|u|,|v|)和(|u|,-|v|)。此时就可以将同一个范围框的数值表示减少到一个，其代数表示为(x_c,y_c,|u|,|v|,s,ρ)。

既然数值表示减少到了一个，损失的计算也会更加方便。当从特征向量直接预测一个目标框时，x_c,y_c,|u|,|v|,ρ的损失可以采用回归的方式计算，也就是直接计算数值之间的差异，如Smooth L1、L2等。s的损失可以采用分类的方式计算，让模型为s输出两个值，分别表示取同号和异号的可能性，代表同号的值大就是同号，否则就是异号，具体的损失值则可以用Corss Entropy、L2等。

当用特征向量预测锚点框到目标框的回归参数时，可以直接人为规定同号的锚点框向同号的目标框回归，异号的锚点框向异号的目标框回归。那么就不用计算s的损失。

如果是正框，显然向量

的坐标就是范围框宽高的一半。可以通过令

使该标注方式与正框兼容。

要获得范围框四个顶点的坐标，可以通过求解以下方程组的方式实现。方程组中的

的坐标是未知的，求解出

后可以通过向量加减运算求出顶点坐标。

方程组中的第一个式子表示向量

与向量

垂直，第二个式子表示向量

与向量

的长度相等，第三个式子表示从

到

的夹角只能是顺时针方向或者逆时针方向中的一种。在使用时第三个式子只取用一个即可。

附图说明

图1是标注方式的示意图；

图2是计算

与其预测值

之间损失值的示意图。

图1中X表示表示图像行方向上的坐标轴，Y表示图像列方向上的坐标轴，C表示范围框的中心点，D、E为范围框的某两个顶点，P为

在

上的投影点。

图2中

表示范围框中心点到顶点D的向量，

表示

的预测值，

表示

在

上的投影向量，e_p表示

e_a表示

有益效果

本发明提供的倾斜矩形范围框标注方式解决了背景技术的问题，对于模型训练有重大积极意义。本发明提供了同一个范围框仅有两种数值表示的标注方式，且这两种数值表示中仅有(u,v)互为相反数，其它数值都相等。再引入一个量s表示

的两个分量是同号还是异号，就可以将同一个范围框的数值表示减少到一个。该标注方式能够有效避免损失异常，有利于模型训练。另外本发明提供的标注方式在计算损失时不需要调整维度之间的对应关系。

具体实施方式

下面是本发明的实施例。本发明不局限于下面的优选实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或者相近似的技术方案，均属于本发明的保护范围。

【实施例1】

对样本图像进行标注时对其中x_c,y_c,u,v的取值按照图像的宽(w_i)高(h_i)进行归一化。为了与正框兼容，将|u|,|v|扩大至原来的2倍。那么标注文件中对应的取值为x_c/w_i,y_c/h_i,2|u|/w_i,2|v|/h_i,s,ρ。

【实施例2】

规定同号的锚点框向同号的目标框回归，异号的锚点框向异号的目标框回归，从锚点框到目标框的回归参数可以用如下公式定义。

t_u＝ln(|u|^*/|u|^a),t_v＝ln(|v|^*/|v|^a),t_ρ＝ln(ρ^*/ρ^a)

其中

|u|^*,|v|^*,ρ^*是目标框的值，

|u|^a,|v|^a,ρ^a是预设锚点框的值，t_x,t_y,t_u,t_v,t_ρ为将锚点框变换为目标框的回归参数，也是模型需要直接预测的值。