CN117095161B

CN117095161B - 一种向量化编码的旋转目标检测方法及装置

Info

Publication number: CN117095161B
Application number: CN202311366732.8A
Authority: CN
Inventors: 王林飞; 林旭; 吴婉银; 齐冲冲; 杨延华; 杨二昆
Original assignee: Yunnan United Visual Technology Co ltd
Current assignee: Yunnan United Visual Technology Co ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2023-12-22
Anticipated expiration: 2043-10-20
Also published as: CN117095161A

Abstract

本发明涉及一种向量化编码的旋转目标检测方法及装置，属于图像处理技术领域。本发明包括：对边框进行向量化：将通用五参数定义法的旋转边界框编码为以中心点为坐标系原点的正交向量组，将原本边界框信息用向量组隐式化地表示。基于向量相似度估计回归：使用谷本系数构建旋转边界框回归损失，将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题；对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。本发明能提升预测方向边界框准确性。

Description

一种向量化编码的旋转目标检测方法及装置

技术领域

本发明涉及一种向量化编码的旋转目标检测方法及装置，属于图像处理技术领域，旋转图像可以应用于遥感图像目标检测、文本识别、自动驾驶目标检测等需要细粒度旋转框来表征感兴趣目标的图像目标检测和识别领域。

背景技术

角度预测一直是旋转目标检测中的核心问题，不同于边界框中位置和形状信息预测的连续性，角度在边界框回归过程中是呈现周期性变化的，并且和交并比不直接相关。这一特性导致现有基于角度坐标表征的旋转边界框回归方法始终面临回归损失与不同旋转角度、长宽比和比例的预测误差不一致的问题，在AP75等严格的检测评价指标下会出现明显的性能退化。

在水平目标检测网络预测边界框和目标类别的基础上，直接新增一个回归分支预测角度是设计旋转目标检测网络的一个有效方法。然而，与位置和形状信息不同，物体的朝向是一种更细粒度的特征，不会直接影响边界框在交并比(IoU)计算指标下的回归精度。即使在角度误差较大的情况下，预测框和真实框的交并比仍可能非常高，被判定为预测正样本。此外，旋转角度的回归往往是一个周期性的不连续过程，而位置和形状是像素级变量，对预测偏差的容忍度更高。例如当角度在或范围内变化时, 因为边界框的定义，在角度范围的边界处可能会出现跳跃。尽管也有一部分解决角度回归问题的工作，但它们仍然受到旋转边界框表示方法的限制，导致损失和实际边界框之间的回归误差始终存在。

目前，面向目标检测的边框回归方法大致可以分为三类：1）基于范数的回归；2）基于偏斜交并比（Skew-IoU）的回归；3）基于高斯概率分布的回归。具体来说，第一类基于范数的回归方法存在显式边界框参数优化的问题，需要使用OpenCV或长边缘定义。这种损失导致角度不连续（DoA）和边缘交换（EoE）与边界框旋转有关。这会导致回归过程中的损失出现振荡，阻碍模型的最终收敛。值得注意的是，这种显式的边界框优化通常需要根据特定数据集的特点手动选择回归参数的权重。不同之处在于，第二类基于偏斜交并比（Skew- IoU）的回归和第三类基于高斯概率分布的回归通过最小化两个边界框之间的偏斜交集或两个高斯函数的分布距离来评估预测误差。然而，上述方法在面对长宽比和旋转角度的大幅变化时性能下降，导致边界框回归不准确，为了系统地解决上述问题，本发明提出了一种新的旋转目标检测方法，通过向量化编码，将原始的边界框转化为一组能隐式地表示物体的形状和方向的正交向量，并且使用谷本系数作为向量相似度计算依据，设计了一种同时具有形状和方向感知能力的回归损失，避免了现有旋转目标检测中普遍存在的损失评估和实际预测误差不一致的问题，可以预测精确的方向边界框。

发明内容

为了解决上述问题，本发明提供了一种向量化编码的旋转目标检测方法及装置，本发明能提升预测方向边界框准确性。

本发明的技术方案是：第一方面，本发明提供一种向量化编码的旋转目标检测方法，包括：

对边框进行向量化：将通用五参数定义法的旋转边界框编码为以中心点为坐标系原点的正交向量组，将原本边界框信息用向量组隐式化地表示；

基于向量相似度估计回归：使用谷本系数构建旋转边界框回归损失，将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题；其中，使用谷本系数构建旋转边界框回归损失包括使用余弦相似性来捕获向量之间的角度差异。

进一步地，所述对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。

进一步地，所述把长边定义法表示的边界框转化为向量表示法定义的边界框包括如下：

对于一个任意的长边定义法表示的边界框，首先以为原点构建直角坐标系，并任意选择或作为第一个向量，另一个作为第二个向量；假设选定作为初始的第一个向量，则该边界框对应的两组向量和表示为：

(1)

其中，和被视为与坐标系x轴平行的两个向量，和是与边界框的长边和短边对应的旋转矩阵，第二个向量的方向与第一个向量的方向相差90度；和的定义如下：

(2)

(3)

然后得到旋转边界框的另一种表示形式，向量表示法定义的边界框表示为：

(4)

根据上述策略，得到与真实框对应的四个候选向量；将两个坐标系对齐到框的中心点以选择与预测相匹配的真实框的向量集；接着，以预测的向量集作为参照点，分别计算预测向量集与真实框各候选向量集之间的相似性；表示预测和真实框的向量集根据最小匹配代价的原则计算；

其中，、是两种对旋转边界框的表示方法，旋转边界框在长边定义法、向量表示法中的表示分别为：，公式(1)中、分别是中和、中和的具体计算方法，，。

进一步地，所述把OpenCV定义法表示的边界框转化为向量表示法定义的边界框包括：

和是能互相转换的，转换公式如下：

因此，表征转换为后，也能用相同的向量化公式（1）-（4）得到对应的；

其中，是一种对旋转边界框的表示方法，旋转边界框在OpenCV定义法和长边定义法中分别表示为和。

与和相比，的向量表示形式多了一个参数，它可以通过一组正交向量隐式地表示边界框的形状和方向，从而避免了目标函数中直接优化角度所导致的损失评估与实际预测误差之间不一致的问题。另一方面，与高斯表示相比，可以方便地利用向量的数学属性计算预测框的形状和方向误差，而不需要引入概率分布之间的复杂相似性估计。

L范数距离是衡量向量之间相似性的最常见方法。然而，在目标检测中，预测的元素是相互关联的。尽管将边界框的元素转换到了一个统一的维度，但是由于边界框的向量化表示不是唯一的，直接对每个参数进行回归并不可取。此外，方向回归对于确保高精度的边界框预测具有重要意义；因此，在基于向量相似度估计回归中，使用谷本系数构建旋转边界框回归损失包括使用余弦相似性来捕获向量之间的角度差异；所述使用余弦相似性来捕获向量之间的角度差异包括：

给定，则和之间的余弦相似度表示为：

(5)

从几何意义上来看，反映出两个向量在方向上的相似度，点乘结果越大，说明两个向量的角度差异越小；则是表示两个向量长度的乘积；当时，和是正相关的；当时，和是负相关的；

仅靠余弦相似性不足以评估两个边界框之间的形状差异。因此，受余弦相似度的启发，创新性地引入了谷本系数来捕捉两个向量化编码后的边界框之间的相似度。谷本系数于20世纪提出，此后广泛应用于化学信息学中用于评估分子之间的相似性。两个向量之间的谷本系数定义为：

(6)

对于一个预测的边界框和真实框，分别向量化后得到对应的正交向量组和，他们之间的谷本系数使用下述公式计算：

(7)

N表示正交向量组中的向量个数，在2D目标检测中，N=2，如果扩展到3D目标检测中，N=3；、则分别表示和中的第i个向量；

具有以下的特性：

1)，由于边界框之间两条边总是，因此；

2) 有且仅当，时，；

3) ；

基于谷本系数的形状和角度损失被建模为：

(8)

是一个控制损失惩罚敏感度的调节因子，默认被设置为2；

考虑到无法评估预测框和真实框在位置上的误差，引入平滑的范数来回归边界框的中心点，并使用带有锚点的差分编码来缓解损失计算中尺度扰动的影响；对于预测框中心点和真实框中心点即目标框中心点，先通过差分编码获得, , 和：

, (9)

, (10)

其中和表示锚框的中心点，和代表锚框的宽度和长度；、是预测框中心点的横纵坐标，、是真实框中心点即目标框中心点的横纵坐标；

然后，向量位置相关的中心距离损失表示为：

(11)

其中，，故和就对应公式(9) (10)中的，和，；

最终基于向量相似度估计的回归损失是距离损失和谷本系数损失之和：

(12)

能同时回归预测框的位置、形状和角度，从而获得高精度的旋转目标检测模型。

第二方面，本发明还提供一种向量化编码的旋转目标检测装置，该装置包括用于执行上述第一方面的方法的模块。

本发明的有益效果是：

1、本发明向量化编码的方法可以将边界框中的形状和角度等信息隐式化，从而避免直接对边界框的高度、宽度以及角度等信息算欧氏距离误差出现的角度不连续，边界框互换问题。

2、本发明设计了一种基于向量相似度估计的旋转边界框回归损失，并引入了谷本系数来进行度量，它对不同尺度、长宽比和朝向的目标都具有不变性，解决了现有旋转边界框回归过程中的损失评估和实际预测误差不一致的问题，提升了边界框预测的精度。

附图说明

图1为本发明边界框现有表征、和向量表征的转换示意图；

图2为本发明基于向量相似度估计的边界框回归流程图。

具体实施方式

下面结合附图，对本发明的实施例进行描述。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例的执行主体可以为各种类型的终端，终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理（英文：Personal DigitalAssistant，缩写：PDA）、移动互联网设备（英文：Mobile Internet Device，缩写：MID）等可进行文本处理的终端，本发明对此不作任何限制。

如图2所示，是本发明基于向量相似度估计的边界框回归流程图，本发明提供的一种向量化编码的旋转目标检测方法，包括：

所述对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。

在一种可行的实施方式中，所述把长边定义法表示的边界框转化为向量表示法定义的边界框包括如下：

(1)

(2)

(3)

(4)

在一种可行的实施方式中，所述把OpenCV定义法表示的边界框转化为向量表示法定义的边界框包括：

和是能互相转换的，转换公式如下：

如图1所示为本发明边界框现有表征、和向量表征的转换示意图；输入一个任意朝向的感兴趣目标，以及其对应地旋转标注框，可以先利用常见的旋转边界框五参数定义法得到OpenCV定义法中的表示或长边定义法表示的边界框，然后利用公式(1)、(2)、(3)、(4)可得到以为坐标系原点的向量表示法定义的边界框。原本的边界框可以被替代为一组互相正交的向量，，隐式地表征边界框的长、宽和角度。

本发明一种向量化编码的旋转目标检测方法还包括，基于向量相似度估计回归：使用谷本系数构建旋转边界框回归损失，将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题，其中，使用谷本系数构建旋转边界框回归损失包括使用余弦相似性来捕获向量之间的角度差异。如图2所示，是本发明基于向量相似度估计的边界框回归流程图，参数d表示两个中心坐标点之间的距离distance的简写，表示匹配向量之间的角度差，由于同一个边界框对应的向量之间是正交的，所以图2中匹配之后的向量之间两个是相等的；在检测模型的边界框回归期间，首先可以分别得到预测框和真实框对应的个组候选向量，然后以将二者的中心点对齐，使预测框和真实框之间可以互相计算向量相似度，再通过两两之间向量相似度最大的原则完成真实框和预测框之间的向量组匹配。在回归损失计算阶段，先利用谷本系数可以得到形状和朝向的相似度，然后对位置坐标进行差分编码，通过Smooth L1范数计算其距离损失，Smooth L1范数即平滑 L1范数。

在一种可行的实施方式中，所述使用余弦相似性来捕获向量之间的角度差异包括：

给定，则和之间的余弦相似度表示为：

(5)

引入谷本系数来捕捉两个向量化编码后的边界框之间的相似度；两个向量之间的谷本系数定义为：

(6)

(7)

具有以下的特性：

1)，由于边界框之间两条边总是，因此；

2) 有且仅当，时，；

3) ；

基于谷本系数的形状和角度损失被建模为：

(8)

是一个控制损失惩罚敏感度的调节因子，默认被设置为2；

引入平滑的范数来回归边界框的中心点，并使用带有锚点的差分编码来缓解损失计算中尺度扰动的影响；对于预测框中心点和真实框中心点即目标框中心点，先通过差分编码获得,, 和：

, (9)

, (10)

然后，向量位置相关的中心距离损失表示为：

(11)

其中，，故和就对应公式(9) (10)中的，和，；

(12)

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法第一实施例实现的方法，为了便于说明，仅示出了本发明实施例相关的部分，具体未揭示的部分，请参照本发明第一实施例。

本发明实施例提供一种向量化编码的旋转目标检测装置，该装置包括：

边框向量化模块：用于将通用五参数定义法（）的旋转边界框编码为以中心点)为坐标系原点的正交向量组，将原本边界框信息用向量组隐式化地表示。

基于向量相似度估计回归模块：用于使用谷本系数构建旋转边界框回归损失，将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题。

在一种可行的实施方式中，边框向量化模块包括第一边框向量化模块或第二边框向量化模块；

第一边框向量化模块用于把长边定义法表示的边界框转化为向量表示法定义的边界框；第二边框向量化模块用于把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。

为了验证本发明的效果，本发明使用不同旋转边界框回归方法在DOTA数据集上的检测性能比较，结果如表1所示，其中，R3Det和Oriented R-CNN是两类最有代表性的旋转目标检测网络，从表1中可知，本发明的检测性能指标是最好的，证明本发明的检测方法是有效的；

表1

本发明主要从边界框表征的根源上来解决，摒弃了原有对旋转边界框的五参数表示法（），将使用OpenCV定义或长边定义法的旋转边界框重新编码为一组正交向量组。具体来说，考虑到向量隐含地包含了大小和方向信息，创新地使用一组向量来表示方向边界框，这可以将边界框的任意表示形式转化为正交向量集，并为边界框回归的向量相似性估计提供了可能性。为了评估边界框之间的向量相似性，采用了谷本系数来避免形状和方向上显式和孤立的变量回归问题。谷本系数作为一种简单而有效的向量相似性度量函数，对边界框尺度、长宽比和角度的变化具有稳健性。基于所提出的向量化方法，设计了距离损失和谷本系数损失用于旋转目标检测中的边界框回归，这有利于学习具有高精度方向边界框的稳健检测模型。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种向量化编码的旋转目标检测方法，其特征在于：包括：

对边框进行向量化：将通用五参数定义法的旋转边界框编码为以中心点为坐标系原点的正交向量组/>，将原本边界框信息用向量组隐式化地表示；

基于向量相似度估计回归：使用谷本系数构建旋转边界框回归损失，将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题；其中，使用谷本系数构建旋转边界框回归损失包括使用余弦相似性来捕获向量之间的角度差异；

所述对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框；

所述把长边定义法表示的边界框转化为向量表示法定义的边界框包括如下：

对于一个任意的长边定义法表示的边界框，首先以/>为原点构建直角坐标系，并任意选择/>或/>作为第一个向量，另一个作为第二个向量；假设选定/>作为初始的第一个向量，则该边界框对应的两组向量/>和/>表示为：

(1)

其中，和 />被视为与坐标系x轴平行的两个向量，/>和/>是与边界框/>的长边和短边对应的旋转矩阵，第二个向量的方向与第一个向量的方向相差90度；/>和/>的定义如下：

(2)

(3)

(4)

其中，、/>是两种对旋转边界框的表示方法，旋转边界框在长边定义法、向量表示法中的表示分别为：/>，公式(1)中/>、分别是/>中/>和/>、/>中/>和/>的具体计算方法，，/>；

所述把OpenCV定义法表示的边界框转化为向量表示法定义的边界框包括：

和/>是能互相转换的，转换公式如下：

；

因此，表征转换为/>后，也能用相同的向量化公式（1）-（4）得到对应的；

其中，是一种对旋转边界框的表示方法，旋转边界框在OpenCV定义法和长边定义法中分别表示为/>和/>。

2.根据权利要求1所述的向量化编码的旋转目标检测方法，其特征在于：所述使用余弦相似性来捕获向量之间的角度差异包括：

给定，则/> 和 />之间的余弦相似度表示为：

(5)

从几何意义上来看，反映出两个向量在方向上的相似度，点乘结果越大，说明两个向量的角度差异越小；/>则是表示两个向量长度的乘积；当/>时，和 />是正相关的；当/>时，/> 和 />是负相关的；

(6)

对于一个预测的边界框和真实框/>，分别向量化后得到对应的正交向量组/> 和，他们之间的谷本系数/>使用下述公式计算：

(7)

N表示正交向量组中的向量个数，在2D目标检测中，N=2，如果扩展到3D目标检测中，N=3；、/>则分别表示/> 和 />中的第i个向量；

具有以下的特性：

1)，由于边界框之间两条边总是/>，因此/>；

2) 有且仅当，/>时，/>；

3) ；

基于谷本系数的形状和角度损失被建模为：

(8)

是一个控制损失惩罚敏感度的调节因子，默认被设置为2；

引入平滑的范数来回归边界框的中心点，并使用带有锚点的差分编码来缓解损失计算中尺度扰动的影响；对于预测框中心点/>和真实框中心点即目标框中心点/>，先通过差分编码获得/>,/>,/> 和 />：

, /> (9)

, /> (10)

其中和 />表示锚框的中心点，/> 和 />代表锚框的宽度和长度；/>、/>是预测框中心点的横纵坐标，/>、/>是真实框中心点即目标框中心点的横纵坐标；

然后，向量位置相关的中心距离损失表示为：

(11)

其中，，故/>和/>就对应公式(9) (10)中的/>，/>和/>，/>；

(12)

3.一种向量化编码的旋转目标检测装置，其特征在于：包括用于执行如权利要求1-2任一权利要求所述的方法的模块。