CN117095161B - 一种向量化编码的旋转目标检测方法及装置 - Google Patents
一种向量化编码的旋转目标检测方法及装置 Download PDFInfo
- Publication number
- CN117095161B CN117095161B CN202311366732.8A CN202311366732A CN117095161B CN 117095161 B CN117095161 B CN 117095161B CN 202311366732 A CN202311366732 A CN 202311366732A CN 117095161 B CN117095161 B CN 117095161B
- Authority
- CN
- China
- Prior art keywords
- vector
- bounding box
- frame
- vectors
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000013598 vector Substances 0.000 claims abstract description 154
- 238000001514 detection method Methods 0.000 claims description 30
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000001276 controlling effect Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- XUKUURHRXDUEBC-KAYWLYCHSA-N Atorvastatin Chemical group C=1C=CC=CC=1C1=C(C=2C=CC(F)=CC=2)N(CC[C@@H](O)C[C@@H](O)CC(O)=O)C(C(C)C)=C1C(=O)NC1=CC=CC=C1 XUKUURHRXDUEBC-KAYWLYCHSA-N 0.000 description 1
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种向量化编码的旋转目标检测方法及装置,属于图像处理技术领域。本发明包括:对边框进行向量化:将通用五参数定义法的旋转边界框编码为以中心点为坐标系原点的正交向量组,将原本边界框信息用向量组隐式化地表示。基于向量相似度估计回归:使用谷本系数构建旋转边界框回归损失,将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题;对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。本发明能提升预测方向边界框准确性。
Description
技术领域
本发明涉及一种向量化编码的旋转目标检测方法及装置,属于图像处理技术领域,旋转图像可以应用于遥感图像目标检测、文本识别、自动驾驶目标检测等需要细粒度旋转框来表征感兴趣目标的图像目标检测和识别领域。
背景技术
角度预测一直是旋转目标检测中的核心问题,不同于边界框中位置和形状信息预测的连续性,角度在边界框回归过程中是呈现周期性变化的,并且和交并比不直接相关。这一特性导致现有基于角度坐标表征的旋转边界框回归方法始终面临回归损失与不同旋转角度、长宽比和比例的预测误差不一致的问题,在AP75等严格的检测评价指标下会出现明显的性能退化。
在水平目标检测网络预测边界框和目标类别的基础上,直接新增一个回归分支预
测角度是设计旋转目标检测网络的一个有效方法。然而,与位置和形状信息不同,物体的朝
向是一种更细粒度的特征,不会直接影响边界框在交并比(IoU)计算指标下的回归精度。即
使在角度误差较大的情况下,预测框和真实框的交并比仍可能非常高,被判定为预测正样
本。此外,旋转角度的回归往往是一个周期性的不连续过程,而位置和形状是像素级变量,
对预测偏差的容忍度更高。例如当角度在或范围内变化时, 因为边界框的定
义,在角度范围的边界处可能会出现跳跃。尽管也有一部分解决角度回归问题的工作,但它
们仍然受到旋转边界框表示方法的限制,导致损失和实际边界框之间的回归误差始终存
在。
目前,面向目标检测的边框回归方法大致可以分为三类:1)基于范数的回归;2)
基于偏斜交并比(Skew-IoU)的回归;3)基于高斯概率分布的回归。具体来说,第一类基于
范数的回归方法存在显式边界框参数优化的问题,需要使用OpenCV或长边缘定义。这种损
失导致角度不连续(DoA)和边缘交换(EoE)与边界框旋转有关。这会导致回归过程中的损失
出现振荡,阻碍模型的最终收敛。值得注意的是,这种显式的边界框优化通常需要根据特定
数据集的特点手动选择回归参数的权重。不同之处在于,第二类基于偏斜交并比(Skew-
IoU)的回归和第三类基于高斯概率分布的回归通过最小化两个边界框之间的偏斜交集或
两个高斯函数的分布距离来评估预测误差。然而,上述方法在面对长宽比和旋转角度的大
幅变化时性能下降,导致边界框回归不准确,为了系统地解决上述问题,本发明提出了一种
新的旋转目标检测方法,通过向量化编码,将原始的边界框转化为一组能隐式地表示物体
的形状和方向的正交向量,并且使用谷本系数作为向量相似度计算依据,设计了一种同时
具有形状和方向感知能力的回归损失,避免了现有旋转目标检测中普遍存在的损失评估和
实际预测误差不一致的问题,可以预测精确的方向边界框。
发明内容
为了解决上述问题,本发明提供了一种向量化编码的旋转目标检测方法及装置,本发明能提升预测方向边界框准确性。
本发明的技术方案是:第一方面,本发明提供一种向量化编码的旋转目标检测方法,包括:
对边框进行向量化:将通用五参数定义法的旋转边界框编码为以中
心点为坐标系原点的正交向量组,将原本边界框信息用向量组隐式化地表示;
基于向量相似度估计回归:使用谷本系数构建旋转边界框回归损失,将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题;其中,使用谷本系数构建旋转边界框回归损失包括使用余弦相似性来捕获向量之间的角度差异。
进一步地,所述对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。
进一步地,所述把长边定义法表示的边界框转化为向量表示法定义的边界框包括如下:
对于一个任意的长边定义法表示的边界框,首先以为原点构建直角坐标系,并任意选择或作为第一个向量,另一个作为第二个
向量;假设选定作为初始的第一个向量,则该边界框对应的两组向量和表示为:
(1)
其中, 和 被视为与坐标系x轴平行的两个向量,和是与边界
框的长边和短边对应的旋转矩阵,第二个向量的方向与第一个向量的方向相差90度;
和的定义如下:
(2)
(3)
然后得到旋转边界框的另一种表示形式,向量表示法定义的边界框表示为:
(4)
根据上述策略,得到与真实框对应的四个候选向量;将两个坐标系对齐到框的中心点以选择与预测相匹配的真实框的向量集;接着,以预测的向量集作为参照点,分别计算预测向量集与真实框各候选向量集之间的相似性;表示预测和真实框的向量集根据最小匹配代价的原则计算;
其中,、是两种对旋转边界框的表示方法,旋转边界框在长边定义法、向量表
示法中的表示分别为:,公式(1)中、分别是中和、中和的具体计算方法,,。
进一步地,所述把OpenCV定义法表示的边界框转化为向量表示法定义的边界框包括:
和是能互相转换的,转换公式如下:
因此,表征转换为后,也能用相同的向量化公式(1)-(4)得到对应的;
其中,是一种对旋转边界框的表示方法,旋转边界框在OpenCV定义法和长边定
义法中分别表示为和。
与和相比,的向量表示形式多了一个参数,它可以通过一组正交向量隐
式地表示边界框的形状和方向,从而避免了目标函数中直接优化角度所导致的损失评估与
实际预测误差之间不一致的问题。另一方面,与高斯表示相比,可以方便地利用向量的
数学属性计算预测框的形状和方向误差,而不需要引入概率分布之间的复杂相似性估计。
L范数距离是衡量向量之间相似性的最常见方法。然而,在目标检测中,预测的元
素是相互关联的。尽管将边界框的元素转换到了一个统一的维度,但是由于边界框的向
量化表示不是唯一的,直接对每个参数进行回归并不可取。此外,方向回归对于确保高精度
的边界框预测具有重要意义;因此,在基于向量相似度估计回归中,使用谷本系数构建旋转
边界框回归损失包括使用余弦相似性来捕获向量之间的角度差异;所述使用余弦相似性来
捕获向量之间的角度差异包括:
给定,则 和 之间的余弦相似度表示为:
(5)
从几何意义上来看,反映出两个向量在方向上的相似度,点乘结果越大,说明
两个向量的角度差异越小;则是表示两个向量长度的乘积;当
时, 和 是正相关的;当时, 和 是负相关的;
仅靠余弦相似性不足以评估两个边界框之间的形状差异。因此,受余弦相似度的启发,创新性地引入了谷本系数来捕捉两个向量化编码后的边界框之间的相似度。谷本系数于20世纪提出,此后广泛应用于化学信息学中用于评估分子之间的相似性。两个向量之间的谷本系数定义为:
(6)
对于一个预测的边界框和真实框,分别向量化后得到对应的正交向量组
和 ,他们之间的谷本系数使用下述公式计算:
(7)
N表示正交向量组中的向量个数,在2D目标检测中,N=2,如果扩展到3D目标检测
中,N=3;、则分别表示 和 中的第i个向量;
具有以下的特性:
1),由于边界框之间两条边总是,因此;
2) 有且仅当,时,;
3) ;
基于谷本系数的形状和角度损失被建模为:
(8)
是一个控制损失惩罚敏感度的调节因子,默认被设置为2;
考虑到无法评估预测框和真实框在位置上的误差,引入平滑的范数来回归
边界框的中心点,并使用带有锚点的差分编码来缓解损失计算中尺度扰动的影响;对于预
测框中心点和真实框中心点即目标框中心点,先通过差分编码获得,
, 和 :
, (9)
, (10)
其中 和 表示锚框的中心点, 和 代表锚框的宽度和长度;、是
预测框中心点的横纵坐标,、是真实框中心点即目标框中心点的横纵坐标;
然后,向量位置相关的中心距离损失表示为:
(11)
其中,,故和就对应公式(9) (10)中的,和,;
最终基于向量相似度估计的回归损失是距离损失和谷本系数损失之和:
(12)
能同时回归预测框的位置、形状和角度,从而获得高精度的旋转目标检测模
型。
第二方面,本发明还提供一种向量化编码的旋转目标检测装置,该装置包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
1、本发明向量化编码的方法可以将边界框中的形状和角度等信息隐式化,从而避免直接对边界框的高度、宽度以及角度等信息算欧氏距离误差出现的角度不连续,边界框互换问题。
2、本发明设计了一种基于向量相似度估计的旋转边界框回归损失,并引入了谷本系数来进行度量,它对不同尺度、长宽比和朝向的目标都具有不变性,解决了现有旋转边界框回归过程中的损失评估和实际预测误差不一致的问题,提升了边界框预测的精度。
附图说明
图1为本发明边界框现有表征、和向量表征的转换示意图;
图2为本发明基于向量相似度估计的边界框回归流程图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理(英文:Personal DigitalAssistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的终端,本发明对此不作任何限制。
如图2所示,是本发明基于向量相似度估计的边界框回归流程图,本发明提供的一种向量化编码的旋转目标检测方法,包括:
对边框进行向量化:将通用五参数定义法的旋转边界框编码为以中
心点为坐标系原点的正交向量组,将原本边界框信息用向量组隐式化地表示;
所述对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。
在一种可行的实施方式中,所述把长边定义法表示的边界框转化为向量表示法定义的边界框包括如下:
对于一个任意的长边定义法表示的边界框,首先以为原点构建直角坐标系,并任意选择或作为第一个向量,另一个作为第二个
向量;假设选定作为初始的第一个向量,则该边界框对应的两组向量和表示为:
(1)
其中, 和 被视为与坐标系x轴平行的两个向量,和是与边界
框的长边和短边对应的旋转矩阵,第二个向量的方向与第一个向量的方向相差90度;
和的定义如下:
(2)
(3)
然后得到旋转边界框的另一种表示形式,向量表示法定义的边界框表示为:
(4)
根据上述策略,得到与真实框对应的四个候选向量;将两个坐标系对齐到框的中心点以选择与预测相匹配的真实框的向量集;接着,以预测的向量集作为参照点,分别计算预测向量集与真实框各候选向量集之间的相似性;表示预测和真实框的向量集根据最小匹配代价的原则计算;
其中,、是两种对旋转边界框的表示方法,旋转边界框在长边定义法、向量表
示法中的表示分别为:,公式(1)中、分别是中和、中和的具体计算方法,,。
在一种可行的实施方式中,所述把OpenCV定义法表示的边界框转化为向量表示法定义的边界框包括:
和是能互相转换的,转换公式如下:
因此,表征转换为后,也能用相同的向量化公式(1)-(4)得到对应的;
其中,是一种对旋转边界框的表示方法,旋转边界框在OpenCV定义法和长边定
义法中分别表示为和。
如图1所示为本发明边界框现有表征、和向量表征的转换示意图;输入一
个任意朝向的感兴趣目标,以及其对应地旋转标注框,可以先利用常见的旋转边界框五参
数定义法得到OpenCV定义法中的表示或长边定义法表示的边界框,然后利用公式(1)、(2)、(3)、(4)可得到以为坐标系原点的向
量表示法定义的边界框。原本的边界框可以被替代为一组互相正交的向量,,隐式
地表征边界框的长、宽和角度。
本发明一种向量化编码的旋转目标检测方法还包括,基于向量相似度估计回归:
使用谷本系数构建旋转边界框回归损失,将边界框回归问题建模为一个预测框和真实框所
对应向量组之间的向量相似度估计问题,其中,使用谷本系数构建旋转边界框回归损失包
括使用余弦相似性来捕获向量之间的角度差异。如图2所示,是本发明基于向量相似度估计
的边界框回归流程图,参数d表示两个中心坐标点之间的距离distance的简写,表示匹配
向量之间的角度差,由于同一个边界框对应的向量之间是正交的,所以图2中匹配之后的向
量之间两个是相等的;在检测模型的边界框回归期间,首先可以分别得到预测框和真实框
对应的个组候选向量,然后以将二者的中心点对齐,使预测框和真实框之间可以互相计算
向量相似度,再通过两两之间向量相似度最大的原则完成真实框和预测框之间的向量组匹
配。在回归损失计算阶段,先利用谷本系数可以得到形状和朝向的相似度,然后对位置坐标
进行差分编码,通过Smooth L1范数计算其距离损失,Smooth L1范数即平滑 L1范数。
在一种可行的实施方式中,所述使用余弦相似性来捕获向量之间的角度差异包括:
给定,则 和 之间的余弦相似度表示为:
(5)
从几何意义上来看,反映出两个向量在方向上的相似度,点乘结果越大,说明
两个向量的角度差异越小;则是表示两个向量长度的乘积;当
时, 和 是正相关的;当时, 和 是负相关的;
引入谷本系数来捕捉两个向量化编码后的边界框之间的相似度;两个向量之间的谷本系数定义为:
(6)
对于一个预测的边界框和真实框,分别向量化后得到对应的正交向量组
和 ,他们之间的谷本系数使用下述公式计算:
(7)
N表示正交向量组中的向量个数,在2D目标检测中,N=2,如果扩展到3D目标检测
中,N=3;、则分别表示 和 中的第i个向量;
具有以下的特性:
1),由于边界框之间两条边总是,因此;
2) 有且仅当,时,;
3) ;
基于谷本系数的形状和角度损失被建模为:
(8)
是一个控制损失惩罚敏感度的调节因子,默认被设置为2;
引入平滑的范数来回归边界框的中心点,并使用带有锚点的差分编码来缓解损
失计算中尺度扰动的影响;对于预测框中心点和真实框中心点即目标框中心点,先通过差分编码获得,, 和 :
, (9)
, (10)
其中 和 表示锚框的中心点, 和 代表锚框的宽度和长度;、是
预测框中心点的横纵坐标,、是真实框中心点即目标框中心点的横纵坐标;
然后,向量位置相关的中心距离损失表示为:
(11)
其中,,故和就对应公式(9) (10)中的,和,;
最终基于向量相似度估计的回归损失是距离损失和谷本系数损失之和:
(12)
能同时回归预测框的位置、形状和角度,从而获得高精度的旋转目标检测模
型。
下面为本发明装置实施例,本发明装置实施例用于执行本发明方法第一实施例实现的方法,为了便于说明,仅示出了本发明实施例相关的部分,具体未揭示的部分,请参照本发明第一实施例。
本发明实施例提供一种向量化编码的旋转目标检测装置,该装置包括:
边框向量化模块:用于将通用五参数定义法()的旋转边界框编码为以
中心点)为坐标系原点的正交向量组,将原本边界框信息用向量组隐式化地表
示。
基于向量相似度估计回归模块:用于使用谷本系数构建旋转边界框回归损失,将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题。
在一种可行的实施方式中,边框向量化模块包括第一边框向量化模块或第二边框向量化模块;
第一边框向量化模块用于把长边定义法表示的边界框转化为向量表示法定义的边界框;第二边框向量化模块用于把OpenCV定义法表示的边界框转化为向量表示法定义的边界框。
为了验证本发明的效果,本发明使用不同旋转边界框回归方法在DOTA数据集上的检测性能比较,结果如表1所示,其中,R3Det和Oriented R-CNN是两类最有代表性的旋转目标检测网络,从表1中可知,本发明的检测性能指标是最好的,证明本发明的检测方法是有效的;
表1
本发明主要从边界框表征的根源上来解决,摒弃了原有对旋转边界框的五参数表
示法(),将使用OpenCV定义或长边定义法的旋转边界框重新编码为一组正交
向量组。具体来说,考虑到向量隐含地包含了大小和方向信息,创新地使用一组向量来表示
方向边界框,这可以将边界框的任意表示形式转化为正交向量集,并为边界框回归的向量
相似性估计提供了可能性。为了评估边界框之间的向量相似性,采用了谷本系数来避免形
状和方向上显式和孤立的变量回归问题。谷本系数作为一种简单而有效的向量相似性度量
函数,对边界框尺度、长宽比和角度的变化具有稳健性。基于所提出的向量化方法,设计了
距离损失和谷本系数损失用于旋转目标检测中的边界框回归,这有利于学习具有高精度方
向边界框的稳健检测模型。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种向量化编码的旋转目标检测方法,其特征在于:包括:
对边框进行向量化:将通用五参数定义法的旋转边界框编码为以中心点为坐标系原点的正交向量组/>,将原本边界框信息用向量组隐式化地表示;
基于向量相似度估计回归:使用谷本系数构建旋转边界框回归损失,将边界框回归问题建模为一个预测框和真实框所对应向量组之间的向量相似度估计问题;其中,使用谷本系数构建旋转边界框回归损失包括使用余弦相似性来捕获向量之间的角度差异;
所述对边框进行向量化包括把长边定义法表示的边界框转化为向量表示法定义的边界框或把OpenCV定义法表示的边界框转化为向量表示法定义的边界框;
所述把长边定义法表示的边界框转化为向量表示法定义的边界框包括如下:
对于一个任意的长边定义法表示的边界框,首先以/>为原点构建直角坐标系,并任意选择/>或/>作为第一个向量,另一个作为第二个向量;假设选定/>作为初始的第一个向量,则该边界框对应的两组向量/>和/>表示为:
(1)
其中, 和 />被视为与坐标系x轴平行的两个向量,/>和/>是与边界框/>的长边和短边对应的旋转矩阵,第二个向量的方向与第一个向量的方向相差90度;/>和/>的定义如下:
(2)
(3)
然后得到旋转边界框的另一种表示形式,向量表示法定义的边界框表示为:
(4)
根据上述策略,得到与真实框对应的四个候选向量;将两个坐标系对齐到框的中心点以选择与预测相匹配的真实框的向量集;接着,以预测的向量集作为参照点,分别计算预测向量集与真实框各候选向量集之间的相似性;表示预测和真实框的向量集根据最小匹配代价的原则计算;
其中,、/>是两种对旋转边界框的表示方法,旋转边界框在长边定义法、向量表示法中的表示分别为:/>,公式(1)中/>、分别是/>中/>和/>、/>中/>和/>的具体计算方法,,/>;
所述把OpenCV定义法表示的边界框转化为向量表示法定义的边界框包括:
和/>是能互相转换的,转换公式如下:
;
;
因此,表征转换为/>后,也能用相同的向量化公式(1)-(4)得到对应的;
其中,是一种对旋转边界框的表示方法,旋转边界框在OpenCV定义法和长边定义法中分别表示为/>和/>。
2.根据权利要求1所述的向量化编码的旋转目标检测方法,其特征在于:所述使用余弦相似性来捕获向量之间的角度差异包括:
给定,则/> 和 />之间的余弦相似度表示为:
(5)
从几何意义上来看,反映出两个向量在方向上的相似度,点乘结果越大,说明两个向量的角度差异越小;/>则是表示两个向量长度的乘积;当/>时, 和 />是正相关的;当/>时,/> 和 />是负相关的;
引入谷本系数来捕捉两个向量化编码后的边界框之间的相似度;两个向量之间的谷本系数定义为:
(6)
对于一个预测的边界框和真实框/>,分别向量化后得到对应的正交向量组/> 和,他们之间的谷本系数/>使用下述公式计算:
(7)
N表示正交向量组中的向量个数,在2D目标检测中,N=2,如果扩展到3D目标检测中,N=3;、/>则分别表示/> 和 />中的第i个向量;
具有以下的特性:
1),由于边界框之间两条边总是/>,因此/>;
2) 有且仅当,/>时,/>;
3) ;
基于谷本系数的形状和角度损失被建模为:
(8)
是一个控制损失惩罚敏感度的调节因子,默认被设置为2;
引入平滑的范数来回归边界框的中心点,并使用带有锚点的差分编码来缓解损失计算中尺度扰动的影响;对于预测框中心点/>和真实框中心点即目标框中心点/>,先通过差分编码获得/>,/>,/> 和 />:
, /> (9)
, /> (10)
其中 和 />表示锚框的中心点,/> 和 />代表锚框的宽度和长度;/>、/>是预测框中心点的横纵坐标,/>、/>是真实框中心点即目标框中心点的横纵坐标;
然后,向量位置相关的中心距离损失表示为:
(11)
其中,,故/>和/>就对应公式(9) (10)中的/>,/>和/>,/>;
最终基于向量相似度估计的回归损失是距离损失和谷本系数损失之和:
(12)
能同时回归预测框的位置、形状和角度,从而获得高精度的旋转目标检测模型。
3.一种向量化编码的旋转目标检测装置,其特征在于:包括用于执行如权利要求1-2任一权利要求所述的方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311366732.8A CN117095161B (zh) | 2023-10-20 | 2023-10-20 | 一种向量化编码的旋转目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311366732.8A CN117095161B (zh) | 2023-10-20 | 2023-10-20 | 一种向量化编码的旋转目标检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095161A CN117095161A (zh) | 2023-11-21 |
CN117095161B true CN117095161B (zh) | 2023-12-22 |
Family
ID=88772070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311366732.8A Active CN117095161B (zh) | 2023-10-20 | 2023-10-20 | 一种向量化编码的旋转目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095161B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909591A (zh) * | 2019-09-29 | 2020-03-24 | 浙江大学 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
CN111242951A (zh) * | 2020-01-08 | 2020-06-05 | 上海眼控科技股份有限公司 | 车辆检测方法、装置、计算机设备和存储介质 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN112487912A (zh) * | 2020-11-24 | 2021-03-12 | 杭州电子科技大学 | 基于改进YOLOv3的任意方向舰船检测方法 |
CN113850848A (zh) * | 2021-09-26 | 2021-12-28 | 大连海事大学 | 无人艇载航海雷达与视觉图像协同的海上多目标长期检测与跟踪方法 |
CN114211498A (zh) * | 2021-12-30 | 2022-03-22 | 中国煤炭科工集团太原研究院有限公司 | 基于方向包围盒的锚杆支护机器人碰撞检测方法及系统 |
CN115830480A (zh) * | 2022-12-09 | 2023-03-21 | 西北工业大学 | 一种小样本航空图像旋转目标检测方法 |
CN116469001A (zh) * | 2023-03-02 | 2023-07-21 | 中国人民解放军96947部队 | 面向遥感影像的旋转框目标检测模型的构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695567B (zh) * | 2020-07-10 | 2021-03-05 | 中国水利水电科学研究院 | 一种改进的倾斜矩形范围框标注方式 |
-
2023
- 2023-10-20 CN CN202311366732.8A patent/CN117095161B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN110909591A (zh) * | 2019-09-29 | 2020-03-24 | 浙江大学 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
CN111242951A (zh) * | 2020-01-08 | 2020-06-05 | 上海眼控科技股份有限公司 | 车辆检测方法、装置、计算机设备和存储介质 |
CN112487912A (zh) * | 2020-11-24 | 2021-03-12 | 杭州电子科技大学 | 基于改进YOLOv3的任意方向舰船检测方法 |
CN113850848A (zh) * | 2021-09-26 | 2021-12-28 | 大连海事大学 | 无人艇载航海雷达与视觉图像协同的海上多目标长期检测与跟踪方法 |
CN114211498A (zh) * | 2021-12-30 | 2022-03-22 | 中国煤炭科工集团太原研究院有限公司 | 基于方向包围盒的锚杆支护机器人碰撞检测方法及系统 |
CN115830480A (zh) * | 2022-12-09 | 2023-03-21 | 西北工业大学 | 一种小样本航空图像旋转目标检测方法 |
CN116469001A (zh) * | 2023-03-02 | 2023-07-21 | 中国人民解放军96947部队 | 面向遥感影像的旋转框目标检测模型的构建方法 |
Non-Patent Citations (5)
Title |
---|
Bounding Box Vectorization for Oriented Object Detection with Tanimoto Coefficient Regression;Linfei Wang等;《IEEE Transactions on Multimedia( Early Access )》;1-13 * |
SKNet: Detecting Rotated Ships as Keypoints in Optical Remote Sensing Images;Zhenyu Cui等;《IEEE Transactions on Geoscience and Remote Sensing》;第59卷(第10期);8826 - 8840 * |
一种倾斜矩形范围框标注方式及遥感目标检测应用分析;宋文龙等;《中国水利水电科学研究院学报》;第19卷(第1期);165-172 * |
卷积神经网络旋转不变性的研究及应用;张舒雨;《中国优秀硕士学位论文全文数据库_信息科技辑》;I140-409 * |
基于旋转回归无锚点框的遥感目标检测算法研究;吴双宏;《中国优秀硕士学位论文全文数据库_工程科技Ⅱ辑》;C028-371 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095161A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461113B (zh) | 一种基于变形平面物体检测网络的大角度车牌检测方法 | |
CN113160287B (zh) | 一种基于特征融合的复杂构件点云拼接方法及系统 | |
Hu et al. | Efficient and automatic plane detection approach for 3-D rock mass point clouds | |
CN110634137A (zh) | 一种基于视觉感知的桥梁变形的监测方法、装置及设备 | |
CN112288758A (zh) | 一种电力设备红外与可见光图像配准方法 | |
CN109636790B (zh) | 一种管路结构的识别方法及装置 | |
CN103632338A (zh) | 一种基于匹配曲线特征的图像配准评估法 | |
CN110211178A (zh) | 一种利用投影计算的指针式仪表识别方法 | |
CN111383281A (zh) | 一种基于rbf神经网络的摄像机标定方法 | |
CN117095161B (zh) | 一种向量化编码的旋转目标检测方法及装置 | |
CN116543376B (zh) | 一种指针式仪表读数方法和系统 | |
CN116310285B (zh) | 一种基于深度学习的指针式仪表自动读数方法及系统 | |
CN116109685B (zh) | 一种零件点云配准方法、装置、设备及介质 | |
Huo et al. | New identification method of linear pointer instrument | |
CN109458955B (zh) | 基于平面度约束的离轴圆条纹投影测量零相位点求解方法 | |
CN115512343A (zh) | 一种圆形指针式仪表校正和读数识别方法 | |
Ye et al. | A Method of Binocular Laser 3-D Scanning Imaging for Reflective Workpieces | |
CN114266776B (zh) | 一种应用复合裂纹位移场函数的数字图像相关方法 | |
CN104700400A (zh) | 一种基于特征点训练的高精度图像匹配方法 | |
CN112651427B (zh) | 宽基线光学交会测量的像点快速高效匹配方法 | |
CN117115488B (zh) | 一种基于图像处理的水表检测方法 | |
CN117194849B (zh) | 基于矢量乘法的表面面形的误差求解方法 | |
CN113361548B (zh) | 一种用于高光图像的局部特征描述及匹配方法 | |
US20240078691A1 (en) | Model alignment method | |
Gostev | On the identification of unclosed curves |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |