CN111695567A - 一种改进的倾斜矩形范围框标注方式 - Google Patents
一种改进的倾斜矩形范围框标注方式 Download PDFInfo
- Publication number
- CN111695567A CN111695567A CN202010660705.1A CN202010660705A CN111695567A CN 111695567 A CN111695567 A CN 111695567A CN 202010660705 A CN202010660705 A CN 202010660705A CN 111695567 A CN111695567 A CN 111695567A
- Authority
- CN
- China
- Prior art keywords
- vector
- component
- range
- axis direction
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 abstract description 18
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 11
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种改进的倾斜矩形范围框标注方式,标注方式中用于标注的量是:中心点C的坐标、中心点到任意一个顶点D的向量C到D的一个相邻顶点E的向量在上的投影向量与的比例系数;要求与同向以及从到的夹角只能是顺时针方向或者逆时针方向中的一种;另规定记录在第一个位置的标注向量的分量到该向量的夹角是顺时针或逆时针方向且这个夹角取值范围为[0,90),第二个位置可以记录标注向量的另一个分量或者标注向量的模,在第三个位置上记录第一个分量的方向,该方向可以取X轴方向或Y轴方向,范围框是正方形时既可以取X轴方向也可以取Y轴方向。该标注方式为正方形和一般矩形范围框采用了完全相同的外部约束,有利于机器学习算法识别外部约束。
Description
技术领域
本发明提出一种改进的倾斜矩形范围框标注方式,该方式涉及到计算机视觉中的目标检测和跟踪算法,特别是基于监督学习的目标检测和跟踪算法,属于目标检测和跟踪算法中范围框标注方式的一种。该矩形范围框标注方式可以用于目标检测和跟踪算法的范围框输出、锚点框设置、样本标注。
背景技术
范围标注是图像中物体检测的重要步骤,物体检测在很多其他视觉研究问题中有着广泛的应用,如物体识别、行人检测、人脸检测、监控场景下的前景检测、运动跟踪、行为识别与分析等。一般的物体检测需要给定标注好物体外接矩形的数据库,以便使用基于梯度方向直方图(HOG)、形变部件模型(DPM)等有监督的物体检测模型进行模型训练。
已有一种标注倾斜范围框的方式(见附图2),其用于标注的量是范围框“中心点C的坐标、中心点到任意一个顶点D的向量C到D的一个相邻顶点E的向量在上的投影向量与的比例系数”,其代数表示为(xc,yc,u,v,s,ρ),其中(xc,yc)为中心点C的坐标,(u,v,s)表示和ρ为向量与的比例系数。s表示的两个分量是同正同负还是一正一负(后文将称之为同号或异号,可见s仅有两种取值),当同号时,和分别为(u,v)和(-u,-v);当异号时,和分别为(-u,v)和(u,-v)。要求ρ的取值范围为[0,1),也就是与同向,另外要求从到的夹角只能是顺时针方向或者逆时针方向中的一种。如此一来,同一个非正方形矩形范围框仅有一种数值表示。只有一种数值表示的意思是,二维空间中的一个范围框只对应唯一的一组数值(xc,yc,u,v,s,ρ),该组数值的任何改变都对应不同的范围框。比如,对于记录中心点坐标、宽、高、旋转角的倾斜范围框标注方式,再将旋转角加上或者减去2kπ+π/2,仍然表示同一个范围框,这个就是同一个范围框有多种数值表示。
在上述标注方式下,正方形范围框仍然有两种数值表示。因为,对于正方形范围框来说,任选一个顶点作为标注量都可以满足给定的约束。因此,上述标注方式对于正方形范围框仍然会出现损失异常。如果额外要求和只能处于限定的象限内(比如,和的两个分量同号),虽然可以使得正方形范围框也只有一种数值表示;然而由于正方形和一般矩形的外部约束不是完全相同的,会给机器学习算法识别外部约束带来困难。
发明内容
本发明的目的是为了避免上述技术中的问题,在上述技术基础上,对选来标注范围框的中心点到某个顶点的向量(前文用和表示,后文称之为标注向量)采用了一种新的表示方式,形成了一种新的倾斜矩形范围框标注方法。该方法使得正方形标注框和一般矩形标注框在相同的外部约束下满足一个目标框只有一种数值表示。
为了实现上述目的,本发明的技术方案是:一种改进的倾斜矩形范围框标注方式,标注方式中用于标注的量是:中心点C坐标、中心点C坐标到任意一个顶点D的向量中心点C坐标到顶点D的一个相邻顶点E的向量在向量上的投影向量与向量的比例系数;需要满足的外部约束:向量与向量同向,以及从向量到向量的夹角是顺时针方向或者逆时针方向中的一种;标注向量的表示方式:记录在第一个位置上的标注向量的分量到该向量的夹角是顺时针(或逆时针)方向且这个夹角取值范围为[0,90),在第二个位置上记录标注向量的模值或者另一个分量,在第三个位置上记录标注向量第一个分量的方向,该方向可以取X轴方向或Y轴方向,在范围框是正方形时既可以取X轴方向也可以取Y轴方向。
本发明的有益效果是:提供的改进倾斜矩形范围框标注方式解决了背景技术种正方形范围框仍然有多种数值表示的问题,且正方形标注框和一般矩形标注框满足相同的外部约束,有利于机器学习算法识别外部约束。
下面结合附图和实施例对本发明进行详细描述。
附图说明
图1是正方形范围框标注方式的示意图;
图2是背景技术中矩形范围框标注方式的示意图。
具体实施方式
图1中X表示表示图像行方向上的坐标轴,Y表示图像列方向上的坐标轴,C表示范围框的中心点(在上的投影点P也在此处),D、E为范围框的某两个顶点,Dx表示在X轴上的投影点,Ex表示在Y轴上的投影点。可以看出到的旋转方向与到的旋转方向是相同的,与的长度相同。
一种改进的倾斜矩形范围框标注方式,现有标注方式中用于标注的量是:中心点C坐标、中心点C坐标到任意一个顶点D的向量中心点C坐标到顶点D的一个相邻顶点E的向量在向量上的投影向量与向量的比例系数;需要满足的外部约束:向量与向量同向,以及从向量到向量的夹角是顺时针方向或者逆时针方向中的一种;本实施例改进的标注向量的表示方式:记录在第一个位置上的标注向量的分量到该向量的夹角是顺时针或逆时针方向且这个夹角取值范围为[0,90),在第二个位置上记录标注向量的模值或者另一个分量,在第三个位置上记录标注向量第一个分量的方向,该方向可以取X轴方向或Y轴方向,在范围框是正方形时既可以取X轴方向也可以取Y轴方向。
其中前述标注向量的两个分量或者标注向量的模以及标注向量分量的方向的记录位置可以灵活安排,也就是说标注向量可以表示为
(d,|u|,|v|)、(d,|v|,|u|)、(|u|,d,|v|)、(|u|,|v|,d)、(|v|,|u|,d)、(|v|,d,|u|)
其中u表示标注向量的一个到该向量的夹角是顺时针或逆时针方向且这个夹角取值范围为[0,90)的分量,d表示分量u的方向,v表示标注向量的另外一个分量或者标注向量的模。
下面是针对上述论述的进一步说明。
对于正方形范围框,任选一个顶点作为标注量都可以满足给定的约束,也就是说标注向量可以为如图1所示:中心点C到某个顶点D的向量与C到D的一个相邻顶点E的向量之间仅有的区别是两个坐标值位置互换以及其中一个坐标值互为相反数,也就是,如果的坐标为(u,v),那么的坐标为(-v,u)。如果设计出一种表示方式可以同时表示 那么就可以实现正方形标注框和一般矩形标注框在相同的外部约束下满足一个目标框只有一种数值表示。
将向量视作沿坐标轴方向的两个分量的和,可以看出两坐标值同号的向量(图1中)的两个分量中到该向量的夹角是顺时针方向的分量在X轴上,两坐标值异号的向量(图1中)的两个分量中到该向量的夹角是顺时针方向的分量在Y轴上。如果将到标注向量的夹角是顺时针方向的分量记录在第一个位置上;那么两坐标值同号的向量的第一个分量在X轴上,两坐标值异号的向量的第一个分量在Y轴上。对于正方形范围框,既可以采用两坐标值同号的向量(图1中)标注,也可以采用两坐标值异号的向量(图1中)标注;即第一个分量既可以在X轴上也可以在Y轴上。容易看出,采用这种标注方式时,正方形范围的两个标注向量的第一个分量的模是相同的。
因此在满足背景技术中规定的外部约束下,另外规定记录在第一个位置上的标注向量的分量到该向量的夹角是顺时针(或逆时针)方向且这个夹角取值范围为[0,90);那么另一个分量可以记录在第二个位置上,在第三个位置上记录第一个分量的方向。第一个分量所处的方向可以取X轴方向或Y轴方向,在范围框是正方形时既可以取X轴方向也可以取Y轴方向。由于标注向量是成对的相反向量,各分量只记录模值即可。最终标注向量的代数表示为(|u|,|v|,d),其中|u|为标注向量的第一个分量的模,|v|为第二个分量的模,d第一个分量的方向。
前述标注向量的两个分量以及方向的记录位置可以灵活安排,比如,可以在第一个位置记录到标注向量的夹角是顺时针(或逆时针)方向的分量方向,第二位置记录这个分量的模值,第三个位置记录另一个分量的模值。采用此种记录位置安排时,标注向量的代数表示为(d,|u|,|v|)。
如果,令d<1,0>表示第一个分量在X轴上,d<0,1>表示第一个分量在Y轴上,d<1,1>表示第一个分量既可以在X轴上也可以在Y轴上;那么图1中的分别为(|u|,|v|,<1,0>)、(|u|,|v|,<0,1>)、(-|u|,|v|,<1,0>)、(-|u|,|v|,<0,1>)。规定标注向量的记录在第一个位置上的分量到该向量的夹角是顺时针方向且这个夹角取值范围为[0,90)时,(|u|,|v|,<1,1>)可以同时表示
前述夹角范围之所以约定为[0,90),是为了避免四个顶点都在坐标轴的正方形范围框仍然有多种数值表示。在这个约定下,夹角小于90度,对于四个顶点都在坐标轴的正方形来说,记录在第一个位置的分量的模值大于0,这就可以将数值表示减少到一个。
在本实施例提供的标注向量表示方法的第二个位置也可以不记录第二个分量的模而是记录标注向量的模值,此时同样可以在给定的约定下解出标注向量的坐标。因此即使调整所记录值的位置或者在不同位置记录不同的值,只要采用本发明提供的外部约定来记录标注向量就不构成不同的技术方案。
本实施例不局限于下面的优选实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或者相近似的技术方案,均属于本发明的保护范围。
其优选实施方式是:对样本图像进行标注时,对其中xc,yc,u,v的取值按照图像宽(wi)高(hi)的最大值进行归一化。那么标注文件中目标范围框的对应取值为xc/max(wi,hi),yc/max(wi,hi),|u|/max(wi,hi),|v|/max(wi,hi),d,ρ。
Claims (2)
2.根据权利要求1所述的改进的倾斜矩形范围框标注方式,其特征在于:前述标注向量的两个分量或者标注向量的模以及标注向量分量的方向的记录位置可以灵活安排,也就是说标注向量可以表示为
(d,|u|,|v|)、(d,|v|,|u|)、(|u|,d,|v|)、(|u|,|v|,d)、(|v|,|u|,d)、(|v|,d,|u|)
其中u表示标注向量的一个到该向量的夹角是顺时针或逆时针方向且这个夹角取值范围为[0,90)的分量,d表示分量u的方向,v表示标注向量的另外一个分量或者标注向量的模。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660705.1A CN111695567B (zh) | 2020-07-10 | 2020-07-10 | 一种改进的倾斜矩形范围框标注方式 |
PCT/CN2021/105454 WO2022007943A1 (zh) | 2020-07-10 | 2021-07-09 | 一种改进的倾斜矩形范围框标注方式 |
US17/826,049 US20220301258A1 (en) | 2020-07-10 | 2022-05-26 | Rotated Rectangular Bounding Box Annotation Method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660705.1A CN111695567B (zh) | 2020-07-10 | 2020-07-10 | 一种改进的倾斜矩形范围框标注方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695567A true CN111695567A (zh) | 2020-09-22 |
CN111695567B CN111695567B (zh) | 2021-03-05 |
Family
ID=72485833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010660705.1A Expired - Fee Related CN111695567B (zh) | 2020-07-10 | 2020-07-10 | 一种改进的倾斜矩形范围框标注方式 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220301258A1 (zh) |
CN (1) | CN111695567B (zh) |
WO (1) | WO2022007943A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895173A (zh) * | 2017-11-06 | 2018-04-10 | 国网重庆市电力公司电力科学研究院 | 标注图像目标的方法、装置、设备及可读存储介质 |
WO2022007943A1 (zh) * | 2020-07-10 | 2022-01-13 | 中国水利水电科学研究院 | 一种改进的倾斜矩形范围框标注方式 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095161B (zh) * | 2023-10-20 | 2023-12-22 | 云南联合视觉科技有限公司 | 一种向量化编码的旋转目标检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203400338U (zh) * | 2013-05-10 | 2014-01-22 | 陈丰霞 | 一种医疗器械杀毒装置 |
CN110223343A (zh) * | 2019-05-07 | 2019-09-10 | 熵智科技(深圳)有限公司 | 一种方向包围盒交叉面积确定方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346620B (zh) * | 2013-07-25 | 2017-12-29 | 佳能株式会社 | 对输入图像中的像素分类的方法和装置及图像处理系统 |
US10956967B2 (en) * | 2018-06-11 | 2021-03-23 | Adobe Inc. | Generating and providing augmented reality representations of recommended products based on style similarity in relation to real-world surroundings |
US11446008B2 (en) * | 2018-08-17 | 2022-09-20 | Tokitae Llc | Automated ultrasound video interpretation of a body part with one or more convolutional neural networks |
US10983217B2 (en) * | 2018-11-30 | 2021-04-20 | Huawei Technologes Co. Ltd. | Method and system for semantic label generation using sparse 3D data |
US11960843B2 (en) * | 2019-05-02 | 2024-04-16 | Adobe Inc. | Multi-module and multi-task machine learning system based on an ensemble of datasets |
CN110288615B (zh) * | 2019-06-28 | 2020-11-13 | 浙江明峰智能医疗科技有限公司 | 一种基于深度学习的倾斜定位框定位方法 |
CN110717427B (zh) * | 2019-09-27 | 2022-08-12 | 华中科技大学 | 一种基于顶点滑动的多方向物体检测方法 |
US10928830B1 (en) * | 2019-11-23 | 2021-02-23 | Ha Q Tran | Smart vehicle |
CN111126381A (zh) * | 2019-12-03 | 2020-05-08 | 浙江大学 | 一种基于r-dfpn算法的绝缘子倾斜定位与识别方法 |
CN111695567B (zh) * | 2020-07-10 | 2021-03-05 | 中国水利水电科学研究院 | 一种改进的倾斜矩形范围框标注方式 |
-
2020
- 2020-07-10 CN CN202010660705.1A patent/CN111695567B/zh not_active Expired - Fee Related
-
2021
- 2021-07-09 WO PCT/CN2021/105454 patent/WO2022007943A1/zh active Application Filing
-
2022
- 2022-05-26 US US17/826,049 patent/US20220301258A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203400338U (zh) * | 2013-05-10 | 2014-01-22 | 陈丰霞 | 一种医疗器械杀毒装置 |
CN110223343A (zh) * | 2019-05-07 | 2019-09-10 | 熵智科技(深圳)有限公司 | 一种方向包围盒交叉面积确定方法 |
Non-Patent Citations (3)
Title |
---|
TGIS网友: "倾斜目标范围框标注的终极方案", 《博客园》 * |
周金成: "基于单帧标注的弱监督动作定位", 《计算机技术应用》 * |
王宁: "一种处理标注叠加的算法设计与实现", 《测绘》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895173A (zh) * | 2017-11-06 | 2018-04-10 | 国网重庆市电力公司电力科学研究院 | 标注图像目标的方法、装置、设备及可读存储介质 |
CN107895173B (zh) * | 2017-11-06 | 2021-08-17 | 国网重庆市电力公司电力科学研究院 | 标注图像目标的方法、装置、设备及可读存储介质 |
WO2022007943A1 (zh) * | 2020-07-10 | 2022-01-13 | 中国水利水电科学研究院 | 一种改进的倾斜矩形范围框标注方式 |
Also Published As
Publication number | Publication date |
---|---|
US20220301258A1 (en) | 2022-09-22 |
CN111695567B (zh) | 2021-03-05 |
WO2022007943A1 (zh) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695567B (zh) | 一种改进的倾斜矩形范围框标注方式 | |
Sahu et al. | Artificial intelligence (AI) in augmented reality (AR)-assisted manufacturing applications: a review | |
US5325472A (en) | Image displaying system for interactively changing the positions of a view vector and a viewpoint in a 3-dimensional space | |
Prince et al. | Augmented reality camera tracking with homographies | |
Ying et al. | Catadioptric camera calibration using geometric invariants | |
JP5352738B2 (ja) | 3次元モデルを使用した物体認識 | |
CN106952338B (zh) | 基于深度学习的三维重建的方法、系统及可读存储介质 | |
US6526166B1 (en) | Using a reference cube for capture of 3D geometry | |
CN113128434B (zh) | 一种对单目rgb图像进行3d目标检测的方法 | |
Jin et al. | Perspective fields for single image camera calibration | |
CN113056745A (zh) | 一种倾斜矩形范围框标注方式 | |
Wang et al. | A synthetic dataset for Visual SLAM evaluation | |
Stekovic et al. | General 3d room layout from a single view by render-and-compare | |
CN113808243B (zh) | 一种可形变雪地网格的绘制方法和装置 | |
Reverter Valeiras et al. | An event-based solution to the perspective-n-point problem | |
Huang et al. | Obmo: One bounding box multiple objects for monocular 3d object detection | |
Cao et al. | CMAN: Leaning global structure correlation for monocular 3D object detection | |
CN111179271B (zh) | 一种基于检索匹配的物体角度信息标注方法及电子设备 | |
CN112509110A (zh) | 一种陆地对抗智能体的图像数据集自动采取与标注框架 | |
CN117226835A (zh) | 基于语义的医护机器人同步定位与建图技术研究方法 | |
CN116958377A (zh) | 三维模型纹理映射方法、装置和计算机设备 | |
CN116402904A (zh) | 一种基于激光雷达间和单目相机的联合标定方法 | |
Chen et al. | Camera calibration method based on circular array calibration board | |
Su et al. | Restoration of turbulence-degraded images using the modified convolutional neural network | |
US20210295561A1 (en) | System for processing an image, method for processing the image, method for training a neural network for processing the image, and recording medium for executing the method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210305 |