CN113420753B - 目标对象框选区域的生成方法及装置 - Google Patents
目标对象框选区域的生成方法及装置 Download PDFInfo
- Publication number
- CN113420753B CN113420753B CN202110791967.6A CN202110791967A CN113420753B CN 113420753 B CN113420753 B CN 113420753B CN 202110791967 A CN202110791967 A CN 202110791967A CN 113420753 B CN113420753 B CN 113420753B
- Authority
- CN
- China
- Prior art keywords
- target object
- auxiliary line
- user
- action
- floating point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000009471 action Effects 0.000 claims abstract description 83
- 238000007667 floating Methods 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 33
- 238000012790 confirmation Methods 0.000 claims description 11
- 206010034701 Peroneal nerve palsy Diseases 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 22
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000009432 framing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供了一种目标对象框选区域的生成方法及装置。其中,所述方法包括:获取包含目标对象的数字图像;基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点;基于所述多个锚点生成所述目标对象的矩形框选区域,其中,在选取与所述目标对象相关联的多个锚点的过程中生成并显示辅助线,以辅助用户实施所述动作组合。本发明所提供的目标对象框选区域的生成方法及装置能够有效减少目标对象框选区域内的背景信息。
Description
技术领域
本公开涉及图像处理领域,具体地,涉及一种目标对象框选区域的生成方法及装置。
背景技术
目标检测是智能监控、智能交通等领域的核心部分,其主要涉及数字图像处理和计算机视觉技术。为了使目标检测模型在各类复杂的场景中都能输出精准的检测结果,数量充足、类型丰富的用于训练模型的图像数据是必不可少的。由于训练模型过程中所依据的算法一般为有监督学习的算法,因此,训练过程中所用的图像数据需要带有属性标注。
对数据进行标注,也可以称为对数据进行标定或清洗,其目的是使原始数据转变为具有各类属性的结构化数据。一般情况下,图像数据的标定包括:对原始数据进行分类、针对目标生成框选区域、对目标进行注释以说明其属性等工作。其中,一般选用相对于坐标系横屏竖直的矩形框选区域对目标物体进行框选。但是,原始图像数据来源于现实生活,其中所包含的各类目标以各式各样的姿态存在于不同的场景中,因此,存在框选区域难以与目标轮廓贴合的问题。
发明内容
本公开的目的在于,针对现有技术中存在的问题,提供了目标对象框选区域的生成方法及装置,能够减少目标对象框选区域内的背景信息。
根据本公开的一个方面,提出一种目标对象框选区域的生成方法。所述方法包括:
获取包含目标对象的数字图像;
基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点;
基于所述多个锚点生成所述目标对象的矩形框选区域。
可选地,在选取与所述目标对象相关联的多个锚点的过程中生成并显示辅助线,以辅助生成所述矩形框选区域。
根据本公开的另一个方面,提出一种目标对象框选区域的生成装置。所述装置包括:第一处理单元、第二处理单元和第三处理单元。
具体地,所述第一处理单元用于获取包含目标对象的数字图像;所述第二处理单元用于基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点;所述第三处理单元用于基于所述多个锚点生成所述目标对象的矩形框选区域。
在上述方案中,所述矩形框选区域包含所述目标对象,并且所述多个锚点中的两个锚点限定所述矩形框选区域的一条边的延伸方向。
可选地,在上述方案中,所述矩形框选区域是贴合所述目标对象的外轮廓的矩形区域。根据本公开的又一个方面,提出一种计算机可读存储介质。所述计算机可读存储介质存储有计算机程序,当所述计算机程序被计算机执行时,使得所述计算机执行上述的目标对象框选区域的生成方法中的步骤。
根据本公开的再一个方面,提出一种电子设备。
所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述的目标对象框选区域的生成方法中的步骤。
综上所述,本公开提供了目标对象框选区域的生成方法及装置。在对目标对象进行标注的过程中,采用本公开提供的方法、装置、存储介质及电子设备确定目标对象的矩形框选区域,能够保证除目标对象的图形外,框选区域中冗余的背景内容更少。具体地,在本公开提供的方法、装置、存储介质及电子设备中,以目标对象的位置为依据,依次确定若干个锚点来限定矩形框选区域的一条边及对角线的延伸方向。并且,在选取与所述目标对象相关联的多个锚点的过程中,通过自动生成并显示辅助线来辅助用户实施其动作组合,进而保证矩形框选区域的每一条边都能与目标对象的图形轮廓相贴合。因此,采用本公开提供的方法、装置、存储介质及电子设备能够避免框选区域中存在较多的干扰信息,利用这些带有较少干扰信息的样本图片去训练模型,有助于获得识别精度更高的模型。并且,相较于其他多边形,矩形的面积计算更简单,有助于提高后续的验证模型精度工作的效率。
附图说明
下面结合附图,通过对本公开的具体实施方式详细描述,将使本公开的技术方案及其它有益效果显而易见。
图1A和1B为本公开实施例提供的目标物体的不同形状的框选区域的示意图。
图2为本公开实施例提供的目标对象框选区域的生成方法的流程示意图。
图3为图2中S2的子步骤示意图。
图4A至图4F为本公开实施例一提供的选取锚点的过程示意图。
图5为本公开实施例提供的目标对象框选区域的生成装置的结构示意图。
图6为本公开实施例提供的电子设备的实体结构示意图。
图7A至图7F为本公开实施例二提供的选取锚点的过程示意图。
具体实施方式
下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。本公开的说明书和权利要求书以及附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应当理解,这样描述的对象在适当情况下可以互换。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排它的包含。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本公开的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
需要说明的是,本公开所述的目标对象包括:人类、动物、机动车辆、非机动车辆、植物、建筑、城市公共设施等。包含这些目标对象的图片或视频数据可以由具备摄像摄影功能的电子设备获得,如移动终端、智能穿戴设备、监控设备、专业摄像摄影器材等。这些电子设备能够将物体反射或发射的光线经由光学组件传送至图像传感器,图像传感器随后将光信号转换成电信号。进一步地,数模转换器件将电信号转换成数字图像信号,随后数字图像信号经由放大电路到达数字信号处理芯片,数字信号处理单元对数字图像信号进行处理,并将处理后的数字信号传输至存储模块中进行存储。
进一步地,将采集到的包含有上述目标对象的图像数据按照预设的格式传输至具备显示功能以及用户交互系统的电子设备中。该电子设备的图像处理系统随后以数字图像的形式显示处理后的图像数据并触发对图像中的各类目标对象进行标注的操作。
一般情况下,当基于同一坐标系对这些图像数据进行标注时,各个目标的中轴线与坐标轴间会呈现出不同的角度关系。
在这种情况下,若仍采用相对于坐标系横平竖直的矩形框选区域对目标进行框选,则存在框选区域难以与目标轮廓贴合的问题,如图1A所示,最终确定的框选区域内除了目标内容外,还存在冗余的背景内容,这些背景内容相当于干扰信息,会影响模型训练精度。若采用其他任意多边形的框选区域对目标进行框选,如图1B所示,虽然能够实现框选区域与目标对象图形轮廓的贴合,但是多边形在绘制过程中存在较多的不确定性,并且,绘制完成的多边形的面积计算相对于矩形更复杂,不利于后续验证模型精度过程中交并比的计算。
为解决上述问题,本公开提供了一种目标对象框选区域的生成方法。
具体地,请参阅图2,所述方法包括:
S1:获取包含目标对象的数字图像;
S2:基于用户的动作组合在数字图像内选取与目标对象相关联的多个锚点;
S3:基于多个锚点生成目标对象的矩形框选区域。
其中,所述矩形框选区域中包含所述目标对象,并且,所述多个锚点中的两个锚点限定所述矩形框选区域的一条边的延伸方向。
在本公开的一些实施例中,所述矩形框选区域为贴合所述目标对象外轮廓的矩形区域。可以理解的是,所述外轮廓是指数字图像形式的目标对象的外部边缘线条,即目标对象的轮廓线。
示例性地,汽车图像可以是一类目标对象,采用本公开的方法确定其框选区域如图4E中的矩形P1P2P3P4所对应的区域,并且,矩形P1P2P3P4的每一条边与汽车图像的轮廓线相贴合。其中,点A、点P1、点P2为与所述汽车相关联的锚点。具体地,用户根据汽车图像的位置以及浮动点处自动生成的辅助线的提示,依次选取锚点A和锚点P1,来限定框选区域的一条边框所在的直线,如图4E中的直线AP1。再根据浮动点处自动生成的辅助线的提示选取锚点P2,进而结合锚点A和锚点P1确定汽车图像的框选区域。
在对目标对象进行标注的过程中,采用本公开提供的方法确定的目标对象的矩形框选区域,由于矩形框选区域的边缘均与目标对象的轮廓线相贴和,使得除了目标对象外,框选区域中冗余的背景内容更少。利用这些带有较少干扰信息的样本图片去训练模型,有助于获得识别精度更高的模型。并且,相较于其他多边形框选区域,矩形框选区域的面积计算更简单,有助于提高后续的验证模型精度工作的效率。
以下通过实施例一和实施例二对本公开提供的目标对象框选区域的生成方法进行示例性地描述。
在本申请的可选实施例中,目标对象框选区域的生成过程如下:
S1:获取包含目标对象的数字图像。
示例性地,将采集到的包含有目标对象的图片或视频按照预设的格式传输至电子设备,并通过运行于所述电子设备上的图像处理系统加载所述图片或视频,以将包含有目标对象的数字图像通过所述电子设备的显示器件(如屏幕)展示给用户。随后,用户根据数字图像中的内容,输入相应的动作指令与电子设备进行交互,进而实现以下步骤。
S2:基于用户的动作组合在数字图像内选取与目标对象相关联的多个锚点。
可以理解的是,用户根据数字图像中目标对象的位置,在电子设备的交互界面输入操作指令,来选取与所述目标对象相关联的锚点。其中,所述操作指令可以是移动鼠标、点击鼠标的一系列动作组合。示例性地,用户通过鼠标来控制屏幕焦点位置的移动,屏幕焦点位置的移动路径上每一个当前到达的位置都代表一个浮动点。示例性地,用户通过点击鼠标的确认键触发确认行为,以将浮动点确认为固定点,即所述锚点。
又例如,用户的动作组合,包括用户的第一动作、第二动作可以是电子设备根据触摸屏上的触摸反馈识别出来的。示例性的,用户在客户端触摸屏上操作,客户端生成用户的动作指令,将所述动作指令发送给服务器,服务器基于工作指令确定出用户的动作组合,并基于用户的动作组合在待框选的数字图像内选取与所述目标对象相关联的多个锚点。
具体地,请参阅图3,在本申请的可选实施例中,选取锚点的过程如下:
S21:基于用户的第一动作,将第一特定位置选取为第一锚点;
其中,所述第一动作是指用户以所述目标对象的位置为依据,将屏幕焦点位置移动至第一特定位置,并触发确认行为。
示例性地,所述屏幕焦点位置可以为鼠标光标在交互界面上的位置,用户通过移动鼠标将交互界面上的光标移至第一特定位置后,点击鼠标的确认键来触发确认行为。其中,所述第一特定位置为数字图像中靠近所述目标对象的位置。
基于上述用户的第一动作,将位于第一特定位置的浮动点确认为第一锚点。
示例性地,如图4A所示,在图中靠近汽车图像的位置选定一点A作为第一锚点。
S22:基于用户的第二动作持续选取第一浮动点,并根据第一锚点和第一浮动点生成并显示第一辅助线,随后以第一浮动点为垂足生成并显示第二辅助线。
示例性地,所述第二动作是指用户持续移动屏幕焦点位置,例如,通过移动鼠标控制交互界面上光标的移动,此时,光标移动路径上的每个当前到达位置均代表第一浮动点。
基于上述用户的第二动作,持续将光标移动路径上的每个当前到达位置选取为第一浮动点。每选取到一个第一浮动点,都生成并显示连接第一锚点和第一浮动点的第一辅助线和与第一辅助线垂直相交于第一浮动点的第二辅助线。
所述第一辅助线和所述第二辅助线用于辅助用户调整所述第一浮动点的位置以使所述第一辅助线和所述第二辅助线分别与所述目标对象满足预设的位置关系。
所述预设的位置关系是指所述第一辅助线和所述第二辅助线分别与目标对象的外轮廓贴合。
示例性地,如图4A和4B所示,点B表示第一浮动点,直线L1表示第一辅助线,直线L2表示第二辅助线。根据第一辅助线L1和第二辅助线L2的提示作用,用户移动第一浮动点B,以使第一辅助线L1和第二辅助线L2分别与图中汽车图像的外轮廓贴合。
S23:基于用户的第三动作将位于第二特定位置的第一浮动点选取为第二锚点;
示例性地,所述第三动作是指用户在移动光标选取第一浮动点的过程中,在光标移动路径上的第二特定位置处按下鼠标确认键触发确认行为。
可以理解的是,当第一浮动点到达所述第二特定位置处时,所述第一辅助线和所述第二辅助线分别与所述目标对象满足预设的位置关系。
因此,基于上述用户的第三动作,将使所述第一辅助线和所述第二辅助线分别与所述目标对象满足预设的位置关系的第一浮动点确认为第二锚点。
示例性地,如图4B和图4C所示,当第一辅助线L1和第二辅助线L2与图中汽车图像的外轮廓贴合时,将第一浮动点B确认为第二锚点P1。
S24:基于用户的第四动作持续选取第二浮动点,并以第二浮动点为垂足分别生成并显示与第二辅助线垂直相交的第三辅助线和与第一辅助线垂直相交的第四辅助线;
示例性地,所述第四动作是指用户持续移动光标(即屏幕焦点位置),其中,光标移动路径上的每个当前到达位置均代表第二浮动点。
基于上述用户的第四动作,持续将光标移动路径上的每个当前到达位置选取为第二浮动点。每选取到一个第二浮动点,都以所述第二浮动点为垂足分别生成并显示与所述第二辅助线垂直相交的第三辅助线和与所述第一辅助线垂直相交的第四辅助线。
其中,所述第三辅助线和所述第四辅助线用于辅助用户调整所述第二浮动点的位置以使所述第三辅助线和所述第四辅助线分别与所述目标对象满足预设的位置关系。
所述预设的位置关系是指所述第三辅助线和所述第四辅助线分别与目标对象的外轮廓贴合。
示例性地,如图4C和图4D所示,点C表示第二浮动点,直线L3表示第三辅助线,直线L4表示第四辅助线。根据第三辅助线L3和第四辅助线L4的提示作用,用户移动第二浮动点C,以使第三辅助线L3和第四辅助线L4分别与图中汽车图像的外轮廓贴合。
S25:基于用户的第五动作将位于第三特定位置的第二浮动点选取为第三锚点。
示例性地,所述第五动作是指用户在移动光标选取第二浮动点的过程中,在光标移动路径上的第三特定位置处按下鼠标确认键触发确认行为。
可以理解的是,当第二浮动点停留在所述第三特定位置处时,所述第三辅助线和所述第四辅助线分别与所述目标对象满足所述预设的位置关系。
因此,基于上述用户的第五动作,将使所述第三辅助线和所述第四辅助线分别与所述目标对象满足所述预设的位置关系的第二浮动点确认为第三锚点。
示例性地,如图4D和图4E所示,当第三辅助线L3和第四辅助线L4分别与目标对象的外轮廓贴合时,用户将第二浮动点C确认为第三锚点P2。
S3:基于多个锚点生成目标对象的矩形框选区域。
在本实施例中,基于所述第一锚点、所述第二锚点和所述第三锚点生成所述目标对象的矩形框选区域。
其中,所述矩形框选区域的一个边位于所述第一锚点和所述第二锚点限定的直线上,并且,所述第二锚点和所述第三锚点分别为所述矩形框选区域的对角顶点。
示例性地,如图4E和图4F所示,第一锚点A和第二锚点P1限定汽车图像的矩形框选区域的一个边的延伸方向。第二锚点P1和第三锚点P2限定了所述矩形框选区域对角线的延伸方向,因此,第一锚点A、第二锚点P1和第三锚点P2确定图中汽车图像的框选区域,即矩形P1P2P3P4所对应的区域。
进一步地,用户对框选区域中的目标对象的属性进行注释说明,随后将目标对象的框选区域的位置信息,例如矩形四个顶点的坐标,连同目标对象的属性信息等作为所述目标对象的标注信息进行保存与输出,以完成目标对象的标注过程。
采用本申请实施例提供的方法获取的目标对象的矩形框选区域,不同于常规的相对于坐标系横平竖直的矩形框选区域。本申请实施例提供的方法的矩形框选区域能够根据目标对象的姿态调整其整体与目标对象的位置关系,以保证矩形的每一条边都能够与目标对象保持贴合。因此,采用本申请实施例提供的方法提供的方法所确定的目标对象的矩形框选区域中,不必要的干扰信息更少。使用这些带有较少干扰信息的样本图片去训练模型,有助于获得识别精度更高的模型。并且,矩形面积计算简单,便于后续验证模型精度时交并比的计算。
示例性地,为了计算矩形框选区域的面积,可以进一步获取所述矩形框选区域的一条边与坐标轴之间的夹角。例如,令矩形边P1P4与X轴形成的锐角夹角为θ,矩形P1P2P3P4四个顶点的坐标分别为:P1(x1,y1)、P2(x2,y2)、P3(x3,y3)、P4(x4,y4)。则目标对象框选区域(矩形P1P2P3P4)的面积可以按照如下方式进行计算:
进一步地,在验证模型精度的过程中,通常将未经标注的图像数据输入至模型中进行目标对象的识别,并且,根据算法设置,模型为识别到的目标对象自动生成适配的框选区域。进一步地,用户将采用本公开方法得到的同一目标对象的框选区域与模型自动生成的该目标对象的框选区域进行重合度匹配。具体地,如果两者交集与两者并集的比例(交并比)接近或等于1,则说明训练得到的模型的识别精度较高。如果交并比明显小于1或已经低于一个阈值,则说明训练得到的模型的识别精度较差。
在本申请的可选实施例中中,仅根据两个锚点确定目标对象的框选区域,其中,所述两个锚点限定所述矩形框选区域的一条边的延伸方向。
示例性的,基于所述两个锚点生成初始矩形框选区域,随后基于用户的动作调整所述初始矩形框选区域的位置和大小以覆盖所述目标对象,并将调整后的所述初始矩形框选区域作为所述目标对象的矩形框选区域。
与目标对象相关联的两个锚点的选取以及框选区域的生成过程如图7A至图7C所示。
示例性地,如图7A和图7B所示,根据图像中目标对象的位置确定与该目标对象相关联的第一锚点A,随后在持续选取浮动点B的过程中,根据连接第一锚点A和浮动点B的辅助线L确定第二锚点P。需要说明的是,第一锚点A和第二锚点P间的连线与目标物体在图像中的轮廓图形的中轴线之一平行或近似平行。并且,所述第一锚点A可以位于目标对象对应的图像内或者目标对象对应的图像外。
进一步地,根据第一锚点A和第一锚点P生成一初始矩形框选区域APQR,如图7C所示。
进一步地,基于用户的动作,调整初始矩形框选区域APQR的位置、大小、各条边框与目标物体外轮廓的距离关系,以使初始矩形框选区域APQR的至少一条边框与目标对象图形的外轮廓贴合,如图7D。
需要说明的是,所述贴合可以指矩形框选区域的一条或多条边框与目标对象图形的外轮廓相切,也可以指矩形框选区域的一条或多条边框与目标对象图形的外轮廓之间保持一定的距离,并且,该距离值应小于一预设距离范围。
可以理解的是,当矩形框选区域的一条或多条边框与目标对象图形外轮廓间的距离大于或等于该预设距离范围时,表示此时的矩形框选区域较大,除目标对象的图形外,还包括较多的背景内容,如图7E所示。当矩形框选区域的一条或多条边框位于目标对象图形外轮廓所确定的区域之内时,表明此时矩形框选区域的一条或多条边框从目标对象图形中穿过而非与目标对象图形的外轮廓贴合,即矩形框选区域没有完全覆盖目标对象图形,如图7F所示。
在理想情况下,当最终确定的矩形框选区域的每一条边框都与目标图形的外轮廓相切时,此时,矩形框选区域内的干扰信息最少。本公开实施例还提供了一种目标对象框选区域的生成装置。
如图5所示,目标对象框选区域的生成装置500包括:第一处理单元510、第二处理单元520和第三处理单元530。
具体地,第一处理单元510用于获取包含目标对象的数字图像;第二处理单元520用于基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点;第三处理单元530用于基于所述多个锚点生成所述目标对象的矩形框选区域。
其中,所述矩形框选区域包含所述目标对象,并且,所述多个锚点中的两个锚点限定所述矩形框选区域的一条边的延伸方向。
示例性的,第一处理单元510获取包含目标对象的数字图像后,第二处理单元520基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点。
示例性的,在本实施例中,所述矩形框选区域是贴合所述目标对象的外轮廓的矩形区域,并且,锚点的数量为三个,如图4E中所示的点A、点P1、点P2。
并且,第二处理单元520在选取与所述目标对象相关联的锚点A、锚点P1和锚点P2的过程中自动生成并显示辅助线,以辅助用户实施所述动作组合。
示例性的,第二处理单元520选取上述三个锚点的过程如下:
第二处理单元520基于用户发起的第一动作,将第一特定位置选取为第一锚点。其中,第一特定位置可以理解为数字图像中靠近目标对象的位置。
进一步地,第二处理单元520基于用户发起的第二动作持续选取第一浮动点,并且,自动生成并显示第一辅助线,所述第一辅助线是连接所述第一锚点和所述第一浮动点的直线。
随后,以所述第一浮动点为垂足生成并显示第二辅助线,所述第二辅助线垂直于所述第一辅助线。
需要说明的是,在持续选取第一浮点的过程中,每选取一个第一浮动点,都会根据当前选取的第一浮动点与所述第一锚点自动生成并显示一条第一辅助线,同时,自动生成并显示一条与所述第一辅助线垂直相交于当前选取的第一浮动点的第二辅助线。
其中,所述第一辅助线和所述第二辅助线用于辅助用户调整所述第一浮动点的位置以使所述第一辅助线和所述第二辅助线分别与所述目标对象满足预设的位置关系。
所述预设的位置关系具体为所述第一辅助线与所述第二辅助线与目标对象的外轮廓相贴合。
当所述第一辅助线和所述第二辅助线分别与所述目标对象满足预设的位置关系时,第二处理单元520基于用户发起的第三动作将位于第二特定位置的第一浮动点选取为第二锚点。
其中,处于第二特定位置的第一浮点能够使所述第一辅助线和所述第二辅助线分别与所述目标对象满足所述预设的位置关系。
再进一步地,基于用户发起的第四动作持续选取第二浮动点,并以所述第二浮动点为垂足分别生成并显示与所述第二辅助线垂直相交的第三辅助线和与所述第一辅助线垂直相交的第四辅助线。
需要说明的是,在持续选取第二浮动点的过程中,每选取一个第二浮动点,都会以当前选取的第二浮动点为垂足自动生成并显示分别与所述第二辅助线垂直相交的第三辅助线和与所述第一辅助线垂直相交的第四辅助线。
其中,所述第三辅助线和所述第四辅助线用于辅助用户调整所述第二浮动点的位置以使所述第三辅助线和所述第四辅助线分别与所述目标对象满足预设的位置关系。
所述预设的位置关系具体为所述第三辅助线与所述第四辅助线与目标对象的外轮廓相贴合。
当所述第三辅助线和所述第四辅助线分别与所述目标对象满足预设的位置关系时,基于用户发起的第五动作将位于第三特定位置的第二浮动点选取为第三锚点。
其中,处于第三特定位置的第二浮点能够使所述第三辅助线和所述第四辅助线分别与所述目标对象满足所述预设的位置关系。
在本实施例提供的目标对象框选区域的装置500中,第三处理单元530基于上述第一锚点、第二锚点、第三锚点生成所述目标对象的矩形框选区域。
具体地,所述矩形框选区域的一个边位于所述第一锚点和所述第二锚点限定的直线上,并且,所述第二锚点和所述第三锚点分别为所述矩形框选区域的对角顶点。
在本申请实施例中,仅根据两个锚点确定目标对象的框选区域,其中,所述两个锚点限定所述矩形框选区域的一条边的延伸方向。
具体地,第一处理单元510获取包含目标对象的数字图像。
第二处理单元520基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的两个锚点。
第三处理单元530基于所述两个锚点生成初始矩形框选区域,随后基于用户的动作调整所述初始矩形框选区域的位置和大小以覆盖所述目标对象,并将调整后的所述初始矩形框选区域作为所述目标对象的矩形框选区域。
可以理解的是,上述目标对象框选区域的生成装置500的其他方面与本申请实施例中目标对象框选区域的生成方法相同或相似,例如关于用户发起的第一动作、第二动作、第三动作、第四动作的定义,以及目标对象框选区域的生成装置500对上述动作的响应方式等,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本公开还提供了一种电子设备,如图6所示,电子设备600包括:处理器(Processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604。其中,处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行上述目标对象框选区域的生成方法中的步骤。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述目标对象框选区域的生成方法中的步骤。
本领域普通技术人员应当理解,上述目标对象框选区域的生成方法实施例中的全部或部分流程,可以通过计算机程序指令相关的硬件和/或软件来实现。所述计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序被执行时,可执行上述各方法实施例中的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、增强型SDRAM(ESDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。
综上所述,本公开提供了一种目标对象框选区域的生成方法及装置。在对目标对象进行标注的过程中,采用本公开提供的方法确定目标对象的矩形框选区域,能够保证除目标对象的图形外,框选区域中冗余的背景内容更少。具体地,在公开提供的方法中,以目标对象的位置为依据,依次确定若干个锚点来限定矩形框选区域的一条边及对角线的延伸方向。并且,在选取与所述目标对象相关联的多个锚点的过程中,通过自动生成并显示辅助线来辅助用户实施其动作组合,进而保证矩形框选区域的每一条边都与目标对象的图形轮廓相贴合。因此,采用本公开提供的方法能够避免框选区域中存在较多的干扰信息,利用这些带有较少干扰信息的样本图片去训练模型,有助于获得识别精度更高的模型。并且,相较于其他多边形,矩形的面积计算更简单,有助于提高后续的验证模型精度工作的效率。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。
Claims (7)
1.一种目标对象框选区域的生成方法,其特征在于,所述方法包括:
获取包含目标对象的数字图像;
基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点;
基于所述多个锚点生成所述目标对象的矩形框选区域;
其中,所述矩形框选区域包含所述目标对象,并且所述多个锚点中的两个锚点限定所述矩形框选区域的一条边的延伸方向;
所述多个锚点包括三个锚点,所述基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点的步骤包括:
基于用户的第一动作,将第一特定位置选取为第一锚点,其中,所述第一动作是:用户将屏幕焦点位置移动至所述第一特定位置,并触发确认行为;
基于用户的第二动作持续选取第一浮动点,并根据所述第一锚点和所述第一浮动点生成并显示第一辅助线,所述第一辅助线是所述第一锚点和所述第一浮动点的连线,随后以所述第一浮动点为垂足生成并显示第二辅助线,所述第二辅助线垂直于所述第一辅助线,其中,所述第二动作是:用户持续移动所述屏幕焦点位置,所述屏幕焦点位置的移动路径上的每个当前到达位置被选取为第一浮动点;
基于用户的第三动作将位于第二特定位置的第一浮动点选取为第二锚点,其中,所述第三动作是:用户在所述屏幕焦点位置的移动路径上的所述第二特定位置处触发确认行为;
基于用户的第四动作持续选取第二浮动点,并以所述第二浮动点为垂足分别生成并显示与所述第二辅助线垂直相交的第三辅助线和与所述第一辅助线垂直相交的第四辅助线,其中,所述第四动作是:用户持续移动所述屏幕焦点位置,所述屏幕焦点位置的移动路径上的每个当前到达位置被选取为第二浮动点;
基于用户的第五动作将位于第三特定位置的第二浮动点选取为第三锚点,其中,所述第五动作是:用户在所述屏幕焦点位置的移动路径上的所述第三特定位置处触发确认行为。
2.根据权利要求1所述的方法,其特征在于,所述矩形框选区域是贴合所述目标对象的外轮廓的矩形区域。
3.根据权利要求1所述的方法,其特征在于,所述第一辅助线和所述第二辅助线用于辅助用户调整所述第一浮动点的位置以使所述第一辅助线和所述第二辅助线分别与所述目标对象满足预设的位置关系。
4.根据权利要求1所述的方法,其特征在于,所述第三辅助线和所述第四辅助线用于辅助用户调整所述第二浮动点的位置以使所述第三辅助线和所述第四辅助线分别与所述目标对象满足预设的位置关系。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个锚点生成所述目标对象的矩形框选区域的步骤包括:
基于所述第一锚点、所述第二锚点和所述第三锚点生成所述目标对象的矩形框选区域;其中,所述矩形框选区域的一个边位于所述第一锚点和所述第二锚点限定的直线上,并且所述第二锚点和所述第三锚点分别为所述矩形框选区域的对角顶点。
6.根据权利要求3-4中任一项所述的方法,其特征在于,所述预设的位置关系是:所述第一辅助线、所述第二辅助线、所述第三辅助线以及所述第四辅助线分别与所述目标对象的外轮廓贴合。
7.一种目标对象框选区域的生成装置,其特征在于,所述装置包括:
第一处理单元,用于获取包含目标对象的数字图像;
第二处理单元,用于基于用户的动作组合在所述数字图像内选取与所述目标对象相关联的多个锚点;
第三处理单元,用于基于所述多个锚点生成所述目标对象的矩形框选区域;
其中,所述矩形框选区域包含所述目标对象,并且所述多个锚点中的两个锚点限定所述矩形框选区域的一条边的延伸方向;
所述第二处理单元,具体用于基于用户的第一动作,将第一特定位置选取为第一锚点;基于用户的第二动作持续选取第一浮动点,并根据所述第一锚点和所述第一浮动点生成并显示第一辅助线,所述第一辅助线是所述第一锚点和所述第一浮动点的连线,随后以所述第一浮动点为垂足生成并显示第二辅助线,所述第二辅助线垂直于所述第一辅助线;基于用户的第三动作将位于第二特定位置的第一浮动点选取为第二锚点;基于用户的第四动作持续选取第二浮动点,并以所述第二浮动点为垂足分别生成并显示与所述第二辅助线垂直相交的第三辅助线和与所述第一辅助线垂直相交的第四辅助线;基于用户的第五动作将位于第三特定位置的第二浮动点选取为第三锚点,其中,所述第一动作是:用户将屏幕焦点位置移动至所述第一特定位置,并触发确认行为;所述第二动作是:用户持续移动所述屏幕焦点位置,所述屏幕焦点位置的移动路径上的每个当前到达位置被选取为第一浮动点;所述第三动作是:用户在所述屏幕焦点位置的移动路径上的所述第二特定位置处触发确认行为;所述第四动作是:用户持续移动所述屏幕焦点位置,所述屏幕焦点位置的移动路径上的每个当前到达位置被选取为第二浮动点;所述第五动作是:用户在所述屏幕焦点位置的移动路径上的所述第三特定位置处触发确认行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791967.6A CN113420753B (zh) | 2021-07-13 | 2021-07-13 | 目标对象框选区域的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791967.6A CN113420753B (zh) | 2021-07-13 | 2021-07-13 | 目标对象框选区域的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420753A CN113420753A (zh) | 2021-09-21 |
CN113420753B true CN113420753B (zh) | 2024-01-05 |
Family
ID=77720912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110791967.6A Active CN113420753B (zh) | 2021-07-13 | 2021-07-13 | 目标对象框选区域的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420753B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008135423A (ja) * | 2006-11-27 | 2008-06-12 | Dainippon Screen Mfg Co Ltd | 輪郭検出装置、位置決め装置、パターン描画装置および輪郭検出方法 |
CN101807293A (zh) * | 2010-03-19 | 2010-08-18 | 上海合合信息科技发展有限公司 | 调整图像四边形框检测结果的方法 |
CN110751149A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 目标对象标注方法、装置、计算机设备和存储介质 |
CN110865756A (zh) * | 2019-11-12 | 2020-03-06 | 苏州智加科技有限公司 | 图像标注方法、装置、设备及存储介质 |
CN110989879A (zh) * | 2019-11-08 | 2020-04-10 | 东软集团股份有限公司 | 辅助线提示方法、装置、可读存储介质及电子设备 |
US10643093B1 (en) * | 2018-11-19 | 2020-05-05 | International Business Machines Corporation | Automated bounding box generation for objects in an image |
CN112001851A (zh) * | 2019-05-27 | 2020-11-27 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN112346807A (zh) * | 2020-11-06 | 2021-02-09 | 广州小鹏自动驾驶科技有限公司 | 一种图像标注方法和装置 |
CN112508127A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 数据标注方法及装置、电子设备、介质和产品 |
CN112528929A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 数据标注方法及装置、电子设备、介质和产品 |
CN112949589A (zh) * | 2021-03-31 | 2021-06-11 | 深圳市商汤科技有限公司 | 目标检测方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-07-13 CN CN202110791967.6A patent/CN113420753B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008135423A (ja) * | 2006-11-27 | 2008-06-12 | Dainippon Screen Mfg Co Ltd | 輪郭検出装置、位置決め装置、パターン描画装置および輪郭検出方法 |
CN101807293A (zh) * | 2010-03-19 | 2010-08-18 | 上海合合信息科技发展有限公司 | 调整图像四边形框检测结果的方法 |
US10643093B1 (en) * | 2018-11-19 | 2020-05-05 | International Business Machines Corporation | Automated bounding box generation for objects in an image |
CN112001851A (zh) * | 2019-05-27 | 2020-11-27 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN110751149A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 目标对象标注方法、装置、计算机设备和存储介质 |
CN110989879A (zh) * | 2019-11-08 | 2020-04-10 | 东软集团股份有限公司 | 辅助线提示方法、装置、可读存储介质及电子设备 |
CN110865756A (zh) * | 2019-11-12 | 2020-03-06 | 苏州智加科技有限公司 | 图像标注方法、装置、设备及存储介质 |
CN112346807A (zh) * | 2020-11-06 | 2021-02-09 | 广州小鹏自动驾驶科技有限公司 | 一种图像标注方法和装置 |
CN112508127A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 数据标注方法及装置、电子设备、介质和产品 |
CN112528929A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 数据标注方法及装置、电子设备、介质和产品 |
CN112949589A (zh) * | 2021-03-31 | 2021-06-11 | 深圳市商汤科技有限公司 | 目标检测方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
CDR教程:3点矩形工具的用法讲解;小余YQ;《百度经验:https://jingyan.baidu.com/article/fc07f989c072b852ffe51980.html》;20190628;第1-4页 * |
Huan Ling,et al..Fast Interactive Object Annotation with Curve-GCN.《arXiv》.2019,全文. * |
工程图纸自动生成技术的研究与实现;饶上荣;《中国博士学位论文全文数据库 信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113420753A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230260151A1 (en) | Simultaneous Localization and Mapping Method, Device, System and Storage Medium | |
WO2020206708A1 (zh) | 障碍物的识别方法、装置、计算机设备和存储介质 | |
JP2021120864A (ja) | 障害物を検出するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN104166509B (zh) | 一种非接触式屏幕交互方法及系统 | |
TW201035813A (en) | Pupil tracking method and system, and correction method and correction module for pupil tracking | |
CN110109535A (zh) | 增强现实生成方法及装置 | |
US20220414910A1 (en) | Scene contour recognition method and apparatus, computer-readable medium, and electronic device | |
US20220156968A1 (en) | Visual feature database construction method, visual positioning method and apparatus, and storage medium | |
CN110866497B (zh) | 基于点线特征融合的机器人定位与建图方法和装置 | |
CN113989450A (zh) | 图像处理方法、装置、电子设备和介质 | |
CN114898313B (zh) | 驾驶场景的鸟瞰图生成方法、装置、设备及存储介质 | |
JP2019117577A (ja) | プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置 | |
CN111209811B (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
US20220375258A1 (en) | Image processing method and apparatus, device and storage medium | |
JP2016006589A (ja) | 表示装置、制御プログラム、および制御方法 | |
US20200134389A1 (en) | Rolling shutter rectification in images/videos using convolutional neural networks with applications to sfm/slam with rolling shutter images/videos | |
CN111695497B (zh) | 基于运动信息的行人识别方法、介质、终端和装置 | |
CN110619656A (zh) | 基于双目摄像头的人脸检测跟踪方法、装置及电子设备 | |
CN115278084A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111242118B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN115250329B (zh) | 摄像头的控制方法、装置、计算机设备及存储介质 | |
CN118038229A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN113420753B (zh) | 目标对象框选区域的生成方法及装置 | |
CN114200934A (zh) | 机器人目标跟随控制方法、装置、电子设备和存储介质 | |
CN111212260B (zh) | 一种基于监控视频绘制车道线的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |