CN113096104A - 目标分割模型的训练方法及装置和目标分割方法及装置 - Google Patents
目标分割模型的训练方法及装置和目标分割方法及装置 Download PDFInfo
- Publication number
- CN113096104A CN113096104A CN202110405701.3A CN202110405701A CN113096104A CN 113096104 A CN113096104 A CN 113096104A CN 202110405701 A CN202110405701 A CN 202110405701A CN 113096104 A CN113096104 A CN 113096104A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- model
- tracking
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 236
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000010586 diagram Methods 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本公开关于一种目标分割模型的训练方法及装置和目标分割方法及装置。所述训练方法包括:获取图像样本数据,每个图像样本数据包括目标图像和跟踪图像,跟踪图像具有目标的真实分割标签,目标的真实分割标签包括所述目标的轮廓的极坐标的真实值;将目标图像和跟踪图像输入目标跟踪模型,获得第一特征图,其中,目标跟踪模型为Ocean模型;将第一特征图输入目标分割模型,获得目标的轮廓的极坐标的估计值;基于目标的轮廓的极坐标的估计值和目标的轮廓的极坐标的真实值计算用于所述目标分割模型的损失函数;基于用于所述目标跟踪模型的损失函数以及用于所述目标分割模型的损失函数来对目标跟踪模型和目标分割模型进行联合训练。
Description
技术领域
本公开涉及视频技术领域,更具体地说,涉及一种目标跟踪分割模型的训练方法和装置以及目标跟踪分割方法和装置。
背景技术
目标跟踪与分割是图像处理领域里的重要技术之一,被广泛应用于图片/视频编辑、影视制作和自动监控等领域。目标跟踪技术是指给定某视频序列初始帧中的目标物体的大小和位置,在后续帧中预测该目标物体的大小和位置。目标跟踪与分割技术是在目标跟踪技术之上,在后续帧的预测中给出目标物体的像素级别的分割结果。传统的目标跟踪算法只能给出后续帧中目标物体的位置和大小,主要是基于相关滤波的方法,该系列方法跟踪效果较好,且高效。随着深度学习的发展,深度神经网络被应用于目标跟踪以及目标跟踪分割中,从深度网络提取的高层语义特征能够从复杂场景中更准确辨别目标物体和背景,从而极大的提升了目标跟踪与分割的效果,基于深度学习的目标跟踪与分割技术也因此成为主流的技术之一。然而,由于运行终端计算力的限制,基于深度学习的目标跟踪和分割技术也面临着速度性能上的挑战。
发明内容
本公开提供一种目标分割模型的训练方法和装置以及目标分割方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种目标分割模型的训练方法,包括:获取图像样本数据,其中,每个图像样本数据包括目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像,并具有所述目标的真实分割标签,其中,所述目标的真实分割标签包括所述目标的轮廓的极坐标的真实值;将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;将第一特征图输入目标分割模型,获得所述目标的轮廓的极坐标的估计值;基于所述目标的轮廓的极坐标的估计值和所述目标的轮廓的极坐标的真实值计算用于所述目标分割模型的损失函数;基于用于所述目标跟踪模型的损失函数以及用于所述目标分割模型的损失函数来对所述目标跟踪模型和所述目标分割模型进行联合训练。
可选地,所述目标的轮廓的极坐标的真实值可通过将所述目标的轮廓的x-y坐标系的真实值执行x-y坐标系至极坐标系的转换而得到的。
可选地,第一特征图可以是所述目标图像和所述跟踪图像经过所述目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。
可选地,所述目标的轮廓的极坐标可包括所述目标的轮廓上的预定数量n个点的极坐标。
可选地,所述目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。
可选地,用于所述目标分割模型的损失函数可被表示为:
根据本公开实施例的第二方面,提供一种目标分割方法,包括:获取待跟踪的目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像;将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;将第一特征图输入目标分割模型,获得所述待跟踪的目标的轮廓的极坐标的估计值;基于所述跟踪图像和所述待跟踪的目标的轮廓的极坐标的估计值,获得目标分割结果。
可选地,第一特征图可以是所述目标图像和所述跟踪图像经过所述目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。
可选地,所述待跟踪的目标的轮廓的极坐标可包括所述待跟踪的目标的轮廓上的预定数量n个点的极坐标。
可选地,所述目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。
可选地,基于所述跟踪图像和所述待跟踪的目标的轮廓的极坐标的估计值,获得目标分割结果,可包括:根据所述待跟踪的目标的轮廓上的n个点的极坐标的估计值,在所述跟踪图像中找到所述待跟踪的目标的轮廓的n个点,并将这n个点连接并将联通区域内的区域作为目标分割结果。
可选地,所述目标分割模型可通过根据本公开的目标分割模型的训练方法训练得到的。
根据本公开实施例的第三方面,提供一种目标分割模型的训练装置,包括:样本获取单元,被配置为:获取图像样本数据,其中,每个图像样本数据包括目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像,并具有所述目标的真实分割标签,其中,所述目标的真实分割标签包括所述目标的轮廓的极坐标的真实值;特征图获取单元,被配置为:将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;极坐标估计单元,被配置为:将第一特征图输入目标分割模型,获得所述目标的轮廓的极坐标的估计值;损失计算单元,被配置为:基于所述目标的轮廓的极坐标的估计值和所述目标的轮廓的极坐标的真实值计算用于所述目标分割模型的损失函数;模型训练单元,被配置为:基于用于所述目标跟踪模型的损失函数以及用于所述目标分割模型的损失函数来对所述目标跟踪模型和所述目标分割模型进行联合训练。
可选地,所述目标的轮廓的极坐标的真实值可通过将所述目标的轮廓的x-y坐标系的真实值执行x-y坐标系至极坐标系的转换而得到。
可选地,第一特征图可以是所述目标图像和所述跟踪图像经过所述目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。
可选地,所述目标的轮廓的极坐标可包括所述目标的轮廓上的预定数量n个点的极坐标。
可选地,所述目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。
可选地,用于所述目标分割模型的损失函数可被表示为:
根据本公开实施例的第四方面,提供一种目标分割装置,包括:图像获取单元,被配置为:获取待跟踪的目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像;特征图获取单元,被配置为:将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;极坐标估计单元,被配置为:将第一特征图输入目标分割模型,获得所述待跟踪的目标的轮廓的极坐标的估计值;目标分割单元,被配置为:基于所述跟踪图像和所述待跟踪的目标的轮廓的极坐标的估计值,获得目标分割结果。
可选地,第一特征图可以是所述目标图像和所述跟踪图像经过所述目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。
可选地,所述待跟踪的目标的轮廓的极坐标可包括所述待跟踪的目标的轮廓上的预定数量n个点的极坐标。
可选地,所述目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。
可选地,目标分割单元可被配置为:根据所述待跟踪的目标的轮廓上的n个点的极坐标的估计值,在所述跟踪图像中找到所述待跟踪的目标的轮廓的n个点,并将这n个点连接并将联通区域内的区域作为目标分割结果。
可选地,所述目标分割模型可通过根据本公开的目标分割模型的训练方法训练得到。
根据本公开实施例的第五方面,提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的目标分割模型的训练方法或目标分割方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的目标分割模型的训练方法或目标分割方法。
根据本公开实施例的第八方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现根据本公开的目标分割模型的训练方法或目标分割方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开的目标分割模型的训练方法及装置和目标分割方法及装置,以Ocean模型作为基础目标追踪算法框架,增加一个轻量的基于极坐标系回归的目标分割模块,实现对追踪目标的分割。根据本公开的目标分割模块运算量小,适用性广,有利于移动端等轻量型设备的部署。此外,根据本公开的目标分割模块对小目标或简单形状的目标分割效果较好,弥补了Ocean模型无法执行跟踪物体的分割功能的不足,可以与Ocean模型一起完成对目标物体的追踪和分割任务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出Ocean模型的整体框架的示意图。
图2是示出根据本公开的示例性实施例的目标分割模型的结构示意图。
图3是示出回归网络中训练样本的标签示例。
图4是示出极坐标系的示意图。
图5是示出利用极坐标系建模物体轮廓的示意图。
图6是示出根据本公开的示例性实施例的目标分割模型的训练方法的流程图。
图7是示出根据本公开的示例性实施例的目标分割方法的流程图。
图8是示出根据本公开的示例性实施例的目标分割模型的训练装置的框图。
图9是示出根据本公开的示例性实施例的目标分割装置的框图。
图10是根据本公开的示例性实施例的电子设备1000的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
目前,基于深度学习的跟踪分割方法普遍采用Siamese网络结构,通过预测候选区域的得分图来得到物体的位置(即分值响应最高的地方),物体的尺度大小通常是通过图像金字塔得到;或者通过矩形框回归的方式,得出更精确人矩形框,并利用网络预测长宽比进一步调整得出的矩形框。进而,SiamMask算法基于Siamese结构,将视觉目标跟踪和视频目标分割统一到一个架构中,该算法在初始化阶段仅需输入视频跟踪目标的矩形框,然后在后续帧中自动给出跟踪目标的矩形框和像素级别的分割结果。然而,SiamMask算法采用的是基于锚点(anchor)的方式来产生下一帧中候选的跟踪物体框,虽然能产生较好的目标跟踪效果,但带来了大量的计算量,同时其中的目标分割模块也占据了不小的计算量,不利于移动端等轻量型设备的部署。
基于此,Ocean模型提出了基于anchor-free的追踪方法,直接进行跟踪目标中心点分类和回归该中心点到待跟踪目标物体框的四个边的距离。图1是示出Ocean模型的整体框架的示意图。参照图1,该框架由一个离线的anchor-free部分(顶部)和一个在线模型更新部分(底部)组成,前者包括特征提取模块(Feature Extraction)、特征组合模块(Feature Combination)和基于目标感知anchor-free网络(Object-aware Anchor-freeNetworks)的目标定位模块,后者可以对目标对象的外观变化进行建模。其中的目标感知anchor-free网络不仅可以修正Siammask算法中存在的边界矩形包围框预测的不精确性问题,而且还可以学习一个目标感知特征来提高匹配精度。虽然Ocean模型在一定程度上减少了计算量,但其中仍然欠缺对跟踪物体的分割功能,如果直接将SiamMask模型中的分割模块应用过来,会增加大量的计算量,不利于移动端等轻量型设备的部署。
为了实现轻量的目标追踪分割的目的,本公开巧妙地将实例分割任务中的基于极坐标系建模轮廓的方法应用到目标追踪分割任务中,提出了一种基于极坐标系统回归的轻量级的目标分割方法,具体地说,以Ocean模型作为基础目标追踪算法框架,增加一个轻量的基于极坐标系回归的目标分割模块,实现对追踪目标的分割。根据本公开的目标分割模块运算量小,适用性广,有利于移动端等轻量型设备的部署。此外,根据本公开的目标分割模块对小目标或简单形状的目标分割效果较好,弥补了Ocean模型无法执行跟踪物体的分割功能的不足,可以与Ocean模型一起完成对目标物体的追踪和分割任务。
下面,将参照图2至图10来详细描述根据本公开的目标分割模型的训练方法及装置以及目标分割方法及装置。
图2是示出根据本公开的示例性实施例的目标分割模型的结构示意图。
参照图2,根据本公开的示例性实施例的目标分割模型是在Ocean模型离线部分的基础框架上增加的一个分支。下面将介绍Ocean模型的离线部分的各模块以及根据本公开的目标分割模型。
特征提取模块遵循SiamMask体系结构,以样例图像作为输入,即样例图像(即,包括跟踪目标的图像)和候选搜索图像(即,被执行搜索跟踪目标的图像)。样例图像表示感兴趣的对象,即在第一帧中以目标对象为中心的图像块,而候选搜索图像通常更大,并且表示了后续视频帧中的搜索区域。这两个输入都经过一个主干网络(Backbone),生成两个特征图;主干网络可以选取ResNet或MobileNet等。例如,主干网络选择ResNet-50,并去除标准ResNet-50的最后阶段,只保留第一至第四阶段作为主干网络。其中,第一至第三阶段与原始ResNet-50具有相同结构,在第四阶段,下采样单元的卷积步长从2改为1,以增加特征图的空间尺寸。同时,所有3×3卷积都增加步长为2的扩张以增加各域。这些修改可增加输出特征的分辨率,从而提高目标定位的特征能力。
特征组合模块利用深度互相关运算将提取的样例图像和搜索图像的特征相结合,并生成相应的相似性特征,用于后续的目标定位。具体地说,将单尺度特征通过三个平行的扩张卷积层,然后通过逐点求和融合相关特征。特征组合处理可被表示为下面的公式(1):
S=∑abΦab(fe)*Φab(fs) (1)
其中,fe和fs分别表示样例图像的特征和候选搜索图像的特征,Φab表示单个扩张卷积层,*表示互相关操作。扩张卷积Φab的核大小可被设置为3×3,而扩张步长可被设置为X轴为a,Y轴为b。Φab还可将特征通道从1024减少到256,来节省运算成本。此外,扩张的多样性可提高特征的可表示性,因此,可选择例如,但不限于,三个不同的扩张,其步长分别可被设置为(a,b)∈{(1,1),(1;2),(2;1)}。不同扩张的卷积可捕捉到不同尺度的区域的特征,从而提高最终组合特征的尺度不变性。
目标定位模块利用所提出的目标感知anchor-free网络来定位候选搜索图像中的目标。目标感知anchor-free网络由两部分组成,即,用于前景背景概率预测的目标感知的分类网络和一个用于目标尺度估计的回归网络。两个网络共享主干网络,回归网络可提供目标对象尺度信息来增强目标对象和背景的分类。
回归网络借鉴目标检测中的anchor-free思想,将图像中目标边界框里的所有像素作为训练样本,估计目标对象内的每个像素到目标边界框的四个边的距离。具体而言,可设定表示目标对象边界框的左上角和右下角,如果一个像素的坐标(x,y)落在了目标对象边界框(或称为地面直值(groundtruth)边界框)中,则该像素被视为回归样本。例如,图3是示出回归网络中训练样本的标签示例。如图3所示,训练样本的标签T*=(l*,t*,r*,b*)可如下面的公式(2)计算:
l*=x-x0,t*=y-y0
r*=x1-x,b*=y1–y (2)
其中,T*表示从位置(x,y)到边界框B的四个边的距离。
此外,作为一个示例,回归网络可通过四个通道数为256的3*3卷积层,然后是一个通道数为4的3*3的卷积层来回归距离,如图2中右上部分的Conv模块所示。
分类网络提出了一个特征比对模块,该模块将卷积核的固定采样位置转换为与预测的边界盒对齐。具体而言,对于分类图中的每个位置(dx,dy),它都有一个由回归网络预测的相应的对象边界框M=(mx,my,mw,mh),其中mx和my表示盒中心,mw和mh表示其宽度和高度。分类网络的目标是通过从相应的候选区域M中抽样特征来估计每个位置(dx,dy)的分类置信度。作为一个示例,分类网络可如图2中的右下部的OA.Conv和Conv模块所示,可以使提取的目标感知特征对目标尺度的变化具有鲁棒性,有利于跟踪过程中的特征匹配过程。
根据本公开的目标分割模型是一种极坐标系统轮廓建模回归模块,即,利用极坐标轮廓建模的方式,回归极坐标系中心点到追踪目标分割轮廓的距离,从而得到追踪目标的分割掩膜(mask)结果。下面介绍利用极坐标轮廓建模的方式。
图4是示出极坐标系的示意图。如图4所示,极坐标属于二维坐标系统,是指在平面内取一个定点Ο,称为极点,引出一条射线Οx,叫做极轴,再选定一个长度单位和角度的正方向(通常取逆时针方向)。对于平面内任何一点M,用ρ表示线段ΟM的长度,称为点M的极径,用θ表示从Οx到ΟM的角度,称为点M的极角,有序数对(ρ,θ)就叫做点M的极坐标,这样建立的坐标系叫做极坐标系。通常情况下,M的极径坐标单位为1(长度单位),极角坐标单位为rad(或°)。
图5是示出利用极坐标系建模物体轮廓的示意图。如图5所示,可设置固定数目的角度,记为n,作为先验。例如,在图5中,n可被预先设置为12,则固定角度可被设置为0°,30°,60°,…,300°,330°。然后将原点Ο与每个角度下射线ΟM与目标对象真实标签轮廓的交点的距离集合来表示目标对象的轮廓信息。因此,目标分割模型只需回归这些固定角度的距离集合即可,简化问题难度。
根据本公开的目标分割模型可与上述回归网络并行,用于回归极坐标系中心点到追踪目标分割轮廓的距离。然后,可根据回归的对应角度的距离计算出目标轮廓的n个点的坐标,并从0°开始连接这些点,最后把联通区域内的区域作为目标分割的结果。例如,根据本公开的目标分割模型是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。作为一个示例,如图2所示,根据本公开的目标分割模型可由四个道数为256的3*3卷积层再加一个通道数为n的3*3的卷积层组成。根据本公开的目标分割模块运算量小,适用性广,有利于移动端等轻量型设备的部署。此外,根据本公开的目标分割模块对小目标或简单形状的目标分割效果较好,弥补了Ocean模型无法执行跟踪物体的分割功能的不足,可以与Ocean模型一起完成对目标物体的追踪和分割任务。
图6是示出根据本公开的示例性实施例的目标分割模型的训练方法的流程图。
参照图6,在步骤601,可获取图像样本数据,其中,每个图像样本数据包括目标图像和跟踪图像,其中,目标图像是指包括待跟踪目标的图像,跟踪图像是指包括将被执行跟踪的目标的图像。也就是说,将在跟踪图像中执行针对待跟踪目标的目标跟踪操作。这里,图像样本数据可从目标分割样本数据库中获得。
此外,跟踪图像具有目标的真实分割标签,其中,目标的真实分割标签包括目标的轮廓的极坐标的真实值。例如,目标的轮廓的极坐标可包括目标轮廓上的预定数量n个点的极坐标。n可以取非0的任意正整数,n越大,目标分割结果越准确,运算量也越大。可根据分割精确度的需求来设置n,例如,n可被预先设置为36,在实验中可获得一个较为平衡的结果。也就是说,目标的真实分割标签可包括n个角度中的每个角度下射线OM与目标的真实轮廓的交点的距离(即,极坐标系下目标轮廓上的n个点的真实极径长度)的集合。
根据本公开的示例性实施例,从目标分割样本数据库中获得的图像样本数据的真实分割标签可能是目标的轮廓的x-y坐标系下的真实值。在这种情况下,可对目标的轮廓的x-y坐标系的真实值执行x-y坐标系至极坐标系的转换,来获得目标的轮廓的极坐标的真实值。
在步骤602,可将目标图像和跟踪图像输入目标跟踪模型,获得第一特征图,其中,目标跟踪模型为Ocean模型。
根据本公开的示例性实施例,第一特征图可以是目标图像和跟踪图像经过目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。例如,如图2所示,第一特征图可以是特征组合模块输出的25×25×256的特征图。
在步骤603,可将第一特征图输入目标分割模型,获得目标的轮廓的极坐标的估计值。
根据本公开的示例性实施例,可获得目标轮廓上的预定数量n个点的极坐标的估计值。也就是说,目标分割模型可输出n个角度中的每个角度下射线OM与目标的估计轮廓的交点的距离(即,极坐标系下目标轮廓上的n个点的估计极径长度)的集合。例如,如图2所示,可输出25×25×n的特征图。
根据本公开的示例性实施例,目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。例如,如图2所示,目标分割模型可由四个道数为256的3*3卷积层再加一个通道数为n的3*3的卷积层组成。当然,本公开的目标分割模型不限于此,还可以是任何可能的结构。
在步骤604,可基于目标的轮廓的极坐标的估计值和目标的轮廓的极坐标的真实值计算用于目标分割模型的损失函数。
根据本公开的示例性实施例,可采用Polar IoU Loss的损失函数来对根据本公开的目标分割模型进行训练,可达到自动调节权重使网络训练快速且稳定收敛的效果。例如,记{d1,d2,...,dn}为目标的轮廓的极坐标的真实值,即,n个角度下由真实分割标签计算出来的n个对应的真实极径长度,为目标的轮廓的极坐标的估计值,即,n个角度下由目标分割模型回归预测出来的n个对应的估计极径长度,则用于目标分割模型的损失函数可被表示为下面的公式(3):
其中,i表示目标的轮廓上的预定数量n个点的遍历标记,di表示目标的轮廓上的第i个点的真实极径长度,表示所述目标的轮廓上的第i个点的估计极径长度。当然,根据本公开的用于目标分割模型的损失函数不限于此,还可使用任何可能的损失函数来训练目标分割模型。
在步骤605,可基于用于目标跟踪模型的损失函数以及用于目标分割模型的损失函数来对目标跟踪模型和目标分割模型进行联合训练。也就是说,目标分割模型与目标跟踪模型同时一起训练,但用于训练的损失函数可不同。例如,可利用用于目标跟踪模型的损失函数以及用于目标分割模型的损失函数各自计算损失,用梯度下降并行地回传,从而对目标跟踪模型和目标分割模型一起进行训练。
根据本公开的示例性实施例,用于目标分割模型的损失函数可根据步骤604获得,例如,采用上面的公式(3)的Polar IoU Loss损失函数。
用于目标跟踪模型的损失函数可采用对Ocean模型进行训练的损失函数,例如,采用用于回归网络的IoU loss损失函数和用于分类网络的二元交叉熵(BCE)损失函数联合得到的损失函数。
例如,用于回归网络的IoU loss损失函数Lreg可被表示为下面的公式(4):
Lreg=-∑iln(IoU(Preg,T*)) (4)
其中,i表示训练样本的索引,preg表示预测的样本到边界框的四个边的距离,T*表示训练标签中真实的样本到边界框的四个边的距离,参照上述公式(2)的描述。
用于分类网络的基于目标感知(object-aware)特征f的损失函数Lo可被表示为下面的公式(5):
用于分类网络的基于常规区域(regular-region)特征f的损失函数Lr可被表示为下面的公式(6):
因此,用于目标跟踪模型的损失函数L可被表示为下面的公式(7):
L=Lreg+λ1Lo+λ2Lr (7)
其中,λ1和λ2可为折衷超参数。
当然,用于目标跟踪模型的损失函数不限于上述示例,还可以是任何可能的损失函数。
图7是示出根据本公开的示例性实施例的目标分割方法的流程图。图7示出的目标分割方法基于上述目标跟踪模型和目标分割模型执行,这里,目标跟踪模型和目标分割模型是已训练完成的模型,其中,目标分割模型可以根据本公开的目标分割模型的训练方法训练得到。
参照图7,在步骤701,可获取待跟踪的目标图像和跟踪图像,其中,目标图像是指包括待跟踪目标的图像,跟踪图像是指包括将被执行跟踪的目标的图像。例如,可从待执行目标跟踪分割的视频图像中,获取目标图像,例如,选择视频图像的首帧,并对首帧进行裁剪以获得包括待跟踪目标的图像。并可从待执行目标跟踪分割的视频图像中,获取跟踪图像,例如,对于视频图像的实时输入的后续帧,执行如图7所示的目标分割方法。
在步骤702,可将目标图像和跟踪图像输入目标跟踪模型,获得第一特征图,其中,目标跟踪模型为Ocean模型。
根据本公开的示例性实施例,第一特征图可以是目标图像和跟踪图像经过目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。例如,如图2所示,第一特征图可以是特征组合模块输出的25×25×256的特征图。
在步骤703,可将第一特征图输入目标分割模型,获得所述待跟踪的目标的轮廓的极坐标的估计值。
根据本公开的示例性实施例,可获得待跟踪的目标的轮廓上的预定数量n个点的极坐标的估计值。也就是说,目标分割模型可输出n个角度中的每个角度下射线OM与目标的估计轮廓的交点的距离(即,极坐标系下目标轮廓上的n个点的估计极径长度)的集合。例如,如图2所示,可输出25×25×n的特征图。这里,n的取值在目标分割模型的训练阶段确定。例如,在训练阶段,n可以取非0的任意正整数,n越大,目标分割结果越准确,运算量也越大。可根据分割精确度的需求来设置n,例如,n可被预先设置为36。
根据本公开的示例性实施例,目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。例如,如图2所示,目标分割模型可由四个道数为256的3*3卷积层再加一个通道数为n的3*3的卷积层组成。当然,本公开的目标分割模型不限于此,还可以是任何可能的结构。
在步骤704,可基于跟踪图像和待跟踪的目标的轮廓的极坐标的估计值,获得目标分割结果。
根据本公开的示例性实施例,在待跟踪的目标的轮廓的极坐标的估计值包括待跟踪的目标的轮廓上的n个点的极坐标的估计值的情况下,可根据待跟踪的目标的轮廓上的n个点的极坐标的估计值,在跟踪图像中找到待跟踪的目标的轮廓的n个点,并将这n个点连接并将联通区域内的区域作为目标分割结果。
图8是示出根据本公开的示例性实施例的目标分割模型的训练装置的框图。
参照图8,根据本公开的示例性实施例的目标分割模型的训练装置800可包括样本获取单元801、特征图获取单元802、极坐标估计单元803、损失计算单元804和模型训练单元805。
样本获取单元801可获取图像样本数据,其中,每个图像样本数据包括目标图像和跟踪图像,其中,目标图像是指包括待跟踪目标的图像,跟踪图像是指包括将被执行跟踪的目标的图像。也就是说,将在跟踪图像中执行针对待跟踪目标的目标跟踪操作。这里,图像样本数据可从目标分割样本数据库中获得。
此外,跟踪图像具有目标的真实分割标签,其中,目标的真实分割标签包括目标的轮廓的极坐标的真实值。例如,目标的轮廓的极坐标可包括目标轮廓上的预定数量n个点的极坐标。n可以取非0的任意正整数,n越大,目标分割结果越准确,运算量也越大。可根据分割精确度的需求来设置n,例如,n可被预先设置为36,在实验中可获得一个较为平衡的结果。也就是说,目标的真实分割标签可包括n个角度中的每个角度下射线OM与目标的真实轮廓的交点的距离(即,极坐标系下目标轮廓上的n个点的真实极径长度)的集合。
根据本公开的示例性实施例,从目标分割样本数据库中获得的图像样本数据的真实分割标签可能是目标的轮廓的x-y坐标系下的真实值。在这种情况下,可对目标的轮廓的x-y坐标系的真实值执行x-y坐标系至极坐标系的转换,来获得目标的轮廓的极坐标的真实值。
特征图获取单元802可将目标图像和跟踪图像输入目标跟踪模型,获得第一特征图,其中,目标跟踪模型为Ocean模型。
根据本公开的示例性实施例,第一特征图可以是目标图像和跟踪图像经过目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。例如,如图2所示,第一特征图可以是特征组合模块输出的25×25×256的特征图。
极坐标估计单元803可将第一特征图输入目标分割模型,获得目标的轮廓的极坐标的估计值。
根据本公开的示例性实施例,极坐标估计单元803可获得目标轮廓上的预定数量n个点的极坐标的估计值。也就是说,目标分割模型可输出n个角度中的每个角度下射线OM与目标的估计轮廓的交点的距离(即,极坐标系下目标轮廓上的n个点的估计极径长度)的集合。例如,如图2所示,可输出25×25×n的特征图。
根据本公开的示例性实施例,目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。例如,如图2所示,目标分割模型可由四个道数为256的3*3卷积层再加一个通道数为n的3*3的卷积层组成。当然,本公开的目标分割模型不限于此,还可以是任何可能的结构。
损失计算单元804可基于目标的轮廓的极坐标的估计值和目标的轮廓的极坐标的真实值计算用于目标分割模型的损失函数。
根据本公开的示例性实施例,可采用Polar IoU Loss的损失函数来对根据本公开的目标分割模型进行训练,可达到自动调节权重使网络训练快速且稳定收敛的效果。例如,记{d1,d2,...,dn}为目标的轮廓的极坐标的真实值,即,n个角度下由真实分割标签计算出来的n个对应的真实极径长度,为目标的轮廓的极坐标的估计值,即,n个角度下由目标分割模型回归预测出来的n个对应的估计极径长度,则用于目标分割模型的损失函数可被表示为上面的公式(3)。当然,根据本公开的用于目标分割模型的损失函数不限于此,还可使用任何可能的损失函数来训练目标分割模型。
模型训练单元805可基于用于目标跟踪模型的损失函数以及用于目标分割模型的的损失函数来对目标跟踪模型和目标分割模型进行联合训练。也就是说,目标分割模型与目标跟踪模型同时一起训练,但用于训练的损失函数可不同。例如,模型训练单元805可利用用于目标跟踪模型的损失函数以及用于目标分割模型的损失函数各自计算损失,用梯度下降并行地回传,从而对目标跟踪模型和目标分割模型一起进行训练。
图9是示出根据本公开的示例性实施例的目标分割装置的框图。图9示出的目标分割装置基于上述目标跟踪模型和目标分割模型执行操作,这里,目标跟踪模型和目标分割模型是已训练完成的模型,其中,目标分割模型可以根据本公开的目标分割模型的训练方法训练得到。
参照图9,根据本公开的示例性实施例的目标分割装置900可包括图像获取单元901、特征图获取单元902、极坐标估计单元903和目标分割单元904。
图像获取单元901可获取待跟踪的目标图像和跟踪图像,其中,目标图像是指包括待跟踪目标的图像,跟踪图像是指包括将被执行跟踪的目标的图像。例如,可从待执行目标跟踪分割的视频图像中,获取目标图像,例如,选择视频图像的首帧,并对首帧进行裁剪以获得包括待跟踪的目标的图像。并可从待执行目标跟踪分割的视频图像中,获取跟踪图像,例如,对于视频图像的实时输入的后续帧,执行如图7所示的目标分割方法。
特征图获取单元902可将目标图像和跟踪图像输入目标跟踪模型,获得第一特征图,其中,目标跟踪模型为Ocean模型。
根据本公开的示例性实施例,第一特征图可以是目标图像和跟踪图像经过目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。例如,如图2所示,第一特征图可以是特征组合模块输出的25×25×256的特征图。
极坐标估计单元903可将第一特征图输入目标分割模型,获得所述待跟踪的目标的轮廓的极坐标的估计值。
根据本公开的示例性实施例,极坐标估计单元903可获得待跟踪的目标的轮廓上的预定数量n个点的极坐标的估计值。也就是说,目标分割模型可输出n个角度中的每个角度下射线OM与目标的估计轮廓的交点的距离(即,极坐标系下目标轮廓上的n个点的估计极径长度)的集合。例如,如图2所示,可输出25×25×n的特征图。这里,n的取值在目标分割模型的训练阶段确定。例如,在训练阶段,n可以取非0的任意正整数,n越大,目标分割结果越准确,运算量也越大。可根据分割精确度的需求来设置n,例如,n可被预先设置为36。
根据本公开的示例性实施例,目标分割模型可以是由预定数量的卷积层组成的极坐标系轮廓建模回归模型,其中,最后一个卷积层的通道数为n。例如,如图2所示,目标分割模型可由四个道数为256的3*3卷积层再加一个通道数为n的3*3的卷积层组成。当然,本公开的目标分割模型不限于此,还可以是任何可能的结构。
目标分割单元904可基于跟踪图像和待跟踪的目标的轮廓的极坐标的估计值,获得目标分割结果。
根据本公开的示例性实施例,在待跟踪的目标的轮廓的极坐标的估计值包括待跟踪的目标的轮廓上的n个点的极坐标的估计值的情况下,目标分割单元904可根据待跟踪的目标的轮廓上的n个点的极坐标的估计值,在跟踪图像中找到待跟踪的目标的轮廓的n个点,并将这n个点连接并将联通区域内的区域作为目标分割结果。
图10是根据本公开的示例性实施例的电子设备1000的框图。
参照图10,电子设备1000包括至少一个存储器1001和至少一个处理器1002,所述至少一个存储器701中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器1002执行时,执行根据本公开的示例性实施例的目标分割模型的训练方法或目标分割方法。
作为示例,电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备1000并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备1000中,处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器1002可运行存储在存储器1001中的指令或代码,其中,存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器1001可与处理器1002集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器1001可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器1002能够读取存储在存储器中的文件。
此外,电子设备1000还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备1000的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的目标分割模型的训练方法或目标分割方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的目标分割模型的训练方法或目标分割方法。
根据本公开的目标分割模型的训练方法及装置和目标分割方法及装置,以Ocean模型作为基础目标追踪算法框架,增加一个轻量的基于极坐标系回归的目标分割模块,实现对追踪目标的分割。根据本公开的目标分割模块运算量小,适用性广,有利于移动端等轻量型设备的部署。此外,根据本公开的目标分割模块对小目标或简单形状的目标分割效果较好,弥补了Ocean模型无法执行跟踪物体的分割功能的不足,可以与Ocean模型一起完成对目标物体的追踪和分割任务。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种目标分割模型的训练方法,其特征在于,包括:
获取图像样本数据,其中,每个图像样本数据包括目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像,并具有所述目标的真实分割标签,其中,所述目标的真实分割标签包括所述目标的轮廓的极坐标的真实值;
将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;
将第一特征图输入目标分割模型,获得所述目标的轮廓的极坐标的估计值;
基于所述目标的轮廓的极坐标的估计值和所述目标的轮廓的极坐标的真实值计算用于所述目标分割模型的损失函数;
基于用于所述目标跟踪模型的损失函数以及用于所述目标分割模型的损失函数来对所述目标跟踪模型和所述目标分割模型进行联合训练。
2.如权利要求1所述的训练方法,其特征在于,所述目标的轮廓的极坐标的真实值是通过将所述目标的轮廓的x-y坐标系的真实值执行x-y坐标系至极坐标系的转换而得到的。
3.如权利要求1所述的训练方法,其特征在于,第一特征图是所述目标图像和所述跟踪图像经过所述目标跟踪模型的特征提取模块和特征组合模块后得到的特征图。
4.如权利要求1所述的训练方法,其特征在于,所述目标的轮廓的极坐标包括所述目标的轮廓上的预定数量n个点的极坐标。
5.一种目标分割方法,其特征在于,包括:
获取待跟踪的目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像;
将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;
将第一特征图输入目标分割模型,获得所述待跟踪的目标的轮廓的极坐标的估计值;
基于所述跟踪图像和所述待跟踪的目标的轮廓的极坐标的估计值,获得目标分割结果。
6.一种目标分割模型的训练装置,其特征在于,包括:
样本获取单元,被配置为:获取图像样本数据,其中,每个图像样本数据包括目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像,并具有所述目标的真实分割标签,其中,所述目标的真实分割标签包括所述目标的轮廓的极坐标的真实值;
特征图获取单元,被配置为:将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;
极坐标估计单元,被配置为:将第一特征图输入目标分割模型,获得所述目标的轮廓的极坐标的估计值;
损失计算单元,被配置为:基于所述目标的轮廓的极坐标的估计值和所述目标的轮廓的极坐标的真实值计算用于所述目标分割模型的损失函数;
模型训练单元,被配置为:基于用于所述目标跟踪模型的损失函数以及用于所述目标分割模型的损失函数来对所述目标跟踪模型和所述目标分割模型进行联合训练。
7.一种目标分割装置,其特征在于,包括:
图像获取单元,被配置为:获取待跟踪的目标图像和跟踪图像,其中,所述目标图像是指包括待跟踪目标的图像,所述跟踪图像是指包括将被执行跟踪的所述目标的图像;
特征图获取单元,被配置为:将所述目标图像和所述跟踪图像输入目标跟踪模型,获得第一特征图,其中,所述目标跟踪模型为Ocean模型;
极坐标估计单元,被配置为:将第一特征图输入目标分割模型,获得所述待跟踪的目标的轮廓的极坐标的估计值;
目标分割单元,被配置为:基于所述跟踪图像和所述待跟踪的目标的轮廓的极坐标的估计值,获得目标分割结果。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的目标分割模型的训练方法或如权利要求5所述的目标分割方法。
9.一种计算机可读存储介质,其特征在于,当述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的目标分割模型的训练方法或如权利要求5所述的目标分割方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被至少一个处理器执行时实现如权利要求1到4中的任一权利要求所述的目标分割模型的训练方法或如权利要求5所述的目标分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110405701.3A CN113096104B (zh) | 2021-04-15 | 2021-04-15 | 目标分割模型的训练方法及装置和目标分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110405701.3A CN113096104B (zh) | 2021-04-15 | 2021-04-15 | 目标分割模型的训练方法及装置和目标分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096104A true CN113096104A (zh) | 2021-07-09 |
CN113096104B CN113096104B (zh) | 2024-06-21 |
Family
ID=76677738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110405701.3A Active CN113096104B (zh) | 2021-04-15 | 2021-04-15 | 目标分割模型的训练方法及装置和目标分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096104B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822901A (zh) * | 2021-07-21 | 2021-12-21 | 南京旭锐软件科技有限公司 | 图像分割方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709939A (zh) * | 2016-12-09 | 2017-05-24 | 中国电子科技集团公司第三研究所 | 目标跟踪方法和目标跟踪装置 |
CN109509214A (zh) * | 2018-10-15 | 2019-03-22 | 杭州电子科技大学 | 一种基于深度学习的船舶目标跟踪方法 |
CN111612823A (zh) * | 2020-05-21 | 2020-09-01 | 云南电网有限责任公司昭通供电局 | 一种基于视觉的机器人自主跟踪方法 |
CN112037254A (zh) * | 2020-08-11 | 2020-12-04 | 浙江大华技术股份有限公司 | 目标跟踪方法及相关装置 |
CN112308881A (zh) * | 2020-11-02 | 2021-02-02 | 西安电子科技大学 | 一种基于遥感图像的舰船多目标跟踪方法 |
-
2021
- 2021-04-15 CN CN202110405701.3A patent/CN113096104B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709939A (zh) * | 2016-12-09 | 2017-05-24 | 中国电子科技集团公司第三研究所 | 目标跟踪方法和目标跟踪装置 |
CN109509214A (zh) * | 2018-10-15 | 2019-03-22 | 杭州电子科技大学 | 一种基于深度学习的船舶目标跟踪方法 |
CN111612823A (zh) * | 2020-05-21 | 2020-09-01 | 云南电网有限责任公司昭通供电局 | 一种基于视觉的机器人自主跟踪方法 |
CN112037254A (zh) * | 2020-08-11 | 2020-12-04 | 浙江大华技术股份有限公司 | 目标跟踪方法及相关装置 |
CN112308881A (zh) * | 2020-11-02 | 2021-02-02 | 西安电子科技大学 | 一种基于遥感图像的舰船多目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
ZHIPENG ZHANG: ""ocean :object -aware anchor free tracking"", 《COMPUTER VISION ECCV 2020. 16TH EUROPEAN CONFERENCE. PROCEEDINGS. LECTURE NOTES IN COMPUTER SCIENCE》, pages 1 - 14 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822901A (zh) * | 2021-07-21 | 2021-12-21 | 南京旭锐软件科技有限公司 | 图像分割方法、装置、存储介质及电子设备 |
CN113822901B (zh) * | 2021-07-21 | 2023-12-12 | 南京旭锐软件科技有限公司 | 图像分割方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113096104B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6765487B2 (ja) | 人工知能を用いるコンピュータ実施方法、aiシステム、及びプログラム | |
US11003956B2 (en) | System and method for training a neural network for visual localization based upon learning objects-of-interest dense match regression | |
CN111199564B (zh) | 智能移动终端的室内定位方法、装置与电子设备 | |
WO2017132636A1 (en) | Systems and methods for extracting information about objects from scene information | |
CN112435338B (zh) | 电子地图的兴趣点的位置获取方法、装置及电子设备 | |
US20220156944A1 (en) | Apparatus and method with video processing | |
Zhang et al. | A new high resolution depth map estimation system using stereo vision and kinect depth sensing | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
JP2019185787A (ja) | 地理的地域内のコンテナのリモート決定 | |
CN112634368A (zh) | 场景目标的空间与或图模型生成方法、装置及电子设备 | |
CN112036457A (zh) | 训练目标检测模型的方法及装置、目标检测方法及装置 | |
CN114463503A (zh) | 三维模型和地理信息系统的融合方法及装置 | |
Park et al. | Estimating the camera direction of a geotagged image using reference images | |
Dai et al. | RGB‐D SLAM with moving object tracking in dynamic environments | |
CN113284237A (zh) | 一种三维重建方法、系统、电子设备及存储介质 | |
CN113096104B (zh) | 目标分割模型的训练方法及装置和目标分割方法及装置 | |
Álvarez et al. | Junction assisted 3d pose retrieval of untextured 3d models in monocular images | |
CN117132649A (zh) | 人工智能融合北斗卫星导航的船舶视频定位方法及装置 | |
Geng et al. | SANet: A novel segmented attention mechanism and multi-level information fusion network for 6D object pose estimation | |
Li et al. | TextSLAM: Visual SLAM With Semantic Planar Text Features | |
Shan et al. | Visual tracking using IPCA and sparse representation | |
Li et al. | A Sparse Feature Matching Model Using a Transformer towards Large‐View Indoor Visual Localization | |
Lee et al. | Camera pose estimation using voxel-based features for autonomous vehicle localization tracking | |
Gupta et al. | Image feature detection using an improved implementation of maximally stable extremal regions for augmented reality applications | |
Park et al. | Real‐time robust 3D object tracking and estimation for surveillance system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |