CN102867192B - 一种基于监督测地线传播的场景语义迁移方法 - Google Patents

一种基于监督测地线传播的场景语义迁移方法 Download PDF

Info

Publication number
CN102867192B
CN102867192B CN201210324835.3A CN201210324835A CN102867192B CN 102867192 B CN102867192 B CN 102867192B CN 201210324835 A CN201210324835 A CN 201210324835A CN 102867192 B CN102867192 B CN 102867192B
Authority
CN
China
Prior art keywords
image
geodesic line
scene
similar
similar image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210324835.3A
Other languages
English (en)
Other versions
CN102867192A (zh
Inventor
陈小武
赵沁平
李青
宋亚斐
金鑫
赵东悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201210324835.3A priority Critical patent/CN102867192B/zh
Publication of CN102867192A publication Critical patent/CN102867192A/zh
Application granted granted Critical
Publication of CN102867192B publication Critical patent/CN102867192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种提供一种基于监督测地线传播的场景语义迁移方法,包括以下步骤:利用特征匹配方法,在整个数据集中检索得到与图像场景最相似的N个图像,构成图像场景的相似图像集合;以相似图像集合作为训练集,利用已有的对象识别方法得到判别式模型,获得图像场景对应的粗略语义概率图,确定全局概率最大的点作为测地线传播的初始种子点;结合图像的颜色特征和边界特征,在图结构上定义测地线传播的初始距离;以相似图像集合作为训练集,根据相似图像的上下文信息,利用判别式方法得到传播指示器,指导测地线传播的方向;进行有监督的测地线传播处理,得到图像场景的准确语义标记。该方法能够得到图像场景准确的语义标记信息。

Description

一种基于监督测地线传播的场景语义迁移方法
技术领域
本发明涉及计算机视觉和计算机图像处理领域,具体地说是一种基于监督测地线传播的图像场景语义迁移方法。
背景技术
语义标记,也就是多类别分割,是计算机视觉和图像场景理解领域的一个基础而重要的问题。在过去的几十年里,很多学者致力于该问题的研究并且取得了一定的进展。但是如何让计算机视觉技术像人类视觉一样去识别和分割对象,仍然是一个很有挑战性的问题。最近,有些学者提出了一些用产生式或者判别式模型等经典模型来解决这个问题的方法。这种经典模型方法需要一个训练数据集,该数据集的大小和所包含的类别是固定且已知的。另外还有一些学者提出,将底层视觉特征和高层上下文先验知识集成到一个由底向上/由上到下的模型中来解决语义标记问题。这些方法都需要在固定的数据集上训练模型以得到模型的参数,因此他们不能随着对象类别数目的变化而变化。例如,当要增加一个新的对象类别到这些基于学习的模型中时,必须要重新训练这个模型,使得参数适应新的语义类别。
随着图像数据集越来越普及,很多大型的数据集已经通过网络在世界范围内共享,比如LabelMe数据集。大规模数据的驱动为非参数的模型和方法提供了潜在可能性,这种非参数的模型可以应用到对象和场景识别、语义标记和分割等领域中。麻省理工学院的CeLiu等人于2009年第一次提出一种非参数的场景解析方法,称之为语义迁移。此后,很多学者开始关注这一问题并取得了一些成果。语义迁移,顾名思义,就是利用已标注好的图像场景,把它们的语义标记迁移到未知语义标记的图像场景中,使得未知标记的图像场景中每一个像素都有对应的语义类别。语义迁移有两个需要解决的关键问题:第一个是对于一张输入的图像,如何在数据集中找到合适的相似图像。第二个是如何用相似图像去解析输入图像。对于第一个问题,一些图像搜索方面的工作已经有了较深入的研究,如麻省理工学院的AntonioTorralba、AudeOliva等人。因此第一个问题不是本发明的工作重点,本发明重点在于解决第二个问题。相似图像和输入图像之间的精准匹配是解决第二个问题的关键点。值得注意的是,香港科技大学的HonghuiZhang等人提出了一种基于匹配相应的有监督的语义迁移方法。以往的语义迁移方法通常的流程是,首先对输入图像和相似图像进行像素级别或超像素级别的匹配,然后再使用马尔科夫随机场优化算法,最终得到输入图像的语义标记结果。
但是,现有的产生式模型或判别式模型是在整个数据集上训练得到的,当数据集庞大的时候,训练过程是比较费时间的。并且,对于一张输入图像来说,它场景中的内容是固定的,场景内容中的对象类别是数据集中对象类别的真子集。因此在整个数据集上训练得到的模型对于一张图像来说,很有可能是冗余的。这种模型会把一些不存在于输入图像中的类别带入到对输入图像的识别中,由此造成了一定程度上的识别结果的噪声和误差。在后续优化过程中,未必能消除这种噪声或误差,因此会对最终结果产生影响,使得最终结果偏离了真实的语义标记。如果在训练模型的时候就能够将语义类别缩小在一定范围内,而不是整个数据集,那么能对语义标记的结果产生较好的影响。
发明内容
根据上述实际需求和关键问题,本发明的目的在于:提供一种基于监督测地线传播的场景语义迁移方法,该方法能够得到图像场景准确的语义标记信息。
为实现本发明目的而提供的一种基于监督测地线传播的场景语义迁移方法,该方法包括以下步骤:
步骤S100,利用特征匹配方法,在整个数据集中检索得到与图像场景最相似的N个图像,构成图像场景的相似图像集合;其中,N为整数;
步骤S200,以相似图像集合作为训练集,利用已有的对象识别方法得到判别式模型,获得图像场景对应的粗略语义概率图,确定全局概率最大的点作为测地线传播的初始种子点;
步骤S300,结合图像的颜色特征和边界特征,在图结构上定义测地线传播的初始距离;
步骤S400,以相似图像集合作为训练集,根据相似图像的上下文信息,利用判别式方法得到传播指示器,指导测地线传播的方向;所述传播指示器是以相似图像中的相邻超像素区域之间的上下文关系作为训练数据,训练得到的分类器;
步骤S500,将传播指示器应用到测地线传播过程中,进行有监督的测地线传播处理,得到图像场景的准确语义标记;
其中,所述步骤S500中进行有监督的测地线传播处理,是将传播指示器应用到了测地线传播过程中,用来判断是否将当前种子点的语义标记值传递给它尚未确定最终语义标记的邻居区域。
作为一种可实施例,所述步骤S100包括如下步骤:
步骤S110,首先在欧式距离空间中根据吉斯特特征匹配得到图像场景的K个最近邻居,即得到了K个相似图像;
步骤S120,然后对这K个相似图像进行相似度顺序的重排列;在重排列之后,选取相似度最高的前N个图像作为相似图像集合;
其中,K为整数,K≥N。
作为一种可实施例,所述步骤S120包括如下步骤:
步骤121,对K个相似图像进行相似度顺序重排列时,首先将图像场景和每个相似图像都进行过分割处理,使得每张图像都由若干超像素区域组成;每一个超像素区域都对应一个特征描述符;
步骤S122,然后对于图像场景中的每一个超像素区域,利用特征描述符度量并匹配该区域在每一张相似图像中的最匹配的超像素区域,将两个超像素区域之差记作区域相似差;
步骤S123,以所有的超像素区域与其在相似图像中的匹配区域的区域相似差之和作为图像场景与相似图像的相似差;
步骤S124,根据图像场景与K个相似图像的相似差,选择差异最小的前N个作为相似图像集合。
作为一种可实施例,所述步骤S200中训练判别式对象识别模型是以相似图像集合作为训练集,对象的类别是相似图像集合中所有的类别。
作为一种可实施例,所述步骤S300中的测地线距离是定义在图结构上的权重值;
图像场景中的每个超像素区域对应图结构中的一个节点;
连接两个节点的边上的权值代表这两个超像素区域的底层特征相似度差异,以两个区域的伯克利边界特征值与区域颜色特征差异值的加权和来度量。
作为一种可实施例,;
所述步骤S500中进行有监督的测地线传播处理,包括如下步骤:
步骤S510,在所有尚未确定最终语义标记的节点中,选择测地线距离最小节点作为当前种子点;构建当前种子点区域和它邻居区域的特征向量,利用种子点语义类别的传播指示器来获得该特征向量的置信值;
步骤S520,如果置信值大于特定阈值,则邻居区域和当前种子点属于同一类别,将种子点的语义标记传播到该邻居区域并更新其测地线距离;否则,维持邻居区域的当前语义类别和测地线距离;
步骤S530,重复步骤S510和S520,直到所有节点都确定最终语义标记。
与现有的技术相比,本发明有益的特点是:
1、本发明以相似图像集合作为判别式对象识别模型的训练集,在初始对象识别结果基础上,将图像场景语义迁移问题转化为在超像素级别的图结构上为节点标记多类对象类别的问题。
2、本发明在整个数据集中检索得到与图像场景最相似的K个图像,并对这K个图像进行相似度的重排序,选取出重排序后的前N个图像构成输入图像场景的相似图像集合。
3、本发明根据初始对象识别结果定义超像素区域的初始测地线距离,并选取全局测地线距离最小点作为初始种子点。
4、本发明在相似图像集合上训练传播指示器,以相似图像中的上下文信息指导语义标记的传播方向。
5、本发明提出了有监督的测地线传播算法。在每一步迭代过程中,选择当前所有未标记节点中具有最小测地线距离的节点作为当前种子点,并确定该种子点的语义标记。查找与当前种子点相邻且未标记的节点,根据边权值和传播指示器判断该节点是否需要更新测地线距离及其语义标记。重复此步骤直到所有节点都确定最终语义标记。该算法能够快速完成图像场景的语义标记。
附图说明
图1是本发明实施例的基于监督测地线传播的场景语义迁移方法流程图;
图2是本发明实施例的初始语义识别概率图;
图3是本发明实施例的测地线距离示意图;
图4是本发明实施例的有监督的测地线传播流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种基于监督测地线传播的场景语义迁移方法进行解释。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明针对现有技术中存在的问题,本发明实施例提供了一种基于监督测地线传播的语义迁移方法,使用了有监督的学习方法去指导种子点的选择和语义标记的传播。包括:对于一张输入图像,首先从已标注好的整体数据集中找到它的相似图像集合。然后在这个集合上,训练得到一个联合增强判别式模型,再利用这个模型得到输入图像的初始概率图。在根据初始概率图定义初始测地线距离,概率越大,则测地线距离越小。在测地线传播的每一步迭代过程中,选择未确定标记的具有最小测地线距离的超像素作为种子点。本发明实施例在相似图像集合上训练得到指导测地线传播方向的传播指示器,训练样本是由相似图像集合中的相邻超像素对构成。在传播迭代中,种子点邻居区域的测地线距离根据颜色、边界特征以及传播指示器的值来更新。当迭代收敛时,输入图像得到最终的语义标记结果。
本发明实施例首先对一张输入图像,在数据集中搜索它的相似图像,以此相似图像集合作为训练判别式识别模型的训练集。
根据上述技术方案,本发明实施例提供的图像场景语义迁移方法首先获得输入图像的相似图像集合。相似的含义是,语义类别和类别之间的上下文关系相似。如何获得合适的相似图像不是本发明实施例的重点,因此本发明实施例采用了以往语义迁移方法中常用的吉斯特匹配从数据集中搜索得到输入图像的K近邻。在吉斯特匹配时,能够得到这K个邻居与输入图像的相似度。之后,再对这K个近邻按照以下的方法进行相似度的重排序。首先将输入图像和每个相似图像都进行过分割处理,使得每张图像都由若干超像素区域组成。一个超像素区域中所有的像素都对应同一个语义标记。每一个超像素区域都有一个特征描述符。在欧式空间中两个区域间的特征描述符的距离越小,则认为这两个区域越匹配。然后对于输入图像中的每一个超像素区域,找到该区域在每一张相似图像中的最匹配的超像素区域,将两个超像素区域之差记作区域相似差。计算输入图像所有的超像素区域与其在一张相似图像中的匹配区域的区域相似差之和,以此作为输入图像与相似图像的相似差。根据图像场景与K个相似图像的相似差,选择差异最小的前N个作为相似图像集合。K、N为整数,其中K≥N。
本发明实施例提供了一种基于监督测地线传播的场景语义迁移方法,如图1所示,该方法包括以下步骤:
步骤S100,利用特征匹配方法,在整个数据集中检索得到与图像场景最相似的N个图像,构成图像场景的相似图像集合;
其中,N为整数;
步骤S200,以相似图像集合作为训练集,利用已有的对象识别方法得到判别式模型,从而获得图像场景对应的粗略语义概率图,确定全局概率最大的点作为测地线传播的初始种子点;
步骤S300,结合图像的颜色特征和边界特征,在图结构上定义测地线传播的初始距离。
步骤S400,以相似图像集合作为训练集,根据相似图像的上下文信息,利用判别式方法得到传播指示器,该指示器指导测地线传播的方向。
步骤S500,将传播指示器应用到测地线传播过程中,进行有监督的测地线传播处理(即实现有监督的测地线传播算法),将相似图像中的语义标记迁移到场景中合适的每一像素,从而得到图像场景的准确语义标记。
较佳地,作为一种可实施方式,步骤S100包括如下步骤:
步骤S110,在检索相似图像时,在欧式距离空间中根据吉斯特特征匹配得到图像场景的K个最近邻居,即得到了K个相似图像;其中,K≥N;
步骤S120,然后对这K个相似图像进行相似度顺序的重排列,在重排列之后,选取相似度最高的前N个图像作为相似图像集合。
较佳地,作为一种可实施方式,所述步骤S120包括如下步骤:
步骤S121将图像场景和每个相似图像都进行过分割处理,使得每张图像都由若干超像素区域组成;其中每一个超像素区域都对应一个22维的特征描述符;
步骤S122,对于图像场景中的每一个超像素区域,利用特征描述符度量并匹配该区域在每一张相似图像中的最匹配的超像素区域,将两个超像素区域之差记作区域相似差;
步骤S123,以所有的超像素区域与其在相似图像中的匹配区域的区域相似差之和作为图像场景与相似图像的相似差;
步骤S124,根据图像场景与K个相似图像的相似差,选择差异最小的前N个作为相似图像集合。
较佳地,作为一种可实施方式,所述步骤S200中训练判别式对象识别模型是以相似图像集合作为训练集,而不是整个数据集中所有的类别,对象的类别是相似图像集合中所有的类别。在获得场景粗略语义概率图后,以全局概率最大的超像素区域作为测地线传播的初始种子点。
较佳地,作为一种可实施方式,所述步骤S300中的测地线距离是定义在图结构上的权重值。图像场景中的每个超像素区域对应图结构中的一个节点。连接两个节点的边上的权值代表这两个超像素区域的底层特征相似度差异,以两个区域的伯克利边界特征值与区域颜色特征差异值的加权和来度量。
较佳地,作为一种可实施方式,所述步骤S400中的传播指示器,是以相似图像中的相邻超像素区域之间的上下文关系作为训练数据,训练得到的分类器。每一组样本数据是由两个相邻超像素区域的特征向量构成。如果两个区域的语义标记一致,则该样本记为正样本,否则记为负样本。相似图像集合中的每一种对象类别,都有自己类别的传播指示器。每一类别的指示器能指导本类别语义标记的传播。
较佳地,作为一种可实施方式,所述步骤S500,进行有监督的测地线传播处理(即实现有监督的测地线传播算法),是将传播指示器应用到了测地线传播过程中,传播指示器是用来判断是否将当前种子点的语义标记值传递给它尚未确定最终语义标记的邻居区域。
所述步骤S500中进行有监督的测地线传播处理,包括如下步骤:
步骤S510,在所有尚未确定最终语义标记的节点中,选择测地线距离最小节点作为当前种子点;构建当前种子点区域和它邻居区域的特征向量,利用种子点语义类别的传播指示器来获得该特征向量的置信值;
步骤S520,如果置信值大于预设阈值,则邻居区域和当前种子点属于同一类别,将种子点的语义标记传播到该邻居区域并更新其测地线距离;否则,维持邻居区域的当前语义类别和测地线距离;;
步骤S530,重复步骤S510和S520,直到所有节点都确定最终语义标记。
本发明实施例提供了一种自动选择测地线传播种子点方法。相似图像集合中的语义类别包含了输入图像的语义类别,因此以相似图像集合作为训练集来训练判别式的对象识别模型。较佳地,作为一种可实施方式,本发明实施例使用了17维的滤波器响应值作为训练样本的特征向量。然后在训练集中随机采样样本数据,训练得到输入图像的联合增强判别式模型。由该模型推理得到输入图像的粗略语义识别概率图,再根据概率图得到输入图像所有超像素区域的初始测地线距离图。概率值越大的超像素区域其测地线距离越小。在每一部迭代过程中,测地线距离最小的那个超像素区域被选为当前种子点。
在本发明实施例所定义的在图结构中,节点对应图像场景中的每一个超像素区域,连接两个节点的边代表这两个节点也就是区域之间有邻接关系。本发明实施例的图结构是定义在超像素级别上的,节点的信息是节点对应的区域内所有像素信息的平均值。节点自身权重是以测地线距离来度量的,测地线距离越小,自身权重越小。同时,连接两个节点的边也有权值,用来度量两个节点之间的一致性。作为一种可实施方式,本发明实施例采用颜色、纹理、边界特征来定义边上的权值。具体来说,边权值由两部分组成:纹理特征部分和边界特征部分。作为一种可实施方式,在本发明实施例中,求解图像场景的语义标记结果,转化为在图结构上为未知标记节点赋值测地线距离最小的类别标记。节点到一个类别的测地线距离定义为,节点到这个类别所有已确定的点中测地线距离最小的值。
本发明实施例在相似图像集合上训练了一种有监督的传播指示器。该指示器是基于以下设条件:相似图像中的对象类别之间的上下文关系与输入图像对象类别之间的上下文关系是相似的,因此可以用相似图像的上下文信息来指导输入图像中的语义标记传播。对于相似图像集合中的每一种类别,都要训练该类别的传播指示器。该指示器用来判断是否将当前区域的语义标记传播到它相邻的区域上,使得相邻的区域被赋值和当前区域相同的语义标记。
在获得了图结构信息、各节点的初始测地线距离以及各类别的传播指示器后,本发明实施例将这些信息集成到有监督的测地线传播过程中,进行能够确定性的快速求解。在每一步迭代过程中,先根据所有尚未确定标记节点的当前测地线距离,选择一个距离最小的作为当前种子点,并使它的语义标记最终确定为当前状态下的标记。这意味着在概率上已经最大可能的确定了一个节点的标记。然后更新这个种子点周围的尚未确定的邻居节点的测地线距离。在更新的时候,本发明实施例用传播指示器来指导是否要更新。更新之后,进入下一步迭代过程,如此直到所有的节点都确定最终标记,得到图像场景的语义标记结果。
下面进一步详细说明本发明实施例的基于监督测地线传播的场景语义迁移方法。
对于一张输入图像,首先利用吉斯特匹配方法从已标注好的整体数据集中找到它的相似图像集合。然后在这个集合上,训练得到一个联合增强判别式模型,再利用这个模型得到输入图像的初始概率图。在根据初始概率图定义初始测地线距离,概率越大,则测地线距离越小。在测地线传播的每一步迭代过程中,选择未确定标记的具有最小测地线距离的超像素作为种子点。本发明实施例在相似图像集合上训练得到指导测地线传播方向的传播指示器,训练样本是由相似图像集合中的相邻超像素对构成。在传播迭代中,种子点邻居区域的测地线距离根据颜色、边界特征以及传播指示器的值来更新。当迭代收敛时,输入图像得到最终的语义标记结果。
本发明实施例提供的图像场景语义迁移方法首先获得输入图像的相似图像集合。本发明实施例采用了以往语义迁移方法中的吉斯特匹配从数据集中搜索得到输入图像的K近邻。在吉斯特匹配时,能够得到这K个邻居与输入图像的相似度。之后,再对这K个近邻按照以下的方法进行相似度的重排序。
首先将输入图像I和它的每个相似图像R都进行过分割处理,使得每张图像都由若干超像素区域组成;一个超像素区域中所有的像素都对应同一个语义标记,每一个超像素区域都有一个22维的特征描述符,在欧式空间中两个区域间的特征描述符的距离越小,则认为这两个区域越匹配。
然后对于输入图像I中的每一个超像素区域i,找到该区域在每一张相似图像R中的最匹配的超像素区域r(i),然后根据以下(1)式计算输入图像I和它的相似图像R的相似差。
D r ( I , R ) = Σ i ∈ I , r ( i ) ∈ R | | ( fv i - fv r ( i ) ) | | 2 - - - ( 1 )
其中,fvi是超像素i的22维特征描述符,它由构成i中所有像素的HSV颜色通道的平均值、所有像素的坐标平均值、所有像素的17维滤波器响应平均值构成。
根据Dr(I,R)值的大小对输入图像的K个相似图像进行重排序,Dr(I,R)值越小的相似度越大。选择Dr(I,R)值最小的前N个相似图像作为输入图像的相似图像集合,记作{RN}。
在得到了相似图像集合之后,本发明实施例充分利用相似图像的上下文信息。相似图像集合中的语义类别包含了输入图像的语义类别,因此以相似图像集合作为训练集来训练判别式的对象识别模型。本发明实施例使用了17维的滤波器响应值作为训练样本的特征向量,该特征向量的实质是对纹理特征的描述。然后在训练集中随机采样样本数据,训练得到输入图像的联合增强判别式模型。由该模型推理得到输入图像的粗略语义识别概率图,再根据概率图得到输入图像所有超像素区域的初始测地线距离图。概率值越大的超像素区域其测地线距离越小,如图2所示。
每一个超像素区域i都被赋予一个暂定的语义标记,即i的最大概率值pl(i)对应的语义类别。在每一步迭代过程中,测地线距离最小的那个超像素区域被选为当前种子点。超像素i的初始测地线距离计算公式(2)如下:
Disinitial(i)=1-pl(i)(2)
接下来,本发明实施例结合图像的颜色特征和边界特征,在图结构上定义测地线传播的初始距离。本发明实施例中的图结构是定义在超像素级别上的,图结构中每个节点对应图像中每个超像素区域,节点之间有边连接的代表这两个超像素相邻接,如图3所示。边上的权值Wij代表了两个超像素区域i和j的一致性,权值越大,一致性越小。
作为一种可实施方式,本发明实施例采用颜色、纹理、边界特征来定义边上的权值。具体来说,边权值由两部分组成:纹理特征部分Wtexture(i,j)和边界特征部分Wbdry(i,j),如以下公式(3)所示:
W(i,j)=λ1Wtexture(i,j)+λ2Wbdry(i,j)(3)
其中,λ1和λ2是调节参数。Wtexture(i,j)是超像素区域i和j的纹理特征描述符在欧式空间的距离差,该描述符包含HSV特征、坐标值和17维滤波器响应值。
对于边界特征部分Wbdry(i,j),本发明实施例使用伯克利边界检测器得到边界置信值,如以下公式(4)所示,其中θ为边界阈值:
Wbdry(i,j)=Pb(i,j,θ)(4)
在获得相似图像集合之后,本发明实施例充分考虑相似图像的上下文信息,利用随机森林方法训练得到传播指示器,以该指示器来指导测地线传播的方向。对于相似图像集合中的每一种类别,都要训练该类别的传播指示器。该指示器用来判断是否将区域i的语义标记传播到它相邻的区域j上,使得区域j被赋值和区域i相同的语义标记。如果被该指示器判别为i和j属于相同类别的区域的话,就传播;否则,不传播。
作为一种可实施方式,本发明实施例以超像素对(i,j)为样本数据,fv(i,j)=<fvi,fvj>为该样本的44维特征向量,包含超像素区域i和j的HSV特征、坐标值、17维滤波器响应值。如果区域j的语义标记lj与区域i的语义标记li一致,那么fv(i,j)就作为类别li传播指示器的正样本;否则,作为负样本。注意,fv(i,j)和fv(j,i)是不同的特征向量:它们不仅是对应维度上的特征值不同,最重要的是,它们是不同语义类别的样本。fv(i,j)是类别li的样本,而fv(j,i)是类别lj的样本。所有的特征值都被归一化在[0,1]区间内。在测试阶段,针对当前种子点vi,本发明实施例提取vi和它的邻接超像素vj的特征向量组成fv(vi,vj),放入vi所属类别l的传播指示器,得到传播指示器输出的置信值conl(vi,vj),然后根据如下公式(5)得到指示函数Tl(vi,vj)的值,其中是指示器的阈值。
Tl(vi,vj)=1[conl(vi,vj)>φ](5)
在经过以上这些步骤之后,开始进入有监督的测地线传播过程。
作为一种可实施方式,所述有监督的测地线传播,如图4所示,包括如下步骤:
输入图结构中每个节点的初始测地线距离和初始语义标记;
将所有未确定最终标记的节点放入到未标记序列Q中;
在每一步迭代过程中,选择当前未标记序列中具有最小测地线距离的节点vi=minQ(Dis(Q))作为当前种子点,并将该种子点最小测地线距离对应的语义标记记为该种子点最终的语义标记,即确定该种子点的语义标记lvi,将vi从序列Q中删除;
查找与当前种子点vi相邻的未标记的节点集合{vj},更新{vj}中每一个节点vj的测地线距离;
如果W(vi,vj)<θe并且T(vi,vj)为1,那么将vj的测地线距离Dis(vj)更新为Dis(vi)+κW(vi,vj),其中κ为调节参数,并将vi的语义标记li赋值给vj;否则不更新vj的测地线距离和语义标记;
重复以上过程,直到未标记序列Q为空;
最后输出每一个节点的最终语义标记。
与现有的技术相比,本发明实施例有益的特点是:
1、本发明实施例以相似图像集合作为判别式对象识别模型的训练集,在初始对象识别结果基础上,将图像场景语义迁移问题转化为在超像素级别的图结构上为节点标记多类对象类别的问题。
2、本发明实施例在整个数据集中检索得到与图像场景最相似的K个图像,并对这K个图像进行相似度的重排序,选取出重排序后的前N个图像构成输入图像场景的相似图像集合。
3、本发明实施例根据初始对象识别结果定义超像素区域的初始测地线距离,并选取全局测地线距离最小点作为初始种子点。
4、本发明实施例在相似图像集合上训练传播指示器,以相似图像中的上下文信息指导语义标记的传播方向。
5、本发明实施例提出了有监督的测地线传播算法。在每一步迭代过程中,选择当前所有未标记节点中具有最小测地线距离的节点作为当前种子点,并确定该种子点的语义标记。查找与当前种子点相邻且未标记的节点,根据边权值和传播指示器判断该节点是否需要更新测地线距离及其语义标记。重复此步骤直到所有节点都确定最终语义标记。该算法能够快速完成图像场景的语义标记。
最后应当说明的是,很显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,如果本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型。

Claims (6)

1.一种基于监督测地线传播的场景语义迁移方法,其特征在于,该方法包括以下步骤:
步骤S100,利用特征匹配方法,在整个数据集中检索得到与图像场景最相似的N个图像,构成图像场景的相似图像集合;其中,N为整数;
步骤S200,以相似图像集合作为训练集,利用已有的对象识别方法得到判别式模型,获得图像场景对应的粗略语义概率图,确定全局概率最大的点作为测地线传播的初始种子点;
步骤S300,结合图像的颜色特征和边界特征,在图结构上定义测地线传播的初始距离;
步骤S400,以相似图像集合作为训练集,根据相似图像的上下文信息,利用判别式方法得到传播指示器,指导测地线传播的方向;所述传播指示器是以相似图像中的相邻超像素区域之间的上下文关系作为训练数据,训练得到的分类器;
步骤S500,将传播指示器应用到测地线传播过程中,进行有监督的测地线传播处理,得到图像场景的准确语义标记;
其中,所述步骤S500中进行有监督的测地线传播处理,是将传播指示器应用到了测地线传播过程中,用来判断是否将当前种子点的语义标记值传递给它尚未确定最终语义标记的邻居区域。
2.根据权利要求1所述的一种基于监督测地线传播的场景语义迁移方法,其特征在于:
所述步骤S100包括如下步骤:
步骤S110,首先在欧式距离空间中根据吉斯特特征匹配得到图像场景的K个最近邻居,即得到了K个相似图像;
步骤S120,然后对这K个相似图像进行相似度顺序的重排列;在重排列之后,选取相似度最高的前N个图像作为相似图像集合;
其中,K为整数,K≥N。
3.根据权利要求2所述的一种基于监督测地线传播的场景语义迁移方法,其特征在于:
所述步骤S120包括如下步骤:
步骤121,对K个相似图像进行相似度顺序重排列时,首先将图像场景和每个相似图像都进行过分割处理,使得每张图像都由若干超像素区域组成;每一个超像素区域都对应一个特征描述符;
步骤S122,然后对于图像场景中的每一个超像素区域,利用特征描述符度量并匹配该区域在每一张相似图像中的最匹配的超像素区域,将两个超像素区域之差记作区域相似差;
步骤S123,以所有的超像素区域与其在相似图像中的匹配区域的区域相似差之和作为图像场景与相似图像的相似差;
步骤S124,根据图像场景与K个相似图像的相似差,选择差异最小的前N个作为相似图像集合。
4.根据权利要求1所述的一种基于监督测地线传播的场景语义迁移方法,其特征在于:
所述步骤S200中训练判别式对象识别模型是以相似图像集合作为训练集,对象的类别是相似图像集合中所有的类别。
5.根据权利要求1所述的一种基于监督测地线传播的场景语义迁移方法,其特征在于:
所述步骤S300中的测地线距离是定义在图结构上的权重值;
图像场景中的每个超像素区域对应图结构中的一个节点;
连接两个节点的边上的权值代表这两个超像素区域的底层特征相似度差异,以两个区域的伯克利边界特征值与区域颜色特征差异值的加权和来度量。
6.根据权利要求1所述的一种基于监督测地线传播的场景语义迁移方法,其特征在于:
所述步骤S500中进行有监督的测地线传播处理,包括如下步骤:
步骤S510,在所有尚未确定最终语义标记的节点中,选择测地线距离最小节点作为当前种子点;构建当前种子点区域和它邻居区域的特征向量,利用种子点语义类别的传播指示器来获得该特征向量的置信值;
步骤S520,如果置信值大于特定阈值,则邻居区域和当前种子点属于同一类别,将种子点的语义标记传播到该邻居区域并更新其测地线距离;否则,维持邻居区域的当前语义类别和测地线距离;
步骤S530,重复步骤S510和S520,直到所有节点都确定最终语义标记。
CN201210324835.3A 2012-09-04 2012-09-04 一种基于监督测地线传播的场景语义迁移方法 Active CN102867192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210324835.3A CN102867192B (zh) 2012-09-04 2012-09-04 一种基于监督测地线传播的场景语义迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210324835.3A CN102867192B (zh) 2012-09-04 2012-09-04 一种基于监督测地线传播的场景语义迁移方法

Publications (2)

Publication Number Publication Date
CN102867192A CN102867192A (zh) 2013-01-09
CN102867192B true CN102867192B (zh) 2016-01-06

Family

ID=47446056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210324835.3A Active CN102867192B (zh) 2012-09-04 2012-09-04 一种基于监督测地线传播的场景语义迁移方法

Country Status (1)

Country Link
CN (1) CN102867192B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105027162B (zh) * 2013-02-27 2018-02-02 株式会社日立制作所 图像解析装置、图像解析系统、图像解析方法
CN103177450B (zh) * 2013-04-11 2016-01-06 北京航空航天大学 一种基于构件集采样的图像场景分割与分层联合求解方法
CN106033549B (zh) * 2015-03-16 2019-05-07 北京大学 一种车辆检索中的重排序方法及装置
CN104809187B (zh) * 2015-04-20 2017-11-21 南京邮电大学 一种基于rgb‑d数据的室内场景语义标注方法
CN106951830B (zh) * 2017-02-23 2020-12-18 北京联合大学 一种基于先验条件约束的图像场景多对象标记方法
CN109002850A (zh) * 2018-07-06 2018-12-14 无锡众创未来科技应用有限公司 一种计算图像中食物热量的方法及装置
CN111814658B (zh) * 2020-07-07 2024-02-09 西安电子科技大学 基于语义的场景语义结构图检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008039635A3 (en) * 2006-09-27 2009-04-16 Motorola Inc Semantic image analysis
CN102222239A (zh) * 2011-06-03 2011-10-19 哈尔滨工程大学 基于视觉和标注字相关信息的标注图像场景聚类方法
CN102360432A (zh) * 2011-09-30 2012-02-22 北京航空航天大学 一种基于测地线传播的图像场景语义标记方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008039635A3 (en) * 2006-09-27 2009-04-16 Motorola Inc Semantic image analysis
CN102222239A (zh) * 2011-06-03 2011-10-19 哈尔滨工程大学 基于视觉和标注字相关信息的标注图像场景聚类方法
CN102360432A (zh) * 2011-09-30 2012-02-22 北京航空航天大学 一种基于测地线传播的图像场景语义标记方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Supervised Label Transfer for Semantic Segmentation of Street Scenes;Honghui Zhang et al;《LNCS》;Springer-Verlag Berlin Heidelberg;20101231;第6315卷;第561-564页 *

Also Published As

Publication number Publication date
CN102867192A (zh) 2013-01-09

Similar Documents

Publication Publication Date Title
CN102867192B (zh) 一种基于监督测地线传播的场景语义迁移方法
CN107092870B (zh) 一种高分辨率影像语义信息提取方法
CN111488474B (zh) 基于增强注意力的细粒度手绘草图图像检索方法
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN108038445B (zh) 一种基于多视角深度学习框架的sar自动目标识别方法
CN111489358A (zh) 一种基于深度学习的三维点云语义分割方法
CN113033520B (zh) 一种基于深度学习的树木线虫病害木识别方法及系统
CN112132014B (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN105701502A (zh) 一种基于蒙特卡罗数据均衡的图像自动标注方法
JP6980289B2 (ja) 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same}
CN103839261A (zh) 一种基于分解进化多目标优化和fcm的sar图像分割方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN115019123B (zh) 一种遥感图像场景分类的自蒸馏对比学习方法
CN108052966A (zh) 基于卷积神经网络的遥感图像场景自动提取和分类方法
AU2020200338B2 (en) Image searching apparatus, classifier training method, and program
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN114241273A (zh) 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN111626267B (zh) 一种利用空洞卷积的高光谱遥感图像分类方法
CN113822232B (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
CN110674326A (zh) 一种基于多项式分布学习的神经网络结构检索方法
CN114241226A (zh) 一种基于混合模型多邻域特征的三维点云语义分割方法
CN107491782A (zh) 利用语义空间信息的针对少量训练数据的图像分类方法
CN116977872A (zh) 一种CNN+Transformer遥感图像检测方法
CN116310647A (zh) 一种基于增量学习的劳保物品目标检测方法及系统
CN112163101A (zh) 一种面向空间知识图谱的地理实体匹配与融合方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant