CN107392254A - 一种通过联合嵌入从像素中构造图像的语义分割方法 - Google Patents

一种通过联合嵌入从像素中构造图像的语义分割方法 Download PDF

Info

Publication number
CN107392254A
CN107392254A CN201710631882.5A CN201710631882A CN107392254A CN 107392254 A CN107392254 A CN 107392254A CN 201710631882 A CN201710631882 A CN 201710631882A CN 107392254 A CN107392254 A CN 107392254A
Authority
CN
China
Prior art keywords
network
summit
edge
detection
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710631882.5A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710631882.5A priority Critical patent/CN107392254A/zh
Publication of CN107392254A publication Critical patent/CN107392254A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种通过联合嵌入从像素中构造图像的语义分割方法,其主要内容包括:检测图像元素、连接元素与联合嵌入、支持重叠检测,其过程为,网络先找到构成图像的所有顶点和边缘,每个图像元素基于网络识别的像素位置,再将各种图像放在一起,通过训练网络,与类和边界框预测相同的步骤产生额外的输出,对于每个顶点,网络以向量嵌入的形式产生标识符,并且对于每个边缘,产生相应的嵌入以引用其源和目标顶点,最后网络在可能的对象类和边界框大小之间生成分布,将输出与可用的标定的真实信息进行最佳匹配。本发明提出的监督允许单个网络的端到端训练,提高了检测精度,场景图像生成的速率大大提高,灵活性、推广性和实用性都有所增强。

Description

一种通过联合嵌入从像素中构造图像的语义分割方法
技术领域
本发明涉及图像语义分割领域,尤其是涉及了一种通过联合嵌入从像素中构造图像的语义分割方法。
背景技术
随着多媒体和互联网技术的迅猛发展,网络图像资源与日俱增,图像已经成为一种非常重要的信息资源,其包含的信息量远远大于文字,因此如何充分理解图像中所包含的语义内容、如何真正有效地利用语义进行图像资源的检索,如今已成为一个重要的课题。在时尚领域,通过对人体的语义分割可以定位出人脸、躯干、着装等信息,从而帮助人们在互联网购物过程中实现自动试衣等功能;在自动驾驶领域,通过对车体前方场景的语义分割可以精确定位道路、车体和行人等场景或物体信息,从而提升自动驾驶的安全性;以及在无人机的着陆点判断和在穿戴式设备中的应用。由于特征维数高,运算复杂度高,从提高检索精度或分类正确率的角度而言,都不可能将所有提取的特征都能用于检索或分类。
本发明提出了一种通过联合嵌入从像素中构造图像的语义分割方法,网络先找到构成图像的所有顶点和边缘,每个图像元素基于网络识别的像素位置,再将各种图像放在一起,通过训练网络,与类和边界框预测相同的步骤产生额外的输出,对于每个顶点,网络以向量嵌入的形式产生标识符,并且对于每个边缘,产生相应的嵌入以引用其源和目标顶点,最后网络在可能的对象类和边界框大小之间生成分布,将输出与可用的标定的真实信息进行最佳匹配。本发明提出的监督允许单个网络的端到端训练,提高了检测精度,场景图像生成的速率大大提高,灵活性、推广性和实用性都有所增强。
发明内容
针对运算复杂度高等问题,本发明的目的在于提供一种通过联合嵌入从像素中构造图像的语义分割方法,网络先找到构成图像的所有顶点和边缘,每个图像元素基于网络识别的像素位置,再将各种图像放在一起,通过训练网络,与类和边界框预测相同的步骤产生额外的输出,对于每个顶点,网络以向量嵌入的形式产生标识符,并且对于每个边缘,产生相应的嵌入以引用其源和目标顶点,最后网络在可能的对象类和边界框大小之间生成分布,将输出与可用的标定的真实信息进行最佳匹配。
为解决上述问题,本发明提供一种通过联合嵌入从像素中构造图像的语义分割方法,其主要内容包括:
(一)检测图像元素;
(二)连接元素与联合嵌入;
(三)支持重叠检测。
其中,所述的从像素中构造图像,构建一个基于这些像素空间的图像,除了识别图像的顶点外,还要获得它们的精确位置;在这种情况下,顶点可以指任何场景中的感兴趣对象,这些对象之间的关系由图像的边缘捕获。
进一步地,所述的顶点,考虑有向图G=(V,E),给定的顶点vi∈V基于位置(xi,yi),并由其类和边界框定义;每个边缘e∈E采用形式ei=(vs,vt,ri),定义从vs到vt的类型ri的关系;训练一个网络定义V和E;这种训练是在一个单一网络上端到端进行的,允许网络在进行预测时充分考虑图像和图像的所有可能组成部分;
当生成的图像全部同时出现时,它有助于在两个主要步骤中考虑该过程:检测图像的各个元素,并将这些元素连接在一起;对于第一步,网络指示顶点和边缘可能存在的位置,并预测这些检测的属性;对于第二步,确定哪两个顶点通过检测边缘连接在一起。
其中,所述的检测图像元素,首先,网络必须找到构成图像的所有顶点和边缘;每个图像元素基于网络识别的像素位置;在顶点与物体检测对应的场景图中,对象边界框的中心将用作基础位置;在源和目标顶点的中点处磨削边缘:通过使用以高输出分辨率产生每个像素特征的网络来检测单个元素;像素处的特征向量确定边缘或顶点是否存在于该位置,如果是,则用于预测该元素的属性;
卷积神经网络用于处理图像并产生大小为h×w×f的特征张量;因此,用所需的所有信息定义顶点或边缘,编码在长度为f的特征向量中的特定像素处;
使用堆叠的沙漏网络来处理图像,并产生输出特征张量;沙漏设计将全局和局部信息结合在一起来推断整个图像,并产生高质量的每个像素的预测。
进一步地,所述的特征张量,为了预测图像元素的存在,采用最终特征张量,并应用1×1卷积和S形激活函数产生两个热点图(一个用于顶点,另一个用于边缘);每个热点图表示顶点或边缘存在给定像素处的可能性;监督热点图激活的二进制交叉熵损失,对结果设置阈值,产生候选检测集;
从检测的相应位置提取特征向量,并使用向量作为一组完全连接的网络的输入;对于希望预测的每个属性使用单独的网络,并且每个网络由具有f个节点的单个隐藏层组成;在训练期间使用顶点和边缘的标定的真实位置来提取特征;softmax损失用于监督标签,并且为了预测边界框信息,使用基于快速区域卷积神经网络的锚点框和回归偏移;
总的来说,通过网络传递图像产生一组像素特征,这些特征首先用于产生识别顶点和边缘位置的热点图;从顶部热点图位置提取单个特征向量,预测适当的顶点和边缘属性;最终的结果是组成图像的顶点和边缘检测池。
其中,所述的连接元素与联合嵌入,将各种图像放在一起,通过训练网络,与类和边界框预测相同的步骤产生额外的输出;对于每个顶点,网络以向量嵌入的形式产生唯一的标识符,并且对于每个边缘,它必须产生相应的嵌入以引用其源和目标顶点;网络必须确保嵌入在不同顶点之间是不同的,并且引用单个顶点的所有嵌入是相同的。
进一步地,所述的构建损失惩罚函数,为了训练网络以生成一套一致的嵌入,需要构建损失惩罚函数;在训练过程中,有一组标定的真实注释,定义了在场景和这些对象之间的边界的唯一对象;因此可以执行两个惩罚函数:边缘通过匹配其输出嵌入而指向顶点,并且为每个顶点生成的嵌入向量都不相同;第一个惩罚函数是将所有对单个顶点的引用聚在一起,而第二个惩罚函数是分开不同的单个顶点的引用。
进一步地,所述的嵌入,考虑为顶点vi∈V产生的嵌入hi∈Rd;连接到这个顶点的所有边缘都产生一组嵌入h′ik,k=1,…,Ki,其中Ki是对该顶点的引用总数;给定一个具有n个对象的图像,聚在一起的这些嵌入的损失是:
为了使嵌入跨越不同的顶点,应用基于边缘的惩罚函数:
L最接近hi和hj,当hi和hj之间的距离变大时,惩罚函数会急剧下降,一旦距离大于给定的边缘m,最终会达到零;另一方面,对于连接到顶点vi的一些边缘,损失L将快速增长,其参考嵌入h′i来自于hi
两个惩罚权重相等,保留L+L的最终关联嵌入损失,使用m=8和d=8;增加标签的维数d之后,网络的收敛性大大提高。
其中,所述的支持重叠检测,将检测分离成几个离散的二进制,但是不执行任何特定的任务来解决分配问题;这意味着对于给定的检测,严格监督要显示的x,y的位置,但允许它显示在几个位置中的一个;
分别定义so和sr为可用于表示对象和关系的位置数;修改网络的传递途径,因此,使用特征向量来为一组对象so和关系sr产生预测,而不是为单个对象和关系生成预测;也就是说,给定来自单个像素的特征向量f,网络将输出so对象类标签、so边界框预测和so嵌入;这是通过单独的完全连接层来预测每个可用位置的各种对象和关系属性;这些层之间不共享权重;此外,添加一个额外的输出作为一个分数,指示每个位置是否存在检测。
进一步地,所述的匹配,网络在可能的对象类和边界框大小之间生成分布,因此尝试将输出与可用的标定的真实信息进行最佳匹配;通过连接给定对象的类和边界框的独热编码来构造参考向量;然后将这些参考向量与每个位置产生的输出分布进行比较;
通过将其类的独热编码与源和目标顶点vs和vt的输出嵌入hs和ht相连,构建标定的真实参考向量;一旦确定了最佳匹配,就可以将网络预测和标定的真实注释集合对应起来,应用于各种损失;根据是否匹配到标定的真实数据检测来监督每个位置的分数,从而使网络指示“完整”或“空”位置;
此匹配过程仅在训练期间使用;在测试时间,通过在热点图上首先进行阈值处理,从网络提取对象和关系检测,找到一组候选像素位置,然后对各个位置分数进行阈值处理,查看产生检测的位置。
附图说明
图1是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的系统流程图。图2是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的从像素中构造图像的实例图。
图3是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的检测图像元素。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的系统流程图。主要包括检测图像元素,连接元素与联合嵌入,支持重叠检测。
连接元素与联合嵌入,将各种图像放在一起,通过训练网络,与类和边界框预测相同的步骤产生额外的输出;对于每个顶点,网络以向量嵌入的形式产生唯一的标识符,并且对于每个边缘,它必须产生相应的嵌入以引用其源和目标顶点;网络必须确保嵌入在不同顶点之间是不同的,并且引用单个顶点的所有嵌入是相同的。
为了训练网络以生成一套一致的嵌入,需要构建损失惩罚函数;在训练过程中,有一组标定的真实注释,定义了在场景和这些对象之间的边界的唯一对象;因此可以执行两个惩罚函数:边缘通过匹配其输出嵌入而指向顶点,并且为每个顶点生成的嵌入向量都不相同;第一个惩罚函数是将所有对单个顶点的引用聚在一起,而第二个惩罚函数是分开不同的单个顶点的引用。
考虑为顶点vi∈V产生的嵌入hi∈Rd;连接到这个顶点的所有边缘都产生一组嵌入h′ik,k=1,…,Ki,其中Ki是对该顶点的引用总数;给定一个具有n个对象的图像,聚在一起的这些嵌入的损失是:
为了使嵌入跨越不同的顶点,应用基于边缘的惩罚函数:
L最接近hi和hj,当hi和hj之间的距离变大时,惩罚函数会急剧下降,一旦距离大于给定的边缘m,最终会达到零;另一方面,对于连接到顶点vi的一些边缘,损失L将快速增长,其参考嵌入h′i来自于hi
两个惩罚权重相等,保留L+L的最终关联嵌入损失,使用m=8和d=8;增加标签的维数d之后,网络的收敛性大大提高。
支持重叠检测,将检测分离成几个离散的二进制,但是不执行任何特定的任务来解决分配问题;这意味着对于给定的检测,严格监督要显示的x,y的位置,但允许它显示在几个位置中的一个;
分别定义so和sr为可用于表示对象和关系的位置数;修改网络的传递途径,因此,使用特征向量来为一组对象so和关系sr产生预测,而不是为单个对象和关系生成预测;也就是说,给定来自单个像素的特征向量f,网络将输出so对象类标签、so边界框预测和so嵌入;这是通过单独的完全连接层来预测每个可用位置的各种对象和关系属性;这些层之间不共享权重;此外,添加一个额外的输出作为一个分数,指示每个位置是否存在检测。
网络在可能的对象类和边界框大小之间生成分布,因此尝试将输出与可用的标定的真实信息进行最佳匹配;通过连接给定对象的类和边界框的独热编码来构造参考向量;然后将这些参考向量与每个位置产生的输出分布进行比较;
通过将其类的独热编码与源和目标顶点vs和vt的输出嵌入hs和ht相连,构建标定的真实参考向量;一旦确定了最佳匹配,就可以将网络预测和标定的真实注释集合对应起来,应用于各种损失;根据是否匹配到标定的真实数据检测来监督每个位置的分数,从而使网络指示“完整”或“空”位置;
此匹配过程仅在训练期间使用;在测试时间,通过在热点图上首先进行阈值处理,从网络提取对象和关系检测,找到一组候选像素位置,然后对各个位置分数进行阈值处理,查看产生检测的位置。
图2是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的从像素中构造图像的实例图。构建一个基于这些像素空间的图像,除了识别图像的顶点外,还要获得它们的精确位置;在这种情况下,顶点可以指任何场景中的感兴趣对象,这些对象之间的关系由图像的边缘捕获。
考虑有向图G=(V,E),给定的顶点vi∈V基于位置(xi,yi),并由其类和边界框定义;每个边缘e∈E采用形式ei=(vs,vt,ri),定义从vs到vt的类型ri的关系;训练一个网络定义V和E;这种训练是在一个单一网络上端到端进行的,允许网络在进行预测时充分考虑图像和图像的所有可能组成部分;
当生成的图像全部同时出现时,它有助于在两个主要步骤中考虑该过程:检测图像的各个元素,并将这些元素连接在一起;对于第一步,网络指示顶点和边缘可能存在的位置,并预测这些检测的属性;对于第二步,确定哪两个顶点通过检测边缘连接在一起。
图3是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的检测图像元素。首先,网络必须找到构成图像的所有顶点和边缘;每个图像元素基于网络识别的像素位置;在顶点与物体检测对应的场景图中,对象边界框的中心将用作基础位置;在源和目标顶点的中点处磨削边缘:通过使用以高输出分辨率产生每个像素特征的网络来检测单个元素;像素处的特征向量确定边缘或顶点是否存在于该位置,如果是,则用于预测该元素的属性;
卷积神经网络用于处理图像并产生大小为h×w×f的特征张量;因此,用所需的所有信息定义顶点或边缘,编码在长度为f的特征向量中的特定像素处;
使用堆叠的沙漏网络来处理图像,并产生输出特征张量;沙漏设计将全局和局部信息结合在一起来推断整个图像,并产生高质量的每个像素的预测。
为了预测图像元素的存在,采用最终特征张量,并应用1×1卷积和S形激活函数产生两个热点图(一个用于顶点,另一个用于边缘);每个热点图表示顶点或边缘存在给定像素处的可能性;监督热点图激活的二进制交叉熵损失,对结果设置阈值,产生候选检测集;
从检测的相应位置提取特征向量,并使用向量作为一组完全连接的网络的输入;对于希望预测的每个属性使用单独的网络,并且每个网络由具有f个节点的单个隐藏层组成;在训练期间使用顶点和边缘的标定的真实位置来提取特征;softmax损失用于监督标签,并且为了预测边界框信息,使用基于快速区域卷积神经网络的锚点框和回归偏移;
总的来说,通过网络传递图像产生一组像素特征,这些特征首先用于产生识别顶点和边缘位置的热点图;从顶部热点图位置提取单个特征向量,预测适当的顶点和边缘属性;最终的结果是组成图像的顶点和边缘检测池。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种通过联合嵌入从像素中构造图像的语义分割方法,其特征在于,主要包括检测图像元素(一);连接元素与联合嵌入(二);支持重叠检测(三)。
2.基于权利要求书1所述的从像素中构造图像,其特征在于,构建一个基于这些像素空间的图像,除了识别图像的顶点外,还要获得它们的精确位置;在这种情况下,顶点可以指任何场景中的感兴趣对象,这些对象之间的关系由图像的边缘捕获。
3.基于权利要求书2所述的顶点,其特征在于,考虑有向图G=(V,E),给定的顶点vi∈V基于位置(xi,yi),并由其类和边界框定义;每个边缘e∈E采用形式ei=(vs,vt,ri),定义从vs到vt的类型ri的关系;训练一个网络定义V和E;这种训练是在一个单一网络上端到端进行的,允许网络在进行预测时充分考虑图像和图像的所有可能组成部分;
当生成的图像全部同时出现时,它有助于在两个主要步骤中考虑该过程:检测图像的各个元素,并将这些元素连接在一起;对于第一步,网络指示顶点和边缘可能存在的位置,并预测这些检测的属性;对于第二步,确定哪两个顶点通过检测边缘连接在一起。
4.基于权利要求书1所述的检测图像元素(一),其特征在于,首先,网络必须找到构成图像的所有顶点和边缘;每个图像元素基于网络识别的像素位置;在顶点与物体检测对应的场景图中,对象边界框的中心将用作基础位置;在源和目标顶点的中点处磨削边缘:通过使用以高输出分辨率产生每个像素特征的网络来检测单个元素;像素处的特征向量确定边缘或顶点是否存在于该位置,如果是,则用于预测该元素的属性;
卷积神经网络用于处理图像并产生大小为h×w×f的特征张量;因此,用所需的所有信息定义顶点或边缘,编码在长度为f的特征向量中的特定像素处;
使用堆叠的沙漏网络来处理图像,并产生输出特征张量;沙漏设计将全局和局部信息结合在一起来推断整个图像,并产生高质量的每个像素的预测。
5.基于权利要求书4所述的特征张量,其特征在于,为了预测图像元素的存在,采用最终特征张量,并应用1×1卷积和S形激活函数产生两个热点图(一个用于顶点,另一个用于边缘);每个热点图表示顶点或边缘存在给定像素处的可能性;监督热点图激活的二进制交叉熵损失,对结果设置阈值,产生候选检测集;
从检测的相应位置提取特征向量,并使用向量作为一组完全连接的网络的输入;对于希望预测的每个属性使用单独的网络,并且每个网络由具有f个节点的单个隐藏层组成;在训练期间使用顶点和边缘的标定的真实位置来提取特征;softmax损失用于监督标签,并且为了预测边界框信息,使用基于快速区域卷积神经网络的锚点框和回归偏移;
总的来说,通过网络传递图像产生一组像素特征,这些特征首先用于产生识别顶点和边缘位置的热点图;从顶部热点图位置提取单个特征向量,预测适当的顶点和边缘属性;最终的结果是组成图像的顶点和边缘检测池。
6.基于权利要求书1所述的连接元素与联合嵌入(二),其特征在于,将各种图像放在一起,通过训练网络,与类和边界框预测相同的步骤产生额外的输出;对于每个顶点,网络以向量嵌入的形式产生唯一的标识符,并且对于每个边缘,它必须产生相应的嵌入以引用其源和目标顶点;网络必须确保嵌入在不同顶点之间是不同的,并且引用单个顶点的所有嵌入是相同的。
7.基于权利要求书6所述的构建损失惩罚函数,其特征在于,为了训练网络以生成一套一致的嵌入,需要构建损失惩罚函数;在训练过程中,有一组标定的真实注释,定义了在场景和这些对象之间的边界的唯一对象;因此可以执行两个惩罚函数:边缘通过匹配其输出嵌入而指向顶点,并且为每个顶点生成的嵌入向量都不相同;第一个惩罚函数是将所有对单个顶点的引用聚在一起,而第二个惩罚函数是分开不同的单个顶点的引用。
8.基于权利要求书6所述的嵌入,其特征在于,考虑为顶点vi∈V产生的嵌入hi∈Rd;连接到这个顶点的所有边缘都产生一组嵌入h′ik,k=1,…,Ki,其中Ki是对该顶点的引用总数;给定一个具有n个对象的图像,聚在一起的这些嵌入的损失是:
为了使嵌入跨越不同的顶点,应用基于边缘的惩罚函数:
L最接近hi和hj,当hi和hj之间的距离变大时,惩罚函数会急剧下降,一旦距离大于给定的边缘m,最终会达到零;另一方面,对于连接到顶点vi的一些边缘,损失L将快速增长,其参考嵌入h′i来自于hi
两个惩罚权重相等,保留L+L的最终关联嵌入损失,使用m=8和d=8;增加标签的维数d之后,网络的收敛性大大提高。
9.基于权利要求书1所述的支持重叠检测(三),其特征在于,将检测分离成几个离散的二进制,但是不执行任何特定的任务来解决分配问题;这意味着对于给定的检测,严格监督要显示的x,y的位置,但允许它显示在几个位置中的一个;
分别定义so和sr为可用于表示对象和关系的位置数;修改网络的传递途径,因此,使用特征向量来为一组对象so和关系sr产生预测,而不是为单个对象和关系生成预测;也就是说,给定来自单个像素的特征向量f,网络将输出so对象类标签、so边界框预测和so嵌入;这是通过单独的完全连接层来预测每个可用位置的各种对象和关系属性;这些层之间不共享权重;此外,添加一个额外的输出作为一个分数,指示每个位置是否存在检测。
10.基于权利要求书9所述的匹配,其特征在于,网络在可能的对象类和边界框大小之间生成分布,因此尝试将输出与可用的标定的真实信息进行最佳匹配;通过连接给定对象的类和边界框的独热编码来构造参考向量;然后将这些参考向量与每个位置产生的输出分布进行比较;
通过将其类的独热编码与源和目标顶点vs和vt的输出嵌入hs和ht相连,构建标定的真实参考向量;一旦确定了最佳匹配,就可以将网络预测和标定的真实注释集合对应起来,应用于各种损失;根据是否匹配到标定的真实数据检测来监督每个位置的分数,从而使网络指示“完整”或“空”位置;
此匹配过程仅在训练期间使用;在测试时间,通过在热点图上首先进行阈值处理,从网络提取对象和关系检测,找到一组候选像素位置,然后对各个位置分数进行阈值处理,查看产生检测的位置。
CN201710631882.5A 2017-07-28 2017-07-28 一种通过联合嵌入从像素中构造图像的语义分割方法 Withdrawn CN107392254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710631882.5A CN107392254A (zh) 2017-07-28 2017-07-28 一种通过联合嵌入从像素中构造图像的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710631882.5A CN107392254A (zh) 2017-07-28 2017-07-28 一种通过联合嵌入从像素中构造图像的语义分割方法

Publications (1)

Publication Number Publication Date
CN107392254A true CN107392254A (zh) 2017-11-24

Family

ID=60341454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710631882.5A Withdrawn CN107392254A (zh) 2017-07-28 2017-07-28 一种通过联合嵌入从像素中构造图像的语义分割方法

Country Status (1)

Country Link
CN (1) CN107392254A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388923A (zh) * 2018-03-08 2018-08-10 深圳市唯特视科技有限公司 一种基于对象检测器和递归神经网络的统一图解析网络
CN108830285A (zh) * 2018-03-14 2018-11-16 江南大学 一种基于Faster-RCNN的加强学习的目标检测方法
CN108921225A (zh) * 2018-07-10 2018-11-30 深圳市商汤科技有限公司 一种图像处理方法及装置、计算机设备和存储介质
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN111507343A (zh) * 2019-01-30 2020-08-07 广州市百果园信息技术有限公司 语义分割网络的训练及其图像处理方法、装置
CN111553228A (zh) * 2020-04-21 2020-08-18 佳都新太科技股份有限公司 一种人包关系检测方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEJANDRO NEWELL 等: "Pixels to graphs by associative embedding", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1706.07365V1》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388923A (zh) * 2018-03-08 2018-08-10 深圳市唯特视科技有限公司 一种基于对象检测器和递归神经网络的统一图解析网络
CN108830285A (zh) * 2018-03-14 2018-11-16 江南大学 一种基于Faster-RCNN的加强学习的目标检测方法
CN108921225A (zh) * 2018-07-10 2018-11-30 深圳市商汤科技有限公司 一种图像处理方法及装置、计算机设备和存储介质
CN108921225B (zh) * 2018-07-10 2022-06-24 深圳市商汤科技有限公司 一种图像处理方法及装置、计算机设备和存储介质
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN111507343A (zh) * 2019-01-30 2020-08-07 广州市百果园信息技术有限公司 语义分割网络的训练及其图像处理方法、装置
CN111507343B (zh) * 2019-01-30 2021-05-18 广州市百果园信息技术有限公司 语义分割网络的训练及其图像处理方法、装置
CN111553228A (zh) * 2020-04-21 2020-08-18 佳都新太科技股份有限公司 一种人包关系检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Shi et al. Road detection from remote sensing images by generative adversarial networks
Fujita et al. Damage detection from aerial images via convolutional neural networks
Qiao et al. Lgpma: Complicated table structure recognition with local and global pyramid mask alignment
CN107392254A (zh) 一种通过联合嵌入从像素中构造图像的语义分割方法
Ochoa et al. A framework for the management of agricultural resources with automated aerial imagery detection
CN110059581A (zh) 基于场景深度信息的人群计数方法
CN104933428B (zh) 一种基于张量描述的人脸识别方法及装置
WO2019001070A1 (zh) 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
Hong et al. Synthetic data generation using building information models
Fan et al. Urban informal settlements classification via a transformer-based spatial-temporal fusion network using multimodal remote sensing and time-series human activity data
CN102496034A (zh) 基于直线单词的高空间分辨率遥感图像词袋分类方法
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
Yadav et al. An improved deep learning-based optimal object detection system from images
CN110210431A (zh) 一种基于点云语义标注和优化的点云分类方法
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
Zhang et al. Semantic segmentation of very high-resolution remote sensing image based on multiple band combinations and patchwise scene analysis
CN111652240A (zh) 一种基于cnn的图像局部特征检测与描述方法
Li et al. MVF-CNN: Fusion of multilevel features for large-scale point cloud classification
CN109919112A (zh) 一种复杂场景中流动人群的分布与计数检测的方法
CN117475148A (zh) 基于SAM和YOLOV8n的货物分割方法及系统
Liu et al. DLNet: Accurate segmentation of green fruit in obscured environments
Fan et al. Multilevel spatial-channel feature fusion network for urban village classification by fusing satellite and streetview images
CN104598898A (zh) 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法
Ke et al. Vehicle logo recognition with small sample problem in complex scene based on data augmentation
Liu et al. Remote sensing image vehicle detection based on pre-training and random-initialized fusion network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20171124

WW01 Invention patent application withdrawn after publication