CN107392254A

CN107392254A - 一种通过联合嵌入从像素中构造图像的语义分割方法

Info

Publication number: CN107392254A
Application number: CN201710631882.5A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-11-24

Abstract

本发明中提出的一种通过联合嵌入从像素中构造图像的语义分割方法，其主要内容包括：检测图像元素、连接元素与联合嵌入、支持重叠检测，其过程为，网络先找到构成图像的所有顶点和边缘，每个图像元素基于网络识别的像素位置，再将各种图像放在一起，通过训练网络，与类和边界框预测相同的步骤产生额外的输出，对于每个顶点，网络以向量嵌入的形式产生标识符，并且对于每个边缘，产生相应的嵌入以引用其源和目标顶点，最后网络在可能的对象类和边界框大小之间生成分布，将输出与可用的标定的真实信息进行最佳匹配。本发明提出的监督允许单个网络的端到端训练，提高了检测精度，场景图像生成的速率大大提高，灵活性、推广性和实用性都有所增强。

Description

一种通过联合嵌入从像素中构造图像的语义分割方法

技术领域

本发明涉及图像语义分割领域，尤其是涉及了一种通过联合嵌入从像素中构造图像的语义分割方法。

背景技术

随着多媒体和互联网技术的迅猛发展，网络图像资源与日俱增，图像已经成为一种非常重要的信息资源，其包含的信息量远远大于文字，因此如何充分理解图像中所包含的语义内容、如何真正有效地利用语义进行图像资源的检索，如今已成为一个重要的课题。在时尚领域，通过对人体的语义分割可以定位出人脸、躯干、着装等信息，从而帮助人们在互联网购物过程中实现自动试衣等功能；在自动驾驶领域，通过对车体前方场景的语义分割可以精确定位道路、车体和行人等场景或物体信息，从而提升自动驾驶的安全性；以及在无人机的着陆点判断和在穿戴式设备中的应用。由于特征维数高，运算复杂度高，从提高检索精度或分类正确率的角度而言，都不可能将所有提取的特征都能用于检索或分类。

本发明提出了一种通过联合嵌入从像素中构造图像的语义分割方法，网络先找到构成图像的所有顶点和边缘，每个图像元素基于网络识别的像素位置，再将各种图像放在一起，通过训练网络，与类和边界框预测相同的步骤产生额外的输出，对于每个顶点，网络以向量嵌入的形式产生标识符，并且对于每个边缘，产生相应的嵌入以引用其源和目标顶点，最后网络在可能的对象类和边界框大小之间生成分布，将输出与可用的标定的真实信息进行最佳匹配。本发明提出的监督允许单个网络的端到端训练，提高了检测精度，场景图像生成的速率大大提高，灵活性、推广性和实用性都有所增强。

发明内容

针对运算复杂度高等问题，本发明的目的在于提供一种通过联合嵌入从像素中构造图像的语义分割方法，网络先找到构成图像的所有顶点和边缘，每个图像元素基于网络识别的像素位置，再将各种图像放在一起，通过训练网络，与类和边界框预测相同的步骤产生额外的输出，对于每个顶点，网络以向量嵌入的形式产生标识符，并且对于每个边缘，产生相应的嵌入以引用其源和目标顶点，最后网络在可能的对象类和边界框大小之间生成分布，将输出与可用的标定的真实信息进行最佳匹配。

为解决上述问题，本发明提供一种通过联合嵌入从像素中构造图像的语义分割方法，其主要内容包括：

(一)检测图像元素；

(二)连接元素与联合嵌入；

(三)支持重叠检测。

其中，所述的从像素中构造图像，构建一个基于这些像素空间的图像，除了识别图像的顶点外，还要获得它们的精确位置；在这种情况下，顶点可以指任何场景中的感兴趣对象，这些对象之间的关系由图像的边缘捕获。

进一步地，所述的顶点，考虑有向图G＝(V,E)，给定的顶点v_i∈V基于位置(x_i,y_i)，并由其类和边界框定义；每个边缘e∈E采用形式e_i＝(v_s,v_t,r_i)，定义从v_s到v_t的类型r_i的关系；训练一个网络定义V和E；这种训练是在一个单一网络上端到端进行的，允许网络在进行预测时充分考虑图像和图像的所有可能组成部分；

当生成的图像全部同时出现时，它有助于在两个主要步骤中考虑该过程：检测图像的各个元素，并将这些元素连接在一起；对于第一步，网络指示顶点和边缘可能存在的位置，并预测这些检测的属性；对于第二步，确定哪两个顶点通过检测边缘连接在一起。

其中，所述的检测图像元素，首先，网络必须找到构成图像的所有顶点和边缘；每个图像元素基于网络识别的像素位置；在顶点与物体检测对应的场景图中，对象边界框的中心将用作基础位置；在源和目标顶点的中点处磨削边缘：通过使用以高输出分辨率产生每个像素特征的网络来检测单个元素；像素处的特征向量确定边缘或顶点是否存在于该位置，如果是，则用于预测该元素的属性；

卷积神经网络用于处理图像并产生大小为h×w×f的特征张量；因此，用所需的所有信息定义顶点或边缘，编码在长度为f的特征向量中的特定像素处；

使用堆叠的沙漏网络来处理图像，并产生输出特征张量；沙漏设计将全局和局部信息结合在一起来推断整个图像，并产生高质量的每个像素的预测。

进一步地，所述的特征张量，为了预测图像元素的存在，采用最终特征张量，并应用1×1卷积和S形激活函数产生两个热点图(一个用于顶点，另一个用于边缘)；每个热点图表示顶点或边缘存在给定像素处的可能性；监督热点图激活的二进制交叉熵损失，对结果设置阈值，产生候选检测集；

从检测的相应位置提取特征向量，并使用向量作为一组完全连接的网络的输入；对于希望预测的每个属性使用单独的网络，并且每个网络由具有f个节点的单个隐藏层组成；在训练期间使用顶点和边缘的标定的真实位置来提取特征；softmax损失用于监督标签，并且为了预测边界框信息，使用基于快速区域卷积神经网络的锚点框和回归偏移；

总的来说，通过网络传递图像产生一组像素特征，这些特征首先用于产生识别顶点和边缘位置的热点图；从顶部热点图位置提取单个特征向量，预测适当的顶点和边缘属性；最终的结果是组成图像的顶点和边缘检测池。

其中，所述的连接元素与联合嵌入，将各种图像放在一起，通过训练网络，与类和边界框预测相同的步骤产生额外的输出；对于每个顶点，网络以向量嵌入的形式产生唯一的标识符，并且对于每个边缘，它必须产生相应的嵌入以引用其源和目标顶点；网络必须确保嵌入在不同顶点之间是不同的，并且引用单个顶点的所有嵌入是相同的。

进一步地，所述的构建损失惩罚函数，为了训练网络以生成一套一致的嵌入，需要构建损失惩罚函数；在训练过程中，有一组标定的真实注释，定义了在场景和这些对象之间的边界的唯一对象；因此可以执行两个惩罚函数：边缘通过匹配其输出嵌入而指向顶点，并且为每个顶点生成的嵌入向量都不相同；第一个惩罚函数是将所有对单个顶点的引用聚在一起，而第二个惩罚函数是分开不同的单个顶点的引用。

进一步地，所述的嵌入，考虑为顶点v_i∈V产生的嵌入h_i∈R^d；连接到这个顶点的所有边缘都产生一组嵌入h′_ik,k＝1,…,K_i，其中K_i是对该顶点的引用总数；给定一个具有n个对象的图像，聚在一起的这些嵌入的损失是：

为了使嵌入跨越不同的顶点，应用基于边缘的惩罚函数：

L_分最接近h_i和h_j，当h_i和h_j之间的距离变大时，惩罚函数会急剧下降，一旦距离大于给定的边缘m，最终会达到零；另一方面，对于连接到顶点v_i的一些边缘，损失L_聚将快速增长，其参考嵌入h′_i来自于h_i；

两个惩罚权重相等，保留L_聚+L_分的最终关联嵌入损失，使用m＝8和d＝8；增加标签的维数d之后，网络的收敛性大大提高。

其中，所述的支持重叠检测，将检测分离成几个离散的二进制，但是不执行任何特定的任务来解决分配问题；这意味着对于给定的检测，严格监督要显示的x,y的位置，但允许它显示在几个位置中的一个；

分别定义s_o和s_r为可用于表示对象和关系的位置数；修改网络的传递途径，因此，使用特征向量来为一组对象s_o和关系s_r产生预测，而不是为单个对象和关系生成预测；也就是说，给定来自单个像素的特征向量f，网络将输出s_o对象类标签、s_o边界框预测和s_o嵌入；这是通过单独的完全连接层来预测每个可用位置的各种对象和关系属性；这些层之间不共享权重；此外，添加一个额外的输出作为一个分数，指示每个位置是否存在检测。

进一步地，所述的匹配，网络在可能的对象类和边界框大小之间生成分布，因此尝试将输出与可用的标定的真实信息进行最佳匹配；通过连接给定对象的类和边界框的独热编码来构造参考向量；然后将这些参考向量与每个位置产生的输出分布进行比较；

通过将其类的独热编码与源和目标顶点v_s和v_t的输出嵌入h_s和h_t相连，构建标定的真实参考向量；一旦确定了最佳匹配，就可以将网络预测和标定的真实注释集合对应起来，应用于各种损失；根据是否匹配到标定的真实数据检测来监督每个位置的分数，从而使网络指示“完整”或“空”位置；

此匹配过程仅在训练期间使用；在测试时间，通过在热点图上首先进行阈值处理，从网络提取对象和关系检测，找到一组候选像素位置，然后对各个位置分数进行阈值处理，查看产生检测的位置。

附图说明

图1是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的系统流程图。图2是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的从像素中构造图像的实例图。

图3是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的检测图像元素。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的系统流程图。主要包括检测图像元素，连接元素与联合嵌入，支持重叠检测。

连接元素与联合嵌入，将各种图像放在一起，通过训练网络，与类和边界框预测相同的步骤产生额外的输出；对于每个顶点，网络以向量嵌入的形式产生唯一的标识符，并且对于每个边缘，它必须产生相应的嵌入以引用其源和目标顶点；网络必须确保嵌入在不同顶点之间是不同的，并且引用单个顶点的所有嵌入是相同的。

为了训练网络以生成一套一致的嵌入，需要构建损失惩罚函数；在训练过程中，有一组标定的真实注释，定义了在场景和这些对象之间的边界的唯一对象；因此可以执行两个惩罚函数：边缘通过匹配其输出嵌入而指向顶点，并且为每个顶点生成的嵌入向量都不相同；第一个惩罚函数是将所有对单个顶点的引用聚在一起，而第二个惩罚函数是分开不同的单个顶点的引用。

考虑为顶点v_i∈V产生的嵌入h_i∈R^d；连接到这个顶点的所有边缘都产生一组嵌入h′_ik,k＝1,…,K_i，其中K_i是对该顶点的引用总数；给定一个具有n个对象的图像，聚在一起的这些嵌入的损失是：

为了使嵌入跨越不同的顶点，应用基于边缘的惩罚函数：

支持重叠检测，将检测分离成几个离散的二进制，但是不执行任何特定的任务来解决分配问题；这意味着对于给定的检测，严格监督要显示的x,y的位置，但允许它显示在几个位置中的一个；

网络在可能的对象类和边界框大小之间生成分布，因此尝试将输出与可用的标定的真实信息进行最佳匹配；通过连接给定对象的类和边界框的独热编码来构造参考向量；然后将这些参考向量与每个位置产生的输出分布进行比较；

图2是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的从像素中构造图像的实例图。构建一个基于这些像素空间的图像，除了识别图像的顶点外，还要获得它们的精确位置；在这种情况下，顶点可以指任何场景中的感兴趣对象，这些对象之间的关系由图像的边缘捕获。

考虑有向图G＝(V,E)，给定的顶点v_i∈V基于位置(x_i,y_i)，并由其类和边界框定义；每个边缘e∈E采用形式e_i＝(v_s,v_t,r_i)，定义从v_s到v_t的类型r_i的关系；训练一个网络定义V和E；这种训练是在一个单一网络上端到端进行的，允许网络在进行预测时充分考虑图像和图像的所有可能组成部分；

图3是本发明一种通过联合嵌入从像素中构造图像的语义分割方法的检测图像元素。首先，网络必须找到构成图像的所有顶点和边缘；每个图像元素基于网络识别的像素位置；在顶点与物体检测对应的场景图中，对象边界框的中心将用作基础位置；在源和目标顶点的中点处磨削边缘：通过使用以高输出分辨率产生每个像素特征的网络来检测单个元素；像素处的特征向量确定边缘或顶点是否存在于该位置，如果是，则用于预测该元素的属性；

为了预测图像元素的存在，采用最终特征张量，并应用1×1卷积和S形激活函数产生两个热点图(一个用于顶点，另一个用于边缘)；每个热点图表示顶点或边缘存在给定像素处的可能性；监督热点图激活的二进制交叉熵损失，对结果设置阈值，产生候选检测集；

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种通过联合嵌入从像素中构造图像的语义分割方法，其特征在于，主要包括检测图像元素(一)；连接元素与联合嵌入(二)；支持重叠检测(三)。

2.基于权利要求书1所述的从像素中构造图像，其特征在于，构建一个基于这些像素空间的图像，除了识别图像的顶点外，还要获得它们的精确位置；在这种情况下，顶点可以指任何场景中的感兴趣对象，这些对象之间的关系由图像的边缘捕获。

3.基于权利要求书2所述的顶点，其特征在于，考虑有向图G＝(V,E)，给定的顶点v_i∈V基于位置(x_i,y_i)，并由其类和边界框定义；每个边缘e∈E采用形式e_i＝(v_s,v_t,r_i)，定义从v_s到v_t的类型r_i的关系；训练一个网络定义V和E；这种训练是在一个单一网络上端到端进行的，允许网络在进行预测时充分考虑图像和图像的所有可能组成部分；

4.基于权利要求书1所述的检测图像元素(一)，其特征在于，首先，网络必须找到构成图像的所有顶点和边缘；每个图像元素基于网络识别的像素位置；在顶点与物体检测对应的场景图中，对象边界框的中心将用作基础位置；在源和目标顶点的中点处磨削边缘：通过使用以高输出分辨率产生每个像素特征的网络来检测单个元素；像素处的特征向量确定边缘或顶点是否存在于该位置，如果是，则用于预测该元素的属性；

5.基于权利要求书4所述的特征张量，其特征在于，为了预测图像元素的存在，采用最终特征张量，并应用1×1卷积和S形激活函数产生两个热点图(一个用于顶点，另一个用于边缘)；每个热点图表示顶点或边缘存在给定像素处的可能性；监督热点图激活的二进制交叉熵损失，对结果设置阈值，产生候选检测集；

6.基于权利要求书1所述的连接元素与联合嵌入(二)，其特征在于，将各种图像放在一起，通过训练网络，与类和边界框预测相同的步骤产生额外的输出；对于每个顶点，网络以向量嵌入的形式产生唯一的标识符，并且对于每个边缘，它必须产生相应的嵌入以引用其源和目标顶点；网络必须确保嵌入在不同顶点之间是不同的，并且引用单个顶点的所有嵌入是相同的。

7.基于权利要求书6所述的构建损失惩罚函数，其特征在于，为了训练网络以生成一套一致的嵌入，需要构建损失惩罚函数；在训练过程中，有一组标定的真实注释，定义了在场景和这些对象之间的边界的唯一对象；因此可以执行两个惩罚函数：边缘通过匹配其输出嵌入而指向顶点，并且为每个顶点生成的嵌入向量都不相同；第一个惩罚函数是将所有对单个顶点的引用聚在一起，而第二个惩罚函数是分开不同的单个顶点的引用。

8.基于权利要求书6所述的嵌入，其特征在于，考虑为顶点v_i∈V产生的嵌入h_i∈R^d；连接到这个顶点的所有边缘都产生一组嵌入h′_ik,k＝1,…,K_i，其中K_i是对该顶点的引用总数；给定一个具有n个对象的图像，聚在一起的这些嵌入的损失是：

为了使嵌入跨越不同的顶点，应用基于边缘的惩罚函数：

9.基于权利要求书1所述的支持重叠检测(三)，其特征在于，将检测分离成几个离散的二进制，但是不执行任何特定的任务来解决分配问题；这意味着对于给定的检测，严格监督要显示的x,y的位置，但允许它显示在几个位置中的一个；

10.基于权利要求书9所述的匹配，其特征在于，网络在可能的对象类和边界框大小之间生成分布，因此尝试将输出与可用的标定的真实信息进行最佳匹配；通过连接给定对象的类和边界框的独热编码来构造参考向量；然后将这些参考向量与每个位置产生的输出分布进行比较；