CN106780536A - 一种基于对象掩码网络的形状感知实例分割方法 - Google Patents
一种基于对象掩码网络的形状感知实例分割方法 Download PDFInfo
- Publication number
- CN106780536A CN106780536A CN201710025896.2A CN201710025896A CN106780536A CN 106780536 A CN106780536 A CN 106780536A CN 201710025896 A CN201710025896 A CN 201710025896A CN 106780536 A CN106780536 A CN 106780536A
- Authority
- CN
- China
- Prior art keywords
- network
- mask
- pixel
- omn
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于对象掩码网络的形状感知实例分割方法,其主要内容包括:形状感知分割预测和学习实例分割,其过程为,使用密集多值映射编码对对象的形状进行建模,对于框中的每个像素到对象边界的最小距离,通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络来生成初始的包围框的建议;对每一个执行感兴趣区域来使特征变形,将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联中来构造形状感知实例分割网络和多级形状感知实例分割网络,并通过端到端的方式训练它。本发明分割细致,精确度高,误差较小,将有助于完善和扩展现有图像分割的理论与方法,为图像分析与理解等应用提供实用工具。
Description
技术领域
本发明涉及图像分割领域,尤其是涉及了一种基于对象掩码网络的形状感知实例分割方法。
背景技术
随着科学技术的发展,数字图像的数量也与日俱增,因此对于数字图像技术的需求也与日俱增。为了更好地识别和理解图像中的内容,图像分割技术显得尤为重要。图像分割是由图像处理向图像分析与理解过渡的重要桥梁,是计算机视觉等相关研究领域的基础科学问题。图像分割可以实现计算机分辨图像的各个部分以及识别它们的类型和颜色,在交通运输方面,由于可以通过分割识别行人,车辆,路况,交通信号灯,交通警告标志等,从而辅助驾驶系统技术,无人驾驶智能车辆技术等。然而,目前的图像分割方法并不完善,仍存在图像分割不细致,不能实现自动分割等问题。
本发明提出了一种基于对象掩码网络的形状感知实例分割方法,使用密集多值映射编码对对象的形状进行建模,对于框中的每个像素到对象边界的(截断的)最小距离,通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络(RPN)来生成初始的包围框的建议;对每一个执行感兴趣区域(RoI)来使特征变形,将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络和多级形状感知实例分割网络,并通过端到端的方式训练它。本发明分割细致,精确度高,误差较小,将有助于完善和扩展现有水平集图像分割的理论与方法,也为图像分析与理解等高层应用提供实用工具。
发明内容
针对图像分割不细致等问题,本发明的目的在于提供一种基于对象掩码网络的形状感知实例分割方法,使用密集多值映射编码对对象的形状进行建模,对于框中的每个像素到对象边界的(截断的)最小距离,通过逆距离变换将该多值图转换为二进制掩码来实现对象分割。使用区域网络(RPN)来生成初始的包围框的建议;对每一个执行感兴趣区域(RoI)来使特征变形,将结果传递给对象掩码网络并产生结果。通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络和多级形状感知实例分割网络,并通过端到端的方式训练它。
为解决上述问题,本发明提供一种基于对象掩码网络的形状感知实例分割方法,其主要内容包括:
(一)形状感知分割预测;
(二)学习实例分割。
其中,所述的形状感知分割预测,包括形状感知掩码表示和对象掩码网络(OMN)。
进一步地,所述的形状感知掩码表示,给定一个窗口,描绘了一个潜在的部分观察对象,从一个包围框中获得图像,目标是产生整个对象的掩码;在图像中的每个像素的值代表距离最近的对象边界;
不同的窗口大小和物体的形状、距离变换可以产生大范围不同的值,这将导致较少的改变;因此,规范窗口为普通大小和截断距离变换得到一个限定范围内的值;明确地使Q表示对象边界和对象外部的像素集;对于归一化的窗口中的每一个像素p,计算对于Q的截断距离D(p),即
其中,d(p,q)是像素p和q之间的欧氏空间距离,返回最接近x且大于x的整数,R是截断阈值,即要代表的最大距离;然后,直接使用D作为致密对象表示;
首先,像素的值给出了对象边界位置的信息,即使该像素属于对象的内部;因此,我们的表示是遮挡不准确的包围框产生的部分;其次,因为每个像素有一个距离值,这种表示是多余的,因此在一定程度上的像素映射的噪声有较强的鲁棒性;更重要的是,预测这样的表示,可以配制成像素的标签任务;
为了进一步推动这一标注任务,量化值的像素映射到K一致的二进制;换句话说,将截断距离像素p,用k维二进制向量b(p)表示为
其中,rn对应于第n个二进制的距离值;通过编码,将多值像素映射到一组K个二进制像素图;这使我们能够把预测密集的地图翻译成一组像素二进制分类任务的问题;
给定一个对象段的密集像素地图(或K个二进制地图),应用逆距离变换,可以近似恢复完整的对象掩码;具体来说,通过每个像素与一个二进制磁盘的半径D(p)关联来构建对象掩码;
通过联合所有的磁盘计算对象掩码M,T(p,r)代表像素p半径为r的磁盘;对象掩码可以表示为:
其中,*代表卷积算子,Bn是二进制像素图的第n个二进制。
进一步地,所述的对象掩码网络(OMN),形状感知表示每个输入图像产生每个对象掩码;为此,我们设计了一个深度神经网络来预测包围框,建议每个包围框K形状感知的密集二进制图,每个框通过公式(3)解码成一个完整的对象掩码;
在实践中,建议使用区域网络(RPN)来生成初始的包围盒的建议;对于它们中的每一个,执行感兴趣区域(RoI)来使特征变形,将结果传递给网络,并通过网络产生结果。
进一步地,所述的对象掩码网络,它由以下两个模块组成:
给定RoI扭曲的一个边界框的特征作为输入,网络中的第一模块预测编码,我们(近似)截断距离变换的K二进制掩码;具体来说,对于第n个二进制掩码,使用具有S形激活函数的完全连接层来预测近似于Bn的像素概率图;
给定K个概率图,设计一个新的残差反卷积网络模块,将它们解码为二进制对象掩码;然后用一系列加权求和层,接着用S形函数近似联合运算符;训练期间学习求和层中的权重;为了适应反卷积滤波器的不同大小,在每个加权求和之前对与网络中的较小的rn值相对应的反卷积的输出进行上采样;为此,使用K的固定步长值;
OMN是完全可微分的,并且解码模块的输出可以使用交叉熵损失,以高分辨率直接与地面实况进行比较;这允许我们以端到端的方式训练OMN,包括初始RPN,或者将其与分类模块集成以执行实例级语义分段。
其中,所述的学习实例分割,通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络;由于OMN模块是可区分的,故可以通过端到端的方式训练整个实例分段网络;包括形状感知实例分割网络和网络学习与推理。
进一步地,所述的形状感知实例分割网络,分割网络包括三个子网络,对应于边界框提议生成,对象模板预测和对象分类的任务;第一个模块包括从输入图像中提取特征表示的深度CNN,然后是RPN,后者生成一组边界框建议;在RoI扭曲之后,通过每个提议通过OMN产生一个段掩码;最后,在原始MNC网络中,通过使用特征掩蔽层中的预测掩码,并且与边界框特征连接来计算掩码特征;然后将所得到的表示馈送到第三子网络中,该第三子网络由用于分类和边界框回归的单个完全连接的层组成。
进一步地,所述的多级形状感知实例分割网络,将上述的SAIS网络(可以被认为是3级级联)扩展到5级级联;基于OMN的输出来细化边界框建议的初始集合,并且因此改进预测的分段;前三个阶段由上述模型组成,即VGG16卷积层,RPN,OMN,分类模块和边界框预测;然后使用由第三阶段的边界框回归部分产生的预测偏移来细化初始框;这些新框通过RoI扭曲用作对应于第二OMN的第四阶段的输入;其输出然后在最后阶段与精制箱结合用于分类目的;在这个5级级联中,两个OMN和两个分类模块的权重是共享的。
进一步地,所述的网络学习与推理,SAIS网络是完全可区分的,因此以端到端的方式来训练它;为此,使用多任务损失函数来考虑边界框,对象掩码和分类错误;具体来说,使用softmax损失的RPN和分类,以及OMN的二进制交叉熵损失;在五级级联中,在第三和第五级之后计算边界框和掩码损耗,并且使用平滑L1损失进行边界框回归;
使用随机梯度下降(SGD)将所产生的多任务,多阶段损失最小化在所有参数上;依赖于最小批量的8个图像,调整图像的大小,使短边有600像素;
网络中的第一个模块首先生成~12k个边界框,通过非最大抑制(NMS)进行修剪;在OMN中,使用K=5的概率图来编码(近似)截断距离变换;通过方程式解码这些映射之后,使用0.4的阈值来获得二进制掩码,使用该掩码来汇集特征,最终通过分类模块获得语义标签。
进一步地,所述的SAIS网络,测试时,SAIS网络获取输入图像,首先计算卷积特征图;RPN模块然后生成300个边界框建议,并且OMN模块预测相应的对象掩码;根据类别分数对这些掩码进行分类,并且以0.5的IoU阈值应用类别特定的非最大抑制;最后,独立应用掩码投票方案到每个类别,以进一步细化实例分段。
附图说明
图1是本发明一种基于对象掩码网络的形状感知实例分割方法的系统框架图。
图2是本发明一种基于对象掩码网络的形状感知实例分割方法的传统实况分割和本方法形状感知分割的比较图。
图3是本发明一种基于对象掩码网络的形状感知实例分割方法的截断距离变换和基于去卷积的形状-解码网络。
图4是本发明一种基于对象掩码网络的形状感知实例分割方法的SAIS网络的总结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于对象掩码网络的形状感知实例分割方法的系统框架图。主要包括形状感知分割预测和学习实例分割。
形状感知分割预测包括形状感知掩码表示和对象掩码网络(OMN)。
学习实例分割,通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络;由于OMN模块是可区分的,故可以通过端到端的方式训练整个实例分段网络;包括形状感知实例分割网络和网络学习与推理。
图2是本发明一种基于对象掩码网络的形状感知实例分割方法的传统实况分割和本方法形状感知分割的比较图。给定一个窗口,描绘了一个潜在的部分观察对象,从一个包围框中获得图像,目标是产生整个对象的掩码;在图像中的每个像素的值代表距离最近的对象边界;
不同的窗口大小和物体的形状、距离变换可以产生大范围不同的值,这将导致较少的改变;因此,规范窗口为普通大小和截断距离变换得到一个限定范围内的值;明确地使Q表示对象边界和对象外部的像素集;对于归一化的窗口中的每一个像素p,计算对于Q的截断距离D(p),即
其中,d(p,q)是像素p和q之间的欧氏空间距离,返回最接近x且大于x的整数,R是截断阈值,即要代表的最大距离;然后,直接使用D作为致密对象表示;
首先,像素的值给出了对象边界位置的信息,即使该像素属于对象的内部;因此,我们的表示是遮挡不准确的包围框产生的部分;其次,因为每个像素有一个距离值,这种表示是多余的,因此在一定程度上的像素映射的噪声有较强的鲁棒性;更重要的是,预测这样的表示,可以配制成像素的标签任务;
为了进一步推动这一标注任务,量化值的像素映射到K一致的二进制;换句话说,将截断距离像素p,用k维二进制向量b(p)表示为
其中,rn对应于第n个二进制的距离值;通过编码,将多值像素映射到一组K个二进制像素图;这使我们能够把预测密集的地图翻译成一组像素二进制分类任务的问题;
给定一个对象段的密集像素地图(或K个二进制地图),应用逆距离变换,可以近似恢复完整的对象掩码;具体来说,通过每个像素与一个二进制磁盘的半径D(p)关联来构建对象掩码;
通过联合所有的磁盘计算对象掩码M,T(p,r)代表像素p半径为r的磁盘;对象掩码可以表示为:
其中,*代表卷积算子,Bn是二进制像素图的第n个二进制。
图3是本发明一种基于对象掩码网络的形状感知实例分割方法的截断距离变换和基于去卷积的形状-解码网络。
对象掩码网络(OMN),形状感知表示每个输入图像产生每个对象掩码;为此,我们设计了一个深度神经网络来预测包围框,建议每个包围框K形状感知的密集二进制图,每个框通过公式(3)解码成一个完整的对象掩码;
在实践中,建议使用区域网络(RPN)来生成初始的包围盒的建议;对于它们中的每一个,执行感兴趣区域(RoI)来使特征变形,将结果传递给网络,并通过网络产生结果。
对象掩码网络由以下两个模块组成:给定RoI扭曲的一个边界框的特征作为输入,网络中的第一模块预测编码,我们(近似)截断距离变换的K二进制掩码;具体来说,对于第n个二进制掩码,使用具有S形激活函数的完全连接层来预测近似于Bn的像素概率图;
给定K个概率图,设计一个新的残差反卷积网络模块,将它们解码为二进制对象掩码;然后用一系列加权求和层,接着用S形函数近似联合运算符;训练期间学习求和层中的权重;为了适应反卷积滤波器的不同大小,在每个加权求和之前对与网络中的较小的rn值相对应的反卷积的输出进行上采样;为此,使用K的固定步长值;
OMN是完全可微分的,并且解码模块的输出可以使用交叉熵损失,以高分辨率直接与地面实况进行比较;这允许我们以端到端的方式训练OMN,包括初始RPN,或者将其与分类模块集成以执行实例级语义分段。
图4是本发明一种基于对象掩码网络的形状感知实例分割方法的SAIS网络的总结构图。学习实例分割,通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络;由于OMN模块是可区分的,故可以通过端到端的方式训练整个实例分段网络;包括形状感知实例分割网络和网络学习与推理。
形状感知实例分割网络,分割网络包括三个子网络,对应于边界框提议生成,对象模板预测和对象分类的任务;第一个模块包括从输入图像中提取特征表示的深度CNN,然后是RPN,后者生成一组边界框建议;在RoI扭曲之后,通过每个提议通过OMN产生一个段掩码;最后,在原始MNC网络中,通过使用特征掩蔽层中的预测掩码,并且与边界框特征连接来计算掩码特征;然后将所得到的表示馈送到第三子网络中,该第三子网络由用于分类和边界框回归的单个完全连接的层组成。
多级形状感知实例分割网络,将上述的SAIS网络(可以被认为是3级级联)扩展到5级级联;基于OMN的输出来细化边界框建议的初始集合,并且因此改进预测的分段;前三个阶段由上述模型组成,即VGG16卷积层,RPN,OMN,分类模块和边界框预测;然后使用由第三阶段的边界框回归部分产生的预测偏移来细化初始框;这些新框通过RoI扭曲用作对应于第二OMN的第四阶段的输入;其输出然后在最后阶段与精制箱结合用于分类目的;在这个5级级联中,两个OMN和两个分类模块的权重是共享的。
网络学习与推理,SAIS网络是完全可区分的,因此以端到端的方式来训练它;为此,使用多任务损失函数来考虑边界框,对象掩码和分类错误;具体来说,使用softmax损失的RPN和分类,以及OMN的二进制交叉熵损失;在五级级联中,在第三和第五级之后计算边界框和掩码损耗,并且使用平滑L1损失进行边界框回归;
使用随机梯度下降(SGD)将所产生的多任务,多阶段损失最小化在所有参数上;依赖于最小批量的8个图像,调整图像的大小,使短边有600像素;
网络中的第一个模块首先生成~12k个边界框,通过非最大抑制(NMS)进行修剪;在OMN中,使用K=5的概率图来编码(近似)截断距离变换;通过方程式解码这些映射之后,使用0.4的阈值来获得二进制掩码,使用该掩码来汇集特征,最终通过分类模块获得语义标签。
测试时,SAIS网络获取输入图像,首先计算卷积特征图;RPN模块然后生成300个边界框建议,并且OMN模块预测相应的对象掩码;根据类别分数对这些掩码进行分类,并且以0.5的IoU阈值应用类别特定的非最大抑制;最后,独立应用掩码投票方案到每个类别,以进一步细化实例分段。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于对象掩码网络的形状感知实例分割方法,其特征在于,主要包括形状感知分割预测(一);学习实例分割(二)。
2.基于权利要求书1所述的形状感知分割预测(一),其特征在于,包括形状感知掩码表示和对象掩码网络(OMN)。
3.基于权利要求书1所述的形状感知掩码表示,其特征在于,给定一个窗口,描绘了一个潜在的部分观察对象,从一个包围框中获得图像,目标是产生整个对象的掩码;在图像中的每个像素的值代表距离最近的对象边界;
不同的窗口大小和物体的形状、距离变换可以产生大范围不同的值,这将导致较少的改变;因此,规范窗口为普通大小和截断距离变换得到一个限定范围内的值;明确地使Q表示对象边界和对象外部的像素集;对于归一化的窗口中的每一个像素p,计算对于Q的截断距离D(p),即
其中,d(p,q)是像素p和q之间的欧氏空间距离,返回最接近x且大于x的整数,R是截断阈值,即要代表的最大距离;然后,直接使用D作为致密对象表示;
首先,像素的值给出了对象边界位置的信息,即使该像素属于对象的内部;因此,我们的表示是遮挡不准确的包围框产生的部分;其次,因为每个像素有一个距离值,这种表示是多余的,因此在一定程度上的像素映射的噪声有较强的鲁棒性;更重要的是,预测这样的表示,可以配制成像素的标签任务;
为了进一步推动这一标注任务,量化值的像素映射到K一致的二进制;换句话说,将截断距离像素p,用k维二进制向量b(p)表示为
其中,rn对应于第n个二进制的距离值;通过编码,将多值像素映射到一组K个二进制像素图;这使我们能够把预测密集的地图翻译成一组像素二进制分类任务的问题;
给定一个对象段的密集像素地图(或K个二进制地图),应用逆距离变换,可以近似恢复完整的对象掩码;具体来说,通过每个像素与一个二进制磁盘的半径D(p)关联来构建对象掩码;
通过联合所有的磁盘计算对象掩码M,T(p,r)代表像素p半径为r的磁盘;对象掩码可以表示为:
其中,*代表卷积算子,Bn是二进制像素图的第n个二进制。
4.基于权利要求书1所述的对象掩码网络(OMN),其特征在于,形状感知表示每个输入图像产生每个对象掩码;为此,我们设计了一个深度神经网络来预测包围框,建议每个包围框K形状感知的密集二进制图,每个框通过公式(3)解码成一个完整的对象掩码;
在实践中,建议使用区域网络(RPN)来生成初始的包围盒的建议;对于它们中的每一个,执行感兴趣区域(RoI)来使特征变形,将结果传递给网络,并通过网络产生结果。
5.基于权利要求书4所述的对象掩码网络,其特征在于,它由以下两个模块组成:
给定RoI扭曲的一个边界框的特征作为输入,网络中的第一模块预测编码,我们(近似)截断距离变换的K二进制掩码;具体来说,对于第n个二进制掩码,使用具有S形激活函数的完全连接层来预测近似于Bn的像素概率图;
给定K个概率图,设计一个新的残差反卷积网络模块,将它们解码为二进制对象掩码;然后用一系列加权求和层,接着用S形函数近似联合运算符;训练期间学习求和层中的权重;为了适应反卷积滤波器的不同大小,在每个加权求和之前对与网络中的较小的rn值相对应的反卷积的输出进行上采样;为此,使用K的固定步长值;
OMN是完全可微分的,并且解码模块的输出可以使用交叉熵损失,以高分辨率直接与地面实况进行比较;这允许我们以端到端的方式训练OMN,包括初始RPN,或者将其与分类模块集成以执行实例级语义分段。
6.基于权利要求书1所述的学习实例分割(二),其特征在于,通过将对象掩码网络集成到多级网络级联(MNC)中来构造形状感知实例分割(SAIS)网络;由于OMN模块是可区分的,故可以通过端到端的方式训练整个实例分段网络;包括形状感知实例分割网络和网络学习与推理。
7.基于权利要求书6所述的形状感知实例分割网络,其特征在于,分割网络包括三个子网络,对应于边界框提议生成,对象模板预测和对象分类的任务;第一个模块包括从输入图像中提取特征表示的深度CNN,然后是RPN,后者生成一组边界框建议;在RoI扭曲之后,通过每个提议通过OMN产生一个段掩码;最后,在原始MNC网络中,通过使用特征掩蔽层中的预测掩码,并且与边界框特征连接来计算掩码特征;然后将所得到的表示馈送到第三子网络中,该第三子网络由用于分类和边界框回归的单个完全连接的层组成。
8.基于权利要求书7所述的多级形状感知实例分割网络,其特征在于,将上述的SAIS网络(可以被认为是3级级联)扩展到5级级联;基于OMN的输出来细化边界框建议的初始集合,并且因此改进预测的分段;前三个阶段由上述模型组成,即VGG16卷积层,RPN,OMN,分类模块和边界框预测;然后使用由第三阶段的边界框回归部分产生的预测偏移来细化初始框;这些新框通过RoI扭曲用作对应于第二OMN的第四阶段的输入;其输出然后在最后阶段与精制箱结合用于分类目的;在这个5级级联中,两个OMN和两个分类模块的权重是共享的。
9.基于权利要求书6所述的网络学习与推理,其特征在于,SAIS网络是完全可区分的,因此以端到端的方式来训练它;为此,使用多任务损失函数来考虑边界框,对象掩码和分类错误;具体来说,使用softmax损失的RPN和分类,以及OMN的二进制交叉熵损失;在五级级联中,在第三和第五级之后计算边界框和掩码损耗,并且使用平滑L1损失进行边界框回归;
使用随机梯度下降(SGD)将所产生的多任务,多阶段损失最小化在所有参数上;依赖于最小批量的8个图像,调整图像的大小,使短边有600像素;
网络中的第一个模块首先生成~12k个边界框,通过非最大抑制(NMS)进行修剪;在OMN中,使用K=5的概率图来编码(近似)截断距离变换;通过方程式解码这些映射之后,使用0.4的阈值来获得二进制掩码,使用该掩码来汇集特征,最终通过分类模块获得语义标签。
10.基于权利要求书9所述的SAIS网络,其特征在于,测试时,SAIS网络获取输入图像,首先计算卷积特征图;RPN模块然后生成300个边界框建议,并且OMN模块预测相应的对象掩码;根据类别分数对这些掩码进行分类,并且以0.5的IoU阈值应用类别特定的非最大抑制;最后,独立应用掩码投票方案到每个类别,以进一步细化实例分段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710025896.2A CN106780536A (zh) | 2017-01-13 | 2017-01-13 | 一种基于对象掩码网络的形状感知实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710025896.2A CN106780536A (zh) | 2017-01-13 | 2017-01-13 | 一种基于对象掩码网络的形状感知实例分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106780536A true CN106780536A (zh) | 2017-05-31 |
Family
ID=58945472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710025896.2A Withdrawn CN106780536A (zh) | 2017-01-13 | 2017-01-13 | 一种基于对象掩码网络的形状感知实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106780536A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247947A (zh) * | 2017-07-07 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 人脸属性识别方法及装置 |
CN107506774A (zh) * | 2017-10-09 | 2017-12-22 | 深圳市唯特视科技有限公司 | 一种基于局部注意掩模的分段感知神经网络方法 |
CN107704862A (zh) * | 2017-11-06 | 2018-02-16 | 深圳市唯特视科技有限公司 | 一种基于语义实例分割算法的视频对象分割方法 |
CN107944443A (zh) * | 2017-11-16 | 2018-04-20 | 深圳市唯特视科技有限公司 | 一种基于端到端深度学习进行对象一致性检测方法 |
CN108648197A (zh) * | 2018-04-12 | 2018-10-12 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
CN109190537A (zh) * | 2018-08-23 | 2019-01-11 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
CN109389129A (zh) * | 2018-09-15 | 2019-02-26 | 北京市商汤科技开发有限公司 | 一种图像处理方法、电子设备及存储介质 |
CN109409371A (zh) * | 2017-08-18 | 2019-03-01 | 三星电子株式会社 | 用于图像的语义分割的系统和方法 |
CN109426825A (zh) * | 2017-08-31 | 2019-03-05 | 北京图森未来科技有限公司 | 一种物体封闭轮廓的检测方法和装置 |
CN110033481A (zh) * | 2018-01-10 | 2019-07-19 | 北京三星通信技术研究有限公司 | 用于进行图像处理的方法和设备 |
CN110070056A (zh) * | 2019-04-25 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110211134A (zh) * | 2019-05-30 | 2019-09-06 | 上海商汤智能科技有限公司 | 一种图像分割方法及装置、电子设备和存储介质 |
CN110222636A (zh) * | 2019-05-31 | 2019-09-10 | 中国民航大学 | 基于背景抑制的行人属性识别方法 |
WO2019232707A1 (zh) * | 2018-06-06 | 2019-12-12 | 上海交通大学 | 一种弱监督视频物体分割方法及装置 |
CN110622177A (zh) * | 2017-11-15 | 2019-12-27 | 谷歌有限责任公司 | 实例分割 |
CN111160379A (zh) * | 2018-11-07 | 2020-05-15 | 北京嘀嘀无限科技发展有限公司 | 图像检测模型的训练方法及装置、目标检测方法及装置 |
WO2020125495A1 (zh) * | 2018-12-17 | 2020-06-25 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN111401253A (zh) * | 2020-03-17 | 2020-07-10 | 吉林建筑大学 | 一种基于深度学习的目标检测方法 |
CN111507161A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 方法和装置 |
CN112334906A (zh) * | 2018-06-20 | 2021-02-05 | 祖克斯有限公司 | 从机器学习模型输出推断出的实例分割 |
CN112970029A (zh) * | 2018-09-13 | 2021-06-15 | 辉达公司 | 用于自主机器应用中传感器视盲检测的深度神经网络处理 |
CN113223038A (zh) * | 2021-05-24 | 2021-08-06 | 之江实验室 | 一种基于离散余弦变换的掩码表示的实例分割方法 |
CN113435458A (zh) * | 2021-02-08 | 2021-09-24 | 中国石油化工股份有限公司 | 基于机器学习的岩石薄片图像分割方法、装置及介质 |
CN113643311A (zh) * | 2021-06-28 | 2021-11-12 | 清华大学 | 一种对边界误差鲁棒的图像分割方法和装置 |
CN114820652A (zh) * | 2022-04-07 | 2022-07-29 | 北京医准智能科技有限公司 | 乳腺x线图像局部质量异常区域的分割方法、装置及介质 |
WO2023083231A1 (en) * | 2021-11-12 | 2023-05-19 | Huawei Technologies Co., Ltd. | System and methods for multiple instance segmentation and tracking |
US12033307B2 (en) | 2021-11-12 | 2024-07-09 | Huawei Technologies Co., Ltd. | System and methods for multiple instance segmentation and tracking |
-
2017
- 2017-01-13 CN CN201710025896.2A patent/CN106780536A/zh not_active Withdrawn
Non-Patent Citations (2)
Title |
---|
ROSS GIRSHICK: "Fast R-CNN", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
ZEESHAN HAYDER等: "Shape-aware Instance Segmentation", 《ARXIV》 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247947B (zh) * | 2017-07-07 | 2021-02-09 | 智慧眼科技股份有限公司 | 人脸属性识别方法及装置 |
CN107247947A (zh) * | 2017-07-07 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 人脸属性识别方法及装置 |
CN109409371B (zh) * | 2017-08-18 | 2023-04-14 | 三星电子株式会社 | 用于图像的语义分割的系统和方法 |
CN109409371A (zh) * | 2017-08-18 | 2019-03-01 | 三星电子株式会社 | 用于图像的语义分割的系统和方法 |
CN109426825A (zh) * | 2017-08-31 | 2019-03-05 | 北京图森未来科技有限公司 | 一种物体封闭轮廓的检测方法和装置 |
CN107506774A (zh) * | 2017-10-09 | 2017-12-22 | 深圳市唯特视科技有限公司 | 一种基于局部注意掩模的分段感知神经网络方法 |
CN107704862A (zh) * | 2017-11-06 | 2018-02-16 | 深圳市唯特视科技有限公司 | 一种基于语义实例分割算法的视频对象分割方法 |
CN110622177A (zh) * | 2017-11-15 | 2019-12-27 | 谷歌有限责任公司 | 实例分割 |
CN110622177B (zh) * | 2017-11-15 | 2023-03-24 | 谷歌有限责任公司 | 实例分割 |
CN107944443A (zh) * | 2017-11-16 | 2018-04-20 | 深圳市唯特视科技有限公司 | 一种基于端到端深度学习进行对象一致性检测方法 |
CN110033481A (zh) * | 2018-01-10 | 2019-07-19 | 北京三星通信技术研究有限公司 | 用于进行图像处理的方法和设备 |
CN108648197A (zh) * | 2018-04-12 | 2018-10-12 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
CN108648197B (zh) * | 2018-04-12 | 2021-09-07 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
WO2019232707A1 (zh) * | 2018-06-06 | 2019-12-12 | 上海交通大学 | 一种弱监督视频物体分割方法及装置 |
CN112334906A (zh) * | 2018-06-20 | 2021-02-05 | 祖克斯有限公司 | 从机器学习模型输出推断出的实例分割 |
CN112334906B (zh) * | 2018-06-20 | 2024-05-17 | 祖克斯有限公司 | 从机器学习模型输出推断出的实例分割 |
CN109190537A (zh) * | 2018-08-23 | 2019-01-11 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
CN109190537B (zh) * | 2018-08-23 | 2020-09-29 | 浙江工商大学 | 一种基于掩码感知深度强化学习的多人物姿态估计方法 |
CN112970029A (zh) * | 2018-09-13 | 2021-06-15 | 辉达公司 | 用于自主机器应用中传感器视盲检测的深度神经网络处理 |
CN112970029B (zh) * | 2018-09-13 | 2024-06-07 | 辉达公司 | 用于自主机器应用中传感器视盲检测的深度神经网络处理 |
CN109389129B (zh) * | 2018-09-15 | 2022-07-08 | 北京市商汤科技开发有限公司 | 一种图像处理方法、电子设备及存储介质 |
CN109389129A (zh) * | 2018-09-15 | 2019-02-26 | 北京市商汤科技开发有限公司 | 一种图像处理方法、电子设备及存储介质 |
CN111160379B (zh) * | 2018-11-07 | 2023-09-15 | 北京嘀嘀无限科技发展有限公司 | 图像检测模型的训练方法及装置、目标检测方法及装置 |
CN111160379A (zh) * | 2018-11-07 | 2020-05-15 | 北京嘀嘀无限科技发展有限公司 | 图像检测模型的训练方法及装置、目标检测方法及装置 |
WO2020125495A1 (zh) * | 2018-12-17 | 2020-06-25 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN111507161A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 方法和装置 |
CN111507161B (zh) * | 2019-01-31 | 2023-08-04 | 斯特拉德视觉公司 | 利用合并网络进行异质传感器融合的方法和装置 |
WO2020216008A1 (zh) * | 2019-04-25 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110070056A (zh) * | 2019-04-25 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110070056B (zh) * | 2019-04-25 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110211134A (zh) * | 2019-05-30 | 2019-09-06 | 上海商汤智能科技有限公司 | 一种图像分割方法及装置、电子设备和存储介质 |
CN110211134B (zh) * | 2019-05-30 | 2021-11-05 | 上海商汤智能科技有限公司 | 一种图像分割方法及装置、电子设备和存储介质 |
CN110222636A (zh) * | 2019-05-31 | 2019-09-10 | 中国民航大学 | 基于背景抑制的行人属性识别方法 |
CN111401253A (zh) * | 2020-03-17 | 2020-07-10 | 吉林建筑大学 | 一种基于深度学习的目标检测方法 |
CN113435458A (zh) * | 2021-02-08 | 2021-09-24 | 中国石油化工股份有限公司 | 基于机器学习的岩石薄片图像分割方法、装置及介质 |
CN113223038A (zh) * | 2021-05-24 | 2021-08-06 | 之江实验室 | 一种基于离散余弦变换的掩码表示的实例分割方法 |
CN113643311A (zh) * | 2021-06-28 | 2021-11-12 | 清华大学 | 一种对边界误差鲁棒的图像分割方法和装置 |
CN113643311B (zh) * | 2021-06-28 | 2024-04-09 | 清华大学 | 一种对边界误差鲁棒的图像分割方法和装置 |
WO2023083231A1 (en) * | 2021-11-12 | 2023-05-19 | Huawei Technologies Co., Ltd. | System and methods for multiple instance segmentation and tracking |
US12033307B2 (en) | 2021-11-12 | 2024-07-09 | Huawei Technologies Co., Ltd. | System and methods for multiple instance segmentation and tracking |
CN114820652B (zh) * | 2022-04-07 | 2023-05-23 | 北京医准智能科技有限公司 | 乳腺x线图像局部质量异常区域的分割方法、装置及介质 |
CN114820652A (zh) * | 2022-04-07 | 2022-07-29 | 北京医准智能科技有限公司 | 乳腺x线图像局部质量异常区域的分割方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106780536A (zh) | 一种基于对象掩码网络的形状感知实例分割方法 | |
CN109815886B (zh) | 一种基于改进YOLOv3的行人和车辆检测方法及系统 | |
CN109977812B (zh) | 一种基于深度学习的车载视频目标检测方法 | |
CN106709924B (zh) | 基于深度卷积神经网络和超像素的图像语义分割方法 | |
CN111932553B (zh) | 基于区域描述自注意力机制的遥感图像语义分割方法 | |
CN109902600B (zh) | 一种道路区域检测方法 | |
CN103996041B (zh) | 一种基于匹配的车辆颜色识别方法和系统 | |
CN108647585A (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN110276765A (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN105512661A (zh) | 一种基于多模态特征融合的遥感影像分类方法 | |
CN110232316A (zh) | 一种基于改进的dsod模型的车辆检测与识别方法 | |
CN111104903A (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN110310241A (zh) | 一种融合深度区域分割的多大气光值交通图像去雾方法 | |
CN111539432B (zh) | 一种利用众源数据辅助遥感影像提取城市道路的方法 | |
CN112800906A (zh) | 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法 | |
CN104392456A (zh) | 基于深度自编码器和区域图的sar图像分割方法 | |
CN111160205A (zh) | 一种交通场景嵌入式多类目标端对端统一检测方法 | |
Kim et al. | Effective traffic lights recognition method for real time driving assistance systemin the daytime | |
CN110390314A (zh) | 一种视觉感知方法及设备 | |
Zhang et al. | Semantic segmentation by early region proxy | |
CN115331012B (zh) | 基于零样本学习的联合生成式图像实例分割方法及系统 | |
CN114299286A (zh) | 一种异常天气下基于类别分组的道路场景语义分割方法 | |
CN107958219A (zh) | 基于多模型和多尺度特征的图像场景分类方法 | |
CN113095277A (zh) | 一种基于目标空间分布特征的无人机航拍车辆检测方法 | |
CN112766056A (zh) | 一种基于深度神经网络的弱光环境车道线检测方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170531 |