CN111627029B - 图像实例分割结果的获取方法及装置 - Google Patents

图像实例分割结果的获取方法及装置 Download PDF

Info

Publication number
CN111627029B
CN111627029B CN202010465261.6A CN202010465261A CN111627029B CN 111627029 B CN111627029 B CN 111627029B CN 202010465261 A CN202010465261 A CN 202010465261A CN 111627029 B CN111627029 B CN 111627029B
Authority
CN
China
Prior art keywords
score
target object
candidate frame
preset
frame corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010465261.6A
Other languages
English (en)
Other versions
CN111627029A (zh
Inventor
喻冬东
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010465261.6A priority Critical patent/CN111627029B/zh
Publication of CN111627029A publication Critical patent/CN111627029A/zh
Application granted granted Critical
Publication of CN111627029B publication Critical patent/CN111627029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种图像实例分割结果的获取方法及装置,属于图像处理技术领域,本公开实施例首先确定待实例分割图像中的目标对象,在计算出目标对象对应候选框中类别的得分之后,还进一步计算出目标对象对应候选框中像素点的得分,然后根据目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,计算待实例分割图像的实例分割结果。由于每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此相对于现有技术直接将得分最高的类别的得分作为待实例分割图像的实例分割结果,本公开实施例对目标对象的预测更准确。

Description

图像实例分割结果的获取方法及装置
技术领域
本公开实施例涉及图像处理技术领域,尤其涉及一种图像实例分割结果的获取方法及装置。
背景技术
现有技术中,通常采用分类器打分的方式对待实例分割图像中的目标对象进行处理,进而获得目标对象对应候选框中类别的得分,以用于对目标对象的预测。然而,通过分类器打分只是目标对象对应对候选框中的类别进行打分,如果对目标对象对应对候选框中的类别分类不准确,则可能会导致用一个比较高的类别的得分计算出一个不准确的实例分割结果,从而导致对目标对象的预测精确度不高。
发明内容
本公开实施例提供一种图像实例分割结果的获取方法及装置,以解决现有技术中对目标对象的预测精确度不高的问题。
第一方面,本公开实施例提供了一种图像实例分割结果的获取方法,包括如下步骤:
确定待实例分割图像中的目标对象;
基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分;
基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果。
可选的,基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分包括:
将待实例分割图像输入预设神经网络,得到目标对象对应候选框中类别的得分;
基于目标对象对应候选框中类别的得分,得到目标对象对应候选框中像素点的得分。
可选的,在基于目标对象对应候选框中类别的得分,得到目标对象对应候选框中像素点的得分之后,还包括:
获取目标对象对应候选框中满足预设像素点筛选条件的像素点的得分;
基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,得到实例分割的得分结果包括:
基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中满足预设像素点筛选条件的像素点的得分,得到实例分割的得分结果。
可选的,获取目标对象对应候选框中满足预设像素点筛选条件的像素点的得分包括:
获取目标对象对应候选框中所在位置满足预设位置的像素点,和/或
获取目标对象对应候选框中得分满足预设得分阈值区间内的像素点。
可选的,预设得分阈值区间至少包括第一预设得分阈值区间和第二预设得分阈值区间,图像实例分割结果的获取方法还包括:
确定获取目标对象对应候选框中得分满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点;
为满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点分配对应的评估系数。
可选的,根据如下公式计算待实例分割图像的实例分割结果:
Figure BDA0002512384290000031
其中,xi表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点,xj表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点,M表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点总数,N表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点总数,A表示第一预设得分阈值区间[a,b)的评估系数,B表示第二预设得分阈值区间[b,c]的评估系数,Q表示像素点所在候选框的类别的得分,S表示待实例分割图像的实例分割结果。
可选的,评估系数A为0,评估系数B为1。
可选的,预设神经网络为卷积神经网络,卷积神经网络包括至少一个输入层、隐藏层和输出层。
可选的,隐藏层包括至少一个卷积层和池化层,至少一个卷积层和池化层组成至少一个卷积组,用于逐层对特征进行提取。
可选的,隐藏层还包括激活层、全连接层和BN层中的至少一种。
可选的,预设神经网络为Mask R-CNN网络。
第二方面,本公开实施例提供了一种图像实例分割结果的获取装置,包括:
目标确定单元,用于确定待实例分割图像中的目标对象;
第一计算单元,用于基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分;
第二计算单元,用于基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果。
第三方面,本公开实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如本公开实施例第一方面任一的图像实例分割结果的获取方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本公开实施例第一方面任一的图像实例分割结果的获取方法。
本公开实施例提供的一种图像实例分割结果的获取方法及装置,首先确定待实例分割图像中的目标对象,在计算出目标对象对应候选框中类别的得分之后,还进一步计算出目标对象对应候选框中像素点的得分,然后根据目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,计算待实例分割图像的实例分割结果。由于每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此相对于现有技术直接将得分最高的类别的得分作为待实例分割图像的实例分割结果,本公开实施例对目标对象的预测更准确。
附图说明
图1为本公开实施例提供的一种图像实例分割结果的获取方法流程示意图;
图2为本公开实施例提供的计算目标对象对应候选框中像素点的得分流程示意图;
图3为本公开实施例提供的计算实例分割的得分结果的流程示意图;
图4为本公开实施例提供的预设得分阈值区间划分流程示意图;
图5为本公开实施例提供的5层全连接的神经网络的结构框图;
图6为本公开实施例提供的一种图像实例分割结果的获取装置结构框图;
图7为本公开实施例提供的再一种图像实例分割结果的获取装置结构框图;
图8为本公开实施例提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。
需要说明的是,本公开中术语“系统”和“网络”在本文中常被可互换使用。本公开实施例中提到的“和/或”是指”包括一个或更多个相关所列项目的任何和所有组合。本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。
还需要说明是,本公开下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本公开实施例对此不作具体限制。
针对现有技术中通常采用分类器打分的方式对待实例分割图像中的目标对象进行处理,进而获得目标对象对应候选框中类别的得分,以用于对目标对象的预测。然而,通过分类器打分只是目标对象对应对候选框中的类别进行打分,如果对目标对象对应对候选框中的类别分类不准确,则可能会导致用一个比较高的类别的得分计算出一个不准确的实例分割结果,从而导致对目标对象的预测精确度不高的问题,本公开实施例提供的图像实例分割结果的获取的技术方案,首先确定待实例分割图像中的目标对象,在计算出目标对象对应候选框中类别的得分之后,还进一步计算出目标对象对应候选框中像素点的得分,然后根据目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,计算待实例分割图像的实例分割结果。由于每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此相对于现有技术直接将得分最高的类别的得分作为待实例分割图像的实例分割结果,本公开实施例对目标对象的预测更准确。
具体的,第一方面,图1为本公开实施例提供的一种图像实例分割结果的获取方法流程示意图,包括如下步骤:
S101、确定待实例分割图像中的目标对象;
在本步骤中,待实例分割图像通常包括两个部分,其中一部分为目标对象所在的区域,另一部分为目标对象所在区域之外的背景区域。因此在对目标对象进行实例分割之前,需要将目标对象从待实例分割图像中分割出来。
S102、基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分;
在本步骤中,现有技术在得到目标对象对应候选框中类别的得分后,通常直接将得分最高的类别的得分作为待实例分割图像的实例分割结果。然而,如果对目标对象对应对候选框中的类别不准确,则可能会导致用一个比较高的类别的得分计算出一个不准确的实例分割结果,从而导致对目标对象的预测精确度不高。
由于目标对象对应候选框中的类别是由一个个像素点组成,而每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此本公开实施例不仅计算目标对象对应候选框中类别的得分,还计算目标对象对应候选框中像素点的得分。
S103、基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果。
在本步骤中,由于本公开实施例考虑到了候选框中每个像素点的得分,因此根据计算出的目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分计算出的待实例分割图像的实例分割结果更准确。
本公开实施例提供的图像实例分割结果的获取方法,首先确定待实例分割图像中的目标对象,在计算出目标对象对应候选框中类别的得分之后,还进一步计算出目标对象对应候选框中像素点的得分,然后根据目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,计算待实例分割图像的实例分割结果。由于每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此相对于现有技术直接将得分最高的类别的得分作为待实例分割图像的实例分割结果,本公开实施例对目标对象的预测更准确。
在一些实施例中,在图1所示图像实例分割结果的获取方法的基础上,如图2所示,步骤S102具体包括:
S201、将待实例分割图像输入预设神经网络,得到目标对象对应候选框中类别的得分;
在本步骤中,目标对象对应候选框中类别的得分可以通过预设神经网络得到,预设神经网络例如可以是Mask R-CNN网络,将待实例分割图像输入Mask R-CNN网络后,MaskR-CNN网络可以根据输入的待实例分割图像自动计算出目标对象对应候选框中类别的得分。
S202、基于目标对象对应候选框中类别的得分,得到目标对象对应候选框中像素点的得分。
在本步骤中,现有技术中通常直接将利用Mask R-CNN网络计算出的目标对象对应候选框中类别得分最高的类别的得分直接作为待实例分割图像的实例分割结果。而本公开实施例考虑到每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此在计算出目标对象对应候选框中类别的得分之后,还要计算出目标对象对应候选框中像素点的得分,从而提高后续计算出的待实例分割图像的实例分割结果的准确度。
在一些实施例中,在图2所示方法的基础上,如图3所示,在步骤S202之后,还包括:
S301、获取目标对象对应候选框中满足预设像素点筛选条件的像素点的得分;
在本步骤中,由于每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此需要通过预设像素点筛选条件对每个像素点的得分进行筛选,保留与目标对象关联性较大的像素点的得分,从而提高后续计算出的待实例分割图像的实例分割结果的准确度。
在图1所示图像实例分割结果的获取方法的基础上,如图3所示,步骤S103具体包括:
S302、基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中满足预设像素点筛选条件的像素点的得分,得到实例分割的得分结果。
在本步骤中,由于通过预设像素点筛选条件对像素点得分进行了筛选,而保留下来的像素点与目标对象关联性较大,因此根据目标对象对应候选框中类别的得分,以及目标对象对应候选框中满足预设像素点筛选条件的像素点的得分计算出的实例分割的得分结果更准确。
在一些实施例中,在图3所示方法的基础上,步骤S301具体包括:
获取目标对象对应候选框中所在位置满足预设位置的像素点,和/或
获取目标对象对应候选框中得分满足预设得分阈值区间内的像素点。
在本公开实施例中,提供了两种像素点筛选条件,分别是根据像素点所在位置进行筛选,以及根据像素点得分是否在预设得分阈值区间内进行筛选,具体说明如下:
针对根据像素点所在位置进行筛选的方式,在目标对象对应候选框中,每个像素点都有其相应的位置,如果一个目标对象对应有两个以上的候选框时,则两个候选框中的像素点位置可能存在重合的情况,因此在判断重合位置处的像素点属于哪个候选框时存在较大误差,如果错误的将属于其中一个候选框中的像素点的得分作为另一个候选框中的像素点的得分,用于计算待实例分割图像的实例分割结果会导致计算结果不准确。因此本公开实施例根据像素点所在位置对像素点进行筛选,例如在两个候选框重合处,降低对像素点的采样密度,每隔一个像素点或者几个像素点进行采样,从而减小计算误差。
针对根据像素点得分是否在预设得分阈值区间内进行筛选的方式,该方式减小计算误差的方式是通过设置得分阈值区间实现的。由于像素点的得分表示目标对象的关联程度,因此通过设置得分阈值区间可以筛选出与目标对象的关联程度较高的像素点,用于计算待实例分割图像的实例分割结果,从而减小计算误差。
需要说明的是,上述两种像素点筛选条件仅用于对本公开实施例的具体说明,本领域技术人员应当理解的是,基于上述两种像素点筛选条件做同等变换得出的其它像素点筛选条件都在本公开实施例的保护范围之内,本公开实施例不做具体限制。
在一些实施例中,预设得分阈值区间至少包括第一预设得分阈值区间和第二预设得分阈值区间,在图1所示图像实例分割结果的获取方法的基础上,如图4所示,还包括:
S401、确定获取目标对象对应候选框中得分满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点;
在本步骤中,本公开实施例将预设得分阈值区间划分为第一预设得分阈值区间和第二预设得分阈值区间,以表示像素点与目标对象的不同关联程度。
S402、为满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点分配对应的评估系数。
在本步骤中,由于像素点与目标对象的关联程度不同,因此可以为第一预设得分阈值区间和第二预设得分阈值区间设置相应的评估系数。评估系数用于表示处于某个候选框中的像素点与目标对象的关联程度。
需要说明的是,预设得分阈值区间可以根据实际需求设置一个、两个,以及两个以上,本公开实施例不做具体限制。
在一些实施例中,根据如下公式计算待实例分割图像的实例分割结果:
Figure BDA0002512384290000101
其中,xi表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点,xj表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点,M表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点总数,N表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点总数,A表示第一预设得分阈值区间[a,b)的评估系数,B表示第二预设得分阈值区间[b,c]的评估系数,Q表示像素点所在候选框的类别的得分,S表示待实例分割图像的实例分割结果。
为了更好地说明本公开实施例的技术方案,本公开实施例提供了一种具体计算待实例分割图像的实例分割结果的公式。作为示例性说明,该公式采用了两个预设得分阈值区间,以及两个预设得分阈值区间对应的评估系数。其中当像素点的得分为0~1中的数值时,预设得分阈值区间的端点a、b、c可以分别设置为0、0.5、1。
需要说明的是,像素点得分和预设得分阈值区间的端点可根据实际需求设置为其它的表现形式,本公开实施例不做具体限制。
在一些实施例中,评估系数A为0,评估系数B为1。
为了更好地说明本公开实施例的技术方案,本公开实施例将评估系数A设置为0,评估系数B设置为1。也就是说,得分在区间[0,0.5)内的像素点与目标对象的关联程度较低,因此在计算时可以不考虑;得分在区间[0.5,1]内的像素点与目标对象的关联程度较高,因此在计算时需要保留。
需要说明的是,可以根据实际需求将评估系数设置为其它数值,也可以设置一个、两个,以及两个以上评估系数,本公开实施例不做具体限制。
在一些实施例中,预设神经网络为卷积神经网络,卷积神经网络包括至少一个输入层、隐藏层和输出层。
在本公开实施例中,预设神经网络为卷积神经网络(Convolutional NeuralNetwork,CNN)。卷积神经网络被广泛应用于图像识别、语音识别等各种场合,而本公开实施例作为图像识别的一种应用,也是采用卷积神经网络实现的。本公开实施例中的卷积神经网络包含三部分,即输入层(Input layer)、隐藏层(Hidden layer)和输出层(Outputlayer)。
其中输入层由众多神经元(Neuron)组成,用于接受大量非线形输入信息,例如本公开实施例中人体部位的姿态特征信息。
输出层也包含有多个神经元,信息在输出层的神经元链接中传输、分析、权衡,形成输出结果。
隐藏层是输入层和输出层之间众多神经元和链接组成的各个层面,隐藏层可以有多层,也可以只用一层。隐藏层的神经元数目不定,但数目越多卷积神经网络的非线性越显著,从而使卷积神经网络的强健性(控制系统在一定结构、大小等的参数摄动下,维持某些性能的特性)更显著。
需要说明的是,本公开实施例给出的只是一种实例性结构,而不对使用到的卷积神经网络的结构进行限定,卷积神经网络的结构可根据实际需求进行设置,也可以不包括输入层、隐藏层和输出层中的一种或多种,本公开实施例不做具体限制。
在一些实施例中,隐藏层包括至少一个卷积层和池化层,至少一个卷积层和池化层组成至少一个卷积组,用于逐层对特征进行提取。
在本公开实施例中,卷积神经网络可以包含多个卷积层,也可以包含一个卷积层。在每个卷积层中,使用该层的卷积核对该层的输入特征图(也称为输入特征数据或输入特征值)执行该层的卷积运算,以获得该层的输出特征图(也称为输出特征数据或输出特征值)。在卷积神经网络的各层中,输入特征图可以具有一定的宽度和高度,并且可以具有一定的通道数(也称为深度)。各个卷积核可以具有相同(或不同)的宽度和高度,其小于(或等于)输入特征图的宽度和高度,并且可以具有相同的通道数,其等于输入特征图的通道数。
每个卷积层的后面连接一层池化层,一个卷积层和池化层形成一个卷积组。设置池化层的目的是降低到下一个卷积组的待处理的数据量。例如,当卷积层的输出大小是32×32时,如果池化层过滤器的大小为2×2时,那么经过池化层处理后,输出数据的大小为16×16,也就是说现有的数据量减少到池化前的1/4。由于采用池化层减少了待处理的数据量,因此减少了参数的数量,从而可以预防卷积神经网络对数据的过拟合。
在一些实施例中,隐藏层还包括激活层、全连接层和BN层中的至少一种。
相邻层的所有神经元之间都有连接,即全连接(fully-connected)。在本公开实施例中,可以采用用Affine层实现了全连接层,当使用Affine层时,例如一个5层的全连接的神经网络就可以通过如图5所示的网络结构来实现。而在Affine层后面通常会连接有激活层,例如激活函数ReLU层或者Sigmoid层,如图5所示,在本公开实施例中堆叠了4层“Affine-ReLU”组合,然后第5层是Affine层,最后由Softmax层输出最终结果。
通常情况下,训练神经网络时会采用梯度下降法来更新参数。尽管梯度下降法训练神经网络简单高效,但是仍需要人为地去选择参数,比如学习率,参数初始化,权重衰减系数,Dropout比例等,而且这些参数的选择对于训练结果至关重要,从而导致对神经网络的训练时间很多都浪费到调参上。而采用BN(Batch Normalization)算法可以选择较大的学习率,使得神经网络的训练速度增长很快,具有快速收敛性。此外,采用BN算法可以不需要关系Dropout比例和L2正则项参数的选择,或者可以去掉这两项参数,从而有效地减少了调参的时间。
另一方面,神经网络在开始训练前,通常需要对数据做归一化处理,归一化处理的原因是神经网络的训练过程也是学习数据分布的过程,而如果训练数据和测试数据的分布不同,那么神经网络的泛化能力就会大大降低。此外,每一批次的数据分布如果不相同的话,那么神经网络就要在每次迭代的时都需要去适应不同的数据分布,从而大大降低网络的训练速度,因此需要要对数据做归一化预处理。
此外,神经网络在训练过程中参数要进行更新,除了神经网络的输入层的数据外,其它层的数据分布均一直发生变化。也就是说,神经网络在训练过程中,网络参数的变化会导致后面输入数据的分布变化,例如第二层输入,是由输入数据和第一层参数得到的,而第一层的参数随着训练一直变化,就会引起第二层输入分布的改变。
因此,本公开实施例通过采用BN层,可以有效地解决上述问题,提高神经网络的训练速度。
需要说明的是,本公开实施例给出的只是一种实例性结构,而不对使用到的卷积神经网络的结构进行限定,卷积神经网络的结构可根据实际需求进行设置,也可以不包括激活层、全连接层和BN层中的一种或多种,本公开实施例不做具体限制。
在一些实施例中,预设神经网络为Mask R-CNN网络。
在本公开实施例中,预设神经网络可直接采用现有的Mask R-CNN网络,从而减少通过额外搭建神经网络模型,以及训练神经网络模型的时间。
需要说明的是,本公开实施例中的预设神经网络还可以采用其它与Mask R-CNN网络具有相同功能的现有神经网络,本公开实施例不做具体限制。
第二方面,图6为本公开实施例提供的一种图像实例分割结果的获取装置,包括:
目标确定单元100,用于确定待实例分割图像中的目标对象;
第一计算单元200,用于基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分;
第二计算单元300,用于基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果。
本公开实施例提供的图像实例分割结果的获取装置,首先确定待实例分割图像中的目标对象,在计算出目标对象对应候选框中类别的得分之后,还进一步计算出目标对象对应候选框中像素点的得分,然后根据目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,计算待实例分割图像的实例分割结果。由于每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,因此相对于现有技术直接将得分最高的类别的得分作为待实例分割图像的实例分割结果,本公开实施例对目标对象的预测更准确。
在一些实施例中,第一计算单元200具体用于:
将待实例分割图像输入预设神经网络,得到目标对象对应候选框中类别的得分;
基于目标对象对应候选框中类别的得分,得到目标对象对应候选框中像素点的得分。
在一些实施例中,在图6所示的图像实例分割结果的获取装置的基础上,如图7所示,图像实例分割结果的获取装置还包括:
第一预处理单元400,用于获取目标对象对应候选框中满足预设像素点筛选条件的像素点的得分;
第二计算单元300具体用于:
基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中满足预设像素点筛选条件的像素点的得分,得到实例分割的得分结果。
在一些实施例中,第一预处理单元400具体用于:
获取目标对象对应候选框中所在位置满足预设位置的像素点,和/或
获取目标对象对应候选框中得分满足预设得分阈值区间内的像素点。
在一些实施例中,预设得分阈值区间至少包括第一预设得分阈值区间和第二预设得分阈值区间,在图6所示的图像实例分割结果的获取装置的基础上,如图7所示,图像实例分割结果的获取装置还包括:
第二预处理单元500,用于确定获取目标对象对应候选框中得分满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点;
为满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点分配对应的评估系数。
在一些实施例中,第二计算单元根据如下公式计算待实例分割图像的实例分割结果:
Figure BDA0002512384290000161
其中,xi表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点,xj表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点,M表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点总数,N表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点总数,A表示第一预设得分阈值区间[a,b)的评估系数,B表示第二预设得分阈值区间[b,c]的评估系数,Q表示像素点所在候选框的类别的得分,S表示待实例分割图像的实例分割结果。
在一些实施例中,评估系数A为0,评估系数B为1。
在一些实施例中,预设神经网络为卷积神经网络,卷积神经网络包括至少一个输入层、隐藏层和输出层。
在一些实施例中,隐藏层包括至少一个卷积层和池化层,至少一个卷积层和池化层组成至少一个卷积组,用于逐层对特征进行提取。
在一些实施例中,隐藏层还包括激活层、全连接层和BN层中的至少一种。
在一些实施例中,预设神经网络为Mask R-CNN网络。
第三方面,图8为本公开实施例提供了的一种服务器的结构示意图,如图8所示,其示出了适于用来实现本公开实施例的服务器的结构示意图。以电子设备为例,本公开实施例中的服务器可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,服务器600可以包括处理器(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理,例如实现本公开实施例所提供的图像实例分割结果的获取方法,其中该图像实例分割结果的获取方法包括:
确定待实例分割图像中的目标对象;
基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分;
基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果。
在RAM 603中,还存储有服务器备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许服务器600与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的服务器600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理器601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述服务器中所包含的;也可以是单独存在,而未装配入该服务器中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该服务器执行本实施例提供的图像实例分割结果的获取方法包括:确定待实例分割图像中的目标对象;基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分;基于目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块或单元的名称在某种情况下并不构成对该模块本身的限定,例如,目标确定单元还可以被描述为“用于确定待实例分割图像中的目标对象的单元”;第一计算单元还可以被描述为“用于基于待实例分割图像,得到目标对象对应候选框中类别的得分,以及目标对象对应候选框中像素点的得分的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种图像实例分割结果的获取方法,其特征在于,包括如下步骤:
确定待实例分割图像中的目标对象;
将所述待实例分割图像输入预设神经网络,得到所述目标对象对应候选框中类别的得分;
基于所述目标对象对应候选框中类别的得分,得到所述目标对象对应候选框中像素点的得分;
获取所述目标对象对应候选框中满足预设像素点筛选条件的像素点的得分;
基于所述目标对象对应候选框中类别的得分,以及所述目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果,其中,所述目标对象对应候选框中每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,所述目标对象对应至少两个候选框,在所述目标对象对应的候选框中,每个像素点均有其对应的位置;
所述基于所述目标对象对应候选框中类别的得分,以及所述目标对象对应候选框中像素点的得分,得到实例分割的得分结果包括:
基于所述目标对象对应候选框中类别的得分,以及所述目标对象对应候选框中满足预设像素点筛选条件的像素点的得分,得到实例分割的得分结果。
2.如权利要求1所述的方法,其特征在于,所述获取所述目标对象对应候选框中满足预设像素点筛选条件的像素点的得分包括:
获取目标对象对应候选框中所在位置满足预设位置的像素点,和/或
获取目标对象对应候选框中得分满足预设得分阈值区间内的像素点。
3.如权利要求2所述的方法,其特征在于,所述预设得分阈值区间至少包括第一预设得分阈值区间和第二预设得分阈值区间,所述方法还包括:
确定所述获取目标对象对应候选框中得分满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点;
为满足第一预设得分阈值区间和/或满足第二预设得分阈值区间的像素点分配对应的评估系数。
4.如权利要求3所述的方法,其特征在于,根据如下公式计算所述待实例分割图像的实例分割结果:
Figure QLYQS_1
其中,xi表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点,xj表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点,M表示像素点得分pi在第一预设得分阈值区间[a,b)中的像素点总数,N表示像素点得分pj在第二预设得分阈值区间[b,c]中的像素点总数,A表示第一预设得分阈值区间[a,b)的评估系数,B表示第二预设得分阈值区间[b,c]的评估系数,Q表示像素点所在候选框的类别的得分,S表示待实例分割图像的实例分割结果。
5.如权利要求3所述的方法,其特征在于,所述评估系数A为0,所述评估系数B为1。
6.如权利要求1所述的方法,其特征在于,所述预设神经网络为卷积神经网络,所述卷积神经网络包括至少一个输入层、隐藏层和输出层。
7.如权利要求6所述的方法,其特征在于,所述隐藏层包括至少一个卷积层和池化层,所述至少一个卷积层和池化层组成至少一个卷积组,用于逐层对特征进行提取。
8.如权利要求7所述的方法,其特征在于,所述隐藏层还包括激活层、全连接层和BN层中的至少一种。
9.如权利要求1所述的方法,其特征在于,所述预设神经网络为Mask R-CNN网络。
10.一种图像实例分割结果的获取装置,其特征在于,包括:
目标确定单元,用于确定待实例分割图像中的目标对象;
第一计算单元,用于
将所述待实例分割图像输入预设神经网络,得到所述目标对象对应候选框中类别的得分;基于所述目标对象对应候选框中类别的得分,得到所述目标对象对应候选框中像素点的得分;
第一预处理单元,用于获取所述目标对象对应候选框中满足预设像素点筛选条件的像素点的得分;
第二计算单元,用于基于所述目标对象对应候选框中类别的得分,以及所述目标对象对应候选框中像素点的得分,得到待实例分割图像的实例分割结果其中,所述目标对象对应候选框中每个像素点的得分表示该像素点与其相关联的候选框中的类别为目标对象的可能性,所述目标对象对应至少两个候选框,在所述目标对象对应的候选框中,每个像素点均有其对应的位置;
所述第二计算单元具体用于:基于所述目标对象对应候选框中类别的得分,以及所述目标对象对应候选框中满足预设像素点筛选条件的像素点的得分,得到实例分割的得分结果。
11.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的图像实例分割结果的获取方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-9中任一所述的图像实例分割结果的获取方法。
CN202010465261.6A 2020-05-28 2020-05-28 图像实例分割结果的获取方法及装置 Active CN111627029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010465261.6A CN111627029B (zh) 2020-05-28 2020-05-28 图像实例分割结果的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010465261.6A CN111627029B (zh) 2020-05-28 2020-05-28 图像实例分割结果的获取方法及装置

Publications (2)

Publication Number Publication Date
CN111627029A CN111627029A (zh) 2020-09-04
CN111627029B true CN111627029B (zh) 2023-06-16

Family

ID=72259214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010465261.6A Active CN111627029B (zh) 2020-05-28 2020-05-28 图像实例分割结果的获取方法及装置

Country Status (1)

Country Link
CN (1) CN111627029B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288763B (zh) * 2020-10-28 2024-08-23 维沃移动通信有限公司 图像处理方法及装置
CN116168066B (zh) * 2023-04-25 2023-07-21 河海大学 基于数据分析的建筑物三维点云配准预处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018108129A1 (zh) * 2016-12-16 2018-06-21 北京市商汤科技开发有限公司 用于识别物体类别的方法及装置、电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
WO2018232592A1 (en) * 2017-06-20 2018-12-27 Microsoft Technology Licensing, Llc. SEMANTIC SEGMENTATION TAKING INTO ACCOUNT AN EVENT WITH COMPLETE CONVOLUTION
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US11409994B2 (en) * 2018-05-15 2022-08-09 Shenzhen University Methods for image segmentation, computer devices, and storage mediums
US11030495B2 (en) * 2018-06-13 2021-06-08 Octi Systems and methods for instance segmentation
CN109242869B (zh) * 2018-09-21 2021-02-02 安徽科大讯飞医疗信息技术有限公司 一种图像实例分割方法、装置、设备及存储介质
CN113168510B (zh) * 2018-11-16 2024-10-15 谷歌有限责任公司 通过细化形状先验分割对象
CN109635812B (zh) * 2018-11-29 2019-11-08 中国科学院空间应用工程与技术中心 图像的实例分割方法及装置
CN110533046B (zh) * 2019-08-30 2022-03-29 北京地平线机器人技术研发有限公司 一种图像实例分割方法、装置、计算机可读存储介质及电子设备
CN111046880B (zh) * 2019-11-28 2023-12-26 中国船舶重工集团公司第七一七研究所 一种红外目标图像分割方法、系统、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018108129A1 (zh) * 2016-12-16 2018-06-21 北京市商汤科技开发有限公司 用于识别物体类别的方法及装置、电子设备

Also Published As

Publication number Publication date
CN111627029A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
WO2020228522A1 (zh) 目标跟踪方法、装置、存储介质及电子设备
CN110276345B (zh) 卷积神经网络模型训练方法、装置和计算机可读存储介质
CN111627029B (zh) 图像实例分割结果的获取方法及装置
WO2023016159A1 (zh) 智慧城市网络流量预测方法及系统
CN112183627B (zh) 生成预测密度图网络的方法和车辆年检标数量检测方法
CN112734873B (zh) 对抗生成网络的图像属性编辑方法、装置、设备及介质
CN112634316B (zh) 目标跟踪方法、装置、设备和存储介质
EP4113376A1 (en) Image classification model training method and apparatus, computer device, and storage medium
CN115456167B (zh) 轻量级模型训练方法、图像处理方法、装置及电子设备
US20220044109A1 (en) Quantization-aware training of quantized neural networks
CN115457364A (zh) 一种目标检测知识蒸馏方法、装置、终端设备和存储介质
CN116258657A (zh) 模型训练方法、图像处理方法、装置、介质及电子设备
CN116883154A (zh) 信贷风险识别方法、装置、电子设备及可读存储介质
CN116403569A (zh) 基于人工智能的语音识别方法、装置、计算机设备及介质
CN110555861A (zh) 光流计算方法、装置及电子设备
CN113869599A (zh) 鱼类疫病发展预测方法、系统、设备及介质
CN111414921B (zh) 样本图像处理方法、装置、电子设备及计算机存储介质
CN110378936B (zh) 光流计算方法、装置及电子设备
CN112966592A (zh) 手部关键点检测方法、装置、设备和介质
CN111553324B (zh) 人体姿态预测值校正方法、装置,服务器及存储介质
CN112561779B (zh) 图像风格化处理方法、装置、设备及存储介质
CN110069997B (zh) 场景分类方法、装置及电子设备
CN113269301B (zh) 基于神经网络估计多目标跟踪系统参数的方法及系统
CN111598037B (zh) 人体姿态预测值的获取方法、装置,服务器及存储介质
CN112749707B (zh) 利用神经网络进行目标分割的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant