CN112016559A - 实例分割模型的训练方法及装置,图像处理的方法及装置 - Google Patents
实例分割模型的训练方法及装置,图像处理的方法及装置 Download PDFInfo
- Publication number
- CN112016559A CN112016559A CN202010870833.9A CN202010870833A CN112016559A CN 112016559 A CN112016559 A CN 112016559A CN 202010870833 A CN202010870833 A CN 202010870833A CN 112016559 A CN112016559 A CN 112016559A
- Authority
- CN
- China
- Prior art keywords
- target object
- feature
- branch
- network
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Abstract
本申请公开了一种实例分割模型的训练方法及装置,图像处理的方法及装置。该训练方法包括:确定包含至少一个目标物体的样本图像,所述样本图像包括所述至少一个目标物体中的每个目标物体的形状边缘点标签、目标中心点标签以及类别标签;基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,其中,所述具有分支结构的神经网络模型包括用于特征提取的主干网络以及位于所述主干网络后的并列的多个分支网络,所述多个分支网络包括第一分支网络和第二分支网络,所述第一分支网络用于输出所述至少一个目标物体中的每个目标物体的分类结果,所述第二分支网络用于输出所述目标物体的分割结果,能够提高实例分割结果的准确性和效率。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种实例分割模型的训练方法及装置,图像处理的方法及装置。
背景技术
近年来,深度神经网络在图像、视频等视觉信号的自动化理解方面取得优异的表现。为了理解图像中每个像素所包含的语义信息,目标检测与语义分割应运而生,目标检测或语义分割只能粗略的判断像素属于哪一个目标的矩形检测框或语义类别。为了实现更加精细的图像理解,实例分割应运而生,实例分割在目标检测与语义分割的基础上,可以进一步判断图像中每个像素属于哪一个语义类别中的哪一个目标,实例分割可以应用于视频监督或自动驾驶等任务。当前技术中,大多数采用基于多任务学习框架的实例分割模型来实现实例分割,该实例分割模型采用目标检测模型作为先验输出,即,为目标区域确定候选框,然后使用额外的分割掩模预测模型在目标检测模型给定的目标检测框内逐个像素预测是否属于该目标,即,对候选框中的物体进行分割,从而得到了每个实例的分割结果。
然而,现有的实例分割模型在执行目标检测任务和实例分割任务时,都是先进行目标检测任务,然后再基于目标检测任务所得到的候选框进行后续的实例分割任务,这会使每个实例所得到的分割结果被目标检测任务的检测性能所影响,且这会使实例分割模型的网络参数多,占用内存大,消耗时间长,从而导致实例分割结果不准确且效率低。
发明内容
有鉴于此,本申请的实施例致力于提供一种实例分割模型的训练方法及装置,图像处理的方法及装置,能够提高实例分割结果的准确性和效率。
根据本申请实施例的第一方面,提供了一种实例分割模型的训练方法,包括:确定包含至少一个目标物体的样本图像,所述样本图像包括所述至少一个目标物体中的每个目标物体的形状边缘点标签、目标中心点标签以及类别标签;基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,其中,所述具有分支结构的神经网络包括用于特征提取的主干网络以及位于所述主干网络后的并列的多个分支网络,所述多个分支网络包括第一分支网络和第二分支网络,所述第一分支网络用于输出所述至少一个目标物体中的每个目标物体的分类结果,所述第二分支网络用于输出所述目标物体的分割结果。
根据本申请实施例的第二方面,提供了一种图像处理的方法,包括:根据包含至少一个目标物体的待处理图像,通过所述实例分割模型中的主干网络,获取所述待处理图像的特征图;根据所述特征图,通过所述实例分割模型中的第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的每个特征点的分类结果,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果;根据所述特征图,通过所述实例分割模型中的第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的位置,并根据所述多个形状边缘点的位置,按照预设规则,将所述多个形状边缘点相连,以获得与所述目标物体的特征点对应的所述目标物体的分割结果;根据所述目标物体的分类结果和所述目标物体的分割结果,获取所述目标物体的实例分割结果。
根据本申请实施例的第三方面,提供了一种实例分割模型的训练装置,包括:确定模块,配置为确定包含至少一个目标物体的样本图像,所述样本图像包括所述至少一个目标物体中的每个目标物体的形状边缘点标签、目标中心点标签以及类别标签;训练模块,配置为基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,其中,所述具有分支结构的神经网络包括用于特征提取的主干网络以及位于所述主干网络后的并列的多个分支网络,所述多个分支网络包括第一分支网络和第二分支网络,所述第一分支网络用于输出所述至少一个目标物体中的每个目标物体的分类结果,所述第二分支网络用于输出所述目标物体的分割结果。
根据本申请实施例的第四方面,提供了一种图像处理的装置,包括:特征提取模块,配置为根据包含至少一个目标物体的待处理图像,通过所述实例分割模型中的主干网络,获取所述待处理图像的特征图;分类模块,配置为根据所述特征图,通过所述实例分割模型中的第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的一个特征点的分类结果,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果;分割模块,配置为根据所述特征图,通过所述实例分割模型中的第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的位置,并根据所述多个形状边缘点的位置,按照预设规则,将所述多个形状边缘点相连,以获得所述目标物体的分割结果;结果获取模块,配置为根据所述目标物体的分类结果和分割结果,获取所述目标物体的实例分割结果。
根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器用于执行上述任一实施例所述的图像处理的方法,和/或用于执行上述任一实施例所述的实例分割模型的训练方法。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的图像处理的方法,和/或用于执行上述任一实施例所述的实例分割模型的训练方法。
本申请的实施例所提供的一种实例分割模型的训练方法,通过实例分割模型的第一分支网络进行目标物体的分类,以得到目标物体的分类结果,再通过实例分割模型的第二分支网络进行目标物体的分割,以得到目标物体的分割结果,基于目标物体的分割结果和分类结果,得到目标物体的实例分割结果,这样可以使得实例分割结果不再受检测性能的影响,从而能够提高目标物体的实例分割结果的准确性和效率。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1所示为本申请实施例所提供的图像分类、目标检测、语义分割与实例分割的概念示意图。
图2所示为本申请实施例所提供的一种实施环境的示意图。
图3所示为本申请一个实施例提供的实例分割模型的训练方法的流程示意图。
图4所示为本申请另一个实施例提供的实例分割模型的训练方法的流程示意图。
图5所示为本申请另一个实施例提供的实例分割模型的训练方法的流程示意图。
图6所示为本申请另一个实施例提供的实例分割模型的训练方法的流程示意图。
图7所示为本申请一个实施例提供的图像处理的方法的流程示意图。
图8所示为本申请另一个实施例提供的图像处理的方法的流程示意图。
图9所示为本申请另一个实施例提供的图像处理的方法的流程示意图。
图10所示为本申请一个实施例提供的实例分割模型的训练装置的框图。
图11所示为本申请一个实施例提供的图像处理的装置的框图。
图12所示为本申请一个实施例提供的电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请概述
深度学习通过建立具有阶层结构的人工神经网络,在计算系统中实现人工智能。由于阶层结构的人工神经网络能够对输入信息进行逐层提取和筛选,因此深度学习具有表征学习能力,可以实现端到端的监督学习和非监督学习。深度学习所使用的阶层结构的人工神经网络具有多种形态,其阶层的复杂度被通称为“深度”,按构筑类型,深度学习的形式包括多层感知器、卷积神经网络、循环神经网络、深度置信网络和其它混合构筑。深度学习使用数据对其构筑中的参数进行更新以达成训练目标,该过程被通称为“学习”,深度学习提出了一种让计算机自动学习出模式特征的方法,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性。
神经网络是一种运算模型,由大量的节点(或称神经元)之间相互连接构成,每个节点对应一个策略函数,每两个节点间的连接代表一个对于通过该连接信号的加权值,称之为权重。神经网络一般包括多个神经网络层,上下网络层之间相互级联,第i个神经网络层的输出与第i+1个神经网络层的输入相连,第i+1个神经网络层的输出与第i+2个神经网络层的输入相连,以此类推。训练样本输入具有分支结构的神经网络层后,通过每个神经网络层输出一个输出结果,该输出结果作为下一个神经网络层的输入,由此,通过多个神经网络层计算获得输出,比较输出层的输出的预测结果与真正的目标值,再根据预测结果与目标值之间的差异情况来调整每一层的权重矩阵和策略函数,神经网络利用训练样本不断地经过上述调整过程,使得神经网络的权重等参数得到调整,直到神经网络输出的预测结果与真正的目标结果相符,该过程就被称为神经网络的训练过程。神经网络经过训练后,可得到神经网络模型。
近年来,深度神经网络在图像、视频等视觉信号的自动化理解方面取得优异的表现。目前,计算机视觉的任务包括图像分类(image classification)、目标检测(objectdetection)、语义分割(semantic segmentation)与实例分割(instancesegmentation)等任务。下面以图1为例,对图像分类、目标检测、语义分割与实例分割进行解释说明。如图1所示,图片中含有1个人、2只狗与1只猫。
图像分类是指对图像中的目标物体进行分类,以判断出每个目标物体所属的分类。例如,在学习分类中数据集有人、羊、狗和猫四种,图像分类就是要得到(或输出)给定的一个图片中含有哪些目标物体的分类。例如,如图1左上角所示的例子中,图像分类任务的输出是标注出图片中的分类:人、猫、狗。
目标检测就是求出图片里面有什么目标物体,以及这些目标物体的位置(例如,把目标物体用检测框,例如,矩形框,框住)。例如,如图1右上角所示的例子中,目标检测任务的输出为标注出图片中的1个人、2只狗、1只猫各自的边界框(矩形框)。
语义分割是指需要区分到图片中的每一点像素点,而不仅仅是用矩形框框住目标物体,但是同一目标物体的不同实例不需要单独分割出来。例如,如图1左下角所示的例子中,语义分割任务的输出是标注出图片中的人,狗,猫,但不需要标注出狗1与狗2。
实例分割是指目标检测和语义分割的结合。相对于目标检测的边界框,实例分割可精确到物体的边缘,相对于语义分割,实例分割需要标注出图上同一目标物体的不同实例。例如,如图1右下角所示的例子中,人有1个实例,狗有2个实例,猫有1个实例,实例分割任务要把这些实例都分别标注出来。
通常情况下,把这些实例都分别分割出来需要两个串行的步骤,首先要进行目标检测,以标注出各实例的边界框,然后对边界框中的实例进行实例分割,以得到每个实例的分割结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图2是本申请实施例所提供的一种实施环境的示意图。该实施环境包括服务器140和多个终端设备110、120、130。其中,终端设备110、120、130具备摄像头,可以获取待处理图像150。
终端设备110、120、130可以是手机、游戏主机、平板电脑、照相机、摄像机、车载电脑等移动终端设备,或者,终端设备110、120、130也可以是个人计算机(PersonalComputer,PC),比如膝上型便携计算机和台式计算机等等。本领域技术人员可以知晓,上述终端设备110、120、130的类型可以相同或者不同,其数量可以更多或更少。比如上述终端可以各为一个,或者上述终端为几十个或几百个,或者更多数量。本公开实施例对终端的数量和设备类型不加以限定。
终端设备110、120、130与服务器140之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。可选的,服务器140是一台服务器,或者由若干台服务器组成,或者是一个虚拟化平台,或者是一个云计算服务中心。
终端设备110、120、130中可以部署有实例分割模型,用于对待处理图像150进行图像处理。在一实施例中,终端设备110、120、130通过实例分割模型对待处理图像150进行处理,以同时得到待处理图像150中的每个目标物体(即,不同的实例)的分类结果和分割结果,然后终端设备110、120、130根据每个目标物体的分类结果和分割结果,通过非极大抑制算法,来确定每个目标物体的实例分割结果。
在一些可选的实施例中,还可以通过服务器140中的实例分割模型对待处理图像150进行图像处理。在一实施例中,终端设备110、120、130可以将其获取到的待处理图像150或者图像处理结果等发送给服务器140,服务器140通过其上的实例分割模型对待处理图像150进行处理,以同时得到待处理图像150中的每个目标物体(即,不同的实例)的分类结果和分割结果,然后服务器140根据每个目标物体的分类结果和分割结果,通过非极大抑制算法,来确定每个目标物体的实例分割结果,最后服务器140将每个目标物体的实例分割结果发送给终端设备110、120、130,以进行显示。
通过上述几个实施场景,将实例分割模型对待处理图像上的目标物体的分类任务和分割任务并行进行,能够提高实例分割结果的准确性和效率。
示例性方法
图3所示为本申请一个实施例提供的实例分割模型的训练方法的流程示意图。图3所述的方法由计算设备(例如,服务器)来执行,但本申请实施例不以此为限。服务器可以是一台服务器,或者由若干台服务器组成,或者是一个虚拟化平台,或者是一个云计算服务中心,本申请实施例对此不作限定。如图3所示,该方法包括如下内容。
S310:确定包含至少一个目标物体的样本图像,所述样本图像包括所述至少一个目标物体中的每个目标物体的形状边缘点标签、目标中心点标签以及类别标签。
该样本图像可以由如图2所示的终端设备采集得到,该样本图像中例如包括人、狗或猫等目标物体。终端设备通过对其所在的场景进行拍摄,得到包含至少一个目标物体的样本图像。或者该终端设备从本地存储的数据中获取,或者还可以通过从互联网中获取其他设备所在场景下的该样本图像等等,本申请对此不加以限定。
例如,在通过对终端设备所在的场景进行拍摄得到包含至少一个目标物体的样本图像的过程中,终端设备可以调用摄像组件对其所处的场景进行拍摄,将拍摄得到的包含至少一个目标物体的图像或者拍摄得到视频流中的某帧图像作为该样本图像。该摄像组件可以包括:终端设备上所配置的摄像头或者与终端设备相连接的摄像设备等。
需要说明的是,本申请实施例并不具体限定样本图像的具体类型,根据不同的拍摄场景可以得到不同类型的样本图像,同时,本申请实施例也并不具体限定样本图像上的目标物体的具体个数。
对于实例分割而言,该样本图像上的一个目标物体可以理解为图像上的一个实例,例如,如图1所示,通过终端设备拍摄得到的样本图像包含四个目标物体,分别为,人、狗1、狗2以及猫。
在一实施例中,每个目标物体均包含一个形状边缘点标签、一个目标中心点标签以及一个类别标签。形状边缘点标签由目标物体的多个形状边缘点构成,但是本申请实施例并不具体限定多个形状边缘点的具体个数,可以根据目标物体的形状的复杂程度来决定形状边缘点的个数,例如,形状规则的目标物体的形状边缘点的个数少于形状不规则的目标物体的形状边缘点的个数。目标中心点标签由目标物体的目标中心点构成。类别标签是指目标物体的分类类别,例如,人、狗或者猫。
在另一实施例中,所述确定包含至少一个目标物体中的每个目标物体的样本图像,包括:根据第一预设规则,在所述样本图像上生成所述至少一个目标物体中的每个目标物体的形状边缘点标签;根据第二预设规则,在所述样本图像上生成所述至少一个目标物体中的每个目标物体的目标中心点标签。
第一预设规则可以是指,计算目标物体的M个形状边缘点的曲率,在m个形状边缘点中选取曲率较大的N个点作为形状边缘点,或者在目标物体的边缘上平均选取N个点作为形状边缘点,或者利用传统算法,如snake算法,首先预设n个起始点作为初始轮廓,然后利用snake算法以初始轮廓为基准逐步迭代,来改进目标物体的的轮廓,以得到目标物体的N个形状边缘点。但是需要说明的是,本申请实施例并不具体限定第一预设规则的具体实现方式,本领域技术人员可以根据具体应用需求,来选择不同的第一预设规则,以实现生成形状边缘点标签。
第二预设规则可以是指,获取目标物体的多个离散的数据点,用这些离散的数据点围成多边形,然后计算该多边形的中心或者重心,以获得目标物体的目标中心点,或者利用k-means聚类算法来获取目标物体的目标中心点。但是需要说明的是,本申请实施例并不具体限定第二预设规则的具体实现方式,本领域技术人员可以根据具体应用需求,来选择不同的第二预设规则,以实现生成目标中心点标签。
在一实施例中,还可以对样本图像进行类别标记,以获得样本图像的类别标签,具体可以由人工进行标记,但是本申请实施例对此并不作具体限定。
通常情况下,对于实例分割而言,均是对样本图像进行逐像素标记,这样会很浪费时间。本申请可以只标注多个关键的形状边缘点和目标中心点,不再需要进行逐个像素的标记,因此,节省了标记时间。
S320:基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,其中,所述具有分支结构的神经网络包括用于特征提取的主干网络以及位于所述主干网络后的并列的多个分支网络,所述多个分支网络包括第一分支网络和第二分支网络,所述第一分支网络用于输出所述至少一个目标物体中的每个目标物体的分类结果,所述第二分支网络用于输出所述目标物体的分割结果。
被训练的具有分支结构的神经网络可以为任意类型的神经网络。可选地,被训练的具有分支结构的神经网络可以为卷积神经网络(Convolutional Neural Network,CNN)、深度神经网络(Deep Neural Network,DNN)或循环神经网络(Recurrent Neural Network,RNN)等,本申请实施例对被训练的具有分支结构的神经网络的具体类型不作限定。被训练的具有分支结构的神经网络可以包括输入层、卷积层、池化层、连接层等神经网络层,本申请实施例对此不作具体限定。另外,本申请实施例对每一种神经网络层的个数也不作限定。
根据样本图像训练得到的实例分割模型包括用于特征提取的主干网络以及位于主干网络后的并列的多个分支网络,多个分支网络可以包括第一分支网络和第二分支网络。但是本申请实施例并不限定主干网络的具体类型,该主干网络可以为Vgg16、ResNet、ResNext、DenseNet或特征金字塔网络等,也可以为SWM分类器,或线性回归分类器等等。
综上所述,通过实例分割模型的第一分支网络进行目标物体的分类,以得到目标物体的分类结果,再通过实例分割模型的第二分支网络进行目标物体的分割,以得到目标物体的分割结果,基于目标物体的分割结果和分类结果,得到目标物体的实例分割结果,这样可以使得实例分割结果不再受检测性能的影响,从而能够提高目标物体的实例分割结果的准确性和效率。
由于在实例分割过程中不需要进行先检测后分割,通过并行的第一分支网络和第二分支网络,一步就可以直接进行实例分割,因此,节省了网络占用的空间和时间。同时,一个神经网络多用,既能提升实例分割效率还能增强实例分割效果。
在本申请另一个实施例中,如图4所示的方法是图3所示的方法中的步骤S320的示例,如图4所示的方法包括如下内容。
S410:根据所述样本图像,通过所述主干网络,得到所述样本图像的特征图。
将样本图像输入到具有分支结构的神经网络中后,首先通过该主干网络,对样本图像进行特征提取,以获得样本图像的特征图。
例如,该主干网络以Unet为基本框架,Unet由编码器与解码器两部分组成,使用ResNet作为编码器和解码器的基础网络。编码器负责对样本图像进行下采样,提取样本图像的层次特征,解码器负责利用编码器提取到的层次特征进行上采样操作,以解码得到样本图像的特征图。
S420:根据所述特征图,通过所述第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的每个特征点的分类结果,并根据所述目标物体的特征点的分类结果和所述目标物体的类别标签,获取所述第一分支网络的第一损失函数值,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果。
在一实施例中,将该样本图像的特征图输入到第一分支网络后,第一分支网络可以对目标物体的多个特征点中的每个特征点进行特征学习,以得到目标物体的多个特征点中的每个特征点的分类结果。
一个特征点对应一个目标物体的分类结果,由于一个目标物体包含多个特征点,因此,该样本图像上的至少一个目标物体中的每个目标物体均对应多个分类结果。
在一实施例中,第一分支网络的输出可以为H*W*c,H和W为特征图的高和宽,c为数据集的类别数量,那么该分类结果可以为每个特征点为数据集中的任一个类别的概率值,例如,数据集中存在4个类别,分别为,人,狗1,狗2以及猫,每个特征点的分类结果为概率向量,即,该特征点的类别为人的概率值为80%,该特征点的类别为狗1的概率值为60%,该特征点的类别为狗2的概率值为65%,该特征点的类别为猫的概率值为50%,但是本申请实施例对分类结果的具体类型并不作限定,分类结果还可以为其他符合要求的结果,例如,分类结果还可以为目标物体为某一最接近的类别的概率值。
在一实施例中,利用第一损失函数,计算目标物体的特征点的分类结果和目标物体的类别标签之间的相似度损失,可以得到第一分支网络的第一损失函数值。第一损失函数值越小,代表预测出的分类结果越接近目标结果,预测正确的准确率越高。相反,第一损失函数值越大,代表预测正确的准确率越低。
在一实施例中,该第一损失函数可以为一个或多个二进制交叉熵损失函数或一个或多个交叉熵损失函数。
S430:根据所述特征图,通过所述第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置,并根据所述目标物体的多个形状边缘点的预测位置和所述目标物体的形状边缘点标签上的多个形状边缘点的实际位置,获取所述第二分支网络的第二损失函数值,其中,所述目标物体的分割结果由所述目标物体的多个形状边缘点相连获得。
在一实施例中,将该样本图像的特征图输入到第二分支网络后,第二分支网络可以对目标物体的多个形状边缘点的位置进行特征学习,以得到与目标物体的多个特征点中的每个特征点对应的目标物体的多个形状边缘点的预测位置。
根据目标物体的一个特征点,可以得到一个多个形状边缘点的预测位置,由于一个目标物体包含多个特征点,因此,该样本图像上的至少一个目标物体中的每个目标物体均对应多个多个形状边缘点的预测位置。
在一实施例中,在得到了与每个特征点对应的多个形状边缘点的预测位置后,实际上就得到了与每个特征点对应的目标物体的分割结果,该分割结果可以由多个形状边缘点相连获得,因此,该样本图像上的至少一个目标物体中的每个目标物体均对应多个分割结果。但是需要说明的是,本申请实施例并不具体限定获取多少个形状边缘点的具体位置,例如,可以只获取4个形状边缘点,将这四个形状边缘点相连接,就可以得到分割结果。
在一实施例中,利用第二损失函数,计算目标物体的多个形状边缘点的预测位置和目标物体的形状边缘点标签上的多个形状边缘点的实际位置之间的相似度损失,可以得到第二分支网络的第二损失函数值。第二损失函数值越小,代表预测出的分割结果越接近目标结果,预测正确的准确率越高。相反,第二损失函数值越大,代表预测正确的准确率越低。
在一实施例中,该第二损失函数可以为L1、L2或IOU损失函数。
需要说明的是,本申请实施例并不限定步骤S420和S430执行的先后顺序,可以先执行步骤S420,也可以先执行步骤S430,还可以同时执行步骤S420和S430。
应当理解,每个目标物体的多个特征点中的每个特征点均对应一个目标物体的分类结果和一个目标物体的分割结果。
S440:根据所述第一损失函数值和所述第二损失函数值,更新所述具有分支结构的神经网络中的参数。
在一实施例中,可以将第一损失函数值进行梯度反传,以更新该具有分支结构的神经网络中的主干网络和第一分支网络的参数,例如权重,偏值等,本申请对此不做限定。
在一实施例中,可以将第二损失函数值进行梯度反传,以更新该具有分支结构的神经网络中的主干网络和第二分支网络的参数,例如权重,偏值等,本申请对此不做限定。
在本申请另一个实施例中,所述根据所述特征图,通过所述第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置,包括:根据所述第二分支网络,计算所述目标物体的特征点与所述目标物体的多个形状边缘点的X方向偏移量和Y方向偏移量,以获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置。
针对直角坐标系,将特征图输入到第二分支网络后,可以计算出目标物体的多个特征点中的每个特征点与目标物体的多个形状边缘点的X方向偏移量和Y方向偏移量,从而获取与目标物体的多个特征点中的每个特征点对应的目标物体的多个形状边缘点的预测位置。
在一实施例中,第二分支网络可以为边缘回归网络,其输出可以为H*W*(2*N),H和W为特征图的高和宽,N为形状边缘点标签中选取的形状边缘点的个数,那么通过目标物体的多个特征点中的每个特征点均可以回归出该特征点与N个形状边缘点的X方向偏移量和Y方向偏移量,根据多个形状边缘点相对于该特征点的X方向偏移量和Y方向偏移量,可以得到与目标物体的多个特征点中的每个特征点对应的目标物体的多个形状边缘点的预测位置。
在本申请另一个实施例中,所述根据所述特征图,通过所述第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置,包括:根据所述第二分支网络,计算所述目标物体的特征点与所述目标物体的多个形状边缘点的相对角度和相对距离,以获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置。
针对极坐标系,将特征图输入到第二分支网络后,可以计算出目标物体的多个特征点中的每个特征点与目标物体的多个形状边缘点的相对角度和相对距离,从而获取与目标物体的多个特征点中的每个特征点对应的目标物体的多个形状边缘点的预测位置。
在一实施例中,第二分支网络可以为边缘回归网络,其输出可以为H*W*(2*N),H和W为特征图的高和宽,N为形状边缘点标签中选取的形状边缘点的个数,那么通过目标物体的多个特征点中的每个特征点均可以回归出该特征点与N个形状边缘点的相对角度和相对距离,根据多个形状边缘点相对于该特征点的相对角度和相对距离,可以得到与目标物体的多个特征点中的每个特征点对应的目标物体的多个形状边缘点的预测位置。
例如,将多个形状边缘点的预测位置为x1,多个形状边缘点的实际位置为x2,当该第二损失函数为L1损失函数时,第二损失函数值为|x1-x2|,当该第二损失函数为L2损失函数时,第二损失函数值为当该第二损失函数为IOU损失函数时,第二损失函数值为预测位置与实际位置的交集/预测位置与实际位置的并集。
在本申请另一实施例中,多个分支网络还包括与第一分支网络和第二分支网络并行的第三分支网络,用于输出目标物体的多个特征点中的每个特征点为目标物体的目标中心点的概率值。如图5所示的方法是图4所示的方法的示例,如图5所示的方法包括以下内容。
图5所示的方法中的步骤S510至S530与图4所示的方法中的步骤S410至S430相同,具体细节将不在此处进行赘述,请参见图4所示的方法中的步骤S410至S430。
S540:根据所述特征图和所述第三分支网络,计算所述目标物体的特征点与所述目标物体的目标中心点的中心距离,并根据激活函数和所述中心距离,获取所述目标物体的特征点为所述目标物体的目标中心点的概率值。
在一实施例中,将该样本图像的特征图输入到第三分支网络后,第三分支网络可以对目标物体的目标中心点的位置进行特征学习,计算出目标物体的多个特征点中的每个特征点与该目标物体的目标中心点的中心距离,然后通过激活函数,例如sigmoid,对中心距离的倒数进行激活,以得到目标物体的多个特征点中的每个特征点为目标物体的目标中心点的概率值。
应当理解,越靠近目标中心点的特征点与目标中心点的中心距离越小,中心距离的倒数就越接近于1,而越远离目标中心点的特征点与目标中心点的中心距离越大,中心距离的倒数就越接近于0,因此,激活函数sigmoid可以对0至1之间的数值进行激活。
但是需要说明的是,本申请实施例并不具体限定激活函数的具体类型,还可以为tanh或relu等。
需要说明的是,本申请实施例并不限定步骤S520、S530以及S540执行的先后顺序。
S550:根据所述中心距离和所述目标物体的特征点与所述目标物体的目标中心点标签上的目标中心点的实际中心距离,获取所述第三分支网络的第三损失函数值。
在一实施例中,利用第三损失函数,计算中心距离和实际中心距离之间的相似度损失,可以得到第三分支网络的第三损失函数值。第三损失函数值越小,代表预测出的中心距离越接近目标结果,预测正确的准确率越高。相反,第三损失函数值越大,代表预测正确的准确率越低。
在一实施例中,该第三损失函数可以为二进制交叉熵损失函数。
S560:根据所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值,更新所述具有分支结构的神经网络中的参数。
在一实施例中,可以将第三损失函数值进行梯度反传,以更新该具有分支结构的神经网络中的主干网络和第三分支网络的参数,例如权重,偏值等,本申请对此不做限定。
图5所示的方法中的步骤S560与图4所示的方法中的步骤S440相似,具体细节将不在此处进行赘述,请参见图4所示的方法中的步骤S440。
在本申请另一实施例中,多个分支网络还包括与第一分支网络和第二分支网络并行的第三分支网络,用于输出目标物体的多个特征点中的每个特征点为目标物体的目标中心点的概率值。如图6所示的方法是图4所示的方法的示例,如图6所示的方法包括以下内容。
图6所示的方法中的步骤S610至S630与图4所示的方法中的步骤S410至S430相同,具体细节将不在此处进行赘述,请参见图4所示的方法中的步骤S410至S430。
S640:根据所述特征图和所述第三分支网络,计算所述目标物体的特征点与所述目标物体的多个形状边缘点的边缘距离中的最小边缘距离和最大边缘距离之比,并根据激活函数和所述最小边缘距离与所述最大边缘距离之比,获取所述目标物体的特征点为所述目标物体的目标中心点的概率值。
在一实施例中,将该样本图像的特征图输入到第三分支网络后,第三分支网络可以对目标物体的目标中心点的位置进行特征学习,计算出目标物体的多个特征点中的每个特征点与该目标物体的多个形状边缘点的边缘距离,并选取边缘距离中的最大边缘距离和最小边缘距离,计算最小边缘距离和最大边缘距离的比值,然后通过激活函数,例如sigmoid,对最小边缘距离和最大边缘距离的比值进行激活,以得到目标物体的多个特征点中的每个特征点为目标物体的目标中心点的概率值。
应当理解,越靠近目标中心点的特征点与多个形状边缘点的边缘距离中的最小边缘距离与最大边缘距离越接近,其比值就越接近于1,而越远离目标中心点的特征点与多个形状边缘点的边缘距离中的最小边缘距离与最大边缘距离相差越大,其比值就越接近于0,因此,激活函数sigmoid可以对0至1之间的数值进行激活。
但是需要说明的是,本申请实施例并不具体限定激活函数的具体类型,还可以为tanh或relu等。
需要说明的是,本申请实施例并不限定步骤S620、S630以及S640执行的先后顺序。
S650:根据所述最大边缘距离和所述最小边缘距离,以及所述目标物体的特征点与所述目标物体的形状边缘点标签上的多个形状边缘点的实际边缘距离中的最大实际边缘距离和最小实际边缘距离,获取所述第三分支网络的第三损失函数值。
在一实施例中,利用第三损失函数,计算最大边缘距离和最小边缘距离,与最大实际边缘距离和最小实际边缘距离之间的相似度损失,可以得到第三分支网络的第三损失函数值。第三损失函数值越小,代表预测出的最大边缘距离和最小边缘距离越接近目标结果,预测正确的准确率越高。相反,第三损失函数值越大,代表预测正确的准确率越低。
在一实施例中,该第三损失函数可以为二进制交叉熵损失函数。
S660:根据所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值,更新所述具有分支结构的神经网络中的参数。
在一实施例中,可以将第三损失函数值进行梯度反传,以更新该具有分支结构的神经网络中的主干网络和第三分支网络的参数,例如权重,偏值等,本申请对此不做限定。
图6所示的方法中的步骤S660与图4所示的方法中的步骤S440相似,具体细节将不在此处进行赘述,请参见图4所示的方法中的步骤S440。
综上,由于一个目标物体中有很多个特征点,越靠近目标中心点的特征点越能从整体上判断出目标物体的整个型态,目标中心点更有利于判断目标物体的类别,因此,第三分支网络可以用来判定目标物体中的多个特征点中的每个特征点位于目标中心点的程度。
图7所示为本申请一个实施例提供的图像处理的方法的流程示意图。图7所述的方法由计算设备(例如,服务器)来执行,但本申请实施例不以此为限。服务器可以是一台服务器,或者由若干台服务器组成,或者是一个虚拟化平台,或者是一个云计算服务中心,本申请实施例对此不作限定。如图7所示,该方法包括如下内容。
S710:根据包含至少一个目标物体的待处理图像,通过所述实例分割模型中的主干网络,获取所述待处理图像的特征图。
S720:根据所述特征图,通过所述实例分割模型中的第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的每个特征点的分类结果,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果。
S730:根据所述特征图,通过所述实例分割模型中的第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的位置,并根据所述多个形状边缘点的位置,按照预设规则,将所述多个形状边缘点相连,以获得与所述目标物体的特征点对应的所述目标物体的分割结果。
图7所示的方法中的步骤S710至S730与图4所示的方法中的步骤S410至S430相似,具体细节将不在此处进行赘述,请参见图4所示的方法中的步骤S410至S430。本实施例只描述不同之处。
在获得了多个形状边缘点的位置后,可以按照预设规则,将所述多个形状边缘点相连,以获得与目标物体的特征点对应的目标物体的分割结果。预设规则可以为按逆时针顺序连接,或者按顺时针顺序连接,本申请实施例对此并不作具体限定。
S740:根据所述目标物体的分类结果和所述目标物体的分割结果,获取所述目标物体的实例分割结果。
应当理解,目标物体的实例分割结果就是将待处理图像上的目标物体进行分割和分类,以实现不同目标物体的实例分割,所以可以根据至少一个目标物体中的每个目标物体的多个特征点中的每个特征点的分割结果和分类结果,获取该目标物体的实例分割结果。
但是本申请实施例对步骤S740的具体实施方式并不作具体限定,可以任意选取目标物体中的一特征点的分割结果和分类结果,以此来确定与该特征点对应的目标物体的实例分割结果,本领域技术人员还可以根据其他规则,来确定目标物体的实例分割结果。
在本申请另一个实施例中,所述方法还包括:根据所述特征图,通过所述实例分割模型中的第三分支网络,获取所述目标物体的多个特征点中的每个特征点为所述目标物体的目标中心点的中心概率值。
本实施例与图5所示的方法中的步骤S540和图6所示的方法中的步骤S640相似,具体细节将不在此处进行赘述,请参见图5所示的方法中的步骤S540和图6所示的方法中的步骤S640。
在本申请另一个实施例中,如图8所示的方法是图7所示的方法中的步骤S740的示例,如图8所示的方法包括如下内容。
S810:利用非极大抑制算法,确定所述目标物体的多个特征点中的中心概率值最大的特征点为所述目标物体的中心特征点。
应当理解,非极大抑制算法(Non-maximum suppression,NMS)的本质是搜索局部极大值,抑制非极大值元素。
由于通过步骤S710至S730,获得了至少一个目标物体中的每个目标物体的多个特征点中的每个特征点的分割结果和分类结果,因此为了获得目标物体的唯一的分割结果和唯一的分类结果,可以通过非极大抑制算法,在目标物体的多个特征点的中心概率值中搜索最大中心概率值,以该最大中心概率值的特征点为该目标物体的中心特征点,以该目标物体的中心特征点的分类结果和分割结果为该目标物体的唯一的分割结果和唯一的分类结果。
S820:根据所述目标物体的中心特征点的分类结果以及与所述目标物体的中心特征点对应的分割结果,获取所述目标物体的实例分割结果。
以与该中心特征点对应的分类结果和分割结果,来确定该目标物体的实例分割结果。
在本申请另一个实施例中,如图9所示的方法是图7所示的方法中的步骤S740的示例,如图9所示的方法包括如下内容。
S910:根据所述目标物体的多个特征点中的每个特征点为所述目标物体的目标中心点的中心概率值和所述目标物体的多个特征点中的每个特征点的分类结果中的分类概率值,获取所述目标物体的多个特征点中的每个特征点的分类预测概率值。
在一实施例中,如上所述,当第一分支网络的输出为H*W*c时,那么每个特征点的分类结果为概率向量,即,该特征点的类别为人的概率值为80%,该特征点的类别为狗1的概率值为60%,该特征点的类别为狗2的概率为65%,该特征点的类别为猫的概率值为50%,因此,本实施例所述的分类概率值可以是指概率向量中概率值最大的那个值(即,该特征点的类别为人的概率值为80%)。
在一实施例中,当每个特征点的分类结果为目标物体为某一最接近的类别的概率值时,本实施例所述的分类概率值可以是指该概率值。
在一实施例中,可以计算每个特征点的中心概率值和分类概率值的乘积,以确定目标物体的多个特征点中的每个特征点的分类预测概率值。例如,一特征点的中心概率值为90%,分类概率值为80%,那么该特征点的分类预测概率值为72%。
S920:利用非极大抑制算法,确定所述目标物体的多个特征点中的每个特征点的分类预测概率值最大的特征点为所述目标物体的中心特征点。
图9所示的方法中的步骤S920与图8所示的方法中的步骤S810相似,具体细节将不在此处进行赘述,请参见图8所示的方法中的步骤S810。
S930:根据所述目标物体的中心特征点的分类结果以及与所述目标物体的中心特征点对应的分割结果,获取所述目标物体的实例分割结果。
图9所示的方法中的步骤S930与图8所示的方法中的步骤S820相似,具体细节将不在此处进行赘述,请参见图8所示的方法中的步骤S820。
示例性装置
本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图10所示为本申请一个实施例提供的实例分割模型的训练装置的框图。如图10所示,该装置1000包括:
确定模块1010,配置为确定包含至少一个目标物体的样本图像,所述样本图像包括所述至少一个目标物体中的每个目标物体的形状边缘点标签、目标中心点标签以及类别标签;
训练模块1020,配置为基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,其中,所述具有分支结构的神经网络模型包括用于特征提取的主干网络以及位于所述主干网络后的并列的多个分支网络,所述多个分支网络包括第一分支网络和第二分支网络,所述第一分支网络用于输出所述至少一个目标物体中的每个目标物体的分类结果,所述第二分支网络用于输出所述目标物体的分割结果。
在一个实施例中,所述装置1000还包括:用于执行上述实施例提及的实例分割模型的训练方法中的各个步骤的模块。
图11所示为本申请一个实施例提供的图像处理的装置的框图。如图11所示,该装置1100包括:
特征提取模块1110,配置为根据包含至少一个目标物体的待处理图像,通过所述实例分割模型中的主干网络,获取所述待处理图像的特征图;
分类模块1120,配置为根据所述特征图,通过所述实例分割模型中的第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的一个特征点的分类结果,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果;
分割模块1130,配置为根据所述特征图,通过所述实例分割模型中的第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的位置,并根据所述多个形状边缘点的位置,按照预设规则,将所述多个形状边缘点相连,以获得所述目标物体的分割结果;
结果获取模块1140,配置为根据所述目标物体的分类结果和分割结果,获取所述目标物体的实例分割结果。
在一个实施例中,所述装置1100还包括:用于执行上述实施例提及的图像处理的方法中的各个步骤的模块。
示例性电子设备
下面,参考图12来描述根据本申请实施例的电子设备。图12图示了根据本申请实施例的电子设备的框图。
如图12所示,电子设备1200包括一个或多个处理器1210和存储器1220。
处理器1210可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备1200中的其他组件以执行期望的功能。
存储器1220可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1210可以运行所述程序指令,以实现上文所述的本申请的各个实施例的实例分割模型的训练方法、图像处理的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备1200还可以包括:输入装置1230和输出装置1240,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置1230可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置1230可以是通信网络连接器。
此外,该输入设备1230还可以包括例如键盘、鼠标等等。
该输出装置1240可以向外部输出各种信息,包括确定出的征象类别信息等。该输出设备1240可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图12中仅示出了该电子设备1200中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备1200还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的实例分割模型的训练方法、图像处理的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的实例分割模型的训练方法、图像处理的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (15)
1.一种实例分割模型的训练方法,其特征在于,包括:
确定包含至少一个目标物体的样本图像,所述样本图像包括所述至少一个目标物体中的每个目标物体的形状边缘点标签、目标中心点标签以及类别标签;
基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,其中,所述具有分支结构的神经网络包括用于特征提取的主干网络以及位于所述主干网络后的并列的多个分支网络,所述多个分支网络包括第一分支网络和第二分支网络,所述第一分支网络用于输出所述至少一个目标物体中的每个目标物体的分类结果,所述第二分支网络用于输出所述目标物体的分割结果。
2.根据权利要求1所述的训练方法,其特征在于,所述基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,包括:
根据所述样本图像,通过所述主干网络,得到所述样本图像的特征图;
根据所述特征图,通过所述第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的每个特征点的分类结果,并根据所述目标物体的特征点的分类结果和所述目标物体的类别标签,获取所述第一分支网络的第一损失函数值,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果;
根据所述特征图,通过所述第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置,并根据所述目标物体的多个形状边缘点的预测位置和所述目标物体的形状边缘点标签上的多个形状边缘点的实际位置,获取所述第二分支网络的第二损失函数值,其中,所述目标物体的分割结果由所述目标物体的多个形状边缘点相连获得;
根据所述第一损失函数值和所述第二损失函数值,更新所述具有分支结构的神经网络中的参数。
3.根据权利要求2所述的训练方法,其特征在于,所述根据所述特征图,通过所述第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置,包括:
根据所述第二分支网络,计算所述目标物体的特征点与所述目标物体的多个形状边缘点的X方向偏移量和Y方向偏移量,以获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置。
4.根据权利要求2所述的训练方法,其特征在于,所述根据所述特征图,通过所述第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置,包括:
根据所述第二分支网络,计算所述目标物体的特征点与所述目标物体的多个形状边缘点的相对角度和相对距离,以获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的预测位置。
5.根据权利要求2所述的训练方法,其特征在于,所述多个分支网络还包括第三分支网络,用于输出所述目标物体的特征点为所述目标物体的目标中心点的概率值,所述方法还包括:
根据所述特征图和所述第三分支网络,计算所述目标物体的特征点与所述目标物体的目标中心点的中心距离,并根据激活函数和所述中心距离,获取所述目标物体的特征点为所述目标物体的目标中心点的概率值;
根据所述中心距离和所述目标物体的特征点与所述目标物体的目标中心点标签上的目标中心点的实际中心距离,获取所述第三分支网络的第三损失函数值,
其中,所述根据所述第一损失函数值和所述第二损失函数值,更新所述具有分支结构的神经网络中的参数,包括:
根据所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值,更新所述具有分支结构的神经网络中的参数。
6.根据权利要求2所述的训练方法,其特征在于,所述多个分支网络还包括第三分支网络,用于输出所述目标物体的特征点为所述目标物体的目标中心点的概率值,所述方法还包括:
根据所述特征图和所述第三分支网络,计算所述目标物体的特征点与所述目标物体的多个形状边缘点的边缘距离中的最小边缘距离和最大边缘距离之比,并根据激活函数和所述最小边缘距离与所述最大边缘距离之比,获取所述目标物体的特征点为所述目标物体的目标中心点的概率值;
根据所述最大边缘距离和所述最小边缘距离,以及所述目标物体的特征点与所述目标物体的形状边缘点标签上的多个形状边缘点的实际边缘距离中的最大实际边缘距离和最小实际边缘距离,获取所述第三分支网络的第三损失函数值,
其中,所述根据所述第一损失函数值和所述第二损失函数值,更新所述具有分支结构的神经网络中的参数,包括:
根据所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值,更新所述具有分支结构的神经网络中的参数。
7.根据权利要求1至6中任一项所述的训练方法,其特征在于,所述确定包含至少一个目标物体中的每个目标物体的样本图像,包括:
根据第一预设规则,在所述样本图像上生成所述至少一个目标物体中的每个目标物体的形状边缘点标签;
根据第二预设规则,在所述样本图像上生成所述至少一个目标物体中的每个目标物体的目标中心点标签。
8.一种图像处理的方法,其特征在于,包括:
根据包含至少一个目标物体的待处理图像,通过所述实例分割模型中的主干网络,获取所述待处理图像的特征图;
根据所述特征图,通过所述实例分割模型中的第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的每个特征点的分类结果,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果;
根据所述特征图,通过所述实例分割模型中的第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的位置,并根据所述多个形状边缘点的位置,按照预设规则,将所述多个形状边缘点相连,以获得与所述目标物体的特征点对应的所述目标物体的分割结果;
根据所述目标物体的分类结果和所述目标物体的分割结果,获取所述目标物体的实例分割结果。
9.根据权利要求8所述的方法,其特征在于,所述实例分割模型还包括第三分支网络,所述方法还包括:
根据所述特征图,通过所述实例分割模型中的第三分支网络,获取所述目标物体的多个特征点中的每个特征点为所述目标物体的目标中心点的中心概率值。
10.根据权利要求9所述的方法,其特征在于,所述根据所述目标物体的分类结果和所述目标物体的分割结果,获取所述目标物体的实例分割结果,包括:
利用非极大抑制算法,确定所述目标物体的多个特征点中的中心概率值最大的特征点为所述目标物体的中心特征点;
根据所述目标物体的中心特征点的分类结果以及与所述目标物体的中心特征点对应的分割结果,获取所述目标物体的实例分割结果。
11.根据权利要求9所述的方法,其特征在于,所述根据所述目标物体的分类结果和所述目标物体的分割结果,获取所述目标物体的实例分割结果,包括:
根据所述目标物体的多个特征点中的每个特征点为所述目标物体的目标中心点的中心概率值和所述目标物体的多个特征点中的每个特征点的分类结果中的分类概率值,获取所述目标物体的多个特征点中的每个特征点的分类预测概率值;
利用非极大抑制算法,确定所述目标物体的多个特征点中的每个特征点的分类预测概率值最大的特征点为所述目标物体的中心特征点;
根据所述目标物体的中心特征点的分类结果以及与所述目标物体的中心特征点对应的分割结果,获取所述目标物体的实例分割结果。
12.一种实例分割模型的训练装置,其特征在于,包括:
确定模块,配置为确定包含至少一个目标物体的样本图像,所述样本图像包括所述至少一个目标物体中的每个目标物体的形状边缘点标签、目标中心点标签以及类别标签;
训练模块,配置为基于所述样本图像训练具有分支结构的神经网络,以得到所述实例分割模型,其中,所述具有分支结构的神经网络模型包括用于特征提取的主干网络以及位于所述主干网络后的并列的多个分支网络,所述多个分支网络包括第一分支网络和第二分支网络,所述第一分支网络用于输出所述至少一个目标物体中的每个目标物体的分类结果,所述第二分支网络用于输出所述目标物体的分割结果。
13.一种图像处理的装置,其特征在于,包括:
特征提取模块,配置为根据包含至少一个目标物体的待处理图像,通过所述实例分割模型中的主干网络,获取所述待处理图像的特征图;
分类模块,配置为根据所述特征图,通过所述实例分割模型中的第一分支网络,获取所述至少一个目标物体中的每个目标物体的多个特征点中的一个特征点的分类结果,其中,所述特征点的分类结果为与所述特征点对应的目标物体的分类结果;
分割模块,配置为根据所述特征图,通过所述实例分割模型中的第二分支网络,获取与所述目标物体的特征点对应的所述目标物体的多个形状边缘点的位置,并根据所述多个形状边缘点的位置,按照预设规则,将所述多个形状边缘点相连,以获得所述目标物体的分割结果;
结果获取模块,配置为根据所述目标物体的分类结果和分割结果,获取所述目标物体的实例分割结果。
14.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1至11中任一项所述的方法。
15.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010870833.9A CN112016559A (zh) | 2020-08-26 | 2020-08-26 | 实例分割模型的训练方法及装置,图像处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010870833.9A CN112016559A (zh) | 2020-08-26 | 2020-08-26 | 实例分割模型的训练方法及装置,图像处理的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112016559A true CN112016559A (zh) | 2020-12-01 |
Family
ID=73502312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010870833.9A Pending CN112016559A (zh) | 2020-08-26 | 2020-08-26 | 实例分割模型的训练方法及装置,图像处理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016559A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733824A (zh) * | 2021-04-06 | 2021-04-30 | 中国电力科学研究院有限公司 | 基于视频图像智能前端的变电设备缺陷诊断方法和系统 |
CN112767422A (zh) * | 2021-02-01 | 2021-05-07 | 推想医疗科技股份有限公司 | 图像分割模型的训练方法及装置,分割方法及装置,设备 |
CN113139966A (zh) * | 2021-03-19 | 2021-07-20 | 杭州电子科技大学 | 一种基于贝叶斯记忆的层次级联视频目标分割方法 |
CN113159275A (zh) * | 2021-03-05 | 2021-07-23 | 深圳市商汤科技有限公司 | 网络训练方法、图像处理方法、装置、设备及存储介质 |
CN113221662A (zh) * | 2021-04-14 | 2021-08-06 | 上海芯翌智能科技有限公司 | 人脸识别模型的训练方法及装置、存储介质、终端 |
CN113240696A (zh) * | 2021-05-20 | 2021-08-10 | 推想医疗科技股份有限公司 | 图像处理方法及装置,模型的训练方法及装置,电子设备 |
CN113256672A (zh) * | 2021-05-20 | 2021-08-13 | 推想医疗科技股份有限公司 | 图像处理方法及装置,模型的训练方法及装置,电子设备 |
CN113255760A (zh) * | 2021-05-20 | 2021-08-13 | 推想医疗科技股份有限公司 | 训练图像处理模型的方法、图像处理的方法及装置 |
CN114241344A (zh) * | 2021-12-20 | 2022-03-25 | 电子科技大学 | 一种基于深度学习的植物叶片病虫害严重程度评估方法 |
CN115063639A (zh) * | 2022-08-11 | 2022-09-16 | 小米汽车科技有限公司 | 生成模型的方法、图像语义分割方法、装置、车辆及介质 |
CN115527036A (zh) * | 2022-11-25 | 2022-12-27 | 南方电网数字电网研究院有限公司 | 电网场景点云语义分割方法、装置、计算机设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242869A (zh) * | 2018-09-21 | 2019-01-18 | 科大讯飞股份有限公司 | 一种图像实例分割方法、装置、设备及存储介质 |
CN110516671A (zh) * | 2019-08-27 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 神经网络模型的训练方法、图像检测方法及装置 |
CN111192279A (zh) * | 2020-01-02 | 2020-05-22 | 上海交通大学 | 基于边缘检测的物体分割方法、电子终端及存储介质 |
CN111340813A (zh) * | 2020-02-25 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 图像实例分割方法、装置、电子设备及存储介质 |
CN111461127A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 基于一阶段目标检测框架的实例分割方法 |
-
2020
- 2020-08-26 CN CN202010870833.9A patent/CN112016559A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242869A (zh) * | 2018-09-21 | 2019-01-18 | 科大讯飞股份有限公司 | 一种图像实例分割方法、装置、设备及存储介质 |
CN110516671A (zh) * | 2019-08-27 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 神经网络模型的训练方法、图像检测方法及装置 |
CN111192279A (zh) * | 2020-01-02 | 2020-05-22 | 上海交通大学 | 基于边缘检测的物体分割方法、电子终端及存储介质 |
CN111340813A (zh) * | 2020-02-25 | 2020-06-26 | 北京字节跳动网络技术有限公司 | 图像实例分割方法、装置、电子设备及存储介质 |
CN111461127A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 基于一阶段目标检测框架的实例分割方法 |
Non-Patent Citations (1)
Title |
---|
ENZE XIE等: "PolarMask: Single Shot Instance Segmentation with Polar Representation", 《ARXIV:1909.13226V4 [CS.CV]》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767422B (zh) * | 2021-02-01 | 2022-03-08 | 推想医疗科技股份有限公司 | 图像分割模型的训练方法及装置,分割方法及装置,设备 |
CN112767422A (zh) * | 2021-02-01 | 2021-05-07 | 推想医疗科技股份有限公司 | 图像分割模型的训练方法及装置,分割方法及装置,设备 |
CN113159275A (zh) * | 2021-03-05 | 2021-07-23 | 深圳市商汤科技有限公司 | 网络训练方法、图像处理方法、装置、设备及存储介质 |
CN113139966A (zh) * | 2021-03-19 | 2021-07-20 | 杭州电子科技大学 | 一种基于贝叶斯记忆的层次级联视频目标分割方法 |
CN113139966B (zh) * | 2021-03-19 | 2022-06-24 | 杭州电子科技大学 | 一种基于贝叶斯记忆的层次级联视频目标分割方法 |
CN112733824A (zh) * | 2021-04-06 | 2021-04-30 | 中国电力科学研究院有限公司 | 基于视频图像智能前端的变电设备缺陷诊断方法和系统 |
CN113221662A (zh) * | 2021-04-14 | 2021-08-06 | 上海芯翌智能科技有限公司 | 人脸识别模型的训练方法及装置、存储介质、终端 |
CN113240696A (zh) * | 2021-05-20 | 2021-08-10 | 推想医疗科技股份有限公司 | 图像处理方法及装置,模型的训练方法及装置,电子设备 |
CN113256672A (zh) * | 2021-05-20 | 2021-08-13 | 推想医疗科技股份有限公司 | 图像处理方法及装置,模型的训练方法及装置,电子设备 |
CN113255760A (zh) * | 2021-05-20 | 2021-08-13 | 推想医疗科技股份有限公司 | 训练图像处理模型的方法、图像处理的方法及装置 |
CN113240696B (zh) * | 2021-05-20 | 2022-02-08 | 推想医疗科技股份有限公司 | 图像处理方法及装置,模型的训练方法及装置,电子设备 |
CN114241344A (zh) * | 2021-12-20 | 2022-03-25 | 电子科技大学 | 一种基于深度学习的植物叶片病虫害严重程度评估方法 |
CN115063639A (zh) * | 2022-08-11 | 2022-09-16 | 小米汽车科技有限公司 | 生成模型的方法、图像语义分割方法、装置、车辆及介质 |
CN115527036A (zh) * | 2022-11-25 | 2022-12-27 | 南方电网数字电网研究院有限公司 | 电网场景点云语义分割方法、装置、计算机设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016559A (zh) | 实例分割模型的训练方法及装置,图像处理的方法及装置 | |
Nikouei et al. | Smart surveillance as an edge network service: From harr-cascade, svm to a lightweight cnn | |
US20180114071A1 (en) | Method for analysing media content | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
WO2020200213A1 (zh) | 图像生成方法、神经网络的压缩方法及相关装置、设备 | |
US10019657B2 (en) | Joint depth estimation and semantic segmentation from a single image | |
US20190095730A1 (en) | End-To-End Lightweight Method And Apparatus For License Plate Recognition | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
EP3447727B1 (en) | A method, an apparatus and a computer program product for object detection | |
US20170177972A1 (en) | Method for analysing media content | |
CN109784293B (zh) | 多类目标对象检测方法、装置、电子设备、存储介质 | |
CN111783749A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
US20240031644A1 (en) | Video playback device and control method thereof | |
CN111126140A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN112183166A (zh) | 确定训练样本的方法、装置和电子设备 | |
KR102143034B1 (ko) | 객체의 미래 움직임 예측을 통한 동영상에서의 객체 추적을 위한 방법 및 시스템 | |
WO2023142912A1 (zh) | 遗留物体的检测方法、装置及存储介质 | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN110490058B (zh) | 行人检测模型的训练方法、装置、系统和计算机可读介质 | |
López-Rubio et al. | Anomalous object detection by active search with PTZ cameras | |
Lee et al. | Reinforced adaboost learning for object detection with local pattern representations | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN111476144B (zh) | 行人属性识别模型确定方法、装置及计算机可读存储介质 | |
CN114912540A (zh) | 迁移学习方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room B401, floor 4, building 1, No. 12, Shangdi Information Road, Haidian District, Beijing 100085 Applicant after: Tuxiang Medical Technology Co.,Ltd. Address before: Room B401, floor 4, building 1, No. 12, Shangdi Information Road, Haidian District, Beijing 100085 Applicant before: INFERVISION |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201201 |