CN115810105A - 一种全景分割方法、装置、设备及存储介质 - Google Patents
一种全景分割方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115810105A CN115810105A CN202211645620.1A CN202211645620A CN115810105A CN 115810105 A CN115810105 A CN 115810105A CN 202211645620 A CN202211645620 A CN 202211645620A CN 115810105 A CN115810105 A CN 115810105A
- Authority
- CN
- China
- Prior art keywords
- semantic
- segmentation
- loss function
- preset
- segmentation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种全景分割方法、装置、设备及存储介质,涉及图像分割技术领域,包括:按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对若干语义等级进行加权学习以得到语义加强损失函数;基于语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数;利用预设权重系数对预设实例分割损失函数以及目标语义分割损失函数进行处理得到目标语义增强损失函数;基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。由此可见,本申请可以根据语义重要程度分类,并对语义等级进行学习以优化语义分割损失函数,可以在全景分割网络中提高优先级较高的语义信息的分割效果。
Description
技术领域
本发明涉及图像分割技术领域,特别涉及一种全景分割方法、装置、设备及存储介质。
背景技术
图像分割技术是计算机视觉领域重要的研究方向,其研究过程已经持续几十年。传统分割算法仅仅从人类的直观视觉特征出发,针对图像的颜色分布、纹理特征、点特征等来进行分割和分类,其分割效果极大的受限于不同场景。随着深度学习的推广和发展,图像分割进入全新的发展时期,Facebook AI研究院于2018年提出全景分割的概念,并给出相关基准。相比于传统的语义分割和实例分割算法,全景分割任务需要在对图像像素点分类的同时区分不同实例并给出识别号。全景分割将语义分割和实例分割的优点进行了有效的结合,既可以得到图像所有物体的分类结果,又可以区分不同的物体实例个体,即同时实现了图像背景语义信息和前景实例对象分割的同时处理。
目前的分割算法大多聚焦于提高所有种类的平均分割精度,这样一来,这些算法对于有不同语义分割结果需求的分割任务来说效果有限,会导致很多全景分割中优先级高的信息的分割精度不理想,进而导致分割结果的实用性不强。
发明内容
有鉴于此,本发明的目的在于提供一种全景分割方法、装置、设备及存储介质,能够基于语义信息的重要程度提高重要目标的分割准确度和可靠性。其具体方案如下:
第一方面,本申请提供了一种全景分割方法,包括:
按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数;
基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数;
利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数;
基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。
可选的,所述按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数,包括:
按照重要程度将所述语义种类划分为所述若干语义等级,并利用预设向量记录所述若干语义等级中物体分类对应的损失权重;
基于预设初始语义损失函数利用IF-IDF原理对所述若干等级中的所述物体分类对应的分类元素进行加权学习,以得到所述语义加强损失函数。
可选的,所述基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数,包括:
利用所述预设重要性矩阵确定与所述若干语义等级对应的重要性系数;
利用所述重要性系数对所述语义加强损失函数进行处理以得到所述目标语义分割损失函数。
可选的,所述基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果,包括:
在Mask R-CNN网络中基于全卷积神经网络以及预设实例分割损失函数得到所述实例分割结果。
基于所述目标语义增强损失函数在所述Mask R-CNN网络中利用特征金字塔网络对原始图像处理得到所述语义分割结果。
可选的,所述基于所述目标语义增强损失函数在所述Mask R-CNN网络中利用特征金字塔网络对原始图像处理得到所述语义分割结果,包括:
对所述特征金字塔网络中金字塔等级的特征信息进行合并以获取所述语义分割结果。
可选的,所述基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果之前,还包括:
在与所述目标语义增强损失函数相应的语义分割功能分支中增加预设标记类,以便作为额外像素点输出。
可选的,所述基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果之后,还包括:
判断所述实例分割结果中是否存在不同实例的重叠;
若所述实例分割结果中存在不同实例的重叠,则将重叠的所述不同实例中置信度小的实例从所述实例分割结果中剔除,以得到处理后实例分割结果;
判断所述处理后实例分割结果与所述语义分割结果中是否存在分割结果重叠;
若存在所述分割结果重叠,则将重叠的分割结果中的语义分割结果剔除,以得到处理后语义分割结果;
判断所述处理后实例分割结果以及所述处理后语义分割结果中是否存在预设标记类;
若所述处理后实例分割结果以及所述处理后语义分割结果中存在所述预设标记类,则将所述预设标记类剔除,以输出剔除后的实例分割结果以及语义分割结果;
若所述处理后实例分割结果以及所述处理后语义分割结果中不存在所述预设标记类,则输出所述处理后实例分割结果以及所述处理后语义分割结果。
第二方面,本申请提供了一种全景分割装置,包括:
第一函数优化模块,用于按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数;
第二函数优化模块,用于基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数;
目标函数确定模块,用于利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数;
图像分割模块,用于基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现上述的全景分割方法。
第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现上述的全景分割方法。
由此可见,本申请中首先按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数;基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数;利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数;基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果;利用预设重叠结果剔除规则对所述实例分割结果以及所述语义分割结果进行处理并对处理后的目标分割结果进行输出。这样一来,本申请可以将语义类别按照重要程度进行分组,再对相应的语义等级进行加权学习并基于预设重要性矩阵确定出所述目标语义分割损失函数,这样进行加权学习可以有效抑制分类失衡问题,得到的所述目标语义分割损失函数可以提高重要目标的分割准确度和可靠性;进一步的,本申请可以提前预设全景分割网络,然后将得到的目标语义增强损失函数运用在所述预设全景分割网络中以提高对所需物体种类的分割精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种全景分割方法流程图;
图2为本申请公开的一种具体的全景分割方法流程图;
图3为本申请公开的一种语义等级分组示意图;
图4为本申请公开的一种重要性矩阵示意图;
图5为本申请公开的一种重要性系数计算结构图;
图6为本申请公开的一种具体的全景分割方法流程图;
图7为本申请公开的一种全景分割网络结构图;
图8为本申请公开的一种实例分割子网络结构图;
图9为本申请公开的一种语义分割子网络结构图;
图10为本申请公开的一种语义分割结果对比图;
图11为本申请公开的一种全景分割装置结构示意图;
图12为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
综合现有文献可知,目前的图像分割算法大多聚焦于提高所有种类的平均分割精度,忽略了不同任务对不同语义分割结果需求和重视程度的不同,进而导致很多全景分割的精度不理想,实用性不强。本申请可以针对不同的语义类别对现有的语义分割损失函数进行优化得到语义增强损失函数,并利用添加语义增强损失函数的全景分割网络进行图像分割,提高了对重要语义类别的分割精度。
参见图1所示,本发明实施例公开了全景分割方法,包括:
步骤S11、按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数。
可以理解的是,全景分割网络中的损失函数通常由语义分割子分支损失函数和实例分割子分支损失函数结合构成,但传统的损失函数会针对所有语义种类给出相同的损失代价,这样就忽略了不同分割任务中对不同语义分割结果的需求和重视程度的不同,进而导致很多全景分割精度不理想。本实施例中,可以将语义种类根据重要程度划分为若干语义等级,然后基于所述预设初始语义损失函数对所述若干语义等级中物体种类对应的损失权重进行加权学习,这样得到的所述语义加强损失函数对图像分割中的特定物体和背景的分割精度会高于所述预设初始语义损失函数的分割精度。需要指出的是,所述预设初始语义损失函数可以包括交叉熵损失函数(Cross-Entropy Loss)、Focal Loss等常用的语义分割损失函数,本申请中选用所述交叉熵损失函数作为所述预设初始语义损失函数。交叉熵损失函数表示实际输出与期望输出之间的距离,用以刻画预测值与真值相似度,交叉熵越小,两个概率分布越接近,传统定义为:
qi,j和pi,j都是长度为C的one-hot编码,其中C为分类总数,qi,j为(i,j)处的真值向量,正确语义标签位置标注为1,其他为0;pi,j为(i,j)处的预测向量,每个数组元素对应相应分类预测概率,H和W分别为图像的高和宽。
步骤S12、基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数。
本实施例中,得到所述语义加强损失函数之后,可以进一步利用所述预设重要性矩阵对所述语义加强损失函数进行处理;需要指出的是,所述预设重要性矩阵可以确定出不同语义等级对应的分组系数,然后可以利用所述分组系数对所述语义加强损失函数进行计算得到所述目标语义分割损失函数。
步骤S13、利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数。
本实施例中,可以理解的是,本申请方法仍然采取分开计算损失函数的结构,可以利用所述预设权重系数对所述预设实例分割损失函数以及所述目标语义分割损失函数进行处理,可以得到所述目标语义增强损失函数;这样可以通过控制所述预设权重系数实现对语义分割网络和实例分割网络的不同侧重,可以理解的是,也可以分别对两个独立的图像分割网络进行单独训练,这样的计算量可以减半。进一步的,当实例分割网络对应的权重系数为0时,可以进行语义分割网络的训练;相应的,当语义分割网络对应的权重系数为0时,可以进行实例分割网络的训练。
步骤S14、基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。
本实施例中,在得到所述语义增强损失函数之后,可以基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。可以理解的是,完成全景分割任务的网络结构需满足条件:分辨率足够高以解析微小结构;语义编码足够多以准确预测物体分类;具备多尺度信息,以在不同分辨率上进行预测;而特征金字塔网络(Feature Pyramid Network,FPN)具备高分辨、丰富的多尺度特征提取的作用,因此可以通过附加语义分割网络来完成全景分割任务。
需要指出的是,在一种具体的实施例中,得到所述实例分割结果以及所述语义分割结果之后,还可以包括:判断所述实例分割结果中是否存在不同实例的重叠;具体的,若所述实例分割结果中存在不同实例的重叠,则将重叠的所述不同实例中置信度小的实例从所述实例分割结果中剔除,以得到处理后实例分割结果;进一步的,判断所述处理后实例分割结果与所述语义分割结果中是否存在分割结果重叠;具体的,若存在所述分割结果重叠,则将重叠的分割结果中的语义分割结果剔除,以得到处理后语义分割结果;可以理解的是,可以判断所述处理后实例分割结果以及所述处理后语义分割结果中是否存在预设标记类;具体的,若所述处理后实例分割结果以及所述处理后语义分割结果中存在所述预设标记类,则将所述预设标记类剔除,以输出剔除后的实例分割结果以及语义分割结果;若所述处理后实例分割结果以及所述处理后语义分割结果中不存在所述预设标记类,则输出所述处理后实例分割结果以及所述处理后语义分割结果。可以理解的是,全景输出格式需要为每个图像像素分配类标签和实例ID;为避免网络结构中的实例和语义分割分支输出重叠问题,本申请可以将重叠的分割结果进行剔除,以避免出现分割结果重叠的情况。
由此可见,本申请可以根据语义种类的重要程度、损失权重以及预设重要性矩阵对预设初始语义损失函数进行优化得到目标语义分割损失函数,并基于预设权重系数对预设实例分割损失函数和所述目标语义分割损失函数进行加权处理得到用于全景分割网络的目标语义增强损失函数;进一步的,本申请可以基于预设全景分割网络获取实例分割结果以及语义分割结果,然后可以将得到的实例分割结果和语义分割结果中的重叠分割结果进行剔除得到目标分割结果。这样一来,本申请中按照重要程度对语义类别进行分组并进行加权学习可以提高对特定物体和背景的分类精度,并且利用优化后的目标语义增强损失函数在图像分割任务中可以增强对语义信息的敏感度,可以满足分割任务中对不同语义类别分割精度的不同需求。
下面实施例将针对得到目标语义增强损失函数的步骤进行详细介绍,参见图2所示,本发明实施例公开了全景分割方法,包括:
步骤S21、按照重要程度将语义种类划分为若干语义等级,并利用预设向量记录所述若干语义等级中物体分类对应的损失权重。
本实施例中,可以按照重要程度将语义种类划分为所述若干语义等级;可以理解的是,如图3所示,在一种具体的实施例中,可以将语义种类划分为四个等级,重要程度从R4到R1依次降低。其划分依据以回环检测任务为例:相比于动态物体R2和R1,静态物体R4和R3能够提供更多的可靠鲁棒的参考信息;静态的实例物体(things)R4又比静态背景(stuff)R3更具有参考价值和路标功能。动态物体中,相较于车辆等物体R2也即部分情况为静止的物体,人和动物等物体R1属于高频移动物体,且出现频次较高,属于干扰信息。
需要指出的是,在一种具体的实施例中,可以选用交叉熵损失函数作为预设初始语义损失函数。相应的,将语义种类按重要程度划分等级进行分组之后,可以根据语义等级的分组定义向量储存交叉熵损失,例如,将语义种类划分为四个等级之后,可以定义向量V1、V2、V3和V4,用来分别储存4个分组中物体分类的交叉熵损失。例如第i组,第j个像素的损失值定义为:
其中,Oc,i,j为图像(i,j)处输出c分类可能性的张量,qc是第c个元素为1的one-hot编码。同样的,也可以通过所述预设向量定义W1、W2、W3和W4四个向量来记录4个分组中物体分类对应的损失权重,利用损失权重来有效抑制分类失衡问题。Wi的定义为:
其中si,c代表第c分类在训练集像素点中出现的总次数,α和β代表控制参数。
步骤S22、基于预设初始语义损失函数利用IF-IDF原理对所述若干等级中的所述物体分类对应的分类元素进行加权学习,以得到语义加强损失函数。
本实施例中,可以利用所述IF-IDF原理进行分类元素加权过程,对出现频率较高语义类别需要通过降低损失权重来减少迭代过程的每次调整幅度,减少训练发散问题,对于频次较低类别通过提高权重来提高迭代过程的学习过程,这样对学习过程进行加速。可以理解的是,在一种具体的实施例中,经过加权学习之后,可以定义所述加强损失函数为Wi TLPi(i=1,2,3,4),其中i为按照重要程度对语义划分的等级的数量,在本申请中可以是若干数量个分组。
步骤S23、利用预设重要性矩阵确定与所述若干语义等级对应的重要性系数。
本实施例中,得到所述加强损失函数之后,可以基于所述预设重要性矩阵确定出与所述若干语义等级相应分组的重要性系数。如图4所示,在一种具体的实施例中,预设重要性矩阵Mt可以包括三部分,其中,每一部分的大小为H×W,也就是图像的高乘以宽。矩阵中横向矩形区域代表上述若干等级的分组,由上到下对应的是上述图3中的R1、R2、R3和R4,并且矩阵中1代表重要性高,0代表重要性低。例如R4所包含的1数量最多,代表R4包含的物体分类最重要。可以基于Mt定义重要性系数θ(Mt)(t=1,2,3):
其中E为全1矩阵(幺矩阵),为调参,本实施例中可以取0.5,G为输出Oc,i,j在图像(i,j)处真值分类标签对应的预测概率,⊙运算表示矩阵对应元素相乘。γ取值决定了θ(Mt)的大小值,当γ放大,输出G与Mt之间的差距便会扩大,尤其当Mt=1时。
进一步的,在一种具体的实施例中,可以利用如图5所示的计算结构来计算损失函数的重要性系数,其中R1所在分组的重要性最低,可以设置R1组的重要性系数为1;R2组的重要性系数为θ(M1)+1;R3组的重要性系数为(θ(M1)+1)(θ(M2)+1);R4组的重要性系数为(θ(M1)+1)(θ(M2)+1)(θ(M3)+1)。
步骤S24、利用所述重要性系数对所述语义加强损失函数进行处理以得到目标语义分割损失函数。
本实施例中,得到所述重要性系数之后,用所述重要性系数对所述语义加强损失函数进行处理得到所述目标语义分割损失函数,具体的,根据上述步骤中的具体的实施例得到R1组的重要性系数为1;R2组的重要性系数为θ(M1)+1;R3组的重要性系数为(θ(M1)+1)(θ(M2)+1);R4组的重要性系数为(θ(M1)+1)(θ(M2)+1)(θ(M3)+1)。这样一来,可以得到所述目标语义分割损失函数相应的计算公式:
由此可见,本申请可以根据语义类别的重要程度划分等级进行分组,并利用相应的分组中物体分类对应的损失权重来进行加权学习,这样可以有效抑制分类失衡问题,然后可以利用得到的语义加强损失函数以及预设重要性矩阵来确定出目标语义分割损失函数,这样利用所述预设重要性矩阵对损失函数进行处理可以提高得到的损失函数对重要物体损失偏差的敏感性。
上述实施例中可以根据语义类别的重要程度对预设初始语义损失函数进行优化得到目标语义增强损失函数,可以提高图像分割任务中对语义信息的敏感度,同时提高了与分割任务中语义信息不同程度的分割需求的匹配度;下面实施例将介绍利用所述目标语义增强损失函数进行全景分割的步骤。参见图6所示,本发明实施例公开了一种全景分割方法,包括:
步骤S31、按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数。
步骤S32、基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数。
步骤S33、利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数。
步骤S34、在Mask R-CNN网络中基于全卷积神经网络以及预设实例分割损失函数得到实例分割结果。
需要指出的是,现有技术可以把FCN(Fully Convolutional Networks,全卷积网络)添加到Faster R-CNN网络中以得到Mask R-CNN(实例分割网络)网络,可以利用所述Mask R-CNN网络获取实例分割结果;进一步的,还可以将所述特征金字塔网络作为所述Mask R-CNN网络中对语义信息分割的分支网络,可以理解的是,所述特征金字塔网络可以在语义分割中能够提供轻巧的网络结构、快速的分割速度、精确的分割结果。这样一来,可以利用添加语义分割分支网络的Mask R-CNN网络进行全景分割任务。
本实施例中,在基于所述全卷积神经网络得到所述实例分割结果之前,可以利用预设权重系数对预设实例分割损失函数以及目标语义分割损失函数进行处理得到目标语义增强损失函数,具体的,所述预设实例分割损失函数由三部分组成:分类损失Lclass、边界损失Lbox和掩码损失Lmask。其中Lclass和Lbox由采样的感兴趣区域(Region of Interest,RoIs)数量归一化处理,Lmask可以通过前景RoIs数量归一化处理。这样一来,实例分割子网络对应的所述实例分割损失函数Linstance的定义为:
Linstance=Lclass+Lbox+Lmask
然后可以根据所述预设权重系数对所述实例分割损失函数以及所述目标语义分割损失函数进行处理得到所述目标语义增强损失函数,相应的定义为:
L=λ1Lsemantic+λ2(Lclass+Lbox+Lmask)
进一步的,如图7所示,本申请可以利用优化后的所述目标语义增强损失函数在Mask R-CNN网络中对图像进行分割。具体的,如图8所示,在得到所述目标语义增强损失函数之后可以通过Mask R-CNN网络中的实例分割子网络获取实例分割结果。
步骤S35、基于所述目标语义增强损失函数在所述Mask R-CNN网络中利用特征金字塔网络对原始图像处理得到语义分割结果。
本实施例中,如图9所示,可以利用所述特征金字塔网络作为语义分割子网络来获取语义分割结果,可以包括:对所述特征金字塔网络中金字塔等级的特征信息进行合并以获取所述语义分割结果。具体的,所述特征金字塔网络最顶层为1/32分辨率比例,可以利用三次上采样操作得到1/4分辨率比例的特征图,其中每个上采样操作由3×3卷积、群体规范、ReLU(Rectified Linear Unit,激活函数)和2倍双线性上采样组成。然后在分辨率比例分别为1/16,1/8和1/4的FPN上重复此操作。每层的上采样结果是相同的1/4分辨率比例的特征图,之后按元素求和。再加入4倍双线性上采样和1×1卷积来获取与原始图像相同分辨率的像素分类标签。
需要指出的是,在语义分割子网络中,可以包括:在与所述目标语义增强损失函数相应的语义分割功能分支中增加预设标记类,以便作为额外像素点输出。可以理解的是,这样增加标记类可以避免强行预测像素点的填充物种类,避免出现误判的情况。
本实施例中采用的FPN配置每个尺度有256个输出通道,语义分割分支减少通道数至128。对于FPN之前的主干网络,可以使用批量标准(Batch Norm,BN)在ImageNet(一种数据集)上预训练ResNet(残差网络)模型。在微调时,可以利用固定通道仿射变换来代替BN。
其中,关于上述步骤S31、S32和S33更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
由此可见,本申请可以基于Mask R-CNN网络和特征金字塔网络构建图像的实例分割子网络和语义分割子网络,然后利用优化后的目标语义增强损失函数对图像进行全景分割可以提高图像分割任务中重要目标的分割准确度和可靠性。
下面实施例将结合实验对本申请中的技术方案进行具体说明。
本实施例中,为了对上述全景分割网络的分割效果进行系统的测算,采用了COCO数据集作为全景分割的训练和测试数据集。所述COCO数据集提供80类语义种类,基本覆盖生活中的常见物体的分类和学习;同时所述COCO数据集也包含不同分辨率、不同视角和光线下的数据。
在全景分割网络的实验中,通常使用6种评价指标:平均准确度(AveragePrecision,AP)、平均召回率(Average Recall,AR)、交并比(Intersection-over-Union,IoU)、分割质量(Segmentation quality,SQ)、识别质量(recognition qulity,RQ)、全景分割质量(Panoptic quality,PQ)。具体的,所述平均准确度可以反映语义种类的分割准确程度,相应的定义公式为:
其中TP为真阳性数值(true positives),表示预测正例样本正确的个数;FP为假阳性数值(false positives),表示预测正例样本错误的个数。
所述平均召回率可以反映语义种类的真正例召回比例,相应的定义公式为:
其中FN为假阴性数值(false negatives),表示预测反例样本错误的个数。
所述交并比是指真值与预测区域的交集与并集比值,相应的定义公式:
在检测过程中,当IoU大于预设阈值时,可以判定检测结果为正,反之可以判错。可以理解的是,IoU取值主要有三种:IoU=0.5:0.95,表示从阈值为0.5到0.95每隔0.05取值一次,共十次计算结果,取平均;IoU=0.5是PASCAL VOC(The PASCAL Visual ObjectClasses,计算机视觉挑战赛)采取的指标;IoU=0.75是固定阈值指标,相对比较严格。
所述分割质量指标用来测评语义分割网络,相应的定义公式为:
所述识别质量用来测评实例分割子网络,相应的定义公式为:
所述全景分割质量指标联合分割质量参数和识别质量参数来对整体全景分割网络框架进行评价,相应的定义公式:
需要指出的是,首先对梯度平衡的损失系数进行探究,损失系数权重公式如下:
L=λ1Lsemantic+λ2(Lclass+Lbox+Lmask)
在实验过程中,因为语义分割子网络是语义增强损失函数的主要作用点,所以在实验中可以将实例分割子网络系数λ2设置为1,通过测试不同语义分割损失函数系数λ1来进行分割预测,然后测试结果如下表1所示:
表1
其中,PQth表示物体(things)的分割质量,PQst表示填充物(stuff)的分割质量。实验结果表明,λ1过大或过小,网络平衡状态都会被打破,导致两个子网络的学习效率均降低。另外当λ1过大,填充网络传入基础网络的梯度幅值过大,会降低实例分割子网络的预测准确性。经实验验证,当λ1=0.4时,实例与语义分割网络处于最佳平衡位置,分割质量达到43.02%。
可以理解的是,找到最佳参数之后,进行优化后的语义增强损失函数和预设的交叉熵损失函数之间的语义分割子分支对比实验,其中,所述优化后的语义增强损失函数为上述实施例中提到的目标语义增强损失函数,所述交叉熵损失函数为上述实施例中提到的预设初始语义损失函数。保证两组实验中除语义分支使用的语义损失函数不同外,其他的实验配置不变,然后进行全景分割实验,得到的实验结果如表2所示。
表2
其中,mIoU表示平均交并比(mean IoU),fwIoU表示频率加权交并比(frequencyweighted IoU)。实验结果表明:语义增强损失函数相比于交叉熵损失函数,IoU指标有一定的提升,但填充物(stuff类)分割表现却得到明显的提高,全景分割质量提高0.97%,分割质量提高4.30%。因为在分割过程中,填充物代表的语义分类大多被分到了较高的优先级,所以填充物的分割质量得到较大提升。
进一步的,为更加直观地测试语义增强损失函数在全景分割过程的作用,可以根据分组进行全景分割实验,下表3给出了不同分组的分割结果。
实验结果表明,基于重要程度优化得到语义增强损失函数可以有效提高上述实施例中提到的R3和R4分组中的语义分类准确度,最大提高3.93%。同时,在R1和R2组中,语义增强损失函数的分割准确度和交叉熵损失函数基本持平。综合上述结果,语义增强损失函数可以提高优先级较高的语义分类的分割准确度,而其他非重要目标的语义分类准确性少量会有轻微程度下降,达到了预期设计函数目标。
表3
如图10所示的语义增强损失函数与交叉熵损失函数在不同的实测环境下的全景分割结果,可以明显看出,所述语义增强损失函数可以有效提高静态物体的分割效果。
如图11所示,本申请公开了一种全景分割装置,包括:
第一函数优化模块11,用于按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数;
第二函数优化模块12,用于基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数;
目标函数确定模块13,用于利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数;
图像分割模块14,用于基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。
由此可见,本申请可以根据语义的重要程度将语义种类划分为不同语义等级,并且可以对不同等级中的分类元素进行加权学习,这样可以有效抑制分类失衡的问题,并且以这样的方式对语义损失函数进行优化可以增强图像分割任务中对语义信息的敏感度,进而提高对特定物体和背景的分割精度;进一步的,本申请可以基于预设全景分割网络利用优化后的目标语义分割损失函数获取实例分割结果以及语义分割结果,可以提高特定物体的分割效果。
在一种具体的实施例中,所述第一函数优化模块11,可以包括:
语义划分单元,用于按照重要程度将所述语义种类划分为所述若干语义等级;
损失权重确定单元,用于利用预设向量记录所述若干语义等级中物体分类对应的损失权重;
第一函数确定单元,用于基于预设初始语义损失函数利用IF-IDF原理对所述若干等级中的所述物体分类对应的分类元素进行加权学习,以得到所述语义加强损失函数。
在一种具体的实施例中,所述第二函数优化模块12,可以包括:
系数确定单元,用于利用所述预设重要性矩阵确定与所述若干语义等级对应的重要性系数;
第二函数确定单元,用于利用所述重要性系数对所述语义加强损失函数进行处理以得到所述目标语义分割损失函数。
在一种具体的实施例中,所述图像分割模块14,可以包括:
第一结果获取单元,用于在所述Mask R-CNN中基于所述全卷积神经网络以及所述预设实例分割损失函数得到所述实例分割结果。
第二结果获取子模块,用于利用所述特征金字塔网络在所述Mask R-CNN中获取利用所述目标语义增强损失函数对原始图像处理后得到所述语义分割结果。
相应的,在一种具体的实施例中,所述第二结果获取子模块,可以包括:
第二结果获取单元,用于对所述特征金字塔网络中金字塔等级的特征信息进行合并以获取所述语义分割结果。
进一步的,在一种具体的实施例中,所述图像分割模块14,还可以包括:
标记类确定单元,用于在与所述目标语义增强损失函数相应的语义分割功能分支中增加预设标记类,以便作为额外像素点输出。
在一种具体的实施例中,所述图像分割模块14,还可以包括:
第一判断单元,用于判断所述实例分割结果中是否存在不同实例的重叠;
第一剔除单元,用于当所述实例分割结果中存在不同实例的重叠时,将重叠的所述不同实例中置信度小的实例从所述实例分割结果中剔除,以得到处理后实例分割结果;
第二判断单元,用于判断所述处理后实例分割结果与所述语义分割结果中是否存在分割结果重叠;
第二剔除单元,用于当存在所述分割结果重叠时,将重叠的分割结果中的语义分割结果剔除,以得到处理后语义分割结果;
第三判断单元,用于判断所述处理后实例分割结果以及所述处理后语义分割结果中是否存在预设标记类;
第三剔除单元,用于当所述处理后实例分割结果以及所述处理后语义分割结果中存在所述预设标记类,则将所述预设标记类剔除,以输出剔除后的实例分割结果以及语义分割结果;
结果输出单元,用于当所述处理后实例分割结果以及所述处理后语义分割结果中不存在所述预设标记类,则输出所述处理后实例分割结果以及所述处理后语义分割结果。
进一步的,本申请实施例还公开了一种电子设备,图12是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图12为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的全景分割方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的全景分割方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的全景分割方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种全景分割方法,其特征在于,包括:
按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数;
基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数;
利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数;
基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。
2.根据权利要求1所述的全景分割方法,其特征在于,所述按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数,包括:
按照重要程度将所述语义种类划分为所述若干语义等级,并利用预设向量记录所述若干语义等级中物体分类对应的损失权重;
基于预设初始语义损失函数利用IF-IDF原理对所述若干等级中的所述物体分类对应的分类元素进行加权学习,以得到所述语义加强损失函数。
3.根据权利要求1所述的全景分割方法,其特征在于,所述基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数,包括:
利用所述预设重要性矩阵确定与所述若干语义等级对应的重要性系数;
利用所述重要性系数对所述语义加强损失函数进行处理以得到所述目标语义分割损失函数。
4.根据权利要求1所述的全景分割方法,其特征在于,所述基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果,包括:
在Mask R-CNN网络中基于全卷积神经网络以及预设实例分割损失函数对原始图像处理得到所述实例分割结果;
基于所述目标语义增强损失函数在所述Mask R-CNN网络中利用特征金字塔网络对原始图像处理得到所述语义分割结果。
5.根据权利要求4所述的全景分割方法,其特征在于,所述基于所述目标语义增强损失函数在所述Mask R-CNN网络中利用特征金字塔网络对原始图像处理得到所述语义分割结果,包括:
对所述特征金字塔网络中金字塔等级的特征信息进行合并以获取所述语义分割结果。
6.根据权利要求1至5任一项所述的全景分割方法,其特征在于,所述基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果之前,还包括:
在与所述目标语义增强损失函数相应的语义分割功能分支中增加预设标记类,以便作为额外像素点输出。
7.根据权利要求6所述的全景分割方法,其特征在于,所述基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果之后,还包括:
判断所述实例分割结果中是否存在不同实例的重叠;
若所述实例分割结果中存在不同实例的重叠,则将重叠的所述不同实例中置信度小的实例从所述实例分割结果中剔除,以得到处理后实例分割结果;
判断所述处理后实例分割结果与所述语义分割结果中是否存在分割结果重叠;
若存在所述分割结果重叠,则将重叠的分割结果中的语义分割结果剔除,以得到处理后语义分割结果;
判断所述处理后实例分割结果以及所述处理后语义分割结果中是否存在预设标记类;
若所述处理后实例分割结果以及所述处理后语义分割结果中存在所述预设标记类,则将所述预设标记类剔除,以输出剔除后的实例分割结果以及语义分割结果;
若所述处理后实例分割结果以及所述处理后语义分割结果中不存在所述预设标记类,则输出所述处理后实例分割结果以及所述处理后语义分割结果。
8.一种全景分割装置,其特征在于,包括:
第一函数优化模块,用于按重要程度将语义种类划分为若干语义等级,并利用预设初始语义损失函数对所述若干语义等级进行加权学习以得到语义加强损失函数;
第二函数优化模块,用于基于所述语义加强损失函数利用预设重要性矩阵确定目标语义分割损失函数;
目标函数确定模块,用于利用预设权重系数对预设实例分割损失函数以及所述目标语义分割损失函数进行处理得到目标语义增强损失函数;
图像分割模块,用于基于预设全景分割网络利用所述目标语义增强损失函数对原始图像处理得到实例分割结果以及语义分割结果。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的全景分割方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的全景分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211645620.1A CN115810105A (zh) | 2022-12-19 | 2022-12-19 | 一种全景分割方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211645620.1A CN115810105A (zh) | 2022-12-19 | 2022-12-19 | 一种全景分割方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115810105A true CN115810105A (zh) | 2023-03-17 |
Family
ID=85486396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211645620.1A Pending CN115810105A (zh) | 2022-12-19 | 2022-12-19 | 一种全景分割方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115810105A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392393A (zh) * | 2023-12-13 | 2024-01-12 | 安徽蔚来智驾科技有限公司 | 点云语义分割方法、计算机设备、存储介质及智能设备 |
-
2022
- 2022-12-19 CN CN202211645620.1A patent/CN115810105A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392393A (zh) * | 2023-12-13 | 2024-01-12 | 安徽蔚来智驾科技有限公司 | 点云语义分割方法、计算机设备、存储介质及智能设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN111126472A (zh) | 一种基于ssd改进的目标检测方法 | |
CN110956255B (zh) | 难样本挖掘方法、装置、电子设备及计算机可读存储介质 | |
CN115731533B (zh) | 一种基于改进YOLOv5的车载目标检测方法 | |
CN111461212A (zh) | 一种用于点云目标检测模型的压缩方法 | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
CN113129335A (zh) | 一种基于孪生网络的视觉跟踪算法及多模板更新策略 | |
CN115810105A (zh) | 一种全景分割方法、装置、设备及存储介质 | |
CN111738319A (zh) | 一种基于大规模样本的聚类结果评价方法及装置 | |
CN116524520A (zh) | 文本的识别方法及装置、存储介质和电子设备 | |
CN116597197A (zh) | 一种自适应消除分类负梯度的长尾目标检测方法 | |
CN112949630B (zh) | 基于边框分级筛选的弱监督目标检测方法 | |
CN115170838A (zh) | 一种数据筛选方法及装置 | |
CN114445716A (zh) | 关键点检测方法、装置、计算机设备、介质及程序产品 | |
CN113139549A (zh) | 一种基于多任务学习的参数自适应全景分割方法 | |
CN110751197A (zh) | 图片分类方法、图片模型训练方法及设备 | |
CN116861261B (zh) | 自动驾驶模型的训练方法、部署方法、系统、介质和设备 | |
CN117593890B (zh) | 一种道路遗撒物体的检测方法、装置、电子设备及存储介质 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN117036790B (zh) | 一种小样本条件下的实例分割多分类方法 | |
CN116246128B (zh) | 跨数据集的检测模型的训练方法、装置及电子设备 | |
CN116486153A (zh) | 图像分类方法、装置、设备及存储介质 | |
CN115984164A (zh) | 光源边界框的标注方法、区域检测模型的训练方法及设备 | |
CN117274740A (zh) | 一种红外目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |