CN114742996A - 图像语义分割方法、装置、电子设备及存储介质 - Google Patents

图像语义分割方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114742996A
CN114742996A CN202110019145.6A CN202110019145A CN114742996A CN 114742996 A CN114742996 A CN 114742996A CN 202110019145 A CN202110019145 A CN 202110019145A CN 114742996 A CN114742996 A CN 114742996A
Authority
CN
China
Prior art keywords
image
semantic segmentation
prediction result
processed
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110019145.6A
Other languages
English (en)
Inventor
杨喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202110019145.6A priority Critical patent/CN114742996A/zh
Publication of CN114742996A publication Critical patent/CN114742996A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种图像语义分割方法、装置、电子设备及存储介质,所述方法包括:获取待处理图像;确定所述待处理图像中像素点的初始分类预测结果;基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理;根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果。该技术方案由于使用特征增强处理后的图像特征对像素点进行聚类能够使得聚类精度更高,因此最终得到的语义分割预测结果也更加准确。

Description

图像语义分割方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及一种图像语义分割方法、装置、电子设备及存储介质。
背景技术
随着技术的发展,图像语义分割在相关领域被大规模使用,而其中的上下文信息的关系提取成为了提升图像语义分割模型效果的重要途径。图像语义分割问题可以看作是不同像素点之间的聚类问题。本公开发明人发现,采用GCN(图卷积神经网络)的传统图像语义分割模型中,大多数利用GCN网络去探索像素点之间全局的上下文关系。但是,这类采用GCN传统图像语义分割模型所使用的邻接矩阵采用一种类似注意力机制的方法,通过对图像特征进行变换而得到,上述这种方式得到的邻接矩阵不具备明确的解释性,并且由于缺乏监督信息,需要模型图像语义分割模型自行学习邻接矩阵中各个像素点之间的连接关系,因此训练出的图像语义分割模型的识别效果并不理想。
发明内容
本公开实施例提供一种图像语义分割方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种图像语义分割方法,其中,包括:
获取待处理图像;
确定所述待处理图像中像素点的初始分类预测结果;
基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理;
根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果。
进一步地,基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,包括:
根据所述初始分类预测结果构建所述待处理图像的邻接矩阵;其中,所述邻接矩阵用于描述所述待处理图像中像素点之间的语义相关关系;
基于所述邻接矩阵对所述图像特征进行特征增强处理。
进一步地,根据所述初始分类预测结果构建所述待处理图像对应的邻接矩阵,包括:
通过将分类矩阵与分类矩阵的转置进行相乘的方式构建所述邻接矩阵;所述分类矩阵为所述初始分类预测结果的矩阵形式。
进一步地,所述特征增强处理包括多个阶段,基于所述邻接矩阵对所述图像特征进行特征增强处理,包括:
基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理;其中,所述输入特征为所述图像特征或者上一阶段的特征增强处理得到的输出特征;
根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果,包括:
根据最后一个阶段的特征增强处理得到的输出特征获取所述语义分割预测结果。
进一步地,确定所述待处理图像中像素点的初始分类预测结果,包括:
利用语义分割模型中的基础模型获取所述待处理图像的图像特征;
利用所述语义分割模型中的分类模型对所述待处理图像中的像素点进行分类预测,获得所述初始分类预测结果;
基于所述邻接矩阵对所述图像特征进行特征增强处理,包括:
利用所述语义分割模型中的特征增强模型,基于所述邻接矩阵对所述图像特征进行特征增强处理。
进一步地,所述方法还包括:
在所述语义分割预测结果的置信度低于预设阈值时,向用户展示所述语义分割预测结果;
接收所述用户对于所述语义分割预测结果的修正数据;
根据所述修正数据对所述语义分割预测结果进行调整。
进一步地,所述方法还包括:
根据调整后的所述语义分割预测结果以及调整前的所述语义分割预测结果对语义分割模型的模型参数进行调整;其中,所述语义分割模型为获取调整前的所述语义分割预测结果的模型。
进一步地,所述待处理图像为遥感影像,所述语义分割预测结果包括以下一种或多种数据的组合:所述遥感影像中不同地物的轮廓信息、所述遥感影像中不同地物的资源类型、所述遥感影像中的路网信息。
进一步地,所述待处理图像为目标区域的遥感影像,所述方法还包括:
根据所述语义分割预测结果确定所述目标区域中的目标地物。
进一步地,所述待处理图像为目标区域的遥感影像,所述方法还包括:
根据所述语义分割预测结果确定所述目标区域中所包括的地物的资源类型。
进一步地,所述待处理图像为目标区域的遥感影像,所述方法还包括:
根据所述语义分割预测结果确定所述目标区域中道路的位置以及种类;
根据所述道路的位置以及种类确定所述目标区域中的路网信息。
进一步地,所述待处理图像包括第一遥感影像和第二遥感影像,所述方法还包括:
根据所述第一遥感影像对应的所述语义分割预测结果与所述第二遥感影像对应的所述语义分割预测结果,确定所述第一遥感影像和第二遥感影像中地物的变化检测信息。
进一步地,所述待处理图像包括自动驾驶车辆的前方道路图像,所述方法还包括:
根据所述语义分割预测结果确定前方道路上的物体信息;
基于所述物体信息确定车辆驾驶信息;
将所述车辆驾驶信息输出至所述自动驾驶车辆。
进一步地,所述待处理图像为视频中的第一图像,所述方法还包括:
获取所述视频中的第二图像;
根据所述第一图像和所述第二图像之间的差异对所述第一图像的所述初始分类预测结果进行更新,以获取所述第二图像的初始分类预测结果;
基于所述第二图像的所述初始分类预测结果获得所述第二图像的语义分割预测结果。
进一步地,根据所述第一图像和所述第二图像之间的差异对所述第一图像的所述初始分类预测结果进行更新,以获取所述第二图像的初始分类预测结果,包括:
获取所述第一图像和所述第二图像之间的前景偏移量;
根据所述前景偏移量更新所述初始分类预测结果,以获得所述第二图像的初始分类预测结果。
进一步地,所述待处理图像为包括商品的图像,所述方法包括:
根据所述语义分割预测结果获取所述待处理图像中的商品图像;
基于所述商品图像生成所述商品的视觉描述信息。
进一步地,所述待处理图像为直播视频中的图像,所述方法包括:
根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频;
输出所述目标视频。
进一步地,根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频,包括:
根据所述语义分割预测结果确定所述待处理图像是否为包括商品的目标图像;
对所述目标图像进行预设处理。
进一步地,根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频,包括:
根据所述语义分割预测结果获取所述直播视频中包括商品的目标图像;
根据所述目标图像生成所述商品的视觉描述信息。
第二方面,本公开实施例中提供了一种语义分割模型的训练方法,其中,包括:
获取训练图像;
利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理;
根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果;
基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练。
进一步地,基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,包括:
根据所述初始分类预测结果构建所述训练图像对应的邻接矩阵,其中所述邻接矩阵用于描述所述训练图像中像素点之间的语义相关关系;
基于所述邻接矩阵对所述训练图像对应的图像特征进行特征增强处理。
进一步地,根据所述初始分类预测结果构建所述训练图像对应的邻接矩阵,包括:
通过分类矩阵与所述分类矩阵的转置进行相乘的方式构建所述邻接矩阵。
进一步地,所述语义分割模型包括基础模型、分类模型和特征增强模型,基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练,包括:
通过所述初始分类预测结果以及对应的真实分类结果之间的损失对所述分类模型以及所述基础模型的模型参数进行调整;所述分类模型用于获取所述初始分类预测结果;所述基础模型用于获取所述图像特征;
通过所述语义分割预测结果及其对应的语义分割真实结果之间的损失对特征增强模型以及所述基础模型的模型参数进行调整;所述特征值增强模型用于对所述图像特征进行特征增强处理。
进一步地,所述特征增强处理包括多个阶段;基于所述邻接矩阵对所述训练图像对应的图像特征进行特征增强处理,包括:
基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理,以获得输出特征;所述输入特征为所述图像特征或者上一阶段特征增强处理后得到的输出特征;
基于最后一个阶段特征增强处理后得到的输出特征获取所述语义分割预测结果。
第三方面,本公开实施例中提供了一种图像语义分割方法,其中,包括:
获取待处理图像;
调用预设服务接口,以便所述预设服务接口获取待处理图像,确定所述待处理图像中像素点的初始分类预测结果,并基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,以及根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果;
输出所述语义分割预测结果。
第四方面,本公开实施例中提供了一种语义分割模型的训练方法,其中,包括:
获取训练图像;
调用预设服务接口,以便所述预设服务接口利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,并根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果,以及基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练;
输出所述语义分割模型。
第五方面,本公开实施例中提供了一种图像语义分割装置,其中,包括:
第一获取模块,被配置为获取待处理图像;
第一确定模块,被配置为确定所述待处理图像中像素点的初始分类预测结果;
第一处理模块,被配置为基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理;
第二获取模块,被配置为根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果。
第六方面,本公开实施例中提供了一种语义分割模型的训练装置,其中,包括:
第五获取模块,被配置为获取训练图像;
第六获取模块,被配置为利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理;
第七获取模块,被配置为根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果;
训练模块,被配置为基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练。
第七方面,本公开实施例中提供了一种图像语义分割装置,其中,包括:
第八获取模块,被配置为获取待处理图像;
第一调用模块,被配置为调用预设服务接口,以便所述预设服务接口获取待处理图像,确定所述待处理图像中像素点的初始分类预测结果,并基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,以及根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果;
第二输出模块,被配置为输出所述语义分割预测结果。
第八方面,本公开实施例中提供了一种语义分割模型的训练装置,其中,包括:
第九获取模块,被配置为获取训练图像;
第二调用模块,被配置为调用预设服务接口,以便所述预设服务接口利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,并根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果,以及基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练;
第三输出模块,被配置为输出所述语义分割模型。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,上述装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口,用于上述装置与其他设备或通信网络通信。
第九方面,本公开实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现上述任一方面所述的方法。
第十方面,本公开实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。
第十一方面,本公开实施例提供了一种计算机程序产品,其包含计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例在对图像进行语义分割的过程中,先获得图像中像素点的初始分类预测结果,进而再根据初始分类预测结果对图像特征进行特征增强处理,之后再利用特征增强处理后的图像特征对图像进行语义分割。通过这种方式,由于使用特征增强处理后的图像特征对像素点进行聚类能够使得聚类精度更高,因此最终得到的语义分割预测结果也更加准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的图像语义分割方法的流程图;
图2示出根据本公开一实施方式的遥感影像语义分割预测结果的示意图;
图3示出根据本公开一实施方式的自动驾驶场景下语义分割预测结果的示意图;
图4(a)-(b)示出根据本公开一实施方式中图像语义分割方法在电商场景下的应用示意图;
图5示出根据本公开一实施方式的语义分割模型的训练方法的流程图;
图6示出根据本公开一实施方式的语义分割模型实现结构示意图;
图7示出根据本公开一实施方式的CGGCN模型实现结构示意图;
图8示出根据本公开一实施方式中语义分割模型另一实现结构示意图;
图9示出根据本公开另一实施方式的语义分割模型的训练方法的流程图;
图10示出根据本公开另一实施方式的图像语义分割方法的流程图;
图11是适于用来实现根据本公开一实施方式的语义分割模型的训练方法和/或图像语义分割方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
下面通过具体实施例详细介绍本公开实施例的细节。
图1示出根据本公开一实施方式的图像语义分割方法的流程图。如图1所示,该图像语义分割方法包括以下步骤:
在步骤S101中,获取待处理图像;
在步骤S102中,确定所述待处理图像中像素点的初始分类预测结果;
在步骤S103中,基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理;
在步骤S104中,根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果。
本实施例中,待处理图像可以是任意图像,例如可以是自动驾驶车辆利用车前安装的摄像头采集的道路图像、卫星拍摄的遥感影像等。语义分割可以理解为将图像中的不同内容识别出来,例如可以从道路图像中分割出道路、行人、车辆等,或者从遥感影像分割出不同地物等。
本公开实施例可以利用预先训练的语义分割模型对待处理图像进行语义分割。在语义分割过程中,可以先识别待处理图像中像素点的初始分类预测结果,以及基于该初始分类预测结果对待处理图像的图像特征进行特征增强处理,进而再根据特征增强处理后的图像特征获取待处理图像的语义分割预测结果。
语义分割可以理解为将待处理图像中的像素点根据语义相关关系进行划分,将具有强相关关系的像素点划分为一类,而将具有弱相关关系的像素点划分成不同类。本公开实施例中,并不是简单的按照像素点的初始预测分类结果对待处理图像进行语义分割,而是基于该初始分类预测结果对待处理图像的图像特征进行特征增强处理之后,再利用经过特征增强处理的图像特征进行语义分割,使得最终得到语义分割预测结果中,属于同一种类物体并且在距离上相邻的像素点被划分为一类,而属于不同种类的物体或者属于同一种类但是不相邻的像素点被划分为不同类。
需要说明的是,待处理图像的初始分类预测结果由于不是真值,直接使用该初始分类预测结果对待处理图像进行语义分割,可能会造成语义分割预测结果的较大误差。因此,本公开实施例中,利用该初始分类预测结果对待处理图像的图像特征做进一步的特征增强处理,例如进行语义增强处理,使得经过特征增强处理后的图像特征能够更加有效的体现待处理图像中各像素点之间的语义相关关系,利用该特征增强处理后的图像特征所获取的语义分割预测结果也就更加准确。
本公开实施例在对图像进行语义分割的过程中,先获得图像中像素点的初始分类预测结果,进而再根据初始分类预测结果对图像特征进行特征增强处理,之后再利用特征增强处理后的图像特征对图像进行语义分割。通过这种方式,由于使用特征增强处理后的图像特征对像素点进行聚类能够使得聚类精度更高,因此最终得到的语义分割预测结果也更加准确。
在本实施例的一个可选实现方式中,步骤S103,即基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理的步骤,进一步包括以下步骤:
根据所述初始分类预测结果构建所述待处理图像的邻接矩阵;其中,所述邻接矩阵用于描述所述待处理图像中像素点之间的语义相关关系;
基于所述邻接矩阵对所述图像特征进行特征增强处理。
该可选的实现方式中,可以通过将待处理图像看作是图结构的形式,利用初始分类预测结果构建该待处理图像的邻接矩阵,使得该邻接矩阵用于表示该待处理图像中像素点之间的语义相关关系,例如该邻接矩阵中的第i行第j列的元素表示待处理图像中第i个像素点与第j个像素点之间的语义相关关系。
语义相关关系可以由待处理图像中像素点的初始分类预测结果得到,例如两像素点之间的类别相同的情况下,该两像素点之间的语义相关关系较强,而该两像素点之间的类别不同的情况下,该两像素点之间的语义相关关系较弱。因此,用于描述待处理图像中像素点间语义相关关系的邻接矩阵,可以通过对待处理图像的像素点的初始分类预测结果构建。
在构建在语义分割时,可以将根据像素点间的语义相关关系的强弱将像素点进行聚类,例如可以将具有强相关关系的像素点聚为一类,而将具有弱相关关系的像素点聚为不同类等,获得的语义分割预测结果中可以包括待处理图像中按照不同语义进了划分的物体轮廓及类别等,例如可以将分割成的不同物体按照不同的颜色进行标识的方式得到语义分割预测结果。
在特征增强处理中,可以利用图聚类的方式,基于邻接矩阵对待处理图像的图像特征进行特征增强,该过程可以理解为对图像特征在语义相关性方面的特征增强。
图聚类的方式中,通过将待处理图像看成包括若干个节点和两两节点之间的边的图结构G=(V,E),其中V表示图结构中的节点集合,E表示图结构中的边集合。其中,可以将待处理图像点中的像素点作为图结构中的节点,而两像素点之间的语义相关关系可以作为图结构中两节点之间的边,在两像素点之间具有语义相关关系或者是强语义相关关系的情况下,在图结构中该两像素点之间具有边,而在该两像素点之间不具有语义相关关系或者语义相关关系较弱的情况下,在图结构中该两像素点之间不具有边。
图结构可以采用邻接矩阵的形式表示,该邻接矩阵中的每个元素对应的两个维度分别表示图结构中的两个节点,而元素值表示该两个节点之间的边。在本公开实施例中,待处理图像对应的邻接矩阵中,每个元素对应的两维度分别表示待处理图像中的两像素点,而元素值表示该两像素点之间的语义相关关系。本公开实施例中,待处理图像可以看作是无向图结构,因此该邻接矩阵可以是一对称矩阵。
在语义分割应用场景中,两像素点之间的语义相关关系可以表示两像素点之间类别的相近程度。也即该语义相关关系可以基于两像素点之间的类别确定,而该类别可以基于前文中所述的初始分类预测结果确定。两像素点之间的类别越相近,两像素点之间的语义相关关系越高;而两像素点之间的类别差距越大,则两像素点之间的语义相关关系越弱。在一些实施例中,两个像素点的初始分类预测结果以向量的形式表示,该两个向量可以直接点乘,得到(0,1)之间的浮点数,该浮点数用于表示该两个像素点的相关关系,也可以称之为相关程度,该浮点数越接近于1,则该两个像素点之间的相关程度越大,也即该两个像素点的语义相关关系越高。
在一些实施例中,可以基于谱聚类(spectral clustering)方式对待处理图像的图像特征进行特征增强。谱聚类是一种针对图结构的聚类方法,其将每个像素点看作是一个图结构上的点,而判断两个像素点是否可以被聚为一类(也即是否被分割至同一物体)的依据是,该两像素点在图结构上是否有边相连,可以是直接相连也可以是间接相连。因此,基于图的谱聚类方式,根据本公开实施例提出的方式获得的语义相关关系对待处理图像的图像特征进行特征增强,进而根据该特征增强后的图像特征获得语义分割预测结果。
已有技术中,利用图的谱聚类方式对待处理图像进行语义分割时,语义分割利用自注意力机制(self attention)的形式构建邻接矩阵A,A可以如下表示:
A=f(δ(X)ψ(X)T)
其中,δ,ψ,f可以表示为卷积变换,X为待处理图像。通过这种方式得到的邻接矩阵A并不具备很明确的解释性,也即邻接矩阵中每个元素的值并不具有很明确的物理意义,并且缺乏监督信息,需要模型在训练过程中自行学习邻接矩阵中各个像素点之间的连接关系。
因此,本公开实施例使用待处理图像中像素点之间的初始分类预测结果构建待处理图像对应的邻接矩阵,而该邻接矩阵用于描述待处理图像中像素点之间的语义相关关系。因此,本公开实施例中的邻接矩阵具有明确的解释性,也即邻接矩阵中所表示的语义相关关系越强,则表示两像素点之间的类别越相近。此外,在训练过程中,还可以利用初始分类预测结果对应的真实分类结果作为监督信息,使得邻接矩阵的学习有了强监督,使得语义分割模型能够准确地识别待处理图像中像素点的初始分类预测结果,进而能够根据该初始分类预测结果获得更加精确的邻接矩阵。
在一些实施例中,可以采用GCN(图卷积网络)模型实现对待处理的特征增强,GCN模型可以基于谱聚类的方式对待处理图像进行语义分割,获得语义分割特征,该语义分割特征可以用于获得待处理图像对应的语义分割预测结果。
GCN网络模型可以表示为:Y=σ(AXΘ)。其中,Y是语义分割特征,X是待处理图像对应的图像特征(维度为H×W×C),A是邻接矩阵(维度为H W×HW),Θ是GCN网络模型的权重矩阵(维度为C×C)。
本公开实施例利用预测的像素级别的分类预测信息构建邻接矩阵,以便由邻接矩阵描述图像中像素间的上下文语义相关关系,并通过该邻接矩阵实现像素间上下文语义信息的融合,得到语义增强的图像特征,进而根据该语义增强的图像特征预测图像的语义分割预测结果,能够提高模型的识别效果。
在本公开实施例一实现方式中,根据所述初始分类预测结果构建所述待处理图像对应的邻接矩阵的步骤,进一步可以包括以下步骤:
通过将分类矩阵与分类矩阵的转置进行相乘的方式构建所述邻接矩阵;所述分类矩阵为所述初始分类预测结果的矩阵形式。
该可选的实现方式中,可以将邻接矩阵表示为分类矩阵与所述分类矩阵的转置进行相乘的形式,该分类矩阵为初始分类预测结果的矩阵形式。分类矩阵中的每个元素表示待处理图像中像素点的类别。例如,该待处理图像中总共包括8个类别物体的情况下,每个像素点的类别可以为8个类别中的其中一种。
邻接矩阵可以如下表示:
A=f(PT,P)
其中,A表示邻接矩阵,P表示初始分类预测结果,f表示矩阵的点积操作。
在一些实施例中,可以利用GCN网络对待处理图像进行语义分割,进而获得语义分割预测结果。已有技术中,GCN网络中的邻接矩阵通过对输入也即待处理图像对应的图像特征X进行多次卷积变换得到,也即可以表示为:A=f(δ(X)ψ(X)T),而通过这种方式获得的邻接矩阵的维度为HW×HW,将其与维度为H×W×C的图像特征以及维度为C×C的权重矩阵Θ相乘,则其计算复杂度为O(n2),而本公开实施例中由于邻接矩阵可以表示为分类矩阵与分类矩阵的转置相乘的形式,而分类矩阵和分类矩阵的转置的维度均H×W,因此将分类矩阵与分类矩阵的转置先后与图像特征X、权重矩阵Θ相乘的方式获得语义分割特征的过程中,其计算复杂度可以降至O(n)。因此,本公开实施例中,通过将邻接矩阵表示为分类矩阵和分类矩阵的转置相乘的形式,可以降低网络模型的计算复杂度,提高模型的识别效率。
通过本公开实施例这种方式,由于邻接矩阵可以表示为分类矩阵和分类矩阵的转置相乘的形式,而分类矩阵的维度小于邻接矩阵的维度,在基于邻接矩阵对待处理图像进行语义分割的过程中,涉及与邻接矩阵进行相乘的运算均可以拆分成与分类矩阵和分类矩阵的转置进行相乘的运算,可以降低运算复杂度,提高语义分割效率。
在本公开实施例一实现方式中,所述特征增强处理包括多个阶段,基于所述邻接矩阵对所述图像特征进行特征增强处理的步骤,进一步可以包括以下步骤:
基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理;其中,所述输入特征为所述图像特征或者上一阶段的特征增强处理得到的输出特征;
步骤S104,即根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果的步骤,进一步包括以下步骤:
根据最后一个阶段的特征增强处理得到的输出特征获取所述语义分割预测结果。
该可选的实现方式中,在利用待处理图像中像素点的初始分类预测结果获得邻接矩阵之后,采用邻接矩阵对待处理图像对应的图像特征进行增强处理的过程中,可以使用多个级联的特征增强阶段实现对图像特征的特征增强。
多个特征增强阶段中,第一阶段的输入可以包括待处理图像的图像特征以及邻接矩阵,而从第二个阶段开始,每个阶段的输入包括上一阶段的输出特征以及邻接矩阵,最后一个阶段的输出为最终的增强特征,也即用于获取语义分割预测结果的特征。
本公开实施例中通过多个级联的特征增强阶段,利用邻接矩阵对待处理图像进行特征增强处理,实现了对待处理图像的语义分割预测结果由粗到细的微调,提高了语义分割预测结果的准确率。
在本公开实施例一实现方式中,步骤S102,即确定所述待处理图像中像素点的初始分类预测结果的步骤,进一步可以包括以下步骤:
利用语义分割模型中的基础模型获取所述待处理图像的图像特征;
利用所述语义分割模型中的分类模型对所述待处理图像中的像素点进行分类预测,获得所述初始分类预测结果;
步骤S103,即基于所述邻接矩阵对所述图像特征进行特征增强处理的步骤,进一步可以包括以下步骤:
利用所述语义分割模型中的特征增强模型,基于所述邻接矩阵对所述图像特征进行特征增强处理。
该可选的实现方式中,本公开实施例中语义分割模型可以包括基础模型和分类模型;所述语义分割模型还包括特征增强模型。基础模型用于从待处理图像中提取图像特征,分类模型用于根据图像特征预测待处理图像中每个像素点的类别,以获得待处理图像对应的初始分类预测结果;而特征增强模型用于利用初始分类预测结果对图像特征进行特征增强处理,获得特征增强的图像特征,该特征增强的图像特征可以用于获取待处理图像的语义分割预测结果。
图像特征可以是利用基础模型从待处理图像所提取的特征,例如该图像特征可以是神经网络特征。在一些实施例中,可以使用已有的基础模型提取待处理图像中的图像特征,基础模型可以使用神经网络模型,如HRNet-W48、ResNet101、ResNet 50、VGG16等。待处理图像输入至基础模型后,基础模型可以通过对待处理图像进行处理获得对应的图像特征。
图像特征可以理解为特征图,且该特征图中的每个特征点对应于待处理图像中的每个像素点,因此分类模型对图像特征进行处理而获得的图像特征中每个特征点的分类预测结果相当于待处理图像中每个像素点的分类预测结果。
分类模型可以利用较为简单的模型,以便预测图像特征中特征点的粗分类结果,例如可以利用FCN(Fully Convolutional Networks,全卷积神经网络)模型预测图像特征中特征点的类别,FCN模型针对输入的图像特征可以输出像素级别的分类预测结果。利用分类模型获得的分类预测结果后,将该分类预测结果作为辅助输入信息,由特征增强模型对图像特征以及该分类预测结果进行处理之后,可以获得语义增强特征,该语义增强特征中包含了像素间上下文语义相关关系,因此通过该增强特征可以获得待处理图像的语义分割预测结果。
在本实施例的一个可选实现方式中,所述方法进一步还包括以下步骤:
在所述语义分割预测结果的置信度低于预设阈值时,向用户展示所述语义分割预测结果;
接收所述用户对于所述语义分割预测结果的修正数据;
根据所述修正数据对所述语义分割预测结果进行调整。
该可选的实现方式中,语义分割预测结果中可以包括但不限于待处理图像中每个像素点的类别信息,该类别信息包括该像素点属于每个类别的类别置信度,可以将类别置信度最大对应的类别确定为该像素点的目标类别。
语义分割预测结果的置信度可以根据待处理图像中每个像素点的目标类别对应的类别置信度确定,语义分割预测结果的置信度低于预设阈值可以理解为每个像素点的目标类别对应的类别置信度的平均值低于预设阈值,或者待处理图像中目标类别对应的类别置信度较低的像素点个数大于预定数量时认为该待处理图像的置信度低于预设阈值,或者其他认为待处理图像的语义分割预测结果不够准确的判断方式。
在一些实施例中,可以通过在待处理图像上使用不同颜色渲染出语义分割预测结果后展示给用户,例如属于不同物体的像素点使用不同颜色进行渲染。在另一些实施例中,可以通过在待处理图像上使用线条勾画语义分割预测结果后展示给用户,例如可以通过线条勾画出不同物体的轮廓。
用户可以针对所展示的语义分割结果提供修正数据,该修正数据可以是通过展示界面上提供的图像编辑接口直接对语义分割预测结果进行调整而获得的,例如可以通过拖拽、拉伸、缩放等方式调整物体轮廓线条而提供修正数据。
通过这种方式,可以针对语义分割不准确的情况,将语义分割预测结果提供给用户进行手动调整,以便最终能够得到较为准确的语义分割结果。
在本实施例的一个可选实现方式中,所述方法还进一步包括以下步骤:
根据调整后的所述语义分割预测结果以及调整前的所述语义分割预测结果对语义分割模型的模型参数进行调整;其中,所述语义分割模型为获取调整前的所述语义分割预测结果的模型。
该可选的实现方式中,在对待处理图像进行语义分割过程中,由用户经过调整后的语义分割预测结果还可以用于对语义分割模型进行进一步训练,使得该语义分割模型能够针对类似的情况给出更加正确的语义分割结果。
在进一步训练过程中,可以将经过用户调整后的语义分割预测结果作为真实结果,而将语义分割模型得到的调整前的语义分割预测结果作为预测结果,通过拟合真实结果与预测结果之间的损失,进而根据该损失反向调整语义分割模型中的模型参数。
在本实施例的一个可选实现方式中,所述待处理图像为遥感影像,所述语义分割预测结果包括以下一种或多种数据的组合:所述遥感影像中不同地物的轮廓信息、所述遥感影像中不同地物的资源类型、所述遥感影像中的路网信息。
本公开实施例中的图像语义分割方法可以应用在多种场景下,例如遥感影像解析场景、自动驾驶场景等。在遥感影像解析场景下,可以将遥感影像作为待处理图像输入至本公开实施例提出的语义分割模型中,由语义分割模型对该遥感影像进行语义分割,获得对应的语义分割预测结果。该语义分割预测结果可以包括但不限于以下一种或多种数据的组合:遥感影像中不同地物的轮廓信息、遥感影像中不同地物的资源类型、遥感影像中的路网信息。
遥感影像可以采用卫星或者飞机拍摄得到,遥感影像中包括地面上的各种地物信息。本公开实施例提出的语义分割模型可以针对遥感影像中的不同地物进行语义分割,使得能够从语义分割预测结果看出地物在地面上的分布情况,也即可以从语义分割预测结果看出各种地物的轮廓信息。在另一些实施例中还可以通过不同的颜色标识出不同地物的资源类型,比如马路、山脉、建筑物、田地等。在其他实施例中,还可以通过城市的遥感影像获得城市的路网信息,利用本公开实施例的语义分割模型可以将城市的遥感影像进行语义分割,通过语义分割预测结果可以得到城市中的路网信息。
在本实施例的一个可选实现方式中,所述待处理图像为目标区域的遥感影像,所述方法还进一步包括以下步骤:
根据所述语义分割预测结果确定所述目标区域中的目标地物。
该可选的实现方式中,可以利用本公开实施例提出的图像语义分割模型对目标区域的遥感影像进行语义分割,进而再根据语义分割结果确定该目标区域中的目标地物。
例如,在确定城市的绿化情况时,可以从城市上空获取该城市的遥感影像,并将该遥感影像输入至本公开实施例提出的语义分割模型中,由该语义分割模型中的基础模型获取该遥感影像的图像特征,进而再利用分类模型对该图像特征进行处理,获取遥感影像中像素点的初始分类预测结果;利用该初始分类预测结果构建遥感影像对应的邻接矩阵,并利用该邻接矩阵以及特征增强模型对该图像特征进行特征增强处理,得到的特征增强后的图像特征可以用于获取遥感影像的语义分割结果。该语义分割结果中可以包括属于树木等绿色植物类别的像素的划分结果,根据该划分结果即可确定该城市的绿化情况。
在本实施例的一个可选实现方式中,所述待处理图像为目标区域的遥感影像,所述方法还进一步包括以下步骤:
根据所述语义分割预测结果确定所述目标区域中所包括的地物的资源类型。
该可选的实现方式中,可以利用本公开实施例提出的图像语义分割模型对目标区域的遥感影像进行语义分割,进而再根据语义分割结果确定该目标区域中的资源类型。
例如,针对某个面积较大、资源类型较复杂的待开发区域,可以先确定待开发区域中的资源类型,进而再决定是否适于启动当前的土地开发项目。首先,可以获取该待开发区域的遥感影像,并将该遥感影像输入至本公开实施例提出的语义分割模型中,由该语义分割模型中的基础模型获取该遥感影像的图像特征,进而再利用分类模型对该图像特征进行处理,获取遥感影像中像素点的初始分类预测结果;利用该初始分类预测结果构建遥感影像对应的邻接矩阵,并利用该邻接矩阵以及特征增强模型对该图像特征进行特征增强处理,得到的特征增强后的图像特征可以用于获取遥感影像的语义分割结果。该语义分割结果中可以包括各种资源的划分结果以及类别标注,根据该划分结果以及类别标注即可容易地盘点待开发判定该待开发区域是否适于当前的土地开发项目。
在本实施例的一个可选实现方式中,所述待处理图像为目标区域的遥感影像,所述方法还进一步包括以下步骤:
根据所述语义分割预测结果确定所述目标区域中道路的位置以及种类;
根据所述道路的位置以及种类确定所述目标区域中的路网信息。
该可选的实现方式中,还可以针对某个城市等区域,通过语义分割预测结果提前该区域的路网信息。
例如,为了获取某个城市的路网信息,可以从该城市上空拍摄得到该城市的遥感影像,并将该遥感影像输入至本公开实施例提出的语义分割模型中,由该语义分割模型中的基础模型获取该遥感影像的图像特征,进而再利用分类模型对该图像特征进行处理,获取遥感影像中像素点的初始分类预测结果;利用该初始分类预测结果构建遥感影像对应的邻接矩阵,并利用该邻接矩阵以及特征增强模型对该图像特征进行特征增强处理,得到的特征增强后的图像特征可以用于获取遥感影像的语义分割结果。该语义分割结果中可以包括城市中不同道路的划分结果,例如位置以及道路的种类,如主干道、高速、省道、主路、辅路等,根据上述划分结果即可提取出该城市的路网信息。
图2示出根据本公开一实施方式的遥感影像语义分割预测结果的示意图。从图2可以看出,针对遥感影像获得的语义分割预测结果中,可以明显看出道路、建筑物、草坪等被分割开了,并能够从整体看出对应区域内的主干道的分布情况。
在本实施例的一个可选实现方式中,所述待处理图像包括第一遥感影像和第二遥感影像,所述方法还进一步包括以下步骤:
根据所述第一遥感影像对应的所述语义分割预测结果与所述第二遥感影像对应的所述语义分割预测结果,确定所述第一遥感影像和第二遥感影像中地物的变化检测信息。
该可选的实现方式中,还可以通过同一拍摄角度,分不同时期获取同一区域的遥感影像,也即第一遥感影像和第二遥感影像可以为针对同一区域在不同时期获得的遥感影像。当前,在另一些实施例中,第一遥感影像和第二遥感影像也可以是针对地貌相似的不同区域在相同或不同时期获得的遥感影像。
通过将第一遥感影像和第二遥感影像分别输入至本公开实施例提出的语义分割模型,进而获得第一遥感影像和第二遥感影像对应的语义分割预测结果。通过比对第一遥感影像和第二遥感影像对应的语义分割语法结果即可确定第一遥感影像和第二遥感影像之间的变化检测信息。该变化检测信息可以包括但不限于第一遥感影像和第二遥感影像之间的地物区别,例如第一遥感影像相较于第二遥感影像多了一个建筑物或者多了一条道路等。
在本实施例的一个可选实现方式中,所述待处理图像包括自动驾驶车辆采集的前方道路图像,所述方法还进一步包括以下步骤:
根据所述语义分割预测结果确定前方道路上的物体信息;
基于所述物体信息确定车辆驾驶信息;
将所述车辆驾驶信息输出至所述自动驾驶车辆。
该可选的实现方式中,在自动驾驶场景下,可以利用本公开实施例提出的语义分割模型对自动驾驶车辆前方的道路图像进行语义分割。自动驾驶车辆前方可以安装摄像头,利用该摄像头实时采集道路前方图像,并且将该道路前方道路图像回传至云端,云端可以预先部署利用本公开实施例提出的模型训练方法训练过的语义分割模型。云端接收到该前方道路图像之后,利用预先部署的语义分割模型获取对应的语义分割预测结果,该语义分割预测结果例如可以包括前方车辆、道路上的行人、侧方车辆/行人、道路、建筑物、树木、以及其他路障等。在获得了语义分割预测结果之后,可以根据语义分割预测结果中出现或未出现路障的情况生成车辆驾驶信息,该车辆驾驶信息可以包括但不限于转动方向、刹车、速度调整等等。该车辆驾驶信息可以由云端返回给自动驾驶车辆上设置的车辆控制模块,由车辆控制模块控制自动驾驶车辆的行驶情况。
图3示出根据本公开一实施方式的自动驾驶场景下语义分割预测结果的示意图。如图3所示,对左边图示中的前方道路图像进行语义分割之后,可以获得右边图示中的语义分割预测结果。该语义分割预测结果中车辆左前方的大货车、正前方的小汽车以及右边道路均被分割出来。
在本实施例的一个可选实现方式中,所述待处理图像为视频中的第一图像,所述方法还进一步包括以下步骤:
获取所述视频中的第二图像;
根据所述第一图像和所述第二图像之间的差异对所述第一图像的所述初始分类预测结果进行更新,以获取所述第二图像的初始分类预测结果;
基于所述第二图像的所述初始分类预测结果获得所述第二图像的语义分割预测结果。
该可选的实现方式中,第一图像可以是视频中的任意一帧,而第二图像可以是第一图像的相邻帧,或者与第一图像在时间维度上的距离不超过预设阈值的间隔帧。
针对视频中的图像进行语义分割时,可以利用本公开实施例提出的图像语义分割方法获得视频中第一图像的语义分割预测结果之后,考虑到第一图像与其相邻的一帧或多帧也即第二图像大概率较为相似,因此第二图像的语义分割预测结果与第一图像的语义分割预测结果相差不会太大,因此可以通过第一图像和第二图像之间差异对该第一图像的初始分类预测结果进行更新,进而获得第二图像的初始分类预测结果,并基于更新后的初始分类预测结果获得第二图像的语义分割预测结果。通过这种方式,能够节省语义分割的计算过程,提高语义分割的效率。
在本实施例的一个可选实现方式中,所述待处理图像为视频中的第一图像,所述方法还进一步包括以下步骤:
获取所述第一图像和所述第二图像之间的前景偏移量;
根据所述前景偏移量更新所述初始分类预测结果,以获得所述第二图像的初始分类预测结果。
该可选的实现方式中,可以通过光流等方式确定第一图像和第二图像之间的前景偏移量,该前景偏移量可以包括但不限于第二图像相对于第一图像前景区域中像素点的位置偏移。根据该前景偏移量可以更新该第一图像的初始分类预测结果,进而将该更新后的初始分类预测结果确定为第二图像的初始分类预测结果。需要说明的是,本公开实施例提出的上述图像语义分割方法不限于遥感影像、自动驾驶等应用场景,还可以应用于其他场景。例如,可以应用于电商场景或电商直播场景中。
在本实施例的一个可选实现方式中,所述待处理图像为包括商品的图像,所述方法还进一步包括以下步骤:
根据所述语义分割预测结果获取所述待处理图像中的商品图像;
基于所述商品图像生成所述商品的视觉描述信息。
该可选的实现方式中,本公开实施例提出的图像语义分割模型应用在电商场景下时,可以利用本公开实施提出的图像语义分割方法对包含商品的图像进行语义分割,并根据语义分割预测结果获取商品图像,该商品图像为待处理图像中仅包括商品的部分图像,该商品图像可以进一步用于制作该商品的视觉描述信息。该视觉描述信息可以包括但不限于商品的宣传视频、宣传图像以及商品的虚拟动画等。视觉描述信息例如可以通过将商品图像嵌入一段直播视频中的方式生成,还可以通过将商品图像嵌入至海报中形成商品的宣传海报,还可以将商品图像嵌入至计算机制作的虚拟场景中,形成该商品的宣传短片等,具体可以根据实际需要生成视觉描述信息,在此不做限制。
在本实施例的一个可选实现方式中,所述待处理图像为直播视频中的图像,所述方法还进一步包括以下步骤:
根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频;
输出所述目标视频。
该可选的实现方式中,本公开实施例提出的图像语义分割方法应用在电商直播场景中时,还可以利用本公开实施例提出的上述图像语义分割方法对直播视频中的每帧图像或者部分图像进行语义分割,并根据语义分割预测结果对该直播视频进行处理,以便获取对应于该直播视频的目标视频,该目标视频可以输出给观看直播的用户。对直播视频处理例如可以是通过对直播视频中包括商品的图像进行处理,以便能够在用户观看直播视频时,能够加深用户对商品的印象,或者能够起到有效宣传商品的作用。对直播视频处理还可以是通过从直播视频中抽取包含商品的目标图像,进而利用目标图像生成商品的视觉描述信息等过程。具体可以根据实际需要进行处理,在此不做限制。
在本实施例的一个可选实现方式中,根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频,进一步包括以下步骤:
根据所述语义分割预测结果确定所述待处理图像是否为包括商品的目标图像;
对所述目标图像进行预设处理。
该可选的实现方式中,可以根据语义分割预测结果确定直播视频中的当前图像中是否包括商品,如果包括商品,则该图像可以作为目标图像进行预设处理。预设处理例如可以是对目标图像进行编辑加工,针对目标图像中的商品图像进行渲染等编辑操作之后,使得目标图像中的商品图像具有更好的可视效果,能够进一步加深用户对商品的印象,以及提升用户对商品的兴趣等。具体的预设处理可以根据实际的需求而定,在此不做限制。
在本实施例的一个可选实现方式中,根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频,进一步包括以下步骤:
根据所述语义分割预测结果获取所述直播视频中包括商品的目标图像;
根据所述目标图像生成所述商品的视觉描述信息。
该可选的实现方式中,可以对直播视频中的每一帧或者部分帧图像进行语义分割处理,并且根据语义分割预测结果确定包括商品的目标图像,并将目标图像抽取出来,进而根据目标图像生成审批股的宣传短片等目标视频,目标视频可以在广告平台或者商品页面上进行推广。
图4(a)-(b)示出根据本公开一实施方式中图像语义分割方法在电商场景下的应用示意图。实现本公开实施例提出的图像语义分割方法的图像语义分割模型可以部署在云端。
如图4(a)所示,电商平台可以在服务器上提供该语义分割模型的调用接口,商户通过电商平台的客户端提供的用户界面,将需要进行语义分割的图像通过该调用接口上传至云端,由云端利用该语义分割模型对图像进行语义分割,进而再将语义分割预测结果返回给电商平台的服务器,电商平台的服务器根据语义分割预测结果将商品图像提供给商户,商户可以根据该商品图像制作商品的视觉描述信息,电商平台的服务器也可以提供各种视觉描述信息的生成接口,商户可以通过客户端调用这些生成接口,以便制作对应的视觉描述信息,商户进一步还可以将制作的视觉描述信息发布在电商平台,以便用户在查看该商品时能够观看到该视觉描述信息。
如图4(b)所示,直播平台也可以在服务器上提供该语义分割模型的调用接口,直播相关人员可以通过直播平台的客户端提供的用户界面,将直播视频中的每一帧或者部分帧图像通过该调用接口上传至云端,由云端利用该语义分割模型对图像进行语义分割,进而再将语义分割预测结果返回给直播平台的服务器,直播平台的服务器可以根据语义分割预测结果对直播视频进行处理,直播相关人员可以根据自身的需要预先设置对直播视频的处理方式,服务器根据直播相关人员的设置对直播视频进行处理,例如可以在接收到直播视频的一帧图像之后,对图像中的商品进行加工处理,并向直播观众输出加工处理后的直播视频图像;再例如,服务器还可以在直播结束之后,从直播视频中抽取包括商品的目标图像,进而利用这些目标图像形成商品的宣传短视频,并将该宣传短视频提供给直播相关人员,以便直播相关人员将该短视频作为商品的宣传片推广给用户。
图5示出根据本公开一实施方式的图像语义分割模型的训练方法的流程图。如图5所示,该图像语义分割模型的训练方法包括以下步骤:
在步骤S501中,获取训练图像;
在步骤S502中,利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理;
在步骤S503中,根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果;
在步骤S504中,基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练。
本实施例中,训练图像可以是任意图像。语义分割模型用于对图像进行语义分割,语义分割可以理解为将图像中的不同内容识别出来,例如可以从道路图像中分割出道路、行人、车辆等,或者从遥感影像分割出不同地物等。
语义分割模型可以对训练图像中的像素点进行分类预测,以及根据初始分类预测结果对训练图像进行语义分割。语义分割可以理解为将训练图像中的像素点根据语义相关关系进行划分,将具有强相关关系的像素点划分为一类,而将具有弱相关关系的像素点划分成不同类。本公开实施例中,并不是简单的按照像素点的类别将训练图像进行分割,而是基于该初始分类预测结果对训练图像的图像特征进行特征增强处理之后,再利用经过特征增强处理的图像特征进行语义分割,使得最终得到语义分割预测结果中,属于同一种类物体并且在距离上相邻的像素点被划分为一类,而属于不同种类的物体或者属于同一种类但是不相邻的像素点被划分为不同类。
需要说明的是,训练图像的初始分类预测结果由于不是真值,直接使用该初始分类预测结果对训练图像进行语义分割,可能会造成语义分割预测结果的较大误差。因此,本公开实施例中,利用该初始分类预测结果对训练图像的图像特征做进一步的特征增强处理,例如进行语义增强处理,使得经过特征增强处理后的图像特征能够更加有效的体现训练图像中各像素点之间的语义相关关系,利用该特征增强处理后的图像特征所获取的语义分割预测结果也就更加准确。语义分割模型可以利用神经网络或其他能够预测训练图像中每个像素点的类别的模型对训练图像进行处理,以获得该训练图像中每个像素点的初始分类预测结果。在得到训练图像中每个像素点的初始分类预测结果之后,语义分割模型还可以利用该初始分类预测结果对训练图像的图像特征进行特征增强处理,进而再利用特征增强后的图像特征获取训练图像对应的语义分割预测结果。
在训练过程中,本公开实施例利用初始分类预测结果以及语义分割预测结果对语义分割模型进行训练。在一些实施例中,可以利用初始分类预测结果通过反向传播方法,对分类预测相关的部分模型参数进行调整;并利用语义分割预测结果对语义分割模型中的全部模型参数进行调整。利用初始分类预测结果对分类预测相关的部分模型参数的调整过程,以及利用语义分割预测结果对语义分割模型中全部模型参数的调整过程可以是并行的两个分支。
本公开实施例在模型训练过程中,除了利用语义分割预测结果学习训练图像中各像素之间的语义相关关系之外,还通过初始分类预测结果学习训练图像中像素级别的类别关系,既利用语义分割预测结果从整体上对语义分割模型进行了监督学习,也利用初始分类预测结果对分类预测部分进行了监督学习。通过这种方式,可以使得语义分割模型能够快速而准确的学习到训练图像中像素级别的语义关系,进而能够提高语义分割模型的识别准确率。
在本实施例的一个可选实现方式中,步骤S502中基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理的步骤,进一步包括以下步骤:
根据所述初始分类预测结果构建所述训练图像对应的邻接矩阵,其中所述邻接矩阵用于描述所述训练图像中像素点之间的语义相关关系;
基于所述邻接矩阵对所述训练图像对应的图像特征进行特征增强处理。
该可选的实现方式中,本公开实施例还可以通过训练图像中像素间的语义相关关系对训练图像的图像特征进行特征增强处理,该特征增强后的图像特征可以用于获取训练图像的语义分割预测结果。特征增强处理过程中,首先利用训练图像中像素点的初始分类预测结果构建训练图像的邻接矩阵,该邻接矩阵中的每个元素用于表示训练图像中两两像素点之间的语义相关关系;基于该语义相关关系对训练图像的图像特征进行特征增强,使得特征增强后的图像特征能够更加有效的体现待处理图像中各像素点之间的语义相关关系,利用该特征增强处理后的图像特征所获取的语义分割预测结果也就更加准确。
特征增强处理过程中,可以利用图聚类的方式对训练图像的图像特征进行特征增强处理,特征增强后的图像特征可以理解为对图像特征在语义相关性方面的增强特征。
图聚类的方式中,通过将训练图像看成包括若干个节点和两两节点之间的边的图结构G=(V,E),其中V表示图结构中的节点集合,E表示图结构中的边集合。其中,可以将训练图像点中的像素点作为图结构中的节点,而两像素点之间的语义相关关系可以作为图结构中两节点之间的边,在两像素点之间具有语义相关关系或者是强语义相关关系的情况下,在图结构中该两像素点之间具有边,而在该两像素点之间不具有语义相关关系或者语义相关关系较弱的情况下,在图结构中该两像素点之间不具有边。
图结构可以采用邻接矩阵的形式表示,该邻接矩阵中的每个元素对应的两个维度分别表示图结构中的两个节点,而元素值表示该两个节点之间的边。在本公开实施例中,训练图像对应的邻接矩阵中,每个元素对应的两维度分别表示训练图像中的两像素点,而元素值表示该两像素点之间的语义相关关系。本公开实施例中,训练图像可以看作是无向图结构,因此该邻接矩阵可以是一对称矩阵。
在语义分割应用场景中,两像素点之间的语义相关关系可以表示两像素点之间类别的相近程度。也即该语义相关关系可以基于两像素点之间的类别确定,而该类别可以基于前文中所述的初始分类预测结果确定。两像素点之间的类别越相近,两像素点之间的语义相关关系越高;而两像素点之间的类别差距越大,则两像素点之间的语义相关关系越弱。在一些实施例中,两个像素点的初始分类预测结果以向量的形式表示,该两个向量可以直接点乘,得到(0,1)之间的浮点数,该浮点数用于表示该两个像素点的相关关系,也可以称之为相关程度,该浮点数越接近于1,则该两个像素点之间的相关程度越大,也即该两个像素点的语义相关关系越高。
在一些实施例中,可以基于谱聚类(spectral clustering)方式对训练图像的图像特征进行特征增强处理。谱聚类是一种针对图结构的聚类方法,其将每个像素点看作是一个图结构上的点,而判断两个像素点是否可以被聚为一类(也即是否被分割至同一物体)的依据是,该两像素点在图结构上是否有边相连,可以是直接相连也可以是间接相连。因此,基于图的谱聚类方式,可以根据本公开实施例提出的方式对训练图像的图像特征进行特征增强处理,进而根据特征增强后的图像特征获得语义分割预测结果。
已有技术中,利用图的谱聚类方式对训练图像进行语义分割时,语义分割利用自注意力机制(self attention)的形式构建邻接矩阵A,A可以如下表示:
A=f(δ(X)ψ(X)T)
其中,δ,ψ,f可以表示为卷积变换,X为训练图像。通过这种方式得到的邻接矩阵A并不具备很明确的解释性,也即邻接矩阵中每个元素的值并不具有很明确的物理意义,并且缺乏监督信息,需要模型在训练过程中自行学习邻接矩阵中各个像素点之间的连接关系。
因此,本公开实施例使用训练图像中像素点之间的初始分类预测结果构建训练图像对应的邻接矩阵,而该邻接矩阵用于描述训练图像中像素点之间的语义相关关系。因此,本公开实施例中的邻接矩阵具有明确的解释性,也即邻接矩阵中所表示的语义相关关系越强,则表示两像素点之间的类别越相近。此外,在训练过程中,还可以利用初始分类预测结果对应的真实分类结果作为监督信息,使得邻接矩阵的学习有了强监督,使得语义分割模型能够准确地识别训练图像中像素点的初始分类预测结果,进而能够根据该初始分类预测结果获得更加精确的邻接矩阵。
在一些实施例中,可以采用GCN(图卷积网络)模型实现特征增强处理过程,GCN模型可以基于谱聚类的方式对训练图像进行语义分割,获得语义分割特征,该语义分割特征可以用于获得训练图像对应的语义分割预测结果。
GCN网络模型可以表示为:Y=σ(AXΘ)。其中,Y是语义分割特征,X是训练图像对应的图像特征(维度为H×W×C),A是邻接矩阵(维度为H W×HW),Θ是GCN网络模型的权重矩阵(维度为C×C)。
本公开实施例利用预测的像素级别的分类预测信息构建邻接矩阵,以便由邻接矩阵描述图像中像素间的上下文语义相关关系,并通过该邻接矩阵实现像素间上下文语义信息的融合,进而根据融合后的上下文语义信息预测图像的语义分割预测结果,能够提高模型的识别效果。
在本实施例的一个可选实现方式中,根据所述初始分类预测结果构建所述训练图像对应的邻接矩阵,进一步包括以下步骤:
该可选的实现方式中,可以将邻接矩阵表示为分类矩阵与所述分类矩阵的转置进行相乘的形式,该分类矩阵为初始分类预测结果的矩阵形式。分类矩阵中的每个元素表示训练图像中像素点的类别。例如,该训练图像中总共包括8个类别物体的情况下,每个像素点的类别可以为8个类别中的其中一种。
邻接矩阵可以如下表示:
A=f(PT,P)
其中,A表示邻接矩阵,P表示初始分类预测结果,f表示矩阵的点积操作。
在一些实施例中,可以利用GCN网络对训练图像的图像特征进行特征增强处理,进而根据特征增强后的图像特征进行语义分割,获得语义分割预测结果。已有技术中,GCN网络中的邻接矩阵通过对输入也即训练图像对应的图像特征X进行多次卷积变换得到,也即可以表示为:A=f(δ(X)ψ(X)T),而通过这种方式获得的邻接矩阵的维度为HW×HW,将其与维度为H×W×C的图像特征以及维度为C×C的权重矩阵Θ相乘,则其计算复杂度为O(n2),而本公开实施例中由于邻接矩阵可以表示为分类矩阵与分类矩阵的转置相乘的形式,而分类矩阵和分类矩阵的转置的维度均H×W,因此将分类矩阵与分类矩阵的转置先后与图像特征X、权重矩阵Θ相乘的方式获得语义分割特征的过程中,其计算复杂度可以降至O(n)。因此,本公开实施例中,通过将邻接矩阵表示为分类矩阵和分类矩阵的转置相乘的形式,可以降低网络模型的计算复杂度,提高模型的识别效率。
在本实施例的一个可选实现方式中,所述语义分割模型包括基础模型、分类模型和特征增强模型,步骤S403,即基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练的步骤,进一步包括以下步骤:
通过所述初始分类预测结果以及对应的真实分类结果之间的损失对所述分类模型以及所述基础模型的模型参数进行调整;所述分类模型用于获取所述初始分类预测结果;所述基础模型用于获取所述图像特征;
通过所述语义分割预测结果及其对应的语义分割真实结果之间的损失对特征增强模型以及所述基础模型的模型参数进行调整;所述特征值增强模型用于对所述图像特征进行特征增强处理。
该可选的实现方式中,语义分割模型可以包括基础模型、分类模型和特征增强模型。基础模型可以提取训练图像中的图像特征,分类模型可以基于图像特征对训练图像中的每个像素点进行分类,进而获得训练图像的初始分类预测结果;特征增强模型可以基于初始分类预测结果对图像特征进行特征增强处理,使得特征增强后的图像特征能够更新准确的体现像素点之间的语义相关性,进而使得根据该特征增强后的图像特征获得的训练图像的语义分割预测结果更加准确。
图像特征可以是利用基础模型从训练图像所提取的特征,例如该图像特征可以是神经网络特征。在一些实施例中,可以使用已有的基础模型提取训练图像中的图像特征,基础模型可以使用神经网络模型,如HRNet-W48、ResNet101、ResNet50、VGG16等。训练图像输入至基础模型后,基础模型可以通过对训练图像进行处理获得对应的图像特征。
图像特征可以理解为特征图,且该特征图中的每个特征点对应于训练图像中的每个像素点,因此分类模型对图像特征进行处理而获得的图像特征中每个特征点的初始分类预测结果相当于训练图像中每个像素点的初始分类预测结果,而特征增强模型对图像特征进行处理获得语义分割特征后,通过该语义分割特征获得的语义分割预测结果相当于训练图像的语义分割预测结果。
分类模型可以利用较为简单的模型,以便预测图像特征中特征点的粗分类结果,例如可以利用FCN(Fully Convolutional Networks,全卷积神经网络)模型预测图像特征中特征点的类别,FCN模型针对输入的图像特征可以输出像素级别的初始分类预测结果。利用分类模型获得的初始分类预测结果后,将该初始分类预测结果作为辅助输入信息,由特征增强模型对图像特征以及该初始分类预测结果进行处理之后,可以获得语义增强特征,该语义增强特征中包含了像素间上下文语义相关关系,因此通过该增强特征可以获得训练图像的语义分割预测结果。
在模型训练过程中,获得初始分类预测结果之后,可以通过构建损失函数而拟合得到初始分类预测结果以及训练图像中每个像素点对应的真实分类结果之间的损失,损失函数可以参考已有的相关技术,在此不做限制。真实分类结果可以利用人工方式或者其他可靠方式通过对训练图像中的像素点进行类别标注而得到。
另外,分类模型中输入的是训练图像对应的图像特征,而图像特征可以选用已知的基础模型从训练图像提取,因此在利用初始分类预测结果对分类模型的模型参数调整的过程中,还可以对基础模型的模型参数一并进行调整。
在获得语义分割预测结果之后,还可以基于语义分割预测结果对应的真实语义分割预测结果对特征增强模型的模型参数进行调整。调整过程中,也可以通过构建损失函数而拟合得到语义分割预测结果以及训练图像对应的真实语义分割预测结果之间的损失,损失函数可以参考已有的相关技术,在此不做限制。真实语义分割预测结果可以利用人工方式或者其他可靠方式通过对训练图像进行划分而得到。
另外,特征增强模型中输入的是训练图像对应的图像特征,而图像特征可以选用已知的基础模型结果从训练图像提取,因此在利用语义分割预测结果对特征增强模型的模型参数调整的过程中,还可以对基础模型的模型参数一并进行调整。
通过上述方式,可以将训练图像中像素点的真实分类结果作为监督信息训练分类模型,进而使得根据分类模型输出的初始分类预测结果计算得到的邻接矩阵具有了监督信息,使得利用分类模型获取到的邻接矩阵更加准确。
在本实施例的一个可选实现方式中,所述特征增强处理包括多个阶段;步骤S502,即基于所述邻接矩阵对所述训练图像对应的图像特征进行特征增强处理的步骤,进一步包括以下步骤:
基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理,以获得输出特征;所述输入特征为所述图像特征或者上一阶段特征增强处理后得到的输出特征;
基于最后一个阶段特征增强处理后得到的输出特征获取所述语义分割预测结果。
该可选的实现方式中,可以通过多个特征增强处理过程对图像特征进行特征增强处理,每个特征增强过程中均采用描述图像中像素间上下文语义关系的邻接矩阵对输入特征进行处理后得到增强特征,增强特征可以进一步作为下一阶段的输入特征进行进一步特征增强处理,直到最后一个特征增强阶段。最后一个特征增强阶段输出的是最终的特征,根据该特征可以得到语义分割预测结果。
本公开实施例中通过多个阶段的特征增强处理过程,每个特征增强过程均利用邻接矩阵对输入特征进行特征增强处理,实现了对图像的语义分割预测结果由粗到细的微调,提高了语义分割模型的识别效果。
图6示出根据本公开一实施方式的语义分割模型实现结构示意图。如图6所示,语义分割模型包括基础模型和CGGCN(Category guided GCN,基于类别引导的图卷积网络)模型,输入图像(例如训练图像)经过基础模型得到图像特征X,该图像特征X经过CGGCN模型后得到语义分割特征,该语义分割特征经过一个FCN(Fully Convolutional Networks,全卷积神经网络)模型之后,获得语义分割预测结果。
图7示出根据本公开一实施方式的CGGCN模型实现结构示意图。如图7所示,从图6所示的基础模型获得的图像特征X作为CGGCN模型的输入,分别进入两个分支进行处理:主干分支和辅助分支。
在辅助分支,利用分类模型对所述图像特征X进行分类预测,获得图像特征X对应的初始分类预测结果,该初始分类预测结果可以表示为矩阵P的形式,P的维度可以为C×H×W,H和W可以为P的空间维度,也即高和宽,而C为特征维度,也即每个特征点对应的特征向量长度。矩阵P中的每个元素值为长度为C的特征向量,其用于表示训练图像中对应像素点的类别。
在训练过程中,可以通过分类模型输出的初始分类预测结果和人工标注或者通过其他可靠方式得到的真实分类结果进行拟合,得到分类损失。之后,利用该分类损失可以通过已知的反向传播方法调整分类模型和基础模型的模型参数。
将分类矩阵P和分类矩阵P的转置相乘后,可以得到邻接矩阵A。在一些实施例中,分类矩阵中每个元素值可以采用one-hot编码方式,例如对于总共有8个类别的情况下,每个元素值可以采用8个字符串来表示,该8个字符串中的每个字符分别对应其中一个类别,并且该8个字符串中只有其中一个为1,而其他为0,为1的字符对应的类别为该元素对应的像素点的类别。分类矩阵P和初始分类矩阵P的转置相乘之后,两相乘元素对应的像素点的类别相同的情况下,该相乘结果也为1,而两相乘元素对应的像素点类别不同的情况下,该相乘结果为0,因此,得到的邻接矩阵中,每个元素的元素值可以为1或0,为1的情况下,表明该元素对应的两像素点之间具有强相关关系,而值为0的元素对应的两图像像素点之间具有弱相关关系。可以理解的是,邻接矩阵用于表示图像中各像素点之间的相关关系,类别分布越相似的两个像素点的相关关系越强。
在主干分支,可以利用特征增强模型基于邻接矩阵对图像特征X进行语义相关性方面的特征增强处理。本实施例中,特征增强模型采用GCN模型。在GCN模型中,通过对训练图像中的像素点进行聚类的方式进行特征增强处理。图像特征X经过降维变换后,与辅助分支得到的邻接矩阵A相乘,该相乘的结果经过维度的恢复变换(也即变换为与图像特征X相同的维度大小)之后,再经过卷积层后得到处理结果,该卷积层用于估计GCN模型的权重矩阵,该处理结果与图像特征X拼接后形成语义分割特征。主干分支得到的语义分割特征输入至图6所示的FCN后得到最终的语义分割预测结果,该语义分割预测结果中可以将输入图像中不同类别的目标以及背景等分割开来。
在训练过程中,图6所示的模型结构中,对语义分割预测结果和语义分割真实结果进行拟合可以得到语义分割损失。该语义分割损失可以用来通过已知的反向传播方法调整FCN、主干分支中各模型以及基础模型的模型参数。
图8示出根据本公开一实施方式中语义分割模型另一实现结构示意图。如图8所示,语义分割模型包括基础模型、分类模型和两个级联的GCN模型。输入图像(例如训练图像)经过基础模型得到图像特征X,该图像特征X被输入至辅助分支的分类模型后得到初始分类预测结果,之后再根据初始分类预测结果获得邻接矩阵,辅助分支的处理过程可以参见图7中的描述,在此不再赘述。
图像特征X还被输入至主干分支,主干分支包括两个级联的GCN模型,并且每个GCN模型中使用的邻接矩阵均从辅助分支获取,也即辅助分支利用图像特征X获得邻接矩阵后,将该邻接矩阵分别输出至主干分支中的每一个GCN模型,由GCN模型利用输入的特征(图像特征或前一级GCN模型的增强特征)以及邻接矩阵获得输出特征;其中主干分支中第一个GCN模型的输入为图像特征和辅助分支得到的邻接矩阵,而第二个GCN模型的输入为前一GCN模型输出的增强特征,最后一个GCN模型输出最终特征,该最终特征经过一个FCN模型之后,获得语义分割预测结果。
需要说明的是,图8所示的模型结构中,GCN模型的数量不限于两个,可以级联多于两个的GCN模型,具体可以根据实际的需求设置,在此不做限制。
本公开实施例中,输入图像经过基础模型之后得到图像特征,图像特征经过一个分类模型例如FCN模型之后可以得到初始分类预测结果,该初始分类预测结果可以通过构建邻接矩阵的形式得到图像中像素间的语义相关关系,进而再根据该语义相关关系以及图像特征得到图像对应的语义分割特征,该语义分割特征实际上用于表示图像中像素点之间的关联关系,该关联关系越准确,最后得到的语义分割结果则越准确。但是由于上述初始分类预测结果为图像在像素级别上的粗分割结果,实际情况是,该粗分割结果中可能会存在一些像素点的错误分类,因此直接使用该粗分割结果对图像进行语义分割,最终得到的语义分割结果会存在误差。而图7所示的模型结构中,使用级联GCN对粗分割结果不断进行调整,使得通过不断调整后得到的语义增强特征能够更准确的表示出图像中像素点之间的关联关系,进而根据该更加准确的关联关系对图像进行语义分割,所得到的语义分割结果也更加准确。
图9示出根据本公开另一实施方式的语义分割模型的训练方法的流程图。如图9所示,该模型训练方法包括以下步骤:
在步骤S901中,获取训练图像;
在步骤S902中,调用预设服务接口,以便所述预设服务接口利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,并根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果,以及基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练;
在步骤S903中,输出所述语义分割模型。
本实施例中,该方法可以在云端执行。预设服务接口可以预先部署在云端,该预设服务接口可以是Saas(Software-as-a-service,软件即服务)接口,需求方可以预先获得该预设服务接口的使用权,在需要时可以通过调用该预设服务接口训练得到所需要的语义分割模型。
本实施例中,需求方可以将收集的多个训练图像提供给预设服务接口,由预设服务接口根据训练图像训练得到对应的语义分割模型,进而再将训练好的语义分割模型输出给需求方。
训练图像可以是任意图像。语义分割模型用于对图像进行语义分割,语义分割可以理解为将图像中的不同内容识别出来,例如可以从道路图像中分割出道路、行人、车辆等,或者从遥感影像分割出不同地物等。
语义分割模型可以对训练图像中的像素点进行分类预测,以及根据初始分类预测结果对训练图像进行语义分割。语义分割可以理解为将训练图像中的像素点根据语义相关关系进行划分,将具有强相关关系的像素点划分为一类,而将具有弱相关关系的像素点划分成不同类。本公开实施例中,并不是简单的按照像素点的类别将训练图像进行分割,而是基于该初始分类预测结果对训练图像的图像特征进行特征增强处理之后,再利用经过特征增强处理的图像特征进行语义分割,使得最终得到语义分割预测结果中,属于同一种类物体并且在距离上相邻的像素点被划分为一类,而属于不同种类的物体或者属于同一种类但是不相邻的像素点被划分为不同类。
需要说明的是,训练图像的初始分类预测结果由于不是真值,直接使用该初始分类预测结果对训练图像进行语义分割,可能会造成语义分割预测结果的较大误差。因此,本公开实施例中,利用该初始分类预测结果对训练图像的图像特征做进一步的特征增强处理,例如进行语义增强处理,使得经过特征增强处理后的图像特征能够更加有效的体现训练图像中各像素点之间的语义相关关系,利用该特征增强处理后的图像特征所获取的语义分割预测结果也就更加准确。语义分割模型可以利用神经网络或其他能够预测训练图像中每个像素点的类别的模型对训练图像进行处理,以获得该训练图像中每个像素点的初始分类预测结果。在得到训练图像中每个像素点的初始分类预测结果之后,语义分割模型还可以利用该初始分类预测结果对训练图像的图像特征进行特征增强处理,进而再利用特征增强后的图像特征获取训练图像对应的语义分割预测结果。
在训练过程中,本公开实施例利用初始分类预测结果以及语义分割预测结果对语义分割模型进行训练。在一些实施例中,可以利用初始分类预测结果通过反向传播方法,对分类预测相关的部分模型参数进行调整;并利用语义分割预测结果对语义分割模型中的全部模型参数进行调整。利用初始分类预测结果对分类预测相关的部分模型参数的调整过程,以及利用语义分割预测结果对语义分割模型中全部模型参数的调整过程可以是并行的两个分支。
本公开实施例在模型训练过程中,除了利用语义分割预测结果学习训练图像中各像素之间的语义相关关系之外,还通过初始分类预测结果学习训练图像中像素级别的类别关系,既利用语义分割预测结果从整体上对语义分割模型进行了监督学习,也利用初始分类预测结果对分类预测部分进行了监督学习。通过这种方式,可以使得语义分割模型能够快速而准确的学习到训练图像中像素级别的语义关系,进而能够提高语义分割模型的识别准确率。
图10示出根据本公开另一实施方式的图像语义分割方法的流程图。如图10所示,该图像语义分割方法包括以下步骤:
在步骤S1001中,获取待处理图像;
在步骤S1002中,调用预设服务接口,以便所述预设服务接口获取待处理图像,确定所述待处理图像中像素点的初始分类预测结果,并基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,以及根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果;
在步骤S1003中,输出所述语义分割预测结果。
本实施例中,该方法可以在云端执行。预设服务接口可以预先部署在云端,该预设服务接口可以是Saas(Software-as-a-service,软件即服务)接口,需求方可以预先获得该预设服务接口的使用权,在需要时可以通过调用该预设服务接口对待处理图像进行语义分割,进而获得语义分割预测结果。
以需求方为用户为例进行说明。用户通过客户端设备上的用户界面上传待处理图像,并且由用户在该用户界面上选择适用于当前所上传的该待处理图像的场景,通过点击提交等按钮向云端发起语义分割请求。云端接收到该请求之后,根据用户所选择的场景调用对应的预设服务接口,该预设服务接口用于利用该场景下的语义分割模型对用户上传的待处理图像进行语义分割,云端可以将语义分割模型输出的语义分割预测结果返回给用户的客户端设备,客户端设备在用户界面上展示语义分割预测结果。用户还可以通过用户界面上提供的接口对语义分割预测结果进行修正,客户端设备可以将用户的修正数据反馈至云端,以便云端能够根据该修正数据对语义分割模型进行进一步训练。
本实施例中,可以针对不同领域预先训练适用于不同场景的语义分割模型,进而将适用于不同场景的语义分割模型部署在云端。针对不同场景的语义分割模型可以设置不同的预设服务接口。需求方可以将需要处理的待处理图像提供给相应的预设服务接口,由该相应的预设服务接口利用预先部署的语义分割模型对待处理图像进行语义分割,进而再将语义分割预测结果输出给需求方。
例如,地理勘测人员可以将待处理的遥感影像提供给适用于对遥感影像进行语义分割的预设服务接口,并从该预设服务接口获取遥感影像中地物资源类型等;而自动驾驶车辆可以将采集的前方道路图像提供给适用于自动驾驶场景的预设服务接口,并从该预设服务接口获取路障信息等。
待处理图像可以是任意图像,例如可以是自动驾驶车辆利用车前安装的摄像头采集的道路图像、卫星拍摄的遥感影像等。语义分割可以理解为将图像中的不同内容识别出来,例如可以从道路图像中分割出道路、行人、车辆等,或者从遥感影像分割出不同地物等。
本公开实施例可以利用预先训练的语义分割模型对待处理图像进行语义分割。在语义分割过程中,可以先识别待处理图像中像素点的初始分类预测结果,以及基于该初始分类预测结果对待处理图像的图像特征进行特征增强处理,进而再根据特征增强处理后的图像特征获取待处理图像的语义分割预测结果。
语义分割可以理解为将待处理图像中的像素点根据语义相关关系进行划分,将具有强相关关系的像素点划分为一类,而将具有弱相关关系的像素点划分成不同类。本公开实施例中,并不是简单的按照像素点的初始预测分类结果对待处理图像进行语义分割,而是基于该初始分类预测结果对待处理图像的图像特征进行特征增强处理之后,再利用经过特征增强处理的图像特征进行语义分割,使得最终得到语义分割预测结果中,属于同一种类物体并且在距离上相邻的像素点被划分为一类,而属于不同种类的物体或者属于同一种类但是不相邻的像素点被划分为不同类。
需要说明的是,待处理图像的初始分类预测结果由于不是真值,直接使用该初始分类预测结果对待处理图像进行语义分割,可能会造成语义分割预测结果的较大误差。因此,本公开实施例中,利用该初始分类预测结果对待处理图像的图像特征做进一步的特征增强处理,例如进行语义增强处理,使得经过特征增强处理后的图像特征能够更加有效的体现待处理图像中各像素点之间的语义相关关系,利用该特征增强处理后的图像特征所获取的语义分割预测结果也就更加准确。
本公开实施例在对图像进行语义分割的过程中,先获得图像中像素点的初始分类预测结果,进而再根据初始分类预测结果对图像特征进行特征增强处理,之后再利用特征增强处理后的图像特征对图像进行语义分割。通过这种方式,由于使用特征增强处理后的图像特征对像素点进行聚类能够使得聚类精度更高,因此最终得到的语义分割预测结果也更加准确。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
根据本公开一实施方式的图像语义分割装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该图像语义分割装置包括:
第一获取模块,被配置为获取待处理图像;
第一确定模块,被配置为确定所述待处理图像中像素点的初始分类预测结果;
第一处理模块,被配置为基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理;
第二获取模块,被配置为根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果。
在本实施例的一个可选实现方式中,所述第一处理模块,包括:
第一构建子模块,被配置为根据所述初始分类预测结果构建所述待处理图像的邻接矩阵;其中,所述邻接矩阵用于描述所述待处理图像中像素点之间的语义相关关系;
第一处理子模块,被配置为基于所述邻接矩阵对所述图像特征进行特征增强处理。
在本实施例的一个可选实现方式中,所述第一构建子模块,包括:
第二构建子模块,被配置为通过将分类矩阵与分类矩阵的转置进行相乘的方式构建所述邻接矩阵;所述分类矩阵为所述初始分类预测结果的矩阵形式。
在本实施例的一个可选实现方式中,所述特征增强处理包括多个阶段,所述第一处理子模块,包括:
第二处理子模块,被配置为基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理;其中,所述输入特征为所述图像特征或者上一阶段的特征增强处理得到的输出特征;
所述第二获取模块,包括:
第一获取子模块,被配置为根据最后一个阶段的特征增强处理得到的输出特征获取所述语义分割预测结果。
在本实施例的一个可选实现方式中,所述第一确定模块,包括:
第二获取子模块,被配置为利用语义分割模型中的基础模型获取所述待处理图像的图像特征;
分类子模块,被配置为利用所述语义分割模型中的分类模型对所述待处理图像中的像素点进行分类预测,获得所述初始分类预测结果;
所述第一处理子模块,包括:
第三处理子模块,被配置为利用所述语义分割模型中的特征增强模型,基于所述邻接矩阵对所述图像特征进行特征增强处理。
在本实施例的一个可选实现方式中,所述装置还包括:
展示模块,被配置为在所述语义分割预测结果的置信度低于预设阈值时,向用户展示所述语义分割预测结果;
第一接收模块,被配置为接收所述用户对于所述语义分割预测结果的修正数据;
第一调整模块,被配置为根据所述修正数据对所述语义分割预测结果进行调整。
在本实施例的一个可选实现方式中,所述装置还包括:
第二调整模块,被配置为根据调整后的所述语义分割预测结果以及调整前的所述语义分割预测结果对语义分割模型的模型参数进行调整;其中,所述语义分割模型为获取调整前的所述语义分割预测结果的模型。
在本实施例的一个可选实现方式中,所述待处理图像为遥感影像,所述语义分割预测结果包括以下一种或多种数据的组合:所述遥感影像中不同地物的轮廓信息、所述遥感影像中不同地物的资源类型、所述遥感影像中的路网信息。
在本实施例的一个可选实现方式中,所述待处理图像为目标区域的遥感影像,所述装置还包括:
第二确定模块,被配置为根据所述语义分割预测结果确定所述目标区域中的目标地物。
在本实施例的一个可选实现方式中,所述待处理图像为目标区域的遥感影像,所述装置还包括:
第三确定模块,被配置为根据所述语义分割预测结果确定所述目标区域中所包括的地物的资源类型。
在本实施例的一个可选实现方式中,所述待处理图像为目标区域的遥感影像,所述装置还包括:
第四确定模块,被配置为根据所述语义分割预测结果确定所述目标区域中道路的位置以及种类;
第五确定模块,被配置为根据所述道路的位置以及种类确定所述目标区域中的路网信息。
在本实施例的一个可选实现方式中,所述待处理图像包括第一遥感影像和第二遥感影像,所述装置还包括:
第六确定模块,被配置为根据所述第一遥感影像对应的所述语义分割预测结果与所述第二遥感影像对应的所述语义分割预测结果,确定所述第一遥感影像和第二遥感影像中地物的变化检测信息。
在本实施例的一个可选实现方式中,所述待处理图像包括自动驾驶车辆的前方道路图像,所述装置还包括:
第七确定模块,被配置为根据所述语义分割预测结果确定前方道路上的物体信息;
第八确定模块,被配置为基于所述物体信息确定车辆驾驶信息;
第一输出模块,被配置为将所述车辆驾驶信息输出至所述自动驾驶车辆。
在本实施例的一个可选实现方式中,所述待处理图像为视频中的第一图像,所述装置还包括:
第三获取模块,被配置为获取所述视频中的第二图像;
更新模块,被配置为根据所述第一图像和所述第二图像之间的差异对所述第一图像的所述初始分类预测结果进行更新,以获取所述第二图像的初始分类预测结果;
第四获取模块,被配置为基于所述第二图像的所述初始分类预测结果获得所述第二图像的语义分割预测结果。
在本实施例的一个可选实现方式中,所述更新模块,包括:
第三获取子模块,被配置为获取所述第一图像和所述第二图像之间的前景偏移量;
更新子模块,被配置为根据所述前景偏移量更新所述初始分类预测结果,以获得所述第二图像的初始分类预测结果。
在本实施例的一个可选实现方式中,所述待处理图像为包括商品的图像,所述装置包括:
根据所述语义分割预测结果获取所述待处理图像中的商品图像的模块;
基于所述商品图像生成所述商品的视觉描述信息的模块。
在本实施例的一个可选实现方式中,所述待处理图像为直播视频中的图像,所述装置包括:
目标视频获取模块,被配置为根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频;
输出所述目标视频的模块。
在本实施例的一个可选实现方式中,所述目标视频获取模块,包括:
根据所述语义分割预测结果确定所述待处理图像是否为包括商品的目标图像的模块;
对所述目标图像进行预设处理的模块。
在本实施例的一个可选实现方式中,所述目标视频获取模块,包括:
根据所述语义分割预测结果获取所述直播视频中包括商品的目标图像的模块;
根据所述目标图像生成所述商品的视觉描述信息的模块。
本实施例中的图像语义分割装置与图1所示实施例及相关实施例中的图像语义分割方法对应一致,具体细节可以参见上述对图1所示实施例及相关实施例中的图像语义分割方法的描述,在此不再赘述。
根据本公开一实施方式的语义分割模型的训练装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该语义分割模型的训练装置包括:
第五获取模块,被配置为获取训练图像;
第六获取模块,被配置为利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理;
第七获取模块,被配置为根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果;
训练模块,被配置为基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练。
在本实施例的一个可选实现方式中,所述第六获取模块,包括:
第三构建子模块,被配置为根据所述初始分类预测结果构建所述训练图像对应的邻接矩阵,其中所述邻接矩阵用于描述所述训练图像中像素点之间的语义相关关系;
第四处理子模块,被配置为基于所述邻接矩阵对所述训练图像对应的图像特征进行特征增强处理。
在本实施例的一个可选实现方式中,所述第三构建子模块,包括:
第四构建子模块,被配置为通过分类矩阵与所述分类矩阵的转置进行相乘的方式构建所述邻接矩阵。
在本实施例的一个可选实现方式中,所述语义分割模型包括基础模型、分类模型和特征增强模型,所述训练模块,包括:
第一调整子模块,被配置为通过所述初始分类预测结果以及对应的真实分类结果之间的损失对所述分类模型以及所述基础模型的模型参数进行调整;所述分类模型用于获取所述初始分类预测结果;所述基础模型用于获取所述图像特征;
第二调整子模块,被配置为通过所述语义分割预测结果及其对应的语义分割真实结果之间的损失对特征增强模型以及所述基础模型的模型参数进行调整;所述特征值增强模型用于对所述图像特征进行特征增强处理。
在本实施例的一个可选实现方式中,所述特征增强处理包括多个阶段;所述第六获取模块,包括:
第四获取子模块,被配置为基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理,以获得输出特征;所述输入特征为所述图像特征或者上一阶段特征增强处理后得到的输出特征;
第五获取子模块,被配置为基于最后一个阶段特征增强处理后得到的输出特征获取所述语义分割预测结果。
本实施例中的语义分割模型的训练装置与图5所示实施例及相关实施例中的模型训练方法对应一致,具体细节可以参见上述对图5所示实施例及相关实施例中的语义分割模型的训练方法的描述,在此不再赘述。
根据本公开另一实施方式的语义分割模型的训练装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该语义分割模型的训练装置包括:
第九获取模块,被配置为获取训练图像;
第二调用模块,被配置为调用预设服务接口,以便所述预设服务接口利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,并根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果,以及基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练;
第三输出模块,被配置为输出所述语义分割模型。
本实施例中的模型训练装置与图9所示实施例及相关实施例中的模型训练方法对应一致,具体细节可以参见上述对图9所示实施例及相关实施例中的模型训练方法的描述,在此不再赘述。
根据本公开另一实施方式的图像语义分割装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该图像语义分割装置包括:
第八获取模块,被配置为获取待处理图像;
第一调用模块,被配置为调用预设服务接口,以便所述预设服务接口获取待处理图像,确定所述待处理图像中像素点的初始分类预测结果,并基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,以及根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果;
第二输出模块,被配置为输出所述语义分割预测结果。
本实施例中的图像语义分割装置与图10所示实施例及相关实施例中的图像语义分割方法对应一致,具体细节可以参见上述对图10所示实施例及相关实施例中的图像语义分割方法的描述,在此不再赘述。
图11是适于用来实现根据本公开实施方式的语义分割模型的训练方法和/或图像语义分割方法的电子设备的结构示意图。
如图11所示,电子设备1100包括处理单元1101,其可实现为CPU、GPU、FPGA、NPU等处理单元。处理单元1101可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行本公开上述任一方法的实施方式中的各种处理。在RAM1103中,还存储有电子设备1100操作所需的各种程序和数据。处理单元1101、ROM1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本公开的实施方式,上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (33)

1.一种图像语义分割方法,其中,包括:
获取待处理图像;
确定所述待处理图像中像素点的初始分类预测结果;
基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理;
根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果。
2.根据权利要求1所述的方法,其中,基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,包括:
根据所述初始分类预测结果构建所述待处理图像的邻接矩阵;其中,所述邻接矩阵用于描述所述待处理图像中像素点之间的语义相关关系;
基于所述邻接矩阵对所述图像特征进行特征增强处理。
3.根据权利要求2所述的方法,其中,根据所述初始分类预测结果构建所述待处理图像对应的邻接矩阵,包括:
通过将分类矩阵与分类矩阵的转置进行相乘的方式构建所述邻接矩阵;所述分类矩阵为所述初始分类预测结果的矩阵形式。
4.根据权利要求2或3所述的方法,其中,所述特征增强处理包括多个阶段,基于所述邻接矩阵对所述图像特征进行特征增强处理,包括:
基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理;其中,所述输入特征为所述图像特征或者上一阶段的特征增强处理得到的输出特征;
根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果,包括:
根据最后一个阶段的特征增强处理得到的输出特征获取所述语义分割预测结果。
5.根据权利要求1-3任一项所述的方法,其中,确定所述待处理图像中像素点的初始分类预测结果,包括:
利用语义分割模型中的基础模型获取所述待处理图像的图像特征;
利用所述语义分割模型中的分类模型对所述待处理图像中的像素点进行分类预测,获得所述初始分类预测结果;
基于所述邻接矩阵对所述图像特征进行特征增强处理,包括:
利用所述语义分割模型中的特征增强模型,基于所述邻接矩阵对所述图像特征进行特征增强处理。
6.根据权利要求1-3任一项所述的方法,其中,所述方法还包括:
在所述语义分割预测结果的置信度低于预设阈值时,向用户展示所述语义分割预测结果;
接收所述用户对于所述语义分割预测结果的修正数据;
根据所述修正数据对所述语义分割预测结果进行调整。
7.根据权利要求6所述的方法,其中,所述方法还包括:
根据调整后的所述语义分割预测结果以及调整前的所述语义分割预测结果对语义分割模型的模型参数进行调整;其中,所述语义分割模型为获取调整前的所述语义分割预测结果的模型。
8.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像为遥感影像,所述语义分割预测结果包括以下一种或多种数据的组合:所述遥感影像中不同地物的轮廓信息、所述遥感影像中不同地物的资源类型、所述遥感影像中的路网信息。
9.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像为目标区域的遥感影像,所述方法还包括:
根据所述语义分割预测结果确定所述目标区域中的目标地物。
10.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像为目标区域的遥感影像,所述方法还包括:
根据所述语义分割预测结果确定所述目标区域中所包括的地物的资源类型。
11.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像为目标区域的遥感影像,所述方法还包括:
根据所述语义分割预测结果确定所述目标区域中道路的位置以及种类;
根据所述道路的位置以及种类确定所述目标区域中的路网信息。
12.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像包括第一遥感影像和第二遥感影像,所述方法还包括:
根据所述第一遥感影像对应的所述语义分割预测结果与所述第二遥感影像对应的所述语义分割预测结果,确定所述第一遥感影像和第二遥感影像中地物的变化检测信息。
13.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像包括自动驾驶车辆的前方道路图像,所述方法还包括:
根据所述语义分割预测结果确定前方道路上的物体信息;
基于所述物体信息确定车辆驾驶信息;
将所述车辆驾驶信息输出至所述自动驾驶车辆。
14.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像为视频中的第一图像,所述方法还包括:
获取所述视频中的第二图像;
根据所述第一图像和所述第二图像之间的差异对所述第一图像的所述初始分类预测结果进行更新,以获取所述第二图像的初始分类预测结果;
基于所述第二图像的所述初始分类预测结果获得所述第二图像的语义分割预测结果。
15.根据权利要求14所述的方法,其中,根据所述第一图像和所述第二图像之间的差异对所述第一图像的所述初始分类预测结果进行更新,以获取所述第二图像的初始分类预测结果,包括:
获取所述第一图像和所述第二图像之间的前景偏移量;
根据所述前景偏移量更新所述初始分类预测结果,以获得所述第二图像的初始分类预测结果。
16.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像为包括商品的图像,所述方法包括:
根据所述语义分割预测结果获取所述待处理图像中的商品图像;
基于所述商品图像生成所述商品的视觉描述信息。
17.根据权利要求1-3、5、7任一项所述的方法,其中,所述待处理图像为直播视频中的图像,所述方法包括:
根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频;
输出所述目标视频。
18.根据权利要求17所述的方法,其中,根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频,包括:
根据所述语义分割预测结果确定所述待处理图像是否为包括商品的目标图像;
对所述目标图像进行预设处理。
19.根据权利要求17所述的方法,其中,根据所述语义分割预测结果对所述直播视频进行处理,获得目标视频,包括:
根据所述语义分割预测结果获取所述直播视频中包括商品的目标图像;
根据所述目标图像生成所述商品的视觉描述信息。
20.一种语义分割模型的训练方法,其中,包括:
获取训练图像;
利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理;
根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果;
基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练。
21.根据权利要求20所述的方法,其中,基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,包括:
根据所述初始分类预测结果构建所述训练图像对应的邻接矩阵,其中所述邻接矩阵用于描述所述训练图像中像素点之间的语义相关关系;
基于所述邻接矩阵对所述训练图像对应的图像特征进行特征增强处理。
22.根据权利要求21所述的方法,其中,根据所述初始分类预测结果构建所述训练图像对应的邻接矩阵,包括:
通过分类矩阵与所述分类矩阵的转置进行相乘的方式构建所述邻接矩阵。
23.根据权利要求20-22任一项所述的方法,其中,所述语义分割模型包括基础模型、分类模型和特征增强模型,基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练,包括:
通过所述初始分类预测结果以及对应的真实分类结果之间的损失对所述分类模型以及所述基础模型的模型参数进行调整;所述分类模型用于获取所述初始分类预测结果;所述基础模型用于获取所述图像特征;
通过所述语义分割预测结果及其对应的语义分割真实结果之间的损失对特征增强模型以及所述基础模型的模型参数进行调整;所述特征值增强模型用于对所述图像特征进行特征增强处理。
24.根据权利要求21或22所述的方法,其中,所述特征增强处理包括多个阶段;基于所述邻接矩阵对所述训练图像对应的图像特征进行特征增强处理,包括:
基于所述邻接矩阵对输入特征进行当前阶段的特征增强处理,以获得输出特征;所述输入特征为所述图像特征或者上一阶段特征增强处理后得到的输出特征;
基于最后一个阶段特征增强处理后得到的输出特征获取所述语义分割预测结果。
25.一种图像语义分割方法,其中,包括:
获取待处理图像;
调用预设服务接口,以便所述预设服务接口获取待处理图像,确定所述待处理图像中像素点的初始分类预测结果,并基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,以及根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果;
输出所述语义分割预测结果。
26.一种语义分割模型的训练方法,其中,包括:
获取训练图像;
调用预设服务接口,以便所述预设服务接口利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,并根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果,以及基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练;
输出所述语义分割模型。
27.一种图像语义分割装置,其中,包括:
第一获取模块,被配置为获取待处理图像;
第一确定模块,被配置为确定所述待处理图像中像素点的初始分类预测结果;
第一处理模块,被配置为基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理;
第二获取模块,被配置为根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果。
28.一种语义分割模型的训练装置,其中,包括:
第五获取模块,被配置为获取训练图像;
第六获取模块,被配置为利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理;
第七获取模块,被配置为根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果;
训练模块,被配置为基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练。
29.一种图像语义分割装置,其中,包括:
第八获取模块,被配置为获取待处理图像;
第一调用模块,被配置为调用预设服务接口,以便所述预设服务接口获取待处理图像,确定所述待处理图像中像素点的初始分类预测结果,并基于所述初始分类预测结果对所述待处理图像的图像特征进行特征增强处理,以及根据特征增强处理后的所述图像特征获得所述待处理图像的语义分割预测结果;
第二输出模块,被配置为输出所述语义分割预测结果。
30.一种语义分割模型的训练装置,其中,包括:
第九获取模块,被配置为获取训练图像;
第二调用模块,被配置为调用预设服务接口,以便所述预设服务接口利用语义分割模型获取所述训练图像中像素点的初始分类预测结果,以及基于所述初始分类预测结果对所述训练图像的图像特征进行特征增强处理,并根据特征增强处理后的所述图像特征获取所述训练图像的语义分割预测结果,以及基于所述初始分类预测结果以及所述语义分割预测结果对所述语义分割模型进行训练;
第三输出模块,被配置为输出所述语义分割模型。
31.一种电子设备,其中,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现权利要求1-26任一项所述的方法。
32.一种计算机可读存储介质,其上存储有计算机指令,其中,该计算机指令被处理器执行时实现权利要求1-26任一项所述的方法。
33.一种计算机程序产品,其包括计算机指令,其中,该计算机指令被处理器执行时实现权利要求1-26任一项所述的方法。
CN202110019145.6A 2021-01-07 2021-01-07 图像语义分割方法、装置、电子设备及存储介质 Pending CN114742996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110019145.6A CN114742996A (zh) 2021-01-07 2021-01-07 图像语义分割方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110019145.6A CN114742996A (zh) 2021-01-07 2021-01-07 图像语义分割方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114742996A true CN114742996A (zh) 2022-07-12

Family

ID=82274121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110019145.6A Pending CN114742996A (zh) 2021-01-07 2021-01-07 图像语义分割方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114742996A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830039A (zh) * 2023-02-09 2023-03-21 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN116229277A (zh) * 2023-05-08 2023-06-06 中国海洋大学 基于语义相关性的强抗干扰海洋遥感图像语义分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830039A (zh) * 2023-02-09 2023-03-21 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN115830039B (zh) * 2023-02-09 2023-05-23 阿里巴巴(中国)有限公司 图像处理方法以及装置
CN116229277A (zh) * 2023-05-08 2023-06-06 中国海洋大学 基于语义相关性的强抗干扰海洋遥感图像语义分割方法
CN116229277B (zh) * 2023-05-08 2023-08-08 中国海洋大学 基于语义相关性的强抗干扰海洋遥感图像语义分割方法

Similar Documents

Publication Publication Date Title
US20210142095A1 (en) Image disparity estimation
US8620026B2 (en) Video-based detection of multiple object types under varying poses
CN113128348B (zh) 一种融合语义信息的激光雷达目标检测方法及系统
CN111563909B (zh) 一种复杂街景图像语义分割方法
CN108830171B (zh) 一种基于深度学习的智能物流仓库引导线视觉检测方法
CN106951830B (zh) 一种基于先验条件约束的图像场景多对象标记方法
CN113762209A (zh) 一种基于yolo的多尺度并行特征融合路标检测方法
Xing et al. Traffic sign recognition using guided image filtering
CN114742996A (zh) 图像语义分割方法、装置、电子设备及存储介质
Rafique et al. Smart traffic monitoring through pyramid pooling vehicle detection and filter-based tracking on aerial images
Li et al. A lane detection network based on IBN and attention
CN115861380A (zh) 雾天低照度场景下端到端无人机视觉目标跟踪方法及装置
Tabata et al. Analyzing CARLA’s performance for 2D object detection and monocular depth estimation based on deep learning approaches
CN114048536A (zh) 一种基于多任务神经网络的道路结构预测与目标检测方法
CN116385996B (zh) 一种基于三维矩阵相机的多任务处理方法和装置
CN113160250A (zh) 一种基于ads-b位置先验的机场场面监控视频目标分割方法
CN116229448A (zh) 三维目标检测方法、装置、设备及可读存储介质
CN113514053B (zh) 生成样本图像对的方法、装置和更新高精地图的方法
CN113344121B (zh) 训练招牌分类模型和招牌分类的方法
Usmani et al. Towards global scale segmentation with OpenStreetMap and remote sensing
CN114419018A (zh) 图像采样方法、系统、设备及介质
CN113269088A (zh) 基于场景特征提取的场景描述信息确定方法及装置
CN114359700A (zh) 数据处理方法、装置、电子设备及存储介质
CN112597825A (zh) 驾驶场景分割方法、装置、电子设备和存储介质
Yi et al. Real-time Estimation of Road Surfaces using Fast Monocular Depth Estimation and Normal Vector Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination