CN108229478A

CN108229478A - 图像语义分割及训练方法和装置、电子设备、存储介质和程序

Info

Publication number: CN108229478A
Application number: CN201710520469.1A
Authority: CN
Inventors: 汤晓鸥; 王广润; 罗平; 林倞; 王晓刚
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2018-06-29
Anticipated expiration: 2037-06-30
Also published as: CN108229478B

Abstract

本发明实施例公开了一种图像语义分割及训练方法和装置、电子设备、存储介质和程序，其中，方法包括：对图像进行特征提取，获得所述图像的场景特征；根据场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图。本发明实施例可以提高图像语义分割的精确度。

Description

图像语义分割及训练方法和装置、电子设备、存储介质和程序

技术领域

本发明涉及计算机视觉技术，尤其是一种图像语义分割及训练方法和装置、电子设备、存储介质和程序。

背景技术

由于深度卷积神经网络具备强大的学习能力，并且具有大量标注好的数据供其学习，近年来，先进的深度卷积神经网络在许多计算机视觉任务中已经取得了巨大的成功。

图像语义分割的目标是预测图像中每个像素点的语义类别，图像语义分割是图像理解的基石性技术，在自动驾驶系统(街景识别与理解)、无人机应用(地面目标监视与分析)以及穿戴式设备应用中举足轻重。然而，由于全个像素的图像标注非常昂贵，缺少相应的标注数据进行学习，深度卷积神经网络在语义图像分割上的优势并未获得全面的开发。

发明内容

本发明实施例提供一种语义图像分割技术。

本发明实施例的一个方面，提供一种图像语义分割方法，包括：

对图像进行特征提取，获得所述图像的场景特征；

根据场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；

根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；

根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图。

可选地，在本发明上述各实施例的图像语义分割方法中，所述对图像进行特征提取，获得所述图像的场景特征，包括：

利用深度残差网络对所述图像进行特征提取，获得所述图像的场景特征，所述图像的场景特征形成的场景特征图的尺寸大于所述图像的尺寸的1/224。

可选地，在本发明上述各实施例的图像语义分割方法中，所述场景特征图的尺寸为M*M，其中，M的取值为大于20且小于60的整数。

可选地，在本发明上述各实施例的图像语义分割方法中，所述根据所述场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图，包括：

分别通过两个或以上卷积层，采用不同的卷积核大小，对所述场景特征进行卷积操作，获得两个或以上不同尺度的初始语义分割响应数据；

将所述两个或以上不同尺度的初始语义分割响应数据进行融合，获得所述图像的初始语义分割图。

可选地，在本发明上述各实施例的图像语义分割方法中，所述根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据，包括：

将所述场景特征与所述初始语义分割图相乘，获得所述图像中存在物体的场景特征；

根据所述存在物体的场景特征获取所述图像中存在的各物体的特征；

分别根据所述各物体的特征对各物体进行分类，获得所述物体类别响应数据。

可选地，在本发明上述各实施例的图像语义分割方法中，所述将所述场景特征与所述初始语义分割图相乘之前，还包括：

对所述场景特征进行降维处理；

将所述场景特征与所述初始语义分割图相乘，包括：将所述降维处理后的场景特征与所述初始语义分割图相乘。

可选地，在本发明上述各实施例的图像语义分割方法中，所述根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图，包括：

将所述物体类别响应数据与所述初始语义分割图进行卷积相乘，获得所述图像的目标语义分割图。

可选地，在本发明上述各实施例的图像语义分割方法中，所述获得物体类别响应数据之后，还包括：

根据所述存在物体的场景特征和所述物体类别响应数据，预测所述图像中存在的物体之间的交互关系，获得所述图像的交互关系预测信息。

可选地，在本发明上述各实施例的图像语义分割方法中，所述根据所述存在物体的场景特征和物体类别响应数据，预测所述图像中存在的物体之间的交互关系，包括：

分别将所述图像中存在的任意两个物体的场景特征相加，得到任意两个物体的组合场景特征；

分别从各组合场景特征中提取交互行为特征；

分别对提取到的各交互行为特征进行分类，获得所述图像中存在交互行为的物体以及所述交互行为的种类，所述交互关系预测信息包括所述图像中存在交互行为的物体以及所述交互行为的种类信息。

可选地，在本发明上述各实施例的图像语义分割方法中，所述获得所述图像的交互关系预测信息之后，还包括：

根据所述交互关系预测信息获取所述图像的描述信息，获得所述图像的描述预测信息，所述描述预测信息用于预测所述图像中物体之间的行为交互关系。

本发明实施例的另一个方面，提供一种深度神经网络的训练方法，包括：

利用自然图片数据集和/或全像素标注数据集对深度神经网络进行训练；其中，所述自然图片数据集包括至少一张自然图片和各张所述自然图片的描述信息；所述全像素标注数据集包括标注图片，所述标注图片中的各像素标注有语义标签；

所述深度神经网络用于：

对图像进行特征提取，获得所述图像的场景特征；其中，所述图像包括所述自然图片数据集中的自然图片和/或所述全像素标注数据集中的标注图片；

根据所述场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；

可选地，在本发明上述各实施例的训练方法中，所述图像包括所述至少一张自然图片；

所述利用自然图片数据集对深度神经网络进行训练，包括：

分别以所述至少一张自然图片中的任一自然图片作为所述图像，利用所述深度神经网络，对所述图像进行特征提取，获得所述图像的场景特征；

利用所述深度神经网络，根据所述场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；

以图像的第一标签作为监督信息，对执行所述对图像进行特征提取的特征提取网络和执行根据所述场景特征预测所述图像中各像素的语义类别的初始分割网络进行监督训练；其中，第一标签包括分别基于至少一张自然图片中任一自然图片的描述信息获得的语义标签；

利用所述深度神经网络，根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；

以所述图像的描述信息作为监督信息，对执行预测图像中的物体类别的物体网络进行训练。

可选地，在本发明上述各实施例的训练方法中，还包括：

利用所述深度神经网络，获得物体类别响应数据之后，根据所述存在物体的场景特征和所述物体类别响应数据，预测所述图像中存在的物体之间的交互关系，获得所述图像的交互关系预测信息；

以所述图像的描述信息作为监督信息，对执行所述预测所述图像中存在的物体之间的交互关系的行为网络进行训练。

可选地，在本发明上述各实施例的训练方法中，所述图像包括所述至少一张标注图片；

所述利用全像素标注数据集对深度神经网络进行训练，包括：

分别以所述至少一张标注图片中的任一标注图片作为所述图像，利用深度神经网络，对所述图像进行特征提取，获得所述图像的场景特征；

利用所述深度神经网络，根据场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；

以所述图像标注的语义标签作为监督信息，对执行所述对所述图像进行特征提取的特征提取网络和执行根据所述场景特征预测所述图像中各像素的语义类别的初始分割网络进行监督训练；

以所述图像的第二标签作为监督信息，对执行所述预测所述图像中的物体类别的物体网络进行训练；其中，所述第二标签包括分别基于所述至少一张标注图片中任一标注图片标注的语义标签获得的物体类别标签；

利用所述深度神经网络，根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图；

以所述图像标注的语义标签作为监督信息，对执行所述根据所述物体类别响应数据对所述初始语义分割图进行修正的目标分割网络进行训练。

可选地，在本发明上述各实施例的训练方法中，还包括：

利用所述深度神经网络，根据所述存在物体的场景特征和所述物体类别响应数据，预测所述图像中存在的物体之间的交互关系，获得所述图像的交互关系预测信息；

以所述图像的第三标签作为监督信息，对执行所述预测所述图像中存在的物体之间的交互关系的行为网络进行训练；其中，所述第三标签包括分别基于所述至少一张标注图片中任一标注图片标注的语义标签获得的物体交互关系标签。

可选地，在本发明上述各实施例的训练方法中，所述图像包括所述至少一张自然图片和所述至少一张标注图片；

所述利用自然图片数据集和全像素标注数据集对深度神经网络进行训练，包括：

分别以至少一张自然图片和至少一张标注图片中的任一图片作为图像，利用所述深度神经网络，对所述图像进行特征提取，获得所述图像的场景特征；

以所述至少一张自然图片的第一标签、所述至少一张标注图片的语义标签作为监督信息，对执行所述对图像进行特征提取的特征提取网络和执行根据所述场景特征预测所述图像中各像素的语义类别的初始分割网络进行监督训练；其中，所述第一标签包括分别基于所述至少一张自然图片中任一自然图片的描述信息获得的语义标签；

以所述至少一张自然图片的描述信息、所述至少一张标注图片的第二标签作为监督信息，对执行所述预测所述图像中的物体类别的物体网络进行训练；其中，所述第二标签包括分别基于所述至少一张标注图片中任一标注图片标注的语义标签获得的物体类别标签；

利用所述深度神经网络，根据所述至少一张标注图片的物体类别响应数据对所述至少一张标注图片的初始语义分割图进行修正，获得所述至少一张标注图片的目标语义分割图；

以所述至少一张标注图片标注的语义标签作为监督信息，对执行所述根据所述物体类别响应数据对所述初始语义分割图进行修正的目标分割网络进行训练。

可选地，在本发明上述各实施例的训练方法中，还包括：

以所述至少一张自然图片的描述信息、所述至少一张标注图片的第三标签作为监督信息，对执行所述预测所述图像中存在的物体之间的交互关系的行为网络进行训练；其中，所述第三标签包括分别基于所述至少一张标注图片中任一标注图片标注的语义标签获得的物体交互关系标签。

可选地，在本发明上述各实施例的训练方法中，根据所述至少一张标注图片的物体类别响应数据对所述至少一张标注图片的初始语义分割图进行修正，包括：

可选地，在本发明上述各实施例的训练方法中，对图像进行特征提取，获得所述图像的场景特征，包括：

可选地，在本发明上述各实施例的训练方法中，所述场景特征图的尺寸为M*M，其中，M的取值为大于20且小于60的整数。

可选地，在本发明上述各实施例的训练方法中，所述根据所述场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图，包括：

可选地，在本发明上述各实施例的训练方法中，所述根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据，包括：

可选地，在本发明上述各实施例的训练方法中，所述将所述场景特征与所述初始语义分割图相乘之前，还包括：

对所述场景特征进行降维处理；

可选地，在本发明上述各实施例的训练方法中，所述根据所述存在物体的场景特征和物体类别响应数据，预测所述图像中存在的物体之间的交互关系，包括：

分别从各组合场景特征中提取交互行为特征；

本发明实施例的另一个方面，提供一种图像语义分割装置，包括：

特征提取网络，用于对图像进行特征提取，获得所述图像的场景特征；

初始分割网络，用于根据所述场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；

物体网络，用于根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；

目标分割网络，用于根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图。

可选地，在本发明上述各实施例的图像语义分割装置中，所述特征提取网络包括深度残差网络；所述场景特征形成的场景特征图的尺寸大于所述图像的尺寸的1/224。

可选地，在本发明上述各实施例的图像语义分割装置中，所述初始分割网络包括：

两个或以上卷积层，用于分别采用不同的卷积核大小，对所述场景特征进行卷积操作，获得两个或以上不同尺度的初始语义分割响应数据；

融合模块，用于将所述两个或以上不同尺度的初始语义分割响应数据进行融合，获得所述图像的初始语义分割图。

可选地，在本发明上述各实施例的图像语义分割装置中，所述物体网络包括：

第一乘法模块，用于将所述场景特征与所述初始语义分割图相乘，获得所述图像中存在物体的场景特征；

获取模块，用于根据所述存在物体的场景特征获取所述图像中存在的各物体的特征；

第一分类模块，用于分别根据所述各物体的特征对各物体进行分类，获得所述物体类别响应数据。

可选地，在本发明上述各实施例的图像语义分割装置中，所述物体网络还包括：

降维模块，用于对所述场景特征进行降维处理；

第一乘法模块具体将所述降维处理后的场景特征与所述初始语义分割图相乘。

可选地，在本发明上述各实施例的图像语义分割装置中，所述目标分割网络包括：

第二乘法模块，用于将所述物体类别响应数据与所述初始语义分割图进行卷积相乘，获得所述图像的目标语义分割图。

可选地，在本发明上述各实施例的图像语义分割装置中，还包括：

行为网络，用于根据所述存在物体的场景特征和所述物体类别响应数据，预测所述图像中存在的物体之间的交互关系，获得所述图像的交互关系预测信息。

可选地，在本发明上述各实施例的图像语义分割装置中，所述行为网络包括：

加法模块，用于分别将所述图像中存在的任意两个物体的场景特征相加，得到任意两个物体的组合场景特征；

特征提取模块，用于分别从各组合场景特征中提取交互行为特征；

第二分类模块，用于分别对提取到的各交互行为特征进行分类，获得所述图像中存在交互行为的物体以及所述交互行为的种类，所述交互关系预测信息包括所述图像中存在交互行为的物体以及所述交互行为的种类信息。

获取单元，用于根据所述交互关系预测信息获取所述图像的描述信息，获得所述图像的描述预测信息，所述描述预测信息用于预测所述图像中物体之间的行为交互关系。

本发明实施例的又一个方面，提供一种深度神经网络的训练装置，包括：

深度神经网络，用于：对图像进行特征提取，获得所述图像的场景特征；根据场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图；其中，所述图像包括自然图片数据集中的自然图片和/或全像素标注数据集中的标注图片；自然图片数据集包括至少一张自然图片和各张自然图片的描述信息；全像素标注数据集包括标注图片，标注图片中的各像素标注有语义标签；

网络训练单元，用于利用自然图片数据集和全像素标注数据集对所述深度神经网络进行训练；其中，所述自然图片数据集包括至少一张自然图片和各张所述自然图片的描述信息；所述全像素标注数据集包括标注图片，所述标注图片中的各像素标注有语义标签。

可选地，在本发明上述各实施例的训练装置中，所述深度神经网络包括权利要求25-33任一所述的图像语义分割装置。

可选地，在本发明上述各实施例的训练装置中，所述图像包括所述至少一张自然图片；

所述网络训练单元包括：

第一训练模块，用于响应于所述深度神经网络获得所述至少一张自然图片的初始语义分割图，以所述至少一张自然图片的第一标签作为监督信息，对所述深度神经网络中对至少一张自然图片进行特征提取的特征提取网络和根据所述场景特征预测所述至少一张自然图片中各像素的语义类别的初始分割网络进行监督训练；其中，所述第一标签包括分别基于所述至少一张自然图片中任一自然图片的描述信息获得的语义标签；

第二训练模块，用于响应于所述深度神经网络获得物体类别响应数据，以所述至少一张自然图片的描述信息作为监督信息，对所述深度神经网络中预测所述图像中的物体类别的物体网络进行训练。

可选地，在本发明上述各实施例的训练装置中，还包括：

第四训练模块，用于响应于所述深度神经网络获得所述至少一张自然图片的交互关系预测信息，以所述至少一张自然图片的描述信息作为监督信息，对所述深度神经网络中预测所述至少一张自然图片中存在的物体之间的交互关系的行为网络进行训练。

可选地，在本发明上述各实施例的训练装置中，所述图像包括所述至少一张标注图片；

所述网络训练单元包括：

第一训练模块，用于响应于所述深度神经网络获得所述至少一张标注图片的初始语义分割图，以所述至少一张标注图片标注的语义标签作为监督信息，对所述深度神经网络中对至少一张标注图片进行特征提取的特征提取网络和根据场景特征预测至少一张标注图片中各像素的语义类别的初始分割网络进行监督训练；

第二训练模块，用于响应于深度神经网络获得物体类别响应数据，以至少一张标注图片的第二标签作为监督信息，对所述深度神经网络中预测所述至少一张标注图片中的物体类别的物体网络进行训练；其中，第二标签包括分别基于至少一张标注图片中任一标注图片标注的语义标签获得的物体类别标签；

第三训练模块，用于响应于所述深度神经网络获得所述至少一张标注图片的目标语义分割图，以所述至少一张标注图片标注的语义标签作为监督信息，对所述深度神经网络中根据物体类别响应数据对初始语义分割图进行修正的目标分割网络进行训练。

可选地，在本发明上述各实施例的训练装置中，还包括：

第四训练模块，用于响应于所述深度神经网络获得所述至少一张标注图片的交互关系预测信息，以所述至少一张标注图片的第三标签作为监督信息，对所述深度神经网络中预测所述至少一张标注图片中存在的物体之间的交互关系的行为网络进行训练；其中，所述第三标签包括分别基于所述至少一张标注图片中任一标注图片标注的语义标签获得的物体交互关系标签。

可选地，在本发明上述各实施例的训练装置中，所述图像包括所述至少一张自然图片和所述至少一张标注图片；

所述网络训练单元包括：

第一训练模块，用于响应于所述深度神经网络获得所述至少一张自然图片和所述至少一张标注图片的初始语义分割图，以所述至少一张自然图片的第一标签、所述至少一张标注图片的语义标签作为监督信息，对所述深度神经网络中对所述至少一张自然图片和所述至少一张标注图片进行特征提取的特征提取网络和根据所述场景特征预测所述至少一张自然图片和所述至少一张标注图片中各像素的语义类别的初始分割网络进行监督训练；其中，所述第一标签包括分别基于所述至少一张自然图片中任一自然图片的描述信息获得的语义标签；

第二训练模块，用于响应于所述深度神经网络获得物体类别响应数据，以所述至少一张自然图片的描述信息、所述至少一张标注图片的第二标签作为监督信息，对所述深度神经网络中预测所述至少一张自然图片和所述至少一张标注图片中的物体类别的物体网络进行训练；其中，所述第二标签包括分别基于所述至少一张标注图片中任一标注图片标注的语义标签获得的物体类别标签；

可选地，在本发明上述各实施例的训练装置中，还包括：

第四训练模块，用于响应于所述深度网络获得所述至少一张自然图片和所述至少一张标注图片的交互关系预测信息，以所述至少一张自然图片的描述信息、所述至少一张标注图片的第三标签作为监督信息，对所述深度神经网络中预测所述至少一张自然图片和所述至少一张标注图片中存在的物体之间的交互关系的行为网络进行训练；其中，所述第三标签包括分别基于所述至少一张标注图片中任一标注图片标注的语义标签获得的物体交互关系标签。

本发明实施例的又一个方面，提供一种电子设备，包括本发明上述任一实施例所述的图像语义分割装置或者深度神经网络的训练装置。

本发明实施例的再一个方面，提供另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成本发明上述任一实施例所述的图像语义分割方法或者深度神经网络的训练方法的操作。

本发明实施例的又一个方面，提供一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本发明上述任一实施例所述的图像语义分割方法或者深度神经网络的训练方法的操作。

本发明实施例的还一个方面，提供一种计算机程序，包括计算机可读取的指令，当所述计算机可读取的指令在设备中运行时，所述设备中的处理器执行用于实现本发明上述任一实施例所述的图像语义分割方法或者深度神经网络的训练方法中的步骤的可执行指令。

基于本发明上述实施例提供的图像语义分割及训练方法和装置、电子设备、存储介质和程序，对图像进行特征提取，获得图像的场景特征，根据场景特征预测图像中各像素的语义类别，获得该图像的初始语义分割图；根据场景特征与初始语义分割图，预测该图像中的物体类别，获得物体类别响应数据，根据物体类别响应数据对初始语义分割图进行修正，获得图像的目标语义分割图，从而提高了图像语义分割的精确度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明图像语义分割方法一个实施例的流程图。

图2为本发明图像语义分割方法另一个实施例的流程图。

图3为本发明图像语义分割方法又一个实施例的流程图。

图4为本发明深度神经网络的训练方法一个实施例的流程图。

图5为本发明深度神经网络的训练方法又一个实施例的流程图。

图6为本发明深度神经网络的训练方法还一个实施例的流程图。

图7为本发明图像语义分割装置一个实施例的结构示意图。

图8为本发明实施例中初始分割网络一个实施例的结构示意图。

图9为本发明实施例中物体网络一个实施例的结构示意图。

图10为本发明实施例中目标分割网络一个实施例的结构示意图。

图11为本发明图像语义分割装置另一个实施例的结构示意图。

图12为本发明实施例中行为网络一个实施例的结构示意图。

图13为本发明深度神经网络的训练装置一个实施例的结构示意图。

图14为本发明深度神经网络的训练装置另一个实施例的结构示意图。

图15为本发明深度神经网络的训练装置又一个实施例的结构示意图。

图16为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统/服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统/服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本发明图像语义分割方法一个实施例的流程图。本发明各实施例的图像语义分割方法具体可以通过一个深度神经网络实现。如图1所示，该实施例的图像语义分割方法包括：

102，对图像进行特征提取，获得该图像的场景特征。

本发明实施例中，从图像中提取的特征为用于表征该图像中场景的特征，故可以称为场景特征。

示例性地，本发明各实施例中，从一个图像中提取出来的所有场景特征可以表现为一个场景特征图、场景特征向量或者场景特征矩阵。

104，根据上述场景特征预测该图像中各像素的语义类别，获得该图像的初始语义分割图。

106，根据上述场景特征与初始语义分割图，预测该图像中的物体类别，获得物体类别响应数据。

示例性地，本发明各实施例中，物体类别响应数据为图像中可能存在的各个物体类别分别对应的置信度数据。预测的一个图像中的物体类别响应数据具体可以表现为一个物体类别响应图。

108，根据该物体类别响应数据对上述初始语义分割图进行修正，获得该图像的目标语义分割图。

图像是由许多像素(Pixel)组成，而语义分割，就是将像素按照图像中表达语义含义的不同进行分组(Grouping)/分割(Segmentation)。在图像语义分割任务中，其输入为一张的三通道彩色图像，输出则是对应的一个矩阵，矩阵的每一个元素表明了原图像中对应位置像素所表示的语义类别(Semantic label)。因此，图像语义分割也称为图像语义标注(Image semantic labeling)、像素语义标注(Semantic pixel labeling)或像素语义分组(Semantic pixel grouping)。图像语义分割任务的难点便在于这“语义”二字。在真实图像中，表达某一语义的同一物体常由不同部件组成，这些部件往往有着不同的颜色、纹理甚至亮度，这给图像语义的精确分割带来了困难和挑战。

基于本发明上述实施例提供的图像语义分割方法，对图像进行特征提取，获得图像的场景特征，根据场景特征预测图像中各像素的语义类别，获得该图像的初始语义分割图；根据场景特征与初始语义分割图，预测该图像中的物体类别，获得物体类别响应数据，根据物体类别响应数据对初始语义分割图进行修正，获得图像的目标语义分割图，从而提高了图像语义分割的精确度。

深度残差网络具有提取较强判的别性特征的作用，在本发明图像语义分割方法实施例的其中一个具体示例中，操作102中，具体可以利用深度残差网络对图像进行特征提取。

现有的深度残差网络通常有101个网络层，可以称为101层深度残差网络。另外，深度残差网络也可以有更多网络层，深度残差网络的网络层越多，输出结果的精度越高，但是需要的计算时间、占用的显存资源也越多，101层深度残差网络在输出结果精度和时间复杂度、空间复杂度上能达到一个较好的平衡点。常用的101层深度残差网络输出是场景特征为2048个通道，输出场景特征形成的场景特征图的尺寸为原图像的1/224，即：场景特征图的尺寸为1*1。

现有的101层深度残差网络结构如下：1个卷积层、1个池化层、100个卷积层、1个池化层，其中的100个卷积层中的两个卷积层res4a_branch2a和res5a_branch2a分别连接带卷积操作的旁支res4a_branch1和res5a_branch1，这两个卷积层res4a_branch2a和res5a_branch2a的步长为2，输出的特征图的尺寸为输入图像的尺寸的1/224。可选地，本发明实施例中，可以对101层深度残差网络进行调整，使输出的场景特征图的尺寸增大，使得场景特征图的尺寸大于图像的尺寸的1/224，例如，场景特征图的尺寸为M*M，其中，M的取值为大于20且小于60的整数。例如，在一个可选示例中，M的取值为45，即场景特征图的尺寸为45*45，为输入图像的尺寸的1/8，以有利于抓捕图像中的细节信息，同时又不会过多增加计算时间、占用的显存资源。该可选示例例如可以通过对上述现有的101层深度残差网络做如下改进实现：去掉101层深度残差网络中的最后一个池化层；将中间两个卷积层res4a_branch2a和res5a_branch2a的步长由2降为1，并对应的旁支res4a_branch1和res5a_branch1进行相应调整，以增大输出的场景特征图的尺寸，有利于抓捕图像中的细节信息。

在本发明图像语义分割方法实施例的另一个具体示例中，操作104可以包括：

分别通过两个或以上卷积层，采用不同的卷积核大小，对上述场景特征进行卷积操作，获得两个或以上不同尺度的初始语义分割响应数据；

将上述两个或以上不同尺度的初始语义分割响应数据进行融合，例如，相加，获得该图像的初始语义分割图。

例如，在一个具体应用中，可以分别并行地通过四个不同的卷积层，采用四个各不同的卷积核大小，对上述场景特征进行卷积操作，得到四个不同尺度的初始语义分割响应数据。这四个卷积层采用不同膨胀率(dilationrate)，从而得到发挥不同作用的四种不同尺度的响应数据。

其中，大的卷积核，可以捕获更多的全局信息和上下文信息，但缺失细节信息；相反，小的卷积核，可以捕获图像的细节信息，但是缺失全局信息。本发明实施例将不同尺度的初始语义分割响应数据进行融合，充分利用了全局信息和细节信息，得到初始语义分割图。该初始语义分割图有N个通道，代表图像中每个像素属于该N类语义类别中各语义类别的概率。其中N为大于1的整数，代表各像素的N-1中语义类别和1个背景类别。例如，N的取值为21，21代表像素的20种语义类别和一个背景类别。

在本发明图像语义分割方法实施例的又一个具体示例中，操作106可以包括：

将场景特征与初始语义分割图相乘，获得图像中存在物体的场景特征；

根据存在物体的场景特征获取图像中存在的各物体的特征。例如，分别通过一个卷积层、池化层和全连接层，依次从存在物体的场景特征中进行局部特征提取、下采样、将较大范围内的局部特征相连，获得图像中存在的各物体的特征；

分别根据各物体的特征对各物体进行分类，获得物体类别响应数据。该操作例如可以通过一个softmax分类函数实现。

该物体类别响应数据有N个通道，代表图像中每个像素属于该N个物体类别中各物体类别的概率。其中N为大于1的整数。

进一步示例性地，还可以在将场景特征与初始语义分割图相乘之前，先对场景特征进行降维处理，再将降维处理后的场景特征与初始语义分割图相乘。例如，可以通过一个卷积层对多通道的场景特征进行卷积操作的方式，对场景特征进行降维处理，减少场景特征的通道数，以便实现将场景特征与初始语义分割图相乘，减小计算量。

在本发明图像语义分割方法实施例的再一个具体示例中，操作108可以包括：将物体类别响应数据与初始语义分割图进行卷积相乘，获得图像的目标语义分割图。

进一步示例性地，若物体类别响应数据与初始语义分割图的尺寸不一致，还可以在将物体类别响应数据与初始语义分割图进行卷积相乘之前，先将物体类别响应数据插值为与初始语义分割图的尺寸一致的物体类别响应数据。

图2为本发明图像语义分割方法另一个实施例的流程图。如图2所示，与图1所示的实施例相比，该实施例的图像语义分割方法在图1所示实施例的流程之后，还可以包括：

202，根据上述存在物体的场景特征和物体类别响应数据，预测该图像中存在的物体之间的交互关系，获得该图像的交互关系预测信息。

在其中一个示例中，该操作202可以包括：

分别将该图像中存在的任意两个物体的场景特征相加，得到任意两个物体的组合场景特征；

分别从上述各组合场景特征中提取交互行为特征。例如，可以将各组合场景特征经过一个卷积层发挥注意力机制，对存在多事例的物体，集中注意力到拥有行为交互的事例上，然后依次经过一个池化层、全连接层进行交互特征提取，得到任意两个物体的交互特征；

分别对提取到的各交互行为特征进行分类，获得该图像中存在交互行为的物体以及交互行为的种类，交互关系预测信息包括图像中存在交互行为的物体以及交互行为的种类信息。

将该特征进行分类，判断场景中哪些物体之间存在何种交互。

基于本发明实施例，无需对图像进行物体检测，便可以预测该图像中存在的哪些物体、以及哪些物体之间具体存在何种行为交互关系，以便实现对存在事例的图像进行图像描述预测。另外，通过卷积层发挥注意机制的作用，可以帮助集中注意力到拥有行为交互的事例上，从而提高图像的交互关系预测信息的精度，由此也可以进一步提高图像描述预测的精度。

图3为本发明图像语义分割方法又一个实施例的流程图。如图3所示，与图2所示的实施例相比，该实施例的图像语义分割方法在图2所示实施例的操作202之后，还可以包括：

302，根据交互关系预测信息获取图像的描述信息，获得该图像的描述预测信息。

该描述预测信息用于预测图像中物体之间的行为交互关系。

通过本发明实施例，基于一张图像能够预测出图像中含有哪些物体、以及哪些物体之间存在何种行为交互关系，进而获得该图像的描述信息，无需对图像进行物体检测，便可以预测该图像中存在的哪些物体、以及哪些物体之间具体存在何种行为交互关系，从而实现对存在事例的图像进行图像描述预测，提高了图像描述预测的精度。

本发明上述各实施例的图像语义分割方法具体可以通过一个深度神经网络来实现。

另外，本发明实施例还提供了一种深度神经网络的训练方法，用于对深度神经网络进行训练。在本发明深度神经网络的训练方法一个实施例中，可以包括：

利用自然图片数据集(Image Descriptions in the Wild，IDW)和/或全像素标注数据集(PASCAL VOC)对深度神经网络进行训练，直至满足预设条件。其中，自然图片数据集包括至少一张自然图片和各张自然图片的描述信息；全像素标注数据集包括标注图片，标注图片中的各像素标注有语义标签。

本发明各实施例中的自然图片，即直接从网络采集的、未经人工标注语义标签的图片，以区别于上述标注图片。

基于本发明各深度神经网络的训练方法训练得到的深度神经网络，可用于实现本发明上述各图像语义分割方法实施例，例如，可用于：对图像进行特征提取，获得图像的场景特征；其中，图像包括自然图片数据集中的自然图片和/或全像素标注数据集中的标注图片；根据场景特征预测图像中各像素的语义类别，获得图像的初始语义分割图；根据场景特征与初始语义分割图，预测图像中的物体类别，获得物体类别响应数据；根据物体类别响应数据对初始语义分割图进行修正，获得图像的目标语义分割图。

图4为本发明实施例中深度神经网络的训练方法一个实施例的流程图。该实施例采用自然图片数据集进行深度神经网络的训练。如图4所示，利用自然图片数据集对实现图像语义分割方法的深度神经网络进行训练的一个可选实施例，可以包括：

402，分别以至少一张自然图片中的任一自然图片作为本发明上述各实施例中的图像，利用深度神经网络，对任一自然图片进行特征提取，获得任一自然图片的场景特征。

该操作402具体可以通过深度神经网络中的特征提取网络实现。

404，利用深度神经网络，根据场景特征预测任一自然图片中各像素的语义类别，获得任一自然图片的初始语义分割图。

该操作404具体可以通过深度神经网络中的初始分割网络实现。

406，以该至少一张自然图片的第一标签作为监督信息，对执行上述操作402的特征提取网络和执行上述操作404的初始分割网络进行监督训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者初始分割网络输出的初始语义分割图与该至少一张自然图片的第一标签之间的差异小于预设数值。

其中，第一标签包括分别基于上述至少一张自然图片中任一自然图片的描述信息获得的语义标签。例如，一张自然图片的描述信息为：一个女人骑在一只马上，另一个男人站在马旁边。则由该自然图片的描述信息可以推断出第一标签中包括的语义标签包括：女人、马、男人，而不包括牛。如果初始分割网络预测出的像素的语义类别包括牛，则是错误的。

408，利用深度神经网络，根据场景特征与初始语义分割图，预测任一自然图片中的物体类别，获得物体类别响应数据。

该操作408具体可以通过深度神经网络中的物体网络实现。

410，以上述至少一张自然图片的描述信息作为监督信息，对执行上述操作408的物体网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者物体网络输出的物体类别响应数据与该至少一张自然图片的描述信息之间的差异小于预设数值。

进一步地，再参见图4，在本发明实施例中深度神经网络的训练方法另一个实施例中，还可以包括：

412，利用深度神经网络，根据存在物体的场景特征和物体类别响应数据，预测任一自然图片中中存在的物体之间的交互关系，获得任一自然图片中的交互关系预测信息。

该操作412具体可以通过深度神经网络中的行为网络实现。

414，以该至少一张自然图片的描述信息作为监督信息，对执行预测图像中存在的物体之间的交互关系的行为网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者行为网络输出的交互关系预测信息与该至少一张自然图片的描述信息之间的差异小于预设数值。

本发明实施例采集网络上客观自然存在的自然图片及其描述信息(即：自然图片旁边的句子描述)构成自然图片数据集，利用自然图片数据集进行深度神经网络的训练，由于自然图片为直接从网络上采集的图片，不需人工对图片全像素标注语义标签，节省了成本，本发明人在实践中已构建了一个大于4万张图片的自然图片数据集；另外，由于自然图片不需要人为标注，比较自然、真实、客观，使得训练出来的深度神经网络较适用于自然的、客观的、真实的环境，从而提高图像语义分割效果。

图5为本发明实施例中深度神经网络的训练方法又一个实施例的流程图。该实施例采用全像素标注数据集进行深度神经网络的训练。如图5所示，利用全像素标注数据集对实现图像语义分割方法的深度神经网络进行训练的一个实施例，可以包括：

502，分别以至少一张标注图片中的任一标注图片作为本发明上述各实施例中的图像，利用深度神经网络，对任一标注图片进行特征提取，获得任一标注图片的场景特征。

该操作502具体可以通过深度神经网络中的特征提取网络实现。

504，利用深度神经网络，根据场景特征预测任一标注图片中各像素的语义类别，获得任一标注图片的初始语义分割图。

该操作504具体可以通过深度神经网络中的初始分割网络实现。

506，以该至少一张标注图片标注的语义标签作为监督信息，对执行上述操作50,2的特征提取网络和执行上述操作504的初始分割网络进行监督训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者初始分割网络输出的初始语义分割图与该至少一张标注图片的语义标签之间的差异小于预设数值。

508，利用深度神经网络，根据场景特征与初始语义分割图，预测图像任一标注图片中的物体类别，获得物体类别响应数据。

该操作508具体可以通过深度神经网络中的物体网络实现。

510，以上述至少一张标注图片的第二标签作为监督信息，对执行上述操作508的物体网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者物体网络输出的物体类别响应数据与该至少一张标注图片的第二标签之间的差异小于预设数值。

其中，第二标签包括分别基于上述至少一张标注图片中任一标注图片标注的语义标签获得的物体类别标签。

512，利用深度神经网络，根据物体类别响应数据对初始语义分割图进行修正，获得任一标注图片的目标语义分割图。

该操作512具体可以通过深度神经网络中的目标分割网络实现。

514，以该至少一张标注图片标注的语义标签作为监督信息，对执行上述操作512的目标分割网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者目标分割网络输出的目标语义分割图与该至少一张标注图片的语义标签之间的差异小于预设数值。

进一步地，再参见图5，在本发明实施例中深度神经网络的训练方法再一个实施例中，还可以包括：

516，利用深度神经网络，根据存在物体的场景特征和物体类别响应数据，预测任一标注图片中存在的物体之间的交互关系，获得图像的交互关系预测信息。

该操作516具体可以通过深度神经网络中的行为网络实现。

518，以该至少一张标注图片的第三标签作为监督信息，对执行上述操作516的行为网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者行为网络输出的交互关系预测信息与该至少一张标注图片的第三标签之间的差异小于预设数值。

其中，第三标签包括分别基于上述至少一张标注图片中任一标注图片标注的语义标签获得的物体交互关系标签。

全像素标注数据集为目前图像分割领域的标准数据集之一，本发明实施例基于标注图片标注的语义标签以及由此获得第二标签和第三标签作为监督信息，对深度神经网络进行训练，使得训练好的深度神经网络可有效用于图像语义分割任务和物体行交互关系预测任务，并保证图像语义分割任务和物体行交互关系预测任务的精度。

图6为本发明实施例中深度神经网络的训练方法还一个实施例的流程图。该实施例采用自然图片数据集和全像素标注数据集进行深度神经网络的训练。如图6所示，利用自然图片数据集和全像素标注数据集对实现图像语义分割方法的深度神经网络进行训练的一个实施例，可以包括：

602，分别针对至少一张自然图片和至少一张标注图片中的任一图片作为本发明上述各实施例中的图像，利用深度神经网络，对该任一图片进行特征提取，获得任一图片的场景特征。

该操作602具体可以通过深度神经网络中的特征提取网络实现。

604，利用深度神经网络，根据场景特征预测任一图片中各像素的语义类别，获得任一图片的初始语义分割图。

该操作604具体可以通过深度神经网络中的初始分割网络实现。

606，以该至少一张自然图片的第一标签、该至少一张标注图片的语义标签作为监督信息，对执行上述操作602的特征提取网络和执行上述操作604的初始分割网络进行监督训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者初始分割网络输出的初始语义分割图与上述至少一张自然图片的第一标签和上述至少一张标注图片的语义标签之间的综合差异小于预设数值。

其中，第一标签包括分别基于上述至少一张自然图片中任一自然图片的描述信息获得的语义标签。

608，利用深度神经网络，根据场景特征与初始语义分割图，预测任一图片中的物体类别，获得物体类别响应数据。

该操作608具体可以通过深度神经网络中的物体网络实现。

610，以上述至少一张自然图片的描述信息、上述至少一张标注图片的第二标签作为监督信息，对执行预测上述至少一张自然图片和至少一张标注图片中的物体类别的物体网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者物体网络输出的物体类别响应数据与该至少一张自然图片的描述信息和上述至少一张标注图片的语义标签之间的综合差异小于预设数值。

612，利用深度神经网络，根据至少一张标注图片的物体类别响应数据对至少一张标注图片的初始语义分割图进行修正，获得至少一张标注图片的目标语义分割图。

该操作612具体可以通过深度神经网络中的目标分割网络实现。

614，以该至少一张标注图片标注的语义标签作为监督信息，对执行上述操作612的目标分割网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者物体网络输出的物体类别响应数据与该至少一张标注图片的第二标签之间的差异小于预设数值。

进一步地，再参见图6，在本发明实施例中深度神经网络的训练方法进一步实施例中，还可以包括：

616，利用深度神经网络，根据存在物体的场景特征和物体类别响应数据，预测任一图片中存在的物体之间的交互关系，获得任一图片的交互关系预测信息。

该操作616具体可以通过深度神经网络中的行为网络实现。

618，以该至少一张自然图片的描述信息、该至少一张标注图片的第三标签作为监督信息，对深度神经网络中执行操作616的行为网络进行训练，直至满足预设条件，例如，训练次数达到预设训练次数阈值，或者行为网络输出的交互关系预测信息与该至少一张自然图片的描述信息和上述至少一张标注图片的第三标签之间的综合差异小于预设数值。

对深度神经网络自动对图像进行语义分割并识别出图像中内容的任务，为了让深度神经网络学会此任务，在训练深度神经网络的时候，训练数据集中的每个样本图像都应该有全像素标注数据作为监督信息。然而，自然图片数据集中并无全像素标注数据，却依然想让深度神经网络学会自动语义分割并识别出图像中内容，本发明实施例中的训练方法可以称为弱监督训练方法。

虽然自然图片数据集中，每张图片均有描述信息，通过一句话描述了自然图片的主要内容，例如“一个女人骑在一只马上，另一个男人站在马旁边”，却缺失了关键的人工全像素标注数据，而全像素标注数据集中的每个图片虽有全像素标注数据，却无图片的描述信息。本发明实施例中，采用弱监督训练方法对深度神经网络进行训练，在训练过程中，对缺失的标签，利用数据集中已有数据推断出来的信息作为标签，用以监督网络参数的学习，从而实现了采用全像素标注数据集(PASCAL VOC)与从互联网下载图片及其描述信息构成的自然图片数据集(IDW)联合训练深度神经网络。

本发明实施例将全像素标注数据集(PASCAL VOC)与从互联网下载图片及其描述信息构成的自然图片数据集(IDW)联合训练深度神经网络，使来自两个不同数据集的知识得以相互吸收融合、最大被利用，使得训练好的深度神经网络在图像语义分割任务和行为交互关系预测任务上具有较好的性能，训练好的深度神经网络应用于图像语义分割时，提高了图像语义分割并识别出图像中内容、以及自动预测图像中物体间行为交互关系两种任务的精度。随着所参与训练的自然图片数量的增加，图像语义分割精度能得到持续的增加，说明本发明训练好的深度神经网络具有良好的可扩展性及其在大规模数据应用上的潜能。

本发明图4-图6所示任一训练方法实施例中，深度神经网络对自然图片数据集和/或全像素标注数据集中任一图片执行的操作，属于对该任一图片执行图像语义分割方法中的操作，均可通过本发明上述各图像语义分割方法实施例中的对应操作、实施例或技术手段实现，此处不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图7为本发明图像语义分割装置一个实施例的结构示意图。本发明各实施例的图像语义分割装置具体可以通过一个深度神经网络实现。本发明实施例的图像语义分割装置可用于实现本发明上述各图像语义分割方法实施例。如图7所示，该实施例的装置包括：特征提取网络702，初始分割网络704，物体网络706和目标分割网络708。其中：

特征提取网络702，用于对图像进行特征提取，获得图像的场景特征。

在本发明实施例的其中一个示例中，特征提取网络702例如可以是深度残差网络。本发明实施例的深度残差网络具体可以采用现有的101层深度残差网络，也可以对上述现有的101层深度残差网络做如下改进实现：去掉101层深度残差网络中的最后一个池化层；将中间两个卷积层res4a_branch2a和res5a_branch2a的步长由2降为1，并对应的旁支res4a_branch1和res5a_branch1进行相应调整，以增大输出的场景特征形成的场景特征图的尺寸，有利于抓捕图像中的细节信息。

在本发明实施例的其中一个示例中，特征提取网络702输出的场景特征图的尺寸大于图像的尺寸的1/224，例如，场景特征图的尺寸表示为M*M，其中，M的取值为大于20且小于60的整数，例如M的取值为45，此时场景特征图的尺寸为45*45，为输入图像的尺寸的1/8，以有利于抓捕图像中的细节信息，同时又不会过多增加计算时间、占用的显存资源。

初始分割网络704，用于根据场景特征预测该图像中各像素的语义类别，获得该图像的初始语义分割图。

物体网络706，用于根据场景特征与初始语义分割图，预测图像中的物体类别，获得物体类别响应数据。

目标分割网络708，用于根据物体类别响应数据对初始语义分割图进行修正，获得图像的目标语义分割图。

基于本发明上述实施例提供的图像语义分割装置，对图像进行特征提取，获得图像的场景特征，根据场景特征预测图像中各像素的语义类别，获得该图像的初始语义分割图；根据场景特征与初始语义分割图，预测该图像中的物体类别，获得物体类别响应数据，根据物体类别响应数据对初始语义分割图进行修正，获得图像的目标语义分割图，从而提高了图像语义分割的精确度。

图8为本发明实施例中初始分割网络一个实施例的结构示意图。如图8所示，在本发明各实施例的图像语义分割装置中，初始分割网络704可以包括：

两个或以上卷积层802，用于分别采用不同的卷积核大小，对场景特征进行卷积操作，获得两个或以上不同尺度的初始语义分割响应数据.

融合模块804，用于将两个或以上不同尺度的初始语义分割响应数据进行融合，获得图像的初始语义分割图。

图9为本发明实施例中物体网络一个实施例的结构示意图。如图9所示，在本发明各实施例的图像语义分割装置中，物体网络706可以包括：

第一乘法模块902，用于将场景特征与初始语义分割图相乘，获得图像中存在物体的场景特征.

获取模块904，用于根据图像中存在物体的场景特征获取图像中存在的各物体的特征.

第一分类模块906，用于分别根据图像中存在的各物体的特征对各物体进行分类，获得物体类别响应数据。

另外，再参见图9，在本发明实施例的进一步示例中，物体网络706还可以包括：降维模块908，用于对特征提取网络702输出的场景特征进行降维处理。相应地，该实施例中，第一乘法模块902具体将降维处理后的场景特征与初始语义分割图相乘。

图10为本发明实施例中目标分割网络一个实施例的结构示意图。如图10所示，在本发明各实施例的图像语义分割装置中，目标分割网络708可以包括：第二乘法模块1002，用于将物体类别响应数据与初始语义分割图进行卷积相乘，获得图像的目标语义分割图。

另外，再参见图10，在本发明实施例的进一步示例中，目标分割网络708还可以包括：尺寸调整模块1004，用于在物体网络706输出的物体类别响应数据与初始语义分割图的尺寸不一致时，将该物体类别响应数据插值为与初始语义分割图的尺寸一致的物体类别响应数据。相应地，该实施例中，第二乘法模块1002，具体将尺寸调整模块1004输出的物体类别响应数据与初始语义分割图进行卷积相乘，获得图像的目标语义分割图。

图11为本发明图像语义分割装置另一个实施例的结构示意图。如图11所示，与本发明上述各实施例的图像语义分割装置相比，本发明实施例中，图像语义分割装置还可以包括：行为网络710，用于根据存在物体的场景特征和物体类别响应数据，预测上述图像中存在的物体之间的交互关系，获得该图像的交互关系预测信息。

图12为本发明实施例中行为网络一个实施例的结构示意图。如图12所示，在本发明各实施例的图像语义分割装置中，行为网络710可以包括：

加法模块1202，用于分别将图像中存在的任意两个物体的场景特征相加，得到任意两个物体的组合场景特征。

特征提取模块1204，用于分别从各组合场景特征中提取交互行为特征。

第二分类模块1206，用于分别对提取到的各交互行为特征进行分类，获得图像中存在交互行为的物体以及交互行为的种类，交互关系预测信息包括图像中存在交互行为的物体以及交互行为的种类信息。

进一步地，在参见图11，在本发明图像语义分割装置的又一个实施例中，还可以包括：获取单元712，用于根据交互关系预测信息获取上述图像的描述信息，获得该图像的描述预测信息，该描述预测信息用于预测图像中物体之间的行为交互关系。

图13为本发明深度神经网络的训练装置一个实施例的结构示意图。如图13所示，该实施例深度神经网络的训练装置包括：

深度神经网络10，用于：对图像进行特征提取，获得该图像的场景特征；根据场景特征预测图像中各像素的语义类别，获得图像的初始语义分割图；根据场景特征与初始语义分割图，预测图像中的物体类别，获得物体类别响应数据；以及根据物体类别响应数据对初始语义分割图进行修正，获得图像的目标语义分割图。其中的图像包括自然图片数据集中的自然图片和/或全像素标注数据集中的标注图片。

本发明实施例中的深度神经网络10，可以作为本发明上述各实施例中的图像语义分割装置，实现本发明上述各实施例的图像语义分割方法，该深度神经网络10可以选择性地采用本发明上述任一实施例中图像语义分割装置的结构实现，具体请参见图7-图12所示实施例的记载，本发明训练装置的实施例中对此不再赘述。

网络训练单元20，用于利用自然图片数据集和全像素标注数据集对深度神经网络10进行训练。其中，自然图片数据集包括至少一张自然图片和各张自然图片的描述信息；全像素标注数据集包括标注图片，标注图片中的各像素标注有语义标签。

该实施例中的网络训练单元20可用于对初始深度神经网络10进行训练，获得最终的深度神经网络10，以作为本发明图7-图12所示各实施例中的图像语义分割装置，实现本发明上述各图像语义分割方法实施例。本发明实施例中的网络训练单元20，可以在深度神经网络10的训练完成后去除。

图14为本发明深度神经网络的训练装置另一个实施例的结构示意图。该实施例中，本发明上述各实施例中图像具体包括至少一张自然图片，深度神经网络10分别以该至少一张自然图片中的任一自然图片作为上述各实施例中的图像，对任一自然图片进行语义图像分割。如图14所示，该实施例中，网络训练单元20包括：

第一训练模块1302，用于响应于深度神经网络10获得上述至少一张自然图片的初始语义分割图，以该至少一张自然图片的第一标签作为监督信息，对深度神经网络中对至少一张自然图片进行特征提取的特征提取网络702和根据场景特征预测至少一张自然图片中各像素的语义类别的初始分割网络704进行监督训练。其中，第一标签包括分别基于至少一张自然图片的描述信息获得的语义标签。

第二训练模块1304，用于响应于深度神经网络10获得物体类别响应数据，以上述至少一张自然图片的描述信息作为监督信息，对深度神经网络10中预测图像中的物体类别的物体网络706进行训练。

另外，再参见图14，在另一个可选实施例中，网络训练单元20还可以包括：

第四训练模块1308，用于响应于深度神经网络获得上述至少一张自然图片的交互关系预测信息，以该至少一张自然图片的描述信息作为监督信息，对深度神经网络10中预测至少一张自然图片中存在的物体之间的交互关系的行为网络进710行训练。

图15为本发明深度神经网络的训练装置又一个实施例的结构示意图。该实施例中，本发明上述各实施例中图像包括至少一张标注图片。深度神经网络10分别以该至少一张标注图片中的任一标注图片作为上述各实施例中的图像，对该任一自然图片进行语义图像分割。如图15所示，该实施例中，网络训练单元20包括：

第一训练模块1302，用于响应于深度神经网络10获得上述至少一张标注图片的初始语义分割图，以该至少一张标注图片标注的语义标签作为监督信息，对深度神经网络10中对至少一张标注图片进行特征提取的特征提取网络702和根据场景特征预测至少一张标注图片中各像素的语义类别的初始分割网络704进行监督训练。

第二训练模块1304，用于响应于深度神经网络10获得物体类别响应数据，以上述至少一张标注图片的第二标签作为监督信息，对深度神经网络10中预测至少一张自然图片和至少一张标注图片中的物体类别的物体网络706进行训练。其中，第二标签包括分别基于上述至少一张标注图片中任一标注图片标注的语义标签获得的物体类别标签。

第三训练模块1306，用于响应于深度神经网络10获得上述至少一张标注图片的目标语义分割图，以该至少一张标注图片标注的语义标签作为监督信息，对深度神经网络10中根据物体类别响应数据对初始语义分割图进行修正的目标分割网络708进行训练。

另外，再参见图15，在另一个可选实施例中，网络训练单元20还可以包括：

第四训练模块1308，用于响应于深度神经网络10获得至少一张标注图片的交互关系预测信息，以上述至少一张标注图片的第三标签作为监督信息，对深度神经网络10中预测至少一张标注图片中存在的物体之间的交互关系的行为网络进710行训练。其中，第三标签包括分别基于至少一张标注图片中任一标注图片标注的语义标签获得的物体交互关系标签。

另外，在本发明深度神经网络的训练装置再一个实施例，本发明上述各实施例中图像包括至少一张自然图片和至少一张标注图片。深度神经网络10分别针对该至少一张自然图片和至少一张标注图片中的任一图片作为上述各实施例中的图像，对该任一图片进行语义图像分割。该实施例中，网络训练单元20包括：

第一训练模块1302，用于响应于深度神经网络10获得上述至少一张自然图片和至少一张标注图片的初始语义分割图，以该至少一张自然图片的第一标签、至少一张标注图片的语义标签作为监督信息，对深度神经网络10中对至少一张自然图片和至少一张标注图片进行特征提取的特征提取网络702和根据场景特征预测至少一张自然图片和至少一张标注图片中各像素的语义类别的初始分割网络704进行监督训练。其中，第一标签包括分别基于上述至少一张自然图片中任一自然图片的描述信息获得的语义标签。

第二训练模块1304，用于响应于深度神经网络10获得物体类别响应数据，以上述至少一张自然图片的描述信息、至少一张标注图片的第二标签作为监督信息，对深度神经网络10中预测至少一张自然图片和至少一张标注图片中的物体类别的物体网络706进行训练。其中，第二标签包括分别基于至少一张标注图片中任一标注图片标注的语义标签获得的物体类别标签。

第三训练模块1306，用于响应于深度神经网络10获得上述至少一张标注图片的目标语义分割图，以该至少一张标注图片标注的语义标签作为监督信息，对根据物体类别响应数据对初始语义分割图进行修正的目标分割网络708进行训练。

另外，在基于该训练装置再一个实施例的进一步实施例中，还可以包括：

第四训练模块1308，用于响应于深度神经网络10获得上述至少一张自然图片和至少一张标注图片的交互关系预测信息，以该至少一张自然图片的描述信息、至少一张标注图片的第三标签作为监督信息，对深度神经网络10中预测至少一张自然图片和至少一张标注图片中存在的物体之间的交互关系的行为网络710进行训练。其中，第三标签包括分别基于上述至少一张标注图片中任一标注图片标注的语义标签获得的物体交互关系标签。

本发明实施例还提供了一种电子设备，可以包括本发明上述任一实施例的图像语义分割装置或者深度神经网络的训练装置。

另外，本发明实施例还提供了另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与存储器通信以执行可执行指令从而完成本发明上述任一实施例的图像语义分割方法或者深度神经网络的训练方法的操作。

本发明上述各实施例的电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。

本发明实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本发明上述任一实施例的图像语义分割方法或者深度神经网络的训练方法的操作。

本发明实施例还提供了一种计算机程序，包括计算机可读取的指令，当该计算机可读取的指令在设备中运行时，设备中的处理器执行用于实现本发明上述任一实施例的图像语义分割方法或者深度神经网络的训练方法中的步骤的可执行指令。

图16为本发明电子设备一个实施例的结构示意图。下面参考图16，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图16所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1401，和/或一个或多个图像处理器(GPU)1413等，处理器可以根据存储在只读存储器(ROM)1402中的可执行指令或者从存储部分1408加载到随机访问存储器(RAM)1403中的可执行指令而执行各种适当的动作和处理。通信部1412可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器1402和/或随机访问存储器1403中通信以执行可执行指令，通过总线1404与通信部1412相连、并经通信部1412与其他目标设备通信，从而完成本申请实施例提供的任一图像语义分割方法对应的操作，例如，对图像进行特征提取，获得所述图像的场景特征；分别预测场景特征中各像素的语义类别，获得所述图像的初始语义分割图；根据所述场景特征与初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图。再如，利用自然图片数据集和/或全像素标注数据集对深度神经网络进行训练；其中，所述自然图片数据集包括至少一张自然图片和各张所述自然图片的描述信息；所述全像素标注数据集包括标注图片，所述标注图片中的各像素标注有语义标签；所述深度神经网络用于：对图像进行特征提取，获得所述图像的场景特征；其中，所述图像包括所述自然图片数据集中的自然图片和/或所述全像素标注数据集中的标注图片；根据所述场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图。

此外，在RAM 1403中，还可存储有装置操作所需的各种程序和数据。CPU1401、ROM1402以及RAM1403通过总线1404彼此相连。在有RAM1403的情况下，ROM1402为可选模块。RAM1403存储可执行指令，或在运行时向ROM1402中写入可执行指令，可执行指令使处理器1401执行上述通信方法对应的操作。输入/输出(I/O)接口1405也连接至总线1404。通信部1412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口1405：包括键盘、鼠标等的输入部分1406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407；包括硬盘等的存储部分1408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1411也根据需要连接至I/O接口1405。可拆卸介质1411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1411上，以便于从其上读出的计算机程序根据需要被安装入存储部分1408。

需要说明的，如图16所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图16的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，对图像进行特征提取，获得所述图像的场景特征的指令；分别预测场景特征中各像素的语义类别，获得所述图像的初始语义分割图的指令；根据所述场景特征与初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据的指令；根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图的指令。再如，利用自然图片数据集和/或全像素标注数据集对深度神经网络进行训练的指令；其中，所述自然图片数据集包括至少一张自然图片和各张所述自然图片的描述信息；所述全像素标注数据集包括标注图片，所述标注图片中的各像素标注有语义标签；所述深度神经网络用于：对图像进行特征提取，获得所述图像的场景特征；其中，所述图像包括所述自然图片数据集中的自然图片和/或所述全像素标注数据集中的标注图片；根据所述场景特征预测所述图像中各像素的语义类别，获得所述图像的初始语义分割图；根据所述场景特征与所述初始语义分割图，预测所述图像中的物体类别，获得物体类别响应数据；根据所述物体类别响应数据对所述初始语义分割图进行修正，获得所述图像的目标语义分割图。

本发明实施例使得图像语义分割的预测结果更加准确，可以更好地服务于自动驾驶、机器人场景理解等应用。例如，在近年的无人车自动驾驶中，车载摄像头探查到图像，后台计算机可以自动将图像进行语义分割归类，特别是将可以行驶的地方与不可以行驶的地方加以区分，以避让行人和车辆等障碍物；在家用机器人中，机器人摄像头探测到家中的场景，机器人内置电脑可以将场景自动进行语义分割与理解，知道家中的哪个工具在哪里，从而规划路径去拿取相应的工具，然后使用相应的工具完成各种家务。另外，还可以利用本发明对图片场景产生一些描述信息，供儿童学习。例如，小孩子学习看图说话时，只需要把这张图片输入电脑，利用本发明实施例的图像语义分割方便，便可自动生成关于这张图片的描述、再将文字转换成语音，小朋友可以跟着描述学习说话。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像语义分割方法，其特征在于，包括：

对图像进行特征提取，获得所述图像的场景特征；

2.根据权利要求1所述的方法，其特征在于，所述对图像进行特征提取，获得所述图像的场景特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述场景特征图的尺寸为M*M，其中，M的取值为大于20且小于60的整数。

4.一种深度神经网络的训练方法，其特征在于，包括：

所述深度神经网络用于：

5.一种图像语义分割装置，其特征在于，包括：

6.一种深度神经网络的训练装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括权利要求5所述的图像语义分割装置、或者权利要求6所述的深度神经网络的训练装置。

8.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1-3、或者权利要求4所述方法的操作。

9.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-3、或者权利要求4所述方法的操作。

10.一种计算机程序，包括计算机可读取的指令，其特征在于，当所述计算机可读取的指令在设备中运行时，所述设备中的处理器执行用于实现权利要求1-3、或者权利要求4所述方法中的步骤的可执行指令。