CN110070056B

CN110070056B - 图像处理方法、装置、存储介质及设备

Info

Publication number: CN110070056B
Application number: CN201910338835.0A
Authority: CN
Inventors: 亓鲁; 蒋理; 刘枢; 沈小勇; 贾佳亚; 戴宇荣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2023-01-10
Anticipated expiration: 2039-04-25
Also published as: US20210279503A1; JP2022514917A; EP3961485A4; WO2020216008A1; CN110070056A; JP7248799B2; EP3961485A1; KR20210097762A

Abstract

本申请公开了一种图像处理方法、装置、存储介质及设备，属于计算机视觉技术领域。所述方法包括：获取待预测图像，对所述待预测图像进行特征提取；生成所述待预测图像的至少一个候选区域，将所述至少一个候选区域映射到所述待预测图像的特征图上，一个所述候选区域包含一个实例；基于目标网络对映射后的所述特征图进行处理，以透视掩码指示所述待预测图像中被遮挡实例的整体结构，以非透视掩码指示所述被遮挡实例的不可见部分，所述透视掩码及所述非透视掩码表示了所述被遮挡实例的相对遮挡关系。本申请具有类似于人类视觉的推理能力，能够合理推理透视实例分割，推理实例的不可见部分，该种图像处理方式智能性较佳，丰富了图像处理方式。

Description

图像处理方法、装置、存储介质及设备

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种图像处理方法、装置、存储介质及设备。

背景技术

实例分割是一种寻找图像内每一个实例以及确定每一个实例类别的图像识别技术，常用于无人驾驶领域中对前方车辆的精确定位，从而辅助选择下一步的驾驶控制策略。

其中，透视实例分割属于实例分割技术的一个新方向，旨在模仿人类能力对图像内每一个实例进行分割，其中，分割的对象还包括实例被遮挡的不可见部分。即，透视实例分割类似于人类视觉具备的推理能力，可以推理出该实例被遮挡的不可见部分，从而判断出一个完整的目标。

基于以上描述可知，透视实例分割在诸如无人驾驶等领域具有重大意义。因此，如何进行图像处理，以实现基于透视实例分割来推理图像内每一个实例被遮挡的不可见部分，成为了本领域技术人员关注的一个焦点。

发明内容

本申请实施例提供了一种图像处理方法、装置、存储介质及设备，能够进行透视实例分割。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

获取待预测图像，对所述待预测图像进行特征提取；

生成所述待预测图像的至少一个候选区域，将所述至少一个候选区域映射到所述待预测图像的特征图上，一个所述候选区域包含一个实例；

基于目标网络对映射后的所述特征图进行处理，以透视掩码指示所述待预测图像中被遮挡实例的整体结构，以非透视掩码指示所述被遮挡实例的不可见部分，所述透视掩码及所述非透视掩码表示了所述被遮挡实例的相对遮挡关系。

另一方面，提供了一种图像处理装置，所述装置包括：

获取模块，用于获取待预测图像；

特征提取模块，用于对所述待预测图像进行特征提取；

生成模块，用于生成所述待预测图像的至少一个候选区域；

映射模块，用于将所述至少一个候选区域映射到所述待预测图像的特征图上，一个所述候选区域包含一个实例；

处理模块，用于基于目标网络对映射后的所述特征图进行处理，以透视掩码指示所述待预测图像中被遮挡实例的整体结构，以非透视掩码指示所述被遮挡实例的不可见部分，所述透视掩码及所述非透视掩码表示了所述被遮挡实例的相对遮挡关系。

在一种可能的实现方式中，所述处理模块，还用于对于每个所述候选区域，对所述候选区域进行像素校正处理，得到所述候选区域的特征图；

其中，所述候选区域的特征图包括第一特征图、第二特征图和第三特征图，所述第一特征图和所述第二特征图的尺寸一致，且小于所述第三特征图的尺寸。

在一种可能的实现方式中，所述处理模块，还用于对于每个所述候选区域，将所述第一特征图、所述第二特征图和所述第三特征图进行特征融合处理；将得到的融合特征图输入所述目标网络的第一分支结构进行处理。

在一种可能的实现方式中，所述目标网络还包括第二分支结构，所述处理模块，还用于对于每个所述候选区域，将所述第一特征图输入所述第二分支结构进行处理，得到所述候选区域包含实例的遮挡分类信息。

在一种可能的实现方式中，所述目标网络还包括第三分支结构，所述处理模块，还用于对于每个所述候选区域，将所述第二特征图输入所述第三分支结构进行处理，得到所述候选区域包含实例的语义标签和位置信息。

在一种可能的实现方式中，所述处理模块，还用于将所述第一特征图和所述第二特征图进行级联处理，得到第一中间特征图；将所述第一中间特征图依次经过一个反卷积层和两个卷积层进行处理，得到第二中间特征图；将所述第二中间特征图与所述第三特征图进行级联处理，得到第三中间特征图，将所述第三中间特征图依次经过三个卷积层进行处理，得到所述融合特征图。

在一种可能的实现方式中，所述处理模块，还用于将所述融合特征图输入第一反卷积层进行处理，得到第一处理特征图；将所述第一处理特征图输入所述第一分支结构包括的第一掩码分支，当所述候选区域包含实例为被遮挡实例时，得到所述候选区域包含实例的非透视掩码。

在一种可能的实现方式中，所述处理模块，还用于将所述融合特征图输入第二反卷积层进行处理，得到第二处理特征图；将所述第二处理特征图输入所述第一分支结构包括的第二掩码分支，得到所述候选区域包含实例的透视掩码。

在一种可能的实现方式中，所述处理模块，还用于基于所述第二分支结构，确定所述候选区域包含实例的被遮挡面积是否达到目标阈值；当所述候选区域包含实例的被遮挡面积达到所述目标阈值时，将所述候选区域包含实例的遮挡分类信息确定为被遮挡。

在一种可能的实现方式中，所述处理模块，还用于将所述第一特征图输入第一全连接层进行处理；将经过所述第一全连接层处理后的所述第一特征图输入所述第二分支结构进行处理。

在一种可能的实现方式中，所述处理模块，还用于将所述第二特征图输入第二全连接层进行处理；将经过所述第二全连接层处理后的所述第二特征图输入所述第三分支结构包括的分类分支进行处理，得到所述分类信息；将所述第二特征图输入第三全连接层进行处理；将经过所述第三全连接层处理后的所述第二特征图输入所述第三分支结构包括的回归分支进行处理，得到所述位置信息。

在一种可能的实现方式中，所述装置还包括：

训练模块，用于获取训练样本图像，所述训练样本图像中每个实例的标注信息至少包括用于指示类别的语义标签、相对遮挡顺序以及透视掩码；基于所述训练样本图像中被遮挡实例的相对遮挡顺序和透视掩码，确定所述训练样本图像中被遮挡实例的非透视掩码；根据标注有所述透视掩码、所述非透视掩码和所述语义标签的训练样本图像进行模型训练，得到所述目标网络。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的图像处理方法。

另一方面，提供了一种图像处理设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的图像处理方法。

本申请实施例提供的技术方案带来的有益效果是：

在获取到待预测图像后，首先对待预测图像进行特征提取以及生成待预测图像的至少一个候选区域，之后，将至少一个候选区域映射到待预测图像的特征图上，一个候选区域包含一个实例；接下来，基于目标网络对映射后的特征图进行处理，实现以透视掩码指示实例的整体结构并以非透视掩码指示实例被遮挡的不可见部分，透视掩码及非透视掩码表示了实例的相对遮挡关系，由于目标网络通过对特征图进行处理给出了实例的透视掩码和非透视掩码，因此本申请实施例不仅能够确定实例的整体结构，还能够精确地确定实例被遮挡的不可见部分，即目标网络具有类似于人类视觉的推理能力，能够合理推理透视实例分割，所以该种图像处理方式智能性较佳，丰富了图像处理方式。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像示意图；

图2是本申请实施例提供的另一种图像示意图；

图3是本申请实施例提供的另一种图像示意图；

图4是本申请实施例提供的一种图像处理方法涉及的实施环境示意图；

图5是本申请实施例提供的一种图像处理方法涉及的网络结构的结构图；

图6是本申请实施例提供的一种多分支编码的过程示意图；

图7是本申请实施例提供的另一种图像示意图；

图8是本申请实施例提供的另一种图像示意图；

图9是本申请实施例提供的另一种图像示意图；

图10是本申请实施例提供的另一种图像示意图；

图11是本申请实施例提供的另一种图像示意图；

图12是本申请实施例提供的另一种图像示意图；

图13是本申请实施例提供的另一种图像示意图；

图14是本申请实施例提供的另一种图像示意图；

图15是本申请实施例提供的另一种图像示意图；

图16是本申请实施例提供的另一种图像示意图；

图17是本申请实施例提供的一种图像处理方法的流程图；

图18是本申请实施例提供的另一种图像处理方法的流程图；

图19是本申请实施例提供的另一种图像处理方法的流程图；

图20是本申请实施例提供的另一种图像示意图；

图21是本申请实施例提供的一种图像处理装置的结构示意图；

图22是本申请实施例提供的一种图像处理设备的结构示意图

图23是本申请实施例提供的一种图像处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例涉及到的一些名词进行解释说明。

实例：在本申请实施例中，实例指代图像中出现的一个个具体的目标或对象。以无人驾驶场景为例，实例可为前方出现的车辆或人。

实例分割：其是一种寻找图像内每一个实例以及确定每一个实例类别的图像识别技术。换一种表达方式，实例分割是一种在像素层面识别目标轮廓的任务。比如，机器自动利用目标检测方法从图像中框出不同实例，再利用语义分割方法在不同实例区域内进行逐像素标记。

作为一个示例，实例分割常用于无人驾驶领域中对前方车辆的精确定位，从而辅助选择下一步的驾驶控制策略。

示例一、语义分割方法不区分属于相同类别的不同实例。例如，当一张图像中有两只猫时，语义分割方法会将两只猫的所有像素预测为猫这个类别。而实例分割需要区分出图像中哪些像素属于第一只猫、哪些像素属于第二只猫。

示例二、图1中分别示出了分类+定位、物体检测与实例分割的区别。

左上图示出了分类+定位对图像的处理结果，其中，图像分类处理的是将类别标签分配给图像，定位是给出目标在图像中的位置。

右上图示出了物体检测对同一张图像的处理结果，其中，物体检测是从感兴趣的一组固定类别开始，每当这些类别中的任何一种出现在输入图像中时，便会在周围画出边界框，并预测它的类别标签。与分类和定位的不同之处在于，物体检测仅对单个目标进行分类和绘制边界框。

图1中的下图示出了实例分割对同一张图像的处理结果，其中，实例分割是一种语义分割和目标检测相结合的技术。给定一张图像，能够预测出该图像中目标的位置和身份(类似于目标检测)，但是，与其预测目标的边界框，不如预测目标的整个分割掩码，即输入图像中的哪个像素对应于哪个目标。相应地，该图像中的每一只绵羊(sheep)分别得到了一个不同的分割掩码。

而语义分割中所有绵羊的分割掩码相同。即，语义分割是输出每个像素的类别决策。换一种表达方式，语义分割是将每个像素划分为几个可能的类别之一。这意味着，图1中所有携带绵羊的像素均会被分类为一个类别，输出不会区分两种不同的绵羊。

透视实例分割：属于实例分割技术的一个新方向，旨在模仿人类能力对图像内每一个实例进行分割，其中，分割的对象还包括实例被遮挡的不可见部分。即，透视实例分割类似于人类视觉具备的推理能力，可以基于一个实例未遮挡的可见部分，推理出该实例被遮挡的不可见部分，从而判断出一个完整的目标。

透视掩码：其为二进制掩码，能够说明给定像素是否属于实例的一部分，比如，当某一像素属于实例时标识为1，否则标识为0。

在本申请实施例中，透视掩码针对实例的整体结构，即既包括实例的可见部分，也包括不可见部分，透视掩码用于指示实例的整体结构。

作为一个示例，实例的非透视掩码可基于该实例的透视掩码和相对遮挡顺序计算得到。非透视掩码也为二进制掩码，也是用于说明给定像素是否属于实例的一部分，但是，非透视掩码仅针对该实例的不可见部分。即，非透视掩码指示实例被遮挡的不可见部分。另外，针对一个被遮挡实例来说，其透视掩码和非透视掩码还能够表示该实例的相对遮挡关系。

如前文所述，由于透视实例分割需要推理实例的复杂结构，因此尽管该项任务十分重要且具有未来感，但由于难以正确且一致地标记实例的不可见部分，所以相关技术中缺乏针对这项任务的大规模且详细标注的数据集，这为探索视觉识别的前沿创造了巨大的障碍。而基于数据驱动的深度学习方法受限于数据集的缺乏，从而进一步限制了对透视实例分割任务的探索。另外，相关技术中针对透视实例分割任务的网络往往采用传统的实例分割网络，比如Mask R-CNN模型，并没有任何针对透视实例分割任务的特殊性改进。

换一种表达方式，相关技术中缺乏大规模且详细标注的透视实例分割数据集以及专门针对透视实例分割任务的网络。由于相关技术并没有针对透视实例分割任务进行探索，因此并不能满足产品端的要求。如图2和图3所示，Mask R-CNN模型随着训练次数的增加，对实例的遮挡部分的推理能力变得越来越差。其中，图2对应20000的训练次数，图3对应24000的训练次数。

基于上述描述的问题，本申请实施例提出了一种图像处理方法，该方法不但可以预测出图像中每一个实例的像素级别位置，而且能够推断出每一个实例被遮挡的不可见部分。

在本申请实施例中，一方面精细标注了大规模的透视实例数据集。作为一个示例，在数量上，该数据集包括近15000张图像；在质量上，本申请实施例分别标注了每个实例的语义标签、透视掩码以及相对遮挡顺序，因此，每个实例的非透视掩码也可以很容易地计算得到，使得数据集更具有普适意义。

另一方面，本申请实施例提出了多分支编码的多任务框架，该种网络能够更好地推理实例被遮挡的不可见部分，从而使得该种网络具有类似于人类视觉的推理能力。

下面对本申请实施例提供的图像处理方法涉及的实施环境进行介绍说明。

参见图4，该实施环境包括图像处理设备401。其中，图像处理设备401为具有机器学习能力的计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，还可以是平板电脑、智能手机、电子书阅读器等移动式计算机设备，本申请实施例对此不进行具体限定。

在本申请实施例中，图像处理设备401上设置有如图5所示的网络。其中，该网络中多分支编码的详细结构如图6所示。

其中，图像处理设备401用于接收外部输入的待预测图像，并基于该网络执行本申请实施例提供的图像处理方法。

作为一个示例，以该图像处理方法应用在AI(Artificial Intelligence，人工智能)领域的无人驾驶场景为例，则待预测图像可为摄像设备拍摄到的街景图像。换一种表达方式，摄像设备可为无人驾驶车辆上配备的摄像头，也即，本申请实施例提供的图像处理方法可应用于AI领域，比如应用在AI领域的无人驾驶车辆上。另外，本申请实施例的应用场景包括但不限于无人驾驶这种用于模拟人类智能的场景下。其中，AI是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术，已被广泛应用在其他诸如图像处理、人脸识别、游戏、医疗等领域。

本申请实施例提供的图像处理方法涉及到大规模且详细标注的训练数据集和图5所示的网络。

在训练数据集方面，如前文所述，对于训练数据集中的每张图像，对该图像内的各个实例均进行了标注，其中，标注信息包括语义标签、相对遮挡顺序以及透视掩码。基于该训练数据集训练图5所示的网络，使得配置有该网络的图像处理设备401进行透视实例分割成为可能。

在网络方面，针对透视实例分割任务，本申请实施例在分类+回归分支和Mask(掩码)分支的基础上，还增加了遮挡分类分支。其中，分类+回归分支用于检测实例的语义标签和实例在图像中的大体区域，Mask分支用于对该实例的大体区域进行进一步地精确掩码分割，遮挡分类分支用于判断该实例是否被遮挡，给出遮挡分类信息。

另外，本申请实施例还提出了多分支编码，即本申请实施例会融合分类+回归分支的特征信息、遮挡分类分支的特征信息以及Mask分支的特征信息，基于融合后的特征信息来辅助Mask分支推理透视实例分割。

其中，Mask分支在本申请实施例中又分为图5所示的两个分支，这两个分支分别用于透视分割和非透视分割，分别对应实例的整体结构和不可见部分。其中，在本文中非透视分割分支也称之为第一掩码分支，透视分割分支也可称之为第二掩码分支。

接下来对本申请实施例使用的训练数据集进行介绍。

在本申请实施例中，训练数据集也可称之为透视实例数据集。作为一个示例，以无人驾驶场景为例，训练数据集可来源于无人驾驶数据集KITTI，也称之为KITTI INStance数据集(简称KINS)。

在一种可能的实现方式中，本申请实施例在KITTI数据集中标注了共14991张图像，形成了大规模的透视实例数据集，即KINS。

作为一个示例，该数据集分为两部分，其中7474张图像用于进行模型或网络训练，剩余的7517张图像用于进行网络或模型测试。

在一种可能的实现方式中，实例标注包括三种，分别为透视掩码、语义标签和相对遮挡顺序。

在本申请实施例中，为了获得高质量和一致性的标注信息，可以遵循下述的三个实例标注规则：

(1)、在特定的语义类别中进行语义标注；

(2)、标注图像中实例之间的相对遮挡顺序；

(3)、针对每个实例，包括该实例被遮挡的不可见部分，进行像素级别的标注。

基于上述三个规则，本申请实施例可通过下述步骤来标记图像中的实例。

第一步、对于每张图像，可以由一位资深标注员来标注该图像中具体实例的特别类型和边界框，其中，标注顺序还需遵循由近及远的相对遮挡顺序。

第二步、由N个标注员对该图像中的每一个实例进行透视掩码标注。作为一个示例，N的取值可以是3，即由三个标注员来对同一个实例进行透视掩码标注，本申请实施例对此不进行具体限定。

第三步、对每一个标注员的像素级别标注进行汇总。

在一种可能的实现方式中，可采用满足上述标注规则的标注工具来完成标注，本申请实施例对此不进行具体限定。其中，在采用标注工具进行标注时，界面可如图7所示。

作为一个示例，标注的详细过程如下:

(1)、语义标注

在本申请实施例中，实例属于特定类别。作为一个示例，针对KINS数据集，语义标签是有组织的2层分层结构，定义了一般类别和子类别之间的包含关系。即，语义标签用于指示实例的类别。

其中，鉴于KINS数据集中的所有图像均是街景图像，因此选择2个代表性类别作为一般类别，而选择8个代表性类别作为子类别。一般类别可包括人和车。进一步地，一般类别“人”细分为“行人”，“骑车人”和“坐着的人”共3个子类别；一般类别“车”细分为“汽车”、“电动车”、“卡车”、“敞篷车”和“其他车”共5个子类别。其中，其他车指代的是不包括上述4类车的之外的其他车。

(2)、相对遮挡顺序

在一种可能的实现方式中，对于每张图像，可以由资深标注员采用边界框注释该图像内的各个实例并对各个实例进行相对遮挡顺序排序。

其中，对于遮挡实例之间的顺序，该图像中的各个实例首先会被分成几个断开连接的集群，其中，每个集群中都有几个连接的实例便于遮挡顺序的排序。比如在图3中，左边出现的汽车和右边出现的汽车便属于两个断开连接的集群。

换一种表达方式，相对遮挡顺序是基于每个实例与摄像机之间的距离。与摄像机之间的距离越近，实例不被遮挡的可能性越高。

参见图8至图13，同一个集群中的实例是从近距离的实例开始顺序标注的，即从距离摄像机最近的实例开始标注。其中，图8和图9对应，图10和图11对应，图12和图13对应，图8、图10和图11示出了未进行相对遮挡顺序标注的街景图像，图9、图11和图13示出了进行相对遮挡顺序标注的街景图像。

作为一个示例，不存在遮挡的非重叠实例的相对遮挡顺序标记为0，该集群中被遮挡的重叠实例顺序从1开始标记，每当被遮挡一次时相对遮挡顺序增加1。

(3)、透视掩码标注

在本申请实施例中，由N个标注员对一张图像中的每一个实例进行透视掩码标注。作为一个示例，可以由三个标注员标记每一个实例在其相应的边界框中的透视掩码。其中，该步骤的重点是N位标注员分别独立地推断出实例的被遮挡部分，然后基于N位标注员独立对相同实例的掩码预测，来确定该实例的透视掩码。在一种可能的实现方式中，对一个实例的透视掩码标注是由N位标注员的多数投票决定。

作为一个示例，图14至图16示出了图像实例的标注过程。其中，图14示出了原始未进行标注的图像，图15示出了透视实例分割标注结果，图16示出了相对遮挡顺序的标注结果，其中，颜色越浅代表相应的实例越不被遮挡。

在一种可能的实现方式中，在基于上述训练数据集进行模型训练时，可采取如下方式：

第一步、获取训练样本图像，该训练样本图像中每个实例的标注信息包括：该实例的相对遮挡顺序、指示该实例类别的语义标签和该实例的透视掩码。

其中，该训练样本图像即指代前述的训练数据集中包括的图像。

第二步、对于该训练样本图像中的被遮挡实例，基于被遮挡实例的相对遮挡顺序和透视掩码，确定被遮挡实例的非透视掩码，根据标注有透视掩码、非透视掩码和语义标签的训练样本图像进行模型训练，得到目标网络。

其中，根据相对遮挡顺序能够推断出一个实例是被其他实例遮挡，还是遮挡其他实例。若是该实例被其他实例遮挡，则根据该实例的相对遮挡顺序还能够确定该实例具体被几个实例所遮挡；作为一个示例，根据其他实例的透视掩码和该实例的透视掩码，便可以推断出该实例的非透视掩码。

在本申请实施例中，基于携带上述标注信息的训练样本图像，对具有图5所示结构的初始网络进行训练。其中，训练过程即是对网络参数的不断进行优化过程。作为一个示例，可采用交叉熵损失函数进行优化处理，本申请实施例对此不进行具体限定。在训练结束后即可得到图5所示的目标网络。另外，在训练结束后，还可以基于测试数据对网络进行测试，以检验网络预测能力。

由于目标网络基于携带上述标注信息的训练样本图像训练得到，因此目标网络不但能够精确指示透视实例分割，而且还能够确定实例的类别信息以及遮挡分类信息等，特别地，在基于上述训练样本图像进行模型训练后，得到的目标网络能够精确地确定待预测图像中实例被遮挡的不可见部分，即目标网络具有类似于人类视觉的推理能力，能够合理推理透视实例分割，所以该种图像处理方式智能性较佳，丰富了图像处理方式。

下面对本申请实施例提供的图像处理方法进行详细地解释说明。需要说明的是，下述实施例中出现的类似第一、第二、第三、第四等描述，仅是用于区分不同的对象，而不构成诸如先后顺序等任何其他的限定。

图17是本申请实施例提供的一种图像处理方法的流程图。参见图17，本申请实施例提供的方法流程包括：

1701、获取待预测图像，对待预测图像进行特征提取。

以无人驾驶场景为例，则待预测图像可为无人车辆上配置的摄像设备拍摄的街景图像，其中，该街景图像中包括但不限于：车辆、人、道路两旁的树木、交通标志牌、广告牌等。

在一种可能的实现方式中，参见图5，在对待预测图像进行特征提取时，可采用卷积backbone结构，其中，卷积backbone结构可包括多个卷积层和多个池化层，即待检测图像在输入卷积backbone结构后，经过多个卷积层和多个池化层的处理，得到整张图像的特征图(feature map)。

另外，在将待预测图像输入卷积backbone结构之前，还可先对待预测图像进行预处理操作，其中，预处理操作包括但不限于调整尺寸或降噪等，本申请实施例对此不进行具体限定。

1702、生成待预测图像的至少一个候选区域，将至少一个候选区域映射到待预测图像的特征图上，一个候选区域包括一个实例。

在本申请实施例中，可基于区域生成网络生成待预测图像的至少一个候选区域。作为一个示例，该区域生成网络可为RPN(Region Proposal Network，区域建议网络)，本申请实施例对此不进行具体限定。

需要说明的是，此处提及的至少一个候选区域指代的是经过过滤后剩余的包括图像前景实例的候选区域。继续以无人驾驶场景为例，则图像前景实例指代的是属于图像前景的车辆或人。

在一种可能的实现方式中，由于待预测图像的特征图通常为卷积backbone结构的最后一个卷积层输出的feature map，因此是将至少一个候选区域映射到这一feature map上。

另外，该至少一个候选区域在本文中也称之为ROI(Region Of Interest,感兴趣区域)，本申请实施例对此同样不进行具体限定。

1703、基于目标网络对映射后的特征图进行处理，以透视掩码指示待预测图像中被遮挡实例的整体结构，以非透视掩码指示被遮挡实例的不可见部分，透视掩码及非透视掩码表示了被遮挡实例的相对遮挡关系。

在本申请实施例中，目标网络至少包括第一分支结构。在一种可能的实现方式中，如图5所示，上述第一分支结构即指代透视分割分支和非透视分割分支，其中，第一分支结构在本文中也称之为Mask分支。

在另一种可能的实现方式中，目标网络还包括用于确定遮挡分类信息的第二分支结构，其中，遮挡分类信息用于指示实例未遮挡或被遮挡；参见图5，上述第二分支结构即指代遮挡分类分支。

另外，目标网络还包括分类分支和回归分支，在本文中分类分支和回归分支统称为第三分支结构或检测框分支。其中，分类分支负责对实例进行分类，回归分支负责确定实例在图像中的位置。

在本申请实施例中，参见图5，在完成至少一个候选区域映射后，还需先通过ROIAlign层对每一个ROI进行像素校正。

其中，ROI Align能够解决ROI Pooling操作中因两次量化造成的区域不匹配(mis-alignment)问题。ROI Align的思路为：取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。

作为一个示例，ROI Align操作的过程为：遍历每一个ROI，保持浮点数边界不进行量化；对于每一个ROI，将该ROI分割成k x k个单元，每个单元的边界也不进行量化。在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

其中，ROI Align实现了：首先将原始的待预测图像和上述特征提取后得到的feature map的像素对应起来，然后将feature map和固定尺寸大小的feature map对应起来。换一种表达方式，通过RoI Align层使每个RoI生成了固定尺寸的feature map。

在本申请实施例中，参见图5，对于每个候选区域，在对该候选区域进行像素校正处理后，得到了多个特征图；如图5所示，对于每一个ROI，图5中的三角形符号、梭形符号以及六边形符号分别指代一种特征图。

为了便于标识，在本文中将六边形符号对应的特征图称之为第一特征图，将梭形符号对应的特征图称之为第二特征图，将三角形符号对应的特征图称之为第三特征图。其中，如图5所示，第一特征图和第二特征图的尺寸大小一致，且小于第三特征图的尺寸。比如第一特征图和第二特征的大小为7*7，第三特征图的大小为14*14。

在一种可能的实现方式中，参见图5，本申请实施例在进行掩码预测时会采用多分支编码进行特征融合，即，遮挡分类分支的特征(第一特征图)、检测框分支的特征(第二特征图)以及用于掩码预测的特征(第三特征图)，会通过图5所示的多分支编码模块进行特征融合，实现通过融合检测框分支、遮挡分类分支以及Mask分支的特征，来辅助Mask分支推理透视实例分割。

作为一个示例，参见图18，基于目标网络对映射后的特征图进行处理，包括：

步骤1703-1、对于每个候选区域，将该候选区域的第一特征图输入第二分支结构进行处理，得到该候选区域包含实例的遮挡分类信息。

步骤1703-2、将该候选区域的第一特征图、第二特征图和第三特征图进行特征融合处理；将得到的融合特征图输入第一分支结构进行处理。

本申请实施例提供的方法，在获取到待预测图像后，首先对待预测图像进行特征提取以及生成待预测图像的至少一个候选区域，之后，将至少一个候选区域映射到待预测图像的特征图上，一个候选区域包含一个实例；接下来，基于目标网络对映射后的特征图进行处理，实现以透视掩码指示实例的整体结构并以非透视掩码指示实例被遮挡的不可见部分，由于目标网络通过对特征图进行处理给出了实例的透视掩码和非透视掩码，因此本申请实施例不仅能够精确地确定实例的整体结构，还能够精确地确定实例被遮挡的不可见部分，即目标网络具有类似于人类视觉的推理能力，能够合理推理透视实例分割，所以该种图像处理方式智能性较佳，丰富了图像处理方式。

另外，在网络结构上本申请实施例还在检测框分支和Mask分支的基础上，新增了遮挡分类分支，而通过遮挡分类分支能够有效地确定实例的遮挡分类信息，即能够有效确定实例是被遮挡还是未被遮挡，进一步地丰富了图像处理方式，效果较佳。

另外，本申请实施例还提出了通过多分支编码进行多特征融合，而通过多分支融合，使得目标网络能够更好地推理实例被遮挡的不可见部分。换一种表达方式，通过多特征融合使得目标网络更加具有类似于人类视觉的推理能力，能够更加合理地推理实例的不可见部分，

需要说明的是，为了在下文中便于描述，将图5中与遮挡分类分支连接的全连接层FC称之为第一全连接层，与分类分支连接的全连接层FC称之为第二全连接层，与回归分支连接的全连接层FC称之为第三全连接层。

检测框分支

在另一个实施例中，参见图19，基于目标网络对映射后的特征图进行处理，还包括：

步骤1703-3、将该候选区域的第二特征图输入第三分支结构进行处理，得到该候选区域包含实例的语义标签和位置信息。

在一种可能的实现方式中，参见图5，将第二特征图输入第三分支结构进行处理，包括但不限于：将第二特征图输入第二全连接层进行处理；将经过第二全连接层处理后的第二特征图输入第三分支结构包括的分类分支进行处理，得到该候选区域包含实例的语义标签；将第二特征图输入第三全连接层进行处理；将经过第三全连接层处理后的第二特征图输入第三分支结构包括的回归分支进行处理，得到该候选区域包含实例的位置信息。其中，位置信息可为该候选区域包含实例的边界框的offset。由于在实例标注时标注了每个实例的边界框，因此本公开实施例能够对实例的位置信息进行预测。

本申请实施例提供的方法，目标网络包括检测框分支、遮挡分类分支以及Mask分支，而通过检测框分支能够完成对实例的分类和定位，即确定了实例的了类别标签和实例在待检测图像中的具体位置。

遮挡分类分支

通常来讲，在区域生成网络中采样512个候选区域，其中仅有128个候选区域是包括图像前景的。进一步地，根据训练过程的统计，这128个包括图像前景的候选区域中一般最多仅有40个候选区域中存在遮挡的情况，而大部分被遮挡区域通常仅包含1个到10个左右的像素。遮挡样本和非遮挡样本的极端不平衡会对网络的训练质量造成极大影响。同时，在提取候选区域的特征之后，小区域的特征会十分不明显。基于上述考虑，本申请实施例选取遮挡区域面积大于边界框面积预设百分比的作为遮掩采样。作为一个示例，预设百分比的取值可为5％，本申请实施例对此不进行具体限定。

基于以上描述，在一种可能的实现方式中，上述步骤1703-1将第一特征图输入第二分支结构进行处理，得到该候选区域包含实例的遮挡分类信息，包括但不限于：基于第二分支结构，确定该候选区域包含实例的被遮挡面积是否达到目标阈值；当该候选区域包含实例的被遮挡面积达到目标阈值时，将该候选区域包含实例的遮挡分类信息确定为被遮挡。另外，当被遮挡时，还可给出具体的遮挡情况说明，比如有几个实例进行了遮挡以及实例的相对遮挡顺序，本申请实施例对此不进行具体限定。

其中，目标阈值可为边界框面积的5％，本申请实施例对此不进行具体限定。

作为一个示例，参见图5，将第一特征图输入第二分支结构进行处理之前，会先将第一特征图输入第一全连接层进行处理；之后，将经过第一全连接层处理后的第一特征图输入第二分支结构进行处理。

在一种可能的实现方式中，遮掩分类分支的结构与检测框分支中分类分支的结构一直，仅是最后一层进行被遮挡和未遮挡的二分类。作为一个示例，分类分支包括4个卷积层和1个FC层，而遮挡分类分支同样包括4个卷积层和1个FC层，除此之外还包括1个二分类的softmax层。

本申请实施例提供的方法，目标网络包括检测框分支、遮挡分类分支以及Mask分支，而通过遮挡分类分支能够有效地确定实例的遮挡分类信息，即能够有效地确定实例是被遮挡还是未被遮挡。

多分支特征融合

遮掩分类分支可以使目标网络提取出有效的遮挡特征。在本申请实施例中，为了进一步地增强目标网络预测透视掩码或非透视掩码的能力，本申请实施例提出多分支编码模块来进行特征融合，以放大掩码预测中的全局信息。其中，Mask分支旨在进行精细化的像素级别的掩码预测。而检测框分支和遮掩分类分支的特征信息，可以作为全局指导信息来指导Mask分支。

在一种可能的实现方式中，多分支编码模块的结构如图6所示。首先，将遮挡分类分支的特征信息和检测框分支的特征信息进行级联(CONCAT)，级联之后进行进一步的融合，包括一个反卷积层(DECONV)和两个卷积层(CONV)；之后，将融合后的特征信息与Mask分支的特征信息进行级联，之后再进行融合，包括三个卷积层，将最后融合的特征信息用来进行透视掩码或非透视掩码预测。

基于以上描述可知，在一种可能的实现方式中，上述步骤1703-2中将第一特征图、第二特征图和第三特征图进行特征融合处理，包括但不限于：

将第一特征图和第二特征图进行级联处理，得到第一中间特征图；将第一中间特征图依次经过一个反卷积层和两个卷积层进行处理，得到第二中间特征图；将第二中间特征图与第三特征图进行级联处理，得到第三中间特征图，将第三中间特征图依次经过三个卷积层进行处理，得到融合特征图。

其中，上述融合特征图即对应图6中的五边形符号。卷积操作会保持特征的空间维度，而反卷积操作会增大特征的空间维度。

另外，上述步骤1703-2中将得到的融合特征图输入第一分支结构，得到候选区域包含实例被遮挡的不可见部分，包括但不限于：

步骤a、将融合特征图输入第一反卷积层进行处理，得到第一处理特征图。

本步骤是利用反卷积操作进行特征空间维度的增加，即提升分辨率。

步骤b、将第一处理特征图输入第一分支结构包括的第一掩码分支，当该候选区域包含实例为被遮挡实例时，得到该候选区域包含实例的非透视掩码。

其中，基于该非透视掩码，即可确定该候选区域包含实例被遮挡的不可见部分。

在另一种可能的实现方式中，本申请实施例还包括：

步骤c、将融合特征图输入第二反卷积层进行处理，得到第二处理特征图。

步骤d、将第二处理特征图输入第一分支结构包括的第二掩码分支，得到该候选区域包含实例的透视掩码。

其中，基于该透视掩码，即可确定该候选区域包含实例的整体结构，其中，整体结构包括可见部分和不可见部分。

在一种可能的实现方式中，Mask分支的结构可以与检测框分支中分类分支的结构一致，比如Mask分支中的透视分割分支和非透视分割分支均包括4个卷积层，本申请实施例对此不进行具体限定。

本申请实施例提供的方法，通过多分支融合，使得目标网络能够更好地推理透视实例分割。

在另一个实施例中，本申请实施例提供的图像处理方法的应用场景包括但不限于下述两种：

示例一、本申请实施例提供的透视实例分割可以应用于无人驾驶场景。

针对该场景，当无人驾驶车辆处于行驶状态时，无人驾驶车辆上安装的摄像头可实时拍摄诸如图8、图10、图12和图13所示的街景图像。对于拍摄到的街景图像，该街景图像中可能包括行驶中的车辆、静止的车辆、行人、骑车的人等，受限于视野范围影响，当前街景图像中有的实例可能会被其他实例遮挡，而由于被遮挡部分不可见，即视线不可达，因此对无人驾驶可能会产生不良影响，比如无人驾驶车辆未能及时避开被遮挡的实例等。

本公开实施例提供的透视实例分割任务可以辅助无人驾驶系统执行精确的驾驶控制策略，比如，基于透视实例分割可以辅助无人驾驶系统在获取到街景图像中被遮挡实例的可见部分时，进一步地基于该可见部分推理出该实例的不可见部分，即得到该实例的整个结构，从而能够有效降低无人驾驶系统中检测信号抖动的情况发生，能够实现无人驾驶车辆根据当前的路况精确地执行驾驶控制策略。

示例二、本申请实施例提供的透视实例分割还可以应用于拍摄或下载场景。

作为一个示例，拍摄场景可为智能机器人执行任务时的拍摄场景。即，本公开实施例提供的透视实例分割任务也可应用在智能机器人场景下。以智能机器人执行清扫任务为例，智能机器人上配置的摄像头可实时拍摄前方图像，拍摄到的图像中可能包括影响智能机器人行动的障碍物，与上述图8、图10、图12和图13示出的遮挡情况类似，参见图20，拍摄到的图像中有的障碍物可能会被其他障碍物遮挡，而由于被遮挡部分不可见，即视线不可达，因此对智能机器人执行清扫任务可能会产生不良影响，然而，由于本公开实施例提供的透视实例分割任务可以基于一个示例的可见部分来推断被遮挡的不可见部分，因此能够有效地辅助智能机器人完成清扫任务。

针对下载场景，下载的图像中部分人或物可能会被其他人或物遮挡，或者，受限于网络原因下载的图像中可能仅仅包含部分有效信息，而丢失了另一部分信息，大多数情形下，用户会想要查看一个完整的目标，而本公开实施例提供的透视实例分割任务由于可以基于一个示例的可见部分，推断出其不可见部分，因此能够实现帮助用户查看完整目标。

换一种表达方式，本申请实施例提供的图像处理方法在自然图像包含的高度语义结构的目标上表现优异。

综上所述，上述提供的图像处理方法有着广泛的应用场景，不仅仅可适用于上述两种场景，还可用于其他场景下，仅需提供不同类型的训练数据进行训练即可。

图21是本申请实施例提供的一种图像处理装置的结构示意图。参见图21，该装置包括：

获取模块2101，用于获取待预测图像；

特征提取模块2102，用于对所述待预测图像进行特征提取；

生成模块2103，用于生成所述待预测图像的至少一个候选区域；

映射模块2104，用于将所述至少一个候选区域映射到所述待预测图像的特征图上，一个所述候选区域包含一个实例；

处理模块2105，用于基于目标网络对映射后的所述特征图进行处理，以透视掩码指示所述待预测图像中被遮挡实例的整体结构，以非透视掩码指示所述被遮挡实例的不可见部分，所述透视掩码及所述非透视掩码表示了所述被遮挡实例的相对遮挡关系。

本申请实施例提供的装置，在获取到待预测图像后，首先对待预测图像进行特征提取以及生成待预测图像的至少一个候选区域，之后，将至少一个候选区域映射到待预测图像的特征图上，一个候选区域包含一个实例；接下来，基于目标网络对映射后的特征图进行处理，实现以透视掩码指示实例的整体结构并以非透视掩码指示实例被遮挡的不可见部分，由于目标网络通过对特征图进行处理给出了实例的透视掩码和非透视掩码，因此本申请实施例不仅能够精确地确定实例的整体结构，还能够精确地确定实例被遮挡的不可见部分，即目标网络具有类似于人类视觉的推理能力，能够合理推理透视实例分割，所以该种图像处理方式智能性较佳，丰富了图像处理方式。

在一种可能的实现方式中，处理模块2105，还用于对于每个所述候选区域，对所述候选区域进行像素校正处理，得到所述候选区域的特征图；

在一种可能的实现方式中，处理模块2105，还用于对于每个所述候选区域，将所述第一特征图、所述第二特征图和所述第三特征图进行特征融合处理；将得到的融合特征图输入所述目标网络的第一分支结构进行处理。

在一种可能的实现方式中，所述目标网络还包括第二分支结构，处理模块2107，还用于对于每个所述候选区域，将所述第一特征图输入所述第二分支结构进行处理，得到所述候选区域包含实例的遮挡分类信息。

在一种可能的实现方式中，所述目标网络还包括第三分支结构，处理模块2105，还用于对于每个所述候选区域，将所述第二特征图输入所述第三分支结构进行处理，得到所述候选区域包含实例的语义标签和位置信息。

在一种可能的实现方式中，处理模块2105，还用于将所述第一特征图和所述第二特征图进行级联处理，得到第一中间特征图；将所述第一中间特征图依次经过一个反卷积层和两个卷积层进行处理，得到第二中间特征图；将所述第二中间特征图与所述第三特征图进行级联处理，得到第三中间特征图，将所述第三中间特征图依次经过三个卷积层进行处理，得到所述融合特征图。

在一种可能的实现方式中，处理模块2105，还用于将所述融合特征图输入第一反卷积层进行处理，得到第一处理特征图；将所述第一处理特征图输入所述第一分支结构包括的第一掩码分支，当所述候选区域包含实例为被遮挡实例时，得到所述候选区域包含实例的非透视掩码。

在一种可能的实现方式中，处理模块2105，还用于将所述融合特征图输入第二反卷积层进行处理，得到第二处理特征图；将所述第二处理特征图输入所述第一分支结构包括的第二掩码分支，得到所述候选区域包含实例的透视掩码。

在一种可能的实现方式中，处理模块2105，还用于基于所述第二分支结构，确定所述候选区域包含实例的被遮挡面积是否达到目标阈值；当所述候选区域包含实例的被遮挡面积达到所述目标阈值时，将所述候选区域包含实例的遮挡分类信息确定为被遮挡。

在一种可能的实现方式中，处理模块2105，还用于将所述第一特征图输入第一全连接层进行处理；将经过所述第一全连接层处理后的所述第一特征图输入所述第二分支结构进行处理。

在一种可能的实现方式中，处理模块2105，还用于将所述第二特征图输入第二全连接层进行处理；将经过所述第二全连接层处理后的所述第二特征图输入所述第三分支结构包括的分类分支进行处理，得到所述分类信息；将所述第二特征图输入第三全连接层进行处理；将经过所述第三全连接层处理后的所述第二特征图输入第三分支结构包括的回归分支进行处理，得到所述位置信息。

在一种可能的实现方式中，所述装置还包括：

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像处理装置在处理图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图22示出了本申请一个示例性实施例提供的图像处理设备2200的结构框图。该设备2200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备2200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，设备2200包括有：处理器2201和存储器2202。

处理器2201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2201可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器2201所执行以实现本申请中方法实施例提供的图像处理方法。

在一些实施例中，设备2200还可选包括有：外围设备接口2203和至少一个外围设备。处理器2201、存储器2202和外围设备接口2203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口2203相连。具体地，外围设备包括：射频电路2204、触摸显示屏2205、摄像头2206、音频电路2207、定位组件2208和电源2209中的至少一种。

外围设备接口2203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器2201和存储器2202。在一些实施例中，处理器2201、存储器2202和外围设备接口2203被集成在同一芯片或电路板上；在一些其他实施例中，处理器2201、存储器2202和外围设备接口2203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路2204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路2204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路2204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路2204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路2204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏2205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏2205是触摸显示屏时，显示屏2205还具有采集在显示屏2205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器2201进行处理。此时，显示屏2205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏2205可以为一个，设置设备2200的前面板；在另一些实施例中，显示屏2205可以为至少两个，分别设置在设备2200的不同表面或呈折叠设计；在再一些实施例中，显示屏2205可以是柔性显示屏，设置在设备2200的弯曲表面上或折叠面上。甚至，显示屏2205还可以设置成非矩形的不规则图形，也即异形屏。显示屏2205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件2206用于采集图像或视频。可选地，摄像头组件2206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件2206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路2207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器2201进行处理，或者输入至射频电路2204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在设备2200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器2201或射频电路2204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路2207还可以包括耳机插孔。

定位组件2208用于定位设备2200的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件2208可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源2209用于为设备2200中的各个组件进行供电。电源2209可以是交流电、直流电、一次性电池或可充电电池。当电源2209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，设备2200还包括有一个或多个传感器2210。该一个或多个传感器2210包括但不限于：加速度传感器2211、陀螺仪传感器2212、压力传感器2213、指纹传感器2214、光学传感器2215以及接近传感器2216。

加速度传感器2211可以检测以设备2200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器2211可以用于检测重力加速度在三个坐标轴上的分量。处理器2201可以根据加速度传感器2211采集的重力加速度信号，控制触摸显示屏2205以横向视图或纵向视图进行用户界面的显示。加速度传感器2211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器2212可以检测设备2200的机体方向及转动角度，陀螺仪传感器2212可以与加速度传感器2211协同采集用户对设备2200的3D动作。处理器2201根据陀螺仪传感器2212采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器2213可以设置在设备2200的侧边框和/或触摸显示屏2205的下层。当压力传感器2213设置在设备2200的侧边框时，可以检测用户对设备2200的握持信号，由处理器2201根据压力传感器2213采集的握持信号进行左右手识别或快捷操作。当压力传感器2213设置在触摸显示屏2205的下层时，由处理器2201根据用户对触摸显示屏2205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器2214用于采集用户的指纹，由处理器2201根据指纹传感器2214采集到的指纹识别用户的身份，或者，由指纹传感器2214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器2201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器2214可以被设置设备2200的正面、背面或侧面。当设备2200上设置有物理按键或厂商Logo时，指纹传感器2214可以与物理按键或厂商Logo集成在一起。

光学传感器2215用于采集环境光强度。在一个实施例中，处理器2201可以根据光学传感器2215采集的环境光强度，控制触摸显示屏2205的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏2205的显示亮度；当环境光强度较低时，调低触摸显示屏2205的显示亮度。在另一个实施例中，处理器2201还可以根据光学传感器2215采集的环境光强度，动态调整摄像头组件2206的拍摄参数。

接近传感器2216，也称距离传感器，通常设置在设备2200的前面板。接近传感器2216用于采集用户与设备2200的正面之间的距离。在一个实施例中，当接近传感器2216检测到用户与设备2200的正面之间的距离逐渐变小时，由处理器2201控制触摸显示屏2205从亮屏状态切换为息屏状态；当接近传感器2216检测到用户与设备2200的正面之间的距离逐渐变大时，由处理器2201控制触摸显示屏2205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图22中示出的结构并不构成对设备2200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图23是本申请实施例提供的一种图像处理设备的结构示意图，该设备2300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)2301和一个或一个以上的存储器2302，其中，所述存储器2302中存储有至少一条指令，所述至少一条指令由所述处理器2301加载并执行以实现上述各个方法实施例提供的图像处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的图像处理方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待预测图像，对所述待预测图像进行特征提取；

基于目标网络对映射后的所述特征图进行处理，得到所述待预测图像中被遮挡实例的实例分割结果；其中，所述实例分割结果包括所述被遮挡实例的透视掩码和非透视掩码；所述透视掩码用于指示所述被遮挡实例的整体结构，所述整体结构包括未遮挡的可见部分和被遮挡的不可见部分，所述非透视掩码用于指示所述不可见部分，所述透视掩码及所述非透视掩码表示了所述被遮挡实例在所述待预测图像中与其他实例之间的相对遮挡关系。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于每个所述候选区域，对所述候选区域进行像素校正处理，得到所述候选区域的特征图；

3.根据权利要求2所述的方法，其特征在于，所述基于目标网络对映射后的所述特征图进行处理，包括：

对于每个所述候选区域，将所述第一特征图、所述第二特征图和所述第三特征图进行特征融合处理；

将得到的融合特征图输入所述目标网络的第一分支结构进行处理。

4.根据权利要求2所述的方法，其特征在于，所述目标网络还包括第二分支结构，所述方法还包括：

对于每个所述候选区域，将所述第一特征图输入所述第二分支结构进行处理，得到所述候选区域包含实例的遮挡分类信息。

5.根据权利要求2所述的方法，其特征在于，所述目标网络还包括第三分支结构，所述方法还包括：

对于每个所述候选区域，将所述第二特征图输入所述第三分支结构进行处理，得到所述候选区域包含实例的语义标签和位置信息。

6.根据权利要求3所述的方法，其特征在于，所述将所述第一特征图、所述第二特征图和所述第三特征图进行特征融合处理，包括：

将所述第一特征图和所述第二特征图进行级联处理，得到第一中间特征图；

将所述第一中间特征图依次经过一个反卷积层和两个卷积层进行处理，得到第二中间特征图；

将所述第二中间特征图与所述第三特征图进行级联处理，得到第三中间特征图，将所述第三中间特征图依次经过三个卷积层进行处理，得到所述融合特征图。

7.根据权利要求3所述的方法，其特征在于，所述将得到的融合特征图输入所述目标网络的第一分支结构进行处理，包括：

将所述融合特征图输入第一反卷积层进行处理，得到第一处理特征图；

将所述第一处理特征图输入所述第一分支结构包括的第一掩码分支，当所述候选区域包含实例为被遮挡实例时，得到所述候选区域包含实例的非透视掩码。

8.根据权利要求7所述的方法，其特征在于，所述将得到的融合特征图输入所述目标网络的第一分支结构进行处理，还包括：

将所述融合特征图输入第二反卷积层进行处理，得到第二处理特征图；

将所述第二处理特征图输入所述第一分支结构包括的第二掩码分支，得到所述候选区域包含实例的透视掩码。

9.根据权利要求4所述的方法，其特征在于，所述将所述第一特征图输入所述第二分支结构进行处理，得到所述候选区域包含实例的遮挡分类信息，包括：

基于所述第二分支结构，确定所述候选区域包含实例的被遮挡面积是否达到目标阈值；

当所述候选区域包含实例的被遮挡面积达到所述目标阈值时，将所述候选区域包含实例的遮挡分类信息确定为被遮挡。

10.根据权利要求4所述的方法，其特征在于，所述将所述第一特征图输入所述第二分支结构进行处理，包括：

将所述第一特征图输入第一全连接层进行处理；

将经过所述第一全连接层处理后的所述第一特征图输入所述第二分支结构进行处理。

11.根据权利要求5所述的方法，其特征在于，所述将所述第二特征图输入所述第三分支结构进行处理，包括：

将所述第二特征图输入第二全连接层进行处理；

将经过所述第二全连接层处理后的所述第二特征图输入所述第三分支结构包括的分类分支进行处理，得到所述分类信息；

将所述第二特征图输入第三全连接层进行处理；

将经过所述第三全连接层处理后的所述第二特征图输入所述第三分支结构包括的回归分支进行处理，得到所述位置信息。

12.根据权利要求1至11中任一个权利要求所述的方法，其特征在于，所述方法还包括：

获取训练样本图像，所述训练样本图像中每个实例的标注信息至少包括用于指示类别的语义标签、相对遮挡顺序以及透视掩码；

基于所述训练样本图像中被遮挡实例的相对遮挡顺序和透视掩码，确定所述训练样本图像中被遮挡实例的非透视掩码；

根据标注有所述透视掩码、所述非透视掩码和所述语义标签的训练样本图像进行模型训练，得到所述目标网络。

13.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取待预测图像；

特征提取模块，用于对所述待预测图像进行特征提取；

生成模块，用于生成所述待预测图像的至少一个候选区域；

处理模块，用于基于目标网络对映射后的所述特征图进行处理，得到所述待预测图像中被遮挡实例的实例分割结果；其中，所述实例分割结果包括所述被遮挡实例的透视掩码和非透视掩码；所述透视掩码用于指示所述被遮挡实例的整体结构，所述整体结构包括未遮挡的可见部分和被遮挡的不可见部分，所述非透视掩码用于指示所述不可见部分，所述透视掩码及所述非透视掩码表示了所述被遮挡实例在所述待预测图像中与其他实例之间的相对遮挡关系。

14.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至12中任一个权利要求所述的图像处理方法。

15.一种图像处理设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至12中任一个权利要求所述的图像处理方法。