CN108345890A

CN108345890A - 图像处理方法、装置和相关设备

Info

Publication number: CN108345890A
Application number: CN201810172602.3A
Authority: CN
Inventors: 戴宇榮; 范琦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2018-07-31
Anticipated expiration: 2038-03-01
Also published as: EP3761230A4; US11282207B2; US20200311943A1; CN108345890B; WO2019165949A1; EP3761230A1

Abstract

本公开提出图像处理方法、装置、生成深度学习神经网络的方法。在该方法中，获取图像以及图像的选择区域，其中选择区域包括需要从图像中分割或抠取的对象；使用深度学习神经网络从图像中分割或抠取对象以获取第一分割或抠取结果；获取用户针对第一分割或抠取结果输入的校正信息；以及根据校正信息，使用深度学习神经网络中靠近输出层的部分层修改第一分割或抠取结果以获取第二分割或抠取结果。本公开的图像处理方法和装置以及神经网络的生成方法可以获得更精确的图像分割或抠取结果并且结合用户交互进行修改优化，降低成本的同时提高用户体验。

Description

图像处理方法、装置和相关设备

技术领域

本公开涉及图像识别领域，特别地，涉及一种图像处理方法、图像处理装置、生成深度学习神经网络的方法以及存储介质和相关设备。

背景技术

随着对于图像处理不断增长的需求，图像分割技术的应用也愈加广泛。在用户处理图像的过程中，有一个非常实际的需求是将感兴趣的对象从图像中精确地分割或抠取出来。使用常规技术的图像处理方法需要对图像进行多次操作，步骤繁琐且效果不好。深度学习神经网络作为进行图像处理的新工具，近年来得到快速发展。但是传统的深度学习神经网络进行图像处理时，步骤繁琐，使用成本高，误码率高，传输速度慢并且安全性差，使得用户的体验不够友好。进一步，深度学习神经网络分割或抠取结果不好并且只能分割或抠取固定的对象类型，极大限制了其在真实用户场景中的应用。另外，通过用户监督的深度学习神经网络虽然可以获得相对较准确的分割或抠取结果，但是大大增加了神经网络的计算负担。

因此，存在对深度学习神经网络进行改进以克服上述现有缺陷的需求。

发明内容

本公开的目的在于提出一种图像处理方法、装置、生成深度学习神经网络的方法、存储介质以及对应的电子设备，以用于克服传统深度学习神经网络在图像处理，特别是图像分割或图像抠取时分割或抠取结果差并且受分割或抠取的对象类型限制，以及借助用户监督的深度学习神经网络在获得较准确的分割或抠取结果的同时却大量增加神经网络计算负担的缺陷。

根据本公开的一方面，提出一种图像处理方法，包括：

获取图像以及所述图像的选择区域，其中所述选择区域包括需要从所述图像中分割的对象；

使用深度学习神经网络从所述图像中分割所述对象以获取第一分割结果；

获取用户针对所述第一分割结果输入的校正信息；

根据所述校正信息，使用所述深度学习神经网络中靠近输出层的部分层修改所述第一分割结果以获取第二分割结果。

根据本公开的实施例，在使用深度学习神经网络从所述图像中分割所述对象以获取第一分割结果之前，所述方法还包括建立训练数据集，其中将训练数据集中的所有对象类型转化为前景类并将所有图像翻转，以生成新的训练数据集；创建所述深度学习神经网络。

根据本公开的实施例，创建所述深度学习神经网络包括：

使用全卷积网络作为所述深度学习神经网络的基础网络并配置所述全卷积网络的每个卷积层的结构；在所述全卷积网络的第一卷积层上增加区域推荐网络分支，其中所述第一卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；对所述全卷积网络进行参数初始化；根据所述新的训练数据集训练所述全卷积网络的参数。

根据本公开的实施例，所述深度学习神经网络的基础网络为全卷积网络，在所述全卷积网络的第一卷积层上具有区域推荐网络分支，其中所述第一卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层。

根据本公开的实施例，使用深度学习神经网络从所述图像中分割所述对象以获取第一分割结果包括：根据所述图像和所述选择区域使用所述全卷积网络的所有卷积层输出位置敏感特征图；使用所述区域推荐网络产生矩形框并投射到所述位置敏感特征图上；通过组合训练分割所述矩形框内的对象以获取所述第一分割结果。

根据本公开的实施例，根据所述校正信息，使用所述深度学习神经网络中靠近输出层的部分层修改所述第一分割结果以获取第二分割结果包括：根据所述校正信息生成校正距离图；将所述校正距离图与所述全卷积网络的第二卷积层输出的特征图并联输入到更高的第三卷积层，其中所述第二卷积层和所述第三卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；使用所述第三卷积层以及更高的卷积层输出新的位置敏感特征图；通过组合训练再次分割所述矩形框内的对象以获取所述第二分割结果。

根据本公开的实施例，通过获取用户针对所述第一分割结果输入的校正信息包括：获取用户在所述第一分割结果中的错误区域上的点击。

根据本公开的另一方面，提出一种生成深度学习神经网络的方法，包括：

建立训练数据集，其中将训练数据集中的所有对象类型转化为前景类并将所有图像翻转，以生成新的训练数据集；

创建所述深度学习神经网络。

根据本公开的实施例，创建所述深度学习神经网络包括：

使用全卷积网络作为所述深度学习神经网络的基础网络并配置所述全卷积网络的每个卷积层的结构；在所述全卷积网络的第一卷积层上添加区域推荐网络，其中所述第一卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；对所述全卷积网络进行参数初始化；根据所述新的训练数据集训练所述全卷积网络的参数。

根据本公开的又一方面，提出一种图像处理方法，包括：

使用如上所述的训练深度学习神经网络的方法生成的深度学习神经网络从所述图像中分割所述对象以获取第一分割结果；

获取用户针对所述第一分割结果输入的校正信息；

根据本公开的再一方面，提出一种图像处理装置，包括：

获取单元，设置为获取图像以及所述图像的选择区域，其中所述选择区域包括需要从所述图像中分割的对象；

交互单元，设置为获取用户针对第一分割结果输入的校正信息；

处理单元，设置为使用深度学习神经网络从所述图像中分割所述对象以获取所述第一分割结果，以及根据所述校正信息，使用所述深度学习神经网络中靠近输出层的部分层修改所述第一分割结果以获取第二分割结果。

根据本公开的实施例，所述处理单元还设置为：根据所述图像和所述选择区域使用所述全卷积网络的所有卷积层输出位置敏感特征图；使用所述区域推荐网络产生矩形框并投射到所述位置敏感特征图上；通过组合训练分割所述矩形框内的对象以获取所述第一分割结果。

根据本公开的实施例，所述处理单元还设置为：根据所述校正信息生成校正距离图；将所述校正距离图与所述全卷积网络的第二卷积层输出的特征图并联输入到更高的第三卷积层，其中所述第二卷积层和所述第三卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；使用所述第三卷积层以及更高的卷积层输出新的位置敏感特征图；通过组合训练再次分割所述矩形框内的对象以获取所述第二分割结果。

根据本公开的实施例，所述交互单元还设置为获取用户在所述第一分割结果中的错误区域上的点击。

根据本公开的又一方面，提出一种图像处理方法，包括：

获取图像以及所述图像的抠取区域，其中所述抠取区域包括需要从所述图像中抠取的对象；

使用深度学习神经网络从所述图像中抠取所述对象以获取第一抠取结果；

获取用户针对所述第一抠取结果输入的校正信息；

根据所述校正信息，使用所述深度学习神经网络中靠近输出层的部分层修改所述第一抠取结果以获取第二抠取结果；

获取所述第二抠取结果中的所述对象。

根据本公开的实施例，在使用深度学习神经网络从所述图像中抠取所述对象以获取第一分割结果之前，所述方法还包括建立训练数据集，其中将训练数据集中的所有对象类型转化为前景类并将所有图像翻转，以生成新的训练数据集；创建所述深度学习神经网络。

根据本公开的实施例，创建所述深度学习神经网络包括：

根据本公开的实施例，使用深度学习神经网络从所述图像中抠取所述对象以获取第一抠取结果包括：根据所述图像和所述选择区域使用所述全卷积网络的所有卷积层输出位置敏感特征图；使用所述区域推荐网络产生矩形框并投射到所述位置敏感特征图上；通过组合训练抠取所述矩形框内的对象以获取所述第一抠取结果。

根据本公开的实施例，根据所述校正信息，使用所述深度学习神经网络中靠近输出层的部分层修改所述第一抠取结果以获取第二抠取结果包括：根据所述校正信息生成校正距离图；将所述校正距离图与所述全卷积网络的第二卷积层输出的特征图并联输入到更高的第三卷积层，其中所述第二卷积层和所述第三卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；使用所述第三卷积层以及更高的卷积层输出新的位置敏感特征图；通过组合训练再次抠取所述矩形框内的对象以获取所述第二抠取结果。

根据本公开的实施例，通过获取用户针对所述第一抠取结果输入的校正信息包括：获取用户在所述第一抠取结果中的错误区域上的点击。

根据本公开的再一方面，提出一种图像处理装置，包括：

获取单元，设置为获取图像以及所述图像的选择区域，其中所述选择区域包括需要从所述图像中抠取的对象；

交互单元，设置为获取用户针对第一抠取结果输入的校正信息；

处理单元，设置为使用深度学习神经网络从所述图像中抠取所述对象以获取所述第一抠取结果，以及根据所述校正信息，使用所述深度学习神经网络中靠近输出层的部分层修改所述第一抠取结果以获取第二抠取结果。

根据本公开的实施例，所述处理单元还设置为：根据所述图像和所述选择区域使用所述全卷积网络的所有卷积层输出位置敏感特征图；使用所述区域推荐网络产生矩形框并投射到所述位置敏感特征图上；通过组合训练抠取所述矩形框内的对象以获取所述第一抠取结果。

根据本公开的实施例，所述处理单元还设置为：根据所述校正信息生成校正距离图；将所述校正距离图与所述全卷积网络的第二卷积层输出的特征图并联输入到更高的第三卷积层，其中所述第二卷积层和所述第三卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；使用所述第三卷积层以及更高的卷积层输出新的位置敏感特征图；通过组合训练再次抠取所述矩形框内的对象以获取所述第二抠取结果。

根据本公开的实施例，所述交互单元还设置为获取用户在所述第一抠取结果中的错误区域上的点击。

根据本公开的另一方面，提出一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实施如上所述的图像处理方法中的步骤。

根据本公开的又一方面，提出一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行如上所述的图像处理方法的步骤。

根据本公开的实施例的图像处理方法、装置、生成深度学习神经网络的方法、存储介质以及对应的电子设备，基于深度学习神经网络的交互式对象分割模型，通过前景分割的方法，将矩形框中的目标对象准确地分割或抠取出来。同时为了得到更精确的分割或抠取结果，结合用户交互以对分割或抠取结果进行修改优化使得分割或抠取结果更优。通过非常少的用户交互来得到高质量的分割或抠取结果，大大降低使用成本并且提高了用户体验。

附图说明

通过参照附图详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。

图1A为根据本公开实施例的FCIS深度学习神经网络进行图像分割的流程示意图；

图1B为根据本公开实施例的DIOS深度学习神经网络进行图像分割的流程示意图；

图2A为根据本公开实施例的图像处理方法和装置的系统架构示意图；

图2B为根据本公开另一实施例的图像处理方法和装置的系统架构示意图；

图3A为根据本公开实施例的图像处理方案的基本流程示意图；

图3B为根据本公开另一实施例的图像处理方案的基本流程示意图；

图4为根据本公开实施例的生成深度学习神经网络的方法的示意性流程图；

图5为根据本公开实施例的创建深度学习神经网络的步骤的示意性流程图；

图6为根据本公开实施例的深度学习神经网络的卷积层中的模块结构的示意图；

图7为根据本公开实施例的RPN网络的结构示意图；

图8为根据本公开实施例的用户交互的校正信息处理的示意图；

图9A为根据本公开一实施例的图像处理方法的示例性流程图；

图9B为根据本公开另一实施例的图像处理方法的示例性流程图；

图10A为根据本公开又一实施例的图像处理方法的示例性流程图；

图10B为根据本公开再一实施例的图像处理方法的示例性流程图；

图11为根据本公开实施例的图像处理方法的不同阶段的示意图；

图12A为根据本公开实施例的图像处理方法中的第一阶段的示意性流程图；

图12B为根据本公开另一实施例的图像处理方法中的第一阶段的示意性流程图；

图13A为根据本公开实施例的图像处理方法中的第二阶段的示意性流程图；

图13B为根据本公开另一实施例的图像处理方法中的第二阶段的示意性流程图；

图14A为根据本公开实施例的图像处理装置的示意性结构图；

图14B为根据本公开另一实施例的图像处理装置的示意性结构图；以及

图15为根据本公开实施例的用于实施图像处理方法的电子设备的结构框图。

具体实施方式

现在将参考附图更全面地描述示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本公开将全面和完整，并将示例性实施例的构思全面地传达给本领域的技术人员。在图中，为了清晰，可能会夸大部分元件的尺寸或加以变形。在图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、元件等。在其它情况下，不详细示出或描述公知结构、方法或者操作以避免模糊本公开的各方面。

在描述本公开的技术方案前，先对相关的技术术语进行介绍。

神经网络(Neutral Network)

模拟神经元拟合数据进行分类和识别的数学模型。神经网络具有多个层，从数据输入到输出方向来看，分别为输入层、中间的隐藏层和最后的输出层。每层由表征神经元的节点构成，神经元的激励函数用于将每个节点的输入进行运算获得作为激活值的输出值并发送到下一层的节点。前向神经网络的运算方向为从输入层到输出层的单个方向。反馈神经网络中后层的输出值返回到前一层以获得更优的计算效果。神经网络使用前需要使用训练数据(集)对神经网络各个层中节点的参数进行训练。

全卷积网路(Fully Convolutional Network，简称FCN)

在图像处理，特别是图像分割中最常用的一种卷积网络，完全由卷积层(Convolutional Layer，简称conv)和池化层(Pooling Layer)组成。在全卷积网络中，较低层卷积层(或称为较浅层卷积层，更靠近输入侧的卷积层)感知域较小，可学习局部区域的特征；而较高层卷积层(或称为较深层卷积层，更靠近输出侧的卷积层)具有较大的感知域，能够学习更加抽象的特征。这些抽象特征对对象的大小、位置和方向等敏感性更低，从而有助于识别性能的提高。相比传统的神经网络CNN，卷积网络包括卷积层、池化层、全连接层(Fully-Connected Layer)，但是全卷积网络FCN没有全连接层。

池化层对每层的输出图像通过双线性插值进行上采样，得到原图大小的图像。池化操作可以减小深度学习的数据量，从而减小参数，降低计算，从而防止过拟合。根据情况，可在连续卷积层中间隔插入不同层数的池化层。在本公开的一些实施例中，在卷积层中加入4层池化层。一般池化主采用均值池化和最大值池化的方式。池化层涉及的参数为步数(stride)，以stride＝2的100*100像素的特征图进行最大值池化为例，就是取输入的每2*2个区域中50*50像素的特征图的最大值最作为池化的结果。

实例分割(Instance Segmentation)

将图像中的每个对象都单独分割出来并给出其类别信息。

前景分割(Foreground Segmentation)

将图像中的每个对象都作为前景类别，并将其单独分割出来。

交互分割(Interactive Segmentation)

通过人机之间的交互来对图像中的对象进行分割。

特征图(Feature Map)

图像和FCN的卷积层中的一个或多个滤波器进行卷积运算后得到图像的特征图，特征图实际上是与图像位置信息对应的得分图(Score Map)。特征图可以再次和卷积层的滤波器进行卷积运算生成新的特征图。

位置敏感特征图(Position-Sensitive Feature Maps)

使用一组专用卷积层(其滤波器对位置敏感)对图像或图像的特征图进行卷积运算获得。位置敏感特征图为与相对空间位置(例如，“在对象的左边”)对应的位置信息进行编码的得分图。

残差网络(Residual Network，简称为ResNet)

全卷积网络中的一种，在网络的末端也没有使用全连接层。ResNet本身用于分类任务。在本公开中，先使用ImageNet训练集训练ResNet以用于分类任务，再选择ResNet的部分功能用于图像分割任务。

可以用于进行图像处理，特别是图像分割的深度学习神经网络包括全卷积实例感知语义分割(Fully Convolutional Instance-aware Semantic Segmentation，简称FCIS)网络和深度交互式对象选择(Deep Interactive Object Selection，简称DIOS)网络。FCIS网络和DIOS网络一般都采用卷积网络或全卷积网络作为深度学习神经网络的基本网络。

FCIS使用位置敏感特征图对空间位置信息进行编码，来预测该像素在某个相对位置属于某个对象实例的概率和该像素在对象边界之内(inside)或之外(outside)的概率，并以此来生成对象的实例分割结果。

图1A示出采用FCIS网络进行图像分割的示例性过程。

图像101经过FCN网络102的一部分卷积层1021处理后，输出的图像特征图(得分图)分别在上分支中继续通过FCN网络的另一部分卷积层1022处理，同时该图像特征图也在下分支中通过区域推荐网络(Region Proposal Network，简称RPN)103处理。RPN网络103从获取的图像特征图104中提取用于图像分割的矩形框105。RPN网络103输出的矩形框105的数量为2(C+1)×k²，其中：C为自然数，代表对象的类型数；1代表背景类，则(C+1)为RPN网络103中定义的对象1011的所有类型数，2(C+1)表示在对象1011在边界内或边界外的总对象类型数；k代表矩形框105的位置数量，k为自然数，例如k＝3时，3x3代表上分支输出的特征图104与9个块的矩形框叠加，矩形框105的每个块均具有一个特征图，特征图与卷积层1031中的滤波器对应。

经过FCN网络102输出的最终结果的图像特征图104(位置敏感内部/外部得分图)与RPN网络103输出的矩形框105叠加的特征图1041通过组合(assembling)训练，获得2(C+1)种类型的对象1011在矩形框105中的输出图像特征图1042。根据对象1011在矩形框105的内部或外部，在下分支中根据对象1011在矩形框105表示的对象边界内或外的情况运行pixel-wise函数，获得用矩形框105选择待分割对象1011的类型相似度结果106。通过对该类型相似度结果106执行平均和/或投票运算获得该输出图像101中选取的对象1011是否属于该RPN网络103中设定的相应分类的结果(以是/否来表示)。如果结果为是，表示在矩形框105中选取的对象1011存在于相应的类型中，则在上分支中对输出结果1042(即图像特征图)根据对象1011在矩形框105表示的对象边界内或外的情况运行pixel-wise softmax函数，获得实例分割结果107(instance mask)。如果结果为否，则证明在矩形框105中选取的对象不符合相应的类型，则不进行分割结果107的处理。图1A中仅示出针对第C类的对象1011进行分割，实际运算中还包括针对其他C-1中类型的对象1011的分割。

因此，FCIS网络100先基于分类生成矩形框105去分割对象1011，再生成对象1011的实例分割结果107。FCIS网络100以一种端到端的方式生成对象1011的实例分割结果107，其具有两个缺陷：

1)如果其矩形框105生成不准确或者分割结果不好，则无法通过用户交互的方式基于用户输入的校正信息对结果进行校正和修改；

2)由于FCIS网络100的输出层的层数与训练集数据中的类别数相同，所以只能分割固定的对象类别(例如C种类型)。对于对象1011属于那些不在训练集中的对象类型时，FCIS网络100就无法对图像101中的该对象1011进行分割，因为FCIS网络100需要先分类，在分类成功后再进行图像分割。

这两个缺陷极大地限制了FCIS网络在真实场景中的应用。

图2B则示出使用DIOS网络进行图像分割的过程。

如图2B所示，DIOS网络200将输入图像201与由用户点击生成的一个或多个距离分布图2021和2022叠加。叠加后的图像输入到FCN网络203中，FCN网络203对包含输入图像201和距离分布图2021和2022信息的复合图像进行处理得到最终的分割结果204。

DIOS网络200完全依靠通过例如点击的用户交互方式获取用户输入的校正信息来优化生成的分割结果204。由于DIOS网络200没有使用矩形框对感兴趣的区域进行标定，所以需要非常多的用户交互来生成令人满意的分割结果204。此外，由于在对分割结果204进行优化的时候需要DIOS网络200重新计算整个FCN网络203，大大增加了计算负担。

根据本公开的实施例，提出使用改进的深度学习神经网络以用于图像处理，特别是用于图像分割的方案。

图2A示出根据本公开实施例的图像处理方法和装置的系统架构示意图。用户301通过包括移动电话302和个人数字助理(PDA)303的移动设备上的应用程序，或者通过诸如计算机304上的应用程序进行图像处理。在不同的设备上可以使用不同的图像处理界面，例如，在移动设备上可采用界面306，在计算机304上可采用界面307。用户301通过移动设备302、303和计算机304的输入设备输入图像以及在用户交互中用户针对图像分割或抠取结果输入的校正信息，移动设备302、303和计算机304使用本公开的图像处理方法分割或抠取图像中的对象。

图2B则示出根据本公开另一实施例的图像处理方法和装置的系统架构示意图。与图2A不同的是，移动设备302和303、以及计算机304作为终端设备或前端设备，将用户301输入的图像和在用户交互中用户针对图像分割或抠取输入的校正信息发送到远程或后端的服务器305。服务器305运行图像处理程序以实施本公开的图像处理方法，并将图像的分割或抠取结果返回终端设备或前端设备302、303和304。图2B中的移动设备和计算机304可采用与图2A中类似的界面。

图3A示出如上所述根据本公开实施例的图像处理方案的基本流程示意图。首先，获取图像(a)，然后该深度学习神经网络根据用户给出的用于标定感兴趣对象的矩形框，通过算法对矩形框内的目标对象进行分割获取分割结果(b)，并且可以通过较少的用户交互对分割结果进行修改以快速优化(c)。

图3B则示出根据本公开另一实施例的图像处理方案的基本流程示意图。在图像处理的实际应用场景中，用户存在从图像中抠取所选择的对象的需求，即图像处理软件的“抠图”功能。例如，用户将照片中的人像从照片中抠取出来，并将抠取出的人像叠加到其它照片或图像上。在这种图像处理方案中，相比图3A所示的方案，首先，获取图像(a)，然后该深度学习神经网络根据用户给出的用于标定感兴趣对象的矩形框，通过算法对矩形框内的目标对象进行抠取获取抠取结果(b)，并且可以通过较少的用户交互对抠取结果进行修改以快速优化(c)，在修改优化抠取结果(c)后，还在修改的抠取结果中抠取对象(d)。在图像中抠取对象过程中，使用与分割对象相同或类似的方式获取相应的抠取结果(分割结果)，对于最终优化的抠取结果(分割结果)，抠取过程还将抠取结果中的对象抠取出来以进行进一步操作。

使用改进的深度学习神经网络进行图像处理，首先需要生成深度学习神经网络。图4示出根据本公开实施例的生成深度学习神经网络的方法，该方法包括如下步骤：

S100：建立训练数据集，其中将训练数据集中的所有对象类型转化为前景类并将所有图像翻转，以生成新的训练数据集；

S200：创建深度学习神经网络。

生成深度学习神经网络，重要的是建立基于用于进行交互式对象分割的深度学习神经网络模型。

首先，建立训练数据集。

在步骤S100，使用公开的PASCAL VOC2012以及MS COCO实例分割数据集作为训练数据集。在这些实例分割数据中，可使用前5000个图像实例训练模型的图像识别能力，使用后3000个图像实例训练模型的用户交互校正能力，使得本公开实施例的深度学习神经网络针对用户标定的感兴趣对象的矩形框中的对象类型以及针对用户交互的校正数据都具有准确的处理能力。

然后，将训练数据集中的所有实例类型都转化为前景类一种类型。将多对象类别转化为单一的前景类，相当于在深度学习神经网络的训练和使用中不再针对训练数据集中的类型判断和生成对应的类型矩形框，而是对所有对象类型都生成矩形框。通过将多类型转化为单一类型的方式，跳过对图像中的对象进行分类的步骤，在网络模型的训练和使用时直接对用户标定的感兴趣的矩形框中的对象进行分割，充分使用深度学习神经网络的处理能力进行图像分割。除了类型转化外，还将训练数据集中的所有图像都进行水平翻转操作生成相应的翻转图像与标签，此时训练数据集扩大为原有训练数据集的两倍，将其作为新的训练数据集。

步骤S200的创建深度学习神经网络，则进一步包括如下步骤，如图5所示：

S210：使用全卷积网络作为基础网络并配置全卷积网络的每个卷积层的结构；

S220：在全卷积网络的第一卷积层上添加区域推荐网络，其中第一卷积层低于全卷积网络的最高卷积层并且高于全卷积网络的最低卷积层；

S230：对全卷积网络进行参数初始化；

S240：根据新的训练数据集训练全卷积网络的参数。

在步骤S210中，首先进行基础网络设计。

本公开的实施例使用FCN网络ResNet101作为基础网络模型，网络结构参数如表1所示。

表1

本公开使用的基础网络FCN网络包括六个卷积层Conv1至Conv_new。从Conv1到Conv_new，卷积层的层级逐渐升高，Conv1为最低卷积层，而作为最后一层的Conv_new为最高卷积层。在一些实施例中，卷积层均为全连接层。全卷积网络作为神经网络的一种，其最低卷积层相当于输入层，最高卷积层相当于输出层，中间的卷积层相当于隐藏层。

Conv_new卷积层Conv1和Conv_new为单层卷积层。卷积层Conv2_x、Conv3_x、Conv4_x、Conv5_x分别表示各个卷积层包括多个模块(Block，或称为卷积子层)，x为各个卷积层的模块数量。例如，卷积层Conv2有3个模块(x3blocks)，分别为卷积层模块Conv2_1、Conv2_2和Conv2_3，卷积层Conv3、4、5的模块数量分别为4个，23个和3个。也可以将这些具有多个模块的卷积层看作多个卷积层的组合，每个模块(卷积子层)实际上也是一层卷积层。每个卷积层的输出结果为经处理图像的特征图，大小逐渐从300(像素)x500(像素)减小到38(像素)x63(像素)。

每个单层卷积层和多模块卷积层中的每个模块采用不同数量和大小的滤波器。例如，在卷积层Conv1中，滤波器大小为7(像素)x7(像素)，共64个滤波器，步长(stride)为2。表1中的多模块卷积层Conv4_x中共有23个模块，每个模块分别具有256个1(像素)x1(像素)大小的滤波器，256个3(像素)x3(像素)大小的滤波器，1024个1(像素)x1(像素)大小的滤波器。在卷积层Conv1和卷积层模块Conv2_1之间的池化层参数为：步长stride＝2，对大小3(像素)x3(像素)的输出图像特征图进行最大值池化(max pool)。

其中，卷积层Conv3_x和Conv4_x各自的第一模块(第一卷积子层)的步长都为2。每个卷积层之后都接有激活函数(ReLU)层和批量标准化(Batch Normalization，简称BN)层。

卷积层的每个模块的结构如图6所示，其中以卷积层Conv2的三个模块为例。其中，对于卷积层Conv1输出的256维(256-dimension，256-d)特征图，分别通过模块Conv2_1的1x1大小的64个滤波器处理，经过激活函数层ReLU的整流线性单元处理后，再通过模块Conv2_2的3x3大小的64个滤波器处理，经过激活函数层ReLU的整流线性单元处理后，再通过模块Conv2_3的1x1大小的256个滤波器处理，得到的处理结果与输入的256维特征图合并后，最后一次经过激活函数层ReLU的整流线性单元处理产生卷积层Conv2的输出结果。将输入的256维特征图与第三个模块Conv2_3的256个滤波器的处理结果合并的目的在于计算残差。其中，激活函数ReLU运算可以是：y＝0，当x<＝0时；y＝x，当x>0时，其中y为输出，x为输入。

接下来，在步骤S220中进行高层神经网络设计。

本公开实施例的深度学习神经网络在FCN基础网络的卷积层Conv4的最后一层，即模块Conv4_23上添加分支以使用区域推荐网络RPN来生成训练用的矩形框。模块Conv4_23输出的处理结果(即卷积层的图像特征图)通过RPN网络的卷积层产生的矩形框会投射在FCN网络的最高层卷积层Conv_new输出的位置敏感特征图上，最后生成对矩形框中的对象的分割结果。RPN网络分支的添加位置一般选取高于最低卷积层和低于最高卷积层的中间卷积层。选取中间卷积层的优点在于，充分利用FCN网络的训练计算能力获得图像的位置敏感特征图，同时在训练中对神经网络的参数反向递归计算中不必对所有的卷积层调整以提高效率。将添加RPN网络分支的卷积层或卷积层的模块称为第一卷积层，则该第一卷积层低于FCN网络的最高卷积层并且高于该FCN网络的最低卷积层。第一卷积层的位置选取一般根据实际需要确定，例如在本公开的示例性实施例中，采用模块Conv4_23作为该第一卷积层。

图7则示出根据本公开实施例的RPN网络700的结构。其中，RPN网络700包括具有256维数据的中间层701、输出2k数量的得分的分类层702(classification layer，简称clslayer)和输出4k数量的坐标的回归层703(regression layer，简称reg layer)，其中k为对象的类型数。与FCIS网络不同的是，本公开的深度学习神经网络的训练数据集将实例图像的类型都转化为前景类一种类型，因此此处的对象类型数k远大于FCIS网络中的RPN网络700能识别的类型。

对于FCN网络的卷积层对图像进行卷积运算后得到的卷积特征图705(convfeature map)，RPN网络700选取与k个类型的锚盒706(anchor box，与类型对应的矩形框)对应的滑动窗口704在该卷积特征图705上滑动，将所选择的滑动窗口704内的特征图数据输入RPN网络700进行处理。

通过步骤S210和S220，已经搭建深度学习神经网络模型的架构，现在需要在步骤S230中对神经网络进行参数初始化。

FCN网络的卷积层Conv1至Conv5采用在ImageNet数据集上预训练的ResNet 101的参数进行初始化，而最高卷积层Conv_new则采用方差为0.01，均值为0的高斯分布进行参数初始化。其中，ImageNet数据集原始仅可以进行分类，但是在本公开中，将其用于图像的分割任务。

参数初始化后，在步骤S240中对深度学习神经网络采用在步骤S200中建立的新的训练数据集进行训练。在训练过程中，采用基于随机梯度下降(Stochastic GradientDescent，简称SGD)的梯度下降法求解神经网络模型的卷积模板参数w和偏置参数b。在每次迭代过程中，计算预测结果误差并反向传播到FCN神经网络模型，再次计算梯度并更新FCN神经网络模型的参数。

由于新的训练数据集包括用于图像识别能力的图像实例和用于用户交互校正能力的图像实例，因此在使用图像实例对FCN网络进行训练的过程中，不仅包括通过RPN网络输出的矩形框叠加FCN网络的最高卷积层输出的位置敏感特征图进行组合训练，还包括在FCN网络的卷积层选取中间卷积层的输出特征图，与用于用户交互校正的图像实例(该部分图像实例可以是校正位置图的形式)叠加并联并使用更高层的卷积层输出新的位置敏感特征图，再进行组合训练。此时选择的中间卷积层，可以与加入RPN网络分支的中间卷积层相同或不同，但是在校正过程中选择的FCN网络的中间卷积层仍然满足高于FCN网络的最低卷积层并且低于最高卷积层的要求。该校正过程相当于使用神经网络中靠近输出层的部分层进行训练。

图8则示出通过用户交互的校正信息对图像801中的对象8011进行分割得到的分割结果806生成校正图，特别是校正距离图的细节。通过诸如获取用户输入的用户交互方式，可以获取用户对分割结果806中的错误的校正信息。训练数据集中获取用户针对分割结果806输入中的校正信息，主要以用户点击的方式指示上文中FCN网络与RPN网络的输出叠加后最终得出的分割结果806中的错误。例如，所分割的对象8011相比期望的对象分割结果多了一部分图像8061，则用户针对该部分的校正点击指示这部分图像应当属于背景类型，这种点击称为背景校正点击802。如果所分割的对象8011相比期望的对象分割结果少了一部分图像8062，则用户针对该部分的校正点击指示这部分图像应当属于前景类型，这种点击称为前景校正点击803。前景校正点击803和背景校正点击802分别被处理后生成前景校正(距离)图805和背景校正(距离)图804。两种校正距离图都与FCN网络中的第二卷积层输出的特征图进行叠加以通过更高的卷积层训练得出更新的位置敏感特征图。

经过上述训练后，深度学习神经网络完成参数优化，已经可以进行图像识别和分割的任务。

现在，将参照图9A中的示例性图像处理方法介绍使用深度学习神经网络进行图像分割的流程，该方法包括如下步骤：

S300：获取图像以及图像的选择区域，其中选择区域包括需要从图像中分割的对象；

S400：使用深度学习神经网络从图像中分割对象以获取第一分割结果；

S500：获取用户针对第一分割结果输入的校正信息；

S600：根据校正信息，使用深度学习神经网络中靠近输出层的部分层修改第一分割结果以获取第二分割结果。

首先，接收用户输入的图像以及用户在图像上标定的矩形框，该矩形框作为用户感兴趣的选择区域，包括需要从图像中分割的对象。另外，用于标定对象的矩形框也可以通过图像识别自动生成，用户可以通过选择或拖动自动给出的推荐矩形框进行调整和确认，进一步简化图像处理的操作流程。

其次，将在步骤S300中获取的图像和选择区域输入到深度学习神经网络中进行图像分割，并根据在用户交互中用户针对第一分割结果输入的校正信息进行第一分割结果的修改。

使用的深度学习神经网络采用在上文中经训练后的神经网络，因此参见图10A，在步骤S400前还包括如下步骤：

S200：创建深度学习神经网络。

对于步骤S200中创建深度学习神经网络的具体细节，参见上文中的介绍以及图5，在此不再赘述。

因此，该深度学习神经网络的结构具有如下特征：该深度学习神经网络的基础网络为FCN网络，在FCN网络的第一卷积层上具有RPN网络分支，其中第一卷积层低于FCN网络的最高卷积层并且高于FCN网络的最低卷积层。

参见图11，使用深度学习神经网络进行图像分割主要分为两个阶段：

第一阶段(步骤S400)：

用户输入的图像1101和选择区域11011经过FCN网络1102的第一卷积层11021前的一部分卷积层处理后，输出的图像特征图1103(得分图)分别继续通过第一卷积层11021上的更高层的卷积层处理，同时该图像特征图也在RPN网络1102-1分支处理。由FCN网络1102的最高卷积层(参照表1所示的本公开实施例中，该最高卷积层为Conv_new)输出的位置敏感特征图1103，叠加由RPN网络1102-1投射的矩形框1104，经过组合训练后对RPN网络1102-1输出的矩形框1104内的对象11012进行分割，得到图像1101的第一分割结果1105。

因此，步骤S400包括图12A所示的如下步骤：

S410：根据图像和选择区域使用全卷积网络的所有卷积层输出位置敏感特征图；

S420：使用区域推荐网络产生矩形框并投射到位置敏感特征图上；

S430：通过组合训练分割矩形框内的对象以获取第一分割结果。

需要注意的是，RPN网络1102-1输出的矩形框1104与用户输入的标定矩形框11011不同，RPN网络1102-1输出的矩形框1104用于标定图像1101中对象11012所在位置范围；而用户输入的矩形框11011指示神经网络需要处理的图像对象，即神经网络进行图像处理的图像对象不是用户输入的图像1101，而是用户的标定矩形框11011内的图像的一部分。

第二阶段(步骤S600)：

在步骤S500中通过获取用户针对第一分割结果1105输入的校正信息后，在第一阶段中深度学习神经网络模型的预测错误的位置引入用户的校正点击11061和11062并生成相应的校正距离图1106，通过交互模块1108将该校正距离图1107与第二卷积层11022输出的特征图1109并联输入到更高层的第三卷积层11023，使用第三卷积层11023以及更高层的卷积层输出新的位置敏感特征图1110，再通过组合训练再次分割矩形框1104内的对象11012以生成新的第二分割结果1111。在此，使用FCN网络中第三卷积层直到最高卷积层的部分卷积层(相当于神经网络中靠近输出层的部分层)进行再次运算以生成新的第二分割结果1111。

因此步骤S600包括如图13A所示的如下步骤：

S610：根据校正信息生成校正距离图；

S620：将校正距离图与第二卷积层输出的特征图并联输入到更高的第三卷积层，其中第二卷积层和第三卷积层低于全卷积网络的最高第一卷积层并且高于全卷积网络的最低卷积层；

S630：使用第三卷积层以及更高的卷积层输出新的位置敏感特征图；

S640：通过组合训练再次分割矩形框内的对象以获取第二分割结果。

在本公开实施例中，第二卷积层11022选择为FCN网络1102的卷积层Conv4的最后一个模块Conv4_23。模块Conv4_23输出的特征图1109与从用户交互中获取的校正距离图1107通过交互模块1108的并联获得更新后的特征图，该更新的特征图输入到比模块Conv4_23更高层的卷积层Conv5以及Conv_new输出新的位置敏感特征图1110。其中，第三卷积层11023为模块Conv5_1，第二卷积层11022(模块Conv4_23)和第三卷积层11023都高于FCN网络1102的最低卷积层并且低于FCN网络1102的最高卷积层。

第二卷积层11022和第三卷积层11023的选择可根据需求情况进行调整。例如，在第一阶段中，使用RPN网络1102-1生成矩形框1104的过程中，由于使用转换为前景类单一类型的新训练集数据而不再进行对象11012的分类，使得神经网络的计算数据量过大。通过选取第二卷积层11022和第三卷积层11023的位置，可以提高由此带来的计算负担过大的问题。另外，本公开的深度学习神经网络的新训练数据集特别针对单一类别的图像分割和用户校正进行选择，在神经网络生成过程中的训练已经具备图像识别和校正优化功能。这种使用部分卷积层进行修改分割结果的优点在于低于第二卷积层11022的卷积层的参数固定并且不参加修改优化，仅使用神经网络的部分层，特别是靠近输出层的部分层，降低了整个网络的计算负担，可以有效提高神经网络基于校正信息修改分割结果的效率，提高图像分割速度，降低成本，使用户获得更好的用户体验。

因此，在深度学习神经网络模型的生成过程中，对网络模型的参数训练过程中，可针对使用该神经网络模型进行图像处理方法的两个阶段的要求进行相应训练。在上述两个阶段中，对于第一至第三卷积层的位置选择，也可以沿用在网络模型训练过程中的设置。

通过在用户交互中接收用户针对第一分割结果1105输入的校正信息获取用户在分割结果中的错误区域上的点击11061和11062。与深度学习神经网络模型的训练过程类似，以用户的校正点击的方式的用户交互校正信息指示第一阶段中FCN网络1102输出的位置敏特征图1103与RPN网络1102-1输出的矩形框1104叠加后得出的第一分割结果1105中的错误。继续参见图8上部，如果分割结果806相比期望分割结果多了一部分图像8061，则指示这部分图像8061应当属于背景类型而不属于所分割的对象8011，这种背景校正点击802被处理生成背景校正距离图804。参见图8下部，如果分割结果806相比期望分割结果少了一部分图像8062，则指示这部分图像应当属于前景类型中的对象8011而不属于背景类型，这种前景校正点击803被处理生成前景校正距离图805。两种校正距离图都与FCN网络中的第二卷积层11022输出的特征图1109进行叠加以通过更高的卷积层训练得出更新的位置敏感特征图1110。

现在，参照图9B中的示例性图像处理方法介绍使用深度学习神经网络进行图像抠取的流程，相比图9A、图10A、图12A和图13A中介绍的图像处理方法，该方法中对图像中的对象进行分割和抠取采用相同或类似的方式，仅在获得第二抠取结果后，从该第二抠取结果中获取该对象。该方法包括如下步骤：

S300-1：获取图像以及图像的选择区域，其中选择区域包括需要从图像中抠取的对象；

S400-1：使用深度学习神经网络从图像中抠取对象以获取第一抠取结果；

S500-1：获取用户针对第一抠取结果输入的校正信息；

S600-1：根据校正信息，使用深度学习神经网络中靠近输出层的部分层修改第一抠取结果以获取第二抠取结果；

S600-2：获取第二抠取结果中的对象。

根据本公开的实施例，参见图10B，在步骤S400-1前还包括如下步骤：

S100-1：建立训练数据集，其中将训练数据集中的所有对象类型转化为前景类并将所有图像翻转，以生成新的训练数据集；

S200-1：创建深度学习神经网络。

根据本公开的实施例，参见图12B，步骤S400-1包括如下步骤：

S410-1：根据图像和选择区域使用全卷积网络的所有卷积层输出位置敏感特征图；

S420-1：使用区域推荐网络产生矩形框并投射到位置敏感特征图上；

S430-1：通过组合训练分割矩形框内的对象以获取第一抠取结果。

步骤S600-1包括如图13B所示的如下步骤：

S610-1：根据校正信息生成校正距离图；

S620-1：将校正距离图与第二卷积层输出的特征图并联输入到更高的第三卷积层，其中第二卷积层和第三卷积层低于全卷积网络的最高第一卷积层并且高于全卷积网络的最低卷积层；

S630-1：使用第三卷积层以及更高的卷积层输出新的位置敏感特征图；

S640-1：通过组合训练再次分割矩形框内的对象以获取第二抠取结果。

与进行图像分割的图像处理方法类似的内容，在用于图像抠取的图像处理方法中不再赘述。

根据本公开的实施例，上述图像处理方法还可以搭载于云平台上提供服务。

另外，本公开还提出使用深度学习神经网络进行图像分割的图像处理装置。参见图14A所示，该图像处理装置1400包括：

获取单元1401：设置为从用户获取图像以及图像的选择区域，其中该选择区域包括需要从图像中分割的对象以获取第一分割结果；

交互单元1402：设置为获取用户针对第一分割结果输入的校正信息；

处理单元1403：设置为使用深度学习神经网络从图像中分割对象以获取第一分割结果，以及根据校正信息，使用深度学习神经网络中靠近输出层的部分层修改第一分割结果以获取第二分割结果。

其中，图像的选择区域一般为用户在图像上标定的矩形框，该矩形框作为用户感兴趣的选择区域，包括需要从图像中分割的对象。

上述深度学习神经网络的模型结构参照上文中所述，因此其基础网络为FCN网络，在FCN网络的第一卷积层上具有RPN网络分支，其中第一卷积层低于FCN网络的最高卷积层并且高于FCN网络的最低卷积层。

根据本公开的实施例，该处理单元1403还设置为：

根据图像和选择区域使用FCN网络的所有卷积层输出位置敏感特征图，使用RPN网络产生矩形框并投射到位置敏感特征图上，以及通过组合训练分割矩形框内的对象以获取第一分割结果。

根据本公开的实施例，该处理单元1403还设置为：

根据校正信息生成校正距离图；将校正距离图与FCN网络的第二卷积层输出的特征图并联输入到更高的第三卷积层，其中第二卷积层和第三卷积层低于FCN网络的最高卷积层并且高于FCN网络的最低卷积层；使用第三卷积层以及更高的卷积层输出新的位置敏感特征图；以及通过组合训练再次分割矩形框内的对象以获取第二分割结果。

根据本公开的实施例，用户交互中的校正信息可以是用户在错误区域上的校正点击，因此该交互单元1402还设置为获取用户在第一分割结果中的错误区域上的点击。

图14B则示出根据本公开另一实施例的图像处理装置，该图像处理装置1400-1包括：

获取单元1401-1：设置为从用户获取图像以及图像的选择区域，其中该选择区域包括需要从图像中分割的对象；

交互单元1402-1：设置为获取用户针对第一抠取结果输入的校正信息；

处理单元1403-1：设置为使用深度学习神经网络从图像中抠取对象以获取第一抠取结果，以及根据校正信息，使用深度学习神经网络中靠近输出层的部分层修改第一抠取结果以获取第二抠取结果。

根据本公开的实施例，该处理单元1403-1还设置为：

根据图像和选择区域使用FCN网络的所有卷积层输出位置敏感特征图，使用RPN网络产生矩形框并投射到位置敏感特征图上，以及通过组合训练分割矩形框内的对象以获取第一抠取结果。

根据本公开的实施例，该处理单元1403-1还设置为：

根据校正信息生成校正距离图；将校正距离图与FCN网络的第二卷积层输出的特征图并联输入到更高的第三卷积层，其中第二卷积层和第三卷积层低于FCN网络的最高卷积层并且高于FCN网络的最低卷积层；使用第三卷积层以及更高的卷积层输出新的位置敏感特征图；以及通过组合训练再次抠取矩形框内的对象以获取第二抠取结果。

虽然本公开中描述了使用ResNet全卷积网络作为深度学习神经网络的基础网络，但是本领域技术人员可以想到采用与ResNet不同的其他基础网路结构实施本公开的方法。此外，在用户交互过程中，还可以通过不同的校正距离图的放置位置达到类似的效果。

本公开实施例的使用深度学习神经网络的图像处理方法和装置，以及生成深度学习神经网络，特别是生成该神经网络模型的方法，由矩形框标定感兴趣对象，深度学习神经网络对矩形框中的目标对象进行分割或抠取。然后，通过用户交互的方式选取分割或抠取结果中的错误区域以校正分割或抠取结果，再次使用深度学习神经网络模型中靠近输出层的部分层对分割或抠取结果进行修改和优化。其中，在进行交互式分割的时候，只通过神经网络的部分高层卷积层对分割结果进行修改处理，低层卷积层不再参加运算，大大减轻了计算负担。这种图像处理方式只需要用户使用矩形框对感兴趣对象进行标定就可以得到很好的分割或抠取结果，可以识别更多类型的对象而不仅限于少量类型，同时经过用户交互可以适当地调整神经网络的图像分割或抠取结果以使图像处理最优，使用户获得更好的体验。

应当注意，尽管在上文详细描述中提及了图像处理装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序包括可执行指令，该可执行指令被例如处理器执行时可以实现上述任意一个实施例中所述的图像处理方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书的图像处理方法中描述的根据本发明各种示例性实施例的步骤。

根据本发明的实施例的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供一种电子设备，该电子设备可以包括处理器，以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中的图像处理方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图15来描述根据本发明的这种实施方式的电子设备1500。图15显示的电子设备1500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图15所示，电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于：至少一个处理单元1510、至少一个存储单元1520、连接不同系统组件(包括存储单元1520和处理单元1510)的总线1530、显示单元1540等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1510执行，使得所述处理单元1510执行本说明书的图像处理方法中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1510可以执行如图4、图5、图9、图10、图12和图13中所示的步骤。

所述存储单元1520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)15201和/或高速缓存存储单元15202，还可以进一步包括只读存储单元(ROM)15203。

所述存储单元1520还可以包括具有一组(至少一个)程序模块15205的程序/实用工具15204，这样的程序模块15205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1500也可以与一个或多个外部设备1600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1500交互的设备通信，和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且，电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1560可以通过总线1530与电子设备1500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的图像处理方法。

本公开已由上述相关实施例加以描述，然而上述实施例仅为实施本公开的范例。必需指出的是，已揭露的实施例并未限制本公开的范围。相反，在不脱离本公开的精神和范围内所作的变动与润饰，均属本公开的专利保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取用户针对所述第一分割结果输入的校正信息；

2.根据权利要求1所述的图像处理方法，其特征在于，在使用深度学习神经网络从所述图像中分割所述对象以获取第一分割结果之前，所述方法还包括：

创建所述深度学习神经网络。

3.根据权利要求2所述的图像处理方法，其特征在于，创建所述深度学习神经网络包括：

使用全卷积网络作为所述深度学习神经网络的基础网络并配置所述全卷积网络的每个卷积层的结构；

在所述全卷积网络的第一卷积层上增加区域推荐网络分支，其中所述第一卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；

对所述全卷积网络进行参数初始化；

根据所述新的训练数据集训练所述全卷积网络的参数。

4.根据权利要求1所述的图像处理方法，其特征在于，

所述深度学习神经网络的基础网络为全卷积网络，在所述全卷积网络的第一卷积层上具有区域推荐网络分支，其中所述第一卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层。

5.根据权利要求4所述的图像处理方法，其特征在于，使用深度学习神经网络从所述图像中分割所述对象以获取第一分割结果包括：

根据所述图像和所述选择区域使用所述全卷积网络的所有卷积层输出位置敏感特征图；

使用所述区域推荐网络产生矩形框并投射到所述位置敏感特征图上；

通过组合训练分割所述矩形框内的对象以获取所述第一分割结果。

6.根据权利要求5所述的图像处理方法，其特征在于，根据所述校正信息，使用所述深度学习神经网络中靠近输出层的部分层修改所述第一分割结果以获取第二分割结果包括：

根据所述校正信息生成校正距离图；

将所述校正距离图与所述全卷积网络的第二卷积层输出的特征图并联输入到更高的第三卷积层，其中所述第二卷积层和所述第三卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层；

使用所述第三卷积层以及更高的卷积层输出新的位置敏感特征图；

通过组合训练再次分割所述矩形框内的对象以获取所述第二分割结果。

7.根据权利要求1所述的图像处理方法，其特征在于，获取用户针对所述第一分割结果输入的校正信息包括：获取用户在所述第一分割结果中的错误区域上的点击。

8.一种图像处理装置，其特征在于，包括：

9.根据权利要求8所述的图像处理装置，其特征在于，所述深度学习神经网络的基础网络为全卷积网络，在所述全卷积网络的第一卷积层上具有区域推荐网络分支，其中所述第一卷积层低于所述全卷积网络的最高卷积层并且高于所述全卷积网络的最低卷积层。

10.根据权利要求9所述的图像处理装置，其特征在于，所述处理单元还设置为：

11.根据权利要求10所述的图像处理装置，其特征在于，所述处理单元还设置为：

根据所述校正信息生成校正距离图；

12.根据权利要求8所述的图像处理装置，其特征在于，所述交互单元还设置为获取用户在所述第一分割结果中的错误区域上的点击。

13.一种图像处理方法，其特征在于，包括：

获取用户针对所述第一抠取结果输入的校正信息；

获取所述第二抠取结果中的所述对象。

14.一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实施如权利要求1至7任一项所述的图像处理方法中的步骤。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的图像处理方法的步骤。