CN113705575B

CN113705575B - 一种图像分割方法、装置、设备及存储介质

Info

Publication number: CN113705575B
Application number: CN202111254332.9A
Authority: CN
Inventors: 李博贤; 周朋; 徐彤; 见良
Original assignee: Beijing Meishe Network Technology Co ltd
Current assignee: Beijing Meishe Network Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-04-08
Anticipated expiration: 2041-10-27
Also published as: CN113705575A

Abstract

本发明公开了一种图像分割方法、装置、电子设备及存储介质。该方法包括：对待处理图像的图像数据进行预编码，得到预编码特征图；对所述预编码特征图进行第一解码操作，得到几何边缘信息；对所述预编码特征图进行特征编码，得到第一特征图；基于若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息；将所述几何边缘信息与所述上下文语义信息融合；对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割。本发明技术方案可以达到降低设备的图像分割计算量和缓存带宽的目的，从而提高图像分割速度和图像分割精度。

Description

一种图像分割方法、装置、设备及存储介质

技术领域

本申请实施例涉及信息处理技术领域，特别是涉及一种图像分割方法、装置、电子设备及存储介质。

背景技术

随着短视频内容的高速发展，在移动端音视频APP或硬件的图像处理的场景下，对视频中的图像进行分割的需求日益增多。

然而，在图像分割处理过程中，现有的分割方法，例如传统PC端算法或依赖于GPU运算的图像分割算法，通常是基于移动端的部分软件所提供的功能对待处理图像进行处理，这种方法由于需要在用户使用过程中对视频实时进行处理，因而所呈现的时效性和用户的观感性较优。但是现有的图像分割方法，由于受移动端设备的制约，如计算效率不足、缓存速度慢、带宽较小等限制因素，使其仅能在服务端进行正常运行，而在移动端就无法顺利进行。同时，由于现有的图像分割方法是依赖于GPU运算的，也会导致分割速度缓慢、精度低等问题。

发明内容

鉴于上述问题，本发明实施例提供一种图像分割方法、装置、电子设备及存储介质，旨在提高图像分割的计算效率、图像分割时对图像的缓存速度以及移动端图像分割的精度。具体内容如下：

第一方面，提供了一种图像分割方法，所述方法包括：

对待处理图像的图像数据进行预编码，得到预编码特征图；

对所述预编码特征图进行第一解码操作，得到几何边缘信息；

对所述预编码特征图进行特征编码，得到第一特征图；

基于若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息；

将所述几何边缘信息与所述语义信息融合；

对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割。

优选地，对待处理图像的图像数据进行预编码，得到预编码特征图，包括：

通过卷积核对待处理图像的图像数据进行卷积操作，得到初始特征图，所述初始特征图的尺寸小于所述待处理图像的尺寸；

采用全局池化层对所述初始特征图进行下采样，得到所述预编码特征图。

优选地，对所述预编码特征图进行特征编码，得到第一特征图，包括：

通过若干个卷积核组成的级联结构，对所述预编码特征图进行特征编码，得到第一特征图，所述第一特征图的尺寸小于所述预编码特征图的尺寸。

优选地，基于若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息，包括：

通过若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息；

依次通过全局池化、两次卷积对所述第一特征图进行全局特征提取，得到全局特征；

将所述上下文语义信息、所述全局特征以及所述第一特征图进行特征融合；

对特征融合得到的特征图进行卷积，得到所述第一特征图的语义信息。

优选地，所述可分离空洞卷积是指：将3×3卷积拆分成3×3 Depthwise卷积和1×1 Pointwise卷积，由所述3×3 Depthwise卷积和所述1×1 Pointwise卷积组成的空洞卷积。

优选地，所述若干个可分离空洞卷积的数量是四个，依次为第一可分离空洞卷积、第二可分离空洞卷积、第三可分离空洞卷积、第四可分离空洞卷积；

其中，所述第一可分离空洞卷积的间隔值为1，所述第二可分离空洞卷积之间的间隔值为3，所述第三可分离空洞卷积的间隔值为7，所述第四可分离空洞卷积的间隔值为10。

优选地，所述对融合结果进行解码，包括：

通过由多个级联的卷积层构成的网络对所述融合结果进行解码，其中，所述卷积层的结构为深度可分离结构。

优选地，所述方法还包括：

将所述待处理图像及其上一帧图像分别转为灰度图，并利用得到的两张灰度图计算光流，其中，在所述待处理图像为视频流的第一帧图像的情况下，将全黑色等尺寸图像作为第一帧图像的灰度图；

将所述光流和所述待处理图像的第一掩码进行融合，得到所述待处理图像的第二掩码，所述第二掩码用于对所述待处理图像进行图像分割。

本发明实施例的第二方面，提供了一种图像分割装置，所述装置包括：

预编码模块，用于对待处理图像的图像数据进行预编码，得到预编码特征图；

第一解码模块，用于对所述预编码特征图进行第一解码操作，得到几何边缘信息；

特征编码模块，用于对所述预编码特征图进行特征编码，得到第一特征图；

语义捕捉模块，用于基于若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息；

第一融合模块，用于将所述几何边缘信息与所述上下文语义信息融合；

第二解码模块，用于对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割。

本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的图像分割方法。

本发明实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述的图像分割方法。

本发明实施例公开的图像分割方法包括：对待处理图像的图像数据进行预编码，得到预编码特征图；对所述预编码特征图进行第一解码操作，得到几何边缘信息；对所述预编码特征图进行特征编码，得到第一特征图；基于若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息；将所述几何边缘信息与所述上下文语义信息融合；对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割。本发明提供的该图像分割方法，在捕捉上下文语义时，通过引入若干个可分离空洞卷积进行下文语义的捕捉，可以达到提高图像分割的计算效率以及图像分割时对图像的缓存速度的目的。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种图像分割网络的示意图；

图2是本发明实施例中的一种基于图像分割网络的图像分割方法的流程示意图；

图3是本发明实施例中的一种图像分割方法的方法流程图；

图4是本发明实施例中的一种上下文语义捕捉网络的示意图；

图5是本发明实施例中的另一种基于图像分割网络的图像分割方法的流程示意图；

图6是本发明实施例中的待处理图像的示意图；

图7是本发明实施例中的经过图像分割后得到的图像分割结果的示意图；

图8是本发明实施例中的经过图像分割后得到的图像分割掩码的可视化图像的示意图；

图9是本发明实施例中的一种图像分割装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有的图像分割方法，由于受移动端设备的制约，如计算效率不足、缓存速度慢、带宽较小等限制因素，使其仅能在服务端进行正常运行，而在移动端却无法快速、高效的顺利进行。并且，由于现有的图像分割方法是依赖于GPU运算的，也会导致分割速度缓慢、精度低等问题。

图像分割为解决上述技术问题，本发明实施例提出了一种图像分割方法、装置、电子设备及存储介质。以下各实施例均以人像分割为例，进行阐述。具体内容如下：

本发明实施例第一方面，提供了一种图像分割方法。该方法是基于移动终端的图像分割网络实施的。图1是本发明实施例中的一种图像分割网络的网络图，如图1所示，该图像分割网络包括：快速下采样及预编码模块、特征编码网络、上下文语义捕捉网络、特征粗解码网络、融合上采样模块、特征细解码网络、上采样模块、输出掩码模块。

快速下采样及预编码模块，用于先对输入的待处理图像进行特征预编码，特征预编码得到的特征图a再经过全局池化层进行两倍下采样，以得到预编码后的特征图b。其中，特征图a的尺寸大小是待处理图像的尺寸大小的四分之一，但是两者的通道数不变。本实施例中，快速下采样及预编码模块旨在压缩数据，提取有效特征，减少特征编码网络和上下文语义捕捉网络的图像分割计算量、提高计算效率。

特征编码网络，为若干个卷积核为1x1和3x3的级联结构，主要功能为对特征图b进行深层次的特征编码，将特征图b的语义特征提取至精炼的数字特征当中，最终输出比输入更小的特征图c。即，特征图c的尺寸大小是小于特征图b的尺寸大小的，以进一步减少上下文语义捕捉网络的图像分割计算量、提高计算效率。

上下文语义捕捉网络，用于对特征图c中的上下文语义进行捕捉，以得到上下文语义信息。需要指出的是，在本实施例的上下文语义捕捉网络中，输入为三组通过复制得到的特征编码网络输出的特征编码矩阵，其中第一组特征编码矩阵通过4个空洞卷积特征编码中不同感受野的信息，达到上下文语义解析的目的，其中第二组特征编码矩阵是通过全局池化、两次1×1卷积得到全局特征，其中第三组特征编码矩阵是直接与第一组得到上下文语义信息和第二组得到的全局特征信息进行特征融合，以完成对特征图c的上下文语义信息的捕捉。

特征粗解码网络，用于对浅层的特征图b进行语义解析，侧重于对几何边缘信息进行解码，以得到特征图b的粗粒度特征所对应的几何边缘信息。

融合上采样模块，用于将上下文语义捕捉网络捕捉提取到的上下文语义信息上采样到粗解码网络输出的尺寸，即将上下文语义信息的尺寸上采样到几何边缘信息的尺寸，以便于两者的顺利融合，然后将上采样后的上下文语义信息与几何边缘信息进行拼接融合，以得到更加完整的掩码信息。本实施例中的掩码，可以理解为遮罩。

特征细解码网络，用于整合上下文语义信息与几何边缘信息，并对整合结果做进一步精细的解码，以得到更加精确的掩码信息。本实施例中的“整合”是指：在细解码网络对输入的几何边缘信息和上下文语义信息做统一的一系列学习和计算，从而达到整合两者信息的目的。而为了便于理解，该“整合”过程也可以理解为学习过程。

上采样模块，用于将经过特征细解码网络得到的解码结果，上采样到与待处理图像的尺寸相同，得到与待处理图像的尺寸相同的掩码信息，以使后续将该掩码信息用于分割时，可以准确地对待处理图像进行分割。其中，该掩码信息为带有置信度的人像分割遮罩信息，即关于待处理图像的二分类mask。本实施例中，置信度即为二分类中属于某个类别的概率，在分割任务中，可以用置信度作为图层融合的权重。

输出掩码模块，用于将得到的掩码信息输出，以用于对待处理图像对应的待处理图像进行分割。

图2是本发明实施例中的一种基于图像分割网络的图像分割方法的示意图；图3是本发明实施例中的一种图像分割方法的方法流程图。结合图2和图3所示的内容，本实施例提供的图像分割方法，具体可以包括以下步骤：

S1：对待处理图像的图像数据进行预编码，得到预编码特征图。

具体实施时，通过卷积核对待处理图像的图像数据进行卷积操作，得到初始特征图；再采用全局池化层对初始特征图进行下采样，得到预编码特征图（即上述特征图a）。其中，初始特征图的尺寸小于待处理图像的尺寸。

在本实施步骤中，为了实现数据的压缩，有效特征的提取，减少网络的图像分割计算量，具体实施时，采用的卷积核可以是5x5的卷积，并且在下采样时可以采用两倍下采样。

在本实施步骤中，初始特征图的尺寸为待处理图像的尺寸的四分之一，而两者的通道数不变。

在本实施步骤中，在将待处理图像输入图像分割网络进行人像分割时，还需对该待处理图像进行预处理。该预处理可以采用的下述公式执行。

式中，img为待处理图像中各个像素点的像素值组成的矩阵，mean为统计均值常量，std为统计方差常量，均在0-1之间，根据数据集统计分布得到；input为预处理后得到的待输入数据。

本实施步骤中，mean = [0.485, 0.456, 0.406]，std = [0.229, 0.224,0.225]，其中mean或std中的三个数依次分别对应图像的BGR这3个通道。在此，需要指出的是，在同一个任务流程中是mean和std均为定值，但在不同任务中，具体数值将根据训练数据训练方法或任务而改变，主要与使用的训练数据集的分布有关。

通过该预处理方法，可以将待处理图像的每个像素对应数值归一到0-1之间，以此得到可以使用本实施例的图像分割网络进行处理的待处理图像。

为了实现加速图像分割同时进行并行运算，本实施例中，将预编码特征图复制成相同的两份，采用并行运算的技术手段，对预编码特征图中的粗粒度特征和上下文语义信息分别进行并行提取。因而，下述的步骤S2是对预编码特征图中的粗粒度特征进行提取的执行步骤，下述的步骤S3和步骤S4是对预编码特征图中的上下文语义信息进行提取的执行步骤。具体内容如下：

S2：对所述预编码特征图进行第一解码操作，得到几何边缘信息。

具体实施时，将复制得到一份预编码特征图输入特征粗解码网络中，通过特征粗解码网络对预编码特征图进行第一解码操作，得到几何边缘信息。其中，特征粗解码网络包含两个串联的1x1卷积再接一个PRelu激活函数，用于提取预编码特征图中的粗粒度信息。

本实施步骤中的“提取”可以理解为学习或图像分割。本实施步骤中的粗粒度信息可以理解为：如轮廓、大小、位置等几何边缘信息。

S3：对所述预编码特征图进行特征编码，得到第一特征图。

具体实施时，将复制得到另一份预编码特征图输入到特征编码网络中，经过特征编码网络对预编码特征图进行深层次的特征编码，将预编码特征图的语义特征提取至精炼的数字特征当中，最终输出比预编码特征图更小的第一特征图（即上述的特征图c）。

本实施步骤中，特征编码网络为若干个卷积核为1x1和3x3的级联结构。

S4：对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息。

本实施步骤中，将第一特征图输入到上下文语义捕捉网络中，经过上下文语义捕捉网络对第一特征图进行上下文语义捕捉，得到第一特征图的语义信息。

在本实施步骤中，一方面，为了实现加速图像分割和进行并行运算的同时，避免信息的丢失，保证对第一特征图中上下文语义捕捉的精度和稳定性，本实施例中，将第一特征图对应的特征编码矩阵复制成完全相同的三组特征编码矩阵，分别为第一组特征编码矩阵、第二组特征编码矩阵以及第三组特征编码矩阵。具体实施步骤是：

第一组特征编码矩阵通过若干个可分离空洞卷积特征编码中不同感受野的信息，达到上下文语义解析的目的，而该第一组特征编码矩阵相比于传统技术方案具有更少参数量、更快计算速度的优势；第二组特征编码矩阵是通过全局池化、两次1×1卷积得到全局特征；第三组特征编码矩阵作为避免信息的丢失，保证对第一特征图中上下文语义捕捉的精度和稳定性的辅助特征，将其直接与第一组得到上下文语义信息和第二组得到的全局特征信息进行特征融合，完成对第一特征图的语义信息的精准、完整、稳定的捕捉，以使本实施例提供的方法可以在视频流中对图像帧进行实时的人像分割。

基于此，本实施例提供了上下文语义捕捉网络的网络图，如图4所示。图4是本发明实施例中的一种上下文语义捕捉网络的网络图。本实施例中的上下文语义网络包括：若干个可分离空洞卷积、全局池化层、3个1×1卷积层、特征融合模块、上下文融合特征编码。其中，输入上下文语义捕捉网络的特征编码，即为特征编码网络输出的特征编码矩阵；上下文融合特征编码即指S4中所述的上下文语义信息。

请参考图4所示内容，本实施步骤具体实施时，通过若干个可分离空洞卷积对第一特征图进行上下文语义捕捉，得到第一特征图的语义信息；依次通过全局池化、两次卷积对第一特征图进行全局特征提取，得到全局特征；将上下文语义信息、全局特征以及第一特征图进行特征融合；对特征融合得到的特征图进行卷积，得到第一特征图的语义信息。

在本实施步骤中，另一方面，还需指出的是，由于采用可分离空洞卷积对特征编码矩阵进行卷积时，还会影响图像分割网络对特征编码矩阵的学习效果，因而本实施例中采用将第一特征图对应的特征编码矩阵复制成完全相同的三组特征编码矩阵更是为了解决此技术问题。针对该技术问题的具体操作为：在特征编码网络对应的特征编码层引出一支经过可分离空洞卷积进行上下文语义解析时，还会另引两个分支，一支通过全局池化加卷积提取全局特征，另一分支直接将特征编码信息与上下文语义信息和全局特征信息做拼接融合，以弥补简化结构所丢失的特征信息，丰富输出特征编码的语义信息。

其中，本实施步骤中采用的特征编码网络是在神经网络中常见的网络结构，本质上是通过卷积结构组成不同的计算单元，对图像转化的矩阵进行计算，以实现将图像最终转化为包含特征信息的特征矩阵。具体地，本实施步骤中特征编码网络选用的是Shufflenetv2的轻量化结构，而特征编码网络的选取，可以根据业务的不同进行不同的选择，因而在本实施例中不做具体限定。

此外，为减少图像分割网络的参数量和计算量，本实施例中，可分离空洞卷积具体可以是指：将3×3卷积拆分成3×3 Depthwise卷积和1×1 Pointwise卷积，由所述3×3Depthwise卷积和所述1×1 Pointwise卷积组成的空洞卷积。

本实施步骤中，若干个可分离空洞卷积的数量可以是四个（如图4所示），依次为第一可分离空洞卷积（即图4中的可分离空洞卷积1）、第二可分离空洞卷积（即图4中的可分离空洞卷积2）、第三可分离空洞卷积（即图4中的可分离空洞卷积3）、第四可分离空洞卷积（即图4中的可分离空洞卷积4）。每个可分离空洞卷积的间隔值（该间隔值是指：卷积中两个最近的大于0的数中间0的数量，即空洞间隔）可以根据实际需求进行设计。

在本实施步骤中，将四个空洞卷积的间隔值分别设计为1,3,7,10，即第一可分离空洞卷积的间隔值为1，第二可分离空洞卷积之间的间隔值为3，第三可分离空洞卷积的间隔值为7，第四可分离空洞卷积的间隔值为10。这种结构设计是为了使上下文语义捕捉网络学习到不同感受野的信息（该感受野可以理解为在某个像素上进行分析时所具有的视野），从而整合得到图像的上下文信息，对于语义分割任务来说，这种结构设计对于上下文语义捕捉网络对每个像素进行分类而得到掩码时起到重要的作用。

需要指出的是，本实施例中经过上下文语义捕捉网络捕捉到的语义信息，是指上下文语义捕捉网络对于理解某一个像素上的信息时，同时考虑周围一定范围的像素信息，类比于在翻译一篇文章时，考虑一个词的意思要看它上下文的语义关联。如空洞卷积，就是会同时考虑一个点阵的信息来对某一个像素点进行编码。

为了更有效地说明本实施例提供的上下文语义捕捉网络，优于现有的aspp结构（即空洞卷积没有作分离，特征编码没有直接参与融合的结构）。本实施例中对两者进行对比试验，具体结果为：在其他条件相同的情况下，本实施例提供的算法的上下文语义捕捉网络与原版本的aspp结构相比，在精度不低于后者的情况下参数量减少了80%。

本实施步骤中的上下文语义捕捉网络，可以理解为是在aspp结构上为轻量化设计进行改进的。

S5：将所述几何边缘信息与所述语义信息融合。

具体实施时，将步骤S2得到几何边缘信息与步骤S4得到的语义信息进行融合。其中，该融合是指将两个矩阵在某个维度上进行融合concat拼接操作，相当于将两部分的特征合并。

本实施步骤中，由于经过步骤S4得到的语义信息对应的图像尺寸，小于几何边缘信息对应的图像尺寸，因而在融合之前，需要对步骤S4得到的语义信息进行上采样，将其上采样到几何边缘信息对应的图像尺寸。其中，上采样可以理解为：使用双线性差值对矩阵在长和宽的维度上进行放大，如对数据化的图像进行放大就是相似的操作。

需要说明的是，上述的“融合concat”操作，可以理解为乐高积木中的“拼接”操作，因而本实施例中，在融合之后，粗解码的结果和捕捉的上下文语义相当于捆绑在一起，各自并没有因为融合而改变，上采样也只是在长宽维度上进行了放大，所以下一步的细解码网络相当于对粗解码的结果和捕捉到的上下文语义结果共同做了解码计算操作。

S6：对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割。

本实施步骤中，对融合结果进行解码，是指对融合结果进行特征细解码。具体实施时，通过将融合结果输入特征细解码网络中，经过特征细解码网络对融合结果中的语义信息和几何边缘信息进行整合，并对整合结果做进一步解码（即，做进一步萃取、学习或图像分割得到图像中某些关键部分的语义信息，如纹理、类别、属性等），而在本实施例中，为了将掩码放大到与待处理图像相同的长宽尺寸，实现对待处理图像的精确分割，该解码结果还需经过上采样，将其上采样到与输入图像分割网络的图像的尺寸相同的尺寸，得到的掩码才是待处理图像的第一掩码。第一掩码用于对待处理图像进行图像分割。

本实施步骤中的“整合”是指：在细解码网络对输入的粗解码信息和语义信息做统一的一系列学习和计算，从而达到整合两者信息的目的。由于深度学习内部的计算属于黑箱，所以“整合”是人为抽象的去理解这段过程来解释的词汇，在实际使用过程中也可以换作“学习”。

本实施步骤中，特征细解码网络可以是由若干个级联的卷积层构成（级联的卷积层是指：过一个卷积计算后马上再接一个卷积，以此串联起来的卷积层，具体可以参照图4中两个相邻的1×1卷积）。具体实施时，对融合结果进行解码，可以为：通过由多个级联的卷积层构成的网络对融合结果进行解码。而为了精简计算量，本实施例中将卷积层的结构均转换为深度可分离结构。

本发明实施例中的所有1x1的卷积是用于提取数据中的有效特征的，是神经网络的基础模块。

本实施例中，上采样即为对矩阵的长和宽维度进行等比放大，类似于图像放大；在深度学习中，通常上采样后，后续大部分操作的计算量都会乘以与放大的倍数。如图2所示，本实施例中，为了节约计算量，提高模型图像分割速度，分为两次上采样。第一次融合上采样主要是为了将图像的语义信息和粗特征信息进行融合后输入细解码网络，进行进一步的解析，第二次上采样是为了将掩码放大到与输入相同的长宽尺寸。

本发明实施例提出了一种人像分割方法，适用于在移动终端中执行，该方法利用深度学习方法训练的神经网络模型，对视频或图像中的人像进行分割处理，可在移动端视频任务中达到实时处理的效果。该方法主要包括：对待处理图像的图像数据进行预编码，得到预编码特征图；对预编码特征图进行第一解码操作，得到几何边缘信息；对预编码特征图进行特征编码，得到第一特征图；对第一特征图进行上下文语义捕捉，得到第一特征图的语义信息；将几何边缘信息与所述上下文语义信息融合；对融合结果进行解码，得到待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割。本发明实施例提供的图像分割方法，在捕捉上下文语义时，通过引入若干个可分离空洞卷积进行下文语义的捕捉，可以达到提高图像分割的计算效率以及图像分割时对图像的缓存速度的目的，使移动端在进行图像分割时，具有图像分割速度快，图像分割精度高的特点。

相对于现有技术而言，本发明实施例提供的图像分割方法，由于是针对于移动端的实时图像分割，因而要求模型（该模型即上述的人像分割网络）图像分割速度快，参数量小，占用内存资源少。基于此目的，本发明实施例提出的技术构思主要为：一方面引入可分离空洞卷积（而现有技术一般采用的是计算量较大的空洞卷积），采用可分离的设计节省了计算量，另一方面，由于引入了可分离的设计，因而为了避免信息的丢失，还加入了特征编码参与进行特征融合的操作，以实现大程度的提高计算速度的同时，不损失精度和效果。并且，通过上述实施例中的实验数据，也证明了本实施例提供的人像分割网络可以达到预期。

因此，对于现有技术而言，本实施例提供的图像分割方法，主要是为了实现低计算量条件下的快速图像分割，并尽可能地保证图像分割的精度和稳定性。

由于实时视频切分出的视频帧通常是连续的，而光流可以计算出帧与帧之间的人像像素运动方向，因此，为了使分割效果更稳定平滑，将上述实施例得到的第一掩码与光流进行融合，得到用于分割待处理图像的第二掩码。图5是本发明实施例中的另一种基于人像分割网络的图像分割方法的流程示意图。如图5所示，在本发明的另一实施例中，将上述实施例得到的第一掩码与光流进行融合，得到用于分割待处理图像的第二掩码。

在本发明实施例中，获取第一掩码的步骤与上一实施例中的步骤相同，在本实施例中，不做赘述。本实施例提供的图像分割方法在上一实施例的步骤基础上，该分割方法还包括：

S7，将所述待处理图像及其上一帧图像分别转为灰度图，并利用得到的两张灰度图计算光流，其中，在所述待处理图像为视频流的第一帧图像的情况下，将全黑色等尺寸图像作为第一帧图像的灰度图。

具体实施时，将待处理图像复制为两份，一份采用上一实施例所示的步骤做第一掩码的提取，另一份转为灰度图，并利用当前帧灰度图和上一帧灰度图计算光流。

光流为图像运动过程中，主体运动像素集的轨迹。本实施例步骤中，使用DIS光流计算方法，分别计算前一帧到当前帧与当前帧到前一帧的光流，计算光流时，输入为对应帧的灰度图像。若当前帧为第一帧，则上一帧图像数据用全黑色等尺寸图像作为替代。

S8，将所述光流和所述待处理图像的第一掩码进行融合，得到所述待处理图像的第二掩码，所述第二掩码用于对所述待处理图像进行图像分割。

具体实施时，将S7计算得到的光流和待处理图像的第一掩码进行融合，得到经过光流校正过的掩码，即待处理图像的第二掩码。该第二掩码用于对待处理图像进行图像分割。

其中，由于计算得到的光流本质上也是0-1之间的与第一掩码尺寸相同的矩阵，所以融合只需要按一定权重比例对光流和遮罩mask分别相乘后再相加即可（如0.3×dis +0.7×mask）。

本实施例中，由于在移动端视频人像分割的应用中，通常背景的变化较小，主要运动趋势集中于主体人像，所以本实施例中，通过计算两帧之间的光流信息，可以得到人像主体的运动趋势，与当前帧所得第一掩码融合，可以稳定人像分割的输出结果，减少图像分割噪音。

其中，在计算两帧之间的光流信息时，会分别算前向结果（该前向结果即指前一帧到当前帧的光流）和逆向结果（该逆向结果即指当前帧到前一帧的光流），联合这两个结果筛除在当前帧运动出边界的像素，不对这些像素进行跟踪，并整合余下的像素生成光流。

在本发明实施例中，如图5所示，得到第二掩码后，该第二掩码还会用于下一帧做光流跟踪计算。该跟踪计算是指通过光流法对上一帧的人像像素点跟踪，相当于通过光流预测出人像像素对应的预测方向后，对当前帧的人像位置进行了一个估计，再把这个估计的矩阵和实际分割的结果做融合，在实时显示的视觉效果上来看会更加稳定顺滑。

此外，为减少人像分割网络图像分割计算量，网络模型输入较小，在处理高清视频时上采样很容易出现边缘锯齿的现象，如图5所示，本实施例中对得到的第二掩码进行了后处理。该后处理主要包括高斯平滑和尺寸缩放，通过加入的高斯平滑，对上采样前的遮罩做卷积运算，这样可以使得分割边缘的锯齿变小，达到平滑边缘的效果，再将高斯平滑后的掩码做softmax运算后上放缩至待处理图像的尺寸，与待处理图像点积相乘，得到最终的人像分割结果和人像分割掩码，完成人像分割。其中，具体实施时所用的高斯平滑，采用的是3x3或5x5的高斯卷积核。

需要说明的是，在计算机处理图像的过程中，图像对应的掩码是长宽相同的矩阵，不同点在于图像矩阵中的数值为0-255之间的整数，而掩码是0-1之间的浮点数。通常对于分割任务而言，最终只需将两个矩阵逐位相乘（即上述的点积相乘）后进行取整，即可得到分割后的结果，以人像分割为例，此时理想状态是除去人像的其他区域，均为黑色，详见图7。

图6是本发明实施例中的待处理图像；图7是本发明实施例中的经过图像分割后得到的人像分割结果。如图6、图7所示，待处理图像经过本发明实施例提供的图像分割方法进行图像分割后，得到的人像分割结果，具有精准度高、效果好、平滑边缘等优点。此外，图8是本发明实施例中的经过图像分割后得到的人像分割掩码的可视化图像，其中的可视化操作是将第二掩码乘255取整。

本发明提出了一种人像分割方法，适用于在移动终端中执行，该方法利用深度学习方法训练的神经网络模型，对视频或图像中的人像进行分割处理，可在移动端视频任务中达到实时处理的效果。该方法主要包括：提取视频中的图像帧进行预处理，将处理后的数据输入人像分割网络：先对数据进行快速下采样及预编码，再输入到特征编码网络和粗解码网络；特征编码网络输出进入上下文语义捕捉网络后，与粗解编码输出融合上采样；再经过特征细解码网络解码后上采样，得到第一掩码（该第一掩码在人像分割中即指二分类遮罩）输出。原图像转灰度用于计算光流，相邻两帧的光流结果进行跟踪计算后与当前帧的掩码做融合；后处理后对原图像进行分割得到人像分割结果和掩码。该方法在移动端有图像分割速度快，图像分割精度高的特点。

基于同一发明构思，本申请一实施例提供一种图像分割装置。参考图9，图9是本发明实施例中的一种图像分割装置的示意图。如图9所示，该装置包括：

预编码模块11，用于对待处理图像的图像数据进行预编码，得到预编码特征图；

第一解码模块12，用于对所述预编码特征图进行第一解码操作，得到几何边缘信息；

特征编码模块13，用于对所述预编码特征图进行特征编码，得到第一特征图；

语义捕捉模块14，用于基于若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息；

第一融合模块15，用于将所述几何边缘信息与所述上下文语义信息融合；

第二解码模块16，用于对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割。

本实施例中，优选地，预编码模块11，包括：

第一卷积子模块，用于通过卷积核对待处理图像的图像数据进行卷积操作，得到初始特征图，所述初始特征图的尺寸小于所述待处理图像的尺寸；

第一下采样子模块，用于采用全局池化层对所述初始特征图进行下采样，得到所述预编码特征图。

优选地，特征编码模块13，包括：

特征编码子模块，用于通过若干个卷积核组成的级联结构，对所述预编码特征图进行特征编码，得到第一特征图，所述第一特征图的尺寸小于所述预编码特征图的尺寸。

优选地，语义捕捉模块14，包括：

语义捕捉子模块，用于通过若干个可分离空洞卷积对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息；

全局特征提取子模块，用于依次通过全局池化、两次卷积对所述第一特征图进行全局特征提取，得到全局特征；

特征融合子模块，用于将所述上下文语义信息、所述全局特征以及所述第一特征图进行特征融合；

第二卷积子模块，用于对特征融合得到的特征图进行卷积，得到所述第一特征图的语义信息。

本实施例中，优选地，所述可分离空洞卷积是指：将3×3卷积拆分成3×3Depthwise卷积和1×1 Pointwise卷积，由所述3×3 Depthwise卷积和所述1×1Pointwise卷积组成的空洞卷积。

本实施例中，优选地，所述若干个可分离空洞卷积的数量是四个，依次为第一可分离空洞卷积、第二可分离空洞卷积、第三可分离空洞卷积、第四可分离空洞卷积；

优选地，第二解码模块16，包括：

解码子模块，用于通过由多个级联的卷积层构成的网络对所述融合结果进行解码，其中，所述卷积层的结构为深度可分离结构。

优选地，所述装置，还包括：

光流计算模块，用于将所述待处理图像及其上一帧图像分别转为灰度图，并利用得到的两张灰度图计算光流，其中，在所述待处理图像为视频流的第一帧图像的情况下，将全黑色等尺寸图像作为第一帧图像的灰度图；

第二融合模块，用于将所述光流和所述待处理图像的第一掩码进行融合，得到所述待处理图像的第二掩码，所述第二掩码用于对所述待处理图像进行图像分割。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的图像分割方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的图像分割方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的图像分割方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像分割方法，其特征在于，所述方法包括：

对待处理图像的图像数据进行预编码，得到预编码特征图；

对所述预编码特征图进行特征编码，得到第一特征图；

将所述几何边缘信息与所述语义信息融合；

对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割；

其中，对待处理图像的图像数据进行预编码，得到预编码特征图，包括：

采用全局池化层对所述初始特征图进行下采样，得到所述预编码特征图；

其中，对所述预编码特征图进行特征编码，得到第一特征图，包括：

通过若干个卷积核组成的级联结构，对所述预编码特征图进行特征编码，得到第一特征图，所述第一特征图的尺寸小于所述预编码特征图的尺寸；

其中，基于若干个可分离空洞卷积对对所述第一特征图进行上下文语义捕捉，得到所述第一特征图的语义信息，包括：

将所述语义信息、所述全局特征以及所述第一特征图进行特征融合；

2.根据权利要求1所述方法，其特征在于，所述可分离空洞卷积是指：将3×3卷积拆分成3×3 Depthwise卷积和1×1 Pointwise卷积，由所述3×3 Depthwise卷积和所述1×1Pointwise卷积组成的空洞卷积。

3.根据权利要求2所述方法，其特征在于，所述若干个可分离空洞卷积的数量是四个，依次为第一可分离空洞卷积、第二可分离空洞卷积、第三可分离空洞卷积、第四可分离空洞卷积；

4.根据权利要求1所述方法，其特征在于，所述对融合结果进行解码，包括：

5.根据权利要求1所述方法，其特征在于，所述方法还包括：

6.一种图像分割装置，其特征在于，所述装置包括：

第一融合模块，用于将所述几何边缘信息与所述语义信息融合；

第二解码模块，用于对融合结果进行解码，得到所述待处理图像的第一掩码，所述第一掩码用于对所述待处理图像进行图像分割；

其中，所述预编码模块，包括：

第一下采样子模块，用于采用全局池化层对所述初始特征图进行下采样，得到所述预编码特征图；

所述特征编码模块，包括：

特征编码子模块，用于通过若干个卷积核组成的级联结构，对所述预编码特征图进行特征编码，得到第一特征图，所述第一特征图的尺寸小于所述预编码特征图的尺寸；

所述语义捕捉模块，包括：

特征融合子模块，用于将所述语义信息、所述全局特征以及所述第一特征图进行特征融合；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任意一项所述的图像分割方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任意一项所述的图像分割方法。