CN109035257B

CN109035257B - 人像分割方法、装置及设备

Info

Publication number: CN109035257B
Application number: CN201810709464.8A
Authority: CN
Inventors: 傅依; 李旭斌; 文石磊; 丁二锐; 刘霄
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2021-08-31
Anticipated expiration: 2038-07-02
Also published as: CN109035257A

Abstract

本发明实施例提供一种人像分割方法、装置及设备，该方法包括：获取视频中第一图像与第二图像之间的差异值，第一图像为待进行人像分割处理的图像，第二图像为第一图像的前一帧图像，第二图像已进行人像分割处理；若差异值大于预设阈值，则根据预设模型对第一图像进行人像分割处理，得到第一图像的人像分割结果，预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本；若差异值小于或等于预设阈值，则根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果。在保证对视频进行高精度的人像分割处理的基础上，提高了对视频进行高精度人像分割处理的实时性。

Description

人像分割方法、装置及设备

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种人像分割方法、装置及设备。

背景技术

人像分割是指在图像中提取人体图像，视频场景下的人像分割是指在视频中实时提取人体图像。

在现有技术中，当需要在终端设备(例如手机等)中对视频进行实时人像分割处理时，通常先在终端设备中加载预先学习得到的预设模型，再将视频输入至预设模型，以使预设模型对视频中的每一帧图像进行人像分割处理。然而，在通过预设模型对图像进行高精度的人像分割处理时，预设模型需要消耗终端设备较多的资源、且需要较长的处理时长。导致对视频进行高精度人像分割处理的实时性较差。

发明内容

本发明实施例提供一种人像分割方法、装置及设备，在保证对视频进行高精度的人像分割处理的基础上，提高了对视频进行高精度人像分割处理的实时性。

第一方面，本发明实施例提供一种人像分割方法，包括：

获取视频中第一图像与第二图像之间的差异值，所述第一图像为待进行人像分割处理的图像，所述第二图像为所述第一图像的前一帧图像，所述第二图像已进行人像分割处理；

若所述差异值大于预设阈值，则根据预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果，所述预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本；

若所述差异值小于或等于所述预设阈值，则根据所述第二图像的人像分割结果和运动估计算法，确定所述第一图像的人像分割结果。

在一种可能的实施方式中，在所述根据预设模型对所述第一图像进行人像分割处理之前，还包括：

获取所述视频的类型，所述视频的类型包括近景视频类型和远景视频类型；

根据所述视频的类型，加载所述视频类型对应的所述预设模型。

在另一种可能的实施方式中，所述获取所述视频的类型，包括：

确定终端设备拍摄所述视频所使用的摄像头；

若拍摄所述视频所使用的摄像头为前置摄像头，则确定所述视频的类型为近景视频类型；

若拍摄所述视频所使用的摄像头为后置摄像头，则确定所述视频的类型为远景视频类型。

在另一种可能的实施方式中，所述预设模型具有优化网络结构、优化卷积层、优化网络高层语义信息中的至少一种；其中，

所述优化网络结构为深度加逐点的网络结构。

所述优化卷积层的卷积操作包括一个第一卷积操作和K个第二卷积操作；其中，所述第一卷积操作为输入为M通道、输出为N/K通道，所述第二卷积操作的输入为N/K通道、输出为N/K通道；所述预设模型的卷积层的特征输出为所述第一卷积操作和所述K个第二卷积操作的特征组合，所述M、所述N、所述K分别为大于或等于1的正整数。

所述优化网络高层语义信息中包括扩张操作。

在另一种可能的实施方式中，所述获取视频中第一图像与第二图像之间的差异值，包括：

获取所述第一图像和所述第二图像的差分图像；

根据所述差分图像确定所述第一图像和所述第二图像之间的差异值。

获取所述第一图像的第一特征向量、及所述第二图像的第二特征向量；

根据所述第一特征向量和所述第二特征向量，确定所述第一图像和所述第二图像之间的相似度；

根据所述相似度确定所述第一图像和所述第二图像之间的差异值。

在另一种可能的实施方式中，获取视频中第一图像与第二图像之间的差异值之前，还包括：

获取所述第一图像的前N帧图像的人像分割处理方式，所述人像分割处理方式包括通过所述预设模型进行人像分割处理的方式和通过所述运动估计算法进行人像分割处理的方式，所述N为大于或等于1的正整数；

判断所述第一图像的前N帧图像的人像分割处理方式中是否存在通过所述预设模型进行人像分割处理的方式；

若是，则确定执行获取视频中第一图像与第二图像之间的差异值。

在另一种可能的实施方式中，若所述第一图像的前N帧图像的人像分割处理方式中不存在通过所述预设模型进行人像分割处理的方式，所述方法还包括：

根据所述预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果。

在另一种可能的实施方式中，所述运动估计算法包括如下算法中的至少一种：

块匹配法、递归估计法、贝叶斯估计法和光流法中的至少一种。

第二方面，本发明实施例提供一种人像分割装置，包括第一获取模块和分割处理模块，其中，

所述第一获取模块用于，获取视频中第一图像与第二图像之间的差异值，所述第一图像为待进行人像分割处理的图像，所述第二图像为所述第一图像的前一帧图像，所述第二图像已进行人像分割处理；

所述分割处理模块用于，在所述差异值大于预设阈值时，根据预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果，所述预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本；

所述分割处理模块还用于，在所述差异值小于或等于所述预设阈值时，根据所述第二图像的人像分割结果和运动估计算法，确定所述第一图像的人像分割结果。

在一种可能的实施方式中，所述装置还包括第二获取模块和加载模块，其中，

所述第二获取模块用于，在所述分割处理模块根据预设模型对所述第一图像进行人像分割处理之前，获取所述视频的类型，所述视频的类型包括近景视频类型和远景视频类型；

所述加载模块用于，根据所述视频的类型，加载所述视频类型对应的所述预设模型。

在另一种可能的实施方式中，所述第二获取模块具体用于：

确定终端设备拍摄所述视频所使用的摄像头；

所述优化网络结构为深度加逐点的网络结构。

所述优化网络高层语义信息中包括扩张操作。

在另一种可能的实施方式中，所述第一获取模块具体用于：

获取所述第一图像和所述第二图像的差分图像；

在另一种可能的实施方式中，所述第一获取模块具体用于：

在另一种可能的实施方式中，所述装置还包括第三获取模块和判断模块，其中，

所述第三获取模块用于，在所述第一获取模块获取视频中第一图像与第二图像之间的差异值之前，获取所述第一图像的前N帧图像的人像分割处理方式，所述人像分割处理方式包括通过所述预设模型进行人像分割处理的方式和通过所述运动估计算法进行人像分割处理的方式，所述N为大于或等于1的正整数；

所述判断模块用于，判断所述第一图像的前N帧图像的人像分割处理方式中是否存在通过所述预设模型进行人像分割处理的方式；

所述第一获取模块具体用于，在所述判断模块判断所述第一图像的前N帧图像的人像分割处理方式中存在通过所述预设模型进行人像分割处理的方式时，确定执行获取视频中第一图像与第二图像之间的差异值。

在另一种可能的实施方式中，所述分割处理模块还用于，在所述判断模块判断所述第一图像的前N帧图像的人像分割处理方式中不存在通过所述预设模型进行人像分割处理的方式时，根据所述预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果。

第三方面，本发明实施例提供一种人像分割设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行上述第一方面任一项所述的人像分割方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的人像分割方法。

本发明实施例提供的人像分割方法、装置及设备，在对视频的第一图像进行人像分割处理时，获取视频中第一图像与第二图像之间的差异值，第二图像为第一图像的前一帧图像，第二图像已进行人像分割处理；若差异值大于预设阈值，则根据预设模型对第一图像进行人像分割处理，得到第一图像的人像分割结果，预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本；若差异值小于或等于预设阈值，则根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果。在上述过程中，当第一图像与第二图像的差异值大于预设阈值时，通过预设模型对第一图像进行人像分割处理，可以保证对第一图像进行高精度的人像分割处理。当第一图像和第二图像的差异值小于预设阈值时，通过运动估计算法对第一图像进行人像分割处理，不但可以保证对第一图像进行高精度的人像分割处理，还可以提高对第一图像进行人像分割处理的效率。由上可知，通过本申请所示的技术方案，在保证对视频进行高精度的人像分割处理的基础上，提高了对视频进行高精度人像分割处理的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人像分割处理的架构图；

图2为本发明实施例提供的人像分割方法的流程示意图一；

图3为本发明实施例提供的人像分割方法的流程示意图二；

图4为本发明实施例提供的人像分割装置的结构示意图一；

图5为本发明实施例提供的人像分割装置的结构示意图二；

图6为本发明实施例提供的人像分割设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的人像分割处理的架构图。请参见图1，在终端设备中设置有预设模型和运动估计算法。在终端设备对视频进行实时人像分割处理时，终端设备以视频中的帧(一张图像)为单位进行人像分割处理。在终端设备对视频中的一张图像进行人像分割处理时，若当前需要处理的图像(下文简称第一图像)与前一帧图像(下文简称第二图像)的差异值大于预设阈值，则通过预设模型对第一图像进行人像分割处理，若第一图像与第二图像的差异值小于或等于预设阈值，则通过运动估计算法对第一图像进行人像分割处理。

在本申请中，当第一图像与第二图像的差异值大于预设阈值时，通过预设模型对第一图像进行人像分割处理，可以保证对第一图像进行高精度的人像分割处理。当第一图像和第二图像的差异值小于预设阈值时，通过运动估计算法对第一图像进行人像分割处理，不但可以保证对第一图像进行高精度的人像分割处理，还可以提高对第一图像进行人像分割处理的效率。由上可知，通过本申请所示的技术方案，在保证对视频进行高精度的人像分割处理的基础上，提高了对视频进行高精度人像分割处理的实时性。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的人像分割方法的流程示意图一。请参见图2，该方法可以包括：

S201、获取视频中第一图像与第二图像之间的差异值。

其中，第一图像为待进行人像分割处理的图像，第二图像为第一图像的前一帧图像，第二图像已进行人像分割处理。

本发明实施例的执行主体可以为终端设备，也可以为设置在终端设备中的人像分割装置。可选的，人像分割装置可以通过软件实现，或者人像分割装置也可以通过软件和硬件的结合实现。

可选的，终端设备可以为手机、电脑等设备。

当然，终端设备还可以为其它，在实际应用过程中，可以根据实际需要确定终端设备的类型，本发明实施例对此不作具体限定。

可选的，本发明实施例中的视频可以为用户通过终端设备实时拍摄的视频。本发明实施例中的视频可以也可以为存储在终端设备中的视频，例如，可以为终端设备从网络中下载的视频等。

需要说明的是，当对视频中的第一张图像进行人像分割处理时，直接根据预设模型对第一张图像进行人像分割处理。在对视频中的第二张、以及第二张以后的图像进行人像分割处理时，可以采用本申请所示的技术方案进行人像分割处理。

在实际应用过程中，在对视频进行人像分割处理时，是以视频中的帧(一张图像)为单位进行人像分割处理。对视频中的每一张图像进行人像分割处理的过程相同，在本申请中，以对视频中的第一图像进行人像分割处理的过程为例进行说明。

可选的，本发明实施例中所示的第一图像为视频中除第一张图像之外的任意一张图像。

可选的，可以通过至少如下两种可行的实现方式获取第一图像与第二图像之间的差异值：

一种可行的实现方式：

获取第一图像和第二图像的差分图像，并根据差分图像确定第一图像和第二图像之间的差异值。

可选的，可以分别将第一图像中的像素值减去第二图像中对应的像素值，得到第一图像和第二图像的差分图像。

例如，将第一图像中的第(0，0)像素的像素值减去第二图像第(0，0)像素的像素值，将第一图像中的第(0，1)像素的像素值减去第二图像第(0，1)像素的像素值，依次类推，对第一图像和第二图像中所有像素的像素值进行相减处理，即可可以得到第一图像和第二图像的差分图像。

可选的，差分图像中像素值为0的像素个数越多，说明第一图像和第二图像之间的差异越小，因此，可以根据差分图像中各像素的像素值确定第一图像和第二图像之间的差异值。

需要说明的是，上述只是以示例的形式示意获取差分图像的方法、以及根据查分图像确定差异值的方法，并非对获取差分图像的方法、以及根据查分图像确定差异值的方法的限定，在实际应用过程中，可以根据实际需要确定获取差分图像的方法、以及根据查分图像确定差异值的方法，本发明实施例对此不作具体限定。

另一种可行的实现方式：

获取第一图像的第一特征向量、及第二图像的第二特征向量，根据第一特征向量和第二特征向量，确定第一图像和第二图像之间的相似度，根据相似度确定第一图像和第二图像之间的差异值。

可选的，可以获取第一特征向量和第二特征向量之间的距离，通过第一特征向量和第二特征向量之间的距离确定第一图像和第二图像之间的相似度。

可选的，可以根据第一特征向量和第二特征向量之间的余弦夹角，表示第一特征向量和第二特征向量之间的距离。

可选的，第一图像和第二图像之间的相似度越大，第一图像和第二图像之间的差异值越小。

需要说明的是，上述只是以示例的形式示例两种获取第一图像和第二图像之间的差异值的方法，并非对获取差异值的方法的限定，在实际应用过程中，可以根据实际需要确定获取差异值的方法，本发明实施例对此不作具体限定。

S202、判断差异值是否大于预设阈值。

若是，则执行S203。

若否，则执行S204。

可选的，当预设阈值过大时，可能会导致视频中过多的图像采用运动估计算法进行人像分割处理。由于人像分割处理需要依据前一帧的人像处理结果，因此，当视频中过多的图像采用运动估计算法进行人像分割处理时，有可能会导致误差累积，导致对视频进行人像分割处理的精度低。

可选的，当预设阈值过小时，可能会导致视频中过多的图像采用预设模型进行人像分割处理。由于预设模型进行人像分割处理的过程较慢，因此，当视频中过多的图像采用预设模型进行人像分割处理，可能会导致对视频进行人像分割处理的实时性较差。

可选的，可以对大量样本进行实验学习，以确定得到一个合适的预设阈值，使得该预设阈值的大小不但可以保证人像分割处理的精度较高，还可以保证人像分割的实时性较高。

当然，在实际应用过程中，还可以根据实际需要设置预设阈值，本发明实施例对此不作具体限定。

S203、根据预设模型对第一图像进行人像分割处理，得到第一图像的人像分割结果。

其中，预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本。

需要说明的是，在执行S203之前，需要预先学习得到预设模型。

可选的，可以通过如下方式学习得到预设模型：获取多组样本，每组样本包括图像样本和人像分割结果样本，人像分割结果样本为通过预设算法结合人工操作在图像样本提取得到的高精度人像分割结果。通过深度神经网络对多组样本进行学习得到预设模型。

在本发明实施例中，为了提高通过预设模型进行人像分割处理的效率，本发明实施例所涉及的预设模型具有优化网络结构、优化卷积层、优化网络高层语义信息中的至少一种。

其中，优化网络结构为深度加逐点的网络结构。

其中，优化卷积层的卷积操作包括一个第一卷积操作和K个第二卷积操作；其中，第一卷积操作为输入为M通道、输出为N/K通道，第二卷积操作的输入为N/K通道、输出为N/K通道；预设模型的卷积层的特征输出为第一卷积操作和K个第二卷积操作的特征组合，M、N、K分别为大于或等于1的正整数。

其中，优化网络高层语义信息中包括扩张操作。

在实际应用过程中，当预设模型具有优化网络结构、优化卷积层、优化网络高层语义信息中的至少一种时，可以使得预设模型具有较高的处理效率，进而使得预设模型可以高效率的进行人像分割处理。

可选的，预设模型可以同时具有优化网络结构、优化卷积层、优化网络高层语义信息。

为了进一步提高通过预设模型进行人像分割的效率和精度，可以训练多种预设模型，不同的预设模型用于对不同类型的视频进行人像分割处理。

可选的，视频的类型可以包括近景视频类型和远景视频类型。

相应的，可以训练得到近景视频对应的第一预设模型和远景视频对应的第二预设模型，通过第一预设模型对近景视频进行人像分割处理，通过第二预设模型对远景视频进行人像分割处理。

可选的，在训练第一预设模型时，所使用的多组样本中的图像样本可以为近景图像。这样，训练得到的第一预设模型更适合对近景图像进行人像分割处理。由于第一预设模型仅对单一类型的图像(近景图像)进行人像分割处理，使得第一预设模型通过简单的处理逻辑即可实现对近景图像进行高精度的人像分割处理，因此，通过第一预设模型不但可以提高对近景图像的人像分割精度，还可以提高对近景图像的人像分割效率。

可选的，在训练第二预设模型时，所使用的多组样本中的图像样本可以为远景图像。这样，训练得到的第二预设模型更适合对远景图像进行人像分割处理。由于第二预设模型仅对单一类型的图像(远景图像)进行人像分割处理，使得第二预设模型通过简单的处理逻辑即可实现对远景图像进行高精度的人像分割处理，因此，通过第二预设模型不但可以提高对远景图像的人像分割精度，还可以提高对远景图像的人像分割效率。

可选的，在执行S203之前，可以先获取视频的类型，并根据视频的类型，加载视频类型对应的预设模型。这样，不但可以提高对视频进行人像分割的精度，还可以提高对视频进行人像分割的效率。

可选的，可以确定终端设备拍摄视频所使用的摄像头，若拍摄视频所使用的摄像头为前置摄像头，则确定视频的类型为近景视频类型；若拍摄视频所使用的摄像头为后置摄像头，则确定视频的类型为远景视频类型。

当然，还可以通过其它可行的实现方式确定视频的视频类型，本发明实施例对此不作具体限定。

S204、根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果。

可选的，运动估计算法包括如下算法中的至少一种：块匹配法、递归估计法、贝叶斯估计法和光流法中的至少一种。

当然，在实际应用过程中，可以根据实际需要设置运动估计算法，本发明实施例对此不作具体限定。

可选的，可以通过如下可行的实现方式根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果：

获取第一图像的前M帧图像的人像分割结果，根据第一图像的前M帧图像的人像分割结果确定人像的运动轨迹，根据第二图像的人像分割结果和运动轨迹，估计第一图像中的人像位置，根据估计得到的第一图像中的人像位置，对第一图像进行人像分割处理，以确定第一图像的人像分割结果。

可选的，M可以为5，10等。

当然，在实际应用过程中，可以根据实际需要设置M的大小，本发明实施例对此不作具体限定。

需要说明的是，上述只是以示例的形式示意一种根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果的方法，在实际应用过程中，可以根据实际需要确定根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果的方法，本发明实施例对此不作具体限定。

本发明实施例提供的人像分割方法，在对视频的第一图像进行人像分割处理时，获取视频中第一图像与第二图像之间的差异值，第二图像为第一图像的前一帧图像，第二图像已进行人像分割处理；若差异值大于预设阈值，则根据预设模型对第一图像进行人像分割处理，得到第一图像的人像分割结果，预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本；若差异值小于或等于预设阈值，则根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果。在上述过程中，当第一图像与第二图像的差异值大于预设阈值时，通过预设模型对第一图像进行人像分割处理，可以保证对第一图像进行高精度的人像分割处理。当第一图像和第二图像的差异值小于预设阈值时，通过运动估计算法对第一图像进行人像分割处理，不但可以保证对第一图像进行高精度的人像分割处理，还可以提高对第一图像进行人像分割处理的效率。由上可知，通过本申请所示的技术方案，在保证对视频进行高精度的人像分割处理的基础上，提高了对视频进行高精度人像分割处理的实时性。

在上述任意一个实施例的基础上，在对视频进行人像分割处理时，当视频中过多的图像采用运动估计算法进行人像分割处理时，有可能会导致误差累积，进而导致对视频进行人像分割处理的精度低。为了避免此种情况的发生，在对第一图像进行处理时，可以判断第一图像的前N帧的人像分割处理方式，并根据第一图像的前N帧的人像分割处理方式，确定第一图像的人像分割处理方式，具体的，请参见图3所示的实施例。

图3为本发明实施例提供的人像分割方法的流程示意图二。在图2所示实施例的基础上，请参见图3，该方法可以包括：

S301、获取第一图像的前N帧图像的人像分割处理方式。

其中，人像分割处理方式包括通过预设模型进行人像分割处理和通过运动估计算法进行人像分割处理。

其中，N为大于或等于1的正整数。

可选的，N可以为1、2、3等。

当然，在实际应用过程中，可以根据实际需要设置N的大小，本发明实施例对此不作具体限定。

S302、判断第一图像的前N帧图像的人像分割处理方式中是否存在通过预设模型进行人像分割处理的方式。

若是，则执行S303-S308。

若否，则执行S305-S307。

S303、获取视频中第一图像与第二图像之间的差异值。

需要说明的是，S303的执行过程可以参见S201的执行过程，本发明实施例对此不再进行赘述。

S304、判断差异值是否大于预设阈值。

若是，则执行S305-S307。

若否，则执行S308。

需要说明的是，S304的执行过程可以参见S202的执行过程，本发明实施例对此不再进行赘述。

S305、获取视频的视频类型。

可选的，视频类型包括近景视频类型和远景视频类型。

S306、根据视频类型，加载视频类型对应的预设模型。

可选的，若视频类型为近景视频类型，则加载近景视频类型对应的预设模型。若视频类型为远景视频类型，则加载远景视频类型对应的预设模型。

S307、根据视频类型的预设模型对第一图像进行人像分割处理，得到第一图像的人像分割结果。

需要说明的是，S307的执行过程可以参见S203的执行过程，本发明实施例此处不再进行赘述。

S308、根据第二图像的人像分割结果和运动估计算法，确定第一图像的人像分割结果。

需要说明的是，S308的执行过程可以参见S204的执行过程，本发明实施例此处不再进行赘述。

在图3所示的实施例中，当第一图像的前N帧图像均采用运动估计算法进行人像分割处理时，则采用预设模型对第一图像进行人像分割处理，这样，可以避免误差累积导致的人像分割处理精度差。当第一图像的前N帧图像的人像分割处理方式中存在通过预设模型进行人像分割处理的方式，则判断第一图像和第二图像的差异值是否大于预设阈值。当第一图像与第二图像的差异值大于预设阈值时，通过预设模型对第一图像进行人像分割处理，可以保证对第一图像进行高精度的人像分割处理。当第一图像和第二图像的差异值小于预设阈值时，通过运动估计算法对第一图像进行人像分割处理，不但可以保证对第一图像进行高精度的人像分割处理，还可以提高对第一图像进行人像分割处理的效率。由上可知，通过本申请所示的技术方案，在保证对视频进行高精度的人像分割处理的基础上，提高了对视频进行高精度人像分割处理的实时性。

下面，通过具体示例，对图3实施例所示的技术方案进行详细说明。

示例性的，假设视频为近景视频，当前需要对视频的第10帧图像进行人像分割处理。假设N为2，

在对第10帧图像进行人像分割处理的过程中，先获取第8帧图像的人像分割处理方式和第9帧图像的人像分割处理方式。

若第8帧图像的人像分割处理方式和第9帧图像的人像分割处理方式均为通过运动估计算法进行人像分割处理的方式，则根据近景视频类型对应的预设模型对第10帧图像进行人像分割处理。

若第8帧图像和第9帧图像中存在至少一帧图像的人像分割处理方式为通过预设模型进行人像分割处理的方式，则获取第10帧图像与第9帧图像的差异值，若该差异值大于预设阈值，则根据近景视频类型对应的预设模型对第10帧图像进行人像分割处理，若该差异值小于或等于预设阈值，则根据第9帧图像的人像分割结果和运动估计算法，确定第10帧图像的人像分割结果。

图4为本发明实施例提供的人像分割装置的结构示意图一。请参见图4，该装置可以包括第一获取模块11和分割处理模块12，其中，

所述第一获取模块11用于，获取视频中第一图像与第二图像之间的差异值，所述第一图像为待进行人像分割处理的图像，所述第二图像为所述第一图像的前一帧图像，所述第二图像已进行人像分割处理；

所述分割处理模块12用于，在所述差异值大于预设阈值时，根据预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果，所述预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本；

所述分割处理模块12还用于，在所述差异值小于或等于所述预设阈值时，根据所述第二图像的人像分割结果和运动估计算法，确定所述第一图像的人像分割结果。

本发明实施例提供的人像分割装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

图5为本发明实施例提供的人像分割装置的结构示意图二。在图4所示实施例的基础上，请参见图5，所述装置还包括第二获取模块13和加载模块14，其中，

所述第二获取模块13用于，在所述分割处理模块12根据预设模型对所述第一图像进行人像分割处理之前，获取所述视频的类型，所述视频的类型包括近景视频类型和远景视频类型；

所述加载模块14用于，根据所述视频的类型，加载所述视频类型对应的所述预设模型。

在一种可能的实施方式中，所述第二获取模块13具体用于：

确定终端设备拍摄所述视频所使用的摄像头；

所述优化网络结构为深度加逐点的网络结构。

所述优化网络高层语义信息中包括扩张操作。

在另一种可能的实施方式中，所述第一获取模块11具体用于：

获取所述第一图像和所述第二图像的差分图像；

在另一种可能的实施方式中，所述装置还包括第三获取模块15和判断模块16，其中，

所述第三获取模块15用于，在所述第一获取模块11获取视频中第一图像与第二图像之间的差异值之前，获取所述第一图像的前N帧图像的人像分割处理方式，所述人像分割处理方式包括通过所述预设模型进行人像分割处理的方式和通过所述运动估计算法进行人像分割处理的方式，所述N为大于或等于1的正整数；

所述判断模块16用于，判断所述第一图像的前N帧图像的人像分割处理方式中是否存在通过所述预设模型进行人像分割处理的方式；

所述第一获取模块11具体用于，在所述判断模块16判断所述第一图像的前N帧图像的人像分割处理方式中存在通过所述预设模型进行人像分割处理的方式时，确定执行获取视频中第一图像与第二图像之间的差异值。

在另一种可能的实施方式中，所述分割处理模块12还用于，在所述判断模块16判断所述第一图像的前N帧图像的人像分割处理方式中不存在通过所述预设模型进行人像分割处理的方式时，根据所述预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果。

图6为本发明实施例提供的人像分割设备的硬件结构示意图，如图6所示，该人像分割设备包括：至少一个处理器21和存储器22。可选地，该人像分割设备还包括通信部件23。其中，处理器21、存储器22以及通信部件23通过总线24连接。

在具体实现过程中，至少一个处理器21执行所述存储器22存储的计算机执行指令，使得至少一个处理器21执行上述方法实施例所示的人像分割方法。

通信部件23可以与服务器进行数据交互。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的6所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的人像分割方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例方案的范围。

Claims

1.一种人像分割方法，其特征在于，包括：

获取第一图像的前N帧图像的人像分割处理方式，所述人像分割处理方式包括通过预设模型进行人像分割处理的方式和通过运动估计算法进行人像分割处理的方式，所述N为大于或等于1的正整数；

若所述第一图像的前N帧图像的人像分割处理方式中存在通过所述预设模型进行人像分割处理的方式，则获取视频中第一图像与第二图像之间的差异值，所述第一图像为待进行人像分割处理的图像，所述第二图像为所述第一图像的前一帧图像，所述第二图像已进行人像分割处理，所述差异值用于指示所述第一图像和所述第二图像的相似度；

若所述差异值大于预设阈值，则根据预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果，所述预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本，所述预设模型为所述视频的视频类型对应的模型；所述视频类型为近景视频类型或远景视频类型，相应的，所述视频的视频类型对应的模型为近景视频对应的第一预设模型或远景视频对应的第二预设模型；所述第一预设模型是根据多组近景图像样本学习得到的，所述第二预设模型是根据多组远景图像样本学习得到的；

若所述差异值小于或等于所述预设阈值，则根据所述第二图像的人像分割结果和运动估计算法，确定所述第一图像的人像分割结果；

若所述第一图像的前N帧图像的人像分割处理方式中不存在通过所述预设模型进行人像分割处理的方式，则根据所述预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果。

2.根据权利要求1所述的方法，其特征在于，在所述根据预设模型对所述第一图像进行人像分割处理之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述视频的类型，包括：

确定终端设备拍摄所述视频所使用的摄像头；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述预设模型具有优化网络结构、优化卷积层、优化网络高层语义信息中的至少一种；其中，

所述优化网络结构为深度加逐点的网络结构；

所述优化卷积层的卷积操作包括一个第一卷积操作和K个第二卷积操作；其中，所述第一卷积操作为输入为M通道、输出为N/K通道，所述第二卷积操作的输入为N/K通道、输出为N/K通道；所述预设模型的卷积层的特征输出为所述第一卷积操作和所述K个第二卷积操作的特征组合，所述M、所述N、所述K分别为大于或等于1的正整数；

所述优化网络高层语义信息中包括扩张操作。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述获取视频中第一图像与第二图像之间的差异值，包括：

获取所述第一图像和所述第二图像的差分图像；

6.根据权利要求1-3任一项所述的方法，其特征在于，所述获取视频中第一图像与第二图像之间的差异值，包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述运动估计算法包括如下算法中的至少一种：

8.一种人像分割装置，其特征在于，包括第一获取模块和分割处理模块，其中，

所述第一获取模块用于，获取视频中第一图像与第二图像之间的差异值，所述第一图像为待进行人像分割处理的图像，所述第二图像为所述第一图像的前一帧图像，所述第二图像已进行人像分割处理，所述差异值用于指示所述第一图像和所述第二图像的相似度；

所述分割处理模块用于，在所述差异值大于预设阈值时，根据预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果，所述预设模型为根据多组样本学习得到的，每组样本包括图像样本和对应的人像分割结果样本，所述预设模型为所述视频的视频类型对应的模型；所述视频类型为近景视频类型或远景视频类型，相应的，所述视频的视频类型对应的模型为近景视频对应的第一预设模型或远景视频对应的第二预设模型；所述第一预设模型是根据多组近景图像样本学习得到的，所述第二预设模型是根据多组远景图像样本学习得到的；

所述分割处理模块还用于，在所述差异值小于或等于所述预设阈值时，根据所述第二图像的人像分割结果和运动估计算法，确定所述第一图像的人像分割结果；

所述装置还包括第三获取模块和判断模块，其中，

所述第一获取模块具体用于，在所述判断模块判断所述第一图像的前N帧图像的人像分割处理方式中存在通过所述预设模型进行人像分割处理的方式时，确定执行获取视频中第一图像与第二图像之间的差异值；

所述分割处理模块还用于，在所述判断模块判断所述第一图像的前N帧图像的人像分割处理方式中不存在通过所述预设模型进行人像分割处理的方式时，根据所述预设模型对所述第一图像进行人像分割处理，得到第一图像的人像分割结果。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括第二获取模块和加载模块，其中，

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块具体用于：

确定终端设备拍摄所述视频所使用的摄像头；

11.根据权利要求8-10任一项所述的装置，其特征在于，所述预设模型具有优化网络结构、优化卷积层、优化网络高层语义信息中的至少一种；其中，

所述优化网络结构为深度加逐点的网络结构；

所述优化网络高层语义信息中包括扩张操作。

12.根据权利要求8-10任一项所述的装置，其特征在于，所述第一获取模块具体用于：

获取所述第一图像和所述第二图像的差分图像；

13.根据权利要求8-10任一项所述的装置，其特征在于，所述第一获取模块具体用于：

14.根据权利要求8-10任一项所述的装置，其特征在于，所述运动估计算法包括如下算法中的至少一种：

15.一种人像分割设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的人像分割方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的人像分割方法。