CN111507997A

CN111507997A - 图像分割方法、装置、设备及计算机存储介质

Info

Publication number: CN111507997A
Application number: CN202010321146.1A
Authority: CN
Inventors: 陈杨; 戴宇榮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-07
Anticipated expiration: 2040-04-22
Also published as: CN111507997B

Abstract

本申请提供了一种图像分割方法、装置、设备及计算机存储介质；方法包括：响应于进行图像分割的操作指令，获取待处理视频中的当前帧图像和前一帧图像的图像分割结果；基于当前帧图像和前一帧图像的图像分割结果确定当前帧图像的预测前景概率结果；基于当前帧图像的预测前景概率结果、前一帧图像至前k帧图像的前景概率结果，确定当前帧图像的目标前景概率结果；基于当前帧图像的目标前景概率结果和当前帧图像，确定当前帧图像的图像分割结果；至少基于当前帧图像的图像分割结果和当前帧图像，确定目标图像；输出并显示目标图像。如此，能够利用前一帧图像的分割结果指导神经网络模型进行当前帧的图像分割，从而得到时序连续的分割结果。

Description

图像分割方法、装置、设备及计算机存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像分割方法、装置、设备及计算机存储介质。

背景技术

随着人工智能技术和智能终端的不断发展，人们的工作、生活、娱乐都有了翻天覆地的变化。例如人们可以利用移动终端随时随地与其他人进行即时通讯或者拍摄图片或视频等。为了增加娱乐趣味性，还可以将拍摄的图片或视频进行图像分割以更换图像或视频的背景。

目前娱乐场景下的基于深度学习的图像人像分割技术较为成熟，然而不同于图像分割技术，视频分割除了保证语义区域分割的正确性之外还需确保分割结果同样保持时序连续以确保在娱乐应用场景下不会出现肉眼可见的闪烁。然而由于移动端可支持的计算量有限难以支撑边缘等难分区域的准确分割，同时分割本身的二义性以及训练数据标注的二义性等原因，现有技术方案很难保证视频分割结果的时序连续性，导致分割后的视频常常能看到明显的区域闪烁，或严重的分割残影，极大的影响了用户使用体验。

发明内容

本申请实施例提供一种图像分割方法、装置及计算机存储介质，能够利用前一帧图像的分割结果指导神经网络模型进行当前帧的图像分割，从而得到时序连续的分割结果。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像分割方法，包括：

响应于进行图像分割的操作指令，获取待处理视频中的当前帧图像和该当前帧图像的前一帧图像的图像分割结果；

基于该当前帧图像和前一帧图像的图像分割结果确定该当前帧图像的预测前景概率结果；

基于该当前帧图像的预测前景概率结果、当前帧图像的前一帧图像至前k帧图像的前景概率结果，确定该当前帧图像的目标前景概率结果；

基于该当前帧图像的目标前景概率结果和该当前帧图像，确定该当前帧图像的图像分割结果；

至少基于该当前帧图像的图像分割结果和该当前帧图像，确定目标图像；

输出并显示该目标图像。

本申请实施例提供一种图像分割装置，包括：

第一获取模块，用于响应于进行图像分割的操作指令，获取待处理视频中的当前帧图像和该当前帧图像的前一帧图像的图像分割结果；

第一确定模块，用于基于该当前帧图像和前一帧图像的图像分割结果确定该当前帧图像的预测前景概率结果；

第二确定模块，用于基于该当前帧图像的预测前景概率结果、当前帧图像的前一帧图像至前k帧图像的前景概率结果，确定该当前帧图像的目标前景概率结果；

第三确定模块，用于基于该当前帧图像的目标前景概率结果和该当前帧图像，确定该当前帧图像的图像分割结果；

第四确定模块，用于至少基于该当前帧图像的图像分割结果和该当前帧图像，确定目标图像；

输出模块，用于输出并显示该目标图像。

在一些实施例中，当该当前帧图像为该待处理视频中的第一帧图像时，该图像分割装置还包括：

第二获取模块，用于获取预设图像对应的预设分割结果，并将该预设分割结果确定为该第一帧图像的前一帧图像的图像分割结果；

对应地，该第一确定模块还用于：

基于该第一帧图像和该预设分割结果确定该第一帧图像的预测前景概率结果。

在一些实施例中，该第一确定模块还用于：

基于该当前帧图像的预测前景概率结果、该当前帧图像的前一帧图像至前k帧帧图像的前景概率结果，分别确定该当前帧图像与该前一帧图像至该前k帧图像的k个前景概率差值；

基于该k个前景概率差值分别确定前一帧图像至前k帧帧图像对应的权值；

基于该当前帧图像的预测前景概率结果、该当前帧图像的前一帧图像至前k帧帧图像的前景概率结果以及前一帧图像至前k帧帧图像对应的权值，确定该当前帧图像的目标前景概率结果。

在一些实施例中，该当前帧图像的目标前景概率结果包括该当前帧图像中各个像素点为前景像素点的概率值，对应地，该第一确定模块还用于：

获取预设的概率阈值；

基于该当前帧图像中各个像素点为前景像素点的概率值和该概率阈值，确定各个像素点对应的结果值；

基于各个像素点对应的结果值确定该当前帧图像的图像分割结果。

在一些实施例中，该第一确定模块还用于：

将该当前帧图像和前一帧图像的图像分割结果输入至训练好的神经网络模型，得到该当前帧图像的预测前景概率结果。

在一些实施例中，该图像分割装置还包括：

第三获取模块，用于获取训练数据，其中，该训练数据包括训练图像、该训练图像的训练图像分割结果和该训练图像的前一帧图像的图像分割结果；

处理模块，用于利用预设的神经网络模型，对该训练图像和该训练图像的前一帧图像的图像分割结果进行预测处理，得到该训练图像的预测图像分割结果；

训练模块，用于基于该训练图像的训练图像分割结果和预测图像分割结果，对该神经网络模型进行反向传播训练，得到训练好的神经网络模型。

在一些实施例中，该第三获取模块还用于：

获取训练图像和该训练图像的训练图像分割结果；

对该训练图像分割结果进行变换，得到该训练图像的前一帧图像的图像分割结果，该变换包括缩放、平移、旋转、压缩、薄板样条变换中的至少一种。

在一些实施例中，该第四确定模块还用于：

获取预设的背景图像；

基于该当前帧图像的图像分割结果和该当前帧图像确定目标图像的前景区域；

基于该当前帧图像的图像分割结果和该背景图像，确定目标图像的背景区域；

将该前景区域和该背景区域进行融合，得到该目标图像。

本申请实施例提供一种图像分割设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行该存储器中存储的可执行指令时，实现本申请实施例提供的方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

在本申请实施例提供的图像分割方法中，在本申请实施例提供的图像分割方法中，在需要对待处理视频中的当前帧图像进行图像分割时，利用前一帧图像的图像分割结果对当前帧图像的分割予以指导，基于当前帧图像和前一帧图像的图像分割结果确定当前帧图像的预测前景概率结果，再根据当前帧图像的预测前景概率结果和之前K帧图像的前景概率结果利用区域融合技术确定当前帧图像最终的分割结果，并进而根据当前帧图像和对应的图像分割结果确定目标图像，进而输出显示目标图像。如此，在不引入明显残影的情况下，得到时序连续的分割结果，并且还能够平滑像分割结果边缘这种难分区域中可能出现的微小闪动，从而提升视频分割的视觉效果。

附图说明

图1A为本申请实施例图像分割方法的一种网络架构示意图；

图1B为本申请实施例图像分割方法的另一种网络架构示意图；

图2是本申请实施例提供的第一终端100的组成结构示意图；

图3为本申请实施例提供的图像分割方法的一种实现流程示意图；

图4为本申请实施例提供的神经网络模型训练过程的实现流程示意图；

图5为本申请实施例提供的图像分割方法的另一种实现流程示意图；

图6为本申请实施例训练图像、训练图像的标注结果及变换后的标注结果示意图；

图7为本申请实施例提供的神经网络输出的概率图的可视化示意图；

图8为采用本申请实施例提供的图像分割方法进行视频人像分割的结果示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

1)图像分割，就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程；从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程，图像分割结果是将输入图像分为前景区域和背景区域，并且前景区域中像素点的像素值和背景区域中像素点的像素值是不同的，例如前景区域中像素点的像素值可以为255，背景区域中像素点的像素值可以为0；

2)图像前景，图像中位于主体之前以至靠近摄像机镜头的景物或人物，表现一定的空间关系或人物关系；

3)图像背景，图像中位于主体之后，远离摄像机的景物，是环境的重要组成部分；

4)视频人像分割，一种将视频中的人物部分与背景部分区分开来的技术，是视频背景替换、特效制作、人物消除等应用场景中的基础技术能力；

5)绿幕技术，在绿色或蓝色的幕布前拍摄，由于这些颜色被认为是与皮肤颜色有明显差异的颜色，所以可以通过去除图像中的幕布颜色来将人像完整的分割出来；

6)光流，一种描述相对于观察者(对于视频来说为摄像机)物体运动所造成的观测目标、表面或边缘的运动的技术。

为了更好地理解本申请实施例，首先对相关技术中的视频人像分割方法及存在的缺点进行说明。

目前视频人像分割的解决方案包括以下三种：

第一、直接使用图像人像分割算法独立的分割每一个视频帧，然后通过相邻若干帧结果加权平均来平滑不同帧之间的分割结果闪动问题。

缺陷：由于现有技术与计算量的限制所有人像分割方法都无法做到100％准确，独立的分割每一个视频帧会导致图像中的难分区域比(如人像边缘)与本身带有二义性的区域无法避免的频繁闪烁(在时间维度上这些区域频繁的在属于人体和不属于人体之间来回切换)。相邻帧的结果加权平均也无法完全消除闪烁问题，并且非常容易在人像快速移动时引入明显的残影，出现分割结果跟不上人像移动的问题。

第二、使用绿幕技术进行高质量的前景人像分割。

该技术已经比较成熟，分割结果边缘细致，常用于影视作品中的特效制作。由于绿幕技术严格的定义了视频的背景，分割任务没有二义性，不会存在人物边缘或者部分手持物体分割不准确的问题，也就自然确保了分割结果的时序连续。

缺陷：这种方案需要搭建绿幕环境，对光线与着装也有一定的要求，所以使用场景非常有限，虽然分割结果几乎完美，但是在社交娱乐应用场景下不可能使用。

第三、通过在模型的训练与使用的过程中引入视频光流的计算，通过约束分割前后的视频前景部分光流保持一致从而确保视频分割结果也可以保持时序连续性。

缺陷：在高质量的标注数据支持下，该方案确实可以比较好的解决视频人像分割抖动问题，但是，现有视频光流计算算法开销较大，很难在移动端做到实时处理，从而限制了应用场景。而且该方案必须使用至少含有一帧标注结果的人像动态视频数据作为训练数据，要收集高质量的数据成本非常。

基于此，本申请实施例提出了一种基于深度学习的保证视频分割结果时序连续的移动端视频人像分割方案。在人像分割模型训练阶段，结合使用人工标注结果的变换与薄板样条变换来模拟视频图像前一帧的分割结果；在模型使用阶段，缓存当前帧之前若干帧的分割结果，并使用当前帧的前一帧的分割结果指导当前帧的人像分割，随后采用区域敏感的图像融合技术融合缓存的若干帧结果与当前帧结果，使得视频人像分割结果在无肉眼可见残影的同时保证了时序连续性，大大提高应用场景下的用户体验。

下面说明实现本申请实施例的装置的示例性应用，本申请实施例提供的装置可以实施为终端设备。下面，将说明装置实施为终端设备时涵盖终端设备的示例性应用。

图1A为本申请实施例图像分割方法的一种网络架构示意图，如图1A所示，该网络架构中包括：第一终端100、服务器200和网络300。为实现支撑一个示例性应用，第一终端100通过网络300连接到服务器200，第一终端100可以是智能终端，在智能终端上可以安装有各种各样的应用程序(Application，Ap p)，例如可以是短视频App、即时通讯App、购物App、图像采集App等，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

第一终端100通过图像采集App(也即相机App)拍摄图像、视频，还可以将拍摄的图像或视频发布到网络中，例如可以通过短视频App进行发布。第一终端100在发布短视频时，可以进行视频图像分割，并在得到分割结果后进行背景替换，从而得到替换背景后的视频，并通过网络300上传到服务器200中，以将替换背景后的视频进行发布。

图1B为本申请实施例图像分割方法的另一种网络架构示意图，如图1B所示，该网络架构中包括：第一终端100、服务器200、网络300和第二终端400。为实现支撑一个示例性应用，第一终端100和第二终端400分别通过网络300连接到服务器200，第一终端100和第二终端400可以是智能终端，在智能终端上可以安装有能够进行对话聊天的即时通讯App。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算、大数据和人工智能平台等基础云服务的云服务器。网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

如果第一终端100开启了视频通话屏蔽背景的功能，那么第一终端100在与第二终端400通过即时通讯App进行视频通话时，会将实时采集到的视频帧图像进行图像分割，并得到屏蔽了背景区域只包括人像区域的图像，并将该图像通过服务器200发送至第二终端400。在一些实施例中，为了增加视频通话的趣味性，第一终端100在开启了视频通话屏蔽背景的功能后，还可以选择新的背景图像，并且在完成对实时视频帧的图像分割后，进行背景替换，得到替换了背景图像的实时视频帧，并通过服务器200发送至第二终端400。

本申请实施例提供的装置可以实施为硬件或者软硬件结合的方式，下面说明本申请实施例提供的装置的各种示例性实施。

根据图2示出的第一终端100的示例性结构，可以预见第一终端100的其他的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的第一终端100包括：至少一个处理器110、存储器140、至少一个网络接口120和用户接口130。第一终端100中的每个组件通过总线系统150耦合在一起。可理解，总线系统150用于实现这些组件之间的连接通信。总线系统150除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统150。

用户接口130可以包括显示器、键盘、鼠标、触感板和触摸屏等。

存储器140可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器140旨在包括任意适合类型的存储器。

本申请实施例中的存储器140能够存储数据以支持第一终端100的操作。这些数据的示例包括：用于在第一终端100上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本申请实施例提供的方法采用软件实施的示例，本申请实施例所提供的方法可以直接体现为由处理器110执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器140，处理器110读取存储器140中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器110以及连接到总线150的其他组件)完成本申请实施例提供的方法。

作为示例，处理器110可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对各个方向分别进行说明。

计算机视觉技术(CV，Computer Vision)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术，具体通过如下实施例进行说明。

参见图3，图3为本申请实施例提供的图像分割方法的一种实现流程示意图，应用于图1所示的第一终端，结合图3示出的步骤进行说明。

步骤S101，响应于进行图像分割的操作指令，获取待处理视频中的当前帧图像和该当前帧图像的前一帧图像的图像分割结果。

这里，待处理视频可以是已经拍摄好并存储于用户终端存储空间的视频文件，还可以是实时录制的视频文件或者在即时通讯应用中进行视频通话的实时视频文件。当待处理视频是已经拍摄好的视频文件时，进行图像分割的操作指令可以是用户针对该视频文件进行图像分割操作而触发的。举例来说，当用户想要对图库中的某个视频文件进行图像分割时，可以选中该视频文件，并通过功能选项选择图像分割，此时认为接收到进行图像分割的操作指令。当待处理视频是通过相机应用实时录制的视频文件时，进行图像分割的操作指令可以是用户通过相机应用启动图像分割功能而触发的；当待处理视频是在即时通讯应用中进行视频通话的实时视频文件时，进行图像分割的操作指令可以是用户通过即时通讯应用启动图像分割功能而触发的。

在实际实现时，当待处理视频是已经拍摄好的视频文件时，步骤S101在实现时，当接收到进行图像分割的操作指令时，响应该操作指令，对待处理视频进行解析，得到待处理视频中的各帧图像，并依次将待处理视频中的各帧图像确定为当前帧图像；当待处理视频是实时采集到的视频文件时，那么依次将采集到的图像帧确定为当前帧图像。

在本申请实施例中，图像分割结果可以是当前帧图像对应的二值化图像，用于区分前景区域和背景区域，其中，可以是前景区域中像素点的像素值为255，背景区域中像素点的像素值为0。在一些实施例中，图像分割结果还可以是当前帧图像中各个像素点为前景像素点的概率，其中，各个像素点对应的概率值为0或者为1。

步骤S102，基于该当前帧图像和前一帧图像的图像分割结果确定该当前帧图像的预测前景概率结果。

这里，步骤S102在实现时可以是，将该当前帧图像和前一帧图像的图像分割结果输入至训练好的神经网络模型，得到该当前帧图像的预测前景概率结果。

该预测前景概率结果可以是该训练好的神经网络模型中的最后一层也即指数归一化(softmax)层输出的。该预测前景概率结果包括当前帧图像中各个像素点为前景像素点的概率值，其中该概率值是0到1之间的实数。

该训练好的神经网络模型可以是卷积神经网络模型。当该当前帧图像为该待处理视频中的第一帧图像时，在步骤S102之前，还需要执行该步骤：获取预设图像对应的预设分割结果，并将该预设分割结果确定为该第一帧图像的前一帧图像的图像分割结果，进而步骤S102在实现时，是利用训练好的神经网络模型，对第一帧图像和预设分割结果进行处理，得到第一帧图像的图像分割结果。

在步骤S102中，通过将当前帧图像和前一帧图像的图像分割结果一并输入到训练好的神经网络模型中，以通过前一帧的图像分割结果指导神经网络模型对当前帧图像进行图像分割，从而保证当前帧图像的图像分割结果与前一帧图像的图像分割结果的时序性，避免出现明显的残影，从而消除闪烁问题。

步骤S103，基于该当前帧图像的预测前景概率结果、该当前帧图像的前一帧图像至前k帧图像的前景概率结果，确定该当前帧图像的目标前景概率结果。

这里，步骤S103在实现时，将当前帧图像的预测前景概率结果、该当前帧图像的前一帧图像至前k帧图像的前景概率结果进行区域敏感的概率融合，进一步地，如果当前帧图像中某个像素点或某个区域对应的预测前景概率值与与前k帧中对应像素点或对应区域的前景概率值差别较小，此时在该像素点或该区域融合前若干帧的前景概率结果；如果当前帧图像中某个像素点或某个区域对应的预测前景概率值与前k帧中对应像素点或对应区域的前景概率值差别非常大，此时应该在该像素点或该区域直接使用当前帧图像的预测前景概率结果。如此，在不引入明显残影的情况下，平滑像分割结果边缘这种难分区域中可能出现的微小闪动。

步骤S104，基于该当前帧图像的目标前景概率结果和该当前帧图像，确定该当前帧图像的图像分割结果。

这里，当前帧图像的目标前景概率结果包括该当前帧图像中各个像素点为前景像素点的概率值。步骤S104在实现时，可以是将当前帧图像中各个像素点为前景像素点的概率值与预设的概率阈值进行比较，当某一像素点对应的概率值大于或者等于该概率阈值时，将该像素点的像素值置为第一预设值，当某一像素点对应的概率值小于该概率阈值时，将该像素点的像素值置为第二预设值，第一预设值和第二预设值不同，例如，第一预设值可以是255，第二预设值可以是0。

步骤S105，至少基于该当前帧图像的图像分割结果和该当前帧图像，确定目标图像。

这里，由于当前帧图像的图像分割结果是将前景区域和背景区域进行区分后的结果，在实际实现时，当图像分割结果表示各个像素点为前景区域像素点的概率值时，那么步骤S105在实现时，可以是将当前帧图像的图像分割结果与当前帧图像的各个对应的像素点进行乘积运算，或者进行逻辑与运算，从而得到目标图像。

在一些实施例中，图像分割结果表示各个像素点的像素值时，进一步的，将前景区域中的像素点置为255，将背景区域中的像素点置为0，那么步骤S105在实现时，可以是将当前帧图像的图像分割结果除以255，并将除法结果与当前帧图像的各个对应的像素点进行乘积运算，或者将除法结果与当前帧图像的各个对应的像素点进行逻辑与运算，从而得到目标图像。

步骤S106，输出并显示该目标图像。

这里，步骤S104在实现时，可以是仅将该目标图像显示于自身的显示屏中，还可以是将显示于自身的显示屏中并将该目标图像发送至服务器，以通过服务器将该目标图像发送至与该用户终端进行即时通讯的对方终端。

在本申请实施例提供的图像分割方法中，在需要对待处理视频中的当前帧图像进行图像分割时利用前一帧图像的图像分割结果对当前帧图像的分割予以指导，基于当前帧图像和前一帧图像的图像分割结果确定当前帧图像的预测前景概率结果，再根据当前帧图像的预测前景概率结果和之前K帧图像的前景概率结果利用区域融合技术确定当前帧图像最终的分割结果，并进而根据当前帧图像和对应的图像分割结果确定目标图像，进而输出显示目标图像。如此，在不引入明显残影的情况下，得到时序连续的分割结果，并且还能够平滑像分割结果边缘这种难分区域中可能出现的微小闪动，从而提升视频分割的视觉效果。

在一些实施例中，图3所示的步骤S103“基于该当前帧图像的预测前景概率结果、该当前帧图像的前一帧图像至前k帧图像的前景概率结果，确定该当前帧图像的目标前景概率结果”可以通过下述的步骤S1031至步骤S1033实现，以下结合各步骤进行说明。

步骤S1031，基于该当前帧图像的预测前景概率结果、该当前帧图像的前一帧图像至前k帧帧图像的前景概率结果，分别确定该当前帧图像与该前一帧图像至该前k帧图像的k个前景概率差值。

步骤S1032，基于该k个前景概率差值分别确定前一帧图像至前k帧帧图像对应的权值。

这里，当前景概率差值越大，那么对应的权值就越小。

步骤S1033，基于该当前帧图像的预测前景概率结果、该当前帧图像的前一帧图像至前k帧帧图像的前景概率结果以及前一帧图像至前k帧帧图像对应的权值，确定该当前帧图像的目标前景概率结果。

在上述的步骤S1031至步骤S1033中，采用区域敏感的图像融合技术，根据当前帧图像的预测前景概率结果和之前K帧图像的前景概率结果之前的差值大小，确定不同的权值，并利用对应权值将当前帧图像的预测前景概率结果与之前k帧的前景概率结果进行融合，进而确定当前帧图像最终的分割结果，如此，在不引入明显残影的情况下，平滑像分割结果边缘这种难分区域中可能出现的微小闪动。

在一些实施例中，图3所示的步骤S104“基于该当前帧图像的目标前景概率结果，确定该当前帧图像的图像分割结果”可以通过下述的步骤S1041至步骤S1043实现：

步骤S1041，获取预设的概率阈值。

步骤S1042，基于该当前帧图像中各个像素点为前景像素点的概率值和该概率阈值，确定各个像素点对应的结果值。

这里，步骤S1042在实现时，可以是当某一像素点为前景像素点的概率值小于概率阈值时，将该像素点对应的结果值确定为0；当某一像素点为前景像素点的概率值大于或者等于概率阈值时，将该像素点对应的结果值确定为1。

步骤S1043，基于各个像素点对应的结果值确定该当前帧图像的图像分割结果。

这里，步骤S1043在实现时，可以是将结果值为0的像素点的像素值置为0，将结果值为1的像素点的像素值置为255，从而得到当前帧图像的图像分割结果。

在一些实施例中，步骤S105在实现时可以是仅基于当前帧图像和对应的图像分割结果确定目标图像，此时得到的目标实现仅包括前景区域，背景区域为所有的像素点的像素值是相同的，在一些实施例中，步骤S105还可以通过以下步骤实现，以实现更换背景的效果：

步骤S1051，获取预设的背景图像。

这里，该背景图像可以是用户通过图像采集装置(摄像头)拍摄的，还可以是从网络中下载的。

步骤S1052，基于该当前帧图像的图像分割结果和该当前帧图像确定目标图像的前景区域图像。

由于基于图像分割结果能够区分出前景区域和背景区域，那么步骤S1032在实现时，可以是基于该图像分割结果确定出当前帧图像的前景区域图像，并将当前帧图像的前景区域图像确定为目标图像的前景区域图像。

步骤S1053，基于该当前帧图像的图像分割结果和该背景图像，确定目标图像的背景区域图像。

这里，步骤S1053在实现时，是基于该图像分割结果，将背景图像中，当前帧图像的背景区域对应的部分确定为目标图像的背景区域图像。

步骤S1054，将该前景区域和该背景区域进行融合，得到该目标图像。

通过上述的步骤S1051至步骤S1054就实现了基于当前帧图像的图像分割结果，将当前帧图像的背景区域部分替换为背景图像的过程。通过步骤S1051至步骤S1054的实现过程，能够辅助短视频类产品进行社交娱乐场景下的特效制作，并且还能够替换视频通话中的背景，不仅能够保护隐私，还能够增加视频通话的趣味性。

在一些实施例中，在步骤S101之前或者在步骤S102之前，首先需要通过如图4所示的步骤S001至步骤S003利用训练数据对预设的神经网络模型进行训练，从而得到训练好的神经网络模型：

步骤S001，获取训练数据。

这里，该训练数据包括训练图像、该训练图像的训练图像分割结果和该训练图像的前一帧图像的图像分割结果。

在实际实现时，步骤S001可以通过以下步骤实现：

步骤S011，获取训练图像和该训练图像的训练图像分割结果。

这里，训练图像分割结果可以是人工对训练图像进行标注得到的分割结果，还可以是通过绿幕技术得到的分割结果。

步骤S012，对该训练图像分割结果进行变换，得到该训练图像的前一帧图像的图像分割结果。

这里，变换包括缩放、平移、旋转、压缩、薄板样条变换中的至少一种，在实际实现时，变换可以是缩放、平移、旋转、压缩、薄板样条变换中的一种或多种的随机组合。

在对神经网络模型训练的过程中，通过对训练图像分割结果进行变换，以模拟训练图像的前一帧图像的图像分割结果。

步骤S002，利用预设的神经网络模型，对该训练图像和该训练图像的前一帧图像的图像分割结果进行预测处理，得到该训练图像的预测图像分割结果。

步骤S003，基于该训练图像的训练图像分割结果和预测图像分割结果，对该神经网络模型进行反向传播训练，得到训练好的神经网络模型。

这里，步骤S003在实现时，将训练图像分割结果和预测图像分割结果的差异值反向传播至该神经网络模型，并利用预设的损失函数对该神经网络模型进行训练，以对该神经网络模型的参数进行调整。

在步骤S001至步骤S003对神经网络模型进行训练的过程中，通过对已有人工标注的图像分割结果进行图像变换，模拟视频中前一帧可能出现的分割结果，进而模拟视频情况下目标对象在画面中的移动，并将模拟的前一帧可能出现的分割结果引入神经网络模型训练过程，从而保证训练好的神经网络模型能够解决图像分割的二义性问题，进而消除大面积的分割结果闪烁。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，进一步地，以进行视频人像分割为例说明本申请实施例提供的图像分割方法。

图5为本申请实施例提供的视频人像分割方法的实现流程示意图，如图5所示，该实现过程主要分为模拟时序信息的训练过程501和区域敏感的分割结果融合过程502两个部分。其中：

在模拟时序信息的训练过程中，通过对单张图片5011人工标注的分割结果5012进行图像变换，以模拟视频中前一帧可能出现的分割结果5013，并将模拟的时序信息(也即前一帧图像的分割结果)引入网络训练指导分割网络；

在利用训练好的神经网络模型进行视频图像分割时，可直接使用视频前一帧的分割结果指导分割网络，使得分割结果不会出现二义性区域频繁闪烁问题，保证分割区域在时序上保持一致；并且如图5中的502所示，还同时采用了区域敏感的图像融合技术，根据分割结果的概率图融合当前帧与之前若干帧5021分割结果，在不引入明显残影的情况下，平滑像分割结果边缘这种难分区域中可能出现的微小闪动。

以下结合图示对训练过程和实际使用过程分别进行说明。

在本申请实施例中，引入视频前一帧的分割结果来指导网络进行当前帧的分割，解决人像分割的二义性问题，从而消除大面积的分割结果闪烁。由于缺乏时序连续的视频分割数据对卷积神经网络进行训练，在本申请实施例中，通过对已有人工标注的图片人像分割结果进行图像变换来模拟视频情况下人像在画面中的移动，具体采用的变换方案为以下图像变换的随机组合：图像缩放与平移(模拟人像前后左右移动)、图像旋转与压缩(模拟人像旋转)、薄板样条变换(模拟人像局部快速移动)。

图6为本申请实施例训练图像、训练图像的标注结果及变换后的标注结果示意图，其中，601为训练图像，602为训练图像的人工标注分割结果，603为变换后的标注分割结果，并且变换后的标注分割结果是将人工标注分割结果进行缩小及旋转变换得到的。

在本申请实施例中，采用单张图片标注结果的变换来模拟视频情况下前一帧的输入，在一些实施例中，也可以使用绿幕技术或者高质量的人工标注来重新采集一批训练数据。

由于实际使用过程中，视频的第一帧并没有前一帧分割结果的指导，因此在实际使用过程中，加入一纯黑的图像模拟第一帧的前一帧图像。在实际使用时，视频的第一帧与纯黑图像连接后送入卷积神经网络，该卷积神经网络根据视频的第一帧图像和该纯黑图像得到该第一帧图像的分割结果；后将该第一帧图像的分割结果与下一帧的视频图像(也即第二帧图像)连接送入卷积神经网络，此时前一帧的分割结果将指导网络结合前一帧的时序信息与当前帧的图像信息进行当前帧的人像分割，从而得到区域时序连续的分割结果。

由于神经网络的特性，人像的分割边缘属于难分区域，分割结果无法避免的会在边缘区域出现小范围闪动，所以在视频人像分割中需要融合多帧的分割结果来平滑出现的边缘闪烁。但是由于在移动端很难实时的区别分割结果的闪动是由于人像在画面中有意移动造成的还是由于网络特性造成的人像区域边缘闪烁，所以如果直接将多帧结果加权平均的话将会在人像移动时造成非常明显的残影，这种现象在人像在画面中快速移动时尤其明显，极大的降低视频人像分割结果的视觉效果。

对于如图7所示的原始图像701，在本申请实施例中采用的卷积神经网络最后会经由一个softmax层，输出一个如图7中702所示的概率图，该图像数值表示原始图片对应的像素点属于人像的预测概率，取值范围为[0～1]，取值越接近0表示该区域更可能属于背景，1表示该区域属于前景人像。由于若是神经网络特性导致的人像分割边缘前后帧概率变化，则当前帧分割结果的概率将与前若干帧中对应区域的概率差别较小，那么此时应该在该区域融合前若干帧的分割结果；而人像在画面中移动导致的概率变化将非常剧烈，此时应该在该区域直接使用当前帧的结果。基于此，在本申请实施例中采用公式(1-1)融合多帧结果：

其中，p_t表示t时刻视频帧的分割结果的概率图，c₁和c₂为多帧平滑参数，w为进行区域敏感融合时采用的窗口长度，e为自然常数。

图8为采用本申请实施例提供的图像分割方法进行视频人像分割的结果示意图，其中801至805为视频中的各个原始帧图像，811至815为对各个原始帧图像进行人像分割的结果，通过811至815可以看出。在人像分割结果中无肉眼可见残影，并且同时保证了时序连续性。

利用本申请实施例提供的图像分割方法，能够低成本的在不引入明显残影的情况下解决移动端视频人像分割中分割结果时序不连续问题，极大的提升了视频分割的视觉效果，并且可以用于包括视频图像处理、短视频编辑、视频通话、智能防遮挡弹幕在内的多个项目和产品应用中，从而能够丰富视频人像分割技术的应用场景，还能够辅助艺术家们创作更多创新视频滤镜，提升产品的娱乐性与可玩性，从而达到提升用户体验的目的。

下面继续说明本申请实施例提供的图像分割装置80的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器140的图像分割装置80中的软件模块可以包括：

第一获取模块81，用于响应于进行图像分割的操作指令，获取待处理视频中的当前帧图像和该当前帧图像的前一帧图像的图像分割结果；

第一确定模块82，用于基于该当前帧图像和前一帧图像的图像分割结果确定该当前帧图像的预测前景概率结果；

第二确定模块83，用于基于该当前帧图像的预测前景概率结果、当前帧图像的前一帧图像至前k帧图像的前景概率结果，确定该当前帧图像的目标前景概率结果；

第三确定模块84，用于基于该当前帧图像的目标前景概率结果和该当前帧图像，确定该当前帧图像的图像分割结果；

第四确定模块85，用于至少基于该当前帧图像的图像分割结果和该当前帧图像，确定目标图像；

输出模块86，用于输出并显示该目标图像。

对应地，该第一确定模块还用于：

在一些实施例中，该第一确定模块还用于：

获取预设的概率阈值；

在一些实施例中，该图像分割装置还包括：

在一些实施例中，该第三获取模块还用于：

获取训练图像和该训练图像的训练图像分割结果；

在一些实施例中，该第四确定模块还用于：

获取预设的背景图像；

将该前景区域和该背景区域进行融合，得到该目标图像。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、图4和图5示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像分割方法，其特征在于，所述方法包括：

响应于进行图像分割的操作指令，获取待处理视频中的当前帧图像和所述当前帧图像的前一帧图像的图像分割结果；

基于所述当前帧图像和前一帧图像的图像分割结果确定所述当前帧图像的预测前景概率结果；

基于所述当前帧图像的预测前景概率结果、所述当前帧图像的前一帧图像至前k帧图像的前景概率结果，确定所述当前帧图像的目标前景概率结果；

基于所述当前帧图像的目标前景概率结果和所述当前帧图像，确定所述当前帧图像的图像分割结果；

至少基于所述当前帧图像的图像分割结果和所述当前帧图像，确定目标图像；

输出并显示所述目标图像。

2.根据权利要求1中所述的方法，其特征在于，当所述当前帧图像为所述待处理视频中的第一帧图像时，所述方法还包括：

获取预设图像对应的预设分割结果，并将所述预设分割结果确定为所述第一帧图像的前一帧图像的图像分割结果；

对应地，所述基于所述当前帧图像和前一帧图像的图像分割结果确定所述当前帧图像的预测前景概率结果，包括：基于所述第一帧图像和所述预设分割结果确定所述第一帧图像的预测前景概率结果。

3.根据权利要求1中所述的方法，其特征在于，所述基于所述当前帧图像的预测前景概率结果、所述当前帧图像的前一帧图像至前k帧帧图像的前景概率结果，确定所述当前帧图像的目标前景概率结果，包括：

基于所述当前帧图像的预测前景概率结果、所述当前帧图像的前一帧图像至前k帧帧图像的前景概率结果，分别确定所述当前帧图像与所述前一帧图像至所述前k帧图像的k个前景概率差值；

基于所述k个前景概率差值分别确定前一帧图像至前k帧帧图像对应的权值；

基于所述当前帧图像的预测前景概率结果、所述当前帧图像的前一帧图像至前k帧帧图像的前景概率结果以及前一帧图像至前k帧帧图像对应的权值，确定所述当前帧图像的目标前景概率结果。

4.根据权利要求3中所述的方法，其特征在于，所述当前帧图像的目标前景概率结果包括所述当前帧图像中各个像素点为前景像素点的概率值，对应地，所述基于所述当前帧图像的目标前景概率结果，确定所述当前帧图像的图像分割结果，包括：

获取预设的概率阈值；

基于所述当前帧图像中各个像素点为前景像素点的概率值和所述概率阈值，确定各个像素点对应的结果值；

基于各个像素点对应的结果值确定所述当前帧图像的图像分割结果。

5.根据权利要求1至4任一项中所述的方法，其特征在于，所述基于所述当前帧图像和前一帧图像的图像分割结果确定所述当前帧图像的预测前景概率结果，包括：

将所述当前帧图像和前一帧图像的图像分割结果输入至训练好的神经网络模型，得到所述当前帧图像的预测前景概率结果。

6.根据权利要求5中任一项所述的方法，其特征在于，所述方法还包括：

获取训练数据，其中，所述训练数据包括训练图像、所述训练图像的训练图像分割结果和所述训练图像的前一帧图像的图像分割结果；

利用预设的神经网络模型，对所述训练图像和所述训练图像的前一帧图像的图像分割结果进行预测处理，得到所述训练图像的预测图像分割结果；

基于所述训练图像的训练图像分割结果和预测图像分割结果，对所述神经网络模型进行反向传播训练，得到训练好的神经网络模型。

7.根据权利要求6中所述的方法，其特征在于，所述获取训练数据包括：

获取训练图像和所述训练图像的训练图像分割结果；

对所述训练图像分割结果进行变换，得到所述训练图像的前一帧图像的图像分割结果，所述变换包括缩放、平移、旋转、压缩、薄板样条变换中的至少一种。

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述至少基于所述当前帧图像的图像分割结果和所述当前帧图像，确定目标图像，包括：

获取预设的背景图像；

基于所述当前帧图像的图像分割结果和所述当前帧图像确定目标图像的前景区域；

基于所述当前帧图像的图像分割结果和所述背景图像，确定目标图像的背景区域；

将所述前景区域和所述背景区域进行融合，得到所述目标图像。

9.一种图像分割装置，其特征在于，所述装置包括：

第一获取模块，用于响应于进行图像分割的操作指令，获取待处理视频中的当前帧图像和所述当前帧图像的前一帧图像的图像分割结果；

第一确定模块，基于所述当前帧图像和前一帧图像的图像分割结果确定所述当前帧图像的预测前景概率结果；

第二确定模块，用于基于所述当前帧图像的预测前景概率结果、所述当前帧图像的前一帧图像至前k帧图像的前景概率结果，确定所述当前帧图像的目标前景概率结果；

第三确定模块，用于基于所述当前帧图像的目标前景概率结果和所述当前帧图像，确定所述当前帧图像的图像分割结果；

第四确定模块，用于至少基于所述当前帧图像的图像分割结果和所述当前帧图像，确定目标图像；

输出模块，用于输出并显示所述目标图像。

10.一种图像分割设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至8任一项所述的方法。