CN108734712B

CN108734712B - 背景分割的方法、装置及计算机存储介质

Info

Publication number: CN108734712B
Application number: CN201710253356.XA
Authority: CN
Inventors: 彭超; 俞刚; 张祥雨
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2017-04-18
Filing date: 2017-04-18
Publication date: 2020-12-25
Anticipated expiration: 2037-04-18
Also published as: CN108734712A

Abstract

本发明实施例提供了一种背景分割的方法、装置及计算机存储介质，该方法包括：获取待处理图片；使用预先训练好的神经网络，对待处理图片进行卷积操作，该卷积输出为包含N个通道的特征映射，该特征映射表示待处理图片中的像素点所在的邻域给出的该像素点属于前景或背景的概率值；基于该卷积输出，使用投票策略，确定每个像素点属于前景或属于背景的概率；根据每个像素点的概率，确定待处理图片的前景区域。本发明实施例使用预先训练好的神经网络，对待处理图片进行卷积操作，并使用投票策略，确定各个像素点属于前景还是背景，从而实现背景分割。该方法的稳定性高，且能够在确保实时性的情况下使得整个系统的性能得到极大地提升。

Description

背景分割的方法、装置及计算机存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种背景分割的方法、装置及计算机存储介质。

背景技术

背景分割在直播视频等各个领域有着广泛的应用，其目的在于把前景的内容(如人像或其他特定物体)与背景的环境分割开，并在此基础之上加入特定的特效，达到更好的展示和娱乐效果。传统的背景分割方案一般基于普通的先验知识，或者将整张图直接输入，来得到最后的分割结果。然而，目前的背景分割的输出不稳定，并且在速度方面由于引入了较多的计算复杂度，常常会非实时性。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种背景分割的方法、装置及计算机存储介质，该方法的稳定性高，且能够在确保实时性的情况下使得整个系统的性能得到极大地提升。

根据本发明的第一方面，提供了一种背景分割的方法，包括：

获取待处理图片；

使用预先训练好的神经网络，对所述待处理图片进行卷积操作，得到卷积输出，所述卷积输出为包含N个通道的特征映射，所述N个通道的特征映射表示所述待处理图片中的像素点所在的邻域给出的所述像素点属于前景或背景的概率值，其中所述邻域包括m×m个像素点，m为大于1的奇数且N＝m×m；

基于所述卷积输出，使用投票策略，确定每个像素点属于前景或属于背景的概率；

根据所述每个像素点的所述概率，确定所述待处理图片的前景区域。

示例性地，所述投票策略是根据所述待处理图片的特点自适应地确定的。

示例性地，所述投票策略包括少数服从多数策略、平均投票策略和高斯加权投票策略中的至少一种。

示例性地，在所述方法之前，还包括：

获取多张图片，所述多张图片中的每一张图片包括标注信息，所述标注信息用于表示所述对应图片中的背景和前景；

根据所述多张图片，通过机器学习的训练方法得到所述神经网络。

示例性地，所述投票策略为高斯加权投票策略，在所述方法之前，还包括：

根据所述多张图片，通过机器学习的训练方法得到所述高斯加权投票策略的各个权重参数。

示例性地，所述使用预先训练好的神经网络，对所述待处理图片进行卷积操作，得到卷积输出，包括：

使用预先训练好的神经网络，对所述待处理图片进行卷积操作，得到卷积操作的输出，所述卷积操作的输出为包括c个通道的特征映射；

对所述卷积操作的输出再次进行卷积操作，得到所述卷积输出，所述卷积输出为包含N个通道的特征映射。

示例性地，m＝3，N＝9。

第二方面，提供了一种背景分割的装置，包括：

获取模块，用于获取待处理图片；

处理模块，用于使用预先训练好的神经网络，对所述待处理图片进行卷积操作，得到卷积输出，所述卷积输出为包含N个通道的特征映射，所述N个通道的特征映射表示所述待处理图片中的像素点所在的邻域给出的所述像素点属于前景或背景的概率值，其中所述邻域包括m×m个像素点，m为大于1的奇数且N＝m×m；

投票模块，用于基于所述卷积输出，使用投票策略，确定每个像素点属于前景或属于背景的概率；

确定模块，用于根据所述每个像素点的所述概率，确定所述待处理图片的前景区域。

该装置能够用于实现前述第一方面及其各种示例的背景分割的方法。

第三方面，提供了一种背景分割的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面及各个示例所述方法的步骤。

第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面及各个示例所述方法的步骤。

本发明实施例使用预先训练好的神经网络，对待处理图片进行卷积操作，并使用投票策略，确定各个像素点属于前景还是背景，从而实现背景分割。该方法的稳定性高，且能够在确保实时性的情况下使得整个系统的性能得到极大地提升。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的背景分割的方法的一个示意性流程图；

图3是本发明实施例的卷积操作的方法的一个示意性流程图；

图4是本发明实施例的像素点的邻域的一个示意图；

图5是本发明实施例的背景分割的装置的一个示意性框图；

图6是本发明实施例的背景分割的装置的另一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括CPU 1021和GPU 1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

本发明实施例也可以应用于服务器，服务器可以称为云端或云端服务器。本发明对此不限定。

在目前的视频处理领域，背景分隔的模型有单个模型和基于投票的模型。其中，单个模型的输出极为不稳定，远不如基于投票的模型。但是在速度方面，投票模型通常引入了较多的计算复杂度，常常导致模型的非实时性。

本发明实施例提出了一种基于位置的投票模型，不仅稳定性高，并且能够在基本确保实时性的情况下引入投票策略，使得整个系统的性能得到极大地提升。

图2是本发明实施例的背景分割的方法的一个示意性流程图。图2所示的方法包括：

S101，获取待处理图片。

示例性地，待处理图片可以是由电子设备的图像采集装置获取的。其中，图像采集装置可以为照相机或摄像机等。

在S101中，可以通过图像采集装置获取待处理图片，或者，可以通过图像采集装置获取一段视频，并从该段视频中获取待处理图片。

示例性地，在视频处理领域，待处理图片可以是待处理视频中的某一帧图像。其中，待处理视频可以是从其他的拍摄设备所获取的，或者可以是从存储器中获取的。

本发明实施例中，待处理图片的空间维度可以表示为w×h。该待处理图片还可以具有第三维度，例如该第三维度为1(表示对应的图像为灰度图像)或3(表示对应的图像为RGB彩色图像)，应该理解的是，根据图像的性质，第三维度的数目还可以为其它的值，本发明对此不限定。

举例来说，该待处理图片需要进行前后景分割，例如需要将拍摄时的纯色的背景替换为天空中场景或悬崖边场景等等。

S102，使用预先训练好的神经网络，对所述待处理图片进行卷积操作，得到卷积输出，所述卷积输出为包含N个通道的特征映射，所述N个通道的特征映射表示所述待处理图片中的像素点所在的邻域给出的所述像素点属于前景或背景的概率值，其中所述邻域包括m×m个像素点，m为大于1的奇数且N＝m×m。

在S102中，可以使用预先训练好的神经网络，对所述待处理图片进行卷积操作，得到卷积操作的输出，该卷积操作的输出为包括c个通道的特征映射。进一步地，对卷积操作的输出再次进行卷积操作，得到卷积输出，该卷积输出为包含N个通道的特征映射。

举例来说，本发明实施例中的m的值可以为5或7或其他的大于1的奇数，本发明后续实施例以m＝3为例进行阐述，相应地，N＝9。如图3所示。

示例性地，可以通过卷积神经网络对待处理图片进行卷积操作，得到卷积操作的输出。一般地，卷积操作的输出为张量的形式，因此，可理解，卷积操作的输出的维度为张量的维度。也就是说，特征映射为张量的形式。示例性地，该卷积操作的输出的维度可以表示为w×h×c，其中第三个维度c表示信道(channel)维度，也可称为频道维度或通道维度。也就是说，这里，可以将卷积神经网络的输出的特征图(feature map)的维度表示为w×h×c。

然后，对卷积操作的输出进一步进行卷积操作得到卷积输出。示例性地，该卷积输出的维度可以表示为w×h×9。例如，进一步进行卷积操作的卷积核的大小可以为3×3。也就是说，这里，可以将进一步进行卷积操作的输出的得分图(score map)的维度表示为w×h×9。如图3所示。

S102所得到的卷积输出为张量的形式，该张量的通道维度的值为N，例如N＝9。S102中所述的邻域可以是由m×m(例如，3×3)个像素点构成的邻域。邻域包括中心像素点以及所述中心像素点周围的m×m-1个像素点。相应地，卷积输出(即N个通道的特征映射)可以表示邻域中的每个像素点给出的中心像素点属于前景或背景的概率值。如图4所示，为9个像素点所构成的邻域，包括中心像素点以及该中心像素点周围的8个像素点。

S103，基于所述卷积输出，使用投票策略，确定每个像素点属于前景或属于背景的概率。

示例性地，所述投票策略可以包括少数服从多数策略、平均投票策略和高斯加权投票策略中的至少一种。

示例性地，投票策略可以是根据所述待处理图片的特点自适应地确定的。例如，可以是根据数据的复杂度所确定的。举例来说，可以根据场景的需要确定所使用的投票策略。例如，若待处理视频为简单的数据，可以使用平均投票策略。若待处理视频为复杂的数据，可以使用高斯加权投票策略。可见，投票策略可以是多样化的，针对不同的场景使用不同的投票策略，能够在保证精度的基础上极高处理的速度。

这样，对于每个像素点(即图4所示的中心像素点)，可以由周围的9个像素点(图4所示的9个像素点)进行投票预测。以平均投票策略为例，假设第i个像素点确定该像素点(即图4所示的中心像素点)属于前景的概率值为P_i，则可以得出该像素点属于前景的概率为

以高斯加权投票策略为例，假设第i个像素点确定该像素点(即图4所示的中心像素点)属于前景的概率值为P_i，则可以得出该像素点属于前景的概率为

其中，w_i表示权重参数，且

基于类似的方法，可以计算某个像素点属于背景的概率，这里不再赘述。

S104，根据所述每个像素点的所述概率，确定所述待处理图片的前景区域。

具体地，S104中，可以根据所述每个像素点的所述概率，确定所述待处理图片的前景区域和/或背景区域。

一般地，若某个像素点属于前景的概率大于属于背景的概率，则可以认为该像素点为前景像素点。

在S104中，可以将所有的前景像素点所组成的区域作为前景区域。将待处理图片中除前景区域之外的其他区域作为背景区域。

由此可见，本发明实施例中，可以通过对每个像素点进行投票计算，得到每个像素点属于前景或背景的概率，从而进行前景和背景的分割。不仅稳定性高，并且能够在基本确保实时性的情况下引入投票策略，使得整个系统的性能得到极大地提升。

示例性地，在图2所示的方法之前，例如在S102之前或在S101之前，可以包括：通过训练得到神经网络。

具体地，可以获取多张图片，所述多张图片中的每一张图片包括标注信息，所述标注信息用于表示所述对应图片中的背景和前景；根据所述多张图片，通过机器学习的训练方法得到所述神经网络。

例如，可以将包括各种场景(背景)和内容(前景)的图片进行打包处理，通过自动地学习这些图片的特征，特别是基于位置的投票特征，以此囊括在应用中可能遇到的各种场景数据，从而得到神经网络。

示例性地，也可以将投票策略也纳入到训练过程。在图2所示的方法之前，例如在S102之前或在S101之前，可以包括：通过训练得到投票策略。

具体地，所述投票策略为高斯加权投票策略，那么，可以获取多张图片，所述多张图片中的每一张图片包括标注信息，所述标注信息用于表示所述对应图片中的背景和前景；根据所述多张图片，通过机器学习的训练方法得到所述高斯加权投票策略的各个权重参数。

例如，可以针对所获取的多张图片(也可以称为数据集)，可以自适应地学习出一个针对该数据集的投票策略，以此达到最优化解决某个数据集的目的。

本发明实施例使用预先训练好的神经网络，对待处理图片进行卷积操作，并由像素点及其周围的邻域的像素点同时给出投票预测(即基于位置的投票策略)，确定各个像素点属于前景还是背景，从而实现背景分割。该方法的稳定性高，且能够在确保实时性的情况下使得整个系统的性能得到极大地提升。

图5是本发明实施例的背景分割的装置的一个示意性框图。图5所示的装置50包括：获取模块501、处理模块502、投票模块503和确定模块504。

获取模块501，用于获取待处理图片；

处理模块502，用于使用预先训练好的神经网络，对获取模块501获取的所述待处理图片进行卷积操作，得到卷积输出，所述卷积输出为包含N个通道的特征映射，所述N个通道的特征映射表示所述待处理图片中的像素点所在的邻域给出的所述像素点属于前景或背景的概率值，其中所述邻域包括m×m个像素点，m为大于1的奇数且N＝m×m；

投票模块503，用于基于处理模块502得到的所述卷积输出，使用投票策略，确定每个像素点属于前景或属于背景的概率；

确定模块504，用于根据投票模块503确定的所述每个像素点的所述概率，确定所述待处理图片的前景区域。

示例性地，如图6所示，还可以包括训练模块505。获取模块501还可以用于获取多张图片，所述多张图片中的每一张图片包括标注信息，所述标注信息用于表示所述对应图片中的背景和前景。训练模块505可以用于根据所述多张图片，通过机器学习的训练方法得到所述神经网络。

示例性地，如图6所示，还可以包括训练模块505。所述投票策略为高斯加权投票策略，获取模块501还可以用于获取多张图片，所述多张图片中的每一张图片包括标注信息，所述标注信息用于表示所述对应图片中的背景和前景。训练模块505可以用于根据所述多张图片，通过机器学习的训练方法得到所述高斯加权投票策略的各个权重参数。

图5或图6所示的装置50能够用于实现前述图2所示的背景分割的方法。

另外，本发明实施例还提供了另一种背景分割的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2或图3所示方法的步骤。例如，该背景分割的装置为计算机设备。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图5或图6所示的装置50。该电子设备可以实现前述图2所示的背景分割的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2所示的背景分割的方法。例如，该计算机存储介质为计算机可读存储介质。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种背景分割的方法，其特征在于，包括：

获取待处理图片；

2.如权利要求1所述的方法，其特征在于，所述投票策略是根据所述待处理图片的特点自适应地确定的。

3.如权利要求1所述的方法，其特征在于，所述投票策略包括少数服从多数策略、平均投票策略和高斯加权投票策略中的至少一种。

4.如权利要求1所述的方法，其特征在于，在所述方法之前，还包括：

获取多张图片，所述多张图片中的每一张图片包括标注信息，所述标注信息用于表示对应图片中的背景和前景；

5.如权利要求1所述的方法，其特征在于，所述投票策略为高斯加权投票策略，在所述方法之前，还包括：

6.如权利要求1所述的方法，其特征在于，所述使用预先训练好的神经网络，对所述待处理图片进行卷积操作，得到卷积输出，包括：

7.如权利要求1至6任一项所述的方法，其特征在于，m＝3，N＝9。

8.一种背景分割的装置，其特征在于，包括：

获取模块，用于获取待处理图片；

9.如权利要求8所述的装置，其特征在于，所述投票策略是根据所述待处理图片的特点自适应地确定的。

10.如权利要求8所述的装置，其特征在于，所述投票策略包括少数服从多数策略、平均投票策略和高斯加权投票策略中的至少一种。

11.如权利要求8所述的装置，其特征在于，还包括训练模块：

所述获取模块，还用于获取多张图片，所述多张图片中的每一张图片包括标注信息，所述标注信息用于表示对应图片中的背景和前景；

所述训练模块，用于根据所述多张图片，通过机器学习的训练方法得到所述神经网络。

12.如权利要求8所述的装置，其特征在于，所述投票策略为高斯加权投票策略，还包括训练模块：

所述训练模块，用于根据所述多张图片，通过机器学习的训练方法得到所述高斯加权投票策略的各个权重参数。

13.如权利要求8所述的装置，其特征在于，所述处理模块，具体用于：

14.如权利要求8至13任一项所述的装置，其特征在于，m＝3，N＝9。

15.一种背景分割的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

16.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。