CN113065534B

CN113065534B - 一种基于人像分割精度提升的方法、系统和存储介质

Info

Publication number: CN113065534B
Application number: CN202110611581.2A
Authority: CN
Inventors: 程鹏宇
Original assignee: G Net Cloud Service Co Ltd
Current assignee: G Net Cloud Service Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-09-03
Anticipated expiration: 2041-06-02
Also published as: CN113065534A

Abstract

本发明提供一种基于人像分割精度提升的方法、系统和存储介质，所述方法包括：接收关于视频云会议的视频流并从中读取一帧源图像；通过RBF人脸检测网络对所述源图像进行人脸检测，并检测得到源图像中的疑似人脸个数；如果检测到的疑似人脸个数不为零，结合源图像分辨率与各个疑似人脸坐标区域之间的比值关系分别判断各个疑似人脸是否为真实人脸；根据判断结果，如果存在真实人脸，则标记出真实人脸坐标区域；基于真实人脸坐标区域对所述源图像进行人像分割处理，得到对应的二值化灰度图；将二值化灰度图与源图像以及预设的背景图像进行融合，得到融合图像，并展示在视频云会议观看侧的界面。本发明能够提升视频云观看端的人像分割精度。

Description

一种基于人像分割精度提升的方法、系统和存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种基于人像分割精度提升的方法。

背景技术

视频云会议中的虚拟背景主要用于用户由于个人隐私或所处位置比较敏感时需要将背景信息用已有的图像或视频替换，简称虚拟化。云会议中虚拟背景的功能主要是对视频中的每一帧基于Image Matting（人像分割）生成的二值化灰度图Alpha（一般人像区域为255，背景区域为0，人像与背景交集边缘处为0-255），将当前帧与所要替换的背景图进行融合，最终得到想要的结果图或视频。

Image Matting技术指的是用于传统图像处理或深度学习CNN网络将图像的前景（255）、背景（0）以及前景与背景的衔接边缘区域（0-255）进行分离生成Alpha图，便于后续应用使用，如云会议中的虚拟背景功能。虽然Image Matting技术熟称人像分割，但是Matting与分割有着本质区别，分割指的是将前景和背景或者图像中的物体进行提取并只关心实际分割出的物体IOU（Intersection over Union），Image Matting如前文所述出了需要完成分割的功能外还需要完成前景和背景之间的衔接边缘区域，因为这类区域的Alpha图实际上既有前景信息又有背景信息，所以无法简单的将其完全分离为前景与背景。

现有的Image Matting基本都是针对于图像级的（空域），主要分成两大类，第一类传统图像处理方法，第二类是基于深度学习CNN网络。

基于传统图像处理方法主要有区域增长、分裂、图割、轮廓模型。其中区域增长、分裂则是通过一些种子点，再加上相似性准则来不断扩充区域直到达到类别的边界，直到分割结果完善，典型方法为分水岭算法。所谓的图割则是通过建立一张图，其中以图像像素或者超像素作为图像顶点，然后优化的目标就是要找到一个切割，使得各个子图不相连从而实现分割，前提是移除边的和权重最小，典型的方法有Graphcut。所谓的轮廓模型通过使用连续曲线来表达目标轮廓，并定义一个能量泛函，其自变量为曲线，将分割过程转变为求解能量泛函的最小值的过程，典型的方法有snake模型。

基于深度学习CNN网络主要是基于Encoder和Decoder模型以及外接对边缘修正的小模型进行端到端的输出。Encoder主要是学习图像中的多层高维特征，Decoder主要是通过将学习到的高维特征与低维特征以及原图进行融合学习上采样至原图大小，得到最终所需的输出，外接对边缘修正小模型主要是对输出的Alpha图细节，如头发丝，细小边缘等区域进行精调，典型的网络有FCN、Deep Image Matting等。

由于CNN网络自身的局限性，无法做到100%的精准，因此人像分割网络常常会将无人视频中的一些很像人衣服、轮廓等物体也识别为人像，比如沙发、高靠背椅子、衣架上的大衣等等，都会被人像分割网络识别为人像从而在观看端显示出来，导致观看体验效果急剧下降

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于人像分割精度提升的方法、系统和存储介质，能够提升视频云观看端的人像分割精度。

本发明第一方面提出了一种基于人像分割精度提升的方法，所述方法包括：

接收关于视频云会议的视频流并从中读取一帧源图像；

通过RBF人脸检测网络对所述源图像进行人脸检测，并检测得到所述源图像中的疑似人脸个数；

如果检测到的疑似人脸个数不为零，结合所述源图像分辨率与各个疑似人脸坐标区域之间的比值关系分别判断各个疑似人脸是否为真实人脸；

根据判断结果，如果存在真实人脸，则标记出真实人脸坐标区域；

基于真实人脸坐标区域对所述源图像进行人像分割处理，得到对应的二值化灰度图；

将二值化灰度图与所述源图像以及预设的背景图像进行融合，得到融合图像，并展示在视频云会议观看侧的界面。

本方案中，结合所述源图像分辨率与各个疑似人脸坐标区域之间的比值关系分别判断各个疑似人脸是否为真实人脸，具体包括：

预设图像中的人脸大小与该图像分辨率的基准比值；

分别计算各个疑似人脸坐标区域大小与所述源图像分辨率的比值；

分别将计算得到的比值与所述基准比值进行比较，并筛选出超过所述基准比值的部分比值；

将上述部分比值对应的疑似人脸认定为真实人脸。

本方案中，在得到对应的二值化灰度图之后，所述方法还包括：

对所述二值化灰度图进行去噪处理；

采用光流法对去噪后的二值化灰度图进行优化处理，得到新的二值化灰度图；

将新的二值化灰度图与所述源图像以及预设的背景图像进行融合，得到融合图像，并展示在视频云会议观看侧的界面。

本方案中，将新的二值化灰度图与所述源图像以及预设的背景图像进行融合，具体包括：

将新的二值化灰度图与所述源图像以及预设的背景图像按照公式：

进行融合；其中

表示融合后的融合图像，

，

为透明度，

为新的二值化灰度图中对应像素点的灰度值，

为源图像，

为背景图像。

本方案中，采用光流法对去噪后的二值化灰度图进行优化处理，具体包括：

接收视频流，基于真实人脸坐标区域对所述源图像进行人像分割处理，得到对应的二值化灰度图C1；

结合所述二值化灰度图C1对应的源图像以及前一帧源图像进行稀疏光流分析得到所述二值化灰度图C1对应的源图像的光流图；

将得到的光流图的方向矢量对前一帧源图像人像分割处理得到的二值化灰度图进行平移得到新的二值化灰度图C2；

对二值化灰度图C1和二值化灰度图C2按照权重公式C= k * C1 + (1-k) * C2进行融合得到二值化灰度图C，其中k为权重因子；

对所述二值化灰度图C中的人像边界进行平滑处理，得到新的二值化灰度图。

本方案中，结合所述二值化灰度图C1对应的源图像以及前一帧源图像进行稀疏光流分析得到所述二值化灰度图C1对应的源图像的光流图，具体包括：

根据光流法的亮度恒定、时间连续性，得到源图像的约束方程：

，其中

是t时刻源图像在(x, y)位置的亮度值，

是两帧时间差，

和

为需要求解的像素运动，

为泰勒公式的高阶余项；

利用泰勒公式对函数

在(x,y,t)处展开得到：

，其中

和

是当前时刻源图像在

和

方向的梯度，

表示时间方向上的梯度；

联立公式

和

，得到：

，将

置为0，并对该式同时除以

，并移项得到：

，其中

和

分别为像素点沿着x和y方向的导数，沿x和y方向的速度分量分别记为

和

，将式：

变换为：

；

令

，

，

，且

为图像灰度对时间的变化量，将式

写成矩阵形式

；

基于光流法的空间一致性，得到以下方程组：

；

其中，m为源图像中边长为d的正方形窗口面积；

采用最小二乘法求解上述方程组，得到源图像对应的光流图为：

。

本发明第二方面还提出一种基于人像分割精度提升的系统，所述基于人像分割精度提升的系统包括：存储器及处理器，所述存储器中包括一种基于人像分割精度提升的方法程序，所述基于人像分割精度提升的方法程序被所述处理器执行时实现如下步骤：

接收关于视频云会议的视频流并从中读取一帧源图像；

预设图像中的人脸大小与该图像分辨率的基准比值；

将上述部分比值对应的疑似人脸认定为真实人脸。

本方案中，所述基于人像分割精度提升的方法程序被所述处理器执行时还实现如下步骤：

对所述二值化灰度图进行去噪处理；

本发明第三方面还提出一种计算机可读存储介质，所述计算机可读存储介质中包括一种基于人像分割精度提升的方法程序，所述基于人像分割精度提升的方法程序被处理器执行时，实现如上述的一种基于人像分割精度提升的方法的步骤。

本发明利用人脸检测网络与视频分辨率相结合的方法，解决了如沙发、高靠背椅子、衣架上的大衣等等会被神经网络识别为人像的问题，进一步提升了观看体验效果。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了本发明一种基于人像分割精度提升的方法流程图；

图2示出了本发明一种基于人像分割精度提升的系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于人像分割精度提升的方法流程图。

如图1所示，本发明第一方面提出一种基于人像分割精度提升的方法，所述方法包括：

S102，接收关于视频云会议的视频流并从中读取一帧源图像；

S104，通过RBF人脸检测网络对所述源图像进行人脸检测，并检测得到所述源图像中的疑似人脸个数；

S106，如果检测到的疑似人脸个数不为零，结合所述源图像分辨率与各个疑似人脸坐标区域之间的比值关系分别判断各个疑似人脸是否为真实人脸；

S108，根据判断结果，如果存在真实人脸，则标记出真实人脸坐标区域；

S110，基于真实人脸坐标区域对所述源图像进行人像分割处理，得到对应的二值化灰度图；

S112，将二值化灰度图与所述源图像以及预设的背景图像进行融合，得到融合图像，并展示在视频云会议观看侧的界面。

根据本发明的实施例，如果检测到的疑似人脸个数为零，则读入下一帧源图像，并进行人脸检测以及人像分割处理。

需要说明的是，RBF人脸检测网络是一种三层神经网络，其包括输入层、隐层、输出层。从输入空间到隐层空间的变换是非线性的，而从隐层空间到输出层空间变换是线性的。

可以理解，所述融合图像为虚拟背景图像，通过虚拟背景替代真实背景，可以有效解决用户因个人隐私或所处位置比较敏感时难以进行视频云会议的问题。

根据本发明的实施例，在得到融合图像，并展示在视频云会议观看侧的界面之后，所述方法还包括：

基于上述方式对视频流的每一帧源图像进行连续处理，得到结果视频。

需要说明的是，上述方法介绍了对单帧源图像进行人像分割等操作步骤，由于视频流由连续的多帧图像形成的，所以在对当前帧源图像处理得到融合图像，并展示在视频云会议观看侧的界面后，还应该对在后帧的源图像进行处理，并分别得到对应的融合图像，最后按照时序排列形成结果视频。

根据本发明的实施例，结合所述源图像分辨率与各个疑似人脸坐标区域之间的比值关系分别判断各个疑似人脸是否为真实人脸，具体包括：

预设图像中的人脸大小与该图像分辨率的基准比值；

将上述部分比值对应的疑似人脸认定为真实人脸。

优选的，所述基准比值为10%，但不限于此。

需要说明的是，在视频云会议中，通常人脸在整个图像中的占比较大，本发明通过设定基准比值10%，当疑似人脸坐标区域大小与所述源图像分辨率的比值大于10%，则可认定该疑似人脸为真实人脸，并基于真实人脸进行后续的人像分割处理流程；当疑似人脸坐标区域大小与所述源图像分辨率的比值小于10%，则继续判断所述源图像中的其它疑似人脸，如果所有疑似人脸区域大小与所述源图像分辨率的比值均小于10%，则读入下一帧源图像，并继续进行人脸检测以及人像分割处理流程。

根据本发明的实施例，在得到对应的二值化灰度图之后，所述方法还包括：

对所述二值化灰度图进行去噪处理；

需要说明的是，本发明采用的去噪方法可以采用中值滤波、高斯滤波、均值滤波中的任意一种。

根据本发明的实施例，将新的二值化灰度图与所述源图像以及预设的背景图像进行融合，具体包括：

进行融合；其中

表示融合后的融合图像，

，

为透明度，

为新的二值化灰度图中对应像素点的灰度值，

为源图像，

为背景图像。

根据本发明的实施例，采用光流法对去噪后的二值化灰度图进行优化处理，具体包括：

根据本发明的实施例，结合所述二值化灰度图C1对应的源图像以及前一帧源图像进行稀疏光流分析得到所述二值化灰度图C1对应的源图像的光流图，具体包括：

，其中

是t时刻源图像在(x, y)位置的亮度值，

为泰勒公式的高阶余项；

利用泰勒公式对函数

在(x,y,t)处展开得到：

，其中

和

是当前时刻源图像在

和

方向的梯度，

表示时间方向上的梯度；

联立公式

和

，得到：

，将

置为0，并对该式同时除以

，并移项得到：

，其中

和

和

，将式：

变换为：

；

令

，

，

，且

为图像灰度对时间的变化量，将式

写成矩阵形式

；

基于光流法的空间一致性，得到以下方程组：

；

其中，m为源图像中边长为d的正方形窗口面积；

。

可以理解，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜（即图像平面），好像一种光的“流”，故称之为光流。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。

光流法基本原理：（1）亮度恒定不变。即同一目标在不同帧间运动时，其亮度不会发生改变。这是基本光流法的假定，用于得到光流法基本方程；（2）时间连续或运动是“小运动”。即时间的变化不会引起目标位置的剧烈变化，相邻帧之间位移要比较小。

需要说明的是，在利用泰勒公式对函数

在(x,y,t)处展开得到：

，其中

表示时间方向上的梯度，也就是下一帧与当前帧的差分。

是两帧时间差也就是1，而

和

就是我们要求解的像素运动，

为泰勒公式的高阶余项，其值近似为0，因此可以忽略不计。

需要说明的是，在基于光流法的前两个假设得到矩阵

时，由于以上的方程有

和

两个未知数，所以无法求解，根据第三条假设，可以假设在一个大小为

的窗口内，图像的光流是一个固定值，继而可以得到方程组：

；

为了求解以上过度约束的系统可以采用最小二乘法对以上的方程进行最小化。得到光流为

。

根据本发明的实施例，在对所述二值化灰度图进行去噪处理之后，所述方法还包括：

判断当前设备的性能；

如果为高性能设备，则采用光流法对去噪后的二值化灰度图进行优化处理；

如果为低性能设备，则采用时域滤波法对去噪后的二值化灰度图进行优化处理。

需要说明的是，高性能设备或低性能设备均可以为手机、PAD、PC、智能手表、车载终端等通信设备。

根据本发明的实施例，采用时域滤波法对去噪后的二值化灰度图进行优化处理，具体包括：

接收连续的视频流，从中读取一帧源图像进行人像分割处理得到该帧对应的二值化灰度图，同时将所述源图像及人像分割处理后得到的二值化灰度图分别置入到已申请好的源图像缓存区和二值化灰度图缓存区进行缓存。

检测前后两帧源图像的场景是否发生变化，若检测发现连续视频流发生了场景变化，则创建新的缓存区，重新读取视频流场景变化后对应帧的源图像，并返回上一步处理，同时将旧缓存区内的图像数据进行双边滤波处理得到滤波后的二值化灰度图；如果未发生场景变化，则进入下一步；

对源图像缓存区和二值化灰度图缓存区内的帧数进行阈值判断，若缓存区帧数达到设定阈值时，则进入下一步，否则返回初始步骤并读取下一帧源图像；

对所述二值化灰度图缓存区内的图像进行双边滤波处理得到滤波后的二值化灰度图；

将滤波后的二值化灰度图应用于源图像缓存区的第一帧源图像，并基于公式

进行融合，得到第一帧源图像的合成图作为融合图像，同时将源图像缓存区和二值化灰度图缓存区中的第一帧数据进行清除。

进一步的，检测前后两帧源图像的场景是否发生变化，具体包括：

通过对不同场景不同视频流进行实验测试得到一个场景变化下检测的判断阈值；

基于公式

对前后两帧源图像之间的直方图相同位置计算，得到二者间最小值的累加值；

对比最小值的累加值与上述判断阈值，如果所述最小值的累加值大于所述判断阈值时，则表示场景未发生变化；如果所述最小值的累加值小于所述判断阈值时，则表示场景发生变化。

可以理解，对前后两帧图像之间的直方图相同位置进行如上述公式

的计算，当两帧图像相同或相近时，二者间最小值的累加值会接近于图像像素点总个数；当两帧图像场景发生变化时或相差较大时，二者最小值的累加值会相应变小。本发明通过对不同场景不同视频流进行实验测试得到一个场景变化下检测的判断阈值，最小值累加值大于该阈值时表示场景未发生变化，小于该阈值时表示场景发生变化。通过这种方法进行场景检测。

需要说明的是，在对源图像缓存区和二值化灰度图缓存区内的帧数进行阈值判断时，为了减少系统内存的压力，同时解决基于Image Matting算法应用于视频会议时连续帧之间的一些人像边缘会出现多余或缺失，以及视频合成后播放时发生闪烁现象。本发明通过对不同场景下的视频流进行实验寻找出不同分辨率下的最小抗闪烁的缓存帧数，将最小缓存帧数设定为判断帧数的阈值。若缓存区帧数达到设定阈值时，则对所述二值化灰度图缓存区内的图像进行双边滤波处理得到滤波后的二值化灰度图，否则返回并读取下一帧源图像进行循环处理。

需要说明的是，双边滤波在高斯滤波的基础上加入了像素值权重项，也就是说既考虑距离因素，也考虑像素值差异的影响，像素值越相近，权重越大，因此本发明采用双边滤波可以有效避免图像处理过程的边缘信息出现模糊化的现象。

图2示出了本发明一种基于人像分割精度提升的系统框图。

如图2所示，本发明第二方面还提出一种基于人像分割精度提升的系统2，所述基于人像分割精度提升的系统包括：存储器21及处理器22，所述存储器中包括一种基于人像分割精度提升的方法程序，所述基于人像分割精度提升的方法程序被所述处理器执行时实现如下步骤：

接收关于视频云会议的视频流并从中读取一帧源图像；

预设图像中的人脸大小与该图像分辨率的基准比值；

将上述部分比值对应的疑似人脸认定为真实人脸。

根据本发明的实施例，所述基于人像分割精度提升的方法程序被所述处理器执行时还实现如下步骤：

对所述二值化灰度图进行去噪处理；

进行融合；其中

表示融合后的融合图像，

，

为透明度，

为新的二值化灰度图中对应像素点的灰度值，

为源图像，

为背景图像。

，其中

是t时刻源图像在(x, y)位置的亮度值，

是两帧时间差，

和

为需要求解的像素运动，

为泰勒公式的高阶余项；

利用泰勒公式对函数

在(x,y,t)处展开得到：

，其中

和

是当前时刻源图像在

和

方向的梯度，

表示时间方向上的梯度；

联立公式

和

，得到：

，将

置为0，并对该式同时除以

，并移项得到：

，其中

和

和

，将式：

变换为：

；

令

，

，

，且

为图像灰度对时间的变化量，将式

写成矩阵形式

；

基于光流法的空间一致性，得到以下方程组：

；

其中，m为源图像中边长为d的正方形窗口面积；

。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。