CN111723934B

CN111723934B - 图像处理方法及系统、电子设备及存储介质

Info

Publication number: CN111723934B
Application number: CN202010591546.4A
Authority: CN
Inventors: 李文国; 杜建国
Original assignee: Beijing Ziguang Zhanrui Communication Technology Co Ltd
Current assignee: Beijing Ziguang Zhanrui Communication Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-11-01
Anticipated expiration: 2040-06-24
Also published as: CN111723934A

Abstract

本发明公开了一种图像处理方法及系统、电子设备及存储介质，图像处理方法包括：将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型；其中，所述深度神经网络模型中每一层网络的输出和权重均被量化为整型；将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组；其中，所述概率数组中包括所述图像中每个像素点为前景人像的概率。本发明通过将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型，其中，深度神经网络模型中每一层网络的输出和权重均被量化为整型，保证了深度神经网络模型计算前景人像概率的过程中全程整数运算，与现有技术中进行浮点运算相比，节省了带宽，减少了延时，降低了功耗。

Description

图像处理方法及系统、电子设备及存储介质

技术领域

本发明涉及图像处理领域，特别涉及一种图像处理方法及系统、电子设备及存储介质。

背景技术

人像背景替换技术，本质上是一个人像抠图任务加上一个人像背景融合任务。具体而言，从含有人像的自然图像或者视频中精确地估计出前景人像，并将其与预置的背景图片无缝地融合起来。

人像抠图属于抠图(image matting)任务，其本质上属于像素级回归任务，可以用以下公式表示：

I_i＝α_iF_i+(1-α_i)B_i,α_i∈[0,1]

其中，第i个像素点的值I_i是由前景点F_i和背景点B_i按上式加权而成的，α_i为前景透明度，描述了该像素属于前景人像的概率，也就是要求解的“alpha matte”矩阵。但是，对于每个像素点(R，G，B)，有3个已知量，7个未知量，这是一个高度不适定的(highly ill-posed)问题，求解是非常困难的。

传统的方法例如Closed-Form Matting、Shared Matting、KNN Matting等引入三分图(trimap)作为约束，它将图像划分为3个区域，分别为确定前景、确定背景和不确定区域，解决了上述困难求解的问题，提高了抠图的效果。但是三分图制作需要用户提供，抠图的任务无法自动完成，需要人工交互，从而限制了它的应用，特别是一些对实时性有要求的应用，例如实时人像背景替换。

随着大数据的发展以及大规模硬件加速设备的出现，深度学习获得了空前的发展，物体分类、目标检测以及语义分割的精度得到了极大地改善。通过将深度语义分割集成到抠图技术，实现了端到端的自动人像抠图，无需人工交互。一种现有做法是先通过语义分割网络生成二分类的前景背景图，处理成三分图或者直接生成三分图，将三分图与原RGB图合并通道输入进行图像的精细抠图。另一种现有做法是将抠图看作是一个语义软分割的问题，具体从谱分解角度处理语义软分割的问题，将来自输入图像的纹理和颜色信息与经过场景分析训练的卷积神经网络生成的高级语义线索相结合，设计一个图形结构，在响应的拉普拉斯矩阵的特征向量中揭示语义对象以及他们之间的软转换。

现有技术中提供的上述抠图方案要么需要人工交互，不能自动完成，要么都是浮点网络模型，计算量大、内存消耗严重，只能运行在云端服务器或者桌面端。对于诸如手机端、边缘设备端等，这些方案都受到内存、功耗、速度等的限制而无法使用。另外，不同于分类问题，人像背景替换的抠图需要精准地回归出一个alpha，对量化精度损失非常敏感，若直接从现有浮点模型到定点模型转换，会出现严重的量化精度损失，产生明显的视觉瑕疵，例如会在alpha图边缘出现严重的量化锯齿或者量化波纹。

发明内容

本发明要解决的技术问题是为了克服现有技术中的上述缺陷，提供一种图像处理方法及系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明的第一方面提供一种图像处理方法，包括：

将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型；其中，所述深度神经网络模型中每一层网络的输出和权重均被量化为整型；

将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组，以实现人像抠图；

其中，所述概率数组中包括所述图像中每个像素点为前景人像的概率。

较佳地，所述图像处理方法还包括：

根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起，以实现人像背景替换。

较佳地，所述深度神经网络模型包括：

特征提取模块，用于提取图像特征；

ASPP(Atrous Spatial Pyramid Pooling，空洞空间卷积池化金字塔)模块，用于根据提取的图像特征以不同采样率的空洞卷积并行采样，以捕捉图像的上下文；

解码模块，用于根据图像的上下文以及所述提取的图像特征恢复空间分辨率，并进行分类处理得到前景人像和背景分割的结果；

人像抠图模块，用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割，得到所述像素点为前景人像的概率。

较佳地，所述深度神经网络模型中每个模块使用的卷积(convolution)和深度可分离卷积(depth wise convolution)都采用带边界的激活函数，所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。

较佳地，利用以下公式对深度神经网络模型中每一层网络的输出o_float和权重w_float进行整型量化：

o_int＝Z_o+round(o_float/S_o)

w_int＝Z_w+round(w_float/S_w)

其中，o_int为整型输出，S_o为与输出o对应的正实数量化参数，Z_o为与输出o对应的整型量化参数，w_int为整型权重，S_w为与权重w对应的正实数量化参数，Z_w为与权重w对应的整型量化参数；

利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alpha_int反量化为浮点型概率alpha_float：

alpha_float＝S_alpha×(alpha_int-Z_alpha)

其中，S_alpha为与概率alpha对应的正实数量化参数，Z_alpha为与概率alpha对应的整型量化参数。

本发明的第二方面提供一种图像处理系统，包括：

输入单元，用于将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型；其中，所述深度神经网络模型中每一层网络的输出和权重均被量化为整型；

以及反量化单元，用于将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组，以实现人像抠图；

较佳地，所述图像处理系统还包括：

融合单元，用于根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起，以实现人像背景替换。

较佳地，所述深度神经网络模型包括：

特征提取模块，用于提取图像特征；

ASPP模块，用于根据提取的图像特征以不同采样率的空洞卷积并行采样，以捕捉图像的上下文；

较佳地，所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数，所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。

较佳地，所述图像处理系统包括量化单元，用于利用以下公式对深度神经网络模型中每一层网络的输出o_float和权重w_float进行整型量化：

o_int＝Z_o+round(o_float/S_o)

w_int＝Z_w+round(w_float/S_w)

所述反量化单元用于利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alpha_int反量化为浮点型概率alpha_float：

alpha_float＝S_alpha×(alpha_int-Z_alpha)

本发明的第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的图像处理方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的图像处理方法。

本发明的积极进步效果在于：通过将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型，其中，所述深度神经网络模型中每一层网络的输出和权重均被量化为整型，保证了深度神经网络模型计算前景人像概率的过程中全程整数运算，与现有技术中进行浮点运算相比，节省了带宽，减少了延时，降低了功耗。

附图说明

图1为本发明实施例1提供的图像处理方法的流程图。

图2为本发明实施例1提供的深度神经网络模型的内部结构示意图。

图3为本发明实施例2提供的图像处理系统的结构示意图。

图4为本发明实施例3提供的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种图像处理方法，如图1所示，包括：

步骤S101、将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型；其中，所述深度神经网络模型中每一层网络的输出和权重均被量化为整型。

其中，上述图像可以为一张静态图片，也可以为动态视频中的某一视频帧。需要说明的是，像素点的RGB值为整型int，在一个例子中，某个像素点的RGB值为(220,54,255)。在步骤S101的具体实施中，图像中所有像素点的RGB值以矩阵的形式输入至经过整型量化的深度神经网络模型中。

在可选的一种实施方式中，如图2所示，所述深度神经网络模型具体包括特征提取模块、ASPP模块、解码模块以及人像抠图模块。

特征提取模块也称为编码encoder模块，用于提取图像多尺度的特征。具体实施中，特征提取模块采用轻量化设计，即采用深度可分离卷积网络，主要结构为带有SE(Squeeze and excite)模块的逆残差线性瓶颈结构。

ASPP模块用于根据提取的图像特征以不同采样率的空洞卷积并行采样，以多个比例捕捉图像的上下文。在ASPP模块的具体实施中引入注意力Attention机制，能够更有利于图像特征的筛选，使得任务主要关注重点特征，忽略不重要特征，从而提高任务效率。

解码模块也称为refine decoder模块，用于根据图像的上下文以及所述提取的图像特征恢复在特征提取模块中因下采样而丢失的空间分辨率，并进行分类处理得到前景人像和背景分割的结果。在解码模块中，允许信息从科员推理出低级特征(例如颜色和边缘)的网络早期阶段轻易流向可以推理出高级特征(例如面部和身体)的网络后期阶段，这些阶段的结合对于准确地识别哪些像素点为前景人像有着重要的作用。

人像抠图模块也称为人像matting模块，用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割，得到所述像素点为前景人像的概率。在人像抠图模块的具体实施中，使用类似于稠密层(dense layer)的模块在全尺寸上做进一步的精细软分割，改善人像边缘。

为了有效地限制深度神经网络模型中特征层和输出层的数据范围，避免后续量化阶段出现严重的精度损失，在可选的一种实施方式中，上述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数，例如RELU6(Rectified LinearUnit，线性整流函数)、hard_sigmoid、hard_swish等，上述特征提取模块、ASPP模块以及解码模块中的最后一层均为批量归一化层，即batchnorm层。

整型量化前的深度神经网络模型为浮点网络模型，在训练浮点网络模型可选的一种实施方式中，通过使用大量标注好的训练数据对浮点网络模型进行训练，并在训练后期使用困难样本发掘技术，解决了人像边缘样本不均衡的问题，进一步改善了人像边缘分割的精度。在具体实施中，通过从网络收集大量包括人像的图像，并使用专门的标注工具获得前景人像alpha的基准数据。为了进一步增加的样本数量，可以采用组合数据的方法获得更多的训练数据。

其中，训练上述浮点网络模型的过程中需要考虑分割损失和抠图损失，即浮点网络模型的损失为分割损失和抠图损失之和，具体地，分割损失采用多分类交叉熵，监督人像语义分割部分的网络优化；抠图损失采用平滑的L1损失，监督人像matting部分的网络优化。

在一个例子中，训练网络采用adam优化器，初始学习速率0.001，大约训练了200个Epoch之后，开始采用困难样本挖掘技术，即对像素级分类误差做排序，按一定的像素点比例仅考虑损失比较大的像素点做反传梯度优化，训练400个Epoch之后，训练结束，选择验证集上表现最好的模型作为最终的浮点网络模型。其中，1个Epoch即为将所有训练数据训练一次的过程。

步骤S102、将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组，以实现人像抠图；其中，所述概率数组中包括所述图像中每个像素点为前景人像的概率。

本实施方式中，将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型，其中，所述深度神经网络模型中每一层网络的输出和权重均被量化为整型，保证了深度神经网络模型中计算前景人像概率的过程中全程整数运算，与现有技术中进行浮点运算相比，节省了带宽，减少了延时，降低了功耗，从而能够方便用户在手机端、边缘设备端等使用。

在对上述训练好的浮点网络模型进行整型量化可选的一种实施方式中，通过仿射逆变换(affine inverse mapping)对浮点网络模型中的参数例如每一层网络的输出和权重进行整型量化，以及在得到整型量化后的深度神经网络模型输出的整型概率数组之后通过仿射变换(affine mapping)将其反量化为浮点型概率数组。

具体地，利用以下仿射逆变换的公式对深度神经网络模型中每一层网络的输出o_float和权重w_float进行整型量化，以得到整型量化后的深度神经网络模型：

o_int＝Z_o+round(o_float/S_o)

w_int＝Z_w+round(w_float/S_w)

其中，round()表示返回四舍五入取整，o_int为整型输出，S_o为与输出o对应的正实数量化参数，Z_o为与输出o对应的整型量化参数，w_int为整型权重，S_w为与权重w对应的正实数量化参数，Z_w为与权重w对应的整型量化参数。

需要说明的是，深度神经网络模型中每一层网络的输出和权重均为数组，包括多个元素，即需要利用上述公式对数组中的每个元素都进行整型量化，以得到整型量化后的深度神经网络模型。

利用以下仿射变换的公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alpha_int反量化为浮点型概率alpha_float：

alpha_float＝S_alpha×(alpha_int-Z_alpha)

其中，S_alpha为与概率alpha对应的正实数量化参数，Z_alpha为与概率alpha对应的整型量化参数。需要说明的是，需要利用上述公式对整型概率数组中的每个元素即每个整型概率都进行反量化，以得到浮点型概率数组。

在具体实施中，将事先标注好的校准数据集输入至上述训练好的浮点网络模型中，通过统计张量tensor的最小值和最大值来确定与第i层网络的输出oi对应的正实数量化参数S_oi、与第i层网络的输出输出oi对应的整型量化参数Z_oi、与第i层网络的权重wi对应的正实数量化参数S_wi、与第i层网络的权重wi对应的整型量化参数Z_wi、与概率alpha对应的正实数量化参数S_alpha以及与概率alpha对应的整型量化参数Z_alpha。本实施方式中将浮点型量化为8bit的整型，计算量化参数的具体公式如下：

S_oi＝(o_float-maxi-o_float-mini)/(o_int-max-i-o_int-mini)＝(o_float-maxi-o_float-mini)/(255-0)；

Z_oi＝o_int-mini+round(-o_float-mini/S_o)＝0+round(-o_float-mini/S_o)

S_wi＝(w_float-maxi-w_float-mini)/(w_int-maxi-w_int-mini)＝(w_float-maxi-w_float-mini)/(255-0)；

Z_wi＝w_int-mini+round(-w_float-mini/S_wi)＝0+round(-w_float-mini/S_wi)

S_alpha＝(alpha_float-max-alpha_float-min)/(alpha_int-max-alpha_int-min)＝(alpha_float-max-alpha_float-min)/(255-0)；

Z_alpha＝alpha_int-min+round(-alpha_float-min/S_alpha)＝0+round(-alpha_float-min/S_alpha)

其中，o_float-maxi为将校准数据集输入至浮点网络模型中第i层网络的输出的最大值，o_float-mini为将校准数据集输入至浮点网络模型中第i层网络的输出的最小值，w_float-maxi为将校准数据集输入至浮点网络模型中第i层网络的最大权重，w_float-mini为将校准数据集输入至浮点网络模型中第i层网络的最小权重，alpha_float-max为将校准数据集输入至浮点网络模型中输出的最大概率，alpha_float-min将校准数据集输入至浮点网络模型中输出的最小概率。

上述量化精度受到由最小值min和最大值max得到的正实数量化参数S的显著影响，而正实数量化参数S是由校准数据集中数据的统计范围(min，max)决定的，在可选的一种实施方式中，通过调整值域例如剔除小概率数据的方法来更准确地量化。也就是，校准数据集中数据的统计范围越小，量化的精度会越高，相反，校准数据集中数据的统计范围越大，量化精度越低。

在可选的一种实施方式中，如图1所示，步骤S102之后还包括：

步骤S103、根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起，以实现人像背景替换。本实施方式适用于一些需要进行人像背景替换的场景中，例如将网络会议中所有参与方的人像背景统一替换为包括公司名称的背景图片。

步骤S103的具体实施中，根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片线性融合在一起，具体可以采用现有技术中的融合算法。

实施例2

本实施例提供一种图像处理系统300，如图3所示，包括输入单元301和反量化单元302。

输入单元301用于将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型；其中，所述深度神经网络模型中每一层网络的输出和权重均被量化为整型。

反量化单元302用于将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组，以实现人像抠图，其中，所述概率数组中包括为所述图像中每个像素点为前景人像的概率。

在可选的一种实施方式中，图像处理系统还包括融合单元，用于根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起，以实现人像背景替换。

在可选的一种实施方式中，所述深度神经网络模型包括：

特征提取模块，用于提取图像特征；

在可选的一种实施方式中，所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数，所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。

在可选的一种实施方式中，如图3所示，图像处理系统300还包括量化单元303，用于利用以下公式对深度神经网络模型中每一层网络的输出o_float和权重w_float进行整型量化：

o_int＝Z_o+round(o_float/S_o)

w_int＝Z_w+round(w_float/S_w)

反量化单元302用于利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alpha_int反量化为浮点型概率alpha_float：

alpha_float＝S_alpha×(alpha_int-Z_alpha)

实施例3

图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的图像处理方法。图4显示的电子设备3仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备3可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备3的组件可以包括但不限于：上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。

总线6包括数据总线、地址总线和控制总线。

存储器5可以包括易失性存储器，例如随机存取存储器(RAM)51和/或高速缓存存储器52，还可以进一步包括只读存储器(ROM)53。

存储器5还可以包括具有一组(至少一个)程序模块54的程序/实用工具55，这样的程序模块54包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器4通过运行存储在存储器5中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的图像处理方法。

电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且，模型生成的设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器9通过总线6与模型生成的设备3的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备3使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的图像处理方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的图像处理方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

其中，所述概率数组中包括所述图像中每个像素点为前景人像的概率；

所述深度神经网络模型包括：

特征提取模块，用于提取图像特征；

2.如权利要求1所述的图像处理方法，其特征在于，所述图像处理方法还包括：

3.如权利要求1所述的图像处理方法，其特征在于，所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数，所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。

4.如权利要求1-3中任一项所述的图像处理方法，其特征在于，

利用以下公式对深度神经网络模型中每一层网络的输出o_float和权重w_float进行整型量化：

o_int＝Z_o+round(o_float/S_o)

w_int＝Z_w+round(w_float/S_w)

alpha_float＝S_alpha×(alpha_int-Z_alpha)

5.一种图像处理系统，其特征在于，包括：

所述深度神经网络模型包括：

特征提取模块，用于提取图像特征；

6.如权利要求5所述的图像处理系统，其特征在于，所述图像处理系统还包括：

7.如权利要求5所述的图像处理系统，其特征在于，所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数，所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。

8.如权利要求5-7中任一项所述的图像处理系统，其特征在于，所述图像处理系统包括量化单元，用于利用以下公式对深度神经网络模型中每一层网络的输出o_float和权重w_float进行整型量化：

o_int＝Z_o+round(o_float/S_o)

w_int＝Z_w+round(w_float/S_w)

alpha_float＝S_alpha×(alpha_int-Z_alpha)

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的图像处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的图像处理方法。