CN111723934B - 图像处理方法及系统、电子设备及存储介质 - Google Patents
图像处理方法及系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111723934B CN111723934B CN202010591546.4A CN202010591546A CN111723934B CN 111723934 B CN111723934 B CN 111723934B CN 202010591546 A CN202010591546 A CN 202010591546A CN 111723934 B CN111723934 B CN 111723934B
- Authority
- CN
- China
- Prior art keywords
- integer
- alpha
- image
- probability
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000013139 quantization Methods 0.000 claims abstract description 90
- 238000003062 neural network model Methods 0.000 claims abstract description 64
- 238000007667 floating Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims 4
- 238000000034 method Methods 0.000 abstract description 15
- 230000008569 process Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 10
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像处理方法及系统、电子设备及存储介质,图像处理方法包括:将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型;其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型;将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组;其中,所述概率数组中包括所述图像中每个像素点为前景人像的概率。本发明通过将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型,其中,深度神经网络模型中每一层网络的输出和权重均被量化为整型,保证了深度神经网络模型计算前景人像概率的过程中全程整数运算,与现有技术中进行浮点运算相比,节省了带宽,减少了延时,降低了功耗。
Description
技术领域
本发明涉及图像处理领域,特别涉及一种图像处理方法及系统、电子设备及存储介质。
背景技术
人像背景替换技术,本质上是一个人像抠图任务加上一个人像背景融合任务。具体而言,从含有人像的自然图像或者视频中精确地估计出前景人像,并将其与预置的背景图片无缝地融合起来。
人像抠图属于抠图(image matting)任务,其本质上属于像素级回归任务,可以用以下公式表示:
Ii=αiFi+(1-αi)Bi,αi∈[0,1]
其中,第i个像素点的值Ii是由前景点Fi和背景点Bi按上式加权而成的,αi为前景透明度,描述了该像素属于前景人像的概率,也就是要求解的“alpha matte”矩阵。但是,对于每个像素点(R,G,B),有3个已知量,7个未知量,这是一个高度不适定的(highly ill-posed)问题,求解是非常困难的。
传统的方法例如Closed-Form Matting、Shared Matting、KNN Matting等引入三分图(trimap)作为约束,它将图像划分为3个区域,分别为确定前景、确定背景和不确定区域,解决了上述困难求解的问题,提高了抠图的效果。但是三分图制作需要用户提供,抠图的任务无法自动完成,需要人工交互,从而限制了它的应用,特别是一些对实时性有要求的应用,例如实时人像背景替换。
随着大数据的发展以及大规模硬件加速设备的出现,深度学习获得了空前的发展,物体分类、目标检测以及语义分割的精度得到了极大地改善。通过将深度语义分割集成到抠图技术,实现了端到端的自动人像抠图,无需人工交互。一种现有做法是先通过语义分割网络生成二分类的前景背景图,处理成三分图或者直接生成三分图,将三分图与原RGB图合并通道输入进行图像的精细抠图。另一种现有做法是将抠图看作是一个语义软分割的问题,具体从谱分解角度处理语义软分割的问题,将来自输入图像的纹理和颜色信息与经过场景分析训练的卷积神经网络生成的高级语义线索相结合,设计一个图形结构,在响应的拉普拉斯矩阵的特征向量中揭示语义对象以及他们之间的软转换。
现有技术中提供的上述抠图方案要么需要人工交互,不能自动完成,要么都是浮点网络模型,计算量大、内存消耗严重,只能运行在云端服务器或者桌面端。对于诸如手机端、边缘设备端等,这些方案都受到内存、功耗、速度等的限制而无法使用。另外,不同于分类问题,人像背景替换的抠图需要精准地回归出一个alpha,对量化精度损失非常敏感,若直接从现有浮点模型到定点模型转换,会出现严重的量化精度损失,产生明显的视觉瑕疵,例如会在alpha图边缘出现严重的量化锯齿或者量化波纹。
发明内容
本发明要解决的技术问题是为了克服现有技术中的上述缺陷,提供一种图像处理方法及系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明的第一方面提供一种图像处理方法,包括:
将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型;其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型;
将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组,以实现人像抠图;
其中,所述概率数组中包括所述图像中每个像素点为前景人像的概率。
较佳地,所述图像处理方法还包括:
根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起,以实现人像背景替换。
较佳地,所述深度神经网络模型包括:
特征提取模块,用于提取图像特征;
ASPP(Atrous Spatial Pyramid Pooling,空洞空间卷积池化金字塔)模块,用于根据提取的图像特征以不同采样率的空洞卷积并行采样,以捕捉图像的上下文;
解码模块,用于根据图像的上下文以及所述提取的图像特征恢复空间分辨率,并进行分类处理得到前景人像和背景分割的结果;
人像抠图模块,用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割,得到所述像素点为前景人像的概率。
较佳地,所述深度神经网络模型中每个模块使用的卷积(convolution)和深度可分离卷积(depth wise convolution)都采用带边界的激活函数,所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。
较佳地,利用以下公式对深度神经网络模型中每一层网络的输出ofloat和权重wfloat进行整型量化:
oint=Zo+round(ofloat/So)
wint=Zw+round(wfloat/Sw)
其中,oint为整型输出,So为与输出o对应的正实数量化参数,Zo为与输出o对应的整型量化参数,wint为整型权重,Sw为与权重w对应的正实数量化参数,Zw为与权重w对应的整型量化参数;
利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alphaint反量化为浮点型概率alphafloat:
alphafloat=Salpha×(alphaint-Zalpha)
其中,Salpha为与概率alpha对应的正实数量化参数,Zalpha为与概率alpha对应的整型量化参数。
本发明的第二方面提供一种图像处理系统,包括:
输入单元,用于将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型;其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型;
以及反量化单元,用于将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组,以实现人像抠图;
其中,所述概率数组中包括所述图像中每个像素点为前景人像的概率。
较佳地,所述图像处理系统还包括:
融合单元,用于根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起,以实现人像背景替换。
较佳地,所述深度神经网络模型包括:
特征提取模块,用于提取图像特征;
ASPP模块,用于根据提取的图像特征以不同采样率的空洞卷积并行采样,以捕捉图像的上下文;
解码模块,用于根据图像的上下文以及所述提取的图像特征恢复空间分辨率,并进行分类处理得到前景人像和背景分割的结果;
人像抠图模块,用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割,得到所述像素点为前景人像的概率。
较佳地,所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数,所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。
较佳地,所述图像处理系统包括量化单元,用于利用以下公式对深度神经网络模型中每一层网络的输出ofloat和权重wfloat进行整型量化:
oint=Zo+round(ofloat/So)
wint=Zw+round(wfloat/Sw)
其中,oint为整型输出,So为与输出o对应的正实数量化参数,Zo为与输出o对应的整型量化参数,wint为整型权重,Sw为与权重w对应的正实数量化参数,Zw为与权重w对应的整型量化参数;
所述反量化单元用于利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alphaint反量化为浮点型概率alphafloat:
alphafloat=Salpha×(alphaint-Zalpha)
其中,Salpha为与概率alpha对应的正实数量化参数,Zalpha为与概率alpha对应的整型量化参数。
本发明的第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的图像处理方法。
本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的图像处理方法。
本发明的积极进步效果在于:通过将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型,其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型,保证了深度神经网络模型计算前景人像概率的过程中全程整数运算,与现有技术中进行浮点运算相比,节省了带宽,减少了延时,降低了功耗。
附图说明
图1为本发明实施例1提供的图像处理方法的流程图。
图2为本发明实施例1提供的深度神经网络模型的内部结构示意图。
图3为本发明实施例2提供的图像处理系统的结构示意图。
图4为本发明实施例3提供的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种图像处理方法,如图1所示,包括:
步骤S101、将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型;其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型。
其中,上述图像可以为一张静态图片,也可以为动态视频中的某一视频帧。需要说明的是,像素点的RGB值为整型int,在一个例子中,某个像素点的RGB值为(220,54,255)。在步骤S101的具体实施中,图像中所有像素点的RGB值以矩阵的形式输入至经过整型量化的深度神经网络模型中。
在可选的一种实施方式中,如图2所示,所述深度神经网络模型具体包括特征提取模块、ASPP模块、解码模块以及人像抠图模块。
特征提取模块也称为编码encoder模块,用于提取图像多尺度的特征。具体实施中,特征提取模块采用轻量化设计,即采用深度可分离卷积网络,主要结构为带有SE(Squeeze and excite)模块的逆残差线性瓶颈结构。
ASPP模块用于根据提取的图像特征以不同采样率的空洞卷积并行采样,以多个比例捕捉图像的上下文。在ASPP模块的具体实施中引入注意力Attention机制,能够更有利于图像特征的筛选,使得任务主要关注重点特征,忽略不重要特征,从而提高任务效率。
解码模块也称为refine decoder模块,用于根据图像的上下文以及所述提取的图像特征恢复在特征提取模块中因下采样而丢失的空间分辨率,并进行分类处理得到前景人像和背景分割的结果。在解码模块中,允许信息从科员推理出低级特征(例如颜色和边缘)的网络早期阶段轻易流向可以推理出高级特征(例如面部和身体)的网络后期阶段,这些阶段的结合对于准确地识别哪些像素点为前景人像有着重要的作用。
人像抠图模块也称为人像matting模块,用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割,得到所述像素点为前景人像的概率。在人像抠图模块的具体实施中,使用类似于稠密层(dense layer)的模块在全尺寸上做进一步的精细软分割,改善人像边缘。
为了有效地限制深度神经网络模型中特征层和输出层的数据范围,避免后续量化阶段出现严重的精度损失,在可选的一种实施方式中,上述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数,例如RELU6(Rectified LinearUnit,线性整流函数)、hard_sigmoid、hard_swish等,上述特征提取模块、ASPP模块以及解码模块中的最后一层均为批量归一化层,即batchnorm层。
整型量化前的深度神经网络模型为浮点网络模型,在训练浮点网络模型可选的一种实施方式中,通过使用大量标注好的训练数据对浮点网络模型进行训练,并在训练后期使用困难样本发掘技术,解决了人像边缘样本不均衡的问题,进一步改善了人像边缘分割的精度。在具体实施中,通过从网络收集大量包括人像的图像,并使用专门的标注工具获得前景人像alpha的基准数据。为了进一步增加的样本数量,可以采用组合数据的方法获得更多的训练数据。
其中,训练上述浮点网络模型的过程中需要考虑分割损失和抠图损失,即浮点网络模型的损失为分割损失和抠图损失之和,具体地,分割损失采用多分类交叉熵,监督人像语义分割部分的网络优化;抠图损失采用平滑的L1损失,监督人像matting部分的网络优化。
在一个例子中,训练网络采用adam优化器,初始学习速率0.001,大约训练了200个Epoch之后,开始采用困难样本挖掘技术,即对像素级分类误差做排序,按一定的像素点比例仅考虑损失比较大的像素点做反传梯度优化,训练400个Epoch之后,训练结束,选择验证集上表现最好的模型作为最终的浮点网络模型。其中,1个Epoch即为将所有训练数据训练一次的过程。
步骤S102、将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组,以实现人像抠图;其中,所述概率数组中包括所述图像中每个像素点为前景人像的概率。
本实施方式中,将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型,其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型,保证了深度神经网络模型中计算前景人像概率的过程中全程整数运算,与现有技术中进行浮点运算相比,节省了带宽,减少了延时,降低了功耗,从而能够方便用户在手机端、边缘设备端等使用。
在对上述训练好的浮点网络模型进行整型量化可选的一种实施方式中,通过仿射逆变换(affine inverse mapping)对浮点网络模型中的参数例如每一层网络的输出和权重进行整型量化,以及在得到整型量化后的深度神经网络模型输出的整型概率数组之后通过仿射变换(affine mapping)将其反量化为浮点型概率数组。
具体地,利用以下仿射逆变换的公式对深度神经网络模型中每一层网络的输出ofloat和权重wfloat进行整型量化,以得到整型量化后的深度神经网络模型:
oint=Zo+round(ofloat/So)
wint=Zw+round(wfloat/Sw)
其中,round()表示返回四舍五入取整,oint为整型输出,So为与输出o对应的正实数量化参数,Zo为与输出o对应的整型量化参数,wint为整型权重,Sw为与权重w对应的正实数量化参数,Zw为与权重w对应的整型量化参数。
需要说明的是,深度神经网络模型中每一层网络的输出和权重均为数组,包括多个元素,即需要利用上述公式对数组中的每个元素都进行整型量化,以得到整型量化后的深度神经网络模型。
利用以下仿射变换的公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alphaint反量化为浮点型概率alphafloat:
alphafloat=Salpha×(alphaint-Zalpha)
其中,Salpha为与概率alpha对应的正实数量化参数,Zalpha为与概率alpha对应的整型量化参数。需要说明的是,需要利用上述公式对整型概率数组中的每个元素即每个整型概率都进行反量化,以得到浮点型概率数组。
在具体实施中,将事先标注好的校准数据集输入至上述训练好的浮点网络模型中,通过统计张量tensor的最小值和最大值来确定与第i层网络的输出oi对应的正实数量化参数Soi、与第i层网络的输出输出oi对应的整型量化参数Zoi、与第i层网络的权重wi对应的正实数量化参数Swi、与第i层网络的权重wi对应的整型量化参数Zwi、与概率alpha对应的正实数量化参数Salpha以及与概率alpha对应的整型量化参数Zalpha。本实施方式中将浮点型量化为8bit的整型,计算量化参数的具体公式如下:
Soi=(ofloat-maxi-ofloat-mini)/(oint-max-i-oint-mini)=(ofloat-maxi-ofloat-mini)/(255-0);
Zoi=oint-mini+round(-ofloat-mini/So)=0+round(-ofloat-mini/So)
Swi=(wfloat-maxi-wfloat-mini)/(wint-maxi-wint-mini)=(wfloat-maxi-wfloat-mini)/(255-0);
Zwi=wint-mini+round(-wfloat-mini/Swi)=0+round(-wfloat-mini/Swi)
Salpha=(alphafloat-max-alphafloat-min)/(alphaint-max-alphaint-min)=(alphafloat-max-alphafloat-min)/(255-0);
Zalpha=alphaint-min+round(-alphafloat-min/Salpha)=0+round(-alphafloat-min/Salpha)
其中,ofloat-maxi为将校准数据集输入至浮点网络模型中第i层网络的输出的最大值,ofloat-mini为将校准数据集输入至浮点网络模型中第i层网络的输出的最小值,wfloat-maxi为将校准数据集输入至浮点网络模型中第i层网络的最大权重,wfloat-mini为将校准数据集输入至浮点网络模型中第i层网络的最小权重,alphafloat-max为将校准数据集输入至浮点网络模型中输出的最大概率,alphafloat-min将校准数据集输入至浮点网络模型中输出的最小概率。
上述量化精度受到由最小值min和最大值max得到的正实数量化参数S的显著影响,而正实数量化参数S是由校准数据集中数据的统计范围(min,max)决定的,在可选的一种实施方式中,通过调整值域例如剔除小概率数据的方法来更准确地量化。也就是,校准数据集中数据的统计范围越小,量化的精度会越高,相反,校准数据集中数据的统计范围越大,量化精度越低。
在可选的一种实施方式中,如图1所示,步骤S102之后还包括:
步骤S103、根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起,以实现人像背景替换。本实施方式适用于一些需要进行人像背景替换的场景中,例如将网络会议中所有参与方的人像背景统一替换为包括公司名称的背景图片。
步骤S103的具体实施中,根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片线性融合在一起,具体可以采用现有技术中的融合算法。
实施例2
本实施例提供一种图像处理系统300,如图3所示,包括输入单元301和反量化单元302。
输入单元301用于将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型;其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型。
反量化单元302用于将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组,以实现人像抠图,其中,所述概率数组中包括为所述图像中每个像素点为前景人像的概率。
在可选的一种实施方式中,图像处理系统还包括融合单元,用于根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起,以实现人像背景替换。
在可选的一种实施方式中,所述深度神经网络模型包括:
特征提取模块,用于提取图像特征;
ASPP模块,用于根据提取的图像特征以不同采样率的空洞卷积并行采样,以捕捉图像的上下文;
解码模块,用于根据图像的上下文以及所述提取的图像特征恢复空间分辨率,并进行分类处理得到前景人像和背景分割的结果;
人像抠图模块,用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割,得到所述像素点为前景人像的概率。
在可选的一种实施方式中,所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数,所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。
在可选的一种实施方式中,如图3所示,图像处理系统300还包括量化单元303,用于利用以下公式对深度神经网络模型中每一层网络的输出ofloat和权重wfloat进行整型量化:
oint=Zo+round(ofloat/So)
wint=Zw+round(wfloat/Sw)
其中,oint为整型输出,So为与输出o对应的正实数量化参数,Zo为与输出o对应的整型量化参数,wint为整型权重,Sw为与权重w对应的正实数量化参数,Zw为与权重w对应的整型量化参数;
反量化单元302用于利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alphaint反量化为浮点型概率alphafloat:
alphafloat=Salpha×(alphaint-Zalpha)
其中,Salpha为与概率alpha对应的正实数量化参数,Zalpha为与概率alpha对应的整型量化参数。
实施例3
图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的图像处理方法。图4显示的电子设备3仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备3可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备3的组件可以包括但不限于:上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。
总线6包括数据总线、地址总线和控制总线。
存储器5可以包括易失性存储器,例如随机存取存储器(RAM)51和/或高速缓存存储器52,还可以进一步包括只读存储器(ROM)53。
存储器5还可以包括具有一组(至少一个)程序模块54的程序/实用工具55,这样的程序模块54包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器4通过运行存储在存储器5中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的图像处理方法。
电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且,模型生成的设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器9通过总线6与模型生成的设备3的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备3使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的图像处理方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的图像处理方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型;其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型;
将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组,以实现人像抠图;
其中,所述概率数组中包括所述图像中每个像素点为前景人像的概率;
所述深度神经网络模型包括:
特征提取模块,用于提取图像特征;
ASPP模块,用于根据提取的图像特征以不同采样率的空洞卷积并行采样,以捕捉图像的上下文;
解码模块,用于根据图像的上下文以及所述提取的图像特征恢复空间分辨率,并进行分类处理得到前景人像和背景分割的结果;
人像抠图模块,用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割,得到所述像素点为前景人像的概率。
2.如权利要求1所述的图像处理方法,其特征在于,所述图像处理方法还包括:
根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起,以实现人像背景替换。
3.如权利要求1所述的图像处理方法,其特征在于,所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数,所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。
4.如权利要求1-3中任一项所述的图像处理方法,其特征在于,
利用以下公式对深度神经网络模型中每一层网络的输出ofloat和权重wfloat进行整型量化:
oint=Zo+round(ofloat/So)
wint=Zw+round(wfloat/Sw)
其中,oint为整型输出,So为与输出o对应的正实数量化参数,Zo为与输出o对应的整型量化参数,wint为整型权重,Sw为与权重w对应的正实数量化参数,Zw为与权重w对应的整型量化参数;
利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alphaint反量化为浮点型概率alphafloat:
alphafloat=Salpha×(alphaint-Zalpha)
其中,Salpha为与概率alpha对应的正实数量化参数,Zalpha为与概率alpha对应的整型量化参数。
5.一种图像处理系统,其特征在于,包括:
输入单元,用于将图像中所有像素点的RGB值输入至经过整型量化的深度神经网络模型;其中,所述深度神经网络模型中每一层网络的输出和权重均被量化为整型;
以及反量化单元,用于将所述深度神经网络模型输出的整型概率数组反量化为浮点型概率数组,以实现人像抠图;
其中,所述概率数组中包括所述图像中每个像素点为前景人像的概率;
所述深度神经网络模型包括:
特征提取模块,用于提取图像特征;
ASPP模块,用于根据提取的图像特征以不同采样率的空洞卷积并行采样,以捕捉图像的上下文;
解码模块,用于根据图像的上下文以及所述提取的图像特征恢复空间分辨率,并进行分类处理得到前景人像和背景分割的结果;
人像抠图模块,用于根据所述像素点的RGB值与所述前景人像和背景分割的结果做进一步分割,得到所述像素点为前景人像的概率。
6.如权利要求5所述的图像处理系统,其特征在于,所述图像处理系统还包括:
融合单元,用于根据所述浮点型概率数组将从所述图像中分离出的前景人像与预置的背景图片融合在一起,以实现人像背景替换。
7.如权利要求5所述的图像处理系统,其特征在于,所述深度神经网络模型中每个模块使用的卷积和深度可分离卷积都采用带边界的激活函数,所述特征提取模块、所述ASPP模块以及所述解码模块中的最后一层均为批量归一化层。
8.如权利要求5-7中任一项所述的图像处理系统,其特征在于,所述图像处理系统包括量化单元,用于利用以下公式对深度神经网络模型中每一层网络的输出ofloat和权重wfloat进行整型量化:
oint=Zo+round(ofloat/So)
wint=Zw+round(wfloat/Sw)
其中,oint为整型输出,So为与输出o对应的正实数量化参数,Zo为与输出o对应的整型量化参数,wint为整型权重,Sw为与权重w对应的正实数量化参数,Zw为与权重w对应的整型量化参数;
所述反量化单元用于利用以下公式将经过整型量化的深度神经网络模型输出的整型概率数组中的整型概率alphaint反量化为浮点型概率alphafloat:
alphafloat=Salpha×(alphaint-Zalpha)
其中,Salpha为与概率alpha对应的正实数量化参数,Zalpha为与概率alpha对应的整型量化参数。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的图像处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591546.4A CN111723934B (zh) | 2020-06-24 | 2020-06-24 | 图像处理方法及系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591546.4A CN111723934B (zh) | 2020-06-24 | 2020-06-24 | 图像处理方法及系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723934A CN111723934A (zh) | 2020-09-29 |
CN111723934B true CN111723934B (zh) | 2022-11-01 |
Family
ID=72568882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010591546.4A Active CN111723934B (zh) | 2020-06-24 | 2020-06-24 | 图像处理方法及系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723934B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287986B (zh) * | 2020-10-16 | 2023-07-18 | 浪潮(北京)电子信息产业有限公司 | 一种图像处理方法、装置、设备及可读存储介质 |
EP4258174A1 (en) * | 2022-04-07 | 2023-10-11 | Aptiv Technologies Limited | Methods and systems for determining a representative input data set for post-training quantization of artificial neural networks |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018128741A1 (en) * | 2017-01-06 | 2018-07-12 | Board Of Regents, The University Of Texas System | Segmenting generic foreground objects in images and videos |
CN110929838B (zh) * | 2018-09-19 | 2023-09-26 | 杭州海康威视数字技术股份有限公司 | 神经网络中位宽定点化方法、装置、终端和存储介质 |
CN109902745A (zh) * | 2019-03-01 | 2019-06-18 | 成都康乔电子有限责任公司 | 一种基于cnn的低精度训练与8位整型量化推理方法 |
CN110135580B (zh) * | 2019-04-26 | 2021-03-26 | 华中科技大学 | 一种卷积网络全整型量化方法及其应用方法 |
CN111178211B (zh) * | 2019-12-20 | 2024-01-12 | 天津极豪科技有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-06-24 CN CN202010591546.4A patent/CN111723934B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111723934A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN111340738B (zh) | 一种基于多尺度渐进融合的图像去雨方法 | |
CN111489372B (zh) | 基于级联卷积神经网络的视频前背景分离方法 | |
CN112001914A (zh) | 深度图像补全的方法和装置 | |
Zhou et al. | FSAD-Net: feedback spatial attention dehazing network | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN114973049B (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
CN111369565A (zh) | 一种基于图卷积网络的数字病理图像的分割与分类方法 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CA3137297C (en) | Adaptive convolutions in neural networks | |
CN111723934B (zh) | 图像处理方法及系统、电子设备及存储介质 | |
CN112581409A (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN112115744B (zh) | 点云数据的处理方法及装置、计算机存储介质、电子设备 | |
WO2023082453A1 (zh) | 一种图像处理方法及装置 | |
CN112883231B (zh) | 短视频流行度预测方法、系统、电子设备及存储介质 | |
CN112990331A (zh) | 图像处理方法、电子设备和存储介质 | |
CN114299088A (zh) | 图像处理方法及装置 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
Su et al. | Physical model and image translation fused network for single-image dehazing | |
Zhou et al. | Sparse representation with enhanced nonlocal self-similarity for image denoising | |
WO2024099026A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
WO2023174256A1 (zh) | 一种数据压缩方法以及相关设备 | |
CN116664694A (zh) | 图像亮度获取模型的训练方法、图像获取方法及移动终端 | |
Zhuang et al. | Dimensional transformation mixer for ultra-high-definition industrial camera dehazing | |
CN114979801A (zh) | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |