CN117011156A - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117011156A CN117011156A CN202211029204.9A CN202211029204A CN117011156A CN 117011156 A CN117011156 A CN 117011156A CN 202211029204 A CN202211029204 A CN 202211029204A CN 117011156 A CN117011156 A CN 117011156A
- Authority
- CN
- China
- Prior art keywords
- image
- repair
- mask template
- initial
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 230000008439 repair process Effects 0.000 claims abstract description 289
- 238000012545 processing Methods 0.000 claims abstract description 181
- 230000000877 morphologic effect Effects 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 126
- 238000000034 method Methods 0.000 claims description 88
- 238000012549 training Methods 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 19
- 230000003287 optical effect Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 16
- 235000017274 Diospyros sandwicensis Nutrition 0.000 description 15
- 241000282838 Lama Species 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000011282 treatment Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008602 contraction Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005429 filling process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20056—Discrete and fast Fourier transform, [DFT, FFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请提供一种图像处理方法、装置、设备及存储介质,对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得待处理图像,第一类对象为待修复的图像元素;对待处理图像中第一类对象进行修复处理,获得第一修复图像,基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板;当图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的模糊区域进行形态学处理,获得图像目标掩膜模板;当图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;基于第二修复图像,确定待处理图像对应的目标修复图像。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
随着科技的发展,越来越多的应用程序支持视频播放,播放的视频是经过处理后的,为了保证视频处理的准确性,而提出视频填充技术,其中,视频填充是对视频中的视频帧图像进行处理。
目前,视频填充技术包括:基于光流的方式和基于神经网络模型的方式。
基于光流进行视频帧图像处理时,使用相邻视频帧图像进行光流估计,应用光流将未遮掩区域的像素梯度传播至遮掩区域,以对遮掩区域进行光流填充,完成对视频帧图像的填充;但是基于光流的方式仅适用于背景进行简单移动的情况下,并不适用于出现对象遮挡以及背景发生复杂运动的情况。
基于神经网络模型进行视频帧图像处理时,神经网络模型为单个模型,可在背景发生复杂运动的情况下,较好的参考像素传播效果,对视频帧图像进行填充处理。但单个模型的生成能力有限,对于纹理复杂、对象遮挡的情况,填充内容模糊,无法保证视频帧图像的图像质量。
因此,如何在出现对象遮挡、纹理复杂的情况下,保证图像处理的准确性,进一步提升处理后的视频帧图像的图像质量是目前需要解决的技术问题。
发明内容
本申请提供一种图像处理方法、装置、设备及存储介质,用以保证图像处理的准确性,提升处理后的视频帧图像的图像质量。
第一方面,本申请实施例提供一种图像处理方法,该方法包括:
对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像;第一类对象为待修复的图像元素;
对待处理图像中第一类对象进行修复处理,获得第一修复图像,并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板;
当图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板;
当图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;
基于第二修复图像,确定待处理图像对应的目标修复图像。
第二方面,本申请实施例提供一种图像处理装置,该装置包括:
第一处理单元,用于对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像;第一类对象为待修复的图像元素;
第二处理单元,用于对待处理图像中第一类对象进行修复处理,获得第一修复图像,并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板;
第三处理单元,用于当图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板;
第四处理单元,用于当图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;
确定单元,用于基于第二修复图像,确定待处理图像对应的目标修复图像。
在一种可能的实现方式中,第二处理单元具体用于:
将包含待处理图像的视频序列,输入已训练的信息传播模型;
在已训练的信息传播模型中,基于视频序列中其他视频帧图像中的图像元素,对待处理图像中第一类对象进行修复处理,获得第一修复图像,并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板。
在一种可能的实现方式中,第二处理单元具体用于:
将对象初始掩膜模板,输入已训练的信息传播模型,其中,对象初始掩膜模板是对视频帧图像中包含的第二类对象进行识别后确定的,第二类对象为需保留的图像元素;
在已训练的信息传播模型中,对对象初始掩膜模板中的第二类对象进行对象轮廓补全处理,获得对象目标掩膜模板。
在一种可能的实现方式中,确定单元具体用于:
将对象初始掩膜模板与对象目标掩膜模板进行对比,获得第一对比结果,其中,第一对比结果用于表征第二类对象的轮廓是否一致;
基于第一对比结果,对第二修复图像进行处理,获得目标修复图像。
在一种可能的实现方式中,确定单元具体用于:
若第一对比结果表征第二类对象轮廓不一致,则在第二修复图像中,对第二类对象对应的像素区域进行修复处理,获得第三修复图像,并将第三修复图像作为目标修复图像;
若第一对比结果表征第二对象轮对一致,则将第二修复图像作为目标修复图像。
在一种可能的实现方式中,已训练的信息传播模型是通过如下方式训练获得的:
根据训练样本数据集中的训练样本,对待训练的信息传播模型执行循环迭代训练,获得已训练的信息传播模型,其中,在一次循环迭代过程中执行以下操作:
从训练样本数据集中选取训练样本;其中,训练样本为:针对待修复的图像元素进行掩膜处理后的历史图像,以及历史图像中需保留的图像元素对应的对象历史掩膜模板;
将训练样本输入信息传播模型,预测历史图像对应的预测修复图像,并基于预测修复图像中不满足图像质量的预测模糊区域,生成图像预测掩膜模板,以及对象历史掩膜模板对应的对象预测掩膜模板;
采用基于预测修复图像、图像预测掩膜模板以及对象预测掩膜模板构建的目标损失函数,对信息传播模型进行参数调整。
在一种可能的实现方式中,训练样本中还包括:历史图像对应的实际修复图像,与对象历史掩膜模板对应的对象实际掩膜模板;
则目标损失函数是采用以下方式构建的:
基于预测修复图像和实际修复图像构建第一类损失函数,基于图像预测掩膜模板和图像中间掩膜模板构建第二类损失函数,以及基于对象预测掩膜模板和对象实际掩膜模板构建第三类损失函数,其中,图像中间掩膜模板,是基于预测修复图像和实际修复图像确定的;
基于第一类损失函数、第二类损失函数,以及第三类损失函数构建目标损失函数。
在一种可能的实现方式中,第一类损失函数是通过如下方式确定的:
基于预测修复图像和实际修复图像之间的图像差异像素值,确定第一子损失函数;
基于预测修复图像和实际修复图像的第二对比结果,确定第二子损失函数,其中,第二对比结果用于表征预测修复图像和实际修复图像是否一致;
基于第一子损失函数和第二子损失函数,确定第一类损失函数。
在一种可能的实现方式中,第二类损失函数是通过如下方式确定的:
基于图像预测掩膜模板和图像中间掩膜模板之间的掩膜差异像素值,确定第三子损失函数,并将第三子损失函数作为第二类损失函数。
在一种可能的实现方式中,第三类损失函数是通过如下方式确定的:
基于对象预测掩膜模板和历史对象实际掩膜模板之间的对象差异像素值,确定第四子损失函数;
基于对象预测掩膜模板和历史对象实际掩膜模板之间的相似度,确定第五子损失函数;
基于第四子损失函数和第五子损失函数,确定第三类损失函数。
在一种可能的实现方式中,第二处理单元生成相应的图像初始掩膜模板后,还用于:
当图像初始掩膜模板包含的初始模糊像素的第一数量小于第一阈值时,将第一修复图像作为待处理图像对应的目标修复图像。
在一种可能的实现方式中,第三处理单元获得图像目标掩膜模板后,还用于:
当图像目标掩膜模板包含的中间模糊像素的第二数量小于第二阈值时,将第一修复图像作为待处理图像对应的目标修复图像。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,其中,存储器,用于存储计算机指令;处理器,用于执行计算机指令以实现本申请实施例提供的图像处理方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的图像处理方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,其包括计算机指令,计算机指令存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取计算机指令时,处理器执行计算机指令,使得电子设备执行本申请实施例提供的图像处理方法的步骤。
本申请有益效果如下:
本申请实施例提供一种图像处理方法、装置、设备及存储介质,涉及人工智能领域,尤其涉及图像处理技术领域。本申请实施例中,对获得的第一修复图像进一步检测,并生成相应的图像初始掩膜模板;并在确定图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的模糊区域进行形态学处理,获得图像目标掩膜模板;接着,确定图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;最后,基于第二修复图像,确定待处理图像对应的目标修复图像。对第一修复图像中模糊区域进行修复处理,即对第一修复图像中质量不高的区域进行增强处理;因此提升了第二修复图像的图像质量,进一步保证目标修复图像的图像质量。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术中第一种图像处理示意图;
图2为相关技术中第二种图像处理示意图;
图3为本申请实施例提供的一种应用场景示意图;
图4为本申请实施例提供的一种图像处理方法流程图;
图5为本申请实施例提供的一种对第一类对象进行填充处理的示意图;
图6为本申请实施例提供的第一种图像处理示意图;
图7为本申请实施例提供的第二种图像处理示意图;
图8为本申请实施例提供的第三种图像处理示意图;
图9为本申请实施例提供的一种对初始模糊区域进行形态学处理的示意图;
图10为本申请实施例中一种对中间模糊像素对应的像素区域进行修复处理的示意图;
图11为本申请实施例提供的另一种图像处理方法流程图;
图12为本申请实施例提供的一种图像处理具体实施方法流程图;
图13为本申请实施例提供的一种图像处理具体实施方法示意图;
图14为本申请实施例提供的一种信息传播模型的训练方法流程图;
图15为本申请实施例提供的一种图像处理装置结构图;
图16为本申请实施例提供的一种电子设备结构图;
图17为本申请实施例提供的另一种电子设备结构图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于本领域技术人员更好地理解本申请的技术方案,下面对本申请涉及的部分概念进行介绍。
视频修复(Video Inpainting)是利用视频中未被遮挡的区域信息对被遮掩的区域进行修复的技术,即采用未被遮挡的区域信息对被遮挡的区域进行合理填充。视频修复需要具备两种能力,一种是利用时域信息的能力,该能力将某一帧的可用像素传播到其他帧的相应区域;另一种是生成能力,若其他帧没有可用像素,则需要借助空间和时域上的信息,对相应区域进行像素生成。
视觉识别系统(Visual Identity System,VIS)用于预先识别图像中的对象对应的掩膜模板。
掩膜模板:用选定的图像、图形或物体,对待处理的图像的全部或局部进行遮挡,来控制图像处理的区域或处理过程。用于覆盖的特定图像或物体称为掩膜模板。光学图像处理中,掩膜模板可以足胶片、滤光片等。数字图像处理中,掩膜模板为二维矩阵数组,有时也用多值图像。数字图像处理中,图像掩膜模板主要用于:1、提取感兴趣区,用预先制作的感兴趣区掩膜模板与待处理图像相乘,得到感兴趣区图像,感兴趣区内图像值保持不变,而区外图像值都为0;2、屏蔽作用,用掩膜模板对图像上某些区域作屏蔽,使其不参加处理或不参加处理参数的计算,或仅对屏蔽区作处理或统计;3、结构特征提取,用相似性变量或图像匹配方法检测和提取图像中与掩模相似的结构特征;4、特殊形状图像的制作。
形态学处理:用于从图像中提取对表达和描述区域形状有意义的图像分量,使后续的识别工作能够抓住目标对象最为本质的形状特征。形态学处理中包括但不限于:扩张和腐蚀、开运算和闭运算、灰度图像的形态学。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
下面对本申请实施例的设计思想进行简要介绍:
随着科技的发展,越来越多的应用程序支持视频播放,播放的视频是经过处理后的,为了保证视频处理的准确性,而提出视频修复技术,其中,视频修复是对视频中的视频帧图像进行处理。
目前,视频修复技术包括:基于光流的方式和基于神经网络模型的方式。
基于光流的方式包括如下步骤:步骤1、使用相邻帧进行光流估计;步骤2、对遮掩区域进行光流填充;步骤3、应用光流将未遮掩区域的像素梯度传播至遮掩区域;步骤4、对像素梯度进行泊松重建,生成RGB像素;步骤5、若包含图像修复模块,对光流无法填充的区域进行图像修复。
但是基于光流的视频修复方法在背景进行简单移动的情况下,修复效果较好,修复后的图像不存在图像模糊的问题,使用较好的光流估计模块,修复痕迹难以察觉。但是,当背景进行复杂移动时,或出现对象遮挡情况时,基于光流的视频修复方法,修复效果会受到很大影响,且光流估计的错误带来的错误像素会随其传播逐渐扩大,导致修复内容错误。参见图1,图1为相关技术中第一种图像处理示意图。
基于神经网络模型的方式,网络结构多为编码器-解码器结构,需要兼顾帧间一致性以及生成的像素的自然性,接收帧序列信息作为输入,经过网络处理直接输出修复好的帧。
相关技术中,基于神经网络模型的算法,在背景发生复杂运动的情况下,能够实现较好的参考像素传播效果,进行修复,修复效果较好。但目前的神经网络模型为单个模型,单个模型的生成能力有限,对于纹理复杂,对象遮挡的情况,修复效果会有较多模糊的案例,且受限于显存等原因,难以处理过高分辨率的输入。因此,对于纹理复杂,对象遮挡的情况,修复内容模糊。参见图2,图2为相关技术中第二种图像处理示意图。
可见,相关技术中的图像处理方式,受限于光流质量与模型生成质量,无论采取其中任何一种方法,当前都无法做到非常鲁棒的效果。因此,如何在出现对象遮挡、纹理复杂的情况下,保证图像处理的准确性,提升处理后的视频帧图像的图像质量是目前需要解决的技术问题。
有鉴于此,本申请实施例提供一种图像处理方法、装置、设备及存储介质,用以保证图像处理的准确性,提升处理后的视频帧的图像质量。
在本申请实施例提供的图像处理方法中,应用神经网络模型完成3中类型的视频修复;分别为:
1、视频中存在背景发生复杂运动的情况时,基于帧间像素传播模型,对视频帧图像进行修复;
2、视频中视频帧图像的纹理复杂时,基于图像修复模型,对视频帧图像中的模糊区域进行修复;
3、视频中视频帧图像存在对象遮挡的情况,基于对象修复模型,对视频帧图像中对象区域进行修复。
本申请实施例中,在确定需要对视频帧图像中的第一类对象采用其他元素修复时,即针对视频帧图像中的待修复的图像元素采用其他元素修复时:首先,对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像,同时为了确保处理过程中需要保留的第二类对象不受影响,还对视频图像中包含的第二类对象进行识别,确定相应的对象初始掩膜模板;然后,将待处理图像和对象初始掩膜模板,输入已训练的信息传播模型,通过信息传播模型对待处理图像中第一类对象进行修复处理,获得第一修复图像,此时针对待修复的图像元素修复完毕,并检测第一修复图像中不满足图像质量的初始模糊区域,基于初始模糊区域生成相应的图像初始掩膜模板,以及确定待处理图像中对象目标掩膜模板。
为了保证图像修复过程中,图像处理的准确性,在获得第一修复图像后,本申请实施例中,进一步检测第一修复图像中不满足图像质量的初始模糊区域,并生成相应的图像初始掩膜模板;并在确定图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板,以使模糊区域更加的规则;接着,确定图像目标掩膜模板包含的中间模糊像素的第二数量,当第二数量达到第二阈值时,通过图像修复模型,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像,实现对第一修复图像中模糊区域进行修复处理,即对第一修复图像中质量不高的区域进行增强;最后,确定对象初始掩膜模板与对象目标掩膜模板中第二类对象的轮廓不一致时,通过对象修复模型,在第二修复图像中,对第二修复图像中第二类对象对应的像素区域进行修复处理,获得第三修复图像,实现对遮挡对象区域进行修复处理,即对第二修复图像中质量不高的区域进行增强。
本申请实施例中,实现了对由纹理复杂、对象遮挡情况导致的修复模糊的模糊区域进行修复处理,对质量不高的区域进行增强处理,提升了目标修复图像的图像质量。
在本申请实施例中,信息传播模型、图像修复模型以及对象修复模型的部分,涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的语音技术、自然语言处理技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域获得应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言,机器学习更加注重算法的设计,让计算机能够自动地从数据中“学习”规律,并利用规律对未知数据进行预测。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参见图3,图3为本申请实施例的应用场景示意图。该应用场景中包括终端设备310和服务器320,终端设备310与服务器320之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络可以是有线网络或无线网络。因此,终端设备310和服务器320可以通过有线或无线通信方式进行直接或间接地连接。比如,终端设备310可以通过无线接入点与服务器320间接地连接,或发终端设备310通过因特网与服务器320直接地连接,本申请在此不做限制。
在本申请实施例中,终端设备310包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有各种客户端,该客户端可以是支持视频编辑、视频播放等功能的应用程序(例如浏览器、游戏软件等),也可以是网页、小程序等;
服务器320是与终端设备310中安装的客户端相对应的后台服务器。服务器320可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例中的图像处理方法可以由电子设备执行,该电子设备可以为服务器320或者终端设备310,即,该方法可以由服务器320或者终端设备310单独执行,也可以由服务器320和终端设备310共同执行。
在终端设备310单独执行时,比如,可由终端设备310获取掩膜处理后的待处理图像,对待处理图像进行修复处理,获得第一修复图像,确定第一修复图像对应的图像初始掩膜模板,在图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对图像初始掩膜模板进行处理,获得图像目标掩膜模板,在图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,对第一修复图像中的模糊位置继续进行修复处理,获得第二修复图像,最后基于第二修复图像,确定待处理图像对应的目标修复图像。
在服务器320单独执行时,比如,可由终端设备310获取视频帧图像,然后将视频帧图像发送给服务器320,服务器320对获取的视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像,对待处理图像进行修复处理,获得第一修复图像,确定第一修复图像对应的图像初始掩膜模板,在图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对图像初始掩膜模板进行处理,获得图像目标掩膜模板,在图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,对第一修复图像中的模糊位置继续进行修复处理,获得第二修复图像,最后基于第二修复图像,确定待处理图像对应的目标修复图像。
在服务器320和终端设备310共同执行时,比如,可由终端设备310获得待处理图像,并对待处理图像进行修复处理,获得第一修复图像,然后将第一修复图像发送给服务器320,由服务器320确定第一修复图像对应的图像初始掩膜模板,在图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对图像初始掩膜模板进行处理,获得图像目标掩膜模板,在图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,对第一修复图像中的模糊位置继续进行修复处理,获得第二修复图像,最后基于第二修复图像,确定待处理图像对应的目标修复图像。
需要说明的是,在下文中,主要是以服务器单独执行为例进行举例说明的,在此不做具体限定。
在具体实施中,可以在终端设备310中输入视频帧图像,终端设备310将待视频帧图像发送至服务器320,服务器320可以采用本申请实施例的图像处理方法,确定待处理图像对应的目标修复图像。
需要说明的是,图3所示只是举例说明,实际上终端设备310和服务器320的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例中,当服务器320的数量为多个时,多个服务器320可组成为一区块链,而服务器320为区块链上的节点;如本申请实施例所公开的图像处理方法,其中所涉及的修复处理的处理方式、形态学处理的处理方式等可保存于区块链上。
下面结合上述描述的应用场景,根据附图来描述本申请示例性实施方式提供的图像处理方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参见图4,图4为本申请实施例提供的一种图像处理方法流程图,包括如下步骤:
步骤S400,对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像;第一类对象为待修复的图像元素。
在对视频修复处理时,首先获取需要进行视频修复的视频序列x={xt}(t=0,1,2,...,T),以及相应的掩膜模板序列m={mt}(t=0,1,2,...,T),其中,xt表示需要进行视频修复的视频帧图像,即处理前的视频帧图像,mt表示与视频帧图像对应的掩膜模板;掩膜模板用于指示待修复的图像元素,即通过掩膜模板可确定第一类对象对应的掩膜区域。
然后,基于掩膜模板中的掩膜区域,对相应视频帧图像进行掩膜处理,获得掩膜处理后的待处理图像xmt;掩膜处理为xmt=xt·(1-mt),其中,掩膜模板mt一般为二值矩阵,“·”是逐元素相乘。因此,待处理图像中包含基于掩膜区域确定的需要进行视频修复的修复区域;需要说明的是,掩膜区域即修复区域。
图像处理主要对待处理图像的修复区域进行修复处理,即对视频帧图像xt中的掩膜区域进行修复处理,获得处理后的视频序列y={yt}(t=0,1,2,...,T),其中,yt表示修复处理后的视频帧图像。
为了保证修复处理后的视频帧图像yt相比于修复处理前的视频帧图像xt,仅在掩膜区域的图像内容不同,其他区域的图像内容在时间和空间上是自然且一致的。本申请实施例中,首先,对待处理图像中的修复区域进行修复处理,获得第一修复图像;然后,对第一修复图像进行检测,以确定第一修复图像中除修复区域外,其他区域的图像内容均与修复处理前的视频帧图像或修复处理前的待处理图像的图像内容是否相同,并确定是否需要对第一填充图像进一步填充,以获得除修复区域外,其他区域的图像内容与修复处理前的视频帧图像或修复处理前的待处理图像一致的目标填充图像。
步骤S401,对待处理图像中第一类对象进行修复处理,获得第一修复图像,并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板。
其中,图像初始掩膜模板中包含初始模糊区域,即图像初始掩膜模板为初始模糊区域的掩膜模板。
在一种可能的实现方式中,首先,将包含待处理图像的视频序列xm={xmt}(t=0,1,2,...,T),输入以训练的信息传播模型FT;接着,通过已训练的信息传播模型FT,对待处理图像中第一类对象进行修复处理,获得第一修复图像并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板mblur;最后,通过已训练的信息传播模型FT,输出第一修复图像/>和图像初始掩膜模板mblur,其中图像初始掩膜模板mblur指示了第一修复图像中修复效果不好的区域,即第一修复图像中模糊的区域。
通过已训练的信息传播模型FT,对待处理图像中第一类对象进行填充处理时:
首先,将包含待处理图像的视频序列,输入已训练的信息传播模型FT;
然后,在已训练的信息传播模型FT中,参照时域信息和空域信息,基于视频序列中包含的其他视频帧图像中的像素,对待处理图像中第一类对象进行修复处理;具体的,在包含待处理图像的相邻两帧或多帧视频帧图像中,采用其他视频帧图像中的第一像素,对待处理图像中的第二像素进行填充,其中,其他视频帧中的第一像素与待处理图像中的第二像素在视频帧图像中的位置相同。参见图5,图5为本申请实施例中一种对第一类对象进行填充处理的示意图。
基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板mblur时:
首先,按照第一修复图像的尺寸,将第一修复图像划分为多个像素块;例如第一修复图像的尺寸为7cm*7cm,那每个像素块的尺寸可以为0.7cm*0.7cm,需要说明的是,将第一修复图像划分为多个像素块的方式仅是举例说明,并不是唯一方式;
接着,确定每个像素块的分辨率,基于第一填充图像中每个像素块的分辨率,确定不满足图像质量的像素块,并将不满足图像质量的像素块作为初始模糊区域;具体的,由于分辨率越高,图像越清晰,图像质量越好,因此,本申请实施例中图像质量可以设置为分辨率阈值,当一个像素块的分辨率低于该分辨率阈值时,将该像素块作为不满足图像质量的初始模糊区域;
最后,基于初始模糊区域,对初始模糊区域进行掩膜处理,获得相应的图像初始掩膜模板mblur。
在本申请实施例中,第一类对象包括但不限于:logo移除、字幕移除、物体移除等;其中,物体可以是运动的人或物,也可以为静止的人或物。
比如,基于某平台网站的视频制作一个视频片段,但是由于从某平台上获取的视频中带有台标,影响观感,此时第一类对象为台标,并且可通过本申请实施例提供的图像处理技术将台标从视频的视频帧图像中移除,参见图6,图6为本申请实施例提供的一种图像处理示意图。
类似地,可将字幕从视频帧图像中移除,参见图7,图7为本申请实施例提供的一种图像处理示意图;或将某些运动对象,如路人、交通工具等从视频帧图像中移除,参见图8,图8为本申请实施例提供的一种图像处理示意图。
步骤S402,当图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板。
由于,图像初始掩膜模板是基于不满足图像质量的像素块确定的,且每个像素块都有自身对应的分辨率,其中,分辨率表示该像素块水平方向和垂直方向的像素个数;因此,基于每个像素块的分辨率,确定该像素块中包含的像素数量,并将图像初始掩膜模板中包含的所有不满足图像质量的像素块中包含的像素数量相加,获得图像初始掩膜模板包含的初始模糊像素的第一数量。
具体的,一个像素块的像素数量=水平方向的像素个数*垂直方向的像素个数。
在一种可能的实现方式中,当图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,说明第一修复图像中不满足图像质量的像素块较多。
但是,当第一修复图像中不满足图像质量的像素块比较分散,即初始模糊区域不集中时,即使在第一修复图像中不满足图像质量的像素块较多的情况下,第一修复图像中也不能够明显的显示出图像模糊的模糊区域,此时确定第一修复图像的修复效果达标,无需对第一修复图像进行修复处理,减少计算量。
因此,为了保证修复图像的准确性,以及减少计算量;对第一修复图像进行验证,以确定第一修复图像的修复效果是否达标是非常必要的。在此基础上,本申请实施例中,在图像初始掩膜模板中,将对初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板,以使第一修复图像中的初始模糊区域连接,且模糊区域更加的规则。
在一种可能的实现方式中,在图像初始掩膜模板中,对初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板时,采用扩张fdilate操作和腐蚀fdilate操作,对多个初始模糊区域进行先扩张后腐蚀的操作,使多个分散的初始模糊区域连接起来,并获得图像目标掩膜模板,图像目标掩膜模板为
参见图9,图9为本申请实施例提供的一种对初始模糊区域进行形态学处理的示意图。设第一修复图像中包括多个初始模糊区域,分别为A1~A8;此时,首先对初始模糊区域A1~A8分别按照设定扩张比例进行扩张,获得扩张后的初始模糊区域B1~B8,比如,将初始模糊区域A1~A8扩大10倍;然后,确定扩张后的初始模糊区域B1~B8中是否存在重叠,并将存在重叠的区域进行合并,获得至少一个合并区域;最后,将合并区域按照收缩比例进行腐蚀,获得中间模糊区域,收缩比例是基于扩张比例确定的,在扩张比例为10时,收缩比例为1/10。
此时,将分散的初始模糊区域连接起来,生成一个中间模糊区域,每个中间模糊区域相比较初始模糊区域而言,等于或大于初始模糊区域;在中间模糊区域比较大时,在第一修复图像中能够明显的显示出图像模糊的模糊区域,此时说明第一修复图像的修复效果不好,需要对第一修复图像进行修复处理。因此,基于图像目标掩膜模板确定是否对第一修复图像进行修复处理,在保证修复效果的同时,减少计算量。
在另一种可能的实现方式中,当图像初始掩膜模板包含的初始模糊像素的第一数量小于第一阈值时,说明第一修复图像中不满足图像质量的像素块减少,第一修复图像中不能够明显的显示出图像模糊的模糊区域,此时确定第一修复图像的修复效果较好,并将第一修复图像作为待处理图像对应的目标修复图像,无需执行对初始模糊像素对应的模糊区域进行形态学处理,以及无需执行对第一修复图像继续处理等步骤,以减少计算流程,提升图像处理效率。
步骤S403,当图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像。
由于,图像目标掩膜模板中已将分散的初始模糊区域连接起来,因此,当图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,说明第一修复图像中能够明显的显示出图像模糊的模糊区域,确定第一修复图像的修复效果不好,此时为了保证图像处理的准确性,需要对第一修复图像中,中间模糊像素对应的像素区域进行修复处理。
在一种可能的实现方式中,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理时:
首先,将第一修复图像和图像目标掩膜模板,输入已训练的图像修复模型FI;
接着,在已训练的图像修复模型FI中,在第一修复图像中,基于图像目标掩膜模板为/>对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;记已训练的图像修复模型的修复处理过程为:
其中,xblurcomp表示第二修复图像。
中间模糊像素对应的像素区域一般为无参考区域,或运动物体区域。
在本申请实施例中,已训练的图像修复模型FI为潜在扩散模型(LatentDiffusion Models,LDM)或大面具上色模型(Large Mask Inpainting,LaMa)等用于模糊区域的图像生成工具。
其中,LDM模型是一项高分辨率图像合成训练工具,在图像修复和各种任务(例如:无条件图像生成、语义场景合成和超分辨率)上实现了高度竞争的性能;
LaMa模型是一种图像生成工具,可以很好的泛化到更高的分辨率图像。
下面,以使用LaMa模型为例,对在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理进行说明。
在使用LaMa模型,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理时:首先,将3通道的第一修复图像和1通道的图像目标掩膜模板输入LaMa模型;其次,在LaMa模型中,将图像目标掩膜模板取反,并和第一修复图像相乘,得到带有掩膜区域的第一彩色图像;接着,将第一彩色图片和图像模板掩膜模板进行叠加,得到一个4通道的图像;然后,对该4通道的图像进行下采样操作后,经过快速傅里叶卷积(Fast FourierConvolutions,FFC)处理,并将快速傅里叶卷积处理后的图像进行上采样处理,获得第二修复图像;其中,在快速傅里叶卷积的处理过程中,会将输入图像基于通道分为2部分,且这2部分分别走2个不同的分支。一个分支负责提取局部信息,称为局部分支。另一个分支负责提取全局信息,称为全局分支。在全局分支中会使用快速傅里叶卷积提取全局特征。最后将局部信息和全局信息进行交叉融合,再基于通道进行拼接,得到最终的第二修复图像。参见图10,图10为本申请实施例中一种对中间模糊像素对应的像素区域进行修复处理的示意图。
在本申请实施例中,快速傅里叶卷积使得LaMa模型即使在浅层也可以获得整个图像的感受野。快速傅里叶卷积不仅提升了LaMa模型的修复质量,还降低了LaMa模型的参数量。同时快速傅里叶卷积中的偏置使得LaMa模型具有更好的泛化性,可以使用低分辩率图像产生高分辨率图像的修复结果,使用快速傅里叶卷积时,可在空间域和频域中同时工作,并不需要回到前面的层来理解图像的上下文。
需要说明的是,第一阈值和第二阈值可以相同也可以不同,确定中间模糊像素的第二数量的方式与确定初始模糊像素的第一数量的方式类似,在此不再重复赘述。
在另一种可能的实现方式中,当图像目标掩膜模板包含的中间模糊像素的第二数量小于第二阈值时,说明第一修复图像中不满足图像质量的像素块减少,第一修复图像中不能够明显的显示出图像模糊的模糊区域,第一修复图像的修复效果较好,此时将第一修复图像作为待处理图像对应的目标修复图像,无需继续第一修复图像中模糊区域进行修复处理,以减少计算流程,提升图像处理效率。
步骤S404,基于第二修复图像,确定待处理图像对应的目标修复图像。
在本申请中,对待处理图像中第一类对象进行修复处理,获得第一修复图像,针对待修复的图像元素修复完毕后,为了保证图像修复过程中,图像处理的准确性,进一步检测第一修复图像中不满足图像质量的初始模糊区域,并生成相应的图像初始掩膜模板;并在确定图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的模糊区域进行形态学处理,获得图像目标掩膜模板,以使将分散的初始模糊区域连接起来,使模糊区域更加的规则;接着,确定图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;最后,基于第二修复图像,确定待处理图像对应的目标修复图像。对第一修复图像中模糊区域进行修复处理,即对第一修复图像中质量不高的区域进行增强处理;且由于对第一修复图像中质量不高的区域进行了增强处理获得第二修复图像,提升了第二修服务图像的图像质量,因此进一步保证了目标修复图像的图像质量。
在上述步骤S404中,基于第二修复图像,确定待处理图像对应的目标修复图像时,可将第二修复图像作为目标修复图像,或将对第二修复图像进行修复处理后获得的第三修复图像作为目标修复图像。
具体的,是将第二修复图像作为目标修复图像,还是将第三天充图像作为目标修复图像,是基于对象初始掩膜模板与对象目标掩膜模板中第二类对象的轮廓是否一致确定的。
其中,对象目标掩膜模板是通过如下方式确定的:
首先,将对象初始掩膜模板mobj,输入已训练的信息传播模型FT;接着,在已训练的信息传播模型FT中,基于已训练的信息传播模型FT的物体补全能力,对对象初始掩膜模板中的第二类对象进行对象轮廓补全处理,获得对象目标掩膜模板其中,对象初始掩膜模板是对视频帧图像中包含的第二类对象进行识别后确定的,第二类对象为需保留的图像元素。
在一种可能的实现方式中,通过视觉识别模型FVIS(Visual Identity System,VIS),确定视频帧图像中第二类对象对应的对象初始掩膜模板mobj;记通过视觉识别模型FVIS,确定对象初始掩膜模板mobj的过程为:
mobj=FVIS(xm)
其中,xm为视频帧图像。
在另一中可能的实现方式中,通过视觉识别模型FVIS(Visual Identity System,VIS),确定待处理图像中第二类对象对应的对象初始掩膜模板mobi。
其中,视觉识别模型是基于存在掩膜模板的图像进行训练获得的。
在本申请实施例中,首先将对象初始掩膜模板与对象目标掩膜模板进行对比,获得第一对比结果,其中,第一对比结果用于表征第二类对象的轮廓是否一致;接着,基于第一对比结果,对第二修复图像进行处理,获得目标修复图像。
在将对象初始掩膜模板与对象目标掩膜模板进行对比时,可将对象初始掩膜模板与对象目标掩膜模板完全重合,确定对象初始掩膜模板中的第二类对象掩膜区域与目标掩膜模板中的第二类对象掩膜区域是否完全重合,若完全重合,则确定第一对比结果用于表征第二类对象的轮廓一致,否则确定第一对比结果用于表征第二类对象的轮廓不一致。
在将对象初始掩膜模板与对象目标掩膜模板进行对比时,确定对象初始掩膜模板中第二类对象掩膜区域的第三像素数量,以及对象目标掩膜模板中第二类对象掩膜区域的第四像素数量,并基于第三像素数量和第四像素数量的差值,确定第一对比结果,其中,第三像素数量和第四像素数量的差值表征了对象初始掩膜模板和对象目标掩膜模板中第二类对象掩膜区域的差异。
基于第三像素数量和第四像素数量的差值,确定对比结果时,若第三像素数量和第四像素数量的差值小于阈值时,则确定第一对比结果用于表征第二类对象的轮廓一致,否则确定第一对比结果用于表征第二类对象的轮廓不一致。
在一种可能的实现方式中,当第一对比结果表征第二类对象轮廓一致时,将第二修复图像作为目标修复图像。
在另一种可能的实现方式中,当第一对比结果表征第二类对象轮廓不一致,对第二修复图像进行处理,获得目标修复图像时:
首先,将第二修复图像和对象目标掩膜模板,输入已训练的对象修复模型Fobj;
接着,在通过已训练的对象修复模型Fobj中,在第二修复图像xblurcomp中,基于对象目标掩膜模板对第二类对象对应的像素区域进行修复处理,获得第三修复图像,并将第三修复图像作为目标修复图像;记已训练的对象修复模型Fobj的修复处理过程为:
xobjcomp=Fobj(xobjremain,mobj)
其中,xobjcomp表示修复后的第三修复图像,xobjremain表示待处理图像中可见像素部分,且xobjremain=xmt·mobj,即包括第一类对象掩膜区域和第二类对象掩膜区域的彩色图像。
在本申请实施例中,已训练的对象修复模型包含Transformations结构;在使用对象修复模型,在第一修复图像中,对第二类对象对应的像素区域进行修复处理时,基于Transformations的自注意力特性,使用可见像素部分对第二类对象对应的像素区域进行修复处理。
参见图11,图11为本申请实施例中另一种图像处理方法流程图,包括如下步骤:
步骤S1100,对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像;第一类对象为待修复的图像元素。
步骤S1101,对获取的视频帧图像包含的第二类对象进行识别,基于识别结果确定对象初始掩膜模板。
步骤S1102,对待处理图像中第一类对象进行修复处理,获得第一修复图像,并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板。
步骤S1103,对对象初始掩膜模板中的第二类对象进行对象轮廓补全处理,获得对象目标掩膜模板。
步骤S1104,当图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的模糊区域进行形态学处理,获得图像目标掩膜模板。
步骤S1105,当图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像。
步骤S1106,将对象初始掩膜模板与对象目标掩膜模板进行对比,判断第二类对象的轮廓是否一致,若是则执行步骤S1107,否则执行步骤S1108。
步骤S1107,将第二修复图像作为目标修复图像。
步骤S1108,在第二修复图像中,对第二类对象对应的像素区域进行修复处理,获得第三修复图像,并将第三修复图像作为目标修复图像。
参见图12,图12示例性提供本申请实施例中一种图像处理的具体实施方法流程图,包括如下步骤:
步骤S1200,对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像,第一类对象为待修复的图像元素。
步骤S1201,通过视觉识别模型,对获取的目标视频帧图像包含的第二类对象进行识别,并基于识别结果确定第二类对象的对象初始掩膜模板。
步骤S1202,将包含待处理图像的视频序列和包含待处理图像的对象初始掩膜模板的掩膜模板序列,输入已训练的信息传播模型,通过已训练的信息传播模型获得第一修复图像、图像初始掩膜模板以及对象目标掩膜模板。
即,已训练的信息传播模型对应两个输入参数,分别为:
第一输入参数:
xm={xmt}(t=0,1,2,...,T),其中,xmt=xt·(1-mt);
第一输入参数为包含待处理图像的视频序列,该视频序列中的每一帧图像均可以为待处理图像xmt;
第二输入参数:
mobj=FVIS(xm),其中,
第一输入参数为包含待处理图像的对象初始掩膜模板的掩膜模板序列,该掩膜模板序列中的每一掩膜模板均可以为与相应的待处理图像对应的对象初始掩膜模板;例如:为xm1的对象初始掩膜模板;
将已训练的信息传播模型记为FT,记修复完成的第一修复图像为xtcomp,记对象目标掩膜模板为记图像初始掩膜模板为mblur,则有:
步骤S1203,判断图像初始掩膜模板包含的初始模糊像素的第一数量是否到达第一阈值,若是则执行步骤S1204,否则执行步骤S1210。
步骤S1204,对初始模糊像素对应的模糊区域进行形态学处理,获得图像目标掩膜模板。
步骤S1205,判断图像目标掩膜模板包含的中间模糊像素的第二数量是否到达第二阈值,若是则执行步骤S1206,否则执行步骤S1210。
步骤S1206,将图像目标掩膜模板和第一修复图像,输入已训练的图像修复模型,通过已训练的图像修复模型,获得第二修复图像。
步骤S1207,判断对象初始掩膜模板与对象目标掩膜模板包含的第二类对象的轮廓是否一致,若是则执行步骤S1211,否则执行步骤S1208。
步骤S1208,将第二修复图像和对象目标掩膜模板,输入已训练的对象修复模型,通过已训练的对象修复模型,获得第三修复图像。
步骤S1209,将第三修复图像作为待处理图像对应的目标修复图像。
步骤S1210,将第一修复图像作为待处理图像对应的目标修复图像。
步骤S1211,将第二修复图像作为待处理图像对应的目标修复图像。
参见图13,图13与图12相对应,图13提供了本申请实施例中一种图像处理具体实施方法示意图。
从图13中可知,根据使用的模型,将图像处理过程分为三个阶段,下面对三个阶段进行详细说明。
阶段一:将待处理图像和对象初始掩膜模板,输入已训练的信息传播模型;在已训练的信息传播模型中,基于帧间参考信息,使用与待处理图像连续的其他视频帧图像中相应区域的可用像素,对待处理图像进行帧间参考信息修复,该已训练的信息传播模型同时具备一定的图像生成能力,通过图像生成能力对其他视频帧图像中没有可用像素的像素部分,借助空间和时域上的信息,进行像素生成,以完成图像修复,获得第一修复图像;同时,该已训练的信息传播模型还具备物体补全能力,通过物体补全能力,对待处理图像中的第二类对象进行轮廓补全处理,获得对象目标掩膜模板;且已训练的信息传播模型还可以基于修复完成后的图像,确定初始模糊区域对应的图像初始掩膜模板;最后,阶段一中的已训练的信息传播模型同时输出第一修复图像、第一修复图像中修复结果模糊的初始模糊区域对应的图像初始掩膜模板,以及对象目标掩膜模板。
阶段二:首先确定图像初始掩膜模板中初始模糊区域的初始模糊像素的第一数量,接着判断该第一数量是否大于第一阈值,若初始模糊区域中初始模糊像素的第一数量少于第一阈值,则忽略该初始模糊区域,将第一修复图像作为目标修复图像输出,不进行后续处理;若初始模糊区域中初始模糊像素的第一数量达到第一阈值,则应用扩张和腐蚀操作将分散的初始模糊区域连接起来,获得处理后的图像目标掩膜模板,在获得图像目标掩膜模板后,确定图像目标掩膜模板中模糊区域的中间模糊像素的第二数量,接着判断该第二数量是否大于第二阈值,若中间模糊像素的第二数量少于第二阈值,则忽略该模糊区域,将第一修复图像作为目标修复图像输出,不进行后续处理;若中间模糊像素的第二数量达到第二阈值,则调用图像修复模型,基于处理后的图像目标掩膜模板,在第一修复图像上,对图像目标掩膜模板中的模糊区域的像素位置进行修复。
阶段三:在阶段二的基础上进行,若对象目标掩膜模板相对对象初始掩膜模板在第二类对象的掩膜区域内改变的像素个数小于第三阈值,认为第二类对象的掩膜区域内没有需要补全的物体轮廓,将第二修复图像作为目标修复图像;若对象目标掩膜模板相对对象初始掩膜模板在第二类对象的掩膜区域内改变的像素个数达到第三阈值,则调用对象修复模型,对第二类对象的掩膜区域内的像素进行修复,覆盖图像修复模块的修复内容,获得第三修复图像,并将第三修复图像作为目标修复图像。
在本申请中,通过已训练的信息传播模型,基于待处理图像和对象初始掩膜模板,确定第一修复图像、图像初始掩膜模板,以及对象目标掩膜模板,基于已训练的信息传播模型,实现参考像素传播,使对背景发生复杂运动的图像内容进行较好修复。针对待修复的图像元素修复完毕,获得第一修复图像后,为了保证图像修复过程中,图像处理的准确性,在确定图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的模糊区域进行形态学处理,获得图像目标掩膜模板,以使分散的初始模糊区域连接,以及模糊区域更加的规则,提升判断的准确性;接着,确定图像目标掩膜模板包含的中间模糊像素的第二数量,当第二数量达到第二阈值时,通过图像修复模型,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像,实现对第一修复图像中模糊区域进行修复处理,即对第一修复图像中质量不高的区域进行增强;最后,确定对象初始掩膜模板与对象目标掩膜模板中第二类对象的轮廓不一致时,通过对象修复模型,在第二修复图像中,对第二类对象对应的像素区域进行修复处理,获得第三修复图像,实现对遮挡对象区域进行修复处理,即对第二修复图像中质量不高的区域进行增强。实现了对由纹理复杂、对象遮挡情况导致的修复模糊的模糊区域进行修复处理,对质量不高的区域进行增强处理,提升了目标修复图像的图像质量。
在本申请实施例中,对待处理图像进行图像处理的过程中,涉及了已训练的信息传播模型、已训练的图像修复模型以及已训练的对象修复模型,而模型在使用之前,为了保证模型输出的准确性,需要进行模型训练。下面,对模型训练的过程进行详细说明。
一、信息传播模型。
在本申请实施例中,已训练的信息传播模型是根据训练样本数据集中的训练样本,对待训练的信息传播模型执行循环迭代训练后获得的。
下面以一次循环迭代过程为例,对待训练的信息传播模型的训练过程进行介绍。
参见图14,图14为本申请实施例中一种信息传播模型的训练方法,包括如下步骤:
步骤S1400,获取训练样本数据集,训练样本数据集中包括至少一组训练样本,每组训练样本中包括:针对待修复的图像元素进行掩膜处理后的历史图像及相应的实际修复图像,以及历史图像中需保留的图像元素对应的对象历史掩膜模板及相应的对象实际掩膜模板。
步骤S1401,从训练样本数据集中选取训练样本,并将训练样本输入待训练的信息传播模型。
步骤S1402,通过待训练的信息传播模型,预测历史图像对应的预测修复图像,并基于预测修复图像中不满足图像质量的预测模糊区域,生成图像预测掩膜模板,以及对象历史掩膜模板对应的对象预测掩膜模板。
步骤S1403,基于预测修复图像和实际修复图像构建第一类损失函数,基于图像预测掩膜模板和图像中间掩膜模板构建第二类损失函数,以及基于对象预测掩膜模板和对象实际掩膜模板构建第三类损失函数,其中,图像中间掩膜模板,是基于预测修复图像和实际修复图像确定的。
在一种可能的实现方式中,第一类损失函数是通过如下方式确定的:
基于预测修复图像和实际修复图像之间的图像差异像素值,确定第一子损失函数;即,使用L1损失构建第一子损失函数,第一子损失函数记为
基于预测修复图像和实际修复图像的第二对比结果,确定第二子损失函数,其中,第二对比结果用于表征预测修复图像和实际修复图像是否一致;即,使用对抗损失Lgen构建第二子损失函数,第二子损失函数记为
基于第一子损失函数和第二子损失函数,确定第一类损失函数。
在一种可能的实现方式中,第二类损失函数是通过如下方式确定的:
基于图像预测掩膜模板和图像中间掩膜模板之间的掩膜差异像素值,确定第三子损失函数,并将第三子损失函数作为第二类损失函数;其中,图像预测掩膜模板是预测修复图像中不满图像质量的预测模糊区域的像素数量大于设定阈值时获得的。
即,使用L1损失构建第三子损失函数,第三子损失函数记为且
其中,c为RGB3个通道,H*W表示一个H*W大小的矩阵,记为dt的预测值,dt为预测修复图像与实际修复图像之间的实际差别,即预测修复图像相比与实际修复图像中实际模糊区域的像素数量,且/> 表示预测修复图像,yt为实际修复图像。
在一种可能的实现方式中,第三类损失函数是通过如下方式确定的:
基于对象预测掩膜模板和历史对象实际掩膜模板之间的对象差异像素值,确定第四子损失函数;即,使用L1损失构建第四子损失函数,第四子损失函数记为且其中/>表示对象预测掩膜模板,表示历史对象实际掩膜模板;
基于对象预测掩膜模板和历史对象实际掩膜模板之间的相似度,确定第五子损失函数;即,使用dice损失Ldice构建第五子损失函数,第五子损失函数记为且其中/>表示对象预测掩膜模板,表示历史对象实际掩膜模板;
基于第四子损失函数和第五子损失函数,确定第三类损失函数。
步骤S1404,基于第一类损失函数、第二类损失函数,以及第三类损失函数构建目标损失函数。
目标损失函数为:
步骤S1405,基于目标损失函数,对待训练的信息传播模型进行参数调整。
二、图像修复模型。
在本申请实施例中,图像修复模型选用潜在扩散模型(Latent DiffusionModels,LDM)或大面具上色模型(Large Mask Inpainting,LaMa)等用于模糊区域的图像生成工具。
在对LDM模型进行训练时,将原始图像、原始图像对应的图像掩膜模板、引导文本以及目标图像输入到待训练的LDM模型,并在该LDM模型中基于引导文本反复混合前景部分和背景部分,获得预测图像;并基于预测图像和原始图像构建损失函数,基于损失函数对待训练的LDM模型进行参数调整;其中,前景部分为需要进行修复的部分,背景部分为原始图像中除需要修复的部分以外的其他部分;目标图像为对原始图像进行图像修复后,达到修复标准的图像。
在对LaMa模型进行训练时,将原始图像、原始图像对应的图像掩膜模板,以及目标图像输入到待训练的LaMa模型,并在该LaMa模型中,将包含图像掩膜的原始图像,以及原始图像的图像掩膜进行叠加,得到一个4通道的图像,对该4通道的图像进行下采样操作后,经过快速傅里叶卷积处理,并将快速傅里叶处理后,进行上采样操作,得到预测图像;并基于原始图像和预测图像构建对抗损失,和感受野感知损失构建损失函数,并基于损失函数对待训练的LaMa模型进行参数调整;其中,感受野是卷积神经网络经每一层输出的特征图上在原始图像上映射的区域大小。
三、对象修复模型。
在本申请实施例中,对象修复模型选用使用tranformer作为网络结构的模型,例如用于视频修复的时空联合模型(Spatial-Temporal Transformations for VideoInpainting,STTN)。
在对象修复模型进行训练时,将原始图像、包含掩膜区域的原始图像输入到待训练的对象修复模型,并在该对象修复模型中通过自注意力同时填充所有输入图像中的掩膜区域,获得预测图像;并基于预测图像和原始图像构建损失函数,基于损失函数对待训练的对象修复模型进行参数调整;其中,训练过程中的损失函数使用L1损失以及对抗损失Lgen。
需要说明的是,本申请实施例中涉及到的模型可以单独训练,也可进行模型联合训练。
在本申请中,提出了对信息传播模型、图像修复模型、对象修复模型的训练方式,以表征信息传播模型、图像修复模型、对象修复模型输出结果的准确性,进一步本申请实施例中在图像处理过程中,使用模型处理时,图像处理的准确性,提高处理后的视频帧图像的图像质量。
与本申请上述方法实施例基于同一发明构思,本申请实施例中还提供了一种数图像处理装置,装置解决问题的原理与上述实施例的方法相似,因此装置的实施可以参见上述方法的实施,重复之处不再赘述。
参见图15,图15示例性提供本申请实施例提供一种图像处理装置1500,该图像处理装置1500包括:
第一处理单元1501,用于对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像;第一类对象为待修复的图像元素;
第二处理单元1502,用于对待处理图像中第一类对象进行修复处理,获得第一修复图像,并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板;
第三处理单元1503,用于当图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板;
第四处理单元1504,用于当图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在第一修复图像中,对中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;
确定单元1505,用于基于第二修复图像,确定待处理图像对应的目标修复图像。
在一种可能的实现方式中,第二处理单元1502具体用于:
将包含待处理图像的视频序列,输入已训练的信息传播模型;
在已训练的信息传播模型中,基于视频序列中其他视频帧图像中的图像元素,对待处理图像中第一类对象进行修复处理,获得第一修复图像,并基于第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板。
在一种可能的实现方式中,第二处理单元1502具体用于:
将对象初始掩膜模板,输入已训练的信息传播模型,其中,对象初始掩膜模板是对视频帧图像中包含的第二类对象进行识别后确定的,第二类对象为需保留的图像元素;
在已训练的信息传播模型中,对对象初始掩膜模板中的第二类对象进行对象轮廓补全处理,获得对象目标掩膜模板。
在一种可能的实现方式中,确定单元1505具体用于:
将对象初始掩膜模板与对象目标掩膜模板进行对比,获得第一对比结果,其中,第一对比结果用于表征第二类对象的轮廓是否一致;
基于第一对比结果,对第二修复图像进行处理,获得目标修复图像。
在一种可能的实现方式中,确定单元1505具体用于:
若第一对比结果表征第二类对象轮廓不一致,则在第二修复图像中,对第二类对象对应的像素区域进行修复处理,获得第三修复图像,并将第三修复图像作为目标修复图像;
若第一对比结果表征第二对象轮对一致,则将第二修复图像作为目标修复图像。
在一种可能的实现方式中,已训练的信息传播模型是通过如下方式训练获得的:
根据训练样本数据集中的训练样本,对待训练的信息传播模型执行循环迭代训练,获得已训练的信息传播模型,其中,在一次循环迭代过程中执行以下操作:
从训练样本数据集中选取训练样本;其中,训练样本为:针对待修复的图像元素进行掩膜处理后的历史图像,以及历史图像中需保留的图像元素对应的对象历史掩膜模板;
将训练样本输入信息传播模型,预测历史图像对应的预测修复图像,并基于预测修复图像中不满足图像质量的预测模糊区域,生成图像预测掩膜模板,以及对象历史掩膜模板对应的对象预测掩膜模板;
采用基于预测修复图像、图像预测掩膜模板以及对象预测掩膜模板构建的目标损失函数,对信息传播模型进行参数调整。
在一种可能的实现方式中,训练样本中还包括:历史图像对应的实际修复图像,与对象历史掩膜模板对应的对象实际掩膜模板;
则目标损失函数是采用以下方式构建的:
基于预测修复图像和实际修复图像构建第一类损失函数,基于图像预测掩膜模板和图像中间掩膜模板构建第二类损失函数,以及基于对象预测掩膜模板和对象实际掩膜模板构建第三类损失函数,其中,图像中间掩膜模板,是基于预测修复图像和实际修复图像确定的;
基于第一类损失函数、第二类损失函数,以及第三类损失函数构建目标损失函数。
在一种可能的实现方式中,第一类损失函数是通过如下方式确定的:
基于预测修复图像和实际修复图像之间的图像差异像素值,确定第一子损失函数;
基于预测修复图像和实际修复图像的第二对比结果,确定第二子损失函数,其中,第二对比结果用于表征预测修复图像和实际修复图像是否一致;
基于第一子损失函数和第二子损失函数,确定第一类损失函数。
在一种可能的实现方式中,第二类损失函数是通过如下方式确定的:
基于图像预测掩膜模板和图像中间掩膜模板之间的掩膜差异像素值,确定第三子损失函数,并将第三子损失函数作为第二类损失函数。
在一种可能的实现方式中,第三类损失函数是通过如下方式确定的:
基于对象预测掩膜模板和历史对象实际掩膜模板之间的对象差异像素值,确定第四子损失函数;
基于对象预测掩膜模板和历史对象实际掩膜模板之间的相似度,确定第五子损失函数;
基于第四子损失函数和第五子损失函数,确定第三类损失函数。
在一种可能的实现方式中,第二处理单元1502生成相应的图像初始掩膜模板后,还用于:
当图像初始掩膜模板包含的初始模糊像素的第一数量小于第一阈值时,将第一修复图像作为待处理图像对应的目标修复图像。
在一种可能的实现方式中,第三处理单元1503获得图像目标掩膜模板后,还用于:
当图像目标掩膜模板包含的中间模糊像素的第二数量小于第二阈值时,将第一修复图像作为待处理图像对应的目标修复图像。
为了描述的方便,以上各部分按照功能划分为各单元(或模块)分别描述。当然,在实施本申请时可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在介绍了本申请示例性实施方式的图像处理方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的用于图像处理的电子设备。
与本申请上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,该电子设备可以是服务器。在该实施例中,电子设备的结构可以如图16所示,包括存储器1601,通讯模块1603以及一个或多个处理器1602。
存储器1601,用于存储处理器1602执行的计算机程序。存储器1601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1601可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1601也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1601是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1601可以是上述存储器的组合。
处理器1602,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1602,用于调用存储器1601中存储的计算机程序时实现上述图像处理方法。
通讯模块1603用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1601、通讯模块1603和处理器1602之间的具体连接介质。本申请实施例在图16中以存储器1601和处理器1602之间通过总线1604连接,总线1604在图16中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1604可以分为地址总线、数据总线、控制总线等。为便于描述,图16中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1601中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的图像处理方法。处理器1602用于执行上述的图像处理方法。
在另一种实施例中,电子设备也可以是其他电子设备,如图3所示的终端设备310。在该实施例中,电子设备的结构可以如图17所示,包括:通信组件1710、存储器1720、显示单元1730、摄像头1740、传感器1750、音频电路1760、蓝牙模块1770、处理器1780等部件。
通信组件1710用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器1720可用于存储软件程序及数据。处理器1780通过运行存储在存储器1720的软件程序或数据,从而执行终端设备310的各种功能以及数据处理。存储器1720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1720存储有使得终端设备310能运行的操作系统。本申请中存储器1720可以存储操作系统及各种应用程序,还可以存储执行本申请实施例图像处理方法的代码。
显示单元1730还可用于显示由用户输入的信息或提供给用户的信息以及终端设备310的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1730可以包括设置在终端设备310正面的显示屏1732。其中,显示屏1732可以采用液晶显示器、发光二极管等形式来配置。显示单元1730可以用于显示本申请实施例中的目标修复图像等。
显示单元1730还可用于接收输入的数字或字符信息,产生与终端设备310的用户设置以及功能控制有关的信号输入,具体地,显示单元1730可以包括设置在终端设备310正面的触摸屏1731,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触摸屏1731可以覆盖在显示屏1732之上,也可以将触摸屏1731与显示屏1732集成而实现终端设备310的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1730可以显示应用程序以及对应的操作步骤。
摄像头1740可用于捕获静态图像。摄像头1740可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupleddevice,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1780转换成数字图像信号。
终端设备还可以包括至少一种传感器1750,比如加速度传感器1751、距离传感器1752、指纹传感器1753、温度传感器1754。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1760、扬声器1761、传声器1762可提供用户与终端设备310之间的音频接口。音频电路1760可将接收到的音频数据转换后的电信号,传输到扬声器1761,由扬声器1761转换为声音信号输出。终端设备310还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1762将收集的声音信号转换为电信号,由音频电路1760接收后转换为音频数据,再将音频数据输出至通信组件1710以发送给比如另一终端设备310,或者将音频数据输出至存储器1720以便进一步处理。
蓝牙模块1770用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1770与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1780是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1720内的软件程序,以及调用存储在存储器1720内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1780可包括一个或多个处理单元;处理器1780还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1780中。本申请中处理器1780可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的图像处理方法。另外,处理器1780与显示单元1730耦接。
在一些可能的实施方式中,本申请提供的图像处理方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像处理方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (16)
1.一种图像处理方法,其特征在于,所述方法包括:
对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像;所述第一类对象为待修复的图像元素;
对所述待处理图像中所述第一类对象进行修复处理,获得第一修复图像,并基于所述第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板;
当所述图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对所述初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板;
当所述图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在所述第一修复图像中,对所述中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;
基于所述第二修复图像,确定所述待处理图像对应的目标修复图像。
2.如权利要求1所述的方法,其特征在于,所述对所述待处理图像中所述第一类对象进行修复处理,获得第一修复图像,并基于所述第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板,包括:
将包含所述待处理图像的视频序列,输入已训练的信息传播模型;
在所述已训练的信息传播模型中,基于所述视频序列中其他视频帧图像中的图像元素,对所述待处理图像中所述第一类对象进行修复处理,获得第一修复图像,并基于所述第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
将对象初始掩膜模板,输入所述已训练的信息传播模型,其中,所述对象初始掩膜模板是对所述视频帧图像中包含的所述第二类对象进行识别后确定的,所述第二类对象为需保留的图像元素;
在所述已训练的信息传播模型中,对所述对象初始掩膜模板中的第二类对象进行对象轮廓补全处理,获得对象目标掩膜模板。
4.如权利要求3所述的方法,其特征在于,基于所述第二修复图像,确定所述待处理图像对应的目标修复图像,包括:
将所述对象初始掩膜模板与所述对象目标掩膜模板进行对比,获得第一对比结果,其中,所述第一对比结果用于表征所述第二类对象的轮廓是否一致;
基于所述第一对比结果,对所述第二修复图像进行处理,获得所述目标修复图像。
5.如权利要求4所述的方法,其特征在于,所述基于所述第一对比结果,对所述第二修复图像进行处理,获得所述目标修复图像,包括:
若所述第一对比结果表征所述第二类对象轮廓不一致,则在所述第二修复图像中,对所述第二类对象对应的像素区域进行修复处理,获得第三修复图像,并将所述第三修复图像作为所述目标修复图像;
若所述第一对比结果表征所述第二对象轮对一致,则将所述第二修复图像作为所述目标修复图像。
6.如权利要求2或3所述的方法,其特征在于,所述已训练的信息传播模型是通过如下方式训练获得的:
根据训练样本数据集中的训练样本,对待训练的信息传播模型执行循环迭代训练,获得已训练的信息传播模型,其中,在一次循环迭代过程中执行以下操作:
从所述训练样本数据集中选取训练样本;其中,所述训练样本为:针对待修复的图像元素进行掩膜处理后的历史图像,以及所述历史图像中需保留的图像元素对应的对象历史掩膜模板;
将所述训练样本输入所述信息传播模型,预测所述历史图像对应的预测修复图像,并基于所述预测修复图像中不满足图像质量的预测模糊区域,生成图像预测掩膜模板,以及所述对象历史掩膜模板对应的对象预测掩膜模板;
采用基于所述预测修复图像、所述图像预测掩膜模板以及所述对象预测掩膜模板构建的目标损失函数,对所述信息传播模型进行参数调整。
7.如权利要求6所述的方法,其特征在于,所述训练样本中还包括:所述历史图像对应的实际修复图像,与所述对象历史掩膜模板对应的对象实际掩膜模板;
则目标损失函数是采用以下方式构建的:
基于所述预测修复图像和所述实际修复图像构建第一类损失函数,基于所述图像预测掩膜模板和图像中间掩膜模板构建第二类损失函数,以及基于所述对象预测掩膜模板和所述对象实际掩膜模板构建第三类损失函数,其中,所述图像中间掩膜模板,是基于所述预测修复图像和所述实际修复图像确定的;
基于所述第一类损失函数、所述第二类损失函数,以及所述第三类损失函数构建目标损失函数。
8.如权利要求7所述的方法,其特征在于,所述第一类损失函数是通过如下方式确定的:
基于所述预测修复图像和所述实际修复图像之间的图像差异像素值,确定第一子损失函数;
基于所述预测修复图像和所述实际修复图像的第二对比结果,确定第二子损失函数,其中,所述第二对比结果用于表征所述预测修复图像和所述实际修复图像是否一致;
基于所述第一子损失函数和所述第二子损失函数,确定所述第一类损失函数。
9.如权利要求8所述的方法,其特征在于,所述第二类损失函数是通过如下方式确定的:
基于所述图像预测掩膜模板和所述图像中间掩膜模板之间的掩膜差异像素值,确定第三子损失函数,并将所述第三子损失函数作为所述第二类损失函数。
10.如权利要求8所述的方法,其特征在于,所述第三类损失函数是通过如下方式确定的:
基于所述对象预测掩膜模板和所述历史对象实际掩膜模板之间的对象差异像素值,确定第四子损失函数;
基于所述对象预测掩膜模板和所述历史对象实际掩膜模板之间的相似度,确定第五子损失函数;
基于所述第四子损失函数和所述第五子损失函数,确定所述第三类损失函数。
11.如权利要求1~5任一所述的方法,其特征在于,所述生成相应的图像初始掩膜模板后,还包括:
当所述图像初始掩膜模板包含的初始模糊像素的第一数量小于第一阈值时,将所述第一修复图像作为所述待处理图像对应的目标修复图像。
12.如权利要求1~5任一所述的方法,其特征在于,所述获得图像目标掩膜模板后,还包括:
当所述图像目标掩膜模板包含的中间模糊像素的第二数量小于第二阈值时,将所述第一修复图像作为所述待处理图像对应的目标修复图像。
13.一种图像处理装置,其特征在于,所述装置包括:
第一处理单元,用于对获取的目标视频帧图像包含的第一类对象进行掩膜处理,获得掩膜处理后的待处理图像;所述第一类对象为待修复的图像元素;
第二处理单元,用于对所述待处理图像中所述第一类对象进行修复处理,获得第一修复图像,并基于所述第一修复图像中不满足图像质量的初始模糊区域,生成相应的图像初始掩膜模板;
第三处理单元,用于当所述图像初始掩膜模板包含的初始模糊像素的第一数量达到第一阈值时,对所述初始模糊像素对应的初始模糊区域进行形态学处理,获得图像目标掩膜模板;
第四处理单元,用于当所述图像目标掩膜模板包含的中间模糊像素的第二数量达到第二阈值时,在所述第一修复图像中,对所述中间模糊像素对应的像素区域进行修复处理,获得第二修复图像;
确定单元,用于基于所述第二修复图像,确定所述待处理图像对应的目标修复图像。
14.一种电子设备,其特征在于,该电子设备包括:存储器和处理器,其中:
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,实现权利要求1~12任一所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~12任一所述方法的步骤。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,计算机程序存储在计算机可读存储介质中;当所述计算机程序被处理器执行时,实现如权利要求1~12任一所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211029204.9A CN117011156A (zh) | 2022-08-26 | 2022-08-26 | 图像处理方法、装置、设备及存储介质 |
PCT/CN2023/105718 WO2024041235A1 (zh) | 2022-08-26 | 2023-07-04 | 图像处理方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211029204.9A CN117011156A (zh) | 2022-08-26 | 2022-08-26 | 图像处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011156A true CN117011156A (zh) | 2023-11-07 |
Family
ID=88562459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211029204.9A Pending CN117011156A (zh) | 2022-08-26 | 2022-08-26 | 图像处理方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117011156A (zh) |
WO (1) | WO2024041235A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333403A (zh) * | 2023-12-01 | 2024-01-02 | 合肥金星智控科技股份有限公司 | 图像增强方法、存储介质和图像处理系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102230361B1 (ko) * | 2019-09-18 | 2021-03-23 | 고려대학교 산학협력단 | 단일 이미지를 이용하는 배경이미지 복원장치 및 그 동작 방법 |
CN114022497A (zh) * | 2021-09-30 | 2022-02-08 | 泰康保险集团股份有限公司 | 一种图像处理方法及装置 |
CN113888431A (zh) * | 2021-09-30 | 2022-01-04 | Oppo广东移动通信有限公司 | 图像修复模型的训练方法、装置、计算机设备及存储介质 |
CN114170112A (zh) * | 2021-12-17 | 2022-03-11 | 中国科学院自动化研究所 | 一种修复图像的方法、装置以及存储介质 |
-
2022
- 2022-08-26 CN CN202211029204.9A patent/CN117011156A/zh active Pending
-
2023
- 2023-07-04 WO PCT/CN2023/105718 patent/WO2024041235A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333403A (zh) * | 2023-12-01 | 2024-01-02 | 合肥金星智控科技股份有限公司 | 图像增强方法、存储介质和图像处理系统 |
CN117333403B (zh) * | 2023-12-01 | 2024-03-29 | 合肥金星智控科技股份有限公司 | 图像增强方法、存储介质和图像处理系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2024041235A1 (zh) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020199931A1 (zh) | 人脸关键点检测方法及装置、存储介质和电子设备 | |
CN108509915B (zh) | 人脸识别模型的生成方法和装置 | |
JP2021507388A (ja) | インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体 | |
JP2022531639A (ja) | ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム | |
WO2021103731A1 (zh) | 一种语义分割方法、模型训练方法及装置 | |
CN111091521A (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN112989085A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
WO2024083121A1 (zh) | 一种数据处理方法及其装置 | |
CN117173504A (zh) | 一种文生图模型的训练方法、装置、设备及存储介质 | |
CN115937033A (zh) | 图像生成方法、装置及电子设备 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
CN110827341A (zh) | 一种图片深度估计方法、装置和存储介质 | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN117078790B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN117115900A (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN112037305A (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN114565953A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
Wang et al. | A multi-scale attentive recurrent network for image dehazing | |
CN116977547A (zh) | 一种三维人脸重建方法、装置、电子设备和存储介质 | |
CN115965791A (zh) | 图像生成方法、装置及电子设备 | |
CN115410133A (zh) | 视频密集预测方法及其装置 | |
CN114648604A (zh) | 一种图像渲染方法、电子设备、存储介质及程序产品 | |
Tan et al. | NL-VTON: a non-local virtual try-on network with feature preserving of body and clothes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |