CN118101862A - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN118101862A CN118101862A CN202410346229.4A CN202410346229A CN118101862A CN 118101862 A CN118101862 A CN 118101862A CN 202410346229 A CN202410346229 A CN 202410346229A CN 118101862 A CN118101862 A CN 118101862A
- Authority
- CN
- China
- Prior art keywords
- image
- foreground
- background
- target
- adjustment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 125
- 238000012545 processing Methods 0.000 claims abstract description 95
- 238000005286 illumination Methods 0.000 claims description 92
- 238000003709 image segmentation Methods 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 35
- 238000013473 artificial intelligence Methods 0.000 abstract description 21
- 230000000007 visual effect Effects 0.000 abstract description 12
- 230000001965 increasing effect Effects 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 21
- 238000003062 neural network model Methods 0.000 description 16
- 230000011218 segmentation Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 241001465754 Metazoa Species 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种图像处理方法、装置、设备及存储介质,涉及图像处理技术领域,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法采用更为轻量型的图像处理方式实现了前景图像的处理,方法实现复杂度更低,设备功耗消耗更小,网络推理的功耗和时长不会随着输入图像的分辨率增大而增加,因而对于处理能力不高的设备也能够顺利的运行该方法来实现画面和谐度的调整,提升画面中前景和背景之间的和谐度,以提升图像的视觉效果。并且,由于该方法的实现复杂度低,耗费时长较少,实时性更高,对于一些实时性高或者处理能力不高的场景同样适用。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及图像处理技术领域,提供一种图像处理方法、装置、设备及存储介质。
背景技术
目前,在一些使用场景中常常需要为视频替换背景的情况,例如视频会议时替换参会人员的背景场景。但是,在进行背景替换时,可能存在前景图像与背景图像的光照条件不一致的情况,这将导致替换背景后的图像中,前景和背景呈现出的视觉效果上的和谐度不高。
但是,目前针对视频的处理主要是针对整体画面进行增强(例如亮度增强)或者去噪的处理,对于前景图像与背景图像的光照条件不一致所带来的和谐度不高的情况的效果并不佳。
进一步地,在对视频进行处理时,往往是采用深度学习的方法训练的神经网络模型进行的,这些神经网络模型往往采用复杂的网络结构,且需要根据替换背景后的图像逐像素生成新的图像,模型复杂度较高,不仅设备功耗消耗大,并且,对于一些处理能力不高的设备,例如中央处理器(Central Processing Unit,CPU)的处理能力不足以满足复杂的神经网络模型需求,则可能无法运行如此复杂神经网络模型,导致无法对画面进行和谐度的调整。
发明内容
本申请实施例提供一种图像处理方法、装置、设备及存储介质,用于采用更为轻量型的图像处理方式实现前景图像的处理,提升背景替换图像中前景和背景之间的和谐度。
一方面,提供一种图像处理方法,该方法包括:
获得目标图像中的图像分割结果,以及获得背景图像,所述图像分割结果用于指示所述目标图像中的前景图像;
以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集,所述调整参数集包括L个互不重叠的特征值区间各自的调整参数,每个调整参数表征相应特征值区间的调整程度;
对于所述前景图像的每一个像素点,根据所述每一个像素点的原始特征值,确定所述每一个像素点对应于所述L个特征值区间的子特征值;
根据所述调整参数集对获得的L个子特征值进行特征调整,并根据调整后的L个子特征值,确定所述每一个像素点的目标特征值;
根据所述前景图像的各个像素点各自的目标特征值与所述背景图像,获得目标图像的背景替换图像。
一方面,提供一种图像处理装置,该装置包括:
图像获得单元,用于获得目标图像中的图像分割结果,以及获得背景图像,所述图像分割结果用于指示所述目标图像中的前景图像;
参数预测单元,用于以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集,所述调整参数集包括L个互不重叠的特征值区间各自的调整参数,每个调整参数表征相应特征值区间的调整程度;
特征调整单元,用于对于所述前景图像的每一个像素点,根据所述每一个像素点的原始特征值,确定所述每一个像素点对应于所述L个特征值区间的子特征值;以及,根据所述调整参数集对获得的L个子特征值进行特征调整,并根据调整后的L个子特征值,确定所述每一个像素点的目标特征值;
渲染单元,用于根据所述前景图像的各个像素点各自的目标特征值与所述背景图像,获得目标图像的背景替换图像。
一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法的步骤。
一方面,提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种方法的步骤。
一方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述任一种方法的步骤。
本申请实施例中,通过以背景图像为基准图像,确定对前景图像中的像素点进行特征值调整的调整参数集,该调整参数集包括L个互不重叠的特征值区间各自的调整参数,进而根据调整参数集对前景图像中的每一个像素点在L个特征值区间内的子特征值进行调整,最终根据调整后的前景图像和背景图像得到背景替换图像。也就是说,在该方法中,只需要以背景图像为基准,确定出前景图像的L个调整参数,就可以根据这L个调整参数实现原始像素值的调整,从而降低前景图像和背景图像之间图像参数的差异,提升了前景和背景之间的和谐度。
此外,由于根据L个调整参数实现原始像素值的调整为针对像素值进行的线性调整,相较于相关技术中采用复杂的神经网络模型的方式,本申请实施例提供的方法采用更为轻量型的图像处理方式实现了前景图像的处理,方法实现复杂度更低,设备功耗消耗更小,因而对于处理能力不高的设备也能够顺利的运行该方法来实现画面和谐度的调整,提升画面中前景和背景之间的和谐度,以提升图像的视觉效果。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的图像处理方法的流程示意图;
图3A~图3C为本申请实施例提供的前景重光照模型的结构示意图;
图4为本申请实施例提供的重光照曲线的一种示意图;
图5A和图5B为本申请实施例提供的针对视频的处理示意图;
图6为本申请实施例提供的图像分割过程的示意图;
图7为本申请实施例提供的前景重光照模型的训练过程的流程示意图;
图8为本申请实施例提供的图像处理方法的应用示意图;
图9为本申请实施例提供的在视频上的改进示意图;
图10为本申请实施例提供的图像处理结果的示例图;
图11为本申请实施例提供的图像处理装置的一种结构示意图;
图12为本申请实施例提供的计算机设备的组成结构示意图;
图13为应用本申请实施例的另一种计算机设备的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
可以理解的是,在本申请的下述具体实施方式中,涉及到用户相关的数据,例如采集用户的人像数据,当本申请的各实施例运用到具体产品或技术中时,需要获得相关许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
前景图像和背景图像:对于给定的一张图像,前景是指位于该图像画面中主体之前的部分,例如通常是靠近相机镜头的静物或人物,背景是指位于主体之后的部分,例如通常远离相机镜头。前景和背景的组合,可以增强画面的层次感和氛围感,表达出一定的空间关系,前景包含的内容通常是整个环境的重要组成部分,背景主要用于丰富画面空间内容、介绍环境特点、增加画面层次和平衡构图。通过图像分割技术,可以将一张图像中的前景和背景分割出来,最终得到的包含前景的图像分割结果即为前景图像,包含背景的图像分割结果即为背景图像。
前景重光照(relighting):也可以称为前景重照明。前景重光照是指对前景图像的光照条件进行重新调整的一种方式,例如当需要替换背景时,前景重光照相当于根据背景图像的光照条件对前景图像中的主体重新进行了光照条件的配置,使之能够符合背景场景下的光照条件。例如,前景重光照是一种通过对前景图像的光照、颜色或灰度等图像参数进行调整,来使得前景图像与背景图像在视觉效果上的和谐度更高的一种方法。若前景图像为人像,则前景重光照也可以称为人像重光照或者人像重照明。
特征值区间:本申请实施例中,将像素点的特征值所对应的完整区间划分为了多段,每一段为一个特征值区间,不同的特征值区间之间互不重叠,且所有特征值区间的组合即为像素点的特征值所对应的完整区间。
本申请实施例涉及人工智能(Artificial Intelligence,AI)技术,主要基于人工智能中的计算机视觉技术(Computer Vision,CV)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,本申请实施例的方案主要涉及到计算机视觉技术和机器学习方向。
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例的方案主要涉及到图像识别和视频处理等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。本申请实施例的方案中,涉及到采用机器学习技术来实现所需要的前景重光照模型的训练。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉和机器学习等技术,具体涉及到采用机器学习技术来训练前景重光照模型,训练完成后的
本申请实施例中涉及根据背景图像和前景图像确定对前景图像进行特征调整的调整参数集,进而根据该调整参数集对该前景图像进行特征值的调整,最终将前景后的前景图像和背景图像进行合成得到背景替换图像。其中,该过程则可以采用基于深度学习的前景重光照模型,即本申请实施例采用机器学习的方法获得实现前景重光照的前景重光照模型,前景重光照模型基于机器学习实现对前景图像进行重光照处理的能力,例如基于背景图像和前景图像的图像特征来确定使得二者之间的和谐度更高的调整参数集,从而基于此调整参数集对前景图像进行特征调整,得到调整后的前景图像,调整后的前景图像能够与背景图像更好的进行融合。
具体而言,在本申请实施例中的前景重光照可分为两部分,包括训练部分和应用部分。其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练人工神经网络模型(即后续提及的前景重光照模型),使得基于本申请实施例中给出的训练样本数据训练人工神经网络模型,并通过优化算法不断调整模型参数,直至模型收敛;应用部分用于使用在训练部分训练得到的人工神经网络模型来对实际使用过程中的前景图像进行重光照处理。另外,还需要说明的是,本申请实施例中人工神经网络模型可以是在线训练也可以是离线训练,在此不做具体限定。在本文中是以离线训练为例进行举例说明的。
相关技术中,针对视频的处理主要是针对整体画面进行增强(例如亮度增强)或者去噪的处理,对于前景图像与背景图像的光照条件不一致所带来的和谐度不高的情况的效果并不佳。
进一步地,在对视频进行处理时,往往是采用深度学习的方法训练的神经网络模型进行的,这些神经网络模型往往采用复杂的网络结构,且需要根据替换背景后的图像逐像素生成新的图像,模型复杂度较高,不仅设备功耗消耗大,随着图像分辨率的增加,算法的功耗以及运行时间都会随之增加,并且,对于一些处理能力不高的设备,例如CPU的处理能力不足以满足复杂的神经网络模型需求,则可能无法运行如此复杂神经网络模型,导致无法对画面进行和谐度的调整。此外,往往需要耗费较长的时长,无法满足一些场景对于实时性的要求。例如,对于个人计算机(personal computer,PC)而言能够运行复杂的神经网络模型,而对于移动端而言由于算力有限,不利于这些复杂的神经网络模型的实时运行。
基于此,本申请实施例提供了一种图像处理方法,在该方法中,通过以背景图像为基准图像,确定对前景图像中的像素点进行特征值调整的调整参数集,该调整参数集包括L个互不重叠的特征值区间各自的调整参数,进而根据调整参数集对前景图像中的每一个像素点在L个特征值区间内的子特征值进行调整,最终根据调整后的前景图像和背景图像得到背景替换图像。也就是说,在该方法中,只需要以背景图像为基准,确定出前景图像的L个调整参数,就可以根据这L个调整参数实现原始像素值的调整,从而降低前景图像和背景图像之间图像参数的差异,提升了前景和背景之间的和谐度。
此外,由于根据L个调整参数实现原始像素值的调整为针对像素值进行的线性调整,相较于相关技术中采用复杂的神经网络模型的方式,本申请实施例提供的方法采用更为轻量型的图像处理方式实现了前景图像的处理,方法实现复杂度更低,设备功耗消耗更小,因而对于处理能力不高的设备也能够顺利的运行该方法来实现画面和谐度的调整,提升画面中前景和背景之间的和谐度,以提升图像的视觉效果。并且,由于该方法的实现复杂度低,耗费时长较少,实时性更高,对于一些实时性高或者处理能力不高的场景同样适用。
本申请实施例中,为了进一步的减少硬件压力,还可以将针对视频中的第一帧获得的调整参数集应用到后续的视频帧的特征调整中,则后续的视频帧无需进行调整参数集的获取,能够大幅度的降低设备的处理压力。
下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。本申请实施例提供的方案可以适用于涉及到图像背景替换的场景中,比如适用于泛娱乐领域以及线上办公领域的图像背景替换场景中。如图1所示,为本申请实施例提供的一种应用场景示意图,在该场景中,可以包括终端设备101和服务器102。
终端设备101例如可以为手机、平板电脑(PAD)、笔记本电脑、台式电脑、智能家电、智能语音交互设备、智能车载设备、飞行器以及智能可穿戴设备等设备。终端设备101可以安装有目标应用,目标应用具备获取和呈现图像或者视频的功能,例如可以为即时通信应用、音乐应用、视频应用、短视频应用、新闻应用以及购物应用等。本申请实施例涉及的应用可以是软件客户端,也可以是网页、小程序等客户端,服务器102则是与软件或是网页、小程序等相对应的服务器,不限制客户端的具体类型。服务器102例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云端服务器,但并不局限于此。
需要说明的是,本申请实施例中的图像处理方法可以由终端设备101或服务器102单独执行,也可以由服务器102和终端设备101共同执行。例如,由终端设备101获得背景图像和前景图像之后,根据背景图像和前景图像获得对前景图像进行特征调整的调整参数集,并根据该调整参数集对前景图像中的每一个像素点的原始像素值在各个特征值区间中的子特征值进行特征调整,以根据调整后的在特征值获得每一个像素点对应的目标特征值,最终根据调整后的前景图像和背景图像获得背景替换图像,或者由服务器102单独执行该过程。再或者,由终端设备101获得背景图像和前景图像之后,请求服务器102根据背景图像和前景图像获得对前景图像进行特征调整的调整参数集,之后终端设备101根据该调整参数集对前景图像中的每一个像素点的原始像素值在各个特征值区间中的子特征值进行特征调整,以根据调整后的在特征值获得每一个像素点对应的目标特征值,最终根据调整后的前景图像和背景图像获得背景替换图像。本申请在此不做具体限定,下文主要是以终端设备101或服务器102单独执行为例进行举例说明的。
以终端设备101或服务器102单独执行为例,服务器102或终端设备101可以包括一个或多个处理器、存储器以及与交互I/O接口等。其中,服务器102或终端设备101的存储器中还可以存储本申请实施例提供的图像处理方法中各自所需执行的程序指令,这些程序指令被处理器执行时能够用以实现本申请实施例提供的图像处理过程。
在一种可能的实施方式中,本申请实施例的方法可以应用于短视频场景中,例如可以根据本申请实施例的方法对用户提供的待替换场景的短视频A进行背景替换场景,来获得替换了背景的短视频B,短视频A和短视频B中的前景相同但背景不同。该方法可以实现对于前景图像进行特征调整,使得前景图像和背景图像之间的和谐度更高,最终得到的短视频B中前景和背景之间更加和谐,降低前景与背景在视觉效果上的割裂的情况。并且,由于在对前景图像进行特征调整时是根据调整参数集对其进行线性调整,因而特征调整过程的复杂度不高,对于设备的处理能力的要求也就不高,且特征调整过程无需耗费过多的时长,从而能够适用于一些处理能力不高且实时性要求高的场景中。
在一种可能的实施方式中,本申请实施例的方法可以应用于线上办公场景中。例如,在线上办公需要进行视频会议时,可以对拍摄的用户的会议视频实时的替换背景,该方法可以实现对于前景图像进行特征调整,使得前景图像和背景图像之间的和谐度更高,最终得到的会议视频中前景和背景之间更加和谐,降低前景与背景在视觉效果上的割裂的情况。并且,由于在对前景图像进行特征调整时是根据调整参数集对其进行线性调整,因而特征调整过程的复杂度不高,对于设备的处理能力的要求也就不高,且特征调整过程无需耗费过多的时长,以满足视频会议场景中实时替换背景的需求。
该方法在其他背景替换场景中的实现过程与上述场景中类似,因而在此不再过多赘述。
本申请实施例中,终端设备101和服务器102之间可以通过一个或者多个网络103进行直接或间接的通信连接。该网络103可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(Wireless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本申请实施例对此不做限制。
需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。并且,在一些场景中,终端设备101和服务器102也可以为同一个设备,也就是说终端设备101和服务器102的功能可以通过同一个设备来实现。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的图像处理方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参见图2所示,为本申请实施例提供的图像处理方法的流程示意图,该方法可以由计算机设备来执行,该计算机设备可以为图1所示终端设备和/或服务器,该方法的具体实施流程如下:
步骤201:获得目标图像中的图像分割结果,以及获得背景图像,所述图像分割结果用于指示所述目标图像中的前景图像。
本申请实施例中,目标图像为待替换背景的原始图像,前景图像包含该目标图像的前景部分,前景通常是一个图像中的主体内容部分,例如可以为图像中的人、人脸或者动物等。背景图像为替换目标图像中的背景的图像。
在一种可能的实施方式中,背景图像可以为用户选择的图像。例如,用户可以自行上传图像作为背景图像,或者,用户可以在给定的背景图像示例中选择图像作为背景图像。例如,在目标应用中,可以向用户呈现多种可选的背景贴纸,用户可以从中选择所需的背景贴纸作为背景图像。
在另一种可能的实施方式中,背景图像还可以为根据目标图像的内容所匹配得到的图像,例如根据目标图像的前景部分的内容所匹配得到的图像。示例性的,前景部分包含人像,则可以匹配作为人像背景的图像作为背景图像,例如家居场景或者酒店场景;或者,前景部分包含动物,则可以匹配作为动物背景的图像作为背景图像,例如野外场景。
本申请实施例中,目标图像可以为用户选择的一张图像,也可以为一个视频中的一个视频帧,该视频为待替换背景的视频。以视频为例,待替换背景的视频称为原始视频,则获得待替换背景的原始视频之后,则可以从原始视频中确定出目标图像。
步骤202:以背景图像为基准图像,确定对前景图像中的像素点进行特征值调整的调整参数集,调整参数集包括L个互不重叠的特征值区间各自的调整参数,每个调整参数表征相应特征值区间的调整程度。
其中,将像素点的特征值所属的完整区间划分为L个特征值区间,每个特征值区间为该完整区间的一部分,且各个特征值区间之间互不重叠。在进行区间划分时,各个特征值区间的区间范围可以是相同的,即将完整区间均等的划分为L个区间;或者,各个特征值区间的区间范围也可以不同的。对于特征值区间的数量L,可以根据经验进行设定,也可以根据实验进行测定。通常而言,L的取值越大,特征值区间越多,则整个方法的复杂度更高,相对应的特征值调整也更为精准,因此在实际场景中可以综合考虑复杂度和准确性来确定L的取值。
例如,完整区间为[0,255],若L为4,则可以将[0,255]划分为4个区间,分别为[0,255/4)、[255/4,255*2/4)、[255*2/4,255*3/4)和[255*3/4,255]。
又例如,为了计算的复杂度,提高模型性能,还可以将完整区间进行归一化处理,例如将[0,255]归一化至[0,1],若L为4,则可以将[0,1]划分为4个区间,分别为[0,1/4)、[1/4,1/2)、[1/2,3/4)和[3/4,1]。
其中,调整参数集包括L个调整参数,每个调整参数对应一个特征值区间,用于表征一个特征值区间的调整程度,即针对该特征值区间的子特征值进行特征调整的程度。可以理解为,调整参数能够影响像素点的特征值的调整程度的高低。
考虑到图像通常采用红(red,R)、绿(green,G)、蓝(blue,B)三颜色通道进行表达,因而调整参数集可以包括每个颜色通道上的子参数集,即每个颜色通道上都可以对应一个子参数集,该子参数集包括L个调整参数,每个调整参数用于对该颜色通道上的特征值进行特征调整。或者,当图像采用其他图像格式时,如非线性映射的图像格式是,可以先将图像转换到RGB格式,再预测各个颜色通道上的子参数集。
在一种可能的实施方式中,可以采用已训练的前景重光照模型,来以背景图像为基准图像,确定对前景图像中的像素点进行特征值调整的调整参数集,即将背景图像和目标图像的图像分割结果(例如前景图像)作为输入,输入到前景重光照模型中,以得到前景重光照模型输出的调整参数集。其中,前景重光照模型是通过采用深度学习技术训练得到的神经网络模型,通过训练过程中不断地调整模型的权重参数,使得前景重光照模型得以准确的预测调整参数集,那么采用该前景重光照模型获得调整参数集,有助于提升调整参数集的准确性。
参见图3A所示,为一种可能的前景重光照模型的结构示意图。将背景图像和目标图像的图像分割结果输入到前景重光照模型中后,采用已训练的前景重光照模型,对背景图像和前景图像,执行如下步骤:
首先,对背景图像和目标图像的图像分割结果进行图像特征提取,获得图像特征集。其中,该图像特征集包括前景图像和背景图像各自的图像特征,图像特征可以包括用于表征光照条件的特征,当然,除此之外,还可以包括其他特征,对此不做限制。特征提取的过程可以采用如图3A所示编码器来进行,该编码器用以实现对前景图像和背景图像进行图像特征的编码,以得到图像特征集。该编码器用于学习输入的背景图像和前景图像的隐式特征,其可以采用任意可能的图像编码器来实现,考虑到整个网络的轻量性,可以选取较为轻量型的编码器。
在一种可能的实施方式中,该编码器可以采用VGGNet、mobile net或者mobilenetV2的骨干(backbone)网络来实现,mobile net为可应用于移动端或嵌入式设备中的轻量级CNN网络,在能够满足准确性的基础上大大减少了模型的参数和运算量,有助于减少调整参数集获取的时长,提升重光照过程的效率。
在得道图像特征集之后,可以根据该前景重光照模型包括的特征映射子网络,对图像特征集进行特征映射处理,获得调整参数集。参见图3A所示,特征映射子网络级联在编码器之后,用于对编码器输出的图像特征集进行特征映射以得到调整参数集。其中,特征映射子网络通过模型的训练过程,得以能够实现将提取得到的图像特征集映射到一个调整参数集,即该特征映射子网络包括了已训练的图像特征集与调整参数集之间的映射关系,或者说,特征映射子网络具备识别当前的图像特征集所需要的调整参数集的能力。
具体的,特征映射子网络可以通过基于线性回归的处理层来实现。例如图3A所示,特征映射子网络包括3个head,每个head都可以是一个线性回归层,例如可以为一个全连接层(Fully Connected,FC),FC也可以称为密集连接层或多层感知机层,可通过学习样本和标签之间的关系,用于模型的输出预测,例如分类或者回归等任务的预测。
参见图3B和图3C所示,为另一种可能的前景重光照模型的结构示意图。与图3A中不同的是,在图像特征提取之前,还可以先对前景图像和背景图像在图像通道维度上进行拼接,获得拼接图像,拼接图像的图像通道数量为前景图像和背景图像的图像通道数量的总和,再对拼接图像进行分辨率调整(resize)处理,获得调整后的拼接图像,调整后的拼接图像的分辨率小于拼接图像的分辨率,最终对调整后的拼接图像进行图像特征提取,获得图像特征集,进而根据该图形特征集进行特征映射来得到相应的调整参数集。
其中,在图像通道维度上进行拼接也可以称为concat操作,是指将背景图像和前景图像按照通道进行对位叠加的过程,例如背景图像为3通道图像,前景图像也为3通道图像,则拼接后的拼接图像为6通道图像;或者,背景图像为3通道图像,前景图像(例如掩码图像)也为1通道图像,则拼接后的拼接图像为4通道图像。
在一种可能的实施方式中,如图3B所示,前景重光照模型的输入为前景图像和背景图像,则可以将前景图像和背景图像进行拼接。或者,如图3C所示,前景重光照模型的输入为前景图像和背景图像融合后的融合图像,以及目标图像的掩码图像,该掩码图像用于指示融合图像中哪些部分为前景图像,那么则可以将融合图像和掩码图像进行拼接。
本申请实施例中,分辨率调整处理的目的在于降低图像的分辨率,从而降低后续处理时的计算量,以及将输入的图像规整到一个指定的分辨率上,以便于后续的处理。分辨率调整处理的方式可以采用是图像降采样(downsampling)或者池化(pooling)处理的方式来进行。
如图3C所示,以目标对象为人为例,则图像分割结果为人像分割结果,该前景重光照模型基于mobile net的backbone建立的轻量级网络,输入为重光照之前的图像和前面得到的人像分割结果,输出为则为调整参数集。其中,在网络推理的过程中,输入的图像与人像分割结果首先做下采样到低分辨率,然后将下采样的结果送入到前景重光照网络,该网络由一个与MobileNetV2结构类似的encoder与三个head组成。其中,encoder用来学习一个输入的图像与分割结果的隐式特征,后续的三个head用于将这个隐式特征回归为三通道的重光照曲线(即调整参数集)。
在另一种可能的实施方式中,还可以采用统计前景图像和背景图像中的各项图像参数,例如颜色、灰度、亮度或者曝光等,进而以背景图像的图像参数基准,根据前景图像和背景图像中的各项图像参数之间的差异度,来确定对前景图像中的像素点进行特征值调整的调整参数集。
步骤203:对于前景图像的每一个像素点,根据每一个像素点的原始特征值,确定每一个像素点对应于L个特征值区间的子特征值。
相关技术中,图像处理算法大多都是像素级别的生成图像的做法,在这些算法中需要一个重量级的解码网络作为算法网络的输出,这样不可避免会引入到算法的耗时较长的问题,功耗会随着图像的分辨率增加而增大,从而无法应用至对实时性需求较高的应用场景中。为了解决这个问题,本申请实施例中采用了传统图像处理中颜色曲线的方法,对目标图像中的前景部分做一个全局的曲线映射,以得到相应调整后的前景图像的处理结果,这种处理方式的算法耗时较小,对于实时性需求较高的应用场景尤其适合。
具体的,将前景重光照的过程抽象为一个图像处理领域的曲线映射问题,该曲线称为重光照曲线,重光照曲线的调整参数量化为L段,L为曲线的分段数量,每一段的调整参数为k l ,l=0,1,2,…,L-1表示每一个曲线分段的编号,L个调整参数k l 即为上述的调整参数集。即,一个调整参数集可以表示为:
K=(k 0 ,k 1 ,k 2 ,……,k L-1 )
参见图4所示,为重光照曲线的一种示意图,即完整的特征值区间划分为L段,即[0,1/L)、[1/L,2/L)、[2/L,3/L)和[3/L,1],图3C中以L=4为例进行示出,则各个特征值区间为[0,1/4)、[1/4,1/2)、[1/2,3/4)和[3/4,1],相应的,调整参数集为K=(k 0 ,k 1 ,k 2 ,k 3 ),每个调整参数对应一个特征值区间。
本申请实施例中,将特征值区间划分为L段之后,对于每一个特征值,都可以认为是由这个多个特征值区间对应的子特征值组合得到的。例如,一个特征值可以为各个特征值区间对应的子特征值的总和,即可以表达为:
具体的,针对L个特征值区间,分别执行如下操作,以确定每一个像素点对应于L个特征值区间的子特征值:
针对每一个特征值区间,若原始特征值位于该特征值区间内,则在该特征值区间的子特征值为原始特征值与一个特征值区间的最小值的差值。如图4所示,x 0 位于特征值区间[1/2,3/4)内,x 0 在[1/2,3/4)内的子特征值δ 2 (x 0 )为x 0 与1/2之间的差值。
若原始特征值大于特征值区间的最大值,在该特征值区间的子特征值为一个特征值区间的最大值和最小值之间的差值。如图4所示,x 0 大于[0,1/4)和[1/4,1/2)的最大值,则x 0 在[0,1/4)和[1/4,1/2)内的子特征值即为这两个特征区间的区间长度,也就是1/4。
若原始特征值不大于特征值区间的最小值,则子特征值为零。如图4所示,由于x 0 尚未进入到[3/4,1]内或者认为x 0 在[3/4,1]内的子特征值为0。
例如,对应于L个特征值区间的子特征值可以采用如下的公式进行表示:
其中,L为分段数量,l=0,1,2,…,L-1表示每一个分段的编号。上述的公式也可以理解为,当一个像素点的特征值x位于一个特征值区间中时,即满足上述的第二种情况,则子特征值为x-1/L,当一个像素点的特征值x位于一个特征值区间的左侧时,即满足上述的第一种情况,则子特征值为0,当一个像素点的特征值x位于一个特征值区间的右侧时,则子特征值为1/L。
从而,该x 0 可以由[0,1/4)内的子特征值1/4、[1/4,1/2)内的子特征值1/4以及[1/2,3/4)内的子特征值δ 2 (x 0 )组成。
由此,对于每一个像素点的特征值,都可以采用上述的方式来确定其在各个特征值区间内的子特征值。
此外,考虑到图像的多通道,则每个通道的图像可以分别按照上述的方式独自进行特征调整,即每个通道内像素点的子特征值的确定方式都可以采用上述的方法。
步骤204:根据调整参数集对获得的L个子特征值进行特征调整,并根据调整后的L个子特征值,确定每一个像素点的目标特征值。
本申请实施例中,将前景重光照的过程抽象为一个图像处理领域的曲线映射问题,那么在前景重光照的过程中,对于目标图像中的前景部分的每一个像素x,都可以根据获得的调整参数中的L个调整参数,对L个子特征值进行线性的特征调整,来得到L个调整后的子特征值,进而根据调整后的L个子特征值,确定每一个像素点的目标特征值。例如,L个子特征值的总和即为当前像素点的目标特征值。
在一种可能的实施方式中,调整参数与目标特征值可以呈正比例关系,也就是说,调整参数越大,特征调整的程度越高,调整后的子特征值越大,调整后的目标特征值越大。调整参数越小,特征调整的程度越低,调整后的子特征值越小,调整后的目标特征值越小。
例如,重光照过程的线性映射过程可以采用如下公式进行表达:
其中R(x),表征一个像素点的原始特征值x映射之后的目标特征值。结合图4也可以看到,即为重光照曲线的每一个分段的斜率参数,因此,前景重光照模型的目的也可以理解为预测前景图像的重光照曲线的斜率参数,对于多通道的图像,前景重光照模型可以用于预测前景图像在各个通道上各自的重光照曲线的斜率参数。
步骤205:根据前景图像的各个像素点各自的目标特征值与背景图像,获得目标图像的背景替换图像。
具体的,当前景图像和背景图像尚未进行融合时,则可以根据调整后的前景图像,也就是各个像素点均采用各自的目标特征值时前景图像,来与背景图像进行融合,得到目标图像的背景替换图像。若是前景图像和背景图像尚已进行融合时,那么则可以根据掩码图像对融合图像中前景部分的特征值调整为目标特征值,则可以得到目标图像的背景替换图像。其中,背景替换图像中,其与目标图像中的前景部分的内容相同,但使用的背景为背景图像中的图像内容。
本申请实施例中,上述的介绍主要是针对一个目标图像进行的,在实际场景中,该目标图像可以是一张单独的图像,即上述的方法可以适用于针对单个图像进行背景替换时的优化。或者,该目标图像也可以是来自视频中的一个视频帧,即上述的方法可以适用于针对视频进行背景替换时的优化。下面,以目标图像为视频中的视频帧进行介绍。
在一种可能的实施方式中,目标图像可以为原始视频包括的任一个原始视频帧。即,原始视频中的任一个原始视频帧都可以作为目标视频,或者说,原始视频中的每一个原始视频帧都可以作为目标视频,即对各个原始视频帧逐一作为目标图像来实现背景替换。
那么,对于原始视频中的每一个原始视频帧,可以将每一个原始视频帧作为目标图像,并对目标图像进行图像分割处理,获得图像分割结果,并采用前述的方法来得到相应的背景替换图像。进而,可以根据原始视频包括的各个原始视频帧各自对应的背景替换图像,获得已替换背景的目标视频。这样,则可以实现针对视频中的各个视频帧进行背景替换的效果,提升画面中前景和背景之间的和谐度,以提升图像的视觉效果。由于本申请实施例提供的方法采用更为轻量型的图像处理方式实现了前景图像的处理,方法实现复杂度更低,设备功耗消耗更小,因而对于处理能力不高的设备也能够顺利的运行该方法来实现画面和谐度的调整,并且,由于该方法的实现复杂度低,耗费时长较少,实时性更高,有助于在对视频进行实时的重光照处理。
在实际场景中,背景替换的过程可以针对已拍摄的视频进行,那么可以在得到各个原始视频帧各自对应的背景替换图像之后合成目标视频。或者,背景替换的过程也可以针对实时拍摄的视频进行,那么实时的生成当前原始视频帧对应的背景替换图像并进行呈现,则对于用户而言,所感知到的即为替换背景后的目标视频帧。
在另一种可能的实施方式中,考虑到短时间内拍摄的视频内光照条件并不会发生突变,因此对于一段时间,可以选取其中一个原始视频帧作为目标图像来确定调整参数集,且这确定的调整参数集可以适用于其他视频帧的特征调整,从而能够减少调整参数集的确定次数,从而大幅度的降低设备的处理负担。
具体的,本申请实施例中,可以将预设时长内的其中一个原始视频帧,确定为目标图像,并对目标图像进行图像分割处理,获得图像分割结果,并采用前述的方法来得到相应的调整参数集。进而,对于预设时长内除目标图像之外的各个其他视频帧,则可以直接根据该调整参数集对一个其他视频帧的前景图像进行特征调整,并根据调整后的前景图像与背景图像,获得一个其他视频帧的背景替换图像。
其中,预设时长可以满足如下条件中的至少一个:
(1)预设时长包括的原始视频帧的数量不大于预设数量阈值。其中,预设数量阈值可以为根据经验或者实际情况设置的值。
例如,预设数量阈值可以为无穷大的值,即对于原始视频帧的数量并不限制,对于一个视频而言,可以仅对第一帧进行调整参数集的确定,而后续的视频帧均采用该调整参数集进行前景图像的特征调整。例如,参见图5A所示,选取视频帧1作为目标图像,获得调整参数集之后,则在该视频帧1之后的其他视频帧,如视频帧2~8以及之后的其他视频帧则可以使用该原始视频帧对应的调整参数集。这样,在一些光照条件并未变化的场景中,不仅能够成功的调整背景替换图像中前景和背景之间的和谐度,提升背景替换图像的视觉效果,且由于只需要针对第一帧进行调整参数集的预测,大大的减少了调整参数集预测的次数,能够更大程度的降低设备的处理负担,降低背景替换所需耗费的时长,提升背景替换的实时性。
又例如,可以按照预设数量阈值对视频进行划分,例如,预设数量阈值为N,则每N帧共用一个调整参数集,也就是说,对于N个视频帧,可以从该N个视频帧中选取一帧来确定调整参数集,该调整参数集可以用于其他N-1帧的前景图像的特征调整。示例性的,对于N个视频帧,可以根据第一帧和背景图像确定调整参数集,进而该调整参数集可以适用于后续的N-1帧的特征调整。例如,参见图5B所示,可以选取每5个视频帧作为预设时长的划分,那么对于前5个视频帧,视频帧1作为目标图像,获得调整参数集之后,则在该视频帧1之后的其他视频帧,即视频帧2~5则可以使用该原始视频帧对应的调整参数集,而到视频帧6之后,则可以重新将视频帧6作为目标图像,获得调整参数集之后,则在该视频帧6之后的其他视频帧,即视频帧7~10则可以使用该原始视频帧对应的调整参数集,以此类推。这样,在光照条件可能会变化的场景中,也可以采用该方法准确的实现前景和背景之间和谐度的调整,且也能够适当的减少调整参数集预测的次数,以降低设备的处理负担,降低背景替换所需耗费的时长,提升背景替换的实时性。
(2)预设时长内相邻的原始视频帧之间的图像参数的变化值不大于预设变化值阈值。即,可以针对相邻的原始视频帧之间的变化进行检测,例如可以针对与光照条件相关的图像参数进行检测,当图像参数的变化值不大于预设变化值阈值时,则表明该视频的光照条件变化不大,则可以继续使用之前得到的调整参数集,从而减少调整参数集预测的次数,以降低设备的处理负担,降低背景替换所需耗费的时长,提升背景替换的实时性。
本申请实施例中,在确定目标图像之后,通过对目标图像进行图像分割处理,则可以获得目标图像包括的前景图像。
在一种可能的实施方式中,可以采用图像分割算法来分割目标图像的前景和背景。图像分割算法用于将目标图像中目标对象的轮廓与背景部分进行分离,图像分割结果可以包括分割后的二值图、灰度图、透明背景的包含目标对象的前景图像,其中,上述的前景图像则可以为该透明背景的包含目标对象的前景图像。
例如,对于目标对象为人体时,则图像分割算法也可以为人像分割算法,用于将人体轮廓与图像背景进行分离,返回图像分割结果,即分割后的二值图、灰度图、透明背景的人像前景图像。
其中,图像分割算法可以采用任意的方法进行。
例如,图像分割算法可以为基于颜色和纹理的方法,该方法是基于目标对象(如人体或动物)通常具有与背景不同的颜色和纹理,进而通过分析图像中的颜色和纹理特征,来将目标对象(如人体或动物)与背景区分割开来,例如GrabCut算法或MeanShift算法等。
又例如,图像分割算法可以为基于边缘检测的方法,该方法通过检测图像中的边缘信息来实现分割,边缘是图像中明显颜色或亮度变化的区域,通常可以用于将目标对象(如人体或动物)与背景分离开来,例如Canny边缘检测或索贝尔(Sobel)算子等。
再例如,图像分割算法可以为基于深度学习的方法,基于深度学习的方法是较为有效的方法之一,例如对于人像分割而言,该方法通过利用神经网络模型,通过大量标注的人像数据进行训练,从而实现高精度的人像分割,例如包括U-Net、掩膜基于区域的卷积神经网络(Mask Region-based Convolutional Neural Network,Mask R-CNN)模型或基于编码器-解码器(encoder-decoder)的模型结构等。
本申请实施例中,在对目标图像进行图像分割时,可以先对目标图像进行特征提取,获得目标图像的图像特征,进而根据该图像特征来实现对目标图像的图像分割,得到目标图像的前景图像。
以基于深度学习的方法为例,则可以预先训练一个神经网络模型,用于实现对目标图像进行图像分割。以encoder-decoder模型为例,则可以将目标图像输入至一个encoder中,通过该encoder学习目标图像的特征,然后在解码阶段,通过一个decoder根据学习到的图像特征输出分割结果,从而得到图像分割结果。其中,encoder例如可以采用mobile net等较为轻量型的网络结构,以提升图像处理的实时性,降低设备的处理负担。
示例性的,在实时视频场景中,可以将获得的每一个视频帧输入到上述的神经网络模型中,来得到该视频帧的图像分割结果,该图像分割结果包含该视频帧的前景图像。
在另一种可能的实施方式中,考虑到在一些场景中,是针对特定的目标对象进行背景的替换,例如办公场景中往往是需要将出人像之外的背景替换,但是在目标图像中可能存在不包括目标对象的情况,那么这样的背景替换实质上并无实质上的作用,因此,本申请实施例中,还可以对目标图像进行对象检测,根据是否存在目标对象的判断结果来确定最终的图像分割结果。
具体的,在获得目标图像之后,可以对目标图像进行图像特征提取,获得目标图像的图像特征。进而,根据该图像特征对目标图像进行对象检测,获得对象检测结果,对象检测结果用于指示目标图像中是否包括目标对象。当对象检测结果指示目标图像中包括目标对象时,根据该图像特征进行图像分割处理,获得包含目标对象的前景图像。
当对象检测结果指示目标图像中未包括目标对象时,则可以跳过该目标图像不进行图像分割,例如后续可以将目标图像的背景替换图像直接确定为背景图像,即由于目标图像中没有包含目标对象,则呈现替换背景后呈现出的画面仅仅为背景图像的内容,那么可以直接将背景替换图像确定为背景图像。或者,也可以输出预设掩码图像作为图像分割结果,那么后续可以根据预设掩码图像,对目标图像与背景图像进行合成处理,来获得目标图像的背景替换图像。其中,预设掩码图像中的每一像素点均为预设特征值,预设特征值用于指示相应的像素点为非目标对象的像素点,例如预设特征值为0或者255等。
其中,目标对象可以为人、动物或者其他主体对象,本申请实施例对此不做限制。以人像分割为例,对于给定的目标图像,分割过程可以参见图6所示。首先将目标图像送入一个encoder中学习目标图像的图像特征,然后在解码阶段,先会通过一个对象检测模块根据图像特征判断目标图像中是否存在人像,如果存在人像,即判断结果为是,则通过一个decoder根据图像特征进行特征解码,来得到相应的图像分割结果,从而得到更准确的人像分割结果。如果不存在人像,即判断结果为否,则直接输出一个黑色的mask,表征该目标图像中不包含人像。
本申请实施例中的对象检测模块也可以称为class-cove模块,用于实现检测目标图像中是否存在目标对象(例如人或者动物),对象检测模块可以通过目标检测算法来实现,目标检测算法可以识别出图像中的指定类别。例如,目标检测算法可以实现对目标图像中的物品的类别进行识别的功能,进而可以从中确定出目标对象对应的类别,得到图像中是否包含该类别的检测结果。或者,对象检测模块也可以通过其他可能的检测方式来实现,本申请实施例对此不做限制。
本申请实施例中,通过获得前景图像之前增加了对象检测的步骤,能够确定目标图像中是否存在目标对象(例如人像),从而准确的确定前景图像的获得方式,例如当不存在目标对象时,则可以直接输出掩码图像,从而无需调用分割模型实现分割过程,节省了设备的处理能力。
本申请实施例中,在前景重光照模型使用之前,需要对其进行训练。下面,对前景重光照模型的训练过程进行介绍。参见图7所示,为前景重光照模型的训练过程的流程示意图。
步骤701:获得多个训练样本,每个训练样本包括样本图像的原始前景图像、调整前景图像和背景图像,调整前景图像是对原始前景图像进行图像参数的调整得到的。
本申请实施例中,为了降低样本获取的难度,可以对样本图像中的前景部分进行图像参数的调整,使得前景和背景部分的和谐度 降低,以仿照不和谐的前景和背景的图像样本,来作为训练样本。其中,调整前景图像即为调整后的前景部分,原始前景图像即为调整之前的前景部分。
进而使用多个训练样本,对待训练的前景重光照模型进行多个迭代训练,直至满足迭代终止条件,其中,每一次迭代训练过程均是类似的,因此下面主要以一次为例进行介绍。在每一次迭代训练时,执行如下步骤:
步骤702:采用本次使用的前景重光照模型,以输入的训练样本包括的背景图像为基准图像,确定对相应训练样本中的调整前景图像进行特征值调整的调整参数集。
步骤703:根据调整参数集对相应调整前景图像进行特征调整。
针对每个训练样本,确定针对该训练样本中的调整前景图像进行特征值调整参数集,并根据调整参数集对调整前景图像的每个像素点进行特征值调整,该调整参数集的获取过程以及特征值调整过程可以参见前述部分的介绍,在此不在进行赘述。
步骤704:根据调整后的调整前景图像与原始前景图像之间的差异度,确定本次使用的前景重光照模型的模型损失值。
通过对比调整后的调整前景图像与原始前景图像,则可以知晓本申请实施例的前景重光照模型当前是否满足使用需求,即其准确性是否达到实际使用的标准。进而,根据调整后的调整前景图像与原始前景图像之间的差异度则可以在一定程度上表征前景重光照模型的准确性。
具体的,可以根据每个样本图像的调整后的调整前景图像与相应的原始前景图像之间的差异,获得前景重光照模型的模型损失值,模型损失值表征了当前前景重光照模型的预测的准确性,通常而言,模型损失值越小,则表征该模型的准确性越高,在训练过程中,则需要不断优化模型损失值,进而使得模型达到最优状态。
本申请实施例中,模型损失值可以采用任意可能的损失函数来计算,例如交叉熵损失函数(Cross Entropy Loss Function)、均方差(Mean Squared Error、MSE)损失函数、平方绝对误差损失函数、最大似然损失(Likelihood Loss,LHL)函数等,当然,也可以为其他可能的损失函数,本申请实施例对此不做限制。
步骤705:判断模型是否达到训练终止条件,若为是,则模型训练结束。
本申请实施例中,训练终止条件可以包括如下条件的至少一个:
(1)迭代次数达到设定的次数阈值。
(2)模型损失值小于设定的损失阈值。
当然,也可以为其他可能的条件,本申请实施例对此不做限制。
步骤706:若步骤705的结果为否,则基于模型损失值对本次使用的前景重光照模型进行参数调整。
本申请实施例中,当迭代次数未超过预先设定的次数阈值,且模型损失值不小于设定的损失阈值时,则步骤705的确定过程为否,即认为当前的前景重光照模型未满足迭代终止条件,那么需要调整模型参数继续进行训练。进行参数调整之后,则进入下一次迭代训练过程,即跳转至步骤702。
在一种可能的实施方式中,在模型仍不满足收敛条件时,可以通过梯度下降法、随机梯度下降算法等优化算法更新得到模型权重参数,以最小化上述的目标函数,并以更新后的模型权重参数继续进行训练,使得模型能够更好地预测调整参数集。
而当迭代次数已经超过预先设定的次数阈值,或者模型损失值小于设定的损失阈值时,则步骤705的确定过程为是,即认为当前的前景重光照模型已满足收敛条件,模型训练结束,获得已训练的前景重光照模型。
参见图8所示,为本申请实施例提供的图像处理方法的应用示意图。这里以在办公软件中对视频进行背景替换的场景为例,目前当用户更换背景后往往会出现前景与背景在视觉效果上的割裂,在这种情况下,本申请实施例的方案可以对前景做重光照的处理,使得前景与背景融合效果更好,从而可以提升整体画面的和谐度。
如图8所示,对于输入视频流中的每一个视频帧,都将输入到图像分割网络中进行人像分割,得到相应的人像分割结果,人像分割结果和背景贴纸将被输入到背景特效模块中进行处理,得到替换了背景特效的背景特效结果,可以看到直接替换背景的背景特效结果中,由于背景为一光线较暗的酒店大堂,而人像的光照十分充足,因此看起来违和感十足,因此,本申请实施例的方案通过将该背景特效结果与人像分割结果(例如人像前景或者掩码图像)进行concat和resize处理后,输入到前景重光照模型中,将通过该前景重光照模型预测对该背景特效结果中的人像前景进行relighting处理的重光照曲线,即前述的调整参数集,并根据该重光照曲线去背景特效结果中的前景部分进行特征值的映射,也就是调整前景部分的特征值,得到最终的前景relighting结果,可以看到,最终得到的结果中,人像前景的光照条件明显变暗了,与背景部分的违和感降低了。
并且,本申请实施例考虑到某些平台可能会有性能瓶颈,比如移动端,受到移动端算力的限制无法在每一帧都执行整套流程,结合用户的前景光照变化可能不大,因此第一帧预测的重光照曲线结果可以运用到后续的输入帧中,基于此在移动端对视频管道(pipeline)的处理做出了改进,参见图9所示,本申请实施例会针对首帧采用前景重光照模型预测相应的重光照曲线,并得到首帧的重光照结果,并且会把首帧得到的重光照曲线参数保存下来,用在后续的输入帧中,这样也可以得到正确的结果,如图9所示的后续帧的重光照结果。这样,后续的视频帧只需要做图像分割,然后用首帧得到的重光照曲线结果做后续的渲染即可,从而可以大大节约性能。
参见图10所示,为采用本申请实施例的方案,用户在不同背景下得到的背景替换图像。可看到在不同的场景中,由于场景光照条件(例如关照明暗度或者色彩)的不同,则应当人像会呈现出不同的视觉效果,通过本申请实施例的方案,可以使得根据背景图像中场景光照条件,对人像进行重光照处理,使得人像与背景部分之间的和谐度更高。
此外,对不同分辨率下本申请实施例的方案进行了性能评估,最终结果参见如下表1所示:
可以看到,采用不同分辨率的视频,即640x480、960x720和1280x960作为输入在相同的设备条件下所得到的每一个阶段的性能结果中,每一个阶段(人像分割、前景重光照或者平滑及渲染)的耗时都趋于稳定,不受到输入视频分辨率的影响,并且可以达到实时运行的标准。可见本申请实施例提供的方案的性能受输入视频分辨率的影响极小。
当本申请实施例的方案运用在移动端时,由于移动端的算力有限,采用了只在首帧运行前景重光照算法的方式,然后将得到的重光照曲线参数存下来,当处理后续帧时,会将首帧得到的曲线参数对后续帧的前景部分来做处理,从而在移动端可以实时的运行整套过程,且不同型号的设备性能表现如表2所示:
其中,各个芯片型号中,型号3的型号优于型号2,型号2的型号优于型号1,可以看到每个型号都可以满足满帧为30FPS的要求,且本申请实施例的方案在不同型号的机型上都可以达到满帧的效果。
请参见图11,基于同一发明构思,本申请实施例还提供了一种图像处理装置110,该装置包括:
图像获得单元1101,用于获得目标图像中的图像分割结果,以及获得背景图像,所述图像分割结果用于指示所述目标图像中的前景图像;
参数预测单元1102,用于以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集,所述调整参数集包括L个互不重叠的特征值区间各自的调整参数,每个调整参数表征相应特征值区间的调整程度;
特征调整单元1103,用于对于所述前景图像的每一个像素点,根据所述每一个像素点的原始特征值,确定所述每一个像素点对应于所述L个特征值区间的子特征值;以及,根据所述调整参数集对获得的L个子特征值进行特征调整,并根据调整后的L个子特征值,确定所述每一个像素点的目标特征值;
渲染单元1104,用于根据所述前景图像的各个像素点各自的目标特征值与所述背景图像,获得目标图像的背景替换图像。
在一种可能的实施方式中,图像获得单元1101,具体用于:
获得目标图像中的图像分割结果,包括:
获得待替换背景的原始视频,并从原始视频中确定目标图像,目标图像为原始视频包括的任一个原始视频帧;
对目标图像进行图像分割处理,获得图像分割结果;
则所述渲染单元1104,还用于:
根据原始视频包括的各个原始视频帧各自对应的背景替换图像,获得已替换背景的目标视频。
在一种可能的实施方式中,图像获得单元1101,具体用于:
将预设时长内的其中一个原始视频帧,确定为目标图像;
则在以背景图像为基准图像,确定对前景图像中的像素点进行特征值调整的调整参数集之后,方法还包括:
针对预设时长内除目标图像之外的各个其他视频帧,分别执行如下操作:
针对一个其他视频帧,根据调整参数集对一个其他视频帧的前景图像进行特征调整,并根据调整后的前景图像与背景图像,获得一个其他视频帧的背景替换图像。
在一种可能的实施方式中,预设时长满足如下条件中的至少一个:
预设时长包括的原始视频帧的数量不大于预设数量阈值;
预设时长内相邻的原始视频帧之间的图像参数的变化值不大于预设变化值阈值。
在一种可能的实施方式中,图像获得单元1101,具体用于:
对目标图像进行图像特征提取,获得目标图像的图像特征;
根据图像特征对目标图像进行对象检测,获得对象检测结果,对象检测结果用于指示目标图像中是否包括目标对象;
若对象检测结果指示目标图像中包括目标对象,根据图像特征进行图像分割处理,获得图像分割结果,图像分割结果指示包含目标对象的前景图像。
在一种可能的实施方式中,图像获得单元1101,具体用于:
若对象检测结果指示目标图像中未包括目标对象,确定目标图像的背景替换图像为背景图像;或者,
若对象检测结果指示目标图像中未包括目标对象,输出预设掩码图像,并根据预设掩码图像,对目标图像与背景图像进行合成处理,获得目标图像的背景替换图像;其中,预设掩码图像中的每一像素点均为预设特征值,预设特征值用于指示相应的像素点为非目标对象的像素点。
在一种可能的实施方式中,该装置还包括训练单元1105,用于:
获得多个训练样本,每个训练样本包括样本图像的原始前景图像、调整前景图像和背景图像,调整前景图像是对原始前景图像进行图像参数的调整得到的;
采用多个训练样本,对待训练的前景重光照模型进行多个迭代训练,直至满足迭代终止条件,其中,每一次迭代训练时,执行如下步骤:
采用本次使用的前景重光照模型,以输入的训练样本包括的背景图像为基准图像,确定对相应训练样本中的调整前景图像进行特征值调整的调整参数集;
根据调整参数集对相应调整前景图像进行特征调整,并根据调整后的调整前景图像与原始前景图像之间的差异度,对本次使用的前景重光照模型进行参数调整。
在一种可能的实施方式中,参数预测单元1102,具体用于:
采用已训练的前景重光照模型,对背景图像和前景图像,执行如下步骤:
对前景图像和背景图像进行图像特征提取,获得图像特征集,图像特征集包括前景图像和背景图像各自的图像特征,图像特征包括用于表征光照条件的特征;
根据前景重光照模型包括的特征映射子网络,对图像特征集进行特征映射处理,获得调整参数集,特征映射子网络包括已训练的图像特征集与调整参数集之间的映射关系。
在一种可能的实施方式中,参数预测单元1102,具体用于:
对前景图像和背景图像在图像通道维度上进行拼接,获得拼接图像,拼接图像的图像通道数量为前景图像和背景图像的图像通道数量的总和;
对拼接图像进行分辨率调整处理,获得调整后的拼接图像,调整后的拼接图像的分辨率小于拼接图像的分辨率;
则对前景图像和背景图像进行图像特征提取,获得图像特征集,包括:
对调整后的拼接图像进行图像特征提取,获得图像特征集。
在一种可能的实施方式中,特征调整单元1103,具体用于:
针对L个特征值区间,分别执行如下操作:
针对一个特征值区间,若原始特征值位于一个特征值区间内,则一个特征值区间的子特征值为原始特征值与一个特征值区间的最小值的差值;
若原始特征值大于一个特征值区间的最大值,则一个特征值区间的子特征值为一个特征值区间的最大值和最小值之间的差值;
若原始特征值不大于一个特征值区间的最小值,则子特征值为零。
通过上述装置,采用更为轻量型的图像处理方式实现了前景图像的处理,方法实现复杂度更低,设备功耗消耗更小,因而对于处理能力不高的设备也能够顺利的运行该方法来实现画面和谐度的调整,提升画面中前景和背景之间的和谐度,以提升图像的视觉效果。并且,由于该方法的实现复杂度低,耗费时长较少,实时性更高,对于一些实时性高或者处理能力不高的场景同样适用。
该装置可以用于执行本申请各实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述,不多赘述。
请参见图12,基于同一技术构思,本申请实施例还提供了一种计算机设备。在一种实施例中,该计算机设备可以为图1所示的服务器或者图2所示的云端对应的设备,该计算机设备如图12所示,包括存储器1201,通讯模块1203以及一个或多个处理器1202。
存储器1201,用于存储处理器1202执行的计算机程序。存储器1201可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1201可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1201也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1201是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1201可以是上述存储器的组合。
处理器1202,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1202,用于调用存储器1201中存储的计算机程序时实现上述图像处理方法。
通讯模块1203用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1201、通讯模块1203和处理器1202之间的具体连接介质。本申请实施例在图12中以存储器1201和处理器1202之间通过总线1204连接,总线1204在图12中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1204可以分为地址总线、数据总线、控制总线等。为便于描述,图12中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1201中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的图像处理方法,处理器1202用于执行上述各实施例的图像处理方法。
在另一种实施例中,计算机设备也可以是终端设备,如图1所示的终端设备。在该实施例中,计算机设备的结构可以如图13所示,包括:通信组件1310、存储器1320、显示单元1330、摄像头1340、传感器1350、音频电路1360、蓝牙模块1370、处理器1380等部件。
通信组件1310用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,计算机设备通过WiFi模块可以帮助用户收发信息。
存储器1320可用于存储软件程序及数据。处理器1380通过运行存储在存储器1320的软件程序或数据,从而执行终端设备的各种功能以及数据处理。存储器1320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1320存储有使得终端设备能运行的操作系统。本申请中存储器1320可以存储操作系统及各种应用程序,还可以存储执行本申请实施例图像处理方法的代码。
显示单元1330还可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1330可以包括设置在终端设备正面的显示屏1332。其中,显示屏1332可以采用液晶显示器、发光二极管等形式来配置。显示单元1330可以用于显示本申请实施例中的各种图像或者视频画面。
显示单元1330还可用于接收输入的数字或字符信息,产生与终端设备的用户设置以及功能控制有关的信号输入,具体地,显示单元1330可以包括设置在终端设备正面的触控屏1331,可收集用户在其上或附近的触控操作,例如点击按钮,拖动滚动框等。
其中,触控屏1331可以覆盖在显示屏1332之上,也可以将触控屏1331与显示屏1332集成而实现终端设备的输入和输出功能,集成后可以简称触控显示屏。本申请中显示单元1330可以显示应用程序以及对应的操作步骤。
摄像头1340可用于捕获静态图像,用户可以将摄像头1340拍摄的图像通过应用发布评论。摄像头1340可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1380转换成数字图像信号。
终端设备还可以包括至少一种传感器1350,比如加速度传感器1351、距离传感器1352、指纹传感器1353、温度传感器1354。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1360、扬声器1361、传声器1362可提供用户与终端设备之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出。终端设备还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出至通信组件1310以发送给比如另一终端设备,或者将音频数据输出至存储器1320以便进一步处理。
蓝牙模块1370用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1370与同样具备蓝牙模块的可穿戴计算机设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1380是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1320内的软件程序,以及调用存储在存储器1320内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1380可包括一个或多个处理单元;处理器1380还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1380中。本申请中处理器1380可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的图像处理方法。另外,处理器1380与显示单元1330耦接。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行本说明书上述描述的根据本申请各种示例性实施方式的图像处理方法中的步骤。
在一些可能的实施方式中,本申请提供的图像处理方法的各个方面还可以实现为一种计算机程序产品的形式,其包括计算机程序,当程序产品在计算机设备上运行时,计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像处理方法中的步骤,例如,计算机设备可以执行各实施例的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在计算机设备上运行。然而,本申请的程序产品不限于此,在本申请件中,可读存储介质可以是任何包含或存储程序的有形介质,其包括的计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种图像处理方法,其特征在于,所述方法包括:
获得目标图像中的图像分割结果,以及获得背景图像,所述图像分割结果用于指示所述目标图像中的前景图像;
以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集,所述调整参数集包括L个互不重叠的特征值区间各自的调整参数,每个调整参数表征相应特征值区间的调整程度,L为正整数;
对于所述前景图像的每一个像素点,根据所述每一个像素点的原始特征值,确定所述每一个像素点对应于所述L个特征值区间的子特征值;
根据所述调整参数集对获得的L个子特征值进行特征调整,并根据调整后的L个子特征值,确定所述每一个像素点的目标特征值;
根据所述前景图像的各个像素点各自的目标特征值与所述背景图像,获得目标图像的背景替换图像。
2.如权利要求1所述的方法,其特征在于,所述获得目标图像中的图像分割结果,包括:
获得待替换背景的原始视频,并从所述原始视频中确定所述目标图像,所述目标图像为所述原始视频包括的任一个原始视频帧;
对所述目标图像进行图像分割处理,获得所述图像分割结果;
在根据所述前景图像的各个像素点各自的目标特征值与所述背景图像,获得目标图像的背景替换图像之后,所述方法还包括:
根据所述原始视频包括的各个原始视频帧各自对应的背景替换图像,获得已替换背景的目标视频。
3.如权利要求2所述的方法,其特征在于,所述从所述原始视频中确定所述目标图像,包括:
将预设时长内的其中一个原始视频帧,确定为所述目标图像;
则在所述以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集之后,所述方法还包括:
针对所述预设时长内除所述目标图像之外的各个其他视频帧,分别执行如下操作:
针对一个其他视频帧,根据所述调整参数集对所述一个其他视频帧的前景图像进行特征调整,并根据调整后的前景图像与所述背景图像,获得所述一个其他视频帧的背景替换图像。
4.如权利要求3所述的方法,其特征在于,所述预设时长满足如下条件中的至少一个:
所述预设时长包括的原始视频帧的数量不大于预设数量阈值;
所述预设时长内相邻的原始视频帧之间的图像参数的变化值不大于预设变化值阈值。
5.如权利要求2所述的方法,其特征在于,在对所述目标图像进行图像分割处理,获得所述图像分割结果之前,所述方法还包括:
对所述目标图像进行图像特征提取,获得所述目标图像的图像特征;
根据所述图像特征对所述目标图像进行对象检测,获得对象检测结果,所述对象检测结果用于指示所述目标图像中是否包括目标对象;
则对所述目标图像进行图像分割处理,获得所述前景图像,包括:
若所述对象检测结果指示所述目标图像中包括所述目标对象,根据所述图像特征进行图像分割处理,获得所述图像分割结果,所述图像分割结果指示包含所述目标对象的所述前景图像。
6.如权利要求5所述的方法,其特征在于,在所述根据所述图像特征对所述目标图像进行对象检测,获得对象检测结果之后,所述方法还包括:
若所述对象检测结果指示所述目标图像中未包括所述目标对象,确定所述目标图像的背景替换图像为所述背景图像;或者,
若所述对象检测结果指示所述目标图像中未包括所述目标对象,输出预设掩码图像,并根据所述预设掩码图像,对所述目标图像与所述背景图像进行合成处理,获得所述目标图像的背景替换图像;其中,所述预设掩码图像中的每一像素点均为预设特征值,所述预设特征值用于指示相应的像素点为非目标对象的像素点。
7.如权利要求1~6任一所述的方法,其特征在于,在所述以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集之前,所述方法还包括:
获得多个训练样本,每个训练样本包括样本图像的原始前景图像、调整前景图像和背景图像,所述调整前景图像是对所述原始前景图像进行图像参数的调整得到的;
采用所述多个训练样本,对待训练的前景重光照模型进行多个迭代训练,直至满足迭代终止条件,其中,每一次迭代训练时,执行如下步骤:
采用本次使用的前景重光照模型,以输入的训练样本包括的背景图像为基准图像,确定对相应训练样本中的调整前景图像进行特征值调整的调整参数集;
根据所述调整参数集对相应调整前景图像进行特征调整,并根据调整后的调整前景图像与所述原始前景图像之间的差异度,对所述本次使用的前景重光照模型进行参数调整。
8.如权利要求7所述的方法,其特征在于,所述以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集,包括:
采用已训练的前景重光照模型,对所述背景图像和所述前景图像,执行如下步骤:
对所述前景图像和所述背景图像进行图像特征提取,获得图像特征集,所述图像特征集包括所述前景图像和所述背景图像各自的图像特征,所述图像特征包括用于表征光照条件的特征;
根据所述前景重光照模型包括的特征映射子网络,对所述图像特征集进行特征映射处理,获得所述调整参数集,所述特征映射子网络包括已训练的图像特征集与调整参数集之间的映射关系。
9.如权利要求8所述的方法,其特征在于,在对所述前景图像和所述背景图像进行图像特征提取,获得图像特征集之前,所述方法还包括:
对所述前景图像和所述背景图像在图像通道维度上进行拼接,获得拼接图像,所述拼接图像的图像通道数量为所述前景图像和所述背景图像的图像通道数量的总和;
对所述拼接图像进行分辨率调整处理,获得调整后的拼接图像,所述调整后的拼接图像的分辨率小于所述拼接图像的分辨率;
则所述对所述前景图像和所述背景图像进行图像特征提取,获得图像特征集,包括:
对所述调整后的拼接图像进行图像特征提取,获得所述图像特征集。
10.如权利要求1~6任一所述的方法,其特征在于,所述对于所述前景图像的每一个像素点,根据所述每一个像素点的原始特征值,确定所述每一个像素点对应于所述L个特征值区间的子特征值,包括:
针对所述L个特征值区间,分别执行如下操作:
针对一个特征值区间,若所述原始特征值位于所述一个特征值区间内,则所述一个特征值区间的子特征值为所述原始特征值与所述一个特征值区间的最小值的差值;
若所述原始特征值大于所述一个特征值区间的最大值,则所述一个特征值区间的子特征值为所述一个特征值区间的最大值和最小值之间的差值;
若所述原始特征值不大于所述一个特征值区间的最小值,则所述子特征值为零。
11.一种图像处理装置,其特征在于,所述装置包括:
图像获得单元,用于获得目标图像中的图像分割结果,以及获得背景图像,所述图像分割结果用于指示所述目标图像中的前景图像;
参数预测单元,用于以所述背景图像为基准图像,确定对所述前景图像中的像素点进行特征值调整的调整参数集,所述调整参数集包括L个互不重叠的特征值区间各自的调整参数,每个调整参数表征相应特征值区间的调整程度;
特征调整单元,用于对于所述前景图像的每一个像素点,根据所述每一个像素点的原始特征值,确定所述每一个像素点对应于所述L个特征值区间的子特征值;以及,根据所述调整参数集对获得的L个子特征值进行特征调整,并根据调整后的L个子特征值,确定所述每一个像素点的目标特征值;
渲染单元,用于根据所述前景图像的各个像素点各自的目标特征值与所述背景图像,获得目标图像的背景替换图像。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法的步骤。
13.一种计算机存储介质,其上存储有计算机程序,其特征在于,
该计算机程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,
该计算机程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410346229.4A CN118101862A (zh) | 2024-03-26 | 2024-03-26 | 图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410346229.4A CN118101862A (zh) | 2024-03-26 | 2024-03-26 | 图像处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118101862A true CN118101862A (zh) | 2024-05-28 |
Family
ID=91150574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410346229.4A Pending CN118101862A (zh) | 2024-03-26 | 2024-03-26 | 图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118101862A (zh) |
-
2024
- 2024-03-26 CN CN202410346229.4A patent/CN118101862A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN108427939B (zh) | 模型生成方法和装置 | |
EP4137991A1 (en) | Pedestrian re-identification method and device | |
CN111768425B (zh) | 图像处理方法、装置及设备 | |
CN112862828B (zh) | 一种语义分割方法、模型训练方法及装置 | |
CN113191495A (zh) | 超分模型的训练及人脸识别方法、装置、介质及电子设备 | |
CN112861575A (zh) | 一种行人结构化方法、装置、设备和存储介质 | |
CN111444826A (zh) | 视频检测方法、装置、存储介质及计算机设备 | |
CN111767906A (zh) | 人脸检测模型训练方法、人脸检测方法、装置及电子设备 | |
CN115131281A (zh) | 变化检测模型训练和图像变化检测方法、装置及设备 | |
CN114612987A (zh) | 一种表情识别方法及装置 | |
CN114359289A (zh) | 一种图像处理方法及相关装置 | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
CN114693952A (zh) | 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN117095006A (zh) | 图像美学评估方法、装置、电子设备及存储介质 | |
CN113284055A (zh) | 一种图像处理的方法以及装置 | |
CN113822117B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN118101862A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 | |
CN117151987A (zh) | 一种图像增强方法、装置及电子设备 | |
CN114332993A (zh) | 人脸识别方法、装置、电子设备及计算机可读存储介质 | |
CN115273224A (zh) | 一种基于高低分辨率双模态蒸馏的视频人体行为识别方法 | |
CN114973293A (zh) | 相似性判断方法、关键帧提取方法及装置、介质和设备 | |
WO2021189321A1 (zh) | 一种图像处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |