CN117252947A - 图像处理方法、装置、计算机、存储介质及程序产品 - Google Patents
图像处理方法、装置、计算机、存储介质及程序产品 Download PDFInfo
- Publication number
- CN117252947A CN117252947A CN202311240257.XA CN202311240257A CN117252947A CN 117252947 A CN117252947 A CN 117252947A CN 202311240257 A CN202311240257 A CN 202311240257A CN 117252947 A CN117252947 A CN 117252947A
- Authority
- CN
- China
- Prior art keywords
- image
- key
- redrawn
- redrawing
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 144
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims description 76
- 238000009792 diffusion process Methods 0.000 claims description 72
- 230000004927 fusion Effects 0.000 claims description 23
- 238000003709 image segmentation Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000007499 fusion processing Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 description 30
- 238000012549 training Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 239000013598 vector Substances 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 12
- 210000003128 head Anatomy 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 210000001508 eye Anatomy 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Abstract
本申请实施例公开了一种图像处理方法、装置、计算机、存储介质及程序产品,该方法包括:获取待处理图像以及针对待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像;基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。采用本申请,可以提高图像重绘的性能及质量。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像处理方法、装置、计算机、存储介质及程序产品。
背景技术
随着图像处理的发展,经常会出现需要进行图像重绘的时候,一般情况下,是采用扩散模型进行图像重绘,扩散模型包括两个主要过程,前向扩散和反向扩散,一般是通过学习文本和图像之间的映射关系,根据特定文本生成对应的图像,因此,对扩散模型训练,需要人物训练图像中包括大头、半身和全身多种不同构图的数据。然而这种情况下,往往一个人物所能获取到的大头、半身或全身等多种不同构图的数据较少,也就是对扩散模型的训练样本较少,导致对扩散模型的训练效果较差。为解决该问题,现在一般促使扩散模型也可以学习到多种构图的人物图像,作为进一步图像重绘的样本,而这一方式,往往会出现不同构图过度部分出现明显的像素差异,导致图像重绘的性能较差。
发明内容
本申请实施例提供了一种图像处理方法、装置、计算机、存储介质及程序产品,可以提高图像重绘的性能及质量。
本申请实施例一方面提供了一种图像处理方法,该方法包括:
获取待处理图像以及针对待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像;
基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;
识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。
本申请实施例一方面提供了一种图像处理装置,该装置包括:
信息获取模块,用于获取待处理图像以及针对待处理图像的文本描述信息;
关键识别模块,用于识别待处理图像中的关键对象部位,得到关键区域图像;
掩码处理模块,用于基于关键对象部位生成待处理图像所对应的部位掩码图像;
图像重绘模块,用于基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;
重绘识别模块,用于识别第一重绘图像中的重绘连接区域;
重绘调整模块,用于对重绘连接区域进行连接调整,生成目标重绘图像。
其中,该关键识别模块,包括:
语义分割单元,用于对待处理图像进行图像语义分割,得到语义分割图像;语义分割图像包括至少两个分割区域;
关键生成单元,用于获取关键对象部位在至少两个分割区域中对应的关键分割区域,从待处理图像中获取关键分割区域所对应的数据,生成关键区域图像。
其中,该关键识别模块,包括:
图像卷积单元,用于将待处理图像输入图像分割模型中,通过图像分割模型中的卷积层,对待处理图像进行特征识别,得到图像卷积特征;
信息解析单元,用于通过图像分割模型中的语义分割模块对图像卷积特征进行信息解析,得到信息编码特征;
全局处理单元,用于通过图像分割模型中的全局处理层,对信息编码特征进行全局特征处理,生成关键区域图像。
其中,该掩码处理模块,具体用于:
将待处理图像中,关键对象部位所对应的第一区域中像素点的像素值置为第一像素值,将待处理图像中除第一区域之外的第二区域中像素点的像素值置为第二像素值,得到部位掩码图像。
其中,该图像重绘模块,包括:
位置确定单元,用于基于文本描述信息,确定关键对象部位的部位位置信息;
图像缩放单元,用于基于部位位置信息,对关键区域图像及部位掩码图像进行缩放处理,得到关键区域图像所对应的关键输入图像,以及部位掩码图像所对应的第一掩码图像;
噪声生成单元,用于生成第一随机噪声;
图像融合单元,用于基于第一掩码图像对第一随机噪声与关键输入图像进行图像融合,生成第一重绘图像。
其中,该图像融合单元,包括:
图像加噪子单元,用于对关键输入图像进行加噪处理,生成关键噪声图像;
区域确定子单元,用于基于第一掩码图像确定掩码区域与非掩码区域;
图像重绘子单元,用于将关键噪声图像中的掩码区域与第一随机噪声中的非掩码区域进行融合,生成融合噪声图像,对融合噪声图像进行去噪处理,得到第一重绘图像。
其中,该图像加噪子单元,具体用于:
获取第一重绘迭代次数,基于第一重绘迭代次数对关键输入图像进行加噪处理,生成关键噪声图像;
该图像重绘子单元,具体用于:
将关键噪声图像中的掩码区域与第i-1个更新噪声数据中的非掩码区域进行融合,生成第i个融合噪声图像;i为小于或等于第一重绘迭代次数的正整数;当i为1时,第i-1个更新噪声数据为第一随机噪声;
对第i个融合噪声图像进行去噪处理,得到第i个更新噪声数据;
若i为第一重绘迭代次数,则将第i个更新噪声数据确定为第一重绘图像。
其中,该重绘识别模块,包括:
轮廓识别单元,用于识别第一重绘图像中的关键对象部位,得到部位轮廓,从部位轮廓中获取重绘轮廓线;
位置获取单元,用于基于关键对象部位在第一重绘图像中的重绘位置信息,获取掩码拼接点;
区域组成单元,用于将重绘轮廓线与掩码拼接点组成重绘连接区域。
其中,该重绘调整模块,包括:
数据生成单元,用于生成第二随机噪声,基于重绘连接区域对第一重绘图像进行二值化处理,生成重绘掩码图像;
重绘处理单元,用于基于重绘掩码图像对第二随机噪声与第一重绘图像进行图像融合,生成重绘融合图像,对重绘融合图像进行去噪处理,生成目标重绘图像。
其中,该装置还包括:
数据获取模块,用于获取目标重绘图像所对应的文本描述样本,获取初始图像扩散模型;
模型更新模块,用于在初始图像扩散模型中插入数据处理层,得到图像扩散模型;
图像处理模块,用于将目标重绘图像及文本描述样本输入图像扩散模型中进行处理,得到文本风格图像;文本风格图像是指具备文本描述样本所对应的图像风格的图像;
参数调整模块,用于基于文本风格图像对数据处理层中的模型参数进行调整,得到目标图像扩散模型。
其中,该模型更新模块,包括:
参数生成单元,用于获取初始图像扩散模型中的参数维度,基于参数维度生成第一参数及第二参数,将第一参数与第二参数组成数据处理层中的模型参数;
模型更新单元,用于将携带模型参数的数据处理层,插入初始图像扩散模型中,得到图像扩散模型。
其中,该图像处理模块,包括:
第一处理单元,用于将目标重绘图像及文本描述样本输入图像扩散模型中,采用初始图像扩散模型中的初始参数,对目标重绘图像及文本描述样本进行处理,得到第一图像特征;
第二处理单元,用于采用图像扩散模型中的模型参数,对目标重绘图像及文本描述样本进行处理,得到第二图像特征;
特征融合单元,用于对第一图像特征与第二图像特征进行特征融合处理,生成文本风格图像。
本申请实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用该计算机程序,以使包含该处理器的计算机设备执行本申请实施例一方面中的图像处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例一方面中的图像处理方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。换句话说,该计算机指令被处理器执行时实现本申请实施例一方面中的各种可选方式中提供的方法。
实施本申请实施例,将具有如下有益效果:
在本申请实施例中,获取待处理图像以及针对待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像;基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。通过以上过程,使得可以在待处理图像基础上,基于文本描述信息生成该待处理图像所对应的不同构图的图像,也就是目标重绘图像,使得在只有少数个(如一个或两个)构图的图像时,也可以基于已有构图的图像,生成其他构图的图像,使得可以获取到足够多用于进行模型训练的样本,提高模型训练的准确性。而且,通过对待处理图像进行掩码识别,并基于掩码对待处理图像进行重绘处理,使得图像重绘准确性提高,同时还对重绘连接区域进行了连接调整,使得原始图像(也就是待处理图像)与重绘部分之间的过渡更为自然,提高图像重绘的性能及质量,提高目标重绘图像的真实性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理的网络交互架构图;
图2是本申请实施例提供的一种图像处理场景示意图;
图3是本申请实施例提供的一种图像处理的方法流程图;
图4是本申请实施例提供的一种图像语义分割场景示意图;
图5是本申请实施例提供的一种可能的分割模型示意图;
图6是本申请实施例提供的一种图像缩放场景示意图;
图7是本申请实施例提供的一种连接确定场景示意图;
图8是本申请实施例提供的一种模型训练场景示意图;
图9是本申请实施例提供的一种模型示意图;
图10是本申请实施例提供的一种风格绘制示意图;
图11是本申请实施例提供的一种图像处理装置示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,若在本申请中需要收集对象(如用户等)数据,则在收集前、收集中,显示提示界面或者弹窗,该提示界面或者弹窗用于提示用户当前正在搜集某些数据,仅仅在获取到用户对该提示界面或者弹窗发出确认操作后,开始执行数据获取的相关的步骤,否则结束。而且,对于获取到的用户数据,会在合理合法的场景或用途等上进行使用。可选的,在一些需要使用用户数据但未得到用户授权的场景中,还可以向用户请求授权,在授权通过时,再使用用户数据。其中,对用户数据的使用符合法律法规的相关规定,也就是,在合理合法范围内,使用用户数据。
可选的,本申请可以采用人工智能技术,实现对待处理图像的图像重绘,以及对图像扩散模型的训练及应用等。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。如在本申请中,通过学习,使得机器具有对图像进行重绘处理的功能,以及,通过学习得到具有图像重绘功能的图像扩散模型等。
在本申请实施例中,请参见图1,图1是本申请实施例提供的一种图像处理的网络交互架构图,如图1所示,计算机设备101可以获取待处理图像以及针对待处理图像的文本描述信息,该文本描述信息用于指示将待处理图像进行重绘的重绘构图,例如,该待处理图像为人物图像,则图像构图可以包括但不限于大头构图、半身构图及全身构图等,重绘图像可以是图像构图中的任意一个。计算机设备101可以基于文本描述信息对待处理图像进行重绘处理,得到重绘构图的目标重绘图像。其中,计算机设备101可以从本地空间中获取待处理图像以及文本描述信息,也可以从任意一个业务设备中获取待处理图像以及文本描述信息等,如业务设备102a、业务设备102b或业务设备102c等。举例来说,计算机设备101可以响应业务设备102a所发送的图像重绘请求,获取图像重绘请求所携带的待处理图像及针对待处理图像的文本描述信息。通过该过程,可以在已知的构图的图像基础上,可以重绘得到其他构图的图像,从而可以获取到多种构图下的图像,使得可以获取到足够多构图的图像样本,用于进行模型训练,提高模型训练的准确性。
具体的,请参见图2,图2是本申请实施例提供的一种图像处理场景示意图。如图2所示,计算机设备可以获取待处理图像201,以及针对待处理图像201的文本描述信息,例如,假定该待处理图像201的构图为大头构图,该文本描述信息可以用于指示半身构图或全身构图等。计算机设备可以识别待处理图像201中的关键对象部位,得到关键区域图像202,如对于人物图像来说,该关键对象部位可以是对象头部等。基于关键对象部位生成待处理图像201所对应的部位掩码图像203。进一步,可以基于部位掩码图像203及文本描述信息,对关键区域图像202进行图像生成,得到第一重绘图像204,该第一重绘图像204是文本描述信息所指示的重绘构图的图像,实现不同构图的图像重绘,而且,不同构图的重绘是基于掩码实现的,使得重绘过程更为简单便捷。进一步,可以识别第一重绘图像204中的重绘连接区域205,对重绘连接区域205进行连接调整,生成目标重绘图像206,从而可以对重绘得到的其他构图的图像进行连接调整,也就是对原始数据(即待处理图像201中的数据),与重绘到的数据的连接部分,进行调整,使得从原始数据与重绘到的数据过渡更为自然,提高图像重绘的性能及质量,提高目标重绘图像的自然性及真实性。
可以理解的是,本申请实施例中所提及的计算机设备或业务设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(AugmentedReality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。如图1中所示,终端设备可以是一种笔记本电脑(如业务设备102b所示)、手机(如业务设备102c所示)或车载设备(如业务设备102a所示)等,图1仅例举出部分的设备,可选的,该业务设备102a是指位于交通工具103中的设备,业务设备102a可以用于显示及处理图像1021。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,本申请实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术或区块链网络对该数据进行存储,在此不做限制。
进一步地,请参见图3,图3是本申请实施例提供的一种图像处理的方法流程图。如图3所示,该图像处理过程包括如下步骤:
步骤S301,获取待处理图像以及待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像。
在本申请实施例中,计算机设备可以获取待处理图像以及针对待处理图像的文本描述信息,该待处理图像是指用于生成不同图像构图的图像的依据,该文本描述信息用于指示需要生成的图像的重绘构图,该重绘构图可以是任意一种图像构图。其中,在本申请中,无论该待处理图像的图像构图是哪一种,都可以生成任意一种其他图像构图的图像。例如,一种可能的情况下,该文本描述信息可以是“mug shot”(指示大头构图)、“half body”(指示半身构图)或“full body”(指示全身构图)等,或者,该文本描述信息可以是“大头”、“半身”或“全身”等。
进一步地,可以识别待处理图像中的关键对象部位,得到关键区域图像,其中,该关键对象部位是指待处理图像中,目标对象在不同图像构图中均需保留的部位,如目标对象为人物时,该关键对象部位可以为对象头部等。具体的,计算机设备可以对待处理图像进行图像语义分割,得到语义分割图像;语义分割图像包括至少两个分割区域。举例来说,参见图4,图4是本申请实施例提供的一种图像语义分割场景示意图,如图4所示,计算机设备可以对待处理图像401进行图像语义分割,得到语义分割图像402,其中,该语义分割图像包括至少两个分割区域,如分割区域(1)—帽顶区域、分割区域(2)—帽檐区域、分割区域(3)—脸部区域、分割区域(4)—鼻子区域、分割区域(5)—右眉毛区域、分割区域(6)—左眉毛区域、分割区域(7)—右眼区域、分割区域(8)—左眼区域、分割区域(9)—上嘴唇区域、分割区域(10)—下嘴唇区域、分割区域(11)—头发区域、分割区域(12)—衣服区域以及分割区域(13)—脖子区域等。
进一步,可以获取关键对象部位在至少两个分割区域中对应的关键分割区域,从待处理图像中获取关键分割区域所对应的数据,生成关键区域图像。例如,假定关键对象部位为对象头部,包括头发、眼睛、鼻子、嘴巴、眉毛、脸部及脖子等,如图4所示,可以以不同的标记区分不同的分割区域,该标记可以是颜色标记或文本标记等,在此不做限制,如可以将分割区域(11)、分割区域(7)、分割区域(8)、分割区域(4)、分割区域(9)、分割区域(10)、分割区域(5)、分割区域(6)、分割区域(3)及分割区域(13)确定为关键分割区域。可选的,还可以获取与关键对象部位相关联的分割区域,也作为关键分割区域,如关键对象部位的佩戴饰品区域,如图4所示,待处理图像中的目标对象佩戴有帽子,该关键分割区域还可以包括分割区域(1)及分割区域(2)。当然,也可以只将关键对象部位在至少两个分割区域中对应的分割区域确定为关键分割区域,在重绘时,可以对与关键对象部位相关联的分割区域进行重绘。
或者,可以将待处理图像输入图像分割模型中,通过图像分割模型中的卷积层,对待处理图像进行特征识别,得到图像卷积特征;通过图像分割模型中的语义分割模块对图像卷积特征进行信息解析,得到信息编码特征;通过图像分割模型中的全局处理层,对信息编码特征进行全局特征处理,生成关键区域图像。举例来说,参见图5,图5是本申请实施例提供的一种可能的分割模型示意图。如图5所示,一种可能的模型结构中,该图像分割模型可以包括C个特征处理阶段,可以记作stage1至stageC,C为正整数。其中,C个特征处理阶段可以包括一个或至少两个卷积处理阶段,每个卷积处理阶段包括一个或至少两个卷积层。可选的,可以在每个卷积处理阶段中引入B个卷积层,B为正整数,限制B小于或等于卷积有效层数,使得每个卷积处理阶段中仅包括极少的卷积层,如B可以为1,通过限制卷积层的数量,可以减少模型计算量。如图5所示的特征处理阶段501及特征处理阶段502等,特征处理阶段501可以包括一个或多个卷积层,如图5所示的卷积层1等,特征处理阶段502可以包括一个或多个卷积层,如图5所示的卷积层2等。计算机设备可以将待处理图像输入图像分割模型中,通过图像分割模型中的卷积层1及卷积层2等,对待处理图像进行特征识别,得到图像卷积特征。
其中,该C个特征处理阶段还可以包括信息解析阶段及全局处理阶段等,信息解析阶段的数量为A,A为小于或等于C的正整数,全局处理阶段用于对获取到的特征进行处理得到图像分割模型的输出。其中,每个信息解析阶段包括一个或至少两个语义分割模型。如图5所示,信息解析阶段503包括X个语义分割模块,如图5所示的语义分割模块1.1至语义分割模块1.X;信息解析阶段504包括Y个语义分割模型,如图5所示的语义分割模块A.1至语义分割模块A.Y;X与Y均为正整数。计算机设备可以将图像卷积特征输入A个信息解析阶段中的语义分割模块中,依次对图像卷积特征进行信息解析,得到语义分割模块A.Y所输出的信息编码特征。具体的,在第i个信息解析阶段中,i为小于或等于A的正整数,可以获取第i-1个信息解析阶段的阶段输出特征,采用位于第i个信息解析阶段中前列的语义分割模型,对第i-1个阶段输出特征进行下采样处理,得到第i个采样特征;采用位于第i个信息解析阶段中后列的语义分割模型,对第i个采样特征进行特征转换,得到第i个阶段输出特征。其中,i为1时,第i-1个信息解析阶段的阶段输出特征为图像卷积特征。i为A时,将第i个阶段输出特征确定为信息编码特征。通过语义分割模块,可以抽象待处理图像中的特征,其中,每个语义分割模块可以包括多层分割网络,该多层分割网络中的深层的分割网络(记作深层分割网络)的网络特征通道数量较少,浅层的分割网络(记作浅层分割网络)的网络特征通道数量较多,可以使用较少的参数量提取多尺度特征。其中,浅层的分割网络通过更多的网络特征通道数量,来编码待处理图像中的细节信息;深层的分割网络用于关注待处理图像的高层次语义信息,减少网络特征通道数量,可以避免网络特征通道数量过多带来的信息冗余,提高数据处理效率及语义分割模块性能。例如,以任意一个信息解析阶段中的第j个语义分割模块为例,j为正整数,可以获取第j-1个语义分割模块的模块输出特征,在浅层分割网络中,对第j-1个语义分割模块的模块输出特征进行细节编码,得到第j个细节特征;在深层分割网络中,对第j个细节特征进行语义信息解析,得到第j个模块输出特征。
进一步,图像分割模型还可以包括全局处理阶段505,该全局处理阶段505可以包括一个或多个全局处理层,计算机设备可以通过图像分割模型中的全局处理层,对信息编码特征进行全局特征处理,生成关键区域图像,其中,该全局处理层可以包括全局池化层及全连接层,或者,一种可能的情况下,全局处理层可以包括卷积层、全局池化层及全连接层等。例如,全局处理层包括卷积层(Conv)、全局池化层(GlobalPool)、全连接层1(如FC1024)及全连接层(如FC1000)等。例如,可以通过卷积层对信息编码特征进行卷积处理,得到全局卷积特征;对全局卷积特征进行池化处理,得到全局池化特征;对全局池化特征进行全连接处理,得到关键区域图像。通过图像分割模型,可以实现高效且准确的图像语义分割,得到关键区域图像。
进一步,可以将待处理图像中,关键对象部位所对应的第一区域中像素点的像素值置为第一像素值(如1等),将待处理图像中除第一区域之外的第二区域中像素点的像素值置为第二像素值(如0等),得到部位掩码图像。或者,可以基于图4,获取到关键分割区域,将关键区域图像的关键分割区域中的像素点的像素值置为第一像素值,将关键区域图像中除关键分割区域之外的区域中像素点的像素值置为第二像素值,得到部位掩码图像。如图2所示的部位掩码图像203所示。也就是说,部位掩码图像203可以认为是一个二值图,分为关键区域图像中需要保留的区域(如图2中的部位掩码图像203中的白色部分),及期望补全的区域(如部位掩码图像203中的黑色部分)。
步骤S302,基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像。
在本申请实施例中,计算机设备可以基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像。
具体的,可以基于文本描述信息,确定关键对象部位的部位位置信息,其中,该部位位置信息用于表示关键对象部位,在文本描述信息所指示的重绘构图中的位置信息。例如,目标对象为人物时,可以获取人体比例平均信息,基于人体比例平均信息确定目标对象的关键对象部位的全局占比信息,基于全局占比信息及文本描述信息确定关键对象部位的部位位置信息。例如,全局占比信息包括目标对象中的关键对象部位在男生全身中占比为1/8,在女生全身中占比为1/6,半身比例相应减半。具体的,可以基于部位位置信息,对关键区域图像及部位掩码图像进行缩放处理,得到关键区域图像所对应的关键输入图像,以及部位掩码图像所对应的第一掩码图像。具体的,可以获取关键区域图像的关键区域尺寸,基于部位位置信息、重绘构图及关键区域尺寸,确定图像缩放尺寸;基于图像缩放尺寸对关键区域图像进行图像扩展,得到关键输入图像,该关键输入图像的尺寸为图像缩放尺寸;基于图像缩放尺寸对部位掩码图像进行图像扩展,得到第一掩码图像,该第一掩码图像的尺寸为图像缩放尺寸。例如,关键区域尺寸为50*50,重绘构图为半身构图,目标对象为男生,则可以确定图像缩放尺寸可以为200*200等。
例如,参见图6,图6是本申请实施例提供的一种图像缩放场景示意图。如图6所示,计算机设备可以基于部位位置信息,对关键区域图像6011进行缩放处理,得到关键输入图像6012;基于部位位置信息,对部位掩码图像6021进行缩放处理,得到第一掩码图像6022。进一步,可以生成第一随机噪声,基于第一掩码图像对第一随机噪声与关键输入图像进行图像融合,生成第一重绘图像。其中,可以将第一随机噪声记作x_dec。具体的,可以将关键输入图像映射到隐空间,得到关键输入向量,基于第一掩码图像对第一随机噪声与关键输入向量进行图像融合,生成第一重绘图像。
其中,在基于第一掩码图像对第一随机噪声与关键输入图像进行图像融合,生成第一重绘图像时,可以对关键输入图像进行加噪处理,生成关键噪声图像。基于第一掩码图像确定掩码区域与非掩码区域,将关键噪声图像中的掩码区域与第一随机噪声中的非掩码区域进行融合,生成融合噪声图像,对融合噪声图像进行去噪处理,得到第一重绘图像。
或者,可以对第一随机噪声与关键输入图像进行多次迭代融合,生成第一重绘图像,在对关键输入图像进行加噪处理,生成关键噪声图像时,可以获取第一重绘迭代次数t,基于第一重绘迭代次数t对关键输入图像进行加噪处理,生成关键噪声图像。也就是,可以将关键输入图像映射到隐空间,得到关键输入向量init_latent,获取第一重绘迭代次数t,基于第一重绘迭代次数t对关键输入向量进行加噪处理,生成关键噪声图像img_noise_t。在将关键噪声图像中的掩码区域与第一随机噪声中的非掩码区域进行融合,生成融合噪声图像,对融合噪声图像进行去噪处理,得到第一重绘图像时,可以将关键噪声图像中的掩码区域与第i-1个更新噪声数据中的非掩码区域进行融合,生成第i个融合噪声图像;i为小于或等于第一重绘迭代次数的正整数;当i为1时,第i-1个更新噪声数据为第一随机噪声。其中,该过程可以记作x_dec_new=mask*img_noise_t+(1-mask)*x_dec,x_dec用于表示第i-1个更新噪声数据,mask用于表示掩码区域(如图6的第一掩码图像6022中的白色部分),(1-mask)用于表示非掩码区域(如图6的第一掩码图像6022中的黑色部分)。进一步,可以对第i个融合噪声图像进行去噪处理,得到第i个更新噪声数据。若i为第一重绘迭代次数,则将第i个更新噪声数据确定为第一重绘图像。若i不为第一重绘迭代次数,则可以将关键噪声图像中的掩码区域与第i个更新噪声数据中的非掩码区域进行融合,生成第i+1个融合噪声图像。或者,若i不为第一重绘迭代次数,则可以对关键噪声图像进行去噪处理,将去噪后的关键噪声图像确定为关键噪声图像,将关键噪声图像中的掩码区域与第i个更新噪声数据中的非掩码区域进行融合,生成第i+1个融合噪声图像。或者,若i不为第一重绘迭代次数,则可以更新第一重绘迭代次数,如,本次的第一重绘迭代次数为5,则更新后的第一重绘迭代次数为4等,基于更新后的第一重绘迭代次数对关键输入图像进行加噪处理,生成新的关键噪声图像,将关键噪声图像中的掩码区域与第i个更新噪声数据中的非掩码区域进行融合,生成第i+1个融合噪声图像。
通过以上过程,可以在保持关键对象部位不变的情况下,生成身体的其他部位,实现对待处理图像的图像构图的更新重绘。
步骤S303,识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。
在本申请实施例中,计算机设备可以识别第一重绘图像中的关键对象部位,得到部位轮廓,从部位轮廓中获取重绘轮廓线;基于关键对象部位在第一重绘图像中的重绘位置信息,获取掩码拼接点;将重绘轮廓线与掩码拼接点组成重绘连接区域,使得该重绘连接区域包括从待处理图像中获取到的数据,以及重绘的数据,对该重绘连接区域进行调整,可以使得由原图中的部分到重绘后的部分过渡更为自然,提高图像重绘的准确性。例如,参见图7,图7是本申请实施例提供的一种连接确定场景示意图。如图7所示,计算机设备可以获取第一重绘图像701中的部位关键点702,如可以采用构建多模式应用的机器学习管道(mediapipe)获取部位关键点,其中,mediapipe是一个多媒体机器学习模型应用框架,可以进行面部识别,可以提供脸部468个关键点检测,如图7中所示的部位关键点702。进一步,可以从部位关键点702中,获取关键对象部位的重绘轮廓线7021,如将部位关键点702中脸部区域下边缘的关键点进行连接,得到关键对象部位的重绘轮廓线7021。进一步,可以基于第一重绘图像与关键对象部位的部位尺寸,确定拼接点坐标,将拼接点坐标所对应的点确定为掩码拼接点,如掩码拼接点7031及掩码拼接点7032等。例如,第一重绘图像的尺寸为ImageLen*ImageLen,部位尺寸为FaceLen*FaceLen,则一种可能的情况下,一个掩码拼接点的拼接点坐标可以为(FaceLen,(ImageLen-FaceLen)/2),一个掩码拼接点的拼接点坐标可以为(FaceLen,(ImageLen+FaceLen)/2),当然,拼接点坐标的确定方式可以基于实际需求进行设定。进一步,可以将重绘轮廓线7021、掩码拼接点7031及掩码拼接点7032组成重绘连接区域704(如图7中连续黑色区域)。
其中,在对重绘连接区域进行连接调整,生成目标重绘图像时,可以基于重绘连接区域生成重绘掩码图像,也就是可以基于重绘连接区域对第一重绘图像进行二值化处理,生成重绘掩码图像。具体的,可以将第一重绘图像中,重绘连接区域的像素点的像素值置为第二像素值(如0),将第一重绘图像中除重绘连接区域之外的区域(可以记作重绘保留区域)中的像素点的像素值置为第一像素值,得到重绘掩码图像,也就是说,可以对第一重绘图像中的重绘保留区域进行数据保留,对重绘连接区域进行数据调整。进一步,生成第二随机噪声,当然第二随机噪声与重绘掩码图像的生成顺序可以变化。基于重绘掩码图像对第二随机噪声与第一重绘图像进行图像融合,生成重绘融合图像,对重绘融合图像进行去噪处理,生成目标重绘图像。
具体的,可以对第一重绘图像进行加噪处理,生成重绘噪声图像;基于重绘掩码图像确定重绘掩码区域及重绘非掩码区域,将重绘噪声图像中的重绘掩码区域与第二随机噪声中的重绘非掩码区域进行融合,生成重绘融合图像,对重绘融合图像进行去噪处理,得到目标重绘图像。其中,该重绘掩码区域可以认为是重绘保留区域,重绘非掩码区域可以认为是重绘连接区域。也就是说,将第二随机噪声的重绘连接区域中的数据,与重绘噪声图像的重绘保留区域中的数据进行融合,实现对重绘连接区域的过渡调整,提高图像重绘准确性及自然性,提高目标重绘图像的真实性。
可选的,可以获取第二重绘迭代次数,基于第二重绘迭代次数对第一重绘图像进行加噪处理,生成重绘噪声图像。将重绘噪声图像中的重绘掩码区域,与第j-1个中间噪声数据中的重绘非掩码区域进行融合,生成第j个重绘融合图像,j为小于或等于第二重绘迭代次数的正整数,当j为1时,第j-1个中间噪声数据为第二随机噪声。对第j个重绘融合图像进行去噪处理,得到第j个中间噪声数据。若j为第二重绘迭代次数,则将第j个中间噪声数据确定为目标重绘图像。具体,可以参见第一重绘图像的生成过程。
在本申请实施例中,获取待处理图像以及针对待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像;基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。通过以上过程,使得可以在待处理图像基础上,基于文本描述信息生成该待处理图像所对应的不同构图的图像,也就是目标重绘图像,使得在只有少数个(如一个或两个)构图的图像时,也可以基于已有构图的图像,生成其他构图的图像,使得可以获取到足够多用于进行模型训练的样本,提高模型训练的准确性。而且,通过对待处理图像进行掩码识别,并基于掩码对待处理图像进行重绘处理,使得图像重绘准确性提高,同时还对重绘连接区域进行了连接调整,使得原始图像(也就是待处理图像)与重绘部分之间的过渡更为自然,提高图像重绘的性能及质量,提高目标重绘图像的真实性。
进一步,可以将多图像构图的图像作为样本,训练图像扩散模型,具体参见图8,图8是本申请实施例提供的一种模型训练场景示意图。如图8所示,该过程可以包括如下步骤:
步骤S801,获取待处理图像以及待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像。
在本申请实施例中,可以参见图3的步骤S301中的相关描述,在此不再进行赘述。
步骤S802,基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像。
在本申请实施例中,可以参见图3的步骤S302中的相关描述,在此不再进行赘述。
步骤S803,识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。
在本申请实施例中,可以参见图3的步骤S303中的相关描述,在此不再进行赘述。
步骤S804,将目标重绘图像作为样本,获取目标重绘图像对应的文本描述样本,采用目标重绘图像与文本描述样本对图像扩散模型进行参数调整,得到目标图像扩散模型。
在本申请实施例中,计算机设备可以获取目标重绘图像所对应的文本描述样本,其中,文本描述样本用于表示对目标重绘图像进行扩散需要生成的图像的风格,该文本描述样本可以包括触发词和描述词,触发词是目标对象的唯一标识,描述词是对该目标对象的状态的详细描述,包括但不限于对象描述信息及服饰描述信息等。例如,描述词可以包括“a photo of s*person”,其中,“s*”为目标对象所独有的特性,如对象描述信息可以包括人物身体占比等,如“mug shot(大头照)”、“half body(半身照)”及“full body(全身照)等”,服饰描述信息可以包括服饰颜色、服饰款式及服饰风格等,其中,服饰颜色可以是白色、黑色、蓝色或红色等,服饰款式可以是短袖、西装或运动装等,服饰风格可以是机械风格、休闲风格或仙侠风格等,可选的,该描述词还可以基于需要包括其他信息,在此不做限制。
进一步,可以获取初始图像扩散模型,在初始图像扩散模型中插入数据处理层,得到图像扩散模型,如图9所示,图9是本申请实施例提供的一种模型示意图。如图9所示,此时,该图像扩散模型可以包括初始图像扩散模型901及数据处理层902等。进一步,可以将目标重绘图像及文本描述样本输入图像扩散模型中进行处理,得到文本风格图像;文本风格图像是指具备文本描述样本所对应的图像风格的图像。该过程可以参见公式①所示:
h=W0x+ΔWx ①
如公式①所示,h用于表示模型输出,即文本风格图像;x用于表示模型输入,包括目标重绘图像及文本描述样本等。W0用于表示初始图像扩散模型中的初始参数;ΔW用于表示数据处理层中的模型参数。进一步,基于文本风格图像对数据处理层中的模型参数进行调整,得到目标图像扩散模型。通过该过程,无需修改原有的模型参数,也就是初始图像扩散模型中的参数,只需要对新插入的数据处理层中的参数进行调整即可,从而可以避免将整个模型进行拷贝的情况,也减少了参数调整所需处理的数据量,提高模型训练的效率。其中,训练数据中人物图像的某个部位多样性越高,拟合程度就会越低,越容易融合风格,对于人物,可以提高对人物脸部的拟合程度,降低其他部分的拟合程度,在对模型参数进行调整时,可以降低目标图像扩散模型对头部其他区域的拟合度,提高模型的风格预测多样性及灵活性。
其中,在初始图像扩散模型中插入数据处理层,得到图像扩散模型时,可以获取初始图像扩散模型中的参数维度,如获取到参数维度为m*n,基于参数维度生成第一参数及第二参数,将第一参数与第二参数组成数据处理层中的模型参数。具体的,可以基于参数维度中的第一维度,初始化第一参数,如第一维度为n,第一参数的维度为r*n,其中,可以基于第一维度构建一个高斯分布参数,将该高斯分布参数确定为第一参数;基于参数维度中的第二维度,初始化第二参数,如第二维度为m,第二参数的维度为m*r,其中,可以基于第一维度构建一个默认矩阵,将该默认矩阵确定为第二参数。其中,一种可能的情况下,该模型参数的初始值可以参见公式②所示:
ΔW=W2W1;W1=N(0,σ2),W2=0 ②
如公式②所示,W1用于表示第一参数,W2用于表示第二参数,N()用于表示高斯分布,σ2用于表示高斯分布的方差。也就是说,将模型参数分解为第一参数与第二参数两个矩阵的乘积,理论上,第二参数与第一参数的矩阵间相乘的秩越小,数据处理层的参数量也就越小,可以通过这一方式,减少数据处理层中的参数数量,从而节省模型资源。将携带模型参数的数据处理层,插入初始图像扩散模型中,得到图像扩散模型,如图9所示。其中,矩阵的秩是指该矩阵中所包括的线性无关的行向量的极大值,该矩阵中每一行组成一个行向量,也就是将矩阵中所包括的每一行参数作为一个行向量,对由矩阵组成的行向量进行线性相关去重,得到去重后的行向量,该去重后的行向量的向量数量,可以认为是该矩阵的秩。如矩阵A可以拆分为行向量r1、行向量r2、行向量r3及行向量r4,其中,行向量r1与行向量r3线性相关,则可以认为矩阵A的秩为3。其中,第二参数与第一参数的矩阵间相乘的秩,可以认为是数据处理层中的模型参数的秩,在模型参数的秩越小时,表示该模型参数中线性无关的行向量的数量越少,也就可以对模型参数中线性相关的行向量进行统一处理,使得后续模型参数的数量级,以及基于模型参数处理的数据的数据量减少,即减少数据处理层中的参数数量,从而节省模型资源。
其中,在将目标重绘图像及文本描述样本输入图像扩散模型中进行处理,得到文本风格图像时,可以将目标重绘图像及文本描述样本输入图像扩散模型中,采用初始图像扩散模型中的初始参数,对目标重绘图像及文本描述样本进行处理,得到第一图像特征;采用图像扩散模型中的模型参数,对目标重绘图像及文本描述样本进行处理,得到第二图像特征。对第一图像特征与第二图像特征进行特征融合处理,生成文本风格图像,如公式①所示。
通过以上过程,使得可以得到足够多的图像构图的图像,作为图像扩散模型的样本,提高模型训练的准确性。进一步,可以基于目标对象的文本描述样本中获取文本描述信息,通过图3所示的过程,可以得到目标对象的目标重绘图像。进一步,可以将目标重绘图像及文本描述样本输入目标图像扩散模型,得到该目标对象的风格重绘图像。
例如,参见图10,图10是本申请实施例提供的一种风格绘制示意图,如图10所示,假定文本描述样本包括“用户1,机甲风格,mug shot”以及“用户1,机甲风格,half body”,通过用户1所对应的待处理图像,采用图3所示的各个步骤,得到用户1的目标重绘图像,该目标重绘图像包括大头构图的目标重绘图像1,以及半身构图的目标重绘图像2。将目标重绘图像1及目标重绘图像1所对应的文本描述样本,输入训练得到的目标图像扩散模型进行预测,得到风格重绘图像1001;将目标重绘图像2及目标重绘图像2所对应的文本描述样本,输入训练得到的目标图像扩散模型进行预测,得到风格重绘图像1002。
进一步地,请参见图11,图11是本申请实施例提供的一种图像处理装置示意图。该图像处理装置1100可以包括:信息获取模块11、关键识别模块12、掩码处理模块13、图像重绘模块14、重绘识别模块15及重绘调整模块16。
信息获取模块11,用于获取待处理图像以及针对待处理图像的文本描述信息;
关键识别模块12,用于识别待处理图像中的关键对象部位,得到关键区域图像;
掩码处理模块13,用于基于关键对象部位生成待处理图像所对应的部位掩码图像;
图像重绘模块14,用于基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;
重绘识别模块15,用于识别第一重绘图像中的重绘连接区域;
重绘调整模块16,用于对重绘连接区域进行连接调整,生成目标重绘图像。
其中,该关键识别模块12,包括:
语义分割单元121,用于对待处理图像进行图像语义分割,得到语义分割图像;语义分割图像包括至少两个分割区域;
关键生成单元122,用于获取关键对象部位在至少两个分割区域中对应的关键分割区域,从待处理图像中获取关键分割区域所对应的数据,生成关键区域图像。
其中,该关键识别模块12,包括:
图像卷积单元123,用于将待处理图像输入图像分割模型中,通过图像分割模型中的卷积层,对待处理图像进行特征识别,得到图像卷积特征;
信息解析单元124,用于通过图像分割模型中的语义分割模块对图像卷积特征进行信息解析,得到信息编码特征;
全局处理单元125,用于通过图像分割模型中的全局处理层,对信息编码特征进行全局特征处理,生成关键区域图像。
其中,该掩码处理模块13,具体用于:
将待处理图像中,关键对象部位所对应的第一区域中像素点的像素值置为第一像素值,将待处理图像中除第一区域之外的第二区域中像素点的像素值置为第二像素值,得到部位掩码图像。
其中,该图像重绘模块14,包括:
位置确定单元141,用于基于文本描述信息,确定关键对象部位的部位位置信息;
图像缩放单元142,用于基于部位位置信息,对关键区域图像及部位掩码图像进行缩放处理,得到关键区域图像所对应的关键输入图像,以及部位掩码图像所对应的第一掩码图像;
噪声生成单元143,用于生成第一随机噪声;
图像融合单元144,用于基于第一掩码图像对第一随机噪声与关键输入图像进行图像融合,生成第一重绘图像。
其中,该图像融合单元144,包括:
图像加噪子单元1441,用于对关键输入图像进行加噪处理,生成关键噪声图像;
区域确定子单元1442,用于基于第一掩码图像确定掩码区域与非掩码区域;
图像重绘子单元1443,用于将关键噪声图像中的掩码区域与第一随机噪声中的非掩码区域进行融合,生成融合噪声图像,对融合噪声图像进行去噪处理,得到第一重绘图像。
其中,该图像加噪子单元1441,具体用于:
获取第一重绘迭代次数,基于第一重绘迭代次数对关键输入图像进行加噪处理,生成关键噪声图像;
该图像重绘子单元1443,具体用于:
将关键噪声图像中的掩码区域与第i-1个更新噪声数据中的非掩码区域进行融合,生成第i个融合噪声图像;i为小于或等于第一重绘迭代次数的正整数;当i为1时,第i-1个更新噪声数据为第一随机噪声;
对第i个融合噪声图像进行去噪处理,得到第i个更新噪声数据;
若i为第一重绘迭代次数,则将第i个更新噪声数据确定为第一重绘图像。
其中,该重绘识别模块15,包括:
轮廓识别单元151,用于识别第一重绘图像中的关键对象部位,得到部位轮廓,从部位轮廓中获取重绘轮廓线;
位置获取单元152,用于基于关键对象部位在第一重绘图像中的重绘位置信息,获取掩码拼接点;
区域组成单元153,用于将重绘轮廓线与掩码拼接点组成重绘连接区域。
其中,该重绘调整模块16,包括:
数据生成单元161,用于生成第二随机噪声,基于重绘连接区域对第一重绘图像进行二值化处理,生成重绘掩码图像;
重绘处理单元162,用于基于重绘掩码图像对第二随机噪声与第一重绘图像进行图像融合,生成重绘融合图像,对重绘融合图像进行去噪处理,生成目标重绘图像。
其中,该装置1100还包括:
数据获取模块17,用于获取目标重绘图像所对应的文本描述样本,获取初始图像扩散模型;
模型更新模块18,用于在初始图像扩散模型中插入数据处理层,得到图像扩散模型;
图像处理模块19,用于将目标重绘图像及文本描述样本输入图像扩散模型中进行处理,得到文本风格图像;文本风格图像是指具备文本描述样本所对应的图像风格的图像;
参数调整模块20,用于基于文本风格图像对数据处理层中的模型参数进行调整,得到目标图像扩散模型。
其中,该模型更新模块18,包括:
参数生成单元181,用于获取初始图像扩散模型中的参数维度,基于参数维度生成第一参数及第二参数,将第一参数与第二参数组成数据处理层中的模型参数;
模型更新单元182,用于将携带模型参数的数据处理层,插入初始图像扩散模型中,得到图像扩散模型。
其中,该图像处理模块19,包括:
第一处理单元191,用于将目标重绘图像及文本描述样本输入图像扩散模型中,采用初始图像扩散模型中的初始参数,对目标重绘图像及文本描述样本进行处理,得到第一图像特征;
第二处理单元192,用于采用图像扩散模型中的模型参数,对目标重绘图像及文本描述样本进行处理,得到第二图像特征;
特征融合单元193,用于对第一图像特征与第二图像特征进行特征融合处理,生成文本风格图像
本申请实施例提供了一种图像处理装置,该装置可以获取待处理图像以及针对待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像;基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。通过以上过程,使得可以在待处理图像基础上,基于文本描述信息生成该待处理图像所对应的不同构图的图像,也就是目标重绘图像,使得在只有少数个(如一个或两个)构图的图像时,也可以基于已有构图的图像,生成其他构图的图像,使得可以获取到足够多用于进行模型训练的样本,提高模型训练的准确性。而且,通过对待处理图像进行掩码识别,并基于掩码对待处理图像进行重绘处理,使得图像重绘准确性提高,同时还对重绘连接区域进行了连接调整,使得原始图像(也就是待处理图像)与重绘部分之间的过渡更为自然,提高图像重绘的性能及质量,提高目标重绘图像的真实性。
参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示,本申请实施例中的计算机设备可以包括:一个或多个处理器1201、存储器1202和输入输出接口1203。该处理器1201、存储器1202和输入输出接口1203通过总线1204连接。存储器1202用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1203用于接收数据及输出数据,如用于计算机设备与业务设备之间进行数据交互;处理器1201用于执行存储器1202存储的程序指令。
其中,该处理器1201可以执行如下操作:
获取待处理图像以及针对待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像;
基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;
识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。
在一些可行的实施方式中,该处理器1201可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器1202可以包括只读存储器和随机存取存储器,并向处理器1201和输入输出接口1203提供指令和数据。存储器1202的一部分还可以包括非易失性随机存取存储器。例如,存储器1202还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3中各个步骤所提供的实现方式,具体可参见该图3中各个步骤所提供的实现方式,在此不再赘述。
本申请实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行图像处理操作。本申请实施例实现了获取待处理图像以及针对待处理图像的文本描述信息,识别待处理图像中的关键对象部位,得到关键区域图像,基于关键对象部位生成待处理图像所对应的部位掩码图像;基于部位掩码图像及文本描述信息,对关键区域图像进行图像生成,得到第一重绘图像;识别第一重绘图像中的重绘连接区域,对重绘连接区域进行连接调整,生成目标重绘图像。通过以上过程,使得可以在待处理图像基础上,基于文本描述信息生成该待处理图像所对应的不同构图的图像,也就是目标重绘图像,使得在只有少数个(如一个或两个)构图的图像时,也可以基于已有构图的图像,生成其他构图的图像,使得可以获取到足够多用于进行模型训练的样本,提高模型训练的准确性。而且,通过对待处理图像进行掩码识别,并基于掩码对待处理图像进行重绘处理,使得图像重绘准确性提高,同时还对重绘连接区域进行了连接调整,使得原始图像(也就是待处理图像)与重绘部分之间的过渡更为自然,提高图像重绘的性能及质量,提高目标重绘图像的真实性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3中各个步骤所提供的图像处理方法,具体可参见该图3中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的图像处理装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3中的各种可选方式中所提供的方法,实现了在待处理图像基础上,基于文本描述信息生成该待处理图像所对应的不同构图的图像,也就是目标重绘图像,使得在只有少数个(如一个或两个)构图的图像时,也可以基于已有构图的图像,生成其他构图的图像,使得可以获取到足够多用于进行模型训练的样本,提高模型训练的准确性。而且,通过对待处理图像进行掩码识别,并基于掩码对待处理图像进行重绘处理,使得图像重绘准确性提高,同时还对重绘连接区域进行了连接调整,使得原始图像(也就是待处理图像)与重绘部分之间的过渡更为自然,提高图像重绘的性能及质量,提高目标重绘图像的真实性。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程图像处理设备的处理器以产生一个机器,使得通过计算机或其他可编程图像处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程图像处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程图像处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (16)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像以及针对所述待处理图像的文本描述信息,识别所述待处理图像中的关键对象部位,得到关键区域图像,基于所述关键对象部位生成所述待处理图像所对应的部位掩码图像;
基于所述部位掩码图像及所述文本描述信息,对所述关键区域图像进行图像生成,得到第一重绘图像;
识别所述第一重绘图像中的重绘连接区域,对所述重绘连接区域进行连接调整,生成目标重绘图像。
2.如权利要求1所述的方法,其特征在于,所述识别所述待处理图像中的关键对象部位,得到关键区域图像,包括:
对所述待处理图像进行图像语义分割,得到语义分割图像;所述语义分割图像包括至少两个分割区域;
获取关键对象部位在所述至少两个分割区域中对应的关键分割区域,从所述待处理图像中获取所述关键分割区域所对应的数据,生成关键区域图像。
3.如权利要求1所述的方法,其特征在于,所述识别所述待处理图像中的关键对象部位,得到关键区域图像,包括:
将所述待处理图像输入图像分割模型中,通过所述图像分割模型中的卷积层,对所述待处理图像进行特征识别,得到图像卷积特征;
通过所述图像分割模型中的语义分割模块对所述图像卷积特征进行信息解析,得到信息编码特征;
通过所述图像分割模型中的全局处理层,对所述信息编码特征进行全局特征处理,生成关键区域图像。
4.如权利要求1所述的方法,其特征在于,所述基于所述关键对象部位生成所述待处理图像所对应的部位掩码图像,包括:
将所述待处理图像中,所述关键对象部位所对应的第一区域中像素点的像素值置为第一像素值,将所述待处理图像中除所述第一区域之外的第二区域中像素点的像素值置为第二像素值,得到部位掩码图像。
5.如权利要求1所述的方法,其特征在于,所述基于所述部位掩码图像及所述文本描述信息,对所述关键区域图像进行图像生成,得到第一重绘图像,包括:
基于所述文本描述信息,确定所述关键对象部位的部位位置信息;
基于所述部位位置信息,对所述关键区域图像及所述部位掩码图像进行缩放处理,得到所述关键区域图像所对应的关键输入图像,以及所述部位掩码图像所对应的第一掩码图像;
生成第一随机噪声,基于所述第一掩码图像对所述第一随机噪声与所述关键输入图像进行图像融合,生成第一重绘图像。
6.如权利要求5所述的方法,其特征在于,所述基于所述第一掩码图像对所述第一随机噪声与所述关键输入图像进行图像融合,生成第一重绘图像,包括:
对所述关键输入图像进行加噪处理,生成关键噪声图像;
基于所述第一掩码图像确定掩码区域与非掩码区域,将所述关键噪声图像中的掩码区域与所述第一随机噪声中的非掩码区域进行融合,生成融合噪声图像,对所述融合噪声图像进行去噪处理,得到第一重绘图像。
7.如权利要求6所述的方法,其特征在于,所述对所述关键输入图像进行加噪处理,生成关键噪声图像,包括:
获取第一重绘迭代次数,基于所述第一重绘迭代次数对所述关键输入图像进行加噪处理,生成关键噪声图像;
所述将所述关键噪声图像中的掩码区域与所述第一随机噪声中的非掩码区域进行融合,生成融合噪声图像,对所述融合噪声图像进行去噪处理,得到第一重绘图像,包括:
将所述关键噪声图像中的掩码区域与第i-1个更新噪声数据中的非掩码区域进行融合,生成第i个融合噪声图像;i为小于或等于所述第一重绘迭代次数的正整数;当i为1时,所述第i-1个更新噪声数据为所述第一随机噪声;
对所述第i个融合噪声图像进行去噪处理,得到第i个更新噪声数据;
若i为所述第一重绘迭代次数,则将所述第i个更新噪声数据确定为第一重绘图像。
8.如权利要求1所述的方法,其特征在于,所述识别所述第一重绘图像中的重绘连接区域,包括:
识别所述第一重绘图像中的关键对象部位,得到部位轮廓,从所述部位轮廓中获取重绘轮廓线;
基于所述关键对象部位在所述第一重绘图像中的重绘位置信息,获取掩码拼接点;
将所述重绘轮廓线与所述掩码拼接点组成重绘连接区域。
9.如权利要求1所述的方法,其特征在于,所述对所述重绘连接区域进行连接调整,生成目标重绘图像,包括:
生成第二随机噪声,基于所述重绘连接区域对所述第一重绘图像进行二值化处理,生成重绘掩码图像;
基于所述重绘掩码图像对所述第二随机噪声与所述第一重绘图像进行图像融合,生成重绘融合图像,对所述重绘融合图像进行去噪处理,生成目标重绘图像。
10.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标重绘图像所对应的文本描述样本,获取初始图像扩散模型,在所述初始图像扩散模型中插入数据处理层,得到图像扩散模型;
将所述目标重绘图像及所述文本描述样本输入所述图像扩散模型中进行处理,得到文本风格图像;所述文本风格图像是指具备所述文本描述样本所对应的图像风格的图像;
基于所述文本风格图像对所述数据处理层中的模型参数进行调整,得到目标图像扩散模型。
11.如权利要求10所述的方法,其特征在于,所述在所述初始图像扩散模型中插入数据处理层,得到图像扩散模型,包括:
获取所述初始图像扩散模型中的参数维度,基于所述参数维度生成第一参数及第二参数,将所述第一参数与所述第二参数组成所述数据处理层中的模型参数;
将携带所述模型参数的所述数据处理层,插入所述初始图像扩散模型中,得到图像扩散模型。
12.如权利要求10所述的方法,其特征在于,所述将所述目标重绘图像及所述文本描述样本输入所述图像扩散模型中进行处理,得到文本风格图像,包括:
将所述目标重绘图像及所述文本描述样本输入所述图像扩散模型中,采用所述初始图像扩散模型中的初始参数,对所述目标重绘图像及所述文本描述样本进行处理,得到第一图像特征;
采用所述图像扩散模型中的模型参数,对所述目标重绘图像及所述文本描述样本进行处理,得到第二图像特征;
对所述第一图像特征与所述第二图像特征进行特征融合处理,生成文本风格图像。
13.一种图像处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取待处理图像以及针对所述待处理图像的文本描述信息;
关键识别模块,用于识别所述待处理图像中的关键对象部位,得到关键区域图像;
掩码处理模块,用于基于所述关键对象部位生成所述待处理图像所对应的部位掩码图像;
图像重绘模块,用于基于所述部位掩码图像及所述文本描述信息,对所述关键区域图像进行图像生成,得到第一重绘图像;
重绘调整模块,用于识别所述第一重绘图像中的重绘连接区域,对所述重绘连接区域进行连接调整,生成目标重绘图像。
14.一种计算机设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于接收数据及输出数据,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
16.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240257.XA CN117252947A (zh) | 2023-09-22 | 2023-09-22 | 图像处理方法、装置、计算机、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240257.XA CN117252947A (zh) | 2023-09-22 | 2023-09-22 | 图像处理方法、装置、计算机、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117252947A true CN117252947A (zh) | 2023-12-19 |
Family
ID=89128911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311240257.XA Pending CN117252947A (zh) | 2023-09-22 | 2023-09-22 | 图像处理方法、装置、计算机、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252947A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576264A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备及介质 |
-
2023
- 2023-09-22 CN CN202311240257.XA patent/CN117252947A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576264A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备及介质 |
CN117576264B (zh) * | 2024-01-15 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11463631B2 (en) | Method and apparatus for generating face image | |
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
US20220172518A1 (en) | Image recognition method and apparatus, computer-readable storage medium, and electronic device | |
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
CN111950424B (zh) | 一种视频数据处理方法、装置、计算机及可读存储介质 | |
KR102124466B1 (ko) | 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법 | |
CN110781770B (zh) | 基于人脸识别的活体检测方法、装置及设备 | |
CN112419170A (zh) | 遮挡检测模型的训练方法及人脸图像的美化处理方法 | |
CN112037142B (zh) | 一种图像去噪方法、装置、计算机及可读存储介质 | |
KR20180054407A (ko) | 로봇 시스템 | |
CN114549369B (zh) | 数据修复方法、装置、计算机及可读存储介质 | |
CN114495128B (zh) | 字幕信息检测方法、装置、设备以及存储介质 | |
CN117078790B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN117252947A (zh) | 图像处理方法、装置、计算机、存储介质及程序产品 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN116977484A (zh) | 图像脱敏方法、装置、电子设备及存储介质 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN112419249B (zh) | 一种特殊服饰图片转化方法、终端设备及存储介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN115760888A (zh) | 图像处理方法、装置、计算机及可读存储介质 | |
CN113516735A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
CN117441195A (zh) | 纹理补全 | |
Lin et al. | Domain adaptation with foreground/background cues and gated discriminators | |
CN116129279B (zh) | 图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40098435 Country of ref document: HK |