CN118115631A - 图像生成方法、装置、电子设备和计算机可读介质 - Google Patents
图像生成方法、装置、电子设备和计算机可读介质 Download PDFInfo
- Publication number
- CN118115631A CN118115631A CN202410501291.6A CN202410501291A CN118115631A CN 118115631 A CN118115631 A CN 118115631A CN 202410501291 A CN202410501291 A CN 202410501291A CN 118115631 A CN118115631 A CN 118115631A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- adjustment
- region
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000009467 reduction Effects 0.000 claims abstract description 89
- 230000004044 response Effects 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 239000002775 capsule Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000009792 diffusion process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
本公开的实施例公开了图像生成方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:响应于接收到第一图像调整信息,执行以下第一生成步骤:根据该第一图像调整信息,获取至少一个图像调整区域信息;生成至少一个降噪信息和至少一个区域内容调整信息;生成图像描述信息;生成蒙版图像集;根据该图像描述信息、该蒙版图像集、该至少一个降噪信息和该至少一个区域内容调整信息,生成针对该目标图像的调整后图像;响应于接收到图像提交信息,将该调整后图像发送至该目标用户对应的使用终端。该实施方式可以根据用户的个性化需求,对目标图像进行针对性调整,以得到目标用户所需的调整后图像。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及图像生成方法、装置、电子设备和计算机可读介质。
背景技术
目前,在人们日常生活中,物品展示图和广告图的应用越发广泛。如何对物品展示图和广告图进行有效的图处理,以提高图质量,吸引更多的用户成为当前的研究方向之一。对于目标图像的图像调整,通常采用的方式为:目标用户可以利用相关图像处理软件(例如,photoshop软件),来实现目标图像的图像处理。
然而,当采用上述方式来进行图像调整,经常会存在如下技术问题:
需要人为熟练使用图像处理软件,且使用图像处理软件来进行图像处理往往会导致处理时间较长、且可能调整后图像不能满足用户需求。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了图像生成方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种图像生成方法,包括:响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息,其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息;生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息;生成针对上述目标图像的图像描述信息;生成针对上述至少一个图像调整区域信息的蒙版图像集,其中,上述蒙版图像集包括:上述至少一个图像调整区域信息对应的至少一个蒙版图像;根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像;响应于接收到针对上述调整后图像的图像提交信息,将上述调整后图像发送至上述目标用户对应的使用终端。
第二方面,本公开的一些实施例提供了一种图像生成装置,包括:息,对于目标图像,执行以下第一生成步骤:根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息,其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息;生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息;生成针对上述目标图像的图像描述信息;生成针对上述至少一个图像调整区域信息的蒙版图像集,其中,上述蒙版图像集包括:上述至少一个图像调整区域信息对应的至少一个蒙版图像;根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像;响应于接收到针对上述调整后图像的图像提交信息,将上述调整后图像发送至上述目标用户对应的使用终端。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的图像生成方法,根据用户的个性化需求,对目标图像进行针对性调整,以得到目标用户所需的调整后图像。具体来说,造成相关的调整后图像不够精确、且生成效率低下的原因在于:需要人为熟练使用图像处理软件,且使用图像处理软件来进行图像处理往往会导致处理时间较长、且可能调整后图像不能满足用户需求。基于此,本公开的一些实施例的图像生成方法,响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:第一步,根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息。其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息。在这里,通过目标用户所圈定或所输入的至少一个图像调整区域信息,可以针对性地依据目标用户的图像调整需求,进行目标图像中的对应区域的区域内容调整。第二步,生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息。在这里,通过生成降噪信息,可以让目标用户获取到图像质量达到目标用户要求的图像。同样地,通过生成区域内容调整信息,可以在满足目标用户的个性化图像调整需求,使得后续所生成的调整后图像为目标用户所想要的图像。第三步,生成针对上述目标图像的图像描述信息,以充分获取到目标图像的各种特征下的图像描述情况,以便于后续避免所生成的调整后图像出现内容调整不匹配的问题,导致调整后图像内容质量差。第四步,生成针对上述至少一个图像调整区域信息的蒙版图像集,以便于后续进行图像的调整。其中,上述蒙版图像集包括:上述至少一个图像调整区域信息对应的至少一个蒙版图像。第五步,根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,可以准确地生成针对上述目标图像的、符合目标用户预期的调整后图像。第六步,响应于接收到针对上述调整后图像的图像提交信息,将上述调整后图像发送至上述目标用户对应的使用终端。综上,通过与目标用户之间的图像处理信息(例如,至少一个图像调整区域信息)的交互,以及在考虑到降噪信息、蒙版图像、图像描述信息和区域内容调整信息的情况下,可以准确地生成满足目标用户要求的、质量达标的调整后图像。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的图像生成方法的一些实施例的流程图;
图2是根据本公开的图像生成方法的一些实施例中的共享编码器和抠图解码器的示意图;
图3是根据本公开的图像生成装置的一些实施例的结构示意图;
图4是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
参考图1,示出了根据本公开的图像生成方法的一些实施例的流程100。该图像生成方法,包括以下步骤:
步骤101,响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:
步骤1011,根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息。
在一些实施例中,上述图像生成方法的执行主体可以根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息。其中,目标图像可以是目标用户输入的、待进行调整的图像。实践中,目标用户可以在人机交互页面来实现目标图像的输入。第一图像调整信息可以是对目标图像进行调整的信息。实践中,第一图像调整信息可以包括:图像颜色调整信息、区域内容调整信息。图像颜色调整可以是对图像进行颜色调整的调整信息。区域内容调整信息可以是表征如何对目标图像中对应的区域内容进行内容调整的信息。例如,区域内容调整信息可以是将目标图像中的目标区域对应的人脸内容由微笑表情调整为大笑表情。目标用户可以是输入目标图像的用户。图像调整区域信息可以是目标图像中进行图像内容调整的区域信息。实践中,图像调整区域信息可以是目标用户在图像处理页面上进行圈定的、表征待进行图像内容调整的区域信息。其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息。对象调整区域信息可以是目标图像中待进行对象调整的区域信息。实践中,对象可以是图像主体。例如,针对目标图像是商品宣传图,对象调整区域信息可以是商品对应的、待进行调整的区域信息。背景调整区域信息可以是目标图像中待进行背景调整的区域信息。实践中,背景可以是图像背景。例如,针对目标图像是商品宣传图,对象调整区域信息可以是商品背景对应的、待进行调整的区域信息。区域整体调整信息可以是目标图像中待进行背景调整且进行对象调整的区域信息。
步骤1012,生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息。
在一些实施例中,上述执行主体可以生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息。其中,降噪信息可以是对图像调整区域信息对应子图像进行降噪处理的降噪程度。降噪信息可以是0-1之间的数值。数值越大,表征对应降噪的强度越高。区域内容调整信息可以是表征如何对图像调整区域信息对应区域的内容进行调整的调整信息。
在一些实施例的一些可选的实现方式中,上述生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,可以包括以下步骤:
第一步,响应于确定降噪信息生成方式为对象输入方式,从上述第一图像调整信息中解析出上述目标用户所输入的、上述图像调整区域信息对应的降噪信息。其中,降噪信息生成方式可以是如何生成降噪信息的方式。对象输入方式可以是目标用户进行人为输入的方式。
作为示例,上述执行主体可以利用预定的信息解析方法,从上述第一图像调整信息中解析出上述目标用户所输入的、上述图像调整区域信息对应的降噪信息。
第二步,响应于确定降噪信息生成方式为自动匹配方式,从上述图像信息库中筛选出与上述图像调整区域信息之间相似度大于预设相似度的图像信息,作为目标图像信息。其中,自动匹配方式可以是自动获取降噪信息的方式。预设相似度可以是预先设置的相似度数值。图像信息库可以是存储各种形式的图像信息的数据库。图像信息可以是图像元素。实践中,图像元素可以是但不限于以下至少一项:图像背景,图像对象,图像标题。
第三步,从预先生成的降噪信息库中筛选出与上述目标图像信息相对应的降噪信息,作为上述图像调整区域信息对应的降噪信息。其中,图像信息库中的图像信息都存在对应的处于降噪信息库中的降噪信息。降噪信息库可以是存储降噪信息的数据库。降噪信息库中的降噪信息与图像信息库中的图像信息是对应存储的。
第四步,从上述第一图像调整信息中解析出上述目标用户所输入的、上述图像调整区域信息对应的初始区域内容调整信息。
作为示例,上述执行主体可以利用预定的信息解析方法,从上述第一图像调整信息中解析出上述目标用户所输入的、上述图像调整区域信息对应的初始区域内容调整信息。
第五步,响应于确定上述初始区域内容调整信息不为空,将上述初始区域内容调整信息确定为区域内容调整信息。
第六步,响应于确定上述初始区域内容调整信息为空,生成针对上述图像调整区域信息的至少一个推荐区域内容调整信息,以供上述目标用户从上述至少一个推荐区域内容调整信息中筛选出上述区域内容调整信息。其中,推荐区域内容调整信息可以是表征图像调整区域信息对应区域内如何进行内容调整的调整信息。
作为示例,首先,提取上述图像调整区域信息对应的子图像,作为预设子图像。然后,提取上述预设子图像对应的描述词集。接着,根据描述词集,通过预定的至少一个内容调整规则,生成对应的至少一个推荐区域内容调整信息。
在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题“如何针对图像调整区域信息生成多样化的推荐调整内容”。针对上述技术问题,常规的解决方案一般是:通过预先设置的多个内容调整规则,进行自动化地对图像调整区域信息对应区域的区域内容进行内容调整,以生成推荐调整内容。然而,上述常规解决方案依然存在如下问题:多个内容调整规则是预先设置的,利用多个内容调整规则进行调整后的推荐调整内容过于死板,且不能与目标图像中的其余区域的区域内容相匹配。
考虑到上述常规解决方案“通过预先设置的多个内容调整规则,进行自动化地对图像调整区域信息对应区域的区域内容进行内容调整,以生成推荐调整内容”的问题,面对上述技术问题二:多个内容调整规则是预先设置的,利用多个内容调整规则进行调整后的推荐调整内容过于死板,且不能与目标图像中的其余区域的区域内容相匹配。结合所拥有的优势/技术现状,可以决定采用如下解决方案:
可选地,生成针对上述图像调整区域信息的至少一个推荐区域内容调整信息,包括以下步骤:
第一步,确定图像调整区域信息对应的子图像,作为预设子图像。
第二步,获取像素数目序列,其中,像素数目序列中的各个像素数目是成等比关系的。
第三步,对于上述像素数目序列中的每个像素数目,根据上述像素数目,对上述目标图像中的子图像进行图像扩充,以生成扩充图像,其中,扩充图像对应的图像边界与子图像对应的图像边界之间的像素距离为上述像素数目。
第四步,对于所得到的扩充图像序列中的每个扩充图像,执行以下第四生成步骤:
子步骤1,确定上述扩充图像对应的预设子图像,作为目标预设子图像。
子步骤2,将上述目标预设子图像和扩充图像分别输入至卷积神经网络模型,以生成预设子图像特征信息和扩充图像特征信息。其中,卷积神经网络模型可以是用于提取图像中的特征语义信息的神经网络模型。卷积神经网络模型可以是预先训练的。卷积神经网络模型可以是以图像集作为训练数据集,图像特征信息集作为标签集,利用基于常规的模型训练方式(例如,梯度下降法)来训练的。预设子图像特征信息可以表征目标预设子图像中的特征语义信息。扩充图像特征信息可以表征扩充图像中的特征语义信息。
第五步,将上述预设子图像特征信息和所得到的扩充图像特征信息序列输入至基于动态路由算法(Dynamic Routing)的胶囊网络(CapsulesNet),以生成至少一个胶囊输出向量和至少一个胶囊输出概率。其中,至少一个胶囊输出向量中的胶囊输出向量和至少一个胶囊输出概率中的胶囊输出概率存在一一对应关系。胶囊网络的核心思想是将神经元组织成不同级别的胶囊结构,用于捕捉输入数据的多个特征。每一个胶囊是由一组神经元组成的,这些神经元可以表示同一类特征的不同实例。实践中,胶囊网络的训练方式可以是常规的胶囊网络的训练方式。
第六步,从上述至少一个胶囊输出向量中筛选出对应胶囊输出概率大于预设数值的胶囊输出向量,得到胶囊输出向量集。其中,预设数值可以是预先设置的数值。例如,预设数值可以是0.5。
第七步,将上述胶囊输出向量集中的每个胶囊输出向量输入至多层串联的全连接层,以输出至少一个推荐区域内容调整信息。
上述“可选地”的内容作为本公开的发明点之一,解决了背景技术提及的技术问题“多个内容调整规则是预先设置的,利用多个内容调整规则进行调整后的推荐调整内容过于死板,且不能与目标图像中的其余区域的区域内容相匹配”。基于此,本公开通过利用基于动态路由算法的胶囊网络,可以实现多元化的图像特征的特征语义组合,以生成更为丰富的、高纬度的特征信息,使得后续生成多样化的、准确的至少一个推荐区域内容调整信息。
步骤1013,生成针对上述目标图像的图像描述信息。
在一些实施例中,上述执行主体可以生成针对上述目标图像的图像描述信息。其中,图像描述信息可以是目标图像的图像语义内容的内容描述。实践中,图像描述信息可以是内容描述文本集。例如,图像描述信息可以包括:图像内容风格描述信息、图像内容关键词集。
步骤1014,生成针对上述至少一个图像调整区域信息的蒙版图像集。
在一些实施例中,上述执行主体可以生成针对上述至少一个图像调整区域信息的蒙版图像集。其中,上述蒙版图像集包括:上述至少一个图像调整区域信息对应的至少一个蒙版图像。其中,至少一个图像调整区域信息中的图像调整区域信息与至少一个蒙版图像中的蒙版图像存在一一对应关系。蒙版图像可以是对图像调整区域信息对应区域图像进行内容掩盖后的图像。
在一些实施例的一些可选的实现方式中,上述至少一个图像调整区域信息中的图像调整区域信息是区域位置信息。其中,区域位置信息可以是区域位置坐标信息。
可选地,上述生成针对上述至少一个图像调整区域信息的蒙版图像集,可以包括以下步骤:
第一步,对于上述至少一个图像调整区域信息中的每个图像调整区域信息,执行以下第三生成步骤:
子步骤1,对上述图像调整区域信息进行区域位置扩展,以生成扩展后的区域信息。其中,扩展后的区域信息可以包括图像调整区域信息。
作为示例,上述执行主体通过所获取的位置扩展大小,对上述图像调整区域信息进行区域位置扩展,以生成扩展后的区域信息。
子步骤2,确定上述扩展后的区域信息对应的子图像。
子步骤3,将上述子图像输入至预先训练的共享编码器,以生成第一编码信息。实践中,共享编码器可以是共享编码网络(shared encoder)。
子步骤4,从上述图像调整区域信息对应的区域内容调整信息中提取调整对象信息。其中,调整对象信息可以是待进行调整的对象的对象信息。实践中,调整对象信息可以是商品对象信息。
作为示例,上述执行主体可以通过关键词提取算法,来上述图像调整区域信息对应的区域内容调整信息中提取调整对象信息。
子步骤5,对上述调整对象信息进行信息编码处理,以生成第二编码信息。其中,第二编码信息可以是向量形式的信息。
作为示例,上述执行主体可以将调整对象信息输入至词嵌入模型,以进行信息编码,生成第二编码信息。
子步骤6,将上述第一编码信息和上述第二编码信息进行拼接,以生成第一拼接信息。
子步骤7,将上述第一拼接信息输入至预先训练的抠图解码器,以生成第一解码信息。其中,第一解码信息可以是向量形式的信息。抠图解码器可以是用于抠图处理的解码网络(Matting Decoder)。
子步骤8,根据上述第一解码信息,生成上述图像调整区域信息对应的蒙版图像。
作为示例,上述执行主体可以将第一解码信息输入至全连接层,以生成上述图像调整区域信息对应的蒙版图像。
第二步,根据所得到的至少一个蒙版图像,对上述目标图像进行图像生成处理,以生成第一蒙版图像。
作为示例,上述执行主体可以将至少一个蒙版图像对应的至少一个子图像从上述目标图像中进行去除,以生成第一蒙版图像。
第三步,生成上述至少一个图像调整区域信息对应的至少一个调整对象信息。其中,至少一个图像调整区域信息中的图像调整区域㢁与至少一个调整对象信息中的调整对象信息存在一一对应关系。
第四步,生成上述至少一个调整对象信息对应的至少一个第二编码信息。其中,至少一个调整对象信息中的调整对象信息与至少一个第二编码信息中的第二编码信息存在一一对应关系。
第五步,将上述目标图像输入至预先训练的共享编码器,以生成第三编码信息。
第六步,将上述至少一个第二编码信息和上述第三编码信息进行拼接,以生成第二拼接信息。
第七步,将上述第二拼接信息输入至预先训练的抠图解码器,以生成第二解码信息。
第八步,根据上述第二解码信息,生成上述第二蒙版图像。
作为示例,上述执行主体可以将第二解码信息输入至全连接层,以生成上述图像调整区域信息对应的第二蒙版图像。
第九步,将上述第一蒙版图像和上述第二蒙版图像之间的交集图像确定为目标蒙版图像。
第十步,将上述目标蒙版图像和所得到的至少一个蒙版图像确定为上述蒙版图像集。
作为示例,参见图2,示出了共享编码器和抠图解码器的示意图。图2中的矩阵201是共享编码器对应的输入图像的图像矩阵。共享编码器可以是共享编码网络202。共享编码网络202是多个残差层203串联组合而成的。残差层可以是残差网络(Residual Network,ResNet)。抠图解码器可以是解码网络204。解码网络204可以是多个串联的残差上采样层205组成。PRM网络层206可以是渐进细化模块(Progressive Refinement Module,PRM)。图2中的矩阵207是调整对象信息对应的第二编码信息。
需要说明的,共享编码器和抠图解码器可以同时训练的。即,可以以图像数据集作为训练数据集,对应的蒙版图像集作为标签结果,通过反向传播的方式,对还未训练结束的共享编码器和还未训练结束的抠图编码器的模型参数进行不断更新,以生成共享编码器和抠图编码器。
在一些实施例的一些可选的实现方式中,上述生成针对上述至少一个图像调整区域信息的蒙版图像集,可以包括以下步骤:
第一步,对于上述至少一个图像调整区域信息中的每个图像调整区域信息,执行以下第五生成步骤:
子步骤1,对上述图像调整区域信息进行区域位置扩展,以生成扩展后的区域信息。其中,扩展后的区域信息可以包括图像调整区域信息。
子步骤2,确定上述扩展后的区域信息对应的子图像。
子步骤3,对上述子图像进行图像下采样处理,以生成下采样图像。
子步骤4,将下采样图像输入至预先训练的共享编码器,以生成第四编码信息。
子步骤5,从上述图像调整区域信息对应的区域内容调整信息中提取调整对象信息。
子步骤6,对上述调整对象信息进行信息编码处理,以生成第五编码信息。其中,第五编码信息可以是向量形式的信息。
子步骤7,将上述第四编码信息和上述第五编码信息进行拼接,以生成第三拼接信息。
子步骤8,将上述第三拼接信息和上述第四编码信息输入至预先训练的分割解码器,以生成预定分辨率下的第一预定蒙版图像。其中,分割解码器可以是SegmentationDecoder模型。Segmentation Decoder模型是由多个串联连接的上采样卷积层组合而成的模型。
子步骤9,将第一预定蒙版图像和上述第三拼接信息输入至注意力机制模型,以生成第一注意力信息。其中,注意力机制模型可以是深度卷积神经网络的高效通道注意力机制(ECA,Efficient Channel Attention)层。
子步骤10,将第一注意力信息输入至预先训练的抠图解码器,以生成第三解码信息。
子步骤11,根据上述第三解码信息,生成上述图像调整区域信息对应的蒙版图像。
作为示例,上述执行主体可以将第三解码信息输入至全连接层,以生成上述图像调整区域信息对应的蒙版图像。
第二步,根据所得到的至少一个蒙版图像,对上述目标图像进行图像生成处理,以生成第三蒙版图像。
作为示例,上述执行主体可以将至少一个蒙版图像对应的至少一个子图像从上述目标图像中进行去除,以生成第三蒙版图像。
第三步,生成上述至少一个图像调整区域信息对应的至少一个调整对象信息。其中,至少一个图像调整区域信息中的图像调整区域㢁与至少一个调整对象信息中的调整对象信息存在一一对应关系。
第四步,生成上述至少一个调整对象信息对应的至少一个第六编码信息。其中,至少一个调整对象信息中的调整对象信息与至少一个第六编码信息中的第六编码信息存在一一对应关系。
第五步,将上述目标图像对应下采样图像输入至预先训练的共享编码器,以生成第七编码信息。
第六步,将上述至少一个第六编码信息和上述第七编码信息进行拼接,以生成第四拼接信息。
第七步,将第二拼接信息和上述第七编码信息输入至预先训练的分割解码器,以生成预定分辨率下的第二预定蒙版图像。
第八步,将第二预定蒙版图像和上述第四拼接信息输入至注意力机制模型,以生成第二注意力信息。
第九步,将第二注意力信息输入至预先训练的抠图解码器,以生成第四解码信息。
第十步,根据上述第四解码信息,生成上述第四蒙版图像。
作为示例,上述执行主体可以将第三解码信息输入至全连接层,以生成上述图像调整区域信息对应的蒙版图像。
第十一步,将上述第三蒙版图像和上述第四蒙版图像之间的交集图像确定为目标蒙版图像。
第十二步,将上述目标蒙版图像和所得到的至少一个蒙版图像确定为上述蒙版图像集。
需要说明的是,共享编码器、抠图解码器、分割解码器和注意力机制模型是同步训练的。具体训练方式可以是基于常规的基于反向传播来进行模型参数更新的训练方式。
步骤1015,根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像。
在一些实施例中,上述执行主体可以根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像。调整后图像可以是进行内容调整后的图像。
作为示例,上述执行主体可以将述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息输入至图像生成模型(stable diffusion),以生成针对上述目标图像的调整后图像。其中,图像生成模型table diffusion包括:CLIPText(Contrastive Language-Image Pre-training,基于对比文本-图像对的预训练)编码器、由多达50个U-Net网络组成的图片生成器和Image Decoder解码器。CLIPText编码器包括:文本编码器(Text Encoder)和图像编码器(Image Encoder)。Text Encoder选择的是Text Transformer模型。Image Encoder可以选择两种模型,一是基于CNN的ResNet(对比了不同层数的ResNet模型)模型,二是基于Transformer的ViT模型。图像生成模型tablediffusion是以上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息对应组成的组合数据为训练数据,对应文本描述的图像为标签,通过梯度下降法来进行模型参数更新而生成的模型。
在一些实施例的一些可选的实现方式中,上述根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像,可以包括以下步骤:
第一步,获取针对上述目标图像的图像调整方式。其中,图像调整方式可以是图像进行如何调整的方式。
第二步,响应于确定上述图像调整方式为图像整体调整方式,从上述蒙版图像集中筛选出与整体图像调整区域信息相对应的蒙版图像,作为目标蒙版图像。其中,上述整体图像调整区域信息是上述至少一个图像调整区域信息对应的汇总区域信息,上述目标蒙版图像与上述目标图像的图像大小相同。图像整体调整方式可以是对目标图像中的各个图像调整区域信息对应的区域进行整体内容调整的方式。至少一个图像调整区域信息对应的汇总区域信息可以是至少一个图像调整区域信息对应的汇总区域的区域信息。
第三步,根据上述目标蒙版图像、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成初始调整后图像。
作为示例,首先,上述执行主体可以对图像生成模型(stable diffusion)的模型输入进行微调,以生成输入调整后的图像生成模型。然后,将上述目标蒙版图像、上述至少一个降噪信息和上述至少一个区域内容调整信息输入至输入调整后的图像生成模型,以生成初始调整后图像。
第四步,根据上述图像描述信息,对上述初始调整后图像进行图像再次调整,以生成上述调整后图像。
作为示例,首先,上述执行主体可以提取图像描述信息对应的至少一个图像描述关键词。然后,将上述至少一个图像描述关键词和上述初始调整后图像输入至预先训练的U-net模型,以生成调整后图像。其中,U-Net模型是一种高效的卷积神经网络模型,专门设计用于图像分割任务。它的主要特点是具有一个对称的编码器-解码器结构,这种结构使U-Net能够准确地分割图像。U-Net模型的结构可以分为两部分:收缩路径(编码器)和扩展路径(解码器)。在收缩路径中,图像通过一系列卷积层、激活函数(如ReLU)和最大池化层,每个卷积层都会提取更高级和抽象的特征,同时降低图像的空间维度。在扩展路径中,通过上采样和卷积层,逐渐恢复特征图的空间分辨率至与原始图像相同。这一过程中,通过跳跃连接将编码器的低级特征与解码器的高级特征结合,使得网络能够捕捉多尺度信息。U-net模型可以是常规的训练方式所训练的。即,以图像描述信息和图像组成的数据作为训练数据,对应调整后的图像为标签,通过反向传播的方式,对初始U-net模型中的各个模型参数进行更新,以生成U-net模型。
在一些实施例的一些可选的实现方式中,上述根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像,可以包括以下步骤:
第一步,响应于确定上述图像调整方式为图像局部调整方式,对于上述至少一个蒙版图像中的每个蒙版图像,执行以下第二生成步骤:
子步骤1,根据上述蒙版图像、对应的降噪信息、对应的区域内容调整信息和上述图像描述信息,生成针对上述蒙版图像的初始区域调整图像。其中,图像局部调整方式可以是对图像进行局部调整的方式。
作为示例,上述执行主体可以将蒙版图像、对应的降噪信息、对应的区域内容调整信息和上述图像描述信息输入至图像生成模型(stable diffusion)的模型,以生成初始区域调整图像。
子步骤2,执行针对上述初始区域调整图像和目标子图像的降噪校验和描述信息校验,以生成校验信息,其中,上述目标子图像与蒙版图像存在图像内容对应关系。其中,校验信息包括:降噪校验信息和描述信息校验信息。降噪校验信息可以是表征降噪变化是否满足预设降噪要求的信息。描述信息校验信息可以是表征描述信息变化是否满足预设信息相似要求的信息。
作为示例,首先,上述执行主体可以确定初始区域调整图像和目标子图像的之间的降噪变化,得到降噪变化数值。然后,响应于确定降噪变化数值处于预设变化区间,以生成表征降噪校验通过的降噪校验信息。接着,确定上述初始区域调整图像对应的图像关键词集,作为第一关键词集,以及确定目标子图像对应的图像关键词集,作为第二关键词集。进而,确定第一关键词集和第二关键词集之间的关键词相似度。响应于确定关键词相似度处于预设相似度区间,以生成表征描述信息校验通过的描述信息校验信息。最后,根据降噪校验信息和上述描述信息校验信息,生成校验信息。
子步骤3,响应于确定上述校验信息表征上述初始区域调整图像校验通过,将上述初始区域调整图像确定为区域调整图像。
第二步,根据所得到的至少一个区域调整图像,生成上述调整后图像。
步骤1016,响应于接收到针对上述调整后图像的图像提交信息,将上述调整后图像发送至上述目标用户对应的使用终端。
在一些实施例中,响应于接收到针对上述调整后图像的图像提交信息,上述执行主体可以将上述调整后图像发送至上述目标用户对应的使用终端。
在一些实施例的一些可选的实现方式中,在步骤1016之后,步骤还包括:
第一步,确定上述目标用户对应的用户群,其中,上述用户群中的各个用户存在相同的至少一个用户特征。例如,至少一个用户特征可以包括但不限于以下至少一项:用户喜好风格特征,用户地区特征。
第二步,将上述调整后图像中的、上述至少一个图像调整区域信息对应的至少一个图像信息存储于上述用户群对应的图像信息库。
在一些实施例的一些可选的实现方式中,在步骤101之后,步骤还包括:
响应于接收到针对上述调整后图像的第二图像调整信息,上述执行主体可以将上述调整后图像作为目标图像,将第二图像调整信息作为第一图像调整信息,上述执行主体可以继续执行上述第一生成步骤。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的图像生成方法,根据用户的个性化需求,对目标图像进行针对性调整,以得到目标用户所需的调整后图像。具体来说,造成相关的调整后图像不够精确、且生成效率低下的原因在于:需要人为熟练使用图像处理软件,且使用图像处理软件来进行图像处理往往会导致处理时间较长、且可能调整后图像不能满足用户需求。基于此,本公开的一些实施例的图像生成方法,响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:第一步,根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息。其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息。在这里,通过目标用户所圈定或所输入的至少一个图像调整区域信息,可以针对性地依据目标用户的图像调整需求,进行目标图像中的对应区域的区域内容调整。第二步,生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息。在这里,通过生成降噪信息,可以让目标用户获取到图像质量达到目标用户要求的图像。同样地,通过生成区域内容调整信息,可以在满足目标用户的个性化图像调整需求,使得后续所生成的调整后图像为目标用户所想要的图像。第三步,生成针对上述目标图像的图像描述信息,以充分获取到目标图像的各种特征下的图像描述情况,以便于后续避免所生成的调整后图像出现内容调整不匹配的问题,导致调整后图像内容质量差。第四步,生成针对上述至少一个图像调整区域信息的蒙版图像集,以便于后续进行图像的调整。其中,上述蒙版图像集包括:上述至少一个图像调整区域信息对应的至少一个蒙版图像。第五步,根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,可以准确地生成针对上述目标图像的、符合目标用户预期的调整后图像。第六步,响应于接收到针对上述调整后图像的图像提交信息,将上述调整后图像发送至上述目标用户对应的使用终端。综上,通过与目标用户之间的图像处理信息(例如,至少一个图像调整区域信息)的交互,以及在考虑到降噪信息、蒙版图像、图像描述信息和区域内容调整信息的情况下,可以准确地生成满足目标用户要求的、质量达标的调整后图像。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供了一种图像生成装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该图像生成装置具体可以应用于各种电子设备中。
如图3所示,一种图像生成装置300包括:执行单元301。其中,执行单元301,被配置成响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息,其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息;生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息;生成针对上述目标图像的图像描述信息;生成针对上述至少一个图像调整区域信息的蒙版图像集,其中,上述蒙版图像集包括:上述至少一个图像调整区域信息对应的至少一个蒙版图像;根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像;响应于接收到针对上述调整后图像的图像提交信息,将上述调整后图像发送至上述目标用户对应的使用终端。
可以理解的是,该图像生成装置300中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于图像生成装置300及其中包含的单元,在此不再赘述。
下面参考图4,其示出了适于用来实现本公开的一些实施例的电子设备(例如,电子设备)400的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图4中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:根据上述第一图像调整信息,获取目标用户所圈定或所输入的、针对上述目标图像的至少一个图像调整区域信息,其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息;生成上述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息;生成针对上述目标图像的图像描述信息;生成针对上述至少一个图像调整区域信息的蒙版图像集,其中,上述蒙版图像集包括:上述至少一个图像调整区域信息对应的至少一个蒙版图像;根据上述图像描述信息、上述蒙版图像集、上述至少一个降噪信息和上述至少一个区域内容调整信息,生成针对上述目标图像的调整后图像;响应于接收到针对上述调整后图像的图像提交信息,将上述调整后图像发送至上述目标用户对应的使用终端。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括执行单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种图像生成方法,包括:
响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:
根据所述第一图像调整信息,获取目标用户所圈定或所输入的、针对所述目标图像的至少一个图像调整区域信息,其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息;
生成所述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息;
生成针对所述目标图像的图像描述信息;
生成针对所述至少一个图像调整区域信息的蒙版图像集,其中,所述蒙版图像集包括:所述至少一个图像调整区域信息对应的至少一个蒙版图像;
根据所述图像描述信息、所述蒙版图像集、所述至少一个降噪信息和所述至少一个区域内容调整信息,生成针对所述目标图像的调整后图像;
响应于接收到针对所述调整后图像的图像提交信息,将所述调整后图像发送至所述目标用户对应的使用终端。
2.根据权利要求1所述的方法,其中,所述方法还包括:
响应于接收到针对所述调整后图像的第二图像调整信息,将所述调整后图像作为目标图像,将第二图像调整信息作为第一图像调整信息,继续执行所述第一生成步骤。
3.根据权利要求1所述的方法,其中,在所述响应于接收到针对所述调整后图像的图像提交信息,将所述调整后图像发送至所述目标用户对应的使用终端之后,所述方法还包括:
确定所述目标用户对应的用户群,其中,所述用户群中的各个用户存在相同的至少一个用户特征;
将所述调整后图像中的、所述至少一个图像调整区域信息对应的至少一个图像信息存储于所述用户群对应的图像信息库。
4.根据权利要求3所述的方法,其中,所述生成所述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,包括:
响应于确定降噪信息生成方式为对象输入方式,从所述第一图像调整信息中解析出所述目标用户所输入的、所述图像调整区域信息对应的降噪信息;
响应于确定降噪信息生成方式为自动匹配方式,从所述图像信息库中筛选出与所述图像调整区域信息之间相似度大于预设相似度的图像信息,作为目标图像信息;
从预先生成的降噪信息库中筛选出与所述目标图像信息相对应的降噪信息,作为所述图像调整区域信息对应的降噪信息;
从所述第一图像调整信息中解析出所述目标用户所输入的、所述图像调整区域信息对应的初始区域内容调整信息;
响应于确定所述初始区域内容调整信息不为空,将所述初始区域内容调整信息确定为区域内容调整信息;
响应于确定所述初始区域内容调整信息为空,生成针对所述图像调整区域信息的至少一个推荐区域内容调整信息,以供所述目标用户从所述至少一个推荐区域内容调整信息中筛选出所述区域内容调整信息。
5.根据权利要求1所述的方法,其中,所述根据所述图像描述信息、所述蒙版图像集、所述至少一个降噪信息和所述至少一个区域内容调整信息,生成针对所述目标图像的调整后图像,包括:
获取针对所述目标图像的图像调整方式;
响应于确定所述图像调整方式为图像整体调整方式,从所述蒙版图像集中筛选出与整体图像调整区域信息相对应的蒙版图像,作为目标蒙版图像,其中,所述整体图像调整区域信息是所述至少一个图像调整区域信息对应的汇总区域信息,所述目标蒙版图像与所述目标图像的图像大小相同;
根据所述目标蒙版图像、所述至少一个降噪信息和所述至少一个区域内容调整信息,生成初始调整后图像;
根据所述图像描述信息,对所述初始调整后图像进行图像再次调整,以生成所述调整后图像。
6.根据权利要求5所述的方法,其中,所述根据所述图像描述信息、所述蒙版图像集、所述至少一个降噪信息和所述至少一个区域内容调整信息,生成针对所述目标图像的调整后图像,包括:
响应于确定所述图像调整方式为图像局部调整方式,对于所述至少一个蒙版图像中的每个蒙版图像,执行以下第二生成步骤:
根据所述蒙版图像、对应的降噪信息、对应的区域内容调整信息和所述图像描述信息,生成针对所述蒙版图像的初始区域调整图像;
执行针对所述初始区域调整图像和目标子图像的降噪校验和描述信息校验,以生成校验信息,其中,所述目标子图像与蒙版图像存在图像内容对应关系;
响应于确定所述校验信息表征所述初始区域调整图像校验通过,将所述初始区域调整图像确定为区域调整图像;
根据所得到的至少一个区域调整图像,生成所述调整后图像。
7.根据权利要求1所述的方法,其中,所述至少一个图像调整区域信息中的图像调整区域信息是区域位置信息;以及
所述生成针对所述至少一个图像调整区域信息的蒙版图像集,包括:
对于所述至少一个图像调整区域信息中的每个图像调整区域信息,执行以下第三生成步骤:
对所述图像调整区域信息进行区域位置扩展,以生成扩展后的区域信息;
确定所述扩展后的区域信息对应的子图像;
将所述子图像输入至预先训练的共享编码器,以生成第一编码信息;
从所述图像调整区域信息对应的区域内容调整信息中提取调整对象信息;
对所述调整对象信息进行信息编码处理,以生成第二编码信息;
将所述第一编码信息和所述第二编码信息进行拼接,以生成第一拼接信息;
将所述第一拼接信息输入至预先训练的抠图解码器,以生成第一解码信息;
根据所述第一解码信息,生成所述图像调整区域信息对应的蒙版图像;
根据所得到的至少一个蒙版图像,对所述目标图像进行图像生成处理,以生成第一蒙版图像;
生成所述至少一个图像调整区域信息对应的至少一个调整对象信息;
生成所述至少一个调整对象信息对应的至少一个第二编码信息;
将所述目标图像输入至预先训练的共享编码器,以生成第三编码信息;
将所述至少一个第二编码信息和所述第三编码信息进行拼接,以生成第二拼接信息;
将所述第二拼接信息输入至预先训练的抠图解码器,以生成第二解码信息;
根据所述第二解码信息,生成所述第二蒙版图像;
将所述第一蒙版图像和所述第二蒙版图像之间的交集图像确定为目标蒙版图像;
将所述目标蒙版图像和所得到的至少一个蒙版图像确定为所述蒙版图像集。
8.一种图像生成装置,包括:
执行单元,被配置成响应于接收到针对目标图像的第一图像调整信息,对于目标图像,执行以下第一生成步骤:根据所述第一图像调整信息,获取目标用户所圈定或所输入的、针对所述目标图像的至少一个图像调整区域信息,其中,图像调整区域信息是以下之一:对象调整区域信息,背景调整区域信息,区域整体调整信息;生成所述至少一个图像调整区域信息中的每个图像调整区域信息对应的降噪信息和区域内容调整信息,得到至少一个降噪信息和至少一个区域内容调整信息;生成针对所述目标图像的图像描述信息;生成针对所述至少一个图像调整区域信息的蒙版图像集,其中,所述蒙版图像集包括:所述至少一个图像调整区域信息对应的至少一个蒙版图像;根据所述图像描述信息、所述蒙版图像集、所述至少一个降噪信息和所述至少一个区域内容调整信息,生成针对所述目标图像的调整后图像;响应于接收到针对所述调整后图像的图像提交信息,将所述调整后图像发送至所述目标用户对应的使用终端。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410501291.6A CN118115631B (zh) | 2024-04-25 | 2024-04-25 | 图像生成方法、装置、电子设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410501291.6A CN118115631B (zh) | 2024-04-25 | 2024-04-25 | 图像生成方法、装置、电子设备和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118115631A true CN118115631A (zh) | 2024-05-31 |
CN118115631B CN118115631B (zh) | 2024-07-23 |
Family
ID=91216328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410501291.6A Active CN118115631B (zh) | 2024-04-25 | 2024-04-25 | 图像生成方法、装置、电子设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118115631B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377914A (zh) * | 2021-06-10 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 推荐文本生成方法、装置、电子设备和计算机可读介质 |
WO2022199364A1 (zh) * | 2021-03-24 | 2022-09-29 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、存储介质及设备 |
CN117114306A (zh) * | 2023-08-16 | 2023-11-24 | 北京德风新征程科技股份有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN117579859A (zh) * | 2023-11-14 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 视频处理的方法、装置、设备及可读存储介质 |
WO2024067144A1 (zh) * | 2022-09-30 | 2024-04-04 | 北京字跳网络技术有限公司 | 图像处理方法、装置、设备、计算机可读存储介质及产品 |
-
2024
- 2024-04-25 CN CN202410501291.6A patent/CN118115631B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022199364A1 (zh) * | 2021-03-24 | 2022-09-29 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、存储介质及设备 |
CN113377914A (zh) * | 2021-06-10 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 推荐文本生成方法、装置、电子设备和计算机可读介质 |
WO2024067144A1 (zh) * | 2022-09-30 | 2024-04-04 | 北京字跳网络技术有限公司 | 图像处理方法、装置、设备、计算机可读存储介质及产品 |
CN117114306A (zh) * | 2023-08-16 | 2023-11-24 | 北京德风新征程科技股份有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN117579859A (zh) * | 2023-11-14 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 视频处理的方法、装置、设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
卢保琅;王毅;: "使用手机剪映APP快速制作微课初探", 科技经济市场, no. 07, 15 July 2020 (2020-07-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN118115631B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369427A (zh) | 图像处理方法、装置、可读介质和电子设备 | |
CN114429552A (zh) | 对象属性识别方法、装置、可读存储介质及电子设备 | |
CN111898338B (zh) | 文本生成方法、装置和电子设备 | |
CN115578570A (zh) | 图像处理方法、装置、可读介质及电子设备 | |
CN115908640A (zh) | 生成图像的方法、装置、可读介质及电子设备 | |
CN116977885A (zh) | 视频文本任务处理方法、装置、电子设备及可读存储介质 | |
CN114420135A (zh) | 基于注意力机制的声纹识别方法及装置 | |
CN118042246A (zh) | 视频生成方法、装置、电子设备及可读存储介质 | |
CN116823984A (zh) | 元素布局信息生成方法、装置、设备、介质和程序产品 | |
CN118115631B (zh) | 图像生成方法、装置、电子设备和计算机可读介质 | |
CN116912734A (zh) | 视频摘要数据集构建方法、装置、介质及电子设备 | |
CN115129877B (zh) | 标点符号预测模型的生成方法、装置和电子设备 | |
CN115760607A (zh) | 图像修复方法、装置、可读介质以及电子设备 | |
CN112651231B (zh) | 口语信息处理方法、装置和电子设备 | |
CN112070888B (zh) | 图像生成方法、装置、设备和计算机可读介质 | |
CN114972876A (zh) | 基于知识蒸馏技术的图像处理方法、装置、设备及介质 | |
CN111369429B (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN115129849A (zh) | 题目表示的获取方法、设备以及计算机可读存储介质 | |
CN114463466A (zh) | 智能卡卡面图案定制方法、装置、电子设备及介质 | |
CN114372499A (zh) | 一种自然语言处理方法、装置、设备和计算机可读存储介质 | |
CN114004229A (zh) | 文本识别方法、装置、可读介质及电子设备 | |
CN114792388A (zh) | 图像描述文字生成方法、装置及计算机可读存储介质 | |
CN116974684B (zh) | 地图页面布局方法、装置、电子设备与计算机可读介质 | |
CN117272965B (zh) | 演示稿件生成方法、装置、电子设备和计算机可读介质 | |
CN114495111B (zh) | 文本识别方法、装置、可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |