CN117671082A - 生成图片的方法及电子设备 - Google Patents

生成图片的方法及电子设备 Download PDF

Info

Publication number
CN117671082A
CN117671082A CN202311517602.XA CN202311517602A CN117671082A CN 117671082 A CN117671082 A CN 117671082A CN 202311517602 A CN202311517602 A CN 202311517602A CN 117671082 A CN117671082 A CN 117671082A
Authority
CN
China
Prior art keywords
template
elements
content
model
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311517602.XA
Other languages
English (en)
Inventor
刘卓
马聆风
陈映平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba China Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Network Technology Co Ltd filed Critical Alibaba China Network Technology Co Ltd
Priority to CN202311517602.XA priority Critical patent/CN117671082A/zh
Publication of CN117671082A publication Critical patent/CN117671082A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请实施例公开了生成图片的方法及电子设备,所述方法包括:获取模板信息,所述模板信息包括:模板中包括的多个元素的内容类型,布局信息,内容生成方式信息以及扩展规则信息;接收到利用所述目标模板进行图片生成的请求后,对于所述目标模板中需要通过AI大语言模型进行内容生成的元素,调用对应的AI大语言模型进行内容生成;获取到所述目标模板中多个元素分别对应的内容后,根据所述目标模板中定义的所述布局信息对所述多个元素对应的内容进行组合,并根据所述扩展规则信息对不同元素的内容进行动态调整后,生成目标图片。通过本申请实施例,能够实现对结构化图片的自动化生成,同时减少同质化现象,并获得多元素的内容自然融合的生成效果。

Description

生成图片的方法及电子设备
技术领域
本申请涉及图片生成自动化技术领域,特别是涉及生成图片的方法及电子设备。
背景技术
在商品信息服务系统的很多场景中,结构化的图片都发挥着重要的作用。例如,一些页面中的Banner(横幅海报)图、页面“楼层”(也可以称为商品陈列展示区,不同的“楼层”用来陈列不同类别的商品)中的氛围图,等等。其中,所谓的结构化的图片主要是指需要由多种不同的设计元素组合在一起形成的图片,例如,包括背景元素、前景元素、文案元素、氛围元素、行动点选项元素,等等。
现有技术中,对于这类结构化的图片,通常需要由设计师进行设计,成本会很高,效率也比较低。一些自动化的解决方案中,通常是通过模板的方式来进行生成,也即,提前设计一些模板,然后通过向模板中进行一些元素的替换,来生成具体的图片。但是,由于模板中背景图部分通常是需要进行特殊设计的,因此,通常比较难以替换,或者即使可以替换,也只有少数几个可选的背景图,实际可替换的元素主要体现在前景元素方面,例如,不同场景中,可以使用不同的商品图作为前景元素,等等。但是,这种方式会引起所生成图片的同质化现象,也即,利用同一模板生成的图之间在背景图、布局等方面具有很高的相似度。另一种自动化的解决方案就是使用AI(人工智能)大语言模型的能力来进行图片生成,但是,这种AI大模型在生成非结构化的图片(比如,比较简单的白底图、场景图等)时,可以具有比较好的生成效果,但是,AI大模型通常难以处理元素布局、像素级的字体处理等问题,这就很难生成前述需要组合多种不同设计元素的结构化的图片。例如,有些图片中可能需要添加一些文本,或者一些行动点按钮等抽象元素,但是,AI大模型却无法实现这些能力。
发明内容
本申请提供了生成图片的方法及电子设备,能够实现对结构化图片的自动化生成,同时减少同质化现象,并获得多元素的内容自然融合的生成效果。
本申请提供了如下方案:
一种生成图片的方法,包括:
获取模板信息,所述模板信息包括:模板中包括的多个元素的内容类型,布局信息,内容生成方式信息以及扩展规则信息,其中,所述内容生成方式信息包括:对于需要通过人工智能AI大语言模型进行内容生成的元素,为所述元素选择的模型信息;所述扩展规则信息用于描述对不同元素对应的内容进行组合时的动态调整规则信息;
接收到利用所述目标模板进行图片生成的请求后,对于所述目标模板中需要通过AI大语言模型进行内容生成的元素,构造用于与AI大语言模型进行交互的提示文本,并调用对应的AI大语言模型进行内容生成;
获取到所述目标模板中多个元素分别对应的内容后,根据所述目标模板中定义的所述布局信息对所述多个元素对应的内容进行组合,并根据所述扩展规则信息对不同元素的内容进行动态调整后,生成目标图片,以使得目标图片中的多个元素对应的内容相互融合。
其中,所述获取模板信息,包括:
通过对模板的源文件进行解析,获取所述模板中包括的多个元素的内容类型及其布局信息;
提供模板编排界面,以便通过所述模板编排界面为所述目标模板的元素指定内容生成方式信息以及扩展规则信息。
其中,所述提供模板编排界面,包括:
在所述模板编排界面中提供用于为所选择的模型设置提示词信息的操作选项,以便根据为所述目标模板配置的提示词生成所述提示文本。
其中,所述扩展规则信息包括不同元素之间在色调属性上的适配规则;
所述提供模板编排界面,包括:
在所述模板编排界面中提供用于为第一元素选择第二元素以进行色调适配的操作选项;
所述根据所述扩展规则信息对不同元素的内容进行动态调整,包括:
获取所述第二元素对应的内容的主色调,并根据所述所述第二元素对应的内容的主色调对所述第一元素的色调属性进行调整。
其中,所述扩展规则信息包括不同元素之间在内容上的跟随规则;
所述提供模板编排界面,包括:
在所述模板编排界面中提供用于为第一元素选择第二元素以进行内容跟随的操作选项;
所述根据所述扩展规则信息对不同元素的内容进行动态调整,包括:
根据所述第二元素对应的内容确定所述第一元素对应的内容。
其中,所述扩展规则信息包括不同元素之间的动态布局规则;
所述提供模板编排界面,包括:
在所述模板编排界面中提供用于指定不同元素之间的动态布局规则的操作选项;
所述根据所述扩展规则信息对不同元素的内容进行动态调整,包括:
如果元素对应的内容为物体主体图类的内容,则根据物体主体的形状轮廓和/或倾斜情况,对元素之间的相对位置进行调整。
其中,所述提供模板编排界面,包括:
提供可选的模型渲染模式,以便所述AI大语言模型根据元素对应的模型渲染模式为所述元素进行内容生成。
其中,所述模型渲染模式包括:按指定场景或风格进行渲染的模式,以便通过关联有场景或风格标签的AI大语言模型为所述元素生成具有对应场景或风格的内容。
其中,所述关联有场景或风格标签的AI大语言模型由基础生成模型以及微调模型组成,通过以下方式获得:
利用具有目标场景或风格特征的多个训练素材,对基础生成模型的微调模型中的参数进行训练,以获得关联有所述目标场景或风格标签的AI大语言模型。
其中,所述模型渲染模式包括:垫图模式,以便所述AI大语言模型在元素关联的原始内容基础上,对其中指定的需要替换的部分内容进行生成,并将生成的部分内容与原始内容中保持不变的内容进行融合后生成目标内容。
一种生成图片的装置,包括:
模板信息获取单元,用于获取模板信息,所述模板信息包括:模板中包括的多个元素的内容类型,布局信息,内容生成方式信息以及扩展规则信息,其中,所述内容生成方式信息包括:对于需要通过人工智能AI大语言模型进行内容生成的元素,为所述元素选择的模型信息;所述扩展规则信息用于描述对不同元素对应的内容进行组合时的动态调整规则信息;
内容获取单元,用于接收到利用所述目标模板进行图片生成的请求后,对于所述目标模板中需要通过AI大语言模型进行内容生成的元素,构造用于与AI大语言模型进行交互的提示文本,并调用对应的AI大语言模型进行内容生成;
动态组合单元,用于获取到所述目标模板中多个元素分别对应的内容后,根据所述目标模板中定义的所述布局信息对所述多个元素对应的内容进行组合,并根据所述扩展规则信息对不同元素的内容进行动态调整后,生成目标图片,以使得目标图片中的多个元素对应的内容相互融合。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述的方法的步骤。
一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以将模板与AI大语言模型相结合,使得模板更专注于设置元素之间的布局、抽象元素的定义等,AI大模型则专注于以元素为单位生成具体的内容,通过这种方式,可以实现对复杂的结构化图片的自动化生成,并且,由于具体元素上的内容可以由AI大模型生成,因此,也可以减少同质化现象。另外,还提供了扩展规则,以用于在对各个元素的内容进行组合时,可以利用这种扩展规则进行动态调整,以此使得组合得到的目标图片中各个元素的内容能够更自然的融合,减少内容之间的割裂感或者生硬的拼凑感,提升具体生成的图片的质量。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的系统架构的示意图;
图2是本申请实施例提供的方法的流程图;
图3A至3E是本申请实施例提供的对模板进行编排的界面示意图;
图4是本申请实施例提供的在线训练工具的界面示意图;
图5是本申请实施例提供的图片合成结果的示意图;
图6是本申请实施例提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,为了能够自动化生成结构化的图片,同时减少同质化现象,可以将基于模板的生图模式与基于AI大语言模型的生图模式相结合,其中,使得模板更多的专注于元素的布局、字体以及抽象元素等AI大语言模型难以支持的内容,AI大语言模型则专注于单点生图(或文案等)能力,用于为具体模板中定义的单个元素进行内容生成。之后,再根据模板中的布局规则等,对AI大语言模型分别为多个元素生成的内容进行组合,当然,在组合的过程中,考虑到每个元素的内容是分别为AI大语言模型独立生成的情况,还可以解决不同元素的内容在进行组合时的内容融合问题,以使得最终生成的图片更真实,避免出现不同元素的内容之间存在相互割裂或者生硬的拼凑在一起等情况。
为了达到上述目的,本申请实施例中可以提供模板编排工具,设计师等用户在利用模板制作工具完成模板制作(包括在模板中定义多个类型的元素,并设定元素的布局等)之后,可以将模板的源文件上传到上述模板编排工具中。之后,可以利用该模板编排工具,为模板中具体的元素设置具体的内容生成方式信息,另外,还可以设置扩展规则信息。其中,关于内容生成方式信息,具体就可以包括,指定哪些元素需要由AI大语言模型来进行生成,还可以对具体的模型做出选择,或者还可以指定具体生成内容时的提示词,以用于为大模型生成提示文本,等等。扩展规则信息主要是用于指定具体在获得元素的内容,并对内容进行组合时的动态调整规则信息。也就是说,在具体实现时,在借助于AI大模型的单点生图能力分别为多个元素生成对应的内容之后,并不是直接按照模板中定义的布局信息进行组合,而是可以对元素的配色、内容、布局等进行动态调整,以使得各个元素的内容能够更自然地融合在一起,减少割裂感或者生硬感。其中,关于具体的扩展规则,具体可以包括多种,例如,可以包括色调适配规则,内容跟随规则、动态布局规则,等等。当然,在具体实现时,上述模板编排工具主要为了实现编排过程的可视化,在另一种方式下,也可以通过编写代码的方式来实现对模板中具体元素的内容生成方式以及扩展规则的定义。
从系统架构角度而言,参见图1,本申请实施例可以提供图片生成服务,这种服务主要可以用于支持结构化的复杂图片的自动化生成,并减少同质化现象。具体的,为了便于对模板进行编排,还可以提供可视化的模板编排工具,这样,设计师等用户在利用其它的模板制作工具完成模板制作之后,可以上传到该模板编排工具中,利用该模板编排工具完成对具体元素的内容生成方式、扩展规则等信息的配置。完成配置后,可以与模板中的布局信息等一起进行保存。之后,就可以利用这种完成了编排的模板进行图片的生成。或者,另一种方式下,这种带有编排信息的模板也可以是由本申请实施例中的图片生成服务提供方来提供,这种模板具有通用性,可以为多个不同的应用方共用;如果具体的应用方需要设计个性化的模板,则可以自行设计模板,并利用上述模板编排工具进行编排后保存到本申请实施例的模板库中,等等。
在模板库中保存了经过编排的模板后,可以利用这种模板进行结构化图片的生成,该生成过程可以由具体的应用方来发起,并且可以批量化进行。例如,可以为应用方提供相应的发起入口,还可以告知应用方所需提供的信息,这种信息主要为了生成用于与大模型交互的提示文本。假设某应用方需要生成10000张结构化图片,则可以通过底表等形式提供10000条数据,分别构造出多条提示文本,以使得AI大模型能够为具体的元素生产出符合要求的图片,再通过本申请实施例提供的图片生成服务对多个元素的内容进行组合以及动态调整,以得到10000张图片。
下面对本申请实施例提供的具体实现方案进行详细介绍。
首先,本申请实施例从前述图片生成服务的角度,提供了一种生成图片的方法,参见图2,该方法具体可以包括:
S201:获取模板信息,所述模板信息包括:模板中包括的多个元素的内容类型,布局信息,内容生成方式信息以及扩展规则信息,其中,所述内容生成方式信息包括:对于需要通过人工智能AI大语言模型进行内容生成的元素,为所述元素选择的模型信息;所述扩展规则信息用于描述对不同元素对应的内容进行组合时的动态调整规则信息。
在本申请实施例中,具体的模板信息就可以是利用通用的模板制作工具完成模板的设计之后,再对模板进行了进一步编排后产生的信息。当然,也可以在同一个模板制作工作内部实现对模板的设计以及编排等功能。其中,在对具体的模板进行编排之前,模板中主要可以定义多种类型的元素(例如,包括文本、图片等),以及元素的布局信息,包括元素之间的相对位置、方向等信息。在完成模板设计后,可以对模板进行编排。
其中,具体的内容生成方式就可以包括通过AI大模型生成,或者还可以通过从素材库中选择的方式进行确定,等等。如果是通过AI大模型生成,还可以在编排的过程中进行模型的选择,另外,在可选的方式下,还可以提供多种可选的模型渲染模式(例如,包括按照某种指定的场景或风格进行生成,或者,垫图模式下,可以由AI大模型为指定图片中的部分内容进行生成及替换,等等),还可以在编排的过程中设定具体的提示词,等等。
对于扩展规则信息,主要就是用于在获取到各个元素的内容(包括AI大模型生成或者从素材库中选择等)之后,对具体的内容进行组合时所使用的动态调整规则。其中,具体的动态调整规则也就是对具体元素的内容、色调、布局方式等进行动态调整,以使得各个元素的内容在进行组合时可以更自然地融合在一起。例如,具体的扩展规则中可以设定某个元素A的色调与元素B的色调适配,则在具体组合的过程中,可以首先取出元素B的内容的主色调取值,然后根据该主色调对元素A的内容的色调进行调整,使得两者适配。或者,假设某元素A需要与元素B的内容相同,则直接配置元素B的内容生成方式,并在扩展规则中配置元素A跟对元素B的内容即可,在组合时,可以首先确定元素B的内容,然后将元素A的内容设为与元素B相同。或者,还可以在扩展规则中配置具体的动态布局规则,可以在模板中定义的初始布局基础上,进行一些动态调整,例如,调整某些元素的内容角度,
为了实现对上述内容生成方式以及扩展规则的可视化配置,还可以通过模板编排工具,可以通过该编排工具对元素的内容生成方式以及扩展规则等进行配置。例如,如图3A所示,其为一种具体实现方式下展示出的模板编排工具的界面展示效果,其中已经导入了一个设计好的模板,该模板编排工具可以对原始的模板进行解析,从中识别出其中包括的图层、元素等,并展示在界面中,例如,如图3A中左侧展示的“图层列表”,其中就示出了当前模板所包含的各个图层的信息。另外,还可以展示出模板,并将模板中的各个元素展示为可编辑或者可配置的状态,用户可以分别选中各个元素进行内容生成方式或扩展规则的配置。例如,假设当前选中的元素为如图3A中的31处所示的图片元素,可以通过界面右侧的编排选项对其进行编排。例如,具体的编排项目可以包括AI配置、智能配色、映射配置、动态布局配置,等等。
其中,假设当前选中的元素需要通过AI大模型进行内容生成,则可以在图3A中32处所示的AI配置选项中进行配置,可以选择具体的模型,例如,AI大模型可以分为用于生成图片的模型,用于生成文本的模型,等等,可以根据元素类型分别选择适合的模型。其中,具体实现时,除了根据内容类型的不同可以提供多种不同的AI大模型之外,为了更好的满足内容生成过程中的多样化需求,并提升所生成内容的质量,还可以从其他角度提供更多的可选模型。
例如,从具体元素的内容需求角度,有些元素可能需要AI大模型为其“无中生有”的生成一张图,例如,根据某些文本提示词生成一张图等等;有些元素则需要在已经选定的某个图片基础上,对图片的某部分内容进行重新生成并替换,例如,某个元素关联了一张商品图,但是该图片的背景可能比较杂乱或者不够美观,需要AI大模型在保持前景的商品主体图不变的情况下,更换背景图,等等。因此,可以提供多种可选的模型渲染模式,一种模式就可以是直接根据提示词进行图片生成,另一种模式则可以是“垫图模式”,也即对指定图片中的部分内容进行重新生成并替换,前者可以通过“文生图”类的AI大模型来进行图片的生成,后者则可以使用“图生图”或者“图生文生图”类的AI大模型来进行图片的生成,等等。
其中,对于“文生图”类的AI大模型,可以直接使用基础的AI大模型,并为其构造提示词的方式,来生成符合要求的图片,但是,在某些复杂情况下,可能难以构造出准确的提示词,或者,构造出的提示词可能难以实现对AI大模型生图质量的控制,等等。尤其是在需要生成具有某个场景或者风格特征的图片时,可能难以通过提示词准确地描述出具体场景或者风格具有怎样的特征,笼统概括式的提示词又可能难以让AI大模型感知到该场景或风格的具体特征,此时,就可能出现AI大模型生成的图片可能并不真正具有应用方所要的场景或者风格特征,等等。
针对上述问题,在本申请优选的实施方式下,还可以通过为多种不同的场景或风格分别训练各自的模型的方式来进行解决。也就是说,对于AI大模型而言,除了可以具有实现基本的图片生成功能的基础模型(例如,可以称为底模)之外,还可以在底模基础上添加微调模型,这种微调模型包括LoRA(Low-Rank Adaptation of Large Language Models)等,可以在不修改基础模型的前提下,利用少量数据训练出某种风格,实现定制化需求,这种方式所需的训练资源比直接训练基础模型要少很多。因此,可以通过这种方式实现对具体场景或风格的模型训练。
具体实现时,本申请实施例还可以提供对模型进行在线训练的工具,如果某个具体的应用方需要为某个场景或者风格训练对应的模型,则可以收集多张(数量通常只需要个位数的量级即可)具有该场景或者风格特征的图片,并上传到上述工具中。另外,还可以对这种图片进行打标,例如,对其中所表达的场景或者风格特征进行描述等等。例如,模型训练工具的界面可以如图4所示,可以在该界面中输入具体场景或风格的名称等信息,并上传能够体现该场景或风格特征的训练图片,还可以进行打标等处理。之后,该在线训练工具便可以将上述信息输入到AI大模型中训练,在训练的过程中,可以在保持基础模型的参数不变的情况下,对微调模型部分的参数进行调整,在训练完成后,就可以的得到微调模型部分的一组参数,这组参数就可以保存为当前场景或风格对应的模型参数。
需要说明的是,在上述对某个场景或风格的模型进行训练时,涉及到对训练样本图片的打标,该过程对于使用者而言可能会比较难,为了进一步降低复杂度,上述模型训练工具还可以首先利用“图生文”类的AI大模型对具体训练样本图片进行推荐标签的生成,这样,使用者可以从推荐标签中选择使用哪些标签词对具体的图片进行打标,或者,还可以额外添加一些其他的标签词,等等。通过提供在何种在线训练模型的能力,设计师可以更精准地对自己所需的场景进行风格控制,这种叠加LORA风格的大模型,产图的良品率也高于单纯用Prompts(提示词)对大模型进行控制的方式。
通过这种方式,可以针对多种不同的场景/风格分别训练出各自对应的模型,这些模型可以分别对应各自的场景/风格标识,并保存到模型库中。这样,在对具体模板进行编排过程中,如果需要为某个元素生成某种场景或风格的图片,则可以选择使用该场景或风格对应的模型来进行内容生成。例如,如图3A中的32处所示,可以提供“LORA渲染”以及“主体垫图”等多种不同的渲染模式,另外还可以提供“选择模型”选项,通过点击该选项,可以展示出模型库中保存的多种场景或风格对应的模型,例如,如图3B所示,可以根据具体的需求从中进行选择使用。
除了可以选择具体的模型,如图3A中的33处所示,还可以指定具体的提示词,例如,如果需要AI大模型生成与商品相关的图片,则具体的提示词可以通过商品类目名称、某行业的趋势词等进行指定。例如,假设需要为某元素生成一张图片,该图片需要具有“简约”风格,并且具体的商品主体需要时“毛衣”类,需要符合当前的“无缝一体”等流行趋势,则在为该元素配置内容生成方式时,就可以通过图3A中32处所示的选项,选择“LORA模式”,并在选择模型时,选择“简约”风格对应的模型,另外还可以在图3A中33处所示的选项中,将具体的类目提示词配置为“毛衣”,将“趋势词”提示词配置为“无缝一体”。这样,具体在为该元素进行内容生成时,就可以调用该“简约”风格对应的AI大模型,并将类目为“毛衣”、趋势词为“无缝一体”等信息体现在提示文本中,之后该AI大模型便可以生成具体所需的内容。
这里需要说明的是,在具体为某个元素进行内容生成方式的配置时,提示词可以为可选项,也即,如果在模板中对提示词进行了配置,则利用该模板进行图片生成时,具体元素上的内容都可以按照模板中定义的提示词进行生成;或者,如果模板中没有对具体模型进行提示词的配置,则该模板可以更为通用,可以由具体的应用方需要用该模板进行图片生成时,再根据具体应用方的需求提供提示词,等等。
以上对内容生成方式的配置方式进行了介绍,对于需要AI大模型进行内容生成的元素,都可以按照上述方式进行编排配置。对于不需要进行AI大模型进行内容生成的元素,则可以默认为从预先配置的素材库中进行内容选择,等等。
除了内容生成方式,在进行模板编排时,还可以进行扩展规则的配置。其中,具体在进行扩展规则的配置时,具体的扩展规则可以包括色调适配、内容跟随、动态布局等多种方式,其中,对于色调适配、内容跟随等,可以以模板中具体的元素为单位来进行配置,关于动态布局则可以从整体上进行配置。
其中,对于色调适配,可以在选中某个元素后,在“智能配色”选项中,选择具体需要与哪个元素进行色调适配。也即,可以在所述模板编排界面中提供用于为第一元素选择第二元素以进行颜色适配的操作选项。例如,如图3C中的34处所示,假设当前选择的元素是元素A,需要该元素A的内容色调跟对元素B的内容色调,则可以在“取色元素”选项中选择元素B。这样,后续在进行内容组合时,就可以根据元素B的内容主色调,对元素A的内容主色调进行调整,使得两者更自然的融合。
具体的,在可选的实现方式下,在进行色调适配时,还可以选择“颜色融合”或者“颜色对比”等多种不同模式,其中,颜色融合是使得两个元素的内容主色调保持一致或者接近,颜色对比则可以使得两个元素的内容主色调相反或者距离比较大,等等。另外,如果当前元素是文案类型的元素,则具体的元素色调就是指字体的颜色,此时,还可以根据深色或浅色背景的不同,进行不同的适配色调配置。例如,如图3C中的34处所示,可以包括“浅色背景适配”、“深色背景适配”等两个选择,可以分别两种不同的背景选择不同的适配色调。例如,对于浅色背景的情况,可以在取色元素的主色调基础将色调进一步调深一些;对于深色背景的情况,则可以在取色元素的主色调基础将色调进一步调浅一些,等等。
另外,可以在所述模板编排界面中提供用于为第一元素选择第二元素以进行内容跟随的操作选项。这样,如果需要进行内容跟随设置,则可以通过该操作选项进行配置。例如,如图3D中的35处所示,还可以在“映射配置”选项中进行内容跟随配置,例如,某元素A需要跟随元素B的内容,则在当前选中元素A的状态下,可以在“取值跟随”的下拉框选项中选择元素B(关于当前模板中包括哪些元素,可以是在对初始模板进行解析时获取的),之后可以保存该配置。
关于动态布局,具体是指不同元素之间的相对位置、方向等可以进行动态调整。例如,具体前景元素对应的AI大模型生成内容主要是商品等物体的主体图相关的内容,此时,可以根据物体主体图的轮廓形状、倾斜情况等来进行动态布局。具体的,可以根据多种常见物体主体的轮廓形状、倾斜情况等,设定多种轮廓类型。例如,如图3E所示,可以分为柱形、扁长形、对角线型、方正矩形、球体,等等。另外,图3E中还分别为各种类型列出了对应的物体主体示例。具体在进行动态布局时,就可以基于上述物体主体轮廓的形状、倾斜情况等,对元素之间的相对位置关系等进行调整。其中,具体的动态布局规则就可以根据上述物体主体轮廓的形状或倾斜情况进行设定,例如,如果存在对角线型的内容,则可以将附近的其他元素的内容向该内容的右下方或在左上方等位置移动,等等。例如,假设在初始模板中,某元素A位于元素B的右方,但是,在具体为元素B生成对应的内容后,元素B对应的内容的轮廓是对角线型,则可以将元素A调整后元素B的右下方的位置,避免元素B的右下方出现太多留白,等等。
在完成上述关于内容生成方式以及扩展规则信息的设置之后,便可以进行保存,相应的,可以为具体的模板生成模板ID,还可以添加模板名称等,以便于后续用这种模板进行结构化图片的生成。
这里需要说明的是,关于具体的模板,可以是由图片生成服务提供方提供的,供多个不同的应用方使用,或者,应用方也可以根据具体的个性化需求设计个性化的模板,并利用上述模板编排工具添加具体的内容生成方式以及扩展规则信息,等等。
S202:接收到利用所述目标模板进行图片生成的请求后,对于所述目标模板中需要通过AI大语言模型进行内容生成的元素,构造用于与AI大语言模型进行交互的提示文本,并调用对应的AI大语言模型进行内容生成。
在按照前述方式保存了模板信息之后,就可以利用这种模板进行具体的图片生成。其中,如果设计该模板的应用方只是想要利用该模板生成单张或者少数几张图片,则可以通过模板编排工具提供的预览选项来发起具体的生成请求。或者,如果需要利用这种模板进行批量化的图片生成,则可以在本申请实施例提供的图片生成服务的前端界面中为应用方提供用于发起图片生成请求的入口,或者也可以提供相关的服务接口等,使得应用方可以通过该入口发起具体的图片生成请求,或者也可以通过调用该服务接口的方式发起图片生成请求,等等。其中,在发起图片生成请求后,还可以选择具体的模板,在选择模板时,可以选择该应用方自己设计并编排的个性化模板,或者,也可以选择使用系统提供的通用性模板。其中,在选择系统提供的通用性模板时,可以从模板库中查看具体模板的名称,还可以对模板的图片生成效果进行预览,以确定是否符合自己的需求,然后做出选择,等等。
另外,在发起上述图片生成请求时,还可以指定所需的数量,并通过数据表等形式提交具体的生成需求信息,例如,可以包括每张图片分别对应的商品类目信息、趋势词信息,等等,这样,如果具体选择的模板中不存在提示词信息,则可以利用应用方提交的上述数据表中的提示词信息,分别构造出多条提示文本,每条提示文本可以对应生成一张图片,当然,也可以每条提示文本生成多张图片,等等。
在构造出提示文本后,可以对具体的AI大模型分别进行调用,其中,同一模板中多个元素可能对应着不同的AI大模型,因此,针对数据表中的每条数据,可以分别为各个AI大模型构造对应的提示文本,并分别对多个AI大模型进行调用,以分别获得多个元素上的内容生成结果。例如,假设某模板中包括三个需要AI大模型进行内容生成的元素,其中包括用于生成文本的AI大模型,用于生成简约风格的图片的AI大模型,用于生成度假场景的图片的AI大模型,等等,则针对每一条数据,可以构造出三条提示文本,分别获得上述三个元素对应的内容,等等。
需要说明的是,对于模板中不需要由AI大模型进行内容生成的元素,包括行动点按钮等,可以通过从相应的素材库中进行选择等方式来获取对应的内容。例如,某元素需要一个显示有“去购买”字样的按钮,则可以从素材库中选择对应字样的按钮图片作为该元素的内容,等等。另外,一些氛围元素等也可以通过从素材库中选择的方式获取对应的内容。
S203:获取到所述目标模板中多个元素分别对应的内容后,根据所述目标模板中定义的所述布局信息对所述多个元素对应的内容进行组合,并根据所述扩展规则信息对不同元素的内容进行动态调整后,生成目标图片,以使得目标图片中的多个元素对应的内容相互融合。
在分别获取到多个元素对应的内容(包括AI大模型生成,或者从素材库中选择等多种方式)之后,就可以对这些内容进行组合,以生成完整的结构性图片。在本申请实施例中,不是简单的根据模板中定义的元素布局信息进行组合,而是还可以根据所述扩展规则信息对不同元素的内容进行动态调整,然后再生成具体的目标图片。例如,首先可以根据模板中定义的元素布局信息对各个元素对应的内容进行初步的组合,在此过程中或者之后,还可以利用模板关联的扩展规则信息进行一些动态调整。例如,如果某第一元素需要与第二元素的色调进行适配,则可以获取所述第二元素对应的内容的主色调,并根据所述所述第二元素对应的内容的主色调对所述第一元素的色调属性进行调整,以使得两个元素的色调更好的融合,或者如果第一元素对应的是文案类的内容,则还可以通过这种色调调整,使得文本内容与背景产生更明显的对比,等等。或者,如果第一元素需要跟随第二元素的内容,则在进行动态调整时,还可以根据所述第二元素对应的内容确定所述第一元素对应的内容,以避免由AI大模型为第一元素生成两次相同的内容。例如,第一元素为背景元素,第二元素是某个前景元素,此时,该背景元素的内容可以与该前景元素使用相同的内容,当然,还可以为该背景元素设置一定的模糊度,使得前后景更分明,等等。另外,如果还设定了不同元素之间的动态布局规则,则具体在进行组合时,如果元素对应的内容为物体主体图类的内容,则还可以根据物体主体的形状轮廓和/或倾斜情况,对元素之间的相对位置进行调整。例如,如前文所述,如果存在对角线型的物体主体,则可以将附近元素的内容向该对角线型的物体主体的右下或者左上等方向移动,以避免这些右下或者左上的位置产生过多的留白,也使得元素之间更为紧凑,整体效果更自然,等等。
以下是一个使用本申请实施例提供的智能模板协议来制作多主体会场Banner图的示例:
1.在模板中为对应商品主体的元素绑定具体所需风格的AI大模型,例如,假设为“美食”场景对应的AI大模型;
2.将背景元素设定为该商品主体的映射元素(也即背景元素的内容跟随该商品主体的内容)并做高斯模糊化配置;
3.选择会场主、副标题为智能文案并绑定对应文案生成模型;
4.选择主体修饰卡片的颜色为跟随主体颜色(智能配色)。
通过上述编排结果,具体生成的目标图片可以如图5所示。
总之,通过本申请实施例,可以将模板与AI大语言模型相结合,使得模板更专注于设置元素之间的布局、抽象元素的定义等,AI大模型则专注于以元素为单位生成具体的内容,通过这种方式,可以实现对复杂的结构化图片的自动化生成,并且,由于具体元素上的内容可以由AI大模型生成,因此,也可以减少同质化现象。另外,还提供了扩展规则,以用于在对各个元素的内容进行组合时,可以利用这种扩展规则进行动态调整,以此使得组合得到的目标图片中各个元素的内容能够更自然的融合,减少内容之间的割裂感或者生硬的拼凑感,提升具体生成的图片的质量。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
与前述方法实施例相对应,本申请实施例还提供了一种生成图片的装置,该装置可以包括:
模板信息获取单元,用于获取模板信息,所述模板信息包括:模板中包括的多个元素的内容类型,布局信息,内容生成方式信息以及扩展规则信息,其中,所述内容生成方式信息包括:对于需要通过人工智能AI大语言模型进行内容生成的元素,为所述元素选择的模型信息;所述扩展规则信息用于描述对不同元素对应的内容进行组合时的动态调整规则信息;
内容获取单元,用于接收到利用所述目标模板进行图片生成的请求后,对于所述目标模板中需要通过AI大语言模型进行内容生成的元素,构造用于与AI大语言模型进行交互的提示文本,并调用对应的AI大语言模型进行内容生成;
动态组合单元,用于获取到所述目标模板中多个元素分别对应的内容后,根据所述目标模板中定义的所述布局信息对所述多个元素对应的内容进行组合,并根据所述扩展规则信息对不同元素的内容进行动态调整后,生成目标图片,以使得目标图片中的多个元素对应的内容相互融合。
其中,所述模板信息获取单元具体可以包括:
模板解析子单元,用于通过对模板的源文件进行解析,获取所述模板中包括的多个元素的内容类型及其布局信息;
模板编排界面提供子单元,用于提供模板编排界面,以便通过所述模板编排界面为所述目标模板的元素指定内容生成方式信息以及扩展规则信息。
具体的,模板编排界面提供子单元具体可以用于:
在所述模板编排界面中提供用于为所选择的模型设置提示词信息的操作选项,以便根据为所述目标模板配置的提示词生成所述提示文本。
其中,所述扩展规则信息包括不同元素之间在色调属性上的适配规则;
所述模板编排界面提供子单元具体可以用于:
在所述模板编排界面中提供用于为第一元素选择第二元素以进行色调适配的操作选项;
所述动态组合单元具体可以用于:
获取所述第二元素对应的内容的主色调,并根据所述所述第二元素对应的内容的主色调对所述第一元素的色调属性进行调整。
或者,所述扩展规则信息包括不同元素之间在内容上的跟随规则;
所述模板编排界面提供子单元具体可以用于:在所述模板编排界面中提供用于为第一元素选择第二元素以进行内容跟随的操作选项;
所述动态组合单元具体可以用于:根据所述第二元素对应的内容确定所述第一元素对应的内容。
或者,所述扩展规则信息包括不同元素之间的动态布局规则;
所述模板编排界面提供子单元具体可以用于:在所述模板编排界面中提供用于指定不同元素之间的动态布局规则的操作选项;
所述动态组合单元具体可以用于:如果元素对应的内容为物体主体图类的内容,则根据物体主体的形状轮廓和/或倾斜情况,对元素之间的相对位置进行调整。
另外,模板编排界面提供子单元具体可以用于:
提供可选的模型渲染模式,以便所述AI大语言模型根据元素对应的模型渲染模式为所述元素进行内容生成。
其中,所述模型渲染模式包括:按指定场景或风格进行渲染的模式,以便通过关联有场景或风格标签的AI大语言模型为所述元素生成具有对应场景或风格的内容。
具体的,所述关联有场景或风格标签的AI大语言模型由基础生成模型以及微调模型组成,可以通过以下方式获得:
利用具有目标场景或风格特征的多个训练素材,对基础生成模型的微调模型中的参数进行训练,以获得关联有所述目标场景或风格标签的AI大语言模型。
另外,所述模型渲染模式包括:垫图模式,以便所述AI大语言模型在元素关联的原始内容基础上,对其中指定的需要替换的部分内容进行生成,并将生成的部分内容与原始内容中保持不变的内容进行融合后生成目标内容。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图6示例性的展示出了电子设备的架构,具体可以包括处理器610,视频显示适配器611,磁盘驱动器612,输入/输出接口613,网络接口614,以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620之间可以通过通信总线630进行通信连接。
其中,处理器610可以采用通用的CPU(Central Processing Unit,处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储用于控制电子设备600运行的操作系统621,用于控制电子设备600的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器623,数据存储管理系统624,以及图片生成处理系统625等等。上述图片生成处理系统625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口613用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口614用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线630包括一通路,在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,存储器620,总线630等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的生成图片的方法及电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种生成图片的方法,其特征在于,包括:
获取模板信息,所述模板信息包括:模板中包括的多个元素的内容类型,布局信息,内容生成方式信息以及扩展规则信息,其中,所述内容生成方式信息包括:对于需要通过人工智能AI大语言模型进行内容生成的元素,为所述元素选择的模型信息;所述扩展规则信息用于描述对不同元素对应的内容进行组合时的动态调整规则信息;
接收到利用所述目标模板进行图片生成的请求后,对于所述目标模板中需要通过AI大语言模型进行内容生成的元素,构造用于与AI大语言模型进行交互的提示文本,并调用对应的AI大语言模型进行内容生成;
获取到所述目标模板中多个元素分别对应的内容后,根据所述目标模板中定义的所述布局信息对所述多个元素对应的内容进行组合,并根据所述扩展规则信息对不同元素的内容进行动态调整后,生成目标图片,以使得目标图片中的多个元素对应的内容相互融合。
2.根据权利要求1所述的方法,其特征在于,
所述获取模板信息,包括:
通过对模板的源文件进行解析,获取所述模板中包括的多个元素的内容类型及其布局信息;
提供模板编排界面,以便通过所述模板编排界面为所述目标模板的元素指定内容生成方式信息以及扩展规则信息。
3.根据权利要求2所述的方法,其特征在于,
所述提供模板编排界面,包括:
在所述模板编排界面中提供用于为所选择的模型设置提示词信息的操作选项,以便根据为所述目标模板配置的提示词生成所述提示文本。
4.根据权利要求2所述的方法,其特征在于,
所述扩展规则信息包括不同元素之间在色调属性上的适配规则;
所述提供模板编排界面,包括:
在所述模板编排界面中提供用于为第一元素选择第二元素以进行色调适配的操作选项;
所述根据所述扩展规则信息对不同元素的内容进行动态调整,包括:
获取所述第二元素对应的内容的主色调,并根据所述所述第二元素对应的内容的主色调对所述第一元素的色调属性进行调整。
5.根据权利要求2所述的方法,其特征在于,
所述扩展规则信息包括不同元素之间在内容上的跟随规则;
所述提供模板编排界面,包括:
在所述模板编排界面中提供用于为第一元素选择第二元素以进行内容跟随的操作选项;
所述根据所述扩展规则信息对不同元素的内容进行动态调整,包括:
根据所述第二元素对应的内容确定所述第一元素对应的内容。
6.根据权利要求2所述的方法,其特征在于,
所述扩展规则信息包括不同元素之间的动态布局规则;
所述提供模板编排界面,包括:
在所述模板编排界面中提供用于指定不同元素之间的动态布局规则的操作选项;
所述根据所述扩展规则信息对不同元素的内容进行动态调整,包括:
如果元素对应的内容为物体主体图类的内容,则根据物体主体的形状轮廓和/或倾斜情况,对元素之间的相对位置进行调整。
7.根据权利要求2所述的方法,其特征在于,
所述提供模板编排界面,包括:
提供可选的模型渲染模式,以便所述AI大语言模型根据元素对应的模型渲染模式为所述元素进行内容生成。
8.根据权利要求7所述的方法,其特征在于,
所述模型渲染模式包括:按指定场景或风格进行渲染的模式,以便通过关联有场景或风格标签的AI大语言模型为所述元素生成具有对应场景或风格的内容。
9.根据权利要求8所述的方法,其特征在于,
所述关联有场景或风格标签的AI大语言模型由基础生成模型以及微调模型组成,通过以下方式获得:
利用具有目标场景或风格特征的多个训练素材,对基础生成模型的微调模型中的参数进行训练,以获得关联有所述目标场景或风格标签的AI大语言模型。
10.根据权利要求7所述的方法,其特征在于,
所述模型渲染模式包括:垫图模式,以便所述AI大语言模型在元素关联的原始内容基础上,对其中指定的需要替换的部分内容进行生成,并将生成的部分内容与原始内容中保持不变的内容进行融合后生成目标内容。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10任一项所述的方法的步骤。
CN202311517602.XA 2023-11-14 2023-11-14 生成图片的方法及电子设备 Pending CN117671082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311517602.XA CN117671082A (zh) 2023-11-14 2023-11-14 生成图片的方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311517602.XA CN117671082A (zh) 2023-11-14 2023-11-14 生成图片的方法及电子设备

Publications (1)

Publication Number Publication Date
CN117671082A true CN117671082A (zh) 2024-03-08

Family

ID=90067279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311517602.XA Pending CN117671082A (zh) 2023-11-14 2023-11-14 生成图片的方法及电子设备

Country Status (1)

Country Link
CN (1) CN117671082A (zh)

Similar Documents

Publication Publication Date Title
US8418068B1 (en) System, software application, and method for customizing a high-resolution image via the internet
JP4583218B2 (ja) 対象コンテンツを評価する方法、コンピュータ・プログラム、システム
US11049307B2 (en) Transferring vector style properties to a vector artwork
CN103092612B (zh) 实现安卓操作系统3d桌面贴图的方法及电子装置
US11321584B2 (en) Information processing device, information processing program, and information processing method
US20150339276A1 (en) Systems and methods for producing custom designs using vector-based images
US7650564B2 (en) Global tone adjustment system for document files containing text, raster, and vector images
CN112016023B (zh) 业务处理方法、装置、终端及存储介质
US20070046694A1 (en) System and method for image customization
CN111432264A (zh) 基于媒体信息流的内容展示方法、装置、设备及存储介质
JP2021152901A (ja) 画像を生成するための方法及装置
CN113095056B (zh) 生成方法、处理方法、装置、电子设备以及介质
CN115220718A (zh) 一种ui设计方法、设计设备、服务器及存储介质
CN113379865A (zh) 目标对象的绘制方法和系统
CN117671082A (zh) 生成图片的方法及电子设备
CN112927321B (zh) 基于神经网络的图像智能设计方法、装置、设备及存储介质
WO2022100095A1 (zh) 一种基于文字排版的手绘素材制作方法与装置
CN115238667A (zh) 一种海报生成方法、系统、设备及存储介质
KR20200098286A (ko) 판매 상품에 대한 상세 페이지의 제작 서비스를 제공하는 장치, 시스템 및 방법
KR102149189B1 (ko) 온라인을 통한 웹페이지 제작방법과 제작시스템
CN112418902A (zh) 基于网页的多媒体合成方法和系统
CN111435313A (zh) 一种软件换肤的方法及装置
KR102361143B1 (ko) 딥러닝기법과 빅데이터를 활용한 사용자 맞춤형 감성 웹디자인 ui 설계 방법
KR102417862B1 (ko) 프로그램의 간편 제작방법
KR20060014233A (ko) 웹디자인 자동생성 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination