CN117252958A - 基于文本生成图像的方法、装置、电子设备及存储介质 - Google Patents

基于文本生成图像的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117252958A
CN117252958A CN202311378412.4A CN202311378412A CN117252958A CN 117252958 A CN117252958 A CN 117252958A CN 202311378412 A CN202311378412 A CN 202311378412A CN 117252958 A CN117252958 A CN 117252958A
Authority
CN
China
Prior art keywords
entity
image
text
mark
descriptive text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311378412.4A
Other languages
English (en)
Inventor
马建
王瑞琛
陈宸
鲁浩楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202311378412.4A priority Critical patent/CN117252958A/zh
Publication of CN117252958A publication Critical patent/CN117252958A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种基于文本生成图像的方法、装置、电子设备及存储介质,涉及人工智能绘图技术领域。通过响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像,生成与所述描述性文本对应的图像,从而实现端到端的基于文本生成高度可控的图像的功能,提升基于文本生成图像的效率以及准确性。

Description

基于文本生成图像的方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能绘图技术领域,更具体地,涉及一种基于文本生成图像的方法、装置、电子设备及存储介质。
背景技术
人工智能绘图技术包括基于图像生成图像技术以及基于文本生成图像技术。基于图像生成图像是指根据用户输入原始图像生成新图像,例如,根据用户输入的人像图片生成动画形象图片。基于文本生成图像是指根据用户输入的文本生成图像的技术,例如,根据用户输入的一段文字生成与该文字对应的图像。
本申请涉及人工智能绘图技术中的基于文本生成图像技术。基于文本生成图像技术可以应用于不同场景中,例如,手机主题商店个性化壁纸创作,微软办公演示文稿(Microsoft Office PowerPoint,简称PPT)中的创意图像素材创作,虚拟空间中的图像内容创作,以及多模态的对话交互系统等。
发明内容
本申请实施例提供一种基于文本生成图像的方法、装置、电子设备及存储介质,以实现端到端的基于文本生成高度可控的图像的功能,提升基于文本生成图像的效率以及准确性。
第一方面,本申请实施例提供一种基于文本生成图像的方法,该方法包括:响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像,生成与所述描述性文本对应的图像。
第二方面,本申请实施例提供一种基于文本生成图像的装置,该装置包括:特征提取模块,用于响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;图像搜索模块,用于在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;图像生成模块,用于根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像,生成与所述描述性文本对应的图像。
第三方面,本申请实施例提供一种电子设备,该电子设备包括:存储器和处理器,该存储器中存储有应用程序,该应用程序用于当被处理器调用时执行本申请实施例提供的方法。
第四方面,本申请实施例提供一种计算机可读取存储介质,该计算机可读取存储介质上存储有程序代码,该程序代码用于当被处理器调用时使得处理器执行本申请实施例提供的方法。
本申请实施例提供的基于文本生成图像的方法、装置、电子设备及存储介质,可以实现端到端的基于文本生成高度可控的高质量图像的功能,通过构建包含大量实体标记以及图像(即,包含实体标记描述的实体的图像)的图像库,一方面,可以为端到端基于文本生成图像提供大量的实体图像数据,解决开放域数据不足导致难以应对开放域的个性化图像生成的问题,为生成由描述性文本引导的高度可控的高质量图像提供了必要的数据保障;另一方面,在图像库中搜索与实体标记对应的目标图像,根据实体标记及其对应的实体位置信息以及目标图像,生成与描述性文本对应的图像,可以确保生成的图像高度可控,提升基于文本生成图像的准确性,同时,通过搜索图像库来确定实体标记对应的目标图像而不是直接生成难度较大的实体图像,可以提升基于文本生成图像的效率以及准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本申请保护的范围。
图1是本申请一实施例提供的端到端模型的训练框架结构图;
图2是本申请一实施例提供的基于文本生成图像的流程图;
图3是本申请一示例性实施例提供的检测框的示意图;
图4是本申请一示例性实施例提供的与描述性文本对应的第一幅图像的灰度图;
图5是本申请一示例性实施例提供的与描述性文本对应的第二幅图像的灰度图;
图6是本申请一示例性实施例提供的与描述性文本对应的第三幅图像的灰度图;
图7是本申请一示例性实施例提供的与描述性文本对应的第四幅图像的灰度图;
图8是本申请一示例性实施例提供的与描述性文本对应的第五幅图像的灰度图;
图9是本申请一示例性实施例提供的与描述性文本对应的第六幅图像的灰度图;
图10是本申请一示例性实施例提供的与描述性文本对应的第七幅图像的灰度图;
图11是本申请一示例性实施例提供的与描述性文本对应的第八幅图像的灰度图;
图12是本申请一示例性实施例提供的与描述性文本对应的第九幅图像的灰度图;
图13是本申请一示例性实施例提供的与描述性文本对应的第十幅图像的灰度图;
图14是本申请另一实施例提供的基于文本生成图像的方法的部分流程图;
图15是本申请一实施例提供的步骤S220的流程图;
图16是本申请一示例性实施例提供的步骤S220的流程图;
图17是本申请又一实施例提供的基于文本生成图像的流程图;
图18是本申请一实施例提供的基于文本生成图像的装置的结构框图;
图19是本申请一实施例提供的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
基于文本生成图像的技术的主要挑战在于基于文本的指导,生成高质量的包含文本语义信息的图像。早期通常基于生成对抗网络(Generative Adversarial Networks,简称GAN)模型、自回归模型以及扩散模型,实现基于文本生成图像。其中,扩散模型相比于另外两种模型在训练过程中可以提供更大的稳定性,且不依赖于复杂的对抗性训练过程,能够在扩散过程中对图像的生成质量和多样性进行精准控制。
随着人们对扩散模型的研究,通过利用文本输入的语义,大规模文本引导的扩散模型,例如,DALLE-2、Imagen和Stablediffusion,已经能够遵循用户指示,生成具有指定内容、样式和属性的自定义高保真图像,可见,基于文本生成图像技术进一步发展为基于文本生成可控的图像技术(简称为可控的文本生成图像),即,基于文本能够生成与文本描述(本领域常称为prompts)高度对齐的图像,高度对齐指的是通过文本可以实现对所生成的图像的相关属性控制、多实体生成,多实体之间的逻辑关系控制等。目前,可控的文本生成图像技术主要包括以下四种:
(1)基于注意力图(本领域常称为attention map):在模型的推断过程中不断对齐控制文本的文本标记(本领域常称为token)和注意力图,关注并激活文本提示中的所有实体标记(本领域常称为subject token),迭代地进行潜在扩散,直到所有实体标记达到预定义的最小注意力值。或者在推断过程中引入局部控制的损失来修正模型中间层的生成。发明人在研究中发现:基于注意力图的相关策略,在模型推断过程中,由于模型依赖于StableDiffusion训练保存的权重,因此改变注意力图的相关策略属于“补救”措施,不能从根本上改变模型训练权重,所生成的图像的质量和可控性均表现一般,基于文本生成图像的准确性和可控性不高。
(2)基于检测框(本领域常称为bbox):绑定文本中的实体标记和检测框区域,通过在U-net网络中新增适配器(本领域常称为adapter)来学习相应绑定的概念。发明人在研究中发现:基于检测框的相关策略,控制粒度比较粗糙,基于文本生成图像的准确性不高,且对于边缘细节要求比较复杂的实体而言难以生成高质量的图像。
(3)基于大型语言模型(Large Language Model,简称LLM):以图形方式勾勒文本输入的代码片段,基于代码片段生成文本对应的图像。例如,Control-GPT通过查询GPT-4编写矢量图(本领域常称为TikZ)代码,将生成的草图与文本指令一起,用作扩散模型生成照片逼真图像的参考,指导最终图像的生成。LayoutGPT将具有挑战性的语言概念(如数字和空间关系)转换为空间布局,从而指导最终图像的生成。发明人在研究中发现:基于大型语言模型的相关策略,例如,Control-GPT依赖于矢量图TikZ代码的生成导致生成结果的误差不可控,基于文本生成图像的可控性不高;LayoutGPT还依赖于检测框来控制多属性实体生成,控制粒度有限,基于文本生成图像的准确性不高。
也就是说,目前可控的文本生成图像技术的可控性以及准确性均还存在一定的改善空间。另外,发明人在研究中还发现:目前可控的文本生成图像技术通常采用的是本领域公开的数据集进行图像生成,例如,COCO-stuff,Visual Genome,Open Images等数据集,然而,对于开放域的个性化图像生成仅仅依赖于这些数据集是远远不够的,即目前的已知数据集难以支撑开放域的个性化图像生成。
基于上述分析,本申请实施例提供一种基于文本生成图像的方法、装置、电子设备及存储介质,可以实现端到端的基于文本生成高度可控的高质量图像的功能,通过构建包含大量实体标记以及图像(即,包含实体标记描述的实体的图像)的图像库,一方面,可以为端到端基于文本生成图像提供大量的实体图像数据,解决开放域数据不足导致难以应对开放域的个性化图像生成的问题,为生成由描述性文本引导的高度可控的高质量图像提供了必要的数据保障;另一方面,在图像库中搜索与实体标记对应的目标图像,根据实体标记及其对应的实体位置信息以及目标图像,生成与描述性文本对应的图像,可以确保生成的图像高度可控,提升基于文本生成图像的准确性,同时,通过搜索图像库来确定实体标记对应的目标图像而不是直接生成难度较大的实体图像,可以提升基于文本生成图像的效率以及准确性。
本申请实施例提供的基于文本生成图像的方法可以应用于基于文本生成图像的装置或电子设备,本申请实施例提供的基于文本生成图像的方法是基于端到端的模型实现的,即,用户只需要输入描述性文本,端到端模型即可生成与描述性文本对应的图像,基于文本生成图像的方法中的方法步骤为端到端模型的具体工作过程。接下来将对端到端模型的大致结构框架进行介绍。
首先需要说明的是,虽然本申请部分说明书附图中显示的是灰度图像,但是应当理解的是,本申请实施例所涉及的所有图像,例如,样本图像,真实图像,与描述性文本对应的图像等,实际均为彩色图像。
参见图1,图1是本申请一实施例提供的端到端模型的训练框架结构图。图1中闭锁表示为重新训练的部分,开锁表示需要重新训练的部分。如图1所示,在端到端模型的训练过程中,样本图像和关于样本图像的描述性文本作为端到端模型的输入。LLM根据从描述性文本中提取出实体标记以及实体位置信息(包括检测框掩码(bbox mask)信息)。图像检索模块根据实体标记搜索与实体标记对应的实体图像,将搜索到的实体图像输入图像编码器中,将实体位置信息输入样本图像加噪过程。图像编码器对实体图像进行编码,输出第一嵌入信息(patch embedding)至数据接收层(fuser层);将相较于第一嵌入信息具备更多图像细节信息的第二嵌入信息(cls embedding)输出至文本编码器中。文本编码器用于将第二嵌入信息输入文本编码器的嵌入层中,文本编码器编码时,先对描述性文本进行的第一层的编码,后续层再基于第二嵌入信息进行编码,并输出第三嵌入信息至U-net的键(Key,简称K)矩阵和值(Value,简称V)矩阵中,通过采用第二嵌入信息替代原本嵌入层存储的描述性文本的相关信息,可以重新训练文本编码器的权重学习,来同时提升所生成的图像的保真度以及关于描述性文本的泛化性。
同时,通过变分自编码器(Variational Auto-Encoder,简称VAE)生成添加了噪声的样本图像,在对样本图像加噪的过程中拼接LLM模型输出的检测框掩码(bbox mask)信息,可以加强主题扩散模型在检测框内的局部学习来增加图像保真度,并将添加了噪声的样本图像输入U-net网络的卷积层中,将添加了噪声的检测框掩码信息(add bboxembedding)信息输入数据接收层中。
数据接收层将接收到的信息转换为U-net网络能够接收并使用的数据,U-net网络根据数据接收层的输出信息以及K矩阵和V矩阵中信息,采用交叉注意力映射(crossattention map)机制生成图像,直到生成的图像与样本图像相同或大致相同,完成关于该样本图像的训练,采用其他样本图像重复上述模型训练过程,直到所有样本图像均以训练完毕。其中,U-net网络采用交叉注意力机制支持多实体学习,为每个实体设计一个注意力图(attention map),解决多实体多属性容易产生实体混淆的问题,将包括并排而坐的两个人的图像生成了包括并排而坐的两个人且两个人一模一样的图像,这与用户想要的并排而坐的两个人且两个人模样不同的图像不同。
端到端模型训练完成之后,端到端模型可以包括文本解析模块、图像检索模块以及主题扩散(Subject Diffusion)模型。
文本解析模块的输入为描述性文本,输出为从描述性文本中提取出的实体标记以及与实体标记对应的实体位置关系。文本解析模块可以包括LLM。
图像检索模块与外部图像库连接,用于基于实体标记和/或实体位置关系,在外部图像库中搜索与实体标记对应的实体图像作为目标图像,或者搜索与实体标记对应且与实体位置关系中的检测框尺寸相同的实体图像作为目标图像。
主题扩散模型用于根据具有映射关系的实体标记、目标图像、实体位置信息,生成与描述性文本对应的图像。主题扩散模型可以包括图像编码器、文本编码器、数据接收层以及U-net网络,图像编码器用于对图像进行编码并生成相应的嵌入信息。文本编码器用于对嵌入信息和/或描述性文本进行编码并生成相应的嵌入信息。数据接收层用于接收文本编码器输出的嵌入信息并将接收到的嵌入信息转换为U-net网络能够使用的数据。U-net网络的键矩阵和值矩阵用于存储文本编码器输出的嵌入信息。U-net网络用于采用交叉注意力机制根据接收到的信息生成与描述性文本对应的图像,以解决多实体容易产生损耗导致生成的图像不准确的问题。
参见图2,图2是本申请一实施例提供的基于文本生成图像的流程图。如图2所示,基于文本生成图像的方法可以包括步骤S110至步骤S130。
步骤S110:响应于接收到描述性文本,提取描述性文本中的实体标记以及与实体标记对应的实体位置信息,实体标记用于描述实体。
其中,描述性文本也称为文本描述,本领域常称为Prompts,描述性文本是一系列词语和短语的连贯排列,具有完整和自主的含义,用于描述想要生成图像。描述性文本的内容可以包括但不限于实体、实体数量、实体位置、不同实体之间的逻辑位置关系等等。其中,实体通常指的是现实世界中存在的物体,例如,人、动物、花草树木等。示例的,“一只羊上站着一只狗,两棵树长在草地上,以及一只鸟飞在空中”为一段描述性文本,其中,“羊”、“狗”、“树”、“草地”、“鸟”为实体。
实体标记,本领域常称为Token,指的是从描述性文本中提取出来的用于描述实体的关键词。例如,文本中的关键词“羊”、“狗”、“树”、“草地”、“鸟”均为实体标记。
实体位置关系可以包括但不限于实体位置以及实体之间的逻辑位置关系,例如,“A在B前面”可以表示实体A和实体B之间的逻辑位置关系。一些实施例中,实体位置关系可以采用检测框(bbox)进行表示,检测框对应的实体标记所描述的实体通常位于检测框内,检测框可以为矩形框,包括四个角点,每个角点具有一个图像坐标(即,角点在图像中的坐标),检测框在图像中的位置以及尺寸可以采用四个角点的图像坐标进行表示。实体位置关系可以根据图像尺寸、描述性文本中的各个实体的位置和/或实体之间的逻辑位置关系进行综合确定。一些实施例中,如果描述性文本中描述了要求所生成图像的尺寸,则还可以依据该尺寸、描述性文本中的各个实体的位置和/或实体之间的逻辑位置关系确定实体位置关系。另一些实施例中,如果描述性文本中没有描述要求所生成图像的尺寸,则可以按照默认的图像尺寸、描述性文本中的各个实体的位置和/或实体之间的逻辑位置关系确定实体位置关系确定实体位置关系。
端到端模型可以部署在各种应用或网页中,用户可以通过键盘、触控屏或语音识别设备,向端到端模型输入描述性文本,也即,描述性文本的输入方式由部署端到端模型的实际载体确定。例如,如果端到端模型部署于手机应用,则用户可以通过向手机输入语音或通过手机键盘输入文字,来输入描述性文本。又例如,如果端到端模型部署于网页,则用户可以通过键盘向网页输入描述性文本。
一些实施例中,用户输入的描述性文本仅用于描述一幅图像,则端到端模型响应于接收到的描述性文本,从描述性文本中提取出来的实体标记应当仅用于描述属于一幅图像中的实体以及实体位置关系,端到端模型可以基于描述性文本生成一幅与描述性文本对应的图像。
另一些实施例中,用户输入的描述性文本可以用于描述多幅图像,关于每幅图像的文本描述可以采用特定的规则或标记进行区分,则端到端模型响应于接收到的描述性文本,可以根据特定的规则或标记从描述性文本中提取出多个描述性子文本,每个描述性子文本对应一幅图像且用于描述属于该图像中的实体以及实体位置关系,端到端模型每次基于一个描述性子文本生成该描述性子文本对应的图像,直到所有描述性子文本均已生成完毕。
可以采用NLP技术工具spacy或者LLM从描述性文本中提取出现相关名词性实体,例如实体标记以及实体数量。考虑到LLM不仅可以提取出相关名词性实体,还可以提取出相关实体的逻辑位置关系,本申请实施例中,采用LLM模型来提取描述性文本中的实体标记以及实体位置关系,以提升所生成的图像的准确性。
一些实施例中,端到端模型包括LLM,可以采用LLM,提取描述性文本中的实体标记以及与实体标记对应的实体位置信息。响应于接收到的描述性文本,端到端模型将描述性文本输入LLM模型,LLM模型可以从描述性文本中提取出实体标记以及实体标记对应的实体位置关系,并输出实体标记以及实体位置关系。
一些实施例中,用户可以根据实际需求,通过向LLM输入自定义规则文本,在LLM中提前设置要求所生成的图像中的实体数量以及实体位置等信息,然后再输入描述性文本,描述性文本中的实体数量与自定义规则文本中的实体数量相同。其中,自定义规则文本和描述性文本需要符合LLM模型的语言规则。可以理解的是,虽然下文中部分示例采用的是英文描述的描述性文本,但是本申请实施例中的用于描述的描述性文本的语言的种类可以包括但不限于汉语、英语、俄语以及其他语言等。具体采用何种语言表述描述性文本可以根据实际端到端模型所支持的语言种类确定,通常情况下,端到端模型可以支持汉语和英语至少两种语言种类。例如,以人工智能模型2DGPT为例,用户输入的自定义规则文本可以如下所示:
“user:
2DGPT is designed to be able to assist with the 2d modeling tasks,
2DGPT is able to generate a 2d object layout using bounding box basedon the query it receives,please use the following format:
```
object_description:['a object description','a object description','aobject description','a object description']
Coordinate points:[[0.1,0.2,0.5,0.6],[0.3,0.4,0.5,0.6],[0.5,0.6,0.9,0.9],[0.7,0.8,1,1]]
description:'description of the whole scene'
```
Each Coordinate point is normalized and MUST be[0,1].
In the scene,the point y more close to 1more close to the ground.
The object description should correspond one-to-one with theCoordinated point
The size of the bounding box area should match the correspondingcommonobject description size
The four coordinate points described by each object descriptionrepresent thex,y coordinates in the upper left corner of the bounding box,andthe x,ycoordinates in the lower right corner.
The relative size of each object should follow the size scene in theworld and attention should be paid to the positional relationship between thetop,bottom,left,and right spatial relationship in the description.”。
假设用户输入的描述性文本为“A dog stands on top of a sheep,a treegrows on the grass and a bird is flying in the sky”,则LLM模型可以输出以下信息:
“object_description:['a dog','a sheep','a tree','grass','a bird']
Coordinate points:[[0.1,0.2,0.5,0.6],[0.3,0.4,0.5,0.6],[0.5,0.6,0.9,0.9],[0.7,0.8,1,1]]
description:'A dog stands on top of a sheep,a tree grows on thegrass,and abird is flying in the sky'”。
其中,“object_description”后面的关键词为实体标记,“Coordinate points”后面的坐标为实体位置关系,为了便于理解,参见图3,图3是本申请一示例性实施例提供的检测框的示意图。如图3所示,检测框1-4分别表示四个实体在图像中的实体位置关系。
步骤S120:在图像库中搜索与实体标记对应的目标图像,图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体。
图像库是预先构建的,图像库可以部署在云端、端到端模型能够访问的其他数据库或者服务器中。图像库中存储有大量的实体标记以及实体图像,每个实体图像可以对应一个实体标记且包括所对应的实体标记描述的实体,也即,每个实体图像仅包括一个实体。
图像库具有搜索功能,实体标记为图像库的搜索条件,实体图像为图像库的搜索结果,也即,向图像库输入实体标记,可以搜索到与实体标记对应的实体图像。
一些实施例中,为了通过提升搜索速度来提升基于文本生成图像的整体效率,可以设置图像库中的每个实体标记对应一个实体图像,在得到LLM输出的实体标记之后,可以根据实体标记,在图像库中搜索与实体标记对应的实体图像作为该实体标记对应的目标图像。本实施例中,每个实体标记对应一个目标图像。
另一些实施例中,为了通过提升融合实体位置关系(例如检测框)以及实体图像(目标图像)的速度来提升基于文本生成图像的整体效率,可以设置图像库中的每个实体标记对应多个实体图像且多个实体图像中的实体相同,区别仅在于多个实体图像的尺寸不同,多个实体图像的尺寸可以根据常用的检测框的尺寸确定。这种情况下,可以根据实体标记以及实体位置关系,在图像库中搜索与实体标记对应且尺寸与检测框尺寸相同的实体图像作为该实体标记对应的目标图像,从而使得目标图像与检测框尺寸相同,提升融合检测框与目标图像的效率,以提升整体生成图像的效率。本实施例中,每个实体标记可以多个目标图像。
又一些实施例中,为了提升基于文本生成图像的多样性,可以设置图像库中的每个实体标记可以对应多个实体图像且多个实体图像中的实体的类型相同,区别仅在于实体图像中的实体的风格(或者动作或者同一实体类型下的实体种类)不同。例如,实体的类型为狗,则多个实体图像按照实体的风格不同,可以分别包括动画风格的狗,真实世界中的狗,素描风格的狗,或者油画风格的狗等。多个实体图像按照实体的动作不同,还可以分别包括站立的狗,奔跑的狗,躺着的狗,或者趴着的狗等。多个实体图像按照同一实体类型下的实体种类不同,还可以分别包括哈巴狗,拉布拉多狗,柴犬狗等。本实施例中,每个实体标记对应多个目标图像。
步骤S130:根据实体标记、与实体标记对应的实体位置信息、与实体标记对应的目标图像,生成与描述性文本对应的图像。
通用的主题扩散模型是开放领域个性化图像生成的一项突破性技术,只需要一个参考图像,而且在测试时不需要进行微调,便可生成新图像。主题扩散模型将大幅提升图像生成的效率和准确性。为了解决通用的主题扩散模型只能接收图像作为输入,实现图生图的局限性,本申请实施例中,设计端到端模型,引入文本解析模块(LLM)以及图像检索模块,并设计主题扩散模型包括图像编码器、文本编码器、数据接收层以及U-net网络,可以使得本申请实施例中的主题扩散模型可以基于文本生成图像,以解决通用的主题扩散模型仅能够基于图像生成图像的局限性,提升主题扩散模型的应用场景。
可以将目标图像输入图像编码器中,获取图像编码器输出的第一嵌入信息(patchembedding)和第二嵌入信息(cls embedding),第二嵌入信息相较于第一嵌入信息包括更细节的图像信息;将第二嵌入信息输入文本编码器的嵌入层中,获取文本编码器输出的第三嵌入信息;将实体位置信息、第一嵌入信息、第三嵌入信息输入U-net网络中,获取U-net网络生成的与描述性文本对应的图像。
具体地,可以将实体位置信息以及第一嵌入信息输入数据接收层,数据接收层用于将实体位置信息以及第一嵌入信息的格式转换为U-net网络能够接收的格式;将第三嵌入信息输入U-net网络的键矩阵(K矩阵)和值矩阵(V矩阵)中;获取U-net网络采用交叉注意力机制生成的与描述性文本对应的图像。由于U-net网络无法直接接收第一嵌入信息以及实体位置信息,因此在主题扩散模型中新增一数据接收层(例如fuser层),以使数据接收层接收第一嵌入信息以及实体位置信息,并将接收到的信息转换为U-net网络能够接收和使用的数据。
需要说明的是,与描述性文本对应的图像通常为多幅不同的图像,用户可以从多幅图像中选择其想要的图像。示例的,假设描述性文本为“A dog stands on top of asheep,a tree grows on the grass and a bird is flying in the sky”,则生成的与描述性文本对应的图像可以包括如图4-13所示的10幅不同的图像,如图4-13所示,10幅不同的图像均包括描述性文本中的实体,且所有图像中不同实体之间的逻辑位置关系相同、相同实体对应的位置大致相同。10幅不同的图像区别在于不同图像中的实体的具体动作、具体风格、具体颜色、具体实体品种等内容不同。
基于步骤S110至步骤S130,可以实现端到端的基于文本生成高度可控的高质量图像的功能,通过构建包含大量实体标记以及图像(即,包含实体标记描述的实体的图像)的图像库,一方面,可以为端到端基于文本生成图像提供大量的实体图像数据,解决开放域数据不足导致难以应对开放域的个性化图像生成的问题,为生成由描述性文本引导的高度可控的高质量图像提供了必要的数据保障;另一方面,在图像库中搜索与实体标记对应的目标图像,根据实体标记及其对应的实体位置信息以及目标图像,生成与描述性文本对应的图像,可以确保生成的图像高度可控,提升基于文本生成图像的准确性,同时,通过搜索图像库来确定实体标记对应的目标图像而不是直接生成难度较大的实体图像,可以提升基于文本生成图像的效率以及准确性。
一些实施例中,在步骤S120之前或者说在端到端模型进行训练之前,基于文本生成图像的方法还可以包括构建图像库,参见图14,图14是本申请另一实施例提供的基于文本生成图像的方法的部分流程图,如图14所示,构建图像库可以包括以下步骤S210至步骤S230。
步骤S210:获取样本图像,样本图像包括至少一个实体。
为了生成高质量的图像,可以选择美学评分大于5的图像作为样本图像。样本图像可以LAION-Aesthetics中获取,LAION-Aesthetics是一个开源的具有250太字节(TB)的数据集,其中包含从互联网上抓取的56亿张图像。
步骤S220:对样本图像进行分割,得到至少一个分割图像以及至少一个实体标记,每个分割图像对应一个实体标记且包括该实体标记描述的实体。
参见图15,图15是本申请一实施例提供的步骤S220的流程图。如图15所示,步骤S220可以包括以下步骤S221至步骤S224。
步骤S221:根据样本图像,生成关于样本图像的描述性文本。
可以采用引导语言图像预训练(Bootstrapping Language-Image Pretraining,简称BLIP)生成关于样本图像的描述性文本。其中,BLIP引入了编码器-解码器的多模态混合(Multimodal mixture of Encoder-Decoder,简称MED)结构,能够有效地进行多任务预学习和迁移学习,能够对样本图像进行有效学习,生成关于样本图像的描述性文本。即,将样本图像输入BLIP中,可以获取BLIP生成的关于样本图像的描述性文本。
步骤S222:从关于样本图像的描述性文本中,提取实体标记以及实体位置信息,实体位置信息和实体标记存在一对一映射关系。
可以选择采用自然语言处理(Natural Language Processing,简称NLP)技术工具spacy或者LLM从关于样本图像的描述性文本中,提取实体标记以及实体位置信息。LLM可以包括但不限于ChatGPT,Llama2等模型。考虑到LLM模型相较于NLP技术工具spacy能够提取出更多的实体逻辑关系,本申请实施例中,采用LLM来提取实体标记以及实体位置信息,以提升所生成的图像的准确性。
步骤S223:根据关于样本图像的描述性文本、提取到的实体标记以及实体位置信息生成可执行文本。
可以采用无标签自蒸馏(Self-distillation with No Labels,简称DINO)生成可执行文本,DINO是一种自我监督学习方法。可以将关于样本图像的描述性文本、提取到的实体标记以及实体位置信息输入DINO检测模型中,可以得到DINO模型输出的可执行文本,可执行文本包括关于样本图像的描述性文本、提取到的实体标记以及实体位置信息等内容。
步骤S224:根据可执行文本对样本图像进行分割,得到至少一个分割图像以及至少一个实体标记。
可以采用分割一切模型(Segment Anything Model,简称SAM),根据可执行文本对样本图像进行分割,得到分割结果,分割结果可以包括至少一个掩码。根据分割结果可以从样本图像中分离出至少一个分割图像(即单个的实体图像)以及至少一个实体标记。每个分割图像对应一个实体标记。其中,SAM主要包含三个部分:图像编码器(用于计算图像嵌入),提示编码器(用于计算提示嵌入)以及掩码解码器(用于实时预测掩码)。在使用SAM时,只需要对图像提取一次图像嵌入,可以在不同的提示下重复使用。给定一个图像嵌入,提示编码器和掩码解码器可以在50毫秒内根据提示预测掩码。
基于步骤S221至步骤S224,本申请实施例基于LAION-Aesthetics数据和BLIP模型,DINO模型,SAM模型框架构造了自动数据标注工具,解决了开放域数据缺失的问题。示例的,参见图16,图16是本申请一示例性实施例提供的步骤S220的流程图。如图16所示,将样本图像输入BLIP中,BLIP可以输出关于样本图像的描述性文本“arafed red sports carparked in front of abody of water”至LLM以及DINO中,LLM可以将从描述性文本中提取出的实体标记以及实体位置信息输出至DINO中,DINO根据关于样本图像的描述性文本、提取到的实体标记以及实体位置信息生成可执行文本,将可执行文本输入SAM模型中,SAM模型根据样本图像以及可执行文本,对样本图像进行分割,得到如图16所示的结构化的分割结果,分割结果包括三个掩码。
步骤S230:将至少一个实体标记作为搜索条件,将至少一个分割图像作为搜索结果,构建图像库。
可以采用向量检索工具faiss或者scaNN构建索引值,即,将至少一个实体标记作为搜索条件,将至少一个分割图像作为搜索结果,构建图像库。在构建图像库之后,可以通过端到端模型的图像搜索模块与图像库建立连接,以便从图像库中搜索与实体标记对应的图像。
基于步骤S210和步骤S230,可以构建包含大量实体标记以及图像(即,包含实体标记描述的实体的图像)的图像库,可以为端到端基于文本生成图像提供大量的实体图像数据,解决开放域数据不足导致难以应对开放域的个性化图像生成的问题,为生成由描述性文本引导的高度可控的高质量图像提供了必要的数据保障。
参见图17,图17是本申请又一实施例提供的基于文本生成图像的流程图。如图17所示,基于文本生成图像的方法可以包括步骤S310至步骤S330。
步骤S310:响应于接收到描述性文本,提取描述性文本中的实体标记以及与实体标记对应的检测框,实体标记用于描述实体。
步骤S320:针对每个实体标记,从搜索到的与该实体标记对应的图像中,获取与该实体标记对应的检测框尺寸相同的图像,作为最终与该实体标记对应的目标图像。
本实施例中,在构建图像库时,针对于同一实体标记对应的图像可以保存多个,对应同一实体标记的多个图像的尺寸不同,对应同一实体标记的多个图像的尺寸可以根据常用的检测框尺寸确定,例如,常用的检测框尺寸有第一尺寸、第二尺寸、第三尺寸,则可以图像库可以保存同一实体标记对应的三个图像,三个图像的尺寸分别为第一尺寸、第二尺寸以及第三尺寸,从而便于在生成图像的过程中直接搜索与检测框尺寸相同的实体分割图像,提升后续融合实体分割图像和检测框的速度,从而大幅提升基于文本生成图像的效率。
步骤S330:根据实体标记、与实体标记对应的检测框、与实体标记对应的目标图像,生成与描述性文本对应的图像。
除了具备步骤S110至步骤S130所具备的技术效果之外,步骤S310至步骤S330还可以根据实体图像的分割图像以及实际标记构建图像库,通过搜索与检测框尺寸相同的分割图像,作为最终与实体标记对应的目标图像,可以直接获取到与检测框尺寸相同的实体分割图像,可以便于后续融合实体分割图像和检测框,从而大幅提升基于文本生成图像的效率。
参见图18,图18是本申请一实施例提供的基于文本生成图像的装置的结构框图。基于文本生成图像的装置100可以应用于电子设备。基于文本生成图像的装置100可以包括特征提取模块110、图像搜索模块120以及图像生成模块130。
特征提取模块110用于响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体。其中,特征提取模块110的具体工作过程可以参见步骤S110以及步骤S310。
图像搜索模块120用于在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体。其中,特征提取模块110的具体工作过程可以参见步骤S120以及步骤S320。
图像生成模块130用于根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像,生成与所述描述性文本对应的图像。其中,图像生成模块130的具体工作过程可以参见步骤S130以及步骤S330。
一些实施例中,基于文本生成图像的装置100还可以包括图像库构建模块,图像库构建模块用于获取样本图像,所述样本图像包括至少一个实体;对所述样本图像进行分割,得到至少一个分割图像以及至少一个实体标记,每个分割图像对应一个实体标记且包括该实体标记描述的实体;将至少一个实体标记作为搜索条件,将至少一个分割图像作为搜索结果,构建所述图像库。其中,图像库构建模块的具体工作过程可以参见步骤S210至步骤S230。
一些实施例中,基于文本生成图像的装置100还可以包括模型训练模块,模型训练模块用于根据已构建的图像库对主题扩散模型进行训练。其中,模型训练模块的具体工作过程可以参见步骤S130中关于主题模型训练的部分。
所属领域技术人员可以清楚地了解到,本申请实施例提供的以上装置能够实现本申请实施例提供的方法。上述描述装置和模块的具体工作过程,可以参阅本申请实施例中的方法对应的过程,在此不再赘述。
本申请提供的实施例中,所显示或讨论的模块相互之间的耦合、直接耦合或者通信连接,可以是通过一些接口、装置或模块的间接耦合或通信耦合,可以是电性、机械或其他形式,本申请实施例对此不作具体限制。
另外,在本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件的功能模块的形式实现。
参见图19,图19是本申请一实施例提供的电子设备的结构框图。电子设备200可以包括存储器210和处理器220,该存储器210中存储有应用程序,该应用程序被配置为当被处理器220调用时执行本申请实施例提供的方法。
处理器220可以包括一个或多个处理核。处理器220利用各种接口和线路连接整个电子设备200内各个部分,用于运行或执行存储在存储器210内的指令、程序、代码集或指令集,以及调用运行或执行存储在存储器210内的数据,执行电子设备200的各种功能和处理数据。
处理器220可以采用数字信号处理(Digital Signal Processing,简称DSP)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)、可编辑逻辑阵列(Programmable Logic Array,简称PLA)中的至少一种硬件形式来实现。处理器220可集成中央处理器(Central Processing Unit,简称CPU)、图像处理器(Graphics ProcessingUnit,简称GPU)和调制解调器中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成于处理器220中,单独通过一块通信芯片进行实现。
存储器210可以包括随机存储器(Random Access Memory,简称RAM),也可以包括只读存储器(Read-Only Memory,简称ROM)。存储器210可以用于存储指令、程序、代码、代码集或指令集。存储器210可以包括存储程序区和存储数据区。其中,存储程序区可以存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区可以存储电子设备200在使用中所创建的数据等。
本申请实施例还提供一计算机可读取存储介质,该计算机可读取存储介质上存储有程序代码,该程序代码被配置为当被处理器调用时执行本申请实施例提供的方法。
计算机可读取存储介质可以是诸如闪存、电可擦除可编辑只读存储器(Electrically-Erasable Programmable Read-Only Memory,简称EEPROM)、可擦除可编辑只读存储器(Erasable Programmable Read-Only Memory,简称EPROM)、硬盘或者ROM之类的电子存储器。
在一些实施例中,计算机可读取存储介质包括非易失性计算机可读介质(Non-Transitory Computer-Readable Storage Medium,简称Non-TCRSM)。计算机可读取存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以以适当的形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于文本生成图像的方法,其特征在于,包括:
响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;
在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;
根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像,生成与所述描述性文本对应的图像。
2.根据权利要求1所述的方法,其特征在于,所述实体位置信息包括检测框,所述在图像库中搜索与所述实体标记对应的目标图像之后,所述方法还包括:
针对每个实体标记,从搜索到的与该实体标记对应的图像中,获取与该实体标记对应的检测框尺寸相同的图像,作为最终与该实体标记对应的目标图像。
3.根据权利要求1所述的方法,其特征在于,所述在图像库中搜索与所述实体标记对应的目标图像之前,所述方法还包括:
获取样本图像,所述样本图像包括至少一个实体;
对所述样本图像进行分割,得到至少一个分割图像以及至少一个实体标记,每个分割图像对应一个实体标记且包括该实体标记描述的实体;
将至少一个实体标记作为搜索条件,将至少一个分割图像作为搜索结果,构建所述图像库。
4.根据权利要求3所述的方法,其特征在于,所述对所述样本图像进行分割,得到至少一个分割图像以及至少一个实体标记,包括:
根据所述样本图像,生成关于所述样本图像的描述性文本;
从关于所述样本图像的描述性文本中,提取实体标记以及实体位置信息,实体位置信息和实体标记存在一对一映射关系;
根据关于所述样本图像的描述性文本、提取到的实体标记以及实体位置信息生成可执行文本;
根据所述可执行文本对所述样本图像进行分割,得到至少一个分割图像以及至少一个实体标记。
5.根据权利要求1所述的方法,其特征在于,所述提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,包括:
采用大型语言模型,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像,生成与所述描述性文本对应的图像,包括:
将所述目标图像输入主题扩散模型的图像编码器中,获取图像编码器输出的第一嵌入信息和第二嵌入信息,所述第二嵌入信息相较于所述第一嵌入信息包括更细节的图像信息;
将所述第二嵌入信息输入主题扩散模型的文本编码器中,获取文本编码器输出的第三嵌入信息;
将所述实体位置信息、所述第一嵌入信息、所述第三嵌入信息输入主题扩散模型的U-net网络中,获取U-net网络生成的与所述描述性文本对应的图像。
7.根据权利要求6所述的方法,其特征在于,所述主题扩散模型还包括数据接收层,所述将所述实体位置信息、所述第一嵌入信息、所述第三嵌入信息输入主题扩散模型的U-net网络中,包括:
将所述实体位置信息以及所述第一嵌入信息输入数据接收层,数据接收层用于将所述实体位置信息以及所述第一嵌入信息的格式转换为U-net网络能够接收的格式;
将所述第三嵌入信息输入所述U-net网络的键矩阵和值矩阵中;
所述获取U-net网络生成的与所述描述性文本对应的图像,包括:
获取U-net网络采用交叉注意力机制生成的与所述描述性文本对应的图像。
8.一种基于文本生成图像的装置,其特征在于,包括:
特征提取模块,用于响应于接收到描述性文本,提取所述描述性文本中的实体标记以及与所述实体标记对应的实体位置信息,所述实体标记用于描述实体;
图像搜索模块,用于在图像库中搜索与所述实体标记对应的目标图像,所述图像库中的每个图像对应一个实体标记且包括所对应的实体标记描述的实体;
图像生成模块,用于根据所述实体标记、与所述实体标记对应的所述实体位置信息、所述目标图像,生成与所述描述性文本对应的图像。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器上存储有应用程序,所述应用程序用于当被处理器调用时执行如权利要求1-7任一项所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质上存储有程序代码,所述程序代码用于当被处理器调用时执行如权利要求1-7任一项所述的方法。
CN202311378412.4A 2023-10-23 2023-10-23 基于文本生成图像的方法、装置、电子设备及存储介质 Pending CN117252958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311378412.4A CN117252958A (zh) 2023-10-23 2023-10-23 基于文本生成图像的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311378412.4A CN117252958A (zh) 2023-10-23 2023-10-23 基于文本生成图像的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117252958A true CN117252958A (zh) 2023-12-19

Family

ID=89135025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311378412.4A Pending CN117252958A (zh) 2023-10-23 2023-10-23 基于文本生成图像的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117252958A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118154726A (zh) * 2024-05-11 2024-06-07 深圳大学 基于大语言模型的资源处理设计方法、装置和计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118154726A (zh) * 2024-05-11 2024-06-07 深圳大学 基于大语言模型的资源处理设计方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
US11797847B2 (en) Selecting instances of detected objects in images utilizing object detection models
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
Qian et al. Retrieve-then-adapt: Example-based automatic generation for proportion-related infographics
US11636270B2 (en) Methods and systems for generating a semantic computation graph for understanding and grounding referring expressions
CN116012481B (zh) 图像生成处理方法、装置、电子设备及存储介质
KR102490319B1 (ko) 인공지능 콘텐츠 자동 생성 및 변형 방법
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN117252958A (zh) 基于文本生成图像的方法、装置、电子设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN116993876B (zh) 生成数字人形象的方法、装置、电子设备及存储介质
CN116611496A (zh) 文本到图像的生成模型优化方法、装置、设备及存储介质
CN115485039A (zh) 用于支持游戏脚本的创建的系统和方法
CN117216234A (zh) 基于人工智能的话术改写方法、装置、设备及存储介质
CN117765132A (zh) 图像生成方法、装置、设备与存储介质
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置
CN117011875A (zh) 多媒体页面的生成方法、装置、设备、介质和程序产品
US20230377225A1 (en) Method and apparatus for editing an image and method and apparatus for training an image editing model, device and medium
CN112560490A (zh) 知识图谱关系抽取方法、装置、电子设备及存储介质
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination