CN116863015A - 一种文图生成方法、装置、计算机设备及存储介质 - Google Patents
一种文图生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116863015A CN116863015A CN202310628445.3A CN202310628445A CN116863015A CN 116863015 A CN116863015 A CN 116863015A CN 202310628445 A CN202310628445 A CN 202310628445A CN 116863015 A CN116863015 A CN 116863015A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- image
- entity
- representation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000003860 storage Methods 0.000 title abstract description 7
- 238000012512 characterization method Methods 0.000 claims abstract description 102
- 238000012549 training Methods 0.000 claims description 247
- 238000009792 diffusion process Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 7
- 239000000470 constituent Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 235000013311 vegetables Nutrition 0.000 description 5
- 235000013305 food Nutrition 0.000 description 3
- 235000013372 meat Nutrition 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000796 flavoring agent Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 235000015277 pork Nutrition 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例提供一种文图生成方法、装置、计算机设备及存储介质,其中方法包括:获取输入的文本;对所述文本进行编码,获取文本表征信息;所述文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;根据所述文本表征信息,生成符合文本描述的图像。本申请实施例可以提高文图生成的准确性,提高文图生成性能。
Description
技术领域
本申请实施例涉及图像生成技术领域,具体涉及一种文图生成方法、装置、计算机设备及存储介质。
背景技术
文图生成是一种根据输入文本生成图像的技术,例如,向计算机设备输入一段文本,计算机设备可以使用文图生成程序生成符合文本描述的图像。文图生成在产品外观设计、艺术创作等场景具有广泛应用;基于文图生成的广泛应用,如何提高文图生成的准确性,从而提高文图生成性能,成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种文图生成方法、装置、计算机设备及存储介质,以提高文图生成的准确性,提高文图生成性能。
为实现上述目的,本申请实施例提供如下技术方案。
第一方面,本申请实施例提供一种文图生成方法,包括:
获取输入的文本;
对所述文本进行编码,获取文本表征信息;所述文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;
根据所述文本表征信息,生成符合文本描述的图像。
第二方面,本申请实施例提供一种文图生成方法,包括:
获取用户的文图生成请求,所述文图生成请求用于请求生成图像,并且所述文图生成请求携带有描述图像的文本,所述文本描述的图像属于任一图像领域;
调用文图生成模型,对所述文本进行编码,以获取文本表征信息,并根据所述文本表征信息,生成符合所述文本描述的图像;所述文本表征信息包括所述文本描述的多个实体的嵌入表示信息,所述文本描述的多个实体构成所述图像的组成要素,并且一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;
将生成的图像反馈给所述用户。
第三方面,本申请实施例提供一种文图生成装置,包括:文图生成模型;所述文图生成模型包括文本编码器和图像生成器;
所述文本编码器,用于获取输入的文本;对所述文本进行编码,获取文本表征信息;所述文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;
所述图像生成器,用于根据所述文本表征信息,生成符合文本描述的图像。
第四方面,本申请实施例提供一种计算机设备,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述第一方面所述的文图生成方法,或者,如上述第二方面所述的文图生成方法。
第五方面,本申请实施例提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如上述第一方面所述的文图生成方法,或者,如上述第二方面所述的文图生成方法。
第六方面,本申请实施例提供一种计算机程序,所述计算机程序被执行时,实现如上述第一方面所述的文图生成方法,或者,如上述第二方面所述的文图生成方法。
本申请实施例提供的文图生成方法,可以获取输入的文本,并对文本进行编码,以获取文本表征信息,其中,文本表征信息包括文本描述的多个实体的嵌入表示信息,并且一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;也就是说,文本表征信息中实体的嵌入表示信息结合了文本嵌入表示信息和知识图谱嵌入表示信息,可以从实体在文本上下文的表示维度,以及实体在知识图谱的表示维度,增强文本中的实体概念,从而使得由实体的嵌入表示信息所构成的文本表征信息更为准确;进而,本申请实施例可以根据文本表征信息,生成符合文本描述的图像,以实现在输入文本的情况,实现生成符合文本描述的图像。由于实体的嵌入表示信息结合了实体的文本嵌入表示信息和知识图谱嵌入表示信息,可以使得由实体的嵌入表示信息构成的文本表征信息的准确度得到提升,使得文本表征信息能够准确反映文本描述;进而在准确的文本表征信息的基础上,指导图像生成,能够使得所生成的图像的准确度提升,因此本申请实施例可以提高文图生成的准确性,提高文图生成性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为文图生成模型的结构示例图。
图2为本申请实施例提供的文图生成方法的流程图。
图3为本申请实施例提供的训练文图生成模型的方法流程图。
图4为本申请实施例提供的根据文本表征信息生成图像的方法流程图。
图5为本申请实施例提供的迭代生成噪声图像的示例图。
图6为本申请实施例提供的训练文图生成模型的另一方法流程图。
图7为本申请实施例提供的文图生成过程的示例图。
图8为本申请实施例提供的文图生成过程的另一示例图。
图9为本申请实施例提供的文图生成方法的另一流程图。
图10为本申请实施例提供的文图生成装置的框图。
图11为本申请实施例提供的计算机设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着预训练大模型和扩散模型的高速发展,可以利用文本编码器和基于扩散模型的图像生成器构建文图生成模型,从而利用文图生成模型实现文图生成。其中,预训练大模型是一种使用大规模数据训练的深度模型,文本编码器是属于预训练大模型的一种示例。
为便于理解文图生成模型,图1示例性的示出了文图生成模型的结构示例图,如图1所示,文图生成模型可以包括文本编码器和图像生成器。其中,文本编码器,用于对输入的文本进行编码,得到文本表征信息。图像生成器,用于根据文本编码器提供的文本表征信息,生成符合文本描述的图像。例如,文本表征信息可以作为图像生成器的条件输入,从而指导图像生成器生成符合文本描述的图像。
可以看出,在文图生成中,文本编码器用于获得文本的表征信息,以指导图像生成器生成图像。为使得文本编码器准确的获得文本表征信息,文本编码器需要理解文本所描述实体的实体知识,实体指的是客观世界存在的事物。因此,如何增强文本编码器对于实体知识的理解能力,以提升文本编码器所生成的文本表征信息的准确性,对于提升文图生成的准确性至关重要。
基于此,本申请实施例提供基于实体知识增强的文图生成方案,从而提高文本编码器对于实体知识的理解能力,以提高文本编码器所生成的文本表征信息的准确性,进而在准确的文本表征信息的基础上,指导图像生成器生成符合文本描述的图像,提升文图生成模型所生成的图像与文本描述的匹配度,达到提高文图生成的准确性,提高文图生成性能的效果。
作为可选实现,图2示例性的示出了本申请实施例提供的文图生成方法的可选流程图,该方法流程可以由计算机设备执行实现,该计算机设备可以是装载文图生成程序(例如,文图生成模型)的电子设备,包括但不限于安装文图生成模型的服务器设备,终端设备等。参照图2,该方法流程可以包括如下步骤。
在步骤S210中,获取输入的文本。
在需要进行文图生成时,本申请实施例可以向执行文图生成程序的计算机设备输入需要生成图像的文本,以使得计算机设备获取输入的文本。
在一个示例中,如果执行文图生成程序的计算机设备为服务器设备,则用户可以使用手机、平板电脑、笔记本电脑等终端设备编辑一段需要生成图像的文本,终端设备可以将文本传输给服务器设备,以使得服务器设备获取输入的文本;这种情况可以适用于文图生成服务是一种网络服务(例如,云端服务)的情况。当然,本申请实施例也可以支持由用户使用的终端设备执行文图生成程序,从而终端设备可以获取用户编辑的需要生成图像的文本,以获得输入的文本。
在步骤S211中,对所述文本进行编码,获得文本表征信息;所述文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息。
作为可选实现,步骤S211可以由计算机设备运行的文图生成模型中的文本编码器实现。计算机设备在获取需要生成图像的文本后,可以利用文图生成模型中的文本编码器,对文本进行编码,以获得文本对应的文本表征信息。文本表征信息可以包括文本所描述的实体的嵌入表示信息(embedding),实体的嵌入表示信息可以是文本所描述的实体在文本嵌入空间的表示信息。
作为可现实现,在对文本进行编码时,文本编码器可以提取文本中的实体,以及实体之间的关系;针对文本中的实体,文本编码器可以使用实体的嵌入表示信息作为实体在文本嵌入空间的表示信息,以得到文本表征信息。在一个示例中,以文本描述内容为“猫在抓老鼠”为例,文本编码器可以提取文本中的实体“猫”和“老鼠”,以及“猫”和“老鼠”之间的关系“抓”;并且,对于实体“猫”和“老鼠”,分别使用“猫”的嵌入表示信息表示“猫”在文本嵌入空间的表示信息,使用“老鼠”的嵌入表示信息表示“老鼠”在文本嵌入空间的表示信息,以得到文本表征信息。
区别于实体的嵌入表示信息单纯使用实体在文本的嵌入表示信息(实体在文本的嵌入表示信息可以是实体在文本上下文的表示信息),为增强文本中的实体概念,本申请实施例可以结合实体在知识图谱的嵌入表示信息。作为可选实现,本申请实施例可以采用实体在文本的嵌入表示信息,以及实体在知识图谱的嵌入表示信息来形成实体的嵌入表示信息,从而使得文本中的实体除在文本上下文层面进行表示外,还可在知识图谱层面进行增强。为便于说明,本申请实施例可以将实体在文本的嵌入表示信息,称为实体的文本嵌入表示信息,将实体在知识图谱的嵌入表示信息称为实体的知识图谱嵌入表示信息。
作为可选实现,本申请实施例在利用文本编码器对文本进行编码时,可以提取文本中的实体,以及实体之间的关系;针对文本中的实体,确定实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息,以得到实体的嵌入表示信息,从而实体的嵌入表示信息可以作为实体在文本嵌入空间的表示信息;进而,结合实体的嵌入表示信息,以及实体之间的关系,得到文本表征信息。
在一个示例中,实体的嵌入表示信息可以表示为且/>其中,/>为实体的文本嵌入表示信息,/>为实体的知识图谱嵌入表示信息。
在步骤S212中,根据所述文本表征信息,生成符合文本描述的图像。
作为可选实现,步骤S212可以由计算机设备运行的文图生成模型中的图像生成器实现。例如,文本表征信息可以作为图像生成器的条件输入,指导图像生成器生成符合文本描述的图像;由于文本表征信息中实体的嵌入表示信息结合了实体的文本嵌入表示信息和知识图谱嵌入表示信息,能够增强文本表征信息对于文本描述的表示准确性,从而在准确的文本表征信息的基础上,图像生成器能够准确的生成图像,实现所生成的图像符合文本描述。
本申请实施例提供的文图生成方法,可以获取输入的文本,并对文本进行编码,以获取文本表征信息,其中,文本表征信息包括文本描述的多个实体的嵌入表示信息,并且一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;也就是说,文本表征信息中实体的嵌入表示信息结合了文本嵌入表示信息和知识图谱嵌入表示信息,可以从实体在文本上下文的表示维度,以及实体在知识图谱的表示维度,增强文本中的实体概念,从而使得由实体的嵌入表示信息所构成的文本表征信息更为准确;进而,本申请实施例可以根据文本表征信息,生成符合文本描述的图像,以实现在输入文本的情况,实现生成符合文本描述的图像。由于实体的嵌入表示信息结合了实体的文本嵌入表示信息和知识图谱嵌入表示信息,可以使得由实体的嵌入表示信息构成的文本表征信息的准确度得到提升,使得文本表征信息能够准确反映文本描述;进而在准确的文本表征信息的基础上,指导图像生成,能够使得所生成的图像的准确度提升,因此本申请实施例可以提高文图生成的准确性,提高文图生成性能。
需要解释的是,由于实体的嵌入表示信息结合了实体的文本嵌入表示信息和知识图谱嵌入表示信息,因此对于文本所描述领域的实体而言,实体的嵌入表示信息能够通过知识图谱嵌入表示信息进行增强,从而准确反映文本所描述领域的实体概念,提升文本表征信息的准确性,进而提升文图生成的准确性。
作为可选实现,为使得文图生成模型具有增强实体的嵌入表示信息的能力,本申请实施例可以利用知识图谱数据集,增强图文数据集中训练文本的训练实体的嵌入表示信息,从而利用增强实体的嵌入表示信息的训练文本,以及训练文本对应的训练图像,来训练文图生成模型。可选的,图3示例性的示出了本申请实施例提供的训练文图生成模型的可选方法流程图,参照图3,该方法流程可以包括如下步骤。
在步骤S310中,确定图文数据集的训练数据,所述训练数据包括训练文本和训练文本对应的训练图像。
本申请实施例可以使用图文数据集作为文图生成模型的训练数据集。图文数据集可以是多个文本和各个文本对应的图像形成的数据集。在选用图文数据集时,本申请实施例可以选用通用领域的图文数据集。
图文数据集中用于训练文图生成模型的文本和文本对应图像,可以形成训练数据;为便于说明,图文数据集中用于训练文图生成模型的文本称为训练文本,训练文本在图文数据集对应的图像称为训练图像。可选的,图文数据集的文本可以例如,图文数据集的语料库中的语句。
在进一步的可选实现中,本申请实施例可以设置过滤规则,从而根据过滤规则对图文数据集中的文本和文本对应的图像进行过滤,以得到图文数据集的训练数据(即训练文本和训练文本对应的训练图像)。
在一个示例中,本申请实施例可以根据文图匹配度(文本和图像的匹配度)、图像美观值、图像是否存在水印(图像存在水印可以选择过滤)、图像内容和文本内容的敏感度等设置过滤规则。例如,过滤规则可以包括如下至少一项:过滤文图匹配度低于预定匹配度的文本和图像、过滤图像美观值低于预定美观值的图像、过滤存在水印的图像、过滤内容敏感度高于预定敏感度的图像和文本等。通过过滤规则可以对图文数据集中的文本和图像进行数据筛选和数据清洗,得到训练文本和训练文本对应的训练图像,以形成训练数据。
在步骤S311中,针对训练文本中的训练实体,确定训练实体在训练文本的文本嵌入表示信息;以及,确定训练实体在知识图谱数据集的知识图谱嵌入表示信息;其中,训练实体的文本嵌入表示信息以及知识图谱嵌入表示信息,形成训练实体的嵌入表示信息。
为便于说明,训练文本中的实体可以称为训练实体。为增强训练实体的实体知识,本申请实施例除使用图文数据集提供的训练实体在训练文本的文本嵌入表示信息外,进一步使用了训练实体在知识图谱数据集对应的知识图谱嵌入表示信息;从而,对于训练文本中的训练实体,本申请实施例可以获得训练实体在训练文本对应的文本嵌入表示信息(例如,训练实体在训练文本的上下文表示),以及训练实体在知识图谱数据集对应的知识图谱嵌入表示信息,形成训练文本中训练实体的嵌入表示信息。
例如,针对图文数据集中的训练文本,训练文本的训练实体的嵌入表示信息可以表示为且/>其中,/>为训练实体在图文数据集的训练文本对应的文本嵌入表示信息,/>为训练实体在知识图谱数据集对应的知识图谱嵌入表示信息。
作为可选实现,训练实体在知识图谱的知识图谱嵌入表示信息可以使用知识表示学习算法确定。例如,本申请实施例可以根据知识表示学习算法,确定训练实体在知识图谱数据集的知识图谱嵌入表示信息。在一个示例中,知识表示学习算法可以选用TransE算法等;其中,TransE算法是一种用于表示图结构中节点及关系的算法,作为一种知识表示学习算法,TransE算法可以采用分布式表示来描述知识图谱中的三元组。作为可选实现,在选用知识图谱数据集时,知识图谱数据集可以包括多个实体知识以及多个三元关系对。
在步骤S312中,根据携带训练实体的嵌入表示信息的训练数据,训练文图生成模型。
本申请实施例可以使用训练数据(训练文本和训练文本对应的训练图像),训练文图生成模型,并且在训练文图生成模型时,训练文本中训练实体的嵌入表示信息使用了知识图谱进行增强,因此能够使得训练后的文图生成模型中的文本编码器在对文本进行编码时,文本编码器输出的文本表征信息携带实体的知识图谱嵌入表示信息;相应的,训练后的文图生成模型的图像生成器可以基于文本编码器输出的文本表征信息,生成图像。
在一种可选实现中,本申请实施例使用的文图生成模型可以例如CLIP(Contrastive Language-Image Pre-training,对比文本-图像预训练)模型,文图生成模型中的文本编码器例如CLIP模型的文本编码器。在进一步的可选实现中,本申请实施例提供的文图生成模型中的图像生成器可以是基于扩展模型的图像生成器;进一步的,本申请实施例提供的文图生成模型中的图像生成器,还可以设置对图像进行分辨率提升的超分辨率模型。
在文图生成过程中,文图生成模型的文本编码器在得到文本的文本表征信息之后,可以将文本表征信息输入文图生成模型中的图像生成器;从而图像生成器的扩展模型可以根据文本表征信息以及初始噪声图像,迭代的生成噪声图像,并且达到迭代结束条件时所生成的噪声图像,用于确定符合文本描述的图像。
其中,扩展模型是一种用于图像生成的生成模型;在本申请实施例中,扩散模型并不是直接从隐变量中生成图像,而是通过不断迭代的生成噪声图像,来实现图像生成。例如,扩散模型可以将初始噪声图像作为输入,并通过迭代应用扩散算子(扩展算子例如文本的文本表征信息)来生成一系列的噪声图像;这些噪声图像趋向于符合训练数据分布的图像,从而可以使用达到迭代结束条件时所生成的噪声图像,确定符合文本描述的图像。
在可选实现中,在扩散模型生成噪声图像的过程中,噪声图像可以使用图像在隐空间的潜在编码进行表示,图像在隐空间的潜在编码可以通过VAE(VariationalAutoEncoder,变分自动编码器)的解码器等图像解码手段还原为图像。也就是说,在扩散模型生成噪声图像的过程中,初始噪声图像以及每次迭代生成的噪声图像,使用隐空间的潜在编码进行表示。可选的,图4示例性的示出了本申请实施例提供的根据文本表征信息生成图像的可选方法流程图,该方法流程可由文图生成模型中的图像生成器执行;参照图4,该方法流程可以包括如下步骤。
在步骤S410中,获取文本表征信息,以及初始噪声图像在隐空间的潜在编码。
隐空间(Latent Space)也称为潜在空间,是指机器学习中的一种潜在变量空间,潜在变量也称为隐变量。隐空间可以是N维向量空间,其中每个向量表示一个潜在的特征或属性;这些特征或属性不是直接可见或可观测的,但是这些特征或属性可以用来表示数据集中的潜在结构和模式。在文图生成过程中,隐空间可以例如图像生成器的扩散模型的迭代过程中,中间变量所属的线性空间;例如,扩散模型迭代生成噪声图像的过程中,噪声图像所属的线性空间。在隐空间,可以使用图像在隐空间的潜在编码表示图像。本申请实施例所指的噪声图像可以例如高斯噪声图像等。
在可选实现中,初始噪声图像可以是随机生成的噪声图像,或者预设的固定噪声图像,本申请实施例并不设限。在隐空间中,初始噪声图像使用初始噪声图像在隐空间的潜在编码进行表示。
在步骤S411中,从初始噪声图像在隐空间的潜在编码开始,根据文本表征信息,迭代的生成多个噪声图像在隐空间的潜在编码;其中,下一个噪声图像在隐空间的潜在编码,根据上一个噪声图像在隐空间的潜在编码以及文本表征信息确定。
在给定初始噪声图像在隐空间的潜在编码,以及文本表征信息的基础上,扩展模型生成图像的过程可以视为是:从初始噪声图像在隐空间的潜在编码开始,利用文本表征信息,迭代的进行图像去噪,从而在达到迭代结束条件时,噪声图像在隐空间的潜在编码符合文本描述。基于此,本申请实施例可以从初始噪声图像在隐空间的潜在编码开始,根据文本表征信息,迭代的生成多个噪声图像在隐空间的潜在编码;并且在迭代过程中,下一个噪声图像在隐空间的潜在编码,可以根据上一个噪声图像在隐空间的潜在编码以及文本表征信息确定。
作为可选实现,本申请实施例可以通过多步去噪,迭代的生成多个噪声图像在隐空间的潜在编码;其中,一步去噪对应生成一个噪声图像在隐空间的潜在编码。例如,一步去噪可以视为是根据文本表征信息以及上一个噪声图像在隐空间的潜在编码,进行下一个噪声图像的信息采样,从而得到下一个噪声图像在隐空间的潜在编码,因此一步去噪也可以称为一步采样。
在一个示例中,从初始噪声图像在隐空间的潜在编码开始,扩展模型可以利用文本表征信息进行第一步去噪,得到第一步去噪后的噪声图像在隐空间的潜在编码;针对第一步去噪后的噪声图像在隐空间的潜在编码,利用文本表征信息进行第二步去噪,得到第二步去噪后的噪声图像在隐空间的潜在编码,以此类推,直至达到迭代结束条件。
以达到迭代结束条件需要通过T步去噪为例,图5示例性的示出了本申请实施例提供的迭代生成噪声图像的示例图。如图5所示,x表示图像在隐空间的潜在编码;其中,xT为初始噪声图像在隐空间的潜在编码,例如,随机高斯噪声图像在隐空间的潜在编码;x0为达到T步去噪的步数时所对应生成的噪声图像在隐空间的潜在编码,即达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码。从图5可以看出,文本编码器所生成的文本表征信息,可以指导扩散模型在每步去噪的操作。例如,以文本表征信息作为扩散算子,进行第一步去噪,则可对xT进行去噪,得到第一步去噪后对应的噪声图像在隐空间的潜在编码xT-1;以文本表征信息作为扩散算子,进行第二步去噪,则可对xT-1进行去噪,得到第二步去噪后对应的噪声图像在隐空间的潜在编码xT-2,以此类推,则可在进行第T步去噪后,得到x0。可选的,扩散模型通过多步去噪,进行图像扩展的过程可以是一个逆过程,相应的去噪步数的次序可以是逆序。
可以看出,扩散模型生成图像的过程是:从随机采样的高斯噪声图像中基于文本的文本表征信息来生成图像,涉及到多步去噪(即多步采样),并且一步去噪对应生成一个噪声图像在隐空间的潜在编码。作为可选实现,在进行一步去噪时(即一步采样时),本申请实施例可以在隐空间下使用Latent Diffusion(潜在扩展)模型,来根据上一个噪声图像在隐空间的潜在编码以及文本表征信息,确定下一个噪声图像在隐空间的潜在编码。潜在扩展模型是一个带有可以捕捉文本信息的交叉注意力机制的U-net模型。
在进一步的可选实现中,为增强所生成图像与文本描述信息的相关性,本申请实施例在训练潜在扩展模型时,可以使用类别无关的指导的训练方法。
在进一步的可选实现中,为了降低大量的去噪步数(即采样步数)所带来的时间开销,本申请实施例可以使用PNDM(Pseudo Numerical Methods for Diffusion Models,扩散模型的类数值方法),减少潜在扩展模型进行多步去噪的步数(即减少潜在扩展模型的采样步数)。
在步骤S412时,在达到迭代结束条件时,根据达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码,确定符合文本描述的图像。
可选的,本申请实施例可将达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码进行解码,以生成图像,从而将图像作为符合文本描述的图像。
在进一步的可选实现中,为提升图像分辨率,本申请实施例可以提升所生成的图像的分辨率,从而将提升分辨率后的图像作为符合文本描述的图像。在一个实现示例中,潜在扩展模型在进行多步去噪后,可以得到噪声图像在隐空间的潜在编码;潜在扩展模型所得到的噪声图像在隐空间的潜在编码,可以被VAE的解码器还原为图像;为提升图像分辨率,本申请实施例可以利用超分辨率模型,对VAE的解码器所还原的图像进行分辨率提升,从而得到符合文本描述的图像。可选的,超分辨率模型可以设置于文图生成模型的图像生成器中,超分辨率模型例如ESRGAN(Enhanced Super-Resolution GenerativeAdversarial Networks,增强型超分辨率生成对抗性网络)模型等。
在一个示例中,基于潜在扩展模型所生成的噪声图像在隐空间的潜在编码,VAE的解码器所还原的图像的分辨率可以为256×256,为了得到更高分辨率的图像,本申请实施例可以利用ESRGAN模型对还原的图像进行分辨率提升,从而得到符合文本描述,且清晰的图像。
本申请实施例可以利用知识图谱数据集,对图文数据集中训练文本的训练实体的嵌入表示信息进行增强,在训练文本的训练实体增强的情况下,利用训练文本和训练文本对应的训练图像所生成的训练数据,来训练文本编码器;并且本申请实施例可以使用类别无关的指导的训练方法,对图像生成器中的扩展模型(例如,Latent Diffusion模型)进行训练。从而,在文图生成时,本申请实施例可以利用文本编码器,对文本进行编码,以得到文本表征信息,并且文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息。
进而,文本编码器可以将文本表征信息传递给图像生成器,图像生成器中的扩散模型可以从初始噪声图像开始,根据文本表征信息,使用PNDM算法,迭代的进行多步去噪,以得到噪声图像在隐空间的潜在编码;并且,扩展模型在进行一步去噪时,根据上一个噪声图像在隐空间的潜在编码以及文本表征信息,确定下一个噪声图像在隐空间的潜在编码。
基于扩展模型得到的噪声图像在隐空间的潜在编码,图像生成器中VAE的解码器,可以还原得到图像;并且图像生成器中的超分辨率模型(例如,ESRGAN模型),可以对VAE的解码器所还原的图像进行分辨率提升,以得到符合文本描述的图像,实现文图生成。
在进一步的可选实现中,图文数据集中的训练文本可能是通用领域的实体对应的文本,这可能导致文本编码器无法理解特定领域的实体知识,致使文本描述的实体为特定领域的实体时,文图生成模型无法准确的生成图像,影响文图生成的准确性。
例如,对于美食领域,美食领域存在一些独特的菜名(比如鱼香肉丝、红烧狮子头等),如果文本编码器无法理解美食领域的实体知识,则针对描述美食领域的一些菜名的文本,文本编码器将给出错误的理解,从而提供错误的文本表征信息;进而导致图像生成器所生成的图像与描述菜名的文本不符。在一个示例中,文本编码器如果无法理解鱼香肉丝的菜名含义,则可能提供错误的文本表征信息,从而图像生成器在错误的文本表征信息的指导下,可能错误生成鱼类和肉类的图像,而无法准确生成与鱼香肉丝的菜名相符的菜品图像。
基于此,为进一步提升本申请实施例提供的文图生成方案的准确性,本申请实施例可以在训练得到文本生成模型后,利用特定领域的训练数据,对文本生成模型进行训练调整,以实现对文本生成模型进行微调,使得文本生成模型的文本编码器能够理解特定领域的实体知识。作为可选实现,图6示例性的示出了本申请实施例提供的训练文图生成模型的另一可选方法流程图,参照图6,该方法流程可以包括如下步骤。
在步骤S610中,利用第一领域的训练数据,训练文图生成模型;第一领域的训练数据携带第一领域的训练实体的嵌入表示信息,第一领域的训练实体的嵌入表示信息包括文本嵌入表示信息以及知识图谱嵌入表示信息。
第一领域的训练数据可以是通用领域的训练数据,例如,图文数据集的训练数据属于第一领域的训练数据。在利用第一领域的训练数据,训练文图生成模型时,第一领域的训练数据可以包括第一领域的训练文本以及训练文本对应的训练图像,并且训练文本中的训练实体为第一领域的训练实体;基于本申请实施例对训练实体的嵌入表示信息使用知识图谱数据集进行增强的方式,第一领域的训练实体的嵌入表示信息可以包括文本嵌入表示信息以及知识图谱嵌入表示信息。
作为可选实现,以图文数据集的训练数据属于第一领域的训练数据为例,步骤S610的可选实现过程可以参照图3所示。
在步骤S611中,利用第二领域的训练数据,对训练后文图生成模型进行调整;第二领域不同于第一领域,并且第二领域的训练数据携带第二领域的训练实体的嵌入表示信息,第二领域的训练实体的嵌入表示信息包括文本嵌入表示信息以及知识图谱嵌入表示信息。
在利用第一领域的训练数据,训练文图生成模型后,文图生成模型能够基于第一领域的文本,生成相应的图像。然而,对于与第一领域不同于的第二领域而言,文图生成模型可能无法理解第二领域的实体知识,因此为使得文图生成模块能够基于第二领域的文本,生成相应的图像,本申请实施例可以在利用第一领域的训练数据,训练文图生成模型后,利用第二领域的训练数据,对训练后文图生成模型进行调整。
对训练后文图生成模型进行调整(微调)是指在预训练的文图生成模型的基础上,使用新的领域的训练数据,重新训练文图生成模型。对训练后文图生成模型进行调整所涉及的训练方法与预训练文图生成模型时一致,只是训练涉及的超参数、学习率等训练参数的设置不同(超参数、学习率等训练参数的设置可以根据实际情况设定)。也就是说,利用第一领域的训练数据训练文图生成模型,以及利用第二领域的训练数据训练文图生成模型的训练方式一致,只是训练参数的设置、训练数据的领域不同。
在一些可选实现中,第二领域的训练数据可以是特定领域的训练数据(特定领域区别于通用领域),例如,第二领域不属于图文数据集的训练数据所属的第一领域。在利用第二领域的训练数据,训练文图生成模型时,第二领域的训练数据可以包括第二领域的训练文本以及训练文本对应的训练图像,并且训练文本中的训练实体为第二领域的训练实体;基于本申请实施例对训练实体的嵌入表示信息使用知识图谱数据集进行增强的方式,第二领域的训练实体的嵌入表示信息可以包括文本嵌入表示信息以及知识图谱嵌入表示信息。
在利用第二领域的训练数据,对训练后文图生成模型进行调整时,为使得文图生成模型针对第一领域和第二领域的训练数据能够实现训练融合,本申请实施例可以将第二领域的训练实体的嵌入表示信息,与第二领域的训练实体对应的训练图像在隐空间的潜在编码进行对齐。也就是说,第二领域的训练实体(例如,特定领域的训练实体)在文本嵌入空间存在嵌入表示信息进行表示,而训练实体对应的训练图像在隐空间存在潜在编码进行表示,本申请实施例可以将训练实体在文本嵌入空间的嵌入表示信息,以及训练实体相应的训练图像在隐空间的潜在编码进行对齐,从而便于文图生成模型的训练融合。此处所指的对齐是指,将表示同一事物的不同模态信息进行映射,也就是说,训练实体在文本嵌入空间的嵌入表示信息,以及训练实体相应的训练图像在隐空间的潜在编码是训练实体不同模态的表示信息,可以进行映射对齐。
在一个实现示例中,图7示例性的示出了本申请实施例提供的文图生成过程示例图,如图7所示,本申请实施例提供的文图生成过程可以由文图生成模型执行,文图生成模型包括文本编码器(例如,CLIP模型的文本编码器)和图像生成器,其中,图像生成器包括潜在扩展模型、自动编码器(例如,VAE)、以及超分辨率模型(例如,ESRGAN模型)。
对于输入的文本,文本编码器可以在文本嵌入空间,对文本进行编码,并且在编码时,采用知识图谱嵌入表示信息对文本中实体的嵌入表示信息进行增强,从而得到文本表征信息;
文本表征信息可以提供给潜在扩展模型,从而潜在扩展模型可以在隐空间,从初始噪声图像在隐空间的潜在编码xT开始,根据文本表征信息,迭代的进行多步去噪,从而得到噪声图像在隐空间的潜在编码x0;
自动编码器可以将噪声图像在隐空间的潜在编码x0,还原为图像;
超分辨率模型可以在像素空间,将自动编码器还原的图像的分辨率进行提升,以得到高分率图像,高分率图像作为文图生成模型生成的符合文本描述的图像。
在进一步的可选实现中,为优化文图生成模型的文图生成过程,本申请实施例可以对文图生成模型的运行处理进行加速优化。在一个示例中,图8示例性的示出了本申请实施例提供的文图生成过程的另一示例图,结合图7和图8所示,本申请实施例可以通过任务图的负载优化,编译优化,以及IO(读写)感知内核实现等,对文图生成模型的运行处理进行加速优化。
针对任务图的负载优化,在文图生成过程中,本申请实施例可以统计文图生成模型的各个神经网络模块的任务运行时间,并根据各个神经网络模块的任务运行时间,对各个神经网络模块的任务负载进行优化。在一个可选实现中,本申请实施例可以统计各个神经网络模块的任务运行时间,并以动态图形的方式,展示各个神经网络模块的任务运行时间的变化情况,以形成任务图;从而基于任务图进行神经网络模块的任务负载优化。
针对IO感知内核实现,在文图生成过程中,文图生成模型的任务涉及到CPU和GPU的运行切换,本申请实施例可以在内存中设计共享内存空间,从而对于内存访问密集的任务操作,任务操作相应的任务数据可以保存在共享内存空间,从而本申请实施例可以利用共享内存空间进行CPU和GPU之间的数据共享(例如,利用CPU和GPU的共享内存空间,读取任务操作相应的任务数据,以实现CPU和GPU之间的数据共享),从而实现内核融合,减少CPU和GPU之间的切换。
针对编译优化,本申请实施例可以根据FlashAttention技术确定潜在扩展模型的交叉注意力算子;其中,FlashAttention技术是一种快速、内存高效的注意力算法,该技术基于注意力IO(读写)特性,对注意力计算进行tiling(拼接)操作,减少内存读写计算量。通过为计算机设备和硬件架构以及动态输入的各种组合引入不同的FlashAttention内核,可以实现FlashAttention技术。在一个实现中,本申请实施例可以使用开源的端到端的人工智能编译器BladeDISC以及FlashAttention技术,来提高文图生成模型的推理速度。
作为一种可选实现,本申请实施例提供的文图生成方案可以作为云端服务器设备所提供的一种云端服务(例如,文图生成服务),在用户请求生成图像时,基于用户提供的文本,为用户生成图像;并且支持为用户生成任一领域的图像,例如,支持为用户生成图像的图像领域包括如下任一项:菜品、服饰、风景、漫画、车辆、建筑、工艺用品等。也就是说,本申请实施例支持为用户准确生成任一图像领域的图像,对于图像所属的图像领域并不设限。
需要说明的是,用户在使用文图生成服务来生成图像时,需要提供描述图像的文本,文本可以描述多个实体,并且文本描述的多个实体构成用户请求生成的图像的组成要素。例如,用户使用文图生成服务来生成菜品图像时,需要提供描述菜品的文本(比如,文本需要描述菜品的菜名),从而文本可以包括构成菜名的多个词语,这些词语在客观世界对应的事务则为文本中的实体。在此情况下,如果文图生成模型仅依靠实体在文本描述中的上下文表示信息,来生成图像,则可能导致文图生成模型对于实体的理解错误,致使最终生成的图像不符合用户预期,导致文图生成的准确性降低。
基于此,本申请实施例提供的文图生成服务可以利用文本中的实体在知识图谱的知识图谱嵌入表示信息,以及实体在文本的文本嵌入表示信息,增强实体的嵌入表示信息,从而在实体的嵌入表示信息构成文本的文本表征信息的基础上,提升文本表征信息的准确性;进而使得文图生成服务在利用文本表征信息生成图像时,能够实现所生成的图像符合文本描述,并且所生成的图像属于文本描述的图像领域,符合用户预期,实现提升文图生成的准确性。作为可选实现,图9示例性的示出了本申请实施例提供的文图生成方法的另一可选流程图,参照图9,该流程可以包括如下步骤。
在步骤S910中,用户终端向服务器发送用户的文图生成请求。
在用户需要使用服务器的文图生成服务来生成图像时,用户可以使用手机、平板电脑、笔记本电脑的用户终端,向提供文图生成服务的服务器发送文图生成请求。文图生成请求可以用于请求服务器生成图像,并且携带有用户描述图像的文本,文本可以通过多个实体来描述图像,并且文本描述的图像可以属于任一图像领域。
例如,用户请求生成菜品图像时,用户可以通过用户终端向服务器发送菜品图像生成请求,并且菜品图像生成请求携带有描述菜品的文本,例如,文本通过组成菜品的多个词语来描述菜品。
例如,用户请求生成风景图像时,用户可以通过用户终端向服务器发送风景图像生成请求,并且风景图像生成请求携带有描述风景的文本,例如,文本通过风景的构成要素以及构成要素对应的词语,来描述风景。
本申请实施例并不设限文本描述的图像所属的图像领域,包括但不限于菜品、服饰、风景、漫画、车辆、建筑、工艺用品等图像领域。
在步骤S911中,服务器调用文图生成模型,生成符合文本描述的图像。
服务器在获取用户的文图生成请求后,可以从文图生成请求中解析出文本,并基于本申请实施例提供的文图生成方法,调用文图生成模型,来生成符合文本描述的图像。
基于本申请实施例提供的文图生成方法,服务器可以利用文图生成模型中的文本编码器对文本进行编码,以获取文本表征信息,并利用文图生成模型中的图像生成器,根据文本表征信息,生成符合所述文本描述的图像。其中,文本表征信息包括文本描述的多个实体的嵌入表示信息,文本描述的多个实体构成图像的组成要素;并且基于本申请实施例在训练文图生成模型时,利用了用户请求生成的图像所属领域的图像和对应文本,并且文本的实体的嵌入表示信息包括实体的文本嵌入表示信息以及知识图谱嵌入表示信息,因此本申请实施例的文图生成模型具有增强实体知识的能力,从而文本编码器在对文本进行编码时,文本中一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息。
在一个示例中,以用户请求生成菜品图像为例,服务器在获取用户的菜品图像生成请求后,可以从菜品图像生成请求中解析出描述菜名的文本,从而提取文本中构成菜名的多个词语;基于本申请实施例在训练文图生成模型时,利用了菜品图像所属领域的菜品图像和菜名文本,并且菜名文本的实体的嵌入表示信息包括实体的文本嵌入表示信息以及知识图谱嵌入表示信息,因此本申请实施例的文图生成模型具有增强菜品所属领域的实体知识的能力,从而文本编码器在对菜品文本进行编码时,菜品文本中一个实体的嵌入表示信息可以包括实体在菜品文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息。
可见,由于实体的嵌入表示信息结合了实体的文本嵌入表示信息和知识图谱嵌入表示信息,可以使得由实体的嵌入表示信息构成的文本表征信息的准确度得到提升,使得文本表征信息能够准确反映文本描述;进而在准确的文本表征信息的基础上,指导图像生成,能够使得所生成的图像的准确度提升,因此本申请实施例可以提高文图生成的准确性,提高文图生成性能。特别是针对特定领域的图像的情况下,利用特定领域的图像和对应文本训练文图生成模型,并且结合文本中实体的文本嵌入表示信息和知识图谱嵌入表示信息,能够增强文本生成模型在特定领域的图像生成准确性;此处所指的特定领域可以包括但不限于菜品、服饰、风景、漫画、车辆、建筑、工艺用品等任一领域,本申请实施例并不设限。
在步骤S912中,服务器将生成的图像反馈给用户。
服务器在生成图像后,可以将生成的图像发送给用户终端,以将图像反馈给用户,从而用户终端可以展示图像,以便用户查看文图生成服务的图像生成结果。
本申请实施例提供的文图生成方案,可以训练和部署适用于通用领域和特定领域的文图生成模型,可以在增加实体知识的情况下,提升文图生成的准确性,提升文图生成性能。进一步的,通过对文图生成模型进行加速优化,可以提升文图生成效率,进一步提升文图生成性能。
下面对本申请实施例提供的文图生成装置进行介绍,下文描述的文图生成装置可以视为是计算机设备为实现本申请实施例提供的文图生成方法,所需设置的功能模块。下文描述内容可与上文描述内容相互对应参照。
作为可选实现,图10示例性的示出了本申请实施例提供的文图生成装置的可选框图,如图10所示,该装置可以包括:文图生成模型100,其中,文图生成模型100包括文本编码器110和图像生成器120;
其中,文本编码器110,用于获取输入的文本;对所述文本进行编码,获取文本表征信息;所述文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;
图像生成器120,用于根据所述文本表征信息,生成符合文本描述的图像。
可选的,文本编码器110,用于提取文本中的实体,以及实体之间的关系;确定实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息,以得到实体的嵌入表示信息;结合实体的嵌入表示信息,以及实体之间的关系,得到所述文本表征信息。
结合图10所示,该装置还可以包括:
训练模块101,用于确定图文数据集的训练数据,所述训练数据包括训练文本和训练文本对应的训练图像;针对训练文本中的训练实体,确定训练实体在训练文本的文本嵌入表示信息;以及,确定训练实体在知识图谱数据集的知识图谱嵌入表示信息;其中,训练实体的文本嵌入表示信息以及知识图谱嵌入表示信息,形成训练实体的嵌入表示信息;根据携带训练实体的嵌入表示信息的训练数据,训练文图生成模型。
可选的,训练模块101,用于确定训练实体在知识图谱数据集的知识图谱嵌入表示信息包括:
根据知识表示学习算法,确定训练实体在知识图谱数据集的知识图谱嵌入表示信息。
可选的,结合图10所示,图像生成器120可以包括:潜在扩展模型121、自动编码器122和超分辨率模型123;
其中,潜在扩展模型121,用于获取文本表征信息,以及初始噪声图像在隐空间的潜在编码;从初始噪声图像在隐空间的潜在编码开始,根据文本表征信息,迭代的生成多个噪声图像在隐空间的潜在编码;其中,下一个噪声图像在隐空间的潜在编码,根据上一个噪声图像在隐空间的潜在编码以及文本表征信息确定;在达到迭代结束条件时,达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码,用于确定符合文本描述的图像;
自动编码器122,用于将达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码,还原为图像;
超分辨率模型123,用于提升图像的分辨率,得到符合文本描述的图像。
可选的,潜在扩展模型121,用于迭代的生成多个噪声图像在隐空间的潜在编码包括:使用PNDM,迭代的进行多步去噪,以生成多个噪声图像在隐空间的潜在编码;其中,一步去噪对应生成一个噪声图像在隐空间的潜在编码。
可选的,训练模块101还可以用于:
在利用第一领域的训练数据,训练文图生成模型之后,利用第二领域的训练数据,对训练后文图生成模型进行调整;
其中,所述图文数据集的训练数据属于第一领域,所述第一领域的训练数据携带第一领域的训练实体的嵌入表示信息,第一领域的训练实体的嵌入表示信息包括文本嵌入表示信息以及知识图谱嵌入表示信息;所述第二领域不同于第一领域,并且第二领域的训练数据携带第二领域的训练实体的嵌入表示信息,第二领域的训练实体的嵌入表示信息包括文本嵌入表示信息以及知识图谱嵌入表示信息。
可选的,第二领域的训练实体的嵌入表示信息,与第二领域的训练实体对应的训练图像在隐空间的潜在编码可以进行对齐。
可选的,本申请实施例提供的装置还可用于:
统计文图生成模型的各个神经网络模块的任务运行时间,并根据各个神经网络模块的任务运行时间,对各个神经网络模块的任务负载进行优化;
和/或,将文图生成模型的任务数据可以保存在共享内存空间,利用共享内存空间进行CPU和GPU之间的数据共享;
和/或,根据FlashAttention技术确定文图生成模型中潜在扩展模型的交叉注意力算子。
本申请实施例还提供一种计算机设备,该计算机设备可以通过设置本申请实施例提供的文图生成方法相应的程序软件,以执行实现本申请实施例提供的文图生成方法。可选的,图11示例性的示出了本申请实施例提供的计算机设备的可选框图,如图11所示,该计算机设备可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4。
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。
可选的,通信接口2可以为用于进行网络通信的通信模块的接口。
可选的,处理器1可能是CPU,GPU(Graphics Processing Unit,图形处理器),NPU(嵌入式神经网络处理器),FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列),TPU(张量处理单元),AI芯片,特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本申请实施例的一个或多个集成电路等。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如,至少一个磁盘存储器。
其中,存储器3存储一条或多条计算机可执行指令,处理器1调用所述一条或多条计算机可执行指令,以执行本申请实施例提供的文图生成方法。
本申请实施例还提供一种存储介质,该存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如本申请实施例提供的文图生成方法。
本申请实施例提供还提供一种计算机程序,该计算机程序被执行时实现如本申请实施例提供的文图生成方法。
上文描述了本申请实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本申请实施例披露、公开的实施例方案。
虽然本申请实施例披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
Claims (14)
1.一种文图生成方法,其中,包括:
获取输入的文本;
对所述文本进行编码,获取文本表征信息;所述文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;
根据所述文本表征信息,生成符合文本描述的图像。
2.根据权利要求1所述的方法,其中,所述对所述文本进行编码,获取文本表征信息包括:
提取文本中的实体,以及实体之间的关系;
确定实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息,以得到实体的嵌入表示信息;
结合实体的嵌入表示信息,以及实体之间的关系,得到所述文本表征信息。
3.根据权利要求1所述的方法,其中,所述文图生成方法利用文图生成模型实现,所述文图生成模型的训练过程包括:
确定图文数据集的训练数据,所述训练数据包括训练文本和训练文本对应的训练图像;
针对训练文本中的训练实体,确定训练实体在训练文本的文本嵌入表示信息;以及,确定训练实体在知识图谱数据集的知识图谱嵌入表示信息;其中,训练实体的文本嵌入表示信息以及知识图谱嵌入表示信息,形成训练实体的嵌入表示信息;
根据携带训练实体的嵌入表示信息的训练数据,训练文图生成模型。
4.根据权利要求3所述的方法,其中,所述确定训练实体在知识图谱数据集的知识图谱嵌入表示信息包括:
根据知识表示学习算法,确定训练实体在知识图谱数据集的知识图谱嵌入表示信息。
5.根据权利要求1所述的方法,其中,所述根据所述文本表征信息,生成符合文本描述的图像包括:
获取文本表征信息,以及初始噪声图像在隐空间的潜在编码;
从初始噪声图像在隐空间的潜在编码开始,根据文本表征信息,迭代的生成多个噪声图像在隐空间的潜在编码;其中,下一个噪声图像在隐空间的潜在编码,根据上一个噪声图像在隐空间的潜在编码以及文本表征信息确定;
在达到迭代结束条件时,根据达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码,确定符合文本描述的图像。
6.根据权利要求5所述的方法,其中,所述根据达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码,确定符合文本描述的图像包括:
将达到迭代结束条件时所生成的噪声图像在隐空间的潜在编码,还原为图像;以及,提升图像的分辨率,得到符合文本描述的图像。
7.根据权利要求5所述的方法,其中,所述迭代的生成多个噪声图像在隐空间的潜在编码包括:使用扩散模型的类数值方法,迭代的进行多步去噪,以生成多个噪声图像在隐空间的潜在编码;其中,一步去噪对应生成一个噪声图像在隐空间的潜在编码。
8.根据权利要求3所述的方法,其中,还包括:
在利用第一领域的训练数据,训练文图生成模型之后,利用第二领域的训练数据,对训练后文图生成模型进行调整;
其中,所述图文数据集的训练数据属于第一领域,所述第一领域的训练数据携带第一领域的训练实体的嵌入表示信息,第一领域的训练实体的嵌入表示信息包括文本嵌入表示信息以及知识图谱嵌入表示信息;所述第二领域不同于第一领域,并且第二领域的训练数据携带第二领域的训练实体的嵌入表示信息,第二领域的训练实体的嵌入表示信息包括文本嵌入表示信息以及知识图谱嵌入表示信息。
9.根据权利要求8所述的方法,其中,还包括:
将第二领域的训练实体的嵌入表示信息,与第二领域的训练实体对应的训练图像在隐空间的潜在编码进行对齐。
10.根据权利要求1所述的方法,其中,还包括:
统计文图生成模型的各个神经网络模块的任务运行时间,并根据各个神经网络模块的任务运行时间,对各个神经网络模块的任务负载进行优化;
和/或,将文图生成模型的任务数据保存在共享内存空间,利用共享内存空间进行CPU和GPU之间的数据共享;
和/或,根据FlashAttention技术确定文图生成模型中潜在扩展模型的交叉注意力算子。
11.一种文图生成方法,其中,包括:
获取用户的文图生成请求,所述文图生成请求用于请求生成图像,并且所述文图生成请求携带有描述图像的文本,所述文本描述的图像属于任一图像领域;
调用文图生成模型,对所述文本进行编码,以获取文本表征信息,并根据所述文本表征信息,生成符合所述文本描述的图像;所述文本表征信息包括所述文本描述的多个实体的嵌入表示信息,所述文本描述的多个实体构成所述图像的组成要素,并且一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;
将生成的图像反馈给所述用户。
12.一种文图生成装置,其中,包括:文图生成模型;所述文图生成模型包括文本编码器和图像生成器;
所述文本编码器,用于获取输入的文本;对所述文本进行编码,获取文本表征信息;所述文本表征信息包括文本描述的多个实体的嵌入表示信息,一个实体的嵌入表示信息包括实体在文本的文本嵌入表示信息,以及实体在知识图谱的知识图谱嵌入表示信息;
所述图像生成器,用于根据所述文本表征信息,生成符合文本描述的图像。
13.根据权利要求12所述的装置,其中,还包括:
训练模块,用于确定图文数据集的训练数据,所述训练数据包括训练文本和训练文本对应的训练图像;针对训练文本中的训练实体,确定训练实体在训练文本的文本嵌入表示信息;以及,确定训练实体在知识图谱数据集的知识图谱嵌入表示信息;其中,训练实体的文本嵌入表示信息以及知识图谱嵌入表示信息,形成训练实体的嵌入表示信息;根据携带训练实体的嵌入表示信息的训练数据,训练文图生成模型。
14.一种计算机设备,其中,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如权利要求1-10任一项所述的文图生成方法,或者,如权利要求11所述的文图生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628445.3A CN116863015A (zh) | 2023-05-30 | 2023-05-30 | 一种文图生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628445.3A CN116863015A (zh) | 2023-05-30 | 2023-05-30 | 一种文图生成方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863015A true CN116863015A (zh) | 2023-10-10 |
Family
ID=88220537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310628445.3A Pending CN116863015A (zh) | 2023-05-30 | 2023-05-30 | 一种文图生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863015A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575894A (zh) * | 2024-01-16 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备和计算机可读存储介质 |
-
2023
- 2023-05-30 CN CN202310628445.3A patent/CN116863015A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575894A (zh) * | 2024-01-16 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备和计算机可读存储介质 |
CN117575894B (zh) * | 2024-01-16 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110612538B (zh) | 生成输入数据项的离散潜在表示 | |
KR102663519B1 (ko) | 교차 도메인 이미지 변환 기법 | |
Zhang et al. | Viscode: Embedding information in visualization images using encoder-decoder network | |
CN111260740A (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
Aşıroğlu et al. | Automatic HTML code generation from mock-up images using machine learning techniques | |
Wang et al. | Cliffnet for monocular depth estimation with hierarchical embedding loss | |
CN116863015A (zh) | 一种文图生成方法、装置、计算机设备及存储介质 | |
CN116363261A (zh) | 图像编辑模型的训练方法、图像编辑方法和装置 | |
US20230082715A1 (en) | Method for training image processing model, image processing method, apparatus, electronic device, and computer program product | |
CN111930376A (zh) | 风格化图标的自动生成 | |
CN116934907A (zh) | 图像生成方法、设备和存储介质 | |
CN114648681B (zh) | 一种图像生成方法、装置、设备及介质 | |
CN117576264A (zh) | 图像生成方法、装置、设备及介质 | |
CN113674374B (zh) | 基于生成式对抗网络的中文文本生成图像方法及装置 | |
CN117274450A (zh) | 基于人工智能的动画形象生成系统及方法 | |
AU2019200269B2 (en) | An interactive user interface and its corresponding engine for improving image completion quality | |
Luhman et al. | High fidelity image synthesis with deep vaes in latent space | |
KR102346325B1 (ko) | 3차원 데이터를 이용한 웹툰 제작 시스템 및 방법 | |
CN115965791A (zh) | 图像生成方法、装置及电子设备 | |
CN116152391A (zh) | 用于高分辨率人脸图像的多样化编辑方法及系统 | |
KR20220003389A (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
CN112446190A (zh) | 生成风格转化文本的方法和装置 | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene | |
KR102668116B1 (ko) | 이미지 스타일 변형 장치 및 방법 | |
KR102381914B1 (ko) | 이미지 복원 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231221 Address after: Room 1-2-A06, Yungu Park, No. 1008 Dengcai Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province, 310030 Applicant after: Aliyun Computing Co.,Ltd. Applicant after: SOUTH CHINA University OF TECHNOLOGY Address before: Room 1-2-A06, Yungu Park, No. 1008 Dengcai Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province, 310030 Applicant before: Aliyun Computing Co.,Ltd. |
|
TA01 | Transfer of patent application right |