CN116188618A

CN116188618A - 基于结构化语义图的图像生成方法及装置

Info

Publication number: CN116188618A
Application number: CN202310445591.2A
Authority: CN
Inventors: 刘知远; 孙茂松; 姚远; 陈乾瑜; 胡锦毅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-05-30
Anticipated expiration: 2043-04-24
Also published as: CN116188618B

Abstract

本发明提供一种基于结构化语义图的图像生成方法及装置，属于图像处理技术领域，包括：从目标文本中提取信息要素，根据所述信息要素构建结构化语义图，用户为所述节点附加的结构化控制信息；对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示，对所述结构化提示进行编码；根据所述结构化提示的编码结果生成图像。本发明通过同时根据文本信息和结构化语义图生成图像，两者形成互补，提高图像生成的准确性；能够对图片内容的细粒度语义控制，可生成组合性的复杂场景，效率高，灵活性好，适用性强。

Description

基于结构化语义图的图像生成方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于结构化语义图的图像生成方法及装置。

背景技术

图像生成技术旨在根据给定的语义控制信号，生成相应内容的图片。常见的图像生成工具包括DALLE-2和Stable Diffusion等。随着近期Diffusion技术的突破性进展，图像生成技术很大程度上达到了落地实用的水平，具有广泛的应用场景和较高的实用价值。

目前主流的基于Diffusion的图像生成方法中，用户通常通过输入一句概括性的文本控制图像语义，图像生成模型根据概括性文本生成对应图像。由于文本信息内容单一，且图像生成模型对文本内容的解析能力有限，导致根据概括性文本生成的图像不准确。

发明内容

本发明提供一种基于结构化语义图的图像生成方法及装置，用以解决现有技术中根据概括性文本生成的图像不准确的技术问题。

本发明提供一种基于结构化语义图的图像生成方法，包括：

从目标文本中提取信息要素，根据所述信息要素构建结构化语义图；

对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示，对所述结构化提示进行编码；

根据所述结构化提示的编码结果生成图像。

根据本发明提供的一种基于结构化语义图的图像生成方法，所述根据所述信息要素构建结构化语义图的步骤包括：

将所述信息要素中的物体作为节点，将所述信息要素中物体之间的关系作为所述节点间的边，构建所述结构化语义图；

所述对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示的步骤包括：

根据用户为所述节点附加的结构化控制信息，生成新的结构化语义图；

对所述新的结构化语义图和所述目标文本整体进行序列化，生成结构化提示。

根据本发明提供的一种基于结构化语义图的图像生成方法，所述对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示的步骤包括：

将第一字段作为键，将所述目标文本作为值构成第一键值对；

将第二字段作为键，将所述节点的结构化控制信息作为值构成第二键值对；

使用第三字段作为键，将所述物体之间的关系作为值构成第三键值对；

根据所述第一键值对、第二键值对和第三键值对，生成结构化提示。

根据本发明提供的一种基于结构化语义图的图像生成方法，所述节点的结构化控制信息包括所述节点对应物体的类别、编号、属性、位置、文字描述和偏好图片中的一种或多种。

根据本发明提供的一种基于结构化语义图的图像生成方法，所述根据所述结构化提示的编码结果生成图像的步骤包括:

将所述结构化提示的编码结果输入图像生成模型中，得到所述图像生成模型生成的图像；

其中，所述图像生成模型以图片文本对为样本进行训练得到。

根据本发明提供的一种基于结构化语义图的图像生成方法，在所述将所述结构化提示的编码结果输入图像生成模型中，得到所述图像生成模型生成的图像的步骤之前，还包括：

使用检测工具从所述图片文本对中提取信息要素；

根据所述图片文本对对应的信息要素构建结构化语义图；

对所述图片文本对对应的结构化语义图和所述图片文本对中的文本整体进行序列化，生成结构化提示；

使用文本编辑器对所述图片文本对对应的结构化提示进行编码；

使用所述图片文本对对应的结构化提示的编码结果对所述图像生成模型进行训练。

根据本发明提供的一种基于结构化语义图的图像生成方法，所述图像生成模型为Diffusion模型；

所述使用所述图片文本对对应的结构化提示的编码结果对所述图像生成模型进行训练的步骤包括：

对所述图片文本对中的图片多次加入噪声，得到每次加入噪声后的噪声图片；

将所述图片文本对对应的编码结果和最后一次加入噪声后的所述噪声图片输入所述图像生成模型，得到所述图像生成模型每一步生成的图像；

确定所述图像生成模型每一步生成的图像和对应的噪声图片之间的均方误差，根据所述均方误差调整所述图像生成模型的参数。

本发明还提供一种基于结构化语义图的图像生成装置，包括：

构建模块，用于目标文本中提取信息要素，根据所述信息要素构建结构化语义图；

处理模块，用于对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示，对所述结构化提示进行编码；

生成模块，用于根据所述结构化提示的编码结果生成图像。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于结构化语义图的图像生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于结构化语义图的图像生成方法。

本发明提供的基于结构化语义图的图像生成方法及装置，通过先从目标文本中提取信息要素用来构建结构化语义图，得到目标文本对应的结构化语义信息；在对目标文本和结构化语义图作为整体序列化后编码，编码内容既包含完整的文本信息，同时包含结构化语义信息，两者形成互补，提高图像生成的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于结构化语义图的图像生成方法的流程示意图；

图2是本发明提供的基于结构化语义图的图像生成方法中的结构化语义图的示意图；

图3是本发明提供的基于结构化语义图的图像生成装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1和图2描述本发明的基于结构化语义图的图像生成方法，包括：

步骤101，从目标文本中提取信息要素，根据所述信息要素构建结构化语义图；

可选地，目标文本通过用户输入获取、从文件中获取、从软件系统中获取或通过对数据进行分析处理后获取。本实施例对目标文本的来源不作限定。

目标文本一般为概括性短句，用以描述所需图像包含的内容。

可选地，信息要素包括目标文本中的物体、物体间的关系和物体自身的属性。

通过词性对目标文本中的信息要素进行划分，识别目标文本中的名词为物体，识别目标文本中的动词和介词表示物体间的关系，识别形容词、副词和数词表示物体的属性。

结构化语义图为结构化的语义图，是一种图结构。通过将信息要素以图结构的形式进行表示，实现面向对象的数据表示，清晰表示数据之间的关联关系，数据结构紧凑、冗余小，有利于数据分析。

步骤102，对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示，对所述结构化提示进行编码；

通过将目标文本和结构化语义图作为整体进行序列化，将文本和图结构统一转换为便于存储和传输的结构化提示structured prompt形式。

使用文本编辑器对生成的结构化提示进行统一编码。编码内容既包含完整的目标文本信息，同时包含结构化语义图信息，两者形成互补，丰富图像生成模型的输入信息，从而提高图像生成的准确性。

可选地，文本编辑器为Transformer的文本编辑器。Transformer是一种机器翻译模型，主要包括编码器和解码器两个部分。其中，编码器用于将自然语言序列映射为隐藏层的数学表达，能较好地表达结构化提示中的信息，便于生成用户所需的图像。

步骤103，根据所述结构化提示的编码结果生成图像。

可选地，使用图像生成模型根据结构化提示的编码结果生成图像，本实施例对图像生成方法不作限定。

本实施例通过先从目标文本中提取信息要素用来构建结构化语义图，得到目标文本对应的结构化语义信息；在对目标文本和结构化语义图作为整体序列化后编码，编码内容既包含完整的文本信息，同时包含结构化语义信息，两者形成互补，提高图像生成的准确性。

在上述实施例的基础上，本实施例中根据所述信息要素构建结构化语义图的步骤包括：

结构化语义图中的节点与目标文本中的物体一一对应。如果任意两个物体之间存在关联关系，则将该两个物体对应的节点使用连线连接，作为该两个物体对应的节点间的边，将两个物体之间的关联关系标注在该边上。

可选地，结构化语义图为有向图。

对结构化语义图和目标文本整体进行序列化，生成结构化提示的步骤包括：

根据用户为节点附加的结构化控制信息，生成新的结构化语义图；

结构化控制信息用于对结构化语义图的结构进行控制，如物体的属性信息。

用户可以通过画板对结构化语义图进行编辑，为节点添加、删减和修改结构化控制信息。

例如，鼠标右键点击结构化语义图中的节点，即可选择保留或删除该节点。

鼠标右键点击结构化语义图中的空白处，即可选择插入新的节点，并根据新节点与已有节点之间的关联关系，将新节点与已有节点进行相连。

鼠标右键点击结构化语义图中的节点，即可选择添加对应物体的位置信息。可选地，物体的位置信息为物体的最小包围矩形的左上角和右下角的坐标。

鼠标左键点击节点，在出现的文本框中即可输入或更改节点对应的物体的属性。

鼠标左键点击节点间的边，在出现的文本框中即可输入或更改与其关联的节点间的关系。

鼠标右键点击节点间的边，即可选择更改边的箭头方向，即更改物体间的关系主体。同时，也可选择在两个节点间添加边，建立新的关联关系。

对于结构化语义图中需要连接的两个节点，按住Ctrl的同时鼠标左键依次点击两个节点，即可将两个节点同时选中，此时鼠标右键点击选中的区域即可选择在两个节点间添加节点间的边，其中，首先被选中的节点默认为物体间关系的主体。

例如，某一用户输入的目标文本为“A person riding a horse on the beach ofan ocean（在海边的沙滩上骑马的人）”。结构化语义图自动提取表示物体的节点为person、horse、beach和ocean。

提取person节点和horse节点间的关系为riding，其中物体间关系的主体为person。

提取horse节点与beach节点间的关系为on，其中物体间关系的主体为horse。

提取beach节点与ocean节点间的关系为of，其中物体间关系的主体为beach，并对应生成结构化语义图。

在此基础上，用户删除ocean节点，并添加wave（波浪）节点作为替代，同时添加wave节点与beach节点间的边，其物体间的关系为covering（覆盖），物体间关系的主体为wave节点。

用户添加rock（礁石）节点，并添加两条其与beach节点间的边，其中一条对应的物体间的关系为covering，物体间关系的主体为rock；另一条对应的物体间的关系为coveredin（覆盖着），物体间关系的主体为beach。

用户将horse节点与beach节点间的边对应的物体间的关系修改为standing on（站在），将person节点与horse节点间的边对应的物体间的关系增加了sitting on（坐在），添加horse节点的属性信息white（白色）。

用户添加person节点的位置信息，最终生成的结构化语义图如图2所示。

对新的结构化语义图和目标文本整体进行序列化，生成结构化提示。

现有技术中用户仅能通过一句概括性的文本控制图片语义，在生成的图像不符合需求时，需要对文字内容进行反复调试，难以实现对图片内容的细粒度控制，难以生成组合性的复杂场景。

而本实施例中用户可根据需要通过与结构语义图进行交互，为节点附加不同类型的结构化控制信息，能够对图片内容的细粒度语义控制，可生成组合性的复杂场景，效率高，灵活性好，适用性强；用户附加的多种控制信息与文本信息互补，提高图像生成的准确性。

在上述实施例的基础上，本实施例中对结构化语义图和目标文本整体进行序列化，生成结构化提示的步骤包括：

将第一字段作为键，将目标文本作为值构成第一键值对；

例如，使用caption字段作为第一字段，描述概括性的目标文本。

将第二字段作为键，将节点的结构化控制信息作为值构成第二键值对；

使用object字段作为第二字段，描述物体的类别、编号、属性、位置、文字和偏好图片等。

使用第三字段作为键，将物体之间的关系作为值构成第三键值对；

使用relation字段作为第三字段，描述物体之间的关系。可选地，物体之间的关系包括位置关系和动作关系。

根据第一键值对、第二键值对和第三键值对，生成结构化提示。

综合第一键值对、第二键值对和第三键值对，即可生成结构化提示。

结构化提示为类似Json格式的数据结构，由若干键值对组成，可以无歧义、简洁地序列化描述异质图数据。

以图2中的目标文本和结构化语义图为例，生成的部分结构化提示如下：

在上述实施例的基础上，本实施例中节点的结构化控制信息包括所述节点对应物体的类别、编号、属性、位置、文字描述和偏好图片中的一种或多种。

如图2所示，在结构化提示的object字段中，使用class表示物体的类别，使用id表示物体的编号，同一种类别的物体从1开始顺序编号。使用attribute表示物体的属性，例如horse的属性为white。使用layout表示物体在所需图像中的位置，该位置可使用物体边框的坐标表示。在relation字段，使用物体的类别、#和编号的组合方式表示某一物体对应的节点。

偏好图片为用户对某物体的偏好图片，如用户根据需要提供horse的图片样例。对于用户输入了偏好图片的物体，图像生成模型在生成图像时会以偏好图片为参考进行生成。

在上述实施例的基础上，本实施例中所述根据所述结构化提示的编码结果生成图像的步骤包括:

图片文本对包括图片和图片对应的概括性文本。

从互联网中自动爬取收集大规模的图片文本对数据，并将其作为图像生成模型训练时的样本，对图像生成模型进行训练，得到最终的图像生成模型。

在上述实施例的基础上，本实施例中在将结构化提示的编码结果输入图像生成模型中，得到图像生成模型最终生成的图像的步骤之前，还包括：

使用检测工具从图片文本对中提取信息要素；

可选地，检测工具包括物体检测、关系检测、属性检测、文本识别和视觉定位等工具。检测来源为图片文本对中的图片和文本。

物体检测工具用于抽取图片文本对中不同类别的物体信息。

关系检测工具用于抽取图片文本对中不同物体之间的关联关系。

属性检测工具用于抽取图片文本对中物体的属性信息。

文本识别工具用于抽取图片文本对中的文字信息。

视觉定位工具用于抽取图片中每个物体的坐标信息。

通过多种检测工具从图片文本对中抽取出不同类别的信息要素，用于后续对图像生成模型的训练。

根据图片文本对对应的信息要素构建结构化语义图；

基于预先抽取的图片文本对的图片中的信息要素构建结构化语义图，表征图片文本对中的结构信息。

对图片文本对对应的结构化语义图和图片文本对中的文本整体进行序列化，生成结构化提示；

对结构化提示进行编码获取编码结果。编码结果中既包含图片文本对中文本的概括性语义信息，又包含图片文本对的结构化语义信息，两者相互补足能够更好地表达图片文本对的信息。

使用图片文本对对应的结构化提示的编码结果对图像生成模型进行训练。

可选地，将编码结果输入图像生成模型中，图像生成模型基于编码结果生成图像，通过将生成的图像与图片文本对中的图片进行对比，基于对比结果对图像生成模型的参数进行调整，完成对图像生成模型的训练。

在上述实施例的基础上，本实施例中所述图像生成模型为Diffusion模型；

Diffusion模型即扩散模型，兼具可操作性和灵活性的优点，能够更好地对图像进行还原。

可选地，Diffusion模型为Stable Diffusion模型。

使用所述图片文本对对应的结构化提示的编码结果对所述图像生成模型进行训练的步骤包括：

对图片文本对中的图片多次加入噪声，得到每次加入噪声后的噪声图片；

对图片文本对中的图片依次加入多次高斯噪声，每加入一次高斯噪声，记录加入噪声后对应的噪声图片。

将图片文本对对应的编码结果和最后一次加入噪声后的所述噪声图片输入图像生成模型，得到图像生成模型每一步生成的图像；

图像生成模型基于图片文本对对应的编码结果，对最后一次加入噪声后的图片进行逐步还原。

图像生成模型逐步对最后一次加入噪声后的图片进行还原的次数与图片文本对中的图片加入高斯噪声的次数相同。每一步还原时，记录图像生成模型得到的还原图像，并将其与与其对应的噪声图片进行对比。

例如，将第一次还原生成的还原图像与最后一次加入噪声的噪声图片进行对比。

确定图像生成模型每一步生成的图像和对应的噪声图片之间的均方误差，根据均方误差调整所述图像生成模型的参数；

基于每一次还原图像和与其对应的噪声图片之间的对比结果，计算图像生成模型在还原图片时每一步生成的图像和对应的噪声图片之间的均方误差。

基于计算得到的均分误差对应调整图像生成模型的各个参数，以在图像生成模型后续训练过程中，降低图像生成模型每次还原图像和对应的噪声图片之间的均方误差。

下面对本发明提供的基于结构化语义图的图像生成装置进行描述，下文描述的基于结构化语义图的图像生成装置与上文描述的基于结构化语义图的图像生成方法可相互对应参照。因此，在前述基于结构化语义图的图像生成方法的各实施例中的描述和定义，可以用于本发明实施例中各个执行模块的理解。

如图3所示，该装置包括构建模块301、处理模块302和生成模块303，其中：

构建模块301，用于目标文本中提取信息要素，根据所述信息要素构建结构化语义图；

处理模块302，用于对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示，对所述结构化提示进行编码；

生成模块303，用于根据所述结构化提示的编码结果生成图像；

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行基于结构化语义图的图像生成方法，该方法包括：从目标文本中提取信息要素，根据所述信息要素构建结构化语义图；对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示，对所述结构化提示进行编码；根据所述结构化提示的编码结果生成图像。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于结构化语义图的图像生成方法，该方法包括：从目标文本中提取信息要素，根据所述信息要素构建结构化语义图；对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示，对所述结构化提示进行编码；根据所述结构化提示的编码结果生成图像。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于结构化语义图的图像生成方法，其特征在于，包括：

根据所述结构化提示的编码结果生成图像。

2.根据权利要求1所述的基于结构化语义图的图像生成方法，其特征在于，所述根据所述信息要素构建结构化语义图的步骤包括：

3.根据权利要求2所述的基于结构化语义图的图像生成方法，其特征在于，所述对所述结构化语义图和所述目标文本整体进行序列化，生成结构化提示的步骤包括：

4.根据权利要求2所述的基于结构化语义图的图像生成方法，其特征在于，所述节点的结构化控制信息包括所述节点对应物体的类别、编号、属性、位置、文字描述和偏好图片中的一种或多种。

5.根据权利要求1-4任一所述的基于结构化语义图的图像生成方法，其特征在于，所述根据所述结构化提示的编码结果生成图像的步骤包括:

6.根据权利要求5所述的基于结构化语义图的图像生成方法，其特征在于，在所述将所述结构化提示的编码结果输入图像生成模型中，得到所述图像生成模型生成的图像的步骤之前，还包括：

使用检测工具从所述图片文本对中提取信息要素；

根据所述图片文本对对应的信息要素构建结构化语义图；

7.根据权利要求6所述的基于结构化语义图的图像生成方法，其特征在于，所述图像生成模型为Diffusion模型；

8.一种基于结构化语义图的图像生成装置，其特征在于，包括：

生成模块，用于根据所述结构化提示的编码结果生成图像。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于结构化语义图的图像生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于结构化语义图的图像生成方法。