CN116823984A

CN116823984A - 元素布局信息生成方法、装置、设备、介质和程序产品

Info

Publication number: CN116823984A
Application number: CN202310714332.5A
Authority: CN
Inventors: 刘安; 冯伟; 朱红贺; 李耀宇; 张政; 吕晶晶; 朱鑫; 张旭; 王小梅
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-29

Abstract

本公开的实施例公开了元素布局信息生成方法、装置、设备、介质和程序产品。该方法的一具体实施方式包括：将元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息；利用图像对象特征提取模型和文本特征提取模型，生成文本特征信息和图像对象特征信息；将元素布局去噪信息、图像对象特征信息和文本特征信息输入至视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息；利用布局元素几何关系调整模型，生成布局元素几何关系调整信息；将视觉文本关系特征信息、图像对象特征信息和布局元素几何关系调整信息输入至特征解码模型，以生成元素布局信息。该实施方式与人工智能有关，可以利用元素布局信息，对各种元素进行精准的布局。

Description

元素布局信息生成方法、装置、设备、介质和程序产品

技术领域

本公开的实施例涉及计算机技术领域，具体涉及元素布局信息生成方法、装置、设备、介质和程序产品。

背景技术

目前，各类元素的布局较大程度上影响着美学吸引力，以致影响着包含的内容信息的传递。对于元素布局信息的生成，通常采用的方式为：通过双向注意力机制，生成针对各个视觉元素的视觉元素布局信息。

然而，发明人发现，当采用上述方式，经常会存在如下技术问题：

在元素布局信息的生成过程中，忽略了文本元素与视觉元素之间的关联关系。除此之外，未充分考虑元素之间的协调关系，导致所生成的元素布局信息不够精准。

该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了元素布局信息生成方法、装置、设备、介质和程序产品，来解决以上背景技术部分提到的技术问题。

第一方面，本公开的一些实施例提供了一种元素布局信息生成方法，包括：将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息；利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息；将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息；利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息；将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

可选地，上述视觉文本关系特征信息生成模型包括：视觉位置特征信息生成层和视觉文本关系注意力输出层；以及上述将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息，包括：将上述元素布局去噪信息和上述图像对象特征信息输入至上述视觉位置特征信息生成层，以生成视觉位置特征信息；将上述视觉位置特征信息和上述文本特征信息输入至上述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为上述视觉文本关系特征信息。

可选地，上述元素布局去噪信息包括：包围框信息集，上述图像对象特征信息包括：针对至少一个图像对象的至少一个对象特征信息，上述视觉位置特征信息生成层包括：包围框信息投影操作层和特征信息融合层，上述视觉位置特征信息包括针对上述至少一个图像对象的至少一个视觉位置特征子信息；以及上述将上述元素布局去噪信息和上述图像对象特征信息输入至上述视觉位置特征信息生成层，以生成视觉位置特征信息，包括：对于上述至少一个图像对象中的每个图像对象，执行以下第一信息生成步骤：将上述图像对象在上述包围框信息集中对应的包围框信息输入至上述包围框信息投影操作层，以生成包围框投影特征信息；将上述包围框投影特征信息和上述图像对象在上述至少一个对象特征信息中对应的对象特征信息，输入至上述特征信息融合层，以生成特征融合信息，作为上述图像对象对应的视觉位置特征子信息。

可选地，上述视觉文本关系注意力输出层包括：第一卷积层、第二卷积层、第三卷积层、第一归一化层和第四卷积层；以及上述将上述视觉位置特征信息和上述文本特征信息输入至上述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为上述视觉文本关系特征信息，包括：对于至少一个图像对象中的每个图像对象，执行以下第二信息生成步骤：将上述视觉位置特征信息作为查询特征信息，输入至上述第一卷积层，以生成第一卷积特征信息；将上述文本特征信息作为键特征信息，输入至上述第二卷积层，以生成第二卷积特征信息；将上述文本特征信息作为值特征信息，输入至上述第三卷积层，以生成第三卷积特征信息；对上述第一卷积特征信息和上述第二卷积特征信息进行特征信息处理，以生成第一处理特征信息；将上述第一处理特征信息输入至上述第一归一化层，以生成第一归一化信息；对上述第一归一化信息和上述第三卷积特征信息进行特征信息处理，以生成第二处理特征信息；将上述第二处理特征信息输入至上述第四卷积层，以生成视觉文本关系特征子信息；根据所得到的至少一个视觉文本关系特征子信息，生成上述视觉文本关系特征信息。

可选地，上述元素布局去噪信息包括：包围框信息集；以及上述利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息，包括：生成上述包围框信息集中的各个包围框信息之间的包围框位置关系信息；将上述包围框位置关系信息和上述图像对象特征信息输入至上述布局元素几何关系调整模型，以生成上述布局元素几何关系调整信息。

可选地，上述布局元素几何关系调整模型包括：包围框位置关系编码层、第一全连接层、第二归一化层和第二全连接层；以及上述将上述包围框位置关系信息和上述图像对象特征信息输入至上述布局元素几何关系调整模型，以生成上述布局元素几何关系调整信息，包括：将上述包围框位置关系信息输入至上述包围框位置关系编码层，以生成第一编码信息；将上述第一编码信息输入至上述第一全连接层，以生成第一全连接信息；将上述第一全连接信息输入至上述第二归一化层，以生成第二归一化信息；将上述图像对象特征信息输入至上述第二全连接层，以生成第二全连接信息；对上述第二归一化信息和上述第二全连接信息进行信息处理，以生成第三处理特征信息，作为布局元素几何关系调整信息。

可选地，上述元素布局信息生成模型包括：上述扩散模型、上述图像对象特征提取模型、上述文本特征提取模型、上述视觉文本关系特征信息生成模型、上述布局元素几何关系调整模型和上述特征解码模型；以及上述元素布局信息生成模型通过以下步骤训练得到：获取训练数据，其中，上述训练数据包括：元素布局标签、目标文本元素和目标图像元素；利用初始扩散模型，对上述元素布局标签对应的元素布局信息进行布局信息扩散处理，以生成元素噪声布局信息；利用初始图像对象特征提取模型和初始文本特征提取模型，生成针对目标文本元素的初始文本特征信息和针对目标图像元素的初始图像对象特征信息；将上述元素噪声布局信息、上述初始图像对象特征信息和上述初始文本特征信息输入至基于视觉文本关系感知的初始视觉文本关系特征信息生成模型，以生成初始视觉文本关系特征信息；利用基于元素位置关系感知的初始布局元素几何关系调整模型，根据上述元素噪声布局信息和上述初始图像对象特征信息，生成初始布局元素几何关系调整信息；将上述初始视觉文本关系特征信息、上述初始图像对象特征信息和上述初始布局元素几何关系调整信息输入至初始特征解码模型，以生成初始元素布局信息；根据上述初始元素布局信息和上述元素布局标签，确定初始元素布局信息生成模型是否训练完成；响应于确定训练完成，将上述初始元素布局信息生成模型确定为上述元素布局信息生成模型。

第二方面，本公开的一些实施例提供了一种元素布局信息生成装置，包括：第一生成单元，被配置成将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息；第二生成单元，被配置成利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息；第三生成单元，被配置成将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息；第四生成单元，被配置成利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息；第五生成单元，被配置成将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

可选地，上述视觉文本关系特征信息生成模型包括：视觉位置特征信息生成层和视觉文本关系注意力输出层；以及第三生成单元可以被配置成：将上述元素布局去噪信息和上述图像对象特征信息输入至上述视觉位置特征信息生成层，以生成视觉位置特征信息；将上述视觉位置特征信息和上述文本特征信息输入至上述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为上述视觉文本关系特征信息。

可选地，上述元素布局去噪信息包括：包围框信息集，上述图像对象特征信息包括：针对至少一个图像对象的至少一个对象特征信息，上述视觉位置特征信息生成层包括：包围框信息投影操作层和特征信息融合层，上述视觉位置特征信息包括针对上述至少一个图像对象的至少一个视觉位置特征子信息；以及第三生成单元可以被配置成：对于上述至少一个图像对象中的每个图像对象，执行以下第一信息生成步骤：将上述图像对象在上述包围框信息集中对应的包围框信息输入至上述包围框信息投影操作层，以生成包围框投影特征信息；将上述包围框投影特征信息和上述图像对象在上述至少一个对象特征信息中对应的对象特征信息，输入至上述特征信息融合层，以生成特征融合信息，作为上述图像对象对应的视觉位置特征子信息。

可选地，上述视觉文本关系注意力输出层包括：第一卷积层、第二卷积层、第三卷积层、第一归一化层和第四卷积层；以及第三生成单元可以被配置成：对于至少一个图像对象中的每个图像对象，执行以下第二信息生成步骤：将上述视觉位置特征信息作为查询特征信息，输入至上述第一卷积层，以生成第一卷积特征信息；将上述文本特征信息作为键特征信息，输入至上述第二卷积层，以生成第二卷积特征信息；将上述文本特征信息作为值特征信息，输入至上述第三卷积层，以生成第三卷积特征信息；对上述第一卷积特征信息和上述第二卷积特征信息进行特征信息处理，以生成第一处理特征信息；将上述第一处理特征信息输入至上述第一归一化层，以生成第一归一化信息；对上述第一归一化信息和上述第三卷积特征信息进行特征信息处理，以生成第二处理特征信息；将上述第二处理特征信息输入至上述第四卷积层，以生成视觉文本关系特征子信息；根据所得到的至少一个视觉文本关系特征子信息，生成上述视觉文本关系特征信息。

可选地，上述元素布局去噪信息包括：包围框信息集；以及第四生成单元可以被配置成：生成上述包围框信息集中的各个包围框信息之间的包围框位置关系信息；将上述包围框位置关系信息和上述图像对象特征信息输入至上述布局元素几何关系调整模型，以生成上述布局元素几何关系调整信息。

可选地，上述布局元素几何关系调整模型包括：包围框位置关系编码层、第一全连接层、第二归一化层和第二全连接层；以及第四生成单元可以被配置成：将上述包围框位置关系信息输入至上述包围框位置关系编码层，以生成第一编码信息；将上述第一编码信息输入至上述第一全连接层，以生成第一全连接信息；将上述第一全连接信息输入至上述第二归一化层，以生成第二归一化信息；将上述图像对象特征信息输入至上述第二全连接层，以生成第二全连接信息；对上述第二归一化信息和上述第二全连接信息进行信息处理，以生成第三处理特征信息，作为布局元素几何关系调整信息。

第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

第五方面，本公开的一些实施例提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述第一方面中任一实现方式所描述的方法。

本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的元素布局信息生成方法可以利用元素布局信息，对各种元素进行精准的布局。具体来说，造成相关的元素布局信息不够精确的原因在于：在元素布局信息的生成过程中，忽略了文本元素与视觉元素之间的关联关系。除此之外，未充分考虑元素之间的协调关系，导致所生成的元素布局信息不够精准。基于此，本公开的一些实施例的元素布局信息生成方法，首先，将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息。在这里，通过扩散模型，来实现元素布局噪声信息的有效去噪，以后续得到相对元素布局较为精准的元素布局去噪信息。然后，利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息。在这里，通过图像对象特征提取模型和文本特征提取模型，可以精准地生成文本特征信息和针对图像元素中的各个对象的对象特征信息(即，图像对象特征信息)，以用于后续生成视觉文本关系特征信息和布局元素几何关系调整信息。接着，将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息。在这里，通过视觉文本关系特征信息生成模型，可以充分的学习到视觉元素(即图像元素)和文本元素之间的元素关联关系，以便于在后续生成元素布局信息的过程中，充分考虑元素关联关系和增强布局特征表征能力，使得元素布局信息的生成更为精准。进而，利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息。在这里，通过布局元素几何关系调整模型可以更好地学习到布局元素之间的内容信息关系，增强布局元素之间的布局特征表征能力，使得后续生成元素布局更为精准的元素布局信息。最后，将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以精准地生成针对上述文本元素和上述图像元素的元素布局信息。综上，通过扩散模型，来实现元素布局噪声信息的初步去噪，以得到相对比较精准的元素布局去噪信息。接着，通过基于视觉文本关系感知的视觉文本关系特征信息生成模型，来提高视觉元素和文本元素之间的关系特征表征，以及基于元素位置关系感知的布局元素几何关系调整模型，来提高布局元素的对象特征表征，可以精准地生成元素布局信息，使得利用元素布局信息，对各种元素进行精准的布局。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1-图2是根据本公开的一些实施例的元素布局信息生成方法的一个应用场景的示意图；

图3是根据本公开的元素布局信息生成方法的一些实施例的流程图；

图4是根据本公开的元素布局信息生成方法的另一些实施例的流程图；

图5是根据本公开的元素布局信息生成装置的一些实施例的结构示意图；

图6是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本公开中所涉及的用户个人信息(例如用户画像、用户历史行为)的收集、存储、使用等操作，在执行相应操作之前，相关组织或个人尽到包括开展个人信息安全影响评估、向个人信息主体履行告知义务、事先征得个人信息主体的授权同意等义务。

下面将参考附图并结合实施例来详细说明本公开。

图1-图2是根据本公开一些实施例的元素布局信息生成方法的一个应用场景的示意图。

在图1-图2的应用场景中，首先，电子设备101可以将预先生成的元素布局噪声信息102输入至扩散模型103，以生成元素布局去噪信息104。然后，电子设备101可以利用上述图像对象特征提取模型106和上述文本特征提取模型109，生成针对文本元素108的文本特征信息110和针对图像元素105的图像对象特征信息107。在本应用场景中，文本元素108可以是“阳光明媚，给与希望”。进而，电子设备101可以将上述元素布局去噪信息104、上述图像对象特征信息107和上述文本特征信息110输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型111，以生成视觉文本关系特征信息112。接着，电子设备101可以利用基于元素位置关系感知的布局元素几何关系调整模型113，根据上述元素布局去噪信息104和上述图像对象特征信息107，生成布局元素几何关系调整信息114。最后，电子设备101可以将上述视觉文本关系特征信息112、上述图像对象特征信息107和上述布局元素几何关系调整信息114输入至特征解码模型115，以生成针对上述文本元素108和上述图像元素105的元素布局信息116。

需要说明的是，上述电子设备101可以是硬件，也可以是软件。当电子设备为硬件时，可以实现成多个服务器或终端设备组成的分布式集群，也可以实现成单个服务器或单个终端设备。当电子设备体现为软件时，可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1-图2中的电子设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的电子设备。

继续参考图3，示出了根据本公开的元素布局信息生成方法的一些实施例的流程300。该元素布局信息生成方法，包括以下步骤：

步骤301，将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息。

在一些实施例中，上述元素布局信息生成方法的执行主体(例如图1所示的电子设备101)可以通过有线连接方式或者无线连接方式来将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息。元素布局噪声信息可以是针对各种元素的布局位置的噪声信息。各种元素可以是待进行组合的元素集。各种元素对应的元素种类包括至少一种。例如，元素种类可以是以下之一：文本元素种类，图像元素种类。文本元素种类可以是对应元素为文本元素的类别。图像元素种类可以使对应元素为图像元素的类别。文本元素可以是文本形式的文本信息。图像元素可以是图像形式的图像。元素布局去噪信息可以是对元素布局噪声信息进行去噪后的布局信息。元素布局去噪信息可以是针对各个元素而确定的各个元素包围框信息。元素包围框信息可以元素包围框的框信息。实践中，元素包围框信息可以包括：元素包围框的框坐标信息和元素包围框对应框住元素的元素类别。元素布局去噪信息对应的元素包围框集与各个元素存在一一对应关系。

在具体场景中，针对各种元素为海报中的元素，元素布局噪声信息可以是海报布局噪声信息。元素布局噪声信息可以包括：海报中各个元素的元素包围框信息和噪声包围框。元素可以是海报中的可填充元素。噪声包围框可以是包围框内容不能与元素相对应的包围框。同样地，元素布局去噪信息可以是海报中的各个元素对应的元素包围框信息。元素布局信息生成模型可以是生成各种元素在海报中的布局信息的模型。即元素布局信息可以是海报中的各个元素的元素布局信息。基于视觉文本关系感知的视觉文本关系特征信息生成模型可以是生成海报中的视觉元素和文本元素之间关联关系信息的模型。基于元素位置关系感知的布局元素几何关系调整模型可以是生成海报中的各个元素之间几何关系的特征信息的模型。

在一些实施例的一些可选的实现方式中，元素布局信息生成模型包括：上述扩散模型、上述图像对象特征提取模型、上述文本特征提取模型、上述视觉文本关系特征信息生成模型、上述布局元素几何关系调整模型和上述特征解码模型。

其中，元素布局信息生成模型可以是生成元素布局信息的模型。元素布局信息可以是各种元素的布局信息。布局信息可以包括：元素的位置信息和元素的类别信息。图像对象特征提取模型可以是提取图像元素中对象特征信息的模型。对象特征信息可以表征图像元素中对象的特征内容。文本特征提取模型可以是提取文本对应的文本特征的模型。图像对象特征提取模型和文本特征提取模型可以是预先训练好的模型。实践中，图像对象特征提取模型可以是带有多尺度特征金字塔的残差网络(Residual Network，ResNet)。文本特征提取模型可以是Roberta编码模型。基于视觉文本关系感知的视觉文本关系特征信息生成模型可以是利用视觉文本关系感知来生成视觉文本关系特征信息的模型。视觉文本关系特征信息可以表征视觉文本关系的关系特征信息。视觉文本关系可以是视觉元素(即图像元素)和文本元素之间的关联关系。实践中，关联关系可以包括：位置关联关系和类别关联关系。实践中，基于视觉文本关系感知的视觉文本关系特征信息生成模型可以是多头注意力机制模型。例如，基于视觉文本关系感知的视觉文本关系特征信息生成模型可以是Transformer模型。基于元素位置关系感知的布局元素几何关系调整模型可以是利用元素位置关系感知来生成布局元素之间几何关系的特征信息的模型。元素位置关系可以是待布局的各个元素之间的位置关系。实践中，基于元素位置关系感知的布局元素几何关系调整模型可以是注意力机制模型。例如，基于元素位置关系感知的布局元素几何关系调整模型可以是Transformer模型。布局元素几何关系调整信息可以是对布局元素之间的各个位置进行布局元素几何关系调整后的信息。特征解码模型可以是对特征信息进行解码处理的神经网络模型。特征解码模型可以输出元素布局信息。实践中，特征解码模型可以是多层串行连接的卷积神经网络模型。

可选地，上述元素布局信息生成模型通过以下步骤训练得到：

第一步，获取训练数据。其中，上述训练数据包括：元素布局标签、目标文本元素和目标图像元素。训练数据是用于后续对初始元素布局信息生成模型进行模型训练的数据。元素布局标签可以是训练数据对应真实元素实际布局信息。元素实际布局信息可以是各个元素的实际分布的位置和实际类别信息。目标文本元素可以是训练数据中的实际文本信息。元素布局标签可以是训练数据对应各个元素对应的包围框信息集。目标图像元素可以是训练数据中的实际图像。初始元素布局信息生成模型可以是模型还未训练结束的元素布局信息生成模型。元素布局标签对应的各个元素与目标文本元素和目标图像元素存在一一对应关系。

第二步，利用初始扩散模型，对上述元素布局标签对应的元素布局信息进行布局信息扩散处理，以生元素噪声布局信息。其中，初始扩散模型可以是还未训练结束的扩散模型。元素噪声布局信息可以是存在元素布局噪声的元素布局信息。

作为示例，上述执行主体可以将上述元素布局标签对应的元素布局信息输入至初始扩散模型，以生成元素噪声布局信息。

第三步，利用初始图像对象特征提取模型和初始文本特征信息提取模型，生成针对目标文本元素的初始文本特征信息和针对目标图像元素的初始图像对象特征信息。其中，初始图像对象特征提取模型和初始文本特征提取模型可以是模型还未训练结束的模型。

作为示例，上述执行主体可以直接将目标文本元素输入至初始文本特征提取模型，以生成初始文本特征信息。上述执行主体可以直接将目标图像元素输入至初始图像对象特征提取模型，以生成初始图像对象特征信息。

第四步，将上述元素噪声布局信息、上述初始图像对象特征信息和上述初始文本特征信息输入至基于视觉文本关系感知的初始视觉文本关系特征信息生成模型，以生成初始视觉文本关系特征信息。其中，初始视觉文本关系特征信息生成模型可以是模型还未训练结束的视觉文本关系特征信息生成模型。

第五步，利用基于元素位置关系感知的初始布局元素几何关系调整模型，根据上述元素噪声布局信息和上述初始图像对象特征信息，生成初始布局元素几何关系调整信息。其中，初始布局元素几何关系调整模型可以是模型还未训练结束的布局元素几何关系调整模型。

作为示例，上述执行主体可以直接将元素噪声布局信息和上述初始图像对象特征信息输入至基于元素位置关系感知的初始布局元素几何关系调整模型，以生成初始布局元素几何关系调整信息。

第六步，将上述初始视觉文本关系特征信息、上述初始图像对象特征信息和上述初始布局元素几何关系调整信息输入至初始特征解码模型，以生成初始元素布局信息。其中，初始特征解码模型可以是模型还未训练结束的特征解码模型。

第七步，根据上述初始元素布局信息和上述元素布局标签，确定上述初始元素布局信息生成模型是否训练完成。

作为示例，首先，上述执行主体可以根据元素布局标签对应的第一包围框信息集和初始元素布局信息对应的第二包围框信息集，利用损失函数组，确定第一包围框信息集和第二包围框信息集之间的损失信息组集。损失函数组可以包括：框类别分类损失函数、框位置回归损失函数和GIoU(Generalized Intersection over Union)损失函数。然后，将损失信息组集中的各个损失信息进行加权求和处理，得到加权求和信息，作为综合损失信息。最后，响应于确定综合损失信息小于预定数值，确定上述初始元素布局信息生成模型训练结束。响应于确定综合损失信息大于或等于预定数值，确定上述初始元素布局信息生成模型训练未结束。

第八步，响应于确定训练完成，将上述初始元素布局信息生成模型确定为上述元素布局信息生成模型。

可选地，在“第八步”之后，步骤还包括：

响应于确定训练未完成，对上述初始元素布局信息生成模型进行模型参数更新，以生成更新后模型，作为初始元素布局信息生成模型，以及重新选取训练数据，再次对初始元素布局信息生成模型(对应为更新后模型)进行模型更新。

步骤302，利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息。

在一些实施例中，上述执行主体可以利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息。文本元素可以是元素类别为文本类别的文本。图像元素可以是元素类别为图像类别的图像。文本元素可以包括至少一个待布局的文本。图像元素包括至少一个待布局的图像。文本特征信息可以表征文本元素对应文本内容的内容特征信息。图像特征信息可以表征图像元素对应图像内容的内容特征信息。

作为示例，上述执行主体可以将文本元素对应的各个文本输入至文本特征提取模型，以生成文本特征信息。上述执行主体可以将图像元素对应的各个图像输入至图像对象特征提取模型，以生成图像对象特征信息。

步骤303，将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息。

在一些实施例中，上述执行主体可以将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息。

步骤304，利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息。

在一些实施例中，上述执行主体可以利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息。

作为示例，上述执行主体可以直接将上述元素布局去噪信息对应的各个元素包围框信息和上述图像对象特征信息中的各个对象特征信息输入至基于元素位置关系感知的布局元素几何关系调整模型，以生成布局元素几何关系调整信息。

在一些实施例的一些可选的实现方式中，上述元素布局去噪信息包括：包围框信息集。其中，包围框信息集中的包围框信息可以是待布局元素的对应包围框信息。包围框信息可以是包围框的位置信息和元素类别信息。即，包围框信息集中的包围框信息与图像元素中的至少一个对象存在一一对应关系。包围框的位置信息可以是包围框的像素坐标信息。元素类别信息可以是包围框对应包围内容的元素类别。

可选地，上述利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息，可以包括以下步骤：

第一步，生成上述包围框信息集中的各个包围框信息之间的包围框位置关系信息。其中，包围框位置关系信息可以表征包围框之间的位置关联关系。

作为示例，首先，上述执行主体可以确定每个包围框信息对应中心点的中心点位置信息，得到中心点位置信息集。然后，将中心点位置信息集中的各个中心点位置信息之间的位置关联关系确定为各个包围框信息之间的包围框位置关系信息。

第二步，将上述包围框位置关系信息和上述图像对象特征信息输入至上述布局元素几何关系调整模型，以生成上述布局元素几何关系调整信息。其中，布局元素几何关系调整模型可以是依据包围框位置关联信息，对对象特征信息进行信息调整的模型。实践中，布局元素几何关系调整模型可以是Seq2Seq(Sequence to Sequence，序列到序列)模型。

可选地，上述布局元素几何关系调整模型包括：包围框位置关系编码层、第一全连接层、第二归一化层和第二全连接层。

可选地，上述将上述包围框位置关系信息和上述图像对象特征信息输入至上述布局元素几何关系调整模型，以生成上述布局元素几何关系调整信息，可以包括以下步骤：

第一步，将上述包围框位置关系信息输入至上述包围框位置关系编码层，以生成第一编码信息。实践中，包围框位置关系编码层可以是Position Encoding模型。

第二步，将上述第一编码信息输入至上述第一全连接层，以生成第一全连接信息。

第三步，将上述第一全连接信息输入至上述第二归一化层，以生成第二归一化信息。第二归一化层可以是Softmax(归一化指数)函数。

第四步，将上述图像对象特征信息输入至上述第二全连接层，以生成第二全连接信息。

第五步，对上述第二归一化信息和上述第二全连接信息进行信息处理，以生成第三处理特征信息，作为布局元素几何关系调整信息。

作为示例，上述执行主体可以将第二归一化信息和第二全连接信息进行信息相乘处理，以生成相乘信息，作为布局元素几何关系调整信息。

步骤305，将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

在一些实施例中，上述执行主体可以将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

作为示例，首先，上述执行主体可以将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息进行信息拼接，以生成拼接信息。然后，将拼接信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

进一步参考图4，示出了根据本公开的元素布局信息生成方法的另一些实施例的流程400。该元素布局信息生成方法，包括以下步骤：

步骤401，将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息。

步骤402，利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息。

步骤403，将上述元素布局去噪信息和上述图像对象特征信息输入至上述视觉位置特征信息生成层，以生成视觉位置特征信息。

在一些实施例中，执行主体(例如图1所示的电子设备101)可以将上述元素布局去噪信息和上述图像对象特征信息输入至上述视觉位置特征信息生成层，以生成视觉位置特征信息。其中，上述视觉文本关系特征信息生成模型包括：视觉位置特征信息生成层和视觉文本关系注意力输出层。视觉位置特征信息生成层可以是生成视觉位置特征信息的网络层。视觉位置特征信息可以是图像对象对应的视觉位置的位置特征信息。实践中，视觉位置特征信息生成层可以是至少一层串行连接的卷积神经网络。视觉文本关系注意力输出层可以是基于视觉特征信息和文本特征信息来生成对应关系注意力特征信息的网络层。实践中，视觉文本关系注意力输出层可以是2层Transformer模型。

在一些实施例的一些可选的实现方式中，上述元素布局去噪信息包括：包围框信息集。上述图像对象特征信息包括：针对至少一个图像对象的至少一个对象特征信息，上述视觉位置特征信息生成层包括：包围框信息投影操作层和特征信息融合层，上述视觉位置特征信息包括针对上述至少一个图像对象的至少一个视觉位置特征子信息。

可选地，上述将上述元素布局去噪信息和上述图像对象特征信息输入至上述视觉位置特征信息生成层，以生成视觉位置特征信息，可以包括以下步骤：

对于上述至少一个图像对象中的每个图像对象，执行以下第一信息生成步骤：

子步骤1，将上述图像对象在上述包围框信息集中对应的包围框信息输入至上述包围框信息投影操作层，以生成包围框投影特征信息。其中，包围框信息投影操作层可以是对包围框信息进行投影操作的网络层。实践中，包围框信息投影操作层可以是卷积神经网络。

子步骤2，将上述包围框投影特征信息和上述图像对象在上述至少一个对象特征信息中对应的对象特征信息，输入至上述特征信息融合层，以生成特征融合信息，作为上述图像对象对应的视觉位置特征子信息。其中，特征信息融合层可以是特征信息拼接层(即，对特征信息进行信息拼接的网络层)。

步骤404，将上述视觉位置特征信息和上述文本特征信息输入至上述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为上述视觉文本关系特征信息。

在一些实施例中，上述执行主体可以将上述视觉位置特征信息和上述文本特征信息输入至上述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为上述视觉文本关系特征信息。其中，视觉文本关系特征信息可以表征视觉元素与文本元素之间的元素关联关系的特征信息。

在一些实施例的一些可选的实现方式中，上述视觉文本关系注意力输出层包括：第一卷积层、第二卷积层、第三卷积层、第一归一化层和第四卷积层。

可选地，上述将上述视觉位置特征信息和上述文本特征信息输入至上述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为上述视觉文本关系特征信息，可以包括以下步骤：

第一步，对于至少一个图像对象中的每个图像对象，执行以下第二信息生成步骤：

子步骤1，将上述视觉位置特征信息作为查询特征信息，输入至上述第一卷积层，以生成第一卷积特征信息。其中，查询特征信息可以是Query(查询)向量。

子步骤2，将上述文本特征信息作为键特征信息，输入至上述第二卷积层，以生成第二卷积特征信息。键特征信息可以是Key(键)向量。

子步骤3，将上述文本特征信息作为值特征信息，输入至上述第三卷积层，以生成第三卷积特征信息。值特征信息可以是Value(值)向量。

子步骤4，对上述第一卷积特征信息和上述第二卷积特征信息进行特征信息处理，以生成第一处理特征信息。

作为示例，上述执行主体可以对上述第一卷积特征信息和上述第二卷积特征信息进行特征信息相乘处理，以生成第一处理特征信息。

子步骤5，将上述第一处理特征信息输入至上述第一归一化层，以生成第一归一化信息。

子步骤6，对上述第一归一化信息和上述第三卷积特征信息进行特征信息处理，以生成第二处理特征信息。

作为示例，上述执行主体可以对上述第一归一化信息和上述第三卷积特征信息进行特征信息相乘处理，以生成第二处理特征信息。

子步骤7，将上述第二处理特征信息输入至上述第四卷积层，以生成视觉文本关系特征子信息。

第二步，根据所得到的至少一个视觉文本关系特征子信息，生成上述视觉文本关系特征信息。

作为示例，上述执行主体可以将至少一个视觉文本关系特征子信息进行信息融合，以生成融合特征信息，作为上述视觉文本关系特征信息。

步骤405，利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息。

步骤406，将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

在一些实施例中，步骤401-402、405-406的具体实现及其所带来的技术效果，可以参考图3对应的实施例中的步骤301-302、304-305，在此不再赘述。

从图4中可以看出，与图3对应的一些实施例的描述相比，图4对应的一些实施例中的元素布局信息生成方法的流程400更加突出了视觉文本关系特征信息生成模型的具体模型结构。由此，本公开通过视觉位置特征信息生成层，以生成针对上述元素布局去噪信息和上述图像对象特征信息的、可以精准表征图像元素位置的特征信息。同样地，通过视觉文本关系注意力输出层，可以更精准地关注视觉元素和文本元素之间的关联关系，以使得后续所得到的元素布局信息更为精准。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种元素布局信息生成装置的一些实施例，这些装置实施例与图3所示的那些方法实施例相对应，该元素布局信息生成装置具体可以应用于各种电子设备中。

如图5所示，一种元素布局信息生成装置500包括：第一生成单元501、第二生成单元502、第三生成单元503、第四生成单元504和第五生成单元505。其中，第一生成单元501，被配置成将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息；第二生成单元502，被配置成利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息；第三生成单元503，被配置成将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息；第四生成单元504，被配置成利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息；第五生成单元505，被配置成将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

在一些实施例的一些可选的实现方式中，上述视觉文本关系特征信息生成模型包括：视觉位置特征信息生成层和视觉文本关系注意力输出层；以及第三生成单元503可以进一步被配置成：将上述元素布局去噪信息和上述图像对象特征信息输入至上述视觉位置特征信息生成层，以生成视觉位置特征信息；将上述视觉位置特征信息和上述文本特征信息输入至上述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为上述视觉文本关系特征信息。

在一些实施例的一些可选的实现方式中，上述元素布局去噪信息包括：包围框信息集，上述图像对象特征信息包括：针对至少一个图像对象的至少一个对象特征信息，上述视觉位置特征信息生成层包括：包围框信息投影操作层和特征信息融合层，上述视觉位置特征信息包括针对上述至少一个图像对象的至少一个视觉位置特征子信息；以及第三生成单元503可以进一步被配置成：对于上述至少一个图像对象中的每个图像对象，执行以下第一信息生成步骤：将上述图像对象在上述包围框信息集中对应的包围框信息输入至上述包围框信息投影操作层，以生成包围框投影特征信息；将上述包围框投影特征信息和上述图像对象在上述至少一个对象特征信息中对应的对象特征信息，输入至上述特征信息融合层，以生成特征融合信息，作为上述图像对象对应的视觉位置特征子信息。

在一些实施例的一些可选的实现方式中，上述视觉文本关系注意力输出层包括：第一卷积层、第二卷积层、第三卷积层、第一归一化层和第四卷积层；以及第三生成单元503可以进一步被配置成：对于至少一个图像对象中的每个图像对象，执行以下第二信息生成步骤：将上述视觉位置特征信息作为查询特征信息，输入至上述第一卷积层，以生成第一卷积特征信息；将上述文本特征信息作为键特征信息，输入至上述第二卷积层，以生成第二卷积特征信息；将上述文本特征信息作为值特征信息，输入至上述第三卷积层，以生成第三卷积特征信息；对上述第一卷积特征信息和上述第二卷积特征信息进行特征信息处理，以生成第一处理特征信息；将上述第一处理特征信息输入至上述第一归一化层，以生成第一归一化信息；对上述第一归一化信息和上述第三卷积特征信息进行特征信息处理，以生成第二处理特征信息；将上述第二处理特征信息输入至上述第四卷积层，以生成视觉文本关系特征子信息；根据所得到的至少一个视觉文本关系特征子信息，生成上述视觉文本关系特征信息。

在一些实施例的一些可选的实现方式中，上述元素布局去噪信息包括：包围框信息集；以及第四生成单元504可以进一步被配置成：生成上述包围框信息集中的各个包围框信息之间的包围框位置关系信息；将上述包围框位置关系信息和上述图像对象特征信息输入至上述布局元素几何关系调整模型，以生成上述布局元素几何关系调整信息。

在一些实施例的一些可选的实现方式中，上述布局元素几何关系调整模型包括：包围框位置关系编码层、第一全连接层、第二归一化层和第二全连接层；以及第四生成单元504可以进一步被配置成：将上述包围框位置关系信息输入至上述包围框位置关系编码层，以生成第一编码信息；将上述第一编码信息输入至上述第一全连接层，以生成第一全连接信息；将上述第一全连接信息输入至上述第二归一化层，以生成第二归一化信息；将上述图像对象特征信息输入至上述第二全连接层，以生成第二全连接信息；对上述第二归一化信息和上述第二全连接信息进行信息处理，以生成第三处理特征信息，作为布局元素几何关系调整信息。

可以理解的是，该元素布局信息生成装置500中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于元素布局信息生成装置500及其中包含的单元，在此不再赘述。

下面参考图6，其示出了适于用来实现本公开的一些实施例的电子设备(例如图1中的电子设备101)600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器602中的程序或者从存储装置608加载到随机访问存储器603中的程序而执行各种适当的动作和处理。在随机访问存储器603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、只读存储器602以及随机访问存储器603通过总线604彼此相连。输入/输出接口605也连接至总线604。

通常，以下装置可以连接至输入/输出接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从只读存储器602被安装。在该计算机程序被处理装置601执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息；利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息；将上述元素布局去噪信息、上述图像对象特征信息和上述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息；利用基于元素位置关系感知的布局元素几何关系调整模型，根据上述元素布局去噪信息和上述图像对象特征信息，生成布局元素几何关系调整信息；将上述视觉文本关系特征信息、上述图像对象特征信息和上述布局元素几何关系调整信息输入至特征解码模型，以生成针对上述文本元素和上述图像元素的元素布局信息。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一生成单元、第二生成单元、第三生成单元、第四生成单元和第五生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一生成单元还可以被描述为“将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

本公开的一些实施例还提供一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述的任一种元素布局信息生成方法。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种元素布局信息生成方法，包括：

将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息；

利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息；

将所述元素布局去噪信息、所述图像对象特征信息和所述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息；

利用基于元素位置关系感知的布局元素几何关系调整模型，根据所述元素布局去噪信息和所述图像对象特征信息，生成布局元素几何关系调整信息；

将所述视觉文本关系特征信息、所述图像对象特征信息和所述布局元素几何关系调整信息输入至特征解码模型，以生成针对所述文本元素和所述图像元素的元素布局信息。

2.根据权利要求1所述的方法，其中，所述视觉文本关系特征信息生成模型包括：视觉位置特征信息生成层和视觉文本关系注意力输出层；以及

所述将所述元素布局去噪信息、所述图像对象特征信息和所述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息，包括：

将所述元素布局去噪信息和所述图像对象特征信息输入至所述视觉位置特征信息生成层，以生成视觉位置特征信息；

将所述视觉位置特征信息和所述文本特征信息输入至所述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为所述视觉文本关系特征信息。

3.根据权利要求2所述的方法，其中，所述元素布局去噪信息包括：包围框信息集，所述图像对象特征信息包括：针对至少一个图像对象的至少一个对象特征信息，所述视觉位置特征信息生成层包括：包围框信息投影操作层和特征信息融合层，所述视觉位置特征信息包括针对所述至少一个图像对象的至少一个视觉位置特征子信息；以及

所述将所述元素布局去噪信息和所述图像对象特征信息输入至所述视觉位置特征信息生成层，以生成视觉位置特征信息，包括：

对于所述至少一个图像对象中的每个图像对象，执行以下第一信息生成步骤：

将所述图像对象在所述包围框信息集中对应的包围框信息输入至所述包围框信息投影操作层，以生成包围框投影特征信息；

将所述包围框投影特征信息和所述图像对象在所述至少一个对象特征信息中对应的对象特征信息，输入至所述特征信息融合层，以生成特征融合信息，作为所述图像对象对应的视觉位置特征子信息。

4.根据权利要求2所述的方法，其中，所述视觉文本关系注意力输出层包括：第一卷积层、第二卷积层、第三卷积层、第一归一化层和第四卷积层；以及

所述将所述视觉位置特征信息和所述文本特征信息输入至所述视觉文本关系注意力输出层，以生成视觉文本关系注意力特征信息，作为所述视觉文本关系特征信息，包括：

对于至少一个图像对象中的每个图像对象，执行以下第二信息生成步骤：

将所述视觉位置特征信息作为查询特征信息，输入至所述第一卷积层，以生成第一卷积特征信息；

将所述文本特征信息作为键特征信息，输入至所述第二卷积层，以生成第二卷积特征信息；

将所述文本特征信息作为值特征信息，输入至所述第三卷积层，以生成第三卷积特征信息；

对所述第一卷积特征信息和所述第二卷积特征信息进行特征信息处理，以生成第一处理特征信息；

将所述第一处理特征信息输入至所述第一归一化层，以生成第一归一化信息；

对所述第一归一化信息和所述第三卷积特征信息进行特征信息处理，以生成第二处理特征信息；

将所述第二处理特征信息输入至所述第四卷积层，以生成视觉文本关系特征子信息；

根据所得到的至少一个视觉文本关系特征子信息，生成所述视觉文本关系特征信息。

5.根据权利要求1所述的方法，其中，所述元素布局去噪信息包括：包围框信息集；以及

所述利用基于元素位置关系感知的布局元素几何关系调整模型，根据所述元素布局去噪信息和所述图像对象特征信息，生成布局元素几何关系调整信息，包括：

生成所述包围框信息集中的各个包围框信息之间的包围框位置关系信息；

将所述包围框位置关系信息和所述图像对象特征信息输入至所述布局元素几何关系调整模型，以生成所述布局元素几何关系调整信息。

6.根据权利要求5所述的方法，其中，所述布局元素几何关系调整模型包括：包围框位置关系编码层、第一全连接层、第二归一化层和第二全连接层；以及

所述将所述包围框位置关系信息和所述图像对象特征信息输入至所述布局元素几何关系调整模型，以生成所述布局元素几何关系调整信息，包括：

将所述包围框位置关系信息输入至所述包围框位置关系编码层，以生成第一编码信息；

将所述第一编码信息输入至所述第一全连接层，以生成第一全连接信息；

将所述第一全连接信息输入至所述第二归一化层，以生成第二归一化信息；

将所述图像对象特征信息输入至所述第二全连接层，以生成第二全连接信息；

对所述第二归一化信息和所述第二全连接信息进行信息处理，以生成第三处理特征信息，作为布局元素几何关系调整信息。

7.根据权利要求1所述的方法，其中，元素布局信息生成模型包括：所述扩散模型、所述图像对象特征提取模型、所述文本特征提取模型、所述视觉文本关系特征信息生成模型、所述布局元素几何关系调整模型和所述特征解码模型；以及

所述元素布局信息生成模型通过以下步骤训练得到：

获取训练数据，其中，所述训练数据包括：元素布局标签、目标文本元素和目标图像元素；

利用初始扩散模型，对所述元素布局标签对应的元素布局信息进行布局信息扩散处理，以生成元素噪声布局信息；

利用初始图像对象特征提取模型和初始文本特征提取模型，生成针对目标文本元素的初始文本特征信息和针对目标图像元素的初始图像对象特征信息；

将所述元素噪声布局信息、所述初始图像对象特征信息和所述初始文本特征信息输入至基于视觉文本关系感知的初始视觉文本关系特征信息生成模型，以生成初始视觉文本关系特征信息；

利用基于元素位置关系感知的初始布局元素几何关系调整模型，根据所述元素噪声布局信息和所述初始图像对象特征信息，生成初始布局元素几何关系调整信息；

将所述初始视觉文本关系特征信息、所述初始图像对象特征信息和所述初始布局元素几何关系调整信息输入至初始特征解码模型，以生成初始元素布局信息；

根据所述初始元素布局信息和所述元素布局标签，确定初始元素布局信息生成模型是否训练完成；

响应于确定训练完成，将所述初始元素布局信息生成模型确定为所述元素布局信息生成模型。

8.一种元素布局信息生成装置，包括：

第一生成单元，被配置成将预先生成的元素布局噪声信息输入至扩散模型，以生成元素布局去噪信息；

第二生成单元，被配置成利用图像对象特征提取模型和文本特征提取模型，生成针对文本元素的文本特征信息和针对图像元素的图像对象特征信息；

第三生成单元，被配置成将所述元素布局去噪信息、所述图像对象特征信息和所述文本特征信息输入至基于视觉文本关系感知的视觉文本关系特征信息生成模型，以生成视觉文本关系特征信息；

第四生成单元，被配置成利用基于元素位置关系感知的布局元素几何关系调整模型，根据所述元素布局去噪信息和所述图像对象特征信息，生成布局元素几何关系调整信息；

第五生成单元，被配置成将所述视觉文本关系特征信息、所述图像对象特征信息和所述布局元素几何关系调整信息输入至特征解码模型，以生成针对所述文本元素和所述图像元素的元素布局信息。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。