CN117612170A

CN117612170A - 一种结合记忆网络和扩散网络的图像到长文本生成方法

Info

Publication number: CN117612170A
Application number: CN202410090494.0A
Authority: CN
Inventors: 宋彦; 刘畅; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-02-27

Abstract

本发明涉及图像描述文本生成技术领域，公开了一种结合记忆网络和扩散网络的图像到长文本生成方法，对于给定图像产生描述文本，包括以下步骤：利用视觉编码器提取图像的视觉特征；利用语义概念预测器处理视觉特征，得到图像的语义特征向量；通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强，得到加强语义特征向量；利用扩散解码器处理视觉特征和加强语义特征向量，生成描述文本。本发明使用语义概念在图像到文本生成过程中传输基本的语义信息，并通过语义记忆网络来增强语义概念表示，以提供精确地控制，引导扩散网络生成全面而连贯的长文本。

Description

一种结合记忆网络和扩散网络的图像到长文本生成方法

技术领域

本发明涉及图像描述文本生成技术领域，具体涉及一种结合记忆网络和扩散网络的图像到长文本生成方法。

背景技术

图像到文本的生成指的是自动生成描述图像的文本内容。现有的方法主要集中在生成短文本，无法生成足够全面和完整的文本内容，往往难以处理需要用长文本来描述丰富和多样化的视觉内容的复杂场景。

本发明提出一种语义记忆指导的扩散网络，来用于图像到长文本的生成，本发明从视觉内容中捕获显著的语义，并通过记忆网络进一步处理和增强，从而促进文本生成过程。

发明内容

为解决上述技术问题，本发明提供一种结合记忆网络和扩散网络的图像到长文本生成方法，本发明使用语义概念在图像到文本生成过程中传输基本的语义信息，并通过语义记忆网络来增强语义概念表示，以提供精确地控制，引导扩散网络生成全面而连贯的长文本。

为解决上述技术问题，本发明采用如下技术方案：

一种结合记忆网络和扩散网络的图像到长文本生成方法，对于给定图像产生描述文本/>，具体包括以下步骤：

步骤一，利用视觉编码器提取图像的视觉特征/>：

；

其中，表示图像/>中的第/>个图像块，/>表示图像/>中的图像块数量，/>表示的是串联操作，/>表示视觉编码器；

步骤二，利用语义概念预测器处理视觉特征，得到图像/>的语义特征向量/>：

；

其中，表示语义概念预测器；

步骤三，通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强，得到加强语义特征向量；语义条件记忆网络包括/>个记忆向量/>；

记忆查询过程包括：将语义特征向量和记忆向量/>映射到同一语义空间，得到向量/>和向量/>：/>，/>，/>和/>为可学习的线性转换矩阵；计算向量/>和向量/>之间的距离/>：/>，/>表示各记忆向量的维度；计算重要性权重/>：/>；

记忆回应过程包括：将向量和语义特征向量/>映射到同一个语义空间，得到向量/>：/>，/>为可学习的线性转换矩阵；通过重要性权重/>得到回应向量表示/>：/>；通过回应向量/>和语义特征向量/>，得到要传递给扩散解码器的加强语义特征向量/>：/>，/>表示正则化操作；

步骤四：利用扩散解码器处理视觉特征和加强语义特征向量/>，生成描述文本。

进一步地，步骤四具体包括：

用高斯噪声初始化/>，并进行迭代降噪得到/>：

；

其中，表示总迭代次数，/>和/>分别表示在第/>次迭代和第/>次迭代时产生的特征向量，/>表示经过降噪过程产生的最终特征向量；

对进行解码操作，得到描述文本/>：

；

其中表示解码操作。

与现有技术相比，本发明的有益技术效果是：

1.本发明使用语义概念作为中间媒介，在图像到文本生成过程中传输语义信息，并利用语义概念预测器来捕获这些信息。

2.通过语义条件记忆网络，使用在最相关的记忆向量中存储的特定图像-文本相关信息来增强语义概念的表示，以提供对扩散网络精确的控制，促进长文本生成过程。

3.将外部语义引导整合到扩散网络，进一步提升扩散网络生成全面而连贯的长文本的能力。

附图说明

图1为本发明所采用的生成模型的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明的图像到长文本生成方法所采用的生成模型结构如图1所示，生成方法的任务是对于给定图像，生成图像的描述文本/>。对于该任务，本发明首先利用视觉编码器得到图像视觉表示向量，然后通过语义概念预测器和语义条件记忆网络捕获并增强图像中的语义信息，最后利用这些信息来指导扩散解码器生成全面而通畅的长文本。

下面对本发明进行详细介绍。

步骤一，利用视觉编码器提取图像的视觉特征/>：

；

其中，表示图像/>中的第/>个图像块，/>表示图像/>中的图像块数量，/>表示的是串联操作，/>表示视觉编码器。

本实施例中的视觉编码器，可以采用残差网络ResNet-101。

；

其中，表示语义概念预测器。

本实施例中的语义概念预测器，可以采用长短期记忆网络LSTM。

步骤三，应用语义条件记忆网络对语义特征向量进行处理来加强该特征，语义条件记忆网络包括一系列的记忆向量，记忆向量是语义条件记忆网络的参数，记为，用于表示记忆语义空间。语义条件记忆网络的处理流程主要由记忆查询过程和记忆回应过程组成。

记忆查询过程包括以下步骤：

S31：首先，通过两个学习到的线性转换矩阵和/>，将/>和/>映射到同一语义空间，得到相对应的向量/>和向量/>：

；

。

S32：计算向量和向量/>之间的距离/>，公式如下：

；

其中表示记忆向量的维度。

S33：通过以下公式计算重要性权重：

。

记忆回应过程包括以下步骤：

S34：首先，通过学习到的线性转换矩阵，将/>映射到和/>同一个语义空间，得到向量/>：

。

S35：然后通过重要性权重得到回应向量表示/>，公式如下：

。

S36：然后通过回应向量和语义特征向量/>，得到要传递给扩散解码器的加强语义特征向量/>：

；

其中表示正则化操作。

步骤四，利用扩散解码器处理视觉特征和加强语义特征向量/>，生成描述文本。

步骤四具体包括以下步骤：

S41：首先用高斯噪声初始化/>，其中/>表示迭代次数，并进行迭代降噪得到/>：

；

S42：将解码，得到描述文本/>：

；

其中表示解码操作。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种结合记忆网络和扩散网络的图像到长文本生成方法，对于给定图像产生描述文本/>，具体包括以下步骤：

步骤一，利用视觉编码器提取图像的视觉特征/>：

；

其中，表示语义概念预测器；

记忆回应过程包括：将向量和语义特征向量/>映射到同一个语义空间，得到向量/>：，/>为可学习的线性转换矩阵；通过重要性权重/>得到回应向量表示/>：；通过回应向量/>和语义特征向量/>，得到要传递给扩散解码器的加强语义特征向量/>：/>，/>表示正则化操作；

步骤四：利用扩散解码器处理视觉特征和加强语义特征向量/>，生成描述文本/>。

2.根据权利要求1所述的结合记忆网络和扩散网络的图像到长文本生成方法，其特征在于，步骤四具体包括：

用高斯噪声初始化/>，并进行迭代降噪得到/>：

；

对进行解码操作，得到描述文本/>：

；

其中表示解码操作。