CN116843030A

CN116843030A - 基于预训练语言模型的因果图像生成方法、装置及设备

Info

Publication number: CN116843030A
Application number: CN202311118770.1A
Authority: CN
Inventors: 李晓川; 李仁刚; 赵雅倩; 范宝余; 郭振华; 王丽
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-10-03
Anticipated expiration: 2043-09-01
Also published as: CN116843030B

Abstract

本发明公开了一种基于预训练语言模型的因果图像生成方法、装置及设备，涉及生成式人工智能技术领域，以解决因果图像难以生成的问题，该方法包括：获取待预测图像和问题文本；根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征；根据待预测图像和图文推理特征，利用图像生成器，生成因果推理图像；本发明通过根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征，利用预训练语言模型的因果推理能力，生成图文推理特征来指导图像生成器的图像生成计算，以弥补图像生成器不具备推理能力的缺陷，实现多模态输入的因果图像生成，从而能够以图像模态直观且具体地描述因果推理结果。

Description

基于预训练语言模型的因果图像生成方法、装置及设备

技术领域

本发明涉及生成式人工智能技术领域，特别涉及一种基于预训练语言模型的因果图像生成方法、装置、设备及计算机可读存储介质。

背景技术

随着AIGC（AI Generated Content，人工智能生成内容）研究成果的面世，人工智能内容生成逐渐成为AI（Artificial Intelligence，人工智能）领域研究热点。现有的研究工作大多局限在文本模态的内容生成任务中，对于其他模态的内容生成却鲜有人研究，比如图像；虽然有些研究尝试将图像作为输入并取得了不错的效果，但作为图像输出时，仅有一些SVG（Scalable Vector Graphics，可缩放矢量图形）表达的简笔画或涂鸦。

现有的AIGC正朝着如何让生成的图像内容更加逼真发展，这些生成的内容尽量多地囊括指示文本中的所有要求，并且呈现出更多逼真的细节，惊艳人的感官。然而，当指示文本中暗藏着潜在的因果逻辑时，如条件或对象间暗含某种关系，现有的图像生成模型很难理解，无法生成相应的因果图像。因此，如何能够解决因果图像难以生成的问题，以图像模态直观且具体地描述因果推理结果，是现今急需解决的问题。

发明内容

本发明的目的是提供一种基于预训练语言模型的因果图像生成方法、装置、设备及计算机可读存储介质，利用预训练语言模型实现多模态的因果图像生成，以图像模态直观且具体地描述因果推理结果。

为解决上述技术问题，本发明提供一种基于预训练语言模型的因果图像生成方法，包括：

获取待预测图像和问题文本；

根据所述待预测图像和所述问题文本，利用预训练语言模型编码器，得到图文推理特征；

根据所述待预测图像和所述图文推理特征，利用图像生成器，生成因果推理图像。

在一些实施例中，所述根据所述待预测图像和所述问题文本，利用预训练语言模型编码器，得到图文推理特征，包括：

获取所述待预测图像对应的图像特征和所述问题文本对应的文本嵌入特征；

根据所述图像特征和所述文本嵌入特征，利用所述预训练语言模型编码器，得到图文推理特征。

在一些实施例中，所述根据所述图像特征和所述文本嵌入特征，利用所述预训练语言模型编码器，得到图文推理特征，包括：

利用查询编码器，对所述图像特征和对象查询序列嵌入特征进行编码，得到对象查询序列编码特征；

对所述对象查询序列编码特征和所述文本嵌入特征进行组合，得到多模态嵌入特征；

利用所述预训练语言模型编码器，对所述多模态嵌入特征进行编码，得到所述图文推理特征。

在一些实施例中，所述利用查询编码器，对所述图像特征和对象查询序列嵌入特征进行编码，得到对象查询序列编码特征，包括：

将所述查询编码器中的第一个跨注意力层作为当前跨注意力层，利用当前跨注意力层，以初始化得到的所述对象查询序列嵌入特征为查询目标，对所述图文推理特征和所述对象查询序列嵌入特征进行编码，得到当前编码特征；

判断当前跨注意力层是否为所述查询编码器中的最后一个跨注意力层；

若是，则将当前编码特征确定为所述对象查询序列编码特征；

若否，则利用当前编码特征更新所述对象查询序列嵌入特征，将下一个当前跨注意力层作为当前跨注意力层，利用当前跨注意力层，以更新后的所述对象查询序列嵌入特征为查询目标，对所述图文推理特征和所述对象查询序列嵌入特征进行编码，得到当前编码特征，并执行所述判断当前跨注意力层是否为所述查询编码器中的最后一个跨注意力层的步骤。

在一些实施例中，所述对所述对象查询序列编码特征和所述文本嵌入特征进行组合，得到多模态嵌入特征，包括：

对所述对象查询序列编码特征和所述文本嵌入特征进行拼接，得到所述多模态嵌入特征。

在一些实施例中，所述获取所述待预测图像对应的图像特征和所述问题文本对应的文本嵌入特征，包括：

利用图像编码器对所述待预测图像进行特征提取，得到所述图像特征；

利用嵌入层对所述问题文本进行文本编码，得到所述文本嵌入特征。

在一些实施例中，所述根据所述待预测图像和所述图文推理特征，利用图像生成器，生成因果推理图像，包括：

利用因果预测编码对比编码器，对所述图文推理特征进行因果预测，得到预测特征；其中，所述因果预测编码对比编码器包括一个或两个全连接层；

根据所述预测特征和所述待预测图像，利用所述图像生成器，生成所述因果推理图像。

在一些实施例中，所述因果预测编码对比编码器包括第一全连接层和第二全连接层时，所述利用因果预测编码对比编码器，对所述图文推理特征进行因果预测，得到预测特征，包括：

利用所述第一全连接层，预测得到所述图文推理特征对应的直接预测特征；

利用所述第二全连接层，预测得到所述图文推理特征对应的间接预测特征；

对所述直接预测特征和所述间接预测特征进行组合，得到所述预测特征。

在一些实施例中，该方法还包括：所述因果预测编码对比编码器的训练过程；

对应的，所述因果预测编码对比编码器的训练过程，包括：

根据因果链训练集，利用对比学习优化模型，对所述因果预测编码对比编码器中的参数进行调整；其中，所述因果链训练集包括训练输入特征和每个所述训练输入特征各自对应的因果链特征。

在一些实施例中，所述因果预测编码对比编码器包括一个全连接层时，所述根据因果链训练集，利用对比学习优化模型，对所述因果预测编码对比编码器中的参数进行调整，包括：

利用所述因果预测编码对比编码器的全连接层，对当前训练输入特征进行因果预测，得到训练预测特征；其中，当前训练输入特征为任一所述训练输入特征；

从当前训练输入特征对应的因果链特征中选择第一预设数量的正样本，并计算所述训练预测特征与每个所述正样本的第一距离；

从其他训练输入特征对应的因果链特征中选择第二预设数量的负样本，并计算所述训练预测特征与每个所述负样本的第二距离；其中，所述其他训练输入特征为所述因果链训练集中当前训练输入特征之外的训练输入特征；

根据所述第一距离和所述第二距离，确定所述对比学习优化模型的调优目标；

按照所述调优目标，利用所述对比学习优化模型，对所述因果预测编码对比编码器中的参数进行调整。

在一些实施例中，所述根据所述第一距离和所述第二距离，确定所述对比学习优化模型的调优目标，包括：

将所述调优目标确定为目标第二距离与目标第一距离之差大于0；其中，所述目标第二距离为所述第二距离中的最小值，所述目标第一距离为所述第二距离中的最大值。

在一些实施例中，所述因果预测编码对比编码器包括第一全连接层和第二全连接层时，所述根据因果链训练集，利用对比学习优化模型，对所述因果预测编码对比编码器中的参数进行调整，包括：

利用所述第一全连接层，预测得到当前训练输入特征对应的训练直接预测特征；其中，当前训练输入特征为任一所述训练输入特征；

利用所述第二全连接层，预测得到当前训练输入特征对应的训练间接预测特征；

从当前训练输入特征对应的因果链特征中选择第一因果链特征作为直接预测正样本，并选择第三预设数量的非第一因果链特征作为间接预测正样本；

从目标其他训练输入特征对应的因果链特征中选择第一因果链特征作为直接预测负样本，从每个所述目标其他训练输入特征选择非第一因果链特征作为间接预测负样本；

根据所述训练直接预测特征、所述训练间接预测特征、所述直接预测正样本、所述间接预测正样本、所述直接预测负样本和所述间接预测负样本，利用确定所述对比学习优化模型的调优目标；

按照所述调优目标，利用所述对比学习优化模型，对所述第一全连接层和所述第二全连接层中的参数进行调整。

在一些实施例中，所述根据所述训练直接预测特征、所述训练间接预测特征、所述直接预测正样本、所述间接预测正样本、所述直接预测负样本和所述间接预测负样本，利用确定所述对比学习优化模型的调优目标，包括：

将所述训练直接预测特征与所述训练间接预测特征组合，得到训练预测特征；

将所述直接预测正样本分别与每个所述间接预测正样本组合，得到训练预测正样本特征；

将各所述直接预测负样本分别与各自对应的间接预测负样本组合，得到训练预测负样本特征；

计算训练预测特征与每个所述训练预测正样本特征之间的第三距离；

计算训练预测特征与每个所述训练预测负样本特征之间的第四距离；

根据所述第三距离和所述第四距离，确定所述对比学习优化模型的调优目标。

计算所述训练直接预测特征与所述直接预测正样本之间的第五距离；

计算所述训练直接预测特征与每个所述直接预测负样本之间的第六距离；

计算所述训练间接预测特征与每个所述间接预测正样本之间的第七距离；

计算所述训练间接预测特征与每个所述间接预测正样本之间的第八距离；

根据所述第五距离和所述第六距离，确定所述对比学习优化模型的第一调优目标；并根据所述第七距离和所述第八距离，确定所述对比学习优化模型的第二调优目标；其中，所述调优目标包括所述第一调优目标和所述第二调优目标；

对应的，所述按照所述调优目标，利用所述对比学习优化模型，对所述第一全连接层和所述第二全连接层中的参数进行调整，包括：

按照所述第一调优目标和所述第二调优目标，利用所述对比学习优化模型，分别对所述第一全连接层和所述第二全连接层中的参数进行调整。

在一些实施例中，所述根据所述预测特征和所述待预测图像，利用所述图像生成器，生成所述因果推理图像，包括：

利用隐空间翻译模型，对所述预测特征进行翻译，得到隐空间指导特征；

根据所述隐空间指导特征和所述待预测图像，利用所述图像生成器，生成所述因果推理图像。

在一些实施例中，所述利用隐空间翻译模型，对所述预测特征进行翻译，得到隐空间指导特征，包括：

利用所述隐空间翻译模型中的第一翻译全连接层和第二翻译全连接层，分别对所述预测特征中的单词级特征和句子级特征进行翻译，得到单词级翻译特征和句子级翻译特征；

对所述单词级翻译特征和句子级翻译特征进行组合，得到翻译组合特征；

利用所述隐空间翻译模型中的第三翻译全连接层，对所述翻译组合特征映射到预设特征尺寸，得到所述隐空间指导特征。

在一些实施例中，所述利用所述隐空间翻译模型中的第一翻译全连接层和第二翻译全连接层，分别对所述预测特征中的单词级特征和句子级特征进行翻译，得到单词级翻译特征和句子级翻译特征，包括：

对所述预测特征进行拆分，得到所述单词级特征和所述句子级特征；

利用所述第一翻译全连接层，对所述单词级特征进行翻译，得到所述单词级翻译特征；

利用所述第二翻译全连接层，对所述句子级特征进行翻译，得到所述句子级翻译特征。

利用隐空间翻译模型，对所述图文推理特征进行翻译，得到隐空间指导特征；

本发明还提供了一种基于预训练语言模型的因果图像生成装置，包括：

多模态获取模块，用于获取待预测图像和问题文本；

编码预测模块，用于根据所述待预测图像和所述问题文本，利用预训练语言模型编码器，得到图文推理特征；

图像预测模块，用于根据所述待预测图像和所述图文推理特征，利用图像生成器，生成因果推理图像。

本发明还提供了一种基于预训练语言模型的因果图像生成设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的基于预训练语言模型的因果图像生成方法的步骤。

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的基于预训练语言模型的因果图像生成方法的步骤。

本发明所提供的一种基于预训练语言模型的因果图像生成方法，包括：获取待预测图像和问题文本；根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征；根据待预测图像和图文推理特征，利用图像生成器，生成因果推理图像；

可见，本发明通过根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征，利用预训练语言模型的因果推理能力，生成图文推理特征来指导图像生成器的图像生成计算，以弥补图像生成器不具备推理能力的缺陷，实现多模态输入的因果图像生成，从而能够以图像模态直观且具体地描述因果推理结果，提升用户体验。此外，本发明还提供了一种基于预训练语言模型的因果图像生成装置、设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种基于预训练语言模型的因果图像生成方法的流程图；

图2为本发明实施例所提供的一种基于预训练语言模型的答案指导的因果图像内容生成范式的示意图；

图3为本发明实施例所提供的另一种基于预训练语言模型的答案指导的因果图像内容生成范式的示意图；

图4为本发明实施例所提供的另一种基于预训练语言模型的因果图像生成方法的流程图；

图5为本发明实施例所提供的另一种基于预训练语言模型的因果图像生成方法的流程图；

图6为本发明实施例所提供的另一种基于预训练语言模型的因果图像生成方法的流程示意图；

图7为本发明实施例所提供的另一种基于预训练语言模型的因果图像生成方法的翻译过程的示意图；

图8为本发明实施例所提供的一种基于预训练语言模型的因果图像生成装置的结构框图；

图9为本发明实施例所提供的一种基于预训练语言模型的因果图像生成设备的简易结构示意图；

图10为本发明实施例所提供的一种基于预训练语言模型的因果图像生成设备的具体结构示意图；

图11为本发明实施例所提供的一种计算机可读存储介质的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的一种基于预训练语言模型的因果图像生成方法的流程图。该方法可以包括：

步骤101：获取待预测图像和问题文本。

可以理解的是，本实施例中的待预测图像可以为需要进行图像内容预测生成的图像，即图像模态的输入；本实施例中的问题文本可以为需要配合待预测图像进行图像内容预测生成的文本，即文本模态的输入。也就是说，本实施例中处理器可以对输入的图像模态的待预测图像和该待预测图像对应的文本模态的问题文本进行图像内容预测生成，得到因果图像。

对应的，对于本步骤中待预测图像和问题文本的具体内容，可以由设计人员根据实用场景和用户需求自行设置，如待预测图像和问题文本可以为用户分别输入的图像和文本；例如，处理器利用聊天机器人程序接收到的用户发送的图像和文本。问题文本也可以为待检测图像上批注的文本；例如，处理器可以接收待预测图像，对待预测图像上的文字进行提取或识别，得到问题文本。本实施例对此不做任何限制。

步骤102：根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征。

需要说明的是，本实施例中的预训练语言模型编码器可以为预训练语言模型的编码器，即采用预训练语言模型的编码器。预训练语言模型是一种机器学习技术，其通过对大量的文本数据进行预训练，从而学习到语言的规律和语义信息，并将这些知识编码成一个可用于自然语言处理任务的模型。对于本实施例中的预训练语言模型编码器的具体类型，即所采用的预训练语言模型的具体模型类型，可以由设计人员自行设置，如本实施例中预训练语言模型可以为采用基于注意力机制的模型（即Transformer模型）；即预训练语言模型编码器可以为Transformer模型编码器。

也就是说，本实施例中考虑到图像生成器对于内容推理的局限，即因果图像生成除考察图像生成器能否生成逼真的图像外，还需考察模型是否具备因果推理的能力；因此，本实施例中在图像生成器前设置了预训练语言模型编码器作为因果推理模型，用来生成文本形式的推理结果（即图文推理特征），从而以图文推理特征指导图像生成器的图像生成计算。

对应的，本实施例中处理器可以利用预训练语言模型编码器，待预测图像和问题文本进行编码处理，得到待预测图像和问题文本对应的多模态特征（即图文编码特征）。对于本步骤中处理器根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如处理器可以直接利用预训练语言模型编码器对预测图像和问题文本进行编码，得到图文编码特征。考虑到大多数预训练语言模型编码器的输入为纯文本，如图2和图3所示，本实施例中可以在预训练语言模型编码器之前设置模态适配器，以因对本实施例中文本和图像的多模态输入；例如，本步骤中处理器可以获取待预测图像对应的图像特征和问题文本对应的文本嵌入特征；根据图像特征和文本嵌入特征，利用预训练语言模型编码器，得到图文推理特征。

举例来说，模态适配器可以包括图像编码器和嵌入（embedding）层，处理器可以利用图像编码器对待预测图像进行特征提取，得到图像特征；利用嵌入层对问题文本进行文本编码，得到文本嵌入特征。

相应的，对于上述处理器根据图像特征和文本嵌入特征，利用预训练语言模型编码器，得到图文推理特征的具体方式，可以由设计人员根据使用场景和用户需求自行设置，如处理器可以直接对图像特征和文本嵌入特征进行组合，得到图文组合特征；利用预训练语言模型编码器，对图文组合特征进行编码，得到图文推理特征。为了提高预训练语言模型编码器的因果推理能力，处理器也可以利用查询编码器（Querying Transformer，Q-Former），对图像特征和对象查询序列嵌入特征进行编码，得到对象查询序列编码特征；对对象查询序列编码特征和文本嵌入特征进行组合，得到多模态嵌入特征；利用预训练语言模型编码器，对多模态嵌入特征进行编码，得到图文推理特征；也就是说，模态适配器还可以包括查询编码器。本实施例对此不做任何限制。

步骤103：根据待预测图像和图文推理特征，利用图像生成器，生成因果推理图像。

可以理解的是，本实施例中的图像生成器可以为用于生成图像内容的模型。本实施例中的因果推理图像可以为推理得到的与待预测图像和问题文本存在因果关系的图像（即因果图像），如待预测图像和问题文本对应的答案内容的图像。本步骤中处理器可以根据待预测图像和预训练语言模型编码器输出的图文推理特征，利用图文推理特征指导图像生成器生成待预测图像对应的因果推理图像（即因果图像），实现多模态输入的因果图像生成。

对应的，对于本实施例中的图像生成器的具体类型，可以由设计人员自行设置，如本实施例中的图像生成器可以采用扩散模型（Diffusion Model）；也可以采用其他图像生成模型，只要处理器根据待预测图像和图文推理特征，利用图像生成器，生成相应的图像内容（即因果推理图像），本实施例对此不做任何限制。

需要说明的是，对于本实施例中处理器根据待预测图像和图文推理特征，利用图像生成器，生成因果推理图像的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如处理器可以直接使用待预测图像和图文推理特征，通过图像生成器，生成因果推理图像；即处理器可以直接将待预测图像和图文推理特征输入到图像生成器，得到图像生成器输出的图像（即因果推理图像）。为了提高因果推理图像的推理准确性，本步骤中处理器可以利用因果预测编码对比编码器，对图文推理特征进行因果预测，得到预测特征；根据预测特征和待预测图像，利用图像生成器，生成因果推理图像；其中，因果预测编码对比编码器包括一个或两个全连接层。

进一步的，如图2和图3所示，处理器可以直接使用预训练语言模型编码器输出的图文推理特征（回答文本）或图文推理特征对应的预测特征，指导图像生成器对待预测图像对应的因果推理图像（回答图像）的生成，即采用图文推理特征或预测特征直接作为图像生成器的输入。由于直接采用图文推理特征或预测特征直接作为图像生成器的输入，这样的输入大多并不能直接被图像生成器所识别，需要使用大量的数据去训练，使图像生成器能够识别输入的图文推理特征或预测特征；因此，为了减少训练过程，节约成本提高能效，本实施例中可以在图像生成器之前设置隐空间翻译模型，从而使处理器可以利用隐空间翻译模型，对图文推理特征或预测特征进行翻译，得到隐空间指导特征；根据隐空间指导特征和待预测图像，利用图像生成器，生成因果推理图像。

本实施例中，本发明实施例通过根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征，利用预训练语言模型的因果推理能力，生成图文推理特征来指导图像生成器的图像生成计算，以弥补图像生成器不具备推理能力的缺陷，实现多模态输入的因果图像生成，从而能够以图像模态直观且具体地描述因果推理结果，提升用户体验。

基于上述实施例，本发明还提供了另一种基于预训练语言模型的因果图像生成方法。具体的，请参考图4，图4为本发明实施例所提供的另一种基于预训练语言模型的因果图像生成方法的流程图。该方法可以包括：

步骤201：获取待预测图像和问题文本。

其中，本步骤与步骤101相似，在此不再赘述。

步骤202：获取待预测图像对应的图像特征和问题文本对应的文本嵌入特征。

可以理解的是，本步骤中处理器可以依次或分别对待预测图像和问题文本的特征进行提取，得到待预测图像对应的图像特征和问题文本对应的文本嵌入特征。例如，处理器可以利用图像编码器对待预测图像进行特征提取，得到图像特征；利用嵌入层对问题文本进行文本编码，得到文本嵌入特征。

需要说明的是，本实施例并不限定上述图像编码器的具体类型，如可以采用与现有技术中提取图像特征的图像编码器相同或相似的方式进行设置，如图像编码器可以为采用VIT（Vision Transformer，一种图像分类模型）结构，也可以采用如CNN（convolutionalneural network，卷积神经网络）结构或BUTD（Bottom-Up and Top-Down Attention，注意力自上而下和自下而上）的其他骨干网络结构。

步骤203：利用查询编码器，对图像特征和对象查询序列嵌入特征进行编码，得到对象查询序列编码特征。

可以理解的是，本实施例中处理器可以利用查询编码器（Q-former），对图像特征和对象查询序列嵌入特征进行交互编码，得到对象查询序列编码特征，以利用对象查询序列编码特征代替图像特征与文本嵌入特征进行组合，提高预训练语言模型编码器的推理能力。

对应的，本实施例中可以预设一组对象查询序列，并将其嵌入为维度为预设维度d的特征（如图6中查询编码器上方的方格序列），记为对象查询序列嵌入特征；预设维度d可以为图像特征和文本嵌入特征的维度；即处理器可以在本步骤之前初始化得到对象查询序列嵌入特征。本步骤中的查询编码器可以包括多个级联的跨注意力层，每个跨注意力层的公式可以为：

；

上式中，可以为跨注意力层的输出，f可以为初始或上一个跨注意力层输出的对象查询序列嵌入特征，g可以为图像特征，/>可以为图像特征的维度，W _q、W _k和W _v分别可以为预设权重。也就是说，处理器可以利用查询编码器中的多个跨注意力层，以对象查询序列嵌入特征为查询目标，与图像特征进行多次交互编码。

其中，本步骤中处理器可以将查询编码器中的第一个跨注意力层作为当前跨注意力层，利用当前跨注意力层，以初始化得到的对象查询序列嵌入特征为查询目标，对图文推理特征和对象查询序列嵌入特征进行编码，得到当前编码特征；判断当前跨注意力层是否为查询编码器中的最后一个跨注意力层；若是，则将当前编码特征确定为对象查询序列编码特征；若否，则利用当前编码特征更新对象查询序列嵌入特征，将下一个当前跨注意力层作为当前跨注意力层，利用当前跨注意力层，以更新后的对象查询序列嵌入特征为查询目标，对图文推理特征和对象查询序列嵌入特征进行编码，得到当前编码特征，并执行判断当前跨注意力层是否为查询编码器中的最后一个跨注意力层的步骤，直至当前跨注意力层为查询编码器中的最后一个跨注意力层，输出对象查询序列嵌入特征。

进一步的，本实施例所提供的方法还可以包括查询编码器的训练过程，以对查询编码器中跨注意力层的参数（如上述W _q、W _k和W _v）进行调整。

步骤204：对对象查询序列编码特征和文本嵌入特征进行组合，得到多模态嵌入特征。

其中，本实施例中并不限定对象查询序列编码特征和文本嵌入特征的具体组合方式，如处理器可以直接对对象查询序列编码特征和文本嵌入特征进行拼接，得到多模态嵌入特征。

步骤205：利用预训练语言模型编码器，对多模态嵌入特征进行编码，得到图文推理特征。

其中，本步骤中处理器可以将多模态嵌入特征输入到预训练语言模型编码器，得到预训练语言模型编码器输出的图文推理特征；如图6所示，处理器可以将多模态嵌入特征输入到预训练语言模型编码器，得到预训练语言模型编码器输出的图文推理特征，以输入到因果预测编码对比编码器（预测编码）进行因果预测。

步骤206：利用因果预测编码对比编码器，对图文推理特征进行因果预测，得到预测特征；其中，因果预测编码对比编码器包括一个或两个全连接层。

可以理解的是，预测编码对比（Contrast Predictive Coding，CPC）是一种常用的预测编码方法，语音或其他有序片段被输入到CPC编码器中提取有序的特征，并使该特征具有一定的时序预测的能力；在CPC编码器中，该特征被输入到k个同构不同参的预测编码网络中，得到该片段后k个时刻的预测特征，以这种方式诱导潜在空间来捕捉对预测未来样本有用的信息；最终，CPC编码器通过约束预测特征与同一批训练样本中对应时刻的真实值来优化模型参数。

然而，CPC这种预测编码适用的时序样本是匀速的。换言之，序列中任意相邻帧之间的距离相同，如语音或视频序列中的固定的时间间隔；但这种匀速在因果推理中不存在。由于无法保证因果链的相邻节点之间表达的都是一个等量的推理步骤；例如，假设一个因果链“老鼠攻击了狗的脚”→“狗感到疼痛”→“狗露出疼痛的表情”，这是合理的；但是如果删除中间节点：“老鼠攻击了狗的脚”→“狗露出疼痛的表情”，这可能也是合理的。不同人对推理的表达是不一样的，使得因果链不具备匀速性；所以，常规的CPC结构不适用于本实施例。

对应的，本实施例提供了因果预测编码对比（Contrast Causal PredictiveCoding，CCPC）编码器，可以将CPC中若干个并列的全连接层调整为1个，仅用来编码二者之间是否存在因果关系；即本步骤中处理器可以直接利用因果预测编码对比编码器中的1个全连接层，预测得到图文推理特征对应的预测特征。

进一步的，由于因果链可能过长，导致预测对于传递过久的两个节点之间的因果关系较弱，本实施例中也可以将因果预测编码对比编码器中的1个全连接层调整为2个，即第一全连接层和第二全连接层；相应的，本步骤中处理器可以利用第一全连接层，预测得到图文推理特征对应的直接预测特征；利用第二全连接层，预测得到图文推理特征对应的间接预测特征；对直接预测特征和间接预测特征进行组合（如拼接），得到预测特征。

进一步的，本实施例所提供的方法还可以包括因果预测编码对比编码器的训练过程的训练过程，如根据因果链训练集，利用对比学习优化模型，对因果预测编码对比编码器中的参数进行调整；其中，因果链训练集包括训练输入特征和每个训练输入特征各自对应的因果链特征。例如，本实施例中可以在计算损失时，从当前样本的因果链中抽取节点（即因果链特征）作为正样本，并从其他样本采样出若干节点作为负样本，并使用对比学习优化模型调整因果预测编码对比编码器中全连接层的参数（如权重和偏置等）。

可以理解的是，上述因果链训练集可以为用于训练因果预测编码对比编码器的数据集，如单独对因果预测编码对比编码器进行训练时，因果链训练集中的训练输入特征可以为预先设置的训练用的输入到因果预测编码对比编码器的特征。对本实施例中的查询编码器（Q-Former）和因果预测编码对比编码器进行联合训练时，处理器可以根据联合训练数据集，利用对比学习优化模型，对查询编码器和因果预测编码对比编码器中的参数进行调整；其中，联合训练数据集包括训练输入数据对和每个训练输入数据对各自对应的因果链特征；训练输入数据对可以包括一对训练输入图像和训练输入问题文本；也就是说，查询编码器和因果预测编码对比编码器的训练过程可以将一对训练输入数据对经由图像编码、查询编码器、预训练语言模型编码器和因果预测编码对比编码器（如图6中的预测编码）处理后，得到因果预测编码对比编码器输出的训练预测特征，通过训练预测特征与因果链特征的比较，调整查询编码器和因果预测编码对比编码器中的参数；即因果链训练集中的训练输入特征可以为预训练语言模型编码器输出的训练输入数据对对应的特征。联合训练数据集还可以包括每个训练输入数据对各自对应的对象查询序列编码训练特征，以分别利用查询编码器输出的训练输入数据对对应的对象查询序列编码预测特征与对象查询序列编码训练特征的比较和训练预测特征与因果链特征的比较，调整查询编码器和因果预测编码对比编码器中的参数。

对应的，对于上述处理器根据因果链训练集，利用对比学习优化模型，对因果预测编码对比编码器中的参数进行调整的具体方式，可以由设计人员自行设置，如因果预测编码对比编码器中全连接层的数量为1时，处理器利用因果预测编码对比编码器的全连接层，对当前训练输入特征进行因果预测，得到训练预测特征；其中，当前训练输入特征为任一训练输入特征；从当前训练输入特征对应的因果链特征中选择第一预设数量的正样本，并计算训练预测特征与每个正样本的第一距离；从其他训练输入特征对应的因果链特征中选择第二预设数量的负样本，并计算训练预测特征与每个负样本的第二距离；其中，其他训练输入特征为因果链训练集中当前训练输入特征之外的训练输入特征；根据第一距离和第二距离，确定对比学习优化模型的调优目标；按照调优目标，利用对比学习优化模型，对因果预测编码对比编码器中的参数（如全连接层的参数）进行调整。

相应的，上述根据第一距离和第二距离，确定对比学习优化模型的调优目标的具体方式，可以由设计人员自行设置，如处理器可以将调优目标确定为目标第二距离与目标第一距离之差大于0；其中，目标第二距离为第二距离中的最小值，目标第一距离为第二距离中的最大值。处理器也可以将调优目标确定为第二距离的平均值与第一距离的平均值之差大于0；本实施例对此不做任何限制。

对应的，因果预测编码对比编码器中全连接层的两个并列的全连接层（即第一全连接层和第二全连接层）时，处理器利用第一全连接层，预测得到当前训练输入特征对应的训练直接预测特征；其中，当前训练输入特征为任一训练输入特征；利用第二全连接层，预测得到当前训练输入特征对应的训练间接预测特征；从当前训练输入特征对应的因果链特征中选择第一因果链特征作为直接预测正样本，并选择第三预设数量的非第一因果链特征作为间接预测正样本；从目标其他训练输入特征对应的因果链特征中选择第一因果链特征作为直接预测负样本，从每个目标其他训练输入特征选择非第一因果链特征作为间接预测负样本；根据训练直接预测特征、训练间接预测特征、直接预测正样本、间接预测正样本、直接预测负样本和间接预测负样本，利用确定对比学习优化模型的调优目标；按照调优目标，利用对比学习优化模型，对第一全连接层和第二全连接层中的参数进行调整。

相应的，上述根据训练直接预测特征、训练间接预测特征、直接预测正样本、间接预测正样本、直接预测负样本和间接预测负样本，利用确定对比学习优化模型的调优目标的具体方式，可以由设计人员自行设置，如处理器可以将训练直接预测特征与训练间接预测特征作为整体，同时训练调整第一全连接层和第二全连接层中的参数；例如处理器可以将训练直接预测特征与训练间接预测特征组合，得到训练预测特征；将直接预测正样本分别与每个间接预测正样本组合，得到训练预测正样本特征；将各直接预测负样本分别与各自对应的间接预测负样本组合，得到训练预测负样本特征；计算训练预测特征与每个训练预测正样本特征之间的第三距离；计算训练预测特征与每个训练预测负样本特征之间的第四距离；根据第三距离和第四距离，确定对比学习优化模型的调优目标。处理器也可以分别训练调整第一全连接层和第二全连接层中的参数，例如处理器可以计算训练直接预测特征与直接预测正样本之间的第五距离；计算训练直接预测特征与每个直接预测负样本之间的第六距离；计算训练间接预测特征与每个间接预测正样本之间的第七距离；计算训练间接预测特征与每个间接预测正样本之间的第八距离；根据第五距离和第六距离，确定对比学习优化模型的第一调优目标；并根据第七距离和第八距离，确定对比学习优化模型的第二调优目标；其中，调优目标包括第一调优目标和第二调优目标；对应的，上述按照调优目标，利用对比学习优化模型，对第一全连接层和第二全连接层中的参数进行调整的过程，可以为按照第一调优目标和第二调优目标，利用对比学习优化模型，分别对第一全连接层和第二全连接层中的参数进行调整。

步骤207：根据预测特征和待预测图像，利用图像生成器，生成因果推理图像。

可以理解的是，本步骤中处理器可以将预测特征和待预测图像输入到图像生成器，得到因果推理图像输出的因果推理图像，实现如图2所示的基于预训练语言模型的答案指导的因果图像内容生成范式。

本实施例中，本发明实施例通过查询编码器和因果预测编码对比编码器的使用，提高了因果推理图像的准确性。

基于上述实施例，本发明还提供了另一种基于预训练语言模型的因果图像生成方法。具体的，请参考图5，图5为本发明实施例所提供的另一种基于预训练语言模型的因果图像生成方法的流程图。该方法可以包括：

步骤301：获取待预测图像和问题文本。

步骤302：获取待预测图像对应的图像特征和问题文本对应的文本嵌入特征。

步骤303：利用查询编码器，对图像特征和对象查询序列嵌入特征进行编码，得到对象查询序列编码特征。

步骤304：对对象查询序列编码特征和文本嵌入特征进行组合，得到多模态嵌入特征。

步骤305：利用预训练语言模型编码器，对多模态嵌入特征进行编码，得到图文推理特征。

步骤306：利用因果预测编码对比编码器，对图文推理特征进行因果预测，得到预测特征；其中，因果预测编码对比编码器包括一个或两个全连接层。

需要说明的是，本实施例中的步骤301至步骤306与上一实施例中的步骤201至步骤206相似，在此不再赘述。

步骤307：利用隐空间翻译模型，对预测特征进行翻译，得到隐空间指导特征。

可以理解的是，如图3所示，本实施例中可以在图2所示的答案指导的因果图像内容生成范式的基础上，利用隐空间翻译（Latent Space Translation，LST）模型，将预训练语言模型编码器输出的图文推理特征对应的预测特征翻译为图像生成器能够识别的隐式空间中的特征（即隐空间指导特征），如图6中的隐空间翻译的过程。

对应的，对于本步骤中处理器利用隐空间翻译模型，对预测特征进行翻译，得到隐空间指导特征的具体方式，可以由设计人员自行设置，如处理器可以利用隐空间翻译模型中的第一翻译全连接层和第二翻译全连接层，分别对预测特征中的单词级特征和句子级特征进行翻译，得到单词级翻译特征和句子级翻译特征；对单词级翻译特征和句子级翻译特征进行组合，得到翻译组合特征；利用隐空间翻译模型中的第三翻译全连接层，对翻译组合特征映射到预设特征尺寸，得到隐空间指导特征。

相应的，上述处理器利用隐空间翻译模型中的第一翻译全连接层和第二翻译全连接层，分别对预测特征中的单词级特征和句子级特征进行翻译，得到单词级翻译特征和句子级翻译特征的过程可以包括：对预测特征进行拆分，得到单词级特征和句子级特征；利用第一翻译全连接层，对单词级特征进行翻译，得到单词级翻译特征；利用第二翻译全连接层，对句子级特征进行翻译，得到句子级翻译特征。

如图7所示，图7中的单词级特征和句子级特征可以分别为预测特征中的单词级的理解（Tokens of Sent）和句子级的理解；在预训练语言模型编码器中，会设置一位特殊的token（理解）用来表示句子级的理解（即句子级特征）；如这一位token可以放置与句子的最后，因此常被标识为EOS（End of Sentence）；类似的，也可以将其置于开始位置，因此可以标识为BOS（Begin of Sentence）。由于句子级的理解（EOS）和单词级的理解（Tokens ofSent）是不一样的，使得网络对每个单词的和整个句子的翻译方法也存在差异；因此，如图7所示，本实施例中采用不同的全连接层（全连接层1和2）去计算不同级别特征的语义，并最终采用同一个全连接层3将这些语义映射到图像生成器所能识别的预设特征尺寸上并输入到后续的图像生成器中；也就是说，预训练语言模型编码器输出的图文推理特征对应的预测特征被按照文本的对应位置拆为两份，然后分别经过不同的全连接层1和2（即第一翻译全连接层和第二翻译全连接层），翻译成单词级翻译特征和句子级翻译特征，最后再过一个新的全连接层3，得到最终的隐空间指导特征。

进一步的，本实施例所提供的方法还可以包括隐空间翻译模型的训练过程，以对隐空间翻译模型中全连接层的参数（如权重和偏置等）进行调整。例如，本实施例中可以对查询编码器（Q-Former）、因果预测编码对比编码器和隐空间翻译模型进行联合训练，即处理器可以根据联合训练数据集，利用对比学习优化模型，对查询编码器、因果预测编码对比编码器和隐空间翻译模型中的参数进行调整；其中，联合训练数据集包括训练输入数据对和每个训练输入数据对各自对应的对象查询序列编码训练特征、因果链特征及翻译结果特征；训练输入数据对可以包括一对训练输入图像和训练输入问题文本；也就是说，查询编码器和因果预测编码对比编码器的训练过程可以将一对训练输入数据对经由图像编码、查询编码器、预训练语言模型编码器、因果预测编码对比编码器和隐空间翻译模型处理后，得到隐空间翻译模型输出的翻译训练预测特征，分别通过查询编码器输出的该训练输入数据对对应的对象查询序列编码预测特征与对象查询序列编码训练特征的比较、因果预测编码对比编码器输出的训练预测特征与因果链特征的比较以及翻译训练预测特征与翻译结果特征的比较，可以调整查询编码器、因果预测编码对比编码器和隐空间翻译模型中的参数。

步骤308：根据隐空间指导特征和待预测图像，利用图像生成器，生成因果推理图像。

可以理解的是，本步骤中处理器可以将隐空间指导特征和待预测图像输入到图像生成器，得到因果推理图像输出的因果推理图像，实现如图3所示的基于预训练语言模型的隐空间特征指导的因果图像内容生成范式。

本实施例中，本发明实施例通过利用隐空间翻译模型，对预测特征进行翻译，将预测特征翻译为图像生成器能够识别的隐空间指导特征，避免了使用大量的数据训练过程，使图像生成器能够识别翻译后的预测特征，节约了时间成本。

相应于上面的方法实施例，本发明实施例还提供了一种基于预训练语言模型的因果图像生成装置，下文描述的一种基于预训练语言模型的因果图像生成装置与上文描述的一种基于预训练语言模型的因果图像生成方法可相互对应参照。

请参考图8，图8为本发明实施例所提供的一种基于预训练语言模型的因果图像生成装置的结构框图。该装置可以包括：

多模态获取模块10，用于获取待预测图像和问题文本；

编码预测模块20，用于根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征；

图像预测模块30，用于根据待预测图像和图文推理特征，利用图像生成器，生成因果推理图像。

在一些实施例中，编码预测模块20可以包括：

特征提取子模块，用于获取待预测图像对应的图像特征和问题文本对应的文本嵌入特征；

编码预测子模块，用于根据图像特征和文本嵌入特征，利用预训练语言模型编码器，得到图文推理特征。

在一些实施例中，编码预测子模块可以包括：

查询编码单元，用于利用查询编码器，对图像特征和对象查询序列嵌入特征进行编码，得到对象查询序列编码特征；

多模态组合单元，用于对对象查询序列编码特征和文本嵌入特征进行组合，得到多模态嵌入特征；

编码预测单元，用于利用预训练语言模型编码器，对多模态嵌入特征进行编码，得到图文推理特征。

在一些实施例中，查询编码单元可以包括：

跨注意力层编码子单元，用于将查询编码器中的第一个跨注意力层作为当前跨注意力层，利用当前跨注意力层，以初始化得到的对象查询序列嵌入特征为查询目标，对图文推理特征和对象查询序列嵌入特征进行编码，得到当前编码特征；

判断子单元，用于判断当前跨注意力层是否为查询编码器中的最后一个跨注意力层；若为查询编码器中的最后一个跨注意力层，则将当前编码特征确定为对象查询序列编码特征；

更新编码子单元，用于若不为查询编码器中的最后一个跨注意力层，则利用当前编码特征更新对象查询序列嵌入特征，将下一个当前跨注意力层作为当前跨注意力层，利用当前跨注意力层，以更新后的对象查询序列嵌入特征为查询目标，对图文推理特征和对象查询序列嵌入特征进行编码，得到当前编码特征，并向判断子单元发送启动信号。

在一些实施例中多模态组合单元可以具体用于对对象查询序列编码特征和文本嵌入特征进行拼接，得到多模态嵌入特征。

在一些实施例中，特征提取子模块可以包括：

图像编码单元，用于利用图像编码器对待预测图像进行特征提取，得到图像特征；

文本嵌入单元，用于利用嵌入层对问题文本进行文本编码，得到文本嵌入特征。

在一些实施例中，图像预测模块30可以包括：

对比预测子模块，用于利用因果预测编码对比编码器，对图文推理特征进行因果预测，得到预测特征；其中，因果预测编码对比编码器包括一个或两个全连接层；

图像生成子模块，用于根据预测特征和待预测图像，利用图像生成器，生成因果推理图像。

在一些实施例中，因果预测编码对比编码器包括第一全连接层和第二全连接层时，对比预测子模块介意包括：

直接预测单元，用于利用第一全连接层，预测得到图文推理特征对应的直接预测特征；

间接预测单元，用于利用第二全连接层，预测得到图文推理特征对应的间接预测特征；

预测组合单元，用于对直接预测特征和间接预测特征进行组合，得到预测特征。

在一些实施例中，该装置还可以包括：

训练模块，用于训练因果预测编码对比编码器；

对应的，训练模块可以具体用于根据因果链训练集，利用对比学习优化模型，对因果预测编码对比编码器中的参数进行调整；其中，因果链训练集包括训练输入特征和每个训练输入特征各自对应的因果链特征。

在一些实施例中，因果预测编码对比编码器包括一个全连接层时，训练模块可以包括：

训练预测子模块，用于利用因果预测编码对比编码器的全连接层，对当前训练输入特征进行因果预测，得到训练预测特征；其中，当前训练输入特征为任一训练输入特征；

正样本计算子模块，用于从当前训练输入特征对应的因果链特征中选择第一预设数量的正样本，并计算训练预测特征与每个正样本的第一距离；

负样本计算子模块，用于从其他训练输入特征对应的因果链特征中选择第二预设数量的负样本，并计算训练预测特征与每个负样本的第二距离；其中，其他训练输入特征为因果链训练集中当前训练输入特征之外的训练输入特征；

目标确定子模块，用于根据第一距离和第二距离，确定对比学习优化模型的调优目标；

对比学习调优子模块，用于按照调优目标，利用对比学习优化模型，对因果预测编码对比编码器中的参数进行调整。

在一些实施例中，目标确定子模块可以具体用于将调优目标确定为目标第二距离与目标第一距离之差大于0；其中，目标第二距离为第二距离中的最小值，目标第一距离为第二距离中的最大值。

在一些实施例中，因果预测编码对比编码器包括第一全连接层和第二全连接层时，训练模块可以包括：

第一预测子模块，用于利用第一全连接层，预测得到当前训练输入特征对应的训练直接预测特征；其中，当前训练输入特征为任一训练输入特征；

第二预测子模块，用于利用第二全连接层，预测得到当前训练输入特征对应的训练间接预测特征；

正样本选择子模块，用于从当前训练输入特征对应的因果链特征中选择第一因果链特征作为直接预测正样本，并选择第三预设数量的非第一因果链特征作为间接预测正样本；

负样本选择子模块，用于从目标其他训练输入特征对应的因果链特征中选择第一因果链特征作为直接预测负样本，从每个目标其他训练输入特征选择非第一因果链特征作为间接预测负样本；

调优确定子模块，用于根据训练直接预测特征、训练间接预测特征、直接预测正样本、间接预测正样本、直接预测负样本和间接预测负样本，利用确定对比学习优化模型的调优目标；

调优子模块，用于按照调优目标，利用对比学习优化模型，对第一全连接层和第二全连接层中的参数进行调整。

在一些实施例中，调优确定子模块可以包括：

训练组合单元，用于将训练直接预测特征与训练间接预测特征组合，得到训练预测特征；

正样本组合单元，用于将直接预测正样本分别与每个间接预测正样本组合，得到训练预测正样本特征；

负样本组合单元，用于将各直接预测负样本分别与各自对应的间接预测负样本组合，得到训练预测负样本特征；

正样本计算单元，用于计算训练预测特征与每个训练预测正样本特征之间的第三距离；

负样本计算单元，用于计算训练预测特征与每个训练预测负样本特征之间的第四距离；

调优确定单元，根据第三距离和第四距离，确定对比学习优化模型的调优目标。

在一些实施例中，调优确定子模块可以包括：

第一计算单元，用于计算训练直接预测特征与直接预测正样本之间的第五距离；

第二计算单元，用于计算训练直接预测特征与每个直接预测负样本之间的第六距离；

第三计算单元，用于计算训练间接预测特征与每个间接预测正样本之间的第七距离；

第四计算单元，用于计算训练间接预测特征与每个间接预测正样本之间的第八距离；

分别确定单元，用于根据第五距离和第六距离，确定对比学习优化模型的第一调优目标；并根据第七距离和第八距离，确定对比学习优化模型的第二调优目标；其中，调优目标包括第一调优目标和第二调优目标；

对应的，调优子模块可以具体用于按照第一调优目标和第二调优目标，利用对比学习优化模型，分别对第一全连接层和第二全连接层中的参数进行调整。

在一些实施例中，图像生成子模块可以包括：

翻译单元，用于利用隐空间翻译模型，对预测特征进行翻译，得到隐空间指导特征；

图像生成单元，用于根据隐空间指导特征和待预测图像，利用图像生成器，生成因果推理图像。

在一些实施例中，翻译单元可以包括：

第一翻译子单元，用于利用隐空间翻译模型中的第一翻译全连接层和第二翻译全连接层，分别对预测特征中的单词级特征和句子级特征进行翻译，得到单词级翻译特征和句子级翻译特征；

翻译组合子单元，用于对单词级翻译特征和句子级翻译特征进行组合，得到翻译组合特征；

第二翻译子单元，用于利用隐空间翻译模型中的第三翻译全连接层，对翻译组合特征映射到预设特征尺寸，得到隐空间指导特征。

在一些实施例中，第一翻译子单元可以具体用于对预测特征进行拆分，得到单词级特征和句子级特征；利用第一翻译全连接层，对单词级特征进行翻译，得到单词级翻译特征；利用第二翻译全连接层，对句子级特征进行翻译，得到句子级翻译特征。

在一些实施例中，图像预测模块30可以包括：

翻译子模块，用于利用隐空间翻译模型，对图文推理特征进行翻译，得到隐空间指导特征；

生成子模块，用于根据隐空间指导特征和待预测图像，利用图像生成器，生成因果推理图像。

本实施例中，本发明实施例通过编码预测模块20根据待预测图像和问题文本，利用预训练语言模型编码器，得到图文推理特征，利用预训练语言模型的因果推理能力，生成图文推理特征来指导图像生成器的图像生成计算，以弥补图像生成器不具备推理能力的缺陷，实现多模态输入的因果图像生成，从而能够以图像模态直观且具体地描述因果推理结果，提升用户体验。

相应于上面的方法实施例，本发明实施例还提供了一种基于预训练语言模型的因果图像生成设备，下文描述的一种基于预训练语言模型的因果图像生成设备与上文描述的一种基于预训练语言模型的因果图像生成方法可相互对应参照。

请参考图9，图9为本发明实施例所提供的一种基于预训练语言模型的因果图像生成设备的简易结构示意图。该因果图像生成设备可以包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例所提供的基于预训练语言模型的因果图像生成方法的步骤。

相应的，请参考图10，图10为本发明实施例所提供的一种基于预训练语言模型的因果图像生成设备的具体结构示意图，该因果图像生成设备310可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330（例如一个或一个以上海量存储设备）。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上单元（图示没标出），每个单元可以包括对主机中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在因果图像生成设备310上执行存储介质330中的一系列指令操作。

因果图像生成设备310还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

其中，本实施例所提供的基于预训练语言模型的因果图像生成设备可以具体为服务器或计算机。

上文所描述的基于预训练语言模型的因果图像生成方法中的步骤可以由基于预训练语言模型的因果图像生成设备的结构实现。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，下文描述的一种计算机可读存储介质与上文描述的一种基于预训练语言模型的因果图像生成方法可相互对应参照。

请参考图11，图11为本发明实施例所提供的一种计算机可读存储介质的结构示意图。该计算机可读存储介质40上存储有计算机程序41，计算机程序41被处理器执行时实现如上述方法实施例所提供的基于预训练语言模型的因果图像生成方法的步骤。

该计算机可读存储介质40具体可以为U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可存储程序代码的存储介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上对本发明所提供的一种基于预训练语言模型的因果图像生成方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于预训练语言模型的因果图像生成方法，其特征在于，包括：

获取待预测图像和问题文本；

2.根据权利要求1所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述待预测图像和所述问题文本，利用预训练语言模型编码器，得到图文推理特征，包括：

3.根据权利要求2所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述图像特征和所述文本嵌入特征，利用所述预训练语言模型编码器，得到图文推理特征，包括：

4.根据权利要求3所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述利用查询编码器，对所述图像特征和对象查询序列嵌入特征进行编码，得到对象查询序列编码特征，包括：

5.根据权利要求3所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述对所述对象查询序列编码特征和所述文本嵌入特征进行组合，得到多模态嵌入特征，包括：

6.根据权利要求2所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述获取所述待预测图像对应的图像特征和所述问题文本对应的文本嵌入特征，包括：

7.根据权利要求1至6任一项所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述待预测图像和所述图文推理特征，利用图像生成器，生成因果推理图像，包括：

8.根据权利要求7所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述因果预测编码对比编码器包括第一全连接层和第二全连接层时，所述利用因果预测编码对比编码器，对所述图文推理特征进行因果预测，得到预测特征，包括：

9.根据权利要求7所述的基于预训练语言模型的因果图像生成方法，其特征在于，还包括：所述因果预测编码对比编码器的训练过程；

对应的，所述因果预测编码对比编码器的训练过程，包括：

10.根据权利要求9所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述因果预测编码对比编码器包括一个全连接层时，所述根据因果链训练集，利用对比学习优化模型，对所述因果预测编码对比编码器中的参数进行调整，包括：

11.根据权利要求10所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述第一距离和所述第二距离，确定所述对比学习优化模型的调优目标，包括：

12.根据权利要求9所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述因果预测编码对比编码器包括第一全连接层和第二全连接层时，所述根据因果链训练集，利用对比学习优化模型，对所述因果预测编码对比编码器中的参数进行调整，包括：

13.根据权利要求12所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述训练直接预测特征、所述训练间接预测特征、所述直接预测正样本、所述间接预测正样本、所述直接预测负样本和所述间接预测负样本，利用确定所述对比学习优化模型的调优目标，包括：

14.根据权利要求12所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述训练直接预测特征、所述训练间接预测特征、所述直接预测正样本、所述间接预测正样本、所述直接预测负样本和所述间接预测负样本，利用确定所述对比学习优化模型的调优目标，包括：

15.根据权利要求7所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述预测特征和所述待预测图像，利用所述图像生成器，生成所述因果推理图像，包括：

16.根据权利要求15所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述利用隐空间翻译模型，对所述预测特征进行翻译，得到隐空间指导特征，包括：

17.根据权利要求16所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述利用所述隐空间翻译模型中的第一翻译全连接层和第二翻译全连接层，分别对所述预测特征中的单词级特征和句子级特征进行翻译，得到单词级翻译特征和句子级翻译特征，包括：

18.根据权利要求1至6任一项所述的基于预训练语言模型的因果图像生成方法，其特征在于，所述根据所述待预测图像和所述图文推理特征，利用图像生成器，生成因果推理图像，包括：

19.一种基于预训练语言模型的因果图像生成装置，其特征在于，包括：

多模态获取模块，用于获取待预测图像和问题文本；

20.一种基于预训练语言模型的因果图像生成设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至18任一项所述的基于预训练语言模型的因果图像生成方法的步骤。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至18任一项所述的基于预训练语言模型的因果图像生成方法的步骤。