CN117076624A

CN117076624A - 图文对话方法、电子设备、存储介质及程序产品

Info

Publication number: CN117076624A
Application number: CN202310954154.3A
Authority: CN
Inventors: 韩春瑞; 董润沛; 葛政; 张祥雨
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-17

Abstract

本申请提供了一种图文对话方法、电子设备、存储介质及程序产品，涉及图文对话技术领域。所述方法包括：获得第一对话信息；将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息；其中，所述第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种，其中，所述目标图文对话模型是基于样本对话信息和对应的样本对话响应信息组成的样本对话信息对训练得到的，所述样本对话响应信息至少包括图文混杂的对话响应信息。本申请实施例中，目标图文对话模型具有图文交杂生成的能力，可以生成图像和文本交融的图文并茂的内容，从而丰富了人机交互内容。

Description

图文对话方法、电子设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图文对话方法、电子设备、存储介质及程序产品。

背景技术

以GPT系列工作为代表的大语言模型因其强大的文本生成能力给人们的日常生产和生活带来了巨大影响，同时，以GAN、VAE、Diffusion为代表的图像生成技术也得到了飞速发展。在人机对话中，丰富机器对话内容的重要手段之一为：机器生成图文混杂的内容。目前已有一些研究尝试将多模态生成任务整合进同一个模型，例如OFA、CoDi等，然后这些方法通常只能选择性地生成某一种模态(图像或者文本)，实际上无法实现机器自动生成图文混杂的内容。

由此，目前亟需一种新的图文对话方法。

发明内容

本申请实施例提供一种图文对话方法、电子设备、存储介质及程序产品，以至少部分解决相关技术中存在的问题。

本申请实施例第一方面提供一种图文对话方法，包括：

获得第一对话信息；

将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息；其中，所述第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种；

其中，所述目标图文对话模型是基于样本对话信息和对应的样本对话响应信息组成的样本对话信息对训练得到的，所述样本对话响应信息至少包括图文混杂的对话响应信息。

可选地，所述将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息，包括：

将所述第一对话信息输入目标图文对话模型，通过所述目标图文对话模型，对所述第一对话信息进行编码，生成对话响应序列；所述对话响应序列包括多个待解码元素，所述多个待解码元素的解码结果组成所述第一对话响应信息；

通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息。

可选地，所述多个待解码元素包括多个表征图像的元素和多个表征文本的元素；所述表征图像的元素包括：依次排列的图像开始生成元素和多个查询元素，所述图像开始生成元素用于指示所述目标图文对话模型开始生成图像，所述多个查询元素用于指示所述目标图文对话模型生成所述第一对话信息对应的图像；

通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息，包括：

在当前待解码元素是表征文本的元素时，通过所述目标图文对话模型生成对应的文本；

在当前待解码元素是图像开始生成元素时，通过所述目标图文对话模型提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像；

其中，所述多个提示词元素与所述多个提示词元素一一对应，所述目标图文对话模型生成的文本和图像组成图文混杂的第一对话响应信息。

可选地，所述目标图文对话模型至少包括：经过预训练的大语言模型、图像编码模块、图像解码模块；提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像，包括：

通过所述经过预训练的大语言模型提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并将所述多个提示词元素发送给所述图像解码模块；

通过图像解码模块，对所述多个提示词元素进行解码，得到所述第一对话信息对应的图像。

可选地，位于所述多个查询元素中最后一个查询元素之后的待解码元素，是通过所述目标图文对话模型按照以下步骤进行解码的：

通过所述图像编码模块接收所述图像解码模块发送的所述第一对话信息对应的图像；

通过图像编码模块，将所述第一对话信息对应的图像发送给所述预先训练的大语言模型；

通过所述目标图文对话模型，结合所述第一对话信息对应的图像和已生成的解码结果，对位于所述最后一个查询元素之后的待解码元素进行解码，所述已生成的解码结果包括位于所述多个查询元素中第一个查询元素之前的各个待解码元素的解码结果。

可选地，所述目标图文对话模型还包括：图像生成连接器，所述图像生成连接器连接在所述经过预训练的大语言模型和所述图像解码模块之间；所述方法还包括：

通过所述图像生成连接器将所述提示词元素的格式转换成所述图像解码模块支持的格式；

将所述提示词元素输入图像解码模块，包括：

将所述格式转换后的提示词元素输入图像解码模块。

可选地，所述目标图文对话模型还包括：图像理解连接器，所述图像理解连接器连接在所述图像编码模块和所述经过预训练的大语言模型之间；

通过图像编码模块，将所述第一对话信息对应的图像发送给所述预先训练的大语言模型，包括：

通过所述图像编码模块，将所述第一对话信息对应的图像发送给所述图像理解连接器；

通过所述图像理解连接器将所述第一对话信息对应的图像转换成所述预训练的大语言模型支持的格式，并将格式转换后的图像发送给所述经过预先训练的大语言模型。

可选地，获得第一对话信息，包括：

获得自然语言形式的第一对话文本信息。

本申请实施例第二方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请第一方面所述的图文对话方法中的步骤。

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本申请第一方面所述的图文对话方法中的步骤。

本申请实施例第四方面提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本申请第一方面所述的图文对话方法的步骤。

本申请实施例中，通过目标图文对话模型对获取到的第一对话信息进行处理，可以得到第一对话信息对应的第一对话响应信息，第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种，本申请实施例中，目标图文对话模型具有图文交杂生成的能力，可以生成图像和文本交融的图文并茂的第一对话响应信息，也可以生成纯文本的对话响应信息，或者生成纯图像的第一对话响应信息，从而丰富了人机交互内容。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种图文对话方法的流程图；

图2是本申请实施例的另一种图文对话方法的流程图；

图3是本申请实施例的图文对话方法中的目标图文对话模型的模型结构示意图；

图4是本申请实施例的一种图文对话装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图文对话、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图文对话、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

参照图1，示出了本申请实施例的一种图文对话方法的流程图，本申请实施例提供的图文对话方法可以包括以下步骤：

S101，获得第一对话信息。

本申请实施例中，第一对话信息可以是用户输入的，也可以是专家模型等智能模型输入的。

具体的，用户的输入方法可以包括：语音输入、文字输入等。

具体的，输入智能模型的第一对话信息可以是从已经构造好的模板库中选择并随机生成的。输入智能模型的第一对话信息可以是从网络上已经存在的各种对话信息中随机选择的。

S102，将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息。

其中，所述第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种。

本申请实施例中，输入目标图文对话模型的第一对话信息可以是以自然语言形式的第一对话文本。

具体的，本申请实施例中，目标图文对话模型的基础架构为大语言模型，如GTP。

本申请实施例中，第一对话信息可以是问题，相应地，第一对话响应信息可以是问题的答案，也可以是与问题相关的内容。

本申请实施例中，目标图文对话模型具备图像和文本理解、生成能力，以及知识表示和推理能力。

具体的，本申请实施例中，目标图文对话模型能够理解输入的文本内容，并提取有用的信息作为对话的上下文。同时，目标图文对话模型还具备生成图像的能力，可以根据对话内容生成相关的图像，同时，目标图文对话模型还具备生成符合语境的自然语言回复的能力。

本申请实施例中，目标图文对话模型还具备一定的知识表示和推理能力，可以通过对外部知识库或预训练模型的引入，实现对外部知识的查询和推理，从而提供更加准确和全面的回答。

本申请实施例中，目标图文对话模型还可以进行上下文理解和推理，确保回答能够与之前的对话内容相互衔接，表达清晰且具有逻辑性。

参照图2，示出了本申请实施例的一种图文对话方法的流程图，具体的，所述图文对话方法可以包括以下步骤：

S201，获得自然语言形式的第一对话文本信息。

本发明实施例中，第一对话信息为自然语言形式的文本信息，以使目标图文对话模型基于该自然语言形式的文本信息进行理解、推理，得到对应的响应信息。

S202，将所述第一对话信息输入目标图文对话模型，通过所述目标图文对话模型，对所述第一对话信息进行编码，生成对话响应序列。

所述对话响应序列包括多个待解码元素，所述多个待解码元素的解码结果组成所述第一对话响应信息。

具体的，本申请实施例中，目标图文对话模型可以通过自回归方式生成对话响应序列。具体步骤可以表示为：首先将问题输入目标图文对话模型作为初始输入，目标图文对话模型根据初始输入进行编码和理解，学习到相应的语义和语法信息，并生成第一个待解码元素，然后，目标图文对话模型可以使用先前已生成的待解码元素作为输入，并通过概率分布预测下一个最可能的待解码元素。在生成下一个待解码元素后，将其添加到已生成的序列中，然后将该序列再次输入目标图文对话模型。目标图文对话模型基于更新后的序列进行下一个待解码元素的预测，并重复以上步骤，直到达到停止条件(例如生成的序列长度达到指定值或生成特定结束符号)，达到停止条件时所生成的序列即为对话响应序列。

通过这种自回归的生成方式，目标图文对话模型可以逐步构建出连贯、完整的对话响应序列。由于目标图文对话模型在生成新的待解码元素过程中，都根据之前生成的待解码元素来生成新的待解码元素，因此，可以生成与第一对话信息相对应的包含多个待解码元素的对话响应序列。

S203，通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息。

本发明实施例中，目标图文对话模型可以通过自回归方式对对话响应序列进行解码，得到第一对话响应信息。具体步骤可以表示为：首先将对话响应序列中的第一个待解码元素输入目标图文对话模型进行解码，得到第一次解码的解码结果，然后，目标图文对话模型可以结合和已生成的解码结果，对下一个待解码元素进行解码。其中，对于对话响应序列中包括的多个查询元素，用于生成同一张图像(即第一对话信息对应的图像)，该多个查询元素视为一个整体，通过图文对话模型提取多个查询元素进而生成第一对话信息对应的图像，不是采用自回归方式进行解码的。对除被视为一个整体的多个查询元素之外的其他待解码元素(例如：表征文本的元素)，是采用自回归方式进行解码的。

通过这种自回归的生成方式，目标图文对话模型可以逐步解码出连贯、完整的第一对话响应信息。由于目标图文对话模型在对每个待解码元素进行解码时都考虑了之前已生成的解码结果，因此可以生成与第一对话信息相关的有意义的第一对话响应信息。

所述多个待解码元素包括多个表征图像的元素和多个表征文本的元素。所述表征图像的元素包括：依次排列的图像开始生成元素和多个查询元素，所述图像开始生成元素用于指示所述目标图文对话模型开始生成图像，所述多个查询元素用于指示所述目标图文对话模型生成所述第一对话信息对应的图像。

本发明实施例中，每个查询元素对应一个提示词元素，多个查询元素对应的多个提示词元素用于生成第一对话信息对应的图像。

本发明实施例中，具体可以将多个表征图像的元素和多个表征文本的元素依次作为当前待解码元素，通过所述目标图文对话模型执行以下步骤：

S2031，在当前待解码元素是表征文本的元素时，通过所述目标图文对话模型生成对应的文本。

S2032，在当前待解码元素是图像开始生成元素时，通过所述目标图文对话模型提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像。其中，多个查询元素是被并行提取的。因多个查询元素用于生成同一张图像(即第一对话信息对应的图像)，所以可以将多个查询元素视为一个整体，目标图文对话模型并行提取的多个查询元素，并行地对多个查询元素进行处理，生成对应的多个提示词元素，再根据多个提示词元素生成第一对话信息对应的图像。

其中，所述目标图文对话模型生成的文本和图像组成图文混杂的第一对话响应信息。

本申请实施例中，由于所述目标图文对话模型具备生成图文混杂的对话响应信息的能力，因此，其生成的对话响应序列中可以既包含表征文本的元素，又包含表征图像的元素。

本申请实施例中，目标图文对话模型在以自回归方式生成对话响应序列的同时，还可以对已经生成的对话响应序列中的多个待解码元素逐个进行解码。

本申请实施例中，在生成第一对话信息对应的图像之后，还可以生成图像停止生成元素，以使目标图文对话模型继续对下一个待解码元素进行解码。

本发明实施例中，还提供了一种图文对话方法。在该方法中，上述目标图文对话模型至少包括：经过预训练的大语言模型、图像编码模块、图像解码模块，如图3所示，图3示出了本申请实施例的图文对话方法中的目标图文对话模型的模型结构示意图；其中，所述经过预训练的大语言模型是利用文本数据，对大语言模型进行训练得到的。

本申请实施例中，预训练的大语言模型至少具备理解文本的语义的能力。

本申请实施例中，图像编码模块可以采用CLIP模型。

CLIP(Contrastive Language-Image Pretraining)模型是一种融合了文本和图像信息的神经网络模型，可以实现多模态的语义匹配和推理任务。具体来说，CLIP模型可以将一段自然语言描述与一张图像进行关联，从而建立起语义上的联系。通过训练，CLIP模型能够理解图像和文本之间的对应关系，从而使得模型能够根据给定的图像或描述进行语义上的推理和匹配。

图像解码模块可以采用Stable Diffusion模型，Stable Diffusion模型可以根据文本提示作为输入生成图像。

具体的，上述步骤S2032，包括：

S20321，在当前待解码元素是图像开始生成元素时，通过所述经过预训练的大语言模型提取所述多个查询元素，根据所述多个提示词元素生成对应的多个提示词元素，并将所述多个提示词元素发送给所述图像解码模块。

本申请实施例中，可以通过预先训练的大预言模型对第一对话信息进行编码，得到包含多个查询元素的对话响应序列，再基于多个查询元素得到多个提示词元素，基于多个提示词元素得到控制信号，该控制信号可以用于供图像解码模块根据多个提示词元素生成第一对话信息对应的图像。

S20322，将所述多个提示词元素输入图像解码模块，对所述多个提示词元素进行解码，得到所述第一对话信息对应的图像。

本申请实施例中，可以通过Stable Diffusion模型将大语言模型输出的控制信号解码成第一对话信息对应的图像。

S20323，将所述第一对话信息对应的图像发送给预先训练的大语言模型。

S20324，通过所述目标图文对话模型，结合所述第一对话信息对应的图像和已生成的解码结果，对位于所述最后一个查询元素之后的待解码元素进行解码，所述已生成的解码结果包括位于所述多个查询元素中第一个查询元素之前的各个待解码元素的解码结果。

本申请实施例中，将第一对话信息对应的图像发送给预先训练的大语言模型，由预先训练的大语言模型，结合第一对话信息对应的图像和已生成的解码结果(包括位于多个查询元素中第一个查询元素之前的各个待解码元素的解码结果)，对下一个待解码元素(即位于所述最后一个查询元素之后的待解码元素之后的待解码元素)进行解码。

如前文所述，多个查询元素作为一个整体，最终被解码为第一对话信息对应的图像。因此，下一个待解码元素即为多个查询元素中最后一个查询元素之后的待解码元素。

对下一个解码元素的解码方式，取决于下一个解码元素的类型。在下一个待解码元素是表征文本的元素时，通过目标图文对话模型生成对应的文本；在下一个待解码元素是图像开始生成元素时，可参考上文中对当前待解码元素是图像开始生成元素的解码方式。

本申请实施例中，在训练过程中，可以采用端到端训练方法，对经过预训练的大语言模型、图像编码模块以及图像解码模进行训练。

本申请实施例中，在训练过程中，可以根据所述图文混杂数据中的图像与预测目标图像对应的第一损失值，以及，所述图文混杂数据中的文本与所述提示词元素对应的第二损失值，对所述目标图文对话模型的参数进行更新，训练得到的目标图文对话模型可以基于根据第一对话信息得到提示词，并且，可以基于该提示词生成与所述第一对话信息相匹配的图像。

本申请实施例中，上述目标图文对话模型还包括：图像生成连接器，所述图像生成连接器连接在所述经过预训练的大语言模型和所述图像解码模块之间；所述方法还包括：

通过所述图像生成连接器将所述提示词元素的格式转换成所述图像解码模块支持的格式。

将所述提示词元素输入图像解码模块，包括：将所述格式转换后的提示词元素输入图像解码模块。

本申请实施例中，大语言模型和图像解码模块之间可以连接有图像生成连接器，所述图像生成连接器用于实现大语言模型输出的提示词元素的格式转换成图像解码模块能够处理的格式。

本申请实施例中，上述目标图文对话模型还包括：图像理解连接器，所述图像理解连接器连接在所述图像编码模块和所述经过预训练的大语言模型之间。

在这种情况下，通过图像编码模块，将所述第一对话信息对应的图像发送给所述预先训练的大语言模型，包括：

本申请实施例中，图像编码模块和预先训练的大语言模型之间可以连接有图像理解连接器，所述图像理解连接器用于将图像编码模块输出的图像(即第一对话信息对应的图像)的格式，转换成预先训练的大语言模型能够处理的格式。

本申请实施例中，本申请实施例中，在训练过程中，可以采用端到端训练方法，对图像编码模块、图像理解连接器、经过预训练的大语言模型、图像生成连接器以及图像解码模块进行训练。从而本申请实施例中，采用端到端的训练，让训练得到的图文对话模型具有更强的数据和模型扩容(scale-up)能力，随着模型的增大和数据的增多，模型能力能够持续提升。

本申请实施例还提供了一种图文对话方法。在该方法中，上述目标图文对话模型是对预先训练的图文对话模型进行训练得到的，所述目标图文对话模型是利用图文混杂数据训练得到的，所述目标图文对话模型用于根据图文混杂数据得到提示词，所述提示词用于生成与所述图文混杂数据相匹配的图像。

本申请实施例中，图文对话模型是基于llama模型在大量图文混杂数据上进行预训练得到，训练目的为得到的图文对话模型可以根据图文混杂数据得到提示词。

本申请实施例中，图文混杂数据指的是图像和文本相对应的数据对。

进一步地，本申请实施例中，上述目标图文对话模型是按照以下步骤训练得到的：

S11，将所述样本图文混杂问答数据中的问题数据输入所述目标图文对话模型，得到预测图文混杂答案数据。

S12，根据所述样本图文混杂问答数据中的图文混杂答案数据与所述预测图文混杂答案数据，对所述目标图文对话模型的参数进行更新。

本申请实施例中，可以基于样本问题和对应的图文混杂的样本答案组成的样本图文混杂问答数据对图文对话模型进行进一步的训练。

其中，训练数据还可以包括：样本文本对话数据、样本文本到图像对话数据，其中，样本纯文本对话数据由样本文本问题和样本文本答案组成。样本文本到图像对话数据由样本文本问题和样本图像答案组成。

基于同一发明构思，本申请实施例提供一种图文对话装置，参考图4，图4是本申请实施例提供的图文对话装置的结构框图，所述装置包括：

获取模块401，用于获得第一对话信息；

输入模块402，用于将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息；其中，所述第一对话响应信息包括图片信息、文字信息或者图文混杂信息中的任意一种；

可选地，所述输入模块402，具体包括：

编码子模块，用于所述第一对话信息输入目标图文对话模型，通过所述目标图文对话模型，对所述第一对话信息进行编码，生成对话响应序列；所述对话响应序列包括多个待解码元素，所述多个待解码元素的解码结果组成所述第一对话响应信息；

解码子模块，用于通过所述目标图文对话模型，对所述多个待解码元素依次进行解码，得到所述第一对话响应信息。

所述解码子模块用于：

可选地，所述目标图文对话模型至少包括：经过预训练的大语言模型、图像编码模块、图像解码模块；所述解码子模块具体用于：

可选地，所述目标图文对话模型还包括：图像生成连接器，所述图像生成连接器连接在所述经过预训练的大语言模型和所述图像解码模块之间；所述装置还包括：

第一转换模块，用于通过所述图像生成连接器将所述提示词元素的格式转换成所述图像解码模块支持的格式；

将所述提示词元素输入图像解码模块，包括：

将所述格式转换后的提示词元素输入图像解码模块。

可选地，所述目标图文对话模型还包括：图像理解连接器，所述图像理解连接器连接在所述图像编码模块和所述经过预训练的大语言模型之间；通过图像编码模块，将所述第一对话信息对应的图像发送给所述预先训练的大语言模型，包括：

可选地，所述目标图文对话模型是对预先训练的图文对话模型进行训练得到的，所述目标图文对话模型是按照以下步骤训练得到的：

将所述样本对话信息对中的样本对话信息输入所述目标图文对话模型，得到预测图文混杂响应信息；

根据所述样本对话信息对中的图文混杂的对话响应信息与所述预测图文混杂对话响应信息，对所述目标图文对话模型的参数进行更新。

可选地，所述获取模块，具体用于：

获得自然语言形式的第一对话文本信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

基于同一发明构思，本申请实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的图文对话方法中的步骤。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述的图文对话方法中的步骤。

基于同一发明构思，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述的图文对话方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图文对话终端设备的处理器以产生一个机器，使得通过计算机或其他可编程图文对话终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图文对话终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图文对话终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种图文对话方法、电子设备、存储介质及程序产品，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图文对话方法，其特征在于，包括：

获得第一对话信息；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一对话信息输入目标图文对话模型，得到所述第一对话信息对应的第一对话响应信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述多个待解码元素包括多个表征图像的元素和多个表征文本的元素；

所述表征图像的元素包括：依次排列的图像开始生成元素和多个查询元素，所述图像开始生成元素用于指示所述目标图文对话模型开始生成图像，所述多个查询元素用于指示所述目标图文对话模型生成所述第一对话信息对应的图像；

4.根据权利要求3所述的方法，其特征在于，所述目标图文对话模型至少包括：经过预训练的大语言模型、图像编码模块、图像解码模块；提取位于所述图像开始生成元素之后的所述多个查询元素，根据所述多个查询元素生成对应的多个提示词元素，并根据所述多个提示词元素，生成所述第一对话信息对应的图像，包括：

5.根据权利要求4所述的方法，其特征在于，位于所述多个查询元素中最后一个查询元素之后的待解码元素，是通过所述目标图文对话模型按照以下步骤进行解码的：

6.根据权利要求4所述的方法，其特征在于，所述目标图文对话模型还包括：图像生成连接器，所述图像生成连接器连接在所述经过预训练的大语言模型和所述图像解码模块之间；所述方法还包括：

将所述提示词元素输入图像解码模块，包括：

将所述格式转换后的提示词元素输入图像解码模块。

7.根据权利要求4所述的方法，其特征在于，所述目标图文对话模型还包括：图像理解连接器，所述图像理解连接器连接在所述图像编码模块和所述经过预训练的大语言模型之间；

通过所述图像理解连接器将所述第一对话信息对应的图像转换成所述预训练的大语言模型支持的格式，并将格式转换后的图像特征发送给所述经过预先训练的大语言模型。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述目标图文对话模型是对预先训练的图文对话模型进行训练得到的，所述目标图文对话模型是按照以下步骤训练得到的：

9.根据权利要求1-7任一所述的方法，其特征在于，获得第一对话信息，包括：

获得自然语言形式的第一对话文本信息。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-9任一项所述的图文对话方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9任一项所述的图文对话方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9任一项所述的图文对话方法的步骤。