CN117271759A

CN117271759A - 文本摘要生成模型训练方法、文本摘要生成方法和装置

Info

Publication number: CN117271759A
Application number: CN202211024211.XA
Authority: CN
Inventors: 梁云龙; 孟凡东; 徐金安; 陈钰枫
Original assignee: Tencent Technology Shenzhen Co Ltd; Beijing Jiaotong University
Current assignee: Tencent Technology Shenzhen Co Ltd; Beijing Jiaotong University
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2023-12-22

Abstract

本申请涉及一种文本摘要生成模型训练方法、文本摘要生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：将训练文本和对应的训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失；将训练文本对应的掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失；基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型；目标文本摘要生成模型用于生成文本的文本摘要。采用本方法能够提高模型的预测准确性，提高生成的文本摘要的质量。

Description

文本摘要生成模型训练方法、文本摘要生成方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本摘要生成模型训练方法、文本摘要生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，互联网中信息数量呈指数型快速增长，人们每天能够接触到海量的信息，例如时政新闻、热搜话题、社交聊天、讲座报告、学术论文等。为了帮助用户快速从互联网获取有效信息，自动文本摘要技术应运而生。自动文本摘要技术是通过各种技术，从文本中抽取、总结或是精炼其中的要点信息，用以概括和展示原始文本的主要内容或大意的文本摘要。

目前，可以通过机器学习模型来生成文本摘要。传统技术中，通常是基于已知摘要的文章对应的文本信息和摘要信息训练得到文本摘要生成模型，然而单纯基于文本信息进行模型训练，模型难以学习到文章中对摘要最重要的信息。通过目前的训练方式训练得到的文本摘要生成模型，存在预测准确性较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高模型预测准确性的文本摘要生成模型训练方法、文本摘要生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

本申请提供了一种文本摘要生成模型训练方法。所述方法包括：

获取训练文本和所述训练文本对应的训练图像集合、标签文本摘要，获取所述训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；所述掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，所述掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，所述第一训练数据和所述第二训练数据是从所述训练图像集合和所述标签文本摘要中确定的；

将所述训练文本和所述训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于所述预测文本摘要和所述标签文本摘要之间的差异生成目标损失；

将所述掩码训练数据和所述第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于所述掩码标签数据和所述掩码预测数据之间的差异生成重构损失；

基于所述目标损失和所述重构损失调整所述初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型；所述目标文本摘要生成模型用于生成文本的文本摘要。

本申请还提供了一种文本摘要生成模型训练装置。所述装置包括：

数据获取模块，用于获取训练文本和所述训练文本对应的训练图像集合、标签文本摘要，获取所述训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；所述掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，所述掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，所述第一训练数据和所述第二训练数据是从所述训练图像集合和所述标签文本摘要中确定的；

第一数据处理模块，用于将所述训练文本和所述训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于所述预测文本摘要和所述标签文本摘要之间的差异生成目标损失；

第二数据处理模块，用于将所述掩码训练数据和所述第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于所述掩码标签数据和所述掩码预测数据之间的差异生成重构损失；

模型参数调整模块，用于基于所述目标损失和所述重构损失调整所述初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型；所述目标文本摘要生成模型用于生成文本的文本摘要。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述文本摘要生成模型训练方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本摘要生成模型训练方法所述的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述文本摘要生成模型训练方法所述的步骤。

上述文本摘要生成模型训练方法、装置、计算机设备、存储介质和计算机程序产品，获取训练文本和训练文本对应的训练图像集合、标签文本摘要，获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，第一训练数据和第二训练数据是从训练图像集合和标签文本摘要中确定的；将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失；将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失；基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型；目标文本摘要生成模型用于生成文本的文本摘要。这样，在训练模型时，训练损失包括目标损失和重构损失，目标损失对应摘要生成任务，通过文本信息和图像信息来恢复原始的文本摘要，目标损失可以指导模型基于文本对应的文本信息和图像信息来生成文本摘要，重构损失对应重构任务，通过第一训练数据和第二训练数据中没有被掩码的数据来恢复第二训练数据中被掩码的数据，重构损失有助于增强第一训练数据和第二训练数据之间的关联，指导模型从文本对应的图像信息中学习到与文本摘要相关的信息，从而有助于提升模型生成的文本摘要的质量。基于目标损失和重构损失调整模型参数，能够使得模型输出更优质的文本摘要，有效提高模型的预测准确性。通过最终训练得到的目标文本摘要生成模型来生成文本摘要，可以提高生成的文本摘要的质量。

本申请提供了一种文本摘要生成方法。所述方法包括：

获取目标文本和目标文本对应的目标图像集合；

将所述目标文本和所述目标图像集合输入目标文本摘要生成模型，得到所述目标文本对应的目标文本摘要；

所述目标文本摘要生成模型的训练过程包括以下步骤：

获取训练文本和所述训练文本对应的训练图像集合、标签文本摘要，获取所述训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；所述掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，所述掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，所述第一训练数据和所述第二训练数据是从所述训练图像集合和所述标签文本摘要中确定的；将所述训练文本和所述训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于所述预测文本摘要和所述标签文本摘要之间的差异生成目标损失；将所述掩码训练数据和所述第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于所述掩码标签数据和所述掩码预测数据之间的差异生成重构损失；基于所述目标损失和所述重构损失调整所述初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型。

本申请还提供了一种文本摘要生成装置。所述装置包括：

目标文本获取模块，用于获取目标文本和目标文本对应的目标图像集合；

文本摘要生成模块，用于将所述目标文本和所述目标图像集合输入目标文本摘要生成模型，得到所述目标文本对应的目标文本摘要；

所述目标文本摘要生成模型的训练过程包括以下步骤：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述文本摘要生成方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本摘要生成方法所述的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述文本摘要生成方法所述的步骤。

上述文本摘要生成方法、装置、计算机设备、存储介质和计算机程序产品，获取目标文本和目标文本对应的目标图像集合，将目标文本和目标图像集合输入目标文本摘要生成模型，得到目标文本对应的目标文本摘要。目标文本摘要生成模型是将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于预测文本摘要和标签文本摘要之间的差异生成目标损失，基于掩码标签数据和掩码预测数据之间的差异生成重构损失，基于目标损失和重构损失调整初始文本摘要生成模型的模型参数得到的。这样，在训练模型时，训练损失包括目标损失和重构损失，目标损失对应摘要生成任务，通过文本信息和图像信息来恢复原始的文本摘要，目标损失可以指导模型基于文本对应的文本信息和图像信息来生成文本摘要，重构损失对应重构任务，通过第一训练数据和第二训练数据中没有被掩码的数据来恢复第二训练数据中被掩码的数据，重构损失有助于增强第一训练数据和第二训练数据之间的关联，指导模型从文本对应的图像信息中学习到与文本摘要相关的信息，从而有助于提升模型生成的文本摘要的质量。基于目标损失和重构损失调整模型参数，能够使得模型输出更优质的文本摘要，有效提高模型的预测准确性。将目标文本和目标图像集合输入目标文本摘要生成模型，通过训练得到的目标文本摘要生成模型来生成文本摘要，可以有效提高生成的文本摘要的质量。

附图说明

图1为一个实施例中文本摘要生成模型训练方法和文本摘要生成方法的应用环境图；

图2为一个实施例中文本摘要生成模型训练方法的流程示意图；

图3为一个实施例中生成预测文本摘要的流程示意图；

图4为一个实施例中初始图像特征的示意图；

图5为一个实施例中文本摘要生成模型的结构示意图；

图6为一个实施例中文本摘要生成方法的流程示意图；

图7为一个实施例中文档和对应的文本摘要的示意图；

图8为一个实施例中多语言多模态摘要模型的架构示意图；

图9为一个实施例中文本摘要生成模型训练装置的结构框图；

图10为一个实施例中文本摘要生成装置的结构框图；

图11为一个实施例中计算机设备的内部结构图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、自然语言处理、机器学习等技术，具体通过如下实施例进行说明：

本申请实施例提供的文本摘要生成模型训练方法和文本摘要生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。

终端和服务器均可单独用于执行本申请实施例中提供的文本摘要生成模型训练方法和文本摘要生成方法。

例如，服务器获取训练文本和训练文本对应的训练图像集合、标签文本摘要，将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失。服务器获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据，将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失。服务器基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型。其中，掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，第一训练数据和第二训练数据是从训练图像集合和标签文本摘要中确定的。

服务器获取目标文本和目标文本对应的目标图像集合，将目标文本和目标图像集合输入目标文本摘要生成模型，得到目标文本对应的目标文本摘要。

终端和服务器也可协同用于执行本申请实施例中提供的文本摘要生成模型训练方法和文本摘要生成方法。

例如，服务器从终端获取训练文本和训练文本对应的训练图像集合、标签文本摘要，从终端获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据。服务器将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失，将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失。服务器基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型。

终端发送文本摘要生成请求至服务器，文本摘要生成请求携带目标文本对应的文本标识。服务器基于文本标识获取目标文本和目标文本对应的目标图像集合，将目标文本和目标图像集合输入目标文本摘要生成模型，得到目标文本对应的目标文本摘要。服务器将目标文本摘要发送至终端，终端可以将目标文本摘要进行展示。

在一个实施例中，如图2所示，提供了一种文本摘要生成模型训练方法，以该方法应用于计算机设备来举例说明，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。参考图2，文本摘要生成模型训练方法包括以下步骤：

步骤S202，获取训练文本和训练文本对应的训练图像集合、标签文本摘要，获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，第一训练数据和第二训练数据是从训练图像集合和标签文本摘要中确定的。

其中，训练文本和对应的训练图像集合组成图文并存的训练文档。训练文档是指已知文本摘要的文档，用于模型训练。训练文本是指训练文档中的文本部分，即训练文档中的文本信息。训练图像集合是指训练文档中的图像部分，即训练文档中的图像信息。训练图像集合可以包括至少一个训练图像。可以理解，同一训练文档中的训练文本和训练图像集合存在对应关系。训练文档可以是各种各样的文档，例如，可以是新闻、报告、书信、通知、推送等。

训练文本和训练图像集合用于在模型训练时作为模型的输入数据，在模型训练时，模型通过对训练文本和训练图像集合进行数据处理来预测文本摘要。标签文本摘要是指训练文本对应的真实文本摘要，即训练文档对应的真实文本摘要。标签文本摘要用于在模型训练时作为模型的一种监督信号，以指导模型预测出与标签文本摘要接近的文本摘要，指导模型输出准确的文本摘要。

第一训练数据和第二训练数据是从训练图像集合和标签文本摘要中确定的，第一训练数据和第二训练数据是不同的数据。例如，若第一训练数据为训练图像集合，则第二训练数据为标签文本摘要；若第一训练数据为标签文本摘要，则第二训练数据为训练图像集合。第一训练数据用于在模型训练时作为模型的一种输入数据，第二训练数据用于确定在模型训练时与第一训练数据配合输入模型的数据、以及确定模型的另一监督信号。

掩码标签数据和掩码训练数据是对第二训练数据进行掩码处理得到的。掩码处理是指对第二训练数据中的部分数据进行遮盖。掩码标签数据是指经过掩码处理后，第二训练数据中被遮盖部分，即掩码标签数据是指第二训练数据经过掩码处理后被掩码的数据。掩码训练数据是指经过掩码处理后，第二训练数据中未被遮盖部分，即掩码训练数据是指第二训练数据中除掩码标签数据之外的其他数据。掩码训练数据用于在模型训练时与第一训练数据配合作为模型的输入数据。在模型训练时，模型通过对第一训练数据和掩码训练数据进行数据处理来预测第二训练数据中被掩码的数据。掩码标签数据用于在模型训练时作为模型的一种监督信号，以指导模型预测出与掩码标签数据接近的数据。

具体地，计算机设备可以在本地或从其他设备上获取模型的训练数据，基于训练数据进行模型训练，训练得到准确的文本摘要生成模型。模型的训练数据包括训练文本和训练文本对应的训练图像集合、标签文本摘要、第一训练数据、掩码标签数据和掩码训练数据。

步骤S204，将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失。

其中，初始文本摘要生成模型是指待训练的文本摘要生成模型。文本摘要生成模型需要经过模型训练才能应用于生成任意文档对应的文本摘要。在应用时，文本摘要生成模型的输入数据为文档中的文本和图像，输出数据为文档对应的文本摘要。

预测文本摘要是指模型对输入数据进行数据处理后预测出的文本摘要。模型对训练文本和训练图像集合进行数据处理后，可以输出预测文本摘要。

具体地，在模型训练时，计算机设备可以将训练文本和训练图像集合输入初始文本摘要生成模型，经过模型的数据处理，模型输出训练文本对应的预测文本摘要。模型的训练目标是让预测文本摘要和真实文本摘要越来越接近，从而模型在面对新文档时可以基于新文档的文本信息和图像信息生成准确的文本摘要。因此，计算机设备可以基于预测文本摘要和标签文本摘要之间的差异生成目标损失，目标损失用于反向传播以调整模型参数，使得模型输出的预测文本摘要逐渐接近于标签文本摘要。

在一个实施例中，可以将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要。模型分别对训练文本和训练图像集合进行编码处理，得到训练文本特征和训练图像特征，将训练文本特征和训练图像特征进行融合得到训练融合特征，对训练融合特征进行解码得到预测文本摘要。对训练融合特征进行解码时可以是有序解码出词语序列，从而得到预测文本摘要。在解码生成预测文本摘要中的某个词语时可以参考已解码得到的词语。

在一个实施例中，为了提高模型训练质量，可以将训练文本、训练图像集合和标签文本摘要输入初始文本摘要生成模型，得到预测文本摘要。模型分别对训练文本和训练图像集合进行编码处理，得到训练文本特征和训练图像特征，将训练文本特征和训练图像特征进行融合得到融合图像特征，基于标签文本摘要对融合图像特征进行解码得到预测文本摘要。基于标签文本摘要对融合图像特征进行解码，使得模型在解码生成预测文本摘要中的某个词语时可以参考标签文本摘要中的历史部分，例如，在解码生成第t个词时可以参考标签文本摘要中前t-1个词。基于标签文本摘要对融合图像特征进行解码能够在训练的时候矫正模型的预测，避免在词语序列生成的过程中误差进一步放大，基于标签文本摘要对融合图像特征进行解码能够极大的加快模型的收敛速度，令模型训练过程更加快速和平稳。

在一个实施例中，为了减少模型计算量，可以预先对训练图像集合进行特征提取得到初始图像特征，将训练文本和初始图像特征输入初始文本摘要生成模型，得到预测文本摘要。当然，也可以预先对训练文本进行特征提取得到初始文本特征，将初始文本特征和初始图像特征输入初始文本摘要生成模型，得到预测文本摘要。

步骤S206，将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失。

其中，掩码预测数据是指模型对输入数据进行数据处理后预测出的掩码部分，预测出的第二训练数据中被遮盖部分。模型对掩码训练数据和第一训练数据进行数据处理后，可以输出掩码预测数据。

具体地，在模型训练时，计算机设备可以将掩码训练数据和第一训练数据输入初始文本摘要生成模型，经过模型的数据处理，模型输出掩码预测数据。模型的训练目标是让掩码预测数据和掩码标签数据越来越接近，从而模型可以学习到训练图像集合和标签文本摘要之间的关联，在面对新文档时可以除了基于新文档的文本信息，能够更好地参考新文档的图像信息来生成更准确的文本摘要。因此，计算机设备可以基于掩码标签数据和掩码预测数据之间的差异生成重构损失，重构损失用于反向传播以调整模型参数，使得模型输出的掩码预测数据逐渐接近于掩码标签数据，也可以进一步使得模型输出的预测文本摘要逐渐接近于标签文本摘要。

在一个实施例中，将掩码训练数据和第一训练数据输入初始文本摘要生成模型，模型分别对掩码训练数据和第一训练数据进行编码处理，得到掩码训练特征和第一训练特征，将掩码训练特征和第一训练特征进行模态间注意力处理，得到融合特征，基于融合特征得到掩码预测数据。

步骤S208，基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型；目标文本摘要生成模型用于生成文本的文本摘要。

其中，目标文本摘要生成模型是指训练完成的文本摘要生成模型。在应用时，目标文本摘要生成模型的输入数据为文档中的文本和图像，输出数据为文档对应的文本摘要。收敛条件可以是目标损失和重构损失均小于各自对应的预设阈值、基于目标损失和重构损失得到的总损失小于目标预设阈值或模型迭代次数大于预设次数等条件中的至少一种。

具体地，计算机设备基于目标损失和重构损失进行反向传播来调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型。计算机设备可以基于目标损失和重构损失进行反向传播来调整初始文本摘要生成模型的模型参数，得到中间文本摘要生成模型，将中间文本摘要生成模型作为初始文本摘要生成模型，返回获取训练文本和训练文本对应的训练图像集合、标签文本摘要，获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据的步骤迭代执行，直到满足收敛条件，得到目标文本摘要生成模型。

在一个实施例中，计算机设备可以获取多个训练集，从各个训练集中随机获取一个训练集作为当前训练集。计算机设备将当前训练集中训练文本对应的训练数据输入初始文本摘要生成模型，经过初始文本摘要生成模型的数据处理，得到训练文本对应的预测文本摘要和掩码预测数据，基于训练文本对应的预测文本摘要和标签文本摘要计算目标损失，基于训练文本对应的掩码预测数据和掩码标签数据计算重构损失，基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，得到中间文本摘要生成模型。计算机设备将下一训练集作为新的当前训练集，将中间文本摘要生成模型作为新的初始文本摘要生成模型，返回将当前训练集中训练文本对应的训练数据输入初始文本摘要生成模型的步骤执行来进行迭代训练，以此类推，通过多次迭代训练，不断调整模型参数，直至满足收敛条件，得到目标文本摘要生成模型。例如，若在某一轮训练中，基于目标损失和重构损失计算得到的总损失小于目标预设阈值，则停止调整模型参数，将最新调整得到的文本摘要生成模型作为目标文本摘要生成模型。若某一轮训练后模型迭代次数大于预设次数，则将最新调整得到的文本摘要生成模型作为目标文本摘要生成模型。

上述文本摘要生成模型训练方法中，获取训练文本和训练文本对应的训练图像集合、标签文本摘要，获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，第一训练数据和第二训练数据是从训练图像集合和标签文本摘要中确定的；将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失；将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失；基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型；目标文本摘要生成模型用于生成文本的文本摘要。这样，在训练模型时，训练损失包括目标损失和重构损失，目标损失对应摘要生成任务，通过文本信息和图像信息来恢复原始的文本摘要，目标损失可以指导模型基于文本对应的文本信息和图像信息来生成文本摘要，重构损失对应重构任务，通过第一训练数据和第二训练数据中没有被掩码的数据来恢复第二训练数据中被掩码的数据，重构损失有助于增强第一训练数据和第二训练数据之间的关联，指导模型从文本对应的图像信息中学习到与文本摘要相关的信息，从而有助于提升模型生成的文本摘要的质量。基于目标损失和重构损失调整模型参数，能够使得模型输出更优质的文本摘要，有效提高模型的预测准确性。通过最终训练得到的目标文本摘要生成模型来生成文本摘要，可以提高生成的文本摘要的质量。

在一个实施例中，重构损失包括摘要重构损失。获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据，包括：

获取训练图像集合作为第一训练数据，获取标签文本摘要作为第二训练数据；对标签文本摘要进行掩码处理得到摘要掩码标签数据和摘要掩码训练数据，获取摘要掩码标签数据作为掩码标签数据，获取摘要掩码训练数据作为掩码训练数据。

其中，摘要重构损失对应摘要重构任务，摘要重构任务是指利用完整的图像来恢复文本摘要中被遮挡的词，以此提升文本摘要和图像直接的关联，以此来提升最终生成的文本摘要的质量。

摘要掩码标签数据是指标签文本摘要中被掩码、被遮挡的数据，用于作为模型的训练标签。摘要掩码训练数据是指标签文本摘要中未被掩码、未被遮挡的数据，用于作为模型的输入数据。对标签文本摘要进行掩码处理，将标签文本摘要中的掩码部分作为摘要掩码标签数据，将标签文本摘要中的剩余部分作为摘要掩码训练数据。

具体地，在训练文本摘要生成模型时，计算机设备可以借助摘要重构任务来提高模型的训练质量，提高模型生成的文本摘要的质量。针对摘要重构任务，计算机设备可以获取训练图像集合作为第一训练数据，获取标签文本摘要作为第二训练数据，获取对标签文本摘要进行掩码处理得到的摘要掩码标签数据作为掩码标签数据，获取对标签文本摘要进行掩码处理得到的摘要掩码训练数据作为掩码训练数据。将掩码训练数据和第一训练数据作为模型的输入数据，将掩码标签数据作为模型的期望输出，训练模型利用完整的图像来恢复文本摘要中被遮挡的词。

将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失，包括：

将训练图像集合和摘要掩码训练数据输入初始文本摘要生成模型，得到摘要掩码预测数据；基于摘要掩码标签数据和摘要掩码预测数据之间的差异生成摘要重构损失。

其中，摘要掩码预测数据是指针对标签文本摘要中被掩码、被遮挡的数据，模型预测得到的数据。

具体地，针对摘要重构任务，计算机设备可以将训练图像集合和摘要掩码训练数据输入初始文本摘要生成模型，经过模型的数据处理，得到摘要掩码预测数据，基于摘要掩码标签数据和摘要掩码预测数据之间的差异生成摘要重构损失。

上述实施例中，重构损失包括摘要重构损失，摘要重构损失对应的摘要重构任务，摘要重构任务是指利用完整的图像来恢复文本摘要中被遮挡的词，摘要重构损失可以帮助模型提升文本摘要和图像直接的关联，进而来提升最终生成的文本摘要的质量。

在一个实施例中，重构损失包括图像重构损失。获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据，包括：

获取标签文本摘要作为第一训练数据，获取训练图像集合作为第二训练数据；对训练图像集合进行掩码处理得到图像掩码标签数据和图像掩码训练数据，获取图像掩码标签数据作为掩码标签数据，获取图像掩码训练数据作为掩码训练数据。

其中，图像重构损失对应图像重构任务，图像重构任务是指利用完整的文本摘要来恢复图像集合中被遮挡的图像区域，以此提升文本摘要和图像直接的关联，以此来提升最终生成的文本摘要的质量。

图像掩码标签数据是指训练图像集合中被掩码、被遮挡的数据，用于作为模型的训练标签。图像掩码训练数据是指训练图像集合中未被掩码、未被遮挡的数据，用于作为模型的输入数据。对训练图像集合进行掩码处理，将训练图像集合中的掩码部分作为图像掩码标签数据，将训练图像集合中的剩余部分作为图像掩码训练数据。

具体地，在训练文本摘要生成模型时，计算机设备可以借助图像重构任务来提高模型的训练质量，提高模型生成的文本摘要的质量。针对图像重构任务，计算机设备可以获取标签文本摘要作为第一训练数据，获取训练图像集合作为第二训练数据，获取对训练图像集合进行掩码处理得到的图像掩码标签数据作为掩码标签数据，获取对训练图像集进行掩码处理得到的图像掩码训练数据作为掩码训练数据。将掩码训练数据和第一训练数据作为模型的输入数据，将掩码标签数据作为模型的期望输出，训练模型利用完整的文本摘要来恢复图像集合中被遮挡的图像区域。

将标签文本摘要和图像掩码训练数据输入初始文本摘要生成模型，得到图像掩码预测数据；基于图像掩码标签数据和图像掩码预测数据之间的差异生成图像重构损失。

其中，图像掩码预测数据是指针对训练图像集合中被掩码、被遮挡的数据，模型预测得到的数据。

具体地，针对图像重构任务，计算机设备可以将标签文本摘要和图像掩码训练数据输入初始文本摘要生成模型，经过模型的数据处理，得到图像掩码预测数据，基于图像掩码标签数据和图像掩码预测数据之间的差异生成图像重构损失。

可以理解，重构损失可以包括摘要重构损失或图像重构损失中的至少一者。

在一个实施例中，在进行掩码处理时，可以对标签文本摘要中预设比例的数据进行遮盖，从而得到摘要掩码标签数据和摘要掩码训练数据。其中，预设比例可以根据实际需要进行设置，例如，可以设置为15％。同理，可以对训练图像集合中预设比例的数据进行遮盖，从而得到图像掩码标签数据和图像掩码训练数据。标签文本摘要和训练图像集合对应的预设比例可以相同可以不同。

上述实施例中，重构损失包括图像重构损失，图像重构损失对应的图像重构任务，图像重构任务是指利用完整的图像来恢复文本摘要中被遮挡的词，图像重构损失可以帮助模型提升文本摘要和图像直接的关联，进而来提升最终生成的文本摘要的质量。

在一个实施例中，如图3所示，将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，包括：

步骤S302，将训练文本、训练图像集合和标签文本摘要输入初始文本摘要生成模型。

具体地，为了提高模型训练质量，计算机设备可以将训练文本、训练图像集合和标签文本摘要均输入初始文本摘要生成模型，基于标签文本摘要来引导模型更好地生成预测文本摘要。

步骤S304，分别对训练文本和训练图像集合进行编码处理，得到训练文本特征和训练图像特征。

步骤S306，融合训练文本特征和训练图像特征得到训练融合特征。

其中，编码处理是指对数据进行编码，以量化数据，将数据转换为便于模型进行数据处理的特征向量。

具体地，在模型中，先对训练文本进行编码处理得到训练文本特征，对训练图像集合进行编码处理得到训练图像特征，然后将训练文本特征和训练图像特征进行融合得到训练融合特征，训练融合特征集成了训练文档中有效的文本信息和图像信息，是一种多模态特征。

步骤S308，基于标签文本摘要，对训练融合特征进行解码处理，得到预测文本摘要。

其中，解码处理是指对特征向量进行解码，使特征向量还原为便于理解的数据。

具体地，在模型中，可以基于标签文本摘要对训练融合特征进行解码处理，在生成用于作为预测文本摘要的词语序列时，参考标签文本摘要的相关信息，使得生成的预测文本摘要具有一定的可靠性、准确性，避免模型在训练时受到完全错误的预测结果的影响。在对训练融合特征进行解码生成预测文本摘要中的某个词语时，可以参考标签文本摘要中的历史部分，通过标签文本摘要中的历史部分来引导生成下一个词语，可以提高生成的词语的准确性，进而提高生成的预测文本摘要的准确性。

在一个实施例中，在解码生成用于作为预测文本摘要的词语序列时，可以是词语序列中的各个词语均参考其在标签文本摘要中对应的历史部分，例如，在解码生成第t个词时参考标签文本摘要中前t-1个词。在解码生成用于作为预测文本摘要的词语序列时，也可以是词语序列中的一部分词语参考其在标签文本摘要中对应的历史部分，另一部分词语参考已解码生成的词语，例如，在解码生成第t个词时，使用一个概率p去选择是参考其在标签文本摘要中对应的历史部分，还是参考当前已解码生成的词语。

上述实施例中，将训练文本、训练图像集合和标签文本摘要输入初始文本摘要生成模型，分别对训练文本和训练图像集合进行编码处理，得到训练文本特征和训练图像特征，融合训练文本特征和训练图像特征得到训练融合特征，基于标签文本摘要，对训练融合特征进行解码处理，得到预测文本摘要。这样，基于标签文本摘要引导模型生成预测文本摘要，能够提高模型的训练质量，加快模型的收敛速度。

在一个实施例中，分别对训练文本和训练图像集合进行编码处理，得到训练文本特征和训练图像特征，包括：

对训练文本进行特征提取，得到初始文本特征，对初始文本特征进行特征编码，得到训练文本特征；对训练图像集合中的训练图像进行对象识别，得到至少一个目标对象对应的对象图像特征；基于训练图像集合中各个训练图像对应的各个对象图像特征，得到训练图像集合对应的初始图像特征；对初始图像特征进行特征编码，得到训练图像特征。

其中，特征提取是将高维原始数据(例如，图像，句子)映射到低维表征向量，使得高维的原始数据被映射到低维特征向量之后变得可分。特征编码是将初步提取得到的特征向量进行进一步的编码，从而得到语义表达能力更强的特征向量。

对象识别是指识别图像中的对象。可以理解，图像中的对象可以包括动物、植物、物体等。目标对象是指从训练图像中识别得到的对象。对象图像特征是指目标对象在训练图像中所对应的图像特征。

具体地，针对训练文本，可以先对训练文本进行特征提取得到初始文本特征，再对初始文本特征进行特征编码得到训练文本特征。例如，通过嵌入层(Embedding层)对训练文本进行特征提取得到初始文本特征，通过编码层对初始文本特征进行特征编码得到训练文本特征。

针对训练图像集合，先对训练图像集合中的训练图像进行对象识别，得到训练图像中至少一个目标对象对应的对象图像特征，然后汇总训练图像集合中各个训练图像对应的各个对象图像特征，得到训练图像集合对应的初始图像特征，最后对初始图像特征进行特征编码得到训练图像特征。例如，通过对象识别层对训练图像集合中的训练图像进行对象识别，基于对象识别结果得到初始图像特征，通过编码层对初始图像特征进行特征编码得到训练图像特征。

在一个实施例中，初始图像特征可以是用预先训练好的网络提取得到的。也就是，在对初始文本摘要生成模型训练时，各个训练图像集合对应的初始图像特征是固定的，针对图像，模型训练主要是调整用于对初始图像特征进行特征编码的模型参数。

在一个实施例中，可以参考以下公式(1)计算得到初始文本特征：

其中，表示初始文本特征，X表示训练文本对应的token embedding(即字符文本特征)，E_pe表示训练文本对应的位置embedding(即字符位置特征)。表示训练文本的长度，d表示向量维度。

上述实施例中，对训练文本进行特征提取得到初始文本特征，对初始文本特征进行特征编码得到训练文本特征，通过特征提取和特征编码可以得到包含重要语义信息的训练文本特征。对训练图像集合中的训练图像进行对象识别，得到至少一个目标对象对应的对象图像特征，基于训练图像集合中各个训练图像对应的各个对象图像特征，得到训练图像集合对应的初始图像特征，对初始图像特征进行特征编码得到训练图像特征，通过对象识别和特征编码可以得到包含重要语义信息的训练图像特征。这样的训练文本特征和训练图像特征有助于提高模型的训练质量。

在一个实施例中，基于训练图像集合中各个训练图像对应的各个对象图像特征，得到训练图像集合对应的初始图像特征，包括：

分别对各个训练图像对应的图像标识、各个目标对象对应的对象标识、各个目标对象对应的识别位置进行特征提取，得到各个训练图像对应的图像标识特征、各个目标对象对应的对象标识特征、各个识别位置对应的识别位置特征；基于同一目标对象对应的对象标识特征、识别位置特征、对象图像特征、以及所属训练图像对应的图像标识特征，得到目标对象对应的初始图像子特征；基于各个训练图像中各个目标对象分别对应的初始图像子特征，得到初始图像特征。

其中，图像标识是一种标识，用于唯一标识图像，具体可以包括字母、数字和符号中至少一种字符的字符串。对象标识是一种标识，用于唯一标识对象，具体可以包括字母、数字和符号中至少一种字符的字符串。识别位置是指从图像中识别出的对象在图像中的位置。

具体地，训练图像集合可能包括多个训练图像，每个训练图像可能包括多个目标对象，为了保留图像之间的顺序信息，对象之间的顺序信息，可以将对象图像特征和融合有顺序信息的特征进行结合得到最终的初始图像特征。首先，分别对各个训练图像对应的图像标识进行特征提取，得到各个训练图像分别对应的图像标识特征，对各个目标对象对应的对象标识进行特征提取，得到各个目标对象分别对应的对象标识特征，对各个目标对象对应的识别位置进行特征提取，得到各个识别位置分别对应的识别位置特征。然后，将同一目标对象对应的对象标识特征、识别位置特征、对象图像特征、以及所属训练图像对应的图像标识特征进行组合，得到单个目标对象对应的初始图像子特征。最终，基于训练图像集合中各个训练图像中各个目标对象分别对应的初始图像子特征，得到训练图像集合对应的初始图像特征。

在一个实施例中，可以参考以下公式(2)和公式(3)计算得到初始图像特征：

其中，O表示初始图像特征，o_ij表示第i个图像中的第j个目标对象对应的初始图像子特征。v_ij表示第i个图像中的第j个目标对象对应的对象图像特征。表示第i个图像中的第j个目标对象对应的识别位置特征。表示第i个图像对应的图像标识特征，表示第j个目标对象对应的对象标识特征。n表示训练图像集合中训练图像的数量，m表示训练图像中目标对象的数量。

参考图4，若训练图像集合包括多个图像，为了保留图像间的顺序信息，会将提取出来的object embeddings(即对象图像特征)加上额外的Image ID embeddings(图像标识特征)、Object ID Embeddings(对象标识特征)和RoI box Embeddings(即识别位置特征)，从而得到初始图像特征。图5中的第一行数据表示object embeddings，第二行数据表示Image ID embeddings，第三行数据表示Object ID Embeddings，第四行数据表示RoI boxEmbeddings。

上述实施例中，分别对各个训练图像对应的图像标识、各个目标对象对应的对象标识、各个目标对象对应的识别位置进行特征提取，得到各个训练图像对应的图像标识特征、各个目标对象对应的对象标识特征、各个识别位置对应的识别位置特征，基于同一目标对象对应的对象标识特征、识别位置特征、对象图像特征、以及所属训练图像对应的图像标识特征，得到目标对象对应的初始图像子特征，基于各个训练图像中各个目标对象分别对应的初始图像子特征，得到初始图像特征。这样，对象标识特征、识别位置特征、对象图像特征、图像标识特征可以表征图像和对象的顺序信息，基于目标对象对应的对象标识特征、识别位置特征、对象图像特征、以及所属训练图像对应的图像标识特征得到的初始图像特征，包含了图像之间的顺序信息、对象之间的顺序信息，在生成文本摘要时可以有序参考图像中的相关信息，有助于提高生成的文本摘要的准确性，提高模型的训练质量。

在一个实施例中，当前初始特征为初始文本特征或初始图像特征。对当前初始特征进行特征编码，得到对应的当前训练特征，包括：

对当前初始特征进行注意力处理，得到当前注意力特征；融合当前初始特征和当前注意力特征，得到初始融合特征；对初始融合特征进行特征变换，得到当前变换特征；融合当前变换特征和初始融合特征，得到目标融合特征；基于目标融合特征得到当前训练特征。

其中，注意力处理用于突出特征中包含重要语义信息的数据。特征变换用于将特征映射到更高维度的空间中。

具体地，对初始文本特征进行特征编码和对初始图像特征进行特征编码的处理过程类似。以当前初始特征为例说明特征编码的处理过程，当前初始特征为初始文本特征或初始图像特征。首先对当前初始特征进行注意力处理得到当前注意力特征，当前注意力特征中突出了当前初始特征中的重点内容。再融合当前初始特征和当前注意力特征得到初始融合特征，将当前初始特征和当前注意力特征进行融合可以防止模型在训练过程中完全遗忘当前初始特征。接着对初始融合特征进行特征变换得到当前变换特征，将初始融合特征映射到更高维度的空间中，提高模型对特征的识别能力。进一步的，融合当前变换特征和初始融合特征得到目标融合特征，将当前变换特征和初始融合特征进行融合可以防止模型在训练过程中完全遗忘初始融合特征。最终，基于目标融合特征得到当前训练特征。

可以理解，若当前初始特征为初始文本特征，则当前训练特征为训练文本特征；若当前初始特征为初始图像特征，则当前训练特征为训练图像特征。

在一个实施例中，初始文本摘要生成模型包括文本编码器和图像编码器，文本编码器用于对文本进行编码处理，图像编码器用于对图像进行编码处理。当前编码器为文本编码器或图像编码器，当前编码器包括至少一个编码层，各个编码层用于对输入数据进行特征编码，当前编码层的输出数据用于作为下一编码层的输入数据，输出编码层的输出数据为当前训练特征。

以文本编码器为例，文本编码器包括至少一个有序连接的编码层，文本编码器中第一编码层的输入数据为初始文本特征，第一编码层的输出数据为目标融合特征，将目标融合特征作为新的初始文本特征输入第二编码层，第二编码层输出新的目标融合特征，将新的目标融合特征作为新的初始文本特征输入第三编码层，第三编码层输出新的目标融合特征，以此类推，当前编码层的输出数据用于作为下一编码层的输入数据，将文本编码器的最后一个编码层的输出数据作为训练文本特征。

在一个实施例中，可以参考以下公式(4)和公式(5)计算得到训练文本特征：

其中，表示文本编码器中第l-1个编码层的输出数据，也就是，文本编码器中第l个编码层的输入数据。MHA表示注意力处理，即Multi-Head Attention(多头自注意力)操作。表示文本编码器中第l个编码层对应的初始融合特征。FFN(Feed ForwardNetwork)表示前馈神经网络，用于提供非线性变换，将数据映射到更高维度的空间中。表示文本编码器中第l个编码层的输出数据，也就是，文本编码器中第l个编码层对应的目标融合特征。

可以理解，若文本编码器包括L层编码层，则最终得到的训练文本特征为

在一个实施例中，可以参考以下公式(6)和公式(7)计算得到目标融合特征：

其中，表示图像编码器中第l-1个编码层的输出数据，也就是，图像编码器第l个编码层的输入数据。MHA表示注意力处理，即Multi-Head Attention操作。表示图像编码器第l个编码层对应的初始融合特征。FFN表示前馈神经网络，用于提供非线性变换，将数据映射到更高维度的空间中。表示图像编码器第l个编码层的输出数据，也就是，图像编码器第l个编码层对应的目标融合特征。表示目标对象的数量，d_v表示初始图像特征的向量维度。

可以理解，若图像编码器包括H层编码层，则最终得到的训练文本特征为

在一个实施例中，注意力处理可以采用单头注意力机制实现，也可以采用多头注意力机制实现。

上述实施例中，对当前初始特征进行注意力处理，得到当前注意力特征；融合当前初始特征和当前注意力特征，得到初始融合特征；对初始融合特征进行特征变换，得到当前变换特征；融合当前变换特征和初始融合特征，得到目标融合特征；基于目标融合特征得到当前训练特征。在进行特征编码时，通过注意力处理和特征变换，能够得到准确的训练文本特征和训练图像特征，进而有助于提高生成的文本摘要的准确性，提高模型的训练质量。

在一个实施例中，融合训练文本特征和训练图像特征得到训练融合特征，包括：

对训练文本特征和训练图像特征进行模态间注意力处理，得到融合注意力特征；基于训练文本特征和融合注意力特征，得到图像过滤特征；基于图像过滤特征，对融合注意力特征进行特征过滤，得到融合增强特征；对融合增强特征和训练文本特征进行拼接处理，得到训练融合特征。

其中，模态间注意力处理是指对不同的模态数据进行注意力处理，用于将不同的模态数据进行信息交互，以突出两种模态数据之间相关联的信息。模态是指信息的来源或者形式。例如，文本特征是基于文本生成的，为一种模态数据，图像特征是基于图像生成的，为另一种模态数据。特征过滤是指过滤特征中的冗余数据、无效数据。

具体地，在融合训练文本特征和训练图像特征时，先对训练文本特征和训练图像特征进行模态间注意力处理，得到融合注意力特征，融合注意力特征中突出了训练文本特征和训练图像特征中的关联内容。然后基于训练文本特征和融合注意力特征得到图像过滤特征，图像过滤特征用于过滤冗余的、无用的图像特征。进一步的，基于图像过滤特征对融合注意力特征进行特征过滤得到融合增强特征，融合增强特征中包含了文本特征和图像特征中强关联的内容。最终，将融合增强特征和训练文本特征进行拼接处理得到训练融合特征。

在一个实施例中，模态间注意力处理可以是基于常用的注意力机制实现的注意力处理，例如，键值对注意力机制、多头注意力机制等。模态间注意力处理的输入信息为不同的模态数据。当然，也可以基于自定义公式或算法实现模态间注意力处理。

上述实施例中，对训练文本特征和训练图像特征进行模态间注意力处理，得到融合注意力特征；基于训练文本特征和融合注意力特征，得到图像过滤特征；基于图像过滤特征，对融合注意力特征进行特征过滤，得到融合增强特征；对融合增强特征和训练文本特征进行拼接处理，得到训练融合特征。在融合训练文本特征和训练图像特征时，通过模态间注意力处理和特征过滤，能够得到融合了重要文本信息和重要图像信息的训练融合特征，进而有助于提高生成的文本摘要的准确性，提高模型的训练质量。

在一个实施例中，基于训练文本特征和融合注意力特征，得到图像过滤特征，包括：

拼接训练文本特征和融合注意力特征，得到第一拼接特征；基于第一模型参数，对第一拼接特征进行特征变换，得到第一变换特征；对第一变换特征进行特征映射，得到图像过滤特征。

其中，第一模型参数是模型的一种模型参数，用于对第一拼接特征进行特征变换。第一模型参数是模型中的待学习参数，在模型训练过程中，第一模型参数会被调整。特征映射用于将特征映射到预设范围内，例如，可以采用激活函数进行特征映射。

具体地，在计算图像过滤特征时，可以先拼接训练文本特征和融合注意力特征，得到第一拼接特征，然后基于第一模型参数对第一拼接特征进行特征变换，得到第一变换特征，最后对第一变换特征进行特征映射，得到图像过滤特征。通过特征映射可以将第一变换特征中的数据统一映射到预设范围内，通过特征映射得到的图像过滤特征相当于权重系数，后续模型将图像过滤特征和融合注意力特征进行加权融合即可快速过滤融合注意力特征中的无用图像特征。

上述实施例中，拼接训练文本特征和融合注意力特征得到第一拼接特征，基于第一模型参数对第一拼接特征进行特征变换，得到第一变换特征，对第一变换特征进行特征映射得到图像过滤特征。通过拼接、特征变换和特征映射可以从训练文本特征和融合注意力特征中确定冗余特征，得到用于过滤融合注意力特征中无用图像特征的图像过滤特征。

在一个实施例中，对融合增强特征和训练文本特征进行拼接处理，得到训练融合特征，包括：拼接融合增强特征和训练文本特征，得到第二拼接特征；基于第二模型参数，对第二拼接特征进行特征变换，得到训练融合特征。

其中，第二模型参数是模型的一种模型参数，用于对第二拼接特征进行特征变换。第二模型参数是模型中的待学习参数，在模型训练过程中，第二模型参数会被调整。

具体地，在进行拼接处理时，除了拼接融合增强特征和训练文本特征得到训练融合特征，还可以先拼接融合增强特征和训练文本特征，得到第二拼接特征，再基于第二模型参数对第二拼接特征进行特征变换，得到训练融合特征，使得训练融合特征可以在模型训练过程中灵活调整，加快模型训练速度。

在一个实施例中，可以参考以下公式(8)至公式(12)计算得到训练融合特征：

其中，CMHA(Cross-modal Multi-Head Attention)表示跨模态的注意力处理，即模态间注意力处理，作用是使文本特征和图像特征进行交互。M表示融合注意力特征，CMHA是一种查询-键值对注意力机制，Q表示查询向量，K表示键向量，V表示值向量。W_q、W_k、W_v是待学习参数，用于将数据线性投影到三个不同的空间，以分别得到查询向量、键向量和值向量。表示训练文本特征，表示训练图像特征。d_c表示Q、K、V的向量维度。

G表示图像过滤特征，Concat表示拼接，Sigmoid表示激活函数，W_g、b_g表示第一模型参数，是待学习参数。Z_T+V表示训练融合特征，也可以称为多模态特征。W_z、b_z表示第二模型参数，是待学习参数。表示点乘。G是一个门机制，和M相点乘的作用是过滤掉M中无用的特征。

在一个实施例中，标签文本摘要包括多个有序排列的训练摘要词语。基于标签文本摘要，对训练融合特征进行解码处理，得到预测文本摘要，包括：

从标签文本摘要对应的各个词语位置中确定目标位置；从标签文本摘要中，获取在目标位置之前的训练摘要词语作为参考摘要词语，对参考摘要词语进行编码处理，得到参考摘要特征；基于训练融合特征和参考摘要特征，得到预测摘要特征；对预测摘要特征进行解码处理，得到目标位置对应的预测摘要词语；获取下一词语位置作为目标位置，返回从标签文本摘要中，获取在目标位置之前的训练摘要词语作为参考摘要词语的步骤执行，直至满足结束条件，得到多个预测摘要词语；基于各个预测摘要词语得到预测文本摘要。

其中，标签文本摘要包括多个有序排列的训练摘要词语。例如，标签文本摘要为“Ilove you”，则多个有序排列的训练摘要词语为I-love-you。

具体地，在基于标签文本摘要对训练融合特征进行解码处理时，可以依次解码生成用于组成预测文本摘要的各个预测摘要词语，在解码生成某一预测摘要词语时需要参考标签文本摘要中相应位置之前的历史部分，通过参考标签文本摘要中的历史部分可以引导解码出较正确的预测摘要词语。

计算机设备可以从标签文本摘要对应的各个词语位置中选择第一个词语位置作为目标位置，从标签文本摘要中获取在目标位置之前的训练摘要词语作为参考摘要词语，若标签文本摘要在目标位置之前不存在训练摘要词语，则获取预设字符作为参考摘要词语，对参考摘要词语进行编码处理得到参考摘要特征，融合训练融合特征和参考摘要特征得到预测摘要特征，最终对预测摘要特征进行解码处理得到目标位置对应的预测摘要词语，即得到第一个词语位置对应的预测摘要词语。计算机设备从标签文本摘要对应的各个词语位置中获取第二个词语位置作为目标位置，从标签文本摘要中获取在目标位置之前的训练摘要词语作为参考摘要词语，即从标签文本摘要中获取第一个词语位置上的训练摘要词语作为参考摘要词语，对参考摘要词语进行编码处理得到参考摘要特征，融合训练融合特征和参考摘要特征得到预测摘要特征，最终对预测摘要特征进行解码处理得到目标位置对应的预测摘要词语，即得到第二个词语位置对应的预测摘要词语。计算机设备从标签文本摘要对应的各个词语位置中获取第三个词语位置作为目标位置，从标签文本摘要中获取在目标位置之前的训练摘要词语作为参考摘要词语，即从标签文本摘要中获取第一个词语位置和第二个词语位置上的训练摘要词语作为参考摘要词语，对参考摘要词语进行编码处理得到参考摘要特征，融合训练融合特征和参考摘要特征得到预测摘要特征，最终对预测摘要特征进行解码处理得到目标位置对应的预测摘要词语，即得到第三个词语位置对应的预测摘要词语。以此类推，直至满足结束条件，得到多个预测摘要词语，最终将各个预测摘要词语进行有序排列得到预测文本摘要。

可以理解，预测摘要特征中融合了标签文本摘要中历史部分的相关信息，对预测摘要特征进行解码处理得到的预测摘要词语，比直接对训练融合特征进行解码处理得到的预测摘要词语

其中，结束条件可以是预测摘要词语的总数超过预设数量。若预测摘要词语的总数超过预设数量，则停止解码，将已解码得到的各个预测摘要词语进行有序排列得到预测文本摘要。结束条件也可以是得到表征结束符的预测摘要词语。若解码得到表征结束符的预测摘要词语，则停止解码，将已解码得到的各个预测摘要词语进行有序排列得到预测文本摘要。

若标签文本摘要在目标位置之前不存在训练摘要词语，则获取预设字符作为参考摘要词语。预设字符可以根据实际需要进行设置，例如，将起始符作为预设字符。

在一个实施例中，对预测摘要特征进行解码处理，得到目标位置对应的预测摘要词语，包括：基于第三模型参数，对预测摘要特征进行特征变换，得到第三变换特征；对第三变换特征进行归一化处理，得到目标位置对应的预测摘要词语。

其中，第三模型参数是模型的一种模型参数，用于对预测摘要特征进行特征变换。第三模型参数是模型中的待学习参数，在模型训练过程中，第三模型参数会被调整。

具体地，在进行解码处理时，可以基于第三模型参数对预测摘要特征进行特征变换，得到第三变换特征，再对第三变换特征进行归一化处理，得到目标位置对应的预测摘要词语，使得预测摘要词语可以在模型训练过程中灵活调整，加快模型训练速度。

上述实施例中，有序生成预测摘要词语来组成预测文本摘要，在生成预测摘要词语时参考标签文本摘要中相应位置之前的训练摘要词语，能够引导模型在前向正确答案的基础上输出较准确的预测摘要词语，避免在词语序列生成的过程中误差进一步放大，从而能够极大的加快模型的收敛速度，令模型训练过程更加快速和平稳。

在一个实施例中，基于训练融合特征和参考摘要特征，得到预测摘要特征，包括：

对参考摘要特征进行注意力处理，得到初始注意力特征，基于初始注意力特征和参考摘要特征得到初始摘要特征；将初始摘要特征和训练融合特征进行交叉注意力处理，得到交叉注意力特征，基于交叉注意力特征和初始摘要特征得到中间摘要特征；对中间摘要特征进行特征变换，得到目标摘要特征，基于中间摘要特征和目标摘要特征得到预测摘要特征。

其中，交叉注意力处理用于将不同的数据进行交互。交叉注意力处理是融合了特征交叉和注意力处理的操作。

具体地，在基于训练融合特征和参考摘要特征得到预测摘要特征时，首先对参考摘要特征进行注意力处理得到初始注意力特征，初始注意力特征中突出了参考摘要特征中的重点内容。再融合初始注意力特征和参考摘要特征得到初始摘要特征，将初始注意力特征和参考摘要特征进行融合可以防止模型在训练过程中完全遗忘参考摘要特征。接着将初始摘要特征和训练融合特征进行交叉注意力处理得到交叉注意力特征，通过交叉注意力处理将初始摘要特征和训练融合特征进行充分的交互，突出初始摘要特征和训练融合特征之间的关联内容。进一步的，融合交叉注意力特征和初始摘要特征得到中间摘要特征，将交叉注意力特征和初始摘要特征进行融合可以防止模型在训练过程中完全遗忘初始摘要特征。然后，对中间摘要特征进行特征变换得到目标摘要特征，将中间摘要特征映射到更高维度的空间中，提高模型对特征的识别能力。最终，融合中间摘要特征和目标摘要特征得到预测摘要特征。

在一个实施例中，交叉注意力处理可以是基于常用的交叉注意力机制实现，也可以基于自定义公式或算法实现。

在一个实施例中，对参考摘要特征进行注意力处理，得到初始注意力特征，基于初始注意力特征和参考摘要特征得到初始摘要特征；将初始摘要特征和训练融合特征进行交叉注意力处理，得到交叉注意力特征，基于交叉注意力特征和初始摘要特征得到中间摘要特征；对中间摘要特征进行特征变换，得到目标摘要特征，基于中间摘要特征和目标摘要特征得到预测摘要特征。

在一个实施例中，将初始摘要特征进行注意力处理得到第一注意力特征，将训练融合特征进行注意力处理得到第二注意力特征，将第一注意力特征和第二注意力特征进行特征交叉得到交叉注意力特征。

上述实施例中，对参考摘要特征进行注意力处理，得到初始注意力特征，基于初始注意力特征和参考摘要特征得到初始摘要特征；将初始摘要特征和训练融合特征进行交叉注意力处理，得到交叉注意力特征，基于交叉注意力特征和初始摘要特征得到中间摘要特征；对中间摘要特征进行特征变换，得到目标摘要特征，基于中间摘要特征和目标摘要特征得到预测摘要特征。通过注意力处理、交叉主力处理和特征交换，能够将参考摘要特征和训练融合特征进行充分的数据交互，最终得到较准确的预测摘要特征。

在一个实施例中，可以参考以下公式(13)至公式(16)计算得到预测文本摘要：

其中，表示标签文本摘要中y_1:t-1(即标签文本摘要中第1至t-1个词)的词嵌入向量表示。MHA表示注意力处理。表示在生成第t个预测摘要词语时的初始摘要特征。MHCA(Multi-Head Cross-Attention)表示交叉注意力处理。表示在生成第t个预测摘要词语时的中间摘要特征。FFN表示前馈神经网络。表示在生成第t个预测摘要词语时的预测摘要特征。

可以理解，初始文本摘要生成模型包括解码器，解码器包括至少一个解码层，各个编码层用于对输入数据进行一系列的注意力处理、交叉注意力处理、特征变换，当前编码层的输出数据用于作为下一编码层的输入数据，输出编码层的输出数据为预测摘要特征。例如，解码器包括三层解码层，则对起始符进行编码处理得到起始符对应的参考摘要特征，将起始符对应的参考摘要特征输入第一解码层，在第一编码层中进行公式(13)、公式(14)和公式(15)的数据处理，得到第一解码层的输出数据，将第一解码层的输出数据输入第二解码层，在第二编码层中进行如公式(13)、公式(14)和公式(15)的数据处理，得到第二解码层的输出数据，将第二解码层的输出数据输入第三解码层，在第三编码层中进行如公式(13)、公式(14)和公式(15)的数据处理，得到第三解码层的输出数据，将第三解码层的输出数据作为第一个词语位置对应的预测摘要特征，参考公式(16)对该预测摘要特征进行解码处理，得到第一个预测摘要词语。同理，对标签文本摘要中的第一个训练摘要词语进行编码处理得到第一个训练摘要词语对应的参考摘要特征，将参考摘要特征输入第一解码层，经过各个解码层的数据处理，最终得到第二个词语位置对应的预测摘要特征，对该预测摘要特征进行解码处理，得到第二个预测摘要词语。以此类推，最终得到各个预测摘要词语，各个预测摘要词语组成预测文本摘要。

若解码器包括L层解码层，则最终得到的第t个预测摘要词语对应的预测摘要特征为W_o、b_o表示第三模型参数，是待学习参数。表示第t个预测摘要词语。

在一个实施例中，参考图5，初始文本摘要生成模型包括文本编码器、图像编码器和解码器。将训练文本或初始文本特征(X)输入文本编码器进行编码处理得到训练文本特征将训练图像集合或初始文本特征(O)输入图像编码器进行编码处理得到训练图像特征将训练文本特征和训练图像特征进行融合得到训练融合特征(Z_T+V)，将训练融合特征和标签文本摘要(Y)输入解码器，基于标签文本摘要对训练融合特征进行解码处理得到预测摘要特征，对预测摘要特征进行特征解码(例如，通过softmax函数进行归一化处理)得到预测文本摘要(Y’)。

在一个实施例中，初始文本摘要生成模型对应的训练集包括多个训练文本分别对应的训练数据，训练数据包括训练文本和对应的训练图像集合、标签文本摘要、第一训练数据、掩码标签数据、掩码训练数据和语言标签，训练集包括至少一种语言标签。

将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失，包括：

将训练集中训练文本和对应的训练图像集合、语言标签输入初始文本摘要生成模型，得到与训练文本对应的语言标签匹配的预测文本摘要；基于同一训练文本对应的预测文本摘要和标签文本摘要之间的差异生成目标子损失，基于各个训练文本分别对应的目标子损失得到目标损失。

其中，语言标签用于指示模型输出与语言标签匹配的数据。例如，若语言标签为中文标签，则模型最终输出中文形式的预测文本摘要，若语言标签为英文标签，则模型最终输出英文形式的预测文本摘要。初始文本摘要生成模型对应的训练集包括多个训练文本分别对应的训练数据，各个训练文本存在各自对应的语言标签。训练集包括至少一种语言标签，也就是，训练集可以包括多种语言的训练文本。

具体地，在生成预测文本摘要时，计算机设备可以将训练集中训练文本和对应的训练图像集合、语言标签输入初始文本摘要生成模型，经过模型的数据处理，模型最终输出与训练文本对应的语言标签匹配的预测文本摘要。可以理解，可以得到训练集中各个训练文本分别对应的预测文本摘要，在计算目标损失时，先基于同一训练文本对应的预测文本摘要和标签文本摘要之间的差异生成目标子损失，然后汇总各个训练文本分别对应的目标子损失得到目标损失。

在一个实施例中，计算机设备可以将训练集中训练文本和对应的训练图像集合、标签文本摘要、语言标签输入初始文本摘要生成模型，得到与训练文本对应的语言标签匹配的预测文本摘要。

将训练集中训练文本对应的第一训练数据、掩码训练数据和语言标签输入初始文本摘要生成模型，得到与训练文本对应的语言标签匹配的掩码预测数据；基于同一训练文本对应的掩码标签数据和掩码预测数据之间的差异生成重构子损失，基于各个训练文本分别对应的重构子损失得到重构损失。

具体地，与生成预测文本摘要类似，在生成掩码预测数据时，计算机设备可以将训练集中训练文本对应的第一训练数据、掩码训练数据和语言标签输入初始文本摘要生成模型，经过模型的数据处理，模型最终输出与训练文本对应的语言标签匹配的掩码预测数据。可以理解，可以得到训练集中各个训练文本分别对应的掩码预测数据，在计算重构损失时，先基于同一训练文本对应的掩码标签数据和掩码预测数据之间的差异生成重构子损失，然后汇总各个训练文本分别对应的重构子损失得到重构损失。

相应的，训练完的模型在具体应用时，模型的输入数据也可以包括语言标签，使得模型可以使出与语言标签匹配的文本摘要。

上述实施例中，初始文本摘要生成模型对应的训练集可以包括多种语言的训练文档对应的有关数据，基于这样的训练集训练得到的目标文本摘要生成模型可以应用于生成各种语言文档的文本摘要。在模型训练时，模型的输入数据包括语言标签，语言标签可以指示模型学习当前语言上文本和图像的相关知识，输出与语言标签匹配的数据。

在一个实施例中，可以参考以下公式(17)计算得到目标损失：

其中，表示目标损失，表示预测文本摘要中的第t个预测摘要词语。|y|表示预测文本词语的总数。可以理解，越小，表明预测文本摘要和标签文本摘要越接近。

可以参考以下公式(18)、公式(19)计算得到重构损失：

其中，表示摘要重构损失。MLVM(Masked Language Vision Modeling)表示摘要重构任务，用完整的图像特征来恢复被遮挡的文本摘要，以此提升文本摘要和图像直接的关联，以此来提升摘要质量。K表示文本摘要中被遮挡的词语数量。Y_k表示标签文本摘要中k个被遮挡的词语，即摘要掩码标签数据。q(Y_k)表示Y_k的特征分布，可以认为是先验分布。表示摘要掩码预测数据，表示的特征分布，可以认为是后验分布。

表示图像重构损失。MVLM(Masked Vision Language Modeling)表示图像重构任务，用完整的文本摘要来恢复被遮挡的图像区域，以此提升文本摘要和图像直接的关联，以此来提升摘要质量。m表示训练图像集合中被遮挡的图像区域数量。O_r表示训练图像集合中被遮挡的r个图像区域，即图像掩码标签数据。q(O_r)表示O_r的特征分布，可以认为是先验分布。表示图像掩码预测数据，表示的特征分布，可以认为是后验分布。D_KL是指KL散度计算。

可以参考以下公式(20)、公式(21)计算得到总损失：

其中，表示模型在单个语言上的训练函数、损失函数，包括多模态摘要的目标损失函数和两个辅助的重构损失函数。α和β为两个重构损失分别对应的平衡因子。

表示模型在多个语言上的训练函数、损失函数。L表示语言数量。表示模型在第k个语言上的训练函数、损失函数

在一个实施例中，α和β可以设置为固定值，例如，设置为第一预设值和第二预设值。第一预设值和第二预设值可以根据实际需要进行设置，例如，将第一预设值和第二预设值均设置为1。α和β也可以设置为动态值，用于动态调节模型的训练。例如，α和β随着模型迭代次数的增加而减小。

在一个实施例中，初始文本摘要生成模型包括文本编码器、图像编码器和解码器。将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，包括：

将训练文本输入文本编码器，将训练图像集合输入图像编码器，基于文本编码器和图像编码器的输出结果得到融合编码结果，将融合编码结果和标签文本摘要输入解码器，得到预测文本摘要；将掩码训练数据和第一训练数据输入图像编码器，得到掩码预测数据。

具体地，初始文本摘要生成模型包括文本编码器、图像编码器和解码器。将训练文本输入文本编码器进行编码处理，将训练图像集合输入图像编码器进行编码处理，融合文本编码器和图像编码器的输出结果得到融合编码结果，将融合编码结果和标签文本摘要输入解码器进行解码处理，得到预测文本摘要。摘要生成任务和重构任务共享图像编码器，将掩码训练数据和第一训练数据输入图像编码器进行数据处理，得到掩码预测数据。

在一个实施例中，为了减少模型计算量，可以通过外部工具预先对训练图像集合进行特征提取得到初始图像特征，将训练文本和初始图像特征输入初始文本摘要生成模型，文本编码器的输入数据为文本，图像编码器的输入数据为初始图像特征。在一个实施例中，也可以通过外部工具预先对训练文本进行特征提取得到初始文本特征，将初始文本特征和初始图像特征输入初始文本摘要生成模型，文本编码器的输入数据为初始文本特征，图像编码器的输入数据为初始图像特征。

在一个实施例中，为了减少模型训练时间，初始文本摘要生成模型中的文本编码器和解码器可以是从经过预训练的文本处理模型中获取的，也就是，文本编码器和解码器的初始参数是经过预训练得到的。例如，可以从单纯基于文本生成文本摘要的文本处理模型中获取文本编码器和解码器，将文本编码器和解码器加上图像编码器得到初始文本摘要生成模型。

上述实施例中，初始文本摘要生成模型包括文本编码器、图像编码器和解码器，摘要生成任务和重构任务共享同一图像编码器，重构任务可以有助于提高摘要生成任务的处理能力，提高模型生成的文本摘要的质量。

在一个实施例中，如图6所示，提供了一种文本摘要生成方法，以该方法应用于计算机设备来举例说明，计算机设备可以是终端或服务器，由终端或服务器自身单独执行，也可以通过终端和服务器之间的交互来实现。参考图6，文本摘要生成方法包括以下步骤：

步骤S602，获取目标文本和目标文本对应的目标图像集合。

步骤S604，将目标文本和目标图像集合输入目标文本摘要生成模型，得到目标文本对应的目标文本摘要。

其中，目标文本和对应的目标图像集合组成目标文档，目标文档是指待确定其对应的文本摘要的文档。

具体地，计算机设备可以训练得到用于生成文本摘要的目标文本摘要生成模型，将目标文本和对应的目标图像集合输入目标文本摘要生成模型，经过模型的数据处理，最终得到目标文本对应的目标文本摘要。

可以理解，目标文本摘要生成模型的具体训练过程可以参照前述文本摘要生成方法各个实施例的内容，此处不再赘述。

在一个实施例中，将目标文本和目标图像集合输入目标文本摘要生成模型，在模型中，分别对目标文本和目标图像集合进行编码处理，得到目标文本特征和目标图像特征，融合目标文本特征和目标图像特征，得到目标融合特征，对目标融合特征进行解码处理，得到目标文本摘要。对目标融合特征进行解码时可以是有序解码出词语序列，从而得到目标文本摘要。在解码生成目标文本摘要中的某个词语时可以参考已解码得到的词语。

可以理解，对目标文本和目标图像集合进行编码处理的具体过程，可以参考前述文本摘要生成方法中对训练文本和训练图像集合进行编码处理的具体过程。融合目标文本特征和目标图像特征的具体过程，可以参考前述文本摘要生成方法中融合训练文本特征和训练图像特征的具体过程。

上述文本摘要生成方法，获取目标文本和目标文本对应的目标图像集合，将目标文本和目标图像集合输入目标文本摘要生成模型，得到目标文本对应的目标文本摘要。目标文本摘要生成模型是将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于预测文本摘要和标签文本摘要之间的差异生成目标损失，基于掩码标签数据和掩码预测数据之间的差异生成重构损失，基于目标损失和重构损失调整初始文本摘要生成模型的模型参数得到的。这样，在训练模型时，训练损失包括目标损失和重构损失，目标损失对应摘要生成任务，通过文本信息和图像信息来恢复原始的文本摘要，目标损失可以指导模型基于文本对应的文本信息和图像信息来生成文本摘要，重构损失对应重构任务，通过第一训练数据和第二训练数据中没有被掩码的数据来恢复第二训练数据中被掩码的数据，重构损失有助于增强第一训练数据和第二训练数据之间的关联，指导模型从文本对应的图像信息中学习到与文本摘要相关的信息，从而有助于提升模型生成的文本摘要的质量。基于目标损失和重构损失调整模型参数，能够使得模型输出更优质的文本摘要，有效提高模型的预测准确性。将目标文本和目标图像集合输入目标文本摘要生成模型，通过训练得到的目标文本摘要生成模型来生成文本摘要，可以有效提高生成的文本摘要的质量。

在一个具体的实施例中，本申请的文本摘要生成模型训练方法和文本摘要生成方法可以应用于线上的新闻摘要生成系统中。现有的文本摘要技术无法有效利用文档中的图像，无法生成高质量的文本摘要。例如，参考图7，新闻正文中存在下划线的文字部分出现在了图像里，但它对摘要几乎没有贡献，现有的文本摘要技术无法过滤掉这些无用信息。然后，通过本申请的文本摘要生成模型训练方法可以有效建模图片信息和摘要信息之间的关联，从而生成能表达出摘要含义的图像特征，从而能够产生更加贴切的摘要信息。

本申请的文本摘要生成模型训练方法和文本摘要生成方法包括以下步骤：

1、模型训练

1-1、目标损失

参考图8，文本摘要生成模型包括文本编码器、图像编码器(也可以称为视觉编码器)和解码器。文本编码器和解码器的架构可以参考预训练的Transformer网络的架构，也可以自定义。

将训练文本(X)输入待训练的文本摘要生成模型(即初始文本摘要生成模型)，训练文本通过Embedding层得到初始文本特征，将初始文本特征输入文本编码器中进行Multi-Head Attention操作，得到训练文本特征将训练文本对应的训练图像集合输入待训练的文本摘要生成模型，训练图像集合通过Embedding层得到初始图像特征(O)，将初始图像特征输入图像编码器中进行Multi-Head Attention操作，得到训练文本特征此外，也可以通过外部工具(例如，Faster R-CNN模型)预先提取得到初始图像特征(O)，将初始图像特征输入待训练的文本摘要生成模型，将初始图像特征输入图像编码器中进行Multi-Head Attention操作，得到训练文本特征之后再对和进行特征融合(也可以称为Text-Vision Fusion操作)，以此来提取有效的图片信息，得到多模态特征Z_T+V。之后将Z_T+V和标签文本摘要(Y)输入解码器中，将解码器的输出经过归一化处理产生预测文本摘要，例如，将解码器的输出通过Softmax函数进行解码，产生预测文本摘要Y’。基于标签文本摘要和预测文本摘要之间的差异生成目标损失

1-2、摘要重构损失

为了提高模型的训练质量，在模型训练时引入摘要重构任务(可以称为MLVM)。MLVM：用完整的图像特征来恢复摘要中被遮挡的词，以此提升词和图像直接的关联，以此来提升摘要质量。将初始图像特征(O)和标签文本摘要中未被遮挡部分(Y_mask，即摘要掩码训练数据)输入图像编码器进行数据处理，得到摘要掩码预测数据基于标签文本摘要中被遮挡部分(Y_k，即摘要掩码标签数据)和摘要掩码预测数据之间的差异生成摘要重构损失

1-3、图像重构损失

为了提高模型的训练质量，在模型训练时引入图像重构任务(可以称为MVLM)。MVLM：将摘要信号直接作用于被抹掉一部分的图像特征上，以增强视觉特征和摘要间的关联性，以此来提升摘要质量。将初始图像特征中未被遮挡部分(O_mask)和标签文本摘要(Y)输入图像编码器进行数据处理，得到图像掩码预测数据基于初始图像特征中被遮挡部分(O_r，即图像掩码标签数据)和图像掩码预测数据之间的差异生成图像重构损失

基于目标损失、摘要重构损失和图像重构损失得到总损失，基于总损失进行反向传播来更新模型参数，直至满足收敛条件，得到训练完成的文本摘要生成模型(即目标文本摘要生成模型)。

若模型的训练集包括多个语言的训练数据，则可以先计算在单个语言上的训练损失，再综合各个语言的训练损失得到总损失。在单个语言上的训练损失包括目标损失、摘要重构损失和图像重构损失。

2、模型应用

将待生成摘要的新闻所包含的文本和图像输入目标文本摘要生成模型，通过模型的数据处理输出该新闻对应的新闻摘要。新闻的新闻摘要可以用于展示，以便用户快速了解新闻的主要内容。

本实施例中，提出一种多语言多模态摘要生成方法，在模型训练时可以充分建模图像信息和文本信息，从输入的文本信息和多个图像信息中学习到对当前语言的摘要最重要的信息，从而提高摘要的精确度。在模型训练时可以从图片信息中学习得到和不同语言相关联的有效信息，同时增强了多个语言上的摘要精确性，更加具有实用性。

可以理解，本申请的文本摘要生成模型训练方法和文本摘要生成方法可以应用于线上的新闻摘要生成系统中，还可以应用于其他的摘要生成系统中，例如，论文摘要生成系统、推送摘要生成系统等。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本摘要生成模型训练方法的文本摘要生成模型训练装置，一种用于实现上述所涉及的文本摘要生成方法的文本摘要生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本摘要生成模型训练装置实施例中的具体限定可以参见上文中对于文本摘要生成模型训练方法的限定，下面所提供的一个或多个文本摘要生成装置实施例中的具体限定可以参见上文中对于文本摘要生成方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种文本摘要生成模型训练装置，包括：数据获取模块902、第一数据处理模块904、第二数据处理模块906和模型参数调整模块908，其中：

数据获取模块902，用于获取训练文本和训练文本对应的训练图像集合、标签文本摘要，获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，第一训练数据和第二训练数据是从训练图像集合和标签文本摘要中确定的。

第一数据处理模块904，用于将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失。

第二数据处理模块906，用于将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失。

模型参数调整模块908，用于基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型；目标文本摘要生成模型用于生成文本的文本摘要。

上述文本摘要生成模型训练装置，在训练模型时，训练损失包括目标损失和重构损失，目标损失对应摘要生成任务，通过文本信息和图像信息来恢复原始的文本摘要，目标损失可以指导模型基于文本对应的文本信息和图像信息来生成文本摘要，重构损失对应重构任务，通过第一训练数据和第二训练数据中没有被掩码的数据来恢复第二训练数据中被掩码的数据，重构损失有助于增强第一训练数据和第二训练数据之间的关联，指导模型从文本对应的图像信息中学习到与文本摘要相关的信息，从而有助于提升模型生成的文本摘要的质量。基于目标损失和重构损失调整模型参数，能够使得模型输出更优质的文本摘要，有效提高模型的预测准确性。通过最终训练得到的目标文本摘要生成模型来生成文本摘要，可以提高生成的文本摘要的质量。

在一个实施例中，重构损失包括摘要重构损失。数据获取模块还用于获取训练图像集合作为第一训练数据，获取标签文本摘要作为第二训练数据；对标签文本摘要进行掩码处理得到摘要掩码标签数据和摘要掩码训练数据，获取摘要掩码标签数据作为掩码标签数据，获取摘要掩码训练数据作为掩码训练数据。第二数据处理模块还用于将训练图像集合和摘要掩码训练数据输入初始文本摘要生成模型，得到摘要掩码预测数据；基于摘要掩码标签数据和摘要掩码预测数据之间的差异生成摘要重构损失。

在一个实施例中，重构损失包括图像重构损失。数据获取模块还用于获取标签文本摘要作为第一训练数据，获取训练图像集合作为第二训练数据；对训练图像集合进行掩码处理得到图像掩码标签数据和图像掩码训练数据，获取图像掩码标签数据作为掩码标签数据，获取图像掩码训练数据作为掩码训练数据。第二数据处理模块还用于将标签文本摘要和图像掩码训练数据输入初始文本摘要生成模型，得到图像掩码预测数据；基于图像掩码标签数据和图像掩码预测数据之间的差异生成图像重构损失。

在一个实施例中，第一数据处理模块还用于：

将训练文本、训练图像集合和标签文本摘要输入初始文本摘要生成模型；分别对训练文本和训练图像集合进行编码处理，得到训练文本特征和训练图像特征；融合训练文本特征和训练图像特征得到训练融合特征；基于标签文本摘要，对训练融合特征进行解码处理，得到预测文本摘要。

在一个实施例中，第一数据处理模块还用于：

在一个实施例中，标签文本摘要包括多个有序排列的训练摘要词语。第一数据处理模块还用于：

在一个实施例中，第一数据处理模块还用于：

第一数据处理模块还用于将训练集中训练文本和对应的训练图像集合、语言标签输入初始文本摘要生成模型，得到与训练文本对应的语言标签匹配的预测文本摘要；基于同一训练文本对应的预测文本摘要和标签文本摘要之间的差异生成目标子损失，基于各个训练文本分别对应的目标子损失得到目标损失。

第二数据处理模块还用于将训练集中训练文本对应的第一训练数据、掩码训练数据和语言标签输入初始文本摘要生成模型，得到与训练文本对应的语言标签匹配的掩码预测数据；基于同一训练文本对应的掩码标签数据和掩码预测数据之间的差异生成重构子损失，基于各个训练文本分别对应的重构子损失得到重构损失。

在一个实施例中，初始文本摘要生成模型包括文本编码器、图像编码器和解码器。第一数据处理模块还用于将训练文本输入文本编码器，将训练图像集合输入图像编码器，基于文本编码器和图像编码器的输出结果得到融合编码结果，将融合编码结果和标签文本摘要输入解码器，得到预测文本摘要。第二数据处理模块还用于将掩码训练数据和第一训练数据输入图像编码器，得到掩码预测数据。

在一个实施例中，如图10所示，提供了一种文本摘要生成装置，包括：目标文本获取模块1002和文本摘要生成模块1004，其中：

目标文本获取模块1002，用于获取目标文本和目标文本对应的目标图像集合。

文本摘要生成模块1004，用于将目标文本和目标图像集合输入目标文本摘要生成模型，得到目标文本对应的目标文本摘要。

目标文本摘要生成模型的训练过程包括以下步骤：

获取训练文本和训练文本对应的训练图像集合、标签文本摘要，获取训练文本对应的第一训练数据、掩码标签数据和掩码训练数据；掩码标签数据是第二训练数据经过掩码处理后被掩码的数据，掩码训练数据是第二训练数据中除掩码标签数据之外的其他数据，第一训练数据和第二训练数据是从训练图像集合和标签文本摘要中确定的；将训练文本和训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于预测文本摘要和标签文本摘要之间的差异生成目标损失；将掩码训练数据和第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于掩码标签数据和掩码预测数据之间的差异生成重构损失；基于目标损失和重构损失调整初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型。

上述文本摘要生成装置，在训练模型时，训练损失包括目标损失和重构损失，目标损失对应摘要生成任务，通过文本信息和图像信息来恢复原始的文本摘要，目标损失可以指导模型基于文本对应的文本信息和图像信息来生成文本摘要，重构损失对应重构任务，通过第一训练数据和第二训练数据中没有被掩码的数据来恢复第二训练数据中被掩码的数据，重构损失有助于增强第一训练数据和第二训练数据之间的关联，指导模型从文本对应的图像信息中学习到与文本摘要相关的信息，从而有助于提升模型生成的文本摘要的质量。基于目标损失和重构损失调整模型参数，能够使得模型输出更优质的文本摘要，有效提高模型的预测准确性。将目标文本和目标图像集合输入目标文本摘要生成模型，通过训练得到的目标文本摘要生成模型来生成文本摘要，可以有效提高生成的文本摘要的质量。

上述文本摘要生成模型训练装置和文本摘要生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练集、目标文本摘要生成模型等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本摘要生成模型训练方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本摘要生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11、12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本摘要生成模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述重构损失包括摘要重构损失，所述获取所述训练文本对应的第一训练数据、掩码标签数据和掩码训练数据，包括：

获取所述训练图像集合作为第一训练数据，获取所述标签文本摘要作为第二训练数据；

对所述标签文本摘要进行掩码处理得到摘要掩码标签数据和摘要掩码训练数据，获取摘要掩码标签数据作为掩码标签数据，获取摘要掩码训练数据作为掩码训练数据；

所述将所述掩码训练数据和所述第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，基于所述掩码标签数据和所述掩码预测数据之间的差异生成重构损失，包括：

将所述训练图像集合和所述摘要掩码训练数据输入初始文本摘要生成模型，得到摘要掩码预测数据；

基于所述摘要掩码标签数据和所述摘要掩码预测数据之间的差异生成摘要重构损失。

3.根据权利要求1或2所述的方法，其特征在于，所述重构损失包括图像重构损失，所述获取所述训练文本对应的第一训练数据、掩码标签数据和掩码训练数据，包括：

获取所述标签文本摘要作为第一训练数据，获取所述训练图像集合作为第二训练数据；

对所述训练图像集合进行掩码处理得到图像掩码标签数据和图像掩码训练数据，获取图像掩码标签数据作为掩码标签数据，获取图像掩码训练数据作为掩码训练数据；

将所述标签文本摘要和所述图像掩码训练数据输入初始文本摘要生成模型，得到图像掩码预测数据；

基于所述图像掩码标签数据和所述图像掩码预测数据之间的差异生成图像重构损失。

4.根据权利要求1所述的方法，其特征在于，所述将所述训练文本和所述训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，包括：

将所述训练文本、所述训练图像集合和所述标签文本摘要输入初始文本摘要生成模型；

分别对所述训练文本和所述训练图像集合进行编码处理，得到训练文本特征和训练图像特征；

融合所述训练文本特征和所述训练图像特征得到训练融合特征；

基于所述标签文本摘要，对所述训练融合特征进行解码处理，得到预测文本摘要。

5.根据权利要求4所述的方法，其特征在于，所述分别对所述训练文本和所述训练图像集合进行编码处理，得到训练文本特征和训练图像特征，包括：

对所述训练文本进行特征提取，得到初始文本特征，对所述初始文本特征进行特征编码，得到所述训练文本特征；

对所述训练图像集合中的训练图像进行对象识别，得到至少一个目标对象对应的对象图像特征；

基于所述训练图像集合中各个训练图像对应的各个对象图像特征，得到所述训练图像集合对应的初始图像特征；

对所述初始图像特征进行特征编码，得到所述训练图像特征。

6.根据权利要求5所述的方法，其特征在于，所述基于所述训练图像集合中各个训练图像对应的各个对象图像特征，得到所述训练图像集合对应的初始图像特征，包括：

分别对各个训练图像对应的图像标识、各个目标对象对应的对象标识、各个目标对象对应的识别位置进行特征提取，得到各个训练图像对应的图像标识特征、各个目标对象对应的对象标识特征、各个识别位置对应的识别位置特征；

基于同一目标对象对应的对象标识特征、识别位置特征、对象图像特征、以及所属训练图像对应的图像标识特征，得到目标对象对应的初始图像子特征；

基于各个训练图像中各个目标对象分别对应的初始图像子特征，得到所述初始图像特征。

7.根据权利要求5所述的方法，其特征在于，当前初始特征为所述初始文本特征或所述初始图像特征，对所述当前初始特征进行特征编码，得到对应的当前训练特征，包括：

对所述当前初始特征进行注意力处理，得到当前注意力特征；

融合所述当前初始特征和所述当前注意力特征，得到初始融合特征；

对所述初始融合特征进行特征变换，得到当前变换特征；

融合所述当前变换特征和所述初始融合特征，得到目标融合特征；

基于所述目标融合特征得到所述当前训练特征。

8.根据权利要求4所述的方法，其特征在于，所述融合所述训练文本特征和所述训练图像特征得到训练融合特征，包括：

对所述训练文本特征和所述训练图像特征进行模态间注意力处理，得到融合注意力特征；

基于所述训练文本特征和所述融合注意力特征，得到图像过滤特征；

基于所述图像过滤特征，对所述融合注意力特征进行特征过滤，得到融合增强特征；

对所述融合增强特征和所述训练文本特征进行拼接处理，得到所述训练融合特征。

9.根据权利要求8所述的方法，其特征在于，所述基于所述训练文本特征和所述融合注意力特征，得到图像过滤特征，包括：

拼接所述训练文本特征和所述融合注意力特征，得到第一拼接特征；

基于第一模型参数，对所述第一拼接特征进行特征变换，得到第一变换特征；

对所述第一变换特征进行特征映射，得到所述图像过滤特征。

10.根据权利要求4所述的方法，其特征在于，所述标签文本摘要包括多个有序排列的训练摘要词语；

所述基于所述标签文本摘要，对所述训练融合特征进行解码处理，得到预测文本摘要，包括：

从所述标签文本摘要对应的各个词语位置中确定目标位置；

从所述标签文本摘要中，获取在目标位置之前的训练摘要词语作为参考摘要词语，对参考摘要词语进行编码处理，得到参考摘要特征；

基于所述训练融合特征和参考摘要特征，得到预测摘要特征；

对预测摘要特征进行解码处理，得到目标位置对应的预测摘要词语；

获取下一词语位置作为目标位置，返回所述从所述标签文本摘要中，获取在目标位置之前的训练摘要词语作为参考摘要词语的步骤执行，直至满足结束条件，得到多个预测摘要词语；

基于各个预测摘要词语得到所述预测文本摘要。

11.根据权利要求10所述的方法，其特征在于，所述基于所述训练融合特征和参考摘要特征，得到预测摘要特征，包括：

对参考摘要特征进行注意力处理，得到初始注意力特征，基于初始注意力特征和参考摘要特征得到初始摘要特征；

将初始摘要特征和训练融合特征进行交叉注意力处理，得到交叉注意力特征，基于交叉注意力特征和初始摘要特征得到中间摘要特征；

对中间摘要特征进行特征变换，得到目标摘要特征，基于中间摘要特征和目标摘要特征得到预测摘要特征。

12.根据权利要求1所述的方法，其特征在于，所述初始文本摘要生成模型对应的训练集包括多个训练文本分别对应的训练数据，所述训练数据包括训练文本和对应的训练图像集合、标签文本摘要、第一训练数据、掩码标签数据、掩码训练数据和语言标签，所述训练集包括至少一种语言标签；

所述将所述训练文本和所述训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，基于所述预测文本摘要和所述标签文本摘要之间的差异生成目标损失，包括：

将所述训练集中训练文本和对应的训练图像集合、语言标签输入初始文本摘要生成模型，得到与训练文本对应的语言标签匹配的预测文本摘要；

基于同一训练文本对应的预测文本摘要和标签文本摘要之间的差异生成目标子损失，基于各个训练文本分别对应的目标子损失得到目标损失；

将所述训练集中训练文本对应的第一训练数据、掩码训练数据和语言标签输入初始文本摘要生成模型，得到与训练文本对应的语言标签匹配的掩码预测数据；

基于同一训练文本对应的掩码标签数据和掩码预测数据之间的差异生成重构子损失，基于各个训练文本分别对应的重构子损失得到重构损失。

13.根据权利要求1所述的方法，其特征在于，所述初始文本摘要生成模型包括文本编码器、图像编码器和解码器；

所述将所述训练文本和所述训练图像集合输入初始文本摘要生成模型，得到预测文本摘要，将所述掩码训练数据和所述第一训练数据输入初始文本摘要生成模型，得到掩码预测数据，包括：

将所述训练文本输入所述文本编码器，将所述训练图像集合输入所述图像编码器，基于所述文本编码器和所述图像编码器的输出结果得到融合编码结果，将所述融合编码结果和所述标签文本摘要输入解码器，得到所述预测文本摘要；

将所述掩码训练数据和所述第一训练数据输入所述图像编码器，得到所述掩码预测数据。

14.一种文本摘要生成方法，其特征在于，所述方法包括：

获取目标文本和目标文本对应的目标图像集合；

所述目标文本摘要生成模型的训练过程包括以下步骤：

基于所述目标损失和所述重构损失调整所述初始文本摘要生成模型的模型参数，直至满足收敛条件，得到目标文本摘要生成模型。

15.一种文本摘要生成模型训练装置，其特征在于，所述装置包括：

16.一种文本摘要生成装置，其特征在于，所述装置包括：

所述目标文本摘要生成模型的训练过程包括以下步骤：

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

19.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。