CN116958997A

CN116958997A - 一种基于异质图神经网络的图文摘要方法及系统

Info

Publication number: CN116958997A
Application number: CN202311205786.6A
Authority: CN
Inventors: 许扬汶; 刘天鹏; 朱一飞; 陈伟; 顾阜城
Original assignee: Nanjing Big Data Group Co ltd
Current assignee: Nanjing Big Data Group Co ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-10-27
Anticipated expiration: 2043-09-19
Also published as: CN116958997B

Abstract

本发明公开了一种基于异质图神经网络的图文摘要方法及系统，所述方法包括：构建细粒度多模态图并初始化；基于异质图注意力机制进行节点融合表征学习；基于融合的节点向量表征构建多模态图像‑句子选择器，通过构建抽取式文本摘要和抽取式图像摘要的损失函数进行训练；构建文本解码器，将全图表征作为文本解码器的上下文向量，并构建生成式文本摘要的损失函数进行训练；基于多任务学习机制，联合抽取式文本摘要、抽取式图像摘要和生成式文本摘要三个子任务构建目标函数进行模型训练。本发明能够充分利用多模态先验关系缩小多视觉与文本模态之间的语义鸿沟，有效编码多模态关系信息来增强图文摘要的质量。

Description

一种基于异质图神经网络的图文摘要方法及系统

技术领域

本发明涉及图文摘要技术，尤其涉及一种基于异质图神经网络的图文摘要方法及系统。

背景技术

随着多媒体技术的快速发展和互联网的普及，当今社会人们可以通过多种方式获取信息，例如文本、图像、音频和视频等。几乎所有内容共享平台和智能手机都提供了多种媒体形式的选项和功能，这表明多模态传播方式在传达和理解信息方面具有优越性。然而，这些不同媒体之间的信息相互关联，具有一定的复杂性，传统的信息摘要方法往往难以涵盖这些信息的全貌。因此，多模态摘要技术作为一种信息摘要技术应运而生，旨在通过结合不同媒体的信息来生成更全面、更准确的摘要。图文摘要是多模态摘要的子集，主要目标是从文本和视觉模态中提炼重要信息，并同时输出文本概括和与源文档主题最相关的图像。

图文摘要具有广泛的应用前景，例如新闻报道、社交媒体分析、医疗诊断等。现存的图文摘要方法大多基于序列到序列（Sequence-to-Sequence，Seq2Seq）学习方法，这种方法由编码器-解码器（Encoder-Decoder）模型组成，可以分为三个关键模块：多模态特征提取、多模态特征融合和多模态摘要生成。先通过不同的序列编码器将各模态数据编码成特征向量，再学习如何融合多模态特征，最后将得到的多模态融合表征分别送入解码器生成图文摘要。然而，现存模型的编码器模块往往仅支持序列格式的输入，这种模型无法利用多模态数据集中固有的跨模态先验关系，例如句子-单词关系、单词-图像关系、目标对象-单词关系和图像-句子关系等，容易造成多视觉与文本模态之间的语义鸿沟，带来噪声信息，影响模型性能。

发明内容

发明目的：本发明旨在提供一种能够充分利用多模态先验关系缩小多视觉与文本模态之间的语义鸿沟，有效编码多模态关系信息来增强图文摘要的质量的基于异质图神经网络的图文摘要方法及系统。

技术方案：本发明所述的一种基于异质图神经网络的图文摘要方法，包括以下步骤：

构建多模态图到序列的MMGraph2Seq图文摘要模型，所述MMGraph2Seq图文摘要模型包括基于文本和图像的目标对象、单词、句子和图像节点，通过不同类型节点的边连接构建细粒度多模态图并进行初始化；

基于异质图注意力机制进行节点融合表征学习，引入异质图注意力网络学习不同模态的节点特征，分别通过基于元路径的邻居的多级聚合机制学习高阶多模态语义信息，同时编码元路径上的节点和关系实例；

基于融合的节点向量表征构建多模态图像-句子选择器，通过构建抽取式文本摘要和抽取式图像摘要的损失函数进行训练；

构建文本解码器，将全图表征作为文本解码器的上下文向量，并构建生成式文本摘要的损失函数进行训练；

基于多任务学习机制，联合抽取式文本摘要、抽取式图像摘要和生成式文本摘要三个子任务构建目标函数进行图文摘要模型训练。

优选地，所述构建细粒度多模态图包括利用视觉定位预训练模型捕获图像中的目标与文本对应关系，构建目标对象-单词子图；利用视觉语言预训练编码器捕获文档句子和图像的语义关系，构建句子-图像子图；利用文档中单词和句子的包含关系构建单词-句子子图。

优选地，所述细粒度多模态图为，/>表示节点集合，/>表示邻接矩阵，其中，

式中，表示所有图像中目标对象节点集合，/>表示图像中第t个目标节点，/>表示整个文档中不重复的单词节点集合，/>表示文档中第n个单词节点，/>表示整个文档中句子节点集合，/>表示文档中第m个句子节点，表示整个文档中图像节点集合，/>表示文档中第z个图像节点；

式中，表示目标对象-单词子图的邻接矩阵；/>表示单词-句子子图的邻接矩阵；/>表示句子-图像子图的邻接矩阵。

优选地，所述基于异质图注意力机制进行节点融合表征学习包括：

（a）分别将节点的特征向量和节点之间边的特征向量映射成对应类型的隐藏表征；

对于不同模态类型的节点的初始表征计算公式为：

其中，代表节点/>的原始隐藏表征，/>表示第/>个节点，/>为节点类型且；/>表示不同节点类型的线性投影矩阵；

对于不同模态之间边的初始表征计算公式为：

其中，代表第/>个节点和第/>个节点间无向边的原始隐藏表征，/>表示第/>个节点和第/>个节点间无向边，/>为边类型且/>；/>表示不同边类型的线性投影矩阵；

（b）对于给定长度为的元路径/>的一条元路径实例/>，其中元路径初值始/>，元路径末尾/>，将沿着改特定元路径的所有节点和边特征编码成对应的元路径实例隐藏表征/>：

其中，表示节点/>与节点/>之间的关系隐藏表征，/>表示哈达玛积操作，、/>、/>分别表示编码过程的中间变量；

（c）利用注意力机制聚合基于元路径实例的邻居更新节点表征，包括

第个节点的关于元路径/>的嵌入向量/>计算如下：

其中，表示元路径/>的注意力参数向量，/>表示基于元路径实例/>的邻居节点/>对于节点/>的重要性；/>表示节点/>的基于元路径/>的所有邻居节点集；/>表示节点/>与其基于元路径实例/>的邻居节点/>间的归一化重要性权重；/>表示非线性激活函数。对于每一种元路径/>，聚合该元路径所有元路径实例上的节点和边信息；

（d）融合节点的所有元路径的节点嵌入特征得到节点/>的隐藏表征/>：

其中，表示所有元路径类型集合，/>和/>分别表示可学习参数矩阵；

（e）基于门控机制学习控制初始节点特征的传递程度，节点的最终向量表征/>计算如下：

式中，、/>分别表示可学习的参数矩阵。

优选地，所述基于融合的节点向量表征构建多模态图像-句子选择器包括将节点最终隐藏表征的最后一层作为输入，构建多模态图像-句子选择器。

优选地，所述构建抽取式文本摘要和抽取式图像摘要的损失函数包括基于多模态图像-句子选择器，构建抽取式文本摘要的交叉熵损失函数和图像摘要的交叉熵损失函数/>：

式中，和/>分别是句子和图像的抽取概率；/>表示节点最终向量表征的最后一层，L表示最大网络层数；/>和/>分别代表第/>个句子和第/>张图像的标签值；图文摘要任务对所有句子节点和图像节点进行二分类，抽取关键句子和关键图像；最终将得到的关键句子集/>和关键图像集/>作为抽取式文本摘要和图像摘要的输出。

优选地，所述构建文本解码器包括基于多模态语义注意力的图池化方法读出全图表征并将全图表征作为解码器在时间步的上下文向量/>：

其中，表示节点/>的图池化权重；/>表示/>的归一化分数；/>、/>和/>分别表示不同节点类型的可学习参数矩阵；/>表示转置操作；/>表示整个异质图的表征向量，即全图表征；

基于长短期记忆网络的解码器在每个时间步生成词汇表中单词的概率分布/>为：

其中，表示在时间步/>解码器生成的隐藏表征向量。

优选地，所述生成式文本摘要的损失函数为负对数似然目标函数：

式中，表示解码器在/>时刻的输出向量；/>表示在时间步/>的单词概率分布。

优选地，所述目标函数为：

本发明所述的一种基于异质图神经网络的图文摘要系统，包括：

细粒度多模态图构建模块，用于构建细粒度多模态图并初始化；

节点融合表征学习模块，用于基于异质图注意力机制进行节点融合表征学习，引入异质图注意力网络学习不同模态的节点特征，分别通过基于元路径的邻居的多级聚合机制学习高阶多模态语义信息，同时编码元路径上的节点和关系实例；

多模态图像-句子选择器训练模块，用于基于融合的节点向量表征构建多模态图像-句子选择器，通过构建抽取式文本摘要和抽取式图像摘要的损失函数进行训练；

文本解码器训练模块，用于构建文本解码器，将全图表征作为文本解码器的上下文向量，并构建生成式文本摘要的损失函数进行训练；

多任务学习模块，用于基于多任务学习机制，联合抽取式文本摘要、抽取式图像摘要和生成式文本摘要三个子任务构建目标函数进行图文摘要模型训练。

有益效果：与现有技术相比，本发明具有如下显著优点：提出了一种基于多模态图到序列（Multi-Modal Graph-to-Sequence，MMGraph2Seq）学习的图文摘要方法，通过构建细粒度多模态异质图，使得模型能够利用图像中目标对象、文本中单词、句子和整张图像之间的复杂对应关系精细化多模态交互过程，从而进一步减少多模态语义信息交互过程中的噪声信息；利用多任务学习机制，联合训练抽取式文本摘要、生成式文本摘要和图像选择三个子任务，实现任务间的相互补充、相互增强，提高图文摘要的质量，同时支持抽取式和生成式图文摘要；2、提出了一种基于语义注意力的图池化方法来获取全图表征，以此作为解码器的上下文向量，使解码器更好地利用图编码器学习到图结构表征；3、利用元路径捕获多模态数据中隐藏的高阶关系，这种高阶模态关系有助于编码长距离多模态信息，通过基于元路径的多级注意力的节点聚合机制能够学习更具表达能力的节点隐藏表征。

附图说明

图1为本发明的模型架构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，本发明所述的一种基于异质图神经网络的图文摘要方法，包括构建多模态图到序列MMGraph2Seq图文摘要模型并进行训练，所述MMGraph2Seq图文摘要模型包括构建细粒度多模态图；基于异质图注意力机制进行节点融合表征学习；基于融合的节点向量表征构建多模态图像-句子选择器和文本解码器；基于多任务学习机制构建目标函数进行模型训练。具体包括以下步骤：

（1）根据多模态新闻文档构建细粒度多模态异质图结构并初始化。

图像内容和文本内容之间关系的独特性，为学习如何从两种模态的数据中互补提取重要信息以改进图文摘要提供了线索。首先，同模态相关性指的是在同一模态的数据中，不同的元素之间存在相关性。例如，图像中的目标对象通过相互作用构成了称为场景的高级语义。通过对图像中人物和物体之间关系的分析，人们能够从更高层次的视角获得有关图像信息的认识。在文本数据中，词是文章中基本的文本信息，而由词组成的句子则呈现更抽象的语义信息。其次，跨模态相关性指的是不同模态数据之间的相关性。例如，在一篇新闻文章和一幅图像中，可能存在相关的信息，例如文章中描述的某个事件在图像中有对应的视觉元素。在这种情况下，本发明可以通过学习跨模态相关性来更好地理解多模态数据的含义。

所述多模态异质图包含目标对象、单词、句子和图像四种类型的节点。利用视觉定位预训练模型（Grounded Language-Image Pre-training，GLIP）捕获图像中的目标与文本对应关系，构建目标对象-单词子图；利用视觉语言预训练编码器（Contrastive Language-Image Pre-Training，CLIP）捕获文档句子和文档图像的语义关系，构建句子-图像子图；利用文档中单词和句子的包含关系构建单词-句子子图。这三个子图建立了一个细粒度的多模态异构四部图。细粒度多模态异质图结构具体构建方法包括：

构建无向多模态图，其中/>表示节点集合，/>表示邻接矩阵，具体定义如下：

（a)，其中，/>表示所有图像中目标对象节点集合，/>表示图像中第t个目标节点，/>表示整个文档中不重复的单词节点集合，/>表示文档中第n个单词节点，/>表示整个文档中句子节点集合，/>表示文档中第m个句子节点，/>表示整个文档中图像节点集合，/>表示文档中第z个图像节点。

(b)，其中，/>表示目标对象-单词子图的邻接矩阵，如果单词和目标对象特征之间的余弦相似度（视觉定位预训练模型计算得出）大于设定的阈值，则目标节点与单词节点之间存在一条边，且/>中对应的数值为该余弦相似度值，反之为0；表示单词-句子子图的邻接矩阵，如果某个句子中包含该单词，则单词节点与句子节点之间存在一条边，且/>中对应的数值为句子与单词的之间的TF-IDF，即词频-逆文档频率，Term Frequency–Inverse Document Frequency值，反之为0；/>表示句子-图像子图的邻接矩阵，如果句子和图像特征之间的余弦相似度（视觉语言预训练编码器计算得出）大于设定的阈值，则句子节点与图像节点之间存在一条边，且/>中对应的数值为该余弦相似度值，反之为0。

所述初始化多模态异质图包括使用视觉定位预训练模型提取的目标区域特征和单词特征作为对应的目标对象特征和单词的词嵌入向量；使用视觉语言预训练编码器提取的句子特征和图像特征分别作为对应的句子节点和图像节点的初始表征；为了学习并利用不同语义单元之间的关系信息，将节点之间的边按照其权重映射到高维嵌入空间作为边的初始特征向量。

（2）基于模态感知异质图注意力机制的节点表征学习和聚合，引入模态感知异质图注意力网络，分别通过基于元路径的邻居的多级聚合机制以学习高阶多模态语义信息，同时编码元路径上的节点和关系实例以捕捉长距离多模态关系。具体包括以下步骤：

（2.1）为了处理节点和边的异质性，分别将节点和边的特征向量映射成对应类型的隐藏表征。

对于不同模态类型的节点的初始表征计算公式为：

对于不同模态之间边的初始表征计算公式为：

其中，代表第/>个节点和第/>个节点间无向边的原始隐藏表征，/>表示第/>个节点和第/>个节点间无向边，/>为边类型且/>；/>表示不同边类型的线性投影矩阵。

（2.2）获得节点和边的类型特定的隐藏表征之后，为了充分利用元路径实例上的节点和边信息，对于给定长度为的元路径/>的一条元路径实例/>，其中元路径初值始/>，元路径末尾/>，将沿着改特定元路径的所有节点和边特征编码成对应的元路径实例隐藏表征/>：

（2.3）在编码元路径实例完成后，利用注意力机制聚合基于元路径实例的邻居更新节点表征。

第个节点的关于元路径/>的嵌入向量/>计算如下：

（2.4）为了感知不同模态的重要程度，需要学习基于不同元路径的多模态邻居信息对源节点的影响。因此，融合节点的所有元路径的节点嵌入特征得到节点/>的隐藏表征/>：

（2.5）基于门控机制学习控制初始节点特征的传递程度，节点的最终向量表征/>计算如下：

式中，、/>分别表示可学习的参数矩阵。

（3）基于融合的节点表征构建多模态图像-句子选择器，通过模态感知异质图注意力网络聚合后得到富含多模态语义的节点表征，为了使得选择器能够选择关键句子和图像，将节点最终向量表征的最后一层作为输入，构建多模态图像-句子选择器并进行训练。

基于多模态图像-句子选择器，构建抽取式文本摘要和图像摘要的交叉熵损失函数：

（4）基于多模态语义注意力的图池化方法读出全图的表征，将全图表征作为文本解码器的上下文向量，训练文本解码器。

为了学习不同模态节点对解码的重要性并且减少全图隐藏表征的噪声和解码时的计算开销，使用基于多模态语义注意力的图池化方法来读出全图表征并以此作为解码器在时间步的上下文向量/>：

基于长短期记忆网络（LSTM）

的解码器在每个时间步生成词汇表中单词的概率分布/>为：

其中，表示在时间步/>解码器生成的隐藏表征向量。

由此构建生成式文本摘要的负对数似然损失标函数：

（5）基于多任务学习机制，联合抽取式文本摘要、抽取式图像摘要和生成式文本摘要三个子任务构建目标函数进行图文摘要模型训练。所述目标函数为：

为了进一步说明本发明的方法，采用两个多模态新闻数据集E-DailyMail和NYTimes800k进行实验。

经过数据预处理后这两个数据集都包含了新闻文章和图像，并且每张图像都配上了文字标题。这两个数据集的详细描述如表1，其中NumDocs表示数据集中文档的平均数量。AvgDocsLen和AvgSumLen分别表示一篇文章和文章对应摘要中的平均句子数量。AvgImgCaps表示图像-标题对的平均数量。AvgSentTokens和AvgCapTokens则分别表示数据集中句子和图像标题的平均词元数即平均长度。

表1 E-DailyMail和NYTimes800k数据集统计信息

	E-DailyMail	NYTimes800k
			NumDocs	209,152	168,535
AvgDocsLen	26.4	46.1
			AvgSumLen	3.8	1.8
AvgImgCaps	5.4	3.1
			AvgSentTokens	25.2	20.9
AvgCapTokens	24.7	18.3

E-DailyMail数据集是标准新闻数据集DailyMail的扩展版本，DailyMail数据集被广泛用于单文档摘要任务。为了增加Daily Mail数据集中的视觉模态数据，E-DailyMail通过从英国《每日邮报》（Daily Mail）网站上收集DailyMail原始数据集中每篇文章的图像及其对应的图像标题，从而构建成为多模态新闻数据集。该数据集被划分成187,921/11,410/9,821，分别用于训练、验证和测试。每个样本包含一篇新闻文章、至少一个图像-标题对和人工参考摘要。

NYTimes800k数据集是一个长文档数据集，最初是为图像标题生成任务而构建的，它包含了美国《纽约时报》（The New York Times）14年来的大部分文章。为了使这个数据集适用于多模态任务，选择了其中同时包含一篇新闻文章、至少一个图像-标题对和人工参考摘要的样本。该数据集被划分成156,988/3,052/8,495，分别用于训练、验证和测试。

采用三种类型的模型进行对比：抽取式纯文本摘要模型、生成式纯文本摘要模型和多模态图文摘要模型。其中，抽取式纯文本摘要模型包括LEAD模型、ORACLE模型、

HETERSUMGRAPH模型、HANSum模型、Topic-GraphSum模型和BERTSUM-Ext模型；生成式纯文本摘要模型包括DSGSum模型、BART模型和BERTSUM-Abs模型；多模态图文摘要模型包括HAMS模型、MSMO模型、MOF模型和ReHGATMS-Ext模型以及本发明的MMGraph2SeqSum模型。

其中，LEAD模型为选择文章的前3个句子作为文本摘要；ORACLE模型通过计算每个句子与人工标准摘的近似最大ROUGE分数，使用贪婪选择迭代地抽取关键句子作为文本摘要；HETERSUMGRAPH模型根据文档中句子之间的词共现关系建立无向图模型，再通过GAT编码整个图结构来获取句子节点的表征，最后在句子节点上做二分类来选择关键句子，从而输出摘要；HANSum模型通过引入命名实体节点、单词节点和句子节点构建图结构来显著减少语义稀疏性，接着同样使用GAT编码图结构得到节点的隐藏表征，从而在句子节点的嵌入向量上做节点分类得到抽取式文本摘要。Topic-GraphSum模型引入变分自编码器建模给定文本的主题信息使得编码器-解码器架构能够学习潜在主题，同时使用预训练编码器BERT编码句子节点，最终同样使用GAT学习节点的隐藏表征以便用于下游的抽取式文本摘要任务。DSGSum模型将GNN模型嵌入到Seq2Seq框架中生成式摘要模型，使用GAT编码经过知识图谱增强的实体关系图结构得到实体嵌入向量，再将其送入解码器中生成富有语义信息的文本摘要。BART是一种最先进的预训练生成式文本摘要模型，通过基于噪声自编码目标函数的预训练方法学习将不完整的文档复原到原始文档。BERTSUM模型在文档中插入多个分隔标记来获取每个句子的表征。HAMS模型是一种基于多模态层次注意力机制的Seq2Seq模型的多模态摘要方法，该模型能够联合学习输入的句子、图像和图像描述并输出对齐的图像文本摘要。MSMO模型基于带有多模态注意力的Seq2Seq模型，通过多模态覆盖机制联合生成文本并选择最相关的图像。MOF模型通过引入多模态目标函数来扩展MSMO模型，并提出多模态参考来解决模态偏差问题。ReHGATMS模型基于图结构的MSMO模型，引入关系增强注意力机制捕捉多模态语义关系，能够有效的填补不同模态之间的语义鸿沟。MMGraph2Seq-Abs表示本发明的生成式图文摘要模型，MMGraph2Seq-Ext表示本发明的抽取式图文摘要模型。

表2-3中的实验结果显示了不同模型在两个多模态新闻数据集上的表现。表格的第一部分是抽取式纯文本摘要模型，ORACLE和LEAD分别代表了文本摘要的上下界。第二部分是生成式纯文本摘要，第三部分是多模态图文摘要模型，最后一部分是本发明模型的抽取式和生成式摘要性能。采用评估指标ROUGE、R和IP进行模型性能的评估其中，ROUGE是指自动文本摘要评估指标，R-1（ROUGE-1）、R-2（ROUGE-2）分别根据模型生成摘要和人工摘要之间的一元语法（）与二元语法（/>）匹配个数计算得出；R-L（ROUGE-L）根据模型生成的摘要序列与人工生成的摘要序列之间的最长公共子序列长度计算得出；IP是指数据集中参考图像为基准的图像精度指标，具体计算如下：

式中，和/>分别表示参考图像和模型选择的图像，/>表示指示函数。当参考图像与模型选择的图像一致时，/>的值为1，否则为0。

通过表中数据，可以看出：本发明的MMGraph2Seq-Ext不仅几乎在所有的ROUGE评估指标上都超过了所有纯文本摘要的模型，而且在IP评估指标上也超过了其他多模态图文摘要模型。这表明，本发明的模型能够增强细粒度的视觉和文本模态之间的信息交互过程。

表2 不同模型在E-DailyMail数据集上的性能对比结果

表3 不同模型在NYTime800K数据集上的性能对比结果

/>

Claims

1.一种基于异质图神经网络的图文摘要方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于异质图神经网络的图文摘要方法，其特征在于，所述构建细粒度多模态图包括利用视觉定位预训练模型捕获图像中的目标与文本对应关系，构建目标对象-单词子图；利用视觉语言预训练编码器捕获文档句子和图像的语义关系，构建句子-图像子图；利用文档中单词和句子的包含关系构建单词-句子子图。

3.根据权利要求2所述的基于异质图神经网络的图文摘要方法，其特征在于，所述细粒度多模态图为，/>表示节点集合，/>表示邻接矩阵，其中，

式中，表示目标对象-单词子图的邻接矩阵；/>表示单词-句子子图的邻接矩阵；表示句子-图像子图的邻接矩阵。

4.根据权利要求3所述的基于异质图神经网络的图文摘要方法，其特征在于，所述基于异质图注意力机制进行节点融合表征学习包括：

对于不同模态类型的节点的初始表征计算公式为：

其中，代表节点/>的原始隐藏表征，/>表示第/>个节点，/>为节点类型且/>；/>表示不同节点类型的线性投影矩阵；

对于不同模态之间边的初始表征计算公式为：

其中，表示节点/>与节点/>之间的关系隐藏表征，/>表示哈达玛积操作，/>、/>、/>分别表示编码过程的中间变量；

第个节点的关于元路径/>的嵌入向量/>计算如下：

其中，表示元路径/>的注意力参数向量，/>表示基于元路径实例/>的邻居节点/>对于节点/>的重要性；/>表示节点/>的基于元路径/>的所有邻居节点集；/>表示节点/>与其基于元路径实例/>的邻居节点/>间的归一化重要性权重；/>表示非线性激活函数；对于每一种元路径/>，聚合该元路径所有元路径实例上的节点和边信息；

式中，、/>分别表示可学习的参数矩阵。

5.根据权利要求4所述的基于异质图神经网络的图文摘要方法，其特征在于，所述基于融合的节点向量表征构建多模态图像-句子选择器包括将节点最终隐藏表征的最后一层作为输入，构建多模态图像-句子选择器。

6.根据权利要求5所述的基于异质图神经网络的图文摘要方法，其特征在于，所述构建抽取式文本摘要和抽取式图像摘要的损失函数包括基于多模态图像-句子选择器，构建抽取式文本摘要的交叉熵损失函数和图像摘要的交叉熵损失函数/>：

7.根据权利要求6所述的基于异质图神经网络的图文摘要方法，其特征在于，所述构建文本解码器包括基于多模态语义注意力的图池化方法读出全图表征并将全图表征作为解码器在时间步的上下文向量/>：

其中，表示在时间步/>解码器生成的隐藏表征向量。

8.根据权利要求7所述的基于异质图神经网络的图文摘要方法，其特征在于，所述生成式文本摘要的损失函数为负对数似然目标函数：

9.根据权利要求8所述的基于异质图神经网络的图文摘要方法，其特征在于，所述目标函数为：

。

10.一种基于异质图神经网络的图文摘要系统，其特征在于，包括：