CN111428025B

CN111428025B - 文本摘要方法、装置、电子设备和存储介质

Info

Publication number: CN111428025B
Application number: CN202010520451.3A
Authority: CN
Inventors: 何莹; 李直旭; 陈志刚; 张兆银; 王佳安
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-12-11
Anticipated expiration: 2040-06-10
Also published as: CN111428025A

Abstract

本发明实施例提供一种文本摘要方法和装置，其中方法包括：确定待摘要的多模态数据中的若干个关键文本；将任一关键文本，以及多模态数据中的任一图像输入至文本图像匹配模型，得到文本图像匹配模型输出的任一关键文本和任一图像之间的匹配结果；基于每一关键文本和每一图像之间的匹配结果，确定每一关键文本分别对应的图像；若任一关键文本存在对应图像，则基于该关键文本及其对应的图像，确定该关键文本的摘要文本；否则，基于该关键文本，确定该关键文本的摘要文本；基于每一关键文本的摘要文本，确定多模态数据的摘要文本。本发明实施例提供的方法和装置，提高了后续模型收敛的速度，加强了图像文本融合的针对性，并提高了摘要生成的准确性。

Description

文本摘要方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域和图像处理技术领域，尤其涉及一种文本摘要方法、装置、电子设备和存储介质。

背景技术

随着互联网的发展，网络上的信息通常呈现多模态化，即同时包括有文本和图片等多种模态下的信息。例如，新闻会在文本中插入相应的图像以提供给阅读者更加直观的新闻感受。因此，如何对包含有不同模态信息的多模态数据进行自动摘要，越来越受到重视。

目前的多模态数据自动摘要方法，包括基于模板的摘要方法和基于编码器解码器的摘要方法。然而，基于模板的摘要方法的图像表达效果不足，且容易丢失图像信息；而基于编码器解码器的摘要方法则会因为基于多模态信息的全部文本信息与图像信息进行特征提取，导致模型无法收敛，且其将全部图像特征，与全部文本特征进行融合，使得生成的摘要准确性欠佳。

发明内容

本发明实施例提供一种文本摘要方法、装置、电子设备和存储介质，用以解决现有摘要方法摘要生成的准确性欠佳的问题。

第一方面，本发明实施例提供一种文本摘要方法，包括：

确定待摘要的多模态数据中的若干个关键文本；

将任一关键文本，以及所述多模态数据中的任一图像输入至文本图像匹配模型，得到所述文本图像匹配模型输出的所述任一关键文本和所述任一图像之间的匹配结果；其中，所述文本图像匹配模型是基于样本多模态数据中的样本关键文本、样本图像，以及所述样本关键文本和所述样本图像之间的样本匹配结果训练得到的；

基于每一关键文本和每一图像之间的匹配结果，确定每一关键文本分别对应的图像；

若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像，确定所述任一关键文本的摘要文本；否则，基于所述任一关键文本，确定所述任一关键文本的摘要文本；

基于每一关键文本的摘要文本，确定所述多模态数据的摘要文本。

可选地，所述将任一关键文本，以及所述多模态数据中的任一图像输入至文本图像匹配模型，得到所述文本图像匹配模型输出的所述任一关键文本和所述任一图像之间的匹配结果，具体包括：

将所述任一关键文本输入至所述文本图像匹配模型中的文本特征提取层，得到所述文本特征提取层输出的所述任一关键文本的文本特征向量；

将所述任一图像输入至所述文本图像匹配模型中的图像特征提取层，得到所述图像特征提取层输出的所述任一图像的图像特征向量；

和/或，将所述任一图像的描述文本输入至所述文本图像匹配模型中的描述特征提取层，得到所述描述特征提取层输出的所述任一图像的描述特征向量；

将所述文本特征向量，以及所述图像特征向量和/或所述描述特征向量输入至所述文本图像匹配模型中的文本图像匹配层，得到所述文本图像匹配层输出的所述匹配结果。

可选地，所述将所述文本特征向量，以及所述图像特征向量和/或所述描述特征向量输入至所述文本图像匹配模型中的文本图像匹配层，得到所述文本图像匹配层输出的所述匹配结果，具体包括：

将所述文本特征向量，以及所述图像特征向量和/或所述描述特征向量输入至所述文本图像匹配层中的注意力层，得到所述注意力层输出的所述任一关键文本的注意力表示向量；

将所述注意力表示向量，以及所述图像特征向量和/或所述描述特征向量输入至所述文本图像匹配层中的特征匹配层，得到所述特征匹配层输出的所述匹配结果。

可选地，所述将所述文本特征向量，以及所述图像特征向量和所述描述特征向量输入至所述文本图像匹配层中的注意力层，得到所述注意力层输出的所述任一关键文本的注意力表示向量，具体包括：

将所述文本特征向量、所述图像特征向量以及所述描述特征向量输入至所述注意力层的注意程度计算层，得到所述注意程度计算层输出的所述图像特征向量与所述文本特征向量中每一分词之间的注意程度，以及所述描述特征向量与所述文本特征向量中每一分词之间的注意程度；

将所述图像特征向量与所述文本特征向量中每一分词之间的注意程度，以及所述描述特征向量与所述文本特征向量中每一分词之间的注意程度输入至所述注意力层的注意力表示层，得到所述注意力表示层输出的所述注意力表示向量。

可选地，所述将所述注意力表示向量，以及所述图像特征向量和所述描述特征向量输入至所述文本图像匹配层中的特征匹配层，得到所述特征匹配层输出的所述匹配结果，具体包括：

将所述图像特征向量和所述描述特征向量输入至所述特征匹配层的图像融合层，得到所述图像融合层输出的所述任一图像的图像融合向量；

将所述注意力表示向量，以及所述任一图像的图像融合向量输入至所述特征匹配层的融合匹配层，得到所述融合匹配层输出的所述匹配结果。

可选地，所述若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像，确定所述任一关键文本的摘要文本；否则，基于所述任一关键文本，确定所述任一关键文本的摘要文本，具体包括：

若任一关键文本存在对应图像，则将所述任一关键文本及其对应的图像输入至第一多模态摘要模型中，得到所述第一多模态摘要模型输出的所述任一关键文本的摘要文本；否则将所述任一关键文本输入至第二多模态摘要模型中，得到所述第二多模态摘要模型输出的所述任一关键文本的摘要文本；所述第一多模态摘要模型是基于样本关键文本及其对应的样本图像和样本摘要文本训练得到的；所述第二多模态摘要模型是基于样本关键文本和样本摘要文本训练得到的。

可选地，所述将所述任一关键文本及其对应的图像输入至第一多模态摘要模型中，得到所述第一多模态摘要模型输出的所述任一关键文本的摘要文本，具体包括：

将所述任一关键文本的文本特征向量、所述任一关键文本对应的图像的图像特征向量，以及所述任一关键文本的摘要文本中的上一摘要分词输入至所述第一多模态摘要模型的融合编码层，得到所述融合编码层输出的文本图像融合向量；

将所述文本图像融合向量输入至所述第一多模态摘要模型的解码层，得到所述解码层输出的所述任一关键文本的摘要文本中的当前摘要分词。

可选地，所述确定待摘要的多模态数据中的若干个关键文本，具体包括：

将所述多模态数据中任一段落的任一分句输入至关键句分类模型，得到所述关键句分类模型输出的所述任一分句的关键句分类结果；

基于所述任一段落的每一分句的关键句分类结果，确定所述任一段落对应的关键文本。

第二方面，本发明实施例提供一种文本摘要装置，包括：

关键文本确定单元，用于确定待摘要的多模态数据中的若干个关键文本；

文本图像匹配单元，用于将任一关键文本，以及所述多模态数据中的任一图像输入至文本图像匹配模型，得到所述文本图像匹配模型输出的所述任一关键文本和所述任一图像之间的匹配结果；其中，所述文本图像匹配模型是基于样本多模态数据中的样本关键文本、样本图像，以及所述样本关键文本和所述样本图像之间的样本匹配结果训练得到的；

文本图像对应单元，用于基于每一关键文本和每一图像之间的匹配结果，确定每一关键文本分别对应的图像；

关键文本摘要单元，用于若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像，确定所述任一关键文本的摘要文本；否则，基于所述任一关键文本，确定所述任一关键文本的摘要文本；

摘要生成单元，用于基于每一关键文本的摘要文本，确定所述多模态数据的摘要文本。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种文本摘要方法、装置、电子设备和存储介质，通过提取多模态数据中的关键文本，提高了后续模型收敛的速度；然后将任一关键文本，以及多模态数据中的任一图像进行匹配，并基于每一关键文本和每一图像，以及每一关键文本和每一图像之间的匹配结果，生成多模态数据的摘要文本，加强了图像文本融合的针对性，并提高了摘要生成的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本摘要方法的流程示意图；

图2为本发明提供的文本图像匹配模型运行方法的流程示意图；

图3为本发明实施例提供的文本图像匹配方法的流程示意图；

图4为本发明实施例提供的关键文本注意力表示方法的流程示意图；

图5为本发明实施例提供的第一多模态摘要模型运行方法的流程示意图；

图6为本发明又一实施例提供的文本摘要方法的流程示意图；

图7为本发明实施例提供的文本图像匹配模型的结构示意图；

图8为本发明实施例提供的文本摘要装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网的发展，网络带来的信息呈爆炸性增长。这些信息通常呈现多模态化，即同时包括有文本和图片等多种模态下的信息。例如，新闻会在文本中插入相应的图像以提供给阅读者更加直观的新闻感受。又例如长微博等社交网络中的文章，也多是图文并茂。因此，如何从包含有不同模态信息的多模态数据中提取文本摘要，是不同于传统文本自动摘要技术的又一新的挑战。

目前的多模态数据自动摘要方法，包括基于模板的摘要方法和基于编码器解码器的摘要方法。其中，基于模板的摘要方法首先利用计算机视觉技术检测多模态数据中的图像包含的对象，并预测对象的属性以及对象间的相互关系，以识别该图像中可能发生的行为，再利用模板产生该图像对应的摘要文本。最后从图像对应的摘要文本以及多模态数据中的文本中抽取最终的摘要文本。基于编码器解码器的摘要方法则是利用编码器，分别提取多模态数据中全部文本的特征以及全部图像的特征，并将全部文本的特征以及全部图像的特征融合，再在融合得到的特征向量基础上，生成多模态数据的摘要文本。

然而，基于模板的摘要方法直接基于图像对应的摘要文本，以及多模态数据中的文本进行摘要抽取。由于图像表达的内容大多与多模态数据的部分文本所描述的内容重合度较高，因此，基于模板的摘要方法直接在图像对应的摘要文本和多模态数据的文本中选取摘要，而不体现图像对应的摘要文本和多模态数据的文本之间的差异，容易在抽取摘要时直接忽视掉图像对应的摘要文本。

基于编码器解码器的摘要方法中，利用编码器分别提取多模态数据中全部文本的特征以及全部图像的特征，使得提取到的特征中包含有大量次要信息，导致生成的摘要准确性较低。并且将全部文本数据输入到模型中，容易导致模型收敛速度慢，甚至出现无法收敛的情况。另外，基于编码器解码器的摘要方法会将全部文本的特征以及全部图像的特征融合，使得融合得到的特征十分混杂，也不利于模型的训练，从而导致生成的摘要准确性欠佳。

对此，本发明实施例提供了一种文本摘要方法。图1为本发明实施例提供的文本摘要方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待摘要的多模态数据中的若干个关键文本。

具体地，待摘要的多模态数据即需要进行摘要生成的数据，且该数据中包含有文本和若干个图像。为了缩短输入文本的长度，以提高文本图像匹配模型以及用于生成摘要的模型的收敛速度，同时筛除多模态数据中的次要文本，以提高生成的摘要的准确性，从多模态数据的文本中提取若干个关键文本，其中，任一关键文本可以包含有若干个多模态数据的文本中的关键句。

例如，可以基于多模态数据的文本的每个段落，分别提取其中的若干个关键句，构成各段落分别对应的关键文本。还可以基于多模态数据的文本的每个段落，确定若干个重要段落，再基于每个重要段落，分别提取其中的若干个关键句，构成各重要段落分别对应的关键文本，本发明实施例对此不作具体限定。

步骤120，将任一关键文本，以及多模态数据中的任一图像输入至文本图像匹配模型，得到文本图像匹配模型输出的该关键文本和该图像之间的匹配结果；其中，文本图像匹配模型是基于样本多模态数据中的样本关键文本、样本图像，以及样本关键文本和样本图像之间的样本匹配结果训练得到的。

具体地，多模态数据中的图像通常是为了配合解释说明其中某一个段落的内容，因此会与该段落的关键文本相关性更强。例如，一个描述交通事故的新闻中，包含有三段文本，分别描述了交通事故发生的时间地点、交通事故的伤亡情况以及事故现场目前的交通状况。另外，该新闻中还配了一张事故现场交警指挥交通的图像。可见，该图像与第三段文本的关键文本更相关。

因此，为了确定多模态数据中任一图像与任一关键文本之间的相关性，将任一关键文本以及多模态数据中的任一图像输入到文本图像匹配模型中，由文本图像匹配模型将该关键文本对应的特征与该图像对应的特征进行匹配，确定并输出该关键文本与该图像之间的匹配结果。其中，任一关键文本与任一图像之间的匹配结果可以表示该关键文本与该图像是否相关，也可以表示该关键文本与该图像之间的相关程度。

另外，在执行步骤120之前，还可以预先训练得到文本图像匹配模型，具体可通过如下方式训练得到文本图像匹配模型：首先，收集大量样本多模态数据，同时确定样本多模态数据中的样本关键文本和样本图像。然后，人工标注样本关键文本和样本图像之间的样本匹配结果。随即，基于样本关键文本、样本图像，以及样本关键文本和样本图像之间的样本匹配结果对初始模型进行训练，从而得到文本图像匹配模型。其中，初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合，本发明实施例不对初始模型的类型和结构作具体限定。

步骤130，基于每一关键文本和每一图像之间的匹配结果，确定每一关键文本分别对应的图像；

具体地，为了提高融合图像与文本的针对性，基于每一关键文本和每一图像之间的匹配结果，确定与每一关键文本匹配的图像。可选地，可以基于任一关键文本和每一图像之间的匹配结果，将相关程度最高的图像作为该关键文本对应的图像。也可以基于每一关键文本和任一图像之间的匹配结果，将该图像作为其中相关程度最高的关键文本对应的图像。若某一关键文本对应有多个图像，则将多个图像中相关程度最高的图像作为该关键文本最终对应的图像。

步骤140，若任一关键文本存在对应图像，则基于该关键文本及其对应的图像，确定该关键文本的摘要文本；否则，基于该关键文本，确定该关键文本的摘要文本。

具体地，基于任一关键文本及其对应的图像，生成该关键文本对应的摘要文本。此处，可以将该关键文本的特征与其对应的图像的特征融合，以提高图像文本融合的针对性，使得可以利用该图像所传递的信息来精准扩充与其更相关的关键文本的语义。然后，在融合结果的基础上生成该关键文本对应的摘要文本，从而提高据此生成的摘要文本的准确性，同时也保证了在摘要生成过程中不会丢弃图像提供的信息。

对于没有相匹配的图像的关键文本，可以直接基于该关键文本，生成该关键文本对应的摘要文本。

步骤150，基于每一关键文本的摘要文本，确定多模态数据的摘要文本。

具体地，基于每一关键文本对应的摘要文本，即可得到多模态数据的摘要文本。可选地，可以直接将每一关键文本的摘要文本拼接得到多模态数据的摘要文本，也可以对每一关键文本的摘要文本进行进一步地筛选，得到多模态数据的摘要文本，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过提取多模态数据中的关键文本，提高了后续模型收敛的速度；然后将任一关键文本，以及多模态数据中的任一图像进行匹配，并基于每一关键文本和每一图像，以及每一关键文本和每一图像之间的匹配结果，生成多模态数据的摘要文本，加强了图像文本融合的针对性，并提高了摘要生成的准确性。

基于上述实施例，图2为本发明提供的文本图像匹配模型运行方法的流程示意图，如图2所示，步骤120具体包括：

步骤121，将该关键文本输入至文本图像匹配模型中的文本特征提取层，得到文本特征提取层输出的该关键文本的文本特征向量。

具体地，文本特征提取层用于提取该关键文本的文本特征向量。其中，任一关键文本的文本特征向量包含了该关键文本中每个分词的上下文向量。可选地，文本特征提取层可以是RNN（Recurrent Neural Network，循环神经网络）、LSTM（Long Short-Term Memory，长短时记忆网络）或者Bi-LSTM（Bi-directional LSTM，双向长短时记忆网络）等神经网络模型，本发明实施例对此不作具体限定。

步骤122，将该图像输入至文本图像匹配模型中的图像特征提取层，得到图像特征提取层输出的该图像的图像特征向量。

具体地，图像特征提取层用于提取该图像的图像特征向量，其中任一图像的图像特征向量是指该图像本身的特征的向量表示。可选地，图像特征提取层可以是卷积神经网络CNN，例如VGG-16或者VGG-19，本发明实施例对此不作具体限定。另外，图像特征提取层在利用CNN提取出图像特征向量后，还可以使用3D卷积将CNN提取的图像特征向量映射到另外一个特征空间，并得到映射后的图像特征向量，以保证最终得到的图像特征向量的维度与步骤123中提取的描述特征向量的维度保持一致。

和/或，步骤123，将该图像的描述文本输入至文本图像匹配模型中的描述特征提取层，得到描述特征提取层输出的该图像的描述特征向量。

由于图像本身提取得到的图像特征向量属于视觉特征，而关键文本的文本特征向量属于自然语言特征，两者之间存在跨模态的语义鸿沟问题，因此仅利用图像的图像特征向量和关键文本的文本特征向量，来实现关键文本与图像之间的匹配，准确性有限。另外，从图像本身提取得到的图像特征向量表征的是该图像整体的全局特征，虽具有高层次的语义信息，却丢失了该图像中的细节特征。而图像特征向量对图像内容的表达能力不足，也会影响关键文本和图像匹配的准确性。

对此，为了加强图像内容的表达能力，还可以基于输入的图像，产生其对应的描述文本。此处，任一图像的描述文本中既描述了该图像中存在的对象，还描述了其中各个对象之间的关系，从而实现图像语义的扩充。进而利用描述特征提取层提取该图像的描述文本对应的描述特征向量，其中，任一图像的描述特征向量是该图像对应的描述文本的句向量，以实现图像和文本的转换，消除图像语义与文本语义间的跨模态语义鸿沟，提高关键文本与图像匹配的准确性。

可选地，可以使用预训练的图像理解（Image Caption）模型生成任一图像的描述文本，例如在Flickr8kCN数据集上预训练好的CS-NIC模型；另外，可以使用预训练的句向量模型，例如Bert语言模型，获取描述文本的描述特征向量，本发明实施例对此不作具体限定。

步骤124，将文本特征向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配模型中的文本图像匹配层，得到文本图像匹配层输出的匹配结果。

具体地，当仅执行步骤122不执行步骤123时，文本图像匹配层用于基于该关键文本的文本特征向量和该图像的图像特征向量，确定该关键文本与该图像之间的匹配结果。当仅执行步骤123不执行步骤122时，文本图像匹配层用于基于该关键文本的文本特征向量和该图像的描述特征向量，确定该关键文本与该图像之间的匹配结果。当既执行步骤122，也执行步骤123时，文本图像匹配层用于基于该关键文本的文本特征向量、该图像的图像特征向量以及描述特征向量，确定该关键文本与该图像之间的匹配结果。此处，文本图像匹配层利用图像特征向量中包含的高层视觉语义信息，与描述特征向量中包含的对象间相互关系，进行优势互补，可以提高图像内容的表达能力，并提高关键文本与图像匹配的准确性。

本发明实施例提供的方法，基于图像的描述文本确定该图像的描述特征向量，提高了图像内容的表达能力，且消除了图像语义与文本语义间的跨模态鸿沟；然后，基于文本特征向量，以及图像特征向量和/或描述特征向量，确定关键文本与图像间的匹配结果，可以提高关键文本与图像匹配的准确性。

基于上述任一实施例，图3为本发明实施例提供的文本图像匹配方法的流程示意图，如图3所示，步骤124具体包括：

步骤1241，将文本特征向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配层中的注意力层，得到注意力层输出的该关键文本的注意力表示向量。

具体地，注意力层用于基于注意力机制，利用图像的图像特征向量和/或描述特征向量与关键文本的文本特征向量进行注意力交互，确定关键文本的注意力表示向量。任一关键文本的注意力表示向量凸显了该关键文本的文本特征向量中与该图像表达的内容更相关的部分，削弱与该图像表达的内容无关的部分，使得可以减轻关键文本的无关部分在文本图像匹配过程中带来的噪声，并进一步提高文本与图像匹配的准确性。

当注意力层的输入包括文本特征向量、图像特征向量和描述特征向量时，将文本特征向量分别与图像特征向量和描述特征向量进行注意力交互。然后将得到的与图像特征向量的交互结果，以及与描述特征向量的交互结果进行融合，从而确定该关键文本的注意力表示向量。其中，在融合与图像特征向量的交互结果以及与描述特征向量的交互结果时，可以分别为两个交互结果设置对应的权重，以调整对两者的关注度。

步骤1242，将注意力表示向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配层中的特征匹配层，得到特征匹配层输出的匹配结果。

随即，将注意力表示向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配层中的特征匹配层。特征匹配层用于对关键文本的注意力表示向量，以及图像的图像特征向量和/或描述特征向量进行匹配，得到该关键文本与该图像间的匹配结果。其中，当特征匹配层的输入包括注意力表示向量，以及图像特征向量和描述特征向量时，可以将注意力表示向量分别与图像特征向量和描述特征向量进行匹配，然后结合分别得到的匹配结果，确定最终的匹配结果；或者，也可以将图像特征向量和描述特征向量进行融合，得到该图像的图像融合向量，进而将注意力表示向量与图像融合向量进行匹配，得到最终的匹配结果，本发明实施例对此不作具体限定。

本发明实施例提供的方法，基于文本特征向量，以及图像特征向量和/或描述特征向量，确定该关键文本的注意力表示向量，然后在注意力表示向量的基础上进行文本图像的匹配，可以凸显关键文本的文本特征向量中与该图像表达的内容更相关的部分，减轻无关部分在文本图像匹配过程中带来的噪声，并进一步提高文本与图像匹配的准确性。

基于上述任一实施例，图4为本发明实施例提供的关键文本注意力表示方法的流程示意图，如图4所示，步骤1241中，将文本特征向量，以及图像特征向量和描述特征向量输入至文本图像匹配层中的注意力层，得到注意力层输出的该关键文本的注意力表示向量，具体包括：

步骤1241-1，将文本特征向量、图像特征向量以及描述特征向量输入至注意力层的注意程度计算层，得到注意程度计算层输出的图像特征向量与文本特征向量中每一分词之间的注意程度，以及描述特征向量与文本特征向量中每一分词之间的注意程度。

具体地，注意程度计算层用于将图像特征向量与文本特征向量中每一分词的上下文向量进行注意力交互，得到图像特征向量与文本特征向量中每一分词之间的注意程度；还用于将描述特征向量与文本特征向量中每一分词的上下文向量进行注意力交互，得到描述特征向量与文本特征向量中每一分词之间的注意程度。其中，图像特征向量或描述特征向量，与文本特征向量中每一分词之间的注意程度，表征了文本特征向量的每一分词与图像特征向量或描述特征向量之间的相关程度。

可选地，可以采用向量相乘的方式对图像特征向量与文本特征向量中任一分词的上下文向量进行注意力交互，然后将相乘结果归一化，作为图像特征向量与该分词之间的注意程度。例如，采用如下方式确定图像特征向量与文本特征向量中第i个分词之间的注意程度：

其中，文本特征向量中包含有t个分词，

为图像特征向量与文本特征向量中第i 个分词之间的注意程度，

为文本特征向量中第i个分词的上下文向量，

为图像特征向量。

类似地，也可以采用上述方式得到描述特征向量与文本特征向量中任一分词之间的注意程度。例如，采用如下方式确定描述特征向量与文本特征向量中第i个分词之间的注意程度：

其中，文本特征向量中包含有t个分词，

为描述特征向量与文本特征向量中第i 个分词之间的注意程度，

为文本特征向量中第i个分词的上下文向量，

为描述特征向量。

步骤1241-2，将图像特征向量与文本特征向量中每一分词之间的注意程度，以及描述特征向量与文本特征向量中每一分词之间的注意程度输入至注意力层的注意力表示层，得到注意力表示层输出的注意力表示向量。

具体地，注意力表示层用于将图像特征向量与文本特征向量中每一分词之间的注意程度，以及描述特征向量与文本特征向量中每一分词之间的注意程度进行融合，然后确定该关键文本的注意力表示向量。另外，为了提升融合效果，可以为两种方式得到的注意程度预先设置对应的权重，以调整对两种方式得到的注意程度的关注度。

可选地，可以基于图像特征向量与文本特征向量中任一分词之间的注意程度，描述特征向量与该分词之间的注意程度，以及两种注意程度对应的权重，进行加权和归一化，得到该分词的融合注意程度。然后，基于每一分词的融合注意程度，以及文本特征向量中包含的每一分词的上下文向量，进行加权求和，得到注意力表示向量。例如，可采用如下方式分别得到文本特征向量中第i个分词的融合注意程度：

其中，文本特征向量中包含有t个分词，

为文本特征向量中第i个分词的融合注意程度，

为图像特征向量与该分词之间的注意程度，

为描述特征向量与该分词之间的注意程度，

为

的权重。

然后，可采用如下方式确定注意力表示向量：

其中，文本特征向量中包含有t个分词，

为注意力表示向量，

为文本特征向量中第i个分词的融合注意程度，

为文本特征向量中第i个分词的上下文向量。

基于上述任一实施例，步骤1242中，将注意力表示向量，以及图像特征向量和描述特征向量输入至文本图像匹配层中的特征匹配层，得到特征匹配层输出的匹配结果，具体包括：

将图像特征向量和描述特征向量输入至特征匹配层的图像融合层，得到图像融合层输出的该图像的图像融合向量。

具体地，图像融合层用于将图像特征向量和描述特征向量进行融合，得到该图像的图像融合向量。此处，可以预先为图像特征向量和描述特征向量分别设置权重，进而将图像特征向量和描述特征向量进行加权求和，得到图像融合向量；也可以对图像特征向量和描述特征向量求取平均值，得到图像融合向量；还可以直接将图像特征向量和描述特征向量进行拼接，得到图像融合向量，本发明实施例对此不作具体限定。

例如，可以采用如下加权求和的方式融合图像特征向量和描述特征向量：

其中，

为图像融合向量，

为图像特征向量，

为描述特征向量，

为

的权重，且

可与步骤1241-2中

的权重保持一致。

将注意力表示向量，以及该图像的图像融合向量输入至融合匹配层，得到融合匹配层输出的匹配结果。

具体地，融合匹配层用于对注意力表示向量以及上一步得到的图像融合向量进行匹配，得到匹配结果。当匹配结果表示关键文本与图像之间的相关程度时，可以计算注意力表示向量与图像融合向量间的相似度，例如余弦相似度，作为关键文本与图像之间的相关程度。例如，可采用如下方式计算注意力表示向量与图像融合向量间的相似度：

其中，

为注意力表示向量与图像融合向量间的相似度，

为图像融合向量，

为注意力表示向量，

和

分别为

和

的长度。

基于上述任一实施例，步骤140具体包括：

若任一关键文本存在对应图像，则将该关键文本及其对应的图像输入至第一多模态摘要模型中，得到第一多模态摘要模型输出的该关键文本的摘要文本；

否则将该关键文本输入至第二多模态摘要模型中，得到第二多模态摘要模型输出的该关键文本的摘要文本；

第一多模态摘要模型是基于样本关键文本及其对应的样本图像和样本摘要文本训练得到的；第二多模态摘要模型是基于样本关键文本和样本摘要文本训练得到的。

具体地，可能存在部分关键文本有对应的图像，而部分关键文本没有对应的图像的情况。对于存在对应图像的关键文本，可以将该关键文本及其对应的图像输入至第一多模态摘要模型中，第一多模态摘要模型将该关键文本的特征与其对应的图像的特征融合，使得可以利用该图像所传递的信息来精准扩充与其更相关的关键文本的语义，然后在融合结果的基础上生成该关键文本对应的摘要文本。

对于不存在对应图像的关键文本，则可以将该关键文本输入至第二多模态摘要模型中，第二多模态摘要模型基于该关键文本，生成其对应的摘要文本。此处，第二多模态摘要模型可以采用摘要抽取方式或者摘要生成方式提取摘要文本，本发明实施例对此不作具体限定。其中，若采用摘要生成方式提取摘要文本，则可以采用指针生成器（Pointer-Generator）模型构建第二多模态摘要模型。

另外，在此之前，还可以预先训练得到第一多模态摘要模型和第二多模态摘要模型。具体可通过如下方式训练得到第一多模态摘要模型：首先，收集大量样本关键文本及其对应的样本图像，以及样本摘要文本。随即，基于样本关键文本及其对应的样本图像，和样本摘要文本对初始模型进行训练，从而得到第一多模态摘要模型。还可通过如下方式训练得到第二多模态摘要模型：首先，收集大量样本关键文本及其对应的样本摘要文本。随即，基于样本关键文本及其对应的样本摘要文本对初始模型进行训练，从而得到第二多模态摘要模型。

本发明实施例提供的方法，根据关键文本是否存在对应的图像，分别利用第一多模态摘要模型来生成存在对应图像的关键文本的摘要文本，利用第二多模态摘要模型来生成不存在对应图像的关键文本的摘要文本，提高了摘要生成的准确性。

基于上述任一实施例，图5为本发明实施例提供的第一多模态摘要模型运行方法的流程示意图，如图5所示，将该关键文本及其对应的图像输入至第一多模态摘要模型中，得到第一多模态摘要模型输出的该关键文本的摘要文本，具体包括：

步骤1401，将该关键文本的文本特征向量、该关键文本对应的图像的图像特征向量，以及该关键文本的摘要文本中的上一摘要分词输入至第一多模态摘要模型的融合编码层，得到融合编码层输出的文本图像融合向量；

步骤1402，将文本图像融合向量输入至第一多模态摘要模型的解码层，得到解码层输出的该关键文本的摘要文本中的当前摘要分词。

具体地，首先提取关键文本的文本特征向量以及该关键文本对应的图像的图像特征向量。此处，可以采用Encoder-Decoder（编码器解码器）模型中的编码器，例如指针生成器模型的编码器，提取关键文本的文本特征向量，而对于该关键文本对应的图像，可以采用上述任一实施例中提供的图像特征向量提取方法，例如VGG-16，提取其图像特征向量。

融合编码层用于基于该关键文本的文本特征向量、该关键文本对应的图像的图像特征向量，以及该关键文本的摘要文本中的上一摘要分词，确定文本特征向量和图像特征向量在生成当前摘要分词时的权重。其中，文本特征向量的权重越大，越有可能依据文本特征向量生成当前摘要分词；同样地，图像特征向量的权重越大，则越有可能依据图像特征向量生成当前摘要分词。随即，融合编码层基于文本特征向量和图像特征向量的权重，将文本特征向量与图像特征向量融合，得到文本图像融合向量。此处，可以依据关键文本的摘要文本中的上一摘要分词，确定在生成当前摘要分词时，该关键文本的文本特征向量以及该关键文本对应的图像的图像特征向量对应的权重。从而利用加权求和的方式，融合文本特征向量与图像特征向量，以得到文本图像融合向量。

例如，采用如下方式得到文本图像融合向量：

其中，

为文本图像融合向量，

和

分别为文本特征向量和图像特征向量，

和

分别是文本特征向量和图像特征向量的权重，

和

分别是归一化后的文本特征向量和图像特征向量的权重，

为该关键文本的摘要文本中的上一摘要分词对应的隐藏状态，

、

、

、

、

、

为融合编码层中可学习的参数。

得到文本图像融合向量后，将其输入至解码层。解码层用于基于文本图像融合向量，生成并输出当前摘要分词。此处，解码层可以采用Encoder-Decoder（编码器解码器）模型中的解码器，例如指针生成器模型的解码器，对文本图像融合向量进行解码，得到当前摘要分词。

同样地，在得到当前摘要分词后，可以将当前摘要分词同该关键文本的文本特征向量、该关键文本对应的图像的图像特征向量一并输入到融合编码层，得到文本图像融合向量，并通过解码层得到下一摘要分词。

基于上述任一实施例，该方法中，步骤110具体包括：

将多模态数据中任一段落的任一分句输入至关键句分类模型，得到关键句分类模型输出的该分句的关键句分类结果；

基于该段落的每一分句的关键句分类结果，确定该段落对应的关键文本。

具体地，将多模态数据中任一段落根据标点符号进行分句，将每个分句分别输入到关键句分类模型中，得到每个分句的关键句分类结果。其中，任一分句的关键句分类结果表示该分句是否为关键句，或者该分句是关键句的概率。可选地，可以在预训练的Bert模型以及卷积神经网络的基础上，构建关键句分类模型。例如，关键句分类模型可以包括微调的Bert模型所构建的句向量表示层、卷积层、池化层、全连接层，以及关键句分类输出层。其中，句向量表示层用于基于输入的分句，确定该分句对应的句向量；关键句分类输出层用于通过sigmoid激活函数输出该分句为关键句的概率。

为了在关键句分类任务上有效地微调Bert模型，使Bert模型输出的句向量能够用以准确区分关键句和非关键句，可以预先构建一个中文关键句训练集，用于让模型学会辨识关键句与非关键句的区别。中文关键句训练集的具体构建过程可以如下：首先获取NLPCC2017文本摘要任务的训练集，该训练集含有五万带标准摘要的样本文本，根据标准摘要与样本文本中各分句的相似度，利用最大化ROUGE的贪心思想自动选取样本文本对应的关键句，作为中文关键句训练集中的样本关键句。除此之外，也可以人工标注样本关键句与样本非关键句供模型训练。

然后，基于任一段落的每一分句的关键句分类结果，选取预设数量个关键句分类结果为是关键句的分句，或者选取预设数量个关键句概率最高的分句，作为该段落对应的关键文本。为了确保不丢失关键信息，可以根据实际情况设定关键句的数量，例如对于任一段落，选取三个关键句，作为该段落对应的关键文本。

本发明提供的方法，利用关键句分类模型，获取多模态数据中每个段落的关键句，从而确定各个段落对应的关键文本，有助于提高后续模型收敛的速度。

基于上述任一实施例，图6为本发明又一实施例提供的文本摘要方法的流程示意图，如图6所示，该方法包括：

首先，确定待摘要的多模态数据中每一段落对应的关键文本。

然后，利用文本图像匹配模型确定每一关键文本和多模态数据中的每一图像之间的匹配结果。需要说明的是，图6中出现的多个文本图像匹配模型为同一个模型。

其中，图7为本发明实施例提供的文本图像匹配模型的结构示意图，如图7所示，文本图像匹配模型包括文本特征提取层、图像特征提取层、描述特征提取层、注意程度计算层、注意力表示层、图像融合层和融合匹配层。文本特征提取层用于基于任一关键文本，确定该关键文本的文本特征向量(h1,h2,…,hi)，其中h1、h2和hi分别代表文本特征向量中第1、2和i个分词的上下文特征；图像特征提取层用于任一图像，确定该图像的图像特征向量；描述特征提取层用于基于任一图像的描述文本，确定该图像的描述特征向量；注意程度计算层用于基于文本特征向量、图像特征向量以及描述特征向量，确定图像特征向量与文本特征向量中每一分词之间的注意程度，以及描述特征向量与文本特征向量中每一分词之间的注意程度；注意力表示层用于基于图像特征向量与文本特征向量中每一分词之间的注意程度，以及描述特征向量与文本特征向量中每一分词之间的注意程度，确定关键文本的注意力表示向量；图像融合层用于基于图像特征向量和描述特征向量，确定图像的图像融合向量；融合匹配层用于基于注意力表示向量，以及图像融合向量，确定关键文本与图像的匹配结果。

随即，基于每一关键文本和多模态数据中的每一图像之间的匹配结果，确定每一关键文本分别对应的图像。

对于存在对应图像的关键文本，将该关键文本及其对应的图像输入至第一多模态摘要模型中，得到第一多模态摘要模型输出的该关键文本的摘要文本；对于不存在对应图像的关键文本，将该关键文本输入至第二多模态摘要模型中，得到第二多模态摘要模型输出的该关键文本的摘要文本。

最后，将每一关键文本对应的摘要文本拼接，得到多模态数据的摘要文本。

基于上述任一实施例，图8为本发明实施例提供的文本摘要装置的结构示意图，如图8所示，该装置包括关键文本确定单元810、文本图像匹配单元820、文本图像对应单元830、关键文本摘要单元840和摘要生成单元850。

其中，关键文本确定单元810用于确定待摘要的多模态数据中的若干个关键文本；

文本图像匹配单元820用于将任一关键文本，以及所述多模态数据中的任一图像输入至文本图像匹配模型，得到所述文本图像匹配模型输出的所述任一关键文本和所述任一图像之间的匹配结果；其中，所述文本图像匹配模型是基于样本多模态数据中的样本关键文本、样本图像，以及所述样本关键文本和所述样本图像之间的样本匹配结果训练得到的；

文本图像对应单元830，用于基于每一关键文本和每一图像之间的匹配结果，确定每一关键文本分别对应的图像；

关键文本摘要单元840，用于若任一关键文本存在对应图像，则基于该关键文本及其对应的图像，确定该关键文本的摘要文本；否则，基于该关键文本，确定该关键文本的摘要文本；

摘要生成单元850，用于基于每一关键文本的摘要文本，确定多模态数据的摘要文本。

本发明实施例提供的装置，通过提取多模态数据中的关键文本，提高了后续模型收敛的速度；然后将任一关键文本，以及多模态数据中的任一图像进行匹配，并基于每一关键文本和每一图像，以及每一关键文本和每一图像之间的匹配结果，生成多模态数据的摘要文本，加强了图像文本融合的针对性，并提高了摘要生成的准确性。

基于上述任一实施例，该装置中，文本图像匹配单元820具体用于：

将该关键文本输入至文本图像匹配模型中的文本特征提取层，得到文本特征提取层输出的该关键文本的文本特征向量；

将该图像输入至文本图像匹配模型中的图像特征提取层，得到图像特征提取层输出的该图像的图像特征向量；

和/或，将该图像的描述文本输入至文本图像匹配模型中的描述特征提取层，得到描述特征提取层输出的该图像的描述特征向量；

将文本特征向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配模型中的文本图像匹配层，得到文本图像匹配层输出的匹配结果。

本发明实施例提供的装置，基于图像的描述文本确定该图像的描述特征向量，提高了图像内容的表达能力，且消除了图像语义与文本语义间的跨模态鸿沟；然后，基于文本特征向量，以及图像特征向量和/或描述特征向量，确定关键文本与图像间的匹配结果，可以提高关键文本与图像匹配的准确性。

基于上述任一实施例，将文本特征向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配模型中的文本图像匹配层，得到文本图像匹配层输出的匹配结果，具体包括：

将文本特征向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配层中的注意力层，得到注意力层输出的该关键文本的注意力表示向量；

将注意力表示向量，以及图像特征向量和/或描述特征向量输入至文本图像匹配层中的特征匹配层，得到特征匹配层输出的匹配结果。

本发明实施例提供的装置，基于文本特征向量，以及图像特征向量和/或描述特征向量，确定该关键文本的注意力表示向量，然后在注意力表示向量的基础上进行文本图像的匹配，可以凸显了关键文本的文本特征向量中与该图像表达的内容更相关的部分，减轻无关部分在文本图像匹配过程中带来的噪声，并进一步提高文本与图像匹配的准确性。

将文本特征向量，以及图像特征向量和描述特征向量输入至文本图像匹配层中的注意力层，得到注意力层输出的该关键文本的注意力表示向量，具体包括：

将文本特征向量、图像特征向量以及描述特征向量输入至注意力层的注意程度计算层，得到注意程度计算层输出的图像特征向量与文本特征向量中每一分词之间的注意程度，以及描述特征向量与文本特征向量中每一分词之间的注意程度；

将图像特征向量与文本特征向量中每一分词之间的注意程度，以及描述特征向量与文本特征向量中每一分词之间的注意程度输入至注意力层的注意力表示层，得到注意力表示层输出的注意力表示向量。

基于上述任一实施例，将注意力表示向量，以及图像特征向量和描述特征向量输入至文本图像匹配层中的特征匹配层，得到特征匹配层输出的匹配结果，具体包括：

将图像特征向量和描述特征向量输入至特征匹配层的图像融合层，得到图像融合层输出的该图像的图像融合向量；

基于上述任一实施例，该装置中，关键文本摘要单元840具体用于：

本发明实施例提供的装置，根据关键文本是否存在对应的图像，分别利用第一多模态摘要模型来生成存在对应图像的关键文本的摘要文本，利用第二多模态摘要模型来生成不存在对应图像的关键文本的摘要文本，提高了摘要生成的准确性。

基于上述任一实施例，将该关键文本及其对应的图像输入至第一多模态摘要模型中，得到第一多模态摘要模型输出的该关键文本的摘要文本，具体包括：

将该关键文本的文本特征向量、该关键文本对应的图像的图像特征向量，以及该关键文本的摘要文本中的上一摘要分词输入至第一多模态摘要模型的融合编码层，得到融合编码层输出的文本图像融合向量；

将文本图像融合向量输入至第一多模态摘要模型的解码层，得到解码层输出的该关键文本的摘要文本中的当前摘要分词。

基于上述任一实施例，该装置中，关键文本确定单元810具体用于：

本发明提供的装置，利用关键句分类模型，获取多模态数据中每个段落的关键句，从而确定各个段落对应的关键文本，有助于提高后续模型收敛的速度。

图9为本发明实施例提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器（processor）910、通信接口（Communications Interface）920、存储器（memory）930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑命令，以执行如下方法：确定待摘要的多模态数据中的若干个关键文本；将任一关键文本，以及所述多模态数据中的任一图像输入至文本图像匹配模型，得到所述文本图像匹配模型输出的所述任一关键文本和所述任一图像之间的匹配结果；其中，所述文本图像匹配模型是基于样本多模态数据中的样本关键文本、样本图像，以及所述样本关键文本和所述样本图像之间的样本匹配结果训练得到的；基于每一关键文本和每一图像之间的匹配结果，确定每一关键文本分别对应的图像；若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像，确定所述任一关键文本的摘要文本；否则，基于所述任一关键文本，确定所述任一关键文本的摘要文本；基于每一关键文本的摘要文本，确定所述多模态数据的摘要文本。

此外，上述的存储器930中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待摘要的多模态数据中的若干个关键文本；将任一关键文本，以及所述多模态数据中的任一图像输入至文本图像匹配模型，得到所述文本图像匹配模型输出的所述任一关键文本和所述任一图像之间的匹配结果；其中，所述文本图像匹配模型是基于样本多模态数据中的样本关键文本、样本图像，以及所述样本关键文本和所述样本图像之间的样本匹配结果训练得到的；基于每一关键文本和每一图像之间的匹配结果，确定每一关键文本分别对应的图像；若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像，确定所述任一关键文本的摘要文本；否则，基于所述任一关键文本，确定所述任一关键文本的摘要文本；基于每一关键文本的摘要文本，确定所述多模态数据的摘要文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本摘要方法，其特征在于，包括：

确定待摘要的多模态数据中的若干个关键文本；其中，任一关键文本包含有若干个多模态数据的文本中的关键句；

若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像的融合结果，生成所述任一关键文本的摘要文本；否则，基于所述任一关键文本，生成所述任一关键文本的摘要文本；

基于每一关键文本的摘要文本，确定所述多模态数据的摘要文本；

所述确定待摘要的多模态数据中的若干个关键文本，具体包括：

2.根据权利要求1所述的文本摘要方法，其特征在于，所述将任一关键文本，以及所述多模态数据中的任一图像输入至文本图像匹配模型，得到所述文本图像匹配模型输出的所述任一关键文本和所述任一图像之间的匹配结果，具体包括：

3.根据权利要求2所述的文本摘要方法，其特征在于，所述将所述文本特征向量，以及所述图像特征向量和/或所述描述特征向量输入至所述文本图像匹配模型中的文本图像匹配层，得到所述文本图像匹配层输出的所述匹配结果，具体包括：

4.根据权利要求3所述的文本摘要方法，其特征在于，所述将所述文本特征向量，以及所述图像特征向量和所述描述特征向量输入至所述文本图像匹配层中的注意力层，得到所述注意力层输出的所述任一关键文本的注意力表示向量，具体包括：

5.根据权利要求3所述的文本摘要方法，其特征在于，所述将所述注意力表示向量，以及所述图像特征向量和所述描述特征向量输入至所述文本图像匹配层中的特征匹配层，得到所述特征匹配层输出的所述匹配结果，具体包括：

6.根据权利要求1至5任一项所述的文本摘要方法，其特征在于，所述若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像，生成所述任一关键文本的摘要文本；否则，基于所述任一关键文本，生成所述任一关键文本的摘要文本，具体包括：

若任一关键文本存在对应图像，则将所述任一关键文本及其对应的图像输入至第一多模态摘要模型中，得到所述第一多模态摘要模型输出的所述任一关键文本的摘要文本；

否则，将所述任一关键文本输入至第二多模态摘要模型中，得到所述第二多模态摘要模型输出的所述任一关键文本的摘要文本；

所述第一多模态摘要模型是基于样本关键文本及其对应的样本图像和样本摘要文本训练得到的；所述第二多模态摘要模型是基于样本关键文本和样本摘要文本训练得到的。

7.根据权利要求6所述的文本摘要方法，其特征在于，所述将所述任一关键文本及其对应的图像输入至第一多模态摘要模型中，得到所述第一多模态摘要模型输出的所述任一关键文本的摘要文本，具体包括：

8.一种文本摘要装置，其特征在于，包括：

关键文本确定单元，用于确定待摘要的多模态数据中的若干个关键文本；其中，任一关键文本包含有若干个多模态数据的文本中的关键句；

关键文本摘要单元，用于若任一关键文本存在对应图像，则基于所述任一关键文本及其对应的图像的融合结果，生成所述任一关键文本的摘要文本；否则，基于所述任一关键文本，生成所述任一关键文本的摘要文本；

摘要生成单元，用于基于每一关键文本的摘要文本，确定所述多模态数据的摘要文本；

所述关键文本确定单元具体用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的文本摘要方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本摘要方法的步骤。