CN112613293A

CN112613293A - 摘要生成方法、装置、电子设备及存储介质

Info

Publication number: CN112613293A
Application number: CN202011593291.1A
Authority: CN
Inventors: 徐楠; 王俊艳; 张西娜; 孔庆超; 吴晓飞; 曹家; 曲宝玉; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-06

Abstract

本发明实施例公开了一种摘要生成方法、装置、电子设备及存储介质，所述方法包括：获取摘要文本信息；分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度；分别提取所述至少一个图像中的图像文本信息，并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度；基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像；基于所述摘要图像和所述摘要文本信息形成目标摘要。本发明实施例的技术方案实现了当用户阅读初始文本时，可以通过摘要图像直观的了解文本的大致内容，通过阅读摘要文本信息获知文本主旨内容，提高用户的阅读体验感。

Description

摘要生成方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种摘要生成方法、装置、电子设备及存储介质。

背景技术

随着互联网的日益普及，媒体行业的不断发展，各类媒体平台的数量与日俱增，各类新闻的数量也呈指数增长。有些新闻由于篇幅过长，用户往往读了很久，还不知道新闻的主旨是什么。为了便于用户阅读，通常是从新闻的文本信息中摘录出一段文本，作为摘要文本，以使用户阅读摘要文本就可知道新闻的主旨，但现在这种摘要信息往往不能直观的体现新闻的内容。

发明内容

本发明提供一种摘要生成方法、装置、电子设备及存储介质，以实现生成摘要文本信息和图像信息的确定，提高用户阅读时的体验度。

第一方面，本发明实施例提供了一种摘要生成方法，该方法包括：

获取摘要文本信息；

分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度；

分别提取所述至少一个图像中的图像文本信息，并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度；

基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像；

基于所述摘要图像和所述摘要文本信息形成目标摘要。

第二方面，本发明实施例还提供了一种摘要生成装置，该装置包括：

摘要文本信息获取模块，用于获取摘要文本信息；

图文相似度确定模块，用于分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度；

文本相似度确定模块，用于分别提取所述至少一个图像中的图像文本信息，并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度；

摘要图像确定模块，用于基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像；

目标摘要形成模块，用于基于所述摘要图像和所述摘要文本信息形成目标摘要。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中任一所述的摘要生成方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例中任一所述的摘要生成方法。

本发明实施例的技术方案，通过获取摘要文本信息，以确定初始文本信息的主旨内容，分别确定预设图像集中的至少一个图像与摘要文本信息的图文相似度，并分别提取至少一个图像中的图像文本信息，确定各图像的图像文本信息与摘要文本信息的文本相似度，基于每个图像的图文相似度和文本相似度确定摘要文本信息相匹配的摘要图像，基于摘要图像和摘要文本信息生成目标摘要，根据图像的图文相似度和文本相似度确定的摘要图像与摘要文本信息的匹配度更好，可以较好的体现初始文本的主旨内容。当用户阅读初始文本时，可以通过摘要图像直观的了解文本的大致内容，通过阅读摘要文本信息获知文本主旨内容，提高用户的阅读体验感。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1为本发明实施例一中的摘要生成方法的流程示意图；

图2是本发明实施例二中的摘要生成方法的流程示意图；

图3是本发明实施例三中的新闻摘要生成方法的流程示意图；

图4是本发明实施例四中的摘要生成装置的结构示意图；

图5是本发明实施例五中的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例提供的一种摘要生成方法的流程示意图，本实施例可适用于新闻内容过长，需要摘要的情况，该方法可以由摘要生成装置来执行。

如图1所示，本发明实施例的摘要生成方法具体包括如下步骤：

S110、获取摘要文本信息。

其中，初始文本信息包括但不限于新闻类、军事类、文化类、历史类等的文本信息，从初始文本信息中获取摘要文本信息可以获取初始文本的主旨内容。获取摘要文本信息的方式包括但不限于从初始文本中提取权重大于阈值的句子，将这些句子进行拼接以组成摘要文本信息，或者将初始文本信息的第一段的内容作为摘要文本信息的一部分，之后获取初始文本信息的其他段落的权重值大于阈值的句子，将这些句子拼接成摘要文本信息的另一部分，将两部分进行组合，以确定初始文本信息的摘要文本信息等。获取摘要文本信息为后续获取摘要图像做准备工作。

可选的，步骤110包括：获取初始文本信息，识别所述初始文本信息中的摘要句和所述摘要句的重要指数；基于摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息。

其中，重要指数是指摘要句在初始文本信息中的重要指数，重要指数包括但不限于权重值。首先将初始文本信息划分为各个句子，划分的方式包括但不限于以初始文本信息中的句号作为划分节点。将初始文本信息划分为各个句子之后，识别其中的摘要句和摘要句的重要指数，识别的方式可以是根据TextRank模型对初始文本信息中各个句子进行划分，之后对句子根据重要指数进行排序，按照排序后的句子截取其中预设数量的句子作为摘要句，以此得到摘要句和摘要句对应的重要指数，当然也可以其他的获取方式，这里不做具体限定。在得到预设数量的摘要句和摘要句对应的重要指数后，基于摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息。比如摘要字数条件为摘要字数小于等于500字，而将摘要句排序拼接后得到的摘要文本信息中摘要字数为510，此时根据摘要句中句号对摘要句进行划分，将摘要文本信息最后一个摘要句删除，再对摘要字数进行判断，若仍然大于500，再次将摘要文本信息中的最后一个摘要句删除，再次判断，直至摘要文本信息的摘要字数小于或等于500字，也即符合摘要字数条件。将摘要句进行拼接的方式包括但不限于按照摘要句在初始文本信息中的先后顺序进行排序。这样得到的摘要文本信息更加客观，更能体现初始文本信息的主旨内容。

在上述可选方案的基础上，所述识别所述初始文本信息中的摘要句和所述摘要句的重要指数，包括：确定所述初始文本信息的首段文本是否满足预设字数条件，若是，则将所述首段文本确定为摘要文本信息的部分文本；对于所述初始文本信息中除所述首段文本之外的文本信息，识别摘要句和所述摘要句的重要指数；相应的，基于摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息，包括：基于所述首段文本、所述摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息。

其中，预设字数包括但不限于首段文本的字数，或者首段文本的字符数等。比如，首段文本为英文，按照字数进行计数，一个单词记为一个字，或者按照字符数统计，不计空格和标点符号的情况，每个字母为一个字符。当首段文本的字数在预设字数条件范围内时，将首段文本确定为摘要文本信息的部分文本，而另一部分文本将根据其他段落的文本信息进行识别摘要句和摘要句的重要指数来确定。根据上述可选方案将摘要句和首段文本信息进行拼接得到摘要文本信息，并根据摘要字数条件对摘要文本信息进行适当的删减以确保摘要文本信息的摘要字数符合摘要字数条件。可选的，将首段文本放置在摘要文本信息前半部分，将从其它段落得到的摘要句按照每个摘要句在初始文本信息中先后位置顺序进行排序，以得到摘要文本信息的后半部分，将两个部分拼接起来，以确定摘要文本信息。之后根据摘要字数条件对摘要文本信息的末尾摘要句进行删减，以确定最终符合摘要字数条件的摘要文本信息。这样得到摘要文本信息更能表达初始文本的主旨内容。

S120、分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度。

其中，预设图像集可以是根据不同类型初始文本信息设置的固定图像集，当初始文本信息中不包括图像时，可以通过固定图像集的方式获取摘要图像。比如，初始文本信息为新闻稿，则预设图像集为各种新闻稿的图像集。也可以是在当前摘要文本信息对应的初始文本信息中提出的图像集，比如，当前摘要文本信息对应的初始文本信息是一篇娱乐新闻稿，从中获取至少一个图像，设置为预设图像集。图文相似度是指图像与文本信息的相似匹配度。这里指的是图像与摘要文本信息的相似度。摘要文本信息表达初始文本信息的主旨内容，而确定预设图像集中的至少一个图像与摘要文本信息的图文相似度可以确定所述至少一个图像与初始文本信息主旨内容的相似度。

S130、分别提取所述至少一个图像中的图像文本信息，并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度。

其中，图像文本信息是指图像中以各种形式呈现的计算机可以识别到的文本信息，文本信息的呈现形式包括但不限于各种艺术字体、各国语言的文本信息。比如图像中的以彩色艺术字体印有“最新资讯”的字样。当检测到任一图像中含有文本信息时，提取图像中的图像文本信息，并将该图像文本信息与摘要文本信息进行文本相似度匹配，以确定至少一个图像的图像文本信息与摘要文本信息的文本相似度。应当理解，当图像中不包含文本信息时，图像的图像文本信息与摘要文本信息的文本相似度为零。

S140、基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像。

其中，根据图像的图文相似度和文本相似度确定该图像与摘要文本信息最终相似度，确定该图像与摘要文本信息的最终相似度，以此从至少一个图像中确定与摘要文本信息相匹配的摘要图像，可选的，从至少一个图像中确定一个与摘要文本信息匹配度最高的图像作为摘要图像。可选的，可以将每个图像的图文相似度和文本相似度进行加权处理，以确定每个图像与摘要文本信息的匹配度，并将每个图像得到的匹配度值从大到小排序，将排列第一的图像确定为摘要文本信息相匹配的摘要图像。

S150、基于所述摘要图像和所述摘要文本信息形成目标摘要。

其中，摘要文本信息与摘要图像共同组成目标摘要，以此得到初始文本信息的目标摘要，当用户阅读初始文本信息时，可以通过摘要图像直观的了解文本的大致内容，通过阅读摘要文本信息获知初始文本信息主旨内容，提高用户的阅读体验感。

本发明实施例的技术方案，通过获取摘要文本信息，以确定初始文本信息的主旨内容，分别确定预设图像集中的至少一个图像与摘要文本信息的图文相似度，并分别提取至少一个图像中的图像文本信息，确定各图像的图像文本信息与摘要文本信息的文本相似度，基于每个图像的图文相似度和文本相似度确定摘要文本信息相匹配的摘要图像，基于摘要图像和摘要文本信息生成目标摘要，根据图像的图文相似度和文本相似度确定的摘要图像与摘要文本信息的匹配度更好，可以较好的体现初始文本信息的主旨内容。当用户阅读初始文本信息时，可以通过摘要图像直观的了解文本的大致内容，通过阅读摘要文本信息获知文本主旨内容，提高用户的阅读体验感。

在上述技术方案的基础上，可选的，步骤120，包括：根据所述摘要文本信息的文本类型，调用所述文本类型对应的图文匹配模块，将各所述图像与所述摘要文本信息输入至所述图文匹配模块中，基于所述图文匹配模块输出的识别结果确定所述图文相似度。

其中，文本类型包括但不限于新闻类、军事类、文化类、历史类等。图文匹配模块是指将图像和文本信息映射到一个相同的语义空间，并计算图像与文本信息之间的距离，以确定图像与文本信息的相似度的模块。每个文本类型对应一个图文匹配模块，需要说明的是，这里的图文匹配模块是预先训练好的。获取摘要文本信息的文本类型可以是根据初始文本信息的标题或者摘要文本信息中关键词确定的。根据摘要文本信息的文本类型，调用该文本类型对应的图文匹配模块，将各个图像与摘要文本信息输入到图文匹配模块中，计算每个图像与摘要文本信息的相似度，以确定图文相似度。通过摘要文本信息的文本类型对应的图文匹配模块对各个图像与摘要文本信息进行相似度计算，更具针对性，得到的相似度值更加精准。

实施例二

图2所示为本发明实施例提供的一种摘要生成方法的流程示意图，本发明实施例是在上述实施例的可选方案的基础上进行的优化，可选的，增加图像与预先设置的非相关图文数据匹配以确定各图像与非相关图文数据的非相关相似度的技术特征。其中，与上述实施例相同或者相似的技术术语将不再赘述。

如图2所示，本发明实施例的摘要生成方法包括如下步骤：

S210、获取摘要文本信息。

S220、分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度。

S230、分别提取所述至少一个图像中的图像文本信息，并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度。

可选的，预先设置非相关文本信息，所述非相关文本信息是指与初始文本无关的文本信息，非相关文本相似度是指图像文本信息与非相关文本信息之间的相似度。将至少一个图像的图像文本信息与非相关文本信息进行匹配。确定至少一个图像的图像文本信息与非相关文本信息的非相关文本相似度，当非相关文本相似度大于等于预设值时，确定至少一个图像的图像文本信息为非相关文本信息，不再将至少一个图像的图像文本信息与摘要文本信息进行比较。可选的，非相关文本相似度以负数形式表示。当至少一个图像的图像文本信息的非相关文本相似度小于预设值时，对至少一个图像的图像文本信息与摘要文本信息进行匹配，确定至少一个图像的图像文本信息与摘要文本信息的文本相似度。

S240、分别将所述至少一个图像与预先设置的非相关图文数据进行匹配，确定各图像与所述非相关图文数据的非相关相似度。

其中，非相关图文数据可以是指与各个文本类型中图像的相关性为零或者低于预设值的数据，也可以是包括多类非相关图文数据，每类非相关图文数据对应着一个文本类型，即当前的非相关图文数据是基于当前文本类型确定的。比如，当前的文本类型为娱乐新闻类，则非相关图文数据为与娱乐新闻类无关的图文数据，这样可以更有针对性的判断图像的相关性。非相关图文数据可以是指图像数据和文本数据，也可以是图像中包含文本数据。非相关相似度是指至少一个图像与非相关图文数据之间的相似度。基于非相关图文数据和至少一个图像进行匹配得到每个图像与非相关图文数据的非相关相似度，从非相关图文数据的角度反向的确定图像与摘要文本信息的相似度。

可选的，所述预先设置的非相关图文数据包括至少一个非相关图像和至少一个非相关文本信息；分别将所述至少一个图像与各所述非相关图像进行图像匹配，确定非相关图像相似度；分别将所述至少一个图像中的文本信息与各所述非相关文本信息进行文本匹配，确定非相关文本相似度。

其中，非相关图像是指与初始文本无关的图像数据，包括至少一个图像。同理，非相关文本信息是指与初始文本信息无关的文本信息，可以是以字、词、段落等形式呈现。图像匹配方法包括但不限于卷积神经网络、尺度不变特征变换匹配算法(Scale InvariantFeature Transform,SIFT)等。提取图像中的文本信息的方式包括但不限于光学字符识别(Optical Character Recognition,OCR)模型，文本信息的文本匹配方法包括但不限于字符串匹配算法、字符串搜索算法等。通过将至少一个图像与各个非相关图像进行图像匹配，得到每个图像的非相关图像相似度。提取图像中的文本信息，并将图像中的文本信息与各非相关文本信息进行匹配，得到非相关文本相似度。需要说明的是，当图像中无法检测到文本信息时，直接确定非相关文本相似度为零。

可选的，在对图像中的图像文本信息与摘要文本信息进行相似度匹配时，首先将图像中的图像文本信息与非相关文本信息进行匹配，确定图像中的图像文本信息与非相关文本信息的非相关文本相似度。那么在图像与非相关图文数据进行匹配时，只需将图像与非相关图文数据中非相关图像进行匹配，以确定图像与非相关图像的非相关相似度。避免重复操作，提高数据处理的效率。

S250、基于所述各所述图像的图文相似度、文本相似度以及非相关相似度确定与所述摘要文本信息相匹配的摘要图像。

其中，对于各图像的图文相似度、文本相似度以及非相关相似度的计算方式包括但不限于余弦公式，从图像与文本匹配的角度确定图像与摘要文本信息的相似度，从文本匹配的角度确定图像中的文本信息与摘要文本信息的相似度，以及从图像与非相关图文数据匹配的角度确定图像与非相关图文数据的非相关相似度，来确定各图像中与摘要文本信息相匹配的摘要图像，从多角度考虑图像与摘要文本信息的相似度，提高图像与摘要文本信息匹配的准确度。其中，图像的非相关相似度以负数的形式表示。

可选的，所述基于所述各所述图像的图文相似度、文本相似度以及非相关相似度确定与所述摘要文本信息相匹配的摘要图像，包括：对各图像的所述图文相似度、所述文本相似度以及所述非相关相似度进行加权计算，确定各所述图像的相似指数，其中，所述图文相似度和所述文本相似度的权重为正数权重，所述非相关相似度的权重为负数权重；将所述相似指数最大的图像确定为与所述摘要文本信息相匹配的摘要图像。

其中，可选的，图文相似度的权重设为1，而文本相似度和非相关相似度的系数为对文本相似度和非相关相似度赋予权重，可选的，文本相似度与非相关相似度的权重的绝对值相加为1。其中，非相关相似度表示图像与非相关图文数据的相似度，从反方向表现图像与摘要文本信息的相似度。对图像的图文相似度、文本相似度以及非相关相似度添加权重可以使三种相似度具有各自的影响的程度，可提高图像与摘要文本相似度的精度。

S260、基于所述摘要图像和所述摘要文本信息形成目标摘要。

本发明实施例提供的技术方案，通过获取摘要文本信息，确定初始文本信息的主旨内容，分别确定预设图像集中的至少一个图像与摘要文本信息的图文相似度，分别提取至少一个图像中的图像文本信息，确定各图像的图像文本信息与摘要文本信息的文本相似度，确定每个图像与非相关图文数据的非相关相似度，从反方向表现图像与摘要文本信息的相似度。基于每个图像的图文相似度、文本相似度和非相关相似度确定摘要文本信息相匹配的摘要图像，基于摘要图像和摘要文本信息生成目标摘要，根据图文相似度和文本相似度可以确定与摘要文本信息相似度高的图像，而非相关相似度可从反方向体现图像与摘要文本信息的相似度，多角度的分析图像与摘要文本信息的相似度，提高图像与摘要文本信息的匹配的准确度。

实施例三

图3所述为本发明实施例提供的一种新闻摘要生成方法的流程示意图，本发明实施例是上述实施例的可选方案的基础上的优选实施例，本发明实施例将文本信息确定为新闻文本信息，获取新闻文本信息中的摘要图像和摘要文本信息形成目标摘要。

对于新闻图文数据获取时，采用爬虫技术，从互联网新闻网站爬取带有多个图像的新闻数据，并对新闻数据进行预处理，包括内容过滤、文件下载、内容处理等，进而生成新闻数据库。该数据库可以用来训练图文匹配模型以及评价模型的效果。另外，为了过滤掉与新闻内容不相关的图像，本发明构建了一个非相关图像库，该非相关图像库保存了所有与新闻内容不相关的图像，比如“最新资讯”，“最新消息”，“今日通报”，还有广告图像等。把爬取的图像中符合上述特征的非相关图像保存到预设的文件夹中，并实时更新该非相关图像库。

对于新闻文本信息摘要生成时，新闻稿有可能是有标题的，也有可能是没有标题的。对于输入的新闻稿，如果第一段的文本字数小于预设字数(比如80个字)，确定第一段是新闻的标题或者总结，抽取第一段文本信息作为摘要文本信息，新闻稿中的其他段落输入到TextRank模型，以确定剩余的摘要文本信息。如果第一段的文本字数大于预设字数，则认为该新闻稿没有标题，把整个新闻稿输入TextRank模型，得到新闻稿的摘要文本信息。在获取摘要文本信息的同时，可以根据特定的场景，选择预设字数的摘要文本信息。比如，首先根据TextRank算法抽取出指定个数的预选句子，其中每个预选句子具有重要指数，并按重要指数从大到小向排序，之后将重要指数最高的预选句子作为摘要句子，并计算摘要句子字数，当字数满足预设字数条件时，按照重要指数将下一个预选句子添加到摘要句子中，之后计算整体摘要句子的字数是否满足预设字数条件，直到整体字数满足预设字数条件时，停止添加新的预选句子。可选的，按照摘要句子在新闻稿中的位置，设置摘要句子的顺序，以得到最终的摘要文本信息。可选的，本发明实施例中预设字数条件为摘要字数小于500。

对于摘要附图的确认，分别应用图文匹配模型确定至少一个图像与摘要文本信息的相似度，确定至少一个图像与预设的非相关图像数据的非相关相似度，至少一个图像中的文本信息与摘要文本信息之间的相似度，以这三种相似度确定摘要图像。可选的，上述三种相似度以加权的方式获得最终至少一个图像与摘要文本的相似度。

可选的，本发明实施例中使用中文图文匹配数据集是2017年搜狐图文匹配算法大赛的初赛数据集和爬取的新闻图文数据集，验证集和测试集是本发明实施例在网上获取的新闻图文数据集。英文图文匹配数据集使用的是MS COCO数据集，里面包含了训练集、验证集和测试集，用于对图文匹配模型进行训练。

基于图文匹配模型确定至少一个图像与摘要文本信息的相似度，图文匹配模型的训练过程包括：获取摘要文本信息中的每个词的词向量，对数据集中图像进行编码，得到图像的特征向量，将摘要文本信息和图像特征输入图文匹配模型，通过两个阶段的注意力机制得到摘要文本信息和图像之间的相似性，并通过triplet loss训练模型，使其满足：对于匹配的摘要文本信息和图像，相似度较高，对于不匹配的摘要文本信息和图像，相似度较低，完成图文匹配模型的训练。具体训练过程如下：

为了更好的提取摘要文本信息的特征，本发明使用预训练的Bert模型得到摘要文本信息中每个字符的词向量，再输入到双向长短期记忆网络(Long Short-Term Memory,LSTM)中进一步提取上下文信息，得到每个词的词向量。中文图文匹配数据集使用的Bert模型为哈工大全词Mask Bert-wwm模型，英文图文匹配数据集使用的是Google的Bert-base模型。为了更好的提取图像的特征，本发明使用预训练的Faster R-CNN模型提取图像的目标检测框以及每个框的特征向量。

上述的文本特征向量和图像特征向量通过两个阶段的注意力机制来确定摘要文本信息和图像之间的相似性。其中，第一阶段的注意力机制是计算摘要文本信息中每个词和图像中每个检测框之间的相似性。其中相似性通过余弦相似度来计算，公式如下：

其中，i代表图像的第i个检测框，总共有k个检测框；j代表摘要文本信息的第j个词，总共有n个词；v_i代表第i个检测框的特征向量，

代表特征向量v_i的转置；e_j代表第j个词的特征向量；S_ij代表第i个检测框和第j个词之间的相似性。然后对相似性矩阵S_ij进行归一化，得到

最后，根据

计算每个单词的权重，并对每个词的词向量进行加权组合，最终得到加权后的摘要文本信息表示。单词的权重计算公式为：

其中，

为归一化后的相似性矩阵，λ₁为超参数，exp为以e为底的指数函数，α_ij为第i个检测框对应的第j个词在文本中的权重。加权后的文本表示为：

其中，

表示第i个检测框对应的加权的摘要文本信息表示。

第二阶段的注意力机制，是给定加权的摘要文本信息表示，确定每一个图像区域的重要指数。计算公式如下：

其中，v_i表示第i个检测框的特征向量，

表示第i个检测框对应的加权的摘要文本信息表示，

表示第i个检测框和对应的摘要文本信息的相似度。最后把k个检测框的相似度进行加权叠加，就得到图像和摘要文本信息之间的相似度，计算公式如下：

其中，I表示图像，T表示摘要文本信息，S_LSE(I,T)表示图像I和摘要文本信息T之间的相似度。λ₂为超参数。

图文匹配模型的损失函数为triplet loss，公式如下：

其中，S代表相似性得分，即S_LSE(I,T)，S(I,T)代表图像与摘要文本信息匹配的图文对的相似性得分，

和

代表图文不匹配的相似性得分；α为超参数；[x]₊≡max(x,0)。模型训练的目标是让S(I,T)增大，让

减小。最后模型通过Adam优化器来更新模型的参数。

非相关图像匹配模型，在计算至少一个图像与非相关图像的非相关图像相似度时，根据新闻稿中每个图像与非相关图像库中的图像的相似程度来判断图像是非相关图像的分数。具体做法是：

(1)对非相关图像库中的所有图像，用VGG卷积神经网络提取图像的特征，最后得到4096维的特征。把所有图像的特征保存到预设的文件中。

(2)对新闻稿中带有的至少一个图像输入到预训练的VGG卷积神经网络模型，提取图像的特征，得到4096维的特征向量。读取(1)中非相关图像库的特征向量，依次计算每个图像与非相关图像库中所有图像的余弦相似度，得到的最大值，确定为该图像与非相关图像的非相关图像相似度。新闻稿中的图像I与非相关图像库中的图像J的余弦相似度计算公式如下：

其中，h_I是图像I的特征向量，h_J是图像J的特征向量，||h_I||是h_I的模，||h_J||是h_J的模。

图像I的非相关图像相似度的计算公式如下：

Sim2(I)＝max(Sim(I,J)),J＝1,…,N

其中N是非相关图像库的图像数。

OCR辅助匹配模型是根据OCR模型识别图像中的文本信息，并判断该文本信息与摘要文本信息的相似性。具体做法包括：

(1)根据预训练的OCR模型，识别出图像中的文本信息，对文本信息做文本纠错处理和文本预处理。

(2)对非相关图像库中的图像，根据OCR模型提取图像中的文本信息，保留主要的非相关文本信息，并保存到特定的文件中。

(3)对新闻稿中的每个图像，根据OCR模型识别图像中的文本信息。将识别的文本信息与(2)中保存的非相关文本信息进行比较，如果识别的文本信息与非相关文本信息相匹配，则认为该图像属于非相关图像，给该图像和摘要文本信息的相似度分数加上负值(-10)。如果OCR识别的文本信息与任一非相关文本信息不匹配，则将识别出的文本信息与摘要文本信息分别通过预训练的Bert模型表示成特征向量，然后计算这两个特征向量的余弦相似度，即为图像文本信息与摘要文本信息的相似度。计算公式如下：

其中，T_OCR是OCR模型识别出的文本，T是新闻稿对应的新闻摘要。

是T_OCR的特征向量，h_T是T的特征向量。

是

的模，||h_T||是h_T的模。

最终的OCR辅助匹配模型得到的图像I与摘要文本信息T的相似性分数是：

图像与新闻稿的相似度是三个模型的相似度分数的加权叠加：

Sim(I,T)＝Sim1(I,T)-λSim2(I)+γSim3(I,T)

其中，Sim1(I,T)是图文匹配模型得到的相似度分数，Sim2(I)是非相关图像匹配模型得到的非相关图像的非相关图像相似度分数，Sim3(I,T)是OCR辅助匹配模型得到的相似度分数，λ和γ是后两个相似度分数所占的权重。

本发明实施例的技术方案，通过对带有多个图像的新闻稿，首先获取新闻的摘要文本信息，利用Bert模型提取摘要文本信息中每个词的词向量，然后对新闻稿中的图像利用Faster R-CNN模型提取特征，并保存到文件中，最后基于新闻摘要特征和至少一个图像的图像特征确定至少一个图像与摘要文本信息的匹配度值、至少一个图像中的文本信息与非相关文本信息和/或摘要文本信息的匹配度值，以及确定至少一个图像与非相关图像库中的图像的匹配度值。基于三种匹配度值确定至少一个图像与摘要文本信息的平均匹配度值，将匹配度值最高的确定为摘要图像，基于摘要图像和摘要文本信息确定目标摘要，便于用户阅读初始文本信息时，通过摘要图像直观的了解文本的大致内容，通过阅读摘要文本信息获知文本主旨内容，提高用户的阅读体验感。

实施例四

图4所示为本发明实施例提供的一种摘要生成装置的结构示意图，本发明实施例的摘要生成装置可以执行本发明任意实施例所提供的摘要生成方法，具备执行方法相应的功能模块和有益效果。

如图4所述，本发明实施例的摘要生成装置包括摘要文本信息获取模块410、图文相似度确定模块420、文本相似度确定模块430、摘要图像确定模块440和目标摘要形成模块450，其中：

摘要文本信息获取模块410，用于获取摘要文本信息；

图文相似度确定模块420，用于分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度；

文本相似度确定模块430，用于分别提取所述至少一个图像中的图像文本信息，并确定各所述图像的图像文本信息与所述摘要文本信息的文本相似度；

摘要图像确定模块440，用于基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像；

目标摘要形成模块450，用于基于所述摘要图像和所述摘要文本信息形成目标摘要。

进一步的，所述文本相似度确定模块430包括：

根据所述摘要文本信息的文本类型，调用所述文本类型对应的图文匹配模块，将各所述图像与所述摘要文本信息输入至所述图文匹配模块中，基于所述图文匹配模块输出的识别结果确定所述图文相似度。

进一步的，所述装置还包括：

非相关相似度确定模块，用于分别将所述至少一个图像与预先设置的非相关图文数据进行匹配，确定各图像与所述非相关图文数据的非相关相似度；

相应的，所述摘要图像确定模块440，包括：

第一摘要图像确定子模块，用于基于所述各所述图像的图文相似度、文本相似度以及非相关相似度确定与所述摘要文本信息相匹配的摘要图像。

进一步的，所述预先设置的非相关图文数据包括至少一个非相关图像和至少一个非相关文本信息；

相应的，所述非相关相似度确定模块，包括：

非相关图像相似度确定子模块，用于分别将所述至少一个图像与各所述非相关图像进行图像匹配，确定非相关图像相似度；

非相关文本相似度确定子模块，用于分别将所述至少一个图像中的文本信息与各所述非相关文本信息进行文本匹配，确定非相关文本相似度。

进一步的，所述第一摘要图像确定子模块包括：

相似指数确定单元，用于对各图像的所述图文相似度、所述文本相似度以及所述非相关相似度进行加权计算，确定各所述图像的相似指数，其中，所述图文相似度和所述文本相似度的权重为正数权重，所述非相关相似度的权重为负数权重；

摘要图像生成单元，用于将所述相似指数最大的图像确定为与所述摘要文本信息相匹配的摘要图像。

进一步的，所述摘要文本信息获取模块410包括：

重要指数识别子模块，用于获取初始文本信息，识别所述初始文本信息中的摘要句和所述摘要句的重要指数；

摘要文本信息形成子模块，用于基于摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息。

进一步的，所述重要指数识别子模块包括：

部分文本确定单元，用于确定所述初始文本信息的首段文本是否满足预设字数条件，若是，则将所述首段文本确定为摘要文本信息的部分文本；

重要指数识别单元，用于对于所述初始文本信息中除所述首段文本之外的文本信息，识别摘要句和所述摘要句的重要指数；

相应的，所述摘要文本信息形成子模块包括：

摘要文本信息生成单元，用于基于所述首段文本、所述摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息。

本发明实施例的技术方案，通过获取摘要文本信息，以确定初始文本信息的主旨内容，分别确定预设图像集中的至少一个图像与摘要文本信息的图文相似度，并分别提取至少一个图像中的图像文本信息，确定各图像的图像文本信息与摘要文本信息的文本相似度，基于每个图像的图文相似度和文本相似度确定与摘要文本信息相匹配的摘要图像，基于摘要图像和摘要文本信息生成目标摘要，根据图像的图文相似度和文本相似度确定的摘要图像与摘要文本信息的匹配度更好，可以较好的体现初始文本信息的主旨内容。当用户阅读初始文本信息时，可以通过摘要图像直观的了解文本的大致内容，通过阅读摘要文本信息获知文本主旨内容，提高用户的阅读体验感。

实施例五

图5为本发明实施例提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施例实施方式的示例性设备50的框图。图5显示的设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，设备50以通用计算设备的形式表现。设备50的组件可以包括但不限于：一个或者多个处理器或者处理单元501，系统存储器502，连接不同系统组件(包括系统存储器502和处理单元501)的总线503。

总线503表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备50访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器502可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)504和/或高速缓存存储器505。设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统506可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线503相连。存储器502可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块507的程序/实用工具508，可以存储在例如存储器502中，这样的程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。

设备50也可以与一个或多个外部设备509(例如键盘、指向设备、显示器510等)通信，还可与一个或者多个使得用户能与该设备50交互的设备通信，和/或与使得该设备50能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口511进行。并且，设备50还可以通过网络适配器512与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器512通过总线503与设备50的其它模块通信。应当明白，尽管图5中未示出，可以结合设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元501通过运行存储在系统存储器502中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的摘要生成方法。

实施例六

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种摘要生成方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种摘要生成方法，其特征在于，包括：

获取摘要文本信息；

基于所述摘要图像和所述摘要文本信息形成目标摘要。

2.根据权利要求1所述的方法，其特征在于，所述分别确定预设图像集中至少一个图像与所述摘要文本信息的图文相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别将所述至少一个图像与预先设置的非相关图文数据进行匹配，确定各图像与所述非相关图文数据的非相关相似度；

相应的，所述基于各所述图像的图文相似度和文本相似度确定与所述摘要文本信息相匹配的摘要图像，包括：

基于所述各所述图像的图文相似度、文本相似度以及非相关相似度确定与所述摘要文本信息相匹配的摘要图像。

4.根据权利要求3所述的方法，其特征在于，所述预先设置的非相关图文数据包括至少一个非相关图像和至少一个非相关文本信息；

相应的，所述分别将所述至少一个图像与预先设置的非相关图文数据进行匹配，确定各图像与所述非相关图文数据的非相关相似度，包括：

分别将所述至少一个图像与各所述非相关图像进行图像匹配，确定非相关图像相似度；

分别将所述至少一个图像中的文本信息与各所述非相关文本信息进行文本匹配，确定非相关文本相似度。

5.根据权利要求3所述的方法，其特征在于，所述基于所述各所述图像的图文相似度、文本相似度以及非相关相似度确定与所述摘要文本信息相匹配的摘要图像，包括：

对各图像的所述图文相似度、所述文本相似度以及所述非相关相似度进行加权计算，确定各所述图像的相似指数，其中，所述图文相似度和所述文本相似度的权重为正数权重，所述非相关相似度的权重为负数权重；

将所述相似指数最大的图像确定为与所述摘要文本信息相匹配的摘要图像。

6.根据权利要求1所述的方法，其特征在于，所述获取摘要文本信息，包括：

获取初始文本信息，识别所述初始文本信息中的摘要句和所述摘要句的重要指数；

基于摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息。

7.根据权利要求6所述的方法，其特征在于，所述识别所述初始文本信息中的摘要句和所述摘要句的重要指数，包括：

确定所述初始文本信息的首段文本是否满足预设字数条件，若是，则将所述首段文本确定为摘要文本信息的部分文本；

对于所述初始文本信息中除所述首段文本之外的文本信息，识别摘要句和所述摘要句的重要指数；

相应的，所述基于摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息，包括：

基于所述首段文本、所述摘要字数条件、各所述摘要句和所述摘要句的重要指数形成所述摘要文本信息。

8.一种摘要生成装置，其特征在于，包括：

摘要文本信息获取模块，用于获取摘要文本信息；

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的摘要生成方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的摘要生成方法。