CN108920565A

CN108920565A - 一种图片标题生成方法、装置和计算机可读存储介质

Info

Publication number: CN108920565A
Application number: CN201810644268.7A
Authority: CN
Inventors: 洪宇; 张家硕; 姚建民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-11-30
Anticipated expiration: 2038-06-21
Also published as: CN108920565B

Abstract

本发明实施例公开了一种图片标题生成方法、装置和计算机可读存储介质，从数据库中抓取图片及其对应的文档信息；利用神经网络中的编解码模型为所述图片生成对应的初始标题；依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题。考虑到与图片对应的文档信息更能准确的反映出图片的特定特征，结合文档信息对图片进行命名，使得到的标题信息量更加丰富，对图片的描述更加准确，有效的避免了现有技术中图片标题过于宽泛，对于同类型图片标题重复率高的情况发生。

Description

一种图片标题生成方法、装置和计算机可读存储介质

技术领域

本发明涉及图片处理技术领域，特别是涉及一种图片标题生成方法、装置和计算机可读存储介质。

背景技术

图片标题生成是一种融合计算机视觉和自然语言处理的综合问题，即为一副图片生成一个标题来描述图片中包含的信息，是近年来的一个研究热点，并已经取得了实质性的进展。同时，这也是一项极具挑战的任务，我们不仅需要确定图片中包含哪些实体，还必须表达出它们之间的关系并生成合理流畅的句子。

目前，图片标题生成的研究方法大致可以分为如下两类：一类是结合视觉检测器和语言建模的方法。该方法首先利用多实例学习，训练得到一个视觉检测器，该检测器不但可以从图片中提取可能的单词，而且可以把单词对应到具体的图片局部区域。在提取出可能的单词之后，再采用传统的方法进行语言建模，学习一个统计模型来生成图片标题。第二类则是基于神经网络中流行的编码器-解码器框架，其中编码器一般为卷积神经网络(Convolutional Neural Network，CNN)，可选取网络中的全连接层或卷积层的输出作为编码之后的图片特征，解码器一般为循环神经网络(Recurrent Neural Network，RNN)，用于图片标题序列的生成。

但是现有技术中生成图片标题的方式均是依据于图片本身的特征，往往含有以下缺陷：所生成的图片标题过于宽泛，难以提供具体的信息，比如：“一个网球运动员在打网球”、“一栋建筑物”，我们却无法得知这个运动员是谁、这是哪座建筑物。而且所生成标题的区分度较差，即为相似的图片生成同一标题的概率较大，比如，无论是费德勒还是纳达尔，都只能生成“一个网球运动员在打网球”。

可见，如何提升图片标题的准确性，是本领域技术人员亟待解决的问题。

发明内容

本发明实施例的目的是提供一种图片标题生成方法、装置和计算机可读存储介质，可以提升图片标题的准确性。

为解决上述技术问题，本发明实施例提供一种图片标题生成方法，包括：

从数据库中抓取图片及其对应的文档信息；

利用神经网络中的编解码模型为所述图片生成对应的初始标题；

依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题。

可选的，所述利用神经网络中的编解码模型为所述图片生成对应的初始标题包括：

对所述图片进行特征提取，以得到特征矩阵；

对所述特征矩阵进行解码处理，生成单词序列，并将所述单词序列作为所述图片的初始标题。

可选的，所述依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题包括：

对所述文档信息进行分句处理，以得到多个目标语句；

计算所述初始标题与各所述目标语句之间的相似度；

使用文本蕴含技术，计算各所述目标语句对所述初始标题的蕴含度；

对同一目标语句所对应的相似度和蕴含度进行加权求和，以确定出各目标语句与所述初始标题之间的匹配度；

从超过预设阈值的匹配度中选取一个匹配度所对应的目标语句作为所述图片的标题。

可选的，所述计算所述初始标题与各所述目标语句之间的相似度包括：

依据预先设定的度量规则，计算所述初始标题与各所述目标语句之间的字符串相似度；

利用向量空间模型，计算所述初始标题与各所述目标语句之间的第一语义相似度；

利用神经网络模型，计算所述初始标题与各所述目标语句之间的第二语义相似度；

对同一目标语句所对应的字符串相似度、第一语义相似度和第二语义相似度进行加权求和，以确定出各目标语句与所述初始标题之间的相似度。

本发明实施例还提供了一种图片标题生成装置，包括获取单元、生成单元和确定单元；

所述获取单元，用于从数据库中抓取图片及其对应的文档信息；

所述生成单元，用于利用神经网络中的编解码模型为所述图片生成对应的初始标题；

所述确定单元，用于依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题。

可选的，所述生成单元包括提取子单元和解码子单元；

所述提取子单元，用于对所述图片进行特征提取，以得到特征矩阵；

所述解码子单元，用于对所述特征矩阵进行解码处理，生成单词序列，并将所述单词序列作为所述图片的初始标题。

可选的，所述确定单元包括分句子单元、第一计算子单元、第二计算子单元、求和子单元和作为子单元；

所述分句子单元，用于对所述文档信息进行分句处理，以得到多个目标语句；

所述第一计算子单元，用于计算所述初始标题与各所述目标语句之间的相似度；

所述第二计算子单元，用于使用文本蕴含技术，计算各所述目标语句对所述初始标题的蕴含度；

所述求和子单元，用于对同一目标语句所对应的相似度和蕴含度进行加权求和，以确定出各目标语句与所述初始标题之间的匹配度；

所述作为子单元，用于从超过预设阈值的匹配度中选取一个匹配度所对应的目标语句作为所述图片的标题。

可选的，所述计算子单元具体用于依据预先设定的度量规则，计算所述初始标题与各所述目标语句之间的字符串相似度；利用向量空间模型，计算所述初始标题与各所述目标语句之间的第一语义相似度；利用神经网络模型，计算所述初始标题与各所述目标语句之间的第二语义相似度；对同一目标语句所对应的字符串相似度、第一语义相似度和第二语义相似度进行加权求和，以确定出各目标语句与所述初始标题之间的相似度。

本发明实施例还提供了一种图片标题生成装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上所述图片标题生成方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述图片标题生成方法的步骤。

由上述技术方案可以看出，从数据库中抓取图片及其对应的文档信息；利用神经网络中的编解码模型为所述图片生成对应的初始标题；依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题。考虑到与图片对应的文档信息更能准确的反映出图片的特定特征，结合文档信息对图片进行命名，使得到的标题信息量更加丰富，对图片的描述更加准确，有效的避免了现有技术中图片标题过于宽泛，对于同类型图片标题重复率高的情况发生。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图片标题生成方法的流程图；

图2为本发明实施例提供的一种计算初始标题和目标语句之间的匹配度的方法的流程图；

图 3为本发明实施例提供的一种图片标题生成装置的结构示意图；

图4为本发明实施例提供的一种图片标题生成装置的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

接下来，详细介绍本发明实施例所提供的一种图片标题生成方法。图1为本发明实施例提供的一种图片标题生成方法的流程图，该方法包括：

S101：从数据库中抓取图片及其对应的文档信息。

在实际应用中可以利用网络爬虫从网站中抓取大量图片及其对应的文档信息。例如，解析维基百科(Wikipedia)的dump数据文件，结合网络爬虫获得图片及其对应的文档信息。为了便于后续的调用，可以将图片和相应的文档信息一一对应，组成二元组，构建多模态知识库。

S102：利用神经网络中的编解码模型为所述图片生成对应的初始标题。

在本发明实施例中，可以采用基于神经网络的神经网络中的编解码模型对图片进行标题的命名。其中，神经网络中的编解码模型包括有编码端和解码端。

编码端可以使用卷积神经网络对图片进行特征抽取，得到图片的特征矩阵，其具体过程如下：

使用在ImageNet数据集上预训练的卷积神经网络模型，比如VGG网络或者更深层的ResNet网络，对图片进行特征提取，将其中的全连接层或者某一个卷积层的输出做为图片的特征矩阵V，V＝{v₁,v₂,...,v_i,...,v_n}，其中V包含n个局部特征矩阵v_i。

解码端可以使用循环神经网络对特征矩阵进行解码，生成相应的单词序列，可以将所述单词序列作为图片的初始标题。

在本发明实施例中，可以在生成单词序列的每一个时刻，加入注意力机制，有选择地关注某些局部特征，动态地调整特征矩阵V，为

^

所有的局部特征v_i分配权重α_i，采用加权求和的方式得到V，以此作为循环神经网络的输入。

^

使用循环神经网络对上述提取得到的特征矩阵V进行解码，生成单词序列即图片的初始标题。

在本发明实施例中除了利用神经网络中的编解码模型生成初始标题外，也可以结合视觉检测器和语言建模的方法生成图片的初始标题。

S103：依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题。

相比于图片本身的特征而言，与图片相对应的文档信息可以更加准确的反映出图片中的某些特定特征，例如，一张乐队成员在舞台上表演的图片，针对于图片自身的特征而言，并不能获取图片中成员的名字、表演的时间等信息，而这些信息往往包含在文档信息中。

故此，在本发明实施例中根据图片的初始标题以及相应的文档信息，可以确定出较为准确的标题。

其中，匹配规则用于表示对初始标题和文档信息进行处理的规则。其具体过程可以参见图2所示的计算匹配度的方法流程图，该方法包括：

S201：对所述文档信息进行分句处理，以得到多个目标语句。

在对文档信息进行分句处理时，可以以文档信息中的标点符号作为划分依据，形成大量的目标语句。需要说明的是，对于一个文档信息中语义相近或者是相互关联的前后语句，可以将其作为一个目标语句。

S202：计算所述初始标题与各所述目标语句之间的相似度。

相似度反映了初始标题与目标语句之间的相关程度。

计算语句之间相似度的方法有很多种，在本发明实施例中，可以从字符串角度、文本语义层面和词向量这三方面分别计算初始标题与目标语句之间的相似度，然后通过加权求和的方式，最终确定出初始标题与目标语句之间的相似度。接下来，将对这三种类型的相似度计算方式展开介绍。

第一种类型的相似度可以依据预先设定的度量规则，计算所述初始标题与各所述目标语句之间的字符串相似度。

其中，度量规则可以采用编辑距离、汉明距离、余弦相似度、杰卡德系数(Jaccard)或者是欧式距离等度量方法。

在具体实现中，可以按照度量规则，依次计算初始标题与文档信息中每个目标语句之间的字符串相似度，可以记作f_str。针对于每个目标语句可以计算出其对应的一个字符串相似度。

第二种类型的相似度可以利用向量空间模型，计算所述初始标题与各所述目标语句之间的第一语义相似度。

其中，向量空间模型可以使用潜在狄利克雷分布(Latent DirichletAllocation，LDA)主题模型。

在具体实现中，将已生成的初始标题和文档中各目标语句进行分词、去停用词、词根化等操作，得到词袋表示。基于向量空间模型，依次计算初始标题与各目标语句之间的余弦相似度即第一语义相似度，可以记作f_sem1。针对于每个目标语句可以计算出其对应的一个第一语义相似度。

第三种类型的相似度可以利用神经网络模型，计算所述初始标题与各所述目标语句之间的第二语义相似度。

其中，神经网络模型具体可以采用Skip-Thoughts模型。

在具体实现中，使用Skip-Thoughts模型将初始标题和目标语句分别编码成固定维度的向量，依次计算初始标题与各目标语句的余弦相似度即第二语义相似度，可以记作f_sem2。针对于每个目标语句可以计算出其对应的一个第二语义相似度。

在本发明实施例中，可以对同一目标语句所对应的字符串相似度、第一语义相似度和第二语义相似度进行加权求和，以确定出该目标语句与初始标题之间的相似度。

具体的，可以按照如下公式进行加权求和，确定出目标语句与初始标题之间的相似度

S＝αf_str+βf_sem1+γf_sem2

其中，α、β和γ依次表示字符串相似度、第一语义相似度和第二语义相似度的权重值。

根据不同的需求，可以调整权重值的大小。例如，根据各特征对相似度的贡献程度，可以将权重值经验地设置α＝0.6，β＝0.2，γ＝0.2。

上述介绍中是以一个目标语句与初始标题之间的相似度为例展开的介绍，每个目标语句与初始标题之间的相似度计算方式相同，参照上述方式，可以计算出各目标语句与初始标题之间的相似度。

S203：使用文本蕴含技术，计算各所述目标语句对所述初始标题的蕴含度。

蕴含度可以从一定程度上反映目标语句和初始标题之间的关联程度。

在具体实现中，可以利用基于句法树和长短时记忆网络(Long Short-TermMemory，LSTM)的模型，计算目标语句对初始标题的蕴含度，可以记作E。

在计算蕴含度时可以将注意力机制应用于句法树上，从而使文本蕴含关系的推断更加精确。

S204：对同一目标语句所对应的相似度和蕴含度进行加权求和，以确定出各目标语句与所述初始标题之间的匹配度。

具体的，可以按照如下公式进行加权求和，确定出目标语句与初始标题之间的匹配度，

score＝aS+bE

其中，a、b分别为相似度和蕴含度的权重值。

根据不同的需求，可以调整权重值的大小。例如，可经验地设置为a＝0.8,b＝0.2。

S205：从超过预设阈值的匹配度中选取一个匹配度所对应的目标语句作为所述图片的标题。

由于一个文档信息一般包括多个目标语句，按照上述方式，可以计算出每个目标语句和初始标题之间的一个匹配度，目标语句有多个，相应的匹配度有多个，因此可以采用设置预设阈值的方式进行选取。

具体的，从该文档信息对应的所有匹配度中，选取出超过预设阈值的匹配度，再从超过预设阈值的匹配度中选取合适的一个匹配度，该匹配度对应的目标语句即可作为该图片的标题。

设置预设阈值，一方面可以缩小选取的范围，另一方面也可以将不符合要求的目标语句排除。

其中，预设阈值可以是一个固定数值，选取出超过预设阈值的匹配度即选取匹配度的分值超过该固定数值的匹配度。

在实际应用中，可以从所有目标语句各自对应的匹配度中，选取出匹配度最高的一个目标语句作为所述图片对应的标题。当匹配度最高的目标语句的个数为多个时，则可以从这多个目标语句中选取其中的任意一个目标语句作为图片的标题。

例如，一个文档信息中各目标语句和初始标题之间的匹配度分别为70％、65％、80％、75％、90％、90％、90％、80％，预设阈值为85％，则超过预设阈值的匹配度分别为90％、90％和90％。可以从这三个中任意选择一个目标语句作为图片的标题。

图3为本发明实施例提供的一种图片标题生成装置的结构示意图，包括获取单元31、生成单元32和确定单元33；

所述获取单元31，用于从数据库中抓取图片及其对应的文档信息；

所述生成单元32，用于利用神经网络中的编解码模型为所述图片生成对应的初始标题；

所述确定单元33，用于依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题。

可选的，所述生成单元包括提取子单元和解码子单元；

所述分句子单元，用于对所述文档信息进行分句处理，以得到多个目标语句；所述第一计算子单元，用于计算所述初始标题与各所述目标语句之间的相似度；

图3所对应实施例中特征的说明可以参见图1和图2所对应实施例的相关说明，这里不再一一赘述。

如图4所示为本发明实施例提供的一种图片标题生成装置40的结构示意图，包括：存储器41，用于存储计算机程序；处理器42，用于执行所述计算机程序以实现如上所述图片标题生成方法的步骤。

以上对本发明实施例所提供的一种图片标题生成方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种图片标题生成方法，其特征在于，包括：

从数据库中抓取图片及其对应的文档信息；

2.根据权利要求1所述的方法，其特征在于，所述利用神经网络中的编解码模型为所述图片生成对应的初始标题包括：

对所述图片进行特征提取，以得到特征矩阵；

3.根据权利要求1或2所述的方法，其特征在于，所述依据预设的匹配规则，计算所述初始标题与其相应的文档信息中语句的匹配度，以确定出所述图片的标题包括：

对所述文档信息进行分句处理，以得到多个目标语句；

计算所述初始标题与各所述目标语句之间的相似度；

4.根据权利要求3所述的方法，其特征在于，所述计算所述初始标题与各所述目标语句之间的相似度包括：

5.一种图片标题生成装置，其特征在于，包括获取单元、生成单元和确定单元；

6.根据权利要求5所述的装置，其特征在于，所述生成单元包括提取子单元和解码子单元；

7.根据权利要求5或6所述的装置，其特征在于，所述确定单元包括分句子单元、第一计算子单元、第二计算子单元、求和子单元和作为子单元；

8.根据权利要求7所述的装置，其特征在于，所述计算子单元具体用于依据预先设定的度量规则，计算所述初始标题与各所述目标语句之间的字符串相似度；利用向量空间模型，计算所述初始标题与各所述目标语句之间的第一语义相似度；利用神经网络模型，计算所述初始标题与各所述目标语句之间的第二语义相似度；对同一目标语句所对应的字符串相似度、第一语义相似度和第二语义相似度进行加权求和，以确定出各目标语句与所述初始标题之间的相似度。

9.一种图片标题生成装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至4任意一项所述图片标题生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述图片标题生成方法的步骤。