CN110119754A

CN110119754A - 图像生成描述方法、装置及模型

Info

Publication number: CN110119754A
Application number: CN201910145508.3A
Authority: CN
Inventors: 曲昭伟; 王晓茹; 曹炳雨; 徐培容
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-08-13
Anticipated expiration: 2039-02-27
Also published as: CN110119754B

Abstract

本发明公开了一种图像生成描述方法、装置及模型，在解码阶段前一个词通过基于注意力的LSTM模型对下一个词的生成过程进行注意力指导，从而实现对图片中的突出主体对象的细节进行捕获，生成的图像描述，主体细节描述丰富，提高了整体流畅性。

Description

图像生成描述方法、装置及模型

技术领域

本发明涉及图像处理技术领域，更具体的说，是涉及图像生成描述方法、装置及模型。

背景技术

图像生成描述是为一张图片生成能表达其含义的自然语言描述的分析研究，具有广泛的应用前景。比如，通过对一张图片生成自动的文本描述，可以帮助视障人士快速准确地理解图像内容；在幼教领域中对少儿图片生成直观准确地描述，可以帮助小朋友更好的启蒙学习；为自动驾驶、无人机赋能，使其具有敏锐的视觉能够更好的对道路、地面信息进行语义理解，等等。

目前，图像生成描述研究的主流方法是先使用CNN(Convolutional NeuralNetwork，卷积神经网络)对图片进行编码得到视觉特征，然后结合文本特征进行解码来生成图像描述。

但是，图像生成描述研究的主流方法仅仅基于编解码框架的特征转换的过程，当图片中存在多个主体对象时，总是不分主次的将每个主体都生硬的表述出来，导致生成的词的耦合性太差，生成的图像描述直白浅显，主体细节描述不足，缺乏整体的流畅性。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的图像生成描述方法、装置及模型。具体方案如下：

一种图像生成描述方法，包括：

输入目标图片；

采用卷积神经网络模型VGG16以及卷积块注意模块CBAM对所述目标图片进行编码生成所述目标图片的图像特征图；

输入所述目标图片的图像特征图及测试文本特征至所述基于注意力的 LSTM模型生成所述目标图片的多个描述词；

组合所述目标图片的多个描述词生成所述目标图片的图像生成描述。

可选地，所述输入所述目标图片的图像特征图及测试文本特征至所述基于注意力的LSTM模型生成所述目标图片的多个描述词，包括：

生成所述目标图片的第一个时刻的第一个描述词，以及，生成所述目标图片的第t个时刻的第t个描述词，t为大于等于2小于等于N的整数，所述 N为所述LSTM模型包含的LSTM单元的个数。

可选地，所述生成所述目标图片的第一个时刻的第一个描述词，包括：

输入所述目标图片的图像特征图及第一个测试文本特征至所述基于注意力的LSTM模型的第一个LSTM单元，生成所述目标图片的第一个描述词及所述第一个LSTM单元的状态。

可选地，所述生成所述目标图片的第t个时刻的第t个描述词，包括：

输入第t-1个描述词至所述基于注意力的LSTM模型的反馈注意模块；

所述反馈注意模块获取所述第t-1个描述词对应的第t-1个关联特征区域；

所述反馈注意模块基于所述第t-1个关联特征区域计算所述第t-1个描述词的反馈数据；

输入第t-1描述词的反馈数据、第t-1个LSTM单元的状态、第t个测试文本特征至所述基于注意力的LSTM模型的第t个LSTM单元，生成所述目标图片的第t个描述词及所述第t个LSTM单元的状态。

可选地，所述反馈注意模块获取所述第t-1个描述词对应的第t-1个关联特征区域，包括：

所述反馈注意模块采用模糊匹配算法查找特征索引字典中是否包括所述 t-1个描述词；

如果所述特征索引字典中包括所述t-1个描述词，则所述反馈注意模块获取所述特征索引字典中包括的所述t-1个描述词对应的第t-1个关联特征区域。

如果所述特征索引字典中不包括所述t-1个描述词，则采用卷积神经网络模型Faster R-CNN对所述目标图片进行预处理生成所述目标图片的定位索引字典；

所述反馈注意模块采用模糊匹配算法查找所述定位索引字典中是否包括所述第t-1个描述词；

如果所述定位索引字典中包括所述第t-1个描述词，则依据所述定位索引字典中的所述第t-1个描述词的边界框对所述图像特征图进行定位确定第t-1 个特征区域；

采用关联域映射算法确定所述第t-1个特征区域的第t-1个关联特征区域，并将所述第t-1个描述词及所述第t-1个关联特征区域添加至特征索引字典。

一种图像生成描述装置，包括：

第一输入单元，用于输入目标图片；

编码单元，用于采用卷积神经网络模型VGG16以及卷积块注意模块 CBAM对所述目标图片进行编码生成所述目标图片的图像特征图；

第二输入单元，用于输入所述目标图片的图像特征图及测试文本特征至所述基于注意力的LSTM模型生成所述目标图片的多个描述词；

组合单元，用于组合所述目标图片的多个描述词生成所述目标图片的图像生成描述。

一种图像生成描述模型，所述模型包括：

卷积神经网络模型VGG16、CBAM(Convolutional Block Attention Module，卷积块注意模块)、卷积神经网络模型Faster R-CNN、基于注意力的LSTM(Long Short-TermMemory，长短期记忆网络)模型，所述基于注意力的LSTM模型中包括反馈注意模块。

一种存储介质，其上存储有程序，该程序被处理器执行时实现如上所述的图像生成描述方法。

一种电子设备，所述电子设备包括存储器和处理器，所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行如上所述的图像生成描述方法。

借由上述技术方案，本发明提供的图像生成描述方法、装置及模型，在解码阶段前一个词通过基于注意力的LSTM模型对下一个词的生成过程进行注意力指导，从而实现对图片中的突出主体对象的细节进行捕获，生成的图像描述，主体细节描述丰富，提高了整体流畅性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例公开的图像生成描述模型的结构示意图；

图2为本发明提供的一种图像生成描述方法实施例的流程示意图；

图3为本发明提供的一种图像生成描述方法的示例示意图；

图4为本发明实施例公开的一种图像生成描述装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决现有的图像生成描述方法存在的问题，本发明提出了一种图像生成描述模型，如图1所示，本发明提供的图像生成描述模型包括卷积神经网络模型VGG16、CBAM(Convolutional Block Attention Module，卷积块注意模块)、卷积神经网络模型FasterR-CNN、基于注意力的LSTM(Long Short-Term Memory，长短期记忆网络)模型，所述基于注意力的LSTM模型中包括反馈注意模块。上述图像生成描述模型的训练方法将通过如下实施例进行详细说明。

请参阅附图2，图2为本发明提供的一种图像生成描述方法实施例的流程示意图，所述方法包括：

步骤S201：输入目标图片；

训练样本集中的任意一张图片为目标图片。在不同的应用场景中待描述的图片也可为目标图片。

步骤S202：采用卷积神经网络模型VGG16以及卷积块注意模块CBAM 对所述目标图片进行编码生成所述目标图片的图像特征图(即，Feature map)；

图像特征图中包括所述目标图片的所有图像特征信息。

CBAM在空间和通道两个维度上引入了注意力机制，不仅能告诉网络模型该注意什么，同时也能增强特征表达，提取到更丰富的细节特征，因此， CBAM能够很好的完成对目标图片中主体对象周边特征的捕获，从而更好的对主体对象的动作、状态进行流畅细节性的刻画描述。

步骤S203：输入所述目标图片的图像特征图及测试文本特征至所述基于注意力的LSTM模型生成所述目标图片的多个描述词；

步骤S204：组合所述目标图片的多个描述词生成所述目标图片的图像生成描述。

在一种可实施方式中，所述步骤S203包括：

生成所述目标图片的第一个时刻的第一个描述词，以及，生成所述目标图片的第t个时刻的第t个描述词，t为大于等于2小于等于N的整数；所述 N为所述LSTM模型包含的LSTM单元的个数。

在一种可实施方式中，所述生成所述目标图片的第一个时刻的第一个描述词，具体包括：

输入所述目标图片的图像特征图及第一个测试文本特征至所述基于注意力的LSTM模型的第一个LSTM单元，生成所述目标图片的第一个描述词(如，图1中的“man”)及所述第一个LSTM单元的状态；其中，测试文本特征即目标图片的标准图像描述文本。以图3所示，图3所示的图片为训练样本集中的任意一张图片，“A baseball game is going on forthe crowd.”即为该图片的测试文本特征。

在一种可实施方式中，所述生成所述目标图片的第t个时刻的第t个描述词，t为大于等于2小于等于N的整数，具体包括：

在一种可实施方式中，所述反馈注意模块获取所述第t-1个描述词对应的第t-1个关联特征区域，包括：

所述反馈注意模块采用模糊匹配算法查找特征索引字典(即，name-featuredictionary)中是否包括所述t-1个描述词；如果所述特征索引字典中包括所述 t-1个描述词，则所述反馈注意模块获取所述特征索引字典中包括的所述t-1 个描述词对应的第t-1个关联特征区域。

在一种可实施方式中，如果所述特征索引字典中不包括所述t-1个描述词，则所述反馈注意模块获取所述第t-1个描述词对应的第t-1个关联特征区域，包括：

采用卷积神经网络模型Faster R-CNN对所述目标图片进行预处理生成所述目标图片的定位索引字典(即，name-bbox dictionary)；

为了平衡准确率和性能，可根据大小和/或重要程度对Faster R-CNN输出的边界框进行降序排序，选取前5个边界框录入定位索引字典。

如果所述定位索引字典中包括所述第t-1个描述词，则依据所述定位索引字典中的所述第t-1个描述词的边界框对所述Feature map进行定位确定第t-1 个特征区域；

作为一种可实施方式，预设目标图片为训练样本集中的第i张图片，第i 张图片的第t个时刻，第t个LSTM生成的第t个描述词为w_it，第i张图片对应的定位索引字典为dic_i，则依据如下公式对Feature map进行定位：

其中，所述第i张图片对应的定位索引字典中的所述第t个描述词的第s 个边界框为bbox_is

作为一种可实施方式，本发明提供的图像生成描述模型，选择VGG16作为编码器，选择了其中的conv5_3层作为输出的feature map，其空间分辨率为14x14。本发明需要找到一种原始图像的bbox_is区域和feature map某个区域之间的一个映射,从而对feature map进行部分选择。

f:bbox→related field

自然地，应该选择bbox_is区域经过卷积神经网络之后得到的输出区域。然而，随着卷积深度加大，分辨率逐渐变小，原来整张图像的信息逐渐被重叠在一起，所以只能认为feature map的某一区域与原bbox_is区域有所关联，而不是完全的卷积关系。

relatedfield_is≠cnn(bbox_is)

为了解决上述问题，本发明选择从feature map中计算出对应区域的关联域related field_is，因此本发明设计了一种权重算法，用于表示feature map在空间上与原图像bbox_is区域之间的关系。具体地说，如果一个点完全没有融合 bbox_is以外的区域的点的信息，那么它的权重保持不变为1，否则应该缩小。设卷积核大小为k x k，一次卷积后在related field外的点的数量为n₀，在内部的点的数量为n_i，那么以这个位置为中心的卷积运算得到的结果的权重W为

本发明提供的图像生成描述模型利用了VGG16前5个block，对于第x 个卷积层，我们利用上面的算法计算权重矩阵W_{conv_x}；对于第y个池化层，我们按照权重值作为输入计算池化层的权重矩阵W_{pool_y}＝pool_y(W_{conv_x})。

最后利用下列公式模拟VGG网络的过程得到关联特征区域：

得到关联特征区域后，即可计算反馈数据：

f_attention(bbox_is,feature_map)＝W_{related_field}·feature_map

则第t+1个LSTM的状态具体为：

h_t+1＝LSTM(concat([h_t,f_attention(bbox_is,feature_map)]))

如果所述定位索引字典中不包括所述第t-1个描述词，则跳过定位反馈过程，当前描述词的生成不通过上一个LSTM单元注意指导，而由当前LSTM 单元的解码器结构中的三个门状态来解码生成描述词。

图3中“A crowd of people at a stadium.”为采用现有的neuraltalk技术方案对图3中的图片进行图像生成描述后的结果，“A crowd of people watching a baseballgame.”为采用本发明上述实施例中提供的图像生成描述模型对图3 中的图片进行图像生成描述后的结果，可以看出，采用本发明上述实施例中提供的图像生成描述模型对图3中的图片进行图像生成描述后的结果给出了更详细和明确的描述，包含主要对象的更多细节，尤其是图片中关键对象周围的细节，比如，结果中注意到了运动球场。

请参阅附图4，图4为本发明实施例公开的一种图像生成描述装置的结构示意图，该装置包括：

第一输入单元41，用于输入目标图片；

编码单元42，用于采用卷积神经网络模型VGG16以及卷积块注意模块 CBAM对所述目标图片进行编码生成所述目标图片的图像特征图；

第二输入单元43，用于输入所述目标图片的图像特征图及测试文本特征至所述基于注意力的LSTM模型生成所述目标图片的多个描述词；

组合单元44，用于组合所述目标图片的多个描述词生成所述目标图片的图像生成描述。

需要说明的是，上述各个单元的具体功能实现已在方法实施例中详细说明，本实施例不再赘述。

所述图像生成描述装置包括处理器和存储器，上述各个单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现对图片中的突出主体对象的细节进行捕获，生成的图像描述，主体细节描述丰富，提高了整体流畅性。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述图像生成描述方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述图像生成描述方法。

本发明实施例提供了一种电子设备，电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现方法实施例中的各个步骤。

本文中的电子设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法实施例中各个步骤的程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像生成描述方法，其特征在于，包括：

输入目标图片；

输入所述目标图片的图像特征图及测试文本特征至基于注意力的LSTM模型生成所述目标图片的多个描述词；

2.根据权利要求1所述的方法，其特征在于，所述输入所述目标图片的图像特征图及测试文本特征至所述基于注意力的LSTM模型生成所述目标图片的多个描述词，包括：

生成所述目标图片的第一个时刻的第一个描述词，以及，生成所述目标图片的第t个时刻的第t个描述词，t为大于等于2小于等于N的整数，所述N为所述LSTM模型包含的LSTM单元的个数。

3.根据权利要求2所述的方法，其特征在于，所述生成所述目标图片的第一个时刻的第一个描述词，包括：

4.根据权利要求3所述的方法，其特征在于，所述生成所述目标图片的第t个时刻的第t个描述词，包括：

5.根据权利要求4所述的方法，其特征在于，所述反馈注意模块获取所述第t-1个描述词对应的第t-1个关联特征区域，包括：

所述反馈注意模块采用模糊匹配算法查找特征索引字典中是否包括所述t-1个描述词；

6.根据权利要求4所述的方法，其特征在于，所述反馈注意模块获取所述第t-1个描述词对应的第t-1个关联特征区域，包括：

如果所述特征索引字典中不包括所述t-1个描述词，则采用卷积神经网络模型FasterR-CNN对所述目标图片进行预处理生成所述目标图片的定位索引字典；

如果所述定位索引字典中包括所述第t-1个描述词，则依据所述定位索引字典中的所述第t-1个描述词的边界框对所述图像特征图进行定位确定第t-1个特征区域；

7.一种图像生成描述装置，其特征在于，包括：

第一输入单元，用于输入目标图片；

编码单元，用于采用卷积神经网络模型VGG16以及卷积块注意模块CBAM对所述目标图片进行编码生成所述目标图片的图像特征图；

8.一种图像生成描述模型，其特征在于，所述模型包括：

卷积神经网络模型VGG16、CBAM(Convolutional Block Attention Module，卷积块注意模块)、卷积神经网络模型Faster R-CNN、基于注意力的LSTM(Long Short-Term Memory，长短期记忆网络)模型，所述基于注意力的LSTM模型中包括反馈注意模块。

9.一种存储介质，其上存储有程序，该程序被处理器执行时实现如权利要求1至7中任一项所述的图像生成描述方法。

10.一种电子设备，所述电子设备包括存储器和处理器，所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1至7中任一项所述的图像生成描述方法。