CN111639594B

CN111639594B - 图像描述模型的训练方法及装置

Info

Publication number: CN111639594B
Application number: CN202010472878.0A
Authority: CN
Inventors: 罗轶凤; 王俊豪
Original assignee: Suzhou Youyou Information Technology Co ltd
Current assignee: Suzhou Youyou Information Technology Co ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-09-22
Anticipated expiration: 2040-05-29
Also published as: CN111639594A

Abstract

本发明公开了一种图像描述模型的训练方法，包括以下步骤：接收若干训练图像，抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量；创建图像描述模型，图像描述模型包括：包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和多维度卷积核特征抽取器；编码模块包括多维度卷积核特征抽取器、两个Self Attention特征抽取器和简单前馈网络；解码模块包括多维度卷积核特征抽取器、带掩码的multi‑head attention特征抽取器、两个multi‑head attention特征抽取器和简单前馈网络组成；编码装置和编码装置之间由自注意力机制特征融合层衔接；基于若干训练图像对图像描述模型进行交叉熵损失和强化学习的训练；从而提供一种训练方法。

Description

图像描述模型的训练方法及装置

技术领域

本发明涉及图像描述技术领域，尤其涉及图像描述模型的训练方法及装置。

背景技术

图像描述(Image Caption)的主要目的是为图像生成自然语言描述，进而通过该自然语言描述，可以帮助应用程序理解图像视觉场景中表达的语义。例如，图像描述可以将图像检索转换为文本检索，用于对图像进行分类并改善图像检索结果。

早期图像描述的方法可以概括为：从图像中提取对象和属性，然后将获得的对象和属性填充到预定义的句子模板中。随着深度学习的普及，现代的图像描述方法主要采用编码器-解码器体系结构，其中卷积神经网络(Convolutional Neural Network，CNN)通常用作特征提取的编码器，而递归神经网络(Recursive Neural Network，RNN)作为生成描述的解码器。编码器-解码器体系结构可以生成超出预定义模板的描述语句，大大提高了所生成语句的多样性。

在现有技术中，编码器-解码器图像描述模型通常基于图像中提取的全局特征来生成图像描述，即使注意机制与编码器-解码器体系结构结合在一起，从全局特征中提取感兴趣区域特征以关注图像感兴趣区域，生成过程中仍然损失了图像视觉场景中的大量详细信息。

发明内容

有鉴于此，本发明的主要目的在于提供一种图像描述模型的训练方法及装置。

为达到上述目的，本发明的技术方案是这样实现的：一种图像描述模型的训练方法，包括以下步骤：

接收若干训练图像，抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量；

创建图像描述模型，所述图像描述模型包括：包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和第一多维度卷积核特征抽取器；所述编码模块包括第二多维度卷积核特征抽取器、第一Self Attention特征抽取器、第二Self Attention特征抽取器和第一简单前馈网络；所述解码模块包括第三多维度卷积核特征抽取器、带掩码的multi-head attention特征抽取器、第一multi-head attention特征抽取器、第二multi-head attention特征抽取器和第二简单前馈网络组成；编码装置和编码装置之间由自注意力机制特征融合层衔接；

基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练；

对所述图像描述模型进行强化学习的训练。

作为本发明实施例的一种改进，所述“抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量”具体包括：对每个训练图像，都执行以下操作：基于已训练的Faster-RCNN模型抽取对应的感兴趣区域特征向量，并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别；基于BERT模型、获得所述图像实体类别对应的类别特征词向量；基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量。

作为本发明实施例的一种改进，所述训练图像为MS COCO数据集中的训练集中的图像；所述“基于BERT模型、获得所述图像实体类别对应的类别特征词向量”具体包括：基于BERT模型编码所述MS COCO数据集中出现的每个不同的词，并获得包含有若干词向量的词汇表；基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量；其中，所述若干词向量的长度均相等；所述已训练的ResNet模型使用Visual Genome数据集进行训练的，其中，所述ResNet模型中的损失部分中添加了属性分类损失函数。

作为本发明实施例的一种改进，所述“基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练”具体包括：基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练，在交叉熵损失的训练过程中，使用MSCOCO数据集中的验证集图片进行模型拟合收敛判断，学习率采用自衰减策略，使用Adam优化器优化参与训练的参数。

作为本发明实施例的一种改进，所述“对所述图像描述模型进行强化学习的训练”具体包括：对所述图像描述模型进行强化学习的训练，在训练过程中，使用MS COCO数据集中的验证集图片进行模型拟合收敛判断；训练完成后使用MS COCO数据集中的测试集数据集进行模型效果测试；在强化学习训练过程中，学习率设置为0.0000004，使用Adam优化器优化参与训练的参数；第一、第二和第三多维度卷积核特征抽取器的输入维度为1024，输出维度为1024；第二多维度卷积核特征抽取器使用一维卷积核，三维卷积核和五维卷积核；第一、第三多维度卷积核特征抽取器使用一维卷积核，二维卷积核和三维卷积；第一、第二multi-head attention特征抽取器的输入维度为1024，输出维度为1024，head个数为8，每个head的处理维度为128；第一、第二简单前馈网络的输入维度为1024，输出维度为1024，采用3层编码器抽取图像特征，采用3层解码器解码图像特征，生成描述；训练过程中批处理大小为64。

本发明实施例还提供了一种图像描述模型的训练装置，包括以下模块：特征抽取模块，用于接收若干训练图像，抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量；模型创建模块，用于创建图像描述模型，所述图像描述模型包括：包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和第一多维度卷积核特征抽取器；所述编码模块包括第二多维度卷积核特征抽取器、第一Self Attention特征抽取器、第二Self Attention特征抽取器和第一简单前馈网络；所述解码模块包括第三多维度卷积核特征抽取器、带掩码的multi-head attention特征抽取器、第一multi-head attention特征抽取器、第二multi-head attention特征抽取器和第二简单前馈网络组成；编码装置和编码装置之间由自注意力机制特征融合层衔接；第一训练模块，用于基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练；第二训练模块，用于对所述图像描述模型进行强化学习的训练。

作为本发明实施例的一种改进，所述特征抽取模块还用于：对每个训练图像，都执行以下操作：基于已训练的Faster-RCNN模型抽取对应的感兴趣区域特征向量，并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别；基于BERT模型、获得所述图像实体类别对应的类别特征词向量；基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量。

作为本发明实施例的一种改进，所述训练图像为MS COCO数据集中的训练集中的图像；所述特征抽取模块还用于：基于BERT模型编码所述MS COCO数据集中出现的每个不同的词，并获得包含有若干词向量的词汇表；基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量；其中，所述若干词向量的长度均相等；所述已训练的ResNet模型使用Visual Genome数据集进行训练的，其中，所述ResNet模型中的损失部分中添加了属性分类损失函数。

作为本发明实施例的一种改进，所述第一训练模块还用于：基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练，在交叉熵损失的训练过程中，使用MS COCO数据集中的验证集图片进行模型拟合收敛判断，学习率采用自衰减策略，使用Adam优化器优化参与训练的参数。

作为本发明实施例的一种改进，所述第二训练模块还用于：对所述图像描述模型进行强化学习的训练，在训练过程中，使用MS COCO数据集中的验证集图片进行模型拟合收敛判断；训练完成后使用MS COCO数据集中的测试集数据集进行模型效果测试；在强化学习训练过程中，学习率设置为0.0000004，使用Adam优化器优化参与训练的参数；第一、第二和第三多维度卷积核特征抽取器的输入维度为1024，输出维度为1024；第二多维度卷积核特征抽取器使用一维卷积核，三维卷积核和五维卷积核；第一、第三多维度卷积核特征抽取器使用一维卷积核，二维卷积核和三维卷积；第一、第二multi-head attention特征抽取器的输入维度为1024，输出维度为1024，head个数为8，每个head的处理维度为128；第一、第二简单前馈网络的输入维度为1024，输出维度为1024，采用3层编码器抽取图像特征，采用3层解码器解码图像特征，生成描述；训练过程中批处理大小为64。

本发明实施例所提供的药库具有以下优点：本发明实施例公开了一种图像描述模型的训练方法，包括以下步骤：接收若干训练图像，抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量；创建图像描述模型，图像描述模型包括：包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和多维度卷积核特征抽取器；编码模块包括多维度卷积核特征抽取器、两个SelfAttention特征抽取器和简单前馈网络；解码模块包括多维度卷积核特征抽取器、带掩码的multi-head attention特征抽取器、两个multi-head attention特征抽取器和简单前馈网络组成；编码装置和编码装置之间由自注意力机制特征融合层衔接；基于若干训练图像对图像描述模型进行交叉熵损失和强化学习的训练；从而提供一种训练方法。

附图说明

图1为本发明实施例中的图像描述模型的训练方法的流程示意图；

图2、图3A、图3B和图3C为本发明实施例中的图像描述模型的结构示意图；

图4A、图4B和图4C为本发明实施例中的一个训练图像的处理过程；

图5和图6为本发明实施例中的图像描述模型与其他模型的性能对比图。

具体实施方式

以下将结合附图所示的实施方式对本发明进行详细描述。但该实施方式并不限制本发明，本领域的普通技术人员根据该实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

以下描述和附图充分地示出本文的具体实施方案，以使本领域的技术人员能够实践它们。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本文的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。本文中，术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来，而不要求或者暗示这些元素之间存在任何实际的关系或者顺序。实际上第一元素也能够被称为第二元素，反之亦然。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的结构、装置或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种结构、装置或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的结构、装置或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中的术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本文和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。在本文的描述中，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明实施例一提供了一种图像描述模型的训练方法，如图1所示，包括以下步骤：

步骤101：接收若干训练图像，抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量；

步骤102：创建图像描述模型，所述图像描述模型包括：包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和第一多维度卷积核特征抽取器；所述编码模块包括第二多维度卷积核特征抽取器、第一Self Attention特征抽取器、第二Self Attention特征抽取器和第一简单前馈网络；所述解码模块包括第三多维度卷积核特征抽取器、带掩码的multi-head attention特征抽取器、第一multi-head attention特征抽取器、第二multi-head attention特征抽取器和第二简单前馈网络组成；编码装置和编码装置之间由自注意力机制特征融合层衔接；

步骤103：基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练；

这里，在进行交叉熵损失的训练时，首先，将训练图像的图像实体特征向量输入第一多维度卷积核特征抽取器中，经过一维卷积核、二维卷积核和三维卷积核的抽取，得到实体自身、两个实体之间和三个实体之间的精细联合信息；然后，将感兴趣区域特征向量输入第二多维度卷积核特征抽取器，经过一维卷积核，三维卷积核和五维卷积核的抽取，得到训练图像中实体各部分之间、两个实体之间和多个实体之间的图像联合信息；再将图像联合信息输入第一Self Attention特征抽取器，计算不同维度特征对于结果的权重影响；在将经过加权的图像联合信息与精细联合信息同时输入第二Self Attention特征抽取器进行融合，再流通第一简单前馈网络，以获得该层的精细化多维度图像融合信息，并作为下一编码模块的感兴趣区域特征向量输入。可以理解的是，在经过多个编码装置的提取之后，能够获得多层次的精细化多维度图像融合信息。

之后，将精细化多维度图像融合信息通过自注意力机制特征融合层，获得不同层次的权重，加权获得最终的多层次融合特征输入解码装置。

在解码装置，首先将训练图像的类别特征词向量送入第三多维度卷积核特征抽取器中，经过一维卷积核、二维卷积核和三维卷积核的抽取，得到一张训练图像中实体类别自身、两个实体类别和三个实体类别之间的类别联合信息；并经过第三多维度卷积核特征抽取器处理，在分布式表示后的描述中添加位置向量信息；之后，输入送入带掩码的multi-head attention特征抽取器，并得到掩盖了已生成词之后的词信息的序列特征，并将编码装置接收的多层次融合特征与序列特征输入第一multi-head attention特征抽取器融合成序列图像特征；将类别联合信息与序列图像特征输入第二multi-head attention特征抽取器融合，再流通过第二简单前馈网络，以获得该层的多维度序列图像融合信息，并作为下一个编码模块的序列特征输入；循环多词，获得多层次的多维度序列图像融合信息，将多维度序列图像融合信息通过自注意力机制特征融合层，获得不同层次的权重，加权获得最终的多层次多维度序列图像融合信息作为解码装置的最终结果；将结果经过一个线形层的softmax层获得输出序列的概率，计算出与样本对中的真实描述的交叉熵损失；每训练完一个训练图像，在验证集上验证目前模型的拟合状态，验证过程中不进行反向迭代。

步骤104：对所述图像描述模型进行强化学习的训练。

在强化学习的训练过程中，CIDEr-D被视为奖励函数；首先将图像特征组(包括：感兴趣区域特征向量、类别特征词向量和图像实体特征向量)与分布式表示的描述流过编码装置和解码装置，获得最后一层编码模块的第一简单前馈网络输出；然后按照以下两种方式获得句子：概率值最大的词组成的句子和采用蒙特卡洛采样组成的句子；分别与真实描述计算奖励得分再作差，作为奖励系数，然后获得最后的损失继而反向迭代；每训练完一个时期，在验证集上验证目前模型的拟合状态，验证过程中不进行反向迭代。

本实施例中，所述“抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量”具体包括：

对每个训练图像，都执行以下操作：

基于已训练的Faster-RCNN模型抽取对应的感兴趣区域特征向量，并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别；这里，可以理解的是，每个训练图像中均包含有若干感兴趣区域，该感兴趣区域特征向量具有若干维度(例如，维度数量为2048等)，其每一维代表了图像特征。此外，基于Faster-RCNN模型，可以从训练图像识别出若干个图像实体区域，每个图像实体区域均包含有一个实体；可以理解的是，该实体对应到一个图像实体类别，例如，cat，dog等等。这里，图4A示出了一个训练图片中的若干图像实体区域框，图4B示出了该训练图片中的若干图像实体类别。

基于BERT模型、获得所述图像实体类别对应的类别特征词向量；这里，所述类别特征词向量具有多个维度(例如，维度数量为1024等)，每个维度都代表了词语特征；一个图像实体类别对应到一个类别特征词向量，可以理解的是，对于每个训练图像而言，图像实体区域框的数量＝图像实体类别的数量＝类别特征词向量的数量。可选的，如果一个训练图像的图像中类别特征词向量的个数小于预设阀值(例如，5等)，则可以使用值为零的类别特征词向量填充，使得类别特征词向量等于预设阀值；如果一个训练图像的图像中类别特征词向量的个数大于预设阀值(例如，5等)，则可以丢弃一些类别特征词向量，使得类别特征词向量等于预设阀值。可选的，通过该BERT模型，得到的类型特征词向量的长度都是相同的。

基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量。这里，所述图像实体特征向量具有多个维度(例如，维度数量为2048等)，每个维度都代表了图像特征；一个图像实体类别对应到一个类别特征词向量，可以理解的是，对于每个训练图像而言，图像实体区域框的数量＝图像实体类别的数量＝图像实体特征向量的数量。可选的，如果一个训练图像的图像中图像实体特征向量的个数小于预设阀值(例如，5等)，则可以使用值为零的图像实体特征向量填充，使得图像实体特征向量等于预设阀值；如果一个训练图像的图像中图像实体特征向量的个数大于预设阀值(例如，5等)，则可以丢弃一些图像实体特征向量，使得图像实体特征向量等于预设阀值。

本实施例中，所述训练图像为MS COCO数据集中的训练集中的图像；MSCOCO数据集是由微软团队发布的大型的、丰富的物体检测，分割和字幕数据集，这个数据集以场景理解为目标，在MS COCO数据集中，其中每一张图片包含多种任务标注组成，包括目标检测框任务标注、关键点检测任务标注、分割任务标注、图像描述任务标注。所使用的图像检测任务标注包括每张图片5句描述。

可选的，该训练图像为MS COCO 2014数据集。MSCOCO 2014数据集经过切分，包含113287张训练集图像，5000张验证集图像，5000张测试集图像。

所述“基于BERT模型、获得所述图像实体类别对应的类别特征词向量”具体包括：基于BERT模型编码所述MS COCO数据集中出现的每个不同的词，并获得包含有若干词向量的词汇表；基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量；其中，所述若干词向量的长度均相等；

可选的，该词汇表中的每个词向量的长度都是固定的。该词汇表大小为10201，词向量维度为1024，其每一维代表了词语特征。

所述已训练的ResNet模型使用Visual Genome数据集进行训练的，其中，所述ResNet模型中的损失部分中添加了属性分类损失函数。这里，由于ResNet模型的损失部分中添加了属性分类损失，从而使得该ResNet模型能够同时关注实体分类以及实体属性特征。

这里，Visual Genome数据集包含有108077张图像，平均每张图像有16个属性。一个物体有0个或是更多的属性。

本实施例中，所述“基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练”具体包括：

基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练，在交叉熵损失的训练过程中，使用MSCOCO数据集中的验证集图片进行模型拟合收敛判断，学习率采用自衰减策略，使用Adam优化器优化参与训练的参数。

本实施例中，所述“对所述图像描述模型进行强化学习的训练”具体包括：

对所述图像描述模型进行强化学习的训练，在训练过程中，使用MS COCO数据集中的验证集图片进行模型拟合收敛判断；训练完成后使用MS COCO数据集中的测试集数据集进行模型效果测试；在强化学习训练过程中，学习率设置为0.0000004，使用Adam优化器优化参与训练的参数；第一、第二和第三多维度卷积核特征抽取器的输入维度为1024，输出维度为1024；第二多维度卷积核特征抽取器使用一维卷积核，三维卷积核和五维卷积核；第一、第三多维度卷积核特征抽取器使用一维卷积核，二维卷积核和三维卷积；第一、第二multi-head attention特征抽取器的输入维度为1024，输出维度为1024，head个数为8，每个head的处理维度为128；第一、第二简单前馈网络的输入维度为1024，输出维度为1024，采用3层编码器抽取图像特征，采用3层解码器解码图像特征，生成描述；训练过程中批处理大小为64。

这里，可以使用BLEU，METEOR，ROUGE-L和CIDEr-D作为绩效评估指标。

参阅图5，从MS COCO数据集测试集上的实验效果中可以看出，采用本发明的图像描述模型，单从交叉熵训练过程的结果上看其BLEU-1，BLEU-4，METEOR，ROUGE-L和CIDEr-D最高，从强化学习优化之后的结果上看其BLEU-1，BLEU-4，METEOR和CIDEr-D也是最高，说明这个模型最好。

参阅图6，从MS COCO数据集上的训练时间中可以看出，采用本发明的图像描述模型，每个epoch的训练时间最短，训练所需的epoch数也最少，即收敛最快，说明这个模型最好。

本发明实施例二提供了一种图像描述模型的训练装置，包括以下模块：

特征抽取模块，用于接收若干训练图像，抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量；

模型创建模块，用于创建图像描述模型，所述图像描述模型包括：包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和第一多维度卷积核特征抽取器；所述编码模块包括第二多维度卷积核特征抽取器、第一SelfAttention特征抽取器、第二Self Attention特征抽取器和第一简单前馈网络；所述解码模块包括第三多维度卷积核特征抽取器、带掩码的multi-head attention特征抽取器、第一multi-head attention特征抽取器、第二multi-head attention特征抽取器和第二简单前馈网络组成；编码装置和编码装置之间由自注意力机制特征融合层衔接；

第一训练模块，用于基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练；

第二训练模块，用于对所述图像描述模型进行强化学习的训练。

本实施例中，所述特征抽取模块还用于：对每个训练图像，都执行以下操作：基于已训练的Faster-RCNN模型抽取对应的感兴趣区域特征向量，并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别；基于BERT模型、获得所述图像实体类别对应的类别特征词向量；基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量。

本实施例中，所述训练图像为MS COCO数据集中的训练集中的图像；所述特征抽取模块还用于：基于BERT模型编码所述MS COCO数据集中出现的每个不同的词，并获得包含有若干词向量的词汇表；基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量；其中，所述若干词向量的长度均相等；所述已训练的ResNet模型使用VisualGenome数据集进行训练的，其中，所述ResNet模型中的损失部分中添加了属性分类损失函数。

本实施例中，所述第一训练模块还用于：基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练，在交叉熵损失的训练过程中，使用MS COCO数据集中的验证集图片进行模型拟合收敛判断，学习率采用自衰减策略，使用Adam优化器优化参与训练的参数。

本实施例中，所述第二训练模块还用于：对所述图像描述模型进行强化学习的训练，在训练过程中，使用MS COCO数据集中的验证集图片进行模型拟合收敛判断；训练完成后使用MS COCO数据集中的测试集数据集进行模型效果测试；在强化学习训练过程中，学习率设置为0.0000004，使用Adam优化器优化参与训练的参数；第一、第二和第三多维度卷积核特征抽取器的输入维度为1024，输出维度为1024；第二多维度卷积核特征抽取器使用一维卷积核，三维卷积核和五维卷积核；第一、第三多维度卷积核特征抽取器使用一维卷积核，二维卷积核和三维卷积；第一、第二multi-head attention特征抽取器的输入维度为1024，输出维度为1024，head个数为8，每个head的处理维度为128；第一、第二简单前馈网络的输入维度为1024，输出维度为1024，采用3层编码器抽取图像特征，采用3层解码器解码图像特征，生成描述；训练过程中批处理大小为64。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，系统和模块的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的系统，系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施方式仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以2个或2个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机系统(可以是个人计算机，服务器，或者网络系统等)或处理器(processor)执行本申请各个实施方式所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施方式仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施方式对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施方式技术方案的精神和范围。

Claims

1.一种图像描述模型的训练方法，其特征在于，包括以下步骤：

对所述图像描述模型进行强化学习的训练；

所述“抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量”具体包括：对每个训练图像，都执行以下操作：基于已训练的Faster-RCNN模型抽取对应的感兴趣区域特征向量，并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别；基于BERT模型、获得所述图像实体类别对应的类别特征词向量；基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量；所述训练图像为MS COCO数据集中的训练集中的图像；所述“基于BERT模型、获得所述图像实体类别对应的类别特征词向量”具体包括：基于BERT模型编码所述MS COCO数据集中出现的每个不同的词，获得包含有若干词向量的词汇表；基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量；其中，所述若干词向量的长度均相等；所述已训练的ResNet模型使用VisualGenome数据集进行训练的，其中，所述ResNet模型中的损失部分中添加了属性分类损失函数。

2.根据权利要求1所述的训练方法，其特征在于，所述“基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量，对所述图像描述模型进行交叉熵损失的训练”具体包括：

3.根据权利要求2所述的训练方法，其特征在于，所述“对所述图像描述模型进行强化学习的训练”具体包括：

对所述图像描述模型进行强化学习的训练，在训练过程中，使用MS COCO数据集中的验证集图片进行模型拟合收敛判断；训练完成后使用MS COCO数据集中的测试集数据集进行模型效果测试；

在强化学习训练过程中，学习率设置为0.0000004，使用Adam优化器优化参与训练的参数；第一、第二和第三多维度卷积核特征抽取器的输入维度为1024，输出维度为1024；第二多维度卷积核特征抽取器使用一维卷积核，三维卷积核和五维卷积核；第一、第三多维度卷积核特征抽取器使用一维卷积核，二维卷积核和三维卷积；第一、第二multi-headattention特征抽取器的输入维度为1024，输出维度为1024，head个数为8，每个head的处理维度为128；第一、第二简单前馈网络的输入维度为1024，输出维度为1024，采用3层编码器抽取图像特征，采用3层解码器解码图像特征，生成描述；训练过程中批处理大小为64。

4.一种图像描述模型的训练装置，其特征在于，包括以下模块：

第二训练模块，用于对所述图像描述模型进行强化学习的训练；

所述特征抽取模块还用于：对每个训练图像，都执行以下操作：基于已训练的Faster-RCNN模型抽取对应的感兴趣区域特征向量，并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别；基于BERT模型、获得所述图像实体类别对应的类别特征词向量；基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量；

所述训练图像为MS COCO数据集中的训练集中的图像；所述特征抽取模块还用于：基于BERT模型编码所述MS COCO数据集中出现的每个不同的词，并获得包含有若干词向量的词汇表；基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量；其中，所述若干词向量的长度均相等；所述已训练的ResNet模型使用Visual Genome数据集进行训练的，其中，所述ResNet模型中的损失部分中添加了属性分类损失函数。

5.根据权利要求4所述的训练装置，其特征在于，所述第一训练模块还用于：

6.根据权利要求4所述的训练装置，其特征在于，所述第二训练模块还用于：