CN114693997A

CN114693997A - 基于迁移学习的图像描述生成方法、装置、设备及介质

Info

Publication number: CN114693997A
Application number: CN202210415615.5A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-01

Abstract

本发明涉及人工智能技术，提供了一种基于迁移学习的图像描述生成方法、装置、设备及介质，该方法包括：获取目标图像；对所述目标图像进行预处理，确定目标区域；将所述目标区域输入已训练的属性生成模型，得到属性目标向量；将所述属性目标向量输入已训练的文本生成模型，得到预测语句。根据本发明实施例提供的方案，能够通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

Description

基于迁移学习的图像描述生成方法、装置、设备及介质

技术领域

本发明涉及但不限于人工智能技术领域，尤其涉及一种基于迁移学习的图像描述生成方法、装置、设备及介质。

背景技术

图像描述生成(Image Captioning)作为结合自然语言处理(Natural LanguageProcessing，NLP)和计算机视觉(Computer Version，CV)领域的综合研究方向，已取得很多进展以及应用。

目前，通过结合卷积神经网络(Convolutional Neural Networks，CNN)和循环神经网络(Recurrent Neural Network，RNN)的图像描述生成方法，能够支持端到端训练，而且可以关注到更多图像信息，能够得到更好的文本化图像注意力信息和解决RNN对长句子遗忘的问题；但是，现有的图像描述生成方法无法关注图像中的高层语义信息，导致图像描述生成的效果差，生成文本的可读性差；另外，在图像描述生成模型的训练过程中，模型的训练难度大。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于迁移学习的图像描述生成方法、装置、设备及介质，能够通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

第一方面，本发明还提供了一种基于迁移学习的图像描述生成方法，所述方法包括：获取目标图像；对所述目标图像进行预处理，确定目标区域；将所述目标区域输入已训练的属性生成模型，得到属性目标向量；将所述属性目标向量输入已训练的文本生成模型，得到预测语句；其中，所述属性生成模型通过如下步骤训练：获取训练数据集，其中，所述训练数据集包括多个训练图像和各个所述训练图像对应的描述语句，所述描述语句包含多个属性词；基于所述属性词构建属性词典，并根据所述描述语句和所述属性词典，确定与所述描述语句对应的真实属性标签；对预设的图像分类模型进行迁移学习，得到预训练模型，其中，所述预训练模型包括依次连接的卷积神经网络和多类别分类器，所述卷积神经网络用于提取所述训练图像的图像特征；基于所述属性词典和预设的分类算法，对所述多类别分类器进行微调，其中，微调后的所述多类别分类器用于确定所述图像特征所对应的属于所述属性词典的属性词；将所述训练图像和所述真实属性标签作为训练数据，对微调后的所述预训练模型进行训练，以得到属性生成模型。

在一些实施例中，所述基于所述属性词构建属性词典，包括：确定所述属性词在所述描述语句中的出现频率；基于所述出现频率和预设的词典容量值，对所述属性词进行筛选，确定目标属性词；根据所述目标属性词，建立属性词典。

在一些实施例中，所述将所述训练图像和所述真实属性标签作为训练数据，对微调后的所述预训练模型进行训练，以得到属性生成模型，包括：将所述训练图像输入微调后的所述预训练模型，确定属性训练向量；根据所述真实属性标签和所述属性训练向量确定第一模型损失函数；基于所述第一模型损失函数，更新微调后的所述预训练模型的模型参数，以得到属性生成模型；其中，所述第一模型损失函数的公式为：

其中，J为由所述第一模型损失函数而确定的第一模型损失，N为所述训练图像的数量，c为所述词典容量值；p_ij为第i个所述训练图像对应的可能性序列p_i中的第j个元素，p_i＝[p_i1,p_i2,...,p_ic]，p_ij是指第i个所述训练图像存在第j个所述目标属性词的概率；y_ij为第i个所述训练图像对应的真实属性标签中的第j个元素，y_ij的计算步骤为：当第i个所述训练图像存在第j个所述目标属性词，则y_ij＝1，否则y_ij＝0，1≤i≤N，且i、N均为正整数。

在一些实施例中，所述对所述目标图像进行预处理，确定目标区域，包括：基于归一化切割算法和预设的聚类数量，对所述目标图像进行分割处理，得到多个聚类，其中，每个所述聚类包括至少一个子区域；针对每个所述聚类，基于所述目标图像和预设的评分算法，对所述聚类的所有子区域进行评分处理，确定评分值，其中，所述评分值与所述子区域一一对应；针对每个所述聚类，基于所述评分值和预设的属性区域数量，从所述聚类的所有子区域中筛选出目标属性区域；根据所述目标图像和所述目标属性区域，确定目标区域。

在一些实施例中，所述文本生成模型通过如下步骤训练：获取训练数据集，其中，所述训练数据集包括多个训练图像和各个所述训练图像对应的描述词；将所述训练数据集输入已训练的所述属性生成模型，得到多个属性训练向量；基于预设的门控循环网络，在n个时间步上对所述属性训练向量进行处理，得到所述n个时间步对应的预测词，其中，所述门控循环网络包括更新门和重置门；根据所述预测词得到预测语句；根据所述属性训练向量和所述预测语句，确定第二模型损失函数；基于所述第二模型损失函数，更新所述门控循环网络的模型参数，以得到文本生成模型；其中，所述门控循环网络在第t个时间步上的输入包括所述门控循环网络在第t-1个时间步上的隐状态和在第t个时间步上对应的预测词，所述门控循环网络在第t个时间步上对应的预测词由所述门控循环网络在第t-1个时间步上的输出而确定，所述门控循环网络在第t-1个时间步上的隐状态由所述门控循环网络在第t-1个时间步上的更新门和重置门而更新，所述门控循环网络在第t个时间步上的更新门和重置门由所述门控循环网络在第t-1个时间步上的隐状态和在第t个时间步上对应的预测词而确定，所述第t个时间步是所述n个时间步中的任意一个，1≤t≤n，且t、n均为正整数。

在一些实施例中，所述门控循环网络通过以下公式实现在n个时间步上对所述属性训练向量进行处理：

z_t＝σ(h_t-1·W_zh+x_t·W_zx])，

r_t＝σ(h_t-1·W_rh+x_t·W_rx])，

其中，z_t为所述门控循环网络在第t个时间步上的更新门，r_t为所述门控循环网络在第t个时间步上的重置门，

为所述门控循环网络在第t个时间步上的候选隐状态，h_t为所述门控循环网络在第t个时间步上的隐状态；W_zh、W_zx、W_rh、W_rx、

W_o均为预设的学习参数，σ表示sigmoid函数，⊙表示计算点积，x_t＝W_sS_t，W_s为预设的可学习词向量参数矩阵，S_t为所述门控循环网络在第t个时间步上对应的预测词。

在一些实施例中，所述第二模型损失函数的公式为：

其中，C是由所述第二模型损失函数而确定的第二模型损失，N为所述训练图像的数量，i为输入所述属性生成模型的所述训练图像的次序，1≤i≤N，且i、N均为正整数，S⁽ⁱ⁾为第i个所述训练图像对应的预测词，V_att(I⁽ⁱ⁾)为第i个所述训练图像对应的所述属性训练向量，L⁽ⁱ⁾为所述S⁽ⁱ⁾对应的句子长度，y_t为所述门控循环网络在第t个时间步上的输出，

为用于正则化处理的多项式，log p(S⁽ⁱ⁾|V_att(I⁽ⁱ⁾))的计算公式如下：

其中，S＝{S₁,...,S_L}，S∈R^K，S为所述预测语句，S_L为第L个预测词，L为所述S_L对应的句子长度，R为实数域，K为所述的属性词典的词典维度，S_t为所述门控循环网络在第t个时间步对应的预测词，S_1:t-1为所述门控循环网络在第t-1个时间步对应的预测语句，V_att(I)为所述属性训练向量，p(S_t|S_1:t-1,V_att(I))是指由所述V_att(I)和所述S_1:t-1产生所述S_t的概率。

第二方面，本发明还提供了一种基于迁移学习的图像描述生成装置，所述装置包括：获取单元，用于获取目标图像；预处理单元，用于对所述目标图像进行预处理，确定目标区域；属性生成单元，用于将所述目标区域输入已训练的属性生成模型，得到属性目标向量；描述生成单元，用于将所述属性目标向量输入已训练的文本生成模型，得到预测语句；

其中，所述属性生成模型通过如下步骤训练：获取训练数据集，其中，所述训练数据集包括多个训练图像和各个所述训练图像对应的描述语句，所述描述语句包含多个属性词；基于所述属性词构建属性词典，并根据所述描述语句和所述属性词典，确定与所述描述语句对应的真实属性标签；对预设的图像分类模型进行迁移学习，得到预训练模型，其中，所述预训练模型包括依次连接的卷积神经网络和多类别分类器，所述卷积神经网络用于提取所述训练图像的图像特征；基于所述属性词典和预设的分类算法，对所述多类别分类器进行微调，其中，微调后的所述多类别分类器用于确定所述图像特征所对应的属于所述属性词典的属性词；将所述训练图像和所述真实属性标签作为训练数据，对微调后的所述预训练模型进行训练，以得到属性生成模型。

第三方面，本发明实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的基于迁移学习的图像描述生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上第一方面所述的基于迁移学习的图像描述生成方法。

本发明实施例包括：获取目标图像；对目标图像进行预处理，确定目标区域；将目标区域输入已训练的属性生成模型，得到属性目标向量；将所述属性目标向量输入已训练的文本生成模型，得到预测语句；其中，所述属性生成模型通过如下步骤训练：获取训练数据集，其中，所述训练数据集包括多个训练图像和各个所述训练图像对应的描述语句，所述描述语句包含多个属性词；基于所述属性词构建属性词典，并根据所述描述语句和所述属性词典，确定与所述描述语句对应的真实属性标签；对预设的图像分类模型进行迁移学习，得到预训练模型，其中，所述预训练模型包括依次连接的卷积神经网络和多类别分类器，所述卷积神经网络用于提取所述训练图像的图像特征；基于所述属性词典和预设的分类算法，对所述多类别分类器进行微调，其中，微调后的所述多类别分类器用于确定所述图像特征所对应的属于所述属性词典的属性词；将所述训练图像和所述真实属性标签作为训练数据，对微调后的所述预训练模型进行训练，以得到属性生成模型。根据本发明实施例提供的方案，通过对预设的图像分类模型进行迁移学习，再利用属性词构建的属性词典进行微调，并训练得到属性生成模型，将对目标图像进行预处理得到的目标区域输入属性生成模型，进而通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的基于迁移学习的图像描述生成方法的流程图；

图2是本发明另一个实施例提供的一种属性生成模型训练方法的流程图；

图3是本发明另一个实施例提供的一种建立属性词典的流程图；

图4是本发明另一个实施例提供的一种得到属性生成模型的流程图；

图5是本发明另一个实施例提供的一种确定目标区域的流程图；

图6是本发明另一个实施例提供的一种文本生成模型训练方法的流程图；

图7是本发明另一个实施例提供的基于迁移学习的图像描述生成方法的系统框图；

图8是本发明另一个实施例提供的基于迁移学习的图像描述生成装置的结构图；

图9是本发明另一个实施例提供的电子设备的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，若干个的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

针对图像描述生成的效果差和模型的训练难度大的问题，本发明提供了一种基于迁移学习的图像描述生成方法、装置、设备及介质，该方法包括：获取目标图像；对目标图像进行预处理，确定目标区域；将目标区域输入已训练的属性生成模型，得到属性目标向量；将属性目标向量输入已训练的文本生成模型，得到预测语句；其中，属性生成模型通过如下步骤训练：获取训练数据集，其中，训练数据集包括多个训练图像和各个训练图像对应的描述语句，描述语句包含多个属性词；基于属性词构建属性词典，并根据描述语句和属性词典，确定与描述语句对应的真实属性标签；对预设的图像分类模型进行迁移学习，得到预训练模型，其中，预训练模型包括依次连接的卷积神经网络和多类别分类器，卷积神经网络用于提取训练图像的图像特征；基于属性词典和预设的分类算法，对多类别分类器进行微调，其中，微调后的多类别分类器用于确定图像特征所对应的属于属性词典的属性词；将训练图像和真实属性标签作为训练数据，对微调后的预训练模型进行训练，以得到属性生成模型。根据本发明实施例提供的方案，通过对预设的图像分类模型进行迁移学习，再利用属性词构建的属性词典进行微调，并训练得到属性生成模型，将对目标图像进行预处理得到的目标区域输入属性生成模型，进而通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗、智慧城市等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

首先，对本发明中涉及的若干名词进行解析：

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)是深度学习(deeplearning)的代表算法之一；

循环神经网络(Recurrent Neural Network，RNN)，是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络；

迁移学习，给定由特征空间X和边缘概率分布P(X)组成的源域D_s和学习任务T_s，和同样由特征空间和边缘概率分布组成的目标域D_t和学习任务T_t，迁移学习的目的在于利用D_s和T_s中的知识来帮助学习在目标域D_t的目标函数f_T()的过程，注意D_s与D_t不相等、T_s与T_t不相等；

MS COCO数据集，全称是Microsoft Common Objects in Context，是一个大型的、丰富的物体检测，分割和字幕数据集；这个数据集以场景理解为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的分割进行位置的标定；

门控循环单元(Gated Recurrent Unit，GRU)，是循环神经网络中的一种门控机制，与其他门控机制相似，其旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息，GRU包含一个重置门(reset gate)和一个更新门(update gate)；

归一化切割(Normalized Cut)，是一种分群(cluster grouping)技术，在数据处理和图像处理方面有很广的运用，其实现图像分割的思路是，把一个图片看成一个图(graph)，然后计算权重图(weighted graph)，然后分割成一些具有相同特征(纹理，颜色，明度等)的区域；

交并比(Intersection-over-Union，IoU)，是目标检测中产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率，即它们的交集与并集的比值；

随机梯度下降(Stochastic Gradient Descent，SGD)，也称为增量梯度下降，是一种迭代方法，用于优化可微分目标函数；该方法通过在小批量数据上计算损失函数的梯度而迭代地更新权重与偏置项。

下面结合附图，对本发明实施例作进一步阐述。

如图1和图2所示，图1是本发明一个实施例提供的一种基于迁移学习的图像描述生成方法的流程图，图2为本发明一个实施例提供的一种属性生成模型训练方法的流程图，在该基于迁移学习的图像描述生成方法中，包括但不限于有以下步骤S110至S140：

步骤S110，获取目标图像；

步骤S120，对目标图像进行预处理，确定目标区域；

步骤S130，将目标区域输入已训练的属性生成模型，得到属性目标向量；

步骤S140，将属性目标向量输入已训练的文本生成模型，得到预测语句；

其中，步骤S130的属性生成模型训练方法，包括但不限于有以下步骤S210至S250：

步骤S210，获取训练数据集，其中，训练数据集包括多个训练图像和各个训练图像对应的描述语句，描述语句包含多个属性词；

步骤S220，基于属性词构建属性词典，并根据描述语句和属性词典，确定与描述语句对应的真实属性标签；

步骤S230，对预设的图像分类模型进行迁移学习，得到预训练模型，其中，预训练模型包括依次连接的卷积神经网络和多类别分类器，卷积神经网络用于提取训练图像的图像特征；

步骤S240，基于属性词典和预设的分类算法，对多类别分类器进行微调，其中，微调后的多类别分类器用于确定图像特征所对应的属于属性词典的属性词；

步骤S250，将训练图像和真实属性标签作为训练数据，对微调后的预训练模型进行训练，以得到属性生成模型。

可以理解的是，在训练属性生成模型时，先获取训练数据集，训练数据集为MSCOCO数据集，MS COCO数据集包含了多个训练图像及对应的描述语句，能够满足属性生成模型训练的需求，描述语句由多个属性词组成，通过属性词构建属性词典，基于预设的Sigmoid分类算法，并结合属性词典，对迁移学习得到的预训练模型进行微调，进而确定图像特征与属于属性词典的属性词的映射关系，再利用训练图像和真实属性标签进行训练，得到属性生成模型；在图像描述生成时，对目标图像进行预处理并输入属性生成模型，进而得到属性目标向量，最后利用文本生成模型得到预测语句；基于此，通过对预设的图像分类模型进行迁移学习，再利用属性词构建的属性词典进行微调，并训练得到属性生成模型，将对目标图像进行预处理得到的目标区域输入属性生成模型，进而通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

需要说明的是，属性目标向量包含了目标图像的高层语义信息，文本生成模型能够通过属性目标向量生成预测语句。

在具体实践中，图像分类模型为VGG-16模型，VGG-16模型用于处理图像分类的单标签问题，进行迁移学习后，能够处理多标签问题，能够降低属性生成模型的训练难度；对于迁移学习后的VGG-16模型，VGG-16模型包含多个卷积层和和多个全连接层，将最后一个全连接层输入到经过微调的多类别分类器，得到属性生成模型。

值得注意的是，VGG-16模型的处理方式，属于本领域技术人员熟知的技术，在此不多作赘述。

另外，参照图3，在一实施例中，图2所示实施例中的步骤S220，还包括但不限于有以下步骤S310至S330：

步骤S310，确定属性词在描述语句中的出现频率；

步骤S320，基于出现频率和预设的词典容量值，对属性词进行筛选，确定目标属性词；

步骤S330，根据目标属性词，建立属性词典。

可以理解的是，多类别分类器的类别数量为词典容量值，将词典容量值预设为256，多类别分类器的类别数量为256；各个属性词的出现频率是指各个属性词在所有描述语句中的数量，在建立属性词典的过程中，选取出现频率最高的256个属性词作为目标属性词，并建立属性词典，目标属性词的在所有描述语句中的数量大于5。

值得注意的是，确定属性词在描述语句中的出现频率的方法，可通过对描述语句的属性词进行遍历的方法进行计算，在此不作限定。

需要说明的是，属性词为描述语句中的单个词语，属性词的词性不作限定。

另外，参照图4，在一实施例中，图2所示实施例中的步骤S250，还包括但不限于有以下步骤S410至S430：

步骤S410，将训练图像输入微调后的预训练模型，确定属性训练向量；

步骤S420，根据真实属性标签和属性训练向量确定第一模型损失函数；

步骤S430，基于第一模型损失函数，更新微调后的预训练模型的模型参数，以得到属性生成模型；

其中，第一模型损失函数的公式为：

其中，J为由第一模型损失函数而确定的第一模型损失，N为训练图像的数量，c为词典容量值；

p_ij为第i个训练图像对应的可能性序列p_i中的第j个元素，p_i＝[p_i1,p_i2,...,p_ic]，p_ij是指第i个训练图像存在第j个目标属性词的概率；

y_ij为第i个训练图像对应的真实属性标签中的第j个元素，y_ij的计算步骤为：

当第i个训练图像存在第j个目标属性词，则y_ij＝1，否则y_ij＝0，1≤i≤N，且i、N均为正整数。

可以理解的是，通过y_ij和p_ij计算得到Sigmoid交叉熵，将Sigmoid交叉熵作为第一模型损失，即作为误差的衡量标准，利用Sigmoid交叉熵更新微调后的预训练模型的模型参数，使得属性生成模型能够提高生成的属性训练向量的置信度。

需要说明的是，log函数为对数损失函数，能够很好的表征概率分布，对于多标签分类任务，可以利用log函数求得每个类别的置信度，在属性生成模型的训练过程中，log函数能够求得每个训练图像对于由属性词典微调得到的多类别分类器的置信度。

另外，参照图5，在一实施例中，图1所示实施例中的步骤S120，还包括但不限于有以下步骤S510至S540：

步骤S510，基于归一化切割算法和预设的聚类数量，对目标图像进行分割处理，得到多个聚类，其中，每个聚类包括至少一个子区域；

步骤S520，针对每个聚类，基于目标图像和预设的评分算法，对聚类的所有子区域进行评分处理，确定评分值，其中，评分值与子区域一一对应；

步骤S530，针对每个聚类，基于评分值和预设的属性区域数量，从聚类的所有子区域中筛选出目标属性区域；

步骤S540，根据目标图像和目标属性区域，确定目标区域。

在具体实践中，聚类数量预设为m，属性区域数量预设为k，基于归一化切割算法，对目标图像进行分割处理，得到m个聚类，每个聚类包括至少一个子区域；针对每个聚类，对聚类中所有子区域进行评分处理，选取最高分的k个子区域作为目标属性区域，其中，评分处理的方法包括但不限于计算各个子区域与目标图像之间的交并比，将交并比的比值作为评分值，相当于选取交并比的比值较大的k个子区域作为目标属性区域；对于m个聚类，共有mk个目标属性区域，加上目标图像后，共mk+1个区域，将该mk+1个区域作为目标区域。

值得注意的是，交并比的计算方法，属于本领域技术人员熟知的技术，在此不多作赘述。

如图6所示，在一实施例中，图1所示实施例中的步骤S140的文本生成模型训练方法，包括但不限于有以下步骤S610至S660：

步骤S610，获取训练数据集，其中，训练数据集包括多个训练图像和各个训练图像对应的描述词；

步骤S620，将训练数据集输入已训练的属性生成模型，得到多个属性训练向量；

步骤S630，基于预设的门控循环网络，在n个时间步上对属性训练向量进行处理，得到n个时间步对应的预测词，其中，门控循环网络包括更新门和重置门；

步骤S640，根据预测词得到预测语句；

步骤S650，根据属性训练向量和预测语句，确定第二模型损失函数；

步骤S660，基于第二模型损失函数，更新门控循环网络的模型参数，以得到文本生成模型；

其中，门控循环网络在第t个时间步上的输入包括门控循环网络在第t-1个时间步上的隐状态和在第t个时间步上对应的预测词，门控循环网络在第t个时间步上对应的预测词由门控循环网络在第t-1个时间步上的输出而确定，门控循环网络在第t-1个时间步上的隐状态由门控循环网络在第t-1个时间步上的更新门和重置门而更新，门控循环网络在第t个时间步上的更新门和重置门由门控循环网络在第t-1个时间步上的隐状态和在第t个时间步上对应的预测词而确定，第t个时间步是n个时间步中的任意一个，1≤t≤n，且t、n均为正整数。

可以理解的是，利用已训练的属性生成模型得到的属性训练向量，对门控循环网络进行训练，并将训练后的门控循环网络作为文本生成模型，能够保证预测语句的准确性。

另外，在一实施例中，门控循环网络通过以下公式实现在n个时间步上对属性训练向量进行处理：

z_t＝σ(h_t-1·W_zh+x_t·W_zx])，

r_t＝σ(h_t-1·W_rh+x_t·W_rx])，

其中，z_t为门控循环网络在第t个时间步上的更新门，r_t为门控循环网络在第t个时间步上的重置门，

为门控循环网络在第t个时间步上的候选隐状态，h_t为门控循环网络在第t个时间步上的隐状态；W_zh、W_zx、W_rh、W_rx、

W_o均为预设的学习参数，σ表示sigmoid函数，⊙表示计算点积，x_t＝W_sS_t，W_s为预设的可学习词向量参数矩阵，S_t为门控循环网络在第t个时间步上对应的预测词。

可以理解的是，门控循环单元中的重置门和更新门的输入均为当前时间步输入与上一时间步的隐状态，输出由激活函数为sigmoid函数的全连接层计算得到；如果重置门中元素值接近0，即丢弃上一时间步的隐状态，如果元素值接近1，即保留上一时间步的隐状态，然后，将按点积的结果与当前时间步的输入连结，再通过含激活函数tanh的全连接层计算出候选隐状态，其所有元素的值域为[-1,1]；当前时间步的隐藏状态通过当前时间步的更新门、上一时间步的隐状态和当前时间步的候选隐状态来计算。

值得注意的是，利用sigmoid激活函数进行处理，属于本领域技术人员熟知的技术，在此不多作赘述。

另外，在一实施例中，第二模型损失函数的公式为：

其中，C是由第二模型损失函数而确定的第二模型损失，N为训练图像的数量，i为输入属性生成模型的训练图像的次序，1≤i≤N，且i、N均为正整数，S⁽ⁱ⁾为第i个训练图像对应的预测词，V_att(I⁽ⁱ⁾)为第i个训练图像对应的属性训练向量，L⁽ⁱ⁾为S⁽ⁱ⁾对应的句子长度，y_t为门控循环网络在第t个时间步上的输出，

其中，S＝{S₁,...,S_L}，S∈R^K，S为预测语句，S_L为第L个预测词，L为S_L对应的句子长度，R为实数域，K为的属性词典的词典维度，S_t为门控循环网络在第t个时间步对应的预测词，S_1:t-1为门控循环网络在第t-1个时间步对应的预测语句，V_att(I)为属性训练向量，p(S_t|S_1:t-1,V_att(I))是指由V_att(I)和S_1:t-1产生S_t的概率。

可以理解的是，log p(S|V_att(I))是指计算对数似然(Log-likelihood)，在第二模型损失函数计算对数似然，能够使文本生成模型生成的预测语句与目标图像自身的描述更加接近。

需要说明的是，S为预测语句，预测语句由至少一个预测词构成，S的首端之前连接有S₀，S₀为开始标志，用于指示开始生成预测语句，S的末端之后连接有S_L+1，S_L+1为结束标志，用于指示结束生成预测语句。

在具体实践中，门控循环网络通过SGD方法进行模型更新，将100个图像-句子对作为小批量样本并进行迭代。

另外，参考图7，图7是本发明另一个实施例提供的基于迁移学习的图像描述生成方法的系统框图。

可以理解的是，在训练属性生成模型时，先获取训练数据集，训练数据集包含多个训练图像及对应的描述语句，描述语句由多个属性词组成，通过属性词构建属性词典，然后对迁移学习得到的预训练模型进行微调，并进行训练，得到属性生成模型；在图像描述生成时，对目标图像进行预处理，然后将预处理得到的目标区域输入属性生成模型，进而得到属性目标向量，最后利用文本生成模型得到预测语句；基于此，通过对预设的图像分类模型进行迁移学习，再利用属性词构建的属性词典进行微调，并训练得到属性生成模型，将对目标图像进行预处理得到的目标区域输入属性生成模型，进而通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

需要说明的是，在属性生成模型中，利用平均池化层，对多类别分类器的输出进行平均池化，进而得到属性目标向量。

值得注意的是，利用平均池化层进行平均池化处理，属于本领域技术人员熟知的技术，在此不多作赘述。

另外，参考图8，本发明还提供了一种基于迁移学习的图像描述生成装置800，包括：

获取单元810，用于获取目标图像；

预处理单元820，用于对目标图像进行预处理，确定目标区域；

属性生成单元830，用于将目标区域输入已训练的属性生成模型，得到属性目标向量；

描述生成单元840，用于将属性目标向量输入已训练的文本生成模型，得到预测语句；

其中，属性生成模型通过如下步骤训练：

获取训练数据集，其中，训练数据集包括多个训练图像和各个训练图像对应的描述语句，描述语句包含多个属性词；

基于属性词构建属性词典，并根据描述语句和属性词典，确定与描述语句对应的真实属性标签；

对预设的图像分类模型进行迁移学习，得到预训练模型，其中，预训练模型包括依次连接的卷积神经网络和多类别分类器，卷积神经网络用于提取训练图像的图像特征；

基于属性词典和预设的分类算法，对多类别分类器进行微调，其中，微调后的多类别分类器用于确定图像特征所对应的属于属性词典的属性词；

将训练图像和真实属性标签作为训练数据，对微调后的预训练模型进行训练，以得到属性生成模型。

可以理解的是，该基于迁移学习的图像描述生成装置800的具体实施方式与上述基于迁移学习的图像描述生成方法的具体实施例基本相同，在此不再赘述；基于此，通过对预设的图像分类模型进行迁移学习，再利用属性词构建的属性词典进行微调，并训练得到属性生成模型，将对目标图像进行预处理得到的目标区域输入属性生成模型，进而通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

另外，参照图9，本发明的一个实施例还提供了一种电子设备，该电子设备900包括：存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序。

处理器920和存储器910可以通过总线或者其他方式连接。

实现上述实施例的基于迁移学习的图像描述生成方法所需的非暂态软件程序以及指令存储在存储器910中，当被处理器920执行时，执行上述实施例中的基于迁移学习的图像描述生成方法，例如，执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S250、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S430、图5中的方法步骤S510至步骤S540、图6中的方法步骤S610至步骤S660，通过获取目标图像；对目标图像进行预处理，确定目标区域；将目标区域输入已训练的属性生成模型，得到属性目标向量；将属性目标向量输入已训练的文本生成模型，得到预测语句；其中，属性生成模型通过如下步骤训练：获取训练数据集，其中，训练数据集包括多个训练图像和各个训练图像对应的描述语句，描述语句包含多个属性词；基于属性词构建属性词典，并根据描述语句和属性词典，确定与描述语句对应的真实属性标签；对预设的图像分类模型进行迁移学习，得到预训练模型，其中，预训练模型包括依次连接的卷积神经网络和多类别分类器，卷积神经网络用于提取训练图像的图像特征；基于属性词典和预设的分类算法，对多类别分类器进行微调，其中，微调后的多类别分类器用于确定图像特征所对应的属于属性词典的属性词；将训练图像和真实属性标签作为训练数据，对微调后的预训练模型进行训练，以得到属性生成模型。基于此，通过对预设的图像分类模型进行迁移学习，再利用属性词构建的属性词典进行微调，并训练得到属性生成模型，将对目标图像进行预处理得到的目标区域输入属性生成模型，进而通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的基于迁移学习的图像描述生成方法，例如，执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S250、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S430、图5中的方法步骤S510至步骤S540、图6中的方法步骤S610至步骤S660，通过获取目标图像；对目标图像进行预处理，确定目标区域；将目标区域输入已训练的属性生成模型，得到属性目标向量；将属性目标向量输入已训练的文本生成模型，得到预测语句；其中，属性生成模型通过如下步骤训练：获取训练数据集，其中，训练数据集包括多个训练图像和各个训练图像对应的描述语句，描述语句包含多个属性词；基于属性词构建属性词典，并根据描述语句和属性词典，确定与描述语句对应的真实属性标签；对预设的图像分类模型进行迁移学习，得到预训练模型，其中，预训练模型包括依次连接的卷积神经网络和多类别分类器，卷积神经网络用于提取训练图像的图像特征；基于属性词典和预设的分类算法，对多类别分类器进行微调，其中，微调后的多类别分类器用于确定图像特征所对应的属于属性词典的属性词；将训练图像和真实属性标签作为训练数据，对微调后的预训练模型进行训练，以得到属性生成模型。基于此，通过对预设的图像分类模型进行迁移学习，再利用属性词构建的属性词典进行微调，并训练得到属性生成模型，将对目标图像进行预处理得到的目标区域输入属性生成模型，进而通过属性生成模型来获取目标图像中包含高层语义信息的属性目标向量，从而提高图像描述生成的效果，而且能够通过迁移学习来降低属性生成模型的训练难度。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于迁移学习的图像描述生成方法，其特征在于，所述方法包括：

获取目标图像；

对所述目标图像进行预处理，确定目标区域；

将所述目标区域输入已训练的属性生成模型，得到属性目标向量；

将所述属性目标向量输入已训练的文本生成模型，得到预测语句；

其中，所述属性生成模型通过如下步骤训练：

获取训练数据集，其中，所述训练数据集包括多个训练图像和各个所述训练图像对应的描述语句，所述描述语句包含多个属性词；

基于所述属性词构建属性词典，并根据所述描述语句和所述属性词典，确定与所述描述语句对应的真实属性标签；

对预设的图像分类模型进行迁移学习，得到预训练模型，其中，所述预训练模型包括依次连接的卷积神经网络和多类别分类器，所述卷积神经网络用于提取所述训练图像的图像特征；

基于所述属性词典和预设的分类算法，对所述多类别分类器进行微调，其中，微调后的所述多类别分类器用于确定所述图像特征所对应的属于所述属性词典的属性词；

将所述训练图像和所述真实属性标签作为训练数据，对微调后的所述预训练模型进行训练，以得到属性生成模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述属性词构建属性词典，包括：

确定所述属性词在所述描述语句中的出现频率；

基于所述出现频率和预设的词典容量值，对所述属性词进行筛选，确定目标属性词；

根据所述目标属性词，建立属性词典。

3.根据权利要求2所述的方法，其特征在于，所述将所述训练图像和所述真实属性标签作为训练数据，对微调后的所述预训练模型进行训练，以得到属性生成模型，包括：

将所述训练图像输入微调后的所述预训练模型，确定属性训练向量；

根据所述真实属性标签和所述属性训练向量确定第一模型损失函数；

基于所述第一模型损失函数，更新微调后的所述预训练模型的模型参数，以得到属性生成模型；

其中，所述第一模型损失函数的公式为：

其中，J为由所述第一模型损失函数而确定的第一模型损失，N为所述训练图像的数量，c为所述词典容量值；

p_ij为第i个所述训练图像对应的可能性序列p_i中的第j个元素，p_i＝[p_i1,p_i2,...,p_ic]，p_ij是指第i个所述训练图像存在第j个所述目标属性词的概率；

y_ij为第i个所述训练图像对应的真实属性标签中的第j个元素，y_ij的计算步骤为：

当第i个所述训练图像存在第j个所述目标属性词，则y_ij＝1，否则y_ij＝0，1≤i≤N，且i、N均为正整数。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行预处理，确定目标区域，包括：

基于归一化切割算法和预设的聚类数量，对所述目标图像进行分割处理，得到多个聚类，其中，每个所述聚类包括至少一个子区域；

针对每个所述聚类，基于所述目标图像和预设的评分算法，对所述聚类的所有子区域进行评分处理，确定评分值，其中，所述评分值与所述子区域一一对应；

针对每个所述聚类，基于所述评分值和预设的属性区域数量，从所述聚类的所有子区域中筛选出目标属性区域；

根据所述目标图像和所述目标属性区域，确定目标区域。

5.根据权利要求1所述的方法，其特征在于，所述文本生成模型通过如下步骤训练：

获取训练数据集，其中，所述训练数据集包括多个训练图像和各个所述训练图像对应的描述词；

将所述训练数据集输入已训练的所述属性生成模型，得到多个属性训练向量；

基于预设的门控循环网络，在n个时间步上对所述属性训练向量进行处理，得到所述n个时间步对应的预测词，其中，所述门控循环网络包括更新门和重置门；

根据所述预测词得到预测语句；

根据所述属性训练向量和所述预测语句，确定第二模型损失函数；

基于所述第二模型损失函数，更新所述门控循环网络的模型参数，以得到文本生成模型；

其中，所述门控循环网络在第t个时间步上的输入包括所述门控循环网络在第t-1个时间步上的隐状态和在第t个时间步上对应的预测词，所述门控循环网络在第t个时间步上对应的预测词由所述门控循环网络在第t-1个时间步上的输出而确定，所述门控循环网络在第t-1个时间步上的隐状态由所述门控循环网络在第t-1个时间步上的更新门和重置门而更新，所述门控循环网络在第t个时间步上的更新门和重置门由所述门控循环网络在第t-1个时间步上的隐状态和在第t个时间步上对应的预测词而确定，所述第t个时间步是所述n个时间步中的任意一个，1≤t≤n，且t、n均为正整数。

6.根据权利要求5所述的方法，其特征在于，所述门控循环网络通过以下公式实现在n个时间步上对所述属性训练向量进行处理：

z_t＝σ(h_t-1·W_zh+x_t·W_zx])，

r_t＝σ(h_t-1·W_rh+x_t·W_rx])，