CN114821271A

CN114821271A - 模型训练方法、图像描述生成方法、装置及存储介质

Info

Publication number: CN114821271A
Application number: CN202210544943.5A
Authority: CN
Inventors: 舒畅; 陈又新; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-07-29
Anticipated expiration: 2042-05-19
Also published as: CN114821271B

Abstract

本发明涉及人工智能技术，提供了一种模型训练方法、图像描述生成方法、装置及存储介质，该方法包括：获取训练图像；将训练图像输入已训练的目标检测模型，输出多个目标对象、目标类别标签、以及置信度；基于置信度，对各个目标类别标签进行排序，并根据排序后的目标类别标签和预设的数量阈值确定关键标签；根据关键标签构造有限状态自动机，并输出关键描述词序列；基于集束搜索算法，根据关键描述词序列确定伪图像描述；将训练图像和伪图像描述作为训练数据，对图像描述生成模型进行训练。根据本发明实施例提供的方案，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

Description

模型训练方法、图像描述生成方法、装置及存储介质

技术领域

本发明涉及但不限于人工智能技术领域，尤其涉及一种模型训练方法、图像描述生成方法、装置及存储介质。

背景技术

图像描述生成(Image Captioning)作为结合自然语言处理(Natural LanguageProcessing，NLP)和计算机视觉(Computer Version，CV)领域的综合研究方向，已取得很多进展以及应用，图像描述生成是近年来人工智能界提出的一个机器终极智能任务，它的任务是将于一张给定图像，用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展，完成目标检测、识别、分割等任务已经不能满足人们的生产需求，对如何自动客观的对图像内容自动描述有迫切的需求；和目标检测及语义分割等任务不同，图像描述生成要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述，该任务是计算机视觉理解的重要方向之一，被视为人工智能的一个重要标志。

目前，利用现有的图像描述数据集训练图像描述生成模型时，相对于图像分类数据集和目标检测数据集，图像描述数据集较小，为了保证预测的准确性，需要进行大量的人工标注来标注图像描述，导致人工成本过高；另外，由于图像描述数据集较小，使用训练得到的图像描述生成模型进行图像描述生成时，会出现部分描述词缺失的情况，导致预测语句的准确性较差。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种模型训练方法、图像描述生成方法、装置及存储介质，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

第一方面，本发明实施例提供了一种图像描述生成模型训练方法，包括：获取训练图像；将所述训练图像输入已训练的目标检测模型，以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度；基于所述置信度，对各个所述目标类别标签进行排序，并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签；根据所述关键标签构造有限状态自动机，并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列；基于集束搜索算法，根据所述关键描述词序列确定伪图像描述；将所述训练图像和所述伪图像描述作为训练数据，对所述图像描述生成模型进行训练，以更新所述图像描述生成模型的模型参数。

在一些实施例中，所述图像描述生成模型包括编码器和解码器；所述将所述训练图像和所述伪图像描述作为训练数据，对所述图像描述生成模型进行训练，以更新所述图像描述生成模型的模型参数，包括：将所述训练图像输入所述编码器，确定图像编码特征；将所述图像编码特征输入所述解码器，得到预测语句，其中，所述预测语句由至少一个预测词组成；根据所述预测词和所述伪图像描述确定模型损失值；基于所述模型损失值，更新所述图像描述生成模型的模型参数。

在一些实施例中，所述编码器包括特征提取模块和多个叠加的编码层，每个所述编码层包括多头自注意子层；所述将所述训练图像输入所述编码器，确定图像编码特征，包括：将所述训练图像输入已训练的所述特征提取模块，得到图像特征向量；将所述图像特征向量输入多头自注意子层，得到图像自注意特征向量；对所述图像自注意特征向量进行线性变换处理和正则化处理，确定图像编码特征。

在一些实施例中，所述多头自注意子层包含H个平行头，第

个所述编码层的多头自注意子层的输出图像自注意特征向量为：

，

其中，所述

为第

个所述编码层的多头自注意子层输出的图像自注意特征向量，MHA( )为多头自注意子层，Q为预设的查询矩阵，K为预设的关键矩阵，V为预设的价值矩阵，Concat( )为串联拼接函数，

为预设的点乘权重，

为第

个所述编码层的多头自注意子层的第1个平行头的缩放点积注意函数，

为第

个所述编码层的多头自注意子层的第H个平行头的缩放点积注意函数。

在一些实施例中，所述缩放点积注意函数通过如下步骤确定：对所述训练图像进行区域划分，得到多个子区域；对所述子区域进行关系确定处理，得到先验知识；基于随机梯度下降算法，对所述先验知识进行处理，得到可学习关键矩阵和可学习价值矩阵；基于预设的注意力函数，根据所述图像特征向量、所述可学习关键矩阵和所述可学习价值矩阵，确定所述缩放点积注意函数；其中，所述缩放点积注意函数的公式为：

，

其中，

为所述缩放点积注意函数，Attention( )为所述注意力函数，

，

，

，

，

，

，

、

和

均为预设的可学习权重矩阵，

为所述可学习关键矩阵，

为所述可学习价值矩阵，X为所述图像特征向量，R为实数域，d为所述图像特征向量的维度，H为所述多头自注意子层的平行头的个数。

在一些实施例中，所述解码器包括多个叠加的解码层，每个所述解码层包括掩码模块和多头注意力模块；所述将所述图像编码特征输入所述解码器，得到预测语句，包括：基于所述掩码模块和多头注意力模块，在n个时间步上对所述图像编码特征进行处理，得到所述n个时间步对应的预测词；根据所述预测词得到预测语句；其中，所述多头注意力模块在第t个时间步上的输入包括所述第t个时间步上的图像编码特征、以及第t-1个时间步上的掩码词向量；所述第t-1个时间步上的掩码词向量是对所述解码器在第t-1个时间步上的输出结果进行向量提取，并输入所述掩码模块而得到；所述解码器在第t-1个时间步上的输出结果用于指示所述第t-1个时间步对应的预测词；所述第t个时间步是所述n个时间步中的任意一个；1≤t≤n，且t、n均为正整数。

第二方面，本发明还提供了一种图像描述生成方法，包括：获取目标图像；

将所述目标图像输入图像描述生成模型，得到预测语句，其中，所述图像描述生成模型如上第一方面所述的图像描述生成模型训练方法训练得到。

第三方面，本发明还提供了一种图像描述生成装置，包括：获取单元，用于获取目标图像；描述生成单元，用于将所述目标图像输入图像描述生成模型，得到预测语句，其中，所述图像描述生成模型如上第一方面所述的图像描述生成模型训练方法训练得到。

第四方面，本发明实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的图像描述生成模型训练方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如第一方面所述的图像描述生成模型训练方法，或者如上第二方面所述的图像描述生成方法。

本发明实施例包括：获取训练图像；将所述训练图像输入已训练的目标检测模型，以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度；基于所述置信度，对各个所述目标类别标签进行排序，并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签；根据所述关键标签构造有限状态自动机，并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列；基于集束搜索算法，根据所述关键描述词序列确定伪图像描述；将所述训练图像和所述伪图像描述作为训练数据，对所述图像描述生成模型进行训练，以更新所述图像描述生成模型的模型参数。根据本发明实施例提供的方案，通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度，进而确定关键标签，然后基于半监督学习，通过关键标签构造有限状态自动机，并通过集束搜索算法处理有限状态自动机输出的关键描述词序列，确定伪图像描述，进而对图像描述生成模型进行训练，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的图像描述生成模型训练方法的流程图；

图2是本发明另一个实施例提供的一种更新模型参数的流程图；

图3是本发明另一个实施例提供的一种确定图像编码特征的流程图；

图4是本发明另一个实施例提供的一种确定缩放点积注意函数的流程图；

图5是本发明另一个实施例提供的一种确定预测语句的流程图；

图6是本发明另一个实施例提供的图像描述生成方法的流程图；

图7是本发明另一个实施例提供的确定伪图像描述的流程图；

图8是本发明另一个实施例提供的图像描述生成模型训练方法的系统框图；

图9是本发明另一个实施例提供的图像描述生成装置的结构图；

图10是本发明另一个实施例提供的电子设备的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，若干个的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

针对人工成本过高和预测语句的准确性较差的问题，本发明提供了一种模型训练方法、图像描述生成方法、装置及存储介质，该方法包括：获取训练图像；将训练图像输入已训练的目标检测模型，以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度；基于置信度，对各个目标类别标签进行排序，并根据排序后的目标类别标签和预设的数量阈值确定关键标签；根据关键标签构造有限状态自动机，并通过有限状态自动机输出与关键标签对应的关键描述词序列；基于集束搜索算法，根据关键描述词序列确定伪图像描述；将训练图像和伪图像描述作为训练数据，对图像描述生成模型进行训练，以更新图像描述生成模型的模型参数。根据本发明实施例提供的方案，通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度，进而确定关键标签，然后基于半监督学习，通过关键标签构造有限状态自动机，并通过集束搜索算法处理有限状态自动机输出的关键描述词序列，确定伪图像描述，进而对图像描述生成模型进行训练，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗、智慧城市等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

首先，对本发明中涉及的若干名词进行解析：

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割。

半监督学习(Semi-Supervised Learning，SSL)，是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法，半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)是深度学习(deeplearning)的代表算法之一。

R-CNN，全称是Region-CNN，基于卷积神经网络(CNN)，线性回归，和支持向量机(SVM)等算法，实现目标检测技术。

区域生成网络(Region Proposal Network，RPN)，用于提取候选框。

感兴趣区域(ROI)，机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。

有限状态自动机(Finite State Automaton，FSA)，是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型，有限状态自动机拥有有限数量的状态，每个状态可以迁移到零个或多个状态，输入字串决定执行哪个状态的迁移；有限状态自动机可以表示为一个有向图，有限状态自动机是自动机理论的研究对象。

微软的COCO数据集，全称是Microsoft Common Objects in Context，是一个大型的、丰富的物体检测，分割和字幕数据集；这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定。

高斯误差线性单元(Gaussian Error Linerar Units，GELU)，是激活函数，在激活中引入了随机正则的思想，是一种对神经元输入的概率描述，直观上更符合自然的认识。

集束搜索(Beam Search)，是一种启发式图搜索算法，通常用在图的解空间比较大的情况下，为了减少搜索所占用的空间和时间，在每一步深度扩展的时候，剪掉一些质量比较差的结点，保留下一些质量较高的结点；这样减少了空间消耗，并提高了时间效率。

集束宽(Beam size)，在Beam Search中，每一个时间步保留最优的状态的个数。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的一种图像描述生成模型训练方法的流程图，在该方法中，包括但不限于有以下步骤：

步骤S110，获取训练图像；

步骤S120，将训练图像输入已训练的目标检测模型，以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度；

步骤S130，基于置信度，对各个目标类别标签进行排序，并根据排序后的目标类别标签和预设的数量阈值确定关键标签；

步骤S140，根据关键标签构造有限状态自动机，并通过有限状态自动机输出与关键标签对应的关键描述词序列；

步骤S150，基于集束搜索算法，根据关键描述词序列确定伪图像描述；

步骤S160，将训练图像和伪图像描述作为训练数据，对图像描述生成模型进行训练，以更新图像描述生成模型的模型参数。

可以理解的是，从预设的图像库中获取训练图像，利用目标检测模型进行目标检测处理，然后确定关键标签，进而构造有限状态自动机，并利用集束搜索算法确定伪图像描述，然后利用训练图像和伪图像描述训练图像描述生成模型，更新图像描述生成模型的模型参数；基于此，通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度，进而确定关键标签，然后基于半监督学习，通过关键标签构造有限状态自动机，并通过集束搜索算法处理有限状态自动机输出的关键描述词序列，确定伪图像描述，进而对图像描述生成模型进行训练，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

需要说明的是，在目标检测过程中，首先找出训练图像中待检测目标的矩形候选框，对背景、待检测目标进行二分类；再对矩形候选框内的待测目标进行分类；目标检测模型为Faster R-CNN模型，训练图像首先经过CNN模型提取特征图，提取的特征图通过RPN网络进行精确候选框获取，即最有可能包含目标的区域

；RPN网络的训练如下：将特征图经过图像缩放变换，并输入ROI pooling层，输出提取候选框信息后的图像特征图，并通过全连接层与逻辑回归模型Softmax层计算每个候选框具体类别，并输出概率向量，利用边界框回归获得每个候选框的位置偏移量，根据位置偏移量对RPN网络进行回归处理，从而得到更加精确的目标检测框；Faster R-CNN模型输出目标对象、目标类别标签、以及置信度，基于置信度，选取前10的目标类别标签作为关键标签，关键标签的公式如下：

，

，

其中，

为关键标签，

为数量阈值；

根据关键标签构造有限状态自动机，用有限状态自动机来表示序列

，该序列可以编码与已观察数据一致的序列：

，

其中，

为有限状态自动机，

为词汇库，

为自动状态集合中第

个状态，

代表初始状态，

为状态转移函数

，

，

为终止状态，

，利用该编码可以使拥有为止的序列或者确实单词的序列作为输入进行图像描述生成；其中，模型词汇表由预设的语料库而确定，语料库由COCO数据集大于200万条的纯图像描述而建立；

对于每个训练图像，将关键描述词序列作为输入，通过集束搜索算法beam search 进行解码，给定集束宽beam size逐词寻找每步可能性最大的生成词汇序列

，计算公式如下：

，

，

，

其中，

为

中对应单词w的所有单字扩展序列，

为对应自动状态

对应的集束宽，

，

为自动状态

对应的集束宽，

，w是词汇集

中的一个单词，y应w的扩展序列，

为状态转移函数，

为

中的一个序列，F终止状态，

为集束搜索模型参数；

利用FSA编码得到的

作为输入，逐次输出单词形成输出序列，在每个时间步生成单词的过程中，遍历序列状态，通过状态转移函数更新输出序列，同时集束宽选择为b，将每个时间步中生成词汇概率最高的b个词作为

序列，并返回

序列，保持迭代，直至返回生成概率最高的词汇，输出对应训练图像X的伪描述

，由此完成图像集和语料库的连接，构建图像-句子image-sentence对，image-sentence对用于训练图像描述生成模型。

需要说明的是，利用Faster R-CNN模型和Softmax层进行处理，属于本领域技术人员熟知的技术，在此不多作赘述。

另外，参照图2，在一实施例中，图像描述生成模型包括编码器和解码器；图1所示实施例中的步骤S160，还包括但不限于有以下步骤：

步骤S210，将训练图像输入编码器，确定图像编码特征；

步骤S220，将图像编码特征输入解码器，得到预测语句，其中，预测语句由至少一个预测词组成；

步骤S230，根据预测词和伪图像描述确定模型损失值；

步骤S240，基于模型损失值，更新图像描述生成模型的模型参数。

可以理解的是，在一个时间步中，通过解码器的输出特征确定下一个时间步所需的预测词，其中，输出特征的维度和词汇集维度相同；给定真实语句以及预测语句和模型参数，确定最小化交叉熵损失（Cross-entropy Loss）：

，

其中，

为真实语句，

为预测语句，θ为图像描述生成模型的模型参数，真实语句由伪图像描述而确定；

最小化交叉熵损失作为模型损失值，利用最小化交叉熵损失更新图像描述生成模型的模型参数，使得图像描述生成模型能够提高预测语句的准确性。

值得注意的是，图像描述生成模型为基于Transformer的模型，所以图像描述生成模型包括编码器和解码器。

需要说明的是，求最小化交叉熵损失的方法，属于本领域技术人员熟知的技术，在此不多作赘述

另外，参照图3，在一实施例中，编码器包括特征提取模块和多个叠加的编码层，每个编码层包括多头自注意子层；图2所示实施例中的步骤S210，还包括但不限于有以下步骤：

步骤S310，将训练图像输入已训练的特征提取模块，得到图像特征向量；

步骤S320，将图像特征向量输入多头自注意子层，得到图像自注意特征向量；

步骤S330，对图像自注意特征向量进行线性变换处理和正则化处理，确定图像编码特征。

可以理解的是，编码器包括特征提取模块和

个编码层，每个编码层包括多头自注意子层(Multi-head self-attention，MHA)、层正则化模块(Layer Normalization)和前馈网络子层(Feed-forward Network，FFN)，编码层中涉及的一个或多个层正则化模块和 FFN是相互独立的，具备不同的网络参数；特征提取模块为ResNet101模块，ResNet101模块用于提取图像特征，多头自注意子层用于使模型能够共同关注训练图像中不同的子区域，层正则化模块用于将输入转化成均值为0方差为1的数据，前馈网络子层采取两个线性变换，通过GELU激活函数连接，前馈网络子层用于进行特征转换。

需要说明的是，利用层正则化模块和前馈网络子层进行处理，属于本领域技术人员熟知的技术，在此不多作赘述。

在具体实践中，将MHA的输出输入FFN后，第一计算公式如下：

，

其中，GELU为预设的激活函数，Dropout为预设的随机失活层，

为两个全连接层，

为第

层编码层的FFN的输出，

为第

层编码层的MHA的输出；

将FFN的输出

输入残差模块和层正则化模块后，第二计算公式如下：

，

其中，

为FFN的输出，

为层正则化模块的输出，Sublayer( )为残差模块， LayerNorm( )为层正则化模块；

对于第

层编码层，由第二计算公式得到：

，

其中，

为第

层编码层的FFN的输出，

为第

层编码层的层正则化模块的输出；

进而确定图像编码特征，公式如下：

，

其中，

为编码层的层数，

至

为第1层至第

层的编码层所对应的层正则化模块的输出。

另外，在一实施例中，多头自注意子层包含H个平行头，第

个编码层的多头自注意子层的输出图像自注意特征向量为：

，

其中，

为第

个编码层的多头自注意子层输出的图像自注意特征向量，MHA（）为多头自注意子层，Q为预设的查询矩阵，K为预设的关键矩阵，V为预设的价值矩阵，Concat ( )为串联拼接函数，

为预设的点乘权重，

为第

个编码层的多头自注意子层的第1个平行头的缩放点积注意函数，

为第

个编码层的多头自注意子层的第H个平行头的缩放点积注意函数。

可以理解的是，MHA包含H个平行头，每个头

对应于一个独立的缩放点积注意函数（Scaled dot-Product Attention），这使得模型能够共同关注不同的子空间，过点乘权重

来汇总不同头的注意结果。

需要说明的是，设置查询矩阵、关键矩阵和价值矩阵，属于本领域技术人员熟知的技术，在此不多作赘述。

另外，参照图4，在一实施例中，缩放点积注意函数通过如下步骤确定：

步骤S410，对训练图像进行区域划分，得到多个子区域；

步骤S420，对子区域进行关系确定处理，得到先验知识；

步骤S430，基于随机梯度下降算法，对先验知识进行处理，得到可学习关键矩阵和可学习价值矩阵；

步骤S440，基于预设的注意力函数，根据图像特征向量、可学习关键矩阵和可学习价值矩阵，确定缩放点积注意函数；

其中，缩放点积注意函数的公式为：

，

其中，

为缩放点积注意函数，Attention( )为注意力函数，

，

，

，

，

，

，

、

和

均为预设的可学习权重矩阵，

为可学习关键矩阵，

为可学习价值矩阵，X为图像特征向量，R为实数域，d为图像特征向量的维度，H为多头自注意子层的平行头的个数。

可以理解的是，将各个子区域之间的关系转换为先验知识，并基于随机梯度下降算法，确定可学习关键矩阵和可学习价值矩阵，能够有效提高模型的准确性。

需要说明的是，基于随机梯度下降算法进行处理，属于本领域技术人员熟知的技术，在此不多作赘述；可利用目标检测方法进行区域划分，在此不作限定。

另外，参照图5，在一实施例中，解码器包括多个叠加的解码层，每个解码层包括掩码模块和多头注意力模块；图2所示实施例中的步骤S220，还包括但不限于有以下步骤：

步骤S510，基于掩码模块和多头注意力模块，在n个时间步上对图像编码特征进行处理，得到n个时间步对应的预测词；

步骤S520，根据预测词得到预测语句；

其中，多头注意力模块在第t个时间步上的输入包括第t个时间步上的图像编码特征、以及第t-1个时间步上的掩码词向量；第t-1个时间步上的掩码词向量是对解码器在第t-1个时间步上的输出结果进行向量提取，并输入掩码模块而得到；解码器在第t-1个时间步上的输出结果用于指示第t-1个时间步对应的预测词；第t个时间步是n个时间步中的任意一个；1≤t≤n，且t、n均为正整数。

在具体实践中，解码器包括

个解码层，每个解码层包括掩码模块(Masked Muli-Head Self Attention，MSA)和多头注意力模块(Muli-Head Attention，MA)，每个解码层同样包括层正则化模块(Layer Normalization)和前馈网络子层(Feed-forward Network，FFN)，但解码层与编码层的层正则化模块和FFN是相互独立的，而且解码层中涉及的一个或多个层正则化模块和FFN也是相互独立的，具备不同的网络参数；MA包括交叉注意子模块。

利用解码器进行解码包括以下步骤：

步骤1：将第t-1个时间步对应的预测词输入特征提取层，确定词向量，特征提取层用于进行向量提取，首个时间步需要进行向量提取的预测词为预设的开始标识[START]；

步骤2：将词向量Y输入MSA得到掩码词向量，并将掩码词向量经过层正则化模块处理后输入MA，并将第t个时间步上的图像编码特征输入MA，计算公式如下：

，

其中，MA为多头注意力模块，

为第t个时间步上的图像编码特征，Y为词向量，MSA （Y）为掩码词向量，AddNorm( )为层正则化模块，CrossAttention( )为交叉注意子模块，

为编码层的层数，

为第

层编码层的层正则化模块的输出，1≤

≤

，且

、

均为正整数，

为权重矩阵，计算公式如下：

，

其中，[,]为合并操作，

为sigmoid激活函数，

为权重矩阵，R为实数域，d为图像特征向量的维度，

为可学习偏置参数，

为第

层编码层的层正则化模块的输出，1≤

≤

，且

、

均为正整数；

步骤3：将第t个时间步上MA输出依次经过第一次层正则化模块处理、特征转换处理、以及第二次层正则化模块处理后，得到预测词，计算公式如下：

，

，

其中，AddNorm( )为层正则化模块，FFN( )为前馈网络子层，FFN( )用于特征转换处理，

为第t个时间步上的图像编码特征，

为预测词。

步骤5：根据预测词更新预测语句；

步骤6：若预测语句的长度小于真实语句的长度，则返回步骤1。

需要说明的是，利用层正则化模块、前馈网络子层、sigmoid激活函数进行处理，属于本领域技术人员熟知的技术，在此不多作赘述。

值得注意的是，由于编码器中图像特征向量是一次性输入的，所以MHA在计算时可以获取到所有的输入信息，但是在解码器中，只能对在当前时间步之前输出的预测词进行处理，所以引入了掩码模块,即为上述公式中的MSA部分，MSA(Y)是对输入MSA的词向量Y进行计算的结果。

如图6所示，图6是本发明另一个实施例提供的一种图像描述生成方法的流程图，在该方法中，包括但不限于有以下步骤：

步骤S610，获取目标图像；

步骤S620，将目标图像输入图像描述生成模型，得到预测语句，其中，图像描述生成模型由上述图像描述生成模型训练方法训练得到。

可以理解的是，通过图像描述生成模型训练方法对图像描述生成模型进行训练后，将目标图像输入训练好的图像描述生成模型，就能得到预测语句；基于此，通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度，进而确定关键标签，然后基于半监督学习，通过关键标签构造有限状态自动机，并通过集束搜索算法处理有限状态自动机输出的关键描述词序列，确定伪图像描述，进而对图像描述生成模型进行训练，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

可以理解的是，图像描述生成模型属于Transformer模型，基于Transformer模型进行图像描述文本生成，使生成描述更加关注全局特征；训练图像描述生成模型时，构造有限状态自动机，并通过集束搜索算法进行处理，采用半监督学习方法，自行生成的伪图像描述进行训练，解决收集图像描述对需要人工成本高的问题，以及现有图像描述对分类较少的问题，将图像集以及丰富语料库相结合。

另外，参考图7，图7是本发明另一个实施例提供的确定伪图像描述的流程图。

可以理解的是，在训练图像描述生成模型的编码器和解码器之前，需要先确定伪图像描述。

另外，参考图8，图8是本发明另一个实施例提供的图像描述生成模型训练方法的系统框图。

可以理解的是，对于图像描述生成模型的编码器部分，需要先将训练图像输入特征提取模块，得到图像特征向量，然后利用位置编码模块处理图像特征向量，并将处理结果输入多头自注意子层，将多头自注意子层扩展额外的记忆槽，将记忆槽变为可学习关键矩阵

，以及可学习价值矩阵

，并通过层正则化模块和前馈网络子层的处理，总共经过

个编码层处理后，得到图像编码特征；对于图像描述生成模型的解码器部分，需要对上一时间步解码器输出的预测词进行向量提取，然后利用位置编码模块处理提取得到的词向量，并将处理结果输入掩码模块，得到掩码词向量，然后将掩码词向量和图像编码特征输入多头注意力模块，并通过层正则化模块和前馈网络子层的处理，总共经过

个编码层处理后，得到预测语句；基于此，通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度，进而确定关键标签，然后基于半监督学习，通过关键标签构造有限状态自动机，并通过集束搜索算法处理有限状态自动机输出的关键描述词序列，确定伪图像描述，进而对图像描述生成模型进行训练，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

另外，参考图9，本发明还提供了一种图像描述生成装置900，包括：

获取单元910，用于获取目标图像；

描述生成单元920，用于将目标图像输入图像描述生成模型，得到预测语句，其中，图像描述生成模型由上述图像描述生成模型训练方法训练得到。

可以理解的是，该图像描述生成装置900的具体实施方式与上述图像描述生成方法的具体实施例基本相同，在此不再赘述。

另外，参照图10，本发明的一个实施例还提供了一种电子设备，该电子设备1000包括：存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序。

处理器1020和存储器1010可以通过总线或者其他方式连接。

实现上述实施例的图像描述生成方法所需的非暂态软件程序以及指令存储在存储器1010中，当被处理器1020执行时，执行上述实施例中的图像描述生成模型训练方法，例如，执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S240、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S520，通过获取训练图像；将训练图像输入已训练的目标检测模型，以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度；基于置信度，对各个目标类别标签进行排序，并根据排序后的目标类别标签和预设的数量阈值确定关键标签；根据关键标签构造有限状态自动机，并通过有限状态自动机输出与关键标签对应的关键描述词序列；基于集束搜索算法，根据关键描述词序列确定伪图像描述；将训练图像和伪图像描述作为训练数据，对图像描述生成模型进行训练，以更新图像描述生成模型的模型参数。基于此，通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度，进而确定关键标签，然后基于半监督学习，通过关键标签构造有限状态自动机，并通过集束搜索算法处理有限状态自动机输出的关键描述词序列，确定伪图像描述，进而对图像描述生成模型进行训练，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的图像描述生成模型训练方法，例如，执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S240、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S520，通过获取训练图像；将训练图像输入已训练的目标检测模型，以使目标检测模型基于训练图像输出多个目标对象、各个目标对象对应的目标类别标签、以及目标类别标签对应的置信度；基于置信度，对各个目标类别标签进行排序，并根据排序后的目标类别标签和预设的数量阈值确定关键标签；根据关键标签构造有限状态自动机，并通过有限状态自动机输出与关键标签对应的关键描述词序列；基于集束搜索算法，根据关键描述词序列确定伪图像描述；将训练图像和伪图像描述作为训练数据，对图像描述生成模型进行训练，以更新图像描述生成模型的模型参数；或者执行上述实施例中的图像描述生成方法，例如，执行以上描述的图6中的方法步骤S610至步骤S620，通过获取目标图像；将目标图像输入图像描述生成模型，得到预测语句，其中，图像描述生成模型由上述图像描述生成模型训练方法训练得到。基于此，通过目标检测模型基于训练图像输出目标对象、目标类别标签及置信度，进而确定关键标签，然后基于半监督学习，通过关键标签构造有限状态自动机，并通过集束搜索算法处理有限状态自动机输出的关键描述词序列，确定伪图像描述，进而对图像描述生成模型进行训练，通过生成伪图像描述，避免进行大量的人工标注，从而降低人工成本，并且避免描述词缺失，从而提高预测语句的准确性。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种图像描述生成模型训练方法，其特征在于，所述方法包括：

获取训练图像；

将所述训练图像输入已训练的目标检测模型，以使所述目标检测模型基于所述训练图像输出多个目标对象、各个所述目标对象对应的目标类别标签、以及所述目标类别标签对应的置信度；

基于所述置信度，对各个所述目标类别标签进行排序，并根据所述排序后的目标类别标签和预设的数量阈值确定关键标签；

根据所述关键标签构造有限状态自动机，并通过所述有限状态自动机输出与所述关键标签对应的关键描述词序列；

基于集束搜索算法，根据所述关键描述词序列确定伪图像描述；

将所述训练图像和所述伪图像描述作为训练数据，对所述图像描述生成模型进行训练，以更新所述图像描述生成模型的模型参数。

2.根据权利要求1所述的方法，其特征在于，所述图像描述生成模型包括编码器和解码器；所述将所述训练图像和所述伪图像描述作为训练数据，对所述图像描述生成模型进行训练，以更新所述图像描述生成模型的模型参数，包括：

将所述训练图像输入所述编码器，确定图像编码特征；

将所述图像编码特征输入所述解码器，得到预测语句，其中，所述预测语句由至少一个预测词组成；

根据所述预测词和所述伪图像描述确定模型损失值；

基于所述模型损失值，更新所述图像描述生成模型的模型参数。

3.根据权利要求2所述的方法，其特征在于，所述编码器包括特征提取模块和多个叠加的编码层，每个所述编码层包括多头自注意子层；

所述将所述训练图像输入所述编码器，确定图像编码特征，包括：

将所述训练图像输入已训练的所述特征提取模块，得到图像特征向量；

将所述图像特征向量输入多头自注意子层，得到图像自注意特征向量；

对所述图像自注意特征向量进行线性变换处理和正则化处理，确定图像编码特征。

4.根据权利要求3所述的方法，其特征在于，所述多头自注意子层包含H个平行头，第

，

其中，所述

为第

个所述编码层的多头自注意子层输出的图像自注意特征向量，MHA ( )为多头自注意子层，Q为预设的查询矩阵，K为预设的关键矩阵，V为预设的价值矩阵， Concat( )为串联拼接函数，

为预设的点乘权重，

为第

为第

个所述编码层的多头自注意子层的第H 个平行头的缩放点积注意函数。

5.根据权利要求4所述的方法，其特征在于，所述缩放点积注意函数通过如下步骤确定：

对所述训练图像进行区域划分，得到多个子区域；

对所述子区域进行关系确定处理，得到先验知识；

基于随机梯度下降算法，对所述先验知识进行处理，得到可学习关键矩阵和可学习价值矩阵；

基于预设的注意力函数，根据所述图像特征向量、所述可学习关键矩阵和所述可学习价值矩阵，确定所述缩放点积注意函数；

其中，所述缩放点积注意函数的公式为：

，

其中，

为所述缩放点积注意函数，Attention( )为所述注意力函数，

，

，

，

，

，

，

、

和

均为预设的可学习权重矩阵，

为所述可学习关键矩阵，

6.根据权利要求2所述的方法，其特征在于，所述解码器包括多个叠加的解码层，每个所述解码层包括掩码模块和多头注意力模块；

所述将所述图像编码特征输入所述解码器，得到预测语句，包括：

基于所述掩码模块和多头注意力模块，在n个时间步上对所述图像编码特征进行处理，得到所述n个时间步对应的预测词；

根据所述预测词得到预测语句；

其中，所述多头注意力模块在第t个时间步上的输入包括所述第t个时间步上的图像编码特征、以及第t-1个时间步上的掩码词向量；所述第t-1个时间步上的掩码词向量是对所述解码器在第t-1个时间步上的输出结果进行向量提取，并输入所述掩码模块而得到；所述解码器在第t-1个时间步上的输出结果用于指示所述第t-1个时间步对应的预测词；所述第t个时间步是所述n个时间步中的任意一个；1≤t≤n，且t、n均为正整数。

7.一种图像描述生成方法，其特征在于，包括：

获取目标图像；

将所述目标图像输入图像描述生成模型，得到预测语句，其中，所述图像描述生成模型由权利要求1至6中任意一项所述的图像描述生成模型训练方法训练得到。

8.一种图像描述生成装置，其特征在于，包括：

获取单元，用于获取目标图像；

描述生成单元，用于将所述目标图像输入图像描述生成模型，得到预测语句，其中，所述图像描述生成模型由权利要求1至6中任意一项所述的图像描述生成模型训练方法训练得到。

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的图像描述生成模型训练方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1至6中任意一项所述的图像描述生成模型训练方法，或者如权利要求7所述的图像描述生成方法。