CN115810068A

CN115810068A - 一种图像描述生成方法、装置、存储介质及电子设备

Info

Publication number: CN115810068A
Application number: CN202211552342.5A
Authority: CN
Inventors: 李业豪; 潘滢炜; 姚霆; 梅涛
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-03-17

Abstract

本发明公开了一种图像描述生成方法、装置、存储介质及电子设备。所述方法包括：获取目标图像，识别所述目标图像中包括的对象，形成对象集；将所述对象集输入至图像描述模型中，得到所述图像描述模型输出的概率集合；基于所述概率集合和预设词汇集合确定各词汇位置处对应的词汇，基于确定的所述词汇形成所述目标图像的描述文本；其中，所述图像描述模型包括级联的多个扩散模型，任一所述扩散模型中包括图像编码模块、句子解码模块和语义分析模块。通过以级联的方式逐步改良输出句子，使输出句子具有更好的视觉语言对齐和语言连贯性。在每一个扩散模型引入目标图像的语义特征提供指导，有利于提高描述文本的准确性，提高描述文本的文本质量。

Description

一种图像描述生成方法、装置、存储介质及电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像描述生成方法、装置、存储介质及电子设备。

背景技术

作为视觉和语言领域的基本任务之一，图像描述生成技术旨在利用自然语言句子去描述图像内容。该技术需要神经网络模型通过感知场景中的视觉内容并用人类语言描述它们，模拟人类智能的基本能力，自然地将计算机视觉和自然语言处理联系起来。

在实现本发明的过程中，发现现有技术中至少存在以下技术问题：目前的图像描述生成技术存在模型复杂度高，依赖大量计算资源的问题；或者，在降低模型复杂度的情况下，存在产生低质量描述文本的问题。

发明内容

本发明提供了一种图像描述生成方法、装置、存储介质及电子设备，以实现在降低模型复杂度的基础上，提高图像的描述文本的语句质量。

根据本发明的一方面，提供了一种图像描述生成方法，包括：

获取目标图像，识别所述目标图像中包括的对象，形成对象集；

将所述对象集输入至图像描述模型中，得到所述图像描述模型输出的概率集合；

基于所述概率集合和预设词汇集合确定各词汇位置处对应的词汇，基于确定的所述词汇形成所述目标图像的描述文本；

其中，所述图像描述模型包括级联的多个扩散模型，任一所述扩散模型中包括图像编码模块、句子解码模块和语义分析模块，其中，所述语义分析模块基于所述对象集得到语义特征；所述图像编码模块基于所述对象集得到编码特征，所述句子解码模块基于所述语义特征和所述编码特征得到当前扩散模型的概率集合。

根据本发明的另一方面，提供了一种图像描述生成装置，包括：

对象集提取模块，用于获取目标图像，识别所述目标图像中包括的对象，形成对象集；

预测概率确定模块，用于将所述对象集输入至图像描述模型中，得到所述图像描述模型输出的概率集合；

描述文本生成模块，用于基于所述概率集合和预设词汇集合确定各词汇位置处对应的词汇，基于确定的所述词汇形成所述目标图像的描述文本；

可选的，任一所述扩散模型的输出端与前一扩散模型的输出端跳跃连接，所述前一扩散模型的预测结果数据与当前扩散模型的预测结果数据进行融合处理后，输入至下一扩散模型。

可选的，所述方法还包括：获取当前时刻的状态数据、前一时刻的预测结果数据和前一扩散模型的预测结果数据中的一项或多项：

相应的，所述语义分析模块还用于基于所述当前时刻的状态数据、所述前一时刻的预测结果数据和所述前一扩散模型的预测结果数据中的一项或多项，以及所述对象集得到语义特征。

可选的，所述语义分析模块包括：语句检索模型、特征整合模型和语义分析模型；

其中，所述语义检索模型用于对所述对象集进行语句检索，得到所述目标图像的关联语句；

所述特征整合模型将所述关联语句转换为第一特征向量，并基于所述当前时刻的状态数据、所述前一时刻的预测结果数据和所述前一扩散模型的预测结果数据中的一项或多项形成第二特征向量，所述第一特征向量和所述第二特征向量拼接得到拼接特征向量；

所述语义分析模型对所述拼接特征向量进行分析处理，得到语义特征。

可选的，所述句子解码模块包括第一注意力机制处理单元、第二注意力机制处理单元和前馈处理单元；

其中，所述第一注意力机制处理单元对所述语音特征进行注意力机制处理，得到第一注意力特征；

所述第二注意力机制处理单元对所述语义注意力特征和所述编码特征进行注意力机制处理，得到第二注意力特征；

所述前馈处理单元对所述第二注意力特征进行处理，得到当前扩散模型的概率集合。

可选的，所述概率集合包括描述文本各词汇位置处的概率分布数据；

所述基于所述概率集合和预设词汇集合确定各词汇位置处对应的词汇，包括：

对于任一词汇位置，基于所述词汇位置对应的概率分布数据与词汇位表示进行加权平均，得到所述词汇位置对应的目标映射位；

基于所述目标映射位在所述预设词汇集合中进行匹配，得到所述词汇位置处对应的词汇。

可选的，所述图像描述模型的训练方法包括：

获取第一训练图像和第一训练图像对应的第一目标语句；基于所述第一训练图像和所述第一目标语句对待训练的图像描述模型进行第一阶段的训练处理，得到中间图像描述模型，其中，所述第一阶段中通过第一损失函数对所述待训练的图像描述模型进行训练处理；

获取第二训练图像，基于教师模型确定所述第二训练图像对应的第二目标语句，基于所述第二训练图像和所述第二目标语句对所述中间图像描述模型进行第二阶段的训练处理，得到训练好的图像描述模型，其中，所述第二阶段中通过第二损失函数对所述待训练的图像描述模型进行训练处理。

可选的，所述基于所述第一训练图像和所述第一目标语句对待训练的图像描述模型进行第一阶段的训练处理，得到中间图像描述模型，包括：

迭代执行如下训练过程，在满足训练结束条件的情况下，得到所述中间图像描述模型：

对所述第一目标语句进行加噪处理，得到各时刻分别对应的状态数据；以及提取所述第一训练图像的对象集；

将所述状态数据和所述对象集输入至待训练的图像描述模型中，得到第一预测数据，并基于所述第一预测数据得到第一预测语句；

基于所述第一预测语句和所述第一目标语句确定的第一损失函数，对所述待训练的图像描述模型进行模型参数的调节。

可选的，所述基于所述第一预测语句和所述第一目标语句确定的第一损失函数，包括：

基于所述第一预测语句和所述第一目标语句的语句内容生成第一损失项；

基于所述第一预测语句中各词汇的第一分类标签和所述第一目标语句中各词汇的第二分类标签生成第二损失项；

基于所述第一损失项和所述第二损失项确定所述第一损失函数。

可选的，所述教师模型为自回归神经网络模型，所述第二目标语句为所述教师模型对所述第二训练图像处理的输出语句；

所述基于所述第二训练图像和所述第二目标语句对所述中间图像描述模型进行第二阶段的训练处理，得到训练好的图像描述模型，包括：

对所述第二目标语句进行加噪处理，得到各时刻分别对应的状态数据；以及提取所述第二训练图像的对象集；

将所述状态数据和所述对象集输入至所述中间图像描述模型中，得到第二预测数据，并基于所述第二预测数据得到多个第二预测语句，其中所述第二预测语句中包括所述第二目标语句；

基于所述多个第二预测语句确定的第二损失函数，对所述待训练的图像描述模型进行模型参数的调节，其中，所述第二损失函数包括各第二目标语句的句子级奖励函数，所述句子级奖励函数中包括所述第二目标语句对应的正向奖励函数。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的图像描述生成方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的图像描述生成方法。

本发明实施例的技术方案，通过级联的多个扩散模型对目标图像的对象集进行处理，将多个扩散Transformer结构堆叠起来，以级联的方式逐步改良输出句子，使输出句子具有更好的视觉语言对齐和语言连贯性。在每一个扩散模型引入目标图像的语义特征，作为先验信息对描述文本的生成过程提供指导，有利于提高描述文本的准确性，提高描述文本的文本质量。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像描述生成方法的流程图；

图2是本发明实施例提供的一种图像描述模型的示意图；

图3是本发明实施例提供的一种扩散模型的结构示意图；

图4是本发明实施例提供的一种图像描述生成装置的结构示意图；

图5是实现本发明实施例的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图像描述生成模型的设计方案，主要分为自回归神经网络和非自回归神经网络两种。以自回归神经网络为例，可通过Transformer网络模型实现，然而，基于自回归解码的范式的解决方案仅允许单向文本消息传递，并且通常依赖于大量的计算资源，模型的计算复杂度随着句子长度的增长呈平方级别的增长。与逐字生成句子的自回归方法相比，非自回归神经网络这一类现有技术会并行解码出所有单词，从而实现双向文本消息传递。但非自回归神经网络的性能低于自回归Transformer模型，并且非自回归神经网络这一类现有技术由于是并行输出句子的所有单词，无法充分利用句子顺序依赖性，从而导致模型输出的句子中存在单词重复或遗漏的问题，预测得到的描述文本质量差。

针对上述技术问题，本发明实施例提供了一种图像描述生成方法，参见图1，图1是本发明实施例提供的一种图像描述生成方法的流程图，本实施例可适用于生成目标图像的描述文本的情况，该方法可以由图像描述生成装置来执行，该图像描述生成装置可以采用硬件和/或软件的形式实现，该图像描述生成装置可配置于诸如计算机、服务器、手机等的电子设备中。如图1所示，该方法包括：

S110、获取目标图像，识别所述目标图像中包括的对象，形成对象集。

S120、将所述对象集输入至图像描述模型中，得到所述图像描述模型输出的概率集合。

S130、基于所述概率集合和预设词汇集合确定各词汇位置处对应的词汇，基于确定的所述词汇形成所述目标图像的描述文本。

目标图像为进行描述的图像，该目标图像可以是通过电子设备的图像采集部件实时采集的图像，也可以是电子设备中本地存储的图像，或者从外部导入的图像。可选的，目标图像可以是视频中的各个帧图像，相应的，各个帧图像分别生成的描述文本，根据帧图像的时序关系进行组合，形成视频描述文本。可选的，还可以是对各个帧图像分别生成的描述文本进行整合处理，可消除相邻帧图像中的重复的、无效的描述词汇，以提高视频描述文本的文本质量和文本可读性。可选的，目标图像可以是视频中部分帧图像，例如，可以是从视频中提取关键帧图像，将关键帧图像分别作为目标图像，确定各目标图像的描述文本，进一步可基于关键帧图像的描述文本形成视频描述文本。可以理解的是，本实施例中不限定目标图像的来源和应用场景，在不同应用场景下，可对目标对象的描述文本进行不同的后续处理。

对于任一目标图像，提取目标图像中包括的对象，形成对象集，例如可通过预先设置的对象检测模型实现。具体的，将目标对象输入至上述对象检测模型中，得到目标图像对应的对象集，其中，对象集中包括多个对象特征，例如可表示为

其中，k可以是对象数量，

表示每个对象的D_v维特征。

通过图像描述模型对目标图像对应的对象集进行处理，基于图像描述模型的处理结果(即概率集合)确定目标图像对应的描述文本。其中，此处的图像描述模型为经过改进的非自回归模型，在降低模型复杂度的基础上，在描述文本的生成过程中提供图像语义信息的信息作为先验信息，为描述文本的生成提供指导，可减少语义词的重复和遗漏。

其中，所述图像描述模型包括级联的多个扩散模型，此处，不限定扩散模型的数量，可根据对描述文本的精度要求和模型占用内存、消耗算力等因素确定。

示例性的，参见图2，图2是本发明实施例提供的图像描述模型的示意图。其中，任一所述扩散模型的输出端与前一扩散模型的输出端跳跃连接，所述前一扩散模型的预测结果数据与当前扩散模型的预测结果数据进行融合处理后，输入至下一扩散模型。其中，各扩散模型的预测结果数据可以是概率集合，将前一扩散模型的预测结果数据与当前扩散模型的预测结果数据进行融合处理，可以是通过将前一扩散模型输出的概率集合与当前扩散模型输出的概率集合进行融合处理，具体的，可以将两个概率集合中同一词汇位置的概率分布进行融合处理，其中，概率分布的融合处理可以是将两个概率集合中对应概率数据进行平均处理等的处理方式，其中，融合处理的具体方式可以不作限定。

将各扩散模型的预测结果数据与对应前一扩散模型的预测结果数据进行融合处理后，作为下一扩散模型的输入信息，通过将多个扩散模型堆叠起来，以级联的方式逐步改良输出语句，使输出语句具有更好的视觉语言对齐和语言连贯性。在一些实施例中，可通过融合处理后的融合概率集合确定当前扩散模型对应的预测语句。

在上述实施例的基础上，每一扩散模型的结构相同，例如，扩散模型可以是在扩散transformer网络模型的基础上，增加语义分析模块，为描述文本的生成过程提供语义指导。

可选的，任一所述扩散模型中包括图像编码模块、句子解码模块和语义分析模块，其中，所述语义分析模块基于所述对象集得到语义特征；所述图像编码模块基于所述对象集得到编码特征，所述句子解码模块基于所述语义特征和所述编码特征得到当前扩散模型的概率集合。

示例性的，参见图3，图3是本发明实施例提供的一种扩散模型的结构示意图。

本实施例中，对于目标图像的处理过程，包括T个时刻的循环处理过程，在T个时刻中的每一t时刻对应一个循环处理过程，t∈(0,T)。在任一t时刻，获取当前时刻的状态数据，将当前时刻的状态数据作为当前次循环的输入信息。进一步，若该t时刻为非首个循环时刻，则获取上一时刻的预测结果数据，将该上一时刻的预测结果数据作为当前次循环的输入信息，其中，上一时刻的预测结果数据可以是前一次循环处理过程中最后一个扩散模型输出的预测结果数据。进一步的，对于级联的多个扩散模型，除第一个扩散模型之外的其他扩散模型，可获取上一扩散模型在当前次循环的预测结果数据，作为该扩散模型在当前次循环的输入信息，可以理解的是，上一扩散模型在当前次循环的预测结果数据，可以是上一扩散模型对应的融合后的预测结果数据。

相应的，对于任一扩散模型在任一次循环处理过程中，获取当前时刻的状态数据、前一时刻的预测结果数据和前一扩散模型的预测结果数据中的一项或多项。其中，当前时刻的状态数据的确定方式，可以是确定初始状态数据，基于当前时刻t，对初始状态数据进行加噪处理，得到当前时刻的状态数据。示例性的，可基于如下公式处理得到：

其中，x₀为初始状态数据，t'＝t/T，∈～N(0,I)，t～U(0,T)，N为正态分布，U为均匀分布，γ(t′)为单调递增函数。其中，初始状态数据可以是在预先设置的词汇库中确定的随机语句数据。其中，由于文本句子中的各词汇均为离散数据，本实施例中，将各词汇转换为二进制数据，相应的，此处初始状态数据可以是随机语句转换得到的二进制数据。

在上述实施例的基础上，当前时刻的状态数据、前一时刻的预测结果数据和前一扩散模型的预测结果数据中的一项或多项，作为语义分析模块的输入信息，相应的，语义分析模块还用于基于当前时刻的状态数据、前一时刻的预测结果数据和前一扩散模型的预测结果数据中的一项或多项，以及对象集得到语义特征，为描述文本的生成提供语义指导。

具体的，语义分析模块包括：语句检索模型、特征整合模型和语义分析模型；其中，所述语义检索模型用于对所述对象集进行语句检索，得到所述目标图像的关联语句。此处，预先设置语句训练库，该语句训练库中包括预先设置的大量语句，语句检索模型用于在大量语句中确定与目标图像相匹配的关联语句。该语句训练库可定期更新，以保证语句的准确性。在一些实施例中，可根据应用场景确定多个语句训练库，即不同的应用场景可对应不同的语句训练库，相应的，根据目标图像的应用场景在对应的语句训练库中匹配关联语句，提高关联语句检索的针对性，同时降低检索数据量。

所述特征整合模型将所述关联语句转换为第一特征向量，示例性的，可以是通过embedding网络层对关联语句进行特征转换，得到第一特征向量。示例性的，可以是将关联语句转换为二进制数据，并通过全连接层对二进制数据进行处理后，得到第一特征向量，如第一特征向量为z^r＝FC(Sr)，其中，Sr为关联语句对应的二进制数据。

同时，特征整合模型还基于所述当前时刻的状态数据、所述前一时刻的预测结果数据和所述前一扩散模型的预测结果数据中的一项或多项形成第二特征向量，所述第一特征向量和所述第二特征向量拼接得到拼接特征向量。示例性的，对于首个扩散模型对应的第二特征向量可以是

示例性的，对于非首个扩散模型对应的第二特征向量可以是

其中，x_t为t时刻的状态数据，

为前一时刻的预测结果数据，x₀ ^i-1为前一扩散模型的预测结果数据，其中i可以是扩散模型的序列号。此处x_t、x₀ ^i-1和

可以分别为二进制数据。其中，

可以是基于前一时刻的预测结果数据中的概率集合确定的预测语句对应的二进制数据，x₀ ^i-1可以是前一扩散模型的预测结果数据中的概率集合确定的预测语句对应的二进制数据。相应的，将第一特征向量、第二特征向量进行拼接得到拼接特征向量。

在一些实施例中，还可以确定当前时刻的感知特征，将该感知特征与第一特征向量、所述第二特征向量进行拼接处理得到拼接特征向量。其中，当前时刻的感知特征可以是通过多层感知机对当前时刻的递增数据确定，示例性的，当前时刻的感知特征可以是

相应的，将第一特征向量、第二特征向量和感知特征进行拼接得拼接特征向量。例如，拼接特征向量可表示为：

语义分析模型对所述拼接特征向量进行分析处理，得到语义特征。其中，语义分析模型可以是transformer模型，依次包括多头自注意力层、残差和标准化层、前馈网络层和残差和标准化层。语义分析模型的输入信息为拼接特征向量，输出信息为语义特征。

在一些实施例中，图像编码器为transformer模型，例如依次包括多头自注意力层、残差和标准化层、前馈网络层和残差和标准化层，图像编码器的输入信息为目标图像的对象集，输出信息为编码特征。

示例性的，图像编码器中处理过程可表示为：

Vⁱ⁺¹＝FFN(norm(Vⁱ+MultiHead(Vⁱ,Vⁱ,Vⁱ)))；

FFN(Z)＝norm(Z+FC(δ(FC(Z))))；

MultiDead(Q,K,V)＝Concat(Head₁,…Head_H)W^o；

Head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)；

其中，FFN为前馈层，MultiHead为多头自注意力层，norm为层归一化，FC为全连接层，Concat(·)为拼接操作，δ为激活函数，W_i ^Q，W_i ^K,W_i ^V,W^O是第i个头的权重矩阵，H是头的个数，d是每个头的维度。

语义分析模型和图像编码器分别与句子解码模块连接，分别将语义特征和编码特征传输至句子解码模块，句子解码模块对语义特征和编码特征进行处理得到概率集合。

可选的，句子解码模块包括第一注意力机制处理单元、第二注意力机制处理单元和前馈处理单元；其中，第一注意力机制处理单元包括多头自注意力层、残差和标准化层，第二注意力机制处理单元包括多头自注意力层、残差和标准化层，前馈处理单元包括前馈网络层和残差和标准化层。

其中，第一注意力机制处理单元对所述语音特征进行注意力机制处理，得到第一注意力特征；第二注意力机制处理单元对所述语义注意力特征和所述编码特征进行注意力机制处理，得到第二注意力特征；所述前馈处理单元对所述第二注意力特征进行处理，得到当前扩散模型的概率集合。

示例性的，句子解码模块中前馈处理单元的处理过程可表示为：

其中

为编码特征，hⁱ为第一注意力特征。

在一些实施例中，前馈处理单元中还包括线性层linear，通过线性层得到概率集合，例如

其中W^T是权重矩阵，

和p_i∈R^W分别是第i个词汇对应的隐藏状态向量和概率分布，多个上述概率分布数据形成概率集合。概率集合包括描述文本各词汇位置处的概率分布数据。

通过每一次词汇位置处的概率分布数据确定对应的词汇，各个词汇根据顺序形成目标图像的描述文本。

可选的，基于所述概率集合和预设词汇集合确定各词汇位置处对应的词汇，包括：对于任一词汇位置，基于所述词汇位置对应的概率分布数据与词汇位表示进行加权平均，得到所述词汇位置对应的目标映射位；基于所述目标映射位在所述预设词汇集合中进行匹配，得到所述词汇位置处对应的词汇。

对于任一词汇位置，该词汇位置处的概率分布数据w个概率值，其中w可以是预设词汇集合中词汇数量，预设词汇集合中各词汇分别对应一词汇位表示，该词汇位表示可以是二进制位表示。通过将所述词汇位置对应的概率分布数据与词汇位表示进行加权平均，得到词汇位置对应的目标映射位，将该目标映射位在预设词汇集合中进行匹配，得到该词汇位置处对应的词汇，即将目标映射位对应的词汇确定为该词汇位置处对应的词汇。

示例性的，可通过

实现，其中，b_i为第i个词汇位置处的目标映射位，p_i ^c为p_i中的第c各概率，B^c是词汇表中第c个单词的位表示。

图像描述模型中的各个扩散模型分别执行上述过程，相应的，图像描述模型中级联的扩散模型可表示为：

其中，M是堆叠扩散Transformer模型的总数，f₁是第一个具备上述语义条件的扩散Transformer模型。

上述级联的多个扩散模型进行T次循环处理，得到目标图像对应的描述文本。

本实施例的技术方案，通过级联的多个扩散模型对目标图像的对象集进行处理，将多个扩散Transformer结构堆叠起来，以级联的方式逐步改良输出句子，使输出句子具有更好的视觉语言对齐和语言连贯性。在每一个扩散模型引入目标图像的语义特征，作为先验信息对描述文本的生成过程提供指导，有利于提高描述文本的准确性，提高描述文本的文本质量。

在上述实施例的基础上，图像描述模型可通过两个阶段的训练过程，以得到训练好的图像描述模型。通过两个阶段的训练，提高图像描述模型的性能，提高对输入图像的描述质量。

可选的，图像描述模型的训练过程可以是：获取第一训练图像和第一训练图像对应的第一目标语句；基于所述第一训练图像和所述第一目标语句对待训练的图像描述模型进行第一阶段的训练处理，得到中间图像描述模型，其中，所述第一阶段中通过第一损失函数对所述待训练的图像描述模型进行训练处理；

在第一阶段中，第一训练图像对应的第一目标语句可以是由用户设置的，第二阶段中的第二目标语句是通过教师模型对第二训练图像进行自动处理输出的，在两个阶段的训练过程中，仅在第一阶段需要设置第一目标语句，减少了人工对训练图像的语句标注工作。其中，第一阶段的训练结束条件可以是完成预设次数的训练过程、训练的图像描述模型达到收敛状态、达到中间图像描述模型的预测精度要求中的一项或多项。第二阶段的训练结束条件可以是训练的图像描述模型达到收敛状态、达到中间图像描述模型的预测精度要求中的一项或多项。

在第一阶段中，迭代执行如下训练过程，在满足训练结束条件的情况下，得到所述中间图像描述模型：对所述第一目标语句进行加噪处理，得到各时刻分别对应的状态数据；以及提取所述第一训练图像的对象集；将所述状态数据和所述对象集输入至待训练的图像描述模型中，得到第一预测数据，并基于所述第一预测数据得到第一预测语句；基于所述第一预测语句和所述第一目标语句确定的第一损失函数，对所述待训练的图像描述模型进行模型参数的调节。其中，对第一目标语句进行加噪处理可通过如下公式得到

此处的x₀为第一目标语句对应的状态数据，即第一目标语句转换得到的二进制数据。此处对得到第一预测语句的过程不再赘述。

基于所述第一预测语句和所述第一目标语句确定的第一损失函数，包括：基于所述第一预测语句和所述第一目标语句的语句内容生成第一损失项；基于所述第一预测语句中各词汇的第一分类标签和所述第一目标语句中各词汇的第二分类标签生成第二损失项；基于所述第一损失项和所述第二损失项确定所述第一损失函数。

其中，第一损失项可以是L_bit，L_bit＝E_{t～U(0，T),ε～(0,I)}||f(x_t,γ(t'),V)-x₀||²；

其中，第二损失项可以是交叉熵函数L_XE，基于所述第一预测语句中各词汇的第一分类标签和所述第一目标语句中各词汇的第二分类标签形成的交叉熵函数。相应的，第一损失函数可以是第一损失项和第二损失项的和。例如L＝L_bit+L_XE。

通过第一损失函数反向输入至上述训练过程中的图像描述模型，调节图像描述模型中的模型参数。循环执行上述训练过程，直到达到第一阶段的结束条件，将第一阶段训练得到的图像描述模型确定为中间图像描述模型。

在第二阶段，将中间图像描述模型作为初始化图像描述模型，进行模型优化。通过创建的自回归神经网络模型作为教师模型，该自回归神经网络模型基于较高性能，相应的，通过教师模型对所述第二训练图像处理的第二目标语句为高质量语句，用于作为中间图像描述模型训练过程中的语义指导。

在第二阶段，循环执行如下训练过程，在满足结束条件的情况下，得到训练好的图像描述模型：对所述第二目标语句进行加噪处理，得到各时刻分别对应的状态数据；以及提取所述第二训练图像的对象集；将所述状态数据和所述对象集输入至所述中间图像描述模型中，得到第二预测数据，并基于所述第二预测数据得到多个第二预测语句，其中所述第二预测语句中包括所述第二目标语句；基于所述多个第二预测语句确定的第二损失函数，对所述待训练的图像描述模型进行模型参数的调节，其中，所述第二损失函数包括各第二目标语句的句子级奖励函数，所述句子级奖励函数中包括所述第二目标语句对应的正向奖励函数。

第二阶段中将第二目标语句作为x₀，以得到各时刻的状态数据x_t。所述第二预测数据中包括输出句子的每一个位置对应的概率分布数据，基于该概率分布数据可得到多个第二预测语句，该第二预测语句可以是从预设词汇集合中采集得到的。其中，对于其中的一个第二预测语句，强制该第二预测语句按照和第二目标语句选择每一个词汇位置对应的词汇，而不从概率分布采样得到。

基于每一第二预测语句分别生成句子级奖励函数，对不同第二预测语句可以进行质量评估，根据质量评估结果确定对应的句子级奖励函数，其中句子级奖励函数包括正向奖励函数和负向奖励函数，其中，第二目标语句对应的正向奖励函数，以鼓励该图像描述模型生产高指令语句，同时抑制了其他低质量句子(例如，单词重复的句子)的可能性。值得注意的是，当图像描述模型的训练变得饱和时，如果图像描述模型输出的预测语句(在CIDEr中测量)的质量高于第二目标语句S^tea，将用图像描述模型估计的第二预测语句替换从自回归神经网络模型导出的第二目标语句S^tea并继续进行训练。

示例性的，第二损失函数可以是：

其中，R为第二测试语句的质量评估函数，该质量评估函数可以是CIDEr指标评估函数。相应的，第二损失函数的梯度可以表示为：

其中，N_y为第二预测语句的数量，

为包含第二目标语句S^tea的第二预测语句。

可以理解的是，第一阶段可独立完成对待训练的图像描述模型的训练，将中间图像描述模型作为训练好的图像描述模型；第二阶段可独立完成对对待训练的图像描述模型的训练，得到训练好的图像描述模型。其中，第一阶段和第二阶段分别独立训练图像描述模型的过程此处不再赘述。

图4是本发明实施例提供的一种图像描述生成装置的结构示意图。如图4所示，该装置包括：

对象集提取模块210，用于获取目标图像，识别所述目标图像中包括的对象，形成对象集；

预测概率确定模块220，用于将所述对象集输入至图像描述模型中，得到所述图像描述模型输出的概率集合；

描述文本生成模块230，用于基于所述概率集合和预设词汇集合确定各词汇位置处对应的词汇，基于确定的所述词汇形成所述目标图像的描述文本；

在上述实施例的基础上，可选的，任一所述扩散模型的输出端与前一扩散模型的输出端跳跃连接，所述前一扩散模型的预测结果数据与当前扩散模型的预测结果数据进行融合处理后，输入至下一扩散模型。

在上述实施例的基础上，可选的，该装置还包括：

数据获取模块，用于获取当前时刻的状态数据、前一时刻的预测结果数据和前一扩散模型的预测结果数据中的一项或多项；

在上述实施例的基础上，可选的，所述语义分析模块包括：语句检索模型、特征整合模型和语义分析模型；

在上述实施例的基础上，可选的，所述句子解码模块包括第一注意力机制处理单元、第二注意力机制处理单元和前馈处理单元；

在上述实施例的基础上，可选的，所述概率集合包括描述文本各词汇位置处的概率分布数据；

描述文本生成模块230用于：

在上述实施例的基础上，该装置还包括：

第一阶段训练模块，用于获取第一训练图像和第一训练图像对应的第一目标语句；基于所述第一训练图像和所述第一目标语句对待训练的图像描述模型进行第一阶段的训练处理，得到中间图像描述模型，其中，所述第一阶段中通过第一损失函数对所述待训练的图像描述模型进行训练处理；

第二阶段训练模块，用于获取第二训练图像，基于教师模型确定所述第二训练图像对应的第二目标语句，基于所述第二训练图像和所述第二目标语句对所述中间图像描述模型进行第二阶段的训练处理，得到训练好的图像描述模型，其中，所述第二阶段中通过第二损失函数对所述待训练的图像描述模型进行训练处理。

可选的，第一阶段训练模块用于：

第二阶段训练模块用于：

本发明实施例所提供的图像描述生成装置可执行本发明任意实施例所提供的图像描述生成方法，具备执行方法相应的功能模块和有益效果。

图5是本发明实施例四提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如图像描述生成方法。

在一些实施例中，图像描述生成方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的图像描述生成方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像描述生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的图像描述生成方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行一种图像描述生成方法，该方法包括：

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种图像描述生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，任一所述扩散模型的输出端与前一扩散模型的输出端跳跃连接，所述前一扩散模型的预测结果数据与当前扩散模型的预测结果数据进行融合处理后，输入至下一扩散模型。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取当前时刻的状态数据、前一时刻的预测结果数据和前一扩散模型的预测结果数据中的一项或多项；

4.根据权利要求3所述的方法，其特征在于，所述语义分析模块包括：语句检索模型、特征整合模型和语义分析模型；

5.根据权利要求1所述的方法，其特征在于，所述句子解码模块包括第一注意力机制处理单元、第二注意力机制处理单元和前馈处理单元；

6.根据权利要求1所述的方法，其特征在于，所述概率集合包括描述文本各词汇位置处的概率分布数据；

7.根据权利要求1所述的方法，其特征在于，所述图像描述模型的训练方法包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一训练图像和所述第一目标语句对待训练的图像描述模型进行第一阶段的训练处理，得到中间图像描述模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一预测语句和所述第一目标语句确定的第一损失函数，包括：

10.根据权利要求7所述的方法，其特征在于，所述教师模型为自回归神经网络模型，所述第二目标语句为所述教师模型对所述第二训练图像处理的输出语句；

迭代执行如下训练过程，在满足训练结束条件的情况下，得到训练好的的图像描述模型：

11.一种图像描述生成装置，其特征在于，包括：

12.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的图像描述生成方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-10中任一项所述的图像描述生成方法。