CN115035508A

CN115035508A - 基于主题引导的Transformer的遥感图像字幕生成方法

Info

Publication number: CN115035508A
Application number: CN202210689905.9A
Authority: CN
Inventors: 郭璋; 任子豪; 缑水平; 毛莎莎; 李睿敏; 杨华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-09

Abstract

本发明公开了一种基于主题引导的Transformer遥感图像字幕生成方法，主要解决现有技术生成的描述单一，且无法精确表示图像中的语义信息的问题。其实现方案为：搭建一个由Transformer和主题向量组成的主题编码器，并在分类数据集上进行预训练；搭建一个由随机掩码层、嵌入层、Transformer解码器和soft‑max层级联组成的语义解码器；将主题编码器和语义解码器进行连接，得到遥感图像字幕生成网络；设置训练参数，用标准RSICD数据集迭代训练遥感图像字幕生成网络；利用训练好的遥感图像字幕生成网络生成字幕描述。本发明提高了生成描述的多样性和准确性，可用于地物图像检索、灾情预测、图像理解。

Description

基于主题引导的Transformer的遥感图像字幕生成方法

技术领域

本发明属于图像语言交互领域，更进一步涉及一种遥感图像字幕生成方法，可用于地物图像检索、灾情预测、图像理解。

背景技术

遥感图像由于具有丰富的地物信息，近年来在地物图像检索、灾情预测、图像理解等各个领域得到了广泛的应用。常规的遥感图像应用基于目标检测和图像分割技术，这些技术只能简单地描述图像中的地物信息，无法表示地物之间的关联性。然而，随着遥感技术的不断发展，需要将地物信息进行关联，以获得更加具体精确的描述。在这种情况下，仅仅依靠常规的目标检测、图像分割的方法无法达到要求，这使得高精度遥感图像应用的发展受到了限制。

图像字幕生成起源于自然图像理解领域，其任务是根据图像中的内容，生成对应的文字描述。目前主流的图像字幕生成模型基于编码器-解码器的网络结构，编码器将图像特征映射到文字空间，解码器根据图像特征生成对应的文字描述。使用文本对遥感图像中的内容进行描述，可以一次性得到图像各部分的地物特征和位置关联，相较于单一的目标特征和分割特征，这种方法可以更加准确的表达图像中的信息，有助于高精度遥感图像应用的发展。

Transformer是一种基于多头注意力机制的网络框架，最早由Vaswani等人在机器翻译领域提出。该结构由若干个注意力模块构成，每个模块都可以表示序列中不同部分之间的关联，这种多个注意力模块的并行运算，大大增强了模型的学习能力和性能，在自然语言处理领域取得了新的突破。

近年来，对于遥感图像字幕生成有不少学者进行了相关的研究：

2016年，Qu等人首先标注了UCM数据集和Sydney数据集，这两个数据集是遥感图像字幕生成的标准数据集，此外，Qu等人使用自然图像字幕生成模型NIC在这两个数据集上进行测试，为后续研究奠定了基础。

2017年，Lu等人更进一步的丰富了遥感图像字幕生成的数据集，他们标注了RSICD数据集，相较于先前的两个数据集，RSICD数据集数据量更大，同时描述更加丰富。此外，Lu等人使用注意力机制对NIC模型进行了优化，并且使用特征图的平均值来表示图像中的语义信息，该方法初步描述了图像中的语义信息，使得生成为描述准确性得到提升。

2020年，Zhao等人使用结构化注意力机制来优化编码器部分，该方法首先使用Selective search对图像进行一个粗分割，之后将分割图和特征图相乘，得到带有区域信息的特征图，使用这种方法，可以获得地物特征的结构化信息，以此使得生成文字描述的质量获得提升。

2021年，Li等人提出了一种循环注意力机制，这种注意力机制可以利用先前的序列信息，并且使用了一个新的语义门控单元，这两种方法可以有效的避免解码器获得无意义的信息，使得生成的文本更具有针对性，能够描述出图像中大部分的地物特征。

上述这些方法，结合了机器学习和深度学习技术，性能相较于传统算法有一定的提升，但这些方法并不能精确的表示遥感图像中丰富的语义信息，此外，这些方法生成的描述具有很大的单一性，描述中只能出现常规的地物信息，并不能表示图像中的细节内容，这些缺陷使得遥感图像字幕生成距离现实应用还有一定的差距。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于主题引导的Transformer遥感图像字幕生成方法，以通过使用主题标识信息获得图像中丰富的语义信息，并通过掩码网络提高生成文字描述的多样性，最终获得可读性更强、表述信息准确的字幕。

本发明的技术思路是：在Transformer框架的基础上，使用遥感分类数据集预训练主题编码器部分，使得编码器可以提取图像中的语义信息；之后在遥感字幕生成数据集上训练解码器，在解码器输入文本时，首先随机对一部分文本进行遮掩，以增强模型的学习能力，便于生成具有多样性的字幕；之后将主题编码器中的语义信息和文本信息进行拼接，使得语义信息可以对文本的生成进行引导；拼接后的文本信息通过和图像信息进行交互生成对应的文字描述；在数据集上迭代一定的次数之后，最终得到的模型可以生成丰富且准确的字幕描述。

根据上述思路，本发明的实现方案包括如下：

1)预训练主题编码器：

1a)从公开网站获取遥感字幕生成数据集RSICD中的训练集和测试集，并使用其训练集的图像名称作为类别标签y使用训练集的图像作为数据，获得分类数据集；

1b)搭建一个由嵌入层，Transformer编码器和主题向量T组成的主题编码器；

1c)使用分类数据集，采用梯度下降法预训练主题编码器，得到训练好的主题编码器；

2)搭建基于主题引导的Transformer基于主题引导的Transformer遥感图像字幕生成网络：

2a)搭建一个由随机掩码层，嵌入层，Transformer解码器和soft-max层级联组成的语义解码器；

2b)将训练好的主题编码器和语义解码器进行连接，得到基于主题引导的Transformer遥感图像字幕生成网络；

3)对基于主题引导的Transformer遥感图像字幕生成网络进行迭代训练：

3a)设置网络训练的最大迭代次数E，初始学习率Lr；

3b)将训练集中的图像从主题编码器输入，得到图像嵌入特征V_I和主题嵌入特征V_T；

3c)将文本数据输入到语义解码器，先经过其随机掩码层随机将一些文字替换为特殊标识符[Mask],再通过嵌入层输出掩码文字嵌入特征X；

3d)将主题嵌入特征V_T和掩码文字嵌入特征X进行拼接，得到主题文字嵌入特征X_T；

3e)将主题文字嵌入特征X_T输入到语义解码器中的自注意力层，得到自注意力文字嵌入特征X_S；

3f)将自注意力文字嵌入特征X_S输入到语义解码器中的交互注意力层，并与图像特征V_I进行交互注意力计算，得到交互注意力文字嵌入特征X_I；

3g)将交互注意力文字嵌入特征X_I作为下一个解码层的输入，使用X_I作为(3d)中的掩码文字嵌入特征X；

3h)重复3d)～3g)，得到最终的输出X_F；

3i)将最终的输出X_F输入到语义解码器的soft-max层，得到生成描述的概率分布p_θ；

3j)根据生成描述的概率分布p_θ，计算交叉熵损失Loss；

3k)依据交叉熵损失Loss进行反向传播，以此更新网络参数；

3l)重复3b)～3k)，直到达到最大迭代次数E，得到训练好的基于主题引导的Transformer遥感图像字幕生成网络。

4)将测试集遥感图像输入到训练好的基于主题引导的Transformer遥感图像字幕生成网络，得到图像对应的字幕。

本发明与现有技术相比，具有以下优点：

1)生成的字幕准确性更高

本发明采用Transformer的结构进行编码和解码，由于Transformer的多头注意力机制十分契合遥感图像中多地物特征的特点，因而可以更全面的表示各个地物之间的关联性；此外由于本发明在主题编码器中添加了一个主题向量用于提取图像中的语义信息，且该信息可以在解码器中对字幕的生成进行引导，因此生成的字幕描述更加准确。

2)生成的字幕多样性更强

本发明由于使用了一种掩码策略用于增强生成字幕的多样性，在每一次的迭代过程中，掩码的设置都是随机的，不仅增强了模型的学习能力，而且可以迫使模型学习一些未知的词关联，能生成多样性更强的字幕。

附图说明

图1是本发明的实现流程图；

图2是本发明中主题编码器的结构示意图；

图3是本发明中构建的基于主题引导的Transformer遥感图像字幕生成网络结构示意图；

图4是用本发明和常规训练方法生成的字幕对比图。

具体实施方式

下面结合附图对本发明的实施例和效果作进一步详细描述。

参照图1，本发明的实现步骤如下：

步骤1.预训练主题编码器。

(1.1)从公开网站获取遥感字幕生成数据集RSICD中的训练集和测试集，并使用其训练集的图像名称作为类别标签y使用训练集的图像作为数据，获得分类数据集；

(1.2)参照图2，搭建一个由编码嵌入层，Transformer编码器和主题向量T组成的主题编码器；

(1.2.1)建立维度为768的编码嵌入层，用于将图像映射到该高维特征，进而与文本特征进行交互；

(1.2.2)建立一个由12个基础编码器和1个soft-max层级联组成的Transformer编码器，其中每个基础编码器均由一个归一化层、一个多头注意力层、一个归一化层和一个多层感知机级联组成；

(1.2.3)设置主题向量T，作为主题编码器的一个可训练的参数，用于提取图像中的全局语义信息，即在输入图像特征时，将该主题向量T和图像特征拼接在一起，通过Transformer的多头注意力模块，使得主题向量能与各个图像特征进行交互；

(1.2.4)将Transformer编码器与嵌入层连接，用于提取图像的特征；

(1.3)使用分类数据集，采用梯度下降法预训练主题编码器：

(1.3.1)设置预训练的学习率为L＝3×10^-5,预训练最大迭代次数E_pre＝20；

(1.3.2)将图像数据和主题向量进行拼接，得到主题编码器的输入特征V_in；

(1.3.3)将输入特征V_in输入到主题编码器，得到预训练图像嵌入特征V′_I，以及预训练主题嵌入特征V′_T；

(1.3.4)将预训练主题嵌入特征V′_T输入到现有的soft-max层，得到类别估计概率p；

(1.3.5)根据标签和类别估计概率p计算分类损失Loss_c：

其中，i为类别的下标，p_i为第i个类别的估计概率，C为总的类别数量，y_i为第i个类别的类别标签；

(1.3.6)根据分类损失Loss_c采用梯度下降法，更新网络参数

其中，α为待更新的主题编码器的网络参数，α′为更新后的主题编码器的网络参数，L为预训练的学习率；

(1.3.7)重复(1.3.2)～(1.3.6)，直到达到最大迭代次数E_pre，得到训练好的主题编码器。

步骤2.搭建基于主题引导的Transformer遥感图像字幕生成网络。

参照图3所示，本步骤的具体实现如下：

(2.1)搭建语义解码器；

(2.1.1)构建一个用于增强模型的学习能力，同时增加生成文本的多样性的随机掩码层，并设置该随机掩码层的掩码概率为0.3，即对于输入的每一个文字，都有30％的概率将其替换为特殊标识符[Mask]；

(2.1.2)建立一个用于将文本信息映射到高维空间，进而与图像特征进行交互的解码嵌入层，并设该解码嵌入层的嵌入维度为768；

(2.1.3)搭建Transformer解码器

建立由两个基础解码器连接构成的Transformer解码器，用于结合主题信息和图像特征生成文本，每个基础解码器由一个归一化层，一个自注意力层，一个归一化层，一个交互注意力层，一个多层感知机级联组成；

(2.1.4)选用soft-max层，用于生成文字描述的概率分布；

(2.1.5)将随机掩码层，嵌入层，Transformer解码器和soft-max层进行级联，组成语义解码器；

(2.2)由训练好的主题编码器与语义解码器得到基于主题引导的Transformer遥感图像字幕生成网络，即将主题编码器的输出分为两部分，一部分是主题特征，另一部分是图像特征；将主题特征与语义解码器中的自注意力层进行连接，图像特征与语义解码器中的交互注意力层进行连接。

步骤3.对基于主题引导的Transformer遥感图像字幕生成网络进行迭代训练。

(3.1)设置网络训练的最大迭代次数E＝20，初始学习率Lr＝3×10^-5；

(3.2)将训练集中的图像从主题编码器输入，得到图像嵌入特征V_I，以及主题嵌入特征V_T；

(3.3)将文本数据输入到语义解码器，先经过其随机掩码层随机将一些文字替换为特殊标识符[Mask],再通过解码嵌入层输出掩码文字嵌入特征X；

(3.4)将主题嵌入特征V_T和掩码文字嵌入特征X进行拼接，得到主题文字嵌入特征X_T；

X_T＝[V_T,X·M]

其中，V_T为主题嵌入特征，X为掩码文字嵌入特征，M为下三角矩阵；

(3.5)将主题文字嵌入特征X_T输入到语义解码器中的自注意力层，得到自注意力文字嵌入特征X_S；

X_s＝Norm(X+MHA(X,X_T,X_T))

其中，X为掩码文字嵌入特征，X_T为主题文字嵌入特征，Norm为归一化操作；

MHA为多头注意力机制，其公式表示如下：

MHA(Q,K,V)＝Concat(head₁,head₂,...,head_j,...,head_N)W

式中，Q,K,V分别表示多头注意力中的query、key和value向量，j为注意力头的下标，head_j表示第j个注意力头，N为注意力头的数量，W表示权重向量，d为尺度因子，

为第j个注意力头的权重矩阵；

(3.6)将自注意力文字嵌入特征X_S输入到语义解码器中的交互注意力层，并与图像特征V_I进行交互注意力计算，得到交互注意力文字嵌入特征X_I；

X_I＝Norm(X_s+MHA(X_s,V_I,V_I))

其中，X_s为自注意力文字嵌入特征，V_I为图像嵌入特征，MHA为多头注意力机制，Norm为归一化操作；

(3.7)将交互注意力文字嵌入特征X_I作为下一个解码层的输入，使用X_I作为(3.3)中的掩码文字嵌入特征X，重复(3.3)～(3.6)，得到最终的语义解码器输出X_F；

(3.8)将最终的语义解码器输出X_F输入到语义解码器的soft-max层，得到生成描述的概率分布p_θ；

(3.9)将生成描述的概率分布p_θ和描述标签Y输入到交叉熵损失函数中，计算交叉熵Loss；

其中，p_θ为生成描述的概率分布，t为当前的时间步，Y_t为t时刻的单词，Y^mask _1:t-1为1到t-1时刻的经过掩码处理过的标签序列，Len为标签序列的总长度；

(3.10)依据交叉熵损失Loss进行反向传播，以此更新网络参数；

其中θ为待更新的网络参数，θ′为更新后的网络参数，

为最终损失对于网络参数θ的偏导数，Lr为预设的学习率；

(3.11)重复(3.2)～(3.10)，直到达到最大迭代次数E，得到训练好的基于主题引导的Transformer遥感图像字幕生成网络。

步骤4将测试集遥感图像输入到训练好的基于主题引导的Transformer遥感图像字幕生成网络，得到图像对应的字幕。

本发明的效果可通过以下实验进一步说明。

1.实验环境

实验环境为Windows10下的Pycharm平台，使用的语言为Python3.7，采用的深度学习框架为Pytorch，优化器为Adam优化器，处理器为Intel i7-8700k，显卡为GeForceRTX2080。

2.实验内容

实验1，利用上述环境，用本发明和现有的6种基于主题引导的Transformer遥感图像字幕生成网络在RSICD数据集上进行实验，设置初始学习率设置为3×10^-5，最大迭代次数设置为20，batch size的大小设置为5，使用BLEU，CIDEr，Meteor，Rouge-L作为评价指标，将不同模型生成的字幕描述使用上述指标进行计算，得到不同模型生成字幕的得分，如表1所示。

表1 6种现有方法和本发明生成字幕的得分

方法	BLEU-1	BLEU-2	BLEU-3	BLEU-4	Meteor	Rouge-L	CIDEr
								Soft-attention	67.53	53.08	43.33	36.17	32.55	61.09	196.43
Hard-attention	66.69	51.82	41.64	34.07	32.01	60.84	179.25
								Structured-attention	70.16	56.14	46.48	39.34	32.91	57.06	170.31
AttrAttention	75.71	63.36	53.85	46.12	35.13	64.58	235.63
								MLA	77.25	62.90	53.28	46.08	44.71	69.10	236.37
VRTMM	78.13	67.21	56.45	51.23	37.37	67.13	271.50
								RASG	77.29	66.51	57.82	50.62	36.26	66.91	275.49
本发明	80.42	69.96	61.36	54.14	39.37	70.58	298.39

表1中，Soft-attention和Hard-attention分别为两种不同的基础注意力方法，Structured-attention是基于图像分割的注意力方法；AttrAttention是一种基于属性注意力的方法，MLA为使用了三个不同尺度特征图的遥感图像字幕生成方法，VRTMM是一种基于自编码器和Transformer的方法，RASG是一种基于循环注意力和语义门控单元的遥感图像字幕生成方法。

由表1可知，本发明相较于常规的一些方法在每一个指标上均取得了更好的结果。

实验2，分别使用本发明中提出的掩码策略和常规策略对本发明中提出的基于主题引导的Transformer遥感图像字幕生成网络进行训练，并对字幕生成的结果进行对比，引入评价多样性的指标Self-CIDEr，使用Self-CIDEr、BLEU、Rouge、Meteor和CIDEr指标计算生成字幕的得分，在RSICD上进行实验的结果如表2所示。

表2使用常规策略和本发明掩码策略生成的字幕的指标得分

从表2可见，本发明的多样性指标Self-CIDEr值相较于常规方法的得分有了较大的提高，说明生成字幕的多样性有了较大的提升。

实验3将使用常规策略和本发明掩码策略生成的部分字幕进行可视化，结果如图4所示，其中，图4(a)为沙滩场景图，图4(b)为体育场场景图，图4(c)为沙漠场景图，图4(d)为操场场景图，图4(e)为港口场景图，图4(f)为度假区场景图，每个图的左侧为测试的遥感图像，每一个场景对应现有技术和本发明两种字幕描述，即现有技术后对应的为使用常规策略生成的字幕描述，本发明后对应的是使用本发明中的掩码策略生成的字幕描述，分别描述如下。

图4(a)中，使用常规训练策略生成的字幕为：yellow beach is near a piece ofgreen ocean.，即黄色海滩靠近一片绿色海洋；使用本发明掩码策略生成的字幕为：yellowbeach is near a piece of green ocean with white waves.，即黄色的海滩靠近一片有白色波浪的绿色海洋；

图4(b)中，使用常规训练策略生成的字幕为：many buildings and green treesare around a center building.，即许多建筑物和绿树围绕着一个中心建筑；使用本发明掩码策略生成的字幕为：some green trees and a parking lot are around a circlebuilding.，即一些绿树和一个停车场围绕着一个圆形建筑；

图4(c)中，使用常规训练策略生成的字幕为：it is a piece of yellowdesert.，即这是一片黄色的沙漠；使用本发明掩码策略生成的字幕为：some ripples arein a piece of yellow desert.即在一片黄色的沙漠中，有些涟漪；

图4(d)中，使用常规训练策略生成的字幕为：many buildings and some greentrees are around a playground.，即操场周围有许多建筑物和一些绿树；使用本发明掩码策略生成的字幕为：the playground consists of a red track and a greenfootball field.，即操场由红色跑道和绿色足球场组成；

图4(e)中，使用常规训练策略生成的字幕为：many boats are in a port nearmany buildings.即许多船在靠近许多建筑物的港口；使用本发明掩码策略生成的字幕为：several boats are in a port near a wharf.，即几艘船停在码头附近的一个港口；

图4(f)中，使用常规训练策略生成的字幕为：many buildings and green treesare in a resort near a beach.即许多建筑物和绿树都在海滩附近的度假胜地；使用本发明掩码策略生成的字幕为：several buildings with swimming pools are in aresort near a beach.，即几个带游泳池的建筑物在靠近海滩的度假胜地；

从图4中可发现，使用常规训练方法经常生成一些单一的字幕描述，如许多建筑物和绿树；而使用本发明中的掩码技术对模型进行训练，可以生成较为多样性的字幕描述，如浪花、跑道、码头、泳池、涟漪等。

由表2和图4表明，本发明所使用的掩码策略相较于常规的训练方法，在不损失准确度的情况下，生成描述的多样性有了较大的提高。

Claims

1.一种基于主题引导的Transformer遥感图像字幕生成方法，其特征在于，包括：

1)预训练主题编码器：

2)搭建基于主题引导的Transformer遥感图像字幕生成网络：

2a)搭建由一个由随机掩码层，嵌入层，Transformer解码器和soft-max层级联组成的语义解码器；

3a)设置网络训练的最大迭代次数E，初始学习率Lr；

3h)重复3d)～3g)，得到最终的语义解码器输出X_F；

3i)将最终的语义解码器输出X_F输入到语义解码器的soft-max层，得到生成描述的概率分布p_θ；

3j)根据生成描述的概率分布p_θ，计算交叉熵损失Loss；

3k)依据交叉熵损失Loss进行反向传播，以此更新网络参数；

2.根据权利要求1所述的方法，其中步骤1b)构建的主题编码器中各模块结构及功能如下：

所述嵌入层，其维度为768，用于将图像映射到高维特征，进而与文本特征进行交互；

所述Transformer编码器，由12个基础编码器和1个soft-max层级联组成，每个基础编码器由一个归一化层，一个多头注意力层，一个归一化层和一个多层感知机级联组成，其与嵌入层连接，用于提取图像的特征，

所述主题向量T，用于提取图像中的全局语义信息，其为主题编码器的一个可训练的参数，在输入图像特征时，将该主题向量T和图像特征拼接在一起，通过Transformer的多头注意力模块，使得主题向量能与各个图像特征进行交互；

3.根据权利要求1所述的方法，其中步骤1c)中使用梯度下降法预训练主题编码器，实现如下：

(1c1)设置预训练的学习率为L,预训练最大迭代次数E_pre；

(1c2)将图像数据和主题向量进行拼接，得到主题编码器的输入特征V_in；

(1c3)将输入特征V_in输入到主题编码器，得到预训练图像嵌入特征V′_I，以及预训练主题嵌入特征V′_T；

(1c4)将预训练主题嵌入特征V′_T输入到现有的soft-max层，得到类别估计概率p；

(1c5)根据标签和类别估计概率p计算分类损失Loss_c：

(1c6)根据分类损失采用梯度下降法，更新网络参数

(1c7)重复(1c2)～(1c6)，直到达到预训练最大迭代次数E_pre，得到训练好的主题编码器。

4.根据权利要求1所述的方法，其中步骤2a)搭建的语义解码器中，各模块的结构和功能如下：

所述随机掩码层，用于增强模型的学习能力，同时增加生成文本的多样性，随机掩码层的掩码概率设置为0.3，即对于输入的每一个文字，都有30％的概率将其替换为特殊标识符[Mask]；

所述嵌入层，用于将文本信息映射到高维空间，进而和图像特征进行交互，嵌入层的嵌入维度设置为768；

所述Transformer解码器，用于结合主题信息和图像特征生成文本，由两个基础解码器构成，每个基础解码器由一个归一化层，一个自注意力层，一个归一化层，一个交互注意力层，一个多层感知机级联组成；

所述soft-max层，用于生成文字描述的概率分布。

5.根据权利要求1所述的方法，其中步骤2b)中将训练好的主题编码器与语义解码器进行连接，是将主题编码器的输出分为两部分，一部分是主题特征，另一部分是图像特征；该主题特征与语义解码器中的自注意力层进行连接，该图像特征与语义解码器中的交互注意力层进行连接。

6.根据权利要求1所述的方法，其中步骤3d)中计算和主题嵌入特征V_T拼接后的主题文字嵌入特征X_T，公式如下：

X_T＝[V_T,X·M]

其中，V_T为主题嵌入特征，X为掩码文字嵌入特征，M为下三角矩阵。

7.根据权利要求1所述的方法，其中步骤3e)中得到自注意力文字嵌入特征X_S，表示如下：

X_s＝Norm(X+MHA(X,X_T,X_T))

MHA为多头注意力机制，其公式表示如下：

MHA(Q,K,V)＝Concat(head₁,head₂,...,head_j,...,head_N)W

为第j个注意力头的权重矩阵；

8.根据权利要求1所述的方法，其中步骤3f)中计算交互注意力文字嵌入特征X_I，公式如下：

X_I＝Norm(X_s+MHA(X_s,V_I,V_I))

其中，X_s为自注意力文字嵌入特征，V_I为图像嵌入特征，MHA为多头注意力机制，Norm为归一化操作。

9.根据权利要求1所述的方法，其中步骤3j)中计算计算交叉熵损失Loss，公式如下：

其中，p_θ为生成描述的概率分布，t为当前的时间步，Y_t为t时刻的单词，Y^mask _1:t-1为1到t-1时刻的经过掩码处理过的标签序列，Len为标签序列的总长度。

10.根据权利要求1所述的方法，其中步骤3k)中更新网络参数，公式如下：

其中θ为待更新的网络参数，θ′为更新后的网络参数，

为最终损失对于网络参数θ的偏导数，Lr为预设的学习率。