CN112084841A

CN112084841A - 跨模态的图像多风格字幕生成方法及系统

Info

Publication number: CN112084841A
Application number: CN202010732247.8A
Authority: CN
Inventors: 杨振宇; 刘侨
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-12-15
Anticipated expiration: 2040-07-27
Also published as: CN112084841B

Abstract

本申请公开了跨模态的图像多风格字幕生成方法及系统，包括：获取待生成字幕的图像；将待生成字幕的图像，输入到预先训练好的多风格字幕生成模型中，输出图像的多风格字幕；所述预先训练好的多风格字幕生成模型，是基于对抗生成网络训练后得到的；训练步骤包括：先对多风格字幕生成模型的表达图像客观信息的能力进行训练，然后对多风格字幕生成模型的生成风格化字幕的能力进行训练。

Description

跨模态的图像多风格字幕生成方法及系统

技术领域

本申请涉及字幕生成技术领域，特别是涉及跨模态的图像多风格字幕生成方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

传统图像字幕的目标是生成与图像客观信息高度一致的字幕，相比于传统的图像字幕，风格化的图像字幕具有更加广泛的应用。风格化图像字幕不仅要求生成的字幕与图像客观信息一致，同时还应具有特定的风格因素。

现有的技术主要分为两种：单风格字幕生成方法和多风格字幕生成方法。单风格字幕生成方法是模型只能生成一种风格的风格字幕，这主要取决于模型在训练时使用的是哪种风格的数据集。多风格字幕生成方法是通过一个模型生成多种风格的图像字幕，这种方法在训练时就利用了多风格的数据集。

在实现本申请的过程中，发明人发现现有技术中存在以下技术问题：

首先，缺乏大规模成对的图像-风格字幕数据集，这对现有的技术构成的非常大的挑战。其次，现有的单风格图像字幕生成技术的计算成本大，使用起来也复杂、麻烦。多风格图像字幕生成方法还不成熟。另一个重要问题，现有的技术很难兼顾与图像客观信息的一致性和字幕的风格化。

发明内容

为了解决现有技术的不足，本申请提供了跨模态的图像多风格字幕生成方法及系统；

第一方面，本申请提供了跨模态的图像多风格字幕生成方法；

跨模态的图像多风格字幕生成方法，包括：

获取待生成字幕的图像；

将待生成字幕的图像，输入到预先训练好的多风格字幕生成模型中，输出图像的多风格字幕；所述预先训练好的多风格字幕生成模型，是基于对抗生成网络训练后得到的；训练步骤包括：先对多风格字幕生成模型的表达图像客观信息的能力进行训练，然后对多风格字幕生成模型的生成风格化字幕的能力进行训练。

第二方面，本申请提供了跨模态的图像多风格字幕生成系统；

跨模态的图像多风格字幕生成系统，包括：

获取模块，其被配置为：获取待生成字幕的图像；

生成模块，其被配置为：将待生成字幕的图像，输入到预先训练好的多风格字幕生成模型中，输出图像的多风格字幕；所述预先训练好的多风格字幕生成模型，是基于对抗生成网络训练后得到的；训练步骤包括：先对多风格字幕生成模型的表达图像客观信息的能力进行训练，然后对多风格字幕生成模型的生成风格化字幕的能力进行训练。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

针对此前提出的缺乏大量配对数据集、单一模型使用复杂和生成字幕兼顾图像客观信息与特定风格的问题，本申请框架中，两阶段的训练方式用于是模型分别学习客观能力表达和风格能力表达，尽最大可能缓解了缺乏大量配对数据集的问题。融合风格标志的Transformer结构能够有效地生成多风格字幕，做到了一个模型生成多个风格字幕。多判别器模块通过客观信息判别器和风格信息判别器优化字幕生成模型，使模型同时兼顾图像客观信息与特定风格。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的整体架构图；

图2为第一个实施例的字幕生成器结构图；

图3为第一个实施例的客观信息判别器结构示意图；

图4为第一个实施例的风格信息判别器结构示意图；

图5是第一个实施例的一个自注意力计算过程，也就是多头注意力的一个头。最终的多头注意力的结果，是由h个头的输出结果连接(连接操作，也就是相应公式里的Concat(.))而成；

图6是第一个实施例的多头注意力的计算过程；

图7是第一个实施例的编码器-解码器注意力结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请本实施例中，“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请的描述中，“多个”是指两个或多于两个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了跨模态的图像多风格字幕生成方法；

跨模态的图像多风格字幕生成方法，包括：

S101：获取待生成字幕的图像；

S102：将待生成字幕的图像，输入到预先训练好的多风格字幕生成模型中，输出图像的多风格字幕；所述预先训练好的多风格字幕生成模型，是基于对抗生成网络训练后得到的；训练步骤包括：先对多风格字幕生成模型的表达图像客观信息的能力进行训练，然后对多风格字幕生成模型的生成风格化字幕的能力进行训练。

本申请的跨模态是从图像模态到文本模态的跨越。

作为一个或多个实施例，如图1所示，所述对抗生成网络，包括：

依次连接的字幕生成器和判别器模块；

所述字幕生成器，包括：依次连接的编码器和解码器；

所述判别模块，包括：客观信息判别器和风格信息判别器，客观信息判别器和风格信息判别器的输入端均与解码器的输出端连接。

进一步地，如图2所示，所述编码器，包括：若干个串联的编码层，每个编码层均包括依次连接的多头注意力机制模块、第一层标准化模块、前馈神经网络和第二层标准化模块；其中，多头注意力机制模块的输入端还与第一层标准化模块的输入端连接，第一层标准化模块的输出端还与第二层标准化模块的输入端连接。

应理解的，所述多头注意力机制模块，是指：

多头注意力由多个不同自注意力计算模块集成，最终的结果是将每个头的输出通过连接操作组成一个新的特征矩阵。

在每一个自注意力机制模块中，它的每个输入可转换为3个向量，分别是查询Q、键K和值V，为每个向量计算得分QK；

接下来，对得分进行归一化，也就是乘以

(d_k表示模型的维度)，此后经过Softmax并与值V相乘，得到每个输入的得分；

然后，将得到的结果进行相加得到输出结果；

最终，将每个头的注意力计算结果做连接操作，得到最后的输出。

图5是一个自注意力计算过程，也就是多头注意力机制模块其中的一个头。最终的多头注意力的结果，是由h个头的输出结果连接(连接操作，也就是相应公式里的Concat(.))而成。图6是多头注意力的计算过程。

应理解的，所述层标准化模块，是指：针对深度网络的某一层的所有神经元的输入进行标准化操作。它对获得一个球体空间中符合均值0方差1高斯分布的嵌入有帮助，并且可以约束多输入嵌入累加可能带来的“尺度”问题，降低了模型方差。

进一步地，所述编码器的工作原理是：编码器将经过卷积神经网络处理的图像特征作为输入，并经过由多头注意力模块、标准化层、前向神经网络组成的多个编码层进行处理，得到最终的图像表示。

示例性的，所述编码器，给定一张图像I，该方法首先利用预训练的卷积神经网络提取图像特征，并输入到基于自注意力机制的多头注意力。此后，该方法利用残差连接的方式，连接图像特征和注意力层的输出并经过层标准化后输入到前馈神经网络中。该方法再次残差连接方式连接前馈神经网络的输入和输出，并通过标准化得到一层编码器的输出。进一步，该方法将编码层的输出输入到下一个编码层并再次进行上述操作，经过N层编码器层迭代后得到编码器的最终输出。该流程可做如下表示：

其中，CNN是卷积神经网络，这里使用的经过预训练的ResNet152。P表示不同阶段的图像特征表示，W^Q，W^K，和W^V是可学习的权重矩阵，Concat(.)表示连接操作，Norm(.)是标准化操作，FFN(.)表示前馈神经网络。为了从更好层级理解图像信息，本申请叠加了N层编码器层。最终，图像特征可表示为：

进一步地，所述解码器，包括依次串联的输入层、加法器、掩码多头注意力机制模块、第三层标准化模块、编码器-解码器注意力模块、第四层标准化模块、第二前馈神经网络模块、第五层标准化模块、Softmax层和输出层；

所述加法器的输入端还与风格标志器连接，所述加法器的输出端还与第三层标准化模块连接，所述第三层标准化模块的输出端还与第四层标准化模块的输入端连接，所述第四层标准化模块的输出端还与第五层标准化模块的输入端连接；所述编码器-解码器注意力模块的输入端还与编码器的第二层标准化模块的输出端连接。

应理解的，所述掩码多头注意力机制模块，是指：掩码多头注意力模块是在多头注意力机制模块加入了掩码操作。字幕是一个生成的过程，在t时间步，t之前是有输出结果的，t之后的时间步没有输出结果，所以对t之后的位置进行掩码操作。

应理解的，所述编码器-解码器注意力模块，是指：编码器-解码器注意力模块的计算方式与多注意力模块一样。不同的是，编码器-解码器注意力模块的3个输入向量中，查询由解码器中前一层输出的向量转化而来，键和值则是由编码的输出转化而来。

掩码多头注意力机制模块和编码器-解码器注意力模块的结构都是和多头注意力的结构完全一样。不同的地方是，它们的输入是不一样的。

掩码多头注意力机制模块是因为存在掩码操作得名。在生成一句话的时候是一个单词接一个单词的生成。举个例子，比如要生成的一句话有五个词，在生成第三个的时候只有前两个是有值的，第四和第五是没有值的。但是自注意力的计算需要第四和第五的值，所以就给他们值(并不是真正的值)，可以理解为把第四和第五遮掩住了，所以叫掩码。除此之外，它与多头注意力结构和计算过程完全一样。

编码器-解码器注意力模块，它和多头注意力的不同是输入的值不同，查询Q来自它上一层的输出，键和值来自编码器的输出。图7可以看出来。

应理解的，所述风格标志器，是指：风格标志器用于指示特定的风格。使用k+1维的独热向量表示特定的风格，然后输入到风格编码层得到风格标志。

进一步地，所述解码器的工作原理是：解码器将编码器的输出、前一时刻生成的单词以及风格标志作为输入，经过由多头注意力、标准化层、编码器-解码器注意力以及前馈神经网络组成的解码层，最终标准化层的输出输入到线性层并经过Softmax函数，得到概率分布。最后，模型通过查表的方式得到当前时刻的输出词汇。

示例性的，所述解码器，它的输入包括前一时刻生成的词汇、编码器的输出和风格标志。具体地，解码器首先整合前一时刻生成的词和风格标志，并附带位置编码(解决长距离依赖问题)。整合之后的向量输入到基于自注意力的多头注意力，注意力层计算的结果通过与解码器中同样的残差连接的方式输入到标准化层中。此后，结果再次输入到编码器-解码器注意力，该注意力计算中的查询来自上一步的结果，键和值都来自编码器的输出。此后，与编码器一样，经过标准化层和前馈神经网络等得到一个表示。最终的表示输入线性层和Softmax函数得到一个概率分布，然后根据概率分布在词表中查询词汇，生成当前时刻的单词。每一个时刻的单词最终组成一个句子。公式化地表示为如下：

p＝Softmax(w_pZ″_D+b_p)， (3)

其中，S_i表示第i个特定的风格信息。

进一步地，如图3所示，所述客观信息判别器，包括：卷积神经网络，所述卷积神经网络的输入端用于输入待生成字幕的图像，所述卷积神经网络的输出端用于输出第一特征图，将第一特征图嵌入字幕生成器生成的字幕后，得到第二特征图，将第二特征图经过两个分支的卷积处理和最大池化处理，分别得到第三特征图和第四特征图，将第三特征图和第四特征图均通过带有sigmoid函数的多层感知机处理，得到第一得分。

示例性的，客观信息判别器的任务是判别生成的字幕与原图像中客观信息的一致程度。它的输入主要有经过预处理的图像特征和字幕生成器生成的句子，因此主体结构选择的是卷积神经网络。首先，该方法通过连接操作将图像特征和句子的特征构建一个新的特征图，通过卷积操作获取新特征中的信息。值得注意的是，我们使用了过滤器大小不一的多通道卷积方式，这样可以从不同角度获取信息。此后，利用最大池化进一步提取特征信息，每个通道输出一个结果。接下来，此前得到的结果输入到带有Sigmoid函数的多层感知机中，最终得到一个衡量生成的字幕与原图像中客观信息的一致程度的分数。整个过程可以公式化地表示为如下：

f＝[f₁，f₂，…，f_T-l+2]、f_i＝ReLU(κ*Γ_i：i+l-1+b) (5)

S_F＝σ(W_F·F'+b_F)， (7)

其中，ReLU(.)是激活函数，⊙表示分段相乘操作，σ表示Sigmoid函数，F是最大池化后每个通道输出连接之后的结果。

进一步地，如图4所示，所述风格信息判别器，包括：串联的第一LSTM神经网络和第二LSTM神经网络；第一LSTM神经网络的输入端用于输入真实表述字幕，第一LSTM神经网络的输出端得到真实表述字幕的向量表示，将真实表述字幕的向量表示输入到第二LSTM神经网络中用于初始化第二LSTM中的初始时刻的隐状态h₀，第二LSTM神经网络还用于输入每一时刻的单词，最后，第二LSTM神经网络的输出端输出的数据输入到带有sigmoid函数的多层感知机处理，得到第二得分。

示例性的，风格信息判别器用于判断生成的句子与指定风格的紧密程度，它的输入是字幕生成器生成的句子和真实标注具有特定风格的句子，因此我们选择了长短时记忆网络作为主体，此后接入带有Sigmoid函数的多层感知机。首先编码真实标注句子获得向量表示，这个操作通过长短时记忆网络实现，最后时刻的隐状态表示句子向量Sen。具体地，句子向量在0时间步输入判别器长短时记忆网络中用于初始化隐状态。生成字幕在每一时刻输入单词，在最后时刻输入到带有Sigmoid函数的多层感知机中，得到衡量生成的句子与指定风格的紧密程度的分数。上述过程可以做如下公式表示：

Sen＝LSTM_enc(s)， (8)

s_s＝σ(W_s·h_t+b_s)， (10)

其中，T表示生成句子的长度，x_i表示t时刻输入的词向量，S_s是最终输出的得分。

作为一个或多个实施例，所述对多风格字幕生成模型的表达图像客观信息的能力进行训练；具体步骤包括：

将字幕生成器和客观信息判别器组成第一生成对抗网络框架；

构建第一训练集，所述第一训练集为已知图像表达字幕的图像；

第一训练集的图像输入到字幕生成器中，字幕生成器生成字幕；

将字幕生成的字幕与已知的图像表达字幕输入到客观信息判别器中进行真假判断，当客观信息判别器判断成功率等于设定阈值时，停止判断，得到训练好的字幕生成器。

示例性的，模型进行预训练的目的是使模型具有识别并表达图像客观信息的能力，这一阶段使用传统的数据集(MSCOCO，Flickr30K等)进行训练。在这一阶段，字幕生成器与客观信息判别器组成一个生成对抗网络框架进行训练。这一阶段的损失可以由以下公式进行计算：

作为一个或多个实施例，所述然后对多风格字幕生成模型的生成风格化字幕的能力进行训练；具体步骤包括：

将解码器和风格信息判别器组成第二生成对抗网络框架；

构建第二训练集，所述第二训练集为未配对的风格语料数据集；

将风格语料和风格语料对应的风格标签，均输入到解码器中，解码器生成风格语料；

将生成的风格语料与已知的风格语料均输入到风格信息判别器中进行真假判断，当风格信息判别器判断成功率等于设定阈值时，停止判断，得到训练好的解码器。

示例性的，训练中的微调阶段是为了是模型具有生成风格化字幕的能力。由于使用的是未配对的风格语料数据集(FlickrStyle10K)，字幕生成器被看作语言模型进行训练。这一部分利用融合了风格信息的Transformer结构中解码器部分和风格信息判别器部分组成一个生成对抗网络结构进行训练。公式表示为如下：

两个训练过程均是采标准的生成对抗网络的训练方式。

最后，在使用模型为一张随机的图片生成风格化字幕时，将经过两阶段训练的字幕生成器中的编码器保持不变，不再使用多判别器。该图片输入到字幕生成器中，模型会自动生成描述它的风格化字幕。

本申请可以为一张图像生成多风格的图像字幕用以表示图像。该方法采用对抗训练的方式，结构上分为字幕生成器和判别器。首先，提取的图像特征输入到字幕生成器的编码器中，经过自注意力以及标准化进一步编码图像特征。然后，该特征输入到解码器中，在这个阶段进一步融合风格因素，生成多风格的图像字幕。此外，该方法还利用多判别器模块进一步利用博弈的思想优化模型。本申请方法的训练过程分为两个阶段：预训练阶段和微调阶段。预训练阶段使用客观数据集学习，让模型能够生成与图像客观信息一致的字幕。微调阶段使用未配对的多风格语料文本，这一步让模型具有指定风格的能力。最终，本申请生成与图像客观内容一致又具有指定风格的字幕。

在结构上，两种方法结构上均采用端到端框架。编码端编码图像信息，解码端解码图像信息并生成图像字幕。此外，训练方式也大多分为两个阶段，第一阶段主要使模型具有描述图像客观内容的能力，第二阶段将模型按照语言模型进行训练来融合风格信息。

本申请以Transformer结构为基础融合风格因素，并采用对抗的训练方式，设计了一种基于生成对抗网络的风格Transformer用于解决多风格图像字幕技术中现存的问题。风格化图像字幕是字幕具有特定风格的写作方式，主要风格有积极、消极、幽默和浪漫。

从结构上介绍来说，本申请采用了深度学习网络。本申请在结构上分为两个部分：字幕生成器和判别器。字幕生成器以Transformer结构为基础，融合风格因素。字幕生成器的整体框架是基于编码器-解码器结构。编码器通过基于自注意力的多头注意力和层标准化等编码图像信息，同时加入了残差连接的方式更好地学习网络。解码器的结构与编码的结构类似，区别在于多了一层基于自注意力的编码器-解码器注意力。该方法在解码器的输入中额外添加了风格化信息，这是得模型能够学习到字幕中的风格因素。判别器用去判断生成字幕的真假，能够进一步优化字幕生成器。该方法的判别器是一个多判别器模块，有两个判别器组成：客观信息判别器和风格信息判别器。这两个判别器的侧重点不同，也具有不同的内在结构。首先，客观信息判别器以卷积神经网络为主体，后边接着带有Sigmoid函数的多层感知机。客观信息判别器的输入是提取后的图像特征和字幕生成器生成的字幕，对两者处理后构建一个新的向量。然后，卷积操作提取新向量的特征信息，进一步进行判别。直观地，客观判别输出一个得分来表示图像客观内容与生成字幕之间的一致程度。其次，风格信息判别器以长短时记忆网络为主体，后边同样街上一个带有Sigmoid函数的多层感知机。风格信息判别器的输入是字幕生成器生成的字幕和真是标注的字幕，对两者进行连接操作以构建一个新的特征图。然后输入到长短时记忆网络中，经过多层感知机和Sigmoid函数后，风格信息判别器输出一个分数。该分数可表示生成字幕与特定风格信息的紧密程度。

从训练方式上来说，本申请分成两个训练阶段：预训练阶段和微调阶段。预训练阶段将字幕生成器与客观信息判别器结合，形成一个整体框架。这一步的主要目的是使模型具有识别并描述图像客观信息的能力。在这个阶段，我们使用大型成对的客观数据集。微调阶段将字幕生成器看作是一个语言模型，仅使用它的解码器部分，然后与风格判别器模型构成一个整体框架。这一步的目的是让模型具有生成带有风格化信息字幕的能力。

本申请提供一种跨模态的图像风格化表示方法，该方法基于Transformer结构和生成对抗网络，提供一种生成多风格图像字幕生成的方法，即生成的字幕在与图像客观信息一致的同时保持特定的风格信息。

本申请以Transformer结构和生成对抗网络结构为基础进行构建，包括字幕生成器模块和判别器模块。字幕生成器以Transformer结构为基础，并融合风格信息构建。判别器模块是一个多判别器模块，包括客观信息判别器和风格信息判别器。客观信息判别器由卷积神经网络和带有Sigmoid函数的多层感知机构成；风格信息判别器由长短时记忆网络带有Sigmoid函数的多层感知机构成。

实施例二

本实施例提供了跨模态的图像多风格字幕生成系统；

跨模态的图像多风格字幕生成系统，包括：

获取模块，其被配置为：获取待生成字幕的图像；

此处需要说明的是，上述获取模块和生成模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.跨模态的图像多风格字幕生成方法，其特征是，包括：

获取待生成字幕的图像；

2.如权利要求1所述的方法，其特征是，所述对抗生成网络，包括：

依次连接的字幕生成器和判别器模块；

所述字幕生成器，包括：依次连接的编码器和解码器；

3.如权利要求2所述的方法，其特征是，所述编码器，包括：若干个串联的编码层，每个编码层均包括依次连接的多头注意力机制模块、第一层标准化模块、前馈神经网络和第二层标准化模块；其中，多头注意力机制模块的输入端还与第一层标准化模块的输入端连接，第一层标准化模块的输出端还与第二层标准化模块的输入端连接；

或者，

所述编码器的工作原理是：编码器将经过卷积神经网络处理的图像特征作为输入，并经过由多头注意力模块、标准化层、前向神经网络组成的多个编码层进行处理，得到最终的图像表示。

4.如权利要求2所述的方法，其特征是，所述解码器，包括依次串联的输入层、加法器、掩码多头注意力机制模块、第三层标准化模块、编码器-解码器注意力模块、第四层标准化模块、第二前馈神经网络模块、第五层标准化模块、Softmax层和输出层；

所述加法器的输入端还与风格标志器连接，所述加法器的输出端还与第三层标准化模块连接，所述第三层标准化模块的输出端还与第四层标准化模块的输入端连接，所述第四层标准化模块的输出端还与第五层标准化模块的输入端连接；所述编码器-解码器注意力模块的输入端还与编码器的第二层标准化模块的输出端连接；

或者，

所述解码器的工作原理是：解码器将编码器的输出、前一时刻生成的单词以及风格标志作为输入，经过由多头注意力、标准化层、编码器-解码器注意力以及前馈神经网络组成的解码层，最终标准化层的输出输入到线性层并经过Softmax函数，得到概率分布；最后，模型通过查表的方式得到当前时刻的输出词汇。

5.如权利要求2所述的方法，其特征是，所述客观信息判别器，包括：卷积神经网络，所述卷积神经网络的输入端用于输入待生成字幕的图像，所述卷积神经网络的输出端用于输出第一特征图，将第一特征图嵌入字幕生成器生成的字幕后，得到第二特征图，将第二特征图经过两个分支的卷积处理和最大池化处理，分别得到第三特征图和第四特征图，将第三特征图和第四特征图均通过带有sigmoid函数的多层感知机处理，得到第一得分；

或者，

所述风格信息判别器，包括：串联的第一LSTM神经网络和第二LSTM神经网络；第一LSTM神经网络的输入端用于输入真实表述字幕，第一LSTM神经网络的输出端得到真实表述字幕的向量表示，将真实表述字幕的向量表示输入到第二LSTM神经网络中用于初始化第二LSTM中的初始时刻的隐状态h₀，第二LSTM神经网络还用于输入每一时刻的单词，最后，第二LSTM神经网络的输出端输出的数据输入到带有sigmoid函数的多层感知机处理，得到第二得分。

6.如权利要求1所述的方法，其特征是，所述对多风格字幕生成模型的表达图像客观信息的能力进行训练；具体步骤包括：

7.如权利要求1所述的方法，其特征是，对多风格字幕生成模型的生成风格化字幕的能力进行训练；具体步骤包括：

将解码器和风格信息判别器组成第二生成对抗网络框架；

8.跨模态的图像多风格字幕生成系统，其特征是，包括：

获取模块，其被配置为：获取待生成字幕的图像；

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。