CN112560454A

CN112560454A - 双语图像字幕生成方法、系统、储存介质及计算机设备

Info

Publication number: CN112560454A
Application number: CN202011530329.0A
Authority: CN
Inventors: 王耀葛; 原玲; 张壮裕; 庞贵杰; 文瑞森
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-26
Anticipated expiration: 2040-12-22
Also published as: CN112560454B

Abstract

本发明针对现有技术不能实现双语图像字幕生成的技术问题，提出了一种双语图像字幕生成方法、系统、储存介质及计算机设备，通过对残差网络模型和循环神经网络模型进行训练构建出一个双语图像字幕联合生成模型，实现按交替的方式生成双语图像字幕，在字幕生成过程中充分利用了两种语言字幕之间的互译特性，使得在预测某种语言的下一个单词时，可以利用该语言字幕的历史信息，还可以利用另一门语言字幕的历史信息，充分挖掘图像的隐藏信息得到准确的双语字幕输出结果。

Description

双语图像字幕生成方法、系统、储存介质及计算机设备

技术领域

本发明涉及计算机视觉以及自然语言处理的技术领域，具体涉及深度神经网络在图像字幕任务上的应用，更具体地，涉及一种双语图像字幕生成方法、系统、储存介质及计算机设备。

背景技术

图像字幕(Image Caption)的任务是对于给定的一幅图像，让机器自动地生成一句通顺且符合图像内容的字幕或者说描述图像内容的标注，它本质上是一个从视觉到语言(Visual-to-language)的任务。

公开时间为2018-04-13，公开号为CN107909115A的中国申请专利：一种图像中文字幕生成方法，公开了一种试图将每个单词的语意信息同图像的局部特征联系起来并利用带有注意力机制的神经网络模型进行建模的方案。但是，这种方案及其它现有技术都只用于生成单一语言的字幕，例如上述专利在运用不同的训练集以及测试集或者待处理图片，即可单独生成中文字幕也可以单独生成英文字幕，但无法同时生成两种字幕。虽然可以通过分别为每种语言生成字幕时采用单语图像字幕生成模型，或者直接将一种语言生成字幕的输出结果翻译为另一种语言，但上述做法往往忽略了两种语言字幕之间存在着互译的特性，不能有效利用出深层的隐藏语义。

发明内容

针对现有技术的局限，本发明提出一种双语图像字幕生成方法、系统、储存介质及计算机设备，本发明采用的技术方案是：

一种双语图像字幕生成方法，包括以下步骤：

获取双语图像字幕数据集，所述双语图像字幕数据集包括图像集以及双语字幕数据集；根据所述双语字幕数据集构建双语词典；

根据所述图像集对残差网络模型进行特征提取训练，得到编码器以及所述图像集的图像特征；

根据所述图像集的图像特征以及所述双语词典对两个循环神经网络模型进行基于词嵌入的双语图像字幕交替生成训练，得到第一语种解码器以及第二语种解码器；

基于编码-解码模型框架，根据所述编码器、第一语种解码器以及第二语种解码器构建双语图像字幕联合生成模型；

获取待处理图像，将所述待处理图像输入到所述双语图像字幕联合生成模型中得到对应的双语图像字幕。

相较于现有技术，本发明通过对残差网络模型和循环神经网络模型进行训练构建出一个双语图像字幕联合生成模型，实现按交替的方式生成双语图像字幕，在字幕生成过程中充分利用了两种语言字幕之间的互译特性，使得在预测某种语言的下一个单词时，可以利用该语言字幕的历史信息，还可以利用另一门语言字幕的历史信息，充分挖掘图像的隐藏信息得到准确的双语字幕输出结果。

作为一种优选方案，所述循环神经网络模型采用自上而下的框架，所述循环神经网络模型各包括两层长短期记忆网络以及设于所述两层长短期记忆网络之间的视觉注意力单元；其中，第一层为自上而下注意力长短期记忆网络，第二层为语言长短期记忆网络。

进一步的，对于第一种语言E以及第二种语言C，所述双语图像字幕交替生成包括按以下公式描述的互译过程：

其中，g表示交替比例，sigmoid(·)表示门控机制，W_E、W_C分别表示第一种语言E以及第二种语言C对应的循环神经网络模型的模型参数，

表示词嵌入矩阵对应位置的元素相乘，

分别表示t时刻第一种语言E以及第二种语言C的单词输入；

分别表示t时刻经过等式右侧后第一种语言E以及第二种语言C的最终单词输入。

作为一种优选方案，根据所述图像集的图像特征以及所述双语词典对两个循环神经网络模型进行基于词嵌入的双语图像字幕交替生成训练的训练过程中通过最大化条件概率P(y_t|I,y₀,y₁,…,y_t-1；θ)来对所述循环神经网络模型中的网络参数进行更新；其中，I表示所述图像集，y_t表示所述图像集对应的正确描述序列的单词，θ表示所述循环神经网络模型中的网络参数。

作为一种优选方案，所述残差网络为加入了注意力机制函数的ResNet-152深度卷积神经网络；所述注意力机制函数包括为空间注意力机制函数以及通道级注意力机制函数；在根据所述图像集对残差网络模型进行特征提取训练，得到编码器以及所述图像集的图像特征前所述ResNet-152深度卷积神经网络先经过了ImageNet数据集的预训练。

作为一种优选方案，在根据所述图像集对残差网络模型进行特征提取训练，得到编码器以及所述图像集的图像特征的过程中，所述ResNet-152深度卷积神经网络的各卷积层按以下公式进行网络参数的更新：

X^l＝CNN(x^l-1)；

V^l＝f(X^l,α,β)；

其中，X^l为上一个卷积层的输出，x表示图像，l表示卷积层，

表示通道级注意力机制函数，h_t-1表示隐藏单元，β表示通道级注意力权重，

表示空间注意力机制函数，α表示空间注意力权重，f_C通过一个线性函数将β与V^l融合；V^l表示调整过的特征。

作为一种优选方案，根据所述图像集对残差网络模型进行特征提取训练以及根据所述图像集的图像特征以及所述双语词典对两个循环神经网络模型进行基于词嵌入的双语图像字幕交替生成训练在训练过程中采用自适应动量梯度下降算法进行。

本发明还提供以下内容：

一种双语图像字幕生成系统，包括双语图像字幕数据集获取处理模块、特征提取训练模块、双语图像字幕交替生成训练模块、双语图像字幕联合生成模型构建模块以及待处理图像获取处理模块；所述特征提取训练模块连接所述双语图像字幕数据集获取处理模块；所述双语图像字幕交替生成训练模块连接所述双语图像字幕数据集获取处理模块以及特征提取训练模块；所述双语图像字幕联合生成模型构建模块连接所述特征提取训练模块以及双语图像字幕交替生成训练模块；所述待处理图像获取处理模块连接所述双语图像字幕联合生成模型构建模块；其中：

所述双语图像字幕数据集获取处理模块用于获取双语图像字幕数据集，所述双语图像字幕数据集包括图像集以及双语字幕数据集；根据所述双语字幕数据集构建双语词典；

所述特征提取训练模块用于根据所述图像集对残差网络模型进行特征提取训练，得到编码器以及所述图像集的图像特征；

所述双语图像字幕交替生成训练模块用于根据所述图像集的图像特征以及所述双语词典对两个循环神经网络模型进行基于词嵌入的双语图像字幕交替生成训练，得到第一语种解码器以及第二语种解码器；

所述双语图像字幕联合生成模型构建模块用于基于编码-解码模型框架，根据所述编码器、第一语种解码器以及第二语种解码器构建双语图像字幕联合生成模型；

所述待处理图像获取处理模块用于获取待处理图像，将所述待处理图像输入到所述双语图像字幕联合生成模型中得到对应的双语图像字幕。

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述的双语图像字幕生成方法的步骤。

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述双语图像字幕生成方法的步骤。

附图说明

图1为本发明实施例提供的双语图像字幕生成方法的步骤流程图；

图2为本发明实施例提供的双语图像字幕数据集的第一个示例；

图3为本发明实施例提供的双语图像字幕数据集的第二个示例；

图4为本发明实施例提供的双语图像字幕联合生成模型框架示意图；

图5为本发明实施例所使用的双层LSTM网络示意图；

图6为本发明实施例提供的编码器示意图；

图7为本发明实施例提供的双语图像字幕生成系统示意图；

附图标记说明：1、双语图像字幕数据集获取处理模块；2、特征提取训练模块；3、双语图像字幕交替生成训练模块；4、双语图像字幕联合生成模型构建模块；5、待处理图像获取处理模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。

为了解决现有技术的局限性，本实施例提供了一种技术方案，下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

请参考图1，一种双语图像字幕生成方法，包括以下步骤：

S01，获取双语图像字幕数据集，所述双语图像字幕数据集包括图像集以及双语字幕数据集；根据所述双语字幕数据集构建双语词典；

S02，根据所述图像集对残差网络模型进行特征提取训练，得到编码器以及所述图像集的图像特征；

S03，根据所述图像集的图像特征以及所述双语词典对两个循环神经网络模型进行基于词嵌入的双语图像字幕交替生成训练，得到第一语种解码器以及第二语种解码器；

S04，基于编码-解码模型框架，根据所述编码器、第一语种解码器以及第二语种解码器构建双语图像字幕联合生成模型；

S05，获取待处理图像，将所述待处理图像输入到所述双语图像字幕联合生成模型中得到对应的双语图像字幕。

具体的，在本实施例中处理的语种为英文以及中文，同时以E和C为右下标区别英文生成和中文生成的符号表示；其它语种组合在实施过程中与本实施例无实质上的区别，因此本实施例中不再对其它语种的情况进行罗列说明；所述双语图像字幕数据集可通过收集尽可能多的图像，并通过机器翻译和手工修正对每一幅图像加上合适的中英文字幕实现；更具体的，可结合选用标准数据集Flickr8k及其中文版Flickr8k CN。上述数据集一共大约有8000多幅图像，其中大多展示的是人类和动物在参与到某项活动中的情景，如图2、图3所示。原Flickr8k数据集中每幅图像对应的标注为5句英文，为了实施本发明的双语图像字幕生成，本实施例给每幅图像添加了5句与英文字幕对应的中文字幕，如图2、图3所示，从而构成数据集。

根据所述双语字幕数据集构建双语词典，对于所述双语字幕数据集的中文字幕部分可以按语义对其进行分词得到中文部分的词典，分词过程可以采用人工分词法，也可以采用分词软件进行分词，例如原句是：“一匹马在草原上奔跑”，分词结果是：“一匹/马/在/草原/上/奔跑”。对所有中文字幕分词后，统计所有出现过的词汇，并按照词汇出现的频率进行排序，本实施例取前7000个词汇以及未知词汇标记符<UNK>作为词典。这样针对每一句话都可以用一个序号向量表示，该向量在其维度空间中，就代表了对应的中文字幕。对于所述双语字幕数据集的英文字幕部分，可以从中抽取已知单词中出现次数大于5次的单词和未知单词标记符<UNK>，构成一个容量为7579的词典，每个单词编号，构造嵌入词典。

对于双语图像字幕交替生成过程，在t时刻，先会生成英文词汇

接着生成中文词汇

这样，生成英文单词的历史字幕信息包含

和

生成中文单词的历史字幕信息包含

和

在以生成的词汇生成当前语言序列时，可以通过门控机制决定使用到另一种语言已经得到的部分单词信息的多少，在生成英文句子时使用部分已经得到的中文单词信息，生成中文句子时使用部分已经得到的英文单词信息，使生成的字幕同时包含了两种语言的单词信息。

编码-解码(Encoder-Decoder)模型架构是深度学习中的一种模型框架，步骤S04得到的所述双语图像字幕联合生成模型是包括两个对应不同语种的解码器以及两者所共享的一个编码器；可参阅图4，待处理图像输入到所述双语图像字幕联合生成模型后，先经过所述编码器提取图像特征，由所述第一语种解码器以及第二语种解码器分别对编码器提取到的图像特征进行处理，并在生成各自语种字幕的过程中相互交替生成词汇的历史信息；所述第一语种解码器以及第二语种解码器输出的序列经过一个softmax单元进行转化后最终将得到图像的双语字幕。所述双语图像字幕联合生成模型一种判别模型，即在给定某个图片I的条件下，使其取得正确描述序列y的概率最大。该过程可以形式化的表达为：

其中，θ是该模型待学习的参数；第一个求和是针对训练集中所有的图片I和其正确的描述序列y；第二个求和是对于正确描述序列y中的每个单词y_t。根据贝叶斯公式，其中第二个求和结果代表着在给定图片I的条件下，得到整个描述序列y的对数联合概率值。

作为一种优选实施例，请参阅图5，所述循环神经网络模型采用自上而下的框架，所述循环神经网络模型各包括两层长短期记忆网络以及设于所述两层长短期记忆网络之间的视觉注意力单元；其中，第一层为自上而下注意力长短期记忆网络，第二层为语言长短期记忆网络。

具体的，在训练过程中，由于梯度爆炸和消失等现象导致其末端的序列单元权重更新较快，而前端的序列单元权重往往得不到有效的更新，这样使得RNN网络在处理一些较长序列时效果很差。长短期记忆网络(Long Short-Term Memory，LSTM)网络通过门结构来管理，包括遗忘门、输出门和输入门，解决了由于时间序列过长而导致的梯度消失与梯度爆炸等问题，并且在处理长期依赖的问题上获得了较好的效果。在每一个时刻t，LSTM网络的细胞状C_t以及隐层输出h_t可以通过下列式子求出：

i_t＝σ(W_iXX_t+W_ihh_t-1+b_i)；

f_t＝σ(W_fXX_t+W_fhh_t-1+b_f)；

O_t＝σ(W_oXX_t+W_ohh_t-1+b_o)；

h_t＝O_t⊙tanh(C_t)；

其中,X_t为第t时刻的输入，h_t-1为上一时刻隐藏层单元的输出，σ(X)＝1/(1+e^-X)是sigmoid函数，

是双曲正切函数，W_iX、W_fX、W_oX、W_CX、W_ih、W_fh、W_oh、W_Ch与b_i、b_f、b_o、b_C为该模型待学习的参数，他们不随时刻t变化而变化，符号⊙代表矩阵对应元素相乘。

在本实施例中，第一层为自上而下注意力长短期记忆网络，第二层为语言长短期记忆网络，在下面的方程中用上标表示第一层或者第二层。

t时刻的自上而下注意力长短期记忆网络的输入向量

包括：①、语言长短期记忆网络在t-1时刻的隐藏状态输出；②、经过平均池化后的图像特征

③、t时刻的单词嵌入W_e∏_t，即：

其中，W_e∈R^E×|∑|是词嵌入矩阵，E表示词向量大小，|∑|是词典的大小；∏_t为t时刻输入单词编码成的one-h向量。这些输入分别为自上而下注意力长短期记忆网络提供了关于语言长短期记忆网络的状态、图像的整体内容和到目前为止生成的部分字幕输出的最大上下文，自上而下注意力长短期记忆网络的隐藏单元的输出按以下公式进行：

其中，

为t时刻自上而下注意力长短期记忆网络的输入，

为上t-1时刻自上而下注意力长短期记忆网络的隐藏层单元的输出，σ(X)＝1/(1+e^-X)是sigmoid函数，

是双曲正切函数，

与

为自上而下注意力长短期记忆网络待学习的参数，他们不随时刻t变化而变化，符号⊙代表矩阵对应元素相乘。

对于自上而下注意力长短期记忆网络的输出

在t时刻，可以对N个图像视觉特征{v_i,…,v_N}的每个特征v_i都生成一个标准化的注意力权重α_i,t，即图5中的视觉注意力单元Attend，如下所示：

α_t＝softmax(a_t)；

其中，W_va∈R^H×D,W_ha∈R^H×H,ω_a∈R^H是模型参数，D表示图像特征向量大小，H是隐藏状态维度大小。这个阶段需要得到的是所有图像特征的权重和

即：

t时刻语言长短期记忆网络的输入

包括上述

以及自上而下注意力长短期记忆网络的输出向量

即：

语言长短期记忆网络的隐藏单元的输出按以下公式进行：

其中，

为第t时刻语言长短期记忆网络的输入，

为t-1时刻语言长短期记忆网络隐藏层单元的输出，σ(X)＝1/(1+e^-X)是sigmoid函数，

是双曲正切函数，

与

为语言长短期记忆网络待学习的参数，他们不随时刻t变化而变化，符号⊙代表矩阵对应元素相乘。

隐藏单元

更新后将反馈给softmax单元，生成词汇表所有单词的概率分布。然后将候选词y_t的概率分布表示为p_t：

其中，W_p∈R^|∑|×H，b_p∈R^|∑|分别表示要学习的权重和偏执项。

我们框架的目标函数，即正确字幕的对数似然最大化：

θ^*＝argmax_θ∑_(I,y)logP(Y|I；θ)；

其中θ是模型的参数，Y是给定图像I生成的句子。利用链式法则，可以对生成的序列进行联合概率分布分解:

其中P(y_t|I,y₀,y₁,…,y_t-1)是下一个单词y_t的概率，因此，作为一种优选实施例，所述步骤S03的训练过程中通过最大化条件概率P(y_t|I,y₀,y₁,…,y_t-1；θ)来对所述循环神经网络模型中的网络参数进行更新；其中，I表示所述图像集，y_t表示所述图像集对应的正确描述序列的单词，θ表示所述循环神经网络模型中的网络参数。根据，

可以对每个单词的条件概率建模为：

用y_t＝W_e∏_t表示自上而下注意力长短期记忆网络在t时刻的单词输入，那么英文和中文的词嵌入经过y_t＝W_e∏_t分别得到

和

所述双语图像字幕交替生成包括按以下公式描述的互译过程：

其中，g表示交替比例，sigmoid(·)表示门控机制，W_E、W_C分别表示英文以及中文对应的循环神经网络模型的模型参数，W_E∈R^H，W_C∈R^H，

表示词嵌入矩阵对应位置的元素相乘，

分别表示t时刻英文以及中文的单词输入；

分别表示t时刻经过等式右侧后英文以及中文的最终单词输入。

那么，自上而下注意力长短期记忆网络的英文输入就可以表示为

中文输入表示为

作为一种优选实施例，所述残差网络为加入了注意力机制函数的ResNet-152深度卷积神经网络；请参阅图6，所述注意力机制函数包括为空间注意力机制函数以及通道级注意力机制函数；在步骤S02执行前所述ResNet-152深度卷积神经网络先经过了ImageNet数据集的预训练。

具体的，ResNet-152深度卷积神经网络为一个152层的神经网络，其中前151层是卷积层，最后1层为全连接层，其中每个卷积层又包括卷积、激活、池化等操作。卷积核数目分别是64*7、128*16、256*75、512*14、1024*36、2048*3，其初始化权值采用均值为0、方差为

的高斯分布初始化，其中input_size代表该层输入数据的维度。ResNet-152的最后一层是SOFTMAX分类器，用来计算每幅训练图像对应每个类别的概率。每一层的激活函数均选用ReLU函数，为了避免过拟合，可采用Dropout对数据进行处理。

本实施例通过在初始阶段CNN加入是采用空间注意力和通道级注意力相结合的的注意力机制，使获取图像视觉特征的过程更符合注意力机制。

进一步的，在所述步骤S02执行的过程中，所述ResNet-152深度卷积神经网络的各卷积层按以下公式进行网络参数的更新：

X^l＝CNN(x^l-1)；

V^l＝f(X^l,α,β)；

作为一种优选实施例，所述步骤S02以及S03在训练过程中采用自适应动量梯度下降算法进行。

具体的，在步骤S02以及S03中，自适应动量梯度下降算法的初始学习率取0.001,β₁取0.9,β₂取0.999,∈取e^-8。训练时，待模型的损失函数变化不大时停止训练，并且在以后步骤中保持模型参数不变。最后我们利用模型的全连接层的2048维输出当作图像经过卷积神经网络提取到的图像视觉特征，用于后续双语字幕生成。在一种优选实施例中，每次更新的学习速率为0.001，每次随机选取64幅图像。

实施例2

一种双语图像字幕生成系统，请参阅图7，包括双语图像字幕数据集获取处理模块1、特征提取训练模块2、双语图像字幕交替生成训练模块3、双语图像字幕联合生成模型构建模块4以及待处理图像获取处理模块5；所述特征提取训练模块2连接所述双语图像字幕数据集获取处理模块1；所述双语图像字幕交替生成训练模块3连接所述双语图像字幕数据集获取处理模块1以及特征提取训练模块2；所述双语图像字幕联合生成模型构建模块4连接所述特征提取训练模块2以及双语图像字幕交替生成训练模块3；所述待处理图像获取处理模块5连接所述双语图像字幕联合生成模型构建模块4；其中：

所述双语图像字幕数据集获取处理模块1用于获取双语图像字幕数据集，所述双语图像字幕数据集包括图像集以及双语字幕数据集；根据所述双语字幕数据集构建双语词典；

所述特征提取训练模块2用于根据所述图像集对残差网络模型进行特征提取训练，得到编码器以及所述图像集的图像特征；

所述双语图像字幕交替生成训练模块3用于根据所述图像集的图像特征以及所述双语词典对两个循环神经网络模型进行基于词嵌入的双语图像字幕交替生成训练，得到第一语种解码器以及第二语种解码器；

所述双语图像字幕联合生成模型构建模块4用于基于编码-解码模型框架，根据所述编码器、第一语种解码器以及第二语种解码器构建双语图像字幕联合生成模型；

所述待处理图像获取处理模块5用于获取待处理图像，将所述待处理图像输入到所述双语图像字幕联合生成模型中得到对应的双语图像字幕。

实施例3

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现实施例1中的双语图像字幕生成方法的步骤。

实施例4

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现实施例1中的双语图像字幕生成方法的步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种双语图像字幕生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的双语图像字幕生成方法，其特征在于，所述循环神经网络模型采用自上而下的框架，所述循环神经网络模型各包括两层长短期记忆网络以及设于所述两层长短期记忆网络之间的视觉注意力单元；其中，第一层为自上而下注意力长短期记忆网络，第二层为语言长短期记忆网络。

3.根据权利要求2所述的双语图像字幕生成方法，其特征在于，对于第一种语言E以及第二种语言C，所述双语图像字幕交替生成包括按以下公式描述的互译过程：

表示词嵌入矩阵对应位置的元素相乘，

分别表示t时刻第一种语言E以及第二种语言C的单词输入；

4.根据权利要求1所述的双语图像字幕生成方法，其特征在于，所述步骤S03的训练过程中通过最大化条件概率P(y_t|I,y₀,y₁,…,y_t-1；θ)来对所述循环神经网络模型中的网络参数进行更新；其中，I表示所述图像集，y_t表示所述图像集对应的正确描述序列的单词，θ表示所述循环神经网络模型中的网络参数。

5.根据权利要求1所述的双语图像字幕生成方法，其特征在于，所述残差网络为加入了注意力机制函数的ResNet-152深度卷积神经网络；所述注意力机制函数包括为空间注意力机制函数以及通道级注意力机制函数；在步骤S02执行前所述ResNet-152深度卷积神经网络先经过了ImageNet数据集的预训练。

6.根据权利要求5所述的双语图像字幕生成方法，其特征在于，在所述步骤S02执行的过程中，所述ResNet-152深度卷积神经网络的各卷积层按以下公式进行网络参数的更新：

X^l＝CNN(x^l-1)；

V^l＝f(X^l,α,β)；

7.根据权利要求1至6任一项所述的双语图像字幕生成方法，其特征在于，所述步骤S02以及S03在训练过程中采用自适应动量梯度下降算法进行。

8.一种双语图像字幕生成系统，其特征在于，包括双语图像字幕数据集获取处理模块(1)、特征提取训练模块(2)、双语图像字幕交替生成训练模块(3)、双语图像字幕联合生成模型构建模块(4)以及待处理图像获取处理模块(5)；所述特征提取训练模块(2)连接所述双语图像字幕数据集获取处理模块(1)；所述双语图像字幕交替生成训练模块(3)连接所述双语图像字幕数据集获取处理模块(1)以及特征提取训练模块(2)；所述双语图像字幕联合生成模型构建模块(4)连接所述特征提取训练模块(2)以及双语图像字幕交替生成训练模块(3)；所述待处理图像获取处理模块(5)连接所述双语图像字幕联合生成模型构建模块(4)；其中：

所述双语图像字幕数据集获取处理模块(1)用于获取双语图像字幕数据集，所述双语图像字幕数据集包括图像集以及双语字幕数据集；根据所述双语字幕数据集构建双语词典；

所述特征提取训练模块(2)用于根据所述图像集对残差网络模型进行特征提取训练，得到编码器以及所述图像集的图像特征；

所述双语图像字幕交替生成训练模块(3)用于根据所述图像集的图像特征以及所述双语词典对两个循环神经网络模型进行基于词嵌入的双语图像字幕交替生成训练，得到第一语种解码器以及第二语种解码器；

所述双语图像字幕联合生成模型构建模块(4)用于基于编码-解码模型框架，根据所述编码器、第一语种解码器以及第二语种解码器构建双语图像字幕联合生成模型；

所述待处理图像获取处理模块(5)用于获取待处理图像，将所述待处理图像输入到所述双语图像字幕联合生成模型中得到对应的双语图像字幕。

9.一种储存介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的双语图像字幕生成方法的步骤。

10.一种计算机设备，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的双语图像字幕生成方法的步骤。