CN107480144A

CN107480144A - 具备跨语言学习能力的图像自然语言描述生成方法和装置

Info

Publication number: CN107480144A
Application number: CN201710657104.3A
Authority: CN
Inventors: 李锡荣; 蓝玮毓; 董建锋
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2017-12-15
Anticipated expiration: 2037-08-03
Also published as: CN107480144B

Abstract

本发明提供一种具备跨语言学习能力的图像自然语言描述生成方法和装置，该方法，包括：将英文描述句子通过机器翻译为目标语言描述句子；通过随机采样选取部分目标语言描述句子构成训练样本集；利用通顺样本集和不通顺样本集训练句子通顺度模型；通过句子通顺度模型对候选数据集中的目标语言描述句子进行通顺度评估，根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略；根据策略训练图像描述句子生成模型，得到训练之后的图像描述句子生成模型。实现依据流畅度评估结果引导训练生成目标语言的图像句子生成模型，降低了不流畅目标语言描述句子对训练过程的影响，提高了目标语言的图像句子生成模型的准确度。

Description

具备跨语言学习能力的图像自然语言描述生成方法和装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种具备跨语言学习能力的图像自然语言描述生成方法和装置。

背景技术

看图造句(Image captioning)是指给定一张图片，计算机自动产生一个能够描述对应图片主要视觉内容的自然语句。该自然语句用于描述对应图片中主要物体在特定场景中的特定行为。图像的描述句子相比传统的图像描述标签可以包含更多的语义信息，有助于对图像数据进行更好的管理。

但是，目前大型的图像集的描述句子一般采用英语来描述，当涉及到跨语言图像描述时，需要采用人工标注的方式为目标语言采集相应语种的训练数据，或者通过翻译机器将英文描述句子翻译为目标语言描述句子，这些方法的运行成本高，图像语言描述的效率低，可读性差。

发明内容

本发明提供一种具备跨语言学习能力的图像自然语言描述生成方法和装置，以实现依据流畅度评估结果引导训练生成目标语言的图像句子生成模型，降低了不流畅目标语言描述句子对训练过程的影响，提高了目标语言的图像句子生成模型的准确度。

第一方面，本发明实施例提供一种具备跨语言学习能力的图像自然语言描述生成方法，包括：

获取图像集对应的英文描述句子；

将所述英文描述句子通过机器翻译为目标语言描述句子，其中，机器翻译产生的所有目标语言描述句子构成目标语言的候选数据集；

从所述候选数据集中通过随机采样选取部分目标语言描述句子，所述部分目标语言描述句子构成训练样本集；

根据所述目标语言的语法和使用习惯，通过人工标注方式，将所述训练样本集分为通顺样本集和不通顺样本集；

利用所述通顺样本集和所述不通顺样本集训练句子通顺度模型，所述句子通顺度模型用于评估所述候选数据集中每个目标语言描述句子的通顺度；

通过所述句子通顺度模型对所述候选数据集中的目标语言描述句子进行通顺度评估，得到每个目标语言描述句子的通顺度概率；

根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略；

根据所述策略训练所述图像描述句子生成模型，得到训练之后的图像描述句子生成模型；其中，目标语言描述句子的通顺度概率越高则在训练过程中对应的权重越大。

可选地，所述分别利用所述通顺样本集和所述不通顺样本集训练句子通顺度模型，包括：

利用所述通顺样本集和所述不通顺样本集训练至少一个长短期记忆网络LSTM分类器；其中：

所述LSTM分类器用于顺次接收所述目标语言描述句子的词序列中的词或者词性标签序列中的标签，并输出所述目标语言描述句子的通顺度概率；和/或顺次接收所述英文语言描述句子的词序列中的词或者词性标签序列中的标签，并输出所述英文语言描述句子的通顺度概率。

可选地，所述利用所述通顺样本集和所述不通顺样本集训练至少一个长短期记忆网络LSTM分类器，包括：

将图像对应的英文描述句子记为S_e，机器翻译得到的相应目标语言描述句子记为S_c；将所述目标语言描述句子S_c划分为n个词序列，记为w₁，w₂，…，w_n；

将w₁，w₂，…，w_n顺次输入LSTM分类器中，由所述LSTM分类器输出所述目标语言描述句子的通顺度概率；

令

Θ＝[W_e,W,b,φ]

式中：f(S_c)表示LSTM分类器输出的目标语言描述句子的通顺度概率，表示LSTM分类器输出的目标语言描述句子不通顺的概率，soft max表示将LSTM分类器的原始输出转化为概率输出的回归函数，W表示仿射变换矩阵，h(S_c)表示LSTM分类器的隐向量，b表示仿射变换的偏移量，Θ表示LSTM分类器中需要在训练过程中进行优化的所有参数，W_e表示词嵌入涉及的仿射变换矩阵，φ表示LSTM分类器内部仿射变换参数；

通过最小化交叉熵来训练LSTM分类器，训练公式如下：

式中：y表示句子的通顺度，y＝1为通顺，y＝0为不通顺，D表示训练样本集的集合。

可选地，所述通顺样本集和所述不通顺样本集训练至少一个长短期记忆网络LSTM分类器；包括：

分别根据所述目标语言描述句子的词序列、所述目标语言描述句子的词性序列、所述英文语言描述句子的词序列、所述英文语言描述句子的词性序列训练得到第一LSTM分类器、第二LSTM分类器、第三LSTM分类器、第四LSTM分类器；

通过所述第一LSTM分类器、第二LSTM分类器、第三LSTM分类器、第四LSTM分类器输出的通顺度概率的均值来评估所述目标语言描述句子的通顺度概率，评估公式如下：

式中：f(S_c)表示第一LSTM分类器输出的通顺度概率，f(S_c,pos)表示第二LSTM分类器输出的通顺度概率，f(S_e)表示第三LSTM分类器输出的通顺度概率，f(S_e,pos)表示第四LSTM分类器输出的通顺度概率，←表示将四个分类器输出的通顺度概率的均值赋予f(S_c)作为最终的通顺度概率估计值。

可选地，所述根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略，包括：

以下任一种策略：

策略1：利用所述句子通顺度模型对训练样本集中的目标语言描述句子进行通顺度评估，得到所述训练样本集中的所有目标语言描述句子的通顺度概率，将不通顺的目标语言描述句子剔除出训练样本集，得到筛选训练样本集，利用所述筛选训练样本集对所述图像描述句子生成模型进行训练；

策略2：利用所述句子通顺度模型对训练样本集中的目标语言描述句子进行通顺度评估，得到所述训练样本集中的所有目标语言描述句子的通顺度概率，将通顺度概率小于第一预设阈值的目标语言描述句子剔除出训练样本集，得到筛选训练样本集，利用所述筛选训练样本集对所述图像描述句子生成模型进行训练；

策略3：利用所述句子通顺度模型对训练样本集中的目标语言描述句子进行通顺度评估，得到所述训练样本集中的所有目标语言描述句子的通顺度概率，根据所述通顺度概率的大小引入该目标语言描述句子的权重值；当通顺度概率小于等于第二预设阈值时，令权重值为该目标语言描述句子的通顺度概率，当通顺度概率大于第二预设阈值时，令权重值为1；通过损失函数优化所述图像描述句子生成模型的参数，并在所述损失函数中引入权重值；其中引入权重值后的损失函数如下：

式中：bloss_weighted表示损失函数，μ_i表示训练样本集中第i个目标语言描述句子的权重值；log p(S_i|I_i；θ)表示表示训练样本集中第i个图像I_i输出目标语言描述句子S_i的通顺度概率的对数；θ表示图像描述句子生成模型的优化参数；m表示样本数量；f(S_c)表示LSTM分类器输出的目标语言描述句子的通顺度概率；其中，当f(S_c)>u时，令μ_i＝1，否则，令μ_i＝f(S_c)，u为大于0小于1的实数。

可选地，还包括：用训练之后的图像描述句子生成模型生成与输入图像对应的目标语言描述句子。

可选地，所述用训练之后的图像描述句子生成模型生成与输入图像对应的目标语言描述句子，包括：

用深度卷积神经网络提取给定的图像I的视觉特征；

将所述视觉特征输入到图像描述句子生成模型中；

根据优化后的参数θ得到目标语言描述句子的通顺度概率，其中目标语言描述句子的通顺度概率的对数的计算公式如下：

式中：log p(S_i|I_i；θ)表示表示训练样本集中第i个图像I_i输出目标语言描述句子S_i的通顺度概率的对数；θ表示图像描述句子生成模型的优化参数；w_t表示t时刻输出的词，w₀表示开始符号，w_t-1表示t-1时刻输出的词，w_n表示结束符号；

输出通顺度概率最大的目标语言描述句子。

第二方面，本发明提供一种具备跨语言学习能力的图像自然语言描述生成装置，应用第一方面中任一项所述的具备跨语言学习能力的图像自然语言描述生成方法；所述装置包括：

获取模块，用于获取图像集对应的英文描述句子；

翻译模块，用于将所述英文描述句子通过机器翻译为目标语言描述句子，其中，机器翻译产生的所有目标语言描述句子构成目标语言的候选数据集；

选取模块，用于从所述候选数据集中通过随机采样选取部分目标语言描述句子，所述部分目标语言描述句子构成训练样本集；

标注模块，用于根据所述目标语言的语法和使用习惯，通过人工标注方式，将所述训练样本集分为通顺样本集和不通顺样本集；

第一训练模块，用于利用所述通顺样本集和所述不通顺样本集训练句子通顺度模型，所述句子通顺度模型用于评估所述候选数据集中每个目标语言描述句子的通顺度；

评估模块，用于通过所述句子通顺度模型对所述候选数据集中的目标语言描述句子进行通顺度评估，得到每个目标语言描述句子的通顺度概率；

策略生成模块，用于根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略；

第二训练模块，用于根据所述策略训练所述图像描述句子生成模型，得到训练之后的图像描述句子生成模型；其中，目标语言描述句子的通顺度概率越高则在训练过程中对应的权重越大。

可选地，所述第一训练模块，具体用于：

可选地，所述利用所述通顺样本集和所述不通顺样本集训练至少一个长短期记忆网络LSTM分类器，还包括：

令

Θ＝[W_e,W,b,φ]

通过最小化交叉熵来训练LSTM分类器，训练公式如下：

可选地，所述策略生成模块，具体用于生成以下任一种策略：

可选地，还包括：目标语言描述句子生成模块，用于通过训练之后的图像描述句子生成模型生成与输入图像对应的目标语言描述句子。

可选地，目标语言描述句子生成模块，具体用于：

通过深度卷积神经网络提取给定的图像I的视觉特征；

将所述视觉特征输入到图像描述句子生成模型中；

输出通顺度概率最大的目标语言描述句子。

本发明提供的具备跨语言学习能力的图像自然语言描述生成方法，无需采用人工标注方式来获得大量目标语言描述句子作为图像句子生成模型的训练数据。通过将英文训练图像集对应的英文描述句子机器翻译为目标语言描述句子，并建立目标语言的句子流畅度评估模型，通过句子流畅度评估模型对每个机器翻译的目标描述句子进行流畅度评估，依据流畅度评估结果引导训练生成目标语言的图像句子生成模型。其中，流畅度越高的目标语言描述句子在训练过程中的权重越大，从而降低了不流畅目标语言描述句子对训练过程的影响，提高了目标语言的图像句子生成模型的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的具备跨语言学习能力的图像自然语言描述生成方法的流程图；

图2为本发明一实施例提供的利用英文数据构建中文图像句子生成模型的方法流程图；

图3为本发明一实施例提供的具备跨语言学习能力的图像自然语言描述生成装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的具备跨语言学习能力的图像自然语言描述生成方法的流程图，如图1所示，本实施例中的方法可以包括：

S101、获取图像集对应的英文描述句子。

本实施例中，首先获取图像集对应的英文描述句子，例如图2所示方法中选取Flickr8k和Flickr30k两个英文数据集，其中Flickr8k数据集中包含有3万个英文描述句子，Flickr30k数据集中包含有15万个英文描述句子。需要说明的是，本实施例中的方法不限于数据集中语言的种类，任何语种的图像集均可以实施本发明中的方法。

S102、将英文描述句子通过机器翻译为目标语言描述句子，其中，机器翻译产生的所有目标语言描述句子构成目标语言的候选数据集。

本实施例中，通过机器翻译的方式将英文数据集中的英文描述句子全部翻译为目标语言描述句子，该目标语言描述句子的语种可以根据需要设置；例如图2所示的方法中，目标语言为中文。其中，机器翻译产生的所有目标语言描述句子构成目标语言的候选数据集。

S103、从候选数据集中通过随机采样选取部分目标语言描述句子，部分目标语言描述句子构成训练样本集。

本实施例中，从候选数据集中通过随机采样的方法选取部分目标语言描述句子，采用随机采样法能够确保选取的公平性，将选取出的部分目标语言描述句子作为训练样本集中的样本。

S104、根据目标语言的语法和使用习惯，通过人工标注方式，将训练样本集分为通顺样本集和不通顺样本集。

本实施例中，采用人工标注的方式对训练样本集中的目标语言描述句子进行分类，具体的，根据目标语言的语法和使用习惯人为将目标语言描述句子进行分类标注为通顺或者不通顺。所有标注为通顺的目标语言描述句子构成通顺训练样本集，所有标注为不通顺的目标语言描述句子构成不通顺训练样本集。

S105、利用通顺样本集和不通顺样本集训练句子通顺度模型，

本实施例中，分别用通顺样本集和不通顺样本集训练句子通顺度模型，该句子通顺度模型用于评估候选数据集中每个目标语言描述句子的通顺度。具体的，句子通顺度模型可以为至少一个长短期记忆网络(Long-Short Term Memory，LSTM)分类器。

S106、通过句子通顺度模型对候选数据集中的目标语言描述句子进行通顺度评估，得到每个目标语言描述句子的通顺度概率。

本实施例中，采用句子通顺度模型对候选数据集中的目标语言描述句子进行通顺度评估，以包含至少一个LSTM分类器的句子通顺度模型为例，该LSTM分类器用于顺次接收目标语言描述句子的词序列中的词或者词性标签序列中的标签，并输出目标语言描述句子的通顺度概率；和/或顺次接收英文语言描述句子的词序列中的词或者词性标签序列中的标签，并输出英文语言描述句子的通顺度概率。

可选地，将图像对应的英文描述句子记为S_e，机器翻译得到的相应目标语言描述句子记为S_c；将目标语言描述句子S_c划分为n个词序列，记为w₁，w₂，…，w_n；

将w₁，w₂，…，w_n顺次输入LSTM分类器中，由LSTM分类器输出目标语言描述句子的通顺度概率；

令

Θ＝[W_e,W,b,φ]

通过最小化交叉熵来训练LSTM分类器，训练公式如下：

可选地，当采用四个LSTM分类器时，分别根据目标语言描述句子的词序列、目标语言描述句子的词性序列、英文语言描述句子的词序列、英文语言描述句子的词性序列训练得到第一LSTM分类器、第二LSTM分类器、第三LSTM分类器、第四LSTM分类器；

通过第一LSTM分类器、第二LSTM分类器、第三LSTM分类器、第四LSTM分类器输出的通顺度概率的均值来评估目标语言描述句子的通顺度概率，评估公式如下：

S107、根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略。

本实施例中，根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略，具体的，可以采用以下任一种策略：

策略1：利用句子通顺度模型对训练样本集中的目标语言描述句子进行通顺度评估，得到训练样本集中的所有目标语言描述句子的通顺度概率，将不通顺的目标语言描述句子剔除出训练样本集，得到筛选训练样本集，利用筛选训练样本集对图像描述句子生成模型进行训练；

策略2：利用句子通顺度模型对训练样本集中的目标语言描述句子进行通顺度评估，得到训练样本集中的所有目标语言描述句子的通顺度概率，将通顺度概率小于第一预设阈值的目标语言描述句子剔除出训练样本集，得到筛选训练样本集，利用筛选训练样本集对图像描述句子生成模型进行训练；

策略3：利用句子通顺度模型对训练样本集中的目标语言描述句子进行通顺度评估，得到训练样本集中的所有目标语言描述句子的通顺度概率，根据通顺度概率的大小引入该目标语言描述句子的权重值；当通顺度概率小于等于第二预设阈值时，令权重值为该目标语言描述句子的通顺度概率，当通顺度概率大于第二预设阈值时，令权重值为1；通过损失函数优化图像描述句子生成模型的参数，并在损失函数中引入权重值；其中引入权重值后的损失函数如下：

S108、根据策略训练图像描述句子生成模型，得到训练之后的图像描述句子生成模型。

本实施例中，采用步骤S107中的策略来优化图像描述句子生成模型中的参数，具体的：采用例如策略1、策略2、策略3中的任一种策略训练图像描述句子生成模型，得到训练之后的图像描述句子生成模型。

可选地，本实施例中的方法，还可以包括：用训练之后的图像描述句子生成模型生成与输入图像对应的目标语言描述句子。具体的：用深度卷积神经网络提取给定的图像I的视觉特征；将视觉特征输入到图像描述句子生成模型中；根据优化后的参数θ得到目标语言描述句子的通顺度概率，其中目标语言描述句子的通顺度概率的对数的计算公式如下：

式中：log p(S_i|I_i；θ)表示表示训练样本集中第i个图像I_i输出目标语言描述句子S_i的通顺度概率的对数；θ表示图像描述句子生成模型的优化参数；w_t表示t时刻输出的词，w₀表示开始符号，w_t-1表示t-1时刻输出的词，w_n表示结束符号。输出通顺度概率最大的目标语言描述句子。

本实施例，无需采用人工标注方式来获得大量目标语言描述句子作为图像句子生成模型的训练数据。通过将英文训练图像集对应的英文描述句子机器翻译为目标语言描述句子，并建立目标语言的句子流畅度评估模型，通过句子流畅度评估模型对每个机器翻译的目标描述句子进行流畅度评估，依据流畅度评估结果引导训练生成目标语言的图像句子生成模型。其中，流畅度越高的目标语言描述句子在训练过程中的权重越大，从而降低了不流畅目标语言描述句子对训练过程的影响，提高了目标语言的图像句子生成模型的准确度。

图2为本发明一实施例提供的利用英文数据构建中文图像句子生成模型的方法流程图。如图2所示，本实施例中的方法，首先通过机器翻译分别将两个英文数据集(分别是Flickr8k和Flickr30k)中的3万个和15万个英文句子自动翻译成中文句子。从中随机选取约8000个中文句子就其通顺度进行人工标注，并以此为训练样本集构建句子通顺度模型。该模型的预测实例如表1所示。利用该句子通顺度模型对所有的翻译得到的中文句子进行预测，并为每个句子记录其通顺度分值。

表1.本发明实施例构建的句子通顺度模型部分预测结果

其中，f(S_c)越高，表示模型认为相应的中文句子越通顺。

可选地，为了获取图像的视觉表示，采用预先训练好的152层残差神经网络(ResNet-152)来抽取特征。具体地，使用ResNet-152的pool5层，并得到的图像特征是一个2,048维的向量。并对该图像特征进行了L2范数归一化。

在对每个中文句子进行通顺度估计的基础上，分别采用图1所示方法中的策略1、策略2、策略3训练针对中文的图像句子生成模型。

具体的，令策略3中的阈值u的取值为0.5，表2给出了在两个数据集上的测试结果。作为参考，基线方法是指直接用翻译产生的中文句子作为训练数据而未考虑这些句子的通顺度。从表2的结果显示，本实施例中采用策略1、策略2、策略3这三种通顺度引导的训练策略能够产生较基线方法更通顺的中文句子，并且策略2和策略3产生的中文句子对图像的描述能力较基线方法也更好。

表2.三种通顺度引导的训练策略产生的图像句子生成模型性能比较

表2中，测试集1和测试集2分别是来自Flickr8k的1000张测试图像和Flickr30k的1000张测试图像。其中，相关度和通顺度分值越高越好，且相关度和通顺度上限值设为5。

本实施例，通过将Flickr8k和Flickr30k数据集中的英文描述句子翻译为中文描述句子，并建立中文的句子流畅度评估模型，通过中文的句子流畅度评估模型对每个机器翻译的中文描述句子进行流畅度评估，依据流畅度评估结果引导训练生成中文的图像句子生成模型。其中，流畅度越高的中文描述句子在训练过程中的权重越大，从而降低了不流畅中文描述句子对训练过程的影响，提高了中文的图像句子生成模型的准确度。经过对测试集1和测试集2的验证，本实施例中的方法相较于基线法，在通顺度上有了明显提高。

图3为本发明一实施例提供的具备跨语言学习能力的图像自然语言描述生成装置的结构示意图，如图3所示，本实施例中的装置可以包括：

获取模块10，用于获取图像集对应的英文描述句子。翻译模块20，用于将英文描述句子通过机器翻译为目标语言描述句子，其中，机器翻译产生的所有目标语言描述句子构成目标语言的候选数据集。选取模块30，用于从候选数据集中通过随机采样选取部分目标语言描述句子，部分目标语言描述句子构成训练样本集。标注模块40，用于根据目标语言的语法和使用习惯，通过人工标注方式，将训练样本集分为通顺样本集和不通顺样本集。第一训练模块50，用于利用通顺样本集和不通顺样本集训练句子通顺度模型，句子通顺度模型用于评估候选数据集中每个目标语言描述句子的通顺度。评估模块60，用于通过句子通顺度模型对候选数据集中的目标语言描述句子进行通顺度评估，得到每个目标语言描述句子的通顺度概率。策略生成模块70，用于根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略。第二训练模块80，用于根据策略训练图像描述句子生成模型，得到训练之后的图像描述句子生成模型；其中，目标语言描述句子的通顺度概率越高则在训练过程中对应的权重越大。

可选地，第一训练模块50，具体用于：

利用通顺样本集和不通顺样本集训练至少一个长短期记忆网络LSTM分类器；其中：

LSTM分类器用于顺次接收目标语言描述句子的词序列中的词或者词性标签序列中的标签，并输出目标语言描述句子的通顺度概率；和/或顺次接收英文语言描述句子的词序列中的词或者词性标签序列中的标签，并输出英文语言描述句子的通顺度概率。

可选地，利用通顺样本集和不通顺样本集训练至少一个长短期记忆网络LSTM分类器，还包括：

将图像对应的英文描述句子记为S_e，机器翻译得到的相应目标语言描述句子记为S_c；将目标语言描述句子S_c划分为n个词序列，记为w₁，w₂，…，w_n；

令

Θ＝[W_e,W,b,φ]

通过最小化交叉熵来训练LSTM分类器，训练公式如下：

可选地，通顺样本集和不通顺样本集训练至少一个长短期记忆网络LSTM分类器；包括：

分别根据目标语言描述句子的词序列、目标语言描述句子的词性序列、英文语言描述句子的词序列、英文语言描述句子的词性序列训练得到第一LSTM分类器、第二LSTM分类器、第三LSTM分类器、第四LSTM分类器；

可选地，策略生成模块70，具体用于生成以下任一种策略：

可选地，目标语言描述句子生成模块，具体用于：

通过深度卷积神经网络提取给定的图像I的视觉特征；

将视觉特征输入到图像描述句子生成模型中；

输出通顺度概率最大的目标语言描述句子。

本实施例可以执行上述图1、图2所示的方法中的技术方案，其实现过程和技术效果与上述方法类似，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种具备跨语言学习能力的图像自然语言描述生成方法，其特征在于，包括：

获取图像集对应的英文描述句子；

2.根据权利要求1所述的方法，其特征在于，所述分别利用所述通顺样本集和所述不通顺样本集训练句子通顺度模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述通顺样本集和所述不通顺样本集训练至少一个长短期记忆网络LSTM分类器，包括：

令

Θ＝[W_e,W,b,φ]

式中：f(S_c)表示LSTM分类器输出的目标语言描述句子的通顺度概率，表示LSTM分类器输出的目标语言描述句子不通顺的概率，softmax表示将LSTM分类器的原始输出转化为概率输出的回归函数，W表示仿射变换矩阵，h(S_c)表示LSTM分类器的隐向量，b表示仿射变换的偏移量，Θ表示LSTM分类器中需要在训练过程中进行优化的所有参数，W_e表示词嵌入涉及的仿射变换矩阵，φ表示LSTM分类器内部仿射变换参数；

通过最小化交叉熵来训练LSTM分类器，训练公式如下：

<mrow> <munder> <mi>argmin</mi> <mi>&Theta;</mi> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>c</mi> </msub> <mo>,</mo> <mi>y</mi> <mo>)</mo> <mo>&Element;</mo> <mi>D</mi> </mrow> </munder> <mo>-</mo> <mrow> <mo>(</mo> <mi>y</mi> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <mrow> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

4.根据权利要求2或3所述的方法，其特征在于，所述通顺样本集和所述不通顺样本集训练至少一个长短期记忆网络LSTM分类器，还包括：

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mfrac> <mn>1</mn> <mn>4</mn> </mfrac> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>c</mi> </msub> <mo>)</mo> <mo>+</mo> <mi>f</mi> <mo>(</mo> <mrow> <msub> <mi>S</mi> <mi>c</mi> </msub> <mo>,</mo> <mi>p</mi> <mi>o</mi> <mi>s</mi> </mrow> <mo>)</mo> <mo>+</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>e</mi> </msub> <mo>)</mo> <mo>+</mo> <mi>f</mi> <mo>(</mo> <mrow> <msub> <mi>S</mi> <mi>e</mi> </msub> <mo>,</mo> <mi>p</mi> <mi>o</mi> <mi>s</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

5.根据权利要求1所述的方法，其特征在于，所述根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略，包括：

以下任一种策略：

<mrow> <msub> <mi>bloss</mi> <mrow> <mi>w</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mi>e</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>&mu;</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow>

式中：bloss_weighted表示损失函数，μ_i表示训练样本集中第i个目标语言描述句子的权重值；logp(S_i|I_i；θ)表示表示训练样本集中第i个图像I_i输出目标语言描述句子S_i的通顺度概率的对数；θ表示图像描述句子生成模型的优化参数；m表示样本数量；f(S_c)表示LSTM分类器输出的目标语言描述句子的通顺度概率；其中，当f(S_c)>u时，令μ_i＝1，否则，令μ_i＝f(S_c)，u为大于0小于1的实数。

6.根据权利要求1所述的方法，其特征在于，还包括：用训练之后的图像描述句子生成模型生成与输入图像对应的目标语言描述句子。

7.根据权利要求6所述的方法，其特征在于，所述用训练之后的图像描述句子生成模型生成与输入图像对应的目标语言描述句子，包括：

用深度卷积神经网络提取给定的图像I的视觉特征；

将所述视觉特征输入到图像描述句子生成模型中；

<mrow> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>|</mo> <mi>I</mi> <mo>,</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow>

式中：logp(S_i|I_i；θ)表示表示训练样本集中第i个图像I_i输出目标语言描述句子S_i的通顺度概率的对数；θ表示图像描述句子生成模型的优化参数；w_t表示t时刻输出的词，w₀表示开始符号，w_t-1表示t-1时刻输出的词，w_n表示结束符号；

输出通顺度概率最大的目标语言描述句子。

8.一种具备跨语言学习能力的图像自然语言描述生成装置，其特征在于，应用权利要求1-7中任一项所述的具备跨语言学习能力的图像自然语言描述生成方法；所述装置包括：

获取模块，用于获取图像集对应的英文描述句子；

9.根据权利要求8所述的装置，其特征在于，所述第一训练模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述策略生成模块，具体用于生成以下任一种策略：