CN108268629B

CN108268629B - 基于关键词的图像描述方法和装置、设备、介质

Info

Publication number: CN108268629B
Application number: CN201810037246.4A
Authority: CN
Inventors: 王权; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2021-04-16
Anticipated expiration: 2038-01-15
Also published as: CN108268629A

Abstract

本发明实施例公开了一种基于关键词的图像描述方法和装置、设备、介质、程序，其中，方法包括：对图像进行关键词提取，得到至少两个对应所述图像的关键词；利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。本发明上述实施例相比于现有技术中直接生成图像描述的方法，本发明实施例可以生成更多样、更全面的描述语句，并且由于具有关键词的导向作用，生成的描述语句更符合人类认知习惯。

Description

基于关键词的图像描述方法和装置、设备、介质

技术领域

本发明涉及计算机视觉技术，尤其是一种基于关键词的图像描述方法和装置、设备、介质。

背景技术

自然语言是视觉理解的重要中间媒介，相比于一定数量的视觉分类，它可以为视觉场景提供更加自由和具体的描述。这就是图像描述生成任务相比于图像分类任务的优势所在，相应地，它也更加困难。

近年来，图像描述生成领域比较主流的方法是基于深度神经网络的编解码框架，目前效果最好的方法都是在多模态语言模型中直接以图像作为输入，生成语句作为图像描述的输出。

发明内容

本发明实施例提供的一种基于关键词的图像描述技术。

根据本发明实施例的一个方面，提供的一种基于关键词的图像描述方法，包括：

对图像进行关键词提取，得到至少两个对应所述图像的关键词；每个所述关键词用于在一个方面对所述图像进行描述，所述图像包括至少两个方面的语义信息；

利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。

在基于本发明上述方法的另一个实施例中，所述对图像进行关键词提取，得到至少两个对应所述图像的关键词，包括：

利用关键词提取网络，对图像进行关键词判断，得到至少两个对应所述图像的关键词，所述关键词提取网络经过第二样本图像训练获得，所述第二样本图像标注有第二标注描述语句。

在基于本发明上述方法的另一个实施例中，所述关键词提取网络的训练方法，包括：

基于第二样本图像获得所述第二样本图像对应的至少两个关键词；

将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词；所述神经网络为多标签分类网络，所述关键词集合包括至少两个关键词；

以所述第二样本图像对应的至少两个关键词为监督信息，结合所述预测关键词训练所述神经网络。

在基于本发明上述方法的另一个实施例中，所述基于第二样本图像获得对应所述第二样本图像的至少两个关键词，包括：

利用关键词提取算法，从所述第二样本图像对应的第二标注描述语句中获得至少两个关键词，每个所述第二标注描述语句对应至少一个关键词。

在基于本发明上述方法的另一个实施例中，将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词，包括：

将所述第二样本图像输入所述关键词提取网络，得到概率向量；所述概率向量包括至少一个概率值，每个所述概率值与所述关键词集合中的一个关键词相对应；

从所述概率向量中获得至少一个大于或等于预设值的概率值，基于所述概率值从所述关键词集合中得到对应所述第二样本图像的至少两个预测关键词。

在基于本发明上述方法的另一个实施例中，所述编解码网络基于第一样本图像训练获得，所述第一样本图像标注有第一标注描述语句，所述第一标注描述语句对应所述第一样本图像的关键词。

在基于本发明上述方法的另一个实施例中，所述编解码网络的训练方法，包括：

基于第一卷积神经网络和长短期记忆模型构建初始编解码网络；

利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间，得到所述第一样本图像对应的图像特征和所述关键词对应的关键词特征；所述映射网络经过第三样本图像训练获得，所述第三样图像标注有第三标注描述语句及第三标注关键词；

基于所述图像特征和所述关键词特征获得输入特征，将所述输入特征输入所述长短期记忆模型，得到对应所述第一样本图像的预测描述语句；

以所述第一样本图像对应的第一标注描述语句为监督信息，结合所述预测描述语句训练所述编解码网络。

在基于本发明上述方法的另一个实施例中，利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间之前，还包括：

利用第二卷积神经网络，对所述第一样本图像进行处理，获得所述第一样本图像对应的第一图像特征；

利用自然语言处理网络，对所述第一样本图像对应的关键词进行处理，得到所述关键词对应的第一关键词特征；

利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间，包括：

利用映射网络，分别对所述图像特征和所述关键词特征执行映射操作，得到对应所述图像特征和所述关键词特征的映射特征；所述映射特征用于同时表征图像和关键词的特征信息。

在基于本发明上述方法的另一个实施例中，所述映射网络的训练方法，包括：

基于第三样本图像及其对应的第三标注描述语句及第三标注关键词，分别获得所述第三样本图像对应的第三图像特征、所述第三标注描述语句对应的第三语句特征和所述第三标注关键词对应的第三关键词特征；

利用映射网络，基于所述图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征；

基于所述第一映射特征、第二映射特征和第三映射特征获得所述映射网络的损失函数值；

基于所述损失函数值训练所述映射网络。

在基于本发明上述方法的另一个实施例中，所述基于第三样本图像及其对应的第三标注描述语句及第三标注关键词，分别获得所述第三样本图像对应的第三图像特征、所述第三标注描述语句对应的第三语句特征和所述第三标注关键词对应的第三关键词特征，包括：

利用所述第二卷积神经网络，对所述第三样本图像进行处理，获得所述第三样本图像对应的第三图像特征；

利用门控循环单元，对所述第三标注描述语句进行处理，得到所述第三标注描述语句对应的第三语句特征；

利用所述自然语言处理网络，对所述第三标注关键词进行处理，得到所述第三标注关键词对应的第三关键词特征。

在基于本发明上述方法的另一个实施例中，所述映射网络包括第一激活函数、第二激活函数和第三激活函数；

利用映射网络，基于所述图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征，包括：

通过所述第一激活函数对所述图像特征进行处理，获得所述图像特征对应的第一映射特征；

通过所述第二激活函数对所述语句特征进行处理，获得所述语句特征对应的第二映射特征；

通过所述第三激活函数对所述关键词特征进行处理，获得所述关键词特征对应的第三映射特征。

在基于本发明上述方法的另一个实施例中，基于所述第一映射特征、第二映射特征和第三映射特征获得所述映射网络的损失函数值，包括：

基于所述第一映射特征和所述第二映射特征获得第一损失函数值；

基于所述第一映射特征和所述第三映射特征获得第二损失函数值；

基于所述第二映射特征和所述第三映射特征获得第三损失函数值；

通过将所述第一损失函数值、所述第二损失函数值和所述第三损失函数值加权相加得到所述损失函数值。

在基于本发明上述方法的另一个实施例中，基于所述第一映射特征和所述第二映射特征获得第一损失函数值，包括：

获得所述第一映射特征和所述第二映射特征之间的相似度值；

利用损失函数，基于所述第一映射特征和所述第二映射特征之间的相似度值，确定所述第一损失函数值；

基于所述第一映射特征和所述第三映射特征获得第二损失函数值，包括：

获得所述第一映射特征和所述第三映射特征之间的相似度值；

利用所述损失函数，基于所述第一映射特征和所述第三映射特征之间的相似度值，确定所述第二损失函数值；

基于所述第二映射特征和所述第三映射特征获得第三损失函数值，包括：

获得所述第二映射特征和所述第三映射特征之间的相似度值；

利用所述损失函数，基于所述第二映射特征和所述第三映射特征之间的相似度值，确定所述第三损失函数值。

在基于本发明上述方法的另一个实施例中，基于所述损失函数值训练所述映射网络，包括：

利用所述损失函数值，通过反向梯度下降方法训练所述映射网络中的所述第一激活函数、所述第二激活函数和所述第三激活函数。

在基于本发明上述方法的另一个实施例中，利用所述损失函数值，通过反向梯度下降方法训练所述映射网络中的所述第一激活函数、所述第二激活函数和所述第三激活函数，包括：

根据所述损失函数值，调整所述映射网络中的所述第一激活函数、所述第二激活函数和所述第三激活函数中的参数，获得更新后的映射网络；

迭代执行：以更新后的映射网络作为映射网络，利用映射网络，基于所述图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征，基于所述第一映射特征、第二映射特征和第三映射特征获得所述映射网络的损失函数值，根据所述损失函数值，调整所述映射网络中的所述第一激活函数、所述第二激活函数和所述第三激活函数中的参数，获得更新后的映射网络，直到满足预设停止条件。

在基于本发明上述方法的另一个实施例中，所述满足预设停止条件，包括：

所述损失函数收敛，和/或所述损失函数值小于预设值。

在基于本发明上述方法的另一个实施例中，所述嵌入空间中基于映射特征之间的相似度将所述映射特征聚合成至少一个映射特征集，每个所述映射特征集中的映射特征对应的图像、关键词和描述语句之间存在对应关系。

在基于本发明上述方法的另一个实施例中，基于所述图像特征和所述关键词特征获得输入特征，包括：

将所述图像特征和所述关键词特征加权求和，得到输入特征。

在基于本发明上述方法的另一个实施例中，所述训练后的映射网络还用于：

基于接收到的待检索图像从所述嵌入空间中获得对应的检索语句，

和/或，基于接收到的待检索语句从所述嵌入空间中获得对应的检索图像。

根据本发明实施例的另一个方面，提供的一种基于关键词的图像描述装置，包括：

关键词提取单元，用于对图像进行关键词提取，得到至少两个对应所述图像的关键词；每个所述关键词用于在一个方面对所述图像进行描述，所述图像包括至少两个方面的语义信息；

语句获取单元，用于利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。

在基于本发明上述装置的另一个实施例中，所述关键词提取单元，具体用于利用关键词提取网络，对图像进行关键词判断，得到至少一个对应所述图像的关键词，所述关键词提取网络经过关键词网络训练单元基于第二样本图像训练获得，所述第二样本图像标注有第二标注描述语句。

在基于本发明上述装置的另一个实施例中，所述关键词网络训练单元，包括：

样本关键词模块，用于基于第二样本图像获得所述第二样本图像对应的至少两个关键词；

关键词预测模块，用于将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词；所述神经网络为多标签分类网络，所述关键词集合包括至少两个关键词；

关键词训练模块，用于以所述第二样本图像对应的至少两个关键词为监督信息，结合所述预测关键词训练所述神经网络。

在基于本发明上述装置的另一个实施例中，所述样本关键词模块，具体用于利用关键词提取算法，从所述第二样本图像对应的第二标注描述语句中获得至少两个关键词，每个所述第二标注描述语句对应至少一个关键词。

在基于本发明上述装置的另一个实施例中，所述关键词预测模块，具体用于将所述第二样本图像输入所述关键词提取网络，得到概率向量；所述概率向量包括至少一个概率值，每个所述概率值与所述关键词集合中的一个关键词相对应；从所述概率向量中获得至少一个大于或等于预设值的概率值，基于所述概率值从所述关键词集合中得到对应所述第二样本图像的至少两个预测关键词。

在基于本发明上述装置的另一个实施例中，还包括：

网络训练单元，用于基于第一样本图像对所述编解码网络进行训练，所述第一样本图像标注有第一标注描述语句，所述第一标注描述语句对应所述第一样本图像的关键词。

在基于本发明上述装置的另一个实施例中，所述网络训练单元，包括：

初始网络模块，用于基于第一卷积神经网络和长短期记忆模型构建初始编解码网络；

映射模块，用于利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间，得到所述第一样本图像对应的图像特征和所述关键词对应的关键词特征；所述映射网络经过映射网络训练模块基于第三样本图像训练获得，所述第三样图像标注有第三标注描述语句及第三标注关键词；

模型预测模块，用于基于所述图像特征和所述关键词特征获得输入特征，将所述输入特征输入所述长短期记忆模型，得到对应所述第一样本图像的预测描述语句；

编解码训练模块，用于以所述第一样本图像对应的第一标注描述语句为监督信息，结合所述预测描述语句训练所述编解码网络。

在基于本发明上述装置的另一个实施例中，所述网络训练单元，还包括：

图像特征模块，用于利用第二卷积神经网络，对所述第一样本图像进行处理，获得所述第一样本图像对应的第一图像特征；

关键词特征模块，用于利用自然语言处理网络，对所述第一样本图像对应的关键词进行处理，得到所述关键词对应的第一关键词特征；

所述映射模块，具体用于利用映射网络，分别对所述图像特征和所述关键词特征执行映射操作，得到对应所述图像特征和所述关键词特征的映射特征；所述映射特征用于同时表征图像和关键词的特征信息。

在基于本发明上述装置的另一个实施例中，所述映射网络训练模块，包括：

特征标注模块，用于基于第三样本图像及其对应的第三标注描述语句及第三标注关键词，分别获得所述第三样本图像对应的第三图像特征、所述第三标注描述语句对应的第三语句特征和所述第三标注关键词对应的第三关键词特征；

特征映射模块，用于利用映射网络，基于所述图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征；

损失获得模块，用于基于所述第一映射特征、第二映射特征和第三映射特征获得所述映射网络的损失函数值；

映射训练模块，用于基于所述损失函数值训练所述映射网络。

在基于本发明上述装置的另一个实施例中，所述特征标注模块，具体用于利用所述第二卷积神经网络，对所述第三样本图像进行处理，获得所述第三样本图像对应的第三图像特征；

在基于本发明上述装置的另一个实施例中，所述映射网络包括第一激活函数、第二激活函数和第三激活函数；

所述特征映射模块，具体用于通过所述第一激活函数对所述图像特征进行处理，获得所述图像特征对应的第一映射特征；

在基于本发明上述装置的另一个实施例中，所述损失获得模块，包括：

第一损失模块，用于基于所述第一映射特征和所述第二映射特征获得第一损失函数值；

第二损失模块，用于基于所述第一映射特征和所述第三映射特征获得第二损失函数值；

第三损失模块，用于基于所述第二映射特征和所述第三映射特征获得第三损失函数值；

加权模块，用于通过将所述第一损失函数值、所述第二损失函数值和所述第三损失函数值加权相加得到所述损失函数值。

在基于本发明上述装置的另一个实施例中，所述第一损失模块，具体用于获得所述第一映射特征和所述第二映射特征之间的相似度值；利用损失函数，基于所述第一映射特征和所述第二映射特征之间的相似度值，确定所述第一损失函数值；

所述第二损失模块，具体用于获得所述第一映射特征和所述第三映射特征之间的相似度值；利用所述损失函数，基于所述第一映射特征和所述第三映射特征之间的相似度值，确定所述第二损失函数值；

所述第三损失模块，具体用于获得所述第二映射特征和所述第三映射特征之间的相似度值；利用所述损失函数，基于所述第二映射特征和所述第三映射特征之间的相似度值，确定所述第三损失函数值。

在基于本发明上述装置的另一个实施例中，所述映射训练模块，具体用于利用所述损失函数值，通过反向梯度下降方法训练所述映射网络中的所述第一激活函数、所述第二激活函数和所述第三激活函数。

在基于本发明上述装置的另一个实施例中，所述映射训练模块，具体用于：

在基于本发明上述装置的另一个实施例中，所述满足预设停止条件，包括：

所述损失函数收敛，和/或所述损失函数值小于预设值。

在基于本发明上述装置的另一个实施例中，所述嵌入空间中基于映射特征之间的相似度将所述映射特征聚合成至少一个映射特征集，每个所述映射特征集中的映射特征对应的图像、关键词和描述语句之间存在对应关系。

在基于本发明上述装置的另一个实施例中，所述模型预测模块基于所述图像特征和所述关键词特征获得输入特征时，具体用于将所述图像特征和所述关键词特征加权求和，得到输入特征。

在基于本发明上述装置的另一个实施例中，经过所述映射网络训练模块训练的映射网络，还用于基于接收到的待检索图像从所述嵌入空间中获得对应的检索语句，

根据本公开实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的基于关键词的图像描述装置。

根据本公开实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述基于关键词的图像描述方法。

根据本公开实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述基于关键词的图像描述方法。

根据本公开实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上所述基于关键词的图像描述方法的指令。

基于本发明上述实施例提供的一种基于关键词的图像描述方法和装置、设备、介质、程序，对图像进行关键词提取，得到至少两个对应图像的关键词；利用编解码网络，基于图像和至少两个关键词获得对应图像的至少两条描述语句；相比于现有技术中直接生成图像描述的方法，本发明实施例可以生成更多样、更全面的描述语句，并且由于具有关键词的导向作用，生成的描述语句更符合人类认知习惯。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明基于关键词的图像描述方法一个实施例的流程图。

图2为本发明基于关键词的图像描述装置一个实施例的结构示意图。

图3为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本发明的过程中，发明人发现，现有技术至少存在以下问题：

现有编解码方法的局限性在于一句话能携带的信息量有限，很难将一幅图像的重要信息完整描述。此外，在训练数据中，一张图片往往对应着多个不同的文字描述，在训练神经网络的不同迭代阶段时，每次都只能用一个不同的文字描述对同一张图像监督学习，这样加大了网络的学习难度，也加大了整个问题的复杂程度。

图1为本发明基于关键词的图像描述方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，对图像进行关键词提取，得到至少两个对应图像的关键词。

其中，每个关键词用于在一个方面对图像进行描述，图像包括至少两个方面的语义信息。

通常图像中往往包括很多方面的内容；现有技术直接通过语句进行描述，无法将图像中的内容说清楚，并且会出现混乱的情况，本实施例通过提取得到的关键词可以对图像进行导向性描述，在基于关键词获取对应的描述语句，使获得的描述语句内容更清楚，指向更明确，例如：一个图像中包括人和建筑物，此时人和建筑物分别为该图像的两个方面，基于关键词描述时，获取关键词后，可分别基于两个关键词从人的方面对图像进行语句描述，从建筑物的方面对图像进行语句描述。

步骤102，利用编解码网络，基于图像和至少两个关键词获得对应图像的至少两条描述语句。

其中，编解码网络基于第一样本图像训练获得，第一样本图像标注有第一标注描述语句，第一标注描述语句对应第一样本图像的关键词。

基于本发明上述实施例提供的一种基于关键词的图像描述方法，对图像进行关键词提取，得到至少两个对应图像的关键词；利用编解码网络，基于图像和至少两个关键词获得对应图像的至少两条描述语句；相比于现有技术中直接生成图像描述的方法，本发明实施例可以生成更多样、更全面的描述语句，并且由于具有关键词的导向作用，生成的描述语句更符合人类认知习惯。

本发明基于关键词的图像描述方法的另一个实施例中，在上述实施例的基础上，操作101包括：

利用关键词提取网络，对图像进行关键词判断，得到至少两个对应图像的关键词。

关键词提取网络经过第二样本图像训练获得，第二样本图像标注有第二标注描述语句。

本实施通过训练后的关键词提取网络对图像实现关键词提取，而对该关键词提取网络的训练过程中，使用的样本数据是标注有第二标注描述语句的第二样本图像，通过第二样本图像训练得到的关键词提取网络对图像提取得到的关键词能更准确的描述该图像。

在本发明基于关键词的图像描述方法上述各实施例的一个具体示例中，关键词提取网络的训练方法，包括：

基于第二样本图像获得第二样本图像对应的至少两个关键词；

可选地，利用关键词提取算法，从第二样本图像对应的第二标注描述语句中获得至少两个关键词，每个第二标注描述语句对应至少一个关键词。

具体地，可通过LDE(Latent Dirichlet allocation)隐含狄利克雷分布方法或NMF(Non-negtive Matrix Factorization)非负矩阵分解方法从图像已知的第二标注描述语句中获得至少两个关键词，本发明实施例仅提供了两个可实现的例子，并不用于限制本发明的实现。

将第二样本图像输入关键词提取网络，基于关键词集合获得对应第二样本图像的至少两个预测关键词；

可选地，将第二样本图像输入关键词提取网络，得到概率向量；概率向量包括至少一个概率值，每个概率值与关键词集合中的一个关键词相对应；

从概率向量中获得至少一个大于或等于预设值的概率值，基于概率值从关键词集合中得到对应第二样本图像的至少两个预测关键词。

其中，关键词提取网络为多标签分类网络，关键词集合包括至少两个关键词；多标签分类网络获得的概率向量中概率值的数量与关键词集合中的关键词数量相对应，当概率值向量中存在一个或多个满足条件的概率值，即可确定对应的关键词为该关键词提取网络输出的关键词。

以第二样本图像对应的至少两个关键词为监督信息，结合预测关键词训练关键词提取网络。

对于该关键词提取网络的训练与普通的神经网络训练类似，可基于已知关键词和预测关键词之间的误差进行反向梯度传播，通过迭代修正关键词提取网络参数实现训练关键词提取网络，直到预测关键词与已知关键词之间的误差小于设定阈值。

本发明基于关键词的图像描述方法的又一个实施例中，在上述各实施例的基础上，编解码网络的训练方法，包括：

利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间，得到第一样本图像对应的图像特征和关键词对应的关键词特征；映射网络经过第三样本图像训练获得，第三样图像标注有第三标注描述语句及第三标注关键词；

基于图像特征和关键词特征获得输入特征，将输入特征长短期记忆模型，得到对应所述第一样本图像的预测描述语句；

以第一样本图像对应的第一标注描述语句为监督信息，结合预测描述语句训练编解码网络。

本实施例中，初始编解码网络包括第一卷积神经网络(CNN)和长短期记忆模型(LSTM)，该初始编解码网络的结构与现有技术的编解码网络类似，而为了获得对应图像的关键词，利用映射网络将第一样本图像及其通过神经网络获得的关键词映射到嵌入空间中，基于映射得到的输入特征经过长短期记忆模型获得预测描述语句，即实现结合关键词和图像对描述语句进行预测，基于该预测描述语句和第一样本图像对应的第一标注描述语句对编解码网络进行训练，训练得到的编解码网络即可实现基于图像和关键词输出对应的描述语句。

在本发明基于关键词的图像描述方法上述各实施例的一个具体示例中，利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间之前，还包括：

利用第二卷积神经网络，对第一样本图像进行处理，获得第一样本图像对应的第一图像特征；

利用自然语言处理网络，对第一样本图像对应的关键词进行处理，得到关键词对应的第一关键词特征；

在本实施例中，对于图像的处理可以通过第二卷积神经网络，也可以通过其他方式实现，本实施例仅提供一种实现方式，以便于本领域技术人员理解和实现；而对于文字的处理，采用自然语言处理网络属于目前比较先进的技术手段，但对于文字的处理同样可以通过其他方式实现，本实施例仅提供一种实现方式，以便于本领域技术人员理解和实现；本实施例结合自然语言处理和第二卷积神经网络，将文字和图像映射到同一个表征网络，表征网络作为样本文字集和样本图像集的流形，实现了通过表征网络的图像搜索功能。

可选地，利用自然语言处理网络，对第一样本图像对应的关键词进行处理，得到关键词对应的第一关键词特征，包括：

将关键词输入自然语言处理网络，通过自然语言处理网络中的输入层将关键词分解并转化为独热码；one-hot(独热码，热编码，计算机里的东西都是01表示的，也就是二进制，one-hot是一种很自然的选择)。

独热码通过隐层和输出层得到对应关键词的第一关键词特征。

在本实施例中，自然语言处理网络可采用结构包括输入层-隐层-输出层的网络，其中涉及一个核心的技术是根据词频用Huffman哈夫曼编码，使得所有词频相似的词隐藏层激活的内容基本一致，出现频率越高的文字，他们激活的隐藏层数目越少，这样有效的降低了计算的复杂度。与潜在语义分析(Latent Semantic Index,LSI)、潜在狄立克雷分配(Latent Dirichlet Allocation，LDA)的经典过程相比，Word2vec利用了词的上下文，语义信息更加地丰富且具有高效性(Mikolov在论文中指出，一个优化的单机版本一天可训练上千亿词)；此外，自然语言处理技术拥有双语的性质，即可以把不同语言中的词向量映射到一个共享的空间中去，实现多语种搜索。

利用映射网络，分别对图像特征和关键词特征执行映射操作，得到对应图像特征和关键词特征的映射特征。

其中，映射特征用于同时表征图像和关键词的特征信息。可选地，通过将图像特征和关键词特征映射到嵌入空间中，以嵌入空间中的相似度来获得对应图像和关键词的描述语句，具体映射方法可采用OEM(Order-Embedding)有序嵌入方法实现映射到嵌入空间。

在本发明基于关键词的图像描述方法上述各实施例的一个具体示例中，映射网络的训练方法，包括：

基于第三样本图像及其对应的第三标注描述语句及第三标注关键词，分别获得第三样本图像对应的第三图像特征、第三标注描述语句对应的第三语句特征和第三标注关键词对应的第三关键词特征；

利用映射网络，基于图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征；

基于第一映射特征、第二映射特征和第三映射特征获得映射网络的损失函数值；

基于损失函数值训练映射网络。

本实施对现有的OEM(Order-Embedding)有序嵌入方法进行改进和训练，首先采用RELU激活函数代替原有的绝对值函数，通过训练可以将图像特征、语句特征和关键词特征在嵌入空间中的映射特征之间相似度更高，基于该映射网络可实现基于图像检索对应的关键词和/或描述语句，和/或基于关键词检索对应的图像和/或描述语句，和/或基于描述语句检索对应的图像和/或关键词，例如：若检索图像(文字描述)，将数据集中的所有图像(文字描述)按照与输入的文字描述(图像)的相似度排序，取相似度最高的图像(文字描述)作为检索结果。

在一个或多个可选的实施例中，基于第三样本图像及其对应的第三标注描述语句及第三标注关键词，分别获得第三样本图像对应的第三图像特征、第三标注描述语句对应的第三语句特征和第三标注关键词对应的第三关键词特征，包括：

利用第二卷积神经网络(CNN)，对第三样本图像进行处理，获得第三样本图像对应的第三图像特征；

利用门控循环单元(GRU)，对第三标注描述语句进行处理，得到第三标注描述语句对应的第三语句特征；

利用自然语言处理网络，对第三标注关键词进行处理，得到第三标注关键词对应的第三关键词特征。

可选地，映射网络包括第一激活函数、第二激活函数和第三激活函数；

利用映射网络，基于图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征，包括：

通过第一激活函数对图像特征进行处理，获得图像特征对应的第一映射特征；

具体地，第一激活函数可采用公式(1)进行计算：

其中，表示第一映射特征，max(x,0)表示第一激活函数，max(x,0)表示当x大于0时，取值为x，当x小于0时，取值为0；其中CNN(I)表示基于第二卷积神经网络获得的图像特征，表示第一激活函数中的矩阵参数，通过训练所述矩阵参数可使第一激活函数达到更好的效果。

通过第二激活函数对语句特征进行处理，获得语句特征对应的第二映射特征；

具体地，第二激活函数可采用公式(2)进行计算：

其中，表示第二映射特征，max(x,0)表示第二激活函数，max(x,0)表示当x大于0时，取值为x，当x小于0时，取值为0；其中CRU(C)表示基于门控循环单元获得的语句特征，通过训练门控循环单元中的参数可使第二激活函数达到更好的效果。

通过第三激活函数对关键词特征进行处理，获得关键词特征对应的第三映射特征。

具体地，第三激活函数可采用公式(3)进行计算：

其中，表示第一映射特征，max(x,0)表示第三激活函数，max(x,0)表示当x大于0时，取值为x，当x小于0时，取值为0；其中表示基于自然语言处理网络获得的关键词特征，表示第三激活函数中的矩阵参数，通过训练所述矩阵参数可使第三激活函数达到更好的效果。

在一个或多个可选的实施例中，基于第一映射特征、第二映射特征和第三映射特征获得映射网络的损失函数值，包括：

基于第一映射特征和第二映射特征获得第一损失函数值；

可选地，获得第一映射特征和第二映射特征之间的相似度值；

利用损失函数，基于第一映射特征和第二映射特征之间的相似度值，确定第一损失函数值。

基于第一映射特征和第三映射特征获得第二损失函数值；

可选地，获得第一映射特征和第三映射特征之间的相似度值；

利用损失函数，基于第一映射特征和所述第三映射特征之间的相似度值，确定第二损失函数值。

基于第二映射特征和第三映射特征获得第三损失函数值；

可选地，获得第二映射特征和第三映射特征之间的相似度值；

利用损失函数，基于第二映射特征和第三映射特征之间的相似度值，确定第三损失函数值。

具体地，上述计算两个映射特征之间的相似度值可以基于公式(4)和公式(5)获得：

E(s，t)＝||max(0，t-s)||₂ 公式(4)

其中，t和s分别表示不同特征(包括图像特征、关键词特征和语句特征)映射到映射空间中的映射特征(向量形式表达)，表示两个映向量之间的模长。

S(u，v)＝-E(f(u)，f(v)) 公式(5)

其中，u和v分别表示不同特征(包括图像特征、关键词特征和语句特征)，分别表示不同特征(包括图像特征、关键词特征和语句特征)映射到映射空间中的映射特征(向量形式表达)，即对应公式(4)中的t和s，表示两个映射特征之间的相似度，可知，两个映射特征之间的模长与相似度呈反比，即两个映射特征之间的距离越小其相似度越大，反之亦然。

可选地，损失函数的计算可通过公式(6)实现：

其中，L(U,V)表示不同特征(包括图像特征、关键词特征和语句特征)映射到映射空间中的映射特征之间的损失函数，表示两个对应的映射特征之间的相似度(如：图像的映射特征与图像对应的关键词的关键词特征之间)，表示两个不对应的映射特征之间的相似度(如：图像的映射特征与其他图像对应的关键词的关键词特征之间)，通过公式(6)可分别计算得到第一损失函数值、第二损失函数值和第三损失函数值。

通过将第一损失函数值、第二损失函数值和第三损失函数值加权相加得到损失函数值。

具体地，损失函数值的计算由公式(7)获得：

L＝λ₁L(C，I)+λ₂L(T，I)+λ₃L(T，C) 公式(7)

其中，C、I和T分别表示描述语句、图像和关键词，表示第二映射特征与第一映射特征之间的第一损失函数值，表示第一损失函数值的权值；表示第三映射特征与第一映射特征之间的第二损失函数值，表示第二损失函数值的权值；表示第三映射特征与第二映射特征之间的第三损失函数值，表示第三损失函数值的权值；其中第一损失函数值、第二损失函数值和第三损失函数值基于公式(6)计算获得，而三个权值根据经验值进行设定。

可选地，基于损失函数值训练映射网络，包括：

利用损失函数值，通过反向梯度下降方法训练映射网络中的第一激活函数、第二激活函数和第三激活函数。

具体地，根据损失函数值，调整映射网络中的第一激活函数、第二激活函数和第三激活函数中的参数，获得更新后的映射网络；

迭代执行：以更新后的映射网络作为映射网络，利用映射网络，基于图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征，基于第一映射特征、第二映射特征和第三映射特征获得映射网络的损失函数值，根据损失函数值，调整映射网络中的第一激活函数、第二激活函数和第三激活函数中的参数，获得更新后的映射网络，直到满足预设停止条件。

具体地，对第一激活函数、第二激活函数和第三激活函数中的参数的训练即对公式(1)、(2)和(3)中的训练门控循环单元中的参数和进行训练，得到损失函数值更小的激活函数，具体地预设停止条件可以包括但不限于：损失函数收敛，和/或损失函数值小于预设值。

在一个或多个可选的实施例中，训练后的映射网络还用于：

基于接收到的待检索图像从嵌入空间中获得对应的检索语句，

和/或，基于接收到的待检索语句从嵌入空间中获得对应的检索图像。

嵌入空间中基于映射特征之间的相似度将映射特征聚合成至少一个映射特征集，每个映射特征集中的映射特征对应的图像、关键词和描述语句之间存在对应关系。

此时，基于映射特征集可以更快的实现图像或语句的检索，只需将图像(或语句)映射到嵌入空间，查找对应的映射特征集即可获得相应的语句(或图像)和关键词。

本发明基于关键词的图像描述方法的还一个实施例中，在上述各实施例的基础上，基于图像特征和关键词特征获得输入特征，包括：

将图像特征和关键词特征加权求和，得到输入特征。

其中，图像特征和关键词特征对应的权值分别以经验值进行设定，并且两个权值之和为1，通过加权求和得到的输入特征能实现体现图像特征的同时体现关键词特征，使输出的预测描述语句是基于关键词导向的。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图2为本发明基于关键词的图像描述装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图2所示，该实施例的装置包括：

关键词提取单元21，用于对图像进行关键词提取，得到至少两个对应图像的关键词。

每个关键词用于在一个方面对图像进行描述，图像包括至少两个方面的语义信息。

语句获取单元22，用于利用编解码网络，基于图像和至少两个关键词获得对应图像的至少两条描述语句。

本发明基于关键词的图像描述装置的另一个实施例中，在上述实施例的基础上，关键词提取单元21，具体用于利用关键词提取网络，对图像进行关键词判断，得到至少一个对应图像的关键词，关键词提取网络经过关键词网络训练单元基于第二样本图像训练获得，第二样本图像标注有第二标注描述语句。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，关键词网络训练单元，包括：

样本关键词模块，用于基于第二样本图像获得第二样本图像对应的至少两个关键词；

关键词预测模块，用于将第二样本图像输入关键词提取网络，基于关键词集合获得对应第二样本图像的至少两个预测关键词；神经网络为多标签分类网络，关键词集合包括至少两个关键词；

关键词训练模块，用于以第二样本图像对应的至少两个关键词为监督信息，结合预测关键词训练神经网络。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，样本关键词模块，具体用于利用关键词提取算法，从第二样本图像对应的第二标注描述语句中获得至少两个关键词，每个第二标注描述语句对应至少一个关键词。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，关键词预测模块，具体用于将第二样本图像输入关键词提取网络，得到概率向量。

概率向量包括至少一个概率值，每个概率值与关键词集合中的一个关键词相对应；从概率向量中获得至少一个大于或等于预设值的概率值，基于概率值从关键词集合中得到对应第二样本图像的至少两个预测关键词。

本发明基于关键词的图像描述装置的又一个实施例中，在上述各实施例的基础上，还包括：

网络训练单元，用于基于第一样本图像对编解码网络进行训练，第一样本图像标注有第一标注描述语句，第一标注描述语句对应第一样本图像的关键词。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，网络训练单元，包括：

映射模块，用于利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间，得到第一样本图像对应的图像特征和关键词对应的关键词特征；

映射网络经过映射网络训练模块基于第三样本图像训练获得，第三样图像标注有第三标注描述语句及第三标注关键词。

模型预测模块，用于基于图像特征和关键词特征获得输入特征，将输入特征输入长短期记忆模型，得到对应第一样本图像的预测描述语句；

编解码训练模块，用于以第一样本图像对应的第一标注描述语句为监督信息，结合预测描述语句训练编解码网络。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，网络训练单元，还包括：

图像特征模块，用于利用第二卷积神经网络，对第一样本图像进行处理，获得第一样本图像对应的第一图像特征；

关键词特征模块，用于利用自然语言处理网络，对第一样本图像对应的关键词进行处理，得到关键词对应的第一关键词特征；

映射模块，具体用于利用映射网络，分别对图像特征和关键词特征执行映射操作，得到对应图像特征和关键词特征的映射特征；映射特征用于同时表征图像和关键词的特征信息。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，映射网络训练模块，包括：

特征标注模块，用于基于第三样本图像及其对应的第三标注描述语句及第三标注关键词，分别获得第三样本图像对应的第三图像特征、第三标注描述语句对应的第三语句特征和第三标注关键词对应的第三关键词特征；

特征映射模块，用于利用映射网络，基于图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征；

损失获得模块，用于基于第一映射特征、第二映射特征和第三映射特征获得映射网络的损失函数值；

映射训练模块，用于基于损失函数值训练映射网络。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，特征标注模块，具体用于利用第二卷积神经网络，对第三样本图像进行处理，获得第三样本图像对应的第三图像特征；

利用门控循环单元，对第三标注描述语句进行处理，得到第三标注描述语句对应的第三语句特征；

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，映射网络包括第一激活函数、第二激活函数和第三激活函数；

特征映射模块，具体用于通过第一激活函数对图像特征进行处理，获得图像特征对应的第一映射特征；

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，损失获得模块，包括：

第一损失模块，用于基于第一映射特征和第二映射特征获得第一损失函数值；

第二损失模块，用于基于第一映射特征和第三映射特征获得第二损失函数值；

第三损失模块，用于基于第二映射特征和第三映射特征获得第三损失函数值；

加权模块，用于通过将第一损失函数值、第二损失函数值和第三损失函数值加权相加得到损失函数值。

可选地，第一损失模块，具体用于获得第一映射特征和第二映射特征之间的相似度值；利用损失函数，基于第一映射特征和第二映射特征之间的相似度值，确定第一损失函数值；

第二损失模块，具体用于获得第一映射特征和第三映射特征之间的相似度值；利用损失函数，基于第一映射特征和第三映射特征之间的相似度值，确定第二损失函数值；

第三损失模块，具体用于获得第二映射特征和第三映射特征之间的相似度值；利用损失函数，基于第二映射特征和第三映射特征之间的相似度值，确定第三损失函数值。

在一个或多个可选的实施例中，映射训练模块，具体用于利用损失函数值，通过反向梯度下降方法训练映射网络中的第一激活函数、第二激活函数和第三激活函数。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，映射训练模块，具体用于：

根据损失函数值，调整映射网络中的第一激活函数、第二激活函数和第三激活函数中的参数，获得更新后的映射网络；

可选地，满足预设停止条件，包括：

损失函数收敛，和/或损失函数值小于预设值。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，嵌入空间中基于映射特征之间的相似度将映射特征聚合成至少一个映射特征集，每个映射特征集中的映射特征对应的图像、关键词和描述语句之间存在对应关系。

在本发明基于关键词的图像描述装置上述各实施例的一个具体示例中，模型预测模块基于图像特征和关键词特征获得输入特征时，具体用于将图像特征和关键词特征加权求和，得到输入特征。

在一个或多个可选的实施例中，经过映射网络训练模块训练的映射网络，还用于基于接收到的待检索图像从嵌入空间中获得对应的检索语句，

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明上述任一实施例的基于关键词的图像描述装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明基于关键词的图像描述方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，指令被执行时执行本发明基于关键词的图像描述方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，该设备中的处理器执行用于实现本发明基于关键词的图像描述方法任意一项实施例的指令。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图3，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备300的结构示意图：如图3所示，计算机系统300包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)301，和/或一个或多个图像处理器(GPU)313等，处理器可以根据存储在只读存储器(ROM)302中的可执行指令或者从存储部分308加载到随机访问存储器(RAM)303中的可执行指令而执行各种适当的动作和处理。通信部312可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器302和/或随机访问存储器330中通信以执行可执行指令，通过总线304与通信部312相连、并经通信部312与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，对图像进行关键词提取，得到至少两个对应图像的关键词；利用编解码网络，基于图像和至少两个关键词获得对应图像的至少两条描述语句。

此外，在RAM 303中，还可存储有装置操作所需的各种程序和数据。CPU301、ROM302以及RAM303通过总线304彼此相连。在有RAM303的情况下，ROM302为可选模块。RAM303存储可执行指令，或在运行时向ROM302中写入可执行指令，可执行指令使处理器301执行上述通信方法对应的操作。输入/输出(I/O)接口305也连接至总线304。通信部312可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

需要说明的，如图3所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图3的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，对图像进行关键词提取，得到至少两个对应图像的关键词；利用编解码网络，基于图像和至少两个关键词获得对应图像的至少两条描述语句。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于关键词的图像描述方法，其特征在于，包括：

利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句；

所述对图像进行关键词提取，得到至少两个对应所述图像的关键词，包括：

利用关键词提取网络，对图像进行关键词判断，得到至少两个对应所述图像的关键词；所述关键词提取网络经过第二样本图像训练获得，所述第二样本图像标注有第二标注描述语句；

所述关键词提取网络的训练方法，包括：

将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词；所述关键词提取网络为多标签分类网络，所述关键词集合包括至少两个关键词；

以所述第二样本图像对应的至少两个关键词为监督信息，结合所述预测关键词训练所述关键词提取网络。

2.根据权利要求1所述的方法，其特征在于，所述基于第二样本图像获得对应所述第二样本图像的至少两个关键词，包括：

3.根据权利要求1所述的方法，其特征在于，将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述编解码网络基于第一样本图像训练获得，所述第一样本图像标注有第一标注描述语句，所述第一标注描述语句对应所述第一样本图像的关键词。

5.根据权利要求4所述的方法，其特征在于，所述编解码网络的训练方法，包括：

利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间，得到所述第一样本图像对应的图像特征和所述关键词对应的关键词特征；所述映射网络经过第三样本图像训练获得，所述第三样本图像标注有第三标注描述语句及第三标注关键词；

6.根据权利要求5所述的方法，其特征在于，利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述映射网络的训练方法，包括：

基于所述损失函数值训练所述映射网络。

8.根据权利要求7所述的方法，其特征在于，所述基于第三样本图像及其对应的第三标注描述语句及第三标注关键词，分别获得所述第三样本图像对应的第三图像特征、所述第三标注描述语句对应的第三语句特征和所述第三标注关键词对应的第三关键词特征，包括：

9.根据权利要求7所述的方法，其特征在于，所述映射网络包括第一激活函数、第二激活函数和第三激活函数；

10.根据权利要求9所述的方法，其特征在于，基于所述第一映射特征、第二映射特征和第三映射特征获得所述映射网络的损失函数值，包括：

11.根据权利要求10所述的方法，其特征在于，基于所述第一映射特征和所述第二映射特征获得第一损失函数值，包括：

12.根据权利要求11所述的方法，其特征在于，基于所述损失函数值训练所述映射网络，包括：

13.根据权利要求12所述的方法，其特征在于，利用所述损失函数值，通过反向梯度下降方法训练所述映射网络中的所述第一激活函数、所述第二激活函数和所述第三激活函数，包括：

14.根据权利要求13所述的方法，其特征在于，所述满足预设停止条件，包括：

所述损失函数收敛，和/或所述损失函数值小于预设值。

15.根据权利要求6所述的方法，其特征在于，所述嵌入空间中基于映射特征之间的相似度将所述映射特征聚合成至少一个映射特征集，每个所述映射特征集中的映射特征对应的图像、关键词和描述语句之间存在对应关系。

16.根据权利要求5所述的方法，其特征在于，基于所述图像特征和所述关键词特征获得输入特征，包括：

17.根据权利要求7所述的方法，其特征在于，所述训练后的映射网络还用于：

18.一种基于关键词的图像描述装置，其特征在于，包括：

语句获取单元，用于利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句；

所述关键词提取单元，具体用于利用关键词提取网络，对图像进行关键词判断，得到至少一个对应所述图像的关键词，所述关键词提取网络经过关键词网络训练单元基于第二样本图像训练获得，所述第二样本图像标注有第二标注描述语句；

所述关键词网络训练单元，包括：

关键词预测模块，用于将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词；所述关键词提取网络为多标签分类网络，所述关键词集合包括至少两个关键词；

关键词训练模块，用于以所述第二样本图像对应的至少两个关键词为监督信息，结合所述预测关键词训练所述关键词提取网络。

19.根据权利要求18所述的装置，其特征在于，所述样本关键词模块，具体用于利用关键词提取算法，从所述第二样本图像对应的第二标注描述语句中获得至少两个关键词，每个所述第二标注描述语句对应至少一个关键词。

20.根据权利要求18所述的装置，其特征在于，所述关键词预测模块，具体用于将所述第二样本图像输入所述关键词提取网络，得到概率向量；所述概率向量包括至少一个概率值，每个所述概率值与所述关键词集合中的一个关键词相对应；从所述概率向量中获得至少一个大于或等于预设值的概率值，基于所述概率值从所述关键词集合中得到对应所述第二样本图像的至少两个预测关键词。

21.根据权利要求18-20任一所述的装置，其特征在于，还包括：网络训练单元，用于基于第一样本图像对所述编解码网络进行训练，所述第一样本图像标注有第一标注描述语句，所述第一标注描述语句对应所述第一样本图像的关键词。

22.根据权利要求21所述的装置，其特征在于，所述网络训练单元，包括：

映射模块，用于利用映射网络，将第一样本图像及其对应的关键词映射到嵌入空间，得到所述第一样本图像对应的图像特征和所述关键词对应的关键词特征；所述映射网络经过映射网络训练模块基于第三样本图像训练获得，所述第三样本图像标注有第三标注描述语句及第三标注关键词；

23.根据权利要求22所述的装置，其特征在于，所述网络训练单元，还包括：

24.根据权利要求23所述的装置，其特征在于，所述映射网络训练模块，包括：

25.根据权利要求24所述的装置，其特征在于，所述特征标注模块，具体用于利用所述第二卷积神经网络，对所述第三样本图像进行处理，获得所述第三样本图像对应的第三图像特征；

26.根据权利要求24所述的装置，其特征在于，所述映射网络包括第一激活函数、第二激活函数和第三激活函数；

27.根据权利要求26所述的装置，其特征在于，所述损失获得模块，包括：

28.根据权利要求27所述的装置，其特征在于，所述第一损失模块，具体用于获得所述第一映射特征和所述第二映射特征之间的相似度值；利用损失函数，基于所述第一映射特征和所述第二映射特征之间的相似度值，确定所述第一损失函数值；

29.根据权利要求28所述的装置，其特征在于，所述映射训练模块，具体用于利用所述损失函数值，通过反向梯度下降方法训练所述映射网络中的所述第一激活函数、所述第二激活函数和所述第三激活函数。

30.根据权利要求29所述的装置，其特征在于，所述映射训练模块，具体用于：

31.根据权利要求30所述的装置，其特征在于，所述满足预设停止条件，包括：

所述损失函数收敛，和/或所述损失函数值小于预设值。

32.根据权利要求23所述的装置，其特征在于，所述嵌入空间中基于映射特征之间的相似度将所述映射特征聚合成至少一个映射特征集，每个所述映射特征集中的映射特征对应的图像、关键词和描述语句之间存在对应关系。

33.根据权利要求22所述的装置，其特征在于，所述模型预测模块基于所述图像特征和所述关键词特征获得输入特征时，具体用于将所述图像特征和所述关键词特征加权求和，得到输入特征。

34.根据权利要求24所述的装置，其特征在于，经过所述映射网络训练模块训练的映射网络，还用于基于接收到的待检索图像从所述嵌入空间中获得对应的检索语句，

35.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求18至34任意一项所述的基于关键词的图像描述装置。

36.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至17任意一项所述基于关键词的图像描述方法。

37.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至17任意一项所述基于关键词的图像描述方法。