CN112580658A

CN112580658A - 图像语义描述方法、装置、计算设备及计算机存储介质

Info

Publication number: CN112580658A
Application number: CN201910934537.8A
Authority: CN
Inventors: 王伟豪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2021-03-30
Anticipated expiration: 2039-09-29
Also published as: CN112580658B

Abstract

本发明实施例涉及数据处理技术领域，公开了一种图像语义描述方法、装置、计算设备及计算机存储介质，该方法包括：通过改进Inception‑v3模型提取待描述图像的视觉特征，所述改进Inception‑v3模型包括多个嵌套卷积层，所述多个嵌套卷积层之间并联连接，所述多个嵌套卷积层中的最后一个嵌套卷积层使用残差结构方式连接；将所述待描述图像的视觉特征输入至语义描述模型中，得到所述待描述图像的语义描述；所述语义描述模型是通过多组训练样本训练双层嵌套LSTM得到的，所述多组训练样本中的每一组均包括：样本图像的视觉特征和所述样本图像对应的语义描述词向量。通过上述方式，本发明实施例实现了图像的语义描述。

Description

图像语义描述方法、装置、计算设备及计算机存储介质

技术领域

本发明实施例涉及图像处理技术领域，具体涉及一种图像语义描述方法、装置、计算设备及计算机存储介质。

背景技术

图像语义描述对于图像检索、图像处理等具有重要意义。传统的图像语义描述方法分为基于模板和基于搜索的方法。基于模板的方法先利用区域特征提取方案来对图片的类别，属性等区域特征进行提取，然后将这些提取到的特征填入设定好的句子模板的空格中，从而完成对图像的描述。该方法存在生成的句子句式单调，缺失大量语义信息的缺点。

基于搜索的方法通过相似度算法将提取到的特征与构建的搜索图像库中的图像进行运算，找出符合算法的图片，而这些图像事先已经经过语义描述，所以只需要将其描述适当微调，就可以进行输出。这种方法在固定或相似场景下的语义描述的效果很好，但是该类方法十分依赖构建的搜索图像库，且鲁棒性较差

发明内容

鉴于上述问题，本发明实施例提供了一种图像语义描述方法、装置、计算设备及计算机存储介质，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种图像语义描述方法，所述方法包括：

通过改进Inception-v3模型提取待描述图像的视觉特征，所述改进Inception-v3模型包括多个嵌套卷积层，所述多个嵌套卷积层之间并联连接，所述多个嵌套卷积层中的最后一个嵌套卷积层使用残差结构方式连接；

将所述待描述图像的视觉特征输入至语义描述模型中，得到所述待描述图像的语义描述；所述语义描述模型是通过多组训练样本训练双层嵌套LSTM得到的，所述多组训练样本中的每一组均包括：样本图像的视觉特征和所述样本图像对应的语义描述词向量。

可选的，在通过改进Inception-v3模型提取待描述图像的视觉特征之前，所述方法还包括：

获取所述多组训练样本；

根据所述多组训练样本训练双层嵌套LSTM，得到所述语义描述模型。

可选的，所述获取多组训练样本，包括：

获取样本图像及所述样本图像对应的语义描述；

通过所述改进Inception-v3模型提取所述样本图像的视觉特征；

根据词向量表提取所述语义描述对应的词向量，所述词向量表是通过训练word2vec模型得到的；

将所述视觉特征和所述视觉特征对应的所述词向量作为一组训练样本，以得到多组训练样本。

可选的，所述通过word2vec模型提取所述语义描述对应的词向量，包括：

对所述语义描述分词，并对每一分词使用独热编码进行编码；

通过词向量表将所述编码转换为词向量，所述词向量表是通过训练word2vec模型得到的。

可选的，所述根据所述多组训练样本训练双层嵌套LSTM，得到所述语义描述模型，包括：

根据每一组训练样本中的词向量生成时间顺序；

将每一组训练样本中的视觉特征输入第一LSTM层；

按照所述时间顺序，将所述词向量依次输入所述第一LSTM层，以使所述第一LSTM层学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一外部状态；

将所述第一外部状态输入第二LSTM层，以使所述第二LSTM层根据所述第一外部状态继续学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第二外部状态；

通过全连接层对所述第二外部状态进行加权，得到每一组训练样本的加权结果；

通过归一化指数函数softmax分类器对所述加权结果进行分类最大化输出，得到每一组训练样本对应的输出结果；根据所述输出结果计算损失函数值；

根据所述损失函数值更新所述双层嵌套LSTM的权重，直至所述损失函数值最小；

将所述损失函数值最小的双层嵌套LSTM模型作为所述语义描述模型。

可选的，所述双层嵌套LSTM包括Attention层；在将每一组训练样本中的视觉特征输入第一LSTM层之前，所述方法还包括：

将所述视觉特征输入Attention模块，以使所述Attention模块确定每一个视觉特征在所有视觉特征中所占的比重；

所述按照所述时间顺序，将所述词向量依次输入所述第一LSTM层，以使所述第一LSTM层学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一外部状态，包括：

按照所述时间顺序，将所述词向量依次输入所述第一LSTM层，以使所述第一LSTM层根据所述比重学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一外部状态。

可选的，所述第一LSTM层包括第一LSTM单元和第二LSTM单元；所述按照所述时间顺序，将所述词向量依次输入所述第一LSTM层，以使所述第一LSTM层学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一外部状态，包括：

通过所述第一LSTM单元学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出第一状态；

通过所述第二LSTM单元学习每一组训练样本的第一状态和词向量之间的依赖关系，以输出每一组训练样本的第二状态；将所述第一状态和所述第二状态合并，得到每一组训练样本的第一外部状态。

可选的，所述第一LSTM单元包括遗忘门、输入门及输出门；所述通过所述第一LSTM层学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一状态，包括：根据以下公式学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一状态；

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，f_t表示遗忘门，i_t表示输入门，o_t表示输出门，c_t表示状态单元，h_t表示第一状态，W_i表示输入门的权重矩阵，b_i表示输入门的偏置项，W_f表示遗忘门的权重矩阵，b_f表示遗忘门的偏置项，W_o表示输出门的权重矩阵，b_o表示输出门的偏置项，门激活函数为sigmoid(σ)，其值域是(0，1)，输出的激活函数为tanh函数，⊙表示向量元素乘积。

根据本发明实施例的另一方面，提供了一种图像语义描述装置，包括：

提取模块，用于通过改进Inception-v3模型提取待描述图像的视觉特征，所述改进Inception-v3模型包括多个嵌套卷积层，所述多个嵌套卷积层之间并联连接，所述多个嵌套卷积层中的最后一个嵌套卷积层使用残差结构方式连接；

输入模块，用于将所述待描述图像的视觉特征输入至语义描述模型中，得到所述待描述图像的语义描述；所述语义描述模型是通过多组训练样本训练双层嵌套LSTM得到的，所述多组训练样本中的每一组均包括：样本图像的视觉特征和所述样本图像对应的语义描述词向量。

根据本发明实施例的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述的一种图像语义描述方法对应的操作。

根据本发明实施例的还一方面，提供了一种计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的图像语义描述方法对应的操作。

本发明实施例通过改进Inception-v3模型提取待描述图像的视觉特征，并通过语义描述模型得到待描述图像的语义描述，从而实现了对待描述图像的语义描述。其中，改进Inception-v3模型对现有的Inception-v3模型做了进一步改进，从而优化了Inception-v3模型的特征提取效果，使得提取到的视觉特征更加可靠；语义描述模型是通过大量样本图像和样本图像对应的语义描述训练得到的，因此，语义描述模型中包含了样本图像的视觉特征和语义描述之间的对应关系，根据该语义描述模型对待描述图像进行语义描述更加准确可靠。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明第一实施例提供的一种图像语义描述方法的流程图；

图2示出了本发明第二实施例提供的一种图像语义描述方法的流程图；

图3示出了本发明第二实施例提供的一种图像语义描述方法中第一LSTM单元的结构示意图；

图4示出了本发明第三实施例提供的一种图像语义描述装置的功能框图；

图5示出了本发明第四实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明第一实施例的一种图像语义描述方法的流程图，如图1所示，该方法包括以下步骤：

步骤110：通过改进Inception-v3模型提取待描述图像的视觉特征，改进Inception-v3模型包括多个嵌套卷积层，多个嵌套卷积层之间并联连接，多个嵌套卷积层中的最后一个嵌套卷积层使用残差结构方式连接。

Inception-v3模型是一种深度卷积神经网络架构，该深度卷积神经网络架构与Inception-v1、Inception-v2的不同之处在于，Inception-v3模型可以将卷积核分解，例如，可以将一个3*3的卷积核分解为1*3的卷积核和3*1的卷积核，使用分解完之后的卷积核提取图片特征可以提高计算速度；此外，Inception-v3模型还可以将一个卷积层拆分为两个卷积层，即形成嵌套卷积层，使得深度卷积神经网络的深度进一步增加，从而增加了网络的非线性。本发明实施例对Inception-v3模型做了进一步改进，将现有的Inception-v3模型中多个嵌套卷积层之间的串联结构改为并联连接，相比于串联连接时仅能使用固定的卷积核扫描图片以提取图片特征，并联结构可以使用多种卷积核扫描图片以提取图片特征，使得提取到的图片特征更加多样化。此外，现有的Inception-v3模型的各个嵌套卷积层之间是直接连接，即，前一层嵌套卷积层的输出作为下一层嵌套卷积层的输入。本发明实施例将现有的Inception-v3模型的最后两层嵌套卷积层改为残差结构，即前一层的输出不仅作为后一层的输入，在输入最后的线性层时，还将前一层的输出和后一层的输入累加，作为线性层的输入，从而避免了Inception-v3模型的深度过深而带来的梯度消失问题。

将待描述图像输入改进Inception-v3模型中，该模型中的多个卷积层对该图像进行特征提取，前一个卷积层提取到的特征作为后一个卷积层的输入。在一些实施例中，每一个卷积层连接一个池化层，用于对提取的特征进行降维。每一层卷积层包含多个卷积核，用于对图像进行扫描，得到图像的视觉特征。

步骤120：将待描述图像的视觉特征输入语义描述模型中，得到待描述图像的语义描述。

在本步骤中，语义描述模型是通过多组训练样本训练双层嵌套长短期记忆神经网络(Long Short-Term Memory，LSTM)得到的，每一组训练样本包括样本图像的视觉特征和样本图像对应的语义描述词向量。其中，双层嵌套LSTM包括两层LSTM层，每一LSTM层包括两个嵌套的LSTM单元。在语义描述模型训练完成后，得到语义描述模型中各个神经元之间连接的权重，将该权重与输入的待描述图像的视觉特征作用，即可得到输出的语义描述对应的词向量，将该词向量根据词向量和语义描述之间的对应关系转换为语义描述，即为该带描述图像对应的语义描述。具体的语义描述模型的训练过程请参阅下一实施例的描述，在此不再赘述。

图2示出了本发明第二实施例的一种图像语义描述方法的流程图，如图2所示，该方法包括以下步骤：

步骤210：获取多组训练样本。

在本步骤中，一组训练样本包括一个样本图像和该样本图像对应的语义描述，因此，获取样本图像及样本图像对应的语义描述即可得到训练样本。通过改进Inception-v3模型提取每一个样本图像的视觉特征，其中，改进Inception-v3模型的具体说明请参阅第一实施例中步骤110的描述，在此不做赘述。根据词向量表提取语义描述对应的词向量，其中，每一个词向量对应于语义描述中的一个分词。在一种实施方式中，词向量表存储了每一个分词的独热编码和词向量之间的对应关系，因此，在根据词向量表提取语义描述对应的词向量时，事先将语义描述进行分词，并对每一个分词使用独热编码进行编码，如果分词量很大时，每一个分词对应的独热编码都是一个很长的向量，因此，在本发明实施例中，通过word2vec模型训练得到一个词向量表，从而将每一个分词的独热编码转换为一个低维度的向量。应理解，在对word2vec模型进行训练时，将大量的语义描述拆分为分词，并对每一分词进行独热编码，通过word2vec中的语义词典建立独热编码与词向量之间的对应关系，得到的词向量表。词向量表中的词向量相较于独热编码来说，维度降低，同时，词向量包含了一个语义描述中各分词之间的关联关系。

步骤220：根据多组训练样本训练双层嵌套LSTM，得到语义描述模型。

双层嵌套LSTM是一种循环记忆神经网络模型，上一时刻的输出结果会作为下一时刻的输入。本发明实施例中，一个图像对应的语义描述的各词向量之间存在顺序，因此，将每一图像对应的语义描述之间的顺序作为时间顺序。该时间顺序应该理解为一个时间步，即前后发生的顺序，而不是物理时间。

在训练时，每一次迭代过程仅输入一组训练样本，一组训练样本的视觉特征作为输入初始状态首先输入第一LSTM层，然后将词向量作为双层嵌套LSTM的输入，按照一组训练样本中各词向量之间的时间顺序依次输入双层嵌套LSTM中，从而学习视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一外部状态。值得说明的是，第一外部状态是第一LSTM层的输出结果，用于表示视觉特征和词向量之间的依赖关系。将第一外部状态作为第二LSTM层的输入初始状态输入第二LSTM层，然后按照词向量的时间顺序继续输入每一个词向量，由于第一外部状态中包含了视觉特征和词向量之间的依赖关系，因此，第二LSTM层可以根据第一外部状态继续学习视觉特征和词向量之间的依赖关系，并输出第二外部状态。

双层嵌套LSTM层的最后一层是一个线性层，即全连接层，用于对第二外部状态进行加权，得到每一组训练样本的加权结果，通过归一化指数函数softmax分类器对该加权结果进行分类最大化输出，得到每一组训练样本对应的输出结果。该输出结果用于表示实际输出的语义描述，实际输出的语义描述是若干个词向量之间的结合，各词向量之间的顺序与事先输入的时间顺序有可能一致，也有可能不一致，两者之间的差别通过损失函数值描述。本发明实施例并不限定损失函数的类别，例如，平方损失函数、交叉熵损失函数等。根据损失函数值更新双层嵌套LSTM的权重，直至损失函数值最小。将损失函数值最小的双层嵌套LSTM模型作为语义描述模型。

在一些实施例中，双层嵌套LSTM包括Attention层，该Attention层置于第一LSTM层之前，在将每一组训练样本中的视觉特征输入第一LSTM层之前，将视觉特征先输入Attention层，以确定各视觉特征中各视觉特征的比重，根据该比重学习各视觉特征和各词向量之间的依赖关系。在学习时着重学习比重大的视觉特征和各词向量之间的依赖关系。例如，一幅图中包含的背景对应的视觉特征比重小，人物或动物对应的视觉特征比重大，在学习时，着重学习人物或动物对应的视觉特征和各词向量之间的依赖关系。应理解，在加入Attention层之后，Attention层相当于双层嵌套LSTM中的一层，因此，比重和双层嵌套LSTM的权重同时进行训练更新。

在本实施例中，第一LSTM层和第二LSTM层均包括两个嵌套的LSTM单元，以第一LSTM层为例，对第一LSTM层的训练过程做进一步说明。

第一LSTM层包括第一LSTM单元和第二LSTM单元，通过第一LSTM单元学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出第一状态；通过第二LSTM单元学习每一组训练样本的第一状态和词向量之间的依赖关系，以输出每一组训练样本的第二状态；将第一状态和第二状态合并，得到每一组训练样本的第一外部状态。其中，第一LSTM单元的输出是第二LSTM单元的输入，以第一LSTM单元为例，对各参数的计算过程进一步说明。

图3示出了第一LSTM单元的结构示意图，如图4所示，第一LSTM单元包括遗忘门、输入门及输出门。通过第一LSTM层，根据以下公式学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一状态；

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，f_t表示遗忘门，i_t表示输入门，o_t表示输出门，c_t表示状态单元，h_t表示第一状态，W_i表示输入门的权重矩阵，b_i表示输入门的偏置项，W_f表示遗忘门的权重矩阵，b_f表示遗忘门的偏置项，W_o表示输出门的权重矩阵，b_o表示输出门的偏置项，门激活函数为sigmoid(σ)，其值域是(0，1)，输出的激活函数为tanh函数，⊙表示向量元素乘积。将h_t作为第二LSTM单元的初始输入，继续按照词向量之间的时间顺序依次输入词向量，学习视觉特征和词向量之间的依赖关系，输出第二状态。具体学习过程请参阅第一LSTM单元的学习过程，在此不再赘述。

步骤230：通过改进Inception-v3模型提取待描述图像的视觉特征。

步骤240：将待描述图像的视觉特征输入语义描述模型中，得到待描述图像的语义描述。

步骤230～步骤240的描述请参阅第一实施例中步骤110～步骤120的描述，在此不再赘述。

本发明实施例通过训练双层嵌套LSTM模型得到语义描述模型，训练过程中，语义描述模型中包括了样本图像的视觉特征和语义描述之间的对应关系，因此，通过语义描述模型提取待描述图像的语义描述更加可靠。

图4示出了本发明第三实施例的一种图像语义描述装置。如图3所示，该装置包括：提取模块310，用于通过改进Inception-v3模型提取待描述图像的视觉特征，所述改进Inception-v3模型包括多个嵌套卷积层，所述多个嵌套卷积层之间并联连接，所述多个嵌套卷积层中的最后一个嵌套卷积层使用残差结构方式连接；输入模块320，用于将所述待描述图像的视觉特征输入至语义描述模型中，得到所述待描述图像的语义描述；所述语义描述模型是通过多组训练样本训练双层嵌套LSTM得到的，所述多组训练样本中的每一组均包括：样本图像的视觉特征和所述样本图像对应的语义描述词向量。

在一些实施方式中，该装置还包括：获取模块330，用于获取多组训练样本；训练模块340，用于根据所述组训练样本训练双层嵌套LSTM，得到所述语义描述模型。

在一些实施例中，获取模块330进一步用于：

获取样本图像及所述样本图像对应的语义描述；

通过所述改进Inception-v3模型提取所述样本图像的视觉特征；

在一些实施例中，获取模块330进一步用于：

在一些实施例中，训练模块340进一步用于：

根据每一组训练样本中的词向量生成时间顺序；

将每一组训练样本中的视觉特征输入第一LSTM层；

在一些实施例中，双层嵌套LSTM包括Attention层，训练模块340进一步用于：

在一些实施例中，第一LSTM层包括第一LSTM单元和第二LSTM单元，训练模块340进一步用于：

在一些实施例中，所述第一LSTM单元包括遗忘门、输入门及输出门；训练模块340进一步用于：

根据以下公式学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一状态；

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

本发明实施例通过提取模块310通过改进Inception-v3模型提取待描述图像的视觉特征，并通过语义描述模型得到待描述图像的语义描述，从而实现了对待描述图像的语义描述。其中，改进Inception-v3模型对现有的Inception-v3模型做了进一步改进，从而优化了Inception-v3模型的特征提取效果，使得提取到的视觉特征更加可靠；语义描述模型是通过训练模块340根据大量样本图像和样本图像对应的语义描述训练得到的，因此，语义描述模型中包含了样本图像的视觉特征和语义描述之间的对应关系，根据该语义描述模型对待描述图像进行语义描述更加准确可靠。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的图像语义描述方法对应的操作。

图5示出了本发明第四实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述用于图像语义描述方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行图1中的步骤110～步骤120，图2中的步骤210～步骤240，以及实现图4中的模块310～模块340的功能。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种图像语义描述方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在通过改进Inception-v3模型提取待描述图像的视觉特征之前，所述方法还包括：

获取所述多组训练样本；

3.根据权利要求2所述的方法，其特征在于，所述获取多组训练样本，包括：

获取样本图像及所述样本图像对应的语义描述；

通过所述改进Inception-v3模型提取所述样本图像的视觉特征；

4.根据权利要求3所述的方法，其特征在于，所述通过word2vec模型提取所述语义描述对应的词向量，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述多组训练样本训练双层嵌套LSTM，得到所述语义描述模型，包括：

根据每一组训练样本中的词向量生成时间顺序；

将每一组训练样本中的视觉特征输入第一LSTM层；

6.根据权利要求5所述的方法，其特征在于，所述双层嵌套LSTM包括Attention层；

在将每一组训练样本中的视觉特征输入第一LSTM层之前，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述第一LSTM层包括第一LSTM单元和第二LSTM单元；

8.根据权利要求7所述的方法，其特征在于，所述第一LSTM单元包括遗忘门、输入门及输出门；

所述通过所述第一LSTM层学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一状态，包括：根据以下公式学习每一组训练样本中的视觉特征和词向量之间的依赖关系，以输出每一组训练样本的第一状态；

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

9.一种图像语义描述装置，其特征在于，包括：

10.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8任一项所述的一种图像语义描述方法对应的操作。