CN111553371B

CN111553371B - 一种基于多特征提取的图像语义描述方法及系统

Info

Publication number: CN111553371B
Application number: CN202010306512.6A
Authority: CN
Inventors: 赵小虎; 有鹏; 李晓; 常先红; 宋瑞军; 张楠
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2023-04-18
Anticipated expiration: 2040-04-17
Also published as: CN111553371A

Abstract

本发明涉及一种基于多特征提取的图像语义描述方法及系统，属于图像特征提取技术领域，解决了现有技术提取的图像特征单一且长短时记忆网络只能捕捉单向时序信息等问题。该方法包括：将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量；提取所述图像的属性特征向量；将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数；对所述前向联合损失函数和后向联合损失函数累加求和，当所述和最小时，获得与所述图像最佳匹配的语义描述。实现了多个图像特征的提取，提高了语义描述的精确度。

Description

一种基于多特征提取的图像语义描述方法及系统

技术领域

本发明涉及图像特征提取技术领域，尤其涉及一种基于多特征提取的图像语义描述方法及系统。

背景技术

图像语义描述一直是人工智能领域中最重要的研究方向之一，是图像理解的高级任务。目前，基于深度神经网络的图像语义描述方法在这一领域取得了重大突破，尤其是卷积神经网络与递归神经网络相结合的语义描述生成模型。

Mao等人创造性地将卷积神经网络和递归神经网络相结合，解决了图像描述和句子检索等问题。之后Kiros等人率先将编码-解码框架引入图像语义描述研究。它们利用深度卷积神经网络对视觉信息进行编码，同时利用长短时记忆网络(LSTM)对文本数据进行编码。

在基于编码和解码的框架下，语义描述取得有益的效果，但是，现有技术提取的图像特征单一，不足以表示完整的图像信息，造成语义描述效果较差；其次，在RNN(循环神经网络)中存在的梯度消失问题利用LSTM可以消除，然而，LSTM只能捕捉单向时序信息，未实现真正意义上的全局上下文依赖，造成语义描述的精确度较低。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于多特征提取的图像语义描述方法及系统，用以解决现有技术提取的图像特征单一且LSTM只能捕捉单向时序信息，造成语义描述精确度较低的问题。

一方面，本发明实施例提供了一种基于多特征提取的图像语义描述方法，包括如下步骤：

将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量；

提取所述图像的属性特征向量；属性特征包括图像的轮廓、纹理与位置信息；

将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数；

对所述前向联合损失函数和后向联合损失函数累加求和，当所述和最小时，获得与所述图像最佳匹配的语义描述。

进一步，将所述图像输入属性特征提取模型提取得到图像的属性特征向量，所述属性特征提取模型通过如下步骤得到：

建立属性特征提取基础模型，所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块；

所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到；所述变更后的SSD网络包括特征提取层，所述特征提取层用于对输入图像进行特征映射获得特征图；

所述先验框模块，用于基于不同的特征图，设置不同尺寸的先验框，利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵；

所述列向量最大化模块，用于对所述属性检测矩阵进行列向量最大化，得到属性特征向量；

输入训练图像对建立的所述基础模型进行训练，得到所述属性特征提取模型。

进一步，所述先验框的尺寸计算公式为：

其中，S_k为先验框相对于图像所占的比例，S_min和S_max分别为先验框相对于图像所占比例的最大值和最小值，n为特征图的个数。

进一步，所述将图像输入属性特征提取模型得到图像的属性特征向量，包括如下步骤：

将图像输入属性特征提取模型：

基于特征提取层，获得所述图像的特征图；

基于先验框，获得所述特征图的属性检测矩阵；

基于列向量最大化模块，获得属性特征向量。

进一步，所述将所述全局特征和属性特征同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数，具体包括如下步骤：

基于所述全局特征向量和属性特征向量，获得预测单词；

将所述预测单词输入嵌入层得到预测单词向量x_t；

将所述预测单词向量x_t嵌入到文本LSTM，得到文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

将所述文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

嵌入到多模态LSTM，得到多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

基于所述多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

使用softmax函数得到最大概率对应的单词w_t；

基于所述最大概率对应的单词w_t得到前向联合损失函数和后向联合损失函数。

进一步，所述得到文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

包括如下步骤：

基于所述预测单词向量x_t得到前向句子

和后向句子

对所述前向句子

和后向句子

编码，得到文本STM前向隐藏层序列

和文本LSTM后向隐藏层序列

另一方面，本发明实施例提供了一种基于多特征提取的图像语义描述系统，包括：

全局特征向量获取模块，用于将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量；

属性特征向量获取模块，用于提取所述图像的属性特征向量；所述属性特征包括图像的轮廓、纹理与位置信息；

联合损失函数获得模块，用于将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数；

语义描述获得模块，用于对所述前向联合损失函数和后向联合损失函数累加求和，当所述和最小时，获得与所述图像最佳匹配的语义描述。

进一步，所述属性特征向量获取模块建立属性特征提取模型的步骤如下：

进一步，所述属性特征向量获取模块通过下述步骤获得属性特征向量：

将图像输入属性特征提取模型：

基于特征提取层，获得所述图像的特征图；

基于先验框，获得所述特征图的属性检测矩阵；

基于列向量最大化模块，获得属性特征向量。

进一步，所述联合损失函数获得模块通过下述步骤得到前向联合损失函数和后向联合损失函数：

基于所述全局特征向量和属性特征向量，获得预测单词；

将所述预测单词输入嵌入层得到预测单词向量x_t；

和文本LSTM后向隐藏层序列

将所述文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

嵌入到多模态LSTM，得到多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

基于所述多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

使用softmax函数得到最大概率对应的单词w_t；

与现有技术相比，本发明至少可实现如下有益效果之一：

1、与现有技术相比，本申请提供的一种基于多特征提取的图像语义描述方法，解决了现有技术提取的图像特征单一，且只能捕捉单向时序信息的问题，实现了多个图像特征的提取，同时，双向长短时记忆网络能够捕捉双向时序信息，使得单词之间的依赖性更高，获得的语义描述效果更加精确。

2、在建立属性特征提取模型的过程中，使用Resnet-50残差结构代替原来的VGG16作为SSD网络的前置网络，并增加了特征提取层，解决了输入图像的目标尺度小、分辨率低等问题，提高了SSD网络的特征提取能力。

3、通过双向长短时记忆网络捕捉双向时序信息，使得单词之间的依赖性更高，解决了LSTM只能捕捉单向时序信息的问题，提高了语义描述效果的准确度。

4、基于前向联合损失函数和后向联合损失函数累加求和，最终得到期望序列，使用数学表达的方式将联合损失函数量化，简单易行，提高了可信度，使得语义描述结果更加精确、可靠。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为基于多特征提取的图像语义描述方法示意图；

图2为基于多特征提取的图像语义描述方法流程图；

图3为一个实施例中建立属性特征提取模型的示意图；

图4为一个实施例中提取图像属性特征向量的流程图；

图5为一个实施例中双向长短时记忆网络内部结构图；

图6为另一个实施例中基于多特征提取的图像语义描述系统结构图；

附图标记：

1000-全局特征向量获取模块；2000-属性特征向量获取模块；3000-联合损失函数获得模块；4000-语义描述获得模块。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

相对于现有技术，本申请提供了一种基于多特征提取的图像语义描述方法，如图1所示。对于输入的图像，通过全局特征提取模型得到图像的全局特征向量V_img，通过属性特征提取模型得到图像的属性特征向量V_att，然后将V_img和V_att同时输入双向长短时记忆网络，得到联合损失函数，当联合损失函数最小时，获得与输入图像匹配的语义描述。

本发明的一个具体实施例，公开了一种基于多特征提取的图像语义描述方法，如图2所示。包括如下步骤：

S1、将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量。

全局特征提取模型是图像处理的一种基本模型，提取全局特征是为了得到图像的重要信息，包括图像的颜色、纹理、轮廓和位置信息，这些信息就用得到的全局特征向量表示。例如输入的图像中有一个女生，就会得到作为女生的全局特征，例如长发、衣服的颜色、脸轮廓等。

具体的，提取图像的全局特征向量包括：对于全局特征提取模型，输入图像经过多层卷积核，在每层中，有多少个卷积核，经过此卷积核就会产生多少个特征图，随着网络的加深，特征图的长宽尺寸缩小，此卷积层提取的每个特征图越具有代表性。最后一层为全连阶层，经过此层得到的向量作为图像的全局特征向量。

通过提取待语义描述的图像的全局特征向量，实现了全局特征向量的提取，为后续进行图像语义描述做了支撑，对最终得到精确的语义描述具有重要的意义。

S2、提取所述图像的属性特征向量；所述属性特征包括纹理、轮廓与位置信息。

现有的语义描述方法在基于编码及解码的框架性下，取得了不错的描述效果，但是仅仅只是提取了图像的单一特征，单一的图像特征不足以描述完整的图像信息，造成图像描述的结果精确度低。因此，本申请在提取全局特征向量的同时，通过建立属性特征提取模型获得图像的属性特征向量，使用提取的多个特征描述图像的语义，增强了图像的语义描述精度。

优选地，将所述图像输入属性特征提取模型提取得到图像的属性特征向量，所述属性特征提取模型通过如下步骤得到：

建立属性特征提取基础模型，所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块；所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到；所述变更后的SSD网络包括特征提取层，所述特征提取层用于对输入图像进行特征映射获得特征图；所述先验框模块，用于基于不同的特征图，设置不同尺寸的先验框，利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵；所述列向量最大化模块，用于对所述属性检测矩阵进行列向量最大化，得到属性特征向量；

具体的，建立的属性特征提取模型包括变更后的SSD网络、先验框模块和列向量最大化模块。其中，变更后的SSD网络由Resnet-50残差结构代替VGG16网络得到，是对原有的SSD网络中的前置网络的改进。如图3所示，变更后的SSD网络包括7个特征提取层，其中，4个特征提取层设置在Resnet-50残差结构中。基于特征提取层进行特征映射可以得到特征图。先验框模块可以得到特征图的属性检测矩阵，具体包括：基于每一个先验框得到一个特征矩阵，将得到的所有特征矩阵进行concat函数合并计算得到属性检测矩阵。列向量最大化模块是对先验框模块得到的属性检测矩阵进行列向量最大化，得到图像的属性特征向量。

传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失、损耗等问题，同时还有导致梯度消失或者梯度爆炸，导致很深的网络无法训练，ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。在SSD网络中，使用Resnet-50残差结构代替原来的VGG16网络后，SSD网络中其他的特征提取层任然不变。使用Resnet-50残差结构代替原来的VGG16作为SSD网络的前置网络，并增加了特征提取层，解决了输入图像的目标尺度小、分辨率低等问题，提高了SSD网络的特征提取能力。

优选地，所述先验框尺寸的计算公式为：

其中，S_k为先验框相对于图像所占的比例，S_min和S_max分别为先验框相对于图像所占比例的最大值和最小值，n为特征图个数。对于先验框的长宽比a_r，一般选取

则每个先验框的宽

高

分别为：

先验框的中心点为

i,j∈[0,|f_k|]，|f_k|为第k个特征图的大小。

输入的图像经过该属性特征提取模型，可获得更加完整的图像信息，解决了全局特征提取模型在特征提取过程中由于丢失了重要信息使得获得的全局特征粗糙的问题，在提取的全局特征的基础上，再提取属性特征，实现了特征信息提取的完整化，增强了图像的语义表达效果。

优选地，如图4所示，所述将图像输入属性特征提取模型得到图像的属性特征向量，包括如下步骤：

S220、将图像输入属性特征提取模型。

S240、基于特征提取层，获得输入所述图像的特征图。输入的图像经过特征提取层即可获得特征图。

S260、基于先验框，获得所述特征图的属性检测矩阵。

具体的，获得属性检测矩阵的方法与提取全局特征的步骤相似，在每层特征图中，基于多层卷积核得到先验框的大小以及位置，基于每一个先验框得到一个特征矩阵，最后，将得到的所有特征矩阵进行concat函数合并计算得到属性检测矩阵。经过多个不同属性检测矩阵的叠加，最终获得图像的属性特征。多个特征提取层与多个先验框的组合，使得提取的图像特征更加完善，提高了语义描述的精度。

S280、基于列向量最大化模块，获得属性特征向量。

具体的，基于上述步骤S260获得的属性检测矩阵，列向量最大化模块通过下述公式得到属性特征向量：

其中，V_att为属性特征向量，

为属性检测矩阵，i,j分别为属性检测矩阵的一个行元素或列元素，m为先验框数，c为训练得到的检测矩阵类别数，本实施例中，取m＝14658，c＝300。

采用属性特征提取模型得到图像的属性特征向量，解决了全局特征提取模型由于丢失了重要信息造成了获得的全局特征粗糙的问题，实现了特征信息提取的完整化，增强了图像的语义表达效果。

S3、将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数。

LSTM作为RNN的一种变体，解决了训练过程中梯度消失和梯度爆炸的问题，但是，LSTM只能够捕捉单相时序信息，对语义描述的精确度较低。而Bi-LSTM的提出是为了更好地对输入数据进行表达，解决了LSTM只能够捕捉单相时序信息的问题。对于很多的数据，如声音和文本，一句话的内容与上下文都有联系，Bi-LSTM可以通过使用对正向的时间序列和反向的时间序列分别进行训练得到与图像相似度最高的词向量的概率，通过该词向量组成的句子可以获得上下文的语义描述。Bi-LSTM包括前向的LSTM和后向的LSTM，LSTM主要通过对旧信息的遗忘和新信息的记忆，使得后续时刻计算的重要信息得以传递，而无用的信息被丢弃，并在每个时刻输出隐层状态。同时，Bi-LSTM可以避免梯度消失问题，能够捕捉双向语义依赖，提高模型对图像的语义描述性能。

具体地，如图5所示，双向长短时记忆网络依次包括嵌入层、文本LSTM(T-LSTM)、多模态LSTM(M-LSTM)和Softmax概率计算层。优选的，将全局特征和属性特征同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数，具体包括如下步骤：

S310、基于所述全局特征向量和属性特征向量，获得预测单词。具体的，随机梯度下降(SDG)方法是现有的一种实现端到端的训练方法，在训练过程中，双向长短时记忆网络会对输入的全局特征向量和语义特征向量进行识别训练，使其基于全局特征向量和语义特征向量具有直接获得预测单词的效果。在该步骤中，双向长短时记忆网络是已经被随机梯度下降(SDG)方法训练过的网络，当输入全局特征向量和属性特征向量，可直接获得预测单词。

S320、将所述预测单词输入嵌入层得到预测单词向量x_t。嵌入层是双向长短时记忆网络必不可少的处理层，能够将嵌入的单词转化为向量的形式。

S330、将所述预测单词向量x_t嵌入到文本LSTM，得到文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

具体包括如下两个步骤：

S331、基于所述预测单词向量x_t得到前向句子

和后向句子

具体的，x_t为单词向量，通过单词的组合可得到不同的句子，由于x_t为矢量形式，故其组合得到的句子也为矢量形式，分为前向句子

和后向句子

S332、对所述前向句子

和后向句子

编码，得到文本STM前向隐藏层序列

和文本LSTM后向隐藏层序列

具体的，通过如下公式实现：

上式中，

和

分别为从T-LSTM网络学习得到的前向嵌入矩阵和后向嵌入矩阵，

和

分别为前向句子和后向句子，

和

分别为从T-LSTM网络学习得到的前向和后向对应的权重，T代表T-LSTM。

S340、将所述文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

嵌入到多模态LSTM，得到多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

具体的，通过如下公式实现：

上式中，V_img为全局特征向量，

和

分别为从M-LSTM网络学习得到的前向和后向对应的权重，M代表M-LSTM。

S350、基于所述多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

使用softmax函数得到最大概率对应的单词w_t。具体的，通过下述公式实现：

上式中，

和

分别为前向句子和后向句子对应的最大概率，W_s和b_s分别为从Bi-LSTM网络中学习得到的权重矩阵和权重向量。

S360、基于所述最大概率对应的单词w_t得到前向联合损失函数和后向联合损失函数。

通过双向长短时记忆网络，得到了前向句子和后向句子对应的最大概率，因此从前向句子和后向句子可以得到最大概率对应的单词w_t。对最大概率对应的单词w_t进行重新组合，即可得到期望序列I。前向联合损失函数

和后向联合损失函数

均由最大概率对应的单词w_t和期望序列I获得，公式如下：

上式中，T为期望序列I的长度，p()为期望序列I的概率，w_t为最大概率对应的一个单词。

S4、对所述前向联合损失函数和后向联合损失函数累加求和，当所述和最小时，提取得到与所述图像最佳匹配的语义描述。

基于最大概率对应的单词w可以获得联合损失函数，其中，前向联合损失函数

与后向联合损失函数

的累加求和为联合损失函数L，即

联合损失函数L(lossfunction)是用来估量预测值与真实值不一致程度，联合损失函数值越小，拟合度越高，即预测值与真实值最接近，最后生成的语句与图像相关度就越高。因此，当联合损失函数L最小时，即前向联合损失函数和后向联合损失函数计算公式中的p最大，计算公式如下所示：

当通过上式得到的期望序列p(w_t|I)最大时，联合损失函数值越小，预测值与真实值最接近，最后期望序列I与图像相关度就越高，期望序列I即为与图像最为匹配的语义描述。

基于前向联合损失函数和后向联合损失函数累加求和，最终得到期望序列，使用数学表达的方式将联合损失函数量化，简单易行，提高了体验度，使得语义描述结果更加精确、可靠。

与现有技术相比，本申请提供的一种基于多特征提取的图像语义描述方法，解决了现有技术提取的图像特征单一，且只能捕捉单向时序信息的问题，实现了多个图像特征的提取，同时，双向长短时记忆网络能够捕捉双向时序信息，使得单词之间的依赖性更高，获得的语义描述效果更加精确。

本发明的另一个实施例，如图6所示，提供了一种基于多特征提取的图像语义描述系统，包括如下模块：

全局特征向量获取模块1000，用于将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量；

属性特征向量获取模块2000，用于提取所述图像的属性特征向量；其中，属性特征包括图像的轮廓、纹理与位置信息；

联合损失函数获得模块3000，用于将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数；

语义描述获得模块4000，用于对所述前向联合损失函数和后向联合损失函数累加求和，当所述和最小时，获得与所述图像最佳匹配的语义描述。

一种基于多特征提取的图像语义描述系统，解决了现有技术提取的图像特征单一，且只能捕捉单向时序信息的问题，实现了多个图像特征的提取，同时，双向长短时记忆网络能够捕捉双向时序信息，使得单词之间的依赖性更高，获得的语义描述效果更加精确。

优选的，所述属性特征向量获取模块建立属性特征提取模型的步骤如下：

优选的，所述属性特征向量获取模块通过下述步骤获得属性特征向量：

将图像输入属性特征提取模型：

基于特征提取层，获得所述图像的特征图；

基于先验框，获得所述特征图的属性检测矩阵；

基于列向量最大化模块，获得属性特征向量。

通过属性特征向量获取模块，建立了属性特征提取模型，获得了属性特征向量，解决了现有技术获得的图像特征单一的问题，使得图像特征更加完整化，提高了语义描述的效果。

优选的，所述联合损失函数获得模块通过下述步骤得到前向联合损失函数和后向联合损失函数：

基于所述全局特征向量和属性特征向量，根据随机梯度下降模型得到预测单词；

将所述预测单词输入嵌入层得到预测单词向量x_t；

和文本LSTM后向隐藏层序列

将所述文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

嵌入到多模态LSTM，得到多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

基于所述多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

使用softmax函数得到最大概率对应的单词w；

基于所述最大概率对应的单词w得到前向联合损失函数和后向联合损失函数。

通过联合损失函数获得模块，实现了双向长短时记忆网络对双向时序信息的捕捉，解决了现有技术只能捕捉单向时序信息的问题，使得单词之间的依赖性更高。同时，通过语义描述获得模块，使用数学表达的方式将联合损失函数量化，简单易行，提高了体验度，使得语义描述结果更加精确、可靠。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多特征提取的图像语义描述方法，其特征在于，包括如下步骤：

提取所述图像的属性特征向量；其中，属性特征包括图像的轮廓、纹理与位置信息；

对所述前向联合损失函数和后向联合损失函数累加求和，当所述和最小时，获得与所述图像最佳匹配的语义描述；

将所述全局特征和属性特征同时输入到双向长短时记忆网络，得到前向联合损失函数和后向联合损失函数，具体包括如下步骤：

基于所述全局特征向量和属性特征向量，获得预测单词；

将所述预测单词输入嵌入层得到预测单词向量x_t；

和文本LSTM后向隐藏层序列

将所述文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

嵌入到多模态LSTM，得到多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

基于所述多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

使用softmax函数得到最大概率对应的单词w_t；

2.根据权利要求1所述的方法，其特征在于，将所述图像输入属性特征提取模型提取得到图像的属性特征向量，所述属性特征提取模型通过如下步骤得到：

3.根据权利要求2所述的方法，其特征在于，基于下述公式设置所述先验框的尺寸：

4.根据权利要求2或3所述的方法，其特征在于，所述将图像输入属性特征提取模型得到图像的属性特征向量，包括如下步骤：

将图像输入属性特征提取模型：

基于特征提取层，获得所述图像的特征图；

基于先验框，获得所述特征图的属性检测矩阵；

基于列向量最大化模块，获得属性特征向量。

5.根据权利要求1所述的方法，其特征在于，所述得到文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

包括如下步骤：

基于所述预测单词向量x_t得到前向句子

和后向句子

对所述前向句子

和后向句子

编码，得到文本STM前向隐藏层序列

和文本LSTM后向隐藏层序列

6.一种基于多特征提取的图像语义描述系统，其特征在于，包括：

属性特征向量获取模块，用于提取所述图像的属性特征向量；其中，属性特征包括图像的轮廓、纹理与位置信息；

语义描述获得模块，用于对所述前向联合损失函数和后向联合损失函数累加求和，当所述和最小时，获得与所述图像最佳匹配的语义描述；

所述联合损失函数获得模块通过下述步骤得到前向联合损失函数和后向联合损失函数，具体包括如下步骤：

基于所述全局特征向量和属性特征向量，获得预测单词；

将所述预测单词输入嵌入层得到预测单词向量x_t；

和文本LSTM后向隐藏层序列

将所述文本LSTM前向隐藏层序列

和文本LSTM后向隐藏层序列

嵌入到多模态LSTM，得到多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

基于所述多模态LSTM前向隐藏层序列

和多模态LSTM后向隐藏层序列

使用softmax函数得到最大概率对应的单词w_t；

7.根据权利要求6所述的系统，其特征在于，所述属性特征向量获取模块建立属性特征提取模型的步骤如下：

8.根据权利要求6或7所述的系统，其特征在于，所述属性特征向量获取模块通过下述步骤获得属性特征向量：

将图像输入属性特征提取模型：

基于特征提取层，获得所述图像的特征图；

基于先验框，获得所述特征图的属性检测矩阵；

基于列向量最大化模块，获得属性特征向量。