CN108830287A

CN108830287A - 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法

Info

Publication number: CN108830287A
Application number: CN201810349798.9A
Authority: CN
Inventors: 谢金宝; 吕世伟; 刘秋阳; 李佰蔚; 梁新涛; 王玉静
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-11-16

Abstract

本发明一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法属于计算机视觉与自然语言处理领域；包括利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件；利用Inception_ResNet_v2网络对ImageNet数据集进行预训练，得到卷积网络预训练模型；加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取；建立单隐层神经网络模型将图像特征描述子映射到词嵌入空间；将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入；将原始图片输入到图说模型生成中文描述语句；使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估；本发明实现了用中文描述图像的技术问题，加强了语句的连贯性与可读性。

Description

基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法

技术领域

本发明属于计算机视觉与自然语言处理领域，具体涉及一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法。

背景技术

对图像进行中文文本描述是一项结合计算机视觉与中文自然语言处理(NLP)的技术，随着日常生活中电子设备升级换代，人们产出图像数量的速度呈现指数型增长，对于日常生活而言，如何更高效的在海量的图像中搜索到用户所需求的图像信息，仅仅依靠传统的关键字检索方法不仅存在搜索速度过慢的问题而且也存在图像定位不准确问题，对于科研而言，在大数据时代，如果依靠人力对海量的图片进行标注，生成标签尤为显得不贴近实际。对图像进行准确的标注，这样不仅可以大大提高人们的图像检索效率，还可以为科研提供精准的数据用于分析，但是人工标注如此多的图像又不现实，因此自动为图像生成语言描述的技术应运而生，它要求机器不仅仅只是生成一个对于图像类别进行描述的标签词语，而是要在“理解图像”的内容之后，可以生成一个对图像的内容进行准确描述的包含上下文联系并且符合人类阅读习惯的句子。该技术的发展也将有助于图像标注，图像索引，智能图像识别以及聊天机器人等领域的发展。随着图像描述中文数据集的公开，使得设计出符合中国人阅读习惯的的图像语义化理解系统成为可能。

依靠传统手工特征结合的机器学习分类算法也可以实现对图像进行语义描述，但生成的中文语句无论从客观角度还是主观角度，语句的连贯性与可读性都不强。深度学习网络的应用使得这一问题有所改善但仍存在识别率低等缺点。

发明内容

针对上述问题，本发明的目的在于提供一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法；采用深度卷积神经网络模型利用其特征自学习能力对图像进行特征提取，提取到的图像特征具有一定的表述能力，语言模型的构建采用循环神经网络来作为描述语句的生成器，在序列数据处理方面表现优异，用来对图片中的内容进行推测，数据集方面选取AIChallenger图像中文描述数据集以及ImageNet图像数据集作为网络模型的训练数据。

本发明的目的是这样实现的：

一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，包括以下步骤：

步骤a、准备ImageNet图像数据集、AI Challenger图像描述训练集以及AIChallenger图像描述评估集，利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件；

步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练，得到卷积网络预训练模型；

步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取；

步骤d、对图像标注集采用中文分词组件jieba进行分词处理，依据分词后每个词语出现的频率由高到低建立词频词典，并给予每个词语唯一的数字编号建立索引；

步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征，并将图像特征描述子映射到词嵌入空间；

步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入，通过训练网络得到最终图说模型；

步骤g、将原始图片输入到训练好的图说模型生成中文描述语句；

步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。

进一步地，所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤a中所述利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件，实验环境为Ubuntu16.04+Anaconda3+Tensorflow 1.0.1，生成的tfrecord文件中包含有图像的编号，原始图像的二进制编码信息、图像存储路径、图像的名字以及分词后的中文描述语句列表，生成训练集tfrecord文件个数280个，评估集文件个数64个。

进一步地，所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤c所述图像特征描述子的抽取，选取Inception_ResNet_v2网络对图像进行特征抽取，网络在传统VGG网络模型的基础上引入Inception Architecture模块，Inception Architecture模块包含有1*1，3*3，5*5或者将5*5卷积核进行核分解成为2个3*3卷积核，三种不同卷积核来获取图像不同的局部感受野，提取到多尺度特征，将提取到的多尺度特征进行特征合并，得到最终卷积特征，在Inception网络中引入“跳远连接”的残差思想，将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入，并载入步骤b得到的预训练参数，得到Inception_ResNet_v2网络最后全局平均池化层的特征向量，其特征维数为1792维。

进一步地，所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤e所述提取描述集的词嵌入特征，并将图像特征描述子映射到词嵌入空间的方法，包括以下步骤：

步骤e1、将步骤d中词频词典中每个词按照词频词典规模进行one-hot编码；

步骤e2、随机初始化一个词嵌入矩阵W8560*512，矩阵的行数代表词典中的词语总数，矩阵的列数代表，词嵌入特征向量维数；

步骤e3、建立单隐层神经网络模型，隐层神经元个数设定为200个，激活函数使用sigmoid函数，神经网络的一次输入3个词语，即3个one-hot向量，输入的one-hot向量与词嵌入矩阵做乘积运算，得到每个词语的词嵌入特征向量，维数为512维；

步骤e4、将3个词语的词嵌入矩阵进行拼接，得到一个1536维向量作为神经网络的隐层输入，网络的隐层输出为8560个神经元，并接入一个softmax层做概率化，之后以标签词的one-hot向量与softmax层的最终输出联合构建交叉熵损失函数，并采用反向传播算法进行优化，得到最终的词嵌入矩阵W8560*512，具体的公式如下：

z⁽²⁾＝W₁ ^T·a⁽¹⁾+b₁ (1)

y＝a⁽³⁾＝softmax(z⁽³⁾) (4)

其中式(2)是神经网络的隐层输出，式(4)是神经网络的最终输出；式(5)是softmax函数的表达式，式(6)是神经网络的损失函数；

步骤e5、采用全连接的方法将步骤c中提取到的图像特征描述子采用全连接的方式映射的词嵌入特征空间，得到最终的图像特征向量P。

进一步地，所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤f所述图说模型生成的方法，包括以下步骤：

步骤f1、引入门限机制对信息进行过滤筛选与保留，具体公式如式(7)到式(12)所式：

z_t＝σ(W_Z·[h_t-1,x_t]) (7)

γ_t＝σ(W_γ·[h_t-1,x_t]) (9)

式(7)为更新门计算公式，式(9)为重置门计算公式，两个门通过sigmoid函数来设定一个0-1之间阈值，阈值越大，更新门保留前一时刻的状态信息越多，重置门忽略前一时刻状态信息越少；W是权重矩阵；tanh是双曲函数，其计算公式如式(11)所示，式(10)是隐层的调制输入的计算公式，将经重置门过滤后的前一时刻隐层状态与当前时刻的输入经权重相乘相加后压缩到(-1，1)区间，式(12)是隐层当前时刻的输出的计算公式；

步骤f2、搭建两层GRU网络来进行文本预测，将一条包含t个词语的中文语句标签加入元素<_START_>作为开始标志位构成为训练语句，将训练语句处理成为一个由词语索引值组成的列表，按照列表中的索引值去查找步骤e4中得到的词嵌入矩阵W8560*512；得到每一个词语的词嵌入向量W1，W2，…，Wt；之后将步骤e5得到的特征向量P作为第一层GRU网络的输入，生成隐层状态h01和h02，其中h01作为t＝0时刻的隐层输入，h02传入第二次网络作为输入，W0作为t＝0时刻第一层网络的第一个输入，经过网络的更新门与重置门根据公式(7)和公式(9)得到状态信息z11和r11并代入公式(10)得到调制隐含状态值，并根据公式(12)计算得到隐层状态h11；h11分别作为第一层网络在t＝1时刻的隐层输入，以及第二层网络在t＝0时刻的实际输入，在第二层网络中以第一层网络的隐层状态h11作为输入，重复与第一层网络相同的计算步骤并得到t＝1时刻第二层网络的隐层状态h12；

t＝1时刻第一层网络以h11作为t＝1时刻的隐层输入，以W1作为t＝1时刻第一层网络的输入，并根据公式(7)到公式(12)重复计算，每一个时间步重复上述步骤直到得到最后一个时间步的输出ht1和ht2；

步骤f3、第二层网络的每一个隐层状态hi2作为输出需要加入一个softmax层作概率化，得出的词典中每个词的概率大小；给语句列表的尾部加入一个元素<_END_>作为语句终止标志位，从描述语句的第一个词语开始至终止标志位作为网络的标签语句，并将标签语句中每个词语以one-hot向量形式编码，最后以网络的输出与标签语句联合构建loss；系统的损失函数选择交叉熵损失函数，如式(13)所示：

其中y′_i指代实际标签中的第i个词的独热向量表示，Pi指代语句序列中Wi-1作为输入时生成第i个词概率，损失函数优化的目标是在所有的训练集上使得模型预测出词语的正确概率尽可能大，即与标签词索引位相同位置的概率值取log后的值尽可能大；损失函数利用针对循环层的梯度反向传播在时序上展开(BPTT)算法进行训练，以实现对参数的更新。

进一步地，所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤g中所述中文描述语句生成，原始图像输入到模型中，模型会对图片进行两次编码，结合编码向量与训练好的权重系数，按照时间步依次生成相应的语句词汇，直到遇到终止标志位处停止，结合之前生成的词语合并成为对该图片的中文语句描述。

进一步地，所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，步骤h中所述模型评估，采用困惑度作为模型的客观评价指标，Perplexity指标公式如式(14)所示：

有益效果：

本发明提供了基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，相比于传统方法，本发明对文本描述集利用神经网络进行预训练生成词嵌入矩阵，代替传统模型的随机初始化方式，加强了词向量之间的相关性，选择了层数更深的Inception_ResNet_v2卷积神经网络结构，使提取到的图像特征含有的语义信息更加丰富，提高了后续词语的生成的准确度，最后加深了循环神经网络的层数，使用双层GRU网络结构，能够学习到更深层次的词向量特征的同时也给模型带来了更好的拟合能力，最后模型在生成描述内容的准确性上有很好的改进，使图像描述领域的发展更进一步。

附图说明

图1是语言系统模型图效果图。

图2是双层GRU网络结构图。

图3是实验效果展示图。

具体实施方式

下面结合附图对本发明具体实施方式作进一步详细描述。

一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，是基于Inception-residual模块结合多层GRU网络的中文图像语义描述的方法；Inception-residual模块是对Inception_v3(GoogleNet系列深度卷积网络第三个版本)网络中的核心组件Inception Architecture模块结合残差神经网络(ResNet)提出的残差思想而设计生成的一个全新的深度卷积网络的核心组件，该组件使得网络结构进一步加深的同时保证网络的性能不会退化，从而可以提取到更深层次的特征。本发明采用由该核心组件构成的深度卷积神经网络Inception_ResNet_v2，利用其特征自学习能力对图像进行特征提取,如图1所示，包括以下步骤：

步骤a、准备ImageNet图像数据集，AI Challenger图像描述训练集以及AIChallenger图像描述评估集，并利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成可用于训练的tfrecord格式文件；

步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取。

步骤d、对图像标注集采用中文分词组件jieba进行分词处理，依据分词后每个词语出现的频率由高到低建立词频词典，并给予每个词语唯一的数字编号建立索引。

步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征，并将图像特征描述子映射到词嵌入空间。

步骤g、将原始图片输入到训练好的图说模型生成中文描述语句。

具体的，所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤a所述训练集预处理，系统的实验环境为Ubuntu16.04+Anaconda3+Tensorflow1.0.1，生成的tfrecord文件中包含有图像的编号，原始图像的二进制编码信息，图像存储路径，图像的名字以及分词后的中文描述语句列表。生成训练集tfrecord文件个数280个，评估集文件个数64个。

具体地，所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤c所述图像特征描述子抽取，选取Inception_ResNet_v2网络对图像进行特征抽取，该网络首先在传统VGG网络模型的基础上引入Inception Architecture模块，该模块包含有1*1，3*3，5*5也可以将5*5卷积核进行核分解成为2个3*3卷积核，三种不同卷积核来获取图像不同的局部感受野，从而可以提取到多尺度特征，将提取到的多尺度特征最后进行特征合并，得到最终卷积特征。其次在Inception网络中引入“跳远连接”的残差思想，这使得网络深度得到加深的同时，可以保证网络的性能不会退化。实际操作过程中首先将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入，并载入步骤b得到的预训练参数，得到Inception_ResNet_v2网络最后全局平均池化层的特征向量，其特征维数为1792维。

具体地，所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤e所述词嵌入特征提取与图像特征映射包括以下步骤：

步骤e2、随机初始化一个词嵌入矩阵W8560*512，矩阵的行数代表词典中的词语总数，矩阵的列数代表，词嵌入特征向量维数。

步骤e3、建立单隐层神经网络模型，隐层神经元个数设定为200个，激活函数使用sigmoid函数，神经网络的一次输入3个词语，即3个one-hot向量，输入的one-hot向量与词嵌入矩阵做乘积运算，得到每个词语的词嵌入特征向量，维数为512维。

步骤e4、将3个词语的词嵌入矩阵进行拼接，得到一个1536维向量作为神经网络的隐层输入，网络的隐层输出为8560个神经元，并接入一个softmax层做概率化，之后以标签词的one-hot向量与softmax层的最终输出联合构建交叉熵损失函数，并采用反向传播算法进行优化，得到最终的词嵌入矩阵W8560*512。具体的公式如下：

z⁽²⁾＝W₁ ^T·a⁽¹⁾+b₁ (1)

y＝a⁽³⁾＝softmax(z⁽³⁾) (4)

其中,式(1)中z⁽²⁾是隐层未加激活函数的线性输出，W₁ ^T是输入层与隐层之间的权重系数，a⁽¹⁾是网络的输入，b₁是偏置值。式(2)中a⁽²⁾是神经网络的隐层的真正输出，式(3)中是隐层与输出层之间的权重系数，b₂是偏置值。式(4)中a⁽³⁾是神经网络的最终输出；式(5)是softmax函数的表达式，式(6)是神经网络的损失函数；

步骤e5、为防止训练时出现过拟合现象，采用全连接的方法将步骤c中提取到的图像特征描述子采用全连接的方式映射的词嵌入特征空间，得到最终的图像特征向量P。

具体地，所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤f所述图说模型生成包括以下步骤：

步骤f1、GRU网络是对循环神经网络(RNN)的一种改进，引入门限机制对信息进行过滤筛选与保留，不仅可以有效的弥补循环神经网络在反向求导出现的梯度弥散问题，而且还尽可能的保证长时记忆在反向传播时不会丢失。具体公式如式(7)到式(12)所式：

z_t＝σ(W_Z·[h_t-1,x_t]) (7)

γ_t＝σ(W_γ·[h_t-1,x_t]) (9)

式(7)中z_t为更新门的计算公式，W_Z是前一时刻隐层状态h_t-1以及当前时刻的输入x_t与更新门之间的权重系数，其中σ代表激活函数是sigmoid函数，公式如式(8)所示，式(9)为重置门γ_t的计算公式，W_γ是前一时刻隐层状态h_t-1以及当前时刻的输入x_t与重置门之间的权重系数，σ代表激活函数是sigmoid函数。两个门通过sigmoid函数来设定一个0-1之间阈值，阈值越大，更新门保留前一时刻的状态信息越多，重置门忽略前一时刻状态信息越少；tanh是双曲函数，其计算公式如式(11)所示，式(10)中是网络隐层的调制输入的计算公式，将经重置门γ_t过滤后的前一时刻隐层状态h_t-1与当前时刻的输入x_t经权重W相乘相加后利用tanh激活函数压缩到(-1，1)区间，式(12)中h_t是隐层当前时刻输出的计算公式，用1减去更新门保留的前一时刻信息，并与前一时刻隐层状态h_t-1做点乘计算与更新门z_t点乘的调制输入做加运算；

步骤f2、本发明选择搭建两层GRU网络，如图2所示，来进行文本预测，首先将一条包含t个词语的中文语句标签加入元素<_START_>作为开始标志位构成为训练语句，将训练语句处理成为一个由词语索引值组成的列表，例如，列表[0，1，2，5，199]表示一个中文描述语句。按照列表中的索引值去查找步骤e4中得到的词嵌入矩阵W8560*512。得到每一个词语的词嵌入向量W₁，W₂，…，W_t。之后将步骤e5得到的特征向量P作为第一层GRU网络的输入，生成隐层状态h₀₁和h₀₂，其中h₀₁作为t＝0时刻的隐层输入，h₀₂传入第二次网络作为输入，W₀作为t＝0时刻第一层网络的第一个输入，经过网络的更新门与重置门根据公式(7)和公式(9)得到状态信息z₁₁和r₁₁并代入公式(10)得到调制隐含状态值，并根据公式(12)计算得到隐层状态h₁₁。h₁₁分别作为第一层网络在t＝1时刻的隐层输入，以及第二层网络在t＝0时刻的实际输入，在第二层网络中以第一层网络的隐层状态h₁₁作为输入，重复与第一层网络相同的计算步骤并得到t＝1时刻第二层网络的隐层状态h₁₂。

t＝1时刻第一层网络以h₁₁作为t＝1时刻的隐层输入，以W₁作为t＝1时刻第一层网络的输入，并根据公式(7)到公式(12)重复计算，每一个时间步重复上述步骤直到得到最后一个时间步的输出h_t1和h_t2。

步骤f3、第二层网络的每一个隐层状态h_i2作为输出需要加入一个softmax层作概率化，得出的词典中每个词的概率大小。给语句列表的尾部加入一个元素<_END_>作为语句终止标志位，从描述语句的第一个词语开始至终止标志位作为网络的标签语句，并将标签语句中每个词语以one-hot向量形式编码，最后以网络的输出与标签语句联合构建loss。系统的损失函数选择交叉熵损失函数，如式(13)所示：

其中y′_i指代实际标签中的第i个词的独热向量表示，P_i指代语句序列中W_i-1作为输入时生成第i个词概率，损失函数优化的目标是在所有的训练集(样本数为m个)上使得模型预测出词语的正确概率尽可能大，即与标签词索引位相同位置的概率值取log后的值尽可能大。损失函数利用针对循环层的梯度反向传播在时序上展开(BPTT)算法进行训练，以实现对参数的更新。

具体地，所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤g中所述中文描述语句生成，原始图像输入到模型中，模型首先会对图片进行两次编码，之后结合编码向量与训练好的权重系数，按照时间步依次生成相应的语句词汇，直到遇到终止标志位处停止，之后结合之前生成的词语合并成为对该图片的中文语句描述。

具体地，所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，步骤h中所述模型评估，评估采用困惑度(Perplexity)作为模型的客观评价指标，Perplexity是一种衡量NLP领域中语言模型好坏的指标，Perplexity是一种衡量NLP领域中语言模型好坏的指标，所谓语言模型，即给定一句话的前k个词，我们希望语言模型可以给出一个第k+1个词可能出现的概率的分布，并得出预测的第k+1个词是什么，该指标代表对每个词语的平均困惑度，其值越小，代表该语言模型生成的语句越与正确语句越接近。Perplexity指标公式如式(14)所示：

其中Pi代表已知前i-1个词，生成第i个词得概率值，N代表一句话中词语得个数。Perplexity指标是根据语言模型自身的一些特性来设计一种简单易行，而又行之有效的评测指标。模型经评估集评估后得到Perplexity值为5.032，优于NIC等模型，如下表所示。

模型测试图，如图3所示，显示下列表格文字。

本发明利用改进的Inception_ResNet_v2网络对原始图像进行特征提取，然后利用神经网络建模对标签词语进行词嵌入特征提取，之后将提取到的深层卷积图像特征映射到词嵌入特征空间，最后结合图像特征与词嵌入特征对双层GRU网络进行训练并生成最终的图像中文文本描述模型。通过实验对比结果验证，本发明实现对图像进行中文文本描述，并且该模型生成每个词语的平均困惑度Perplexity指标为5.032，优于NIC等图说模型。

Claims

1.一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，包括以下步骤：

步骤a、准备ImageNet图像数据集、AI Challenger图像描述训练集以及AI Challenger图像描述评估集，利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件；

2.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，步骤a中所述利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件，实验环境为Ubuntu16.04+Anaconda3+Tensorflow 1.0.1，生成的tfrecord文件中包含有图像的编号，原始图像的二进制编码信息、图像存储路径、图像的名字以及分词后的中文描述语句列表，生成训练集tfrecord文件个数280个，评估集文件个数64个。

3.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，步骤c所述图像特征描述子的抽取，选取Inception_ResNet_v2网络对图像进行特征抽取，网络在传统VGG网络模型的基础上引入Inception Architecture模块，Inception Architecture模块包含有1*1，3*3，5*5或者将5*5卷积核进行核分解成为2个3*3卷积核，三种不同卷积核来获取图像不同的局部感受野，提取到多尺度特征，将提取到的多尺度特征进行特征合并，得到最终卷积特征，在Inception网络中引入“跳远连接”的残差思想，将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入，并载入步骤b得到的预训练参数，得到Inception_ResNet_v2网络最后全局平均池化层的特征向量，其特征维数为1792维。

4.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，步骤e所述提取描述集的词嵌入特征，并将图像特征描述子映射到词嵌入空间的方法，包括以下步骤：

z⁽²⁾＝W₁ ^T·a⁽¹⁾+b₁ (1)

z⁽³⁾＝W₂ ^T·a⁽²⁾+b₂ (3)

y＝a⁽³⁾＝soft max(z⁽³⁾) (4)

5.根据权利要求1或4所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，步骤f所述图说模型生成的方法，包括以下步骤：

z_t＝σ(W_Z·[h_t-1,x_t]) (7)

γ_t＝σ(W_γ·[h_t-1,x_t]) (9)

6.根据权利要求1所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，步骤g中所述中文描述语句生成，原始图像输入到模型中，模型会对图片进行两次编码，结合编码向量与训练好的权重系数，按照时间步依次生成相应的语句词汇，直到遇到终止标志位处停止，结合之前生成的词语合并成为对该图片的中文语句描述。

7.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法，其特征在于，步骤h中所述模型评估，采用困惑度作为模型的客观评价指标，Perplexity指标公式如式(14)所示：