CN108830287A - 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 - Google Patents
基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 Download PDFInfo
- Publication number
- CN108830287A CN108830287A CN201810349798.9A CN201810349798A CN108830287A CN 108830287 A CN108830287 A CN 108830287A CN 201810349798 A CN201810349798 A CN 201810349798A CN 108830287 A CN108830287 A CN 108830287A
- Authority
- CN
- China
- Prior art keywords
- network
- word
- image
- formula
- inception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法属于计算机视觉与自然语言处理领域;包括利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;建立单隐层神经网络模型将图像特征描述子映射到词嵌入空间;将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入;将原始图片输入到图说模型生成中文描述语句;使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估;本发明实现了用中文描述图像的技术问题,加强了语句的连贯性与可读性。
Description
技术领域
本发明属于计算机视觉与自然语言处理领域,具体涉及一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法。
背景技术
对图像进行中文文本描述是一项结合计算机视觉与中文自然语言处理(NLP)的技术,随着日常生活中电子设备升级换代,人们产出图像数量的速度呈现指数型增长,对于日常生活而言,如何更高效的在海量的图像中搜索到用户所需求的图像信息,仅仅依靠传统的关键字检索方法不仅存在搜索速度过慢的问题而且也存在图像定位不准确问题,对于科研而言,在大数据时代,如果依靠人力对海量的图片进行标注,生成标签尤为显得不贴近实际。对图像进行准确的标注,这样不仅可以大大提高人们的图像检索效率,还可以为科研提供精准的数据用于分析,但是人工标注如此多的图像又不现实,因此自动为图像生成语言描述的技术应运而生,它要求机器不仅仅只是生成一个对于图像类别进行描述的标签词语,而是要在“理解图像”的内容之后,可以生成一个对图像的内容进行准确描述的包含上下文联系并且符合人类阅读习惯的句子。该技术的发展也将有助于图像标注,图像索引,智能图像识别以及聊天机器人等领域的发展。随着图像描述中文数据集的公开,使得设计出符合中国人阅读习惯的的图像语义化理解系统成为可能。
依靠传统手工特征结合的机器学习分类算法也可以实现对图像进行语义描述,但生成的中文语句无论从客观角度还是主观角度,语句的连贯性与可读性都不强。深度学习网络的应用使得这一问题有所改善但仍存在识别率低等缺点。
发明内容
针对上述问题,本发明的目的在于提供一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法;采用深度卷积神经网络模型利用其特征自学习能力对图像进行特征提取,提取到的图像特征具有一定的表述能力,语言模型的构建采用循环神经网络来作为描述语句的生成器,在序列数据处理方面表现优异,用来对图片中的内容进行推测,数据集方面选取AIChallenger图像中文描述数据集以及ImageNet图像数据集作为网络模型的训练数据。
本发明的目的是这样实现的:
一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,包括以下步骤:
步骤a、准备ImageNet图像数据集、AI Challenger图像描述训练集以及AIChallenger图像描述评估集,利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;
步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;
步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;
步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引;
步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间;
步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入,通过训练网络得到最终图说模型;
步骤g、将原始图片输入到训练好的图说模型生成中文描述语句;
步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。
进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤a中所述利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件,实验环境为Ubuntu16.04+Anaconda3+Tensorflow 1.0.1,生成的tfrecord文件中包含有图像的编号,原始图像的二进制编码信息、图像存储路径、图像的名字以及分词后的中文描述语句列表,生成训练集tfrecord文件个数280个,评估集文件个数64个。
进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤c所述图像特征描述子的抽取,选取Inception_ResNet_v2网络对图像进行特征抽取,网络在传统VGG网络模型的基础上引入Inception Architecture模块,Inception Architecture模块包含有1*1,3*3,5*5或者将5*5卷积核进行核分解成为2个3*3卷积核,三种不同卷积核来获取图像不同的局部感受野,提取到多尺度特征,将提取到的多尺度特征进行特征合并,得到最终卷积特征,在Inception网络中引入“跳远连接”的残差思想,将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入,并载入步骤b得到的预训练参数,得到Inception_ResNet_v2网络最后全局平均池化层的特征向量,其特征维数为1792维。
进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤e所述提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间的方法,包括以下步骤:
步骤e1、将步骤d中词频词典中每个词按照词频词典规模进行one-hot编码;
步骤e2、随机初始化一个词嵌入矩阵W8560*512,矩阵的行数代表词典中的词语总数,矩阵的列数代表,词嵌入特征向量维数;
步骤e3、建立单隐层神经网络模型,隐层神经元个数设定为200个,激活函数使用sigmoid函数,神经网络的一次输入3个词语,即3个one-hot向量,输入的one-hot向量与词嵌入矩阵做乘积运算,得到每个词语的词嵌入特征向量,维数为512维;
步骤e4、将3个词语的词嵌入矩阵进行拼接,得到一个1536维向量作为神经网络的隐层输入,网络的隐层输出为8560个神经元,并接入一个softmax层做概率化,之后以标签词的one-hot向量与softmax层的最终输出联合构建交叉熵损失函数,并采用反向传播算法进行优化,得到最终的词嵌入矩阵W8560*512,具体的公式如下:
z(2)=W1 T·a(1)+b1 (1)
y=a(3)=softmax(z(3)) (4)
其中式(2)是神经网络的隐层输出,式(4)是神经网络的最终输出;式(5)是softmax函数的表达式,式(6)是神经网络的损失函数;
步骤e5、采用全连接的方法将步骤c中提取到的图像特征描述子采用全连接的方式映射的词嵌入特征空间,得到最终的图像特征向量P。
进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤f所述图说模型生成的方法,包括以下步骤:
步骤f1、引入门限机制对信息进行过滤筛选与保留,具体公式如式(7)到式(12)所式:
zt=σ(WZ·[ht-1,xt]) (7)
γt=σ(Wγ·[ht-1,xt]) (9)
式(7)为更新门计算公式,式(9)为重置门计算公式,两个门通过sigmoid函数来设定一个0-1之间阈值,阈值越大,更新门保留前一时刻的状态信息越多,重置门忽略前一时刻状态信息越少;W是权重矩阵;tanh是双曲函数,其计算公式如式(11)所示,式(10)是隐层的调制输入的计算公式,将经重置门过滤后的前一时刻隐层状态与当前时刻的输入经权重相乘相加后压缩到(-1,1)区间,式(12)是隐层当前时刻的输出的计算公式;
步骤f2、搭建两层GRU网络来进行文本预测,将一条包含t个词语的中文语句标签加入元素<_START_>作为开始标志位构成为训练语句,将训练语句处理成为一个由词语索引值组成的列表,按照列表中的索引值去查找步骤e4中得到的词嵌入矩阵W8560*512;得到每一个词语的词嵌入向量W1,W2,…,Wt;之后将步骤e5得到的特征向量P作为第一层GRU网络的输入,生成隐层状态h01和h02,其中h01作为t=0时刻的隐层输入,h02传入第二次网络作为输入,W0作为t=0时刻第一层网络的第一个输入,经过网络的更新门与重置门根据公式(7)和公式(9)得到状态信息z11和r11并代入公式(10)得到调制隐含状态值,并根据公式(12)计算得到隐层状态h11;h11分别作为第一层网络在t=1时刻的隐层输入,以及第二层网络在t=0时刻的实际输入,在第二层网络中以第一层网络的隐层状态h11作为输入,重复与第一层网络相同的计算步骤并得到t=1时刻第二层网络的隐层状态h12;
t=1时刻第一层网络以h11作为t=1时刻的隐层输入,以W1作为t=1时刻第一层网络的输入,并根据公式(7)到公式(12)重复计算,每一个时间步重复上述步骤直到得到最后一个时间步的输出ht1和ht2;
步骤f3、第二层网络的每一个隐层状态hi2作为输出需要加入一个softmax层作概率化,得出的词典中每个词的概率大小;给语句列表的尾部加入一个元素<_END_>作为语句终止标志位,从描述语句的第一个词语开始至终止标志位作为网络的标签语句,并将标签语句中每个词语以one-hot向量形式编码,最后以网络的输出与标签语句联合构建loss;系统的损失函数选择交叉熵损失函数,如式(13)所示:
其中y′i指代实际标签中的第i个词的独热向量表示,Pi指代语句序列中Wi-1作为输入时生成第i个词概率,损失函数优化的目标是在所有的训练集上使得模型预测出词语的正确概率尽可能大,即与标签词索引位相同位置的概率值取log后的值尽可能大;损失函数利用针对循环层的梯度反向传播在时序上展开(BPTT)算法进行训练,以实现对参数的更新。
进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤g中所述中文描述语句生成,原始图像输入到模型中,模型会对图片进行两次编码,结合编码向量与训练好的权重系数,按照时间步依次生成相应的语句词汇,直到遇到终止标志位处停止,结合之前生成的词语合并成为对该图片的中文语句描述。
进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤h中所述模型评估,采用困惑度作为模型的客观评价指标,Perplexity指标公式如式(14)所示:
有益效果:
本发明提供了基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,相比于传统方法,本发明对文本描述集利用神经网络进行预训练生成词嵌入矩阵,代替传统模型的随机初始化方式,加强了词向量之间的相关性,选择了层数更深的Inception_ResNet_v2卷积神经网络结构,使提取到的图像特征含有的语义信息更加丰富,提高了后续词语的生成的准确度,最后加深了循环神经网络的层数,使用双层GRU网络结构,能够学习到更深层次的词向量特征的同时也给模型带来了更好的拟合能力,最后模型在生成描述内容的准确性上有很好的改进,使图像描述领域的发展更进一步。
附图说明
图1是语言系统模型图效果图。
图2是双层GRU网络结构图。
图3是实验效果展示图。
具体实施方式
下面结合附图对本发明具体实施方式作进一步详细描述。
一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,是基于Inception-residual模块结合多层GRU网络的中文图像语义描述的方法;Inception-residual模块是对Inception_v3(GoogleNet系列深度卷积网络第三个版本)网络中的核心组件Inception Architecture模块结合残差神经网络(ResNet)提出的残差思想而设计生成的一个全新的深度卷积网络的核心组件,该组件使得网络结构进一步加深的同时保证网络的性能不会退化,从而可以提取到更深层次的特征。本发明采用由该核心组件构成的深度卷积神经网络Inception_ResNet_v2,利用其特征自学习能力对图像进行特征提取,如图1所示,包括以下步骤:
步骤a、准备ImageNet图像数据集,AI Challenger图像描述训练集以及AIChallenger图像描述评估集,并利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成可用于训练的tfrecord格式文件;
步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;
步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取。
步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引。
步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间。
步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入,通过训练网络得到最终图说模型;
步骤g、将原始图片输入到训练好的图说模型生成中文描述语句。
步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。
具体的,所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤a所述训练集预处理,系统的实验环境为Ubuntu16.04+Anaconda3+Tensorflow1.0.1,生成的tfrecord文件中包含有图像的编号,原始图像的二进制编码信息,图像存储路径,图像的名字以及分词后的中文描述语句列表。生成训练集tfrecord文件个数280个,评估集文件个数64个。
具体地,所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤c所述图像特征描述子抽取,选取Inception_ResNet_v2网络对图像进行特征抽取,该网络首先在传统VGG网络模型的基础上引入Inception Architecture模块,该模块包含有1*1,3*3,5*5也可以将5*5卷积核进行核分解成为2个3*3卷积核,三种不同卷积核来获取图像不同的局部感受野,从而可以提取到多尺度特征,将提取到的多尺度特征最后进行特征合并,得到最终卷积特征。其次在Inception网络中引入“跳远连接”的残差思想,这使得网络深度得到加深的同时,可以保证网络的性能不会退化。实际操作过程中首先将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入,并载入步骤b得到的预训练参数,得到Inception_ResNet_v2网络最后全局平均池化层的特征向量,其特征维数为1792维。
具体地,所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤e所述词嵌入特征提取与图像特征映射包括以下步骤:
步骤e1、将步骤d中词频词典中每个词按照词频词典规模进行one-hot编码;
步骤e2、随机初始化一个词嵌入矩阵W8560*512,矩阵的行数代表词典中的词语总数,矩阵的列数代表,词嵌入特征向量维数。
步骤e3、建立单隐层神经网络模型,隐层神经元个数设定为200个,激活函数使用sigmoid函数,神经网络的一次输入3个词语,即3个one-hot向量,输入的one-hot向量与词嵌入矩阵做乘积运算,得到每个词语的词嵌入特征向量,维数为512维。
步骤e4、将3个词语的词嵌入矩阵进行拼接,得到一个1536维向量作为神经网络的隐层输入,网络的隐层输出为8560个神经元,并接入一个softmax层做概率化,之后以标签词的one-hot向量与softmax层的最终输出联合构建交叉熵损失函数,并采用反向传播算法进行优化,得到最终的词嵌入矩阵W8560*512。具体的公式如下:
z(2)=W1 T·a(1)+b1 (1)
y=a(3)=softmax(z(3)) (4)
其中,式(1)中z(2)是隐层未加激活函数的线性输出,W1 T是输入层与隐层之间的权重系数,a(1)是网络的输入,b1是偏置值。式(2)中a(2)是神经网络的隐层的真正输出,式(3)中是隐层与输出层之间的权重系数,b2是偏置值。式(4)中a(3)是神经网络的最终输出;式(5)是softmax函数的表达式,式(6)是神经网络的损失函数;
步骤e5、为防止训练时出现过拟合现象,采用全连接的方法将步骤c中提取到的图像特征描述子采用全连接的方式映射的词嵌入特征空间,得到最终的图像特征向量P。
具体地,所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤f所述图说模型生成包括以下步骤:
步骤f1、GRU网络是对循环神经网络(RNN)的一种改进,引入门限机制对信息进行过滤筛选与保留,不仅可以有效的弥补循环神经网络在反向求导出现的梯度弥散问题,而且还尽可能的保证长时记忆在反向传播时不会丢失。具体公式如式(7)到式(12)所式:
zt=σ(WZ·[ht-1,xt]) (7)
γt=σ(Wγ·[ht-1,xt]) (9)
式(7)中zt为更新门的计算公式,WZ是前一时刻隐层状态ht-1以及当前时刻的输入xt与更新门之间的权重系数,其中σ代表激活函数是sigmoid函数,公式如式(8)所示,式(9)为重置门γt的计算公式,Wγ是前一时刻隐层状态ht-1以及当前时刻的输入xt与重置门之间的权重系数,σ代表激活函数是sigmoid函数。两个门通过sigmoid函数来设定一个0-1之间阈值,阈值越大,更新门保留前一时刻的状态信息越多,重置门忽略前一时刻状态信息越少;tanh是双曲函数,其计算公式如式(11)所示,式(10)中是网络隐层的调制输入的计算公式,将经重置门γt过滤后的前一时刻隐层状态ht-1与当前时刻的输入xt经权重W相乘相加后利用tanh激活函数压缩到(-1,1)区间,式(12)中ht是隐层当前时刻输出的计算公式,用1减去更新门保留的前一时刻信息,并与前一时刻隐层状态ht-1做点乘计算与更新门zt点乘的调制输入做加运算;
步骤f2、本发明选择搭建两层GRU网络,如图2所示,来进行文本预测,首先将一条包含t个词语的中文语句标签加入元素<_START_>作为开始标志位构成为训练语句,将训练语句处理成为一个由词语索引值组成的列表,例如,列表[0,1,2,5,199]表示一个中文描述语句。按照列表中的索引值去查找步骤e4中得到的词嵌入矩阵W8560*512。得到每一个词语的词嵌入向量W1,W2,…,Wt。之后将步骤e5得到的特征向量P作为第一层GRU网络的输入,生成隐层状态h01和h02,其中h01作为t=0时刻的隐层输入,h02传入第二次网络作为输入,W0作为t=0时刻第一层网络的第一个输入,经过网络的更新门与重置门根据公式(7)和公式(9)得到状态信息z11和r11并代入公式(10)得到调制隐含状态值,并根据公式(12)计算得到隐层状态h11。h11分别作为第一层网络在t=1时刻的隐层输入,以及第二层网络在t=0时刻的实际输入,在第二层网络中以第一层网络的隐层状态h11作为输入,重复与第一层网络相同的计算步骤并得到t=1时刻第二层网络的隐层状态h12。
t=1时刻第一层网络以h11作为t=1时刻的隐层输入,以W1作为t=1时刻第一层网络的输入,并根据公式(7)到公式(12)重复计算,每一个时间步重复上述步骤直到得到最后一个时间步的输出ht1和ht2。
步骤f3、第二层网络的每一个隐层状态hi2作为输出需要加入一个softmax层作概率化,得出的词典中每个词的概率大小。给语句列表的尾部加入一个元素<_END_>作为语句终止标志位,从描述语句的第一个词语开始至终止标志位作为网络的标签语句,并将标签语句中每个词语以one-hot向量形式编码,最后以网络的输出与标签语句联合构建loss。系统的损失函数选择交叉熵损失函数,如式(13)所示:
其中y′i指代实际标签中的第i个词的独热向量表示,Pi指代语句序列中Wi-1作为输入时生成第i个词概率,损失函数优化的目标是在所有的训练集(样本数为m个)上使得模型预测出词语的正确概率尽可能大,即与标签词索引位相同位置的概率值取log后的值尽可能大。损失函数利用针对循环层的梯度反向传播在时序上展开(BPTT)算法进行训练,以实现对参数的更新。
具体地,所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤g中所述中文描述语句生成,原始图像输入到模型中,模型首先会对图片进行两次编码,之后结合编码向量与训练好的权重系数,按照时间步依次生成相应的语句词汇,直到遇到终止标志位处停止,之后结合之前生成的词语合并成为对该图片的中文语句描述。
具体地,所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤h中所述模型评估,评估采用困惑度(Perplexity)作为模型的客观评价指标,Perplexity是一种衡量NLP领域中语言模型好坏的指标,Perplexity是一种衡量NLP领域中语言模型好坏的指标,所谓语言模型,即给定一句话的前k个词,我们希望语言模型可以给出一个第k+1个词可能出现的概率的分布,并得出预测的第k+1个词是什么,该指标代表对每个词语的平均困惑度,其值越小,代表该语言模型生成的语句越与正确语句越接近。Perplexity指标公式如式(14)所示:
其中Pi代表已知前i-1个词,生成第i个词得概率值,N代表一句话中词语得个数。Perplexity指标是根据语言模型自身的一些特性来设计一种简单易行,而又行之有效的评测指标。模型经评估集评估后得到Perplexity值为5.032,优于NIC等模型,如下表所示。
模型测试图,如图3所示,显示下列表格文字。
本发明利用改进的Inception_ResNet_v2网络对原始图像进行特征提取,然后利用神经网络建模对标签词语进行词嵌入特征提取,之后将提取到的深层卷积图像特征映射到词嵌入特征空间,最后结合图像特征与词嵌入特征对双层GRU网络进行训练并生成最终的图像中文文本描述模型。通过实验对比结果验证,本发明实现对图像进行中文文本描述,并且该模型生成每个词语的平均困惑度Perplexity指标为5.032,优于NIC等图说模型。
Claims (7)
1.一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,包括以下步骤:
步骤a、准备ImageNet图像数据集、AI Challenger图像描述训练集以及AI Challenger图像描述评估集,利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;
步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;
步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;
步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引;
步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间;
步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入,通过训练网络得到最终图说模型;
步骤g、将原始图片输入到训练好的图说模型生成中文描述语句;
步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。
2.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤a中所述利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件,实验环境为Ubuntu16.04+Anaconda3+Tensorflow 1.0.1,生成的tfrecord文件中包含有图像的编号,原始图像的二进制编码信息、图像存储路径、图像的名字以及分词后的中文描述语句列表,生成训练集tfrecord文件个数280个,评估集文件个数64个。
3.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤c所述图像特征描述子的抽取,选取Inception_ResNet_v2网络对图像进行特征抽取,网络在传统VGG网络模型的基础上引入Inception Architecture模块,Inception Architecture模块包含有1*1,3*3,5*5或者将5*5卷积核进行核分解成为2个3*3卷积核,三种不同卷积核来获取图像不同的局部感受野,提取到多尺度特征,将提取到的多尺度特征进行特征合并,得到最终卷积特征,在Inception网络中引入“跳远连接”的残差思想,将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入,并载入步骤b得到的预训练参数,得到Inception_ResNet_v2网络最后全局平均池化层的特征向量,其特征维数为1792维。
4.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤e所述提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间的方法,包括以下步骤:
步骤e1、将步骤d中词频词典中每个词按照词频词典规模进行one-hot编码;
步骤e2、随机初始化一个词嵌入矩阵W8560*512,矩阵的行数代表词典中的词语总数,矩阵的列数代表,词嵌入特征向量维数;
步骤e3、建立单隐层神经网络模型,隐层神经元个数设定为200个,激活函数使用sigmoid函数,神经网络的一次输入3个词语,即3个one-hot向量,输入的one-hot向量与词嵌入矩阵做乘积运算,得到每个词语的词嵌入特征向量,维数为512维;
步骤e4、将3个词语的词嵌入矩阵进行拼接,得到一个1536维向量作为神经网络的隐层输入,网络的隐层输出为8560个神经元,并接入一个softmax层做概率化,之后以标签词的one-hot向量与softmax层的最终输出联合构建交叉熵损失函数,并采用反向传播算法进行优化,得到最终的词嵌入矩阵W8560*512,具体的公式如下:
z(2)=W1 T·a(1)+b1 (1)
z(3)=W2 T·a(2)+b2 (3)
y=a(3)=soft max(z(3)) (4)
其中式(2)是神经网络的隐层输出,式(4)是神经网络的最终输出;式(5)是softmax函数的表达式,式(6)是神经网络的损失函数;
步骤e5、采用全连接的方法将步骤c中提取到的图像特征描述子采用全连接的方式映射的词嵌入特征空间,得到最终的图像特征向量P。
5.根据权利要求1或4所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤f所述图说模型生成的方法,包括以下步骤:
步骤f1、引入门限机制对信息进行过滤筛选与保留,具体公式如式(7)到式(12)所式:
zt=σ(WZ·[ht-1,xt]) (7)
γt=σ(Wγ·[ht-1,xt]) (9)
式(7)为更新门计算公式,式(9)为重置门计算公式,两个门通过sigmoid函数来设定一个0-1之间阈值,阈值越大,更新门保留前一时刻的状态信息越多,重置门忽略前一时刻状态信息越少;W是权重矩阵;tanh是双曲函数,其计算公式如式(11)所示,式(10)是隐层的调制输入的计算公式,将经重置门过滤后的前一时刻隐层状态与当前时刻的输入经权重相乘相加后压缩到(-1,1)区间,式(12)是隐层当前时刻的输出的计算公式;
步骤f2、搭建两层GRU网络来进行文本预测,将一条包含t个词语的中文语句标签加入元素<_START_>作为开始标志位构成为训练语句,将训练语句处理成为一个由词语索引值组成的列表,按照列表中的索引值去查找步骤e4中得到的词嵌入矩阵W8560*512;得到每一个词语的词嵌入向量W1,W2,…,Wt;之后将步骤e5得到的特征向量P作为第一层GRU网络的输入,生成隐层状态h01和h02,其中h01作为t=0时刻的隐层输入,h02传入第二次网络作为输入,W0作为t=0时刻第一层网络的第一个输入,经过网络的更新门与重置门根据公式(7)和公式(9)得到状态信息z11和r11并代入公式(10)得到调制隐含状态值,并根据公式(12)计算得到隐层状态h11;h11分别作为第一层网络在t=1时刻的隐层输入,以及第二层网络在t=0时刻的实际输入,在第二层网络中以第一层网络的隐层状态h11作为输入,重复与第一层网络相同的计算步骤并得到t=1时刻第二层网络的隐层状态h12;
t=1时刻第一层网络以h11作为t=1时刻的隐层输入,以W1作为t=1时刻第一层网络的输入,并根据公式(7)到公式(12)重复计算,每一个时间步重复上述步骤直到得到最后一个时间步的输出ht1和ht2;
步骤f3、第二层网络的每一个隐层状态hi2作为输出需要加入一个softmax层作概率化,得出的词典中每个词的概率大小;给语句列表的尾部加入一个元素<_END_>作为语句终止标志位,从描述语句的第一个词语开始至终止标志位作为网络的标签语句,并将标签语句中每个词语以one-hot向量形式编码,最后以网络的输出与标签语句联合构建loss;系统的损失函数选择交叉熵损失函数,如式(13)所示:
其中y′i指代实际标签中的第i个词的独热向量表示,Pi指代语句序列中Wi-1作为输入时生成第i个词概率,损失函数优化的目标是在所有的训练集上使得模型预测出词语的正确概率尽可能大,即与标签词索引位相同位置的概率值取log后的值尽可能大;损失函数利用针对循环层的梯度反向传播在时序上展开(BPTT)算法进行训练,以实现对参数的更新。
6.根据权利要求1所述一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤g中所述中文描述语句生成,原始图像输入到模型中,模型会对图片进行两次编码,结合编码向量与训练好的权重系数,按照时间步依次生成相应的语句词汇,直到遇到终止标志位处停止,结合之前生成的词语合并成为对该图片的中文语句描述。
7.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤h中所述模型评估,采用困惑度作为模型的客观评价指标,Perplexity指标公式如式(14)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810349798.9A CN108830287A (zh) | 2018-04-18 | 2018-04-18 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810349798.9A CN108830287A (zh) | 2018-04-18 | 2018-04-18 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108830287A true CN108830287A (zh) | 2018-11-16 |
Family
ID=64155459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810349798.9A Withdrawn CN108830287A (zh) | 2018-04-18 | 2018-04-18 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108830287A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710787A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像描述方法 |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN109740012A (zh) * | 2018-12-14 | 2019-05-10 | 南京理工大学 | 基于深度神经网络对图像语义进行理解和问答的方法 |
CN109801621A (zh) * | 2019-03-15 | 2019-05-24 | 三峡大学 | 一种基于残差门控循环单元的语音识别方法 |
CN109829441A (zh) * | 2019-02-19 | 2019-05-31 | 山东大学 | 一种基于课程学习的面部表情识别方法及装置 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN109993089A (zh) * | 2019-03-22 | 2019-07-09 | 浙江工商大学 | 一种基于深度学习的视频目标去除及背景恢复方法 |
CN110046226A (zh) * | 2019-04-17 | 2019-07-23 | 桂林电子科技大学 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
CN110349134A (zh) * | 2019-06-27 | 2019-10-18 | 广东技术师范大学天河学院 | 一种基于多标签卷积神经网络的管道病害图像分类方法 |
CN110347857A (zh) * | 2019-06-06 | 2019-10-18 | 武汉理工大学 | 基于强化学习的遥感影像的语义标注方法 |
CN110824450A (zh) * | 2019-10-15 | 2020-02-21 | 中国人民解放军国防科技大学 | 一种噪声环境下的雷达目标hrrp鲁棒识别方法 |
CN110991502A (zh) * | 2019-11-21 | 2020-04-10 | 北京航空航天大学 | 一种基于类别激活映射技术的空域安全态势评估方法 |
CN111013149A (zh) * | 2019-10-23 | 2020-04-17 | 浙江工商大学 | 一种基于神经网络深度学习的卡牌设计生成方法及系统 |
CN111368118A (zh) * | 2020-02-13 | 2020-07-03 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111783431A (zh) * | 2019-04-02 | 2020-10-16 | 北京地平线机器人技术研发有限公司 | 利用语言模型预测词出现概率及语言模型训练方法和装置 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112100383A (zh) * | 2020-11-02 | 2020-12-18 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
CN112580658A (zh) * | 2019-09-29 | 2021-03-30 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
CN113408430A (zh) * | 2021-06-22 | 2021-09-17 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
CN113806543A (zh) * | 2021-09-22 | 2021-12-17 | 三峡大学 | 一种基于残差跳跃连接的门控循环单元的文本分类方法 |
US11308268B2 (en) | 2019-10-10 | 2022-04-19 | International Business Machines Corporation | Semantic header detection using pre-trained embeddings |
US11354499B2 (en) | 2020-11-02 | 2022-06-07 | Zhejiang Lab | Meta-knowledge fine tuning method and platform for multi-task language model |
CN115187519A (zh) * | 2022-06-21 | 2022-10-14 | 上海市计量测试技术研究院 | 图像质量评价方法、系统及计算机可读介质 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
CN105938485A (zh) * | 2016-04-14 | 2016-09-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
US20170098153A1 (en) * | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107563498A (zh) * | 2017-09-08 | 2018-01-09 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN107807971A (zh) * | 2017-10-18 | 2018-03-16 | 北京信息科技大学 | 一种自动图像语义描述方法 |
-
2018
- 2018-04-18 CN CN201810349798.9A patent/CN108830287A/zh not_active Withdrawn
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170098153A1 (en) * | 2015-10-02 | 2017-04-06 | Baidu Usa Llc | Intelligent image captioning |
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN105740909A (zh) * | 2016-02-02 | 2016-07-06 | 华中科技大学 | 一种基于空间变换的自然场景下文本识别方法 |
CN105938485A (zh) * | 2016-04-14 | 2016-09-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
CN106782518A (zh) * | 2016-11-25 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于分层循环神经网络语言模型的语音识别方法 |
CN106599198A (zh) * | 2016-12-14 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种多级联结循环神经网络的图像描述方法 |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN107563498A (zh) * | 2017-09-08 | 2018-01-09 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN107807971A (zh) * | 2017-10-18 | 2018-03-16 | 北京信息科技大学 | 一种自动图像语义描述方法 |
Non-Patent Citations (4)
Title |
---|
JIANHUI CHEN 等: "Image Caption Generator Based On Deep Neural Networks", 《HTTPS://WWW.SEMANTICSCHOLAR.ORG/PAPER/GENERATOR-BASED-ON-DEEP-NEURAL-NETWORKS-CHEN/7D7F60E41DD9CB84AC5754D59E5A8B418FC7A685?P2DF》 * |
JIUXIANG GU 等: "An Empirical Study of Language CNN for Image Captioning", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
WATERSINK: ""从Inception v1,v2,v3,v4,RexNeXt到Xception再到MobileNets,ShuffleNet,MobileNetV2,ShuffleNetV2,MobileNetV3"", 《HTTPS://BLOG.CSDN.NET/QQ_14845119/ARTICLE/DETAILS/73648100》 * |
郑永哲: "基于深度学习的图像语义标注与描述研究", 《万方》 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740012A (zh) * | 2018-12-14 | 2019-05-10 | 南京理工大学 | 基于深度神经网络对图像语义进行理解和问答的方法 |
CN109740012B (zh) * | 2018-12-14 | 2023-08-25 | 南京理工大学 | 基于深度神经网络对图像语义进行理解和问答的方法 |
CN109710787B (zh) * | 2018-12-30 | 2023-03-28 | 陕西师范大学 | 基于深度学习的图像描述方法 |
CN109710787A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像描述方法 |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN109726696B (zh) * | 2019-01-03 | 2023-04-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN109829441A (zh) * | 2019-02-19 | 2019-05-31 | 山东大学 | 一种基于课程学习的面部表情识别方法及装置 |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN109801621A (zh) * | 2019-03-15 | 2019-05-24 | 三峡大学 | 一种基于残差门控循环单元的语音识别方法 |
CN109993089A (zh) * | 2019-03-22 | 2019-07-09 | 浙江工商大学 | 一种基于深度学习的视频目标去除及背景恢复方法 |
CN109993089B (zh) * | 2019-03-22 | 2020-11-24 | 浙江工商大学 | 一种基于深度学习的视频目标去除及背景恢复方法 |
CN111783431A (zh) * | 2019-04-02 | 2020-10-16 | 北京地平线机器人技术研发有限公司 | 利用语言模型预测词出现概率及语言模型训练方法和装置 |
CN110046226A (zh) * | 2019-04-17 | 2019-07-23 | 桂林电子科技大学 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
CN110046226B (zh) * | 2019-04-17 | 2021-09-24 | 桂林电子科技大学 | 一种基于分布词向量cnn-rnn网络的图像描述方法 |
CN110148408A (zh) * | 2019-05-29 | 2019-08-20 | 上海电力学院 | 一种基于深度残差的中文语音识别方法 |
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
CN110347857A (zh) * | 2019-06-06 | 2019-10-18 | 武汉理工大学 | 基于强化学习的遥感影像的语义标注方法 |
CN110349134A (zh) * | 2019-06-27 | 2019-10-18 | 广东技术师范大学天河学院 | 一种基于多标签卷积神经网络的管道病害图像分类方法 |
CN110349134B (zh) * | 2019-06-27 | 2022-12-09 | 广东技术师范大学天河学院 | 一种基于多标签卷积神经网络的管道病害图像分类方法 |
CN112580658B (zh) * | 2019-09-29 | 2024-03-12 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
CN112580658A (zh) * | 2019-09-29 | 2021-03-30 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
US11308268B2 (en) | 2019-10-10 | 2022-04-19 | International Business Machines Corporation | Semantic header detection using pre-trained embeddings |
CN110824450B (zh) * | 2019-10-15 | 2020-09-29 | 中国人民解放军国防科技大学 | 一种噪声环境下的雷达目标hrrp鲁棒识别方法 |
CN110824450A (zh) * | 2019-10-15 | 2020-02-21 | 中国人民解放军国防科技大学 | 一种噪声环境下的雷达目标hrrp鲁棒识别方法 |
CN111013149A (zh) * | 2019-10-23 | 2020-04-17 | 浙江工商大学 | 一种基于神经网络深度学习的卡牌设计生成方法及系统 |
CN110991502A (zh) * | 2019-11-21 | 2020-04-10 | 北京航空航天大学 | 一种基于类别激活映射技术的空域安全态势评估方法 |
CN111368118A (zh) * | 2020-02-13 | 2020-07-03 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111368118B (zh) * | 2020-02-13 | 2023-04-18 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112052889B (zh) * | 2020-08-28 | 2023-05-05 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
US11354499B2 (en) | 2020-11-02 | 2022-06-07 | Zhejiang Lab | Meta-knowledge fine tuning method and platform for multi-task language model |
CN112100383B (zh) * | 2020-11-02 | 2021-02-19 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
CN112100383A (zh) * | 2020-11-02 | 2020-12-18 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
CN113408430B (zh) * | 2021-06-22 | 2022-09-09 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
CN113408430A (zh) * | 2021-06-22 | 2021-09-17 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
CN113806543A (zh) * | 2021-09-22 | 2021-12-17 | 三峡大学 | 一种基于残差跳跃连接的门控循环单元的文本分类方法 |
CN113806543B (zh) * | 2021-09-22 | 2023-05-30 | 三峡大学 | 一种基于残差跳跃连接的门控循环单元的文本分类方法 |
CN115187519A (zh) * | 2022-06-21 | 2022-10-14 | 上海市计量测试技术研究院 | 图像质量评价方法、系统及计算机可读介质 |
CN115187519B (zh) * | 2022-06-21 | 2023-04-07 | 上海市计量测试技术研究院 | 图像质量评价方法、系统及计算机可读介质 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116071641B (zh) * | 2023-04-06 | 2023-08-04 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN109992783B (zh) | 中文词向量建模方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN111078866A (zh) | 一种基于序列到序列模型的中文文本摘要生成方法 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN111914544A (zh) | 一种比喻句识别方法、装置、设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
Kumar et al. | Region driven remote sensing image captioning | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
CN110941958A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181116 |
|
WW01 | Invention patent application withdrawn after publication |