CN108009154B - 一种基于深度学习模型的图像中文描述方法 - Google Patents

一种基于深度学习模型的图像中文描述方法 Download PDF

Info

Publication number
CN108009154B
CN108009154B CN201711385165.5A CN201711385165A CN108009154B CN 108009154 B CN108009154 B CN 108009154B CN 201711385165 A CN201711385165 A CN 201711385165A CN 108009154 B CN108009154 B CN 108009154B
Authority
CN
China
Prior art keywords
image
word
model
chinese
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711385165.5A
Other languages
English (en)
Other versions
CN108009154A (zh
Inventor
王玉静
吕世伟
谢金宝
殷楠楠
谢桂芬
李佰蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201711385165.5A priority Critical patent/CN108009154B/zh
Publication of CN108009154A publication Critical patent/CN108009154A/zh
Application granted granted Critical
Publication of CN108009154B publication Critical patent/CN108009154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种基于深度学习模型的图像中文描述方法属于计算机视觉与自然语言处理领域;包括准备ImageNet图像数据集和AI Challenger图像中文描述数据集;对ImageNet图像数据集利用DCNN进行预训练,得到DCNN预训练模型;对AI Challenger图像中文描述数据集进行图像特征提取和图像特征映射,传输到GRU门限递归网络循环神经网络;对AI Challenger图像中文描述数据集中的AI Challenger图像标注集进行词编码矩阵构建;利用NNLM提取词嵌入特征,完成文本特征映射;GRU门限递归网络循环神经网络作为语言生成模型,完成图像描述模型构建;中文描述语句生成;本发明弥补了图像中文描述的空白,实现自动生成图像中文描述的功能,并且在描述内容的准确性上有很好的改进,为中文NLP以及计算机视觉的发展奠定了基础。

Description

一种基于深度学习模型的图像中文描述方法
技术领域
本发明一种基于深度学习模型的图像中文描述方法属于计算机视觉与自然语言处理领域。
背景技术
伴随着多媒体的发展以及互联网规模的扩大,手机,平板等硬件设备的普及化,使得互联网中的图像资源呈现指数增长。这给用户在互联网中进行图像检索带来很大的困难,而人为对这些图像进行手工标注已经成为一件不可能的事,为了确保图像可以被用户在有限的时间内被准确的检索出来,这需要使得机器可以自动理解图像中的内容,并为图像自动作上标注。进而方便用户的检索。
目前在图像描述方面出现的方法都是基于图像的英文文本描述,设计更符合中国国情的图像中文语义化理解系统对当下而言是一件迫切的任务。中文的自然语言处理NLP不同于英文的自然语言处理,例如:在NLP领域,词是最小的能够独立运用的语言单位,由于汉语的特殊性,中文为了能够更好地进行后续NLP任务需要对中文文本进行分词而英文不需要分词,中文分词也是英文和中文NLP的一个基本不同,中文在分词任务中,会碰到两种歧义现象:交叉歧义和组合歧义,解决分词歧义的技术方法主要有三大类,分别是基于规则的方法,基于统计的方法,以及规则和统计结合。目前一些好的分词器基于以上规则可以对中文分词的两种歧义现象进行改进。其次在目前出现的英文文本描述方法中,这些方法大都基于编解码的规则,而这种方法的局限性在于对复杂的场景无法对图像的内容进行准确而完整的英文描述。
发明内容
针对上述问题,本发明的目的在于提供一种基于深度学习模型的图像中文描述方法。
本发明的目的是这样实现的:
一种基于深度学习模型的图像中文描述方法,包括以下步骤:
步骤a、准备ImageNet图像数据集和AI Challenger图像中文描述数据集;
步骤b、对ImageNet图像数据集利用DCNN进行预训练,得到DCNN预训练模型;
步骤c、DCNN预训练模型对AI Challenger图像中文描述数据集进行图像特征提取和图像特征映射,传输至GRU门限递归网络循环神经网络;
步骤d、对AI Challenger图像中文描述数据集中的AI Challenger图像标注集进行词编码矩阵构建,包括文本预处理和分词,建立词典,在中文语句建立词索引;
步骤e、利用NNLM提取词嵌入特征,完成文本特征映射,传输至GRU门限递归网络循环神经网络;
步骤f、GRU门限递归网络循环神经网络作为语言生成模型,完成图像描述模型构建;
步骤g、中文描述语句生成。
进一步地,所述一种基于深度学习模型的图像中文描述方法,步骤b所述DCNN是深度卷积神经网络,选取经典DCNN网络模型AlexNet模型对ImageNet图像数据集进行预训练,得到网络各层权重系数值即DCNN预训练模型。
进一步地,所述一种基于深度学习模型的图像中文描述方法,在步骤c中;
所述图像特征提取是指DCNN预训练模型对AI Challenger图像中文描述数据集中的图片集进行特征提取,取出第三个连接层的特征向量即4096维,所述特征向量是原始图像经过5层卷积,3层全连接得到;
所述图像特征映射是指由于较大的特征向量在网络训练时易造成过拟合现象,因此采用全连接的方法将所述特征向量即4096映射到512维的特征空间,得到图片特征映射矩阵P1*512
进一步地,所述一种基于深度学习模型的图像中文描述方法,步骤d所述词编码矩阵构建包括以下步骤:
步骤d1、对AI Challenger图像中文描述数据集中的AI Challenger图像标注集即caption数据集进行预处理;
步骤d2、采用jieba对中文caption进行分词,筛选出频率大于4的词语组成词频词典;
步骤d3、设置<S>及</S>作为文本的起止标识符占一个词语位,生成的词典大小为8560;
步骤d4、对词典中每个词进行独热编码,词向量维度与词典大小相等为8560维,词向量中数值为1处代表该位置标号值为词典中词语的索引值。
进一步地,所述一种基于深度学习模型的图像中文描述方法,步骤e所述文本特征映射方法如下:
固定好遍历caption的滑动窗口为4,每次使用窗口中前三个词去推断下一个词的概率;词向量w的独热表示是一个1*8560的向量,词向量经过投影矩阵c8560*300,得到投影向量[w*c]1*300,NNLM的输入层神经元的个数是三个投影向量的拼接维数,即900个,NNLM的隐层神经元个数为512,隐层激活函数为tanh函数,NNLM的输出层神经元个数为8560,并加入softmax进行归一化,得到词典中每一个词的概率,选取其中概率最高的作为预测词的概率,在caption数据集上遍历滑动窗口并得到隐藏层与输出层之间的权重矩阵就是最终得到的词嵌入矩阵,即文本特征映射矩阵W512*8560,即将词典中每一个词都转化为一个512维的词向量;
NNLM模型的优化目标是在训练集上使得前t-1时刻词已知的情况下得出的t时刻词语概率值的似然函数最大化:
Figure BDA0001516425520000031
其中wt是当前预测的词语,wt-n+1…wt-1是它的上文,优化的目标是当前词在已知上文语义情况下的最大似然;
模型的训练是用SGD算法来更新参数:
Figure BDA0001516425520000032
进一步地,所述一种基于深度学习模型的图像中文描述方法,步骤f所述图像描述模型构建包括以下步骤:
步骤f1、给一条包含m个词的caption加入元素0作为开始标志位,所述caption是一个由词语索引组成的列表;
步骤f2、通过所述索引列表去查找文本特征映射矩阵W512*8560,得到每一个词语的词嵌入向量,并将caption的所有词嵌入向量拼接成一个词嵌入矩阵X(m+1)*512;
步骤f3、所述词嵌入矩阵X(m+1)*512与图像特征映射矩阵P1*512一起送入GRU门限递归网络循环神经网络,所述GRU门限递归网络循环神经网络的输入神经元个数为512个,隐藏层神经元个数为512,输出层神经元个数为8560。GRU模型有两个门,一个是更新门,一个是重置门,t-1时刻的隐含信息ht-1与t时刻的输入信息xt同时输入GRU单元,更新门的值越大说明前一时刻的状态信息带入越多。重置门的值越小说明忽略前一时刻状态信息越多。计算过程如下:
zt=σ(WZ·[ht-1,xt])
γt=σ(Wγ·[ht-1,xt])
Figure BDA0001516425520000033
Figure BDA0001516425520000034
其中t为序列长度,zt为GRU的更新门,rt为GRU的重置门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多,ht为t时刻的隐藏状态,经过GRU网络前向计算,网络的最终输出y是一个(m+1)*8560的矩阵;
步骤f4、给目标caption列表的尾部加入一个元素0作为语句终止标识符,对目标caption列表中每个词语进行独热编码,编码矩阵的维数为8560,得到目标矩阵o(m+1)*8560,语言模型的损失函数选择交叉熵损失函数,系统优化的目标是使得每时刻生成的单词向量负似然损失函数最小化,公式如下:
Figure BDA0001516425520000041
并利用梯度下降法进行训练实现对参数的更新;
步骤f5、循环操作上述步骤对数据集中每张图片及其caption进行训练,迭代5500次得到训练好的模型并保存。
进一步地,所述一种基于深度学习模型的图像中文描述方法,所述步骤g中所述中文描述语句生成,是指将测试图片送入网络模型中,生成对所述图片的中文语句描述。
有益效果:
本发明提供了一种基于深度学习模型的图像中文描述方法,提出了对图像进行中文描述的方法,并且在图像描述方面提出了新的想法和方案。
在中文文本描述方面,与传统的语言模型相比,本发明具有模型精简,参数少,长时记忆等优点,对本发明的图像特征与语料集进行训练的过程中,在保持良好的上下文语义联系的同时又可以大大减少训练的时间,并且由于本发明的拟合能力也很强,这使得中文文本的可读性进一步增强。
在词嵌入方面,本发明与传统的图像文本描述方法对语料集进行随机初始化方式,本发明提出对语料集进行词嵌入特征提取,对句子的语境以及上下文之间的联系可以做到更好的表达,并对后续的语言生成工作进行了优化。
最后本发明弥补了图像中文描述的空白,实现自动生成图像中文描述的功能,并且在描述内容的准确性上有很好的改进,为中文NLP以及计算机视觉的发展奠定了基础。
附图说明
图1是一种基于深度学习模型的图像中文描述方法的总体流程图。
图2是第一实验效果图。
图3是第二实验效果图。
具体实施方式
下面结合附图对本发明具体实施方式作进一步详细描述。
一种基于深度学习模型的图像中文描述方法,如1所示,包括以下步骤:
步骤a、准备ImageNet图像数据集和AI Challenger图像中文描述数据集;
步骤b、对ImageNet图像数据集利用DCNN进行预训练,得到DCNN预训练模型;
步骤c、DCNN预训练模型对AI Challenger图像中文描述数据集进行图像特征提取和图像特征映射,传输至GRU门限递归网络循环神经网络;
步骤d、对AI Challenger图像中文描述数据集中的AI Challenger图像标注集进行词编码矩阵构建,包括文本预处理和分词,建立词典,在中文语句建立词索引;
步骤e、利用NNLM提取词嵌入特征,完成文本特征映射,传输至GRU门限递归网络循环神经网络;
步骤f、GRU门限递归网络循环神经网络作为语言生成模型,完成图像描述模型构建;
步骤g、中文描述语句生成。
具体地,所述一种基于深度学习模型的图像中文描述方法,步骤b所述DCNN是深度卷积神经网络,选取经典DCNN网络模型AlexNet模型对ImageNet图像数据集进行预训练,得到网络各层权重系数值即DCNN预训练模型。
具体地,所述一种基于深度学习模型的图像中文描述方法,在步骤c中;
所述图像特征提取是指DCNN预训练模型对AI Challenger图像中文描述数据集中的图片集进行特征提取,取出第三个连接层的特征向量即4096维,所述特征向量是原始图像经过5层卷积,3层全连接得到;
所述图像特征映射是指由于较大的特征向量在网络训练时易造成过拟合现象,因此采用全连接的方法将所述特征向量即4096映射到512维的特征空间,得到图片特征映射矩阵P1*512
具体地,所述一种基于深度学习模型的图像中文描述方法,步骤d所述词编码矩阵构建包括以下步骤:
步骤d1、对AI Challenger图像中文描述数据集中的AI Challenger图像标注集即caption数据集进行预处理;
步骤d2、采用jieba对中文caption进行分词,筛选出频率大于4的词语组成词频词典;
步骤d3、设置<S>及</S>作为文本的起止标识符占一个词语位,生成的词典大小为8560;
步骤d4、对词典中每个词进行独热编码,词向量维度与词典大小相等为8560维,词向量中数值为1处代表该位置标号值为词典中词语的索引值。
具体地,所述一种基于深度学习模型的图像中文描述方法,步骤e所述文本特征映射方法如下:
固定好遍历caption的滑动窗口为4,每次使用窗口中前三个词去推断下一个词的概率;词向量w的独热表示是一个1*8560的向量,词向量经过投影矩阵c8560*300,得到投影向量[w*c]1*300,NNLM的输入层神经元的个数是三个投影向量的拼接维数,即900个,NNLM的隐层神经元个数为512,隐层激活函数为tanh函数,NNLM的输出层神经元个数为8560,并加入softmax进行归一化,得到词典中每一个词的概率,选取其中概率最高的作为预测词的概率,在caption数据集上遍历滑动窗口并得到隐藏层与输出层之间的权重矩阵就是最终得到的词嵌入矩阵,即文本特征映射矩阵W512*8560,即将词典中每一个词都转化为一个512维的词向量;
NNLM模型的优化目标是在训练集上使得前t-1时刻词已知的情况下得出的t时刻词语概率值的似然函数最大化:
Figure BDA0001516425520000061
其中wt是当前预测的词语,wt-n+1…wt-1是它的上文,优化的目标是当前词在已知上文语义情况下的最大似然;
模型的训练是用SGD算法来更新参数:
Figure BDA0001516425520000062
具体地,所述一种基于深度学习模型的图像中文描述方法,步骤f所述图像描述模型构建包括以下步骤:
步骤f1、给一条包含m个词的caption加入元素0作为开始标志位,所述caption是一个由词语索引组成的列表;
步骤f2、通过所述索引列表去查找文本特征映射矩阵W512*8560,得到每一个词语的词嵌入向量,并将caption的所有词嵌入向量拼接成一个词嵌入矩阵X(m+1)*512;
步骤f3、所述词嵌入矩阵X(m+1)*512与图像特征映射矩阵P1*512一起送入GRU门限递归网络循环神经网络,所述GRU门限递归网络循环神经网络的输入神经元个数为512个,隐藏层神经元个数为512,输出层神经元个数为8560,计算过程如下:
zt=σ(WZ·[ht-1,xt])
γt=σ(Wγ·[ht-1,xt])
Figure BDA0001516425520000071
Figure BDA0001516425520000072
其中t为序列长度,zt为GRU的更新门,rt为GRU的重置门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多,ht为t时刻的隐藏状态,经过GRU网络前向计算,网络的最终输出y是一个(m+1)*8560的矩阵;
步骤f4、给目标caption列表的尾部加入一个元素0作为语句终止标识符,对目标caption列表中每个词语进行独热编码,编码矩阵的维数为8560,得到目标矩阵o(m+1)*8560,语言模型的损失函数选择交叉熵损失函数,公式如下:
Figure BDA0001516425520000073
并利用梯度下降法进行训练实现对参数的更新;
步骤f5、循环操作上述步骤对数据集中每张图片及其caption进行训练,迭代5500次得到训练好的模型并保存。
具体地,所述一种基于深度学习模型的图像中文描述方法,所述步骤g中所述中文描述语句生成,是指将测试图片送入网络模型中,生成对所述图片的中文语句描述。
进行上述操作,得到实验效果图,如图2和图3所示。

Claims (7)

1.一种基于深度学习模型的图像中文描述方法,其特征在于,包括以下步骤:
步骤a、准备ImageNet图像数据集和AI Challenger图像中文描述数据集;
步骤b、对ImageNet图像数据集利用DCNN进行预训练,得到DCNN预训练模型;
步骤c、DCNN预训练模型对AI Challenger图像中文描述数据集进行图像特征提取和图像特征映射,传输至GRU门限递归网络循环神经网络;
步骤d、对AI Challenger图像中文描述数据集中的AI Challenger图像标注集进行词编码矩阵构建,包括文本预处理和分词,建立词典,在中文语句建立词索引;
步骤e、利用NNLM提取词嵌入特征,完成文本特征映射,传输至GRU门限递归网络循环神经网络;
步骤f、GRU门限递归网络循环神经网络作为语言生成模型,完成图像描述模型构建;
步骤g、中文描述语句生成。
2.根据权利要求1所述一种基于深度学习模型的图像中文描述方法,其特征在于,步骤b所述DCNN是深度卷积神经网络,选取经典DCNN网络模型AlexNet模型对ImageNet图像数据集进行预训练,得到网络各层权重系数值即DCNN预训练模型。
3.根据权利要求1所述一种基于深度学习模型的图像中文描述方法,其特征在于,在步骤c中;
所述图像特征提取是指DCNN预训练模型对AI Challenger图像中文描述数据集中的图片集进行特征提取,取出第三个连接层的具有4096维的特征向量,所述特征向量是原始图像经过5层卷积,3层全连接得到;
所述图像特征映射是指由于较大的特征向量在网络训练时易造成过拟合现象,因此采用全连接的方法将所述特征向量从4096维映射到512维的特征空间,得到图片特征映射矩阵
Figure DEST_PATH_IMAGE002
4.根据权利要求1所述一种基于深度学习模型的图像中文描述方法,其特征在于,步骤d所述词编码矩阵构建包括以下步骤:
步骤d1、对AI Challenger图像中文描述数据集中的AI Challenger图像标注集即caption数据集进行预处理;
步骤d2、采用jiba对中文caption进行分词,筛选出频率大于4的词语组成词频词典;
步骤d3、设置<S>及</S>作为文本的起止标识符占一个词语位,生成的词典共包含8560个词语;
步骤d4、对词典中每个词进行独热编码,词向量维度与词典大小相等为8560维,词向量中数值为1处代表该位置标号值为词典中词语的索引值。
5.根据权利要求1所述一种基于深度学习模型的图像中文描述方法,其特征在于,步骤e所述文本特征映射方法如下:
固定好遍历caption的滑动窗口大小为4,每次使用窗口中前三个词去推断下一个词的概率;词向量w的独热表示是一个维度为1*8560的向量,词向量经过投影矩阵C8560*300,得到投影向量[w*c]1*300,NNLM的输入层神经元的个数是三个投影向量的拼接维数,即900个,NNLM的隐层神经元个数为512,隐层激活函数为tanh函数,NNLM的输出层神经元个数为8560,并加入softmax进行归一化,得到词典中每一个词的概率,选取其中概率最高的作为预测词的概率,在caption数据集上遍历滑动窗口并得到隐藏层与输出层之间的权重矩阵就是最终得到的词嵌入矩阵,即文本特征映射矩阵W512*8560,即将词典中每一个词都转化为一个512维的词向量;
NNLM模型的优化目标是在训练集上使得前t-1时刻词已知的情况下得出的t时刻词语概率值的似然函数最大化:
Figure DEST_PATH_IMAGE004
其中wt是当前预测的词语,wt-n+1…wt-1是它的上文,优化的目标是当前词在已知上文语义情况下的最大似然;
模型的训练是用SGD算法来更新参数:
Figure DEST_PATH_IMAGE006
6.根据权利要求1所述一种基于深度学习模型的图像中文描述方法,其特征在于,步骤f所述图像描述模型构建包括以下步骤:
步骤f1、给一条包含m个词的caption加入元素0作为开始标志位,所述caption是一个由词语索引组成的列表;
步骤f2、通过所述索引列表去查找文本特征映射矩阵W512*8560,得到每一个词语的词嵌入向量,并将caption的所有词嵌入向量拼接成一个词嵌入矩阵X(m+1)*512
步骤f3、所述词嵌入矩阵X(m+1)*512与图像特征映射矩阵P1*512一起送入GRU门限递归网络循环神经网络,所述GRU门限递归网络循环神经网络的输入神经元个数为512个,隐藏层神经元个数为512,输出层神经元个数为8560,计算过程如下:
Figure DEST_PATH_IMAGE008
其中t为序列长度,zt为GRU的更新门,rt为GRU的重置门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多,ht为t时刻的隐藏状态,经过GRU网络前向计算,网络的最终输出y是一个维数为(m+1)*8560的矩阵;
步骤f4、给目标caption列表的尾部加入一个元素0作为语句终止标识符,对目标caption列表中每个词语进行独热编码,编码矩阵的维数为8560,得到目标矩阵O(m+1)*8560,语言模型的损失函数选择交叉熵损失函数,公式如下:
Figure DEST_PATH_IMAGE010
并利用梯度下降法进行训练实现对参数的更新;
步骤f5、循环操作上述步骤对数据集中每张图片及其caption进行训练,迭代5500次得到训练好的模型并保存。
7.根据权利要求1所述一种基于深度学习模型的图像中文描述方法,其特征在于,所述步骤g中所述中文描述语句生成,是指将测试图片送入网络模型中,生成对所述图片的中文语句描述。
CN201711385165.5A 2017-12-20 2017-12-20 一种基于深度学习模型的图像中文描述方法 Active CN108009154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711385165.5A CN108009154B (zh) 2017-12-20 2017-12-20 一种基于深度学习模型的图像中文描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711385165.5A CN108009154B (zh) 2017-12-20 2017-12-20 一种基于深度学习模型的图像中文描述方法

Publications (2)

Publication Number Publication Date
CN108009154A CN108009154A (zh) 2018-05-08
CN108009154B true CN108009154B (zh) 2021-01-05

Family

ID=62060148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711385165.5A Active CN108009154B (zh) 2017-12-20 2017-12-20 一种基于深度学习模型的图像中文描述方法

Country Status (1)

Country Link
CN (1) CN108009154B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109239670B (zh) * 2018-08-29 2020-08-04 杭州电子科技大学 基于结构嵌入和深度神经网络的雷达hrrp识别方法
CN109271628A (zh) * 2018-09-03 2019-01-25 东北大学 一种图像描述生成方法
CN109215737B (zh) * 2018-09-30 2021-03-02 东软集团股份有限公司 蛋白质特征提取、功能模型生成、功能预测的方法及装置
EP3637428A1 (en) * 2018-10-12 2020-04-15 Siemens Healthcare GmbH Natural language sentence generation for radiology reports
CN109710787B (zh) * 2018-12-30 2023-03-28 陕西师范大学 基于深度学习的图像描述方法
CN111460804B (zh) * 2019-01-02 2023-05-02 阿里巴巴集团控股有限公司 文本处理方法、装置和系统
CN109710768B (zh) * 2019-01-10 2020-07-28 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN109816095B (zh) * 2019-01-14 2023-04-07 湖南大学 基于改进门控循环神经网络的网络流量预测方法
CN110136226B (zh) * 2019-04-08 2023-12-22 华南理工大学 一种基于图像组协同描述生成的新闻自动配图方法
CN110070175B (zh) * 2019-04-12 2021-07-02 北京市商汤科技开发有限公司 图像处理方法、模型训练方法及装置、电子设备
CN110046226B (zh) * 2019-04-17 2021-09-24 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110083836B (zh) * 2019-04-24 2021-07-06 哈尔滨工业大学 一种文本预测结果的关键证据抽取方法
CN110188620B (zh) * 2019-05-08 2022-11-04 腾讯科技(深圳)有限公司 对抗测试看图说话系统的方法和相关装置
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110287484B (zh) * 2019-06-11 2022-12-06 华东师范大学 一种基于人脸特征的汉语文本描述人脸图像生成方法
CN110502746B (zh) * 2019-07-18 2021-04-09 北京捷通华声科技股份有限公司 一种在线域更新解码方法、装置、电子设备及存储介质
CN110780878A (zh) * 2019-10-25 2020-02-11 湖南大学 一种基于深度学习进行JavaScript类型推断的方法
CN110889003B (zh) * 2019-11-20 2022-05-03 中山大学 一种基于文本的车辆图像细粒度检索系统
CN111243060B (zh) * 2020-01-07 2024-01-23 复旦大学 一种基于手绘图的故事性文本生成方法
CN111486798B (zh) * 2020-04-20 2022-08-26 苏州智感电子科技有限公司 图像测距方法、图像测距系统及终端设备
CN111914530B (zh) * 2020-07-30 2024-03-15 上海大学 一种文本解释生成方法及系统
CN112052889B (zh) * 2020-08-28 2023-05-05 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112884019B (zh) * 2021-01-29 2023-11-21 辽宁科技大学 一种基于融合门循环网络模型的图像转语言方法
CN113139575B (zh) * 2021-03-18 2022-03-01 杭州电子科技大学 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN113408430B (zh) * 2021-06-22 2022-09-09 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN113989792A (zh) * 2021-10-29 2022-01-28 天津大学 一种基于融合特征的文物推荐算法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106844733A (zh) * 2017-02-13 2017-06-13 哈尔滨理工大学 基于词汇树信息融合与豪斯多夫距离结合的图像检索方法
CN107145910A (zh) * 2017-05-08 2017-09-08 京东方科技集团股份有限公司 医学影像的表现生成系统、其训练方法及表现生成方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106844733A (zh) * 2017-02-13 2017-06-13 哈尔滨理工大学 基于词汇树信息融合与豪斯多夫距离结合的图像检索方法
CN107145910A (zh) * 2017-05-08 2017-09-08 京东方科技集团股份有限公司 医学影像的表现生成系统、其训练方法及表现生成方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep captioning with multimodal recurrent neural networks (m-RNN);JunHua Mao;《International Conference on Learning Representation》;20150611;第1-17页 *
Deep Learning for Image-to-Text Generation: A Technical Overview;Xiaodong He, et al;《IEEE Signal Processing Magazine 》;20171109;第34卷(第6期);第109-116页 *
Visual question answering: Datasets, algorithms, and future challenges;Kushal Kafle, et al;《Computer Vision and Image Understanding》;20170613;第163卷;第3-20页 *

Also Published As

Publication number Publication date
CN108009154A (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN108009154B (zh) 一种基于深度学习模型的图像中文描述方法
CN108733792B (zh) 一种实体关系抽取方法
US11928439B2 (en) Translation method, target information determining method, related apparatus, and storage medium
WO2022037256A1 (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108874174A (zh) 一种文本纠错方法、装置以及相关设备
CN109711465B (zh) 基于mll和asca-fr的图像字幕生成方法
CN111859912A (zh) 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN105068997B (zh) 平行语料的构建方法及装置
JP2010250814A (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN111753024A (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN111930894A (zh) 长文本匹配方法及装置、存储介质、电子设备
CN109918507B (zh) 一种基于TextCNN改进的文本分类方法
CN109145946B (zh) 一种智能图像识别和描述方法
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
US20230094730A1 (en) Model training method and method for human-machine interaction
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114782722B (zh) 图文相似度的确定方法、装置及电子设备
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN117371534B (zh) 一种基于bert的知识图谱构建方法及系统
CN110750669B (zh) 一种图像字幕生成的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant