CN105631468B - 一种基于rnn的图片描述自动生成方法 - Google Patents

一种基于rnn的图片描述自动生成方法 Download PDF

Info

Publication number
CN105631468B
CN105631468B CN201510964425.9A CN201510964425A CN105631468B CN 105631468 B CN105631468 B CN 105631468B CN 201510964425 A CN201510964425 A CN 201510964425A CN 105631468 B CN105631468 B CN 105631468B
Authority
CN
China
Prior art keywords
word
vector
sentence
dimension
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510964425.9A
Other languages
English (en)
Other versions
CN105631468A (zh
Inventor
郭礼华
廖启俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201510964425.9A priority Critical patent/CN105631468B/zh
Publication of CN105631468A publication Critical patent/CN105631468A/zh
Application granted granted Critical
Publication of CN105631468B publication Critical patent/CN105631468B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种于RNN的图片描述自动生成方法,先使用预训练好的深度网络,对图像提取特征;再对该句子的单词去掉非名词和动词的成分;最后使用LSTM网络对图像特征和词语特征进行联合训练;在生成句子过程中,首先通过输入的图片和训练好的LSTM网络,生成一个名动词组成的句子;然后通过网络上的大量语料库,生成最后的输出句子。本发明可以自动识别,理解用户上传的数码图像,并生成人类能理解的自然句子。

Description

一种基于RNN的图片描述自动生成方法
技术领域
本发明涉及人工智能领域,特别涉及一种基于RNN的图片描述自动生成方法。
背景技术
自动图像内容描述是人工智能图像识别近年兴起的新技术。其目的在于通过算法,自动把一个图像的内容信息,用自然语言表达出来。Show and Tell:A Neural ImageCaption Generator,Oriol Vinyals 2014,通过先使用深度网络提取图像特征,再使用RNN模型将图像特征转化为文字描述,提取出图像的语义信息。但其是对整个图像进行整体处理,不能很好地利用图像中的空间位置的信息。Show,Attend and Tell:Neural ImageCaptionGeneration with Visual Attention,Kelvin Xu 2015,在其之上加入了显著性检测,对图像的空间信息有一定的利用,但其也只利用了简单的RNN模型,语义的表达力较弱。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种基于RNN的图片描述自动生成方法,可以自动识别,理解用户上传的数码图像,并生成人类能理解的自然句子。
本发明的目的通过以下技术方案实现:
一种基于RNN的图片描述自动生成方法,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上一句或多句描述该图像内容的句子;
S1.2使用深度学习网络,对训练集的每一张图片提取图像特征;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果单词在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,数据库中所有句子的总字符数为n,对单词按字母顺序进行排序,每个单词在序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;n为正整数;
S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量;k为正整数;
S1.6使用LSTM网络进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张训练图像和一个对应的参考句子;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离,作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量,利用S1.5的方法将其映射成维度k的向量,再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
步骤S1.5所述将单词特征向量和图像特征向量统一映射到同一维度k的向量,具体为:
对n维的单词向量特征左乘以一个k*n的矩阵,对于m维的图像特征向量,乘以一个k*m维的矩阵;由此把单词特征和图像特征统一到k维;m为正整数。
S1.8所述使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数,具体为:
在输入第t个单词时,t小于句子长度l,使用S1.7的方法,向LSTM网络输入参考句子中的第t个单词,得到n维的可能性向量;使用参考句子中的第t+1个单词作为参考,t+1个单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数;t为正整数,l为正整数;
在输入第l个单词时,使用S1.7的方法,向LSTM网络输入参考句子中的第l个单词,得到n维的可能性向量;使用S1.4中加入的END单词作为参考,END单词在n维可能性向量的负数作为误差,使用反向误差传播算法,更新网络参数。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明很好地融合图像特征和文字特征,放在统一的框架下进行学习和理解,使图像信息和文字信息产生互补。
(2)本发明充分考虑到自动文字描述图片的困难性。采用了把句子中的名词和动词保留,去除其他词性词语的方法。保留了原来句子的主干部分(名词和动词),去掉其他可能带来很大干扰的部分,降低了学习的复杂度,得到了较好的效果。
(3)本发明通过不断增加训练数据库中的图像和句子,本发明的性能可以不断得到提高,而不需要重新训练。
(4)本发明中使用了互联网上的海量信息作为我们的语料库,使算法可以输出更贴近日常语言的话语。
附图说明
图1为本发明的实施例的基于RNN的图片描述自动生成方法的流程图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
本实施例的一种基于RNN的图片描述自动生成方法,如图1所示,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:从http://mscoco.org/网站上下载mscoco数据库,该数据库包含30万张图片,每张图片带有5个描述图像内容的句子;
S1.2使用深度学习网络(参照论文ImageNet Classification with DeepConvolutional Neural Networks,Alex Krizhevsky,Ilya Sutskever,Geoffrey EHinton,NIPS 2012.),对训练集的每一张图片提取图像特征;本实施例选用网络结构的最后一个全连接层的输出m=4096维向量Fi∈R4096作为图像的特征向量;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子,作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,数据库中所有句子的总字符数n=402;并对单词按字母顺序进行排序,每个单词在数据库单词序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;
第i个单词的单词向量:
S1.5将单词特征向量和图像特征向量统一到同一维度k的向量;k=256;对n维的单词向量左乘以一个k*n的矩阵Mw∈R256*402,得到k维的单词特征向量Vw∈R256。对于m维的图像特征向量,乘以一个k*m维的矩阵Mi∈R256*4096,得到k维度图像特征向量Vi∈R256。由此把单词特征和图像特征统一到k维。
统一后的单词特征向量Vw和Vi
Vw=Iw*Mw
Vi=Fi*Mi
S1.6使用LSTM网(Long short-term memory,参考论文Hochreiter,Sepp andSchmidhuber,Juergen,(1997)"Long Short-Term Memory",Neural Computation,Vol9(8),pp:1735-1780)进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张图像和一个对应的参考句子,句子的长度为l;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量,利用S1.5的方法将其映射成维度k的向量,再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于RNN的图片描述自动生成方法,其特征在于,包括以下步骤:
S1在计算机上进行训练过程:
S1.1采集数据集:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上一句或多句描述该图像内容的句子;
S1.2使用深度学习网络,对训练集的每一张图片提取图像特征;
S1.3词性筛选:收集四、六级英语单词的词汇表,以及每个单词的词性;
对于每张训练图像对应的一个或多个句子进行词性筛选:对于句子中的每个单词,如果单词在四、六级词汇表中排第一的词性是名词或者动词,该单词留下,否则,把该单词去掉;使用筛选之后剩下的单词组成句子作为数据库;
S1.4将词语数据转换成特征向量:统计出S1.3中的数据库中所有句子中出现的不同单词的数目,加上一个自定义的END字符,数据库中所有句子的总字符数为n,对单词按字母顺序进行排序,每个单词在数据库单词序列中的位置作为该单词的索引位置;由此把每个单词表示为一个n维的单词特征向量,该向量只有在该单词的索引位置上为1,其他全为零;n为正整数;
S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量;k为正整数;
S1.6使用LSTM网络进行训练:每个训练样例为一张训练图像和该训练图像所对应的经S1.3筛选的句子;每次随机选择一张训练图像和一个对应的参考句子;
S1.7将LSTM网络的输入和输出都设为k维向量,在时刻0,把k维的图像特征向量传入LSTM网络,网络输出一个k维向量;然后将输出的k维向量左乘一个n*k维的矩阵,得到一个n维向量;向量上第i维的值代表了索引值为i的单词的可能性;i为正整数;
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离,作为LSTM网络的误差,使用反向误差传播算法,更新网络参数;
S2自动生成图像描述:
S2.1在互联网上搜集自然语言的句子,形成语料库;
S2.2对于测试图像,先使用深度学习网络对测试图像提取图像特征,再使用S1.7的方法得到n维的可能性单词向量;根据n维向量上每一维值的大小,选出可能性最大的单词;
S2.3将步骤S2.2得到的单词向量,利用S1.5的方法将其映射成维度k的向量,再次输入LSTM网络中,得到更新后的输出单词可能性向量;不断重复此过程,直到入LSTM网络输出END单词;
S2.4将S2.2和S2.3过程中输出的单词,按顺序组合成一个句子;使用该句子在S2.1的语料库中进行匹配,搜索最相近的句子并输出,生成测试图像的描述。
2.根据权利要求1所述基于RNN的图片描述自动生成方法,其特征在于,步骤S1.5所述将单词特征向量和图像特征向量统一映射到同一维度k的向量,具体为:
对n维的单词向量特征左乘以一个k*n的矩阵,对于m维的图像特征向量,乘以一个k*m维的矩阵;由此把单词特征和图像特征统一到k维;m为正整数。
3.根据权利要求1所述基于RNN的图片描述自动生成方法,其特征在于,S1.8所述使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行比较,计算两个向量的欧式距离作为LSTM网络的误差,使用反向误差传播算法,更新网络参数,具体为:
在输入第t个单词时,t小于句子长度l,使用S1.7的方法,向LSTM网络输入参考句子中的第t个单词经过转换后的k维特征向量,得到k维输出后转换成n维的可能性向量;使用参考句子中的第t+1个单词作为参考,计算t和t+1个单词在n维可能性向量的欧式距离作为误差,使用反向误差传播算法,更新网络参数;t为正整数,l为正整数;
在输入最后第l个单词时,使用S1.7的方法,向LSTM网络输入参考句子中的第l个单词经过转换后的k维特征向量,得到k维输出后转换成n维的可能性向量;使用S1.4中加入的END单词作为参考,计算l和END单词在n维可能性向量的欧式距离作为误差,使用反向误差传播算法,更新网络参数。
CN201510964425.9A 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法 Expired - Fee Related CN105631468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510964425.9A CN105631468B (zh) 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510964425.9A CN105631468B (zh) 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法

Publications (2)

Publication Number Publication Date
CN105631468A CN105631468A (zh) 2016-06-01
CN105631468B true CN105631468B (zh) 2019-04-09

Family

ID=56046380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510964425.9A Expired - Fee Related CN105631468B (zh) 2015-12-18 2015-12-18 一种基于rnn的图片描述自动生成方法

Country Status (1)

Country Link
CN (1) CN105631468B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106650789B (zh) * 2016-11-16 2023-04-07 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106599198B (zh) * 2016-12-14 2021-04-06 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN108229522B (zh) * 2017-03-07 2020-07-17 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108805260A (zh) * 2017-04-26 2018-11-13 上海荆虹电子科技有限公司 一种图说生成方法及装置
EP3399460B1 (en) * 2017-05-02 2019-07-17 Dassault Systèmes Captioning a region of an image
CN107247704B (zh) * 2017-06-09 2020-09-08 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN107391609B (zh) * 2017-07-01 2020-07-31 南京理工大学 一种双向多模态递归网络的图像描述方法
CN110599557B (zh) * 2017-08-30 2022-11-18 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108052512B (zh) * 2017-11-03 2021-05-11 同济大学 一种基于深度注意力机制的图像描述生成方法
CN110147538B (zh) 2018-07-05 2023-04-07 腾讯科技(深圳)有限公司 图片集描述生成方法、装置和计算机设备
CN109145946B (zh) * 2018-07-09 2022-02-11 暨南大学 一种智能图像识别和描述方法
CN109241520B (zh) * 2018-07-18 2023-05-23 五邑大学 一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统
CN109447242B (zh) * 2018-10-10 2021-08-20 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN110852331B (zh) * 2019-10-25 2023-09-08 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN111177461A (zh) * 2019-12-30 2020-05-19 厦门大学 一种根据当前场景及其描述信息生成下一场景的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136802B2 (en) * 2002-01-16 2006-11-14 Intel Corporation Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159890A (zh) * 2014-06-06 2015-12-16 谷歌公司 使用神经网络产生输入序列的表示

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Captioning with Multimodal Recurrent Neural Networks(m-RNN);J Mao等;《ICLR》;20150611;全文
基于词向量特征的循环神经网络语言模型;张剑;《模式识别与人工智能》;20150430;第28卷(第4期);全文

Also Published As

Publication number Publication date
CN105631468A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN105631468B (zh) 一种基于rnn的图片描述自动生成方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110490946A (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107247702A (zh) 一种文本情感分析处理方法和系统
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN113128214B (zh) 一种基于bert预训练模型的文本摘要生成方法
CN107704558A (zh) 一种用户意见抽取方法及系统
CN112800225B (zh) 一种微博评论情绪分类方法和系统
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及系统
CN110245228A (zh) 确定文本类别的方法和装置
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN114443899A (zh) 视频分类方法、装置、设备及介质
Onita et al. From image to text in sentiment analysis via regression and deep learning
Paul et al. A modern approach for sign language interpretation using convolutional neural network
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN111966828A (zh) 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190409

Termination date: 20211218

CF01 Termination of patent right due to non-payment of annual fee