CN108564122A - 基于卷积-循环混合网络的图像描述模型的一体化训练方法 - Google Patents

基于卷积-循环混合网络的图像描述模型的一体化训练方法 Download PDF

Info

Publication number
CN108564122A
CN108564122A CN201810314897.3A CN201810314897A CN108564122A CN 108564122 A CN108564122 A CN 108564122A CN 201810314897 A CN201810314897 A CN 201810314897A CN 108564122 A CN108564122 A CN 108564122A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
image
short
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810314897.3A
Other languages
English (en)
Inventor
李玉鑑
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810314897.3A priority Critical patent/CN108564122A/zh
Publication of CN108564122A publication Critical patent/CN108564122A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于卷积‑循环混合网络的图像描述模型的一体化训练生成方法,该方法主要是把卷积神经网络与循环神经网络联合起来进行一体化训练,分别对卷积神经网络与循环神经网络进行构建,然后使用TensorFlow框架对两者进行联合训练,该方法的使用大大优化了训练过程,只需要在准备原始图片与相应文本作为输入,即可完成整体训练,并且达到了两个网络参数同时进行更新的效果,使结果得到更好的效果。

Description

基于卷积-循环混合网络的图像描述模型的一体化训练方法
技术领域
本发明属于人工智能深度学习领域,主要实现了对输入图像生成英文文本描述的一体化训练的方法。
背景技术
现阶段的社会,互联网已经站在了主流地位上,而人工智能更是主流中的主流。人们已经慢慢接受并且渐渐离不开人工智能,现阶段越来越多的人工智能技术走入人们的生活,自动翻译、物体识别、人脸识别等,图像的文本描述也逐渐被人们重视,该技术的实现对图像识别、图像检测,以及游人旅游、盲人导航等方面都有着至关重要的作用。
该技术的前提条件是需要了解深度学习中的卷积神经网络与循环神经网络的技术细节,卷积神经网络是提取图像特征从而用来表示图像的网络模型,该模型内部主要由若干卷积层、池化层和全连接层组成,经过训练后的卷积神经网络模型可以对输入的图像经过一系列的卷积、池化的操作,最后经过全连接层生成一个可以用来表示图像向量。循环神经网络中的长短时记忆网络(LSTM)被广泛认可,该网络具有时序性,含有”cell”模块,可以记住并结合之前的信息生成之后的信息,训练过后长短时记忆网络模型(LSTM)会根据输入的图像生产相应的文本描述。
现阶段的图像描述技术大都分为两个单独的步骤去实现,首先单独使用已经训练好的卷积神经网络模型对图像进行特征提取,把图片特征单独存储起来,把文本的单词也都存在相应的文件中,然后再使用长短时记忆网络(LSTM)对图片与文本进行训练,生成模型。但是该方法的操作周期较长,而且实行训练的过程复杂,使得目前的方法很难被大家所采用。
发明内容
本发明采用的技术方案为一种基于卷积-循环混合网络的图像描述模型的一体化训练生成方法,该方法根据输入的图像,经过模型产生对于该图像内容描述的句子,其特征在于以下步骤:
步骤1:选择数据集(例如:COCO等),其中数据集的数据主要包括图像和与图像相对应的文本描述,一张图像分别对应五个句子;
步骤2:对图像进行预处理,根据不同网络的输入要求对图像进行调整;
步骤3:对图像进行特征提取,具体步骤如下:
步骤3.1:选择卷积神经网络(例如:VGG),对卷积神经网络进行参数设置,使用该卷积神经网络在ImageNet数据集上经过训练学习到的参数作为网络的初始化参数;
步骤3.2:对卷积神经网络的结构进行调整,使卷积神经网络截至于全连接层,对输入的图像通过卷积神经网络后以向量的形式表示;
步骤4:对文本进行预处理,对其进行关键词提取,提取次数大于30的单词作为关键词制作一个字典,把关键词均以向量的形式进行表示;
步骤5:构建长短时记忆网络;
步骤6:联合卷积神经网络和长短时记忆网络进行一体化训练;
步骤6.1:选择深度学习框架(例如:TensorFlow),为了方便卷积神经网络与长短时记忆网络的联合操作需要在同一框架中使用统一的格式来进行构建;
步骤6.2:输入一张图像,通过卷积神经网络对其特征进行提取,卷积神经网络的输出则是表示图像特征的向量,该向量被用于初始化长短时记忆网络的隐含层参数,确立卷积神经网络与长短时记忆网络之间的连接关系;
步骤6.3:把图像所对应的文本进行关键词提取,使文本中的单词转化为向量格式来作为长短时记忆网络的输入;
步骤7:选择损失函数、优化函数对卷积神经网络和长短时记忆网络进行反向传播运算,同时更新卷积神经网络和长短时记忆网络的内部参数值,设置迭代次数等超参数对卷积神经网络与长短时记忆网络进行一体化训练,保存模型用于测试。
附图说明
图1:整体架构图。
图2:卷积神经网络(VGG16)模型结构图。
图3:长短时记忆网络模型结构图。
图4:图像生成文本结果对比图。
图5:结果对比图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
本发明是在卷积神经网络和循环神经网络两者模型的基础上,对两者进行一体化联合训练,采用的框架是TensorFlow深度学习框架,数据集是COCO2014,通过对两个框架的改进,一体化训练,完成图像生成文本描述的任务。
步骤1:根据对卷积神经网络与长短时记忆网络的理解与改进,完成整体架构图的构思,见附图1。
步骤2:根据架构图,在TensorFlow框架的基础上,对卷积神经网络与长短时记忆网络结构进行搭建,该步骤是整个发明的关键部分,需要细分为以下几个小步骤:
步骤2.1:首先在进行卷积神经网络和长短时记忆网络搭建之前,需要对数据进行处理,把数据集中的图片文本都进行相应的处理,删除图片中损坏的图片,并且把符合要求的图片变换大小来符合卷积神经网络的输入要求,而且把文本进行单词提取操作,留待作为后续长短时记忆网络的输入。
步骤2.2:构建卷积神经网络,选择的是VGG16,见附图2,VGG16由16层组成,由于网络深度很深,若想对该网络进行从头的参数训练会很麻烦,所以本发明采用了迁移学习的方法,把在ImageNet数据集上训练好的参数拿来使用,ImageNet是用于做图像分类的数据集,涉及到1000类的图片,数据量大,使用训练好的参数来做迁移学习对本发明的卷积神经网络有非常有利,在做迁移学习的过程中,为了使效果更好,并不是直接使用训练好的参数,而是用该参数作为初始化,固定卷积神经网络前面的基础层使其参数不发生改变,放开后几层的参数,这样在训练过程中后面的网络参数即可根据本发明所使用的数据进行进一步的更新。
步骤2.3:修改卷积神经网络结构与循环神经网络进行联合,由于需要两个神经网络的联合,所以卷积神经网络的输出需要进行调整,把卷积神经网络VGG16最后一层用于分类的Softmax层删除,保留最后的全连接层,把全连接层的输出进行维度转换用来初始化循环神经网络的隐含层参数,循环神经网络的搭建选择了一种特殊的网络,长短时记忆网络—LSTM,见附图3,该网络对于文本序列有着独特的处理方式,可以解决循环神经网络原有的问题。于此同时,把与图片相对应的文本中的单词按要求进行处理,转化为向量作为长短时记忆网络的输入。
步骤2.4:卷积神经网络与长短时记忆网络构建完成后,需要进行输出结果的处理,使用softmax交叉熵函数作为损失函数,并且使用Adam优化方法对损失进行最小化处理,降低损失值来进行反向传播从而进一步更新卷积神经网络与长短时记忆网络的参数。编写训练代码设置迭代次数,对整体进行训练,并且在训练过程中对网络模型进行定期保存。
步骤3:编写测试代码,通过训练过程中保存的模型,对图片进行文本生成实验,选择图片作为输入,输出为一句文本描述,见附图4,上面一句为本发明所得到的结果,下面一句为对比方法所得到的结果。然后为了进行对比实验,引入BLEU得分算法,对生成的文本描述与原有句子进行评分。对比实验的方法是未一体化联合训练的方法,把卷积神经网络与长短时记忆神经网络分开进行处理,对比方法中的卷积神经网络就变成了对图像的一种预处理方法,把图像变为矩阵格式,主要训练过程在长短时记忆网络阶段,使用该方法得到的文本描述同样使用BLEU得分算法进行评分,并把所得分数以可视化的方式表现出来完成实验对比,见附图5,本发明得分要高于对比方法。
以上实例仅用于描述本发明,而非限制本发明所描述的技术方案。因此,一切不脱离本发明精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围中。

Claims (1)

1.基于卷积-循环混合网络的图像描述模型的一体化训练生成方法,该方法根据输入的图像,经过模型产生对于该图像内容描述的句子,其特征在于:以下步骤,
步骤1:选择数据集,其中数据集的数据主要包括图像和与图像相对应的文本描述,一张图像分别对应五个句子;
步骤2:对图像进行预处理,根据不同网络的输入要求对图像进行调整;
步骤3:对图像进行特征提取,具体步骤如下:
步骤3.1:选择卷积神经网络,对卷积神经网络进行参数设置,使用该卷积神经网络在ImageNet数据集上经过训练学习到的参数作为网络的初始化参数;
步骤3.2:对卷积神经网络的结构进行调整,使卷积神经网络截至于全连接层,对输入的图像通过卷积神经网络后以向量的形式表示;
步骤4:对文本进行预处理,对其进行关键词提取,提取次数大于30的单词作为关键词制作一个字典,把关键词均以向量的形式进行表示;
步骤5:构建长短时记忆网络;
步骤6:联合卷积神经网络和长短时记忆网络进行一体化训练;
步骤6.1:选择深度学习框架,为了方便卷积神经网络与长短时记忆网络的联合操作需要在同一框架中使用统一的格式来进行构建;
步骤6.2:输入一张图像,通过卷积神经网络对其特征进行提取,卷积神经网络的输出则是表示图像特征的向量,该向量被用于初始化长短时记忆网络的隐含层参数,确立卷积神经网络与长短时记忆网络之间的连接关系;
步骤6.3:把图像所对应的文本进行关键词提取,使文本中的单词转化为向量格式来作为长短时记忆网络的输入;
步骤7:选择损失函数、优化函数对卷积神经网络和长短时记忆网络进行反向传播运算,同时更新卷积神经网络和长短时记忆网络的内部参数值,设置迭代次数超参数对卷积神经网络与长短时记忆网络进行一体化训练,保存模型用于测试。
CN201810314897.3A 2018-04-10 2018-04-10 基于卷积-循环混合网络的图像描述模型的一体化训练方法 Pending CN108564122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810314897.3A CN108564122A (zh) 2018-04-10 2018-04-10 基于卷积-循环混合网络的图像描述模型的一体化训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810314897.3A CN108564122A (zh) 2018-04-10 2018-04-10 基于卷积-循环混合网络的图像描述模型的一体化训练方法

Publications (1)

Publication Number Publication Date
CN108564122A true CN108564122A (zh) 2018-09-21

Family

ID=63534554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810314897.3A Pending CN108564122A (zh) 2018-04-10 2018-04-10 基于卷积-循环混合网络的图像描述模型的一体化训练方法

Country Status (1)

Country Link
CN (1) CN108564122A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109303560A (zh) * 2018-11-01 2019-02-05 杭州质子科技有限公司 一种基于卷积残差网络和迁移学习的短时心电信号房颤识别方法
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109766780A (zh) * 2018-12-20 2019-05-17 武汉理工大学 一种基于深度学习的船舶烟雾排放在线检测和追踪方法
CN110110770A (zh) * 2019-04-24 2019-08-09 佛山科学技术学院 基于神经网络的服装图片导购文字生成方法及装置
CN110188775A (zh) * 2019-05-28 2019-08-30 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
CN110210536A (zh) * 2019-05-22 2019-09-06 北京邮电大学 一种光互连系统的物理损伤诊断方法及装置
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN111008738A (zh) * 2019-12-04 2020-04-14 云南锡业集团(控股)有限责任公司研发中心 基于多模态深度学习的Sn-Bi合金延伸率和抗拉强度的预测方法
CN111797853A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 特征提取方法、装置、存储介质及电子设备
CN111803028A (zh) * 2020-06-19 2020-10-23 天津大学 一种基于网络参数迁移的个性化癫痫发作检测装置
CN112381079A (zh) * 2019-07-29 2021-02-19 富士通株式会社 图像处理方法和信息处理设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109303560A (zh) * 2018-11-01 2019-02-05 杭州质子科技有限公司 一种基于卷积残差网络和迁移学习的短时心电信号房颤识别方法
CN109766780A (zh) * 2018-12-20 2019-05-17 武汉理工大学 一种基于深度学习的船舶烟雾排放在线检测和追踪方法
CN111797853A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 特征提取方法、装置、存储介质及电子设备
CN110110770A (zh) * 2019-04-24 2019-08-09 佛山科学技术学院 基于神经网络的服装图片导购文字生成方法及装置
CN110210536A (zh) * 2019-05-22 2019-09-06 北京邮电大学 一种光互连系统的物理损伤诊断方法及装置
CN110188775A (zh) * 2019-05-28 2019-08-30 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
CN110188775B (zh) * 2019-05-28 2020-06-26 创意信息技术股份有限公司 一种基于联合神经网络模型的图像内容描述自动生成方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN112381079A (zh) * 2019-07-29 2021-02-19 富士通株式会社 图像处理方法和信息处理设备
CN111008738A (zh) * 2019-12-04 2020-04-14 云南锡业集团(控股)有限责任公司研发中心 基于多模态深度学习的Sn-Bi合金延伸率和抗拉强度的预测方法
CN111803028A (zh) * 2020-06-19 2020-10-23 天津大学 一种基于网络参数迁移的个性化癫痫发作检测装置

Similar Documents

Publication Publication Date Title
CN108564122A (zh) 基于卷积-循环混合网络的图像描述模型的一体化训练方法
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN105205448B (zh) 基于深度学习的文字识别模型训练方法和识别方法
CN107292333B (zh) 一种基于深度学习的快速图像分类方法
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN107239801B (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN107025369B (zh) 一种对医疗图像进行转换学习的方法和装置
CN106844442A (zh) 基于fcn特征提取的多模态循环神经网络图像描述方法
CN110532912B (zh) 一种手语翻译实现方法及装置
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN109544442A (zh) 基于双重对抗的生成式对抗网络的图像局部风格迁移方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN106650789A (zh) 一种基于深度lstm网络的图像描述生成方法
CN108304823A (zh) 一种基于双卷积cnn和长短时记忆网络的表情识别方法
CN110674305A (zh) 一种基于深层特征融合模型的商品信息分类方法
CN109635150A (zh) 文本生成方法、装置以及存储介质
CN111242033B (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN111612103A (zh) 结合抽象语义表示的图像描述生成方法、系统及介质
CN109284361A (zh) 一种基于深度学习的实体抽取方法及系统
CN107807971A (zh) 一种自动图像语义描述方法
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN110837830B (zh) 一种基于时空卷积神经网络的图像字符识别方法
CN110263174A (zh) —基于焦点关注的主题类别分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921

RJ01 Rejection of invention patent application after publication