CN109710787B - 基于深度学习的图像描述方法 - Google Patents

基于深度学习的图像描述方法 Download PDF

Info

Publication number
CN109710787B
CN109710787B CN201811646150.4A CN201811646150A CN109710787B CN 109710787 B CN109710787 B CN 109710787B CN 201811646150 A CN201811646150 A CN 201811646150A CN 109710787 B CN109710787 B CN 109710787B
Authority
CN
China
Prior art keywords
network
image
images
residual error
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811646150.4A
Other languages
English (en)
Other versions
CN109710787A (zh
Inventor
郭敏
张洁庆
彭亚丽
肖冰
裴炤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201811646150.4A priority Critical patent/CN109710787B/zh
Publication of CN109710787A publication Critical patent/CN109710787A/zh
Application granted granted Critical
Publication of CN109710787B publication Critical patent/CN109710787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于深度学习的图像描述方法,包括将图像数据集分为训练集和测试集;构建图像描述模型;在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至图像描述模型中的可变形卷积残差网络中;将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;生成图像对应的文本序列;完成语言模型的构建生成图像对应的语句;使用AdamW优化算法对图像描述模型进行训练;输出图像对应的描述语句;本发明提取的图像特征具有更好的空间表达能力,生成的句子准确度高,语言结构丰富,并且模型训练时间少,收敛速度快。

Description

基于深度学习的图像描述方法
技术领域
本发明属于人工智能深度学习领域,具体是一种基于深度学习的图像描述方法。
背景技术
图像描述是机器将一张图像自动翻译为人类能够理解的句子,它是一个涉及计算机视觉、自然语言处理和机器学习的基本问题。系统不仅要识别图像中的物体,还要识别出物体的属性、位置以及图像中物体之间的关系,然后通过自然语言处理转换为具有一定语法结构的句子。图像描述在帮助有视力障碍的人减轻视觉障碍、婴儿早期教育和图像检索方面有很大的意义。
传统的图像描述是基于模板和基于语义迁移的方法,但传统方法生成的句子结构单一,会出现图像理解偏差的问题,目前主流的图像描述的方法是基于“编码-解码”的方法。Vinyals等人提出NIC模型,通过卷积神经网络(ConvolutionalNeural Network,CNN)提取图像特征,然后送到长短时记忆网络(Long Short-TermMemory,LSTM)中生成图像对应的句子。Xu等人将LSTM与注意机制进行结合,把图像中物体的位置信息与描述的内容进行关联,使得在生成单词序列的时候,更关注图像中显著位置的物体。XuJia等人提出gLSTM(guidingLSTM)模型,在LSTM的基础上加入图像的特征信息或者句子的语义信息,作为LSTM的指导性信息。Qing Sun等人使用双向循环网络模型构建图像描述模型,并且可以通过双向循环网络模型填补句子中缺失的部分。
这些方法所用的网络模型存在模型收敛速度慢,生成的句子准确度低,结构简单等问题。
发明内容
本发明所要解决的主要技术问题在于克服上述描述方法的不足,提供一种收敛速度快、空间表达能力强、生成句子准确度高的基于深度学习的图像描述方法。
解决上述技术问题所采用的技术方案由下述步骤组成:
1.一种基于深度学习的图像描述方法,其特征在于由下述步骤组成:
(1)将图像数据集分为训练集和测试集,训练集由图像和图像对应的标注语句组成,测试集由图像组成;
(2)构建图像描述模型
图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句;
(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;
(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;
(5)采用one-hot编码方式对训练集中图像对应的描述语句进行编码,生成图像对应的文本序列;
(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;
(7)使用AdamW优化算法对图像描述模型进行训练;
(8)将测试集中的一幅图像输入到训练完成的图像描述模型中,输出图像对应的描述语句。
作为一种优选的技术方案,所述的步骤(2)中可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量。
作为一种优选的技术方案,所述的步骤(2)中自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成,所述的自约束门限递归网络的公式如下:
r=σ(Wrxt+UrφLReLU(ht-1)) (1)
z=σ(Wzxt+UzφLReLU(ht-1)) (2)
Figure BDA0001932106530000021
Figure BDA0001932106530000022
Outputt=φLReLU(ht) (5)
式中r为重置门,Wr和Ur为重置门权重矩阵,xt为当前时刻网络的输入,σ为sigmoid激活函数,φLReLU为LReLU激活函数,z为更新门,Wz和Uz为更新门权重矩阵,ht-1为前一时刻的输出状态,
Figure BDA0001932106530000031
为当前时刻的隐藏状态信息,Wh和Uh为隐藏状态权重矩阵,ht为当前时刻的状态信息,/>
Figure BDA0001932106530000032
表示向量对应元素相乘的运算,Outputt为t时刻网络的输出。
本发明的有益效果:
本发明采用深度学习方法对图像进行描述,将图像输入到空间变换网络中,增加了模型的空间鲁棒性;采用可变形卷积残差网络,使卷积核形状可以发生变化,以适应不同的输入特征图,丰富了残差网络的空间表达能力;采用自约束门限递归网络,构建双向的自约束门限递归网络模型,有助于解决多层循环网络结构模型带来的梯度爆炸和梯度消失问题,提高模型构建语言结构的能力;使用AdamW优化算法对模型进行训练,可加快模型的训练速度,减少模型的训练时间。本发明提取的图像特征具有更好的空间表达能力,生成的句子准确度高,语言结构丰富,并且模型训练时间少,收敛速度快。
附图说明
图1是本发明基于深度学习的图像描述方法的流程图。
图2是实施例1中输入的测试图像及输出测试图像对应的描述语句。
具体实施方式
下面结合附图和实施例对本发明进一步详细说明,但本发明不限于这些实施例。
实施例1
本实施例采用的图像数据集为MSCOCO数据集,MSCOCO数据集由图像和图像对应的人工标注的句子组成。
在图1中,本实施例的基于深度学习的图像描述方法,由下述步骤组成:
(1)从MSCOCO数据集中选取82783张图像及图像对应的人工标注的句子作为训练集,选取4000张图像作为测试集;
(2)构建图像描述模型
图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型生成图像对应的语句;
本实施例的可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量;
本实施例的自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成,自约束门限递归网络模型的公式如下:
r=σ(Wrxt+UrφLReLU(ht-1)) (1)
z=σ(Wzxt+UzφLReLU(ht-1)) (2)
Figure BDA0001932106530000041
Figure BDA0001932106530000042
Outputt=φLReLU(ht) (5)
式中r为重置门,Wr和Ur为重置门权重矩阵,xt为当前时刻网络的输入,σ为sigmoid激活函数,φLReLU为LReLU激活函数,z为更新门,Wz和Uz为更新门权重矩阵,ht-1为前一时刻的输出状态,
Figure BDA0001932106530000043
为当前时刻的隐藏状态信息,Wh和Uh为隐藏状态权重矩阵,ht为当前时刻的状态信息,/>
Figure BDA0001932106530000044
表示向量对应元素相乘的运算,Outputt为t时刻网络的输出。
(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;
(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;
(5)采用one-hot编码方式对训练集中的图像对应的描述语句进行编码,生成图像对应的文本序列;
(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;
(7)使用AdamW优化算法对图像描述模型进行训练;
AdamW优化算法的公式如式(6)到式(10)所示:
mt=β1mt-1+(1-β1)gt (6)
Figure BDA0001932106530000045
其中t为时间步,gt为梯度,mt为t时刻梯度的一阶矩,vt为t时刻梯度的二阶矩,mt-1为t-1时刻梯度的一阶矩,vt-1为t-1时刻梯度的二阶矩,β1为一阶矩的衰减因子,β2为二阶矩的衰减因子;
当mt、vt的值趋近于0向量时,对一阶矩和二阶矩的偏差进行修正:
Figure BDA0001932106530000051
/>
Figure BDA0001932106530000052
式中β1 t、β2 t分别为β1、β2的转置,
Figure BDA0001932106530000053
分别为mt、vt的修正项;
AdamW参数更新的公式为:
Figure BDA0001932106530000054
其中θ为模型中的参数,η为学习率,α的值为0.001,ξ的值为10-8,ω为实数;
(8)将测试集中的一幅图像输入到训练完成的图像描述模型中,输出图像对应的描述语句,如图2。

Claims (2)

1.一种基于深度学习的图像描述方法,其特征在于由下述步骤组成:
(1)将图像数据集分为训练集和测试集,训练集由图像和图像对应的标注语句组成,测试集由图像组成;
(2)构建图像描述模型
图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句;
所述的自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成,所述的自约束门限递归网络的公式如下:
r=σ(Wrxt+UrφLReLU(ht-1)) (1)
z=σ(Wzxt+UzφLReLU(ht-1)) (2)
Figure FDA0003988793330000011
Figure FDA0003988793330000012
Outputt=φLReLU(ht) (5)
式中r为重置门,Wr和Ur为重置门权重矩阵,xt为当前时刻网络的输入,σ为sigmoid激活函数,φLReLU为LReLU激活函数,z为更新门,Wz和Uz为更新门权重矩阵,ht-1为前一时刻的输出状态,
Figure FDA0003988793330000013
为当前时刻的隐藏状态信息,Wh和Uh为隐藏状态权重矩阵,ht为当前时刻的状态信息,/>
Figure FDA0003988793330000014
表示向量对应元素相乘的运算,Outputt为t时刻网络的输出;
(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;
(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;
(5)采用one-hot编码方式对训练集中图像对应的描述语句进行编码,生成图像对应的文本序列;
(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;
(7)使用AdamW优化算法对图像描述模型进行训练;
(8)将测试集中的一幅图像输入到训练完成的图像描述模型中,输出图像对应的描述语句。
2.根据权利要求1所述的基于深度学习的图像描述方法,其特征在于:所述的步骤(2)中可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量。
CN201811646150.4A 2018-12-30 2018-12-30 基于深度学习的图像描述方法 Active CN109710787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811646150.4A CN109710787B (zh) 2018-12-30 2018-12-30 基于深度学习的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811646150.4A CN109710787B (zh) 2018-12-30 2018-12-30 基于深度学习的图像描述方法

Publications (2)

Publication Number Publication Date
CN109710787A CN109710787A (zh) 2019-05-03
CN109710787B true CN109710787B (zh) 2023-03-28

Family

ID=66260447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646150.4A Active CN109710787B (zh) 2018-12-30 2018-12-30 基于深度学习的图像描述方法

Country Status (1)

Country Link
CN (1) CN109710787B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348014B (zh) * 2019-07-10 2023-03-24 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110852171A (zh) * 2019-10-14 2020-02-28 清华大学深圳国际研究生院 在线训练的场景描述机器人系统及方法
CN110991515B (zh) * 2019-11-28 2022-04-22 广西师范大学 一种融合视觉上下文的图像描述方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807971A (zh) * 2017-10-18 2018-03-16 北京信息科技大学 一种自动图像语义描述方法
CN107944450A (zh) * 2017-11-16 2018-04-20 深圳市华尊科技股份有限公司 一种车牌识别方法及装置
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108876735A (zh) * 2018-06-01 2018-11-23 武汉大学 一种基于深度残差网络的真实图像盲去噪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11049018B2 (en) * 2017-06-23 2021-06-29 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807971A (zh) * 2017-10-18 2018-03-16 北京信息科技大学 一种自动图像语义描述方法
CN107944450A (zh) * 2017-11-16 2018-04-20 深圳市华尊科技股份有限公司 一种车牌识别方法及装置
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108876735A (zh) * 2018-06-01 2018-11-23 武汉大学 一种基于深度残差网络的真实图像盲去噪方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
Multi-dimensional Gated Recurrent Units for Automated Anatomical Landmark Localization;Simon Andermatt 等;《arxiv》;20170809;1-8 *
Predicting citywide crowd flows using deep spatio-temporal residual networks;JunboZhang 等;《Artificial Intelligence》;20180630;147-166 *
ReLU激活函数优化研究;蒋昂波 等;《传感器与微系统》;20180205;50-52 *
一种基于忆阻激活函数的递归神经网络及其联想记忆;郭腾腾 等;《中国科学:信息科学》;20170920;1226-1241 *
基于GoogLeNet和双层GRU的图像描述;张洁庆 等;《陕西师范大学学报(自然科学版)》;20201221;68-73 *
基于X-ray图像的骨龄自动评估;周文祥;《中国优秀硕士学位论文全文数据库信息科技辑》;20180915;I138-294 *
基于改进卷积神经网络的多视角人脸表情识别;钱勇生 等;《计算机工程与应用》;20181215;12-19 *
基于深度学习的图像描述方法;张洁庆;《中国优秀硕士学位论文全文数据库信息科技辑》;20200615;I138-726 *
基于门限递归单元循环神经网络的交通流预测方法研究;王体迎 等;《重庆交通大学学报(自然科学版)》;20181013;76-82 *

Also Published As

Publication number Publication date
CN109710787A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN108009154B (zh) 一种基于深度学习模型的图像中文描述方法
CN109710787B (zh) 基于深度学习的图像描述方法
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN111046661B (zh) 基于图卷积网络的阅读理解方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN112069328B (zh) 一种基于多标签分类的实体关系联合抽取模型的建立方法
CN107679225B (zh) 一种基于关键词的回复生成方法
CN108829737B (zh) 基于双向长短期记忆网络的文本交叉组合分类方法
CN111708877B (zh) 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
KR20230152741A (ko) 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습
CN111191461B (zh) 一种基于课程学习的远程监督关系抽取方法
US11615247B1 (en) Labeling method and apparatus for named entity recognition of legal instrument
CN109948159A (zh) 一种文本数据生成方法、装置、设备及可读存储介质
CN112948505A (zh) 一种实体关系分类的模型构建方法、设备及存储介质
WO2022194398A1 (en) Domain adaptive semantic segmentation
Antunes et al. A bi-directional multiple timescales LSTM model for grounding of actions and verbs
CN111984783A (zh) 文本生成模型的训练方法、文本生成方法及相关设备
Zhang Application of intelligent grammar error correction system following deep learning algorithm in English teaching
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN116383398A (zh) 一种专业领域术语实体词向量自校正方法、系统及装置
CN115578596A (zh) 一种多尺度跨媒体信息融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant