CN110991515A - 一种融合视觉上下文的图像描述方法 - Google Patents

一种融合视觉上下文的图像描述方法 Download PDF

Info

Publication number
CN110991515A
CN110991515A CN201911187794.6A CN201911187794A CN110991515A CN 110991515 A CN110991515 A CN 110991515A CN 201911187794 A CN201911187794 A CN 201911187794A CN 110991515 A CN110991515 A CN 110991515A
Authority
CN
China
Prior art keywords
image
feature map
network
description
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911187794.6A
Other languages
English (en)
Other versions
CN110991515B (zh
Inventor
张灿龙
周东明
李志欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Banyun Polymer Technology Co.,Ltd.
Shenzhen Wanzhida Technology Co ltd
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201911187794.6A priority Critical patent/CN110991515B/zh
Publication of CN110991515A publication Critical patent/CN110991515A/zh
Application granted granted Critical
Publication of CN110991515B publication Critical patent/CN110991515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合视觉上下文的图像描述方法,包括如下步骤:1)预处理;2)图像的描述标签预处理;3)提取特征;4)均值池化;5)卷积、均值采样池化;6)获取检测图像实体;7)获取实体属性;8)卷积;9)获取实体属性特征;10)卷积;11)卷积;12)卷积;13)获取实体和属性的关系;14)搭配实体和属性的关系;15)LSTM训练;16)解决暴露偏差;17)降低维度;18)归一化;19)得到当前图像的描述语句即模型;20)得到所有图像的描述语句;21)测试并验证模型的训练效果和性能。这种方法能够保证提取图像特征的准确性,避免视觉错误,使生成的描述更加的流畅以符合人类的语法规则,可使评价指标获得更高的分数。

Description

一种融合视觉上下文的图像描述方法
技术领域
本发明涉及计算机视觉技术领域和自然语言处理领域,具体是深度神经网络和强化学习方法中的一种融合视觉上下文的图像描述方法。
背景技术
图像描述可以理解为给定一张图片,生成一段用自然语言描述的文字,图像描述和视觉问答属于计算机视觉和自然语言处理的交叉的领域,比目标检测、图片分类和语义分割等任务更具有挑战性,因为它在抽取图像实体和属性的同时还要推理出实体和属性之间的关系,图像描述在盲人导航、儿童早教、图文检索等方面有着广泛应用前景。
图像描述中需要使用编码网络和解码网络,残差网络的提出解决了编码网络在训练中梯度弥散的问题,使得编码网络的层数大大增加,图像描述中使用编码网络提取图像特征,通过不同尺寸的卷积核得到不同尺寸的特征通道,受机器翻译的启发,将编码网络替换成解码网络,解码网络(Recurrent Neural Network,简称RNN)通过带有树状相似的编码网络结构来递归复杂的深度网络,本质上,解码网络是对循环神经网络的一个有效扩展,他们具有不同的计算图,解码网络包括层内的加权连接(与传统前馈网络相比,连接仅馈送到后续层)。因为RNN包含循环,所以它们可以在处理新输入的同时存储信息,这种记忆使它们非常适合处理必须考虑事先输入的任务,比如时间序列数据,解码网络非常适合处理文本、语音、视频等时间序列数据样本,图像描述中将编码网络提取的图像特征看成是时间序列样本输入到解码网络中,然而仅使用编码网络和解码网络并不能取得很好的效果,编码网络存在网络中参数过多和梯度弥散等问题。
强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决序列决策问题,即自动进行决策,并且可以做连续决策,它主要包含四个元素,代理,环境状态,行动,奖励,强化学习的目标就是获得最多的累计奖励,强化学习和监督学习最大的区别不需要额外的监督,对正确决策予以奖励,错误决策予以惩罚,强化学习只有奖励值,但是这个奖励值和监督学习的输出值不一样,它不是事先给出的,而是延后给出的,比如走路摔倒了才得到大脑的奖励值,同时,强化学习的每一步与时间顺序前后关系紧密,而监督学习的训练数据之间一般都是独立的,没有这种前后的依赖关系,图像描述中存在着暴露偏差现象,即训练的时候递归神经网络在每一时刻输入的是句子真的真是标签,然而在测试时,递归神经网络下一时刻的输入是上一时刻的输出。因此未出现过的句子在测试时将严重影响试验性能。
发明内容
本发明的目的是针对现有技术中存在的不足,而提供一种融合视觉上下文的图像描述方法。这种方法融合了视觉上下文网络,能够保证提取图像特征的准确性,避免视觉错误,使生成的描述更加的流畅以符合人类的语法规则,可使评价指标获得更高的分数。
实现本发明目的的技术方案是:
一种融合视觉上下文的图像描述方法,包括如下步骤:
1)预处理:将MS-COCO图像描述数据集中的图像分为训练集和测试集,分别对训练集和测试集中的图像进行预处理;
2)图像的描述标签进行预处理:训练集中的每张图像对应的5句话作为图像的描述标签,设定每张图像的描述为16个单词长度,对于不满16个单词的句子使用令牌填充,出现次数少于5次的单词过滤舍弃,其中图像对应的描述标签为固定值,每张图像的描述长度自行设定;
3)提取特征:将训练集中的图像经过编码网络提取图像的特征,即裁剪或扩充图像的大小为512*512,并经过编码网络中卷积核大小为7*7的卷积层进行卷积,此时图像的特征通道变为64维,特征图缩小一倍;
4)均值池化:将步骤3)的特征图进行下采样,然后经过均值池化得到池化特征图1;
5)卷积、均值采样池化:将池化特征图1进行卷积运算,再次通过均值采样进行池化操作,此时卷积通道为128维,特征图缩小4倍,得到池化特征图2;
6)获取检测图像实体:将池化特征图2通过Sigmoid函数进行激活,然后通过编码网络的全连接层1输出特征图2到融合网络的模块控制器中,再经过5*5的卷积层卷积,得到图像的初级特征图,初级特征图作为检测图像的实体;
7)获取实体属性:步骤6所得的每个实体经过编码网络的区域推荐网络生成36个区域推荐候选框,对每个候选框进行卷积得到对应实体的属性;
8)卷积:将步骤6)中的初级特征图进行卷积操作,得到特征图3,此时使用的卷积核为3*3,卷积通道为256维,特征图3缩小8倍;
9)获取实体属性特征:对特征图3通过Tanh函数进行激活,然后通过编码网络的全连接层2输出激活后的特征图3到融合网络中的模块控制器中,得到特征图4,特征图4作为实体的属性特征;
10)对特征图3进行卷积操作,此时特征图3的大小是64*64,通道大小为256维,经过3*3的卷积核之后,得到特征图5,特征图5的大小为32*32,图像通道大小为512维;
11)对特征图5经过大小为3*3的卷积核卷积,得到图像大小为16*16,图像通道为1024维的特征图6;
12)对特征图6经过大小为3*3的卷积核卷积,得到图像大小为8*8,图像通道为2048维的特征图7;
13)获取实体和属性的关系:对特征图7进行最大值池化操作,然后选取ReLu作为激活函数对池化后的特征图7进行激活,激活后的特征图7作为实体和属性的关系通过编码网络的全连接层3送入到融合网络的模块控制器和融合模块中;
14)搭配实体和属性的关系:模块控制器对步骤13)中送入到模块控制器中的特征图7作为实体和属性的关系进行搭配,其中搭配的视觉信息由融合网络生成,非视觉信息由解码网络生成;
15)LSTM训练:将搭配后的特征图7输入到解码网络中的LSTM进行训练,在训练的过程中下一单词生成使用的是标签描述;
16)解决暴露偏差:经过40轮迭代后,使用强化学习训练解决解码网络的暴露偏差,强化学习的奖励选取CIDEr,然后将CIDEr送入到融合网络的模块控制器和融合网络中;
17)降低维度:将训练好的句子通过LSTM输出到解码网络的全连接层进行降低维度,其中LSTM输出使用Sigmoid作为激活函数;
18)归一化:将进行了维度降低的句子通过softmax批量归一化到(0,1)之间,在选取描述单词时,每次选取概率最大的前5个单词进行输出;
19)步骤18)输出的5个单词即为当前图像的特征描述,当输出结束时,得到此图像完整的描述语句;
20)对MS-COCO图像描述数据集中剩余的图像重复步骤2)-步骤19)的操作,得到MS-COCO图像描述数据集中所有图像的完整的描述语句,即得到的MS-COCO图像描述数据集中每个图像的完整的描述语句对应一个训练好的模型;
21)将步骤1)中的测试集输入到步骤20)训练好的模型中,测试并验证模型的训练效果和性能。
步骤1)中所述的分别对训练集和测试集中的图像进行预处理,其过程分别如下:
训练集中的图像的预处理过程为:先对训练集中的图像进行裁剪,再将裁剪后的图像水平翻转,然后将翻转后训练集的图像进行归一化;测试集中的图像的预处理过程为:对测试集中图像进行裁剪。
步骤6)中所述的Sigmoid函数表示为:
Figure BDA0002292825100000031
其中e为数学中的指数,Z为变量。
步骤9)中所述的Tanh激活函数表示为:
Figure BDA0002292825100000041
其中a为在t时刻的视觉特征向量。
步骤13)中所述的Relu激活函数表示为:
Figure BDA0002292825100000042
所述编码网络为Resnet101残差网络。
所述融合网络中的模块控制器描述序列的词性搭配,模块控制器生成四个软权重,生成过程为:
Figure BDA0002292825100000043
其中,x是三个视觉输入向量的拼接,w是一个四维的软注意力向量,最终生成的向量vt送入解码网络中解码。
所述融合网络中的融合模块用于降低非视觉单词梯度对视觉信息的有效性,并生成使描述序列更加流畅的非视觉信息单词,比如“a”或者“an”,解码网络针对不同词性的单词有不同的注意力策略,非视觉信息单词的生成更多依赖语义信息而非视觉信息在每一个时间步t,标准化注意力权重αi,t可计算为:
Figure BDA0002292825100000044
其中
Figure BDA0002292825100000045
为训练中的学习参数,在每一时刻由
Figure BDA0002292825100000046
决定虚词“a”或者“an”由模型产生还是由解码网络生成,
Figure BDA0002292825100000047
可表示为:
Figure BDA0002292825100000048
βt=0.5时,效果最佳,
Figure BDA0002292825100000049
为自适应特征向量,则自适应注意力的环境编码为:
Figure BDA00022928251000000410
步骤7)中所述的区域推荐网络在特征图上使用一个滑动窗口,得到一个256维度的中间层,其中每一个卷积特征图使用K个锚点进行固定,经过区域推荐网络后能够产生2k个分类层和4K个回归层。
这种方法融合了视觉上下文网络,保证了提取图像特征的准确性,避免视觉错误,使生成的描述更加的流畅以符合人类的语法规则,使评价指标获得更高的分数。
附图说明
图1为实施例的结构示意图;
图2为实施例中融合模块的示意图;
图3为实施例中模块控制器的结构示意图;
图4为实施例中Resnet101残差网络的结构示意图;
图5为实施例中区域推荐网络的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种融合视觉上下文的图像描述方法,包括如下步骤:
1)将MS-COCO图像描述数据集中的图像按7:3分为训练集和测试集,对训练集的图像水平翻转和亮度变换,最后再将图像归一化为每张图像所有像素值的均值为0,方差为1,将测试集的照片尺寸固定为512×512像素,不进行其余处理;
2)图像的描述标签进行预处理:MS-COCO图像描述数据集中的每张图像对应的5句话作为图像的描述标签,设定每张图像的描述为16个单词长度,对于不满16个单词的句子使用令牌填充,出现次数少于5次的单词过滤舍弃,得到一个包含10369个单词的词汇表,其中图像对应的描述标签为固定值,每张图像的描述长度自行设定;
3)将MS-COCO图像描述数据集中的图像,经过编码网络提取图像的特征,即裁剪或扩充图像的大小为512*512,本例编码网络为Resnet101残差网络,如图4所示,并经过Resnet101残差网络中卷积核大小为7*7的卷积层进行卷积,此时图像的特征通道变为64维,特征图缩小一倍;
4)将步骤3)的特征图进行下采样,然后经过均值池化得到池化特征图1;
5)将池化特征图1进行卷积运算,再次通过均值采样进行池化操作,此时卷积通道为128维,特征图缩小4倍,得到池化特征图2;
6)将池化特征图2通过Sigmoid函数进行激活,其中Sigmoid函数表示为:
Figure BDA0002292825100000051
e为数学中的指数,Z为变量,
激活后的特征图2通过Resnet101残差网络的全连接层1输出到融合网络的模块控制器中,再经过5*5的卷积层卷积,得到图像的初级特征图,初级特征图作为检测图像的实体,如图3所示,融合网络中的模块控制器描述序列的词性搭配,模块控制器生成四个软权重,生成过程为:
Figure BDA0002292825100000061
其中,x是三个视觉输入向量的拼接,w是一个四维的软注意力向量,最终生成的向量vt送入解码网络中解码;
7)步骤6所得的每个实体经过Resnet101残差网络的区域推荐网络生成36个区域推荐候选框,对每个候选框进行卷积得到对应实体的属性,如图5所示,区域推荐网络在特征图上使用一个滑动窗口,得到一个256维度的中间层,其中每一个卷积特征图使用K个锚点进行固定,经过区域推荐网络后能够产生2k个分类层和4K个回归层,为减少过拟合和降低计算的复杂度,本例选取前36个锚点进行进行输出;
8)将步骤6)中的初级特征图进行卷积操作,得到特征图3,此时使用的卷积核为3*3,卷积通道为256维,特征图3缩小8倍;
9)对特征图3通过Tanh函数进行激活,其中Tanh激活函数表示为:
Figure BDA0002292825100000062
a为在t时刻的视觉特征向量,激活后的特征图3通过Resnet101残差网络的全连接层2输出到融合网络中的模块控制器中,得到特征图4,特征图4作为实体的属性特征;
10)对特征图3进行卷积操作,此时特征图3的大小是64*64,通道大小为256维,经过3*3的卷积核之后,得到特征图5,特征图5的大小为32*32,图像通道大小为512维;
11)对特征图5经过大小为3*3的卷积核卷积,得到图像大小为16*16,图像通道为1024维的特征图6;
12)对特征图6经过大小为3*3的卷积核卷积,得到图像大小为8*8,图像通道为2048维的特征图7;
13)对特征图7进行最大值池化操作,选取ReLu作为激活函数对池化后的特征图7进行激活,Relu激活函数表示为:
Figure BDA0002292825100000063
激活后的特征图7作为实体和属性的关系通过编码网络的全连接层3送入到融合网络的模块控制器和融合模块中,如图2所示,所述融合网络中的融合模块用于降低非视觉单词梯度对视觉信息的有效性,并生成使描述序列更加流畅的非视觉信息单词,比如“a”或者“an”,解码网络针对不同词性的单词有不同的注意力策略,非视觉信息单词的生成更多依赖语义信息而非视觉信息在每一个时间步t,标准化注意力权重αi,t可计算为:
Figure BDA0002292825100000071
其中
Figure BDA0002292825100000072
为训练中的学习参数,在每一时刻由
Figure BDA0002292825100000073
决定虚词“a”或者“an”由模型产生还是由解码网络生成,
Figure BDA0002292825100000074
可表示为:
Figure BDA0002292825100000075
βt=0.5时,效果最佳,
Figure BDA0002292825100000076
为自适应特征向量,则自适应注意力的环境编码为:
Figure BDA0002292825100000077
14)模块控制器对步骤13)中送入到模块控制器中的特征图7作为实体和属性的关系进行搭配,其中搭配的视觉信息由融合网络生成,非视觉信息由解码网络生成;
15)将搭配后的特征图7输入到解码网络中的LSTM进行训练,在训练的过程中下一单词生成使用的是标签描述;
16)经过40轮迭代后,使用强化学习训练解决解码网络的暴露偏差,强化学习的奖励选取CIDEr,然后将CIDEr送入到融合网络的模块控制器和融合网络中;
17)将训练好的句子通过LSTM输出到解码网络的全连接层进行降低维度,其中LSTM输出使用Sigmoid作为激活函数;
18)将进行了维度降低的句子通过softmax批量归一化到(0,1)之间,在选取描述单词时,每次选取概率最大的前5个单词进行输出;
19)步骤18)输出的5个单词即为当前图像的特征描述,当输出结束时,得到此图像完整的描述语句;
20)对MS-COCO图像描述数据集中剩余的图像重复步骤2)-步骤19)的操作,得到MS-COCO图像描述数据集中所有图像的完整的描述语句,即得到的MS-COCO图像描述数据集中每个图像的完整的描述语句对应一个训练好的模型;
21)将步骤1)中的测试集输入到步骤20)训练好的模型中,然后输出一句描述语句,对这句描述语句依据七个评价指标进行评价,如下表1所示:
表1
Figure BDA0002292825100000081
从表中可知,七个评价指标分别又分了两个小指标,其中,c5表示每张图像的输出5句话描述,c40表示每张图像的输出40句话描述,14项指标中,本例有10项比测试集的高,因此本例训练好的模型训练效果和性能优越。

Claims (9)

1.一种融合视觉上下文的图像描述方法,其特征在于,包括如下步骤:
1)预处理:将MS-COCO图像描述数据集中的图像分为训练集和测试集,分别对训练集和测试集中的图像进行预处理;
2)图像的描述标签进行预处理:训练集中的每张图像对应的5句话作为图像的描述标签,设定每张图像的描述为16个单词长度,对于不满16个单词的句子使用令牌填充,出现次数少于5次的单词过滤舍弃,其中图像对应的描述标签为固定值,每张图像的描述长度自行设定;
3)提取特征:将训练集中的图像经过编码网络提取图像的特征,即裁剪或扩充图像的大小为512*512,并经过编码网络中卷积核大小为7*7的卷积层进行卷积,此时图像的特征通道变为64维,特征图缩小一倍;
4)均值池化:将步骤3)的特征图进行下采样,然后经过均值池化得到池化特征图1;
5)卷积、均值采样池化:将池化特征图1进行卷积运算,再次通过均值采样进行池化操作,此时卷积通道为128维,特征图缩小4倍,得到池化特征图2;
6)获取检测图像实体:将池化特征图2通过Sigmoid函数进行激活,然后通过编码网络的全连接层1输出特征图2到融合网络的模块控制器中,再经过5*5的卷积层卷积,得到图像的初级特征图,初级特征图作为检测图像的实体;
7)获取实体属性:步骤6所得的每个实体经过编码网络的区域推荐网络生成36个区域推荐候选框,对每个候选框进行卷积得到对应实体的属性;
8)卷积:将步骤6)中的初级特征图进行卷积操作,得到特征图3,此时使用的卷积核为3*3,卷积通道为256维,特征图3缩小8倍;
9)获取实体属性特征:对特征图3通过Tanh函数进行激活,然后通过编码网络的全连接层2输出激活后的特征图3到融合网络中的模块控制器中,得到特征图4,特征图4作为实体的属性特征;
10)对特征图3进行卷积操作,此时特征图3的大小是64*64,通道大小为256维,经过3*3的卷积核之后,得到特征图5,特征图5的大小为32*32,图像通道大小为512维;
11)对特征图5经过大小为3*3的卷积核卷积,得到图像大小为16*16,图像通道为1024维的特征图6;
12)对特征图6经过大小为3*3的卷积核卷积,得到图像大小为8*8,图像通道为2048维的特征图7;
13)获取实体和属性的关系:对特征图7进行最大值池化操作,然后选取ReLu作为激活函数对池化后的特征图7进行激活,激活后的特征图7作为实体和属性的关系通过编码网络的全连接层3送入到融合网络的模块控制器和融合模块中;
14)搭配实体和属性的关系:模块控制器对步骤13)中送入到模块控制器中的特征图7作为实体和属性的关系进行搭配,其中搭配的视觉信息由融合网络生成,非视觉信息由解码网络生成;
15)LSTM训练:将搭配后的特征图7输入到解码网络中的LSTM进行训练,在训练的过程中下一单词生成使用的是标签描述;
16)解决暴露偏差:经过40轮迭代后,使用强化学习训练解决解码网络的暴露偏差,强化学习的奖励选取CIDEr,然后将CIDEr送入到融合网络的模块控制器和融合网络中;
17)降低维度:将训练好的句子通过LSTM输出到解码网络的全连接层进行降低维度,其中LSTM输出使用Sigmoid作为激活函数;
18)归一化:将进行了维度降低的句子通过softmax批量归一化到(0,1)之间,在选取描述单词时,每次选取概率最大的前5个单词进行输出;
19)步骤18)输出的5个单词即为当前图像的特征描述,当输出结束时,得到此图像完整的描述语句;
20)对MS-COCO图像描述数据集中剩余的图像重复步骤2)-步骤19)的操作,得到MS-COCO图像描述数据集中所有图像的完整的描述语句,即得到的MS-COCO图像描述数据集中每个图像的完整的描述语句对应一个训练好的模型;
21)将步骤1)中的测试集输入到步骤20)训练好的模型中,测试并验证模型的训练效果和性能。
2.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤1)中所述的分别对训练集和测试集中的图像进行预处理,其过程分别如下:
训练集中的图像的预处理过程为:先对训练集中的图像进行裁剪,再将裁剪后的图像水平翻转,然后将翻转后训练集的图像进行归一化;
测试集中的图像的预处理过程为:对测试集中图像进行裁剪。
3.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤6)中所述的Sigmoid函数表示为:
Figure FDA0002292825090000021
其中e为数学中的指数,Z为变量。
4.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤9)中所述的Tanh激活函数表示为:
Figure FDA0002292825090000031
其中a为在t时刻的视觉特征向量。
5.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤13)中所述的Relu激活函数表示为:
Figure FDA0002292825090000032
6.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,所述编码网络为Resnet101残差网络。
7.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,所述融合网络中的模块控制器描述序列的词性搭配,模块控制器生成四个软权重,生成过程为:
Figure FDA0002292825090000033
其中,x是三个视觉输入向量的拼接,w是一个四维的软注意力向量,最终生成的向量vt送入解码网络中解码。
8.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,所述融合网络中的融合模块生成使描述序列更加流畅的非视觉信息单词,比如“a”或者“an”,在每一个时间步t,标准化注意力权重αi,t可计算为:
Figure FDA0002292825090000034
其中
Figure FDA0002292825090000035
为训练中的学习参数,在每一时刻由
Figure FDA0002292825090000036
决定虚词“a”或者“an”由模型产生还是由解码网络生成,
Figure FDA0002292825090000037
可表示为:
Figure FDA0002292825090000038
βt=0.5时,效果最佳,
Figure FDA0002292825090000039
为自适应特征向量,则自适应注意力的环境编码为:
Figure FDA00022928250900000310
9.根据权利要求1所述的融合视觉上下文的图像描述方法,其特征在于,步骤7)中所述的区域推荐网络在特征图上使用一个滑动窗口,得到一个256维度的中间层,其中每一个卷积特征图使用K个锚点进行固定,经过区域推荐网络后能够产生2k个分类层和4K个回归层。
CN201911187794.6A 2019-11-28 2019-11-28 一种融合视觉上下文的图像描述方法 Active CN110991515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911187794.6A CN110991515B (zh) 2019-11-28 2019-11-28 一种融合视觉上下文的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911187794.6A CN110991515B (zh) 2019-11-28 2019-11-28 一种融合视觉上下文的图像描述方法

Publications (2)

Publication Number Publication Date
CN110991515A true CN110991515A (zh) 2020-04-10
CN110991515B CN110991515B (zh) 2022-04-22

Family

ID=70087644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911187794.6A Active CN110991515B (zh) 2019-11-28 2019-11-28 一种融合视觉上下文的图像描述方法

Country Status (1)

Country Link
CN (1) CN110991515B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639594A (zh) * 2020-05-29 2020-09-08 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096568A (zh) * 2016-06-21 2016-11-09 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法
CN109377498A (zh) * 2018-08-31 2019-02-22 大连理工大学 基于循环神经网络的交互式抠图方法
US20190073537A1 (en) * 2017-09-07 2019-03-07 Monotype Imaging Inc. Using Attributes for Predicting Imagery Performance
CN109710787A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像描述方法
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
US20190340469A1 (en) * 2017-03-20 2019-11-07 Intel Corporation Topic-guided model for image captioning system
CN110473267A (zh) * 2019-07-12 2019-11-19 北京邮电大学 基于注意力特征提取网络的社交网络图像描述生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096568A (zh) * 2016-06-21 2016-11-09 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法
US20190340469A1 (en) * 2017-03-20 2019-11-07 Intel Corporation Topic-guided model for image captioning system
US20190073537A1 (en) * 2017-09-07 2019-03-07 Monotype Imaging Inc. Using Attributes for Predicting Imagery Performance
CN109377498A (zh) * 2018-08-31 2019-02-22 大连理工大学 基于循环神经网络的交互式抠图方法
CN109710787A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像描述方法
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN110473267A (zh) * 2019-07-12 2019-11-19 北京邮电大学 基于注意力特征提取网络的社交网络图像描述生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHOU REN 等: "Deep Reinforcement Learning-Based Image Captioning with Embedding Rewar", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
丁勇: "基于卷积循环混合模型的图像描述", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639594A (zh) * 2020-05-29 2020-09-08 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN111639594B (zh) * 2020-05-29 2023-09-22 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113515886B (zh) * 2021-04-28 2023-11-24 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质

Also Published As

Publication number Publication date
CN110991515B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
US20220351487A1 (en) Image Description Method and Apparatus, Computing Device, and Storage Medium
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN109684626A (zh) 语义识别方法、模型、存储介质和装置
CN111598183B (zh) 一种多特征融合图像描述方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113448843B (zh) 基于缺陷分析的图像识别软件测试数据增强方法及装置
CN113592251B (zh) 一种多模态融合的教态分析系统
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
Srinivasan et al. Multimodal speech recognition with unstructured audio masking
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Alon et al. Deep-hand: a deep inference vision approach of recognizing a hand sign language using american alphabet
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN113420117B (zh) 一种基于多元特征融合的突发事件分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231030

Address after: Room 5064, Room 501, 5th Floor, Building 3, No. 2 Minzu Garden Road, Chaoyang District, Beijing, 100000

Patentee after: Beijing Banyun Polymer Technology Co.,Ltd.

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee before: Shenzhen Wanzhida Technology Co.,Ltd.

Effective date of registration: 20231030

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Wanzhida Technology Co.,Ltd.

Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Patentee before: Guangxi Normal University

TR01 Transfer of patent right