CN105938485B - 一种基于卷积循环混合模型的图像描述方法 - Google Patents
一种基于卷积循环混合模型的图像描述方法 Download PDFInfo
- Publication number
- CN105938485B CN105938485B CN201610231898.2A CN201610231898A CN105938485B CN 105938485 B CN105938485 B CN 105938485B CN 201610231898 A CN201610231898 A CN 201610231898A CN 105938485 B CN105938485 B CN 105938485B
- Authority
- CN
- China
- Prior art keywords
- word
- image
- vector
- text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 28
- 210000004027 cell Anatomy 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 201000004569 Blindness Diseases 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000011161 development Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于卷积循环混合模型的图像描述方法,属于机器学习中的深度学习领域;对于文本描述而言由于句子中词具有很强的上下文关系,因此可以用一种语言模型来对文本数据进行编码。具体步骤包括:(1)提取图像特征;(2)对图像特征编码;(3)对图像描述文本编码;(4)对模型进行训练;(5)利用训练模型生成图像的文本描述。本发明在机器视觉和自然语言处理具有广泛的应用,在图像描述方法方面提出了新的思路和解决方法。目前在图像描述中,对文本的编码是随机生成的,具有一定的盲目性,而且效果也不好。而本发明利用word2Vec对文本进行编码,解决了图像描述中对描述文本的编码问题,弥补了其随机性、盲目性和不稳定性的缺陷。大大提高了图像描述的应用能力,为机器视觉的发展奠定了基础。
Description
技术领域
本发明属于机器学习中的深度学习部分。具体内容是应用在计算机视觉,自然语言处理和图像描述等领域中的方法。
背景技术
随着互联网规模和数字信息资源的增长,信息数量呈现几何级数激增,信息服务领域面临“信息丰富,但有用信息获取困难”的窘境。尤其是进入21世纪以来,数字图像资源以指数的形式增长,导致用户在海量图像库中进行图像检索中遇到了很大的困难,使得有用的图像在海量图像中无法在有效的时间内被正确的检索出来。在ILSVRC2012中,AlexKrizhevsky提出了有一种五层的神经网络简称为AlexNet,这个网络非常复杂有6千万个参数,最后AlexNet赢得了比赛的第一名。在2014年,google也加入进来了,它通过增加模型的层数(总共22层),让深度更深,并且运用multi-scale data训练,取得了第一名。百度最近通过更加“粗暴”的模型,在GoogleNet的基础上,又提升了10%。在机器视觉方面,人们用来解决问题模型似乎是越来越复杂,这些复杂的模型必须得到超豪华的硬件支持。快速的浏览一张图像足以让人们描述出大量的视觉信息。但是这种非凡的能力被证明在我们视觉模型中一个难以实现的任务。之前大多数的视觉识别一直侧重于在一个固定的领域标注图像并取得了很大的发展,虽然这种方法能简化视觉识别的模型,但对于实际情况仍有很大的局限性。
在图像描述方面已经出现了很多的方法,然而这些模型往往依赖一些硬编码的视觉概念和一些规则化的模板,这种方法的局限性是对于比较复杂的场景只能描述个大概,无法把内容完整的描述出来。
发明内容
一种基于卷积循环混合模型的图像描述方法,其特征在于用文本语言描述图像内容上,在描述内容的准确性上有很好的效果,具体步骤如下:
步骤1、对图像进行编码,具体步骤如下:
步骤1.1、用卷积神经网络对图像进行特征提取,所采用的VGG网络结构,该网络在ImageNet数据集上进行参数学习;输入一张训练图像It,经过网络进行特征提取,最后得到一个大小为4096的特征向量Ft;
步骤1.2、通过一个4096*256的映射矩阵We对提取的特征向量Ft进行编码,编码后得到一个大小为256的向量v:
v=Ft TWe+bm (1)
其中We是一个映射矩阵,bm是偏置,都是需要学习的参数。
步骤2、对文本进行编码,计算机无法处理文本数据,必须先将文本编码成计算机能识别的数据;在编码文本数据所用的方法是Word2Vec,该方法是一个深度学习模型,能够将一个词映射到一个向量空间,通过计算向量空间上的相似度表示文本语义上的相似度,具体步骤如下:
步骤2.1、对原始数据集中的描述文本进行低频处理,选取词频大于等于5的词,去除低频词汇,处理后的语料库为C,大小为2537;
步骤2.2、对词库C里面的每个词按照词频构建Haffman树,叶子结点表示语料中的词,非叶子结点只做辅助,并非是真实的结点,都标记为0或者1,左边标为1,右边标为0,在本发明专利中表示的是一个逻辑回归函数;
步骤2.3、根据构建好的Haffman树计算词的概率,具体如下:
其中,w表示语料库中的词;lw表示词w所在的层数;表示词w在j层的取值;Vw表示词w的向量估计值;表示词w在第j层的参数估计;
步骤2.4、最大似然估计模型参数,具体如下:
P(context(w))≈P(w) (4)
其中,context(w)表示词w的上下文信息,即w前window个词和后window个词,但不包括词w,在实现过程中window=5;函数Γ是要优化的目标函数,为了方便求梯度,令:
θ的梯度计算:
V的梯度计算:
在Word2Vec的实现过程中,对于词向量Vw的更新,先从根到词w更新所有参数后,再更新context(w)中每一个词的向量:
其中,u∈context(w),α为学习率;
步骤2.5、经过步骤2.4以后,可以得到词库C中每个词w∈C的词向量Vw,在实现过程中Vw的是256维的向量;
步骤3、生成图像的文本描述模型,本发明采用的是一个多模型的长短时记忆循环神经网络具体方法如下:
步骤3.1、对图像的文本描述进行预处理,包括两个方面:
步骤3.1.1对文本描述做低频处理,在实现过程中个选择频率大于等于5的词,处理后词库中词的的个数为2537;
步骤3.1.2对低频处理后大小为2537,中的词创建索引,第一个词的索引为1,最后一个词的索引为2537,除此以外增加了一个索引0表示句子的开头和结尾标注,一共2538个索引;
步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的矩阵We,矩阵中的第i行对应着索引为i的词;
步骤3.2、向前传播过程,给定一个包含N个词的图像文本描述X,先通过词索引将词转化为一个大小为N+1的索引向量,向量的第一个元素为0表示句子的开始,索引向量通过查找词编码矩阵We,得到一个(N+1)*D的词特征矩阵,连同图像编码向量一起作为长短时记忆网络的输入,该网络是一个三层网络,输入层大小为256个神经元;隐含层,大小为256个神经元;输出层,大小为2538个神经元;具体过程如下,其中1≤t≤N+1:
yt=σ(Wohht+bd) (11)
其中,为激活函数;i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞,他们和隐含层具有相同的维度;xt是大小为(N+1)*D词特征矩阵的第t行;Wxi是输入到输入门权值;Whi是上一时刻隐含层到输入门的权值;Wci是上一时刻记忆细胞到输入门的权值;bi是当前时刻输入门偏置;Wxf是输入到遗忘门的权值;Whf是上一时刻遗忘门到当前时刻遗忘门的权值;Wcf是上一时刻记忆细胞到遗忘门的权值;bf是当前时刻遗忘门偏置;Wxc是输入到记忆细胞的权值;Whc是上一时刻隐含层到当前时刻记忆细胞的权值;bc是当前时刻记忆细胞的偏置;Wxo是输入到输出门的权值;Who是上一时刻输出门到当前时刻输出门的权值;Wco是当前时刻记忆细胞到输出门之间的权值;bo是当前时刻输出门的偏置;Woh是隐含层到输出层的权值;bd是输出层的偏置;一个(N+1)*D的训练样本经过前向过程得到一个Y=(N+1)*T的输出,在这里T的大小是2538,每一列元素表示词库中每个词出现的概率;
步骤3.3、计算残差,将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL,该向量的最后一个元素为0表示句子的结束;通过3.1的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减,每个词的标签是one-hot形式表示的一维向量,第t(1≤t≤N+1)个词对应的索引位置取值为1,其他都为0;训练样本的第t个词经过前向传播得到的输出Yt,训练样本中第t个词的索引为i,IL向量第t个词的索引j,残差表达式如下:
其中下标ti,表示训练样本中第t个词出现的索引序号i;得到每个句子的残差以后开始反向学习,计算模型中参数的梯度;
步骤3.4、反向计算过程,利用步骤3.2中残差计算模型中参数的梯度,计算公式,并利用随机梯度下降法对参数进行优化;
步骤3.5、不断的重复步骤3.1、3.2、3.3,实现模型参数优化,迭代次数为15000;
步骤4、利用训练好的模型生成图像描述,读取测试图像,将测试图像先提取特征然后编码,将编码后的图像输入到步骤3.2,得到图像描述。
本发明与现有技术相比,具有以下明细优势和有益效果:
本发明在机器视觉和自然语言处理具有广泛的应用,在图像描述方法方面提出了新的思路和解决方法。目前在图像描述中,对文本的编码是随机生成的,具有一定的盲目性,而且效果也不好。而本发明恰恰解决了图像描述中对描述文本的编码问题,弥补了其随机性、盲目性和不稳定性的缺陷。利用Word2Vec对文本进行编码,大大提高了图像描述的应用能力,为机器视觉的发展奠定了基础。
附图说明
图1为算法流程图
图2为模型困惑度对比图
图3为模型Bleu-1对比图
图4为模型Bleu-2对比图
图5为模型Bleu-3对比图
图6为模型Bleu-4对比图
图7为部分实例在本发明模型的实验结果
图8为部分实例在两种模型中的实验对比
具体实施方式
下面结合附图及具体实施案例对本发明作进一步的描述。
应用在机器视觉和自然语言处理中的图像描述方法流程图。如图1所示。
其特征在于包括以下步骤:
步骤1、对图像进行编码,具体步骤如下:
步骤1.1、用卷积神经网络对图像进行特征提取,所采用的VGG网络结构,该网络在ImageNet数据集上进行参数学习;输入一张训练图像It,经过网络进行特征提取,最后得到一个大小为4096的特征向量Ft;
步骤1.2、通过一个4096*256的映射矩阵We对提取的特征向量Ft进行编码,编码后得到一个大小为256的向量v:
v=Ft TWe+bm (1)
其中We是一个映射矩阵,bm是偏置,都是需要学习的参数。
步骤2、对文本进行编码,计算机无法处理文本数据,必须先将文本编码成计算机能识别的数据;本发明在编码文本数据所用的方法是Word2Vec,该方法是一个深度学习模型,可以将一个词映射到一个向量空间,通过计算向量空间上的相似度表示文本语义上的相似度,具体步骤如下:
步骤2.1、对原始数据集中的描述文本进行低频处理,选取词频大于等于5的词,去除低频词汇,处理后的语料库为C,大小为2537;
步骤2.2、对词库C里面的每个词按照词频构建Haffman树,叶子结点表示语料中的词,非叶子结点只做辅助,并非是真实的结点,都标记为0或者1,左边标为1,右边标为0,在本发明专利中表示的是一个逻辑回归函数;
步骤2.3、根据构建好的Haffman树计算词的概率,具体如下:
其中,w表示语料库中的词;lw表示词w所在的层数;表示词w在
j层的取值;Vw表示词w的向量估计值;表示词w在第j层的参数估计;
步骤2.4、最大似然估计模型参数,具体如下:
P(context(w))≈P(w) (4)
其中,context(w)表示词w的上下文信息,即w前window个词和后window个词,但不包括词w,在实现过程中window=5;函数Γ是要优化的目标函数,为了方便求梯度,令:
θ的梯度计算:
V的梯度计算:
在Word2Vec的实现过程中,对于词向量Vw的更新,先从根到词w更新所有参数后,再更新context(w)中每一个词的向量:
其中,u∈context(w),α为学习率;
步骤2.5、经过步骤2.4以后,可以得到词库C中每个词w∈C的词向量Vw,在实现过程中Vw的是256维的向量;
步骤3、生成图像的文本描述模型,本发明采用的是一个多模型的长短时记忆循环神经网络具体方法如下:
步骤3.1、对图像的文本描述进行预处理,包括两个方面:
步骤3.1.1对文本描述做低频处理,在实现过程中个选择频率大于等于5的词,处理后词库中词的的个数为2537;
步骤3.1.2对低频处理后大小为2537,中的词创建索引,第一个词的索引为1,最后一个词的索引为2537,除此以外增加了一个索引0表示句子的开头和结尾标注,一共2538个索引;
步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的矩阵We,矩阵中的第i行对应着索引为i的词;
步骤3.2、向前传播过程,给定一个包含N个词的图像文本描述X,先通过词索引将词转化为一个大小为N+1的索引向量,向量的第一个元素为0表示句子的开始,索引向量通过查找词编码矩阵We,得到一个(N+1)*D的词特征矩阵,连同图像编码向量一起作为长短时记忆网络的输入,该网络是一个三层网络,输入层大小为256个神经元;隐含层,大小为256个神经元;输出层,大小为2538个神经元;具体过程如下,其中1≤t≤N+1:
yt=σ(Wohht+bd) (11)
其中,为激活函数;i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞,他们和隐含层具有相同的维度;xt是大小为(N+1)*D词特征矩阵的第t行;Wxi是输入到输入门权值;Whi是上一时刻隐含层到输入门的权值;Wci是上一时刻记忆细胞到输入门的权值;bi是当前时刻输入门偏置;Wxf是输入到遗忘门的权值;Whf是上一时刻遗忘门到当前时刻遗忘门的权值;Wcf是上一时刻记忆细胞到遗忘门的权值;bf是当前时刻遗忘门偏置;Wxc是输入到记忆细胞的权值;Whc是上一时刻隐含层到当前时刻记忆细胞的权值;bc是当前时刻记忆细胞的偏置;Wxo是输入到输出门的权值;Who是上一时刻输出门到当前时刻输出门的权值;Wco是当前时刻记忆细胞到输出门之间的权值;bo是当前时刻输出门的偏置;Woh是隐含层到输出层的权值;bd是输出层的偏置;一个(N+1)*D的训练样本经过前向过程得到一个Y=(N+1)*T的输出,在这里T的大小是2538,每一列元素表示词库中每个词出现的概率;
步骤3.3、计算残差,将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL,该向量的最后一个元素为0表示句子的结束;通过3.1的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减,每个词的标签是one-hot形式表示的一维向量,第t(1≤t≤N+1)个词对应的索引位置取值为1,其他都为0;训练样本的第t个词经过前向传播得到的输出Yt,训练样本中第t个词的索引为i,IL向量第t个词的索引j,残差表达式如下:
其中下标ti,表示训练样本中第t个词出现的索引序号i;得到每个句子的残差以后开始反向学习,计算模型中参数的梯度;
步骤3.4、反向计算过程,利用步骤3.2中残差计算模型中参数的梯度,计算公式,并利用随机梯度下降法对参数进行优化;
步骤3.5、不断的重复步骤3.1、3.2、3.3,实现模型参数优化,迭代次数为15000;
步骤4、利用训练好的模型生成图像描述,读取测试图像,将测试图像先提取特征然后编码,将编码后的图像输入到步骤3.2,得到图像描述。
下面给出一个本发明设计应用在flickr8k数据集的实例。
实例采用的数据集是flickr8k数据集,该数据集在图像描述领域中有广泛的应用,被众多的研究者给认可。其中训练集有6000张图片,每个图片有五种标准的文本表达。1000个测试集和1000个验证集。
利用本模型在flickr8k数据集上的实验,生成图像描述,部分实验结果如图7所示。
本实例分别采用两种模型在flickr8k数据集上对比实验,在试验迭代过程中,会不断的用验证集去验证当前模型,如果当前模型满足一定条件,就视为有用模型。Word2Vec对文本编码的模型产生的有用模型是20个,随机编码的模型产生的有用模型为15个。
1对比两种模型的困惑度,实验结果如图1:
2,对比两种模型在测试集上的效果,比较Bleu得分,图2是两个模型Bleu-1得分对比图,图3是Bleu-2对比图,图4是Bleu-3对比图,图5是Bleu-4对比图。
3,对比两种模型生成图像描述结果,如图8:
Word2Vec编码文本生成的描述:
aman in ablack shirt and glasses is holding a camera
随机对文本编码生成的描述:
aman in ablack shirt and awoman in ablack shirt
从以上实验可以看出,用word2Vec对文本进行编码在flickr8k数据集的效果明显优于随机编码的。
以上实例仅用于说明本发明,而非限制本发明所描述的技术方案。因此,一切不脱离本发明精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围中。
Claims (1)
1.一种基于卷积循环混合模型的图像描述方法,其特征在于:用文本语言描述图像内容上,具体步骤如下,
步骤1、对图像进行编码,具体步骤如下:
步骤1.1、用卷积神经网络对图像进行特征提取,该网络在ImageNet数据集上进行参数学习;输入一张训练图像It,经过网络进行特征提取,最后得到一个大小为4096的特征向量Ft;
步骤1.2、通过一个4096*256的映射矩阵We对提取的特征向量Ft进行编码,编码后得到一个大小为256的向量v:
v=Ft TWe+bm (1)
其中We是一个映射矩阵,bm是偏置,都是需要学习的参数;
步骤2、对文本进行编码,计算机无法处理文本数据,必须先将文本编码成计算机能识别的数据;在编码文本数据所用的方法是Word2Vec,该方法是一个深度学习模型,能够将一个词映射到一个向量空间,通过计算向量空间上的相似度表示文本语义上的相似度,具体步骤如下:
步骤2.1、对原始数据集中的描述文本进行低频处理,选取词频大于等于5的词,去除低频词汇,处理后的语料库为C,大小为2537;
步骤2.2、对词库C里面的每个词按照词频构建Haffman树,叶子结点表示语料中的词,非叶子结点只做辅助,并非是真实的结点,都标记为0或者1,左边标为1,右边标为0,表示的是一个逻辑回归函数;
步骤2.3、根据构建好的Haffman树计算词的概率,具体如下:
其中,w表示语料库中的词;lw表示词w所在的层数;表示词w在j层的取值;Vw表示词w的向量估计值;表示词w在第j层的参数估计;
步骤2.4、最大似然估计模型参数,具体如下:
P(context(w))≈P(w) (4)
其中,context(w)表示词w的上下文信息,即w前window个词和后window个词,但不包括词w,在实现过程中window=5;函数Γ是要优化的目标函数,为了方便求梯度,令:
θ的梯度计算:
V的梯度计算:
在Word2Vec的实现过程中,对于词向量Vw的更新,先从根到词w更新所有参数后,再更新context(w)中每一个词的向量:
其中,u∈context(w),α为学习率;
步骤2.5、经过步骤2.4以后,可以得到词库C中每个词w∈C的词向量Vw,在实现过程中Vw的是256维的向量;
步骤3、生成图像的文本描述模型,采用的是一个多模型的长短时记忆循环神经网络具体方法如下:
步骤3.1、对图像的文本描述进行预处理,包括两个方面:
步骤3.1.1对文本描述做低频处理,在实现过程中个选择频率大于等于5的词,处理后词库中词的的个数为2537;
步骤3.1.2对低频处理后大小为2537,中的词创建索引,第一个词的索引为1,最后一个词的索引为2537,除此以外增加了一个索引0表示句子的开头和结尾标注,一共2538个索引;
步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的映射矩阵We,矩阵中的第i行对应着索引为i的词;
步骤3.2、向前传播过程,给定一个包含N个词的图像文本描述X,先通过词索引将词转化为一个大小为N+1的索引向量,向量的第一个元素为0表示句子的开始,索引向量通过查找词编码的映射矩阵We,得到一个(N+1)*D的词特征矩阵,连同图像编码向量一起作为长短时记忆网络的输入,该网络是一个三层网络,输入层大小为256个神经元;隐含层,大小为256个神经元;输出层,大小为2538个神经元;具体过程如下,其中1≤t≤N+1:
yt=σ(Wohht+bd) (11)
其中,为激活函数;i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞,它们和隐含层具有相同的维度;xt是大小为(N+1)*D词特征矩阵的第t行;Wxi是输入到输入门权值;Whi是上一时刻隐含层到输入门的权值;Wci是上一时刻记忆细胞到输入门的权值;bi是当前时刻输入门偏置;Wxf是输入到遗忘门的权值;Whf是上一时刻遗忘门到当前时刻遗忘门的权值;Wcf是上一时刻记忆细胞到遗忘门的权值;bf是当前时刻遗忘门偏置;Wxc是输入到记忆细胞的权值;Whc是上一时刻隐含层到当前时刻记忆细胞的权值;bc是当前时刻记忆细胞的偏置;Wxo是输入到输出门的权值;Who是上一时刻输出门到当前时刻输出门的权值;Wco是当前时刻记忆细胞到输出门之间的权值;bo是当前时刻输出门的偏置;Woh是隐含层到输出层的权值;bd是输出层的偏置;一个(N+1)*D的训练样本经过前向过程得到一个Y=(N+1)*T的输出,在这里T的大小是2538,每一列元素表示词库中每个词出现的概率;
步骤3.3、计算残差,将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL,该向量的最后一个元素为0表示句子的结束;通过步骤3.2的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减,每个词的标签是one-hot形式表示的一维向量,第t(1≤t≤N+1)个词对应的索引位置取值为1,其他都为0;训练样本的第t个词经过前向传播得到的输出Yt,训练样本中第t个词的索引为i,IL向量第t个词的索引j,残差表达式如下:
其中下标ti,表示训练样本中第t个词出现的索引序号i;得到每个句子的残差以后开始反向学习,计算模型中参数的梯度;
步骤3.4、反向计算过程,利用步骤3.3中残差计算模型中参数的梯度,计算公式,并利用随机梯度下降法对参数进行优化;
步骤3.5、不断的重复步骤3.2、3.3、3.4,实现模型参数优化,迭代次数为15000;
步骤4、利用训练好的模型生成图像描述,读取测试图像,将测试图像先提取特征然后编码,将编码后的图像输入到步骤3.2,得到图像描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610231898.2A CN105938485B (zh) | 2016-04-14 | 2016-04-14 | 一种基于卷积循环混合模型的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610231898.2A CN105938485B (zh) | 2016-04-14 | 2016-04-14 | 一种基于卷积循环混合模型的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105938485A CN105938485A (zh) | 2016-09-14 |
CN105938485B true CN105938485B (zh) | 2019-06-14 |
Family
ID=57152021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610231898.2A Expired - Fee Related CN105938485B (zh) | 2016-04-14 | 2016-04-14 | 一种基于卷积循环混合模型的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105938485B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016010910A1 (de) * | 2015-11-11 | 2017-05-11 | Adobe Systems Incorporated | Strukturiertes Modellieren und Extrahieren von Wissen aus Bildern |
US10460033B2 (en) | 2015-11-11 | 2019-10-29 | Adobe Inc. | Structured knowledge modeling, extraction and localization from images |
US11514244B2 (en) | 2015-11-11 | 2022-11-29 | Adobe Inc. | Structured knowledge modeling and extraction from images |
CN107784303A (zh) * | 2016-12-15 | 2018-03-09 | 平安科技(深圳)有限公司 | 车牌识别方法及装置 |
CN106777125B (zh) * | 2016-12-16 | 2020-10-23 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN106650756B (zh) * | 2016-12-28 | 2019-12-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
CN108665055B (zh) * | 2017-03-28 | 2020-10-23 | 深圳荆虹科技有限公司 | 一种图说生成方法及装置 |
EP3399460B1 (en) * | 2017-05-02 | 2019-07-17 | Dassault Systèmes | Captioning a region of an image |
CN107480144B (zh) * | 2017-08-03 | 2020-10-20 | 中国人民大学 | 具备跨语言学习能力的图像自然语言描述生成方法和装置 |
CN107844743B (zh) * | 2017-09-28 | 2020-04-28 | 浙江工商大学 | 一种基于多尺度分层残差网络的图像多字幕自动生成方法 |
CN108228700B (zh) * | 2017-09-30 | 2021-01-26 | 北京市商汤科技开发有限公司 | 图像描述模型的训练方法、装置、电子设备及存储介质 |
CN107665356A (zh) * | 2017-10-18 | 2018-02-06 | 北京信息科技大学 | 一种图像标注方法 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN109871843B (zh) * | 2017-12-01 | 2022-04-08 | 北京搜狗科技发展有限公司 | 字符识别方法和装置、用于字符识别的装置 |
CN108133632B (zh) * | 2017-12-20 | 2019-10-01 | 刘昳旻 | 英语听力的训练方法及系统 |
CN108009154B (zh) * | 2017-12-20 | 2021-01-05 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN108764299B (zh) * | 2018-05-04 | 2020-10-23 | 北京物灵智能科技有限公司 | 故事模型训练及生成方法、系统、机器人及存储设备 |
CN108898639A (zh) * | 2018-05-30 | 2018-11-27 | 湖北工业大学 | 一种图像描述方法及系统 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109271628A (zh) * | 2018-09-03 | 2019-01-25 | 东北大学 | 一种图像描述生成方法 |
CN109583043B (zh) * | 2018-11-09 | 2020-09-22 | 清华大学 | 一种用于螺栓联接的拧紧力矩自适应补偿方法 |
CN109871686A (zh) * | 2019-01-31 | 2019-06-11 | 中国人民解放军战略支援部队信息工程大学 | 基于图标表示和软件行为一致性分析的恶意程序识别方法及装置 |
CN109948340B (zh) * | 2019-03-27 | 2020-09-01 | 集美大学 | 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法 |
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
CN111860434B (zh) * | 2020-07-31 | 2021-05-25 | 贵州大学 | 机器人视觉隐私行为识别与保护方法 |
CN116188632A (zh) * | 2023-04-24 | 2023-05-30 | 之江实验室 | 一种图像的生成方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211341A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
CN105389379A (zh) * | 2015-11-20 | 2016-03-09 | 重庆邮电大学 | 一种基于文本分布式特征表示的垃圾稿件分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874434B2 (en) * | 2010-06-02 | 2014-10-28 | Nec Laboratories America, Inc. | Method and apparatus for full natural language parsing |
-
2016
- 2016-04-14 CN CN201610231898.2A patent/CN105938485B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211341A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
CN105389379A (zh) * | 2015-11-20 | 2016-03-09 | 重庆邮电大学 | 一种基于文本分布式特征表示的垃圾稿件分类方法 |
Non-Patent Citations (1)
Title |
---|
DEEP CAPTIONING WITH MULTIMODAL RECURRENT;Junhua Mao等;《ICLR 2015》;20151231;第1-15页 |
Also Published As
Publication number | Publication date |
---|---|
CN105938485A (zh) | 2016-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105938485B (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN109582789B (zh) | 基于语义单元信息的文本多标签分类方法 | |
CN111309971B (zh) | 一种基于多级编码的文本到视频的跨模态检索方法 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN111897913A (zh) | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN111160467A (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
CN111125367B (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN111444367A (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN114595306B (zh) | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 | |
Guo et al. | Learning disentangled representation for cross-modal retrieval with deep mutual information estimation | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114254108B (zh) | 一种中文文本对抗样本生成的方法、系统及介质 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和系统 | |
CN116578734B (zh) | 一种基于clip的概率嵌入组合检索方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116775855A (zh) | 基于Bi-LSTM的TextRank中文摘要自动生成方法 | |
CN116681078A (zh) | 一种基于强化学习的关键词生成方法 | |
CN114757177B (zh) | 一种基于bart融合指针生成网络的文本摘要方法 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190614 |