CN105938485A - 一种基于卷积循环混合模型的图像描述方法 - Google Patents

一种基于卷积循环混合模型的图像描述方法 Download PDF

Info

Publication number
CN105938485A
CN105938485A CN201610231898.2A CN201610231898A CN105938485A CN 105938485 A CN105938485 A CN 105938485A CN 201610231898 A CN201610231898 A CN 201610231898A CN 105938485 A CN105938485 A CN 105938485A
Authority
CN
China
Prior art keywords
word
theta
sigma
rsqb
lsqb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610231898.2A
Other languages
English (en)
Other versions
CN105938485B (zh
Inventor
李玉鑑
丁勇
刘兆英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201610231898.2A priority Critical patent/CN105938485B/zh
Publication of CN105938485A publication Critical patent/CN105938485A/zh
Application granted granted Critical
Publication of CN105938485B publication Critical patent/CN105938485B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种基于卷积循环混合模型的图像描述方法,属于机器学习中的深度学习领域;对于文本描述而言由于句子中词具有很强的上下文关系,因此可以用一种语言模型来对文本数据进行编码。具体步骤包括:(1)提取图像特征;(2)对图像特征编码;(3)对图像描述文本编码;(4)对模型进行训练;(5)利用训练模型生成图像的文本描述。本发明在机器视觉和自然语言处理具有广泛的应用,在图像描述方法方面提出了新的思路和解决方法。目前在图像描述中,对文本的编码是随机生成的,具有一定的盲目性,而且效果也不好。而本发明利用word2Vec对文本进行编码,解决了图像描述中对描述文本的编码问题,弥补了其随机性、盲目性和不稳定性的缺陷。大大提高了图像描述的应用能力,为机器视觉的发展奠定了基础。

Description

一种基于卷积循环混合模型的图像描述方法
技术领域
本发明属于机器学习中的深度学习部分。具体内容是应用在计算机视觉,自然语言处理和图像描述等领域中的方法。
背景技术
随着互联网规模和数字信息资源的增长,信息数量呈现几何级数激增,信息服务领域面临“信息丰富,但有用信息获取困难”的窘境。尤其是进入21世纪以来,数字图像资源以指数的形式增长,导致用户在海量图像库中进行图像检索中遇到了很大的困难,使得有用的图像在海量图像中无法在有效的时间内被正确的检索出来。在ILSVRC2012中,Alex Krizhevsky提出了有一种五层的神经网络简称为AlexNet,这个网络非常复杂有6千万个参数,最后AlexNet赢得了比赛的第一名。在2014年,google也加入进来了,它通过增加模型的层数(总共22层),让深度更深,并且运用multi-scale data训练,取得了第一名。百度最近通过更加“粗暴”的模型,在GoogleNet的基础上,又提升了10%。在机器视觉方面,人们用来解决问题模型似乎是越来越复杂,这些复杂的模型必须得到超豪华的硬件支持。快速的浏览一张图像足以让人们描述出大量的视觉信息。但是这种非凡的能力被证明在我们视觉模型中一个难以实现的任务。之前大多数的视觉识别一直侧重于在一个固定的领域标注图像并取得了很大的发展,虽然这种方法能简化视觉识别的模型,但对于实际情况仍有很大的局限性。
在图像描述方面已经出现了很多的方法,然而这些模型往往依赖一些硬编码的视觉概念和一些规则化的模板,这种方法的局限性是对于比较复杂的场景只能描述个大概,无法把内容完整的描述出来。
发明内容
一种基于卷积循环混合模型的图像描述方法,其特征在于用文本语言描述图像内容上,在描述内容的准确性上有很好的效果,具体步骤如下:
步骤1、对图像进行编码,具体步骤如下:
步骤1.1、用卷积神经网络对图像进行特征提取,所采用的VGG网络结构,该网络在ImageNet数据集上进行参数学习;输入一张训练图像It,经过网络进行特征提取,最后得到一个大小为4096的特征向量Ft
步骤1.2、通过一个4096*256的映射矩阵We对提取的特征向量Ft进行编码,编码后得到一个大小为256的向量v:
v=Ft TWe+bm (1)
其中We是一个映射矩阵,bm是偏置,都是需要学习的参数。
步骤2、对文本进行编码,计算机无法处理文本数据,必须先将文本编码成计算机能识别的数据;在编码文本数据所用的方法是Word2Vec,该方法是一个深度学习模型,能够将一个词映射到一个向量空间,通过计算向量空间上的相似度表示文本语义上的相似度,具体步骤如下:
步骤2.1、对原始数据集中的描述文本进行低频处理,选取词频大于等于5的词,去除低频词汇,处理后的语料库为C,大小为2537;
步骤2.2、对词库C里面的每个词按照词频构建Haffman树,叶子结点表示语料中的词,非叶子结点只做辅助,并非是真实的结点,都标记为0或者1,左边标为1,右边标为0,在本发明专利中表示的是一个逻辑回归函数;
步骤2.3、根据构建好的Haffman树计算词的概率,具体如下:
P ( w ) = Π j = 1 l w - 1 P ( d j + 1 w | V w T , θ j w ) = Π j = 1 l w - 1 { [ 1 - σ ( V w T θ j w ) ] d j + 1 w [ σ ( V w T θ j w ) ] 1 - d j + 1 w } - - - ( 2 )
其中,w表示语料库中的词;lw表示词w所在的层数;表示词w在j层的取值;Vw表示词w的向量估计值;表示词w在第j层的参数估计;
步骤2.4、最大似然估计模型参数,具体如下:
P ( C ) = Π w ∈ C P ( c o n t e x t ( w ) ) - - - ( 3 )
P(context(w))≈P(w) (4)
Γ = Σ w ∈ C log { Π j = 1 l w - 1 { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } } = Σ w ∈ C Σ j = 1 l w - 1 log { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } - - - ( 5 )
其中,context(w)表示词w的上下文信息,即w前window个词和后window个词,但不包括词w,在实现过程中window=5;函数Γ是要优化的目标函数,为了方便求梯度,令:
L ( w , θ j ) = log { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } = d j + 1 w log [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) log [ σ ( V T θ j w ) ] - - - ( 6 )
θ的梯度计算:
∂ L ( w , θ j ) ∂ θ j = ∂ { d j + 1 w log [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) log [ σ ( V T θ j w ) ] } ∂ θ j = [ 1 - d j + 1 w - σ ( V T θ j w ) ] V - - - ( 7 )
V的梯度计算:
∂ L ( w , θ j ) ∂ V w = ∂ { d j + 1 w log [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) log [ σ ( V T θ j w ) ] } ∂ V = [ 1 - d j + 1 w - σ ( V T θ j w ) ] θ j - - - ( 8 )
在Word2Vec的实现过程中,对于词向量Vw的更新,先从根到词w更新所有参数后,再更新context(w)中每一个词的向量:
V u = V u + α Σ i = 1 l w ∂ L ( w , θ j ) ∂ V w - - - ( 9 )
其中,u∈context(w),α为学习率;
步骤2.5、经过步骤2.4以后,可以得到词库C中每个词w∈C的词向量Vw,在实现过程中Vw的是256维的向量;
步骤3、生成图像的文本描述模型,本发明采用的是一个多模型的长短时记忆循环神经网络具体方法如下:
步骤3.1、对图像的文本描述进行预处理,包括两个方面:
步骤3.1.1对文本描述做低频处理,在实现过程中个选择频率大于等于5的词,处理后词库中词的的个数为2537;
步骤3.1.2对低频处理后大小为2537,中的词创建索引,第一个词的索引为1,最后一个词的索引为2537,除此以外增加了一个索引0表示句子的开头和结尾标注,一共2538个索引;
步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的矩阵We,矩阵中的第i行对应着索引为i的词;
步骤3.2、向前传播过程,给定一个包含N个词的图像文本描述X,先通过词索引将词转化为一个大小为N+1的索引向量,向量的第一个元素为0表示句子的开始,索引向量通过查找词编码矩阵We,得到一个(N+1)*D的词特征矩阵,连同图像编码向量一起作为长短时记忆网络的输入,该网络是一个三层网络,输入层大小为256个神经元;隐含层,大小为256个神经元;输出层,大小为2538个神经元;具体过程如下,其中1≤t≤N+1:
i t = σ ( W x i x t + W h i h t - 1 + W c i c t - 1 + b i ) f t = σ ( W x f x t + W h f h t - 1 + W c f c t - 1 + b f ) c t = f t c t - 1 + i t tanh ( W x c x t + W b c h t - 1 + b c ) o t = σ ( W x o x t + W h o h t - 1 + W c o c t + b 0 + 1 { t = 1 } v ) h t = o t tanh ( c t ) - - - ( 10 )
yt=σ(Wohht+bd) (11)
其中,为激活函数;i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞,他们和隐含层具有相同的维度;xt是大小为(N+1)*D词特征矩阵的第t行;Wxi是输入到输入门权值;Whi是上一时刻隐含层到输入门的权值;Wci是上一时刻记忆细胞到输入门的权值;bi是当前时刻输入门偏置;Wxf是输入到遗忘门的权值;Whf是上一时刻遗忘门到当前时刻遗忘门的权值;Wcf是上一时刻记忆细胞到遗忘门的权值;bf是当前时刻遗忘门偏置;Wxc是输入到记忆细胞的权值;Whc是上一时刻隐含层到当前时刻记忆细胞的权值;bc是当前时刻记忆细胞的偏置;Wxo是输入到输出门的权值;Who是上一时刻输出门到当前时刻输出门的权值;Wco是当前时刻记忆细胞到输出门之间的权值;bo是当前时刻输出门的偏置;Woh是隐含层到输出层的权值;bd是输出层的偏置;一个(N+1)*D的训练样本经过前向过程得到一个Y=(N+1)*T的输出,在这里T的大小是2538,每一列元素表示词库中每个词出现的概率;
步骤3.3、计算残差,将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL,该向量的最后一个元素为0表示句子的结束;通过3.1的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减,每个词的标签是one-hot形式表示的一维向量,第t(1≤t≤N+1)个词对应的索引位置取值为1,其他都为0;训练样本的第t个词经过前向传播得到的输出Yt,训练样本中第t个词的索引为i,IL向量第t个词的索引j,残差表达式如下:
Y ^ t i = IL t j - 1
其中下标ti,表示训练样本中第t个词出现的索引序号i;得到每个句子的残差以后开始反向学习,计算模型中参数的梯度;
步骤3.4、反向计算过程,利用步骤3.2中残差计算模型中参数的梯度,计算公式,并利用随机梯度下降法对参数进行优化;
步骤3.5、不断的重复步骤3.1、3.2、3.3,实现模型参数优化,迭代次数为15000;
步骤4、利用训练好的模型生成图像描述,读取测试图像,将测试图像先提取特征然后编码,将编码后的图像输入到步骤3.2,得到图像描述。
本发明与现有技术相比,具有以下明细优势和有益效果:
本发明在机器视觉和自然语言处理具有广泛的应用,在图像描述方法方面提出了新的思路和解决方法。目前在图像描述中,对文本的编码是随机生成的,具有一定的盲目性,而且效果也不好。而本发明恰恰解决了图像描述中对描述文本的编码问题,弥补了其随机性、盲目性和不稳定性的缺陷。利用Word2Vec对文本进行编码,大大提高了图像描述的应用能力,为机器视觉的发展奠定了基础。
附图说明
图1为算法流程图
图2为模型困惑度对比图
图3为模型Bleu-1对比图
图4为模型Bleu-2对比图
图5为模型Bleu-3对比图
图6为模型Bleu-4对比图
图7为部分实例在本发明模型的实验结果
图8为部分实例在两种模型中的实验对比
具体实施方式
下面结合附图及具体实施案例对本发明作进一步的描述。
应用在机器视觉和自然语言处理中的图像描述方法流程图。如图1所示。
其特征在于包括以下步骤:
步骤1、对图像进行编码,具体步骤如下:
步骤1.1、用卷积神经网络对图像进行特征提取,所采用的VGG网络结构,该网络在ImageNet数据集上进行参数学习;输入一张训练图像It,经过网络进行特征提取,最后得到一个大小为4096的特征向量Ft
步骤1.2、通过一个4096*256的映射矩阵We对提取的特征向量Ft进行编码,编码后得到一个大小为256的向量v:
v=Ft TWe+bm (1)
其中We是一个映射矩阵,bm是偏置,都是需要学习的参数。
步骤2、对文本进行编码,计算机无法处理文本数据,必须先将文本编码成计算机能识别的数据;本发明在编码文本数据所用的方法是Word2Vec,该方法是一个深度学习模型,可以将一个词映射到一个向量空间,通过计算向量空间上的相似度表示文本语义上的相似度,具体步骤如下:
步骤2.1、对原始数据集中的描述文本进行低频处理,选取词频大于等于5的词,去除低频词汇,处理后的语料库为C,大小为2537;
步骤2.2、对词库C里面的每个词按照词频构建Haffman树,叶子结点表示语料中的词,非叶子结点只做辅助,并非是真实的结点,都标记为0或者1,左边标为1,右边标为0,在本发明专利中表示的是一个逻辑回归函数;
步骤2.3、根据构建好的Haffman树计算词的概率,具体如下:
P ( w ) = Π j = 1 l w - 1 P ( d j + 1 w | V w T , θ j w ) = Π j = 1 l w - 1 { [ 1 - σ ( V w T θ j w ) ] d j + 1 w [ σ ( V w T θ j w ) ] 1 - d j + 1 w } - - - ( 2 )
其中,w表示语料库中的词;lw表示词w所在的层数;表示词w在
j层的取值;Vw表示词w的向量估计值;表示词w在第j层的参数估计;
步骤2.4、最大似然估计模型参数,具体如下:
P ( C ) = Π w ∈ C P ( c o n t e x t ( w ) ) - - - ( 3 )
P(context(w))≈P(w) (4)
Γ = Σ w ∈ C log { Π j = 1 l w - 1 { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } } = Σ w ∈ C Σ j = 1 l w - 1 log { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } - - - ( 5 )
其中,context(w)表示词w的上下文信息,即w前window个词和后window个词,但不包括词w,在实现过程中window=5;函数Γ是要优化的目标函数,为了方便求梯度,令:
L ( w , θ j ) = log { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } = d j + 1 w log [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) log [ σ ( V T θ j w ) ] - - - ( 6 )
θ的梯度计算:
∂ L ( w , θ j ) ∂ θ j = ∂ { d j + 1 w log [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) log [ σ ( V T θ j w ) ] } ∂ θ j = [ 1 - d j + 1 w - σ ( V T θ j w ) ] V - - - ( 7 )
V的梯度计算:
∂ L ( w , θ j ) ∂ V w = ∂ { d j + 1 w log [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) log [ σ ( V T θ j w ) ] } ∂ V = [ 1 - d j + 1 w - σ ( V T θ j w ) ] θ j - - - ( 8 )
在Word2Vec的实现过程中,对于词向量Vw的更新,先从根到词w更新所有参数后,再更新context(w)中每一个词的向量:
V u = V u + α Σ i = 1 l w ∂ L ( w , θ j ) ∂ V w - - - ( 9 )
其中,u∈context(w),α为学习率;
步骤2.5、经过步骤2.4以后,可以得到词库C中每个词w∈C的词向量Vw,在实现过程中Vw的是256维的向量;
步骤3、生成图像的文本描述模型,本发明采用的是一个多模型的长短时记忆循环神经网络具体方法如下:
步骤3.1、对图像的文本描述进行预处理,包括两个方面:
步骤3.1.1对文本描述做低频处理,在实现过程中个选择频率大于等于5的词,处理后词库中词的的个数为2537;
步骤3.1.2对低频处理后大小为2537,中的词创建索引,第一个词的索引为1,最后一个词的索引为2537,除此以外增加了一个索引0表示句子的开头和结尾标注,一共2538个索引;
步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的矩阵We,矩阵中的第i行对应着索引为i的词;
步骤3.2、向前传播过程,给定一个包含N个词的图像文本描述X,先通过词索引将词转化为一个大小为N+1的索引向量,向量的第一个元素为0表示句子的开始,索引向量通过查找词编码矩阵We,得到一个(N+1)*D的词特征矩阵,连同图像编码向量一起作为长短时记忆网络的输入,该网络是一个三层网络,输入层大小为256个神经元;隐含层,大小为256个神经元;输出层,大小为2538个神经元;具体过程如下,其中1≤t≤N+1:
i t = σ ( W x i x t + W h i h t - 1 + W c i c t - 1 + b i ) f t = σ ( W x f x t + W h f h t - 1 + W c f c t - 1 + b f ) c t = f t c t - 1 + i t tanh ( W x c x t + W b c h t - 1 + b c ) o t = σ ( W x o x t + W h o h t - 1 + W c o c t + b 0 + 1 { t = 1 } v ) h t = o t tanh ( c t ) - - - ( 10 )
yt=σ(Wohht+bd) (11)
其中,为激活函数;i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞,他们和隐含层具有相同的维度;xt是大小为(N+1)*D词特征矩阵的第t行;Wxi是输入到输入门权值;Whi是上一时刻隐含层到输入门的权值;Wci是上一时刻记忆细胞到输入门的权值;bi是当前时刻输入门偏置;Wxf是输入到遗忘门的权值;Whf是上一时刻遗忘门到当前时刻遗忘门的权值;Wcf是上一时刻记忆细胞到遗忘门的权值;bf是当前时刻遗忘门偏置;Wxc是输入到记忆细胞的权值;Whc是上一时刻隐含层到当前时刻记忆细胞的权值;bc是当前时刻记忆细胞的偏置;Wxo是输入到输出门的权值;Who是上一时刻输出门到当前时刻输出门的权值;Wco是当前时刻记忆细胞到输出门之间的权值;bo是当前时刻输出门的偏置;Woh是隐含层到输出层的权值;bd是输出层的偏置;一个(N+1)*D的训练样本经过前向过程得到一个Y=(N+1)*T的输出,在这里T的大小是2538,每一列元素表示词库中每个词出现的概率;
步骤3.3、计算残差,将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL,该向量的最后一个元素为0表示句子的结束;通过3.1的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减,每个词的标签是one-hot形式表示的一维向量,第t(1≤t≤N+1)个词对应的索引位置取值为1,其他都为0;训练样本的第t个词经过前向传播得到的输出Yt,训练样本中第t个词的索引为i,IL向量第t个词的索引j,残差表达式如下:
Y ^ t i = IL t j - 1
其中下标ti,表示训练样本中第t个词出现的索引序号i;得到每个句子的残差以后开始反向学习,计算模型中参数的梯度;
步骤3.4、反向计算过程,利用步骤3.2中残差计算模型中参数的梯度,计算公式,并利用随机梯度下降法对参数进行优化;
步骤3.5、不断的重复步骤3.1、3.2、3.3,实现模型参数优化,迭代次数为15000;
步骤4、利用训练好的模型生成图像描述,读取测试图像,将测试图像先提取特征然后编码,将编码后的图像输入到步骤3.2,得到图像描述。
下面给出一个本发明设计应用在flickr8k数据集的实例。
实例采用的数据集是flickr8k数据集,该数据集在图像描述领域中有广泛的应用,被众多的研究者给认可。其中训练集有6000张图片,每个图片有五种标准的文本表达。1000个测试集和1000个验证集。
利用本模型在flickr8k数据集上的实验,生成图像描述,部分实验结果如图7所示。
本实例分别采用两种模型在flickr8k数据集上对比实验,在试验迭代过程中,会不断的用验证集去验证当前模型,如果当前模型满足一定条件,就视为有用模型。Word2Vec对文本编码的模型产生的有用模型是20个,随机编码的模型产生的有用模型为15个。
1对比两种模型的困惑度,实验结果如图1:
2,对比两种模型在测试集上的效果,比较Bleu得分,图2是两个模型Bleu-1得分对比图,图3是Bleu-2对比图,图4是Bleu-3对比图,图5是Bleu-4对比图。
3,对比两种模型生成图像描述结果,如图8:
Word2Vec编码文本生成的描述:
aman in ablack shirt and glasses is holding a camera
随机对文本编码生成的描述:
aman in ablack shirt and awoman in ablack shirt
从以上实验可以看出,用word2Vec对文本进行编码在flickr8k数据集的效果明显优于随机编码的。
以上实例仅用于说明本发明,而非限制本发明所描述的技术方案。因此,一切不脱离本发明精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围中。

Claims (1)

1.一种基于卷积循环混合模型的图像描述方法,其特征在于:用文本语言描述图像内容上,在描述内容的准确性上有很好的效果,具体步骤如下,
步骤1、对图像进行编码,具体步骤如下:
步骤1.1、用卷积神经网络对图像进行特征提取,所采用的VGG网络结构,该网络在ImageNet数据集上进行参数学习;输入一张训练图像It,经过网络进行特征提取,最后得到一个大小为4096的特征向量Ft
步骤1.2、通过一个4096*256的映射矩阵We对提取的特征向量Ft进行编码,编码后得到一个大小为256的向量v:
v=Ft TWe+bm (1)
其中We是一个映射矩阵,bm是偏置,都是需要学习的参数;
步骤2、对文本进行编码,计算机无法处理文本数据,必须先将文本编码成计算机能识别的数据;在编码文本数据所用的方法是Word2Vec,该方法是一个深度学习模型,能够将一个词映射到一个向量空间,通过计算向量空间上的相似度表示文本语义上的相似度,具体步骤如下:
步骤2.1、对原始数据集中的描述文本进行低频处理,选取词频大于等于5的词,去除低频词汇,处理后的语料库为C,大小为2537;
步骤2.2、对词库C里面的每个词按照词频构建Haffman树,叶子结点表示语料中的词,非叶子结点只做辅助,并非是真实的结点,都标记为0或者1,左边标为1,右边标为0,在本发明专利中表示的是一个逻辑回归函数;
步骤2.3、根据构建好的Haffman树计算词的概率,具体如下:
P ( w ) = Π j = 1 l w - 1 P ( d j + 1 w | V w T , θ j w ) = Π j = 1 l w - 1 { [ 1 - σ ( V w T θ j w ) ] d j + 1 w [ σ ( V w T θ j w ) ] 1 - d j + 1 w } - - - ( 2 )
其中,w表示语料库中的词;lw表示词w所在的层数;表示词w在j层的取值;Vw表示词w的向量估计值;表示词w在第j层的参数估计;
步骤2.4、最大似然估计模型参数,具体如下:
P ( C ) = Π w ∈ C P ( c o n t e x t ( w ) ) - - - ( 3 )
P(context(w))≈P(w) (4)
Γ = Σ w ∈ C log { Π j = 1 l w - 1 { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } } = Σ w ∈ C Σ j = 1 l w - 1 log { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } - - - ( 5 )
其中,context(w)表示词w的上下文信息,即w前window个词和后window个词,但不包括词w,在实现过程中window=5;函数Γ是要优化的目标函数,为了方便求梯度,令:
L ( w , θ j ) = log { [ 1 - σ ( V T θ j w ) ] d j + 1 w [ σ ( V T θ j w ) ] 1 - d j + 1 w } = d j + 1 w log [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) log [ σ ( V T θ j w ) ] - - - ( 6 )
θ的梯度计算:
∂ L ( w , θ j ) ∂ θ j = ∂ { d j + 1 w l o g [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) l o g [ σ ( V T θ j w ) ] } ∂ θ j = [ 1 - d j + 1 w - σ ( V T θ j w ) ] V - - - ( 7 )
V的梯度计算:
∂ L ( w , θ j ) ∂ V w = ∂ { d j + 1 w l o g [ 1 - σ ( V T θ j w ) ] + ( 1 - d j + 1 w ) l o g [ σ ( V T θ j w ) ] } ∂ V = [ 1 - d j + 1 w - σ ( V T θ j w ) ] θ j - - - ( 8 )
在Word2Vec的实现过程中,对于词向量Vw的更新,先从根到词w更新所有参数后,再更新context(w)中每一个词的向量:
V u = V u + α Σ i = 1 l w ∂ L ( w , θ j ) ∂ V w - - - ( 9 )
其中,u∈context(w),α为学习率;
步骤2.5、经过步骤2.4以后,可以得到词库C中每个词w∈C的词向量Vw,在实现过程中Vw的是256维的向量;
步骤3、生成图像的文本描述模型,本发明采用的是一个多模型的长短时记忆循环神经网络具体方法如下:
步骤3.1、对图像的文本描述进行预处理,包括两个方面:
步骤3.1.1对文本描述做低频处理,在实现过程中个选择频率大于等于5的词,处理后词库中词的的个数为2537;
步骤3.1.2对低频处理后大小为2537,中的词创建索引,第一个词的索引为1,最后一个词的索引为2537,除此以外增加了一个索引0表示句子的开头和结尾标注,一共2538个索引;
步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的矩阵We,矩阵中的第i行对应着索引为i的词;
步骤3.2、向前传播过程,给定一个包含N个词的图像文本描述X,先通过词索引将词转化为一个大小为N+1的索引向量,向量的第一个元素为0表示句子的开始,索引向量通过查找词编码矩阵We,得到一个(N+1)*D的词特征矩阵,连同图像编码向量一起作为长短时记忆网络的输入,该网络是一个三层网络,输入层大小为256个神经元;隐含层,大小为256个神经元;输出层,大小为2538个神经元;具体过程如下,其中1≤t≤N+1:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc) (10)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo+1{t=1}v)
ht=ot tanh(ct)
yt=σ(Wohht+bd) (11)
其中,为激活函数;i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞,他们和隐含层具有相同的维度;xt是大小为(N+1)*D词特征矩阵的第t行;Wxi是输入到输入门权值;Whi是上一时刻隐含层到输入门的权值;Wci是上一时刻记忆细胞到输入门的权值;bi是当前时刻输入门偏置;Wxf是输入到遗忘门的权值;Whf是上一时刻遗忘门到当前时刻遗忘门的权值;Wcf是上一时刻记忆细胞到遗忘门的权值;bf是当前时刻遗忘门偏置;Wxc是输入到记忆细胞的权值;Whc是上一时刻隐含层到当前时刻记忆细胞的权值;bc是当前时刻记忆细胞的偏置;Wxo是输入到输出门的权值;Who是上一时刻输出门到当前时刻输出门的权值;Wco是当前时刻记忆细胞到输出门之间的权值;bo是当前时刻输出门的偏置;Woh是隐含层到输出层的权值;bd是输出层的偏置;一个(N+1)*D的训练样本经过前向过程得到一个Y=(N+1)*T的输出,在这里T的大小是2538,每一列元素表示词库中每个词出现的概率;
步骤3.3、计算残差,将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL,该向量的最后一个元素为0表示句子的结束;通过3.1的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减,每个词的标签是one-hot形式表示的一维向量,第t(1≤t≤N+1)个词对应的索引位置取值为1,其他都为0;训练样本的第t个词经过前向传播得到的输出Yt,训练样本中第t个词的索引为i,IL向量第t个词的索引j,残差表达式如下:
Y ^ t i = IL t j - 1
其中下标ti,表示训练样本中第t个词出现的索引序号i;得到每个句子的残差以后开始反向学习,计算模型中参数的梯度;
步骤3.4、反向计算过程,利用步骤3.2中残差计算模型中参数的梯度,计算公式,并利用随机梯度下降法对参数进行优化;
步骤3.5、不断的重复步骤3.1、3.2、3.3,实现模型参数优化,迭代次数为15000;
步骤4、利用训练好的模型生成图像描述,读取测试图像,将测试图像先提取特征然后编码,将编码后的图像输入到步骤3.2,得到图像描述。
CN201610231898.2A 2016-04-14 2016-04-14 一种基于卷积循环混合模型的图像描述方法 Expired - Fee Related CN105938485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610231898.2A CN105938485B (zh) 2016-04-14 2016-04-14 一种基于卷积循环混合模型的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610231898.2A CN105938485B (zh) 2016-04-14 2016-04-14 一种基于卷积循环混合模型的图像描述方法

Publications (2)

Publication Number Publication Date
CN105938485A true CN105938485A (zh) 2016-09-14
CN105938485B CN105938485B (zh) 2019-06-14

Family

ID=57152021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610231898.2A Expired - Fee Related CN105938485B (zh) 2016-04-14 2016-04-14 一种基于卷积循环混合模型的图像描述方法

Country Status (1)

Country Link
CN (1) CN105938485B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
GB2544853A (en) * 2015-11-11 2017-05-31 Adobe Systems Inc Structured knowledge modeling and extraction from images
CN107480144A (zh) * 2017-08-03 2017-12-15 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN107665356A (zh) * 2017-10-18 2018-02-06 北京信息科技大学 一种图像标注方法
CN107784303A (zh) * 2016-12-15 2018-03-09 平安科技(深圳)有限公司 车牌识别方法及装置
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108109619A (zh) * 2017-11-15 2018-06-01 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN108133632A (zh) * 2017-12-20 2018-06-08 刘昳旻 英语听力的训练方法及系统
CN108228700A (zh) * 2017-09-30 2018-06-29 北京市商汤科技开发有限公司 图像描述模型的训练方法、装置、电子设备及存储介质
CN108665055A (zh) * 2017-03-28 2018-10-16 上海荆虹电子科技有限公司 一种图说生成方法及装置
CN108764299A (zh) * 2018-05-04 2018-11-06 北京物灵智能科技有限公司 故事模型训练及生成方法、系统、机器人及存储设备
CN108804530A (zh) * 2017-05-02 2018-11-13 达索系统公司 对图像的区域加字幕
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109271628A (zh) * 2018-09-03 2019-01-25 东北大学 一种图像描述生成方法
CN109583043A (zh) * 2018-11-09 2019-04-05 清华大学 一种用于螺栓联接的拧紧力矩自适应补偿方法
CN109871843A (zh) * 2017-12-01 2019-06-11 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
CN109871686A (zh) * 2019-01-31 2019-06-11 中国人民解放军战略支援部队信息工程大学 基于图标表示和软件行为一致性分析的恶意程序识别方法及装置
CN109948340A (zh) * 2019-03-27 2019-06-28 集美大学 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
US10460033B2 (en) 2015-11-11 2019-10-29 Adobe Inc. Structured knowledge modeling, extraction and localization from images
CN111860434A (zh) * 2020-07-31 2020-10-30 贵州大学 机器人视觉隐私行为识别与保护方法
US11514244B2 (en) 2015-11-11 2022-11-29 Adobe Inc. Structured knowledge modeling and extraction from images
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
US20110301942A1 (en) * 2010-06-02 2011-12-08 Nec Laboratories America, Inc. Method and Apparatus for Full Natural Language Parsing
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211341A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 图像智能模式识别搜索方法
US20110301942A1 (en) * 2010-06-02 2011-12-08 Nec Laboratories America, Inc. Method and Apparatus for Full Natural Language Parsing
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNHUA MAO等: "DEEP CAPTIONING WITH MULTIMODAL RECURRENT", 《ICLR 2015》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2544853A (en) * 2015-11-11 2017-05-31 Adobe Systems Inc Structured knowledge modeling and extraction from images
US10460033B2 (en) 2015-11-11 2019-10-29 Adobe Inc. Structured knowledge modeling, extraction and localization from images
GB2544853B (en) * 2015-11-11 2020-01-01 Adobe Inc Structured knowledge modeling and extraction from images
US11514244B2 (en) 2015-11-11 2022-11-29 Adobe Inc. Structured knowledge modeling and extraction from images
CN107784303A (zh) * 2016-12-15 2018-03-09 平安科技(深圳)有限公司 车牌识别方法及装置
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN108665055A (zh) * 2017-03-28 2018-10-16 上海荆虹电子科技有限公司 一种图说生成方法及装置
CN108665055B (zh) * 2017-03-28 2020-10-23 深圳荆虹科技有限公司 一种图说生成方法及装置
CN108804530B (zh) * 2017-05-02 2024-01-12 达索系统公司 对图像的区域加字幕
CN108804530A (zh) * 2017-05-02 2018-11-13 达索系统公司 对图像的区域加字幕
CN107480144A (zh) * 2017-08-03 2017-12-15 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN107480144B (zh) * 2017-08-03 2020-10-20 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN107844743B (zh) * 2017-09-28 2020-04-28 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN108228700A (zh) * 2017-09-30 2018-06-29 北京市商汤科技开发有限公司 图像描述模型的训练方法、装置、电子设备及存储介质
CN108228700B (zh) * 2017-09-30 2021-01-26 北京市商汤科技开发有限公司 图像描述模型的训练方法、装置、电子设备及存储介质
CN107665356A (zh) * 2017-10-18 2018-02-06 北京信息科技大学 一种图像标注方法
CN108109619A (zh) * 2017-11-15 2018-06-01 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN109871843A (zh) * 2017-12-01 2019-06-11 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
CN109871843B (zh) * 2017-12-01 2022-04-08 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
CN108133632A (zh) * 2017-12-20 2018-06-08 刘昳旻 英语听力的训练方法及系统
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108133632B (zh) * 2017-12-20 2019-10-01 刘昳旻 英语听力的训练方法及系统
CN108009154B (zh) * 2017-12-20 2021-01-05 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108764299B (zh) * 2018-05-04 2020-10-23 北京物灵智能科技有限公司 故事模型训练及生成方法、系统、机器人及存储设备
CN108764299A (zh) * 2018-05-04 2018-11-06 北京物灵智能科技有限公司 故事模型训练及生成方法、系统、机器人及存储设备
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109271628A (zh) * 2018-09-03 2019-01-25 东北大学 一种图像描述生成方法
CN109583043B (zh) * 2018-11-09 2020-09-22 清华大学 一种用于螺栓联接的拧紧力矩自适应补偿方法
CN109583043A (zh) * 2018-11-09 2019-04-05 清华大学 一种用于螺栓联接的拧紧力矩自适应补偿方法
CN109871686A (zh) * 2019-01-31 2019-06-11 中国人民解放军战略支援部队信息工程大学 基于图标表示和软件行为一致性分析的恶意程序识别方法及装置
CN109948340B (zh) * 2019-03-27 2020-09-01 集美大学 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法
CN109948340A (zh) * 2019-03-27 2019-06-28 集美大学 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN111860434A (zh) * 2020-07-31 2020-10-30 贵州大学 机器人视觉隐私行为识别与保护方法
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN105938485B (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN105938485A (zh) 一种基于卷积循环混合模型的图像描述方法
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN108108449A (zh) 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN110705294A (zh) 命名实体识别模型训练方法、命名实体识别方法及装置
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN110390397A (zh) 一种文本蕴含识别方法及装置
CN111241816A (zh) 一种新闻标题自动生成方法
CN110222184A (zh) 一种文本的情感信息识别方法及相关装置
CN106776548A (zh) 一种文本的相似度计算的方法和装置
CN113641819B (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及系统
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
Sun et al. QuGAN: quasi generative adversarial network for Tibetan question answering corpus generation
CN114969269A (zh) 基于实体识别和关系抽取的虚假新闻检测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190614

CF01 Termination of patent right due to non-payment of annual fee