CN106777125A - 一种基于神经网络及图像关注点的图像描述生成方法 - Google Patents

一种基于神经网络及图像关注点的图像描述生成方法 Download PDF

Info

Publication number
CN106777125A
CN106777125A CN201611169242.9A CN201611169242A CN106777125A CN 106777125 A CN106777125 A CN 106777125A CN 201611169242 A CN201611169242 A CN 201611169242A CN 106777125 A CN106777125 A CN 106777125A
Authority
CN
China
Prior art keywords
image
word
layer
vector
neutral net
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611169242.9A
Other languages
English (en)
Other versions
CN106777125B (zh
Inventor
胡海峰
杨梁
王腾
张俊轩
王伟轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Original Assignee
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SYSU CMU Shunde International Joint Research Institute, National Sun Yat Sen University filed Critical SYSU CMU Shunde International Joint Research Institute
Priority to CN201611169242.9A priority Critical patent/CN106777125B/zh
Publication of CN106777125A publication Critical patent/CN106777125A/zh
Application granted granted Critical
Publication of CN106777125B publication Critical patent/CN106777125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供一种基于神经网络及图像关注点的图像描述生成方法,该方法采用两层字嵌入结构,而不是原先的一层嵌入结构,这样更有效的学习字表达;图像的特征表达是直接作为m‑RNN模型的输入的,这样能充分利用循环层的容量,允许使用小维度的循环层;借助决策软关注机制,本发明将图像显著区域的关注度体现出来,并作为多模态层的一个输入。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。

Description

一种基于神经网络及图像关注点的图像描述生成方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于神经网络及图像关注点的图像描述生成方法。
背景技术
获得文本级别的图像描述已经成为当前计算机视觉领域一个重要的研究课题,而在现实生活中,它有很多应用场景。比如早期的儿童教育,图像检索和盲人导航等。随着计算机视觉和自然语言处理技术的飞速发展,大量关于此课题的有效工作出现,其中很多是将它视为一个检索问题。研究者们通过学习一个节点嵌入层将文本句子和图像的特征投影至一个相同的语义空间中。这些方法通过从文本句子数据集中检索相似描述来生成图像描述,但是其缺乏能够产生有效结合目标和场景两者联系的图像描述。
而在图像描述的工作中,至今有很多方法的提出,但总结起来主要有三种思想:①借助字段与图像的目标或属性之间的联系,通过条件随机场或Markov随机场,例如Mitchell等人从语法上将句子描述拆分成几部分,每一部分和图像中的某个目标或属性相关。②在大数据集的支持下,检索相似的标准已标注图片,通过归纳和重组检索的标注来生成新的描述。例如Kuznetsova等人做的工作。③将文本描述和图像两个不一样的模态结合在一起,形成一个多模态空间,在此基础上学习一个关于文本句子和图像关系的概率密度,例如Srivastava&Salakhutdinov提出的Deep Boltzmann Machines。
而今好的成功案例,大都依靠循环神经网络(Recurrent Neural Networks,RNNs)来实现的,而这被证明有很强的上下文语义信息,循环神经网络已经在众多自然语言处理(Natural Language Processing,NLP)中取得了巨大成功以及广泛应用。RNNs引入了定向循环,能够处理那些输入之间前后关联的问题。这使得其很适合用于自然语言处理领域。而RNNs依赖于好的语义表达输入,对于图像理解领域,图像目标或属性间的关注度没法通过RNNs体现,且对于神经网络来说,是属于高维度的信息处理,计算复杂度高。
发明内容
本发明提供一种基于神经网络及图像关注点的图像描述生成方法,该方法有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
为了达到上述技术效果,本发明的技术方案如下:
一种基于神经网络及图像关注点的图像描述生成方法,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:
整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
进一步地,所述步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
进一步地,对于每一时刻帧的循环层Rt激活,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
进一步地,步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
进一步地,步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
其中zt是t时刻帧的上下文相关向量,是决策软机制,这里定义成如下式:
进一步地,步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·Zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
进一步地,步骤6)中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
其中L是文本描述的句子长度—字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子长度,θ代表模型的参数。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法采用两层字嵌入结构,而不是原先的一层嵌入结构,这样更有效的学习字表达;图像的特征表达是直接作为m-RNN模型的输入的,这样能充分利用循环层的容量,允许使用小维度的循环层;借助决策软关注机制,本发明将图像显著区域的关注度体现出来,并作为多模态层的一个输入。通过这个方式,有效地利用了目标或场景间的轻重关系,针对性地描绘图像的语义特性。
附图说明
图1为本发明的总体流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于神经网络及图像关注点的图像描述生成方法,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:
整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
步骤2)中,对于每一时刻帧的循环层Rt激活,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
其中zt是t时刻帧的上下文相关向量,是决策软机制,这里定义成如下式:
步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·Zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
步骤6)中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
其中L是文本描述的句子长度—字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子
长度,θ代表模型的参数。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于神经网络及图像关注点的图像描述生成方法,其特征在于,包括以下步骤:
S1:构建每一时刻帧t的图像的多模态模型:
1)训练集中已标注图像的文本描述信息分成单个字集,用one-hot向量表示对应字,作为模型的文本模块的输入,并经过两个嵌入层投影至一个稠密字表达空间,成为具有语义的字表达向量Wt
2)字表达向量用于循环卷积神经网络RNN某时刻帧t的输入进行循环卷积神经网络RNN计算,该时刻帧t的循环层激活Rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层Rt-1共同决定的;
3)已标注图像经过一个卷积神经网络CNN,并提取图像的L个显著特征;
4)图像的特征作为LSTM的输入,LSTM中的隐藏层信息采取一种决策‘soft’关注机制可以获得指定区域特征在全局图像的重要程度,其重要程度和其特征通过求期望可以算出包含区域关注信息的上下文向量;
5)将以上的字表达向量、循环层信息、图像特征和上下文向量通过转换矩阵投影至同一维度的多模态空间上并直接元素相加,再用元素比例双曲线正切函数激活,最后通过softmax层得到下一字的概率分布;
S2:对构建的模型进行训练:
整个模型的损失函数是对应图片的文本标注的混乱度,其等价于字集的平均对数似然值,对其使用标准梯度下降算法,通过反向传播算法学习模型参数。
2.根据权利要求1所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤1)中,用one-hot码对子集编码,相应位置置1,代表某一特定字,其余置0,通过两个嵌入层可以将one-hot码投影至一个稠密字表达空间,其能将字的句法和语义含义编码出来,语义相关的字可以通过计算两个稠密字向量的欧式距离找出,并且随机初始化字嵌入层有更好的效果。
3.根据权利要求2所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤2)中,对于每一时刻帧的循环层Rt激活,是与当前时刻帧的字表达向量Wt和之前时刻帧t-1的循环层Rt-1共同决定的,首先将Rt-1到和Wt相同向量空间上,并将它们相加:
Rt=f1(Ur·Rt-1+Wt)
其中,f1设置为ReLU,Ur是投影转换矩阵。
4.根据权利要求3所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤3)中,使用了AlexNet的7th层的激活状态,从低阶卷积层中提取,从所有的特征向量中针对性地选取特征向量子集。
5.根据权利要求4所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤4)中,通过LSTM中隐藏层的信息,借助关注模型,得出相关关注区域的权重值,并用决策软机制计算出带有区域关注信息的上下文向量:
Eti=fatt(ai,ht-1)
α t i = exp ( E t i ) Σ k = 1 L exp ( E t i )
其中fatt是基于先前隐藏状态ht-1的多层感知机,ai是图像i区域的特征向量,αti是t时刻帧和图像区域i关注度的权重值:
其中zt是t时刻帧的上下文相关向量,是决策软机制,这里定义成如下式:
z t = Σ i L α t i · a i .
6.根据权利要求5所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤5)中,多模态层将以上信息整合在一起,具体过程如下:
Mt=g1(VW·Wt+Vr·Rt+VI·I+VZ·Zt)
其中VW,Vr,VI和VZ分别是字表达向量、循环层激活、图像特征、上下文向量zt的转换投影矩阵,g1是元素比例双曲正切函数,Mt之后经过SoftMax层产生下一字的概率分布。
7.根据权利要求6所述的基于神经网络及图像关注点的图像描述生成方法,其特征在于,所述步骤6)中,整个模型的训练采用对数似然损失函数,通过最小化损失函数,误差反向传播来更新模型参数,具体过程如下:
log 2 P P L ( W 1 : L | I ) = - 1 L Σ n = 1 L log 2 P ( W n | W 1 : n - 1 , I )
C = 1 N Σ i = 1 N s L i · log 2 P P L ( W 1 : L i ( i ) | I ( i ) ) + λ θ · | | θ | | 2 2
其中L是文本描述的句子长度—字的个数,PPL(W1:L|I)是指定图像I和W1:L下的句子混乱度,Ns和N分别是训练集中句子个数和字集中字个数,Li是ith句子长度,θ代表模型的参数。
CN201611169242.9A 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法 Active CN106777125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611169242.9A CN106777125B (zh) 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611169242.9A CN106777125B (zh) 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN106777125A true CN106777125A (zh) 2017-05-31
CN106777125B CN106777125B (zh) 2020-10-23

Family

ID=58892171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611169242.9A Active CN106777125B (zh) 2016-12-16 2016-12-16 一种基于神经网络及图像关注点的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN106777125B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480786A (zh) * 2017-08-07 2017-12-15 复旦大学 基于输出状态限制的循环神经网络轨迹似然概率计算方法
CN107563409A (zh) * 2017-08-04 2018-01-09 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108921185A (zh) * 2018-05-04 2018-11-30 广州图匠数据科技有限公司 一种基于图像识别的货架促销信息识别方法、装置和系统
CN109145974A (zh) * 2018-08-13 2019-01-04 广东工业大学 一种基于图文匹配的多层次图像特征融合方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109543820A (zh) * 2018-11-23 2019-03-29 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
WO2019075632A1 (zh) * 2017-10-17 2019-04-25 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110119754A (zh) * 2019-02-27 2019-08-13 北京邮电大学 图像生成描述方法、装置及模型
CN110516677A (zh) * 2019-08-23 2019-11-29 上海云绅智能科技有限公司 一种神经网络识别模型、目标识别方法及系统
CN111465944A (zh) * 2017-10-27 2020-07-28 渊慧科技有限公司 用于生成对象的结构化表示的图形神经网络系统
CN111582287A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN112115294A (zh) * 2020-09-29 2020-12-22 北京乐学帮网络技术有限公司 一种信息推送方法、装置、计算机设备及存储介质
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
US11621075B2 (en) 2016-09-07 2023-04-04 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1632900A2 (en) * 2004-08-26 2006-03-08 Seiko Epson Corporation Method and apparatus for locating and extracting captions in a digital image
CN104484666A (zh) * 2014-12-17 2015-04-01 中山大学 一种基于人机交互的图像高级语义解析的方法
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1632900A2 (en) * 2004-08-26 2006-03-08 Seiko Epson Corporation Method and apparatus for locating and extracting captions in a digital image
CN104484666A (zh) * 2014-12-17 2015-04-01 中山大学 一种基于人机交互的图像高级语义解析的方法
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11621075B2 (en) 2016-09-07 2023-04-04 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network
CN107563409A (zh) * 2017-08-04 2018-01-09 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN107480786A (zh) * 2017-08-07 2017-12-15 复旦大学 基于输出状态限制的循环神经网络轨迹似然概率计算方法
CN107480786B (zh) * 2017-08-07 2021-04-30 复旦大学 基于输出状态限制的循环神经网络轨迹似然概率计算方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
TWI803514B (zh) * 2017-08-30 2023-06-01 大陸商騰訊科技(深圳)有限公司 圖像描述生成方法、模型訓練方法、設備和儲存媒體
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
US11270160B2 (en) 2017-08-30 2022-03-08 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium
WO2019042244A1 (zh) * 2017-08-30 2019-03-07 腾讯科技(深圳)有限公司 图像描述生成方法、模型训练方法、设备和存储介质
US11907851B2 (en) 2017-08-30 2024-02-20 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium
WO2019075632A1 (zh) * 2017-10-17 2019-04-25 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN111465944A (zh) * 2017-10-27 2020-07-28 渊慧科技有限公司 用于生成对象的结构化表示的图形神经网络系统
CN111465944B (zh) * 2017-10-27 2024-04-05 渊慧科技有限公司 用于生成对象的结构化表示的图形神经网络系统
US11704541B2 (en) 2017-10-27 2023-07-18 Deepmind Technologies Limited Graph neural network systems for generating structured representations of objects
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108009154B (zh) * 2017-12-20 2021-01-05 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108921185A (zh) * 2018-05-04 2018-11-30 广州图匠数据科技有限公司 一种基于图像识别的货架促销信息识别方法、装置和系统
CN109145974A (zh) * 2018-08-13 2019-01-04 广东工业大学 一种基于图文匹配的多层次图像特征融合方法
CN109145974B (zh) * 2018-08-13 2022-06-24 广东工业大学 一种基于图文匹配的多层次图像特征融合方法
CN109543820A (zh) * 2018-11-23 2019-03-29 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109543820B (zh) * 2018-11-23 2022-09-23 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109522966B (zh) * 2018-11-28 2022-09-27 中山大学 一种基于密集连接卷积神经网络的目标检测方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
CN110119754B (zh) * 2019-02-27 2022-03-29 北京邮电大学 图像生成描述方法、装置及模型
CN110119754A (zh) * 2019-02-27 2019-08-13 北京邮电大学 图像生成描述方法、装置及模型
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110516677A (zh) * 2019-08-23 2019-11-29 上海云绅智能科技有限公司 一种神经网络识别模型、目标识别方法及系统
CN111582287B (zh) * 2020-05-06 2022-10-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN111582287A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN112115294A (zh) * 2020-09-29 2020-12-22 北京乐学帮网络技术有限公司 一种信息推送方法、装置、计算机设备及存储介质
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统

Also Published As

Publication number Publication date
CN106777125B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN106777125A (zh) 一种基于神经网络及图像关注点的图像描述生成方法
CN111985245B (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN111241306B (zh) 一种基于知识图谱和指针网络的路径规划方法
CN115510226B (zh) 一种基于图神经网络的情感分类方法
CN114186568B (zh) 一种基于关系编码和层次注意力机制的图像段落描述方法
CN112069827B (zh) 一种基于细粒度主题建模的数据到文本生成方法
CN116664719B (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN114612767B (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN111680484A (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN114817508A (zh) 融合稀疏图和多跳注意力的会话推荐系统
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
CN113535953A (zh) 一种基于元学习的少样本分类方法
CN115588122A (zh) 一种基于多模态特征融合的新闻分类方法
CN114168769B (zh) 基于gat关系推理的视觉问答方法
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN112100342A (zh) 一种基于知识表示学习技术的知识图谱问答方法
CN112487761A (zh) 一种基于图表征融合的问句生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant