CN106599198A - 一种多级联结循环神经网络的图像描述方法 - Google Patents

一种多级联结循环神经网络的图像描述方法 Download PDF

Info

Publication number
CN106599198A
CN106599198A CN201611155798.2A CN201611155798A CN106599198A CN 106599198 A CN106599198 A CN 106599198A CN 201611155798 A CN201611155798 A CN 201611155798A CN 106599198 A CN106599198 A CN 106599198A
Authority
CN
China
Prior art keywords
image
neural network
cnn
recurrent neural
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611155798.2A
Other languages
English (en)
Other versions
CN106599198B (zh
Inventor
胡海峰
吴捷
张俊轩
杨梁
王伟轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201611155798.2A priority Critical patent/CN106599198B/zh
Publication of CN106599198A publication Critical patent/CN106599198A/zh
Application granted granted Critical
Publication of CN106599198B publication Critical patent/CN106599198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种多级联结循环神经网络的图像描述方法,该方法从标注语句训练集中构建属性词汇表,采用VGGNet模型作为CNN模型,采用带标签的数据集进行CNN的参数训练与调整,输入待描述的图像,得到语义属性预测概率,将图像送入CNN网络中提取出描述释义向量并计算出每个释义对应的权重,再根据释义向量以及其对应权重计算出上下文向量,将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中,输出的结果的组合即为该图像的自然语言描述。

Description

一种多级联结循环神经网络的图像描述方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种多级联结循环神经网络的图像描述方法。
背景技术
目前科技与互联网的迅猛发展使得图像数据的数量大幅度地提升。同时,图像信息提取的需求也日益提高。而根据图像给出能够描述图像内容的自然语言语句已经计算机视觉领域一个研究热点。
由计算机视觉技术以及自然语言处理技术的发展,图像描述这个课题作为一个热点已经持续了几年,很多方法都被提出。例如:基于局部区域特征的方法,基于多模态递归神经网络的方法以及基于卷积神经网络(CNN)结合循环神经网络(RNN)的方法等。其中,基于CNN结合RNN的方法研究的成果最多,效果最好。然而,这些方法把图像输入CNN之后从CNN靠后的层中取出激活数据输入到RNN中,而忽略了图像的深层次的语义概念以及区域关注点信息。所以我们图像描述研究将针对基于图像高级语义及关注点机制的多级联结循环神经网络的图像描述方法以提取图像深层次的语义概念以及区域关注点信息。
基于CNN结合RNN的方法的主要思想是:首先将图像信息输入到卷积神经网络中,从卷积神经网络的靠后的层提取激活数据;接下来将这些数据输入到循环神经网络中,通过最小化损失函数来输出最有可能的图像描述。很多学者在这个基础上做出探索与改进。Mao等人提出了一种多重循环神经网络(m-RNN)来用于图像描述,网络通过一个由单词嵌入层,RNN网络输出层和CNN网络输出层组成的多模态层来提升输出准确度。Xu等人在语言模型部分用LSTM代替了传统的RNN,并且将图像的输入方式由每一个时间点输入改为了只在初始的时候输入一次,减小了噪音干扰,提升了输出效果。以上的方法都取得了不错的效果,但是现在的图像描述研究经常忽视了图像深层次的语义概念以及区域的关注点信息。而这些信息对于提高图像描述的输出准确率是有很大帮助的。
发明内容
本发明提供一种具有描述准确率高的多级联结循环神经网络的图像描述方法。
为了达到上述技术效果,本发明的技术方案如下:
一种多级联结循环神经网络的图像描述方法,包括以下步骤:
S1:从标注语句训练集中提取语义属性,构建属性词汇表;
S2:采用VGGNet模型作为CNN初始模型,采用单标签的ImageNet数据集进行CNN的参数预训练,然后再用多标签数据集MS COCO进行CNN参数的精细调整;
S3:输入待描述的图像,将其分割成不同的区域,输入到训练好的CNN中,将图像信息表达成高等级的语义信息,得到语义属性预测概率;
S4:将图像送入CNN网络中提取出描述不同区域的释义向量;
S5:根据前一步系统的隐变量的信息计算出每个释义对应的权重,再根据释义向量以及其对应权重计算出上下文向量;
S6:将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中,输出的结果的组合即为该图像的自然语言描述。
进一步地,所述步骤S2中,将CNN最后一个全连接层的输出输入到一个256分类的softmax分类器中,然后最小化损失函数即可,其中,N代表训练样本数;yij=[yi1,yi2,······,yic]是第i个图像对应的标签向量;pij=[pi1,pi2,······,pic]是对应的预测向量。
进一步地,采用多尺度组合分组MCG算法将一张输入图像分割成不同的局部区域图片,再将这些图片送入步骤S2训练好的CNN中,采用最大池化算法得到语义属性预测概率Vatt(I)。
进一步地,将图像送入VGGNet网络中,并从VGGNet的conv5_3层中取出描述不同区域的释义向量ai
进一步地,所述步骤S5中,根据前一步系统的隐变量的信息ht-1可以计算出每个释义对应的权重αi,再根据计算出上下文向量zt
进一步地,所述步骤S6中,别用x和p代表循环神经网络LSTM的输入与输出,t代表生成描述的自然语句的长度。则整个系统的具体过程如下:
S61:将语义属性预测概率送入第一个的LSTM中,并生成隐变量h-1送入下一个LSTM中:x-1=WeaVatt(I),其中Wea为属性权重矩阵;
S62:对于每一个时刻,将xt和上一层隐变量信息ht-1送入LSTM的计算单元,其中:xt=WesZt,zt为上下文向量,Wes为上下文向量嵌入矩阵;
S63:LSTM单元进行计算,得到图像描述的输出结果:pt+1=LSTM(xt,ht-1),其中,函数LSTM(·)代表着长短时记忆单位中遗忘层,更新层,输出层的信息传递与计算。
与现有技术相比,本发明技术方案的有益效果是:
本发明公开一种多级联结循环神经网络的图像描述方法,该方法从标注语句训练集中构建属性词汇表,采用VGGNet模型作为CNN模型,采用带标签的数据集进行CNN的参数训练与调整,输入待描述的图像,得到语义属性预测概率,将图像送入CNN网络中提取出描述释义向量并计算出每个释义对应的权重,再根据释义向量以及其对应权重计算出上下文向量,将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中,输出的结果的组合即为该图像的自然语言描述。本发明用不同的图像训练集对图像进行与训练与精确调整,训练结果更加准确;利用语义属性预测概率,挖掘图像深层次的信息;关注区域信息以及上下文内容的关系,跟好地反馈出图像信息;采用LSTM模型,结合语义属性预测概率和关注区域信息,提高了描述效果。
附图说明
图1本发明模型总体流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种多级联结循环神经网络的图像描述方法,包括以下步骤:
(1)从标注语句训练集中提取语义属性,构建属性词汇表。
(2)采用VGGNet模型作为CNN初始模型,采用单标签的ImageNet数据集进行CNN的参数预训练,然后再用多标签数据集MS COCO进行CNN参数的精细调整。
(3)输入待描述的图像,将其分割成不同的区域,输入到训练好的CNN中,将图像信息表达成高等级的语义信息,得到语义属性预测概率。
(4)将图像送入CNN网络中提取出描述不同区域的释义向量。
(5)根据前一步系统的隐变量的信息计算出每个释义对应的权重,再根据释义向量以及其对应权重计算出上下文向量。
(6)将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中,输出的结果的组合即为该图像的自然语言描述。
进一步的,步骤(1)中的具体过程如下:使用最常用的单词来构建词汇表,这些单词可以是名词,动词或形容词,而且对复数以及词态不进行区分,最终得到了一个包括256个单词的属性词汇表。
步骤(2)中的具体过程如下:将CNN最后一个全连接层的输出输入到一个256分类的softmax分类器中,然后最小化损失函数即可,
其中,N代表训练样本数;yij=[yi1,yi2,······,yic]是第i个图像对应的标签向量;pij=[pi1,pi2,······,pic]是对应的预测向量。
步骤(3)中的具体过程如下:采用多尺度组合分组(MCG)算法将一张输入图像分割成不同的局部区域图片。再将这些图片送入步骤(2)训练好的CNN中,采用最大池化算法得到语义属性预测概率Vatt(I)。
步骤(4)中的具体过程如下:将图像送入VGGNet网络中,并从VGGNet的conv5_3层中取出描述不同区域的释义向量ai
步骤(5)中的具体过程如下:根据前一步系统的隐变量的信息ht-1可以计算出每个释义对应的权重αi,再根据计算出上下文向量zt
步骤(6)中的具体过程如下:分别用x和p代表循环神经网络LSTM的输入与输出,t代表生成描述的自然语句的长度。则整个系统的具体过程如下:
(6-1)将语义属性预测概率送入第一个的LSTM中,并生成隐变量h-1送入下一个LSTM中:x-1=WeaVatt(I),其中Wea为属性权重矩阵。
(6-2)对于每一个时刻,将xt和上一层隐变量信息ht-1送入LSTM的计算单元,其中:xt=WesZt,zt为上下文向量,Wes为上下文向量嵌入矩阵。
(6-3)LSTM单元进行计算,得到图像描述的输出结果:pt+1=LSTM(xt,ht-1)。其中,函数LSTM(·)代表着长短时记忆单位中遗忘层,更新层,输出层的信息传递与计算。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种多级联结循环神经网络的图像描述方法,其特征在于,包括以下步骤:
S1:从标注语句训练集中提取语义属性,构建属性词汇表;
S2:采用VGGNet模型作为CNN初始模型,采用单标签的ImageNet数据集进行CNN的参数预训练,然后再用多标签数据集MS COCO进行CNN参数的精细调整;
S3:输入待描述的图像,将其分割成不同的区域,输入到训练好的CNN中,将图像信息表达成高等级的语义信息,得到语义属性预测概率;
S4:将图像送入CNN网络中提取出描述不同区域的释义向量;
S5:根据前一步系统的隐变量的信息计算出每个释义对应的权重,再根据释义向量以及其对应权重计算出上下文向量;
S6:将语义属性预测概率及上下文向量输入到多级联结的循环神经网络中,输出的结果的组合即为该图像的自然语言描述。
2.根据权利要求1所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S2中,将CNN最后一个全连接层的输出输入到一个256分类的softmax分类器中,然后最小化损失函数即可,其中,N代表训练样本数;yij=[yi1,yi2,······,yic]是第i个图像对应的标签向量;pij=[pi1,pi2,······,pic]是对应的预测向量。
3.根据权利要求2所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S3中,采用多尺度组合分组MCG算法将一张输入图像分割成不同的局部区域图片,再将这些图片送入步骤S2训练好的CNN中,采用最大池化算法得到语义属性预测概率Vatt(I)。
4.根据权利要求3所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S4中,将图像送入VGGNet网络中,并从VGGNet的conv5_3层中取出描述不同区域的释义向量ai
5.根据权利要求4所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S5中,根据前一步系统的隐变量的信息ht-1可以计算出每个释义对应的权重αi,再根据计算出上下文向量zt
6.根据权利要求5所述的多级联结循环神经网络的图像描述方法,其特征在于,所述步骤S6中,别用x和p代表循环神经网络LSTM的输入与输出,t代表生成描述的自然语句的长度。则整个系统的具体过程如下:
S61:将语义属性预测概率送入第一个的LSTM中,并生成隐变量h-1送入下一个LSTM中:x-1=WeaVatt(I),其中Wea为属性权重矩阵;
S62:对于每一个时刻,将xt和上一层隐变量信息ht-1送入LSTM的计算单元,其中:xt=WesZt,zt为上下文向量,Wes为上下文向量嵌入矩阵;
S63:LSTM单元进行计算,得到图像描述的输出结果:pt+1=LSTM(xt,ht-1),其中,函数LSTM(·)代表着长短时记忆单位中遗忘层,更新层,输出层的信息传递与计算。
CN201611155798.2A 2016-12-14 2016-12-14 一种多级联结循环神经网络的图像描述方法 Active CN106599198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611155798.2A CN106599198B (zh) 2016-12-14 2016-12-14 一种多级联结循环神经网络的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611155798.2A CN106599198B (zh) 2016-12-14 2016-12-14 一种多级联结循环神经网络的图像描述方法

Publications (2)

Publication Number Publication Date
CN106599198A true CN106599198A (zh) 2017-04-26
CN106599198B CN106599198B (zh) 2021-04-06

Family

ID=58801337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611155798.2A Active CN106599198B (zh) 2016-12-14 2016-12-14 一种多级联结循环神经网络的图像描述方法

Country Status (1)

Country Link
CN (1) CN106599198B (zh)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133354A (zh) * 2017-05-25 2017-09-05 北京小米移动软件有限公司 图像描述信息的获取方法及装置
CN107203598A (zh) * 2017-05-08 2017-09-26 广州智慧城市发展研究院 一种实现图像转换标签的方法及系统
CN107220506A (zh) * 2017-06-05 2017-09-29 东华大学 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN107229707A (zh) * 2017-05-26 2017-10-03 北京小米移动软件有限公司 搜索图像的方法及装置
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107480144A (zh) * 2017-08-03 2017-12-15 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107590813A (zh) * 2017-10-27 2018-01-16 深圳市唯特视科技有限公司 一种基于深层交互式测地距离的图像分割方法
CN107730507A (zh) * 2017-08-23 2018-02-23 成都信息工程大学 一种基于深度学习的病变区域自动分割方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN107911338A (zh) * 2017-10-13 2018-04-13 深圳市迅雷网络技术有限公司 一种数据验证方法、相关设备和系统
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108171268A (zh) * 2018-01-02 2018-06-15 联想(北京)有限公司 一种图像处理方法及电子设备
CN108230413A (zh) * 2018-01-23 2018-06-29 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质、程序
CN108416059A (zh) * 2018-03-22 2018-08-17 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质、程序
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN108664998A (zh) * 2018-04-27 2018-10-16 上海爱优威软件开发有限公司 一种释义加强的图片训练方法及系统
CN108804530A (zh) * 2017-05-02 2018-11-13 达索系统公司 对图像的区域加字幕
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108875758A (zh) * 2017-05-09 2018-11-23 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
WO2018218706A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109377498A (zh) * 2018-08-31 2019-02-22 大连理工大学 基于循环神经网络的交互式抠图方法
CN109543820A (zh) * 2018-11-23 2019-03-29 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
WO2019075632A1 (zh) * 2017-10-17 2019-04-25 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN109871736A (zh) * 2018-11-23 2019-06-11 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN109918654A (zh) * 2019-02-21 2019-06-21 北京一品智尚信息科技有限公司 一种logo释义方法、设备及介质
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN110555337A (zh) * 2018-05-30 2019-12-10 腾讯科技(深圳)有限公司 一种指示对象的检测方法、装置以及相关设备
CN110674342A (zh) * 2018-06-14 2020-01-10 杭州海康威视数字技术股份有限公司 查询目标图像的方法和装置
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN111581961A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN111680586A (zh) * 2020-05-26 2020-09-18 电子科技大学 一种羽毛球运动员运动姿态估计方法及系统
CN112185480A (zh) * 2020-10-26 2021-01-05 北京望石智慧科技有限公司 图特征提取、脂水分配系数预测方法及图特征提取模型
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统
CN113515991A (zh) * 2020-10-30 2021-10-19 阿里巴巴集团控股有限公司 属性识别、监控数据分析方法、设备及存储介质
CN113780610A (zh) * 2020-12-02 2021-12-10 北京沃东天骏信息技术有限公司 一种客服画像构建方法和装置
CN114694177A (zh) * 2022-03-10 2022-07-01 电子科技大学 基于多尺度特征和属性关联挖掘的细粒度人物属性识别方法
US11621075B2 (en) 2016-09-07 2023-04-04 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105701516A (zh) * 2016-01-20 2016-06-22 福州大学 一种基于属性判别的自动图像标注方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105701516A (zh) * 2016-01-20 2016-06-22 福州大学 一种基于属性判别的自动图像标注方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KELVIN XU ET AL.: "Show, Attend and Tell: Neural Image Caption", 《COMPUTER SCIENCE》 *
ZHOU ET AL.: "watch what you just said:image captioning with text-conditional attention", 《COMPUTER SCIENCE》 *

Cited By (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11621075B2 (en) 2016-09-07 2023-04-04 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network
CN108804530A (zh) * 2017-05-02 2018-11-13 达索系统公司 对图像的区域加字幕
CN108804530B (zh) * 2017-05-02 2024-01-12 达索系统公司 对图像的区域加字幕
CN107203598A (zh) * 2017-05-08 2017-09-26 广州智慧城市发展研究院 一种实现图像转换标签的方法及系统
CN108875758A (zh) * 2017-05-09 2018-11-23 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
CN108875758B (zh) * 2017-05-09 2022-01-11 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
CN107133354A (zh) * 2017-05-25 2017-09-05 北京小米移动软件有限公司 图像描述信息的获取方法及装置
CN107229707A (zh) * 2017-05-26 2017-10-03 北京小米移动软件有限公司 搜索图像的方法及装置
WO2018218706A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN107220506A (zh) * 2017-06-05 2017-09-29 东华大学 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107239801B (zh) * 2017-06-28 2020-07-28 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107391609B (zh) * 2017-07-01 2020-07-31 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107480144B (zh) * 2017-08-03 2020-10-20 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN107480144A (zh) * 2017-08-03 2017-12-15 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107730507A (zh) * 2017-08-23 2018-02-23 成都信息工程大学 一种基于深度学习的病变区域自动分割方法
CN107911338A (zh) * 2017-10-13 2018-04-13 深圳市迅雷网络技术有限公司 一种数据验证方法、相关设备和系统
WO2019075632A1 (zh) * 2017-10-17 2019-04-25 腾讯科技(深圳)有限公司 一种ai对象行为模型优化方法以及装置
CN107590813A (zh) * 2017-10-27 2018-01-16 深圳市唯特视科技有限公司 一种基于深层交互式测地距离的图像分割方法
CN107766894B (zh) * 2017-11-03 2021-01-22 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN108171268A (zh) * 2018-01-02 2018-06-15 联想(北京)有限公司 一种图像处理方法及电子设备
CN108230413A (zh) * 2018-01-23 2018-06-29 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质、程序
CN108230413B (zh) * 2018-01-23 2021-07-06 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质
CN110110145B (zh) * 2018-01-29 2023-08-22 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN108416059A (zh) * 2018-03-22 2018-08-17 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质、程序
CN108416059B (zh) * 2018-03-22 2021-05-18 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质
CN108416065B (zh) * 2018-03-28 2021-08-31 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN108416065A (zh) * 2018-03-28 2018-08-17 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN108520238B (zh) * 2018-04-10 2021-08-31 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108664998A (zh) * 2018-04-27 2018-10-16 上海爱优威软件开发有限公司 一种释义加强的图片训练方法及系统
CN110555337B (zh) * 2018-05-30 2022-12-06 腾讯科技(深圳)有限公司 一种指示对象的检测方法、装置以及相关设备
CN110555337A (zh) * 2018-05-30 2019-12-10 腾讯科技(深圳)有限公司 一种指示对象的检测方法、装置以及相关设备
CN110674342A (zh) * 2018-06-14 2020-01-10 杭州海康威视数字技术股份有限公司 查询目标图像的方法和装置
CN110674342B (zh) * 2018-06-14 2023-04-25 杭州海康威视数字技术股份有限公司 查询目标图像的方法和装置
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109377498B (zh) * 2018-08-31 2021-08-20 大连理工大学 基于循环神经网络的交互式抠图方法
CN109377498A (zh) * 2018-08-31 2019-02-22 大连理工大学 基于循环神经网络的交互式抠图方法
CN109871736B (zh) * 2018-11-23 2023-01-31 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN109871736A (zh) * 2018-11-23 2019-06-11 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN109543820B (zh) * 2018-11-23 2022-09-23 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
US11868738B2 (en) 2018-11-23 2024-01-09 Tencent Technology (Shenzhen) Company Limited Method and apparatus for generating natural language description information
CN109543820A (zh) * 2018-11-23 2019-03-29 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
CN109918654A (zh) * 2019-02-21 2019-06-21 北京一品智尚信息科技有限公司 一种logo释义方法、设备及介质
CN109918654B (zh) * 2019-02-21 2022-12-27 厦门一品威客网络科技股份有限公司 一种logo释义方法、设备及介质
CN110046226B (zh) * 2019-04-17 2021-09-24 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN111581961A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN111680586B (zh) * 2020-05-26 2022-08-26 电子科技大学 一种羽毛球运动员运动姿态估计方法及系统
CN111680586A (zh) * 2020-05-26 2020-09-18 电子科技大学 一种羽毛球运动员运动姿态估计方法及系统
CN112185480A (zh) * 2020-10-26 2021-01-05 北京望石智慧科技有限公司 图特征提取、脂水分配系数预测方法及图特征提取模型
CN112185480B (zh) * 2020-10-26 2024-01-26 北京望石智慧科技有限公司 图特征提取、脂水分配系数预测方法及图特征提取模型
CN113515991A (zh) * 2020-10-30 2021-10-19 阿里巴巴集团控股有限公司 属性识别、监控数据分析方法、设备及存储介质
CN113780610A (zh) * 2020-12-02 2021-12-10 北京沃东天骏信息技术有限公司 一种客服画像构建方法和装置
CN113111329B (zh) * 2021-06-11 2021-08-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统
CN114694177A (zh) * 2022-03-10 2022-07-01 电子科技大学 基于多尺度特征和属性关联挖掘的细粒度人物属性识别方法
CN114694177B (zh) * 2022-03-10 2023-04-28 电子科技大学 基于多尺度特征和属性关联挖掘的细粒度人物属性识别方法

Also Published As

Publication number Publication date
CN106599198B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN106599198A (zh) 一种多级联结循环神经网络的图像描述方法
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
CN109933795A (zh) 基于上下文-情感词向量的文本情感分析系统
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
Wu et al. Recall what you see continually using gridlstm in image captioning
CN108733837A (zh) 一种病历文本的自然语言结构化方法及装置
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN111598183A (zh) 一种多特征融合图像描述方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN111538841A (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
He et al. Deep learning in natural language generation from images
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning
CN114048314A (zh) 一种自然语言隐写分析方法
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN111737467B (zh) 一种基于分段卷积神经网络的对象级情感分类方法
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
Tian et al. Scene graph generation by multi-level semantic tasks
CN111783852A (zh) 一种基于深度强化学习自适应式生成图像描述的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240515

Address after: 510000 No. 135 West Xingang Road, Guangdong, Guangzhou

Patentee after: SUN YAT-SEN University

Country or region after: China

Address before: 528300 Daliang sub district office, Shunde District, Foshan City, Guangdong Province

Patentee before: SYSU-CMU SHUNDE INTERNATIONAL JOINT Research Institute

Country or region before: China

Patentee before: SUN YAT-SEN University