CN106650756B - 基于知识迁移的多模态循环神经网络的图像文本描述方法 - Google Patents

基于知识迁移的多模态循环神经网络的图像文本描述方法 Download PDF

Info

Publication number
CN106650756B
CN106650756B CN201611236901.6A CN201611236901A CN106650756B CN 106650756 B CN106650756 B CN 106650756B CN 201611236901 A CN201611236901 A CN 201611236901A CN 106650756 B CN106650756 B CN 106650756B
Authority
CN
China
Prior art keywords
image
text
neural network
word
text description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611236901.6A
Other languages
English (en)
Other versions
CN106650756A (zh
Inventor
胡海峰
张俊轩
王腾
杨梁
王伟轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Original Assignee
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SYSU CMU Shunde International Joint Research Institute, National Sun Yat Sen University filed Critical SYSU CMU Shunde International Joint Research Institute
Priority to CN201611236901.6A priority Critical patent/CN106650756B/zh
Publication of CN106650756A publication Critical patent/CN106650756A/zh
Application granted granted Critical
Publication of CN106650756B publication Critical patent/CN106650756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于知识迁移的多模态循环神经网络的图像文本描述方法,该方法通过多模态单元中的知识转移模型,很好地利用了现成图像分类器对大多数对象的识别能力以及现成语料库中的语法结构和语义关联性,能更准确地描述出图像中的目标对象以及使生成的句子描述语法结构更丰富,语义贴切,可读性更强。

Description

基于知识迁移的多模态循环神经网络的图像文本描述方法
技术领域
本发明涉及机器视觉与模式识别领域,更具体地,涉及一种基于知识迁移的多模态循环神经网络的图像文本描述方法。
背景技术
近年来,循环神经网络的自然语言处理以及基于卷积神经网络的图像分类处理的快速发展,使得应用深度神经网络进行的图像理解技术广泛被人们采用。自动生成图像文本描述作为联系着两大人工智能领域的技术(计算机视觉以及自然语言处理),吸引了越来越多的人关注以及研究。
对于普通的图像文本描述生成,目前已取得了较好的效果。如2015年,Junhua Mao等人提出了一种基于多模态循环神经网络(m-RNN)的图像描述模型,这个网络模型可以将图像信息与语言模型的信息结合在一个多模态单元,使生成的句子语义能更符合图像表达的信息,而且采用LSTM模型能改善句子的语法结构,增强句子的可读性。
但由于该方法只能应用于现有的图像与文本描述成对匹配的数据集,对于一些图像中的一些没有在文本描述数据字中出现的新的对象,该方法无法识别出来,导致了生成的句子描述的信息可能与图像呈现的信息不相关。而且由于图像与文本描述成对匹配的数据集有限,无法覆盖大部分图像中的对象,并且此类数据集制作时,图像信息要求与文本信息相匹配,需要人工的制作,因此制作此类数据集成本较高。
发明内容
本发明提供一种基于知识迁移的多模态循环神经网络的图像文本描述方法,该方法可满足大部分成对匹配训练集外的新对象的识别。
为了达到上述技术效果,本发明的技术方案如下:
一种基于知识迁移的多模态循环神经网络的图像文本描述方法,包括以下步骤:
S1:在服务器中训练图像语义分类器;
S2:在服务器中训练语言模型;
S3:在服务器中预训练文本描述生成模型并生成描述句子。
进一步地,所述步骤S1的具体过程如下:
S11:采集多种图像数据集:下载现成的数据集,包括ImageNet和MSCOCO,由于MSCOCO是一种图像与文本描述成对匹配的数据集,取其图像部分;
S12:使用的卷积神经网络,对采集的数据集中的每一张图片提取相应的图像特征fI
S13:制作标签集,选取1000个最常见的单词即覆盖了90%图像与文本描述成对匹配的训练集中使用到的单词,以及加上ImageNet图像分类中没有出现在成对匹配训练集中的对象的词,将两者组成需要用到的标签词库;
S14:利用上个步骤制作好的标签词库,对每张图片采用多示例学习的方法为其添加上多个视觉概念标签:
多示例学习中将各种多示例的集合定义为“包”,正包指的是包中至少有一个正示例,否则定义为负包,在这里把每张图片定义成一个包;
对于MSCOCO数据集中每一张图片,根据其数据集中五个参考文本描述去给每个图像设定相对应的标签,如果一个图像中对应的五个参考文本描述中的任意一个提到了一个标签,则认为对应的图片是一个正包,否则认为该图片是负包;对于ImageNet数据集中的每一张图片,以其本来的标签作为单独的标签。
进一步地,所述步骤S2的具体过程如下:
S21:语言模型采用三种纯文本数据集去训练即MSCOCO中的所有文本描述、Flicker1M,Flicker30K,Pascal1K中的图像文本描述、英国国家语料库和维基百科中的文本数据;
S22:将文本数据集中的单词转变成向量的形式;
S23:将文本的上一个单词作为输入,输入到一个长短期记忆模型中,让LSTM单元学习语言中的递归结构;
S24:同时将单词向量以及LSTM的输出组合起来,输出模型需要的语言特征fL
进一步地,所述步骤S3的具体过程如下:
S31:用调整的卷积神经网络提取MSCOCO中的图像特征;
S32:将独立训练好的语言模型特征fL和S31的图像特征整合嵌入到一个含有多模态单元的循环神经网络之中;
S33:把MSCOCO数据迭代输入,预训练的文本描述生成模型;
S34:将图像语义分类器中得到的图像特征fI嵌入到多模态单元当中;
S35:将成对匹配训练集中的一些对象的概率预测权重矩阵转移到概念相似的非成对匹配训练集中的对象中即当语义分类器判定非成对匹配数据集中的一个对象与成对匹配训练集中的某个对象相似时,令它们的预测权重矩阵相同;
S36:同时要令两种相似对象预测的情况要独立,此时增加一个判定条件,对于根据图像特征的生成的权重矩阵要结合语义分类器来决定,类似bus和car,若语义分类器预测该图像为bus,则根据图像特征预测生成car的权重矩阵,使其为预测的概率为0,反之亦然;
S37:将验证集中的图片输入到图像文本描述生成模型当中,通过训练好的模型参数得到一系列单词向量以及它们对应的概率;
S38:选取概率最高的单词作为句子的首个单词;
S39:将第一个单词输入到语言模型中,经过语言模型中的LSTM计算得出的特征结合fL,再次生成一系列的单词向量以及对应的概率;
S310:选取概率最高的作为句子的第二个单词;
S311:循环重复S39和S310的工作,直至模型输出一个句子结束标志。
进一步地,所述步骤S13中制作的标签集是结合图像与文本描述成对匹配训练集的词和ImageNet图像分类中没有出现在成对匹配训练集中的对象的词。
进一步地,所述步骤S21中语言模型是通过纯文本数据集去训练的,语言模型的单词向量输出可由下列式子表示:
Pv=Ws·fL+OLSTM+b
其中Pv为单词向量的预测概率,fL为句子特征向量,OLSTM为LSTM输出向量,b为偏移量。
进一步地,所述步骤S35和S36中首先使两个相似的对象的预测权重矩阵相同,再添加一个根据图像特征的生成的权重矩阵要联合语义分类器的判定条件决定最终的预测权重矩阵。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过多模态单元中的知识转移模型,很好地利用了现成图像分类器对大多数对象的识别能力以及现成语料库中的语法结构和语义关联性,能更准确地描述出图像中的目标对象以及使生成的句子描述语法结构更丰富,语义贴切,可读性更强。
附图说明
图1为本发明方法的总体流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于知识迁移的多模态循环神经网络的图像文本描述方法,包括以下步骤:
S1:在服务器中训练图像语义分类器;
S2:在服务器中训练语言模型;
S3:在服务器中预训练文本描述生成模型并生成描述句子。
步骤S1的具体过程如下:
S11:采集多种图像数据集:下载现成的数据集,包括ImageNet和MSCOCO,由于MSCOCO是一种图像与文本描述成对匹配的数据集,取其图像部分;
S12:使用卷积神经网络,对采集的数据集中的每一张图片提取相应的图像特征fI
S13:制作标签集,选取1000个最常见的单词即覆盖了90%图像与文本描述成对匹配的训练集中使用到的单词,以及加上ImageNet图像分类中没有出现在成对匹配训练集中的对象的词,将两者组成需要用到的标签词库;
S14:利用上个步骤制作好的标签词库,对每张图片采用多示例学习的方法为其添加上多个视觉概念标签:
多示例学习中将各种多示例的集合定义为“包”,正包指的是包中至少有一个正示例,否则定义为负包,在这里把每张图片定义成一个包;
对于MSCOCO数据集中每一张图片,根据其数据集中五个参考文本描述去给每个图像设定相对应的标签,如果一个图像中对应的五个参考文本描述中的任意一个提到了一个标签,则认为对应的图片是一个正包,否则认为该图片是负包;对于ImageNet数据集中的每一张图片,以其本来的标签作为单独的标签。
步骤S2的具体过程如下:
S21:语言模型采用三种纯文本数据集去训练即MSCOCO中的所有文本描述、Flicker1M,Flicker30K,Pascal1K中的图像文本描述、英国国家语料库和维基百科中的文本数据;
S22:将文本数据集中的单词转变成向量的形式;
S23:将文本的上一个单词作为输入,输入到一个长短期记忆模型中,让LSTM单元学习语言中的递归结构;
S24:同时将单词向量以及LSTM的输出组合起来,输出模型需要的语言特征fL
步骤S3的具体过程如下:
S31:用调整的卷积神经网络提取MSCOCO中的图像特征;
S32:将独立训练好的语言模型特征fL和S31的图像特征整合嵌入到一个含有多模态单元的循环神经网络之中;
S33:把MSCOCO数据迭代输入,预训练的文本描述生成模型;
S34:将图像语义分类器中得到的图像特征fI嵌入到多模态单元当中;
S35:将成对匹配训练集中的一些对象的概率预测权重矩阵转移到概念相似的非成对匹配训练集中的对象中即当语义分类器判定非成对匹配数据集中的一个对象与成对匹配训练集中的某个对象相似时,令它们的预测权重矩阵相同;
S36:同时要令两种相似对象预测的情况要独立,此时增加一个判定条件,对于根据图像特征的生成的权重矩阵要结合语义分类器来决定,类似bus和car,若语义分类器预测该图像为bus,则根据图像特征预测生成car的权重矩阵,使其为预测的概率为0,反之亦然;
S37:将验证集中的图片输入到图像文本描述生成模型当中,通过训练好的模型参数得到一系列单词向量以及它们对应的概率;
S38:选取概率最高的单词作为句子的首个单词;
S39:将第一个单词输入到语言模型中,经过语言模型中的LSTM计算得出的特征结合fL,再次生成一系列的单词向量以及对应的概率;
S310:选取概率最高的作为句子的第二个单词;
S311:循环重复S39和S310的工作,直至模型输出一个句子结束标志。
步骤S13中制作的标签集是结合图像与文本描述成对匹配训练集的词和ImageNet图像分类中没有出现在成对匹配训练集中的对象的词。
步骤S21中语言模型是通过纯文本数据集去训练的,语言模型的单词向量输出可由下列式子表示:
Pv=Ws·fL+OLSTM+b
其中Pv为单词向量的预测概率,fL为句子特征向量,OLSTM为LSTM输出向量,b为偏移量。
步骤S35和S36中首先使两个相似的对象的预测权重矩阵相同,再添加一个根据图像特征的生成的权重矩阵要联合语义分类器的判定条件决定最终的预测权重矩阵。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,包括以下步骤:
S1:在服务器中训练图像语义分类器;
S2:在服务器中训练语言模型;
S3:在服务器中预训练文本描述生成模型并生成描述句子;
所述步骤S1的具体过程如下:
S11:采集多种图像数据集:下载现成的数据集,包括ImageNet和MSCOCO,由于MSCOCO是一种图像与文本描述成对匹配的数据集,取其图像部分;
S12:使用卷积神经网络,对采集的数据集中的每一张图片提取相应的图像特征fI
S13:制作一个标签集,选取1000个最常见的单词即覆盖了90%图像与文本描述成对匹配的训练集中使用到的单词,以及加上ImageNet图像分类中没有出现在成对匹配训练集中的对象的词,将两者组成需要用到的标签词库;
S14:利用上个步骤制作好的标签词库,对每张图片采用多示例学习的方法为其添加上多个视觉概念标签:
多示例学习中将各种多示例的集合定义为“包”,正包指的是包中至少有一个正示例,否则定义为负包,在这里把每张图片定义成一个包;
对于MSCOCO数据集中每一张图片,根据其数据集中五个参考文本描述去给每个图像设定相对应的标签,如果一个图像中对应的五个参考文本描述中的任意一个提到了一个标签,则认为对应的图片是一个正包,否则认为该图片是负包;对于ImageNet数据集中的每一张图片,以其本来的标签作为单独的标签。
2.根据权利要求1所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S2的具体过程如下:
S21:语言模型采用三种纯文本数据集去训练即MSCOCO中的所有文本描述、Flicker1M,Flicker30K,Pascal1K中的图像文本描述、英国国家语料库和维基百科中的文本数据;
S22:将文本数据集中的单词转变成向量的形式;
S23:将文本的上一个单词作为输入,输入到一个长短期记忆模型中,让LSTM单元学习语言中的递归结构;
S24:同时将单词向量以及LSTM的输出组合起来,输出模型需要的语言特征fL
3.根据权利要求2所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S3的具体过程如下:
S31:用调整的卷积神经网络提取MSCOCO中的图像特征;
S32:将独立训练好的语言模型特征fL和S31的图像特征整合嵌入到一个含有多模态单元的循环神经网络之中;
S33:把MSCOCO数据迭代输入,预训练的文本描述生成模型;
S34:将图像语义分类器中得到的图像特征fI嵌入到多模态单元当中;
S35:将成对匹配训练集中的一些对象的概率预测权重矩阵转移到概念相似的非成对匹配训练集中的对象中即当语义分类器判定非成对匹配数据集中的一个对象与成对匹配训练集中的某个对象相似时,令它们的预测权重矩阵相同;
S36:同时要令两种相似对象预测的情况要独立,此时增加一个判定条件,对于根据图像特征的生成的权重矩阵要结合语义分类器来决定,对于bus和car,若语义分类器预测该图像为bus,则根据图像特征预测生成car的权重矩阵,使其为预测的概率为0,反之亦然;
S37:将验证集中的图片输入到图像文本描述生成模型当中,通过训练好的模型参数得到单词向量以及它们对应的概率;
S38:选取概率最高的单词作为句子的首个单词;
S39:将第一个单词输入到语言模型中,经过语言模型中的LSTM计算得出的特征结合fL,再次生成一系列的单词向量以及对应的概率;
S310:选取概率最高的作为句子的第二个单词;
S311:循环重复S39和S310的工作,直至模型输出一个句子结束标志。
4.根据权利要求3所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S13中制作的标签集是结合图像与文本描述成对匹配训练集的词和ImageNet图像分类中没有出现在成对匹配训练集中的对象的词。
5.根据权利要求4所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S21中语言模型是通过纯文本数据集去训练的,语言模型的单词向量输出由下列式子表示:
Pv=Ws·fL+OLSTM+b
其中Pv为单词向量的预测概率,fL为句子特征向量,OLSTM为LSTM输出向量,b为偏移量。
6.根据权利要求5所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S35和S36中首先使两个相似的对象的预测权重矩阵相同,再添加一个根据图像特征的生成的权重矩阵要联合语义分类器的判定条件决定最终的预测权重矩阵。
CN201611236901.6A 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法 Active CN106650756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611236901.6A CN106650756B (zh) 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611236901.6A CN106650756B (zh) 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法

Publications (2)

Publication Number Publication Date
CN106650756A CN106650756A (zh) 2017-05-10
CN106650756B true CN106650756B (zh) 2019-12-10

Family

ID=58832459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611236901.6A Active CN106650756B (zh) 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法

Country Status (1)

Country Link
CN (1) CN106650756B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3510505A1 (en) 2016-09-07 2019-07-17 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network
CN107220337B (zh) * 2017-05-25 2020-12-22 北京大学 一种基于混合迁移网络的跨媒体检索方法
CN107391609B (zh) * 2017-07-01 2020-07-31 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107480196B (zh) * 2017-07-14 2020-02-07 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107832292B (zh) * 2017-11-02 2020-12-29 合肥工业大学 一种基于神经网络模型的图像到汉语古诗的转换方法
CN108009154B (zh) * 2017-12-20 2021-01-05 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108376558B (zh) * 2018-01-24 2021-08-20 复旦大学 一种多模态核磁共振影像病历报告自动生成方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
CN110580299B (zh) * 2018-06-08 2023-11-07 北京京东尚科信息技术有限公司 生成对象的推荐语的配图的方法、系统、设备及存储介质
CN110580489B (zh) * 2018-06-11 2023-08-04 阿里巴巴集团控股有限公司 一种数据对象的分类系统、方法以及设备
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109145946B (zh) * 2018-07-09 2022-02-11 暨南大学 一种智能图像识别和描述方法
CN109147010B (zh) * 2018-08-22 2023-07-25 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109359564B (zh) * 2018-09-29 2022-06-24 中山大学 一种图像场景图生成方法及装置
CN109992648B (zh) * 2019-04-10 2021-07-02 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN109948066B (zh) * 2019-04-16 2020-12-11 杭州电子科技大学 一种基于异构信息网络的兴趣点推荐方法
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法
CN111753078B (zh) * 2019-07-12 2024-02-02 北京京东尚科信息技术有限公司 图像段落描述生成方法、装置、介质及电子设备
CN110969187B (zh) * 2019-10-30 2020-12-11 创意信息技术股份有限公司 一种图谱迁移的语义分析方法
CN112016573B (zh) * 2020-10-16 2021-04-30 北京世纪好未来教育科技有限公司 弹幕生成方法、装置、电子设备及计算机存储介质
CN113377990B (zh) * 2021-06-09 2022-06-14 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN114972929B (zh) * 2022-07-29 2022-10-18 中国医学科学院医学信息研究所 一种医学多模态模型的预训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035992A (zh) * 2014-06-10 2014-09-10 复旦大学 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035992A (zh) * 2014-06-10 2014-09-10 复旦大学 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法

Also Published As

Publication number Publication date
CN106650756A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106650756B (zh) 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106599198B (zh) 一种多级联结循环神经网络的图像描述方法
CN109299216B (zh) 一种融合监督信息的跨模态哈希检索方法和系统
Xia et al. Supervised hashing for image retrieval via image representation learning
CN110334219A (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
US11481625B2 (en) Artificial neural network
Dong et al. Fast parameter adaptation for few-shot image captioning and visual question answering
CN107735795A (zh) 用于社会关系识别的方法和系统
CN111737552A (zh) 训练信息抽取模型和获取知识图谱的方法、装置和设备
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN114943789A (zh) 一种图像处理方法、模型训练方法及相关装置
CN112231485B (zh) 文本推荐方法、装置、计算机设备及存储介质
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
CN113849653B (zh) 一种文本分类方法及装置
CN113128287A (zh) 训练跨域人脸表情识别模型、人脸表情识别的方法及系统
CN114897060B (zh) 样本分类模型的训练方法和装置、样本分类方法和装置
CN111191461B (zh) 一种基于课程学习的远程监督关系抽取方法
CN115374189A (zh) 基于区块链的食品安全溯源方法、装置及设备
CN115238115A (zh) 基于中文数据的图像检索方法、装置、设备及存储介质
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
CN113157739B (zh) 跨模态检索方法、装置、电子设备及存储介质
CN114048314A (zh) 一种自然语言隐写分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant