CN106650756A - 基于知识迁移的多模态循环神经网络的图像文本描述方法 - Google Patents

基于知识迁移的多模态循环神经网络的图像文本描述方法 Download PDF

Info

Publication number
CN106650756A
CN106650756A CN201611236901.6A CN201611236901A CN106650756A CN 106650756 A CN106650756 A CN 106650756A CN 201611236901 A CN201611236901 A CN 201611236901A CN 106650756 A CN106650756 A CN 106650756A
Authority
CN
China
Prior art keywords
image
text
word
neural network
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611236901.6A
Other languages
English (en)
Other versions
CN106650756B (zh
Inventor
胡海峰
张俊轩
王腾
杨梁
王伟轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201611236901.6A priority Critical patent/CN106650756B/zh
Publication of CN106650756A publication Critical patent/CN106650756A/zh
Application granted granted Critical
Publication of CN106650756B publication Critical patent/CN106650756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于知识迁移的多模态循环神经网络的图像文本描述方法,该方法通过多模态单元中的知识转移模型,很好地利用了现成图像分类器对大多数对象的识别能力以及现成语料库中的语法结构和语义关联性,能更准确地描述出图像中的目标对象以及使生成的句子描述语法结构更丰富,语义贴切,可读性更强。

Description

基于知识迁移的多模态循环神经网络的图像文本描述方法
技术领域
本发明涉及机器视觉与模式识别领域,更具体地,涉及一种基于知识迁移的多模态循环神经网络的图像文本描述方法。
背景技术
近年来,循环神经网络的自然语言处理以及基于卷积神经网络的图像分类处理的快速发展,使得应用深度神经网络进行的图像理解技术广泛被人们采用。自动生成图像文本描述作为联系着两大人工智能领域的技术(计算机视觉以及自然语言处理),吸引了越来越多的人关注以及研究。
对于普通的图像文本描述生成,目前已取得了较好的效果。如2015年,Junhua Mao等人提出了一种基于多模态循环神经网络(m-RNN)的图像描述模型,这个网络模型可以将图像信息与语言模型的信息结合在一个多模态单元,使生成的句子语义能更符合图像表达的信息,而且采用LSTM模型能改善句子的语法结构,增强句子的可读性。
但由于该方法只能应用于现有的图像与文本描述成对匹配的数据集,对于一些图像中的一些没有在文本描述数据字中出现的新的对象,该方法无法识别出来,导致了生成的句子描述的信息可能与图像呈现的信息不相关。而且由于图像与文本描述成对匹配的数据集有限,无法覆盖大部分图像中的对象,并且此类数据集制作时,图像信息要求与文本信息相匹配,需要人工的制作,因此制作此类数据集成本较高。
发明内容
本发明提供一种基于知识迁移的多模态循环神经网络的图像文本描述方法,该方法可满足大部分成对匹配训练集外的新对象的识别。
为了达到上述技术效果,本发明的技术方案如下:
一种基于知识迁移的多模态循环神经网络的图像文本描述方法,包括以下步骤:
S1:在服务器中训练图像语义分类器;
S2:在服务器中训练语言模型;
S3:在服务器中预训练文本描述生成模型并生成描述句子。
进一步地,所述步骤S1的具体过程如下:
S11:采集多种图像数据集:下载现成的数据集,包括ImageNet和MSCOCO,由于MSCOCO是一种图像与文本描述成对匹配的数据集,取其图像部分;
S12:使用的卷积神经网络,对采集的数据集中的每一张图片提取相应的图像特征fI
S13:制作标签集,选取1000个最常见的单词即覆盖了90%图像与文本描述成对匹配的训练集中使用到的单词,以及加上ImageNet图像分类中没有出现在成对匹配训练集中的对象的词,将两者组成需要用到的标签词库;
S14:利用上个步骤制作好的标签词库,对每张图片采用多示例学习的方法为其添加上多个视觉概念标签:
多示例学习中将各种多示例的集合定义为“包”,正包指的是包中至少有一个正示例,否则定义为负包,在这里把每张图片定义成一个包;
对于MSCOCO数据集中每一张图片,根据其数据集中五个参考文本描述去给每个图像设定相对应的标签,如果一个图像中对应的五个参考文本描述中的任意一个提到了一个标签,则认为对应的图片是一个正包,否则认为该图片是负包;对于ImageNet数据集中的每一张图片,以其本来的标签作为单独的标签。
进一步地,所述步骤S2的具体过程如下:
S21:语言模型采用三种纯文本数据集去训练即MSCOCO中的所有文本描述、Flicker1M,Flicker30K,Pascal1K中的图像文本描述、英国国家语料库和维基百科中的文本数据;
S22:将文本数据集中的单词转变成向量的形式;
S23:将文本的上一个单词作为输入,输入到一个长短期记忆模型中,让LSTM单元学习语言中的递归结构;
S24:同时将单词向量以及LSTM的输出组合起来,输出模型需要的语言特征fL
进一步地,所述步骤S3的具体过程如下:
S31:用调整的卷积神经网络提取MSCOCO中的图像特征;
S32:将独立训练好的语言模型特征fL和S31的图像特征整合嵌入到一个含有多模态单元的循环神经网络之中;
S33:把MSCOCO数据迭代输入,预训练的文本描述生成模型;
S34:将图像语义分类器中得到的图像特征fI嵌入到多模态单元当中;
S35:将成对匹配训练集中的一些对象的概率预测权重矩阵转移到概念相似的非成对匹配训练集中的对象中即当语义分类器判定非成对匹配数据集中的一个对象与成对匹配训练集中的某个对象相似时,令它们的预测权重矩阵相同;
S36:同时要令两种相似对象预测的情况要独立,此时增加一个判定条件,对于根据图像特征的生成的权重矩阵要结合语义分类器来决定,类似bus和car,若语义分类器预测该图像为bus,则根据图像特征预测生成car的权重矩阵,使其为预测的概率为0,反之亦然;
S37:将验证集中的图片输入到图像文本描述生成模型当中,通过训练好的模型参数得到一系列单词向量以及它们对应的概率;
S38:选取概率最高的单词作为句子的首个单词;
S39:将第一个单词输入到语言模型中,经过语言模型中的LSTM计算得出的特征结合fL,再次生成一系列的单词向量以及对应的概率;
S310:选取概率最高的作为句子的第二个单词;
S311:循环重复S39和S310的工作,直至模型输出一个句子结束标志。
进一步地,所述步骤S13中制作的标签集是结合图像与文本描述成对匹配训练集的词和ImageNet图像分类中没有出现在成对匹配训练集中的对象的词。
进一步地,所述步骤S21中语言模型是通过纯文本数据集去训练的,语言模型的单词向量输出可由下列式子表示:
Pv=Ws·fL+OLSTM+b
其中Pv为单词向量的预测概率,fL为句子特征向量,OLSTM为LSTM输出向量,b为偏移量。
进一步地,所述步骤S35和S36中首先使两个相似的对象的预测权重矩阵相同,再添加一个根据图像特征的生成的权重矩阵要联合语义分类器的判定条件决定最终的预测权重矩阵。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过多模态单元中的知识转移模型,很好地利用了现成图像分类器对大多数对象的识别能力以及现成语料库中的语法结构和语义关联性,能更准确地描述出图像中的目标对象以及使生成的句子描述语法结构更丰富,语义贴切,可读性更强。
附图说明
图1为本发明方法的总体流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于知识迁移的多模态循环神经网络的图像文本描述方法,包括以下步骤:
S1:在服务器中训练图像语义分类器;
S2:在服务器中训练语言模型;
S3:在服务器中预训练文本描述生成模型并生成描述句子。
步骤S1的具体过程如下:
S11:采集多种图像数据集:下载现成的数据集,包括ImageNet和MSCOCO,由于MSCOCO是一种图像与文本描述成对匹配的数据集,取其图像部分;
S12:使用卷积神经网络,对采集的数据集中的每一张图片提取相应的图像特征fI
S13:制作标签集,选取1000个最常见的单词即覆盖了90%图像与文本描述成对匹配的训练集中使用到的单词,以及加上ImageNet图像分类中没有出现在成对匹配训练集中的对象的词,将两者组成需要用到的标签词库;
S14:利用上个步骤制作好的标签词库,对每张图片采用多示例学习的方法为其添加上多个视觉概念标签:
多示例学习中将各种多示例的集合定义为“包”,正包指的是包中至少有一个正示例,否则定义为负包,在这里把每张图片定义成一个包;
对于MSCOCO数据集中每一张图片,根据其数据集中五个参考文本描述去给每个图像设定相对应的标签,如果一个图像中对应的五个参考文本描述中的任意一个提到了一个标签,则认为对应的图片是一个正包,否则认为该图片是负包;对于ImageNet数据集中的每一张图片,以其本来的标签作为单独的标签。
步骤S2的具体过程如下:
S21:语言模型采用三种纯文本数据集去训练即MSCOCO中的所有文本描述、Flicker1M,Flicker30K,Pascal1K中的图像文本描述、英国国家语料库和维基百科中的文本数据;
S22:将文本数据集中的单词转变成向量的形式;
S23:将文本的上一个单词作为输入,输入到一个长短期记忆模型中,让LSTM单元学习语言中的递归结构;
S24:同时将单词向量以及LSTM的输出组合起来,输出模型需要的语言特征fL
步骤S3的具体过程如下:
S31:用调整的卷积神经网络提取MSCOCO中的图像特征;
S32:将独立训练好的语言模型特征fL和S31的图像特征整合嵌入到一个含有多模态单元的循环神经网络之中;
S33:把MSCOCO数据迭代输入,预训练的文本描述生成模型;
S34:将图像语义分类器中得到的图像特征fI嵌入到多模态单元当中;
S35:将成对匹配训练集中的一些对象的概率预测权重矩阵转移到概念相似的非成对匹配训练集中的对象中即当语义分类器判定非成对匹配数据集中的一个对象与成对匹配训练集中的某个对象相似时,令它们的预测权重矩阵相同;
S36:同时要令两种相似对象预测的情况要独立,此时增加一个判定条件,对于根据图像特征的生成的权重矩阵要结合语义分类器来决定,类似bus和car,若语义分类器预测该图像为bus,则根据图像特征预测生成car的权重矩阵,使其为预测的概率为0,反之亦然;
S37:将验证集中的图片输入到图像文本描述生成模型当中,通过训练好的模型参数得到一系列单词向量以及它们对应的概率;
S38:选取概率最高的单词作为句子的首个单词;
S39:将第一个单词输入到语言模型中,经过语言模型中的LSTM计算得出的特征结合fL,再次生成一系列的单词向量以及对应的概率;
S310:选取概率最高的作为句子的第二个单词;
S311:循环重复S39和S310的工作,直至模型输出一个句子结束标志。
步骤S13中制作的标签集是结合图像与文本描述成对匹配训练集的词和ImageNet图像分类中没有出现在成对匹配训练集中的对象的词。
步骤S21中语言模型是通过纯文本数据集去训练的,语言模型的单词向量输出可由下列式子表示:
Pv=Ws·fL+OLSTM+b
其中Pv为单词向量的预测概率,fL为句子特征向量,OLSTM为LSTM输出向量,b为偏移量。
步骤S35和S36中首先使两个相似的对象的预测权重矩阵相同,再添加一个根据图像特征的生成的权重矩阵要联合语义分类器的判定条件决定最终的预测权重矩阵。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,包括以下步骤:
S1:在服务器中训练图像语义分类器;
S2:在服务器中训练语言模型;
S3:在服务器中预训练文本描述生成模型并生成描述句子。
2.根据权利要求1所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S1的具体过程如下:
S11:采集多种图像数据集:下载现成的数据集,包括ImageNet和MSCOCO,由于MSCOCO是一种图像与文本描述成对匹配的数据集,取其图像部分;
S12:使用卷积神经网络,对采集的数据集中的每一张图片提取相应的图像特征fI
S13:制作一个标签集,选取1000个最常见的单词即覆盖了90%图像与文本描述成对匹配的训练集中使用到的单词,以及加上ImageNet图像分类中没有出现在成对匹配训练集中的对象的词,将两者组成需要用到的标签词库;
S14:利用上个步骤制作好的标签词库,对每张图片采用多示例学习的方法为其添加上多个视觉概念标签:
多示例学习中将各种多示例的集合定义为“包”,正包指的是包中至少有一个正示例,否则定义为负包,在这里把每张图片定义成一个包;
对于MSCOCO数据集中每一张图片,根据其数据集中五个参考文本描述去给每个图像设定相对应的标签,如果一个图像中对应的五个参考文本描述中的任意一个提到了一个标签,则认为对应的图片是一个正包,否则认为该图片是负包;对于ImageNet数据集中的每一张图片,以其本来的标签作为单独的标签。
3.根据权利要求2所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S2的具体过程如下:
S21:语言模型采用三种纯文本数据集去训练即MSCOCO中的所有文本描述、Flicker1M,Flicker30K,Pascal1K中的图像文本描述、英国国家语料库和维基百科中的文本数据;
S22:将文本数据集中的单词转变成向量的形式;
S23:将文本的上一个单词作为输入,输入到一个长短期记忆模型中,让LSTM单元学习语言中的递归结构;
S24:同时将单词向量以及LSTM的输出组合起来,输出模型需要的语言特征fL
4.根据权利要求3所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S3的具体过程如下:
S31:用调整的卷积神经网络提取MSCOCO中的图像特征;
S32:将独立训练好的语言模型特征fL和S31的图像特征整合嵌入到一个含有多模态单元的循环神经网络之中;
S33:把MSCOCO数据迭代输入,预训练的文本描述生成模型;
S34:将图像语义分类器中得到的图像特征fI嵌入到多模态单元当中;
S35:将成对匹配训练集中的一些对象的概率预测权重矩阵转移到概念相似的非成对匹配训练集中的对象中即当语义分类器判定非成对匹配数据集中的一个对象与成对匹配训练集中的某个对象相似时,令它们的预测权重矩阵相同;
S36:同时要令两种相似对象预测的情况要独立,此时增加一个判定条件,对于根据图像特征的生成的权重矩阵要结合语义分类器来决定,类似bus和car,若语义分类器预测该图像为bus,则根据图像特征预测生成car的权重矩阵,使其为预测的概率为0,反之亦然;
S37:将验证集中的图片输入到图像文本描述生成模型当中,通过训练好的模型参数得到单词向量以及它们对应的概率;
S38:选取概率最高的单词作为句子的首个单词;
S39:将第一个单词输入到语言模型中,经过语言模型中的LSTM计算得出的特征结合fL,再次生成一系列的单词向量以及对应的概率;
S310:选取概率最高的作为句子的第二个单词;
S311:循环重复S39和S310的工作,直至模型输出一个句子结束标志。
5.根据权利要求4所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S13中制作的标签集是结合图像与文本描述成对匹配训练集的词和ImageNet图像分类中没有出现在成对匹配训练集中的对象的词。
6.根据权利要求5所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S21中语言模型是通过纯文本数据集去训练的,语言模型的单词向量输出可由下列式子表示:
Pv=Ws·fL+OLSTM+b
其中Pv为单词向量的预测概率,fL为句子特征向量,OLSTM为LSTM输出向量,b为偏移量。
7.根据权利要求6所述的基于知识迁移的多模态循环神经网络的图像文本描述方法,其特征在于,所述步骤S35和S36中首先使两个相似的对象的预测权重矩阵相同,再添加一个根据图像特征的生成的权重矩阵要联合语义分类器的判定条件决定最终的预测权重矩阵。
CN201611236901.6A 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法 Active CN106650756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611236901.6A CN106650756B (zh) 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611236901.6A CN106650756B (zh) 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法

Publications (2)

Publication Number Publication Date
CN106650756A true CN106650756A (zh) 2017-05-10
CN106650756B CN106650756B (zh) 2019-12-10

Family

ID=58832459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611236901.6A Active CN106650756B (zh) 2016-12-28 2016-12-28 基于知识迁移的多模态循环神经网络的图像文本描述方法

Country Status (1)

Country Link
CN (1) CN106650756B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220337A (zh) * 2017-05-25 2017-09-29 北京大学 一种基于混合迁移网络的跨媒体检索方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107480196A (zh) * 2017-07-14 2017-12-15 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107832292A (zh) * 2017-11-02 2018-03-23 合肥工业大学 一种基于神经网络模型的图像到汉语古诗的转换方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108376558A (zh) * 2018-01-24 2018-08-07 复旦大学 一种多模态核磁共振影像病历报告自动生成方法
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109147010A (zh) * 2018-08-22 2019-01-04 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN109948066A (zh) * 2019-04-16 2019-06-28 杭州电子科技大学 一种基于异构信息网络的兴趣点推荐方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法
CN110580489A (zh) * 2018-06-11 2019-12-17 阿里巴巴集团控股有限公司 一种数据对象的分类系统、方法以及设备
CN110969187A (zh) * 2019-10-30 2020-04-07 创意信息技术股份有限公司 一种图谱迁移的语义分析方法
CN111813978A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种图像描述模型的生成方法、生成装置和存储介质
CN112016573A (zh) * 2020-10-16 2020-12-01 北京世纪好未来教育科技有限公司 弹幕生成方法、装置、电子设备及计算机存储介质
CN112204575A (zh) * 2018-11-16 2021-01-08 谷歌有限责任公司 使用文本和视觉嵌入的多模态图像分类器
WO2021008145A1 (zh) * 2019-07-12 2021-01-21 北京京东尚科信息技术有限公司 图像段落描述生成方法、装置、介质及电子设备
CN113377990A (zh) * 2021-06-09 2021-09-10 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN114972929A (zh) * 2022-07-29 2022-08-30 中国医学科学院医学信息研究所 一种医学多模态模型的预训练方法及装置
US11621075B2 (en) 2016-09-07 2023-04-04 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network
CN110580299B (zh) * 2018-06-08 2023-11-07 北京京东尚科信息技术有限公司 生成对象的推荐语的配图的方法、系统、设备及存储介质
US12125271B2 (en) 2019-07-12 2024-10-22 Beijing Jingdong Shangke Information Technology Co., Ltd. Image paragraph description generating method and apparatus, medium and electronic device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035992A (zh) * 2014-06-10 2014-09-10 复旦大学 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035992A (zh) * 2014-06-10 2014-09-10 复旦大学 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11621075B2 (en) 2016-09-07 2023-04-04 Koninklijke Philips N.V. Systems, methods, and apparatus for diagnostic inferencing with a multimodal deep memory network
CN107220337A (zh) * 2017-05-25 2017-09-29 北京大学 一种基于混合迁移网络的跨媒体检索方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107391609B (zh) * 2017-07-01 2020-07-31 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107480196B (zh) * 2017-07-14 2020-02-07 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107480196A (zh) * 2017-07-14 2017-12-15 中国科学院自动化研究所 一种基于动态融合机制的多模态词汇表示方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107832292A (zh) * 2017-11-02 2018-03-23 合肥工业大学 一种基于神经网络模型的图像到汉语古诗的转换方法
CN107832292B (zh) * 2017-11-02 2020-12-29 合肥工业大学 一种基于神经网络模型的图像到汉语古诗的转换方法
CN108009154B (zh) * 2017-12-20 2021-01-05 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108376558B (zh) * 2018-01-24 2021-08-20 复旦大学 一种多模态核磁共振影像病历报告自动生成方法
CN108376558A (zh) * 2018-01-24 2018-08-07 复旦大学 一种多模态核磁共振影像病历报告自动生成方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
CN108764462A (zh) * 2018-05-29 2018-11-06 成都视观天下科技有限公司 一种基于知识蒸馏的卷积神经网络优化方法
CN110580299B (zh) * 2018-06-08 2023-11-07 北京京东尚科信息技术有限公司 生成对象的推荐语的配图的方法、系统、设备及存储介质
CN110580489A (zh) * 2018-06-11 2019-12-17 阿里巴巴集团控股有限公司 一种数据对象的分类系统、方法以及设备
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109145946B (zh) * 2018-07-09 2022-02-11 暨南大学 一种智能图像识别和描述方法
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109147010A (zh) * 2018-08-22 2019-01-04 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109147010B (zh) * 2018-08-22 2023-07-25 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109359564A (zh) * 2018-09-29 2019-02-19 中山大学 一种图像场景图生成方法及装置
CN109359564B (zh) * 2018-09-29 2022-06-24 中山大学 一种图像场景图生成方法及装置
CN112204575A (zh) * 2018-11-16 2021-01-08 谷歌有限责任公司 使用文本和视觉嵌入的多模态图像分类器
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN111813978A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种图像描述模型的生成方法、生成装置和存储介质
CN109948066B (zh) * 2019-04-16 2020-12-11 杭州电子科技大学 一种基于异构信息网络的兴趣点推荐方法
CN109948066A (zh) * 2019-04-16 2019-06-28 杭州电子科技大学 一种基于异构信息网络的兴趣点推荐方法
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法
WO2021008145A1 (zh) * 2019-07-12 2021-01-21 北京京东尚科信息技术有限公司 图像段落描述生成方法、装置、介质及电子设备
US12125271B2 (en) 2019-07-12 2024-10-22 Beijing Jingdong Shangke Information Technology Co., Ltd. Image paragraph description generating method and apparatus, medium and electronic device
CN110969187A (zh) * 2019-10-30 2020-04-07 创意信息技术股份有限公司 一种图谱迁移的语义分析方法
CN112016573B (zh) * 2020-10-16 2021-04-30 北京世纪好未来教育科技有限公司 弹幕生成方法、装置、电子设备及计算机存储介质
CN112016573A (zh) * 2020-10-16 2020-12-01 北京世纪好未来教育科技有限公司 弹幕生成方法、装置、电子设备及计算机存储介质
CN113377990A (zh) * 2021-06-09 2021-09-10 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN114972929A (zh) * 2022-07-29 2022-08-30 中国医学科学院医学信息研究所 一种医学多模态模型的预训练方法及装置

Also Published As

Publication number Publication date
CN106650756B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN106650756A (zh) 基于知识迁移的多模态循环神经网络的图像文本描述方法
Li et al. Imbalanced text sentiment classification using universal and domain-specific knowledge
US10055391B2 (en) Method and apparatus for forming a structured document from unstructured information
Yu et al. Heterogeneous graph learning for visual commonsense reasoning
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
CN108536679A (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN108628823A (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN110472042B (zh) 一种细粒度情感分类方法
CN108595601A (zh) 一种融入Attention机制的长文本情感分析方法
CN106599198A (zh) 一种多级联结循环神经网络的图像描述方法
CN108733837A (zh) 一种病历文本的自然语言结构化方法及装置
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN109753567A (zh) 一种结合标题与正文注意力机制的文本分类方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN109271516B (zh) 一种知识图谱中实体类型分类方法及系统
CN112559734B (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
CN109190126A (zh) 词嵌入模型的训练方法及装置
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
Mestry et al. Automation in social networking comments with the help of robust fasttext and cnn
Li et al. Definition extraction with lstm recurrent neural networks
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN111191461B (zh) 一种基于课程学习的远程监督关系抽取方法
Amplayo et al. Translations as additional contexts for sentence classification
CN114065702A (zh) 一种融合实体关系和事件要素的事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant