CN107391609B - 一种双向多模态递归网络的图像描述方法 - Google Patents

一种双向多模态递归网络的图像描述方法 Download PDF

Info

Publication number
CN107391609B
CN107391609B CN201710528814.6A CN201710528814A CN107391609B CN 107391609 B CN107391609 B CN 107391609B CN 201710528814 A CN201710528814 A CN 201710528814A CN 107391609 B CN107391609 B CN 107391609B
Authority
CN
China
Prior art keywords
word
layer
image
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710528814.6A
Other languages
English (en)
Other versions
CN107391609A (zh
Inventor
唐金辉
束炎武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Zebra Intelligent Technology Co ltd
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201710528814.6A priority Critical patent/CN107391609B/zh
Publication of CN107391609A publication Critical patent/CN107391609A/zh
Application granted granted Critical
Publication of CN107391609B publication Critical patent/CN107391609B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种双向多模态递归网络的图像描述方法,包括:下载图像作为训练集,获取训练集中的图像及其对应的描述语句;提取训练集中的语句中出现的单词并构建词汇表;利用预训练好的卷积神经网络提取数据集中图像的特征;构建双向多模态递归网络模型,将提取得到的图像特征与对应的文本特征进行融合;对双向多模态递归网络模型进行训练;将一幅图片输入到预训练好的模型中,得到对应的描述语句。

Description

一种双向多模态递归网络的图像描述方法
技术领域
本发明设计一种图像处理和模式识别技术,特别是一种双向多模态递归网络的图像描述方法。
背景技术
当前随着计算机视觉和自然语言处理的快速发展,人们对于视觉信息的获取越来越重视,如何用自然语言去描述一幅图像的内容是当前研究的一个重点,也是模式识别领域的研究内容。近年来,依托于卷积神经网络来提取图像特征,结合递归神经网络在自然语言处理上的优势,深度神经网络模型已经成为图像描述的主流方法。其原理是基于图像特征,通过递归神经网络在运行过程中的每一时刻依次产生各个单词,这些单词组合起来则构成相应的描述语句。
目前存在的这些模型在提取图像特征后直接拿来使用,第一种是仅在模型的开始时刻输入图像特征,这会导致模型在后续时刻视觉信息的丢失,第二种是在模型的每一时刻均输入图像特征,这样虽然保证了视觉信息,但是图像特征在不同时刻始终保持不变,模型在每一时刻产生的单词却是变化的。另外,现有的模型每一时刻产生单词时只考虑历史文本信息而忽略未来文本信息,即产生的句子中的每一个单词都是由其之前的单词得到的。这些局限影响了图像描述的准确性,因此需要改善这些问题,从而提升图像描述的性能。
发明内容
本发明的目的在于提供一种双向多模态递归网络的图像描述方法,该模型将通过卷积神经网络提取得到的图像特征与当前时刻的文本特征结合,使改良后的视觉特征在模型运行过程中一直保持变化,并且同时考虑了历史和未来的文本信息来决定当前时刻产生的单词,即当前时刻的单词不仅可以由其之前的单词得到,也可以由其之后的单词得到,这样从两个方向上得到两个语句,从中选择出现概率较大的语句作为最终的描述语句。
实现本发明目的的技术方案为:一种双向多模态递归网络的图像描述方法,包括以下步骤:
步骤1,下载图像作为训练集,获取训练集中的图像及其对应的描述语句;
步骤2,提取训练集中的语句中出现的单词并构建词汇表;
步骤3,利用预训练好的卷积神经网络提取数据集中图像的特征;
步骤4,构建双向多模态递归网络模型,将提取得到的图像特征与对应的文本特征进行融合;
步骤5,对双向多模态递归网络模型进行训练;
步骤6,将一幅图片输入到预训练好的模型中,得到对应的描述语句。
本发明与现有技术相比,具有以下优点:本发明在提取图像的特征之后,在模型运行的每一时刻均输入图像特征,保证了图像信息的充分利用,并且在每一时刻与对应的文本特征进行融合,这样在模型训练的不同时刻图像的特征也对应变化,包含了更加丰富的视觉信息,同时模型也能学习到图像特征与不同时刻产生单词的文本特征之间的关系。本发明构建了一种新的网络模型,与传统的多模态递归网络不同,双向多模态递归网络能够兼顾历史和未来的文本信息,并且与多个双向递归网络堆叠的结构相比,本发明模型拥有更加简单的结构,不仅更加容易训练达到收敛,而且图像描述的性能和准确性也得到提高。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1为本发明一种双向多模态递归网络的图像描述方法的流程图。
图2为某一个时刻上模型结构的示意图。
图3为模型结构在时间序列上展开后的示意图。
图4为最终输入图片得到对应描述语句的效果图。
具体实施方式
结合图1,一种双向多模态递归网络的图像描述方法,包括以下步骤:
步骤1,下载图像描述数据集,获取数据集中的图像及其对应的描述语句;
步骤2,对训练集中的语句进行处理,提取出语句中出现的单词并构建词汇表;
步骤3,利用预训练好的卷积神经网络提取数据集中图像的特征;
步骤4,构建双向多模态递归网络,将提取得到的图像特征与对应的文本特征进行融合;
步骤5,该网络模型考虑历史和未来的文本信息,结合融合后的图像特征,使用训练集训练模型并使其收敛;
步骤6,将一幅图片输入到预训练好的双向多模态递归网络模型中,得到对应的描述语句。
步骤1中的数据集采用目前最广泛使用也是规模最大的Microsoft COCO数据集,该数据集中有82783张图片构成训练集,每张图片包含5个对应的描述语句;
步骤2中对于数据集的每一条语句,利用NaturalLanguageToolkit工具包将语句拆分成各个单词,为了减少词汇表的大小,只保留出现次数不低于3个的单词,这些删除的单词统一用一个符号代替,并添加开始标志和结束标志,这样形成最终的词汇表,而对于一幅新图像经过模型产生的语句则是由该词汇表中的单词组成的。
步骤3中的卷积神经网络包括AlexNet、VggNet、GoogLeNet、ResNet等,这里我们采用了Google Inceptionv3网络,该网络首先在数据集ImageNet上进行训练达到收敛,然后用来提取Microsof tCOCO数据集中的图片特征,该特征是大小为4096维的图像特征向量。
步骤4中构建双向多模态递归网络并进行图像特征与文本特征的融合,如图2所示。双向多模态递归网络包括视觉模型部分、语言模型部分和一个多模态层用来连接这两部分,其中视觉模型部分包括步骤3中的Google Inceptionv3网络,语言模型部分包括两个单词嵌入层,一个双向递归层和一个中间层。
在传统的多模态递归网络中,图像特征在模型运行过程中的每一时刻均保持不变,然而文本特征与递归层的状态则在变化当中。因此为了让图像特征在不同时刻具有一定的变化性,本发明通过结合文本特征与原始图像特征形成新的特征,首先输入一个单词并通过模型中的两个单词嵌入层来进行编码,得到one-hot形式的文本特征向量,该向量通过一个中间层转变成维度大小也是4096维的特征向量,然后使其与步骤3中得到的图像特征向量进行点乘操作,并形成改良后的视觉特征,公式为
I′(t)=f(inter(w(t))*I)
公式中,I为原始图像特征,w(t)为文本特征,inter()是一个中间层,其提供了一套权重向量用于改变文本特征的维度,这里的权重是模型在训练过程中学习得到的,能够表示文本特征与图像特征之间的关系,*为矩阵的点乘操作,f()为ReLU激活函数,I′(t)为能在模型运行过程中保持变化的改良后的图像特征,新的特征能够蕴含更加丰富的视觉信息,并且模型能够学习不同时刻图像特征与文本特征的对应关系。
步骤5中的网络模型即为步骤4中构建的双向多模态递归网络模型,与传统的多模态递归网络不同的是,除了视觉部分中使用了改良后的图像特征,本发明的模型使用了一个双向递归层来代替递归层,这样模型在训练过程中不仅能考虑到历史文本信息,还能考虑未来文本信息,即语句中某一单词不仅可以由其之前的单词得到,也可以由其之后的单词得到,这样模型训练时的视觉和文本信息更加丰富。
该网络模型在时间序列上展开后的示意图如图3所示。首先步骤4中语句的每个单词通过两个单词嵌入层得到的one-hot形式的文本特征向量输入到双向递归层中,这里的双向递归层是由两个递归层组合成的,分别用来处理时序信息,这两个递归层在时间序列上展开后,可以分别从正向和反向来学习文本序列信息,正向递归层用来处理一个正向语句的每一个单词的文本特征,即语句的形成是由前一个单词得到后一个单词,而反向递归层则是用来处理颠倒后的语句序列的每一个单词的文本特征,即语句的形成是由后一个单词得到前一个单词,公式如下:
Figure BDA0001338960390000041
Figure BDA0001338960390000042
公式中,R()代表递归层,w(t)为时刻t的文本特征,r(t)和r(t-1)分别为双向递归层在时刻t和t-1的输出。
接着,双向递归层的正向和反向输出,步骤4中第二个单词嵌入层输出得到的文本特征向量,以及步骤4中改良后的视觉特征,全部放入到多模态层中,公式为
Figure BDA0001338960390000043
公式中,
Figure BDA0001338960390000044
分别为对应时刻的单词的文本特征,
Figure BDA0001338960390000045
分别为对应时刻的改良后的视觉特征,
Figure BDA0001338960390000051
分别为双向递归层对应时刻的隐藏状态,f()为ReLU激活函数。
最后,多模态层的输出结果输入到一个softmax层进行分类,输出为步骤2中得到的词汇表中的各个单词的概率大小,从中选择概率最大的单词作为最终的结果,包括正向和反向两个结果,正向则该单词为输入单词的后一个单词,反向则该单词为输入单词的前一个单词。将两个方向上的每个单词连接起来,得到正向和反向两个句子,分别求出这两个句子中各个单词的概率和作为对应语句的概率,根据两个语句的概率,选取较大的结果作为最终的描述语句,公式如下:
Figure BDA0001338960390000052
公式中,wt为时刻t的单词,w0:t-1为从开始时刻到时刻t-1的单词,wt+1:T为从时刻t+1到结束时刻的单词。
在建立双向多模态递归网络模型之后,需要使用步骤1中的数据集对网络模型进行训练并达到收敛,训练的最终目的是要得到模型中所有层的权重参数,保证在给定数据集中图像视觉特征的前提下,得到图像对应句子的概率最大,公式为
Figure BDA0001338960390000053
公式中,I为图像的特征,S为该图像对应的语句,θ为训练得到的模型中所有层的参数。
步骤6为模型结果的呈现,如图4所示。用户可以选择一张图片,能够得到对应的描述语句。

Claims (4)

1.一种双向多模态递归网络的图像描述方法,其特征在于,包括以下步骤:
步骤1,下载图像作为训练集,获取训练集中的图像及其对应的描述语句;
步骤2,提取训练集中的语句中出现的单词并构建词汇表;
步骤3,利用预训练好的卷积神经网络提取数据集中图像的特征;
步骤4,构建双向多模态递归网络模型,将提取得到的图像特征与对应的文本特征进行融合;
步骤5,对双向多模态递归网络模型进行训练;
步骤6,将一幅图片输入到预训练好的模型中,得到对应的描述语句;
步骤4通过下述公式将提取得到的图像特征与对应的文本特征进行融合:
步骤4.1,构建双向多模态递归网络模型,该模型包括视觉模型部分、语言模型部分和一个多模态层用来连接这两部分,其中视觉模型部分包括步骤3中的Google Inceptionv3网络,语言模型部分包括两个单词嵌入层,一个双向递归层和一个中间层;
步骤4.2,输入一个单词并通过模型中的两个单词嵌入层来进行编码,得到one-hot形式的文本特征向量;
步骤4.3,文本特征向量通过一个中间层转变成维度与卷积神经网络提取数据集中图像的特征的维度一致的特征向量;
步骤4.4,上述特征向量与步骤3中得到的图像特征向量进行点乘操作,形成改良后的视觉特征
I′(t)=f(inter(w(t))*I)
其中,I为原始图像特征,w(t)为文本特征,inter()是中间层,这里的权重是模型在训练过程中学习得到的,*为矩阵的点乘操作,f()为ReLU激活函数,I′(t)为融合的图像特征。
2.根据权利要求1所述的方法,其特征在于,步骤2的具体过程为:
步骤2.1,对于数据集的每一条语句,利用Natural Language Toolkit工具包将语句拆分成各个单词;
步骤2.2,保留出现次数不低于3个的单词,并将删除的单词统一用一个符号代替;
步骤2.3,在每一条语句的开始和结尾处添加开始标志和结束标志;
步骤2.4,对训练集中的所有语句完成步骤2.1-2.3,保留的单词、符号、每一条语句的开始标志和结束标志构成词汇表。
3.根据权利要求1所述的方法,其特征在于,步骤3中训练好的卷积神经网络的标准为该卷积神经网络在数据集ImageNet上进行训练达到收敛。
4.根据权利要求1所述的方法,其特征在于,步骤5的具体过程在于:
步骤5.1,步骤4.2中得到的one-hot形式的文本特征向量输入到双向递归层中;
步骤5.2,双向递归层分别从正向和反向来学习文本序列信息并输出,正向递归层用来处理一个正向语句的每一个单词的文本特征,反向递归层则是用来处理颠倒后的语句序列的每一个单词的文本特征,公式如下:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
其中,R()代表递归层,w(t)为时刻t的文本特征,r(t)和r(t-1)分别为双向递归层在时刻t和t-1的输出;
步骤5.3,步骤5.2的输出、步骤4.2中得到的one-hot形式的文本特征向量和步骤4.4中改良后的视觉特征输入至多模态层中进行处理,公式为
Figure DEST_PATH_IMAGE003
其中,
Figure DEST_PATH_IMAGE004
分别为对应时刻的单词的文本特征,
Figure DEST_PATH_IMAGE005
分别为对应时刻的改良后的视觉特征,
Figure DEST_PATH_IMAGE006
分别为双向递归层对应时刻的隐藏状态,f()为ReLU激活函数;
步骤5.4,多模态层的输出结果输入到一个softmax层进行分类,输出为步骤2中得到的词汇表中的各个单词的概率大小,从中选择概率最大的单词作为最终的结果,包括正向和反向两个结果,正向则该单词为输入单词的后一个单词,反向则该单词为输入单词的前一个单词;
步骤5.5,将两个方向上的每个单词连接起来,得到正向和反向两个句子,分别求出这两个句子中各个单词的概率和作为对应语句的概率,根据两个语句的概率,选取较大的结果作为最终的描述语句,公式如下:
Figure DEST_PATH_IMAGE007
其中,wt为时刻t的单词,w0:t-1为从开始时刻到时刻t-1的单词,wt+1:T为从时刻t+1到结束时刻的单词;
步骤5.6,使用步骤1中的数据集对网络模型进行训练并达到收敛得到模型中所有层的权重参数,保证在给定数据集中图像视觉特征的前提下,得到图像对应句子的概率最大,公式为
Figure DEST_PATH_IMAGE008
公式中,I为图像的特征,S为该图像对应的语句,θ为训练得到的模型中所有层的参数。
CN201710528814.6A 2017-07-01 2017-07-01 一种双向多模态递归网络的图像描述方法 Expired - Fee Related CN107391609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710528814.6A CN107391609B (zh) 2017-07-01 2017-07-01 一种双向多模态递归网络的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710528814.6A CN107391609B (zh) 2017-07-01 2017-07-01 一种双向多模态递归网络的图像描述方法

Publications (2)

Publication Number Publication Date
CN107391609A CN107391609A (zh) 2017-11-24
CN107391609B true CN107391609B (zh) 2020-07-31

Family

ID=60333944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710528814.6A Expired - Fee Related CN107391609B (zh) 2017-07-01 2017-07-01 一种双向多模态递归网络的图像描述方法

Country Status (1)

Country Link
CN (1) CN107391609B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009154B (zh) * 2017-12-20 2021-01-05 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN107977472B (zh) * 2017-12-27 2021-11-05 北京诸葛找房信息技术有限公司 房产类新闻文章自动生成的方法
CN108376558B (zh) * 2018-01-24 2021-08-20 复旦大学 一种多模态核磁共振影像病历报告自动生成方法
CN110072142B (zh) * 2018-01-24 2020-06-02 腾讯科技(深圳)有限公司 视频描述生成方法、装置、视频播放方法、装置和存储介质
CN108665950B (zh) * 2018-04-16 2022-04-01 首都医科大学附属北京同仁医院 基于卷积神经网络生成结构化医学影像报告的方法和系统
CN110555805B (zh) * 2018-05-31 2022-05-31 杭州海康威视数字技术股份有限公司 图像处理的方法、装置、设备及存储介质
CN108921166A (zh) * 2018-06-22 2018-11-30 深源恒际科技有限公司 基于深度神经网络的医疗票据类文本检测识别方法及系统
CN109033304B (zh) * 2018-07-17 2022-05-03 西安电子科技大学 基于在线深层主题模型的多模态检索方法
CN109472298B (zh) * 2018-10-19 2021-06-01 天津大学 用于小尺度目标检测的深度双向特征金字塔增强网络
CN109712108B (zh) * 2018-11-05 2021-02-02 杭州电子科技大学 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN110135473B (zh) * 2019-04-25 2021-03-30 暗物智能科技(广州)有限公司 图像描述模型中奖赏及图像描述模型的构建方法
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法
CN110222222B (zh) * 2019-06-18 2022-12-27 西安电子科技大学 基于深层主题自编码模型的多模态检索方法
CN111753078B (zh) * 2019-07-12 2024-02-02 北京京东尚科信息技术有限公司 图像段落描述生成方法、装置、介质及电子设备
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN111291558B (zh) * 2020-01-17 2023-05-02 合肥工业大学 一种基于非成对学习的图像描述自动评价方法
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105893354A (zh) * 2016-05-03 2016-08-24 成都数联铭品科技有限公司 一种基于双向递归神经网络的分词方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN105893354A (zh) * 2016-05-03 2016-08-24 成都数联铭品科技有限公司 一种基于双向递归神经网络的分词方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法

Also Published As

Publication number Publication date
CN107391609A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107391609B (zh) 一种双向多模态递归网络的图像描述方法
CN107239801B (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN111259804B (zh) 一种基于图卷积的多模态融合手语识别系统及方法
CN111260740A (zh) 一种基于生成对抗网络的文本到图像生成方法
CN110489567B (zh) 一种基于跨网络特征映射的节点信息获取方法及其装置
WO2021082086A1 (zh) 机器阅读方法、系统、装置及存储介质
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及系统
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
KR20230152741A (ko) 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습
CN109543176A (zh) 一种基于图向量表征的丰富短文本语义方法及装置
CN116244416A (zh) 生成式大语言模型训练方法、基于模型的人机语音交互方法
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN112541347A (zh) 一种基于预训练模型的机器阅读理解方法
CN117149952A (zh) 一种基于aigc的多场景内容生成系统
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN114049501A (zh) 融合集束搜索的图像描述生成方法、系统、介质及设备
CN114329025A (zh) 基于对抗生成网络的跨模态文本到图像生成方法
CN113065324A (zh) 一种基于结构化三元组和锚定模板的文本生成方法及装置
CN110750669B (zh) 一种图像字幕生成的方法及系统
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN110136226B (zh) 一种基于图像组协同描述生成的新闻自动配图方法
CN105206267B (zh) 一种融合非确定性反馈的语音识别错误修正方法及系统
Fan et al. Long-term recurrent merge network model for image captioning
CN115905852A (zh) 基于预训练提示的故事生成方法、系统、存储介质和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Tang Jinhui

Inventor after: Fan Chunxiao

Inventor after: Shu Yanwu

Inventor before: Tang Jinhui

Inventor before: Shu Yanwu

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221027

Address after: Room 1413, Building 7, Xinghu 101 Plaza, No. 1101 Xinghu Avenue, Development Zone, Nantong City, Jiangsu Province, 226010

Patentee after: Nantong Zebra Intelligent Technology Co.,Ltd.

Address before: 210094 No. 200, Xiaolingwei, Jiangsu, Nanjing

Patentee before: NANJING University OF SCIENCE AND TECHNOLOGY

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200731