CN110033008B - 一种基于模态变换与文本归纳的图像描述生成方法 - Google Patents

一种基于模态变换与文本归纳的图像描述生成方法 Download PDF

Info

Publication number
CN110033008B
CN110033008B CN201910357364.8A CN201910357364A CN110033008B CN 110033008 B CN110033008 B CN 110033008B CN 201910357364 A CN201910357364 A CN 201910357364A CN 110033008 B CN110033008 B CN 110033008B
Authority
CN
China
Prior art keywords
sub
word
image
short
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910357364.8A
Other languages
English (en)
Other versions
CN110033008A (zh
Inventor
王瀚漓
王含章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910357364.8A priority Critical patent/CN110033008B/zh
Publication of CN110033008A publication Critical patent/CN110033008A/zh
Application granted granted Critical
Publication of CN110033008B publication Critical patent/CN110033008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于模态变换与文本归纳的图像描述生成方法,该方法包括以下步骤:1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述。与现有技术相比,本发明具有准确度高等优点。

Description

一种基于模态变换与文本归纳的图像描述生成方法
技术领域
本发明涉及图像理解领域,尤其是涉及一种基于模态变换与文本归纳的图像描述生成方法。
背景技术
图像标题生成是一项极具挑战性的工作,在婴幼儿早期教育、视觉障碍辅助、人机交互等领域具有广泛的应用前景。它结合了自然语言处理与计算机视觉两个领域,将一副自然图像使用自然语言的形式描述出来,或者说将图像翻译成自然语言。它首先要求系统能够准确理解图像中的内容,如识别出图像中的场景、各种对象、对象的属性、正在发生的动作及对象之间的关系等;然后根据语法规则及语言结构,生成人们能够理解的句子。
人们已提出多种方法来解决这一难题,包括基于模板的方法、基于语义迁移的方法,基于神经机器翻译的方法及混合方法等。随着深度学习技术,尤其是CNN技术在语言识别和视觉领域连续取得突破,目前基于神经机器翻译及其与其他视觉技术混合的方法已成为解决该问题的主流。这类方法考虑了CNN模型能够提取抽象性及表达能力更强的图像特征,能够为后续的语言生成模型提供可靠的可视化信息。但这些方法过于依赖前期的视觉技术,处理过程复杂,对系统后端生成句子的语言模型优化不足;但当前的主流模型主要存在可解释性不佳的问题,此外,生成的文本描述还存在缺乏层次性、准确率较低、语义信息模糊等问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确度更高的基于模态变换与文本归纳的图像描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于模态变换与文本归纳的图像描述生成方法,该方法包括以下步骤:
1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;
2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;
3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;
4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;
5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述。
进一步地,所述步骤1)具体包括:
对图像进行大小缩放后输入卷积神经网络,提取视觉特征,计算各候选框置信度;
选择置信度最高前n个候选框作为感兴趣区域,形成子块,保存各子块的视觉特征及框位置信息。
进一步地,所述文本描述中,每个单词采用One-Hot方式进行编码。
进一步地,所述步骤2)具体为:
将所述视觉特征作为第一长短时记忆模型的第一时间步的输入,后续时间步的输入为上一时间步的输出,将最后一个时间步的输出作为该子块的语义特征;
采用Softmax函数获得语义特征在每个单词上的概率分值,生成对应的文本描述。
进一步地,所述步骤3)具体为:
将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量;
将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入;
将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。
进一步地,所述步骤4)具体为:
按所述置信度由高到低对各子块进行排序;
将描述后各子块的语义特征依次作为双向层级长短时记忆模型各时间步的输入;
将最后一个时间步的前向输出与后向输出取均值作为各子块描述的融合语义特征。
进一步地,所述步骤5)具体为:
将第三长短时记忆模型最后一个时间步的输出输入分类层,采用Softmax函数输出该特征在每个单词上的概率值;
对于每个时间步,取其概率最大值所对应的单词作为该时间步的输出,所有时间步输出单词串联作为待描述图像的文本描述。
进一步地,所述第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练时采用的损失函数为:
θ1为CNN网络参数集合,θ2为LSTM网络参数集合,2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,/>为第k张图像对应的描述参考句子的第t个单词,/>为生成的第k张图像的第t个单词,/>为输入的第k张图像,/>为第k张图像的参考句子的第t-1个单词。
与现有技术相比,本发明具有以如下有益效果:
(1)本发明采用基于卷积神经网络的目标识别算法模型Faster-RCNN进行图片视觉特征提取,综合性能尤其是检测速度和准确性方面有极大提高;
(2)本发明将视觉特征到文本特征的转换与文本特征融合这两部分分别操作,使模型更易于训练,各子块准确率更高。
(3)本发明构建深度LSTM网络,采用联合训练的方式将CNN网络和LSTM网络进行联合优化,提高了语句的表达能力,LSTM模型也解决了长期依赖带来的梯度消失问题;
(4)本发明采用双向层级长短时记忆模型Bi-LSTM,解决了LSTM模型网络在生成文本描述时忽略词的上下文含义的问题,兼顾文本序列全局特征,提高了特征融合模型在文本分类的准确率。
附图说明
图1为本发明的主要步骤流程示意图;
图2为LSTM单元的内部结构图;
图3为LSTM网络模型示意图;
图4为Bi-LSTM网络模型示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于模态变换与文本归纳的图像描述生成方法,如图1所示,包括步骤:
步骤1:使用基于卷积神经网络的目标识别模型(Faster-RCNN模型),将图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征。
本实施例中,具体过程包括:
11)将图像描述数据集MSCOCO中的图像缩放至256×256大小,并输入Faster-RCNN模型,将VGG-16网络的第五个卷积层的输出作为视觉特征;
12)计算各候选框置信度,选择置信度最高前n个候选框作为该图像的感兴趣区域,保存其视觉特征及候选框的坐标,n可取30。
步骤2:使用第一长短时记忆模型(LSTM)对每个子块的视觉信息进行解码,通过将视觉信息转换为语义信息实现模态变换,生成该子块的文本描述。
本实施例中,第一长短时记忆模型的构建过程包括:
21)构建LSTM网络中的LSTM单元如图2所示,其中:
ht=ot⊙Tanh(ct)
其中,w和b为待训练参数,xt为当前时刻t的输入,ht-1为上一时刻t-1的隐层特征,i为输入门,f为遗忘门,o为输出门,c为记忆信息,σ和Tanh为激活函数。
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长度为16,隐层单元个数为512;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度,对于MSCOCO数据集,单词表长度为10020;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度为512。
子块的文本描述的生成过程为:将每个感兴趣区域(子块)的视觉特征作为LSTM网络的第一时间步的输入,后续时间步的输入为上一时间步的输出,将最后一个时间步的输出作为该感兴趣区域的语义特征;将语义特征输入到Softmax分类层,并采用Softmax函数输出该特征在每个单词上的概率分值,生成文本描述,其隐层输出为单词表大小。
步骤3:使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取该子块的语义特征。
本实施例中,具体步骤包括:将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量;将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入;将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。
步骤4:使用双向层级长短时记忆模型(Bi-LSTM网络)融合各子块的语义特征。
本实施例中构建的Bi-LSTM网络如图4所示,Bi-LSTM网络中的LSTM单元如图2所示,设置有输入门、输出门、遗忘门和记忆单元。
本实施例中,融合各子块的语义特征具体步骤包括:根据子块的分类置信度进行由高到低排序;将排序后的语义特征依次作为Bi-LSTM的各时间步输入;将Bi-LSTM最后一个时间步的前向输出与后向输出取均值作为各感兴趣区域文本描述的融合语义特征。
步骤5:使用第三长短时记忆模型(生成文本LSTM网络)对测试数据中的图像进行文本描述生成。
本实施例中构建的生成文本LSTM网络如图3所示,生成文本LSTM网络中的LSTM单元如图2所示,设置有输入门、输出门、遗忘门和记忆单元。
本实施例中,文本描述生成的具体步骤包括:
将LSTM最后一个时间步的输出输入分类层,采用Softmax函数输出该特征在每个单词上的概率值;将当前特征的所有概率分值使用乘法原理进行融合,具体为:
其中,表示CNN特征/>在时刻属于第k个单词的概率,/>表示LSTM网络中在t时刻第j个阶段的特征输出;
对于t时刻,取所有概率值最大者所对应的单词作为最终输出,具体为:
其中,θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为输入图像,为k张图像对应文本描述中的第t个单词。
本实施例中,基于卷积神经网络的目标识别模型和第一长短时记忆模型在visualgenome数据集上进行预训练,第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型在MSCOCO数据集上训练。
第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练的步骤包括:
31)将MSCOCO数据集分为训练集和测试集;
32)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差,并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和,具体表示为:
其中,为全体实数集合,O为最优参数集合。θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子。
则系统目标为迭代优化(θ12),使得损失函数最小。其中系统损失函数/>可表示为:
θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,/>为第k张图像对应的描述参考句子的第t个单词,/>为生成的第k张图像的第t个单词,/>为输入的第k张图像,/>为第k张图像的参考句子的第t-1个单词。
33)使用链式法则逐层计算误差,并将其回传至整个模型的底层,采用梯度下降的算法,对参数进行更新;
其中α表示学习率。
34)将误差回传到CNN网络中,将每条句子中每个单词的误差进行求和,并逐层向前传递,完成优化。
本发明的另一实施例中,还提供一种基于模态变换与文本归纳的图像描述生成装置,包括处理器和存储器,所述存储器保存有计算机程序,所述处理器调用计算机程序执行如上所述的基于模态变换与文本归纳的图像描述生成方法的步骤。
为了验证本申请方法的性能,设计了以下实验。
在公开数据集MSCOCO上使用本方法进行训练以及测试,使用BLEU、METEOR、ROUGE_L和CIDEr标准来对生成的句子进行评价。在MSCOCO数据集上,其训练集有113287张图像,验证集和验证集各有5000张图像,每张图像有5条以上人工标注的参考句子,结果如表1所示。
表1本发明在MSCOCO数据集上性能表现
方法 B-1 B-2 B-3 B-4 METEOR ROUGE_L CIDEr
基准模型 70.0 52.5 38.2 27.7 24.0 51.6 88.0
本发明 71.5 55.3 41.8 31.6 25.1 53.2 98.2
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (5)

1.一种基于模态变换与文本归纳的图像描述生成方法,其特征在于,该方法包括以下步骤:
1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;
2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;
3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;
4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;
5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述;
所述步骤1)具体包括:
对图像进行大小缩放后输入卷积神经网络,提取视觉特征,计算各候选框置信度;
选择置信度最高前n个候选框作为感兴趣区域,形成子块,保存各子块的视觉特征及框位置信息;
所述步骤4)具体为:
按所述置信度由高到低对各子块进行排序;
将排序后各子块的语义特征依次作为双向层级长短时记忆模型各时间步的输入;
将最后一个时间步的前向输出与后向输出取均值作为各子块描述的融合语义特征;
所述第一长短时记忆模型的构建过程包括:
21)构建LSTM网络中的LSTM单元,其中:
ht=Ot⊙Tanh(ct)
其中,w和b为待训练参数,xt为当前时刻t的输入,ht-1为上一时刻t-1的隐层特征,i为输入门,f为遗忘门,o为输出门,c为记忆信息,σ和Tanh为激活函数;
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长度为16,隐层单元个数为512;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度,对于MSCOCO数据集,单词表长度为10020;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度为512;
所述第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练的步骤包括:
31)将MSCOCO数据集分为训练集和测试集;
32)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差,并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和,具体表示为:
其中,为全体实数集合,O为最优参数集合,θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子;
则系统目标为迭代优化(θ12),使得损失函数最小,其中系统损失函数/>表示为:
θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,/>为第k张图像对应的描述参考句子的第t个单词,/>为生成的第k张图像的第t个单词,/>为输入的第k张图像,为第k张图像的参考句子的第t-1个单词;
33)使用链式法则逐层计算误差,并将其回传至整个模型的底层,采用梯度下降的算法,对参数进行更新;
其中α表示学习率;
34)将误差回传到CNN网络中,将每条句子中每个单词的误差进行求和,并逐层向前传递,完成优化。
2.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述文本描述中,每个单词采用One-Hot方式进行编码。
3.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述步骤2)具体为:
将所述视觉特征作为第一长短时记忆模型的第一时间步的输入,后续时间步的输入为上一时间步的输出,将最后一个时间步的输出作为该子块的语义特征;
采用Softmax函数获得语义特征在每个单词上的概率分值,生成对应的文本描述。
4.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述步骤3)具体为:
将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量;
将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入;
将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。
5.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述步骤5)具体为:
将第三长短时记忆模型最后一个时间步的输出输入分类层,采用Softmax函数输出该特征在每个单词上的概率值;
对于每个时间步,取其概率最大值所对应的单词作为该时间步的输出,所有时间步输出单词串联作为待描述图像的文本描述。
CN201910357364.8A 2019-04-29 2019-04-29 一种基于模态变换与文本归纳的图像描述生成方法 Active CN110033008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910357364.8A CN110033008B (zh) 2019-04-29 2019-04-29 一种基于模态变换与文本归纳的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910357364.8A CN110033008B (zh) 2019-04-29 2019-04-29 一种基于模态变换与文本归纳的图像描述生成方法

Publications (2)

Publication Number Publication Date
CN110033008A CN110033008A (zh) 2019-07-19
CN110033008B true CN110033008B (zh) 2023-08-04

Family

ID=67240908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910357364.8A Active CN110033008B (zh) 2019-04-29 2019-04-29 一种基于模态变换与文本归纳的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN110033008B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN111523534B (zh) * 2020-03-31 2022-04-05 华东师范大学 一种图像描述的方法
CN111553371B (zh) * 2020-04-17 2023-04-18 中国矿业大学 一种基于多特征提取的图像语义描述方法及系统
CN111897939B (zh) * 2020-08-12 2024-02-02 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN113269253B (zh) * 2021-05-26 2023-08-22 大连民族大学 视频描述中视觉特征融合语义检测方法及系统
CN114387430B (zh) * 2022-01-11 2024-05-28 平安科技(深圳)有限公司 基于人工智能的图像描述生成方法、装置、设备及介质
CN114581906B (zh) * 2022-05-06 2022-08-05 山东大学 自然场景图像的文本识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN107203775A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 一种图像分类的方法、装置和设备
CN107683469A (zh) * 2015-12-30 2018-02-09 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003239385A1 (en) * 2002-05-10 2003-11-11 Richard R. Reisman Method and apparatus for browsing using multiple coordinated device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107683469A (zh) * 2015-12-30 2018-02-09 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN107203775A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 一种图像分类的方法、装置和设备
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法

Also Published As

Publication number Publication date
CN110033008A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN109992780B (zh) 一种基于深度神经网络特定目标情感分类方法
CN111008293A (zh) 基于结构化语义表示的视觉问答方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116028604A (zh) 一种基于知识增强图卷积网络的答案选择方法及系统
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN114220095A (zh) 一种基于实例分割的图像语义描述改进方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant