CN110033008B - 一种基于模态变换与文本归纳的图像描述生成方法 - Google Patents
一种基于模态变换与文本归纳的图像描述生成方法 Download PDFInfo
- Publication number
- CN110033008B CN110033008B CN201910357364.8A CN201910357364A CN110033008B CN 110033008 B CN110033008 B CN 110033008B CN 201910357364 A CN201910357364 A CN 201910357364A CN 110033008 B CN110033008 B CN 110033008B
- Authority
- CN
- China
- Prior art keywords
- sub
- word
- image
- short
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000009466 transformation Effects 0.000 title claims abstract description 18
- 230000006698 induction Effects 0.000 title claims abstract description 14
- 230000015654 memory Effects 0.000 claims abstract description 49
- 230000000007 visual effect Effects 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 235000019987 cider Nutrition 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002853 ongoing effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于模态变换与文本归纳的图像描述生成方法,该方法包括以下步骤:1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述。与现有技术相比,本发明具有准确度高等优点。
Description
技术领域
本发明涉及图像理解领域,尤其是涉及一种基于模态变换与文本归纳的图像描述生成方法。
背景技术
图像标题生成是一项极具挑战性的工作,在婴幼儿早期教育、视觉障碍辅助、人机交互等领域具有广泛的应用前景。它结合了自然语言处理与计算机视觉两个领域,将一副自然图像使用自然语言的形式描述出来,或者说将图像翻译成自然语言。它首先要求系统能够准确理解图像中的内容,如识别出图像中的场景、各种对象、对象的属性、正在发生的动作及对象之间的关系等;然后根据语法规则及语言结构,生成人们能够理解的句子。
人们已提出多种方法来解决这一难题,包括基于模板的方法、基于语义迁移的方法,基于神经机器翻译的方法及混合方法等。随着深度学习技术,尤其是CNN技术在语言识别和视觉领域连续取得突破,目前基于神经机器翻译及其与其他视觉技术混合的方法已成为解决该问题的主流。这类方法考虑了CNN模型能够提取抽象性及表达能力更强的图像特征,能够为后续的语言生成模型提供可靠的可视化信息。但这些方法过于依赖前期的视觉技术,处理过程复杂,对系统后端生成句子的语言模型优化不足;但当前的主流模型主要存在可解释性不佳的问题,此外,生成的文本描述还存在缺乏层次性、准确率较低、语义信息模糊等问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确度更高的基于模态变换与文本归纳的图像描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于模态变换与文本归纳的图像描述生成方法,该方法包括以下步骤:
1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;
2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;
3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;
4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;
5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述。
进一步地,所述步骤1)具体包括:
对图像进行大小缩放后输入卷积神经网络,提取视觉特征,计算各候选框置信度;
选择置信度最高前n个候选框作为感兴趣区域,形成子块,保存各子块的视觉特征及框位置信息。
进一步地,所述文本描述中,每个单词采用One-Hot方式进行编码。
进一步地,所述步骤2)具体为:
将所述视觉特征作为第一长短时记忆模型的第一时间步的输入,后续时间步的输入为上一时间步的输出,将最后一个时间步的输出作为该子块的语义特征;
采用Softmax函数获得语义特征在每个单词上的概率分值,生成对应的文本描述。
进一步地,所述步骤3)具体为:
将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量;
将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入;
将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。
进一步地,所述步骤4)具体为:
按所述置信度由高到低对各子块进行排序;
将描述后各子块的语义特征依次作为双向层级长短时记忆模型各时间步的输入;
将最后一个时间步的前向输出与后向输出取均值作为各子块描述的融合语义特征。
进一步地,所述步骤5)具体为:
将第三长短时记忆模型最后一个时间步的输出输入分类层,采用Softmax函数输出该特征在每个单词上的概率值;
对于每个时间步,取其概率最大值所对应的单词作为该时间步的输出,所有时间步输出单词串联作为待描述图像的文本描述。
进一步地,所述第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练时采用的损失函数为:
θ1为CNN网络参数集合,θ2为LSTM网络参数集合,2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,/>为第k张图像对应的描述参考句子的第t个单词,/>为生成的第k张图像的第t个单词,/>为输入的第k张图像,/>为第k张图像的参考句子的第t-1个单词。
与现有技术相比,本发明具有以如下有益效果:
(1)本发明采用基于卷积神经网络的目标识别算法模型Faster-RCNN进行图片视觉特征提取,综合性能尤其是检测速度和准确性方面有极大提高;
(2)本发明将视觉特征到文本特征的转换与文本特征融合这两部分分别操作,使模型更易于训练,各子块准确率更高。
(3)本发明构建深度LSTM网络,采用联合训练的方式将CNN网络和LSTM网络进行联合优化,提高了语句的表达能力,LSTM模型也解决了长期依赖带来的梯度消失问题;
(4)本发明采用双向层级长短时记忆模型Bi-LSTM,解决了LSTM模型网络在生成文本描述时忽略词的上下文含义的问题,兼顾文本序列全局特征,提高了特征融合模型在文本分类的准确率。
附图说明
图1为本发明的主要步骤流程示意图;
图2为LSTM单元的内部结构图;
图3为LSTM网络模型示意图;
图4为Bi-LSTM网络模型示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于模态变换与文本归纳的图像描述生成方法,如图1所示,包括步骤:
步骤1:使用基于卷积神经网络的目标识别模型(Faster-RCNN模型),将图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征。
本实施例中,具体过程包括:
11)将图像描述数据集MSCOCO中的图像缩放至256×256大小,并输入Faster-RCNN模型,将VGG-16网络的第五个卷积层的输出作为视觉特征;
12)计算各候选框置信度,选择置信度最高前n个候选框作为该图像的感兴趣区域,保存其视觉特征及候选框的坐标,n可取30。
步骤2:使用第一长短时记忆模型(LSTM)对每个子块的视觉信息进行解码,通过将视觉信息转换为语义信息实现模态变换,生成该子块的文本描述。
本实施例中,第一长短时记忆模型的构建过程包括:
21)构建LSTM网络中的LSTM单元如图2所示,其中:
ht=ot⊙Tanh(ct)
其中,w和b为待训练参数,xt为当前时刻t的输入,ht-1为上一时刻t-1的隐层特征,i为输入门,f为遗忘门,o为输出门,c为记忆信息,σ和Tanh为激活函数。
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长度为16,隐层单元个数为512;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度,对于MSCOCO数据集,单词表长度为10020;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度为512。
子块的文本描述的生成过程为:将每个感兴趣区域(子块)的视觉特征作为LSTM网络的第一时间步的输入,后续时间步的输入为上一时间步的输出,将最后一个时间步的输出作为该感兴趣区域的语义特征;将语义特征输入到Softmax分类层,并采用Softmax函数输出该特征在每个单词上的概率分值,生成文本描述,其隐层输出为单词表大小。
步骤3:使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取该子块的语义特征。
本实施例中,具体步骤包括:将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量;将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入;将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。
步骤4:使用双向层级长短时记忆模型(Bi-LSTM网络)融合各子块的语义特征。
本实施例中构建的Bi-LSTM网络如图4所示,Bi-LSTM网络中的LSTM单元如图2所示,设置有输入门、输出门、遗忘门和记忆单元。
本实施例中,融合各子块的语义特征具体步骤包括:根据子块的分类置信度进行由高到低排序;将排序后的语义特征依次作为Bi-LSTM的各时间步输入;将Bi-LSTM最后一个时间步的前向输出与后向输出取均值作为各感兴趣区域文本描述的融合语义特征。
步骤5:使用第三长短时记忆模型(生成文本LSTM网络)对测试数据中的图像进行文本描述生成。
本实施例中构建的生成文本LSTM网络如图3所示,生成文本LSTM网络中的LSTM单元如图2所示,设置有输入门、输出门、遗忘门和记忆单元。
本实施例中,文本描述生成的具体步骤包括:
将LSTM最后一个时间步的输出输入分类层,采用Softmax函数输出该特征在每个单词上的概率值;将当前特征的所有概率分值使用乘法原理进行融合,具体为:
其中,表示CNN特征/>在时刻属于第k个单词的概率,/>表示LSTM网络中在t时刻第j个阶段的特征输出;
对于t时刻,取所有概率值最大者所对应的单词作为最终输出,具体为:
其中,θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为输入图像,为k张图像对应文本描述中的第t个单词。
本实施例中,基于卷积神经网络的目标识别模型和第一长短时记忆模型在visualgenome数据集上进行预训练,第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型在MSCOCO数据集上训练。
第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练的步骤包括:
31)将MSCOCO数据集分为训练集和测试集;
32)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差,并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和,具体表示为:
其中,为全体实数集合,O为最优参数集合。θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子。
则系统目标为迭代优化(θ1,θ2),使得损失函数最小。其中系统损失函数/>可表示为:
θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,/>为第k张图像对应的描述参考句子的第t个单词,/>为生成的第k张图像的第t个单词,/>为输入的第k张图像,/>为第k张图像的参考句子的第t-1个单词。
33)使用链式法则逐层计算误差,并将其回传至整个模型的底层,采用梯度下降的算法,对参数进行更新;
其中α表示学习率。
34)将误差回传到CNN网络中,将每条句子中每个单词的误差进行求和,并逐层向前传递,完成优化。
本发明的另一实施例中,还提供一种基于模态变换与文本归纳的图像描述生成装置,包括处理器和存储器,所述存储器保存有计算机程序,所述处理器调用计算机程序执行如上所述的基于模态变换与文本归纳的图像描述生成方法的步骤。
为了验证本申请方法的性能,设计了以下实验。
在公开数据集MSCOCO上使用本方法进行训练以及测试,使用BLEU、METEOR、ROUGE_L和CIDEr标准来对生成的句子进行评价。在MSCOCO数据集上,其训练集有113287张图像,验证集和验证集各有5000张图像,每张图像有5条以上人工标注的参考句子,结果如表1所示。
表1本发明在MSCOCO数据集上性能表现
方法 | B-1 | B-2 | B-3 | B-4 | METEOR | ROUGE_L | CIDEr |
基准模型 | 70.0 | 52.5 | 38.2 | 27.7 | 24.0 | 51.6 | 88.0 |
本发明 | 71.5 | 55.3 | 41.8 | 31.6 | 25.1 | 53.2 | 98.2 |
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (5)
1.一种基于模态变换与文本归纳的图像描述生成方法,其特征在于,该方法包括以下步骤:
1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;
2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;
3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;
4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;
5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述;
所述步骤1)具体包括:
对图像进行大小缩放后输入卷积神经网络,提取视觉特征,计算各候选框置信度;
选择置信度最高前n个候选框作为感兴趣区域,形成子块,保存各子块的视觉特征及框位置信息;
所述步骤4)具体为:
按所述置信度由高到低对各子块进行排序;
将排序后各子块的语义特征依次作为双向层级长短时记忆模型各时间步的输入;
将最后一个时间步的前向输出与后向输出取均值作为各子块描述的融合语义特征;
所述第一长短时记忆模型的构建过程包括:
21)构建LSTM网络中的LSTM单元,其中:
ht=Ot⊙Tanh(ct)
其中,w和b为待训练参数,xt为当前时刻t的输入,ht-1为上一时刻t-1的隐层特征,i为输入门,f为遗忘门,o为输出门,c为记忆信息,σ和Tanh为激活函数;
22)获取数据集中描述参考句子的平均长度,并设置每层LSTM的时间步长度为16,隐层单元个数为512;
23)对单词表中的每个单词采用One-Hot方式进行编码,编码维度为单词表的长度,对于MSCOCO数据集,单词表长度为10020;
24)将描述参考句子中每个单词的One-Hot编码映射为一个嵌入式向量,并设置向量维度为512;
所述第二长短时记忆模型、双向层级长短时记忆模型和第三长短时记忆模型训练的步骤包括:
31)将MSCOCO数据集分为训练集和测试集;
32)使用交叉熵函数计算网络输出的每个单词与实际值之间的误差,并对每张图像中生成句子的每个单词与所有参考句子中单词的误差进行求和,具体表示为:
其中,为全体实数集合,O为最优参数集合,θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子;
则系统目标为迭代优化(θ1,θ2),使得损失函数最小,其中系统损失函数/>表示为:
θ1为CNN网络参数集合,θ2为LSTM网络参数集合,X2为图像描述数据集中的输入图像,S为与X2对应的描述参考句子,f表示系统函数,为损失函数,N2为训练LSTM网络时,一次迭代中所使用的样本总数,Lk为第k个样本所对应的参考句子的长度,/>为第k张图像对应的描述参考句子的第t个单词,/>为生成的第k张图像的第t个单词,/>为输入的第k张图像,为第k张图像的参考句子的第t-1个单词;
33)使用链式法则逐层计算误差,并将其回传至整个模型的底层,采用梯度下降的算法,对参数进行更新;
其中α表示学习率;
34)将误差回传到CNN网络中,将每条句子中每个单词的误差进行求和,并逐层向前传递,完成优化。
2.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述文本描述中,每个单词采用One-Hot方式进行编码。
3.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述步骤2)具体为:
将所述视觉特征作为第一长短时记忆模型的第一时间步的输入,后续时间步的输入为上一时间步的输出,将最后一个时间步的输出作为该子块的语义特征;
采用Softmax函数获得语义特征在每个单词上的概率分值,生成对应的文本描述。
4.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述步骤3)具体为:
将文本描述的每个单词的One-Hot编码映射为一个嵌入式向量;
将每个单词对应的嵌入式向量依次作为第二长短时记忆模型每个时间步的输入;
将第二长短时记忆模型最后一个时间步的输出作为该文本描述的语义特征。
5.根据权利要求1所述的基于模态变换与文本归纳的图像描述生成方法,其特征在于,所述步骤5)具体为:
将第三长短时记忆模型最后一个时间步的输出输入分类层,采用Softmax函数输出该特征在每个单词上的概率值;
对于每个时间步,取其概率最大值所对应的单词作为该时间步的输出,所有时间步输出单词串联作为待描述图像的文本描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910357364.8A CN110033008B (zh) | 2019-04-29 | 2019-04-29 | 一种基于模态变换与文本归纳的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910357364.8A CN110033008B (zh) | 2019-04-29 | 2019-04-29 | 一种基于模态变换与文本归纳的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110033008A CN110033008A (zh) | 2019-07-19 |
CN110033008B true CN110033008B (zh) | 2023-08-04 |
Family
ID=67240908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910357364.8A Active CN110033008B (zh) | 2019-04-29 | 2019-04-29 | 一种基于模态变换与文本归纳的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033008B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472642B (zh) * | 2019-08-19 | 2022-02-01 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110909181A (zh) * | 2019-09-30 | 2020-03-24 | 中国海洋大学 | 一种面向多类型海洋数据的跨模态检索方法及系统 |
CN111523534B (zh) * | 2020-03-31 | 2022-04-05 | 华东师范大学 | 一种图像描述的方法 |
CN111553371B (zh) * | 2020-04-17 | 2023-04-18 | 中国矿业大学 | 一种基于多特征提取的图像语义描述方法及系统 |
CN111897939B (zh) * | 2020-08-12 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 视觉对话方法、视觉对话模型的训练方法、装置及设备 |
CN112528989B (zh) * | 2020-12-01 | 2022-10-18 | 重庆邮电大学 | 一种图像语义细粒度的描述生成方法 |
CN113269253B (zh) * | 2021-05-26 | 2023-08-22 | 大连民族大学 | 视频描述中视觉特征融合语义检测方法及系统 |
CN114387430B (zh) * | 2022-01-11 | 2024-05-28 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN114581906B (zh) * | 2022-05-06 | 2022-08-05 | 山东大学 | 自然场景图像的文本识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN107203775A (zh) * | 2016-03-18 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 一种图像分类的方法、装置和设备 |
CN107683469A (zh) * | 2015-12-30 | 2018-02-09 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的产品分类方法及装置 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003096669A2 (en) * | 2002-05-10 | 2003-11-20 | Reisman Richard R | Method and apparatus for browsing using multiple coordinated device |
-
2019
- 2019-04-29 CN CN201910357364.8A patent/CN110033008B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107683469A (zh) * | 2015-12-30 | 2018-02-09 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的产品分类方法及装置 |
CN107203775A (zh) * | 2016-03-18 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 一种图像分类的方法、装置和设备 |
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110033008A (zh) | 2019-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN106650789B (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN110111399B (zh) | 一种基于视觉注意力的图像文本生成方法 | |
CN108052512B (zh) | 一种基于深度注意力机制的图像描述生成方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN109992780B (zh) | 一种基于深度神经网络特定目标情感分类方法 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN111008293A (zh) | 基于结构化语义表示的视觉问答方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN111444367B (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN109815485B (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
CN110516240B (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN111680684A (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN114220095A (zh) | 一种基于实例分割的图像语义描述改进方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |