CN110909736A - 一种基于长短期记忆模型与目标检测算法的图像描述方法 - Google Patents

一种基于长短期记忆模型与目标检测算法的图像描述方法 Download PDF

Info

Publication number
CN110909736A
CN110909736A CN201911098782.6A CN201911098782A CN110909736A CN 110909736 A CN110909736 A CN 110909736A CN 201911098782 A CN201911098782 A CN 201911098782A CN 110909736 A CN110909736 A CN 110909736A
Authority
CN
China
Prior art keywords
target
model
gate
lstm
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911098782.6A
Other languages
English (en)
Other versions
CN110909736B (zh
Inventor
高逸凡
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911098782.6A priority Critical patent/CN110909736B/zh
Publication of CN110909736A publication Critical patent/CN110909736A/zh
Application granted granted Critical
Publication of CN110909736B publication Critical patent/CN110909736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于长短期记忆模型与目标检测算法的图像描述方法。该方法利用深度学习的基本理论,使用目标检测模型Faster‑RCNN对图片中各目标的主要特征进行提取,使用多个带有Attention机制的长短期记忆模型对Faster‑RCNN中提取到的信息进行解码,生成初步的描述语句,然后使用目标检测模型生成的图像内目标的类别和Attention机制来调整描述语句中的名词,从而进一步完善描述语句,生成对图像的最终描述。本发明所使用的方法提高了生成的描述语句与图片的相关度,增加了描述语句的准确性。

Description

一种基于长短期记忆模型与目标检测算法的图像描述方法
技术领域
本发明属于深度学习中图像描述生成领域,具体涉及一种基于长短期记忆模型与目标检测算法的图像描述方法。
背景技术
图像是人类社会活动中最常用的信息载体,其中蕴含了丰富的信息。随着互联网技术的发展及数码设备的普及,图像数据增长迅速,使用纯人工手段对图像内容鉴别已成为一项艰难的工作。因此,如何通过计算机自动提取图像所表达的信息,已成为图像理解领域的研究热点。图像描述生成是融合了自然语言处理和计算机视觉的一项较为综合的任务,目的是将视觉图像和语言文字联系起来,通过对所输入的图像进行特征提取分析,自动生成一段关于图像内容的文字描述,图像描述生成能够完成从图像到文本信息的转换,可以应用到图像检索,机器人问答,辅助儿童教育及导盲等多个领域,对图像描述生成的研究具有重要的现实意义。
所谓图像描述技术,其核心是在图像处理分析的基础上,结合计算机视觉和自然语言处理等相关理论,进而分析、理解图像内容,并以文本语义信息的形式反馈给人类。因此计算机对图像内容理解的完成不仅需要图像标注,还需要图像描述。图像描述的任务是使用自然语言处理技术分析并产生标注词,进而将生成的标注词组合为自然语言的描述语句。近年来,图像描述得到了研究界的极大兴趣,比起传统的图像标注工作,它具有更广阔的应用前景。
图像描述生成克服了人类主观认识的固有限制,借助计算机软件从一幅或多幅图像序列中生成与图像内容相关的文字描述。图像描述的质量主要取决于以下两个方面:一是对图像中所包含物体及场景的识别能力;二是对物体间相互联系等信息的认知程度。按照图像描述模型的不同,图像描述的方法可以分为三类:基于模板的方法,该方法生成的图像描述依赖于模板类型,形式也较为单一;基于检索的方法,依赖于数据集中现存的描述语句,无法生成较为新颖的图像描述;基于神经网络的方法,将卷积神经网络(ConvolutionalNeural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)相结合,使用端对端的方法训练模型,利用CNN提取特征的优势和RNN处理文字序列的优势,共同指导图像文字描述的生成。此类方法是目前比较先进的图像描述生成方法,该方法克服了图像描述生成过程中生成的句式过于简单,输出严重依赖现存语句模板的问题,可以生成语法流畅,句式复杂多变的描述语句,但与此同时,却带来了新的问题:图像描述生成的描述语句与图片的关联度有所下降。所以本发明设计了一种新的图像描述模型,在之前端对端的Encoder-Decoder结构的基础上融合了图像目标检测算法,使生成的描述中所有的名词均依赖于目标检测结果,从而提高了生成描述与原图像的关联度。
发明内容
本发明的研究内容为:设计一种结合了编码器-解码器结构和图像目标检测算法的图像描述模型,并训练此模型使其可以用来生成相应的语言描述。具体结构如图1所示。模型主要通过目标检测算法提取图像中各目标区域的特征和全图的特征,然后通过循环神经网络在目标检测算法生成的所有目标区域中选择一个或多个目标区域作为描述中下一个词汇生成的依据,然后将其输入到相关语言模型中,生成相应的词汇。
本发明构建的图像中文描述模型主要由以下几个部分构成:
1.基于深度学习图像目标检测的编码模块;
本发明选择Faster-RCNN作为目标检测模型,在结构上,Faster-RCNN已经将特征提取(feature extraction),候选目标区域(proposal region)提取整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。本发明取目标检测模型Faster-RCNN中ROI Pooling层输出的各目标候选区域特征图vi及其对应的类别标签li作为对图片中含有的数据的初步提取,在下文的解码模块中,将会对提取到的数据进行解码,生成描述语句;
2.基于LSTM的图像目标区域选择及目标词汇生成的解码模块;
模型解码模块中大量使用到了LSTM(Long Short-Term Memory)模型。LSTM是一种特殊的RNN,常见的LSTM结构如图3所示,共包括3种门(Gate):遗忘门f、输入门i和输出门o。在t时刻,LSTM中的状态通过下列公式计算:
遗忘门:ft=σ(Wf[ht-1,xt]+bf) (1)
输入门:it=σ(Wi[ht-1,xt]+bi) (2)
Figure BDA0002269186360000021
细胞状态:
Figure BDA0002269186360000022
隐含层:ht=ot×tanh(Ct) (5)
输出层:ot=σ(Wo[ht-1,xt]+bo) (6)其中ht,ht-1,Ct,Ct-1分别表示t时刻与t-1时刻的隐含层h与细胞状态C的值,ft,ft-1,it,it-1,ot,ot-1分别表示t时刻与t-1时刻的遗忘门f、输入门i和输出门o的值,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来的权重(weight),Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的权重,bf,bi,bo为遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的偏置(bias),
Figure BDA0002269186360000031
为更新细胞状态Ct的过程中产生的中间变量,其权重Wc与偏置bc同样需要使用反向传播算法来进行学习。在每一个时刻,三种门都由上一时刻的隐藏层ht-1和当前层xt通过非线性变换得到。根据遗忘门ft和输入门it,可以确定当前的细胞状态Ct,进而利用输出门ot来更新隐藏层ht
解码模块主要结构如图4所示,模块主要由两个LSTM模块和两个Attention模块构成,两个LSTM模型分别为Attention LSTM和Language LSTM。Attention LSTM的输入
Figure BDA0002269186360000032
包含了目标特征的平均值
Figure BDA0002269186360000033
上一次输出的单词的编码∏t及上次language LSTM的隐含层,其具体计算过程如式7,8,9所示。
Figure BDA0002269186360000034
Figure BDA0002269186360000035
其中k表示目标检测产生的所有目标候选区域特征图的数目,vi表示第i个目标的特征向量,
Figure BDA0002269186360000036
表示目标特征的平均值,∏t为模型输出的前一时刻单词的编码,
Figure BDA0002269186360000037
为Language LSTM在t-1时刻的隐藏层值,We为该阶段反向传播算法与要学习的权重。
Figure BDA0002269186360000038
表示本模型用到的第一个Attention机制的输入。
经过Attention LSTM处理后,将Attention LSTM的隐含层
Figure BDA0002269186360000039
作为输入第一个Attention模块中,利用
Figure BDA00022691863600000310
调整并融合每个目标特征vi生成
Figure BDA00022691863600000311
第一个Attention模块的具体计算过程如式9,10,11,12所示。
Figure BDA00022691863600000312
Figure BDA00022691863600000313
αt=softmax(at) (11)
Figure BDA00022691863600000314
其中vi表示第i个目标的特征向量,
Figure BDA00022691863600000315
表示Attention LSTM在t时刻的隐含层向量,
Figure BDA00022691863600000316
Wva,Wha是用于调整vi
Figure BDA00022691863600000317
的权重矩阵,需要在反向传播算法中学习得出,ai,t表示每个目标的特征向量在本次预测中对预测结果产生影响的程度,经过softmax运算后,得到一组向量αt用于融合各个目标的权重,利用αt生成t时刻模型关注的特征
Figure BDA00022691863600000318
将Attention模块中,对生成词汇影响最大的目标特征(即最大的αi,t)对应的目标类别lab作为候选名词将其进行编码,编码结果为y1,计算过程如式13,14,15所示。
Figure BDA00022691863600000319
lab=li_max (14)
y1=Word Embedding(lab) (15)
其中i_max为αt向量中最大值的角标,li_max为各目标特征图的类别标签中角标值为i_max的标签,y1表示li_max标签的编码。
语言LSTM的输入
Figure BDA0002269186360000041
包含前面Attention模块的输出
Figure BDA0002269186360000042
和Attention LSTM的隐含层
Figure BDA0002269186360000043
计算过程如式15所示。将语言模块的输出结果
Figure BDA0002269186360000044
输入softmax层,得到一个对应的词汇编码y2。
Figure BDA0002269186360000045
Figure BDA0002269186360000046
Figure BDA0002269186360000047
使用模型中的第二个Attention模块,利用
Figure BDA0002269186360000048
对y1与y2进行融合,得到最终输出词汇y。具体过程如图4所示。
1.损失函数
本发明在训练过程中,采用的损失函数形式如式16所示。
Figure BDA0002269186360000049
其中T表示训练集或测试集内模型输入的图片对应的描述语句的长度,
Figure BDA00022691863600000410
表示描述语句中第1个单词到第t-1个单词的单词序列。
Figure BDA00022691863600000411
表示训练集中的第t个单词,
Figure BDA00022691863600000412
是解码模块的在前t-1个单词为
Figure BDA00022691863600000413
的情况下,输出的第t个单词为
Figure BDA00022691863600000414
的概率。通过最小化公式中的LXE(θ)函数来训练模型,模型整体流程如图5所示。
附图说明
图1为本发明方法的结构图。
图2为本发明方法中依附的Faster-RCNN结构图。
图3为本发明方法所依附的LSTM结构图。
图4为解码器结构图。
图5为整体流程图。
图6为模型预测效果。
具体实施方式
本发明主要的内容为基于深度学习的目标检测算法在图像描述中的应用。主要内容是构建一个结合了Attention机制的神经网络模型来进行图像描述,为了避免生成的描述语句与原图像关联度较低,将基于深度学习的目标检测算法与模型相结合,来提高生成的描述语句与原图像的关联度。本发明的实施主要分为以下三个步骤来进行:
1.数据集的收集。
本发明英文数据集选取通用图像理解/描述生成的竞赛数据集MS COCO数据集,数据集中有20G左右的图片和500M左右的标签文件。标签文件标记了每个图片中个目标的精确坐标,及其英文描述,其位置精度均为小数点后两位。
2.数据预处理。
本发明的图片数据在预处理过程中将所有的图片缩放并裁剪为512x512大小的图片,并且使用Faster-RCNN对COCO数据集中的所有的图片进行目标检测;将Faster-RCNN在目标检测过程中产生的ROI-Pooling层对图片中各目标的候选区域特征图及各目标对应的类别储存起来,作为后续训练解码器时的输入使用。本发明所采用的英文语料因为语言特征,单词有空格作为间隔,不需要进行分词处理。可以直接将文本语料进行数据建模处理,将语料字符串转换成数据向量。
3.模型的实现与训练
本发明采用基于Python语言的深度学习框架PyTorch来完成模型的构建。训练模型采用的硬件环境及软件环境如表1,表2所示。
表1实验硬件环境
Figure BDA0002269186360000051
表2实验软件环境
操作系统版本 Ubuntu 18.04.3 LTS
内核版本 Linux 4.15.0
NVIDIA(R)Cuda版本 V9.0.176
PytTorch版本 0.4
Python版本 3.6.4
在解码模块训练前,神经网络中所有的偏置(bias)均初始化为0,权重(weight)均按照Xavier初始化方式进行初始化。具体公式如式17所示。其中Wi表示神经网络第i层的权重,ni表示第i层的神经元个数,ni+1表示第i+1层的神经元个数,U表示变量Wi服从
Figure BDA0002269186360000052
Figure BDA0002269186360000053
的均匀分布。
Figure BDA0002269186360000054
本发明采取增强学习的方法进行训练模型,首先依据解码模块中Language LSTM输出的y2进行预训练,预训练采用的batch-size的范围在16-128之间,推荐使用32;epoch为20次。经过预训练,模型Language LSTM的输出在测试集中的BLEU-4(BilingualEvaluation understudy)为0.307。
预训练结束后,开始对整个模型进行训练,整个训练的batch-size的范围在16-128之间,推荐使用64,epoch为80次。模型的训练速率γ的范围为0.001-0.04之间,推荐使用0.02。本模型在训练过程中采取Dropout方法来避免出现模型的过拟合现象,Dropout率推荐使用0.5。训练完成后图像描述模型预测效果如图6所示。
本发明分别采用BLEU(Bilingual Evaluation understudy),ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation),METEOR,CIDEr(Consensus-basedImage Description Evaluation)算法对图像描述生成的结果进行评价,在训练结束后,模型预测的准确率与其他模型的对比如表3所示。由表3可以看出,相对于其他模型,本模型在各项评价标准下均有不同程度的提升。
表3各图像描述模型描述能力对比
算法 BLEU-1 BLEU-4 ROUGE_L METEOR CIDEr
mRNN 0.670 0.240 - - -
GoogleNIC - 0.277 0.237 - 0.855
DeepVS 0.625 0.230 0.195 - 0.660
Top-down 0.800 0.366 0.268 0.569 1.158
本文算法 0.827 0.394 0.271 0.582 1.174

Claims (2)

1.一种基于长短期记忆模型与目标检测算法的图像描述方法,其特征在于:提取图像中各目标区域的特征和全图的特征,然后通过循环神经网络在目标检测算法生成的所有目标区域中选择一个或多个目标区域作为描述中下一个词汇生成的依据,然后将其输入到相关语言模型中,生成相应的词汇。
2.根据权利要求1所述的方法,构建的图像描述模型由以下几个部分构成:
1)基于深度学习图像目标检测的编码模块;
选择Faster-RCNN作为目标检测模型,在结构上,Faster-RCNN已经将特征提取(feature extraction),候选目标区域(proposal region)提取整合在了一个网络中;取目标检测模型Faster-RCNN中ROIPooling层输出的各目标候选区域特征图vi及其对应的类别标签li作为对图片中含有的数据的初步提取,在下文的解码模块中,将会对提取到的数据进行解码,生成描述语句;
2)基于LSTM的图像目标区域选择及目标词汇生成的解码模块;
模型解码模块中使用到了LSTM模型;共包括3种门Gate:遗忘门f、输入门i和输出门o;在t时刻,LSTM中的状态通过下列公式计算:
遗忘门:ft=σ(Wf[ht-1,xt]+bf) (1)
输入门:it=σ(Wi[ht-1,xt]+bi) (2)
Figure FDA0002269186350000011
细胞状态:
Figure FDA0002269186350000012
隐含层:ht=ot×tanh(Ct) (5)
输出层:ot=σ(Wo[ht-1,xt]+bo) (6)
其中ht,ht-1,Ct,Ct-1分别表示t时刻与t-1时刻的隐含层h与细胞状态C的值,ft,ft-1,it,it-1,ot,ot-1分别表示t时刻与t-1时刻的遗忘门f、输入门i和输出门o的值,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来的权重,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的权重,bf,bi,bo为遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的偏置,
Figure FDA0002269186350000013
为更新细胞状态Ct的过程中产生的中间变量,其权重Wc与偏置bc同样需要使用反向传播算法来进行学习;在每一个时刻,三种门都由上一时刻的隐藏层ht-1和当前层xt通过非线性变换得到;根据遗忘门ft和输入门it,确定当前的细胞状态Ct,进而利用输出门ot来更新隐藏层ht
解码模块由两个LSTM模块和两个Attention模块构成,两个LSTM模型分别为AttentionLSTM和Language LSTM;Attention LSTM的输入
Figure FDA0002269186350000021
包含了目标特征的平均值
Figure FDA00022691863500000215
上一次输出的单词的编码∏t及上次language LSTM的隐含层,其具体计算过程如式7,8所示;
Figure FDA0002269186350000022
Figure FDA0002269186350000023
其中k表示目标检测产生的所有目标候选区域特征图的数目,vi表示第i个目标的特征向量,
Figure FDA0002269186350000024
表示目标特征的平均值,∏t为模型输出的前一时刻单词的编码,
Figure FDA0002269186350000025
为LanguageLSTM在t-1时刻的隐藏层值,We为该阶段反向传播算法与要学习的权重;
Figure FDA00022691863500000216
表示本模型用到的第一个Attention机制的输入;
经过Attention LSTM处理后,将Attention LSTM的隐含层
Figure FDA0002269186350000026
作为输入第一个Attention模块中
Figure FDA0002269186350000027
利用调整并融合每个目标特征vi生成
Figure FDA0002269186350000028
第一小Attention模块的具体计算过程如式9,10,11,12所示;
Figure FDA0002269186350000029
Figure FDA00022691863500000210
αt=softmax(at) (11)
Figure FDA00022691863500000211
其中vi表示第i个目标的特征向量,
Figure FDA00022691863500000212
表示Attention LSTM在t时刻的隐含层向量,
Figure FDA00022691863500000213
Wva,Wha是用于调整vi
Figure FDA00022691863500000214
的权重矩阵,需要在反向传播算法中学习得出,ai,t表示每个目标的特征向量在本次预测中对预测结果产生影响的程度,经过softmax运算后,得到一组向量αt用于融合各个目标的权重,利用αt生成t时刻模型关注的特征
Figure FDA00022691863500000217
将Attention模块中,对生成词汇影响最大的目标特征即最大的αi,t对应的目标类别lab作为候选名词将其进行编码,编码结果为y1,计算过程如式13,14,15所示;
Figure FDA0002269186350000031
lab=li_max (14)
y1=Word Embedding(lab) (15)
其中i_max为αt向量中最大值的角标,li_max为各目标特征图的类别标签中角标值为i_max的标签,y1表示li_max标签的编码;
语言LSTM的输入
Figure FDA0002269186350000032
包含前面Attention模块的输出
Figure FDA0002269186350000033
和Attention LSTM的隐含层
Figure FDA0002269186350000034
计算过程如式16,17,18所示;将语言模块的输出结果
Figure FDA0002269186350000035
输入softmax层,得到一个对应的词汇编码y2;
Figure FDA0002269186350000036
Figure FDA0002269186350000037
Figure FDA0002269186350000038
使用模型中的第二个Attention模块,利用
Figure FDA0002269186350000039
对y1与y2进行融合,得到最终输出词汇y;
1)损失函数
在训练过程中,采用的损失函数形式如式19所示;
Figure FDA00022691863500000310
其中T表示训练集或测试集内模型输入的图片对应的描述语句的长度,
Figure FDA00022691863500000311
表示描述语句中第1个单词到第t-1个单词的单词序列;
Figure FDA00022691863500000312
表示训练集中的第t个单词,
Figure FDA00022691863500000313
是解码模块的在前t-1个单词为
Figure FDA00022691863500000314
的情况下,输出的第t个单词为
Figure FDA00022691863500000315
的概率;通过最小化公式中的LXE(θ)函数来训练模型。
CN201911098782.6A 2019-11-12 2019-11-12 一种基于长短期记忆模型与目标检测算法的图像描述方法 Active CN110909736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911098782.6A CN110909736B (zh) 2019-11-12 2019-11-12 一种基于长短期记忆模型与目标检测算法的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911098782.6A CN110909736B (zh) 2019-11-12 2019-11-12 一种基于长短期记忆模型与目标检测算法的图像描述方法

Publications (2)

Publication Number Publication Date
CN110909736A true CN110909736A (zh) 2020-03-24
CN110909736B CN110909736B (zh) 2024-07-16

Family

ID=69816652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911098782.6A Active CN110909736B (zh) 2019-11-12 2019-11-12 一种基于长短期记忆模型与目标检测算法的图像描述方法

Country Status (1)

Country Link
CN (1) CN110909736B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200268A (zh) * 2020-11-04 2021-01-08 福州大学 一种基于编码器-解码器框架的图像描述方法
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112712130A (zh) * 2021-01-13 2021-04-27 清华大学 视觉理解模型训练方法、装置、计算机设备和存储介质
CN113159071A (zh) * 2021-04-20 2021-07-23 复旦大学 一种跨模态图像-文本关联异常检测方法
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN114169410A (zh) * 2021-11-22 2022-03-11 哈尔滨工业大学 一种基于长短期记忆模型的探地雷达地下空洞目标自动识别方法
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
CN114781393A (zh) * 2022-04-20 2022-07-22 平安科技(深圳)有限公司 图像描述生成方法和装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108765383A (zh) * 2018-03-22 2018-11-06 山西大学 基于深度迁移学习的视频描述方法
CN110046271A (zh) * 2019-03-22 2019-07-23 中国科学院西安光学精密机械研究所 一种基于声音指导的遥感图像描述方法
WO2019149071A1 (zh) * 2018-01-30 2019-08-08 华为技术有限公司 目标检测的方法、装置及系统
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN110390363A (zh) * 2019-07-29 2019-10-29 上海海事大学 一种图像描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
WO2019149071A1 (zh) * 2018-01-30 2019-08-08 华为技术有限公司 目标检测的方法、装置及系统
CN108765383A (zh) * 2018-03-22 2018-11-06 山西大学 基于深度迁移学习的视频描述方法
CN110046271A (zh) * 2019-03-22 2019-07-23 中国科学院西安光学精密机械研究所 一种基于声音指导的遥感图像描述方法
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN110390363A (zh) * 2019-07-29 2019-10-29 上海海事大学 一种图像描述方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449564B (zh) * 2020-03-26 2022-09-06 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN112200268A (zh) * 2020-11-04 2021-01-08 福州大学 一种基于编码器-解码器框架的图像描述方法
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112712130B (zh) * 2021-01-13 2022-06-10 清华大学 视觉理解模型训练方法、装置、计算机设备和存储介质
CN112712130A (zh) * 2021-01-13 2021-04-27 清华大学 视觉理解模型训练方法、装置、计算机设备和存储介质
CN113159071B (zh) * 2021-04-20 2022-06-21 复旦大学 一种跨模态图像-文本关联异常检测方法
CN113159071A (zh) * 2021-04-20 2021-07-23 复旦大学 一种跨模态图像-文本关联异常检测方法
CN113283248B (zh) * 2021-04-29 2022-06-21 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN114169410A (zh) * 2021-11-22 2022-03-11 哈尔滨工业大学 一种基于长短期记忆模型的探地雷达地下空洞目标自动识别方法
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
CN114691858B (zh) * 2022-03-15 2023-10-03 电子科技大学 一种基于改进的unilm摘要生成方法
CN114781393A (zh) * 2022-04-20 2022-07-22 平安科技(深圳)有限公司 图像描述生成方法和装置、电子设备及存储介质
CN114781393B (zh) * 2022-04-20 2023-05-26 平安科技(深圳)有限公司 图像描述生成方法和装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110909736B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
CN110909736A (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN109902298B (zh) 一种自适应学习系统中领域知识建模及知识水平估测方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN111008293A (zh) 基于结构化语义表示的视觉问答方法
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN111090981B (zh) 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统
CN110555084A (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN109284361A (zh) 一种基于深度学习的实体抽取方法及系统
CN112487820A (zh) 一种中文医疗命名实体识别方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取系统和方法
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN117609536A (zh) 基于语言引导的指称表达理解推理网络系统及推理方法
Poghosyan et al. Short-term memory with read-only unit in neural image caption generator
CN113239678A (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN114969343B (zh) 结合相对位置信息的弱监督文本分类方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant