CN110909736A - 一种基于长短期记忆模型与目标检测算法的图像描述方法 - Google Patents
一种基于长短期记忆模型与目标检测算法的图像描述方法 Download PDFInfo
- Publication number
- CN110909736A CN110909736A CN201911098782.6A CN201911098782A CN110909736A CN 110909736 A CN110909736 A CN 110909736A CN 201911098782 A CN201911098782 A CN 201911098782A CN 110909736 A CN110909736 A CN 110909736A
- Authority
- CN
- China
- Prior art keywords
- target
- model
- gate
- lstm
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 230000015654 memory Effects 0.000 title claims description 4
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 abstract description 3
- 230000007787 long-term memory Effects 0.000 abstract 2
- 210000004027 cell Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于长短期记忆模型与目标检测算法的图像描述方法。该方法利用深度学习的基本理论,使用目标检测模型Faster‑RCNN对图片中各目标的主要特征进行提取,使用多个带有Attention机制的长短期记忆模型对Faster‑RCNN中提取到的信息进行解码,生成初步的描述语句,然后使用目标检测模型生成的图像内目标的类别和Attention机制来调整描述语句中的名词,从而进一步完善描述语句,生成对图像的最终描述。本发明所使用的方法提高了生成的描述语句与图片的相关度,增加了描述语句的准确性。
Description
技术领域
本发明属于深度学习中图像描述生成领域,具体涉及一种基于长短期记忆模型与目标检测算法的图像描述方法。
背景技术
图像是人类社会活动中最常用的信息载体,其中蕴含了丰富的信息。随着互联网技术的发展及数码设备的普及,图像数据增长迅速,使用纯人工手段对图像内容鉴别已成为一项艰难的工作。因此,如何通过计算机自动提取图像所表达的信息,已成为图像理解领域的研究热点。图像描述生成是融合了自然语言处理和计算机视觉的一项较为综合的任务,目的是将视觉图像和语言文字联系起来,通过对所输入的图像进行特征提取分析,自动生成一段关于图像内容的文字描述,图像描述生成能够完成从图像到文本信息的转换,可以应用到图像检索,机器人问答,辅助儿童教育及导盲等多个领域,对图像描述生成的研究具有重要的现实意义。
所谓图像描述技术,其核心是在图像处理分析的基础上,结合计算机视觉和自然语言处理等相关理论,进而分析、理解图像内容,并以文本语义信息的形式反馈给人类。因此计算机对图像内容理解的完成不仅需要图像标注,还需要图像描述。图像描述的任务是使用自然语言处理技术分析并产生标注词,进而将生成的标注词组合为自然语言的描述语句。近年来,图像描述得到了研究界的极大兴趣,比起传统的图像标注工作,它具有更广阔的应用前景。
图像描述生成克服了人类主观认识的固有限制,借助计算机软件从一幅或多幅图像序列中生成与图像内容相关的文字描述。图像描述的质量主要取决于以下两个方面:一是对图像中所包含物体及场景的识别能力;二是对物体间相互联系等信息的认知程度。按照图像描述模型的不同,图像描述的方法可以分为三类:基于模板的方法,该方法生成的图像描述依赖于模板类型,形式也较为单一;基于检索的方法,依赖于数据集中现存的描述语句,无法生成较为新颖的图像描述;基于神经网络的方法,将卷积神经网络(ConvolutionalNeural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)相结合,使用端对端的方法训练模型,利用CNN提取特征的优势和RNN处理文字序列的优势,共同指导图像文字描述的生成。此类方法是目前比较先进的图像描述生成方法,该方法克服了图像描述生成过程中生成的句式过于简单,输出严重依赖现存语句模板的问题,可以生成语法流畅,句式复杂多变的描述语句,但与此同时,却带来了新的问题:图像描述生成的描述语句与图片的关联度有所下降。所以本发明设计了一种新的图像描述模型,在之前端对端的Encoder-Decoder结构的基础上融合了图像目标检测算法,使生成的描述中所有的名词均依赖于目标检测结果,从而提高了生成描述与原图像的关联度。
发明内容
本发明的研究内容为:设计一种结合了编码器-解码器结构和图像目标检测算法的图像描述模型,并训练此模型使其可以用来生成相应的语言描述。具体结构如图1所示。模型主要通过目标检测算法提取图像中各目标区域的特征和全图的特征,然后通过循环神经网络在目标检测算法生成的所有目标区域中选择一个或多个目标区域作为描述中下一个词汇生成的依据,然后将其输入到相关语言模型中,生成相应的词汇。
本发明构建的图像中文描述模型主要由以下几个部分构成:
1.基于深度学习图像目标检测的编码模块;
本发明选择Faster-RCNN作为目标检测模型,在结构上,Faster-RCNN已经将特征提取(feature extraction),候选目标区域(proposal region)提取整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。本发明取目标检测模型Faster-RCNN中ROI Pooling层输出的各目标候选区域特征图vi及其对应的类别标签li作为对图片中含有的数据的初步提取,在下文的解码模块中,将会对提取到的数据进行解码,生成描述语句;
2.基于LSTM的图像目标区域选择及目标词汇生成的解码模块;
模型解码模块中大量使用到了LSTM(Long Short-Term Memory)模型。LSTM是一种特殊的RNN,常见的LSTM结构如图3所示,共包括3种门(Gate):遗忘门f、输入门i和输出门o。在t时刻,LSTM中的状态通过下列公式计算:
遗忘门:ft=σ(Wf[ht-1,xt]+bf) (1)
输入门:it=σ(Wi[ht-1,xt]+bi) (2)
隐含层:ht=ot×tanh(Ct) (5)
输出层:ot=σ(Wo[ht-1,xt]+bo) (6)其中ht,ht-1,Ct,Ct-1分别表示t时刻与t-1时刻的隐含层h与细胞状态C的值,ft,ft-1,it,it-1,ot,ot-1分别表示t时刻与t-1时刻的遗忘门f、输入门i和输出门o的值,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来的权重(weight),Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的权重,bf,bi,bo为遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的偏置(bias),为更新细胞状态Ct的过程中产生的中间变量,其权重Wc与偏置bc同样需要使用反向传播算法来进行学习。在每一个时刻,三种门都由上一时刻的隐藏层ht-1和当前层xt通过非线性变换得到。根据遗忘门ft和输入门it,可以确定当前的细胞状态Ct,进而利用输出门ot来更新隐藏层ht。
解码模块主要结构如图4所示,模块主要由两个LSTM模块和两个Attention模块构成,两个LSTM模型分别为Attention LSTM和Language LSTM。Attention LSTM的输入包含了目标特征的平均值上一次输出的单词的编码∏t及上次language LSTM的隐含层,其具体计算过程如式7,8,9所示。
其中k表示目标检测产生的所有目标候选区域特征图的数目,vi表示第i个目标的特征向量,表示目标特征的平均值,∏t为模型输出的前一时刻单词的编码,为Language LSTM在t-1时刻的隐藏层值,We为该阶段反向传播算法与要学习的权重。表示本模型用到的第一个Attention机制的输入。
经过Attention LSTM处理后,将Attention LSTM的隐含层作为输入第一个Attention模块中,利用调整并融合每个目标特征vi生成第一个Attention模块的具体计算过程如式9,10,11,12所示。
αt=softmax(at) (11)
其中vi表示第i个目标的特征向量,表示Attention LSTM在t时刻的隐含层向量,Wva,Wha是用于调整vi与的权重矩阵,需要在反向传播算法中学习得出,ai,t表示每个目标的特征向量在本次预测中对预测结果产生影响的程度,经过softmax运算后,得到一组向量αt用于融合各个目标的权重,利用αt生成t时刻模型关注的特征
将Attention模块中,对生成词汇影响最大的目标特征(即最大的αi,t)对应的目标类别lab作为候选名词将其进行编码,编码结果为y1,计算过程如式13,14,15所示。
lab=li_max (14)
y1=Word Embedding(lab) (15)
其中i_max为αt向量中最大值的角标,li_max为各目标特征图的类别标签中角标值为i_max的标签,y1表示li_max标签的编码。
1.损失函数
本发明在训练过程中,采用的损失函数形式如式16所示。
其中T表示训练集或测试集内模型输入的图片对应的描述语句的长度,表示描述语句中第1个单词到第t-1个单词的单词序列。表示训练集中的第t个单词,是解码模块的在前t-1个单词为的情况下,输出的第t个单词为的概率。通过最小化公式中的LXE(θ)函数来训练模型,模型整体流程如图5所示。
附图说明
图1为本发明方法的结构图。
图2为本发明方法中依附的Faster-RCNN结构图。
图3为本发明方法所依附的LSTM结构图。
图4为解码器结构图。
图5为整体流程图。
图6为模型预测效果。
具体实施方式
本发明主要的内容为基于深度学习的目标检测算法在图像描述中的应用。主要内容是构建一个结合了Attention机制的神经网络模型来进行图像描述,为了避免生成的描述语句与原图像关联度较低,将基于深度学习的目标检测算法与模型相结合,来提高生成的描述语句与原图像的关联度。本发明的实施主要分为以下三个步骤来进行:
1.数据集的收集。
本发明英文数据集选取通用图像理解/描述生成的竞赛数据集MS COCO数据集,数据集中有20G左右的图片和500M左右的标签文件。标签文件标记了每个图片中个目标的精确坐标,及其英文描述,其位置精度均为小数点后两位。
2.数据预处理。
本发明的图片数据在预处理过程中将所有的图片缩放并裁剪为512x512大小的图片,并且使用Faster-RCNN对COCO数据集中的所有的图片进行目标检测;将Faster-RCNN在目标检测过程中产生的ROI-Pooling层对图片中各目标的候选区域特征图及各目标对应的类别储存起来,作为后续训练解码器时的输入使用。本发明所采用的英文语料因为语言特征,单词有空格作为间隔,不需要进行分词处理。可以直接将文本语料进行数据建模处理,将语料字符串转换成数据向量。
3.模型的实现与训练
本发明采用基于Python语言的深度学习框架PyTorch来完成模型的构建。训练模型采用的硬件环境及软件环境如表1,表2所示。
表1实验硬件环境
表2实验软件环境
操作系统版本 | Ubuntu 18.04.3 LTS |
内核版本 | Linux 4.15.0 |
NVIDIA(R)Cuda版本 | V9.0.176 |
PytTorch版本 | 0.4 |
Python版本 | 3.6.4 |
在解码模块训练前,神经网络中所有的偏置(bias)均初始化为0,权重(weight)均按照Xavier初始化方式进行初始化。具体公式如式17所示。其中Wi表示神经网络第i层的权重,ni表示第i层的神经元个数,ni+1表示第i+1层的神经元个数,U表示变量Wi服从到的均匀分布。
本发明采取增强学习的方法进行训练模型,首先依据解码模块中Language LSTM输出的y2进行预训练,预训练采用的batch-size的范围在16-128之间,推荐使用32;epoch为20次。经过预训练,模型Language LSTM的输出在测试集中的BLEU-4(BilingualEvaluation understudy)为0.307。
预训练结束后,开始对整个模型进行训练,整个训练的batch-size的范围在16-128之间,推荐使用64,epoch为80次。模型的训练速率γ的范围为0.001-0.04之间,推荐使用0.02。本模型在训练过程中采取Dropout方法来避免出现模型的过拟合现象,Dropout率推荐使用0.5。训练完成后图像描述模型预测效果如图6所示。
本发明分别采用BLEU(Bilingual Evaluation understudy),ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation),METEOR,CIDEr(Consensus-basedImage Description Evaluation)算法对图像描述生成的结果进行评价,在训练结束后,模型预测的准确率与其他模型的对比如表3所示。由表3可以看出,相对于其他模型,本模型在各项评价标准下均有不同程度的提升。
表3各图像描述模型描述能力对比
算法 | BLEU-1 | BLEU-4 | ROUGE_L | METEOR | CIDEr |
mRNN | 0.670 | 0.240 | - | - | - |
GoogleNIC | - | 0.277 | 0.237 | - | 0.855 |
DeepVS | 0.625 | 0.230 | 0.195 | - | 0.660 |
Top-down | 0.800 | 0.366 | 0.268 | 0.569 | 1.158 |
本文算法 | 0.827 | 0.394 | 0.271 | 0.582 | 1.174 |
Claims (2)
1.一种基于长短期记忆模型与目标检测算法的图像描述方法,其特征在于:提取图像中各目标区域的特征和全图的特征,然后通过循环神经网络在目标检测算法生成的所有目标区域中选择一个或多个目标区域作为描述中下一个词汇生成的依据,然后将其输入到相关语言模型中,生成相应的词汇。
2.根据权利要求1所述的方法,构建的图像描述模型由以下几个部分构成:
1)基于深度学习图像目标检测的编码模块;
选择Faster-RCNN作为目标检测模型,在结构上,Faster-RCNN已经将特征提取(feature extraction),候选目标区域(proposal region)提取整合在了一个网络中;取目标检测模型Faster-RCNN中ROIPooling层输出的各目标候选区域特征图vi及其对应的类别标签li作为对图片中含有的数据的初步提取,在下文的解码模块中,将会对提取到的数据进行解码,生成描述语句;
2)基于LSTM的图像目标区域选择及目标词汇生成的解码模块;
模型解码模块中使用到了LSTM模型;共包括3种门Gate:遗忘门f、输入门i和输出门o;在t时刻,LSTM中的状态通过下列公式计算:
遗忘门:ft=σ(Wf[ht-1,xt]+bf) (1)
输入门:it=σ(Wi[ht-1,xt]+bi) (2)
隐含层:ht=ot×tanh(Ct) (5)
输出层:ot=σ(Wo[ht-1,xt]+bo) (6)
其中ht,ht-1,Ct,Ct-1分别表示t时刻与t-1时刻的隐含层h与细胞状态C的值,ft,ft-1,it,it-1,ot,ot-1分别表示t时刻与t-1时刻的遗忘门f、输入门i和输出门o的值,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来的权重,Wf,Wi,Wo分别表示遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的权重,bf,bi,bo为遗忘门f、输入门i和输出门o需要利用反向传播算法来更新的偏置,为更新细胞状态Ct的过程中产生的中间变量,其权重Wc与偏置bc同样需要使用反向传播算法来进行学习;在每一个时刻,三种门都由上一时刻的隐藏层ht-1和当前层xt通过非线性变换得到;根据遗忘门ft和输入门it,确定当前的细胞状态Ct,进而利用输出门ot来更新隐藏层ht;
解码模块由两个LSTM模块和两个Attention模块构成,两个LSTM模型分别为AttentionLSTM和Language LSTM;Attention LSTM的输入包含了目标特征的平均值上一次输出的单词的编码∏t及上次language LSTM的隐含层,其具体计算过程如式7,8所示;
其中k表示目标检测产生的所有目标候选区域特征图的数目,vi表示第i个目标的特征向量,表示目标特征的平均值,∏t为模型输出的前一时刻单词的编码,为LanguageLSTM在t-1时刻的隐藏层值,We为该阶段反向传播算法与要学习的权重;表示本模型用到的第一个Attention机制的输入;
经过Attention LSTM处理后,将Attention LSTM的隐含层作为输入第一个Attention模块中利用调整并融合每个目标特征vi生成第一小Attention模块的具体计算过程如式9,10,11,12所示;
αt=softmax(at) (11)
其中vi表示第i个目标的特征向量,表示Attention LSTM在t时刻的隐含层向量,Wva,Wha是用于调整vi与的权重矩阵,需要在反向传播算法中学习得出,ai,t表示每个目标的特征向量在本次预测中对预测结果产生影响的程度,经过softmax运算后,得到一组向量αt用于融合各个目标的权重,利用αt生成t时刻模型关注的特征
将Attention模块中,对生成词汇影响最大的目标特征即最大的αi,t对应的目标类别lab作为候选名词将其进行编码,编码结果为y1,计算过程如式13,14,15所示;
lab=li_max (14)
y1=Word Embedding(lab) (15)
其中i_max为αt向量中最大值的角标,li_max为各目标特征图的类别标签中角标值为i_max的标签,y1表示li_max标签的编码;
1)损失函数
在训练过程中,采用的损失函数形式如式19所示;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098782.6A CN110909736B (zh) | 2019-11-12 | 2019-11-12 | 一种基于长短期记忆模型与目标检测算法的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098782.6A CN110909736B (zh) | 2019-11-12 | 2019-11-12 | 一种基于长短期记忆模型与目标检测算法的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909736A true CN110909736A (zh) | 2020-03-24 |
CN110909736B CN110909736B (zh) | 2024-07-16 |
Family
ID=69816652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911098782.6A Active CN110909736B (zh) | 2019-11-12 | 2019-11-12 | 一种基于长短期记忆模型与目标检测算法的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909736B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200268A (zh) * | 2020-11-04 | 2021-01-08 | 福州大学 | 一种基于编码器-解码器框架的图像描述方法 |
CN112529857A (zh) * | 2020-12-03 | 2021-03-19 | 重庆邮电大学 | 基于目标检测与策略梯度的超声图像诊断报告生成方法 |
CN112712130A (zh) * | 2021-01-13 | 2021-04-27 | 清华大学 | 视觉理解模型训练方法、装置、计算机设备和存储介质 |
CN113159071A (zh) * | 2021-04-20 | 2021-07-23 | 复旦大学 | 一种跨模态图像-文本关联异常检测方法 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113449564A (zh) * | 2020-03-26 | 2021-09-28 | 上海交通大学 | 基于人体局部语义知识的行为图像分类方法 |
CN114169410A (zh) * | 2021-11-22 | 2022-03-11 | 哈尔滨工业大学 | 一种基于长短期记忆模型的探地雷达地下空洞目标自动识别方法 |
CN114691858A (zh) * | 2022-03-15 | 2022-07-01 | 电子科技大学 | 一种基于改进的unilm摘要生成方法 |
CN114781393A (zh) * | 2022-04-20 | 2022-07-22 | 平安科技(深圳)有限公司 | 图像描述生成方法和装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108765383A (zh) * | 2018-03-22 | 2018-11-06 | 山西大学 | 基于深度迁移学习的视频描述方法 |
CN110046271A (zh) * | 2019-03-22 | 2019-07-23 | 中国科学院西安光学精密机械研究所 | 一种基于声音指导的遥感图像描述方法 |
WO2019149071A1 (zh) * | 2018-01-30 | 2019-08-08 | 华为技术有限公司 | 目标检测的方法、装置及系统 |
CN110188772A (zh) * | 2019-05-22 | 2019-08-30 | 清华大学深圳研究生院 | 基于深度学习的中文图像描述方法 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
-
2019
- 2019-11-12 CN CN201911098782.6A patent/CN110909736B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
WO2019149071A1 (zh) * | 2018-01-30 | 2019-08-08 | 华为技术有限公司 | 目标检测的方法、装置及系统 |
CN108765383A (zh) * | 2018-03-22 | 2018-11-06 | 山西大学 | 基于深度迁移学习的视频描述方法 |
CN110046271A (zh) * | 2019-03-22 | 2019-07-23 | 中国科学院西安光学精密机械研究所 | 一种基于声音指导的遥感图像描述方法 |
CN110188772A (zh) * | 2019-05-22 | 2019-08-30 | 清华大学深圳研究生院 | 基于深度学习的中文图像描述方法 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449564B (zh) * | 2020-03-26 | 2022-09-06 | 上海交通大学 | 基于人体局部语义知识的行为图像分类方法 |
CN113449564A (zh) * | 2020-03-26 | 2021-09-28 | 上海交通大学 | 基于人体局部语义知识的行为图像分类方法 |
CN112200268A (zh) * | 2020-11-04 | 2021-01-08 | 福州大学 | 一种基于编码器-解码器框架的图像描述方法 |
CN112529857A (zh) * | 2020-12-03 | 2021-03-19 | 重庆邮电大学 | 基于目标检测与策略梯度的超声图像诊断报告生成方法 |
CN112712130B (zh) * | 2021-01-13 | 2022-06-10 | 清华大学 | 视觉理解模型训练方法、装置、计算机设备和存储介质 |
CN112712130A (zh) * | 2021-01-13 | 2021-04-27 | 清华大学 | 视觉理解模型训练方法、装置、计算机设备和存储介质 |
CN113159071B (zh) * | 2021-04-20 | 2022-06-21 | 复旦大学 | 一种跨模态图像-文本关联异常检测方法 |
CN113159071A (zh) * | 2021-04-20 | 2021-07-23 | 复旦大学 | 一种跨模态图像-文本关联异常检测方法 |
CN113283248B (zh) * | 2021-04-29 | 2022-06-21 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN114169410A (zh) * | 2021-11-22 | 2022-03-11 | 哈尔滨工业大学 | 一种基于长短期记忆模型的探地雷达地下空洞目标自动识别方法 |
CN114691858A (zh) * | 2022-03-15 | 2022-07-01 | 电子科技大学 | 一种基于改进的unilm摘要生成方法 |
CN114691858B (zh) * | 2022-03-15 | 2023-10-03 | 电子科技大学 | 一种基于改进的unilm摘要生成方法 |
CN114781393A (zh) * | 2022-04-20 | 2022-07-22 | 平安科技(深圳)有限公司 | 图像描述生成方法和装置、电子设备及存储介质 |
CN114781393B (zh) * | 2022-04-20 | 2023-05-26 | 平安科技(深圳)有限公司 | 图像描述生成方法和装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110909736B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909736A (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN109902298B (zh) | 一种自适应学习系统中领域知识建模及知识水平估测方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN109492227A (zh) | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 | |
CN110502749A (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN111008293A (zh) | 基于结构化语义表示的视觉问答方法 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN111090981B (zh) | 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN109284361A (zh) | 一种基于深度学习的实体抽取方法及系统 | |
CN112487820A (zh) | 一种中文医疗命名实体识别方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
Zhang et al. | A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN117609536A (zh) | 基于语言引导的指称表达理解推理网络系统及推理方法 | |
Poghosyan et al. | Short-term memory with read-only unit in neural image caption generator | |
CN113239678A (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN114969343B (zh) | 结合相对位置信息的弱监督文本分类方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |