CN112819013A - 基于层内层间联合全局表示的图像描述方法 - Google Patents
基于层内层间联合全局表示的图像描述方法 Download PDFInfo
- Publication number
- CN112819013A CN112819013A CN202110128194.3A CN202110128194A CN112819013A CN 112819013 A CN112819013 A CN 112819013A CN 202110128194 A CN202110128194 A CN 202110128194A CN 112819013 A CN112819013 A CN 112819013A
- Authority
- CN
- China
- Prior art keywords
- layer
- global
- intra
- inter
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000010410 layer Substances 0.000 title claims abstract description 42
- 239000011229 interlayer Substances 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000002787 reinforcement Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
基于层内层间联合全局表示的图像描述方法,涉及人工智能。步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果。利用Transformer结构的特点,显式建模层内‑层间联合全局特征,有效利用图片的全局特征,减少图像描述任务间存在的物体缺失和关系偏置,提升生成句子的准确性和全面性;具有很强的迁移性,能适用于任何一个基于Transformer结构的图像描述模型,改进模型性能;解决图像描述的目标缺失和关系偏置问题,拓展复杂多模态推理,自动生成描述,可应用在图像检索、盲人导航、医疗报告自动生成和早教领域。
Description
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及一种基于图片用自然语言对图像客观内容进行描述的基于层内层间联合全局表示的图像描述方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
早先的图像自动描述主要采用基于模板的方法和基于检索的方法实现,直到近来受自然语言技术的启发,开始使用编码器-解码器框架,注意力机制以及以强化学习为基础的目标函数,该任务取得极大的进展。
Xu等人(Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image captiongeneration with visual attention.In ICML)首次在图片描述任务中引入了注意力机制,用来将重要的视觉属性和场景嵌入到描述生成器中。继此之后,很多工作都对注意力机制提出了改进。例如,Chen等人(Chen,L.;Zhang,H.;Xiao,J.;Nie,L.;Shao,J.;Liu,W.;andChua,T.-S.2017b.Sca-cnn:Spatial and channel-wise attention in convolutionalnetworks for image captioning.In CVPR)提出了空间和通道注意力机制,用以选择显著的区域以及显著的语义模式;Lu等人(Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel forimage captioning.In CVPR)提出了视觉哨兵的概念,用以决定下一步关注视觉信息还是文本信息,大大提高模型的精确度;Anderson等人(Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;and Zhang,L.2018.Bottom-up and top-downattention for image captioning and visual question answering.In CVPR)先通过预训练好的目标检测器获取区域然后将此加入到模型用以生成图像字幕。Huang等人(Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attention for ImageCaptioning.In ICCV)则首次采用了transformer类的框架图像描述任务中,从此Transformer模型开始成为该任务的主流模型。Zhu等人(Zhu,X.;Li,L.;Liu,J.;Peng,H.;and Niu,X.2018.Captioning transformer with stacked attention modules.AppliedSciences)和Cornia等人(Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR)都使用Transformer结构代替长短时循环网络并取得了最好性能。然而,这些模型并没有考虑如何利用全局特征来引导描述生成。
发明内容
本发明的目的在于针对传统基于transformer的图像描述方法没有显性建模全局特征从而导致物体缺失和关系偏置等问题,提供通过建模一个更加综合且具有指导性的全局特征,连接不同的局部信息,从而提高生成描述准确性的基于层内层间联合全局表示的图像描述方法。
本发明包括如下步骤:
1)采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
2)将步骤1)提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
(1)对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2,…,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
(2)将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征;
(3)将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,借助多头注意力机制的特性修正多模态特征,生成当前阶段的词;
(4)迭代生成整个句子,并定义生成句子的损失函数。
在步骤1中,所述目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
在步骤(1)中,所述对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
在步骤(2)和(3)中,所述多头注意力机制相关过程如下:
针对给定的索引Q,键K,以及值V,
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
在步骤(2)中,所述将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征的相关公式如下:
具体步骤如下:全局加强编码器由L层相同的结构组成,定义第l+1的输入为Ol,输出为Ol+1,第一层的输入初始化为O0=[V0;g0],其中,0≤l<L,且V0=V,g0=g;
Ol+1=LayerNorm(Vl+1+FFN(Vl+1)),
其中,GEA即为定义的全局加强的注意力机制,LayerNorm为归一化层,FFN为前馈神经网络,Ol+1=[Vl+1;gl+1];借助多头注意力机制的层内特征聚集作用,gl+1建模了层内全局特征;为了进一步建模层间全局特征,采用长短时循环网络对层内全局特征进一步聚合:
hi=LSTM(gi,hi-1),gF=hL,
其中,i=1,…,L,LSTM为长短时记忆网络,由此得到了层内-层间联合全局特征gF。
在步骤(3)中,所述将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,借助多头注意力机制修正多模态特征,生成当前阶段的词,其具体过程可为:
首先假设t为句子序列的第t个词,Wt表示t时刻输入的词所对应的的词向量,由此得到全局适应的解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
Vg=(VL;gF),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
在步骤(4)中,具体过程是:
对于预测的句子YT={y0,...,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
采用上述方案后,本发明具有以下突出优点:
(1)本发明充分利用Transformer结构的特点,显式建模层内-层间联合全局特征,有效利用图片的全局特征,大大减少图像描述任务间存在的物体缺失和关系偏置,极大提升生成句子的准确性和全面性;
(2)本发明具有很强的迁移性,能够适用于任何一个基于Transformer结构的图像描述模型,改进模型的性能;
(3)本发明解决了图像描述的目标缺失和关系偏置问题,其主要应用场景在于建模全局特征,拓展复杂的多模态推理,为其自动生成描述,在图像检索,盲人导航,医疗报告自动生成和早教领域存在大量的应用前景。
附图说明
图1是本发明实施例的流程图;
图2是不同的图像描述模型生成的句子对比图;其中,Transformer是一种经典的基线方法的名称;
图3是对解码器生成每个词时的关注区域的可视化图;
图4是三个不同层在8个头关注到每个词时关注到每个点的比例是多少其中第一列标签本方法建模的,该图显示最终每个头都实实在在关注到了全局特征;
图5是可视化高层的输出对于底层输入的相似度分析图。
具体实施方式
以下实施例将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对传统基于transformer的图像描述方法没有显性建模全局特征从而导致物体缺失和关系偏置的问题,提出通过建模一个更加综合且具有指导性的全局特征,连接不同的局部信息,从而提高生成描述的准确性,提供基于层内层间联合全局表示的图像描述方法。具体的方法流程如图1所示。
本发明实施例包括以下步骤:
1)对于图像库中的图像,首先使用卷积神经网络抽取相应的图像特征;
2)将特征V送入全局加强编码器,将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征;
3)将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,修正多模态特征,生成当前阶段的词;
4)迭代生成整个句子,并定义生成句子的损失函数。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于5的单词进行了剔除,使用“<UNK>”进行替代,同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区,并使用残差深度卷积网络提出各个候选区相对应的特征V={v1,v2,…,vN},其中vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,k为50,d为2048。
2、全局加强编码器
首先,全局加强编码器由L层相同的结构组成,定义第l+1的输入为Ol,输出为Ol+1,第一层的输入初始化为O0=[V0;g0],其中,0≤l<L,且V0=V,g0=g。
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,GEA即为定义的全局加强的注意力机制,LayerNorm为归一化层,FFN为前馈神经网络,Ol+1=[Vl+1;gl+1];借助多头注意力机制的层内特征聚集作用,gl+1建模层内全局特征;为进一步建模层间全局特征,采用长短时循环网络对层内全局特征进一步聚合,公式如下:
hi=LSTM(gi,hi-1),gF=hL,
其中,i=1,…,L,LSTM为长短时记忆网络,由此得到了层内-层间联合全局特征gF。
3、全局适应解码器
如图1所示,首先假设t为句子序列的第t个词,Wt表示t时刻输入的词所对应的的词向量,由此得到全局适应的解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
Vg=(VL;gF),
4、全局损失函数构建
对于预测的句子YT={y0,...,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
为了验证本发明提出的模型的可行性和先进性,在通用数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,可以看到在多种评估指标上所提出的模型性能都具有很高的优势。另外,通过可视化输入图像所生成的文本描述,示例给出的描述为英文,中文描述自动生成过程同理(如图2所示),可以看到由于本发明的模型对全局信息显示建模以后,其在图像描述上取得了很明显的改进。图3对解码器关注区域的可视化,该结果表明本发明方法在全局特征的指导下,模型可以更准确的定位到要描述的区域。图4展示的是三个不同层在8个头关注到每个词时关注到每个点的比例是多少其中第一列标签本方法建模的,该图显示最终每个头都实实在在关注到了全局特征。该图展示了解码层生成词在每一层对于不同区域以及全局特征的关注度多少。其中每一行表示生成句子中对应的词语,每一列代表的是图片区域,其中第一列表示全局特征。将全局特征被关注的比例做了统计,并记录在每个头的上方。该图显示最终每个头都实实在在关注到了全局特征。图5则是可视化高层的输出对于底层输入的相似度,对角线颜色比较浓说明每个区域对应的高层隐藏特征还是与对应的底层隐藏特征最接近,表明现有Transformer的机制关注的依然是局部偏置的。图2~4中描述和词都以英文为例,但是该发明可以直接拓展到中文描述,机理相同。
表1本发明方法与当前最先进方法的比较
Model | B-1 | B-4 | M | R | C | S |
LSM-A | 78.6 | 35.5 | 27.3 | 56.8 | 118.3 | 20.8 |
GCN-LSTM | 80.5 | 38.2 | 28.5 | 58.5 | 128.3 | 22.0 |
Stack-Cap | 78.6 | 36.1 | 27.4 | 56.9 | 120.4 | 20.9 |
SGAE | 80.8 | 38.4 | 28.4 | 58.6 | 127.8 | 22.1 |
Up-Down | 79.8 | 36.3 | 27.7 | 56.9 | 120.1 | 21.4 |
ORT | 80.5 | 38.6 | 28.7 | 58.4 | 128.3 | 22.6 |
MMT | 80.8 | 39.1 | 29.2 | 58.6 | 131.2 | 22.6 |
本发明方法 | 81.7 | 39.5 | 29.3 | 58.9 | 131.6 | 22.8 |
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.基于层内层间联合全局表示的图像描述方法,其特征在于包括如下步骤:
1)采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
2)将步骤1)提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
(1)对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2,…,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
(2)将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征;
(3)将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,借助多头注意力机制的特性修正多模态特征,生成当前阶段的词;
(4)迭代生成整个句子,并定义生成句子的损失函数。
2.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤(1)中,所述对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
5.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤(2)中,所述将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征的相关公式如下:
具体步骤为:全局加强编码器由L层相同的结构组成,定义第l+1的输入为Ol,输出为Ol +1,第一层的输入初始化为O0=[V0;g0],其中,0≤l<L,且V0=V,g0=g;
Ol+1=LayerNorm(Vl+1+FFN(Vl+1)),
其中,GEA即为定义的全局加强的注意力机制,LayerNorm为归一化层,FFN为前馈神经网络,Ol+1=[Vl+1;gl+1];借助多头注意力机制的层内特征聚集作用,gl+1建模了层内全局特征;为了进一步建模层间全局特征,采用长短时循环网络对层内全局特征进一步聚合,公式如下:
hi=LSTM(gi,hi-1),gF=hL,
其中,i=1,…,L,LSTM为长短时记忆网络,由此得到了层内-层间联合全局特征gF。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110128194.3A CN112819013A (zh) | 2021-01-29 | 2021-01-29 | 基于层内层间联合全局表示的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110128194.3A CN112819013A (zh) | 2021-01-29 | 2021-01-29 | 基于层内层间联合全局表示的图像描述方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112819013A true CN112819013A (zh) | 2021-05-18 |
Family
ID=75858378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110128194.3A Pending CN112819013A (zh) | 2021-01-29 | 2021-01-29 | 基于层内层间联合全局表示的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819013A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378919A (zh) * | 2021-06-09 | 2021-09-10 | 重庆师范大学 | 融合视觉常识和增强多层全局特征的图像描述生成方法 |
CN113590918A (zh) * | 2021-07-12 | 2021-11-02 | 电子科技大学 | 基于课程式学习的社交媒体舆情热度监测的框架构建方法 |
CN113837231A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于混合样本与标签的数据增强的图像描述方法 |
CN113963168A (zh) * | 2021-11-15 | 2022-01-21 | 北京联合大学 | 一种改进的高精度端到端车辆多目标跟踪方法 |
CN114119977A (zh) * | 2021-12-01 | 2022-03-01 | 昆明理工大学 | 一种基于图卷积的Transformer胃癌癌变区域图像分割方法 |
CN114821271A (zh) * | 2022-05-19 | 2022-07-29 | 平安科技(深圳)有限公司 | 模型训练方法、图像描述生成方法、装置及存储介质 |
CN116258145A (zh) * | 2023-05-06 | 2023-06-13 | 华南师范大学 | 多模态命名实体识别方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
-
2021
- 2021-01-29 CN CN202110128194.3A patent/CN112819013A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110598713A (zh) * | 2019-08-06 | 2019-12-20 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
Non-Patent Citations (1)
Title |
---|
JIAYI JI ET AL.: "Improving Image Captioning by Leveraging Intra- and Inter-layer Global__Representation in Transformer Network", 《ARXIV》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378919A (zh) * | 2021-06-09 | 2021-09-10 | 重庆师范大学 | 融合视觉常识和增强多层全局特征的图像描述生成方法 |
CN113378919B (zh) * | 2021-06-09 | 2022-06-14 | 重庆师范大学 | 融合视觉常识和增强多层全局特征的图像描述生成方法 |
CN113590918A (zh) * | 2021-07-12 | 2021-11-02 | 电子科技大学 | 基于课程式学习的社交媒体舆情热度监测的框架构建方法 |
CN113837231A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于混合样本与标签的数据增强的图像描述方法 |
CN113837231B (zh) * | 2021-08-30 | 2024-02-27 | 厦门大学 | 一种基于混合样本与标签的数据增强的图像描述方法 |
CN113963168A (zh) * | 2021-11-15 | 2022-01-21 | 北京联合大学 | 一种改进的高精度端到端车辆多目标跟踪方法 |
CN113963168B (zh) * | 2021-11-15 | 2022-06-21 | 北京联合大学 | 一种改进的高精度端到端车辆多目标跟踪方法 |
CN114119977A (zh) * | 2021-12-01 | 2022-03-01 | 昆明理工大学 | 一种基于图卷积的Transformer胃癌癌变区域图像分割方法 |
CN114821271A (zh) * | 2022-05-19 | 2022-07-29 | 平安科技(深圳)有限公司 | 模型训练方法、图像描述生成方法、装置及存储介质 |
CN116258145A (zh) * | 2023-05-06 | 2023-06-13 | 华南师范大学 | 多模态命名实体识别方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112819013A (zh) | 基于层内层间联合全局表示的图像描述方法 | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
Prudviraj et al. | M-FFN: multi-scale feature fusion network for image captioning | |
Bhunia et al. | Joint visual semantic reasoning: Multi-stage decoder for text recognition | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
Wang et al. | Stroke constrained attention network for online handwritten mathematical expression recognition | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN113837233B (zh) | 基于样本自适应语义引导的自注意力机制的图像描述方法 | |
Wu et al. | TDv2: a novel tree-structured decoder for offline mathematical expression recognition | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
CN113423004A (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN114780775A (zh) | 一种基于内容选择和引导机制的图像描述文本生成方法 | |
Xue et al. | LCSNet: End-to-end lipreading with channel-aware feature selection | |
CN117370498A (zh) | 一种3d开放词汇检测与密集字幕生成统一的建模方法 | |
Song et al. | Exploring explicit and implicit visual relationships for image captioning | |
CN115982629A (zh) | 一种基于语义引导的特征选择的图像描述方法 | |
CN113837231B (zh) | 一种基于混合样本与标签的数据增强的图像描述方法 | |
Liu et al. | A signer-independent sign language recognition method for the single-frequency dataset | |
Rafi et al. | A linear sub-structure with co-variance shift for image captioning | |
Kumar et al. | Molecular-InChI: Automated Recognition of Optical Chemical Structure | |
Ma et al. | Scene text recognition with heuristic local attention | |
Huang et al. | SegCTC: Offline handwritten Chinese text recognition via better fusion between explicit and implicit segmentation | |
Vu et al. | Transformer-based method for mathematical expression recognition in document images | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |
|
RJ01 | Rejection of invention patent application after publication |