CN112308081A - 一种基于注意力机制的图像目标预测方法 - Google Patents

一种基于注意力机制的图像目标预测方法 Download PDF

Info

Publication number
CN112308081A
CN112308081A CN202011222985.4A CN202011222985A CN112308081A CN 112308081 A CN112308081 A CN 112308081A CN 202011222985 A CN202011222985 A CN 202011222985A CN 112308081 A CN112308081 A CN 112308081A
Authority
CN
China
Prior art keywords
attention
language
matrix
features
target prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011222985.4A
Other languages
English (en)
Other versions
CN112308081B (zh
Inventor
许金泉
王振宁
王溢
蔡碧颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanqiang Zhishi Xiamen Technology Co ltd
Original Assignee
Nanqiang Zhishi Xiamen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanqiang Zhishi Xiamen Technology Co ltd filed Critical Nanqiang Zhishi Xiamen Technology Co ltd
Priority to CN202011222985.4A priority Critical patent/CN112308081B/zh
Publication of CN112308081A publication Critical patent/CN112308081A/zh
Application granted granted Critical
Publication of CN112308081B publication Critical patent/CN112308081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于注意力机制的图像目标预测方法,用于在RGB图像中获取描述语言针对的物体的掩膜;包括如下步骤:提取RGB图像三个尺度的视觉特征;提取描述语言的语言特征;将视觉特征和语言特征进行多模态融合;基于多模态特征以及语言特征,计算四个映射矩阵;然后,通过矩阵运算以及激活函数得到两个注意力图;接着,通过注意力变换计算得到注意力矩阵:最后,将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:叠加分组注意力模块,然后通过1x1的卷积神经网络,即得到预测的掩膜。此种方法通过引入受监督的注意力机制,能够增强复杂场景下的推理能力,从而提高检测的精度。

Description

一种基于注意力机制的图像目标预测方法
技术领域
本发明属于图像目标检测技术领域,涉及一种指向性视觉分割方法,特别涉及一种基于多步推理的级联分组注意力机制的建模方法。
背景技术
指向性视觉分割是基于视觉和语言的多模态任务。如图1所示,给定关于图像中的某个物体的描述,指向性视觉分割需要将图像中的对应物体的掩膜计算出来。指向性视觉分割的优势在于它不仅限于固定数量的对象类别,而且可以实现快速的语言到视觉的对齐,从而可以被广泛地使用在各种场景,例如交互式图像编辑和人机交互。
现有的大多数方法主要关注于传统的多模态融合问题,常见的指向性视觉分割框架使用卷积神经网络(CNN)(例如Deeplab ResNet)和语言编码器(例如LSTM或GRU)来同时处理输入图像和表达式。然后融合两种模态的特征,在其上应用CNN解码器以预测描述对应的物体掩码。
由于现有的方法主要关注多模态融合问题,指向性视觉分割中有两个关键问题尚待解决:第一个问题是学习细粒度的类别信息。实验结果表明,使用ImageNet预训练的模型比使用VOC预训练的模型具有更高的性能,这部分验证了在指向性视觉分割中利用细粒度类别信息的重要性。同时,指向性视觉分割的设置使模型在学习新知识方面效率低下。由于指向性视觉分割中的描述内容比传统类标签要复杂得多,并且是根据最终的分割结果来间接优化主干。因此,模型缺乏直接的监督来使语言表达与视觉区域保持一致。
另一个问题是对实例级语义差异的感知。比如,为了对“戴眼镜的女孩”进行识别,该模型除了学习语言视觉之外,还应该学习“女性”的概念,并识别不同“女性”之间的语义差异。因此,基于给定的描述,指向性视觉分割模型应该能够区分该类之内或之外的实例。
发明内容
本发明的目的,在于提供一种基于注意力机制的图像目标分割方法,通过引入受监督的注意力机制,能够增强复杂场景下的推理能力,从而提高检测的精度。
为了达成上述目的,本发明的解决方案是:
一种基于注意力机制的图像目标预测方法,用于在RGB图像中获取描述语言针对的物体的掩膜;包括如下步骤:
步骤1,设置输入的RGB图像的大小为320×320×3,描述语言的最长文本输入设置为15;
步骤2,提取RGB图像三个尺度的视觉特征:
Figure BDA0002762712970000021
Figure BDA0002762712970000022
步骤3,提取描述语言的语言特征:
Figure BDA0002762712970000023
步骤4,将视觉特征和语言特征进行多模态融合,得到
Figure BDA0002762712970000024
步骤5,基于多模态特征Fm3以及语言特征ft,通过下式计算出四个映射矩阵Q,Kc,Kd,V:
Q=ftWQ
Figure BDA0002762712970000025
Figure BDA0002762712970000026
V=FmWV
其中,WQ,
Figure BDA0002762712970000027
表示可学习的映射矩阵;
然后,通过矩阵运算以及激活函数得到两个注意力图
Figure BDA0002762712970000028
Figure BDA0002762712970000029
其过程如下:
Figure BDA00027627129700000210
Figure BDA00027627129700000211
其中,Softmax函数和Sigmoid函数分别定义为:
Figure BDA0002762712970000031
Figure BDA0002762712970000032
接着,通过注意力变换计算得到注意力矩阵
Figure BDA0002762712970000033
fxol=AcV
Fdif=Ad Tfcol
最后,将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:
F′m3=Fm3+Fdif
上述变换过程表示为关于Fm,ft以及模型参数θ的函数
Figure BDA0002762712970000034
Figure BDA0002762712970000035
步骤6,将Fm3划分成k组,得到
Figure BDA0002762712970000036
其中j∈[1,…,k];则分组注意力变换表示为:
Figure BDA0002762712970000037
F′m=[F′m1,…,F′mk]
通过叠加三个上述的分组注意力模块,同时每个注意力模块的k的设置不同,然后通过1x1的卷积神经网络,即得到预测的掩膜O。
上述步骤2中,利用在VOC目标检测数据集上训练好的神经网络DeepLab-ResNet101提取三个尺度的视觉特征。
上述步骤3中,利用训练好的词向量Glove将描述语言转换成特征向量,然后利用LSTM作为语言编码器,从而得到语言特征。
上述步骤4的具体过程是:
步骤41,将语言特征的维度变成1×1×1024;
步骤42,将视觉特征Fv1与步骤41的结果根据下式进行融合,得到Fm1
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中,σ为Leaky-ReLU激活函数,⊙为Hadamard积,Wv1和Wt为可学习的权重;
步骤43,根据下式进行多尺度的融合:
Figure BDA0002762712970000041
其中,[]表示两个矩阵在最后一个维度进行拼接,且i∈{2,3}。
上述步骤6中,1x1的卷积神经网络的损失函数为l,其计算方法是:
给定标签G,损失函数l表示为:
Figure BDA0002762712970000042
Figure BDA0002762712970000043
l=lseg+lila
其中,s表示注意力模块数量,k为每个注意力模块的分组数;
Figure BDA0002762712970000044
为第i个注意力模块中第j组Ad中第l个元素,gl表示标签G中的第l个元素。
上述卷积神经网络的训练过程中采用Adam优化器,设置初始学习率和batchsize分别为0.001和20。
采用上述方案后,本发明的有益效果是:
(1)本发明提供了一种级联分组注意力网络(CGAN),该网络旨在从语言表达中学习细粒度的类别,并通过详细的推理来感知引用对象,通过对整个图像进行逐步推理来使描述语言与视觉内容达到一致化的对齐;
(2)CGAN包含了两种创新设计,即级联分组注意(CGA)和实例级别的注意力损失函数(ILA):CGA能够通过详细的逐步关注来感知实例级语义;ILA损失函数能够在细粒度类别学习中提高指向性视觉分割模型的效率。ILA损失函数是使用标签来直接监督指向性视觉分割模型的语言视觉对齐方式,并且可以将其集成到CGAN的每步推理过程中。这种损失函数能够帮助模型更有效地优化视觉主干,这有助于模型更好地掌握看不见的视觉概念。
附图说明
图1是本发明的流程图;
图2是级联分组注意力分组神经网络结构示意图;
图3是注意力机制示意图;
其中,(a)是单步注意力机制,(b)是分组注意力机制。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
如图1所示,本发明提供一种基于注意力机制的图像目标预测方法,包括如下步骤:
一、模型实施过程:
1.1模型的输入:
如图2所示,模型的输入分别为一张RGB的图像,其大小为320×320×3,以及一句对于图中某个物体的描述语言,其中模型的最长文本输入设置为15。
1.2视觉特征编码器:
对于输入的RGB图像,我们利用在VOC目标检测数据集(可参见Mark Everingham,Luc Van Gool,Christopher K IWilliams,JohnWinn,and Andrew Zisserman.The pascalvisual object classes(voc)challenge.In IJCV,2010.)上预训练好的神经网络DeepLab-ResNet101(可参见Liangchieh Chen,George Papandreou,Iasonas Kokkinos,Kevin P Murphy,and Alan L Yuille.Deeplab:Semantic image segmentation withdeep convolutional nets,atrous convolution,and fully connected crfs.In PAMI,2018.)来提取视觉特征,从而得到三个尺度的视觉特征:
Figure BDA0002762712970000051
1.3语言特征编码器:
对于输入的语言描述,我们首先利用预训练好的词向量Glove(可参见JeffreyPennington,Richard Socher,and Christopher Manning.Glove:Global vectors forword representation.In EMNLP,2014.)来将语言转换成特征向量,接着利用LSTM(可参见Sepp Hochreiter and Jurgen Schmidhuber.1997.Long short-term memory.NeuralComputation(1997))作为语言编码器,得到语言特征:
Figure BDA0002762712970000052
1.4多模态多尺度的特征编码器:
为了得到视觉和语言的联合表示,我们将两种模态的信息进行多模态融合,首先我们将语言特征的维度变成1×1×1024,接着,我们将视觉特征Fv1与其进行融合得到Fm1,其过程如下式:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中σ为Leaky-ReLU激活函数,⊙为Hadamard积,Wv1和Wt为可学习的权重。接着,我们进行多尺度的融合,如下式所示:
Figure BDA0002762712970000061
其中[]表示两个矩阵在最后一个维度进行拼接,且i∈{2,3},由此,我们得到了
Figure BDA0002762712970000062
来给模型进行进一步的推理。
1.5单步注意力机制:
如图3(a)所示,给定多模态特征Fm3以及语言特征ft,我们通过以下式子来计算出四个映射矩阵Q,Kc,Kd,V:
Q=ftWQ
Figure BDA0002762712970000063
Figure BDA0002762712970000064
V=FmWV
其中WQ,
Figure BDA0002762712970000065
表示可学习的映射矩阵。
接着,我们通过矩阵运算以及激活函数来得到两个注意力图
Figure BDA0002762712970000066
Figure BDA0002762712970000067
其过程如下:
Figure BDA0002762712970000068
Figure BDA0002762712970000069
其中,Softmax函数和Sigmoid函数分别定义为:
Figure BDA00027627129700000610
Figure BDA00027627129700000611
接着,我们通过注意力变换计算得到注意力矩阵
Figure BDA00027627129700000612
fcol=AcV
Fdif=Ad Tfcol
最后,我们将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:
F′m3=Fm3+Fdif
上述变换过程可以表示成一个关于Fm,ft以及模型参数θ的函数
Figure BDA0002762712970000071
Figure BDA0002762712970000072
1.6级联分组注意力机制:
在上述注意力变换函数
Figure BDA0002762712970000073
中,实际上对特征进行了单次的变换,我们将Fm3划分成k组即可得到
Figure BDA0002762712970000074
其中j∈[1,…,k]。如图3(b)所示,分组注意力变换可以表示为:
Figure BDA0002762712970000075
F′m=[F′m1,…,F′mk]
上述过程通过特征的分组,对特征进行了多次的注意力变换。如图2所示,通过叠加三个上述的分组注意力模块,同时每个注意力模块的k的设置不同,我们设定叠加三个分组注意力模块的组数分别为2,4,8。以上过程即为级联分组注意力机制。接着我们通过一个1x1的卷积,即可得到预测的掩膜
Figure BDA0002762712970000076
二、模型训练过程
2.1损失函数的计算:
损失函数包含了两部分,一部分是预测结果与标签计算得到的损失函数,另一部分为实例级的损失函数,它计算了Ad与标签g之间的损失函数。具体来说,给定标签G,我们的损失函数l可以表示为:
Figure BDA0002762712970000077
Figure BDA0002762712970000078
l=lseg+lila
其中s表示注意力模块数量,我们设为3;k为每个注意力模块的分组数,最终的损失函数l,通过反向传播来优化整个注意力网络;
Figure BDA0002762712970000079
为Ad中的元素。
2.2模型训练参数设置:
在训练过程中,我们使用Adam优化器,并设置初始学习率和batchsize分别为0.001和20。模型总共训练40轮,在第25,30,35轮迭代时,模型的学习率下降10倍。
2.3模型的训练:
对于模型的训练,我们首先将输入的图片和语言经过步骤一得到模型的输出结果,接着我们通过步骤2.1来计算模型输出和标注好的标签之间的损失函数,最后,我们利用损失函数的梯度反向传播来更新步骤一中的模型参数,训练和迭代过程的设置如步骤2.2所描述。最终我们完成整个模型的训练。
三、模型部署过程:
在经过步骤二的模型训练后,对于训练完毕的模型,我们将输入的图片和语言经过步骤一即可得到模型的输出作为模型的预测结果,即输入一张图片和对图片中某个物体的语言描述,模型输出该物体的掩膜。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于注意力机制的图像目标预测方法,用于在RGB图像中获取描述语言针对的物体的掩膜;其特征在于包括如下步骤:
步骤1,设置输入的RGB图像的大小为320×320×3,描述语言的最长文本输入设置为15;
步骤2,提取RGB图像三个尺度的视觉特征:
Figure FDA0002762712960000011
Figure FDA0002762712960000012
步骤3,提取描述语言的语言特征:
Figure FDA0002762712960000013
步骤4,将视觉特征和语言特征进行多模态融合,得到
Figure FDA0002762712960000014
步骤5,基于多模态特征Fm3以及语言特征ft,通过下式计算出四个映射矩阵Q,Kc,Kd,V:
Q=ftWQ
Figure FDA0002762712960000015
Figure FDA0002762712960000016
V=FmWV
其中,
Figure FDA0002762712960000017
表示可学习的映射矩阵;
然后,通过矩阵运算以及激活函数得到两个注意力图
Figure FDA0002762712960000018
Figure FDA0002762712960000019
其过程如下:
Figure FDA00027627129600000110
Figure FDA00027627129600000111
其中,Softmax函数和Sigmoid函数分别定义为:
Figure FDA00027627129600000112
Figure FDA00027627129600000113
接着,通过注意力变换计算得到注意力矩阵
Figure FDA00027627129600000114
fcol=AcV
Fdif=Ad Tfcol
最后,将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:
F′m3=Fm3+Fdif
上述变换过程表示为关于Fm,ft以及模型参数θ的函数
Figure FDA0002762712960000021
Figure FDA0002762712960000022
步骤6,将Fm3划分成k组,得到
Figure FDA0002762712960000023
其中j∈[1,…,k];则分组注意力变换表示为:
Figure FDA0002762712960000024
F′m=[F′m1,…,F′mk]
通过叠加三个上述的分组注意力模块,同时每个注意力模块的k的设置不同,然后通过1x1的卷积神经网络,即得到预测的掩膜O。
2.如权利要求1所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述步骤2中,利用在VOC目标检测数据集上训练好的神经网络DeepLab-ResNet101提取三个尺度的视觉特征。
3.如权利要求1所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述步骤3中,利用训练好的词向量Glove将描述语言转换成特征向量,然后利用LSTM作为语言编码器,从而得到语言特征。
4.如权利要求1所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述步骤4的具体过程是:
步骤41,将语言特征的维度变成1×1×1024;
步骤42,将视觉特征Fv1与步骤41的结果根据下式进行融合,得到Fm1
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中,σ为Leaky-ReLU激活函数,⊙为Hadamard积,Wv1和Wt为可学习的权重;
步骤43,根据下式进行多尺度的融合:
Figure FDA0002762712960000025
其中,[]表示两个矩阵在最后一个维度进行拼接,且i∈{2,3}。
5.如权利要求1所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述步骤6中,1x1的卷积神经网络的损失函数为l,其计算方法是:
给定标签G,损失函数l表示为:
Figure FDA0002762712960000031
Figure FDA0002762712960000032
l=lseg+lila
其中,s表示注意力模块数量,k为每个注意力模块的分组数;
Figure FDA0002762712960000033
为第i个注意力模块中第j组Ad中第l个元素,gl表示标签G中的第l个元素。
6.如权利要求5所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述卷积神经网络的训练过程中采用Adam优化器,设置初始学习率和batchsize分别为0.001和20。
CN202011222985.4A 2020-11-05 2020-11-05 一种基于注意力机制的图像目标预测方法 Active CN112308081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011222985.4A CN112308081B (zh) 2020-11-05 2020-11-05 一种基于注意力机制的图像目标预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011222985.4A CN112308081B (zh) 2020-11-05 2020-11-05 一种基于注意力机制的图像目标预测方法

Publications (2)

Publication Number Publication Date
CN112308081A true CN112308081A (zh) 2021-02-02
CN112308081B CN112308081B (zh) 2023-05-30

Family

ID=74326252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011222985.4A Active CN112308081B (zh) 2020-11-05 2020-11-05 一种基于注意力机制的图像目标预测方法

Country Status (1)

Country Link
CN (1) CN112308081B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907530A (zh) * 2021-02-08 2021-06-04 南开大学 基于分组反向注意力的伪装物体检测方法及系统
CN113420660A (zh) * 2021-06-23 2021-09-21 西安电子科技大学 一种红外图像目标检测模型构建方法、预测方法及系统
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统
CN113837229A (zh) * 2021-08-30 2021-12-24 厦门大学 一种知识驱动型的文本到图像生成方法
CN115019037A (zh) * 2022-05-12 2022-09-06 北京百度网讯科技有限公司 对象分割方法及对应模型的训练方法、装置及存储介质
CN113762251B (zh) * 2021-08-17 2024-05-10 慧影医疗科技(北京)股份有限公司 一种基于注意力机制的目标分类方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN111126221A (zh) * 2019-12-16 2020-05-08 华中师范大学 一种融合双向视觉注意力机制的数学公式识别方法及装置
CN111259768A (zh) * 2020-01-13 2020-06-09 清华大学 基于注意力机制的结合自然语言的图像目标定位方法
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN111126221A (zh) * 2019-12-16 2020-05-08 华中师范大学 一种融合双向视觉注意力机制的数学公式识别方法及装置
CN111259768A (zh) * 2020-01-13 2020-06-09 清华大学 基于注意力机制的结合自然语言的图像目标定位方法
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐慧;白美丽;万韬阮;薛涛;汤汶;: "基于深度学习的服装图像语义分析与检索推荐", 纺织高校基础科学学报 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907530A (zh) * 2021-02-08 2021-06-04 南开大学 基于分组反向注意力的伪装物体检测方法及系统
CN113420660A (zh) * 2021-06-23 2021-09-21 西安电子科技大学 一种红外图像目标检测模型构建方法、预测方法及系统
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统
CN113762251B (zh) * 2021-08-17 2024-05-10 慧影医疗科技(北京)股份有限公司 一种基于注意力机制的目标分类方法及系统
CN113837229A (zh) * 2021-08-30 2021-12-24 厦门大学 一种知识驱动型的文本到图像生成方法
CN113837229B (zh) * 2021-08-30 2024-03-15 厦门大学 一种知识驱动型的文本到图像生成方法
CN115019037A (zh) * 2022-05-12 2022-09-06 北京百度网讯科技有限公司 对象分割方法及对应模型的训练方法、装置及存储介质

Also Published As

Publication number Publication date
CN112308081B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN108229474B (zh) 车牌识别方法、装置及电子设备
CN112308081A (zh) 一种基于注意力机制的图像目标预测方法
CN111368993B (zh) 一种数据处理方法及相关设备
US20180018555A1 (en) System and method for building artificial neural network architectures
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN112308080B (zh) 面向指向性视觉理解和分割的图像描述预测方法
CN114090780B (zh) 一种基于提示学习的快速图片分类方法
CN112507995B (zh) 一种跨模型人脸特征向量的转换系统及方法
WO2022156561A1 (zh) 一种自然语言处理方法以及装置
CN113516133B (zh) 一种多模态图像分类方法及系统
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
Yan et al. Traffic scene semantic segmentation using self-attention mechanism and bi-directional GRU to correlate context
CN113313173A (zh) 基于图表示和改进Transformer的人体解析方法
CN111598118A (zh) 一种视觉问答任务实现方法及系统
CN114564596A (zh) 一种基于图注意力机制的跨语言知识图谱链接预测方法
CN113435520A (zh) 神经网络的训练方法、装置、设备及计算机可读存储介质
CN116797248B (zh) 基于区块链的数据溯源管理方法及其系统
You et al. FMWDCT: Foreground mixup into weighted dual-network cross training for semisupervised remote sensing road extraction
Peng et al. Swin transformer-based supervised hashing
He et al. Classification of metro facilities with deep neural networks
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN116467513A (zh) 基于注意力机制的多模态知识图谱推荐方法、装置及介质
CN116477375A (zh) 基于人工智能的堆取料控制系统及其方法
CN116177858A (zh) 高纯石英坩埚的制备方法及其系统
CN114549958A (zh) 基于上下文信息感知机理的夜间和伪装目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant