CN112308081A - 一种基于注意力机制的图像目标预测方法 - Google Patents
一种基于注意力机制的图像目标预测方法 Download PDFInfo
- Publication number
- CN112308081A CN112308081A CN202011222985.4A CN202011222985A CN112308081A CN 112308081 A CN112308081 A CN 112308081A CN 202011222985 A CN202011222985 A CN 202011222985A CN 112308081 A CN112308081 A CN 112308081A
- Authority
- CN
- China
- Prior art keywords
- attention
- language
- matrix
- features
- target prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000004913 activation Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 3
- 241001197925 Theila Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于注意力机制的图像目标预测方法,用于在RGB图像中获取描述语言针对的物体的掩膜;包括如下步骤:提取RGB图像三个尺度的视觉特征;提取描述语言的语言特征;将视觉特征和语言特征进行多模态融合;基于多模态特征以及语言特征,计算四个映射矩阵;然后,通过矩阵运算以及激活函数得到两个注意力图;接着,通过注意力变换计算得到注意力矩阵:最后,将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:叠加分组注意力模块,然后通过1x1的卷积神经网络,即得到预测的掩膜。此种方法通过引入受监督的注意力机制,能够增强复杂场景下的推理能力,从而提高检测的精度。
Description
技术领域
本发明属于图像目标检测技术领域,涉及一种指向性视觉分割方法,特别涉及一种基于多步推理的级联分组注意力机制的建模方法。
背景技术
指向性视觉分割是基于视觉和语言的多模态任务。如图1所示,给定关于图像中的某个物体的描述,指向性视觉分割需要将图像中的对应物体的掩膜计算出来。指向性视觉分割的优势在于它不仅限于固定数量的对象类别,而且可以实现快速的语言到视觉的对齐,从而可以被广泛地使用在各种场景,例如交互式图像编辑和人机交互。
现有的大多数方法主要关注于传统的多模态融合问题,常见的指向性视觉分割框架使用卷积神经网络(CNN)(例如Deeplab ResNet)和语言编码器(例如LSTM或GRU)来同时处理输入图像和表达式。然后融合两种模态的特征,在其上应用CNN解码器以预测描述对应的物体掩码。
由于现有的方法主要关注多模态融合问题,指向性视觉分割中有两个关键问题尚待解决:第一个问题是学习细粒度的类别信息。实验结果表明,使用ImageNet预训练的模型比使用VOC预训练的模型具有更高的性能,这部分验证了在指向性视觉分割中利用细粒度类别信息的重要性。同时,指向性视觉分割的设置使模型在学习新知识方面效率低下。由于指向性视觉分割中的描述内容比传统类标签要复杂得多,并且是根据最终的分割结果来间接优化主干。因此,模型缺乏直接的监督来使语言表达与视觉区域保持一致。
另一个问题是对实例级语义差异的感知。比如,为了对“戴眼镜的女孩”进行识别,该模型除了学习语言视觉之外,还应该学习“女性”的概念,并识别不同“女性”之间的语义差异。因此,基于给定的描述,指向性视觉分割模型应该能够区分该类之内或之外的实例。
发明内容
本发明的目的,在于提供一种基于注意力机制的图像目标分割方法,通过引入受监督的注意力机制,能够增强复杂场景下的推理能力,从而提高检测的精度。
为了达成上述目的,本发明的解决方案是:
一种基于注意力机制的图像目标预测方法,用于在RGB图像中获取描述语言针对的物体的掩膜;包括如下步骤:
步骤1,设置输入的RGB图像的大小为320×320×3,描述语言的最长文本输入设置为15;
步骤5,基于多模态特征Fm3以及语言特征ft,通过下式计算出四个映射矩阵Q,Kc,Kd,V:
Q=ftWQ
V=FmWV
其中,Softmax函数和Sigmoid函数分别定义为:
fxol=AcV
Fdif=Ad Tfcol
最后,将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:
F′m3=Fm3+Fdif
F′m=[F′m1,…,F′mk]
通过叠加三个上述的分组注意力模块,同时每个注意力模块的k的设置不同,然后通过1x1的卷积神经网络,即得到预测的掩膜O。
上述步骤2中,利用在VOC目标检测数据集上训练好的神经网络DeepLab-ResNet101提取三个尺度的视觉特征。
上述步骤3中,利用训练好的词向量Glove将描述语言转换成特征向量,然后利用LSTM作为语言编码器,从而得到语言特征。
上述步骤4的具体过程是:
步骤41,将语言特征的维度变成1×1×1024;
步骤42,将视觉特征Fv1与步骤41的结果根据下式进行融合,得到Fm1:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中,σ为Leaky-ReLU激活函数,⊙为Hadamard积,Wv1和Wt为可学习的权重;
步骤43,根据下式进行多尺度的融合:
其中,[]表示两个矩阵在最后一个维度进行拼接,且i∈{2,3}。
上述步骤6中,1x1的卷积神经网络的损失函数为l,其计算方法是:
给定标签G,损失函数l表示为:
l=lseg+lila
上述卷积神经网络的训练过程中采用Adam优化器,设置初始学习率和batchsize分别为0.001和20。
采用上述方案后,本发明的有益效果是:
(1)本发明提供了一种级联分组注意力网络(CGAN),该网络旨在从语言表达中学习细粒度的类别,并通过详细的推理来感知引用对象,通过对整个图像进行逐步推理来使描述语言与视觉内容达到一致化的对齐;
(2)CGAN包含了两种创新设计,即级联分组注意(CGA)和实例级别的注意力损失函数(ILA):CGA能够通过详细的逐步关注来感知实例级语义;ILA损失函数能够在细粒度类别学习中提高指向性视觉分割模型的效率。ILA损失函数是使用标签来直接监督指向性视觉分割模型的语言视觉对齐方式,并且可以将其集成到CGAN的每步推理过程中。这种损失函数能够帮助模型更有效地优化视觉主干,这有助于模型更好地掌握看不见的视觉概念。
附图说明
图1是本发明的流程图;
图2是级联分组注意力分组神经网络结构示意图;
图3是注意力机制示意图;
其中,(a)是单步注意力机制,(b)是分组注意力机制。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
如图1所示,本发明提供一种基于注意力机制的图像目标预测方法,包括如下步骤:
一、模型实施过程:
1.1模型的输入:
如图2所示,模型的输入分别为一张RGB的图像,其大小为320×320×3,以及一句对于图中某个物体的描述语言,其中模型的最长文本输入设置为15。
1.2视觉特征编码器:
对于输入的RGB图像,我们利用在VOC目标检测数据集(可参见Mark Everingham,Luc Van Gool,Christopher K IWilliams,JohnWinn,and Andrew Zisserman.The pascalvisual object classes(voc)challenge.In IJCV,2010.)上预训练好的神经网络DeepLab-ResNet101(可参见Liangchieh Chen,George Papandreou,Iasonas Kokkinos,Kevin P Murphy,and Alan L Yuille.Deeplab:Semantic image segmentation withdeep convolutional nets,atrous convolution,and fully connected crfs.In PAMI,2018.)来提取视觉特征,从而得到三个尺度的视觉特征:
1.3语言特征编码器:
对于输入的语言描述,我们首先利用预训练好的词向量Glove(可参见JeffreyPennington,Richard Socher,and Christopher Manning.Glove:Global vectors forword representation.In EMNLP,2014.)来将语言转换成特征向量,接着利用LSTM(可参见Sepp Hochreiter and Jurgen Schmidhuber.1997.Long short-term memory.NeuralComputation(1997))作为语言编码器,得到语言特征:
1.4多模态多尺度的特征编码器:
为了得到视觉和语言的联合表示,我们将两种模态的信息进行多模态融合,首先我们将语言特征的维度变成1×1×1024,接着,我们将视觉特征Fv1与其进行融合得到Fm1,其过程如下式:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中σ为Leaky-ReLU激活函数,⊙为Hadamard积,Wv1和Wt为可学习的权重。接着,我们进行多尺度的融合,如下式所示:
1.5单步注意力机制:
如图3(a)所示,给定多模态特征Fm3以及语言特征ft,我们通过以下式子来计算出四个映射矩阵Q,Kc,Kd,V:
Q=ftWQ
V=FmWV
其中,Softmax函数和Sigmoid函数分别定义为:
fcol=AcV
Fdif=Ad Tfcol
最后,我们将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:
F′m3=Fm3+Fdif
1.6级联分组注意力机制:
F′m=[F′m1,…,F′mk]
上述过程通过特征的分组,对特征进行了多次的注意力变换。如图2所示,通过叠加三个上述的分组注意力模块,同时每个注意力模块的k的设置不同,我们设定叠加三个分组注意力模块的组数分别为2,4,8。以上过程即为级联分组注意力机制。接着我们通过一个1x1的卷积,即可得到预测的掩膜
二、模型训练过程
2.1损失函数的计算:
损失函数包含了两部分,一部分是预测结果与标签计算得到的损失函数,另一部分为实例级的损失函数,它计算了Ad与标签g之间的损失函数。具体来说,给定标签G,我们的损失函数l可以表示为:
l=lseg+lila
2.2模型训练参数设置:
在训练过程中,我们使用Adam优化器,并设置初始学习率和batchsize分别为0.001和20。模型总共训练40轮,在第25,30,35轮迭代时,模型的学习率下降10倍。
2.3模型的训练:
对于模型的训练,我们首先将输入的图片和语言经过步骤一得到模型的输出结果,接着我们通过步骤2.1来计算模型输出和标注好的标签之间的损失函数,最后,我们利用损失函数的梯度反向传播来更新步骤一中的模型参数,训练和迭代过程的设置如步骤2.2所描述。最终我们完成整个模型的训练。
三、模型部署过程:
在经过步骤二的模型训练后,对于训练完毕的模型,我们将输入的图片和语言经过步骤一即可得到模型的输出作为模型的预测结果,即输入一张图片和对图片中某个物体的语言描述,模型输出该物体的掩膜。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (6)
1.一种基于注意力机制的图像目标预测方法,用于在RGB图像中获取描述语言针对的物体的掩膜;其特征在于包括如下步骤:
步骤1,设置输入的RGB图像的大小为320×320×3,描述语言的最长文本输入设置为15;
步骤5,基于多模态特征Fm3以及语言特征ft,通过下式计算出四个映射矩阵Q,Kc,Kd,V:
Q=ftWQ
V=FmWV
其中,Softmax函数和Sigmoid函数分别定义为:
fcol=AcV
Fdif=Ad Tfcol
最后,将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵:
F′m3=Fm3+Fdif
F′m=[F′m1,…,F′mk]
通过叠加三个上述的分组注意力模块,同时每个注意力模块的k的设置不同,然后通过1x1的卷积神经网络,即得到预测的掩膜O。
2.如权利要求1所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述步骤2中,利用在VOC目标检测数据集上训练好的神经网络DeepLab-ResNet101提取三个尺度的视觉特征。
3.如权利要求1所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述步骤3中,利用训练好的词向量Glove将描述语言转换成特征向量,然后利用LSTM作为语言编码器,从而得到语言特征。
6.如权利要求5所述的一种基于注意力机制的图像目标预测方法,其特征在于:所述卷积神经网络的训练过程中采用Adam优化器,设置初始学习率和batchsize分别为0.001和20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222985.4A CN112308081B (zh) | 2020-11-05 | 2020-11-05 | 一种基于注意力机制的图像目标预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222985.4A CN112308081B (zh) | 2020-11-05 | 2020-11-05 | 一种基于注意力机制的图像目标预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308081A true CN112308081A (zh) | 2021-02-02 |
CN112308081B CN112308081B (zh) | 2023-05-30 |
Family
ID=74326252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011222985.4A Active CN112308081B (zh) | 2020-11-05 | 2020-11-05 | 一种基于注意力机制的图像目标预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308081B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907530A (zh) * | 2021-02-08 | 2021-06-04 | 南开大学 | 基于分组反向注意力的伪装物体检测方法及系统 |
CN113420660A (zh) * | 2021-06-23 | 2021-09-21 | 西安电子科技大学 | 一种红外图像目标检测模型构建方法、预测方法及系统 |
CN113762251A (zh) * | 2021-08-17 | 2021-12-07 | 慧影医疗科技(北京)有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN113837229A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种知识驱动型的文本到图像生成方法 |
CN115019037A (zh) * | 2022-05-12 | 2022-09-06 | 北京百度网讯科技有限公司 | 对象分割方法及对应模型的训练方法、装置及存储介质 |
CN113762251B (zh) * | 2021-08-17 | 2024-05-10 | 慧影医疗科技(北京)股份有限公司 | 一种基于注意力机制的目标分类方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845499A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于自然语言语义的图像目标检测方法 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN110555434A (zh) * | 2019-09-03 | 2019-12-10 | 浙江科技学院 | 一种局部对比和全局指导的立体图像视觉显著性检测方法 |
CN111126221A (zh) * | 2019-12-16 | 2020-05-08 | 华中师范大学 | 一种融合双向视觉注意力机制的数学公式识别方法及装置 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
-
2020
- 2020-11-05 CN CN202011222985.4A patent/CN112308081B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845499A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于自然语言语义的图像目标检测方法 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN110555434A (zh) * | 2019-09-03 | 2019-12-10 | 浙江科技学院 | 一种局部对比和全局指导的立体图像视觉显著性检测方法 |
CN111126221A (zh) * | 2019-12-16 | 2020-05-08 | 华中师范大学 | 一种融合双向视觉注意力机制的数学公式识别方法及装置 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
Non-Patent Citations (1)
Title |
---|
徐慧;白美丽;万韬阮;薛涛;汤汶;: "基于深度学习的服装图像语义分析与检索推荐", 纺织高校基础科学学报 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907530A (zh) * | 2021-02-08 | 2021-06-04 | 南开大学 | 基于分组反向注意力的伪装物体检测方法及系统 |
CN113420660A (zh) * | 2021-06-23 | 2021-09-21 | 西安电子科技大学 | 一种红外图像目标检测模型构建方法、预测方法及系统 |
CN113762251A (zh) * | 2021-08-17 | 2021-12-07 | 慧影医疗科技(北京)有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN113762251B (zh) * | 2021-08-17 | 2024-05-10 | 慧影医疗科技(北京)股份有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN113837229A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种知识驱动型的文本到图像生成方法 |
CN113837229B (zh) * | 2021-08-30 | 2024-03-15 | 厦门大学 | 一种知识驱动型的文本到图像生成方法 |
CN115019037A (zh) * | 2022-05-12 | 2022-09-06 | 北京百度网讯科技有限公司 | 对象分割方法及对应模型的训练方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112308081B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229474B (zh) | 车牌识别方法、装置及电子设备 | |
CN112308081A (zh) | 一种基于注意力机制的图像目标预测方法 | |
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
US20180018555A1 (en) | System and method for building artificial neural network architectures | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN112308080B (zh) | 面向指向性视觉理解和分割的图像描述预测方法 | |
CN114090780B (zh) | 一种基于提示学习的快速图片分类方法 | |
CN112507995B (zh) | 一种跨模型人脸特征向量的转换系统及方法 | |
WO2022156561A1 (zh) | 一种自然语言处理方法以及装置 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
Yan et al. | Traffic scene semantic segmentation using self-attention mechanism and bi-directional GRU to correlate context | |
CN113313173A (zh) | 基于图表示和改进Transformer的人体解析方法 | |
CN111598118A (zh) | 一种视觉问答任务实现方法及系统 | |
CN114564596A (zh) | 一种基于图注意力机制的跨语言知识图谱链接预测方法 | |
CN113435520A (zh) | 神经网络的训练方法、装置、设备及计算机可读存储介质 | |
CN116797248B (zh) | 基于区块链的数据溯源管理方法及其系统 | |
You et al. | FMWDCT: Foreground mixup into weighted dual-network cross training for semisupervised remote sensing road extraction | |
Peng et al. | Swin transformer-based supervised hashing | |
He et al. | Classification of metro facilities with deep neural networks | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN116467513A (zh) | 基于注意力机制的多模态知识图谱推荐方法、装置及介质 | |
CN116477375A (zh) | 基于人工智能的堆取料控制系统及其方法 | |
CN116177858A (zh) | 高纯石英坩埚的制备方法及其系统 | |
CN114549958A (zh) | 基于上下文信息感知机理的夜间和伪装目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |