CN114049541A - 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 - Google Patents
基于结构化信息特征解耦与知识迁移的视觉场景识别方法 Download PDFInfo
- Publication number
- CN114049541A CN114049541A CN202111000756.2A CN202111000756A CN114049541A CN 114049541 A CN114049541 A CN 114049541A CN 202111000756 A CN202111000756 A CN 202111000756A CN 114049541 A CN114049541 A CN 114049541A
- Authority
- CN
- China
- Prior art keywords
- appearance
- features
- feature
- encoder
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013508 migration Methods 0.000 title claims abstract description 19
- 230000005012 migration Effects 0.000 title claims abstract description 16
- 238000009826 distribution Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 15
- 230000008859 change Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:使用Canny边缘检测器提取图像的边缘表示形式,并基于自动编码器将其转换为边缘特征矢量;利用微调后的ResNet‑34提取图像的外观特征表示;对于输入图像,送入特征解耦网络分别生成结构化特征向量与外观特征向量,结构化特征向量的特征分布将会与内容教师模块生成的边缘特征矢量进行对比;解码器整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示,提取结构化特征向量作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
Description
技术领域
本发明涉及计算机视觉及机器人领域,具体涉及一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法。
背景技术
准确的场景识别有助于机器人认知自身的状态,很好地完成工作任务。所谓场景,指的是真实世界中,由传感器所记录的某一个时刻某一地点的数据,它包含了各种不同物体的组合。移动机器人的任务就是在不同时间段重复地访问同一场景,并判断出该场景是否是之前所经历过的。场景识别一般围绕“这是哪里”进行展开,通过对场景中的目标进行检测分析,或者进行稳定的特征提取,来对当前所处场景进行分析和判断。例如,在视觉SLAM(Simultaneous Localization and Mapping,即时定位与地图构建)过程中,精准的场景识别可以帮助机器人判断是否已处于之前访问过的环境区域,从而形成闭环检测并进行地图优化,这对于保证地图的一致性、减少累积误差是至关重要的。《IEEE internationalconference on robotics and automation(ICRA),1011–1018,2018》公开了一种可转换的生成器,它可以对图像的昼夜、季节等条件进行变换。该图像变换生成器是基于SURF检测器和稠密描述符所设计的,用于辅助特征匹配,从而在剧烈的外观变化下提高视觉场景识别和度量定位的精度。《IEEE International conference on robotics and automation(ICRA),4489–4495,2018》提出了一种对抗性的、用于终身的、增量的域适应方法。该方法通过使用生成对抗网络来近似源域的特征分布,使得部署模块可以完全独立于大量的源训练数据。《IEEE International Conference on Robotics and Automation(ICRA),9271–9277,2020》提出了一种多光谱域不变框架,该框架通过在目标函数中引入新的约束条件,利用非成对图像变换方法生成具有语义和强区分性的不变图像,展现了在多光谱场景识别任务上有竞争力的性能。因此,视觉场景识别方法的关键问题在于,针对外观变化情形下的网络训练、基于对抗训练的特征解耦和基于结构化信息的知识迁移。
发明内容
针对以往场景识别方法在外观变化情形下的特征冗余交错、图像表征能力的不足,本发明提出了一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法。该方法利用结构信息学习深度解耦的特征表示用于场景识别。通过引入概率知识迁移的方法,实现了结构信息从Canny边缘检测器到结构编码器的迁移,并添加了一个外观教师模型,以帮助外观编码器生成更具体的特征。此外,还引入了仿射变换产生附加噪声至卷积自动编码器中,以解决边缘对视角变化过于敏感的问题。该方法能够提升外观变化情形图像特征的表征能力,从而保证生成的图像特征能够应对复杂的环境变化,提升机器人的场景重识别能力,以服务于导航、定位等应用场景。
本发明的技术方案是这样实现的:
基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:
步骤一,使用Canny边缘检测器提取图像X的边缘表示形式XCE,并基于自动编码器将其转换为矢量XCT;
步骤二,利用微调后的ResNet-34提取图像X的外观特征表示XAT;
步骤三,对于输入图像X,送入特征解耦网络,则会分别生成结构化特征向量XSC与外观特征向量XA。随后,XSC被送入至DAA用于判断所提取的结构化特征向量是否来自于同一个域。此外,XSC的特征分布将会与内容教师模块生成的XCT进行对比。至于XA,它不仅会被三元组损失函数进行优化,其分布还会与外观教师模块生成的XAT进行对比。
步骤四,解码器DE整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示。提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
图像的边缘表示形式为
XCE=Canny(X) (1)
Canny(·)为Canny边缘检测器提取边缘操作。
边缘的矢量表示则为:
XCT=Auto_encoder(XCE) (2)
Auto_encoder(·)为自动编码器的特征编码操作。
进一步地,步骤二:对于输入图像X,利用微调后的ResNet-34提取外观特征表示XAT:
XAT=ResNet(X) (3)
ResNet(·)为提取ResNet-34的倒数第二层特征的操作。
进一步地,步骤三:
对于外观特征,通过编码器EA进行提取,表示为:
XA=EA(X) (4)
通过如下损失函数来对外观编码器进行训练:
其中α控制分离的边缘,且yij∈{-1,1}。θA是外观编码器的参数。
结构化内容特征通过编码器ESC进行提取,表示为:
XSC=ESC(X) (6)
为了获得外观不相关的特征,设计了一个具有判别力的外观分类损失函数。在训练阶段,将内容特征送入外观判别器DAA中。ESC的目的就是为了欺骗DAA,使得它无法正确的对内容特征进行分类。
需要基于生成的ESC与交叉熵损失函数对外观判别器进行训练DAA:
参考概率知识迁移的做法,首先需要对两个特征空间中的数据样本集合进行概率性建模。这样的话,如何将知识(边缘信息)从XCT迁移至XSC的问题就转换成了最小化分布P与Q之间的联合概率密度分布的散度。考虑到条件概率分布表示了每个样本选择其邻域的概率,这样能够更精确地对特征空间的几何结构进行建模。因此,使用条件概率分布来描述内容教师模型:
相似地,学生模型XSC的概率分布表示为:
在该教师-学生模型中采用了基于余弦相似度的度量:
使用Wasserstein距离作为散度度量:
其中,P1和P2分别表示教师模型和学生模型的概率分布。Π(P1,P2)是P1和P2之间所有可能的联合概率分布。作为一个距离函数,Wasserstein距离具有一个很好的性质,即以两个分布的质心之间的距离为下界。采用这样的下界大大减少了计算量。用于训练学生模型(结构内容编码器)的最终损失函数定义为:
其中,N为小批次的大小。
与内容教师模型类似,Wasserstein距离也被用来度量XAT和XA概率分布的相似性。因此,外观教师-学生模型的损失函数定义如下:
进一步地,步骤四:
采用编码器-解码器架构,并且重构损失被定义为:
利用训练好的网络提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。利用生成的特征进行视觉场景识别,图像之间相似度计算采用了余弦距离:
本发明的有益效果:本发明的方法充分考虑了外观变化情形下的视觉场景识别,并针对特征解耦、结构化信息整合进行了网络结构的设计及训练,最终利用优化后的结构化内容特征计算图像之间的相似度,完成准确的视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性,有助于开展更智能化的视觉导航等工作。
附图说明
图1本发明利用射影变换模拟视角变化示意图;
图2本发明内容教师模型中自动编码器的网络结构示意图;
图3本发明Canny边缘提取器中使用不同敏感度阈值的实验结果;
图4本发明使用不同模块及其组合的外观预测性能对比;
图5本发明方法执行流程示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明的基于结构化信息特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:
步骤一:对Nordland数据集中,按批次的输入图像至网络。为了实现二维的射影变换,需要找到图像中的四个点来估测单应性矩阵,如图1所示为利用射影变换模拟视角变化示意图。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为来确保视角变化的合理程度。H和W分别为图像的宽度与高度,一般取值H=W=224。
图像的边缘表示形式为
XCE=Canny(X) (1)
Canny(·)为Canny边缘检测器提取边缘操作。
边缘的矢量表示则为:
XCT=Auto_encoder(XCE) (2)
Auto_encoder(·)为自动编码器的特征编码操作,生成的边缘特征的长度设置为2048,自动编码器的结构如图2所示。
步骤二:对于输入图像X,利用微调后的ResNet-34提取外观特征表示XAT:
XAT=ResNet(X) (3)
ResNet(·)为提取ResNet-34的倒数第二层特征的操作,ResNet-34网络以学习率1×10-4进行微调。
步骤三:对于外观特征,通过编码器EA进行提取,表示为:
XA=EA(X) (4)
通过如下损失函数来对外观编码器进行训练:
其中α控制分离的边缘,且yij∈{-1,1}。θA是外观编码器的参数。设定λ=0.5且将距离限制为1.4。边界阈值β的学习率设定为0.0002且初始值为1.0。
结构化内容特征通过编码器ESC进行提取,表示为:
XSC=ESC(X) (6)
为了获得外观不相关的特征,设计了一个具有判别力的外观分类损失函数。在训练阶段,将内容特征送入外观判别器DAA中。ESC的目的就是为了欺骗DAA,使得它无法正确的对内容特征进行分类。
需要基于生成的ESC与交叉熵损失函数对外观判别器进行训练DAA:
参考概率知识迁移的做法,首先需要对两个特征空间中的数据样本集合进行概率性建模。这样的话,如何将知识(边缘信息)从XCT迁移至XSC的问题就转换成了最小化分布P与Q之间的联合概率密度分布的散度。考虑到条件概率分布表示了每个样本选择其邻域的概率,这样能够更精确地对特征空间的几何结构进行建模。因此,使用条件概率分布来描述内容教师模型:
相似地,学生模型XSC的概率分布表示为:
在该教师-学生模型中采用了基于余弦相似度的度量:
使用Wasserstein距离作为散度度量:
其中,P1和P2分别表示教师模型和学生模型的概率分布。Π(P1,P2)是P1和P2之间所有可能的联合概率分布。作为一个距离函数,Wasserstein距离具有一个很好的性质,即以两个分布的质心之间的距离为下界。采用这样的下界大大减少了计算量。用于训练学生模型(结构内容编码器)的最终损失函数定义为:
其中,N为小批次的大小。
与内容教师模型类似,Wasserstein距离也被用来度量XAT和XA概率分布的相似性。因此,外观教师-学生模型的损失函数定义如下:
步骤四:采用编码器-解码器架构,并且重构损失被定义为:
利用训练好的网络提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。特征长度设定为512,小批次的大小N设定为4,编码器中的dropout率设定为0.5,判别器中则设定为0.25。
利用生成的特征进行视觉场景识别,图像之间相似度计算采用了余弦距离:
使用边缘检测算法作为教师模型来引导内容编码器的学习,因此边缘检测算法作为特征提取器,其参数也是极其重要的。不同的敏感度阈值,会使得生成的边缘信息具有不同的噪声以及准确度。我们调整阈值t从0.02至0.12,测试了添加内容教师模型的实验效果。绘制的PR曲线如图3所示。我们发现并不是阈值越小图像的信息越丰富越好,相反,阈值越小(t=0.02)会带来更多的噪声从而降低整体的性能。阈值越大比如0.12与0.10,边缘信息获取的就越少,也会降低性能。只有当阈值处于合适的范围,如t=0.06时候,能获得最佳的结果。
解耦出来的外观特征可以用来预测每幅图像的外观特性。在Nordland数据集上对四种不同的外观进行预测精度的评测。如图4所示,在采用ATM之前,原始的FDNet所提取的外观特征仅能够实现70.04%的平均精度。得益于ResNet-34预训练的参数及其更深层的网络,单独的ATM在微调之后则能够取得91.29%的精度。FDNet_M的精度则更高于FDNet,这说明了距离权重采样以及基于边缘的损失函数的是具有有效性。CTM的引入能对外观特征的精度有轻微的改进作用,而ATM的引入则明显的改进了外观特征的分类准确度,这意味着该结构能够有效地将知识从ATM迁移到外观编码器中。
Claims (5)
1.一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法,其特征在于,具体步骤如下:
步骤一,使用Canny边缘检测器提取图像X的边缘表示形式XCE,并基于自动编码器将其转换为矢量XCT;
步骤二,利用微调后的ResNet-34提取图像X的外观特征表示XAT;
步骤三,对于输入图像X,送入特征解耦网络,则会分别生成结构化特征向量XSC与外观特征向量XA;随后,XSC被送入至DAA用于判断所提取的结构化特征向量是否来自于同一个域。此外,XSC的特征分布将会与内容教师模块生成的XCT进行对比。至于XA,它不仅会被三元组损失函数进行优化,其分布还会与外观教师模块生成的XAT进行对比;
步骤四,解码器DE整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示;提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
3.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤二的具体过程为:
对于输入图像X,利用微调后的ResNet-34提取外观特征表示XAT:
XAT=ResNet(X) (3)
ResNet(·)为提取ResNet-34的倒数第二层特征的操作。
4.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤三的具体过程为:
外观特征通过编码器EA进行提取,表示为:
XA=EA(X) (4)
通过如下损失函数来对外观编码器进行训练:
其中α控制分离的边缘,且yij∈{-1,1}。θA是外观编码器的参数;
结构化内容特征通过编码器ESC进行提取,表示为:
XSC=ESC(X) (6)
为了获得外观不相关的特征,设计了一个具有判别力的外观分类损失函数。在训练阶段,将内容特征送入外观判别器DAA中。ESC的目的就是为了欺骗DAA,使得它无法正确的对内容特征进行分类;
需要基于生成的ESC与交叉熵损失函数对外观判别器进行训练DAA:
其中,x是输入内容特征对{xi,xj}的连接特征;为了实现对抗训练,需要欺骗外观判别器:
首先需要对两个特征空间中的数据样本集合进行概率性建模;将知识(边缘信息)从XCT迁移至XSC的问题就转换成了最小化分布P与Q之间的联合概率密度分布的散度;考虑到条件概率分布表示了每个样本选择其邻域的概率,这样能够更精确地对特征空间的几何结构进行建模。因此,使用条件概率分布来描述内容教师模型:
相似地,学生模型XSC的概率分布表示为:
在该教师-学生模型中采用了基于余弦相似度的度量:
使用Wasserstein距离作为散度度量:
其中,P1和P2分别表示教师模型和学生模型的概率分布。Π(P1,P2)是P1和P2之间所有可能的联合概率分布;作为一个距离函数,Wasserstein距离具有一个很好的性质,即以两个分布的质心之间的距离为下界。采用这样的下界大大减少了计算量。用于训练学生模型(结构内容编码器)的最终损失函数定义为:
其中,N为小批次的大小;
与内容教师模型类似,Wasserstein距离也被用来度量XAT和XA概率分布的相似性。因此,外观教师-学生模型的损失函数定义如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111000756.2A CN114049541A (zh) | 2021-08-27 | 2021-08-27 | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111000756.2A CN114049541A (zh) | 2021-08-27 | 2021-08-27 | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049541A true CN114049541A (zh) | 2022-02-15 |
Family
ID=80204934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111000756.2A Pending CN114049541A (zh) | 2021-08-27 | 2021-08-27 | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049541A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170919A (zh) * | 2022-06-29 | 2022-10-11 | 北京百度网讯科技有限公司 | 图像处理模型训练及图像处理方法、装置、设备和存储介质 |
CN116705195A (zh) * | 2023-06-07 | 2023-09-05 | 之江实验室 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
-
2021
- 2021-08-27 CN CN202111000756.2A patent/CN114049541A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170919A (zh) * | 2022-06-29 | 2022-10-11 | 北京百度网讯科技有限公司 | 图像处理模型训练及图像处理方法、装置、设备和存储介质 |
CN115170919B (zh) * | 2022-06-29 | 2023-09-12 | 北京百度网讯科技有限公司 | 图像处理模型训练及图像处理方法、装置、设备和存储介质 |
CN116705195A (zh) * | 2023-06-07 | 2023-09-05 | 之江实验室 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
CN116705195B (zh) * | 2023-06-07 | 2024-03-26 | 之江实验室 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
Chen et al. | Vehicle detection in high-resolution aerial images via sparse representation and superpixels | |
CN107657279B (zh) | 一种基于少量样本的遥感目标检测方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN111340738B (zh) | 一种基于多尺度渐进融合的图像去雨方法 | |
CN110728658A (zh) | 一种基于深度学习的高分辨率遥感影像弱目标检测方法 | |
CN109341703B (zh) | 一种全周期采用CNNs特征检测的视觉SLAM算法 | |
CN111582059A (zh) | 一种基于变分自编码器的人脸表情识别方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN114049541A (zh) | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 | |
CN106097381A (zh) | 一种基于流形判别非负矩阵分解的目标跟踪方法 | |
CN113160275B (zh) | 一种基于多个视频的自动目标跟踪和轨迹计算的方法 | |
CN112861785B (zh) | 一种基于实例分割和图像修复的带遮挡行人重识别方法 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
CN117218343A (zh) | 一种基于深度学习的语义部件姿态估计方法 | |
CN114723764A (zh) | 一种点云物体的参数化边缘曲线提取方法 | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
CN113657414B (zh) | 一种物体识别方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN114550023A (zh) | 一种交通目标静态信息提取装置 | |
CN117011701A (zh) | 一种层次化特征自主学习的遥感图像特征提取方法 | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |