CN114049541A - 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 - Google Patents

基于结构化信息特征解耦与知识迁移的视觉场景识别方法 Download PDF

Info

Publication number
CN114049541A
CN114049541A CN202111000756.2A CN202111000756A CN114049541A CN 114049541 A CN114049541 A CN 114049541A CN 202111000756 A CN202111000756 A CN 202111000756A CN 114049541 A CN114049541 A CN 114049541A
Authority
CN
China
Prior art keywords
appearance
features
feature
encoder
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111000756.2A
Other languages
English (en)
Inventor
张云洲
秦操
刘英达
杨非
杜承垚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111000756.2A priority Critical patent/CN114049541A/zh
Publication of CN114049541A publication Critical patent/CN114049541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:使用Canny边缘检测器提取图像的边缘表示形式,并基于自动编码器将其转换为边缘特征矢量;利用微调后的ResNet‑34提取图像的外观特征表示;对于输入图像,送入特征解耦网络分别生成结构化特征向量与外观特征向量,结构化特征向量的特征分布将会与内容教师模块生成的边缘特征矢量进行对比;解码器整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示,提取结构化特征向量作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。

Description

基于结构化信息特征解耦与知识迁移的视觉场景识别方法
技术领域
本发明涉及计算机视觉及机器人领域,具体涉及一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法。
背景技术
准确的场景识别有助于机器人认知自身的状态,很好地完成工作任务。所谓场景,指的是真实世界中,由传感器所记录的某一个时刻某一地点的数据,它包含了各种不同物体的组合。移动机器人的任务就是在不同时间段重复地访问同一场景,并判断出该场景是否是之前所经历过的。场景识别一般围绕“这是哪里”进行展开,通过对场景中的目标进行检测分析,或者进行稳定的特征提取,来对当前所处场景进行分析和判断。例如,在视觉SLAM(Simultaneous Localization and Mapping,即时定位与地图构建)过程中,精准的场景识别可以帮助机器人判断是否已处于之前访问过的环境区域,从而形成闭环检测并进行地图优化,这对于保证地图的一致性、减少累积误差是至关重要的。《IEEE internationalconference on robotics and automation(ICRA),1011–1018,2018》公开了一种可转换的生成器,它可以对图像的昼夜、季节等条件进行变换。该图像变换生成器是基于SURF检测器和稠密描述符所设计的,用于辅助特征匹配,从而在剧烈的外观变化下提高视觉场景识别和度量定位的精度。《IEEE International conference on robotics and automation(ICRA),4489–4495,2018》提出了一种对抗性的、用于终身的、增量的域适应方法。该方法通过使用生成对抗网络来近似源域的特征分布,使得部署模块可以完全独立于大量的源训练数据。《IEEE International Conference on Robotics and Automation(ICRA),9271–9277,2020》提出了一种多光谱域不变框架,该框架通过在目标函数中引入新的约束条件,利用非成对图像变换方法生成具有语义和强区分性的不变图像,展现了在多光谱场景识别任务上有竞争力的性能。因此,视觉场景识别方法的关键问题在于,针对外观变化情形下的网络训练、基于对抗训练的特征解耦和基于结构化信息的知识迁移。
发明内容
针对以往场景识别方法在外观变化情形下的特征冗余交错、图像表征能力的不足,本发明提出了一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法。该方法利用结构信息学习深度解耦的特征表示用于场景识别。通过引入概率知识迁移的方法,实现了结构信息从Canny边缘检测器到结构编码器的迁移,并添加了一个外观教师模型,以帮助外观编码器生成更具体的特征。此外,还引入了仿射变换产生附加噪声至卷积自动编码器中,以解决边缘对视角变化过于敏感的问题。该方法能够提升外观变化情形图像特征的表征能力,从而保证生成的图像特征能够应对复杂的环境变化,提升机器人的场景重识别能力,以服务于导航、定位等应用场景。
本发明的技术方案是这样实现的:
基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:
步骤一,使用Canny边缘检测器提取图像X的边缘表示形式XCE,并基于自动编码器将其转换为矢量XCT
步骤二,利用微调后的ResNet-34提取图像X的外观特征表示XAT
步骤三,对于输入图像X,送入特征解耦网络,则会分别生成结构化特征向量XSC与外观特征向量XA。随后,XSC被送入至DAA用于判断所提取的结构化特征向量是否来自于同一个域。此外,XSC的特征分布将会与内容教师模块生成的XCT进行对比。至于XA,它不仅会被三元组损失函数进行优化,其分布还会与外观教师模块生成的XAT进行对比。
步骤四,解码器DE整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示。提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
进一步地,步骤一:首先为了实现二维的射影变换,需要找到图像中的四个点来估测单应性矩阵。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为
Figure BDA0003233699100000021
来确保视角变化的合理程度。H和W分别为图像的宽度与高度。
图像的边缘表示形式为
XCE=Canny(X) (1)
Canny(·)为Canny边缘检测器提取边缘操作。
边缘的矢量表示则为:
XCT=Auto_encoder(XCE) (2)
Auto_encoder(·)为自动编码器的特征编码操作。
进一步地,步骤二:对于输入图像X,利用微调后的ResNet-34提取外观特征表示XAT
XAT=ResNet(X) (3)
ResNet(·)为提取ResNet-34的倒数第二层特征的操作。
进一步地,步骤三:
对于外观特征,通过编码器EA进行提取,表示为:
XA=EA(X) (4)
通过如下损失函数来对外观编码器进行训练:
Figure BDA0003233699100000031
其中α控制分离的边缘,且yij∈{-1,1}。θA是外观编码器的参数。
结构化内容特征通过编码器ESC进行提取,表示为:
XSC=ESC(X) (6)
为了获得外观不相关的特征,设计了一个具有判别力的外观分类损失函数。在训练阶段,将内容特征送入外观判别器DAA中。ESC的目的就是为了欺骗DAA,使得它无法正确的对内容特征进行分类。
需要基于生成的ESC与交叉熵损失函数对外观判别器进行训练DAA
Figure BDA0003233699100000032
其中,DAA被认为是一个二进制分类器。θDAA是外观判别器的参数,且
Figure BDA0003233699100000033
也可表示为:
Figure BDA0003233699100000034
其中,x是输入内容特征对{xi,xj}的连接特征。注意,
Figure BDA0003233699100000035
的梯度只会反向传播至分类器,而不会更新ESC的其它层。为了实现对抗训练,需要欺骗外观判别器:
Figure BDA0003233699100000041
其中,
Figure BDA0003233699100000042
的梯度将会反向传播至ESC,而此时外观判别器的权重参数则应保持不变。
参考概率知识迁移的做法,首先需要对两个特征空间中的数据样本集合进行概率性建模。这样的话,如何将知识(边缘信息)从XCT迁移至XSC的问题就转换成了最小化分布P与Q之间的联合概率密度分布的散度。考虑到条件概率分布表示了每个样本选择其邻域的概率,这样能够更精确地对特征空间的几何结构进行建模。因此,使用条件概率分布来描述内容教师模型:
Figure BDA0003233699100000043
相似地,学生模型XSC的概率分布表示为:
Figure BDA0003233699100000044
其中,
Figure BDA0003233699100000045
是一个对称的核函数,其宽度为σt。a和b是输入的向量。条件概率之和为1,且范围是[0,1]。
在该教师-学生模型中采用了基于余弦相似度的度量:
Figure BDA0003233699100000046
使用Wasserstein距离作为散度度量:
Figure BDA0003233699100000047
其中,P1和P2分别表示教师模型和学生模型的概率分布。Π(P1,P2)是P1和P2之间所有可能的联合概率分布。作为一个距离函数,Wasserstein距离具有一个很好的性质,即以两个分布的质心之间的距离为下界。采用这样的下界大大减少了计算量。用于训练学生模型(结构内容编码器)的最终损失函数定义为:
Figure BDA0003233699100000048
其中,N为小批次的大小。
与内容教师模型类似,Wasserstein距离也被用来度量XAT和XA概率分布的相似性。因此,外观教师-学生模型的损失函数定义如下:
Figure BDA0003233699100000051
进一步地,步骤四:
采用编码器-解码器架构,并且重构损失被定义为:
Figure BDA0003233699100000052
其中,
Figure BDA0003233699100000053
和θSCADE分别是编码器与解码器的参数。
利用训练好的网络提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。利用生成的特征进行视觉场景识别,图像之间相似度计算采用了余弦距离:
Figure BDA0003233699100000054
本发明的有益效果:本发明的方法充分考虑了外观变化情形下的视觉场景识别,并针对特征解耦、结构化信息整合进行了网络结构的设计及训练,最终利用优化后的结构化内容特征计算图像之间的相似度,完成准确的视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性,有助于开展更智能化的视觉导航等工作。
附图说明
图1本发明利用射影变换模拟视角变化示意图;
图2本发明内容教师模型中自动编码器的网络结构示意图;
图3本发明Canny边缘提取器中使用不同敏感度阈值的实验结果;
图4本发明使用不同模块及其组合的外观预测性能对比;
图5本发明方法执行流程示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明的基于结构化信息特征解耦与知识迁移的视觉场景识别方法,包括如下步骤:
步骤一:对Nordland数据集中,按批次的输入图像至网络。为了实现二维的射影变换,需要找到图像中的四个点来估测单应性矩阵,如图1所示为利用射影变换模拟视角变化示意图。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为
Figure BDA0003233699100000061
来确保视角变化的合理程度。H和W分别为图像的宽度与高度,一般取值H=W=224。
图像的边缘表示形式为
XCE=Canny(X) (1)
Canny(·)为Canny边缘检测器提取边缘操作。
边缘的矢量表示则为:
XCT=Auto_encoder(XCE) (2)
Auto_encoder(·)为自动编码器的特征编码操作,生成的边缘特征的长度设置为2048,自动编码器的结构如图2所示。
步骤二:对于输入图像X,利用微调后的ResNet-34提取外观特征表示XAT
XAT=ResNet(X) (3)
ResNet(·)为提取ResNet-34的倒数第二层特征的操作,ResNet-34网络以学习率1×10-4进行微调。
步骤三:对于外观特征,通过编码器EA进行提取,表示为:
XA=EA(X) (4)
通过如下损失函数来对外观编码器进行训练:
Figure BDA0003233699100000062
其中α控制分离的边缘,且yij∈{-1,1}。θA是外观编码器的参数。设定λ=0.5且将距离限制为1.4。边界阈值β的学习率设定为0.0002且初始值为1.0。
结构化内容特征通过编码器ESC进行提取,表示为:
XSC=ESC(X) (6)
为了获得外观不相关的特征,设计了一个具有判别力的外观分类损失函数。在训练阶段,将内容特征送入外观判别器DAA中。ESC的目的就是为了欺骗DAA,使得它无法正确的对内容特征进行分类。
需要基于生成的ESC与交叉熵损失函数对外观判别器进行训练DAA
Figure BDA0003233699100000071
其中,DAA被认为是一个二进制分类器。θDAA是外观判别器的参数,且
Figure BDA0003233699100000072
也可表示为:
Figure BDA0003233699100000073
其中,x是输入内容特征对{xi,xj}的连接特征。注意,
Figure BDA0003233699100000074
的梯度只会反向传播至分类器,而不会更新ESC的其它层。为了实现对抗训练,需要欺骗外观判别器:
Figure BDA0003233699100000075
其中,
Figure BDA0003233699100000076
的梯度将会反向传播至ESC,而此时外观判别器的权重参数则应保持不变。
参考概率知识迁移的做法,首先需要对两个特征空间中的数据样本集合进行概率性建模。这样的话,如何将知识(边缘信息)从XCT迁移至XSC的问题就转换成了最小化分布P与Q之间的联合概率密度分布的散度。考虑到条件概率分布表示了每个样本选择其邻域的概率,这样能够更精确地对特征空间的几何结构进行建模。因此,使用条件概率分布来描述内容教师模型:
Figure BDA0003233699100000077
相似地,学生模型XSC的概率分布表示为:
Figure BDA0003233699100000078
其中,
Figure BDA0003233699100000079
是一个对称的核函数,其宽度为σt。a和b是输入的向量。条件概率之和为1,且范围是[0,1]。
在该教师-学生模型中采用了基于余弦相似度的度量:
Figure BDA0003233699100000081
使用Wasserstein距离作为散度度量:
Figure BDA0003233699100000082
其中,P1和P2分别表示教师模型和学生模型的概率分布。Π(P1,P2)是P1和P2之间所有可能的联合概率分布。作为一个距离函数,Wasserstein距离具有一个很好的性质,即以两个分布的质心之间的距离为下界。采用这样的下界大大减少了计算量。用于训练学生模型(结构内容编码器)的最终损失函数定义为:
Figure BDA0003233699100000083
其中,N为小批次的大小。
与内容教师模型类似,Wasserstein距离也被用来度量XAT和XA概率分布的相似性。因此,外观教师-学生模型的损失函数定义如下:
Figure BDA0003233699100000084
步骤四:采用编码器-解码器架构,并且重构损失被定义为:
Figure BDA0003233699100000085
其中,
Figure BDA0003233699100000086
和θSCADE分别是编码器与解码器的参数。
利用训练好的网络提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。特征长度设定为512,小批次的大小N设定为4,编码器中的dropout率设定为0.5,判别器中则设定为0.25。
利用生成的特征进行视觉场景识别,图像之间相似度计算采用了余弦距离:
Figure BDA0003233699100000087
使用边缘检测算法作为教师模型来引导内容编码器的学习,因此边缘检测算法作为特征提取器,其参数也是极其重要的。不同的敏感度阈值,会使得生成的边缘信息具有不同的噪声以及准确度。我们调整阈值t从0.02至0.12,测试了添加内容教师模型的实验效果。绘制的PR曲线如图3所示。我们发现并不是阈值越小图像的信息越丰富越好,相反,阈值越小(t=0.02)会带来更多的噪声从而降低整体的性能。阈值越大比如0.12与0.10,边缘信息获取的就越少,也会降低性能。只有当阈值处于合适的范围,如t=0.06时候,能获得最佳的结果。
解耦出来的外观特征可以用来预测每幅图像的外观特性。在Nordland数据集上对四种不同的外观进行预测精度的评测。如图4所示,在采用ATM之前,原始的FDNet所提取的外观特征仅能够实现70.04%的平均精度。得益于ResNet-34预训练的参数及其更深层的网络,单独的ATM在微调之后则能够取得91.29%的精度。FDNet_M的精度则更高于FDNet,这说明了距离权重采样以及基于边缘的损失函数的是具有有效性。CTM的引入能对外观特征的精度有轻微的改进作用,而ATM的引入则明显的改进了外观特征的分类准确度,这意味着该结构能够有效地将知识从ATM迁移到外观编码器中。

Claims (5)

1.一种基于结构化信息特征解耦与知识迁移的视觉场景识别方法,其特征在于,具体步骤如下:
步骤一,使用Canny边缘检测器提取图像X的边缘表示形式XCE,并基于自动编码器将其转换为矢量XCT
步骤二,利用微调后的ResNet-34提取图像X的外观特征表示XAT
步骤三,对于输入图像X,送入特征解耦网络,则会分别生成结构化特征向量XSC与外观特征向量XA;随后,XSC被送入至DAA用于判断所提取的结构化特征向量是否来自于同一个域。此外,XSC的特征分布将会与内容教师模块生成的XCT进行对比。至于XA,它不仅会被三元组损失函数进行优化,其分布还会与外观教师模块生成的XAT进行对比;
步骤四,解码器DE整合输入的特征并重构原始图像,用于鼓励所学习的内容特征与外观特征能够形成完整的输入图像的表示;提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
2.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤一的具体过程如下:
首先为了实现二维的射影变换,需要找到图像中的四个点来估测单应性矩阵。在每帧图像的角落的边框内随机选择四个点。边框的大小设定为
Figure FDA0003233699090000011
来确保视角变化的合理程度。H和W分别为图像的宽度与高度;
图像的边缘表示形式为
XCE=Canny(X) (1)
Canny(·)为Canny边缘检测器提取边缘操作;
边缘的矢量表示则为:
XCT=Auto_encoder(XCE) (2)
Auto_encoder(·)为自动编码器的特征编码操作。
3.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤二的具体过程为:
对于输入图像X,利用微调后的ResNet-34提取外观特征表示XAT
XAT=ResNet(X) (3)
ResNet(·)为提取ResNet-34的倒数第二层特征的操作。
4.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤三的具体过程为:
外观特征通过编码器EA进行提取,表示为:
XA=EA(X) (4)
通过如下损失函数来对外观编码器进行训练:
Figure FDA0003233699090000021
其中α控制分离的边缘,且yij∈{-1,1}。θA是外观编码器的参数;
结构化内容特征通过编码器ESC进行提取,表示为:
XSC=ESC(X) (6)
为了获得外观不相关的特征,设计了一个具有判别力的外观分类损失函数。在训练阶段,将内容特征送入外观判别器DAA中。ESC的目的就是为了欺骗DAA,使得它无法正确的对内容特征进行分类;
需要基于生成的ESC与交叉熵损失函数对外观判别器进行训练DAA
Figure FDA0003233699090000022
其中,DAA被认为是一个二进制分类器。θDAA是外观判别器的参数,且
Figure FDA0003233699090000023
也可表示为:
Figure FDA0003233699090000024
其中,x是输入内容特征对{xi,xj}的连接特征;为了实现对抗训练,需要欺骗外观判别器:
Figure FDA0003233699090000025
其中,
Figure FDA0003233699090000026
的梯度将会反向传播至ESC,而此时外观判别器的权重参数则应保持不变。
首先需要对两个特征空间中的数据样本集合进行概率性建模;将知识(边缘信息)从XCT迁移至XSC的问题就转换成了最小化分布P与Q之间的联合概率密度分布的散度;考虑到条件概率分布表示了每个样本选择其邻域的概率,这样能够更精确地对特征空间的几何结构进行建模。因此,使用条件概率分布来描述内容教师模型:
Figure FDA0003233699090000031
相似地,学生模型XSC的概率分布表示为:
Figure FDA0003233699090000032
其中,
Figure FDA0003233699090000033
是一个对称的核函数,其宽度为σt。a和b是输入的向量。条件概率之和为1,且范围是[0,1]。
在该教师-学生模型中采用了基于余弦相似度的度量:
Figure FDA0003233699090000034
使用Wasserstein距离作为散度度量:
Figure FDA0003233699090000035
其中,P1和P2分别表示教师模型和学生模型的概率分布。Π(P1,P2)是P1和P2之间所有可能的联合概率分布;作为一个距离函数,Wasserstein距离具有一个很好的性质,即以两个分布的质心之间的距离为下界。采用这样的下界大大减少了计算量。用于训练学生模型(结构内容编码器)的最终损失函数定义为:
Figure FDA0003233699090000036
其中,N为小批次的大小;
与内容教师模型类似,Wasserstein距离也被用来度量XAT和XA概率分布的相似性。因此,外观教师-学生模型的损失函数定义如下:
Figure FDA0003233699090000041
5.根据权利要求1所述的一种基于结构化信息的特征解耦与知识迁移的视觉场景识别方法,其特征在于,所述步骤四的具体过程如下:
采用编码器-解码器架构,并且重构损失被定义为:
Figure FDA0003233699090000042
其中,
Figure FDA0003233699090000043
和θSCADE分别是编码器与解码器的参数;
利用训练好的网络提取结构化特征向量XSC作为最终的场景特征,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。利用生成的特征进行视觉场景识别,图像之间相似度计算采用了余弦距离:
Figure FDA0003233699090000044
CN202111000756.2A 2021-08-27 2021-08-27 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 Pending CN114049541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111000756.2A CN114049541A (zh) 2021-08-27 2021-08-27 基于结构化信息特征解耦与知识迁移的视觉场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111000756.2A CN114049541A (zh) 2021-08-27 2021-08-27 基于结构化信息特征解耦与知识迁移的视觉场景识别方法

Publications (1)

Publication Number Publication Date
CN114049541A true CN114049541A (zh) 2022-02-15

Family

ID=80204934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111000756.2A Pending CN114049541A (zh) 2021-08-27 2021-08-27 基于结构化信息特征解耦与知识迁移的视觉场景识别方法

Country Status (1)

Country Link
CN (1) CN114049541A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170919A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN116705195A (zh) * 2023-06-07 2023-09-05 之江实验室 基于矢量量化的图神经网络的药物性质预测方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170919A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN115170919B (zh) * 2022-06-29 2023-09-12 北京百度网讯科技有限公司 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN116705195A (zh) * 2023-06-07 2023-09-05 之江实验室 基于矢量量化的图神经网络的药物性质预测方法和装置
CN116705195B (zh) * 2023-06-07 2024-03-26 之江实验室 基于矢量量化的图神经网络的药物性质预测方法和装置

Similar Documents

Publication Publication Date Title
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
Chen et al. Vehicle detection in high-resolution aerial images via sparse representation and superpixels
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN107657279B (zh) 一种基于少量样本的遥感目标检测方法
CN111612008B (zh) 基于卷积网络的图像分割方法
CN111340738B (zh) 一种基于多尺度渐进融合的图像去雨方法
Zhou et al. Robust vehicle detection in aerial images using bag-of-words and orientation aware scanning
CN110728658A (zh) 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN109341703B (zh) 一种全周期采用CNNs特征检测的视觉SLAM算法
CN111582059A (zh) 一种基于变分自编码器的人脸表情识别方法
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN113111947B (zh) 图像处理方法、装置和计算机可读存储介质
CN114049541A (zh) 基于结构化信息特征解耦与知识迁移的视觉场景识别方法
CN106097381A (zh) 一种基于流形判别非负矩阵分解的目标跟踪方法
CN113160275B (zh) 一种基于多个视频的自动目标跟踪和轨迹计算的方法
CN112861785B (zh) 一种基于实例分割和图像修复的带遮挡行人重识别方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN117218343A (zh) 一种基于深度学习的语义部件姿态估计方法
CN114723764A (zh) 一种点云物体的参数化边缘曲线提取方法
Khellal et al. Pedestrian classification and detection in far infrared images
CN113657414B (zh) 一种物体识别方法
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
Yang et al. A novel vision-based framework for real-time lane detection and tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination