CN113033669B - 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 - Google Patents
一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 Download PDFInfo
- Publication number
- CN113033669B CN113033669B CN202110331476.3A CN202110331476A CN113033669B CN 113033669 B CN113033669 B CN 113033669B CN 202110331476 A CN202110331476 A CN 202110331476A CN 113033669 B CN113033669 B CN 113033669B
- Authority
- CN
- China
- Prior art keywords
- features
- network
- node
- feature
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000000007 visual effect Effects 0.000 title claims abstract description 24
- 238000001914 filtration Methods 0.000 title claims abstract description 17
- 230000004913 activation Effects 0.000 claims abstract description 18
- 238000011176 pooling Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 33
- 239000010410 layer Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Abstract
一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法,包括如下步骤:对每帧输入图像进行基础网络的稠密特征提取,利用池化方式生成二通道描述符。然后利用全连接层与激活函数的结构生成新的通道权重,并与原始输入的卷积特征进行重新尺度化操作,生成过滤特征。随后针对过滤后的特征图,建立完全图模型,通过信息生成网络输出每个节点的影响力信息,并以非线性组合的方式,实现节点特征的更新。最后通过子认证网络,促使同一地点的图像特征映射至相同的特征空间,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性,有助于开展更智能化的视觉导航等工作。
Description
技术领域
本发明涉及计算机视觉及机器人领域,具体涉及一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法。
背景技术
基于视觉的场景识别方法是利用图像特征在最新一帧图像和之前看到过的图像中寻找相关性,判断是否已处于之前访问过的环境区域,从而形成闭环检测并进行地图优化。不同于基于传统特征的场景识别方法仅能处理常见的场景,基于深度卷积特征的提取方法能够保留图像的不变信息,以应对复杂的环境变化。《IEEE Transactions onRobotics,2012,28(5):1188-1197.》采用词袋模型针对图像序列实现了快速的场景识别,但是其算法中所采用的特征提取方式仅基于常见的场景,一旦环境发生显著变化,图像特征也随之变化从而导致场景识别算法失效。《IEEE/RSJ international conference onintelligent robots and systems(IROS),4297-4304,2015》利用深度卷积神经网络提取的图像特征,并在场景识别的准确率上实现了显著的提升,但是所提出的方法过于关注网络架构的设计,而忽略了不同滤波器对特征信息的编码,导致卷积特征信息冗余,不足以对场景进行表示。《IEEE International Conference on Robotics and Automation(ICRA),3223-3230,2017》将场景识别看作分类问题并通过度量学习的方式,使卷积神经网络学习到如何对图片相似程度进行判断。但是该方法仅考虑了图像对之间的信息,而忽略了大量数据之间的互相关联。因此,视觉场景识别方法的关键问题在于,针对外观变化情形下的网络训练、基于特征图过滤的特征提取和用于传播关联信息的图注意力模型。
发明内容
针对以往场景识别方法在外观变化情形、特征冗余、图像关联性利用的不足,本发明提出了一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法。首先利用原始卷积特征层的权重差异性,以学习的方式通过端对端的网络训练进行卷积特征的权重重新标定,并利用三元损失函数进行约束。然后通过图注意力网络模型进行节点间的互信息传播,采用子认证网络迫使相同地点图像的特征映射至特征空间同一点。最后通过反馈损失函数的约束来避免测试过程中图模型的时间损耗,采用优化后的特征进行图像间的相似度计算,实现视觉场景识别。该方法能够抑制针对外观变化情形不鲁棒的图像特征,从而保证生成的图像特征能够应对复杂的环境变化,提升机器人的场景重识别能力,以服务于导航、定位等应用场景。
本发明的技术方案是这样实现的:
基于可学习的特征图过滤与图注意力网络的视觉场景识别方法,包括如下步骤:
步骤一,对每帧输入图像进行基础网络的稠密特征提取,利用池化方式生成二通道描述符。
步骤二,利用全连接层与激活函数的结构生成新的通道权重,并与原始输入的卷积特征进行重新尺度化操作,生成过滤特征。
步骤三,针对过滤后的特征图,建立完全图模型,通过信息生成网络输出每个节点的影响力信息,并以非线性组合的方式,实现节点特征的更新。
步骤四,通过子认证网络,促使同一地点的图像特征映射至相同的特征空间,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
进一步地,步骤一:利用池化方式生成二通道描述符。
特征过滤模块示意图如图1所示,首先对图像提取基于基础网络的稠密特征。随后,利用全局平均池化方式,对稠密特征提取后的空间信息进行压缩生成单通道描述符μnc(xnwhc),再将单通道描述符μnc(xnwhc)采用标准方差池化方式,生成另一个单通道描述符σnc(xnwhc),最终进行连接操作构成二通道描述符snc。
snc=[μnc,σnc] (3)
其中,H为空间总高度,W为空间总宽度,h为当前图像高度,w为当前图像宽度xnwhc为当前图像帧原始特征。
进一步地,步骤二:利用全连接层与激活函数的结构产生新的通道权重并重新构造特征。
通道权重以如下公式进行计算:
m=σ1(W2σ2(W1S)) (4)
其中,σ1与σ2分别表示Sigmoid激活函数与ReLU激活函数。W1 和/>是全连接层的参数,r是通道数缩放比例;S为snc的集合表示,C表示通道维度,/>表示二维矩阵空间。
然后,利用新的通道权重对原始输入的卷积特征进行重新池化操作,得到过滤后的特征图。原始输入的步骤一稠密特征提取后的卷积特征X重新池化过程:
x′c=p(mc·x) (5)
其中,X′表示过滤后的特征,X′=[x′1,x′2,…,x′C]是根据通道数量C进行表示;是以节点数量N进行表示;mC是m中的元素,且x表示X中的单层特征。p表示池化操作。
随后,过滤后的特征图通过使用三元损失函数进行约束,实现过滤特征的重新标定。
进一步地,步骤三:建立完全图模型,通过信息生成网络输出每个节点的影响力信息,并以非线性组合的方式,实现节点特征的更新。
1)完全图模型建立
对输入的过滤后的特征X′,建立完全图模型G(V,E):
V={v1,v2,...,vN} (6)
E={e11,e12,...,e1N,e21,e22,...eNN} (7)
其中,V表示节点集合。每个节点vN都表示X′中单一的特征图。E表示边的集合。在G中,边eij表示两个节点与/>之间的欧式距离:
节点之间的关联程度可以表示为:
其中,αij表示第i个节点与第j个节点之间的关联程度,i、j∈[1~N],γ为权重参数。
L1正则化方法被用于对关联程度αij进行归一化:
2)影响力消息生成与节点更新
消息生成网络由两个全连接层,批量标准化层,以及ReLU激活函数层组成,影响力消息zi有如下表示:
其中I(·)表示消息生成网络。
不同于一般的图注意力网络传播原始的特征的方式,本算法通过传播特征之间的影响力来对节点进行更新如图3所示。单一节点的更新方式如下:
其中表示第i个更新的节点特征,β是权重参数。
1)反馈损失函数
采用均方误差来约束原始特征与优化特征之间的差异:
其中,表示更新后的特征。反馈损失函数是一个额外的用于避免图模型建立的耗时的模块。通过这个模块可以直接输出优化后的特征,而不需要对特征进行预处理。
进一步地,步骤四:通过子认证网络,促使同一地点的图像特征映射至相同的特征空间,并利用余弦距离计算优化特征间的相似度,实现视觉场景识别。
子认证网络接受两个特征输入,由一个全连接层与一个SoftMax激活函数组成。对于输入子认证网络的特征和/>其差异通过如下公式进行计算:
其中·*表示逐元素乘操作。对于训练过程中一个小批次内的每一对图像,利用二进制交叉损失函数来计算最终的损失值:
其中,yi指输入的两个特征对是否属于同一地点的标签值,f(Di)表示全连接层的输出值。
在完成特征的优化过程之后,利用生成的特征进行视觉场景识别,图像之间相似度计算采用了距离:
其中,表示数据库内的参考图像帧,/>表示查询图像帧。
本发明的有益效果:本发明算法充分考虑了外观变化情形下的视觉场景识别,并针对特征不变性、特征间关联程度进行了特征图过滤模块、图注意力网络模型以及影响力生成网络的设计及训练,最终利用优化后的特征计算图像之间的相似度,完成准确的视觉场景识别。极大地提升了机器人在大尺度场景下的视觉定位准确性,有助于开展更智能化的视觉导航等工作。
附图说明
图1本发明特征过滤模块示意图;
图2本发明消息生成网络示意图;
图3本发明基于影响力的非线性节点更新示意图;
图4本发明算法执行流程示意图;
图5本发明权重通道响应示意图;
图6本发明相似度矩阵示意图
图7本发明不同三元损失函数性能PR曲线示意图
图8本发明不同组件性能PR曲线示意图
具体实施方式
步骤一:对Nordland数据集中,按批次的输入图像至AlexNet网络进行稠密特征提取,选择第三层卷积特征作为原始特征xnwhc。一个批次包括8个随机选择的地点,每个地点含有4帧外观不同的图像。利用全局平均池化方式,对空间信息进行压缩生成单通道描述符μnc(xnwhc),再将单通道描述符μnc(xnwhc)采用标准方差池化方式,生成另一个单通道描述符σnc(xnwhc),最终进行连接操作构成二通道描述符snc。
snc=[μnc,σnc] (19)
其中,H=W=224,h为当前图像高度,w为当前图像宽度xnwhc为当前图像帧。
步骤二:输入步骤一生成的二通道描述符至全连接层与激活函数的结构,生成新的通道权重,新的通道权重以如下公式进行计算:
m=σ1(W2σ2(W1S)) (20)
其中,σ1与σ2分别表示Sigmoid激活函数与ReLU激活函数。和/>是全连接层的参数,r是通道数缩放比例,取值为8;S为snc的集合表示,C表示通道维度取值为1024,/>表示二维矩阵空间。通道权重响应如图5所示。
然后,利用新的通道权重对原始输入的卷积特征进行重新尺度化操作,得到过滤后的特征图。原始输入的卷积特征X重新尺度化过程:
x′c=p(mc·x) (21)
其中,X′表示过滤后的特征,X′=[x′1,x′2,...,x′C]是根据通道数量C进行表示;是以节点数量N进行表示;mc是m中的元素,且x表示X中的单层特征。p表示池化操作。
随后,过滤后的特征图通过使用三元损失函数进行约束,实现过滤特征的重新标定。
步骤三:
1)完全图模型建立
对输入的特征X′,建立完全图模型G(V,E):
V={v1,v2,...,vN} (22)
E={e11,e12,...,e1N,e21,e22,...eNN} (23)
其中V表示节点集合。每个节点vN都表示X′中单一的特征图。E表示边的集合。在G中,边eij表示两个节点与/>之间的欧式距离:
节点之间的关联程度可以表示为:
其中,αij表示第i个节点与第j个节点之间的关联程度,i、j∈[1~N]。γ为超参数,取值为200。
L1正则化方法被用于对关联性进行归一化:
2)影响力消息生成与节点更新
消息生成网络由两个全连接层,批量标准化层,以及ReLU激活函数层组成,影响力消息zi有如下表示:
其中I(·)表示消息生成网络。
结合输出的过滤后的特征,通过传播特征之间的影响力来对节点进行更新。单一节点的更新方式如下:
其中表示第i个更新的节点特征,β是权重参数,设定为0.9。
3)反馈损失函数
采用均方误差来约束原始特征与优化特征之间的差异:
其中,表示优化后的特征。
步骤四:将步骤三生成的优化后的特征,输入至子认证网络中。子认证网络接受两个特征输入,由一个全连接层与一个SoftMax激活函数组成。对于输入子认证网络的特征和/>其差异通过如下公式进行计算:
其中·*表示逐元素乘操作。对于训练过程中一个小批次的每一对图像,利用二进制交叉损失函数来计算最终的损失值来进行优化:
其中,yi指输入的两个特征对是否属于同一地点的标签值,通常取值为0或者1,f(Di)表示全连接层的输出值。
在完成子认证网络的优化过程之后,利用生成的特征计算图像间的相似度并构成相似度矩阵如图6所示。图像之间相似度计算采用了余弦距离:
其中,表示数据库内的参考图像帧,/>表示查询图像帧。
利用相似度矩阵,绘制PR曲线。实验测试了不同的三元损失函数对性能的影响如图7所示。原始的Conv3层网络的效果远远差于使用三元组损失函数优化后的实验结果。该结果还表明,基于三元组损失函数优化后的Conv3特征在判别能力上差异不是很大。
如图8所示,实验还测试了本方法中不同模块对算法性能的影响。从曲线可以看出,单独的使用特征图过滤模块,或者图注意力网络,都会对原始特征进行优化,但是还不足以满足性能要求。在同时使用特征图过滤模块与图注意网络模块之后,实验性能得到了最大的提升。
Claims (4)
1.一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法,其特征在于,具体步骤如下:
步骤一,对每帧输入图像进行基础网络的稠密特征提取,利用池化方式生成二通道描述符;
步骤二,利用全连接层与激活函数的结构生成新的通道权重,并与原始输入的卷积特征进行重新池化操作,生成过滤后的特征图;
步骤三,针对过滤后的特征图,建立完全图模型,通过消息生成网络输出每个节点的影响力信息,并以非线性组合的方式,实现节点特征的更新;
步骤四,通过子认证网络,促使同一地点的图像特征映射至相同的特征空间,不同地点的图像特征映射至不同的空间;并利用余弦距离计算优化特征间的相似度,实现视觉场景识别;
所述步骤三的具体过程为:
1)完全图模型建立
对输入的过滤后的特征X′,建立完全图模型G(V,E):
V={v1,v2,...,vN} (1)
E={e11,e12,...,e1N,e21,e22,...eNN} (2)
其中,V表示节点集合;每个节点vN都表示X′中单一的特征图;E表示边的集合;在G中,边eij表示两个节点与/>之间的欧式距离:
节点之间的关联程度可以表示为:
其中,αij表示第i个节点与第j个节点之间的关联程度,i、j∈[1~N],γ为权重参数;
L1正则化方法被用于对关联程度αij进行归一化:
2)影响力消息生成与节点更新
消息生成网络由两个全连接层,批量标准化层,以及ReLU激活函数层组成,影响力消息zi有如下表示:
其中I(·)表示消息生成网络;
结合输出的过滤后的特征,通过传播特征之间的影响力,利用图注意力网络以非线性组合的方式来对节点进行更新;单一节点的更新方式如下:
其中,表示第i个更新的节点特征,β是权重参数;
3)反馈损失函数
采用均方误差来约束原始特征与优化特征之间的差异:
其中,表示更新后的特征。
2.根据权利要求1所述的一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法,其特征在于,所述步骤一中,利用池化方式生成二通道描述符的具体过程如下:
先利用全局平均池化方式,对稠密特征提取后的空间信息进行压缩生成单通道描述符μnc(xnwhc),再将单通道描述符μnc(xnwhc)采用标准方差池化方式,生成另一个单通道描述符σnc(xnwhc),最终进行连接操作构成二通道描述符snc;
snc=[μnc,σnc] (11)
其中,H为空间总高度,W为空间总宽度,h为当前图像高度,w为当前图像宽度xnwhc为当前图像帧原始特征。
3.根据权利要求1所述的一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法,其特征在于,所述步骤二的具体过程为:
输入步骤一生成的二通道描述符至全连接层与激活函数的结构,生成新的通道权重,新的通道权重以如下公式进行计算:
m=σ1(W2σ2(W1S)) (4)
其中,σ1与σ2分别表示Sigmoid激活函数与ReLU激活函数;和/>是全连接层的参数,r是通道数缩放比例;S为snc的集合表示,C表示通道维度,/>表示二维矩阵空间;
然后,利用新的通道权重对原始输入的卷积特征进行重新池化操作,得到过滤后的特征图;原始输入的步骤一稠密特征提取后的卷积特征X重新池化过程:
x′C=p(mC·x) (5)
其中,X′表示过滤后的特征,X′=[x′1,x′2,...,x′C]是根据通道数量C进行表示;是以节点数量N进行表示;mC是m中的元素,且x表示X中的单层特征,p表示池化操作;
随后,过滤后的特征图通过使用三元损失函数进行约束,实现过滤特征的重新标定。
4.根据权利要求1所述的一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法,其特征在于,所述步骤四的具体过程如下:
子认证网络接受两个特征输入,由一个全连接层与一个SoftMax激活函数组成;对于输入子认证网络的特征和/>其差异通过如下公式进行计算:
其中·*表示逐元素乘操作;对于训练过程中一个小批次的每一对图像,利用二进制交叉损失函数来计算最终的损失值来进行优化:
其中,yi指输入的两个特征对是否属于同一地点的标签值,f(Di)表示全连接层的输出值;
在完成子认证网络的优化之后,利用生成的特征进行视觉场景识别,图像之间相似度计算采用了余弦距离:
其中,表示数据库内的参考图像帧,/>表示查询图像帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110331476.3A CN113033669B (zh) | 2021-03-29 | 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110331476.3A CN113033669B (zh) | 2021-03-29 | 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033669A CN113033669A (zh) | 2021-06-25 |
CN113033669B true CN113033669B (zh) | 2024-05-14 |
Family
ID=
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012006578A2 (en) * | 2010-07-08 | 2012-01-12 | The Regents Of The University Of California | End-to-end visual recognition system and methods |
EP2706756A1 (en) * | 2012-09-10 | 2014-03-12 | Kabushiki Kaisha Toshiba | Scene information processing apparatus, scene information processing method, and electronic device |
CN103678660A (zh) * | 2013-12-24 | 2014-03-26 | 北京邮电大学 | 一种图像检索方法 |
CN108229674A (zh) * | 2017-02-21 | 2018-06-29 | 北京市商汤科技开发有限公司 | 聚类用神经网络的训练方法和装置、聚类方法和装置 |
CN110704694A (zh) * | 2019-09-29 | 2020-01-17 | 哈尔滨工业大学(威海) | 一种基于网络表示学习的组织层级划分方法及其应用 |
CN111079780A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院深圳先进技术研究院 | 空间图卷积网络的训练方法、电子设备及存储介质 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111599406A (zh) * | 2020-05-25 | 2020-08-28 | 江南大学 | 结合网络聚类方法的全局多网络比对方法 |
CN111738817A (zh) * | 2020-05-15 | 2020-10-02 | 苏宁金融科技(南京)有限公司 | 识别风险社区的方法及系统 |
CN112070054A (zh) * | 2020-09-17 | 2020-12-11 | 福州大学 | 基于图结构与注意力机制的车载激光点云标线分类方法 |
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012006578A2 (en) * | 2010-07-08 | 2012-01-12 | The Regents Of The University Of California | End-to-end visual recognition system and methods |
EP2706756A1 (en) * | 2012-09-10 | 2014-03-12 | Kabushiki Kaisha Toshiba | Scene information processing apparatus, scene information processing method, and electronic device |
CN103678660A (zh) * | 2013-12-24 | 2014-03-26 | 北京邮电大学 | 一种图像检索方法 |
CN108229674A (zh) * | 2017-02-21 | 2018-06-29 | 北京市商汤科技开发有限公司 | 聚类用神经网络的训练方法和装置、聚类方法和装置 |
CN110704694A (zh) * | 2019-09-29 | 2020-01-17 | 哈尔滨工业大学(威海) | 一种基于网络表示学习的组织层级划分方法及其应用 |
CN111079780A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院深圳先进技术研究院 | 空间图卷积网络的训练方法、电子设备及存储介质 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111738817A (zh) * | 2020-05-15 | 2020-10-02 | 苏宁金融科技(南京)有限公司 | 识别风险社区的方法及系统 |
CN111599406A (zh) * | 2020-05-25 | 2020-08-28 | 江南大学 | 结合网络聚类方法的全局多网络比对方法 |
CN112070054A (zh) * | 2020-09-17 | 2020-12-11 | 福州大学 | 基于图结构与注意力机制的车载激光点云标线分类方法 |
Non-Patent Citations (4)
Title |
---|
Learning Dual Semantic Relations With Graph Attention for Image-Text Matching;Keyu Wen 等;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20201013;第31卷(第7期);2866-2879 * |
基于深度学习的场景识别研究;姜啸远;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315(第03期);I138-1901 * |
基于超像素分割和图神经网络的图像语义分割研究;王小雨;《中国优秀硕士学位论文全文数据库信息科技辑》;20200515(第05期);I138-152 * |
跨模态异构行人再识别的研究进展;孙锐 等;《模式识别与人工智能》;20201231;第33卷(第12期);1066-1082 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN113205466B (zh) | 一种基于隐空间拓扑结构约束的残缺点云补全方法 | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN112016601B (zh) | 基于知识图谱增强小样本视觉分类的网络模型构建方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN113435520A (zh) | 神经网络的训练方法、装置、设备及计算机可读存储介质 | |
CN112329801A (zh) | 一种卷积神经网络非局部信息构建方法 | |
CN117252928B (zh) | 用于电子产品模块化智能组装的视觉图像定位系统 | |
CN114049541A (zh) | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 | |
CN113033669B (zh) | 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN111578956A (zh) | 一种基于深度学习的视觉slam定位方法 | |
CN116503654A (zh) | 基于二分图结构进行人物交互检测的多模态特征融合方法 | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
CN114549958B (zh) | 基于上下文信息感知机理的夜间和伪装目标检测方法 | |
CN113255937B (zh) | 一种面向智能车间不同智能体之间的联邦学习方法及系统 | |
CN114882072A (zh) | 一种多通道图像特征融合的高速相关滤波目标追踪方法 | |
CN112861848B (zh) | 基于动作条件已知的视觉关系检测方法及系统 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
CN111428674B (zh) | 一种保持多度量空间一致性的多损失联合训练方法 | |
CN114581485A (zh) | 一种基于语言建模式孪生网络的目标跟踪方法 | |
CN113033669A (zh) | 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法 | |
CN115082704B (zh) | 基于相关性滤波的文本行人重识别方法 | |
CN115641525A (zh) | 一种基于视频的多人行为分析方法 | |
CN117852644A (zh) | 一种基于bert和yolo的多模态视觉推理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |