CN108171141B - 基于注意力模型的级联多模式融合的视频目标跟踪方法 - Google Patents

基于注意力模型的级联多模式融合的视频目标跟踪方法 Download PDF

Info

Publication number
CN108171141B
CN108171141B CN201711426753.9A CN201711426753A CN108171141B CN 108171141 B CN108171141 B CN 108171141B CN 201711426753 A CN201711426753 A CN 201711426753A CN 108171141 B CN108171141 B CN 108171141B
Authority
CN
China
Prior art keywords
mode
depth
layer
level
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711426753.9A
Other languages
English (en)
Other versions
CN108171141A (zh
Inventor
姜明新
江涛
安连永
陈博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bengbu Zhengnuohe Technology Consulting Service Co ltd
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201711426753.9A priority Critical patent/CN108171141B/zh
Publication of CN108171141A publication Critical patent/CN108171141A/zh
Application granted granted Critical
Publication of CN108171141B publication Critical patent/CN108171141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力模型的级联多模式融合的视频目标跟踪方法,在VGG‑16网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络;对构建的网络进行联合训练;提供图像库,图像库包括RGB图像和深度图像,深度图像包括深度通道,对深度图像信息进行HHA编码,将深度通道编码为物体的深度、高度和角度三个通道;将待跟踪的RGB‑D视频输入训练好的网络,在ECO跟踪器中采取更新策略对每一帧图像选择是否更新。本发明首次将全卷积神经网络应用到RGB‑D视频目标跟踪方法中,通过深度学习的方法提取两种模式下级联的深度特征,通过注意力模型分配权重,克服了人工设计特征不够全面的缺点,使追踪结果更加准确。

Description

基于注意力模型的级联多模式融合的视频目标跟踪方法
技术领域
本发明涉及计算机视觉领域,具体为一种基于注意力模型的级联多模式融合的视频目标跟踪方法。
背景技术
视频目标跟踪作为计算机视觉领域的一个热点问题,在很多应用领域扮演着重要的角色,比如:增强现实、自动驾驶、智能视频监控、机器人导航等。随着RGB-D传感器的普及,我们可以获取目标更加准确的深度(Depth)信息,将RGB模式和深度模式信息相融合,将会在很大程度上提高视频目标跟踪的性能。
近年来,出现了一些基于RGB-D数据的视频目标跟踪算法,但遗憾的是这些方法都基于人工设计的特征,存在着很大的局限性。随着深度学习技术在计算机视觉领域的崛起,全卷积神经网络在该领域得到了很广泛的应用,但在RGB-D跟踪方法中还没有相关的研究成果。限制全卷积神经网络在RGB-D跟踪方法中应用的主要原因为:1.在全卷积网络中有效的融合RGB信息和深度信息较为困难;2.RGB信息有3个通道,而深度信息只有一个通道,用RGB图像预训练的全卷积网络来学习深度模式中的特征较为困难;3.训练多模式融合的全卷积网络较为困难。
发明内容
发明目的:为了解决现有技术中视频目标跟踪方法带来的人工设计特征不够全面、结果不够准确的问题,本发明提供一种基于注意力模型的级联多模式融合的视频目标跟踪方法。
技术方案:本发明提供的一种基于注意力模型的级联多模式融合的视频目标跟踪方法,包括以下步骤:
(1)在VGG-16(Visual Geometry Group 16)网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络:
建立RGB模式的级联全卷积网络,所述RGB模式的级联全卷积网络包括第一级卷积层、第二级卷积层、第三级卷积层、第四级卷积层、第五级卷积层,第一级卷积层、第二级卷积层均各有两层,第三级卷积层、第四级卷积层、第五级卷积层均各有三层,将第三级卷积层、第四级卷积层、第五级卷积层输出的特征作为目标跟踪中RGB模式的表达特征;
建立深度模式的级联全卷积网络,所述深度模式的级联全卷积网络包括也包括第一级卷积层、第二级卷积层、第三级卷积层、第四级卷积层、第五级卷积层,第一级卷积层、第二级卷积层均各有两层,第三级卷积层、第四级卷积层、第五级卷积层均各有三层,将第三级卷积层、第四级卷积层、第五级卷积层的特征作为目标跟踪中深度模式的表达特征;
利用注意力模型对两种模式中每一层的表达特征分配权重;构建基于注意力模型的级联多模式融合全卷积神经网络;
(2)提供图像数据库,所述图像数据库包括RGB图像和深度图像,所述深度图像包括深度通道,对深度图像信息进行HHA编码(HHA,Horizontal disparity,Height aboveground,and the Angle),将深度通道编码为物体的深度、高度和角度三个通道;使用RGB图像及编码后的深度图像,对构建好的基于注意力模型的级联多模式融合全卷积神经网络进行联合训练;
(3)将待跟踪视频输入训练好的基于注意力模型的级联多模式融合全卷积神经网络中,从待跟踪视频的第一帧图像开始,获得RGB模式和深度模式的表达特征后,利用注意力模型对两种模式中每一层的表达特征分配权重,得到每一层的多模式融合特征,然后将多模式融合特征送入到ECO跟踪器(the Efficient Convolution Operators tracker)中,得到输出结果,并将输出结果置于模板库中;
(4)所述输出结果中包括选中候选目标的跟踪框,将跟踪框所在的位置对应到该帧图像的深度图像中,计算跟踪框中所有空间位置的深度的平均值作为候选目标深度;设定遮挡阈值,计算该帧图像中的候选目标深度以及候选目标的历史平均深度的差值,若差值低于遮挡阈值,判断为没有发生严重遮挡,则每6帧更新一次模板库;若差值高于或等于遮挡阈值,判断为发生严重遮挡,则放弃这一帧的更新。
进一步的,步骤(1)中的注意力模型包括两个卷积层。
进一步的,步骤(1)中,多模式融合特征为:
Figure BDA0001522214930000021
式中,Fi j为第j层中第i个空间位置的多模式融合特征;
Figure BDA0001522214930000022
表示第k种模式第j层中第i个空间位置的特征值;i为空间位置;j为第j级卷积层;k表示第k种模式,
Figure BDA0001522214930000023
表示第k种模式第j层中第i个空间位置特征值的权重。
进一步的,步骤(1)中,利用注意力模型对每一层的表达特征分配权重,权重
Figure BDA0001522214930000024
为:
Figure BDA0001522214930000025
式中,k取1时表示采用RGB模式,k取2时表示深度模式,K=2。
进一步的,步骤(3)中的待跟踪视频采用RGB-D传感器进行视频采集。
进一步的,步骤(4)中,令dt表示第t帧图像中的候选目标深度,davg表示候选目标的历史平均深度,η表示遮挡阈值,检测遮挡的判据为:
若|dt-davg|>η,则occlusion=0
若|dt-davg|≤η,则occlusion=1 (3)
式中,occlusion=0表示未被遮挡,occlusion=1表示被遮挡,davg通过式(4)进行更新:
Figure BDA0001522214930000031
式中,
Figure BDA0001522214930000032
表示更新后的候选目标的历史平均深度;α为人为设定的更新系数。候选目标的历史平均深度仅计算前面采集到的所有未被严重遮挡的图像,被严重遮挡的图像不被计算在历史平均深度中,以免造成误差。
有益效果:本发明提供的一种基于注意力模型的级联多模式融合的视频目标跟踪方法,相比较现有技术,首次将全卷积神经网络应用到RGB-D视频目标跟踪方法中,通过深度学习的方法提取两种模式下级联的深度特征,通过注意力模型来分配权重,可以克服人工设计特征不够全面,不够准确的技术缺点,可以更加准确的追踪视频目标。
附图说明
图1为本发明方法的系统框图;
图2(a)为实验中第42帧的RGB图像;
图2(b)为实验中第42帧的深度图像;
图2(c)为实验中第42帧的跟踪结果;
图3(a)为实验中第52帧的RGB图像;
图3(b)为实验中第52帧的深度图像;
图3(c)为实验中第52帧的跟踪结果;
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供的一种基于注意力模型的级联多模式融合的视频目标跟踪方法,包括以下步骤:
(1)如图1所示,在VGG-16网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络:
建立RGB模式的级联全卷积网络,所述RGB模式的级联全卷积网络包括第一级卷积层Conv1-2、第二级卷积层Conv2-2、第三级卷积层Conv3-3、第四级卷积层Conv4-3、第五级卷积层Conv5-3,第一级卷积层、第二级卷积层均各有两层,第三级卷积层、第四级卷积层、第五级卷积层均各有三层,将第三级卷积层Conv3-3、第四级卷积层Conv4-3、第五级卷积层Conv5-3输出的特征作为目标跟踪中RGB模式的表达特征;
建立深度模式的级联全卷积网络,所述深度模式的级联全卷积网络包括也包括第一级卷积层HHAConv1-2、第二级卷积层HHAConv1-2、第三级卷积层HHAConv3-3、第四级卷积层HHAConv4-3、第五级卷积层HHAConv5-3,第一级卷积层、第二级卷积层均各有两层,第三级卷积层、第四级卷积层、第五级卷积层均各有三层,将第三池化层HHAConv3-3、第四池化层HHAConv4-3、第五池化层HHAConv5-3输出的特征作为目标跟踪中深度模式的表达特征;
利用注意力模型对两种模式中每一层的表达特征分配权重,构建基于注意力模型的级联多模式融合全卷积神经网络;
其中,多模式融合特征的计算公式为:
Figure BDA0001522214930000041
式中,Fi j为第j层中第i个空间位置的多模式融合特征;
Figure BDA0001522214930000042
表示第k种模式第j层中第i个空间位置的特征值;i为空间位置;j为第j级卷积层;k表示第k种模式,
Figure BDA0001522214930000043
表示第k种模式第j层中第i个空间位置特征值的权重。其中空间位置指:一副图像由若干个像素组成,每个像素都有一个空间位置,如第一行第一列的像素,第n行第n列的像素等。
注意力模型给不同卷积层输出的特征分配不同的权重,本实施例中的注意力模型包括两个卷积层,这样可以和多模式融合全卷积网络一起进行联合训练。权重
Figure BDA0001522214930000044
的分配方法为:
Figure BDA0001522214930000045
式中,k取1时表示采用RGB模式,k取2时表示深度模式,K=2。
(2)由于RGB-D视频数据中RGB信息和深度信息是互补的,深度信息包含了目标的几何信息、距离摄像机的远近等,当目标距离摄像机比较近的时候获得的几何信息会更加准确。RGB信息受距离的影响相对较小,但是无法获得目标距离摄像机的深度信息。如果可以通过多模式融合的方法将两种模式的优势相互融合,互相弥补不足,无疑会提升目标跟踪的准确性和适应性。
所以训练的时候,首先提供现有的图像数据库,所述图像数据库包括RGB图像和深度图像。由于RGB图像包含R、G、B三个通道,而深度图像只包含Depth一个通道,无法利用RGB图像预训练过的全卷积网络对深度图像进行特征提取,所以,本实施例首先对深度图像信息进行HHA编码,将深度通道编码为物体的深度、高度和角度三个通道。通过HHA编码后的深度图像具有和RGB图像相似的结构,这样就可以利用RGB图像预训练过的全卷积网络对其进行特征提取。
使用RGB图像及编码后的深度图像,对构建好的基于注意力模型的级联多模式融合全卷积神经网络进行联合训练;
(3)使用RGB-D传感器采集待跟踪视频,将待跟踪视频输入训练好的基于注意力模型的级联多模式融合全卷积神经网络中,从待跟踪视频的第一帧图像开始,获得RGB模式和深度模式的表达特征后,利用注意力模型对两种模式中每一层的表达特征分配权重,得到每一层的多模式融合特征,然后将多模式融合特征送入到ECO跟踪器中,得到输出结果,并将输出结果置于模板库中;
(4)所述输出结果中包括选中候选目标的跟踪框,将跟踪框所在的位置对应到该帧图像的深度图像中,计算跟踪框中所有空间位置的深度的平均值作为候选目标深度;设定遮挡阈值,计算该帧图像中的候选目标深度以及候选目标的历史平均深度的差值,若差值低于遮挡阈值,判断为没有发生严重遮挡,则每6帧更新一次模板库;若差值高于或等于遮挡阈值,判断为发生严重遮挡,则放弃这一帧的更新。
令dt表示第t帧图像中的候选目标深度,davg表示候选目标的历史平均深度,η表示遮挡阈值,检测遮挡的判据为:
若|dt-davg|>η,则occlusion=0
若|dt-davg|≤η,则occlusion=1 (3)
式中,occlusion=0表示未被遮挡,occlusion=1表示被遮挡,davg通过式(4)进行更新:
Figure BDA0001522214930000051
式中,
Figure BDA0001522214930000052
表示更新后的候选目标的历史平均深度;α为人为设定的更新系数。候选目标的历史平均深度仅计算前面采集到的所有未被严重遮挡的图像,被严重遮挡的图像不被计算在历史平均深度中,以免造成误差。
现有的ECO跟踪器采取的更新策略是固定的每隔若干帧更新一次模型,而本实施例增加了遮挡检测机制,分情况进行更新模型,只选择没有被严重遮挡的进行周期更新,被严重遮挡的放弃更新,使得最终结果更加准确。
为了验证本实施例的效果,分别做了以下实验:实验采用Windows 10操作系统,用MATLAB R2015a作为软件平台,计算机的主要配置为Intel(R)Core(TM)i7-4712MQ CPU@3.40GHz(with 16G memory),带有TITAN GPU(12.00GB memory)。选用普林斯顿大学的RGB-D跟踪数据库PTB Dataset作为本方法中的图像库进行实验。图2和3为PTB dataset中测试视频一Library2.1_occ的跟踪结果对比,图2为第42帧的跟踪,图3为第52帧的跟踪,RGB图像和跟踪结果均为彩色图像。为了区分多种跟踪方法跟踪出来的结果,在跟踪结果的图像中采用附图标记代表不同方法的跟踪结果,实验采用本实施例的跟踪方法(1)与其他四种目前性能比较好的跟踪方法进行比较,其他四种分别是:DS-KCF Tracker(2),OAPFTracker(3),GBM Tracker(4),Prin Tracker(5)。表一为PTB dataset实验的成功率数据对比。
表一 PTB dataset实验的成功率数据对比
Figure BDA0001522214930000061

Claims (6)

1.一种基于注意力模型的级联多模式融合的视频目标跟踪方法,其特征在于,包括以下步骤:
(1)在VGG-16网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络:
建立RGB模式的级联全卷积网络,所述RGB模式的级联全卷积网络包括第一级卷积层、第二级卷积层、第三级卷积层、第四级卷积层、第五级卷积层,第一级卷积层、第二级卷积层均各有两层,第三级卷积层、第四级卷积层、第五级卷积层均各有三层,将第三级卷积层、第四级卷积层、第五级卷积层输出的特征作为目标跟踪中RGB模式的表达特征;
建立深度模式的级联全卷积网络,所述深度模式的级联全卷积网络包括也包括第一级卷积层、第二级卷积层、第三级卷积层、第四级卷积层、第五级卷积层,第一级卷积层、第二级卷积层均各有两层,第三级卷积层、第四级卷积层、第五级卷积层均各有三层,将第三级卷积层、第四级卷积层、第五级卷积层的特征作为目标跟踪中深度模式的表达特征;
利用注意力模型对两种模式中每一层的表达特征分配权重;构建基于注意力模型的级联多模式融合全卷积神经网络;
(2)提供图像数据库,所述图像数据库包括RGB图像和深度图像,所述深度图像包括深度通道,对深度图像信息进行HHA编码,将深度通道编码为物体的深度、高度和角度三个通道;使用RGB图像及编码后的深度图像,对构建好的基于注意力模型的级联多模式融合全卷积神经网络进行联合训练;
(3)将待跟踪视频输入训练好的基于注意力模型的级联多模式融合全卷积神经网络中,从待跟踪视频的第一帧图像开始,获得RGB模式和深度模式的表达特征后,利用注意力模型对两种模式中每一层的表达特征分配权重,得到每一层的多模式融合特征,然后将多模式融合特征送入到ECO跟踪器中,得到输出结果,并将输出结果置于模板库中;
(4)所述输出结果中包括选中候选目标的跟踪框,将跟踪框所在的位置对应到该帧图像的深度图像中,计算跟踪框中所有空间位置的深度的平均值作为候选目标深度;设定遮挡阈值,计算该帧图像中的候选目标深度以及候选目标的历史平均深度的差值,若差值低于遮挡阈值,判断为没有发生严重遮挡,则每6帧更新一次模板库;若差值高于或等于遮挡阈值,判断为发生严重遮挡,则放弃这一帧的更新。
2.根据权利要求1所述的基于注意力模型的级联多模式融合的视频目标跟踪方法,其特征在于,步骤(1)中的注意力模型包括两个卷积层。
3.根据权利要求1所述的基于注意力模型的级联多模式融合的视频目标跟踪方法,其特征在于,步骤(1)中,多模式融合特征为:
Figure FDA0001522214920000021
式中,Fi j为第j层中第i个空间位置的多模式融合特征;
Figure FDA0001522214920000022
表示第k种模式第j层中第i个空间位置的特征值;i为空间位置;j为第j级卷积层;k表示第k种模式,
Figure FDA0001522214920000023
表示第k种模式第j层中第i个空间位置特征值的权重。
4.根据权利要求3所述的基于注意力模型的级联多模式融合的视频目标跟踪方法,其特征在于,步骤(1)中,利用注意力模型对每一层的表达特征分配权重,权重
Figure FDA0001522214920000024
为:
Figure FDA0001522214920000027
式中,k取1时表示采用RGB模式,k取2时表示深度模式,K=2。
5.根据权利要求1所述的基于注意力模型的级联多模式融合的视频目标跟踪方法,其特征在于,步骤(3)中的待跟踪视频采用RGB-D传感器进行视频采集。
6.根据权利要求1所述的基于注意力模型的级联多模式融合的视频目标跟踪方法,其特征在于,步骤(4)中,令dt表示第t帧图像中的候选目标深度,davg表示候选目标的历史平均深度,η表示遮挡阈值,检测遮挡的判据为:
若|dt-davg|>η,则occlusion=0
若|dt-davg|≤η,则occlusion=1 (3)
式中,occlusion=0表示未被遮挡,occlusion=1表示被遮挡,davg通过式(4)进行更新:
Figure FDA0001522214920000025
式中,
Figure FDA0001522214920000026
表示更新后的候选目标的历史平均深度;α为人为设定的更新系数。
CN201711426753.9A 2017-12-25 2017-12-25 基于注意力模型的级联多模式融合的视频目标跟踪方法 Active CN108171141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711426753.9A CN108171141B (zh) 2017-12-25 2017-12-25 基于注意力模型的级联多模式融合的视频目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711426753.9A CN108171141B (zh) 2017-12-25 2017-12-25 基于注意力模型的级联多模式融合的视频目标跟踪方法

Publications (2)

Publication Number Publication Date
CN108171141A CN108171141A (zh) 2018-06-15
CN108171141B true CN108171141B (zh) 2020-07-14

Family

ID=62520826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711426753.9A Active CN108171141B (zh) 2017-12-25 2017-12-25 基于注意力模型的级联多模式融合的视频目标跟踪方法

Country Status (1)

Country Link
CN (1) CN108171141B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875076B (zh) * 2018-07-10 2021-07-20 重庆大学 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN109344725B (zh) * 2018-09-04 2020-09-04 上海交通大学 一种基于时空关注度机制的多行人在线跟踪方法
CN109389621B (zh) * 2018-09-11 2021-04-06 淮阴工学院 基于多模式深度特征融合的rgb-d目标跟踪方法
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110298886B (zh) * 2019-07-01 2020-12-25 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN111493935B (zh) * 2020-04-29 2021-01-15 中国人民解放军总医院 基于人工智能的超声心动图自动预测识别方法及系统
CN111814704B (zh) * 2020-07-14 2021-11-26 陕西师范大学 基于级联注意力与点监督机制的全卷积考场目标检测方法
CN114450720A (zh) * 2020-08-18 2022-05-06 深圳市大疆创新科技有限公司 一种目标检测的方法、装置和车载雷达
CN112101169B (zh) * 2020-09-08 2024-04-05 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备
CN112270251B (zh) 2020-10-26 2021-07-06 清华大学 一种基于互信息的自适应多传感器数据融合方法及系统
CN112949641A (zh) * 2021-02-04 2021-06-11 深圳市广宁股份有限公司 图像分割方法及电子设备、计算机可读存储介质
CN113298154B (zh) * 2021-05-27 2022-11-11 安徽大学 一种rgb-d图像显著目标检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN106803286A (zh) * 2017-01-17 2017-06-06 湖南优象科技有限公司 基于多视点图像的虚实遮挡实时处理方法
CN106952294A (zh) * 2017-02-15 2017-07-14 北京工业大学 一种基于rgb‑d数据的视频跟踪方法
CN107403436A (zh) * 2017-06-26 2017-11-28 中山大学 一种基于深度图像的人物轮廓快速检测与跟踪方法
CN107403423A (zh) * 2017-08-02 2017-11-28 清华大学深圳研究生院 一种光场相机的合成孔径去遮挡方法
CN107480676A (zh) * 2017-07-28 2017-12-15 浙江大华技术股份有限公司 一种车辆颜色识别方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN106803286A (zh) * 2017-01-17 2017-06-06 湖南优象科技有限公司 基于多视点图像的虚实遮挡实时处理方法
CN106952294A (zh) * 2017-02-15 2017-07-14 北京工业大学 一种基于rgb‑d数据的视频跟踪方法
CN107403436A (zh) * 2017-06-26 2017-11-28 中山大学 一种基于深度图像的人物轮廓快速检测与跟踪方法
CN107480676A (zh) * 2017-07-28 2017-12-15 浙江大华技术股份有限公司 一种车辆颜色识别方法、装置和电子设备
CN107403423A (zh) * 2017-08-02 2017-11-28 清华大学深圳研究生院 一种光场相机的合成孔径去遮挡方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Learning Rich Features from RGB-D Images for Object Detection and Segmentation;Saurabh Gupta等;《ECCV 2014》;20140912;345-360 *
Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation;Yanhua Cheng等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;正文第2-3节,图2 *
基于RGBD图像和卷积神经网络的快速道路检测;曲磊等;《光学学报》;20170706;1-15 *
基于卷积神经网络的RGB-D图像室内场景识别研究;杨勇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170615(第06期);I138-1385 *
基于深度神经网络的命名实体识别方法研究;GUL Khan Safi Qamas等;《信息网络安全》;20171010(第10期);正文第1.3、2.3.2节,图2 *

Also Published As

Publication number Publication date
CN108171141A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108171141B (zh) 基于注意力模型的级联多模式融合的视频目标跟踪方法
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111144364B (zh) 一种基于通道注意更新机制的孪生网络目标跟踪方法
CN105430415B (zh) 一种3d‑hevc深度视频帧内快速编码方法
CN106780631B (zh) 一种基于深度学习的机器人闭环检测方法
CN111626128A (zh) 一种基于改进YOLOv3的果园环境下行人检测方法
CN113052876B (zh) 一种基于深度学习的视频接力跟踪方法及系统
CN112560619B (zh) 一种基于多聚焦图像融合的多距离鸟类精准识别方法
CN110633643A (zh) 一种面向智慧社区的异常行为检测方法及系统
CN109584299B (zh) 一种定位方法、定位装置、终端及存储介质
CN107025657A (zh) 一种基于视频图像的车辆行为轨迹检测方法
CN112446882A (zh) 一种动态场景下基于深度学习的鲁棒视觉slam方法
CN106570499A (zh) 一种基于概率图模型的目标跟踪方法
US20220148292A1 (en) Method for glass detection in real scenes
CN112233145A (zh) 一种基于rgb-d时空上下文模型的多目标遮挡跟踪方法
CN112365586A (zh) 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法
CN108537825A (zh) 一种基于迁移学习回归网络的目标跟踪方法
CN113920254B (zh) 一种基于单目rgb的室内三维重建方法及其系统
CN110659593A (zh) 基于改进DiracNet的城市雾霾能见度检测方法
CN109544584B (zh) 一种实现巡检稳像精度测量的方法及系统
CN110717910B (zh) 基于卷积神经网络的ct图像目标检测方法及ct扫描仪
CN112801021A (zh) 基于多级语义信息的车道线检测方法及系统
US20230281862A1 (en) Sampling based self-supervised depth and pose estimation
CN113674349B (zh) 一种基于深度图像二次分割的钢结构识别和定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180615

Assignee: Huaian xiaobaihu coating Engineering Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2020980008693

Denomination of invention: Video target tracking method based on attention model cascaded multi-mode fusion

Granted publication date: 20200714

License type: Common License

Record date: 20201130

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20240116

Address after: 233300 room 804, unit 3, 1 building, California City, Wuhe County, Bengbu, Anhui, China

Patentee after: Bengbu zhengnuohe Technology Consulting Service Co.,Ltd.

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right