CN114998993A - 一种自动驾驶场景下联合行人目标检测与跟踪联合方法 - Google Patents

一种自动驾驶场景下联合行人目标检测与跟踪联合方法 Download PDF

Info

Publication number
CN114998993A
CN114998993A CN202210647074.9A CN202210647074A CN114998993A CN 114998993 A CN114998993 A CN 114998993A CN 202210647074 A CN202210647074 A CN 202210647074A CN 114998993 A CN114998993 A CN 114998993A
Authority
CN
China
Prior art keywords
target
pedestrian
network
graph
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210647074.9A
Other languages
English (en)
Inventor
冯欣
刘妍
单玉梅
薛明龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202210647074.9A priority Critical patent/CN114998993A/zh
Publication of CN114998993A publication Critical patent/CN114998993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及目标检测与跟踪技术领域,尤其涉及一种自动驾驶场景下联合行人目标检测与跟踪联合方法。包括建立行人目标检测网络,获取图像中行人目标的中心位置信息;建立基于图匹配网络的目标关联算法,通过目标特征提取网络提取的目标中心表观特征,与目标的中心位置信息进行融合编码并表示为节点描述符,然后将两帧间检测到的行人目标作为目标节点,节点描述符作为目标节点信息分别构建为目标图;通过图匹配网络在目标图的结构下对其中的行人目标节点进行匹配,获得两帧图像间的行人目标关联矩阵。能够很好的满足在行人密集场景下的多目标跟踪任务需求,提高了行人目标检测的准确性、实时性和行人跟踪的稳定性、持续性。

Description

一种自动驾驶场景下联合行人目标检测与跟踪联合方法
技术领域
本发明涉及目标检测与跟踪技术领域,尤其涉及一种自动驾驶场 景下联合行人目标检测与跟踪联合方法。
背景技术
多目标跟踪旨在分析视频以识别和跟踪属于一个或多个类别的 多个目标。相较于目标检测任务,多目标跟踪任务不仅需要对视频中 每一帧图像中的感兴趣的目标进行检测,还需要对前后帧中的相同目 标进行关联,对新出现的目标以及消失的目标进行处理。
多目标跟踪技术作为计算机视觉领域基础且关键的技术之一在 社会生活的各个方面都具有广泛的应用,主要包括自动驾驶、智能视 频分析、智能交通、人机交互等。而在上述领域的场景中,行人目标 往往是图像中数量最多且最具价值的跟踪目标,单个行人目标在图像 中所占比例更小,检测与跟踪难度更高。
当前大多数多目标跟踪方法通常包括三个任务:目标检测、目标 特征提取和数据关联。但是这三个任务彼此分离,通常会导致额外的 计算成本。为此,本发明考虑将目标特征提取与数据关联结合在一个 统一的框架中来进行学习,提高多目标跟踪方法的效率。
本发明主要研究内容为自动驾驶领域下针对行人目标进行联合 检测与跟踪。我国作为世界上人口数量第一的国家,在多数场景中, 行人目标一直是数量最多且最具有价值的目标。但是,相较于其他物 体,行人目标具有较高的自主性与灵活性,其行动轨迹与意图往往难 以判断。因此,在自动驾驶场景下对行人目标进行检测与跟踪,了解 并分析其运动轨迹,从而对行人异常行为进行预警或控制汽车行驶状 态,一方面可以对行人安全进行保护,另一方面也可以保障交通安全, 使道路通畅。这对行人自身及道路交通安全等方面具有十分重要的意 义。
尽管国内外研究人员针对自动驾驶下的行人目标检测与跟踪联 合技术进行了许多改进,也取得了许多研究成果,但是受诸多因素的 影响,自动驾驶下的行人跟踪技术仍存在上述的诸多问题。行人作为 重要的交通组成部分,相比其他交通成分更为脆弱,是路面上的高危 群体。由于行人具有很强的灵活性和主观意识,其运动方向和速度相 较于车辆更难预测。人类驾驶者能够很容易通过直觉判别行人的意 图,而算法要判别行人意图却不容易。所以在自动驾驶场景下,对行 人运动的判断必须谨慎,不仅要将路面上的行人检测出来,还要对他 们进行跟踪,了解他们的运动轨迹,以提前控制汽车行驶状态,避免 汽车对行人的安全产生威胁。与通用目标检测与跟踪算法相比,行人 目标检测与跟踪过程中背景环境的复杂性、行人运动姿态的多样性、 行人的非刚体性以及人体服饰的多样性使得行人目标检测的准确性、 实时性和行人跟踪的稳定性、持续性面临着巨大的困难。在自动驾驶 场景下,由于车辆的运动十分迅速,背景环境的变化也十分剧烈,对 算法的实时性和远处小目标行人的检测与跟踪效果要求更加严格,使 得行人目标检测与跟踪相比通用目标检测与跟踪面临更加巨大的挑 战。尤其是在夜间条件下,各种灯光、阴影造成行人轮廓不清,与道 旁树干、灯柱等长条柱状体的特征十分相似,与背景融为一体,不易 将其与背景分离开来,对行人目标的检测与跟踪造成了巨大的干扰。 因此自动驾驶场景下的行人跟踪研究充满挑战,且具有重要的实际意 义。
综上所述,在自动驾驶场景下,针对不同环境下行人目标的特性, 并综合考虑检测与跟踪任务,从而设计出准确高效的行人多目标跟踪 框架是目前行人多目标跟踪任务的一个难点。同时,在自动驾驶场景 下,除了对跟踪准确度的要求外,行人多目标跟踪任务对实时性的要 求更高,这就需要对目标检测任务与多目标跟踪任务进行综合考虑。
发明内容
本发明的目的是提供一种自动驾驶场景下联合行人目标检测与 跟踪联合方法,用于解决:自动驾驶下的行人目标检测中,行人目标 检测的准确性、实时性和行人跟踪的稳定性、持续性面临着巨大的困 难。
为了实现上述目的,本发明采用了如下技术方案:
本发明提供一种自动驾驶场景下联合行人目标检测与跟踪联合 方法,包括以下步骤:
S1.建立基于目标中心点的行人目标检测网络,通过将行人目标 中心点作为关键点进行检测,获取图像中行人目标的中心位置信息;
S2.建立基于图匹配网络的目标关联算法,将同一视频中的两帧 图像It1和It2与图像中行人目标的中心位置信息
Figure BDA0003686400560000031
Figure BDA0003686400560000032
作为输入;
通过目标特征提取网络提取的目标中心表观特征
Figure BDA0003686400560000033
Figure BDA0003686400560000034
与目 标的中心位置信息进行融合编码并表示为节点描述符,然后将两帧间 检测到的行人目标作为目标节点
Figure BDA0003686400560000041
节点描述符作为目标节点 信息分别构建为目标图
Figure BDA0003686400560000042
Figure BDA0003686400560000043
通过图匹配网络在目标图的结构下对其中的行人目标节点进行 匹配,获得两帧图像间的行人目标关联矩阵。
进一步地,S1中,所述行人目标检测网络采用DLA-34作为目标 检测任务的骨干网络。
进一步地,S1中,通过将行人目标中心点作为关键点进行检测, 获取图像中获取图像中行人目标的中心位置信息,主要包括:
将前后两帧图像分别通过目标检测网络,获取用于目标检测的特 征图,该特征图与原图像大小相比分辨率为原图像大小的1/4,该特 征图上的每个特征点都被用来进行目标中心点的预测,在网络最后的 目标预测头部分,特征图分别通过三个预测分支输出目标中心热图、 目标中心偏移和目标区域大小信息。
进一步地,所述行人目标检测网络的损失函数设计方法如下:
对于行人目标中心点的类别,使用高斯核函数
Figure BDA0003686400560000044
将所有目标的中心分布在热 图上
Figure BDA0003686400560000045
其中R/r表示目标检测网络的下采样倍数,C表示类 别数;因只针对行人目标,因此C=1,(xk,yk)是目标真值k的中心坐 标,σk表示行人目标尺寸自适应标准差;
对于目标中心偏移GO和目标区域大小GS,如果目标中心在热图 的位置为(i,j),则:
Figure BDA0003686400560000051
GS(i,j,:)=(w,h)
通过使用Focalloss通过对非行人目标的中心点进行抑制;
目标中心点类别损失Lcls、目标中心点位置偏移损失Loff与目标区 域大小损失Lsize,定义如下:
Figure BDA0003686400560000052
Figure BDA0003686400560000053
Figure BDA0003686400560000054
其中,
Figure BDA0003686400560000055
代表网络预测的目标中心热图,其中每个点的值表示属 于行人目标中心点的概率,Y表示真实热图上该点属于目标中心点的 概率,α=0.25代表平衡因子;GO为真实目标中心偏移,
Figure BDA0003686400560000057
为预测的 坐标偏移;
Figure BDA0003686400560000056
表示目标的预测长宽,GS表示目标的真实长宽;
行人目标检测网络的损失函数定义如下:
Ldet=LclsoffLoffsizeLsize
其中,λoff与λsize分别被设置为1和0.1。
进一步地,S2中,所述同一视频中的两帧图像为同一视频中n 个连续帧中的任意两帧图像,所述两帧图像分别输入的的目标特征提 取网络共享模型参数;
所述目标特征提取网络的卷积神经网络为VGG-16网络加上扩展 子网络;
所述目标特征提取网络还额外分支有一卷积层:目标特征降维 层,来缩减该综合特征向量的维度。
进一步地,S2中,图匹配网络包括:
目标节点编码模块,多重图神经网络模块、注意力聚合模块和目 标匹配模块;
所述目标节点编码模块用于使用多层感知器MLP将中心位置信 息嵌入目标中心特征所在的高维向量中;
所述多重图神经网络模块使用信息传递公式沿无向边进行节点 间信息的聚合,并在每一层图神经网络上计算更新节点的表示形式;
所述注意力聚合模块用于执行聚合并计算节点信息传递;
所述匹配模块用于将成对分数表示为特征向量的相似性来计算 所有可能的匹配计算目标关联矩阵。
进一步地,所述图匹配网络的损失函数设计如下:
损失函数的设计考虑有:
新目标进入损失L1
为了计算图像It1和It2之间的目标匹配程度,在It1和It2的相同目标 之间进行一一对应,构建其目标之间对应的标签Lt2∈RM×(N+1),并额 外增加一列表示It1中新进入的目标;M1∈RM×(N+1)表示目标关联矩阵 At1,t2∈R(M+1)×(N+1)的前m行数据,S表示softmax操作,coeff代表对矩 阵系数进行累加使其成为一个标量;新目标进入损失L1计算如下:
Figure BDA0003686400560000061
旧目标退出损失L2
为了计算图像It2和It1之间的目标匹配程度,在It2和It1的相同目标 之间进行一一对应,构建其目标之间对应的标签Lt1∈R(M+1)×N,并额 外增加一列表示It2中消失的目标;M2∈R(M+1)×N表示目标匹配矩阵 At1,t2∈R(M+1)×(N+1)的前N列数据;旧目标退出损失L2计算如下:
Figure BDA0003686400560000071
一致性判断损失L3
通常两帧图像行人目标之间的前向关联与后向关联是一致的,因 此通过计算1和2之间的关联一致性来计算M1与M2之间的损失差异; 一致性判断损失L3损失计算如下:
Figure BDA0003686400560000072
综合判断损失L4
用于抑制前后帧的非最大目标关联结果,综合判断损失L4计算如 下:
Figure BDA0003686400560000073
所述图匹配网络的损失函数为:
Figure BDA0003686400560000074
本发明至少具备以下有益效果:
本发明通过提出的基于目标中心点的行人目标检测网络、基于图 神经网络的行人目标关联算法能够很好的满足在行人密集场景下的 多目标跟踪任务需求,提高了行人目标检测的准确性、实时性和行人 跟踪的稳定性、持续性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于图匹配网络的行人目标检测与跟踪流程示意图;
图2为基于目标中心点的行人目标检测网络示意图;
图3为目标图构建过程示意图;
图4为基于图匹配网络的目标关联算法框架示意图;
图5为图匹配网络结构设计示意图;
图6为目标关联匹配可视化效果图;
图7为测试集跟踪效果可视化展示图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描 述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对行人目标的特点,本发明通过将行人目标中心点作为关键点 进行检测,并直接获取行人目标中心的特征与位置信息,使行人目标 检测任务与目标跟踪任务更加适配。依然是采用基于检测-跟踪范式 的行人多目标跟踪算法,针对以往采用三个模型的多目标跟踪算法存 在的不足,提出基于图匹配网络的行人目标检测与跟踪算法。首先基 于行人目标的特点设计了一个高效简洁的行人目标检测网络;其次为 了简化算法流程,提高算法效率,将目标特征提取模块与目标关联模 块进行联合训练;最后,在目标关联模块,综合考虑行人目标的表观 信息与空间信息,将前后帧中的目标构建为图的形式,并通过图神经网络来学习前后帧目标的相关性。
1.基于图匹配网络的行人目标检测与跟踪基本思路
本方法通过将目标外观特征提取任务与目标关联任务进行联合, 在统一的框架下进行联合训练,从而使跟踪流程更为简洁、高效。基 于图匹配网络的行人目标检测与跟踪流程如图1所示,首先本发明的 方法将前后两帧图像送入目标检测模块对图像中的行人目标进行定 位,然后将图像与目标定位信息送入基于图匹配网络的目标关联模块 进行目标特征提取与目标关联。
行人目标属于中小目标并且在图像中数量较多存在大量遮挡的 情况,因此对于不同场景下的行人目标检测需要特别考虑上述情况。 现有的跟踪方法中的目标检测模块大多是anchor-based目标检测算 法,而本方法所设计的目标检测算法采用anchor-free的思想通过将 行人目标的中心作为一个关键点进行检测,直接获得行人目标中心的 位置。与anchor-based的方法相比,本发明提出的目标检测方法不需 要预设锚框,并且更加适配行人多目标跟踪任务。
而在目标关联模块,不同于以往的跟踪方法将目标特征提取任务 与目标关联任务分离,通过联合两部分任务,本方法首先通过行人目 标的中心位置信息直接提取其中心点的表观特征,并将目标表观特征 与目标中心位置信息进行融合,将融合后的目标信息作为目标节点, 将前后两帧中的目标节点分别以图的方式进行构建,通过图神经网络 的方法学习前后帧间的目标相似度。行人目标其运动方式与运动速度 较为固定,因此目标与目标之间的关系相对来说较为固定,并且十分 适合以图的方式进行存储与学习。因此,本方法将行人目标以图的方 式进行构建并采用图神经网络的方式进行学习能够通过聚合不同目 标节点之间的信息从而学习到前后帧间的目标的相似度。
2.基于目标中心点的行人目标检测算法
2.1.基于目标中心点的行人目标检测网络结构设计
一般目标检测方法要解决的任务是识别图像中的目标并定位目 标的有效范围,而在跟踪任务中,目标检测提供的有效信息主要包括 目标中心点位置和目标特征。因此,根据多目标跟踪任务的需要,基 于检测的跟踪方法不能简单地采用一般的目标检测方法,而应该只需 要获得目标的中心点位置和特征。针对上述考虑,本方法提出在行人 目标检测阶段采用基于中心点的目标检测方法,通过直接输出行人目 标的中心坐标来获取跟踪所需的信息。
目标检测网络结构如图2所示,本发明采用一个增强版的深层聚 合网络(DLA-34)作为目标检测任务的骨干网络,该网络是一个编 码-解码形式的网络结构。与原始的DLA不同,它在低级特征层与高 级特征层之间添加了更多的跳跃连接。类似于FPN,这种跳跃连接使 得网络在高级特征层中融合了低级特征层的信息并增强了网络对场 景深处小目标行人的检测能力。DLA是一种树状网络,可以深度聚合 图像中的目标信息,并且网络通过采用可变形卷积来替代上采样过程 中的所有卷积层,这使得网络可以根据不同行人目标的姿态和大小动 态调整感受野。
本发明的基于行人目标中心点的目标检测网络将前后两帧图像 分别通过骨干网络DLA来获取用于目标检测的特征图,该特征图与 原图像大小相比分辨率为原图像大小的1/4,该特征图上的每个特征 点都被用来进行目标中心点的预测,在网络最后的目标预测头部分特 征图分别通过三个预测分支输出目标中心热图、目标中心偏移和目标 区域大小信息。
2.2.损失函数设计
本发明通过为行人目标中心创建单独的标签从而学习图像中行 人目标中心的位置和类别。首先对于行人目标中心点的类别,本发明 使用高斯核函数
Figure BDA0003686400560000111
将所有目标 的中心分布在热图上
Figure BDA0003686400560000112
其中R/r表示目标检测网络的下采样 倍数,C表示类别数,本发明因只针对行人目标进行研究,因此C=1, (xk,yk)是目标真值k的中心坐标,σk表示行人目标尺寸自适应标准差。 而对于目标中心偏移GO和目标区域大小GS,如果目标中心在热图的 位置为(i,j),则:
Figure BDA0003686400560000113
GS(i,j,:)=(w,h) (2)
在网络所输出的目标中心热力图中,行人目标中心点的数量要远 远少于非行人目标中心点。因此,本发明通过使用Focal loss通过对 非行人目标的中心点进行抑制,从而使网络能够对目标中心点有更好 的预测效果。目标中心点类别损失Lcls,L1损失计算目标中心点位置 偏移损失Loff与目标区域大小损失Lsize。三个损失函数的定义如公式 (3)、(4)、(5)所示:
Figure BDA0003686400560000121
其中,
Figure BDA0003686400560000122
代表网络预测的目标中心热图,其中每个点的值表示属 于行人目标中心点的概率,Y表示真实热图上该点属于目标中心点的 概率,α=0.25代表平衡因子。
为了获得更加精确的目标中心坐标,通过计算真实目标中心偏移 GO与预测的坐标偏移
Figure BDA0003686400560000123
之间的差异损失,本发明定义了如下中心点 偏移损失:
Figure BDA0003686400560000124
目标区域大小的损失主要用于网络对目标的长宽参数的学习。其 定义如下:
Figure BDA0003686400560000125
其中
Figure BDA0003686400560000126
表示目标的预测长宽,GS表示目标的真实长宽。
综合上述损失函数,本发明基于目标中心点的行人目标检测网络 损失函数定义如下:
Ldet=LclsoffLoffsizeLsize (6)
在本发明的实验中λoff与λsize分别被设置为1和0.1。
3.基于图匹配网络的目标关联算法
目前大多数多目标跟踪方法只考虑通过目标的外观特征进行目 标关联。但是除了外观特征外,行人目标的空间位置信息也是重要性 的跟踪线索。如图3所示,行人作为一种具有社会属性的目标,其在 场景中的运动方式一般不会发生突然变化,并且目标与目标之间往往 存在一定联系,因此行人目标十分适合以图结构的方式表示目标与目 标之间的关联。
本方法构建了一个基于目标图的图匹配网络,其中将每帧中检测 到的目标视为节点。在这项工作中,学习特征匹配被视为在两组局部 特征之间找到部分分配。
具体来说,如图4所示,基于图匹配网络的目标关联算法将同一 视频中的两帧图像It1和It2与图像中目标的中心位置信息Pi t1和Pj t2作为 输入,为了捕获更多的输入样本对,这两个帧可以是n个连续帧中的 任意两个帧。为了防止目标的外观和空间发生较大变化,两帧图像之 间的最大间隔数为n=30。其次通过目标特征提取网络所提取到的目 标中心表观特征
Figure BDA0003686400560000131
Figure BDA0003686400560000132
与目标的中心位置信息进行融合编码并表示 为节点描述符,然后将两帧间检测到的行人目标作为目标节点
Figure BDA0003686400560000133
Figure BDA0003686400560000134
节点描述符作为目标节点信息分别构建为目标图
Figure BDA0003686400560000135
Figure BDA0003686400560000136
最后 通过图神经网络将多目标跟踪中的目标关联问题转化为图匹配过程。
接下来本发明首先对目标提取网络的结构进行介绍,然后介绍关 于图匹配网络的结构设计,最后介绍了目标关联算法的损失函数设 计。
3.1目标特征提取网络结构设计
目标特征提取网络对前后帧中检测到的行人目标的通过其中心 位置信息提取行人目标的中心特征进行建模。如图3所示,本方法的 特征提取是通过将成对的视频帧和目标中心信息传递到两个卷积神 经网络中来执行的,这两个卷积神经网络在实现中共享模型参数,并 且它们的架构受到VGG-16网络的启发。
由于多目标跟踪任务的性质和跟踪数据集的特点,网络的输入帧 I∈R3×900×900的尺寸较大。因此,在VGG层之后,通过进一步引入新的 卷积层,将特征图的空间维度减少到56×56以下。由于扩展子网络的 接收域较大,扩展子网络的后几层能够更好地建模目标环境,这有助 于目标跟踪技术的整体性能。表1提供了扩展网络的结构细节。该表 将VGG网络的输出作为扩展网络第一层(索引为0)的输入。其中正则 化层和ReLU层被计算为单独的层数,因此表中第一列每一行索引的 步长为3。
表1扩展网络结构细节
Figure BDA0003686400560000141
Figure BDA0003686400560000151
以往的方法常常采用ROI-Align从特征图中提取特征,但是由于 ROI-Align中的许多采样区域可能包含与行人目标无关的干扰对象或 背景信息。因此,所提取的特征在准确和区别地表示目标对象方面并 不是最优的。相反,通过目标中心位置只提取目标中心点的特征明显 更好。
因此,在目标检测模块获取了行人目标在输入图像中的中心位置 后,通过该中心位置在不同卷积层的特征图中直接提取行人目标的中 心特征作为该目标的代表特征。而在不同层级的特征图中所选取的目 标中心特征包含了目标不同抽象级别的特性。但同时,这将使由多层 特征组合而成的综合特征向量过于庞大,无法实际应用。本发明通过 额外的卷积层来缩减该综合特征向量的维度,这些卷积层是从目标特 征提取网络分支出来的,如图3所示,本发明通过使用额外的1×1卷 积核来进行降维。表2列出了从目标特征提取网络所选取的特征层的 索引,网络将所选9层的目标特征向量连接起来,形成一个520维的目标外观特征向量。
表2目标特征降维层细节
Figure BDA0003686400560000152
Figure BDA0003686400560000161
3.2图匹配网络结构设计
行人是低速物体,对于两个间距较小的帧,行人的位置不会发生 太大变化,并且一个行人相对于其他行人的位置和方向不会发生太大 变化。目标的外观特征和空间信息可以完全用于构造目标图,每个节 点都包含特征提取网络中提取到的目标中心特征以及目标中心位置 信息。本方法的目标是在目标图的结构下对其中的行人目标节点进行 匹配,从而获得两帧图像间的行人目标关联矩阵。如图5所示,本发 明定义的两帧图像It1和It2中的行人目标所构成的目标图Gt1,Gt2中分 别包含{1,…,M}与{1,…,N}个节点。
目标节点编码:以图Gt1为例,在图Gt1中目标节点i的初始表示
Figure BDA0003686400560000162
结合了行人目标的中心特征和中心位置信息。本方法使用多层感知器 (MLP)将中心位置信息嵌入目标中心特征所在的高维向量中,如下 所示:
Figure BDA0003686400560000163
该编码器使图神经网络能够在之后对行人目标的中心特征和位 置信息共同进行推理,尤其是在与注意力机制相结合时,并且这是语 言处理中流行的“位置编码器”的一个实例。
多重图神经网络:本发明所构建的图为完全连接图,其节点是两 帧图像中目标的中心特征与位置信息的编码。该图有两种类型的无向 边——它是一个多路复用图。图Gt1内部的边εself将节点i连接到同一 图内的所有其他节点;图Gt1与Gt2间的边εcross则将节点i连接到另一图 中的所有节点。本发明使用信息传递公式沿两种类型的边进行节点间 信息的聚合,并在每一层图神经网络上计算更新节点的表示形式。
其中,信息传递公式为现有技术,具体请参阅论文如下:
[1]Battaglia P W,Hamrick J B,Bapst V,et al.Relational inductivebiases,deep learning,and graph networks[J].arXiv preprint arXiv:1806.01261,2018.
[2]Gilmer J,Schoenholz S S,Riley P F,et al.Neural message passingforquantum chemistry[C]//:International conference on machine learningPMLR,2017:1263-1272.
Figure BDA0003686400560000171
代表图Gt1中节点i的中间表示,l代表图神经网络的层数。节 点信息传递mε→i是来自所有节点{j:(i,j)∈ε}的聚合结果,其中 ε∈{εselfcross}。Gt1中所有节点i的信息传递更新为:
Figure BDA0003686400560000172
其中[·||·]表示节点信息拼接,该过程可以同时对图Gt1中的所有节 点执行类似的更新。从l=1开始,每一层图神经网络都包含两种信息 聚合形式。
注意力聚合:本方法通过注意力机制执行聚合并计算节点信息传 递mε→i。图结构内部的信息聚合基于自我注意力,图结构之间的信息 聚合则基于交叉注意力。如图3所示,时间间隔相距不大的两幅目标 图其结构往往是相似的。因此,同一图结构内部的节点通过边εself进 行自我信息聚合后对图结构之间进行交叉信息聚合寻找相似节点是 有裨益的。
因此,为了获取本节点对其他节点的注意力,本方法将节点i的 表示形式计算为查询对象qi并基于某些节点的属性(如关键字kj)来 检索某些节点的值vj。该信息被计算为加权平均值:
Figure BDA0003686400560000181
其中注意力权重αij是关键字kj与查询集qi之间相似性的softmax:
Figure BDA0003686400560000182
假设查询集的节点i在图Q中,所有待检索的节点 在图S中,(Q,S)∈{Gt1,Gt2}2,查询集qi、关键字kj与值vj的计算方式如 下:
Figure BDA0003686400560000183
Figure BDA0003686400560000184
每层图神经网络可以根据节点的目标中心特征和目标位置信息 对同一目标图或不同目标图中的节点进行检索,包括访问附近的节点 并检索相对相似或明显的节点的相对位置。最终用于目标关联的特征 向量计算如下:
Figure BDA0003686400560000185
上述过程对图Gt2中的目标节点也是相同的。
目标匹配:如图5,对于目标图Gt1与Gt2,其中节点与节点之间 的对应关系来自于两组节点之间的部分匹配,每个可能的对应关系都 应具有相应的置信度值。但是为所有M×N个潜在匹配建立单独的表 示形式是一项十分繁杂的工作。本发明通过将成对分数表示为特征向 量的相似性来计算所有可能的匹配计算目标关联矩阵At1,t2∈RM×N
Figure BDA0003686400560000191
其中<·,·>是内积。同时为了表示目标之间的匹配,目标的消失和 新目标的出现,本发明在关联矩阵上分别增加了一个新的行与列,以 便为它们明确分配不匹配的目标。这种方法在图匹配以及多目标跟踪 中很常见。通过添加新的行和列(该新的行与列用一个固定的参数填 充)来将目标关联矩阵At1,t2∈RM×N扩展为At1,t2∈R(M+1)×(N+1)
Ai,N+1=AM+1,j=AM+1,N+1∈R (14)
3.3.损失函数设计
目标关联算法的损失函数主要遵循DAN算法的损失函数设计。 该损失函数结合了以下四个考虑:
1)新目标进入损失L1:为了计算图像It1和It2之间的目标匹配程 度,本方法在It1和It2的相同目标之间进行一一对应,构建了其目标之 间对应的标签Lt2∈RM×(N+1),并额外增加一列表示It1中新进入的目标。 M1∈RM×(N+1)表示目标关联矩阵At1,t2∈R(M+1)×(N+1)的前m行数据,S表示 softmax操作,coeff代表对矩阵系数进行累加使其成为一个标量。损 失计算如下:
Figure BDA0003686400560000192
2)旧目标退出损失L2:为了计算图像It2和It1之间的目标匹配程 度,本方法同样在It2和It1的相同目标之间进行一一对应,构建了其目 标之间对应的标签Lt1∈R(M+1)×N,并额外增加一列表示It2中消失的目 标。M2∈R(M+1)×N表示目标匹配矩阵At1,t2∈R(M+1)×(N+1)的前N列数据。损 失计算如下:
Figure BDA0003686400560000201
3)一致性判断损失L3:通常两帧图像行人目标之间的前向关联 与后向关联是一致的。因此,通过计算1和2之间的关联一致性来计 算M1与M2之间的损失差异。损失计算如下:
Figure BDA0003686400560000202
4)综合判断损失L4:用于抑制前后帧的非最大目标关联结果。 损失计算如下:
Figure BDA0003686400560000203
通过结合上述损失函数,本发明在基于图匹配网络的目标关联算 法部分的最终损失函数为:
Figure BDA0003686400560000204
4.实验结果与分析
4.1.数据集与实验设置
本方法在MOT17数据集上对基于图神经网络的多目标跟踪模型 进行训练,输入该网络的图片分辨率大小为900×900,初始学习率 5e-3,batch size为8,训练周期为35,并在第13、22、28、35个周 期时分别降低10倍学习率。为了加速模型的学习过程,本方法将两帧图像中的行人目标分别扩展为Nm=80,当在图像所检测到的行人目 标未到达80则将其填充为空节点,若超过80个则选取前80个置信 度最高的行人目标进行匹配。
本方法的实验环境为Ubuntu 20.04LTS,使用单张Tesla V100对 模型进行训练。本发明的多目标跟踪算法分为基于目标中心点的行人 目标检测网络与基于图神经网络的多目标关联算法两个部分,并且在 行人目标跟踪数据集MOT17中行人密度较一般的目标检测场景大。 因此,为了使行人目标检测网络在MOT17数据集上表现良好并加快 模型训练,本方法首先在CrowdHuman数据集上对行人目标检测网 络进行预训练,输入网络的图片分辨率大小为900×900,模型训练周 期为30,初始学习率为0.0001,每过20个训练周期,分别降低10 倍的学习速率。在获得预训练模型后,本方法将行人目标检测网络在 MOT17数据集上进行微调以便在多目标跟踪场景下获得最好的行人 目标检测效果。为了对模型效果进行验证本方法从MOT17数据集中 选取一个视频序列作为验证集。
4.2.实验结果比较与分析
目标检测器实验结果与分析:本方法在2.2小节提出的行人目标 检测方法将行人目标中心点作为关键点进行检测,这大大提高了在多 目标跟踪场景下针对行人目标的进行检测的能力和效果。通过将该方 法在MOT17数据集上针对行人进行检测所获得的结果与MOT Challenge网站所提供的检测结果进行对比。如表3所示,本发明所 提出的行人目标检测方法虽然在指标AP上略低于SDP检测器,但是 在召回率与精确度等指标上都远远高于其余三个检测器,尤其是针对 行人目标进行正确判别的指标TP上有大幅度提高。这表明本发明的 目标检测方法对行人目标的检测更为精确,这对后续进行前后两帧目 标的关联是十分有利的。
表3不同检测器目标检测结果
Figure BDA0003686400560000221
图匹配网络层数的实验结果与分析:为了验证不同层图匹配网络 对目标关联效果的影响,本方法设计了关于图匹配网络层数的消融实 验。实验结果如表4所示,可以看到当图匹配网络层数加深后相关的 跟踪指标反而存在不同程度的下降,因此,本方法并不需要较深的网 络层数就可以达到较好的跟踪效果。
表4图匹配网络不同层数在验证集上的实验结果
Figure BDA0003686400560000222
与其他算法比较:表5列举了本方法设计的多目标跟踪算法与目 前先进的跟踪算法在MOT17数据集上比较的结果,红色代表最优结 果,蓝色代表次优结果。可以看到,本方法在主要的跟踪指标,如 MOTA、FP与FN上与其他方法相比相差并不大,但是指标IDs上却远远超过其他算法。这说明本方法的算法在行人目标ID上存在频繁 切换情况,主要原因在于本方法所采用的目标关联算法,首先通过目 标特征提取网络进行行人目标特征提取,然后通过图神经网络对前后 两帧图像中行人目标的相似度进行学习,这种做法使得算法直接学习 行人目标特征之间的相似度而使网络并未提取到目标具有强区分性 的目标特征。即使如此,本方法所提出的基于图匹配网络的多目标跟 踪算法依然展现出了不弱于目前先进跟踪算法的性能。
表5与其它算法的结果对比
Figure BDA0003686400560000231
4.3可视化结果比较与分析
为了展示本方法中的目标关联模块的效果,本方法对网络在训练 过程中对前后帧中目标关联的情况进行了可视化操作。如图6所示, 从左到右分别代表MOT17数据集中的三个不同视频序列的目标关联 情况。可以看到,本发明的目标关联方法在图(a)与图(c)中行人密集 场景下仍具有很好的匹配效果,而在图(b)中当前后帧中的目标存在 消失与新进入的情况时,仍然进行了正确的匹配。
图7展示了本方法在MOT17测试集上的跟踪情况,图中每一行 分别代表MOT17测试集中的一个视频序列,从左至右每一列分别代 表每隔30帧本方法的跟踪情况。
5.结论
自动驾驶场景下,行人作为该场景中数量最多且最具研究价值的 目标,一直以来如何针对行人进行稳定高效的跟踪是多目标跟踪领域 研究的热点。本发明首先对基于图匹配网络的行人目标检测与跟踪算 法的思想与思路进行了简单介绍;接着详细介绍了该算法中基于目标 中心点的行人目标检测网络的设计思路与损失函数设计;然后介绍了 基于图神经网络的行人目标关联算法;最后通过实验来分别验证上述 两个模块的有效性并对实验结果进行了分析。通过与其他目标检测算 法以及多目标跟踪算法进行比较,表明了本发明提出的多目标跟踪算 法能够很好的满足在行人密集场景下的多目标跟踪任务需求。
以上显示和描述了本发明的基本原理、主要特征和本发明的优 点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上 述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神 和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落 入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利 要求书及其等同物界定。

Claims (7)

1.一种自动驾驶场景下联合行人目标检测与跟踪联合方法,其特征在于,包括以下步骤:
S1.建立基于目标中心点的行人目标检测网络建立基于目标中心点的行人目标检测网络,通过将行人目标中心点作为关键点进行检测,获取图像中行人目标的中心位置信息;
S2.建立基于图匹配网络的目标关联算法,将同一视频中的两帧图像It1和It2与图像中行人目标的中心位置信息Pi t1
Figure FDA0003686400550000011
作为输入;
通过目标特征提取网络提取的目标中心表观特征
Figure FDA0003686400550000012
Figure FDA0003686400550000013
与目标的中心位置信息进行融合编码并表示为节点描述符,然后将两帧间检测到的行人目标作为目标节点
Figure FDA0003686400550000014
节点描述符作为目标节点信息分别构建为目标图Gt1和Gt2
通过图匹配网络在目标图的结构下对其中的行人目标节点进行匹配,获得两帧图像间的行人目标关联矩阵。
2.根据权利要求1所述的一种自动驾驶场景下联合行人目标检测与跟踪联合方法,其特征在于,S1中,所述行人目标检测网络采用DLA-34作为目标检测任务的骨干网络。
3.根据权利要求2所述的一种自动驾驶场景下联合行人目标检测与跟踪联合方法,其特征在于,S1中,通过将行人目标中心点作为关键点进行检测,获取图像中获取图像中行人目标的中心位置信息,主要包括:
将前后两帧图像分别通过目标检测网络,获取用于目标检测的特征图,该特征图与原图像大小相比分辨率为原图像大小的1/4,该特征图上的每个特征点都被用来进行目标中心点的预测,在网络最后的目标预测头部分,特征图分别通过三个预测分支输出目标中心热图、目标中心偏移和目标区域大小信息。
4.根据权利要求3所述的一种自动驾驶场景下联合行人目标检测与跟踪联合方法,其特征在于,所述行人目标检测网络的损失函数设计方法如下:
对于行人目标中心点的类别,使用高斯核函数
Figure FDA0003686400550000021
将所有目标的中心分布在热图上
Figure FDA0003686400550000022
其中R/r表示目标检测网络的下采样倍数,C表示类别数;因只针对行人目标,因此C=1,(xk,yk)是目标真值k的中心坐标,σk表示行人目标尺寸自适应标准差;
对于目标中心偏移GO和目标区域大小GS,如果目标中心在热图的位置为(i,j),则:
Figure FDA0003686400550000023
GS(i,j,:)=(w,h)
通过使用Focalloss对非行人目标的中心点进行抑制;
目标中心点类别损失Lcls、目标中心点位置偏移损失Loff与目标区域大小损失Lsize,定义如下:
Figure FDA0003686400550000024
Figure FDA0003686400550000025
Figure FDA0003686400550000026
其中,
Figure FDA0003686400550000031
代表网络预测的目标中心热图,其中每个点的值表示属于行人目标中心点的概率,Y表示真实热图上该点属于目标中心点的概率,α=0.25代表平衡因子;GO为真实目标中心偏移,
Figure FDA0003686400550000032
为预测的坐标偏移;
Figure FDA0003686400550000033
表示目标的预测长宽,GS表示目标的真实长宽;
行人目标检测网络的损失函数定义如下:
Ldet=LclsoffLoffsizeLsize
其中,λoff与λsize分别被设置为1和0.1。
5.根据权利要求1所述的一种自动驾驶场景下联合行人目标检测与跟踪联合方法,其特征在于,S2中,所述同一视频中的两帧图像为同一视频中n个连续帧中的任意两帧图像,所述两帧图像分别输入的的目标特征提取网络共享模型参数;
所述目标特征提取网络的卷积神经网络为VGG-16网络加上扩展子网络;
所述目标特征提取网络还额外分支有一卷积层:目标特征降维层,来缩减该综合特征向量的维度。
6.根据权利要求1所述的一种自动驾驶场景下联合行人目标检测与跟踪联合方法,其特征在于,S2中,图匹配网络包括:
目标节点编码模块,多重图神经网络模块、注意力聚合模块和目标匹配模块;
所述目标节点编码模块用于使用多层感知器MLP将中心位置信息嵌入目标中心特征所在的高维向量中;
所述多重图神经网络模块使用信息传递公式沿无向边进行节点间信息的聚合,并在每一层图神经网络上计算更新节点的表示形式;
所述注意力聚合模块用于执行聚合并计算节点信息传递;
所述匹配模块用于将成对分数表示为特征向量的相似性来计算所有可能的匹配计算目标关联矩阵。
7.根据权利要求6所述的一种自动驾驶场景下联合行人目标检测与跟踪联合方法,其特征在于,所述图匹配网络的损失函数设计如下:
损失函数的设计考虑有:
新目标进入损失L1
为了计算图像It1和It2之间的目标匹配程度,在It1和It2的相同目标之间进行一一对应,构建其目标之间对应的标签Lt2∈RM×(N+1),并额外增加一列表示It1中新进入的目标;M1∈RM ×(N+1)表示目标关联矩阵At1,t2∈R(M+1)×(N+1)的前m行数据,S表示softmax操作,coeff代表对矩阵系数进行累加使其成为一个标量;新目标进入损失L1计算如下:
Figure FDA0003686400550000041
旧目标退出损失L2
为了计算图像It2和It1之间的目标匹配程度,在It2和It1的相同目标之间进行一一对应,构建其目标之间对应的标签Lt1∈R(M+1)×N,并额外增加一列表示It2中消失的目标;M2∈R(M +1)×N表示目标匹配矩阵At1,t2∈R(M+1)×(N+1)的前N列数据;旧目标退出损失L2计算如下:
Figure FDA0003686400550000042
一致性判断损失L3
通常两帧图像行人目标之间的前向关联与后向关联是一致的,因此通过计算1和2之间的关联一致性来计算M1与M2之间的损失差异;一致性判断损失L3损失计算如下:
Figure FDA0003686400550000051
综合判断损失L4
用于抑制前后帧的非最大目标关联结果,综合判断损失L4计算如下:
Figure FDA0003686400550000052
所述图匹配网络的损失函数为:
Figure FDA0003686400550000053
CN202210647074.9A 2022-06-09 2022-06-09 一种自动驾驶场景下联合行人目标检测与跟踪联合方法 Pending CN114998993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210647074.9A CN114998993A (zh) 2022-06-09 2022-06-09 一种自动驾驶场景下联合行人目标检测与跟踪联合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210647074.9A CN114998993A (zh) 2022-06-09 2022-06-09 一种自动驾驶场景下联合行人目标检测与跟踪联合方法

Publications (1)

Publication Number Publication Date
CN114998993A true CN114998993A (zh) 2022-09-02

Family

ID=83033038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210647074.9A Pending CN114998993A (zh) 2022-06-09 2022-06-09 一种自动驾驶场景下联合行人目标检测与跟踪联合方法

Country Status (1)

Country Link
CN (1) CN114998993A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110006A (zh) * 2023-04-13 2023-05-12 武汉商学院 一种用于智慧旅游系统的景区游客异常行为识别方法
CN116935074A (zh) * 2023-07-25 2023-10-24 苏州驾驶宝智能科技有限公司 基于深度亲和网络自适应关联的多目标跟踪方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110006A (zh) * 2023-04-13 2023-05-12 武汉商学院 一种用于智慧旅游系统的景区游客异常行为识别方法
CN116110006B (zh) * 2023-04-13 2023-06-20 武汉商学院 一种用于智慧旅游系统的景区游客异常行为识别方法
CN116935074A (zh) * 2023-07-25 2023-10-24 苏州驾驶宝智能科技有限公司 基于深度亲和网络自适应关联的多目标跟踪方法及装置
CN116935074B (zh) * 2023-07-25 2024-03-26 苏州驾驶宝智能科技有限公司 基于深度亲和网络自适应关联的多目标跟踪方法及装置

Similar Documents

Publication Publication Date Title
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
Yin et al. Recurrent convolutional network for video-based smoke detection
Vu et al. Hybridnets: End-to-end perception network
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Li et al. Traffic light recognition for complex scene with fusion detections
Kumar et al. A new vehicle tracking system with R-CNN and random forest classifier for disaster management platform to improve performance
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN114998993A (zh) 一种自动驾驶场景下联合行人目标检测与跟踪联合方法
CN112800906B (zh) 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法
CN110795580B (zh) 基于时空约束模型优化的车辆重识别方法
CN109492583A (zh) 一种基于深度学习的车辆重识别方法
CN114241053B (zh) 基于改进的注意力机制FairMOT多类别跟踪方法
Xu et al. Dilated-scale-aware category-attention convnet for multi-class object counting
Sun et al. Unmanned surface vessel visual object detection under all-weather conditions with optimized feature fusion network in YOLOv4
Xie et al. Deep learning-based computer vision for surveillance in its: Evaluation of state-of-the-art methods
Boukabous et al. Image and video-based crime prediction using object detection and deep learning
US20230070439A1 (en) Managing occlusion in siamese tracking using structured dropouts
Xiong et al. Contrastive learning for automotive mmWave radar detection points based instance segmentation
CN115331192A (zh) 基于图神经网络的自动驾驶场景目标检测与跟踪方法
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
CN115565044A (zh) 一种目标检测方法及系统
Sun et al. Squeeze-and-excitation network-based radar object detection with weighted location fusion
Du et al. Improved real‐time traffic obstacle detection and classification method applied in intelligent and connected vehicles in mixed traffic environment
Yang et al. DPCIAN: A novel dual-channel pedestrian crossing intention anticipation network
Li et al. A Deep Pedestrian Tracking SSD‐Based Model in the Sudden Emergency or Violent Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination