CN115100565A - 一种基于空间相关性与光流配准的多目标跟踪方法 - Google Patents

一种基于空间相关性与光流配准的多目标跟踪方法 Download PDF

Info

Publication number
CN115100565A
CN115100565A CN202210680138.5A CN202210680138A CN115100565A CN 115100565 A CN115100565 A CN 115100565A CN 202210680138 A CN202210680138 A CN 202210680138A CN 115100565 A CN115100565 A CN 115100565A
Authority
CN
China
Prior art keywords
network
target
appearance
detection
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210680138.5A
Other languages
English (en)
Other versions
CN115100565B (zh
Inventor
明悦
孙娟娟
于文豪
杨铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210680138.5A priority Critical patent/CN115100565B/zh
Publication of CN115100565A publication Critical patent/CN115100565A/zh
Application granted granted Critical
Publication of CN115100565B publication Critical patent/CN115100565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于空间相关性与光流配准的多目标跟踪方法。该方法包括:将视频帧图像输入到空间信息与拓扑关系融合网络中,融合不同尺寸的图像特征,输出融合后的特征图;将融合特征图输入至空间信息与拓扑关系融合网络,并连接四个任务头,分别完成热图生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务,以确定目标包围框的大小和位置,生成用于轨迹匹配的外观特征;将外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,关联不同帧图像的检测结果,生成目标跟踪轨迹。本发明方法通过在多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息,增加网络的表征能力,提高了目标轨迹的稳定性。

Description

一种基于空间相关性与光流配准的多目标跟踪方法
技术领域
本发明涉及目标跟踪技术领域,尤其涉及一种基于空间相关性与光流配准的多目标跟踪方法。
背景技术
目标跟踪技术是计算机视觉中的热门研究方向,多目标跟踪算法在诸多领域有广泛的应用:智能视频监控是智慧城市的重要组成之一,通过对目标的运动进行预测和跟踪,对行人流量进行商业分析或安全分析,进一步可以与行为识别、行为模式分析等进行结合,对异常行为进行预警,在紧急情况出现时进行疏散和轨迹规划,展现出巨大的商业价值和应用价值;多目标跟踪同样用于自动驾驶领域,自动驾驶场景下对视野中的车辆进行跟踪,基于车辆轨迹进行运动预测进而控制车辆的运动模式,近年来车辆的自动驾驶辅助系统趋向于视觉与雷达信息结合的解决方案,使得多目标跟踪的研究更加重要;除了民用领域外,多目标跟踪同样可以用于导弹制导、无人机操控等军用领域,显示出巨大的应用价值。
然而在实际场景下,多目标跟踪算法仍然存在诸多挑战。在智能监控场景下,经常会出现行人外观相似,或行人间互相遮挡、行人与背景间遮挡等情况,这些情况会导致用于表示行人的外观特征发生变化,降低了外观特征区分性;同时,当检测器不能提供正确的检测结果时,跟踪会失效,且长时间未跟踪到的目标再次出现时会发生身份变化。这两类问题是影响轨迹稳定的重要问题。
外观特征是用于代表某个目标的特征向量,具体而言每个检测框都对应于一个外观特征,外观特征的确定是基于目标的外观信息获取的,相似度计算过程中,前后帧间具有相似外观特征的检测框属于同一个身份。在实际场景中,导致外观特征变化的因素主要有两种:外观相似和行人间遮挡。其中,遮挡主要分为感兴趣目标之间的遮挡和背景对目标的遮挡。外观相似发生时,由于当前帧的目标具有相似的外观,其外观特征具有相似性较高,当通过贪心算法匹配时,可能发生匹配错误;当遮挡发生时,感兴趣目标的检测框区域内被引入干扰的外观,导致目标的外观特征发生变化,进而导致关联失败。
若目标的位置信息(或者运动轨迹)在较长时间内丢失,当目标再次出现时,基于位置信息进行数据关联不够准确导致目标身份发生变化。常认为在短时间内目标处于匀速线性运动,但是当目标长时间丢失时,其运动状态可能存在复杂变化,不适合更新线性运动模型。如果当目标长时间丢失时不进行运动模型的更新,则当目标重新出现的时候位置就会出现较大偏差,而更新运动模型同样会引入较大偏差。目标长时间丢失可能是由于漏检导致关联失效,减少漏检能够为匹配阶段保留更多候选项,进而减少目标长时间丢失的发生。
近年来,多目标跟踪技术的研究取得了很大的进展和成就。随着深度学习的发展和硬件设备计算能力的提高,基于深度学习的方法成为多目标跟踪研究中的常用方法。常用的多目标跟踪框架有基于检测的跟踪框架、联合检测与跟踪的框架、和其他框架。
在基于检测的跟踪框架中,首先对输入图片进行目标检测,然后基于检测得到的包围框,从原始图片中裁剪出感兴趣目标,再对感兴趣目标提取特征。这里常用的特征包括外观特征和运动信息等。最后基于提取到的特征进行数据关联并得到轨迹。
基于运动信息关联运动信息包括目标的位置、边界框信息、运动速度和方向等,通常运动信息能够通过卡尔曼滤波、光流和神经网络获取。基于运动信息进行关联,在行人遮挡和外观相似的情况下会有频繁的身份变化,轨迹稳定性不高。
基于深度特征关联深度特征是指用于代表每个行人的固定维度向量,使用残差网络、GoogLeNet等为主干进行提取。近年多使用具有重识别的网络进行深度特征的提取。使用深度特征进行关联时,由于深度特征具有更好的代表性,能够有效地减少关联错误,在复杂场景中行人遮挡和外观变化问题上都更加鲁棒。
基于循环神经网络关联多目标跟踪的一个困难是结合长期外观模型来有效地在严重遮挡条件下对目标轨迹进行评分,使用循环神经网络能够在时间上结合特征,来提供更好的关联。尽管循环神经网络能够更充分地融合轨迹的时序特征,更好地适应时间上的特征变化,但是当目标长时间丢失时无法更新模型,并且循环神经网络,不能进行批训练,训练缓慢。
基于图卷积神经网络关联随着图神经网络的研究发展,图神经网络被应用于多目标跟踪的数据关联步骤,通常将外观特征和位置信息拼接作为图的节点,相似度作为节点之间的边。基于图神经网络的方法中,主要是离线方法,能够在全局进行关联,来减少目标长时间丢失导致的身份变化,但是不满足场景要求
多目标跟踪流程可分为目标检测、特征提取、数据关联。联合检测与跟踪的框架中,目标检测和特征提取被结合在同一个网络中完成,能够减少计算量。而联合检测与跟踪的框架下又可细分为联合检测与外观特征的方法、联合检测与运动信息的方法和其他类型的方法。
联合检测与外观特征的方法联合检测与外观特征的方法中,目标检测的结果和外观特征在一个主干网络中生成,能够大大减少计算量。但是网络中完成检测和外观特征提取两个任务会导致互相制约,采取策略提高外观特征的区分性或检测性能时,可能降低另一任务的性能,从而导致整体性能降低。
联合检测与运动信息的方法联合检测与运动信息的方法中,在同一个主干网络中完成检测与运动信息提取任务,后续基于运动信息关联。运动信息通常是目标位置的偏移,通过预测的位置偏移得到下一帧中预测的位置。尽管基于运动信息进行关联能够使用更少的计算量,但是在目标丢失的情况下运动信息的提取变得困难。并且在运动状态复杂变化的时候,运动信息的提取可能出现错误。而在拥挤场景下,通过运动信息进行关联容易出现频繁的身份变换。
现有技术中的第一种多目标跟踪方法包括:采用联合检测与外观特征的跟踪框架,该跟踪框架通过共享权重减少计算量。具体处理过程包括:目标检测,通过检测得到目标的边界框信息。特征提取,联合检测与外观特征方法中,在整体图像中提取外观特征,再基于目标检测得到的位置信息,选取外观特征,用于检测的部分权重和用于表示外观的部分权重是共享的。
上述现有技术中的第一种多目标跟踪方法的缺点为:在联合检测与外观特征的框架下,检测和外观特征提取在一个网络中完成,受到两个任务间相互制约的影响,外观特征的区分性下降。并且目前对于该框架下的空间信息探索仍有不足,在复杂场景下当外观相似发生时,外观特征区分性会降低导致关联错误;同样当目标被遮挡时,由于目标范围内有干扰信息,外观特征会发生变化,导致区分性下降。
现有技术中的第二种多目标跟踪方法包括:多目标跟踪的数据关联中,首先将检测和轨迹基于外观特征相似度进行关联,完成检测对轨迹的分配,然后基于检测和轨迹间的位置交并比进行关联,完成检测对轨迹的分配,最终决定完整的轨迹输出。
上述现有技术中的第二种多目标跟踪方法的缺点为:多目标跟踪的数据关联中,当目标在视野中丢失时,无法进行关联,并且丢失过程中运动状态可能发生变化,导致基于位置计算交并比时产生关联错误;同时在目标丢失时通过运动预测来估计目标位置时,会随着目标丢失时间的增加而增加错误。这些情况导致当目标长时间丢失后发生身份变化。
发明内容
本发明的实施例提供了一种基于空间相关性与光流配准的多目标跟踪方法,以实现有效地进行复杂场景下的多目标跟踪。
为了实现上述目的,本发明采取了如下技术方案。
一种基于空间相关性与光流配准的多目标跟踪方法,包括:
构建用于多目标跟踪的空间信息与拓扑关系融合网络,该空间信息与拓扑关系融合网络以视频帧图像作为输入,将上采样和特征融合后的图像特征通过多尺度空间注意网络与多尺度融合网络,输出融合后的特征图;
在所述空间信息与拓扑关系融合网络后连接四个任务头,将所述融合后的特征图输入到所述四个任务头,四个任务头使用基于CenterNet的多任务检测策略分别完成热图生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务,确定目标包围框的大小和位置,生成用于轨迹匹配的外观特征;
将所述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,所述结合稀疏光流的分层关联算法关联不同帧图像的检测结果,生成目标跟踪轨迹。
优选地,高置信度检测基于外观特征关联后再基于结合稀疏光流进行关联,低置信度检测基于外观特征和结合稀疏光流生成综合置信度进行关联。
优选地,所述的构建用于多目标跟踪的空间信息与拓扑关系融合网络,该空间信息与拓扑关系融合网络以图像作为输入,将上采样和特征融合后的图像特征通过多尺度空间注意网络与多尺度融合网络,输出融合后的特征图,包括:
利用多尺度空间注意网络和相关性融合网络构建空间信息与拓扑关系融合网络,空间信息与拓扑关系融合网络以图像为输入,通过网络的前半部分对输入图像进行三次下采样,获得三个尺寸的特征图,再对三个尺寸的特征图进行融合;在网络的后半部分,三个尺寸的特征图先与对应尺寸的特征融合,再增强空间信息并引入拓扑信息,每一尺度下的特征图经过多尺度空间注意网络与相关性融合网络后,将输出与输入融合并为对应尺度下融合后的特征图:
Fout=Fcorrelation+Fspa*+Fin (1)
其中Fout为对应尺度下输出的特征图,Fcorrelation为相关性融合网络在对应尺度的输出,Fspa*为多尺度空间注意网络的对应输出,Fin为对应层的特征图输入。
优选地,完成热图生成的任务头使用单通道的热图代表行人中心出现在当前位置的可能性,与网络输出的尺寸对应,对于每个中心坐标为bi=(xi,yi)的人工标注的结果Ground Truth,将中心坐标尺寸变化到特征图对应位置
Figure BDA0003698022860000061
热图由以下公式定义:
Figure BDA0003698022860000062
其中N是目标数量,σc是标准差;
热图以每个目标中心为高斯圆中心,渲染出一个高斯圆用于表示对应物体,损失函数基于focal loss定义:
Figure BDA0003698022860000063
Figure BDA0003698022860000071
其中
Figure BDA0003698022860000072
是网络预测的输出,α,β是focal loss中预先设置的参数。
优选地,完成偏移量生成、包围框尺寸生成的任务头检测到的目标包围框根据偏移量和包围框尺寸生成,其中偏移量用于修正因特征图尺寸与原始图像尺寸差异导致的包围框的位置偏移问题,标签为缩放导致的位置偏移;包围框尺寸任务用于生成检测框的长和宽,标签对应于检测框的长和宽,偏移量矩阵记作
Figure BDA0003698022860000073
两个通道分别对应于宽和高的偏移量,对于每个目标的GroundTruth(人工标注的结果)对应的中心坐标bi=(xi,yi)和其在特征图上对应中心坐标
Figure BDA0003698022860000074
偏移量定义为
Figure BDA0003698022860000075
包围框尺寸生成输出的包围框尺寸矩阵记作
Figure BDA0003698022860000076
其通道分别代表对应GroundTruth的左上角坐标和右下角坐标,记作
Figure BDA0003698022860000077
宽和高定义为
Figure BDA0003698022860000078
损失函数定义为:
Figure BDA0003698022860000079
其中
Figure BDA00036980228600000710
Figure BDA00036980228600000711
为网络预测的输出,λ是加权参数。
优选地,完成外观特征生成的任务头用于生成代表各个目标的外观特征,对于每个目标,用其中心点的向量代表这个目标的外观特征,外观特征分支网络输出为
Figure BDA00036980228600000712
其中每个目标用其中心的128维向量作为外观特征;
在训练阶段,外观特征任务作为分类任务训练,对于训练集中的K个目标ID,训练过程中网络的输出会再经过一个全连接层,将
Figure BDA00036980228600000713
映射到K个类别上,再经过Softmax将取值范围限制在[0,1],用于计算损失的输出表示为:P={p(k),k∈[1,K]},每个目标ID被One-hot编码为Li(k),外观特征分支的损失函数定义为:
Figure BDA00036980228600000714
其中N为目标数量,K为ID总数;
整体损失由热图损失、边界框损失和外观特征损失共同构成,表示为:
Figure BDA0003698022860000081
其中ω1和ω2是用于平衡训练的参数。
优选地,所述的将所述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,所述结合稀疏光流的分层关联算法关联不同帧图像的检测结果,生成目标跟踪轨迹,包括:
所述结合稀疏光流的分层关联算法包括:对于t时刻,定义t时刻的检测输出
Figure BDA0003698022860000082
和外观特征
Figure BDA0003698022860000083
其中
Figure BDA0003698022860000084
包括检测结果的左上角坐标
Figure BDA0003698022860000085
右下角坐标
Figure BDA0003698022860000086
和检测置信度
Figure BDA0003698022860000087
N是第t帧中的目标数量;
定义阈值λ1和σλ1,σ∈(0,1),当
Figure BDA0003698022860000088
时,认为该目标是可靠的检测结果,当
Figure BDA0003698022860000089
时认为该目标是不可靠的检测结果,当
Figure BDA00036980228600000810
时认为该目标是错误检测,不用于数据关联,获取检测结果集合
Figure BDA00036980228600000811
Figure BDA00036980228600000812
和不可靠的检测结果
Figure BDA00036980228600000813
上一时刻的轨迹定义为:
Figure BDA00036980228600000814
由上述本发明的实施例提供的技术方案可以看出,本发明方法通过在多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息,增加网络的表征能力,在维持较高检测性能的同时提高外观特征的代表性,进而降低了网络对外观相似和行人间遮挡导致的外观特征变化的敏感度,提高了轨迹的稳定性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种行人轨迹分析应用场景示意图;
图2为本发明实施例提供的一种车辆跟踪应用场景示意图;
图3为本发明实施例提供的一种基于空间相关性与光流配准的多目标跟踪方法的实现原理图;
图4为本发明实施例提供的一种多尺度空间注意网络的结构图;
图5为本发明实施例提供的一种相关性融合网络结构的结构图;
图6为本发明实施例提出的一种结合稀疏光流的分层关联算法的实现原理图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提出了一种复杂场景下的基于空间相关性与光流配准的多目标跟踪方法。该方法中设计了用于多目标跟踪的空间信息与拓扑关系融合网络,通过多尺度空间注意网络和相关性融合网络,完成检测与外观特征任务。网络中通过多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息,增加网络的表征能力,在维持较高检测性能的同时提高外观特征的代表性,进而降低了网络对外观相似和行人间遮挡导致的外观特征变化的敏感度,提高了轨迹的稳定性。
本发明实施例的基于空间相关性与光流配准的多目标跟踪方法中还提出结合稀疏光流的分层关联策略。首先,提出基于最佳检测阈值的阈值压制,将检测结果通过阈值划分为高置信度检测和低置信度检测,来增加潜在候选项;然后,提出用于低置信度检测的综合相似度评分,来针对因检测不可靠导致的外观特征区分性低问题;最后,提出结合稀疏光流的IoU(Intersection overUnion,交并比)通过光流配准,通过目标区域内两点进行配准重新估计边界框,减少非线性运动导致的身份变化。有利于缓解长时目标丢失导致的身份变化问题,提高跟踪的性能。
本发明实施例的基于空间相关性与光流配准的多目标跟踪方法可以应用于复杂场景下的行人跟踪,比如,图1所示的行人轨迹分析场景,自动驾驶中的行人避障、智能监控等领域;通过训练数据的更换,也可以完成图2所示的自动驾驶中的车辆跟踪、军事领域中的导弹制导,畜牧业中的动物跟踪等任务。
本发明实施例的基于空间相关性与光流配准的多目标跟踪方法的实现原理图如图3所示,包括如下的处理步骤:
步骤S10、构建用于多目标跟踪的空间信息与拓扑关系融合网络。该空间信息与拓扑关系融合网络以图像作为输入,将上采样和特征融合后的特征通过多尺度空间注意网络与多尺度融合网络,输出融合后的特征图。
步骤S20、在空间信息与拓扑关系融合网络后连接四个任务头,将上述融合后的特征图输入到上述四个任务头,四个任务头使用基于CenterNet的多任务检测策略分别完成热图(Heatmap)生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务,确定目标包围框的大小和位置,生成用于轨迹匹配的外观特征。
步骤S30、将上述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,结合稀疏光流的分层关联算法关联不同帧图像的检测结果,高置信度检测基于外观特征关联后再基于结合稀疏光流进行关联,低置信度检测基于外观特征和结合稀疏光流生成综合置信度进行关联,最终生成目标跟踪轨迹。
构建用于多目标跟踪的空间信息与拓扑关系融合网络,该网络可以生成检测结果和对应的外观特征。
上述步骤S10具体包括:利用多尺度空间注意网络和相关性融合网络构建空间信息与拓扑关系融合网络。空间信息与拓扑关系融合网络以图像为输入,输出检测结果与外观特征。在空间信息与拓扑关系融合网络的前半部分,首先对输入图像进行三次下采样,获得不同尺寸的特征图,再对不同尺寸的特征进行融合。在网络的后半部分,三个尺寸的特征图先与对应尺寸的特征融合,再经过多尺度空间注意网络与相关性融合网络,进一步增强空间信息并引入拓扑信息。每一尺度下的特征图经过多尺度空间注意网络与相关性融合网络后,将输出与输入融合并为对应尺度下新的特征图:
Fout=Fcorrelation+Fspa*+Fin (1)
其中Fout为对应尺度下输出的特征图,Fcorrelation为相关性融合网络在对应尺度的输出,Fspa*为多尺度空间注意网络的对应输出,Fin为对应层的特征图输入。不同尺度下的Fout进一步通过上采样恢复到最大尺度的特征图,再分别进行融合,得到输出特征图。
上述步骤S20具体包括:对于空间信息与拓扑关系融合网络输出的特征图,本发明使用CenterNet的检测策略实现检测功能,通过训练一个分类器完成外观特征的提取功能。在空间信息与拓扑关系融合网络后连接四个任务头,分别完成热图(Heatmap)生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务。其中用于Heatmap生成、偏移量生成、包围框尺寸生成的三个任务头分别实现目标中心位置的确定、中心位置矫正和包围框生成任务,并最终组合成为目标包围框。外观特征的任务头实现生成用于轨迹匹配的外观特征认为。四个任务构成三个损失函数并组成最后的整体损失。
由于跟踪目标只有行人,本发明使用单通道的Heatmap,用于代表行人中心出现在当前位置的可能性。为了与网络输出的尺寸对应,对于每个中心坐标为bi=(xi,yi)的Ground Truth,需要将中心坐标尺寸变化到特征图对应位置
Figure BDA0003698022860000121
Heatmap由以下公式定义:
Figure BDA0003698022860000122
其中N是目标数量,σc是标准差。Heatmap中以每个目标中心为高斯圆中心,渲染出一个高斯圆用于表示对应物体,损失函数基于focal loss定义:
Figure BDA0003698022860000131
其中
Figure BDA0003698022860000132
是网络预测的输出,α,β是focal loss中预先设置的参数。
检测到的目标包围框根据偏移量和包围框尺寸生成,其中偏移量用于更精确地修正因特征图尺寸与原始图像尺寸差异导致的包围框的位置偏移问题,标签为缩放导致的位置偏移;包围框尺寸任务用于生成检测框的长和宽,标签对应于检测框的长和宽。具体而言,偏移量矩阵记作
Figure BDA0003698022860000133
两个通道分别对应于宽和高的偏移量,对于每个目标的GroundTruth(人工标注的结果)对应的中心坐标bi=(xi,yi)和其在特征图上对应中心坐标
Figure BDA0003698022860000134
偏移量定义为
Figure BDA0003698022860000135
包围框尺寸生成输出的包围框尺寸矩阵记作
Figure BDA0003698022860000136
其通道分别代表对应GroundTruth的左上角坐标和右下角坐标,记作
Figure BDA0003698022860000137
宽和高定义为
Figure BDA0003698022860000138
损失函数定义为:
Figure BDA0003698022860000139
其中
Figure BDA00036980228600001310
Figure BDA00036980228600001311
为网络预测的输出,λ是加权参数,本发明设定为0.15。
外观特征生成分支用于生成代表各个目标的外观特征,对于每个目标,用其中心点的向量代表这个目标的外观特征,外观特征分支网络输出为
Figure BDA00036980228600001312
其中每个目标用其中心的128维向量作为外观特征。在训练阶段,外观特征任务作为分类任务训练。对于训练集中的K个目标ID,训练过程中网络的输出会再经过一个全连接层,将
Figure BDA00036980228600001314
映射到K个类别上,再经过Softmax将取值范围限制在[0,1],用于计算损失的输出可表示为:P={p(k),k∈[1,K]},每个目标ID被One-hot编码为Li(k),外观特征分支的损失函数定义为:
Figure BDA00036980228600001313
其中N为目标数量,K为ID总数。测试阶段,全连接层及其后面的网络结构会被去掉,并保留
Figure BDA0003698022860000141
作为外观特征信息。
整体损失由Heatmap损失,边界框损失和外观特征损失共同构成,表示为:
Figure BDA0003698022860000142
其中ω1和ω2是用于平衡训练的参数,基于该公式训练得到最终的模型。
图4为本发明实施例提供的一种多尺度空间注意网络的结构图。多尺度空间注意网络是空间信息与拓扑关系融合网络的关键结构,以特征图作为输入,这里的特征图是网络的中间层输出的特征图,输入特征图记作
Figure BDA0003698022860000143
Figure BDA0003698022860000144
C为特征图通道数,W和H为特征图的宽和高。为了缓解因网络前馈过程中,特征图尺寸放缩导致的空间信息损失,本发明将特征图放缩到多个尺度来恢复空间信息。
输入特征图首先经过双线性采样和双线性插值得到不同尺度的特征图:
Fup=Biin(Fin) (7)
Fdown=Bisa(Fin) (8)
其中Biin表示双线性插值,Bisa表示双线性采样,通过插值和采样,可以得到不同尺寸的特征图,包括二倍尺寸的特征图
Figure BDA0003698022860000145
和二分之一尺寸的
Figure BDA0003698022860000146
然后对于不同尺寸的特征图进行空间注意的提取。由于通常认为平均池化能够减少估计值方差较大的问题,而最大池化能够减少均值偏移问题,并且沿着通道进行池化已被证明能够有效突出信息区域[92],所以本发明中沿通道轴使用两种池化操作,并将它们按照通道拼接为一个描述符。公式化表示为:
Fi,pooling=Cat(Maxpool(Fi),Avgpool(Fi)),i∈{in,up,down} (9)
其中Cat表示按照通道拼接。将两个经过池化后得到的单通道输出拼接得到2通道的特征图,然后经过一个可变形卷积进行通道变化,将2通道的池化结果聚合到单通道,最后经过一个Sigmoid函数将取值限制在(0,1)。公式化表示为:
Fi,attention=σ(DCN(Fi,pooling)),i∈{in,up,down} (10)其中σ(·)表示Sigmoid函数,DCN(·)表示可变形卷积。在多个尺度上的空间注意力与原始特征图加权后获得具有突出空间信息的特征图,用于在不同的尺度上提取目标的代表性区域。小尺寸特征图用于丰富大目标的空间信息,而大尺寸特征用于丰富小目标的空间信息。之后,对于三个尺度上的特征图,先将三个尺度恢复为原始特征图的尺寸,再按照通道拼接,通过一个可变形卷积将通道数聚合为原始通道数,公式化表示为:
Fspa*=Cat(Fin⊙Fin,attention,Biin(Fdown⊙Fdown,attention),Bisa(Fup⊙Fup,attention))
(11)
Fspa=DCN(Fspa*) (12)
其中⊙表示点乘,
Figure BDA0003698022860000151
Fspa*为多尺度空间信息输出。
本发明实施例提供的一种相关性融合网络结构的结构图如图5所示,相关性融合网络通过相关性计算对像素间的拓扑关系进行建模,来应对拥挤场景下行人间相互遮挡及背景与行人间的遮挡挑战。
如图5所示,像素间的相关性计算是次密集的,相关性计算只在中心像素的半径r范围内计算。由于计算当前像素与场景中全部像素的相关性时,计算量与特征图的尺寸和通道数密切相关,导致大的计算量;并且空间距离较远的像素与当前位置的像素无强遮挡关系,本发明在像素的局部区域内进行相关性计算。相关性计算方式为:对于输入特征图
Figure BDA0003698022860000152
首先根据相关性计算的半径r进行padding,保证计算前后特征图尺寸不改变,padding方式为镜像padding,即padding的内容为沿边缘对称复制像素,得到
Figure BDA0003698022860000161
其中每一个像素在通道上具有C维向量,本发明中每个通道上的固定维度的向量称为嵌入,每个嵌入用于表征对应位置的像素点,记作
Figure BDA0003698022860000162
相似性通过余弦距离定义。对于
Figure BDA0003698022860000163
中的位置(x,y),相关性的计算公式为:
Figure BDA0003698022860000164
其中
Figure BDA0003698022860000165
为对应位置(x,y)的具有(2r+1)2通道数的相关性响应。通过逐像素计算可以获得相关性响应图:
Figure BDA0003698022860000166
为了将相关性响应图与输入特征图结合来融合相关性与特征信息,本研究内容将相关性响应图通过一个可变形卷积进行通道变化,同时可变形卷积能够引入更大范围的相关性:
Figure BDA0003698022860000167
最终输出一个与输入特征图通道数相同的特征图,作为相关性信息。
上述步骤S30具体包括:本发明实施例提出的结合稀疏光流的分层关联算法的实现原理图如图6所示。对于t时刻,首先定义t时刻的检测输出
Figure BDA0003698022860000168
和外观特征
Figure BDA0003698022860000169
其中
Figure BDA00036980228600001610
Figure BDA00036980228600001611
包括检测结果的左上角坐标
Figure BDA00036980228600001612
右下角坐标
Figure BDA00036980228600001613
和检测置信度
Figure BDA00036980228600001614
检测置信度即目标出现在对应位置的概率,由边界框的中心在Heatmap上对应位置的激活定义,N是第t帧中的目标数量。由于检测结果和外观特征是一一对应的,下面对检测结果的筛选会同时筛选掉对应的外观特征。这里定义阈值λ1和σλ1,σ∈(0,1),当
Figure BDA00036980228600001615
时,认为该目标是可靠的检测结果,当
Figure BDA00036980228600001616
时认为该目标是不可靠的检测结果,当
Figure BDA00036980228600001617
时认为该目标是错误检测,不用于数据关联。首先获取可靠的检测结果集合
Figure BDA0003698022860000171
和不可靠的检测结果
Figure BDA0003698022860000172
Figure BDA0003698022860000173
上一时刻的轨迹定义为:
Figure BDA0003698022860000174
M是t-1时刻的轨迹总数,轨迹包括其对应的位置和外观特征信息。
图6所示的结合稀疏光流的分层关联算法框架,关联分三个阶段,高置信度检测基于外观特征关联后基于结合稀疏光流的进行关联,低置信度检测基于外观特征和结合稀疏光流的生成综合置信度进行关联,最终生成轨迹,算法细节如下述算法1所述。
分层数据关联依照检测结果的可靠性和相似度计算的可靠程度进行分层,使用轨迹与检测间的外观特征的余弦距离和检测框与轨迹的交并比(IoU)作为相似度。分层关联的第一步,是对可靠的检测结果和轨迹进行关联。第一层关联输入为可靠的检测结果和上一时刻的轨迹。对于每个检测结果,基于其对应的外观特征与每条轨迹的外观特征进行相似度计算,相似度定义为余弦距离:
Figure BDA0003698022860000175
t时刻的每个可靠检测与t-1时刻的轨迹计算一个相似度,构成相似度矩阵,然后使用匈牙利算法在相似度矩阵进行匹配,将检测结果分配给轨迹。第一次匹配后会获得匹配成功的轨迹集合
Figure BDA0003698022860000176
未匹配的轨迹集合
Figure BDA0003698022860000177
和未匹配到的检测集合
Figure BDA0003698022860000178
Figure BDA0003698022860000179
用于后续关联。
第二层的相似度计算用结合稀疏光流的IoU进行计算,并基于外观特征相似度生成综合相似度矩阵用于轨迹分配。输入为上一步中未匹配到的轨迹
Figure BDA00036980228600001710
和不可靠的检测
Figure BDA00036980228600001711
对于
Figure BDA00036980228600001712
Figure BDA00036980228600001713
的边界框信息,先计算出外观特征的相似性:
Figure BDA0003698022860000181
其中M表示第一步关联中未关联成功的轨迹数量,N表示不可靠检测的数量。由于检测置信度不高,所以其对应的外观特征的可靠性也不高,但其中部分数值接近1或-1的相似度具有指导性,这里筛选大于0.9的相似度作为强相似评分
Figure BDA0003698022860000182
相似度低于0.1的相似度作为弱相似评分
Figure BDA0003698022860000183
然后计算结合稀疏光流的交并比IoUopt,IoUopt的具体计算公式在4.1.2节详述。综合相似度由
Figure BDA0003698022860000184
和IoUopt结合计算:
Figure BDA0003698022860000185
其中β=0.8为加权参数。由于轨迹相似度在0.1以下的为弱相似评分,本发明定义
Figure BDA0003698022860000186
为不相似评分。对于强相似评分,即外观特征相似度矩阵中数值在0.9以上的位置,其相似度会以相加的形式补充到IoU矩阵对应位置中;而弱相似评分,即相似度数值在0.1以下的位置。则转化为不相关性之后以相减的形式补充到IoU矩阵对应位置中,构成最终的相似度矩阵。与第一层关联类似,在获得综合相似度矩阵之后,使用匈牙利算法在相似度矩阵上进行检测结果与轨迹的分配。第二层关联之后,成功匹配的轨迹添加进
Figure BDA0003698022860000187
而未匹配成功的轨迹和检测记作
Figure BDA0003698022860000188
Figure BDA0003698022860000189
其中由于
Figure BDA00036980228600001810
为不可靠检测
Figure BDA00036980228600001811
的子集,本身检测置信度较低,所以不作为新轨迹的开始,直接删除。
第三层关联同样基于结合稀疏光流的IoU计算。对
Figure BDA00036980228600001812
Figure BDA00036980228600001813
先通过稀疏光流估计位置再计算IoU,获得相似度矩阵后使用匈牙利算法进行轨迹分配,最终得到未匹配成功的
Figure BDA00036980228600001814
Figure BDA00036980228600001815
这一步中未成功关联的检测会被初始化为新的轨迹,并标记状态为unconfirmed,未成功关联的轨迹同样标记状态为unconfirmed,这些轨迹会被在下一帧中作为
Figure BDA00036980228600001816
Figure BDA00036980228600001817
合并进行关联,如果标记为unconfirmed的轨迹被成功关联了,则将其状态标记为tracked,并划分到
Figure BDA00036980228600001818
中。对于关联过程中状态为unconfirmed的轨迹在未来30帧的时间中未成功匹配到,则视为轨迹已经消失,删除对应轨迹。
在常用的基于IoU的关联中,常用卡尔曼滤波器先基于轨迹的历史信息进行位置预测,预测得到轨迹在当前帧的位置,然后再计算IoU,IoU的计算公式为:
Figure BDA0003698022860000191
其中stra为基于轨迹历史位置预测到的在当前对应位置的包围框的面积,sdet为检测框在当前帧对应位置的面积,IoU计算的是轨迹和检测相交的区域面积比上相并的区域面积,用于表征轨迹和检测的空间重叠程度。本发明通过稀疏光流的计算来估计轨迹在下一帧的位置。对于第j条轨迹在上一帧的位置
Figure BDA0003698022860000192
取它边界框的范围内的角点作为预测目标,以边界框内部的角点坐标
Figure BDA0003698022860000193
为例,给定上一帧的图像P和当前帧的图像I,目标是在当前帧的图像I中找到与图像P中位置为
Figure BDA0003698022860000194
的点匹配的点
Figure BDA0003698022860000195
(u,v)是上一帧中的点对应于下一帧点的偏移量。本发明认为如果图像P中以
Figure BDA0003698022860000196
为中心的小矩形窗口区域与图像I中以
Figure BDA0003698022860000197
为中心的小矩形窗口区域所有的点都相同,那么这两个点是匹配的。实际上就转化为求解目标函数:
minu,vE(u,v)=∑(x,y)∈ω|T(x,y)-I(x+u,y+v)|2 (20)
其中
Figure BDA0003698022860000198
是以
Figure BDA0003698022860000199
为中心,r为半径的矩形。求解(u,v)可以获得偏移量:
Figure BDA00036980228600001910
Figure BDA00036980228600001911
其中:
It(x,y)=ukIx(x+uk,y+vk)+vkIy(x+uk,y+vk)-I(x+uk,y+vk)+T(x,y), (23)
Figure BDA0003698022860000201
Figure BDA0003698022860000202
Figure BDA0003698022860000203
求解后得到轨迹角点在图像I中估计到的位置
Figure BDA0003698022860000204
本发明在目标区域内取两个角点
Figure BDA0003698022860000205
Figure BDA0003698022860000206
进行光流计算,得到
Figure BDA0003698022860000207
Figure BDA0003698022860000208
然后在估计到的位置上重新计算宽高:
Figure BDA0003698022860000209
Figure BDA00036980228600002010
其中
Figure BDA00036980228600002011
Figure BDA00036980228600002012
表示t时刻第j个轨迹所对应的,估计得到的边界框的宽高。基于t时刻边界框中心点坐标和估计的宽高重新计算边界框,最终根据公式19进行IoU的计算。
算法1结合稀疏光流的分层关联流程
Figure BDA00036980228600002013
Figure BDA0003698022860000211
综上所述,本发明技术方案带来的有益效果包括:
本发明缓解了现有大多数多目标跟踪算法的面临的2个问题:
1.因外观相似和行人间遮挡导致的外观特征区分性下降问题。本发明提出空间信息与拓扑关系融合网络完成检测和外观特征生成任务。空间信息与拓扑关系融合网络中包含多尺度空间注意网络和相关性融合网络。多尺度空间注意网络捕捉目标更具代表性的区域,相关性融合网络引入拓扑关系,共同提高外观特征区分性,最终获得更准确的数据关联。
2.长时目标丢失导致的身份变化问题。本发明提出的结合稀疏光流的分层关联策略,通过检测阈值压制将检测结果分为高置信度和低置信度检测,引入更多潜在候选项来减少目标消失在视野中的情况,并通过计算综合相似度对低置信度检测进行关联。同时在基于位置信息进行关联前通过稀疏光流进行边界框位置估计,最终获得更稳定的轨迹。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种基于空间相关性与光流配准的多目标跟踪方法,其特征在于,包括:
构建用于多目标跟踪的空间信息与拓扑关系融合网络,该空间信息与拓扑关系融合网络以视频帧图像作为输入,将上采样和特征融合后的图像特征通过多尺度空间注意网络与多尺度融合网络,输出融合后的特征图;
在所述空间信息与拓扑关系融合网络后连接四个任务头,将所述融合后的特征图输入到所述四个任务头,四个任务头使用基于CenterNet的多任务检测策略分别完成热图生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务,确定目标包围框的大小和位置,生成用于轨迹匹配的外观特征;
将所述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,所述结合稀疏光流的分层关联算法关联不同帧图像的检测结果,生成目标跟踪轨迹。
2.根据权利要求1所述的方法,其特征在于,高置信度检测基于外观特征关联后再基于结合稀疏光流进行关联,低置信度检测基于外观特征和结合稀疏光流生成综合置信度进行关联。
3.根据权利要求1所述的方法,其特征在于,所述的构建用于多目标跟踪的空间信息与拓扑关系融合网络,该空间信息与拓扑关系融合网络以图像作为输入,将上采样和特征融合后的图像特征通过多尺度空间注意网络与多尺度融合网络,输出融合后的特征图,包括:
利用多尺度空间注意网络和相关性融合网络构建空间信息与拓扑关系融合网络,空间信息与拓扑关系融合网络以图像为输入,通过网络的前半部分对输入图像进行三次下采样,获得三个尺寸的特征图,再对三个尺寸的特征图进行融合;在网络的后半部分,三个尺寸的特征图先与对应尺寸的特征融合,再增强空间信息并引入拓扑信息,每一尺度下的特征图经过多尺度空间注意网络与相关性融合网络后,将输出与输入融合并为对应尺度下融合后的特征图:
Fout=Fcorrelation+Fspa*+Fin (1)
其中Fout为对应尺度下输出的特征图,Fcorrelation为相关性融合网络在对应尺度的输出,Fspa*为多尺度空间注意网络的对应输出,Fin为对应层的特征图输入。
4.根据权利要求1所述的方法,其特征在于,完成热图生成的任务头使用单通道的热图代表行人中心出现在当前位置的可能性,与网络输出的尺寸对应,对于每个中心坐标为bi=(xi,yi)的人工标注的结果Ground Truth,将中心坐标尺寸变化到特征图对应位置
Figure FDA0003698022850000021
热图由以下公式定义:
Figure FDA0003698022850000022
其中N是目标数量,σc是标准差;
热图以每个目标中心为高斯圆中心,渲染出一个高斯圆用于表示对应物体,损失函数基于focal loss定义:
Figure FDA0003698022850000023
其中
Figure FDA0003698022850000024
是网络预测的输出,α,β是focal loss中预先设置的参数。
5.根据权利要求4所述的方法,其特征在于,完成偏移量生成、包围框尺寸生成的任务头检测到的目标包围框根据偏移量和包围框尺寸生成,其中偏移量用于修正因特征图尺寸与原始图像尺寸差异导致的包围框的位置偏移问题,标签为缩放导致的位置偏移;包围框尺寸任务用于生成检测框的长和宽,标签对应于检测框的长和宽,偏移量矩阵记作
Figure FDA0003698022850000031
两个通道分别对应于宽和高的偏移量,对于每个目标的GroundTruth对应的中心坐标bi=(xi,yi)和其在特征图上对应中心坐标
Figure FDA0003698022850000032
偏移量定义为
Figure FDA0003698022850000033
Figure FDA0003698022850000034
包围框尺寸生成输出的包围框尺寸矩阵记作
Figure FDA0003698022850000035
其通道分别代表对应GroundTruth的左上角坐标和右下角坐标,记作
Figure FDA0003698022850000036
Figure FDA0003698022850000037
宽和高定义为
Figure FDA0003698022850000038
损失函数定义为:
Figure FDA0003698022850000039
其中
Figure FDA00036980228500000310
Figure FDA00036980228500000311
为网络预测的输出,λ是加权参数。
6.根据权利要求5所述的方法,其特征在于,完成外观特征生成的任务头用于生成代表各个目标的外观特征,对于每个目标,用其中心点的向量代表这个目标的外观特征,外观特征分支网络输出为
Figure FDA00036980228500000312
其中每个目标用其中心的128维向量作为外观特征;
在训练阶段,外观特征任务作为分类任务训练,对于训练集中的K个目标ID,训练过程中网络的输出会再经过一个全连接层,将
Figure FDA00036980228500000315
映射到K个类别上,再经过Softmax将取值范围限制在[0,1],用于计算损失的输出表示为:P={p(k),k∈[1,K]},每个目标ID被One-hot编码为Li(k),外观特征分支的损失函数定义为:
Figure FDA00036980228500000313
其中N为目标数量,K为ID总数;
整体损失由热图损失、边界框损失和外观特征损失共同构成,表示为:
Figure FDA00036980228500000314
其中ω1和ω2是用于平衡训练的参数。
7.根据权利要求6所述的方法,其特征在于,所述的将所述外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,所述结合稀疏光流的分层关联算法关联不同帧图像的检测结果,生成目标跟踪轨迹,包括:
所述结合稀疏光流的分层关联算法包括:对于t时刻,定义t时刻的检测输出
Figure FDA0003698022850000041
和外观特征
Figure FDA0003698022850000042
其中
Figure FDA0003698022850000043
包括检测结果的左上角坐标
Figure FDA0003698022850000044
右下角坐标
Figure FDA0003698022850000045
和检测置信度
Figure FDA0003698022850000046
N是第t帧中的目标数量;
定义阈值λ1和σλ1,σ∈(0,1),当
Figure FDA0003698022850000047
时,认为该目标是可靠的检测结果,当
Figure FDA0003698022850000048
时认为该目标是不可靠的检测结果,当
Figure FDA0003698022850000049
时认为该目标是错误检测,不用于数据关联,获取检测结果集合
Figure FDA00036980228500000410
Figure FDA00036980228500000411
和不可靠的检测结果
Figure FDA00036980228500000412
上一时刻的轨迹定义为:
Figure FDA00036980228500000413
CN202210680138.5A 2022-06-16 2022-06-16 一种基于空间相关性与光流配准的多目标跟踪方法 Active CN115100565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210680138.5A CN115100565B (zh) 2022-06-16 2022-06-16 一种基于空间相关性与光流配准的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210680138.5A CN115100565B (zh) 2022-06-16 2022-06-16 一种基于空间相关性与光流配准的多目标跟踪方法

Publications (2)

Publication Number Publication Date
CN115100565A true CN115100565A (zh) 2022-09-23
CN115100565B CN115100565B (zh) 2023-06-09

Family

ID=83291845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210680138.5A Active CN115100565B (zh) 2022-06-16 2022-06-16 一种基于空间相关性与光流配准的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115100565B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934451A (zh) * 2024-03-13 2024-04-26 中国水利水电第一工程局有限公司 应用于光伏电站的无人机巡检方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436662A (zh) * 2011-11-29 2012-05-02 南京信息工程大学 一种非重叠视域多摄像机网络中的人体目标跟踪方法
CN106845364A (zh) * 2016-12-28 2017-06-13 中国航天电子技术研究院 一种快速自动目标检测方法
CN109191493A (zh) * 2018-07-13 2019-01-11 上海大学 一种基于RefineNet神经网络和稀疏光流的目标跟踪方法
CN112561966A (zh) * 2020-12-22 2021-03-26 清华大学 一种融合时空信息的稀疏点云多目标跟踪方法
CN113506317A (zh) * 2021-06-07 2021-10-15 北京百卓网络技术有限公司 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
CN113807187A (zh) * 2021-08-20 2021-12-17 北京工业大学 基于注意力特征融合的无人机视频多目标跟踪方法
CN114529581A (zh) * 2022-01-28 2022-05-24 西安电子科技大学 基于深度学习及多任务联合训练的多目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436662A (zh) * 2011-11-29 2012-05-02 南京信息工程大学 一种非重叠视域多摄像机网络中的人体目标跟踪方法
CN106845364A (zh) * 2016-12-28 2017-06-13 中国航天电子技术研究院 一种快速自动目标检测方法
CN109191493A (zh) * 2018-07-13 2019-01-11 上海大学 一种基于RefineNet神经网络和稀疏光流的目标跟踪方法
CN112561966A (zh) * 2020-12-22 2021-03-26 清华大学 一种融合时空信息的稀疏点云多目标跟踪方法
CN113506317A (zh) * 2021-06-07 2021-10-15 北京百卓网络技术有限公司 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
CN113807187A (zh) * 2021-08-20 2021-12-17 北京工业大学 基于注意力特征融合的无人机视频多目标跟踪方法
CN114529581A (zh) * 2022-01-28 2022-05-24 西安电子科技大学 基于深度学习及多任务联合训练的多目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯建华等: "基于空间注意力机制的视觉多目标跟踪", pages 413 - 419 *
程德强等: "基于分层光流的煤矿井下运动目标跟踪算法", pages 79 - 83 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934451A (zh) * 2024-03-13 2024-04-26 中国水利水电第一工程局有限公司 应用于光伏电站的无人机巡检方法及系统

Also Published As

Publication number Publication date
CN115100565B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN113506317B (zh) 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
CN111488795B (zh) 应用于无人驾驶车辆的实时行人跟踪方法
CN113269098B (zh) 一种基于无人机的多目标跟踪定位与运动状态估计方法
Simon et al. Complexer-yolo: Real-time 3d object detection and tracking on semantic point clouds
CN111627045B (zh) 单镜头下的多行人在线跟踪方法、装置、设备及存储介质
Xiong et al. Spatiotemporal modeling for crowd counting in videos
CN108470332B (zh) 一种多目标跟踪方法及装置
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111932580A (zh) 一种基于卡尔曼滤波与匈牙利算法的道路3d车辆跟踪方法及系统
Tang et al. Moana: An online learned adaptive appearance model for robust multiple object tracking in 3d
CN113223059B (zh) 基于超分辨率特征增强的弱小空域目标检测方法
Rout A survey on object detection and tracking algorithms
CN113409361B (zh) 一种多目标跟踪方法、装置、计算机及存储介质
CN111784746A (zh) 一种鱼眼镜头下行人多目标跟踪方法、装置及计算机系统
CN114049382B (zh) 一种智能网联环境下目标融合跟踪方法、系统和介质
CN114283355A (zh) 一种基于小样本学习的多目标濒危动物跟踪方法
Chen et al. Exploring local context for multi-target tracking in wide area aerial surveillance
CN115345905A (zh) 目标对象跟踪方法、装置、终端及存储介质
CN117036397A (zh) 一种基于融合信息关联和相机运动补偿的多目标跟踪方法
Zhou et al. Efficient traffic accident warning based on unsupervised prediction framework
CN115100565B (zh) 一种基于空间相关性与光流配准的多目标跟踪方法
CN113379795B (zh) 一种基于条件卷积和光流特征的多目标跟踪与分割方法
Yao et al. Mask guided GAN for density estimation and crowd counting
Notz et al. Extraction and assessment of naturalistic human driving trajectories from infrastructure camera and radar sensors
CN117252908A (zh) 一种基于注意力的抗遮挡多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant