CN108447076B - 基于深度增强学习的多目标跟踪方法 - Google Patents

基于深度增强学习的多目标跟踪方法 Download PDF

Info

Publication number
CN108447076B
CN108447076B CN201810220513.1A CN201810220513A CN108447076B CN 108447076 B CN108447076 B CN 108447076B CN 201810220513 A CN201810220513 A CN 201810220513A CN 108447076 B CN108447076 B CN 108447076B
Authority
CN
China
Prior art keywords
pedestrian
target
decision
action
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810220513.1A
Other languages
English (en)
Other versions
CN108447076A (zh
Inventor
鲁继文
周杰
任亮亮
王梓枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810220513.1A priority Critical patent/CN108447076B/zh
Publication of CN108447076A publication Critical patent/CN108447076A/zh
Application granted granted Critical
Publication of CN108447076B publication Critical patent/CN108447076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度增强学习的多目标跟踪方法及装置,其中,方法包括:提取行人特征;将行人特征输入预测网络,以预测行人位置;根据行人位置得到行人信息,并且将行人信息输入决策网络进行判断,以对目标进行跟踪。该方法可以利用了不同目标以及环境之间信息的交互利用,大大提升跟踪的精度和性能。

Description

基于深度增强学习的多目标跟踪方法
技术领域
本发明涉及数字图像处理技术领域,特别涉及一种基于深度增强学习的多目标跟踪方法及装置。
背景技术
MOT(Multi-Object Tracking,多目标跟踪技术)在视频监控,人机交互,自动驾驶等各种方面都有着深入的应用,多目标跟踪的目的就是估计视频中不同目标的轨迹并且跟踪他们。尽管有很多关于MOT的方法,被不断提出,但是在很多没有约束的场景下,尤其是人群拥挤的环境中这个问题非常难以被解决,这是因为不同物体之间的遮挡和巨大的类内差异所致。
相关技术中,多目标跟踪技术主要可以分为两大类,第一种是离线型(又称之为批处理型);第二种是在线型。其中,离线方法的中心思想就是把每一帧中物体的检测结果连接成小的跟踪片段,然后再用更加可靠的特征来进行片段的合并。比较有代表性的离线方法主要有最小代价网络流算法,能量最小化方法,以及最小完全图算法等等;而在线方法则着手于当前帧和下一帧中目标的匹配,这种方法能够做到比较好的实时性,从而在实际应用中有着一席之地。比较传统的在线多目标跟踪方法大多应用了卡尔曼滤波,粒子滤波,或者马尔科夫决策过程。
然而,这些方法的跟踪准确率都不是很高,主要是因为这些方法对于遮挡和噪声比较敏感,比如漏检测、误检测和不准确的标注等等。在传统方法不甚奏效的情况下,最近也出现了基于深度学习的方法,比如基于深度增强学习的多目标跟踪策略。深度增强学习在不同场景中的应用都十分广发,比如目标检测,人脸检测,图像超分辨率,和目标搜索[等等。深度增强学习主要可以分为两大类,第一种是深度Q-学习,以及策略梯度法。对于深度Q-学习方法,Q值通过深度神经网络进行拟合,从而得到在特定状态下做出特定决策动作的取值;对于策略梯度法,策略的分布被显式描述,从而使代价函数增大的策略通过网络参数的更新,其取得概率直接增大。
关于多目标跟踪的任务,可用于实验训练和测试的数据集主要有MOT15和MOT16。MOT15数据集含有11个训练序列和11个测试序列。每一个序列所在的场景都是不同的,其中最为困难的序列是AVG-TownCentre,这是因为采集时的帧率很低,congress对于跟踪方法提出的要求很高;MOT16数据集含有7个训练序列和7个测试序列,MOT16比MOT15难度更高,标注更加全面,很多在MOT15中不要求的困难样例也加入了标注集合中,很多拥挤的场所也加入了序列中。对于两个数据集中的各个序列,相机角度,相机移动和拍摄条件也是不尽相同的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度增强学习的多目标跟踪方法,该方法可以大大提升了跟踪的精度和性能。
本发明的另一个目的在于提出一种基于深度增强学习的多目标跟踪装置。
为达到上述目的,本发明一方面实施例提出了一种基于深度增强学习的多目标跟踪方法,包括以下步骤:提取行人特征;将所述行人特征输入预测网络,以预测行人位置;根据所述行人位置得到行人信息,并且将所述行人信息输入决策网络进行判断,以对目标进行跟踪。
本发明实施例的基于深度增强学习的多目标跟踪方法,可以通过结合深度神经网络对行人自身特征做了良好的提取与预测,从而有效地利用图像的原始信息,其效果远远好于手工特征提取和基于经验的位置预测方法;考虑到每一个行人不仅仅根据自己蕴含的信息来更新位置,而且在发生遮挡或者漏检测、误检测的时候,还会相应的与其他行人、环境进行交互,通过引入的深度强化学习决策网络将整个信息交互的过程加以模拟,从而进行较为准确的判定,极大程度上提升了多目标跟踪的性能,克服传统多目标跟踪方法对于遮挡、误检测、漏检测等噪声的敏感。
另外,根据本发明上述实施例的基于深度增强学习的多目标跟踪方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述提取行人特征,并且所述将所述行人特征输入预测网络,进一步包括:通过卷积神经网络提取所述行人特征;将所述行人特征和行人前预设帧的轨迹信息相连接,并进入所述预测网络,以预测所述行人下一帧的位置信息。
进一步地,在本发明的一个实施例中,所述根据所述行人位置获取行人信息,并将行人信息输入决策网络,进一步包括:将目标的所述位置信息、目标的邻近目标和目标的当前检测位置输入所述预测网络;根据每个目标的当前帧所处状态进行决策动作。
进一步地,在本发明的一个实施例中,其中,如果所述决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果所述决策动作为忽略动作,则将所述预测结果作为目标下一帧的特征;如果所述决策动作为遮挡动作,则保留所述目标的外观特征,且通过所述预测网络更新所述目标的位置特征;如果所述决策动作为删除动作,则删除所述目标。
进一步地,在本发明的一个实施例中,在将所述行人信息输入决策网络进行判断,进一步包括:根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据所述奖励值获取所述决策网络,其中,奖励值的定义公式为:
Figure BDA0001599650140000031
其中,
Figure BDA0001599650140000032
为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
为达到上述目的,本发明另一方面实施例提出了一种基于深度增强学习的多目标跟踪装置,包括:提取模块,用于提取行人特征;预测模块,用于将所述行人特征输入预测网络,以预测行人位置;跟踪模块,用于根据所述行人位置得到行人信息,并且将所述行人信息输入决策网络进行判断,以对目标进行跟踪。
本发明实施例的基于深度增强学习的多目标跟踪装置,可以通过结合深度神经网络对行人自身特征做了良好的提取与预测,从而有效地利用图像的原始信息,其效果远远好于手工特征提取和基于经验的位置预测方法;考虑到每一个行人不仅仅根据自己蕴含的信息来更新位置,而且在发生遮挡或者漏检测、误检测的时候,还会相应的与其他行人、环境进行交互,通过引入的深度强化学习决策网络将整个信息交互的过程加以模拟,从而进行较为准确的判定,极大程度上提升了多目标跟踪的性能,克服传统多目标跟踪方法对于遮挡、误检测、漏检测等噪声的敏感。
另外,根据本发明上述实施例的基于深度增强学习的多目标跟踪装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述提取行人特征,并且所述将所述行人特征输入预测网络,进一步包括:提取单元,用于通过卷积神经网络提取所述行人特征;预测单元,用于将所述行人特征和行人前预设帧的轨迹信息相连接,并进入所述预测网络,以预测所述行人下一帧的位置信息。
进一步地,在本发明的一个实施例中,所述跟踪模块,进一步包括:输入单元,用于将目标的所述位置信息、目标的邻近目标和目标的当前检测位置输入所述预测网络;决策单元,用于根据每个目标的当前帧所处状态进行决策动作。
进一步地,在本发明的一个实施例中,其中,如果所述决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果所述决策动作为忽略动作,则将所述预测结果作为目标下一帧的特征;如果所述决策动作为遮挡动作,则保留所述目标的外观特征,且通过所述预测网络更新所述目标的位置特征;如果所述决策动作为删除动作,则删除所述目标。
进一步地,在本发明的一个实施例中,所述跟踪模块,进一步包括:获取单元,用于根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据所述奖励值获取所述决策网络,其中,奖励值的定义公式为:
Figure BDA0001599650140000041
其中,
Figure BDA0001599650140000042
为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于深度增强学习的多目标跟踪方法的流程图;
图2为根据本发明一个实施例的基于深度增强学习的多目标跟踪方法的流程图;
图3为根据本发明一个实施例的基于深度增强学习的多目标跟踪方法的预测行人位置示意图;
图4为根据本发明一个实施例的基于深度增强学习的多目标跟踪方法的输入决策网络进行判断的示意图;
图5为根据本发明实施例的基于深度增强学习的多目标跟踪装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于深度增强学习的多目标跟踪方法及装置,首先将参照附图描述根据本发明实施例提出的基于深度增强学习的多目标跟踪方法。
图1是本发明实施例的基于深度增强学习的多目标跟踪方法的流程图。
如图1所示,该基于深度增强学习的多目标跟踪方法包括以下步骤:
在步骤S101中,提取行人特征。
在步骤S102中,将行人特征输入预测网络,以预测行人位置。
进一步地,在本发明的一个实施例中,提取行人特征,并且将行人特征输入预测网络,进一步包括:通过卷积神经网络提取行人特征;将行人特征和行人前预设帧的轨迹信息相连接,并进入预测网络,以预测行人下一帧的位置信息。
可以理解的是,结合图1和图2所示,本发明实施例可以将每一个待跟踪行人视为一个Agent,通过深度网络提取图像特征和位置信息加以连接,送入预测网络,对其下一帧的位置进行预测;其次,本发明实施例可以将每一个行人的特征和其邻近行人的特征,其上一帧的特征送入决策网络,进行判定。另外,本发明实施例设计了{更新,忽略,遮挡,删除}这一个动作集合,通过决策网络来进行动作的选定,从而对各种复杂情况进行对症下药的处理,最后通过执行动作来进行跟踪
具体地,如图3所示,本发明实施例可以首先提取行人特征,训练预测网络,预测行人位置。也就是说,给定一个行人在某一帧中的位置,本发明实施例需要通过综合已有信息得到其下一帧可能出现的位置,从而对下一帧的检测结果进行一定的调整和纠错。本发明实施例可以通过卷积神经网络提取行人的特征,将其和行人前10帧的轨迹信息相连接,进入预测网络,从而预测行人下一帧的位置信息,这样做可以将行人在视频中所包含的信息充分利用。
其中,这个过程可以抽象为一个回归问题:
Figure BDA0001599650140000051
其中,b为标注框,t为帧数,i为行人序号,g为代价函数,本发明实施例使用IoU(intersection-over-union,IoU函数)函数,具体定义如下:
Figure BDA0001599650140000052
在步骤S103中,根据行人位置得到行人信息,并且将行人信息输入决策网络进行判断,以对目标进行跟踪。
进一步地,在本发明的一个实施例中,根据行人位置获取行人信息,并将行人信息输入决策网络,进一步包括:将目标的位置信息、目标的邻近目标和目标的当前检测位置输入预测网络;根据每个目标的当前帧所处状态进行决策动作。
进一步地,在本发明的一个实施例中,其中,如果决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果决策动作为忽略动作,则将预测结果作为目标下一帧的特征;如果决策动作为遮挡动作,则保留目标的外观特征,且通过预测网络更新目标的位置特征;如果决策动作为删除动作,则删除目标。
进一步地,在本发明的一个实施例中,在将行人信息输入决策网络进行判断,进一步包括:根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据奖励值获取决策网络,其中,奖励值的定义公式为:
Figure BDA0001599650140000061
其中,
Figure BDA0001599650140000062
为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
可以理解的是,如图4所示,本发明实施例可以综合行人信息,输入决策网络进行判断。也就是说,本发明实施例可以将每一个行人看作是一个Agent,从而两个Agent之间的距离可以由下列式子表示:
Figure BDA0001599650140000063
其中,p为不同的行人,f为行人的特征,α为平衡系数。
同样,环境中包含着行人检测的结果p*,同理行人检测的结果和上一帧中行人的距离可以表示如下:
Figure BDA0001599650140000064
对第I帧图像,假设其包含n个目标,本发明实施例可以首先通过预测网络计算出其在下一帧中的位置,之后选取离每一个目标最近的邻近目标,然后将每一个目标的预测位置,目标的邻近目标,目标的检测位置作为预测网络的输入。
其中,对于每个目标在每一帧中都有两种不同的状态:可见或者不可见。如果目标可见,那么本发明实施例可以通过预测结果和检测结果对目标位置进行更新,如果检测结果可靠,那么本发明实施例可以通过融合预测结果和检测结果对目标进行更新;如果检测结果不那么可靠,那么本发明实施例仅仅通过检测结果对目标进行更新。如果目标不可见,那么这个目标很有可能被其他目标所遮挡了,或者是在视频中消失了(移出镜头)。在出现遮挡的情况下,本发明实施例可以对目标的外观模型进行保留,仅仅使用预测网络对其位置进行更新;如果目标消失了,那么本发明实施例就直接删除这个目标。对于上述的若干种情况,本发明实施例抽象出了四种决策动作{更新,忽略,遮挡,删除}。
对于更新动作,本发明实施例可以使用预测和检测这两种结果来更新位置和外观模型,如下式所示:
Figure BDA0001599650140000071
其中,f为特征,ρ为一定的平衡系数。
对于忽略动作,说明检测结果不准确或者缺失,本发明实施例可以直接把预测结果作为目标下一帧的特征。
对于遮挡动作,本发明实施例可以保留目标之前的外观特征,而目标的位置特征则通过预测网络来更新。
对于删除动作,说明目标已经消失,不予考虑,本发明实施例从而直接删除目标。
以下则是增强学习的框架。本发明实施例可以对于目标跟踪的奖励值分为两个部分,一部分ri描述的是目标本身的性质,而另一部分rj描述的则是其最邻近目标的性质,所以最终的奖励值可以表述为下式:
Figure BDA0001599650140000072
特别地,本发明实施例在{更新,忽略,遮挡}动作下,奖励值的定义如下:
Figure BDA0001599650140000073
在{删除}动作下,奖励值的定义则切换为:
Figure BDA0001599650140000074
之后,本发明实施例可以使用增强学习中策略梯度算法对网络加以训练,从而得到可用的决策网络。在实际应用中,本发明实施例可以根据网络得到的决策进行动作的实施,从而对每一个目标进行较好的,鲁棒性较强的跟踪。
根据本发明实施例提出的基于深度增强学习的多目标跟踪方法,通过结合深度神经网络对行人自身特征做了良好的提取与预测,从而有效地利用图像的原始信息,其效果远远好于手工特征提取和基于经验的位置预测方法;考虑到每一个行人不仅仅根据自己蕴含的信息来更新位置,而且在发生遮挡或者漏检测、误检测的时候,还会相应的与其他行人、环境进行交互,通过引入的深度强化学习决策网络将整个信息交互的过程加以模拟,从而进行较为准确的判定,极大程度上提升了多目标跟踪的性能,克服传统多目标跟踪方法对于遮挡、误检测、漏检测等噪声的敏感。
其次参照附图描述根据本发明实施例提出的基于深度增强学习的多目标跟踪装置。
图5是本发明实施例的基于深度增强学习的多目标跟踪装置的结构示意图。
如图5所示,该基于深度增强学习的多目标跟踪装置10包括:提取模块100、预测模块200和跟踪模块300。
其中,提取模块100用于提取行人特征。预测模块200用于将行人特征输入预测网络,以预测行人位置。跟踪模块300用于根据行人位置得到行人信息,并且将行人信息输入决策网络进行判断,以对目标进行跟踪。本发明实施例的装置10可以利用了不同目标以及环境之间信息的交互利用,大大提升跟踪的精度和性能。
进一步地,在本发明的一个实施例中,提取行人特征,并且将行人特征输入预测网络,进一步包括:提取单元和预测单元。其中,提取单元用于通过卷积神经网络提取行人特征。预测单元用于将行人特征和行人前预设帧的轨迹信息相连接,并进入预测网络,以预测行人下一帧的位置信息。
进一步地,在本发明的一个实施例中,跟踪模块300进一步包括:输入单元和决策单元。其中,输入单元用于将目标的位置信息、目标的邻近目标和目标的当前检测位置输入预测网络。决策单元用于根据每个目标的当前帧所处状态进行决策动作。
进一步地,在本发明的一个实施例中,其中,如果决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果决策动作为忽略动作,则将预测结果作为目标下一帧的特征;如果决策动作为遮挡动作,则保留目标的外观特征,且通过预测网络更新目标的位置特征;如果决策动作为删除动作,则删除目标。
进一步地,在本发明的一个实施例中,跟踪模块300进一步包括:获取单元。其中,获取单元用于根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据奖励值获取决策网络,其中,奖励值的定义公式为:
Figure BDA0001599650140000081
其中,
Figure BDA0001599650140000082
为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
需要说明的是,前述基于深度增强学习的多目标跟踪对方法实施例的解释说明也适用于该实施例的基于深度增强学习的多目标跟踪装置,此处不再赘述。
根据本发明实施例提出的基于深度增强学习的多目标跟踪装置,通过结合深度神经网络对行人自身特征做了良好的提取与预测,从而有效地利用图像的原始信息,其效果远远好于手工特征提取和基于经验的位置预测方法;考虑到每一个行人不仅仅根据自己蕴含的信息来更新位置,而且在发生遮挡或者漏检测、误检测的时候,还会相应的与其他行人、环境进行交互,通过引入的深度强化学习决策网络将整个信息交互的过程加以模拟,从而进行较为准确的判定,极大程度上提升了多目标跟踪的性能,克服传统多目标跟踪方法对于遮挡、误检测、漏检测等噪声的敏感。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (2)

1.一种基于深度增强学习的多目标跟踪方法,其特征在于,包括以下步骤:
提取行人特征;
将所述行人特征输入预测网络,以预测行人位置;以及
根据所述行人位置得到行人信息,并且将所述行人信息输入决策网络进行判断,以对目标进行跟踪;
其中,所述提取行人特征,并且所述将所述行人特征输入预测网络,进一步包括:通过卷积神经网络提取所述行人特征;将所述行人特征和行人前预设帧的轨迹信息相连接,并进入所述预测网络,以预测所述行人下一帧的位置信息;
所述根据所述行人位置获取行人信息,并将行人信息输入决策网络,进一步包括:将目标的所述位置信息、目标的邻近目标和目标的当前检测位置输入所述预测网络;根据每个目标的当前帧所处状态进行决策动作;
其中,如果所述决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果所述决策动作为忽略动作,则将所述预测结果作为目标下一帧的特征;如果所述决策动作为遮挡动作,则保留所述目标的外观特征,且通过所述预测网络更新所述目标的位置特征;如果所述决策动作为删除动作,则删除所述目标;
在将所述行人信息输入决策网络进行判断,进一步包括:
根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据所述奖励值获取所述决策网络,其中,奖励值的定义公式为:
Figure FDA0002852780010000011
其中,
Figure FDA0002852780010000012
为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
2.一种基于深度增强学习的多目标跟踪装置,其特征在于,包括:
提取模块,用于提取行人特征;
预测模块,用于将所述行人特征输入预测网络,以预测行人位置;以及
跟踪模块,用于根据所述行人位置得到行人信息,并且将所述行人信息输入决策网络进行判断,以对目标进行跟踪;
其中,所述提取行人特征,并且所述将所述行人特征输入预测网络,进一步包括:提取单元,用于通过卷积神经网络提取所述行人特征;预测单元,用于将所述行人特征和行人前预设帧的轨迹信息相连接,并进入所述预测网络,以预测所述行人下一帧的位置信息;
所述跟踪模块,进一步包括:输入单元,用于将目标的所述位置信息、目标的邻近目标和目标的当前检测位置输入所述预测网络;决策单元,用于根据每个目标的当前帧所处状态进行决策动作;
其中,如果所述决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果所述决策动作为忽略动作,则将所述预测结果作为目标下一帧的特征;如果所述决策动作为遮挡动作,则保留所述目标的外观特征,且通过所述预测网络更新所述目标的位置特征;如果所述决策动作为删除动作,则删除所述目标;
所述跟踪模块,进一步包括:
获取单元,用于根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据所述奖励值获取所述决策网络,其中,奖励值的定义公式为:
Figure FDA0002852780010000021
其中,
Figure FDA0002852780010000022
为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
CN201810220513.1A 2018-03-16 2018-03-16 基于深度增强学习的多目标跟踪方法 Active CN108447076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810220513.1A CN108447076B (zh) 2018-03-16 2018-03-16 基于深度增强学习的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810220513.1A CN108447076B (zh) 2018-03-16 2018-03-16 基于深度增强学习的多目标跟踪方法

Publications (2)

Publication Number Publication Date
CN108447076A CN108447076A (zh) 2018-08-24
CN108447076B true CN108447076B (zh) 2021-04-06

Family

ID=63195706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810220513.1A Active CN108447076B (zh) 2018-03-16 2018-03-16 基于深度增强学习的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN108447076B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143870B (zh) * 2018-10-23 2021-08-06 宁波溪棠信息科技有限公司 一种多目标任务的控制方法
WO2020083355A1 (en) * 2018-10-25 2020-04-30 Shanghai Truthvision Information Technology Co., Ltd. Systems and methods for intelligent video surveillance
CN109765820B (zh) 2019-01-14 2019-08-09 南栖仙策(南京)科技有限公司 一种用于自动驾驶控制策略的训练系统
CN112581496A (zh) * 2019-09-29 2021-03-30 四川大学 一种基于强化学习的多目标行人轨迹跟踪方法
CN114401876B (zh) * 2019-09-30 2024-08-16 北京航迹科技有限公司 用于预测自行车轨迹的系统和方法
CN111338227B (zh) * 2020-05-18 2020-12-01 南京三满互联网络科技有限公司 基于强化学习的电子电器控制方法及控制设备、存储介质
CN112053385B (zh) * 2020-08-28 2023-06-02 西安电子科技大学 基于深度强化学习的遥感视频遮挡目标跟踪方法
CN117953015B (zh) * 2024-03-26 2024-07-09 武汉工程大学 基于视频超分辨率多行人跟踪方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2573021A2 (en) * 2011-09-21 2013-03-27 Murata Machinery, Ltd. Yarn winding machine
CN103281477A (zh) * 2013-05-17 2013-09-04 天津大学 基于多级别特征数据关联的多目标视觉跟踪方法
CN106097391A (zh) * 2016-06-13 2016-11-09 浙江工商大学 一种基于深度神经网络的识别辅助的多目标跟踪方法
CN106874856A (zh) * 2017-01-19 2017-06-20 博康智能信息技术有限公司 一种目标跟踪状态模型训练方法及装置
CN107463898A (zh) * 2017-08-01 2017-12-12 闽江学院 基于视觉传感网络的舞台表演行为异常监控方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957105B (zh) * 2016-04-22 2018-10-02 清华大学 基于行为学习的多目标跟踪方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2573021A2 (en) * 2011-09-21 2013-03-27 Murata Machinery, Ltd. Yarn winding machine
CN103281477A (zh) * 2013-05-17 2013-09-04 天津大学 基于多级别特征数据关联的多目标视觉跟踪方法
CN106097391A (zh) * 2016-06-13 2016-11-09 浙江工商大学 一种基于深度神经网络的识别辅助的多目标跟踪方法
CN106874856A (zh) * 2017-01-19 2017-06-20 博康智能信息技术有限公司 一种目标跟踪状态模型训练方法及装置
CN107463898A (zh) * 2017-08-01 2017-12-12 闽江学院 基于视觉传感网络的舞台表演行为异常监控方法

Also Published As

Publication number Publication date
CN108447076A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN108447076B (zh) 基于深度增强学习的多目标跟踪方法
CN110472496B (zh) 一种基于目标检测与跟踪的交通视频智能分析方法
CN105894542B (zh) 一种在线目标跟踪方法及装置
US8447069B2 (en) Apparatus and method for moving object detection
CN110349187B (zh) 基于tsk模糊分类器的目标跟踪方法、装置及存储介质
CN110390292B (zh) 基于动态关联模型的遥感视频车辆目标检测与跟踪方法
KR102069390B1 (ko) 비디오에서 이동 물체들을 추적하기 위해 핑거프린트들을 이용하기 위한 방법 및 시스템
CN114299417A (zh) 一种基于雷视融合的多目标跟踪方法
CN102915545A (zh) 一种基于OpenCV的视频目标跟踪算法
CN101344965A (zh) 基于双目摄像的跟踪系统
CN106504274A (zh) 一种基于红外摄像头下的视觉跟踪方法及系统
CN116128932A (zh) 一种多目标跟踪方法
CN115063454B (zh) 多目标跟踪匹配方法、装置、终端及存储介质
CN116088503B (zh) 动态障碍物检测方法和机器人
CN106846373B (zh) 一种融合目标外观模型和博弈论的视频目标互遮挡处理方法
Engel et al. Deep object tracking on dynamic occupancy grid maps using rnns
CN103985257A (zh) 一种智能交通视频分析方法
CN106558069A (zh) 一种基于视频监控下的目标跟踪方法及系统
CN116883458B (zh) 基于Transformer并融合以观测为中心运动特征的多目标跟踪系统
CN106447698A (zh) 一种基于距离传感器的多行人跟踪方法和系统
Yi et al. Multi-Person tracking algorithm based on data association
KR101690050B1 (ko) 지능형 영상보안 시스템 및 객체 추적 방법
Mancusi et al. Trackflow: Multi-object tracking with normalizing flows
Yasir et al. YOLOv8-BYTE: Ship tracking algorithm using short-time sequence SAR images for disaster response leveraging GeoAI
CN113077495B (zh) 在线多目标跟踪方法、系统、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant