CN108898612B - 基于多智能体深度增强学习的多目标跟踪方法 - Google Patents

基于多智能体深度增强学习的多目标跟踪方法 Download PDF

Info

Publication number
CN108898612B
CN108898612B CN201810592957.8A CN201810592957A CN108898612B CN 108898612 B CN108898612 B CN 108898612B CN 201810592957 A CN201810592957 A CN 201810592957A CN 108898612 B CN108898612 B CN 108898612B
Authority
CN
China
Prior art keywords
agent
target
target tracking
reinforcement learning
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810592957.8A
Other languages
English (en)
Other versions
CN108898612A (zh
Inventor
姜明新
季仁东
荣康
王国达
陈寒章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Qianhe Internet Of Things Technology Co ltd
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201810592957.8A priority Critical patent/CN108898612B/zh
Publication of CN108898612A publication Critical patent/CN108898612A/zh
Application granted granted Critical
Publication of CN108898612B publication Critical patent/CN108898612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多智能体深度增强学习的多目标跟踪方法,通过目标检测器检测多目标,将检测到的多目标看作多个智能体,然后利用深度增强学习的方法来获得多目标的联合动作集,进而完成多目标跟踪。本发明首次将多智能体深度增强学习技术应用到多目标跟踪方法中,可以克服人工设计特征不够全面,不够准确的技术缺点,同时能够提升计算速度,实现实时跟踪,具有较高的多目标跟踪准确率、精确度,误报、漏报数较少,受多目标跟踪场景中各干扰因素的影响较小,跟踪结果较准确。

Description

基于多智能体深度增强学习的多目标跟踪方法
技术领域
本发明涉及一种视频目标跟踪方法,具体为一种基于多智能体深度增强学习的多目标跟踪方法。
背景技术
基于视频的多目标跟踪作为计算机视觉领域的一个热点问题,在很多应用领域有着广泛的应用,比如:自动驾驶、机器人导航、人工智能等。由于视频场景中存在大量的影响因素,如:目标的出现与消失,目标之间的频繁遮挡,多目标的外观相似,以及背景噪声等,都使得多目标跟踪仍然是一个具有挑战性的研究课题。
发明内容
发明目的:为了克服现有技术中大量的干扰因素对多目标跟踪造成的影响,本发明提供一种基于多智能体深度增强学习的多目标跟踪方法。
技术方案:一种基于多智能体深度增强学习的多目标跟踪方法,包括以下步骤:
(1)利用目标检测器检测待测视频中每一帧图像中的多个目标;对于第t帧图像,目标检测器的输出结果为集合Dt,集合Dt中包含多个目标的检测结果,所述检测结果由目标框显示,单个目标的检测结果记为dt=(x,y,w,h),(x,y)为目标框的中心点坐标,w、h分别为目标框的宽度和高度;
(2)定义以下各参数:将每一个检测到的目标看作一个智能体,表示为智能体i,i∈I≡{1,...,n},n为智能体的个数;将每一帧图像看作一个环境,每个智能体采取一系列动作,定义n个智能体构成的联合动作集为A≡An,智能体i的动作a∈A≡An;每个智能体在每一帧图像的环境下所携带的信息用状态向量s∈S表达,其中,s=(o,τ),S表示n个智能体状态的集合;o表示智能体i的特征向量,智能体i的历史动作集为τ∈T;智能体从环境中得到的反馈信号由反馈函数表示,所述反馈函数为R(a,s→s′)=sign(IoU(b′,g)-IoU(b,g)),IoU(b,g)=area(b∩g)/area(b∪g),b表示当前的目标框,b′表示预测的目标框,g表示目标框的真实值,s′表示采取动作a得到的新的状态变量;
(3)通过各智能体之间的通信以及各智能体从环境中得到的反馈信号,构建深度Q-网络;构建预训练的CNN网络,CNN网络包括五个池化层和一个全连接层;将智能体i输入预训练的CNN网络中提取特征,CNN网络的输出为智能体i的状态向量s,包括特征向量和历史动作;将CNN网络输出的智能体i的状态向量送入到深度Q-网络,预测智能体i采取的动作,用动作矢量表示;将n个智能体通过相同的方法预测各自采取的动作,获得联合动作集A≡An,从而得到多目标跟踪结果;
优选的,步骤(3)中构建深度Q-网络的方法为:令智能体i的深度Q-网络方程为
Figure GDA0003066685770000021
智能体之间的通信定义为
Figure GDA0003066685770000022
其中,mi表示智能体i发出的消息,m-i表示第i个智能体从其他智能体收到的消息,所述消息为智能体i的状态;消息的收发采用LSTM单元;消息函数定义为m(s,a|θm);通过计算损失函数的最小值来获得参数
Figure GDA0003066685770000023
令损失函数为
Figure GDA0003066685770000024
计算公式为:
Figure GDA0003066685770000025
Figure GDA0003066685770000026
为智能体i从环境中得到的反馈信号,系数γ∈[0,1)。
优选的,步骤(1)中的目标检测器采用YOLO V3目标检测器。
优选的,步骤(3)中的预训练的CNN网络包括五个池化层和一个全连接层,五个池化层分别是第一池化层Conv1-2、第二池化层Conv2-2、第三池化层Conv3-3、第四池化层Conv4-3、第五池化层Conv5-3。
优选的,步骤(2)中的动作包括向右、向左、向上、向下、扩大、缩小、变宽、变高及停止。
有益效果:本发明提供一种基于多智能体深度增强学习的多目标跟踪方法,具有较高的多目标跟踪准确率、精确度,误报、漏报数较少,跟踪结果较准确。首次将多智能体深度增强学习技术应用到多目标跟踪方法中,深度增强学习可以提取目标的深度特征,利用增强学习的方法获得智能体采用的动作,预测目标下一个状态,获得目标的位置。通过YOLOV3目标检测器检测多目标,YOLO V3目标检测器是目前性能最好的实时性检测器,一方面可以保证速度,另一方面可以保证检测的准确率。将检测到的多目标看作多个智能体,然后利用深度增强学习的方法来获得多目标的联合动作集,进而完成多目标跟踪,该发明可以克服人工设计特征不够全面,不够准确的技术缺点,同时能够提升计算速度,实现实时跟踪。
附图说明
图1为本发明方法的整体框图;
图2为多智能体深度增强学习的目标跟踪方法的示意图;
图3为多智能体深度增强学习的目标跟踪方法的详细示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
基于多智能体深度增强学习的多目标跟踪方法,包括以下步骤:
(1)如图1所示,利用YOLO V3目标检测器检测待测视频中每一帧图像中的多个目标;对于第t帧图像,目标检测器的输出结果为集合Dt,集合Dt中包含多个目标的检测结果,所述检测结果由目标框显示,单个目标的检测结果记为dt=(x,y,w,h),(x,y)为目标框的中心点坐标,w、h分别为目标框的宽度和高度;
(2)定义以下各参数:将每一个检测到的目标看作一个智能体,表示为智能体i,i∈I≡{1,...,n},n为智能体的个数;将每一帧图像看作一个环境,每个智能体采取一系列动作,定义n个智能体构成的联合动作集为A≡An,智能体i的动作a∈A≡An;每个智能体在每一帧图像的环境下所携带的信息用状态向量s∈S表达,其中,s=(o,τ),S表示n个智能体状态的集合;o表示智能体i的特征向量,智能体i的历史动作集为τ∈T;智能体从环境中得到的反馈信号由反馈函数表示,所述反馈函数为R(a,s→s′)=sign(IoU(b′,g)-IoU(b,g)),IoU(b,g)=area(b∩g)/area(b∪g),b表示当前的目标框,b′表示预测的目标框,g表示目标框的真实值,s′表示采取动作a得到的新的状态变量;
(3)通过各智能体之间的通信以及各智能体从环境中得到的反馈信号,构建深度Q-网络;构建预训练的CNN网络,CNN网络包括五个池化层和一个全连接层,五个池化层分别是第一池化层Conv1-2、第二池化层Conv2-2、第三池化层Conv3-3、第四池化层Conv4-3、第五池化层Conv5-3;将智能体i输入预训练的CNN网络中提取特征,CNN网络的输出为智能体i的状态向量s,包括特征向量和历史动作;将CNN网络输出的智能体i的状态向量送入到深度Q-网络,预测智能体i采取的动作,包括向右、向左、向上、向下、扩大、缩小、变宽、变高及停止九个参数,用动作矢量表示,记为{right,left,up,down,scale up,scale down,fatter,taller,stop},如图2所示;将n个智能体通过相同的方法预测各自采取的动作,获得联合动作集A≡An,从而得到多目标跟踪结果,如图3所示。
其中,构建深度Q-网络的方法为:令智能体i的深度Q-网络方程为
Figure GDA0003066685770000031
智能体之间的通信定义为
Figure GDA0003066685770000032
其中,mi表示智能体i发出的消息,m-i表示第i个智能体从其他智能体收到的消息,所述消息指智能体i的状态信息,消息的收发采用LSTM单元,具体如图3所示,消息函数定义为m(s,a|θm);通过计算损失函数的最小值来获得参数
Figure GDA0003066685770000033
令损失函数为
Figure GDA0003066685770000034
计算公式为:
Figure GDA0003066685770000041
Figure GDA0003066685770000042
为智能体i从环境中得到的反馈信号,系数γ∈[0,1)。
为了验证本方法的效果,进行了如下对比实验:
实验采用Windows 10操作系统,用MATLAB R2016b作为软件平台,计算机的主要配置为Intel(R)Core(TM)i7-4712MQ CPU@3.40GHz(with 32G memory),带有TITAN X GPU(12.00GB memory)。选用大型数据库MOT Challenge benchmark对实验进行验证,与其他五种目前性能比较好的跟踪方法进行比较,分别是:MDPSubCNN、RNN-LSTM、SiameseCNN、LP_SSVM、LSTM_DRL。我们选用CLEAR MOT矩阵中的五个指标对算法进行对比评估,分别为多目标跟踪准确率the multiple object tracking accuracy(MOTA)、多目标跟踪精确度themultiple object tracking precision(MOTP)、误报false positive(FP)、漏报falsenegative(FN)和标识切换identity switches(IDS),对比数据见表1。由表1可见,采用本实施例的方法MADRL相比较其他五种方法,具有较高的多目标跟踪准确率、精确度,误报、漏报数较少,说明该方法受多目标跟踪场景中各干扰因素的影响较小,跟踪结果较准确。
表1
Figure GDA0003066685770000043
Figure GDA0003066685770000051

Claims (5)

1.一种基于多智能体深度增强学习的多目标跟踪方法,其特征在于,包括以下步骤:
(1)利用目标检测器检测待测视频中每一帧图像中的多个目标;对于第t帧图像,目标检测器的输出结果为集合Dt,集合Dt中包含多个目标的检测结果,所述检测结果由目标框显示,单个目标的检测结果记为dt=(x,y,w,h),(x,y)为目标框的中心点坐标,w、h分别为目标框的宽度和高度;
(2)定义以下各参数:将每一个检测到的目标看作一个智能体,表示为智能体i,i∈I≡{1,...,n},n为智能体的个数;将每一帧图像看作一个环境,每个智能体采取一系列动作,定义n个智能体构成的联合动作集为A≡An,智能体i的动作a∈A≡An;每个智能体在每一帧图像的环境下所携带的信息用状态向量
Figure FDA0003066685760000011
表达,其中,s=(o,τ),
Figure FDA0003066685760000012
表示n个智能体状态的集合;o表示智能体i的特征向量,智能体i的历史动作集为τ∈T;智能体从环境中得到的反馈信号由反馈函数表示,所述反馈函数为R(a,s→s′)=sign(IoU(b′,g)-IoU(b,g)),IoU(b,g)=area(b∩g)/area(b∪g),b表示当前的目标框,b′表示预测的目标框,g表示目标框的真实值,s′表示采取动作a得到的新的状态变量;
(3)通过各智能体之间的通信以及各智能体从环境中得到的反馈信号,构建深度Q-网络;构建预训练的CNN网络,CNN网络包括五个池化层和一个全连接层;将智能体i输入预训练的CNN网络中提取特征,CNN网络的输出为智能体i的状态向量s,包括特征向量和历史动作;将CNN网络输出的智能体i的状态向量送入到深度Q-网络,预测智能体i采取的动作,用动作矢量表示;将n个智能体通过相同的方法预测各自采取的动作,获得联合动作集A≡An,从而得到多目标跟踪结果。
2.根据权利要求1所述的基于多智能体深度增强学习的多目标跟踪方法,其特征在于,步骤(3)中构建深度Q-网络的方法为:令智能体i的深度Q-网络方程为
Figure FDA0003066685760000013
智能体之间的通信定义为
Figure FDA0003066685760000014
其中,mi表示智能体i发出的消息,m-i表示第i个智能体从其他智能体收到的消息,所述消息为智能体i的状态;消息的收发采用LSTM单元;消息函数定义为m(s,a|θm);通过计算损失函数的最小值来获得参数
Figure FDA0003066685760000015
令损失函数为
Figure FDA0003066685760000016
计算公式为:
Figure FDA0003066685760000017
Figure FDA0003066685760000018
为智能体i从环境中得到的反馈信号,系数γ∈[0,1)。
3.根据权利要求1所述的基于多智能体深度增强学习的多目标跟踪方法,其特征在于,步骤(1)中的目标检测器采用YOLO V3目标检测器。
4.根据权利要求1所述的基于多智能体深度增强学习的多目标跟踪方法,其特征在于,步骤(3)中的预训练的CNN网络包括五个池化层和一个全连接层,五个池化层分别是第一池化层Conv1-2、第二池化层Conv2-2、第三池化层Conv3-3、第四池化层Conv4-3、第五池化层Conv5-3。
5.根据权利要求1所述的基于多智能体深度增强学习的多目标跟踪方法,其特征在于,步骤(2)中的动作包括向右、向左、向上、向下、扩大、缩小、变宽、变高及停止。
CN201810592957.8A 2018-06-11 2018-06-11 基于多智能体深度增强学习的多目标跟踪方法 Active CN108898612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810592957.8A CN108898612B (zh) 2018-06-11 2018-06-11 基于多智能体深度增强学习的多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810592957.8A CN108898612B (zh) 2018-06-11 2018-06-11 基于多智能体深度增强学习的多目标跟踪方法

Publications (2)

Publication Number Publication Date
CN108898612A CN108898612A (zh) 2018-11-27
CN108898612B true CN108898612B (zh) 2021-09-07

Family

ID=64344718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810592957.8A Active CN108898612B (zh) 2018-06-11 2018-06-11 基于多智能体深度增强学习的多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN108898612B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407644A (zh) * 2019-01-07 2019-03-01 齐鲁工业大学 一种用于制造企业多Agent协同控制方法及系统
CN111862158B (zh) * 2020-07-21 2023-08-29 湖南师范大学 一种分阶段目标跟踪方法、装置、终端及可读存储介质
CN112053385B (zh) * 2020-08-28 2023-06-02 西安电子科技大学 基于深度强化学习的遥感视频遮挡目标跟踪方法
CN112270226B (zh) * 2020-10-16 2024-04-02 淮阴工学院 一种基于多特征提取和多注意力机制的行人轨迹预测方法
CN113146624B (zh) * 2021-03-25 2022-04-29 重庆大学 基于最大角聚集策略的多智能体控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527045A (zh) * 2009-04-02 2009-09-09 浙江工商大学 基于多智能体mafs的视频多目标检测、跟踪方法
CN105787959A (zh) * 2015-11-16 2016-07-20 浙江工业大学 基于改进型自适应粒子滤波的多智能体网络目标跟踪方法
CN107463881A (zh) * 2017-07-07 2017-12-12 中山大学 一种基于深度增强学习的人物图像搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527045A (zh) * 2009-04-02 2009-09-09 浙江工商大学 基于多智能体mafs的视频多目标检测、跟踪方法
CN105787959A (zh) * 2015-11-16 2016-07-20 浙江工业大学 基于改进型自适应粒子滤波的多智能体网络目标跟踪方法
CN107463881A (zh) * 2017-07-07 2017-12-12 中山大学 一种基于深度增强学习的人物图像搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Active Object Localization with Deep Reinforcement Learning;Juan C. Caicedo 等;《https://arxiv.org/pdf/1511.06015.pdf》;20151118;全文 *
Deep Reinforcement Learning for Visual Object Tracking in Videos;Da Zhang 等;《https://arxiv.org/pdf/1701.08936.pdf》;20170410;全文 *
基于颜色与深度信息特征融合的一种多目标跟踪新算法;姜明新 等;《光电子·激光》;20150731;全文 *

Also Published As

Publication number Publication date
CN108898612A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN108898612B (zh) 基于多智能体深度增强学习的多目标跟踪方法
KR102129893B1 (ko) 딥러닝 네트워크 및 평균 이동을 기반으로 하는 선박 자동추적 방법 및 시스템
CN107516321B (zh) 一种视频多目标跟踪方法及装置
CN110288627B (zh) 一种基于深度学习和数据关联的在线多目标跟踪方法
CN112037247A (zh) 一种目标跟踪的方法、装置及计算机存储介质
CN110751674A (zh) 多目标跟踪方法及相应视频分析系统
CN112560580B (zh) 障碍物识别方法、装置、系统、存储介质和电子设备
EP3623844A1 (en) Obstacle detection method and device
CN103942536A (zh) 一种迭代更新轨迹模型的多目标跟踪方法
CN111739053A (zh) 一种复杂场景下的在线多行人检测跟踪方法
CN111798487A (zh) 目标跟踪方法、装置和计算机可读存储介质
Oussama et al. A literature review of steering angle prediction algorithms for self-driving cars
CN106127119B (zh) 基于彩色图像和深度图像多特征的联合数据关联方法
CN103810718A (zh) 一种剧烈运动目标检测方法和装置
CN113870312B (zh) 基于孪生网络的单目标跟踪方法
CN106408593A (zh) 一种基于视频的车辆跟踪方法及装置
Gong et al. Multi-target trajectory tracking in multi-frame video images of basketball sports based on deep learning
CN116718197B (zh) 轨迹处理方法、装置、电子设备及存储介质
CN117331071A (zh) 一种基于毫米波雷达与视觉多模态融合的目标检测方法
CN113139416A (zh) 目标关联方法、计算机设备和存储介质
CN116703962A (zh) 一种多目标跟踪方法及系统
CN113112525A (zh) 目标跟踪方法、网络模型及其训练方法、设备和介质
CN112561956A (zh) 视频目标跟踪方法、装置、电子设备及存储介质
Xi-yang et al. Online multi-object tracking via maximum entropy intuitionistic fuzzy data association
TWI790957B (zh) 一種多目標追蹤的高速數據關聯方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181127

Assignee: Huaian xiaobaihu coating Engineering Co.,Ltd.

Assignor: Huaiyin Institute of Technology

Contract record no.: X2021980011987

Denomination of invention: Multi-target tracking method based on multi-agent deep reinforcement learning

Granted publication date: 20210907

License type: Common License

Record date: 20211108

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221215

Address after: 211100 2nd floor, building 1, No.8 Shuige Road, Jiangning District, Nanjing City, Jiangsu Province (Jiangning Development Zone)

Patentee after: NANJING QIANHE INTERNET OF THINGS TECHNOLOGY CO.,LTD.

Address before: 223000 a12-2, high tech Industrial Park, No. 3, Dongqi street, Hongze District, Huai'an City, Jiangsu Province (Hongze sub center, technology transfer center of Huaiyin Institute of Technology)

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY