CN110210304B - 用于目标检测和跟踪的方法及系统 - Google Patents

用于目标检测和跟踪的方法及系统 Download PDF

Info

Publication number
CN110210304B
CN110210304B CN201910355788.0A CN201910355788A CN110210304B CN 110210304 B CN110210304 B CN 110210304B CN 201910355788 A CN201910355788 A CN 201910355788A CN 110210304 B CN110210304 B CN 110210304B
Authority
CN
China
Prior art keywords
tracking
frame
candidate
target
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910355788.0A
Other languages
English (en)
Other versions
CN110210304A (zh
Inventor
何刚
袁宇辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910355788.0A priority Critical patent/CN110210304B/zh
Publication of CN110210304A publication Critical patent/CN110210304A/zh
Application granted granted Critical
Publication of CN110210304B publication Critical patent/CN110210304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种用于目标检测和跟踪的方法及系统,属于视频监控领域。所述方法包括:训练目标检测与目标跟踪相联合的联合模型;通过所述联合模型处理当前时刻的视频序列的每帧图像,以生成候选框,该候选框包括目标坐标及目标属于各个类别的概率;结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框;基于调整后的候选框生成最终的检测框,以进行目标检测,得到最终检测结果;以及将所述最终检测结果与所述前一时刻的跟踪片段相结合,生成所述当前时刻的跟踪片段。本发明利用跟踪信息对检测器本身进行优化,将跟踪信息与检测器在早期进行融合,使得检测结果更为准确。

Description

用于目标检测和跟踪的方法及系统
技术领域
本发明涉及视频监控领域,具体地涉及一种用于目标检测和跟踪的方法及系统。
背景技术
随着互联网和人工智能技术的不断发展,越来越多的领域开始涉及自动化计算与分析,其中视频监控领域是最为重要的场景之一,例如用于安防。在视频监控中,目标检测与跟踪又是最为重要的技术之一。其中,检测算法是在视频帧中找到运动的目标,如在第10帧中找到目标A,在第11帧中找到目标a,而跟踪算法则是证明A与a是同一目标,由此可知跟踪算法是基于检测算法的。
但是,常见的视频监控领域的目标检测与跟踪技术多采用逐帧检测目标的检测算法,然后通过跟踪算法将各帧的检测结果进行结合产生跟踪轨迹。但这种方法只能让跟踪算法从检测结果中受益,而检测算法却不能从跟踪结果中受益。对此,现有技术中的一些优化方案尝试利用之前帧的跟踪信息在当前帧上产生预测框,并将这些预测框与检测器在当前帧上产生的检测框相结合,以用于改善检测结果(例如,利用之前帧的跟踪轨迹对当前帧上匹配的检测框进行重打分等)。但这些优化方案都是属于一些“晚融合”的方法,即只能在检测器输出最终检测结果之后,对检测结果进行处理,并不能利用跟踪信息对检测器本身进行优化。
发明内容
本发明实施例的目的是提供一种用于目标检测和跟踪的方法及系统,用以至少解决现有技术不能利用跟踪信息对检测器本身进行优化的问题。
为了实现上述目的,本发明实施例提供一种用于目标检测和跟踪的方法,包括:训练目标检测与目标跟踪相联合的联合模型;通过所述联合模型处理当前时刻的视频序列的每帧图像,以生成候选框,该候选框包括目标坐标及目标属于各个类别的概率;结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框;基于调整后的候选框生成最终的检测框,以进行目标检测,得到最终检测结果;以及将所述最终检测结果与所述前一时刻的跟踪片段相结合,生成所述当前时刻的跟踪片段。
可选的,在所述通过所述联合模型处理当前时刻的视频序列的每帧图像之前,该方法还包括:对所述图像进行预处理,再将预处理后的图像输入至所述联合模型。其中,所述预处理包括:将所述图像缩放成固定尺寸,并减去统一的RGB均值。
可选的,所述训练目标检测与目标跟踪相联合的联合模型包括:通过预测框标注每帧图像中的目标的坐标及所属于的类别,并针对每一预测框分配一个跟踪ID;在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像;在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失;在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失;以及基于所述第一损失和所述第二损失,训练出所述联合模型。
可选的,所述在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括:对于前一时刻t-1上的每个预测框bt-1,计算其与该前一时刻t-1的每个真实值范围之间的交并比(Intersection Over Union,IOU),并将bt-1分配给IOU最大的真实值范围
Figure BDA0002045374610000021
确定在当前时刻t与所述
Figure BDA0002045374610000022
相对应的真实值范围
Figure BDA0002045374610000023
以及采用以下公式计算bt-1
Figure BDA0002045374610000024
之间的第二损失
Figure BDA0002045374610000025
Figure BDA0002045374610000031
式中,
Figure BDA0002045374610000032
表示预测框bt-1的表观特征ε(bt-1)与真实值范围
Figure BDA0002045374610000033
的表观特征
Figure BDA0002045374610000034
之间的余弦距离。
可选的,该方法还包括:在生成所述候选框的同时,生成该候选框的表观特征。
可选的,所述结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括:对于当前时刻t的第i个候选框
Figure BDA0002045374610000035
通过下式计算其在受到前一时刻t-1所有的跟踪片段
Figure BDA0002045374610000036
的影响的约束下属于类别c的概率:
Figure BDA0002045374610000037
式中,
Figure BDA0002045374610000038
表示候选框
Figure BDA0002045374610000039
与第j个跟踪片段
Figure BDA00020453746100000310
的相似度权重,且
Figure BDA00020453746100000311
表示在候选框
Figure BDA00020453746100000312
受到跟踪片段
Figure BDA00020453746100000313
的影响的约束下该候选框
Figure BDA00020453746100000314
属于类别c的概率;
其中,通过下式计算所述
Figure BDA00020453746100000315
Figure BDA00020453746100000316
式中,
Figure BDA00020453746100000317
表示候选框
Figure BDA00020453746100000318
的表观特征
Figure BDA00020453746100000319
与跟踪片段
Figure BDA00020453746100000320
的表观特征
Figure BDA00020453746100000321
之间的余弦距离,γ为设定的系数。
其中,通过下式计算所述
Figure BDA00020453746100000322
Figure BDA00020453746100000323
式中,
Figure BDA00020453746100000324
表示候选框
Figure BDA00020453746100000325
属于类别c的概率,
Figure BDA00020453746100000326
表示第j个跟踪片段
Figure BDA00020453746100000327
属于类别c的概率。
可选的,该方法还包括通过下式来确定所述
Figure BDA00020453746100000328
Figure BDA0002045374610000041
式中,β为设定参数,
Figure BDA0002045374610000042
为跟踪片段
Figure BDA0002045374610000043
的长度。
可选的,所述基于调整后的候选框生成最终的检测框包括:对所述调整后的候选框进行非最大值抑制(Non-Maximum Suppression,NMS)处理和阈值过滤处理以得到最终的检测框。
本发明实施例另一方面提供一种用于目标检测和跟踪的系统,包括:模型训练单元,用于训练目标检测与目标跟踪相联合的联合模型;候选框生成单元,用于通过所述联合模型处理当前时刻的视频序列的每帧图像,以生成候选框,该候选框包括目标坐标及目标属于各个类别的概率;候选框调整单元,用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框;检测框生成单元,用于基于调整后的候选框生成最终的检测框,以进行目标检测,得到最终检测结果;以及跟踪处理单元,用于将所述最终检测结果与所述前一时刻的跟踪片段相结合,生成所述当前时刻的跟踪片段。
可选的,该系统还包括:预处理单元,用于在所述候选框生成单元通过所述联合模型处理当前时刻的视频序列的每帧图像之前,对所述图像进行预处理。其中,所述预处理包括:将所述图像缩放成固定尺寸,并减去统一的RGB均值。
可选的,所述模型训练单元包括:标注模块,用于通过预测框标注每帧图像中的目标的坐标及所属于的类别,并针对每一预测框分配一个跟踪ID;采样模块,用于在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像;第一损失计算模块,用于在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失;第二损失计算模块,用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失;以及模型训练模块,用于基于所述第一损失和所述第二损失,训练出所述联合模型。
可选的,所述第二损失计算模块用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括:对于前一时刻t-1上的每个预测框bt-1,计算其与该前一时刻t-1的每个真实值范围之间的IOU,并将bt-1分配给IOU最大的真实值范围
Figure BDA0002045374610000051
确定在当前时刻t与所述
Figure BDA0002045374610000052
相对应的真实值范围
Figure BDA0002045374610000053
以及采用以下公式计算bt-1
Figure BDA0002045374610000054
之间的第二损失
Figure BDA0002045374610000055
Figure BDA0002045374610000056
其中,
Figure BDA0002045374610000057
表示预测框bt-1的表观特征ε(bt-1)与真实值范围
Figure BDA0002045374610000058
的表观特征
Figure BDA0002045374610000059
之间的余弦距离。
可选的,所述候选框生成单元还用于在生成所述候选框的同时,生成该候选框的表观特征。
可选的,所述候选框调整单元用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括:
对于当前时刻t的第i个候选框
Figure BDA00020453746100000510
通过下式计算其在受到前一时刻t-1所有的跟踪片段
Figure BDA00020453746100000511
的影响的约束下属于类别c的概率:
Figure BDA00020453746100000512
其中,
Figure BDA00020453746100000513
表示候选框
Figure BDA00020453746100000514
与第j个跟踪片段
Figure BDA00020453746100000515
的相似度权重,且
Figure BDA00020453746100000516
表示在候选框
Figure BDA00020453746100000517
受到跟踪片段
Figure BDA00020453746100000518
的影响的约束下该候选框
Figure BDA00020453746100000519
属于类别c的概率。
其中,通过下式计算所述
Figure BDA00020453746100000520
Figure BDA00020453746100000521
式中,
Figure BDA0002045374610000061
表示候选框
Figure BDA0002045374610000062
的表观特征
Figure BDA0002045374610000063
与跟踪片段
Figure BDA0002045374610000064
的表观特征
Figure BDA0002045374610000065
之间的余弦距离,γ为设定的系数。
其中,通过下式计算所述
Figure BDA0002045374610000066
Figure BDA0002045374610000067
式中,
Figure BDA0002045374610000068
表示候选框
Figure BDA0002045374610000069
属于类别c的概率,
Figure BDA00020453746100000610
表示第j个跟踪片段
Figure BDA00020453746100000611
属于类别c的概率。
可选的,该方法还包括通过下式来确定所述
Figure BDA00020453746100000612
Figure BDA00020453746100000613
其中,β为设定参数,
Figure BDA00020453746100000614
为跟踪片段
Figure BDA00020453746100000615
的长度。
可选的,所述检测框生成单元用于基于调整后的候选框生成最终的检测框包括:对所述调整后的候选框进行NMS处理和阈值过滤处理以得到最终的检测框。
本发明实施例另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的用于目标检测和跟踪的方法。
本发明实施例另一方面还提供一种计算机设备,该计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的用于目标检测和跟踪的方法。
通过上述技术方案,本发明实施例的目标检测与跟踪的方法及系统利用跟踪信息对检测器本身进行优化,将跟踪信息与检测器在早期进行融合,使得检测器的检测框受到与它相似的跟踪轨迹的影响,在人流量统计等实际应用场景中能获得更准确的结果。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例的用于目标检测和跟踪的方法的流程示意图;
图2是本发明实施例中训练目标检测与目标跟踪相联合的联合模型的流程示意图;
图3是本发明实施例的用于目标检测和跟踪的系统的结构示意图;以及
图4是本发明优选实施例中的模型训练单元的结构示意图;
附图标记说明
310 模型训练单元 320 候选框生成单元
330 候选框调整单元 340 检测框生成单元
350 跟踪处理单元 360 预处理单元
311 标注模块 312 采样模块
313 第一损失计算模块 314 第二损失计算模块
315 模型训练模块
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1是本发明实施例的用于目标检测和跟踪的方法的流程示意图,其中所述目标例如是人体,故而可将该方法应用于多目标人体跟踪以及人流量统计等。如图1所示,该方法可以包括以下步骤:
步骤S110,训练目标检测与目标跟踪相联合的联合模型。
其中,所述联合模型可采用神经网络技术训练得到,其输入为视频序列的图像,输出为一系列的候选框。其中,候选框用于粗略限定检测目标。关于该联合模型的具体训练方法将在下文详细描述,在此不再赘述。
步骤S120,通过所述联合模型处理当前时刻的视频序列的每帧图像,以生成候选框。
其中,该候选框包括目标坐标及目标属于各个类别的概率。举例而言,目标例如是处于运动状态的某物体,类别例如是人或者动物,则该候选框可以包括检测到的人体以及其属于人这一类别的概率高达90%以上。
在优选的实施例中,在通过所述联合模型处理当前时刻的视频序列的每帧图像之前,该方法还可以包括:对所述图像进行预处理,再将预处理后的图像输入至所述联合模型。优选地,所述预处理例如是将所述图像缩放成固定尺寸(如600*1000),并减去统一的RGB均值(如[104,117,123])。
另外,在优选的实施例中,在生成候选框的同时,还可以生成该候选框的表观特征。该表观特征可用于调整候选框,对此将在下文中具体描述,在此则不再赘述。
需说明的是,该步骤S120所生成的候选框只是进行目标检测的检测器的中间结果,并不是检测器的最终输出结果,后续还将调整候选框以优化检测器。
步骤S130,结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框。
从前一步骤S120,可知当前的候选框并不是检测器的最终输出结果,即检测器还未输出最终的检测结果,从而该步骤S130中将前一时刻的跟踪片段与当前时刻的候选框相关联,相当于利用跟踪信息(即前一时刻的跟踪片段)对检测器进行了优化,因此相对于现有技术中的“晚融合”的方法,本发明实施例属于在检测器输出最终检测结果之前对检测器本身进行优化的“早融合”的方法。
在优选的实施例中,该步骤S130结合前一时刻的跟踪片段调整所述候选框具体可以包括:
对于当前时刻t的第i个候选框
Figure BDA0002045374610000091
通过下面的公式(1)计算其在受到前一时刻t-1所有的跟踪片段
Figure BDA0002045374610000092
的影响的约束下属于类别c的概率:
Figure BDA0002045374610000093
式中,
Figure BDA0002045374610000094
表示候选框
Figure BDA0002045374610000095
与第j个跟踪片段
Figure BDA0002045374610000096
的相似度权重,其表明本发明实施例中主要是选择前一时刻中与候选框较为相似的跟踪片段来调整候选框,据此使得候选框受到与之相似的跟踪轨迹的影响。
在优选的实施例中,可通过下面的公式(2)计算所述
Figure BDA0002045374610000097
Figure BDA0002045374610000098
其中,
Figure BDA0002045374610000099
表示候选框
Figure BDA00020453746100000910
的表观特征
Figure BDA00020453746100000911
与跟踪片段
Figure BDA00020453746100000912
的表观特征
Figure BDA00020453746100000913
之间的余弦距离,γ为设定的系数,例如γ=8。
式中,
Figure BDA00020453746100000914
表示在候选框
Figure BDA00020453746100000915
受到跟踪片段
Figure BDA00020453746100000916
的影响的约束下,该候选框
Figure BDA00020453746100000917
属于类别c的概率。在优选的实施例中,可通过下面的公式(3)计算
Figure BDA00020453746100000918
Figure BDA00020453746100000919
式中,
Figure BDA00020453746100000920
表示候选框
Figure BDA00020453746100000921
属于类别c的概率,
Figure BDA00020453746100000922
表示第j个跟踪片段
Figure BDA0002045374610000101
属于类别c的概率。
在优选的实施例中,可通过与跟踪轨迹匹配的检测框求平均得到
Figure BDA0002045374610000102
具体表现在为通过下面的公式(4)来计算
Figure BDA0002045374610000103
Figure BDA0002045374610000104
其中,
Figure BDA0002045374610000105
为跟踪片段
Figure BDA0002045374610000106
的长度,β为设定参数,例如β=0.99。
据此,可知通过对每个候选框进行上面的公式(1)-(4)的计算操作后,它们属于各个类别的概率已经发生了变化,即实现了基于前一时刻的跟踪片段对当前时刻的候选框的调整。
步骤S140,基于调整后的候选框生成最终的检测框,以进行目标检测,得到最终检测结果。
在优选的实施例中,该步骤S140中生成最终的检测框可以包括:对所述调整后的候选框进行非最大值抑制(Non-Maximum Suppression,NMS)处理和阈值过滤处理以得到最终的检测框。最终的检测框进行目标检测得到了最终的检测结果,从而实现了跟踪信息在“早期”对检测器产生影响,并最终影响检测结果。
步骤S150,将所述最终检测结果与所述前一时刻的跟踪片段相结合,生成所述当前时刻的跟踪片段。
其中,将所述最终检测结果与所述前一时刻的跟踪片段相结合,即是对每帧产生的检测结果运用跟踪算法进行匹配,从而得到当前时刻的跟踪片段以作为跟踪结果。处理完所有视频帧后,整个流程结束。
进一步地,生成的所述当前时刻的新的跟踪片段可作为跟踪信息用于调整下一时刻对应的候选框。并且,该新的跟踪片段也可作为跟踪信息来训练前述的联合模型。
图2是本发明实施例中训练目标检测与目标跟踪相联合的联合模型的流程示意图。如图2所示,该训练过程可以包括以下步骤:
步骤S210,通过预测框标注每帧图像中的目标的坐标及所属于的类别,并针对每一预测框分配一个跟踪ID。
举例而言,预测框为一矩形框,通过该矩形框标注每帧图像中的目标的坐标(包括坐标位置)和目标所属于的类别,同时为每个矩形框分配一个track ID(即跟踪ID)用作跟踪训练。
步骤S220,在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像。
举例而言,在训练的每个mini-batch(对应训练集),随机采样视频序列中t-1时刻(对应前一时刻)和t时刻(对应当前时刻)相邻的两帧图像。
步骤S230,在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失。
举例而言,对于检测loss(即第一损失)只在t-1时刻(对应前一时刻)的图像上计算,比如利用Faster R-CNN神经网络结构,则计算第一损失包括计算Softmax函数(一种归一化指数函数)的交叉熵损失(cross-entropy loss)和L1回归损失(regression loss)。
步骤S240,在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失。
举例而言,具体包括以下计算步骤:
步骤S241,对于所述前一时刻上的每个预测框bt-1,计算其与该前一时刻的每个真实值范围之间的交并比(Intersection Over Union,IOU),并将bt-1分配给IOU最大的真实值范围
Figure BDA0002045374610000111
步骤S242,确定在所述当前时刻与所述
Figure BDA0002045374610000113
相对应的真实值范围
Figure BDA0002045374610000112
步骤S243,采用以下公式计算bt-1
Figure BDA0002045374610000114
之间的第二损失
Figure BDA0002045374610000121
Figure BDA0002045374610000122
其中,
Figure BDA0002045374610000123
表示预测框bt-1的表观特征ε(bt-1)与真实值范围
Figure BDA0002045374610000124
的表观特征
Figure BDA0002045374610000125
之间的余弦距离。
步骤S250,基于所述第一损失和所述第二损失,训练出所述联合模型。
举例而言,按照上面步骤S210-S240的方式对训练集中的所有图像计算第一损失和第二损失,再利用反向传播梯度进行训练,最终得出想要的联合模型。
据此,通过上述步骤S210-S250得到了本发明实施例中目标检测与目标跟踪相联合的联合模型,相对于现有技术中的目标检测模型的训练方法,其主要的改进在于模型训练中考虑了跟踪信息,有利于实现将跟踪信息与检测器在“早期”融合。
综上所述,本发明实施例所述的目标检测与跟踪的方法利用跟踪信息对检测器本身进行优化,将跟踪信息与检测器在早期进行融合,使得检测器的检测框受到与它相似的跟踪轨迹的影响,在人流量统计等实际应用场景中能获得更准确的结果。
基于与上述实施例的用于目标检测和跟踪的方法相同的发明思路,本发明实施例还提供了一种用于目标检测和跟踪的系统。图3是本发明实施例的用于目标检测和跟踪的系统的结构示意图。如图3所示,该系统可以包括:模型训练单元310,用于训练目标检测与目标跟踪相联合的联合模型;候选框生成单元320,用于通过所述联合模型处理当前时刻的视频序列的每帧图像,以生成候选框,该候选框包括目标坐标及目标属于各个类别的概率;候选框调整单元330,用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框;检测框生成单元340,用于基于调整后的候选框生成最终的检测框,以进行目标检测,得到最终检测结果;以及跟踪处理单元350,用于将所述最终检测结果与所述前一时刻的跟踪片段相结合,生成所述当前时刻的跟踪片段。
在优选的实施例中,该系统还包括:预处理单元360,用于在所述候选框生成单元通过所述联合模型处理当前时刻的视频序列的每帧图像之前,对所述图像进行预处理。其中,所述预处理包括:将所述图像缩放成固定尺寸,并减去统一的RGB均值。
图4是本发明优选实施例中的模型训练单元310的结构示意图。如图4所示,所述模型训练单元310可以包括:标注模块311,用于通过预测框标注每帧图像中的目标的坐标及所属于的类别,并针对每一预测框分配一个跟踪ID;采样模块312,用于在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像;第一损失计算模块313,用于在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失;第二损失计算模块314,用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失;以及模型训练模块315,用于基于所述第一损失和所述第二损失,训练出所述联合模型。
在优选的实施例中,所述候选框生成单元320还用于在生成所述候选框的同时,生成该候选框的表观特征。基于此,所述候选框调整单元330可基于上述的公式(1)-(4)来结合前一时刻的跟踪片段调整所述候选框。
在优选的实施例中,所述检测框生成单元340用于基于调整后的候选框生成最终的检测框包括:对所述调整后的候选框进行NMS处理和阈值过滤处理以得到最终的检测框。
需说明的是,本发明实施例的用于目标检测和跟踪的系统的其他实施细节及效果可参考上述关于用于目标检测和跟踪的方法的实施例,在此不再赘述。
本发明另一实施例还提供一种计算机设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的目标检测与跟踪的方法。
本发明另一实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行如上所述的目标检测与跟踪的方法。
对于计算机设备及机器可读存储介质中的目标检测与跟踪的方法可参考上述实施例进行理解,在此不再赘述。下面主要结合应用场景对计算机设备及机器可读存储介质进行进一步介绍。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置(设备或系统)、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备或系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、存储器、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明实施例可提供为方法、系统或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,例如改变步骤执行顺序,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

Claims (18)

1.一种用于目标检测和跟踪的方法,其特征在于,该方法包括:
训练目标检测与目标跟踪相联合的联合模型;
通过所述联合模型处理当前时刻的视频序列的每帧图像,以生成候选框,该候选框包括目标坐标及目标属于各个类别的概率,且该候选框是进行目标检测的中间结果;
结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框;
基于调整后的候选框生成最终的检测框,以进行目标检测,得到最终检测结果;以及
将所述最终检测结果与所述前一时刻的跟踪片段相结合,生成所述当前时刻的跟踪片段。
2.根据权利要求1所述的用于目标检测和跟踪的方法,其特征在于,在所述通过所述联合模型处理当前时刻的视频序列的每帧图像之前,该方法还包括:
对所述图像进行预处理,再将预处理后的图像输入至所述联合模型;
其中,所述预处理包括:将所述图像缩放成固定尺寸,并减去统一的RGB均值。
3.根据权利要求1所述的用于目标检测和跟踪的方法,其特征在于,所述训练目标检测与目标跟踪相联合的联合模型包括:
通过预测框标注每帧图像中的目标的坐标及所属于的类别,并针对每一预测框分配一个跟踪ID;
在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像;
在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失;
在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失;以及
基于所述第一损失和所述第二损失,训练出所述联合模型。
4.根据权利要求3所述的用于目标检测和跟踪的方法,其特征在于,所述在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括:
对于前一时刻t-1上的每个预测框bt-1,计算其与该前一时刻t-1的每个真实值范围之间的交并比IOU,并将bt-1分配给IOU最大的真实值范围
Figure FDA0002942083270000021
确定在当前时刻t与所述
Figure FDA0002942083270000022
相对应的真实值范围
Figure FDA0002942083270000023
以及
采用以下公式计算bt-1
Figure FDA0002942083270000024
之间的第二损失
Figure FDA0002942083270000025
Figure FDA0002942083270000026
式中,
Figure FDA0002942083270000027
表示预测框bt-1的表观特征ε(bt-1)与真实值范围
Figure FDA0002942083270000028
的表观特征
Figure FDA0002942083270000029
之间的余弦距离。
5.根据权利要求1所述的用于目标检测和跟踪的方法,其特征在于,该方法还包括:在生成所述候选框的同时,生成该候选框的表观特征。
6.根据权利要求5所述的用于目标检测和跟踪的方法,其特征在于,所述结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括:
对于当前时刻t的第i个候选框
Figure FDA00029420832700000210
通过下式计算其在受到前一时刻t-1所有的跟踪片段
Figure FDA00029420832700000211
的影响的约束下属于类别c的概率:
Figure FDA0002942083270000031
式中,
Figure FDA0002942083270000032
表示候选框
Figure FDA0002942083270000033
与第j个跟踪片段
Figure FDA0002942083270000034
的相似度权重,且
Figure FDA0002942083270000035
表示在候选框
Figure FDA0002942083270000036
受到跟踪片段
Figure FDA0002942083270000037
的影响的约束下该候选框
Figure FDA0002942083270000038
属于类别c的概率;
其中,通过下式计算所述
Figure FDA0002942083270000039
Figure FDA00029420832700000310
式中,
Figure FDA00029420832700000311
表示候选框
Figure FDA00029420832700000312
的表观特征
Figure FDA00029420832700000313
与跟踪片段
Figure FDA00029420832700000314
的表观特征
Figure FDA00029420832700000315
之间的余弦距离,γ为设定的系数;
其中,通过下式计算所述
Figure FDA00029420832700000316
Figure FDA00029420832700000317
式中,
Figure FDA00029420832700000318
表示候选框
Figure FDA00029420832700000319
属于类别c的概率,
Figure FDA00029420832700000320
表示第j个跟踪片段
Figure FDA00029420832700000321
属于类别c的概率。
7.根据权利要求6所述的用于目标检测和跟踪的方法,其特征在于,该方法还包括通过下式来确定所述
Figure FDA00029420832700000322
Figure FDA00029420832700000323
式中,β为设定参数,
Figure FDA00029420832700000324
为跟踪片段
Figure FDA00029420832700000325
的长度。
8.根据权利要求1所述的用于目标检测和跟踪的方法,其特征在于,所述基于调整后的候选框生成最终的检测框包括:
对所述调整后的候选框进行非最大值抑制NMS处理和阈值过滤处理以得到最终的检测框。
9.一种用于目标检测和跟踪的系统,其特征在于,该系统包括:
模型训练单元,用于训练目标检测与目标跟踪相联合的联合模型;
候选框生成单元,用于通过所述联合模型处理当前时刻的视频序列的每帧图像,以生成候选框,该候选框包括目标坐标及目标属于各个类别的概率,且该候选框是进行目标检测的中间结果;
候选框调整单元,用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框;
检测框生成单元,用于基于调整后的候选框生成最终的检测框,以进行目标检测,得到最终检测结果;以及
跟踪处理单元,用于将所述最终检测结果与所述前一时刻的跟踪片段相结合,生成所述当前时刻的跟踪片段。
10.根据权利要求9所述的用于目标检测和跟踪的系统,其特征在于,该系统还包括:
预处理单元,用于在所述候选框生成单元通过所述联合模型处理当前时刻的视频序列的每帧图像之前,对所述图像进行预处理;
其中,所述预处理包括:将所述图像缩放成固定尺寸,并减去统一的RGB均值。
11.根据权利要求9所述的用于目标检测和跟踪的系统,其特征在于,所述模型训练单元包括:
标注模块,用于通过预测框标注每帧图像中的目标的坐标及所属于的类别,并针对每一预测框分配一个跟踪ID;
采样模块,用于在所述视频序列的每个训练集中采样当前时刻和前一时刻对应的视频序列中相邻的两帧图像;
第一损失计算模块,用于在所采样的所述前一时刻对应的两帧图像上计算进行目标检测的第一损失;
第二损失计算模块,用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失;以及
模型训练模块,用于基于所述第一损失和所述第二损失,训练出所述联合模型。
12.根据权利要求11所述的用于目标检测和跟踪的系统,其特征在于,所述第二损失计算模块用于在所采样的所述前一时刻和所述当前时刻分别对应的两帧图像上计算进行目标跟踪的第二损失包括:
对于前一时刻t-1上的每个预测框bt-1,计算其与该前一时刻t-1的每个真实值范围之间的交并比IOU,并将bt-1分配给IOU最大的真实值范围
Figure FDA0002942083270000051
确定在当前时刻t与所述
Figure FDA0002942083270000052
相对应的真实值范围
Figure FDA0002942083270000053
以及
采用以下公式计算bt-1
Figure FDA0002942083270000054
之间的第二损失
Figure FDA0002942083270000055
Figure FDA0002942083270000056
其中,
Figure FDA0002942083270000057
表示预测框bt-1的表观特征ε(bt-1)与真实值范围
Figure FDA0002942083270000058
的表观特征
Figure FDA0002942083270000059
之间的余弦距离。
13.根据权利要求9所述的用于目标检测和跟踪的系统,其特征在于,所述候选框生成单元还用于在生成所述候选框的同时,生成该候选框的表观特征。
14.根据权利要求13所述的用于目标检测和跟踪的系统,其特征在于,所述候选框调整单元用于结合相对于所述当前时刻的前一时刻的跟踪片段调整所述候选框包括:
对于当前时刻t的第i个候选框
Figure FDA0002942083270000061
通过下式计算其在受到前一时刻t-1所有的跟踪片段
Figure FDA0002942083270000062
的影响的约束下属于类别c的概率:
Figure FDA0002942083270000063
其中,
Figure FDA0002942083270000064
表示候选框
Figure FDA0002942083270000065
与第j个跟踪片段
Figure FDA0002942083270000066
的相似度权重,且
Figure FDA0002942083270000067
表示在候选框
Figure FDA0002942083270000068
受到跟踪片段
Figure FDA0002942083270000069
的影响的约束下该候选框
Figure FDA00029420832700000610
属于类别c的概率;
其中,通过下式计算所述
Figure FDA00029420832700000611
Figure FDA00029420832700000612
式中,
Figure FDA00029420832700000613
表示候选框
Figure FDA00029420832700000614
的表观特征
Figure FDA00029420832700000615
与跟踪片段
Figure FDA00029420832700000616
的表观特征
Figure FDA00029420832700000617
之间的余弦距离,γ为设定的系数;
其中,通过下式计算所述
Figure FDA00029420832700000618
Figure FDA00029420832700000619
式中,
Figure FDA00029420832700000620
表示候选框
Figure FDA00029420832700000621
属于类别c的概率,
Figure FDA00029420832700000622
表示第j个跟踪片段
Figure FDA00029420832700000623
属于类别c的概率。
15.根据权利要求14所述的用于目标检测和跟踪的系统,其特征在于,该方法还包括通过下式来确定所述
Figure FDA00029420832700000624
Figure FDA00029420832700000625
其中,β为设定参数,
Figure FDA00029420832700000626
为跟踪片段
Figure FDA00029420832700000627
的长度。
16.根据权利要求9所述的用于目标检测和跟踪的系统,其特征在于,所述检测框生成单元用于基于调整后的候选框生成最终的检测框包括:
对所述调整后的候选框进行非最大值抑制NMS处理和阈值过滤处理以得到最终的检测框。
17.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1至8中任意一项所述的用于目标检测和跟踪的方法。
18.一种计算机设备,其特征在于,该计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至8中任意一项所述的用于目标检测和跟踪的方法。
CN201910355788.0A 2019-04-29 2019-04-29 用于目标检测和跟踪的方法及系统 Active CN110210304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910355788.0A CN110210304B (zh) 2019-04-29 2019-04-29 用于目标检测和跟踪的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910355788.0A CN110210304B (zh) 2019-04-29 2019-04-29 用于目标检测和跟踪的方法及系统

Publications (2)

Publication Number Publication Date
CN110210304A CN110210304A (zh) 2019-09-06
CN110210304B true CN110210304B (zh) 2021-06-11

Family

ID=67786703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910355788.0A Active CN110210304B (zh) 2019-04-29 2019-04-29 用于目标检测和跟踪的方法及系统

Country Status (1)

Country Link
CN (1) CN110210304B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659600B (zh) * 2019-09-19 2022-04-29 北京百度网讯科技有限公司 物体检测方法、装置及设备
CN112749590B (zh) * 2019-10-30 2023-02-07 上海高德威智能交通系统有限公司 目标检测方法、装置、计算机设备和计算机可读存储介质
CN113255411A (zh) * 2020-02-13 2021-08-13 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN111401194B (zh) * 2020-03-10 2023-09-22 北京百度网讯科技有限公司 用于自动驾驶车辆的数据处理方法和装置
CN111738072A (zh) * 2020-05-15 2020-10-02 北京百度网讯科技有限公司 目标检测模型的训练方法、装置及电子设备
CN113158909B (zh) * 2021-04-25 2023-06-27 中国科学院自动化研究所 基于多目标跟踪的行为识别轻量化方法、系统、设备
CN113326773A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113538516B (zh) * 2021-07-19 2024-04-16 中国兵器工业计算机应用技术研究所 基于记忆信息的目标对象跟踪方法、装置及电子设备
CN117455955B (zh) * 2023-12-14 2024-03-08 武汉纺织大学 一种基于无人机视角下的行人多目标跟踪方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914685A (zh) * 2014-03-07 2014-07-09 北京邮电大学 一种基于广义最小团图和禁忌搜索的多目标跟踪方法
CN105913452A (zh) * 2016-04-01 2016-08-31 西北工业大学 空间碎片实时检测与跟踪方法
CN106373145A (zh) * 2016-08-30 2017-02-01 上海交通大学 基于跟踪片段置信度和区分性外观学习的多目标跟踪方法
CN107122735A (zh) * 2017-04-26 2017-09-01 中山大学 一种基于深度学习和条件随机场的多目标跟踪方法
CN107392937A (zh) * 2017-07-14 2017-11-24 腾讯科技(深圳)有限公司 目标跟踪方法、装置及电子设备
CN108182693A (zh) * 2017-12-12 2018-06-19 嘉兴慧康智能科技有限公司 一种基于跟踪片段置信度和外观学习的多目标跟踪算法
CN108460356A (zh) * 2018-03-13 2018-08-28 上海海事大学 一种基于监控系统的人脸图像自动处理系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040157220A1 (en) * 2003-02-10 2004-08-12 Purnima Kurnool Methods and apparatus for sample tracking
CN105894020B (zh) * 2016-03-30 2019-04-12 重庆大学 基于高斯模型的特定目标候选框生成方法
CN108470332B (zh) * 2018-01-24 2023-07-07 博云视觉(北京)科技有限公司 一种多目标跟踪方法及装置
CN108388879B (zh) * 2018-03-15 2022-04-15 斑马网络技术有限公司 目标的检测方法、装置和存储介质
CN108665483B (zh) * 2018-05-04 2021-10-12 浙江工业大学 一种基于多特征融合的癌细胞跟踪方法
CN109102522B (zh) * 2018-07-13 2021-08-31 北京航空航天大学 一种目标跟踪方法及装置
CN109584276B (zh) * 2018-12-04 2020-09-25 北京字节跳动网络技术有限公司 关键点检测方法、装置、设备及可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914685A (zh) * 2014-03-07 2014-07-09 北京邮电大学 一种基于广义最小团图和禁忌搜索的多目标跟踪方法
CN105913452A (zh) * 2016-04-01 2016-08-31 西北工业大学 空间碎片实时检测与跟踪方法
CN106373145A (zh) * 2016-08-30 2017-02-01 上海交通大学 基于跟踪片段置信度和区分性外观学习的多目标跟踪方法
CN107122735A (zh) * 2017-04-26 2017-09-01 中山大学 一种基于深度学习和条件随机场的多目标跟踪方法
CN107392937A (zh) * 2017-07-14 2017-11-24 腾讯科技(深圳)有限公司 目标跟踪方法、装置及电子设备
CN108182693A (zh) * 2017-12-12 2018-06-19 嘉兴慧康智能科技有限公司 一种基于跟踪片段置信度和外观学习的多目标跟踪算法
CN108460356A (zh) * 2018-03-13 2018-08-28 上海海事大学 一种基于监控系统的人脸图像自动处理系统

Also Published As

Publication number Publication date
CN110210304A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210304B (zh) 用于目标检测和跟踪的方法及系统
US10628701B2 (en) System and method for improved general object detection using neural networks
CN109740670B (zh) 视频分类的方法及装置
CN111508002B (zh) 一种小型低飞目标视觉检测跟踪系统及其方法
CN106971401B (zh) 多目标跟踪装置和方法
US11501162B2 (en) Device for classifying data
US20190147279A1 (en) System of a video frame detector for video content identification and method thereof
US20110310970A1 (en) Method, apparatus and computer-readable medium processing frames obtained by multiple exposures
CN113469118B (zh) 多目标行人跟踪方法及装置、电子设备、存储介质
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
US20220172378A1 (en) Image processing apparatus, image processing method and non-transitory computer readable medium
CN110827292B (zh) 一种基于卷积神经网络的视频实例分割方法及设备
CN112508803B (zh) 一种三维点云数据的去噪方法、装置及存储介质
CN113139442A (zh) 一种图像跟踪方法、装置、存储介质及电子设备
CN113807185B (zh) 一种数据处理方法和装置
CN114612847A (zh) 一种Deepfake视频篡改检测方法以及系统
CN109903246B (zh) 检测图像变化的方法及装置
CN110414544B (zh) 一种目标状态分类方法、装置及系统
CN110222585B (zh) 一种基于级联检测器的运动目标跟踪方法
CN113450385B (zh) 一种夜间工作工程机械视觉跟踪方法、装置及存储介质
CN113516238A (zh) 一种模型训练方法、去噪方法、模型、设备及存储介质
CN112419367B (zh) 特异目标物的识别方法及装置
CN116596923B (zh) 基于边缘检测的园林植物识别方法及系统
CN117197592B (zh) 一种目标检测模型训练方法、装置、电子设备及介质
CN117292338B (zh) 基于视频流解析的车辆事故识别和分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant