CN108320296A

CN108320296A - 一种视频中目标对象的检测跟踪方法、装置及设备

Info

Publication number: CN108320296A
Application number: CN201711455858.7A
Authority: CN
Inventors: 谯帅; 彭莉; 刘洋
Original assignee: Ennew Digital Technology Co Ltd
Current assignee: Ennew Digital Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-07-24
Anticipated expiration: 2037-12-28
Also published as: CN108320296B

Abstract

本申请公开了一种视频中目标对象的检测跟踪方法、装置及设备，其中，方法具体包括，将连续视频帧输入至预先训练得到的卷积神经网络中；其中，所述卷积神经网络至少包括设定数量的共享卷积层，区域建议网络层，利用所述共享卷积层提取连续视频帧的特征，得到分别对应于不同视频帧的特征映射图，利用所述区域建议网络层，根据所述特征映射图确定与目标对象相关的目标区域，基于所述目标区域，检测目标对象在连续视频帧中的位置及运行轨迹。通过该方法，采用卷积神经网络模型将检测跟踪统一起来，减少计算量，并可以解决目标多姿态多视角的检测难题，提升目标检出率，降低误检率。

Description

一种视频中目标对象的检测跟踪方法、装置及设备

技术领域

本申请涉及机器视觉技术领域，尤其涉及一种视频中目标对象的检测跟踪方法、装置及设备。

背景技术

目前，对视频中动态目标对象(如：视频中的车辆、行人等)的检测识别技术，广泛应用于交通、安全监控、家庭娱乐等多个领域。

现有技术中，为了提取视频中的动态目标对象，通常采用背景建模与前景检测(Background Generation And Foreground Detection)的方法，获取运动前景，从而得到相关的目标对象。

然而，现有技术中的上述方法受光照等环境因素的影响较大，可能造成较多误检，并且对静止的目标可能漏检。

发明内容

本说明书实施例提供一种视频中目标对象的检测跟踪方法、装置及设备，以通过神经网络模型实现对连续视频帧中目标对象的检测及跟踪。

本说明书实施例提供的一种视频中目标对象的检测跟踪方法，具体包括：

将连续视频帧输入至预先训练得到的卷积神经网络中；其中，所述卷积神经网络至少包括设定数量的共享卷积层，区域建议网络层；

利用所述共享卷积层提取连续视频帧的特征，得到分别对应于不同视频帧的特征映射图；

利用所述区域建议网络层，根据所述特征映射图确定与目标对象相关的目标区域；

基于所述目标区域，检测目标对象在连续视频帧中的位置及运行轨迹。

此外，本实施例还提供了一种视频中目标对象的检测跟踪装置，具体包括：

输入模块，将连续视频帧输入至预先训练得到的卷积神经网络中；其中，所述卷积神经网络至少包括设定数量的共享卷积层，区域建议网络层；

特征提取模块，利用所述共享卷积层提取连续视频帧的特征，得到分别对应于不同视频帧的特征映射图；

区域确定模块，利用所述区域建议网络层，根据所述特征映射图确定与目标对象相关的目标区域；

检测跟踪模块，基于所述目标区域，检测目标对象在连续视频帧中的位置及运行轨迹。

此外，本实施例还提供了一种视频中目标对象的检测跟踪设备，具体包括：

存储器，存储视频中目标对象的检测跟踪程序；

通讯接口，接收视频帧；

处理器，在通讯接口接收到视频帧后，调用存储器中存储的视频中目标对象的检测跟踪程序，并执行：

本说明书实施例采用上述至少一个技术方案能够达到以下有益效果：

在视频中，目标对象通常是动态的，在连续的视频帧中，通常表现为目标对象的位置、形态、角度等发生变化。那么，通过上述包含RPN层的卷积神经网络，可以针对每一视频帧中的目标进行识别检测(框选出目标对象的目标区域)，并可以确定出后一视频帧中目标区域的位置，从而确定出后一视频帧中的目标对象。

在此过程中，采用卷积神经网络模型将检测跟踪统一起来，联合检测跟踪可以通过共享卷积网络，减少计算量；利用卷积网络强大的表征能力，可以解决目标多姿态多视角的检测难题，提升目标检出率，降低误检率；采用多尺度多宽高比进行训练及推断，可以解决目标在场景中尺度及宽高比变化时导致的跟踪丢失或跟踪漂移问题；训练中跟踪采用鉴别损失和位置回归损失结合的方式，确定每个区域所跟踪到的是同一目标，同时得到目标较准确的位置。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的视频中目标对象的检测跟踪方法流程图；

图2为本说明书实施例提供的神经网络框架示意图；

图3为本说明书实施例提供的具体算法流程示意图；

图4为本说明书实施例提供的视频中目标对象的检测跟踪装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本说明书的一个或多个实施例中，所使用的卷积神经网络具体可以是Fast-RCNN，并且，为了更有效地对图像中的目标对象进行检测跟踪，可以在Fast-RCNN的基础上，使用区域建议网络(Region Proposal Network，RPN)。通过两种网络的结合运用，可以实现对图像中多姿态、多角度的目标对象进行较为精准地识别，降低误检率。

特别是在对视频图像(即，视频帧)识别的场景下，考虑到视频动态播放的特点，那么，采用上述的神经网络可对若干连续的视频帧中所出现的多个目标对象分别进行检测识别并跟踪其运动轨迹。

当然，在实际应用中，所要识别的目标对象可以是在视频中的人物、动物、运动物体(如：车辆)的图像等，具体将根据实际应用的需要所确定。

下面对本说明书实施例中提供的基于卷积神经网络的目标检测跟踪方法进行详细说明：

如图1所示，所述的目标检测跟踪方法，具体可包括以下步骤：

步骤S101：将连续视频帧输入至预先训练得到的卷积神经网络中；其中，所述卷积神经网络至少包括设定数量的共享卷积层，区域建议网络层。

在本说明书实施例中，卷积神经网络中的卷积层可以设置为一个，也可以设置为多个，卷积层的具体数量将根据实际应用的需要所确定，这里不进行具体限定。通常而言，每一卷积层中包含多个卷积核，用以对图像中的局部特征进行卷积处理。作为本说明书中一种较优的实施方式，卷积神经网络中的卷积层采用共享卷积层，也即，同一卷积层中的卷积核共享权值，这样的方式能够有效降低权值的数量，便于后续计算及调整。

卷积神经网络中的RPN层，具体可在共享卷积层之后添加额外全连接层的方式构建。在本说明书实施例中，可以额外添加两个串联的全连接层。

所述的连续视频帧，应认为是在时间上彼此相邻的视频帧，例如：时间为18:02:10的视频图像和时间为18:02:11的视频图像，可认为是两个连续的视频帧。

在实际应用场景下，输入至前述卷积神经网络的连续视频可以是两帧同时输入或者是多帧同时输入，这里并不构成对本申请的限定。在以下的实施例中，将按照连续的两个视频帧的输入方式进行说明。

步骤S103：利用所述共享卷积层提取连续视频帧的特征，得到分别对应于不同视频帧的特征映射图。

卷积神经网络中的共享卷积层在对视频帧进行特征提取的过程中，针对每一视频帧，都可以得到相应的特征映射图。显然，对于多帧图像，便可以得到相对应的多个特征映射图。

步骤S105：利用所述区域建议网络层，根据所述特征映射图确定与目标对象相关的目标区域。

如前所述，在本说明书实施例中，RPN层可由两个全连接层所构建。具体而言，利用这两个全连接层，可以生成候选目标区域，以及各候选目标区域的类别分值(该分值反映了框选区域中包含目标对象的可能性)。从而可以进一步确定出与目标对象相关的目标区域。

步骤S107：基于所述目标区域，确定目标对象在连续视频帧中的位置及运动轨迹。

基于以上内容，在本说明书的一些实施例中，本说明书所采用的卷积神经网络的框架可如图2所示。在图2中，共享卷积层可以选用诸如：AlexNet或VGGNet等网络结构。RPN层采用串联的两个全连接层所构成。同时在图2的网络框架中，增设了相关层，相关层用于在连续视频帧的特征映射图基础上，确定连续视频帧之间的相关性，当然，相关层也可以由卷积层所构成。所述的其他层可以包括：池化层、回归层、分类层等，这里不进行具体限定。

在图2所示的网络框架基础上，本说明书实施例中的计算流程具体可如图3所示。在图3中以连续相邻的两个视频帧为例进行说明(按照视频帧之间的时间顺序，以第一视频帧和第二视频帧进行描述)。

具体而言，第一视频帧和第二视频帧分别输入至共享卷积层，共享卷积层便可针对两个视频帧进行特征提取，分别得到相应的特征映射图。

RPN层将针对特征映射图进行处理，也即，RPN层中的第一个全连接层在得到的特征映射图上进行滑动扫描，将特征映射图中的特征映射为一个低维向量，换言之，将每个卷积映射位置编码为一个短的(例如256-d)特征向量。第二个全连接层在每个卷积映射位置，进行多尺度、多宽高比的采样，具体可按一定比例对尺度放大或缩小，得到多个尺度；同时，选择多个宽高比(如：1:1、1:2、2:1等)，以框选出多个候选目标区域。此后可利用softmax回归函数，得到候选目标区域属于背景或前景的概率分值。

这里需要说明的是，在对RPN层的训练阶段，也同样可以采用上述方式，在框选出的多个区域中，根据图像大小计算滑窗中心点对应原图区域的中心点，通过中心点和宽高就可以得到滑窗位置和原图位置的映射关系，由此原图位置并根据与标注的重叠率贴上正负标签，训练RPN层，以便让RPN层能够识别出框选的区域中是否有物体。关于训练过程，这里不再过多赘述。

相关层的运算过程是在第一、第二视频帧经过一定数量的卷积层处理后，对得到的特征映射图按统一的网格进行分块，并针对特征映射图上对应位置的分块进行权重相乘再相加(即，卷积处理)，从而得到相关特征图。

bounding box回归器利用了bounding box边框回归算法，对框选出的目标区域进行修正。也即，得到第一视频帧的特征映射图的目标区域，在第二视频帧中的位置。

并且，可以将通过相应的池化(Pooling)操作，得到第一视频帧的目标区域的特征，通过与第二视频帧的参考标准(Ground Truth)计算得到需要的平移量和缩放系数。

由此，便可确定所述目标对象的运行轨迹。

此外，本说明书中还提供了一种视频中目标对象的检测跟踪装置，如图4所述，所述车型识别装置具体包括：

输入模块401，将连续视频帧输入至预先训练得到的卷积神经网络中；其中，所述卷积神经网络至少包括设定数量的共享卷积层，区域建议网络层；

特征提取模块402，利用所述共享卷积层提取连续视频帧的特征，得到分别对应于不同视频帧的特征映射图；

区域确定模块403，利用所述区域建议网络层，根据所述特征映射图确定与目标对象相关的目标区域；

检测跟踪模块404，基于所述目标区域，检测目标对象在连续视频帧中的位置及运行轨迹。

在上述实施例的基础上，所述卷积神经网络中还包括相关层；

所述装置还包括：相关特征模块405，利用所述相关层，确定连续视频帧所对应的各特征映射图之间的相关性。

进一步地，所述相关特征模块405，将连续视频帧所对应的各特征映射图按统一网格进行分块处理，利用所述相关层，在经过网络分块后的各特征映射图中，针对位置相同的分块进行卷积处理，得到所述相关层的相关特征图；

其中，所述相关特征图用于表征连续的前后两帧之间相关特征。

通过以下方法构建所述区域建议网络层：

在指定的共享卷积层后添加至少两个具有串联关系的全连接层，作为所述区域建议网络层。

所述区域确定模块403，利用所述区域建议网络层，在视频帧所对应的特征映射图中框选出各候选目标区域，并确定各候选目标区域的类别分值，根据所述各候选目标区域及各候选目标区域的类别分值，确定与所述目标对象相关的目标区域；

其中，所述类别分值，用以表征候选目标区域所属前景类别或背景类别的概率。

所述检测跟踪模块404，针对连续相邻的两个视频帧，利用相关层得到所述两个视频帧对应的相关特征图，根据所述相关特征图，以及前一视频帧的所对应的目标区域，利用边框回归算法，确定前一视频帧的目标区域在后一视频帧中的位置，根据前后两帧目标区域的位置，确定所述目标对象的运行轨迹。

所述检测跟踪模块404，根据前一视频帧的目标区域在后一视频帧中的位置，计算目标对象的平移量及缩放系数，根据所述平移量及缩放系数，确定所述目标对象的运行轨迹。

此外，本说明书中还提供了一种视频中目标对象的检测跟踪设备，具体包括：

存储器，存储视频中目标对象的检测跟踪程序；

通讯接口，接收视频帧；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和介质类实施例而言，这里就不再一一赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤或模块可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信编号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利范围之中。

Claims

1.一种视频中目标对象的检测跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络中还包括相关层；

在得到分别对应于不同视频帧的特征映射图之后，所述方法还包括：

利用所述相关层，确定连续视频帧所对应的各特征映射图之间的相关性。

3.根据权利要求2所述的方法，其特征在于，利用所述相关层，确定连续视频帧所对应的各特征映射图之间的相关性，具体包括：

将连续视频帧所对应的各特征映射图按统一网格进行分块处理；

利用所述相关层，在经过网络分块后的各特征映射图中，针对位置相同的分块进行卷积处理，得到所述相关层的相关特征图；

4.根据权利要求1所述的方法，其特征在于，通过以下方法构建所述区域建议网络层：

5.根据权利要求1所述的方法，其特征在于，利用所述区域建议网络层，根据所述特征映射图确定与目标对象相关的目标区域，具体包括：

利用所述区域建议网络层，在视频帧所对应的特征映射图中框选出各候选目标区域，并确定各候选目标区域的类别分值；

根据所述各候选目标区域及各候选目标区域的类别分值，确定与所述目标对象相关的目标区域；

6.根据权利要求3所述的方法，其特征在于，基于所述目标区域，检测目标对象在连续视频帧中的位置及运行轨迹，具体包括：

针对连续相邻的两个视频帧，利用相关层得到所述两个视频帧对应的相关特征图；

根据所述相关特征图，以及前一视频帧的所对应的目标区域，利用边框回归算法，确定前一视频帧的目标区域在后一视频帧中的位置；

根据前后两帧目标区域的位置，确定所述目标对象的运行轨迹。

7.根据权利要求6所述的方法，其特征在于，根据前后两帧目标区域的位置，确定所述目标对象的运行轨迹，具体包括：

根据前一视频帧的目标区域在后一视频帧中的位置，计算目标对象的平移量及缩放系数；

根据所述平移量及缩放系数，确定所述目标对象的运行轨迹。

8.一种视频中目标对象的检测跟踪装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述卷积神经网络中还包括相关层；

所述装置还包括：相关特征模块，利用所述相关层，确定连续视频帧所对应的各特征映射图之间的相关性。

10.根据权利要求9所述的装置，其特征在于，所述相关特征模块，将连续视频帧所对应的各特征映射图按统一网格进行分块处理，利用所述相关层，在经过网络分块后的各特征映射图中，针对位置相同的分块进行卷积处理，得到所述相关层的相关特征图；

11.根据权利要求8所述的装置，其特征在于，通过以下方法构建所述区域建议网络层：

12.根据权利要求8所述的装置，其特征在于，所述区域确定模块，利用所述区域建议网络层，在视频帧所对应的特征映射图中框选出各候选目标区域，并确定各候选目标区域的类别分值，根据所述各候选目标区域及各候选目标区域的类别分值，确定与所述目标对象相关的目标区域；

13.根据权利要求10所述的装置，其特征在于，所述检测跟踪模块，针对连续相邻的两个视频帧，利用相关层得到所述两个视频帧对应的相关特征图，根据所述相关特征图，以及前一视频帧的所对应的目标区域，利用边框回归算法，确定前一视频帧的目标区域在后一视频帧中的位置，根据前后两帧目标区域的位置，确定所述目标对象的运行轨迹。

14.根据权利要求13所述的装置，其特征在于，所述检测跟踪模块，根据前一视频帧的目标区域在后一视频帧中的位置，计算目标对象的平移量及缩放系数，根据所述平移量及缩放系数，确定所述目标对象的运行轨迹。

15.一种视频中目标对象的检测跟踪设备，包括：

存储器，存储视频中目标对象的检测跟踪程序；

通讯接口，接收视频帧；