CN111652181B

CN111652181B - 目标跟踪方法、装置及电子设备

Info

Publication number: CN111652181B
Application number: CN202010555657.XA
Authority: CN
Inventors: 王昌安; 彭瑾龙; 罗泽坤; 李剑; 邰颖; 王亚彪; 汪铖杰; 李季檩; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-11-17
Anticipated expiration: 2040-06-17
Also published as: CN111652181A

Abstract

本申请公开了一种目标跟踪方法、装置及电子设备，涉及人工智能技术领域。该方法包括：通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，及通过联合跟踪检测网络中的第二子网络，从目标特征图中提取的第二特征图；将第二子网络提取的第二特征图融合至第一特征图，得到第一子网络对应的融合特征图；获取第一子网络基于融合特征图输出的第一预测信息，获取第二子网络输出的第二预测信息；基于第一预测信息和第二预测信息，确定目标视频中的运行目标的当前位置和运动轨迹。通过特征融合可以增强相互并行的各子网络间的关联性，提升所确定的运行目标的位置和运动轨迹的精度。

Description

目标跟踪方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种目标跟踪方法、装置及电子设备。

背景技术

近年来，人工智能(Artificial Intelligence，AI)技术在目标跟踪检测领域得到广泛应用。一些场景中，通常采用深度神经网络来实现联合跟踪检测(tracking andobject detection)网络，其中，联合跟踪检测网络是指用于一并实现目标检测和目标跟踪的网络。目前的联合跟踪检测网络，预测的运动目标的位置和运动轨迹精度不够高。

发明内容

本申请提出了一种目标跟踪方法、装置及电子设备，可以改善上述问题。

一方面，本申请实施例提供了一种目标跟踪方法，所述方法包括：通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，以及通过联合跟踪检测网络中的第二子网络，从所述目标特征图中提取的第二特征图，目标特征图是从目标视频的视频帧中提取的特征图；将第二子网络提取的第二特征图融合至第一特征图，得到第一子网络对应的融合特征图；获取第一子网络根据所述融合特征图输出的第一预测信息，以及获取第二子网络输出的第二预测信息；基于第一预测信息和第二预测信息，确定目标视频中的运动目标的当前位置和运动轨迹。

可选地，在本申请实施例提供的方法中，所述第一子网络为分类子网络，所述第二子网络是回归子网络或者跟踪子网络。

可选地，在本申请实施例提供的方法中，所述第一子网络为回归子网络，所述第二子网络为分类子网络或者跟踪子网络。

另一方面，本申请实施例提供了一种目标跟踪装置，所述装置包括：特征获取模块、特征融合模块、预测模块以及跟踪模块。其中，特征获取模块用于通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，以及通过联合跟踪检测网络中的第二子网络，从目标特征图中提取的第二特征图，目标特征图是从目标视频的视频帧中提取的特征图。特征融合模块用于将第二子网络提取的第二特征图融合至第一特征图，得到第一子网络对应的融合特征图。预测模块用于获取第一子网络根据融合特征图输出的第一预测信息，以及获取第二子网络输出的第二预测信息。跟踪模块用于基于第一预测信息和第二预测信息，确定目标视频中的运动目标的当前位置和运动轨迹。

另一方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

另一方面，本申请实施例提供了一种电子设备计算机可读存储介质，其上存储有程序代码，所述程序代码可被处理调用执行上述的方法。

本申请提供的方案，在联合跟踪检测网络中，对于从目标视频的视频帧中提取的目标特征图，通过第一子网络从目标特征图提取第一特征图，通过第二子网络从目标特征图中提取第二特征图，并将提取的每个第二特征图融合至第一特征图，以得到第一子网络对应的融合特征图，进而使第一子网络可以基于融合特征图输出第一预测信息。如此，可以丰富第一子网络进行预测所使用的特征信息，从而使基于联合跟踪检测网络的第一预测信息和第二预测信息，得到的目标视频中运动目标的当前位置和运动轨迹具有更高的精度。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种联合跟踪检测网络的架构示意图。

图2示出了本申请实施例提供的一种检测框确定过程示意图。

图3示出了一种适用于本申请实施例的应用环境示意图。

图4示出了本申请一实施例提供的一种目标跟踪方法的流程示意图。

图5A示出了本申请实施例提供的特征提取网络的处理流程图。

图5B示出了本申请实施例提供的特征提取网络的结构示意图。

图6A示出了图4所示实施例提供的目标跟踪方法在一个例子中的处理流程示意图。

图6B示出了图4所示实施例提供的目标跟踪方法在另一个例子中的处理流程图。

图7示出了图4所示步骤S102的子步骤示意图。

图8示出了图4所示步骤S104的子步骤示意图。

图9示出了本申请一实施例提供的一种目标跟踪方法的流程示意图。

图10A示出了图9所示实施例提供的目标跟踪方法在一个例子中的处理流程图。

图10B示出了图9所示实施例提供的目标跟踪方法在另一个例子中的处理流程图。

图11示出了本申请一实施例提供的一种目标跟踪方法的流程示意图。

图12A示出了图11所示实施例提供的目标跟踪方法在一个例子中的处理流程图。

图12B示出了图11所示实施例提供的目标跟踪方法在另一个例子中的处理流程图。

图13示出了本申请实施例提供的一种目标跟踪装置的框图。

图14是本申请实施例的用于执行根据本申请实施例的目标跟踪方法的电子设备的框图。

图15是本申请实施例的用于保存或者携带实现根据本申请实施例的目标跟踪方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

多目标跟踪算法是计算机视觉领域的重要计算基础，其用于对视频中的感兴趣目标(如，行人、车辆等运动目标)进行跟踪，以得到感兴趣目标的运动轨迹。近年来，多目标跟踪算法在智能视频监控、人流技术、无人驾驶、行为分析等领域都起到了重要作用，应用越来越广泛。

一些场景中，多目标跟踪可以采用先检测后跟踪的框架实现，比如，先对视频的每一视频帧进行目标检测，以从视频帧中确定多个可能包括运动目标的候选检测框，然后提取候选检测框对应的图像特征，进而通过跟踪算法对提取的图像特征进行处理，以将不同视频帧的候选检测框进行关联。这种各阶段分离的跟踪框架相较于深度学习，不具有端到端优化的优势，比如，难以从整体上提升整个算法的效果，很容易导致获得的预测结果(如，运动目标的位置或运动轨迹)是局部最优而非全局最优。

随着深度学习技术的飞速发展，在另一些场景中，多目标跟踪可以将目标检测、特征提取、检测框关联整合到一个网络中实现，这类网络通常称为联合跟踪检测网络，其可以具有多个输出分支。其中，每个输出分支可以理解为一个子网络，可以用于进行目标检测、特征提取或检测框匹配。值得说明的是，这里的特征提取是指提取候选检测框对应的图像特征。特征提取和检测框匹配得到的均是用于生成运动轨迹的相关信息，因此又可以称为跟踪分支或跟踪子网络。

以图1所示的联合跟踪检测网络10为例，其可以包括一个主干网络和多个子网络(即，输出分支)，其中，主干网络可以为特征提取网络11，用于从视频帧中提取特征图(feature map)。多个子网络例如可以包括子网络12、13和14，这些子网络用于对主干网络提取的特征图做进一步处理，以实现相应的任务。

其中，对于输入网络10的视频帧f，在主干网络在从视频帧f提取到特征图FM-1后，可以基于给定的参考框(anchor)从视频帧f中确定多个检测框。一种实施方式中，如图2所示，可以按照给定大小(以3×3为例)的滑动窗口从特征图FM-1左上角顶点依次移动，每移动到一个位置，则确定滑动窗口当前的中心像素点(也称“特征点”)Pi在视频帧f中的对应点Pi’，并在视频帧f上分别确定以对应点Pi’为中心、尺寸与每个参考框anchor-j(1≤j≤N，N为正整数，表示参考框的个数)相同的框作为一个检测框。可以理解，检测框也可以称为包围框(bounding box，bbox)。另一种实施方式中，也可以针对特征图FM-1的每个像素点，确定该像素点在视频帧f中的对应点，进而分别在视频帧f上确定以对应点为中心、尺寸与每个参考框anchor-j相同的框作为一个检测框。

上述的目标检测可以包括前景分类和目标定位两个子任务。前景分类是指对于每个检测框，从属于前景信息和不属于前景信息这两个类别中，确定该检测框的内容所属的类别，并确定该检测框的内容属于该类别的置信度。这里的置信度也可以理解为一个概率值。其中，前景信息是指视频帧中的运动目标，非运动目标的内容则可以称为背景信息。属于前景信息的置信度达到阈值的检测框，即为上述的候选检测框。

目标定位是指对视频帧中的运动目标的位置进行预测，示例性地，可以基于检测框的位置信息进行回归，得到所述运动目标所在的最小包围框的位置信息和尺寸信息，进而通过该最小包围框的位置信息和尺寸信息来界定运动目标的位置。其中，最小包围框例如可以通过矩形框表示，该矩形框则可以表示成[x,y,w,h]，其中，x表示矩形框的中心点的横坐标，y表示矩形框的中心点的纵坐标，w表示矩形框的宽，h表示矩形框的高。

可选地，前景分类和目标定位可以分别通过不同的子网络实现，例如前景分类可以通过图1所示的子网络12实现，目标定位可以通过图1所示的子网络13实现。其中，用于实现目标定位的子网络在一些场景中也被称为回归(regression)子网络。

一些实施方式中，候选检测框的特征提取可以通过一个子网络实现，在此将该子网络称为检测框特征提取子网络。检测框特征提取子网络可以预测候选检测框中内容的外观特征(也称，表观特征)嵌入(embedding)表示，这里的外观特征嵌入表示可以理解为一个表征候选检测框中感兴趣目标的外形特征的特征向量。

其中，假设存在连续的两个视频帧f_t-1和f_t，即，视频帧f_t-1和f_t相邻，从视频帧f_t-1中确定了一个候选检测框b1，从视频帧f_t中确定了候选检测框b2和b3。检测框特征提取子网络针对候选检测框b1输出了外形特征向量e1，针对候选检测框b2输出了外形特征向量e2，针对候选检测框b3输出了外形特征向量e3。如果候选检测框b1和b2包含的目标是同一个，比如是同一个人或物，而候选检测框b1和b3包含的目标是不同的，比如是不同的人或物，则外观表征嵌入表示e1和e2之间的距离小于外形特征向量e1和e3之间的距离。这里的距离可以是欧氏距离、马氏距离、余弦距离等。然后，可以采用特定算法，基于连续帧中的候选检测框的外形特征向量之间的距离，实现连续帧中包含同一运动目标的候选检测框的关联。这里的特定算法例如可以是匈牙利算法、交并比(Intersection over Union，IOU)匹配算法等，本申请实施例对此没有限制。

示例性地，JDE(Joint Detection and Embedding for fast multi-objecttracking，用于快速目标跟踪的联合检测和嵌入)网络、RetinaTrack(视网膜跟踪)网络等联合跟踪检测网络就采用上述的检测框特征提取子网络作为跟踪子网络。可以理解，JDE网络、RetinaTrack网络等均还可以包括上述的特征提取网络11、前景分类子网络、回归子网络等。

另一些实施方式中，候选检测框的特征提取和检测框匹配可以通过一个子网络实现，在此将该子网络描述为检测框匹配子网络。检测框匹配子网络可以预测相邻的两个视频帧中包含相同运动目标的候选检测框之间的匹配关系。

一些情况下，该匹配关系可以是一个目标在相邻两个视频帧中包含相同运动目标的候选检测框中心点之间的相对偏移向量。比如，运动目标O1在前一视频帧中的候选检测框是b4，在当前视频帧中的候选检测框是b5，则该匹配关系可以是b2的中心点相对于b4的中心点的偏移向量。在有了中心点和偏移向量之后，可以依据贪婪匹配策略将当前视频帧中的b5和前一视频帧中的b4关联。例如，CenterTrack(中心跟踪)网络等联合跟踪检测网络就是采用这种用于预测相对偏移向量的检测框子网络作为跟踪输出分支。此外，CenterTrack网络还可以包括上述的特征提取网络11、前景分类子网络、回归子网络等。

另一些情况下，匹配关系可以是一个目标的候选检测框从前一视频帧到后一视频帧的坐标变换关系。仍旧以上述的运动目标O1的候选检测框b4和b5为例，该匹配关系可以是b4与b5的坐标变换关系。基于所述坐标变换关系，可以建立b4和b5的关联。例如，D&T(Detection and Tracking，检测和跟踪)网络等联合跟踪检测网络就是采用这种用于预测坐标变换关系的检测框匹配子网络作为跟踪子网络。此外，D&T网络也可以包括上述的特征提取网络11、前景分类子网络、回归子网络等。

可以理解，图1中的子网络14既可以是上述的检测框特征提取子网络，也可以是上述的检测框匹配子网络。本申请实施例对此没有限制。

经研究发现，在传统的多目标跟踪方式的处理流程中，目标关联依赖于特征提取，而特征提取和目标关联又需要依赖目标检测，同时根据目标关联的时序信息，可以消除目标检测过程中的虚警检测框，以提升检测精度。这里的虚警检测框是指错误地将之前视频帧中出现过的目标所在的检测框，识别为新出现的目标所在的检测框。可见，目标检测、特征提取、目标关联三者之间具有复杂的依赖关系，是不可分割的一个整体。然而，在联合跟踪检测网络中，各个输出分支之间通常是并行的，即相互独立的，即忽略了各个输出分支所执行的任务(如，目标检测、特征提取和检测框匹配)之间的依赖关系，从而极大地限制了目标检测和目标跟踪的精度。

基于此，发明人提出了一种目标跟踪方法、装置及电子设备，可以提升目标检测和目标跟踪的精度。下面对该内容进行详细阐述。

请参照图3，图3示出了一种适用于本申请实施例的应用环境示意图。其中，服务器100通过网络与源设备200和终端设备300通信连接。源设备200可以是提供待处理视频的设备，例如可以是图像采集设备(如，监控摄像头、监控球机、车载摄像头等)，或者用于存储监控视频的设备，如存储服务器、用于提供云存储服务的服务器等。

本实施例中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算、大数据或人工智能平台等基础云计算服务的云服务器。终端设备300可以是，但不限于，智能手机、平板电脑、笔记本电脑、个人计算机(Personal Computer，PC)、便携式穿戴设备等。

一些实施方式中，服务器100可以按照下文描述的目标跟踪方法，对源设备200提供的待处理视频进行处理，以确定该待处理视频中的运动目标的位置和运动轨迹，并通过终端设备300或者服务器100的显示单元显示所述位置和运动轨迹。

另一些实施方式中，终端设备300也可以按照下文描述的目标跟踪方法，从源设备200提供的待处理视频中确定运动目标的位置和运动轨迹，并对所述位置和运动轨迹进行显示。本申请实施例对此没有限制。

请参照图4，图4示出了本申请一实施例提供的一种目标跟踪方法，该方法应用于电子设备，这里的电子设备可以是图3中的服务器100或者终端设备300。

S101，通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，以及通过所述联合跟踪检测网络中的第二子网络，从目标特征图中提取的第二特征图，其中，目标特征图是从目标视频的视频帧中提取的特征图。

其中，如上所述，联合跟踪检测网络可以包括多个子网络，该多个子网络可以是并行的。以图1所示的联合跟踪检测网络10为例，其可以包括一个作为主干网络的特征提取网络11，以及三个子网络12、13、14。可以理解，在其他的一些联合跟踪检测网络中，还可以存在更多的与子网络12、13、14并行的子网络。

目标特征图可以是特征提取网络11从目标视频的视频帧中提取的特征图。请参照图5A，图5A示例性地示出了特征提取网络11的处理流程示意图。

其中，特征提取网络11可以是一个深度卷积网络，其以相邻的两个视频帧作为输入，例如第t(t为不小于0的整数)帧和第t+1帧，特征提取网络11可以分别从第t帧和第t+1帧中提取特征图，从第t帧和第t+1帧中提取特征图进行拼接后，可以形成所述目标特征图。目标特征图可以被输入后续的子网络如12、13、14中进行处理。其中，第t+1帧可以理解为当前视频帧，第t帧则可以理解为前一视频帧。

值得说明的是，图5A中示出的两个特征提取网络11是为了便于理解而给出的示意，实际在联合跟踪检测网络10中仅通过同一特征提取网络11来获得目标特征图。

请参照图5B，图5B示例性地示出了特征提取网络11的一个结构示意图。其中，特征提取网络11可以包括依次连接的多个卷积层，如自底向上依次连接的卷积层Conv1、Conv2、Conv3。特征提取网络11可以采用自顶向下的残差网络(ResNet)结构，详细地，卷积层Conv3的输出为特征图F3，卷积层Conv2的输出叠加至特征图F3以形成特征图F2，卷积层3的输出叠加至特征图F2以形成特征图F1。

本实施例中，从相邻两个视频帧中提取的特征图Fi(i＝1,2,3)拼接而成的特征图可以视为目标特征图。比如，从第t帧提取的F1和从第t+1帧提取的F1可以拼接成一个特征图F11，从第t帧提取的F2和从第t+1帧提取的F2可以拼接成一个特征图F22，从第t帧提取的F3和从第t+1帧提取的F3可以拼接成一个特征图F33。每个Fii(其中，ii＝(11,22,33))都可以被输入后续的子网络进行处理。其中，对于每个Fii，特征提取网络11还可以按照上文描述的方式确定Fii上的检测框。

可以理解，除了图5B示出的卷积层之外，在每个卷积层之后还可以包括其他必要的层，诸如激活层、池化(Pooling)层等，本实施例对此没有限制。

在联合跟踪检测网络中，当一个子网络作为第一子网络时，可以存在与该第一子网络对应的一个或多个第二子网络。

其中，第一子网络是指联合跟踪检测网络中，接收其他子网络从目标特征图提取的特征图，并将接收的特征图融合至自身从目标特征图的特征图中的子网络。这里，向第一子网络发送特征图的子网络则为第二子网络。

相应地，第二子网络则是指联合跟踪检测网络中，将自身从目标特征图提取的特征图发送给其他子网络的子网络，这里，其他子网络则可以充当第一子网络，将接收的特征图融合至自身从目标特征图提取的特征图中。

为了便于描述，本申请实施例中，将第一子网络从目标特征图提取的特征图描述为第一特征图，将第二子网络从目标特征图提取的特征图描述为第二特征图。

以图1所示联合跟踪检测网络10为例，第一子网络可以是子网络12、13、14中的任意一者，第二子网络可以是子网络12、13、14中与第一子网络不同的任意一者。

举例来说，第一子网络如果是子网络12，则子网络13和14均可以作为第二子网络。实施过程中，可以选择只将子网络13或者子网络14作为第二子网络，也可以选择同时将子网络13和14作为第二子网络。第一子网络如果是子网络14，则子网络12和13均可以作为第二子网络，实施过程中，可以只有子网络12或者子网络13作为第二子网络，也可以同时将子网络12和14作为第二子网络。

可选地，本实施例中，一个子网络作为第一子网络的同时，也可以充当第二子网络。比如，子网络12可以作为第一子网络接收子网络13和14发送的特征图，也可以作为第二子网络向子网络13或14发送特征图。

S102，将所述第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的融合特征图。

本实施例中，每个子网络可以包括特征提取层、预测处理层和损失层。其中，特征提取层和预测处理层均可以是至少一个全连接卷积层，特征提取层用于从输入的目标特征图中提取特征图，并输出至预测处理层，预测处理层用于输出预测信息。损失层则可以是相应的损失函数。

实施过程中，对于每个第二子网络发送的第二特征图，第一子网络均会将该第二特征图融合至第一特征图中，最终得到的融合结果即为融合特征图。融合特征图将会代替第一特征图被输入至预测处理层。

S103，获取第一子网络根据所述融合特征图输出的第一预测信息，以及获取第二子网络输出的第二预测信息。

本实施例中，第一子网络的预测处理层可以基于融合特征图输出相应的预测信息，该预测信息即为第一预测信息。假设子网络12是用于前景分类的分类子网络，子网络13是回归子网络，子网络14是跟踪子网络。那么，以第一子网络是子网络12为例，第一预测信息例如可以是前景分类置信度，即每个检测框属于前景信息或不属于前景信息的概率。以第一子网络是子网络13为例，预测信息例如可以是包含运动目标的最小包围框的位置信息和尺寸信息。以第一子网络是子网络14为例，预测信息例如可以是每个检测框对应的外形特征向量，又如可以是相邻两个视频帧中的检测框之间的匹配关系，如上述的坐标变换关系或者相对偏移向量。

类似地，第二子网络的预测处理层也可以基于输入的特征图输出预测信息，该预测信息即为第二预测信息。可选地，第二预测信息可以是第二子网络的预处理层基于第二特征图输出的，也可以是第二子网络的预处理层基于第二特征图和一些特征图的融合结果输出的，本实施例对此没有限制。

S104，基于所述第一预测信息和所述第二预测信息，确定所述目标视频中的运动目标的当前位置和运动轨迹。

联合跟踪检测网络包括的每个子网络均会输出预测信息。以联合跟踪检测网络10为例，其中的三个子网络都会输出预测信息，分别为上述的前景分类置信度，运动目标的最小包围框的位置信息和尺寸信息，以及每个检测框对应的外形特征向量和相邻两个视频帧中的检测框之间的匹配关系中的一个。

一种实施方式中，联合跟踪检测网络可以只包括第一子网络和第二子网络，那么，在S104中，可以只基于第一预测信息和第二预测信息得到目标视频中运动目标的当前位置和运动轨迹。

另一种实施方式中，联合跟踪检测网络还可以包括第三子网络，第三子网络可以是联合跟踪检测网络中没有参与特征融合的子网络。即，第三子网络既不会将从目标特征图提取的第三特征图发送给其他子网络，也不会接收其他子网络发送的特征图。在此情况下，可以理解，在S104的实现过程中，除了上述的第一预测信息和第二预测信息之外，还可以参照第三子网络输出的预测信息来确定目标视频中运动目标的当前位置的运动轨迹。

此外，值得说明的是，由于一个子网络既可以只作为第一子网络或第二子网络，也可以同时作为第一子网络和第二子网络，因而，如果一个子网络只是作为第二子网络，而没有作为第一子网络，那么，这个子网络最终输出给其预测处理层的特征图与其从目标特征图中提取的特征图是相同的。换句话说，这个子网络就是基于从目标特征图中直接提取的特征图获得预测信息的。比如，上述的第三子网络就是基于从目标特征图中直接提取的特征图来输出预测信息的。

通过上述方式将目标视频的各个视频帧中包括同一运动目标的候选检测框串联在一起，从而可以基于串联的各个候选检测框生成该运动目标的运动轨迹，例如，可以将串联的各个候选检测框的中心点连接起来，得到一条曲线，该曲线即可视为该运动目标的运动轨迹。

可选地，如果跟踪子网络是上述的检测框匹配子网络，则可以通过检测框匹配子网络获得第t帧中出现的运动目标的候选检测框，与该运动目标在第t+1帧中的候选检测框之间的匹配关系，例如坐标变换关系，或者是相对偏移向量。如此，可以根据运动目标在第t帧中所在的候选检测框，及预测出的匹配关系，预测出该运动目标在第t+1帧中所在的检测框b_t(在此称为预测检测框)，从而可以从第t+1帧的各候选检测框中确定出与预测检测框的重合度最高的候选检测框作为第t+1帧中包含该运动目标的候选检测框b_t+1。或者，也可以分别计算第t+1帧的各候选检测框与预测检测框b_t的交并比，即，两个检测框的交集与并集的比值，并将与预测检测框b_t的交并比最高的候选检测框确定为第t+1帧里包含该运动目标的候选检测框b_t+1。在确定第t+1帧里的候选检测框b_t+1之后，可以将b_t+1和第t帧里的候选检测框b_t串联。如此，可以将目标视频的各视频帧里包含同一运动目标的候选检测框串联起来，进而生成该运动目标的运动轨迹。这里运动轨迹的生成方式与前述方式类似，不再赘述。

本实施例中，当电子设备是服务器100时，运动目标的标识和运动轨迹可以直接由服务器100的显示单元显示，也可以由服务器100发送给终端设备300显示。当电子设备是终端设备300时，运动目标的标识和运动轨迹可以直接由终端设备300显示。

通过上述处理，对于第一子网络而言，可以获得更多的特征信息。比如，如果第一子网络是前景分类子网络，那么它至少可以获得隐含有检测框位置信息和尺寸信息的特征(即，经过训练的回归子网络从目标特征图提取的特征图)或者隐含有运动目标的时序信息(即，经过训练的跟踪子网络从目标特征图提取的特征图)作为辅助特征，从而可以更为准确地预测出一个检测框的内容是否为前景信息，提升前景分类置信度的精度。

类似地，如果第一子网络是回归子网络，那么它至少可以获得隐含有前景分类置信度的特征(即，经过训练的前景分类子网络从目标特征图提取的特征图)或者隐含有运动目标的时序信息的特征作为辅助特征，从而可以更为准确地确定哪些候选检测框是包含同一运动目标的，继而更为精准地回归出该运动目标的最小包围框的位置信息和尺寸信息，提升预测信息的精度。

类似地，如果第一子网络是跟踪子网络，则它至少可以获得隐含有前景分类置信度的特征或者隐含有检测框位置信息和尺寸信息的特征作为辅助特征，相当于已知了检测框是否包含运动目标、运动目标的具体位置，在此情况下，可以更加精准地预测运动目标的外形特征向量或者预测不同视频帧中的同一运动目标的匹配关系，提升预测信息的精度。

请一并参照图4、图6A和图6B，下面通过具体例子来对图4所示流程进行详细描述。

图6A示出了联合跟踪检测网络中只存在一个第一子网络和一个第二子网络的情形。详细地，子网络13将其从目标特征图Fi提取的特征图F₁₃发送给子网络12，子网络12将F₁₃融合至其从目标特征图Fi提取的特征图F₁₂，得到融合后的特征图F₁₂-1。

其中，子网络12可以视为第一子网络，特征图F₁₂可以视为第一特征图，子网络13可以视为第二子网络，子网络13发送给子网络12的特征图F₁₃或者说子网络12接收的特征图F₁₃可以视为第二特征图。特征图F₁₂-1则为作为第一子网络的子网络12对应的融合特征图。

其中，融合特征图F₁₂-1将被输入至子网络12的预测处理层，以基于融合特征图F₁₂-1获得预测信息，该预测信息可以视为子网络12作为第一子网络输出的第一预测信息。特征图F₁₃将输入至子网络13的预测处理层，以基于特征图F₁₃获得相应的预测信息，该预测信息可以视为子网络13作为第二子网络输出的第二预测信息。子网络14从目标特征图Fi中提取的特征图F₁₄将被输入至子网络14的预测处理层中，以基于特征图F₁₄获得相应的预测信息，该信息可以视为子网络14作为第三子网络输出的第三预测信息。

图6B示出了联合跟踪检测网络中存在一个第一子网络和两个第二子网络的情况。详细地，子网络13将从目标特征图Fi提取的特征图F₁₃发送给子网络12，子网络14也将从目标特征图Fi提取的特征图F₁₄发送给子网络12。子网络12将接收的特征图F₁₃和F₁₄融合至自身从目标特征图Fi提取的特征图F₁₂中，得到融合特征图F₁₂-2。

其中，子网络12可以视为第一子网络，特征图F₁₂可以视为第一特征图。子网络13和14均可以视为第二子网络，子网络13发送给子网络12的特征图F₁₃(或者子网络12接收的特征图F₁₃)、子网络14发送给子网络12的特征图F₁₄(或者子网络12接收的特征图F₁₄)均可以视为第二特征图。

融合特征图F₁₂-2将被输入至子网络12的预测处理层，该预测处理层可以基于融合特征图F₁₂-2获得预测信息，该预测信息可以视为子网络12作为第一子网络输出的第一预测信息。特征图F₁₃将被输入至子网络13的预测处理层，该预测处理层可以基于特征图F₁₃获得预测信息，该预测信息可以视为子网络13作为第二子网络输出的第二预测信息。特征图F₁₄将被输入至子网络14的预测处理层，该预测处理层可以基于特征图F₁₃获得预测信息，该预测信息可以视为子网络14作为第二子网络输出的第二预测信息。

请一并参照图4和图7，下面将结合图7对图4所示的流程做进一步介绍。

可选地，以图1所示的联合跟踪检测网络为例，S102可以通过图7所示的流程实现。详细描述如下。

S102-1，采用目标卷积核对第二子网络提取的第二特征图进行卷积操作，得到所述第二子网络对应的第三特征图。

可以理解，本实施例中，在通过联合跟踪检测网络处理目标视频之前，会对联合跟踪检测网络进行训练，以使联合跟踪检测网络满足优化条件。这里的优化条件可以理解成达到给定迭代次数，或者是损失函数收敛，或者损失函数的函数值小于给定的阈值等，本实施例对此没有限制。示例性地，损失函数随着联合跟踪检测网络所采用的框架的不同而不同。值得说明的是，在联合跟踪检测网络中，每个子网络都可以具有对应的损失函数。

其中，目标卷积核的相关参数(如，目标卷积核中元素的值)可以在对联合跟踪检测网络训练的过程中进行调整，如此，可以借由对联合跟踪检测网络的训练来学习第一子网络和第二子网络的特征图之间的最佳融合权重，从而使得第一子网络尽可能多地获取到有效的辅助特征。

本实施例中，目标卷积核可以有多种。例如，目标卷积核可以是固定卷积核，比如1×1卷积核、3×3卷积核等，可以理解，固定卷积核还可以是其他尺度，本申请实施例对此没有限制。在此情况下，相当于是赋予了第二特征图一个权重值。该权重值可以通过对联合跟踪检测网络的训练得到，从而可以将第二特征图中的必要特征信息融合至第一特征图。又如，目标卷积核可以是可变形卷积核，可变形卷积核包括一个固定大小的卷积核以及所述固定大小的卷积核中每个元素的偏移向量。这里的偏移向量是通过对联合跟踪检测网络的训练学习到的，即属于目标卷积核的相关参数，其可以随输入内容的变化而变化。固定大小的卷积核的每个元素的值可以是预设的，也可以是通过对联合跟踪检测网络的训练学习到的。

S102-2，根据所述第三特征图和第一特征图，得到第一子网络对应的融合特征图。

实施过程中，在获得第三特征图之后，将第三特征图融合至第一特征图，即可得到第一子网络对应的融合特征图。详细地，将第三特征图融合至第一特征图的实现方式可以有多种。

一种实现方式中，可以将第三特征图和第一特征图逐元素相加。其中，逐元素相加是指将第三特征图和第一特征图中对应位置的元素相加。比如，第三特征图中第i行第j列的元素，可以与第一特征图的第i行第j列的元素相加。其中，i为大于0、小于第三特征图(或第一特征图)的行数的整数，j为大于0、小于第三特征图(或第一特征图)的列数的整数。

值得说明的是，用于进行融合的第三特征图和第一特征图是相同尺度的特征图。实施过程中，可以在将第三特征图融合至第一特征图之前，判断两者是否具有相同尺度，如果不是，则可以将第三特征图变换为与第一特征图相同尺度的特征图。其中，对于第三特征图的变换方式不限，例如，当第三特征图的尺度小于第一特征图的情况下，可以通过补充0像素点的方式，将第三特征图扩充成和第一特征图相同尺度的特征图。又如，当第三特征图的尺度大于第一特征图的情况下，可以通过将第三特征图的边缘像素点修改为0像素点的方式将第三特征图缩小成和第一特征图相同尺度的特征图。

另一种实现方式中，可以将第三特征图和第一特征图逐元素相乘。逐元素相乘是指将第三特征图中的每个元素，与第一特征图中对应位置的元素相乘。比如，第三特征图中的第i行第j列的元素，可以与第一特征图中第i行第j列的元素相乘。

可选地，图4所示的步骤S104中确定所述目标视频中的运动目标的当前位置和运动轨迹的步骤可以通过图8所示的流程实现。

S104-1，根据回归子网络输出的最小包围框的位置信息和尺寸信息，将所述位置信息指示的位置确定为运动目标的当前位置，并根据所述尺寸信息和所述位置信息确定所述运动目标的标识的显示位置。

实施过程中，回归子网络的特征提取层接收的目标特征图通常是基于前一视频帧(如，第t帧)和当前视频帧(如，第t+1帧)获得的，该特征提取层可以从目标特征图中提取特征图，提取特征图可以直接输入至回归子网络的预测处理层，或是与其他子网络从目标特征图中提取的特征图融合后再输入至预测处理层。

回归子网络的预测处理层根据接收的特征图可以输出第t+1帧中每个运动目标的最小包围框的位置信息和尺寸信息。对于第t+1帧中的每个运动目标O-j(1≤j≤M，M为正整数，表示第t+1帧出现的运动目标的数量)，可以在所述目标视频的第t+1帧中将该运动目标O-j的最小包围框的位置信息所指示的位置，确定为该运动目标O-j的当前位置。可选地，所述位置信息例如可以是所述最小包围框的中心点，所述尺寸信息例如可以是所述最小包围框的宽和高。

进一步地，为了能够在目标视频的第t+1帧中标识出运动目标O-j，可以根据运动目标O-j在第t+1帧的位置信息和尺寸信息确定出运动目标O-j的边界，进而可以在第t+1帧中标识出运动目标O-j，例如可以将运动目标O-j的边界确定为运动目标O-j的标识的显示位置。可选地，这里的标识可以是标识框(如，矩形框)或者包围曲线。

S104-2，根据分类子网络输出的每个检测框的内容属于前景信息的置信度，从各检测框中过滤掉置信度低于阈值的检测框，将剩余的检测框确定为视频帧的候选检测框。

对应地，上述基于第t帧和第t+1帧获得的目标特征图也将被输入至分类子网络。分类子网络可以预测出第t+1帧中每个检测框的内容的类别标签及该类别标签的置信度，这里类别标签的值表示该检测框的内容属于前景信息或者不属于前景信息。实施过程中，对于每个检测框，如果该检测框的内容的类别标签表示其属于前景信息，分类子网络可以判断该类别标签的置信度是否达到阈值，如果是，则将该检测框确定为第t+1帧的候选检测框；如果否，则舍弃该检测框。这里的阈值可以灵活设置，比如可以是区间[0.5,1]之间的任意值，比如可以是0.6、0.7或者0.85。

S104-3，通过跟踪子网络串联目标视频的各视频帧中包括所述运动目标的候选检测框，根据串联后的候选检测框生成所述运动目标的运动轨迹。

可选地，如果跟踪子网络是上述的检测框特征提取子网络，则可以通过检测框特征提取子网络获得第t+1帧中每个候选检测框的外形特征嵌入表示，再通过比较第t帧的各候选检测框的外形特征嵌入表示与第t+1帧的各候选检测框的外形特征嵌入表示，分属第t帧和第t+1帧的、外形特征嵌入表示之间的距离符合特定条件的两个候选检测框确定为包含同一运动目标的候选检测框，从而可以将两者串联。其中，所述特定条件可以是针对外形特征嵌入表示之间的距离的限制条件，例如，小于某个距离值，该距离值可以通过对具体应用场景的数据统计或者经验确定。

请参照图9，图9是本申请一实施例提供的一种目标跟踪方法的流程示意图。该方法可以应用于电子设备，该电子设备可以是图3所示的服务器100或者终端设备300。该方法可以包括以下步骤。

S201，通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，以及通过所述联合跟踪检测网络中的第二子网络，从目标特征图中提取的第二特征图，其中，目标特征图是从目标视频的视频帧中提取的特征图。

S202，将所述第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的融合特征图。

本实施例中，S201和S202的实现过程与上述实施例的S101和S102类似，在此不再赘述。

S203，将所述第二子网络提取的第二特征图融合至所述第一子网络对应的融合特征图，得到所述第一子网络的新的融合特征图。

本实施例中，可以对第一子网络提取出的第一特征图执行两次以上的融合操作，其中，得到一个融合特征图的过程可以视为一次融合操作。比如，将第二子网络提取的第二特征图融合至第一特征图，以得到一个融合特征图可以视为一次融合操作，将第二子网络提取的第二特征图融合至前一次融合操作获得的融合特征图，以得到新的融合特征图的过程可以视为另一次融合操作。其中，将第二特征图融合至第一子网络对应的融合特征图的过程，与上述实施例中将第二特征图融合至第一特征图的过程类似，可以参照上文对图7所示流程的详细描述。

可选地，对于每个子网络从目标特征图提取的特征图，其需要参与的融合操作的次数可以根据测试数据或者经验灵活设置，以最大限度地提升预测信息的精度，进而提升最终得到的运动目标的当前位置和运动轨迹的精度。

S204，获取所述第一子网络基于所述新的融合特征图输出的第一预测信息。

本实施例中，第一子网络的预测处理层接收到的特征图是第二融合特征图，其可以对第二融合特征图进行处理，并输出相应的预测信息，输出的预测信息即为第一预测信息。

S205，获取所述第二子网络基于第二特征图输出的预测信息，并将获取的预测信息确定为所述第二子网络输出的第二预测信息。

本实施例中，第二子网络可以基于从目标特征图中直接提取的第二特征图输出预测信息，输出的预测信息即为第二预测信息。

S206，基于所述第一预测信息和所述第二预测信息，确定所述目标视频中的运动目标的当前位置和运动轨迹。

本实施例中，S204-S206的详细实现过程与上述的S103-S104类似，在此不再赘述。

为了便于本领域技术人员理解，下面通过具体例子对图9所示的流程进行详细介绍。

请参照图10A，其中示出了联合跟踪检测网络中存在一个第一子网络和一个第二子网络，且该第一子网络通过两次融合操作获得输出至预测处理层的特征图的情况。

其中，子网络13将其从目标特征图Fi提取的特征图F₁₃发送给子网络12，子网络12将F₁₃融合至其从目标特征图Fi提取的特征图F₁₂，得到融合后的特征图F₁₂-1。子网络13再次将其从目标特征图Fi提取的特征图F₁₃发送给子网络12，子网络12将F₁₃融合至特征图F₁₂-1，得到特征图F₁₂-2。

详细地，子网络12可以视为第一子网络，子网络13可以视为第二子网络，子网络14则可以视为前文描述的第三子网络。特征图F₁₂可以视为第一特征图，特征图F₁₃可以视为第二特征图，特征图F₁₂-1可以视为融合特征图，特征图F₁₂-2可以视为基于融合特征图F₁₂-1再次进行融合操作而得到的新的融合特征图。在图10A所示的例子中，可以基于子网络12输出的第一预测信息、子网络13输出的第二预测信息，以及子网络13输出的第三预测信息确定目标视频中运动目标的当前位置和运动轨迹。

请参照图10B，其中示出了联合跟踪检测网络中存在一个第一子网络和两个第二子网络，且第一子网络通过两次融合操作获得用于输出至其预测处理层的特征图的情况。

其中，子网络13将其从目标特征图Fi提取的特征图F₁₃发送给子网络12，子网络14将其从目标特征图Fi提取的特征图F₁₄发送给子网络12。子网络12将接收的特征图F₁₃和F₁₄融合至自身从目标特征图Fi提取的特征图F₁₂中，得到特征图F₁₂-2。子网络13进一步将其从目标特征图Fi提取的特征图F₁₃发送给子网络12，子网络12将特征图F₁₃融合至特征图F₁₂-2，得到特征图F₁₂-4。

详细地，子网络12可以视为第一子网络，子网络13和子网络14可以视为第二子网络。特征图F₁₂可以视为第一特征图，特征图F₁₃和F₁₄可以视为第二特征图，特征图F₁₂-2可以视为融合特征图，特征图F₁₂-4可以视为基于融合特征图F₁₂-2再次进行融合操作而得到的新的融合特征图。在图10B所示例子中，可以基于子网络12输出的第一预测信息以及子网络13和14各自输出的第二预测信息，来确定目标视频中运动目标的当前位置和运动轨迹。

值得说明的是，在图10B所示场景中，两次融合操作中，参与融合的特征图数量是不同的。其中，第一次融合操作，将两个第二特征图融合至第一特征图；第二次融合操作中，将一个特第二征图融合至第一融合特征图。

值得说明的是，在其他实施例中，还可以继续将第二融合特征图视为第一融合特征图，以作进一步的特征融合。

请参照图11，图11是本申请一实施例提供的一种目标跟踪方法的流程示意图，该方法可以应用于电子设备，该电子设备可以是图3所示的服务器100或者终端设备300。该方法可以包括以下步骤。

S301，通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，以及通过所述联合跟踪检测网络中的至少两个第二子网络，从目标特征图中提取的第二特征图，其中，目标特征图是从目标视频的视频帧中提取的特征图。

S302，将所述至少两个第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的第一融合特征图。

在本实施例中，S301和S302的详细实现过程与上述实施例中的S101和S102类似，在此不再赘述。

S303，以至少两个第二子网络中的一者为目标第二子网络，确定所述至少两个第二子网络中除所述目标第二子网络之外的剩余第二子网络，将所述第一特征图和所述剩余第二子网络提取的第二特征图，融合至所述目标第二子网络提取的第二特征图，得到所述目标第二子网络对应的第二融合特征图。

其中，S303可以执行一次，也可以执行至少两次。执行多次的情况是指分别以每个第二子网络为目标第二子网络执行S303。值得说明的是，这里的目标子网络和前述的第一子网络的含义是相似的，都是用于接收其他子网络发送的特征图，并将接收的特征图融合至自身提取的特征图或自身经过至少一次融合操作而获得的融合特征图。

对于每一个目标第二子网络，所述至少两个第二子网络中与该目标第二子网络不同的，都可以理解成S303里描述的剩余第二子网络。举例来说，如图12A所示的场景，其中示出了图1所示子网络12是第一子网络，子网络13和14都是第二子网络的情况。其中，子网络12基于首次融合操作得到第一融合特征图F₁₂-2的过程，可以参照上文对图6B的描述，在此不再赘述。

在图12A所示场景中，子网络13是目标第二子网络，则子网络14则是剩余第二子网络。对应地，可以将子网络12提取的第一特征图F₁₂和子网络14提取的第二特征图F₁₄，都融合至子网络13提取的第二特征图F₁₃，从而得到子网络13对应的第二融合特征图F₁₃-1。可以理解，在这个过程中，子网络13也可以理解成第一子网络，而子网络12和14也可以理解成第二子网络。这两种描述对应的实际处理流程是一致的。

S304，将所述目标第二子网络对应的第二融合特征图融合至所述第一子网络对应的第一融合特征图，得到所述第一子网络的新的第一融合特征图。

请再次参照图12A所示场景，在子网络12参与的第二次融合操作中，可以将作为目标第二子网络的子网络13获得的第二融合特征图F₁₃-1融合至所述第一融合特征图F₁₂-2，从而得到子网络12的新的第一融合特征图F₁₂-5。

请参照图12B所示场景，其中仍旧以图1所示子网络12为第一子网络，以子网络13和14为第二子网络。并且，子网络13和14均为目标第二子网络。对应地，子网络11作为第一子网络获得第一融合特征图F₁₂-2的过程与上述关于图6B的描述类似，不再赘述。

子网络13作为目标第二子网络获得第二融合特征图F₁₃-1的过程，可以参照上文对图10B的描述，亦不再赘述。

类似地，子网络14作为目标第二子网络，则子网络13是相对子网络14而言的在其余第二子网络。对应地，可以将子网络12提取的第一特征图F₁₂和子网络13提取的第二特征图F₁₃融合至子网络14提取的第二特征图F₁₄，从而得到子网络14对应的第二融合特征图F₁₄-1。

在子网络12作为第一子网络参与的第二次融合操作中，可以将作为目标第二子网络的子网络13和14获得的第二融合特征图F₁₃-1和F₁₄-1均融合至第一融合特征图F₁₂-2，从而得到子网络12的新的第一融合特征图F₁₂-6。

可以理解，实际应用中，无论是子网络12、13还是14，都可以基于已经获得的融合特征图，进行更多次的融合操作。本申请实施例对此没有限制。

S305，获取所述第一子网络基于所述新的第一融合特征图输出的第一预测信息。

其中，S305的实现过程与上述实施例中S205的实现过程类似，不再赘述。

S306，对所述目标第二子网络对应的第二融合特征图、所述第一子网络对应的第一融合特征图以及所述剩余第二子网络作为目标第二子网络获得的第二融合特征图进行融合，得到所述目标第二子网络的新的第二融合特征图。

其中，本实施例中的融合过程均可以参照上文对图7所示的流程的详细描述。

详细地，再次以图12B所示场景为例，子网络13作为目标第二子网络，可以将子网络12作为第一子网络获得的第一融合特征图F₁₂-2、子网络14作为目标第二子网络获得的第二融合特征图F₁₄-1融合至子网络13作为目标第二子网络获得的第二融合特征图F₁₃-1，以得到子网络13的新的第二融合特征图F₁₃-2。

子网络14作为目标第二子网络，可以将子网络12作为第一子网络获得的第一融合特征图F₁₂-2、子网络13作为目标第二子网络获得的第二融合特征图F₁₃-1，至子网络14作为目标第二子网络获得的第二融合特征图F₁₄-1，以得到子网络14的新的第二融合特征图F₁₄-2。

S307，获取所述目标第二子网络基于所述新的第二融合特征图输出的预测信息，将获取的预测信息确定为第二预测信息。

实施过程中，S305中，子网络12可以基于特征图F₁₂-6可以输出预测信息，该预测信息可以视为子网络12作为目标第二子网络输出的第二预测信息。S307中，子网络13可以基于特征图F₁₃-2获得预测信息，子网络14则可以基于特征图F₁₄-2输出预测信息，类似地，该预测信息可以视为子网络14作为目标第二子网络输出的第二预测信息。

S308，基于所述第一预测信息和所述第二预测信息，确定所述目标视频中的运动目标的当前位置和运动轨迹。

其中，S308的详细实现过程与上述实施例中的S104类似，在此不再赘述。

通过上述设计，可以最大限度地提升各个子网络的预测信息的精度，进而提升基于各个子网络输出的预测信息，确定的运动目标的位置和运动轨迹的精度。

请参阅图13，其示出了本申请实施例提供的一种目标跟踪装置1100的结构框图。该装置1300可以应用于联合跟踪检测网络，该联合跟踪检测网络包括并行的至少三个子网络。该装置1300可以包括特征获取模块1301、特征融合模块1302、预测模块1303以及跟踪模块1304。

其中，特征获取模块1301用于通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，以及通过所述联合跟踪检测网络中的第二子网络，从所述目标特征图中提取的第二特征图；其中，所述目标特征图是从目标视频的视频帧中提取的特征图。

特征融合模块1302用于将所述第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的融合特征图。

预测模块1303用于获取所述第一子网络根据所述融合特征图输出的第一预测信息，以及获取所述第二子网络输出的第二预测信息。

跟踪模块1304用于基于所述第一预测信息和所述第二预测信息，显示所述目标视频中的运动目标的当前位置和运动轨迹。

可选地，特征融合模块1302将所述第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的融合特征图的方式可以是：

采用目标卷积核对所述第二子网络提取的第二特征图进行卷积操作，得到所述第二子网络对应的第三特征图；根据所述第三特征图和所述第一特征图，得到所述第一子网络对应的融合特征图。

可选地，特征融合模块1302采用目标卷积核对所述第二子网络提取的第二特征图进行卷积操作的方式可以是：采用固定卷积核对所述第二子网络提取的第二特征图进行卷积操作；或者，采用可变形卷积核对所述第二子网络提取的第二特征图进行卷积操作。

可选地，特征融合模块1302根据所述第三特征图和所述第一特征图，得到所述第一子网络对应的融合特征图的方式可以是：将所述第三特征图和所述第一特征图逐元素相加，得到所述融合特征图；或者，将所述第三特征图和所述第一特征图逐元素相乘，得到所述融合特征图。

可选地，装置1300还可以包括训练模块。训练模块可以用于对所述联合跟踪检测网络进行训练，并在训练过程中调整所述目标卷积核的参数信息，使所述联合跟踪检测网络符合优化条件。

可选地，所述第一子网络是跟踪子网络，所述第二子网络是分类子网络或者所述回归子网络。其中，所述分类子网络用于预测所述视频帧中的每个检测框的内容属于前景信息的置信度，所述回归子网络用于根据检测框的位置信息预测所述视频帧中包括所述运动目标的最小包围框的位置信息和尺寸信息；所述跟踪子网络用于串联所述目标视频的各视频帧中包括所述运动目标的候选检测框。

可选地，所述跟踪子网络包括检测框特征提取子网络或者检测框匹配子网络。所述检测框特征提取子网络用于预测所述视频帧中每个检测框对应的外形特征向量，并根据所述目标视频的相邻两个视频帧中检测框的外形特征向量之间的距离，串联所述相邻的两个视频帧中包含所述运动目标的检测框。所述检测框匹配子网络用于预测所述目标视频的相邻两个视频帧中包含所述运动目标的检测框之间的匹配关系。

可选地，跟踪模块1304还可以用于通过如下方式确定每个检测框：确定至少两个参考框；针对每个参考框，基于所述参考框和所述第一特征图中的每个特征点，从所述视频帧中确定该特征点的对应点，并从所述视频帧中确定以所述对应点为中心、尺寸与所述参考框相同的框，将所确定的框作为一个检测框。

可选地，跟踪模块1304确定所述目标视频中的运动目标的当前位置和运动轨迹的方式可以是：根据所述回归子网络输出的所述最小包围框的位置信息和尺寸信息，将所述位置信息指示的位置确定为所述运动目标的当前位置，并根据所述尺寸信息和所述位置信息确定所述运动目标的标识的显示位置；根据所述分类子网络输出的每个检测框的内容属于前景信息的置信度，从各检测框中过滤掉置信度低于阈值的检测框，将剩余的检测框确定为所述视频帧的候选检测框；通过所述跟踪子网络串联所述目标视频的各视频帧中包括所述运动目标的候选检测框，根据串联后的候选检测框生成所述运动目标的运动轨迹。

可选地，预测模块1303获取所述第一子网络根据所述融合特征图输出的第一预测信息的方式可以是：将所述第二子网络提取的第二特征图融合至所述第一子网络对应的融合特征图，得到所述第一子网络的新的融合特征图；获取所述第一子网络基于所述新的融合特征图输出的预测信息，将获取的预测信息确定为所述第一预测信息。

可选地，联合跟踪检测网络包括至少两个第二子网络，所述融合特征图为第一融合特征图。对应地，所述特征融合模块1302还可以用于：以所述至少两个第二子网络中的一者为目标第二子网络，确定所述至少两个第二子网络中除所述目标第二子网络之外的剩余第二子网络，将所述第一特征图和所述剩余第二子网络提取的第二特征图，融合至所述目标第二子网络提取的第二特征图，得到所述目标第二子网络对应的第二融合特征图。

对应地，预测模块1303获取所述第一子网络根据所述融合特征图输出的第一预测信息的方式可以是：将所述目标第二子网络对应的第二融合特征图融合至所述第一子网络对应的第一融合特征图，得到所述第一子网络的新的第一融合特征图；获取所述第一子网络基于所述新的第一融合特征图输出的预测信息，并将获取的预测信息确定为所述第一预测信息。

可选地，预测模块1303获取第二子网络输出的第二预测信息的方式可以是：对所述目标第二子网络对应的第二融合特征图、所述第一子网络对应的第一融合特征图以及所述剩余第二子网络作为目标第二子网络获得的第二融合特征图进行融合，得到所述目标第二子网络的新的第二融合特征图；获取所述目标第二子网络基于所述新的第二融合特征图输出的预测信息，将获取的预测信息确定为所述目标第二子网络输出的第二预测信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图14，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备1400可以是图3所示的服务器100或者终端设备300。本申请中的电子设备1400可以包括一个或多个如下部件：处理器1410、存储器1420、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1420中并被配置为由一个或多个处理器1410执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1410可以包括一个或者多个处理核。处理器1410利用各种接口和线路连接整个电子设备1400内的各个部分，通过运行或执行存储在存储器1420内的指令、程序、代码集或指令集，以及调用存储在存储器1420内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器1410可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器1410可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1410中，单独通过一块通信芯片进行实现。

存储器1420可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1420可用于存储指令、程序、代码、代码集或指令集。存储器1420可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如特征图、目标视频)等。

请参考图15，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1500包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1500具有执行上述方法中的任何方法步骤的程序代码1510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1510可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

通过联合跟踪检测网络中的第一子网络，从目标特征图中提取第一特征图，以及通过所述联合跟踪检测网络中的第二子网络，从所述目标特征图中提取第二特征图；其中，所述目标特征图是从目标视频的视频帧中提取的特征图，所述联合跟踪检测网络包括的第二子网络为至少两个；

将所述第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的融合特征图，所述融合特征图为第一融合特征图；

以至少两个第二子网络中的一者为目标第二子网络，确定所述至少两个第二子网络中除所述目标第二子网络之外的剩余第二子网络，将所述第一特征图和所述剩余第二子网络提取的第二特征图，融合至所述目标第二子网络提取的第二特征图，得到所述目标第二子网络对应的第二融合特征图；

获取所述第一子网络根据所述融合特征图输出的第一预测信息，以及获取所述第二子网络基于第二特征图输出的第二预测信息；

所述获取所述第一子网络根据所述融合特征图输出的第一预测信息，包括：

将所述目标第二子网络对应的第二融合特征图融合至所述第一子网络对应的第一融合特征图，得到所述第一子网络的新的第一融合特征图；

获取所述第一子网络基于所述新的第一融合特征图输出的预测信息，并将获取的预测信息确定为所述第一预测信息；

基于所述第一预测信息和所述第二预测信息，确定所述目标视频中的运动目标的当前位置和运动轨迹。

2.根据权利要求1所述的方法，其特征在于，所述将所述第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的融合特征图，包括：

采用目标卷积核对所述第二子网络提取的第二特征图进行卷积操作，得到所述第二子网络对应的第三特征图；

根据所述第三特征图和所述第一特征图，得到所述第一子网络对应的融合特征图。

3.根据权利要求2所述的方法，其特征在于，所述采用目标卷积核对所述第二子网络提取的第二特征图进行卷积操作，包括：

采用固定卷积核对所述第二子网络提取的第二特征图进行卷积操作；或者，

采用可变形卷积核对所述第二子网络提取的第二特征图进行卷积操作。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第三特征图和所述第一特征图，得到所述第一子网络对应的融合特征图，包括：

将所述第三特征图和所述第一特征图逐元素相加，得到所述融合特征图；或者，

将所述第三特征图和所述第一特征图逐元素相乘，得到所述融合特征图。

5.根据权利要求2-4中任意一项所述的方法，其特征在于，所述方法还包括：

对所述联合跟踪检测网络进行训练，并在训练过程中调整所述目标卷积核的参数信息，使所述联合跟踪检测网络符合优化条件。

6.根据权利要求1-4中任意一项所述的方法，其特征在于，所述第一子网络是跟踪子网络，所述第二子网络是分类子网络或者回归子网络；

其中，所述分类子网络用于预测所述视频帧中的每个检测框的内容属于前景信息的置信度，所述回归子网络用于根据检测框的位置信息预测所述视频帧中包括所述运动目标的最小包围框的位置信息和尺寸信息；所述跟踪子网络用于串联所述目标视频的各视频帧中包括所述运动目标的候选检测框。

7.根据权利要求6所述的方法，其特征在于，所述跟踪子网络包括检测框特征提取子网络或者检测框匹配子网络；

所述检测框特征提取子网络用于预测所述视频帧中每个检测框对应的外形特征向量，并根据所述目标视频的相邻两个视频帧中检测框的外形特征向量之间的距离，串联所述相邻两个视频帧中包含所述运动目标的检测框；

所述检测框匹配子网络用于预测所述目标视频的相邻两个视频帧中包含所述运动目标的检测框之间的匹配关系。

8.根据权利要求6所述的方法，其特征在于，所述检测框通过如下方式确定：

确定至少两个参考框；

针对每个参考框，基于所述参考框和所述第一特征图中的每个特征点，从所述视频帧中确定该特征点的对应点，并从所述视频帧中确定以所述对应点为中心、尺寸与所述参考框相同的框，将所确定的框作为一个检测框。

9.根据权利要求6所述的方法，其特征在于，所述确定所述目标视频中的运动目标的当前位置和运动轨迹，包括：

根据所述回归子网络输出的所述最小包围框的位置信息和尺寸信息，将所述位置信息指示的位置确定为所述运动目标的当前位置，并根据所述尺寸信息和所述位置信息确定所述运动目标的标识的显示位置；

根据所述分类子网络输出的每个检测框的内容属于前景信息的置信度，从各检测框中过滤掉置信度低于阈值的检测框，将剩余的检测框确定为所述视频帧的候选检测框；

通过所述跟踪子网络串联所述目标视频的各视频帧中包括所述运动目标的候选检测框，根据串联后的候选检测框生成所述运动目标的运动轨迹。

10.根据权利要求1所述的方法，其特征在于，所述获取所述第二子网络基于第二特征图输出的第二预测信息，包括：

对所述目标第二子网络对应的第二融合特征图、所述第一子网络对应的第一融合特征图以及所述剩余第二子网络作为目标第二子网络获得的第二融合特征图进行融合，得到所述目标第二子网络的新的第二融合特征图；

获取所述目标第二子网络基于所述新的第二融合特征图输出的预测信息，将获取的预测信息确定为所述目标第二子网络输出的第二预测信息。

11.一种目标跟踪装置，其特征在于，所述装置包括：

特征获取模块，用于通过联合跟踪检测网络中的第一子网络，从目标特征图中提取的第一特征图，以及通过所述联合跟踪检测网络中的第二子网络，从所述目标特征图中提取的第二特征图；其中，所述目标特征图是从目标视频的视频帧中提取的特征图，所述联合跟踪检测网络包括的第二子网络为至少两个；

特征融合模块，用于将所述第二子网络提取的第二特征图融合至所述第一特征图，得到所述第一子网络对应的融合特征图，所述融合特征图为第一融合特征图；

所述特征融合模块，还用于以至少两个第二子网络中的一者为目标第二子网络，确定所述至少两个第二子网络中除所述目标第二子网络之外的剩余第二子网络，将所述第一特征图和所述剩余第二子网络提取的第二特征图，融合至所述目标第二子网络提取的第二特征图，得到所述目标第二子网络对应的第二融合特征图；

预测模块，用于获取所述第一子网络根据所述融合特征图输出的第一预测信息，以及获取所述第二子网络基于第二特征图输出的第二预测信息；

所述预测模块，还用于将所述目标第二子网络对应的第二融合特征图融合至所述第一子网络对应的第一融合特征图，得到所述第一子网络的新的第一融合特征图；获取所述第一子网络基于所述新的第一融合特征图输出的预测信息，并将获取的预测信息确定为所述第一预测信息；

跟踪模块，用于基于所述第一预测信息和所述第二预测信息，显示所述目标视频中的运动目标的当前位置和运动轨迹。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-10中任意一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-10中任意一项所述的方法。