CN111524161A

CN111524161A - 提取轨迹的方法和装置

Info

Publication number: CN111524161A
Application number: CN201910103703.XA
Authority: CN
Inventors: 王辉
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2020-08-11
Anticipated expiration: 2039-02-01
Also published as: CN111524161B

Abstract

本公开提供了一种提取轨迹的方法和装置，属于视频技术领域。所述方法包括：在确定待检测帧图像中包含的目标的轨迹时，可以获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的第一类特征图和第二类特征图，然后根据待检测帧图像的第二类特征图，确定待检测帧图像中目标的检测框的位置，根据待检测帧图像的第一类特征图和第二类特征图、目标帧图像的第一类特征图和第二类特征图、目标帧图像中目标的轨迹框，确定目标帧图像中的目标映射到待检测帧图像中所在位置的预测框，最后根据确定出的检测框的位置和确定出的预测框的位置，确定待检测帧图像中包含的目标的轨迹。采用本公开，可以提高轨迹的提取效率。

Description

提取轨迹的方法和装置

技术领域

本公开涉及视频技术领域，特别涉及一种提取轨迹的方法和装置。

背景技术

随着计算机技术的发展，目标轨迹检测在视频监控、汽车自动化驾驶、机器人视觉等方面均有广泛的应用，所以目标轨迹检测的准确性变的非常重要。

相关技术中，在提取目标的轨迹时，一般是播放获取到的视频，工作人员通过观看视频，记录目标的轨迹。

这样，在视频比较长时，由人工确定目标的轨迹，会花费较多的时间，从而导致轨迹的提取效率低。

发明内容

为了解决相关技术的问题，本公开实施例提供了一种提取轨迹的方法和装置。所述技术方案如下：

第一方面，提供了一种提取轨迹的方法，所述方法包括：

获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的所述第一类特征图和所述第二类特征图，其中，目标帧图像在所述待检测帧图像之前且包含的目标在所述待检测帧图像与所述目标帧图像之间的帧图像中未检测到，所述第一类特征图包括浅层特征，所述第二类特征图包括深层特征；

根据所述待检测帧图像的第二类特征图，确定所述待检测帧图像中目标的检测框的位置；

根据所述待检测帧图像的第一类特征图和第二类特征图、所述目标帧图像的所述第一类特征图和所述第二类特征图、所述目标帧图像中目标的轨迹框，确定所述目标帧图像中的目标映射到所述待检测帧图像中所在位置的预测框；

根据确定出的检测框的位置和确定出的预测框的位置，确定所述待检测帧图像中包含的目标的轨迹。

可选的，所述根据确定出的检测框的位置和确定出的预测框的位置，确定所述待检测帧图像中包含的目标的轨迹，包括：

对于每个检测框，根据所述检测框的位置和各预测框的位置，确定所述检测框与各预测框的交并比IOU；

根据确定出的IOU，确定所述待检测帧图像中检测框对应的标识；

根据所述待检测帧图像中检测框对应的标识和检测框的位置，确定所述待检测帧图像中包含的目标的轨迹。

可选的，所述根据所述待检测帧图像中检测框对应的标识和检测框的位置，确定所述待检测帧图像中包含的目标的轨迹，包括：

如果所述待检测帧图像中的目标检测框对应的标识是已建立的目标轨迹对应的标识，则将所述目标检测框的位置添加至所述目标轨迹中，如果所述待检测帧图像中的目标检测框对应的标识不是已建立的任一轨迹对应的标识，则以所述目标检测框对应的标识新建一条轨迹，并将所述目标检测框的位置添加至新建的轨迹中。

可选的，获取所述待检测帧图像中每个检测框的表观特征图，并获取所述目标帧图像中每个轨迹框的表观特征图；

确定所述待检测帧图像的表观特征图和所述目标帧图像的表观特征图的相似度矩阵；

所述根据确定出的IOU，确定所述待检测帧图像中检测框对应的标识，包括：

根据确定出的IOU与所述相似度矩阵，确定代价矩阵；

根据所述代价矩阵，进行匈牙利匹配，确定所述待检测帧图像中检测框对应的标识。

可选的，所述根据所述代价矩阵，进行匈牙利匹配，确定所述待检测帧图像中检测框对应的标识，包括：

确定所述代价矩阵中每一行的数值中的最小值，根据所述代价矩阵中每一行的数值中的最小值，确定所述待检测帧图像中检测框对应的标识。

可选的，所述获取所述待检测帧图像中每个检测框的表观特征图，包括：

对所述待检测帧图像的第一类特征图和所述待检测帧图像的检测框进行ROIPooling处理，得到所述待检测帧图像中的目标所在区域的特征图；

根据所述待检测帧图像中的目标所在区域的特征图，确定所述待检测帧图像每个检测框的表观特征图。

可选的，所述获取所述目标帧图像中每个轨迹框的表观特征图，包括：

对所述目标帧图像的第一类特征图和所述目标帧图像的轨迹框进行ROI Pooling处理，得到所述目标帧图像中的目标所在区域的特征图；

根据所述目标帧图像中的目标所在区域的特征图，确定所述目标帧图像每个轨迹框的表观特征图。

可选的，所述根据确定出的IOU与所述相似度矩阵，确定代价矩阵，包括：

将所述相似度矩阵和确定出的IOU相加或者加权相乘，得到目标矩阵；

将矩阵元素为1的矩阵与所述目标矩阵相减，得到代价矩阵。

可选的，所述根据所述待检测帧图像的第二类特征图，确定所述待检测帧图像中目标的检测框的位置，包括：

根据所述待检测帧图像的第二类特征图，确定所述待检测帧图像中目标的检测框的位置，以及分别对应的置信度；

使用非极大值抑制方法删除冗余的检测框的位置，并剔除置信度小于第一预设阈值的检测框，将剩余的检测框的位置确定为所述待检测帧图像中目标的检测框的位置。

可选的，所述方法还包括：

根据所述待检测帧图像的第二类特征图，确定所述待检测帧图像中目标的检测框对应的类别。

这样，可以确定出检测框中包括的目标的类别。

可选的，所述根据所述待检测帧图像的第一类特征图和第二类特征图、所述目标帧图像的所述第一类特征图和所述第二类特征图、所述目标帧图像中目标的轨迹框，确定所述目标帧图像中的目标映射到所述待检测帧图像中所在位置的预测框，包括：

确定所述待检测帧图像的第一类特征图和所述目标帧图像的第一类特征图的第一相关图，并确定所述待检测帧图像的第二类特征图和所述目标帧图像的第二类特征图的第二相关图；

将所述第一相关图、所述第二相关图和所述待检测帧图像的第二类特征图和所述目标帧图像的第二类特征图进行合并；

将所述目标帧图像中目标的轨迹框与合并后的特征图进行ROI Pooling处理，得到所述待检测帧图像中目标所在区域的特征图；

根据所述待检测帧图像中目标所在区域的特征图，确定所述目标帧图像中的目标映射到所述待检测帧图像中所在位置的预测框。

可选的，所述确定所述待检测帧图像中目标的预测框的位置之后，还包括：

对于所述待检测帧图像之前，所述所有目标中最后一次出现的每个目标的轨迹，确定所述目标的轨迹的轨迹置信度为：s_trk＝max(1-log(1+α·L_trk),0)·1(L_det≥2)，其中，L_det表示所述待检测帧图像之前与所述目标匹配成功的检测框的数目，L_trk表示自所述目标最后一次与检测框匹配成功的时刻到当前时间时刻的时间间隔内帧的数目，α为一个预设参数；

将确定出的轨迹置信度按照从高到低的顺序进行排序，删除轨迹置信度低于第二预设阈值的目标的轨迹对应的目标所在的预测框。

这样，可以使确定出的预测框更准确。

第二方面，提供了一种提取轨迹的装置，所述装置包括：

获取模块，用于获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的所述第一类特征图和所述第二类特征图，其中，目标帧图像在所述待检测帧图像之前且包含的目标在所述待检测帧图像与所述目标帧图像之间的帧图像中未检测到，所述第一类特征图包括浅层特征，所述第二类特征图包括深层特征；

确定模块，用于根据所述待检测帧图像的第二类特征图，确定所述待检测帧图像中目标的检测框的位置；根据所述待检测帧图像的第一类特征图和第二类特征图、所述目标帧图像的所述第一类特征图和所述第二类特征图、所述目标帧图像中目标的轨迹框，确定所述目标帧图像中的目标映射到所述待检测帧图像中所在位置的预测框；根据确定出的检测框的位置和确定出的预测框的位置，确定所述待检测帧图像中包含的目标的轨迹。

可选的，所述确定模块，用于：

可选的，所述确定模块，还用于：

获取所述待检测帧图像中每个检测框的表观特征图，并获取所述目标帧图像中每个轨迹框的表观特征图；

所述确定模块，用于：

根据确定出的IOU与所述相似度矩阵，确定代价矩阵；

可选的，所述确定模块，用于：

将矩阵元素为1的矩阵与所述目标矩阵相减，得到代价矩阵。

可选的，所述确定模块，用于：

使用非极大值抑制装置删除冗余的检测框的位置，并剔除置信度小于第一预设阈值的检测框，将剩余的检测框的位置确定为所述待检测帧图像中目标的检测框的位置。

可选的，所述确定模块，还用于：

可选的，所所述确定模块，用于：

可选的，所述确定模块，还用于：

第三方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的方法步骤。

第四方面，提供了一种服务器，包括处理器和存储器，其中，所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现上述第一方面的方法步骤。

本公开实施例提供的技术方案带来的有益效果至少包括：

本公开实施例中，在确定待检测帧图像中包含的目标的轨迹时，可以获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的第一类特征图和第二类特征图，目标帧图像在待检测帧图像之前且包含的目标在待检测帧图像与目标帧图像之间的帧图像中未检测到，第一类特征图包括浅层特征，第二类特征图包括深层特征，然后根据待检测帧图像的第二类特征图，确定待检测帧图像中目标的检测框的位置，根据待检测帧图像的第一类特征图和第二类特征图、目标帧图像的第一类特征图和第二类特征图、目标帧图像中目标的轨迹框，确定目标帧图像中的目标映射到待检测帧图像中所在位置的预测框，最后根据确定出的检测框的位置和确定出的预测框的位置，确定待检测帧图像中包含的目标的轨迹。这样，不需要人工提取目标的轨迹，所以可以提高轨迹提取的效率，而且由于目标帧图像在待检测帧图像之前且包含在待检测帧图像之前的帧图像中检测出的所有目标中最后一次出现的目标，所以即使一个目标长时间消失之后又出现，也可以被检测到，所以为同一目标设置不同标识的可能性降低。

附图说明

图1是本公开实施例提供的一种提取轨迹的方法的流程示意图；

图2是本公开实施例提供的一种交并比的示意图；

图3是本公开实施例提供的一种训练网络框架的示意图；

图4是本公开实施例提供的一种提取轨迹的装置的结构示意图；

图5是本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

本公开实施例提供了一种提取轨迹的方法，该方法的执行主体可以是服务器。服务器可以设置处理器、存储器和收发器，处理器可以用于提取轨迹的过程的处理，存储器可以用于存储提取轨迹的过程中需要的数据以及产生的数据，收发器可以用于接收以及发送数据。

本申请实施例提供了一种提取轨迹的方法，如图1所示，该方法的处理流程可以如下：

步骤101，获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的第一类特征图和第二类特征图，其中，目标帧图像在待检测帧图像之前且包含的目标在待检测帧图像与目标帧图像之间的帧图像中未检测到。

其中，帧图像中包括的目标指动物、人类和物体等，第一类特征图包括浅层特征，如边缘特征、颜色特征和纹理特征等，同一类目标的浅层特征差距比较大，例如，两个人属于同一类，但是一个是红色衣服、另一个是黑色衣服，第二类特征图包括深层特征，深层特征指同一类目标的共同的相似性信息。

在实施中，在获取到一段视频数据后，想要确定视频数据中包括的目标的轨迹，可以依次对该段视频数据中的每一帧图像，提取包括的目标的轨迹。在提取某一帧图像(后续可以称为是待检测帧图像)中目标的轨迹时，可以获取待检测帧图像中的第一类特征图和第二类特征图，并且可以获取目标帧图像的第一类特征图和第二类特征图，目标帧图像是在待检测帧图像之前的帧图像，且包含的目标在待检测帧图像与目标帧图像之间的帧图像中未检测到(也即目标帧图像包含待检测帧图像之前的帧图像中检测出的所有目标中最后一次出现的目标)。例如，待检测帧图像是第8个帧图像，第1个帧图像至第7个帧图像中一共检测出3个目标，分别是A、B、C，A出现的帧图像是第1个帧图像至第7个帧图像，B出现的帧图像是第2个帧图像至第6个帧图像，C出现的帧图像是第6个帧图像，所以A最后一次出现的帧图像是第7个帧图像，B最后一次出现的帧图像是第6个帧图像，C最后一次出现的帧图像是第6个帧图像，那么目标帧图像包括第7个帧图像和第6个帧图像。

需要说明的是，上述获取目标帧图像的第一类特征图和第二类特征图，可以是获取预先存储的目标帧图像的第一类特征图和第二类特征图(这是由于待检测帧图像在目标帧图像之后，所以肯定对目标帧图像提取过第一类特征图和第二类特征图，可以将提取出的第一类特征图和第二类特征图保存下来，以便以后使用)，也可以直接获取目标帧图像，从中提取目标帧图像的第一类特征图和第二类特征图。目标帧图像可以是一个或者多个，在目标帧图像为多个时，待检测帧图像需要分别与每个目标帧图像执行步骤101至步骤102的处理。

还需要说明的是，特征图一般是使用矩阵表示。

步骤102，根据待检测帧图像的第二类特征图，确定待检测帧图像中目标的检测框的位置。

在实施中，服务器在确定出待检测帧图像的第二类特征图后，可以将该第二类特征图输入到预设的检测网络中，检测网络则会输出待检测帧图像中的目标的检测框的位置。

需要说明的是，该预设的检测网络可以是预先训练得到的CNN(ConvolutionalNeural Network，卷积神经网络)，包括卷积层和池化层等。

另外，检测网络中还设置有识别算法，还可以输出每个检测框对应的目标的类别。

可选的，还可以输出置信度，基于置信度，对检测框进行过滤，相应的处理可以如下：

根据待检测帧图像的第二类特征图，确定待检测帧图像中目标的检测框的位置，以及分别对应的置信度，使用非极大值抑制方法删除冗余的检测框的位置，并剔除置信度小于第一预设阈值的检测框，将剩余的检测框的位置确定为待检测帧图像中目标的检测框的位置。

其中，置信度可以用于反映检测框的位置的准确率，第一预设阈值可以预先配置，并且存储至服务器中，如0.8等。这个可以基于实际需要进行配置，为了使检测结果更准确，可以设置的第一预设阈值比较大一点。检测框的位置可以使用位置坐标表示，可以是在帧图像中的位置坐标，可以是检测框的左上角的位置坐标、检测框的中心点的位置坐标等。

在实施中，服务器在确定出待检测帧图像的第二类特征图后，可以将该第二类特征图输入到预设的检测网络中，检测网络除了会输出待检测帧图像中的目标的检测框的位置，还会输出每个检测框对应的置信度。

首先将置信度基于第一预设阈值的检测框的位置删除，然后将检测框按照置信度从大到小的顺序进行排序，然后确定置信度最大的检测框与其它检测框的IOU(Intersection over Union，交并比)，删除IOU低于预设数值(可以由技术人员预设)的检测框，保留IOU等于或大于预设数值的检测框，然后从未处理的检测框中选取置信度次最大的检测框，确定该检测框与除置信度最大的检测框之外的其它检测框的IOU，删除IOU低于预设数值的检测框，保留IOU等于或大于预设数值的检测框，依次类推，对每个检测框进行如上的处理。这样可以基于非极大值抑制和置信度对检测框进行过滤，会删除冗余的检测框，所以可以提高确定出的检测框的准确率。

步骤103，根据待检测帧图像的第一类特征图和第二类特征图、目标帧图像的第一类特征图和第二类特征图、目标帧图像中目标的轨迹框，确定目标帧图像中的目标映射到待检测帧图像中所在位置的预测框。

在实施中，服务器可以获取预先存储的目标帧图像中目标的轨迹框(轨迹框指已经确定出的包含目标的框)，使用待检测帧图像的第一类特征图和第二类特征图，目标帧图像的第一类特征图和第二类特征图、目标帧图像中目标的轨迹框，确定目标帧图像中的目标映射到待检测帧图像中所在位置的预测框，这样，即可得到预测框的位置。

可选的，可以使用ROI(Region of Interest，感兴趣区域)Pooling(池化)处理，确定预测框，相应的步骤103的处理可以如下：

确定待检测帧图像的第一类特征图和目标帧图像的第一类特征图的第一相关图，并确定待检测帧图像的第二类特征图和目标帧图像的第二类特征图的第二相关图，将第一相关图、第二相关图和待检测帧图像的第二类特征图和目标帧图像的第二类特征图进行合并，将目标帧图像中目标的轨迹框与合并后的特征图进行ROI Pooling处理，得到待检测帧图像中目标所在区域的特征图，根据待检测帧图像中目标所在区域的特征图，确定目标帧图像中的目标映射到待检测帧图像中所在位置的预测框。

在实施中，服务器可以使用以下公式

其中

分别为目标帧图像和待检测帧图像的第一类特征图，(i,j)表示特征图的位置坐标，而-d≤p≤d,-d≤q≤d为以(i,j)为中心的方形区域的偏移量，d为最大偏移量，输出的得分图尺寸为

这样，就可以得到待检测帧图像的第一类特征图和目标帧图像的第一类特征图的第一相关图。

并且也可以使用上述公式，确定出确定待检测帧图像的第二类特征和目标帧图像的第二类特征的第二相关图。

然后可以将第一相关图、第二相关图、待检测帧图像的第二类特征图和目标帧图像的第二类特征图进行合并，合并过程为：将他们的矩阵放在一个矩阵里。例如，第一相关图是一个3*3的矩阵，第二相关图是一个3*3的矩阵，待检测帧图像的第二类特征图和目标帧图像的第二类特征图也均为3*3的矩阵，将他们放在一个矩阵里，得到一个6*6的矩阵，也即

然后获取目标帧图像中目标的轨迹框，对目标帧图像中目标的轨迹框与合并后的特征图，进行ROI Pooling处理，得到待检测帧图像中的目标所在区域的特征图，该特征图可以反映目标的运动信息(如速度等)。

最后将待检测图像中的目标所在区域的特征输入到预先训练的运动预测网络中，得到目标帧图像中的目标映射到待检测帧图像中所在位置的预测框。

需要说明的是，上述ROI Pooling处理是现有技术中常用的方式，特点是输入的特征图尺寸不固定，但是输出的特征图尺寸固定。

另外，为了使确定出的预测框更准确，在确定出预测框后，还可以对预测框进行过滤处理，相应的处理可以如下：

对于待检测帧图像之前，所有目标中最后一次出现的每个目标的轨迹，确定目标的轨迹的轨迹置信度为：s_trk＝max(1-log(1+α·L_trk),0)·1(L_det≥2)，将确定出的轨迹置信度按照从高到低的顺序进行排序，删除轨迹置信度低于第二预设阈值的目标的轨迹对应的目标所在的预测框。

其中，第二预设阈值可以预设，并且存储至服务器中，如0.8等。

在实施中，对于待检测帧图像之前，所有目标中最后一次出现的任一目标的轨迹，可以使用如下式子：s_trk＝max(1-log(1+α·L_trk),0)·1(L_det≥2)，确定该目标的轨迹的轨迹置信度，在该式子中L_det表示待检测帧图像之前与该目标匹配成功的检测框的数目，也就是说在待检测帧图像之前的帧图像的检测框中，与该目标匹配成功的检测框的数目，L_trk表示表示自目标最后一次与检测框匹配成功的时刻到当前时间时刻的时间间隔内帧的数目，1(·)表示括号内条件成立则为1，否则为0，α为一个预设参数，与使用场景有关。

在确定出每个目标的轨迹对应的轨迹置信度之后，可以将轨迹置信度按照从大到小的顺序进行排序，然后可以将轨迹置信度低于第二预设阈值的目标的轨迹对应的目标所在的预测框删除，这样，就可以得到过滤后的预测框，使预测框更准确。过滤后的预测框可以用于后续计算。

步骤104，根据确定出的检测框的位置和确定出的预测框的位置，确定待检测帧图像中包含的目标的轨迹。

在实施中，服务器可以使用确定出的检测框的位置和确定出的预测框的位置，进行匹配处理，得到待检测帧图像中包含的目标的轨迹。

可选的，可以基于检测框与预测框的IOU，确定待检测帧图像中包含的目标的轨迹，相应的处理可以如下：

对于每个检测框，根据检测框的位置和各预测框的位置，确定检测框与各预测框的交并比IOU，根据确定出的IOU，确定待检测帧图像中检测框对应的标识，根据待检测帧图像中检测框对应的标识和检测框的位置，确定待检测帧图像中包含的目标的轨迹。

在实施中，对于每个检测框，计算每个检测框与各个预测框的交集的面积，并计算每个检测框与各个预测框的并集的面积，对于某个检测框与某个预测框的交并比，为将该检测框与该预测框的交集的面积与该检测框与该预测框的并集的面积相比，得到交并比。例如，如图2所示，检测框为A1、A2、A3…AN，预测框为B1、B2、B3…BM，检测框A1与预测框B1的IOU为

对于N个预测框和M个检测框，可以确定出N*M个交并比，可以表示为一个N*M的矩阵，行表示预测框，列表示检测框。

然后使用这个N*M的矩阵，确定出待检测帧图像中检测框对应的标识。对于每个检测框，选取与之交并比最大的预测框，作为与之匹配的预测框，由于在得到预测框时使用了目标帧图像中目标的轨迹框，所以可以基于预测框与轨迹框的关系，得到每个预测框对应的轨迹框，也就得到每个预测框的标识，另外，如果检测框不能与预测框相匹配，则可以为检测框设置一个新标识。

可选的，可以使用确定出的目标的检测框的标识，确定待检测帧图像中包含的目标的标识对应的轨迹，相应的处理可以如下：

如果待检测帧图像中的目标检测框对应的标识是已建立的目标轨迹对应的标识，则将目标检测框的位置添加至目标轨迹中，如果待检测帧图像中的目标检测框对应的标识不是已建立的任一轨迹对应的标识，则以目标检测框对应的标识新建一条轨迹，并将目标检测框的位置添加至新建的轨迹中。

在实施中，服务器可以获取已建立的所有轨迹的标识，在每个标识对应的轨迹中，包括目标在帧图像中的位置。

对于待检测帧图像中的目标检测框(任一检测框)，可以判断该目标检测框的标识是否对应有目标轨迹，如果对应有目标轨迹，则将目标检测框的位置添加至目标轨迹中，如果待检测帧图像中的目标检测框对应的标识不是已建立的任一轨迹对应的标识，则可以新建一条轨迹，该轨迹的标识为目标检测框的标识，并且将目标检测框的位置添加至新建的轨迹中。

另外，如果一条轨迹在预设时长内未更新，则可以确定这条轨迹对应的目标不会再出现，后续在确定待检测帧图像时，不再使用最后一次出现该目标的目标帧图像，这样，可以节约处理资源。

需要说明的是，如果上述是对于一个摄像机拍摄的一段视频，分析其中目标的轨迹，还可以在每条轨迹上标记上拍摄地点，如果有多个摄像机拍摄的多段视频，就可以确定出多段视频中出现的相同目标的运动轨迹。

可选的，可以使用表观特征图，确定待检测帧图像中检测框对应的标识，相应的处理可以如下：

获取待检测帧图像中每个检测框的表观特征图，并获取目标帧图像中每个轨迹框的表观特征图，确定待检测帧图像的表观特征图和目标帧图像的表观特征图的相似度矩阵，根据确定出的IOU与相似度矩阵，确定代价矩阵，根据代价矩阵，进行匈牙利匹配，确定待检测帧图像中检测框对应的标识。

在实施中，服务器可以获取待检测帧图像中每个检测框的表观特征图，并且获取目标帧图像中每个轨迹框的表观特征图，表观特征图是使用矩阵表示，然后对于每个检测框的表观特征图，确定每个检测框的表观特征图与各个轨迹框的表观特征图的余弦距离。这样，对于N个检测框，M个轨迹框的情况，可以得到N*M个余弦距离，这N*M个余弦距离，构成一个N*M的矩阵，即待检测帧图像的表观特征图和目标帧图像的表观特征图的相似度矩阵。

然后将确定出的IOU组成一个矩阵，得到IOU矩阵，根据IOU矩阵与相似度矩阵，得到代价矩阵，然后使用代价矩阵进行匈牙利匹配，得到待检测帧图像中检测框对应的标识。

可选的，可以将IOU矩阵与相似度矩阵相乘或相乘，得到代价矩阵，相应的处理可以如下：

将所述相似度矩阵和确定出的IOU相加或者加权相乘，得到目标矩阵，将矩阵元素为1的矩阵与所述目标矩阵相减，得到代价矩阵。

在实施中，服务器可以将相似度矩阵与IOU组成的矩阵相加，得到目标矩阵，然后将矩阵元素为1的矩阵与目标矩阵中相减，即可得到目标矩阵。例如，得到目标矩阵为

代价矩阵为

或者服务器可以获取相似度矩阵的第一权值，并获取IOU的第二权值，将相似度矩阵与第一权值相乘，得到第一矩阵，并将IOU组成的矩阵与第二权值相乘，得到第二矩阵(第一权值与第二权值之和等于1)，将第一矩阵与第二矩阵相乘，得到目标矩阵。

需要说明的是，IOU组成的矩阵是基于检测框与预测框得到的，在得到相似度矩阵时，使用了检测框与轨迹框，所以IOU组成的矩阵与相似度矩阵的维度相同，可以进行相加或相乘处理。

可选的，匈牙利匹配的过程可以如下：

确定代价矩阵中每一行的数值中的最小值，根据代价矩阵中每一行的数值中的最小值，确定待检测帧图像中检测框对应的标识。

在实施中，服务器得到代价矩阵后，可以确定每一行的数值中的最小值，然后判断是否存在同一列中有两个数值在他们所在的行中是最小值，如果存在这种情况，则确定该两个数值中最小值，将该两个数值中的最小值对应的轨迹框的标识，确定为该两个数值中的最小值对应的检测框的标识，并且重新确定两个数值中比较小的数值所在行除该比较小的数值中的最小值，将重新确定的最小值对应的轨迹框的标识，确定为该比较小的数值对应的检测框的标识。以上仅以同一列中有两个数值在他们所在的行中是最小值为例，在同一列中有至少两个数值在他们所在的行中是最小值的处理方式与上面的过程相同，此处不再赘述。如果按照上述有些检测框对应不到轨迹框(这是由于待检测帧图像中检测框的数目大于目标帧图像中轨迹框的数目，有些检测框是对应不到轨迹框)，则可以为这些检测框添加新的标识。

例如，代价矩阵为2*3的矩阵

表示目标帧图像中有2个轨迹框，待检测帧图像中有3个检测框，代价矩阵中行表示目标帧图像中的轨迹框，列表示待检测帧图像中的检测框，第一行中1最小，第二行中1最小，第三行中2最小，可以将第三行中2对应的轨迹框的标识赋予2对应的检测框，而第一列中第二行和第三行都是他们所在行的最小值，而第二行的最小值1小于第一行的最小值2，可以将1对应的轨迹框的标识赋予1对应的检测框，而对于第一行的检测框由于没有对应到轨迹框，可以赋予新标识。

可选的，可以基于ROI Pooling处理确定每个检测框的表观特征图，相应的处理可以如下：

对待检测帧图像的第一类特征图和待检测帧图像的检测框进行ROI Pooling处理，得到待检测帧图像中的目标所在区域的特征图。根据待检测帧图像中的目标所在区域的特征图，确定待检测帧图像每个检测框的表观特征图。

在实施中，服务器可以获取步骤101中获取到的待检测帧图像中的第一类特征图，并且获取步骤102中得到的待检测帧图像的检测框，然后将该第一类特征图和待检测帧图像的检测框进行ROI Pooling处理，得到待检测帧图像中的目标所在区域的特征图，然后将该特征图输入到预设的表观特征网络，得到待检测帧图像中的每个检测框对应的表观特征图。

需要说明的是，表观特征网络可以是预先训练的CNN，包括卷积层和池化层。

可选的，可以基于ROI Pooling处理确定每个轨迹框的表观特征图，相应的处理可以如下：

对目标帧图像的第一类特征图和目标帧图像的轨迹框进行ROI Pooling处理，得到目标帧图像中的目标所在区域的特征图，根据目标帧图像中的目标所在区域的特征图，确定目标帧图像每个轨迹框的表观特征图。

在实施中，服务器可以获取步骤101中获取到的目标帧图像中的第一类特征图，并且获取步骤102中得到的目标帧图像的轨迹框，然后将该第一类特征图和目标帧图像的轨迹框进行ROI Pooling处理，得到目标帧图像中的目标所在区域的特征图，然后将该特征图输入到预设的表观特征网络，得到目标帧图像中的每个轨迹框对应的表观特征图。

需要说明的是，表观特征网络可以是预先训练的CNN，包括卷积层和池化层，与前面确定每个检测框对应的表观特征图的方式相同。

需要说明的是，在表观特征网络中使用第一类特征图，而不使用第二类特征图，原因是第一类特征图比第二类特征图更能区分同类，但是不同标识的目标。

可选的，本公开实施例中，还可以确定出每个检测框对应的类别，相应的处理可以如下：

根据待检测帧图像的第二类特征图，确定待检测帧图像中目标的检测框对应的类别。

其中，类别指人、动物、车辆等。

在实施中，服务器可以将待检测帧图像的第二类特征图，输入到检测网络中，检测网络则会输出待检测帧图像中包含的目标的检测框对应的类别。

另外，本公开实施例中，如图3所示，还提供了训练检测网络、运动预测网络，表观特征网络的处理：

首先，有一个特征图提取模块，其中设置一个CNN，并输入两帧图像，两帧图像是一个视频中的两帧图像，可以是第M帧图像和第N帧图像，第M帧图像在第N帧图像之前，对输入的帧图像不断使用进行卷积操作，得到第M帧图像的第一类特征图和第二类特征图、第N帧图像的第一类特征图和第二类特征图，得到第一类特征图和第二类特征图的卷积操作仅在于卷积深度不相同，例如，得到第一类特征图使用了三层卷积操作，得到第二类特征图使用了六层卷积操作。

其次，有一个检测网络，输入为第N帧图像的第二类特征图，将第N帧图像的第二类特征图输入到预先设置的待训练的检测网络(一般是CNN)，得到第N帧图像中的目标所在位置的检测框，此时检测网络中卷积层和池化层的参数(可以称为是待训练参数)都是预设数值，然后获取标注的第M帧图像中的真值框和第N帧图像中的真值框。基于检测网络输出的检测框和真值框，使用损失函数(包括回归和分类两个损失)，对检测网络进行监督训练。得到检测网络中待训练参数的参数值。在检测网络训练好之后，会输出许多冗余的检测框，可以经过非极大值抑制以及剔除置信度小于第一预设阈值的检测框(前面已经详细说明此过程，此处不再赘述)，得到过滤后的检测框。另外为了后续得到运动预测网络和表观特征网络中训练所需的真值框，本公开中不直接使用标注的真值框，而是将过滤后的检测框与标注的真值框进行匹配，得到与真值框有一定偏移量的真值框，这样，可以得到更加鲁棒的特征，具体做法为：计算检测网络输出的检测框与真值框的IOU，如果IOU大于预设阈值，则用匈牙利算法进行二者的匹配，匹配成功后的检测框与真值框进行配对，将真值框的标识赋予检测框(也就是与真值框有一定偏移量的真值框)，并使用检测框进行后续运动预测网络和表观特征网络的训练。

这样，经过检测网络后，可以得到第M帧图像中的候选框(也就是有一定偏移量的真值框，包括位置和标识)和第N帧图像中的候选框(包括位置和标识)，然后使用第M帧图像中的候选框和第N帧的候选框，确定帧图像中包含的目标的位移真值，并且根据第M帧图像和第N帧图像中的同一目标的标识，生成正负样本对，正样本对是将同一目标标定为同一标识，负样本对是将不同的目标标定为同一标识。

再次，有一个运动预测网络，结构为预设数目层卷积层和非线性响应的堆叠，首先获取特征图提取模块输出的第M帧图像和第N帧图像的第一类特征图、第M帧图像和第N帧图像的第二类特征图，分别对第M帧图像和第N帧图像的第一类特征图、第M帧图像和第N帧图像的第二类特征图，确定相关图，得到第一相关图和第二相关图，然后将第一相关图、第二相关图、第M帧图像和第N帧图像的第二类特征图进行合并，得到合并后的特征图，然后将合并后的特征图与第M帧图像中的候选框进行ROI Pooling处理，得到第N帧图像中目标所在区域的特征图。然后将该特征图输入到运动预测网络，使用损失函数(包含回归和损失)，进行监督训练，得到运动预测网络的待训练参数的参数值。

最后，训练表观特征网络，对第M帧图像的第一类特征图与第M帧图像的候选框进行ROI Pooling处理，得到第M帧图像中目标所在区域的特征图，并且对第N帧图像的第一类特征图与第N帧图像的候选框进行ROI Pooling处理，得到第N帧图像中目标所在区域的特征图，将第M帧图像中目标所在区域的特征图和第N帧图像中目标所在区域的特征图输入到表观特征网络，得到输出(第M帧图像的表观特征图和第N帧图像的表观特征图)，使用样本对真值和损失函数(如二分类损失)进行监督训练，得到表观特征网络的待训练参数的参数值。

这样，可以得到检测网络、运动预测网络和表观特征网络的待训练参数的参数值，后续可以直接使用检测网络、运动预测网络和表观特征网络进行轨迹提取。

基于相同的技术构思，本公开实施例还提供了一种提取轨迹的装置，如图4所示，该装置包括：

获取模块410，用于获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的所述第一类特征图和所述第二类特征图，其中，目标帧图像在所述待检测帧图像之前且包含的目标在所述待检测帧图像与所述目标帧图像之间的帧图像中未检测到，所述第一类特征图包括浅层特征，所述第二类特征图包括深层特征；

确定模块420，用于根据所述待检测帧图像的第二类特征图，确定所述待检测帧图像中目标的检测框的位置；根据所述待检测帧图像的第一类特征图和第二类特征图、所述目标帧图像的所述第一类特征图和所述第二类特征图、所述目标帧图像中目标的轨迹框，确定所述目标帧图像中的目标映射到所述待检测帧图像中所在位置的预测框；根据确定出的检测框的位置和确定出的预测框的位置，确定所述待检测帧图像中包含的目标的轨迹。

可选的，所述确定模块420，用于：

可选的，所述确定模块420，还用于：

所述确定模块420，用于：

根据确定出的IOU与所述相似度矩阵，确定代价矩阵；

可选的，所述确定模块420，用于：

将矩阵元素为1的矩阵与所述目标矩阵相减，得到代价矩阵。

可选的，所述确定模块420，用于：

可选的，所述确定模块420，还用于：

可选的，所所述确定模块420，用于：

可选的，所述确定模块420，还用于：

需要说明的是：上述实施例提供的提取轨迹的装置在提取轨迹时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的提取轨迹的装置与提取轨迹的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种服务器的结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述同步缓存数据的方法的步骤。

本公开还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述提取轨迹的方法步骤。

本公开还提供了一种服务器，包括处理器和存储器，其中，所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现上述提取轨迹的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种提取轨迹的方法，其特征在于，所述方法包括：

获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的所述第一类特征图和所述第二类特征图，其中，所述目标帧图像在所述待检测帧图像之前且包含的目标在所述待检测帧图像与所述目标帧图像之间的帧图像中未检测到，所述第一类特征图包括浅层特征，所述第二类特征图包括深层特征；

2.根据权利要求1所述的方法，其特征在于，所述根据确定出的检测框的位置和确定出的预测框的位置，确定所述待检测帧图像中包含的目标的轨迹，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述待检测帧图像中检测框对应的标识和检测框的位置，确定所述待检测帧图像中包含的目标的轨迹，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据确定出的IOU与所述相似度矩阵，确定代价矩阵；

5.根据权利要求4所述的方法，其特征在于，所述根据所述代价矩阵，进行匈牙利匹配，确定所述待检测帧图像中检测框对应的标识，包括：

6.根据权利要求4所述的方法，其特征在于，所述获取所述待检测帧图像中每个检测框的表观特征图，包括：

对所述待检测帧图像的第一类特征图和所述待检测帧图像的检测框进行ROI Pooling处理，得到所述待检测帧图像中的目标所在区域的特征图；

7.根据权利要求4所述的方法，其特征在于，所述获取所述目标帧图像中每个轨迹框的表观特征图，包括：

8.根据权利要求4所述的方法，其特征在于，所述根据确定出的IOU与所述相似度矩阵，确定代价矩阵，包括：

将矩阵元素为1的矩阵与所述目标矩阵相减，得到代价矩阵。

9.根据权利要求1至8任一所述的方法，其特征在于，所述根据所述待检测帧图像的第二类特征图，确定所述待检测帧图像中目标的检测框的位置，包括：

10.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1至8任一所述的方法，其特征在于，所述根据所述待检测帧图像的第一类特征图和第二类特征图、所述目标帧图像的所述第一类特征图和所述第二类特征图、所述目标帧图像中目标的轨迹框，确定所述目标帧图像中的目标映射到所述待检测帧图像中所在位置的预测框，包括：

12.根据权利要求1至8任一所述的方法，其特征在于，所述确定所述待检测帧图像中目标的预测框的位置之后，还包括：

13.一种提取轨迹的装置，其特征在于，所述装置包括：

获取模块，用于获取待检测帧图像的第一类特征图和第二类特征图，并获取目标帧图像的所述第一类特征图和所述第二类特征图，其中，所述目标帧图像在所述待检测帧图像之前且包含的目标在所述待检测帧图像与所述目标帧图像之间的帧图像中未检测到，所述第一类特征图包括浅层特征，所述第二类特征图包括深层特征；

14.根据权利要求13所述的装置，其特征在于，所述确定模块，用于：

15.根据权利要求14所述的装置，其特征在于，所述确定模块，用于：

16.根据权利要求14所述的装置，其特征在于，所述确定模块，还用于：

所述确定模块，用于：

根据确定出的IOU与所述相似度矩阵，确定代价矩阵；

17.根据权利要求16所述的装置，其特征在于，所述确定模块，用于：

18.根据权利要求16所述的装置，其特征在于，所述确定模块，用于：

19.根据权利要求16所述的装置，其特征在于，所述确定模块，用于：

20.根据权利要求16所述的装置，其特征在于，所述确定模块，用于：

将矩阵元素为1的矩阵与所述目标矩阵相减，得到代价矩阵。

21.根据权利要求13至20任一所述的装置，其特征在于，所述确定模块，用于：

22.根据权利要求13至20任一所述的装置，其特征在于，所述确定模块，还用于：

23.根据权利要求13至20任一所述的装置，其特征在于，所所述确定模块，用于：

24.根据权利要求1所述的装置，其特征在于，所述确定模块，还用于：