CN113936042A

CN113936042A - 一种目标跟踪方法、装置和计算机可读存储介质

Info

Publication number: CN113936042A
Application number: CN202111536206.2A
Authority: CN
Inventors: 李燊; 俞吉; 郑伟; 刘国清
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Youjia Innovation Technology Co.,Ltd.
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-01-14
Anticipated expiration: 2041-12-16
Also published as: CN113936042B

Abstract

本发明公开一种目标跟踪方法、装置和计算机可读存储介质，涉及计算机视觉领域，能够在多目标跟踪时，提高目标跟踪的准确率。具体方案包括：获取包括至少一个第一对象的第一图像帧，以及包括至少一个第二对象的第二图像帧，第二图像帧为第一图像帧后的第N个图像帧；确定每个第一对象的第一边界框以及每个第二对象的第二边界框；获取每个第一边界框的位置信息和角点深度值，并获取第一图像帧与第二图像帧之间的运动信息；根据每个第一边界框的位置信息、角点深度值，以及运动信息，确定每个第一边界框对应的目标边界框；基于每个第一边界框、每个第一边界框对应的目标边界框以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值。

Description

一种目标跟踪方法、装置和计算机可读存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种目标跟踪方法、装置和计算机可读存储介质。

背景技术

多目标跟踪是计算机视觉技术领域的研究热点之一，可广泛应用于智能监控、自动驾驶和无人超市等领域。

当前，多目标跟踪包括初始化、预测、相似度计算和数据关联四个步骤。其中，在预测步骤中，电子设备可以根据当前图像帧中的检测边界框，以及该检测边界框在当前图像帧上的预估平移速度和缩放速度，得到该检测边界框在下一图像帧上的目标边界框。但是，采用上述方法得到的预测边界框在下一图像帧上的位置的准确率较低，导致目标跟踪的准确率较低。

发明内容

本发明提供一种目标跟踪方法、装置和计算机可读存储介质，能够在多目标跟踪时，提高目标跟踪的准确率。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种目标跟踪，该方法包括：

获取第一图像帧和第二图像帧，第一图像帧包括至少一个第一对象，第二图像帧包括至少一个第二对象，第二图像帧为第一图像帧后的第N个图像帧，N为正整数；

确定每个第一对象的第一边界框，以及每个第二对象的第二边界框；

获取每个第一边界框的位置信息和角点深度值，并获取第一图像帧与第二图像帧之间的运动信息，运动信息用于指示第一图像帧到第二图像帧的运动轨迹；

根据每个第一边界框的位置信息、角点深度值，以及运动信息，确定每个第一边界框对应的目标边界框；

基于每个第一边界框、每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值。

本发明提供的目标跟踪方法中，在确定与每个第一边界框对应的目标边界框时，是基于每个第一边界框的位置信息、角点深度值，以及运动信息共同进行确定。与现有技术中根据当前图像帧中的检测边界框在当前图像帧上的平移速度和缩放速度确定目标边界框，即仅在二维坐标系里确定目标边界框的位置相比，本发明中的角点深度值和运动信息能够体现真实的物理运动过程，可以在三维坐标系里确定目标边界框的位置，这样能够提高目标边界框的位置的准确度，进而提高了目标跟踪的准确率。

在一种可能的实现方式中，上述第一边界框的位置信息包括第一边界框的多个角点中每个角点的齐次坐标；

上述根据每个第一边界框的位置信息、角点深度值，以及运动信息，确定每个第一边界框对应的目标边界框，包括：

根据每个第一边界框的每个角点的齐次坐标、角点深度值，以及运动信息，确定每个目标边界框的每个角点的坐标；

根据每个目标边界框的每个角点的坐标，确定每个目标边界框。

在一种可能的实现方式中，上述基于每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值，包括：

针对至少一个目标边界框中的每个目标边界框，均执行以下步骤：

分别确定目标边界框与每个第二边界框的相似度；

基于目标边界框与每个第二边界框的相似度，以及预设的匹配算法，确定至少一个第二边界框中是否存在与目标边界框匹配的第三边界框；

若存在与目标边界框匹配的第三边界框，则确定第三边界框的角点深度值。

在一种可能的实现方式中，上述若存在与目标边界框匹配的第三边界框，则确定第三边界框的角点深度值，包括：

若存在与目标边界框匹配的第三边界框，则基于第三边界框的位置信息、第一边界框的位置信息，以及运动信息，确定第三边界框的角点深度值。

在一种可能的实现方式中，上述目标跟踪方法还包括：

对于至少一个第二边界框中的第四边界框，第四边界框是未与任一目标边界框匹配的边界框，确定第四边界框的角点深度值为预设值。

在一种可能的实现方式中，上述目标边界框位于第二图像帧；

上述分别确定目标边界框与每个第二边界框的相似度，包括：

确定目标边界框的中点与第二边界框的中点之间的距离向量，第二边界框为至少一个第二边界框中的任一边界框；

根据目标边界框对应的第一边界框的中点和第二图像帧，确定极线；

基于距离向量和极线，确定目标边界框与第二边界框的代价系数；

确定目标边界框与第二边界框在目标状态下的交并比，目标状态为目标边界框与第二边界框的中点重合的状态；

基于代价系数和交并比，确定目标边界框与第二边界框的相似度。

在一种可能的实现方式中，上述基于距离向量和极线，确定目标边界框与第二边界框的代价系数，包括：

根据距离向量的转置向量和第一向量，确定水平向量，第一向量为极线的前两维向量；

根据距离向量的转置向量、距离向量和水平向量，确定垂直向量；

根据水平向量和垂直向量，确定加权距离向量；

根据加权距离向量和常数值，确定代价系数。

第二方面，本发明提供一种目标跟踪装置，目标跟踪装置包括：

获取单元，用于获取第一图像帧和第二图像帧，第一图像帧包括至少一个第一对象，第二图像帧包括至少一个第二对象，第二图像帧为第一图像帧后的第N个图像帧，N为正整数；

确定单元，用于确定每个第一对象的第一边界框，以及每个第二对象的第二边界框；

获取单元，还用于获取每个第一边界框的位置信息和角点深度值，并获取第一图像帧与第二图像帧之间的运动信息，运动信息用于指示第一图像帧到第二图像帧的运动轨迹；

确定单元，还用于根据每个第一边界框的位置信息、角点深度值，以及运动信息，确定每个第一边界框对应的目标边界框；基于每个第一边界框、每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值。

在一种可能的实现方式中，上述第一边界框的位置信息包括第一边界框的多个角点中每个角点的坐标；

上述确定单元，具体用于：

在一种可能的实现方式中，针对至少一个目标边界框中的每个目标边界框，上述确定单元，具体用于：

分别确定目标边界框与每个第二边界框的相似度；

在一种可能的实现方式中，上述确定单元，具体用于：

在一种可能的实现方式中，上述确定单元，还用于：

上述确定单元，具体用于：

在一种可能的实现方式中，上述确定单元，具体用于：

根据水平向量和垂直向量，确定加权距离向量；

根据加权距离向量和常数值，确定代价系数。

第三方面，本发明提供一种目标跟踪装置，该目标跟踪装置包括：处理器和存储器。存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。当处理器执行计算机指令时，目标跟踪装置执行如第一方面及其任一种可能的实现方式的目标跟踪方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机指令，当计算机指令在目标跟踪装置上运行时，使得目标跟踪装置执行如第一方面或第一方面的可能的实现方式中任意一项的目标跟踪方法。

附图说明

图1为本发明实施例提供的目标跟踪系统的一种结构示意图；

图2为本发明实施例提供的计算装置的一种结构示意图；

图3为本发明实施例提供的目标跟踪方法的流程示意图之一；

图4为本发明实施例提供的目标跟踪方法的流程示意图之二；

图5为本发明实施例提供的目标跟踪方法的流程示意图之三；

图6为本发明实施例提供的目标跟踪装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

为了在多目标跟踪时，提高目标跟踪的准确率，本发明实施例提供了一种目标跟踪方法、装置和计算机可读存储介质。通过第一帧图像中第一边界框的位置信息、角点深度值，以及第一图像帧与第二图像帧之间的运动信息，确定第一边界框对应的目标边界框的位置，可以提高目标边界框在第二图像帧上的位置的准确度，进而能够提高目标跟踪的准确率。

本发明实施例提供的目标跟踪方法可以适用于目标跟踪系统。图1示出了该目标跟踪系统的一种结构。如图1所示，该目标跟踪系统可以包括：多个图像采集设备11和电子设备12。每个图像采集设备11与电子设备12通过有线通信或者无线通信的方式建立连接。

图像采集设备11，用于拍摄视频，并向电子设备12传输该视频。

在一些实施例中，图像采集设备11拍摄的对象可以是道路交通牌。

在一些实施例中，图像采集设备11可以为具有拍摄功能的设备。例如，图像采集设备11可以为路上行驶的汽车、无人机等。当图像采集设备11为汽车时，可以通过自身的行车记录仪拍摄行驶过程中汽车前方的道路交通牌。对图像采集设备11拍摄的视频中包括的道路交通牌进行目标跟踪，能够对场景进行三维重建。该三维重建的结果能够用于无人驾驶。

在一些实施例中，上述视频可以包括至少两个图像帧。本发明实施例中以该视频中的两个图像帧，如第一图像帧和第二图像帧为例对目标跟踪方法进行介绍。第二图像帧为第一图像帧后的第N个图像帧，N为正整数。例如，当N为1时，第二图像帧为第一图像帧的下一个图像帧。

电子设备12，用于获取视频中的第一图像帧和第二图像帧，第一图像帧包括至少一个第一对象，第二图像帧包括至少一个第二对象。电子设备12还用于确定每个第一对象的第一边界框，以及每个第二对象的第二边界框。电子设备12还用于获取每个第一边界框的位置信息和角点深度值，并获取第一图像帧与第二图像帧之间的运动信息，运动信息用于指示第一图像帧到第二图像帧的运动轨迹。电子设备12还用于根据每个第一边界框的位置信息、角点深度值，以及运动信息，确定每个第一边界框对应的目标边界框；并基于每个第一边界框、每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值。

例如，电子设备12可以为终端设备或者服务器。该终端设备可以为智能手机、平板电脑或台式电脑等设备，在此不做限定。图1中以电子设备12为服务器为例示出。

可选的，上述图像采集设备11可以包括多个传感器，该传感器用于获取视频中的第一图像帧与第二图像帧之间的运动信息。该情况下，图像采集设备11还用于将该运动信息传输至电子设备12。

上述图像采集设备11和电子设备12的基本硬件结构类似，都包括图2所示计算装置所包括的元件。下面以图2所示的计算装置为例，介绍图像采集设备11和电子设备12的硬件结构。

如图2所示，计算装置可以包括：处理器21、存储器22、通信接口23和总线24。处理器21、存储器22和通信接口23之间可以通过通信总线24连接。

处理器21是计算装置的控制中心，可以是一个处理器21，也可以是多个处理元件的统称。例如，处理器21可以是一个通用的中央处理器（central processing unit，CPU），也可以是其他通用处理器21等。其中，通用处理器21可以是微处理器21或者是任何常规的处理器21等。

作为一种实施例，处理器21可以包括一个或多个CPU，例如，图2所示的CPU0和CPU1。

存储器22可以是只读存储器22（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器22（random access memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器22（electrically erasable programmable read-only memory，EEPROM）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

一种可能的实现方式中，存储器22可以独立于处理器21存在，存储器22可以通过总线24与处理器21相连接，用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时，能够实现本申请下述实施例提供的目标跟踪方法。

另一种可能的实现方式中，存储器22也可以和处理器21集成在一起。

通信接口23，用于计算装置与其他设备通过通信网络连接，所述通信网络可以是以太网，无线接入网（radio access network，RAN），无线局域网（wireless local areanetworks，WLAN）等。通信接口23可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

总线24，可以是工业标准体系结构（Industry Standard Architecture，ISA）总线24、外部设备互连（Peripheral Component Interconnect，PCI）总线24或扩展工业标准体系结构（Extended Industry Standard Architecture，EISA）总线24等。该总线24可以分为地址总线24、数据总线24、控制总线24等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线24或一种类型的总线24。

需要指出的是，图2中示出的结构并不构成对该计算装置的限定，除图2所示部件之外，该计算装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例提供的目标跟踪方法的执行主体为目标跟踪装置。该目标跟踪装置可以是上述电子设备，也可以是上述电子设备中的CPU，还可以是上述电子设备中用于进行目标跟踪的客户端。本发明实施例以电子设备执行目标跟踪方法为例，对本申请提供的目标跟踪方法进行说明。

下面结合附图对本发明实施例提供的目标跟踪方法进行描述。

如图3所示，本发明实施例提供的目标跟踪方法包括以下步骤301-步骤305。

301、电子设备获取第一图像帧和第二图像帧，第一图像帧包括至少一个第一对象，第二图像帧包括至少一个第二对象，第二图像帧为第一图像帧后的第N个图像帧，N为正整数。

当需要对某视频中的图像帧包括的对象进行目标跟踪时，电子设备可以获取该视频中的两个图像帧，其中一个图像帧为另一个图像帧之后的第N个图像帧，N为正整数。本发明实施例以这两个图像帧包括第一图像帧和第二图像帧为例进行说明。例如，当N为1时，第二图像帧为第一图像帧的下一个图像帧。

可以理解的是，在本发明实施例中，上述视频可以是图像采集设备拍摄后传输至电子设备的。当然，该视频还可以是电子设备通过其他方式得到的，本发明实施例在此不做限定。

302、电子设备确定每个第一对象的第一边界框，以及每个第二对象的第二边界框。

电子设备在获取到第一图像帧和第二图像帧之后，可以通过预存的检测算法检测到每个第一对象的第一边界框，以及每个第二对象的第二边界框。第一边界框和第二边界框的形状可以为任意多边形。

例如，第一边界框和第二边界框的形状分别可以为矩形和三角形中的任一种。

303、电子设备获取每个第一边界框的位置信息和角点深度值，并获取第一图像帧与第二图像帧之间的运动信息，运动信息用于指示第一图像帧到第二图像帧的运动轨迹。

其中，角点深度值为在图像采集设备坐标系下沿Z轴的长度。例如，当图像采集设备为汽车时，角点深度值可以是在自身的行车记录仪的坐标系下沿Z轴的长度。

电子设备在确定出每个第一对象的第一边界框之后，可以获取每个第一边界框的位置信息，还可以获取每个第一边界框的角点深度值。一个第一边界框对应一个角点深度值。当第一边界框中的第一对象为视频中首次出现的对象时，第一边界框的角点深度值为预设值。否则，第一边界框的角点深度值可以为执行本发明实施例的目标跟踪方法得到的值。

且，电子设备可以采用多种方式获取第一图像帧与第二图像帧之间的运动信息。作为一种可能的实现，电子设备可以通过预存的运动信息获取算法对视频进行处理，获取第一图像帧与第二图像帧之间的运动信息。作为另一种可能的实现，电子设备可以从自身内存中直接获取第一图像帧与第二图像帧之间的运动信息，该运动信息是图像采集设备在拍摄视频时通过自身的传感器获取并传输至电子设备的。

304、电子设备根据每个第一边界框的位置信息、角点深度值，以及运动信息，确定每个第一边界框对应的目标边界框。

305、电子设备基于每个第一边界框、每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值。

可选的，上述第一边界框的位置信息可以包括第一边界框的多个角点中每个角点的齐次坐标。齐次坐标就是将一个原本是n维的向量用一个n+1维向量来表示，是指一个用于投影几何里的坐标系统，如同用于欧氏几何里的笛卡儿坐标一般。在上述步骤302电子设备通过检测算法检测第一边界框时，便可以获取到第一边界框的每个角点的齐次坐标。

结合图3，如图4所示，上述步骤304具体可以包括以下步骤401和步骤402。

401、电子设备根据每个第一边界框的每个角点的齐次坐标、角点深度值，以及运动信息，确定每个目标边界框的每个角点的坐标。

可选的，运动信息可以包括旋转矩阵

和平移向量

。在本发明实施例中，旋转矩阵

可以是3×3的矩阵，平移向量

为三维向量。

可选的，电子设备可以分别确定每个目标边界框的每个角点的坐标。本发明实施例在此以确定一个目标边界框的其中一个角点的坐标为例进行说明。

电子设备根据一个角点的齐次坐标、角点深度值，以及运动信息，确定该角点的坐标时，可以使用以下公式（1）-公式（3）：

（1）

（2）

（3）

其中，上述

表示旋转矩阵

的逆矩阵；上述

表示图像采集设备的内参矩阵

的逆矩阵，该内参矩阵是3×3的矩阵，且该内参矩阵与图像采集设备有关；上述

表示一个目标边界框的一个角点的齐次坐标；上述

表示一个第一边界框的角点深度值；上述

表示一个目标边界框的一个角点的三维坐标对应的三维向量；上述

表示三维向量

的第三维的数值；上述

表示取三维向量

的前两维形成的二维向量；上述

表示每个目标边界框的一个角点的坐标，该坐标为二维坐标。

402、电子设备根据每个目标边界框的每个角点的坐标，确定每个目标边界框。

当电子设备确定了每个目标边界框的每个角点的坐标后，将每个角点依次连接，便可以确定每个目标边界框的具体位置。

每个目标边界框的角点是根据对应的第一边界框的角点确定的，因此，每个目标边界框的形状与对应的第一边界框的形状相同。

结合图4，如图5所示，针对至少一个目标边界框中的每个目标边界框，上述步骤305具体可以包括以下步骤501-步骤503。

501、电子设备分别确定目标边界框与每个第二边界框的相似度。

可选的，电子设备分别确定目标边界框与每个第二边界框的相似度的过程可以包括：首先，电子设备确定目标边界框的中点与第二边界框的中点之间的距离向量，第二边界框为至少一个第二边界框中的任一边界框。其次，电子设备根据目标边界框对应的第一边界框的中点和第二图像帧，确定极线。再次，电子设备基于距离向量和极线，确定目标边界框与第二边界框的代价系数。接着，电子设备确定目标边界框与第二边界框在目标状态下的交并比，目标状态为目标边界框与第二边界框的中点重合的状态。最后，电子设备基于代价系数和交并比，确定目标边界框与第二边界框的相似度。

需要理解的是，目标边界框和第二边界框均位于第二图像帧，因此，距离向量是一个二维向量。

可选的，上述电子设备根据目标边界框对应的第一边界框的中点和第二图像帧确定极线可以使用以下公式（4）。

（4）

其中，上述

表示第一边界框的中点的齐次坐标；上述

表示内参矩阵

的转置矩阵的逆矩阵；上述

表示平移向量

对应的反对称矩阵；上述

表示极线，极线

是三维向量。

可选的，上述电子设备确定目标边界框与第二边界框的代价系数的过程可以包括：电子设备根据距离向量的转置向量和第一向量，确定水平向量，第一向量为极线的前两维向量；电子设备根据距离向量的转置向量、距离向量和水平向量，确定垂直向量；电子设备根据水平向量和垂直向量，确定加权距离向量；电子设备根据加权距离向量和常数值，确定代价系数。

示例性的，电子设备根据距离向量的转置向量和第一向量，确定水平向量，可以使用以下公式（5）和公式（6）。

（5）

（6）

其中，上述

表示取极线

的前两维向量；上述

表示第一向量；上述

表示距离向量

的转置向量；上述

表示矩阵

的绝对值；上述

表示第一向量

的模长；上述

表示水平向量。

示例性的，电子设备根据距离向量的转置向量、距离向量和水平向量，确定垂直向量，可以使用以下公式（7）。

（7）

其中，上述

表示垂直向量。

示例性的，电子设备根据水平向量和垂直向量，确定加权距离向量，可以使用以下公式（8）。

（8）

其中，上述

表示预设的加权系数，上述

表示加权距离向量。

示例性的，电子设备根据加权距离向量和常数值，确定代价系数，可以使用以下公式（9）。

（9）

其中，上述

表示预设的常数值；上述

表示代价系数。

可选的，电子设备确定目标边界框与第二边界框在目标状态下的交并比，可以使用以下公式（10）。

（10）

其中，上述

表示目标边界框的面积；上述

表示第二边界框的面积，上述

表示在目标状态下，目标边界框与第二边界框的重合面积；上述

表示在目标状态下，目标边界框与第二边界框的相并面积；上述

表示目标边界框与第二边界框在目标状态下的交并比。

可选的，电子设备基于代价系数和交并比，确定目标边界框与第二边界框的相似度，可以使用以下公式（11）。

（11）

其中，上述

表示目标边界框与第二边界框的相似度。

502、电子设备基于目标边界框与每个第二边界框的相似度，以及预设的匹配算法，确定至少一个第二边界框中是否存在与目标边界框匹配的第三边界框。

示例性的，一个目标边界框与至少一个第二边界框的相似度可以构成一个n维向量，向量的维度n与第二边界框的数量有关。预设的匹配算法用于对该n维向量进行处理。电子设备根据匹配算法的输出结果，可以确定至少一个第二边界框中是否存在与目标边界框匹配的第三边界框。

例如，预设的匹配算法可以是匈牙利匹配算法。当然，预设的匹配算法也可以为其他匹配算法。

503、若存在与目标边界框匹配的第三边界框，则电子设备确定第三边界框的角点深度值。

可选的，电子设备确定第三边界框的角点深度值的过程可以包括：电子设备基于第三边界框的位置信息、第一边界框的位置信息，以及运动信息，确定第三边界框的角点深度值。此处，第三边界框的位置信息包括第三边界框的多个角点中每个角点的齐次坐标。

电子设备确定第三边界框的角点深度值的过程中，可以首先对第三边界框的每个角点和第一边界框中对应的角点进行三角化，得到第三边界框的每个角点的三维坐标。三角化，是指已知两个图像采集设备成像时刻的位姿，根据两个图像采集设备分别采集到的图像上的同一点的像素位置，计算出该点的三维坐标。一个三维坐标可以对应一个三维向量。基于第三边界框的每个角点对应的三维向量，以及运动信息和内参矩阵，确定第三边界框的每个角点的角点深度值。然后计算所有角点深度值的加权平均值。该加权平均值即为第三边界框的角点深度值。

示例性的，本发明实施例在此以确定一个第三边界框的其中一个角点的角点深度值为例进行说明。电子设备确定第三边界框的一个角点的角点深度值，可以使用以下公式（12）-公式（16）。

（12）

（13）

（14）

（15）

（16）

其中，上述

表示第一边界框的一个角点的齐次坐标；上述

表示第一边界框的一个角点的三维坐标对应的三维向量；上述

是三维向量

对应的反对称矩阵；上述

表示第三边界框的一个角点的齐次坐标；上述

表示第三边界框的一个角点的三维坐标对应的三维向量；上述

和

均表示三维向量，

是三维向量

的转置向量；上述

表示向量

的模长的平方的倒数；上述

表示第三边界框的一个角点的角点深度值。

需要理解的是，当电子设备确定至少一个第二边界框中存在与目标边界框匹配的第三边界框时，表明第一图像帧中的对象出现在了第二图像帧中。也就是说，电子设备在第二图像帧中成功跟踪到了第一对象。此时，电子设备可以为第三边界框添加身份标识号（Identity document，ID），并将第三边界框的ID设置为对应的第一边界框的ID。

可选的，本发明实施例中的目标跟踪方法，还可以包括：对于至少一个第二边界框中的第四边界框，第四边界框是未与任一目标边界框匹配的边界框，电子设备确定第四边界框的角点深度值为预设值。

需要理解的是，当电子设备确定至少一个第二边界框中存在未与任一目标边界框匹配的第四边界框时，表明第二图像帧中的第二对象为新对象，没有在第一图像帧中出现过。此时，电子设备可以分配一个预设值作为第四边界框的角点深度值，该预设值可以为一个数值较大的正整数。例如，预设值可以为100。且，电子设备可以向第四边界框分配ID。

可选的，若电子设备确定目标边界框与至少一个第二边界框未匹配，计算未匹配的累计次数。当累计次数大于阈值时，电子设备可以确定与目标边界框对应的第一边界框中的第一对象已经在第二图像帧中消失。

本发明提供的目标跟踪方法中，在确定一个目标边界框与每个第二边界框的相似度时，电子设备是基于一个目标边界框与每个第二边界框之间的代价系数，以及目标边界框与每个第二边界框在目标状态下的交并比进行确定的，这样即使在图像采集设备运动剧烈的情况下，也可以保证目标边界框与第二边界框之间进行关联时的准确度。从而在多目标跟踪时，进一步提高目标跟踪的准确率。

此外，当电子设备确定存在与目标边界框匹配的第三边界框时，则确定第三边界框的角点深度值，这样在确定与第三边界框对应的目标边界框时，提高目标边界框的准确度。

上述主要从目标跟踪装置的角度对本发明实施例提供的方案进行了介绍。可以理解的是，目标跟踪装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图6示出了上述实施例中涉及的目标跟踪装置600的一种可能的组成示意图，如图6所示，该目标跟踪装置600可以包括：获取单元601和确定单元602。

其中，获取单元601，用于获取第一图像帧和第二图像帧，第一图像帧包括至少一个第一对象，第二图像帧包括至少一个第二对象，第二图像帧为第一图像帧后的第N个图像帧，N为正整数。确定单元602，用于确定每个第一对象的第一边界框，以及每个第二对象的第二边界框。获取单元601，还用于获取每个第一边界框的位置信息和角点深度值，并获取第一图像帧与第二图像帧之间的运动信息，运动信息用于指示第一图像帧到第二图像帧的运动轨迹。确定单元602，还用于根据每个第一边界框的位置信息、角点深度值，以及运动信息，确定每个第一边界框对应的目标边界框；基于每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值。

可选的，确定单元602，具体用于根据每个第一边界框的每个角点的坐标、角点深度值，以及运动信息，确定每个目标边界框的每个角点的坐标；根据每个目标边界框的每个角点的坐标，确定每个目标边界框。

可选的，确定单元602，具体用于分别确定目标边界框与每个第二边界框的相似度；基于目标边界框与每个第二边界框的相似度，以及预设的匹配算法，确定至少一个第二边界框中是否存在与目标边界框匹配的第三边界框；若存在与目标边界框匹配的第三边界框，则确定第三边界框的角点深度值。

可选的，确定单元602，具体用于若存在与目标边界框匹配的第三边界框，则基于第三边界框的位置信息、目标边界框的位置信息，以及运动信息，确定第三边界框的角点深度值。

可选的，确定单元602，还用于对于至少一个第二边界框中的第四边界框，第四边界框是未与任一目标边界框匹配的边界框，确定第四边界框的角点深度值为预设值。

可选的，确定单元602，具体用于确定目标边界框的中点与第二边界框的中点之间的距离向量，第二边界框为至少一个第二边界框中的任一边界框；根据目标边界框对应的第一边界框的中点和第二图像帧，确定极线；基于距离向量和极线，确定目标边界框与第二边界框的代价系数；确定目标边界框与第二边界框在目标状态下的交并比，目标状态为目标边界框与第二边界框的中点重合的状态；基于代价系数和交并比，确定目标边界框与第二边界框的相似度。

可选的，确定单元602，具体用于根据距离向量的转置向量和第一向量，确定水平向量，第一向量为极线的前两维向量；根据转置向量、距离向量和水平向量，确定垂直向量；根据水平向量和垂直向量，确定加权距离向量；根据加权距离向量和常数值，确定代价系数。

当然，本发明实施例提供的目标跟踪装置600包括但不仅限于上述模块。

在实际实现时，获取单元601和确定单元602可以由图2所示的处理器21调用存储器22中的程序代码来实现。其具体的执行过程可参考图3至图5所示的目标跟踪方法部分的描述，这里不再赘述。

本申请另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在目标跟踪装置上运行时，使得目标跟踪装置执行上述方法实施例所示的方法流程中目标跟踪装置执行的各个步骤。

本申请另一实施例还提供一种芯片系统，该芯片系统应用于目标跟踪装置。所述芯片系统包括一个或多个接口电路，以及一个或多个处理器21。接口电路和处理器21通过线路互联。接口电路用于从目标跟踪装置的存储器22接收信号，并向处理器21发送所述信号，所述信号包括所述存储器22中存储的计算机指令。当处理器21执行计算机指令时，目标跟踪装置执行上述方法实施例所示的方法流程中目标跟踪装置执行的各个步骤。

在本申请另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括指令，当指令在目标跟踪装置上运行时，使得目标跟踪装置执行上述方法实施例所示的方法流程中目标跟踪装置执行的各个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线（例如同轴电缆、光纤、数字用户线（digitalsubscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质（例如，软盘、硬盘、磁带），光介质（例如，DVD）、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取第一图像帧和第二图像帧，所述第一图像帧包括至少一个第一对象，所述第二图像帧包括至少一个第二对象，所述第二图像帧为所述第一图像帧后的第N个图像帧，N为正整数；

获取每个第一边界框的位置信息和角点深度值，并获取所述第一图像帧与所述第二图像帧之间的运动信息，所述运动信息用于指示所述第一图像帧到所述第二图像帧的运动轨迹；

根据每个第一边界框的位置信息、角点深度值，以及所述运动信息，确定每个第一边界框对应的目标边界框；

2.根据权利要求1所述的目标跟踪方法，其特征在于，所述第一边界框的位置信息包括所述第一边界框的多个角点中每个角点的齐次坐标；

所述根据每个第一边界框的位置信息、角点深度值，以及所述运动信息，确定每个第一边界框对应的目标边界框，包括：

根据每个所述第一边界框的每个角点的齐次坐标、角点深度值，以及所述运动信息，确定每个所述目标边界框的每个角点的坐标；

根据每个所述目标边界框的每个角点的坐标，确定每个所述目标边界框。

3.根据权利要求1或2所述的目标跟踪方法，其特征在于，所述基于每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值，包括：

分别确定所述目标边界框与每个第二边界框的相似度；

基于所述目标边界框与每个第二边界框的相似度，以及预设的匹配算法，确定至少一个第二边界框中是否存在与所述目标边界框匹配的第三边界框；

若存在与所述目标边界框匹配的所述第三边界框，则确定所述第三边界框的角点深度值。

4.根据权利要求3所述的目标跟踪方法，其特征在于，所述若存在与所述目标边界框匹配的所述第三边界框，则确定所述第三边界框的角点深度值，包括：

若存在与所述目标边界框匹配的所述第三边界框，则基于所述第三边界框的位置信息、所述第一边界框的位置信息，以及所述运动信息，确定所述第三边界框的角点深度值。

5.根据权利要求3所述的目标跟踪方法，其特征在于，所述目标跟踪方法还包括：

对于所述至少一个第二边界框中的第四边界框，所述第四边界框是未与任一目标边界框匹配的边界框，确定所述第四边界框的角点深度值为预设值。

6.根据权利要求3所述的目标跟踪方法，其特征在于，所述目标边界框位于所述第二图像帧；

所述分别确定所述目标边界框与每个所述第二边界框的相似度，包括：

确定所述目标边界框的中点与所述第二边界框的中点之间的距离向量，所述第二边界框为至少一个第二边界框中的任一边界框；

根据所述目标边界框对应的第一边界框的中点和所述第二图像帧，确定极线；

基于所述距离向量和所述极线，确定所述目标边界框与所述第二边界框的代价系数；

确定所述目标边界框与所述第二边界框在目标状态下的交并比，所述目标状态为所述目标边界框与所述第二边界框的中点重合的状态；

基于所述代价系数和所述交并比，确定所述目标边界框与所述第二边界框的相似度。

7.根据权利要求6所述的目标跟踪方法，其特征在于，所述基于所述距离向量和所述极线，确定所述目标边界框与所述第二边界框的代价系数，包括：

根据所述距离向量的转置向量和第一向量，确定水平向量，所述第一向量为所述极线的前两维向量；

根据所述距离向量的转置向量、所述距离向量和所述水平向量，确定垂直向量；

根据所述水平向量和所述垂直向量，确定加权距离向量；

根据所述加权距离向量和常数值，确定所述代价系数。

8.一种目标跟踪装置，其特征在于，包括：

获取单元，用于获取第一图像帧和第二图像帧，所述第一图像帧包括至少一个第一对象，所述第二图像帧包括至少一个第二对象，所述第二图像帧为所述第一图像帧后的第N个图像帧，N为正整数；

确定单元，用于确定获取单元获取到的每个第一对象的第一边界框，以及每个第二对象的第二边界框；

所述获取单元，还用于获取每个第一边界框的位置信息和角点深度值，并获取所述第一图像帧与所述第二图像帧之间的运动信息，所述运动信息用于指示所述第一图像帧到所述第二图像帧的运动轨迹；

所述确定单元，还用于根据获取单元获取到的每个第一边界框的位置信息、角点深度值，以及所述运动信息，确定每个第一边界框对应的目标边界框；基于每个第一边界框、每个第一边界框对应的目标边界框，以及每个第二对象的第二边界框，确定每个第二边界框的角点深度值。

9.一种目标跟踪装置，其特征在于，所述目标跟踪装置包括：处理器和存储器；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述处理器执行所述计算机指令时，所述目标跟踪装置执行如权利要求1-7中任意一项所述的目标跟踪方法。

10.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在目标跟踪装置上运行时，使得所述目标跟踪装置执行权利要求1-7中任意一项所述的目标跟踪方法。