CN116528062B

CN116528062B - 多目标追踪方法

Info

Publication number: CN116528062B
Application number: CN202310817192.4A
Authority: CN
Inventors: 李厚强; 方泽瑜; 刘海峰
Original assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd; University of Science and Technology of China USTC
Current assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd; University of Science and Technology of China USTC
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-15
Anticipated expiration: 2043-07-05
Also published as: CN116528062A

Abstract

本发明公开了一种多目标追踪方法，该方法包括：获取多个相机拍摄的二维图像，并获取相应的深度信息；利用预设目标检测器检测二维图像，得到目标边界框信息，其中，目标边界框信息包括目标边界框的像素坐标信息；基于深度信息对相应的目标边界框的像素坐标进行坐标转换，得到各目标的观测三维坐标；对每个相机对应的各目标的观测三维坐标进行全局观测整合；将整合结果输入至预设强化学习网络模型中，输出各相机动作信息，并根据动作信息对相应的相机进行控制，以实现多目标跟踪。该多目标追踪方法应用于多个相机，解决了在多目标场景时规模膨胀导致无法对全局观测进行有效整合的问题，使得相机既有单独对目标稳定跟踪的能力，又有团队协作的能力。

Description

多目标追踪方法

技术领域

本发明涉及目标追踪技术领域，尤其涉及一种多目标追踪的方法。

背景技术

目标检测、目标跟踪技术主要用于识别、定位画面中的目标，在近年来飞速发展，并在交通监控，无人驾驶，机器人控制，人机交互等领域有了深入的应用。主动目标跟踪任务，例如无人机追踪中，我们希望相机可通过观测，自发调整自己的位置与姿态，以实现对目标的持续稳定跟踪。

在单相机的主动单目标跟踪中，一种方法是将其建模为部分可观察的马尔可夫决策过程，并用单智能体强化学习算法解决。其中，相机被定义为智能体，而相机所拍摄的画面被定义为环境的观测。通过设置虚拟环境并设定相应的动作空间和反馈，智能体可经由端到端网络学到具有有效跟踪能力的策略，并可推广至现实环境。另一种方法基于多相机的主动单目标跟踪，在原有技术的基础上各个智能体共享位置信息。每个智能体可选择通过自身的视觉信息或其他智能体的位置信息决定策略并执行动作，以消除不完美观测，例如目标被遮挡情形中视觉特征的缺失对跟踪的影响。

然而，以上两种方法均未涉及对多目标的主动跟踪。

相关技术中，单目标主动跟踪算法未涉及对观测信息的有效整合，在面临多目标主动跟踪任务时将无法解决规模膨胀问题，难以形成对全局的观测，从而导致训练难度增加。并且，多目标主动跟踪涉及到团体协作，其评价指标为所有目标的全局覆盖率。而单目标主动跟踪算法仅以稳定跟踪单一物体为目标，难以处理多目标跟踪中可能出现的短期收益与长期收益的权衡问题，无法形成有效的团体协作策略。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种多目标追踪方法，该多目标追踪方法实现多相机多目标的追踪，解决了在多目标场景时规模膨胀导致无法对全局观测进行有效整合的问题，使得相机既有单独对目标稳定跟踪的能力，又有团队协作的能力。

为达到上述目的，本发明第一方面实施例提出一种多目标追踪方法，所述方法包括：获取多个相机拍摄的二维图像，并获取相应的深度信息；利用预设目标检测器检测所述二维图像，得到目标边界框信息，其中，所述目标边界框信息包括目标边界框的像素坐标信息；基于所述深度信息对相应的目标边界框的像素坐标进行坐标转换，得到各目标的观测三维坐标；对每个所述相机对应的各所述目标的观测三维坐标进行全局观测整合；将整合结果输入至预设强化学习网络模型中，输出各所述相机动作信息，并根据所述动作信息对相应的相机进行控制，以实现多目标跟踪。

另外，根据本发明上述实施例提出的多目标追踪方法还可以具有如下附加的技术特征：

根据本发明的一个实施例，所述深度信息包括第一深度信息和第二深度信息，所述基于所述深度信息对相应的目标边界框的像素坐标进行坐标转换，得到各目标的观测三维坐标，包括：获取相机的旋转矩阵、内参矩阵、绝对坐标；根据所述旋转矩阵、所述内参矩阵、所述绝对坐标和所述第一深度信息对所述目标边界框的像素坐标进行坐标转换，得到各目标的第一三维坐标，其中，所述第一深度信息根据所述相机采集的深度图像确定；根据所述旋转矩阵、所述内参矩阵、所述绝对坐标和所述第二深度信息对所述目标边界框的像素坐标进行坐标转换，得到各目标的第二三维坐标，其中，所述第二深度信息根据所述旋转矩阵、所述内参矩阵和所述绝对坐标确定；分别计算所述第一三维坐标和所述第二三维坐标与估计位置的偏差，并将偏差较小者对应的三维坐标作为所述观测三维坐标。

根据本发明的一个实施例，通过下式计算所述第二深度信息：

其中，为相机i对应的第二深度信息，P为所述旋转矩阵，K为所述内参矩阵，/>为所述相机i的绝对坐标。

根据本发明的一个实施例，通过下式计算所述第一三维坐标和所述第二三维坐标：

其中，为所述相机i对应的目标j的第一三维坐标，/>为所述相机i对应的目标j的第二三维坐标，/>为所述相机i对应的第一深度信息，/>为所述相机i对应的目标j的像素坐标。

根据本发明的一个实施例，所述估计位置通过如下方式得到：获取目标在当前时刻的第三三维坐标和在前一时刻的第四三维坐标；根据所述第三三维坐标和所述第四三维坐标计算得到估计三维坐标，作为所述估计位置。

根据本发明的一个实施例，通过下式计算得到所述估计三维坐标：

其中，为目标j对应的估计三维坐标，/>为所述目标j对应的第三三维坐标，/>为所述目标j对应的第四三维坐标。

根据本发明的一个实施例，所述对每个所述相机中的各所述目标的观测三维坐标进行全局观测整合，包括：获取各所述相机的姿态信息，其中，所述姿态信息包括位置信息、角度信息和缩放程度信息；根据各所述目标的目标边界框信息和各所述相机的姿态信息构建状态矩阵，根据各所述目标的观测三维坐标和各所述相机的姿态信息构建观测矩阵，根据全局覆盖率、边界框大小、覆盖数量、偏航角误差和重叠区域构建反馈矩阵，并构建相机的动作矩阵。

根据本发明的一个实施例，通过下式计算重叠区域：

其中，为所述相机i的重叠区域，/>为所述相机i的视野观测范围，/>为除相机i外的任意其他相机k的视野观测范围，IoU为交并比。

根据本发明的一个实施例，所述根据全局覆盖率、边界框大小、覆盖数量、偏航角误差和重叠区域构建反馈矩阵，包括：根据所述全局覆盖率构建全局反馈矩阵；根据所述边界框大小、所述覆盖数量、所述偏航角误差和所述重叠区域构建个体反馈矩阵；根据所述全局反馈矩阵和所述个体反馈矩阵构建所述反馈矩阵。

根据本发明的一个实施例，所述将整合结果输入至预设强化学习网络模型中，包括：将所述状态矩阵、所述观测矩阵、所述反馈矩阵和所述动作矩阵输入至所述预设强化学习网络模型中。

根据本发明的一个实施例，所述预设强化学习网络模型包括Q值网络，所述动作信息包括相机固定轨迹平移信息、旋转角度信息和调整缩放程度信息。

本发明实施例的多目标追踪方法，首先获取多个RGB-D相机拍摄的二维图像，获取相应的深度信息。采用目标检测器对二维RGB图像进行目标检测，得到目标边界框位置信息，目标边界框信息中包括目标边界框的像素坐标。再基于深度信息对相应的目标边界框的像素坐标进行坐标转换，为确保观测坐标的准确性，本发明采用两种坐标转换方式以获取观测坐标，第一种是直接根据RGB-D相机测得的深度信息对像素坐标进行坐标转换，第二种是通过逆投影变换得到的深度信息对像素坐标进行坐标转换，采用两种方法分别计算得到对应的目标三维坐标，并比较这两种方法的的偏差，取偏差较小者对应的三维坐标为观测三维坐标。得到各目标的观测三维坐标之后，对每个相机对应的各目标的观测三维坐标进行全局观测整合，根据观测三维坐标和各相机的姿态信息构建状态矩阵，观测矩阵，动作矩阵和反馈矩阵，将其输入至预设强化学习网络模型，进行训练之后，输出各相机的动作信息，各相机的动作信息包括相机固定轨迹平移信息、旋转角度信息和调整缩放程度信息，并根据得到的固定轨迹平移信息、旋转角度信息和调整缩放程度信息对对应相机进行控制，以实现多目标追踪。本发明实施例的多目标追踪方法应用于多个相机，单目标主动跟踪方法应用于多目标场景时规模膨胀问题和无法对全局观测进行有效整合的问题，同时，团队反馈和个人反馈相结合的反馈结构，提升了模型训练效率和整体性能，使得相机既有单独对目标稳定跟踪的能力，又有团队协作的能力。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明一个实施例的多目标追踪方法的流程图；

图2是本发明一个实施例的得到各目标的观测三维坐标的流程图；

图3是本发明一个实施例的计算估计位置的流程图；

图4是本发明一个实施例的全局观测整合的流程图；

图5是本发明一个实施例的构建反馈矩阵的流程图；

图6是本发明一个实施例的多目标追踪方法的框架示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面将结合说明书附图以及具体的实施方式对本发明实施例的多目标追踪方法进行详细地说明。

图1是本发明一个实施例的多目标追踪方法的流程图。

在本发明的一个实施例中，如图1所示，多目标追踪方法包括：

S1，获取多个相机拍摄的二维图像，并获取相应的深度信息。

具体地，本发明的多目标追踪方法应用于多个相机，多个相机对多个目标进行拍摄，得到拍摄的视频流。获取多个相机拍摄的二维图像，可在获得的视频流中得到多个时间的二维图像。相机为RGB-D相机，还获取拍摄二维图像的相应的深度信息，以用于后续对二维图像中的目标进行坐标对齐。

进一步具体地，一个相机中拍摄的二维图像可包括多个目标，同时，同一个目标也可被多个相机均拍摄到。本发明利用预设目标检测器检测二维图像，得到目标边界框信息，并根据目标边界框信息将每个目标的像素坐标转换为三维空间下的绝对坐标。

S2，利用预设目标检测器检测二维图像，得到目标边界框信息，其中，目标边界框信息包括目标边界框的像素坐标信息。

具体地，预设目标检测器检测相机拍摄的二维图像，检测二维图像中的所有目标，并得到每个目标的目标边界框信息。目标边界框信息包括目标边界框的像素坐标信息。预设目标检测器可采用Yolov4-tiny模型作为轻量化的实时目标检测网络模型，利用Yolov4-tiny模型定位相机拍摄的二维图像的目标位置，并得到目标边界框信息。

进一步具体地，目标边界框信息中的像素坐标为二维坐标，而对目标进行追踪定位需要三维坐标，本发明还对目标边界框的像素坐标进行坐标转换，从而得到各目标的三维世界中的三维坐标。

S3，基于深度信息对相应的目标边界框的像素坐标进行坐标转换，得到各目标的观测三维坐标。

具体地，由于复杂的投影关系以及各相机只能获取部分观测的局限性，直接将目标检测器产生的边界框作为特征输入，强化学习网络将产生大量信息冗余。同时由于缺少全局的目标位置信息，强化学习框架难以在该过程中学习到有效的决策。因此，本发明结合两种方法对全局目标位置做出估计，分别为通过RGB-D相机对环境中各物体观测所得的深度信息直接计算，以及通过逆投影变换基于二维RGB信息运算。两者均基于针孔相机模型原理，通过对环境建模，实现在已知相机内部与外部参数的情况下，将画面中目标运动平面上的任意坐标转换为三维环境下的绝对坐标。

进一步具体地，本发明采用两种方法对目标边界框的像素坐标进行坐标转换，并比较转换结果的精确度，取精确度高的转换结果作为各目标的观测三维坐标。

在本发明的一个实施例中，如图2所示，深度信息包括第一深度信息和第二深度信息，基于深度信息对相应的目标边界框的像素坐标进行坐标转换，得到各目标的观测三维坐标，包括：

S31，获取相机的旋转矩阵、内参矩阵、绝对坐标。

S32，根据旋转矩阵、内参矩阵、绝对坐标和第一深度信息对目标边界框的像素坐标进行坐标转换，得到各目标的第一三维坐标，其中，第一深度信息根据相机采集的深度图像确定。

S33，根据旋转矩阵、内参矩阵、绝对坐标和第二深度信息对目标边界框的像素坐标进行坐标转换，得到各目标的第二三维坐标，其中，第二深度信息根据旋转矩阵、内参矩阵和绝对坐标确定。

S34，分别计算第一三维坐标和第二三维坐标与估计位置的偏差，并将偏差较小者对应的三维坐标作为观测三维坐标。

具体地，对相应的目标边界框的像素坐标进行坐标转换，即将像素坐标转换到三维绝对坐标。首先，对环境进行建模，假设运动目标在同一平面上运动，将目标运动平面定位为z平面，z轴垂直于该平面，定义x和y轴垂直于z轴并相互垂直，从而获得环境中的绝对坐标系。而通过目标检测器获得的画面帧中的目标位置可用像素坐标定位。则根据投影变换原理，绝对坐标系的任意坐标/>均存在相应的相机2D像素坐标。

进一步具体地，像素坐标和绝对坐标系的任意坐标之间的关系式为，其中，/>为深度信息，P为相机的旋转矩阵，K为相机的内参矩阵，V_C为相机在绝对坐标系下的坐标。所以，为对相应的目标边界框的像素坐标进行坐标转换，首先需要获取相机的旋转矩阵P、内参矩阵K、绝对坐标V_C，相机的旋转矩阵P由相机的绝对角度决定，可直接获取。相机的内参矩阵K的计算公式如下所示：

其中，是X轴方向上焦距的长度，/>是Y轴方向上焦距的长度，/>是主点的实际位置，单位均为像素。相机的内参矩阵K可利用相机标定法获得，内参矩阵的参数在相机进行平移或旋转运动中保持不变。

获取相机的旋转矩阵P、内参矩阵K、绝对坐标V_C之后代入像素坐标和绝对坐标系的任意坐标之间的关系式，本发明采用两种计算方式计算其中的深度信息d_i，并计算对应的三维坐标，选取误差小的对应的三维坐标为目标全局坐标。

深度信息包括第一深度信息和第二深度信息，记第一深度信息为，第二深度信息为/>，第一深度信息/>根据相机采集的深度图像确定，即第一深度信息/>由RGB-D相机粗略测得，若使用RGB-D相机测得第一深度信息/>，将第一深度信息/>代入坐标转换公式，计算得到对应的三维坐标，记利用第一深度信息计算得到的各目标的三维坐标为第一三维坐标。除了采用RGB-D相机直接测的深度信息之外，还可以采用逆投影法获取深度信息，记利用逆投影法获取深度信息为第二深度信息/>，逆投影变换方法中，我们则关注运动目标与运动平面的交点，即边界框下边的中点，并通过计算的方式得到第二深度信息/>。

在本发明的一个实施例中，通过下式计算第二深度信息：

其中，为相机i对应的第二深度信息，P为旋转矩阵，K为内参矩阵，/>为相机i的绝对坐标。

具体的，由于目标运动平面被定位为z平面，该点的绝对坐标始终保持为0。在满足该条件的情况下，可对投影变换公式简化及转换，从而得到，其中，/>为相机i对应的第二深度信息，P为旋转矩阵，K为内参矩阵，/>为相机i的绝对坐标，旋转矩阵、内参矩阵和绝对坐标均为已知量，代入上式计算得到每个相机对应的第二深度信息/>，将其代入坐标转换公式，计算得到对应的三维坐标，记利用第二深度信息计算得到的各目标的三维坐标为第二三维坐标。

在本发明的一个实施例中，通过下式计算第一三维坐标和第二三维坐标：

其中，为相机i对应的目标j的第一三维坐标，/>为相机i对应的目标j的第二三维坐标，/>为相机i对应的第一深度信息，/>为相机i对应的目标j的像素坐标。

具体的，相机的个数为i，总共有j个目标，相机拍摄的画面中可能会不止一个目标，对相机拍摄画面中的所有目标均进行两种方法的坐标转换。第一种方法利用RGB-D相机获取的第一深度信息进行坐标转换，即根据旋转矩阵、内参矩阵、相机i的绝对坐标和相机i对应的第一深度信息对目标边界框的相机i对应的目标j的像素坐标进行坐标转换，得到各目标的第一三维坐标。第一深度信息/>乘以旋转矩阵的逆阵/>，再乘以相机内参矩阵的逆阵/>，再乘以相机i对应的目标j的像素坐标/>，最后加上相机i的绝对坐标/>，得到相机i对应的目标j的第一三维坐标/>。第二种方法利用逆投影法计算得到的第二深度信息/>进行坐标转换，即根据旋转矩阵、内参矩阵、相机i的绝对坐标和相机i对应的第二深度信息对目标边界框的相机i对应的目标j的像素坐标进行坐标转换，得到各目标的第二三维坐标。同理，第二深度信息/>乘以旋转矩阵的逆阵/>，再乘以相机内参矩阵的逆阵/>，再乘以相机i对应的目标j的像素坐标/>，最后加上相机i的绝对坐标/>，得到相机i对应的目标j的第二三维坐标/>。

两种方法在不同应用条件下互有优劣，其中，利用RGB-D相机直接测量的方法对于RGB-D相机的精度要求较高。在实际应用中，在测量一些特殊材质的物体，如深黑色物体、表面光滑物体或半透明物体时精度较低，但RGB-D相机直接测量的方法能够克服纯视觉检测方法中对于缺乏纹理、光照不足或过度曝光时准确度不高的弱点。而逆投影变换的方法则更加依赖视觉检测方法得到的边界框的准确性，因此受光照因素影响较高，但不受目标物理材质的影响。此外，逆投影变换方法在处理画面中可能会出现不完整的目标（例如：仅出现半身的目标、被遮挡的目标，容易出现较大误差）。为综合利用两种方法，本发明的坐标转换方法通过比较以上两种方法的计算得到的第一三维坐标分别与和估计位置间的偏差，采用偏差较小者对应的三维坐标作为最终结果，即观测三维坐标。

在本发明的一个实施例中，如图3所示，估计位置通过如下方式得到：

S341，获取目标在当前时刻的第三三维坐标和在前一时刻的第四三维坐标。

S342，根据第三三维坐标和第四三维坐标计算得到估计三维坐标，作为估计位置。

具体地，计算估计位置时，假定目标j在相邻两帧的运动方向和速度不变，可根据目标在当前时刻和在前一时刻的这两帧画面中的目标位置推算得到。获取目标在当前时刻t的第三三维坐标，和在前一时刻t-1的第四三维坐标。根据第三三维坐标和第四三维坐标计算得到估计三维坐标，将估计三维坐标作为估计位置。

在本发明的一个实施例中，通过下式计算得到估计三维坐标：

其中，为目标j对应的估计三维坐标，/>为目标j对应的第三三维坐标，/>为目标j对应的第四三维坐标。

具体地，假设目标j在相邻两帧的运动方向和速度不变，记在当前时刻t的第三三维坐标为，在其前一时刻t-1的第四三维坐标/>，单位时间为1，根据路程和速度的关系式得到估计三维坐标/>，将估计三维坐标/>作为估计位置。

进一步具体地，分别计算第一三维坐标和估计三维坐标/>之间的偏差，其中，该偏差为绝对值数，取偏差较小者对应的三维坐标为最终坐标结果，即观测三维坐标。确定观测三维坐标之后，对每个相机中的目标的位置进行全局观测整合。

S4，对每个相机对应的各目标的观测三维坐标进行全局观测整合。

具体地，得到每个相机对应的各目标的观测三维坐标之后，将所有的相机中各目标的观测三维坐标整合到一起，即进行全局观测整合。在坐标转换之后，相机的原始像素信息已被整合为全局目标位置信息。接下来是如何学习策略，以使各相机可基于全局目标位置信息得到每一帧应采取的动作，实现动态地多目标跟踪，使得尽可能多的目标持续覆盖在所有相机的共同视野范围中。为此，本发明将该问题定义为部分可观察的多智能体马尔可夫决策过程，其包含一系列的状态矩阵，观测矩阵，动作矩阵和反馈矩阵，并通过多智能体强化学习框架进行训练以得到策略模型。

在本发明的一个实施例中，如图4所示，对每个相机中的各目标的观测三维坐标进行全局观测整合，包括：

S41，获取各相机的姿态信息，其中，姿态信息包括位置信息、角度信息和缩放程度信息。

S42，根据各目标的目标边界框信息和各相机的姿态信息构建状态矩阵，根据各目标的观测三维坐标和各相机的姿态信息构建观测矩阵，根据全局覆盖率、边界框大小、覆盖数量、偏航角误差和重叠区域构建反馈矩阵，并构建相机的动作矩阵。

具体地，获取各相机的姿态信息，姿态信息包括相机的位置信息、角度信息和缩放程度信息。根据各目标的目标边界框信息和各相机的姿态信息构建状态矩阵，记状态矩阵为S。

因为该问题是部分可观察的，相机无法获得所有状态信息，因此根据各目标的观测三维坐标和各相机的姿态信息构建观测矩阵，记观测矩阵为O，观测矩阵O包括相机视野中的经目标检测器检测和坐标转换获得的目标全局近似位置和各相机姿态信息。构建相机的动作矩阵A，动作矩阵A为各相机可采取的动作，包括沿固定轨迹平移，旋转以及调整缩放程度。本发明考虑多方面影响因素设计反馈矩阵，根据全局覆盖率、覆盖数量、边界框的大小、偏航角误差和相机的重叠区域设计反馈矩阵，记反馈矩阵为R。

为兼顾每个相机的单独对目标稳定跟踪的能力和团队协作的能力，本发明设计反馈矩阵由全局反馈矩阵和个体反馈矩阵两部分构成。

在本发明的一个实施例中，如图5所示，根据全局覆盖率、边界框大小、覆盖数量、偏航角误差和重叠区域构建反馈矩阵，包括：

S421，根据全局覆盖率构建全局反馈矩阵。

S422，根据边界框大小、覆盖数量、偏航角误差和重叠区域构建个体反馈矩阵。

S423，根据全局反馈矩阵和个体反馈矩阵构建反馈矩阵。

具体的，根据全局覆盖率构建全局反馈矩阵，全局反馈矩阵为使所有的目标j都能够被拍摄到。全局覆盖率表达式可为，/>为可见性的标志，当相机i中的目标j通过上述方法计算得到的目标边界框的面积大于预设阈值时，判定该目标为可见的，为1，否则为0，J为目标的总数。

进一步具体地，根据边界框大小、覆盖数量、偏航角误差和重叠区域构建个体反馈矩阵。个体反馈矩阵为从边界框大小、覆盖数量、偏航角误差和重叠区域四个角度因素反馈的加权之和。首先，边界框应该有足够的大小以满足追踪需求。相机应尽可能覆盖最多的目标数量，可采用平均覆盖率作为参考指标。并且，对于单个相机而言，应该确保至少捕捉到一个目标，并使其保持在视野中心位置，还设计了偏航角误差反馈。在相机追踪时，相机与相机之前的重叠区域越小越好，本发明还设置了重叠区域反馈。这四种反馈的加权之和即为个体反馈矩阵。以上四种角度的反馈可分别通过计算目标边界框面积和大小、当前相机画面中的目标个数和相机方向与目标方向之间的偏航角上的角度误差等计算得到，重叠区域反馈可通过当前相机和其他相机观测范围的重合范围计算得到。

在本发明的一个实施例中，通过下式计算重叠区域：

其中，为相机i的重叠区域，/>为相机i的视野观测范围，/>为除相机i外的任意其他相机k的视野观测范围，IoU为交并比。

具体地，通过上式计算得到相机i的重叠区域反馈，将重叠区域反馈与其他三种的个体反馈加权得到个体反馈矩阵。在将个体反馈矩阵与全局反馈矩阵加权得到总的反馈矩阵R。本发明设计个人反馈与团体反馈加权的反馈结构，这一结构避免了只将全局覆盖率作为唯一的反馈的局限性，使得相机既有单独对目标稳定跟踪的能力，又有团队协作的能力，相机能够对目标进行具体稳定的跟踪。

对每个相机对应的各目标的观测三维坐标进行全局观测整合之后，将整合结果输入至预设强化学习网络模型中，并进行训练，以输出各相机动作信息。

S5，将整合结果输入至预设强化学习网络模型中，输出各相机动作信息，并根据动作信息对相应的相机进行控制，以实现多目标跟踪。

在本发明的一个实施例中，将整合结果输入至预设强化学习网络模型中，包括：将状态矩阵、观测矩阵、反馈矩阵和动作矩阵输入至预设强化学习网络模型中。

具体地，将构建的状态矩阵S、观测矩阵O、反馈矩阵R和动作矩阵A输入至预设强化学习网络模型中，对相机模型的进行训练，输出各相机动作信息，并根据和相机的动作信息对对应的相机进行控制，实现多目标跟踪。

在本发明的一个实施例中，预设强化学习网络模型包括Q值网络，动作信息包括相机固定轨迹平移信息、旋转角度信息和调整缩放程度信息。

具体地，可采用强化学习中的深度Q值网络对当前状态矩阵S和动作矩阵A的Q值进行估计，得到Q函数Q(s,a)，输出最大Q值对应动作信息。其中，强化学习网络为中心化架构，以全局坐标信息及相机位置信息作为输入，各智能体共享同一参数。在训练阶段，强化学习网络可采用最小化时序差分损失函数进行优化，作为一个示例，使用双Q值学习(Double Q-learning)方法，即最小化下式的损失函数：

其中为预测Q值使用的Q函数网络，/>由/>的参数定期复制得到。/>为t时刻的损失值，/>与/>分别为当前时刻t和下一时刻t+1的环境状态，/>为当前选择的动作，/>为选择该动作后获得的反馈，/>为折扣系数。式中用/>一项表示使/>值最大的动作。

经过预设强化学习网络模型训练之后，输出最大Q值对应的各相机的动作信息，各相机的动作信息包括相机固定轨迹平移信息、旋转角度信息和调整缩放程度信息，并根据得到的固定轨迹平移信息、旋转角度信息和调整缩放程度信息对对应相机进行控制，以实现多目标追踪。

图6是本发明一个实施例的多目标追踪方法的框架示意图。

首先对RGB-D相机拍摄的二维RGB图像进行目标检测，可采用目标检测器对二维RGB图像进行目标检测，得到目标边界框位置信息，并在RGB-D相机拍摄的深度图像中提取深度信息，本发明采用两种坐标转换方式获取全局坐标，第一种是直接根据RGB-D相机测得的深度信息，第二种是通过逆投影变换得到的深度信息，采用两种方法分别计算得到对应的目标三维坐标，并比较两种方法的的偏差，取偏差较小者对应的三维坐标为观测三维坐标，对各相机中的所有目标的观测三维坐标进行全局整合，根据观测三维坐标和各相机的姿态信息构建状态矩阵，观测矩阵，动作矩阵和反馈矩阵，将其输入至预设强化学习网络模型，进行训练之后，输出各相机的动作信息，各相机的动作信息包括相机固定轨迹平移信息、旋转角度信息和调整缩放程度信息，并根据得到的固定轨迹平移信息、旋转角度信息和调整缩放程度信息对对应相机进行控制，以实现多目标追踪。本发明解决了单目标主动跟踪方法应用于多目标场景时规模膨胀问题和无法对全局观测进行有效整合的问题，同时，团队反馈和个人反馈相结合的反馈结构，提升了模型训练效率和整体性能，使得相机既有单独对目标稳定跟踪的能力，又有团队协作的能力。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多目标追踪方法，其特征在于，所述方法包括：

获取多个相机拍摄的二维图像，并获取相应的深度信息；

利用预设目标检测器检测所述二维图像，得到目标边界框信息，其中，所述目标边界框信息包括目标边界框的像素坐标信息；

基于所述深度信息对相应的目标边界框的像素坐标进行坐标转换，得到各目标的观测三维坐标；

对每个所述相机对应的各所述目标的观测三维坐标进行全局观测整合；

将整合结果输入至预设强化学习网络模型中，输出各所述相机的动作信息，并根据所述动作信息对相应的相机进行控制，以实现多目标跟踪；

其中，所述深度信息包括第一深度信息和第二深度信息，所述基于所述深度信息对相应的目标边界框的像素坐标进行坐标转换，得到各目标的观测三维坐标，包括：

获取相机的旋转矩阵、内参矩阵、绝对坐标；

根据所述旋转矩阵、所述内参矩阵、所述绝对坐标和所述第一深度信息对所述目标边界框的像素坐标进行坐标转换，得到各目标的第一三维坐标，其中，所述第一深度信息根据所述相机采集的深度图像确定；

根据所述旋转矩阵、所述内参矩阵、所述绝对坐标和所述第二深度信息对所述目标边界框的像素坐标进行坐标转换，得到各目标的第二三维坐标，其中，所述第二深度信息根据所述旋转矩阵、所述内参矩阵和所述绝对坐标确定；

分别计算所述第一三维坐标和所述第二三维坐标与估计位置的偏差，并将偏差较小者对应的三维坐标作为所述观测三维坐标；

其中，所述对每个所述相机中的各所述目标的观测三维坐标进行全局观测整合，包括：

获取各所述相机的姿态信息，其中，所述姿态信息包括位置信息、角度信息和缩放程度信息；

根据各所述目标的目标边界框信息和各所述相机的姿态信息构建状态矩阵，根据各所述目标的观测三维坐标和各所述相机的姿态信息构建观测矩阵，根据全局覆盖率、边界框大小、覆盖数量、偏航角误差和重叠区域构建反馈矩阵，并构建相机的动作矩阵；

其中，通过下式计算重叠区域：

2.根据权利要求1所述的多目标追踪方法，其特征在于，通过下式计算所述第二深度信息：

其中，为相机i对应的第二深度信息，P为所述旋转矩阵，K为所述内参矩阵，为所述相机i的绝对坐标。

3.根据权利要求2所述的多目标追踪方法，其特征在于，通过下式计算所述第一三维坐标和所述第二三维坐标：

4.根据权利要求1所述的多目标追踪方法，其特征在于，所述估计位置通过如下方式得到：

获取目标在当前时刻的第三三维坐标和在前一时刻的第四三维坐标；

根据所述第三三维坐标和所述第四三维坐标计算得到估计三维坐标，作为所述估计位置。

5.根据权利要求4所述的多目标追踪方法，其特征在于，通过下式计算得到所述估计三维坐标：

其中，为目标j对应的估计三维坐标，/>为所述目标j在当前时刻t对应的第三三维坐标，/>为所述目标j在前一时刻t-1对应的第四三维坐标。

6.根据权利要求1所述的多目标追踪方法，其特征在于，所述根据全局覆盖率、边界框大小、覆盖数量、偏航角误差和重叠区域构建反馈矩阵，包括：

根据所述全局覆盖率构建全局反馈矩阵；

根据所述边界框大小、所述覆盖数量、所述偏航角误差和所述重叠区域构建个体反馈矩阵；

根据所述全局反馈矩阵和所述个体反馈矩阵构建所述反馈矩阵。

7.根据权利要求1所述的多目标追踪方法，其特征在于，所述将整合结果输入至预设强化学习网络模型中，包括：

将所述状态矩阵、所述观测矩阵、所述反馈矩阵和所述动作矩阵输入至所述预设强化学习网络模型中。

8.根据权利要求7所述的多目标追踪方法，其特征在于，所述预设强化学习网络模型包括Q值网络，所述动作信息包括相机固定轨迹平移信息、旋转角度信息和调整缩放程度信息。