CN112132136A

CN112132136A - 一种目标跟踪方法和装置

Info

Publication number: CN112132136A
Application number: CN202010955288.3A
Authority: CN
Inventors: 王凯; 薛景涛; 贺亚农; 陈辰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-25

Abstract

本申请实施例提供了一种目标跟踪方法和装置，能够在摄像装置采集的第T帧图像中生成采样框，采样框内包含目标人脸的第一兴趣区域，在第T帧图像中对采样框进行循环移位，以得到n个训练样本，每个训练样本对应一个分类标签，使用n个训练样本及其对应的分类标签训练一个非线性分类器，非线性分类器用于对输入的样本输出其与第一兴趣区域的响应程度，在第T+1帧图像中对采样框进行循环移位，以得到n个移位样本，使用非线性分类器从n个移位样本中确定与第一兴趣区域响应程度最高的目标样本，并根据目标样本更新第一兴趣区域，根据第一兴趣区域的位置调整摄像装置的视角。该技术方案能够适应摄像装置视野中有多个人脸和高动态等场景，鲁棒性强。

Description

一种目标跟踪方法和装置

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种目标跟踪方法和装置。

背景技术

机器人一般可以指的是具有半自主或全自主工作的能力，并且完成服务于人类工作的人造设备，例如个人或家庭使用的家用机器人、酒店内的送餐机器人、医院等场所的导诊机器人、银行大厅的迎宾机器人和公共场所的安保机器人等。

机器人利用其摄像装置采集用户图像，判断用户的位置，根据用户的位置调整摄像装置的方向，以期望在与用交互时使摄像装置始终朝向用户，实现对用户进行目标跟踪。然而目前基于摄像装置实现目标跟踪的方法在实际应用中还存着鲁棒性差的问题。例如：当有多人进入到摄像装置视野中时，机器人会检测到多个人脸，从而无法区分出哪个人脸是要追踪的人脸，从而导致目标跟踪失败；另外，当目标只有部分身体位于摄像装置视野中或者目标背对或侧脸面对机器人时，可能使机器人无法检测到人脸，从而导致目标跟踪失败时，可能导致摄像装置无法跟踪到目标；另外，当目标人脸被非目标遮挡时，机器人会直接跟踪非目标的人脸，导致目标跟踪失败。

发明内容

本申请实施例提供了一种目标跟踪方法和装置，能够提高使用摄像装置进行目标跟踪时的鲁棒性。

第一方面，本申请实施例提供了一种目标跟踪方法，包括：在摄像装置采集的第T帧图像中，确定至少一个第一人体框，每个第一人体框关联一个身份标识；从至少一个第一人体框中，确定与第一兴趣区域关联的第一目标人体框，第一目标人体框的宽度范围覆盖第一兴趣区域；在摄像装置采集的第T+1帧图像中，确定至少一个第二人体框，每个第二人体框关联一个身份标识；从至少一个第二人体框中，确定与第一兴趣区域关联的第二目标人体框，第二目标人体框的宽度范围覆盖第一兴趣区域；判断第一目标人体框的身份标识与第二目标人体框的身份标识是否相同；如果不相同，将摄像装置的视野保持在第一目标人体框的区域；如果相同，将摄像装置的视野调整至第二目标人体框的区域。

由以上技术方案可知，本申请实施例能够将被跟踪目标的目标人脸与其人体框建立关联，通过人体框对目标进行跟踪，当检测到目标人脸被遮挡时，本装置可以控制摄像装置保持在目标之前的人体框所在的区域，这样就可以在遮挡接触之后，继续跟踪目标，防止目标丢失。本申请实施例提供的方法通过在不同图像帧中匹配人体框的身份标识辨别目标，只需要跟踪图像的人体框区域，不需要对整个图像进行复杂的特征提取、神经网络计算等操作，因此能够在计算能力有限的机器人设备中运行，使计算能力有限的机器人设备也能够具备准确的目标跟踪能力。

在一种可选择的实现方式中，在摄像装置采集的第T帧图像中，确定至少一个第一人体框，每个人体框关联一个身份标识，包括：当第T帧图像是包含多个第一人体框的第一帧图像时，为每个第一人体框关联一个身份标识。这样，根据身份标识，就可以确定同一个人体框在不同图像帧中的位置。

在一种可选择的实现方式中，在摄像装置采集的第T+1帧图像中，确定至少一个第二人体框，每个第二人体框关联一个身份标识，包括：根据至少一个第一人体框在第T帧图像中的位置和估计的人体运动速度，估计至少一个第二人体框在第T+1帧图像中的位置；确定至少一个第一人体框与至少一个第二人体框之间的一一对应的关联关系；根据关联关系确定至少一个第二人体框和身份标识。由此，基于上述关联关系，本方法可以准确地检测各个人体框在不同图像中的位置和身份标识。

在一种可选择的实现方式中，确定至少一个第一人体框与至少一个第二人体框之间的一一对应的关联关系，包括：建立用于根据至少一个第一人体框第T帧图像中的位置估计至少一个第二人体框在第T+1帧图像中的位置预测值的观测方程，以及，建立用于表达至少一个第二人体框在第T+1帧图像中的位置观测值的状态方程。根据位置预测值和位置观测值构建代价矩阵，代价矩阵表示将位置预测值和位置观测值进行匹配时的损失代价。根据预设的最优匹配算法求得代价矩阵的最优匹配解，最优匹配解包括位置预测值和位置观测值之间的最优匹配关系。根据最优匹配关系确定至少一个人体框在第T帧图像和第T+1帧图像中的关联关系。

在一种可选择的实现方式中，根据关联关系确定至少一个第二人体框和身份标识，包括：根据关联关系求解观测方程和状态方程，以确定至少一个第二人体框和身份标识。

在一种可选择的实现方式中，该方法还包括：在第T帧图像中生成采样框，采样框内包含第一兴趣区域。在第T帧图像中对采样框进行循环移位，以得到n个训练样本，每个训练样本对应一个分类标签，n为大于1的正整数。使用n个训练样本及其对应的分类标签训练一个非线性分类器，非线性分类器用于对输入的样本输出其与第一兴趣区域的响应程度。在第T+1帧图像中对采样框进行循环移位，以得到n个移位样本。使用非线性分类器从n个移位样本中确定与第一兴趣区域响应程度最高的目标样本，并根据目标样本更新第一兴趣区域。根据第一兴趣区域的位置调整摄像装置的视角。由此，本申请实施例能够以目标人脸的第一兴趣区域作为目标跟踪的关注区域，对摄像装置的视野要求小，需要跟踪的数据量少，响应速度快，对设备的计算能力要求低。并且，根据摄像装置每秒钟生成图像帧数量的不同，本申请实施例每秒钟能够进行几十次甚至上百次的目标跟踪，能够适应摄像装置视野中有多个人脸、目标位置快速变化、目标只有部分身体位于摄像装置视野等各种场景，鲁棒性强。

在一种可选择的实现方式中，在摄像装置采集的第T帧图像中生成采样框，采样框内包含第一兴趣区域，包括：利用人脸识别算法从第T帧图像识别第一兴趣区域，以第一兴趣区域的中心点为中心，对第一兴趣区域的面积进行扩充预设倍数得到采样框。这样，采样框内能够包含目标人脸的第一兴趣区域和目标人脸之外的区域，便于后续利用方向梯度直方图特征提取人脸边缘的梯度特征。

在一种可选择的实现方式中，分类标签的取值范围在0～1之间，并且n个训练样本的分类标签的数值基于训练样本与第一兴趣区域之间的距离呈高斯分布。通过高斯分布，当训练样本与第一兴趣区域之间的距离接近到一定程度时，分类标签的数值迅速增大，从而突出这些训练样本的权重，有利于提高非线性分类器的分类效果。

在一种可选择的实现方式中，使用n个训练样本及其对应的分类标签训练一个非线性分类器，包括：对训练样本提取特征向量，特征向量包括训练样本的方向梯度直方图特征，将提取自n个训练样本的n个特征向量通过核函数映射到高维特征空间，并使用非线性分类器进行线性回归，以训练非线性分类器的权重。特征向量是一个非线性特征，通过核函数可以将其映射到高维特征空间成为线性特征，以便于线性回归，从而提高计算效率。

在一种可选择的实现方式中，对训练样本提取特征向量，特征向量包括训练样本的方向梯度直方图特征，包括：将训练样本分割成预设数量的像素块，对于每个像素块的每个颜色通道，在预设的f个方向上计算梯度值，以及，对于每个像素块计算j个与方向无关的梯度值，将对于所有像素块计算得到的所有梯度值拼接成特征向量。这样，特征向量包含了一部分与方向有关的特征和一部分与方向无关的特征，其表达的特征更丰富，有利于提高训练后的非线性分类器的分类准确性。

在一种可选择的实现方式中，根据第一兴趣区域的位置调整摄像装置的视角，包括：计算第一兴趣区域的像素中心点与图像中心点的偏差，根据偏差确定摄像装置的转动参数，转动参数包括转动速度，根据转动参数转动摄像装置，以使第一兴趣区域位于摄像装置视野的指定位置。这样，本方法能够根据第一兴趣区域的像素中心点与图像中心点的偏差实现对摄像装置旋转速度的调节，有效解决高动态场景下的目标跟踪问题，使摄像装置始终朝向跟踪目标。

在一种可选择的实现方式中，偏差包括像素距离偏差，以及与摄像装置的尺度信息和焦距相关的空间距离偏差，偏差为像素距离偏差和空间距离偏差的加权和。这样，可以在偏差中同时引入摄像装置的空间位置信息和图像的像素信息，有利于提高速度控制的精度。

第二方面，本申请实施例提供了一种目标跟踪装置，包括存储器和处理器，存储器包括有程序指令，程序指令被处理器运行时，使得装置用于执行如下步骤：在摄像装置采集的第T帧图像中确定至少一个第一人体框，每个第一人体框关联一个身份标识；从至少一个第一人体框中，确定与第一兴趣区域关联的第一目标人体框，第一目标人体框的宽度范围覆盖第一兴趣区域；在摄像装置采集的第T+1帧图像中，确定至少一个第二人体框，每个第二人体框关联一个身份标识；从至少一个第二人体框中，确定与第一兴趣区域关联的第二目标人体框，第二目标人体框的宽度范围覆盖第一兴趣区域；判断第一目标人体框的身份标识与第二目标人体框的身份标识是否相同；如果不相同，将摄像装置的视野保持在第一目标人体框的区域；如果相同，将摄像装置的视野调整至在第二目标人体框的区域。

由以上技术方案可知，本申请实施例能够将被跟踪目标的目标人脸与其人体框建立关联，通过人体框对目标进行跟踪，当检测到目标人脸被遮挡时，本方法可以控制摄像装置保持在目标之前的人体框所在的区域，这样就可以在遮挡接触之后，继续跟踪目标，防止目标丢失。本申请实施例提供的方法通过在不同图像帧中匹配人体框的身份标识辨别目标，只需要跟踪图像的人体框区域，不需要对整个图像进行复杂的特征提取、神经网络计算等操作，因此能够在计算能力有限的机器人设备中运行，使计算能力有限的机器人设备也能够具备准确的目标跟踪能力。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现在摄像装置采集的第T帧图像中，确定至少一个第一人体框，每个第一人体框关联一个身份标识：当第T帧图像是包含多个第一人体框的第一帧图像时，为每个人体框关联一个身份标识。这样，根据身份标识，就可以确定同一个人体框在不同图像帧中的位置。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现在摄像装置采集的第T+1帧图像中，确定至少一个第二人体框，每个第二人体框关联一个身份标识：根据至少一个第一人体框在第T帧图像中的位置和估计的人体运动速度，估计至少一个第二人体框在第T+1帧图像中的位置；确定至少一个第一人体框与至少一个第二人体框之间的一一对应的关联关系；根据关联关系确定至少一个第二人体框和身份标识。由此，基于上述关联关系，本方法可以准确地检测各个人体框在不同图像中的位置和身份标识。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现确定至少一个第一人体框与至少一个第二人体框之间的一一对应的关联关系：建立用于根据至少一个第一人体框第T帧图像中的位置估计至少一个第二人体框在第T+1帧图像中的位置预测值的观测方程，以及，建立用于表达至少一个第二人体框在第T+1帧图像中的位置观测值的状态方程。根据位置预测值和位置观测值构建代价矩阵，代价矩阵表示将位置预测值和位置观测值进行匹配时的损失代价。根据预设的最优匹配算法求得代价矩阵的最优匹配解，最优匹配解包括位置预测值和位置观测值之间的最优匹配关系。根据最优匹配关系确定至少一个人体框在第T帧图像和第T+1帧图像中的关联关系。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现根据关联关系确定第T+1帧图像中的至少一个人体框和身份标识：根据关联关系求解观测方程和状态方程，以确定第T+1帧图像中的至少一个人体框和身份标识。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤：在第T帧图像中生成采样框，采样框内包含第一兴趣区域。在第T帧图像中对采样框进行循环移位，以得到n个训练样本，每个训练样本对应一个分类标签，n为大于1的正整数。使用n个训练样本及其对应的分类标签训练一个非线性分类器，非线性分类器用于对输入的样本输出其与第一兴趣区域的响应程度。在第T+1帧图像中对采样框进行循环移位，以得到n个移位样本。使用非线性分类器从n个移位样本中确定与第一兴趣区域响应程度最高的目标样本，并根据目标样本更新第一兴趣区域。根据第一兴趣区域的位置调整摄像装置的视角。由此，本申请实施例能够以目标人脸的第一兴趣区域作为目标跟踪的关注区域，对摄像装置的视野要求小，需要跟踪的数据量少，响应速度快，对设备的计算能力要求低。并且，根据摄像装置每秒钟生成图像帧数量的不同，本申请实施例每秒钟能够进行几十次甚至上百次的目标跟踪，能够适应摄像装置视野中有多个人脸、目标位置快速变化、目标只有部分身体位于摄像装置视野等各种场景，鲁棒性强。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现在摄像装置采集的第T帧图像中生成采样框，采样框内包含第一兴趣区域：利用人脸识别算法从第T帧图像识别第一兴趣区域，以第一兴趣区域的中心点为中心，对第一兴趣区域的面积进行扩充预设倍数得到采样框。这样，采样框内能够包含目标人脸的第一兴趣区域和目标人脸之外的区域，便于后续利用方向梯度直方图特征提取人脸边缘的梯度特征。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现使用n个训练样本及其对应的分类标签训练一个非线性分类器：对训练样本提取特征向量，特征向量包括训练样本的方向梯度直方图特征，将提取自n个训练样本的n个特征向量通过核函数映射到高维特征空间，并使用非线性分类器进行线性回归，以训练非线性分类器的权重。特征向量是一个非线性特征，通过核函数可以将其映射到高维特征空间成为线性特征，以便于线性回归，从而提高计算效率。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现对训练样本提取特征向量，特征向量包括训练样本的方向梯度直方图特征：将训练样本分割成预设数量的像素块，对于每个像素块的每个颜色通道，在预设的f个方向上计算梯度值，以及，对于每个像素块计算j个与方向无关的梯度值，将对于所有像素块计算得到的所有梯度值拼接成特征向量。这样，特征向量包含了一部分与方向有关的特征和一部分与方向无关的特征，其表达的特征更丰富，有利于提高训练后的非线性分类器的分类准确性。

在一种可选择的实现方式中，程序指令被处理器运行时，还使得装置用于执行如下步骤，以实现根据第一兴趣区域的位置调整摄像装置的视角：计算第一兴趣区域的像素中心点与图像中心点的偏差，根据偏差确定摄像装置的转动参数，转动参数包括转动速度，根据转动参数转动摄像装置，以使第一兴趣区域位于摄像装置视野的指定位置。这样，本方法能够根据第一兴趣区域的像素中心点与图像中心点的偏差实现对摄像装置旋转速度的调节，有效解决高动态场景下的目标跟踪问题，使摄像装置始终朝向跟踪目标。

第三方面，本申请实施例提供了一种机器人，该机器人包括摄像装置和本申请实施例第二方面及其各个实现方式提供的目标跟踪装置。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面及其各个实现方式的方法。

第五方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面及其各个实现方式的方法。

第六方面，本申请实施例还提供了一种芯片系统，该芯片系统包括处理器，用于支持上述装置或系统实现上述方面中所涉及的功能，例如，生成或处理上述方法中所涉及的信息。

附图说明

图1是服务机器人的结构示意图；

图2是本申请实施例提供的一种目标跟踪装置的结构示意图；

图3是本申请实施例提供的运动单元驱动摄像装置旋转的示意图；

图4是本申请实施例提供的运动单元驱动摄像装置旋转的示意图；

图5是本申请实施例提供的一种目标跟踪方法的流程图；

图6是人脸识别算法的流程图；

图7是本申请实施例提供的生成采样框的示意图；

图8是本申请实施例提供的对采样框进行循环移位的示意图；

图9是本申请实施例示出的训练样本与第一兴趣区域之间的距离的示意图；

图10是本申请实施例提供的一种目标跟踪方法步骤S103的流程图；

图11是本申请实施例提供的一种目标跟踪方法步骤S201的流程图；

图12是本申请实施例示出的生成特征向量的示意图；

图13是本申请实施例示出的确定目标样本的示意图；

图14是本申请实施例提供的一种目标跟踪方法步骤S106的流程图；

图15是本申请实施例示出的转动速度的示意图；

图16是本申请实施例提供的一种目标跟踪方法的另一个流程图；

图17是本申请实施例示出的人体框的示意图；

图18是本申请实施例提供的一种目标跟踪方法步骤S108的流程图；

图19是本申请实施例示出的跟踪对象可能被其他人体遮挡时的示意图；

图20是本申请实施例提供的一种目标跟踪装置的一个逻辑框图；

图21是本申请实施例提供的一种目标跟踪装置的另一个逻辑框图。

具体实施方式

在对本申请的各实施例进行描述之前，首先对以下将涉及到的技术术语进行解释说明。

卡尔曼滤波：一种递归滤波算法(自回归滤波算法)，它能够从一系列的不完全及包含噪声的测量值中，估计动态系统的当前状态。卡尔曼滤波会根据各测量值在不同时间下的值，考虑各时间下的联合分布，再产生对未知变量的估计，因此比只以单一测量值为基础的估计方式要准确；

匈牙利匹配：一种最优匹配算法，用于找到完成任务分配问题的最小代价；

鲁棒性：原指在异常和危险情况下系统生存的能力，也可以指系统在一定(结构，大小)参数摄动下，维持其它某些性能的特性。在机器人领域大部分指对环境的适应性和系统的可扩展性。

服务机器人是机器人产品系列中的一个较新的种类，一般可以指的是具有半自主或全自主工作的能力，并且完成服务于人类工作的机器人，但不包括从事生产的设备。常见的服务机器人例如：个人或家庭使用的家用机器人、酒店内的送餐机器人、医院等场所的导诊机器人、银行大厅的迎宾机器人和公共场所的安保机器人等。

如图1所示，服务机器人可以采用拟人的造型，包括可以实现在一定角度范围内旋转的头部11。服务机器人的头部11可以包括摄像装置12(例如摄像头)，用于采集图像，还可以包括显示屏13，用于显示与用户的交互信息，例如拟人的表情、需要输出的信息等。对于服务机器人来说，与目标(例如：人类)进行交互的能力是其核心能力，而为了提高用户的交互体验，服务机器人还应该在与目标交互过程中使其摄像装置始终朝向用户，即具备目标跟踪的能力。

目前，机器人的目标跟踪能力可以通过以下三个步骤实现：

步骤a，使用摄像装置采集图像；

步骤b，检测目标是否位于图像的预设区域内；

步骤c，如果图像不位于图像的预设区域内，则转动服务器机器人的头部以调整摄像装置的方向，使得目标出现在图像的预设区域内。

上述步骤a-c实时进行，即可使服务机器人的头部实时面向目标，实现目标追踪。

具体实现中，服务机器人可以通过对图像进行人脸检测判断预览图像中是否有目标在预览图像中。然而，上述方法在实际应用中的鲁棒性差，具体可以表现为：

①当有多人进入到摄像装置视野中时，机器人会检测到多个人脸，从而无法区分出哪个人脸是要追踪的人脸，从而导致目标跟踪失败。

②在机器人与目标进行交互时，机器人与目标之间通常保持一定的交互距离。在不同的交互距离下，目标出现在摄像装置视野中的位置和大小不同。当目标只有部分身体位于摄像装置视野中或者目标背对或侧脸面对机器人时，可能使机器人无法检测到人脸，从而导致目标跟踪失败时，可能导致摄像装置无法跟踪到目标。

③当目标人脸被非目标遮挡时，机器人会直接跟踪非目标的人脸，导致目标跟踪失败。

为解决上述问题，本申请实施例提供了一种目标跟踪方法。

本申请实施例提供的目标跟踪方法可以应用于如图2所示的硬件装置中。如图2所示，该装置包括：摄像装置模块110、运动单元120和主控平台130。

摄像装置模块110可以包括一颗或者多颗摄像头111(或传感器)组成，例如可以包括普通的光学摄像头，也可以是红外摄像头、结构光传感器或飞行时间(time-of-flight，ToF)传感器等。示例地，摄像装置模块110可以仅包括一颗普通的RGB摄像头或红黄黄蓝(red yellow yellow blue，RYYB)摄像头，摄像装置模块也可以包括多颗摄像头或者传感器组成RGB-D深度摄像头方案。示例地，RGB-D深度摄像头方案可以包括两颗RGB摄像头组成双目方案，可以包括一颗RGB摄像头和一颗结构光传感器组成结构光方案，也可以是包括一颗RGB摄像头和一颗ToF传感器组成ToF方案，本申请实施例对此不做具体限定。另外，摄像头111可以是定焦摄像头，也可以是变焦摄像头，例如具备相位对焦、激光对焦等能力。

运动单元120用于承载摄像头111，并且驱动摄像头111产生旋转。在一个实施例中，运动单元120可以驱动摄像头111产生两自由度旋转，示例地，基于图3示出的摄像头坐标系，Z轴所指的方向为摄像头11正前方，那么上述两自由度旋转可以包括摄像头111以x轴为旋转轴的旋转和摄像头111以y轴为旋转轴的旋转。运动单元120驱动摄像头111产生旋转可以通过舵机或者伺服电机的转动来实现，示例地，当运动单元用于驱动摄像头111产生两自由度旋转时，运动单元120可以包含两个驱动机构driver 1和driver 2，例如两个舵机或者两个伺服电机，其中一个舵机1或者伺服电机1用于控制摄像头111以x轴为旋转轴的旋转，另一个舵机2或者伺服电机2用于控制摄像头111以y轴为旋转轴的旋转。在另一些实施例中，运动单元120可以驱动摄像头111产生三自由度旋转，即在图4示出的摄像头坐标系中，增加摄像头111以z轴为旋转轴的旋转，相应地，运动单元120还可以包含三个驱动机构driver 1、driver 2和driver 3，例如三个舵机或者三个伺服电机，其中一个舵机1或者伺服电机1用于控制摄像头111以x轴为旋转轴的旋转，另一个舵机2或者伺服电机2用于控制摄像头111以y轴为旋转轴的旋转，另一个舵机3或者伺服电机3用于控制摄像头111以z轴为旋转轴的旋转。

主控平台130是该装置的数据处理和控制中心，主控平台130与摄像头模块110和运动单元120建立通信连接，能够接收摄像头111采集的图像数据，对图像数据进行处理，以及向运动单元发送驱动摄像头111产生旋转的指令等。在一些实施例中，主控平台130可以是嵌入式的计算机平台，包括单元不限于基于X86指令集、ARM指令集、RISC-V指令集或者MIPS指令集等设计的计算机芯片和软件系统等。

在一个实施例中，上述计算机芯片例如可以包括处理器131和存储器132，其中，处理器131例如可以包括：中央处理器(central processing unit，CPU)、系统芯片(systemon a chip，SoC)、应用处理器(application processor，AP)、微控制器(microcontroller)、神经网络处理器(Neural-network Processing Unit，NPU)和/或图形处理器(graphics processing unit，GPU)等；存储器132例如可以包括非易失性存储器和易失性存储器，非易失性存储器例如快闪存储器(flash memory)，包括NAND flash、固态硬盘等，易失性存储器例如同步动态随机存取內存(synchronous dynamic random-accessmemory，SDRAM)等。

在一个实施例中，上述软件系统可以包括操作系统以及运行在该操作系统中的程序指令133。当处理器执行上述程序指令时，使得图3或图4所示的装置执行本申请实施例提供的目标跟踪方法的各个步骤。

本申请实施例提供的方法和装置可以应用在各类机器人中，例如：服务机器人、家庭机器人、教育机器人等；也可以应用于监控摄像头、智能摄像头、智能猫眼、智能电视、体感游戏机等各类包含摄像头的设备中，本申请实施例对此不做限定。

图5是本申请实施例提供的一种目标跟踪方法的流程图，如图5所示，该方法可以包括以下步骤：

步骤S101，在摄像装置采集的第T帧图像中生成采样框，采样框内包含目标人脸的第一兴趣区域。

具体实现中，本方法可以对摄像装置其采集到的图像进行人脸识别，以从中确定出被跟踪，目标的目标人脸，进而确定第一兴趣区域。根据本方法的应用场景的不同，确定目标人脸的方式也可以有所不同：

示例1：当本方法应用于教育机器人、家庭机器人时，由于它们的交互对象通常是其所有者，因此目标人脸应该是其所有者的人脸，在这种情况下，人脸识别可以通过一些通用/常用的人脸识别算法来实现，例如：局部二值模式算法(local binary pattern，LBP)、如FaceNet等基于深度神经网络或卷积神经网络的算法等。这些人脸识别算法可以将图像与指定的人脸信息进行特征匹配，从而实现仅将指定人物的人脸作为目标人脸。本申请实施例对采用人脸识别算法识别目标人脸的实现方式不做限定，作为示例地，人脸识别算法可以通过如图6包括人脸检测、人脸对齐、特征描述和特征匹配四个阶段，其中：

人脸检测，用于从图像中准确定位到人脸，并将其裁剪出来；

人脸对齐，用于定位人脸关键部位的特征点，即在人脸区域内，对人脸的眼睛、鼻子等局部关键位置和轮廓进行描述；

特征描述，用于人脸进行特征提取，可以利用上述算法实现；

特征匹配，对两张人脸图像提取的特征向量进行对比，计算相似度。

示例2：当本方法应用于公共场所的服务机器人时，可以将一段时间内第一个出现在摄像装置视野范围中的人作为跟踪目标，将其人脸作为目标人脸；或者，可以在摄像装置上安装麦克风，用于检测人声的位置，从而将正在与服务机器人对话的用户的人脸作为目标人脸。

兴趣区域(region of interest，ROI)，是指在机器视觉和图像处理领域中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域。因此，第一兴趣区域即为从第T帧图像中勾勒出的目标人脸的需要处理区域。示例地，如图7所示，第一兴趣区域为141方框形区域，其可以包括目标人脸142的部分区域或者全部区域，例如包含目标人脸142的眼睛、鼻子、嘴等部位的区域。第一兴趣区域141在使用人脸识别算法检测目标人脸142的过程中即可得到，本申请实施例此不再赘述。

在识别到第一兴趣区域之后，本申请实施例可以继续以第一兴趣区域的中心点为中心，对第一兴趣区域的面积进行扩充预设倍数，得到如图7所示的采样框143。一般来说，扩充的倍数需要大于1，并且扩充之后的采样框不会超出第T帧图像的范围，扩充的倍数的具体数值可以由技术人员自行确定，本申请实施例对此不做限定。作为示例地，扩充的倍数优选可以在2～5倍区间内，例如2倍、3倍、4倍等。

步骤S102，在第T帧图像中对采样框143进行循环移位，以得到n个训练样本，每个训练样本对应一个分类标签，n为大于1的正整数。

图8是本申请实施例提供的对采样框进行循环移位的示意图。如图8所示，本申请实施例中的循环移位是指在第T帧图像中，将采样框143相对于其原本的位置按照一定的方式进行多次移动，使采样框143能够捕获到对应第T帧图像的不同区域的训练样本。可以理解的是，采样框的位置每变化一次都会得到一个训练样本，并且在不同的训练样本中，第一兴趣区域所处的位置不同，使得不同的训练样本能够表达第一兴趣区域位于不同位置时的信息。

作为可选择的实现方式，采样框143在循环移动过程中的移动方式例如可以包括：向左移动、向右移动、向上移动、向下移动或者随机移动等，本申请实施例对此不做限定。

在一个实施例中，为便于计算，训练样本可以为矩阵形态，可以通过使用排列矩阵P对采样框143的初始位置对应的像素值的矩阵x进行循环移位得到，具体可以包括以下步骤：

步骤a，在采样框143的初始位置，提取第T帧图像的像素值，将提取到的像素值表示为矩阵x，该矩阵x即为采样框在初始位置对应的初始矩阵x。

步骤b，通过排列矩阵P，对初始矩阵x进行n-1次循环移位，得到n个训练样本x₁～x_n。

可以理解的是，训练样本x₁～x_n同样为矩阵形态。另外，为了使得不同的训练样本能够表达第一兴趣区域位于采样框不同位置时的信息，在步骤b中，对初始矩阵x的每一次循环移位使用的排列矩阵P是不同的，即有n个排列矩阵P₁-P_n-1，那么，n个训练样本则可以表示为(x_i+1＝P_i·x|i＝1,…,n-1)。

在一个实施例中，上述n个训练样本x₁～x_n可以整合在一起，构成一个循环移位矩阵X：

X＝[x,P₁·x,…,P_n-1·x] ①

在一个实施例中，上述循环移位矩阵X还可以表示以下形式：

其中，其中：F是离散傅里叶矩阵；

表示x的离散傅里叶变换；F^H是F的共轭转置矩阵；

表示

对角矩阵。

下面示出排列矩阵P的一些可实现的形式，供本领域技术人员参考，但需要说明的是，以下示出的排列矩阵P仅作为示例，不构成对排列矩阵P的具体限定。

例如：用于实现向上循环移位的排列矩阵P可以如以下形式：

又例如，用于实现向右循环移位的排列矩阵P可以如以下形式：

另外，本申请实施例还可以为每个训练样本添加一个分类标签，即n个训练样本x₁～x_n共对应添加n个分类标签y₁～y_n，其中，训练样本x₁对应分类标签y₁，训练样本x₂对应分类标签y₂，训练样本x_i对应分类标签y_i，训练样本x_n对应分类标签y_n，以此类推。

在一个实施例中，分类标签y_i(i∈[1，n])可以是一个范围在0～1之间的数值，该数值表示训练样本x_i与第一兴趣区域的响应程度。一般来说，分类标签y_i的数值越大，说明训练样本x_i与第一兴趣区域的响应程度越高，即第一兴趣区域越接近训练样本x_i的中心；分类标签y_i的数值越小，说明训练样本x_i与第一兴趣区域的响应程度越低，即第一兴趣区域越远离训练样本x_i的中心。

在一个实施例中，可以根据训练样本与第一兴趣区域之间的距离设置分类标签的数值。示例地，如图9所示，训练样本x_i的中心点为c1，第一兴趣区域的中心点为c2，c1至c2之间的距离即为训练样本x_i与第一兴趣区域之间的距离Li。

在一个实施例中，训练样本x₁～x_n的分类标签y₁～y_n的数值基于训练样本x₁～x_n与第一兴趣区域之间的距离呈高斯分布，即正态分布。

与上述循环移位矩阵X相对应地，n个分类标签y₁～y_n也可以表示成矩阵Y：

Y＝[y₁,y₂,…,y_n]^T ③

步骤S102的目的是构造一个用于训练非线性分类器的样本集。该样本集包含上述循环移位矩阵X和分类标签对应的矩阵Y，为便于描述，这里将样本集记作S＝[X,Y]。

步骤S103，使用n个训练样本及其对应的分类标签训练一个非线性分类器，非线性分类器用于对输入的样本输出其与第一兴趣区域的相似度。

其中，非线性分类器可以理解为核函数和线性回归函数的组合。其中核函数例如可以是径向基核函数(高斯核函数)、线性核函数、多项式核函数、Sigmoid核函数和复合核函数、傅立叶级数核、B样条核函数和张量积核函数等。核函数的作用是将低维空间线性不可分的问题(分线性问题)通过非线性映射到高维特征空间则可能实现线性可分，并且解决在高维特征空间中计算的“维数灾难”等问题，以利于后续的线性回归计算。

基于非线性分类器的上述结构，如图10所示，步骤S103可以通过以下步骤S201-步骤S202实现：

步骤S201，对训练样本提取特征向量，特征向量包括训练样本的方向梯度直方图特征。

方向梯度直方图特征(Histogram of Oriented Gradient，HOG)在一种在计算机视觉领域中用于物体检测，通过计算图像局部区域的梯度直方图来构成特征的方式。一般来说，在图像中，由于人脸和背景的颜色不同，因此在人脸的边缘处会存在很大的颜色梯度变化，梯度主要位于边缘区域，因此可以通过梯度的方向密度分布来获取边缘信息，进而获取人脸的形状等特征。

在一个实施例中，步骤S201如图11所示，可以包括以下步骤：

步骤S301，将训练样本分割成预设数量的像素块。

一般来说，由于方向梯度直方图特征是一个局部特征，因此如果直接对尺寸较大的训练样本提取方向梯度直方图特征，是得不到很好的效果的。从特征工程的角度看，只有在图像区域比较小时，方向梯度直方图特征对于该图像区域才有表达能力。因此，在提取方向梯度直方图特征之前，首先需要对训练个样本分割成多个尺寸更小的像素块。

具体实现中，如图12所示，可以对训练样本在水平方向分割成m₁块，在垂直方向分割成分割m₂块，从而将训练样本分割成m₂×m₂个矩形的像素块。其中，m₁和m₂均为大于1的正整数，m₁和m₂的数值可以相等也可以不相等。示例地，在图12中，m₁和m₂均为4，因此将训练样本分割成了16个像素块。

另外，需要补充说明的是，对训练样本分割成多个像素块还可以具有不同的分割策略，例如overlap和non-overlap两种分割策略。其中，overlap策略指的是分割出的像素块互相交叠，有重合的区域；non-overlap策略指的是分割出的像素块不交叠，没有重合的区域。overlap分割策略方式可以防止对一些人脸特征的切割，以嘴巴为例，如果分割的时候正好把嘴巴从中间切割并且分到了两个像素块中，那么这两个像素块均无法提取到完整的嘴巴的方向梯度直方图特征，因此影响特征向量的质量，进而影响后续的非线性分类器的训练效果(即non-overlap策略的缺点)。如果在两个像素块之间采用overlap策略，那么至少一个像素块会存在完整的嘴巴的概率相比于overlap策略会更高，有利于提高特征向量的质量。但是，overlap策略的缺点是计算量大，因为重叠区域的像素需要重复计算而，non-overlap策略的优点是计算量小，提高效率。本领域技术人员可以自行选择overlap和/或non-overlap分割策略得到像素块，本申请实施例对此不做限定。

步骤S302，对于每个像素块的每个颜色通道，在预设的m个方向上计算梯度值，以及，对于每个像素块计算j个与方向无关的梯度值。

一般来说，摄像装置采集到的图像可以包含多个色彩通道，例如RGB摄像头拍摄的图像可以包括R通道(红色)、G通道(绿色)和B通道(蓝色)。对于任意像素块，本申请实施例可以分别对其各个色彩通道在f个方向上计算梯度值，f为大于1的正整数。具体实现中，在任意色彩通道上，可以使用任意一种梯度算子(例如：sobel，laplacian等)对像素块进行卷积，以得到每个像素处的梯度方向和幅值。

示例地，每个像素处的梯度方向和幅值例如可以使用以下公式得到：

其中，I_b和I_h代表水平和垂直方向上的梯度值，M(b,h)代表梯度的幅度值，θ(b,h)代表梯度的方向。

进一步地，如图12所示，本申请实施例可以将像素块在[0,180)方向上(或者[0,360°)方向上)等分为f个方向块，例如9个方向块、12个方向块、18个方向块等。以9个方向块为例，每个方向占据20°的方向范围(或者40°的方向范围)，然后分别计算这9个方向块上的梯度，具体可以根据每个像素点的梯度方向，按照双线性内插法或者其他投影方法将各个像素的梯度值累加到各个方向块上，得到各个方向块的梯度值。

通过上述方法，当图像包括3个色彩通道时，对于每个像素块可以得到3f个梯度值。

另外，如图12所示，本申请实施例还可以额外计算j个与方向无关的梯度值，j为正整数。例如，使用交叉的对角线将像素块分割成4个区域，然后分别计算这4个区域上的梯度值，例如将一个区域内的各个像素点的梯度值累加得到这个区域上的梯度值。需要说明的是，这里不需要考虑各个色彩通道，因此，共计能得到j＝4个梯度值。

另外，需要补充说明的是，在步骤S201中，对训练样本的特征的选择不仅限于方向梯度直方图特征HOG，还可以是局部二值模式算法特征LBP、卷积神经网络特征CNN等，也可以是上述一种或者多种特征的组合。另外，对应第T帧图像的训练样本的特征中还可以增加第T+1帧图像或者后续图像帧中对训练样本的位置估计特征等，本申请实施例对此不做限定。

步骤S303，将对于所有像素块计算得到的所有梯度值拼接成特征向量。

示例地，对于三通道的RGB图像，可以拼接得到一个维度为m₁×m₂×(3f+j)的特征向量。当，m₁＝m₂＝4，f＝9，j＝4时，该特征向量的维度为496维，能够很好地描述训练样本的特征。

为便于描述，以下将以x_i来继续描述第i个训练样本的特征性向量。

步骤S202，将提取自n个训练样本的n个特征向量通过核函数映射到高维特征空间，并使用非线性分类器进行线性回归，以训练非线性分类器的权重。

具体实现中，核函数

例如可以是高斯核函数，利用该核函数

可以将非线性的特征向量x_i映射到满足线性关系的高维特征空间中，表示为z，具体计算关系如下：

其中，‖z-x_i‖²可以看作两个特征向量之间的平方欧几里得距离(欧式距离)；δ是一个自由参数，用于控制高斯核函数的局部作用范围，δ越大，z和x_i之间的欧式距离随发生显著变化的区间越大，δ越小，z和x_i之间的欧式距离随发生显著变化的区间越小。δ可以取值为1或者其他经验值，例如0～1之间的数值，如：0.2、0.5、0.8等，或者大于1的数值，如：2、3、5等。

接下来，在将xi通过核函数映射到高维特征空间表示为z之后，则可以使用非线性分类器f(z)进行线性回归，具体计算关系如下：

该分类器f(z)能够通过线性回归的权重W，输出各个样本(包括训练样本和后续的移位样本)相对于第一兴趣区域的响应程度，即相似度。其中，权重

α_i是训练过程中需要求解的线性回归拟合的权重，因此W的最优解即为训练样本x₁～x_n的线性组合，k(z,x_i)表示上述通过高斯核函数的映射(即公式⑥)。通过公式⑦的线性回归过程，可以求得f(z)的封闭解为：

其中，α求得的线性回归拟合的权重矩阵，α的元素为a_i；

表示对X进行核函数映射；I为对角为1的矩阵；λ为常数；K为所有训练样本高维映射后的核相关矩阵，K满足循环矩阵的性质。

接下来，利用公式②与公式⑧联立，可求得：

其中，

表示α的傅里叶变换，

表示Y的傅里叶变换；

表示K矩阵的第一行元素的傅里叶变换。

上述步骤S201和步骤S202即完成了在第T帧图像时，对非线性分类器的训练过程，训练后的非线性分类器能够在后续的图像帧中，输出各个样本(包括训练样本和移位样本)相对于第一兴趣区域的响应程度，从而在后续图像帧中确定与第一兴趣区域响应程度最高的目标样本，并根据目标样本更新第一兴趣区域，并且在后后续的图像帧中，非线性分类器还可以根据其分类结果继续进行训练，以不断优化其权重W和α。

下面继续阐述本申请实施例的其他步骤。

步骤S104，在第T+1帧图像中对采样框进行循环移位，以得到n个移位样本。

具体实现中，可以参照步骤S102中的步骤a和步骤b执行，例如包括：

步骤a，在采样框的初始位置，提取第T+1帧图像的像素值，将提取到的像素值表示为矩阵x’，该矩阵x’即为采样框在初始位置对应的移位样本(矩阵)x’。

步骤b，通过排列矩阵P，对移位样本x进行n-1次循环移位，得到n个移位样本x’₁～x’_n。

可以理解的是，移位样本x’₁～x’_n同样为矩阵形态。在步骤b中，对初始矩阵x’的每一次循环移位使用的排列矩阵P是不同的，即有n个排列矩阵P₁-P_n-1，那么，n个移位样本则可以表示为(x′_i+1＝P_i·x′|i＝1,…,n-1)。

在一个实施例中，上述n个移位样本x’₁～x’_n可以整合在一起，构成一个循环移位矩阵X’：

X′＝[x′,P₁·x′,…,P_n-1·x′] ⑩

步骤S105，使用非线性分类器从n个移位样本中确定与第一兴趣区域响应程度最高的目标样本，并根据目标样本更新第一兴趣区域。

具体实现中，可以将n个移位样本作为非线性分类器的输入，使得非线性分类器通过线性回归的权重W输出各个移位样本相对于第一兴趣区域的响应程度。如图13所示，根据非线性分类器的输出结果，可以从n个移位样本中确定出与第一兴趣区域响应程度最高的目标样本，那么目标样本中心的采样框大小的区域就是新的第一兴趣区域，对应目标人脸在第T+1帧图像中的位置。

步骤S106，根据第一兴趣区域的位置调整摄像装置的视角。

具体实现中，如图14所示，步骤S106可以通过以下步骤S401-步骤S403实现：

步骤S401，计算第一兴趣区域的像素中心点与图像中心点的偏差。

上述第一兴趣区域141的像素中心点c2与图像中心点c的偏差Error如图15所示。

在一个实施例中，当摄像装置使非深度摄像头时，该偏差可以包括像素距离偏差，即第一兴趣区域的像素中心点与图像中心点在图像帧中的像素距离。

在另一个实施例中，当摄像装置使用深度摄像头(例如RGB-D摄像头)时，该偏差可以包括像素距离偏差，以及与摄像装置的尺度信息和焦距相关的空间距离偏差。其中，尺度信息可以理解为在摄像头的视野中测量空间距离所需的参数。

示例地，该偏差可以满足以下公式：

Error＝(1-α)*P_d+α*E_d

其中，第一兴趣区域的像素中心点与图像中心点的Error为偏差；P_d为像素距离偏差，E_d为空间距离偏差；α为权重，其数值范围在0～1之间，用于分配像素距离偏差P_d和空间距离偏差_d中所占的比重，其数值是一个经验值，可以有实施本申请实施例的技术人员自行确定，本申请实施例对其数值不做限定。

示例地，对于像素距离偏差P_d和空间距离偏差E_d，可以通过以下公式得到：

P_d＝X-S

E_d＝(P_d-C_x)*Depth/f_x

其中，X为第一兴趣区域的像素中心点；S为图像的像素中心点；C_x和f_x均为摄像头的内部参数，其中，C_x为摄像头的光心位置，f_x为摄像头对焦在X点时对应的焦距；Depth为视野的深度信息，Depth/f_x表示图像中每个像素在空间中对应的距离。

需要补充说明的是，由于非深度摄像头没有深度信息Depth，因此当使用非深度摄像头时，Depth＝0，E_d＝0，α＝0，偏差Error＝P_d。

步骤S402，根据偏差确定摄像装置的转动参数，转动参数包括转动速度。

具体实现中，转动参数可以由PID控制器(比例-积分-微分控制器)确定。PID控制器可以是软件模块，也可以是设置于主控平台的硬件装置，也可以是软件模块与硬件装置的组合。

PID控制器以偏差Error作为输入参数，输出摄像装置的转动速度，该转动速度如图15所示可以包括摄像装置沿着x轴旋转的第一角速度值ω1和沿着y轴旋转的第二角速度值ω2。

步骤S403，根据转动参数转动摄像装置，以使第一兴趣区域位于摄像装置视野的指定位置。

具体实现中，主控平台可以将PID控制器生成的转动参数发送给运动单元。以运动单元包含伺服电机1和伺服电机2为例：伺服电机1的控制器可以接收第一角速度值，根据第一角速度值确定伺服电机1的转速和旋转方向，并驱动伺服电机1，使得摄像装置产生x轴方向上的旋转；伺服电机2的控制器可以接收第二角速度值，根据第二角速度值确定伺服电机2的转速和旋转方向，并驱动伺服电机2，使得摄像装置产生y轴方向上的旋转。

通过伺服电机1和伺服电机2的旋转，可以调整摄像装置的视角，使得第一兴趣区域位于摄像装置视野的指定位置，一般来说，该指定位置是第一兴趣区域在上一帧图像中的位置或者是摄像装置视野的中心位置或者其他预设的位置，使得摄像装置紧紧跟随目标人脸，实现目标跟踪的目的。

在一些实施例中，在执行步骤S106的调整摄像装置视角的动作还可以基于摄像装置对人体的跟踪结果来实施。具体实现中，本申请实施例的目标跟踪方法如图16所示，还可以包括以下步骤S107-步骤S112：

步骤S107，在第T帧图像中确定至少一个人体框，并且为每个人体框关联一个身份标识，每个人体框对应一个人体区域。

具体实现中，可以使用任意目标检测算法对图像进行人体检测，以从图像中识别出包含人体的第二兴趣区域。这里可以使用的目标检测算法包括但不限于：使用方向梯度直方图特征训练的支持向量机(support vector machine，SVM)分类器模型、YOLO3图像识别模型、CornerNet目标检测模型，或者其他深度学习算法，例如卷积神经网络算法、长短期记忆神经网络算法等，本申请实施例对此不做具体限定。

根据上文对兴趣区域的说明，人体的兴趣区域即为从第T帧图像中勾勒出的人体区域，人体框即人体的兴趣区域的边框。示例地，如图17所示，人体的兴趣区域为矩形区域，其可以包括人体的头部、躯干和四肢，那么人体框即为矩形框。

另外，在步骤S107中，还可以对识别到的人体框添加身份标识。例如，当从第T帧图像中只识别到一个人体框时，可以为这个人体框添加身份标识ID：1，或者不对这个人体框添加身份标识；当从第T帧图像中识别到多个人体框时，如图17所示，可以为每个人体框指定不同的身份标识，例如在第T帧图像中识别到两个人体框时，可以为其中一个人体框添加身份标识ID：1，为另一个人体框添加身份标识ID：2。通常，同一个人的人体框的身份标识是不变的。

步骤S108，从确定自第T帧图像的至少一个人体框中，确定第一兴趣区域关联的第一目标人体框，第一目标人体框的宽度范围覆盖第一兴趣区域的宽度范围。

对于跟踪目标来说，他(她)的第一兴趣区域一般位于他(她)的人体框之内。利用这一特性，可以在第T帧图像中确定与第一兴趣区域同属于跟踪目标的第一目标人体框，然后将第一兴趣区域与第一目标人体框建立关联，也就是将第一兴趣区域与第一目标人体框对应的第一身份标识进行绑定，例如在图17中，第一兴趣区域141关联的第一目标人体框的第一身份标识为ID：1。

具体实现中，考虑到人体检测过程中确定的人体框可能不包含人体的头部或者仅包含部分头部，导致第一目标人体框和第一兴趣区域在高度方向可能会有相交，因此在步骤S108中，仅考虑某个人体框的宽度范围是否包含第一兴趣区域的宽度范围，如果包含，则意味着这个人体框是与第一兴趣区域相关联的第一目标人体框。

步骤S109，在摄像装置采集的第T+1帧图像中，确定至少一个人体框。

具体实现中，步骤S109可以通过对人体框进行目标运动估计和数据关联的方式实现。例如，步骤S108如图18所示可以包括以下步骤：

步骤S501，根据至少一个人体框在第T帧图像中的位置和估计的人体运动速度，建立用于估计至少一个人体框在第T+1帧图像中的位置的观测方程。

具体实现中，对于出现在第T帧图像中的每一个人体框，可以定义一个用于估计其在第T+1帧图像中的位置的状态方程F₁，例如：

其中，u和v表示人体框的中心在第T帧图像的像素平面内的横坐标和纵坐标，s表示在第T帧图像的像素平面内的目标框的尺寸大小，r表示目标框相对空间实际尺寸的比例；

均为预测值，其中，

和

表示人体框的中心在第T+1帧图像的像素平面内的横坐标的预测值和纵坐标的预测值，

表示在第T+1帧图像的像素平面内的目标框的尺寸大小的预测值。

基于上述参数，该状态方程F₁实际表示的是对于在第T帧图像中出现的人体框，以一定的线速度估计其在第T+1帧图像中的位置。

步骤S502，建立用于表达至少一个人体框在第T+1帧图像中的位置观测值的状态方程。

与上述状态方程相对应地，为了求解状态方程F₁中的参数量，设置该状态方程F₁对应的观测方程F₂，例如：

其中，观测方程F₂均为观测值，即从第T+1帧图像中检测到的人体框的位置，例如：

和

表示人体框的中心在第T+1帧图像的像素平面内的横坐标和纵坐标，

表示在第T+1帧图像的像素平面内的目标框的尺寸大小。

步骤S503，根据预设匹配算法确定至少一个人体框在第T帧图像与第T+1帧图像之间的一一对应的关联关系，根据关联关系求解观测方程和状态方程，以更新至少一个人体框在第T+1帧图像中的位置和身份标识。

可以理解的是，由于图像中可能出现多个人体框，并且多个人体框在不同图像帧的位置均可能发生变化，其位置也可能户有重叠和干扰，因此在对状态方程F₁和观测方程F₂进行求解时，首选需要建立第T帧图像与第T+1帧图像之间(两帧图像之间)的各个人体框的一一对应的关联关系，基于建立的关联关系，再利用卡尔曼滤波算法等求解状态方程F₁和观测方程F₂中的参数，以更新各个人体框在第T+1帧图像中的位置及其对应的身份标识。

在一个实施例中，第T帧图像与第T+1帧图像之间的人体框的关联关系可以通过匈牙利匹配算法实现。示例地，假设第T帧图像中有三个人体框ID：1，ID：2，ID：3，在状态方程F₁中，这三个人体框在第T+1帧的位置估计值是L1(ID：1)，L2(ID：2)，L3(ID：3)，在观测方程F₂，这三个人体框在第T+1帧的位置观测值是L1’，L2’，L3’，那么为了确定三个人体框在第T帧图像与第T+1帧图像之间的关联关系，可以建立一个大小为3×3的代价矩阵：

其中，a11表示L1到L1’的代价，a12表示L1到L2’的代价，a13表示L1到L3’的代价，a21表示L2到L1’的代价，以此类推。

上述代价矩阵可以计算从位置估计值L1，L2，L3到位置观测值L1’，L2’，L3’之间的最优匹配，即最小代价，从而确定第T+1帧图像中的各个人体框的身份标识。

示例地，如果人体框(身份标识为ID：1)的位置估计值L1在第T+1帧图像对应位置观测值L2’为最优匹配，那么在第T+1帧图像中，位置观测值L2’对应的人体框的身份标识即为ID：1。

步骤S110，从确定自第T+1帧图像的至少一个人体框中，确定与第一兴趣区域关联的第二目标人体框，第二目标人体框的宽度范围覆盖第一兴趣区域。

步骤S111，判断第一目标人体框的身份标识与第二目标人体框的身份标识是否相同。

此步骤的目的是判断摄像装置人体跟踪的目标是否丢失。首先，在第T+1帧图像中，确定第一兴趣区域关联的第二目标人体框，第二目标人体框的宽度范围覆盖第一兴趣区域，如果第一兴趣区域在第T+1帧图像中关联的第二目标人体框的身份标识与第一目标人体框的身份标识相同，则说明第一兴趣区域在第T帧图像和第T+1帧图像关联的是同一个人体框，说明人体跟踪未丢失目标。如果第一兴趣区域在第T+1帧图像中关联的第二目标人体框的身份标识与第一目标人体框的身份标识不相同，则说明第一兴趣区域在第T帧图像和第T+1帧图像关联的不是同一个人体框，跟踪对象可能被其他人体遮挡(例如在图19中，第一兴趣区域141在第T+1帧图像中关联的第二目标人体框的身份标识为ID：2，而之前确定的第一目标人体框的身份标识为ID：1)此时，第一目标人体框在两个图像帧之间的检测评价函数(intersection over union，IOU)也会低于一定阈值。如果相同，则按照步骤S106的方式调整摄像装置的视角。

步骤S112，如果不相同，将摄像装置的视野保持在第一目标人体框的区域；如果相同，将摄像装置的视野调整至第二目标人体框的区域。

此步骤的目的是，当目标人体可能被其他人体遮挡时，使摄像装置的视野保持在这一遮挡区域，直到第一目标人体框重新出现并且IOU大于阈值，此时继续根据第一兴趣区域的位置调整摄像装置的视角；或者直到第一目标人体框彻底消失并且出现了具有新的身份标识的人体框(此时意味着出现了新的未知目标)，此时如果能检测到人脸，则继续上述人脸识别和目标跟踪步骤，以重新确定目标人脸和第一目标人体框，如果检测不到人脸，则需要对未知目标进行身份识别，身份识别算法包括但不限于采用方向梯度直方图特征或深度学习身份识别算法等，具体可以参考本申请实施例之前介绍的内容。如果身份识别失败，需要重新初始化本申请实施例的方法。

可以理解的是，当第T帧图像是摄像装置采集的第1帧图像时(即T＝1时)，摄像装置在确定第一目标人体框的位置之后，将摄像装置的视野可以初始调整在第一目标人体框的区域，再后续的图像帧(例如第T+1帧)中，摄像头就可以根据第一目标人体框的身份标识与第二目标人体框的身份标识是否相同的判断结果，调整摄像装置的视野。

上述本申请提供的实施例对目标跟踪方法的各方案进行了介绍。可以理解的是，机器人为了实现上述功能，可以包含执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在一个实施例中，机器人可以通过如图2所示的硬件结构实现，例如摄像装置131、处理器131和存储器132等。其中，存储器132包括有程序指令133，程序指令133被处理器131运行时，使得装置用于执行如下步骤：在摄像装置131采集的第T帧图像中生成采样框，采样框内包含目标人脸的第一兴趣区域；在第T帧图像中对采样框进行循环移位，以得到n个训练样本，每个训练样本对应一个分类标签，n为大于1的正整数；使用n个训练样本及其对应的分类标签训练一个非线性分类器，非线性分类器用于对输入的样本输出其与第一兴趣区域的响应程度；在第T+1帧图像中对采样框进行循环移位，以得到n个移位样本；使用非线性分类器从n个移位样本中确定与第一兴趣区域响应程度最高的目标样本，并根据目标样本更新第一兴趣区域；根据第一兴趣区域的位置调整摄像装置131的视角。

本申请实施例提供的装置，以目标人脸的第一兴趣区域作为跟踪区域，对摄像装置131的视野要求小，需要跟踪的数据量少，因此响应速度快。并且，本装置利用训练的非线性分类器，以图像帧为处理对象，对于相邻两个图像帧，计算下一个图像帧的移位样本与上一个图像帧的第一兴趣区域响应程度，从而在下一帧图像中更新第一兴趣区域的位置，并且根据第一兴趣区域的位置调整摄像装置131的视角，实现目标跟踪。对于一般的摄像装置131来说，其每秒钟需要生成几十个甚至上百个图像帧，意味着使用本装置每秒钟能够进行几十次甚至上百次的目标跟踪。因此，本申请实施例提供给的装置能够适应摄像装置131视野中有多个人脸、目标位置快速变化的高动态场景、目标只有部分身体位于摄像装置131视野等各种场景，鲁棒性强。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤：在摄像装置采集的第T帧图像中，确定至少一个人体框，每个人体框关联一个身份标识；从确定自第T帧图像的至少一个人体框中，确定与第一兴趣区域关联的第一目标人体框，第一目标人体框的宽度范围覆盖第一兴趣区域；在摄像装置采集的第T+1帧图像中，确定至少一个人体框；从确定自第T+1帧图像的至少一个人体框中，确定与第一兴趣区域关联的第二目标人体框，第二目标人体框的宽度范围覆盖第一兴趣区域；判断第一目标人体框的身份标识与第二目标人体框的身份标识是否相同；如果不相同，将摄像装置131的视野保持在第一目标人体框的区域；如果相同，将摄像装置131的视野调整至第二目标人体框的区域。这样，本申请实施例的装置还能够实现对目标的人体跟踪，并且能够将目标的人体与人脸建立关联，这样当检测到目标的人脸和/或人体被遮挡时，本装置可以控制摄像装置131保持在之前确定的目标人体框所在的区域，这样就可以在遮挡接触之后，继续跟踪目标，防止目标丢失，提高鲁棒性。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤，以实现在摄像装置131采集的第T帧图像中生成采样框，采样框内包含目标人脸的第一兴趣区域：利用人脸识别算法从第T帧图像识别第一兴趣区域，以第一兴趣区域的中心点为中心，对第一兴趣区域的面积进行扩充预设倍数得到采样框。这样，采样框内能够包含目标人脸的第一兴趣区域和目标人脸之外的区域，便于后续利用方向梯度直方图特征提取人脸边缘的梯度特征。

作为一种可选择的实现方式，分类标签的取值范围在0～1之间，并且n个训练样本的分类标签的数值基于训练样本与第一兴趣区域之间的距离呈高斯分布。通过高斯分布，当训练样本与第一兴趣区域之间的距离接近到一定程度时，分类标签的数值迅速增大，从而突出这些训练样本的权重，有利于提高非线性分类器的分类效果。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤，以实现使用n个训练样本及其对应的分类标签训练一个非线性分类器：对训练样本提取特征向量，特征向量包括训练样本的方向梯度直方图特征，将提取自n个训练样本的n个特征向量通过核函数映射到高维特征空间，并使用非线性分类器进行线性回归，以训练非线性分类器的权重。特征向量是一个非线性特征，通过核函数可以将其映射到高维特征空间成为线性特征，以便于线性回归，从而提高计算效率。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤，以实现对训练样本提取特征向量，特征向量包括训练样本的方向梯度直方图特征：将训练样本分割成预设数量的像素块，对于每个像素块的每个颜色通道，在预设的f个方向上计算梯度值，以及，对于每个像素块计算j个与方向无关的梯度值，将对于所有像素块计算得到的所有梯度值拼接成特征向量。这样，特征向量包含了一部分与方向有关的特征和一部分与方向无关的特征，其表达的特征更丰富，有利于提高训练后的非线性分类器的分类准确性。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤，以实现在摄像装置采集的第T帧图像中，确定至少一个人体框，每个人体框关联一个身份标识：当第T帧图像是包含多个人体框的第一帧图像时，为每个人体框关联一个身份标识。这样，根据身份标识，就可以确定同一个人体框在不同图像帧中的位置。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤，以实现在摄像装置采集的第T+1帧图像中，确定至少一个人体框：根据第T帧图像中的至少一个人体框的位置和估计的人体运动速度，估计第T+1帧图像中的至少一个人体框的位置；确定第T帧图像中的至少一个人体框与第T+1帧图像中的至少一个人体框之间的一一对应的关联关系；根据关联关系确定第T+1帧图像中的至少一个人体框和身份标识。由此，基于上述关联关系，本方法可以准确地检测各个人体框在不同图像中的位置和身份标识。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤，以实现确定第T帧图像中的至少一个人体框与第T+1帧图像中的至少一个人体框之间的一一对应的关联关系：建立用于根据至少一个第一人体框所述第T帧图像中的位置估计至少一个人体框在第T+1帧图像中的位置预测值的观测方程，以及，建立用于表达至少一个人体框在第T+1帧图像中的位置观测值的状态方程；根据位置预测值和位置观测值构建代价矩阵，代价矩阵表示将位置预测值和位置观测值进行匹配时的损失代价；根据预设的最优匹配算法求得代价矩阵的最优匹配解，最优匹配解包括位置预测值和位置观测值之间的最优匹配关系；根据最优匹配关系确定至少一个人体框在第T帧图像和第T+1帧图像中的关联关系。

作为一种可选择的实现方式，程序指令133被处理器131运行时，还使得装置用于执行如下步骤，以实现根据第一兴趣区域的位置调整摄像装置131的视角：计算第一兴趣区域的像素中心点与图像中心点的偏差，根据偏差确定摄像装置131的转动参数，转动参数包括转动速度，根据转动参数转动摄像装置131，以使第一兴趣区域位于摄像装置131视野的指定位置。这样，本方法能够根据第一兴趣区域的像素中心点与图像中心点的偏差实现对摄像装置131旋转速度的调节，有效解决高动态场景下的目标跟踪问题，使摄像装置131始终朝向跟踪目标。

作为一种可选择的实现方式，偏差包括像素距离偏差，以及与摄像装置131的尺度信息和焦距相关的空间距离偏差，偏差为像素距离偏差和空间距离偏差的加权和。这样，可以在偏差中同时引入摄像装置131的空间位置信息和图像的像素信息，有利于提高速度控制的精度。

在另一个实施例中，目标跟踪装置可以通过图20所示的软件模块实现相应的功能。如图20所示，定位系统可以包括采样框生成模块610、训练样本生成模块620、训练模块630、移位样本生成模块640、兴趣区域更新模块650和控制模块660。下面对上述模块的功能进行具体说明：

采样框生成模块610，用于在摄像装置采集的第T帧图像中生成采样框，采样框内包含目标人脸的第一兴趣区域；

训练样本生成模块620，用于在第T帧图像中对采样框进行循环移位，以得到n个训练样本，每个训练样本对应一个分类标签，n为大于1的正整数；

训练模块630，用于使用n个训练样本及其对应的分类标签训练一个非线性分类器，非线性分类器用于对输入的样本输出其与第一兴趣区域的响应程度；

移位样本生成模块640，用于在第T+1帧图像中对采样框进行循环移位，以得到n个移位样本；

兴趣区域更新模块650，用于使用非线性分类器从n个移位样本中确定与第一兴趣区域响应程度最高的目标样本，并根据目标样本更新第一兴趣区域；

控制模块660，用于根据第一兴趣区域的位置调整摄像装置的视角。

在另一个实施例中，目标跟踪装置如图21所示还可以包括：

人体框生成模块670，用于在摄像装置采集的第T帧图像中确定至少一个人体框，每个人体框关联一个身份标识；

目标人体框确定模块680，用于从确定自第T帧图像的至少一个人体框中，确定与第一兴趣区域关联的第一目标人体框，第一目标人体框的宽度范围覆盖第一兴趣区域；

匹配模块690，用于在摄像装置采集的第T+1帧图像中，确定至少一个人体框；

目标人体框确定模块680，还用于从确定自第T+1帧图像的至少一个人体框中，确定与第一兴趣区域关联的第二目标人体框，第二目标人体框的宽度范围覆盖第一兴趣区域。

判断模块710，判断第一目标人体框的身份标识与第二目标人体框的身份标识是否相同；

控制模块660，还用于如果不相同，将摄像装置的视野保持在第一目标人体框的区域；

控制模块660，还用于如果相同，将摄像装置的视野调整至在第二目标人体框的区域。

本申请实施例还提供了一种机器人，该机器人可以包含前述各实施例提供的目标跟踪装置，并且用户执行前述各个实施例提供的目标跟踪方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面的方法。

以上的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

在摄像装置采集的第T帧图像中，确定至少一个第一人体框，每个所述第一人体框关联一个身份标识；

从所述至少一个第一人体框中，确定与第一兴趣区域关联的第一目标人体框，所述第一目标人体框的宽度范围覆盖所述第一兴趣区域；

在所述摄像装置采集的第T+1帧图像中，确定至少一个第二人体框，每个所述第二人体框关联一个身份标识；

从所述至少一个第二人体框中，确定与所述第一兴趣区域关联的第二目标人体框，所述第二目标人体框的宽度范围覆盖所述第一兴趣区域；

判断所述第一目标人体框的身份标识与所述第二目标人体框的身份标识是否相同；

如果不相同，将所述摄像装置的视野保持在所述第一目标人体框的区域；

如果相同，将所述摄像装置的视野调整至所述第二目标人体框的区域。

2.根据权利要求1所述的方法，其特征在于，所述在摄像装置采集的第T帧图像中，确定至少一个第一人体框，每个所述第一人体框关联一个身份标识，包括：当所述第T帧图像是包含多个所述第一人体框的第一帧图像时，为每个所述第一人体框关联一个身份标识。

3.根据权利要求1或2所述的方法，其特征在于，所述在所述摄像装置采集的第T+1帧图像中，确定所述至少一个第二人体框，每个所述第二人体框关联一个身份标识，包括：

根据所述至少一个第一人体框在所述第T帧图像中的位置和估计的人体运动速度，估计所述至少一个第二人体框在所述第T+1帧图像中的位置；

确定所述至少一个第一人体框与所述至少一个第二人体框之间的一一对应的关联关系；

根据所述关联关系确定所述至少一个第二人体框和身份标识。

4.根据权利要求3所述的方法，其特征在于，所述确定所述至少一个第一人体框与所述至少一个第二人体框之间的一一对应的关联关系，包括：

建立用于根据所述至少一个第一人体框所述第T帧图像中的位置估计所述至少一个第二人体框在第T+1帧图像中的位置预测值的观测方程，以及，建立用于表达所述至少一个第二人体框在所述第T+1帧图像中的位置观测值的状态方程；

根据所述位置预测值和所述位置观测值构建代价矩阵，所述代价矩阵表示将所述位置预测值和所述位置观测值进行匹配时的损失代价；

根据预设的最优匹配算法求得所述代价矩阵的最优匹配解，所述最优匹配解包括所述位置预测值和所述位置观测值之间的最优匹配关系；

根据所述最优匹配关系确定所述关联关系。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述关联关系确定所述至少一个第二人体框和身份标识，包括：根据所述关联关系求解所述观测方程和所述状态方程，以确定所述至少一个第二人体框和身份标识。

6.根据权利要求1-5任一项所述的方法，其特征在于，还包括：

在所述第T帧图像中生成采样框，所述采样框内包含所述第一兴趣区域；

在所述第T帧图像中对所述采样框进行循环移位，以得到n个训练样本，每个训练样本对应一个分类标签，n为大于1的正整数；

使用n个所述训练样本及其对应的所述分类标签训练一个非线性分类器，所述非线性分类器用于对输入的样本输出其与所述第一兴趣区域的响应程度；

在第T+1帧图像中对所述采样框进行循环移位，以得到n个移位样本；

使用所述非线性分类器从n个所述移位样本中确定与所述第一兴趣区域响应程度最高的目标样本，并根据所述目标样本更新所述第一兴趣区域；

根据所述第一兴趣区域的位置调整所述摄像装置的视角。

7.根据权利要求6所述的方法，其特征在于，所述在所述第T帧图像中生成采样框，所述采样框内包含所述第一兴趣区域，包括：

利用人脸识别算法从所述第T帧图像识别所述第一兴趣区域；

以所述第一兴趣区域的中心点为中心，对所述第一兴趣区域的面积进行扩充预设倍数得到所述采样框。

8.根据权利要求6或7所述的方法，其特征在于，所述分类标签的取值范围在0～1之间，并且n个所述训练样本的所述分类标签的数值基于所述训练样本与所述第一兴趣区域之间的距离呈高斯分布。

9.根据权利要求6-8任一项所述的方法，其特征在于，所述使用n个所述训练样本及其对应的所述分类标签训练一个非线性分类器，包括：

对所述训练样本提取特征向量，所述特征向量包括所述训练样本的方向梯度直方图特征；

将提取自n个所述训练样本的n个所述特征向量通过核函数映射到高维特征空间，并使用所述非线性分类器进行线性回归，以训练所述非线性分类器的权重。

10.根据权利要求9所述的方法，其特征在于，所述对所述训练样本提取特征向量，所述特征向量包括所述训练样本的方向梯度直方图特征，包括：

将所述训练样本分割成预设数量的像素块；

对于每个像素块的每个颜色通道，在预设的f个方向上计算梯度值，以及，对于每个像素块计算j个与方向无关的梯度值；

将对于所有像素块计算得到的所有所述梯度值拼接成所述特征向量。

11.根据权利要求6-10任一项所述的方法，其特征在于，所述根据所述第一兴趣区域的位置调整所述摄像装置的视角，包括：

计算所述第一兴趣区域的像素中心点与图像中心点的偏差；

根据所述偏差确定所述摄像装置的转动参数，所述转动参数包括转动速度；

根据所述转动参数转动所述摄像装置，以使所述第一兴趣区域位于所述摄像装置视野的指定位置。

12.根据权利要求11所述的方法，其特征在于，所述偏差包括像素距离偏差，以及与所述摄像装置的尺度信息和焦距相关的空间距离偏差，所述偏差为所述像素距离偏差和所述空间距离偏差的加权和。

13.根据权利要求1-12任一项所述的方法，其特征在于，所述调整所述摄像装置的视野保持在所述第一目标人体框的区域之后，还包括：

当所述第一目标人体框的检测评价函数IOU大于阈值时，根据所述第一兴趣区域的位置调整所述摄像装置的视角；或者，

当所述第一目标人体框彻底消失，出现具有新的身份标识的人体框时，重新确定所述目标人脸和所述第一目标人体框。

14.一种目标跟踪装置，其特征在于，包括：存储器和处理器，所述存储器包括有程序指令，所述程序指令被所述处理器运行时，使得所述装置用于执行如下步骤：

在摄像装置采集的第T帧图像中确定至少一个第一人体框，每个所述第一人体框关联一个身份标识；

在所述摄像装置采集的第T+1帧图像中，确定所述至少一个第二人体框，每个所述第二人体框关联一个身份标识；

从所述至少一个第二人体框中，确定所述与第一兴趣区域关联的第二目标人体框，所述第二目标人体框的宽度范围覆盖所述第一兴趣区域；

如果相同，将所述摄像装置的视野调整至在所述第二目标人体框的区域。

15.根据权利要求14所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现在摄像装置采集的第T帧图像中，确定至少一个第一人体框，每个所述第一人体框关联一个身份标识：当所述第T帧图像是包含多个所述第一人体框的第一帧图像时，为每个所述人体框关联一个身份标识。

16.根据权利要求14或15所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现在所述摄像装置采集的第T+1帧图像中，确定所述至少一个第二人体框，每个所述第二人体框关联一个身份标识：

17.根据权利要求16所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现确定所述至少一个第一人体框与所述至少一个第二人体框之间的一一对应的关联关系：

根据所述最优匹配关系确定所述至少一个人体框在所述第T帧图像和所述第T+1帧图像中的关联关系。

18.根据权利要求16或17所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现根据所述关联关系确定所述第T+1帧图像中的所述至少一个人体框和身份标识：根据所述关联关系求解所述观测方程和所述状态方程，以确定所述第T+1帧图像中的所述至少一个人体框和身份标识。

19.根据权利要求14-18任一项所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤：

根据所述第一兴趣区域的位置调整所述摄像装置的视角。

20.根据权利要求19所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现在摄像装置采集的第T帧图像中生成采样框，所述采样框内包含所述第一兴趣区域：

利用人脸识别算法从所述第T帧图像识别所述第一兴趣区域；

21.根据权利要求19或20所述的装置，其特征在于，所述分类标签的取值范围在0～1之间，并且n个所述训练样本的所述分类标签的数值基于所述训练样本与所述第一兴趣区域之间的距离呈高斯分布。

22.根据权利要求19-21任一项所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现使用n个所述训练样本及其对应的所述分类标签训练一个非线性分类器：

23.根据权利要求22所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现对所述训练样本提取特征向量，所述特征向量包括所述训练样本的方向梯度直方图特征：

将所述训练样本分割成预设数量的像素块；

24.根据权利要19-23任一项所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现根据所述第一兴趣区域的位置调整所述摄像装置的视角：

计算所述第一兴趣区域的像素中心点与图像中心点的偏差；

25.根据权利要24所述的装置，其特征在于，所述偏差包括像素距离偏差，以及与所述摄像装置的尺度信息和焦距相关的空间距离偏差，所述偏差为所述像素距离偏差和所述空间距离偏差的加权和。

26.根据权利要求14-25任一项所述的装置，其特征在于，所述程序指令被所述处理器运行时，还使得所述装置用于执行如下步骤，以实现在调整所述摄像装置的视野保持在所述第一目标人体框的区域之后：

27.一种机器人，其特征在于，包括摄像装置，以及如权利要求14-26任一项所述的装置。

28.一种计算机可读存储介质，其上储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-13任一项所述的方法。

29.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-13任一项所述的方法。