CN112528812A

CN112528812A - 行人跟踪的方法、行人跟踪装置以及行人跟踪系统

Info

Publication number: CN112528812A
Application number: CN202011407213.8A
Authority: CN
Inventors: 孙玉海; 谷玉; 董文储
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-19
Also published as: US20220180534A1

Abstract

提供了一种行人跟踪的方法、行人跟踪装置以及行人跟踪系统，涉及图像处理领域，以降低采用人体检测方法进行行人跟踪时目标跟踪丢失的概率。行人跟踪的方法包括：获取至少一个第一视频数据和至少一个第二视频数据；对多帧第一图像中的至少部分第一图像进行人脸识别，得到包括第一行人在N个时刻的位置信息的第一行人的跟踪数据；对多帧第二图像中的至少部分第二图像进行人体检测，得到包括第二行人运动轨迹的第二行人的跟踪数据；在第一行人在N个时刻的位置信息与第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围内的情况下，确定目标行人的跟踪数据，其包括：目标行人的身份信息和运动轨迹，其中第一行人和第二行人同为目标行人。

Description

行人跟踪的方法、行人跟踪装置以及行人跟踪系统

技术领域

本发明涉及图像处理领域，尤其涉及一种行人跟踪的方法、行人跟踪装置以及行人跟踪系统。

背景技术

随着人工智能的发展，人体检测方法已经广泛应用于安防、视频监控、异常行为分析等多个领域。人体检测方法可以检测摄像设备采集的图像中的一个或多个人体，并标记出每个人体的位置，从而得到每个人体的运动轨迹。

然而，目前采用人体检测方法进行行人跟踪的过程中，在人体被部分遮挡、人体姿态变化较大等情况下，可能出现目标跟踪丢失的问题。

发明内容

本发明的实施例提供一种行人跟踪的方法、行人跟踪装置以及行人跟踪系统，用以降低采用人体检测方法进行行人跟踪时目标跟踪丢失的概率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供了一种行人跟踪的方法，该方法包括：获取至少一个第一视频数据和至少一个第二视频数据，第一视频数据包含多帧第一图像，该第二视频数据包含多帧第二图像；对多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据，第一行人的跟踪数据包括：第一行人的身份信息和第一行人在N个时刻的位置信息；N大于或等于1；对多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据，该第二行人的跟踪数据包括：第二行人的运动轨迹；第二行人的运动轨迹包括第二行人在多个时刻的位置信息；在第一行人在N个时刻的位置信息与第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据；目标行人的跟踪数据包括：目标行人的身份信息和目标行人的运动轨迹，其中第一行人和第二行人同为目标行人，目标行人的身份信息至少根据第一行人的身份信息确定，目标行人的运动轨迹至少根据第二行人的运动轨迹确定。

在一些实施例中，对多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据，包括：检测至少部分第一图像中的每个第一图像是否有行人的人脸；在检测到有第一行人的人脸的情况下，获取第一行人的人脸特征信息，并将第一行人的人脸特征信息与人脸数据库中的人脸特征信息进行比对；人脸数据库中包含多个人脸特征信息和与多个人脸特征信息分别对应的行人的身份信息；若比对成功，则将人脸数据库中与第一行人的人脸特征信息匹配的行人的身份信息作为第一行人的身份信息；或者，若比对失败，则记录第一行人的人脸特征信息。

在一些实施例中，对多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据，包括：获取第二视频数据中的至少部分第二图像中的每个第二图像中的行人框，并基于获取的各个行人框，得到第二行人的跟踪数据，其中，行人框为根据每个第二图像中检测到的人体而标注的框形。

在一些实施例中，基于获取的各个行人框，得到第二行人的跟踪数据，包括：利用训练过的神经网络模型处理各个行人框所对应的图像块，以获取各个行人框对应的图像块的特征向量；基于各个行人框中的每个行人框的特征向量确定至少一个行人的行人轨迹，将至少一个行人的行人轨迹作为第二行人的跟踪数据，其中，至少一个行人中每个行人对应一个行人轨迹。

在一些实施例中，在第一行人在N个时刻的位置信息与第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据，包括：通过如下公式分别计算N个时刻中的每个时刻，第一行人的全局坐标与第二行人的全局坐标之间的距离；

对于N个时刻中的每个时刻，如果第一行人的全局坐标A_i和第二行人的全局坐标B_i之间距离均小于或等于预设阈值，则确定第一行人和第二行人同为目标行人；其中，在第i个时刻下，第一行人的全局坐标为A_i(x1_i，y1_i)，第二行人的全局坐标为B_i(x2_i，y2_i)，1≤i≤N；位置信息包括全局坐标，全局坐标为行人在全局坐标系中的坐标。

在一些实施例中，目标行人的运动轨迹为第二行人的运动轨迹；或者，第一行人的跟踪数据包括：第一行人的身份信息和第一行人的运动轨迹，第一行人的运动轨迹包括第一行人在N个时刻的位置信息；在第一行人在N个时刻的位置信息与第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据，包括：根据第一行人的运动轨迹和第二行人的运动轨迹，生成目标行人的运动轨迹。

在一些实施例中，行人跟踪的方法还包括从第一摄像设备处接收第一视频数据，从第二摄像设备处接收第二视频数据，其中，第一摄像设备和第二摄像设备不同；或者，从第三摄像设备处接收第一视频数据和第二视频数据。

在一些实施例中，行人跟踪的方法还包括接收第一访问请求，该第一访问请求被配置为访问目标行人的跟踪数据；输出访问结果或第一界面，第一界面被配置为展示访问结果，访问结果包括：目标行人的身份信息和目标行人的运动轨迹。

在一些实施例中，行人跟踪的方法还可以包括根据目标行人的运动轨迹，获取目标行人的分布区域和目标行人在分布区域的停留时间；和/或，从多帧第一图像中的至少部分第一图像中提取目标行人的图像；和/或，从多帧第二图像中的至少部分第二图像中提取目标行人的图像；在行人跟踪的方法包括输出访问结果或第一界面的情况下，访问结果还包括：目标行人的图像、目标行人的分布区域和目标行人在分布区域的停留时间中的至少一种。

在一些实施例中，行人跟踪的方法还可以包括接收第二访问指令，该第二访问指令被配置为访问统计结果；输出统计结果或第二界面，第二界面被配置为展示统计结果；该统计结果包括：第一数据，第二数据，第三数据和第四数据中的至少一个；其中，第一数据为当前时间在至少一个分布区域内的目标行人的总人数；第二数据为当前时间目标行人在至少一个分布区域内的停留时间处于不同预设时间区间的第一人数或第一比例，第一比例为第一人数与总人数的比例；第三数据为在至少一个分布区域为多个的情况下，在时间段中每个分布区域内的目标行人的第二人数或第二比例，第二比例为第二人数与总人数的比例；第四数据为在历史时间段内的不同时刻，在至少一个分布区域内的目标行人的总人数。

第二方面，提供了一种行人跟踪装置，该行人跟踪装置包括：获取模块和处理模块；获取模块，被配置为获取至少一个第一视频数据和至少一个第二视频数据，每个第一视频数据包含多帧第一图像，每个第二视频数据包含多帧第二图像；处理模块，被配置为对获取模块获取的多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据，第一行人的跟踪数据包括：第一行人的身份信息和第一行人在N个时刻的位置信息；N大于或等于1；处理模块，还被配置为对获取模块获取的多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据，第二行人的跟踪数据包括：第二行人的运动轨迹；该第二行人的运动轨迹包括第二行人在多个时刻的位置信息；处理模块，还被配置为在第一行人在N个时刻的位置信息与第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据；目标行人的跟踪数据包括：目标行人的身份信息和目标行人的运动轨迹，其中第一行人和第二行人同为目标行人，目标行人的身份信息至少根据第一行人的身份信息确定，目标行人的运动轨迹至少根据第二行人的运动轨迹确定。

在一些实施例中，处理模块，具体被配置为检测至少部分第一图像中的每个第一图像是否有行人的人脸；在检测到有第一行人的人脸的情况下，获取第一行人的人脸特征信息，并将第一行人的人脸特征信息与人脸数据库中的人脸特征信息进行比对；人脸数据库中包含多个人脸特征信息和与多个人脸特征信息分别对应的行人的身份信息；若比对成功，则将人脸数据库中与第一行人的人脸特征信息匹配的行人的身份信息作为第一行人的身份信息；或者，若比对失败，则记录第一行人的人脸特征信息。

在一些实施例中，处理模块，具体被配置为获取多帧第二图像中的至少部分第二图像中的每个第二图像中的行人框，并基于获取的各个行人框，得到第二行人的跟踪数据，其中，行人框为根据在每个第二图像中检测到的人体而标注的框形。

在一些实施例中，处理模块，具体被配置为利用训练过的神经网络模型处理各个行人框所对应的图像块，以获取各个行人框对应的图像块的特征向量；基于各个行人框中的每个行人框的特征向量确定至少一个行人的行人轨迹，将至少一个行人的行人轨迹作为第二行人的跟踪数据，其中，至少一个行人中每个行人对应一个行人轨迹。

在一些实施例中，处理模块，具体被配置为通过如下公式分别计算N个时刻中的每个时刻，第一行人的全局坐标与第二行人的全局坐标之间的距离；

对于N个时刻中的每个时刻，如果第一行人的全局坐标A_i和第二行人的全局坐标B_i之间距离均小于或等于预设阈值，则确定第一行人和第二行人同为目标行人；其中，在第i个时刻下，第一行人的全局坐标为A_i(x1_i，y1_i)，第二行人的全局坐标为B_i(x2_i，y2_i)，1≤i≤N；位置信息包括所述全局坐标，全局坐标为行人在全局坐标系中的坐标。

在一些实施例中，目标行人的运动轨迹为第二行人的运动轨迹；或者，第一行人的跟踪数据包括：第一行人的身份信息和第一行人的运动轨迹，第一行人的运动轨迹包括第一行人在N个时刻的位置信息；处理模块，具体被配置为根据第一行人的运动轨迹和第二行人的运动轨迹，生成目标行人的运动轨迹。

在一些实施例中，行人跟踪装置还可以包括接收模块，该接收模块，被配置为从第一摄像设备处接收第一视频数据，从第二摄像设备处接收第二视频数据，其中，第一摄像设备和第二摄像设备不同；或者，接收模块被配置为从第三摄像设备处接收第一视频数据和第二视频数据。

第三方面，本发明实施例提供了一种服务器，该服务器包括处理器和存储器，存储器用于存储计算机指令，处理器用于运行所述计算机指令，使得服务器实现上述任一方面所述的行人跟踪的的方法。

第四方面，本发明实施例提供了一种行人跟踪系统，该行人跟踪系统包括存储器、处理器、第一摄像设备和第二摄像设备，其中，存储器用于存储计算机指令，处理器用于运行计算机指令，使得服务器实现上述任一实施例所述的行人跟踪的方法，第一摄像设备用于获取至少一个第一视频数据，第二摄像设备用于获取至少一个第二视频数据。

第五方面，本发明实施例提供了一种计算机可读存储介质，其用于存储计算机指令，使得服务器执行所述计算机指令时，实现上述任一方面所述的行人跟踪的的方法

本发明实施例提供的行人跟踪的方法和装置，通过人体检测方法得到第二行人的运动轨迹，通过人脸识别方法得到第一行人的身份信息和在至少一个时刻的位置信息，若在该至少一个时刻，第一行人的位置基本在第二行人的运动轨迹上，即第一行人的位置与第二行人的运动轨迹的偏差不大，就可以认为第一行人和第二行人是同一行人，即目标行人。从而，可以根据第二行人的运动轨迹确定目标行人的运动轨迹，并且将第一行人的身份信息作为目标行人的身份信息，于是得到了目标行人的跟踪数据；即，建立目标行人的运动轨迹和目标行人的身份信息之间的映射关系(也称作对应关系)。当出现例如人体被部分遮挡、人体姿态变化较大等情况时，在现有技术中，采用人体检测方法得到的第二行人在上述情况出现之前的运动轨迹和在上述情况出现之后的运动轨迹可能会被误认为是两个第二行人的运动轨迹，从而导致目标丢失；然而，在本申请中，由于建立了目标行人的运动轨迹和身份信息之间的映射关系，因此只要行人的人脸未被全部遮挡，能够识别出该行人的身份信息，就能够将上述情况出现前后的两个行人的运动轨迹与同一个第一行人的身份信息相对应，从而降低采用人体检测方法进行行人跟踪时目标跟踪丢失的概率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一些实施例提供的一种系统架构图；

图2为本发明一些实施例提供的一种服务器的结构图；

图3为本发明一些实施例提供的一种行人跟踪的方法的流程图；

图4为本发明一些实施例提供的一种SSD算法的模型框图；

图5为本发明一些实施例提供的另一种行人跟踪的方法的流程图；

图6为本发明一些实施例提供的一种访问结果界面图；

图7为本发明一些实施例提供的一种统计结果界面图；

图8为本发明一些实施例提供的一种行人跟踪装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括(comprise)”及其其他形式例如第三人称单数形式“包括(comprises)”和现在分词形式“包括(comprising)”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一个实施例(one embodiment)”、“一些实施例(some embodiments)”、“示例性实施例(exemplary embodiments)”、“示例(example)”、“特定示例(specific example)”或“一些示例(some examples)”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

“A、B和C中的至少一个”与“A、B或C中的至少一个”具有相同含义，均包括以下A、B和C的组合：仅A，仅B，仅C，A和B的组合，A和C的组合，B和C的组合，及A、B和C的组合。

“A和/或B”，包括以下三种组合：仅A，仅B，及A和B的组合。

在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。

另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

例如，为了表示采用不同的方法处理的视频数据，本实施例中在视频数据前添加“第一”，“第二”，得到“第一视频数据”和“第二视频数据”；其中，将用于人脸识别的视频数据称为第一视频数据，将用于人体检测的视频数据称为第二视频数据。类似的，为了区分在不同的视频数据中出现的行人，行人在其前添加“第一”、“第二”，即得到“第一行人”和“第二行人；将在第一视频数据中出现的行人，称为第一行人；在第二视频数据中出现的行人，称为第二行人。

本发明实施例提供了一种行人跟踪的方法，将通过人脸识别方法得到的第一行人的身份信息与通过人体检测方法得到的第二行人的运动轨迹进行结合，建立至少一个第二行人的运动轨迹和相同的身份信息的映射关系，此时第一行人和第二行人为同一行人，称为目标行人。从而，当多个第二行人的运动轨迹映射到同一身份信息时，多个第二行人的运动轨迹就关联起来，认为是同一行人的运动轨迹，从而防止目标丢失。

图1示出了一种实现上述行人跟踪的方法的系统架构。参考图1，系统架构100包括：至少一个(一个或多个)图像采集装置110，服务器120以及终端130。其中，图像采集装置110可以被配置为采集视频数据；服务器120被配置为对视频数据进行处理，以得到目标行人的身份信息与运动轨迹；终端130被配置为访问服务器120，以获取目标行人的身份信息与运动轨迹，还可以显示目标行人的身份信息与运动轨迹。

系统架构100还可以包括：路由装置140，该路由装置140可以通过连接图像采集装置110和服务器120，将通过图像采集装置110采集到的视频数据传送至服务器120。其中，路由装置140可以包括交换机或路由器等，本实施例对此不作限制。

本实施例中，至少一个图像采集装置110包括：至少一个图像采集装置110_A和至少一个图像采集装置110_B；其中，图像采集装置110_A采集的视频数据用于人脸识别且不用于人体检测，图像采集装置110_B采集的视频数据用于人体检测且不用于人脸识别。当然，至少一个图像采集装置110中的至少一部分(部分或全部)采集的视频数据可以既用于进行人脸识别，还用于人体检测。本实施例中用于人脸识别的第一视频数据和用于人体检测的第二视频数据可以由同一图像采集装置110采集的同一视频数据，也可以是由不同图像采集装置110采集的视频数据。

本实施例不对图像采集装置110的类型进行限制，示例的，图像采集装置110可以是摄像设备，例如网络摄像头等。本领域技术人员应该理解，网络摄像头是指结合传统摄像机与网络技术所产生的新一代摄像机，除了具备一般传统摄像机所具有的图像捕捉功能外，摄像机内还内置了数字化压缩控制器和基于网络的操作系统，使得视频数据经压缩加密后，通过网络(例如，局域网或无线网络等)传送至其他设备(例如终端或服务器)。

本实施例不对终端130的类型进行限制。例如，终端可以为手机、台式电脑、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等。

图2是本实施例提供的图1中服务器的硬件结构图。在一些实施例中，图2所示的服务器120可以包括至少一个处理器201和存储器202。

其中，处理器201可以是一个或多个通用中央处理器(central processing unit，CPU)、微处理器、特定应用集成电路(application-specific integrated circuit，ASIC)或者用于控制本公开一些实施例的程序执行的集成电路；其中，CPU可以是单核处理器(single-CPU)，也可以是多核处理器(multi-CPU)。这里的一个处理器201可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。

存储器202可存储操作系统和指令(例如计算机指令)，其包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmable read-only memory，EPROM)、快闪存储器、或光存储器等。存储器202中保存有操作系统的代码。

示例的，处理器201通过读取存储器202中保存的指令，使得服务器120实现下述实施例中的行人跟踪的方法，得到目标行人的跟踪数据，或者，处理器201通过内部存储的指令，使得服务器120实现下述实施例中的行人跟踪的方法，得到目标行人的跟踪数据。在处理器201通过读取存储器202中保存的指令实现下述实施例中的方法的情况下，存储器202中保存实现本实施例提供的行人跟踪的方法的指令。

在另一些实施例中，图2中的服务器120还可以包括接收器203和发送器204。

接收器203被配置为接收至少一个图像采集装置110采集的视频数据。例如，接收器203可以通过有线或无线通信方式与路由装置140通信连接，接收通过路由装置140发送的视频数据。

发送器204可以通过有线或无线通信方式与终端130通信连接，被配置为将目标行人的跟踪数据(包括：建立映射关系的目标行人的身份信息和运动轨迹)发送至终端130，还可以被配置为上述视频数据发送至终端130，以便终端130可以显示该视频数据。

如图3所示，基于图1所示的系统架构，本实施例提供一种行人跟踪的方法，该方法的执行主体可以是服务器，或服务器中的部分器件(例如处理器)，该行人跟踪的方法可以包括下述的S301～S304。

S301、获取至少一个第一视频数据和至少一个第二视频数据。

其中，上述每个第一视频数据由图像采集装置110采集得到，包含多帧第一图像。上述每个第二视频数据由图像采集装置110采集得到，包含多帧第二图像。

在一些实施例中，至少一个第一视频数据由至少一个图像采集装置110_A采集得到，并通过路由装置140发送至服务器120。服务器120在接收到该第一视频数据后，可通过服务器120中包括的处理器201，对获取的每个第一视频数据进行处理(例如，图像提取)，以得到所有第一视频数据中包含的多帧第一图像。至少一个第二视频数据由至少一个图像采集装置110_B采集得到，并通过路由装置140发送至服务器120。类似的，服务器120可以得到至少一个第二视频数据包含的多帧第二图像。

示例的，在图像采集装置110为摄像设备的情况下，可以从第一摄像设备处接收第一视频数据，从第二摄像设备处接收第二视频数据，其中，第一摄像设备和第二摄像设备不同。也就是说，第一视频数据可以由第一摄像设备采集得到，第二视频数据可以由第二摄像设备采集得到。

在另一些实施例中，至少一个第一视频数据和至少一个第二视频数据由相同的图像采集装置110采集得到，此时，服务器120在获取到至少一个第一视频数据的同时，相当于获取到了至少一个第二视频数据，无需再次执行获取第二视频数据的步骤。随后，服务器120可以对获取到的至少一个第一视频数据处理得到多帧第一图像，相当于得到了多帧第二图像。

示例的，在图像采集装置110为摄像设备的情况下，可以从第三摄像设备处接收第一视频数据和第二视频数据。也就是说，第一视频数据和第二视频数据可以由相同的第三摄像设备采集得到。

示例的，多帧第一图像可以仅在服务器120中保存一份，既用于后续S302中的人脸识别，又作为多帧第二图像用于后续S303中的人体检测。

又示例的，多帧第一图像可以仅在服务器120中保存两份，一份用于后续S302中的人脸识别，另一份作为多帧第二图像用于后续S303中的人体检测。

在又一些实施例中，至少一个第一视频数据和至少一个第二视频数据中存在部分视频数据由相同的图像采集装置110采集得到，其他视频数据由不同的图像采集装置110采集得到。

总之，本申请中将用于后续S302中的人脸识别的视频数据称为第一视频数据，将用于后续S303中的人体检测的视频数据称为第二视频数据，二者可以由完全相同的、部分相同的或完全不同的图像采集装置110采集得到。

S302、对第一视频数据中的多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据。

其中，上述第一行人的跟踪数据包括：第一行人的身份信息和第一行人在N个时刻的位置信息，N大于或等于1。

本实施例中，第一行人的身份信息可以包括该第一行人的姓名、性别、年龄、身份证号等身份信息中的至少一者，第一行人的位置信息可以是该第一行人的位置坐标，该位置坐标可以是行人在全局坐标系下的坐标，可选的，可以是世界坐标系下的坐标，还可以是相对于以某个特定位置作为坐标原点的坐标系下的坐标，例如以室内或室外某个特定位置作为坐标原点，行人的位置坐标是行人相对于该特定位置为坐标原点的坐标。

本领域技术人员应该理解，人脸识别是基于人的脸部特征信息进行身份识别的方法。

在一些实施例中，上述S302具体可以通过下述S401～S404实现。

S401、检测至少部分第一图像中的每个第一图像是否有行人的人脸。

在一些实施例中，可以利用SSD(Single Shot MultiBox Detector，单镜头多盒探测器)算法检测一个图像(例如第一图像)是否有行人(例如第一行人)的人脸。

如图4所示，为利用SSD算法进行人脸检测时所采用的模型框图，其中，conv表示卷积层，priorbox表示先验框。本领域技术人员应该理解，在利用SSD算法检测一张图像是否有人脸时，可以先输入该图像，再使得该图像经过训练好的模型，也就是说，使得该图像依次经过多个不同的卷积层(例如，图4中包括的Conv6、Conv7等卷积层)，且该图像在经过5种不同的卷积层后，分别输出特征图(feature map)，然后将各个特征图输入至检测(detection)层，以输出2组数据，其中，一组数据为预测框中各个类别的概率，另一组数据为预测框的位置。其中，检测层中包括2个不同的3*3的卷积层，其分别用于输出分类用的confidence和输出回归用的localization。这样，可以得到人脸的区域框。

需要说明的是，由于SSD算法是本领域技术人员所熟知的算法，因此对于这个算法的详细解释，本实施例对此不再赘述。S402、在检测到有第一行人的人脸的情况下，获取该第一行人的人脸特征信息，并将第一行人的人脸特征信息与人脸数据库中的人脸特征信息进行比对。

本实施例不限制获取第一行人的人脸特征信息的方法，例如，可以采用神经网络方法。

本实施例中，采用神经网络方法获取人脸特征信息时，可以先输入包括人脸区域(例如，人脸的区域框)的图像f1(可以是整个第一图像，还可以是第一图像中位于包括人脸区域的部分)，再使该图像f1通过训练好的分类网络(例如ResNet网络)，以提取人脸区域中的特征，例如人脸区域中包括的五官，再根据每个特征的颜色、纹理等属性向量，生成每个特征的1024维的向量数据，然后计算该生成的每个特征的1024维的向量数据与人脸数据库中一个图像f2的每个人脸特征的1024维的向量数据之间的夹角余弦距离。其中，图像f1中的特征向量x＝(x₁，x₂，…，x_i，…，x_n)，x_i为图像f1的属性向量，图像f2中的特征向量y＝(y₁，y₂，…，y_i，…，y_n)，y_i为图像f2的属性向量，i为大于或等于1、以及小于或等于n之间的任意整数，n为向量数据的维度，对于1024维的向量数据，n取值为1024；夹角余弦距离即可作为图像f1和图像f2之间的相似度分数(也可称为余弦相似度)。如果该相似度分数大于或者等于相似度分数的阈值，那么可以认为图像f1中的人脸与人脸数据库中图像f2中的人脸为同一个；相应的，如果该相似度分数小于相似度分数的阈值，那么可以认为图像f1中的人脸与人脸数据库中图像f2中的人脸不是同一个。

其中，夹角余弦距离的计算公式为

具体的，上述夹角余弦距离公式中，x_i表示图像f1的属性向量，y_i表示图像f2的属性向量。

需要说明的是，ResNet(Residual Neural Network，残差网络)是本领域技术人员所熟知的，因此对于该网络的详细解释，本实施例对此不再赘述。

本实施例不限制相似度分数的阈值，本领域技术人员可以根据实际需求确定该相似度分数的阈值大小，例如，该相似度分数的阈值可以为0.6，也可以为0.7。

在一些实施例中，人脸的特征例如可以为人脸的五官，人脸的特征信息可以为人脸五官的颜色以及纹理等信息。人脸数据库中包含人脸特征信息和该人脸特征信息所对应的行人的身份信息。服务器会根据获取到的第一行人的人脸特征信息，依次与存储在人脸数据库中各个人脸特征信息进行比对。

若比对成功，即人脸数据库中存在人脸特征信息与第一行人的人脸特征信息属于同一行人，此时可以执行S403；若比对失败，即人脸数据库中不存在与第一行人的人脸特征信息属于同一行人的人脸特征信息，此时可以执行S404。

S403、将人脸数据库中与第一行人的人脸特征信息匹配的行人的身份信息作为第一行人的身份信息。

人脸数据库中可以存储多个人脸的人脸特征信息，例如，可以用Face1、Face2……等表示；以及与之对应的身份信息，例如可以用ID1、ID2……等表示。假设第一行人的人脸特征信息与Face2属于同一行人，则将与Face2对应的ID2作为第一行人的身份信息。

S404、若比对失败，则记录第一行人的人脸特征信息。

此时服务器可以发出比对失败的提示，例如可以向终端发送表示比对失败的提示信息。此外，还可以在人脸数据库更新后，将记录的第一行人的人脸特征信息与更新后的人脸数据库中的人脸特征信息进行比对，若比对成功，可以发出比对成功的提示。

基于上述的S401～S404，在一些示例中，假设至少一个视频数据中有10帧用于人脸识别的第一图像，那么服务器可以依次检测这10帧第一图像中是否有第一行人的人脸。如果检测到第1帧第一图像中有第一行人的人脸，那么服务器将会执行上述S402～S404；如果没有在第1帧第一图像中检测到人脸，那么将会检测第2帧第一图像。如果该第2帧第一图像中有第一行人的人脸，那么将会执行上述S402～S404，如果没有，那么将会检测第3帧第一图像，以此循环。

此外，在上述S401检测到一帧第一图像中有第一行人的人脸的情况下，可以确定第一行人的位置信息。第一行人的位置信息可以为在第一图像中的坐标，也可以是在全局坐标系中的坐标，即全局坐标。检测到第一行人的人脸后，根据第一行人的人脸在第一图像中的坐标，通过坐标换算可得到第一行人在全局坐标系的坐标，即全局坐标。检测到第一行人的人脸时，可在第一图像上得到人脸对应的框形，通过计算框形的某一点的坐标作为第一行人在第一图像中的坐标，如可以为端点或中点等。由于各图像均对应的现实世界中的特定区域，图像中各个位置均与现实世界中的位置相对应，所以，当建立全局坐标系之后，图像中的每一位置均对应全局坐标系中的一个坐标。因此，可以根据图像中对象的坐标得到其在全局坐标系中的坐标。例如，可以通过该帧图像对应的图像采集装置拍摄的一帧图像中一个或多个参考点(例如该图像的左上角和右上角)分别在全局坐标系中的坐标和在图像中的坐标，以及该第一行人在该帧图像中的位置，来确定第一行人在全局坐标系中的坐标。其中，图像采集装置拍摄的一帧图像中参考点的位置可以由图像采集装置的位置、安装高度、拍摄角度以及拍摄分辨率等得到。本实施例不限制确定第一行人的位置信息的方法。

S303、对第二视频数据中的多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据。

其中，上述第二行人的跟踪数据包括：第二行人的运动轨迹，该第二行人的运动轨迹包括在多个时刻的位置信息，也就是说，第二行人在多个时刻的位置信息组成第二行人的运动轨迹。

本实施例中，人体检测是指能区分出不同行人并返回各个行人的位置信息的技术。在一些实施例中，上述S303具体可以通过下述S3031实现。

S3031、获取第二视频数据中的多帧第二图像中的至少部分第二图像中的行人框，并基于获取的各个行人框，得到第二行人的跟踪数据。

其中，行人框可以为根据每个第二图像中检测到的人体而标注的框形。示例的，行人框可以是根据行人的轮廓所画出的矩形框，因此也可称为行人矩形框。其中，可以通过矩形框下边的中点来确定行人所在的位置。示例的，在垂直于水平面的方向上，可以分别根据行人的左侧(例如左胳膊)和行人的右侧(例如右胳膊)所在的位置画出矩形的两条长边；在平行于水平面的方向上，分别根据行人的上方(例如头顶处)和下方(例如行人的脚所在处)所在的位置画出矩形的两条短边。这样，可以根据行人的轮廓，画出矩形框，并根据矩形框下边的中点，确定行人所在的位置。

本实施例中，可以采用SSD算法，yolo(You Only Look Once)算法，或者fasterrcnn等算法获取第二图像中的行人框。由于这些算法为本领域技术人员所熟知的算法，因此本实施例对此不再赘述。

在上述S3031检测到一帧第二图像中有第二行人的人体的情况下，可以确定第二行人的位置信息。第二行人的位置信息可以为在第二图像中的坐标，也可以是在全局坐标系中的坐标，即全局坐标。第二行人的全局坐标的计算方式与前述第一行人的全局坐标计算方式相类似。检测到第二行人时，可在第二图像上得到人体对应的框形，可选地，通过计算框形的某一点的坐标作为第二行人在第二图像中的坐标，如可以为端点或中点等；可选地，通过图像识别出行人的脚所在处的位置作为第二行人在第二图像中的坐标。然后，可以根据图像中对象的坐标得到其在全局坐标系中的坐标。例如，可以通过该帧图像对应的图像采集装置拍摄的一帧图像中一个或多个参考点(例如该图像的左上角和右上角)分别在全局坐标系中的坐标和在图像中的坐标，以及该第二行人在该帧图像中的位置，来确定第二行人在全局坐标系中的坐标。

在一些实施例中，上述S3031中所述的基于获取的各个行人框，得到第二行人的跟踪数据，具体可以通过以下两个步骤(即以下的步骤一和步骤二)实现。

步骤一、利用训练过的神经网络模型处理各个行人框所对应的图像块，以获取各个行人框对应的图像块的特征向量。

本实施例中不对神经网络模型进行限制。示例的，上述神经网络模型可以卷积神经网络模型，也可以为深度神经网络模型。

本领域技术人员应该理解，卷积神经网络(Convolutional Neural Network，CNN)是一种深度前馈人工神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现，目前已应用于图像识别领域中。

在一些实施例中，可以对卷积神经网络进行训练，并利用训练过的卷积神经网络对行人框中所包含的图像块进行处理，以输出行人框的特征向量，并将该特征向量传输至服务器，以使得服务器获得行人框的特征向量。示例的，可以利用VGG(Visual GeometryGroup，视觉几何组)16网络，或者ResNet50网络进行处理，以输出各个行人框的2048维的特征向量。

需要说明的是，VGG以及ResNet50网络为本领域技术人员所熟知的技术，因此对于这两种网络的详细解释，本实施例对此不再赘述。

在一些实施例中，在对卷积神经网络进行训练的过程中，可以先利用当前国际上公开的数据集(以室内场景为主)，并基于已有的数据模型，用新的训练样本对该数据模型进行训练，从而得到一个新的数据模型。其中，训练过的卷积神经网络所输出的特征向量可以用于区分两个行人框是否属于同一个行人。

步骤二、基于各个行人框中的每个行人框的特征向量确定至少一个行人的行人轨迹，将其作为第二行人的跟踪数据，其中，至少一个行人中每个行人对应一个行人轨迹。

在一些实施例中，上述步骤二具体可以通过下述的S501～S507实现。

S501、将所有行人框划分到至少一个(例如是多个)行人轨迹，以获得轨迹集合。

具体的，可以对所有行人框进行行人匹配，将属于同一行人的行人框划分到同一行人轨迹。

在一些实施例中，行人匹配可以是对任意两个不同的行人框的特征向量进行相似度分数匹配，当该相似度分数大于第一阈值时，即可认为行人框匹配成功，则该两个不同的行人框属于同一行人。进行相似度匹配时，可采用前面所述的夹角余弦距离的计算公式，计算得到的夹角余弦距离即可作为两个不同的行人框的特征向量之间的相似度分数。需要说明的是，本实施例不限制第一阈值的数值，例如，该第一阈值可以为0.6，也可以为0.7。

在另一些实施例中，行人匹配的过程可以参考行人再识别(Person re-identification，Person re-ID)算法。行人再识别算法可以根据前一帧图像中行人的位置与姿态(可以用行人框的特征向量来表示)，对下一帧图像中行人的位置与姿态进行预判，如果下一帧检测到的行人的位置与姿态与预判的一致或者相似度大于等于第二阈值，则可以确认这两帧图像中的行人为同一人(即行人框匹配成功)，如果不一致，则可以确认二者不是同一人。其中，前一帧图像和下一帧图像是相邻的两帧图像。示例的，假设在10个第二图像中共检测到30个行人框，则在S501中可以通过行人匹配将这30个行人框划分到10个行人轨迹，这10个行人轨迹组成轨迹集合。

再示例的，如果在10个第二图像中共检测到30个行人框，那么可以直接将这30个行人框划分到30个行人轨迹中，也就是说，每个行人轨迹仅包含一个行人框，这30个行人轨迹组成轨迹集合。

可以理解的是，如果在上述S501中通过行人匹配，将所有行人框均划分到了同一行人轨迹中，那么可以不执行后续的步骤，所获得的这个行人轨迹即为所需的行人的运动轨迹。S502、对于轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量。

在一些实施例中，对于轨迹集合中的每个行人轨迹，可以对该行人轨迹所包含的行人框的特征向量进行加权平均或者算术平均，以获得该行人轨迹的特征向量。其中，在进行加权平均的情况下，可以根据需要设定其中的权重，本实施例对此不进行限定。示例的，假设一个行人轨迹包含10个行人框，则可以对这10个行人框的特征向量进行加权平均，平均结果作为该行人轨迹的特征向量。

S503、基于行人轨迹的特征向量确定轨迹集合中的所有行人轨迹的数据匹配度。

其中，上述数据匹配度是通过运动匹配度和表观特征匹配度相结合所得到的。

在一些实施例中，将轨迹集合中的行人轨迹两两比较，以得到两个行人轨迹之间的运动匹配度和表观特征匹配度。

其中，运动匹配度通过马氏距离刻画匹配度，如果该马氏距离越大，那么可以认为两个行人轨迹之间的运动匹配度越大。马氏距离的计算公式为

其中，Σ是多维随机变量的协方差矩阵，μ为样本均值。

表观特征匹配度通过特征向量之间的夹角余弦距离刻画匹配度，如果该夹角余弦距离越大，那么两个行人轨迹之间的表观匹配程度越大。其中，夹角余弦距离的公式可参考上述实施例中所述的夹角余弦距离公式，此处不再赘述。

在另一些实施例中，数据匹配度也可以根据两个行人轨迹之间的欧式距离表示，该欧式距离越大，数据匹配度越低；相应的，该欧式距离越小，数据匹配度越高。其中，欧式距离的计算公式为

其中，xi和yi均表示特征向量。

S504、判断所确定的所有行人轨迹的数据匹配度中的最大数据匹配度是否大于第一匹配阈值，如果是，则转至S505，如果否，则转至S507。

需要说明的是，第一匹配阈值可以根据需要设定，本实施例不对此进行限制，例如，该第一匹配阈值可以是60％，也可以是70％。

S505、将数据匹配度最高的两个行人轨迹(即对应最大数据匹配度的两个行人轨迹)合并为一个行人轨迹，以更新轨迹集合。

即将属于同一行人的多个行人轨迹合并为一个行人轨迹。

示例的，通过S501获取的在不同时刻下的行人轨迹集合包括10个行人轨迹的情况下，可以将数据匹配度最高的两个行人轨迹合并为一个行人轨迹，以更新轨迹集合。

S506、确定合并后的行人轨迹的特征向量，并返回S503。此处可采用S502中的方法，计算合并后的行人轨迹的特征向量。

S507、确定轨迹集合中的各行人轨迹为各个第二行人的跟踪数据。

示例的，假设S501中获得的轨迹集合包括3个行人轨迹：轨迹1、轨迹2和轨迹3，其中，轨迹1和轨迹2之间的数据匹配度是90％，轨迹2和轨迹3之间的数据匹配度是80％，轨迹1和轨迹3之间的数据匹配度是50％。其中，最大数据匹配度是轨迹1和轨迹2之间的数据匹配度，即90％。假设第一匹配阈值是75％，则最大数据匹配度90％满足大于第一匹配阈值75％的要求，可以将轨迹1和轨迹2合并为一个行人轨迹。合并后的轨迹称为轨迹4，此时轨迹集合中仅包括轨迹3和轨迹4。随后，确定合并后的轨迹4的特征向量，并返回S503，基于确定的轨迹4的特征向量，确定轨迹3和轨迹4之间的数据匹配度，以判断二者是否可以合并。如果二者可以合并，那么合并后的轨迹称为轨迹5，此时轨迹集合中仅包括轨迹5，此时，该轨迹5即为第二行人的跟踪数据。具体的，该轨迹5为一个第二行人的运动轨迹。若二者无法合并，则轨迹3和轨迹4分别是两个不同的第二行人的运动轨迹。

需要说明的是，S503～S506可以是不断循环执行的，直至最大数据匹配度小于或等于第一匹配阈值为止。

S304、在第一行人在N个时刻的位置信息与第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据。

其中，上述位置信息包括全局坐标，该全局坐标为行人在全局坐标系中的坐标；上述目标行人的跟踪数据包括：目标行人的身份信息和目标行人的运动轨迹，其中第一行人和第二行人同为目标行人，该目标行人的身份信息至少根据第一行人的身份信息确定，该目标行人的运动轨迹至少根据第二行人的运动轨迹确定。

需要说明的是，本实施例中的预范围可以根据需要设定，本实施例不对此进行限制

在一些实施例中，可以通过下述公式

1≤i≤N，分别计算N个时刻中的每个时刻，第一行人的全局坐标与第二行人的全局坐标之间的距离。具体的，对于N个时刻中的每个时刻，如果第一行人的全局坐标A_i和第二行人的全局坐标B_i之间的距离小于或等于预设阈值，则可以确定第一行人和第二行人同为目标行人。

示例的，在N大于或等于2的情况下，即在两个时刻下，例如在第1时刻下，可以利用人脸识别技术确定第一行人在该第1时刻下的位置信息)，以及利用人体检测技术确定第二行人在该第1时刻下的运动轨迹，其中，该运动轨迹中包含有该第二行人的位置信息)，并计算在第1时刻下二者位置的偏差是否在预设阈值之内，即计算二者之间的距离是否小于或等于预设阈值，在距离小于或等于预设阈值的情况下，可以确定该第一行人和第二行人同为目标行人。可选地，第一行人的位置信息和第二行人的位置信息的计算需要是相对于同一坐标系下的坐标，例如，可以都为图像中的坐标，也可以都为相对于同一坐标系的全局坐标。

例如，在第N个时刻下，假设根据人脸识别技术确定的第一行人的全局坐标为A_i(x1_i，y1_i)，根据人体检测技术确定的第二行人的全局坐标为B_i(x2_i，y2_i)，通过公式

计算A_i点和B_i点之间的距离，如果距离小于或等于预设阈值，那么可以确定第一行人和第二行人为同一人，即目标行人。

又示例的，在多个(至少两个)时刻下，例如第N-1、N以及第N+1时刻下，可以分别根据人脸识别技术和人体检测技术确定第一行人和第二行人在这三个时刻下的位置信息，并分别计算在这三个时刻下二者之间的距离，如果在这三个时刻下二者之间的距离均小于或等于预设阈值，那么可以确定第一行人和第二行人为同一人，即目标行人。这样，可以提高确定目标行人的准确性。

在一些实施例中，第一行人在N个时刻的位置信息是在系统中预先配置好的。具体的，在通过人脸识别技术进行监控时，如果摄像头1用于监控区域A，那么会在摄像头1中提取配置好该区域A的位置坐标，从而得到第一行人在N个时刻的位置信息。

第二行人的运动轨迹，即第二行人在N个时刻的位置信息是实时变化的。具体的，在通过人体检测技术进行监控时，可以采用单目视觉定位算法将像素位置转化成坐标，从而得到第二行人在N个时刻的位置信息，进而得到该第二行人的运动轨迹。

其中，单目视觉定位算法是根据监控相机的安装位置与内部参数，以将跟踪目标(例如第二行人)的图像像素位置转化为世界坐标系下的投影在地面的二维坐标，从而实现第二行人的运动轨迹的生成与显示。

在一些实施例中，在第一行人和第二行人同为目标行人的情况下，由于在S303中确定了第二行人的运动轨迹，因此，目标行人的运动轨迹即为第二行人的运动轨迹。

由于将第一行人在N个时刻的位置坐标组合起来可以构成第一行人的运动轨迹，因此，第一行人的跟踪数据可以包括第一行人的运动轨迹，其中，该第一行人的运动轨迹包括该第一行人在N个时刻的位置信息。

由于在S302中确定了第一行人的身份信息，在S303中确定了第二行人的运动轨迹，且第一行人和第二行人为目标行人，因此可得，确定的第一行人的身份信息，即为目标行人的身份信息；确定的第二行人的运动轨迹，即为目标行人的运动轨迹。这样，可以根据第二行人的运动轨迹确定目标行人的运动轨迹，并且将第一行人的身份信息作为目标行人的身份信息，于是得到了目标行人的跟踪数据；即，建立目标行人的运动轨迹和目标行人的身份信息之间的映射关系(也称作对应关系)。当出现例如人体被部分遮挡、人体姿态变化较大等情况时，由于建立了目标行人的运动轨迹和身份信息之间的映射关系，因此只要行人的人脸未被全部遮挡，能够识别出该行人的身份信息，就能够将上述情况出现前后的两个行人的运动轨迹与同一个第一行人的身份信息相对应，从而降低采用人体检测方法进行行人跟踪时目标跟踪丢失的概率。

在一些实施例中，上述S304可以由S304a实现。

S304a、根据第一行人的运动轨迹和第二行人的运动轨迹，生成目标行人的运动轨迹。如图5所示，本实施例中提供的行人跟踪的方法还可以包括下述的S305～S306。

S305、接收第一访问指令。

其中，上述第一访问指令被配置为访问目标行人的跟踪数据。

S306、输出访问结果或第一界面。

本实施例中，在终端上显示用户交互界面，该用户界面可以由终端上安装的浏览器或者应用程序呈现。例如，用户可以通过点击在用户交互界面上显示的查看按钮，以触发终端向服务器发送访问目标行人的跟踪数据的请求。

在一些实施例中，服务器可以直接输出访问结果。示例的，服务器在获得访问结果后，可以通过该服务器中包括的输出装置(例如显示屏)输出所获得的访问结果。

其中，上述访问结果包括：目标行人的身份信息和目标行人的运动轨迹。

在另一些实施例中，如图6所示，服务器可以输出第一界面，并将该第一界面传送至终端，以使得在终端的显示屏上显示该第一界面，其中，第一界面可以被配置为展示访问结果。

在一些实施例中，在确定了目标行人的运动轨迹后，可以根据该目标行人的运动轨迹，获取目标行人的分布区域和目标行人在分布区域的停留时间，从而可以使得在终端的显示屏上，不仅可以展示目标行人的身份信息和目标行人的运动轨迹，还可以展示目标行人的分布区域和目标行人在分布区域的停留时间。

在另一些实施例中，从第一视频数据中的至少部分第一图像中提取目标行人的图像，或者，从第二视频数据中的至少部分第二图像中提取所述目标行人的图像，从而可以使得在终端的显示屏上，不仅可以展示目标行人的身份信息和目标行人的运动轨迹，还可以展示目标行人的图像。

在又一些实施例中，从第一视频数据中的至少部分第一图像中提取目标行人的图像，以及从第二视频数据中的至少部分第二图像中提取所述目标行人的图像，从而可以使得在终端的显示屏上，不仅可以展示目标行人的身份信息和目标行人的运动轨迹，还可以展示目标行人的图像。

如图5所示，本实施例提供的一种行人跟踪的方法还可以包括下述的S307～S308。

S307、接收第二访问指令。

其中，上述第二访问指令被配置为访问统计结果。

S308、输出统计结果或第二界面。

其中，上述统计结果包括第一数据、第二数据、第三数据和第四数据中的至少一个；第二界面被配置为展示统计结果。

第一数据为当前时间在至少一个分布区域内的目标行人的总人数，如图7所示，在当前时间，在区域A、区域B、区域C和区域D中共有3761人。

第二数据为当前时间目标行人在至少一个分布区域内的停留时间处于不同预设时间区间的第一人数或第一比例，该第一比例为第一人数与总人数的比例。如图7所示，以预设时间为15分钟为例，在0～15分钟内，停留在区域A、区域B、区域C和区域D中的第一比例为99.97％。

第三数据为在至少一个分布区域为多个的情况下，在一个时间段中每个分布区域内的目标行人的第二人数或第二比例，该第二比例为第二人数与总人数的比例。如图7所示，在具有4个区域，即具有区域A、区域B、区域C和区域D的情况下，以预设时间为15分钟为例，在0～15分钟内，停留在区域B中的人数占总人数的第二比例为80％。

第四数据为在历史时间段内的不同时刻，在至少一个分布区域内的目标行人的总人数。以历史时间段为过去24小时为例，如图7所示，示出了过去24小时内的各个时刻的总人数。

在一些实施例中，可以根据在至少一个分布区域内各个目标行人的运动轨迹，进行数据统计，得到所述统计结果。

需要说明的是，本实施例中，上述各个附图所示的行人跟踪的方法均是以结合本实施例中的一个附图为例示例性的说明的。具体实现时，上述各个附图所示的行人跟踪的方法还可以结合上述实施例中示意的其它可以结合的任意附图实现，此处不再赘述。

如图8所示，本实施例提供一种行人跟踪装置，该行人跟踪装置可以包括获取模块701和处理模块702。其中获取模块701，被配置为获取至少一个第一视频数据和至少一个第二视频数据，每个第一视频数据包含多帧第一图像，每个第二视频数据包含多帧第二图像；处理模块702，被配置为对获取模块701获取的多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据，第一行人的跟踪数据包括：第一行人的身份信息和第一行人在N个时刻的位置信息；N大于或等于1；处理模块702，还被配置为对获取模块701获取的多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据，第二行人的跟踪数据包括：第二行人的运动轨迹；该第二行人的运动轨迹包括第二行人在多个时刻的位置信息；处理模块702，还被配置为在第一行人在N个时刻的位置信息与第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据；目标行人的跟踪数据包括：目标行人的身份信息和目标行人的运动轨迹，其中第一行人和第二行人同为目标行人，目标行人的身份信息根据第一行人的身份信息确定，目标行人的运动轨迹至少根据第二行人的运动轨迹确定。

在一些实施例中，处理模块702，具体被配置为检测至少部分第一图像中的每个第一图像是否有行人的人脸；在检测到有第一行人的人脸的情况下，获取第一行人的人脸特征信息，并将第一行人的人脸特征信息与人脸数据库中的人脸特征信息进行比对；人脸数据库中包含多个人脸特征信息和与多个人脸特征信息分别对应的行人的身份信息；若比对成功，则将所述人脸数据库中与第一行人的人脸特征信息匹配的行人的身份信息作为第一行人的身份信息；或者，若比对失败，则记录第一行人的人脸特征信息。

在一些实施例中，处理模块702，具体被配置为获取多帧第二图像中的至少部分第二图像中的每个第二图像中的行人框，并基于获取的各个所述行人框，得到第二行人的跟踪数据，其中，行人框为根据每个第二图像中检测到的人体而标注的框形。

在一些实施例中，处理模块702，具体被配置为利用训练过的神经网络模型处理各个所述行人框所对应的图像块，以获取各个行人框对应的图像块的特征向量；基于各个行人框中的每个行人框的特征向量确定至少一个行人的行人轨迹，将至少一个行人的行人轨迹作为第二行人的跟踪数据，其中，至少一个行人中每个行人对应一个行人轨迹。

在一些实施例中，处理模块702，具体被配置为通过如下公式分别计算N个时刻中的每个时刻，第一行人的全局坐标与第二行人的全局坐标之间的距离；

对于N个时刻中的每个时刻，如果第一行人的全局坐标A_i和第二行人的全局坐标B_i之间距离均小于或等于预设阈值，则确定第一行人和第二行人同为目标行人；其中，在第i个时刻下，第一行人的全局坐标为A_i(x1_i，y1_i)，第二行人的全局坐标为B_i(x2_i，y2_i)，1≤i≤N；位置信息包括全局坐标，该全局坐标为行人在全局坐标系中的坐标。

在一些实施例中，目标行人的运动轨迹为第二行人的运动轨迹；或者，第一行人的跟踪数据包括：第一行人的身份信息和第一行人的运动轨迹，第一行人的运动轨迹包括第一行人在N个时刻的位置信息；处理模块，具体配置为根据第一行人的运动轨迹和第二行人的运动轨迹，生成目标行人的运动轨迹。

在一些实施例中，如图8所示，本实施例提供的行人跟踪装置还包括接收模块703，该接收模块703，被配置为从第一摄像设备处接收第一视频数据，从第二摄像设备处接收第二视频数据，其中，第一摄像设备和第二摄像设备不同；或者，接收模块703被配置为从第三摄像设备处接收第一视频数据和第二视频数据。在一些实施例中，如图8所示，本实施例提供的行人跟踪装置还包括第一输出模块704，接收模块703，还被配置为接收第一访问指令，该第一访问指令被配置为访问目标行人的跟踪数据；第一输出模块704，被配置为输出访问结果或第一界面，第一界面被配置为展示访问结果，访问结果包括：所述目标行人的身份信息和所述目标行人的运动轨迹。

在一些实施例中，处理模块702，还被配置为根据目标行人的运动轨迹，获取目标行人的分布区域和目标行人在分布区域的停留时间；和/或，处理模块702，还被配置为从多帧第一图像中的至少部分第一图像中提取目标行人的图像；和/或，处理模块702，还被配置为从多帧第二图像中的至少部分第二图像中提取目标行人的图像；在行人跟踪的方法包括输出访问结果或第一界面的情况下，访问结果还包括：目标行人的图像、目标行人的分布区域和目标行人在分布区域的停留时间中的至少一种。

在一些实施例中，本实施例提供的行人跟踪装置还包括第二输出模块，接收模块，还被配置为接收第二访问指令，该第二访问指令被配置为访问统计结果；第二输出模块，被配置为输出统计结果或第二界面，第二界面被配置为展示统计结果；统计结果包括：第一数据，第二数据，第三数据和第四数据中的至少一个；其中，第一数据为当前时间在至少一个分布区域内的目标行人的总人数；第二数据为当前时间目标行人在至少一个分布区域内的停留时间处于不同预设时间区间的第一人数或第一比例，第一比例为第一人数与所述总人数的比例；第三数据为在至少一个分布区域为多个的情况下，在时间段中每个分布区域内的目标行人的第二人数或第二比例，第二比例为所述第二人数与所述总人数的比例；第四数据为在历史时间段内的不同时刻，在至少一个分布区域内的目标行人的总人数。

如图2所示，为本实施例提供的一种可能的服务器的硬件结构图。由图2得出，存储器202包括操作系统和指令(例如计算机指令)，其中，在该计算机指令中可以包括4层，其分别为：应用层、算法层、基础层和用户层。

其中，包括在应用层中的视频流处理模块，可以对一个视频数据(例如第一视频数据)进行处理，以生成多帧图像(例如第一图像)；再由包括在算法层中的人脸识别算法(用于实现上述S302)对生成的多帧图像进行处理，以生成该人脸所对应的行人(例如第一行人)的跟踪数据(例如身份信息)，以及包括在算法层中的人体检测和跟踪算法(用于实现上述S303)对生成的多帧图像进行处理，以生成行人(例如第二行人)的跟踪数据(例如运动轨迹)。其中，在利用人体检测和跟踪算法生成第二行人的运动轨迹的过程中，可以利用包括在算法层中的视觉定位算法，对多帧图像中的像素位置转化成坐标，从而得到第二行人在N个时刻的位置信息，进而得到该第二行人的运动轨迹。

基础层中可以数据库、存储的数据以及网络组件。其中，数据库可以为关系型数据库，其中存储有多个人脸的人脸特征信息与之对应的身份信息；存储的数据中可以包括行人(例如第一行人)的跟踪数据(例如身份信息)；网络组件可以是服务器与终端或者其他设备进行连接的网络接口。

在算法层生成第一行人的跟踪数据以及第二行人的跟踪数据后，可以将这些结果输入至用户层，在用户层得到这些结果后，用户层可以展示这些结果，例如第一行人的身份信息、运动轨迹、滞留区域以及该第一行人的画像中的至少一种。

本领域技术人员应该理解，关系型数据库是建立在关系模型基础上的数据库，借助于集合代数等数学概念和方法来处理数据库中的数据，其是由多张能互相联接的二维行列表格组成的数据库。

本发明实施例还提供了一种服务器，用以实施上述实施例描述的行人跟踪的方法。

在一些实施例中，服务器可以包括存储器和处理器，其中，存储器用于存储计算机指令，处理器用于运行计算机指令，使得服务器实现上述实施例描述的行人跟踪的方法。

本发明实施例还提供了一种行人跟踪系统，该行人跟踪系统包括存储器、处理器、第一摄像设备和第二摄像设备，其中，存储器用于存储计算机指令，处理器用于运行计算机指令，使得服务器实现上述任一实施例所述的行人跟踪的方法，第一摄像设备用于获取至少一个第一视频数据，第二摄像设备用于获取至少一个第二视频数据。

本发明实施例还提供一种计算机可读存储介质，例如，非瞬态计算机可读存储介质，该非瞬态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述各个行人跟踪的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，该计算机可读存储介质可以包括只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行人跟踪的方法，其特征在于，包括：

获取至少一个第一视频数据和至少一个第二视频数据，每个第一视频数据包含多帧第一图像，每个第二视频数据包含多帧第二图像；

对所述多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据，所述第一行人的跟踪数据包括：所述第一行人的身份信息和所述第一行人在N个时刻的位置信息；N大于或等于1；

对所述多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据，所述第二行人的跟踪数据包括：所述第二行人的运动轨迹；所述第二行人的运动轨迹包括第二行人在多个时刻的位置信息；

在所述第一行人在N个时刻的位置信息与所述第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据；所述目标行人的跟踪数据包括：所述目标行人的身份信息和所述目标行人的运动轨迹，其中所述第一行人和所述第二行人同为所述目标行人，所述目标行人的身份信息至少根据所述第一行人的身份信息确定，所述目标行人的运动轨迹至少根据所述第二行人的运动轨迹确定。

2.根据权利要求1所述的行人跟踪的方法，其特征在于，对所述多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据，包括：

检测所述至少部分第一图像中的每个第一图像是否有行人的人脸；

在检测到有第一行人的人脸的情况下，获取所述第一行人的人脸特征信息，并将所述第一行人的人脸特征信息与人脸数据库中的人脸特征信息进行比对；所述人脸数据库中包含多个人脸特征信息和与所述多个人脸特征信息分别对应的行人的身份信息；

若比对成功，则将所述人脸数据库中与所述第一行人的人脸特征信息匹配的行人的身份信息作为所述第一行人的身份信息；或者，若比对失败，则记录所述第一行人的人脸特征信息。

3.根据权利要求1所述的行人跟踪的方法，其特征在于，对所述多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据，包括：

获取所述多帧第二图像中的至少部分第二图像中的每个第二图像中的行人框，并基于获取的各个所述行人框，得到第二行人的跟踪数据，其中，所述行人框为根据在每个所述第二图像中检测到的人体而标注的框形。

4.根据权利要求3所述的行人跟踪的方法，其特征在于，基于获取的各个所述行人框，得到第二行人的跟踪数据，包括：

利用训练过的神经网络模型处理各个所述行人框所对应的图像块，以获取各个所述行人框对应的图像块的特征向量；

基于各个所述行人框中的每个行人框的特征向量确定至少一个行人的行人轨迹，将所述至少一个行人的行人轨迹作为所述第二行人的跟踪数据，其中，至少一个行人中每个行人对应一个行人轨迹。

5.根据权利要求1所述的行人跟踪的方法，其特征在于，在所述第一行人在N个时刻的位置信息与所述第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据，包括：

通过如下公式分别计算N个时刻中的每个时刻，所述第一行人的全局坐标与所述第二行人的全局坐标之间的距离；

对于N个时刻中的每个时刻，如果所述第一行人的全局坐标A_i和所述第二行人的全局坐标B_i之间距离均小于或等于预设阈值，则确定第一行人和第二行人同为所述目标行人；

其中，在第i个时刻下，所述第一行人的全局坐标为A_i(x1_i，y1_i)，所述第二行人的全局坐标为B_i(x2_i，y2_i)，1≤i≤N；所述位置信息包括所述全局坐标，所述全局坐标为行人在全局坐标系中的坐标。

6.根据权利要求1所述的行人跟踪的方法，其特征在于，

所述目标行人的运动轨迹为所述第二行人的运动轨迹；

或者，

所述第一行人的跟踪数据包括：所述第一行人的身份信息和所述第一行人的运动轨迹，所述第一行人的运动轨迹包括所述第一行人在N个时刻的位置信息；

在所述第一行人在N个时刻的位置信息与所述第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，所述确定目标行人的跟踪数据，包括：根据所述第一行人的运动轨迹和所述第二行人的运动轨迹，生成所述目标行人的运动轨迹。

7.根据权利要求1～6任一项所述的行人跟踪的方法，其特征在于，还包括：

从第一摄像设备处接收所述第一视频数据，从第二摄像设备处接收所述第二视频数据，其中，所述第一摄像设备和所述第二摄像设备不同；

或者，从第三摄像设备处接收所述第一视频数据和所述第二视频数据。

8.根据权利要求1～6任一项所述的行人跟踪的方法，其特征在于，还包括：

接收第一访问指令，所述第一访问指令被配置为访问所述目标行人的跟踪数据；

输出访问结果或第一界面，所述第一界面被配置为展示所述访问结果，所述访问结果包括：所述目标行人的身份信息和所述目标行人的运动轨迹。

9.根据权利要求1～6任一项所述的行人跟踪的方法，其特征在于，还包括：

根据所述目标行人的运动轨迹，获取所述目标行人的分布区域和所述目标行人在所述分布区域的停留时间；

和/或，

从所述多帧第一图像中的至少部分第一图像中提取所述目标行人的图像；

和/或，

从所述多帧第二图像中的至少部分第二图像中提取所述目标行人的图像；

在所述行人跟踪的方法包括输出访问结果或第一界面的情况下，所述访问结果还包括：所述目标行人的图像、所述目标行人的分布区域和所述目标行人在所述分布区域的停留时间中的至少一种。

10.根据权利要求9所述的行人跟踪的方法，其特征在于，还包括：

接收第二访问指令，所述第二访问指令被配置为访问统计结果；

输出统计结果或第二界面，所述第二界面被配置为展示所述统计结果；所述统计结果包括：第一数据，第二数据，第三数据和第四数据中的至少一个；

其中，所述第一数据为当前时间在至少一个分布区域内的目标行人的总人数；

所述第二数据为当前时间目标行人在所述至少一个分布区域内的停留时间处于不同预设时间区间的第一人数或第一比例，所述第一比例为所述第一人数与所述总人数的比例；

所述第三数据为在所述至少一个分布区域为多个的情况下，在所述时间段中每个分布区域内的目标行人的第二人数或第二比例，所述第二比例为所述第二人数与所述总人数的比例；

所述第四数据为在历史时间段内的不同时刻，在所述至少一个分布区域内的目标行人的总人数。

11.一种行人跟踪装置，其特征在于，包括获取模块和处理模块；

所述获取模块，被配置为获取至少一个第一视频数据和至少一个第二视频数据，每个第一视频数据包含多帧第一图像，每个第二视频数据包含多帧第二图像；

所述处理模块，被配置为对所述获取模块获取的所述多帧第一图像中的至少部分第一图像进行人脸识别，得到第一行人的跟踪数据，所述第一行人的跟踪数据包括：所述第一行人的身份信息和所述第一行人在N个时刻的位置信息；N大于或等于1；

所述处理模块，还被配置为对所述获取模块获取的所述多帧第二图像中的至少部分第二图像进行人体检测，得到第二行人的跟踪数据，所述第二行人的跟踪数据包括：所述第二行人的运动轨迹；所述第二行人的运动轨迹包括第二行人在多个时刻的位置信息；

所述处理模块，还被配置为在所述第一行人在N个时刻的位置信息与所述第二行人的运动轨迹在相同时刻的位置信息之间的偏差在预设范围之内的情况下，确定目标行人的跟踪数据；所述目标行人的跟踪数据包括：所述目标行人的身份信息和所述目标行人的运动轨迹，其中所述第一行人和所述第二行人同为所述目标行人，所述目标行人的身份信息至少根据所述第一行人的身份信息确定，所述目标行人的运动轨迹至少根据所述第二行人的运动轨迹确定。

12.根据权利要求11所述的行人跟踪装置，其特征在于，

所述处理模块，具体被配置为检测所述至少部分第一图像中的每个第一图像是否有行人的人脸；在检测到有第一行人的人脸的情况下，获取所述第一行人的人脸特征信息，并将所述第一行人的人脸特征信息与人脸数据库中的人脸特征信息进行比对；所述人脸数据库中包含多个人脸特征信息和与所述多个人脸特征信息分别对应的行人的身份信息；

13.根据权利要求11所述的行人跟踪装置，其特征在于，

所述处理模块，具体被配置为获取所述多帧第二图像中的至少部分第二图像中的每个第二图像中的行人框，并基于获取的各个所述行人框，得到第二行人的跟踪数据，其中，所述行人框为根据在每个所述第二图像中检测到的人体而标注的框形。

14.根据权利要求13所述的行人跟踪装置，其特征在于，

所述处理模块，具体被配置为利用训练过的神经网络模型处理各个所述行人框所对应的图像块，以获取各个所述行人框对应的图像块的特征向量；

15.根据权利要求11所述的行人跟踪装置，其特征在于，

所述处理模块，具体被配置为通过如下公式分别计算N个时刻中的每个时刻，所述第一行人的全局坐标与所述第二行人的全局坐标之间的距离；

对于N个时刻中的每个时刻，如果所述第一行人的全局坐标A_i和所述第二行人的全局坐标B_i之间距离均小于或等于预设阈值，则确定所述第一行人和所述第二行人同为所述目标行人；

16.根据权利要求11所述的行人跟踪装置，其特征在于，

所述目标行人的运动轨迹为所述第二行人的运动轨迹；

或者，

所述处理模块，具体被配置为根据所述第一行人的运动轨迹和所述第二行人的运动轨迹，生成所述目标行人的运动轨迹。

17.根据权利要求11～16任一项所述的行人跟踪装置，其特征在于，还包括接收模块；

所述接收模块，被配置为从第一摄像设备处接收所述第一视频数据，从第二摄像设备处接收所述第二视频数据，其中，所述第一摄像设备和所述第二摄像设备不同；

或者，所述接收模块被配置为从第三摄像设备处接收所述第一视频数据和所述第二视频数据。

18.一种服务器，其特征在于，包括：存储器和处理器，存储器用于存储计算机指令，处理器用于运行所述计算机指令，使得服务器实现上述权利要求1～10任一项所述的行人跟踪的方法。

19.一种行人跟踪系统，其特征在于，包括，存储器、处理器、第一摄像设备和第二摄像设备，其中，所述存储器用于存储计算机指令，所述处理器用于运行所述计算机指令，使得服务器实现上述权利要求1～10任一项所述的行人跟踪的方法，所述第一摄像设备用于获取所述至少一个第一视频数据，所述第二摄像设备用于获取所述至少一个第二视频数据。

20.一种计算机可读存储介质，其特征在于，用于存储计算机指令，使得服务器执行所述计算机指令时，实现上述权利要求1～10任一项所述的行人跟踪的方法。