CN110427905B

CN110427905B - 行人跟踪方法、装置以及终端

Info

Publication number: CN110427905B
Application number: CN201910731655.9A
Authority: CN
Inventors: 苏翔博; 钟东宏; 袁宇辰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2023-06-20
Anticipated expiration: 2039-08-08
Also published as: CN110427905A

Abstract

本发明实施例提出一种行人跟踪方法、装置以及终端，方法包括：对从视频中提取的图像中的行人进行检测，标识出多个行人检测框；对图像中的人脸进行检测，标识出多个人脸检测框；将图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果，并根据匹配结果标识出多个人体框；对人体框进行跟踪计算，得到行人跟踪结果。减少了行人被遮挡、行人变换角度姿态所引起的行人漏检问题，保证在人群密集场景的可用性，有效提高了鲁棒性。

Description

行人跟踪方法、装置以及终端

技术领域

本发明涉及图像处理技术领域，尤其涉及一种行人跟踪方法、装置以及终端。

背景技术

近些年，随着人工智能技术的不断发展，行人跟踪功能被逐渐应用于监控安防、智慧零售、智慧城市等领域。

对于诸如道路卡口、商场、门店等区域，往往通过设置监控摄像头来对来往人群进行监视。可以利用行人跟踪技术对监控图像的所有来往行人进行持续检测，对同一行人持续跟踪。在获得行人跟踪结果后，利用人体属性识别技术获取其外观属性特征，利用行人身份再识别技术进行跨摄像头搜寻行人，利用流量统计技术统计进出各区域的人流量。其中，行人跟踪技术是先决条件，对于人工智能在监控安防、智慧零售及智慧城市的应用具有很大意义。然而，由于监控摄像头往往安装在3-5米高度，并向斜下方进行拍摄。在人群密集时会出现行人相互遮挡，行人突然蹲下等姿态变换等情况，会使行人检测器漏检，而仅露出人头部位可见。导致无法获得该行人的位置和尺寸信息，使得跟踪结果中断或输出错误的跟踪结果。

发明内容

本发明实施例提供一种行人跟踪方法、装置以及终端，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种行人跟踪方法，包括：

对从视频中提取的图像中的行人进行检测，标识出多个行人检测框；

对所述图像中的人脸进行检测，标识出多个人脸检测框；

将所述图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果，并根据所述匹配结果标识出多个人体框；

对所述人体框进行跟踪计算，得到行人跟踪结果。

在一种实施方式中，将所述图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果，包括：

根据所述图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算所述行人检测框和人脸检测框之间的匹配相似度；

对多个匹配相似度形成的匹配相似度矩阵进行计算，得到所述匹配结果。

在一种实施方式中，根据所述匹配结果标识出多个人体框，包括：

所述匹配结果为所述行人检测框和所述人脸检测框之间匹配不成功的情况下，则对未匹配的人脸检测框进行缩放，生成新的行人检测框；

所述匹配结果为所述行人检测框和所述人脸检测框之间匹配成功的情况下，则去掉所述人脸检测框，保留所述行人检测框；

将保留的行人检测框和新的行人检测框标识为所述人体框。

在一种实施方式中，根据所述图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算所述行人检测框和人脸检测框之间的匹配相似度，包括：

根据所述人脸检测框的坐标信息(x1,y1,w1,h1)和所述行人检测框的坐标信息(x2,y2,w2,h2)，计算交并比；

在所述交并比等于0的情况下，匹配相似度为0；

其中，x1和y1为所述行人检测框左上角顶点的横坐标和纵坐标，w1为所述行人检测框的宽度，h1为所述行人检测框的高度；

x2和y2为所述行人检测框左上角顶点的横坐标和纵坐标，w2为所述行人检测框的宽度，h2为所述行人检测框的高度。

在一种实施方式中，根据所述图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算所述行人检测框和人脸检测框之间的匹配相似度，还包括：

在所述交并比大于0的情况下，根据所述行人脸检测框的坐标信息计算所述人脸检测框的第一中心点坐标(x1+w1/2,y1+h1/2)，根据所述行人检测框的坐标信息计算所述行人检测框的第二中心点坐标(x2+w2/2,y2+h2/2)；

根据所述第一中心点坐标和所述第二中心点坐标，计算第一中心点和第二中心点在横轴上的绝对偏移距离|x1+w1/2,y1+h1/2)|，匹配相似度为

其中，x1和y1为所述人脸检测框左上角顶点的横坐标和纵坐标，w1为所述人脸检测框的宽度，h1为所述人脸检测框的高度；

第二方面，提供了一种行人跟踪装置，包括：

行人检测框标识模块，用于对从视频中提取的图像中的行人进行检测，标识出多个行人检测框；

人脸检测框标识模块，用于对所述图像中的人脸进行检测，标识出多个人脸检测框；

匹配模块，用于将所述图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果；

人体框标识模块，用于根据所述匹配结果标识出多个人体框；

跟踪计算模块，用于对所述人体框进行跟踪计算，得到行人跟踪结果。

在一种实施方式中，所述匹配模块包括：

匹配相似度计算单元，用于根据所述图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算所述行人检测框和人脸检测框之间的匹配相似度；

匹配结果计算单元，用于对多个匹配相似度形成的匹配相似度矩阵进行计算，得到所述匹配结果。

在一种实施方式中，所述人体框标识模块包括：

人脸检测框缩放单元，用于所述匹配结果为所述行人检测框和所述人脸检测框之间匹配不成功的情况下，则对未匹配的人脸检测框进行缩放，生成新的行人检测框；

行人检测框保留单元，用于所述匹配结果为所述行人检测框和所述人脸检测框之间匹配成功的情况下，则去掉所述人脸检测框，保留所述行人检测框；

人体框标识单元，用于将保留的行人检测框和新的行人检测框标识为所述人体框。

在一种实施方式中，所述匹配相似度计算单元包括：

交并比计算子单元，用于根据所述人脸检测框的坐标信息(x1,y1,w1,h1)和所述行人检测框的坐标信息(x2,y2,w2,h2)，计算交并比；

匹配相似度第一计算子单元，用于在所述交并比等于0的情况下，匹配相似度为0；

在一种实施方式中，所述匹配相似度计算单元还包括：

中心点坐标计算单元，用于在所述交并比大于0的情况下，根据所述行人脸检测框的坐标信息计算所述人脸检测框的第一中心点坐标(x1+w1/2,y1+h1/2)，根据所述行人检测框的坐标信息计算所述行人检测框的第二中心点坐标(x2+w2/2,y2+h2/2)；

匹配相似度第二计算子单元，用于根据所述第一中心点坐标和所述第二中心点坐标，计算第一中心点和第二中心点在横轴上的绝对偏移距离|x1+w1/2,y1+h1/2)|，匹配相似度为

第三方面，本发明实施例提供了一种行人跟踪终端，所述行人跟踪终端的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述行人跟踪终端的结构中包括处理器和存储器，所述存储器用于存储支持所述行人跟踪终端执行上述行人跟踪方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述行人跟踪终端还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储交互终端所用的计算机软件指令，其包括用于执行上述行人跟踪方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：融合了人脸检测框和行人检测框，得到人体框，对人体框进行跟踪，实时输出监控画面中的行人跟踪结果。跟踪结果作为行人分析技术的基础，为后续如行人属性识别、行人流量统计、行人检索提供信息。既利用了全部的人体框的信息进行跟踪，以保证在大部分场景的可用性，又利用了基于人脸检测框-行人检测框形成映射的信息，减少了行人被遮挡、行人变换角度姿态所引起的行人漏检问题，保证在人群密集场景的可用性，有效提高了鲁棒性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的一种行人跟踪方法的流程图。

图2示出根据本发明实施例的一种行人跟踪方法的数据流示意图。

图3示出根据本发明实施例的另一种行人跟踪方法的流程图。

图4示出根据本发明实施例的一种行人跟踪装置的结构框图。

图5示出根据本发明实施例的另一种行人跟踪装置的结构框图。

图6示出根据本发明实施例的一种行人跟踪终端的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体实施方式中，提供了一种行人跟踪方法，如图1所示，包括如下步骤：

步骤S10：对从视频中提取的图像中的行人进行检测，标识出多个行人检测框；

步骤S20：对图像中的人脸进行检测，标识出多个人脸检测框；

步骤S30：将图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果，并根据匹配结果标识出多个人体框；

步骤S40：对人体框进行跟踪计算，得到行人跟踪结果。

在一种示例中，如图2所示，对一些场景中监控摄像头实时拍摄的视频，抽取多帧图像。图像首先经过预处理，被缩放成固定尺寸(如500像素*500像素)，再减去统一的RGB均值，例如[104,117,123]。预处理的目的是为了在参与模型训练的过程中，统一输入图像，增强模型鲁棒性。

然后，在任意基于深度学习的行人检测模型中，如SSD(直接多目标检测，SingleShot Multi Box Detector)模型、RefineDet(精细直接多目标检测，Single-ShotRefinement Neural Network for Object Detection)、MobileNet-SSD(基于针对移动端视觉应用的高效卷积神经网络的直接多目标检测，MobileNet based Single Shot MultiBox Detector)、YOLO(统一实时目标检测，You Only Look Once:Unified,Real-TimeObject Detection)模型等，输入预处理后的图像。对经过预处理的图像中的行人进行检测，输出一系列行人检测框。每个行人检测框包含行人的位置信息和尺寸信息，且每个行人检测框的区域以像素为单位。目的在于获取拍摄视频中提取的当前图像中，所有行人的位置信息和尺寸信息。同时，在人脸检测模型，如SSD模型、RefineDet模型、MobileNet-SSD模型、YOLO模型等，输入预处理后的图像。对经过预处理的图像中的行人进行检测，输出一系列人脸检测框。每个人脸检测框包含行人的人脸的位置信息和尺寸信息，且每个人脸检测框的区域以像素为单位。目的在于获取拍摄视频中提取的当前图像中，所有行人的人脸的位置信息和尺寸信息。然后，将预处理的图像中的多个人脸检测框和多个行人检测框，输入至人脸框和行人框融合模块中。利用行人检测模型获取的行人检测框的位置信息和尺寸信息，以及人脸检测模型获取的人脸检测框的位置信息和尺寸信息，对行人检测框和人脸检测框进行融合。该方法便于获取更为全面的人体框，解决因遮挡、下蹲等原因引起的行人身体大部分被遮挡而无法被行人检测模型检出的问题，因头部被遮挡而无法被人脸检测模型检出的问题。

最后，在当前图像中所得的每个人体框进行多目标跟踪算法，如DeepSORT(基于深度特征关联的简单在线实时跟踪算法，Simple Online and Realtime Tracking with aDeep Association Metric)、IOU Tracker(交并比跟踪算法，Intersection-over-Uniontracker)跟踪算法，输出行人跟踪结果。对视频抽取下一帧图像，重复上述过程，直至全部图像都处理结束。具体的，多目标跟踪算法的过程如下：首先使用ReID(行人重识别，PersonRe-identification)模型，例如，基于N-Pair metric learning(多类别多配对度量学习)训练的卷积神经网络模型、HOG(梯度直方图，Histogram of oriented gradient)模型等，进行特征提取。将提取到的特征向量与特征向量池中已有的行人特征向量进行匹配。如果当前图像的某个人体框与已有的人体框匹配成功，则认为当前图像的此人体框与已有的人体框属于同一行人。则在将当前图像的此人体框和已有的行人框标记为同一人，如同时标记有相同的身份识别码(ID)，即为得到当前图像的行人跟踪结果。之后，将当前图像的某个人体框提取到的特征向量加入特征向量池中，并将当前追踪结果添加到相应行人的跟踪轨迹上。如果当前图像的此人体框与已有的人体框未匹配上，可以判定当前图像的此人体框首次出现，为其分配新的ID，并记录。由于记录有每个出现过的行人在过去若干图像中的特征向量，通过多目标跟踪算法可以保留每个行人在整个轨迹过程中的特征信息。

在一种实施方式中，如图3所示，步骤S30包括：

步骤S301：根据图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算行人检测框和人脸检测框之间的匹配相似度；

步骤S302：对多个匹配相似度形成的匹配相似度矩阵进行计算，得到匹配结果。

在一种示例中，坐标信息包括位置信息和检测框的宽度和高度信息构成的坐标(x,y,w,h)，x是横坐标，y是纵坐标，w是检测框的宽度，h是检测框的高度。根据行人检测框的坐标信息和人脸检测框的坐标信息计算人检测框和人脸检测框两两之间的匹配相似度。匹配相似度能够衡量每对人脸检测框和行人检测框来自于同一人体的可能性。可以利用匈牙利算法对匹配相似度矩阵进行计算，对人脸检测框和行人检测框进行两两配对，并选出最匹配的人脸检测框和行人检测框。此算法的核心就是寻找增广路径，通过增广路径来求二分图最大匹配的一种算法。利用此算法有利于选出最匹配的人脸检测框和行人检测框。

在一种实施方式中，如图3所示，步骤S30还包括：

步骤S303：匹配结果为行人检测框和人脸检测框之间匹配不成功的情况下，则对未匹配的人脸检测框进行缩放，生成新的行人检测框；

步骤S304：匹配结果为行人检测框和人脸检测框之间匹配成功的情况下，则去掉人脸检测框，保留行人检测框；

步骤S305：将保留的行人检测框和新的行人检测框标识为人体框。

在一种示例中，根据未匹配的人脸检测框的坐标信息(x,y,w,h)，通过一定比例缩放和映射人脸检测框的位置，得到新的行人检测框。新的行人检测框和保留的行人检测框覆盖了全部的行人，避免了检测行人的遗漏问题。

在一种实施方式中，步骤S301包括：

根据人脸检测框的坐标信息(x1,y1,w1,h1)和行人检测框的坐标信息(x2,y2,w2,h2)，计算交并比；

在交并比等于0的情况下，匹配相似度为0。

其中，x1和y1为行人检测框左上角顶点的横坐标和纵坐标，w1为行人检测框的宽度，h1为所述行人检测框的高度；

x2和y2为行人检测框左上角顶点的横坐标和纵坐标，w2为所行人检测框的宽度，h2为行人检测框的高度。

在一种示例中，交并比在本实施方式中指的是人脸检测框和行人检测框目之间的交叠率。若交并比为0，则匹配相似度为0，表明人脸检测框和行人检测框并不是来自于同一人。

在一种实施方式中，步骤S301还包括：

在交并比大于0的情况下，根据行人脸检测框的坐标信息计算人脸检测框的第一中心点坐标(x1+w1/2,y1+h1/2)，根据行人检测框的坐标信息计算行人检测框的第二中心点坐标(x2+w2/2,y2+h2/2)；

根据第一中心点坐标和第二中心点坐标，计算第一中心点和第二中心点在横轴上的绝对偏移距离|x1+w1/2,y1+h1/2)|，匹配相似度为

其中，x1和y1为人脸检测框左上角顶点的横坐标和纵坐标，w1为人脸检测框的宽度，h1为人脸检测框的高度；

x2和y2为行人检测框左上角顶点的横坐标和纵坐标，w2为行人检测框的宽度，h2为行人检测框的高度。

在一种示例中，交并比大于0的情况下，计算人脸检测框和行人检测框之间的匹配相似度，便于后续对各个匹配相似度进行比较，选出最匹配的人脸检测框和行人检测框。

本实施方式提供行人跟踪方法，融合了人脸检测框和行人检测框，得到人体框，对人体框进行跟踪，实时输出监控画面中的行人跟踪结果。跟踪结果作为行人分析技术的基础，为后续如行人属性识别、行人流量统计、行人检索提供信息。该方法既利用了全部的人体框的信息进行跟踪，以保证在大部分场景的可用性，又利用了基于人脸检测框-行人检测框形成映射的信息，减少了行人被遮挡、行人变换角度姿态所引起的行人漏检问题，保证在人群密集场景的可用性，有效提高了鲁棒性。

实施例二

在另一种具体实施方式中，如图4所示，提供了一种行人跟踪装置，包括：

行人检测框标识模块10，用于对从视频中提取的图像中的行人进行检测，标识出多个行人检测框；

人脸检测框标识模块20，用于对所述图像中的人脸进行检测，标识出多个人脸检测框；

匹配模块30，用于将所述图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果；

人体框标识模块40，用于根据所述匹配结果标识出多个人体框；

跟踪计算模块50，用于对所述人体框进行跟踪计算，得到行人跟踪结果。

在一种实施方式中，如图5所示，所述匹配模块30包括：

匹配相似度计算单元301，用于根据所述图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算所述行人检测框和人脸检测框之间的匹配相似度；

匹配结果计算单元302，用于对多个匹配相似度形成的匹配相似度矩阵进行计算，得到所述匹配结果。

在一种实施方式中，如图5所示，所述人体框标识模块40包括：

人脸检测框缩放单元401，用于所述匹配结果为所述行人检测框和所述人脸检测框之间匹配不成功的情况下，则对未匹配的人脸检测框进行缩放，生成新的行人检测框；

行人检测框保留单元402，用于所述匹配结果为所述行人检测框和所述人脸检测框之间匹配成功的情况下，则去掉所述人脸检测框，保留所述行人检测框；

人体框标识单元403，用于将保留的行人检测框和新的行人检测框标识为所述人体框。

在一种实施方式中，所述匹配相似度计算单元包括：

在一种实施方式中，所述匹配相似度计算单元还包括：

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

实施例三

图6示出根据本发明实施例的行人跟踪终端的结构框图。如图6所示，该终端包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的行人跟踪方法。所述存储器910和处理器920的数量可以为一个或多个。

该终端还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行人跟踪方法，其特征在于，包括：

对所述图像中的人脸进行检测，标识出多个人脸检测框；

利用行人检测模型获取的行人检测框的位置信息和尺寸信息，以及人脸检测模型获取的人脸检测框的位置信息和尺寸信息，将所述图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果，并根据所述匹配结果标识出多个人体框；

对所述人体框进行跟踪计算，得到行人跟踪结果；

其中，所述根据所述匹配结果标识出多个人体框，包括：

在所述匹配结果为所述行人检测框和所述人脸检测框之间匹配不成功的情况下，则对未匹配的人脸检测框进行缩放，生成新的行人检测框；

将所述新的行人检测框标识为所述人体框；

其中，将所述图像中的多个行人检测框和多个人脸检测框进行匹配，得到匹配结果，包括：

对多个匹配相似度形成的匹配相似度矩阵进行计算，得到所述匹配结果；

其中，根据所述图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算所述行人检测框和人脸检测框之间的匹配相似度，还包括：

在所述交并比大于0的情况下，根据所述人脸检测框的坐标信息计算所述人脸检测框的第一中心点坐标(x1+w1/2,y1+h1/2)，根据所述行人检测框的坐标信息计算所述行人检测框的第二中心点坐标(x2+w2/2,y2+h2/2)；

根据所述第一中心点坐标和所述第二中心点坐标，计算第一中心点和第二中心点在横轴上的绝对偏移距离|x1+w1/2,y1+h1/2|，匹配相似度为

2.根据权利要求1所述的方法，其特征在于，根据所述匹配结果标识出多个人体框，包括：

将保留的行人检测框标识为所述人体框。

3.根据权利要求1所述的方法，其特征在于，根据所述图像中的多个行人检测框的坐标信息和多个人脸检测框的坐标信息，计算所述行人检测框和人脸检测框之间的匹配相似度，包括：

在所述交并比等于0的情况下，匹配相似度为0；

4.一种行人跟踪装置，其特征在于，包括：

人脸检测框标识模块，用于利用行人检测模型获取的行人检测框的位置信息和尺寸信息，以及人脸检测模型获取的人脸检测框的位置信息和尺寸信息，对所述图像中的人脸进行检测，标识出多个人脸检测框；

跟踪计算模块，用于对所述人体框进行跟踪计算，得到行人跟踪结果；

其中，所述人体框标识模块包括：

人脸检测框缩放单元，用于在所述匹配结果为所述行人检测框和所述人脸检测框之间匹配不成功的情况下，则对未匹配的人脸检测框进行缩放，生成新的行人检测框；

人体标识单元，用于将所述新的行人检测框标识为所述人体框；

其中，所述匹配模块包括：

匹配结果计算单元，用于对多个匹配相似度形成的匹配相似度矩阵进行计算，得到所述匹配结果；

其中，所述匹配相似度计算单元还包括：

中心点坐标计算单元，用于在所述交并比大于0的情况下，根据所述人脸检测框的坐标信息计算所述人脸检测框的第一中心点坐标(x1+w1/2,y1+h1/2)，根据所述行人检测框的坐标信息计算所述行人检测框的第二中心点坐标(x2+w2/2,y2+h2/2)；

匹配相似度第二计算子单元，用于根据所述第一中心点坐标和所述第二中心点坐标，计算第一中心点和第二中心点在横轴上的绝对偏移距离|x1+w1/2,y1+h1/2|，匹配相似度为

5.根据权利要求4所述的装置，其特征在于，所述人体框标识模块包括：

人体框标识单元，用于将保留的行人检测框标识为所述人体框。

6.根据权利要求4所述的装置，其特征在于，所述匹配相似度计算单元包括：

7.一种行人跟踪终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至3中任一项所述方法。

8.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3中任一项所述方法。