CN112581500A

CN112581500A - 用于在目标跟踪中匹配行人和人脸的方法和装置

Info

Publication number: CN112581500A
Application number: CN202011517332.9A
Authority: CN
Inventors: 陈任飞
Original assignee: Shanghai Li Ke Semiconductor Technology Co ltd
Current assignee: Shanghai Li Ke Semiconductor Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-30

Abstract

本发明提供了一种用于在目标跟踪中匹配行人和人脸的方法。该方法可以包括：获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；计算每一个行人边框与每一个人脸边框的重叠系数；计算每一个行人边框与每一个人脸边框的偏移系数；将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。此外，本发明还提供了用于在目标跟踪中匹配行人和人脸的装置和计算机可读介质。通过本发明，能够精准地实现目标跟踪中人脸和行人的匹配。

Description

用于在目标跟踪中匹配行人和人脸的方法和装置

技术领域

本发明涉及计算机视觉领域，更具体地，涉及在目标跟踪中匹配行人和人脸的方法和装置。

背景技术

随着安防领域需求的不断增多，计算机视觉技术应用也越加广泛。行人跟踪和人脸跟踪已经成为重要的运用场景。在该场景中，为了避免直接对人脸进行跟踪，通常会利用目标跟踪算法实现对行人的跟踪，然后利用目标检测算法获得人脸的检测结果，最后通过某种匹配算法将人脸和行人进行匹配对应，即可实现对人脸的跟踪。现有的匹配技术方案通常采取这样的方式：根据人脸和行人的重叠关系来判断，与给定行人重叠度最高的人脸即为被匹配的人脸。这种技术方案的缺点有两点，一是单纯的重叠关系并不能较为有效地反应人体与人脸的匹配程度，导致匹配算法不够准确；二是在行人较为密集的情况下，局部重叠情况不能很好地反映整体的匹配关系，导致匹配错误的情况较多。

相应地，本领域中存在对于能够使得行人和人脸的匹配更加精准的技术的需要。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

鉴于以上描述的现有技术中的缺陷，本发明的目的在于，在目标跟踪中精准地实现人脸和行人的匹配。

根据本发明的第一方面，提供了一种用于在目标跟踪中匹配行人和人脸的方法。该方法可以包括：获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；计算每一个行人边框与每一个人脸边框的重叠系数，该重叠系数反映人脸边框和行人边框的重叠情况；计算每一个行人边框与每一个人脸边框的偏移系数，该偏移系数反映人脸边框和行人边框的相对偏移；将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

根据本发明的第二方面，提供了一种用于在目标跟踪中匹配行人和人脸的装置。该装置可以包括存储器；以及耦合至该存储器的处理器，其中该处理器被配置成：获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；计算每一个行人边框与每一个人脸边框的重叠系数，该重叠系数反映人脸边框和行人边框的重叠情况；计算每一个行人边框与每一个人脸边框的偏移系数，该偏移系数反映人脸边框和行人边框的相对偏移；将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

根据本发明的第三方面，提供了一种用于在目标跟踪中匹配行人和人脸的装置。该装置可以包括边框获得模块，其配置成获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；重叠系数计算模块，其配置成计算每一个行人边框与每一个人脸边框的重叠系数，该重叠系数反映人脸边框和行人边框的重叠情况；偏移系数计算模块，其配置成计算每一个行人边框与每一个人脸边框的偏移系数，该偏移系数反映人脸边框和行人边框的相对偏移；加权求和模块，其配置成将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及匹配关系确定模块，其配置成基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

根据本发明的第四方面，提供了一种存储计算机程序的计算机可读介质，该计算机程序在由处理器执行时执行根据本发明的方法。

通过采用本发明提供的技术方案，能够使得目标跟踪中行人和人脸的匹配更加精准。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1解说了根据现有技术的用于在目标跟踪中匹配行人和人脸的方法的流程图。

图2解说了根据本发明的一个示例性实施例的用于在目标跟踪中匹配行人和人脸的方法的流程图。

图3解说了根据本发明的一个示例性实施例的描绘行人边框和人脸边框的示意图。

图4解说了根据本发明的一个示例性实施例的用于在目标跟踪中匹配行人和人脸的装置的框图。

图5解说了根据本发明的一个示例性实施例的用于在目标跟踪中匹配行人和人脸的装置的框图。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

图1解说了根据现有技术的用于在目标跟踪中匹配行人和人脸的方法100 的流程图。在框110，方法100可以包括获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框。在一个示例中，该视频帧可以通过图像/视频采集设备(例如，相机，摄像头等)来获得，并且可以存储在计算设备的存储器中。在一个示例中，行人边框可以通过公知的目标跟踪算法来获得，并且人脸边框可以通过公知的目标检测算法来获得。在图1所示的示例中，在视频帧中检测到一个行人和两个人脸并且因此可以得到人脸框A、行人框B和人脸框C。为了确定是人脸框A与行人框B相匹配，还是人脸框C与行人框B相匹配，方法100可以包括在框120处计算人脸框A与行人框B的重叠率以及人脸框C与行人框B的重叠率。随后，在框130 处，方法100可以包括比较所计算出的两个重叠率，并且在框140处，方法100 可以包括将与最大重叠率相对应的匹配关系确定为人脸与行人的匹配关系。如以上提及的，方法100可能有两个缺点，一是单纯的重叠关系并不能较为有效地反应人体与人脸的匹配程度，导致匹配算法不够准确；二是在行人较为密集的情况下，局部重叠情况不能很好地反映整体的匹配关系，导致匹配错误的情况较多。

图2解说了根据本发明的一个示例性实施例的用于在目标跟踪中匹配行人和人脸的方法200的流程图。在一些示例中，方法200可由图4中解说的装置400 和/或图5中解说的装置500来执行。在一些示例中，方法200可由用于执行下述功能或算法的任何合适的设备或装置来执行。

在框210，方法200可以包括获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框。在一个示例中，该视频帧可以通过图像/视频采集设备(例如，相机，摄像头等)来获得，并且可以存储在计算设备的存储器中。在一个示例中，行人边框可以通过公知的目标跟踪算法来获得，并且人脸边框可以通过公知的目标检测算法来获得。

可任选地，在获得行人边框和人脸边框之后，方法200可以包括获得每一个行人边框和每一个人脸边框的坐标信息。图3解说了根据本发明的一个示例性实施例的描绘行人边框和人脸边框的示意图300。如图3所示，以视频帧图像的左上角为坐标原点，x轴表示宽度方向，并且y轴表示高度方向。每个边框的坐标信息可以包括边框的左上角顶点坐标(x，y)，边框宽度w和边框高度h，因此每一个边框可被表示为：box＝(x，w,w,h)。在其他示例中，还可以构想将视频帧图像的左下角、右上角、右下角、或者中点作为坐标原点，并且还可以构想每个边框的坐标信息可以包括边框的左下角、右上角、右下角、或者中点的坐标。在图3的示例中，示出了三个人脸边框(实线框)(人脸A、人脸B和人脸C)和三个行人边框(虚线框)(行人1、行人2和行人3)。方法200可被用于确定哪个行人边框与哪个人脸边框相匹配。

在框220，方法200可以包括计算每一个行人边框与每一个人脸边框的重叠系数，该重叠系数反映人脸边框和行人边框的重叠情况。在一个实施例中，重叠系数可以通过式(1)来计算：

其中overlap_ij表示视频帧中第i个人脸边框与视频帧中第j个行人边框的重叠系数，i＝{1，2，……，视频帧中人脸边框的数目}，j＝{1，2，……，视频帧中行人边框的数目}，box_i表示第i个人脸边框，box_j表示第j个行人边框。参照图3，由于存在3个人脸边框和3个行人边框，因此总共可以得到9个重叠系数，即，overlap_A1、overlap_A2、overlap_A3、overlap_B1、overlap_B2、overlap_B3、overlap_C1、 overlap_C2和overlap_C3。

在框230，方法200可以包括计算每一个行人边框与每一个人脸边框的偏移系数，该偏移系数反映人脸边框和行人边框的相对偏移。在一个实施例中，偏移系数可以通过式(2)来计算：

其中offset_ij表示视频帧中第i个人脸边框与视频帧中第j个行人边框的偏移系数， i＝{1，2，……，视频帧中人脸边框的数目}，j＝{1，2，……，视频帧中行人边框的数目}，y_j表示第j个行人边框的左上角顶点的y坐标，y_i表示第i 个人脸边框的左上角顶点的y坐标，h_j表示第j个行人边框的高度，h_i表示第i 个人脸边框的高度。参照图3，由于存在3个人脸边框和3个行人边框，因此总共可以得到9个偏移系数，即，offset_A1、offset_A2、offset_A3、offset_B1、offset_B2、 offset_B3、offset_C1、offset_C2和offset_C3。

在框240，方法200可以包括将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数。在一个实施例中，匹配系数可以通过式(3)来计算：

match_ij＝α·overlap_ij+β·offset_ij (3)

其中match_ij表示视频帧中第i个人脸边框与视频帧中第j个行人边框的匹配系数，i＝{1，2，……，视频帧中人脸边框的数目}，j＝{1，2，……，视频帧中行人边框的数目}，α表示第i个人脸边框与第j个行人边框的重叠系数的权重，β表示第i个人脸边框与第j个行人边框的偏移系数的权重，并且α和β可以是预定的或者可以根据特定的场景来调整。参照图3，由于存在3个人脸边框和 3个行人边框，因此总共可以得到9个匹配系数，即，

	行人边框1	行人边框2	行人边框3
				人脸边框A	match<sub>A1</sub>	match<sub>A2</sub>	match<sub>A3</sub>
人脸边框B	match<sub>B1</sub>	match<sub>B2</sub>	match<sub>B3</sub>
				人脸边框C	match<sub>c1</sub>	match<sub>c2</sub>	match<sub>c3</sub>

在框250，方法200可以包括基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

在一个实施例中，可以首先确定所获得的多个匹配系数中具有最小值的匹配系数，并且由此确定与该匹配系数相对应的行人和人脸的匹配关系。然后，可以继续比较与剔除了该匹配关系之后剩余的匹配关系相对应的匹配系数，从而继续确定其他行人与人脸的匹配关系。例如，假定match_A2是所有9个匹配系数中具有最小值的匹配系数，则可以确定人脸A与行人2相匹配。接下来，只可能存在人脸B与行人1相匹配、人脸B与行人3相匹配、人脸C与行人1 相匹配、或者人脸C与行人3相匹配这4种情况。通过比较与这4种匹配关系相对应的4个匹配系数，可以确定是人脸B还是人脸C与行人1相匹配。例如，假定match_B1是这4个匹配系数中具有最小值的匹配系数，则可以确定人脸B 与行人1相匹配，并且由此确定人脸C与行人3相匹配。

在另一个优选实施例中，框250的操作可以采用匈牙利算法来实现。例如，根据上述匹配系数获得匹配系数矩阵如下：

将上述匹配系数矩阵作为邻接矩阵，使用匈牙利算法计算获得最优匹配关系。具体而言，框250的操作可以包括确定行人边框与人脸边框的多种匹配方案；针对该多种匹配方案中的每一种匹配方案，通过对相应的匹配系数进行相加来获得该匹配方案的匹配系数总和；以及将该多种匹配方案中具有最小匹配系数总和的匹配方案确定为行人和人脸的最优匹配方案。例如，参照图3，一共有 3个行人边框和3个人脸边框，根据排列组合，一共有如下6种匹配方案：

方案	匹配方式	匹配系数之和(用sum表示)
			1	A-1,B-2,C-3	sum<sub>1</sub>＝match<sub>A1</sub>+match<sub>B2</sub>+match<sub>C3</sub>
2	A-1,B-3,C-2	sum<sub>2</sub>＝match<sub>A1</sub>+match<sub>B3</sub>+match<sub>C2</sub>
			3	A-2,B-1,C-3	sum<sub>3</sub>＝match<sub>A2</sub>+match<sub>B1</sub>+match<sub>C3</sub>
4	A-2,B-3,C-1	sum<sub>4</sub>＝match<sub>A2</sub>+match<sub>B3</sub>+match<sub>C1</sub>
			5	A-3,B-1,C-2	sum<sub>5</sub>＝match<sub>A3</sub>+match<sub>B1</sub>+match<sub>C2</sub>
6	A-3,B-2,C-1	sum<sub>6</sub>＝match<sub>A3</sub>+match<sub>B2</sub>+match<sub>C1</sub>

可以计算出当选择某种匹配方案时，该匹配方案对应的匹配系数之和是所有方案中最小的，那么该方案就是最后确定的匹配方案。即：

sum_k＝min(sum₁,sum₂,sum₃,sum₄,sum₅,sum₆)

在上述示例中k＝3，也就是说方案3是获得的最终匹配方案。

当行人较为密集的情况下，人脸边框和行人边框的数量很多，其排列组合数量也会很多，而利用上述匈牙利算法能够较为高效地找到最优匹配方案。

与现有技术相比，本发明的方法使得行人和人脸的匹配更加精准。具体体现在以下两个方面：

一方面，本发明的方法根据人脸和行人的边框特点和人体结构特征，构建了一个边框的重叠模型和一个偏移模型，通过这两个模型从不同的角度来全面而准确地衡量人脸和行人的匹配情况。对两个模型赋予不同的权重实现加权融合从而获得匹配系数，还可以根据不同场景的特点来对两个模型的影响力度进行调整，应对不同的场景特点，能够有效地提高算法的准确程度。

另一方面，本发明的方法可以将反映局部关系的匹配系数组合成反映全局关系的匹配系数矩阵，并利用匈牙利算法计算全局最优解来获得最佳匹配组合。由于同时考虑到了全局信息和局部信息，而不是仅在某个局部寻求最优匹配而导致其他局部匹配错误，因此在行人稀疏或密集的情况下都可以更加精准地实现人脸和行人的匹配。

图4解说了根据本发明的一个示例性实施例的用于在目标跟踪中匹配行人和人脸的装置400的框图。装置400的所有功能块(包括在装置400中的各种单元或模块，无论是否在附图中示出)可以通过硬件、软件、或硬件和软件的组合来实现以执行本发明的原理。本领域技术人员应理解，图4中描述的功能块可以被组合或者分割成子块以实现如上所述的本发明的原理。因此，本文中的描述可以支持本文中描述的功能块的任何可能的组合或分割或进一步定义。

如图4中所示，根据本发明的一个示例性实施例，用于在目标跟踪中匹配行人和人脸的装置400可以包括通过总线405彼此耦合的多个模块，该多个模块可以包括：边框获得模块410，其配置成获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；重叠系数计算模块420，其配置成计算每一个行人边框与每一个人脸边框的重叠系数，该重叠系数反映人脸边框和行人边框的重叠情况；偏移系数计算模块430，其配置成计算每一个行人边框与每一个人脸边框的偏移系数，该偏移系数反映人脸边框和行人边框的相对偏移；加权求和模块440，其配置成将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及匹配关系确定模块450，其配置成基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

图5解说了根据本发明的一个实施例的用于在目标跟踪中匹配行人和人脸的装置500的硬件实现的示例的框图。装置500可使用包括一个或多个处理器504 的处理系统514来实现。处理器504的示例包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、选通逻辑、分立的硬件电路、以及配置成执行本公开通篇描述的各种功能性的其他合适硬件。在各个示例中，装置500可被配置成执行本文中所描述的功能中的任一者或多者。即，如在装置500中利用的处理器504可被用于实现以上参照图2描述的方法200。

在该示例中，处理系统514可被实现成具有由总线502一般化地表示的总线架构。取决于处理系统514的具体应用和总体设计约束，总线502可包括任何数目的互连总线和桥接器。总线502将包括一个或多个处理器(由处理器504一般化地表示)、存储器505和计算机可读介质(由计算机可读介质506一般化地表示)的各种电路通信地耦合在一起。总线502还可链接各种其他电路，诸如定时源、外围设备、稳压器和功率管理电路，这些电路在本领域中是众所周知的，且因此将不再进一步描述。总线接口508提供总线502与收发机510之间的接口。收发机510 提供用于在传输介质上与各种其他设备进行通信的通信接口或装置。取决于该设备的特性，还可提供用户接口512(例如，按键板、显示器、扬声器、话筒、操纵杆)。当然，此类用户接口512是可任选的，且可在一些示例中被省略。

在一些方面，处理器504可被配置成：获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；计算每一个行人边框与每一个人脸边框的重叠系数，该重叠系数反映人脸边框和行人边框的重叠情况；计算每一个行人边框与每一个人脸边框的偏移系数，该偏移系数反映人脸边框和行人边框的相对偏移；将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

处理器504负责管理总线502和通用处理，包括对存储在计算机可读介质506 上的软件的执行。软件在由处理器504执行时使处理系统514执行针对任何特定设备描述的各种功能。计算机可读介质506和存储器505还可被用于存储由处理器 504在执行软件时操纵的数据。

处理系统中的一个或多个处理器504可以执行软件。软件应当被宽泛地解释成意为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行件、执行的线程、规程、函数等，无论其是用软件、固件、中间件、微代码、硬件描述语言、还是其他术语来述及皆是如此。软件可驻留在计算机可读介质506上。计算机可读介质506可以是非瞬态计算机可读介质。作为示例，非瞬态计算机可读介质包括磁存储设备(例如，硬盘、软盘、磁带)、光盘(例如，压缩碟(CD)或数字多用碟(DVD))、智能卡、闪存设备(例如，卡、棒或钥匙型驱动器)、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除 PROM(EEPROM)、寄存器、可移除盘、以及用于存储可由计算机访问和读取的软件和/或指令的其他任何合适介质。计算机可读介质506可驻留在处理系统514 中、在处理系统514外部、或跨包括处理系统514的多个实体分布。计算机可读介质506可被实施在计算机程序产品中。作为示例，计算机程序产品可包括封装材料中的计算机可读介质。本领域技术人员将认识到如何取决于具体应用和加诸于整体系统的总体设计约束来最佳地实现本公开通篇给出的所描述的功能性。

在一个或多个示例中，计算机可读存储介质506可包括被配置成用于各种功能(包括例如用于在目标跟踪中匹配行人和人脸的功能)的软件。该软件可包括指令，这些指令可将处理系统514配置成执行参照图2所描述的一个或多个功能。

本领域普通技术人员应领会，本发明的各个实施例可提供为方法、装置、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用一个或多个其中存储有计算机可执行程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置、系统和计算机程序产品的流程图和/或框图来描述的。应理解，可由计算机程序指令实现流程图和/或框图中的每一个流程和/或方框、以及流程图和/或框图中的流程和/或方框的组合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个或多个流程和/或框图中的一个或多个方框中指定的功能的装置。

尽管目前为止已经参考附图描述了本发明的各方面，但是上述方法、系统和设备仅是示例，并且本发明的范围不限于这些方面，而是仅由所附权利要求及其等同物来限定。各种组件可被省略或者也可被等同组件替代。另外，也可以在与本发明中描述的顺序不同的顺序实现所述步骤。此外，可以按各种方式组合各种组件。也重要的是，随着技术的发展，所描述的组件中的许多组件可被之后出现的等同组件所替代。对本公开的各种修改对于本领域技术人员将是显而易见的，并且本文中所定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此，本公开并非被限定于本文中所描述的示例和设计，而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。

Claims

1.一种用于在目标跟踪中匹配行人和人脸的方法，所述方法包括：

获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；

计算每一个行人边框与每一个人脸边框的重叠系数，所述重叠系数反映人脸边框和行人边框的重叠情况；

计算每一个行人边框与每一个人脸边框的偏移系数，所述偏移系数反映人脸边框和行人边框的相对偏移；

将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及

基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

2.如权利要求1所述的方法，进一步包括：在获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框之后，获得每一个行人边框和每一个人脸边框的坐标信息。

3.如权利要求2所述的方法，其中所述坐标信息包括边框的左上角顶点坐标(x，y)，边框宽度w和边框高度h，每一个边框表示为：

box＝(x，y，w，h)。

4.如权利要求3所述的方法，其中所述重叠系数是通过下式来计算的：

其中overlap_ij表示所述视频帧中第i个人脸边框与所述视频帧中第j个行人边框的重叠系数，box_i表示第i个人脸边框，box_j表示第j个行人边框。

5.如权利要求3所述的方法，其中所述偏移系数是通过下式来计算的：

其中offset_ij表示所述视频帧中第i个人脸边框与所述视频帧中第j个行人边框的偏移系数，y_j表示第j个行人边框的左上角顶点的y坐标，y_i表示第i个人脸边框的左上角顶点的y坐标，h_j表示第j个行人边框的高度，h_i表示第i个人脸边框的高度。

6.如权利要求1所述的方法，其中所述匹配系数是通过下式来计算的：

match_ij＝α·overlap_ij+β·offset_ij

其中match_ij表示所述视频帧中第i个人脸边框与所述视频帧中第j个行人边框的匹配系数，α表示第i个人脸边框与第j个行人边框的重叠系数的权重，β表示第i个人脸边框与第i个行人边框的偏移系数的权重，并且所述α和β能根据特定的场景来调整。

7.如权利要求1所述的方法，其中基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系包括：

确定行人边框与人脸边框的多种匹配方案；

针对所述多种匹配方案中的每一种匹配方案，通过对相应的匹配系数进行相加来获得该匹配方案的匹配系数总和；以及

将所述多种匹配方案中具有最小匹配系数总和的匹配方案确定为行人和人脸的最优匹配方案。

8.一种用于在目标跟踪中匹配行人和人脸的装置，所述装置包括：

存储器；以及

耦合至所述存储器的处理器，其中所述处理器被配置成：

9.一种用于在目标跟踪中匹配行人和人脸的装置，所述装置包括：

边框获得模块，其配置成获得视频帧中的一个或多个行人中的每一个行人的行人边框和一个或多个人脸中的每一个人脸的人脸边框；

重叠系数计算模块，其配置成计算每一个行人边框与每一个人脸边框的重叠系数，所述重叠系数反映人脸边框和行人边框的重叠情况；

偏移系数计算模块，其配置成计算每一个行人边框与每一个人脸边框的偏移系数，所述偏移系数反映人脸边框和行人边框的相对偏移；

加权求和模块，其配置成将对应的重叠系数和偏移系数进行加权求和以获得每一个行人边框与每一个人脸边框的匹配系数；以及

匹配关系确定模块，其配置成基于每一个行人边框与每一个人脸边框的匹配系数来确定行人和人脸的匹配关系。

10.一种存储计算机程序的计算机可读介质，所述计算机程序在由处理器执行时执行如权利要求1-7中任一项所述的方法。