CN113255627A

CN113255627A - 一种快速获取尾随人员信息方法及装置

Info

Publication number: CN113255627A
Application number: CN202110798033.5A
Authority: CN
Inventors: 周耆; 高东发
Original assignee: Guangdong Vocational College Of Administration; Guangzhou Tunan Software Technology Co ltd; Guangdong University of Foreign Studies
Current assignee: Guangdong Vocational College Of Administration; Guangzhou Tunan Software Technology Co ltd; Guangdong University of Foreign Studies
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-08-13
Anticipated expiration: 2041-07-15
Also published as: CN113255627B

Abstract

本发明公开了一种快速获取尾随人员信息方法，该方法先获取目标图像信息；若目标图像信息中包括待定用户的人脸，根据待定用户的人脸确定待定用户的运动方向；若待定用户的运动方向与目标用户的运动方向满足预设条件，则确定待定用户为尾随人员。可见，本申请可以根据目标图像信息自动识别是否存在尾随人员，而不需要和现有技术一样，需要人工识别尾随人员，从而可以避免出现人工识别过程中容易出现由于操作错误、疏忽所导致的识别错误、遗漏识别、效率低下、耗时费力的问题，提高了识别尾随人员的效率和精准度，进而提高了用户体验。

Description

一种快速获取尾随人员信息方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种快速获取尾随人员信息方法及装置。

背景技术

近年来，人脸识别应用越来越广泛，人脸识别在国内的发展非常迅速，人脸识别系统所具备的高速自动识别能力很大程度上提升了整个国家、社会的安全防范水平。为了更进一步提升国家和社会的安全防范水平,还需要对尾随人员的人脸进行识别或检索。现有的尾随人员的确定方式通常需要人工来进行识别，而这种人工识别的方式耗时费力且效率低下、人工识别过程中容易出现由于人工疏忽所导致的识别错误、遗漏识别的问题。因此，亟需一种新的尾随人员的确定方案。

发明内容

本发明提供一种快速获取尾随人员信息方法及装置，以提高识别尾随人员的效率和精准度，进而提高了用户体验。

第一方面，本发明提供了一种快速获取尾随人员信息方法，所述方法包括：

获取目标图像信息，其中，所述目标图像信息包括目标用户；

若所述目标图像信息中包括待定用户的人脸，根据所述待定用户的人脸确定所述待定用户的运动方向；

若所述待定用户的运动方向与所述目标用户的运动方向满足预设条件，则确定所述待定用户为尾随人员。

可选的，所述若所述目标图像信息中包括待定用户的人脸，根据所述待定用户的人脸确定所述待定用户的运动方向，包括：

获取目标图像信息对应的待处理图像；

将所述待处理图像输入预设的五官识别模型；

若所述五官识别模型输出所述待处理图像对应的待定用户的五官检测框，根据所述待定用户的五官检测框确定所述待定用户的人脸；

根据所述待定用户的人脸，确定所述待定用户的运动方向。

可选的，若所述目标图像信息为待处理图像，则所述根据所述待定用户的人脸，确定所述待定用户的运动方向，包括：

将所述待定用户的人脸的方向，作为所述待定用户的运动方向；或者，

若所述目标图像信息为待处理视频，其中，所述待处理视频包括若干帧待处理图像；则所述根据所述待定用户的人脸，确定所述待定用户的运动方向，包括：

根据所述若干帧待处理图像各自分别对应的待定用户的人脸，确定所述待定用户的运动方向。

可选的，所述若所述五官识别模型输出所述待处理图像对应的待定用户的五官检测框，根据所述待定用户的五官检测框确定所述待定用户的人脸，包括：

利用所述五官识别模型对所述待处理图像进行下采样处理，得到图像特征；

利用所述五官识别模型根据所述图像特征，生成热力图；

利用所述五官识别模型根据所述热力图，生成所述待处理图像对应的待定用户的五官检测框；

根据所述待定用户的五官检测框确定所述待定用户的人脸。

可选的，所述利用所述五官识别模型根据所述热力图，生成所述待处理图像对应的待定用户的五官检测框，包括：

利用所述五官识别模型根据所述热力图，确定所述待处理图像对应的待定用户的五官中心点；其中，所述待处理图像对应的待定用户的五官中心点包括以下至少一个：眼睛中心点、鼻子中心点、嘴巴中心点；

利用所述五官识别模型判断所述待定用户的五官中心点的分布是否满足预设分布条件；

若所述待定用户的五官中心点的分布满足预设分布条件，利用所述五官识别模型分别根据各个五官中心点，确定各个五官中心点各自分别对应的高度值和宽度值；

利用所述五官识别模型根据各个五官中心点各自分别对应的高度值和宽度值，确定所述待处理图像对应的待定用户的五官检测框。

可选的，所述利用所述五官识别模型根据所述热力图，确定所述待处理图像对应的待定用户的五官中心点，包括：

利用所述五官识别模型确定所述热力图中的若干个峰值点；

利用所述五官识别模型分别根据各个峰值点对应的热力参数，确定各个峰值点各自分别对应的五官类型，以及，将各个峰值点分别作为各自对应的五官类型的五官中心点。

可选的，在所述根据所述待定用户的五官检测框确定所述待定用户的人脸的步骤之前，所述方法还包括：

根据所述待处理图像对应的待定用户的五官检测框，确定所述待定用户的五官检测框对应的同一人脸可信度；

若所述待定用户的五官检测框对应的同一人脸可信度满足预设阈值，则继续执行所述根据所述待定用户的五官检测框确定所述待定用户的人脸。

第二方面，本发明提供了一种快速获取尾随人员信息装置，所述装置包括：

信息获取单元，用于获取目标图像信息，其中，所述目标图像信息包括目标用户；

方向确定单元，用于若所述目标图像信息中包括待定用户的人脸，根据所述待定用户的人脸确定所述待定用户的运动方向；

尾随确定单元，用于若所述待定用户的运动方向与所述目标用户的运动方向满足预设条件，则确定所述待定用户为尾随人员。

可选的，所述方向确定单元，具体用于：

获取目标图像信息对应的待处理图像；

将所述待处理图像输入预设的五官识别模型；

根据所述待定用户的人脸，确定所述待定用户的运动方向。

可选的，所述方向确定单元，具体用于：

利用所述五官识别模型根据所述图像特征，生成热力图；

根据所述待定用户的五官检测框确定所述待定用户的人脸。

可选的，所述方向确定单元，具体用于：

利用所述五官识别模型确定所述热力图中的若干个峰值点；

可选的，所述装置还包括检验单元，用于：

第三方面，本发明提供了一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如第一方面中任一所述的方法。

第四方面，本发明提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

由上述技术方案可以看出，本申请提供了一种快速获取尾随人员信息方法，该方法先获取目标图像信息，其中，所述目标图像信息包括目标用户；若所述目标图像信息中包括待定用户的人脸，根据所述待定用户的人脸确定所述待定用户的运动方向；若所述待定用户的运动方向与所述目标用户的运动方向满足预设条件，则确定所述待定用户为尾随人员。可见，本申请通过识别目标图像信息中所包括的待定用户的人脸，接着可以根据所述待定用户的运动方向判断所述待定用户是否为尾随人员，这样，本申请可以根据目标图像信息自动识别是否存在尾随人员，而不需要和现有技术一样，需要人工识别尾随人员，从而可以避免出现人工识别过程中容易出现由于操作错误、疏忽所导致的识别错误、遗漏识别、效率低下、耗时费力的问题，提高了识别尾随人员的效率和精准度，进而提高了用户体验。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种快速获取尾随人员信息方法的流程示意图；

图2为本发明一种人脸的五官检测框的示意图；

图3为本发明一种五官识别模型的网络架构示意图；

图4为本发明一种深度可分离卷积的示意图；

图5为本发明一实施例提供的一种快速获取尾随人员信息装置的结构示意图；

图6为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，详细说明本发明的各种非限制性实施方式。

参见图1，示出了本发明实施例中的一种快速获取尾随人员信息方法。在本实施例中，所述方法例如可以包括以下步骤：

S101：获取目标图像信息。

其中，所述目标图像信息包括目标用户。

在本实施例中，目标图像信息可以理解为需要识别是否有尾随人员的图像信息，目标图像信息可以为一张图像，也可以为一个视频。需要强调的是，该目标图像信息中包括目标用户，该目标用户可以理解为需要判断是否有尾随人员进行尾随的保护对象。可以理解的是，当目标图像信息为视频时，该视频中的部分视频帧或者全部视频帧包括该目标用户。

S102：若所述目标图像信息中包括待定用户的人脸，根据所述待定用户的人脸确定所述待定用户的运动方向。

在本实施例中，可以先判断目标信息中是否包括待定用户的人脸，可以理解的是，若目标图像信息为视频时，判断目标信息中是否有视频帧包括待定用户的人脸，若目标图像信息为图像时，判断目标信息中是否包括待定用户的人脸。需要说明的是，待定用户可以理解为位于目标用户身后的用户，待定用户的人脸可以是完整的一张人脸（即露出完整五官的人脸，如眼睛、眉毛、鼻尖、嘴和下巴等），也可以是部分人脸（比如露出至少一只眼睛、鼻子或者嘴巴），这样，本申请的贡献之一可以是针对尾随人员进行人脸五官检测，在图像或视频中，发现尾随人员，定位其脸部，获取其全部或部分的五官信息，基于全部或部分五官特征，进行检索。由于人脸的方向可以反映用户的运动方向，进而可以判断待定用户是否尾随（比如跟踪）目标用户，接着，可以根据待定用户的人脸确定所述待定用户的运动方向。

具体地，在获取到目标图像信息后，可以先获取目标图像信息对应的待处理图像，比如，当目标图像信息为一张图像时，可以将该图像作为目标图像信息对应的待处理图像，当目标图像信息为视频时，可以将每一张视频帧分别作为目标图像信息对应的待处理图像。在获取到待处理图像后，由于待处理图像中的人脸通常出现在前景区域，因此，可以提取待处理图像的前景区域，接着对前景区域进行后续处理，需要说明的是，提取前景区域的步骤可以执行，也可以不执行，在本申请中并不做限定。

获取到待处理图像后，可以将所述待处理图像输入预设的五官识别模型。若所述五官识别模型输出所述待处理图像对应的待定用户的五官检测框，根据所述待定用户的五官检测框确定所述待定用户的人脸，其中，五官检测框可以为一个或者多个，五官检测框用于标注各个五官的位置区域，比如在人脸图像中用矩形框标出五官的位置，例如，如图2所示，可以在两个眼睛的位置区域分别标注一个五官检测框，可以在鼻子的位置区域标注一个五官检测框，可以在嘴巴的位置区域标注一个五官检测框。接着，可以根据所述待定用户的人脸，确定所述待定用户的运动方向；具体地，若所述目标图像信息为待处理图像，则可以将所述待定用户的人脸的方向（可以理解为人脸的朝向），作为所述待定用户的运动方向；或者，若所述目标图像信息为待处理视频，其中，所述待处理视频包括若干帧待处理图像，可以根据所述若干帧待处理图像各自分别对应的待定用户的人脸，确定所述待定用户的运动方向，即可以先分别确定每一帧待处理图像各自分别对应的待定用户的人脸的方向，再根据各帧才处理图像对应的人脸的方向确定待定用户的运动方向。

具体地，所述若所述五官识别模型输出所述待处理图像对应的待定用户的五官检测框，根据所述待定用户的五官检测框确定所述待定用户的人脸的方式可以包括以下步骤：

步骤a：利用所述五官识别模型对所述待处理图像进行下采样处理，得到图像特征。

步骤b：利用所述五官识别模型根据所述图像特征，生成热力图。

步骤c：利用所述五官识别模型根据所述热力图，生成所述待处理图像对应的待定用户的五官检测框。

具体地，可以先利用所述五官识别模型根据所述热力图，确定所述待处理图像对应的待定用户的五官中心点；其中，所述待处理图像对应的待定用户的五官中心点包括以下至少一个：眼睛中心点、鼻子中心点、嘴巴中心点。即可以只需要确定人脸一部分五官即可。具体地，可以先利用所述五官识别模型确定所述热力图中的若干个峰值点，其中，当峰值点的值比与其相邻的周围的八个近邻点(八方位)大(或者等于)；然后，可以利用所述五官识别模型分别根据各个峰值点对应的热力参数，确定各个峰值点各自分别对应的五官类型，其中，热力参数可以包括以下至少一个参数：峰值点的热度值、长宽值、与相邻的热度值差在预设范围内的点的分布状态（即与相邻的热度值差在预设范围内的点所构成的分布形状），例如，鼻子的峰值点与相邻的热度值差在预设范围内的点所构成的分布形状为长条形，嘴巴的峰值点与相邻的热度值差在预设范围内的点所构成的分布形状为横条形；接着，将各个峰值点分别作为各自对应的五官类型的五官中心点。

然后，可以利用所述五官识别模型判断所述待定用户的五官中心点的分布是否满足预设分布条件。其中，该预设分布条件可以理解为待定用户的五官中心点满足高斯分布。

若所述待定用户的五官中心点的分布满足预设分布条件，利用所述五官识别模型分别根据各个五官中心点，确定各个五官中心点各自分别对应的高度值和宽度值。需要说明的是，各个五官中心点各自分别对应的高度值和宽度值可以是预先设置的。

接着，可以利用所述五官识别模型根据各个五官中心点各自分别对应的高度和宽度值，确定所述待处理图像对应的待定用户的五官检测框。可以理解的是，可以以五官中心点作为中心，将五官中心点对应的高度值和宽度值作为长、宽，从而确定该五官中心点对应的五官检测框，即该五官检测框的中心点为该五官中心点，该五官检测框的长、宽分别为该五官中心点对应的高度值和宽度值。

步骤d：根据所述待定用户的五官检测框确定所述待定用户的人脸。

在确定所述待定用户的五官检测框之后，可以根据所述待定用户的五官检测框确定所述待定用户的人脸的区域。需要说明的是，在一种实现方式中，为了保证人脸的区域的识别准确性，可以在所述根据所述待定用户的五官检测框确定所述待定用户的人脸的步骤之前，所述方法还包括：

需要说明的是，根据所述待处理图像对应的待定用户的五官检测框，确定所述待定用户的五官检测框对应的同一人脸可信度的方式可以为以下至少一种方式：基于弹性模型的方法、将人脸的图像建模为可变形的 3Ｄ网格表面进而判断是否符合人脸要求的方法。

具体地，本申请采用两种五官特征提取与基于单个五官相似度检索方法，主要目的是增加上官是否是同一人的判断的可信度。其一是基于弹性模型的方法，针对畸变不变性的五官识别，采用动态链接模型 (ＤＬＡ)，将物体用稀疏图形来描述，其顶点用局部能量谱的多尺度描述来标记，边则表示拓扑连接关系并用几何距离来标记，然后应用塑性图形匹配技术来寻找最近的已知图形。其二是人脸的图像（I）(ｘ，ｙ)建模为可变形的 3Ｄ网格表面 (ｘ，ｙ，Ｉ(ｘ，ｙ) )，将人脸匹配问题转化为可变形曲面的弹性匹配问题。利用有限元分析的方法进行曲面变形，并根据变形的情况判断两张图片中的五官是否为同一个人的五官。实验表明识别结果明显优于特征脸方法。

需要说明的是，在本实施例的一种实现方式中，五官识别模型可以为M-CenterNet网络结构的模型。在尽可能在减小网络的计算量并且保持较高的识别率的原则下，设计了一个基于改进的CenterNet网络模型 M-CenterNet，其网络结构如图3所示，它分为四部分，第一部分是图片输入，第二部分是骨干网络（即backone端），采用MobileNet Bneck模块单元用于图像特征提取，第三部分是图像的热力图提取网络（即feature map），第四部分是检测头，包括目标中心点位置、目标高度和宽度以及中心点高斯分布。可以理解的是，与原CenterNet网络相比，进行了两个方面的改进，其一是用MobileNetV3模块单元作为骨干网络快速提取图像的特征，并尽量保证精度。其二是对原有的检测头进行优化，检测头的所有普通卷积替换为depth-wise 卷积，并将可形变卷积也改造为深度的可形变卷积。即与原CenterNet网络相比，进行了两个方面的改进，其一是用MobileNetV3模块单元作为骨干网络快速提取图像的特征，并尽量保证精度。其二是对原有的检测头进行优化，检测头的所有普通卷积替换为depth-wise 卷积，并将可形变卷积也改造为深度的可形变卷积。实现快速可靠快速检测人脸尾随人员五官的目的。具体地，骨干网络用于执行步骤a，图像的热力图提取网络用于执行步骤b，检测头用于执行步骤c和步骤d。

可以理解的是，在 M-CenterNet 网络中，首先将待处理图像输入骨干网络，通过一个标准卷积层，然后在通过 9 个改进后的深度可分离卷积层，如表1，然后依次经过平均池化层、全连接层提取特征。为了更好地提取特征和使网络快速收敛，每经过一个点卷积层处理后的输出都要经过非线性激活函数处理从而增加非线性表达能力，而在深度卷积层为了尽可能保留信息，采用线性输出。

表1.M-CenterNet网络层

Type/stride	Filter shape	Input Size
			Conv2d/s2	3×3	512×512×3
Conv2d/s2	Bneck，3×3	256×256×16
			Conv2d/s2	Bneck，3×3	128×128×16
Conv2d/s1	Bneck，3×3	128×128×16
			Conv2d/s1	Bneck，3×3	128×128×32
Conv2d/s1	Bneck，3×3	128×128×64
			Conv2d/s1	Bneck，3×3	128×128×64
Conv2d/s1	Bneck，3×3	128×128×64
			Conv2d/s1	Bneck，5×5	128×128×64
Conv2d/s1	Bneck，5×5	128×128×64
			Conv/s1	1×7	128×128×64
Pool/s1	7×7	128×128×64
			reg	Roialign，1×1	128×128×2
wh	Bneck，3×3	128×128×2
			hm	Bneck，1×1	128×128×16

首先假设待处理图像I∈R^W*H*3,R为原图的步长，W、H分别为待处理图像的宽和高，然后在预测的时候，要产生出关键点（即五官中心点）的热点图(keypoint heatmap)：Y^∈[0,1]^{(w/R)*(H/R)*C}，其中R为输出对应原图的步长，而C是在目标检测中对应着检测点的数量，在五官检测中，这个C为3，代表有眼、鼻和嘴3个类别，这样，就是一个检测到物体的预测值，Y^x,y,c是一个高斯核生成的中心点，在中心点Y^x,y,c=1，但是在中心点（即五官中心点）周围扩散会由1慢慢变小但是并不是直接为0对于Y^x,y,c=1，表示对于类别 C，当前(x,y)坐标中检测到了这种类别的物体，而Y^x,y,c=0则表示当前当前这个坐标点不存在类别为C的物体。因为在整个训练的流程中。对于每个标签图中的某一 C类，要将真实关键点P∈R2计算出来用于训练模型（即五官识别模型），中心点的计算方式为P=((x1+x2)/2,(y1+y2)/2)，对于下采样后的坐标，设P^=[P/R]是上文中提到的下采样因子，所以最终计算出来的中心点是对应低分辨率的中心点。然后，利用 Y^∈[0,1]^{(w/R)*(H/R)*C}来对图像进行标记，在下采样的图像中将ground truth point以Y^x,y,c=exp(-(x-p^x)2 +(y- p^y )2)*2*σ2p的形式，用一个高斯核来将关键点分布到特征图上，其中σp是一个与目标大小(也就是w和h)相关的标准差。如果某一个类的两个高斯分布发生了重叠，直接取元素间最大的就可以。每个点Y^∈[0,1]^{(w/R)*(H/R)*C}的范围是0-1,而1则代表这个目标的中心点，也就是要预测要学习的点。

在预测阶段，首先针对一张待处理图像进行下采样，随后对下采样后的图像进行预测，对于每个类在下采样的特征图中预测中心点，采用的方式是一个3x3的模板，检测当前热点的值是否比周围的八个近邻点(八方位)都大(或者等于)。对于本申请的五官检测，取60个这样的点，然后对这些点按类别分组，比如按眼、鼻和嘴分成3组，在眼睛类别取概率最高的点

和

作为基点，它实际表示五官检测到的左眼和右眼的中心点，然后根据

计算

和

。这里λ_i=1/exp（｜L_il- L_ir｜），其中L_il和L_ir分别表示其它鼻和嘴点位置到左眼

和右眼

的距离。根据人脸五官位置特点，显然鼻和嘴的位置应当尽量离两眼中心线更近。经过计算后得到

、

和

的值后，各预测关键点的位置用整型坐标xi,yi表示，然后使用

表示当前点是C点的概率，通过设定阀值筛选，最后使用

的坐标来产生标定框。

在本申请中的算法使用keras实现，为了证实M-CenterNet五官检测效果，采用两套数据集，分别为：MS COCO数据集和CelebA中的部分数据集。

MS COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以场景理解为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的分割进行位置的标定。图像包括91类目标，328,000影像和2,500,000个标签。目前为止有语义分割的最大数据集，提供的类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。CelebA是名人人脸属性数据集，其包含10,177个名人身份的202,599张人脸图片，每张图片都做好了特征标记，包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记，CelebA由香港中文大学开放提供，广泛用于人脸相关的计算机视觉训练任务，可用于人脸属性标识训练、人脸检测训练。

MS COCO数据集，应用其所有标注好的目标属性进行训练，而对于CelebA数据集，由于只标注了人脸位置和五官属性，没有标注五官的位置，随机选取500张图片作为本申请算法的基础训练数据集。为了进一步扩充样本数据规模，防止过拟合，本申请对其训练样本进行数据增强，首先对图像缩放至512*512分辨率的图像，再对给定的训练图像以-30~30的随机角度旋转，并以0.8~1.2为缩放因子进行随机缩放，最后以50%的概率对图像进行随机水平镜像。

在实验过程中，将五官数据集按8:2 分为训练集与测试集，如表2，从自制数据集中训练集随机抽出20%的图片为验证集，抽出的验证集依旧属于训练集，并且将数据集xml中的框和类别信息读取出来。

表2 五官数据集信息表

目标类别	标注目标数	训练集目标数	测试集目标数
				眼	1280	320	400
鼻	640	160	200
				嘴	640	160	200

在整个自制数据集中，五官数据眼、鼻和嘴的信息如表2所示。训练集数据输入模型训练前，使用如图4中的图像增强模型不断的将图像缩放、旋转和镜像等其他参数进行微调，这样训练出的模型泛化性更高。模型训练分为两次，第一次训练学习率（learningrate）为0.0001，轮次（epoch）为50 次，每一轮次迭代次数为70 次，一共迭代次数为3500，每一次迭代训练的样本数为10。第二次训练使用减少学习率和提前终止（earlystopping），初始学习率（learning rate）为0.00001，最大轮次（epoch）为50 次，每一轮次迭代次数为140 次，最大迭代次数为7000 次，每一次迭代训练的样本数为5。

为了评估预测框的精确性，五官数据集使用AP50和检测速度FPs作为评价指标模型进行评估，得到相应的最优模型，最后将各个模型的最优模型进行对比。

表3 五官数据集各类别AP50

算法	eye	mouth	nose	FPS
					M_CenterNet	0.949	0.137	0.179	113
CenterNet_Shuffler(2*1.0)	0.875	0.094	0.146	97
					CenterNet_ResNet18	1.13	0.261	0.196	76

由表3可见，改进的M-CenterNet算法在自制的五官数据集整体上相比于CenterNet_Shuffler,mAP50 提高4.8%，速度相对于CenterNet_ResNet18更快，相对于能较好的实时完成五官检测任务。

本申请算法对于眼睛的检测明显好于鼻和嘴，原因是提供的样本数量小，尤其是负样本数量。通常的方法是适当增加训练样本进一步提高鼻和嘴识别的精确性。然而采用基于五官特点的距离约束进行检测优化，大大提高了鼻和嘴识别率。其中嘴的AP50值从0.137提高到了0.65，鼻的AP50从0.179提高到了0.77，近提高了近5倍。尾随人员检索的效果依赖于分割出的五官数和五官的完整信息。

接下来，介绍centernet网络模型。CenterNet网络模型是通过五官中心点来呈现五官，因此，五官检测问题变成了一个标准的关键点估计问题。CenterNet网络首先将图像传入全卷积网络，得到一个热力图，然后取热力图峰值点看作是五官的可选中心点，同时通过点的位置来预测五官的宽高信息。

Centernet 采用编码解码的全卷积骨干网络，上采样用到的是转置卷积，转置卷积可以更好的还原图像的语义信息和位置信息，采用修改后带转置卷积的轻量级网络，降低了一定的计算量，由于没有采用分组卷积，在推理速度上不够理想。

为了进一步降低卷积计算量，可以采用深度可分离卷积（用于实际快速空间变换，最终得到热力图），如图4所示，(a)代表标准卷积。假设输入特征图尺寸为DF*DF*M，卷积核尺寸为DK*DK*M，输出特征图尺寸为DF*DF*N，标准卷积层的参数量为：DK*DK*M*N。图(b)代表深度卷积，图(c)代表逐点卷积，两者合起来就是深度可分离卷积。深度卷积负责滤波，尺寸为(DK,DK,1)，共M个，作用在输入的每个通道上；逐点卷积负责转换通道，尺寸为(1,1,M)，共N个，作用在深度卷积的输出特征映射上。深度卷积参数量为DK*DK*1*N，逐点卷积参数量为1*1*M*N，所以深度可分离卷积参数量是标准卷积的1/N+1/(DK)2。

S103：若所述待定用户的运动方向与所述目标用户的运动方向满足预设条件，则确定所述待定用户为尾随人员。

若所述待定用户的运动方向与所述目标用户的运动方向满足预设条件，其中，预设条件为所述待定用户的运动方向与所述目标用户的运动方向一致或者运动方向的角度差在预设范围内，则可以确定所述待定用户为尾随人员；反之，若所述待定用户的运动方向与所述目标用户的运动方向不满足预设条件，则可以确定所述待定用户不为尾随人员。

如图5所示，为本发明所述尾随人员的确定装置的一个具体实施例。本实施例所述装置，即用于执行上述实施例所述方法的实体装置。其技术方案本质上与上述实施例一致，上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括：

信息获取单元501，用于获取目标图像信息，其中，所述目标图像信息包括目标用户；

方向确定单元502，用于若所述目标图像信息中包括待定用户的人脸，根据所述待定用户的人脸确定所述待定用户的运动方向；

尾随确定单元503，用于若所述待定用户的运动方向与所述目标用户的运动方向满足预设条件，则确定所述待定用户为尾随人员。

可选的，所述方向确定单元502，具体用于：

获取目标图像信息对应的待处理图像；

将所述待处理图像输入预设的五官识别模型；

根据所述待定用户的人脸，确定所述待定用户的运动方向。

可选的，所述方向确定单元502，具体用于：

利用所述五官识别模型根据所述图像特征，生成热力图；

根据所述待定用户的五官检测框确定所述待定用户的人脸。

可选的，所述方向确定单元502，具体用于：

利用所述五官识别模型确定所述热力图中的若干个峰值点；

可选的，所述装置还包括检验单元，用于：

图6是本发明实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器（non-volatile memory），例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构）总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构）总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放执行指令。具体地，执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成尾随人员的确定装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本发明任一实施例中提供的尾随人员的确定方法。

上述如本发明图1所示实施例提供的尾随人员的确定装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本发明实施例还提出了一种可读介质，该可读存储介质存储有执行指令，存储的执行指令被电子设备的处理器执行时，能够使该电子设备执行本发明任一实施例中提供的尾随人员的确定方法，并具体用于执行上述尾随人员的确定所述的方法。

前述各个实施例中所述的电子设备可以为计算机。

本领域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种快速获取尾随人员信息方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述若所述目标图像信息中包括待定用户的人脸，根据所述待定用户的人脸确定所述待定用户的运动方向，包括：

获取目标图像信息对应的待处理图像；

将所述待处理图像输入预设的五官识别模型；

根据所述待定用户的人脸，确定所述待定用户的运动方向。

3.根据权利要求1或2所述的方法，其特征在于，若所述目标图像信息为待处理图像，则所述根据所述待定用户的人脸，确定所述待定用户的运动方向，包括：

4.根据权利要求2所述的方法，其特征在于，所述若所述五官识别模型输出所述待处理图像对应的待定用户的五官检测框，根据所述待定用户的五官检测框确定所述待定用户的人脸，包括：

利用所述五官识别模型根据所述图像特征，生成热力图；

根据所述待定用户的五官检测框确定所述待定用户的人脸。

5.根据权利要求4所述的方法，其特征在于，所述利用所述五官识别模型根据所述热力图，生成所述待处理图像对应的待定用户的五官检测框，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述五官识别模型根据所述热力图，确定所述待处理图像对应的待定用户的五官中心点，包括：

利用所述五官识别模型确定所述热力图中的若干个峰值点；

7.根据权利要求5或6所述的方法，其特征在于，在所述根据所述待定用户的五官检测框确定所述待定用户的人脸的步骤之前，所述方法还包括：

8.一种快速获取尾随人员信息装置，其特征在于，所述装置包括：

9.一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如权利要求1至7中任一所述的方法。

10.一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如权利要求1至7中任一所述的方法。