CN113591692A

CN113591692A - 一种多视图身份识别方法

Info

Publication number: CN113591692A
Application number: CN202110863815.2A
Authority: CN
Inventors: 张南海
Original assignee: Yingzhi Technology Hangzhou Co ltd
Current assignee: Yingzhi Technology Hangzhou Co ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-02

Abstract

本发明公开了一种多视图身份识别方法，包括以下步骤：对输入图片采用一体化的检测网络进行人脸、人体、上半身检测，检测网络基于anchor‑free的检测框架，共享同一热力图，同时回归人脸坐标、人体坐标、上半身坐标；依据坐标信息，对人脸、人体、上半身分别进行预处理，先检测人脸的关键点，并根据关键点进行人脸对齐，再将人体和上半身通过缩放至统一大小实现上半身对齐和人体对齐，形成新的输入图片；将新的输入图片切成固定大小的小块并进行序列化，生成人脸视图、上半身视图和人体视图，采用多模态融合特征提取网络完成特征提取，多模态融合特征提取网络的输出作为特征，最后进行特征比对完成身份识别。

Description

一种多视图身份识别方法

技术领域

本发明涉及视图身份识别技术领域，特别涉及一种多视图身份识别方法。

背景技术

基于视觉的身份识别方法具有非接触、非强制、无意识、速度快、精度高等优点，在安防监控、智慧零售、考勤打卡等领域都有应用需求。深度学习的发展以及算力的提升使得此项技术的实用性极大提升，目前已经得到了广泛的应用，在一些相对受控的环境，目前的技术已基本能满足需求。

基于视觉的身份识别方法典型的方法有人脸识别和行人重识别。人脸识别在计算机视觉诞生之初就开始有研究，目前已有近60年的历史，技术已经发展得较成熟，但是角度、光照、遮挡、模糊等影响人脸质量的干扰仍是挑战。行人重识别诞生于多相机目标跟踪，后因其重要性被作为一个独立的任务以解决跨相机的身份识别问题，随着精度的提高，目前已经能作为人脸识别的一个补充，比如在拍不到人脸的场景。

人脸识别方法和行人重识别方法的流程大致相同，典型的流程包括：1、检测，定位出图片中人脸或者人体的位置；2、预处理，对检测的人脸或者人体做对齐处理，人脸因其相对刚性的结构，可以通过关键点做对齐，人体一般做粗对齐，比如把图片缩放到同一大小；3、特征提取，对对齐后的人脸或者人体提取能代表其身份信息的特征，一般要求特征对光照、角度、遮挡、年龄变化具有一定的鲁棒性，目前典型的方案是采用训练好的深度卷积神经网络提取特征；4、特征比对，计算提取出的特征与已经注册的底库特征的相似度，相似度最高的作为其身份。

基于上述现有内容，一般基于视觉的身份识别方法存在四处不足：

单一模态精度不足，单一的人脸识别和单一的行人重识别技术都有其局限性，人脸识别精度受光照、角度、遮挡、模糊等干扰，在底库规模大情况精度也会受影响，更极端情况下可能拍不到人脸。行人重识别比较依赖衣服款式及颜色，所以跨天识别能力弱，此外光照、角度、遮挡、模糊对人体亦是挑战；

简单融合人脸识别和行人重识别的方法计算复杂度高，人脸识别方法和行人重识别都有其独立的流程，简单融合会导致两个流程需要分别计算，存在冗余；

以质量判断识别所采用的模态的方法无法实现跨模态的识别，比如有的场景只拍到了人体，但是注册的底库只有比较清晰的人脸可用，这就会导致无法识别；

人脸与人体特征层融合的方法未能充分利用人脸和人体的关联信息，比如同一人其人脸和人体的肤色是一致的，长的胖的人脸会略圆。二者之间的关联信息可以为对方提供补充信息，特征层的融合会忽略此信息。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种多视图身份识别方法。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种多视图身份识别方法，包括以下步骤：

对输入图片采用一体化的检测网络进行人脸、人体、上半身检测，检测网络基于anchor-free的检测框架，共享同一热力图，同时回归人脸坐标、人体坐标、上半身坐标；

依据坐标信息，对人脸、人体、上半身分别进行预处理，先检测人脸的关键点，并根据关键点进行人脸对齐，再将人体和上半身通过缩放至统一大小实现上半身对齐和人体对齐，形成新的输入图片；

将新的输入图片切成固定大小的小块并进行序列化，生成人脸视图、上半身视图和人体视图，采用多模态融合特征提取网络完成特征提取，多模态融合特征提取网络的输出作为特征，最后进行特征比对完成身份识别。

进一步优选为，所述检测网络主干网络采用深度全卷积神经网络(FCN)，训练过程的热力图采用二分类损失函数监督，热力图表示目标的中心。

进一步优选为，所述检测网络还包括三个分支，分别学习人脸坐标、人体坐标和上半身坐标，训练过程人脸、人体、上半身的坐标采用L1损失函数监督。

进一步优选为，所述人脸关键点的检测通过检测两眼中心、鼻尖、两嘴角五个关键点，利用这五个关键点做仿射变换以对齐人脸。

进一步优选为，所述多模态融合特征提取网络基于transformer实现，人脸视图、上半身视图和人体视图的每一种视图都连接一个ViT网络，上半身视图与人脸视图、人体视图均共同连接有一个跨模态的ViT网络，ViT网络和跨模态的ViT网络输出的特征输入至tranformer进行特征融合，最后只需要计算tranformer的输出作为特征。

综上所述，本发明对比于现有技术的有益效果为：

针对“单一模态精度不足”的问题，本发明创新性地提出融合人脸、上半身、人体三种视图的特征，这三种视图具有较强的互补性，在有高质量的人脸情况下，可以获得较高的身份识别精度，但是当底库规模较大时相似脸的存在会给人脸识别带来挑战，这时人体就是很好的互补信息。近一步的，当采集到的人脸图像质量较差时，人体能发挥更大的作用，上半身视图一般情况下遮挡较少，可以在人脸和人体质量不佳情况下发挥重要作用。

针对“简单融合人脸识别和行人重识别的方法计算复杂度高”的问题，简单融合人脸识别和行人重识别方法指的是分别走人脸识别流程和行人重识别流程然后只在特征层做融合，这种方法导致人脸和人体需要单独检测，浪费了一些计算，本发明提出了一种人脸、人体、上半身一体化检测网络，主干网络FCN的计算可以共享，节省计算的同时，避免了后续人脸、人体、上半身绑定的问题。

针对“以质量判断识别所采用的模态的方法无法实现跨模态识别”的问题，有些场景只有人脸符合质量要求，而有些场景人体符合质量要求，这种情况下人脸和人体间是无法做特征比对的，本发明引入了一种中间态——上半身，其可适用场景比人脸和人体都更广，可以作为人脸和人体特征比对的桥梁，同时本发明提出的多模态融合网络可以从这三种视图提取出跨模态特征，在人脸缺失或者人体缺失情况下都能获得较高精度。

针对“人脸与人体特征层融合的方法未能充分利用人脸和人体的关联信息”的问题，本发明提出的多模态特征融合网络可以解决，基础的ViT网络可以提取局部特征与全局特征，方便在最后的transformer层选择有用的信息，同时两个跨模态的ViT网络，可将人体信息输入到人脸、人脸信息输入到人体，交互学习得到更鲁棒的特征，最后一个transformer融合了三个视图的局部与全局信息，其输出的特征鉴别性更强。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为实施例的整体流程图；

图2为实施例中人脸、人体、上半身检测的流程图；

图3为实施例中多模态特征融合网络的结构图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。说明书中的“实施例”或“实施方式”既可表示一个实施例或一种实施方式，也可表示一些实施例或一些实施方式的情况。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种多视图身份识别方法。

需要说明的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

一种多视图身份识别方法，参照图1所示，由此包括人脸、人体、上半身检测步骤，人脸关键点检测与对齐、上半身对齐、人体对齐步骤，多模态融合特征步骤，特征比对步骤。

现对上述步骤进行具体展开描述：

1、人脸、人体、上半身检测步骤

利用一种高效的一体化检测网络，能同时完成人脸、人体、上半身的检测，一体化的检测网络避免了人脸、人体、上半身的绑定问题，同时又能提高计算效率。

检测网络是基于anchor-free的检测框架，共享同一热力图，在此基础上同时回归人脸坐标、人体坐标、上半身坐标，具体结构如图2所示。

参照图2所示，检测网络的主干网络采用深度全卷积神经网络(FCN)，训练过程的热力图用一个二分类损失函数监督，热力图表示目标的中心，因为采用的是一体化的网络，一种典型的方式是可以统一用人脸中心做学习目标。

检测网络还有另外三个分支，分别学习人脸坐标[x_f,y_f,w_f,h_f]，人体坐标[x_b,y_b,w_b,h_b]，上半身坐标[x_h,y_h,w_h,h_h]，其中，x、y表示目标中心位置，w、h表示目标的长和宽，训练过程的人脸、人体、上半身的坐标采用L1损失函数监督。

2、人脸关键点检测与对齐、上半身对齐、人体对齐步骤

对人脸、人体、上半身分别预处理，对于人脸的预处理，先检测人脸关键点，一种典型的方法是检测两眼中心、鼻尖、两嘴角这5个关键点，然后利用这5个关键点做仿射变换以对齐人脸；人体的预处理通过将图片缩放至同一大小达到对齐的效果；上半身的对齐也是将图片缩放至同一大小。

3、多模态融合特征步骤

为了提高身份识别的精度，充分利用好多视图的互补信息，本发明提出了一种多模态融合特征提取网络。

区别于其它人脸、人体融合的方法，本发明引入了一种中间模态，即上半身视图，这是考虑在人体的视图中人脸的占比比较小，信息丢失较多，不利于学习跨模态特征，此外上半身出现遮挡的概率也更低，可以很好的作为人脸和人体之间的信息传递的桥梁。

考虑transformer最近在多模态领域获得的突出性能，本发明提出了一种基于transformer的多模态特征融合网络，具体结构如图3所示。

参照图3所示，对于上半身视图与人脸视图、人体视图，每一种视图都接一个ViT网络，送入ViT网络前，输入图片通过切成PxP个小块序列化，ViT网络能很好的提取出视图的局部特征与全局特征，方便最后的transformer层选择有用的信息。

上半身视图是人脸和人体之间的桥梁，本发明采用了两个跨模态的ViT，作用是使得人脸接收上半身信息和人体接收上半身信息。

最后一个transformer是融合了所有视图的特征，输入是ViT的特征，既包含了局部信息又包含了全局信息，相互交互，提取出有用信息，去除冗余信息。

训练网络时上述每个特征都接了一个softmax做分类，避免网络太深影响监督信息传递，最后识别过程只需要计算tranformer的输出作为特征。

4、特征比对步骤

这个与一般的身份识别系统一致，一种典型的方法可以采用余弦相似度，在此不做过多赘述。

在现有的技术中，可以有以下内容可替换：

本发明所采用的人脸、人体、上半身一体化检测网络是anchor-free检测结构的一种，其它anchor-free网络亦可使用，如CornerNet，学习热力图的同时学习检测框的左上、右下两个点。

本发明提出的多模态特征融合网络中采用的ViT网络，也可换用普通的CNN网络，或者基于注意力机制的CNN网络，最后一个transformer层可以换用简单的FC层。

本发明的创新点及关键保护点在于：

本发明创新性地提出了一种融合人脸、上半身、人体三种视图的身份识别方法，上半身作为一种中间模态，可以作为人脸和人体之间信息传递的桥梁，同时上半身的可用场景更广，可以提升身份识别的精度。

本发明提出了一种人脸、人体、上半身一体化检测网络，保证精度的同时提升了计算效率，还能避免后续人脸、上半身、人体的绑定问题。

本发明提出了一种多模态特征融合网络，ViT网络提取了三种视图局部与全局特征，跨模态ViT'网络实现了模态间的信息传递，transformer融合了三种视图的特征，使得最后提取出的特征在模态完整情况下具有更高的精度，同时跨模态信息的提取使得在模态缺失情况下特征也具有很好的鲁棒性。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种多视图身份识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多视图身份识别方法，其特征在于，所述检测网络主干网络采用深度全卷积神经网络，训练过程的热力图采用二分类损失函数监督，热力图表示目标的中心。

3.根据权利要求2所述的一种多视图身份识别方法，其特征在于，所述检测网络还包括三个分支，分别学习人脸坐标、人体坐标和上半身坐标，训练过程人脸、人体、上半身的坐标采用L1损失函数监督。

4.根据权利要求1所述的一种多视图身份识别方法，其特征在于，所述人脸关键点的检测通过检测两眼中心、鼻尖、两嘴角五个关键点，利用这五个关键点做仿射变换以对齐人脸。

5.根据权利要求1所述的一种多视图身份识别方法，其特征在于，所述多模态融合特征提取网络基于transformer实现，人脸视图、上半身视图和人体视图的每一种视图都连接一个ViT网络，上半身视图与人脸视图、人体视图均共同连接有一个跨模态的ViT网络，ViT网络和跨模态的ViT网络输出的特征输入至tranformer进行特征融合，最后只需要计算tranformer的输出作为特征。