CN110705353A

CN110705353A - 基于注意力机制的遮挡人脸的识别方法和装置

Info

Publication number: CN110705353A
Application number: CN201910810692.9A
Authority: CN
Inventors: 张峰
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-01-17

Abstract

本申请公开了一种基于注意力机制的遮挡人脸的识别方法和装置，属于人脸识别领域。该方法包括：获取实验数据集，为所述实验数据集中的人脸图像增加遮挡；将具有遮挡的人脸图像输入基于注意力机制的CNN模型，得到遮挡部分的边缘语义信息；将所述具有遮挡的人脸图像和所述边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补；采用CNN模型对已修补的人脸图像进行识别。该装置包括：获取模块、边缘语义信息模块、修补模块和识别模块。本申请有效地降低了遮挡部分对人脸识别的影响，提高了人脸识别的准确性。

Description

基于注意力机制的遮挡人脸的识别方法和装置

技术领域

本申请涉及人脸识别领域，特别是涉及一种基于注意力机制的遮挡人脸的识别方法和装置。

背景技术

人脸识别是计算机视觉的一个方向，是利用计算机分析人脸视频或者图像，并从中提取出有效的个人识别信息，最终判别出来人脸对象的身份，通常也叫做面部识别、人像识别。

通常，人脸识别的步骤包括：图像采集、图像预处理、人脸检测、人脸对齐、特征提取和匹配。图像采集是指采取摄像设备等采集人脸图像。由于图像采集时会容易受到外界环境的影响，例如光照等，产生不易于图像检测和识别的外界干扰因素，因此需要通过图像预处理手段消除部分外界环境的干扰。常用的图像预处理方法有人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等。人脸检测是检测图像中是否存在人脸以及人脸在整个图像中的具体位置。目前的人脸检测算法有：模板匹配模型、支持向量机模型、Adaboost模型、DPM(Deformable Part Model)模型、卷积神经网络模型等。人脸对齐是指在检测到的人脸图像上，自动定位出面部关键特征点，例如眉毛、眼睛、鼻子、嘴角以及人脸各部件轮廓点等。目前常用的人脸对齐算法有：CLM(Common Land Model)、ESR(Explicit Shape Regression)等。人脸特征提取是人脸识别过程中非常重要的一步，这是对人脸进行建模的过程，需要将检测出的人脸部分进行特征的抽取和转换，将其转换为向量的表示。最后的匹配就是将识别到的人脸与数据库中的信息相比对，从而得到最终的识别结果。

人脸识别依靠于正视清晰的人脸图像，其中人脸特征的完整性决定了人脸识别技术成功与否。在实际的人脸图像识别过程中，人物图像的遮挡经常出现，例如口罩、帽子、墨镜、头发等的遮挡，导致人脸图像的特征不完整，进而对人脸识别造成极大影响，严重时可能识别失败。因此如何准确识别出遮挡部位并对遮挡部位进行处理成为人脸识别的关键问题。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于注意力机制的遮挡人脸的识别方法，包括：

获取实验数据集，为所述实验数据集中的人脸图像增加遮挡；

将具有遮挡的人脸图像输入基于注意力机制的CNN卷积神经网络模型，得到遮挡部分的边缘语义信息；

将所述具有遮挡的人脸图像和所述边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补；

采用CNN模型对已修补的人脸图像进行识别。

可选地，将具有遮挡的人脸图像输入基于注意力机制的CNN卷积神经网络模型，得到遮挡部分的边缘语义信息，包括：

将具有遮挡的人脸图像输入基于注意力机制的CNN模型，进行6层卷积操作，前3层的卷积操作为下采样操作，后3层的卷积操作为上采样操作，并在所述上采样操作中加入注意力机制整合全局和局部空间信息，建立人脸图像中各个位置像素间远近距离的关联关系，捕获到遮挡部分的边缘语义信息。

可选地，将所述具有遮挡的人脸图像和所述边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补，包括：

将所述具有遮挡的人脸图像和所述边缘语义信息输入生成对抗网络，所述生成对抗网络包括生成器和鉴别器，所述生成器包括编码器和解码器；

所述编码器将所述具有遮挡的人脸图像，通过卷积和池化操作后得到图像特征，将所述图像特征和所述边缘语义信息进行联合，输入所述解码器，所述解码器通过卷积的上采样操作生成遮挡部分图像得到人脸图像；

所述鉴别器对所述生成的人脸图像进行真实性判别以修补所述人脸图像。

可选地，所述编码器将所述具有遮挡的人脸图像，通过卷积和池化操作后得到图像特征，包括：

所述编码器通过下采样操作对所述具有遮挡的人脸图像进行多次池化，得到图像特征作为所述人脸图像的全局信息，并通过上采样线性插值的操作扩展所述图像特征，实现对所述图像特征每个部分的推理和选择。

可选地，采用CNN模型对已修补的人脸图像进行识别，包括：

采用VGGNet16模型和Dropconnect的正则化方法，以最大池化的方式进行池化操作，对已修补的人脸图像进行识别。

根据本申请的另一个方面，提供了一种基于注意力机制的遮挡人脸的识别装置，包括：

获取模块，其配置成获取实验数据集，为所述实验数据集中的人脸图像增加遮挡；

边缘语义信息模块，其配置成将具有遮挡的人脸图像输入基于注意力机制的CNN卷积神经网络模型，得到遮挡部分的边缘语义信息；

修补模块，其配置成将所述具有遮挡的人脸图像和所述边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补；

识别模块，其配置成采用CNN模型对已修补的人脸图像进行识别。

可选地，所述边缘语义信息模块具体配置成：

可选地，所述修补模块具体配置成：

可选地，所述编码器具体配置成：

通过下采样操作对所述具有遮挡的人脸图像进行多次池化，得到图像特征作为所述人脸图像的全局信息，并通过上采样线性插值的操作扩展所述图像特征，实现对所述图像特征每个部分的推理和选择。

可选地，所述识别模块具体配置成：

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，通过获取实验数据集，为其中的人脸图像增加遮挡后，输入基于注意力机制的CNN模型，得到遮挡部分的边缘语义信息，将具有遮挡的人脸图像和边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补，再采用CNN模型对已修补的人脸图像进行识别，整体采用了先修补再识别的方式，解决了人脸识别中的遮挡问题，有效地降低了遮挡部分对人脸识别的影响。边缘信息包含了更多重要语义信息，能够有利于提高修补的准确性，从而能够降低遮挡对于人脸识别的影响，进而提高了人脸识别的准确性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于注意力机制的遮挡人脸的识别方法流程图；

图2是根据本申请另一个实施例的基于注意力机制的遮挡人脸的识别方法流程图；

图3是根据本申请另一个实施例的基于注意力机制的遮挡人脸的识别装置结构图；

图4是根据本申请另一个实施例的计算设备结构图；

图5是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

图1是根据本申请一个实施例的基于注意力机制的遮挡人脸的识别方法流程图。参见图1，该方法包括：

101：获取实验数据集，为实验数据集中的人脸图像增加遮挡；

102：将具有遮挡的人脸图像输入基于注意力机制的CNN卷积神经网络模型，得到遮挡部分的边缘语义信息；

103：将具有遮挡的人脸图像和边缘语义信息输入GAN(Generative AdversarialNetworks，生成对抗网络)，生成人脸图像并进行遮挡部分的修补；

104：采用CNN模型对已修补的人脸图像进行识别。

本实施例中，可选的，将具有遮挡的人脸图像输入基于注意力机制的CNN卷积神经网络模型，得到遮挡部分的边缘语义信息，包括：

将具有遮挡的人脸图像输入基于注意力机制的CNN模型，进行6层卷积操作，前3层的卷积操作为下采样操作，后3层的卷积操作为上采样操作，并在上采样操作中加入注意力机制整合全局和局部空间信息，建立人脸图像中各个位置像素间远近距离的关联关系，捕获到遮挡部分的边缘语义信息。

本实施例中，可选的，将具有遮挡的人脸图像和边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补，包括：

将具有遮挡的人脸图像和边缘语义信息输入生成对抗网络，生成对抗网络包括生成器和鉴别器，生成器包括编码器和解码器；

编码器将具有遮挡的人脸图像，通过卷积和池化操作后得到图像特征，将图像特征和边缘语义信息进行联合，输入解码器，解码器通过卷积的上采样操作生成遮挡部分图像得到人脸图像；

鉴别器对生成的人脸图像进行真实性判别以修补人脸图像。

本实施例中，可选的，编码器将具有遮挡的人脸图像，通过卷积和池化操作后得到图像特征，包括：

编码器通过下采样操作对具有遮挡的人脸图像进行多次池化，得到图像特征作为人脸图像的全局信息，并通过上采样线性插值的操作扩展图像特征，实现对图像特征每个部分的推理和选择。

本实施例中，可选的，采用CNN模型对已修补的人脸图像进行识别，包括：

本实施例提供的上述方法，通过获取实验数据集，为其中的人脸图像增加遮挡后，输入基于注意力机制的CNN模型，得到遮挡部分的边缘语义信息，将具有遮挡的人脸图像和边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补，再采用CNN模型对已修补的人脸图像进行识别，整体采用了先修补再识别的方式，解决了人脸识别中的遮挡问题，有效地降低了遮挡部分对人脸识别的影响。边缘信息包含了更多重要语义信息，能够有利于提高修补的准确性，从而能够降低遮挡对于人脸识别的影响，进而提高了人脸识别的准确性。

图2是根据本申请另一个实施例的基于注意力机制的遮挡人脸的识别方法流程图。参见图2，该方法包括：

201：获取实验数据集，为实验数据集中的人脸图像增加遮挡；

本实施例中，可选的，采用的实验数据集为PubFig(Public Figures FaceDatabase，哥伦比亚大学公众人物脸部数据库)，是一个大型的真实世界的人脸数据集，包括从互联网收集的200人的58797张图片。该数据集是在主体不受控制的情况下拍摄的，因此姿态、光照和场景各不相同，更符合实际情况下人脸识别的应用场景。由于PubFig数据集中的图像中并没有存在遮挡，因此需要为人脸图像增加遮挡，可以采用在人脸不同位置增加黑色遮挡框的方式，以此来模拟现实中可能会出现的口罩、头发、墨镜等遮挡。

202：将具有遮挡的人脸图像输入基于注意力机制的CNN模型，进行6层卷积操作，前3层的卷积操作为下采样操作，后3层的卷积操作为上采样操作，并在上采样操作中加入注意力机制整合全局和局部空间信息，建立人脸图像中各个位置像素间远近距离的关联关系，捕获到遮挡部分的边缘语义信息；

本实施例中，当对图像遮挡或缺损部分进行修补时，待修补部分周围的边缘语义信息，相对于其他位置的图像语义信息，往往具有更重要的作用，因此，本实施例中，先生成待修补部分的边缘语义信息，并将其作为人脸图像修补的先验知识。

203：将具有遮挡的人脸图像和边缘语义信息输入生成对抗网络；

其中，生成对抗网络包括生成器和鉴别器，生成器包括编码器和解码器；

204：编码器通过下采样操作对具有遮挡的人脸图像进行多次池化，得到图像特征作为人脸图像的全局信息，并通过上采样线性插值的操作扩展图像特征，实现对图像特征每个部分的推理和选择；

本实施例中，可选地，生成器的编码器使用VGGNet19(Visual Geometry Group)模型得到图像特征，具体的，可以包括以下步骤：

首先，通过下采样(down sample)操作进行多次池化以获得低分辨率、强语义信息的图像特征，以此来获得人脸图像的全局信息；然后，通过上采样(up sample)线性插值的操作扩展该图像特征，从而实现对图像特征每个部分的推理和选择。

205：将图像特征和边缘语义信息进行联合，输入解码器，解码器通过卷积的上采样操作生成遮挡部分图像得到人脸图像；

其中，解码器可以通过5层卷积的上采样操作生成遮挡部分图像。

本实施例中，生成器G用于接收随机噪声z，通过随机噪声生成图像G(z)。本实施例中，生成器G将具有遮挡的人脸图像作为第一部分输入(将其作为随机噪声z)，将边缘语义信息作为第二部分输入，通过同时将整体图像和边缘语义信息送入生成器中，能够加强生成器对修补图像边缘信息的关注度，提高生成图像的准确率。

206：鉴别器对生成的人脸图像进行真实性判别以修补人脸图像；

本实施例中，可选的，鉴别器也可以采用VGGNet19模型来识别。在生成对抗网络的训练过程中，生成器G的目标是尽可能生成真实的图像去迷惑鉴别器D，而鉴别器D的目标是尽可能判别图像的真假。因此生成器G和鉴别器D形成了一种博弈的过程，通过多次循环后生成器G能够生成尽量真实的人脸图像，即达到了修补遮挡人脸图像的目的。

207：采用VGGNet16模型和Dropconnect的正则化方法，以最大池化的方式进行池化操作，对已修补的人脸图像进行识别。

图3是根据本申请另一个实施例的基于注意力机制的遮挡人脸的识别装置结构图。参见图3，该装置包括：

获取模块301，其配置成获取实验数据集，为实验数据集中的人脸图像增加遮挡；

边缘语义信息模块302，其配置成将具有遮挡的人脸图像输入基于注意力机制的CNN卷积神经网络模型，得到遮挡部分的边缘语义信息；

修补模块303，其配置成将具有遮挡的人脸图像和边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补；

识别模块304，其配置成采用CNN模型对已修补的人脸图像进行识别。

本实施例中，可选的，边缘语义信息模块具体配置成：

本实施例中，可选的，修补模块具体配置成：

鉴别器对生成的人脸图像进行真实性判别以修补人脸图像。

本实施例中，可选的，编码器具体配置成：

通过下采样操作对具有遮挡的人脸图像进行多次池化，得到图像特征作为人脸图像的全局信息，并通过上采样线性插值的操作扩展图像特征，实现对图像特征每个部分的推理和选择。

本实施例中，可选的，识别模块具体配置成：

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，通过获取实验数据集，为其中的人脸图像增加遮挡后，输入基于注意力机制的CNN模型，得到遮挡部分的边缘语义信息，将具有遮挡的人脸图像和边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补，再采用CNN模型对已修补的人脸图像进行识别，整体采用了先修补再识别的方式，解决了人脸识别中的遮挡问题，有效地降低了遮挡部分对人脸识别的影响。边缘信息包含了更多重要语义信息，能够有利于提高修补的准确性，从而能够降低遮挡对于人脸识别的影响，进而提高了人脸识别的准确性。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的遮挡人脸的识别方法，包括：

采用CNN模型对已修补的人脸图像进行识别。

2.根据权利要求1所述的方法，其特征在于，将具有遮挡的人脸图像输入基于注意力机制的CNN卷积神经网络模型，得到遮挡部分的边缘语义信息，包括：

3.根据权利要求1所述的方法，其特征在于，将所述具有遮挡的人脸图像和所述边缘语义信息输入生成对抗网络，生成人脸图像并进行遮挡部分的修补，包括：

4.根据权利要求3所述的方法，其特征在于，所述编码器将所述具有遮挡的人脸图像，通过卷积和池化操作后得到图像特征，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，采用CNN模型对已修补的人脸图像进行识别，包括：

6.一种基于注意力机制的遮挡人脸的识别装置，包括：

7.根据权利要求6所述的装置，其特征在于，所述边缘语义信息模块具体配置成：

8.根据权利要求6所述的装置，其特征在于，所述修补模块具体配置成：

9.根据权利要求8所述的装置，其特征在于，所述编码器具体配置成：

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述识别模块具体配置成：