CN112241667A

CN112241667A - 图像检测方法、装置、设备及存储介质

Info

Publication number: CN112241667A
Application number: CN201910650519.7A
Authority: CN
Inventors: 张梦阳; 王兵; 汪泽南; 付烁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-01-19

Abstract

本申请提供了一种图像检测方法、装置、设备及存储介质，属于图像识别领域。本申请先获取第一类区域框信息，从而确定图像检测的初始范围，然后基于所述第一类区域框信息获取第一类区域掩膜和关键点信息，确定所述目标图像的轮廓掩膜，以保障能够区分出背景和所需关注的区域，之后再确定第一图像，并基于轮廓掩膜和第一图像得到第一类区域图像，上述过程中，能够通过第一类区域掩膜和关键点信息，准确的排除图像中的背景区域的干扰，从而避免了后续图像检测中可能会涉及的背景检测，不仅能够减少计算资源的消耗和处理的耗时，而且还提高了图像检测的精度。

Description

图像检测方法、装置、设备及存储介质

技术领域

本申请涉及图像识别领域，特别涉及一种图像检测方法、装置、设备及存储介质。

背景技术

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，它在金融、司法、公安、边防等许多领域都有广泛的应用，而图像检测是图像识别技术中的关键核心技术。

以该图像检测的目标物是人脸为例，目前常用的人脸检测方法可以基于卷积神经网络实现，其具体过程可以包括：将预处理后的多张待检测图像输入至三级卷积神经网络，获取人脸框位置坐标。其中，该卷积神经网络可以划分为三级卷积神经网络：第一级网络为全卷积神经网络，第二级网络和第三级网络分别为双流的内部级联卷积神经网络，将预处理后的多张待检测图像输入至该第一级网络，获得初始人脸框位置坐标；根据该初始人脸框位置坐标，基于该多张待检测图像获取对应的人体框位置坐标，并将该初始人脸框位置坐标和人体框位置坐标输入至该第二级网络和第三级网络，淘汰非人脸的图像，获得准确的人脸框位置坐标。

但是，在上述人脸检测方法中，在极小人脸或人脸五官不全的情况下，可能会因检测不到人脸而将该图像淘汰，或得到的人脸框位置坐标不准确，另外，输出的是人脸框位置坐标，若人脸框定位过大，则该人脸框区域内除人脸区域之外还包括背景区域，若人脸框定位过小，则该人脸框区域内人脸不完整，这些问题都会对人脸检测结果造成干扰，使人脸检测精度降低。当该图像检测的目标物是动物和物体中至少一种时，也可能有类似的坐标不准确、背景区域干扰和信息不完整等问题出现，这些问题都会使图像检测精度降低。

发明内容

本申请实施例提供了一种图像检测方法、装置、设备及存储介质，能够解决相关技术中图像检测精度低的问题。所述技术方案如下：

第一方面，提供了一种图像检测方法，所述方法包括：

获取目标图像中目标物的第一类区域框信息；

根据所述第一类区域框信息和所述目标图像，得到所述目标图像的第一类区域掩膜和关键点信息；

根据所述目标图像的第一类区域掩膜和关键点信息，确定出所述目标图像的轮廓掩膜；

基于所述目标图像中与所述第一类区域掩膜之间的重合区域，确定第一图像；

将所述第一图像中与所述轮廓掩膜之间的重合区域，确定所述目标图像中的第一类区域图像。

本实施例提供的方法，先获取第一类区域框信息，从而确定图像检测的初始范围，然后基于所述第一类区域框信息获取第一类区域掩膜和关键点信息，确定所述目标图像的轮廓掩膜，以保障能够区分出背景和所需关注的区域，之后再确定第一图像，并基于轮廓掩膜和第一图像得到第一类区域图像，上述过程中，能够通过第一类区域掩膜和关键点信息，准确的排除图像中的背景区域的干扰，从而避免了后续图像检测中可能会涉及的背景检测，不仅能够减少计算资源的消耗和处理的耗时，而且还提高了图像检测的精度。

可选地，所述根据所述第一类区域框信息和所述目标图像，得到所述目标图像的第一类区域掩膜和关键点信息包括：将所述第一类区域框信息和所述目标图像输入至图像识别模型，所述图像识别模型基于包括第一类区域掩膜和关键点信息的图像样本训练得到；通过所述图像识别模型对所述第一类区域框信息和所述目标图像进行处理，输出所述目标图像的第一类区域掩膜和关键点信息。

通过上述可选方式，利用图像识别模型获取所述目标图像的第一类区域掩膜的方式，提高了在复杂背景下第一类区域掩膜提取的泛化能力，在后续图像检测过程中可以完全去除背景干扰，保留完整的第一类区域轮廓，使图像检测精度上升。

可选地，所述根据所述目标图像的第一类区域掩膜和所述关键点信息，确定出所述目标图像的轮廓掩膜包括：当所述目标物为人和/或动物时，对所述关键点信息所指示的下巴关键点进行连接，得到第一曲线；将所述第一类区域掩膜被所述第一曲线所划分成的两个区域中形状符合目标条件的区域确定为所述目标图像的轮廓掩膜。

通过上述可选方式，基于第一类区域掩膜和信息关键点获取轮廓掩膜的方式，可以进一步排除所述目标物中非第一类区域的干扰，使第一类区域轮廓更加精准，使后续步骤可以正常进行。

可选地，所述获取目标图像中的第一类区域框信息包括：获取所述目标图像中的初始第一类区域框信息以及第二类区域框信息；基于初始第一类区域框信息以及第二类区域框信息，确定所述目标图像中任一个初始第一类区域框与对应的第二类区域框之间的重叠区域占所述第一类区域框的比例小于目标比例时，删除所述初始第一类区域框信息；将剩余的第一类区域框信息获取为所述目标图像中的第一类区域框信息。

通过上述可选方式，基于第二类区域框信息对第一类区域框信息进行准确性校验，并且对被删除的第一类区域框进行补偿，可以降低第一类区域检测的漏检率，保证获得准确的第一类区域框信息，使后续步骤正常进行。

可选得，所述基于所述目标图像中与所述第一类区域掩膜之间的重合区域，确定第一图像包括以下任一步骤：将所述目标图像中与所述第一类区域掩膜之间的重合区域，确定为第一图像；将所述目标图像中与所述第一类区域掩膜之间的不重合区域置为目标颜色，得到第一图像。

通过上述可选方式，所述目标图像中与所述第一类区域掩膜之间不重合的区域为背景区域，通过将所述背景区域置删除或置为目标颜色的方式，可以完全排除背景的干扰，并且在后续过程中，省去了图像检测检测过程中可能的背景识别过程。

可选地，所述方法还包括：获取所述目标图像的图像深度估计图，所述图像深度估计图用于表示所述目标图像上多个像素点的深度信息；基于所述图像深度估计图和所述目标图像中的第一类区域图像，获取所述目标图像的图像相对深度图，所述图像相对深度图用于表示所述目标图像上所述第一类区域图像中像素点的深度信息与所述目标图像中背景区域的深度信息之间的差异。

可选地，所述基于所述图像深度估计图和所述目标图像中的第一类区域图像，获取所述目标图像的图像相对深度图包括：从所述图像深度估计图中，获取所述第一类区域图像中像素点的深度信息和所述背景区域中像素点的深度信息；基于所述背景区域中像素点的深度信息，获取所述背景区域中像素点的平均深度信息；基于所述第一类区域图像中像素点的深度信息与所述平均深度信息的差值，生成所述目标图像的图像相对深度图。

通过上述可选方式，基于所述图像深度估计图和所述目标图像中的第一类区域图像，获取所述目标图像的图像相对深度图，补充了第一类区域深度信息这一信息维度，使第一类区域信息的表达更加完整，同时，在所述目标物为人和/或动物时，基于所述图像相对深度图进行的活体检测，并可以应用在多种领域中。

可选地，所述根据所述第一类区域框信息和所述目标图像，得到所述目标图像的第一类区域掩膜和关键点信息之后，所述方法还包括：输出所述目标图像中由关键点信息所确定的至少一个关键区域。

通过上述可选方式，基于关键点信息，确定至少一个关键区域，丰富了第一类区域信息的表达，当所述目标物为人时，所述关键区域还可以为其他辅助功能提供支持，如虹膜检测，嘴唇动态检测等。

第二方面，提供了一种图像检测装置，所述装置用于执行上述图像检测方法。具体地，该图像检测装置包括用于执行上述图像检测方法的功能模块。

可选地，所述装置还包括：图像深度估计图获取模块，用于获取所述目标图像的图像深度估计图，所述图像深度估计图用于表示所述目标图像上多个像素点的深度信息；

可选地，所述装置还包括：图像相对深度图获取模块，用于基于所述图像深度估计图和所述目标图像中的第一类区域图像，获取所述目标图像的图像相对深度图，所述图像相对深度图用于表示所述目标图像上所述第一类区域图像中像素点的深度信息与所述目标图像中背景区域的深度信息之间的差异；

可选地，所述装置还包括：关键区域确定模块，用于输出所述目标图像中由关键点信息所确定的至少一个关键区域。

第三方面，提供了一种图像检测设备，所述设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如第一方面或第一方面中任一种可选方式所述的图像检测方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面或第一方面中任一种可选方式所述的图像检测方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被处理器运行时，使得所述处理器执行如第一方面或第一方面中任一种可选方式所述的图像检测方法。

第六方面，提供了一种芯片，包括处理器，用于从存储器中调用并运行所述存储器中存储的指令，使得安装有所述芯片的设备执行如第一方面或第一方面中任一种可选方式所述的图像检测方法。

第七方面，提供另一种芯片，包括：输入接口、输出接口、处理器和存储器，所述输入接口、输出接口、所述处理器以及所述存储器之间通过内部连接通路相连，所述处理器用于执行所述存储器中的代码，当所述代码被执行时，所述处理器用于执行如第一方面或第一方面中任一种可选方式所述的图像检测方法。

附图说明

图1是本申请实施例提供的一种图像检测方法的实施环境的示意图；

图2是本申请实施例提供的一种图像检测设备100的结构示意图；

图3是本申请实施例提供的一种服务器210的结构示意图；

图4是本申请实施例提供的一种图像检测方法的流程图；

图5是本申请实施例提供的一种人脸检测方法的流程图；

图6是本申请实施例提供的一种人脸框信息的示意图；

图7是本申请实施例提供的一种人脸区域与人体区域的重叠区域的示意图；

图8是本申请实施例提供的一种人脸掩膜的示意图；

图9是本申请实施例提供的一种人脸关键点信息的示意图；

图10是本申请实施例提供的一种人脸掩膜形状的示意图；

图11是本申请实施例提供的一种第一图像的示意图；

图12是本申请实施例提供的一种人脸图像区域的示意图；

图13是本申请实施例提供的一种人脸关键区域的示意图；

图14是本申请实施例提供的一种图像相对深度图的示意图；

图15是本申请实施例提供的一种图像检测装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

以下，对实施环境进行示例性描述。

图1是本申请实施例提供的一种图像检测方法的实施环境的示意图。该实施环境包括：图像检测设备100和图像检测平台200。

图像检测设备100通过无线网络或有线网络与图像检测平台200相连。图像检测设备100可以是智能手机、机器人、智能汽车、车载设备、家居设备、游戏主机、台式计算机、平板电脑、电子书阅读器、智能电视和膝上型便携计算机中的至少一种。图像检测设备100安装和运行有支持图像检测的应用程序。当该图像检测的目标是人脸时，该应用程序可以是人脸开锁、人脸支付应用等。示例性的，图像检测设备100是用户使用的图像检测设备，图像检测设备100中运行的应用程序内登录有用户账号。

图像检测平台200包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像检测平台200用于为支持图像检测的应用程序提供后台服务。例如，图像检测平台可以构建下述方法实施例提供的目标图像与第一类区域框信息、轮廓掩膜、关键区域和图像相对深度图等图像信息之间的对应关系或者机器学习模型，将该对应关系或者机器学习模型发送给图像检测设备100，以便图像检测设备100基于该对应关系或者机器学习模型进行图像检测。

可选地，图像检测平台200包括：图像检测服务器210和数据库220。图像检测服务器用于提供图像检测有关的后台服务。图像检测服务器可以是一台或多台。当图像检测服务器是多台时，存在至少两台图像检测服务器用于提供不同的服务，和/或，存在至少两台图像检测服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。数据库220中可以用于目标图像与上述图像信息之间的对应关系或者机器学习模型。另外，数据库220可以存储有目标图像样本以及上述图像信息，以便图像检测服务器210从数据库220读取目标图像样本以及上述图像信息，根据目标图像样本以及上述图像信息，构建目标图像与上述图像信息之间的对应关系。

图像检测设备100可以泛指多个图像检测设备中的一个，本实施例仅以图像检测设备100来举例说明。本领域技术人员可以知晓，上述图像检测设备100的数量可以更多或更少。比如上述图像检测设备100可以仅为一个，或者上述图像检测设备100为几十个或几百个，或者更多数量，此时上述图像检测系统还包括其他图像检测设备。本申请实施例对图像检测设备100的数量和设备类型不加以限定。

以下，对图像检测设备的硬件结构进行示例性描述。

图2是本申请实施例提供的一种图像检测设备100的结构示意图。

图像检测设备100可以包括处理器110，外部存储器接口120和内部存储器121等。可以理解的是，本申请实施例示意的结构并不构成对图像检测设备100的具体限定。在本申请另一些实施例中，图像检测设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括处理器(processor)，图形处理器(graphics processing unit，GPU)，图像信号处理器(imagesignal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signalprocessor，DSP)，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

NPU，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现图像检测设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，实现扩展图像检测设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将图像，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，该可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如图像播放功能，视频播放功能等)等。存储数据区可存储图像检测设备100使用过程中所创建的数据(比如图像数据，视频数据等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行图像检测设备100的各种功能应用以及数据处理。

以下，对服务器210的硬件结构进行示例性描述。

图3是本发明实施例提供的一种服务器210的结构示意图，该服务器210可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)211和一个或一个以上的存储器212，其中，该存储器212中存储有至少一条指令，该至少一条指令由该处理器211加载并执行以实现上述各个方法实施例提供的数据读取方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

以下，对图像检测方法的流程进行示例性描述。

图4是本申请实施例提供的一种图像检测方法的流程图。

401、服务器获取该目标图像中的初始第一类区域框信息以及第二类区域框信息和图像深度估计图，该图像深度估计图用于表示该目标图像上多个像素点的深度信息。

需要说明的是，在本申请实施例中，仅以基于该目标图像获取三个维度的信息为例进行说明，在一些可能实现方式中，还可以仅获取初始第一类区域框信息来执行后续基于第一类区域框的检测过程，又或者，仅获取初始第一类区域框信息和第二类区域框信息，来执行后续基于第一类区域框的检测过程，选择获取哪几个维度的信息可以根据实际的检测需求来随意组合，本申请实施例对此不做限定。

402、该服务器基于初始第一类区域框信息以及第二类区域框信息，确定该目标图像中任一个初始第一类区域框与对应的第二类区域框之间的重叠区域占该第一类区域框的比例小于目标比例时，删除该初始第一类区域框信息；将剩余的第一类区域框信息获取为该目标图像中的第一类区域框信息。

403、该服务器根据该第一类区域框信息和该目标图像，得到该目标图像的第一类区域掩膜和关键点信息。

在一种可能实现方式中，将该第一类区域框信息和该目标图像输入至图像识别模型，该图像识别模型基于包括第一类区域掩膜和关键点信息的图像样本训练得到；通过该图像识别模型对该第一类区域框信息和该目标图像进行处理，输出该目标图像的第一类区域掩膜和关键点信息。

404、该服务器根据该目标图像的第一类区域掩膜和关键点信息，确定出该目标图像的轮廓掩膜。

在一种可能实现方式中，当该目标物为人和/或动物时，对该关键点信息所指示的下巴关键点进行连接，得到第一曲线；将该第一类区域掩膜被该第一曲线所划分成的两个区域中形状符合目标条件的区域确定为该目标图像的轮廓掩膜。

405、该服务器基于该目标图像中与该第一类区域掩膜之间的重合区域，确定第一图像。

在一种可能实现方式中，将该目标图像中与该第一类区域掩膜之间的重合区域，确定为第一图像。

在另一种可能实现方式中，将该目标图像中与该第一类区域掩膜之间的不重合区域置为目标颜色，得到第一图像。

406、该服务器将该第一图像中与该轮廓掩膜之间的重合区域，确定该目标图像中的第一类区域图像。

完成上述步骤401至步骤406之后，该服务器得到该目标图像中的第一类区域图像。在一种可能实现方式中，为了扩充输出的信息维度，可以继续执行步骤407和步骤408。

407、该服务器输出该目标图像中由关键点信息所确定的至少一个关键区域。

408、该服务器基于该图像深度估计图和该目标图像中的第一类区域图像，获取该目标图像的图像相对深度图，该图像相对深度图用于表示该目标图像上该第一类区域图像中像素点的深度信息与该目标图像中背景区域的深度信息之间的差异。

在一种可能实现方式中，从该图像深度估计图中，获取该第一类区域图像中像素点的深度信息和该背景区域中像素点的深度信息；基于该背景区域中像素点的深度信息，获取该背景区域中像素点的平均深度信息；基于该第一类区域图像中像素点的深度信息与该平均深度信息的差值，生成该目标图像的图像相对深度图。

本申请提供的方法，先获取第一类区域框信息，从而确定图像检测的初始范围，然后基于该第一类区域框信息获取第一类区域掩膜和关键点信息，确定该目标图像的轮廓掩膜，以保障能够区分出背景和所需关注的区域，之后再确定第一图像，并基于轮廓掩膜和第一图像得到第一类区域图像，上述过程中，能够通过第一类区域掩膜和关键点信息，准确的排除图像中的背景区域的干扰，从而避免了后续图像检测中可能会涉及的背景检测，不仅能够减少计算资源的消耗和处理的耗时，而且还提高了图像检测的精度。

本申请仅以该图像检测的目标物为人的人脸检测方法为例进行描述，其中，该第一类区域框信息为人脸框信息，该第二类区域框信息为人体框信息，第一类区域掩膜为人脸掩膜，该关键点信息为人脸关键点信息，该轮廓掩膜为人脸轮廓掩膜，该第一类区域图像为人脸区域图像。图5是本申请实施例提供的一种人脸检测方法的流程图。如图5所示，该方法包括：

501、服务器获取目标图像中的初始人脸框信息、人体框信息和图像深度估计图，该图像深度估计图用于表示该目标图像上多个像素点的深度信息。

在一种可能实现方式中，该目标图像的获取方式可以为以下三种：一是从外接设备输入，该服务器可以连接多种外接设备，如手机、监控摄像头等，通过外接设备拍照或录制视频等方式获取目标图像，并将该目标图像输入服务器。二是从本地离线数据读取，在服务器本地硬盘中存储所需的目标图像，在需要进行人脸检测时，服务器可直接读取本地离线数据获取该目标图像。三是从互联网公开数据中获取，由服务器在互联网中检索所需的目标图像，并下载该目标图像。本申请对该目标图像的获取方式不做限定。

需要说明的是，该初始人脸框信息是指该目标图像中能将人脸区域全部包含进去的最小矩形的边框位置坐标(如图6所示)。该初始人体框信息是指该目标图像中能将人体区域全部包含进去的最小矩形的边框位置坐标，该人体区域包括该人脸区域。该图像深度估计图是将该目标图像的多个像素点的深度信息对照像素点的位置坐标在该目标图像上进行标注，其中，该深度信息是指该目标图像拍摄时，视点与目标人物表面的距离。

在一种可能实现方式中，该服务器可以将该目标图像输入图像识别模型来获取初始人脸框信息、人体框信息和图像深度估计图，该图像识别模型可以基于包括类别信息、位置信息和深度信息的图像样本训练得到。其中，该类别信息是指该目标图像中是人脸还是非人脸，该位置信息是指该目标图像中的人脸框信息和人体框信息。

在一种可能实现方式中，该图像识别模型可以为多任务深度卷积神经网络，其训练过程可以为：获取训练样本集和验证样本集，该训练样本集和验证样本集均包括已标注有类别信息、位置信息和深度信息的图像样本，利用训练样本集对初始的多任务深度卷积神经网络进行训练，在训练过程中基于网络的输出和所输入的图像样本的类别信息、位置信息和深度信息，对该多任务深度卷积神经网络的参数进行调整，直到训练次数达到预设阈值或是损失函数满足预设条件时输出此时训练得到的多任务深度卷积神经网络。当然，还可以利用验证样本集对该多任务深度卷积神经网络进行验证，当验证得到的准确率大于目标准确率时，则可以认为该多任务深度卷积神经网络可以启动使用。

需要说明的是，在本申请实施例中，仅以基于该目标图像获取三个维度的信息为例进行说明，在一些可能实现方式中，还可以仅获取初始人脸框信息来执行后续基于人脸框的检测过程，又或者，仅获取初始人脸框信息和人体框信息，来执行后续基于人脸框的检测过程，选择获取哪几个维度的信息可以根据实际的检测需求来随意组合，本申请实施例对此不做限定。

502、该服务器基于初始人脸框信息以及人体框信息，确定该目标图像中任一个初始人脸框与对应的人体框之间的重叠区域占该人脸框的比例小于目标比例时，删除该初始人脸框；将剩余的人脸框信息获取为该目标图像中的人脸框信息。

其中，重叠区域可以根据一个图像内的人脸框信息和人体框信息来确定，人脸框信息和人体框信息均可以采用坐标表示，基于其在目标图像上的坐标，即可以确定重叠区域，进而确定重叠区域的面积，如图7所示。在确定了重叠区域的面积后，获取该重叠区域的面积与对应人脸框的面积之间的比例，该比例即为重叠区域占该人脸框的比例。当该比例小于目标比例时，则可以认为所检测到的人脸框不准确，可以将其删除，以提高检测效率，避免在对错误的人脸框进行检测时浪费计算资源和处理时间。该目标比例可以是90％，或其他经实验得到的数据，本申请对此不作限定。

在一种可能实现方式中，为了补偿被删除的人脸框，可以将该被删除的人脸框对应的人体框区域进行图像处理，如增强对比度、亮度等，再根据该处理后的目标图像确定人脸框信息，重新校验该人脸框信息的准确性。

在另一种可能实现方式中，为了补偿被删除的人脸框，还可以根据该目标图像中人物的站立姿态，截取人体框目标占比的区域作为人脸框，例如，当该人物为正立姿态时，截取人体框上部目标占比的区域作为人脸框，当该人物为倒立姿态时，截取人体框下部目标占比的区域作为人脸框，其中，该目标占比可以是1/7，或其他经实验得到的数据，本申请对此不作限定。

需要说明的是，该服务器基于人体框信息对人脸框信息进行准确性校验，并且对被删除的人脸框进行补偿，可以降低人脸检测的漏检率，特别是在极小人脸或人脸五官不全的情况下，也可以保证获得准确的人脸框信息，使后续步骤正常进行。

503、该服务器根据该人脸框信息和该目标图像，得到该目标图像的人脸掩膜和人脸关键点信息。

其中，该人脸掩膜是指能够将粗略的人脸轮廓进行遮挡的图层，该粗略的人脸轮廓包括人脸区域和脖子、衣领等非人脸区域(如图8所示)。该人脸关键点信息是指人脸关键区域的坐标点，如人脸眉毛、眼睛、鼻子、嘴巴和下巴轮廓的坐标点(如图9所示)。

在一种可能实现方式中，该服务器将该人脸框信息和该目标图像输入至图像识别模型，该图像识别模型基于包括人脸掩膜和人脸关键点信息的图像样本训练得到；通过该图像识别模型对该人脸框信息和该目标图像进行处理，该服务器输出该目标图像的人脸掩膜和人脸关键点信息。

在一种可能实现方式中，该图像识别模型可以为多任务深度卷积神经网络，其训练过程可以为：获取训练样本集和验证样本集，该训练样本集和验证样本集均包括已标注有人脸掩膜和人脸关键点信息的图像样本，利用训练样本集对初始的多任务深度卷积神经网络进行训练，在训练过程中基于网络的输出和所输入的图像样本的人脸掩膜和人脸关键点信息，对该多任务深度卷积神经网络的参数进行调整，直到训练次数达到预设阈值或是损失函数满足预设条件时输出此时训练得到的多任务深度卷积神经网络。当然，还可以利用验证样本集对该多任务深度卷积神经网络进行验证，当验证得到的准确率大于目标准确率时，则可以认为该多任务深度卷积神经网络可以启动使用。

需要说明的是，该服务器利用图像识别模型获取该目标图像的人脸掩膜的方式，提高了在复杂背景下人脸掩膜提取的泛化能力，在后续人脸检测过程中可以完全去除背景干扰，保留完整的人脸轮廓，使人脸检测精度上升。

504、该服务器根据该目标图像的人脸掩膜和该人脸关键点信息，确定出该目标图像的人脸轮廓掩膜。

其中，该人脸掩膜包括人脸区域和脖子、衣领等非人脸区域，既然如此，我们为了要得到精确的人脸轮廓，需要将该人脸掩膜中的脖子、衣领等非人脸区域去除。在一种可能实现方式中，服务器对该人脸关键点信息所指示的下巴的关键点进行连接，得到第一曲线；将该人脸掩膜被该第一曲线所划分成的两个区域中形状符合目标条件的区域确定为该目标图像的人脸轮廓掩膜。这样就可以将该人脸掩膜中的非人脸区域删除，得到只包含人脸区域的人脸轮廓掩膜。

在一种可能实现方式中，该目标条件是指形状近似人脸椭圆的区域，该人脸掩膜形状如图10所示。在另一种可能实现方式中，该目标条件可以根据目标图像中人物的站立姿态来确定，例如，当该人物为正立姿态时，将该人脸掩膜被该第一曲线所划分成的两个区域中位于该第一曲线上方的区域，确定为该目标图像的人脸轮廓掩膜，当该人物为倒立姿态时，将该人脸掩膜被该第一曲线所划分成的两个区域中位于该第一曲线下方的区域，确定为该目标图像的人脸轮廓掩膜，本申请对此目标条件不做限定。

需要说明的是，该服务器基于人脸特征掩膜和人脸信息关键点获取人脸轮廓掩膜的方式，可以排除衣领、脖子等非人脸区域的干扰，使人脸轮廓更加精准，使后续步骤可以正常进行。

505、该服务器基于该目标图像中与该人脸掩膜之间的重合区域，确定第一图像。

在一种可能实现方式中，将该目标图像中与该人脸掩膜之间的重合区域，确定为第一图像。将该人脸掩膜映射到该目标图像上，获取该人脸掩膜轮廓在目标图像中坐标，将该目标图像上在该坐标以外的区域删除，保留该坐标以内的部分确定为第一图像。

在另一种可能实现方式中，将该目标图像中与该人脸掩膜之间的不重合区域置为目标颜色，得到第一图像。将该人脸掩膜映射到该目标图像上，获取该人脸掩膜轮廓在目标图像中坐标，将该目标图像上在该坐标以外的区域置为目标颜色，保留该坐标以内的部分。其中，该目标颜色可以是黑色，如图11所示，或其他在人脸检测过程中没有影响的颜色，本申请对该颜色不做限定。

在其他可能实现方式中，可以基于该人脸掩膜，在该目标图像上新增一个透明图层，该透明图层遮挡该目标图像中该人脸掩膜以外的区域，保留该图像中人脸掩膜包括的区域。

需要说明的是，该目标图像中与该人脸掩膜之间不重合的区域为背景区域，该服务器通过将该背景区域置删除或置为目标颜色的方式，可以完全排除背景的干扰，并且在后续过程中，省去了人脸检测过程中可能的背景识别过程。

506、该服务器将该第一图像中与该人脸轮廓掩膜之间的重合区域，确定该目标图像中的人脸区域图像。

在一种可能实现方式中，该服务器获取该第一图像中与该人脸掩膜之间的重合区域，该重合区域只包含人脸，而该第一图像中的其他区域包含脖子、衣领等非人脸区域，所以，要将该其他区域删除或置为目标颜色，保留该第一图像中的该重合区域，如图12所示。

在另一种可能实现方式中，可以基于该人脸区域图像，在该目标图像上新增一个透明图层，该透明图层遮挡该目标图像中该人脸区域图像以外的区域，保留该图像中人脸区域图像。

本申请实施例提供的方法，先获取人脸框信息，该人脸框信息可以指示该目标图像的人脸位置，确定人脸识别的范围，减少计算资源消耗和缩短图像处理时间，然后基于该人脸框信息获取人脸掩膜和该人脸关键点信息，确定该目标图像的人脸轮廓掩膜，该人脸掩膜可以排除背景区域的干扰，该人脸关键点信息可以排除衣领、脖子等非人脸区域的干扰，使得该人脸轮廓掩膜能够包括准确的人脸区域，并且无其它区域，之后通过将该背景区域删除或置为目标颜色的方式，在后续过程中，省去了人脸检测过程中可能的背景识别过程，最后基于人脸轮廓掩膜得到人脸区域图像，该人脸区域图像包括完整的人脸信息，并且无背景区域和衣领、脖子等非人脸区域，提高了人脸检测的精度。

在一些可能实现方式中，基于该人脸检测方法，还可以提供进一步的辅助功能，如扩充人脸信息维度等，以应用于更多样化的人脸识别场景中。

完成上述步骤501至步骤506之后，该服务器得到该目标图像中的人脸区域图像。在一种可能实现方式中，为了扩充输出的人脸信息维度，可以继续执行步骤507和步骤508。

507、该服务器输出该目标图像中由人脸关键点信息所确定的至少一个关键区域。

在一种可能实现方式中，基于该人脸关键点信息，该服务器可以得到关键区域框信息，该关键区域框信息是指可以将该关键区域和该关键点信息全部包含进去的最小矩形的边框位置坐标。该服务器可以基于该关键区域框信息和目标图像，分割至少一个关键区域，如眉毛区域、眼睛区域、鼻子区域和嘴巴区域等，如图13所示。该服务器可以根据用户需要，可以有选择的输出该至少一个关键区域，例如，用户需要进行虹膜识别，则输出眼睛区域。

需要说明的是，该服务器基于人脸关键点信息，确定至少一个关键区域，丰富了人脸信息的表达，并且在人脸检测的同时，还可以为其他辅助功能提供支持，如虹膜检测，嘴唇动态检测等。

步骤507是以在步骤506中该服务器输出该目标图像中的人脸区域图像之后，输出该至少一个关键区域为例进行说明，在一种可能实现方式中，还可以在步骤503中服务器获取该人脸关键点信息之后，进行步骤507输出该至少一个关键区域，本申请实施例对于在哪个时机输出关键区域不做限定。

508、该服务器基于该图像深度估计图和该目标图像中的人脸区域图像，获取该目标图像的图像相对深度图，该图像相对深度图用于表示该目标图像上该人脸区域图像中像素点的深度信息与该目标图像中背景区域的深度信息之间的差异。

在一种可能实现方式中，从该图像深度估计图中，获取该人脸区域图像中像素点的深度信息和该背景区域中像素点的深度信息；基于该背景区域中像素点的深度信息，获取该背景区域中像素点的平均深度信息；基于该人脸区域图像中像素点的深度信息与该平均深度信息的差值，生成该目标图像的图像相对深度图。

例如，参见图14，该服务器可以将该人脸区域图像在图像深度估计图中进行映射，获取该人脸区域图像中像素点的深度信息，该背景区域是指该目标颜色区域，将该背景区域在图像深度估计图中进行映射，获取该背景区域中像素点的深度信息。

在一种可能实现方式中，该服务器基于该人脸区域图像中像素点的深度信息，可以进行活体检测，其具体检测方式可以为：当该人脸区域图像中像素点的深度信息不完全相等时，则认为该目标图像中的目标人物为活体，可以继续执行后续的人脸检测步骤。当该人脸区域图像中像素点的深度信息完全相等时，则认为该目标图像中的目标人物为非活体，该服务器不输出任何信息，并显示警告，例如，该警告可以为“目标人物非活体，停止检测”，也可以使其他形式的警告，本申请对该警告不做限定。

需要说明的是，该服务器基于该图像深度估计图和该目标图像中的人脸区域图像，获取该目标图像的图像相对深度图，补充了人脸区域深度信息这一人脸信息维度，使人脸信息的表达更加完整，同时，基于该图像相对深度图进行的活体检测，可以应用在多种领域中，如移动支付领域等，可以保护用户信息的安全。

以下，对人脸检测方法的应用场景进行示例性描述。

(1)互联网应用

在修图软件中，将需要处理的目标图像输入图像检测设备，或由该图像检测设备摄像头获取目标图像，由该图像检测设备将该目标图像传输到服务器中进行人脸检测，获取人脸框信息、人脸轮廓掩膜和人脸关键区域，并根据用户需求，实现人脸框定、人脸抠图、人脸美颜和换脸贴纸等动能，将处理完成的图像返回该图像检测设备。

(2)数据处理应用

在人证对比中，将需要处理的目标图像输入图像检测设备，由该图像检测设备将该目标图像传输到服务器中进行人脸检测，获取人脸框信息、人脸轮廓掩膜和人脸关键区域，并进行人证对比，再将人证对比结果返回该图像检测设备。

(3)活体检测应用

在移动支付中，将该图像检测设备摄像头获取的目标图像传输到服务器中进行人脸检测，获取人脸框信息、人脸轮廓掩膜、人脸关键区域和图像相对深度图，先基于图像相对深度图判断目标图像中的人物是否为活体，若该人物为非活体，则停止支付，若该人物为活体，则将输出的人脸信息与后台预留的人脸信息进行相似度对比，若该相似度大于目标相似度，则完成支付。

除以上应用场景之外，人脸检测技术还可以在三维(3Dimensions，3D)人脸生成、生成式对抗网络(Generative Adversarial Networks，GAN)人脸生成训练、人脸老龄化应用等场景中应用。

需要说明的是，以上仅以该图像检测的目标物为人的人脸检测方法为例进行描述，当该图像检测目标物为动物时，该第一类区域可以为动物脸部区域，该第二类区域可以为动物整个躯体区域，该关键点信息为该动物脸部的关键点信息，该轮廓掩膜为该动物脸部区域的轮廓掩膜，其检测方法与上述人脸检测方法同理。当该图像检测目标物为物体中至少一种时，该第一类区域可以为重要特征区域，该第二类区域可以为整个物体的区域，该关键点信息为该重要特征的关键点信息，该轮廓掩膜为该重要特征区域的轮廓掩膜，其检测方法与上述人脸检测方法同理。本发明实施例还可以应用于人、动物和物体中的至少两种同时存在于图像中的场景，例如人和动物、人和物体、动物和物体。

以下介绍本申请实施例提供的图像检测装置，应理解，该图像检测装置具有上述图像检测方法中任意功能。

如图15所示，图像检测装置1500包括第一类区域框信息获取模块1501、第一类区域掩膜和关键点信息获取模块1502、轮廓掩膜确定模块1503、第一图像确定模块1504以及第一类区域图像区域确定模块1505。第一类区域框信息获取模块1501用于执行步骤401及步骤402；第一类区域掩膜和关键点信息获取模块1502用于执行步骤403；轮廓掩膜确定模块1503用于执行步骤404；第一图像确定模块1504用于执行步骤405；一类区域图像区域确定模块1505用于执行步骤406。

在一种可能的实现中，该装置还包括：关键区域确定模块，用于执行步骤407。

在一种可能的实现中，该装置还包括：图像深度估计图获取模块，用于执行步骤401。

在一种可能的实现中，该装置还包括：图像相对深度图获取模块，用于执行步骤408。

以上各个模块可以为软件模块。

图像检测装置1500可以作为图像检测服务、目标检测服务或者目标识别服务中的至少一项向用户提供。例如，图像检测装置1500(或其部分)运行在云环境上，例如运行在云环境上的一个或多个节点设备(如主机或服务器)上，用户选择待分析的视频流或图像发送至图像检测装置后，启动图像检测装置对视频流中的图像或图像的第一类区域进行检测，输出检测结果，例如第一类区域图像或者任一个关键区域提供给下一级的图像识别功能来进行图像识别等。当然，该装置运行在云环境仅是示意，该装置还可以运行在终端环境中，具体为终端环境中的一个或多个终端设备上。终端设备可以为手机、笔记本、服务器、台式电脑等。

应理解，上述实施例提供的图像检测装置在进行图像检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将节点设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像检测装置与图像检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由图像检测设备中的处理器执行以完成上述实施例中的图像检测方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(randomaccess memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上该仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像检测方法，其特征在于，所述方法包括：

获取目标图像中目标物的第一类区域框信息；

2.根据权利要求1所述的方法，其特征在于，所述目标物包括：人、动物和物体中至少一种。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一类区域框信息和所述目标图像，得到所述目标图像的第一类区域掩膜和关键点信息包括：

将所述第一类区域框信息和所述目标图像输入至图像识别模型，所述图像识别模型基于包括第一类区域掩膜和关键点信息的图像样本训练得到；

通过所述图像识别模型对所述第一类区域框信息和所述目标图像进行处理，输出所述目标图像的第一类区域掩膜和关键点信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像的第一类区域掩膜和所述关键点信息，确定出所述目标图像的轮廓掩膜包括：

当所述目标物为人和/或动物时，对所述关键点信息所指示的下巴关键点进行连接，得到第一曲线；

将所述第一类区域掩膜被所述第一曲线所划分成的两个区域中形状符合目标条件的区域确定为所述目标图像的轮廓掩膜。

5.根据权利要求1所述的方法，其特征在于，所述获取目标图像中的第一类区域框信息包括：

获取所述目标图像中的初始第一类区域框信息以及第二类区域框信息；

基于初始第一类区域框信息以及第二类区域框信息，确定所述目标图像中任一个初始第一类区域框与对应的第二类区域框之间的重叠区域占所述第一类区域框的比例小于目标比例时，删除所述初始第一类区域框信息；

将剩余的第一类区域框信息获取为所述目标图像中的第一类区域框信息。

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像中与所述第一类区域掩膜之间的重合区域，确定第一图像包括以下任一步骤：

将所述目标图像中与所述第一类区域掩膜之间的重合区域，确定为第一图像；

将所述目标图像中与所述第一类区域掩膜之间的不重合区域置为目标颜色，得到第一图像。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标图像的图像深度估计图，所述图像深度估计图用于表示所述目标图像上多个像素点的深度信息；

基于所述图像深度估计图和所述目标图像中的第一类区域图像，获取所述目标图像的图像相对深度图，所述图像相对深度图用于表示所述目标图像上所述第一类区域图像中像素点的深度信息与所述目标图像中背景区域的深度信息之间的差异。

8.根据权利要求7所述的方法，其特征在于，所述基于所述图像深度估计图和所述目标图像中的第一类区域图像，获取所述目标图像的图像相对深度图包括：

从所述图像深度估计图中，获取所述第一类区域图像中像素点的深度信息和所述背景区域中像素点的深度信息；

基于所述背景区域中像素点的深度信息，获取所述背景区域中像素点的平均深度信息；

基于所述第一类区域图像中像素点的深度信息与所述平均深度信息的差值，生成所述目标图像的图像相对深度图。

9.根据权利要求1所述的方法，其特征在于，所述根据所述第一类区域框信息和所述目标图像，得到所述目标图像的第一类区域掩膜和关键点信息之后，所述方法还包括：

输出所述目标图像中由关键点信息所确定的至少一个关键区域。

10.一种图像检测装置，其特征在于，所述装置包括：

第一类区域框信息获取模块，用于获取目标图像中目标物的第一类区域框信息；

第一类区域掩膜和关键点信息获取模块，用于根据所述第一类区域框信息和所述目标图像，得到所述目标图像的第一类区域掩膜和关键点信息；

轮廓掩膜确定模块，用于根据所述目标图像的第一类区域掩膜和关键点信息，确定出所述目标图像的轮廓掩膜；

第一图像确定模块，用于基于所述目标图像中与所述第一类区域掩膜之间的重合区域，确定第一图像；

第一类区域图像区域确定模块，用于将所述第一图像中与所述轮廓掩膜之间的重合区域，确定所述目标图像中的第一类区域图像。

11.根据权利要求10所述的装置，其特征在于，所述第一类区域掩膜和关键点信息获取模块用于：

12.根据权利要求10所述的装置，其特征在于，所述轮廓掩膜确定模块用于：

13.根据权利要求10所述的装置，其特征在于，所述第一类区域框信息获取模块用于：

14.根据权利要求10所述的装置，其特征在于，所述第一图像确定模块包括以下任一个单元：

图像删除单元，用于将所述目标图像中与所述第一类区域掩膜之间的重合区域，确定为第一图像；

颜色重置单元，用于将所述目标图像中与所述第一类区域掩膜之间的不重合区域置为目标颜色，得到第一图像。

15.根据权利要求10所述的装置，其特征在于，所述装置还包括：

图像深度估计图获取模块，用于获取所述目标图像的图像深度估计图，所述图像深度估计图用于表示所述目标图像上多个像素点的深度信息；

图像相对深度图获取模块，用于基于所述图像深度估计图和所述目标图像中的第一类区域图像，获取所述目标图像的图像相对深度图，所述图像相对深度图用于表示所述目标图像上所述第一类区域图像中像素点的深度信息与所述目标图像中背景区域的深度信息之间的差异。

16.根据权利要求15所述的装置，其特征在于，所述图像相对深度图获取模块用于：

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：

关键区域确定模块，用于输出所述目标图像中由关键点信息所确定的至少一个关键区域。

18.一种图像检测设备，其特征在于，所述设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的图像检测方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的图像检测方法。