CN108171250A

CN108171250A - 目标检测方法及装置

Info

Publication number: CN108171250A
Application number: CN201611118710.XA
Authority: CN
Inventors: 徐静涛; 汪彪; 安耀祖; 钱德恒; 兪炳仁; 韩在濬; 崔昌圭
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2018-06-15
Also published as: KR102449841B1; KR20180065889A

Abstract

本发明实施例提供了目标检测方法及装置，所述方法包括：确定出目标图像的质量类别；确定出与目标图像的质量类别相对应的质量类别的卷积神经网络；根据相对应的质量类别的卷积神经网络，确定出目标图像的真目标检测值；根据目标图像的真目标检测值，确定出目标图像中的目标是否为真目标。本发明实施例中，既不需要用户执行指定动作，又可以在多种硬件条件、和/或应用场景下为每个目标图像选择了与其质量类别更为契合的卷积神经网络，可得到更为精确的真目标检测值；更为精确地确定出目标图像中的目标是否为真目标，增强了检测目标图像中的真假目标的鲁棒性。

Description

目标检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，本发明涉及一种目标检测方法及装置。

背景技术

目标的活体检测是计算机视觉和图像处理领域的重要内容，当检测出图像中的目标为活体目标时，确定该目标为真目标。以目标检测中的人脸检测为例，基于人脸检测和识别的系统已进入实用阶段，例如可以应用于手机解锁、和移动支付等场景。传统的目标检测方法通常是要求用户通过终端设备的拍摄装置获取目标图像，当确定出获取的目标图像中包含目标时，默认该目标为活体目标，进而进行解锁或支付等操作。

然而，传统的目标检测方法容易遭受不同形式的欺骗攻击。常见的欺骗攻击手段包括：纸质打印图像攻击、照片攻击、屏幕图像攻击、屏幕视频攻击、3D打印攻击等等。以纸质打印图像攻击为例，其攻击原理为：利用打印出的包含目标的纸质图像冒充真实的目标，对准终端设备的拍摄装置，导致终端设备很可能将包含目标的纸质图像误判定为真实的目标，从而很容易导致误解锁或误支付等严重后果。

如何能够获取稳定有效的特征来进行真假目标的判别，一直是目标检测研究领域的重点和难点问题。根据是否需要用户的配合，可以将现有的目标检测方法分为两大类：侵入式目标检测方法、和非侵入式目标检测方法。

现有的侵入式目标检测方法需要依赖用户的配合，用户根据软件的提示做出诸如眨眼、摇头、或微笑等指定的动作，进而对该指定的动作进行识别，以此做为真目标检测的依据。然而，这类方法在实际应用中存在识别步骤较为繁琐、耗时较长、和/或需要用户作出额外的指定动作导致用户体验较差等缺点。例如，用户在公共场合对准终端设备的拍摄装置逐一进行眨眼、摇头和微笑等指定动作，容易导致其他人员对该用户的精神状态产生误解，很容易给用户带来麻烦。

现有的非侵入式目标检测方法，通常是通过终端设备的拍摄装置获取的图像或视频信息并从中直接提取相应的特征，根据提取出的特征确定出获取的图像或视频中的目标为真假目标。具体的，根据所使用的特征类型，又可以包括基于人工设计特征的目标检测方法。

基于人工设计特征的目标检测方法，主要利用设计者在相关计算机视觉和图像处理研究领域的经验，设计一定的客观算法提取图像或视频的特征，对于不同设备和应用场景，提取特征的方法是一样的。然而，由于不同终端设备的拍摄装置存在性能差异，所拍摄生成的目标图像存在差异；例如有的图像的曝光略微过度，色调偏红；有的图像的色彩还原较为真实。现有的基于人工设计特征的目标检测方法，基于同一提取特征的方法提取出的特征，在复杂多变的多种实际场景中，很容易产生真假目标的误检测，导致这类目标检测方法的鲁棒性较差。例如基于人工设计的类似局部二值模式(Local binary pattern,LBP)等特征的提取方法，只考虑图像的局部纹理信息。但在实际的目标检测中，如低光照、或逆光等条件下的图像与正常光照条件下的图像之间存在差异，基于这类特征的目标检测方法通常不能在低光照、或逆光等条件下有效地区分出真假目标。

综上，现有的目标检测方法存在需要用户执行指定动作、或者对不同硬件条件应用场景下的目标图像容易产生真假目标误检测的缺陷。

发明内容

本发明针对现有方式的缺点，提出一种目标检测方法及装置，用以解决现有技术存在需要用户执行指定动作、或者对不同硬件条件应用场景下的目标图像容易产生真假目标误检测的问题，以帮助用户节省执行指定动作的步骤，并对多种硬件条件、和/或应用场景下获取的目标图像作出更为精确的真假目标的检测。

本发明的实施例根据一个方面，提供了一种目标检测方法，包括：

确定出目标图像的质量类别；

确定出与所述目标图像的质量类别相对应的质量类别的卷积神经网络；

根据所述相对应的质量类别的卷积神经网络，确定出所述目标图像的真目标检测值；

根据所述目标图像的真目标检测值，确定出所述目标图像中的目标是否为真目标。

本发明的实施例根据另一个方面，还提供了一种目标检测装置，包括：

图像质量类别确定模块，用于确定出目标图像的质量类别；

卷积神经网络确定模块，用于确定出与所述目标图像的质量类别相对应的质量类别的卷积神经网络；

真目标检测值确定模块，用于根据所述相对应的质量类别的卷积神经网络，确定出所述目标图像的真目标检测值；

真假目标确定模块，用于根据所述目标图像的真目标检测值，确定出所述目标图像中的目标是否为真目标。

本发明实施例中，确定出每个目标图像的质量类别后，进而确定出与该目标图像的质量类别相对应的质量类别的卷积神经网络，相当于为每个目标图像选择了与其质量类别更为契合的卷积神经网络；根据更为契合的卷积神经网络，可以更为精确地对每个目标图像进行检测，得到更为精确的真目标检测值；根据更为精确的真目标检测值，可以更为精确地确定出目标图像中的目标是否为真目标。从而本发明实施例，既不需要用户执行指定动作，又可以对多种硬件条件、和/或应用场景下获取的目标图像作出更为精确的真假目标的检测，增强了检测目标图像中的真假目标的鲁棒性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的目标检测方法的流程示意图；

图2a为本发明实施例的级联卷积神经网络的训练方法的流程示意图图；

图2b为本发明实施例的一个质量类别的级联卷积神经网络的一个实例的结构和原理示意图；

图2c为本发明实施例的一级卷积神经网络的结构和原理示意图；

图3a为本发明实施例的展开后的目标检测方法的流程示意图；

图3b为本发明实施例的确定出当前帧目标图像的综合的真目标检测值的一个实例的示意图；

图4为本发明实施例的目标检测装置的内部结构的框架示意图；

图5和图6都为本发明实施例进行真假目标检测对比实验的实例的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明实施例中提供了的一种目标检测方法，该方法的流程示意图如图1所示，包括下述步骤S101-S104：S101确定出目标图像的质量类别；S102确定出与目标图像的质量类别相对应的质量类别的卷积神经网络；S103根据相对应的质量类别的卷积神经网络，确定出目标图像的真目标检测值；S104根据目标图像的真目标检测值，确定出目标图像中的目标是否为真目标。

其中，上述步骤S102和S103中的卷积神经网络可以是单级卷积神经网络。具体地，本领域技术人员可以通过调整单级卷积神经网络的结构和/或参数等，获取性能更加优良的卷积神经网络，使得单级卷积神经网络即可满足本发明实施例的对卷积神经网络的性能要求。

较佳地，上述步骤S102和S103中的卷积神经网络可以是级联卷积神经网络。为便于理解，下文中将以级联卷积神经网络为例，具体介绍本发明实施例的技术方案。

本发明实例中的目标可以是生物的身体部位；真目标为活体目标，例如活体人脸；假目标为非活体目标，例如假脸。生物的身体部位可以包括下述至少一项：人脸、人的掌纹、人的指纹、人的虹膜、人的肢体、动物的脸、动物的掌纹、动物的指纹、动物的虹膜、动物的肢体等。

目标图像的质量类别包括下述至少一项：拍摄参数的质量类别、属性参数的质量类别。拍摄参数包括下述至少一项：分辨率、ISO(感光度)。属性参数可以包括下述至少一项：色准、对比度、亮度、饱和度、锐度。

容易理解，不同的目标图像由于拍摄参数和属性参数的不同，很可能具有不同的质量类别。利用本发明实施例，对于每个目标图像，都可以确定出该目标图像的质量类别后，进而确定出与该目标图像的质量类别相对应的质量类别的卷积神经网络，相当于为每个目标图像选择了与其质量类别更为契合的卷积神经网络；根据更为契合的卷积神经网络，可以更为精确地对每个目标图像进行检测，得到更为精确的真目标检测值；根据更为精确的真目标检测值，可以更为精确地确定出目标图像中的目标是否为真目标。从而本发明实施例，既不需要用户执行指定动作、又可以对多种硬件条件、应用场景下获取的目标图像作出更为精确的真假目标的检测，增强了检测目标图像中的真假目标的鲁棒性。

为了便于理解，下面以目标中的人脸为例，展开介绍本发明实施例的技术方案。

本发明实施例中的终端设备是配置有摄像装置和计算机计算能力的设备。例如，智能手机、平板电脑、笔记本电脑、或二合一电脑等等。

本发明实施例中提供了一种级联卷积神经网络的训练方法，该方法的流程示意图如图2a所示，包括下述步骤S201-S202：

S201：确定出多个样本图像的质量类别。

对于已知的多个样本图像中的每个样本图像，对样本图像进行盲图像质量评价，得到样本图像的图像质量值；根据样本图像的图像质量值，确定出样本图像的质量类别。

图像的质量类别包括下述至少一项：拍摄参数的质量类别、属性参数的质量类别。拍摄参数包括下述至少一项：分辨率、ISO(感光度)。属性参数可以包括下述至少一项：色准、对比度、亮度、饱和度、锐度。

较佳地，确定出样本图像的作为图像质量值的拍摄参数和属性参数；根据样本图像的拍摄参数和属性参数、以及预设的拍摄参数和属性参数的质量类别划分标准，确定出样本图像的质量类别。

本领域技术人员可以根据实验数据、历史数据、经验数据和/或实际情况，预先确定出的图像的拍摄参数和属性参数的质量类别划分标准。例如，分辨率的质量类别划分标准可以包括：当图像的短边的分辨率分别为大于1080个像素、大于720个像素且不大于1080个像素、不大于720个像素时，将图像的分辨率质量分别划分为高质量分辨率、中质量分辨率、低质量分辨率。

进一步，根据图像的各拍摄参数和属性参数的质量类别，预先确定出图像的质量类别划分标准。例如，在图像的至少一个拍摄参数和属性参数中，确定出质量类别最低的拍摄参数或属性参数，将确定出的参数的质量类别作为图像的质量类别。再如，根据投票算法，当确定出图像的至少一个拍摄参数和属性参数的质量类别都达到一个特定质量类别(例如高质量)时，确定出该图像的质量类别为该特定质量类别。再如，直接由图像的各拍摄参数和属性参数的质量类别，组成该图像的质量类别。

将图像的拍摄参数和属性参数的质量类别划分标准、和图像的质量类别划分标准应用到样本图像的质量类别确定过程中。

例如，确定出样本图像的分辨率、ISO和对比度。样本图像通常是矩形的，根据预设的分辨率的质量类别划分标准和样本图像的短边的分辨率，确定出该样本图像的分辨率的质量类别；根据预设的ISO的质量类别划分标准和样本图像的ISO，确定出样本图像的ISO的质量类别；根据预设的对比度的质量类别划分标准和样本图像的对比度，确定出样本图像的对比度的质量类别。

根据样本图像的分辨率、ISO和对比度的质量类别，确定出样本图像的质量类别。较佳地，当样本图像的分辨率、ISO和对比度都为高质量时，确定出该样本图像的质量类别为高质量。较佳地，当样本图像的分辨率、ISO和对比度分别为高质量、中质量和低质量时，确定出该图像的质量类别为中质量。较佳地，直接由样本图像的分辨率的高质量、ISO的中质量和对比度的低质量，构成该样本图像的质量类别；此时的样本图像的质量类别由分辨率、ISO和对比度这三个维度的质量类别构成。

更优的，也可以采用其他方法对样本图像进行盲图像质量评价。例如，采用下述方法对样本图像进行盲图像质量评价：基于空域信息的BRISQUE(Blind/referencelessimagespatial quality evaluator，盲/无参考图像质量评价)方法，基于GM-LOG(GradientMagnitude and LaplacianOf Gaussian，梯度幅值和拉普拉斯高斯滤波器)的方法，基于HOSA(High order statistics aggregation,高阶统计信息聚合)的方法等。

以基于空域信息的BRISQUE方法为例，对样本图像进行盲图像质量评价包括：对原始的样本图像进行空域的归一化处理，减去均值并除以标准差；采用广义高斯分布(Generalized Gaussian distribution)，对空域归一化处理后的样本图像的参数的分布进行拟合，得到分布的参数作为特征；采用支持向量回归(Support vector regression)的方法，利用预先训练得到的评价模型，确定出图像质量评价结果。其中，预先训练得到的评价模型是在大量已经标注的图像质量评价值的图像上训练的，也就是有这些图像的特征和质量评价值，利用支持向量回归学习特征与质量评价值之间的映射关系，得到评价模型。

根据预先确定的基于BRISQUE的图像质量评价结果的质量类别划分标准，对基于BRISQUE方法得到的图像质量评价结果进行质量类别划分，确定出图像质量评价结果的质量类别，作为样本图像的质量类别。

S202：根据每个质量类别的多个样本图像，训练出该质量类别的级联卷积神经网络。

对于上述步骤中确定出的样本图像的每个质量类别，根据该质量类别的多个样本图像，训练出该质量类别的级联卷积神经网络。

较佳地，将上述步骤中确定出的多个样本图像的多个质量类别，根据各质量类别对各样本图像进行分组，使得同一组中的样本图像具有相同的质量类别。根据每组中具有相同质量类别的多个样本图像，训练出该质量类别的级联卷积神经网络。

例如，一组样本图像的质量类别为高质量，包括高质量的分辨率、ISO和对比度，则根据该组样本图像，训练出高质量的级联卷积神经网络。

再如，一组样本图像的分辨率为高质量、ISO为中质量和对比度为低质量，则根据该组样本图像，训练出对应的质量类别(样本图像分辨率为高质量、ISO为中质量和对比度为低质量的)的级联卷积神经网络。

本发明实施例中每个质量类别的级联卷积神经网络包括：至少两级卷积神经网络、和至少一个阈值判断层。当前级的阈值判断层，连接于当前级的卷积神经网络与下一级的卷积神经网络之间。具体地，当前级的阈值判断层的输入节点，与当前级的卷积神经网络的输出层相连接；当前级的阈值判断层的输出节点，与下一级的卷积神经网络的输入层相连接。

图2b为一个质量类别的级联卷积神经网络的一个实例的结构和原理示意图。图2b中CNN(Convolutional neural network，卷积神经网络)1和2分别表示第一、二级卷积神经网络；阈值1表示第一级阈值判断层，连接于第一、二级卷积神经网络之间；同理，阈值2表示第二级阈值判断层，连接于第二级卷积神经网络与第三级卷积神经网络(图中未显示)之间。

每个质量类别的级联卷积神经网络的训练方法，包括：卷积神经网络的级数的确定方法、每一级卷积神经网络的训练方法、和每一级阈值判断层的阈值的确定方法。

本发明实施例中，每一级卷积神经网络的输出都具有TPR(True Positive Rate，真正率)和FPR(False Positive Rate，假正率)的性能指标。TPR是指正样本被正确分类为正样本的比例。FPR是指负样本被错误地分类为正样本的比例。

下面介绍卷积神经网络的级数的确定方法，包括：根据每个质量类别的级联卷积神经网络所需要的性能指标，确定出该质量类别的级联卷积神经网络的卷积神经网络的级数。

例如，比如要求每个质量类别的级联卷积神经网络的TPR＝99.5％，FPR＝0.1％；那么第一级卷积神经网络可以调节阈值到TPR＝99.9％，FPR＝10％，第二级卷积神经网络也可以调节阈值到TPR＝99.9％，FPR＝10％，那么这样两个网络级联的性能指标FPR＝10％*10％＝1％，不能满足需求。此时需要再级联与第一、二卷积神经网络同性能的第三级卷积神经网络才可以达到要求；即确定出该质量类别的级联卷积神经网络的卷积神经网络的级数为三。级联的第一、二和三级卷积神经网络的TPR＝99.9％*99.9％*99.9％>99.5％，FPR＝10％*10％*10％<＝0.1％。

下面介绍每一级卷积神经网络的训练方法。

具体地，将每个质量类别的多个样本图像中包含真目标的样本图像作为正样本；将包含假目标的样本图像作为负样本。假目标包括下述至少一项：真目标的打印图像、真目标的照片、显示有真目标的屏幕、真目标的3D打印模型。

对每一级卷积神经网络依次分别进行迭代训练；其中包括：先采用全部正样本和负样本，采用反向传播算法，迭代训练第一级卷积神经网络的参数；使得第一级卷积神经网络的TPR达到一个较高的值，例如TPR＝99.9％，但是FPR并不高，例如FPR＝20％，这样会有部分负样本被误分类为正样本。然后，选取第一级卷积神经网络分类出的正样本和负样本，对第二级卷积神经网络的参数也进行完整的迭代训练。同理类推，直到选择倒数第二级卷积神经网络分类出的正样本和负样本，对最后一级卷积神经网络的参数也进行完整的迭代训练，这样最终得到级联卷积神经网络的每一级卷积神经网络。

本发明实施例中每一级卷积神经网络可以采用多种结构。

图2c示出了一级卷积神经网络的结构和原理的一个实例。图2c所示的卷积神经网络中包括：依次级联的输入层、第一至第六子网络、全连接层和输出层。第一、二、三、四或六子网络都包括：卷积层、BN(Batch Normalization，批归一化)层、ReLU(Rectified LinearUnit，修正线性单元)层和池化(Pooling)层。第五子网络包括：卷积层和BN层。

图2c中位于上排的输入图像上方的128╳128╳3表示输入图像的尺寸，3表示三基色，例如R(Red，红)、G(Green，绿)、B(Blue，蓝)三基色。输入图像与第一子网络中的卷积层1之间的120╳120╳3表示该级CNN的输入，为输入图像经过裁剪后得到包含120╳120╳3像素点的图像，即3个120╳120矩阵，这里裁剪方式可以是中心裁剪。

图2c中位于上排的卷积层1下方的3╳3╳3╳16中，前两个3组成的3╳3表示卷积层1的单位扫描模板为3╳3像素点矩阵；第3个3表示前一级的像素点矩阵(即图像通道)的个数；16表示卷积层1中包括16个卷积核(又称为过滤器或卷积层的深度)。卷积层1中的每个卷积核，以3╳3像素点矩阵为单位扫描模板，以设定的像素点个数(这里可以设置为1)为扫描间隔，对输入层中每个基色的像素点矩阵进行扫描。在扫描过程中，每一个卷积核对每个基色对应的120╳120像素点矩阵中每个3╳3像素点依次进行卷积，依次得到多个第一次卷积结果作为第一次卷积后的多个像素点；从而得到120╳120(像素点矩阵)╳16(层)个第一次卷积后的像素点。之后，由BN1(即第一次批归一化)层对每一层的第一次卷积后的像素点进行归一化，得到16个第一次卷积后的特征图，每个特征图包括120╳120个像素点(即BN1与左起第一个ReLU之间的120╳120╳16的含义)。BN层的归一化可以提升卷积神经网络的收敛速度，可以减轻不同光照等拍摄条件对卷积神经网络性能的影响，从而有利于提升卷积神经网络的性能。

图2c中位于上排的左起第一个ReLU具体可以为第一个激活函数，表示对16个第一次卷积后的特征图进行单边激活，即特征图中只有大于等于0的值才会被保留，小于0的值都重置为0，可以使得输出的(激活后)的特征图的参数稀疏化，可以减弱参数之间的关联性，减轻卷积神经网络在训练数据上的过拟合。图2c中左起第一个MaxPool(Max Pooling，最大池化)表示第一个池化层，且第一个池化层采用最大池化的方法，对16个第一次卷积后的特征图，逐个进行池化，池化操作的具体区域大小为2╳2，即每2╳2个区域选取一个最大值，依次操作后可以得到16个第一次池化后的特征图(即左起第一个MaxPool与卷积层2之间60╳60╳16的含义)。

同理，可得第二至第六子网络的内部结构和工作原理。

图2c中位于下排的4╳4╳64表示第六子网络输出64个经过第六子网络处理的特征图，每个特征图具体包括4╳4像素点矩阵。图2c中位于下排的全连接表示全连接层，全连接下方的1024╳2表示全连接层的参数；全连接层将64个4╳4像素点的特征图的各像素转换为一个1╳1024的向量，将该转换得到的向量与参数矩阵1024╳2进行矩阵乘法运算，得到1╳2的结果后，输出至Softmax(多项逻辑斯特回归)所表示的输出层。输出层的输出结果包括输入图像(样本图像)分类为正样本的概率、以及输入图像分类为负样本的概率。将输入图像分类为正样本的概率，作为该输入图像经过该级卷积神经网络处理的真目标检测值(即图2c中检测值的含义)。

下面介绍连接于每一级卷积神经网络之后的每一级阈值判断层的阈值的确定方法。

本发明实施例中每一级卷积神经网络输出该级的作为真目标检测值的输入图像分类为正样本的概率、以及输入图像分类为负样本的概率，在每一极卷积神经网络之后连接的该级的阈值判断层，利用阈值判断层的阈值对真目标检测值进行筛选，将通过筛选的真目标检测值所属的图像，作为下一级卷积神经网络的输入图像，供下一级卷积神经网络进行目标分类。将未通过筛选的真目标检测值所属的图像，判定为假目标图像，将该图像中的目标判定为假目标，忽略该图像。因此，本领域技术人员可以根据实验数据、经验数据、历史数据和/或方案最终需要达到的真目标识别率等实际情况，合理地设置每一级阈值判断层的阈值，通过筛选每一个在后级卷积神经网络的输入图像，来帮助提升每一个在后级卷积神经网络的分类精度，有利于整体上提升真假目标图像的分类精度。

较佳地，本发明实施例中，当前级卷积神经网络的输出的TPR和FPR性能，实际上综合了当前级以及所有在前级卷积神经网络的输出性能。

例如，由于作为真目标检测值的输入图像分类为正样本的概率、与输入图像分类为负样本的概率之和为1；也就是说，真目标检测值是大于0小于1的实数。可以将第一、二、和三级阈值判断层的阈值，分别设置为0.2、0.3、0.2。

基于上述级联卷积神经网络，本发明实施例展开后的目标检测方法的流程示意图如图3a所示，包括下述步骤S301-S306：

S301：获取目标图像。

本发明实施例中的终端设备，通过其中配置的拍摄装置，针对目标获取目标图像。其中，目标图像具体是单张图像。

较佳地，可以针对目标获取连续图像，将连续图像中的每一张包含目标的图像作为目标图像。

较佳地，可以针对目标获取视频，将视频中的每一个包含目标的帧图像，即目标帧图像，作为目标图像。

S302：确定出获取的目标图像的质量类别。

本步骤中，对上述获取的目标图像进行盲图像质量评价，得到目标图像的图像质量值；根据目标图像的图像质量值，确定出目标图像的质量类别。

较佳地，确定出目标图像的拍摄参数和属性参数；根据目标图像的拍摄参数和属性参数、以及预设的拍摄参数和属性参数的质量类别划分标准，确定出目标图像的质量类别。

本步骤中确定出目标图像的质量类别的具体方法，与上述步骤S201中确定出样本图像的质量类别的具体方法相一致，仅作为该方法的对象的目标图像与样本图像不同而已，此处不再赘述。

S303：确定出与目标图像的质量类别相对应的质量类别的级联卷积神经网络。

上述步骤S202中，根据多种质量类别的样本图像，分别训练得到各自对应的质量类别的级联卷积神经网络。建立了图像的多种质量类别与多种质量类别的级联卷积神经网络的对应关系。

本步骤中，根据图像的多种质量类别与多种质量类别的级联卷积神经网络的对应关系，确定出与目标图像的质量类别相对应的质量类别的级联卷积神经网络。

例如，目标图像的质量类别为高质量，包括高质量的分辨率、ISO和对比度，则根据图像的多种质量类别与多种质量类别的级联卷积神经网络的对应关系，确定出与目标图像的高质量相对应的高质量的级联卷积神经网络。

再如，目标图像的分辨率为高质量、ISO为中质量和对比度为低质量，则根据图像的多种质量类别与多种质量类别的级联卷积神经网络的对应关系，确定出与该目标图像的高质量分辨率、中质量ISO和低质量对比度对应的质量类别(由高质量分辨率、中质量ISO和低质量对比度的样本图像训练得到)的级联卷积神经网络。

可以理解，本步骤中，为目标图像选择了较为契合该目标图像的质量类别的级联卷积神经网络。质量类别较为契合的级联卷积神经网络，与其他级联卷积神经网络相比，可以更加精确地对目标图像进行分类，得到更加精确地真目标检测值。例如，选择中质量的级联卷积神经网络，相比于选取高质量的级联卷积神经网络，可以更为精确地对中质量的目标图像进行目标分类，得到中质量的目标图像更为精确地真目标检测值。从而有利于后续利用更精确地真目标检测值更加精确地判断出目标的真假。

S304：根据相对应的质量类别的级联卷积神经网络，确定出目标图像的真目标检测值。

根据相对应的质量类别的级联卷积神经网络中的至少二级卷积神经网络和至少一级阈值判断层，确定出目标图像的每一级的真目标检测值；其中，目标图像的当前级的真目标检测值的确定过程包括：

根据当前级的卷积神经网络，确定出目标图像的当前级的真目标检测值；

当根据连接于当前级与后一级的卷积神经网络之间的当前级的阈值判断层，判断出当前级的真目标检测值大于预设的当前级的真目标检测阈值时，进行目标图像的下一级的真目标检测值的确定过程；直到确定出目标图像的最后一级的真目标检测值，作为目标图像的真目标检测值。

例如，利用如上述图2b的级联卷积神经网络对作为输入图像的目标图像进行目标分类，确定出目标图像的真目标检测值。具体地，根据第一级卷积神经网络(CNN1)确定出目标图像的第一级真目标检测值；根据第一级阈值判断层(阈值1所在层)判断第一级真目标检测值是否大于第一级阈值判断层的阈值(即阈值1)；若不大于，则判断目标图像中的目标为假目标，该目标图像不再参与后续的若干级的卷积神经网络的目标分类，将其第一级真目标检测值作为该目标图像的真目标检测值输出；若大于，则将经过第一级卷积神经网络分类后的第一级目标图像，作为输入图像供第二级卷积神经网络(CNN2)进行目标分类。直到最后一级的阈值判断层，判断出最后一级卷积神经网络输出的最后一级真目标检测值大于最后一级的阈值判断层的阈值时，所检测目标很可能为真目标，并将大于最后一级的阈值判断层的阈值的最后一级真目标检测值，作为目标图像的真目标检测值。

S305：根据目标图像的真目标检测值，确定出目标图像中的目标是否为真目标。

当目标图像为单张图像时，将目标图像的真目标检测值与预设的真目标检测阈值进行比较；当比较结果为前者大于后者时，确定出目标图像中的目标为真目标；当比较结果为前者不大于后者时，确定出目标图像中的目标为假目标。其中，真目标检测阈值可以由本领域技术人员根据实验数据、经验数据、历史数据和/或实际情况进行预先设置；例如将真目标检测阈值设置为0.3。

较佳地，当目标图像具体为当前帧目标图像时，确定出当前帧目标图像的模糊评价值。

可以采用多种图像模糊评价方法，对目标图像进行模糊程度的评价，得到目标图像的模糊评价值并存储。

例如，采用JNB(Just noticeable blur，最小可察觉模糊)、或者CPBD基于(Cumulative Probability of Blur Detection，累积概率的模糊检测)等方法，对目标图像进行模糊程度的评价，得到目标图像的模糊评价值并存储。

以CPBD方法为例，首先对目标图像进行分块，得到多个目标图像块；采用Canny(坎尼)或Sobel(索贝尔)边缘检测算子对每个目标图像块的水平边缘进行检测，然后计算边缘像素的比例，如果大于0.002则确定出该目标图像块是边缘图像块，若边缘像素的比例不大于0.002，则确定出该目标图像块是非边缘图像块。

进一步，利用下述公式(1)，对边缘图像块的每一个边缘像素ei，根据对比度C计算一个最小可察觉边缘宽度w_JNB(ei)：

然后计算该像素点ei的实际边缘宽度w(ei)，再根据下述公式(2)计算出边缘像素模糊的概率Pblur，公式(2)中β是一个固定的参数：

然后统计Pblur低于0.63的边缘像素占所有边缘像素的比例，作为模糊检测值。如果图像越模糊，那么Pblur低的像素比例就越低，那么相应的模糊检测值就越小，可以作为权重，以此减轻模糊图像对真目标(活体目标)的检测算法的影响。

确定出当前帧目标图像的模糊检测值后，进行存储。同理，可以预先确定并存储当前帧之前的多帧目标图像的模糊检测值。

对上述确定出的当前帧目标图像的真目标检测值进行存储。同理，可以预先确定并存储当前帧之前的多帧目标图像的真目标检测值。

根据当前帧目标图像及其之前的多帧目标图像的真目标检测值和模糊评价值，确定出当前帧目标图像的综合的真目标检测值。进一步，当前帧之前的多帧目标图像中的每一帧目标图像具体是包含目标的帧图像，帧图像中目标可以是真目标或假目标。

具体地，将当前帧目标图像及其之前的多帧目标图像的模糊评价值，分别作为各自的真目标检测值的权重，确定出各真目标检测值的加权平均值，作为当前帧目标图像的综合的真目标检测值。

进一步，根据当前帧目标图像及其之前的连续多帧目标图像的真目标检测值和模糊评价值，确定出当前帧目标图像的综合的真目标检测值。

图3b示出了确定出当前帧目标图像的综合的真目标检测值的一个实例。图3b中上排的活体检测值表示真目标检测值，上排中的当前帧N表示当前帧目标图像的真目标检测值，N为正整数；上排中的帧N-i表示与当前帧间隔i帧的前序帧的真目标检测值，i为小于N的正整数；图3b下派中的当前帧N表示当前帧目标图像的模糊评价值，下排中的帧N-i表示与当前帧间隔i帧的前序帧的模糊评价值；对于当前帧目标图像和i个前序帧图像中的每个帧图像，将该帧图像的真目标检测值与该帧图像的模糊评价值相乘后，将各帧图像各自的乘积结果相加，得到当前帧目标图像的综合的真目标检测值。

容易理解，当前帧目标图像的综合的真目标检测值，相当于是当前帧目标图像及其之前的多帧目标图像的真目标检测值的加权和；其中，每个帧图像的权值即为该帧图像的模糊评价值。对于每帧图像而言，当该帧图像越模糊时，其模糊评价值越小；较小的作为权值的模糊评价值，减小了该帧图像的加权后的真目标检测值在加权和中的比重，减轻了对作为当前帧目标图像的综合的真目标检测值的加权和的影响；从而有利于整体提升综合的真目标检测值的精度。

根据当前帧目标图像的综合的真目标检测值，确定出当前帧目标图像中的目标是否为真目标。

将当前帧目标图像的综合的真目标检测值与预设的真目标检测阈值进行比较；当比较结果为前者大于后者时，确定出当前帧目标图像中的目标为真目标；当比较结果为前者不大于后者时，确定出当前帧目标图像中的目标为假目标。

S306：根据确定出的真目标进行对应处理。

若上述步骤中确定出目标图像中的目标为真目标，则执行该目标图像所涉及的相关处理步骤。例如，执行该目标图像涉及的支付步骤、或解除锁定的步骤。

若上述步骤中确定出目标图像中的目标为假目标，则拒绝执行该目标图像涉及的相关处理步骤。例如，拒绝执行该目标图像涉及的解除锁定、或支付的步骤。

基于上述目标检测方法，本发明实施例还提供了一种目标检测装置，该装置设置于本发明实施例的终端设备中，该装置的内部结构的框架示意图如图4所示，包括：图像质量类别确定模块401、卷积神经网络确定模块402、真目标检测值确定模块403和真假目标确定模块404。

其中，图像质量类别确定模块401用于确定出目标图像的质量类别。

卷积神经网络确定模块402用于对于图像质量类别确定模块401确定出的目标图像的质量类别，确定出与该目标图像的质量类别相对应的质量类别的卷积神经网络。

真目标检测值确定模块403用于根据卷积神经网络确定模块402确定出的相对应的质量类别的卷积神经网络，确定出目标图像的真目标检测值。

真假目标确定模块404用于根据真目标检测值确定模块403确定出的目标图像的真目标检测值，确定出目标图像中的目标是否为真目标。

较佳地，卷积神经网络确定模块402具体用于确定出与目标图像的质量类别相对应的质量类别的级联卷积神经网络。

以及，真目标检测值确定模块403具体用于根据相对应的质量类别的级联卷积神经网络，确定出目标图像的真目标检测值。

较佳地，图像质量类别确定模块401具体用于对目标图像进行盲图像质量评价，得到目标图像的图像质量值；根据目标图像的图像质量值，确定出目标图像的质量类别。

较佳地，图像质量类别确定模块401具体用于确定出目标图像的拍摄参数和属性参数；根据目标图像的拍摄参数和属性参数、以及预设的拍摄参数和属性参数的质量类别划分标准，确定出目标图像的质量类别。

更优的，如图4所示，本发明实施例的目标检测装置还包括：卷积神经网络训练模块405。

卷积神经网络训练模块405用于通过下述方法预先训练得到级联卷积神经网络：确定出多个样本图像的质量类别；根据每个质量类别的多个样本图像，训练出该质量类别的级联卷积神经网络。

较佳地，真目标检测值确定模块403具体用于根据相对应的质量类别的级联卷积神经网络中的至少二级卷积神经网络和至少一级阈值判断层，确定出目标图像的每一级的真目标检测值；其中，目标图像的当前级的真目标检测值的确定过程包括：根据当前级的卷积神经网络，确定出目标图像的当前级的真目标检测值；当根据连接于当前级与后一级的卷积神经网络之间的当前级的阈值判断层，判断出当前级的真目标检测值大于预设的当前级的真目标检测阈值时，进行目标图像的下一级的真目标检测值的确定过程；直到确定出目标图像的最后一级的真目标检测值，作为目标图像的真目标检测值。

较佳地，真假目标确定模块404具体用于当目标图像具体为当前帧目标图像时，确定出当前帧目标图像的模糊评价值；根据当前帧目标图像及其之前的多帧目标图像的真目标检测值和模糊评价值，确定出当前帧目标图像的综合的真目标检测值；根据当前帧目标图像的综合的真目标检测值，确定出当前帧目标图像中的目标是否为真目标。

较佳地，真假目标确定模块404具体用于将当前帧目标图像及其之前的多帧目标图像的模糊评价值，分别作为各自的真目标检测值的权重，确定出真目标检测值的加权平均值，作为当前帧目标图像的综合的真目标检测值。

上述图像质量类别确定模块401、卷积神经网络确定模块402、真目标检测值确定模块403、真假目标确定模块404和卷积神经网络训练模块405功能的实现方法，可以参考如上述图1、图2a和图3a的流程步骤的具体内容，此处不再赘述。

下面介绍利用本发明实施例进行真假目标检测对比实验的实例。

以目标中的人脸为例，技术人员利用本发明实施例的目标检测方法，在指定的真假人脸检测数据库范围内进行了离线检测实验。数据库总共包括391760幅图像，其中真实人脸图像115145幅图像，攻击图像(即假目标图像)276615幅，比例约为1:3，采集自500多个个体。攻击图像中包括：将打印的真人脸部图像冒充真人脸部的攻击图像，将真人照片冒充真人的攻击图像和将屏幕上显示的真人图像冒充真人的攻击图像。

测试实验中将上述数据库分为训练集和测试集，其中80％的图像用于训练，20％的图像用于测试，需要对级联CNN中的每个CNN依次进行迭代训练。测试实验结果如下表1所示。

表1

卷积神经网络	卷积神经网络的分类精度
		单独一级CNN	TPR＝97.0％，且FPR＝1.0％
两级以上级联CNN	TPR＝99.2％，且FPR＝1.0％

从上述表1中可以看出，本发明实施例的级联CNN具有明显的精度性能优势，能够显著地提升基于该级联CNN的目标检测方法的精度性能。

图5示出了上述实验中利用本发明实施例的目标检测方法检测出的真假人脸的一个实例。图5左侧4个图像为检测出的4种包含假目标的攻击图像，右侧1个图像为检测出的包含真目标的目标图像。从左至右，4种攻击图像分别是：包含显示有真人脸部图像的手机屏幕的攻击图像、包含显示有真人脸部图像的显示屏屏幕的攻击图像、包含真人脸部照片的攻击图像、包含打印的真人脸部图像的攻击图像。也就是说，这些攻击图像中的拍摄对象不是真目标，而是真目标的照片、显示有真目标的显示屏幕、或者打印有真目标的图像。

本发明的发明人注意到，目标检测系统在实际应用中，通过终端设备的拍摄装置连续采集视频帧图像并进行目标检测，由于终端设备在手持等条件下可能会出现抖动和移动，导致采集的帧图像出现运动模糊失真。现有算法对于模糊的真目标图像和攻击图像(即假目标图像)并不能较好地区分。在实际在线检测实验中，利用本发明实施例提供的目标检测方法，能有效减少模糊图像中的真假目标被误判的概率，约50％-75％的模糊图像中的真假目标会被正确检测。

图6示出了实验中利用本发明实施例的目标检测方法检测出的模糊图像中真假人脸的一个实例。图6中左侧图像为检测出的包含真目标的模糊图像、中间图像和右侧图像都为检测出的包含假目标的模糊的攻击图像。

本发明实施例中，确定出每个目标图像的质量类别后，进而确定出与该目标图像的质量类别相对应的质量类别的级联卷积神经网络，相当于为每个目标图像选择了与其质量类别更为契合的级联卷积神经网络；根据更为契合的级联卷积神经网络，可以更为精确地对每个目标图像进行检测，得到更为精确的真目标检测值；根据更为精确的真目标检测值，可以更为精确地确定出目标图像中的目标是否为真目标。从而本发明实施例，既不需要用户执行指定动作，又可以对多种硬件条件、和/或应用场景下获取的目标图像作出更为精确的真假目标的检测，增强了检测目标图像中的真假目标的鲁棒性。

而且，本发明实施例中，级联卷积神经网络中的每级卷积神经网络之间增加了该级的阈值判断层；每一级卷积神经网络输出该级的作为真目标检测值的输入图像分类为正样本的概率，在每一级卷积神经网络之后连接的该级的阈值判断层，利用阈值判断层的阈值对真目标检测值进行筛选，将通过筛选的真目标检测值所属的目标图像，作为下一级卷积神经网络的输入图像，供下一级卷积神经网络进行目标分类。合理地设置每一级阈值判断层的阈值，通过筛选每一个在后级的卷积神经网络的输入图像，有助于提升每一个在后级卷积神经网络的分类精度，有利于整体上提升真假目标图像的分类精度。

进一步，本发明实施例中，当目标图像具体为当前帧目标图像时，可以根据当前帧目标图像及其之前的多帧目标图像的真目标检测值和模糊评价值，确定出当前帧目标图像的综合的真目标检测值；进而确定出当前帧目标图像中的目标是否为真目标。例如，当前帧目标图像的综合的真目标检测值，可以是当前帧目标图像当前帧之前的多帧目标图像的真目标检测值的加权和；其中，每个帧图像的权值即为该帧图像的模糊评价值。对于每帧图像而言，当该帧图像越模糊时，其模糊评价值越小；较小的作为权值的模糊评价值，减小了该帧图像的加权后的真目标检测值在加权和中的比重，减轻了对作为当前帧目标图像的综合的真目标检测值的加权和的影响；从而有利于整体提升综合的真目标检测值的精度。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标检测方法，其特征在于，包括：

确定出目标图像的质量类别；

2.根据权利要求1所述的方法，其特征在于，所述确定出与所述目标图像的质量类别相对应的质量类别的卷积神经网络，包括：

确定出与所述目标图像的质量类别相对应的质量类别的级联卷积神经网络；以及

所述根据所述相对应的质量类别的卷积神经网络，确定出所述目标图像的真目标检测值，包括：

根据所述相对应的质量类别的级联卷积神经网络，确定出所述目标图像的真目标检测值。

3.根据权利要求1或2所述的方法，其特征在于，所述确定出目标图像的质量类别，包括：

对所述目标图像进行盲图像质量评价，得到所述目标图像的图像质量值；

根据所述目标图像的图像质量值，确定出所述目标图像的质量类别。

4.根据权利要求3所述的方法，其特征在于，所述对所述目标图像进行盲图像质量评价，得到所述目标图像的图像质量值，包括：

确定出所述目标图像的拍摄参数和属性参数；以及

所述根据所述目标图像的图像质量值，确定出所述目标图像的质量类别，包括：

根据所述目标图像的拍摄参数和属性参数、以及预设的拍摄参数和属性参数的质量类别划分标准，确定出所述目标图像的质量类别。

5.根据权利要求2-4中任一项所述的方法，其特征在于，通过下述方法预先训练得到所述级联卷积神经网络：

确定出多个样本图像的质量类别；

根据每个质量类别的多个样本图像，训练出该质量类别的级联卷积神经网络。

6.根据权利要求2-5中任一项所述的方法，其特征在于，所述根据所述相对应的质量类别的级联卷积神经网络，确定出所述目标图像的真目标检测值，包括：

根据所述相对应的质量类别的级联卷积神经网络中的至少二级卷积神经网络和至少一级阈值判断层，确定出所述目标图像的每一级的真目标检测值；其中，所述目标图像的当前级的真目标检测值的确定过程包括：

根据所述当前级的卷积神经网络，确定出所述目标图像的当前级的真目标检测值；

当根据连接于当前级与后一级的卷积神经网络之间的当前级的阈值判断层，判断出所述当前级的真目标检测值大于预设的当前级的真目标检测阈值时，进行所述目标图像的下一级的真目标检测值的确定过程；直到确定出所述目标图像的最后一级的真目标检测值，作为所述目标图像的真目标检测值。

7.根据权利要求2-6中任一项所述的方法，其特征在于，所述根据所述目标图像的真目标检测值，确定出所述目标图像中的目标是否为真目标，包括：

当所述目标图像具体为当前帧目标图像时，确定出所述当前帧目标图像的模糊评价值；

根据所述当前帧目标图像及其之前的多帧目标图像的真目标检测值和模糊评价值，确定出所述当前帧目标图像的综合的真目标检测值；

根据所述当前帧目标图像的综合的真目标检测值，确定出所述当前帧目标图像中的目标是否为真目标。

8.根据权利要求7所述的方法，其特征在于，所述根据所述当前帧目标图像及其之前的多帧目标图像的真目标检测值和模糊评价值，确定出所述当前帧目标图像的综合的真目标检测值，包括：

将所述当前帧目标图像及其之前的多帧目标图像的模糊评价值，分别作为各自的真目标检测值的权重，确定出真目标检测值的加权平均值，作为所述当前帧目标图像的综合的真目标检测值。

9.一种目标检测装置，其特征在于，包括：

图像质量类别确定模块，用于确定出目标图像的质量类别；

10.根据权利要求9所述的装置，其特征在于，

所述卷积神经网络确定模块具体用于确定出与所述目标图像的质量类别相对应的质量类别的级联卷积神经网络；以及

所述真目标检测值确定模块具体用于根据所述相对应的质量类别的级联卷积神经网络，确定出所述目标图像的真目标检测值。