CN109726613B

CN109726613B - 一种用于检测的方法和装置

Info

Publication number: CN109726613B
Application number: CN201711024466.5A
Authority: CN
Inventors: 林崇仰; 张普; 周维
Original assignee: Rainbow Software Co ltd
Current assignee: Rainbow Software Co ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2021-09-10
Anticipated expiration: 2037-10-27
Also published as: US20190130600A1; US11017557B2; CN109726613A

Abstract

本发明提供了一种用于检测的方法和装置，应用于图像处理领域，该方法包括：接收第一图像，所述第一图像包括至少一个人脸；对所述第一图像进行下述处理中的至少一个：检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；将所述处理的结果输入第一神经网络，确定所述人脸的视线。本发明提供的一种用于检测的方法和装置，能够使得终端对用户和/或其他人的视线进行检测。

Description

一种用于检测的方法和装置

技术领域

本发明涉及一种用于图像处理的方法和装置，具体地，涉及一种用于检测的方法和装置。

背景技术

目前，各种终端装置层出不穷，对于用户的使用情况以及体验的关注也越来越多。

现有技术中缺少终端对用户和/或其他人的视线的检测的方法和装置。

发明内容

本发明提供的一种用于检测的方法和装置，能够解决缺少终端对用户和/或其他人的视线的检测的方法和装置的问题。

本发明的第一方面提供一种用于检测的方法，所述方法包括：接收第一图像，所述第一图像包括至少一个人脸；对所述第一图像进行下述处理中的至少一个：检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；将所述处理的结果输入第一神经网络，确定所述人脸的视线。

根据本发明的第一方面，在本发明的第一方面的第一可执行方式中，所述方法还包括：根据所述人脸的视线确定所述人脸的视点；根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。

根据本发明的第一方面的第一可执行方式，在本发明的第一方面的第二可执行方式中，所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作，包括：确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。

根据本发明的第一方面的第一可执行方式或本发明的第一方面的第二可执行方式，在本发明的第一方面的第三可执行方式中，所述根据所述人脸的视线确定所述人脸的视点，包括：根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。

根据本发明的第一方面的第三可执行方式，在本发明的第一方面的第四可执行方式中，所述人脸的左眼和/或右眼的位置，包括：所述人脸的左眼和/或右眼的中心点的位置，所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。

根据本发明的第一方面的第四可执行方式，在本发明的第一方面的第五可执行方式中，所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到。

根据本发明的第一方面或本发明的第一方面的第一可执行方式到第五可执行方式中的任一，在本发明的第一方面的第六可执行方式中，所述检测所述第一图像中人脸的左眼和/或右眼包括：确定出所述第一图像中包括所述左眼和/或右眼的图像。

根据本发明的第一方面，或本发明的第一方面的第一可执行方式到第六可执行方式中任一可执行方式，在本发明的第一方面的第七可执行方式中，所述估计人脸相对于摄像装置的位置，包括：根据所述第一图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形；将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。

根据本发明的第一方面或本发明的第一方面的第一可执行方式到第七可执行方式中任一，在本发明的第一方面的第八可执行方式中，所述估计所述人脸的姿态，包括：根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标；根据拍摄所述第一图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

根据本发明的第一方面的第八可执行方式，在本发明的第一方面的第九可执行方式中，所述人脸的姿态通过旋转矩阵表示。

根据本发明的第一方面或本发明的第一方面的第一可执行方式到第九可执行方式中任一可执行方式，在本发明的第一方面的第十可执行方式中，将所述处理的结果输入第一神经网络，包括下述中的至少一个：将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层，和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第一神经网络。

根据本发明的第一方面的第十可执行方式，在本发明的第一方面的第十一可执行方式中，所述第一神经网络包括：所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；所述第一全连接层的输出为第三全连接层的输入；所述第二全连接层与第三全连接层的输出为第四全连接层的输入；所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。

本发明的第二方面提供一种用于检测的方法，所述方法包括：接收第三图像，所述第三图像包括至少一个人脸；对所述第三图像进行下述处理中的至少一个：检测所述第三图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；将所述处理的结果输入第二神经网络，确定所述人脸的视点。

根据本发明的第二方面，在本发明的第二方面的第一可执行方式中，所述检测所述第三图像中人脸的左眼和/或右眼包括：确定出所述第三图像中包括所述左眼和/或右眼的图像。

根据本发明的第二方面或本发明的第二方面的第一可执行方式，在本发明的第二方面的第二可执行方式中，所述估计人脸相对于摄像装置的位置，包括：根据所述第三图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形；将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。

根据本发明的第二方面或本发明的第二方面的第一可执行方式到第二可执行方式中任一可执行方式，在本发明的第一方面的第三可执行方式中，所述估计所述人脸的姿态，包括：根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标；根据拍摄所述第三图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

根据本发明的第二方面的第三可执行方式，在本发明的第二方面的第四可执行方式中，所述人脸的姿态通过旋转矩阵表示。

根据本发明的第二方面或第二方面的第一可执行方式到第四可执行方式中任一，在本发明的第二方面的第五可执行方式中，将所述处理的结果输入第二神经网络，包括下述中的至少一个：将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层，和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第二神经网络。

根据第二方面的第五可执行方式，在本发明的第二方面的第六可执行方式中，所述第二神经网络包括：所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；所述第一全连接层的输出为第三全连接层的输入；所述第二全连接层与第三全连接层的输出为第四全连接层的输入；所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。

根据第二方面或第二方面的第一可执行方式到第二方面的第六可执行方式，在本发明的第二方面的第七可执行方式中，所述方法还包括：根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。

根据第二方面的第七可执行方式，在本发明的第二方面的第八可执行方式中，所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作，包括：确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。

本发明的第三方面提供一种用于检测的装置，所述装置包括：第一接收模块，用于接收第一图像，所述第一图像包括至少一个人脸；第一处理器，用于对所述第一图像进行下述处理中的至少一个：检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；视线确定模块，用于将所述处理的结果输入第一神经网络，确定所述人脸的视线。

根据本发明的第三方面，在本发明的第三方面的第一可执行方式中，所述第一处理器，还用于根据所述人脸的视线确定所述人脸的视点，根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。

根据本发明的第三方面，在本发明的第三方面的第一可执行方式中，所述第一处理器，具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。

根据本发明的第三方面的第一可执行方式或第二可执行方式，在本发明的第三方面的第三可执行方式中，所述第一处理器，具体用于根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。

根据本发明的第三方面的第三可执行方式，在本发明的第三方面的第四可执行方式中，所述人脸的左眼和/或右眼的位置，包括：所述人脸的左眼和/或右眼的中心点的位置，所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。

根据本发明的第三方面的第四可执行方式，在本发明的第三方面的第五可执行方式中，所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到。

根据本发明的第三方面或本发明的第三方面的第一可执行方式到第五可执行方式任一，在本发明的第三方面的第六可执行方式中，所述第一处理器，具体用于确定出所述第一图像中包括所述左眼和/或右眼的图像。

根据本发明的第三方面或本发明的第三方面的第一可执行方式到第六可执行方式任一，在本发明的第三方面的第七可执行方式中，所述第一处理器，具体用于根据所述第一图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形，将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。

根据本发明的第三方面或本发明的第三方面的第一可执行方式到第七可执行方式任一，在本发明的第三方面的第八可执行方式中，所述第一处理器，具体用于根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标，根据拍摄所述第一图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

根据本发明的第三方面的第八可执行方式，在本发明的第三方面的第九可执行方式中，所述人脸的姿态通过旋转矩阵表示。

根据本发明的第三方面或本发明的第三方面的第一可执行方式到第八可执行方式中任一，在本发明的第三方面的第十可执行方式中，所述视线确定模块，具体用于：将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层，和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第一神经网络。

根据本发明的第三方面的第十可执行方式，在本发明的第三方面的第十一可执行方式中，所述第一神经网络包括：所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；所述第一全连接层的输出为第三全连接层的输入；所述第二全连接层与第三全连接层的输出为第四全连接层的输入；所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。

本发明的第四方面提供一种用于检测的装置，其特征在于，所述装置包括：第二接收模块，用于接收第三图像，所述第三图像包括至少一个人脸；第二处理器，用于对所述第三图像进行下述处理中的至少一个：检测所述第三图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；视点确定模块，用于将所述处理的结果输入第二神经网络，确定所述人脸的视点。

根据本发明的第四方面，在本发明的第四方面的第一可执行方式中，所述第二处理器，具体用于确定出所述第三图像中包括所述左眼和/或右眼的图像。

根据本发明的第四方面或第四方面的第一可执行方式，在本发明的第四方面的第二可执行方式中，所述第二处理器，具体用于根据所述第三图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形，将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。

根据本发明的第四方面或第四方面的第一可执行方式或第二可执行方式，在本发明的第四方面的第三可执行方式中，所述第二处理器，具体用于根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标，根据拍摄所述第三图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

根据本发明的第四方面的第三可执行方式，在本发明的第四方面的第四可执行方式中，所述人脸的姿态通过旋转矩阵表示。

根据本发明的第四方面或第四方面的第一可执行方式到第四可执行方式中任一，在本发明的第四方面的第五可执行方式中，所述视点确定模块，具体用于：将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层，和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第二神经网络。

根据本发明的第四方面的第五可执行方式，在本发明的第四方面的第六可执行方式中，所述第二神经网络包括：所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；所述第一全连接层的输出为第三全连接层的输入；所述第二全连接层与第三全连接层的输出为第四全连接层的输入；所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。

根据本发明的第四方面或本发明的第四方面的第一可执行方式到第六可执行方式中任一，在本发明的第四方面的第七可执行方式中，所述第二处理器，还用于根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。

根据本发明的第四方面的第七可执行方式，在本发明的第四方面的第八可执行方式中，所述第二处理器，具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。

本发明的第五方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被第三处理器执行时实现如本发明的第一方面、本发明的第一方面的第一可执行方式到本发明的第一方面的第十一可执行方式中任一可执行方式中或第二方面，或第二方面的第一可执行方式到本发明的第二方面的第八可执行方式中任一可执行方式中所述方法的步骤。

本发明的第六方面提供一种用于检测的装置，包括存储器、第四处理器以及存储在所述存储器中并可在所述第四处理器上运行的计算机程序，所述计算机程序被第四处理器执行时实现如本发明的第一方面、本发明的第一方面的第一可执行方式到本发明的第一方面的第十一可执行方式中任一可执行方式中或第二方面，或第二方面的第一可执行方式到本发明的第二方面的第八可执行方式中任一可执行方式中所述方法的步骤。

本发明提供的一种用于检测的方法和装置，能够使得终端对用户和/或其他人的视线进行检测。

附图说明

图1为本发明实施例一提供的一种用于检测的方法的流程图；

图2为本发明实施例一提供的一种人脸相对于摄像装置的位置的示意图；

图3为本发明实施例一提供的一种神经网络结构的示意图；

图4为本发明实施例二提供的一种用于检测的方法的流程图；

图5为本发明实施例二提供的一种神经网络的结构示意图；

图6为本发明实施例三提供的一种用于检测的装置结构示意图；

图7为本发明实施例四提供的一种用于检测的装置结构示意图；

图8为本发明实施例五提供的一种用于检测的装置结构示意图；

图9为本发明实施例六提供的一种用于检测的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细地描述。

本发明的说明书和权利要求书中上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于限定特定顺序。

其中，本发明实施例中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或“例如”的任何实施例或设计方案不应该被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

应当说明的是，为了图示的简洁和清楚起见，附图中所示的元件没有必要按照比例进行绘制。例如，为了清楚，可以相对于其他元件，增大一些元件的尺寸。另外，在认为合适的地方，可以在附图间重复附图标记，以指示相对应或类似的元件。

下面结合附图1对本发明实施例一提供的一种用于检测的方法进行详细阐述。如图1所示，该方法包括：

步骤101，接收第一图像，所述第一图像包括至少一个人脸。

可选的，上述接收第一图像可以为从存储有第一图像的存储器接收，该存储器可以为ROM(Read-Only Memory，只读存储器)、RAM(random access memory，随机存取存储器)或flash(闪存)。第一图像可以是彩色图像，如RGB(red green blue红绿蓝)图像或黑白图像。该第一图像可以由终端的摄像头拍摄得到。

步骤102，对所述第一图像进行下述处理中的至少一个：检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态。

可选的，上述检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态三个动作执行的先后顺序不做限定，可以并行执行，也可以按照其他顺序执行。

步骤103，将所述处理的结果输入第一神经网络，确定所述人脸的视线。

所述方法还包括：根据所述人脸的视线确定所述人脸的视点，根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作，包括：确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。具体地，上述报警可以包括弹出有提示信息的信息框，或从终端的一侧出现有信息提示的的信息框，或通过震动或声音等方式进行报警。可选的，上述触发的终端的操作还可以包括触发应用，如，触发终端的照相或摄像模式开始，如触发终端的前置摄像头开始使用。这样，通过终端的摄像头获取周边人的视线，当发现有其他人的视线落在终端屏幕上时，可以进行上述的报警，防止他人偷窥用户的信息。

可选的，所述检测所述第一图像中人脸的左眼和/或右眼包括：确定出所述第一图像中包括所述左眼和/或右眼的图像。可选的，上述包括所述左眼和/或右眼的图像可以为小的包括上述左眼和/或右眼的矩形图像。

可选的，所述估计人脸相对于摄像装置的位置，包括：根据所述第一图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形；将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。可选的，可以使用人脸数据库，如3DMM(3D MorphableModels，三维形变模型)数据库，标定出所述第一图像中的所述人脸的二维特征点的位置。并将包括所述外接矩形的第一图像归一化到25x25大小，并且二值化，如人脸区域为1(白色部分)，其与区域为0(黑色部分)，如图2所示。可选的，上述的外接矩形可以是近似的外接，即外接矩形的边接近上述人脸的特征点即可。

可选的，所述估计所述人脸的姿态，包括：根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标；根据拍摄所述第一图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上，如手机的前置摄像头。具体地，根据3DMM数据库以及所述第一图像可以估计出所述人脸的特征点的二维坐标和三维坐标。上述的人脸的特征点包括：眼睛的特征点，鼻子的特征点，嘴巴的特征点，眉毛的特征点等。拍摄所述第一图像的摄像装置的内部参数可以按照下述方法估计得到：

C_x＝w/2；

C_y＝h/2；

其中，C_x和C_y为主点坐标，w和h分别为所述第一图像的宽和高，f_x和f_y分别为焦距在x轴方向上的投影，和在y轴方向上的投影。根据得到的二维点和三维点的坐标可以估计出摄像装置的位姿为M＝f(C_x,C_y,f_x,f_y,P_2D,P_3D)，M＝[R,T],其中R为旋转矩阵,T为平移矩阵，人脸的姿态可以通过该旋转矩阵表示。

可选的，所述根据所述人脸的视线确定所述人脸的视点，包括：根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。所述人脸的左眼和/或右眼的位置，包括：所述人脸的左眼和/或右眼的中心点的位置，所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到，人脸数据库可以如前述的3DMM数据库。

具体地，所述人脸的左眼和/或右眼的位置可以由前述得到的人眼的特征点的位置来表示，也可以通过左眼和/或右眼的中心点来表示。下述为获得该中心点的坐标的方法：

其中，

为四个眼角点的三维坐标，P_cl为左眼的中心点的坐标，P_cr为右眼中心点的坐标。

将所述处理的结果输入第一神经网络，包括下述中的至少一个：将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层，和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第一神经网络。所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入，所述第一全连接层的输出为第三全连接层的输入，所述第二全连接层与第三全连接层的输出为第四全连接层的输入，所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。具体地，示例性的，图3示出了可以应用于本发明的一个第一神经网络的结构。示例性的，上述的第一全连接层的维度为256，第二全连接层的维度为128，第三全连接层的维度为128，第四全连接层的维度为128。图2中表示人脸相对于摄像装置的位置的图像的大小为25*25。上述的卷积层可以包括三个子层，大小分别为5*5/32，3*3/32，3*3/64。

通过上述的第一神经网络可以得到左眼和右眼的视线分别为V₁和V₂，通过下述的方法可以获得眼睛注视点的坐标：

P_sl＝P_cl+d₁V₁；

P_sr＝P_cr+d₂V₂；

其中，P_sl为左眼注视点，P_sr为右眼注视点，d₁，d₂为系数。

所以有：

其中，(x_sl，y_sl，z_sl)为P_sl的坐标，(x_cl，y_cl，z_cl)为P_cl的坐标,(x_v1，y_v1，z_v1)为V₁的坐标。

可选的，在平板和手机设备上，摄像装置与屏幕处于同一平面，即屏幕上的点在摄像机坐标下z(深度值)＝0，所以有：

z_sl＝z_cl+d₁z_v1

d₁＝-z_cl/z_v1

同理有：

d₂＝-z_cr/z_v2

所以，注视点P_sc＝(P_sr+P_sl)/2。

上述的第一神经网络可以按照前述的结构和功能预先训练好，存储在终端中，当前置摄像装置拍摄第一图像后，可以很快获得至少一个人脸的视线和视点的位置。

在本实施例中，可以从神经网络输出至少一个人脸的视线的位置，处理时间快。另外，还可以计算至少一个人的视点的位置，当发现有其他人的视点落在终端屏幕上时，可以进行上述的报警，防止他人偷窥用户的信息。

下面结合附图4对本发明实施例二提供的一种用于检测的方法进行详细阐述。如图4所示，该方法包括：

步骤401，接收第三图像，所述第三图像包括至少一个人脸。

步骤402，对所述第三图像进行下述处理中的至少一个：检测所述第三图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态。

步骤403，将所述处理的结果输入第二神经网络，确定所述人脸的视点。

可选的，所述检测所述第三图像中人脸的左眼和/或右眼包括：确定出所述第三图像中包括所述左眼和/或右眼的图像。

可选的，所述估计人脸相对于摄像装置的位置，包括：根据所述第三图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形；将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。该第四图像可以参见图2。

可选的，所述估计所述人脸的姿态，包括：根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标；根据拍摄所述第三图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上，如手机的前置摄像头。所述人脸的姿态通过旋转矩阵表示。

可选的，将所述处理的结果输入第二神经网络，包括下述中的至少一个：将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层，和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第二神经网络。所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；所述第一全连接层的输出为第三全连接层的输入；所述第二全连接层与第三全连接层的输出为第四全连接层的输入；所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。示例性的，关于第二神经网络的结构可以参见图5。

可选的，根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作，包括：确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。这样，通过终端的摄像头获取周边人的视点，当发现有其他人的视点落在终端屏幕上时，可以进行上述的报警，防止他人偷窥用户的信息。

关于本实施例中关于第二神经网络的结构和功能可以参见实施例一中关于第一神经网络的相关描述。本实施例中关于第三图像的处理可以参见实施例一中关于第一图像的处理的相关描述。本实施例中关于各个步骤的具体描述可以参见实施例一中的相关描述。

上述的第二神经网络可以按照前述的结构和功能预先训练好，存储在终端中，当前置摄像装置拍摄第三图像后，可以很快获得至少一个人脸的视点的位置。

在本实施例中，可以直接从神经网络输出至少一个人脸的视点的位置，处理时间快。

下面结合附图6对本发明实施例三提供的一种用于检测的装置600进行详细阐述。如图6所示，该装置600包括：

第一接收模块601，用于接收第一图像，所述第一图像包括至少一个人脸。

第一图像可以是彩色图像，如RGB图像或黑白图像。该第一图像可以由终端的摄像头拍摄得到。上述的接收模块601可以为从存储有第一图像的存储器接收，该存储器可以为ROM、RAM或flash。

第一处理器602，用于对所述第一图像进行下述处理中的至少一个：检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态。

视线确定模块603，用于将所述处理的结果输入第一神经网络，确定所述人脸的视线。

所述第一处理器602，还用于根据所述人脸的视线确定所述人脸的视点，根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述第一处理器，具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。具体地，上述报警可以包括弹出有提示信息的信息框，或从终端的一侧出现有信息提示的的信息框，或通过震动或声音等方式进行报警。可选的，上述触发的终端的操作还可以包括触发应用，如，触发终端的照相或摄像模式开始，如触发终端的前置摄像头开始使用。这样，通过终端的摄像头获取周边人的视线，当发现有其他人的视线落在终端屏幕上时，可以进行上述的报警，防止他人偷窥用户的信息。

可选的，所述第一处理器，具体用于确定出所述第一图像中包括所述左眼和/或右眼的图像。可选的，上述包括所述左眼和/或右眼的图像可以为小的包括上述左眼和/或右眼的矩形图像。

可选的，所述第一处理器，具体用于根据所述第一图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形，将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。可选的，可以使用人脸数据库，如3DMM(3D Morphable Models，三维形变模型)数据库，标定出所述第一图像中的所述人脸的二维特征点的位置。并将包括所述外接矩形的第一图像归一化到25x25大小，并且二值化，如人脸区域为1(白色部分)，其与区域为0(黑色部分)，如图2所示。可选的，上述的外接矩形可以是近似的外接，即外接矩形的边接近上述人脸的特征点即可。

可选的，所述第一处理器，具体用于根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标，根据拍摄所述第一图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上，如手机的前置摄像头。具体地，根据3DMM数据库以及所述第一图像可以估计出所述人脸的特征点的二维坐标和三维坐标。上述的人脸的特征点包括：眼睛的特征点，鼻子的特征点，嘴巴的特征点，眉毛的特征点等。拍摄所述第一图像的摄像装置的内部参数可以按照下述方法估计得到：

C_x＝w/2；

C_y＝h/2；

所述第一处理器，具体用于根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。所述人脸的左眼和/或右眼的位置，包括：所述人脸的左眼和/或右眼的中心点的位置，所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到，人脸数据库可以如前述的3DMM数据库。

其中，

所述视线确定模块，具体用于：将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层，和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第一神经网络。所述第一神经网络包括：所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；所述第一全连接层的输出为第三全连接层的输入；所述第二全连接层与第三全连接层的输出为第四全连接层的输入；所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。

具体地，示例性的，图3示出了可以应用于本发明的一个第一神经网络的结构。示例性的，上述的第一全连接层的维度为256，第二全连接层的维度为128，第三全连接层的维度为128，第四全连接层的维度为128。图2中表示人脸相对于摄像装置的位置的图像的大小为25*25。上述的卷积层可以包括三个子层，大小分别为5*5/32，3*3/32，3*3/64。

P_sl＝P_vl+d₁V₁；

P_sr＝P_cr+d₂V₂；

所以有：

z_sl＝z_cl+d₁z_v1

d₁＝-z_cl/z_v1

同理有：

d₂＝-z_cr/z_v2

所以，注视点P_sc＝(P_sr+P_sl)/2。

下面结合附图7对本发明实施例四提供的一种用于检测的装置700进行详细阐述。如图7所示，该装置700包括：

第二接收模块701，用于接收第三图像，所述第三图像包括至少一个人脸.

第二处理器702，用于对所述第三图像进行下述处理中的至少一个：检测所述第三图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态。

视点确定模块703，用于将所述处理的结果输入第二神经网络，确定所述人脸的视点。

可选的，所述第二处理器，具体用于确定出所述第三图像中包括所述左眼和/或右眼的图像。

所述第二处理器，具体用于根据所述第三图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形，将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。该第四图像可以参见图2。

所述第二处理器，具体用于根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标，根据拍摄所述第三图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上，如手机的前置摄像头。所述人脸的姿态通过旋转矩阵表示。

可选的，视点确定模块，具体用于：将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层，和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层；将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层；将估计所述人脸的姿态的结果输入所述第二神经网络。

可选的，所述第二神经网络包括：所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；所述第一全连接层的输出为第三全连接层的输入；所述第二全连接层与第三全连接层的输出为第四全连接层的输入；所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。示例性的，关于第二神经网络的结构可以参见图5。

所述第二处理器，还用于根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述第二处理器，具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。这样，通过终端的摄像头获取周边人的视点，当发现有其他人的视点落在终端屏幕上时，可以进行上述的报警，防止他人偷窥用户的信息。

关于本实施例中关于第二神经网络的结构和功能可以参见实施例一或实施例三中关于第一神经网络的相关描述。本实施例中关于第三图像的处理可以参见实施例一或实施例三中关于第一图像的处理的相关描述。本实施例中关于装置的具体描述可以参见实施例一或实施例三中的相关描述。

下面结合图7具体描述本发明实施例五提供的一种用于检测的装置800，该装置800包括一种计算机可读存储介质801，所述计算机可读存储介质801存储有计算机程序，所述计算机程序被第三处理器802执行时实现如实施例一或实施例二中的方法的步骤。如图8所示，可选的，该装置800可以包括总线。

在本实施例中，可以直接从神经网络输出至少一个人脸的视点或视线的位置，处理时间快。通过终端的摄像头获取周边人的视点，当发现有其他人的视点落在终端屏幕上时，可以进行上述的报警，防止他人偷窥用户的信息。

下面结合图9具体描述本发明实施例六提供的一种用于检测的装置900，该装置900包括存储器901、第四处理器902以及存储在所述存储器901中并可在所述第四处理器902上运行的计算机程序，所述计算机程序被第四处理器902执行时实现如实施例一或实施例二所述方法的步骤。可选的，如图所示，该装置900还包括总线。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述装置/终端设备中的执行过程。

所述装置/终端设备可以是手机、平板电脑、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述装置/终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，本发明的示意图仅仅是装置/终端设备的示例，并不构成对装置/终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述装置/终端设备还可以包括输入输出设备、网络接入设备、总线等。

上述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述装置/终端设备的控制中心，利用各种接口和线路连接整个装置/终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述装置/终端设备的各种功能。所述存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

上述各个实施例中的目标物体的成像可以目标物体的局部成像，也可以整体成像。无论是局部成像，或整体成像都适用或对局部成像，或整体成像相应做出调整后适用本发明提供的方法或装置，上述调整本领域普通技术人员不需要付出创造性劳动，应属于本发明的保护范围。

Claims

1.一种用于检测的方法，其特征在于，所述方法包括：

接收第一图像，所述第一图像包括至少一个人脸；

对所述第一图像进行下述处理：检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；

将所述处理的结果输入第一神经网络，确定所述人脸的视线；

其中，所述第一神经网络包括：

所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入；

所述第一全连接层的输出为第三全连接层的输入；

所述第二全连接层与第三全连接层的输出为第四全连接层的输入；

所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入；

将所述处理的结果输入所述第一神经网络，包括：

将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层，和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层；

将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层；

将估计所述人脸的姿态的结果输入所述第一神经网络。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述人脸的视线确定所述人脸的视点；

根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。

3.根据权利要求2所述的方法，其特征在于，

所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作，包括：

确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。

4.根据权利要求2所述的方法，其特征在于，

所述根据所述人脸的视线确定所述人脸的视点，包括：

根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。

5.根据权利要求4所述的方法，其特征在于，

所述人脸的左眼和/或右眼的位置，包括：

所述人脸的左眼和/或右眼的中心点的位置，所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。

6.根据权利要求5所述的方法，其特征在于，

所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到。

7.根据权利要求1所述的方法，其特征在于，

所述检测所述第一图像中人脸的左眼和/或右眼包括：

确定出所述第一图像中包括所述左眼和/或右眼的图像。

8.根据权利要求1所述的方法，其特征在于，

所述估计人脸相对于摄像装置的位置，包括：

根据所述第一图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形；

将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。

9.根据权利要求1所述的方法，其特征在于，

所述估计所述人脸的姿态，包括：

根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标；

根据拍摄所述第一图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

10.根据权利要求9所述的方法，其特征在于，

所述人脸的姿态通过旋转矩阵表示。

11.一种用于检测的方法，其特征在于，所述方法包括：

接收第三图像，所述第三图像包括至少一个人脸；

对所述第三图像进行下述处理：检测所述第三图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；

将所述处理的结果输入第二神经网络，确定所述人脸的视点；

其中，所述第二神经网络包括：

所述第一全连接层的输出为第三全连接层的输入；

所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入；

将所述处理的结果输入所述第二神经网络，包括：

将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层，和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层；

将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层；

将估计所述人脸的姿态的结果输入所述第二神经网络。

12.根据权利要求11所述的方法，其特征在于，

所述检测所述第三图像中人脸的左眼和/或右眼包括：

确定出所述第三图像中包括所述左眼和/或右眼的图像。

13.根据权利要求11所述的方法，其特征在于，

所述估计人脸相对于摄像装置的位置，包括：

根据所述第三图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形；

将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。

14.根据权利要求11所述的方法，其特征在于，

所述估计所述人脸的姿态，包括：

根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标；

根据拍摄所述第三图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

15.根据权利要求14所述的方法，其特征在于，

所述人脸的姿态通过旋转矩阵表示。

16.根据权利要求11所述的方法，其特征在于，所述方法还包括：

17.根据权利要求16所述的方法，其特征在于，

18.一种用于检测的装置，其特征在于，所述装置包括：

第一接收模块，用于接收第一图像，所述第一图像包括至少一个人脸；

第一处理器，用于对所述第一图像进行下述处理：检测所述第一图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；

视线确定模块，用于将所述处理的结果输入第一神经网络，确定所述人脸的视线；

其中，所述第一神经网络包括：

所述第一全连接层的输出为第三全连接层的输入；

所述视线确定模块，具体用于：

将估计所述人脸的姿态的结果输入所述第一神经网络。

19.根据权利要求18所述的装置，其特征在于，

所述第一处理器，还用于根据所述人脸的视线确定所述人脸的视点，根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。

20.根据权利要求19所述的装置，其特征在于，

所述第一处理器，具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。

21.根据权利要求19所述的装置，其特征在于，

所述第一处理器，具体用于根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。

22.根据权利要求21所述的装置，其特征在于，

所述人脸的左眼和/或右眼的位置，包括：

23.根据权利要求22所述的装置，其特征在于，

24.根据权利要求18所述的装置，其特征在于，

所述第一处理器，具体用于确定出所述第一图像中包括所述左眼和/或右眼的图像。

25.根据权利要求18所述的装置，其特征在于，

所述第一处理器，具体用于根据所述第一图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形，将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。

26.根据权利要求18所述的装置，其特征在于，

所述第一处理器，具体用于根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标，根据拍摄所述第一图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

27.根据权利要求26所述的装置，其特征在于，

所述人脸的姿态通过旋转矩阵表示。

28.一种用于检测的装置，其特征在于，所述装置包括：

第二接收模块，用于接收第三图像，所述第三图像包括至少一个人脸；

第二处理器，用于对所述第三图像进行下述处理：检测所述第三图像中人脸的左眼和/或右眼，估计人脸相对于摄像装置的位置，以及估计所述人脸的姿态；

视点确定模块，用于将所述处理的结果输入第二神经网络，确定所述人脸的视点；

其中，所述第二神经网络包括：

所述第一全连接层的输出为第三全连接层的输入；

视点确定模块，用于将所述处理的结果输入第二神经网络，包括：

将估计所述人脸的姿态的结果输入所述第二神经网络。

29.根据权利要求28所述的装置，其特征在于，

所述第二处理器，具体用于确定出所述第三图像中包括所述左眼和/或右眼的图像。

30.根据权利要求28所述的装置，其特征在于，

所述第二处理器，具体用于根据所述第三图像检测所述人脸的特征点，确定包括所述人脸的特征点的外接矩形，将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。

31.根据权利要求28所述的装置，其特征在于，

所述第二处理器，具体用于根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标，根据拍摄所述第三图像的摄像装置的内部参数，以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。

32.根据权利要求31所述的装置，其特征在于，

所述人脸的姿态通过旋转矩阵表示。

33.根据权利要求28所述的装置，其特征在于，

所述第二处理器，还用于根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。

34.根据权利要求33所述的装置，其特征在于，

所述第二处理器，具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上，所述终端进行报警。

35.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被第三处理器执行时实现如权利要求1-17任一权利要求所述方法的步骤。

36.一种用于检测的装置，包括存储器、第四处理器以及存储在所述存储器中并可在所述第四处理器上运行的计算机程序，其特征在于，所述计算机程序被第四处理器执行时实现如权利要求1-17任一权利要求所述方法的步骤。