CN109726613A - 一种用于检测的方法和装置 - Google Patents

一种用于检测的方法和装置 Download PDF

Info

Publication number
CN109726613A
CN109726613A CN201711024466.5A CN201711024466A CN109726613A CN 109726613 A CN109726613 A CN 109726613A CN 201711024466 A CN201711024466 A CN 201711024466A CN 109726613 A CN109726613 A CN 109726613A
Authority
CN
China
Prior art keywords
face
image
full articulamentum
result
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711024466.5A
Other languages
English (en)
Other versions
CN109726613B (zh
Inventor
林崇仰
张普
周维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongsoft Technology Co Ltd
ArcSoft Corp Ltd
Original Assignee
Hongsoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongsoft Technology Co Ltd filed Critical Hongsoft Technology Co Ltd
Priority to CN201711024466.5A priority Critical patent/CN109726613B/zh
Priority to US16/171,369 priority patent/US11017557B2/en
Publication of CN109726613A publication Critical patent/CN109726613A/zh
Application granted granted Critical
Publication of CN109726613B publication Critical patent/CN109726613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本发明提供了一种用于检测的方法和装置,应用于图像处理领域,该方法包括:接收第一图像,所述第一图像包括至少一个人脸;对所述第一图像进行下述处理中的至少一个:检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;将所述处理的结果输入第一神经网络,确定所述人脸的视线。本发明提供的一种用于检测的方法和装置,能够使得终端对用户和/或其他人的视线进行检测。

Description

一种用于检测的方法和装置
技术领域
本发明涉及一种用于图像处理的方法和装置,具体地,涉及一种用于检测的方法和装置。
背景技术
目前,各种终端装置层出不穷,对于用户的使用情况以及体验的关注也越来越多。
现有技术中缺少终端对用户和/或其他人的视线的检测的方法和装置。
发明内容
本发明提供的一种用于检测的方法和装置,能够解决缺少终端对用户和/或其他人的视线的检测的方法和装置的问题。
本发明的第一方面提供一种用于检测的方法,所述方法包括:接收第一图像,所述第一图像包括至少一个人脸;对所述第一图像进行下述处理中的至少一个:检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;将所述处理的结果输入第一神经网络,确定所述人脸的视线。
根据本发明的第一方面,在本发明的第一方面的第一可执行方式中,所述方法还包括:根据所述人脸的视线确定所述人脸的视点;根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
根据本发明的第一方面的第一可执行方式,在本发明的第一方面的第二可执行方式中,所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作,包括:确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
根据本发明的第一方面的第一可执行方式或本发明的第一方面的第二可执行方式,在本发明的第一方面的第三可执行方式中,所述根据所述人脸的视线确定所述人脸的视点,包括:根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。
根据本发明的第一方面的第三可执行方式,在本发明的第一方面的第四可执行方式中,所述人脸的左眼和/或右眼的位置,包括:所述人脸的左眼和/或右眼的中心点的位置,所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。
根据本发明的第一方面的第四可执行方式,在本发明的第一方面的第五可执行方式中,所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到。
根据本发明的第一方面或本发明的第一方面的第一可执行方式到第五可执行方式中的任一,在本发明的第一方面的第六可执行方式中,所述检测所述第一图像中人脸的左眼和/或右眼包括:确定出所述第一图像中包括所述左眼和/或右眼的图像。
根据本发明的第一方面,或本发明的第一方面的第一可执行方式到第六可执行方式中任一可执行方式,在本发明的第一方面的第七可执行方式中,所述估计人脸相对于摄像装置的位置,包括:根据所述第一图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形;将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。
根据本发明的第一方面或本发明的第一方面的第一可执行方式到第七可执行方式中任一,在本发明的第一方面的第八可执行方式中,所述估计所述人脸的姿态,包括:根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标;根据拍摄所述第一图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
根据本发明的第一方面的第八可执行方式,在本发明的第一方面的第九可执行方式中,所述人脸的姿态通过旋转矩阵表示。
根据本发明的第一方面或本发明的第一方面的第一可执行方式到第九可执行方式中任一可执行方式,在本发明的第一方面的第十可执行方式中,将所述处理的结果输入第一神经网络,包括下述中的至少一个:将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层,和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第一神经网络。
根据本发明的第一方面的第十可执行方式,在本发明的第一方面的第十一可执行方式中,所述第一神经网络包括:所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;所述第一全连接层的输出为第三全连接层的输入;所述第二全连接层与第三全连接层的输出为第四全连接层的输入;所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。
本发明的第二方面提供一种用于检测的方法,所述方法包括:接收第三图像,所述第三图像包括至少一个人脸;对所述第三图像进行下述处理中的至少一个:检测所述第三图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;将所述处理的结果输入第二神经网络,确定所述人脸的视点。
根据本发明的第二方面,在本发明的第二方面的第一可执行方式中,所述检测所述第三图像中人脸的左眼和/或右眼包括:确定出所述第三图像中包括所述左眼和/或右眼的图像。
根据本发明的第二方面或本发明的第二方面的第一可执行方式,在本发明的第二方面的第二可执行方式中,所述估计人脸相对于摄像装置的位置,包括:根据所述第三图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形;将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。
根据本发明的第二方面或本发明的第二方面的第一可执行方式到第二可执行方式中任一可执行方式,在本发明的第一方面的第三可执行方式中,所述估计所述人脸的姿态,包括:根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标;根据拍摄所述第三图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
根据本发明的第二方面的第三可执行方式,在本发明的第二方面的第四可执行方式中,所述人脸的姿态通过旋转矩阵表示。
根据本发明的第二方面或第二方面的第一可执行方式到第四可执行方式中任一,在本发明的第二方面的第五可执行方式中,将所述处理的结果输入第二神经网络,包括下述中的至少一个:将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层,和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第二神经网络。
根据第二方面的第五可执行方式,在本发明的第二方面的第六可执行方式中,所述第二神经网络包括:所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;所述第一全连接层的输出为第三全连接层的输入;所述第二全连接层与第三全连接层的输出为第四全连接层的输入;所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。
根据第二方面或第二方面的第一可执行方式到第二方面的第六可执行方式,在本发明的第二方面的第七可执行方式中,所述方法还包括:根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
根据第二方面的第七可执行方式,在本发明的第二方面的第八可执行方式中,所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作,包括:确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
本发明的第三方面提供一种用于检测的装置,所述装置包括:第一接收模块,用于接收第一图像,所述第一图像包括至少一个人脸;第一处理器,用于对所述第一图像进行下述处理中的至少一个:检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;视线确定模块,用于将所述处理的结果输入第一神经网络,确定所述人脸的视线。
根据本发明的第三方面,在本发明的第三方面的第一可执行方式中,所述第一处理器,还用于根据所述人脸的视线确定所述人脸的视点,根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
根据本发明的第三方面,在本发明的第三方面的第一可执行方式中,所述第一处理器,具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
根据本发明的第三方面的第一可执行方式或第二可执行方式,在本发明的第三方面的第三可执行方式中,所述第一处理器,具体用于根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。
根据本发明的第三方面的第三可执行方式,在本发明的第三方面的第四可执行方式中,所述人脸的左眼和/或右眼的位置,包括:所述人脸的左眼和/或右眼的中心点的位置,所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。
根据本发明的第三方面的第四可执行方式,在本发明的第三方面的第五可执行方式中,所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到。
根据本发明的第三方面或本发明的第三方面的第一可执行方式到第五可执行方式任一,在本发明的第三方面的第六可执行方式中,所述第一处理器,具体用于确定出所述第一图像中包括所述左眼和/或右眼的图像。
根据本发明的第三方面或本发明的第三方面的第一可执行方式到第六可执行方式任一,在本发明的第三方面的第七可执行方式中,所述第一处理器,具体用于根据所述第一图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形,将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。
根据本发明的第三方面或本发明的第三方面的第一可执行方式到第七可执行方式任一,在本发明的第三方面的第八可执行方式中,所述第一处理器,具体用于根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标,根据拍摄所述第一图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
根据本发明的第三方面的第八可执行方式,在本发明的第三方面的第九可执行方式中,所述人脸的姿态通过旋转矩阵表示。
根据本发明的第三方面或本发明的第三方面的第一可执行方式到第八可执行方式中任一,在本发明的第三方面的第十可执行方式中,所述视线确定模块,具体用于:将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层,和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第一神经网络。
根据本发明的第三方面的第十可执行方式,在本发明的第三方面的第十一可执行方式中,所述第一神经网络包括:所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;所述第一全连接层的输出为第三全连接层的输入;所述第二全连接层与第三全连接层的输出为第四全连接层的输入;所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。
本发明的第四方面提供一种用于检测的装置,其特征在于,所述装置包括:第二接收模块,用于接收第三图像,所述第三图像包括至少一个人脸;第二处理器,用于对所述第三图像进行下述处理中的至少一个:检测所述第三图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;视点确定模块,用于将所述处理的结果输入第二神经网络,确定所述人脸的视点。
根据本发明的第四方面,在本发明的第四方面的第一可执行方式中,所述第二处理器,具体用于确定出所述第三图像中包括所述左眼和/或右眼的图像。
根据本发明的第四方面或第四方面的第一可执行方式,在本发明的第四方面的第二可执行方式中,所述第二处理器,具体用于根据所述第三图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形,将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。
根据本发明的第四方面或第四方面的第一可执行方式或第二可执行方式,在本发明的第四方面的第三可执行方式中,所述第二处理器,具体用于根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标,根据拍摄所述第三图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
根据本发明的第四方面的第三可执行方式,在本发明的第四方面的第四可执行方式中,所述人脸的姿态通过旋转矩阵表示。
根据本发明的第四方面或第四方面的第一可执行方式到第四可执行方式中任一,在本发明的第四方面的第五可执行方式中,所述视点确定模块,具体用于:将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层,和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第二神经网络。
根据本发明的第四方面的第五可执行方式,在本发明的第四方面的第六可执行方式中,所述第二神经网络包括:所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;所述第一全连接层的输出为第三全连接层的输入;所述第二全连接层与第三全连接层的输出为第四全连接层的输入;所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。
根据本发明的第四方面或本发明的第四方面的第一可执行方式到第六可执行方式中任一,在本发明的第四方面的第七可执行方式中,所述第二处理器,还用于根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
根据本发明的第四方面的第七可执行方式,在本发明的第四方面的第八可执行方式中,所述第二处理器,具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
本发明的第五方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被第三处理器执行时实现如本发明的第一方面、本发明的第一方面的第一可执行方式到本发明的第一方面的第十一可执行方式中任一可执行方式中或第二方面,或第二方面的第一可执行方式到本发明的第二方面的第八可执行方式中任一可执行方式中所述方法的步骤。
本发明的第六方面提供一种用于检测的装置,包括存储器、第四处理器以及存储在所述存储器中并可在所述第四处理器上运行的计算机程序,所述计算机程序被第四处理器执行时实现如本发明的第一方面、本发明的第一方面的第一可执行方式到本发明的第一方面的第十一可执行方式中任一可执行方式中或第二方面,或第二方面的第一可执行方式到本发明的第二方面的第八可执行方式中任一可执行方式中所述方法的步骤。
本发明提供的一种用于检测的方法和装置,能够使得终端对用户和/或其他人的视线进行检测。
附图说明
图1为本发明实施例一提供的一种用于检测的方法的流程图;
图2为本发明实施例一提供的一种人脸相对于摄像装置的位置的示意图;
图3为本发明实施例一提供的一种神经网络结构的示意图;
图4为本发明实施例二提供的一种用于检测的方法的流程图;
图5为本发明实施例二提供的一种神经网络的结构示意图;
图6为本发明实施例三提供的一种用于检测的装置结构示意图;
图7为本发明实施例四提供的一种用于检测的装置结构示意图;
图8为本发明实施例五提供的一种用于检测的装置结构示意图;
图9为本发明实施例六提供的一种用于检测的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述。
本发明的说明书和权利要求书中上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。
其中,本发明实施例中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或“例如”的任何实施例或设计方案不应该被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
应当说明的是,为了图示的简洁和清楚起见,附图中所示的元件没有必要按照比例进行绘制。例如,为了清楚,可以相对于其他元件,增大一些元件的尺寸。另外,在认为合适的地方,可以在附图间重复附图标记,以指示相对应或类似的元件。
下面结合附图1对本发明实施例一提供的一种用于检测的方法进行详细阐述。如图1所示,该方法包括:
步骤101,接收第一图像,所述第一图像包括至少一个人脸。
可选的,上述接收第一图像可以为从存储有第一图像的存储器接收,该存储器可以为ROM(Read-Only Memory,只读存储器)、RAM(random access memory,随机存取存储器)或flash(闪存)。第一图像可以是彩色图像,如RGB(red green blue红绿蓝)图像或黑白图像。该第一图像可以由终端的摄像头拍摄得到。
步骤102,对所述第一图像进行下述处理中的至少一个:检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态。
可选的,上述检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态三个动作执行的先后顺序不做限定,可以并行执行,也可以按照其他顺序执行。
步骤103,将所述处理的结果输入第一神经网络,确定所述人脸的视线。
所述方法还包括:根据所述人脸的视线确定所述人脸的视点,根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作,包括:确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。具体地,上述报警可以包括弹出有提示信息的信息框,或从终端的一侧出现有信息提示的的信息框,或通过震动或声音等方式进行报警。可选的,上述触发的终端的操作还可以包括触发应用,如,触发终端的照相或摄像模式开始,如触发终端的前置摄像头开始使用。这样,通过终端的摄像头获取周边人的视线,当发现有其他人的视线落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
可选的,所述检测所述第一图像中人脸的左眼和/或右眼包括:确定出所述第一图像中包括所述左眼和/或右眼的图像。可选的,上述包括所述左眼和/或右眼的图像可以为小的包括上述左眼和/或右眼的矩形图像。
可选的,所述估计人脸相对于摄像装置的位置,包括:根据所述第一图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形;将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。可选的,可以使用人脸数据库,如3DMM(3D MorphableModels,三维形变模型)数据库,标定出所述第一图像中的所述人脸的二维特征点的位置。并将包括所述外接矩形的第一图像归一化到25x25大小,并且二值化,如人脸区域为1(白色部分),其与区域为0(黑色部分),如图2所示。可选的,上述的外接矩形可以是近似的外接,即外接矩形的边接近上述人脸的特征点即可。
可选的,所述估计所述人脸的姿态,包括:根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标;根据拍摄所述第一图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上,如手机的前置摄像头。具体地,根据3DMM数据库以及所述第一图像可以估计出所述人脸的特征点的二维坐标和三维坐标。上述的人脸的特征点包括:眼睛的特征点,鼻子的特征点,嘴巴的特征点,眉毛的特征点等。拍摄所述第一图像的摄像装置的内部参数可以按照下述方法估计得到:
Cx=w/2;
Cy=h/2;
其中,Cx和Cy为主点坐标,w和h分别为所述第一图像的宽和高,fx和fy分别为焦距在x轴方向上的投影,和在y轴方向上的投影。根据得到的二维点和三维点的坐标可以估计出摄像装置的位姿为M=f(Cx,Cy,fx,fy,P2D,P3D),M=[R,T],其中R为旋转矩阵,T为平移矩阵,人脸的姿态可以通过该旋转矩阵表示。
可选的,所述根据所述人脸的视线确定所述人脸的视点,包括:根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。所述人脸的左眼和/或右眼的位置,包括:所述人脸的左眼和/或右眼的中心点的位置,所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到,人脸数据库可以如前述的3DMM数据库。
具体地,所述人脸的左眼和/或右眼的位置可以由前述得到的人眼的特征点的位置来表示,也可以通过左眼和/或右眼的中心点来表示。下述为获得该中心点的坐标的方法:
其中,为四个眼角点的三维坐标,Pcl为左眼的中心点的坐标,Pcr为右眼中心点的坐标。
将所述处理的结果输入第一神经网络,包括下述中的至少一个:将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层,和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第一神经网络。所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入,所述第一全连接层的输出为第三全连接层的输入,所述第二全连接层与第三全连接层的输出为第四全连接层的输入,所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。具体地,示例性的,图3示出了可以应用于本发明的一个第一神经网络的结构。示例性的,上述的第一全连接层的维度为256,第二全连接层的维度为128,第三全连接层的维度为128,第四全连接层的维度为128。图2中表示人脸相对于摄像装置的位置的图像的大小为25*25。上述的卷积层可以包括三个子层,大小分别为5*5/32,3*3/32,3*3/64。
通过上述的第一神经网络可以得到左眼和右眼的视线分别为V1和V2,通过下述的方法可以获得眼睛注视点的坐标:
Psl=Pcl+d1V1
Psr=Pcr+d2V2
其中,Psl为左眼注视点,Psr为右眼注视点,d1,d2为系数。
所以有:
其中,(xsl,ysl,zsl)为Psl的坐标,(xcl,ycl,zcl)为Pcl的坐标,(xv1,yv1,zv1)为V1的坐标。
可选的,在平板和手机设备上,摄像装置与屏幕处于同一平面,即屏幕上的点在摄像机坐标下z(深度值)=0,所以有:
zsl=zcl+d1zv1
d1=-zcl/zv1
同理有:
d2=-zcr/zv2
所以,注视点Psc=(Psr+Psl)/2。
上述的第一神经网络可以按照前述的结构和功能预先训练好,存储在终端中,当前置摄像装置拍摄第一图像后,可以很快获得至少一个人脸的视线和视点的位置。
在本实施例中,可以从神经网络输出至少一个人脸的视线的位置,处理时间快。另外,还可以计算至少一个人的视点的位置,当发现有其他人的视点落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
下面结合附图4对本发明实施例二提供的一种用于检测的方法进行详细阐述。如图4所示,该方法包括:
步骤401,接收第三图像,所述第三图像包括至少一个人脸。
步骤402,对所述第三图像进行下述处理中的至少一个:检测所述第三图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态。
可选的,上述检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态三个动作执行的先后顺序不做限定,可以并行执行,也可以按照其他顺序执行。
步骤403,将所述处理的结果输入第二神经网络,确定所述人脸的视点。
可选的,所述检测所述第三图像中人脸的左眼和/或右眼包括:确定出所述第三图像中包括所述左眼和/或右眼的图像。
可选的,所述估计人脸相对于摄像装置的位置,包括:根据所述第三图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形;将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。该第四图像可以参见图2。
可选的,所述估计所述人脸的姿态,包括:根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标;根据拍摄所述第三图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上,如手机的前置摄像头。所述人脸的姿态通过旋转矩阵表示。
可选的,将所述处理的结果输入第二神经网络,包括下述中的至少一个:将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层,和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第二神经网络。所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;所述第一全连接层的输出为第三全连接层的输入;所述第二全连接层与第三全连接层的输出为第四全连接层的输入;所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。示例性的,关于第二神经网络的结构可以参见图5。
可选的,根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作,包括:确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。这样,通过终端的摄像头获取周边人的视点,当发现有其他人的视点落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
关于本实施例中关于第二神经网络的结构和功能可以参见实施例一中关于第一神经网络的相关描述。本实施例中关于第三图像的处理可以参见实施例一中关于第一图像的处理的相关描述。本实施例中关于各个步骤的具体描述可以参见实施例一中的相关描述。
上述的第二神经网络可以按照前述的结构和功能预先训练好,存储在终端中,当前置摄像装置拍摄第三图像后,可以很快获得至少一个人脸的视点的位置。
在本实施例中,可以直接从神经网络输出至少一个人脸的视点的位置,处理时间快。
下面结合附图6对本发明实施例三提供的一种用于检测的装置600进行详细阐述。如图6所示,该装置600包括:
第一接收模块601,用于接收第一图像,所述第一图像包括至少一个人脸。
第一图像可以是彩色图像,如RGB图像或黑白图像。该第一图像可以由终端的摄像头拍摄得到。上述的接收模块601可以为从存储有第一图像的存储器接收,该存储器可以为ROM、RAM或flash。
第一处理器602,用于对所述第一图像进行下述处理中的至少一个:检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态。
可选的,上述检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态三个动作执行的先后顺序不做限定,可以并行执行,也可以按照其他顺序执行。
视线确定模块603,用于将所述处理的结果输入第一神经网络,确定所述人脸的视线。
所述第一处理器602,还用于根据所述人脸的视线确定所述人脸的视点,根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述第一处理器,具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。具体地,上述报警可以包括弹出有提示信息的信息框,或从终端的一侧出现有信息提示的的信息框,或通过震动或声音等方式进行报警。可选的,上述触发的终端的操作还可以包括触发应用,如,触发终端的照相或摄像模式开始,如触发终端的前置摄像头开始使用。这样,通过终端的摄像头获取周边人的视线,当发现有其他人的视线落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
可选的,所述第一处理器,具体用于确定出所述第一图像中包括所述左眼和/或右眼的图像。可选的,上述包括所述左眼和/或右眼的图像可以为小的包括上述左眼和/或右眼的矩形图像。
可选的,所述第一处理器,具体用于根据所述第一图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形,将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。可选的,可以使用人脸数据库,如3DMM(3D Morphable Models,三维形变模型)数据库,标定出所述第一图像中的所述人脸的二维特征点的位置。并将包括所述外接矩形的第一图像归一化到25x25大小,并且二值化,如人脸区域为1(白色部分),其与区域为0(黑色部分),如图2所示。可选的,上述的外接矩形可以是近似的外接,即外接矩形的边接近上述人脸的特征点即可。
可选的,所述第一处理器,具体用于根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标,根据拍摄所述第一图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上,如手机的前置摄像头。具体地,根据3DMM数据库以及所述第一图像可以估计出所述人脸的特征点的二维坐标和三维坐标。上述的人脸的特征点包括:眼睛的特征点,鼻子的特征点,嘴巴的特征点,眉毛的特征点等。拍摄所述第一图像的摄像装置的内部参数可以按照下述方法估计得到:
Cx=w/2;
Cy=h/2;
其中,Cx和Cy为主点坐标,w和h分别为所述第一图像的宽和高,fx和fy分别为焦距在x轴方向上的投影,和在y轴方向上的投影。根据得到的二维点和三维点的坐标可以估计出摄像装置的位姿为M=f(Cx,Cy,fx,fy,P2D,P3D),M=[R,T],其中R为旋转矩阵,T为平移矩阵,人脸的姿态可以通过该旋转矩阵表示。
所述第一处理器,具体用于根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。所述人脸的左眼和/或右眼的位置,包括:所述人脸的左眼和/或右眼的中心点的位置,所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到,人脸数据库可以如前述的3DMM数据库。
具体地,所述人脸的左眼和/或右眼的位置可以由前述得到的人眼的特征点的位置来表示,也可以通过左眼和/或右眼的中心点来表示。下述为获得该中心点的坐标的方法:
其中,为四个眼角点的三维坐标,Pcl为左眼的中心点的坐标,Pcr为右眼中心点的坐标。
所述视线确定模块,具体用于:将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层,和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第一神经网络。所述第一神经网络包括:所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;所述第一全连接层的输出为第三全连接层的输入;所述第二全连接层与第三全连接层的输出为第四全连接层的输入;所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。
具体地,示例性的,图3示出了可以应用于本发明的一个第一神经网络的结构。示例性的,上述的第一全连接层的维度为256,第二全连接层的维度为128,第三全连接层的维度为128,第四全连接层的维度为128。图2中表示人脸相对于摄像装置的位置的图像的大小为25*25。上述的卷积层可以包括三个子层,大小分别为5*5/32,3*3/32,3*3/64。
通过上述的第一神经网络可以得到左眼和右眼的视线分别为V1和V2,通过下述的方法可以获得眼睛注视点的坐标:
Psl=Pvl+d1V1
Psr=Pcr+d2V2
其中,Psl为左眼注视点,Psr为右眼注视点,d1,d2为系数。
所以有:
其中,(xsl,ysl,zsl)为Psl的坐标,(xcl,ycl,zcl)为Pcl的坐标,(xv1,yv1,zv1)为V1的坐标。
可选的,在平板和手机设备上,摄像装置与屏幕处于同一平面,即屏幕上的点在摄像机坐标下z(深度值)=0,所以有:
zsl=zcl+d1zv1
d1=-zcl/zv1
同理有:
d2=-zcr/zv2
所以,注视点Psc=(Psr+Psl)/2。
上述的第一神经网络可以按照前述的结构和功能预先训练好,存储在终端中,当前置摄像装置拍摄第一图像后,可以很快获得至少一个人脸的视线和视点的位置。
在本实施例中,可以从神经网络输出至少一个人脸的视线的位置,处理时间快。另外,还可以计算至少一个人的视点的位置,当发现有其他人的视点落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
下面结合附图7对本发明实施例四提供的一种用于检测的装置700进行详细阐述。如图7所示,该装置700包括:
第二接收模块701,用于接收第三图像,所述第三图像包括至少一个人脸.
第二处理器702,用于对所述第三图像进行下述处理中的至少一个:检测所述第三图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态。
可选的,上述检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态三个动作执行的先后顺序不做限定,可以并行执行,也可以按照其他顺序执行。
视点确定模块703,用于将所述处理的结果输入第二神经网络,确定所述人脸的视点。
可选的,所述第二处理器,具体用于确定出所述第三图像中包括所述左眼和/或右眼的图像。
所述第二处理器,具体用于根据所述第三图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形,将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。该第四图像可以参见图2。
所述第二处理器,具体用于根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标,根据拍摄所述第三图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。该摄像装置可以在终端上,如手机的前置摄像头。所述人脸的姿态通过旋转矩阵表示。
可选的,视点确定模块,具体用于:将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层,和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层;将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层;将估计所述人脸的姿态的结果输入所述第二神经网络。
可选的,所述第二神经网络包括:所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;所述第一全连接层的输出为第三全连接层的输入;所述第二全连接层与第三全连接层的输出为第四全连接层的输入;所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。示例性的,关于第二神经网络的结构可以参见图5。
所述第二处理器,还用于根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。所述第二处理器,具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。这样,通过终端的摄像头获取周边人的视点,当发现有其他人的视点落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
关于本实施例中关于第二神经网络的结构和功能可以参见实施例一或实施例三中关于第一神经网络的相关描述。本实施例中关于第三图像的处理可以参见实施例一或实施例三中关于第一图像的处理的相关描述。本实施例中关于装置的具体描述可以参见实施例一或实施例三中的相关描述。
上述的第二神经网络可以按照前述的结构和功能预先训练好,存储在终端中,当前置摄像装置拍摄第三图像后,可以很快获得至少一个人脸的视点的位置。
在本实施例中,可以直接从神经网络输出至少一个人脸的视点的位置,处理时间快。
下面结合图7具体描述本发明实施例五提供的一种用于检测的装置800,该装置800包括一种计算机可读存储介质801,所述计算机可读存储介质801存储有计算机程序,所述计算机程序被第三处理器802执行时实现如实施例一或实施例二中的方法的步骤。如图8所示,可选的,该装置800可以包括总线。
在本实施例中,可以直接从神经网络输出至少一个人脸的视点或视线的位置,处理时间快。通过终端的摄像头获取周边人的视点,当发现有其他人的视点落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
下面结合图9具体描述本发明实施例六提供的一种用于检测的装置900,该装置900包括存储器901、第四处理器902以及存储在所述存储器901中并可在所述第四处理器902上运行的计算机程序,所述计算机程序被第四处理器902执行时实现如实施例一或实施例二所述方法的步骤。可选的,如图所示,该装置900还包括总线。
在本实施例中,可以直接从神经网络输出至少一个人脸的视点或视线的位置,处理时间快。通过终端的摄像头获取周边人的视点,当发现有其他人的视点落在终端屏幕上时,可以进行上述的报警,防止他人偷窥用户的信息。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述装置/终端设备中的执行过程。
所述装置/终端设备可以是手机、平板电脑、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述装置/终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,本发明的示意图仅仅是装置/终端设备的示例,并不构成对装置/终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述装置/终端设备还可以包括输入输出设备、网络接入设备、总线等。
上述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述装置/终端设备的控制中心,利用各种接口和线路连接整个装置/终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述装置/终端设备的各种功能。所述存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
上述各个实施例中的目标物体的成像可以目标物体的局部成像,也可以整体成像。无论是局部成像,或整体成像都适用或对局部成像,或整体成像相应做出调整后适用本发明提供的方法或装置,上述调整本领域普通技术人员不需要付出创造性劳动,应属于本发明的保护范围。

Claims (44)

1.一种用于检测的方法,其特征在于,所述方法包括:
接收第一图像,所述第一图像包括至少一个人脸;
对所述第一图像进行下述处理中的至少一个:检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;
将所述处理的结果输入第一神经网络,确定所述人脸的视线。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述人脸的视线确定所述人脸的视点;
根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作,包括:
确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
4.根据权利要求2或3所述的方法,其特征在于,
所述根据所述人脸的视线确定所述人脸的视点,包括:
根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。
5.根据权利要求4所述的方法,其特征在于,
所述人脸的左眼和/或右眼的位置,包括:
所述人脸的左眼和/或右眼的中心点的位置,所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。
6.根据权利要求5所述的方法,其特征在于,
所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到。
7.根据权利要求1-6任一权利要求所述的方法,其特征在于,
所述检测所述第一图像中人脸的左眼和/或右眼包括:
确定出所述第一图像中包括所述左眼和/或右眼的图像。
8.根据权利要求1-7任一权利要求所述的方法,其特征在于,
所述估计人脸相对于摄像装置的位置,包括:
根据所述第一图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形;
将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。
9.根据权利要求1-8任一权利要求所述的方法,其特征在于,
所述估计所述人脸的姿态,包括:
根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标;
根据拍摄所述第一图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
10.根据权利要求9所述的方法,其特征在于,
所述人脸的姿态通过旋转矩阵表示。
11.根据权利要求1-10任一权利要求所述的方法,其特征在于,
将所述处理的结果输入第一神经网络,包括下述中的至少一个:
将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层,和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层;
将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层;
将估计所述人脸的姿态的结果输入所述第一神经网络。
12.根据权利要求11所述的方法,其特征在于,所述第一神经网络包括:
所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;
所述第一全连接层的输出为第三全连接层的输入;
所述第二全连接层与第三全连接层的输出为第四全连接层的输入;
所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。
13.一种用于检测的方法,其特征在于,所述方法包括:
接收第三图像,所述第三图像包括至少一个人脸;
对所述第三图像进行下述处理中的至少一个:检测所述第三图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;
将所述处理的结果输入第二神经网络,确定所述人脸的视点。
14.根据权利要求13所述的方法,其特征在于,
所述检测所述第三图像中人脸的左眼和/或右眼包括:
确定出所述第三图像中包括所述左眼和/或右眼的图像。
15.根据权利要求13或14所述的方法,其特征在于,
所述估计人脸相对于摄像装置的位置,包括:
根据所述第三图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形;
将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。
16.根据权利要求13-15任一权利要求所述的方法,其特征在于,
所述估计所述人脸的姿态,包括:
根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标;
根据拍摄所述第三图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
17.根据权利要求16所述的方法,其特征在于,
所述人脸的姿态通过旋转矩阵表示。
18.根据权利要求13-17任一权利要求所述的方法,其特征在于,
将所述处理的结果输入第二神经网络,包括下述中的至少一个:
将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层,和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层;
将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层;
将估计所述人脸的姿态的结果输入所述第二神经网络。
19.根据权利要求18所述的方法,其特征在于,所述第二神经网络包括:
所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;
所述第一全连接层的输出为第三全连接层的输入;
所述第二全连接层与第三全连接层的输出为第四全连接层的输入;
所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。
20.根据权利要求13-19任一权利要求所述的方法,其特征在于,所述方法还包括:
根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
21.根据权利要求20所述的方法,其特征在于,
所述根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作,包括:
确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
22.一种用于检测的装置,其特征在于,所述装置包括:
第一接收模块,用于接收第一图像,所述第一图像包括至少一个人脸;
第一处理器,用于对所述第一图像进行下述处理中的至少一个:检测所述第一图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;
视线确定模块,用于将所述处理的结果输入第一神经网络,确定所述人脸的视线。
23.根据权利要求22所述的装置,其特征在于,
所述第一处理器,还用于根据所述人脸的视线确定所述人脸的视点,根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
24.根据权利要求23所述的装置,其特征在于,
所述第一处理器,具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
25.根据权利要求23或24所述的装置,其特征在于,
所述第一处理器,具体用于根据所述人脸的视线、所述人脸的左眼和/或右眼的位置以及摄像装置与终端屏幕的位置关系确定所述人脸的视点。
26.根据权利要求25所述的装置,其特征在于,
所述人脸的左眼和/或右眼的位置,包括:
所述人脸的左眼和/或右眼的中心点的位置,所述人脸的左眼和/或右眼的中心点的位置由所述人脸的左眼和/或右眼的眼角点的位置计算得到。
27.根据权利要求26所述的装置,其特征在于,
所述眼角点的位置为根据所述第一图像以及人脸数据库拟合得到。
28.根据权利要求22-27任一权利要求所述的装置,其特征在于,
所述第一处理器,具体用于确定出所述第一图像中包括所述左眼和/或右眼的图像。
29.根据权利要求22-28任一权利要求所述的装置,其特征在于,
所述第一处理器,具体用于根据所述第一图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形,将所述外接矩形以及所述第一图像归一化并且二值化为第二图像。
30.根据权利要求22-29任一权利要求所述的装置,其特征在于,
所述第一处理器,具体用于根据所述第一图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标,根据拍摄所述第一图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
31.根据权利要求30所述的装置,其特征在于,
所述人脸的姿态通过旋转矩阵表示。
32.根据权利要求22-31任一权利要求所述的装置,其特征在于,
所述视线确定模块,具体用于:
将检测所述第一图像中人脸的左眼的结果输入所述第一神经网络的第一卷积层,和/或,将检测所述第一图像中人脸的右眼的结果输入所述第一神经网络的第二卷积层;
将估计人脸相对于摄像装置的位置的结果输入所述第一神经网络的第一全连接层;
将估计所述人脸的姿态的结果输入所述第一神经网络。
33.根据权利要求32所述的装置,其特征在于,
所述第一神经网络包括:
所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;
所述第一全连接层的输出为第三全连接层的输入;
所述第二全连接层与第三全连接层的输出为第四全连接层的输入;
所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视线的结果的输入。
34.一种用于检测的装置,其特征在于,所述装置包括:
第二接收模块,用于接收第三图像,所述第三图像包括至少一个人脸;
第二处理器,用于对所述第三图像进行下述处理中的至少一个:检测所述第三图像中人脸的左眼和/或右眼,估计人脸相对于摄像装置的位置,以及估计所述人脸的姿态;
视点确定模块,用于将所述处理的结果输入第二神经网络,确定所述人脸的视点。
35.根据权利要求34所述的装置,其特征在于,
所述第二处理器,具体用于确定出所述第三图像中包括所述左眼和/或右眼的图像。
36.根据权利要求34或35所述的装置,其特征在于,
所述第二处理器,具体用于根据所述第三图像检测所述人脸的特征点,确定包括所述人脸的特征点的外接矩形,将所述外接矩形以及所述第三图像归一化并且二值化为第四图像。
37.根据权利要求34-36任一权利要求所述的装置,其特征在于,
所述第二处理器,具体用于根据所述第三图像以及人脸数据库检测所述人脸的二维特征点以及三维特征点的坐标,根据拍摄所述第三图像的摄像装置的内部参数,以及所述人脸的二维特征点以及三维特征点估计所述人脸的姿态。
38.根据权利要求37所述的装置,其特征在于,
所述人脸的姿态通过旋转矩阵表示。
39.根据权利要求34-38中任一权利要求所述的装置,其特征在于,
所述视点确定模块,具体用于:
将检测所述第三图像中人脸的左眼的结果输入所述第二神经网络的第一卷积层,和/或,将检测所述第三图像中人脸的右眼的结果输入所述第二神经网络的第二卷积层;
将估计人脸相对于摄像装置的位置的结果输入所述第二神经网络的第一全连接层;
将估计所述人脸的姿态的结果输入所述第二神经网络。
40.根据权利要求39所述的装置,其特征在于,
所述第二神经网络包括:
所述第一卷积层与所述第二卷积层的输出为第二全连接层的输入;
所述第一全连接层的输出为第三全连接层的输入;
所述第二全连接层与第三全连接层的输出为第四全连接层的输入;
所述估计所述人脸的姿态的结果与所述第四全连接层的输出为所述人脸的视点的结果的输入。
41.根据权利要求34-40任一权利要求所述的装置,其特征在于,
所述第二处理器,还用于根据所述人脸的视点相对于终端屏幕的位置触发所述终端的操作。
42.根据权利要求41所述的装置,其特征在于,
所述第二处理器,具体用于确定除用户外的其他人脸的视点位于所述终端屏幕上,所述终端进行报警。
43.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被第三处理器执行时实现如权利要求1-21任一权利要求所述方法的步骤。
44.一种用于检测的装置,包括存储器、第四处理器以及存储在所述存储器中并可在所述第四处理器上运行的计算机程序,其特征在于,所述计算机程序被第四处理器执行时实现如权利要求1-21任一权利要求所述方法的步骤。
CN201711024466.5A 2017-10-27 2017-10-27 一种用于检测的方法和装置 Active CN109726613B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711024466.5A CN109726613B (zh) 2017-10-27 2017-10-27 一种用于检测的方法和装置
US16/171,369 US11017557B2 (en) 2017-10-27 2018-10-26 Detection method and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711024466.5A CN109726613B (zh) 2017-10-27 2017-10-27 一种用于检测的方法和装置

Publications (2)

Publication Number Publication Date
CN109726613A true CN109726613A (zh) 2019-05-07
CN109726613B CN109726613B (zh) 2021-09-10

Family

ID=66244121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711024466.5A Active CN109726613B (zh) 2017-10-27 2017-10-27 一种用于检测的方法和装置

Country Status (2)

Country Link
US (1) US11017557B2 (zh)
CN (1) CN109726613B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116647A (zh) * 2019-06-19 2020-12-22 虹软科技股份有限公司 估重方法和估重装置
CN112541454A (zh) * 2020-12-21 2021-03-23 的卢技术有限公司 一种用于视线估计的卷积神经网络设计方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756334B2 (en) * 2021-02-25 2023-09-12 Qualcomm Incorporated Facial expression recognition

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040240711A1 (en) * 2003-05-27 2004-12-02 Honeywell International Inc. Face identification verification using 3 dimensional modeling
US20100189358A1 (en) * 2007-06-18 2010-07-29 Canon Kabushiki Kaisha Facial expression recognition apparatus and method, and image capturing apparatus
CN102610035A (zh) * 2012-04-05 2012-07-25 广州广电运通金融电子股份有限公司 金融自助设备及其防偷窥系统和方法
CN102830793A (zh) * 2011-06-16 2012-12-19 北京三星通信技术研究有限公司 视线跟踪方法和设备
CN103218579A (zh) * 2013-03-28 2013-07-24 东莞宇龙通信科技有限公司 一种防止屏幕内容被偷窥的方法及其移动终端
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN105426827A (zh) * 2015-11-09 2016-03-23 北京市商汤科技开发有限公司 活体验证方法、装置和系统
CN105827820A (zh) * 2015-12-25 2016-08-03 维沃移动通信有限公司 一种移动终端的防偷窥方法及移动终端
CN107122705A (zh) * 2017-03-17 2017-09-01 中国科学院自动化研究所 基于三维人脸模型的人脸关键点检测方法
CN107194288A (zh) * 2017-04-25 2017-09-22 上海与德科技有限公司 显示屏的控制方法及终端

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040240711A1 (en) * 2003-05-27 2004-12-02 Honeywell International Inc. Face identification verification using 3 dimensional modeling
US20100189358A1 (en) * 2007-06-18 2010-07-29 Canon Kabushiki Kaisha Facial expression recognition apparatus and method, and image capturing apparatus
CN102830793A (zh) * 2011-06-16 2012-12-19 北京三星通信技术研究有限公司 视线跟踪方法和设备
CN102610035A (zh) * 2012-04-05 2012-07-25 广州广电运通金融电子股份有限公司 金融自助设备及其防偷窥系统和方法
CN103218579A (zh) * 2013-03-28 2013-07-24 东莞宇龙通信科技有限公司 一种防止屏幕内容被偷窥的方法及其移动终端
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN105426827A (zh) * 2015-11-09 2016-03-23 北京市商汤科技开发有限公司 活体验证方法、装置和系统
CN105827820A (zh) * 2015-12-25 2016-08-03 维沃移动通信有限公司 一种移动终端的防偷窥方法及移动终端
CN107122705A (zh) * 2017-03-17 2017-09-01 中国科学院自动化研究所 基于三维人脸模型的人脸关键点检测方法
CN107194288A (zh) * 2017-04-25 2017-09-22 上海与德科技有限公司 显示屏的控制方法及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱博: "视线追踪技术及其在驾驶员与乘客监测系统中的应用研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116647A (zh) * 2019-06-19 2020-12-22 虹软科技股份有限公司 估重方法和估重装置
CN112116647B (zh) * 2019-06-19 2024-04-05 虹软科技股份有限公司 估重方法和估重装置
CN112541454A (zh) * 2020-12-21 2021-03-23 的卢技术有限公司 一种用于视线估计的卷积神经网络设计方法

Also Published As

Publication number Publication date
US20190130600A1 (en) 2019-05-02
CN109726613B (zh) 2021-09-10
US11017557B2 (en) 2021-05-25

Similar Documents

Publication Publication Date Title
CN108764091B (zh) 活体检测方法及装置、电子设备和存储介质
Milborrow et al. The MUCT landmarked face database
TWI554976B (zh) 監控系統及其影像處理方法
USRE47925E1 (en) Method and multi-camera portable device for producing stereo images
KR102118000B1 (ko) 타겟 대상 표시 방법 및 디바이스
WO2018107910A1 (zh) 一种全景视频融合方法及装置
US20120162384A1 (en) Three-Dimensional Collaboration
US11330172B2 (en) Panoramic image generating method and apparatus
US11176355B2 (en) Facial image processing method and apparatus, electronic device and computer readable storage medium
CN109325933A (zh) 一种翻拍图像识别方法及装置
KR20190038594A (ko) 얼굴 인식-기반 인증
CN108319953A (zh) 目标对象的遮挡检测方法及装置、电子设备及存储介质
EP3992919A1 (en) Three-dimensional facial model generation method and apparatus, device, and medium
CN111857329A (zh) 注视点计算方法、装置及设备
WO2020024737A1 (zh) 生成人脸识别的负样本的方法、装置及计算机设备
CN109299658B (zh) 脸部检测方法、脸部图像渲染方法、装置及存储介质
JP2022550948A (ja) 3次元顔モデル生成方法、装置、コンピュータデバイス及びコンピュータプログラム
CN109840881A (zh) 一种3d特效图像生成方法、装置及设备
CN109670390A (zh) 活体面部识别方法与系统
CN110602379A (zh) 一种拍摄证件照的方法、装置、设备及存储介质
CN106228530B (zh) 一种立体摄影方法、装置及立体摄影设备
CN109726613A (zh) 一种用于检测的方法和装置
CN106778660B (zh) 一种人脸姿态校正方法及装置
TW201220253A (en) Image calculation method and apparatus
CN112882576B (zh) Ar交互方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant