CN110969109A - 一种非受限条件下眨眼检测模型及其构建方法和应用 - Google Patents

一种非受限条件下眨眼检测模型及其构建方法和应用 Download PDF

Info

Publication number
CN110969109A
CN110969109A CN201911171263.8A CN201911171263A CN110969109A CN 110969109 A CN110969109 A CN 110969109A CN 201911171263 A CN201911171263 A CN 201911171263A CN 110969109 A CN110969109 A CN 110969109A
Authority
CN
China
Prior art keywords
blink
training
sample
network
eye
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911171263.8A
Other languages
English (en)
Other versions
CN110969109B (zh
Inventor
肖阳
胡桂雷
曹治国
朱子豪
王焱乘
姜文祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911171263.8A priority Critical patent/CN110969109B/zh
Publication of CN110969109A publication Critical patent/CN110969109A/zh
Application granted granted Critical
Publication of CN110969109B publication Critical patent/CN110969109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种非受限条件下眨眼检测模型及其构建方法和应用,构建方法包括:获取多个训练样本,每个训练样本包括连续多帧图像及每帧图像的人脸和人眼位置信息;采用训练样本预训练眼部信息挖掘网络;从每帧图像内抠取人脸图片并确定其内人眼中心坐标;采用预训练眼部信息挖掘网络挖掘每张人脸图片的特征信息丰富人眼区域;基于每个训练样本对应的所有上述人眼区域训练眨眼检测网络,得到各训练样本的检测结果;基于当前眨眼检测网络及其对各训练样本的检测结果,采用即时奖励,控制当前眼部信息挖掘网络强化学习,基于新的眼部信息挖掘网络,重复上述,直至达到预设条件。本发明在非受限条件下进行眨眼检测,极大提高了眨眼检测的精度和效率。

Description

一种非受限条件下眨眼检测模型及其构建方法和应用
技术领域
本发明属于数字图像识别技术领域,更具体地,涉及一种非受限条件下眨眼检测模型及其构建方法和应用。
背景技术
眼睛是心灵的窗户,眨眼检测也是一种反应受试个体当前行为状态的良好行为交互方式。其在现实生活中有着广泛的应用,如医疗系统中的干眼症恢复,刑侦系统中测谎等应用场景。
目前,主要的眨眼检测算法主要分为以下三种:一种基于特征点位置特征的方法,该方法基于眼部密集关键点位置信息,提取特征(如EAR),再利用分类器(SVM,Adboost等)进行训练,得出判定当前眼睛的睁闭状态;另一种是基于手工特征(LBP,HOG,SIFT等)提取特征进行眨眼检测,最后一种是直接利用人工规则进行检测(如hough变换检测瞳孔,“红眼效应”等)。
上述方法存在以下缺陷,对于第一种方法,除了眨眼,眼部关键点位置也受姿态、环境光、拍摄角度、人物眼睛大小等因素影响。因此该方法仅在严格受限的情形下有较好的表现。另一种算法是手工特征,其并不是针对眨眼检测这种细粒化识别人物设计的,因此这些特征在自然条件下存在模型能力不足,表现不佳的问题。其余基于人工规则的方法有着鲁棒性差或是存在特殊设备条件和人员配合的要求,因此很难应用于实践。
发明内容
本发明提供一种非受限条件下眨眼检测模型及其构建方法和应用,用以解决现有眨眼检测因需要受限各种条件而存在保证检测精度的条件下检测效率不高的技术问题。
本发明解决上述技术问题的技术方案如下:一种非受限条件下眨眼样本检测模型构建方法,包括:
S1、获取多个训练样本及其眨眼与否的标签,每个训练样本包括连续的多帧图像以及每帧图像的人脸位置信息和人眼位置信息;
S2、基于各训练样本中各帧图像的人脸位置信息和人眼位置信息,预训练眼部信息挖掘网络,其输入为人脸图片、输出为表征人眼位置的热图;从每个训练样本中的每帧图像内抠取人脸图片并确定其内人眼中心坐标;
S3、采用所述预训练的眼部信息挖掘网络,为每张人脸图片生成对应的热图;将每张人脸图片与其对应的热图点乘,之后基于该张人脸图片对应的人眼中心坐标,从点乘后的人脸图片中抠取人眼图片;
S4、基于每个训练样本对应的所有人眼图片和所有所述标签,训练基于数据驱动的眨眼检测网络,得到各训练样本的检测结果;
S5、基于当前眨眼检测网络及其对各训练样本的检测结果,采用即时奖励,控制当前眼部信息挖掘网络强化学习,基于新的眼部信息挖掘网络,重复S3,直至达到预设条件,得到眨眼样本检测模型。
本发明的有益效果是:本发明引入一种非受限条件下眨眼样本检测模型的构建方法,首先对每个训练样本设置眨眼与否的标签,以用于训练眨眼样本检测模型,另外,提取每个训练样本中各帧图像的人脸图片,并为每个人脸图片构建一个标志人眼位置的热图,以人脸图片为输入、以其一一对应的热图为输出,预训练一个映射关系,即得到眼部信息挖掘网络。在当前眼部信息挖掘网络之下,分别采用当前眼部信息挖掘网络对每个训练样本的各帧图像进行人眼图片构建,具体通过人脸图片点乘当前眼部信息挖掘网络得到的该人脸图片对应的热图,得到一个凸显人眼部位、弱化脸部其它部位的人脸图片,基于处理的人脸图片进行眨眼检测网络的训练,由于热图对原人脸图片进行像素级的加权处理,能够有利于更加精细化的凸显有用信息(也即眼部信息),抑制背景噪声,从而有利于待构建的眨眼检测模型的眨眼检测。其次,眨眼检测网络训练后,采用强化学习的方式,基于即时奖励对当前的眼部信息挖掘网络进行训练,为每个人脸图片生成新的热图,该种训练方式可以直接指导训练梯度,避免梯度弥散,训练时不需要显示给出热图标签。由于在眼部信息区域训练时缺乏训练需要的标签,直接训练不易进行,因此本发明利用眨眼检测网络的表现而生成即时奖励,结合强化学习手段对眼部信息区域挖掘网络进行有效训练。因此,本发明在非受限条件下进行眨眼检测,极大提高了眨眼样本检测的精度、稳定性及检测效率,解决了现有眨眼检测方法受限于各种条件而存在保证检测精度的条件下检测效率不高的技术问题。
上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述预训练眼部信息挖掘网络,具体为:
基于每个训练样本中每帧图像的所述人脸位置信息,提取该帧图像的人脸图片,并初始化一张与该人脸图片大小相同的热图;
基于每帧图像的所述人眼位置信息,修改该帧图像对应的热图中人眼中心点处的值并采用高斯核模糊该热图,得到高斯模糊热图;
以所述提取的每张人脸图片为输入、以其对应的所述高斯模糊热图为输出,预训练眼部信息挖掘网络。
本发明的进一步有益效果是:首先确定每帧图像中的人脸位置和人眼位置,基于人脸和人眼位置,构建一张高斯模糊热图,该高斯模糊热图能够明显表征人眼的位置区域,基于人脸图片和其对应的热图,训练一个人脸图片和热图之间的映射关系,采用映射关系以挖掘每张人脸图片中的眼部特征信息丰富区域,可靠性高。
进一步,所述从每个训练样本中的每帧图像内抠取人脸图片并确定其内的人眼中心坐标,具体为:
采用人脸解析算法和双线性插值法,确定每个训练样本中每帧图像的人脸位置和人眼位置;
基于每帧图像的人脸位置,抠取该帧图像中的人脸图片;
调整每个训练样本中所有帧图像对应的人脸图片为统一尺寸,并基于所述人眼位置,确定所述统一尺寸后的每张人脸图片中的人眼中心坐标。
本发明的进一步有益效果是:本发明采用人脸解析算法smooth-agent和双线性插值两种方法,互相辅助确定每帧图像的人脸图片,提高训练、检测的可靠性。
进一步,所述眨眼检测网络包括深度卷积神经网络和Net-vlad网络。
本发明的进一步有益效果是:本发明采用深度卷积神经网络,提取深度特征向量,以数据驱动的方式,能够训练出更加适用于眨眼检测的眨眼检测网络,其次,利用Net-vlad网络对于深度卷积神经网络的结果进行加权融合,可以选择性的从一个样本中挑选出有利于解决眨眼检测的帧,降低眨眼可能发生在样本中不同时刻的带来的检测准确率降低的影响。
进一步,所述S4包括:
采用深度卷积神经网络,提取每张人眼图片的特征向量;基于每个训练样本中所有的特征向量,构建该训练样本的多个双流特征向量;采用Net-vlad网络,对每个训练样本的所述多个双流特征向量编码,得到该训练样本的一个行为特征向量;采用全连接层对每个行为特征向量回归,得到一个表征眨眼与否的二维向量;基于多个训练样本的二维向量,采用A-softmax,调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数,重复上述过程,直至达到预设终止条件,得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的二维向量。
本发明的进一步有益效果是:采用双流特征向量能够同时捕捉眼部区域的纹理信息和眨眼行为的运动信息,另外,采用A-softmax损失训练网络,有利于提高正负样本分布之间的间隔,提升模型的泛化性。
进一步,所述构建该训练样本的多个双流特征向量,具体为:
将每个训练样本中所有人眼图片对应的深度卷积神经网络得到的特征向量,依序从第二个特征向量开始,每个特征向量与其前一个特征向量对位相减,得到一个差值特征向量,将该差值特征向量串接在当前特征向量的后面,构成一个双流特征向量。
本发明的进一步有益效果是:采用差值特征构建双流特征向量,降低计算复杂度,提高计算效率。
本发明还提供一种非受限条件下眨眼时刻检测模型构建方法,包括:
采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型,得到多个眨眼样本;
以所有眨眼样本为训练样本,以每个眨眼样本中的眨眼起始帧信息和眨眼终止帧信息作为每个训练样本的标签,采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法,构建眨眼时刻检测模型;
其中,训练眨眼检测网络时,分别以每个训练样本的中心帧为中心,构建该训练样本的多个由多个相邻帧组成的子样本,采用眨眼检测网络对该训练样本对应的多个子样本分别进行眨眼预测并对该训练样本对应的所有预测结果加权融合,得到该训练样本的眨眼检测结果。
本发明的有益效果是:本发明采用如上述任一种非受限条件下眨眼样本检测模型构建方法的构建方法来构建眨眼时刻检测模型,能够有效保证检测的效率和精度,然而由于眨眼具体时刻是一个时序过程,在眨眼样本中进行眨眼时刻检测,检测难度大,检测精度要求高,本发明对于已经确定发生眨眼的眨眼样本,构建多个由时序帧图像构成的子样本,提取多个子样本的特征,以提供更加丰富的时序信息,并进行加权融合,从而确定出眨眼样本中眨眼行为具体发生的时刻,这种采用加权融合多时序特征检测结果来确定眨眼发生位置的方式,保证了眨眼时刻检测的精确度、稳定性和效率,极大提高了眨眼时刻检测的精度、效率及稳定性,解决了现有眨眼检测方法受限于各种条件而存在可靠性不高的技术问题。
本发明还提供一种眨眼检测模型,采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型和/或采用如上所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型。
本发明的有益效果是:本发明的检测模型为采用如上方法构建得到的模型,模型检测精度高、稳定性好。
本发明还提供一种眨眼检测方法,包括:
获取视频流,采用时间窗,按照时间方向并以预设滑动步长,从所述视频流中获取多个检测样本;
采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型,确定每个检测样本的眨眼概率,和/或,采用如上所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型,确定每个检测样本的起止帧,完成非受限条件下的眨眼检测。
本发明的有益效果是:采用上述方法对视频流进行眨眼时刻或眨眼时间区间(时间窗)的检测,可靠性高。
本发明还提供一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一种非受限条件下眨眼样本检测模型构建方法和/或如上述任一种非受限条件下眨眼时刻检测模型构建方法。
附图说明
图1为本发明实施例提供的一种非受限条件下眨眼样本检测模型构建方法的流程框图;
图2为本发明实施例提供的提取双流特征向量的方法流程示意图;
图3为图2对应的基于第t帧特征向量提取第t帧双流特征向量的流程示意图;
图4为本发明实施例提供的利用多个不同时间大小的串联双流特征向量进行眨眼检测和具体位置定位的流程示意图;
图5为本发明实施例提供的基于眨眼概率曲线确定眨眼位置的示意图;
图6为本发明实施例提供的基于挖掘眼部特征信息丰富区域的非受限条件下眨眼检测方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
一种非受限条件下眨眼样本检测模型构建方法100,如图1所示,包括:
步骤110、获取多个训练样本及其眨眼与否的标签,每个训练样本包括连续的多帧图像以及每帧图像的人脸位置信息和人眼位置信息;
步骤120、基于各训练样本中各帧图像的人脸位置信息和人眼位置信息,预训练眼部信息挖掘网络,其输入为人脸图片、输出为表征人眼位置的热图;从每个训练样本中的每帧图像内抠取人脸图片并确定其内人眼中心坐标;
步骤130、采用预训练的眼部信息挖掘网络,为每张人脸图片生成对应的高斯模糊热图;将每张人脸图片与其对应的热图点乘,之后基于该张人脸图片对应的人眼中心坐标,从点乘后的人脸图片中抠取人眼图片;
步骤140、基于每个训练样本对应的所有人眼图片和所有标签,训练基于数据驱动的眨眼检测网络,得到各训练样本的检测结果;
步骤150、基于当前眨眼检测网络及其对各训练样本的检测结果,采用即时奖励,控制当前眼部信息挖掘网络强化学习,基于新的眼部信息挖掘网络,重复步骤130,直至达到预设条件,得到眨眼样本检测模型。
其中,步骤140可采用二范数误差损失进行回传训练。
另外,步骤110之前,可建立一个非受限(人体属性包括姿态、动作;环境光和拍摄角度等均有较大变化)时序眨眼数据集,包含N1个眨眼样本(正样本)和N2个非眨眼样本(负样本),每个样本中包含n帧标注好人脸和人眼位置的图像,利用数据库中的图像和人脸、人眼位置,预训练眼部信息区域挖掘网络。需要说明的是,本发明在非受限样本下进行训练,虽然样本内各帧图像之间有各种外界因素变化,但这些变化在一般眨眼检测中均会影响眨眼检测效率和精度,然而本实施例方法不受这些因素影响,能够准确、可靠的进行眨眼检测,这是因为:
本方法首先对每个训练样本设置眨眼与否的标签,以用于训练眨眼样本检测模型,另外,提取每个训练样本中各帧图像的人脸图片,并为每个人脸图片构建一个标志人眼位置的热图,以人脸图片为输入、以其一一对应的热图为输出,预训练一个映射关系,即得到眼部信息挖掘网络。在当前眼部信息挖掘网络之下,分别采用当前眼部信息挖掘网络对每个训练样本的各帧图像进行人眼图片构建,具体通过人脸图片点乘当前眼部信息挖掘网络得到的该人脸图片对应的热图,得到一个凸显人眼部位、弱化脸部其它部位的人脸图片,基于处理的人脸图片进行眨眼检测网络的训练,由于热图对原人脸图片进行像素级的加权处理,能够有利于更加精细化的凸显有用信息(也即眼部信息),抑制背景噪声,从而有利于待构建的眨眼检测模型的眨眼检测。其次,眨眼检测网络训练后,采用强化学习的方式,基于即时奖励对当前的眼部信息挖掘网络进行训练,为每个人脸图片生成新的热图,该种训练方式可以直接指导训练梯度,避免梯度弥散,训练时不需要显示给出热图标签。由于在眼部信息区域训练时缺乏训练需要的标签,直接训练不易进行,因此本发明利用眨眼检测网络的表现而生成即时奖励,结合强化学习手段对眼部信息区域挖掘网络进行有效训练。因此,本方法在非受限条件下进行眨眼检测,极大提高了眨眼样本检测的精度、效率及稳定性,解决了现有眨眼检测方法受限于各种条件而存在检测可靠性不高的技术问题。
优选的,上述预训练眼部信息挖掘网络,具体为:
基于每个训练样本中每帧图像的人脸位置信息,提取该帧图像的人脸图片,并初始化一张与该人脸图片大小相同、值为0的热图;
基于每帧图像的人眼位置信息,将该帧图像对应的热图中的人眼中心点处的值置1并采用高斯核模糊该热图,得到高斯模糊热图;
以每张所述人脸图片为输入、以其对应的高斯模糊热图为输出,预训练眼部信息挖掘网络。
例如,每个训练样本中10帧包含人脸图片,利用标定的人脸位置信息,提取人脸图片Facei,并初始化一个与人脸区域大小相同、值为零的热图Heatmapi(i=1,2,..1.0)。利用标定的人眼位置信息,将热图Heatmapi(i=1,2,...10)中人眼中心点的坐标置1、并利用半径为15的高斯核模糊该热图,得到高斯模糊热图。将每一帧的人脸图像Facei为输入,以其高斯模糊热图Heatmapi为输出,预训练眼部信息挖掘网络。
优选的,上述从每个训练样本中的每帧图像内抠取人脸图片并确定其内的人眼中心坐标,具体为:
采用人脸解析算法smooth-agent和双线性插值法,确定每个训练样本中每帧图像的人脸位置和人眼位置;
基于每帧图像的人脸位置,抠取该帧图像的人脸图片;
调整每个训练样本中所有帧图像对应的人脸图片为统一尺寸,并确定人眼中心坐标值。
将每个样本中每一帧输入基于MTCNN的smooth-agent,定位出每一帧图像中人脸区域和人眼中心坐标。先提取人脸图片并调整到指定大小,人眼中心坐标也做相应调整后,以其中心为人眼区域中心,划定人眼区域。Smooth-agent是基于人脸关键点定位算法实现的定位眼睛的模块。
需要说明的是,由于Smooth-agent中检测人脸的算法并不能做到百分百的检测成功,对于一些姿态变化很大或是光照条件很不好等的样本,有时检测不出人脸,因此在采用smooth-agent时,可能有每个训练样本中的一些帧能够成功检测出人脸框和人眼的位置,有些帧不能检测出人脸。对于没有检测出人脸的第i帧,选取检测成功的相邻两帧(si-1,si+1)中的人脸框位置和人眼位置,采用双线性插值,确定第i帧的人脸框位置facei和人眼位置Eyei,详细如下:
Figure BDA0002288780240000101
利用每帧的人脸位置,提取所有帧的人脸图片Facei(i=1,2,...10),并将所有的人脸图片大小统一调整到宽度为256像素、高度为192像素,人眼的坐标Eyei(i=1,2,...10)也进行相应的调整(在统一调整的人脸图像后,得到新的人眼中心坐标值)。另外,步骤130得到的每个人眼图片的尺寸也相同,例如,以人眼坐标中心为眼部区域的中心,从人脸图片中提取宽和高为100的区域,作为人眼图片,每个训练样本对应的所有人眼图片的尺寸相同。
步骤130中,利用上述预训练好的眼部信息挖掘网络(映射),输入人脸图片Facei(每帧仅有一张人脸图片),输出该人脸图片的对应热图Heatmapi,作为初始的需要关注的眼部信息区域(热图表示:每个像素点需要给多大的权重,可抑制背景噪声,突出有用信息)。将人脸图片Facei与其对应热图Heatmapi进行点乘,得到处理后的人脸图片
Figure BDA0002288780240000111
该人脸图片
Figure BDA0002288780240000112
中,人眼位置的像素值增强,人眼凸显。从每张人脸图片
Figure BDA0002288780240000113
中基于其对应的上述得到的新的人眼中心位置,提取出人眼图片,即为特征信息丰富的人眼区域IERi(informative eye region)。
优选的,上述眨眼检测网络包括深度卷积神经网络和Net-vlad网络。
例如,深度卷积神经网络(CNN),一共可有3个卷积层,每个卷积层后接一个BN层(防止网络梯度消失)和max-pooling层(具有一定的平移不变性),输出特征图并将其重调整为一个特征向量,接一个幅度为0.5的dropout层。本方法的深度卷积神经网络可为轻量级网络,以减轻在小数集上的过拟合问题,因此,选取或搭建的深度卷积神经网络只要能够提取得到必要的特征向量即可,对结构没有过多的限制。
优选的,步骤140包括:
采用深度卷积神经网络,提取每张人眼图片的特征向量;基于每个训练样本中所有的特征向量,构建该训练样本的多个双流特征向量;采用Net-vlad网络,对每个训练样本的所述多个双流特征向量编码,得到该训练样本的一个行为特征向量;采用全连接层对每个行为特征向量回归,得到一个表征眨眼与否的二维向量;基于多个训练样本的二维向量和标签,采用A-softmax,调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数,重复上述过程,直至达到预设终止条件,得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的二维向量。
将每个样本中的所有IERi(i=1,2,...10)分别输入CNN,每一个IERi的得到一个特征向量,之后,如图2所示,将后9帧中每一帧的特征向量Fi均与前一帧的特征向量对应位相减,得到差值特征(出于计算速度和复杂度的考虑),再将其串接在当前特征向量后面,得到9个双流特征向量DFi。本方法采用差值特征构建双流特征向量,可降低计算复杂度、提高计算速度。
需要说明的是,双流特征向量是基于深度特征描述,对于深度网络提取出的深度特征向量,计算其与前一帧眼睛图像的差分特征,如图3所示,然后将差分特征和原深度特征向量拼接起来,将串联后得到的特征命名为深双流特征向量。
关于Net-vlad网络,例如,建立Net-vlad网络,其聚类中心为4个,将由每个样本对应的9个256维双流特征向量,依据时序,依次输入Net-vlad,得到编码后的行为特征向量Vec。
将行为特征向量Vec输入全连接层,回归出一个二维(因为是二分类问题,所以设计全连接层的参数
Figure BDA0002288780240000121
使其得到的向量为二维)向量res[res1,res2](label表示为非眨眼概率,眨眼概率)。
Figure BDA0002288780240000122
采用A-softmax误差回传训练眨眼检测网络,误差表达式表示为:
Figure BDA0002288780240000123
其中,veci为第i个样本输入的行为特征向量,N为样本的个数,cos(θj,i)为第i个样本与第j类样本的余弦值第i个样本的行为特征向量与第j类样本的权重向量
Figure BDA0002288780240000124
的夹角余弦值,m为超参数,m≥2时,各个类别的样本分布之间出现间隔,且m数值越大,间隔越大。
采用state=argmax(res),其中,state为最终结果,0表示该图像序列(也即该训练样本)未眨眼,1表示该图像序列(也即该训练样本)发生眨眼行为,argmax函数的表示形式为:
Figure BDA0002288780240000125
在步骤150的过程中,将处理后人脸图像Facei和其对应热图Heatmapi作为当前状态,基于当前状态
Figure BDA0002288780240000131
控制眼部信息挖掘网络进行强化学习并输出需要采取的行动
Figure BDA0002288780240000132
即对Heatmapi中需要关注的区域和程度进行调整:
Figure BDA0002288780240000133
将当前采取的行动
Figure BDA0002288780240000134
作用于
Figure BDA0002288780240000135
得到新的状态
Figure BDA0002288780240000136
Figure BDA0002288780240000137
基于更新前后的状态
Figure BDA0002288780240000138
Figure BDA0002288780240000139
的状态,利用更新前后的眨眼检测表现,计算当前的回归出的眨眼检测准确率的变化,作为当前的奖励rt
Figure BDA00022887802400001310
rt=Acct+1-Acct
其中,D和F的分别为Net-vlad和特征提取网络,l表示计算状态为
Figure BDA00022887802400001311
时数据集上的正确率Acct
结合当前的即时奖励rt,更新眼部信息挖掘网络。具体的,将眨眼检测网络(D和F)和作为Q-net,联合优化眼部信息区域挖掘网络参数θt和眨眼检测网络的参数wt,体为:
Figure BDA00022887802400001312
其中,
Figure BDA00022887802400001313
表示对x进行求导,αw和αθ分别为眼部信息区域挖掘网络和眨眼检测网络的参数梯度更新系数。
实施例二
一种非受限条件下眨眼时刻检测模型构建方法,包括:
采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型,得到多个眨眼样本;
以所有眨眼样本为训练样本,以每个眨眼样本中的眨眼起始帧和眨眼终止帧作为每个训练样本的标签,采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法,构建眨眼时刻检测模型;
其中,训练眨眼检测网络时,分别以每个训练样本的中心帧为中心,构建该训练样本的多个由多个相邻帧组成的子样本(一个训练样本对应的各子样本的时间大小不同),采用眨眼检测网络对该训练样本对应的多个子样本分别进行眨眼预测并对该训练样本对应的所有预测结果加权融合,得到该训练样本的眨眼检测结果。
具体的,在本实施例中训练眨眼检测网时,在实施例一的基础上,具体为:
采用深度卷积神经网络,提取每张人眼图片的特征向量;基于每个训练样本中所有的特征向量,构建该训练样本对应的每个子样本的多个双流特征向量;之后,如图4所示,采用Net-vlad网络,对每个子样本的所述多个双流特征向量编码,得到该子样本的一个行为特征向量;采用全连接层对每个行为特征向量回归,得到一个眨眼起止的二维向量;将每个训练样本对应的多个所述二维向量加权融合,基于多个训练样本的融合二维向量,采用A-softmax,调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数,重复上述过程,直至达到预设终止条件,得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的融合二维向量。
例如,对于10帧的一个训练样本,分别以第5帧为中心,选取前后2,3,4帧内图像的深度双流特征,并串联起来,得到3个串联的深度双流特征;
利用3个串联的深度双流特征,回归出眨眼的起始sta和截止位置end。具体的,拷贝上述Net-vlad和全连接层的参数和网络结构,输入3个串联的深度双流特征,并将3个输出加权融合(权重可训练),回归出眨眼的起始sta和截止位置end,具体如下:
Figure BDA0002288780240000151
其中,stai和endi分别是第i个预测出眨眼的起始和截止位置,ηi为可学习的权重,利用二范数误差损失微调网络参数。
相关技术方案同上,在此不再赘述。
实施例三
一种眨眼检测模型,采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型和/或采用如上实施例二所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型。
相关技术方案同上,在此不再赘述。
实施例四
一种眨眼检测方法,包括:
获取视频流,采用时间窗,按照时间方向并以预设滑动步长,从所述视频流中获取多个检测样本;
采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型,确定每个检测样本的眨眼概率,和/或,采用如上实施例二所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型,确定每个检测样本的起止帧,完成非受限条件下的眨眼检测。
例如,对于输入的视频,采用包含连续10帧的时间窗,将时间窗内的样本输入训练好的模型得到当前时间窗内的眨眼概率和眨眼起止位置。在按照时间方向滑动时间窗,得到所有时间窗内的眨眼概率和当前时间窗内的眨眼概率和起止位置,将结果串联为眨眼概率曲线。对于得到的眨眼概率曲线,选取大于0.4的极大值点对应的时间窗,如图5所示,在结合当前回归出的起始和截止位置,得到眨眼的具体位置。
需要说明的是,眨眼时刻检测模型输出的结果为二维向量[a,b],a和b分别为0至1间的小数,a+b=1,其中,b为眨眼发生的概率。此时,可将眨眼概率减去0.5,则若眨眼,则概率为正,若不眨眼,概率为负,构成眨眼概率曲线的概率。
相关技术方案同上,在此不再赘述。
综上,在以上实施例的基础上,可概况为如图6所示,眨眼检测过程可包括:利用非受限时序眨眼数据集,预训练眼部信息区域挖掘网络;采用smooth-agent定位人脸人眼区域;利用预训练的眼部信息区域挖掘网络挖掘IER(informative eye region);学习深度双流特征;编码行为特征向量;利用强化学习联合优化深度特征学习过程和眼部特征信息丰富区域挖掘过程;利用多个时序尺度的行为特征向量,定位眨眼起始截止位置,以及利用训练好的眨眼检测模型检测视频中的眨眼位置。
实施例五
一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法和/或如上实施例二所述的任一种非受限条件下眨眼时刻检测模型构建方法。
相关技术方案同上,在此不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种非受限条件下眨眼样本检测模型构建方法,其特征在于,包括:
S1、获取多个训练样本及其眨眼与否的标签,每个训练样本包括连续的多帧图像以及每帧图像的人脸位置信息和人眼位置信息;
S2、基于各训练样本中各帧图像的人脸位置信息和人眼位置信息,预训练眼部信息挖掘网络,其输入为人脸图片、输出为表征人眼位置的热图;从每个训练样本中的每帧图像内抠取人脸图片并确定其内人眼中心坐标;
S3、采用所述预训练的眼部信息挖掘网络,为每张人脸图片生成对应的热图;将每张人脸图片与其对应的热图点乘,之后基于该张人脸图片对应的所述人眼中心坐标,从点乘后的人脸图片中抠取人眼图片;
S4、基于每个训练样本对应的所有人眼图片和所有所述标签,训练基于数据驱动的眨眼检测网络,得到各训练样本的检测结果;
S5、基于当前眨眼检测网络及其对各训练样本的检测结果,采用即时奖励,控制当前眼部信息挖掘网络强化学习,基于新的眼部信息挖掘网络,重复S3,直至达到预设条件,得到眨眼样本检测模型。
2.根据权利要求1所述的一种非受限条件下眨眼样本检测模型构建方法,其特征在于,所述预训练眼部信息挖掘网络,具体为:
基于每个训练样本中每帧图像的所述人脸位置信息,提取该帧图像的人脸图片,并初始化一张与该人脸图片大小相同的热图;
基于每帧图像的所述人眼位置信息,修改该帧图像对应的热图中人眼中心点处的值并采用高斯核模糊该热图,得到高斯模糊热图;
以所述提取的每张人脸图片为输入、以其对应的所述高斯模糊热图为输出,预训练眼部信息挖掘网络。
3.根据权利要求1所述的一种非受限条件下眨眼样本检测模型构建方法,其特征在于,所述从每个训练样本中的每帧图像内抠取人脸图片并确定其内的人眼中心坐标,具体为:
采用人脸解析算法和双线性插值法,确定每个训练样本中每帧图像的人脸位置和人眼位置;
基于每帧图像的人脸位置,抠取该帧图像中的人脸图片;
调整每个训练样本中所有帧图像对应的人脸图片为统一尺寸,并基于所述人眼位置,确定所述统一尺寸后的每张人脸图片中的人眼中心坐标。
4.根据权利要求1至3任一项所述的一种非受限条件下眨眼样本检测模型构建方法,其特征在于,所述眨眼检测网络包括深度卷积神经网络和Net-vlad网络。
5.根据权利要求4所述的一种非受限条件下眨眼样本检测模型构建方法,其特征在于,所述S4包括:
采用深度卷积神经网络,提取每张人眼图片的特征向量;基于每个训练样本中所有的特征向量,构建该训练样本的多个双流特征向量;采用Net-vlad网络,对每个训练样本的所述多个双流特征向量编码,得到该训练样本的一个行为特征向量;采用全连接层对每个行为特征向量回归,得到一个表征眨眼与否的二维向量;基于多个训练样本的二维向量,采用A-softmax,调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数,重复S4,直至达到预设终止条件,得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的二维向量。
6.根据权利要求5所述的一种非受限条件下眨眼样本检测模型构建方法,其特征在于,所述构建该训练样本的多个双流特征向量,具体为:
将每个训练样本中所有人眼图片对应的深度卷积神经网络得到的特征向量,依序从第二个特征向量开始,每个特征向量与其前一个特征向量对位相减,得到一个差值特征向量,将该差值特征向量串接在当前特征向量的后面,构成一个双流特征向量。
7.一种非受限条件下眨眼时刻检测模型构建方法,其特征在于,包括:
采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型,得到多个眨眼样本;
以所有眨眼样本为训练样本,以每个眨眼样本中的眨眼起始帧和眨眼终止帧作为每个训练样本的标签,采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法,构建眨眼时刻检测模型;
其中,训练眨眼检测网络时,分别以每个训练样本的中心帧为中心,构建该训练样本的多个由多个相邻帧组成的子样本,采用眨眼检测网络对该训练样本对应的多个子样本分别进行眨眼预测并对该训练样本对应的所有预测结果加权融合,得到该训练样本的眨眼检测结果。
8.一种眨眼检测模型,其特征在于,采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型和/或采用如权利要求7所述的一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型。
9.一种眨眼检测方法,其特征在于,包括:
获取视频流,采用时间窗,按照时间方向并以预设滑动步长,从所述视频流中获取多个检测样本;
采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型,确定每个检测样本的眨眼概率,和/或,采用如权利要求7所述的一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型,确定每个检测样本的起止帧,完成非受限条件下的眨眼检测。
10.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法和/或如权利要求7所述的一种非受限条件下眨眼时刻检测模型构建方法。
CN201911171263.8A 2019-11-26 2019-11-26 一种非受限条件下眨眼检测模型及其构建方法和应用 Active CN110969109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911171263.8A CN110969109B (zh) 2019-11-26 2019-11-26 一种非受限条件下眨眼检测模型及其构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911171263.8A CN110969109B (zh) 2019-11-26 2019-11-26 一种非受限条件下眨眼检测模型及其构建方法和应用

Publications (2)

Publication Number Publication Date
CN110969109A true CN110969109A (zh) 2020-04-07
CN110969109B CN110969109B (zh) 2023-04-18

Family

ID=70031637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911171263.8A Active CN110969109B (zh) 2019-11-26 2019-11-26 一种非受限条件下眨眼检测模型及其构建方法和应用

Country Status (1)

Country Link
CN (1) CN110969109B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738934A (zh) * 2020-05-15 2020-10-02 西安工程大学 基于mtcnn的红眼自动修复方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080252745A1 (en) * 2007-04-13 2008-10-16 Fujifilm Corporation Apparatus for detecting blinking state of eye
CN108734086A (zh) * 2018-03-27 2018-11-02 西安科技大学 基于眼部区域生成网络的眨眼频率和视线估计方法
CN109101881A (zh) * 2018-07-06 2018-12-28 华中科技大学 一种基于多尺度时序图像的实时眨眼检测方法
CN109670430A (zh) * 2018-12-11 2019-04-23 浙江大学 一种基于深度学习的多分类器融合的人脸活体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080252745A1 (en) * 2007-04-13 2008-10-16 Fujifilm Corporation Apparatus for detecting blinking state of eye
CN108734086A (zh) * 2018-03-27 2018-11-02 西安科技大学 基于眼部区域生成网络的眨眼频率和视线估计方法
CN109101881A (zh) * 2018-07-06 2018-12-28 华中科技大学 一种基于多尺度时序图像的实时眨眼检测方法
CN109670430A (zh) * 2018-12-11 2019-04-23 浙江大学 一种基于深度学习的多分类器融合的人脸活体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738934A (zh) * 2020-05-15 2020-10-02 西安工程大学 基于mtcnn的红眼自动修复方法
CN111738934B (zh) * 2020-05-15 2024-04-02 西安工程大学 基于mtcnn的红眼自动修复方法

Also Published As

Publication number Publication date
CN110969109B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN109614921B (zh) 一种基于对抗生成网络的半监督学习的细胞分割方法
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
CN113469356A (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
KR20200121206A (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN111881776B (zh) 动态表情获取方法、装置、存储介质和电子设备
CN109711356B (zh) 一种表情识别方法和系统
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
US20220237917A1 (en) Video comparison method and apparatus, computer device, and storage medium
JP2022548187A (ja) 対象再識別方法および装置、端末並びに記憶媒体
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN111507467A (zh) 神经网络模型的训练方法、装置、计算机设备及存储介质
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
US20240185590A1 (en) Method for training object detection model, object detection method and apparatus
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN110969109B (zh) 一种非受限条件下眨眼检测模型及其构建方法和应用
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant