CN110969109A

CN110969109A - 一种非受限条件下眨眼检测模型及其构建方法和应用

Info

Publication number: CN110969109A
Application number: CN201911171263.8A
Authority: CN
Inventors: 肖阳; 胡桂雷; 曹治国; 朱子豪; 王焱乘; 姜文祥
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-07
Anticipated expiration: 2039-11-26
Also published as: CN110969109B

Abstract

本发明公开了一种非受限条件下眨眼检测模型及其构建方法和应用，构建方法包括：获取多个训练样本，每个训练样本包括连续多帧图像及每帧图像的人脸和人眼位置信息；采用训练样本预训练眼部信息挖掘网络；从每帧图像内抠取人脸图片并确定其内人眼中心坐标；采用预训练眼部信息挖掘网络挖掘每张人脸图片的特征信息丰富人眼区域；基于每个训练样本对应的所有上述人眼区域训练眨眼检测网络，得到各训练样本的检测结果；基于当前眨眼检测网络及其对各训练样本的检测结果，采用即时奖励，控制当前眼部信息挖掘网络强化学习，基于新的眼部信息挖掘网络，重复上述，直至达到预设条件。本发明在非受限条件下进行眨眼检测，极大提高了眨眼检测的精度和效率。

Description

一种非受限条件下眨眼检测模型及其构建方法和应用

技术领域

本发明属于数字图像识别技术领域，更具体地，涉及一种非受限条件下眨眼检测模型及其构建方法和应用。

背景技术

眼睛是心灵的窗户，眨眼检测也是一种反应受试个体当前行为状态的良好行为交互方式。其在现实生活中有着广泛的应用，如医疗系统中的干眼症恢复，刑侦系统中测谎等应用场景。

目前，主要的眨眼检测算法主要分为以下三种：一种基于特征点位置特征的方法，该方法基于眼部密集关键点位置信息，提取特征(如EAR)，再利用分类器(SVM，Adboost等)进行训练，得出判定当前眼睛的睁闭状态；另一种是基于手工特征(LBP，HOG，SIFT等)提取特征进行眨眼检测，最后一种是直接利用人工规则进行检测(如hough变换检测瞳孔，“红眼效应”等)。

上述方法存在以下缺陷，对于第一种方法，除了眨眼，眼部关键点位置也受姿态、环境光、拍摄角度、人物眼睛大小等因素影响。因此该方法仅在严格受限的情形下有较好的表现。另一种算法是手工特征，其并不是针对眨眼检测这种细粒化识别人物设计的，因此这些特征在自然条件下存在模型能力不足，表现不佳的问题。其余基于人工规则的方法有着鲁棒性差或是存在特殊设备条件和人员配合的要求，因此很难应用于实践。

发明内容

本发明提供一种非受限条件下眨眼检测模型及其构建方法和应用，用以解决现有眨眼检测因需要受限各种条件而存在保证检测精度的条件下检测效率不高的技术问题。

本发明解决上述技术问题的技术方案如下：一种非受限条件下眨眼样本检测模型构建方法，包括：

S1、获取多个训练样本及其眨眼与否的标签，每个训练样本包括连续的多帧图像以及每帧图像的人脸位置信息和人眼位置信息；

S2、基于各训练样本中各帧图像的人脸位置信息和人眼位置信息，预训练眼部信息挖掘网络，其输入为人脸图片、输出为表征人眼位置的热图；从每个训练样本中的每帧图像内抠取人脸图片并确定其内人眼中心坐标；

S3、采用所述预训练的眼部信息挖掘网络，为每张人脸图片生成对应的热图；将每张人脸图片与其对应的热图点乘，之后基于该张人脸图片对应的人眼中心坐标，从点乘后的人脸图片中抠取人眼图片；

S4、基于每个训练样本对应的所有人眼图片和所有所述标签，训练基于数据驱动的眨眼检测网络，得到各训练样本的检测结果；

S5、基于当前眨眼检测网络及其对各训练样本的检测结果，采用即时奖励，控制当前眼部信息挖掘网络强化学习，基于新的眼部信息挖掘网络，重复S3，直至达到预设条件，得到眨眼样本检测模型。

本发明的有益效果是：本发明引入一种非受限条件下眨眼样本检测模型的构建方法，首先对每个训练样本设置眨眼与否的标签，以用于训练眨眼样本检测模型，另外，提取每个训练样本中各帧图像的人脸图片，并为每个人脸图片构建一个标志人眼位置的热图，以人脸图片为输入、以其一一对应的热图为输出，预训练一个映射关系，即得到眼部信息挖掘网络。在当前眼部信息挖掘网络之下，分别采用当前眼部信息挖掘网络对每个训练样本的各帧图像进行人眼图片构建，具体通过人脸图片点乘当前眼部信息挖掘网络得到的该人脸图片对应的热图，得到一个凸显人眼部位、弱化脸部其它部位的人脸图片，基于处理的人脸图片进行眨眼检测网络的训练，由于热图对原人脸图片进行像素级的加权处理，能够有利于更加精细化的凸显有用信息(也即眼部信息)，抑制背景噪声，从而有利于待构建的眨眼检测模型的眨眼检测。其次，眨眼检测网络训练后，采用强化学习的方式，基于即时奖励对当前的眼部信息挖掘网络进行训练，为每个人脸图片生成新的热图，该种训练方式可以直接指导训练梯度，避免梯度弥散，训练时不需要显示给出热图标签。由于在眼部信息区域训练时缺乏训练需要的标签，直接训练不易进行，因此本发明利用眨眼检测网络的表现而生成即时奖励，结合强化学习手段对眼部信息区域挖掘网络进行有效训练。因此，本发明在非受限条件下进行眨眼检测，极大提高了眨眼样本检测的精度、稳定性及检测效率，解决了现有眨眼检测方法受限于各种条件而存在保证检测精度的条件下检测效率不高的技术问题。

上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述预训练眼部信息挖掘网络，具体为：

基于每个训练样本中每帧图像的所述人脸位置信息，提取该帧图像的人脸图片，并初始化一张与该人脸图片大小相同的热图；

基于每帧图像的所述人眼位置信息，修改该帧图像对应的热图中人眼中心点处的值并采用高斯核模糊该热图，得到高斯模糊热图；

以所述提取的每张人脸图片为输入、以其对应的所述高斯模糊热图为输出，预训练眼部信息挖掘网络。

本发明的进一步有益效果是：首先确定每帧图像中的人脸位置和人眼位置，基于人脸和人眼位置，构建一张高斯模糊热图，该高斯模糊热图能够明显表征人眼的位置区域，基于人脸图片和其对应的热图，训练一个人脸图片和热图之间的映射关系，采用映射关系以挖掘每张人脸图片中的眼部特征信息丰富区域，可靠性高。

进一步，所述从每个训练样本中的每帧图像内抠取人脸图片并确定其内的人眼中心坐标，具体为：

采用人脸解析算法和双线性插值法，确定每个训练样本中每帧图像的人脸位置和人眼位置；

基于每帧图像的人脸位置，抠取该帧图像中的人脸图片；

调整每个训练样本中所有帧图像对应的人脸图片为统一尺寸，并基于所述人眼位置，确定所述统一尺寸后的每张人脸图片中的人眼中心坐标。

本发明的进一步有益效果是：本发明采用人脸解析算法smooth-agent和双线性插值两种方法，互相辅助确定每帧图像的人脸图片，提高训练、检测的可靠性。

进一步，所述眨眼检测网络包括深度卷积神经网络和Net-vlad网络。

本发明的进一步有益效果是：本发明采用深度卷积神经网络，提取深度特征向量，以数据驱动的方式，能够训练出更加适用于眨眼检测的眨眼检测网络，其次，利用Net-vlad网络对于深度卷积神经网络的结果进行加权融合，可以选择性的从一个样本中挑选出有利于解决眨眼检测的帧，降低眨眼可能发生在样本中不同时刻的带来的检测准确率降低的影响。

进一步，所述S4包括：

采用深度卷积神经网络，提取每张人眼图片的特征向量；基于每个训练样本中所有的特征向量，构建该训练样本的多个双流特征向量；采用Net-vlad网络，对每个训练样本的所述多个双流特征向量编码，得到该训练样本的一个行为特征向量；采用全连接层对每个行为特征向量回归，得到一个表征眨眼与否的二维向量；基于多个训练样本的二维向量，采用A-softmax，调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数，重复上述过程，直至达到预设终止条件，得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的二维向量。

本发明的进一步有益效果是：采用双流特征向量能够同时捕捉眼部区域的纹理信息和眨眼行为的运动信息，另外，采用A-softmax损失训练网络，有利于提高正负样本分布之间的间隔，提升模型的泛化性。

进一步，所述构建该训练样本的多个双流特征向量，具体为：

将每个训练样本中所有人眼图片对应的深度卷积神经网络得到的特征向量，依序从第二个特征向量开始，每个特征向量与其前一个特征向量对位相减，得到一个差值特征向量，将该差值特征向量串接在当前特征向量的后面，构成一个双流特征向量。

本发明的进一步有益效果是：采用差值特征构建双流特征向量，降低计算复杂度，提高计算效率。

本发明还提供一种非受限条件下眨眼时刻检测模型构建方法，包括：

采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型，得到多个眨眼样本；

以所有眨眼样本为训练样本，以每个眨眼样本中的眨眼起始帧信息和眨眼终止帧信息作为每个训练样本的标签，采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法，构建眨眼时刻检测模型；

其中，训练眨眼检测网络时，分别以每个训练样本的中心帧为中心，构建该训练样本的多个由多个相邻帧组成的子样本，采用眨眼检测网络对该训练样本对应的多个子样本分别进行眨眼预测并对该训练样本对应的所有预测结果加权融合，得到该训练样本的眨眼检测结果。

本发明的有益效果是：本发明采用如上述任一种非受限条件下眨眼样本检测模型构建方法的构建方法来构建眨眼时刻检测模型，能够有效保证检测的效率和精度，然而由于眨眼具体时刻是一个时序过程，在眨眼样本中进行眨眼时刻检测，检测难度大，检测精度要求高，本发明对于已经确定发生眨眼的眨眼样本，构建多个由时序帧图像构成的子样本，提取多个子样本的特征，以提供更加丰富的时序信息，并进行加权融合，从而确定出眨眼样本中眨眼行为具体发生的时刻，这种采用加权融合多时序特征检测结果来确定眨眼发生位置的方式，保证了眨眼时刻检测的精确度、稳定性和效率，极大提高了眨眼时刻检测的精度、效率及稳定性，解决了现有眨眼检测方法受限于各种条件而存在可靠性不高的技术问题。

本发明还提供一种眨眼检测模型，采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型和/或采用如上所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型。

本发明的有益效果是：本发明的检测模型为采用如上方法构建得到的模型，模型检测精度高、稳定性好。

本发明还提供一种眨眼检测方法，包括：

获取视频流，采用时间窗，按照时间方向并以预设滑动步长，从所述视频流中获取多个检测样本；

采用如上所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型，确定每个检测样本的眨眼概率，和/或，采用如上所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型，确定每个检测样本的起止帧，完成非受限条件下的眨眼检测。

本发明的有益效果是：采用上述方法对视频流进行眨眼时刻或眨眼时间区间(时间窗)的检测，可靠性高。

本发明还提供一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述任一种非受限条件下眨眼样本检测模型构建方法和/或如上述任一种非受限条件下眨眼时刻检测模型构建方法。

附图说明

图1为本发明实施例提供的一种非受限条件下眨眼样本检测模型构建方法的流程框图；

图2为本发明实施例提供的提取双流特征向量的方法流程示意图；

图3为图2对应的基于第t帧特征向量提取第t帧双流特征向量的流程示意图；

图4为本发明实施例提供的利用多个不同时间大小的串联双流特征向量进行眨眼检测和具体位置定位的流程示意图；

图5为本发明实施例提供的基于眨眼概率曲线确定眨眼位置的示意图；

图6为本发明实施例提供的基于挖掘眼部特征信息丰富区域的非受限条件下眨眼检测方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种非受限条件下眨眼样本检测模型构建方法100，如图1所示，包括：

步骤110、获取多个训练样本及其眨眼与否的标签，每个训练样本包括连续的多帧图像以及每帧图像的人脸位置信息和人眼位置信息；

步骤120、基于各训练样本中各帧图像的人脸位置信息和人眼位置信息，预训练眼部信息挖掘网络，其输入为人脸图片、输出为表征人眼位置的热图；从每个训练样本中的每帧图像内抠取人脸图片并确定其内人眼中心坐标；

步骤130、采用预训练的眼部信息挖掘网络，为每张人脸图片生成对应的高斯模糊热图；将每张人脸图片与其对应的热图点乘，之后基于该张人脸图片对应的人眼中心坐标，从点乘后的人脸图片中抠取人眼图片；

步骤140、基于每个训练样本对应的所有人眼图片和所有标签，训练基于数据驱动的眨眼检测网络，得到各训练样本的检测结果；

步骤150、基于当前眨眼检测网络及其对各训练样本的检测结果，采用即时奖励，控制当前眼部信息挖掘网络强化学习，基于新的眼部信息挖掘网络，重复步骤130，直至达到预设条件，得到眨眼样本检测模型。

其中，步骤140可采用二范数误差损失进行回传训练。

另外，步骤110之前，可建立一个非受限(人体属性包括姿态、动作；环境光和拍摄角度等均有较大变化)时序眨眼数据集，包含N1个眨眼样本(正样本)和N2个非眨眼样本(负样本)，每个样本中包含n帧标注好人脸和人眼位置的图像，利用数据库中的图像和人脸、人眼位置，预训练眼部信息区域挖掘网络。需要说明的是，本发明在非受限样本下进行训练，虽然样本内各帧图像之间有各种外界因素变化，但这些变化在一般眨眼检测中均会影响眨眼检测效率和精度，然而本实施例方法不受这些因素影响，能够准确、可靠的进行眨眼检测，这是因为：

本方法首先对每个训练样本设置眨眼与否的标签，以用于训练眨眼样本检测模型，另外，提取每个训练样本中各帧图像的人脸图片，并为每个人脸图片构建一个标志人眼位置的热图，以人脸图片为输入、以其一一对应的热图为输出，预训练一个映射关系，即得到眼部信息挖掘网络。在当前眼部信息挖掘网络之下，分别采用当前眼部信息挖掘网络对每个训练样本的各帧图像进行人眼图片构建，具体通过人脸图片点乘当前眼部信息挖掘网络得到的该人脸图片对应的热图，得到一个凸显人眼部位、弱化脸部其它部位的人脸图片，基于处理的人脸图片进行眨眼检测网络的训练，由于热图对原人脸图片进行像素级的加权处理，能够有利于更加精细化的凸显有用信息(也即眼部信息)，抑制背景噪声，从而有利于待构建的眨眼检测模型的眨眼检测。其次，眨眼检测网络训练后，采用强化学习的方式，基于即时奖励对当前的眼部信息挖掘网络进行训练，为每个人脸图片生成新的热图，该种训练方式可以直接指导训练梯度，避免梯度弥散，训练时不需要显示给出热图标签。由于在眼部信息区域训练时缺乏训练需要的标签，直接训练不易进行，因此本发明利用眨眼检测网络的表现而生成即时奖励，结合强化学习手段对眼部信息区域挖掘网络进行有效训练。因此，本方法在非受限条件下进行眨眼检测，极大提高了眨眼样本检测的精度、效率及稳定性，解决了现有眨眼检测方法受限于各种条件而存在检测可靠性不高的技术问题。

优选的，上述预训练眼部信息挖掘网络，具体为：

基于每个训练样本中每帧图像的人脸位置信息，提取该帧图像的人脸图片，并初始化一张与该人脸图片大小相同、值为0的热图；

基于每帧图像的人眼位置信息，将该帧图像对应的热图中的人眼中心点处的值置1并采用高斯核模糊该热图，得到高斯模糊热图；

以每张所述人脸图片为输入、以其对应的高斯模糊热图为输出，预训练眼部信息挖掘网络。

例如，每个训练样本中10帧包含人脸图片，利用标定的人脸位置信息，提取人脸图片Face_i，并初始化一个与人脸区域大小相同、值为零的热图Heatmap_i(i＝1,2,..1.0)。利用标定的人眼位置信息，将热图Heatmap_i(i＝1,2,...10)中人眼中心点的坐标置1、并利用半径为15的高斯核模糊该热图，得到高斯模糊热图。将每一帧的人脸图像Face_i为输入，以其高斯模糊热图Heatmap_i为输出，预训练眼部信息挖掘网络。

优选的，上述从每个训练样本中的每帧图像内抠取人脸图片并确定其内的人眼中心坐标，具体为：

采用人脸解析算法smooth-agent和双线性插值法，确定每个训练样本中每帧图像的人脸位置和人眼位置；

基于每帧图像的人脸位置，抠取该帧图像的人脸图片；

调整每个训练样本中所有帧图像对应的人脸图片为统一尺寸，并确定人眼中心坐标值。

将每个样本中每一帧输入基于MTCNN的smooth-agent，定位出每一帧图像中人脸区域和人眼中心坐标。先提取人脸图片并调整到指定大小，人眼中心坐标也做相应调整后，以其中心为人眼区域中心，划定人眼区域。Smooth-agent是基于人脸关键点定位算法实现的定位眼睛的模块。

需要说明的是，由于Smooth-agent中检测人脸的算法并不能做到百分百的检测成功，对于一些姿态变化很大或是光照条件很不好等的样本，有时检测不出人脸，因此在采用smooth-agent时，可能有每个训练样本中的一些帧能够成功检测出人脸框和人眼的位置，有些帧不能检测出人脸。对于没有检测出人脸的第i帧，选取检测成功的相邻两帧(s_i-1,s_i+1)中的人脸框位置和人眼位置，采用双线性插值，确定第i帧的人脸框位置face_i和人眼位置Eye_i，详细如下：

利用每帧的人脸位置，提取所有帧的人脸图片Face_i(i＝1,2,...10)，并将所有的人脸图片大小统一调整到宽度为256像素、高度为192像素，人眼的坐标Eye_i(i＝1,2,...10)也进行相应的调整(在统一调整的人脸图像后，得到新的人眼中心坐标值)。另外，步骤130得到的每个人眼图片的尺寸也相同，例如，以人眼坐标中心为眼部区域的中心，从人脸图片中提取宽和高为100的区域，作为人眼图片，每个训练样本对应的所有人眼图片的尺寸相同。

步骤130中，利用上述预训练好的眼部信息挖掘网络(映射)，输入人脸图片Face_i(每帧仅有一张人脸图片)，输出该人脸图片的对应热图Heatmap_i，作为初始的需要关注的眼部信息区域(热图表示：每个像素点需要给多大的权重，可抑制背景噪声，突出有用信息)。将人脸图片Face_i与其对应热图Heatmap_i进行点乘，得到处理后的人脸图片

该人脸图片

中，人眼位置的像素值增强，人眼凸显。从每张人脸图片

中基于其对应的上述得到的新的人眼中心位置，提取出人眼图片，即为特征信息丰富的人眼区域IER_i(informative eye region)。

优选的，上述眨眼检测网络包括深度卷积神经网络和Net-vlad网络。

例如，深度卷积神经网络(CNN)，一共可有3个卷积层，每个卷积层后接一个BN层(防止网络梯度消失)和max-pooling层(具有一定的平移不变性)，输出特征图并将其重调整为一个特征向量，接一个幅度为0.5的dropout层。本方法的深度卷积神经网络可为轻量级网络，以减轻在小数集上的过拟合问题，因此，选取或搭建的深度卷积神经网络只要能够提取得到必要的特征向量即可，对结构没有过多的限制。

优选的，步骤140包括：

采用深度卷积神经网络，提取每张人眼图片的特征向量；基于每个训练样本中所有的特征向量，构建该训练样本的多个双流特征向量；采用Net-vlad网络，对每个训练样本的所述多个双流特征向量编码，得到该训练样本的一个行为特征向量；采用全连接层对每个行为特征向量回归，得到一个表征眨眼与否的二维向量；基于多个训练样本的二维向量和标签，采用A-softmax，调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数，重复上述过程，直至达到预设终止条件，得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的二维向量。

将每个样本中的所有IER_i(i＝1,2,...10)分别输入CNN，每一个IER_i的得到一个特征向量，之后，如图2所示，将后9帧中每一帧的特征向量F_i均与前一帧的特征向量对应位相减，得到差值特征(出于计算速度和复杂度的考虑)，再将其串接在当前特征向量后面，得到9个双流特征向量DF_i。本方法采用差值特征构建双流特征向量，可降低计算复杂度、提高计算速度。

需要说明的是，双流特征向量是基于深度特征描述，对于深度网络提取出的深度特征向量，计算其与前一帧眼睛图像的差分特征，如图3所示，然后将差分特征和原深度特征向量拼接起来，将串联后得到的特征命名为深双流特征向量。

关于Net-vlad网络，例如，建立Net-vlad网络，其聚类中心为4个，将由每个样本对应的9个256维双流特征向量，依据时序，依次输入Net-vlad，得到编码后的行为特征向量Vec。

将行为特征向量Vec输入全连接层，回归出一个二维(因为是二分类问题，所以设计全连接层的参数

使其得到的向量为二维)向量res[res1,res2](label表示为非眨眼概率，眨眼概率)。

采用A-softmax误差回传训练眨眼检测网络，误差表达式表示为：

其中，vec_i为第i个样本输入的行为特征向量，N为样本的个数，cos(θ_j,i)为第i个样本与第j类样本的余弦值第i个样本的行为特征向量与第j类样本的权重向量

的夹角余弦值，m为超参数，m≥2时，各个类别的样本分布之间出现间隔，且m数值越大，间隔越大。

采用state＝argmax(res)，其中，state为最终结果，0表示该图像序列(也即该训练样本)未眨眼，1表示该图像序列(也即该训练样本)发生眨眼行为，argmax函数的表示形式为：

在步骤150的过程中，将处理后人脸图像Face_i和其对应热图Heatmap_i作为当前状态，基于当前状态

控制眼部信息挖掘网络进行强化学习并输出需要采取的行动

即对Heatmap_i中需要关注的区域和程度进行调整：

将当前采取的行动

作用于

得到新的状态

基于更新前后的状态

和

的状态，利用更新前后的眨眼检测表现，计算当前的回归出的眨眼检测准确率的变化，作为当前的奖励r_t：

r_t＝Acc^t+1-Acc^t；

其中，D和F的分别为Net-vlad和特征提取网络，l表示计算状态为

时数据集上的正确率Acc^t。

结合当前的即时奖励r_t，更新眼部信息挖掘网络。具体的，将眨眼检测网络(D和F)和作为Q-net，联合优化眼部信息区域挖掘网络参数θ_t和眨眼检测网络的参数w_t，体为：

其中，

表示对x进行求导，α_w和α_θ分别为眼部信息区域挖掘网络和眨眼检测网络的参数梯度更新系数。

实施例二

一种非受限条件下眨眼时刻检测模型构建方法，包括：

采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型，得到多个眨眼样本；

以所有眨眼样本为训练样本，以每个眨眼样本中的眨眼起始帧和眨眼终止帧作为每个训练样本的标签，采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法，构建眨眼时刻检测模型；

其中，训练眨眼检测网络时，分别以每个训练样本的中心帧为中心，构建该训练样本的多个由多个相邻帧组成的子样本(一个训练样本对应的各子样本的时间大小不同)，采用眨眼检测网络对该训练样本对应的多个子样本分别进行眨眼预测并对该训练样本对应的所有预测结果加权融合，得到该训练样本的眨眼检测结果。

具体的，在本实施例中训练眨眼检测网时，在实施例一的基础上，具体为：

采用深度卷积神经网络，提取每张人眼图片的特征向量；基于每个训练样本中所有的特征向量，构建该训练样本对应的每个子样本的多个双流特征向量；之后，如图4所示，采用Net-vlad网络，对每个子样本的所述多个双流特征向量编码，得到该子样本的一个行为特征向量；采用全连接层对每个行为特征向量回归，得到一个眨眼起止的二维向量；将每个训练样本对应的多个所述二维向量加权融合，基于多个训练样本的融合二维向量，采用A-softmax，调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数，重复上述过程，直至达到预设终止条件，得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的融合二维向量。

例如，对于10帧的一个训练样本，分别以第5帧为中心，选取前后2,3,4帧内图像的深度双流特征，并串联起来，得到3个串联的深度双流特征；

利用3个串联的深度双流特征，回归出眨眼的起始sta和截止位置end。具体的，拷贝上述Net-vlad和全连接层的参数和网络结构，输入3个串联的深度双流特征，并将3个输出加权融合(权重可训练)，回归出眨眼的起始sta和截止位置end，具体如下：

其中，sta_i和end_i分别是第i个预测出眨眼的起始和截止位置，η_i为可学习的权重，利用二范数误差损失微调网络参数。

相关技术方案同上，在此不再赘述。

实施例三

一种眨眼检测模型，采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型和/或采用如上实施例二所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型。

相关技术方案同上，在此不再赘述。

实施例四

一种眨眼检测方法，包括：

采用如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型，确定每个检测样本的眨眼概率，和/或，采用如上实施例二所述的任一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型，确定每个检测样本的起止帧，完成非受限条件下的眨眼检测。

例如，对于输入的视频，采用包含连续10帧的时间窗，将时间窗内的样本输入训练好的模型得到当前时间窗内的眨眼概率和眨眼起止位置。在按照时间方向滑动时间窗，得到所有时间窗内的眨眼概率和当前时间窗内的眨眼概率和起止位置，将结果串联为眨眼概率曲线。对于得到的眨眼概率曲线，选取大于0.4的极大值点对应的时间窗，如图5所示，在结合当前回归出的起始和截止位置，得到眨眼的具体位置。

需要说明的是，眨眼时刻检测模型输出的结果为二维向量[a，b]，a和b分别为0至1间的小数，a+b＝1，其中，b为眨眼发生的概率。此时，可将眨眼概率减去0.5，则若眨眼，则概率为正，若不眨眼，概率为负，构成眨眼概率曲线的概率。

相关技术方案同上，在此不再赘述。

综上，在以上实施例的基础上，可概况为如图6所示，眨眼检测过程可包括：利用非受限时序眨眼数据集，预训练眼部信息区域挖掘网络；采用smooth-agent定位人脸人眼区域；利用预训练的眼部信息区域挖掘网络挖掘IER(informative eye region)；学习深度双流特征；编码行为特征向量；利用强化学习联合优化深度特征学习过程和眼部特征信息丰富区域挖掘过程；利用多个时序尺度的行为特征向量，定位眨眼起始截止位置，以及利用训练好的眨眼检测模型检测视频中的眨眼位置。

实施例五

一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述如上实施例一所述的任一种非受限条件下眨眼样本检测模型构建方法和/或如上实施例二所述的任一种非受限条件下眨眼时刻检测模型构建方法。

相关技术方案同上，在此不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非受限条件下眨眼样本检测模型构建方法，其特征在于，包括：

S3、采用所述预训练的眼部信息挖掘网络，为每张人脸图片生成对应的热图；将每张人脸图片与其对应的热图点乘，之后基于该张人脸图片对应的所述人眼中心坐标，从点乘后的人脸图片中抠取人眼图片；

2.根据权利要求1所述的一种非受限条件下眨眼样本检测模型构建方法，其特征在于，所述预训练眼部信息挖掘网络，具体为：

3.根据权利要求1所述的一种非受限条件下眨眼样本检测模型构建方法，其特征在于，所述从每个训练样本中的每帧图像内抠取人脸图片并确定其内的人眼中心坐标，具体为：

基于每帧图像的人脸位置，抠取该帧图像中的人脸图片；

4.根据权利要求1至3任一项所述的一种非受限条件下眨眼样本检测模型构建方法，其特征在于，所述眨眼检测网络包括深度卷积神经网络和Net-vlad网络。

5.根据权利要求4所述的一种非受限条件下眨眼样本检测模型构建方法，其特征在于，所述S4包括：

采用深度卷积神经网络，提取每张人眼图片的特征向量；基于每个训练样本中所有的特征向量，构建该训练样本的多个双流特征向量；采用Net-vlad网络，对每个训练样本的所述多个双流特征向量编码，得到该训练样本的一个行为特征向量；采用全连接层对每个行为特征向量回归，得到一个表征眨眼与否的二维向量；基于多个训练样本的二维向量，采用A-softmax，调整当前眼部信息挖掘网络下深度卷积神经网络、Net-vlad网络和全连接层的参数，重复S4，直至达到预设终止条件，得到优化后的深度卷积神经网络、Net-vlad网络和全连接层及各训练样本的新的二维向量。

6.根据权利要求5所述的一种非受限条件下眨眼样本检测模型构建方法，其特征在于，所述构建该训练样本的多个双流特征向量，具体为：

7.一种非受限条件下眨眼时刻检测模型构建方法，其特征在于，包括：

采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型，得到多个眨眼样本；

以所有眨眼样本为训练样本，以每个眨眼样本中的眨眼起始帧和眨眼终止帧作为每个训练样本的标签，采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法，构建眨眼时刻检测模型；

8.一种眨眼检测模型，其特征在于，采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型和/或采用如权利要求7所述的一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型。

9.一种眨眼检测方法，其特征在于，包括：

采用如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法构建得到的眨眼样本检测模型，确定每个检测样本的眨眼概率，和/或，采用如权利要求7所述的一种非受限条件下眨眼时刻检测模型构建方法构建得到的眨眼时刻检测模型，确定每个检测样本的起止帧，完成非受限条件下的眨眼检测。

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述如权利要求1至6任一项所述的一种非受限条件下眨眼样本检测模型构建方法和/或如权利要求7所述的一种非受限条件下眨眼时刻检测模型构建方法。