CN114863545B

CN114863545B - 基于DeepLabCut的自动眨眼检测方法和装置

Info

Publication number: CN114863545B
Application number: CN202210782590.2A
Authority: CN
Inventors: 祝婧; 王若凡; 施钧辉; 陈睿黾; 李驰野
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-21
Anticipated expiration: 2042-07-05
Also published as: CN114863545A

Abstract

本发明公开了基于DeepLabCut的自动眨眼检测方法和装置。该方法采用摄像头拍摄待处理的眼部视频数据；使用DeepLabCut深度神经网络模型追踪相关眼部标记点，并自动输出各个标记点在每一帧图像上的X坐标、Y坐标及置信度；然后通过相关公式计算判断眨眼的特征向量；最后采用机器学习的方法获得每一帧图像的眨眼判断结果。本方法步骤简单，在实现自动检测的同时，具备检测灵活，精度高的实用价值。

Description

基于DeepLabCut的自动眨眼检测方法和装置

技术领域

本发明涉及视频影像、运动捕捉、人工智能、眼部医学领域，尤其涉及基于DeepLabCut的自动眨眼检测方法和装置。

背景技术

眨眼是人潜意识里快速闭合和重新打开眼睑的过程。随着计算机应用和人工智能的迅速发展，眨眼检测所涵盖的科学内容涉及视觉追踪、公共安全、运动脑科学、认知心理学、眼部生物医学等多个领域，具体应用如人脸识别、紧张测试、睡意测定、疲劳追踪、射击表现评价、眼部疾病研究等，具有广泛的应用市场。

现有的眨眼检测方法通常隐含一定的检出条件，如：相对面部相机姿势（头部方向）、相机帧率、图像分辨率、照明、运动动力学等；这使得对不同的光照、不同的面部表情和适度非正面头部视频序列中的眨眼检测不具备鲁棒性。

另外，眼部数据的获取和分析，大多数还是基于传统的几何分析来提取眼部特征。通过穿戴设备实现的情况，需要附着于眼部的标记物来辅助测量，具有一定的侵入性和干扰性；通过视频分析处理的情况，一般采用眼部追踪的算法，如基于霍夫变换圆拟合检测的方法，需对获取的数据进行一系列繁琐的后续处理，要实现高精度的眼部标记追踪需耗费大量计算时间，且精确程度有待提高。

与传统方法相比，近年来兴起的深度学习方法也融入进眼部检测当中。采用神经网络的方法虽然取得了一定进展，但是更多的是提取人脸全部特征去获得眼部区域后进行后续处理，针对眼部的单独处理仍然缺乏研究，而且基于人工智能的方法，模型可解释性不强，同时仍需标注大量样本。

综上所述，现有技术还存在着一些不足，亟需通过改进技术来进一步解决。

发明内容

针对现有技术的不足，本发明提供一种基于DeepLabCut的自动眨眼检测方法、装置。与一般人工智能方法不同，该方法将采集到的眼部视频，利用DeepLabCut软件快速便捷地进行高精度的眼部标记追踪，并输出标记点的量化参数，在计算提取出眼部特征参量后采用机器学习进行自动眨眼检测。

根据本申请实施例的第一方面，提供一种基于DeepLabCut的自动眨眼检测

方法，包括：

（1）通过摄像装置采集眨眼过程的单眼视频，获得视频流数据后，采用视频编辑软件对需处理的眼部视频进行眨眼动作的识别，采用帧数读取并记录眨眼时间点和眨眼时长，制作基于时间序列的眨眼标签；

（2）运用DeepLabCut软件进行预处理，所述预处理是DeepLabCut软件通过深度神经网络学习带人眼关键标记点的图像后，得到训练达标的神经网络；之后再将步骤（1）获得的眼部视频输入已训练达标的神经网络，输出在各帧图像中眼部的各个标记点的坐标及置信度，即对视频中眼部标记点进行自动追踪；

（3）基于步骤（2）中捕捉到的多个眼部标记点坐标，采用变化率，横纵比公式计算出视频各帧图像中判断眨眼的重要特征向量；所述重要特征向量具体包括上眼睑变化率和眼睛纵横比；

（4）利用步骤（3）计算得到的重要特征向量，制作眼部数据集，所述眼部数据集包括带标签的训练数据集；

（5）将步骤（4）中获得的训练数据集放入机器学习的分类器中，进行模型训练得到训练达标的模型分类器；最后训练达标的模型分类器对测试数据集进行眨眼的自动判断。

根据本申请实施例的第二方面，提供一种基于DeepLabCut的自动眨眼检测

装置，包括：

识别模块：用于通过摄像装置采集眨眼过程的单眼视频，获得视频流数据后，采用视频编辑软件对需处理的眼部视频进行眨眼动作的识别，采用帧数读取并记录眨眼时间点和眨眼时长，制作基于时间序列的眨眼标签；

自动追踪模块：用于运用DeepLabCut软件进行预处理，所述预处理是DeepLabCut软件通过深度神经网络学习带人眼关键标记点的图像后，得到训练达标的神经网络；之后再将步骤（1）获得的眼部视频输入已训练达标的神经网络，输出在各帧图像中眼部的各个标记点的坐标及置信度，即对视频中眼部标记点进行自动追踪；

计算模块：用于基于捕捉到的多个眼部标记点坐标，采用变化率，横纵比公式计算出视频各帧图像中判断眨眼的重要特征向量；所述重要特征向量具体包括上眼睑变化率和眼睛纵横比；

制作模块：用于利用计算得到的重要特征向量，制作眼部数据集，所述眼部数据集包括带标签的训练数据集；

训练模块：用于将获得的训练数据集放入机器学习的分类器中，进行模型训练得到训练达标的模型分类器；最后训练达标的模型分类器对测试数据集进行眨眼的自动判断。

一个或多个处理器；

存储器，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个

处理器实现如第一方面所述的基于DeepLabCut的自动眨眼检测方法。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述的基于DeepLabCut的自动眨眼检测方法的步骤。

为实现上述技术目的，本发明通过以下方法实现，一种基于DeepLabCut的自动眨眼检测方法，包括以下步骤：

所述步骤（1）中视频采集时需将所述摄像装置设置在可采集人眼的位置，从摄像装置中获取事件视频流数据；根据视频被检测者是否存在闭眼情况，若判断为是，则对应当前帧数的前一帧为闭眼，记录为本次闭眼的开始帧数和时长帧数；分析完采集的全部视频后，得到步骤（1）中被检测者眼部视频和基于时间序列的眨眼标签。

所述步骤（2）具体为：

（2.1）采用K均值聚类算法对视频的所有帧进行分析，并提取J_n张不同帧的人眼图像进行人眼关键点的标记。从左眼角开始按顺时针的方式标记多样性人眼图像，标记时不同图像上的眼部标记点位置保持一致；

（2.2）基于已标记的若干张不同帧的人眼图像结果生成训练数据；

（2.3）使用上述训练数据，训练一个Resnet_50深度残差神经网络，经过Nstep个迭代次数或损失函数达到收敛后，形成训练完的神经网络，并根据相应的输出位置坐标来评价训练完成的网络；

（2.4）对全部的视频采用上述训练精度已达标的Resnet_50深度残差神经网络进行逐帧预测，即对眼部视频进行标记点的自动追踪，输出全部的人眼关键标记点的X坐标、Y坐标及置信度。

所述步骤（3）中的眼部关键标记点为6个，其中4个位于眼睛的上下眼睑，2个位于眼睛的左右眼角；并对每一个眼部关键标记点做标记，其中每个关键点用坐标来表示；然后采用上眼睑变化率公式和眼睛纵横比公式分别计算出眼部的上眼睑变化率和眼睛纵横比作为判断眨眼的重要特征向量；

所述上眼睑变化率UECR的数学表达公式为：

所述眼睛纵横比EAR的数学表达公式为：

其中， y_n代表帧数为n时，上眼睑p2或p3的y轴坐标值；y_n+1代表帧数为n+1时，上眼睑p2或p3的y轴坐标值；

表示欧式距离。

所述步骤（4）的眼部数据集是结合步骤（1）的眨眼标签与步骤（3）的眼部特征向量制作而成，具体包括训练数据集及标签，测试数据集及标签。

所述步骤（5）具体为：将眼部训练数据集作为输入，采用机器学习中的XGBoost分类器进行眨眼判别的训练，根据正确率这一指标来评价XGBoost的分类效果，最终将训练达标的XGBoost分类器应用到测试数据集，实现眨眼的自动帧级预测。

本发明的有益效果是：

1、本发明针对眼部视频图像序列，基于DeepLabCut软件对获取的视频进行相关动态标记，量化眼部标记点坐标。除去标记少量样本的时间，整个预处理过程省时省力，并能克服亮度等不同条件下引起的眼部标记点定位误差；

2、本发明结合DeepLabCut中的深度学习、特征提取、极端梯度增强算法（XGBoost）分类器机器学习等技术实现自动眨眼检测，相对于传统评价方法更为客观、准确。

3、本发明实现简单易于推广和延伸，可以在任何场地使用支架、自拍杆等工具固定摄像装置或手机，捕捉眨眼视频。实用便捷的同时，有效地降低记录设备成本并且增大实际应用范围。

附图说明

图1是本发明实施例的方法流程图；

图2是本发明实施例眼部采集视频中不同个体、不同光线下的六帧图像；其中（a）为一个体在暗光线下的三帧眨眼过程图像，（b）为另一个体在亮光线下的三帧眨眼过程图像；

图3是本发明实施例眼部6个关键标记点示意图；

图4是根据实施例示出的一种装置的框图；

图5是本发明的一种电子设备的示意图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。具体地，如本实施例中采用的是机器学习中的极端梯度增强算法（XGBoost）分类器，可将其更换为机器学习中的其他分类器，当技术方案的结合出现也在本申请要求的保护范围之内。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面将结合图1、图2和图3，通过具体实施例，对本发明进行详细说明：

图1为本发明实施例中的方法流程图，包括如下步骤：

（1）获取眨眼视频和眨眼标签：通过摄像机或手机进行视频拍摄，采集静坐状态下足够表征的单眼视频。特别地应注重采集眼部视频的多样性，如不同个体、不同光线下的采集。图2为本发明实施例采集视频中不同个体、不同光线下的几帧图像结果。将采集到的视频上传至电脑，采用视频编辑软件（Adobe Premiere Pro）进行眼部视频眨眼动作的识别，读取并采用帧数记录眨眼开始时间点和眨眼时长，制作出对应视频时间序列的眨眼标签。

（2）运用DeepLabCut软件进行预处理，具体为：

a.采用K均值聚类算法（K-means）对视频的所有帧进行分析，提取100张不同帧的眼部图像，以一致的方式进行人眼关键点的标记。具体如图3所示，标明了本发明示例性实施例眼部标记点的位置，同理，如果是另一只眼睛也是采用相同的标记点；

b.基于100帧眼部图像标记前后的两组结果，生成DeepLabCut软件的训练数据；

c.以未标记的训练图像作为输入，标记后的训练图像作为输出，训练DeepLabCut内置的Resnet_50深度残差神经网络，经过10万次迭代后，形成训练完成的神经网络，并根据预测出来相应的输出位置坐标来评价训练完的神经网络，当预测输出位置坐标与实际坐标误差小于5%后，认为训练的Resnet_50深度残差神经网络已达标。

d.对全部的视频采用训练精度已达标的Resnet_50神经网络进行逐帧预测，输出人眼关键标记点的位置坐标参数及置信度。如图3所示，所述的眼部关键标记点为6个，其中4个位于眼睛的上下眼睑，2个位于眼睛的左右眼角；对每一个眼部关键标记点做标记，在图片上从左眼角开始按顺时针分别记为：p1，p2 ，p3……p6，最终每个关键点坐标用(x, y)表示，其中坐标系原点为图片的左上角。之后采用相关公式计算出眼部的上眼睑变化率（Upper Eyelid Change Rate）和眼睛纵横比(Eye Aspect Ratio) 作为判断眨眼的重要特征向量。

（3）提取多个眨眼判断的特征向量：根据人眼关键点坐标，利用下述公式计算各帧图像上上眼睑变化率和眼睛纵横比。

上眼睑变化率（Upper Eyelid Change Rate：UECR）的数学表达公式为：

其中，y_n代表帧数为n时，上眼睑p2或p3的y轴坐标值；

y_n+1代表帧数为n+1时，上眼睑p2或p3的y轴坐标值。

眼睛纵横比（Eye Aspect Ratio：EAR）的数学表达公式为：

其中，

表示欧式距离。

（4）构建眨眼判别的相关数据集，其构成如表1所示，其中包含p2处上眼睑变化率、p3处上眼睑变化率、眼睛横纵比这些重要的眼部特征向量以及对应当前帧的眨眼标签。具体实施例中的眨眼数据集是将全部1000帧的数据集，以8:2的比例按时间顺序划分出带标签的训练数据集和带标签的测试数据集。

表1 眨眼数据集的构成

（5）将划分好的眼部训练数据集作为输入，采用机器学习中的极端梯度增强算法（XGBoost）分类器进行眨眼判别的训练，依据正确率这一指标评价XGBoost的分类效果，当预测结果与实际结果误差小于5%后，认为训练的XGBoost分类器模型已达标；最后将训练已达标的XGBoost分类器模型保存并应用到测试数据集上，实现眨眼的自动帧级预测，本实施例中测试数据集的最终预测精度达到96.44%。

如图4所示，根据本申请实施例的第二方面，提供一种基于DeepLabCut的自动眨眼检测装置，包括：

识别模块11：用于通过摄像装置采集眨眼过程的单眼视频，获得视频流数据后，采用视频编辑软件对需处理的眼部视频进行眨眼动作的识别，采用帧数读取并记录眨眼时间点和眨眼时长，制作基于时间序列的眨眼标签；

自动追踪模块12：用于运用DeepLabCut软件进行预处理，所述预处理是DeepLabCut软件通过深度神经网络学习带人眼关键标记点的图像后，得到训练达标的神经网络；之后再将识别模块获得的眼部视频输入已训练达标的神经网络，输出在各帧图像中眼部的各个标记点的坐标及置信度，即对视频中眼部标记点进行自动追踪；

计算模块13：用于基于自动追踪模块捕捉到的多个眼部标记点坐标，采用变化率，横纵比公式计算出视频各帧图像中判断眨眼的重要特征向量；所述重要特征向量具体包括上眼睑变化率和眼睛纵横比；

制作模块14：用于利用计算模块计算得到的重要特征向量，制作眼部数据集，所述眼部数据集包括带标签的训练数据集；

训练模块15：用于将制作模块获得的训练数据集放入机器学习的分类器中，进行模型训练得到训练达标的模型分类器；最后训练达标的模型分类器对测试数据集进行眨眼的自动判断。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其上存

储有计算机指令，该指令被处理器执行时实现如第一方面所述的基于DeepLabCut的自动眨眼检测方法的步骤。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于DeepLabCut的自动眨眼检测方法。如图5所示，为本发明实施例提供的基于DeepLabCut的自动眨眼检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于DeepLabCut的自动眨眼检测方法。所述计算机可读存储介质可以是前述任一实施例所述前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于DeepLabCut的自动眨眼检测方法，其特征在于，包括以下步骤：

（2）运用DeepLabCut软件进行预处理，所述预处理是DeepLabCut软件通过深度神经网络学习带人眼关键标记点的图像后，得到训练达标的神经网络；之后再将步骤（1）获得的眼部视频输入已训练达标的神经网络，输出在各帧图像中眼部的各个标记点的坐标及置信度，即对视频中眼部标记点进行自动追踪；具体为：

（2.1）采用K均值聚类算法对视频的所有帧进行分析，并提取J_n张不同帧的人眼图像进行人眼关键点的标记；从左眼角开始按顺时针的方式标记多样性人眼图像，标记时不同图像上的眼部标记点位置保持一致；

（2.4）对全部的视频采用上述训练精度已达标的Resnet_50深度残差神经网络进行逐帧预测，即对眼部视频进行标记点的自动追踪，输出全部的人眼关键标记点的X坐标、Y坐标及置信度；

（3）基于步骤（2）中捕捉到的多个眼部标记点坐标，采用上眼睑变化率，眼睛横纵比公式计算出视频各帧图像中判断眨眼的重要特征向量；所述重要特征向量具体包括上眼睑变化率和眼睛纵横比；

2.根据权利要求1所述的基于DeepLabCut的自动眨眼检测方法，其特征在于，所述步骤（1）中视频采集时需将所述摄像装置设置在可采集人眼的位置，从摄像装置中获取事件视频流数据；根据视频被检测者是否存在闭眼情况，若判断为是，则对应当前帧数的前一帧为闭眼，记录为本次闭眼的开始帧数和时长帧数；分析完采集的全部视频后，得到步骤（1）中被检测者眼部视频和基于时间序列的眨眼标签。

3.根据权利要求1所述的基于DeepLabCut的自动眨眼检测方法，其特征在于，所述步骤（3）中的眼部关键标记点为6个，其中4个位于眼睛的上下眼睑，2个位于眼睛的左右眼角；并对每一个眼部关键标记点做标记，在图片上从左眼角开始按顺时针分别记为：p1，p2 ，p3……p6其中每个关键点用坐标来表示；然后采用上眼睑变化率公式和眼睛纵横比公式分别计算出眼部的上眼睑变化率和眼睛纵横比作为判断眨眼的重要特征向量；

所述上眼睑变化率UECR的数学表达公式为：

所述眼睛纵横比EAR的数学表达公式为：

其中， y_n代表帧数为n时，上眼睑p2或p3的y轴坐标值；y_n+1代表帧数为n+1时，上眼睑p2 或p3的y轴坐标值；

表示欧式距离。

4.根据权利要求1所述的基于DeepLabCut的自动眨眼检测方法，其特征在于，所述步骤（4）的眼部数据集是结合步骤（1）的眨眼标签与步骤（3）的眼部特征向量制作而成，具体包括训练数据集及标签，测试数据集及标签。

5.根据权利要求1所述的基于DeepLabCut的自动眨眼检测方法，其特征在于，所述步骤（5）具体为：将眼部训练数据集作为输入，采用机器学习中的XGBoost分类器进行眨眼判别的训练，根据正确率这一指标来评价XGBoost的分类效果，最终将训练达标的XGBoost分类器应用到测试数据集，实现眨眼的自动帧级预测。

6.一种基于DeepLabCut的自动眨眼检测装置，其特征在于，包括：

自动追踪模块：用于运用DeepLabCut软件进行预处理，所述预处理是DeepLabCut软件通过深度神经网络学习带人眼关键标记点的图像后，得到训练达标的神经网络；之后再将步骤（1）获得的眼部视频输入已训练达标的神经网络，输出在各帧图像中眼部的各个标记点的坐标及置信度，即对视频中眼部标记点进行自动追踪；具体为：

采用K均值聚类算法对视频的所有帧进行分析，并提取J_n张不同帧的人眼图像进行人眼关键点的标记；从左眼角开始按顺时针的方式标记多样性人眼图像，标记时不同图像上的眼部标记点位置保持一致；基于已标记的若干张不同帧的人眼图像结果生成训练数据；使用上述训练数据，训练一个Resnet_50深度残差神经网络，经过Nstep个迭代次数或损失函数达到收敛后，形成训练完的神经网络，并根据相应的输出位置坐标来评价训练完成的网络；对全部的视频采用上述训练精度已达标的Resnet_50深度残差神经网络进行逐帧预测，即对眼部视频进行标记点的自动追踪，输出全部的人眼关键标记点的X坐标、Y坐标及置信度；

计算模块：用于基于捕捉到的多个眼部标记点坐标，采用上眼睑变化率，眼睛横纵比公式计算出视频各帧图像中判断眨眼的重要特征向量；所述重要特征向量具体包括上眼睑变化率和眼睛纵横比；

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如

权利要求1-5任一项所述的基DeepLabCut的自动眨眼检测方法。

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-5中任一项所述的基于DeepLabCut的自动眨眼检测方法的步骤。