CN111126347B

CN111126347B - 人眼状态识别方法、装置、终端及可读存储介质

Info

Publication number: CN111126347B
Application number: CN202010010745.1A
Authority: CN
Inventors: 贺珂珂; 杨思骞; 葛彦昊; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2024-02-20
Anticipated expiration: 2040-01-06
Also published as: CN111126347A

Abstract

本发明实施例提供了一种人眼状态识别方法、装置、终端及可读存储介质，其中，所述方法包括：预先通过关键点判断规则对至少一个训练图像进行人眼状态标注得到标注图像集，利用所述标注图像集对至少一个网络模型进行训练得到至少一个识别模型；预先调用所述至少一个识别模型对至少一个样本图像进行人眼状态识别后筛选具备相同人眼状态的图像得到筛选图像集，利用所述筛选图像集对初始识别模型进行训练得到人眼状态识别模型；获取目标人脸图像，所述目标人脸图像中包括人眼；调用所述人眼状态识别模型对所述目标人脸图像进行人眼状态识别，得到识别结果。通过实施本发明实施例，可以提高人眼状态识别的效率。

Description

人眼状态识别方法、装置、终端及可读存储介质

技术

本发明涉及人工智能技术，尤其涉及一种人眼状态识别方法、装置、终端及可读存储介质。

背景技术

人眼状态识别即判断人的眼睛是否张开，该技术应用广泛。如可以用于疲劳检测，也可以用于判断拍摄的图像是否合格等等。目前，主要是将人眼状态识别转化为机器学习中的一个有监督学习的问题进行处理，通过采集一些闭眼的图像和睁眼的图像，构建神经网络模型进行2分类来识别是否张开。

但是，有监督学习依赖大规模标注数据进行模型训练，而标注数据是由人工进行标注获得的。并且，自然分布的图像中闭眼的数据很少，需要标注更大规模的图像才能获得一定量的闭眼数据，人工标注的工作量大且成本高，导致人眼状态识别的效率低。

发明内容

本发明实施例提供了一种人眼状态识别方法、装置、终端及可读存储介质，提高了人眼状态识别的效率。

第一方面，本发明实施例提供了一种人眼状态识别方法、装置、终端及可读存储介质，该人眼状态识别方法包括：预先通过关键点判断规则对至少一个训练图像进行人眼状态标注得到标注图像集，利用标注图像集对至少一个网络模型进行训练得到至少一个识别模型；预先调用至少一个识别模型对至少一个样本图像进行人眼状态识别后筛选具备相同人眼状态的图像得到筛选图像集，利用筛选图像集对初始识别模型进行训练得到人眼状态识别模型；获取目标人脸图像，目标人脸图像中包括人眼；调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果，其中，识别结果用于指示目标人脸图像中人眼的状态。

在一种实现方式中，至少一个识别模型包括第一识别模型和第二识别模型，调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果之前，还包括：获取第一图像集，该第一图像集中包括至少一个样本图像，样本图像中包括人眼；调用第一识别模型和第二识别模型分别对第一图像集中的样本图像进行人眼状态识别，对应得到第一识别结果集和第二识别结果集，该第一识别结果集和第二识别结果集用于指示第一图像集中每个样本图像中人眼的状态；筛选出第一识别结果集和第二识别结果集中具备相同人眼的状态的样本图像，得到筛选图像集；利用筛选图像集对初始识别模型进行训练，得到人眼状态识别模型。

在一种实现方式中，调用第一识别模型和第二识别模型分别对第一图像集中的样本图像进行人眼状态识别之前，还包括：获取第二图像集，该第二图像集中包括至少一个训练图像；采用关键点判断规则对第二图像集中的训练图像进行人眼状态标注，得到包括至少一个标注图像的标注图像集；利用标注图像集分别训练第一网络模型和第二网络模型，得到第一识别模型和第二识别模型。

在一种实现方式中，采用关键点判断规则对第二图像集中的训练图像进行人眼状态标注，得到包括至少一个标注图像的标注图像集包括：采用关键点检测算法对训练图像中的人眼进行关键点检测，得到样本图像中人眼的关键点；根据人眼的关键点计算人眼的闭合程度；若人眼的闭合程度小于闭合阈值，则对训练图像进行人眼状态标注得到标注图像，标注图像用于指示人眼的状态为闭眼；若人眼的闭合程度大于或等于闭合阈值，则对训练图像进行标注得到标注图像，标注图像用于指示人眼的状态为睁眼。

在一种实现方式中，根据人眼的关键点计算人眼的闭合程度包括：根据人眼的关键点计算人眼的眼角距离和上下眼皮距离；对眼角距离和上下眼皮距离进行归一化计算，得到人眼的闭合程度。

在一种实现方式中，利用标注图像集分别训练第一网络模型和第二网络模型，得到第一识别模型和第二识别模型包括：利用标注图像集并结合噪声容忍损失函数对第一网络模型和第二网络模型进行训练，得到第一识别模型和第二识别模型；其中，噪声容忍损失函数用于指示预测人眼状态与标注人眼状态之间的损失值，标注人眼状态为标注图像中标注的人眼的状态，预测人眼状态为采用目标网络模型对标注图像进行人眼状态预测得到的人眼的状态，目标网络模型为第一网络模型或第二网络模型。

在一种实现方式中，利用标注图像集并结合噪声容忍损失函数对第一网络模型和第二网络模型进行训练，得到第一识别模型和第二识别模型包括：采用噪声容忍损失函数对标注图像集中的k个标注图像进行损失值计算，得到k个损失值，损失值为标注人眼状态和预测人眼状态之间的损失值；从k个损失值中，选取损失值小于第一阈值的m个损失值，k和m为正整数；利用选取的m个损失值对目标网络模型的网络参数进行更新。

在一种实现方式中，噪声容忍损失函数如下公式所示：

其中，s_j表示对预测结果进行归一化，y_i表示标注图像指示的人眼的状态，预测结果用于指示采用目标网络模型对标注图像进行人眼状态预测得到的结果。

第二方面，本发明实施例提供了一种人眼状态识别装置，该人眼状态识别装置包括：

处理单元，用于预先通过关键点判断规则对至少一个训练图像进行人眼状态标注得到标注图像集，利用标注图像集对至少一个网络模型进行训练得到至少一个识别模型；预先调用至少一个识别模型对至少一个样本图像进行人眼状态识别后筛选具备相同人眼状态的图像得到筛选图像集，利用筛选图像集对初始识别模型进行训练得到人眼状态识别模型；

获取单元，用于获取目标人脸图像，目标人脸图像中包括人眼；

识别单元，用于调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果，其中，识别结果用于指示目标人脸图像中人眼的状态。

第三方面，本发明实施例提供了一种终端设备，该终端设备包括：

存储器，该存储器包括计算机可读指令；

与存储器相连的处理器，该处理器用于执行所述计算机可读指令，从而使得终端设备执行如上第一方面或第一方面的任意可能的实施方式中所描述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如上第一方面或第一方面的任意可能的实施方式中所描述的方法。

本发明实施例中，预先通过关键点判断规则对至少一个训练图像进行人眼状态标注得到标注图像集，利用标注图像集对至少一个网络模型进行训练得到至少一个识别模型；预先调用至少一个识别模型对至少一个样本图像进行人眼状态识别后筛选具备相同人眼状态的图像得到筛选图像集，利用筛选图像集对初始识别模型进行训练得到人眼状态识别模型；进而终端设备获取目标人脸图像，目标人脸图像中包括人眼；调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果，其中，识别结果用于指示目标人脸图像中人眼的状态。由此可见，终端设备可以在无人工对图像进行标注的情况下实现人眼状态识别，并提高了人眼状态识别的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提出的一种人眼状态识别方法的流程示意图；

图2是本发明实施例提供的一种人眼状态识别示意图；

图3是本发明实施例提出的一种人眼状态识别方法的流程示意图；

图4是本发明实施例提出的一种人眼状态识别方法的流程示意图；

图5是本发明实施例提供的一种人脸关键点的效果示意图；

图6是本发明实施例提供的一种可能的人眼状态识别方法的框架示意图；

图7是本发明实施例提供的一种人眼状态识别装置的结构示意图；

图8是本发明实施例提供的一种终端设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明使用的术语仅仅是出于描述特定实施例的目的，而非限制本发明。本发明和权利要求书所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。应当理解的是，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

本发明实施例提出的一种人眼状态识别方法，可以采用终端设备或服务器进行执行。其中，终端设备可以包括但不限于：台式电脑、智能手机、平板电脑、膝上计算机等具有通信和存储记忆功能的设备。

请参见图1，图1是本发明实施例提出的一种人眼状态识别方法的流程示意图，该人眼状态识别方法可包括如下步骤S101-S102：

S101：终端设备获取目标人脸图像。

终端设备获取目标人脸图像，该目标人脸图像中包括人眼。其中，目标人脸图像为包括人脸的图像，如目标人脸图像可以为通过获取摄像头采集的视频中的人脸图像，又如该目标人脸图像可以为在互联网上下载的包括人脸的图片。以将人眼状态识别方法应用于疲劳检测为例，该目标人脸图像可以为通过疲劳检测设备的摄像头拍摄的人物照片。可选地，终端设备获取到目标人脸图像之后，可对获取到的图像进行人脸区域裁剪。

S102：终端设备调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果。

终端设备调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果。其中，人眼状态识别模型为根据筛选图像集预先训练得到，该筛选图像集包括调用至少一个识别模型对至少一个样本图像进行人眼状态识别后筛选的具备相同人眼状态的图像，训练人眼状态识别模型的具体实施方式请参考下文详述；该至少一个识别模型利用标注图像集对至少一个网络模型进行训练得到，标注图像集通过关键点判断规则对至少一个训练图像进行人眼状态标注得到，具体实施方式请参考下文详述。其次，识别结果用于指示目标人脸图像中人眼的状态，该人眼的状态可包括闭眼和睁眼两种状态。举例来说，以将人眼状态识别方法应用于疲劳检测为例，请参见图2，图2是本发明实施例提供的一种人眼状态识别示意图。如图所示，终端设备调用人眼状态识别模型对图中目标人脸图像进行人眼状态识别，得到的识别结果为人眼的状态为闭眼，终端设备可通过用户界面提醒用户“图片不合规请重新上传”。

请参见图3，图3是本发明实施例提出的一种人眼状态识别方法的流程示意图，该人眼状态识别方法可包括如下步骤S301-S304：

S301：终端设备获取第一图像集。

终端设备获取第一图像集。其中，第一图像集中包括至少一个样本图像，该样本图像的个数不做限制，可根据实际需求自定义设置，并且该样本图像中包括人眼。获取第一图像集的具体实施方式不做限定，例如终端设备可采用聚焦爬虫算法从互联网中爬取包括人脸的图片作为样本图像，得到第一图像集；又如终端设备可从公开人脸数据库(如WebFace、FaceScrub、YouTube Face等等)中获取第一图像集；再如终端设备可通过摄像头采集不同场景下不同人物的照片，得到第一图像集。

S302：终端设备调用第一识别模型和第二识别模型分别对第一图像集中的样本图像进行人眼状态识别，对应得到第一识别结果集和第二识别结果集，第一识别结果集和第二识别结果集用于指示第一图像集中每个样本图像中人眼的状态。

终端设备调用第一识别模型对第一图像集中的样本图像进行人眼状态识别，对应得到第一识别结果集，该第一识别结果集用于指示第一图像集中每个样本图像中人眼的状态。进而终端设备调用第二识别模型对第一图像集中的样本图像进行人眼状态识别，对应得到第二识别结果集，该第二识别结果集用于指示第一图像集中每个样本图像中人眼的状态。

S303：终端设备筛选出第一识别结果集和第二识别结果集中具备相同人眼的状态的样本图像，得到筛选图像集。

终端设备通过对比第一识别结果集和第二识别结果集中每个样本图像中人眼的状态，筛选出第一识别结果集和第二识别结果集中具备相同人眼的状态的样本图像，得到筛选图像集。具体地，以目标样本图像为例，该目标样本图像为第一图像集中的任一样本图像。请参见表1，表1是本发明实施例提供的一种可能的目标样本图像中人眼的状态分类情况。

表1目标样本图像中人眼的状态分类情况

其中，分类1表示第一识别结果集中的识别结果指示目标样本图像中的人眼的状态为闭眼，且第二识别结果集中的识别结果指示目标样本图像中的人眼的状态也为闭眼；分类2表示第一识别结果集中的识别结果指示目标样本图像中的人眼的状态为闭眼，且第二识别结果集中的识别结果指示目标样本图像中的人眼的状态也为睁眼；分类3表示第一识别结果集中的识别结果指示目标样本图像中的人眼的状态为睁眼，且第二识别结果集中的识别结果指示目标样本图像中的人眼的状态也为闭眼；分类4表示第一识别结果集中的识别结果指示目标样本图像中的人眼的状态为睁眼，且第二识别结果集中的识别结果指示目标样本图像中的人眼的状态也为睁眼。若目标样本图像中人眼的状态分类情况为分类1或者分类4，则将该目标样本图像的识别结果作为该目标样本图像的标签，并将该目标样本图像放入筛选图像集；若目标样本图像中人眼的状态分类情况为分类2或者分类3，则忽略该目标样本图像。

可选的，终端设备可调用至少一个识别模型分别对第一图像集中的样本图像进行人眼状态识别，对应得到至少一个识别结果集，每一个识别结果集用于指示第一图像集中每个样本图像中人眼的状态。进而终端设备筛选出每一个识别结果集中具备相同人眼的状态的样本图像，得到筛选图像集，筛选的具体实施方式与上述方法相似，这里不再赘述。

S304：终端设备利用筛选图像集对初始识别模型进行训练，得到人眼状态识别模型。

其中，初始识别模型为神经网络模型，该神经网络可以包括但不限于卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Networks，DNN)、残差网络(Residual Networks，ResNet)等等。举例来说，该初始识别模型可以为残差网络模型ResNet18-small，该残差网络模型ResNet18-small为对残差网络ResNet18中每层网络的信道(channel)减半得到的。该网络模型更加简洁，预测效率更高。终端设备利用筛选图像集对初始识别模型进行训练，得到人眼状态识别模型。

本发明实施例中，终端设备获取第一图像集，该第一图像集中包括至少一个样本图像，该样本图像中包括人眼；终端设备调用第一识别模型和第二识别模型分别对第一图像集中的样本图像进行人眼状态识别，对应得到第一识别结果集和第二识别结果集，该第一识别结果集和第二识别结果集用于指示第一图像集中每个样本图像中人眼的状态；进而筛选出第一识别结果集和第二识别结果集中具备相同人眼的状态的样本图像，得到筛选图像集；终端设备利用该筛选图像集对初始识别模型进行训练，得到人眼状态识别模型。由此可见，终端设备可以通过第一识别模型和第二识别模型得到筛选图像集，避免了采用人工标注的方法。

请参见图4，图4是本发明实施例提出的一种人眼状态识别方法的流程示意图，该人眼状态识别方法可包括如下步骤S401-S403：

S401：终端设备获取第二图像集。

其中，第二图像集与步骤S401中的第一图像集可为同一图像集，第二图像集也可为终端设备再次获取得到，获取第二图像集的方式不做限定，可与获取第一图像集的方式相同，这里不再赘述。进而第二图像集中训练图像的个数不做限制，可根据实际需求自定义设置，该第二图像集包括至少一个训练图像，该训练图像中包括人眼。

S402：终端设备采用关键点判断规则对第二图像集中的训练图像进行人眼状态标注，得到包括至少一个标注图像的标注图像集。

其中，标注图像集中标注图像的个数不做限制，可与第二图像集中的训练图像的个数相同，且训练图像与标注图像一一对应；也根据实际需求自定义设置，选取第二图像集中的部分训练图像。下面以一个目标训练图像为例，阐述终端设备采用关键点判断规则对目标训练图像进行人眼状态标注的具体实施方式。

终端设备采用关键点检测算法对目标训练图像中的人眼进行关键点检测，得到目标训练图像中人眼的关键点；进而根据人眼的关键点计算人眼的闭合程度；若人眼的闭合程度小于闭合阈值，则对目标训练图像进行人眼状态标注得到标注图像，标注图像用于指示人眼的状态为闭眼；若人眼的闭合程度大于或等于闭合阈值，则对目标训练图像进行标注得到标注图像，标注图像用于指示人眼的状态为睁眼。

具体地，终端设备利用人脸关键点检测算法对目标训练图像中的人脸进行关键点检测，得到目标训练图像中人眼的关键点。在具体实施时，终端设备可以调用用于人脸关键点检测软件开发工具包(Software Development Kit，SDK)得到目标训练图像中的人脸的关键点。请参见图5，图5是本发明实施例提供的一种人脸关键点的效果示意图。如图所示，终端设备可以得到目标训练图像中的人脸的90个关键点，本发明实施例可只关注人眼的关键点。以图像中的左眼为例，以左眼眼角序号为16的关键点开始，以逆时针方向可以依次得到共8个序号分别为16、17、18、19、20、21、22、23的关键点。

进而终端设备根据人眼的关键点计算人眼的眼角距离和上下眼皮距离，示例性地，终端设备采用如下公式(1)计算得到眼角距离：

two_corner_dis＝distance(P16,P20) 公式(1)

其中，two_corner_dis表示眼角距离，distance表示欧式距离，P16表示序号为16的人眼关键点，P20表示序号为20的人眼关键点。

终端设备采用如下公式(2)计算得到上下眼皮距离：

upper_lower_dis＝distance(P23,P17)+distance(P22,P18)+distance(P21,P19) 公式(2)

其中，upper_lower_dis表示上下眼皮距离，distance表示欧式距离，P17表示序号为17的人眼关键点，P23表示序号为23的人眼关键点，P18表示序号为18的人眼关键点，P22表示序号为22的人眼关键点，P19表示序号为19的人眼关键点，P21表示序号为21的人眼关键点。

进而终端设备对眼角距离和上下眼皮距离进行归一化计算，得到人眼的闭合程度。示例性地，终端设备采用如下公式(3)计算人眼的闭合程度：

close_degree＝upper_lower_dis/two_corner_dis 公式(3)

其中，close_degree表示人眼的闭合程度。

进一步地，若人眼的闭合程度小于闭合阈值，则对目标训练图像进行人眼状态标注得到标注图像，标注图像用于指示人眼的状态为闭眼；若人眼的闭合程度大于或等于闭合阈值，则对目标训练图像进行标注得到标注图像，标注图像用于指示人眼的状态为睁眼。其中，闭合阈值为自定义设置的，如研究人员根据人眼状态识别的准确率等指标对闭合阈值进行取值。举例来说，假设闭合阈值设置为0.14，当闭合程度为0.12时，闭合程度close_degree＜闭合阈值thers，则确定人眼状态为闭眼，对目标训练图像标注为1，1为标签，得到标注图像；当闭合程度为0.42时，闭合程度close_degree＞闭合阈值thers，则确定人眼状态为睁眼，对目标训练图像标注为0，0为标签，得到标注图像。

S403：终端设备利用标注图像集分别训练第一网络模型和第二网络模型，得到第一识别模型和第二识别模型。

终端设备利用标注图像集并结合噪声容忍损失函数对第一网络模型和第二网络模型进行训练，得到第一识别模型和第二识别模型；其中，噪声容忍损失函数用于指示预测人眼状态与标注人眼状态之间的损失值，该标注人眼状态为标注图像中标注的人眼的状态，该预测人眼状态为采用目标网络模型对标注图像进行人眼状态预测得到的人眼的状态，该目标网络模型为第一网络模型或第二网络模型。第一网络模型和第二网络模型均为神经网络模型，该神经网络可以包括但不限于卷积神经网络(Convolutional NeuralNetworks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(DeepNeural Networks，DNN)、残差网络(Residual Networks，ResNet)等等。举例来说，该初始识别模型可以为残差网络模型ResNet18-small，该残差网络模型ResNet18-small为对残差网络ResNet18中每层网络的信道(channel)减半得到的。该网络模型更加简洁，预测效率更高。

具体地，终端设备利用标注图像集1并结合噪声容忍损失函数训练第一网络模型，得到第一识别模型；终端设备利用标注图像集2并结合噪声容忍损失函数训练第二网络模型，得到第二识别模型。其中，标注图像集1和标注图像集2可以为标注图像集，也可以由标注图像中的一部分标注图像组成的，如将标注图像集按预设比例拆分成标注图像集1和标注图像集2，该预设比例不做限制，如以比例1:1随机拆分标注图像集得到标注图像集1和标注图像集2。举例来说，若标注图像集中包括300万个标注图像，以比例1:1随机拆分，则标注图像集1包括150万个标注图像，标注图像集2也包括150万个标注图像。下面以目标网络为例详细阐述利用目标标注图像集并结合噪声容忍损失函数训练目标网络模型的具体实施方式，包括以下步骤S11-S13。其中，目标网络模型为第一网络模型或者第二网络模型，目标标注图像集为标注图像集1或者标注图像集2。

S11、终端设备采用噪声容忍损失函数计算k个损失值。

在具体实施时，由于终端设备的硬件条件限制等因素，一次选取目标标注图像集中k个标注图像对目标网络模型进行训练，该k个标注图像可以称为一次批(batch)，k为该批的批尺寸(batch size)。终端设备采用噪声容忍损失函数计算k个损失值，该损失值为标注人眼状态和预测人眼状态之间的损失值。其中，k为正整数，k的取值不做限制，例如k为200。

下面以一个标注图像为例阐述计算损失值的具体实施方式，示例性地，采用如下公式(4)所示的噪声容忍损失函数计算损失值：

其中，s_j表示对预测结果进行归一化，y_i表示标注图像指示的人眼的状态。其中，预测结果用于指示采用目标网络模型对所述标注图像进行人眼状态预测得到的结果。示例性地，采用如下公式(5)对预测结果进行归一化。

其中，a_j表示预测结果，T表示预测结果指示的人眼状态的类别。举例来说，假设预测结果为其中，0表示睁眼，1表示闭眼。则人眼状态的类别1为睁眼，人眼状态的类别2为闭眼。则预测结果a_j的值为0.9；T的值为0时，a_k的值为0.9；T的值为1时，a_k的值为0.1。

S12、终端设备从k个损失值中，选取损失值小于第一阈值的m个损失值，m为正整数。

由于标注图像是采用关键点判断规则进行标注的，其标注的准确率不高，因此需删除较大损失值，可以提高识别模型的性能。以下示出两种可能的实施方式。

在一种实施例中，终端设备对k个损失值由从小到大进行排序，将第k-m个损失值作为第一阈值，删除排在第k-m个损失值后的损失值，得到m个损失值；其中，排序的具体实施方式不做限制，终端设备也可对k个损失值从大到小进行排序。m的取值不做限制，例如，m为2，k为200，则k-m为198，即选取198个损失值。

在一种实施例中，终端设备自定义设置第一阈值，若k个损失值中某个损失值大于第一阈值，则删除该损失值，得到m个损失值。

S13、终端设备利用选取的m个损失值对目标网络模型的网络参数进行更新。

终端设备可对m个损失值求平均得到平均值后，将该平均值回传，以调整目标网络模型的网络参数。

进一步地，迭代步骤S11-S13，以使目标网络模型将目标标注图像集中的标注图像学习完成，得到目标网络模型模型对应的识别模型。

可选地，终端设备可对比标注图像的标签与预测结果，若标签与预测结果指示的人眼状态一致，则可将该标注图像放入筛选图像集，用于训练初始识别模型。

为更直观地了解本发明实施例，下面请参见图6示出本发明实施例的一种可能的人眼状态识别方法的框架示意图。如图6中所示：

S601：终端设备获取样本图像集，该样本图像集中包括300万样本图像。

S602：终端设备对样本图像集中每个样本图像进行人脸关键点检测，得到人脸关键点，该人脸关键点中包括人眼的关键点。

S603：终端设备采用关键点判断规则，对300万样本图像进行标注，产生300万标注图像(也可称为粗标签)。

S604：将300万标注图像均分成标注图像集A和标注图像集B。即标注图像集A包括150万标注图像；该标注图像集B包括150万标注图像。

S605：终端设备利用注图像集A并结合噪声容忍损失函数训练残差网络模型ResNet18-small A；终端设备利用标注图像集B并结合噪声容忍损失函数训练残差网络模型ResNet18-small B。

S606：终端设备采用训练后的ResNet18-small A对300万样本图像进行人眼状态识别，得到包括300万识别结果的识别结果集A。终端设备采用训练后的ResNet18-small B对300万样本图像进行人眼状态识别，得到包括300万识别结果的识别结果集B。

S607：若识别结果集A和识别结果集B中的识别结果指示的人眼状态一致，则该识别结果对应的样本图像可作为筛选图像，最后形成筛选图像集(也可称为细标签)。

S608：利用筛选图像集训练ResNet18-small F得到人眼状态识别模型。

本发明实施例中，终端设备获取第二图像集，该第二图像集中包括至少一个训练图像；进而采用关键点判断规则对第二图像集中的训练图像进行人眼状态标注，得到包括至少一个标注图像的标注图像集；最后利用标注图像集分别训练第一网络模型和第二网络模型，得到第一识别模型和第二识别模型。由此可见，终端设备采用关键点判断规则对图像进行粗略标注后，再对第一网络模型和第二网络模型进行训练，得到第一识别模型和第二识别模型，可以提高模型的识别准确率，提高后续筛选图像集中的标签的正确率。

请参见图7，图7是本发明实施例提供的一种人眼状态识别装置的结构示意图，该人眼状态识别装置具体可为一种计算机设备，用于执行图1-图6任一所示方法步骤，人眼状态识别装置70可以包括获取单元701和识别单元702。其中：

处理单元701，用于预先通过关键点判断规则对至少一个训练图像进行人眼状态标注得到标注图像集，利用标注图像集对至少一个网络模型进行训练得到至少一个识别模型；预先调用至少一个识别模型对至少一个样本图像进行人眼状态识别后筛选具备相同人眼状态的图像得到筛选图像集，利用筛选图像集对初始识别模型进行训练得到人眼状态识别模型；

获取单元702，用于获取目标人脸图像，该目标人脸图像中包括人眼；

识别单元703，用于调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果，其中，识别结果用于指示目标人脸图像中人眼的状态。

在一种实现方式中，处理单元701具体用于：

获取第一图像集，该第一图像集中包括至少一个样本图像，样本图像中包括人眼；

调用第一识别模型和第二识别模型分别对第一图像集中的样本图像进行人眼状态识别，对应得到第一识别结果集和第二识别结果集，该第一识别结果集和第二识别结果集用于指示第一图像集中每个样本图像中人眼的状态；

筛选出第一识别结果集和第二识别结果集中具备相同人眼的状态的样本图像，得到筛选图像集；

利用筛选图像集对初始识别模型进行训练，得到人眼状态识别模型。

在一种实现方式中，处理单元701具体用于：

获取第二图像集，该第二图像集中包括至少一个训练图像；

采用关键点判断规则对第二图像集中的训练图像进行人眼状态标注，得到包括至少一个标注图像的标注图像集；

利用标注图像集分别训练第一网络模型和第二网络模型，得到第一识别模型和第二识别模型。

在一种实现方式中，处理单元701具体用于：

采用关键点检测算法对训练图像中的人眼进行关键点检测，得到样本图像中人眼的关键点；

根据人眼的关键点计算人眼的闭合程度；

若人眼的闭合程度小于闭合阈值，则对训练图像进行人眼状态标注得到标注图像，标注图像用于指示人眼的状态为闭眼；

若人眼的闭合程度大于或等于闭合阈值，则对训练图像进行标注得到标注图像，标注图像用于指示人眼的状态为睁眼。

在一种实现方式中，处理单元701具体用于：

根据人眼的关键点计算人眼的眼角距离和上下眼皮距离；

对眼角距离和上下眼皮距离进行归一化计算，得到人眼的闭合程度。

在一种实现方式中，处理单元701具体用于：

利用标注图像集并结合噪声容忍损失函数对第一网络模型和第二网络模型进行训练，得到第一识别模型和第二识别模型；其中，噪声容忍损失函数用于指示预测人眼状态与标注人眼状态之间的损失值，标注人眼状态为标注图像中标注的人眼的状态，预测人眼状态为采用目标网络模型对标注图像进行人眼状态预测得到的人眼的状态，目标网络模型为第一网络模型或第二网络模型。

在一种实现方式中，处理单元701具体用于：

采用噪声容忍损失函数对标注图像集中的k个标注图像进行损失值计算，得到k个损失值，损失值为标注人眼状态和预测人眼状态之间的损失值；

从k个损失值中，选取损失值小于第一阈值的m个损失值，k和m为正整数；利用选取的m个损失值对目标网络模型的网络参数进行更新。

在一种实现方式中，噪声容忍损失函数如下公式所示：

根据本发明的另一个实施例，图7所示的人眼状态识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于人眼状态识别方法的装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端设备的结构示意图。请参见图8，该终端设备80至少包括处理器801、输入设备802、输出设备803以及计算机存储介质804。其中，终端设备内的处理器801、输入设备802、输出设备803以及计算机存储介质804可通过总线或其他方式连接。

计算机存储介质804可以存储在终端设备的存储器中，所述计算机存储介质804用于存储计算机程序，所述计算机程序包括程序指令，所述处理器801用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端设备的记忆终端设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端设备的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非易失的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器801加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述有关人眼状态识别方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或一条以上指令由处理器801加载并执行如下步骤：

预先通过关键点判断规则对至少一个训练图像进行人眼状态标注得到标注图像集，利用标注图像集对至少一个网络模型进行训练得到至少一个识别模型；

预先调用至少一个识别模型对至少一个样本图像进行人眼状态识别后筛选具备相同人眼状态的图像得到筛选图像集，利用筛选图像集对初始识别模型进行训练得到人眼状态识别模型；

获取目标人脸图像，目标人脸图像中包括人眼；

调用人眼状态识别模型对目标人脸图像进行人眼状态识别，得到识别结果，其中，识别结果用于指示目标人脸图像中人眼的状态。

在一种实现方式中，计算机存储介质中的一条或一条以上指令由处理器801加载并执行如下步骤：

获取第二图像集，该第二图像集中包括至少一个训练图像；

在一种实现方式中，在采用关键点判断规则对第二图像集中的训练图像进行人眼状态标注，得到包括至少一个标注图像的标注图像集时，计算机存储介质中的一条或一条以上指令由处理器801加载并执行如下步骤：

根据人眼的关键点计算人眼的闭合程度；

在一种实现方式中，在根据人眼的关键点计算人眼的闭合程度时，计算机存储介质中的一条或一条以上指令由处理器801加载并执行如下步骤：

根据人眼的关键点计算人眼的眼角距离和上下眼皮距离；

在一种实现方式中，在利用标注图像集分别训练第一网络模型和第二网络模型，得到第一识别模型和第二识别模型时，计算机存储介质中的一条或一条以上指令由处理器801加载并执行如下步骤：

在一种实现方式中，在利用标注图像集并结合噪声容忍损失函数对第一网络模型和第二网络模型进行训练，得到第一识别模型和第二识别模型时，计算机存储介质中的一条或一条以上指令由处理器801加载并执行如下步骤：

在一种实现方式中，噪声容忍损失函数如下公式所示：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种人眼状态识别方法，其特征在于，所述方法包括：

获取目标人脸图像，所述目标人脸图像中包括人眼；

调用人眼状态识别模型对所述目标人脸图像进行人眼状态识别，得到用于指示所述目标人脸图像中人眼的状态的识别结果，所述人眼状态识别模型是通过训练初始识别模型得到的；

其中，训练所述初始模型得到所述人眼状态识别模型，包括：

获取第二图像集，所述第二图像集中包括至少一个训练图像；

采用关键点检测算法对所述至少一个训练图像中的人眼进行关键点检测，得到每个训练图像中人眼的关键点；

根据所述人眼的关键点计算所述人眼的眼角距离和上下眼皮距离，所述眼角距离为第一眼角关键点与第二眼角关键点之间的距离，所述上下眼皮距离为第一上眼皮关键点与第一下眼皮关键点之间的距离、第二上眼皮关键点与第二下眼皮关键点之间的距离以及第三上眼皮关键点与第三下眼皮关键点之间的距离的总和；

根据所述眼角距离和所述上下眼皮距离计算所述人眼的闭合程度，所述人眼的闭合程度为所述上下眼皮距离与所述眼角距离之间的商；

若所述人眼的闭合程度小于闭合阈值，则对所述训练图像进行人眼状态标注得到第一标注图像，所述第一标注图像用于指示所述人眼的状态为闭眼；

若所述人眼的闭合程度大于或等于闭合阈值，则对所述训练图像进行人眼状态标注得到第二标注图像，所述第二标注图像用于指示所述人眼的状态为睁眼；

对所述至少一个训练图像中的每个训练图像进行人眼状态标注，得到标注图像集，所述标注图像集包括至少一个标注图像，每个标注图像包括标注人眼状态；

将所述标注图像集按预设比例拆分为至少一个标注图像子集；

利用每个标注图像子集并结合噪声容忍损失函数训练一个网络模型，得到至少一个识别模型；

调用每个识别模型对所述标注图像集中的每个标注图像进行人眼状态预测，以筛选各个识别模型输出的预测人眼状态相同且预测人眼状态与标注人眼状态一致的标注图像，得到筛选图像集；

利用所述筛选图像集对所述初始识别模型进行训练得到所述人眼状态识别模型；

其中，利用目标标注图像子集并结合噪声容忍损失函数训练目标网络模型，包括：采用所述噪声容忍损失函数对所述目标标注图像子集中的k个标注图像进行损失值计算，得到k个损失值，所述损失值为所述标注人眼状态和所述预测人眼状态之间的损失值；从所述k个损失值中，选取损失值小于第一阈值的m个损失值，k和m为正整数；利用选取的所述m个损失值对所述目标网络模型的网络参数进行更新，所述目标标注图像子集为所述至少一个标注图像子集中的任一标注图像子集，所述目标网络模型为与所述目标标注图像子集对应的待训练网络模型。

2.如权利要求1所述的方法，其特征在于，所述至少一个识别模型包括第一识别模型和第二识别模型，所述调用每个识别模型对所述标注图像集中的每个标注图像进行人眼状态预测，以筛选各个识别模型输出的预测人眼状态相同且预测人眼状态与标注人眼状态一致的标注图像，得到筛选图像集，包括：

调用所述第一识别模型和所述第二识别模型分别对所述标注图像集中的每个标注图像进行人眼状态识别，对应得到第一识别结果集和第二识别结果集，所述第一识别结果集和所述第二识别结果集用于指示所述标注图像集中每个标注图像的预测人眼状态；

筛选出在所述第一识别结果集和所述第二识别结果集中具备相同预测人眼状态且预测人眼状态与标注人眼状态一致的标注图像，得到所述筛选图像集。

3.如权利要求1所述的方法，其特征在于，所述根据所述眼角距离和所述上下眼皮距离计算所述人眼的闭合程度，包括：

对所述眼角距离和所述上下眼皮距离进行归一化计算，得到所述人眼的闭合程度。

4.如权利要求1所述的方法，其特征在于，所述噪声容忍损失函数如下公式所示：

其中，s_j表示对预测结果进行归一化，y_i表示所述标注图像指示的所述人眼的状态，所述预测结果用于指示采用目标网络模型对所述标注图像进行人眼状态预测得到的结果。

5.一种终端设备，其特征在于，所述终端设备包括：

存储器，所述存储器包括计算机可读指令；

与所述存储器相连的处理器，所述处理器用于执行所述计算机可读指令，从而使得所述设备执行权利要求1～4任一项所述的人眼状态识别方法。

6.一种计算机可读存储介质，其特征在于，计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1～4中任意一项所述的人眼状态识别方法。