CN112446322A - 眼球特征检测方法、装置、设备及计算机可读存储介质 - Google Patents
眼球特征检测方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112446322A CN112446322A CN202011327976.1A CN202011327976A CN112446322A CN 112446322 A CN112446322 A CN 112446322A CN 202011327976 A CN202011327976 A CN 202011327976A CN 112446322 A CN112446322 A CN 112446322A
- Authority
- CN
- China
- Prior art keywords
- eyeball
- feature
- eye region
- eye
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000005252 bulbus oculi Anatomy 0.000 title claims abstract description 296
- 238000001514 detection method Methods 0.000 title claims abstract description 248
- 210000001508 eye Anatomy 0.000 claims abstract description 366
- 239000013598 vector Substances 0.000 claims abstract description 242
- 210000001747 pupil Anatomy 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims description 97
- 238000010606 normalization Methods 0.000 claims description 80
- 238000004364 calculation method Methods 0.000 claims description 40
- 238000011176 pooling Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 26
- 238000000605 extraction Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000004927 fusion Effects 0.000 description 8
- 238000007477 logistic regression Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000005286 illumination Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
Abstract
本申请的实施方式提供了一种眼球特征检测方法、眼球特征检测装置、电子设备以及计算机可读存储介质,涉及人工智能技术领域。该方法包括:从当前图像的人脸区域中识别出眼部区域;将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量;根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。可见,实施本申请实施例可以提升对于瞳孔位置信息以及眼球形态信息的预测精度。
Description
技术领域
本申请的实施方式涉及人工智能技术领域,更具体地,本申请的实施方式涉及眼球特征检测方法、眼球特征检测装置、电子设备以及计算机可读存储介质。
背景技术
对于眼部特征提取领域而言,精准的瞳孔位置和眼球信息,对提高人脸识别系统的性能具有重要的意义,例如,可以辅助人脸识别,人脸认证等。瞳孔位置和眼球信息一般需要基于对图像像素值的识别得到,也就是说,一般可以通过对于瞳孔的像素(如,黑色像素)以及眼球的像素(如,棕色像素)的识别,判定瞳孔位置和眼球信息。但是,在用户佩戴了美瞳类的产品时,通常会改变瞳孔和眼球处正常的像素值,进而,容易造成对于瞳孔位置和眼球信息的预测不准确的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此,不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
基于上述问题,发明人进行了相应的思考,做出了有针对性的改进,提供了眼球特征检测方法、眼球特征检测装置、电子设备以及计算机可读存储介质,可以提升对于瞳孔位置信息以及眼球形态信息的预测精度。
根据本申请实施例的第一方面,公开了一种眼球特征检测方法,包括:
从当前图像的人脸区域中识别出眼部区域;
将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量;
根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
在一个实施例中,基于前述方案,从当前图像的人脸区域中识别出眼部区域,包括:
识别人脸区域中的多个特征点;
根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域;
其中,左眼区域和右眼区域均与鼻部特征点对应的鼻部区域不存在交集,鼻部特征点属于多个特征点,左眼区域和右眼区域的面积之和小于人脸区域的面积;
将左眼区域和右眼区域进行拼接,得到眼部区域。
在一个实施例中,基于前述方案,识别人脸区域中的多个特征点之前,上述方法还包括:
对当前图像进行卷积和池化,得到图像特征向量;
计算图像特征向量属于各图像类别的概率;
若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域。
在一个实施例中,基于前述方案,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量之前,上述方法还包括:
获取对应于实际结果的图像样本;其中,实际结果包括实际瞳孔中心坐标以及实际眼球半径;
预测图像样本对应的参考瞳孔中心坐标以及参考眼球半径;
计算参考瞳孔中心坐标与实际瞳孔中心坐标之间的第一损失函数;
计算参考眼球半径与实际眼球半径之间的第二损失函数;
根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数。
在一个实施例中,基于前述方案,根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数,包括:
计算第一预设权重与第一损失函数的第一乘积;
计算小于第一预设权重的第二预设权重与第二损失函数的第二乘积;
将第一乘积与第二乘积的加和结果确定为目标损失函数;
根据目标损失函数调整至少一个眼球特征检测网络的网络参数,直到目标损失函数小于预设阈值为止。
在一个实施例中,基于前述方案,获取对应于实际结果的图像样本之后,上述方法还包括:
根据实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标;
根据预设归一化权重、左瞳孔中心坐标和右瞳孔中心坐标计算归一化因子;
根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化;
根据归一化因子对实际眼球半径进行归一化。
在一个实施例中,基于前述方案,瞳距中心坐标包括xp坐标和yp坐标,左瞳孔中心坐标包括x1坐标和y1坐标,右瞳孔中心坐标包括x2坐标和y2坐标,根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化,包括:
计算x1坐标与xp坐标的第一差值、x2坐标与xp坐标的第二差值、y1坐标与yp坐标的第三差值、y2坐标与yp坐标的第四差值;
计算第一差值、第二差值、第三差值和第四差值分别与归一化因子的比值,得到第一比值集合;
将第一比值集合确定为对实际瞳孔中心坐标的归一化结果。
在一个实施例中,基于前述方案,实际眼球半径包括第一长轴、第二长轴、第三短轴和第四短轴,根据归一化因子对实际眼球半径进行归一化,包括:
计算第一长轴、第二长轴、第三短轴和第四短轴分别与归一化因子的比值,得到第二比值集合;
将第二比值集合确定为实际眼球半径的归一化结果。
在一个实施例中,基于前述方案,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:
通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合;
将全局特征向量集合中的全局特征向量进行拼接;
对拼接结果进行多层卷积,得到眼部区域对应的局部特征向量。
在一个实施例中,基于前述方案,通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合,包括:
将眼部区域输入至少一个眼球特征检测网络中多个独立的自注意力子网络中;其中,多个独立的自注意力子网络对应于不同的模型参数;
通过自注意力子网络中的多个卷积层对眼部区域执行卷积操作,以获取与多个卷积层相匹配的多个特征图;
将多个特征图中的第一目标特征图进行转置,并将转置结果与多个特征图中的第二目标特征图相乘,得到参考特征图;其中,参考特征图用于表征第一目标特征图和第二目标特征图之间各元素相关性;
通过逻辑回归函数处理参考特征图,得到中间特征图;其中,中间特征图用于表征眼部区域中各元素权重评分;
计算多个特征图中的第三目标特征图和中间特征图的乘积,并将乘积确定为眼部区域对应的全局特征向量;
采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
在一个实施例中,基于前述方案,若眼球特征检测网络的数量大于1,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:
若存在前一眼球特征检测网络,将前一眼球特征检测网络的输出作为当前眼球特征检测网络的输入;
根据输入计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的中间特征向量;其中,中间特征向量与当前眼球特征检测网络相对应;
若当前眼球特征检测网络不是最后一个眼球特征检测网络,将中间特征向量作为下一眼球特征检测网络的输入;若当前眼球特征检测网络为最后一个眼球特征检测网络,将中间特征向量确定为局部特征向量。
根据本申请实施例的第二方面,公开了一种眼球特征检测装置,其特征在于,包括:眼部区域识别单元、特征向量计算单元以及眼球特征确定单元,其中:
眼部区域识别单元,用于从当前图像的人脸区域中识别出眼部区域;
特征向量计算单元,用于将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量;
眼球特征确定单元,用于根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
在一个实施例中,基于前述方案,眼部区域识别单元从当前图像的人脸区域中识别出眼部区域,包括:
识别人脸区域中的多个特征点;
根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域;
其中,左眼区域和右眼区域均与鼻部特征点对应的鼻部区域不存在交集,鼻部特征点属于多个特征点,左眼区域和右眼区域的面积之和小于人脸区域的面积;
将左眼区域和右眼区域进行拼接,得到眼部区域。
在一个实施例中,基于前述方案,特征向量计算单元,还用于在眼部区域识别单元识别人脸区域中的多个特征点之前,对当前图像进行卷积和池化,得到图像特征向量;
上述装置还包括:分类单元,用于计算图像特征向量属于各图像类别的概率,若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域。
在一个实施例中,基于前述方案,上述装置还包括:
样本获取单元,用于在特征向量计算单元通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量之前,获取对应于实际结果的图像样本;其中,实际结果包括实际瞳孔中心坐标以及实际眼球半径;
预测单元,用于预测图像样本对应的参考瞳孔中心坐标以及参考眼球半径;
损失函数计算单元,用于计算参考瞳孔中心坐标与实际瞳孔中心坐标之间的第一损失函数,并计算参考眼球半径与实际眼球半径之间的第二损失函数;
参数调整单元,用于根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数。
在一个实施例中,基于前述方案,参数调整单元根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络中的网络参数,包括:
计算第一预设权重与第一损失函数的第一乘积;
计算小于第一预设权重的第二预设权重与第二损失函数的第二乘积;
将第一乘积与第二乘积的加和结果确定为目标损失函数;
根据目标损失函数调整至少一个眼球特征检测网络的网络参数,直到目标损失函数小于预设阈值为止。
在一个实施例中,基于前述方案,上述装置还包括:
参数计算单元,用于在样本获取单元获取对应于实际结果的图像样本之后,根据实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标;根据预设归一化权重、左瞳孔中心坐标和右瞳孔中心坐标计算归一化因子
归一化单元,用于根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化;根据归一化因子对实际眼球半径进行归一化。
在一个实施例中,基于前述方案,瞳距中心坐标包括xp坐标和yp坐标,左瞳孔中心坐标包括x1坐标和y1坐标,右瞳孔中心坐标包括x2坐标和y2坐标,归一化单元根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化,包括:
计算x1坐标与xp坐标的第一差值、x2坐标与xp坐标的第二差值、y1坐标与yp坐标的第三差值、y2坐标与yp坐标的第四差值;
计算第一差值、第二差值、第三差值和第四差值分别与归一化因子的比值,得到第一比值集合;
将第一比值集合确定为对实际瞳孔中心坐标的归一化结果。
在一个实施例中,基于前述方案,实际眼球半径包括第一长轴、第二长轴、第三短轴和第四短轴,归一化单元根据归一化因子对实际眼球半径进行归一化,包括:
计算第一长轴、第二长轴、第三短轴和第四短轴分别与归一化因子的比值,得到第二比值集合;
将第二比值集合确定为实际眼球半径的归一化结果。
在一个实施例中,基于前述方案,特征向量计算单元通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:
通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合;
将全局特征向量集合中的全局特征向量进行拼接;
对拼接结果进行多层卷积,得到眼部区域对应的局部特征向量。
在一个实施例中,基于前述方案,特征向量计算单元通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合,包括:
将眼部区域输入至少一个眼球特征检测网络中多个独立的自注意力子网络中;其中,多个独立的自注意力子网络对应于不同的模型参数;
通过自注意力子网络中的多个卷积层对眼部区域执行卷积操作,以获取与多个卷积层相匹配的多个特征图;
将多个特征图中的第一目标特征图进行转置,并将转置结果与多个特征图中的第二目标特征图相乘,得到参考特征图;其中,参考特征图用于表征第一目标特征图和第二目标特征图之间各元素相关性;
通过逻辑回归函数处理参考特征图,得到中间特征图;其中,中间特征图用于表征眼部区域中各元素权重评分;
计算多个特征图中的第三目标特征图和中间特征图的乘积,并将乘积确定为眼部区域对应的全局特征向量;
采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
在一个实施例中,基于前述方案,若眼球特征检测网络的数量大于1,特征向量计算单元通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:
若存在前一眼球特征检测网络,将前一眼球特征检测网络的输出作为当前眼球特征检测网络的输入;
根据输入计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的中间特征向量;其中,中间特征向量与当前眼球特征检测网络相对应;
若当前眼球特征检测网络不是最后一个眼球特征检测网络,将中间特征向量作为下一眼球特征检测网络的输入;若当前眼球特征检测网络为最后一个眼球特征检测网络,将中间特征向量确定为局部特征向量。
根据本申请实施例的第三方面,公开了一种电子设备,包括:处理器;以及存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现如第一方面公开的眼球特征检测方法。
根据本申请实施例的第四方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行根据本申请第一方面公开的眼球特征检测方法。
本申请实施例能够从当前图像的人脸区域中识别出眼部区域;将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量;根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。相较现有技术,实施本申请的实施例,一方面可以通过眼部区域的局部特征和全局特征的融合,提升对于瞳孔位置信息以及眼球形态信息的预测精度。另一方面,实施本申请实施例还能够只对人脸区域中的眼部区域进行特征提取,从而有利于减少对于眼球特征检测网络的参数设置,可以便于提升网络训练效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
图1示出的是根据本申请一示例实施方式的眼球特征检测方法的流程示意图;
图2示出的是根据本申请一示例实施方式的人脸区域示意图;
图3示出的是根据本申请一示例实施方式的眼部区域示意图;
图4示出的是根据本申请一示例实施方式的眼球特征检测网络示意图;
图5示出的是根据本申请一示例实施方式的自注意力子网络示意图;
图6示出的是根据本申请一示例实施方式的卷积与自注意力机制的比对示意图;
图7示出的是根据本申请一示例实施方式的网络架构示意图;
图8示出的是根据本申请一示例实施方式的包含多个眼球特征检测网络的网络架构示意图;
图9示出的是根据本申请一示例实施方式的眼球特征检测方法的流程示意图;
图10示出的是根据本申请一可选示例实施方式的眼球特征检测装置的结构框图;
图11示出的是根据本申请另一可选示例实施方式的眼球特征检测装置的结构框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此,本申请可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本申请的实施方式,提出了一种眼球特征检测方法、眼球特征检测装置、电子设备以及计算机可读存储介质。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
在计算机视觉领域,眼球运动是较为重要的生理和物理的状态特征。在人脸识别或人脸的相关应用中,精准的瞳孔和眼球定位,对提高人脸识别系统的性能具有重要的意义。一般来说,瞳孔定位在交通安全、刑事侦探等方面也有广阔的应用场景。同时,在智能美化美妆方面也具有非常重要的意义,例如,智能美瞳、3D虚拟人物模仿人脸的表情等,一般都需要使用到瞳孔定位。
目前,瞳孔定位的算法主要是采用传统方法进行,例如,通过眼球黑色部分像素值确定瞳孔中心点。但是,由于人眼一般会受光照、瞳孔颜色、美瞳等因素的影响,瞳孔并不会完成呈现比较明显的黑色,这样就容易造成对于瞳孔位置信息以及眼球形态信息的预测精度较低的问题。或者,也可以利用最大类间方差及伽马变换确定出眼球的轮廓。但是,当光照或者外部因素导致眼球边缘不清晰的时候,也会容易造成对于瞳孔位置信息以及眼球形态信息的预测精度较低的问题。
基于上述问题,申请人想到可以基于多头自注意力网络和卷积神经网络的瞳孔定位和眼球椭圆检测算法,在眼部区域的全局特征的基础上结合眼部区域的局部特征,实现端到端的瞳孔定位和眼球检测,可以提升预测精度,且泛化能力强。在人眼受光照、瞳孔颜色、美瞳等因素的影响时,也可以实现精准预测。
应用场景总览
需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
在应用于美颜场景下时,可以根据摄像机采集到的当前图像的人脸区域中识别出眼部区域。进而,将眼部区域输入至少一个眼球特征检测网络,以通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量。从而,根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息,并根据瞳孔位置信息以及眼球形态信息响应用户选择的美颜效果。
示例性方法
下面结合上述的应用场景,参考图1和图9来描述根据本申请示例性实施方式的眼球特征检测方法。
请参阅图1,图1示出的是根据本申请一示例实施方式的眼球特征检测方法的流程示意图,该眼球特征检测方法可以由服务器或终端设备来实现。
如图1所示,根据本申请的一个实施例的眼球特征检测方法包括:
步骤S110:从当前图像的人脸区域中识别出眼部区域。
步骤S120:将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量。
步骤S130:根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
实施图1所示的眼球特征检测方法,可以通过眼部区域的局部特征和全局特征的融合,提升对于瞳孔位置信息以及眼球形态信息的预测精度。此外,能够只对人脸区域中的眼部区域进行特征提取,从而有利于减少对于眼球特征检测网络的参数设置,可以便于提升网络训练效率。
下面对这些步骤进行详细描述。
在步骤S110中,从当前图像的人脸区域中识别出眼部区域。
具体地,当前图像中可以包括一个或多个人脸区域;其中,若当前图像中包括多个人脸区域,针对其中每个人脸区域的瞳孔位置信息以及眼球形态信息的计算方式是一致的,即,可以通过步骤S110~步骤S130计算得到每个人脸区域对应的瞳孔位置信息以及眼球形态信息。另外,人脸区域至少包括左眼区域、右眼区域、鼻部区域以及嘴部区域;其中,眼部区域=左眼区域+右眼区域。
请参阅图2和图3,图2示出的是根据本申请一示例实施方式的人脸区域示意图,图3示出的是根据本申请一示例实施方式的眼部区域示意图。
如图2所示,人脸区域200可以包括左眼区域220、右眼区域210、鼻部区域230以及嘴部区域240。其中,左眼区域220包括左眼特征点221,右眼区域210包括右眼特征点211,鼻部区域230包括鼻部特征点231,嘴部区域240包括左嘴角特征点241和右嘴角特征点242。其中,左眼特征点221、右眼特征点211、鼻部特征点231、左嘴角特征点241和右嘴角特征点242可以通过坐标进行表示。
基于图2,眼部区域可以由图3所示的左眼区域320和右眼区域310构成,本申请中的眼部区域与鼻部区域不存在交集。其中,需要说明的是,图3中的左眼区域320等同于图2中的左眼区域220,图3中的右眼区域310等同于图2中的右眼区域210,左眼区域320中的左眼特征点321等同于左眼特征点221,右眼区域310中的右眼特征点311等同于右眼特征点211。
具体地,现有技术在检测到人脸区域之后,可以从人脸区域中识别出的眼部区域250,由于眼部区域250通常包含冗余部分(即,鼻梁部分),因此,基于眼部区域250确定人脸区域200中的瞳孔位置信息以及眼球形态信息容易存在准确率不高的问题,也容易造成更大的计算负担,导致瞳孔位置信息以及眼球形态信息的计算效率较低。
基于此,本申请对眼部区域进行了重新限定,重新限定后的眼部区域由左眼区域220与右眼区域210构成,左眼区域220与右眼区域210之间不存在交集区域。即,本申请中的眼部区域不包含鼻梁部分。相较于现有技术而言,基于本申请的眼部区域确定瞳孔位置信息以及眼球形态信息准确率更高,也能够通过对于眼部区域的精简降低计算负担,从而提升对于瞳孔位置信息以及眼球形态信息的计算效率。
作为一种可选的实施例,从当前图像的人脸区域中识别出眼部区域,包括:识别人脸区域中的多个特征点;根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域;其中,左眼区域和右眼区域均与鼻部特征点对应的鼻部区域不存在交集,鼻部特征点属于上述的多个特征点,左眼区域和右眼区域的面积之和小于人脸区域的面积;将左眼区域和右眼区域进行拼接,得到眼部区域。
具体地,识别人脸区域中的多个特征点,包括:根据人脸检测器(如,多任务卷积神经网络)识别人脸区域中的多个特征点;其中,人脸区域中的多个特征点可以包括左眼特征点221、右眼特征点211、鼻部特征点231、左嘴角特征点241和右嘴角特征点242。其中,多任务卷积神经网络(Multi-task convolutional neural network,MTCNN)用于进行人脸区域检测以及人脸关键点检测,可以包括人脸区域的区域建议网络(Proposal Network,P-Net)、置信人脸区域建议网络(Refine Network,R-Net)和人脸特征点预测网络(OutputNetwork,O-Net)三层网络结构。
基于此,根据MTCNN识别人脸区域中的多个特征点的方式可以为:对所述人脸区域进行多次尺度变换得到图像金字塔,图像金字塔中包括对应于不同尺寸的多张人脸图像;将图像金字塔输入P-Net,以使得P-Net对图像金字塔进行特征提取并依据特征提取结果进行人脸边框标定,得到多个人脸候选窗口;将多个人脸候选窗口和图像金字塔输入R-Net,以使得R-Net依据图像金字塔对多个人脸候选窗口进行筛选,得到置信度高于阈值的目标窗口;将目标窗口和图像金字塔输入O-Net,以使得O-Net依据图像金字塔确定目标窗口对应的多维参数(x,y,w,h)、左眼特征点221、右眼特征点211、鼻部特征点231、左嘴角特征点241和右嘴角特征点242;其中,该参数具体包括人脸区域的左上角坐标(x,y)、宽度w和高度h,人脸区域的形状可以为矩形,(x,y)可以为人脸区域相对于当前图像的左上角坐标。
另外,根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域,包括:计算左眼特征点221和右眼特征点211之间的N(如,0.5)倍距离;将N倍距离确定为左眼区域220与右眼区域210的边长,根据该边长确定出左眼区域220与右眼区域210;其中,N为小于等于0.5大于等于0的常数。可选的,左眼区域220与右眼区域210可以通过小于人脸区域的正方形/矩形进行表示。
可见,实施该可选的实施例,能够确定出不包含鼻部区域的眼部区域,减少眼部区域中的冗余信息,当基于该眼部区域计算瞳孔位置信息以及眼球形态信息时,可以提升计算效率以及计算准确率。另外,在现有技术中,一般对包含鼻部区域的眼部区域进行眼球特征检测,或是对左眼区域和右眼区域分别进行独立的眼球特征检测,而本申请不仅可以去除眼部区域中的冗余信息(即,鼻梁信息),还可以拼接左眼区域和右眼区域,在保持眼睛在结构上的相关性(例如,眼睛右看的情况下左眼区域和右眼区域中的眼球都是向右偏转的)的情况下,缩小用于输入眼球特征检测网络的眼部区域的尺寸,进而可以减少对于眼球特征检测网络的参数设置,从而有利于提升网络训练效率和眼球特征检测精度。
作为一种可选的实施例,识别人脸区域中的多个特征点之前,上述方法还包括:对当前图像进行卷积和池化,得到图像特征向量;计算图像特征向量属于各图像类别的概率;若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域。
具体地,图像类别的数量可以为一个或多个(如,人脸类别、商品类别、景色类别)。
另外,当前图像可以为视频文件中的图像帧,上述方法还包括:检测当前图像中是否存在人脸区域;如果存在,则执行步骤S110;如果不存在,则对当前图像的下一帧图像进行人脸区域检测。
另外,对当前图像进行卷积和池化,得到图像特征向量,包括:通过多个卷积层对当前图像进行卷积处理,得到中间特征向量,其中,多个卷积层可以对应于不同的卷积核也可以对应于相同的卷积核;通过多个池化层对中间特征向量进行池化处理,得到图像特征向量,其中,多个池化层可以为全局池化层也可以为平均池化层。
另外,计算图像特征向量属于各图像类别的概率,包括:将图像特征向量输入全连接层,以使得全连接层对图像特征向量进行进一步特征提取,进而,将通过分类器计算进一步的特征提取结果对应于各图像类别的概率。其中,图像类别可以包括一种或多种,如,人脸图像、车辆图像、动物图像等,本申请实施例不作限定。
可见,实施该可选的实施例,能够对当前图像进行特征提取,从而根据提取到的特征判定该当前图像中是否存在人脸区域,如果存在,则可以进行下述步骤,如果不存在,则结束流程,这样可以保证所处理的图像中是包含人脸的,避免对不包含人脸的图像进行处理,进而避免对计算资源的浪费。
在步骤S120中,将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量。
具体地,眼球特征检测网络(Muti-head attention+CNN)可以由多头自注意力网络(Muti-head attention)和卷积神经网络构成(Convolutional Neural Network,CNN);其中,CNN是一种包含卷积操作的前馈神经网络,多头自注意力机制可以包括多个(如,3个)自注意力子网络(Self-attention)。
作为一种可选的实施例,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合;将全局特征向量集合中的全局特征向量进行拼接;对拼接结果进行多层卷积,得到眼部区域对应的局部特征向量。
其中,多个独立的自注意力子网络对应于不同的网络参数,即,多个独立的自注意力子网络对应于不同的特征提取目标。具体地,将全局特征向量集合中的全局特征向量进行拼接,包括:对全局特征向量集合中的全局特征向量按照通道(channel)进行拼接。进而,对拼接结果进行多层卷积,得到眼部区域对应的局部特征向量,包括:对拼接结果执行对应于1*1卷积核的卷积操作,得到待处理特征,以打乱通道顺序并对通道进行压缩或扩充;对待处理特征执行对应于3*3卷积核的卷积操作,以最大程度上保留各自注意力子网络提取到的全局特征。
针对该实施例,请参阅图4,图4示出的是根据本申请一示例实施方式的眼球特征检测网络示意图。如图4所示,眼球特征检测网络400可以包括多头自注意力网络410和卷积神经网络420;其中,多头自注意力网络410可以包括自注意力子网络411、自注意力子网络412、……、自注意力子网络413和拼接模块414,卷积神经网络420可以包括卷积层421、卷积层422、……、卷积层423。
具体地,在从当前图像的人脸区域中识别出眼部区域之后,可以眼部区域分别输入多头自注意力网络410的自注意力子网络411、自注意力子网络412、……、自注意力子网络413中,以使得自注意力子网络411、自注意力子网络412、……、自注意力子网络413分别对眼部区域进行全局特征提取,得到自注意力子网络411、自注意力子网络412、……、自注意力子网络413分别输出的全局特征向量,进而可以得到全局特征向量集合。
进而,可以通过拼接模块414将全局特征向量集合中所有全局特征向量进行拼接,得到拼接结果。进而,可以将拼接结果输入卷积神经网络420,以使得卷积神经网络420中的卷积层421、卷积层422、……、卷积层423对拼接结果进行多次卷积,以实现基于全局特征的局部特征提取。其中,卷积层421、卷积层422、……、卷积层423之间为依次传递的关系,即,当前卷积层的输入为前一卷积层的输出,当前卷积层的输出为后一卷积层的输入。进而,可以得到卷积神经网络420中最后一层卷积层423输出的特征向量,将其确定为眼部区域对应的局部特征向量。
可见,实施该可选的实施例,能够将对应于不同特征提取目标的多个自注意力网络进行结合,以通过多个特征提取目标获取到眼部区域对应的侧重点不同的全局特征向量,进而通过对侧重点不同的全局特征向量的融合以及对于融合结果的卷积处理,加强全局特征向量中的局部特征向量,从而提升对当前图像中瞳孔位置信息以及眼球形态信息的提取准确率。
作为一种可选的实施例,通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合,包括:将眼部区域输入至少一个眼球特征检测网络中多个独立的自注意力子网络中;其中,多个独立的自注意力子网络对应于不同的模型参数;通过自注意力子网络中的多个卷积层对眼部区域执行卷积操作,以获取与多个卷积层相匹配的多个特征图;将多个特征图中的第一目标特征图进行转置,并将转置结果与多个特征图中的第二目标特征图相乘,得到参考特征图;其中,参考特征图用于表征第一目标特征图和第二目标特征图之间各元素相关性;通过逻辑回归函数处理参考特征图,得到中间特征图;其中,中间特征图用于表征眼部区域中各元素权重评分;计算多个特征图中的第三目标特征图和中间特征图的乘积,并将乘积确定为眼部区域对应的全局特征向量;采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
基于图4,可选的,多头自注意力网络410中包括的自注意力子网络411、自注意力子网络412、……、自注意力子网络413均对应于相同的网络结构。
请参阅图5,图5示出的是根据本申请一示例实施方式的自注意力子网络示意图。如图5所示,自注意力子网络500可以包括:卷积层510、卷积层520、卷积层530以及归一化层540。需要说明的是,自注意力子网络500可以为自注意力子网络411、自注意力子网络412、……、自注意力子网络413中任一自注意力子网络,本申请实施例不作限定。
具体地,当眼部区域输入自注意力子网络500后,可以通过卷积层510、卷积层520、卷积层530对眼部区域执行卷积操作,以获取分别与卷积层510、卷积层520、卷积层530相匹配的多个特征图,即,第一目标特征图F3、第二目标特征图F2、第三目标特征图F1。进而,可以将第一目标特征图F3进行转置,并将转置结果F3T与第二目标特征图F2相乘,得到参考特征图F4=F3T*F2。进而,可以通过归一化层540中的逻辑回归函数(如,softmax函数)对应的表达式(Si表示参考特征图F4的每个向量e中的第i个元素的softmax值)对参考特征图F4进行归一化,得到用于表示表征眼部区域中各元素权重评分的中间特征图F5=softmax(F2*F3T);其中,各元素权重评分用于表示该元素在整个眼部区域的重要性。进而,可以对第三目标特征图F1和中间特征图F5进行点对点元素乘法,并将乘积F1*F5确定为自注意力子网络500输出的眼部区域对应的全局特征向量。进而,可以采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
基于图5,请参阅图6,图6示出的是根据本申请一示例实施方式的卷积与自注意力机制的比对示意图。如图6所示,展示了卷积的执行过程以及自注意力机制的执行过程。其中,卷积的执行过程只是按照卷积核620的尺寸(如,3*3)对当前图像中的位置611进行特征提取,在计算出与当前图像中各位置一一对应的特征图之后,位置611在特征图对应于位置630,而位置630的值是基于当前图像的元素框610中各位置计算得到的。因此,计算得到的位置630与当前图像除元素框610之外的位置无关。
可见,上述卷积的执行过程缺乏对全局信息的融合,普通的卷积执行过程只是将图像中每个位置作为中心点,对该位置及周围的位置计算加权和,得到的特征图上该位置对应的滤波结果。这一操作可以有效提取图片的局部信息,为了提取全局信息,一般会增加网络深度和卷积层,以扩大每个位置的视野域,实现提取全局信息的目的。但是这种方式容易存在计算量较大且优化难度较高的问题,并且,容易占用较多的计算资源,也容易造成计算效率较低的问题。
为了解决这一问题,本申请采用的是自注意力机制,可以学习当前图像中单个位置(如,位置640)与其他位置之间的关系,即使其他位置距离位置640较远,也可以实现对于全局依赖关系的捕获,从而得到特征图上位置640对应的位置650。每个位置的特征都由所有位置的加权求和得到,因此,每个位置都可以获取全局的视野域。其中,自注意力机制可以应用于上述的自注意力子网络500中。
可见,实施该可选的实施例,能够通过多头自注意力网络确定当前图像的全局特征,结合卷积神经网络确定当前图像的局部特征,提升对于当前图像中瞳孔位置信息以及眼球形态信息的预测精度。并且,对于多头自注意力网络能够利用到多头自注意力网络具备的计算简单、参数少的优点,再基于多个自注意力子网络的互相独立特性,可以实现并行计算,从而加速网络运算效率,有利于本申请在移动端(如,手机、笔记本、平板电脑、POS机、车载电脑等)的应用。
请参阅图7,图7示出的是根据本申请一示例实施方式的网络架构示意图。如图7所示,该网络架构可以包括人脸检测模块710和眼球特征检测网络720。
其中,人脸检测模块710,可以用于对当前图像进行卷积和池化,得到图像特征向量;计算图像特征向量属于各图像类别的概率;若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域;确定人脸区域对应的多维参数(x,y,w,h)。以及,识别人脸区域中的多个特征点;根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域,将左眼区域和右眼区域进行拼接,得到眼部区域,将眼部区域作为眼球特征检测网路的输入。
眼球特征检测网路720,可以用于将眼部区域输入至少一个眼球特征检测网络中多个独立的自注意力子网络中;通过自注意力子网络中的多个卷积层对眼部区域执行卷积操作,以获取与多个卷积层相匹配的多个特征图;将多个特征图中的第一目标特征图进行转置,并将转置结果与多个特征图中的第二目标特征图相乘,得到参考特征图;通过逻辑回归函数处理参考特征图,得到中间特征图;计算多个特征图中的第三目标特征图和中间特征图的乘积,并将乘积确定为眼部区域对应的全局特征向量;采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
眼球特征检测网路720,还用于若存在前一眼球特征检测网络,将前一眼球特征检测网络的输出作为当前眼球特征检测网络的输入,根据输入计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的中间特征向量;若当前眼球特征检测网络不是最后一个眼球特征检测网络,将中间特征向量作为下一眼球特征检测网络的输入;若当前眼球特征检测网络为最后一个眼球特征检测网络,将中间特征向量确定为局部特征向量;根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
在图7的基础上,提供一种可选的实施例,若眼球特征检测网络的数量大于1,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:若存在前一眼球特征检测网络,将前一眼球特征检测网络的输出作为当前眼球特征检测网络的输入;根据输入计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的中间特征向量;其中,中间特征向量与当前眼球特征检测网络相对应;若当前眼球特征检测网络不是最后一个眼球特征检测网络,将中间特征向量作为下一眼球特征检测网络的输入;若当前眼球特征检测网络为最后一个眼球特征检测网络,将中间特征向量确定为局部特征向量。
请参阅图8,图8示出的是根据本申请一示例实施方式的包含多个眼球特征检测网络的网络架构示意图。如图8所示,包含多个眼球特征检测网络的网络架构可以包括:人脸检测模块810、眼球特征检测网络820、眼球特征检测网络830、……、眼球特征检测网络840以及全连接层850。
具体地,人脸检测模块810(等同于上述的人脸检测模块710),可以用于对当前图像进行卷积和池化,得到图像特征向量;计算图像特征向量属于各图像类别的概率;若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域;确定人脸区域对应的多维参数(x,y,w,h)。以及,识别人脸区域中的多个特征点;根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域,将左眼区域和右眼区域进行拼接,得到眼部区域,将眼部区域作为眼球特征检测网路820的输入。
眼球特征检测网路820用于执行上述眼球特征检测网路720所执行的各步骤并将结果输出至下一眼球特征检测网路,通过眼球特征检测网路之间的依次检测,可以提升对于瞳孔位置信息以及眼球形态信息的预测精度。当最后一个眼球特征检测网路(即,眼球特征检测网络840)输出局部特征向量之后,全连接层850(full connection)可以对局部特征向量进行线性变换,并根据线性变换结果预测当前图像对应的瞳孔位置信息以及眼球形态信息。可选的,通过对于当前图像中的瞳孔位置信息以及眼球形态信息的预测,可以在本申请应用于视频中时,实现对于每一帧视频中瞳孔位置信息以及眼球形态信息的追踪。
可见,实施该可选的实施例,能够通过多头自注意力网络结合卷积神经网络的方式,实现对于局部特征和全局特征的融合,这样不仅可以减少运算量和网络参数,使得本申请可以应用于移动端,扩大本申请的应用范围,还可以提升对于瞳孔位置信息以及眼球形态信息的预测精度。此外,本申请对光照、眼睛颜色、人脸角度等参数具备较强的鲁棒性,在应用于对视频中瞳孔位置信息以及眼球形态信息的追踪时,可以提升追踪精度。
在步骤S130中,根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
具体地,瞳孔位置信息具体可以表示为当前图像中的瞳孔中心坐标(x0,y0),眼球形态信息具体可以表示为当前图像中的眼球半径(a01,b01,a02,b02);其中,眼球可以为椭圆形状,a01和a02为椭圆长半轴,b01和b02为椭圆短半轴。
作为一种可选的实施例,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量之前,上述方法还包括:获取对应于实际结果的图像样本;其中,实际结果包括实际瞳孔中心坐标以及实际眼球半径;预测图像样本对应的参考瞳孔中心坐标以及参考眼球半径;计算参考瞳孔中心坐标与实际瞳孔中心坐标之间的第一损失函数;计算参考眼球半径与实际眼球半径之间的第二损失函数;根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数。
具体地,眼球特征检测网络的网络参数可以包括眼球特征检测网络中的权重值和偏置项。
其中,获取对应于实际结果的图像样本,包括:从样本集中获取对应于实际结果的图像样本;其中,样本集中可以包括一个或多个图像样本,不同的图像样本对应于不同的实际结果,图像样本与实际结果之间为一一对应关系,实际结果可以表示为(x1,y1,x2,y2,a1,b1,a2,b2),其中,(x1,y1)为实际瞳孔中心坐标中的左瞳孔中心坐标,(x2,y2)为实际瞳孔中心坐标中的右瞳孔中心坐标,(a1,a2,b1,b2)为实际眼球半径,a1,a2,b1,b2依次分别为第一长轴、第二长轴、第三短轴和第四短轴。
另外,根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数之后,上述方法还可以包括:通过测试集对参数调整后的至少一个眼球特征检测网络进行测试,如果测试结果满足预设测试标准(如,对超过60%的测试图像的瞳孔位置信息以及眼球形态信息计算准确),则执行上述的通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量;如果测试结果不满足预设测试标准,则循环执行上述的获取对应于实际结果的图像样本,以实现对于至少一个眼球特征检测网络的重新训练。
可见,实施该可选的实施例,能够实现对于眼球特征检测网络的训练,进而有利于提升对于瞳孔位置信息以及眼球形态信息的计算准确率。
作为一种可选的实施例,根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数,包括:计算第一预设权重与第一损失函数的第一乘积;计算小于第一预设权重的第二预设权重与第二损失函数的第二乘积;将第一乘积与第二乘积的加和结果确定为目标损失函数;根据目标损失函数调整至少一个眼球特征检测网络的网络参数,直到目标损失函数小于预设阈值为止。
具体地,第一预设权重和第二预设权重均可以为常数。
其中,计算第一预设权重与第一损失函数的第一乘积,包括:计算第一预设权重a与第一损失函数Losspupil的第一乘积a*Losspupil。进而,计算小于第一预设权重的第二预设权重与第二损失函数的第二乘积,包括:计算小于第一预设权重a的第二预设权重b与第二损失函数Lossradius的第二乘积b*Lossradius。进而,将第一乘积与第二乘积的加和结果确定为目标损失函数,包括:将第一乘积与第二乘积的加和结果a*Losspupil+b*Lossradius确定为目标损失函数Loss。进而,根据目标损失函数调整至少一个眼球特征检测网络的网络参数,直到目标损失函数小于预设阈值为止,包括:根据目标损失函数对至少一个眼球特征检测网络进行反向传播,以依次更新至少一个眼球特征检测网络中的网络参数。其中的a和b表示Losspupil和Lossradius分别在训练过程中所占的比重,可以根据具体任务和实验效果自由设定。举例来说,a=1,b=0.5。
另外,可选的,上述方法还可以包括:根据测试集对参数调整后的至少一个眼球特征检测网络进行前向推理,以确定至少一个眼球特征检测网络的预测效果,该预测效果可以作为至少一个眼球特征检测网络的投入使用指标;其中,测试集可以包括多个已标记了瞳孔位置信息以及眼球形态信息的图像样本。
可见,实施该可选的实施例,能够通过对应于不同维度的权重计算适用于眼球特征检测网络调参的损失函数,从而有利于训练有预测重点的眼球特征检测网络,可以在有限的计算资源中有侧重点的提升瞳孔中心坐标的计算准确率。
作为一种可选的实施例,获取对应于实际结果的图像样本之后,上述方法还包括:根据实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标;根据预设归一化权重、左瞳孔中心坐标和右瞳孔中心坐标计算归一化因子;根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化;根据归一化因子对实际眼球半径进行归一化。
其中,根据实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标,包括:根据表达式和计算瞳距中心坐标(xp,yp)。进而,根据预设归一化权重(如,)、左瞳孔中心坐标(x1,y1)和右瞳孔中心坐标(x2,y2)计算归一化因子包括:通过表达式计算归一化因子dist;其中,预设归一化权重为常数。
可见,实施该可选的实施例,能够在训练之前对图像样本对应的实际结果进行归一化,从而有利于改善眼球特征检测网络的训练效果,提升训练后的眼球特征检测网络的检测准确性。
作为一种可选的实施例,瞳距中心坐标包括xp坐标和yp坐标,左瞳孔中心坐标包括x1坐标和y1坐标,右瞳孔中心坐标包括x2坐标和y2坐标,根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化,包括:计算x1坐标与xp坐标的第一差值、x2坐标与xp坐标的第二差值、y1坐标与yp坐标的第三差值、y2坐标与yp坐标的第四差值;计算第一差值、第二差值、第三差值和第四差值分别与归一化因子的比值,得到第一比值集合;将第一比值集合确定为对实际瞳孔中心坐标的归一化结果。
其中,计算x1坐标与xp坐标的第一差值、x2坐标与xp坐标的第二差值、y1坐标与yp坐标的第三差值、y2坐标与yp坐标的第四差值,包括:计算x1坐标与xp坐标的第一差值(x1-xp)、x2坐标与xp坐标的第二差值(x2-xp)、y1坐标与yp坐标的第三差值(y1-yp)、y2坐标与yp坐标的第四差值(y2-yp)。
进而,计算第一差值、第二差值、第三差值和第四差值分别与归一化因子的比值,得到第一比值集合,包括:根据表达式计算第一差值(x1-xp)与归一化因子dist的比值根据表达式计算第二差值(x2-xp)与归一化因子dist的比值根据表达式计算第三差值(y1-yp)与归一化因子dist的比值根据表达式计算第四差值(y2-yp)与归一化因子dist的比值进而得到第一比值集合
进而,将第一比值集合确定为对实际瞳孔中心坐标的归一化结果,包括:将第一比值集合中的确定为对于x1的归一化结果;将第一比值集合中的确定为对于x2的归一化结果;将第一比值集合中的确定为对于y1的归一化结果;将第一比值集合中的确定为对于y2的归一化结果。
可见,实施该可选的实施例,能够对实际瞳孔中心坐标中各项参数进行归一化,以提升训练后的眼球特征检测网络的检测准确性。
作为一种可选的实施例,实际眼球半径包括第一长轴、第二长轴、第三短轴和第四短轴,根据归一化因子对实际眼球半径进行归一化,包括:计算第一长轴、第二长轴、第三短轴和第四短轴分别与归一化因子的比值,得到第二比值集合;将第二比值集合确定为实际眼球半径的归一化结果。
其中,计算第一长轴、第二长轴、第三短轴和第四短轴分别与归一化因子的比值,得到第二比值集合,包括:根据表达式计算第一长轴a1与归一化因子dist的比值根据表达式计算第二长轴a2与归一化因子dist的比值根据表达式计算第三短轴b1与归一化因子dist的比值根据表达式计算第四短轴b2与归一化因子dist的比值得到第二比值集合
可见,实施该可选的实施例,能够对实际眼球半径中各项参数进行归一化,以提升训练后的眼球特征检测网络的检测准确性。
请参阅图9,图9示出的是根据本申请一示例实施方式的眼球特征检测方法的流程示意图。如图9所示,眼球特征检测方法包括:步骤S900~步骤S924。
步骤S900:获取对应于实际结果的图像样本;其中,实际结果包括实际瞳孔中心坐标以及实际眼球半径;根据实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标;根据预设归一化权重、左瞳孔中心坐标和右瞳孔中心坐标计算归一化因子。
步骤S902:计算x1坐标与xp坐标的第一差值、x2坐标与xp坐标的第二差值、y1坐标与yp坐标的第三差值、y2坐标与yp坐标的第四差值;计算第一差值、第二差值、第三差值和第四差值分别与归一化因子的比值,得到第一比值集合;将第一比值集合确定为对实际瞳孔中心坐标的归一化结果;其中,瞳距中心坐标包括xp坐标和yp坐标,左瞳孔中心坐标包括x1坐标和y1坐标,右瞳孔中心坐标包括x2坐标和y2坐标。
步骤S904:计算第一长轴、第二长轴、第三短轴和第四短轴分别与归一化因子的比值,得到第二比值集合;将第二比值集合确定为实际眼球半径的归一化结果;其中,实际眼球半径包括第一长轴、第二长轴、第三短轴和第四短轴。
步骤S906:预测图像样本对应的参考瞳孔中心坐标以及参考眼球半径,计算参考瞳孔中心坐标与实际瞳孔中心坐标之间的第一损失函数、计算参考眼球半径与实际眼球半径之间的第二损失函数、计算第一预设权重与第一损失函数的第一乘积、计算小于第一预设权重的第二预设权重与第二损失函数的第二乘积,将第一乘积与第二乘积的加和结果确定为目标损失函数,根据目标损失函数调整至少一个眼球特征检测网络的网络参数,直到目标损失函数小于预设阈值为止。
步骤S908:对当前图像进行卷积和池化,得到图像特征向量,计算图像特征向量属于各图像类别的概率,若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域。
步骤S910:识别人脸区域中的多个特征点,根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域,将左眼区域和右眼区域进行拼接,得到眼部区域。
步骤S912:将眼部区域输入至少一个眼球特征检测网络中多个独立的自注意力子网络中,通过自注意力子网络中的多个卷积层对眼部区域执行卷积操作,以获取与多个卷积层相匹配的多个特征图;其中,多个独立的自注意力子网络对应于不同的模型参数。
步骤S914:将多个特征图中的第一目标特征图进行转置,并将转置结果与多个特征图中的第二目标特征图相乘,得到参考特征图;其中,参考特征图用于表征第一目标特征图和第二目标特征图之间各元素相关性。
步骤S916:通过逻辑回归函数处理参考特征图,得到中间特征图;其中,中间特征图用于表征眼部区域中各元素权重评分。
步骤S918:计算多个特征图中的第三目标特征图和中间特征图的乘积,并将乘积确定为眼部区域对应的全局特征向量,采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
步骤S920:若存在前一眼球特征检测网络,将前一眼球特征检测网络的输出作为当前眼球特征检测网络的输入,根据输入计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的中间特征向量;其中,中间特征向量与当前眼球特征检测网络相对应。
步骤S922:若当前眼球特征检测网络不是最后一个眼球特征检测网络,将中间特征向量作为下一眼球特征检测网络的输入;若当前眼球特征检测网络为最后一个眼球特征检测网络,将中间特征向量确定为局部特征向量。
步骤S924:根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
需要说明的是,步骤S900~步骤S924与图1所示的各步骤及其实施例相对应,针对步骤S900~步骤S924的具体实施方式,请参阅图1所示的各步骤及其实施例,此处不再赘述。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
示例性介质
在介绍了本申请示例性实施方式的方法之后,接下来,对本申请示例性实施方式的介质进行说明。
在一些可能的实施方式中,本申请的各个方面还可以实现为一种介质,其上存储有程序代码,当程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的眼球特征检测方法中的步骤。
具体地,所述设备的处理器执行所述程序代码时用于实现如下步骤:从当前图像的人脸区域中识别出眼部区域;将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量;根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:识别人脸区域中的多个特征点;根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域;其中,左眼区域和右眼区域均与鼻部特征点对应的鼻部区域不存在交集,鼻部特征点属于多个特征点,左眼区域和右眼区域的面积之和小于人脸区域的面积;将左眼区域和右眼区域进行拼接,得到眼部区域。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:对当前图像进行卷积和池化,得到图像特征向量;计算图像特征向量属于各图像类别的概率;若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:获取对应于实际结果的图像样本;其中,实际结果包括实际瞳孔中心坐标以及实际眼球半径;预测图像样本对应的参考瞳孔中心坐标以及参考眼球半径;计算参考瞳孔中心坐标与实际瞳孔中心坐标之间的第一损失函数;计算参考眼球半径与实际眼球半径之间的第二损失函数;根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:计算第一预设权重与第一损失函数的第一乘积;计算小于第一预设权重的第二预设权重与第二损失函数的第二乘积;将第一乘积与第二乘积的加和结果确定为目标损失函数;根据目标损失函数调整至少一个眼球特征检测网络的网络参数,直到目标损失函数小于预设阈值为止。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:根据实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标;根据预设归一化权重、左瞳孔中心坐标和右瞳孔中心坐标计算归一化因子;根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化;根据归一化因子对实际眼球半径进行归一化。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:计算x1坐标与xp坐标的第一差值、x2坐标与xp坐标的第二差值、y1坐标与yp坐标的第三差值、y2坐标与yp坐标的第四差值;计算第一差值、第二差值、第三差值和第四差值分别与归一化因子的比值,得到第一比值集合;将第一比值集合确定为对实际瞳孔中心坐标的归一化结果。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:计算第一长轴、第二长轴、第三短轴和第四短轴分别与归一化因子的比值,得到第二比值集合;将第二比值集合确定为实际眼球半径的归一化结果。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合;将全局特征向量集合中的全局特征向量进行拼接;对拼接结果进行多层卷积,得到眼部区域对应的局部特征向量。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:将眼部区域输入至少一个眼球特征检测网络中多个独立的自注意力子网络中;其中,多个独立的自注意力子网络对应于不同的模型参数;通过自注意力子网络中的多个卷积层对眼部区域执行卷积操作,以获取与多个卷积层相匹配的多个特征图;将多个特征图中的第一目标特征图进行转置,并将转置结果与多个特征图中的第二目标特征图相乘,得到参考特征图;其中,参考特征图用于表征第一目标特征图和第二目标特征图之间各元素相关性;通过逻辑回归函数处理参考特征图,得到中间特征图;其中,中间特征图用于表征眼部区域中各元素权重评分;计算多个特征图中的第三目标特征图和中间特征图的乘积,并将乘积确定为眼部区域对应的全局特征向量;采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
在本申请的一些实施方式中,所述设备的处理器执行所述程序代码时还用于实现如下步骤:若存在前一眼球特征检测网络,将前一眼球特征检测网络的输出作为当前眼球特征检测网络的输入;根据输入计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的中间特征向量;其中,中间特征向量与当前眼球特征检测网络相对应;若当前眼球特征检测网络不是最后一个眼球特征检测网络,将中间特征向量作为下一眼球特征检测网络的输入;若当前眼球特征检测网络为最后一个眼球特征检测网络,将中间特征向量确定为局部特征向量。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本申请示例性实施方式的介质之后,接下来,参考图10对本申请示例性实施方式的眼球特征检测装置进行说明。
请参阅图10,图10示出的是根据本申请一示例实施方式的眼球特征检测装置的结构框图。如图10所示,本申请一示例实施方式的眼球特征检测装置1000包括:眼部区域识别单元1001、特征向量计算单元1002以及眼球特征确定单元1003,其中:
眼部区域识别单元1001,用于从当前图像的人脸区域中识别出眼部区域;
特征向量计算单元1002,用于将眼部区域输入至少一个眼球特征检测网络,通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量;
眼球特征确定单元1003,用于根据局部特征向量确定当前图像对应的瞳孔位置信息以及眼球形态信息。
可见,实施图10所示的装置,可以通过眼部区域的局部特征和全局特征的融合,提升对于瞳孔位置信息以及眼球形态信息的预测精度。此外,能够只对人脸区域中的眼部区域进行特征提取,从而有利于减少对于眼球特征检测网络的参数设置,可以便于提升网络训练效率。
在一个实施例中,基于前述方案,眼部区域识别单元1001从当前图像的人脸区域中识别出眼部区域,包括:
识别人脸区域中的多个特征点;
根据多个特征点中的左眼特征点确定左眼区域,以及根据多个特征点中的右眼特征点确定右眼区域;
其中,左眼区域和右眼区域均与鼻部特征点对应的鼻部区域不存在交集,鼻部特征点属于多个特征点,左眼区域和右眼区域的面积之和小于人脸区域的面积;
将左眼区域和右眼区域进行拼接,得到眼部区域。
可见,实施该可选的实施例,能够确定出不包含鼻部区域的眼部区域,减少眼部区域中的冗余信息,当基于该眼部区域计算瞳孔位置信息以及眼球形态信息时,可以提升计算效率以及计算准确率。另外,在现有技术中,一般对包含鼻部区域的眼部区域进行眼球特征检测,或是对左眼区域和右眼区域分别进行独立的眼球特征检测,而本申请不仅可以去除眼部区域中的冗余信息(即,鼻梁信息),还可以拼接左眼区域和右眼区域,在保持眼睛在结构上的相关性(例如,眼睛右看的情况下左眼区域和右眼区域中的眼球都是向右偏转的)的情况下,缩小用于输入眼球特征检测网络的眼部区域的尺寸,进而可以减少对于眼球特征检测网络的参数设置,从而有利于提升网络训练效率和眼球特征检测精度。
在一个实施例中,基于前述方案,特征向量计算单元1002,还用于在眼部区域识别单元1001识别人脸区域中的多个特征点之前,对当前图像进行卷积和池化,得到图像特征向量;
上述装置还包括:分类单元(未图示),用于计算图像特征向量属于各图像类别的概率,若最大概率对应的图像类别为人脸类别,则判定当前图像中存在人脸区域。
可见,实施该可选的实施例,能够对当前图像进行特征提取,从而根据提取到的特征判定该当前图像中是否存在人脸区域,如果存在,则可以进行下述步骤,如果不存在,则结束流程,这样可以保证所处理的图像中是包含人脸的,避免对不包含人脸的图像进行处理,进而避免对计算资源的浪费。
在一个实施例中,基于前述方案,上述装置还包括:
样本获取单元(未图示),用于在特征向量计算单元1002通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量之前,获取对应于实际结果的图像样本;其中,实际结果包括实际瞳孔中心坐标以及实际眼球半径;
预测单元(未图示),用于预测图像样本对应的参考瞳孔中心坐标以及参考眼球半径;
损失函数计算单元(未图示),用于计算参考瞳孔中心坐标与实际瞳孔中心坐标之间的第一损失函数,并计算参考眼球半径与实际眼球半径之间的第二损失函数;
参数调整单元(未图示),用于根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络的网络参数。
可见,实施该可选的实施例,能够实现对于眼球特征检测网络的训练,进而有利于提升对于瞳孔位置信息以及眼球形态信息的计算准确率。
在一个实施例中,基于前述方案,参数调整单元根据第一损失函数和第二损失函数调整至少一个眼球特征检测网络中的网络参数,包括:
计算第一预设权重与第一损失函数的第一乘积;
计算小于第一预设权重的第二预设权重与第二损失函数的第二乘积;
将第一乘积与第二乘积的加和结果确定为目标损失函数;
根据目标损失函数调整至少一个眼球特征检测网络的网络参数,直到目标损失函数小于预设阈值为止。
可见,实施该可选的实施例,能够通过对应于不同维度的权重计算适用于眼球特征检测网络调参的损失函数,从而有利于训练有预测重点的眼球特征检测网络,可以在有限的计算资源中有侧重点的提升瞳孔中心坐标的计算准确率。
在一个实施例中,基于前述方案,上述装置还包括:
参数计算单元(未图示),用于在样本获取单元获取对应于实际结果的图像样本之后,根据实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标;根据预设归一化权重、左瞳孔中心坐标和右瞳孔中心坐标计算归一化因子
归一化单元(未图示),用于根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化;根据归一化因子对实际眼球半径进行归一化。
可见,实施该可选的实施例,能够在训练之前对图像样本对应的实际结果进行归一化,从而有利于改善眼球特征检测网络的训练效果,提升训练后的眼球特征检测网络的检测准确性。
在一个实施例中,基于前述方案,瞳距中心坐标包括xp坐标和yp坐标,左瞳孔中心坐标包括x1坐标和y1坐标,右瞳孔中心坐标包括x2坐标和y2坐标,归一化单元根据瞳距中心坐标和归一化因子对实际瞳孔中心坐标进行归一化,包括:
计算x1坐标与xp坐标的第一差值、x2坐标与xp坐标的第二差值、y1坐标与yp坐标的第三差值、y2坐标与yp坐标的第四差值;
计算第一差值、第二差值、第三差值和第四差值分别与归一化因子的比值,得到第一比值集合;
将第一比值集合确定为对实际瞳孔中心坐标的归一化结果。
可见,实施该可选的实施例,能够对实际瞳孔中心坐标中各项参数进行归一化,以提升训练后的眼球特征检测网络的检测准确性。
在一个实施例中,基于前述方案,实际眼球半径包括第一长轴、第二长轴、第三短轴和第四短轴,归一化单元根据归一化因子对实际眼球半径进行归一化,包括:
计算第一长轴、第二长轴、第三短轴和第四短轴分别与归一化因子的比值,得到第二比值集合;
将第二比值集合确定为实际眼球半径的归一化结果。
可见,实施该可选的实施例,能够对实际眼球半径中各项参数进行归一化,以提升训练后的眼球特征检测网络的检测准确性。
在一个实施例中,基于前述方案,特征向量计算单元1002通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:
通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合;
将全局特征向量集合中的全局特征向量进行拼接;
对拼接结果进行多层卷积,得到眼部区域对应的局部特征向量。
可见,实施该可选的实施例,能够将对应于不同特征提取目标的多个自注意力网络进行结合,以通过多个特征提取目标获取到眼部区域对应的侧重点不同的全局特征向量,进而通过对侧重点不同的全局特征向量的融合以及对于融合结果的卷积处理,加强全局特征向量中的局部特征向量,从而提升对当前图像中瞳孔位置信息以及眼球形态信息的提取准确率。
在一个实施例中,基于前述方案,特征向量计算单元1002通过至少一个眼球特征检测网络中多个独立的自注意力子网络计算眼部区域对应的全局特征向量,得到全局特征向量集合,包括:
将眼部区域输入至少一个眼球特征检测网络中多个独立的自注意力子网络中;其中,多个独立的自注意力子网络对应于不同的模型参数;
通过自注意力子网络中的多个卷积层对眼部区域执行卷积操作,以获取与多个卷积层相匹配的多个特征图;
将多个特征图中的第一目标特征图进行转置,并将转置结果与多个特征图中的第二目标特征图相乘,得到参考特征图;其中,参考特征图用于表征第一目标特征图和第二目标特征图之间各元素相关性;
通过逻辑回归函数处理参考特征图,得到中间特征图;其中,中间特征图用于表征眼部区域中各元素权重评分;
计算多个特征图中的第三目标特征图和中间特征图的乘积,并将乘积确定为眼部区域对应的全局特征向量;
采集多个独立的自注意力子网络中各个自注意力子网络对应的全局特征向量,得到全局特征向量集合。
可见,实施该可选的实施例,能够通过多头自注意力网络确定当前图像的全局特征,结合卷积神经网络确定当前图像的局部特征,提升对于当前图像中瞳孔位置信息以及眼球形态信息的预测精度。并且,对于多头自注意力网络能够利用到多头自注意力网络具备的计算简单、参数少的优点,再基于多个自注意力子网络的互相独立特性,可以实现并行计算,从而加速网络运算效率,有利于本申请在移动端(如,手机、笔记本、平板电脑、POS机、车载电脑等)的应用。
在一个实施例中,基于前述方案,若眼球特征检测网络的数量大于1,特征向量计算单元1002通过至少一个眼球特征检测网络计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的局部特征向量,包括:
若存在前一眼球特征检测网络,将前一眼球特征检测网络的输出作为当前眼球特征检测网络的输入;
根据输入计算眼部区域对应的全局特征向量,并对全局特征向量进行多层卷积,得到眼部区域对应的中间特征向量;其中,中间特征向量与当前眼球特征检测网络相对应;
若当前眼球特征检测网络不是最后一个眼球特征检测网络,将中间特征向量作为下一眼球特征检测网络的输入;若当前眼球特征检测网络为最后一个眼球特征检测网络,将中间特征向量确定为局部特征向量。
可见,实施该可选的实施例,能够通过多头自注意力网络结合卷积神经网络的方式,实现对于局部特征和全局特征的融合,这样不仅可以减少运算量和网络参数,使得本申请可以应用于移动端,扩大本申请的应用范围,还可以提升对于瞳孔位置信息以及眼球形态信息的预测精度。此外,本申请对光照、眼睛颜色、人脸角度等参数具备较强的鲁棒性,在应用于对视频中瞳孔位置信息以及眼球形态信息的追踪时,可以提升追踪精度。
应当注意,尽管在上文详细描述中提及了眼球特征检测装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
示例性电子设备
在介绍了本申请示例性实施方式的方法、介质和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图11来描述根据本申请的又一可选示例实施方式的眼球特征检测装置1100。图11显示的眼球特征检测装置1100仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,眼球特征检测装置1100以电子设备的形式表现。眼球特征检测装置1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1110执行,使得所述处理单元1110执行本说明书上述示例性方法的描述部分中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元1110可以执行如图1和图9中所示的各个步骤。
存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202,还可以进一步包括只读存储单元(ROM)11203。
存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204,这样的程序模块11205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1130可以为表示几类总线结构中的一种或多种,包括地址总线、控制总线和/或数据总线。
眼球特征检测装置1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与眼球特征检测装置1100交互的设备通信,和/或与使得该眼球特征检测装置1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且,眼球特征检测装置1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图11所示,网络适配器1160通过总线1130与眼球特征检测装置1100的其它模块通信。应当明白,尽管图中未示出,可以结合眼球特征检测装置1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所发明的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种眼球特征检测方法,其特征在于,包括:
从当前图像的人脸区域中识别出眼部区域;
将所述眼部区域输入至少一个眼球特征检测网络,通过所述至少一个眼球特征检测网络计算所述眼部区域对应的全局特征向量,并对所述全局特征向量进行多层卷积,得到所述眼部区域对应的局部特征向量;
根据所述局部特征向量确定所述当前图像对应的瞳孔位置信息以及眼球形态信息。
2.根据权利要求1所述的方法,其特征在于,从当前图像的人脸区域中识别出眼部区域,包括:
识别所述人脸区域中的多个特征点;
根据所述多个特征点中的左眼特征点确定左眼区域,以及根据所述多个特征点中的右眼特征点确定右眼区域;
其中,所述左眼区域和所述右眼区域均与鼻部特征点对应的鼻部区域不存在交集,所述鼻部特征点属于所述多个特征点,所述左眼区域和所述右眼区域的面积之和小于所述人脸区域的面积;
将所述左眼区域和所述右眼区域进行拼接,得到所述眼部区域。
3.根据权利要求2所述的方法,其特征在于,识别所述人脸区域中的多个特征点之前,所述方法还包括:
对所述当前图像进行卷积和池化,得到图像特征向量;
计算所述图像特征向量属于各图像类别的概率;
若最大概率对应的图像类别为人脸类别,则判定所述当前图像中存在所述人脸区域。
4.根据权利要求1所述的方法,其特征在于,通过所述至少一个眼球特征检测网络计算所述眼部区域对应的全局特征向量之前,所述方法还包括:
获取对应于实际结果的图像样本;其中,所述实际结果包括实际瞳孔中心坐标以及实际眼球半径;
预测所述图像样本对应的参考瞳孔中心坐标以及参考眼球半径;
计算所述参考瞳孔中心坐标与所述实际瞳孔中心坐标之间的第一损失函数;
计算所述参考眼球半径与所述实际眼球半径之间的第二损失函数;
根据所述第一损失函数和所述第二损失函数调整所述至少一个眼球特征检测网络的网络参数。
5.根据权利要求4所述的方法,其特征在于,根据所述第一损失函数和所述第二损失函数调整所述至少一个眼球特征检测网络的网络参数,包括:
计算第一预设权重与所述第一损失函数的第一乘积;
计算小于所述第一预设权重的第二预设权重与所述第二损失函数的第二乘积;
将所述第一乘积与所述第二乘积的加和结果确定为目标损失函数;
根据所述目标损失函数调整所述至少一个眼球特征检测网络的网络参数,直到所述目标损失函数小于预设阈值为止。
6.根据权利要求4所述的方法,其特征在于,获取对应于实际结果的图像样本之后,所述方法还包括:
根据所述实际瞳孔中心坐标中的左瞳孔中心坐标和右瞳孔中心坐标计算瞳距中心坐标;
根据预设归一化权重、所述左瞳孔中心坐标和所述右瞳孔中心坐标计算归一化因子;
根据所述瞳距中心坐标和所述归一化因子对所述实际瞳孔中心坐标进行归一化;
根据所述归一化因子对所述实际眼球半径进行归一化。
7.根据权利要求6所述的方法,其特征在于,所述瞳距中心坐标包括xp坐标和yp坐标,所述左瞳孔中心坐标包括x1坐标和y1坐标,所述右瞳孔中心坐标包括x2坐标和y2坐标,根据所述瞳距中心坐标和所述归一化因子对所述实际瞳孔中心坐标进行归一化,包括:
计算所述x1坐标与所述xp坐标的第一差值、所述x2坐标与所述xp坐标的第二差值、所述y1坐标与所述yp坐标的第三差值、所述y2坐标与所述yp坐标的第四差值;
计算所述第一差值、所述第二差值、所述第三差值和所述第四差值分别与所述归一化因子的比值,得到第一比值集合;
将所述第一比值集合确定为对所述实际瞳孔中心坐标的归一化结果。
8.一种眼球特征检测装置,其特征在于,包括:
眼部区域识别单元,用于从当前图像的人脸区域中识别出眼部区域;
特征向量计算单元,用于将所述眼部区域输入至少一个眼球特征检测网络,通过所述至少一个眼球特征检测网络计算所述眼部区域对应的全局特征向量,并对所述全局特征向量进行多层卷积,得到所述眼部区域对应的局部特征向量;
眼球特征确定单元,用于根据所述局部特征向量确定所述当前图像对应的瞳孔位置信息以及眼球形态信息。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的眼球特征检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的眼球特征检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327976.1A CN112446322B (zh) | 2020-11-24 | 2020-11-24 | 眼球特征检测方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327976.1A CN112446322B (zh) | 2020-11-24 | 2020-11-24 | 眼球特征检测方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446322A true CN112446322A (zh) | 2021-03-05 |
CN112446322B CN112446322B (zh) | 2024-01-23 |
Family
ID=74738023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011327976.1A Active CN112446322B (zh) | 2020-11-24 | 2020-11-24 | 眼球特征检测方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446322B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052064A (zh) * | 2021-03-23 | 2021-06-29 | 北京思图场景数据科技服务有限公司 | 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法 |
CN113283340A (zh) * | 2021-05-25 | 2021-08-20 | 复旦大学 | 一种基于眼表特征的疫苗接种情况检测方法、装置及系统 |
CN115035566A (zh) * | 2022-05-07 | 2022-09-09 | 北京大学深圳医院 | 表情识别方法、装置、计算机设备和计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1977286A (zh) * | 2004-06-28 | 2007-06-06 | 佳能株式会社 | 对象识别方法及其设备 |
CN105631413A (zh) * | 2015-12-23 | 2016-06-01 | 中通服公众信息产业股份有限公司 | 一种基于深度学习的跨场景行人搜索方法 |
CN107679448A (zh) * | 2017-08-17 | 2018-02-09 | 平安科技(深圳)有限公司 | 眼球动作分析方法、装置及存储介质 |
CN109635141A (zh) * | 2019-01-29 | 2019-04-16 | 京东方科技集团股份有限公司 | 用于检索图像的方法、电子设备和计算机可读存储介质 |
CN111428468A (zh) * | 2020-03-03 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 单语句通顺度预测方法、装置、设备及存储介质 |
CN111738234A (zh) * | 2020-08-14 | 2020-10-02 | 湖南师范大学 | 基于个体眼动特征的自动化共情能力识别方法 |
-
2020
- 2020-11-24 CN CN202011327976.1A patent/CN112446322B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1977286A (zh) * | 2004-06-28 | 2007-06-06 | 佳能株式会社 | 对象识别方法及其设备 |
CN105631413A (zh) * | 2015-12-23 | 2016-06-01 | 中通服公众信息产业股份有限公司 | 一种基于深度学习的跨场景行人搜索方法 |
CN107679448A (zh) * | 2017-08-17 | 2018-02-09 | 平安科技(深圳)有限公司 | 眼球动作分析方法、装置及存储介质 |
CN109635141A (zh) * | 2019-01-29 | 2019-04-16 | 京东方科技集团股份有限公司 | 用于检索图像的方法、电子设备和计算机可读存储介质 |
CN111428468A (zh) * | 2020-03-03 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 单语句通顺度预测方法、装置、设备及存储介质 |
CN111738234A (zh) * | 2020-08-14 | 2020-10-02 | 湖南师范大学 | 基于个体眼动特征的自动化共情能力识别方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052064A (zh) * | 2021-03-23 | 2021-06-29 | 北京思图场景数据科技服务有限公司 | 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法 |
CN113052064B (zh) * | 2021-03-23 | 2024-04-02 | 北京思图场景数据科技服务有限公司 | 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法 |
CN113283340A (zh) * | 2021-05-25 | 2021-08-20 | 复旦大学 | 一种基于眼表特征的疫苗接种情况检测方法、装置及系统 |
CN113283340B (zh) * | 2021-05-25 | 2022-06-14 | 复旦大学 | 一种基于眼表特征的疫苗接种情况检测方法、装置及系统 |
CN115035566A (zh) * | 2022-05-07 | 2022-09-09 | 北京大学深圳医院 | 表情识别方法、装置、计算机设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112446322B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
US10354362B2 (en) | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network | |
US20210174072A1 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN112446322B (zh) | 眼球特征检测方法、装置、设备及计算机可读存储介质 | |
WO2021174819A1 (zh) | 人脸遮挡检测方法及系统 | |
JP2022502751A (ja) | 顔キーポイント検出方法、装置、コンピュータ機器及びコンピュータプログラム | |
JPH11175246A (ja) | 視線検出装置及びその方法 | |
CN111563502A (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN106407911A (zh) | 基于图像的眼镜识别方法及装置 | |
Gou et al. | Cascade learning from adversarial synthetic images for accurate pupil detection | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
WO2023178906A1 (zh) | 活体检测方法及装置、电子设备、存储介质、计算机程序、计算机程序产品 | |
CN113239907A (zh) | 一种人脸识别的检测方法、装置、电子设备及存储介质 | |
CN111723707A (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN114120432A (zh) | 基于视线估计的在线学习注意力跟踪方法及其应用 | |
CN112330624A (zh) | 医学图像处理方法和装置 | |
Raut | Facial emotion recognition using machine learning | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
Xia et al. | Hybrid regression and isophote curvature for accurate eye center localization | |
CN112712068B (zh) | 一种关键点检测方法、装置、电子设备及存储介质 | |
Kurdthongmee et al. | A yolo detector providing fast and accurate pupil center estimation using regions surrounding a pupil | |
CN111144374B (zh) | 人脸表情识别方法及装置、存储介质和电子设备 | |
CN113706550A (zh) | 图像场景识别和模型训练方法、装置和计算机设备 | |
CN116994319A (zh) | 训练模型的方法和人脸识别方法、设备、介质 | |
CN114898447A (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |