CN113076884A - 一种从近红外光到可见光的跨模态眼睛状态识别方法 - Google Patents

一种从近红外光到可见光的跨模态眼睛状态识别方法 Download PDF

Info

Publication number
CN113076884A
CN113076884A CN202110379880.8A CN202110379880A CN113076884A CN 113076884 A CN113076884 A CN 113076884A CN 202110379880 A CN202110379880 A CN 202110379880A CN 113076884 A CN113076884 A CN 113076884A
Authority
CN
China
Prior art keywords
eye state
visible light
gradient
convolution
eye
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110379880.8A
Other languages
English (en)
Other versions
CN113076884B (zh
Inventor
秦华标
王龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110379880.8A priority Critical patent/CN113076884B/zh
Publication of CN113076884A publication Critical patent/CN113076884A/zh
Application granted granted Critical
Publication of CN113076884B publication Critical patent/CN113076884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Abstract

本发明公开了一种从近红外光到可见光的跨模态眼睛状态识别方法。所述方法包括以下步骤:构建可见光眼睛状态数据集;获取近红外眼睛状态数据集,可见光眼睛状态数据集混合,构建训练集和验证集;构建从近红外光到可见光的跨模态眼睛状态识别框架;对自训练集输入的眼睛状态样本进行处理;对自训练集输入的眼睛状态样本提取梯度信息;识别眼睛状态;对从近红外光到可见光的跨模态眼睛状态识别框架进行模型训练直至收敛;完成眼睛状态的识别。本发明充分考虑多方面因素,充分利用眼睛状态识别本身的特点,同时结合跨模态通用的做法,在保证眼睛状态识别方法在近红外光下的识别性能的同时大幅度提高在可见光下的识别性能。

Description

一种从近红外光到可见光的跨模态眼睛状态识别方法
技术领域
本发明涉及图像处理和计算机视觉领域,具体涉及一种从近红外光到可见光的跨模态眼睛状态识别方法。
背景技术
眼睛状态识别是指识别眼睛的睁闭状态,在驾驶员疲劳驾驶检测、视线跟踪、人机交互等许多领域都有重要的作用,其识别的准确率直接影响这些系统的性能。在实际应用中,为了保证眼睛状态识别方法能够全天候使用,目前最常用的方法就是使用主动红外光源和滤光片结合的图像采集方法,获得近红外下的眼睛的图像。但这种使用专门设备的图像采集方式也限制了眼睛状态识别方法的应用范围,因为在近红外光下,眼睛图像与正常的可见光下采集的眼睛图像出现较大的区别,导致在近红外光下设计、训练好的模型或方法在可见光下性能出现大幅度下降。重新采集可见光下的眼睛状态数据是一个可行的方法,但同时也是一种代价巨大的方法。另一个解决方案是跨模态识别方法。跨模态识别是指模型能够在不同模态下正常的识别目标,这里的模态一般为同构模态,如同为图像的近红外图像和可见光图像。跨膜模态识别思路是提取到不同模态共同特征,或者是减少不同模态数据之间的差异,或者是生成目标模态数据,从而保证模型在不同模态上的识别性能。因此,眼睛状态识别迫切需要一个跨模态识别的方法来提升眼睛状态识别在跨模态(近红外光至可见光)识别时的性能。
现有的眼睛状态识别中,可根据识别方法分为三类,一是根据眼睛睁闭的状态不同的形状特征,使用图像处理的方法提取该特征并做出判断。这类方法有着直观的原理,同时实现比较简单,但是易受环境变化、以及头部运动等因素影响。第二类是基于统计机器学习的方法,该类方法主要是采用手工设计特征,并结合机器学习方法对所提取的特征进行分类,从而实现识别眼睛状态。这类方法常用的特征有方向梯度直方图(Histogram ofOriented Gradient,HOG)、局部二值模式(Local Binary Pattern,LBP)等。第三类是基于深度学习的眼睛状态识别方法,克服了第二类方法需要手工设计特征的缺点。Kim等人使用ResNet-50作为模型,把眼睛区域作为输入训练模型识别眼睛状态(KIM K W,HONG H G,NAMG P,等.A Study of Deep CNN-Based Classification of Open and Closed Eyes Usinga Visible Light Camera Sensor[J].Sensors,2017,17(7):1534.)。而Liu等人则自己设计一个轻量的网络来识别眼睛状态(LIU X,FANG Z,LIU X,等.Driver Fatigue DetectionUsing Multitask Cascaded Convolutional Networks[C]//SHI Z,GOERTZEL B,FENGJ.Intelligence Science I.Cham:Springer International Publishing,2017:143–152.)。Huang等人则是结合了积分投影和卷积神经网络来识别眼睛状态(HUANG R,WANG Y,GUO L.P-FDCN Based Eye State Analysis for Fatigue Detection[C]//2018IEEE 18thInternational Conference on Communication Technology(ICCT).2018:1174–1178.)。由此可见,基于深度学习的眼睛状态识别方法从简单的使用通用分类网络识别,到针对眼睛状态设计网络结构,再到结合第一类方法进行识别,总体上朝着专业化发展。但是,以上方法均没有涉及跨模态眼睛状态识别。
综上所述,眼睛状态识别方向需要提出一种从近红外光到可见光的跨模态眼睛状态识别方法,在保证眼睛状态识别方法在近红外光下的识别性能的同时,大幅度提升其在可见光下的跨模态识别性能。
发明内容
本发明提供了一种从近红外光到可见光的跨模态眼睛状态识别方法,该方法包括两个部分,一是眼睛状态数据集增广方法,二是红外光到可见光的跨模态眼睛状态识别框架,其中,眼睛状态数据集增广方法,用于生成可见光下的眼睛状态样本;从近红外光到可见光的跨模态眼睛状态识别框架,用于识别眼睛状态。本发明从数据、模型设计以及模型训练三个方面入手,综合考虑眼睛状态识别本身的特点,在保证眼睛状态识别方法在近红外光下的识别性能的同时,大幅度提升其在可见光下的跨模态识别性能。
本发明的目的至少通过如下技术方案之一实现。
一种从近红外光到可见光的跨模态眼睛状态识别方法,包括以下步骤:
S1、使用眼睛状态数据集增广方法生成可见光下的眼睛状态样本,构建可见光眼睛状态数据集;
S2、获取近红外眼睛状态数据集,与步骤S1中获得的可见光眼睛状态数据集混合,构建训练集和验证集;
S3、构建从近红外光到可见光的跨模态眼睛状态识别框架,包括图像预处理模块、梯度提取模块、梯度信息辅助网络、信息融合模块和注意力卷积主干网络;
S4、采用图像预处理模块对自训练集输入的眼睛状态样本进行处理,获得预处理图像;
S5、采用梯度提取模块对自训练集输入的眼睛状态样本提取梯度信息;
S6、采用注意力卷积主干网络识别眼睛状态;
S7、采用步骤S2中的训练集和验证集对从近红外光到可见光的跨模态眼睛状态识别框架进行模型训练,重复步骤S3~步骤S7,直至从近红外光到可见光的跨模态眼睛状态识别框架收敛;
S8、将待识别眼睛图像输入收敛的从近红外光到可见光的跨模态眼睛状态识别框架中,完成眼睛状态的识别。
进一步地,步骤S1中具体包括以下步骤:
S1.1、人脸图像生成:
采用生成对抗网络作为生成模型,使用公开的可见光人脸数据集作为训练集进行训练,直至生成模型收敛,然后使用收敛的生成模型生成可见光下指定眼睛状态的人脸图像;
S1.2、眼睛区域自动提取:
从步骤S1.1中获得的可见光下指定眼睛状态的人脸图像提取人脸,然后提取面部关键点;再按照面部关键点与眼睛区域的关系,得到眼睛的坐标,进而得到可见光眼睛状态数据集的样本。
进一步地,步骤S2中,采用近红外主动摄像头采集眼睛图像,并手动标注,构建近红外眼睛状态数据集,或采用现有的近红外眼睛状态数据集。
进一步地,步骤S3中,从近红外光到可见光的跨模态眼睛状态识别框架中,图像预处理模块用于根据输入的眼睛状态样本得到预处理图像并输入注意力卷积主干网络;
梯度提取模块用于对输入的眼睛状态样本进行梯度提取得到眼睛状态样本的梯度信息图并输入梯度信息辅助网络;
梯度信息辅助网络根据梯度信息图进一步提取梯度信息得到梯度特征图;
信息融合模块用于在注意力卷积主干网络中融入梯度信息辅助网络提取的梯度信息;
注意力卷积主干网络输出输入的眼睛状态样本中眼睛的状态。
进一步地,图像预处理模块中,具体处理如下:
对输入的眼睛状态样本进行预处理获取预处理输出图像,预处理方式包括图像直方图均衡化或Retinex图像增强方法;
对输入的眼睛状态样本进行灰度化获取灰度化图像;
将预处理输出图像和灰度化图像按通道融合,融合得到输入注意力卷积主干网络的预处理图像。
进一步地,梯度提取模块中,使用Canny边缘检测算子对输入的眼睛状态样本提取梯度信息得到梯度信息图。
进一步地,梯度提取模块中,先使用高斯滤波对输入的眼睛状态样本进行处理,得到平滑之后的眼睛图像;再使用Sobel算子对平滑之后的眼睛图像提取水平和垂直方向的梯度,并据此计算水平和垂直方向的梯度以及梯度的方向,并进行非极大值抑制,获得输入的眼睛状态样本的梯度信息图。
进一步地,注意力卷积主干网络包括多个卷积块,每个卷积块均包括多个卷积层,归一化层和池化层,且每个卷积块的第一个卷积层的步长为2,以实现对上一个块的下采样;除了最后一个卷积块,在每个卷积块的后面均添加压缩激励注意力模块,引入注意力机制;在最后一个卷积块的后面依次添加全局池化层和全连接层。
进一步地,梯度信息辅助网络具体如下:
首先使用步长为2,大小为7x7的卷积核对梯度信息图进行卷积,后依次接归一化层、激活层以及步长为2最大池化层Pool,之后是两层参数相同且后接归一化层和激活层的卷积层,提取最大池化层Pool的输出与最后一层卷积层的输出相加,获得梯度特征图。
进一步地,注意力卷积主干网络在前向推理时,通过信息融合模块融合梯度信息辅助网络的梯度信息,具体如下:
获得注意力卷积主干网络中卷积块的特征图;获得梯度信息辅助网络输出的梯度特征图,并将其下采样至卷积块的特征图的尺寸;将下采样的梯度特征图与卷积块的特征图融合得到融合特征图,对融合特征图的通道进行下采样,并将下采样后的融合特征图的元素变换至0至1之间权重,将得到的权重与卷积块的特征图逐元素点乘之后,再与卷积块的特征图逐元素相加,作为下一个卷积块的输入;
注意力卷积主干网络推理结束之后,得到眼睛状态识别的结果。
进一步地,步骤S7中,采用步骤S2中构建的训练集和验证集进行对跨模态眼睛状态识别框架进行训练,具体如下:
S7.1.1、根据步骤S2中构建的训练集和验证集,使用交叉熵损失作为损失函数,对步骤S6中注意力卷积主干网络输出的眼睛状态识别结果计算损失;
S7.1.2、使用梯度反向传播算法,将梯度回传给注意力卷积主干网络和梯度信息辅助网络的参数,而后使用梯度下降法更新注意力卷积主干网络和梯度信息辅助网络的参数权重。
进一步地,步骤S7中,还引入领域自适应模块对跨模态眼睛状态识别框架进行领域自适应训练,采用的领域自适应方法为最大均值差异方法或者基于生成对抗的领域自适应方法,具体如下:
S7.2.1、准备两个模态的眼睛状态数据,即近红外眼睛状态数据,以及步骤S2中可见光眼睛状态数据;
S7.2.2、固定梯度信息辅助网络的参数,以及注意力卷积主干网络中除了最后一个卷积块和全连接层之外的余下参数,对注意力卷积主干网络的最后一个卷积块以及全连接层的参数进行自适应训练;
S7.2.3、分别随机抽取近红外眼睛状态数据集和可见光眼睛状态数据集中同一类别的数据,执行步骤S5至步骤S7.1.1,获得分类损失;
S7.2.4、提取注意力卷积主干网络中全连接层的输出特征图作为领域自适应模块的输入,获得领域自适应模块对应的损失;
S7.2.5、将分类损失和领域自适应模块对应的损失加权求和,作为总损失函数反向传播,并使用随机梯度下降算法更新步骤S7.2.2中未固定的网络参数的权重,重复步骤S7.2.1~步骤S7.2.5直至跨模态眼睛状态识别框架收敛。
与现有技术相比,本发明至少具有如下的优势和技术效果:
本发明充分考虑多方面因素,充分利用眼睛状态识别本身的特点,同时结合跨模态通用的做法,在保证眼睛状态识别方法在近红外光下的识别性能的同时大幅度提高在可见光下的识别性能。
附图说明
图1是本发明实施例中的整体流程图。
图2是本发明实施例中的信息融合模块示意图。
图3是本发明实施例中的领域自适应训练示意图。
具体实施方式
本发明申请提供了一种从近红外光到可见光跨模态眼睛状态识别方法的具体实施方式,具体包括两部分,一是眼睛状态数据集增广方法,包括基于生成对抗网络的人脸图像生成方法,以及基于深度学习眼睛区域自动提取方法。二是从近红外至可见光的跨模态眼睛状态识别框架具体的实现和应用。该框架如图1所示,该框架除了注意力卷积主干网络和梯度信息辅助网络外,还包括连接这两个网络的信息融合模块,处理输入的图像预处理模块,提取梯度信息的梯度提取模块,用于网络模型训练的邻域自适应模块。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
一种从近红外光到可见光的跨模态眼睛状态识别方法,如图1所示,包括以下步骤:
S1:使用眼睛状态数据集增广方法生成可见光下的眼睛状态样本,构建可见光眼睛状态数据集,本实施例中,具体包括以下步骤:
S1.1、人脸图像生成:
采用生成对抗网络作为生成模型,使用公开的可见光人脸数据集作为训练集进行训练,直至生成模型收敛,然后使用收敛的生成模型生成可见光下指定眼睛状态的人脸图像;
本实施例中,生成模型采用starGAN v2;准备人脸图像数据集,按照性别划分为男、女两个数据集;同样数据,根据是否佩戴眼镜分为佩戴眼镜、为佩戴眼镜两个数据集;对上述的数据集,按照8:2划分生成模型的训练集和验证集;
按照starGANv2模型作者公布的训练方法使用训练集对生成模型进行训练,得到收敛的生成模型;
准备红外人脸数据集作为生成模型的源图片,而选取生成模型的验证集作为参考图像,生成具有参考图像风格的人脸数据,人脸的眼睛的睁闭跟随源图像。
S1.2、眼睛区域自动提取:
从步骤S1.1中获得的可见光下指定眼睛状态的人脸图像提取人脸,然后提取面部关键点;再按照面部关键点与眼睛区域的关系,得到眼睛的坐标,进而得到可见光眼睛状态数据集的样本;
本实施例中,眼睛区域自动提取方法采用人脸检测与面部关键点检测级联的方式进行,根据人面部关键点可获得眼睛区域并截取,作为可见光眼睛状态数据集的样本,至此,获得可见光眼睛状态数据集。
S2、本实施例中,使用现有的近红外眼睛状态数据集,与步骤S1中获得的可见光眼睛状态数据集混合,构建训练集和验证集;
在另一个实施例中,采用近红外主动摄像头采集眼睛图像,并手动标注,构建近红外眼睛状态数据集。
S3、构建从近红外光到可见光的跨模态眼睛状态识别框架,包括图像预处理模块、梯度提取模块、梯度信息辅助网络、信息融合模块和注意力卷积主干网络;
图像预处理模块中,具体处理如下:
本实施例中,对输入的眼睛状态样本进行图像直方图均衡化获取预处理输出图像;
对输入的眼睛状态样本进行灰度化获取灰度化图像;
将预处理输出图像和灰度化图像按通道融合,融合得到输入注意力卷积主干网络的预处理图像。
本实施例中,梯度提取模块中,使用Canny边缘检测算子对输入的眼睛状态样本提取梯度信息得到梯度信息图。
注意力卷积主干网络包括多个卷积块,每个卷积块均包括多个卷积层,归一化层和池化层,且每个卷积块的第一个卷积层的步长为2,以实现对上一个块的下采样;除了最后一个卷积块,在每个卷积块的后面均添加压缩激励注意力模块,引入注意力机制;在最后一个卷积块的后面依次添加全局池化层和全连接层。
本实施例中,注意力卷积主干网络使用ResNet8作为主干网络,主干网络的各个block的层数为[1,1,1,1],block的类型为BasicBlock,输入大小为48x48,ResNet8的planes参数设为32,类别数量为3.在每个block后面添加SE注意力模块。
梯度信息辅助网络具体如下:
首先使用步长为2,大小为7x7的卷积核对梯度信息图进行卷积,后依次接归一化层、激活层以及步长为2最大池化层Pool,之后是两层参数相同且后接归一化层和激活层的卷积层,提取最大池化层Pool的输出与最后一层卷积层的输出相加,获得梯度特征图。
本实施例中,梯度信息辅助网络由ResNet8第一个block以及其之前的层构成,planes与注意力卷积主干网络的主干网络不同,设为16。
注意力卷积主干网络在前向推理时,通过信息融合模块融合梯度信息辅助网络的梯度信息,如图2所示,具体如下:
获得注意力卷积主干网络中卷积块的特征图;获得梯度信息辅助网络输出的梯度特征图,并将其下采样至卷积块(本实施例中指BasicBlock)的特征图的尺寸;将下采样的梯度特征图与卷积块的特征图融合得到融合特征图,对融合特征图的通道进行下采样,本实施例中,使用Sigmoid函数将下采样后的融合特征图的元素变换至0至1之间权重,将得到的权重与卷积块的特征图逐元素点乘之后,再与卷积块的特征图逐元素相加,作为下一个卷积块的输入;
注意力卷积主干网络推理结束之后,得到眼睛状态识别的结果。
S4、采用图像预处理模块对自训练集输入的眼睛状态样本进行处理,获得预处理图像;
S5、采用梯度提取模块对自训练集输入的眼睛状态样本提取梯度信息;
S6、采用注意力卷积主干网络识别眼睛状态;
S7、采用步骤S2中的训练集和验证集对从近红外光到可见光的跨模态眼睛状态识别框架进行模型训练,重复步骤S3~步骤S7,直至从近红外光到可见光的跨模态眼睛状态识别框架收敛,具体如下:
S7.1.1、根据步骤S2中构建的训练集和验证集,使用交叉熵损失作为损失函数,对步骤S6中注意力卷积主干网络输出的眼睛状态识别结果计算损失;
S7.1.2、使用梯度反向传播算法,将梯度回传给注意力卷积主干网络和梯度信息辅助网络的参数,而后,本实施例中,采用随机梯度下降算法更新注意力卷积主干网络和梯度信息辅助网络的参数权重。
S8、将训练好的跨模态眼睛状态识别框架存放至本地,将待识别眼睛图像输入收敛的从近红外光到可见光的跨模态眼睛状态识别框架中,完成眼睛状态的识别。
实施例2:
与实施例1不同,本实施例的眼睛状态数据集增广方法不相同,在本实施例中,使用styleGAN作为生成模型,在步骤S1中,使用眼睛状态数据集增广方法生成可见光下的眼睛状态样本,构建可见光眼睛状态数据集,具体包括以下步骤:
S1.1、设计一个基于ResNet50的将图像映射至潜在空间的编码器encoder,输出为18×512的dlatent编码,具体结构是去除ResNet50的分类器,后接两层参数分别为3×3×512和3×3×144的带填充的卷积层,随后接4层等尺寸的全连接层。
S1.2、对encoder进行训练,具体是,随机生成latentz,经过styleGAN的映射网络生成dlatent编码w,最后styleGAN生成图片,将图片输入至encoder,获得encoder对dlatent编码的预测
Figure BDA0003012535680000081
通过计算两个dlatent编码之间的差异,获得损失,便可对encoder进行训练;
S1.3、准备训练好的styleGAN模型以及encoder,以及只有单一属性不同的人脸数据集对,如两个数据只有睁眼与闭眼的明显区别;
S1.4、将人脸数据集对输入至encoder中,获得对应的dlatent编码;
S1.5、获得了单变量的人脸对应的dlatent编码,训练逻辑斯蒂回归模型对dlatent编码进分类,根据逻辑斯蒂回归模型的W参数可得单变量变化对应dlatent编码值的变化;
S1.6、随机生成dlatent,然后对dlatent编码的值,按照步骤S1.5得到的方向进行调整,再将调整后的dlatent编码输入至styleGAN模型中,便可以获得对应的睁眼或者闭眼的图像;
S1.7、眼睛区域自动提取方法采用人脸检测与面部关键点检测级联的方式进行,根据人面部关键点可获得眼睛区域并截取,作为可见光眼睛状态数据集的样本。
实施例3:
本实施例的眼睛状态数据集增广方法与实施例2相同,与实施例1的不同之处在于跨模态眼睛状态识别框架的实现方式,本实施例中,在步骤S3中,构建从近红外光到可见光的跨模态眼睛状态识别框架,包括图像预处理模块、梯度提取模块、梯度信息辅助网络、信息融合模块和注意力卷积主干网络,具体如下:
图像预处理模块中,具体处理如下:
本实施例中,对输入的眼睛状态样本分别使用图像直方图均衡化和Retinex图像增强方法对获取第一预处理输出图像和第二预处理输出图像;
对输入的眼睛状态样本进行灰度化获取灰度化图像;
将第一预处理输出图像、第二预处理输出图像和灰度化图像按通道融合,融合得到输入注意力卷积主干网络的预处理图像。
本实施例中,梯度提取模块中,先使用高斯滤波对输入的眼睛状态样本进行处理,得到平滑之后的图像;再使用Sobel算子平滑之后的眼睛图像提取水平和垂直方向的梯度,并据此计算梯度和梯度的方向,并进行非极大值抑制,获得输入的眼睛状态样本下给你的梯度信息图。
本实施例中,使用DenseNet59作为主干网络,主干网络的四个poolingblock的DenseBlock重复次数为[3,6,12,6],输入大小为48x48,第一层卷积层卷积核个数为16,类别数量为3.在每个block后面添加SE注意力模块。
本实施例中,梯度信息辅助网络按照ResNet网络的结构来构建,不同之处在于其只有一个残差块,且残差块的block类型为BasicBlock,重复数1,梯度信息辅助网络的前面部分与ResNet结构相同,不过参数有所改变:输入大小为48×48,planes为16。
注意力卷积主干网络在前向推理时,通过信息融合模块融合梯度信息辅助网络的梯度信息,如图2所示,具体如下:
获得注意力卷积主干网络中卷积块的特征图;获得梯度信息辅助网络输出的梯度特征图,并将其下采样至卷积块(本实施例中指BasicBlock)的特征图的尺寸;将下采样的梯度特征图与卷积块的特征图融合得到融合特征图,对融合特征图的通道进行下采样,本实施例中,使用Sigmoid函数将下采样后的融合特征图的元素变换至0至1之间权重,将得到的权重与卷积块的特征图逐元素点乘之后,再与卷积块的特征图逐元素相加,作为下一个卷积块的输入;
注意力卷积主干网络推理结束之后,得到眼睛状态识别的结果。
实施例4:
本实施例与上述实施例不同之处在于,跨模态眼睛状态识别框架的训练方法不同,引入了领域自适应模块,本实施例中,步骤S7中,采用步骤S2中构建的训练集和验证集进行对跨模态眼睛状态识别框架进行训练,如图3所示,具体如下:
S7.1.1、根据步骤S2中构建的训练集和验证集,使用交叉熵损失作为损失函数,对步骤S6中注意力卷积主干网络输出的眼睛状态识别结果计算损失;
S7.1.2、使用梯度反向传播算法,将梯度回传给注意力卷积主干网络和梯度信息辅助网络的参数,而后使用梯度下降法更新注意力卷积主干网络和梯度信息辅助网络的参数权重。
引入领域自适应模块对跨模态眼睛状态识别框架进行领域自适应训练,本实施例中,使用的领域自适应模块为最大均值差异模块,对应的损失为MMD(Maximum MeanDiscrepancy)损失,具体如下:
S7.2.1、准备两个模态的眼睛状态数据,即近红外眼睛状态数据,以及步骤S2中可见光眼睛状态数据;
S7.2.2、固定梯度信息辅助网络的参数,以及注意力卷积主干网络中除了最后一个卷积块和全连接层之外的余下参数,对注意力卷积主干网络的最后一个卷积块以及全连接层的参数进行自适应训练;
S7.2.3、分别随机抽取近红外眼睛状态数据集和可见光眼睛状态数据集中同一类别的数据,执行步骤S5至步骤S7.1.1,获得分类损失;
S7.2.4、提取注意力卷积主干网络中全连接层的输出特征图作为领域自适应模块的输入,获得MMD损失;
S7.2.5、将分类损失和领域自适应模块对应的损失加权求和,作为总损失函数反向传播,并使用随机梯度下降算法更新步骤S7.2.2中未固定的网络参数的权重,重复步骤S7.2.1~步骤S7.2.5直至跨模态眼睛状态识别框架收敛。

Claims (10)

1.一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,包括以下步骤:
S1、使用眼睛状态数据集增广方法生成可见光下的眼睛状态样本,构建可见光眼睛状态数据集;
S2、获取近红外眼睛状态数据集,与步骤S1中获得的可见光眼睛状态数据集混合,构建训练集和验证集;
S3、构建从近红外光到可见光的跨模态眼睛状态识别框架,包括图像预处理模块、梯度提取模块、梯度信息辅助网络、信息融合模块和注意力卷积主干网络;
S4、采用图像预处理模块对自训练集输入的眼睛状态样本进行处理,获得预处理图像;
S5、采用梯度提取模块对自训练集输入的眼睛状态样本提取梯度信息;
S6、采用注意力卷积主干网络识别眼睛状态;
S7、采用步骤S2中的训练集和验证集对从近红外光到可见光的跨模态眼睛状态识别框架进行模型训练,重复步骤S3~步骤S7,直至从近红外光到可见光的跨模态眼睛状态识别框架收敛;
S8、将待识别眼睛图像输入收敛的从近红外光到可见光的跨模态眼睛状态识别框架中,完成眼睛状态的识别。
2.根据权利要求1所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,步骤S1中具体包括以下步骤:
S1.1、人脸图像生成:
采用生成对抗网络作为生成模型,使用公开的可见光人脸数据集作为训练集进行训练,直至生成模型收敛,然后使用收敛的生成模型生成可见光下指定眼睛状态的人脸图像;
S1.2、眼睛区域自动提取:
从步骤S1.1中获得的可见光下指定眼睛状态的人脸图像提取人脸,然后提取面部关键点;再按照面部关键点与眼睛区域的关系,得到眼睛的坐标,进而得到可见光眼睛状态数据集的样本。
3.根据权利要求2所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,步骤S2中,采用近红外主动摄像头采集眼睛图像,并手动标注,构建近红外眼睛状态数据集,或采用现有的近红外眼睛状态数据集。
4.根据权利要求3所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,步骤S3中,从近红外光到可见光的跨模态眼睛状态识别框架中,图像预处理模块用于根据输入的眼睛状态样本得到预处理图像并输入注意力卷积主干网络;
梯度提取模块用于对输入的眼睛状态样本进行梯度提取得到眼睛状态样本的梯度信息图并输入梯度信息辅助网络;
梯度信息辅助网络根据梯度信息图进一步提取梯度信息得到梯度特征图;
信息融合模块用于在注意力卷积主干网络中融入梯度信息辅助网络提取的梯度信息;
注意力卷积主干网络输出输入的眼睛状态样本中眼睛的状态。
5.根据权利要求4所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,图像预处理模块中,具体处理如下:
对输入的眼睛状态样本进行预处理获取预处理输出图像,预处理方式包括图像直方图均衡化或Retinex图像增强方法;
对输入的眼睛状态样本进行灰度化获取灰度化图像;
将预处理输出图像和灰度化图像按通道融合,融合得到输入注意力卷积主干网络的预处理图像。
6.根据权利要求4所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,梯度提取模块中,使用Canny边缘检测算子对输入的眼睛状态样本提取梯度信息得到梯度信息图。
7.根据权利要求4所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,梯度提取模块中,先使用高斯滤波对输入的眼睛状态样本进行处理,得到平滑之后的眼睛图像;再使用Sobel算子对平滑之后的眼睛图像提取水平和垂直方向的梯度,并据此计算水平和垂直方向的梯度以及梯度的方向,并进行非极大值抑制,获得输入的眼睛状态样本的梯度信息图。
8.根据权利要求4所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,注意力卷积主干网络包括多个卷积块,每个卷积块均包括多个卷积层,归一化层和池化层,且每个卷积块的第一个卷积层的步长为2,以实现对上一个块的下采样;除了最后一个卷积块,在每个卷积块的后面均添加压缩激励注意力模块,引入注意力机制;在最后一个卷积块的后面依次添加全局池化层和全连接层;
梯度信息辅助网络具体如下:
首先使用步长为2,大小为7x7的卷积核对梯度信息图进行卷积,后依次接归一化层、激活层以及步长为2最大池化层Pool,之后是两层参数相同且后接归一化层和激活层的卷积层,提取最大池化层Pool的输出与最后一层卷积层的输出相加,获得梯度特征图;
注意力卷积主干网络在前向推理时,通过信息融合模块融合梯度信息辅助网络的梯度信息,具体如下:
获得注意力卷积主干网络中卷积块的特征图;获得梯度信息辅助网络输出的梯度特征图,并将其下采样至卷积块的特征图的尺寸;将下采样的梯度特征图与卷积块的特征图融合得到融合特征图,对融合特征图的通道进行下采样,并将下采样后的融合特征图的元素变换至0至1之间权重,将得到的权重与卷积块的特征图逐元素点乘之后,再与卷积块的特征图逐元素相加,作为下一个卷积块的输入;
注意力卷积主干网络推理结束之后,得到眼睛状态识别的结果。
9.根据权利要求8所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,步骤S7中,采用步骤S2中构建的训练集和验证集进行对跨模态眼睛状态识别框架进行训练,具体如下:
S7.1.1、根据步骤S2中构建的训练集和验证集,使用交叉熵损失作为损失函数,对步骤S6中注意力卷积主干网络输出的眼睛状态识别结果计算损失;
S7.1.2、使用梯度反向传播算法,将梯度回传给注意力卷积主干网络和梯度信息辅助网络的参数,而后使用梯度下降法更新注意力卷积主干网络和梯度信息辅助网络的参数权重。
10.根据权利要求1~9任一项所述的一种从近红外光到可见光的跨模态眼睛状态识别方法,其特征在于,步骤S7中,还引入领域自适应模块对跨模态眼睛状态识别框架进行领域自适应训练,采用的领域自适应方法为最大均值差异方法或者基于生成对抗的领域自适应方法,具体如下:
S7.2.1、准备两个模态的眼睛状态数据,即近红外眼睛状态数据,以及步骤S2中可见光眼睛状态数据;
S7.2.2、固定梯度信息辅助网络的参数,以及注意力卷积主干网络中除了最后一个卷积块和全连接层之外的余下参数,对注意力卷积主干网络的最后一个卷积块以及全连接层的参数进行自适应训练;
S7.2.3、分别随机抽取近红外眼睛状态数据集和可见光眼睛状态数据集中同一类别的数据,执行步骤S5至步骤S7.1.1,获得分类损失;
S7.2.4、提取注意力卷积主干网络中全连接层的输出特征图作为领域自适应模块的输入,获得领域自适应模块对应的损失;
S7.2.5、将分类损失和领域自适应模块对应的损失加权求和,作为总损失函数反向传播,并使用随机梯度下降算法更新步骤S7.2.2中未固定的网络参数的权重,重复步骤S7.2.1~步骤S7.2.5直至跨模态眼睛状态识别框架收敛。
CN202110379880.8A 2021-04-08 2021-04-08 一种从近红外光到可见光的跨模态眼睛状态识别方法 Active CN113076884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110379880.8A CN113076884B (zh) 2021-04-08 2021-04-08 一种从近红外光到可见光的跨模态眼睛状态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110379880.8A CN113076884B (zh) 2021-04-08 2021-04-08 一种从近红外光到可见光的跨模态眼睛状态识别方法

Publications (2)

Publication Number Publication Date
CN113076884A true CN113076884A (zh) 2021-07-06
CN113076884B CN113076884B (zh) 2023-03-24

Family

ID=76615740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110379880.8A Active CN113076884B (zh) 2021-04-08 2021-04-08 一种从近红外光到可见光的跨模态眼睛状态识别方法

Country Status (1)

Country Link
CN (1) CN113076884B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537176A (zh) * 2021-09-16 2021-10-22 武汉未来幻影科技有限公司 一种驾驶员疲劳状态的确定方法、装置以及设备
CN114049289A (zh) * 2021-11-10 2022-02-15 合肥工业大学 基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法
CN115791957A (zh) * 2022-11-25 2023-03-14 国网四川省电力公司映秀湾水力发电总厂 高压电缆铅封缺陷脉冲涡流检测方法、系统、终端及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091147A (zh) * 2014-06-11 2014-10-08 华南理工大学 一种近红外眼睛定位及眼睛状态识别方法
CN104298963A (zh) * 2014-09-11 2015-01-21 浙江捷尚视觉科技股份有限公司 一种鲁棒的基于人脸形状回归模型的多姿态疲劳监测方法
WO2018107979A1 (zh) * 2016-12-14 2018-06-21 华南理工大学 一种基于级联回归的多姿态的人脸特征点检测方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108921117A (zh) * 2018-07-11 2018-11-30 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111126347A (zh) * 2020-01-06 2020-05-08 腾讯科技(深圳)有限公司 人眼状态识别方法、装置、终端及可读存储介质
CN111428699A (zh) * 2020-06-10 2020-07-17 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统
CN111582086A (zh) * 2020-04-26 2020-08-25 湖南大学 基于多特征的疲劳驾驶识别方法及系统
CN112183482A (zh) * 2020-10-29 2021-01-05 苏州市职业大学 危险驾驶行为识别方法、装置、系统及可读存储介质
WO2021016873A1 (zh) * 2019-07-30 2021-02-04 珠海全志科技股份有限公司 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091147A (zh) * 2014-06-11 2014-10-08 华南理工大学 一种近红外眼睛定位及眼睛状态识别方法
CN104298963A (zh) * 2014-09-11 2015-01-21 浙江捷尚视觉科技股份有限公司 一种鲁棒的基于人脸形状回归模型的多姿态疲劳监测方法
WO2018107979A1 (zh) * 2016-12-14 2018-06-21 华南理工大学 一种基于级联回归的多姿态的人脸特征点检测方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108921117A (zh) * 2018-07-11 2018-11-30 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
WO2021016873A1 (zh) * 2019-07-30 2021-02-04 珠海全志科技股份有限公司 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质
CN111126347A (zh) * 2020-01-06 2020-05-08 腾讯科技(深圳)有限公司 人眼状态识别方法、装置、终端及可读存储介质
CN111582086A (zh) * 2020-04-26 2020-08-25 湖南大学 基于多特征的疲劳驾驶识别方法及系统
CN111428699A (zh) * 2020-06-10 2020-07-17 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统
CN112183482A (zh) * 2020-10-29 2021-01-05 苏州市职业大学 危险驾驶行为识别方法、装置、系统及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAEHYUNG KIM等: "Experimental Verification of Objective Visual Fatigue Measurement Based on Accurate Pupil Detection of Infrared Eye Image and Multi-Feature Analysis", 《SENSORS》 *
徐莲等: "基于眼睛状态识别的疲劳驾驶检测", 《科学技术与工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537176A (zh) * 2021-09-16 2021-10-22 武汉未来幻影科技有限公司 一种驾驶员疲劳状态的确定方法、装置以及设备
CN114049289A (zh) * 2021-11-10 2022-02-15 合肥工业大学 基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法
CN114049289B (zh) * 2021-11-10 2024-03-05 合肥工业大学 基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法
CN115791957A (zh) * 2022-11-25 2023-03-14 国网四川省电力公司映秀湾水力发电总厂 高压电缆铅封缺陷脉冲涡流检测方法、系统、终端及介质

Also Published As

Publication number Publication date
CN113076884B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN113076884B (zh) 一种从近红外光到可见光的跨模态眼睛状态识别方法
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN109657554B (zh) 一种基于微表情的图像识别方法、装置以及相关设备
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN110287846A (zh) 一种基于注意力机制的人脸关键点检测方法
EP4006773A1 (en) Pedestrian detection method, apparatus, computer-readable storage medium and chip
CN109190470B (zh) 行人重识别方法及装置
CN113705769A (zh) 一种神经网络训练方法以及装置
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN111783622A (zh) 人脸表情识别的方法、装置、设备和计算机可读存储介质
CN112288011A (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN110245621B (zh) 人脸识别装置及图像处理方法、特征提取模型、存储介质
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN110222718A (zh) 图像处理的方法及装置
CN111814603A (zh) 一种人脸识别方法、介质及电子设备
CN111222444A (zh) 一种考虑驾驶员情绪的增强现实抬头显示方法和系统
CN107239827B (zh) 一种基于人工神经网络的空间信息学习方法
CN115239672A (zh) 缺陷检测方法及装置、设备、存储介质
CN110222568B (zh) 一种基于时空图的跨视角步态识别方法
CN113743521B (zh) 一种基于多尺度上下文感知的目标检测方法
CN112633074B (zh) 行人信息的检测方法和装置、存储介质及电子设备
CN113255511A (zh) 用于活体识别的方法、装置、设备以及存储介质
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant