CN111382714B - 图像检测方法、装置、终端及存储介质 - Google Patents
图像检测方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN111382714B CN111382714B CN202010173458.2A CN202010173458A CN111382714B CN 111382714 B CN111382714 B CN 111382714B CN 202010173458 A CN202010173458 A CN 202010173458A CN 111382714 B CN111382714 B CN 111382714B
- Authority
- CN
- China
- Prior art keywords
- image
- frames
- processing
- indication information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像检测方法、装置、终端及存储介质。所述方法包括:获取n帧人脸图像;对n帧人脸图像进行归一化处理,得到n帧输入图像;通过注意力模块对第m帧输入图像进行处理,得到注意力图像;通过多尺度编码器对第m帧输入图像进行处理,得到第一特征信息;通过特征金字塔模块对第一特征信息进行处理,得到第二特征信息;通过多尺度解码预测器对注意力图像和第二特征信息进行处理,得到第m帧输入图像对应的人脸关键点的指示信息;根据n帧输入图像对应的人脸关键点的指示信息,确定n帧输入图像对应的眼部关键点的指示信息;根据n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态。本申请实施例睡意状态的确定较为简单。
Description
技术领域
本申请实施例涉及睡意检测技术领域,特别涉及一种图像检测方法、装置、终端及存储介质。
背景技术
随着社会物质水平的提高,家用电器早已成为人们日常生活中不可缺少的工具。但是,当用户进入睡眠,无法及时关掉这些家用电器时,会造成资源的浪费。因此,对用户的睡意状态进行检测是至关重要的。
在相关技术中,可以通过如下方式对用户的睡意状态进行检测:运用手环采集如心率信息、血氧信息等第一类数据,运用手机采集如手机屏幕的状态、视频播放的状态等第二类数据。对两类数据归一化处理并进行标注。然后训练一个双向长短记忆网络。部署后,采用手坏和手机采集数据,然后送入已训练的双向长短记忆网络进行推理,从而实现对睡意状态的检测。
然而,上述相关技术中的睡意状态的检测依赖例如手环等特定的设备,睡意状态的检测较为繁琐。
发明内容
本申请实施例提供一种图像检测方法、装置、终端及存储介质。所述技术方案如下:
一方面,本申请实施例提供一种图像检测方法,所述方法包括:
获取n帧人脸图像,所述n为正整数;
分别对所述n帧人脸图像进行归一化处理,得到n帧输入图像;
调用完成训练的人脸关键点检测模型,所述完成训练的人脸关键点检测模型包括多尺度编码器、特征金字塔模块、注意力模块和多尺度解码预测器;
对于所述n帧输入图像中的第m帧输入图像,通过所述注意力模块对所述第m帧输入图像进行处理,得到注意力图像,所述m为小于或等于所述n的正整数;
通过所述多尺度编码器对所述第m帧输入图像进行处理,得到第一特征信息;
通过所述特征金字塔模块对所述第一特征信息进行处理,得到第二特征信息;
通过所述多尺度解码预测器对所述注意力图像和所述第二特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息,所述人脸关键点的指示信息用于指示所述人脸关键点的标识和所述人脸关键点的位置;
根据所述n帧输入图像各自对应的人脸关键点的指示信息,确定所述n帧输入图像各自对应的眼部关键点的指示信息,所述眼部关键点的指示信息用于指示所述眼部关键点的标识和所述眼部关键点的位置;
根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态,所述目标睡意状态用于指示用户处于疲劳状态或处于非疲劳状态。
另一方面,本申请实施例提供一种图像检测装置,所述装置包括:
图像获取模块,用于获取n帧人脸图像,所述n为正整数;
图像处理模块,用于分别对所述n帧人脸图像进行归一化处理,得到n帧输入图像;
模型调用模块,用于调用完成训练的人脸关键点检测模型,所述完成训练的人脸关键点检测模型包括多尺度编码器、特征金字塔模块、注意力模块和多尺度解码预测器;
信息获取模块,用于对于所述n帧输入图像中的第m帧输入图像,通过所述注意力模块对所述第m帧输入图像进行处理,得到注意力图像,所述m为小于或等于所述n的正整数;通过所述多尺度编码器对所述第m帧输入图像进行处理,得到第一特征信息;通过所述特征金字塔模块对所述第一特征信息进行处理,得到第二特征信息;通过所述多尺度解码预测器对所述注意力图像和所述第二特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息,所述人脸关键点的指示信息用于指示所述人脸关键点的标识和所述人脸关键点的位置;
信息确定模块,用于根据所述n帧输入图像各自对应的人脸关键点的指示信息,确定所述n帧输入图像各自对应的眼部关键点的指示信息,所述眼部关键点的指示信息用于指示所述眼部关键点的标识和所述眼部关键点的位置;
状态确定模块,用于根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态,所述目标睡意状态用于指示用户处于疲劳状态或处于非疲劳状态。
另一方面,本申请实施例提供一种终端,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述方面所述的图像检测方法。
又一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述方面所述的图像检测方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过分别对人脸图像进行归一化处理,得到输入图像。通过完成训练的人脸关键点检测模型对输入图像进行处理,得到输入图像对应的人脸关键点的指示信息。根据人脸关键点的指示信息,确定眼部关键点的指示信息。根据眼部关键点的指示信息,确定目标睡意状态,本申请实施例提供的图像检测方法不依赖例如手环等外部设备,睡意状态的确定较为简单。且,本申请实施例提出了一种将注意力模块和特征金字塔模块相结合的轻量级人脸关键点检测模型,将注意力模块和特征金字塔模块同时应用到人脸关键点检测模型中,特征金字塔改善特征提取情况,注意力模块将响应限定在局部特定区域,两个模块相结合,共同提高了人脸关键点的检测准确度。
附图说明
图1是本申请一个实施例提供的图像检测方法的流程图;
图2是本申请一个实施例提供的人脸关键点检测模型的结构示意图;
图3是本申请一个实施例提供的cgr2x卷积块的示意图;
图4是本申请一个实施例提供的sgr2x卷积块的示意图;
图5是本申请一个实施例提供的sgr卷积块的示意图;
图6是本申请另一个实施例提供的图像检测方法的流程图;
图7是本申请一个实施例提供的眼部关键点的示意图;
图8是本申请一个实施例提供的眼部纵横比随时间变化的曲线图;
图9是本申请另一个实施例提供的图像检测方法的框架图;
图10是本申请一个实施例提供的图像检测装置的框图;
图11是本申请一个实施例提供的终端的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的技术方案中,各步骤的执行主体可以是终端,例如,终端可以是手机、平板、PC(Personal Computer,个人计算机)、智能可穿戴设备、车载终端等电子设备。可选地,终端上设置有摄像头,该摄像头用于采集用户的人脸图像。
请参考图1,其示出了本申请一个实施例提供的图像检测方法的流程图。该方法可以包括如下几个步骤。
步骤101,获取n帧人脸图像,n为正整数。
人脸图像是指带有人脸的图像。可选地,终端通过摄像头采集用户的人脸图像,例如,终端可以调用摄像头在连拍模式或普通拍照模式下采集用户的人脸图像。
可选地,终端可以在预设时段内获取用户的人脸图像。例如,预设时段可以是晚上9点到晚上11点。
步骤102,分别对n帧人脸图像进行归一化处理,得到n帧输入图像。
步骤103,调用完成训练的人脸关键点检测模型。
在本申请实施例中,完成训练的人脸关键点检测模型包括多尺度编码器、特征金字塔模块、注意力模块和多尺度解码预测器。人脸关键点检测模型的输入参数为输入图像,输出参数为人脸关键点的指示信息。多尺度编码器用于提取特征,特征金字塔模块用于复用和整合特征,多尺度解码预测器用于从多个尺度对深层特征进行解码和预测,注意力模块用于产生关键点附近热点区域的注意力图像。如图2所示,其示出了一种人脸关键点检测模型的结构示意图。输入图像21作为多尺度编码器22和注意力模块23的输入参数,多尺度编码器22与特征金字塔模块24相接,特征金字塔模块24和注意力模块23分别与多尺度解码预测器25相接。
步骤104,对于n帧输入图像中的第m帧输入图像,通过注意力模块对第m帧输入图像进行处理,得到注意力图像,m为小于或等于n的正整数。
注意力模块可以将人脸关键点的指示信息的确定限定在一定区域内避免过大的漂移。如图2所示,注意力模块23中可以包括Conv(Convolution,卷积)层、BN(BatchNormalization,批标准化)层和ReLU(Rectified Linear Units,激活函数)层,输入图像可以经过三次由Conv层、BN层和ReLU层组成的子模块,然后再经过卷积层,最终得到注意力图像。
步骤105,通过多尺度编码器对第m帧输入图像进行处理,得到第一特征信息。
在示意性实施例中,通过多尺度编码器中的k个下采样层对第m帧输入图像进行逐层递进下采样,得到第一特征信息,第一特征信息包括k个第三特征信息,k个第三特征信息与第m帧输入图像的尺寸比例各不相同,k为正整数。
如图2所示,多尺度编码器包括4个下采样层,最终得到4个第三特征信息,上述4个第三特征信息与输入图像的尺寸比例可以分别为1/4、1/8、1/16和1/32,分别代表下采样后分辨率相对于原图的倍数。Layer 1对应1/4下采样处理,Layer 2对应1/8下采样处理,Layer 3对应1/16下采样处理,Layer 4对应1/32下采样处理,输入图像经过Layer 1后得到第三特征信息1、第三特征信息1经过Layer 2后得到第三特征信息2、第三特征信息2经过Layer 3后得到第三特征信息3第三特征信息3经过Layer 1后得到第三特征信息4。
可选地,多尺度编码器中基础网络选用特征提取能力较强但同时较为轻量级的MobileNetV2网络、ShuffleNet网络、MobileNetV3网络等。本申请实施例采用轻量级的设计,在多尺度编码器中利用了轻量级的基础网络,实现了较小的计算量。
步骤106,通过特征金字塔模块对第一特征信息进行处理,得到第二特征信息。
在可能的实现方式中,此步骤包括如下几个子步骤:
第一、通过特征金字塔模块分别对k个第三特征信息进行处理,得到处理后的k个第三特征信息,处理后的k个第三特征信息中每个第三特征信息对应的通道数不同。
第二、通过特征金字塔模块中的卷积层和双线性上采样层对处理后的k个第三特征信息进行处理,得到第二特征信息,第二特征信息包括k个第六特征信息,k个第六特征信息中每个第六特征信息对应的通道数相同。
可选地,如图2所示,处理后的第三特征信息1对应的通道数为24,处理后的第三特征信息2对应的通道数为32,处理后的第三特征信息3对应的通道数为64,处理后的第三特征信息4对应的通道数为320。
可选地,如图2所示,双线性上采样层可以为up2x,up2x表示双线性插值2倍上采样。通过卷积层和双线性上采样层,依次将处理后的k个第三特征信息上采样2倍后和高一级的分辨率特征进行混合,最终将通道数都压缩至128,输出通道数一致的k个第六特征信息。上述第一个步骤可以在特征金字塔模块中的第一特征金字塔中执行,上述k个第六特征信息可以形成第二特征金字塔。
可选地,特征金字塔模块的层数可以视具体情况灵活调整,多尺度编码器的最大下采样倍数可以为64倍、32倍、16倍等。多尺度编码器的最大下采样倍数越大则计算量越大,特征金字塔模块的层数越多但能提供的高层次特征信息越多。
步骤107,通过多尺度解码预测器对注意力图像和第二特征信息进行处理,得到第m帧输入图像对应的人脸关键点的指示信息。
在本申请实施例中,人脸关键点的指示信息用于指示人脸关键点的标识和人脸关键点的位置。可选地,人脸关键点可以包括鼻子、左眼、右眼、左耳、右耳、左边眉毛、右边眉毛等对应的关键点,每个人脸关键点的标识和位置不一样。人脸关键点包括哪些关键点可以由用户进行设置。可选地,将输入图像通过人脸关键点检测模型后可以得到该输入图像对应的68个人脸关键点的标识和位置。
可选地,此步骤包括如下几个子步骤:
1、通过多尺度解码预测器中的第一处理模块对第二特征信息进行处理,得到第四特征信息。
可选地,如图2所示,第一处理模块包括第一处理层、第二处理层、第三处理层和第四处理层。第一处理层包括2个cgr2x卷积块和sgr2x卷积块。第二处理层包括cgr2x卷积块和sgr2x卷积块,第三处理层包括sgr2x卷积块,第四处理层包括sgr卷积块。如图3所示,cgr2x卷积块表示一个依次由输入输出通道数相同的Conv层(例如,输入输出通道数都为128的Conv层),GN(GroupNormalization,组正则化)层、ReLU层和up2x层组成的网络块。如图4所示,sgr2x卷积块表示一个依次由Conv层(例如,输入通道数为128,输出通道数为64的Conv层)、GN层、ReLU层和up2x层组成的网络块。如图5所示,sgr卷积块表示一个依次由Conv层(例如,输入通道数为128、输出通道数为64的Conv层)、GN层和ReLU层组成的网络块。
可选地,第四特征信息的获取流程可以如下所示:
1.1、将第二特征信息输入对应的第一卷积块中,得到k个第一初始特征信息,k为正整数;
可选地,仍然以上述示例为例,如图2所示,将上述4个第六特征信息分别输入对应的第一卷积块中,得到4个第一初始特征信息。第一卷积块包括第一处理层、第二处理层、第三处理层和第四处理层,4个第一初始特征信息包括第一初始特征信息1、第一初始特征信息2、第一初始特征信息3和第一初始特征信息4。第一初始特征信息1、第一初始特征信息2、第一初始特征信息3和第一初始特征信息4的分辨率相同,例如,都为输入图像的1/4。
1.2、将k个第一初始特征信息相加,得到第二初始特征信息;
可选地,将上述第一初始特征信息1、第一初始特征信息2、第一初始特征信息3和第一初始特征信息4相加,得到第二初始特征信息。
1.3、将第二初始特征信息输入第二卷积块中,得到第四特征信息。
可选地,第二卷积块为一个sgr卷积块。将第二初始特征信息经过一个sgr卷积块进行处理,得到第四特征信息。
2、将第四特征信息和注意力图像相乘,得到第五特征信息。
3、通过多尺度解码预测器中的第二处理模块对第五特征信息进行处理,得到第m帧输入图像对应的人脸关键点的指示信息。
如图2所示,第二处理模块可以包括一个sgr卷积块和FC(Full Connection,全连接)层。将第五特征信息依次经过上述sgr卷积块和FC层,得到人脸关键点的指示信息。
步骤108,根据n帧输入图像各自对应的人脸关键点的指示信息,确定n帧输入图像各自对应的眼部关键点的指示信息。
在本申请实施例中,眼部关键点的指示信息用于指示眼部关键点的标识和眼部关键点的位置。因为人脸关键点的标识指示的人脸关键点是固定且唯一的,因此,可以从人脸关键点的标识中选取出眼部关键点的标识,从而选取出了眼部关键点,相应地,可以将眼部关键点的位置从人脸关键点的位置中选取出来,最终得到眼部关键点的指示信息。
步骤109,根据n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态。
在本申请实施例中,目标睡意状态用于指示用户处于疲劳状态或处于非疲劳状态。
当确定目标睡意状态为处于疲劳状态时,终端可以显示唤醒信息,该唤醒信息用于唤醒用户。
综上所述,本申请实施例提供的技术方案中,通过分别对人脸图像进行归一化处理,得到输入图像。通过完成训练的人脸关键点检测模型对输入图像进行处理,得到输入图像对应的人脸关键点的指示信息。根据人脸关键点的指示信息,确定眼部关键点的指示信息。根据眼部关键点的指示信息,确定目标睡意状态,本申请实施例提供的图像检测方法不依赖例如手环等外部设备,睡意状态的确定较为简单。且,本申请实施例提出了一种将注意力模块和特征金字塔模块相结合的轻量级人脸关键点检测模型,将注意力模块和特征金字塔模块同时应用到人脸关键点检测模型中,特征金字塔改善特征提取情况,注意力模块将响应限定在局部特定区域,两个模块相结合,共同提高了人脸关键点的检测准确度。
另外,本申请实施例可以应用于用户在驾车使用导航软件时,针对驾驶员启动睡意状态的确定以避免安全事故的发生;以及还可以应用在用户无意识入眠时进行睡意状态的确定,以便降低终端屏幕的亮度从而降低终端的功耗且保护用户的健康,或者自动关闭终端正在运行的应用,或者通过终端关闭智能家电以节约能源。
可选地,人脸关键点检测模型可以通过如下方式进行训练:
1、获取训练样本,训练样本包括至少一张训练人脸图像和至少一张训练人脸图像各自对应的标注人脸关键点的指示信息。
可选地,人脸关键点检测模型训练时使用WFLW(Wider Facial Landmark in theWild,野外更广阔的面部地标)数据集,基于PyTorch框架,使用NVIDIA Tesla V100 GPU(Graphics Processing Unit,图形处理器)。
可选地,将WFLW数据集按2:8的比例划分为测试样本和训练样本。
2、对训练人脸图像进行预处理,得到训练输入图像。
可选地,通过如下方式进行预处理:对训练人脸图像进行数据增强处理和归一化处理,得到训练输入图像,数据增强处理包括以下至少一项处理:随机旋转、随机左右旋转、随机裁剪、伽马(Gamma)变换。可选地,随机旋转包括水平翻转、垂直翻转、水平垂直翻转。伽马变换是指在图像处理过程中将漂白(相机过曝)的图像或者过暗(曝光不足)的图像进行修正。
3、通过人脸关键点检测模型对训练输入图像进行处理,得到训练输入图像对应的预测人脸关键点的指示信息。
4、根据标注人脸关键点的指示信息和预测人脸关键点的指示信息,确定损失函数的值。
可选地,损失函数可以采用交叉熵损失。
5、根据损失函数的值对人脸关键点检测模型进行训练,得到完成训练的人脸关键点检测模型。
可选地,对整个人脸关键点检测模型执行反向传播算法,更新人脸关键点检测模型的参数。当损失函数的值小于预设阈值时,代表人脸关键点检测模型已收敛,得到完成训练的人脸关键点检测模型。
在一些实施例中,完成训练的人脸关键点检测模型需要进行测试,此时可以通过上述测试样本进行测试。
可选地,如图6所示,关于确定目标睡意状态的流程可以如下所示:
步骤601,根据n帧输入图像各自对应的眼部关键点的指示信息,确定n帧输入图像各自对应的睡意状态。
可选地,此步骤包括如下几个子步骤:
1、对于n帧输入图像中的第m帧输入图像,根据第m帧输入图像对应的眼部关键点的指示信息,计算第m帧输入图像对应的眼部横纵比。
如图7所示,本申请实施例以6个眼部关键点为例进行介绍说明,EAR(Ear AspectRotio,眼部横纵比)可以通过如下公式进行计算:
其中,P1、P2……P6是眼部关键点的位置。分子是计算垂直眼睛标志之间的距离,分母是计算水平眼睛标志之间的距离。眼部横纵比又可以称之为眼睛的长宽比。
眼部横纵比在眼睛张开的时候大致是恒定的,但是在发生眨眼时会迅速下降到零。图8示出了眼部横纵比随时间变化的曲线图,正如图8所示,眼部横纵比一开始是恒定的,然后迅速下降到接近零,然后再增加,表明一个单一的眨眼已经发生。
2、响应于眼部横纵比低于目标数值,确定第m帧输入图像对应的睡意状态为处于疲劳状态。
目标数值可以是用户自行设置的一个值,例如,用户可以根据自己眼睛张开时的眼部横纵比来设置目标数值;当然,在其他可能的实现方式中,目标数值也可以是默认的值,例如,目标数值默认为0.15。
步骤602,响应于n帧输入图像中处于疲劳状态的连续输入图像的帧数超过预设帧数,确定目标睡意状态为处于疲劳状态。
例如,假设输入图像共有60帧,当60帧输入图像中处于疲劳状态的连续输入图像的帧数超过20帧时,确定目标睡意状态为疲劳状态。
可选地,图6所示的流程可以在状态确定模块中执行。如图9所示,其示出了本申请一个实施例提供的图像检测方法的框架图,有关人脸关键点检测模型的介绍说明可参见上文实施例,此处不再赘述。
本申请实施例中关于目标睡意状态的确定流程采用了简单直接的思路,未引入神经网络,因而减少了计算量,且本申请实施例提供的关于目标睡意状态的确定流程可以应用到各种其他的人脸关键点检测模型之后,通用性高。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图10,其示出了本申请一个实施例提供的图像检测装置的框图,该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置1000可以包括:图像获取模块1010、图像处理模块1020、模型调用模块1030、信息获取模块1040、信息确定模块1050和状态确定模块1060。
图像获取模块1010,用于获取n帧人脸图像,所述n为正整数;
图像处理模块1020,用于分别对所述n帧人脸图像进行归一化处理,得到n帧输入图像;
模型调用模块1030,用于调用完成训练的人脸关键点检测模型,所述完成训练的人脸关键点检测模型包括多尺度编码器、特征金字塔模块、注意力模块和多尺度解码预测器;
信息获取模块1040,用于对于所述n帧输入图像中的第m帧输入图像,通过所述注意力模块对所述第m帧输入图像进行处理,得到注意力图像,所述m为小于或等于所述n的正整数;通过所述多尺度编码器对所述第m帧输入图像进行处理,得到第一特征信息;通过所述特征金字塔模块对所述第一特征信息进行处理,得到第二特征信息;通过所述多尺度解码预测器对所述注意力图像和所述第二特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息,所述人脸关键点的指示信息用于指示所述人脸关键点的标识和所述人脸关键点的位置;
信息确定模块1050,用于根据所述n帧输入图像各自对应的人脸关键点的指示信息,确定所述n帧输入图像各自对应的眼部关键点的指示信息,所述眼部关键点的指示信息用于指示所述眼部关键点的标识和所述眼部关键点的位置;
状态确定模块1060,用于根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态,所述目标睡意状态用于指示用户处于疲劳状态或处于非疲劳状态。
综上所述,本申请实施例提供的技术方案中,通过分别对人脸图像进行归一化处理,得到输入图像。通过完成训练的人脸关键点检测模型对输入图像进行处理,得到输入图像对应的人脸关键点的指示信息。根据人脸关键点的指示信息,确定眼部关键点的指示信息。根据眼部关键点的指示信息,确定目标睡意状态,本申请实施例提供的图像检测方法不依赖例如手环等外部设备,睡意状态的确定较为简单。且,本申请实施例提出了一种将注意力模块和特征金字塔模块相结合的轻量级人脸关键点检测模型,将注意力模块和特征金字塔模块同时应用到人脸关键点检测模型中,特征金字塔改善特征提取情况,注意力模块将响应限定在局部特定区域,两个模块相结合,共同提高了人脸关键点的检测准确度。
可选地,所述信息获取模块1040,用于:
通过所述多尺度编码器中的k个下采样层对所述第m帧输入图像进行逐层递进下采样,得到所述第一特征信息,所述k为正整数。
可选地,所述所述信息获取模块1040,包括:第一处理单元、第二处理单元和第三处理单元(图中未示出)。
第一处理单元,用于通过所述多尺度解码预测器中的第一处理模块对所述第二特征信息进行处理,得到第四特征信息;
第二处理单元,用于将所述第四特征信息和所述注意力图像相乘,得到第五特征信息;
第三处理单元,用于通过所述多尺度解码预测器中的第二处理模块对所述第五特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息。
可选地,所述第一处理单元,用于:
将所述第二特征信息输入对应的第一卷积块中,得到k个第一初始特征信息,所述k为正整数;
将所述k个第一初始特征信息相加,得到第二初始特征信息;
将所述第二初始特征信息输入第二卷积块中,得到所述第四特征信息。
可选地,所述状态确定模块1060,包括:第一确定单元和第二确定单元(图中未示出)。
第一确定单元,用于根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定所述n帧输入图像各自对应的睡意状态;
第二确定单元,用于响应于所述n帧输入图像中处于疲劳状态的连续输入图像的帧数超过预设帧数,确定所述目标睡意状态为处于所述疲劳状态。
可选地,所述第一确定单元,用于:
对于所述n帧输入图像中的第m帧输入图像,根据所述第m帧输入图像对应的眼部关键点的指示信息,计算所述第m帧输入图像对应的眼部横纵比;
响应于所述眼部横纵比低于目标数值,确定所述第m帧输入图像对应的睡意状态为处于疲劳状态。
可选地,所述装置1000还包括:模型训练模块(图中未示出)。
所述模型训练模块,包括:样本获取单元、图像处理单元、模型处理单元、函数确定单元和模型训练单元(图中未示出)。
样本获取单元,用于获取训练样本,所述训练样本包括至少一帧训练人脸图像和至少一帧所述训练人脸图像各自对应的标注人脸关键点的指示信息;
图像处理单元,用于对所述训练人脸图像进行预处理,得到训练输入图像;
模型处理单元,用于通过人脸关键点检测模型对所述训练输入图像进行处理,得到所述训练输入图像对应的预测人脸关键点的指示信息;
函数确定单元,用于根据所述标注人脸关键点的指示信息和所述预测人脸关键点的指示信息,确定损失函数的值;
模型训练单元,用于根据所述损失函数的值对所述人脸关键点检测模型进行训练,得到所述完成训练的人脸关键点检测模型。
可选地,所述图像处理单元,用于:
对所述训练人脸图像进行数据增强处理和归一化处理,得到训练输入图像,所述数据增强处理包括以下至少一项处理:随机旋转、随机左右旋转、随机裁剪、伽马变换。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请一个实施例提供的终端的结构框图。
本申请实施例中的终端可以包括一个或多个如下部件:处理器1110和存储器1120。
处理器1110可以包括一个或者多个处理核心。处理器1110利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器1120内的指令、程序、代码集或指令集,以及调用存储在存储器1120内的数据,执行终端的各种功能和处理数据。可选地,处理器1110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器1110可集成中央处理器(CentralProcessing Unit,CPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统和应用程序等;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1110中,单独通过一块芯片进行实现。
可选地,处理器1110执行存储器1120中的程序指令时实现上述各个方法实施例提供的方法。
存储器1120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选地,该存储器1120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1120可用于存储指令、程序、代码、代码集或指令集。存储器1120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等;存储数据区可存储根据终端的使用所创建的数据等。
上述终端的结构仅是示意性的,在实际实现时,终端可以包括更多或更少的组件,比如:显示屏等,本实施例对此不作限定。
本领域技术人员可以理解,图11中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由计算机设备的处理器加载并执行以实现上述方法实施例中的各个步骤。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于实现上述方法。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种图像检测方法,其特征在于,所述方法包括:
获取n帧人脸图像,所述n为正整数;
分别对所述n帧人脸图像进行归一化处理,得到n帧输入图像;
调用完成训练的人脸关键点检测模型,所述完成训练的人脸关键点检测模型包括多尺度编码器、特征金字塔模块、多尺度解码预测器和注意力模块;
对于所述n帧输入图像中的第m帧输入图像,通过所述注意力模块对所述第m帧输入图像进行处理,得到注意力图像,所述m为小于或等于所述n的正整数;
通过所述多尺度编码器对所述第m帧输入图像进行处理,得到第一特征信息;
通过所述特征金字塔模块对所述第一特征信息进行处理,得到第二特征信息;
通过所述多尺度解码预测器对所述注意力图像和所述第二特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息,所述人脸关键点的指示信息用于指示所述人脸关键点的标识和所述人脸关键点的位置;
根据所述n帧输入图像各自对应的人脸关键点的指示信息,确定所述n帧输入图像各自对应的眼部关键点的指示信息,所述眼部关键点的指示信息用于指示所述眼部关键点的标识和所述眼部关键点的位置;
根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态,所述目标睡意状态用于指示用户处于疲劳状态或处于非疲劳状态。
2.根据权利要求1所述的方法,其特征在于,所述通过所述多尺度编码器对所述第m帧输入图像进行处理,得到第一特征信息,包括:
通过所述多尺度编码器中的k个下采样层对所述第m帧输入图像进行逐层递进下采样,得到所述第一特征信息,所述k为正整数。
3.根据权利要求1所述的方法,其特征在于,所述通过所述多尺度解码预测器对所述注意力图像和所述第二特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息,包括:
通过所述多尺度解码预测器中的第一处理模块对所述第二特征信息进行处理,得到第四特征信息;
将所述第四特征信息和所述注意力图像相乘,得到第五特征信息;
通过所述多尺度解码预测器中的第二处理模块对所述第五特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息。
4.根据权利要求3所述的方法,其特征在于,所述通过所述多尺度解码预测器中的第一处理模块对所述第二特征信息进行处理,得到第四特征信息,包括:
将所述第二特征信息输入对应的第一卷积块中,得到k个第一初始特征信息,所述k为正整数;
将所述k个第一初始特征信息相加,得到第二初始特征信息;
将所述第二初始特征信息输入第二卷积块中,得到所述第四特征信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态,包括:
根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定所述n帧输入图像各自对应的睡意状态;
响应于所述n帧输入图像中处于疲劳状态的连续输入图像的帧数超过预设帧数,确定所述目标睡意状态为处于所述疲劳状态。
6.根据权利要求5所述的方法,其特征在于,所述根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定所述n帧输入图像各自对应的睡意状态,包括:
对于所述n帧输入图像中的第m帧输入图像,根据所述第m帧输入图像对应的眼部关键点的指示信息,计算所述第m帧输入图像对应的眼部横纵比;
响应于所述眼部横纵比低于目标数值,确定所述第m帧输入图像对应的睡意状态为处于所述疲劳状态。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述调用完成训练的人脸关键点检测模型之前,还包括:
获取训练样本,所述训练样本包括至少一帧训练人脸图像和至少一帧所述训练人脸图像各自对应的标注人脸关键点的指示信息;
对所述训练人脸图像进行预处理,得到训练输入图像;
通过人脸关键点检测模型对所述训练输入图像进行处理,得到所述训练输入图像对应的预测人脸关键点的指示信息;
根据所述标注人脸关键点的指示信息和所述预测人脸关键点的指示信息,确定损失函数的值;
根据所述损失函数的值对所述人脸关键点检测模型进行训练,得到所述完成训练的人脸关键点检测模型。
8.根据权利要求7所述的方法,其特征在于,所述对所述训练人脸图像进行预处理,得到训练输入图像,包括:
对所述训练人脸图像进行数据增强处理和归一化处理,得到训练输入图像,所述数据增强处理包括以下至少一项处理:随机旋转、随机左右旋转、随机裁剪、伽马变换。
9.一种图像检测装置,其特征在于,所述装置包括:
图像获取模块,用于获取n帧人脸图像,所述n为正整数;
图像处理模块,用于分别对所述n帧人脸图像进行归一化处理,得到n帧输入图像;
模型调用模块,用于调用完成训练的人脸关键点检测模型,所述完成训练的人脸关键点检测模型包括多尺度编码器、特征金字塔模块、注意力模块和多尺度解码预测器;
信息获取模块,用于对于所述n帧输入图像中的第m帧输入图像,通过所述注意力模块对所述第m帧输入图像进行处理,得到注意力图像,所述m为小于或等于所述n的正整数;通过所述多尺度编码器对所述第m帧输入图像进行处理,得到第一特征信息;通过所述特征金字塔模块对所述第一特征信息进行处理,得到第二特征信息;通过所述多尺度解码预测器对所述注意力图像和所述第二特征信息进行处理,得到所述第m帧输入图像对应的人脸关键点的指示信息,所述人脸关键点的指示信息用于指示所述人脸关键点的标识和所述人脸关键点的位置;
信息确定模块,用于根据所述n帧输入图像各自对应的人脸关键点的指示信息,确定所述n帧输入图像各自对应的眼部关键点的指示信息,所述眼部关键点的指示信息用于指示所述眼部关键点的标识和所述眼部关键点的位置;
状态确定模块,用于根据所述n帧输入图像各自对应的眼部关键点的指示信息,确定目标睡意状态,所述目标睡意状态用于指示用户处于疲劳状态或处于非疲劳状态。
10.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的图像检测方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的图像检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173458.2A CN111382714B (zh) | 2020-03-13 | 2020-03-13 | 图像检测方法、装置、终端及存储介质 |
PCT/CN2021/074779 WO2021179852A1 (zh) | 2020-03-13 | 2021-02-02 | 图像检测方法、模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173458.2A CN111382714B (zh) | 2020-03-13 | 2020-03-13 | 图像检测方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382714A CN111382714A (zh) | 2020-07-07 |
CN111382714B true CN111382714B (zh) | 2023-02-17 |
Family
ID=71219976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010173458.2A Active CN111382714B (zh) | 2020-03-13 | 2020-03-13 | 图像检测方法、装置、终端及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111382714B (zh) |
WO (1) | WO2021179852A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382714B (zh) * | 2020-03-13 | 2023-02-17 | Oppo广东移动通信有限公司 | 图像检测方法、装置、终端及存储介质 |
CN112101123B (zh) * | 2020-08-20 | 2024-05-28 | 深圳数联天下智能科技有限公司 | 一种注意力检测方法及装置 |
CN113076885B (zh) * | 2021-04-09 | 2023-11-10 | 中山大学 | 一种基于人眼动作特征的专注度分级方法及系统 |
CN113869205A (zh) * | 2021-09-27 | 2021-12-31 | 北京百度网讯科技有限公司 | 对象检测方法、装置、电子设备和存储介质 |
CN113900519A (zh) * | 2021-09-30 | 2022-01-07 | Oppo广东移动通信有限公司 | 注视点获取方法、装置以及电子设备 |
CN115345931B (zh) * | 2021-12-15 | 2023-05-26 | 禾多科技(北京)有限公司 | 物体姿态关键点信息生成方法、装置、电子设备和介质 |
CN114387649A (zh) * | 2022-01-11 | 2022-04-22 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN115690704B (zh) * | 2022-09-27 | 2023-08-22 | 淮阴工学院 | 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置 |
CN115376195B (zh) * | 2022-10-09 | 2023-01-13 | 珠海大横琴科技发展有限公司 | 训练多尺度网络模型的方法及人脸关键点检测方法 |
CN116977663A (zh) * | 2022-11-30 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、设备以及介质 |
CN116403164B (zh) * | 2023-04-20 | 2024-01-30 | 慧铁科技股份有限公司 | 一种铁路货车车辆缓解阀拉杆缺件识别方和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558864A (zh) * | 2019-01-16 | 2019-04-02 | 苏州科达科技股份有限公司 | 人脸关键点检测方法、装置及存储介质 |
CN110263663A (zh) * | 2019-05-29 | 2019-09-20 | 南京师范大学 | 一种基于多维面部特征的驾驶员多级疲劳度识别方法 |
CN110309706A (zh) * | 2019-05-06 | 2019-10-08 | 深圳市华付信息技术有限公司 | 人脸关键点检测方法、装置、计算机设备及存储介质 |
CN110516201A (zh) * | 2019-08-20 | 2019-11-29 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101211872B1 (ko) * | 2011-04-05 | 2012-12-13 | 성균관대학교산학협력단 | 실시간 눈 검출 장치 및 그 방법 |
US11113507B2 (en) * | 2018-05-22 | 2021-09-07 | Samsung Electronics Co., Ltd. | System and method for fast object detection |
CN113569798B (zh) * | 2018-11-16 | 2024-05-24 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN110222607B (zh) * | 2019-05-24 | 2021-06-04 | 北京航空航天大学 | 人脸关键点检测的方法、装置及系统 |
CN110796147B (zh) * | 2019-10-21 | 2022-05-06 | Oppo广东移动通信有限公司 | 图像分割方法及相关产品 |
CN111382714B (zh) * | 2020-03-13 | 2023-02-17 | Oppo广东移动通信有限公司 | 图像检测方法、装置、终端及存储介质 |
-
2020
- 2020-03-13 CN CN202010173458.2A patent/CN111382714B/zh active Active
-
2021
- 2021-02-02 WO PCT/CN2021/074779 patent/WO2021179852A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558864A (zh) * | 2019-01-16 | 2019-04-02 | 苏州科达科技股份有限公司 | 人脸关键点检测方法、装置及存储介质 |
CN110309706A (zh) * | 2019-05-06 | 2019-10-08 | 深圳市华付信息技术有限公司 | 人脸关键点检测方法、装置、计算机设备及存储介质 |
CN110263663A (zh) * | 2019-05-29 | 2019-09-20 | 南京师范大学 | 一种基于多维面部特征的驾驶员多级疲劳度识别方法 |
CN110516201A (zh) * | 2019-08-20 | 2019-11-29 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021179852A1 (zh) | 2021-09-16 |
CN111382714A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382714B (zh) | 图像检测方法、装置、终端及存储介质 | |
CN111738122B (zh) | 图像处理的方法及相关装置 | |
CN110473141B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
US8781991B2 (en) | Emotion recognition apparatus and method | |
CN106556424B (zh) | 一种智能可穿戴设备及其节能运行方法 | |
US20160156771A1 (en) | Electronic device, server, and method for outputting voice | |
KR20160097974A (ko) | 영상의 컬러 변환 방법 및 전자 장치 | |
KR102272108B1 (ko) | 영상 처리 장치 및 방법 | |
CN111936990A (zh) | 唤醒屏幕的方法和装置 | |
CN111107278B (zh) | 图像处理方法、装置、电子设备及可读存储介质 | |
WO2024021742A9 (zh) | 一种注视点估计方法及相关设备 | |
CN111782879A (zh) | 模型训练方法及装置 | |
CN104808776A (zh) | 检测头戴式智能设备持续附着在人体上的装置和方法 | |
CN113177229A (zh) | 数据处理方法及相关装置 | |
CN116416545A (zh) | 行为检测方法、装置、设备以及计算机可读存储介质 | |
CN110796147A (zh) | 图像分割方法及相关产品 | |
US20230154147A1 (en) | Layout Analysis Method and Electronic Device | |
CN107729144B (zh) | 应用控制方法、装置、存储介质及电子设备 | |
CN113076799A (zh) | 溺水识别报警方法、装置、平台、系统及存储介质 | |
CN110222571B (zh) | 黑眼圈智能判断方法、装置及计算机可读存储介质 | |
CN113052923A (zh) | 色调映射方法、装置、电子设备和存储介质 | |
CN102890822B (zh) | 具有物体位置侦测功能的装置及其侦测方法 | |
CN116712048A (zh) | 血压测量方法、装置及相关设备 | |
CN110232417A (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN115984269A (zh) | 一种非侵入式局部水生态安全检测方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |