CN116958945A - 面向智能座舱的司机视线估计方法和相关设备 - Google Patents
面向智能座舱的司机视线估计方法和相关设备 Download PDFInfo
- Publication number
- CN116958945A CN116958945A CN202310985954.1A CN202310985954A CN116958945A CN 116958945 A CN116958945 A CN 116958945A CN 202310985954 A CN202310985954 A CN 202310985954A CN 116958945 A CN116958945 A CN 116958945A
- Authority
- CN
- China
- Prior art keywords
- driver
- model
- sight
- feature matrix
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims abstract description 80
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013140 knowledge distillation Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 210000001508 eye Anatomy 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000004424 eye movement Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向智能座舱的司机视线估计方法和相关设备,该方法包括:获取智能座舱中司机的人脸视频,并从人脸视频的各图像帧中,截取包括人眼区域的目标图像;基于预设特征提取网络对各目标图像进行特征提取,获取各目标图像的图像特征;将各图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各位置编码与各目标图像在人脸视频中的相对顺序对应;根据第一特征矩阵确定各图像帧中司机的视线方向,从而实现更加准确的对智能座舱中的司机进行视线估计。
Description
技术领域
本申请涉及智能座舱技术领域,更具体地,涉及一种面向智能座舱的司机视线估计方法和相关设备。
背景技术
智能座舱旨在集成多种IT和人工智能技术,打造全新的车内一体化数字平台,为驾驶员提供智能体验,促进行车安全。随着汽车保有量的急剧增长,驾驶安全成为全人类关注的社会安全问题之一。视线估计是指根据人脸或人眼图像预测出三维视线方向,视线方向是理解人类认知和行为的重要线索,智能座舱中司机的视线方向是反映司机行为的重要线索之一。随着深度学习的发展,越来越多的学者投身于基于深度学习的表观视线估计研究。
现有技术中,由于不可观测的个性化因素,即不同的人的眼球生理构造不同,直接将视线估计模型应用于新用户时,模型的精度与实际应用的要求之间还存在较大差距。并且,目前开源的视线估计数据集中缺乏专门针对驾驶场景的数据集。另外,在智能座舱的实际应用中,视线估计模型将针对不同的新用户预测其视线方向,但不同用户之间的个性化差异往往会导致模型性能下降。
因此,如何更加准确的对智能座舱中的司机进行视线估计,是目前有待解决的技术问题。
发明内容
本申请实施例提出了一种面向智能座舱的司机视线估计方法和相关设备,用以更加准确的对智能座舱中的司机进行视线估计。
第一方面,提供一种面向智能座舱的司机视线估计方法,所述方法包括:获取智能座舱中司机的人脸视频,并从所述人脸视频的各图像帧中,截取包括人眼区域的目标图像;基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征;将各所述图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各所述位置编码与各所述目标图像在所述人脸视频中的相对顺序对应;根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向。
第二方面,提供一种面向智能座舱的司机视线估计装置,所述装置包括:获取模块,用于获取智能座舱中司机的人脸视频,并从所述人脸视频的各图像帧中,截取包括人眼区域的目标图像;提取模块,用于基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征;拼接模块,用于将各所述图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各所述位置编码与各所述目标图像在所述人脸视频中的相对顺序对应;确定模块,用于根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的面向智能座舱的司机视线估计方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的面向智能座舱的司机视线估计方法。
通过应用以上技术方案,获取智能座舱中司机的人脸视频,并从人脸视频的各图像帧中,截取包括人眼区域的目标图像;基于预设特征提取网络对各目标图像进行特征提取,获取各目标图像的图像特征;将各图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各位置编码与各目标图像在人脸视频中的相对顺序对应;根据第一特征矩阵确定各图像帧中司机的视线方向,由于考虑了各图像特征之间的位置关系,从而实现更加准确的对智能座舱中的司机进行视线估计。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种面向智能座舱的司机视线估计方法的流程示意图;
图2示出了本发明实施例提出的一种面向智能座舱的司机视线估计方法的原理示意图;
图3示出了本发明实施例中教师模型的原理示意图;
图4示出了本发明实施例中对学生模型进行训练的原理示意图;
图5示出了本发明实施例提出的一种面向智能座舱的司机视线估计装置的结构示意图;
图6示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例提供一种面向智能座舱的司机视线估计方法,如图1所示,该方法包括以下步骤:
步骤S101,获取智能座舱中司机的人脸视频,并从所述人脸视频的各图像帧中,截取包括人眼区域的目标图像。
本实施例中,智能座舱中安装有摄像头,可通过摄像头对司机进行拍摄,获取一段人脸视频,该人脸视频的持续时长为预设时长,例如5分钟,然后从人脸视频中提取各图像帧,并对各图像帧进行裁剪,只获取包括人眼区域的目标图像,以去除图像帧中与视线方向无关的区域,从而获取多个目标图像。
步骤S102,基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征。
预先训练出用于进行特征提取的预设特征提取网络,在获取各目标图像后,将各目标图像输入预设特征提取网络进行特征提取,根据预设特征提取网络的输出获取各目标图像的图像特征。
可选的,预设特征提取网络可以是包括CNN(Convolutional Neural Networks,卷积神经网络)、VGGNet、ResNet、InceptionNet等神经网络中的任一种。
步骤S103,将各所述图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各所述位置编码与各所述目标图像在所述人脸视频中的相对顺序对应。
本实施例中,可通过与各目标图像对应的时间戳确定各目标图像在人脸视频中的相对顺序,通过相对顺序确定各目标图像的位置编码。在获取各图像特征后,将各图像特征分别和与自身对应的位置编码进行拼接,得到第一特征矩阵,可以理解的是,由于该第一特征矩阵考虑了各图像特征之间的位置关系,可以更加准确的确定视线方向。
步骤S104,根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向。
在获取第一特征矩阵后,可基于编码器神经网络和解码器神经网络对第一特征矩阵依次进行编码和解码,确定各图像帧中司机的视线方向,或者通过编码器神经网络对第一特征矩阵进行编码,并将编码结果通过多层感知器(即MLP)后,确定各图像帧中司机的视线方向。
本申请实施例中的面向智能座舱的司机视线估计方法,获取智能座舱中司机的人脸视频,并从人脸视频的各图像帧中,截取包括人眼区域的目标图像;基于预设特征提取网络对各目标图像进行特征提取,获取各目标图像的图像特征;将各图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各位置编码与各目标图像在人脸视频中的相对顺序对应;根据第一特征矩阵确定各图像帧中司机的视线方向,由于考虑了各图像特征之间的位置关系,从而实现更加准确的对智能座舱中的司机进行视线估计。
在本申请一些实施例中,所述预设特征提取网络为预设视线估计模型中的特征提取器,所述根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向,包括:
基于所述预设视线估计模型中的转换器编码器,按自注意力机制对所述第一特征矩阵进行编码,获取第二特征矩阵;
基于所述预设视线估计模型中的多层感知器对所述第二特征矩阵进行处理,获取各所述视线方向;
其中,所述转换器编码器采用ViT模型。
本实施例中,预先训练出预设视线估计模型,该预设视线模型包括特征解码器、位置编码模块、转换器编码器和多层感知器,其中,预设特征提取网络为预设视线估计模型中的特征提取器,位置编码模块用于确定各位置编码并生成第一特征矩阵,转换器编码器即Transformer模型的编码器,该转换器编码器采用ViT模型,ViT模型即VisionTransformer,其将在NLP领域的基于自注意力机制Transformer模型用于图像任务中,相比于图像任务中的传统的基于卷积神经网络模型,ViT模型在大数据集上有着比卷积神经网络更强的效果和更节约的成本。
转换器编码器中设置有自注意力模块,在获取第一特征矩阵后,将第一特征矩阵输入转换器编码器,转换器编码器按自注意力机制对第一特征矩阵进行编码,获取第二特征矩阵,然后将第二特征矩阵输入多层感知器,由多层感知器输出各视线方向。
通过预先训练出预设视线估计模型,并通过采用ViT模型的转换器编码器对第一特征矩阵进行编码,增强了模型的准确率和泛化性能,从而提高了各视线方向的准确性。
在本申请一些实施例中,在基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征之前,所述方法还包括:
对预设驾驶场景下所述智能座舱中的司机人脸视频进行采集,并标注司机的真实视线方向,获取训练数据集;
按所述预设视线估计模型的模型结构构建教师模型,并基于所述训练数据集对所述教师模型进行训练,训练完成后获取目标教师模型;
基于知识蒸馏算法对所述目标教师模型进行轻量化处理,得到学生模型;
基于所述训练数据集对所述学生模型进行训练,训练完成后生成所述预设视线估计模型;
其中,所述教师模型的输入为所述训练数据集中各司机人脸视频的各人脸图像帧,所述学生模型的输入为从所述人脸图像帧中截取的包括人眼区域的各图像。
本实施例中,在进行视线估计之前,需要先训练出预设视线估计模型,具体的,先对预设驾驶场景下智能座舱中的司机人脸视频进行采集,并标注司机的真实视线方向,获取训练数据集,其中,预设驾驶场景中包括多种驾驶场景,如不同天气(如:晴天、多云、雨天、雾天等),一天中不同时段(如:白天,傍晚,夜晚)、不同驾驶情况(如:左转、右转、直行、会车、倒车入库、侧方停车等)等。然后按预设视线估计模型的模型结构构建教师模型,即教师模型中也包括特征解码器、位置编码模块、转换器编码器和多层感知器,通过训练数据集对教师模型进行训练,训练完成后获取目标教师模型。再基于知识蒸馏算法对目标教师模型进行轻量化处理,得到学生模型,其中,知识蒸馏算法一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型,在不改变学生模型结构的情况下提高其性能。最后,基于训练数据集对学生模型进行训练,训练完成后生成预设视线估计模型。
其中,教师模型的输入为训练数据集中各司机人脸视频的各人脸图像帧,学生模型的输入为从人脸图像帧中截取的包括人眼区域的各图像,以此通过对人脸图像帧进行裁剪,缩小学生模型的输入尺寸,使学生模型将注意力放在对视线方向估计更具判别力的区域,从而提高了学生模型的预测效率。
通过先训练出教师模型,对教师模型进行轻量化处理,得到性能相似的学生模型,基于学生模型训练出预设视线估计模型,使预设视线估计模型的结构更加简单,从而便于后续更加灵活的在不同终端进行模型部署,如部署到移动端等。
在本申请一些实施例中,所述学生模型的损失函数由公式一确定,所述公式一为:
其中,Lall为所述学生模型的损失函数,Lfea为由第三特征矩阵和第四特征矩阵确定的损失函数,为由所述教师模型的预测视线方向与真实视线方向确定的损失函数,为由所述学生模型的预测视线方向与真实视线方向确定的损失函数,α和β分别为预设加权系数,所述第三特征矩阵为所述教师模型中的转换器编码器输出的特征矩阵,所述第四特征矩阵为所述学生模型中的转换器编码器输出的特征矩阵。
本实施例中,在对学生模型进行训练的过程中,通过Lfea、和/>确定学生模型的损失函数,实现将教师模型中转换器编码器输出的特征和最终预测的视线方向都用来指导和监督学生模型训练,进一步提高了学生模型的准确性。
在本申请一些实施例中,
其中,N为所述司机人脸视频的预设输入数量,T为每个司机人脸视频中人脸图像帧的数量,为所述第三特征矩阵,/>为所述第四特征矩阵,/>为所述教师模型的预测视线方向,/>为所述学生模型的预测视线方向,g为真实视线方向。
本实施例中,在训练过程中,向教师模型或学生模型输入N个司机人脸视频,每个司机人脸视频中人脸图像帧的数量为T。对于Lfea,通过教师模型中转换器编码器输出的第三特征矩阵对学生模型进行约束,对于和/>表征了模型预测值和真实值之间的平均角度误差,从而使学生模型的损失函数更加符合实际损失,提高了学生模型的损失函数的准确性。
在本申请一些实施例中,所述司机人脸视频由所述智能座舱中的红外摄像头采集,每个所述司机人脸视频对应同一个司机,所述真实视线方向由司机佩戴的头戴式眼动追踪设备获取。
本实施例中,在智能座舱的预设位置设置红外摄像头,例如,可将红外摄像头部署在驾驶舱侧的A柱上,红外摄像头可以实现在不同光线条件下进行视频拍摄,保证了视频质量。每个所述司机人脸视频对应同一个司机,使各人脸图像帧之间仅在视线方向上存在差异,其他方面均基本保持一致,从而排除其他与视线无关因素对模型的干扰。在数据采集过程中,司机佩戴有头戴式眼动追踪设备(如头戴式眼动追踪眼睛等),从而可准确获取司机的真实视线方向。
在本申请一些实施例中,在根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向之后,所述方法还包括:
根据所述视线方向生成描述俯仰角和偏航角的文本,并显示所述文本。
本实施例中,视线方向被表示为球坐标系中的欧拉角,即俯仰角和偏航角。在确定各视线方向后,根据视线方向生成描述俯仰角和偏航角的文本,并显示所述文本,从而可使用户准确了解司机的视线方向,便于后续根据视线方向对司机的状态进行监测。例如,若视线方向偏离预设基准角度达到预设时长,或视线方向处于预设异常范围达到预设时长,可确定司机处于异常驾驶状态。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
本申请实施例提出了一种面向智能座舱的司机视线估计方法,如图2所示,包括以下步骤:
步骤S1,数据采集。
对预设驾驶场景下智能座舱中的司机人脸视频进行采集,并标注司机的真实视线方向,获取训练数据集。
具体的,将红外摄像头部署在驾驶舱侧的A柱上,通过该红外摄像头为司机拍摄共80个片段视频,每段视频5分钟。司机的真实视线方向由商业SMI ETG 2w头戴式眼动追踪眼镜进行捕获。拍摄的视频来自于10位受试者,包括5名男士和5名女士,年龄从20岁到40岁不等。为充分模拟真实的驾驶场景,该数据集尽可能涵盖更多的天气、时间、驾驶情况等。采集数据集的时间持续约两个月,记录了不同的天气条件(如:晴天、多云、雨天、雾天等)和一天中不同的时间(如:白天,傍晚,夜晚)以及多种驾驶情况下(如:左转、右转、直行、会车、倒车入库、侧方停车等)司机的注视情况。
步骤S2,构建教师模型,并基于训练数据集对教师模型进行训练,训练完成后获取目标教师模型。
如图2所示,教师模型为基于ViT的视线估计模型,教师模型采用CNN作为特征提取器,采用ViT作为转换器编码器,采用MLP作为感知层,将训练数据集中捕获到的图像(即各司机人脸视频的各人脸图像帧)输入教师模型进行训练。
如图3所示,教师模型以来自同一个司机的连续人脸图像帧作为输入,模型的输出为每个人脸图像帧对应预测的视线方向。输入的人脸图像帧之间除了视线方向存在差异,其他方面均基本保持一致。为了更好地从视频中学习与视线方向相关的高维特征表示,而排除其他与视线无关因素对模型的干扰,采用ViT作为转换器编码器,利用其核心的自注意力模块来帮助教师模型学习当前人脸图像帧的视线方向相关特征与其他人脸图像帧之间的关系。
具体来说,给定一系列人脸图像帧I=(I1,I2,…,It),经特征提取器后得到相应的图像特征序列t为当前序列的长度,d为特征映射的维度,根据图像特征序列中不同特征之间的位置关系进行位置编码,得到各位置编码/>将各图像特征分别和与自身对应的位置编码进行拼接,获取特征矩阵/>
然后,该特征矩阵Z将被投射到三个不同的嵌入向量中,分别是其中,dk和dv是嵌入向量的维度。这三个不同的嵌入向量将输入到转换器编码器中,其中核心的自注意力模块计算公式如下所示:
最后,经转换器编码器映射后得到同维的第三特征矩阵对于每一维的特征向量都将经过感知层回归得到预测的视线方向,整个过程可公式化为:
其中,教师模型的损失函数为:
N为司机人脸视频的预设输入数量,T为每个司机人脸视频中人脸图像帧的数量,为教师模型的预测视线方向,g为真实视线方向。
步骤S3,基于知识蒸馏算法对目标教师模型进行轻量化处理,得到学生模型。
对人脸图像帧进行精细化裁剪,各学生模型的输入为从人脸图像帧中截取的包括人眼区域的各图像,轻量化处理时,减少转换器编码器的层数,由之前的12层降低至6层。
步骤S4,基于训练数据集对学生模型进行训练,训练完成后生成预设视线估计模型。
如图4所示,教师模型是经过预训练的大规模模型,而学生模型是轻量化后将要进行训练的模型。本方案将教师模型中转换器编码器输出的特征矩阵和最终预测的视线方向都用来指导和监督学生模型训练。
具体的,学生模型的损失函数由公式一确定,公式一为:
Lall为学生模型的损失函数,Lfea为由第三特征矩阵和第四特征矩阵确定的损失函数,为由教师模型的预测视线方向与真实视线方向确定的损失函数,/>为由学生模型的预测视线方向与真实视线方向确定的损失函数,α和β分别为预设加权系数,第三特征矩阵为教师模型中的转换器编码器输出的特征矩阵,第四特征矩阵为学生模型中的转换器编码器输出的特征矩阵。
其中,
为所述学生模型的预测视线方向。
步骤S5,将预设视线估计模型部署在指定终端,获取智能座舱中司机的人脸视频,并从人脸视频的各图像帧中,截取包括人眼区域的目标图像。
步骤S6,将各目标图像输入预设视线估计模型,根据预设视线估计模型的输出确定各图像帧中司机的视线方向。
步骤S7,根据视线方向生成描述俯仰角和偏航角的文本,并显示该文本。
通过应用以上技术方案,构建一个针对驾驶场景的训练数据集,并训练出基于ViT和知识蒸馏的视线估计模型,学习图像本身蕴含的与视线相关的语义信息和连续帧之间的时序信息,可显著提升模型的精度和鲁棒性,实现快速精准地预测驾驶场景下司机的视线方向。
本申请实施例还提出了一种面向智能座舱的司机视线估计装置,如图5所示,所述装置包括:获取模块501,用于获取智能座舱中司机的人脸视频,并从所述人脸视频的各图像帧中,截取包括人眼区域的目标图像;提取模块502,用于基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征;拼接模块503,用于将各所述图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各所述位置编码与各所述目标图像在所述人脸视频中的相对顺序对应;确定模块504,用于根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向。
在具体的应用场景中,所述预设特征提取网络为预设视线估计模型中的特征提取器,确定模块504,具体用于:基于所述预设视线估计模型中的转换器编码器,按自注意力机制对所述第一特征矩阵进行编码,获取第二特征矩阵;基于所述预设视线估计模型中的多层感知器对所述第二特征矩阵进行处理,获取各所述视线方向;其中,所述转换器编码器采用ViT模型。
在具体的应用场景中,所述装置还包括训练模块,用于:对预设驾驶场景下所述智能座舱中的司机人脸视频进行采集,并标注司机的真实视线方向,获取训练数据集;按所述预设视线估计模型的模型结构构建教师模型,并基于所述训练数据集对所述教师模型进行训练,训练完成后获取目标教师模型;基于知识蒸馏算法对所述目标教师模型进行轻量化处理,得到学生模型;基于所述训练数据集对所述学生模型进行训练,训练完成后生成所述预设视线估计模型;其中,所述教师模型的输入为所述训练数据集中各司机人脸视频的各人脸图像帧,所述学生模型的输入为从所述人脸图像帧中截取的包括人眼区域的各图像。
在具体的应用场景中,所述学生模型的损失函数由公式一确定,所述公式一为:其中,Lall为所述学生模型的损失函数,Lfea为由第三特征矩阵和第四特征矩阵确定的损失函数,/>为由所述教师模型的预测视线方向与真实视线方向确定的损失函数,/>为由所述学生模型的预测视线方向与真实视线方向确定的损失函数,α和β分别为预设加权系数,所述第三特征矩阵为所述教师模型中的转换器编码器输出的特征矩阵,所述第四特征矩阵为所述学生模型中的转换器编码器输出的特征矩阵。
在具体的应用场景中,
其中,N为所述司机人脸视频的预设输入数量,T为每个司机人脸视频中人脸图像帧的数量,为所述第三特征矩阵,/>为所述第四特征矩阵,/>为所述教师模型的预测视线方向,/>为所述学生模型的预测视线方向,g为真实视线方向。
在具体的应用场景中,所述司机人脸视频由所述智能座舱中的红外摄像头采集,每个所述司机人脸视频对应同一个司机,所述真实视线方向由司机佩戴的头戴式眼动追踪设备获取。
在具体的应用场景中,所述装置还包括生成模块,用于:根据所述视线方向生成描述俯仰角和偏航角的文本,并显示所述文本。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存储处理器的可执行指令;
处理器601,被配置为经由执行所述可执行指令来执行:
获取智能座舱中司机的人脸视频,并从所述人脸视频的各图像帧中,截取包括人眼区域的目标图像;基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征;将各所述图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各所述位置编码与各所述目标图像在所述人脸视频中的相对顺序对应;根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(RandomAccess Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable GateArray,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的面向智能座舱的司机视线估计方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的面向智能座舱的司机视线估计方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种面向智能座舱的司机视线估计方法,其特征在于,所述方法包括:
获取智能座舱中司机的人脸视频,并从所述人脸视频的各图像帧中,截取包括人眼区域的目标图像;
基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征;
将各所述图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各所述位置编码与各所述目标图像在所述人脸视频中的相对顺序对应;
根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向。
2.如权利要求1所述的方法,其特征在于,所述预设特征提取网络为预设视线估计模型中的特征提取器,所述根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向,包括:
基于所述预设视线估计模型中的转换器编码器,按自注意力机制对所述第一特征矩阵进行编码,获取第二特征矩阵;
基于所述预设视线估计模型中的多层感知器对所述第二特征矩阵进行处理,获取各所述视线方向;
其中,所述转换器编码器采用ViT模型。
3.如权利要求2所述的方法,其特征在于,在基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征之前,所述方法还包括:
对预设驾驶场景下所述智能座舱中的司机人脸视频进行采集,并标注司机的真实视线方向,获取训练数据集;
按所述预设视线估计模型的模型结构构建教师模型,并基于所述训练数据集对所述教师模型进行训练,训练完成后获取目标教师模型;
基于知识蒸馏算法对所述目标教师模型进行轻量化处理,得到学生模型;
基于所述训练数据集对所述学生模型进行训练,训练完成后生成所述预设视线估计模型;
其中,所述教师模型的输入为所述训练数据集中各司机人脸视频的各人脸图像帧,所述学生模型的输入为从所述人脸图像帧中截取的包括人眼区域的各图像。
4.如权利要求3所述的方法,其特征在于,所述学生模型的损失函数由公式一确定,所述公式一为:
其中,Lall为所述学生模型的损失函数,Lfea为由第三特征矩阵和第四特征矩阵确定的损失函数,为由所述教师模型的预测视线方向与真实视线方向确定的损失函数,/>为由所述学生模型的预测视线方向与真实视线方向确定的损失函数,α和β分别为预设加权系数,所述第三特征矩阵为所述教师模型中的转换器编码器输出的特征矩阵,所述第四特征矩阵为所述学生模型中的转换器编码器输出的特征矩阵。
5.如权利要求4所述的方法,其特征在于,
其中,N为所述司机人脸视频的预设输入数量,T为每个司机人脸视频中人脸图像帧的数量,为所述第三特征矩阵,/>为所述第四特征矩阵,/>为所述教师模型的预测视线方向,/>为所述学生模型的预测视线方向,g为真实视线方向。
6.如权利要求3所述的方法,其特征在于,所述司机人脸视频由所述智能座舱中的红外摄像头采集,每个所述司机人脸视频对应同一个司机,所述真实视线方向由司机佩戴的头戴式眼动追踪设备获取。
7.如权利要求1所述的方法,其特征在于,在根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向之后,所述方法还包括:
根据所述视线方向生成描述俯仰角和偏航角的文本,并显示所述文本。
8.一种面向智能座舱的司机视线估计装置,其特征在于,所述装置包括:
获取模块,用于获取智能座舱中司机的人脸视频,并从所述人脸视频的各图像帧中,截取包括人眼区域的目标图像;
提取模块,用于基于预设特征提取网络对各所述目标图像进行特征提取,获取各所述目标图像的图像特征;
拼接模块,用于将各所述图像特征分别和与自身对应的位置编码进行拼接,获取第一特征矩阵,其中,各所述位置编码与各所述目标图像在所述人脸视频中的相对顺序对应;
确定模块,用于根据所述第一特征矩阵确定各所述图像帧中所述司机的视线方向。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的面向智能座舱的司机视线估计方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的面向智能座舱的司机视线估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310985954.1A CN116958945B (zh) | 2023-08-07 | 2023-08-07 | 面向智能座舱的司机视线估计方法和相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310985954.1A CN116958945B (zh) | 2023-08-07 | 2023-08-07 | 面向智能座舱的司机视线估计方法和相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116958945A true CN116958945A (zh) | 2023-10-27 |
CN116958945B CN116958945B (zh) | 2024-01-30 |
Family
ID=88444457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310985954.1A Active CN116958945B (zh) | 2023-08-07 | 2023-08-07 | 面向智能座舱的司机视线估计方法和相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958945B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194838A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社国際電気通信基礎技術研究所 | 視線方向推定装置および視線方向推定方法 |
US20190043216A1 (en) * | 2017-08-01 | 2019-02-07 | Omron Corporation | Information processing apparatus and estimating method for estimating line-of-sight direction of person, and learning apparatus and learning method |
CN112733795A (zh) * | 2021-01-22 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN113965550A (zh) * | 2021-10-15 | 2022-01-21 | 天津大学 | 智能交互式远程辅助视频系统 |
CN115861899A (zh) * | 2022-12-28 | 2023-03-28 | 中山大学中山眼科中心 | 一种基于视线估计的视线差值测量方法及装置 |
CN116343316A (zh) * | 2023-02-17 | 2023-06-27 | 闽江学院 | 基于自动编码变换的视线追踪方法及装置 |
-
2023
- 2023-08-07 CN CN202310985954.1A patent/CN116958945B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194838A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社国際電気通信基礎技術研究所 | 視線方向推定装置および視線方向推定方法 |
US20190043216A1 (en) * | 2017-08-01 | 2019-02-07 | Omron Corporation | Information processing apparatus and estimating method for estimating line-of-sight direction of person, and learning apparatus and learning method |
CN112733795A (zh) * | 2021-01-22 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN113965550A (zh) * | 2021-10-15 | 2022-01-21 | 天津大学 | 智能交互式远程辅助视频系统 |
CN115861899A (zh) * | 2022-12-28 | 2023-03-28 | 中山大学中山眼科中心 | 一种基于视线估计的视线差值测量方法及装置 |
CN116343316A (zh) * | 2023-02-17 | 2023-06-27 | 闽江学院 | 基于自动编码变换的视线追踪方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈俊杰: ""基于轻量化融合与知识蒸馏的图像语义分割"", 《硕士论文 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116958945B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7194284B2 (ja) | 量子化モデルの最適化方法、装置、情報推薦方法、装置、ニューラルネットワークモデルの最適化方法、装置、電子機器及びコンピュータプログラム | |
JP7164252B2 (ja) | 画像処理方法、装置、電子機器及びコンピュータプログラム | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
CN110490136B (zh) | 一种基于知识蒸馏的人体行为预测方法 | |
EP3710993B1 (en) | Image segmentation using neural networks | |
JP7276607B2 (ja) | 群衆のダイナミックを予測する方法及びシステム | |
CN113177515A (zh) | 一种基于图像的眼动追踪方法和系统 | |
KR20220044828A (ko) | 얼굴 속성 인식 방법, 장치, 전자 기기 및 저장 매체 | |
US20230334907A1 (en) | Emotion Detection | |
CN114187624A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
US20200082002A1 (en) | Determining contextual confidence of images using associative deep learning | |
CN115272565A (zh) | 一种头部三维模型的重建方法及电子设备 | |
CN115424318A (zh) | 一种图像识别方法及设备 | |
CN111177460A (zh) | 提取关键帧的方法及装置 | |
CN116324989A (zh) | 使用内插以从静态图像生成视频 | |
CN116958945B (zh) | 面向智能座舱的司机视线估计方法和相关设备 | |
CN113011320A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
KR20210126490A (ko) | 이미지 및 포즈 변화에 기반한 깊이맵 재투사 방법 및 xr 표시 장치 | |
DE112020007826T5 (de) | Verbesserte videostabilisierung basierend auf maschinenlernmodellen | |
CN116664694A (zh) | 图像亮度获取模型的训练方法、图像获取方法及移动终端 | |
KR102465437B1 (ko) | 인공지능 기반 객체 추적 장치 및 방법 | |
CN114708143A (zh) | 一种hdr图像生成方法、设备、产品及介质 | |
CN111062479B (zh) | 基于神经网络的模型快速升级方法及装置 | |
Li | Convolutional Neural Network‐Based Virtual Reality Real‐Time Interactive System Design for Unity3D |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |