CN113642393B - 基于注意力机制的多特征融合视线估计方法 - Google Patents
基于注意力机制的多特征融合视线估计方法 Download PDFInfo
- Publication number
- CN113642393B CN113642393B CN202110768272.6A CN202110768272A CN113642393B CN 113642393 B CN113642393 B CN 113642393B CN 202110768272 A CN202110768272 A CN 202110768272A CN 113642393 B CN113642393 B CN 113642393B
- Authority
- CN
- China
- Prior art keywords
- feature
- face
- feature fusion
- attention
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 25
- 210000001508 eye Anatomy 0.000 claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 19
- 210000001747 pupil Anatomy 0.000 claims abstract description 15
- 210000003128 head Anatomy 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 210000005252 bulbus oculi Anatomy 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 241000282414 Homo sapiens Species 0.000 abstract description 7
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000162 simple eye Anatomy 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明请求保护一种基于注意力机制的多特征融合视线估计方法,该方法包括利用MTCNN算法对人脸和人脸关键点进行检测,从而获得视线估计所需的人脸和眼睛图片;利用基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器,选择并增强人脸及双眼图片中的重要特征,并抑制与视线估计无关的信息;利用双眼特征融合网络和眼瞳特征融合网络,将双眼及瞳孔中心位置特征进行融合,并与人脸特征向量进行拼接以实现多特征融合,从而避免双眼非对称性及头部姿态估计不准确对视线估计的影响。通过在公开数据集MPIIGaze及EyeDiap上进行验证,并与当前主流的视线估计方法进行比较,本发明提出的视线估计方法具有更小的平均角误差,有效提高了自然场景中视线估计的精度和鲁棒性。
Description
技术领域
本发明属于图像处理与模式识别领域,特别是一种基于注意力机制的多特征融合视线估计方法。
背景技术
视线反映了人类的视觉注意力,可以通过视线来研究人们的意图,并理解社会互动,因此准确估计视线成为计算机视觉中一个重要的研究课题,在人机交互、显著性检测和汽车驾驶等方面应用广泛。
视线估计是检测视线方向、定位注视点位置的过程。视线估计方法主要分为两类:基于模型和基于外观的方法。基于模型的方法主要通过提取角膜表面和瞳孔中心的红外反射点来估计视线方向。该类方法通常可以准确地估计视线方向,但对光照及硬件条件要求较高,在室外环境下精度较低。基于外观的方法可以在不明确眼球特征的情况下,通过学习从眼睛外观到注视方向的映射函数来完成视线估计。但当头部姿态、光照、个体差异等引起眼睛外观发生变化时,学习这种映射函数具有极大的挑战性,因此基于外观的视线估计方法需要引入大型、多样化的训练数据集。近年来,卷积神经网络已经被证明能够在大规模和多样性的训练数据下学习非常复杂的映射函数,因此广泛应用于视线估计及相关领域。
基于卷积神经网络的视线估计通常使用简单的眼睛图像作为输入,来完成一系列的交互相关任务。然而最近的研究表明,除了双眼之外,脸部的其他区域也存在有价值的视线估计信息。同时,自然场景中多变的头部姿态及低质量的眼睛图片会导致视线估计的精度较低。
发明内容
为了解决上述问题,本发明提出了一种基于注意力机制的多特征融合视线估计方法。在所设计的模型中,将人脸及双眼图片作为输入,以获得更多与视线估计相关的特征;提出了基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器,利用通道和空间信息自适应地选择并增强人脸及双眼图片中的重要特征,并抑制与视线估计无关的信息;提出多特征融合思想,利用特征融合网络将人脸、双眼及瞳孔中心位置特征进行融合,从而提高自然场景中视线估计的精度和鲁棒性。
鉴于此,本发明采用的技术方案如下:
S1,利用多任务级联卷积神经网络(MTCNN)算法对原始图片进行人脸检测及人脸关键点定位,根据人眼关键点对人脸图片进行裁剪,最终得到视线估计所需的人脸和眼睛图片。
S2,利用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征,以及除眼睛外其他与视线估计相关的面部特征。
S3,利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征。
S4,利用特征融合网络将双眼及瞳孔中心位置特征进行融合,并将融合后的特征与人脸特征向量进行拼接以实现多特征融合,最后完成视线估计任务。
进一步,上述获得人脸和眼睛图片,包括根据人眼关键点对人脸图片进行裁剪以获得眼睛图片,视线估计所需人脸及双眼图片的尺寸为224×224×3,其中224×224表示人脸和双眼图片的大小,3表示RGB图像的通道数。
进一步,上述组卷积通道和空间注意力机制包括组卷积通道注意力模块和空间注意力模块,所述组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成,所述空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图。其中,组卷积通道注意力图的计算公式为:
MGCCAM=σ(fg_avg(fgcm(fgcm(F))))
其中,F为人脸及双眼图片经过特征提取器时的中间特征图,MaxPool为沿空间轴的最大池化操作,AvgPool为沿空间轴的平均池化操作,为核大小为3×3×2,步长为1的组卷积,fgcm为组卷积模块,fg_avg为全局平均池化,σ为sigmoid函数,MGCCAM为组卷积通道注意力图。
经所述空间注意力模块处理后的空间注意力图的计算公式为:
其中,F'为组卷积通道注意图与中间特征图F逐元素相乘得到的特征图,为矩阵逐元素乘法,/>分别为F'沿通道轴进行最大池化和平均池化操作后的特征图,为核大小为3×3×2,步长和填充均为1的卷积层,/>为核大小为1×1×1,步长为1的卷积层,MSAM为空间注意力图。
中间特征图F通过组卷积通道和空间注意力模块后的特征图为:
其中,F”为中间特征图F通过组卷积通道和空间注意力模块后的输出特征图。
进一步,上述人脸特征提取器为嵌入组卷积通道和空间注意力机制的VGG-16网络,即在原始网络VGG-16的第5个池化层后嵌入组卷积通道注意力模块和空间注意力模块,最后经过一个平均池化层和全连接层操作,得到一个256维的人脸特征向量。
进一步,上述眼睛特征提取器为嵌入组卷积通道和空间注意力机制的ResNeXt-50网络,ResNeXt-50由5个卷积块组成,在每个卷积块后增加组卷积通道注意力模块和空间注意力模块,有利于提高眼睛特征提取器的特征提取能力。
进一步,上述特征融合网络具体为,双眼特征融合网络(Binocular FeatureFusion Network,BFFN)和眼瞳特征融合网络(Eye Pupil Feature Fusion Network,EPFFN),其中BFFN将双眼特征进行融合,EPFFN则将融合后的双眼特征与瞳孔中心位置特征进行融合。
进一步,上述多特征融合具体为,将人脸特征、双眼特征及瞳孔中心位置特征进行融合,即将经过BFFN与EPFFN融合后的特征与人脸特征向量进行拼接以实现多特征融合。
进一步,上述人脸特征向量具体为,首先将人脸图片输入人脸特征提取器,得到一个256维的特征向量,然后再经过一个全连接层后得到一个128维的人脸特征向量。
本发明的优点及有益效果如下:
针对于自然场景中多变的头部姿态和低质量的眼睛图片会导致视线估计精度较低的问题,提出了一种基于注意力机制的多特征融合视线估计模型,将组卷积通道和空间注意力机制(Group Convolution Channel and Spatial Attention Mechanism,GCCSAM)嵌入人脸及眼睛特征提取器中,能够有效提高特征提取网络的特征提取能力;同时多特征融合模块能够有效避免双眼非对称性及头部姿态估计不准确对视线估计的影响,从而提高视线估计的精度;最后搭建了一个具有较高精度和较高鲁棒性的视线估计系统。
通过在公开数据集MPIIGaze和EyeDiap上进行验证,其中消融实验结果表明,将双眼及人脸图片作为输入的视线估计模型相对于仅使用双眼或人脸图片作为输入的视线估计模型具有较小的角误差;基于GCCSAM的视线估计模型利用通道和空间信息自适应地选择并增强人脸及双眼图片中的重要信息,其平均角误差相较于仅使用GCCAM或SAM的视线估计模型更小;多特征融合模块的引入可以有效降低视线估计的平均角误差。为了进一步验证本发明提出的视线估计方法的有效性,将其与当前主流的基于卷积神经网络的视线估计方法进行对比,实验结果表明,本发明提出的方法在数据集MPIIGaze和EyeDiap上均获得了更小的平均角误差,取得了更好的性能。
本发明中利用基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器,选择并增强人脸及双眼图片中的重要特征,并抑制与视线估计无关的信息;利用双眼特征融合网络和眼瞳特征融合网络,将双眼及瞳孔中心位置特征进行融合,并与人脸特征向量进行拼接以实现多特征融合,从而避免双眼非对称性及头部姿态估计不准确对视线估计的影响。
附图说明
图1为基于注意力机制的多特征融合视线估计框架图;
图2为组卷积通道注意力机制图;
图3为空间注意力机制图;
图4为多特征融合网络图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
S1,首先利用MTCNN算法对原始图片进行人脸检测及人脸关键点定位,然后根据人眼关键点对人脸图片进行裁剪以获得眼睛图片,最终获得视线估计任务所需的尺寸为224×224×3的人脸及双眼图片,其中224×224表示人脸和双眼图片的大小,3表示RGB图像的通道数。
S2,采用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征,以及除眼睛外其他与视线估计相关的面部特征,其中组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成,通道注意力图的计算公式为:
其中,F为人脸及双眼图片经过特征提取器时的中间特征图,MaxPool为沿空间轴的最大池化操作,AvgPool为沿空间轴的平均池化操作,为核大小为3×3×2,步长为1的组卷积,fgcm为组卷积模块,fg_avg为全局平均池化,σ为sigmoid函数,MGCCAM为组卷积通道注意力图。
将空间注意力机制嵌入人脸及眼睛特征提取器,能使网络将注意力集中在人脸和双眼图片的重要信息区域,激活其他细微的区域,并抑制与视线估计无关的信息,从而提高视线估计的能力。空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图,空间注意力图的计算公式为:
其中,F'为组卷积通道注意图与中间特征图F逐元素相乘得到的特征图,为矩阵逐元素乘法,/>分别为F'沿通道轴进行最大池化和平均池化操作后的特征图,为核大小为3×3×2,步长和填充均为1的卷积层,/>为核大小为1×1×1,步长为1的卷积层,MSAM为空间注意力图。
中间特征图F通过组卷积通道和空间注意力模块后的特征图为:
其中,F”为中间特征图F通过组卷积通道和空间注意力模块后的输出特征图。
人脸特征提取器采用的是嵌入组卷积通道和空间注意力机制的VGG-16网络,即在原始网络VGG-16的第5个池化层后嵌入组卷积通道和空间注意力模块,最后使用一个平均池化层和全连接层,得到一个256维的人脸特征向量。
S3,利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征,本发明采用的眼睛特征提取器为嵌入组卷积通道和空间注意力机制的ResNeXt-50网络,ResNeXt-50由5个卷积块组成,在每个卷积块后增加GCCSAM,有利于提高眼睛特征提取器的特征提取能力,最后得到一个大小为7×7×2048的眼睛特征图。为了避免双眼非对称性,本发明将双眼图片分别送入两个眼睛特征提取器中,提取双眼图片的特征图。
S4,首先采用双眼特征融合网络(Binocular Feature Fusion Network,BFFN)将双眼特征进行融合,然后采用眼瞳特征融合网络(Eye Pupil Feature Fusion Network,EPFFN)将融合后的双眼特征与瞳孔中心位置特征进行融合,最后将经过BFFN与EPFFN融合后的特征与人脸特征向量进行拼接以实现多特征融合,最终完成视线估计任务。
其中,BFFN由1个全局平均池化层、3个卷积层组成。首先将眼睛特征提取器提取的左右眼特征进行级联;然后将级联后的双眼特征送入全局平均池化层和两个1×1的卷积层,用于学习双眼对视线估计的重要性程度,输出为一个1×1×2的特征谱权重;最后将级联的双眼特征与特征谱权重进行加权运算,并利用一个1×1的卷积层将加权后的双眼特征进行压缩,得到一个7×7×512的特征图。EPFFN首先利用1个全局平均池化层和1个全连接层对融合后的双眼特征进行操作,得到一个128维的特征向量;然后将MTCNN算法检测的双眼瞳孔中心坐标送入一个全连接层,得到一个128维的瞳孔中心位置特征;最后将两个特征进行融合,并将融合后的特征与人脸特征向量进行拼接以实现多特征融合,最终完成视线估计任务。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.基于注意力机制的多特征融合视线估计方法,其特征在于,包括以下步骤:
S1,利用MTCNN算法对原始图片进行人脸检测及人脸关键点定位,从而获得视线估计所需的人脸和眼睛图片;
S2,利用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征,以及除眼睛外其他与视线估计相关的面部特征;
所述组卷积通道和空间注意力机制包括组卷积通道注意力模块和空间注意力模块,所述组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成,所述空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图;
所述组卷积通道注意力图的计算公式为:
MGCCAM=σ(fg_avg(fgcm(fgcm(F))))
其中,F为中间特征图,MaxPool为沿空间轴的最大池化操作,AvgPool为沿空间轴的平均池化操作,为核大小为3×3×2,步长为1的组卷积,fgcm为组卷积模块,fg_avg为全局平均池化,σ为sigmoid函数,MGCCAM为组卷积通道注意力图;
经所述空间注意力模块处理后的空间注意力图的计算公式为:
其中,F'为组卷积通道注意力图MGCCAM与中间特征图F逐元素相乘得到的特征图,为矩阵逐元素乘法,/>分别为F'沿通道轴进行最大池化和平均池化操作后的特征图,为核大小为3×3×2,步长和填充均为1的卷积层,/>为核大小为1×1×1,步长为1的卷积层,MSAM为空间注意力图;
通过所述组卷积通道注意力模块和空间注意力模块后的特征图为:
其中,F”为中间特征图F通过组卷积通道注意力模块和空间注意力模块后的输出特征图;
S3,利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征;
S4,利用特征融合网络将双眼及瞳孔中心位置特征进行融合,并将融合后的特征与人脸特征向量进行拼接以实现多特征融合,最后完成视线估计任务;
所述特征融合网络包括将双眼特征进行融合的双眼特征融合网络和将融合后的双眼特征与瞳孔中心位置特征进行融合的眼瞳特征融合网络。
2.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:步骤S1所述获得视线估计所需的人脸和眼睛图片,包括根据人眼关键点对人脸图片进行裁剪以获得眼睛图片,视线估计所需人脸及双眼图片的尺寸为224×224×3,其中224×224表示人脸和双眼图片的大小,3表示RGB图像的通道数。
3.根据权利要求1或2所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述人脸特征提取器为嵌入组卷积通道和空间注意力机制的VGG-16网络,即在原始网络VGG-16的第5个池化层后嵌入组卷积通道注意力模块和空间注意力模块,最后经过一个平均池化层和全连接层操作,得到一个256维的人脸特征向量。
4.根据权利要求1或2所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述眼睛特征提取器为,嵌入组卷积通道和空间注意力机制的ResNeXt-50网络,ResNeXt-50由5个卷积块组成,在每个卷积块后增加组卷积通道注意力模块和空间注意力模块。
5.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述双眼特征融合网络包括1个全局平均池化层和3个卷积层,首先将眼睛特征提取器提取的左右眼特征进行级联;然后将级联后的双眼特征送入全局平均池化层和两个1×1的卷积层,输出为一个1×1×2的特征谱权重;最后将级联的双眼特征与特征谱权重进行加权运算,并利用一个1×1的卷积层将加权后的双眼特征进行压缩,得到一个7×7×512的特征图。
6.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述眼瞳特征融合网络首先利用1个全局平均池化层和1个全连接层对融合后的双眼特征进行操作,得到一个128维的特征向量;然后将MTCNN算法检测的双眼瞳孔中心坐标送入一个全连接层,得到一个128维的瞳孔中心位置特征向量;最后拼接两个特征向量,并将其送入一个全连接层,得到一个128维的多特征融合向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768272.6A CN113642393B (zh) | 2021-07-07 | 2021-07-07 | 基于注意力机制的多特征融合视线估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768272.6A CN113642393B (zh) | 2021-07-07 | 2021-07-07 | 基于注意力机制的多特征融合视线估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642393A CN113642393A (zh) | 2021-11-12 |
CN113642393B true CN113642393B (zh) | 2024-03-22 |
Family
ID=78416842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110768272.6A Active CN113642393B (zh) | 2021-07-07 | 2021-07-07 | 基于注意力机制的多特征融合视线估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642393B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837153B (zh) * | 2021-11-25 | 2022-03-18 | 之江实验室 | 一种融合瞳孔数据和面部表情的实时情绪识别方法及系统 |
CN114898453B (zh) * | 2022-05-23 | 2024-07-23 | 重庆邮电大学 | 基于合作网络视线估计方法 |
CN116048244B (zh) * | 2022-07-29 | 2023-10-20 | 荣耀终端有限公司 | 一种注视点估计方法及相关设备 |
GB2626136A (en) * | 2023-01-10 | 2024-07-17 | Mercedes Benz Group Ag | System and method for estimation of eye gaze direction of a user with or without eyeglasses |
CN116189275B (zh) * | 2023-02-13 | 2024-01-30 | 南通大学 | 一种基于面部地标热图的线上考试监考方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492514A (zh) * | 2018-08-28 | 2019-03-19 | 初速度(苏州)科技有限公司 | 一种单相机采集人眼视线方向的方法及系统 |
CN110795982A (zh) * | 2019-07-04 | 2020-02-14 | 哈尔滨工业大学(深圳) | 一种基于人体姿态分析的表观视线估计方法 |
CN111046734A (zh) * | 2019-11-12 | 2020-04-21 | 重庆邮电大学 | 基于膨胀卷积的多模态融合视线估计方法 |
CN111796681A (zh) * | 2020-07-07 | 2020-10-20 | 重庆邮电大学 | 人机交互中基于差分卷积的自适应视线估计方法及介质 |
CN112541454A (zh) * | 2020-12-21 | 2021-03-23 | 的卢技术有限公司 | 一种用于视线估计的卷积神经网络设计方法 |
CN112541433A (zh) * | 2020-12-11 | 2021-03-23 | 中国电子技术标准化研究院 | 一种基于注意力机制的两阶段人眼瞳孔精确定位方法 |
WO2021056808A1 (zh) * | 2019-09-26 | 2021-04-01 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11034357B2 (en) * | 2018-09-14 | 2021-06-15 | Honda Motor Co., Ltd. | Scene classification prediction |
-
2021
- 2021-07-07 CN CN202110768272.6A patent/CN113642393B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492514A (zh) * | 2018-08-28 | 2019-03-19 | 初速度(苏州)科技有限公司 | 一种单相机采集人眼视线方向的方法及系统 |
CN110795982A (zh) * | 2019-07-04 | 2020-02-14 | 哈尔滨工业大学(深圳) | 一种基于人体姿态分析的表观视线估计方法 |
WO2021056808A1 (zh) * | 2019-09-26 | 2021-04-01 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111046734A (zh) * | 2019-11-12 | 2020-04-21 | 重庆邮电大学 | 基于膨胀卷积的多模态融合视线估计方法 |
CN111796681A (zh) * | 2020-07-07 | 2020-10-20 | 重庆邮电大学 | 人机交互中基于差分卷积的自适应视线估计方法及介质 |
CN112541433A (zh) * | 2020-12-11 | 2021-03-23 | 中国电子技术标准化研究院 | 一种基于注意力机制的两阶段人眼瞳孔精确定位方法 |
CN112541454A (zh) * | 2020-12-21 | 2021-03-23 | 的卢技术有限公司 | 一种用于视线估计的卷积神经网络设计方法 |
Non-Patent Citations (4)
Title |
---|
Appearance-Based Gaze Estimation Using Dilated-Convolutions;Zhaokang Chen等;《Asian Conference on Computer Vision》;309-324 * |
Gaze Estimation with Multi-Scale Channel and Spatial Attention;Song Liu等;《Proceedings of the 2020 9th International Conference on Computing and Pattern Recognition》;303–309 * |
Multi-feature fusion gaze estimation based on attention mechanism;Zhangfang Hu等;《Optoelectronic Imaging and Multimedia Technology VIII》;第11897卷;118970Z * |
基于深度多模态融合的视线追踪技术;陈顺;《中国优秀硕士学位论文全文数据库 信息科技辑》(第02期);I138-1409 * |
Also Published As
Publication number | Publication date |
---|---|
CN113642393A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642393B (zh) | 基于注意力机制的多特征融合视线估计方法 | |
Zhang et al. | Hierarchical feature fusion with mixed convolution attention for single image dehazing | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及系统 | |
Wang et al. | Drpose3d: Depth ranking in 3d human pose estimation | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN111046734B (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN114529982B (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
Liao et al. | A deep ordinal distortion estimation approach for distortion rectification | |
CN113239907A (zh) | 一种人脸识别的检测方法、装置、电子设备及存储介质 | |
CN111797813A (zh) | 基于可见感知纹理语义对齐的部分行人重识别方法 | |
Kang et al. | Real-time eye tracking for bare and sunglasses-wearing faces for augmented reality 3D head-up displays | |
CN116797640A (zh) | 一种面向智能伴行巡视器的深度及3d关键点估计方法 | |
CN101482917B (zh) | 一种基于二阶二维主分量分析的人脸识别系统和方法 | |
CN115862095A (zh) | 一种自适应视线估计方法、系统、电子设备及存储介质 | |
CN116012459A (zh) | 基于三维视线估计和屏幕平面估计的鼠标定位的方法 | |
CN112580721B (zh) | 一种基于多分辨率特征融合的目标关键点检测方法 | |
Kang et al. | Pupil detection and tracking for AR 3D under various circumstances | |
CN114898447A (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 | |
CN111985341B (zh) | 一种图像的视觉注意力捕捉方法、系统及可读存储介质 | |
Song et al. | ConcatNet: A deep architecture of concatenation-assisted network for dense facial landmark alignment | |
Zhong et al. | Bi-directional long short-term memory architecture for person re-identification with modified triplet embedding | |
Ren et al. | Gaze Estimation Based on Attention Mechanism Combined with Temporal Network | |
CN113642354B (zh) | 人脸姿态的确定方法、计算机设备、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |