CN117132869A - 视线偏差估算模型的训练、视线偏差值的校正方法及装置 - Google Patents
视线偏差估算模型的训练、视线偏差值的校正方法及装置 Download PDFInfo
- Publication number
- CN117132869A CN117132869A CN202311097865.XA CN202311097865A CN117132869A CN 117132869 A CN117132869 A CN 117132869A CN 202311097865 A CN202311097865 A CN 202311097865A CN 117132869 A CN117132869 A CN 117132869A
- Authority
- CN
- China
- Prior art keywords
- sight
- line
- deviation
- image
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 title claims abstract description 65
- 230000000007 visual effect Effects 0.000 claims abstract description 52
- 210000003128 head Anatomy 0.000 claims abstract description 44
- 210000004087 cornea Anatomy 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 230000001815 facial effect Effects 0.000 claims abstract description 10
- 238000012937 correction Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract description 4
- 230000036544 posture Effects 0.000 description 17
- 239000003550 marker Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000004397 blinking Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004424 eye movement Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000004279 orbit Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Ophthalmology & Optometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视线偏差估算模型的训练、视线偏差值的校正方法及装置,所述方法包括:获取用户的多个视像数据;从每个视像数据提取视线特征数据,所述视线特征数据包括:头部姿态、眼位、角膜直径和人脸在图像中的位置信息;采用视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型。本发明通过预先获取用户在调整头部姿态和距离时的视像数据,从视像数据中提取视线特征,并利用预设的偏差估计网络学习视线特征到视线偏差值之间的映射关系,得到视线偏差估计模型的方式,对用户在不同姿态和距离下的视线估计值进行补偿,从而提高视线估计模型的精度和适应性。
Description
技术领域
本发明涉及视线模型训练及应用的技术领域,尤其涉及一种视线偏差估算模型的训练、视线偏差值的校正方法及装置。
背景技术
视线估计作为眼动跟踪的重要任务之一,具有非常广泛的应用场景,如人机交互、智能驾驶、情感分析、意图识别等等。随着深度学习方法的发展,基于外观的视线估计方法越来越受到研究者的关注。
为了快速识别用户的视线,基于外观的视线估计方法一般需要先采集大量的用户视线信息以及对应的人像信息,然后利用基于深度学习的视线估计方法进行训练得到视线估计模型,再调用视线估计模型进行视线估计。
但目前常用的方法有如下技术问题:采集的用户数据在姿态、距离等方面无法覆盖全面,导致模型的泛化性能较差。但用户在实际使用时,其姿势或者观看设备的距离会发现变化,因而对于角度、距离等方面无法覆盖全面的情况下训练得到的模型,其识别的偏差较大,精度较低。
发明内容
本发明提出一种视线偏差估算模型的训练、视线偏差值的校正方法及装置,所述方法预先获取用户在调整姿势和距离时的视像数据,从视像数据中提取人脸图像、人眼图像、人脸和人眼在图像中的位置信息、头部姿态、角膜直径等特征信息,利用人脸图像、人眼图像进行模型训练得到视线偏差估算模型,进而能识别用户在不同姿势与距离下的视线,以降低识别的偏差,提升识别的精度。
本发明实施例的第一方面提供了一种视线偏差估算模型的训练方法,所述方法包括:
获取用户的多个视像数据,每个所述视像数据是用户在查看动态闪烁的视标以及在调整个人姿态和查看视标距离的过程中采集的数据;
从每个所述视像数据提取视线特征数据,所述视线特征数据包括:头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型。
在第一方面的一种可能的实现方式中,所述从每个所述视像数据提取视线特征数据,包括:
按照预设的时间间隔从每个所述视像数据中抽取多张人像图像,并从所述人像图像分别分割人脸图像和人眼图像;
利用预设的人脸特征识别模型从所述人像图像分别抽取的人眼关键点信息和人脸关键点信息;
基于所述人眼关键点信息从所述多张人像图像中筛选若干张睁开眼的目标人像图像,从每张所述目标人像图像获取人脸位置坐标和人眼位置坐标;
基于所述人眼关键点信息和所述人脸关键点信息从每张所述目标人像图像提取头部姿态、眼位、角膜直径。
在第一方面的一种可能的实现方式中,所述采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型,包括:
对所述视线特征数据进行标准化处理和极值剔除处理,得到处理数据;
将所述处理数据内的人脸图像、人眼图像、人脸位置坐标、人眼位置坐标输入到预设的估计模型中得到对应的视线估计值,并采用所述视线估计值与真实视线值计算视线偏差值;
以所述视线偏差值为预设的两层神经网络模型的标签,将所述处理数据输入至采用预设的两层神经网络模型进行训练,得到视线偏差估计模型。
在第一方面的一种可能的实现方式中,所述视像数据的获取操作,包括:
随机将视标闪烁展示在预设屏幕的任意一个不同的网格中,以提示用户查看视标;
录制用户在查看闪烁视标并调整个人姿态距离的影像,得到视像数据,其中,每个所述视像数据对应一个网格区域。
在第一方面的一种可能的实现方式中,所述个人姿态的调整包括:头部滚转角调整、头部俯仰角调整和头部偏航角调整;
所述个人姿态的角度调整幅度为-90度到+90度;
所述个人姿态的距离的调整幅度为在-20cm到+20cm之间。
在第一方面的一种可能的实现方式中,在所述录制用户在查看闪烁视标并调整个人姿态距离的影像,得到视像数据的步骤后,所述方法还包括:
统计所获取的所述多个视像数据的数量;
若所述多个视像数据的数量与预设数量不同,则确定待展示网格,并将视标展示在所述待展示网格,供用户查看,所述预设数量为显示视标的屏幕划分的网络数量。
本发明实施例的第二方面提供了一种视线偏差值的校正方法,所述方法包括:
在获取待校正的用户图像后,从所述用户图像中提取校正特征和视线估计值,所述校正特征包括用户的头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
将所述校正特征输入至根据如上所述的视线偏差估算模型的训练方法训练得到的视线偏差估算模型进行偏差计算,得到校正偏差值;
采用所述校正偏差值对所述视线估计值校准,得到校正视线值。
本发明实施例的第三方面提供了一种视线偏差估算模型的训练装置,所述装置包括:
获取视像数据模块,用于获取用户的多个视像数据,每个所述视像数据是用户在查看动态闪烁的视标以及在调整个人姿态距离的过程中采集的数据;
提取视线特征模块,用于从每个所述视像数据提取视线特征数据,所述视线特征数据包括:头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
模型训练模块,用于采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型。
本发明实施例的第四方面提供了一种视线偏差值的校正装置,所述装置包括:
信息提取模块,用于在获取待校正的用户图像后,从所述用户图像中提取校正特征和视线估计值,所述校正特征包括用户的头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
偏差计算模块,用于将所述校正特征输入至根据如上所述的视线偏差估算模型的训练方法训练得到的视线偏差估算模型进行偏差计算,得到校正偏差值;
视线校正模块,用于采用所述校正偏差值对所述视线估计值校准,得到校正视线值。
相比于现有技术,本发明实施例提供的一种视线偏差估算模型的训练、视线偏差值的校正方法及装置,其有益效果在于:本发明可以预先获取用户在调整姿势和角度时的视像数据,从视像数据中提取人脸、视线等特征信息,利用各种特征信息进行模型训练得到视线偏差估算模型,进而能识别用户在不同姿势与角度的视线,以降低识别的偏差,提升识别的精度。
附图说明
图1是本发明一实施例提供的一种视线偏差估算模型的训练方法的流程示意图;
图2是本发明一实施例提供的一种视线偏差值的校正方法的流程示意图;
图3是本发明一实施例提供的模型训练及视线校正的操作流程图;
图4是本发明一实施例提供的一种视线偏差估算模型的训练装置的结构示意图;
图5是本发明一实施例提供的一种视线偏差值的校正装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决上述问题,下面将通过以下具体的实施例对本申请实施例提供的一种视线偏差估算模型的训练方法进行详细介绍和说明。
参照图1,示出了本发明一实施例提供的一种视线偏差估算模型的训练方法的流程示意图。
在一实施例中,所述方法适用于可以对用户进行眼动跟踪的智能设备,例如手机终端、车载终端或其他智能终端等。
各个智能设备均设有显示屏幕,该显示屏幕可以显示不同的视标供用户查看,在用户查看时采集用户的视线,同时可以对用户的视线进行校正。
其中,作为示例的,所述视线偏差估算模型的训练方法,可以包括:
S11、获取用户的多个视像数据,每个所述视像数据是用户在查看动态闪烁的视标以及在调整个人姿态和查看视标距离的过程中采集的数据。
在一实施例中,预设的显示屏幕可以闪烁展示视标,用户可以查看该闪烁的视标,其中,视标可以为小红点或其它动态图片等视线标志物。在查看的过程中,用户可以调整其个人查看视标的姿态,包括身体姿态或者头部姿态,也可以转动其头部。并且,在查看过程中,也可以调整其自身与屏幕的距离,从不同的距离查看视标。
在用户查看的过程中,可以录制用户一边查看一边调整其个人姿态与距离的影像,得到用户的视像数据。
为了增加后续训练的数据量,可以采集多个视像数据,不同的视像数据可以是显示不同视标且用户处于不同姿态的视像数据。
其中,作为示例的,步骤S11可以包括以下子步骤:
S111、随机将视标闪烁展示在预设屏幕的任意一个不同的网格中,以提示用户查看视标。
在一实施例中,可以将预设屏幕划分成N*N个同等大小的网格,网格按照水平方向依次标记为1、2…N。例如将屏幕划分成3x3的同等大小的网格,网格按照水平方向依次标记为1、2…9。
将屏幕划分成3x3是希望得到用户在屏幕的不同位置下的偏差情况,从而可以更好地对模型进行校准。如果能够划分得更加细致,就可以更加细致地获取到用户在不同位置下地偏差,从而可以达到更加精准地效果,但是划分更多地区域会影响效率,用户需要花更多时间配合进行校准,3x3是效率和精度的一个权衡。
可以随机在任意一个网格闪烁展示视标,且展示的每一个网格均不同,供用户查看。
可选地,也可以按照预设的顺序在网格正中心依次显示视线标志物。例如,按照1到9的顺序在网格正中心依次显示视线标志物。
需要说明的是,每次视线标志物出现时会在屏幕上提示用户视线标志物将出现在哪个网格,比如通过网格闪烁形式提示用户。
S112、录制用户在查看闪烁视标并调整个人姿态距离的影像,得到视像数据,其中,每个所述视像数据对应一个网格区域。
在开始展示并同时用户查看视标后,可以录制用户查看闪烁的视标时的影像,在此过程中,用户可以随意调整其个人查看视标的姿态以及调整其查看视标的距离。
具体地,在视线标志物出现期间用户注视视线标志物,同时调整自己的头部姿态和距离,头部姿态包括滚转角、俯仰角和偏航角。
在一实施例中,所述个人姿态的角度调整幅度为-90度到+90度。
优选地,所述个人姿态的角度调整幅度为-45度到+45度。
同理,用户可以调整其与平面的距离,以调整查看视标的距离。
在一实施例中,所述个人姿态的距离的调整幅度为在-20cm到+20cm之间。
优选地,所述个人姿态的距离的调整幅度为在-10cm到+10cm之间。
需要说明的是,为了提升处理效率,可以利用距离度量和头部姿态模型对用户进行指引,以更好收集更加全面的数据。
参照上述例子,假设屏幕划分成3*3,智能设备的摄像头可以捕获视线标志物出现期间用户的影像,总共获取9段人像视频信息以及该人像视频信息对应的视线标志物在屏幕的位置。
为了准确确定已采集用户在查看不同视标的影像,在一实施例中,所述方法还可以包括以下步骤:
S113、统计所获取的所述多个视像数据的数量。
S114、若所述多个视像数据的数量与预设数量不同,则确定待展示网格,并将视标展示在所述待展示网格,供用户查看,所述预设数量为显示视标的屏幕划分的网络数量。
以上述屏幕划分成3*3,共9个网格作例子,假设是按照1到9的顺序在网格正中心依次显示视线标志物。每次在获取一段视像数据后,可以统计所获取的视像数据的数量。以显示视标的屏幕划分的网络数量为预设数量。
如果所获取的视像数据的数量与预设数量不同,说明有网格未展示视标,可以再按照展示的顺序确定下一个展示的网络,得到待展示网格。再将视标展示在待展示网格中,供用户查看,再录制用户查看时的影像。
如果所获取的视像数据的数量与预设数量相同,说明所有网格均展示视标,可以执行后续操作。
S12、从每个所述视像数据提取视线特征数据,所述视线特征数据包括:头部姿态、眼位、角膜直径和人脸在图像中的位置信息。
在一实施例中,可以从每个视像数据提取视线特征数据。该视线特征数据包括:人脸图像、人眼图像、头部姿态、眼位、角膜直径和人脸在图像中的位置信息,其中,人脸在图像中的位置信息包括:人脸位置坐标和人眼位置坐标。
其中,人脸图像是查看视标的用户人脸的图像。人眼图像是用户的眼睛图像。人脸位置坐标是用户的人脸在某一帧视像数据的图像内的坐标。人眼位置坐标是用户的眼睛在某一帧视像数据的图像内的坐标。视线偏差值是用户注视视标的视线真实值以及预测的视线估计值的差值。
在一可选的实施例中,步骤S12可以包括以下子步骤:
S121、按照预设的时间间隔从每个所述视像数据中抽取多张人像图像,并从所述人像图像分别分割人脸图像和人眼图像。
S122、利用预设的人脸特征识别模型从所述人像图像分别抽取的人眼关键点信息和人脸关键点信息。
S123、基于所述人眼关键点信息从所述多张人像图像中筛选若干张睁开眼的目标人像图像,从每张所述目标人像图像获取人脸位置坐标和人眼位置坐标。
S124、基于所述人眼关键点信息和所述人脸关键点信息从每张所述目标人像图像提取头部姿态、眼位、角膜直径。
沿用上述例子,假设有9个网格,对应有9个视线数据。其中,9个视线数据可以是不连续的,但每个视线数据是连续的。只有在视线标志物出现之后才会对用户进行指引同时获取视线标志物出现期间的人像数据。
具体地,按一定的间隔从每个视像数据中抽取若干张人像图像,然后利用预设的人脸特征识别模型(例如mediapipe)获取抽取每张人像图像的人脸和人眼在人脸的关键点,分别得到眼关键点信息和脸关键点信息。同时可以利用预设的人脸特征识别模型识别人像图像中的人脸区域与人眼区域,再从人像图像中切割对应的人脸区域与人眼区域,从而得到人脸图像和人眼图像。
然后,根据眼关键点信息识别每张人像图像,确定是否有闭眼的图像,若有则剔除闭眼的图像,筛选得到若干张睁开眼的目标人像图像,从而得到若干张目标人像图像。
接着,可以根据人脸关键点信息从目标人像图像中获取人脸图像、人眼图像以及人脸和人眼在图像中的位置信息,得到人脸位置坐标和人眼位置坐标。
可以将上述信息输入到预先训练好的AFFNet模型中,通过AFFNet获取每个目标人像图像中用户的视线估计值,以及头部姿态信息。需要说明的是,为了加快推理过程中的速度,头部姿态估计和AFFNet公用一个骨干网络,同时通过多任务学习的方式也可以进一步提高模型的性能。
可以根据眼关键点信息包含的角膜关键点和眼眶的关键点获取眼位信息以及角膜的直径;根据人脸关键点信息获取人脸在图像中的位置信息。最终得到了每张图片的头部姿态、眼位、角膜直径和人脸在图像中的位置信息,以及与之对应的视线偏差值。在一实施例中,可以将上述各个信息集合成一个集合,可选地,可以表示为D(X,Y)。
S13、采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型。
在获取上述各个视线特征数据后,可以利用视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型,使得视线偏差估算模型可以在对用户的图像进行识别时,从不同角度、不同姿态以及不同眼角确定用户的视线是否有偏差,以计算其视线的偏差值,后续能根据视线的偏差值进行校正和调整。
在其中一种的实施例中,步骤S13可以包括以下子步骤:
S131、对所述视线特征数据进行标准化处理和极值剔除处理,得到处理数据。
S132、将所述处理数据内的人脸图像、人眼图像、人脸位置坐标、人眼位置坐标输入到预设的估计模型中得到对应的视线估计值,并采用所述视线估计值与真实视线值计算视线偏差值。
S133、以所述视线偏差值为预设的两层神经网络模型的标签,将所述处理数据输入至采用预设的两层神经网络模型进行训练,得到视线偏差估计模型。
在具体的模型训练中,可以利用两层神经网络模型对提取的人像信息进行训练,学习人像信息到视线偏差值之间的映射关系。
根据上述内容,其中输入数据为头部姿态、眼位、角膜直径和人脸在图像中的位置信息,可以以视线偏差值为训练的标签数据。其中,头部姿态包括了3个维度,偏航角、俯仰角和滚转角,眼位根据角膜中心位置与眼眶的中心位置的偏差情况表示,包括横轴和纵轴两个维度,角膜直径根据角膜的关键点确定,人脸在图像中的位置根据人脸框中心位置与图片中心位置的偏差情况确定包括横轴和纵轴两个维度,最终得到8个维度的输入数据。
每个维度的数据会进行简单的标准化处理,再进行极值剔除处理,可以减去最小值后除以最大值和最小值的插值,从而得到处理数据。
完成上述操作后,可以将处理数据内的人脸图像、人眼图像、人脸位置坐标、人眼位置坐标输入到预设的估计模型中,利用预设的估计模型采用上述数据估算一个视线的估算值,得到对应的视线估计值。其中,预设的估计模型可以预先训练好的视线估计模型
采用视线估计值与真实视线值计算视线偏差值。需要说明的是,在录制用户的影像时,可以实时获取用户当前的视线,得到用户的真实视线值。
具体可以计算的视线估计值以及视线真实值的差值,得到视线偏差值。
完成上述操作后,可以以视线偏差值为预设的两层神经网络模型的标签,再将上述各个完成处理的数据输入至两层神经网络模型进行训练,并采用梯度下降方式进行训练,最后得到视线偏差估算模型。
通过预先获取用户在调整头部姿态和距离时的视像数据,从视像数据中提取视线特征,并利用预设的偏差估计网络学习视线特征到视线偏差值之间的映射关系,得到视线偏差估计模型的方式,对用户在不同姿态和距离下的视线估计值进行补偿,从而提高视线估计模型的精度和适应性。
在本实施例中,本发明实施例提供了一种视线偏差估算模型的训练方法,其有益效果在于:本发明可以预先获取用户在调整姿势和角度时的视像数据,从视像数据中提取人脸、视线等特征信息,利用各种特征信息进行模型训练得到视线偏差估算模型,进而能识别用户在不同姿势与角度的视线,以降低识别的偏差,提升识别的精度。
参照图2,示出了本发明一实施例提供的一种视线偏差值的校正方法的流程示意图。
其中,作为示例的,所述视线偏差值的校正方法,可以包括:
S21、在获取待校正的用户图像后,从所述用户图像中提取校正特征和视线估计值,所述校正特征包括用户的头部姿态、眼位、角膜直径和人脸在图像中的位置信息。
S22、将所述校正特征输入至根据上述实施例所述的视线偏差估算模型的训练方法训练得到的视线偏差估算模型进行偏差计算,得到校正偏差值。
S23、采用所述校正偏差值对所述视线估计值校准,得到校正视线值。
其中,所述视线估计值是利用预先训练的评估模型对待校正的用户图像进行初步的视线评估后,得到估计值。
在一实现方式中,也可以按照上述实施例的方式预先训练一个评估模型,也可以利用常规技术手段训练一个评估模型。
然后利用该预估模型对待校正的用户图像进行初步的评估,得到视线估计值。
具体地,可以利用上述实施例所述的视线偏差估算模型进行视线校准,其操作具体包括:
先获取新的图像,该图像是待校正的用户图像。然后利用mediapipe和AFFNet从用户图像提取校正参数以及估计的视线估计值,该校正参数可以包括人像的头部姿态、眼位、角膜直径和人脸在图像中的位置信息,也可以包括用户的人脸图像、人眼图像、人脸位置坐标、人眼位置坐标、头部姿态、眼位和角膜直径。
将上述校正参数以及估计的视线估计值输入到训练得到的视线偏差估算模型中估算用户视线对应的偏差值,得到校正偏差值。
利用估算的校正偏差值对估计的视线估计值进行校准,得到校准后的校正视线值。
在本实施例中,本发明实施例提供了一种视线偏差值的校正方法,其有益效果在于:本发明可以利用用户在不同的头部姿态、眼位、人脸相对于屏幕的位置、以及角膜大小下的视线偏差,采用一个简单的两层神经网络训练一个偏差估计模型,从而能对不同姿态和距离的视线进行校准,不但可以实现更优的校准效果,同时对距离和姿态的变化具有更高的鲁棒性。
其中,校准主要目的是通过真实的视线位置和预估的视线位置的偏差值来对预估的视线位置进行调整,以让预估的视线位置更加接近真实的视线位置。从而达到更加准确的预测用户视线的目的。
参照图3,示出了本发明一实施例提供的模型训练及视线校正的操作流程图。
具体地,模型训练及视线校正的操作可以包括以下步骤:
第一步,根据预设的位置在屏幕上随机显示视线标志物。
第二步,用户根据相应的指令调整姿态和距离,同时摄像头捕获视线标志物出现期间的人像信息。
第三步,判断是否所有位置都获取完毕,如果不是则重复执行第一步,如果是,则执行第四步。
第四步,对9段人像信息进行处理,按一定频率对视频进行抽帧并剔除不符合要求的图片帧,然后对图像进行预处理操作,得到人眼和人脸信息。
第五步,提取图片信息得到每张图片的头部姿态、眼位、角膜直径和人脸在图像中的位置信息,以及与之对应的视线偏差值。
第六步,利用两层神经网络模型对提取的人像信息进行训练,学习人像信息到视线偏差值之间的映射关系。
第七步,对于新来的图片,利用训练好的偏差模型对偏差值进行预测,并对估计值进行校准。
本发明实施例还提供了一种视线偏差估算模型的训练装置,参见图4,示出了本发明一实施例提供的一种视线偏差估算模型的训练装置的结构示意图。
其中,作为示例的,所述视线偏差估算模型的训练装置可以包括:
获取视像数据模块401,用于获取用户的多个视像数据,每个所述视像数据是用户在查看动态闪烁的视标以及在调整个人姿态和查看视标距离的过程中采集的数据;
提取视线特征模块402,用于从每个所述视像数据提取视线特征数据,所述视线特征数据包括:头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
模型训练模块403,用于采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型。
可选地,所述提取视线特征模块,还用于:
按照预设的时间间隔从每个所述视像数据中抽取多张人像图像,并从所述人像图像分别分割人脸图像和人眼图像;
利用预设的人脸特征识别模型从所述人像图像分别抽取的人眼关键点信息和人脸关键点信息;
基于所述人眼关键点信息从所述多张人像图像中筛选若干张睁开眼的目标人像图像,从每张所述目标人像图像获取人脸位置坐标和人眼位置坐标;
基于所述人眼关键点信息和所述人脸关键点信息从每张所述目标人像图像提取头部姿态、眼位、角膜直径。
可选地,所述模型训练模块,还用于:
对所述视线特征数据进行标准化处理和极值剔除处理,得到处理数据;
将所述处理数据内的人脸图像、人眼图像、人脸位置坐标、人眼位置坐标输入到预设的估计模型中得到对应的视线估计值,并采用所述视线估计值与真实视线值计算视线偏差值;
以所述视线偏差值为预设的两层神经网络模型的标签,将所述处理数据输入至采用预设的两层神经网络模型进行训练,得到视线偏差估计模型。
可选地,所述获取视像数据模块,还用于:
随机将视标闪烁展示在预设屏幕的任意一个不同的网格中,以提示用户查看视标;
录制用户在查看闪烁视标并调整个人姿态距离的影像,得到视像数据,其中,每个所述视像数据对应一个网格区域。
可选地,所述个人姿态的调整包括:头部滚转角调整、头部俯仰角调整和头部偏航角调整;
所述个人姿态的角度调整幅度为-90度到+90度;
所述个人姿态的距离的调整幅度为在-20cm到+20cm之间。
可选地,所述获取视像数据模块,还用于:
统计所获取的所述多个视像数据的数量;
若所述多个视像数据的数量与预设数量不同,则确定待展示网格,并将视标展示在所述待展示网格,供用户查看,所述预设数量为显示视标的屏幕划分的网络数量。
本发明实施例还提供了一种视线偏差值的校正装置,参见图5,示出了本发明一实施例提供的一种视线偏差值的校正装置的结构示意图。
其中,作为示例的,所述视线偏差值的校正装置可以包括:
信息提取模块501,用于在获取待校正的用户图像后,从所述用户图像中提取校正特征和视线估计值,所述校正特征包括用户的头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
偏差计算模块502,用于将所述校正特征输入至根据上所述的视线偏差估算模型的训练方法训练得到的视线偏差估算模型进行偏差计算,得到校正偏差值;
视线校正模块503,用于采用所述校正偏差值对所述视线估计值校准,得到校正视线值。
所属技术领域的技术人员可以清楚地了解到,为方便的描述和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
进一步的,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例所述的视线偏差估算模型的训练方法或者如上述实施例所述的视线偏差值的校正方法。
进一步的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行如上述实施例所述的视线偏差估算模型的训练方法或者如上述实施例所述的视线偏差值的校正方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种视线偏差估算模型的训练方法,其特征在于,所述方法包括:
获取用户的多个视像数据,每个所述视像数据是用户在查看动态闪烁的视标以及在调整个人姿态和查看视标距离的过程中采集的数据;
从每个所述视像数据提取视线特征数据,所述视线特征数据包括:头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型。
2.根据权利要求1所述的视线偏差估算模型的训练方法,其特征在于,所述从每个所述视像数据提取视线特征数据,包括:
按照预设的时间间隔从每个所述视像数据中抽取多张人像图像,并从所述人像图像分别分割人脸图像和人眼图像;
利用预设的人脸特征识别模型从所述人像图像分别抽取的人眼关键点信息和人脸关键点信息;
基于所述人眼关键点信息从所述多张人像图像中筛选若干张睁开眼的目标人像图像,从每张所述目标人像图像获取人脸位置坐标和人眼位置坐标;
基于所述人眼关键点信息和所述人脸关键点信息从每张所述目标人像图像提取头部姿态、眼位、角膜直径。
3.根据权利要求1所述的视线偏差估算模型的训练方法,其特征在于,所述采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型,包括:
对所述视线特征数据进行标准化处理和极值剔除处理,得到处理数据;
将所述处理数据内的人脸图像、人眼图像、人脸位置坐标、人眼位置坐标输入到预设的估计模型中得到对应的视线估计值,并采用所述视线估计值与真实视线值计算视线偏差值;
以所述视线偏差值为预设的两层神经网络模型的标签,将所述处理数据输入至采用预设的两层神经网络模型进行训练,得到视线偏差估计模型。
4.根据权利要求1所述的视线偏差估算模型的训练方法,其特征在于,所述视像数据的获取操作,包括:
随机将视标闪烁展示在预设屏幕的任意一个不同的网格中,以提示用户查看视标;
录制用户在查看闪烁视标并调整个人姿态距离的影像,得到视像数据,其中,每个所述视像数据对应一个网格区域。
5.根据权利要求4所述的视线偏差估算模型的训练方法,其特征在于,所述个人姿态的调整包括:头部滚转角调整、头部俯仰角调整和头部偏航角调整;
所述个人姿态的角度调整幅度为-90度到+90度;
所述个人姿态的距离的调整幅度为在-20cm到+20cm之间。
6.根据权利要求4所述的视线偏差估算模型的训练方法,其特征在于,在所述录制用户在查看闪烁视标并调整个人姿态距离的影像,得到视像数据的步骤后,所述方法还包括:
统计所获取的所述多个视像数据的数量;
若所述多个视像数据的数量与预设数量不同,则确定待展示网格,并将视标展示在所述待展示网格,供用户查看,所述预设数量为显示视标的屏幕划分的网络数量。
7.一种视线偏差值的校正方法,其特征在于,所述方法包括:
在获取待校正的用户图像后,从所述用户图像中提取校正特征和视线估计值,所述校正特征包括用户的头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
将所述校正特征输入至根据如权利要求1-6任意一项所述的视线偏差估算模型的训练方法训练得到的视线偏差估算模型进行偏差计算,得到校正偏差值;
采用所述校正偏差值对所述视线估计值校准,得到校正视线值。
8.一种视线偏差估算模型的训练装置,其特征在于,所述装置包括:
获取视像数据模块,用于获取用户的多个视像数据,每个所述视像数据是用户在查看动态闪烁的视标以及在调整个人姿态距离的过程中采集的数据;
提取视线特征模块,用于从每个所述视像数据提取视线特征数据,所述视线特征数据包括:头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
模型训练模块,用于采用所述视线特征数据对预设的两层神经网络模型进行模型训练,得到视线偏差估算模型。
9.一种视线偏差值的校正装置,其特征在于,所述装置包括:
信息提取模块,用于在获取待校正的用户图像后,从所述用户图像中提取校正特征和视线估计值,所述校正特征包括用户的头部姿态、眼位、角膜直径和人脸在图像中的位置信息;
偏差计算模块,用于将所述校正参数输入至根据如权利要求1-6任意一项所述的视线偏差估算模型的训练方法训练得到的视线偏差估算模型进行偏差计算,得到校正偏差值;
视线校正模块,用于采用所述校正偏差值对所述视线估计值校准,得到校正视线值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行如权利要求1-6任意一项所述的视线偏差估算模型的训练方法或者如权利要求7所述的视线偏差的校正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311097865.XA CN117132869A (zh) | 2023-08-28 | 2023-08-28 | 视线偏差估算模型的训练、视线偏差值的校正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311097865.XA CN117132869A (zh) | 2023-08-28 | 2023-08-28 | 视线偏差估算模型的训练、视线偏差值的校正方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117132869A true CN117132869A (zh) | 2023-11-28 |
Family
ID=88852360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311097865.XA Pending CN117132869A (zh) | 2023-08-28 | 2023-08-28 | 视线偏差估算模型的训练、视线偏差值的校正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132869A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310705A (zh) * | 2020-02-28 | 2020-06-19 | 深圳壹账通智能科技有限公司 | 图像识别方法、装置、计算机设备及存储介质 |
CN114706484A (zh) * | 2022-04-18 | 2022-07-05 | Oppo广东移动通信有限公司 | 视线坐标确定方法及装置、计算机可读介质和电子设备 |
US20230025527A1 (en) * | 2021-07-26 | 2023-01-26 | Chongqing University | Quantitative analysis method and system for attention based on line-of-sight estimation neural network |
CN116052264A (zh) * | 2023-03-31 | 2023-05-02 | 广州视景医疗软件有限公司 | 一种基于非线性偏差校准的视线估计方法及装置 |
CN116453198A (zh) * | 2023-05-06 | 2023-07-18 | 广州视景医疗软件有限公司 | 一种基于头部姿态差异的视线校准方法和装置 |
-
2023
- 2023-08-28 CN CN202311097865.XA patent/CN117132869A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310705A (zh) * | 2020-02-28 | 2020-06-19 | 深圳壹账通智能科技有限公司 | 图像识别方法、装置、计算机设备及存储介质 |
US20230025527A1 (en) * | 2021-07-26 | 2023-01-26 | Chongqing University | Quantitative analysis method and system for attention based on line-of-sight estimation neural network |
CN114706484A (zh) * | 2022-04-18 | 2022-07-05 | Oppo广东移动通信有限公司 | 视线坐标确定方法及装置、计算机可读介质和电子设备 |
CN116052264A (zh) * | 2023-03-31 | 2023-05-02 | 广州视景医疗软件有限公司 | 一种基于非线性偏差校准的视线估计方法及装置 |
CN116453198A (zh) * | 2023-05-06 | 2023-07-18 | 广州视景医疗软件有限公司 | 一种基于头部姿态差异的视线校准方法和装置 |
Non-Patent Citations (1)
Title |
---|
迟健男;张闯;胡涛;颜艳桃;刘洋;: "视线追踪系统眼部特征检测及视线方向计算方法研究", 控制与决策, no. 09 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3373202B1 (en) | Verification method and system | |
US10782095B2 (en) | Automatic target point tracing method for electro-optical sighting system | |
US7925093B2 (en) | Image recognition apparatus | |
CN104680121B (zh) | 一种人脸图像的处理方法及装置 | |
CN109343700B (zh) | 眼动控制校准数据获取方法和装置 | |
US11232586B2 (en) | Line-of-sight estimation device, line-of-sight estimation method, and program recording medium | |
CN110634116B (zh) | 一种面部图像评分方法及摄像机 | |
CN105224285A (zh) | 眼睛开闭状态检测装置和方法 | |
CN108596087B (zh) | 一种基于双网络结果的驾驶疲劳程度检测回归模型 | |
KR101288447B1 (ko) | 시선 추적 장치와 이를 이용하는 디스플레이 장치 및 그 방법 | |
WO2020042541A1 (zh) | 眼球追踪交互方法和装置 | |
CN109725721B (zh) | 用于裸眼3d显示系统的人眼定位方法及系统 | |
CN109117753A (zh) | 部位识别方法、装置、终端及存储介质 | |
CN104091173B (zh) | 一种基于网络摄像机的性别识别方法及装置 | |
CN109274883A (zh) | 姿态矫正方法、装置、终端及存储介质 | |
CN112200138B (zh) | 基于计算机视觉的课堂学情分析方法 | |
CN109711239B (zh) | 基于改进混合增量动态贝叶斯网络的视觉注意力检测方法 | |
CN112464793A (zh) | 一种在线考试作弊行为检测方法、系统和存储介质 | |
CN112801859A (zh) | 一种具有美妆指导功能的化妆镜系统 | |
CN117132869A (zh) | 视线偏差估算模型的训练、视线偏差值的校正方法及装置 | |
CN116386118A (zh) | 一种基于人像识别的粤剧匹配化妆系统及其方法 | |
CN111432131B (zh) | 一种拍照框选的方法、装置、电子设备及存储介质 | |
CN114639168A (zh) | 一种用于跑步姿态识别的方法和系统 | |
CN113920563A (zh) | 在线考试作弊识别方法、装置、计算机设备和存储介质 | |
JP2001052176A (ja) | 画像の特徴点の抽出方法、およびコンピュータに当該画像の特徴点の抽出方法を実行させるためのプログラム記録した、コンピュータ読取可能な記録媒体ならびに画像特徴点抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |