CN118097631A - 视线追踪系统及配置方法 - Google Patents
视线追踪系统及配置方法 Download PDFInfo
- Publication number
- CN118097631A CN118097631A CN202410219432.5A CN202410219432A CN118097631A CN 118097631 A CN118097631 A CN 118097631A CN 202410219432 A CN202410219432 A CN 202410219432A CN 118097631 A CN118097631 A CN 118097631A
- Authority
- CN
- China
- Prior art keywords
- sight
- loss value
- super
- model
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000003287 optical effect Effects 0.000 claims abstract description 23
- 230000005684 electric field Effects 0.000 claims description 69
- 238000009826 distribution Methods 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 17
- 230000010287 polarization Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 7
- 239000000758 substrate Substances 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 210000001747 pupil Anatomy 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000000576 coating method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000004313 glare Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004379 myopia Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Eye Examination Apparatus (AREA)
Abstract
本发明公开了一种视线追踪系统及配置方法,所述配置方法包括:获取样本数据集,所述样本数据集中的每个样本数据包括视线追踪图像信息和真实视线角度信息;获取所述视线追踪图像信息经所述超表面元件处理后的信号数据;基于所述信号数据,得到预测视线角度;基于所述预测视线角度信息和所述真实视线角度信息,得到第一损失值;基于所述第一损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。该方法可以在实现视线追踪的同时降低或消除光学器件的反光现象,提高识别精度和光学性能。
Description
技术领域
本发明涉及光学设计技术领域,尤其涉及一种视线追踪系统及配置方法。
背景技术
视线追踪技术是智能驾驶舱中用于监测驾驶员行为的关键技术之一,可以有效检测驾驶员是否分心驾驶或疲劳驾驶。然而,目前市场上的驾驶员检测系统大多针对正常视力人群,对于存在近视现象的驾驶员,由于眼镜反光等问题,很容易产生检测不准确的问题。
为了降低眼镜反光对视线追踪的影响,现有的技术方案主要依赖于层叠的透镜系统或涂层处理来减少设备反光或眩光问题。但是这些方法不仅增加了设备的厚度和重量,还可能降低光学性能,导致识别精度降低。
发明内容
本发明的目的之一在于提供一种视线追踪系统配置方法,以解决现有技术中无法在实现视线追踪的同时保证光学器件不反光的技术问题。
本发明的目的之一在于提供一种视线追踪系统。
本发明的目的之一在于提供一种计算机设备。
本发明的目的之一在于提供一种计算机存储介质。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供了一种视线追踪系统配置方法,视线追踪系统包括超表面元件和视线追踪模型;
所述配置方法包括:
获取样本数据集,所述样本数据集中的每个样本数据包括视线追踪图像信息和真实视线角度信息,其中,所述真实视线角度信息用于指示目标对象基于所述视线追踪图像信息对应的视线角度信息;
获取所述视线追踪图像信息经所述超表面元件处理后的信号数据;
基于所述信号数据,所述视线追踪系统预测得到所述视线追踪图像信息的预测视线角度;
基于所述预测视线角度信息和所述真实视线角度信息,得到第一损失值;
基于所述第一损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
进一步地,所述基于所述预测视线角度信息和所述真实视线角度信息,得到第一损失值,包括:
根据所述真实视线角度信息所述预测视线角度信息的均方根误差,确定所述第一损失值。
进一步地,所述样本数据集中的每个样本数据还包括所述目标对象的模拟电场分布,所述方法还包括:
基于所述信号数据,所述视线追踪系统预测得到所述视线追踪图像信息的预测电场分布;
基于所述模拟电场分布和所述预测电场分布,得到第二损失值。
进一步地,所述基于所述第一损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数,包括:
基于所述第一损失值和所述第二损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
进一步地,所述基于所述预测电场分布和所述模拟电场分布,得到第二损失值,包括:
根据所述模拟电场分布和所述预测电场分布的一阶矩阵范数误差,确定所述第二损失值。
进一步地,所述基于所述第一损失值和所述第二损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数,包括:
基于所述第一损失值和所述第二损失值,确定综合损失值;
基于所述综合损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
进一步地,所述基于所述第一损失值和所述第二损失值,确定综合损失值,包括:
将所述第一损失值和所述第二损失值分别与预设的第一损失权重参数和第二损失权重参数加权后求和,确定所述综合损失值,其中,所述第一损失权重参数和所述第二损失权重参数的和为1,所述第一损失权重参数小于所述第二损失权重参数。
进一步地,所述方法还包括:
更新所述第一损失权重参数和所述第二损失权重参数,使所述第一损失权重参数增大以及使所述第二损失权重参数减小,且所述第一损失权重参数和所述第二损失权重参数的和为1。
进一步地,基于所述超表面元件的训练好的微结构配置参数,确定所述超表面元件上微结构单元的排布方式。
第二方面,本发明实施例提供了一种视线追踪系统,包括:
超表面元件,所述超表面元件根据上述任一项所述视线追踪系统配置方法确定的训练好的微结构配置参数进行配置,用于对包含目标对象的视线角度信息的光信号进行处理以得到信号数据;
视线追踪模型,所述视线追踪模型采用上述任一项所述基于超表面视线追踪系统配置方法确定的训练好的模型参数,用于根据所述信号数据预测所述目标对象的视线角度。
第三方面,本发明实施例提供了一种计算机设备,包括:
至少一个处理器;
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行上述任意一项所述的视线追踪系统配置方法的步骤。
第四方面,本发明实施例提供了一种计算机存储介质,包括:
至少一个处理器;
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行上述任意一项所述的视线追踪系统配置方法的步骤。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
本发明采用一种视线追踪系统配置方法,通过超表面元件对偏振特性的精准调节和视线追踪模型的高效预测能力的协同作用,能够有效地处理光线偏振情况,显著降低或消除光学器件的反光现象,实现精准的视线追踪,提升识别精度和整体光学性能;避免引入额外的诸如层叠透镜、涂层等其他部件,实现成本的降低。
附图说明
图1为本发明一实施例提供的一种基于超表面视线追踪系统的结构示意图。
图2是本发明一实施例提供的一种视线追踪系统配置方法的步骤示意图。
图3是本发明一实施例提供的视线追踪系统配置方法的第二损失值细化步骤示意图。
图4是本发明第二实施例提供的一种视线追踪系统配置方法的步骤示意图。
图5是本发明一实施例提供的视线追踪系统配置方法的原理框图。
图6是本发明一实施例提供的视线追踪系统配置方法的流程示意图。
图7为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
传统的光学介质透镜的设计常常是固定和受限的,难以满足不同应用场景下的需求,因此在进行视线追踪的过程中容易受到光线角度的变化出现反光或眩光的现象。而超表面因其自身结构的高度可调性和可重构性使其在制造过程中具有很大的自由度。因此,利用超表面完成视线追踪具有重要的现实意义。
本发明图1为本发明实施例提供的一种视线追踪系统的结构示意图。
如图1所示,视线追踪系统100可以包括超表面元件110和视线追踪模型120,所述超表面元件110可以用于接收入射光并调整入射光,所述视线追踪模型120可以用于根据超表面元件110处理后的信号数据,进行模型训练确定视线数据。
在本发明实施例中,超表面元件110是具有特殊光学特性的表面结构,可以通过调控光的传播行为实现多种功能和应用。在一种实施例中,超表面元件110可以具体配置在具有光电转换功能的传感器上。具体地,可以在传感器基底上形成超表面的基元(或微结构单元),制备形成超表面元件110。如此,将该具有超表面特性的传感器界定为所述超表面元件110。
一种示例性实施例中,所述传感器可以具体配置为互补金属氧化物半导体CMOS(Complementary Metal-Oxide-Semiconductor)型的感光元件;另一种示例性实施例中,传感器还可以具体配置为电耦合器CCD(Charge-Coupled Device)型的感光元件,本申请对此不做具体限定。总之,超表面元件110应当界定为具有由微结构单元形成的超表面的任何元器件。
本发明另一种实施例中,超表面元件110还可以是不具备光电转换功能的、诸如透镜等光导向元件。在该实施例中,可以在超表面元件110的出光侧独立设置图像传感器(比如CMOS),以将来自超表面元件110的出射光(即光信号数据)转换为电信号数据,以供神经网络模型处理。
需说明地,超表面元件110在接收到入射光之后,通过调整偏振特性,以排除超表面元件110输出的反光部分,生成对应于该反光部分正常成像下的信号数据。视线追踪模型120用于根据超表面元件110处理后的信号数据来预测目标对象的视线角度信息,进而反向验证超表面元件110在调整偏振特性后的输出是否降低或消除了反光部分。因此,无论是在模型的训练过程中,还是完成训练后的使用过程中,超表面元件110和视线追踪模型120两者均需相互配合来实现视线追踪防反光的效果。
具体而言,超表面元件110包括基底和设置于基底上的多个基元(或微结构单元),基元可以具有比入射光的波长小的形状尺寸。当超表面元件110接收入射光时,通过调整超表面元件110上基元的几何结构和材料性质(比如改变超表面元件上基元的几何形状、尺寸、数量等配置),可以实现对反射光偏振特性的控制,通过调整反射光的偏振特性,再配合视线追踪模型120,可以减少超表面元件(或光学器件)反光和眩光现象,提高光学系统成像质量。
此外,配合使用视线追踪模型120强大的学习和优化能力,通过训练视线追踪模型120,可以预测视线角度误差来调偏振特性;同时还可以学习不同的入射光条件、偏振特性和视线角度之间的复杂关系,自动地学习影响反光效果的关键因素,并找到最优的微结构配置参数。一旦训练完成,视线追踪模型120可以根据当前入射光和偏振特性,预测视线角度误差,大大减少人工干预和经验依赖,提高视线追踪的稳定性和准确性。
可理解地,基元可以设置于基底靠近物方200的一侧,也可设置于基底远离物方200的一侧。超表面元件110上的多个基元可根据视线追踪模型收敛时对应的最优微结构配置参数确定并排布。
视线追踪系统100可以仅包括一个超表面元件110,也可以包括层叠设置的多个超表面元件110。当视线追踪系统100包括层叠设置的多个超表面元件110时,每个超表面元件110的设置于基底上的多个基元可以设置在同一侧,或者,也可以设置在不同侧。
基元(或微结构单元)是可以具有宽度和厚度的三维结构,例如长方体形状、直六面体形状、圆柱形状或圆盘形状,本发明对此不做限定。
优选地,视线追踪模型120可以为卷积神经网络(Convolutional NeuralNetwork,CNN),所述卷积神经网络模型是一种深度学习模型,可用于处理具有网格结构数据(比如图像和视频)的前馈神经网络,在本发明一示例性实施例中,可用于视线追踪,通过训练卷积神经网络模型,使其能够从面部图像中提取特征,预测电场的变化情况和视线轨迹的变化情况。
继续参照图1所示,在一个具体示例中,所述视线追踪系统100的工作过程如下:
根据物方200和超表面元件110之间的相对位置关系,可以确定超表面元件110接收到的入射光条件并对其进行偏振特性的调控;同时将超表面元件110处理后的光信号数据转换成电信号数据,再将电信号数据输入至视线追踪模型120中进行进一步处理和分析。视线追踪模型120通过不断的训练和学习,能够识别和理解信号数据中的视线特性,并根据这些视线特征进行视线角度预测;或,可以同时识别和理解信号数据中的电场特性和视线特性,并根据这些电场特性和视线特性分别进行电场分布预测和视线角度预测。通过多次迭代训练直至视线追踪模型收敛,得到超表面元件训练好的微结构配置参数和训练好的网络模型参数。
可理解地,视线追踪模型120可以是单一神经网络模型,也可以是多模型融合而成的综合神经网络模型。需说明的是,本发明主要是通过训练得到视线追踪模型,对视线追踪模型的类型不做具体限制,可根据实际应用场景灵活选择。
下面将继续说明本发明提供的视线追踪系统配置方法,具体步骤如图2所示。所述视线追踪系统配置方法可以独立实施,也可以搭载于上述视线追踪系统而实施。对于后者,根据系统的各个组成部分及其相互关系,确定一组最优的配置参数,以实现视线追踪的同时保证光学器件不反光。
如图2所示,本发明提供的视线追踪系统配置方法,具体可以包括如下步骤:
步骤S1,获取样本数据集,所述样本数据集中的每个样本数据包括视线追踪图像信息和真实视线角度信息,其中,所述真实视线角度信息用于指示目标对象基于所述视线追踪图像信息对应的视线角度信息;
步骤S2,获取所述视线追踪图像信息经所述超表面元件处理后的信号数据;
步骤S3,基于所述信号数据,所述视线追踪系统预测得到所述视线追踪图像信息的预测视线角度;
步骤S4,基于所述预测视线角度信息和所述真实视线角度信息,得到第一损失值;
步骤S5,基于所述第一损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
如此,通过超表面元件对偏振特性的精准调节和视线追踪模型的高效预测能力的协同作用,能够有效地处理光线偏振情况,显著降低或消除光学器件的反光现象,实现精准的视线追踪,提升识别精度和整体光学性能;而且还可以减少诸如层叠透镜、涂层等其他部件的引入,降低成本。
其中,步骤S1中所述样本数据集可以是在后续构建和训练搭载于超表面元件的视线追踪模型时,需要使用的一组面部图像训练数据集,该组数据集可以包含多个用于超表面元件接收的样本数据(比如,人体面部图像文件)及其相关属性,可用于训练视线追踪模型以识别和追踪视线方向。
优选地,所述样本数据为带标签的数据集。换言之,数据集中的每个样本数据都与对应的真实视线角度信息相关联,其中,真实视线角度信息可以通过实际测量所得,也可以通过计算所得,不作具体限制。通过标签,视线追踪模型可以学习到输入数据(样本数据)与输出数据(真实视线角度信息)之间的映射关系,这种带标签的数据集允许使用监督学习的方法,根据输入和输出数据之间的对应关系完成模型的训练。如此,模型训练效率高。
需说明地,每个样本数据对应的标签内容可以包括:面部图像文件路径和名称、视点坐标、视线方向、瞳孔位置、头部姿态,相机内外参数等。当原始数据完成采集后,对其进行图像数据预处理,具体包括对图像数据进行转置和类型转换,将姿势数据和视线数据从标签中分离出来。亦即,为每个样本数据创建包括面部图像、姿势数据和视线数据在内的标签。如此,便于后续目标数据的处理和计算,降低计算量,提高工作效率。
在本发明的一示例性实施例中,样本数据对应的标签内容可以以文本形式保存在对应的文件中,类似定义为“data_gaze/day01/0005.jpg 476 758 594 366 637 365 719366 762 368 626 495 726 496 0.232179 0.055685 0.018205 28.351504 1.174807529.783734 27.792112 23.422692 524.537075 11.040978166.869249 -27.728178”。
其中,维度1为面部图像文件路径(即,“data_gaze/day01/”)和名称(即,“0005.jpg”)。
维度2-3为瞳孔定位在成像屏幕上的坐标(以像素为单位),维度2-3对应的是瞳孔的横、纵坐标(476,758)。
维度4-15为面部6个标记点的位置坐标,具体包括四个眼角的位置坐标,分别为(594,366)、(637,365)、(719,366)和(762,368)以及两个嘴角的位置坐标,分别为(626,495)和(726,496)。
维度16-21是基于所述面部6个标记点的3D头部姿态,可以采用3D面部模型进行预估得到所述3D头部姿态,包括二个位置坐标,分别为(0.232179,0.055685,0.018205)和(28.351504,1.174807,529.783734)。
维度22-24为面部中心在摄像机坐标系统中的平均3D位置,对应的位置坐标为(27.792112,23.422692,524.537075)。
维度25-27为注视的目标位置在摄像机坐标系统中的位置,对应的位置坐标为(11.040978,166.869249,-27.728178)。
上述标签字段提供了观察者或目标对象的姿态和位置信息。比如瞳孔的位置坐标可以反映观察者的视线方向,面部标记的位置坐标可以提供面部朝向的信息,而3D头部姿态可以提供头部运动和朝向的详细信息。
在本发明的一示例性实施例中,可以通过上述标签字段确定真实视线角度信息。具体地,在获得某一视线追踪图像(比如“0005.jpg”)的上述相关信息后,将视点坐标、视线方向、瞳孔位置和相机内外参数转化为矩阵形式,进行矩阵运算后,再投影到三维坐标系,确定对应于所述视线追踪图像的真实视线角度信息。当然,本发明并不局限于上述计算方式,其它方法(比如直接测量)如果能实现该目的的方法均在本发明的保护范围内。
需说明地,在上述步骤S2中,所述信号数据具体可以指经超表面元件调制后得到的光信号数据再进一步经CMOS处理后得到的电信号数据。
在上述步骤S4中,在将视线追踪图像信息转换为电信号数据后,进一步利用视线追踪模型对电信号数据进行训练,并对视线追踪图像信息进行视线角度预测,得到第一损失值。
具体地,根据所述真实视线角度信息所述预测视线角度信息的均方根误差,确定所述第一损失值。
如此,能够直观地反映真实视线角度信息与预测视线角度信息之间的平均差异,有助于快速理解预测的准确性。
在一个示例性实施例中,为了便于计算,所述真实视线角度信息可以形成为真实视线角度矩阵;所述预测视线角度信息可以形成为预测视线角度矩阵,通过计算矩阵之间的均方根误差,得到所述第一损失值。其中,所述均方根误差是一种用户评估模型预测质量的指标。它可反映预测值与真实值偏离的程度。如果所述第一损失值越小,说明预测值和真实值越接近,模型预测的效果就越好、精度越高。此外,把预测值和真实值之间的误差进行平方处理,这使得误差较大的样本能够得到较高的权重,便于发现误差较大的参数,提高模型模拟计算过程种的敏感度。当然,本发明并不排除其它计算方法计算所述第一损失值。
在本发明的另一实施例中,所述样本数据集中的每个样本数据除了包括真实视线角度信息外,还可以包括所述目标对象的模拟电场分布。其中,所述模拟电场分布是对应于样本数据的实际电场分布,可以采用光学仿真软件模拟得到(可参照下文的时域有限差分法),还可以通过采用超表面元件对样本数据进行实际测量得到,在此不作具体限制。
基于此,在对样本数据集进行处理后,不仅可以得到视线追踪图像信息和真实视线角度信息,还可以得到所述视线追踪图像信息的模拟电场分布。在利用样本数据对视觉追踪模型进行训练过程中,先将样本数据对应的视线追踪图像信息、真实视线角度信息和模拟电场分布作为超表面元件的输入,将样本数据经超表面元件处理后的超表面数据(比如,电场信号数据),再次输入至视线追踪模型进行训练,得到视线角度预测结果和电场分布预测结果。在此过程中,存在两方面的损失值:第一损失值(视线角度损失值)和第二损失值(电场损失值)。
其中,第一损失值更多关注的是模型预测的准确性能力,而第二损失值更多关注的是超表面元件对光样本数据的处理效果,具体可以从以下两个方面具体描述。
一方面,所述损失值可以包括第一损失值(视线角度损失值),具体内容可参照前文所述,在此不作赘述。
另一方面,如图3所示,当所述损失值还包括第二损失值(电场损失值)时,利用视线追踪模型对电场分布的预测,得到所述第二损失值,具体包括:
步骤S31’,基于所述信号数据,所述视线追踪系统预测得到所述视线追踪图像信息的预测电场分布;
步骤S32’,基于所述模拟电场分布和所述预测电场分布,得到第二损失值。
如此,有助于评估超表面元件的性能,为后续配置参数的调整和优化提供可靠依据,提高参数调整的准确性。
在本发明的一种示例性实施例中,所述模拟电场分布可以通过仿真模拟的方法得到,可具体包括如下步骤:
步骤S311’,根据超表面元件的初始化配置参数,构建格点化麦克斯韦方程;
步骤S312’,采用时域有限差分法对所述格点化麦克斯韦方程进行求解,确定所述模拟电场分布。
如此,通过模拟仿真来验证和优化超表面元件的结构设计可以节省大量的实验时间和成本。
其中,所述初始化配置参数可以通过指定超表面元件参数的初始值,也可以利用随机初始化方法产生初始配置参数(比如,采用高斯分布方法),具体可根据实际应用场景自由选择上述两种初始方法,不作具体限制。当然,本发明也并不排斥其它初始化配置参数的方法。
此外,所述麦克斯韦方程揭示了电磁波的传播特性,并将电场、磁场和电荷、电流等物理量联系起来。在本发明中,使用麦克斯韦方程可以描述电磁波在介质中的传播行为,而超表面元件是一种对电磁波具有调控作用的表面结构,因此将包含超表面元件几何结构和材料等相关的参数代入麦克斯韦方程,可以很好地模拟电磁波经超表面元件时的传播和散射行为,从而可以合理地预测超表面元件的配置,自适应性较强。
步骤S312’中的时域有限差分法,又叫FDTD(Finite Difference Time DomainMethod)方法,它是一种数值解析的方法。它主要通过离散化空间区域,亦即将连续的空间分成一个个小的网格单元,每个网格单元称为一个网格点;再通过离散化时间区域,在每个时间段内计算每个网格点上的电场的值,通过迭代更新每个网格点上的电场,来模拟入射光在整个空间中的传播过程。在本发明实施例中,采用该方法可模拟出超表面元件的光传播和分布,有助于快速确定其电场分布。
在本发明的一示例性实施例中,步骤S32’还可具体包括如下步骤:
步骤S32”,根据所述模拟电场分布与所述预测电场分布的一阶矩阵范数误差,确定所述第二损失值。
如此,通过比较模拟电场分布与预测电场分布的一阶矩阵范数误差,可以量化它们之间的偏差或误差,从而确定电场损失值,计算方法简单有效,计算速度快、适用范围广泛(可适用多种介质,无论是均匀介质还是复杂结构的介质)。
为了便于计算,所述模拟电场分布可以形成为模拟电场分布矩阵,所述预测电场分布可以形成为预测电场分布矩阵;通过计算矩阵之间的差值,确定第二损失值。
需说明地,在确定第一损失值或第一损失值和第二损失值之后,需进入迭代训练和参数调整阶段。在本发明实施例中,该阶段的目标是不断优化超表面元件的结构参数和视线追踪模型的模型参数,以最小化第一损失值或第一损失值和第二损失值的组合,实现视线追踪的同时保证超表面元件的光学器件不反光。
具体而言,在本申请的第一实施例中,通过调整超表面元件的微结构配置参数或通过调整超表面元件的微结构配置参数和所述视线追踪模型的模型参数,使得第一损失值小于预设损失阈值。
在本申请的第二实施例中,通过调整超表面元件的微结构配置参数或通过调整超表面元件的配置和视线追踪模型的网络配置,使得所述第一损失值(视线角度损失值)和所述第二损失值(电场损失值)的组合小于预设损失阈值。
在第二实施例中,如图4所示,所述视线追踪系统配置方法可具体包括:
步骤S1’,获取样本数据集,所述样本数据集中的每个样本数据包括视线追踪图像信息、真实视线角度信息和模拟电场分布,其中,所述真实视线角度信息用于指示目标对象基于所述视线追踪图像信息对应的视线角度信息;
步骤S2’,获取所述视线追踪图像信息经所述超表面元件处理后的信号数据;
步骤S3’,基于所述信号数据,所述视线追踪系统预测得到所述视线追踪图像信息的预测视线角度和预测电场分布;
步骤S41’,基于所述预测视线角度信息和所述真实视线角度信息,得到第一损失值;
步骤S42’,基于所述模拟电场分布和所述预测电场分布,得到第二损失值;
步骤S43’,基于所述第一损失值和所述第二损失值,确定综合损失值;
步骤S5’,基于所述综合损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
如此,通过考虑综合损失值,有助于进一步提升模型的预测能力,灵活性强、预测准确性高。
在上述步骤S43’中,将所述第一损失值和所述第二损失值分别与预设的第一损失权重参数和第二损失权重参数加权后求和,确定所述综合损失值,其中,所述第一损失权重参数和所述第二损失权重参数的和为1,所述第一损失权重参数小于所述第二损失权重参数。
如此,通过引入用于表征电场分布损失的第二损失值,使得模型能够考虑超表面元件调整偏振特性后的电场分布情况,有助于减少或消除反光引起的干扰,提高视线追踪的准确性和可靠性。此外,合理的权重分布还可以加快模型的收敛速度。
进一步地,在所述视线追踪模型收敛之前,在每次更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数之后,更新所述第一损失权重参数和所述第二损失权重参数,使所述第一损失权重参数增大以及使所述第二损失权重参数减小,且所述第一损失权重参数和所述第二损失权重参数的和为1。
如此,在视线追踪模型训练过程中,通过更过关注视线角度的损失,有助于提高视线追踪的准确性。
在一种示例性实施例中,在上述步骤S5或步骤S5’的更新参数操作过程中,均可以采用反向传播计算得到超表面元件的微结构配置参数的梯度向量和模型参数的梯度向量;其中,所述梯度向量表征所述视觉追踪模型的训练参数相对于损失值的变化情况;
根据所述梯度向量执行梯度优化,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数与所述视觉追踪模型的模型参数,在更新参数之后,根据第一损失值和第二损失值的变化情况动态调整第一损失权重参数和第二损失权重参数,如果视线角度损失的改善速度较慢,可以增加第一损失权重参数,使模型更加关注视线角度的优化;其中,所述执行梯度优化的方式包括随机梯度下降和Adam算法至少其中之一;
迭代执行反向传播和梯度优化,直至所述第一损失值或所述综合损失值小于预设损失阈值,得到超表面元件训练好的微结构配置参数和训练好的模型参数。
如此,通过同时调整超表面元件的微结构配置参数和视线追踪模型参数,在优化超表面元件的同时,还能更新模型参数进一步提升模型的预测能力,灵活性强、预测准确性高。
在一个示例性实施例中,视线追踪模型可以为一个包含多层并具有独立模型参数的卷积神经网络(Convolutional Neural Networks,,CNN),用于处理和分析从超表面元件得到的电场样本数据。所述视线追踪模型的具体结构包括如下模块:
标准的ResNet(Residual Network,残差网络)模块:
ResNet是一种深度神经网络,通过引入“残差”或“跳跃”连接,解决神经网络训练时的梯度消失和梯度爆炸问题,使得网络能够学习并优化更深的层次,更容易训练。该模块由多个残差单元组成,每个残差单元包含卷积层、批归一化和ReLU激活函数。
卷积层,是ResNet的基本组成部分,在每个残差单元中,通过若干卷积层对输入数据进行卷积操作,提取图像中的局部特征。所述卷积操作可以有效减少计算量。
批归一化层,是一种加速神经网络模型训练的方法,在每个残差单元中,批归一化层对卷积层的输出进行归一化处理,使得同一批次的输入数据具有相同的均值和方差,有助于加速训练过程,并提高模型的稳定性和泛化能力。
ReLU激活函数,在每个残差单元中,ReLU激活函数对批归一化的输出进行非线性变化,得到模型能够更好学习和表示复杂的特征。
注意力机制模块:
使用SE(Squeeze-and-Excitation,挤压-激励)块,通过对每个通道中的特征图进行权重调整,增强对重要特征图的关注度。在每个残差单元后或者在残差单元中采用Squeeze(挤压)操作、激励(Excitation)操作和重校特征图等操作。
Squeeze(挤压)操作,又称全局平均池化操作,将每个通道的特征图压缩成为一个单一的数值,形成一个通道描述符。可以理解为对每个通道进行特征提取,得到该通道的重要性系数;
激励(Excitation)操作,根据Squeeze(挤压)操作得到的通道重要性系数,对每个通道的特征图进行加权,即通过两个全连接层(一个压缩层和一个激励层)对所述重要性系数进行学习,得到通道权重参数;
重校特征图,使用所述通道权重参数乘以特征图,进行自适应调整。换言之,将所述通道权重参数应用到原始的特征图上。
融合和传递模块:
将注意力机制模块调整后的特征图通过ResNet的残差连接与原始输入相加,然后传递给下一层进行处理。这种残差连接有助于优化网络的训练过程,更好地学习和适应各种输入和任务。
通过采用上述CNN结构,可以有效地从输入图像中提取特征,并进行各种计算机视觉任务,比如视线追踪。经过多个ResNet模块和SE模块的堆叠和传递,最终得到网络模型的预测结果。
在本发明实施例中,利用train函数训练神经网络,train函数初始化了损失和角度误差的历史记录列表,设置了训练的总轮数、最佳网络权重的字典以及最低角度误差记录。此外,使用一阶矩阵范数误差和均方根角度误差作为损失准则,采用Adam优化器来调整学习率为0.001的网络参数。
在训练神经网络的过程中,神经网络在每个epoch均被设置为训练模式,并在数据加载器train_loader提供的训练数据上执行正向传播、损失计算、反向传播和权重更新。之后,网络切换到评估模式来计算当前角度误差,并将其添加到历史记录中。如果当前角度误差超过之前的最小角度误差,则会更新最小角度误差和最佳网络权重,每个epoch结束时,会打印出当前epoch的平均损失、最近的损失值和当前角度误差。训练完成后,会加载具有最佳角度误差的权重,返回训练后的网络以及损失的历史记录,并记录最终的超表面元件结构参数和神经网络参数。
本发明提供的上述多种实施例或具体示例之间可以相互进行组合,从而最终形成多个更优的实施例。
举例而言,在本发明的一具体示例中,采用“样本数据集->超表面元件->视线追踪模型”的处理过程。具体地,样本数据集中的视线追踪图像信息经超表面元件处理,转为超表面图像数据(或Meta图像数据);接着再将所述超表面图像数据送入到视线追踪模型中进行视线角度预测和电场分布预测,输出预测视线角度信息和预测电场分布,确定真实视线角度信息和预设视线角度信息之间的第一损失值(视线角度损失值),以及确定模拟电场分布和预测电场分布之间的第二损失值(电场损失值),即分别对应于下述公式(1)的第二部分和第一部分。整个训练过程中,综合损失值通过采用下述公式(1)计算可得,更新超表面元件的微结构配置参数和视线追踪模型的模型参数,形成一个统一的优化模型。
其中,N是样本的数量,gti是针对第i样本数据的真实视线角度信息(目标输出值),predi为对应样本数据的模型预测视线角度信息,计算真实视线角度信息和预测视线角度信息之间的均方根误差,据此确定视线角度的损失值,即第一损失值为
此外,EFDTD为对应样本数据的模拟电场分布,ENN为对应样本数据的预测电场分布,计算模拟电场分布和预测电场分布差值的一阶矩阵范数误差,据此确定电场损失值,即第二损失值为||EFDTD-ENN||1,其中,α和β是两个损失值在总损失值中所占的权重参数,α对应于所述第二损失权重参数,β对应于所述第一损失权重参数,可根据训练过程进行自适应调整。
图5示出本发明一示例性实施例下,视线追踪系统配置方法的原理框图,图6对应示出了在执行该较优实施方式时,视线追踪系统配置方法涉及的流程转化过程。下面将结合图5和图6,概括该较优实施例的处理过程。
首先,在智舱环境下收集驾驶员视线追踪原始数据集,对收集到的原始数据集进行预处理(比如,数据转置和类型转换)并进行数据标注,建立面部图像训练数据集。
其次,基于超表面构建神经网络模型(比如,视线追踪模型),并根据超表面元件的初始参数,将超表面元件和神经网络联立,形成一个系统(比如视线追踪系统),用于在控制和调整驾驶员视线方向的同时,保证光学器件不反光。
最后,将需要被优化的超表面元件配置参数记为x,将需要被训练优化的模型参数记为y,定义损失函数F(x,y)。通过迭代训练,不断优化超表面元件的结构配置和视线追踪神经网络,使得损失函数F(x,y)(包括视线追踪系统的输出与实际驾驶员的视线追踪行为之间的误差)最小化,得到最终损失值。
在每次迭代过程中,根据网络模型的输出调整超表面元件的微结构配置参数,并重新计算损失值(角度误差),直到达到预设的误差阈值或迭代次数。提取训练好的超表面配置参数和训练好的模型配置参数,并根据训练好的微结构配置参数配置超表面元件和训练好的模型参数配置视线追踪模型,搭建视线追踪系统。
在实际应用过程中,可使用上述视线追踪系统配置方法,得到训练好的微结构配置参数,以完成超表面元件或超表面有关光学器件的配置,基于此,所述方法还包括:
基于所述超表面元件的训练好的微结构配置参数,确定所述超表面上微结构单元的排布方式。
如此,根据训练好的微结构配置参数配置超表面元件,可避免重复劳动、提高生成效率,减少不必要的试错成本,节省时间,大大提高工作效率。
在本发明实施例中,在使用训练好的微结构配置参数确定最优基元(微结构单元)之后,进一步基于每个微结构单元排布得到一微结构单元阵列。最后,基于该微结构单元阵列进行周期性排布,确定整个超表面元件上微结构单元的排布方式。
在本发明的一示例性实施例中,在使用训练好的微结构配置参数排布完成的超表面元件上,搭载使用训练好的模型参数的视线追踪模型,形成视线追踪系统。所述视线追踪系统的具体结构配置可参见前文视线追踪系统及其配置方法描述的技术方案,在此不作赘述。
进一步地,为了实现本发明实施例的方法,本发明实施例还提供一种计算机设备,该计算机设备可以是终端设备或服务器。图7仅仅示出了该计算机设备的示例性结构而非全部结构,根据需要可以实施图7示出的部分结构或全部结构。
如图7所示,本发明实施例提供的计算机设备1000包括:至少一个处理器1001;存储器1002、用户接口1003和至少一个网络接口1004。电子设备1000中的各个组件通过总线系统1005耦合在一起。可以理解,总线系统1005用于实现这些组件之间的连接通信。总线系统1005除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统1005。
其中,用户接口1003可以包括显示器、键盘、鼠标、轨迹球、按钮、触摸板或触摸屏等。
本发明实施例中的存储器1002用于存储各种类型的数据以支持计算机设备的操作。这些数据的示例包括:用于在计算机设备上操作的任何计算机程序。
本发明实施例公开的视线追踪系统的配置方法可以应用于处理器1001中,或者由处理器1001实现,处理器1001可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,视线追踪系统的配置方法的各步骤可以通过处理器1001中的硬件集成逻辑电路或软件形式的指令完成。处理器1001可以实现或执行本发明实施例中的公开各方法、步骤及逻辑框图。
在示例性实施例中,计算机设备可以被一个或多个应用专用集成电路、可编程逻辑器件、通用处理器、控制器、微控制器、微处理器、或者其他电子元件实现,用于执行前述方法。
可理解地,存储器1002可以是易失性存储器(比如,随机存取存储器RAM)或非易失性存储器(比如,只读存储器ROM),也可包括易失性和非易失性存储器两者。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
需指出的是,本发明实施例还提供了一种计算机存储介质,且计算机可读存储介质中存储有前文提及的配置方法所执行的计算机程序,当处理器执行计算机程序时,能够执行前文图1或图6所对应实施例中对数据配置方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
需要说明的是:本发明实施例还提供了一种计算机程序产品,该计算机程序产品可以包括计算机程序,该计算机程序可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器可以执行该计算机程序,使得该计算机设备执行前文图1或图6所对应实施例中对数据配置方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机程序产品实施例中未披露的技术细节,请参照本发明方法实施例的描述。
综上所述,本发明提供一种视线追踪系统配置方法,通过多次迭代训练,全面考虑光样本数据经超表面元件处理后的电场损失值以及经视线追踪模型训练预测后的视线角度损失值,可以在两个层面上不断优化视线追踪系统,直至所述视线追踪模型收敛,得到所述超表面元件的最优微结构配置参数和视线追踪模型的最优网络配置参数。
该方法通过联合超表面元件对偏振特性的调节能力和视线追踪模型的预测能力,即,采用超表面元件和深度学习的端到端联合设计,不仅可以在实现视线追踪的同时更好的通过超表面元件处理光线偏振情况,降低或消除光学器件的反光现象,提高视线追踪的精度和光学性能;而且还可以减少外部设备的引入,降低成本。此外,同时考虑两种损失可以增强系统的鲁棒性,避免可能会忽略的某些重要信息或对某些异常数据敏感的信息,增强系统的稳定性。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (12)
1.一种视线追踪系统的配置方法,其特征在于,视线追踪系统包括超表面元件和视线追踪模型;
所述配置方法包括:
获取样本数据集,所述样本数据集中的每个样本数据包括视线追踪图像信息和真实视线角度信息,其中,所述真实视线角度信息用于指示目标对象基于所述视线追踪图像信息对应的视线角度信息;
获取所述视线追踪图像信息经所述超表面元件处理后的信号数据;
基于所述信号数据,所述视线追踪系统预测得到所述视线追踪图像信息的预测视线角度;
基于所述预测视线角度信息和所述真实视线角度信息,得到第一损失值;
基于所述第一损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
2.根据权利要求1所述的视线追踪系统配置方法,其特征在于,所述基于所述预测视线角度信息和所述真实视线角度信息,得到第一损失值,包括:
根据所述真实视线角度信息所述预测视线角度信息的均方根误差,确定所述第一损失值。
3.根据权利要求1所述的视线追踪系统配置方法,其特征在于,所述样本数据集中的每个样本数据还包括所述目标对象的模拟电场分布,所述方法还包括:
基于所述信号数据,所述视线追踪系统预测得到所述视线追踪图像信息的预测电场分布;
基于所述模拟电场分布和所述预测电场分布,得到第二损失值。
4.根据权利要求3所述的视线追踪系统配置方法,其特征在于,所述基于所述第一损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数,包括:
基于所述第一损失值和所述第二损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
5.根据权利要求3所述的视线追踪系统配置方法,其特征在于,所述基于所述模拟电场分布和所述预测电场分布,得到第二损失值,包括:
根据所述模拟电场分布和所述预测电场分布的一阶矩阵范数误差,确定所述第二损失值。
6.根据权利要求4所述的视线追踪系统配置方法,其特征在于,所述基于所述第一损失值和所述第二损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数,包括:
基于所述第一损失值和所述第二损失值,确定综合损失值;
基于所述综合损失值,更新所述超表面元件的微结构配置参数或更新所述超表面元件的微结构配置参数和所述视线追踪模型的模型参数,直至所述视线追踪模型收敛,得到所述超表面元件训练好的微结构配置参数和训练好的所述模型参数。
7.根据权利要求6所述的视线追踪系统配置方法,其特征在于,所述基于所述第一损失值和所述第二损失值,确定综合损失值,包括:
将所述第一损失值和所述第二损失值分别与预设的第一损失权重参数和第二损失权重参数加权后求和,确定所述综合损失值,其中,所述第一损失权重参数和所述第二损失权重参数的和为1,所述第一损失权重参数小于所述第二损失权重参数。
8.根据权利要求7所述的视线追踪系统配置方法,其特征在于,所述方法还包括:
更新所述第一损失权重参数和所述第二损失权重参数,使所述第一损失权重参数增大以及使所述第二损失权重参数减小,且所述第一损失权重参数和所述第二损失权重参数的和为1。
9.根据权利要求1所述的视线追踪系统配置方法,其特征在于,所述方法还包括:
基于所述超表面元件的训练好的微结构配置参数,确定所述超表面元件上微结构单元的排布方式。
10.一种视线追踪系统,其特征在于,包括:
超表面元件,所述超表面元件根据权利要求1-9中任一项所述视线追踪系统配置方法确定的训练好的微结构配置参数进行配置,用于对包含目标对象的视线角度信息的光信号进行处理以得到信号数据;
视线追踪模型,所述视线追踪模型采用权利要求1-9中任一项所述基于超表面视线追踪系统配置方法确定的训练好的模型参数,用于根据所述信号数据预测所述目标对象的视线角度。
11.一种计算机设备,包括:
至少一个处理器;
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1至9任意一项所述的视线追踪系统配置方法的步骤。
12.一种计算机存储介质,包括:
至少一个处理器;
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1至9任意一项所述的视线追踪系统配置方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410219432.5A CN118097631A (zh) | 2024-02-28 | 2024-02-28 | 视线追踪系统及配置方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410219432.5A CN118097631A (zh) | 2024-02-28 | 2024-02-28 | 视线追踪系统及配置方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118097631A true CN118097631A (zh) | 2024-05-28 |
Family
ID=91161129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410219432.5A Pending CN118097631A (zh) | 2024-02-28 | 2024-02-28 | 视线追踪系统及配置方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118097631A (zh) |
-
2024
- 2024-02-28 CN CN202410219432.5A patent/CN118097631A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112703528A (zh) | 使用深度神经网络和置信度学习的照片重照明 | |
CN111783996B (zh) | 一种数据处理方法、装置及设备 | |
KR20240024277A (ko) | 시선 분류 | |
CN113869429A (zh) | 模型训练方法及图像处理方法 | |
US20130148879A1 (en) | Information processing apparatus, information processing method, and program | |
WO2023165361A1 (zh) | 一种数据处理方法及相关设备 | |
KR20210113621A (ko) | 뉴럴 네트워크의 트레이닝 및 눈 개폐 상태의 검출 방법, 장치 및 기기 | |
CN114586078A (zh) | 手部姿态估计方法、装置、设备以及计算机存储介质 | |
WO2017105866A1 (en) | Control system using input-aware stacker | |
CN113850262A (zh) | 基于可延展2.5d卷积和双路门融合的rgb-d图像语义分割方法 | |
CN116151356A (zh) | 一种优化卷积神经网络的方法、系统、设备及介质 | |
CN109919043B (zh) | 一种行人跟踪方法、装置及设备 | |
Cheng et al. | Lightweight air-to-air unmanned aerial vehicle target detection model | |
CN118097631A (zh) | 视线追踪系统及配置方法 | |
CN117243539A (zh) | 人工智能越障脱困方法、装置及控制系统 | |
US20240104854A1 (en) | Determining an assignment of virtual objects to positions in a user field of view to render in a mixed reality display | |
US20230034973A1 (en) | Methods and Systems for Predicting Trajectory Data of an Object | |
Zhang et al. | Vulcan: Automatic Query Planning for Live {ML} Analytics | |
CN115795355A (zh) | 一种分类模型训练方法、装置及设备 | |
CN116992937A (zh) | 神经网络模型的修复方法和相关设备 | |
CN114139805A (zh) | 温度预测及模型训练方法和相关装置 | |
CN117561515A (zh) | 拥塞预测模型训练方法、图像处理方法及装置 | |
CN113705070A (zh) | 模拟器训练方法、装置、设备及存储介质 | |
Medina et al. | The use of reinforcement learning algorithms in object tracking: A systematic literature review | |
KR20150027641A (ko) | 저비용 휴먼 컴퓨터 상호작용 어플리케이션을 위한 진화 적응 시선 추적을 제공하는 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |