CN113705550B - 一种训练方法、视线检测方法、装置和电子设备 - Google Patents
一种训练方法、视线检测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113705550B CN113705550B CN202111268917.6A CN202111268917A CN113705550B CN 113705550 B CN113705550 B CN 113705550B CN 202111268917 A CN202111268917 A CN 202111268917A CN 113705550 B CN113705550 B CN 113705550B
- Authority
- CN
- China
- Prior art keywords
- image
- eye image
- training
- eye
- sight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 100
- 238000012545 processing Methods 0.000 claims abstract description 74
- 230000003416 augmentation Effects 0.000 claims abstract description 64
- 230000008569 process Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 13
- 230000003321 amplification Effects 0.000 description 12
- 238000003199 nucleic acid amplification method Methods 0.000 description 12
- 238000013500 data storage Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种训练方法、视线检测方法、装置和电子设备,所述方法包括:基于第一训练数据对预训练模型进行自监督预训练,获得训练后模型,基于训练后模型对视差确定模型进行模型参数初始化;基于第二训练数据视差确定模型进行训练。第一训练数据包括第一样本图像和标签信息,第一样本图像为测试图像的增广处理形成的图像,测试图像为第一生物眼部图像,第一样本图像含有测试图像的高层语义信息,所述标签信息由增广处理的策略确定。第二训练数据包括第二生物眼部图像和第三生物眼部图像。本公开通过增广方式方便的获取测试集的标签,使得视差确定模型适用于不同待测眼部图像的视线检测中。
Description
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种训练方法、视线检测方法、装置和电子设备。
背景技术
人眼视线分析技术是人际交互技术的重要分支,主要研究对人类眼睛运动特征的检测和识别,所确定的视线可以反映人类注意力的行为,主要可以应用于游戏交互、虚拟现实、医疗、辅助驾驶和手机解锁等方面。
在相关技术中,可以采用个性化视线估计方法估计视线,其所使用的神经网络模型在训练完成后,使用测试集中少量样本对神经网络进行校准,从而提高视线估计精度。
发明内容
根据本公开的一方面,提供了一种训练方法,其特征在于,用于训练视差确定模型,所述方法包括:
基于第一训练数据对预训练模型进行自监督预训练,获得训练后模型,所述第一训练数据包括第一样本图像以及标记所述第一样本图像的标签信息,所述第一样本图像为测试图像的增广处理形成的图像,所述测试图像为第一生物眼部图像,所述第一样本图像含有所述测试图像的高层语义信息,所述标签信息由所述增广处理的策略确定。
基于所述训练后模型对所述视差确定模型进行模型参数初始化;
基于第二训练数据所述视差确定模型进行训练,所述第二训练数据包括第二生物眼部图像和第三生物眼部图像。
根据本公开的另一方面,提供了一种视线检测方法,应用本公开示例性实施例所述方法确定的视差确定模型,所述方法包括:
确定与待测眼部图像相似的至少一张辅助眼部图像;
利用所述视差确定模型对所述待测眼部图像和至少一张所述辅助眼部图像进行处理,获得至少一个视差,每个所述视差为所述待测眼部图像与对应张所述辅助眼部图像的视差;
基于至少一个所述视差和相应张所述辅助眼部图像的视线参数,确定所述待测眼部图像的视线。
根据本公开的另一方面,提供了一种训练装置,用于训练视差确定模型,所述装置包括:
第一训练模块,用于基于第一训练数据对预训练模型进行自监督预训练,获得训练后模型,所述第一训练数据包括第一样本图像以及标记所述第一样本图像的标签信息,所述第一样本图像为测试图像的增广处理形成的图像,所述测试图像为第一生物眼部图像,所述第一样本图像含有所述测试图像的高层语义信息,所述标签信息由所述增广处理的策略确定;
初始化模块,用于基于所述训练后模型对所述视差确定模型进行模型参数初始化;
第二训练模块,用于基于第二训练数据所述视差确定模型进行训练,所述第二训练数据包括第二生物眼部图像和第三生物眼部图像。
根据本公开的另一方面,提供了一种视线检测装置,应用本公开示例性实施例所述方法确定的视差确定模型,所述装置包括:
第一确定模块,用于确定与待测眼部图像相似的至少一张辅助眼部图像;
视差获取模块,用于利用所述视差确定模型对所述待测眼部图像和至少一张所述辅助眼部图像进行处理,获得至少一个视差,每个所述视差为所述待测眼部图像与对应张所述辅助眼部图像的视差;
第二确定模块,用于基于至少一个所述视差和相应张所述辅助眼部图像的视线参数,确定所述待测眼部图像的视线。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及,
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据本公开示例性实施例所述的方法。
根据本公开的另一方面,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行根据本公开示例性实施例所述的方法。
本公开示例性实施例中提供的一个或多个技术方案,基于所述第一训练数据对预训练模型进行自监督预训练时,第一训练数据所包括的第一样本图像为第一样本图像为测试图像的增广处理形成的图像,其含有测试图像的高层语义信息,标签信息由增广处理的策略确定。基于此,当基于第一训练数据对预训练模型进行训练后,基于获得训练后模型对视差确定模型进行模型参数初始化,可以保证基于第二训练数据训练的视差确定模型具有较强的鲁棒性。由此可见,本公开示例性实施例的测试图像为第一生物眼部图像,第二训练数据包括第二生物眼部图像和第三生物眼部图像时,训练后的视差确定模型可以适用于不同待测眼部图像与辅助眼部图像的视差确定中。在此基础上,基于所获得的视差和辅助眼部图像的视线参数,即可获得待测眼部图像的视线,因此,本公开示例性实施例可以通过增广方式方便的获取测试集的标签,无需利用测试集中的少量参数微调训练后的视差确定模型的情况下,视差确定模型可以适用于不同待测眼部图像的视线检测中。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图;
图2示出了本公开示例性实施例的训练方法的流程图;
图3示出了本公开示例性实施例的预训练模型的结构示意图;
图4示出了本公开示例性实施例的视差确定模型的结构示意图;
图5示出了本公开示例性实施例的视线的参数示意图。
图6示出了本公开示例性实施例的视线检测方法的流程图;
图7示出了本公开示例性实施例以单眼图像为例的视线检测方法的示意原理图;
图8示出了根据本公开示例性实施例的训练装置的功能模块示意性框图;
图9示出了根据本公开示例性实施例的视线检测装置的功能模块示意性框图;
图10示出了根据本公开示例性实施例的芯片的示意性框图;
图11示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义:
视差是指从有一定距离的两个点上观察同一个目标所产生的方向差异。
视线是指看东西时眼睛与目标之间的假想直线,用于反映人类注意力的行为。
预训练是指预先训练的一个模型或者指预先训练模型,该模型的模型参数可以作为下一个模型的模型初始值。
微调是指将预训练过的模型作用于自己的数据集,并使参数适应自己数据集的过程。
孪生神经网络(Siamese neural network),又称孪生网络或双生神经网络,是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入,其两个子网络各自接收一个输入,输出其嵌入高维度空间的表征。
高层又称概念层,是图像表达出的最接近人类理解的东西。
底层又称视觉层,通常所理解的底层,即颜色、纹理和形状等。
图像增广(image augmentation)技术是指通过对图像做一系列随机改变,来产生相似但又不同的样本,从而扩大训练数据集的规模。
本公开示例性实施例提供一种训练方法和视线检测方法,训练方法可以用于训练视差确定模型,该视差确定模型可以应用在视线检测方法中。应理解,本公开示例性的视线检测方法不仅限于检测人类视线,还可以检测其它动物视线。以下参照附图描述本公开的方案。
图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图。如图1所示,本公开示例性实施例提供的场景100包括:训练设备101和执行设备102。训练设备101所训练的目标模型可以用于执行设备102。下文述及的设备、器件、模块等之间的位置关系不构成对执行设备102的任何限制。
如图1所示,上述训练设备101可以包括数据采集装置1011、数据库1012以及第一深度学习处理器1013。数据采集装置1011可以为带有图像采集功能的智能终端,如相机、平板电脑、扫描仪等,以对所需训练的样本图像进行采集。这些数据采集装置1011还可以具有图像处理功能和数据标注功能,以对图像进行预处理和标注。示例性的,数据采集装置1011可以是具有图像采集功能的装置,其可以配置图像处理软件和数据标注软件,图像处理软件可以基于Open CV、matlab等软件,数据标注软件可以为常用的excel软件,也可以将数据标注的功能集成在图像处理软件上,如Open CV、matlab中。例如:当数据标注的功能集成在图像处理软件,该数据采集装置1011所配置的硬件可以包括图像处理器等。数据库1012可以依赖移动硬盘、存储器(如片外存储器)等硬件实现数据存储功能。第一深度学习处理器1013可以训练神经网络模型。
如图1所示,当数据采集装置1011采集到样本图像之后,可以将这些样本图像分为测试图像和训练图像,数据采集装置1011可以对测试图像进行预处理和标注,获得训练数据,将这些训练数据存入数据库1012内,供第一深度学习处理器1013进行模型训练使用。第一深度学习处理器1013可以基于数据库1012中的训练数据训练得到目标模型。例如:第一深度学习处理器1013可以分批对训练数据进行学习,预测视差,然后采用反向传播算法更新目标模型的模型参数,如权重矩阵等,直到目标模型的损失函数收敛,从而完成目标模型的训练。
在实际应用中,该目标模型可以训练原始目标模型得到,图1所示的数据库1012内的训练数据可以不由数据采集装置1011采集,而从其他设备接收得到;或者第一深度学习处理器1013的部分训练数据来自于数据库1012内的训练数据,另一部分数据可能来自云端或其他设备。
如图1所示,根据本公开实施例示例性的训练设备所训练的视差确定模型可以应用于不同的执行设备102,使得该执行设备102可以基于目标模型解决实际问题。如图1所示的,该执行设备102可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmentedreality,缩写为AR)/虚拟现实(virtual reality,缩写为VR)终端,相机、扫描仪等,还可以是服务器或者云端等。
如图1所示,上述执行设备102可以配置I/O接口1021(input/output,输入/输出),用于与外部设备进行数据交互。例如:用户可以通过客户设备103向I/O接口1021输入图像。在一种情况下,用户可以手动给定图像,该手动给定的图像可以通过I/O接口1021提供的界面进行操作。在另一种情况下,客户设备103可以自动地向I/O接口1021发送图像。例如:可以在用户授权的情况下,客户设备103自动发送图像。此时,用户可以在客户设备103中设置相应权限,以确定该用户是否有权授权客户设备103自动发送图像。
如图1所示,上述执行设备102可以配置一个或多个预处理单元1022,用于对I/O接口1021接收到的图像进行预处理。如图1所示,上述执行设备102还可以配置有第二深度学习处理器1023,用于基于预处理结果解决实际问题(如确定眼部图像的视线)。执行设备102还可以配置有数据存储系统104,用于存储程序指令、神经元数据、权重数据等,也可以将相应处理得到的处理结果、指令等存储入数据存储系统104。应理解,数据存储系统104所存储的神经元数据、权重数据等,可以是经过训练设备101所训练的视差确定模型所含有的神经元数据、权重数据等。数据存储系统104可以是相对执行设备102是外部存储器,也可以将数据存储系统104置于执行设备102中。
示例性的,如图1所示,在预处理单元1022预处理眼部图像,或者第二深度学习处理器1023基于目标模型确定视线的过程中,执行设备102可以调用数据存储系统104中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统104中。最后,I/O接口1021将处理结果(例如预处理结果、眼部图像的视线等)反馈给客户设备103,具体的呈现形式可以是显示、声音等方式。应理解,处理结果可以通过I/O接口1021自动反馈至客户设备103,也可以基于客户设备103发送的请求消息通过I/O接口1021反馈至客户设备103。例如:当用户需要查看预处理结果,客户设备103可以向I/O接口1021发送第一请求消息,I/O接口1021接收第一请求消息后,预处理单元1022可以通过I/O接口1021向客户设备103反馈预处理结果;当用户需要查看眼部图像的视线时,客户设备103可以向I/O接口1021发送第二请求消息,I/O接口1021接收第二请求消息后,数据存储系统104可以通过I/O接口1021向客户设备103反馈眼部图像的视线。
如图1所示,上述客户设备103可以作为数据采集端,采集眼部图像输入I/O接口1021,或者I/O接口1021反馈的处理结果作为新的训练数据保存在数据库1012内,也可以不经过客户设备103采集,而是由I/O接口1021直接将眼部图像或者处理结果作为新的训练数据存入数据库1012。
如图1所示,上述第一深度学习处理器1013和第二深度学习处理器1023可以是单核深度学习处理器(Deep Learning Processor-Singlecore,缩写为DLP-S)的神经元,也可以为多核深度学习处理器(Deep Learning Processor-Multicore,缩写为DLP-M)。DLP-M是在DLP-S的基础上进行的多核扩展,将多个DLP-S通过片上网络(Network-on-chip,缩写为Noc)进行互联、多播、核间同步等协议进行核间通信,以完成深度学习任务。
相关技术中,可以使用个性化策略对视线进行预估,个性化策略所使用的神经网络模型通过训练数据进行训练后,利用测试集中少量测试样本对神经网络模型进行微调,从而提升神经网络模型的精度,使得个性化视线估计方法更为准确。发明人发现,对神经网络模型进行微调时,需要借助测试样本的标签信息,而在实际应用很难找到这种标签信息。
本公开示例性实施例提供的训练方法可以基于增广处理的方式对测试样本进行标注,然后以形成的测试数据对预训练模型进行自监督预训练,然后利用所获得训练后模型初始化视差确定模型,以提高训练后的视差确定模型的泛化能力,使得视差确定模型用在视线检测时,对不同待测眼部图像的视线检测具有高度适用性。应理解,本公开示例性实施例涉及多张图像时,从图像来源说,图像可以是来自同一人,也可以是来自不同人。从图像内容来说,所有图像可以是单眼图像,也可以是双眼图像或者说脸部图像。
本公开示例性实施例的训练方法的流程图。本公开示例性实施例的训练方法可以由训练设备或应用于训练设备的芯片执行。下面以训练设备为执行主体结合附图描述本公开示例性的训练方法。
图2示出了本公开示例性实施例的训练方法的流程图。如图2所示,本公开示例性实施例的训练方法包括:
步骤201:训练设备基于第一训练数据对预训练模型进行自监督预训练,获得训练后模型。
上述第一训练数据可以包括第一样本图像以及标记第一样本图像的标签信息。此处第一样本图像可以泛指一张或多张第一样本图像,标签信息也可以泛指一张或多张第一样本图像的标签。
上述第一样本图像可以为测试图像的增广处理形成的图像。该测试图像可以为所需训练的视差确定模型的测试集中的测试图像。该测试图像可以通过图像采集装置接收,并通过其中的图像处理软件进行增广处理。为了方便训练,该第一样本图像的尺寸和测试图像的尺寸可以相同,以避免在训练前调整第一样本图像的尺寸的操作。当第一样本图像泛指多个第一样本图像时,第一样本图像可以包括对测试图像进行增广处理所生成的图像,还可以包括原始的测试图像。
示例性的,上述测试图像为第一生物眼部图像,对测试图像进行增广处理后,所获得的第一样本图像可以含有测试图像的高层语义信息,即生物眼部的抽象特征。在此基础上,基于第一训练数据训练预训练模型,使得所获得的训练后模型可以用于训练视差确定模型中。
本公开示例性实施例对测试图像进行增广处理后,其不仅可以扩充第一样本图像的数量,还可以由增广处理的策略确定标签信息,标记增广处理所获得的对应图像。标签信息可以通过数据标注软件标注。本公开示例性实施例直接利用增广处理的策略确定标签信息,不需要刻意确定测试图像的视线标签,从而降低标签获取难度。应理解,当测试图像作为第一样本图像时,第一样本图像的标签信息可以由增广处理的参考策略确定。当利用该参考策略处理任一图像后,处理后图像与处理前图像相同,未发生变化。
在实际应用中,上述增广处理的策略由第一样本图像和测试图像确定,如可以通过第一样本图像和测试图像的图像属性、对称方式、旋转角度、像素排列方式等差异确定。
当第一样本图像的图像属性与所述测试图像的图像属性不同,增广处理的策略可以是由第一样本图像的图像属性和测试图像的图像属性确定。图像属性可以包括但不仅限于图像颜色、图像对比度、图像亮度和图像噪声等中的至少一种。也就是说,可以单独调整测试图像的图像颜色、图像对比度、图像亮度或图像噪声,也可以同时调整图像颜色和图像对比度、图像亮度和图像噪声、图像对比度和图像亮度等。
示例性的,用灰阶值表示亮度,当测试图像的图像亮度为30,通过亮度调整的方式对测试图像进行增广处理,所获得的第一样本图像的图像亮度为120,那么第一样本图像的标签为90。
当第一样本图像与测试图像对称时,增广处理的策略由第一样本图像与测试图像的对称方式确定。该对称可以为中心对称,也可以为轴对称。当第一样本图像与测试图像对称为中心对称,增广处理的策略为中心对称,可以用中心对称标记第一样本图像。当第一样本图像与测试图像对称为轴对称,增广处理的策略为轴对称,可以用轴对称标记第一样本图像。
当第一样本图像为测试图像旋转后的图像,该增广处理的策略为第一样本图像相对所述测试图像的旋转方式和旋转角度确定。例如:增广处理的策略为旋转增广处理,可以将测试图像以测试图像的几何中心为转动中心,顺时针转动30°,实现增广处理。所获得第一样本图像,则增广处理的策略为第一样本图像相对测试图像顺时针旋转30°。此时,可以将顺时针旋转30°作为标签。
当第一样本图像的前景位置与测试图像的前景位置不同,该增广处理的策略由第一样本图像的前景位置与测试图像的前景位置确定。此时,增广处理的策略为平移增广处理,可以将测试图像的前景进行平移,实现增广处理。所获得的第一样本图像与测试图像的区域在于前景位置不同。此时,可以将第一样本图像的前景位置与测试图像的前景位置坐标差值作为标签使用,或者将第一样本图像的前景位置坐标作为标签。
当像素排列方式发生变化时,第一样本图像可以包括拼接在一起的多个子图像。该增广处理的策略由第一样本图像含有的多个子图像的实际排列方式与预设排列方式确定。该测试图像可以由按照预设排列方式的多个子图像形成。例如:可以将测试图像分割为成多个子图像,然后自由拼接,实现增广处理。所获得的第一样本图像的第一样本图像含有的多个子图像的实际排列方式与预设排列方式可以不同。此时,可以将多个子图像的排列顺序作为标签。
当以第一训练数据对预训练模型进行自监督训练时候,预训练模型可以预测第一样本图像对应的增广处理的预测策略,然后基于该预测的增广处理的预测策略以及由增广处理的策略确定的标签,确定是否进行模型参数更新。
示例性的,图3示出了本公开示例性实施例的预训练模型的结构示意图。如图3所示,本公开示例性实施例的预训练模型可以包括:主干网络301和第一预测单元302。
上述主干网络301用于对第一样本图像进行特征提取,获得图像增广特征。该主干网络可以包括多个卷积层,其架构可以为VGG、ResNet等各种适用于图像识别的架构。
上述第一预测单元302用于基于图像增广特征确定增广处理的预测策略。该第一预测单元可以为全连接层构成的分类器。
在实际应用中,可以对测试集303所含有的测试数据3031进行增广处理,获得第一训练数据304,其由第一样本图像3041和标签信息3042构成,然后利用多个卷积层3011对第一样本图像3041进行特征提取,获得图像增广特征,接着通过全连接层3021预测增广处理的预测策略305。该预测策略的类型与标签信息的类型相同。例如:当标签信息为增广处理的策略,那么预测策略也可以为增广处理的策略。
步骤202:训练设备基于训练后模型对视差确定模型进行模型参数初始化,该视差确定模型可以含有与预训练模型的架构相同的模型。此时,末世行参数初始化的过程中,实质是将训练后模型的模型参数迁移至视差确定模型中。
示例性的,如图3所示,当本公开示例性实施例的预训练模型包括:主干网络301和第一预测单元302,那么视差确定模型也含有与主干网络301和第一预测单元的架构相同的网络。在进行参数初始化时,对于视差确定模型,可以将其中与主干网络301架构相同的模型初始参数设置为主干网络的模型参数,将与第一预测单元302架构相同的模型初始参数设置为第一预测单元的模型参数。
步骤203:训练设备基于第二训练数据对视差确定模型进行训练。对于视差确定模型来说,其可以通过引入孪生网络,确定视差。该第二训练数据包括第二生物眼部图像和第三生物眼部图像,还可以包括第二生物眼部图像的真实视线和第三生物眼部图像的真实。第二生物眼部图像和第三生物眼部图像可以均泛指一张或多张生物眼部图像。本公开示例性实施例的第二生物眼部图像和第三生物眼部图像为图像采集装置所获得的原始图像,其可以不需要增广处理,由图像采集装置中的数据标注软件进行真实视差标注。
图4示出了本公开示例性实施例的视差确定模型的结构示意图。如图4所示,视差确定模型包括孪生网络401、合并单元402和第二预测单元403。
上述孪生网络401用于基于第二生物眼部图像404和第三生物眼部图像405确定两组眼部特征图。预训练模型可以含有与孪生网络中的至少一个子网络的架构相同的网络。例如图3所示的主干网络301的结构可以与该孪生网络401中的两个子网络的结构。在进行参数初始化时,可以将孪生网络的两个子网络的初始参数设置为主干网络的模型参数。也就是说孪生网络401包括两个主干网络4011,其两个主干网络4011的模型参数共享。
上述合并单元402用于合并两组眼部特征图,获得合并特征图。该合并单元402实质是上两组眼部特征图合并成一组多通道眼部特征图。例如:两组眼部特征图的通道数均为256,所形成的合并特征图的通道数为512。
上述第二预测单元403用于基于合并特征图预测视差406。预训练模型含有与第二预测单元403的架构相同的网络。例如图3所示的第一预测单元302的结构可以与第二预测单元403的架构相同。在进行参数初始化时,可以将第二预测单元的初始参数设置为第一预测单元302的模型参数。
为了描述视差,本公开示例性的视线的参数可以包括俯仰角和偏航角,使得视差可以通过俯仰角差值和偏航角差值定义。俯仰角和偏航角定义方式参考图5。如图5所示,以眼睛为原点O,眼睛正前方向为x轴,垂直方向为y轴,垂直于x轴和y轴的方向为z轴。A点表示眼睛正在注意的物体,OA为视线,A点在x轴和y轴形成的平面上的投影点为A1点,圆心O与A1点的连线与x轴的夹角可以被定义为俯仰角α,A点在x轴和z轴形成的平面上的投影点为A2点,圆心O与A2点的连线与x轴的夹角可以被定义为偏航角β。基于此,本公开示例性实施例的视差的参数可以包括俯仰角差值和偏航角差值。在此基础上,第二预测单元所确定的视差可以为两维向量,其中一个维度表示俯仰角差值,另一个维度表示偏航角差值。例如:第二预测单元可以为全连接层构成的分类器,使得全连接层可以输出两维向量。
当预测视差后,可以采用视差确定模型在训练阶段的损失函数确定是否训练完成,如果训练完成,则不更新模型参数,否则采用反向传播算法更新模型参数。该视差确定模型在训练阶段的损失函数满足:
,其中,I表示第二生物眼部图像,J表示第三生物眼部图像,D表示第二训练数据,diff(I,J)表示视差确定模型预测的视差,g(I)表示第二生物眼部图像的真实视线,g(J)表示第三生物眼部图像的真实视线。
本公开示例性实施例的训练方法训练视差确定模型时,利用测试数据增广所获得的数据作为第一训练数据,对预训练模型进行自监督预训练,使得所获得的训练后模型具有良好的泛化能力。基于此,当基于所述训练后模型对所述视差确定模型进行模型参数初始化,通过第二训练数据训练视差确定模型后,利用测试集测试视差确定模型,具有较低的测试误差。
本公开示例性实施例还提供一种视线检测方法,其可以由执行设备或应用于执行设备的芯片执行。下面以执行设备为执行主体结合附图描述本公开示例性的方法。
本公开示例性实施例的视线检测方法可以应用本公开示例性实施例的训练方法训练的视差确定模型。图6示出了本公开示例性实施例的视线检测方法的流程图。如图6所示,本公开示例性实施例的视线检测方法包括:
步骤601:执行设备确定与待测眼部图像相似的至少一张辅助眼部图像。执行设备的预处理单元可以通过I/O接口接收用户设备所上传的待测眼部图像,并从数据存储系统读取候选眼部图像与待测眼部图像进行相似度比较。
在实际应用中,可以采用图像相似度算法从多张候选眼部图像中选择至少一张辅助眼部图像。图像相似度算法可以为相关技术中各种可能实现图像相似度比较算法。
示例性的,可以通过结构相似性度量方法从亮度、对比度、结构三个方面度量图像相似性。例如:可以利用滑动窗将图像分块,令分块总数为S,考虑到窗口形状对分块的影响,采用高斯加权计算每一窗口的均值、方差以及协方差,然后计算对应块的结构相似度,最后将平均值作为两图像的结构相似性度量,即平均结构相似性。
示例性的,可以通过余弦相似度度量方法确定两张图像的相似度。例如:把图片表示成一个向量,通过计算向量之间的余弦距离来表征两张图片的相似度。
在一种示例中,可以通过控制相似度大小,确定待测眼部图像与辅助眼部图像的相似度以及辅助眼部图像的数量。基于此,该待测上述待测眼部图像与每张辅助眼部图像的相似度大于或等于预设阈值。例如采用余弦相似度度量待测眼部图像与候选眼部图像的相似度时,可以设置预设阈值为0.9。当待测眼部图像与候选眼部图像的相似度为0.95,则认为该候选眼部图像为辅助眼部图像。
在另一种示例中,每张辅助眼部图像为候选眼部图像序列中的前k张候选眼部图像中的一个,在候选眼部图像序列中,候选眼部图像按照待测眼部图像与候选眼部图像的相似度由高到低的顺序排序,k为小于或等于N/2的整数或者小于或等于N/3,N为候选眼部图像序列内所述候选眼部图像的总张数。在这种情况下,可以将待测眼部图像与候选眼部图像序列中所有候选眼部图像进行相似度比较,然后按照待测眼部图像与候选眼部图像的相似度由高到低的顺序排序,从其中选择前N/2个候选眼部图像作为辅助眼部图像。
步骤602:执行设备利用视差确定模型对待测眼部图像和至少一张辅助眼部图像进行处理,获得至少一个视差,每个视差为待测眼部图像与对应张辅助眼部图像的视差。每张辅助眼部图像对应一个视差。
例如:当步骤601确定3张辅助眼部图像,分别为第一辅助眼部图像、第二辅助眼部图像和第三辅助眼部图像,待测眼部图像与第一张辅助眼部图像的视差定义为第一视差,待测眼部图像与第二张辅助眼部图像的视差定义为第二视差,待测眼部图像与第三张辅助眼部图像的视差定义为第三视差。
步骤603:执行设备基于至少一个视差和相应张所述辅助眼部图像的视线,确定所述待测眼部图像的视线。若辅助眼部图像的数量至少两张,可以基于每个视差和相应张辅助眼部图像的视线,确定待测眼部图像的预测视线;基于至少两个视差相应的所述待测眼部图像的预测视线,获得待测眼部图像的视线。
示例性的,当辅助眼部图像的数量至少两张,可以确定两个待测眼部图像的预测视线,然后采用平均值的方式获得待测眼部图像的视线。例如:当预测视线的参数包括预测视线的俯仰角和预测视线的偏航角,该待测眼部图像的视线满足:
,其中,FP为待测眼部图像的视线俯仰角,ΔP i 为待测眼部图像与第i张辅助眼部图像的视线俯仰角差值,为第i张辅助眼部图像的视线俯仰角,M为所述辅助眼部图像的总张数,M和i均为大于或等于1的整数,i小于或等于M;
图7示出了本公开示例性实施例以单眼图像为例的视线检测方法的示意原理图。如图7所示,本公开示例性实施例的视线检测方法包括:
第一步,执行设备采用图像相似度算法从训练集挑702选出5个与待测眼部图像701相似的候选眼部图像作为辅助眼部图像703。训练集可以含有N个眼部图像,分别为第一眼部图像7021、第二眼部图像7022、第三眼部图像7023、……、第N眼部图像702N。挑选方法可以基于步骤601的相关描述。5个辅助眼部图像分别为第一辅助眼部图像、第二辅助眼部图像、第三辅助眼部图像、第四辅助眼部图像和第五辅助眼部图像。训练集的眼部图像可以来自不同人,也可以来自同一人,还可以是一部分来自同一人,其他的来自不同的人。
第二步,执行设备将待测眼部图像701和每张辅助眼部图像703组成一组眼部图像对,输入视差确定模型中,得到5组视差。5组视线的参数可以表示为:
第一组视差的参数:视差确定模型分析待测眼部图像和第一辅助眼部图像所确定的视差的参数(ΔP 1,ΔY 1),ΔP 1为第一组视线的俯仰角差值,ΔY 1为第一组视线的偏航角差值,其实质是
第二组视差的参数:视差确定模型分析待测眼部图像和第二辅助眼部图像所确定的视差的参数(ΔP 2,ΔY 2),ΔP 2为第二组视线的俯仰角差值,ΔY 2为第二组视线的偏航角差值。
第三组视差的参数:视差参数确定模型分析待测眼部图像和第三辅助眼部图像所确定的视差的参数(ΔP 3,ΔY 3),ΔP 3为第三组视线的俯仰角差值,ΔY 3为第三组视线的偏航角差值。
第四组视差的参数:视差参数确定模型分析待测眼部图像和第四辅助眼部图像所确定的视差的参数(ΔP 4,ΔY 4),ΔP 4为第四组视线的俯仰角差值,ΔY 4为第四组视线的偏航角差值。
第五组视差的参数:视差参数确定模型分析待测眼部图像和第五辅助眼部图像所确定的视差的参数(ΔP 5,ΔY 5),ΔP 5为第五组视线的俯仰角差值,ΔY 5为第五组视线的偏航角差值。
第三步,执行设备基于每组视差的参数与相应的辅助眼部图像的实际视线,确定对应的待测眼部图像的预测视线。
第四步,执行设备基于五个待测眼部图像的预测视线,确定待测眼部图像的视线705。
在实际应用中,可以对五个待测眼部图像的预测视线俯仰角求和后平均,获得待测眼部图像的视线俯仰角;可以对五个待测眼部图像的预测视线偏航角求和后平均,获得待测眼部图像的视线偏航角。在此基础上,可以通过待测眼部图像的视线俯仰角和待测眼部图像的视线偏航角确定待测眼部图像的视线。当执行设备确定待测眼部图像的视线后,执行设备可以通过I/O接口将待测眼部图像的视线保存在数据库内,作为训练数据使用。
本公开示例性实施例中提供的一个或多个技术方案,基于所述第一训练数据对预训练模型进行自监督预训练时,第一训练数据所包括的第一样本图像为第一样本图像为测试图像的增广处理形成的图像,其含有测试图像的高层语义信息,标签信息由增广处理的策略确定。基于此,当基于第一训练数据对预训练模型进行训练后,基于获得训练后模型对视差确定模型进行模型参数初始化,可以保证基于第二训练数据训练的视差确定模型具有较强的鲁棒性。由此可见,本公开示例性实施例的测试图像为第一生物眼部图像,第二训练数据包括第二生物眼部图像和第三生物眼部图像时,训练后的视差确定模型可以适用于不同待测眼部图像与辅助眼部图像的视差确定中。在此基础上,基于所获得的视差和辅助眼部图像的视线参数,即可获得待测眼部图像的视线,因此,本公开示例性实施例可以通过增广方式方便的获取测试集的标签,无需利用测试集中的少量参数微调训练后的视差确定模型的情况下,视差确定模型可以适用于不同待测眼部图像的视线检测中。
当本公开示例性实施例通过图像相似度算法筛选出与待测眼部图像相似的多张辅助眼部图像时,利用视差确定模型确定待测眼部图像与每个辅助眼部图像的视差,然后基于多组视差和多张辅助眼部图像的视线,获得多个预测视线,将多个预测视线的平均值作为检测到的最终视线,从而规避使用单个样本误差过大,有效提升检测精度。
上述主要从服务器的角度对本公开实施例提供的方案进行了介绍。可以理解的是,服务器为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例可以根据上述方法示例对服务器进行功能单元的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,本公开示例性实施例提供一种图像处理装置,该训练装置可以为训练设备或应用于训练设备的芯片。图8示出了根据本公开示例性实施例的训练装置的功能模块示意性框图。如图8所示,该训练装置800用于训练视差确定模型,所述装置包括:
第一训练模块801,用于基于第一训练数据对预训练模型进行自监督预训练,获得训练后模型,所述第一训练数据包括第一样本图像以及标记所述第一样本图像的标签信息,所述第一样本图像为测试图像的增广处理形成的图像,所述测试图像为第一生物眼部图像,所述第一样本图像含有所述测试图像的高层语义信息,所述标签信息由所述增广处理的策略确定;
初始化模块802,用于基于所述训练后模型对所述视差确定模型进行模型参数初始化;
第二训练模块803,用于基于第二训练数据对所述视差确定模型进行训练,所述第二训练数据包括第二生物眼部图像和第三生物眼部图像。
在一种可能的实现方式中,所述第一样本图像的尺寸与所述测试图像的尺寸相同。
在一种可能的实现方式中,所述增广处理的策略由所述第一样本图像和所述测试图像确定。
在一种可能的实现方式中,所述第一样本图像的图像属性与所述测试图像的图像属性不同,所述增广处理的策略由所述第一样本图像的图像属性和所述测试图像的图像属性确定;其中,
所述图像属性包括图像颜色、图像对比度、图像亮度、图像噪声中的至少一种。
在一种可能的实现方式中,所述第一样本图像与所述测试图像对称,所述增广处理的策略由所述第一样本图像与所述测试图像的对称方式确定;或,
所述第一样本图像为所述测试图像旋转后的图像,所述增广处理的策略为所述第一样本图像相对所述测试图像的旋转方向和旋转角度确定;或,
所述第一样本图像的前景位置与所述测试图像的前景位置不同,所述增广处理的策略由所述第一样本图像的前景位置与所述测试图像的前景位置确定;或,
所述第一样本图像包括拼接在一起的多个子图像,所述增广处理的策略由所述第一样本图像含有的多个子图像的实际排列方式与预设排列方式确定,所述测试图像由按照所述预设排列方式的多个所述子图像形成。
在一种可能的实现方式中,所述预训练模型包括:主干网络和第一预测单元;
所述主干网络用于对所述第一样本图像进行特征提取,获得图像增广特征;
所述第一预测单元用于基于所述图像增广特征确定所述增广处理的预测策略。
在一种可能的实现方式中,所述视差确定模型含有与所述预训练模型的架构相同的模型,所述基于所述训练后模型对所述视差估计模型进行模型参数初始化,包括:将所述训练后模型的模型参数迁移至所述视差确定模型中。
在一种可能的实现方式中,所述视差确定模型包括孪生网络、合并单元和第二预测单元,所述预训练模型含有与所述孪生网络中的至少一个子网络的架构和/或第二预测单元的架构相同的网络;
所述孪生网络用于基于所述第二生物眼部图像和所述第三生物眼部图像确定两组眼部特征图;
所述合并单元用于合并两组眼部特征图,获得合并特征图;
所述第二预测单元用于基于所述合并特征图预测视差。
在一种可能的实现方式中,所述第二预测单元为全连接层构成的分类器;和/或,
所述视差的参数包括俯仰角差值和偏航角差值。
在一种可能的实现方式中,所述视差确定模型在训练阶段的损失函数满足:
,其中,I表示所述第二生物眼部图像,J表示所述第三生物眼部图像,D表示所述第二训练数据,diff(I,J)表示所述视差确定模型预测的视差,g(I)表示所述第二生物眼部图像的真实视线,g(J)表示所述第三生物眼部图像的真实视线。
在采用对应各个功能划分各个功能模块的情况下,本公开示例性实施例提供一种视线检测装置,该视线检测装置可以为执行设备或应用于执行设备的芯片。图9示出了根据本公开示例性实施例的视线检测装置的功能模块示意性框图。如图9所示,该训练装置900应用本公开示例性实施例的训练方法确定的视差确定模型,所述装置包括:
第一确定模块901,用于确定与待测眼部图像相似的至少一张辅助眼部图像;
视差获取模块902,用于利用所述视差确定模型对所述待测眼部图像和至少一张所述辅助眼部图像进行处理,获得至少一个视差,每个所述视差为所述待测眼部图像与对应张所述辅助眼部图像的视差;
第二确定模块903,用于基于至少一个所述视差和相应张所述辅助眼部图像的视线参数,确定所述待测眼部图像的视线。
在一种可能的实现方式中,所述待测眼部图像与每张所述辅助眼部图像的相似度大于或等于预设阈值;或,
每张所述辅助眼部图像为候选眼部图像序列中的前k张候选眼部图像中的一个,在所述候选眼部图像序列中,所述候选眼部图像按照所述待测眼部图像与所述候选眼部图像的相似度由高到低的顺序排序,k为小于或等于N/2的整数,N为所述候选眼部图像序列内所述候选眼部图像的总张数。
在一种可能的实现方式中,若所述辅助眼部图像的数量至少两张,视差获取模块用于基于每个所述视差和相应张所述辅助眼部图像的视线,确定所述待测眼部图像的预测视线;基于至少两个所述视差相应的所述待测眼部图像的预测视线,获得所述待测眼部图像的视线。
若所述辅助眼部图像的数量至少两张,所述预测视线的参数包括预测视线的俯仰角和预测视线的偏航角,所述待测眼部图像的视线满足:
,其中,FP为所述待测眼部图像的视线俯仰角,ΔP i 为所述待测眼部图像与第i张所述辅助眼部图像的视线俯仰角差值,为第i张所述辅助眼部图像的视线俯仰角,M为所述辅助眼部图像的总张数,M和i均为大于或等于1的整数,i小于或等于M;;
图10示出了根据本公开示例性实施例的芯片的示意性框图。如图10所示,该芯片1000包括一个或两个以上(包括两个)处理器1001和通信接口1002。通信接口1002可以支持服务器执行上述训练方法和/或视线检测方法中的数据收发步骤,处理器1001可以支持服务器执行上述训练方法和/或视线检测方法中的数据处理步骤。
可选的,如图10所示,该芯片1000还包括存储器1003,存储器1003可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,NVRAM)。
在一些实施方式中,如图10所示,处理器1001通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。处理器1001控制终端设备中任一个的处理操作,处理器还可以称为中央处理单元(central processing unit,CPU)。存储器1003可以包括只读存储器和随机存取存储器,并向处理器1001提供指令和数据。存储器1003的一部分还可以包括NVRAM。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图10中将各种总线都标为总线系统1004。
上述本公开实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图11,现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备800中的多个部件连接至I/O接口1105,包括:输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备,输入单元1106可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如,在一些实施例中,本公开示例性实施例的训练方法和/或视线检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1000上。在一些实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行训练方法和/或视线检测方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
尽管结合具体特征及其实施例对本公开进行了描述,显而易见的,在不脱离本公开的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明,且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包括这些改动和变型在内。
Claims (17)
1.一种训练方法,其特征在于,用于训练视差确定模型,所述方法包括:
基于第一训练数据对预训练模型进行自监督预训练,获得训练后模型,所述第一训练数据包括第一样本图像以及标记所述第一样本图像的标签信息,所述第一样本图像为测试图像的增广处理形成的图像,所述测试图像为第一生物眼部图像,所述第一样本图像含有所述测试图像的高层语义信息,所述标签信息由所述增广处理的策略确定,所述增广处理的策略由所述第一样本图像和所述测试图像确定;
基于所述训练后模型对所述视差确定模型进行模型参数初始化;
基于第二训练数据对所述视差确定模型进行训练,所述第二训练数据包括第二生物眼部图像和第三生物眼部图像。
2.根据权利要求1所述的方法,其特征在于,所述第一样本图像的尺寸与所述测试图像的尺寸相同。
3.根据权利要求1所述的方法,其特征在于,所述第一样本图像的图像属性与所述测试图像的图像属性不同,所述增广处理的策略由所述第一样本图像的图像属性和所述测试图像的图像属性确定;其中,
所述图像属性包括图像颜色、图像对比度、图像亮度、图像噪声中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述第一样本图像与所述测试图像对称,所述增广处理的策略由所述第一样本图像与所述测试图像的对称方式确定;或,
所述第一样本图像为所述测试图像旋转后的图像,所述增广处理的策略为所述第一样本图像相对所述测试图像的旋转方向和旋转角度确定;或,
所述第一样本图像的前景位置与所述测试图像的前景位置不同,所述增广处理的策略由所述第一样本图像的前景位置与所述测试图像的前景位置确定;或,
所述第一样本图像包括拼接在一起的多个子图像,所述增广处理的策略由所述第一样本图像含有的多个子图像的实际排列方式与预设排列方式确定,所述测试图像由按照所述预设排列方式的多个所述子图像形成。
5.根据权利要求1所述的方法,其特征在于,所述预训练模型包括:主干网络和第一预测单元;
所述主干网络用于对所述第一样本图像进行特征提取,获得图像增广特征;
所述第一预测单元用于基于所述图像增广特征确定所述增广处理的预测策略。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述视差确定模型含有与所述预训练模型的架构相同的模型,所述基于所述训练后模型对所述视差估计模型进行模型参数初始化,包括:
将所述训练后模型的模型参数迁移至所述视差确定模型中。
7.根据权利要求6所述的方法,其特征在于,所述视差确定模型包括孪生网络、合并单元和第二预测单元,所述预训练模型含有与所述孪生网络中的至少一个子网络的架构和/或第二预测单元的架构相同的网络;
所述孪生网络用于基于所述第二生物眼部图像和所述第三生物眼部图像确定两组眼部特征图;
所述合并单元用于合并两组眼部特征图,获得合并特征图;
所述第二预测单元用于基于所述合并特征图预测视差。
8.根据权利要求7所述方法,其特征在于,所述第二预测单元为全连接层构成的分类器;和/或,
所述视差的参数包括俯仰角差值和偏航角差值。
10.一种视线检测方法,其特征在于,应用权利要求1~9任一项所述方法确定的视差,所述方法包括:
确定与待测眼部图像相似的至少一张辅助眼部图像;
利用所述视差确定模型对所述待测眼部图像和至少一张所述辅助眼部图像进行处理,获得至少一个视差,每个所述视差为所述待测眼部图像与对应张所述辅助眼部图像确定的视差;
基于至少一个所述视差和相应张所述辅助眼部图像的视线,确定所述待测眼部图像的视线。
11.根据权利要求10所述的方法,其特征在于,所述待测眼部图像与每张所述辅助眼部图像的相似度大于或等于预设阈值;或,
每张所述辅助眼部图像为候选眼部图像序列中的前k张候选眼部图像中的一个,在所述候选眼部图像序列中,所述候选眼部图像按照所述待测眼部图像与所述候选眼部图像的相似度由高到低的顺序排序,k为小于或等于N/2的整数,N为所述候选眼部图像序列内所述候选眼部图像的总张数。
12.根据权利要求10所述的方法,其特征在于,若所述辅助眼部图像的数量至少两张,所述利用所述视差确定模型对所述待测眼部图像和至少一张所述辅助眼部图像进行处理,包括:
基于每个所述视差和相应张所述辅助眼部图像的视线,确定所述待测眼部图像的预测视线;
基于至少两个所述视差相应的所述待测眼部图像的预测视线,获得所述待测眼部图像的视线。
14.一种训练装置,其特征在于,用于训练视差确定模型,所述装置包括:
第一训练模块,用于基于第一训练数据对预训练模型进行自监督预训练,获得训练后模型,所述第一训练数据包括第一样本图像以及标记所述第一样本图像的标签信息,所述第一样本图像为测试图像的增广处理形成的图像,所述测试图像为第一生物眼部图像,所述第一样本图像含有所述测试图像的高层语义信息,所述标签信息由所述增广处理的策略确定,所述增广处理的策略由所述第一样本图像和所述测试图像确定;
初始化模块,用于基于所述训练后模型对所述视差确定模型进行模型参数初始化;
第二训练模块,用于基于第二训练数据对所述视差确定模型进行训练,所述第二训练数据包括第二生物眼部图像和第三生物眼部图像。
15.一种视线检测装置,其特征在于,应用权利要求1~9任一项所述方法确定的视差确定模型,所述装置包括:
第一确定模块,用于确定与待测眼部图像相似的至少一张辅助眼部图像;
视差获取模块,用于利用所述视差确定模型对所述待测眼部图像和至少一张所述辅助眼部图像进行处理,获得至少一个视差,每个所述视差为所述待测眼部图像与对应张所述辅助眼部图像确定的视差;
第二确定模块,用于基于至少一个所述视差和相应张所述辅助眼部图像的视线参数,确定所述待测眼部图像的视线。
16.一种电子设备,其特征在于,包括:
处理器;以及,
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1~13中任一项所述的方法。
17.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行根据权利要求1~13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268917.6A CN113705550B (zh) | 2021-10-29 | 2021-10-29 | 一种训练方法、视线检测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268917.6A CN113705550B (zh) | 2021-10-29 | 2021-10-29 | 一种训练方法、视线检测方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705550A CN113705550A (zh) | 2021-11-26 |
CN113705550B true CN113705550B (zh) | 2022-02-18 |
Family
ID=78647633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111268917.6A Active CN113705550B (zh) | 2021-10-29 | 2021-10-29 | 一种训练方法、视线检测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705550B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722570B (zh) * | 2022-03-07 | 2023-09-15 | 北京航空航天大学 | 视线估计模型建立方法、装置、电子设备及存储介质 |
CN117948988B (zh) * | 2024-03-26 | 2024-06-04 | 山东大学 | 地基共视观测确定目标初轨的观测时刻选取方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8798374B2 (en) * | 2008-08-26 | 2014-08-05 | The Regents Of The University Of California | Automated facial action coding system |
CN108921061B (zh) * | 2018-06-20 | 2022-08-26 | 腾讯科技(深圳)有限公司 | 一种表情识别方法、装置和设备 |
CN111178278B (zh) * | 2019-12-30 | 2022-04-08 | 上海商汤临港智能科技有限公司 | 视线方向确定方法、装置、电子设备及存储介质 |
CN111275080B (zh) * | 2020-01-14 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像分类模型训练方法、分类方法及装置 |
-
2021
- 2021-10-29 CN CN202111268917.6A patent/CN113705550B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113705550A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190392587A1 (en) | System for predicting articulated object feature location | |
CN112767329B (zh) | 图像处理方法及装置、电子设备 | |
CN111091166B (zh) | 图像处理模型训练方法、图像处理方法、设备及存储介质 | |
CN113705550B (zh) | 一种训练方法、视线检测方法、装置和电子设备 | |
CN108491823B (zh) | 用于生成人眼识别模型的方法和装置 | |
US20240282149A1 (en) | Liveness detection method and apparatus, and training method and apparatus for liveness detection system | |
CN112149615B (zh) | 人脸活体检测方法、装置、介质及电子设备 | |
WO2020149829A1 (en) | Determining regions of interest for photographic functions | |
CN111353336B (zh) | 图像处理方法、装置及设备 | |
CN111325107B (zh) | 检测模型训练方法、装置、电子设备和可读存储介质 | |
US20230300464A1 (en) | Direct scale level selection for multilevel feature tracking under motion blur | |
CN112257696A (zh) | 视线估计方法及计算设备 | |
US11765457B2 (en) | Dynamic adjustment of exposure and iso to limit motion blur | |
CN114049674A (zh) | 一种三维人脸重建方法、装置及存储介质 | |
US20220375041A1 (en) | Selective image pyramid computation for motion blur mitigation in visual-inertial tracking | |
EP4342170A1 (en) | Selective image pyramid computation for motion blur mitigation | |
CN111598896A (zh) | 图像检测方法、装置、设备及存储介质 | |
CN113409204A (zh) | 待处理图像的优化方法及装置、存储介质及电子设备 | |
CN116246026B (zh) | 三维重建模型的训练方法、三维场景渲染方法及装置 | |
US11683585B2 (en) | Direct scale level selection for multilevel feature tracking under motion blur | |
CN116258800A (zh) | 一种表情驱动方法、装置、设备及介质 | |
JP2023523791A (ja) | 顔面麻痺及び注視偏位の評価 | |
CN112070022A (zh) | 人脸图像识别方法、装置、电子设备和计算机可读介质 | |
CN111291640A (zh) | 用于识别步态的方法和装置 | |
US20230401796A1 (en) | Fast ar device pairing using depth predictions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |