CN116503475A

CN116503475A - 一种基于深度学习的vrar双目3d目标定位方法

Info

Publication number: CN116503475A
Application number: CN202310357710.9A
Authority: CN
Inventors: 沈玉龙; 袁博; 陈森霖; 胡凯
Original assignee: Nanjing Baituo Vision Technology Co ltd
Current assignee: Nanjing Baituo Vision Technology Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-07-28

Abstract

本发明公开的一种基于深度学习的VRAR双目3D目标定位方法，先采集人眼跟踪兴趣点Pc变化的眼图视频，再分析眼睛稳定时的状态、分析眼睛跟踪兴趣点一次位置变化所需的时间。构建双目3D定位模型，包括基于瞳孔‑角膜反射向量法的特征提取模型，3D定位模型和特征融合模块；把每段眼图变化小视频与各种特征作为输入参数，把兴趣点三维坐标作为输出参数，输入到位置识别模型中，进行训练学习，得到训练好的位置识别模型，在实用阶段时使用。然后，把位置识别模型保存，更新到一个数据集中，用作一个用户的个人数据集，以提高个人模型对个人的适应性。

Description

一种基于深度学习的VRAR双目3D目标定位方法

技术领域

本发明涉及一种虚拟现实领域中的眼球对3D目标的跟踪能力的定位技术，具体来讲，是一种基于深度学习的方案，通过拍摄双眼眼球的图片，得到其聚焦的目标的3D位置的定位技术。

技术背景

在现有的眼球追踪技术领域，目前主要的研究是基于单目的定位研究，其方法主要有眼动测量方法，从早期的直接观察法和主观感知法，慢慢发展为瞳孔-角膜反射向量法、眼电图法(EOG)、虹膜-巩膜边缘法、角膜反射法、双普金野象法、接触镜法等。

这些方法的主要方案是基于精确建模的架构，这些方案主要是通过精确测量，精确计算，达到一个所谓精确到像素级的准确率。但是这样的方案存在有2个问题：

[1].现有的方案没有进行3D位置的定位的研究工作，这是因为现有的眼球跟踪技术用了精确的测量的方案，可以在2D平面上精确测量，但是由于无法获得聚眼等动作参数，来进行深度上的定位，而聚眼的等细节又和个人的眼睛大小、肌肉变化、动作习惯有关，是一个个性化的动作识别领域。

[2].如果用户眼睛不是正常眼睛，或者用户不是正常用眼习惯，例如单目义眼、双目斜眼，就无法准确测量，即没有较好的鲁棒性。

而目前，虚拟现实技术的快速发展，对短距离的3D目标定位技术提出了要求，特别是在现有的PANCAKE方案的基础上的VRAR结构带来的短距离、轻负载的产品性能有着要求。

发明内容

本发明基于现有的图像处理、机器学习理论，在原有的瞳孔-角膜反射向量法的物理、算法结构基础上，使用双目，提出了一个可以实现3D定位、提高鲁棒性，实现个性化定制的算法，且不增加额外的方案成本。

该方案的主要内容包括有两个主要阶段：学习阶段、实用阶段。学习阶段包括有学习数据采集、学习数据分析和分割、数据集更新、模型训练等步骤。实用阶段包括有实用数据采集、实用模型分析、反馈更新等步骤。

具体的，本发明的一种基于深度学习的VRAR双目3D目标定位方法，包括如下步骤：

步骤1，构建数据集

在虚拟空间上部署位置不断变化的兴趣点Pc，用户眼睛跟踪注视位置不断变化的兴趣点Pc，眼图相机记录该过程中的眼图视频数据；

每次兴趣点Pc位置变化的时间间隔为TFreq1，对应的视频帧数为sf_TFreq1；

左右眼在时间段TFreq1内随兴趣点Pc变化的眼图视频分别记为Study_Lefteye_V(i,userid)、以及视频Study_Righteye_V(i,userid)；其中i表示兴趣点Pc的第i个位置，userid是用户编号；兴趣点Pc(i)的位置表示为：Pc(i)＝(xi,yi,zi)；

步骤2，分析眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(i,userid)中数据变化后趋于稳定的图像，得到第userid个用户第i个跟踪视频中人眼开始稳定注视状态的眼图的帧编号isteady(framei,i)；

在左右眼图视频中找到对应的稳定帧图像Study_Lefteye_V(isteady(framei,i),userid)、及Study_Righteye_V(isteady(framei,i),userid)；

步骤3，分析出眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(i,userid)中人眼动作变化强度最大的图像帧isummax_left(framei,i,userid)、isummax_right(framei,i,userid)，该帧号对应的图像代表着第userid个用户在追踪第i个位置时人眼动作变化最大；

步骤4，只保留眼图视频Study_Lefteye_V(i,userid)和Study_Righteye_V(i,userid)中人眼动作变化强度最大帧与稳定帧图像间的眼图视频，用于模型训练；

步骤5，构建双目3D目标定位模型

所述模型包括基于瞳孔-角膜反射向量法的特征提取模型，3D定位模型和特征融合模块；

基于瞳孔-角膜反射向量法的特征提取模型用提取眼图视频中瞳孔中心和角膜反射中心坐标；

所述3D定位模型用于预测兴趣点位置P1_3D中的z坐标，以及输出高阶特征图到特征融合模块；

所述特征融合模块是基于时间序列的特征数据，把3D定位模型获得的高阶特征与基于瞳孔-角膜反射向量法提取的瞳孔中心和角膜反射中心特征，进行融合分析，预测兴趣点位置P1_3D中的x，y坐标；

步骤6，对双目3D目标定位模型进行训练

将步骤4中用于模型训练的眼图视频输入到基于瞳孔-角膜反射向量法的特征提取模型提取瞳孔中心和角膜反射中心数据；

将步骤4中用于模型训练的眼图视频输入到3D定位模型，预测兴趣点的z坐；

同时，提取左右眼2幅图的高阶特征图，进行拼接Concat成FF(2*m,(framei,i,userid))，与瞳孔中心和角膜反射中心数据一起输入到特征融合模块中，用于预测兴趣点的x，y标；其中，m是一幅图的高阶特征图的特征个数；

最终得到训练好的双目3D目标定位模型。

进一步的，还包括步骤7，采集用户眼图视频，寻找稳定帧图像及人眼动作变化强度最大帧，将稳定帧图像及人眼动作变化强度最大帧之间的眼图视频输入到训练好的双目3D目标定位模型中，输出定位。

进一步的，3D定位模型是VGG+TLE模型。

进一步的，步骤2和步骤3中，具体是采用光流法分析眼图视频中数据变化后趋于稳定的图像，以及人眼动作变化强度最大的图像。

进一步的，双目3D目标定位模型中的特征融合模块包括依次连接的输入层、双向LSTM网络层、剔除层DropOut、全连接层、x\y的连接层和softmax回归层。

进一步的，步骤1中所述眼图视频数据包括眼球的变化数据、眼球周围的肌肉变化数据等，其中眼球周围的肌肉变化包括上眼皮、眼袋等的变化数据，从而达到收集反映人眼对深度信息注视的变化信息。

进一步的，步骤2中采用光流法分析出眼图视频中数据变化后趋于稳定的图像，以及人眼动作变化强度最大的图像，具体包括如下步骤：

步骤2.1,求出左右眼图视频中从第2帧开始的每幅图的光流图；

步骤2.2，然后计算单幅光流图中的所有点的2个分量(u,v)之和sum，其中u和v是光流图中X轴和Y轴上变化值；

步骤2.3，找到每段眼图视频中分量(u,v)之和sum的最大值，及其对应的各自左右眼的帧号isummax_left(framei,i,userid)、isummax_right(framei,i,userid)，这两个帧号对应的图像代表着第userid个用户在追踪第i个位置时人眼最大的动作变化，其中，framei表示帧数，framei＝2～sf_TFreq1；

步骤2.4，从分量(u,v)之和sum的最大值帧号isummax_left(framei,i,userid)、isummax_right(framei,i,userid)向后，到最后的第sf_TFreq1帧之间，寻找稳定帧；

设置阈值T1和T2，当此时间范围中的左眼图视频帧的各个分量(u,v)之和的值<＝T1*左眼图视频帧的各个分量(u,v)之和的最大值，且右眼图视频帧的各个分量(u,v)之和的值<＝T1*右眼图视频帧的各个分量(u,v)之和的最大值，且维持T2个帧的时间，那么这个T2帧开始的帧就是稳定帧的编号。

有益效果：本发明采用的了以瞳孔-角膜反射向量法的物理结构，这种物理结构是通过使用红外照明，再用微型照相机拍摄眼球照片，然后进行分析。其原理是在红外光照射下，人眼视网膜对红外光不敏感，不会对人眼造成干扰；由于人眼各部分对红外光的反射率、吸收率不同，人眼的角膜部分对红外光的反射率很大，瞳孔区域与虹膜区域有着明显不同的反射率和吸收率，根据这种特性，在红外光源下获取的人眼图像中会出现反射光斑(普尔钦斑)和清晰的瞳孔。对获取的眼睛图像进行图像处理可以得到瞳孔中心和角膜反射光斑中心。随着眼球的转动，瞳孔和角膜反射光斑会随着发生位置变化，根据瞳孔中心和角膜反射光斑的相对偏移量，通过特定的映射模型能够估计较为准确的注视点位置坐标。此方法测量时对用户干扰很小，且测量准确，是较为理想的眼动测量方法。

本发明在瞳孔-角膜反射向量法的物理、算法结构基础上，进行改进，使用双目，搭建浅层的、对计算量要求不高的深度学习的方案，把方案部署到现有的外部VRAR计算资源上，通过VRAR上的相机获得眼睛变化的视频，发送给外部VRAR计算资源上进行计算，可以不需要硬件的升级改造的，这样就可以实现3D定位、提高鲁棒性的基础上不增加额外的方案成本。

附图说明

图1是本发明具体实施例的VRAR显示和人眼眼图采集的硬件设备图。

图2是本发明具体实施例的VRAR采集到的人眼眼图。

图3是本发明具体实施例的步骤1.2中左眼几个关键帧的位置关系图。

图4是本发明具体实施例的学习阶段流程图。

图5是本发明具体实施例的实用阶段流程图。

图6是本发明具体实施例的双目3D目标定位模型结构图。

图7是本发明具体实施例中特征融合模块结构图。

具体实施方式

下面结合具体附图1～7，进一步解释本发明的具体实施例。

总体来说，本发明的一种基于深度学习的VRAR双目3D目标定位方法，是基于现有的图像处理、机器学习理论，在原有的瞳孔-角膜反射向量法的物理、算法结构基础上，使用双目，提出了一个可以实现3D定位、提高鲁棒性，实现个性化定制的算法，且不增加额外的方案成本。

本发明包括两个主要阶段：学习阶段和实用阶段。学习阶段包括有对学习数据的采集、学习数据的分析和分割、数据集更新、模型训练等步骤。实用阶段包括有实用数据采集、实用模型分析、反馈更新等步骤。

具体的，本发明的一种基于深度学习的VRAR双目3D目标定位方法，包括如下步骤：步骤1，学习阶段

如图3所示，学习阶段的任务是通过在VRAR，在虚拟空间上部署一个不断变化位置的兴趣点Pc；用户输入自己通过医学检测获得的准确的左右眼睛屈光度数据；兴趣点的位置变化频率可由用户设定，如图1所示，在VRAR上设置眼图像机，用于采集眼图视频，记录眼睛在跟踪不断位置变化的兴趣点的眼睛变化图像，用户用眼睛跟踪注视兴趣点，达到稳定跟踪效果的眼睛图像(眼图)。每次兴趣点Pc变化时，就重新记录一次数据，然后在获得这些视频数据后，从每个兴趣点变化的时间开始作为每个视频的起点，达到每次眼睛稳定跟踪效果的图像作为终点，进行切分，把整体的眼图跟踪视频数据分割成一段段对应不同兴趣点变化的眼睛变化小视频，每个小视频是开始变化到达到稳定的效果。

然后，分析眼睛稳定时的状态、分析眼睛跟踪兴趣点一次位置变化所需的时间。

然后，进行数据更新，保存数据；

然后，进行双目3D定位模型训练，包括基于瞳孔-角膜反射向量法的特征提取模型，3D定位模型和特征融合模块；

然后，把每段眼图变化小视频与各种特征作为输入参数，把兴趣点三维坐标作为输出参数，输入到位置识别模型中，进行训练学习，得到训练好的位置识别模型，在实用阶段时使用。

然后，把位置识别模型保存，更新到一个数据集中，用作一个用户的个人数据集，以提高个人模型对个人的适应性。

学习阶段具体包括步骤如下：

步骤1.1，学习数据采集。

该步骤的主要任务是采集用户的用眼数据。其工作过程是通过设置VRAR，在虚拟空间上部署一个不断变化位置的兴趣点Pc；然后让用户输入自己的眼睛屈光度数据；然后兴趣点的位置变化频率TFreq1由用户设定的前提下，VRAR上的眼图相机一直拍摄记录眼睛在跟踪位置在变化的兴趣点的眼睛视频，进行数据采集，要求用户是在比较舒服的情况下，用眼睛跟踪注视兴趣点，达到稳定跟踪的效果。

空间和坐标系定义。

定义VRAR所显示的虚拟空间VS(Virtual Space)，人眼实际物理空间中的RS(RealSpace)。

假设VRAR的大小、间距为合适于用户，VRAR的双镜中心正好与人眼中心一致，定义真实空间RS坐标系的原点O位于双眼中心连线的中心点，平行于人脸平面、从O点出发、到右眼为RS坐标系的X轴方向，平行于人脸平面、从O点出发、垂直向下为Y轴方向，垂直于人脸平面、从O点出发、远离人眼的方向为Z轴方向。

虚拟空间VS在RS坐标系上的物理范围一般为：X轴的范围为-5mm～5mm，Y轴的范围为-4mm～4mm，Z轴的范围为0mm～12mm，其视觉心理尺寸与显示屏有关。目前，虚拟空间VS的像素在1000(X)*800(Y)左右，Z轴没有像素。在测量精度上，瞳孔-角膜反射向量法一般要求是在X轴和Y轴上为1个像素的精度，Z轴没有测量方案，所以就没有要求。

兴趣点Pc的第i个位置表示为，Pc(i)＝(xi,yi,zi)，位置变化的时间间隔为TFreq1(假设对应帧数为sf_TFreq1)，兴趣点Pc在这X:(-5mm～5mm)，Y:(-4mm～4mm)，Z:(0mm～12mm)上的随机位置，位置变化次数达到5000次，得到关于兴趣点位置的视频数据组Study_Pc(i)包括在X、Y、Z三个坐标上的具体位置，其中i＝1～5000。

同时，如图2所示，眼图相机记录眼睛在跟踪兴趣点Pc位置变化时的眼睛变化图像，进行视频数据采集，所述数据的物理尺寸范围包括眼球及眼球周围的肌肉变化的范围，其中，图2中的(b)为拍摄到的眼球图，图2中的(a)为拍摄到的眼周围肌肉图。所谓眼球周围的肌肉变化包括上眼皮、眼袋等的变化数据，从而达到收集反映人眼对深度信息注视的变化信息。得到左右眼在每个时间段TFreq1内(帧数总和为sf_TFreq1)的眼图变化视频，分别保存为视频Study_Lefteye_V(i,userid)、以及视频Study_Righteye_V(i,userid)；其中，视频Study_Lefteye_V(i,userid)是指第userid个用户的左眼在跟踪第i次变化兴趣点Pc位置时的学习视频，视频Study_Righteye_V(i,userid)是指第userid个用户的右眼在跟踪第i次变化兴趣点Pc位置时的学习视频。

需要说明的是，本发明专利采集的图像与传统机器学习的方案有区别，本发明专利不仅采集眼球的变化，而且其范围还包括眼球周围的肌肉变化，例如上眼皮、眼袋等的变化，从而达到收集反映人眼对深度信息注视的变化信息，本发明采集的如图2中(a)所示是相机采集到的人眼眼图，如图2中(b)所示是提取的人眼眼图中瞳孔部分图。

步骤1.2学习数据分析和分割

对用户在步骤1.1中的TFreq1时间内的变化视频学习数据(Study_Lefteye_V(i,userid)、Study_Righteye_V(i,userid))进行分析，分析眼睛状态是否达到稳定，以及每次到稳定时变化时间，并对变化视频学习数据进行剔除稳定后的数据，从而达到精细化切割，达到学习训练时3D定位模型不被没有必要的数据干扰的效果。

分析在观测步骤1.1中不断变化位置的兴趣点每次变化时,眼睛的状态是否达到稳定的方案，可以参考在视频中提取关键稳定帧的方案。这类方案中包括有基于镜头边界、基于运动分析、基于图像信息、基于镜头活动性、基于视频聚类等多做方案。本发明采用的是基于运动分析的方案：

步骤1.2.1下采样。

下采样是降低图像的分辨率，从而减少后续步骤1.2.2的计算量。下采样的方案是对对视频Study_Lefteye_V(i,userid)和视频Study_Righteye_V(i,userid)从X、Y轴上，每隔固定个数的像素保留1个像素，其余删除，从而保留一个低分辨率的图像Downs_Study_Lefteye_V(i,userid)、Downs_Study_Righteye_V(i,userid)。本实施例中为下采样4倍，即从X、Y轴上，每间隔3个像素(剔除这3个像素)保留1个像素。

步骤1.2.2光流法找稳定帧。

采用光流法分析出视频(Downs_Study_Lefteye_V(i,userid)、Downs_Study_Righteye_V(i,userid))在变化后趋于稳定的图像，从而知道此第i个跟踪视频中，人眼开始稳定注视的状态眼图的稳定帧编号isteady(framei)，framei范围是从2到sf_TFreq1，再返回找没有降低分辨率的对应帧数的原图(Study_Lefteye_V(isteady(framei),i,userid)、Study_Righteye_V(isteady(framei),i,userid))，用作进一步分析。本实施例中光流法为经典的HS法。

其过程为：

[1].使用公知的光流HS法，求出2个视频Downs_Study_Lefteye_V(i,userid)、Downs_Study_Righteye_V(i,userid)各自从第2帧开始的每幅图的光流图O_Downs_Study_Lefteye_V(framei,i,userid)、O_Downs_Study_Righteye_V(framei,i,userid)，此刻代表的是用户userid在跟踪第i个兴趣点时第framei帧的光流图图片，其中framei＝2～sf_TFreq1。

[2].然后计算单幅光流图中的所有点2个分量(u,v)(u和v是光流图中X轴和Y轴上变化值)之和sum_O_Downs_Study_Lefteye_V(framei,i,userid),sum_O_Downs_Study_Righteye_V(framei,i,userid)。这些值代表了当时每帧framei与前一帧framei-1之间人眼变化的动作变化强度。

[3].然后，把在这个framei＝2～sf_TFreq1中的所有(sf_TFreq1–1)个的sum_O_Downs_Study_Lefteye_V(framei,i,userid),sum_O_Downs_Study_Righteye_V(framei,i,userid)中，找到其中的最大值summax_O_Downs_Study_Lefteye_V(i,userid)，和summax_O_Downs_Study_Righteye_V(i,userid)，及其对应的各自左右眼帧号isummax_left(i,userid)、isummax_right(i,userid)，如图3所示。此刻，这帧号对应的图像代表着第userid个用户在追踪第i个位置时，其人眼的最大的动作变化值(即光流值)，一般是人眼在注视目标时，眼睛及周围肌肉变化最大的时刻。这个值也用于后期输入到数据集中，作为特征给模型学习。

[4].然后，如图3所示，从这个最大值开始的帧号后，到最后的第sf_TFreq1帧之间，寻找稳定帧。在原理上，达到聚焦稳定状态下的人眼变化强度，会与用户的自身用眼习惯、身体状态有关，基本是保持不变一段时间，但是也会出现偶尔人眼下意识眨眼(稳定后的下意识眨眼动作的信息是本发明要剔除的，从而避免模型学习到不必要的信息，提高精确度)。所以本发明此处的方案为寻找在isummax_left(i,userid)～sf_TFreq1、isummax_right(i,userid)～sf_TFreq1中，达到相对稳定状态的开始，本发明采用的方案是设置2个阈值T1和T2，当此时间范围中的左眼图视频帧的各个分量(u,v)之和的值<＝T1*左眼图视频帧的各个分量(u,v)之和的最大值，且右眼图视频帧的各个分量(u,v)之和的值<＝T1*右眼图视频帧的各个分量(u,v)之和的最大值，且维持T2个帧的时间，那么这个T2帧开始的帧就是稳定帧的编号isteady(i,userid)。本实施例中，T1为10％，T2为5帧。

步骤1.2.3.计算人眼变化的时间。

如图3所示，每次人眼从开始到稳定帧变化的时间，就是isteady(i,userid)的时间，把帧编号改为时间进行输出T_isteady(i,userid)。

然后把所有i次的T_isteady(i,userid)进行统计，计算出它们的平均值Tavg_isteady，以及方差Tdev_isteady，平均值和方差的计算为公知内容，在此不再赘述。这个值也用于后期输入到数据集中，作为特征给模型学习。

步骤1.2.4精细化分割。

如图4所示，精细化分割的作用是把原有的左右眼的眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(I,userid)中的达到稳定后的视频帧删除，即删除从isteady(i,userid)到sf_TFreq1之间的图片，这样做的目的是后期的在进行深度学习识别定位时，稳定后的下意识眨眼动作的信息是本发明要剔除的，从而避免模型学习到不必要的信息，提高精确度，得到Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)。

步骤1.3数据集更新

把Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)中的从最大帧isummax_left(i,userid)、isummax_right(i,userid)到稳定帧isteady(i,userid)之间的视频数据添加到数据集中，其中i是第i个兴趣点的位置跟踪过程，userid是用户编号。同时也保存，Study2_Lefteye_V(isteady(i,userid),i,userid)是左眼眼图稳定帧图片，Study2_Righteye_V(isteady(i,userid),i,userid)是右眼眼图稳定帧图片，Pc(i)是第i个兴趣点的位置。

另外，对于同一个userid下，统计其在所有i次跟踪记录中变化的最大值summax_O_Downs_Study_Lefteye_V(i,userid),summax_O_Downs_Study_Righteye_V(i,userid)中，寻找其中的所有的最大值maxofsummax、最小值minofsummax、方差devofsummax，与所有i次中每次跟踪记录中的变化最大值summax_O_Downs_Study_Lefteye_V(i,userid),summax_O_Downs_Study_Righteye_V(i,userid)一起，也保存到对应数据集中。

另外，对于同一个userid下，记录出现步骤1.2.3中的每次人眼变化时间T_isteady(i,userid)，平均值Tavg_isteady，以及方差Tdev_isteady。

步骤1.4，双目3D目标定位模型训练

如图5所示，双目3D目标定位模型包括基于瞳孔-角膜反射向量法的特征提取模型，3D定位模型和特征融合模块。

步骤1.4.1基于瞳孔-角膜反射向量法的特征提取模型

在原有的在瞳孔-角膜反射向量法的物理、算法结构基础上进行改进时，由于原有方案对精确2D坐标的计算效果比较优秀，所以模型采用特征强化的方案，把原有算法的优秀能力也融合进来。所以需要按照原有方案提取特征，并把这些特征值作为输入，与提取的其他信息融合，实现对鲁棒性的提高。

其特征提取方案采用武汉理工大学马辉著硕士毕业论文《基于操作者的视觉定位的自动化微操作方法研究》中的方案，如图2右图所示，提取出瞳孔中心和角膜反射中心坐标。

步骤1.4.2，3D定位模型训练

考虑到每个人眼睛附近的参与到深度信息上聚焦的肌肉面积各不一样，受到屈光度、个人习惯等各种原因，其聚焦动作程度也不一样，所以采用个人的关注动作的眼图视频作为输入，使用时序网络进行识别，识别结果为预测值Pcp(i)三维坐标。工作目标是希望预测值Pcp(i)能与原有真实值Pc(i)三维坐标之间的差尽量小。

本方案学习的输入图像为左右眼的眼图的视频，一帧帧输入，VRAR的左右眼镜中有人眼不易感知的红外发光管发射的照明光，对眼睛照明，然后被眼图相机拍摄眼睛图片，拍摄的图片是灰度图，没有RGB三通道。其内容就是在步骤1.2.4中的Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)。

本方案的模型学习的输出为兴趣点的三维预测坐标Pcp(i)，这些数据的真实值就是Pc(i)步骤1.1中兴趣点的坐标，学习的目标就是使得Pcp(i)和Pc(i)之间尽量小。

本方案的模型结构上，考虑到本方案由于输入的是3个角度，即左右眼的眼图、步骤1.4.1中的提取出瞳孔中心和角膜反射中心坐标、步骤1.3中一些个性化数据，所以，本发明的用于位置识别的模块主要有3D定位模块和基于瞳孔-角膜反射向量法的特征融合模块，3D定位模块用于从左眼、右眼眼图中分析3D定位模块的z的坐标，特征融合模块用于输出x、y的坐标。

3D定位模块，这个模块的作用是从左眼、右眼眼图中分析z的坐标；

如图6所示，3D定位模块的作用是从输入的眼睛变化视频数据及其对应的输出原有真实值Pc(i)三维坐标中学习输入和输出之间的对应关系；所述的视频数据是指Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)中的从最大帧isummax_left(i,userid)、isummax_right(i,userid)到稳定帧isteady(i,userid)之间的视频数据。

3D定位模块采用的是VGG-9结合时序线性编码层(Temporal Linear Encoding,TLE)的VGG9+TLE(《Deep Temporal Linear Encoding Networks》，CVPR2017)模型，其中间层会提取出特征，用于融合模块；该模型对计算量相对要求不大，本发明采用VGG9+TLE模型会比较容易部署在外部VRAR计算资源上进行计算，从而减少对现有硬件的升级改造的需求。

通过训练出一个VGG9+TLE模型，可以得到一个得到被预测出的拥有x、y、z的方向坐标的Pcp(i)，它与理想值Pc(i)的误差较小，已经可以用作预测使用。但是考虑其x和y方向的坐标没有充分利用基于瞳孔-角膜反射向量法提取的特征，即没有利用特征增强的结果，而这些特征在现有的2D检测方案中是比较精准的，所以需要在x和y方向的坐标输出上，需要充分利用好这些特征，进一步提高准确率。该模型为公开内容，其学习过程为公知内容，在此不再赘述。

本发明把对其使用的方案是，把中间层提取的特征与基于瞳孔-角膜反射向量法的特征、进行融合，得到一个学习了时间轴上相关信息的预测功能的x、y的坐标定位方案。

特征融合模块作用是基于时间序列的特征数据，Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)中的从最大帧isummax_left(i,userid)、isummax_right(i,userid)到稳定帧isteady(i,userid)之间的视频数据，把VGG-9的模型获得的特征、与基于瞳孔-角膜反射向量法提取的瞳孔中心和角膜反射中心2个特征，在特征层进行融合分析，得出一组合适的x、y的坐标定位结果。

如图6所示，该模块的输入是3组：

第1组是采用步骤1.3中的数据集中的个人数据。包括有

把Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)中的从最大帧isummax_left(i,userid)、isummax_right(i,userid)到稳定帧isteady(i,userid)之间的视频数据添加到数据集中，其中i是第i个兴趣点的位置跟踪过程，userid是用户编号。也采用Study2_Lefteye_V(isteady(framei),i,userid)是左眼眼图稳定帧图片，Study2_Righteye_V(isteady(framei),i,userid)是右眼眼图稳定帧图。

还包括步骤1.3中的，对于同一个userid下，所有i次跟踪记录中最大值maxofsummax、最小值minofsummax、方差devofsummax，所有i次中每次跟踪记录中的变化最大值summax_O_Downs_Study_Lefteye_V(i,userid),summax_O_Downs_Study_Righteye_V(i,userid)，每次人眼变化时间T_isteady(i,userid)，平均值Tavg_isteady，以及方差Tdev_isteady，也在此被输入。

另外，考虑到第1组都是统计数据，而统计数据开始时，可信度不高。所以，如图6中(a)所示，在前100次位置学习中，不输入到模型中，每次学习后会进行统计更新，到100次位置学习后再输入到模型中，如图6中(b)所示，。

第2组是采用步骤1.4.1的方案，对输入的视频数据Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)中的从最大帧isummax_left(i,userid)、isummax_right(i,userid)到稳定帧isteady(i,userid)之间的视频数据中的，每一帧framei提取的瞳孔中心FF(11,(framei,i,userid))和角膜反射中心FF(12,(framei,i,userid))，FF代表的是特征序列，11和12代表的是第userid个用户的对第i个兴趣点位置跟踪视频中第framei帧图片的第1和第2个特征。

第3组是采用步骤1.4.2的VGG9+TLE中的VGG9对输入的视频数据Study2_Lefteye_V(i,userid)、Study2_Righteye_V(i,userid)每一帧framei提取的第2层提取的高阶特征。然后把左右眼2幅图的高阶特征图进行拼接Concat成FF(2*m,(framei,i,userid))，m是一幅图的高阶特征图的特征个数，这个数量与VGG-9的设置有关。

然后把第1、2、3组的特征再进行Concat，得到一个拥有2*m+2个数量的FF(mm,(framei,i,userid))的特征序列,mm＝1～2*m+2。

如图5图6所示，其输出是步骤1.3中的第i个兴趣点的位置Pc(i)，包括有x和y的平面坐标，以及一个深度的z坐标。

如图7所示，该模块的结构是一个基于动作识别的时间序列网络，网络的结构是一个简单的网络：一个输入层、一个双向LSTM网络层、一个剔除层(DropOut)、一个全连接层、一个x\y的连接层、一个softmax回归层。学习方法是采用Adam优化器。

输入层的数量是所有步骤1.2.2中兴趣点跟踪时的稳定帧isteady(framei)中的最大值，即在步骤1.1中5000次跟踪动作时的每个稳定帧isteady(framei)的最大数。

一个双向LSTM(Bi-LSTM)网络层的个数是128个。

一个剔除层(DropOut)的比例是0.5。

一个全连接层是128个神经元。

一个x\y的连接层是2个神经元。

一个softmax回归层为标准softmax回归层。

通过本模块2，本发明可以在特征层上进行融合，以时间序列的方式，得出一组合适的x、y的坐标定位结果。

最后，把模块2预测的x、y坐标定位结果和模块1计算的z坐标定位结果合并，输出Pcp。由于是经典双向LSTM模型，其学习目标是把Pcp(i)和Pc(i)的X、Y值的之间尽量小，学习过程为公知内容，在此不再赘述。

保存userid的这个模型参数到数据集。

步骤2，实用阶段

实用阶段包括有实用数据采集、实用模型分析、反馈更新等步骤。整体如图5所示。

步骤2.1实用数据采集

实用数据采集阶段的工作内容从现有不断采集中的图像中进行动作定位，找出一段完整变化的眼图定位动作视频。

[1].在数据集中调出在步骤1.3中记录的当前用户userid的先前所有数据。

[2].i＝0，对当前采集的图像(App_Lefteye_V(i,userid)、App_Righteye_V(i,userid))，按照步骤1.2.1一样，进行下采样，得到(Downs_App_Lefteye_V(i,userid)、Downs_App_Righteye_V(i,userid))；

[3].对下采样后的图像，按照步骤1.2.2采用光流法分析出当前应用的视频在变化后趋于稳定的图像。按照步骤1.2.2的第[2]步中统计u,v之和的方式进行统计。

如果存在小于存储在步骤1.3中的minofsummax-3*devofsummax，且维持T2个帧的时间，那么就是一个稳定帧appsteadyi的开始。

那么以这个稳定帧号开始，往前追溯Tavg_isteady+3*Tdev_isteady个帧(该数值来源于步骤1.3的最新版本)，从原图(App_Lefteye_V(framei,i,userid)、App_Righteye_V(framei,i,userid))中获得对应的帧图(framei从第appsteadyi-Tavg_isteady-3*Tdev_isteady帧～到第appsteadyi帧)。这些图即为有变化的动作视频，此刻i＝i+1，进入到下一个动作检测流程，直至所有采集的视频检测结束。

步骤2.2实用模型分析

把动作提取后的(App_Lefteye_V(framei,i,userid)、App_Righteye_V(framei,i,userid))中获得对应的帧图(framei从第appsteadyi-Tavg_isteady-3*Tdev_isteady帧～到第appsteadyi帧)的图像输入到步骤1.4的模型中，得到Pcp(i)。

步骤2.3反馈更新

当步骤2.2的数据被获得后，用户可以反馈把步骤2.1的视频数据和步骤2.2的Pcp(i)，输入到数据集中，更新数据集，并且按照步骤1.3的方案更新该用户的模型参数，并保存到数据集中。

用户通过实现本发明方案，可以在原有的瞳孔-角膜反射向量法的物理、算法结构基础上，使用双目，构建一个可以实现3D定位、提高鲁棒性、实现个性化定制的算法，且不增加额外的方案成本。

Claims

1.一种基于深度学习的VRAR双目3D目标定位方法，其特征在于，包括如下步骤：

步骤1，构建数据集

步骤2，分析眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(i,userid)中数据变化后趋于稳定的图像，得到第userid个人的第i个跟踪视频中人眼开始稳定注视状态的眼图的帧编号isteady(framei,i)；

步骤5，构建双目3D目标定位模型

步骤6，对双目3D目标定位模型进行训练

将步骤4中用于模型训练的眼图视频输入到3D定位模型，预测兴趣点的z坐标；同时，提取左右眼2幅图的高阶特征图，进行拼接Concat成FF(2*m,(framei,i,userid))，与瞳孔中心和角膜反射中心数据一起输入到特征融合模块中，用于预测兴趣点的x，y标；其中，m是一幅图的高阶特征图的特征个数；

最终得到训练好的双目3D目标定位模型。

2.根据权利要求1所述一种基于深度学习的VRAR双目3D目标定位方法，其特征在于，还包括：

步骤7，采集用户眼图视频，寻找稳定帧图像及人眼动作变化强度最大帧，将稳定帧图像及人眼动作变化强度最大帧之间的眼图视频输入到训练好的双目3D目标定位模型中，输出定位。

3.根据权利要求1所述一种基于深度学习的VRAR双目3D目标定位方法，其特征在于，3D定位模型是VGG+TLE模型。

4.根据权利要求1所述一种基于深度学习的VRAR双目3D目标定位方法，其特征在于，步骤2和步骤3中，具体是采用光流法分析眼图视频中数据变化后趋于稳定的图像，以及人眼动作变化强度最大的图像。

5.根据权利要求1所述一种基于深度学习的VRAR双目3D目标定位方法，其特征在于，特征融合模块包括依次连接的输入层、双向LSTM网络层、剔除层DropOut、全连接层、x\y的连接层和softmax回归层。

6.根据权利要求1所述一种基于深度学习的VRAR双目3D目标定位方法，其特征在于，步骤1中所述眼图视频数据包括眼球的变化数据和眼球周围的肌肉变化数据，其中眼球周围的肌肉变化包括上眼皮、眼袋的变化数据。

7.根据权利要求4所述一种基于深度学习的VRAR双目3D目标定位方法，其特征在于：步骤2中采用光流法分析出眼图视频中数据变化后趋于稳定的图像，以及人眼动作变化强度最大的图像，具体包括如下步骤：

步骤2.2，然后计算单幅光流图中的所有点2个分量(u,v)之和sum，其中u和v是光流图中X轴和Y轴上变化值；

步骤2.3，找到每段眼图视频中图中分量(u,v)之和sum的最大值，及其对应的各自左右眼的帧号isummax_left(framei,i,userid)、isummax_right(framei,i,userid)，这两个帧号对应的图像代表着第userid个用户在追踪第i个位置时人眼最大的动作变化，其中，framei表示帧数，framei＝2～sf_TFreq1；

步骤2.4，从分量(u,v)之和sum的最大值帧号isummax_left(framei,i,userid)、isummax_right(framei,i,userid)向后，到最后的第sf_TFreq1帧之间，寻找稳定帧；设置阈值T1和T2，当此时间范围中的左眼图视频帧的各个分量(u,v)之和的值<＝T1*左眼图视频帧的各个分量(u,v)之和的最大值，且右眼图视频帧的各个分量(u,v)之和的值<＝T1*右眼图视频帧的各个分量(u,v)之和的最大值，且维持T2个帧的时间，那么这个T2帧开始的帧就是稳定帧的编号。