CN110321820B

CN110321820B - 一种基于非接触式设备的视线落点检测方法

Info

Publication number: CN110321820B
Application number: CN201910549413.8A
Authority: CN
Inventors: 郑文明; 闫思蒙; 柯晓燕; 唐传高; 宗源
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-03-04
Anticipated expiration: 2039-06-24
Also published as: CN110321820A

Abstract

本发明公开了一种基于非接触式设备的视线落点检测方法，用于孤独症谱系障碍早期筛查场景下的视线落点检测系统，包括以下步骤：基于非接触式设备的数据采集场景：用于采集无约束场景下婴幼儿交互行为的多角度视频数据；视线落点检测网络：提取研究对象位置特征、头部姿态特征、眼部特征得到视线特征，与场景组件显著性特征融合，设计混合损失函数迭代更新网络模型参数，从而得到研究对象视线范围内最可能关注的显著性位置，作为视线落点。本发明避免了穿戴式设备的不利影响，且低干扰、低成本、易推广，方便采集包含研究对象、场景元素及交互对象在内多角度画面的完整信息。

Description

一种基于非接触式设备的视线落点检测方法

技术领域

本发明涉及视线落点检测领域，具体为一种基于非接触式设备的视线落点检测方法。

背景技术

随着计算机技术的发展，以及孤独症谱系障碍(ASD)早期筛查的推广需要，对各指标自动化检测的需求应运而生。在交互行为中，研究对象与交互对象眼神接触的时长、频率及完成度作为诊断的重要参考依据之一，与微笑呼应、语言沟通及肢体接触等共同组成了其临床观察指标。眼神接触的自动化检测在计算机视觉领域中为视线检测相关技术。

在现有视线数据采集场景，通常要求研究对象头戴摄像头、眼动仪等接触式设备，获得高清正脸或精准眼部图像，以简化视线跟踪问题。而接触式设备造价昂贵，对场景及采集对象行为有所限制，难以推广到日常使用。另一种场景为设定一定的约束条件固定情境，如限制动作幅度、头部姿态、视野范围或关注目标，以避免复杂情况，获取包含清晰人眼的面部近距离稳定画面，。使用普通摄像机捕捉非近景画面的自然场景因存在遮挡、画质不精、干扰多的缺点后续分析处理困难较大，尚未有成熟的研究。

视线检测的研究主要有视线方向检测及视线落点检测。视线方向检测，通常转化为头部姿态估计、眼球姿态检测、或者两者结合的方式拟合视线方向。视线落点检测通常需要图片多方面的信息融合，如场景中可能被观察的物体、研究对象头部姿态、眼部姿态等。头部姿态有基于模板匹配、柔性模型、流行嵌入、几何约束等传统方法，基于脸部关键点、头部特征提取的探测器阵列、非线性回归等机器学习方法，也有头部图片端到端的深度学习方法。场景中可能被观察的物体通常有传统的图像物体轮廓边缘检测方法，基于目标检测或者显著性信息的深度学习方法。

由于孤独症谱系障碍风险评估研究对象为适应力及安全感差的婴幼儿，穿戴设备容易造成亲子互动环节不便，影响婴幼儿的社交行为反馈，从而影响诊断结果。所以需要一种低干扰、易推广的非接触式数据采集设备，解决侵入式设备的弊端，获取交互场景下的婴幼儿自然行为。而据文献所知，基于无约束情景下第三人称视角非近景影像的视线落点检测研究尚不深入，无法达到理想的识别效果。

发明内容

为解决上述问题，本发明公开了一种基于非接触式设备的视线落点检测方法，提出了一种基于非接触式设备的数据采集场景，充分利用多方面信息建立端到端的模型，用于真实场景视线落点检测。

为了达到以上目的，本发明提供如下技术方案：

一种基于非接触式设备的视线落点检测方法，

第一步，基于非接触式设备的数据采集场景搭建：

采用四个普通光学摄像头多视角同步录制在隔离室内亲子社交行为画面；两个摄像头分别布置于婴幼儿偏正脸的角度和家长偏正脸的角度，另外两个摄像头置于侧面用来记录交互全况。摄像头均架设于对亲子交互无防碍的位置，实验环境隔离，以减少不良舒适度、外界干扰因素影响。通过wifi通讯将摄像机捕捉到的画面传输至监控间电脑，获得行为学影像数据。行为影像数据包括采集到的图片。

第二步，视线落点检测网络结构搭建，包括以下步骤：

(1)视线特征提取路径搭建：

视线特征由位置特征、头部姿态特征、眼部特征三部分组成；其中位置特征定义为眼睛在图片中位置的网格式独热编码特征，以提取位置信息；头部特征定义为头部图像通过卷积网络计算的纹理特征，以提取头部姿态信息；眼部特征定义为眼部区域图像通过卷积网络计算的纹理特征，以提取眼部姿态信息；将三部分的特征矢量拼接，经多层全连接及一层激活层结构，以提取视觉区域特征信息。

(2)场景显著性特征提取路径搭建：

在整张图片输入卷积网络获得场景内组件的显著性深度图，经滤波器获得图像内元素的重要性特征，规格与视线特征相同，以提取场景显著性特征，规格同视线特征。

(3)视线落点预测机制：

将视线特征、场景显著性特征通过对位相乘操作进行两种信息的特征融合，经过一层全连接层计算研究对象视野范围内显著性物体位置的置信度，映射到图片中相应位置，得到视线落点的预测。

第三步，网络模型训练：

设计基于视线落点标注与预测结果的混合损失函数，迭代更新网络参数权值，得到具备视线落点检测能力的模型。混合损失函数定义为位置网格式量化规则下的分类损失和回归损失的加权和。

在本发明中，进一步的，所述的视线落点检测网络结构搭建中，在所述的视线特征提取路径搭建过程中，眼睛位置的网格式独热编码规则为，将图片分割为N*N(N＝13)的网格，目标点所在网格取1，其余网格值取0，再按行拼接为一维特征向量。

在本发明中，进一步的，在所述的视线落点检测网络结构搭建方法中，在所述的视线特征提取路径搭建过程中，头部图像及婴幼儿眼部图像按手工截取或计算机自动截取的方式从当前视频帧画面中获取。

在本发明中，进一步的，在所述的视线落点检测网络结构搭建方法中，所述视线特征提取路径搭建过程中，头部姿态特征卷积网络和眼部姿态特征卷积网络设置均同AlexNet的前五层网络架构，其中第五层包含卷积层、激活层、池化层，获得N1*N1*D(N1＝6，D＝256)的深度特征，经一层全连接层得到一维的特征矢量。

在本发明中，进一步的，在所述的视线落点检测网络结构搭建方法中，所述视线特征提取路径搭建过程中，所述的激活层采用sigmoid函数将特征映射到[0,1]区间内，输入特征矢量与输出特征矢量的关系表达式为：

在本发明中，进一步的，在所述的视线落点检测网络结构搭建方法中，在所述的场景显著性特征提取路径搭建方法中，所述的整张图片输入的卷积网络设置均同AlexNet的前五层网络架构，其中第五层仅保留卷积层，得到N*N*D(N＝13，D＝256)的深度特征。

在本发明中，进一步的，在所述的视线检测网络结构搭建方法中，在所述的场景显著性特征提取路径搭建方法中，所述的滤波器为卷积核为1*1*D(D＝256)的卷积层，得到N*N(N＝13)的显著特征，按行拼接为一维特征矢量。

在本发明中，进一步的，在所述的视线检测网络结构搭建方法中，在所述的视线落点预测机制过程中对位相乘为场景显著性一维特征与视线一维特征的对应位置元素分别相乘，得到一维的视线落点特征。

在本发明中，进一步的，在所述的视线检测网络结构搭建方法中，在所述的视线落点预测机制中，所述的视线落点位置网格式量化特征为截取一维特征矢量，按行拼接为N*N的置信度结果网格，取置信度最高值所在网格为最终视线落点位置的预测结果。

在本发明中，进一步的，在所述的视线检测网络结构搭建方法中，在所述的网络模型训练过程中，所述的分类损失定义为将视线落点预测看做N²个类别的分类问题，计算每个类别的置信度与实际类别独热编码的差值绝对值之和；所述的回归损失为回归预测视线落点对应图片中位置的笛卡尔坐标(x_pre,y_pre)与实际视线落点(x_tru,y_tru)的欧氏距离，即L2距离公式为：

L₂:d_ii'(2)＝(|x_tru-x_pre|²+|y_tru-y_pre|²)^1/2

在所述的视线检测网络结构搭建方法中，在所述的网络模型训练过程中，所述的混合损失函数为分类损失与回归损失的加权和：

MultiLoss＝classLoss+α·regreLoss

本发明具有如下有益效果：

1、实验场景设计避免了穿戴式设备对交互行为的不利影响，采用低干扰、易推广、低成本的非接触式数据采集设备，采集多角度画面的完整信息。

2、充分利用视频画面中头部图像信息、眼部图像信息、场景内容信息，分别计算头部姿态、眼部姿态、场景元素的特征信息，设计相应的融合机制融合多因素特征，计算视线范围内最可能关注的显著性物体位置，端到端的预测视线落点。

3、通过网格独热编码的方式转化位置信息，基于此设计分类损失，进一步结合回归损失加权设计混合损失函数，约束视线落点的预测结果，以训练检测效果更准确的网络模型。

本发明避免了穿戴式设备的不利影响，且低干扰、低成本、易推广，方便采集包含研究对象、场景元素及交互对象在内多角度画面的完整信息；视线检测系统充分利用了视频录像中多方面信息综合预测视线落点，且设计了相应机制得到更准确的端到端检测模型。

附图说明

图1为系统流程示意图；

图2为基于非接触式设备的ASD早期筛查场景；

图3为网格式独热编码示意图；

图4为ConvG卷积网络结构；

图5为视线特征提取路径的示意图；

图6为ConvS卷积网络结构；

图7为融合网络机制。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

如图1-7所示的一种基于非接触式设备的视线落点检测方法，图1表示了系统流程示意图，包括以下部分：

一.基于非接触式设备的数据采集场景搭建：

图2表示了基于非接触式设备的ASD早期筛查场景。该场景由隔板分为实验隔间(图中左侧)与监控隔间(图中右侧)，两部分互不打扰。实验隔间为亲子互动场地，宝宝椅将婴幼儿与家长视线高度平齐。通过wifi通讯将摄像机捕捉到的画面传输至监控间电脑，获得行为学影像数据。实验隔间多视角录制，摄像头均架设于对亲子交互无防碍的位置，实验环境隔离，以减少不良舒适度、外界干扰因素影响。

图2表示了多路摄像头捕捉画面。摄像头1、2布置于婴幼儿偏正脸的角度和家长偏正脸的角度，另外两个摄像头3、4置于侧面用来记录交互全况。对于婴幼儿视线落点的检测，需要婴幼儿的头部、眼部区域等信息，故选择第1路摄像头的画面进行分析。后续所述视线落点检测网络结构搭建过程中，所述的图片均为单路摄像头捕捉的视频帧。

二.基于视线落点检测网络结构搭建方法，包括以下步骤：

1.视线特征提取路径搭建：

视线特征由三部分组成。一部分为位置特征，一部分为头部特征，另一部分为眼部特征。其中，位置特征为研究对象眼睛在图片中的位置，代表了研究对象在画面场景中的位置信息。头部特征为卷积网络对研究对象头部图像提取的纹理特征，代表了头部姿态的信息；眼部特征为卷积网络对婴幼儿眼部区域图像提取的纹理特征，代表了眼睛姿态的信息。将三部分的特征矢量拼接并计算，得到研究对象在头部姿态和眼部姿态共同作用下，在该位置视线方向上的视觉区域特征，用于后续的检测，具体说明如下：

(1)位置特征构建：

图3表示了网格式独热编码示意图，具体步骤为将图片分割为N*N(N＝13)的网格，令研究对象眼睛所在网格取1，其余网格值取0，计算方式为：

其中，w*h*3为图片大小，(x_θ,y_θ)为图像像素坐标系下眼睛坐标，N*N为网格规格，由此计算得到取1位置为N*N网格内第x行y列位置，其中x，y为计算结果向上取整的结果。

再将得到的位置网格特征按行拼接为长度为N*N(N＝13)的一维特征矢量F_p。

(2)头部特征构建：

为了提取头部姿态特征，采用人工裁剪或者计算机自动检测的方式在当前视频帧图片上裁剪出头部区域图片。计算机目标检测可以采用人脸landmark点或者YOLO目标检测的方法实现。

将分割出的头部区域图片调整为227*227*3大小，通过图4表示的ConvG卷积网络结构提取头部特征。卷积网络设置同AlexNet包含第五层卷积层、激活层、池化层的前五层网络架构，获得N1*N1*D(N1＝6，D＝256)的深度特征，经全连接变换为长度为F(F＝500)的一维特征矢量F_h。

(3)眼部特征构建：

为了提取眼部区域特征，采用人工裁剪或者计算机自动检测的方式在图片上裁剪出眼部区域图片。计算机目标检测可以采用人脸landmark点或者YOLO目标检测的方法实现。

将分割出的眼部区域图片调整为227*227*3大小，通过，通过图4表示的ConvG卷积网络结构提取眼部特征。卷积网络设置同AlexNet包含第五层卷积层、激活层、池化层的前五层网络架构，获得N1*N1*D(N1＝6，D＝256)的深度特征，经全连接变换为长度为F(F＝500)的一维特征矢量F_e。

(4)视线特征融合

图5为视线特征提取路径的示意图，将得到的三部分特征矢量拼接，得到长度为L_g的一维特征矢量F_g，其中：

F_g＝[F_p,F_h,F_e]

L_g＝N²+F+F

将得到的F_g输入三层全连接层，变换为长度为N2(N2＝169)的一维特征矢量F_G，输入激活层映射到[0,1]区间内。激活层采用sigmoid激活函数，输入特征矢量与输出特征矢量的关系表达式为：

其中，F_Gi为特征矢量F_G的第i个值(i＝1，2，…，N2)，从而得到映射后的特征矢量Gt。

2.场景显著性特征提取路径搭建：

将完整图片调整为227*227*3大小，通过图6表示的ConvS卷积网络结构提取场景内组件的显著性特征。卷积网络设置同AlexNet包含第五层卷积层的前五层网络架构，获得Ns*Ns*D(Ns＝13，D＝256)的深度特征，经一层滤波卷积，产生Ns*Ns(Ns＝13)的显著性特征图，按行拼接为长度为N2(N2＝169)的一维特征矢量St。

3.视线落点预测机制：

将婴幼儿视线特征Gt、场景显著性特征St通过对位相乘操作进行两种信息的特征融合，通过图7表示的网络融合机制预测视线落点。对位相乘为一维的场景显著性特征与一维的婴幼儿视线特征对应位置相乘，得到一维的视线落点特征。经过一层全连接层，得到长度为N2(N2＝169)的一维概率分布，截取按行拼接为N*N的置信度网格，取置信度最高值所在网格为最终视线落点位置的预测结果，从而映射到图片中相应位置(x_pre,y_pre)，得到视线落点的预测。

设计基于训练集视线落点标注与网络预测结果的混合损失函数，迭代更新网络参数权重，得到具备视线落点检测能力的模型。分类损失定义为将视线落点预测值看做N²个类别的分类问题，计算每个类别预测的置信度与实际类别独热编码的交叉熵。回归损失为回归预测视线落点对应图片中位置的笛卡尔坐标(x_pre,y_pre)与所标注的实际视线落点(x_tru,y_tru)的欧氏距离。实际视线落点为人工对视频帧画面中研究对象视线落点的标注，也基于图像的像素坐标系。

L2距离公式为：

L₂:d_ii'(2)＝(|x_tru-x_pre|²+|y_tru-y_pre|²)^1/2

视线检测混合损失函数定义为网格化规则下的分类损失和回归损失的加权和，计算公式为：

MultiLoss＝classLoss+α·regreLoss

其中α为权重系数，通常取1，2，5。

网络训练实验可以采用k折交叉验证的策略进行，把数据分成k份,每次拿出一份作为验证集,剩下k-1份作为训练集,重复k次。最后平均k次的结果,作为误差评估的结果。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于非接触式设备的视线落点检测方法，其特征在于：包括以下步骤：

(1)基于非接触式设备的数据采集：

采用四个光学摄像头多视角同步录制隔离室内亲子社交行为的场景；通过wifi通讯将摄像头捕捉到的画面传输至监控间电脑，获得行为影像数据；行为影像数据包括采集到的图片；

(2)视线落点检测网络

a视线特征提取路径：

视线特征由位置特征、头部姿态特征、眼部特征三部分组成；其中位置特征定义为眼睛在图片中位置的网格式独热编码特征，以提取位置信息；头部特征定义为头部图像通过卷积网络计算的纹理特征，以提取头部姿态信息；眼部特征定义为眼部区域图像通过卷积网络计算的纹理特征，以提取眼部姿态信息；将三部分的特征矢量拼接，经多层全连接及一层激活层结构，以提取视线范围信息；

b场景显著性特征提取路径：

整张图片输入卷积网络获得场景组件的显著性深度图，经滤波器获得画面分布的重要性权重，以提取场景显著性特征；

c视线落点预测机制：

将视线特征、场景显著性特征通过对位相乘、全连接操作进行两种信息的特征融合，计算各网格类别的置信度结果，映射到图片中的相应位置，作为视线落点的预测；

(3)网络模型训练

设计基于视线落点标注与预测结果的混合损失函数，迭代更新网络参数权值，得到具备视线落点检测能力的模型；混合损失函数定义为位置网格式量化规则下的分类损失和回归损失的加权和。

2.如权利要求1所述的方法，其特征在于：所述的视线特征提取路径中，眼睛位置的网格式独热编码规则为，将图片分割为N*N的网格，目标点所在网格取1，其余网格值取0，再按行拼接为一维特征向量，N＝13。

3.如权利要求1所述的方法，其特征在于：所述的视线特征提取路径中，头部图像及眼部图像按手工截取或计算机自动截取的方式从单路录像视频帧的图像中获取；所述视线特征提取路径中，头部姿态特征卷积网络和眼部姿态特征卷积网络设置均同AlexNet的前五层网络架构，其中第五层包含卷积层、激活层、池化层，获得N₁*N₁*D的深度特征，经一层全连接层得到一维的特征矢量，N₁＝6，D＝256。

4.如权利要求3所述的方法，其特征在于：所述视线特征提取路径中，所述的激活层采用sigmoid函数将特征映射到[0,1]区间内，输入特征矢量与输出特征矢量的关系表达式为：

5.如权利要求1所述的方法，其特征在于：所述的场景显著性特征提取路径中，所述的整张图片输入的卷积网络设置均同AlexNet的前五层网络架构，其中第五层仅保留卷积层，得到N*N*D的深度特征，其中，N＝13，D＝256。

6.如权利要求1所述的方法，其特征在于：在所述的场景显著性特征提取路径中，所述的滤波器为卷积核为1*1*D的卷积层，得到N*N的显著特征，按行展开为一维特征矢量，其中，D＝256，N＝13。

7.如权利要求1所述的方法，其特征在于：所述的视线落点预测机制中，对位相乘为场景显著性一维特征与研究对象视线一维特征的对应位置元素分别相乘，得到一维的视线落点特征。

8.如权利要求1所述的方法，其特征在于：所述的视线落点预测机制中，视线落点的预测为位置网格式量化特征，将一维特征矢量截取按行拼接为N*N的置信度结果网格，选取置信度最高值所在网格为最终视线落点位置的预测结果，其中，N＝13。

9.如权利要求1所述的方法，其特征在于：所述分类损失定义为将视线落点预测看做N*N个类别的分类问题，计算每个类别的置信度与实际类别独热编码的差值绝对值之和，其中，N＝13；所述回归损失定义为预测视线落点对应图片中位置的笛卡尔坐标(x_pre,y_pre)与实际视线落点(x_tru,y_tru)的欧氏距离，即L2距离公式为：

L₂:d_ii'(2)＝(|x_tru-x_pre|²+|y_tru-y_pre|²)^1/2。

10.如权利要求1所述的方法，其特征在于：所述混合损失函数为位置网格式量化规则下的分类损失与回归损失的加权和：

MultiLoss＝classLoss+α·regreLoss

其中，classLosss和regreLoss分别代表分类损失和回归损失，α为调节分类损失和回归损失的比例权重。