CN109508755B

CN109508755B - 一种基于图像认知的心理测评方法

Info

Publication number: CN109508755B
Application number: CN201910056284.9A
Authority: CN
Inventors: 王海南; 张宝昌; 赵俊贺; 吕彦轩; 王语霖; 罗益; 侯光华
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2022-12-09
Anticipated expiration: 2039-01-22
Also published as: CN109508755A

Abstract

本发明公开了一种基于图像认知的心理测评方法，涉及眼动追踪及人工智能技术领域。其包括以下步骤：(1)建立具有对应心理学语义的图片集；(2)向被测者依次展示背景图片和前景图片；(3)采集被测者观看图片时的按键反应时间和眼动轨迹；(4)将按键反应时间和眼动轨迹数据输入并行LSTM网络，对被测者的心理状态进行分类。本发明方法简单易行，可以利用笔记本电脑的前置摄像头对被检测者看到图片时的反应时间及眼球追踪数据进行采集，并通过人工智能方法进行特征提取及分类，具有算法简单、易于实现、精确度高等优点。

Description

一种基于图像认知的心理测评方法

技术领域

本发明涉及眼动追踪及人工智能技术领域，特别是指一种基于图像认知的心理测评方法。

背景技术

当前，人们所承受的社会劳动量与日俱增，生活节奏日渐加快，工作压力日益增加，随之而来的心理问题不断危害着人们的身心健康和社会的安定。在这样的大环境下，人民群众对心理健康的需求飞速增长。最近发布的中国城镇居民心理健康白皮书中的调查结果显示，中国城镇居民中心理健康人数所占比例仅为10.3％，而其中73.6％处于心理亚健康状态，16.1％的人存在不同程度的心理问题。而且，最后一项比例在近年的统计中一直呈上升趋势，这表明我国社会所面临的心理问题已经十分严峻，必须引起足够的重视。事实上，这种现象在当今世界许多发达国家也早就普遍存在，并且引起了一部分人的关注。为了对有心理不健康现象的人的情绪状况做出及时的判断，早在上个世纪初发达国家就有不少的人开始研究如何对人的心理健康状况进行有效评估。

目前为止，公认的权威的心理测评方法是由明尼苏达大学的哈瑟韦和麦金力于上个世纪40年代提出的明尼苏达多项人格测验(MMPI)。该测验有566道判断题组成，其中的每一道题都是由哈瑟韦和麦金力从大量病史、医生笔记、早期人格量表中选出并进行反复验证后选用。经60多年的改进，MMPI已经成为一种非常成熟的人格测验，被广泛应用于精神病诊断、司法审判、犯罪调查、心理咨询等领域。

然而，目前对心理问题的诊断效率与准确度仍然不能满足随时代发展不断增长的心理测试方面的需求。以MMPI为代表的心理测评方法往往是以书面答题或口头交流的形式进行，这一过程主观性非常强，在很大程度上受到人为因素的影响，而且耗时长，效率低下，无法进行标准的量化分析。因此，有必要找到一种既能进行高效率的标准量化分析，又能克服语言交流带来的信息丢失等人为主观因素影响的心理分析方法。

现有技术中，有人选择利用人对不同图片做出的反应来分析测试者的心理状态，国内外已有很多文献证明了这一方式的可行性，如：

“Attentional bias for emotional faces in generalized anxietydisorder”，B.P.Bradley,K.Mogg,J.White,C.Groom,and J.D.Bono；

British Journal of Clinical Psychology,vol.38,No.3,pp.267–278,1999.

“ThuPIS:A new affective image system for psychological analysis.”Bao,Shurui,Huimin Ma,and Wenyu Li.

Bioelectronics and Bioinformatics(ISBB),2014IEEE InternationalSymposium on.IEEE,2014.

但是，上面这些文献中的方法还存在进一步改进的空间。

发明内容

有鉴于此，本发明提出一种基于图像认知的心理测评方法，该方法能够快速、准确地识别出受试者的心理状态。

为了实现上述目的，本发明采用的技术方案如下：

一种基于图像认知的心理测评方法，其特征在于，包括以下步骤：

(1)建立具有对应心理学语义的图片集，所述图片集包括前景图片和背景图片，所述前景图片为表情图片；

(2)向被测者依次展示背景图片和前景图片，由被测者对前景图片进行判断并按下相应按键；

(3)采集被测者观看图片时的按键反应时间和眼动轨迹；

(4)将按键反应时间和眼动轨迹数据输入并行LSTM网络，利用深度学习算法进行特征提取，并对被测者的心理状态进行分类。

具体的，所述步骤(2)的具体方式为：

首先向被测者展示背景图片，然后在背景图片的基础上以前景方式展示表情图片，展示表情图片的同时开始计时，直至被测者按下按键。

具体的，所述步骤(2)之前还包括以下步骤：

(010)对被测者进行视线的预校准，通过获取被测者在指定位置上的视线数据，借助回归方法得出Gaze-视线注意点转移矩阵；

所述步骤(3)包括以下步骤：

(301)拍摄被测者观看背景图片和前景图片时的面部视频，同时，当被测者在观看相应的前景图片时，记录下从前景图片展出到被测者按下按键的时间，即为被测者的按键反应时间；

(302)将视频分解为图像并借助Face++API以获取被测者观看背景图片和前景图片时的视线信息；

(303)借助步骤(010)得出的Gaze-视线注意点转移矩阵，将视线信息转化为被测者的视线落在屏幕上的相应位置；

(304)将步骤(303)得到的位置信息按时间排序，并连接到一起，从而得出被测者在观看图像时的眼动轨迹。

具体的，所述步骤(010)的具体方式为：

(011)依次在屏幕上随机地展示一个十字准星，第i次展示的十字准星的屏幕坐标为(x_i,y_i)；同时，当被测者目光注视第i次展示的准星时，拍摄被测者的人脸图像；

(012)根据多次拍摄的人脸图像与屏幕上准星位置之间的对应关系，借助Face++API，从人脸图像中提取被测者的视线信息，包括左眼的位置坐标(s_lxi,s_lyi)、右眼的位置坐标(s_rxi,s_ryi)、左眼视线的方向矢量(s_lgxi,s_lgyi,s_lgzi)，以及右眼视线的方向矢量(s_rgxi,s_rgyi,s_rgzi)；

(013)计算Gaze-视线注意点转移矩阵β：

β＝(X^TX)-¹X^TY，

式中，上标T表示矩阵的转置，上标-1表示矩阵求逆。

具体的，所述并行LSTM网络包括LSTM网络、BatchNorm层、全连接层、ReLU层、BN层和线性分类器，所述LSTM网络共有多个，各LSTM网络均为单层单节点，且输入大小为2，所述全连接层的输入大小为14，输出大小为32；

被测者的眼动轨迹作为LSTM网络的输入，LSTM网络输出结果与被测者的平均按键反应时间一起作为BatchNorm层的输入，在BatchNorm层中进行正则化处理，BatchNorm层的输出结果作为全连接层的输入，全连接层的输出再依次经过ReLU层和BN层的处理，最后进入线性分类器进行分类。

采用上述技术方案的有益效果在于：

1、本发明方法简单易行，可以利用笔记本电脑的前置摄像头，对被检测者看到图片时的反应时间及眼球追踪数据进行采集，并通过人工智能方法进行特征提取及分类，即可得到被测试者的心理状况。

2、不同于传统心理学研究往往采用专业的眼动仪设备的实现方式，本发明采用手机、电脑等常见的便携式设备即可采集数据，同时，结合已有的深度学习技术，可以直接通过拍摄视频的方式来进行眼动数据的采集。可见，本发明方法有效避免了传统方法对于场地和装置的苛刻要求。

3、本发明方法采用了由Face++北京旷视科技有限公司提供的Image Analysis接口，具有极强的准确性和可拓展性，极大地减小了程序的占用空间，并提高了程序的运行速度。

4、本发明基于对几何关系的分析而实现视线关注点对应关系的建模，摒弃了传统的低精度的几何建模方法，采用易于实现的最小二乘法在保证误差最小化的前提下进行一元拟合，具有算法简单、易于实现、精确度高等优点。

5、本发明在分类器的设计上，基于近年来得到广泛发展的深度学习技术，自主设计了ParaLSTMNet并行LSTM网络。通过并行循环神经网络，基于训练标签，对眼动数据自适应特征提取，而后加入平均反应时间，输入分类网络进行分类器训练，成功实现了异构数据的高效一体化，较为准确地实现了心理情感状态的判别分类。

附图说明

图1是本发明实施例中的眼动数据采集原理图；

图2是本发明实施例中ParaLSTMNet(并行LSTM网络)的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

一种基于图像认知的心理测评方法，其包括以下步骤：

(3)采集被测者观看图片时的按键反应时间和眼动轨迹；

具体的，所述步骤(2)的具体方式为：

具体的，所述步骤(2)之前还包括以下步骤：

所述步骤(3)包括以下步骤：

为实现该方法，首先需要建立具有对应心理学语义的图片集。如阳光下的鲜花、激情澎湃的运动员表达积极元素，而废墟、掩面叹息的人表示消极元素等。

如图1所示，该方法的简要流程如下：首先要对被测者进行视线的预校准，通过获取被测者在指定位置上的视线数据，借助回归方法得出Gaze-视线注意点转移矩阵。然后当被测者在观看相应图片时，记录下被测者的反应时间，同时拍摄对应的面部视频，然后将视频分解为图像并借助Face++API以获取被测者的视线信息。借助之前得出的Gaze-视线注意点转移矩阵，可以将视线信息转化为被测者的视线落在屏幕上的相应位置，然后再将这些位置信息按时间排序，并连接到一起，从而得出被测者在观看图像时的眼动轨迹。最后，利用深度学习算法将反应时间和眼动轨迹进行进一步的特征提取及心理状态的分类。

下面具体介绍整个心理评测过程的几个重要部分：

1、数据采集过程：为了捕捉人眼睛关注点的变换，同时出于对系统低成本及易用性的考虑，采用带前置摄像头的笔记本电脑作为主要硬件设备，屏幕显示图形界面，能够切换显示不同的图片。目前深度学习技术也已经实现了通过单一摄像头采集的图片来估算人的视线方向。在进行图像眼动反应实验时，软件在控制不同图片切换显示的同时，通过前置摄像头记录人的面部活动的视频，后续将采集的视频通过深度学习算法进行处理，得到眼动轨迹。

2、校准过程：深度学习算法可以得到采集的图片中人眼睛的视线，但无法直接得到人目光位于屏幕上的焦点的位置，即完成眼球定位。为将视线向量与人眼在屏幕上焦点的位置相关联，我们希望预先采集若干焦点与视线向量相关联的数据，来拟合这之前的非线性关系。将其称为校准过程。校准过程中，在屏幕上随机出现若干十字准星，被测试者目光注视该准星，然后按键，同时拍摄人脸图像。通过若干图像与屏幕上准星位置之间的对应关系，进行拟合，用于之后获取目光焦点。

每次校准时，屏幕上出现的准星位置为(x_i,y_i),i＝1,…,50,下标i表示每次测量时对应的数据。而借助Face++API，可以从人脸图像中提取到被测者的视线信息，包括左眼的位置坐标s_lxi,s_lyi，右眼的位置坐标s_rxi,s_ryi，左眼视线的方向矢量s_lgxi,s_lgyi,s_lgzi，右眼视线的方向矢量s_rgxi,s_rgyi,s_rgzi共计十个特征。则线性拟合过程可以由如下所示的方程组来表示：

Y＝Xβ

其中，

β矩阵是希望通过校准过程来进行学习得到的Gaze-视线注意点转移矩阵，β_i,j为转移矩阵中的参数。

根据最小二乘法原理，考虑超定方程组(超定指未知数小于方程个数)：

其中m代表有m个等式，n代表有n个未知数β，m>n；可以将其写成向量形式为：

Y＝Xβ

虽然该方程一般情况下无解，但是可以选择最合适的β让该方程组中尽量多的等式成立。为此，可以引入残差平方和函数S

S(β)＝||Xβ-Y||²

当Xβ＝Y,S(β)取最小值，记作：

通过对S(β)进行微分求极值，可以得到：

如果矩阵非奇异，则β有唯一解，即：

根据上述原理，Gaze-视线注意点转移矩阵可以通过以下公式计算得到：

β＝(X^TX)^-1X^TY

从而利用校准过程得到了Gaze-视线注意点转移矩阵。

3、视频处理过程：

首先将被测者在进行眼动反应实验时拍摄到的面部视频逐帧的转换为一组有序的图片集，每张图片的先后顺序即为其对应在视频中的时间顺序。然后，通过Face++API对每一张图片进行特征提取，获得被测者的视线信息(同校准过程中得到的信息：s_lxi,s_lyi,…,s_rgxi,s_rgyi,s_rgzi)。利用转移矩阵，可以根据视线信息反推出被测者在屏幕上注视的位置x_i,y_i，即

因此，按照上述方法，就将有序的图片集转换成了有序的被测者的注视信息。从而将被测者的面部视频信息转换为了相应的眼动轨迹。

4、情绪识别分类过程：作为程序采用的两项心理学评价指标，眼动轨迹和平均反应时间均蕴含分类器判别所需要的评价信息，但两者一为像素坐标值的不定长序列信息、一为表征时间的常数信息，在数据形式和量级上均具有异构的特性。因而，直接将眼动数据和时间数据并行等价输入分类器显然是不科学的，将显著影响分类器的分类效果。为了充分提取眼动轨迹中的信息进行分类，本例中将适用于处理序列信息的RNN循环神经网络与传统神经网络相结合，设计了一种ParaLSTMNet网络，其结构如图2所示。

具体来说，该ParaLSTMNet网络包括LSTM网络、BatchNorm层、全连接层、ReLU层、BN层和线性分类器，所述LSTM网络共有多个，各LSTM网络均为单层单节点，且输入大小为2，所述全连接层的输入大小为14，输出大小为32。

本发明基于目前准确性得到公认的MMPI明尼苏达多项人格心理学测试中的物象及概念特征建立了背景和表情图片集，通过采集受试者看到背景图像和表情图像后的反应时间和眼动数据来量化估计受试者的心理状态。将受试者第一次看到测试图片时的眼动数据以及在不同感情色彩的背景图片下，对不同感情色彩(积极、消极)的表情图片的认知反应时间作为心理判别特征。同时，以MMPI测试得到的判别结果作为性格标签，进行分类器训练，挖掘其中的深层次非线性关系，得到更加准确、可靠的判别结果。

本发明的测试形式采用竞争启动实验范式。图片分为背景图片和前景表情图片，在测试过程中，受试者首先仅看到单纯的背景图片，之后面部表情图片出现在背景图片上。受试者需要在背景图片的基础上对面部表情图片的属性(即积极或消极)做出判断并按下相应按键。通过受试者的对图片反应时间，眼动数据等来区分受试者的两对心理状态：外向与内向、焦虑与不焦虑。

综上，本发明利用RNN网络对序列数据极强的拟合能力对眼动轨迹进行有效的处理，利用分类网络传递回的有监督梯度作为监督信息对RNN网络进行训练，实现了自适应的眼动轨迹特征提取及分类。

总之，该方法可以通过手机或者电脑自带的摄像头采集视频数据，通过软件采集被测试者对不同类型图片及表情的反应时间和眼动轨迹数据，采用RNN深度学习方法对所采集的数据进行分类识别，将人的情绪和性格进行分类，得到被测试者焦虑与否的状态。该方法将眼下流行的人工智能技术与传统的心理识别系统结合起来，采用便捷的笔记本摄像头采集数据，具有容易获取数据，稳定性强、准确性高等优点。

Claims

1.一种基于图像认知的心理测评方法，其特征在于，包括以下步骤：

(010)对被测者进行视线的预校准，通过获取被测者在指定位置上的视线数据，借助回归方法得出Gaze-视线注意点转移矩阵；具体方式为：

(011)依次在屏幕上随机地展示一个十字准星，第i次展示的十字准星的屏幕坐标为(x_i，y_i)；同时，当被测者目光注视第i次展示的准星时，拍摄被测者的人脸图像；

(012)根据多次拍摄的人脸图像与屏幕上准星位置之间的对应关系，借助Face++API，从人脸图像中提取被测者的视线信息，包括左眼的位置坐标(s_lxi，s_lyi)、右眼的位置坐标(s_rxi，s_ryi)、左眼视线的方向矢量(s_lgxi，s_lgyi，s_lgzi)，以及右眼视线的方向矢量(s_rgxi，s_rgyi，s_rgzi)；

(013)计算Gaze-视线注意点转移矩阵β：

β＝(X^TX)^-1X^TY，

式中，上标T表示矩阵的转置，上标-1表示矩阵求逆；

(2)向被测者依次展示背景图片和前景图片，由被测者对前景图片进行判断并按下相应按键；具体方式为：

首先向被测者展示背景图片，然后在背景图片的基础上以前景方式展示表情图片，展示表情图片的同时开始计时，直至被测者按下按键；

(3)采集被测者观看图片时的按键反应时间和眼动轨迹；具体方式为：

(304)将步骤(303)得到的位置信息按时间排序，并连接到一起，从而得出被测者在观看图像时的眼动轨迹；

2.根据权利要求1所述的一种基于图像认知的心理测评方法，其特征在于，所述并行LSTM网络包括LSTM网络、BatchNorm层、全连接层、ReLU层、BN层和线性分类器，所述LSTM网络共有多个，各LSTM网络均为单层单节点，且输入大小为2，所述全连接层的输入大小为14，输出大小为32；