CN112331351A

CN112331351A - 集成眼动数据分析的抑郁症数据筛查方法及系统

Info

Publication number: CN112331351A
Application number: CN202011212372.2A
Authority: CN
Inventors: 郑秀娟; 沈胤宏; 王艳; 刘华茜; 张昀; 刘凯
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-05
Anticipated expiration: 2040-11-03
Also published as: CN112331351B

Abstract

本发明涉及一种集成眼动数据分析的抑郁症数据筛查方法及系统，该方法包括以下步骤：获得不同受试者在回答自查量表文本中的问题过程中的眼动数据；基于语义分析对所述自查量表文本划分感兴趣区域，并基于划分的感兴趣区域得到所述眼动数据对应的字符串；将不同受试者对应的字符串进行相似度计算；基于相似度计算结果将不同受试者的眼动数据进行分类。通过本发明方法及系统，可以更加准确地筛查出抑郁症患者的眼动数据，提高基于自查量表的抑郁症检测结果的准确性。

Description

集成眼动数据分析的抑郁症数据筛查方法及系统

技术领域

本发明涉及眼动数据分析与应用技术领域，特别涉及一种集成眼动数据分析的抑郁症数据筛查方法及系统。

背景技术

抑郁症是一种负担重的，反复发作的精神健康疾病，在世界范围内普遍流行。检测抑郁症的传统方法依赖于结构化的访谈和问卷调查，劳动强度大且耗时长，而且诊断结果通常取决于心理学家的经验和受试者的诚实，即容易受到主观因素的影响。也有方法通过加入脑电、心电等电生理参数等提高传统方法的客观性，但电生理参数的获取需要穿戴特定的设备不利于临床操作，同时也忽略了传统量表的经验信息。

近年来，眼动追踪技术已在心理学中用于测量认知过程。视觉刺激和注意力机制之间存在密切的关系，通过眼动数据可以了解受试者的精神负荷和认知状态。无论在空间还是时间上，扫描路径都具有完美的眼动信息存储性能，不仅可以反映出对象在哪里看了多长时间，而且还反映出对象进行信息处理的顺序。与注视相比，扫描路径更适合于量化视觉行为中眼动的动态，因此，可以利用扫描路径的相似性比较方法进行抑郁症检测。

现有的眼动数据分析方法中，基于扫描路径相似度比较算法的抑郁症检测主要有注意力视图类、几何向量类和字符类。注意力视图类扫描路径比较算法过于简单粗糙，而几何向量类扫描路径比较算法又过于复杂精细，所以这两类算法的应用范围较小，更广为用之的是字符类扫描路径比较算法。对于字符类扫描路径比较算法，首先要对人眼扫描的平面图划分感兴趣区(AOI)，现有的AOI 分割法主要有网格化AOI法和等频分箱法。网格化法将AOI按照行、列划分为等大的网格，等频分箱法则是以划分的每个区域注视点个数相等为目的，二者均忽略了语义信息，破坏了刺激的完整性，继而使得检测结果的准确性还有待提高。

发明内容

本发明的目的在于改善现有技术中所存在的检测结果准确性不足的技术问题，提供一种集成眼动数据分析的抑郁症筛查方法及系统。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种集成眼动数据分析的抑郁症数据筛查方法，包括以下步骤：

获得不同受试者在回答自查量表文本中的问题过程中的眼动数据；

基于语义分析对所述自查量表文本划分感兴趣区域，并基于划分的感兴趣区域得到所述眼动数据对应的字符串；

将不同受试者对应的字符串进行相似度计算；

基于相似度计算结果将不同受试者的眼动数据进行分类。

上述方法中，所述抑郁症数据是指患有抑郁症的受试者对应的眼动数据，包括不同程度的抑郁症患者对应的眼动数据。由于受试者在读题的时候，受到的刺激是源于内容，而上述方法中是基于语义对自查量表文本划分感兴趣区域，然后再基于感兴趣区域将眼动数据中的注视点转换为字符序列，因此相比于现有其他方法(忽略了受试者的刺激)，数据分类结果更加准确，即抑郁症数据筛查结果更加准确。

在一种实施方案中，所述基于语义分析对所述自查量表文本划分感兴趣区域的步骤，包括：基于字典的中文分词方法，对自查量表文本中的单词进行分割；每分割出一个单词用一个感兴趣区域标识。

字典中记录了单词或者复合词，单词或者复合词都是依据中文分词方法得到的，基于字典对文本中的单词进行分割，相比于基于人主观意志的随意性分割，可以提高分词结果的准确性。

在一种实施方案中，所述基于字典的中文分词方法，对自查量表文本中的单词进行分割的步骤，包括：基于字典的中文分词方法，对自查量表文本中的单词进行分割；若相邻单词之间构成复合词，则将基于字典匹配出的最长复合词用一个感兴趣区域标识；若不构成复合词，则将每个单词分别用一个感兴趣区域标识；若基于字典不能匹配出单词，则将单个字用一个感兴趣区域标识。

自查量表文本中若存在从字典中查找不出来的单词或者复合词，则将单个字用一个感兴趣区域标识，既可以保障感兴趣区域的顺利分割，也可以保障分割结果的准确性。

在一种实施方案中，所述基于划分的感兴趣区域得到所述眼动数据对应的字符串的步骤，包括：将每个感兴趣区域用一个字符标记；将眼动数据中的每一个注视点用所述字符标记，且同一个感兴趣区域中的所有注视点用同一个字符标记；将感兴趣区域外的注视点，用区别于所有感兴趣区域字符的字符标记；标记完成后得到所述眼动数据对应的字符串。

受试者在阅读自查量表文本中的问题时，不一定只注视文字内容，也可能会注视其他区域，例如文本中的空白处，或者文本外的环境，此时，将这些注视点以区别于自查量表文本中的问题中的文字(单词，复合词，或独立字)的字符标记，有利于提高眼动数据转换为字符序列的准确性，继而提高筛选结果的准确性。

另一方面，本发明实施例同时提供了一种集成眼动数据分析的抑郁症筛查系统，包括：

眼动仪，用于采集不同受试者在回答自查量表文本中的问题过程中的眼动数据；

数据分析装置，接收眼动仪所采集的眼动数据，并基于语义分析对所述自查量表文本划分感兴趣区域，并基于划分的感兴趣区域得到所述眼动数据对应的字符串；将不同受试者对应的字符串进行相似度计算；基于相似度计算结果将不同受试者的眼动数据进行分类。

其中，数据分析装置包括数据接口、存储器和处理器，数据接口与眼动仪连接用于接收眼动数据，存储器用于存储程序指令，处理器用于执行存储器中的程序指令，以实现所述基于语义分析对所述自查量表文本划分感兴趣区域，并基于划分的感兴趣区域得到所述眼动数据对应的字符串、将不同受试者对应的字符串进行相似度计算、基于相似度计算结果将不同受试者的眼动数据进行分类的操作。

与现有技术相比，本发明提供的方法或系统，基于语义对自查量表文本划分感兴趣区域，然后再基于感兴趣区域将眼动数据中的注视点转换为字符序列，因此相比于现有其他方法，数据分类结果更加准确，即筛查出来的抑郁症数据更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的集成眼动数据分析的抑郁症数据筛查方法的流程图。

图2为步骤S20的细化步骤示意图。

图3a为针对某文本基于语义信息进行AOI分割的示意图。

图3b为针对某文本基于网格法进行AOI分割的示意图。

图3c为针对某文本基于等频分箱进行AOI分割的示意图。

图4a为采用Needman-Wunsch网格方法得到的正常人、高危人群和抑郁症患者扫描路径比较检测结果的混淆矩阵示意图。

图4b为采用Needman-Wunsch语义方法得到的正常人、高危人群和抑郁症患者扫描路径比较检测结果的混淆矩阵示意图。

图4c为采用SubsMatch等频分箱方法得到的正常人、高危人群和抑郁症患者扫描路径比较检测结果的混淆矩阵示意图。

图4d为采用SubsMatch语义方法得到的正常人、高危人群和抑郁症患者扫描路径比较检测结果的混淆矩阵示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例提供了一种集成眼动数据分析的抑郁症数据筛查方法，包括以下步骤：

S10，获得不同受试者在回答自查量表文本中的问题过程中的眼动数据。

眼动数据可以通过眼动仪采集。

容易理解的是，此处不同受试者的眼动数据并不一定是同一次采集而得。如果当前有多个受试者，需要从这多个受试者在筛查出是否有抑郁症患者，或者对抑郁症的不同程度进行分类，那么此时可以是同一次采集多得该多个受试者的眼动数据，得到多份眼动数据，然后对该多份眼动数据进行分类。如果单号给钱受试者只有一个，那么可以将以往的其他受试者的眼动数据补充进来以便于数据分类，补充的眼动数据至少包括正常人(仅指无抑郁症)的眼动数据，也可以还包括不同程度抑郁症患者的眼动数据。

此处的自查量表文本中的问题是抑郁症测试时通用的自查量表文本(或称为自评抑郁量表)中的问题。容易理解地，为了避免客观条件的影响，所有的受试者都是基于同一份自查量表文本进行眼动数据采集，且测试环境相同。

S20，基于语义分析对所述自查量表文本划分感兴趣区域(AOI)，并基于划分的感兴趣区域得到所述眼动数据对应的字符串。

作为一种具体实施方式，请参阅图2，本步骤的具体操作可以包括以下步骤：

S201，基于字典的中文分词方法，对自查量表文本中的单词进行分割，若相邻单词之间构成复合词，则将基于字典匹配出的最长复合词用一个感兴趣区域标识，若不构成复合词，则将每个单词分别用一个感兴趣区域标识；若基于字典不能匹配出单词，则将单个字用一个感兴趣区域标识。

如图3a所示，受试者对于自查量表文本中的问题“我常常觉得自己令人失望”及答案“是”“否”，基于字典分词法分词后得到：我，常常，觉得，自己，令人失望，是，否，基于中文语义的分词，因此，对于英文字母“A”“B”不考虑。

S202，每分割出一个单词用一个感兴趣区域标识。

例如上述举例，“我”，“常常”，“觉得”，“自己”，“令人失望”，“是”，“否”，分别用一个AOI标识。

S203，将每个感兴趣区域用一个字符标记。

例如上述举例，如图3a所示，“我”对应的AOI用字符A标记，“常常”对应的AOI用字符B标记，“觉得”对应的AOI用字符C标记，“自己”对应的AOI用字符 D标记，“令人失望”对应的AOI用字符E标记，“是”对应的AOI用字符Y标记，“否” 对应的AOI用字符N标记。

S204，将眼动数据中的每一个注视点用所述字符标记，且同一个感兴趣区域中的所有注视点用同一个字符标记；将感兴趣区域外的注视点，用区别于所有感兴趣区域的字符的字符标记，标记完成后得到所述眼动数据对应的字符串。

例如图3a所示，图中用线连接起来的每一个点即是一个注视点，注视点用线连接起来即得扫描路径。

“我”对应的AOI中只有一个注视点，该注视点用字符A标记；“常常”对应的AOI有两个注视点，该两个注视点均用字符B标记；“觉得”对应的AOI两个注视点，该两个注视点均用字符C标记；“自己”对应的AOI只有一个注视点，该注视点用字符D标记；“令人失望”对应的AOI有7个注视点，该7个注视点均用字符E标记；“是”对应的AOI只有一个注视点，该注视点用字符Y标记；“否”对应的AOI有4个注视点，该4个注视点均用字符N标记。

另外，“常常”对应的AOI与“觉得”对应的AOI之间的空白区域有一个注视点，“觉得”对应的AOI与“自己”对应的AOI之间的空白区域有一个注视点，“令人失望”对应的AOI与“是”对应的AOI之间的空白区域有一个注视点，“否”对应的AOI之间的空白区域有一个注视点，这些注视点都用字符O标记。

标记完成后，即得到所述眼动数据对应的字符串(或称为字符序列)，ABBOCCODEEEEEEEOYNNNNO。

S30，将不同受试者对应的字符串进行相似度计算。

本步骤中，可以采用多种相似度计算方法计算不同受试者对于的字符串之间的相似度。此处就以Needleman-Wunsch算法和SubsMatch算法为例进行简要描述。

(1)Needleman-Wunsch(也可以写成NeedlemanWunsch)字符串比较算法

假设两条字符串序列分别为A＝{a₁a₂a₃......a_n}，B＝{b₁b₂b₃······b_m}，建立一个二维矩阵M。n，m分别代表各自的长度，a_i表示序列A的第i个字符，b_j表示序列B 的第j个字符(1<＝i<＝n，1<＝j<＝m)。M_ij表示两序列对应位置字符比对的最佳得分。

第一步：初始化得分矩阵

在初始化得分矩阵时，首先要制定罚分规则。本发明实施例中采用的是权值恒定的罚分规则，对比打分可定义为σ，具体规则如下：

其中，匹配得分为“1”，错配得分为“0”，插入空位时得分为“0”。

第二步：计算并填充得分矩阵

实际上计算得分矩阵各个元素的过程，就是一个计算递归M_ij的过程，想要计算M_ij就必须知道M_i-1，j-1的值，M_i-1，j的值以及M_i，j-1的值，下面是计算得分矩阵的迭代公式：

在填充公式中可以看出，到达M_ij的某个值可以从三条路径中获得，所以，想要求解M_ij的值就需要求出这三条路径对应值的最大值的得分。

以A＝GGATCGA，B＝GAATTCAGTTA为例，根据式子计算得分矩阵M各个元素的得分值如下表1所示。

表1

		G	A	A	T	T	C	A	G	T	T	A
														0	0	0	0	0	0	0	0	0	0	0	0
G	0	1	1	1	1	1	1	1	1	1	1	1
													G	0	1	1	1	1	1	1	1	2	2	2	2
A	0	1	2	2	2	2	2	2	2	2	2	3
													T	0	1	2	2	3	3	3	3	3	3	3	3
C	0	1	2	2	3	3	4	4	4	4	4	4
													G	0	1	2	2	3	3	4	4	5	5	5	5
A	0	1	2	3	3	3	4	5	5	5	5	6

第三步：回溯最优路径，得到序列相似得分

当得分矩阵中的所有的值都被计算出来后，序列的最优全局比对结果就是从得分矩阵的右下角开始，一直回溯到左上角为止的路径。即“怎么来的，怎么回去”的原则。如下表2中的粗体大号字所示：

表2

第四步：字符串匹配

根据回溯路径从左上角到右下角，以“先到先得，没有就空”的原则进行字符串匹配，示例匹配结果如下：A：GGA_TC_G__A,B：GGATTCAGTTA。

字符个数匹配越多的两个序列，相似度越高，即得分矩阵最大值越大，参与比较的字符串序列越相似。

(2)SubsMatch字符串比较算法

第一步，构建子序列哈希表

将步骤S20得到的字符串拆分为大小为w(用户可以根据需求自己定义)的所有可能子序列。每个子序列的出现次数是通过大小为w的滑动窗口计算的。在每个步骤中，将当前子序列插入到哈希表中，并将该子序列作为键，并将其在原始序列中的出现次数作为其各自的值。

例如字符序列为ACDBEDFFF，取w＝3，则可以得到子序列ACD，CDB， DBE，BED，EDF，DFF，FFF，FFF，哈希表如下表3所示：

表3

关键字符串	发生次数	频率
			ACD	1	0.125
CDB	1	0.125
			DBE	1	0.125
BED	1	0.125
			EDF	1	0.125
DFF	1	0.125
			FFF	2	0.250

第二步：计算两个字符串的相似度

为了比较子序列频率表，针对每个子序列计算出现频率的差异，然后将这些频率差的绝对值相加。当序列之一包含了出现的所有子序列时，此距离度量是对称的。将该结果表示为扫描路径(也即扫描路径对应的字符串)S和T之间距离d(S，T)的两倍，其中d∈[0，1]。将S和T之间的相似度γ定义为1-d(S，T)。

对于Needleman-Wunsch算法，本发明实施例中采用的是权值恒定的罚分规则，对比打分可定义为σ，除此为改进之外，其他步骤都是现有技术；对于 SubsMatch算法直接采用的是现有技术，没有做改进。由于这两种算法为现有技术，故此处仅做简要描述。

容易理解的，当受试者只有一个时，则可以将其眼动数据对应的字符串与正常人(仅指无抑郁症)的眼动数据对应的字符串进行相似度计算。当受试者为多个时，则可以将该多个受试者的眼动数据对应的字符串进行相似度计算。

S40，基于相似度计算结果将不同受试者的眼动数据进行分类，得到筛查结果。

作为举例，本实施例中采用KNN算法进行数据分类，且K＝1，也就是最近邻分类算法。KNN算法根据其k个最近邻的训练集实例的类别，通过多数表决等方式对新实例的类别进行预测。

KNN具体算法如下：

输入：训练数据集T＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，其中

为训练实例的特征向量，

为训练实例的类别。

输出：新输入实例x所属类别y。

(1)根据给定的距离度量，在训练集T中找到与x最近的k个点，涵盖这k个点的邻域记为N_k(x)。

(2)在N_k(x)中根据分类决策规则(如多数表决)决定x所属的类别y：

其中I为指示函数，仅当y_i＝c_j时的值为1，否则为0。

本发明使用的最近邻分类算法选取一个点作为最近邻，输入的训练实例特征向量为受试者人眼扫描路径(对应的字符串)的相似度。距离度量采用的方法是欧式距离。

KNN算法也是现有技术，因此此处仅做简要说明，不再赘述。

患者在读题的时候，受到的刺激是源于自查量表文本中的问题的内容。上述方法中，主要通过采用基于语义分析的方法对自查量表文本进行AOI划分，划分结果的准确度更高，因而基于该划分结果得到眼动数据对应的字符串的准确度更高，继而基于该字符串进行数据分类的分类结果的准确度更高。即是说，通过上述方法对受试者的眼动数据进行筛查，可以更准确地筛查出抑郁症数据。

为了进一步验证上述方法的效果，做了4组实验，分别是Needleman-Wunsch 网格，Needleman-Wunsch语义，SubsMatch等频分箱和SubsMatch语义。其中， Needleman-Wunsch网格与NeedlemanWunsch语义的区别在于，Needleman-Wunsch 网格方法中采用网格法进行AOI分割，而Needleman-Wunsch语义采用上述步骤 S20所述的语义法进行AOI分割，两者的其他步骤相同。SubsMatch等频分箱和 SubsMatch语义的区别在于，SubsMatch等频分箱法采用等频分箱法进行AOI分割，而SubsMatch语义采用上述步骤S20所述的语义法进行AOI分割，两者的其他步骤相同。Needleman-Wunsch语义与SubsMatch语义的区别在于采用的序列相似度计算方法不同，Needleman-Wunsch语义采用NeedlemanWunsch相似度计算方法，SubsMatch语义采用SubsMatch相似度计算方法，其他步骤相同。

如图3b、图3c所示，分别为基于网格法和基于等频分箱法进行AOI分割的示意图。针对于相同的自查量表文本中的问题文本，基于网格法得到的眼动数据对应的字符串为ABBBBBBCCCDDDDDDHIJJJJ，基于等频分箱法得到的眼动数据对应的字符串为AAAABBBCCCCDDDDDBEEEEE。

为了合理评价抑郁症检测结果，此处采取的评价指标是macroACC， macroP，macroR和macroF1，根据这些指标比较每种模型的分类结果，这些评估指标是根据表4中列出的参数计算得出的。

表4：分类结果的混淆矩阵表示

这些度量分别指示多分类器的宏观准确性、准确性、召回率和F1 分数。四组实验的评价指标结果如表5所示。

表5：每个项目的平均筛查准确率结果

algorithm	macroACC	macroP	macroR	macroF1
					Needleman-Wunsch_网格	79.34％	72.91％	69.87％	71.35％
Needleman-Wunsch_语义	83.32％	79.79％	76.09％	77.90％
					SubsMatch_等频分箱	77.10％	74.90％	66.60％	70.55％
SubsMatch_语义	86.79％	83.96％	81.25％	82.58％

*最佳结果以粗体显示，次佳结果以斜体显示*

上表5列出了用于比较扫描路径比较模型性能的macroACC，macroP， macroR和macroF1。四个模型的分类结果均高于33.3％的机会水平，这说明使用扫描路径比较算法来检测抑郁症及其高危人群是合理的。无论对于Needleman-Wunsch算法还是SubsMatch，基于语义信息的扫描路径比较算法都可以获得更好的评估指标。

图4a、图4b、图4c、图4d分别显示了采用Needman-Wunsch网格方法、Needman-Wunsch语义方法、SubsMatch等频分箱方法、SubsMatch 语义方法得到的正常人、高危人群和抑郁症患者扫描路径比较检测结果的混淆矩阵。本发明的基于语义信息的扫描路径比较模型中抑郁高危人群的分类准确率分别为82.67％和90.37％，而基于网格或等频分箱的扫描路径比较模型中抑郁分类的准确性仅为71.87％和63.60％。使用 Needman-Wunsch算法，基于语义信息的高风险组扫描路径的分类结果与基于网格的扫描路径的分类之间的差异为10.80％，而使用SubsMatch 算法，基于语义信息的高风险组扫描路径的分类结果与基于等频分箱的扫描路径的分类之间的差异达到26.77％。如结果所示，本发明方法可以对抑郁症数据进行更加准确的分类筛查。

容易理解的，上述方法中包括的各个步骤可以编辑为程序治疗，通过一个数据分析装置来执行实施。数据分析装置包括数据接口、存储器和处理器，数据接口与眼动仪连接用于接收眼动数据，存储器用于存储程序指令，处理器用于执行存储器中的程序指令。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种集成眼动数据分析的抑郁症数据筛查方法，其特征在于，包括以下步骤：

将不同受试者对应的字符串进行相似度计算；

基于相似度计算结果将不同受试者的眼动数据进行分类。

2.根据权利要求1所述的方法，其特征在于，所述基于语义分析对所述自查量表文本划分感兴趣区域的步骤，包括：

基于字典的中文分词方法，对自查量表文本中的单词进行分割；

每分割出一个单词用一个感兴趣区域标识。

3.根据权利要求2所述的方法，其特征在于，所述基于字典的中文分词方法，对自查量表文本中的单词进行分割的步骤，包括：

基于字典的中文分词方法，对自查量表文本中的单词进行分割；若相邻单词之间构成复合词，则将基于字典匹配出的最长复合词用一个感兴趣区域标识；若不构成复合词，则将每个单词分别用一个感兴趣区域标识；若基于字典不能匹配出单词，则将单个字用一个感兴趣区域标识。

4.根据权利要求1所述的方法，其特征在于，所述基于划分的感兴趣区域得到所述眼动数据对应的字符串的步骤，包括：

将每个感兴趣区域用一个字符标记；

将眼动数据中的每一个注视点用所述字符标记，且同一个感兴趣区域中的所有注视点用同一个字符标记；

将感兴趣区域外的注视点，用区别于所有感兴趣区域字符的字符标记；

标记完成后得到所述眼动数据对应的字符串。

5.根据权利要求1所述的方法，其特征在于，所述将不同受试者对应的字符串进行相似度计算的步骤中，采用Needleman-Wunsch算法或SubsMatch算法进行相似度计算。

6.根据权利要求1所述的方法，其特征在于，所述基于相似度计算结果将不同受试者的眼动数据进行分类的步骤中，采用KNN算法进行数据分类，且K=1。

7.一种集成眼动数据分析的抑郁症数据筛查系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，数据分析装置在基于语义分析对所述自查量表文本划分感兴趣区域时，首先基于字典的中文分词方法，对自查量表文本中的单词进行分割，然后再每分割出一个单词用一个感兴趣区域标识。

9.根据权利要求7所述的系统，其特征在于，数据分析装置在基于划分的感兴趣区域得到所述眼动数据对应的字符串时，将每个感兴趣区域用一个字符标记；将眼动数据中的每一个注视点用所述字符标记，且同一个感兴趣区域中的所有注视点用同一个字符标记；将感兴趣区域外的注视点，用区别于所有感兴趣区域的字符的字符标记。

10.根据权利要求7所述的系统，其特征在于，数据分析装置包括数据接口、存储器和处理器，数据接口与眼动仪连接以接收眼动数据，存储器用于存储程序指令，处理器用于执行存储器中的程序指令，以实现所述基于语义分析对所述自查量表文本划分感兴趣区域，并基于划分的感兴趣区域得到所述眼动数据对应的字符串、将不同受试者对应的字符串进行相似度计算、基于相似度计算结果将不同受试者的眼动数据进行分类的操作。