CN116883794B

CN116883794B - 基于图注意力网络的空间结构认知能力评估方法及系统

Info

Publication number: CN116883794B
Application number: CN202311150885.9A
Authority: CN
Inventors: 刘川; 沈一; 梁淇贺; 蔡龙军; 王晓怡
Original assignee: Beijing Smart Spirit Technology Co ltd
Current assignee: Beijing Smart Spirit Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2024-05-31
Anticipated expiration: 2043-09-07
Also published as: CN116883794A

Abstract

本发明公开了一种基于图注意力网络的空间结构认知能力评估方法及系统。该方法包括如下步骤：从预设题库中随机抽取空间几何图形，供用户进行绘制；获取用户对空间几何图形的绘制信息，其中，绘制信息至少包括绘制图形、线条坐标以及线条绘制顺序；基于绘制信息进行采样点的采集，并将采集信息转化为预设形式的输入信息；将输入信息输入预设模型，以基于预设模型判断绘制图形属于正确类别的概率值；基于概率值计算用户的空间认知能力得分，用于对用户进行空间结构认知能力评估。本发明采用机器学习模型进行空间结构认知能力评估，可以节约人力成本，同时不依赖于昂贵设备，显著降低认知能力评估成本。

Description

基于图注意力网络的空间结构认知能力评估方法及系统

技术领域

本发明涉及一种基于图注意力网络的空间结构认知能力评估方法，同时也涉及相应的空间结构认知能力评估系统，属于认知评估技术领域。

背景技术

空间结构认知能力是一种重要的认知技能。多种认知障碍性疾病都会造成患者的空间结构认知功能衰退。因此，对患者的空间认知能力进行准确有效的评估，对于阿尔兹海默病等认知障碍相关疾病的筛查和诊疗具有重要的意义。

传统的空间结构认知能力评估通常以量表的形式展开。这类量表检查通常需要在具有专业背景的医护人员指导下进行，评估时间较长而且容易受到医护人员主观因素的干扰。

在公开号为CN114664442A的中国专利申请中，公开了一种基于虚拟现实的空间认知能力智能评估系统。该系统以沉浸式虚拟现实场景为载体，设计了一种水迷宫认知测试任务，通过用户以第一人称视角在水迷宫任务中与虚拟现实场景的交互情况评估用户的空间认知能力。虽然该系统可以使用户获得很好的沉浸感，但是需要使用昂贵的虚拟现实设备，成本相对较高。

发明内容

本发明所要解决的首要技术问题在于提供一种基于图注意力网络的空间结构认知能力评估方法。

本发明所要解决的另一技术问题在于提供一种基于图注意力网络的空间结构认知能力评估系统。

为实现上述技术目的，本发明采用以下的技术方案：

根据本发明实施例的第一方面，提供一种基于图注意力网络的空间结构认知能力评估方法，包括如下步骤：

从预设题库中随机抽取空间几何图形，供用户进行绘制；

获取所述用户对所述空间几何图形的绘制信息，其中，所述绘制信息至少包括绘制图形、线条坐标以及线条绘制顺序；

基于所述绘制信息进行采样点的采集，并将采集信息转化为预设形式的输入信息；

将所述输入信息输入预设模型，以基于所述预设模型判断所述绘制图形属于正确类别的概率值；

基于所述概率值计算所述用户的空间认知能力得分，用于对用户进行空间结构认知能力评估。

其中较优地，所述预设模型通过以下方式构建：

基于历史数据收集历史用户绘制的手绘图形；

从所述手绘图形中采集K个采样点，组成集合S；

将所述集合S转化为长度为4K的第一向量V，

V = [x₁, y₁, x₂, y₂…x_i, y_i… x_k, y_k；f₁, f₂…f_i… f_k；p₁, p₂…p_i… p_k]；

其中，第一向量V中的x_i, y_i对应集合S中第i个点的坐标信息；第一向量V中的f_i对应集合S中第i个点对应的状态，所述状态共包括线条的起始位置、线条的中间和多个线条的交汇三种取值；第一向量V中的p_i对应集合S中第i个点对应的时序信息，其中，p₁对应最先被绘制的点位，p_k对应最后被绘制的点位；

标记所述第一向量V对应的空间几何图形的类别，以形成第一训练样本；

重复上述过程，以基于历史数据获取多个训练样本，形成用于图注意力网络手绘图形识别的预设模型D，

；

其中，N表示预设模型D中的样本数量；z表示当前样本对应的空间几何图形类别，所述空间几何图形类别的总数预定为m，所述预设模型D所能够识别的类别为m＋1，以对应所述预设模型无法识别的情况。

其中较优地，基于所述绘制信息进行采样点的采集，并将采集信息转化为预设形式的输入信息，包括如下步骤：

根据所述线条坐标以及线条绘制顺序，依次选取每个线条的起始点和终止点；

在每个线条的中间部分随机采集若干采样点，以使采集的采样点总数为K；

将所述K个采样点组成集合S₀；

将所述集合S₀转化为长度为4K的第二向量V₀，

V₀ = [x₁, y₁, x₂, y₂…x_i, y_i… x_k, y_k；f₁, f₂…f_i… f_k；p₁, p₂…p_i… p_k]；

其中，第二向量V₀中的x_i, y_i对应集合S₀中第i个点的坐标信息；第二向量V₀中的f_i对应集合S₀中第i个点对应的状态，所述状态共包括线条的起始位置、线条的中间和多个线条的交汇三种取值；第二向量V₀中的pi对应集合S₀中第i个点对应的时序信息，其中，p1对应最先被绘制的点位，pk对应最后被绘制的点位。

其中较优地，基于所述预设模型判断所述绘制图形属于正确类别的概率值，包括如下步骤：

S1：针对所述第二向量V₀中的K个采样点，将每一个所述采样点的坐标信息、状态信息和时序信息均转化为预设长度的嵌入向量；

S2：基于所述K个采样点的嵌入向量，刻画同一线条内部采样点之间的关系，形成第一图结构；并刻画不同线条间采样点之间的关系，形成第二图结构；

S3：基于所述第一图结构和所述第二图结构，采用图注意网络进行信息抽取，以计算当前采样点与邻居采样点之间的注意力系数，进而对每个采样点进行重新表征；

S4：将每个采样点的重新表征结果输入多层感知机，输出所述绘制图形属于正确类别的概率值。

其中较优地，所述步骤S1包括：

将采样点q的坐标信息投影成长度为d的坐标向量e(C_q)；

定义一个长度为K＋3的嵌入字典，以使每个时序与状态的取值在所述嵌入字典中都对应一个长度为d的向量；

根据所述采样点的时序信息和状态信息，从所述嵌入字典中查找对应的状态向量e(f_q)和时序向量e(p_q)；

将所述坐标向量e(C_q)、状态向量e(f_q)和时序向量e(p_q)进行向量拼接，以构成所述采样点的长度为3d的嵌入向量h_q，

；

重复上述步骤，直至获取所述第二向量V₀中所有采样点的嵌入向量。

其中较优地，所述步骤S2包括：

采用局部图（Local Graph）的邻接矩阵刻画线条内部采样点之间的关系，并采用全局图（Global Graph）的邻接矩阵刻画不同线条间采样点之间的关系；其中，

局部图的邻接矩阵定义如下：

全局图的邻接矩阵定义如下：

在上述两种邻接矩阵中，值为1的地方表示采样点i与采样点j之间存在一条边。

其中较优地，所述步骤S3包括：

在图注意网络（GAT）中使用如下方式计算第i个采样点与第j个采样点之间的注意力系数ɑ_ij：

/>

根据第i个采样点与第j个采样点之间已经计算好的注意力系数ɑ_ij，按如下形式更新第i个采样点的新的表征：

；

其中，h_i和h_j分别表示采样点 i和采样点j 的嵌入向量；N_i表示采样点 i 的邻居集合；W表示一组共享参数；||表示拼接操作；ɑ表示一个单层的前向神经网络，用于将h_i和h_j映射到一个实数上，并通过模型的学习更新W和ɑ中的参数，进而学习采样点i和j之间的相关性e_ij；б表示激活函数。

其中较优地，所述步骤S4包括：

将图注意网络的输出输入多层感知机；

采用softmax函数作为分类输出，，/>；

其中，和/>表示MLP层的参数，/>和/>表示输出层的参数m＋1表示空间几何图形类别数，/>表示采样点p属于类别i的概率。

其中较优地，采用如下公式计算当前用户的空间认知能力得分S，

；

其中，n表示用户在一次测评中共计尝试解答的题目数量；表示用户在第k道题目中正确图形类别i上预测的概率值。

根据本发明实施例的第二方面，提供一种基于图注意力网络的空间结构认知能力评估系统，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行以下操作：

从预设题库中随机抽取空间几何图形，供用户进行绘制；

与现有技术相比较，本发明具有以下的技术效果：

1. 使用线条上的采样点对应的坐标序列作为输入，相比于传统方法直接将整个二维图片作为输入的方式，显著减少了输入的参数量，提高了模型的计算性能，进而有助于实现低延时的目标。

2. 在预设模型中引入了用户手绘图形的点位时序信息，相当于考虑了用户输入线条的顺序，有助于提高预设模型识别的准确率。

3. 针对手绘图识别的特定场景，以采样点为结点，设计了两种图形分别用于刻画用户输入图形中线条之间的整体和局部关系，进一步提升了识别效果。

4. 采用机器学习模型进行空间结构认知能力评估，可以节约人力成本，同时不依赖于相对昂贵的虚拟现实设备，可以节约设备成本，进而以低成本的方式极大地提升了传统量表评估的效率。

5. 通过预设模型自动判定用户输入答案，而且与传统量表方法保持一致，规则简单易懂，无需指导用户熟悉额外的规则，无需专业人员进行判定，相对传统方案提高了评估效率。

6. 统一了评估标准，克服了人工手动评估可能存在的主观性和标准不一致的缺陷。

附图说明

图1为本发明实施例提供的一种基于图注意力网络的空间结构认知能力评估方法的流程示意图；

图2为本发明实施例中，预设模型的工作原理图；

图3为本发明实施例提供的一种基于图注意力网络的空间结构认知能力评估系统的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

如图1所示，本发明实施例提供一种基于图注意力网络的空间结构认知能力评估方法，具体包括步骤S1～S5：

S1：从预设题库中随机抽取空间几何图形，供用户进行绘制。

具体的，在本发明的一个实施例中，当对用户进行空间结构认知能力评估时，需要先从预设题库中随机抽取一个空间几何图形（例如：正方体、长方体、三棱柱或圆锥体等几何形状）。抽取完成后，要求用户在交互设备上采用手绘的方式临摹该几何图形，并要求尽可能与抽取的空间几何图形接近。

S2：获取用户对空间几何图形的绘制信息。

具体的，在用户临摹的过程中，通过该交互设备采集用户的绘制信息，其中，该绘制信息至少包括绘制图形、线条坐标以及线条绘制顺序等信息。该交互设备可以是手机、平板电脑等支持用户手写输入的移动终端。

可以理解的是，该绘制图形指的是用户在交互设备上临摹后的输出结果，各线条的坐标基于交互设备内置的坐标系而确定，线条绘制顺序可利用绘制时间来表征。

S3：基于绘制信息进行采样点的采集，并将采集信息转化为预设形式的输入信息；

具体的，包括步骤S31～S34：

S31：根据线条坐标以及线条绘制顺序，依次选取每个线条的起始点和终止点；

S32：在每个线条的中间部分随机采集若干采样点，以使采集的采样点总数为K；

S33：将K个采样点组成集合S₀；

S34：将集合S₀转化为长度为4K的第二向量V₀，

其中，第二向量V₀中的x_i, y_i对应集合S₀中第i个点的坐标信息；第二向量V₀中的f_i对应集合S₀中第i个点对应的状态，状态共包括线条的起始位置、线条的中间和多个线条的交汇三种取值；第二向量V₀中的p_i对应集合S₀中第i个点对应的时序信息，其中，p₁对应最先被绘制的点位，p_k对应最后被绘制的点位。

可以理解的是，经过步骤S3后能够将采样点的采集信息进行格式统一，以便于输入预设模型进行概率计算（下文进行详细说明）。并且，在本发明的一个实施例中，通过坐标信息＋状态信息＋时序信息形成的向量作为预设模型的输入，能够有效提高模型识别的准确率。在其他实施例中，针对采样点的状态信息和时序信息也可以只使用一种或都不使用，具体可根据需求进行适应性选择。

S4：将输入信息输入预设模型，以基于预设模型判断绘制图形属于正确类别的概率值。

具体的，在本发明的一个实施例中，需要预先建立预设模型，用于对步骤S3中的输入信息进行概率计算。其中，该预设模型通过步骤S10～S50构建：

S10：基于历史数据收集历史用户绘制的手绘图形；

S20：从手绘图形中采集K个采样点，组成集合S；

S30：将集合S转化为长度为4K的第一向量V，

其中，第一向量V中的x_i, y_i对应集合S中第i个点的坐标信息；第一向量V中的f_i对应集合S中第i个点对应的状态，状态共包括线条的起始位置、线条的中间和多个线条的交汇三种取值；第一向量V中的p_i对应集合S中第i个点对应的时序信息，其中，p₁对应最先被绘制的点位，p_k对应最后被绘制的点位；

S40：标记第一向量V对应的空间几何图形的类别，以形成第一训练样本；

S50：重复步骤S10～S40，以基于历史数据获取多个训练样本，形成用于图注意力网络手绘图形识别的预设模型D，

；

其中，N表示预设模型D中的样本数量；z表示当前样本对应的空间几何图形类别，且空间几何图形类别的总数预定为m，预设模型D所能够识别的类别为m＋1，以对应预设模型无法识别的情况。

参照图2所示，当构建好该预设模型D后，将步骤S3中的第二向量V₀输入预设模型，即可进行概率计算，具体包括步骤S41～S44：

S41：针对第二向量V₀中的K个采样点，将每一个采样点的坐标信息、状态信息和时序信息均转化为预设长度的嵌入向量；

S42：基于K个采样点的嵌入向量，刻画同一线条内部采样点之间的关系，形成第一图结构；并刻画不同线条间采样点之间的关系，形成第二图结构；

S43：基于第一图结构和第二图结构，采用图注意网络（GAT）进行信息抽取，以计算当前采样点与邻居采样点之间的注意力系数，进而对每个采样点进行重新表征；

S44：将每个采样点的重新表征结果输入多层感知机（MLP），采用softmax函数输出绘制图形属于正确类别的概率值。

在上述实施例中，步骤S41具体包括步骤S411～S415：

S411：将采样点q的坐标信息投影成长度为d的坐标向量e(C_q)；

S412：定义一个长度为K＋3的嵌入（embedding）字典，以使每个时序与状态的取值在嵌入字典中都对应一个长度为d的向量；

S413：根据采样点的时序信息和状态信息，从嵌入字典中查找对应的状态向量e(f_q)和时序向量e(p_q)；

S414：将坐标向量e(C_q)、状态向量e(f_q)和时序向量e(p_q)进行向量拼接，以构成采样点的长度为3d的嵌入向量h_q，

；

S415：重复上述步骤，直至获取第二向量V₀中所有采样点的嵌入向量。

在上述实施例中，步骤S42具体包括步骤S421～S422：

S421：采用局部图的邻接矩阵刻画线条内部采样点之间的关系，形成第一图结构；其中，局部图的邻接矩阵定义如下：

S422：采用全局图的邻接矩阵刻画不同线条间采样点之间的关系，形成第二图结构；其中，全局图的邻接矩阵定义如下：

可以理解的是，在本发明实施例中，该局部图的邻接矩阵用于捕捉局部信息，对应细粒度；该全局图的邻接矩阵用于捕捉全局信息，对应粗粒度。由此，通过刻画用户输入图形中线条之间的整体和局部关系，提升了图形识别效果。

此外，在其他实施例中，该局部图的邻接矩阵和全局图的邻接矩阵可以仅使用其中一种。

在上述实施例中，步骤S43具体包括步骤S431～S432：

S431：在图注意网络中使用如下方式计算第i个采样点与第j个采样点之间的注意力系数ɑ_ij：

/>

S432：根据第i个采样点与第j个采样点之间已经计算好的注意力系数ɑ_ij，按如下形式更新第i个采样点的新的表征：

；

其中，h_i和h_j分别表示采样点 i和采样点j 的嵌入向量；N_i表示采样点 i 的邻居集合；W表示一组共享参数；||表示拼接操作；ɑ表示一个单层的前向神经网络，用于将hi和hj映射到一个实数上，并通过模型的学习更新W和ɑ中的参数，进而学习采样点i和j之间的相关性eij；б表示激活函数。

可以理解的是，图注意网络可以叠加多层，每一层图注意网络更新后的采样点表征都可以作为下一层图注意网络的输入。在经过最后一层图注意网络表征之后，将局部图和全局图通过图注意网络得到的采样点表征进行拼接后作为多层感知机的输入。

在上述实施例中，步骤S44具体包括步骤S441～S442：

S441：将图注意网络的输出输入多层感知机；

S442：采用softmax函数作为分类输出，，/>；

S5：基于概率值计算用户的空间认知能力得分，用于对用户进行空间结构认知能力评估。

具体的，本实施例中，采用如下公式计算当前用户的空间认知能力得分S，

；

在上述基于图注意力网络的空间结构认知能力评估方法的基础上，本发明进一步提供一种基于图注意力网络的空间结构认知能力评估系统。如图3所示，该空间结构认知能力评估系统包括一个或多个处理器21和存储器22。其中，存储器22与处理器21耦接，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器21执行，使得所述一个或多个处理器21实现如上述实施例中的基于图注意力网络的空间结构认知能力评估方法。

其中，处理器21用于控制该空间结构认知能力评估系统的整体操作，以完成上述基于图注意力网络的空间结构认知能力评估方法的全部或部分步骤。该处理器21可以是中央处理器（CPU）、图形处理器（GPU）、现场可编程逻辑门阵列（FPGA）、专用集成电路（ASIC）、数字信号处理（DSP）芯片等。存储器22用于存储各种类型的数据以支持在该空间结构认知能力评估系统的操作，这些数据例如可以包括用于在该空间结构认知能力评估系统上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器等。

在一个示例性实施例中，空间结构认知能力评估系统具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现，用于执行上述的基于图注意力网络的空间结构认知能力评估方法，并达到如上述方法一致的技术效果。一种典型的实施例为计算机。具体地说，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在另一个示例性实施例中，本发明还提供一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任意一个实施例中的基于图注意力网络的空间结构认知能力评估方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由空间结构认知能力评估系统的处理器执行以完成上述的基于图注意力网络的空间结构认知能力评估方法，并达到如上述方法一致的技术效果。

综上所述，本发明实施例提供的基于图注意力网络的空间结构认知能力评估方法及系统，具有以下的有益效果：

上面对本发明提供的基于图注意力网络的空间结构认知能力评估方法及系统进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于图注意力网络的空间结构认知能力评估方法，其特征在于包括如下步骤：

从预设题库中随机抽取空间几何图形，供用户进行绘制；

基于所述概率值计算所述用户的空间认知能力得分，用于对用户进行空间结构认知能力评估；

其中，所述预设模型通过以下方式构建：

基于历史数据收集历史用户绘制的手绘图形；

从所述手绘图形中采集K个采样点，组成集合S；

将所述集合S转化为长度为4*K的第一向量V；

其中，N表示预设模型D中的样本数量；z表示当前样本对应的空间几何图形类别，且空间几何图形类别的总数预定为m，预设模型D所能够识别的空间几何图形类别数量为m+1，以对应预设模型无法识别的情况；

基于所述绘制信息进行采样点的采集，并将采集信息转化为预设形式的输入信息，包括如下步骤：

将所述K个采样点组成集合S₀；

将所述集合S₀转化为长度为4*K的第二向量V₀。

2.如权利要求1所述的空间结构认知能力评估方法，其特征在于基于所述预设模型判断所述绘制图形属于正确类别的概率值，包括如下步骤：

3.如权利要求2所述的空间结构认知能力评估方法，其特征在于所述步骤S1包括：

将采样点q的坐标信息投影成长度为d的坐标向量e(C_q)；

定义一个长度为K+3的嵌入字典，以使每个时序与状态的取值在所述嵌入字典中都对应一个长度为d的向量；

将所述坐标向量e(C_q)、状态向量e(f_q)和时序向量e(p_q)进行向量拼接，以构成所述采样点的长度为3d的嵌入向量h_q；

4.如权利要求3所述的空间结构认知能力评估方法，其特征在于所述步骤S2包括：

采用局部图的邻接矩阵刻画线条内部采样点之间的关系，并采用全局图的邻接矩阵刻画不同线条间采样点之间的关系。

5.如权利要求4所述的空间结构认知能力评估方法，其特征在于所述步骤S3包括：

在图注意网络中，使用如下方式计算第i个采样点与第j个采样点之间的注意力系数α_ij：

e_ij＝a([Wh_i||Wh_j]) j∈N_i

根据第i个采样点与第j个采样点之间已经计算好的注意力系数α_ij，按如下形式更新第i个采样点的新的表征h′_i：

其中，h_i和h_j分别表示第i个采样点和第j个采样点的嵌入向量；N_i表示第i个采样点的邻居集合；W表示一组共享参数；||表示拼接操作；ɑ表示一个单层的前向神经网络，用于将h_i和h_j映射到一个实数上，并通过模型的学习更新W和ɑ中的参数，进而学习第i个采样点和第j个采样点之间的相关性e_ij；б表示激活函数。

6.如权利要求2所述的空间结构认知能力评估方法，其特征在于所述步骤S4包括：

将图注意网络的输出输入多层感知机；

采用softmax函数作为分类输出，z＝W^oσ(W^lh^L+b^l)+b^o，

其中，W^l和b^l表示MLP层的参数，W^o和b^o表示输出层的参数，m+1表示预设模型D所能够识别的空间几何图形类别数量，p_x表示采样点p属于正确图形类别x的概率。

7.如权利要求1所述的空间结构认知能力评估方法，其特征在于：

采用如下公式计算当前用户的空间认知能力得分A，

其中，n表示用户在一次测评中共计尝试解答的题目数量；表示用户在第t道题目中正确图形类别x上预测的概率值。

8.一种基于图注意力网络的空间结构认知能力评估系统，其特征在于包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行权利要求1～7中任意一项所述的空间结构认知能力评估方法。