CN116994743B

CN116994743B - 基于序贯三支的置信图卷积神经网络的自闭症分类方法

Info

Publication number: CN116994743B
Application number: CN202310851846.5A
Authority: CN
Inventors: 丁卫平; 尹涛; 潘柏儒; 黄嘉爽; 戚晓雨; 鞠恒荣; 陈悦鹏
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2024-04-09
Anticipated expiration: 2043-07-11
Also published as: CN116994743A

Abstract

本发明提供了一种基于序贯三支的置信图卷积神经网络的自闭症分类方法，属于图卷积神经网络与序贯三支决策技术领域。解决了自闭症诊断过程存在的不确定性的技术问题。其技术方案为：首先，该方法通过定义置信度，描述诊断过程中存在的不确定性；然后，定义序贯三支的置信度阈值；接着，将序贯三支决策模块加入置信度图卷积神经网络模型，得到样本的预测标签；最后，通过自闭症数据集，评估自闭症预测模型的性能。本发明的有益效果为：有效提升自闭症的分类准确率。

Description

基于序贯三支的置信图卷积神经网络的自闭症分类方法

技术领域

本发明涉及图卷积神经网络与序贯三支决策技术领域，具体涉及一种基于序贯三支的置信图卷积神经网络的自闭症分类方法。

背景技术

自闭症，也称作“自闭症谱系障碍”。根据统计，全世界自闭症患者的数量大概为6700万。随着时间的推移，自闭症的发病率上升速度逐年增长。论文《Global prevalenceof autism:Asystematic review update》(Autism Research,2022年)提出大约每100个儿童中有一人患有自闭症。论文《自闭症儿童研究现状及教育对策探究》(2023年教学方法创新与实践科研学术探究论文集,2023年)提出自闭症的病因复杂多样，目前缺乏统一的诊断标准来确认诊断结果，常见诊断方案以医生经验判断等方法为主。由于医生的主观判断，这种诊断方式存在不确定性，误诊率较高。

为了解决这个问题，论文《MVS-GCN:A prior brain structure learning-guidedmulti-view graph convolution network for autism spectrum disorder diagnosis》(Computers in Biology and Medicine,2023年)将图卷积神经网络应用于自闭症分类，将受试者建模成拓扑图，提高自闭症的分类精度。其中，自闭症拓扑图的相邻节点具有相似的标签和关联性。在自闭症节点分类过程中，每个节点的标签预测会受到其相邻节点的影响。然而，如果自闭症相邻节点的标签与对其施加的关联性不同，则该自闭症节点具有不确定性，导致误诊病例的出现。

论文《Predicting autism spectrum disorder from brain imaging data bygraph convolutional network》(2021International Joint Conference on NeuralNetworks,2021年)建立以患者的大脑图像为输入的图卷积模型。该模型将自注意图池直接应用于图卷积网络，提高自闭症分类精度。但是，对于不确定自闭症节点数据，该模型直接应用图卷积神经网络进行强制确定分类，可能导致严重病例误判，从而造成过高的系统决策风险。随着电子计算机的发展，大量自闭症图像数据和非图像数据得以保存，为自闭症的节点分类性能的提升提供有利的研究基础。

发明内容

为了弥补上述现有技术的不足，本发明提供了一种基于序贯三支的置信图卷积神经网络的自闭症分类方法，处理自闭症节点分类过程中的不确定性，提高自闭症患者的预测精度，降低自闭症诊断的决策风险。

本发明的发明思想为：本发明的方法通过定义置信度，描述诊断过程中存在的不确定性，其中，置信度较高代表诊断结果确定，置信度较低代表诊断结果具有不确定性，需要接受重复诊断；然后，定义序贯三支的置信度阈值，作为序贯三支决策模块的诊断标准；接着，将序贯三支决策模块加入置信度图卷积神经网络模型，在分类最后阶段划分样本为三类：患者、正常人、不确定样本；再次，在分类阶段将不确定样本输入下一层模型继续训练，直至所有不确定样本被划分为患者或正常人，停止训练，得到样本的预测标签；最后，通过自闭症数据集，评估自闭症预测模型的性能。

本发明所采用的技术方案是：一种基于序贯三支的置信图卷积神经网络自闭症分类方法，包括以下步骤：

步骤1、本发明首先收集自闭症受试者的信息，构建自闭症数据集，其中自闭症数据集来自于不同影像数据采集站点中的不同受试者；这些受试者组成自闭症的受试者群体，其中，每个受试者具有个体的相关数据，包括功能磁共振成像数据和其他表型数据；表型数据包括受试者自身的采集站点、年龄、性别等基本信息；

步骤2、本发明应用拓扑图整合自闭症数据集的图像数据和非图像数据，应用拓扑图刻画自闭症受试者之间的内部相关性；本发明从自闭症数据集的成像数据中提取节点特征，应用自闭症数据集中的表型数据构造节点之间的边，进而将自闭症数据集建模成拓扑图；

步骤3、本发明提出置信图卷积神经网络(CGCN)；应用图卷积神经网络GCN对自闭症节点进行分类；为了准确刻画自闭症节点分类的不确定性，本发明在图卷积模型GCN中引入置信度模块，定义置信度作为评估自闭症受试者分类不确定性的标准；本发明定义自闭症类别标签输出概率与真实标签的相关程度作为置信度，应用损失函数L^conf训练置信图卷积神经网络模型，并获得自闭症节点的标签与置信度；

步骤4、本发明引入序贯三支决策的思想，根据步骤3得到的标签和置信度，划分自闭症节点置信度和标签；如果自闭症节点置信度较高且标签为1，则自闭症受试者节点的标签是健康的；自闭症节点置信度较高且标签为0，则自闭症受试者节点的标签是患者；然而，若自闭症节点的置信度较低，则被认为是不确定性的；

作为本发明的优选技术方案：所述步骤3具体过程如下：

步骤3.1、给定自闭症拓扑图G＝{V,E}和节点特征输入图卷积神经网络模型GCN；

其中，V代表拓扑图中自闭症受试者节点，E代表自闭症拓扑图的边；其中，E＝{E₁,E₂,…,E_t}为自闭症拓扑图的边集，V＝{v₁,v₂,…,v_n}为自闭症受试者拓扑图的节点集，t为拓扑图边的数量，n为自闭症受试者拓扑图节点个数；

步骤3.2、计算所有样本的最大类别概率：对于任一自闭症样本x_i，神经网络通过计算每个自闭症类别标签的输出概率，对概率预测分布P(D|w,x_i)进行分配；最大类别概率MCP为自闭症类别标签的概率最大值：

其中，自闭症样本集X＝{x₁,x₂,…x_n}，自闭症样本对应的类别标签集合Y＝{y₁,y₂,…,y_n}，自闭症的标签集合为D＝{d₁,d₂,…d_m}，其中n为自闭症样本个数，m为类别标签个数，在本发明中一般设置为2，w是神经网络参数；

步骤3.3、计算图卷积网络GCN模型的交叉熵损失函数：为了获得模型的分类置信度，分类器f:x_i→y_i被构造；分类神经网络f可视为一种概率模型；对于样本x_i,其对应的MCP值为p_i；分类器f通过交叉熵损失函数L^cls完成训练：

步骤3.4、本发明将节点特征输入GCN模型的置信度模块；

步骤3.5、计算真实类别概率TCP，即置信度:本发明应用真实类别概率的思想，定义新的置信标准；采用真实类别概率TCP，获得较为可靠的分类置信度,即自闭症样本x_i的真实标签y_i被分配于自闭症样本x_i的概率；总的来说，根据预测分布P(y_i|x_i)＝p_i和对应自闭症标签y_i，真实类别概率TCP被定义为：

步骤3.6、计算置信度损失函数L^conf：本发明进一步引入置信神经网络g:x→TCP来近似处理真实类别概率TCP，获得结果为TCP，其中TCP∈(0,1)；置信神经网络的损失函数L^conf：

L^conf＝(TCP-TCP)+L^cls (4)

步骤3.7、本发明利用置信度损失函数L^conf反向训练GCN模型，得到自闭症受试者节点的标签和置信度；

其中，label＝{l₁,l₂,…l_n}为自闭症受试者节点的标签集，confidence＝{c₁,c₂,...,c_n}为节点的置信度，l_i在本发明中被设置为0或1。

作为本发明的优选技术方案：所述步骤4具体过程如下：

步骤4.1、根据步骤3得到的节点置信度和标签，本发明利用序贯三支决策模块，根据自闭症拓扑图节点的置信度划分节点：主要分为以下三个区域，正域，边界域，负域：

POS(v_i)＝{label_i＝1|confidence＝high and label_i＝1} (5.1)

BND(v_i)＝{label_i is uncertain|confidence＝low} (5.2)

NEG(v_i)＝{label_i＝0|confidence＝high and label_i＝0} (5.3)

同样对于节点，自闭症节点分为以下三种情况：

(1)如果自闭症节点具有高置信度且标签为1，则节点的标签具有确定性，即为健康；

(2)如果自闭症节点具有高置信度且标签值为0，则节点的标签具有确定性，即为患者；

(3)如果自闭症节点具有低置信度，则节点的标签具有不确定性，无法判断受试者；

如果节点具有低置信度，则节点的标签具有不确定性，即不能判断受试者是否健康；无论节点的标签是1或者0，自闭症节点的分类结果都是不确定的；

步骤4.2、在经历步骤4.1后，本发明应用高置信度自闭症节点的标签更新拓扑图G＝{V,E}为G₁＝{V₁,E₁}；而不确定性的自闭症节点依旧被视为未知节点，即无法确定此自闭症受试者是否健康；此时需要对低置信度自闭症节点进一步处理；

步骤4.3、本发明将更新后的自闭症拓扑图G₁＝{V₁,E₁}和对应的节点特征输入置信图卷积模型CCGN，同时得到节点标签和对应的置信度；

步骤4.4、重复步骤3，直至不存在低置信度的节点，即不存在具有不确定性的节点；此时所有节点的置信度较高，获得所有自闭症受试者诊断结果。

与现有技术相比，本发明的有益效果为：

(1)与医生的主观诊断方式相比，本发明能够摆脱由于医生主观判断而导致的自闭症诊断误差，提高自闭症的诊断效率，有效处理医生主观判断过程中的不确定性。

(2)与图卷积神经网络自闭症分类方法相比，本发明提出的置信图神经网络能够避免因自闭症相邻节点的标签与对其施加的关联性不同而产生的不确定性。本发明应用置信度刻画和处理自闭症节点分类过程中的不确定性，避免因不确定性而导致的自闭症诊断错误，提高自闭症的分类性能，降低误诊病例的数量。

(3)与现有图卷积网络对于自闭症节点强制分类的方法相比，本发明提出的序贯三支置信图卷积神经网络自闭症分类方法为不确定性数据分类提供理论依据。本发明提出的序贯三支置信图卷积神经网络自闭症分类方法是基于逻辑规则构造，擅长分析结构化数据。该方法有助于区分不确定自闭症病例，延迟谨慎决策，通过人机协同有效降低系统决策风险。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例的总体框架示意图.

图2为本发明中置信图卷积神经网络分类方法图。

图3为本发明中序贯三支决策模块方法示意图。

图4为本发明中序贯三支置信图卷积分类过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实验结果，对本发明进行进一步详细说明。当然，此处所描述的具体实验结果例仅用以解释本发明，证明本发明的优越性，并不用于限定本发明。

参见图1、本实施例提供了一种基于序贯三支的置信图卷积神经网络分类的自闭症分类方法，包括以下步骤：

步骤1、如图2所示，本实施例从ABIDE数据集中选取6个样本作为实例说明；对于自闭症受试者的数据集ABIDE，其中包含成像数据和非成像数据；该数据集由16个国际影像站点合作；

步骤2、本实施例提取数据集中的成像数据作为节点，处理非成像数据作为边，将自闭症数据集建模成拓扑图；本实施例采用ABIDE数据集中表型数据的6个属性(SEX、SITE_ID、AGE、FIQ、VIQ、PIQ)构造拓扑图；

步骤3、图2表示置信图卷积网络的分类过程；本实施例将ABIDE拓扑图输入置信图卷积神经网络，获得每个自闭症节点最大类别概率MCP，定义图卷积模型的交叉熵损失函数L^cls；计算自闭症节点真实类别概率TCP，应用图卷积模型中的置信度模块近似自闭症节点的真实类别概率TCP，获得置信度损失函数L^conf；

步骤3.1、给定ABIDE拓扑图G＝{V,E}和节点特征输入图卷积神经网络模型GCN；

其中，E＝{E₁,E₂,…,E₁₂}为自闭症拓扑图的边集，V＝{v₁,v₂,…,v₆}为自闭症受试者拓扑图的节点集；

步骤3.2、计算所有样本X＝{x₁,x₂,…x₆}的最大类别概率；其中自闭症样本个数为6，类别标签个数为2；

步骤3.3、通过所有样本X＝{x₁,x₂,…x₆}的最大类别概率MCP与对应的样本标签Y＝{y₁,y₂,…,y₆}，计算交叉损失函数L^cls；

步骤3.4、将节点特征输入GCN模型的置信度模块；

步骤3.5、根据样本集的真实标签Y＝{y₁,y₂,…,y₆}，计算所有样本X＝{x₁,x₂,…x₆}的真实类别概率TCP；

步骤3.6、本实施例引入置信神经网络近似处理真实类别概率TCP，获得结果为TCP，并计算得到置信神经网络的损失函数L^conf；

步骤3.7、本实施例利用置信度损失函数L^conf反向训练GCN模型，完成对节点S₃,S₄,S₆的分类任务，得到自闭症受试者节点S₃,S₄,S₆的标签和置信度c₃,c₄,c₆。

步骤4、图3表示序贯三支模块的分类过程；已知节点S₁,S₂,S₃,S₄,S₅,S₆,根据上文，可以获得每个节点的标签和置信度；本实施例应用序贯三支决策的方法，划分节点S₁,S₂,S₃,S₄,S₅,S₆；并更新拓扑图，完成分类任务；

步骤4.1、根据图3，已知节点S₁,S₂,S₃,S₄,S₅,S₆,其中节点S₁,S₂的标签为1，置信度较高；节点S₅的标签为0，置信度较高；节点S₃,S₄,S₆置信度较低；因此，本实施例将节点S₁,S₂归于正域，节点S₅归于负域，节点S₃,S₄,S₆归于边界域；边界域中的节点需要进一步处理；

步骤4.2、图4表示序贯三支置信图卷积分类过程；经过上一轮的节点分类，节点S₃,S₄,S₆归于边界域，节点标签是不确定的；更新拓扑图，重复步骤3的分类过程，可以发现节点S₃被归纳到负域中，被分类为自闭症患者；但是仍然存在节点S₄,S₆标签是不确定的；

步骤4.3、在第三轮的分类过程中，拓扑图根据节点S₃的标签而更新，并输入置信图卷积神经网络分类器；通过分类器可以获得节点S₄,S₆的标签和置信度，节点S₄为健康样本，节点S₆为患者，分类过程结束。

为了验证本实施例所设计模型的性能，本实施例选择常用的算法进行对比。实验中选取的对比算法为Abraham、DNN、SPGCN、Hi-GCN、EV_GCN。本实施例采用完整的ABIDE数据集中表型数据的6个属性(SEX、SITE_ID、AGE、FIQ、VIQ、PIQ)构造拓扑图。

DNN方法通过无监督学习方法提取脑成像数据相关特征，应用预先获得的标签训练分类器，并找到与标签相关的连接模式，对ABIDE数据集中的受试者进行分类。SPGCN方法将受试者建模为拓扑图，在拓扑图上对受试者的成像数据和表型数据进行编码。Hi-GCN方法提出分层GCN框架，同时考虑网络拓扑信息和主题的关联，其中f-GCN方法用来学习图实例的潜在嵌入表示，基于由f-GCN学习的嵌入表示和图的成对相似性，通过聚集人口图中所有邻居的嵌入来进一步学习节点的新表示。EV_GCN方法自动将ABIDE数据集中的成像数据与表型数据集成起来，用于不确定性预测。其核心是一个具有变分边的可学习自适应人口图，将可学习自适应的人口图输入给图卷积神经网络，并进行节点分类。

本实施例所提出的模型是以图卷积神经网络为基础模型，并针对分类过程中具有的不确定性，将置信度作为节点分类过程中不确定性的度量标准，并引入序贯三支决策模块，构造基于序贯三支的置信图卷积神经网络。本实施例基于序贯三支的置信图卷积神经网络分类方法的实验结果如表1所示，表1为本实施例实施例的不同方法性能的对比结果。

表1各算法在ABIDE数据集的对比结果

从表1可以看出，本实施例研究不同分类方式对分类准确率的影响，对于ABIDE数据集，总结不同分类模型的性能。S3W-CGCN为本文提出的模型，与其他模型Abraham，DNN，SP-GCN，Hi-GCN，EV-GCN的分类准确率为76.19％，66.67％，67.85％，70.27％，73.07％，74.28％。从实验结果得出，S3W-CGCN的分类性能优于其他图卷积神经网络GCN模型。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于序贯三支的置信图卷积神经网络的自闭症分类方法，其特征在于，包括以下步骤：

步骤1、收集自闭症受试者的信息，构建自闭症数据集；

步骤2、应用拓扑图整合自闭症数据集的图像数据和非图像数据；

步骤3、提出置信图卷积神经网络GCN；应用图卷积神经网络GCN对自闭症节点进行分类；在图卷积神经网络GCN中引入置信度模块，定义置信度作为评估自闭症受试者分类不确定性的标准；定义自闭症类别标签输出概率与真实标签的相关程度作为置信度，应用损失函数L^conf训练置信图卷积神经网络GCN，并获得自闭症节点的标签与置信度；

所述步骤3具体过程如下：

步骤3.1、给定自闭症拓扑图G＝{V,E}和节点特征输入图卷积神经网络GCN；

步骤3.2、计算所有样本的最大类别概率：对于任一自闭症样本x_i，图卷积神经网络GCN通过计算每个自闭症类别标签的输出概率，对概率预测分布P(D|w,x_i)进行分配；最大类别概率MCP为自闭症类别标签的概率最大值：

其中，自闭症样本集X＝{x₁,x₂,…x_n}，自闭症样本对应的类别标签集合Y＝{y₁,y₂,…,y_n}，自闭症的标签集合为D＝{d₁,d₂,…d_m}，其中n为自闭症样本个数，m为类别标签个数，w是图卷积神经网络GCN参数；

步骤3.3、计算图卷积神经网络GCN的交叉熵损失函数：为了获得模型的分类置信度，分类器f:x_i→y_i被构造；分类器f可视为一种概率模型；对于样本x_i,其对应的MCP值为p_i；分类器f通过交叉熵损失函数L^cls完成训练：

步骤3.4、将节点特征输入图卷积神经网络GCN的置信度模块；

步骤3.5、计算真实类别概率TCP，即置信度，应用真实类别概率的思想，定义新的置信标准；采用真实类别概率TCP，获得较为可靠的分类置信度,即自闭症样本x_i的真实标签y_i被分配于自闭症样本x_i的概率；总的来说，根据预测分布P(y_i|x_i)＝p_i和对应自闭症标签y_i，真实类别概率TCP被定义为：

步骤3.6、计算置信度损失函数L^conf：引入置信神经网络g:x→TCP来近似处理真实类别概率TCP，获得结果为TCP，其中TCP∈(0,1)；置信神经网络的损失函数L^conf：

L^conf＝(TCP-TCP)+L^cls (4)

步骤3.7、利用置信度损失函数L^conf反向训练图卷积神经网络GCN，得到自闭症受试者节点的标签和置信度；

其中，label＝{l₁,l₂,…l_n}为自闭症受试者节点的标签集，confidence＝{c₁,c₂,...,c_n}为节点的置信度，l_i被设置为0或1；

步骤4中，划分自闭症节点置信度和标签；如果自闭症节点置信度较高且标签为1，则自闭症受试者节点的标签是健康的；自闭症节点置信度较高且标签为0，则自闭症受试者节点的标签是患者；若自闭症节点的置信度较低，则被认为是不确定性的；

所述步骤4中还包括对于高置信度节点，自闭症节点标签被应用于更新拓扑图；对于低置信度节点，重复步骤3,完成序贯三支分类，直至所有节点的置信度为高置信度；

所述步骤4具体过程如下：

步骤4.1、根据步骤3得到的节点置信度和标签，利用序贯三支决策模块，根据自闭症拓扑图节点的置信度划分节点：主要分为以下三个区域，正域，边界域，负域：

POS(v_i)＝{label_i＝1|confidence＝high and label_i＝1} (5.1)

BND(v_i)＝{label_i is uncertain|confidence＝low} (5.2)

NEG(v_i)＝{label_i＝0|confidence＝high and label_i＝0} (5.3)；

步骤4.2、在经历步骤4.1后，应用高置信度自闭症节点的标签更新拓扑图G＝{V,E}为G₁＝{V₁,E₁}；而不确定性的自闭症节点依旧被视为未知节点，即无法确定此自闭症受试者是否健康；此时需要对低置信度自闭症节点进一步处理；

步骤4.3、将更新后的自闭症拓扑图G₁＝{V₁,E₁}和对应的节点特征输入置信图卷积神经网络GCN，同时得到节点标签和对应的置信度；

2.根据权利要求1所述的基于序贯三支的置信图卷积神经网络的自闭症分类方法，其特征在于，所述步骤1中，收集自闭症受试者的信息，构建自闭症数据集；其中自闭症数据集来自于不同影像数据采集站点中的不同受试者；这些受试者组成自闭症的受试者群体，其中，每个受试者具有个体的相关数据，包括功能磁共振成像数据和其他表型数据；表型数据包括受试者自身的采集站点、年龄、性别基本信息。

3.根据权利要求2所述的基于序贯三支的置信图卷积神经网络的自闭症分类方法，其特征在于，所述步骤2中，应用拓扑图整合自闭症数据集的图像数据和非图像数据，应用拓扑图刻画自闭症受试者之间的内部相关性；从自闭症数据集的成像数据中提取节点特征，应用自闭症数据集中的表型数据构造节点之间的边，进而将自闭症数据集建模成拓扑图。

4.根据权利要求3所述的基于序贯三支的置信图卷积神经网络的自闭症分类方法，其特征在于，所述步骤4.1，对于节点，自闭症节点分为以下三种情况：

如果节点具有低置信度，则节点的标签具有不确定性，即不能判断受试者是否健康；无论节点的标签是1或者0，自闭症节点的分类结果都是不确定的。