CN112289412A

CN112289412A - 自闭症谱系障碍分类器的构建方法、其装置及电子设备

Info

Publication number: CN112289412A
Application number: CN202011075179.9A
Authority: CN
Inventors: 周家秀; 林飞飞; 魏彦杰; 王明帮; 刘树珍; 张海山; 林鄞
Original assignee: Shenzhen Childrens Hospital
Current assignee: Shenzhen Childrens Hospital
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-29

Abstract

本发明实施例提供了一种自闭症谱系障碍分类器的构建方法、其装置及电子设备。该方法包括：获取若干样本数据，形成数据集；在所述数据集中，提取获得多个特征；通过集成特征选择方法，选择所述多个特征中的一部分作为分类特征；所述分类特征集由所述数据集生成的不同特征子集聚合形成；使用预设的分类算法，基于所述数据集及分类特征进行训练，获得所述自闭症谱系障碍分类器。其提高了特征选择技术的鲁棒性，模型在跨中心数据上的泛化能力得到了改善。

Description

自闭症谱系障碍分类器的构建方法、其装置及电子设备

【技术领域】

本发明涉及机器学习技术领域，尤其涉及一种自闭症谱系障碍分类器的构建方法、其装置及电子设备。

【背景技术】

自闭症谱系障碍(ASD)是一种常见的神经发育障碍，属于一种普遍存在的发育障碍。近年来，随着儿童病例的增多，ASD患者不断增多。儿童期ASD疾病的具体发病情况各不相同。ASD的主要症状是社交能力差、语言交际障碍、情感缺陷、限制性重复行为等，给他们的身心健康造成了极大的损害，也给他们的家庭带来了巨大的负担。大量临床试验表明，早期诊断和治疗有助于改善预后，降低致残率。因此，对自闭症谱系障碍早期预测和诊断的研究具有重要意义。

自1943年第一例孤独症被确诊以来，至今还没有关于自闭症的确切病因的可靠和具体的发现。基因和环境被认为共同作用于自闭症疾病的发展。

例如，Matthew等人系统地研究了一组可能携带ASD风险的蛋白质。Elizabeth等人发现肠道微生物环境与儿童自闭症症状有关。Müller提出了分布式障碍的观点，认为孤独症不是由单个神经系统或脑网络的改变引起的，而是涉及遗传、神经解剖特征、脑功能组织、后天教育等方面。

随着成像技术的进步，各种研究技术被用来探索异常的ASD脑，如磁共振成像(Magnetic Resonance Imaging：MRI)、扩散张量成像(Diffusion Tensor Imaging：DTI)和功能性近红外光谱(Functional Near Infrared Spectroscopy：fNIRS)。其中，结构磁共振成像(structural magnetic resonance imaging：sMRI)和功能磁共振成像(Functionalmagnetic resonance imaging：fMRI)是最常用的两种磁共振成像技术。

使用这些技术的研究表明，与正常同龄人相比，自闭症患者的大脑在功能和结构上都发生了改变。而在ASD脑功能研究中，静息态fMRI(resting-state fMRI：rs-fMRI)是应用最广泛的MRI技术。为研究孤独症的发病机制和脑功能提供了有力的支持，可用于寻找孤独症的病理信号，为孤独症的预测分类提供有用的信息。

由rs-fMRI构建的功能连接(Functional connections：FC)通过计算大脑活动的相关性来检测大脑区域的神经相互作用，常用于ASD患者与典型发育(typicaldevelopments：TD)的比较，以发现ASD与TDs之间的脑活动差异。基于rs-fMRI的研究表明，ASD的行为和认知缺陷与潜在的脑功能连接异常有关。

近来，已经广泛开发了基于fMRI的机器学习(machine learning：ML)/深度学习(deep learning：DL)方法用于ASD的预测和研究。例如，Zhao等人提出了一种多层次，高阶的FC网络表示形式，可以捕获大脑区域之间的复杂相互作用，以全面表征这种关系，从而更好地诊断ASD。他们基于FC网络设计了具有多个线性SVM的集成分类器，以对ASD进行预测和分类，该模型的精度为0.81。

Heinsfeld等人从17个自闭症脑成像数据交换(autism brain imaging dataexchange：ABIDE)数据库的研究所收集了fs-fMRI数据。然后，他们研究了来自ASD功能性大脑成像数据的功能连接性模式，并试图揭示基于DL模型的分类中出现的神经模式。

Wang等人提出了一种用于ASD诊断的多中心低秩表示学习(multi-center low-rank representation learning：MCLRR)方法，旨在开发一种能够处理来自不同中心的异构数据的模型。该模型基于5个ABIDE机构的准确性为0.69。Yahata等人开发了一种新颖的ML算法，该算法可以识别出区分ASD和TD的少量FC。

对于美国和日本的两个独立的验证队列，分类器显示出显着的泛化程度。Hazlett等人提出了一种DL算法，该算法使用从6到12个月大的人拍摄的大脑磁共振图像的表面积信息来预测高危儿童在24个月时的ASD，研究结果表明早期发生了大脑变化在自闭症行为首次出现的时期。

但现有的自闭症脑成像数据交换模型(如上述的ML-SVM，MCLRR和DNN)存在跨中心的数据上泛化能力不足的问题。

【发明内容】

本发明实施例提供一种自闭症谱系障碍分类器的构建方法、其装置及电子设备，旨在解决现有技术中自闭症脑成像数据交换模型在跨中心的数据上泛化能力不足的技术问题。

为解决上述技术问题，本发明实施例提供以下技术方案：一种自闭症谱系障碍分类器的构建方法。其包括：

获取若干样本数据，形成数据集；在所述数据集中，提取获得多个特征；通过集成特征选择方法，选择所述多个特征中的一部分作为分类特征；所述分类特征集由所述数据集生成的不同特征子集聚合形成；使用预设的分类算法，基于所述数据集及分类特征进行训练，获得所述自闭症谱系障碍分类器。

可选地，所述集成特征选择方法具体包括：

在所述数据集中，随机选择部分样本数据生成多个不同的数据子集；

使用预设的特征选择算法，对所述数据子集进行计算，获得多个不同的特征权重向量；

根据所述特征权重向量的权重大小选择分类特征。

可选地，所述在所述数据集中，随机选择部分样本数据生成多个不同的数据子集，具体包括：

在所述数据集中，随机选择90％的样本，生成20个训练子数据集。

可选地，所述预设的特征选择算法包括：套索算法、L1-范数支持向量机以及随机森林算法。

可选地，所述根据所述特征权重向量的权重大小选择分类特征，具体包括：选择前1％至5％的加权特征作为所述分类特征。

可选地，所述使用预设的特征选择算法，对所述数据子集进行计算，获得多个不同的特征权重向量，具体包括：

使用预设的特征算法进行特征选择，获得N个特征权重向量；

通过10倍交叉验证，执行所述使用预设的特征算法进行特征选择的步骤多次，获得10N个特征权重向量，N为正整数。

可选地，所述预设的分类算法为多个弱树分类器集成的强分类器；所述样本数据为静息态fMRI数据。

为解决上述技术问题，本发明实施例还提供以下技术方案：一种自闭症谱系障碍分类器的构建装置。其包括：

样本采集模块，用于获取若干样本数据，形成数据集；

特征提取模块，在所述数据集中，提取获得多个特征；

特征选择模块，用于通过集成特征选择方法，选择所述多个特征中的一部分作为分类特征；所述分类特征集由所述数据集生成的不同特征子集聚合形成；

训练模块，用于使用预设的分类算法，基于所述数据集及分类特征进行训练，获得所述自闭症谱系障碍分类器。

为解决上述技术问题，本发明实施例还提供以下技术方案：一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的自闭症谱系障碍分类器的构建方法。

为解决上述技术问题，本发明实施例还提供以下技术方案：一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的所述的自闭症谱系障碍分类器的构建方法。

与现有技术相比较，本发明实施例提供的构建方法在特征选择时，使不同的子数据集生成多个不同的特征子集并进而将其聚合为单个特征集，有效的提高了特征选择技术的鲁棒性，可以很好的提升模型在跨中心数据上的泛化能力，具有良好的应用前景。

【附图说明】

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本发明实施例提供的自闭症谱系障碍分类器的构建方法的示意图；

图2为本发明实施例提供的构建自闭症谱系障碍分类器的具体实施例的示意图；

图3为本发明实施例提供的自闭症谱系障碍分类器的构建装置的功能框图；

图4为本发明实施例提供的电子设备的结构框图。

【具体实施方式】

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。需要说明的是，当元件被表述“固定于”另一个元件，它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件，它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“上”、“下”、“内”、“外”、“底部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本发明不同实施例中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1为本发明实施例提供的一种自闭症谱系障碍分类器的构建方法的示意图。如图1所示，该构建方法可以包括如下步骤：

100、获取若干样本数据，形成数据集。

该样本数据可以是根据实际情况或者需求，从一种或者多种合适的数据库中采集选择形成的数据集。当然，也可以是其他任何合适的数据来源而不限于数据库的资源。数据集中包含的样本数据数量等可以根据实际情况而确定。具体的，所述样本数据可以为静息态fMRI图像数据。

200、在所述数据集中，提取获得多个特征。

特征是指从MRI图像中提取获得的图像特征。特征提取可以采用现有任何合适类型的图像预处理方式。技术人员可以根据实际情况的需要，选择使用相应的特征提取工具完成特征提取的任务。

300、通过集成特征选择方法，选择所述多个特征中的一部分作为分类特征集。

由于数据集中通常包含的样本数量较多，步骤200中提取获得的特征数量也非常丰富，可能存在上千甚至数千个特征。因此，通过步骤300的特征选择步骤，只选择其中的一部分作为分类特征，供模型训练时使用。

其中，所述分类特征集由所述数据集生成的不同特征子集聚合形成。分类特征集是由选中的分类特征组成的集合。

在本实施例中，通过令数据集生成多个不同的特征子集并进而将其聚合为单个特征集的方式，有效的提高了特征选择技术的鲁棒性，从而提升了后续训练获得的模型的数据泛化能力。

400、使用预设的分类算法，基于所述数据集及分类特征集进行训练，获得所述自闭症谱系障碍分类器。

在确定数据集的分类特征以后，可以将其作为训练数据，用于进行模型的训练和验证。具体可以根据实际情况，选择使用任何合适类型的分类算法来获得所述自闭症谱系障碍分类器。

在一些实施例中，所述预设的分类算法可以为多个弱树分类器集成的强分类器，如XGBoost。

在实际应用过程中，所述训练获得的自闭症谱系障碍分类器可以根据输入的数据，即MRI图像信息，确定其所属的类别(即属于ADS患者类还是正常发育类)，从而更好的实现对ASD的诊断。

图2为本发明实施例提供的自闭症谱系障碍分类器的构建方法的具体应用实例的示意图。通过图2所示的具体应用实例，详细描述本发明的内容，并且将其结果和现有的机器学习模型进行对比，验证本申请提供的构建方法获得自闭症谱系障碍分类器的良好性能。

如图2所示，首先，在数据集生成阶段，所有rs-fMRI图像样本均来自ABIDE数据库。具体而言，图像样本包括了来自17个研究所的1112份影像样本，其中539份为ASD(ASD患者)，573份为TDs(正常发育)。

为了便于与现有的三种常用机器学习模型进行比较，分别使用了三个数据集(即数据集1-3)进行模型的训练和验证。

其中，数据集1包含55个ASD样本和58个来自纽约大学研究所的年龄小于15岁的TD样本。数据集2包含233个年龄小于18岁的ASD样本和238个TD样本。数据集3包含来自所有17个机构的506个ASD样本和548个TD样本，年龄从7岁到64岁。

其次，在特征提取阶段，对特征提取的结果可以从预处理的connectomes项目(PCP)中获得。它是一个遵循rs-fMRI处理的开源项目，有4条用于rs-fMRI处理的管道，包括连接体计算系统(CoCCS)、连接体分析可配置管道(C-PAC)、静息状态fMRI数据处理助手(DPARSF)和神经成像分析工具包(NIAK)。并且，所有特征都是从atlas处理的不同ROI的时间序列中提取出来的，计算各个ROI时间序列之间的Pearson相关系数(FC)。

具体的，数据集1通过管道DPARSF和AAL(自动解剖标记)图谱进行处理，将大脑分割成116个ROI；数据集2使用管道C-PAC和AAL atlas进行处理。处理后的数据集1和2均具有6670个初始特征。数据集3通过管道C-PAC和atlas CC200进行处理，CC200将大脑分割成200个ROI，其初始特征维数为19900。

再次，为了解决特征提取后，大量特征造成的维度灾难问题，需要合理的选择其中的一部分特征。

具体的，特征选择过程包括：首先，通过从每个数据集中随机选择90％的样本来生成20个训练子数据集。然后，使用套索，L1-范数支持向量机(L1-norm SVML:1-SVM)和随机森林(random forest:RF)算法选择特征。这些算法都会得出20个特征权重向量。

进一步地，通过10倍交叉验证(即90％为训练数据，10％为测试数据)执行所述特征选择过程20次，得到200个特征权向量后，可根据平均特征权重，选择最终的前

的加权特征(300个特征)组成分类特征集用于后续的模型训练和验证。

10倍交叉验证(10-fold Cross Validation)是指将数据集随机分成10份，使用其中9份进行训练而将另外1份用作测试。该过程可以重复10次，每次使用的测试数据不同。

最后，如图2所示，在训练和验证阶段，可以采用XGBoost算法对数据集1、数据集2和数据集3进行训练，得到模型1、模型2和模型3。

XGBoost是用于模型训练和验证的算法。它是基本构造是将许多弱树分类器集成在一起形成的一个强分类器。

为了系统的验证和评价模型的性能，将上述获得的模型1、模型2和模型3与现有的三种机器学习模型(分别被称为ML-SVM、MCLRR和DNN)进行对比。

在验证过程中，模型1和ML-SVM均在数据集1上训练，模型2和MCLRR均在数据集2上训练，模型3和DNN均在数据集3上训练。

使用的评价指标为准确性(accuracy：ACC)、敏感性(sensitivity：TPR)和特异性(specificity：TNR)。

所有模型均进行了20次10倍交叉验证，并计算了平均ACCs、TPRs和TNRs进行比较。

实验结果表明，本发明优于ML-SVM，MCLRR和DNN这三种模型，如基于数据集1的模型，模型的准确度(ACC)、灵敏度(TPR)和特异度(TNR)分别为0.86、0.84、0.88，均优于ML-SVM模型。

另外，数据集2上模型1的ACC，TPR和TNR值分别为0.73、0.72和0.74，低于数据集1上模型1的结果，与数据集2上模型2的结果相似。这表明为ASD分类选择了跨不同数据集的一些共有功能。

而且，选出的分类特征集FFs1和FFs2在FFs3中存在与小脑相关的特征，这些特征与区域10、36和118有关。

在删除了所有与小脑相关的特征，并使用剩下的特征对基于XGBoost的模型进行了10次交叉验证20次后，ACC为0.77，TPR为0.76，TNR为0.81。

由于特征提取流程的不同，最终特征(FFs)3不同于FFs1和FFs2。将FFs1和FFs3进行比较，根据不同的图谱找出共同的脑区。FFs3中选择频率最高的25个脑区区域名是指遵守AAL提供的重叠区域之一。这一结果可能表明，数据集1和数据集3之间有一点共同点，即仅仅来自纽约大学研究所的特征集在17个研究所的数据样本中的泛化能力较差，这可能是由于年龄范围等更复杂的样本集造成的。

图3为本发明另一实施例提供的一种自闭症谱系障碍分类器的构建装置的示意图。如图3所示，该自闭症谱系障碍分类器可以包括：样本采集模块310，特征提取模块320，特征选择模块330以及训练模块340。

其中，所述样本采集模块310用于获取若干样本数据，形成数据集。所述特征提取模块320在所述数据集中，提取获得多个特征。特征选择模块330用于通过集成特征选择方法，选择所述多个特征中的一部分作为分类特征。而所述分类特征集由所述数据集生成的不同特征子集聚合形成。所述训练模块340用于使用预设的分类算法，基于所述数据集及分类特征进行训练，获得所述自闭症谱系障碍分类器。

最终训练获得的自闭症谱系障碍分类器可以对输入数据，即MRI图像信息，进行分析并输出其所属的类别(即属于ADS患者类还是正常发育类)，从而更好的实现对ASD的诊断。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

上述日志消息处理装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的电子设备上运行。

请参阅图4，图4是本发明实施例提供的电子设备的示意性框图。该电子设备400是计算机或者类似的电子计算平台。

参阅图4，该电子设备400包括通过系统总线401连接的处理器402以及存储器403。

该存储器403可以是非易失性存储介质，用以存储计算机程序。该计算机程序被执行时，可使得处理器402执行上述构建方法。该处理器402用于提供计算和控制能力，支撑整个电子设备400的运行。

处理器402可以是中央处理单元(Central Processing Unit，CPU)，该处理器402还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的电子设备400的限定，具体的电子设备400可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的自闭症谱系障碍分类器的构建方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种自闭症谱系障碍分类器的构建方法，其特征在于，包括：

获取若干样本数据，形成数据集；

在所述数据集中，提取获得多个特征；

通过集成特征选择方法，选择所述多个特征中的一部分作为分类特征集；所述分类特征集由所述数据集生成的不同特征子集聚合形成；

使用预设的分类算法，基于所述数据集及分类特征集进行训练，获得所述自闭症谱系障碍分类器。

2.根据权利要求1所述的方法，其特征在于，所述集成特征选择方法具体包括：

根据所述特征权重向量的权重大小选择分类特征。

3.根据权利要求2所述的方法，其特征在于，所述在所述数据集中，随机选择部分样本数据生成多个不同的数据子集，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述预设的特征选择算法包括：套索算法、L1-范数支持向量机以及随机森林算法。

5.根据权利要求2所述的方法，其特征在于，所述根据所述特征权重向量的权重大小选择分类特征，具体包括：

选择前1％至5％的加权特征作为所述分类特征。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述使用预设的特征选择算法，对所述数据子集进行计算，获得多个不同的特征权重向量，具体包括：

使用预设的特征算法进行特征选择，获得N个特征权重向量；

7.根据权利要求1所述的方法，其特征在于，所述预设的分类算法为多个弱树分类器集成的强分类器；

所述样本数据为静息态fMRI数据。

8.一种自闭症谱系障碍分类器的构建装置，其特征在于，包括：

样本采集模块，用于获取若干样本数据，形成数据集；

特征提取模块，在所述数据集中，提取获得多个特征；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的自闭症谱系障碍分类器的构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的所述的自闭症谱系障碍分类器的构建方法。