CN111009321A

CN111009321A - 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法

Info

Publication number: CN111009321A
Application number: CN201910748884.1A
Authority: CN
Inventors: 邢建川; 丁志新; 杨骁�; 王翔; 李悦; 王天翼
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2020-04-14

Abstract

本发明公开了一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法；其特征在于：按照如下方式实施；步骤一，建立模型训练方法；步骤二，构建模型评价指标；步骤三，孤独症辅助诊断系统的特征工程；步骤四，进行数据降维处理；步骤五，进行特征选择；步骤六，进行模型训练和结果分析。本发明将机器学习方法引入到孤独症研究领域；其带来的高效性和可靠性对孤独症的辅助诊断应该会有很大的帮助。本发明的应用领域可体现于；(1)疾病的诊断和治疗，(2)吸烟成瘾、网络成瘾、网络游戏成瘾，(3)认知等健康领域等。

Description

一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法

技术领域

本发明涉及机器学习分类模型应用领域，具体来讲是一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法。

背景技术

目前主要的孤独症诊断方法仍然很依赖于医生的临床经验。医生通过观察儿童是否有某些指定的异常行为或通过采集全面详细的生长发育史、病史和精神检查进行诊断。前者很容易会受到医生主观因素的影响，从而发生误诊。另外如果仅在短时间窗口内观察儿童的异常行为，容易出现随机性。而如果将时间窗口加大，则会和后者存在同样的问题，即会耗费更多的时间，在可靠性和时效性方面均存在一定的不足。磁共振等大脑成像技术的发展，让医生可以更多更快地获得患者数据，但目前仍无法直接通过磁共振图像进行诊断。

随着人工智能的又一次兴起，机器学习在工业界、生物医学领域的应用越来越广泛，这得益于其准确性和高效性。机器学习模型可以看做是一个有着丰富临床经验的医生，但是相比人类，它能挖掘和记忆更多更精细的病征。而随着各种开源人脑数据库的不断建设和完善，机器学习将能更充分地施展拳脚。

发明内容

因此，为了解决上述不足，本发明在此提供一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法；将机器学习方法引入到孤独症研究领域；其带来的高效性和可靠性对孤独症的辅助诊断应该会有很大的帮助。

本发明是这样实现的，构造一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于：按照如下方式实施；

步骤一，建立模型训练方法；

步骤二，构建模型评价指标：

步骤三，孤独症辅助诊断系统的特征工程；

步骤四，进行数据降维处理；

步骤五，进行特征选择；

步骤六，进行模型训练和结果分析。

根据本发明所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤一建立模型训练方法中，构建留出法、交叉验证和自助法；

(1)留出法，将初始数据集D划分为两个子数据集S、T，满足：D＝S∪T 且

在S上训练模型M，然后在T上测试M的表现；

(2)交叉验证，即数据交替作为训练集和测试集，每个样本都有一次机会作为测试样本；具体做法是将训练集随机划分成K等份，每一份数据依次作为测试集，一共训练K个模型，并以这些模型的平均表现作为模型选择的依据；

(3)自助法的具体做法是对规模为m的数据集D进行有放回采样，一共m 次；这样便可以得到一个新的数据集D'；然后在D'上训练模型，在D\D'(即不在D'中的数据)上进行测试。

根据本发明所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤二构建模型评价指标：评价指标有混淆矩阵、准确率、精确率、召回率、特异度、F1、AUC；

1)，混淆矩阵，即标记分类结果分布的矩阵；

2)，准确率，即正确分类的样本所占的比例，由公式(4-1)计算；

其中，TP即真正例，TN即真反例，FP为假正例，FN为假反例；

3)，精确率，即预测为正例中真正例所占的比例，又称查准率，由公式(4-2) 计算；

4)，召回率，即真正例被查出来的比例，又称查全率，由公式(4-3)计算；

5)，特异度，即预测为反例中真反例所占的比例，由公式(4-4)计算；

6)，F1，一般用来综合评估精确率和召回率，由公式(4-5)计算；

β取1，即为标准的F1；

7)，AUC即受试者工作曲线下的面积，受试者工作曲线在以假正例率(FPR) 为横轴，以真正例率(TPR)为纵轴的坐标系中，依次以每个样本的预测值(概率p)作为分类阈值(不小于p归为正例)，计算此时的FPR和TPR，并在坐标轴中作点，之后将它们按一定规则相连得到；其中，FPR即真反例被预测为正例的比例，TPR即召回率；AUC更关注预测结果(概率)的排序。

根据本发明所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤3孤独症辅助诊断系统的特征工程；

初始特征集的选定具体包括：1)从大脑结构图像中得到的信息，包括各个脑区的灰质/白质/脑脊液的体积/密度等；2)大脑功能网络的网络属性，包括特征路径长度、聚类系数、小世界属性、全局效率、层次化程度、网络同步性等； 3)静息态大脑信号分析中异常脑区的fALFF/ReHo信号等；4)大脑对称性分析中的异常脑区的VMHC值；5)大脑因效网络的聚类系数等；6)功能网络权值矩阵上三角部分、矩阵的秩、行列式、特征值等；

首先使用上述特征集分别训练模型，并测试了其在训练集上的拟合效果，以此验证上述初始特征集的选取是否具有一定的合理性，同时也验证第三章分析结果的可靠性；具体做法是：提取所有被试的上述初始特征，分别训练SVM (线性核函数)、LR和SGD模型，迭代次数为5，其余均使用默认参数，然后计算各个模型在训练集上的拟合情况。

根据本发明所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤四数据降维处理如下；

(1)主成分分析(Principalcomponentsanalysis,PCA)

PCA在数据压缩、数据去噪等领域都有广泛的应用。其主要思想是用原始数据中最主要的部分来代替原始数据。设原始p维数据有s个{x⁽¹⁾,x⁽²⁾,...,x^(s)}，需要将其降维到q(q＜＜p)维的新空间上{z⁽¹⁾,z⁽²⁾,...,z^(s)}，设原始空间到新空间的变换矩阵为W＝{w₁,w₂,...,w_q}，则z⁽ⁱ⁾由公式(4-6)计算；

z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾，i＝1，2，...，s (4-6)

PCA的求解目标是最大化新空间中的投影方差，如公式(4-7)所示；

于是PCA算法的主要步骤是：

1)首先对样本进行中心化，如公式(4-8)所示；

2)计算样本的协方差矩阵X·X^T；

3)对矩阵X·X^T进行特征值分解；

4)取出最大的q个特征值对应的特征向量构成特征向量矩阵即投影矩阵： W＝(w₁,w₂,...,w_q)；

5)对于样本集合中的每一个样本x⁽ⁱ⁾，计算其在新空间中的坐标： z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾；

6)得到降维后的数据集：{z⁽¹⁾,z⁽²⁾,...,z^(s)}；

(2)线性判别分析：LDA也可以直接用于分类，LDA的基本思想是使得投影之后类间距离最大化而类内距离最小化，即

其中W为变换矩阵，S_b为类间散度矩阵，S_w为类内散度矩阵；于是二分类的LDA算法的主要步骤是：

1)计算类间散度矩阵，如公式(4-9)所示；

S_b＝(μ₀-μ₁)·(μ₀-μ₁)^T (4-9)

2)计算类内散度矩阵，如公式(4-10)所示；

其中；X₀为第一类样本集合，X₁为第二类样本集合；

3)计算矩阵

的最大的q个特征值对应的特征向量构成特征向量矩阵即投影矩阵：W＝(w₁,w₂,...,w_q)；

4)对于样本集合中的每一个样本x⁽ⁱ⁾，计算其在新空间中的坐标，见式 (4-11)；

z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾ (4-11)

5)得到降维后的数据集：{(z⁽¹⁾,y⁽¹⁾),(z⁽²⁾,y⁽²⁾),...,(z^(s),y^(s))}，其中y⁽ⁱ⁾为各个样本的类别；

(3)局部线性嵌入：LLE主要适合流形数据的降维；它假设数据在局部是线性的，即某个数据可以用其邻域内的几个样本线性表出；然后在保持局部线性表示不变的前提下，将其投影到低维空间，并使投影后样本和其邻域内样本的线性表示的方差最小即可；LLE算法的步骤如下：

1)设置近邻数k、降维到q维以及距离度量，默认为欧氏距离；

2)依次计算x⁽ⁱ⁾的k个最近邻；

3)依次计算局部协方差，见式(4-12)；

S_i＝(x⁽ⁱ⁾-x^(j))^T·(x⁽ⁱ⁾-x^(j)) (4-12)

并求出对应的权重系数向量，见式(4-13)；

其中I_k为全1矩阵；

4)计算矩阵M，见式(4-14)；

M＝(I-W)·(I-W)^T (4-14)

其中权重系数矩阵W＝(W₁,W₂,...,W_s)；

5)计算M的前q+1个最大的特征值，并计算其对应的特征向量 {z⁽¹⁾,z⁽²⁾,...,z^(s ⁺¹⁾}，于是{z⁽²⁾,z⁽³⁾,...,z^(s+1)}即为降维后的数据。

根据本发明所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤五特征选择使用卡方检验法和递归消除法进行特征选择。

根据本发明所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤六模型训练和结果分析；

首先对原始特征集合分别进行处理，并在之后的模型训练中加入了L1正则化，进一步控制特征维度。在模型训练中，使用了五折交叉验证方法，训练了支持向量机、逻辑斯蒂回归、随机梯度下降模型、LightGBM等模型；其中SVM 使用多项式核函数，最高4次，LR加入了L1正则化，SGD使用Hinge损失函数，LightGBM也使用了L1、L2正则化；另外，由于本专利样本类别分布略有不均衡，因此均在模型中设置了类别权重；最后使用加权投票法做了模型融合。

本发明具有如下优点：本发明在此提供一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法；将机器学习方法引入到孤独症研究领域；本专利将按照使用机器学习方法进行数据分析的一般流程来展开(如图1所示)。首先介绍了几种常见的模型训练方法、几种模型评价指标的优缺点。之后介绍了本研究中的特征来源和依据，并粗略对比了几组初始特征集训练出来的模型在数据集上的拟合表现。之后依次介绍了数据降维、特征选择等优化手段，并与之前未优化的训练结果进行对比。最后展示了模型加权融合给预测结果带来的提升。

本专利介绍了几种常见的模型训练方法和几种模型评价指标的优缺点。之后介绍了本研究中的特征来源和依据，接着使用三个简单模型对初始特征集分别进行了分类训练，并测试了几组初始特征子集训练出来的模型在训练集上的拟合表现，结果显示平均准确率可以达到70％，一定程度上也说明了前一章分析结果的可靠性。之后依次介绍和使用了多种数据降维和特征选择方法来解决特征维度较大时存在的过拟合风险问题，并在各个子特征集上使用不同的降维或特征选择方法来提高模型的泛化性能，并使用交叉验证方法进行训练，取得了不错的效果。另外，发现，树模型在本专利研究中的性能表现并不好。一方面由于本专利样本规模较小，另一方面说明太复杂的模型很容易在小数据集上过拟合，因此本专利并没有尝试使用神经网络模型进行分类。最终，使用所有特征训练出来的模型融合后准确率达到了86.24％，精确率和特异度达到了80％以上，都超过了单独使用某个特征子集或单模型的性能。这个系统的高效性和可靠性对孤独症的辅助诊断应该会有很大的帮助。另外注意到，模型的召回率依然较低，即病人被误判为正常人的比例仍然不少，在将来如果能够使用更多的样本进行训练应该可以有所提高。

附图说明

图1是使用机器学习进行数据分析的基本流程；

图2是十折交叉验证示例；

图3是PCA vs LDA示意图(其中，a为PCA更优的情形；b为LDA更优的情形)；

图4是局部线性嵌入算法流程图；

图5是孤独症预诊断系统流程图。

具体实施方式

下面将结合附图1-图5对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法；按照如下方式实施；

(一)模型训练方法；包括留出法(Hold-out)、交叉验证(CrossValidation) 和自助法(Bootstrapping)；

留出法，将初始数据集D划分为两个子数据集S、T，满足：D＝S∪T且

在S上训练模型M，然后在T上测试M的表现。

由于目前孤独症人脑研究中的样本量较少(本专利中一共109例)，如果直接在原数据集中划分出一部分数据作为测试集，那么，一方面没有充分利用所有训练数据，另一方面测试集合T划分的随机性也会导致测试结果不稳定。

交叉验证，即数据交替作为训练集和测试集，每个样本都有一次机会作为测试样本。具体做法是将训练集随机划分成K等份，每一份数据依次作为测试集(K＝10时如图2所示)，一共训练K个模型，并以这些模型的平均表现作为模型选择的依据。特别的，K取1时又被称为留一法(Leave-One-Out，LOO)。

自助法在数据集较小、难以有效划分训练/测试集时很有用。具体做法是对规模为m的数据集D进行有放回采样，一共m次。这样便可以得到一个新的数据集D'。然后在D'上训练模型，在D\D'(即不在D'中的数据)上进行测试。实际上，某个数据不被采样的概率为(1-1/m)^m，当m为109时，上式约为36.6％，即测试集约占1/3。自助法可以在原始数据集上产生若干个不同的训练集，对集成学习有很大的好处。但是自助法产生的数据集会改变原始数据集的分布，从而引入估计偏差。因此在原始数据量足够大时，留出法和交叉验证法是更常用的选择。

(二)构建模型评价指标；为了评估机器学习模型的泛化性能，通常会根据实际的任务需求选择合适的评价指标。对于二分类任务而言，常用的评价指标有准确率(Accuracy)、精确率(Precision，又称灵敏度)、召回率(Recall)、特异度(Specificity，SPE，又称真阴性率True Negative Rate，TNR)、F1、AUC 等；下面做介绍。

1)，混淆矩阵(ConfusionMatrix)，即标记分类结果分布的矩阵(如表4-1 所示)；可以看出，对于泛化性能很好的模型，其混淆矩阵必然是严格对角占优的。

2)，准确率，即正确分类的样本所占的比例，由公式(4-1)计算。

其中，TP即真正例，TN即真反例，FP为假正例，FN为假反例。

一般来说，当类别很不平衡时，不能如实说明分类器性能。

3)，精确率，即预测为正例中真正例所占的比例，又称查准率，由公式(4-2) 计算。

4)，召回率，即真正例被查出来的比例，又称查全率，由公式(4-3)计算。

5)，特异度，即预测为反例中真反例所占的比例，由公式(4-4)计算。

6)，F1，一般用来综合评估精确率和召回率，由公式(4-5)计算。

β取1，即为标准的F1。

7)，AUC，即受试者工作曲线下的面积。受试者工作曲线在以假正例率(FPR) 为横轴，以真正例率(TPR)为纵轴的坐标系中，依次以每个样本的预测值(概率p)作为分类阈值(不小于p归为正例)，计算此时的FPR和TPR，并在坐标轴中作点，之后将它们按一定规则相连得到。其中，FPR即真反例被预测为正例的比例，TPR即召回率。AUC更关注预测结果(概率)的排序。

结合本专利孤独症预诊断系统的需求，不同于一般的疾病诊断，我们认为孤独症患者被错判为正常人的代价和正常人被错判为孤独症患者的代价相当，因此本专利之后的实验将主要关注精确率、召回率和特异度。

表4-1混淆矩阵

(三)孤独症辅助诊断系统的特征工程；

一般来说，特征决定了机器学习算法的上限，因此选择合适的特征尤为重要。在本专利中，初始特征集的选定主要基于差异较大的部分属性。具体包括： 1)从大脑结构图像中得到的信息，包括各个脑区的灰质/白质/脑脊液的体积/密度等；2)大脑功能网络的网络属性，包括特征路径长度、聚类系数、小世界属性、全局效率、层次化程度、网络同步性等；3)静息态大脑信号分析中异常脑区的fALFF/ReHo信号等；4)大脑对称性分析中的异常脑区的VMHC值；5) 大脑因效网络的聚类系数等；6)功能网络权值矩阵上三角部分、矩阵的秩、行列式、特征值等。

本专利首先使用上述特征集分别训练模型，并测试了其在训练集上的拟合效果，以此验证上述初始特征集的选取是否具有一定的合理性，同时也验证第三章分析结果的可靠性。具体做法是：提取所有被试的上述初始特征，分别训练SVM(线性核函数)、LR和SGD模型，迭代次数为5，其余均使用默认参数，然后计算各个模型在训练集上的拟合情况。评价指标使用准确率(Accuracy，即被正确分类的样本比例)，具体结果如表4-2所示。可以看出每组特征集在三个模型上的表现都不错，平均准确率可以达到70％以上，一定程度上说明之前的分析结果有一定的可靠性。具体的，大脑结构图像中的灰质体积和密度等、大脑因效网络的聚类系数、大脑功能网络矩阵相关性质等特征集的准确率相对较低，而大脑功能图像中的功能网络属性、fALFF信号、VMHC值等特征集的准确率相对较高。这符合实际情况，一方面，功能像是4D数据，相较于3D数据的结构像包含更多的信息，而且每个被试都构建了自己的功能网络，而结构网络每组被试只构建了一个；另一方面，功能网络矩阵非常稀疏，包含的有效信息相对较少。但是综合来看，目前的准确率还不足以达到临床诊断的需要，另外仅依靠准确率来判断也不够合理。

表4-2使用初始特征集训练的模型的拟合效果

(四)数据降维；当数据量较少时，很容易出现特征数远大于样本数的情况，这时SVM、决策树等模型很容易出现过拟合现象。本专利实验中每组特征集的维数统计以及使用五折交叉验证训练SVM的结果如表4-3所示。从表中也可以看出维度较大的特征集在SVM上的表现并不好，而特征数小于100的几组特征集准确率却相对较高。在无法增加样本数的情况下，为了提高模型的泛化性能，常用的解决方法有数据降维、特征选择等方法。将介绍常用的降维方法，并对比降维前后的结果。

表4-3不同特征集的维度以及SVM准确率对比

(1)主成分分析(Principalcomponentsanalysis,PCA)

PCA在数据压缩、数据去噪等领域都有广泛的应用。其主要思想是用原始数据中最主要的部分来代替原始数据。设原始p维数据有s个{x⁽¹⁾,x⁽²⁾,...,x^(s)}，需要将其降维到q(q＜＜p)维的新空间上{z⁽¹⁾,z⁽²⁾,...,z^(s)}，设原始空间到新空间的变换矩阵为W＝{w₁,w₂,...,w_q}，则z⁽ⁱ⁾由公式(4-6)计算。

z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾，i＝1，2，...，s (4-6)

PCA的求解目标是最大化新空间中的投影方差，如公式(4-7)所示。

于是PCA算法的主要步骤是：

1)首先对样本进行中心化，如公式(4-8)所示。

2)计算样本的协方差矩阵X·X^T；

3)对矩阵X·X^T进行特征值分解；

6)得到降维后的数据集：{z⁽¹⁾,z⁽²⁾,...,z^(s)}。

PCA有很多优点，比如由于各主成分之间是正交的(特征向量之间正交)，可以消除原始数据各维之间的耦合关系，且计算方法简单，只需要计算协方差和求解特征值即可。但是经过PCA降维后的数据往往失去了可解释性，另外在某些情形下，方差小的成分对分类贡献更大，但降维后被丢弃了。

(2)线性判别分析(LinearDiscriminantAnalysis,LDA)；

PCA有可能去掉对分类贡献更大的非主成分，而LDA则不会出现这个问题，因为LDA是一种监督学习降维方法，而PCA则是无监督的。因此，LDA也可以直接用于分类。LDA的基本思想是使得投影之后类间距离最大化而类内距离最小化，即

其中W为变换矩阵，S_b为类间散度矩阵，S_w为类内散度矩阵。于是二分类的LDA算法的主要步骤是：

1)计算类间散度矩阵，如公式(4-9)所示。

S_b＝(μ₀-μ₁)·(μ₀-μ₁)^T (4-9)

2)计算类内散度矩阵，如公式(4-10)所示。

其中；X₀为第一类样本集合，X₁为第二类样本集合；

3)计算矩阵

4)对于样本集合中的每一个样本x⁽ⁱ⁾，计算其在新空间中的坐标，见式 (4-11)。

z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾ (4-11)

5)得到降维后的数据集：{(z⁽¹⁾,y⁽¹⁾),(z⁽²⁾,y⁽²⁾),...,(z^(s),y^(s))}，其中y⁽ⁱ⁾为各个样本的类别。

和PCA相比，LDA选择了分类性能最好的投影方向(如图3所示)，而PCA 则使样本投影方差最大。此外LDA是有监督的，需要数据的类别，因此有可能过拟合数据。

(3)局部线性嵌入(LocallyLinearEmbedding,LLE)

LLE主要适合流形数据的降维。它假设数据在局部是线性的，即某个数据可以用其邻域内的几个样本线性表出(如图4所示)。然后在保持局部线性表示不变的前提下，将其投影到低维空间，并使投影后样本和其邻域内样本的线性表示的方差最小即可。LLE算法的步骤如下：

1)设置近邻数k、降维到q维以及距离度量，默认为欧氏距离；

2)依次计算x⁽ⁱ⁾的k个最近邻；

3)依次计算局部协方差，见式(4-12)。

S_i＝(x⁽ⁱ⁾-x^(j))^T·(x⁽ⁱ⁾-x^(j)) (4-12)

并求出对应的权重系数向量，见式(4-13)。

其中I_k为全1矩阵；

4)计算矩阵M，见式(4-14)。

M＝(I-W)·(I-W)^T (4-14)

其中权重系数矩阵W＝(W₁,W₂,...,W_s)；

LLE算法适合局部线性的流形数据，计算比较简单，但是对近邻数k、距离度量方式的设置很敏感。

可以看出以上三种方法求解过程均转化为了求矩阵的特征值和特征向量的计算，因此在维度较大时也会计算较慢。本专利为了便于考察每组特征的实际贡献，将分别对它们进行降维处理，然后保持模型参数不变进行训练，并对比降维前后模型的准确率的差异，具体结果如表4-4所示。由表中准确率的变化可以看出，使用LDA进行降维后，由于是二分类，因此只能降到1维，损失的重要信息更多，准确率出现了不小的下降，而PCA波动则较小，说明降维效果不错。

表4-4 PCA、LDA降维前后SVM准确率对比

(五)特征选择；

为了提高模型的泛化性能，提高模型训练预测速度，特征选择是另一种方法。其中最简单的方法就是利用方差进行筛选。特别地，如果某个特征取值的方差为0，此时它的取值就全部相同，那么这个特征对分类的贡献显然也是0。但是这并不意味着方差越大，对分类性能的贡献越大。例如：有两个正样本和两个负样本，在某两个特征上的取值分别为F1＝[0.1；0.2；0.8；0.9]， F2＝[1；10；2；9]，可以计算出F1的方差远小于F2的方差，但实际上F1可以更简单地分隔开正负样本。因此要结合实际的场景。特征选择方法主要包括过滤法、包装法和嵌入法，下面做简要介绍。

在分类问题中，过滤法主要通过计算特征取值的分布或与类别标签的相关性进行筛选，计算方差也是其中一种方法。另外还可以考察特征分布和类别标签之间的相关系数、互信息量等指标，还可以进行卡方检验，选择卡方值大于显著性水平阈值的特征。包装法则会选择一个目标函数来一步步筛选特征。递归消除特征法(Recursivefeatureelimination,RFE)是最常用的包装法之一，通过多次迭代训练一个机器学习模型，每次迭代后去除若干权值系数较小的特征。例如SVM-RFE算法，每次迭代会剔除超平面

的参数w分量中最小的

对应的特征，直到剩余的特征总数达到要求。另外，RFE比较耗时。嵌入法是直接通过模型的正则化或者模型的特征重要性得分来进行筛选。一般使用L1正则化来得到稀疏特征，或者根据树模型的特征得分去掉得分较低的特征。

本专利使用卡方检验法和递归消除法进行特征选择，结果如表4-5所示。可以看出灰质体积和密度等、大脑功能网络属性等特征虽然维度较大，但是对分类贡献较大的特征并不是集中在少数特征上，因此不适合使用这两种方法；异常脑区的fALFF/ReHo信号、VMHC值进行特征选择后的效果很不错；功能网络矩阵相关性质由于比较稀疏，做了特征选择之后并没有明显的效果。

表4-5卡方检验、RFE做特征选择后SVM准确率对比

(六)模型训练和结果分析

结合之前的分析，本专利首先对原始特征集合分别做了如下处理(如表4-6 所示)，特征总维度下降了95％，并在之后的模型训练中加入了L1正则化，进一步控制特征维度。

在模型训练中，使用了五折交叉验证方法，训练了支持向量机、逻辑斯蒂回归、随机梯度下降模型、LightGBM等模型。其中SVM使用多项式核函数，最高4次，LR加入了L1正则化，SGD使用Hinge损失函数，LightGBM也使用了 L1、L2正则化。另外，由于本专利样本类别分布略有不均衡，因此均在模型中设置了类别权重。最后使用加权投票法做了模型融合，结果如表4-7所示。各个模型的混淆矩阵如表4-8至表4-11所示。由于LightGBM整体表现较差，没有参与到融合中，SVM、LR、SGD投票权重为1:2:2。

表4-6对部分特征集合的降维处理

特征集	特征维度	处理后维度	处理方法
				灰质体积、密度等	630	1	LDA
大脑功能网络属性	216	40	PCA
				异常脑区的fALFF/ReHo信号	96	30	RFE
异常脑区的VMHC值	48	12	PCA
				功能网络矩阵相关性质	4005	45	PCA

表4-7各模型5折交叉验证及模型融合的结果

由表不难看出，几个模型的混淆矩阵均是严格对角占优的，说明模型的预测效果较好，也说明本专利基于大脑结构网络、功能网络和因效网络分析挖掘的两组被试之间的差异的确可以作为孤独症辅助诊断的依据。另外使用了若干降低特征维度的操作也是行之有效的。孤独症预诊断系统的流程如图5所示。

本发明的应用领域可体现于；(1)疾病的诊断和治疗，(2)吸烟成瘾、网络成瘾、网络游戏成瘾，(3)认知等健康领域等。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本专利中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本专利所示的这些实施例，而是要符合与本专利所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于：按照如下方式实施；

步骤一，建立模型训练方法；

步骤二，构建模型评价指标；

步骤三，孤独症辅助诊断系统的特征工程；

步骤四，进行数据降维处理；

步骤五，进行特征选择；

步骤六，进行模型训练和结果分析。

2.根据权利要求1所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤一建立模型训练方法中，构建留出法、交叉验证和自助法；

(1)留出法，将初始数据集D划分为两个子数据集S、T，满足：D＝S∪T且

在S上训练模型M，然后在T上测试M的表现；

(3)自助法的具体做法是对规模为m的数据集D进行有放回采样，一共m次；这样便可以得到一个新的数据集D'；然后在D'上训练模型，在D\D'(即不在D'中的数据)上进行测试。

3.根据权利要求1所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤二构建模型评价指标：评价指标有混淆矩阵、准确率、精确率、召回率、特异度、F1、AUC；

1)，混淆矩阵，即标记分类结果分布的矩阵；

其中，TP即真正例，TN即真反例，FP为假正例，FN为假反例；

3)，精确率，即预测为正例中真正例所占的比例，又称查准率，由公式(4-2)计算；

β取1，即为标准的F1；

7)，AUC即受试者工作曲线下的面积，受试者工作曲线在以假正例率(FPR)为横轴，以真正例率(TPR)为纵轴的坐标系中，依次以每个样本的预测值(概率p)作为分类阈值(不小于p归为正例)，计算此时的FPR和TPR，并在坐标轴中作点，之后将它们按一定规则相连得到；其中，FPR即真反例被预测为正例的比例，TPR即召回率；AUC更关注预测结果(概率)的排序。

4.根据权利要求1所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤3孤独症辅助诊断系统的特征工程；

初始特征集的选定具体包括：1)从大脑结构图像中得到的信息，包括各个脑区的灰质/白质/脑脊液的体积/密度等；2)大脑功能网络的网络属性，包括特征路径长度、聚类系数、小世界属性、全局效率、层次化程度、网络同步性等；3)静息态大脑信号分析中异常脑区的fALFF/ReHo信号等；4)大脑对称性分析中的异常脑区的VMHC值；5)大脑因效网络的聚类系数等；6)功能网络权值矩阵上三角部分、矩阵的秩、行列式、特征值等；

首先使用上述特征集分别训练模型，并测试了其在训练集上的拟合效果，以此验证上述初始特征集的选取是否具有一定的合理性，同时也验证第三章分析结果的可靠性；具体做法是：提取所有被试的上述初始特征，分别训练SVM(线性核函数)、LR和SGD模型，迭代次数为5，其余均使用默认参数，然后计算各个模型在训练集上的拟合情况。

5.根据权利要求1所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤四数据降维处理如下；

(1)主成分分析(Principalcomponentsanalysis,PCA)

PCA在数据压缩、数据去噪等领域都有广泛的应用。其主要思想是用原始数据中最主要的部分来代替原始数据。设原始p维数据有s个{x⁽¹⁾,x⁽²⁾,...,x^(s)}，需要将其降维到q(q＜＜p)维的新空间上{z⁽¹⁾,z⁽²⁾,...,z^(s)}，设原始空间到新空间的变换矩阵为W＝{w₁,w₂,…,w_q}，则z⁽ⁱ⁾由公式(4-6)计算；

z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾，i＝1，2，...，s (4-6)

于是PCA算法的主要步骤是：

1)首先对样本进行中心化，如公式(4-8)所示；

2)计算样本的协方差矩阵X·X^T；

3)对矩阵X·X^T进行特征值分解；

4)取出最大的q个特征值对应的特征向量构成特征向量矩阵即投影矩阵：W＝(w₁,w₂,...,w_q)；

5)对于样本集合中的每一个样本x⁽ⁱ⁾，计算其在新空间中的坐标：

z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾；

6)得到降维后的数据集：{z⁽¹⁾,z⁽²⁾,...,z^(s)}；

1)计算类间散度矩阵，如公式(4-9)所示；

S_b＝(μ₀-μ₁)·(μ₀-μ₁)^T (4-9)

2)计算类内散度矩阵，如公式(4-10)所示；

其中；X₀为第一类样本集合，X₁为第二类样本集合；

3)计算矩阵

4)对于样本集合中的每一个样本x⁽ⁱ⁾，计算其在新空间中的坐标，见式(4-11)；

z⁽ⁱ⁾＝W^T·x⁽ⁱ⁾ (4-11)

1)设置近邻数k、降维到q维以及距离度量，默认为欧氏距离；

2)依次计算x⁽ⁱ⁾的k个最近邻；

3)依次计算局部协方差，见式(4-12)；

S_i＝(x⁽ⁱ⁾-x^(j))^T·(x⁽ⁱ⁾-x^(j)) (4-12)

并求出对应的权重系数向量，见式(4-13)；

其中I_k为全1矩阵；

4)计算矩阵M，见式(4-14)；

M＝(I-W)·(I-W)^T (4-14)

其中权重系数矩阵W＝(W₁,W₂,...,W_s)；

5)计算M的前q+1个最大的特征值，并计算其对应的特征向量{z⁽¹⁾,z⁽²⁾,...,z^(s+1)}，于是{z⁽²⁾,z⁽³⁾,...,z^(s+1)}即为降维后的数据。

6.根据权利要求1所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤五特征选择使用卡方检验法和递归消除法进行特征选择。

7.根据权利要求1所述一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法，其特征在于；步骤六模型训练和结果分析；

首先对原始特征集合分别进行处理，并在之后的模型训练中加入了L1正则化，进一步控制特征维度。在模型训练中，使用了五折交叉验证方法，训练了支持向量机、逻辑斯蒂回归、随机梯度下降模型、LightGBM等模型；其中SVM使用多项式核函数，最高4次，LR加入了L1正则化，SGD使用Hinge损失函数，LightGBM也使用了L1、L2正则化；另外，由于本专利样本类别分布略有不均衡，因此均在模型中设置了类别权重；最后使用加权投票法做了模型融合。