CN113555070B

CN113555070B - 机器学习算法构建急性髓系白血病药敏相关基因分类器

Info

Publication number: CN113555070B
Application number: CN202110605148.8A
Authority: CN
Inventors: 宋洋; 秘营昌; 王建祥; 房秋云
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-09-23
Anticipated expiration: 2041-05-31
Also published as: CN113555070A

Abstract

一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其特征在于包括样本聚类、基因筛选；所述样本聚类是利用K‑means聚类算法分别对24种药物的病人敏感度进行聚类；所述基因筛选是根据病人的聚类结果利用特征选择模型对24种药物的甲基化和转录组数据进行基因的筛选与验证。本申请采用逻辑回归、岭回归、RFECV‑SVM、RFECV‑RF算法实现对目的基因的最终筛选。逻辑回归与岭回归使用4折分层交叉验证进行参数优选，设定特征选择的阈值为特征权重的平均值，即特征权重大于平均值的特征将会被保留。而RFECV算法则使用不同的学习模型SVM、RF进行筛选。

Description

机器学习算法构建急性髓系白血病药敏相关基因分类器

技术领域

本发明涉及白血病研究领域，尤其涉及机器学习算法构建急性髓系白血病药敏相关基因分类器。

背景技术

急性髓系白血病(AML)作为一组具有高度异质性的血液系统恶性疾病，约占白血病总发病人数的70％，20％～40％的患者难以取得完全缓解(CR)，2疗程化疗不缓解即为难治性AML。AML基本化疗方案为蒽环/蒽醌类药物联合阿糖胞苷(Ara-C)组成的方案，国内一线治疗药物还包括高三尖杉酯碱(HHT)；而难治复发AML缺乏公认、高效的再诱导治疗方案，这些患者再次CR的比例30-68％不等。随着分子靶向药物的临床应用部分患者的疗效有所改善，但只是解决了部分患者的问题

随着大数据时代的进展，人工智能机器学习算法可以辅助研究人员在分子层面深入分析和解读白血病相关的基因测序数据，进而实现对AML预后及耐药的关键分子功能的探索。本专利旨在对不同疾病状态下的AML进行转录组和甲基化组学测序，构建机器学习算法基因分类器模型，筛查并分析不同药物相关的关键基因。根据分类器寻找出药敏相关基因，可形成对病人临床药物治疗反应和预后较为精准的判断，制定更加个体化有效的化疗方案，提高患者的生存期。

目前解释AML患者耐药问题，主要认为是白血病细胞交叉耐药，即对多个化疗药物靶点产生耐药性。但采用的研究手段多为对单一基因的某几个药物分子表型分析，其主要问题在于缺乏对白血病耐药分子及其耐药通路整体性规律探索。

大数据时代下，生物信息数据库如GDSC等对于筛选药物敏感性基因则局限于利用细胞系基因表达谱数据与药物分子治疗反应关联的预测模型。其主要原理为运用pRRophetic算法，根据GDSC数据库细胞系基因表达谱和病人转录组表达谱构建岭回归模型预测药物IC50，IC50越高代表细胞系对于药物越不敏感，从而揭示基因表达谱和药敏的联系。

考虑白血病患者具有极强的异质性，且AML细胞系药物敏感性的评估仅参考白血病细胞系拟合IC50值，并未纳入实际临床治疗剂量下细胞的反应，故细胞系数据库预测方法对于白血病病人实际治疗反应的符合度较低。与此同时，目前细胞系数据库也缺乏从表观遗传到转录表达的耐药一致性规律的研究。基于以上问题，本申请选用基于白血病病人原代标本进行体外药物敏感性高通量测序，构建机器学习算法模型，用于填补实际白血病化疗患者临床治疗反应的空白。

发明内容

根据以上技术问题，本发明提供一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其特征在于包括样本聚类、基因筛选；

所述样本聚类是利用K-means聚类算法分别对24种药物的病人敏感度进行聚类；所述基因筛选是根据病人的聚类结果利用特征选择模型对24种药物的甲基化和转录组数据进行基因的筛选与验证。

一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其具体算法为：Step1：对药物进行聚类分析

K-means聚类算法是一种无监督的学习算法，它最早由MacQueen于1967年提出。聚类算法与有监督学习不同，不需要对数据进行事先分类，它可以对人们事先不了解的数据集进行分组，使得组内的差异尽可能地小，而组间的差异尽可能的大。K-means算法因其原理清晰、实现简单，在科学研究和工业应用等领域被广泛采用。

基于病人体外药物敏感性实验设计，分别计算出每种药物的GI50和100％PPC抑制率指标，利用K-means聚类算法实现对病人药物敏感度分组(K＝2)，从而将病人划分为2组，为后续利用监督学习算法筛选药敏基因提供带有分类标签的数据集。

K-Means算法具体步骤

(1)从处理好的样本中随机选择2个样本C₁,C₂作为初始的聚类中心。

(2)根据每个样本的数据，计算每个样本与2个聚类中心的距离，并将其划分到距离最小的聚类中心所对应的类中。

样本与聚类中心的距离度量为欧氏距离：

其中，x代表每个病人样本拟合的GI50数据，y代表着样本中的100％PPC抑制率数据。

(3)针对每个类别C₁,C₂，重新计算其聚类中心

(4)重复(2)(3)步骤，直到算法收敛。

完成聚类后，根据聚类中心的数值来确定每一类别的具体含义，通过数据处理，使得横纵坐标值越大，代表着病人对药物越敏感。故对于K-means聚类结果的划分可划分为：计算聚类中心离原点的距离，距离大者，该聚类中心所对应的类中所包含的样本为敏感组，反之，为耐药组。

Step2:多种基因筛选模型建立

目前生物信息学分析多采用对测序数据的基因表达量进行组间差异分析并筛选出差异基因，例如转录组学采用DEseq2分析差异表达基因DEG(differential expressedgene)或甲基化组学采用ChAMP分析DMP(Differentially Methylated Position)，而差异筛选指标通常参考差异变化倍数FC(fold change)/deltaβ及BH检验后的P值，但对于指标的重要性程度没有明确的注释。FC/deltaβ对于分析组间差异有较好的注释作用，但按其进行筛选排序会造成对于特征选择偏倚：认为FC/deltaβ绝对值较大的基因，即组间波动变化较大的基因为较重要的基因。故尝试采用结合机器学习算法来完成对基因的筛选。

考虑数据集特性，所选算法需在小样本、多特征的情形下完成特征基因筛选，且筛选主要特征需对特征基因数据做基因重要性排序，进而选出关键耐药基因。主要选择的机器学习算法有逻辑回归、岭回归、支持向量机(SVM)、随机森林(Random Forest)、以及基于交叉验证的递归特征消除算法(recursive feature elimination cross validation，RFECV)。其中，SVM，RF则是作为RFECV底层算法的学习模型。

SVM(Support Vector Machine)支持向量机，是一种常用的分类模型，SVM核心思想是寻找最大间隔的划分超平面，从而可以更好地匹配样本数据，容忍随机扰动，提高模型的泛化能力。Schoelkopf等人认为SVM做分类器时，它的参数取决于样本的数量而非特征的数量，与样本－特征的数量比值几乎无关，这样的模型因此可以很好地适应高维小样本数据。

RFE算法由Guyou提出，是特征选择方法的一种，RFE基于分类器模型进行特征选择，要求分类器需要能计算特征的重要性或权重，也基于此，本申请选择的分类器模型是SVM和RF。RFE算法的核心思想是利用权重可以用来对特征进行排序，从最重要的依次递减，RFE算法每次删除权重排名最后的一个特征，迭代直到剩下想要留下的特征数目为止。

RFECV是基于交叉验证的RFE算法，它则能够自动选择和调整需要保留的基因数目，该算法利用k折交叉验证方法，在每一次迭代中，采用分层采样将数据划分为k等份，确保训练集，测试集中各类别样本的比例与原始数据集中相同，利用其中的k-1等份对学习模型(本申请使用多种模型如SVM，随机森林，)进行训练，用剩下的一份数据集进行验证。

结合基因筛选任务，RFECV的具体步骤如下：

(1)利用分层采样将原始数据集划分为k等份，当前特征基因包含所有基因

(2)选择k-1个等份作为训练集，剩下的一个等份作为验证集，在学习模型(SVM、RF)上进行训练。

(3)在测试集上运行分类器，计算分类结果评价指标。

(4)根据训练集上的基重要性因排序，删去排名最后的m个特征。

(5)进入下一轮训练迭代，重复(2)、(3)、(4)直到训练集剩下的基因为空。

(6)重复步骤(2)k次，保证每一次的验证集都不同。

(7)选择在k次测试集上评价指标平均最高的一轮迭代，并基于这轮迭代保留的基因数目N^*再次对整个数据集进行RFE迭代筛选，直到留下的基因数目为N^*，最终得到筛选后的基因结果。

逻辑回归(Logistic Regression)

logistic回归是常用的处理因变量为分类变量的回归问题，因而实际为一个分类算法，常用于二分类问题。

logistic回归利用了Logistic函数，其函数形式为：

其中，

θ为特征权重向量，x∈R^p，表示病人样本x有p个特征基因。

岭回归(Ridge Regression)

在实验中，特征基因的数目大于样本数，因此考虑使用解决这类问题的常用回归算法：岭回归。

岭回归实际上是带L2范数惩罚的最小二乘回归。设常见的回归矩阵形式为：

其中，x_j表示为病人样本x的第j个特征基因的表达量，y则是样本x的对应药敏分类结果。β_j和β₀则是待求参数，其中β_j为特征权重。

通常情况下，利用最小二乘回归求解此类问题是最小化表达式：

式中，i＝1,…,N则表示训练集中的N个样本。

而岭回归则是要在上述的最小化目标表达式中增加对参数β的约束，添加一个L2范数的惩罚项

使得求解目标变为下式：

其中，λ为待求参数；

本申请中，共收纳复发难治AML和初诊AML病人共41例，同时进行转录组RNA-seq测序和甲基化组学850K芯片测序。甲基化的基因探针位点共涉及598243个，转录组共涉及23710个基因，考虑样本数量有限，样本特征基因数量较多，选用全部基因特征数据建模，易出现高维特征的失效，从而导致丧失模型学习的准确性。因此，首先考虑对基因特征进行差异分析，再进行不同算法模式降维处理。

利用ChAMP方法对甲基化组学进行差异分析以及DESeq2方法对转录组数据进行差异分析。之后基于差异分析对原始数据的特征降维，将处理后的数据进行Logistics回归、岭回归、RFECV-SVM、RFECV-RF等多种特征选择模型中，通过K折分层交叉验证优选模型参数，在优选的模型上进行训练得到最终筛选的基因。

为比较验证各模型的筛选效果以及所筛选基因的有效性，基于最终筛选的基因重新处理数据，并利用常用的机器学习分类模型进行训练验证。为了避免分类模型本身的影响，分别采用了SVM、RF、logistic回归、KNN、决策树等多个机器学习算法反复验证，比较不同算法的分类效果。

采用逻辑回归、岭回归、RFECV-SVM、RFECV-RF算法实现对目的基因的最终筛选。逻辑回归与岭回归使用4折分层交叉验证进行参数优选，设定特征选择的阈值为特征权重的平均值，即特征权重大于平均值的特征将会被保留。而RFECV算法则使用不同的学习模型SVM、RF进行筛选。RFECV的参数如下表所示：

RFECV模型参数表

运用在RFECV中的学习模型SVM的参数如下表所示，由于样本维度远小于特征维度，因此，采用线性核作为核函数，其次，由于敏感与不敏感两类样本数量不平衡，通过指定class_weight参数为balanced可以根据病例类别比例赋予相反的权重，从而一定程度上减轻病例样本不平衡带来的影响，同时指定shrinking参数，启用shrinking heuristic方法，以加快收敛速度。

学习模型SVM参数表

对于随机森林模型，其参数设定如下表所示

学习模型RF参数表

Step 3：基因筛选模型的验证

1.检验效能评价

为了检验最终模型的性能以及所筛选特征的有效性，将甲基化和转录组的数据集均按照75％、25％的比例分为训练集和测试集，由于样本类别不平衡，因此利用分层采样划分，保证训练集，测试集中各类别样本的比例与原始数据集中相同。为消除测试模型本身的影响，基于各筛选模型处理后的数据，利用SVM、RF、logistic回归、KNN算法、决策树算法等多个常用的分类算法在测试集进行训练，以验证各模型的筛选特征结果是否具有分类意义。

本申请选择逻辑回归、岭回归、RFECV-SVM、RFECV-RF这4类算法作为基因筛选模型，选用以下评价指标评估并选出最优模型：

1)召回率，精确率和F1 Score

由于个别药物组间样本类别数目不平衡，利用F1指标评价模型。F1的计算方式如下：

公式中，TP表示正确地把敏感病例预测为敏感，FP表示错误地把不敏感病例预测为敏感病，FN表示错误地把敏感病例预测为不敏感病例。P为精确率(Precision Rate)，R为召回率(Recall Rate)，F1为精确率和召回率的调和平均值。F1值区间范围[0,1],目前认为F1值越大，分类器模型越可靠。

2)AUC(Area under curve)

AUC目前主要用于二分类模型的评价，是基于样本的真实类别和预测概率，以FP为横坐标，TP为纵坐标算出的曲线下面积。由于AUC对样本类别是否均衡并不敏感，故对于组间不均衡样本可选用AUC评价分类，并通过优化AUC值训练分类器模型。

2.GDSC数据库验证筛选基因药敏预测准确性，其原理及步骤如下：

1)对CGP数据库和待预测的表达矩阵分别做标准化处理，将训练集和测试集合并，同时去除低表达量基因，细胞系基因表达矩阵作为训练集，临床病人基因表达矩阵作为测试集；

2)使用基因表达数据作为输入训练集预测值，药物IC50值car包的powerTransform函数进行转换作为结果变量，模型运用pRRopheticPredict函数，岭回归分析来预测测试集每一个病人的药物反应情况；

3)预测过程默认采取10折交叉，以增加可信度；

4)基于预测的病人药物敏感性，按照平均IC50值作为节点将病人划分成敏感组和耐药组两个组别，进而实现预测病人临床化疗药物反应功能；

3.TCGA数据库药敏相关基因生存分析验证，其具体步骤如下：

1)从TCGA官网下载RNA-seq数据及病人临床信息；

2)基因表达谱矩阵整合：将数据整理为基因×病人矩阵，为方便不同测序平台比较，选用FPKM转为TPM标准化模式，“sva”包Combat函数去除批次化效应；

3)生存预后分析：取表达量为0的样本数目小于总样本数pct％的样本，表达量方差大于1的基因，组成表达矩阵。

所述24种药物包括靶向药物9种，传统化疗药物15种。

所述24种药物由蒽环类、抗代谢药物、植物碱类、烷化剂、去甲基化药物、鬼臼类药物、吖啶类药物、小分子TKI、其他组成。

所述24种药物包括柔红霉素、去甲氧柔红霉素、米托蒽醌、阿克拉霉素、阿糖胞苷、氟达拉滨、克拉曲滨、高三尖杉酯碱、环磷酰胺、地西他滨、阿扎胞苷、依托泊苷、安丫啶、ABT-199、达沙替尼、泊纳替尼、芦可替尼、索拉菲尼、Glasdegib、Larotrectinib、恩西地平、西达苯胺、三氧化二砷、二甲双胍。

本发明的有益效果为：本申请采用逻辑回归、岭回归、RFECV-SVM、RFECV-RF算法实现对目的基因的最终筛选。逻辑回归与岭回归使用4折分层交叉验证进行参数优选，设定特征选择的阈值为特征权重的平均值，即特征权重大于平均值的特征将会被保留。而RFECV算法则使用不同的学习模型SVM、RF进行筛选。

为比较验证各模型的筛选效果以及所筛选基因的有效性，本申请基于最终筛选的基因重新处理数据，并利用常用的机器学习分类模型进行训练验证。为了避免分类模型本身的影响，分别采用了SVM、RF、logistic回归、KNN、决策树等多个机器学习算法反复验证，比较不同算法的分类效果。

本申请基于转录组或是甲基化不同特征的数据，横向比较不同分类器算法模型，SVM算法在所有分类模型中都表现出了比较大的优势。这表明SVM模型针对小样本高维度的基因特征数据能够表现出强大的分类能力。同时，比较了原始基因筛选RFE_SVM算法和差异基因分析后的RFE_SVM算法筛选结果，无论从算法鲁棒性(Robust)还是特征值筛选特异性上来说，均发现生物学分析DESeq2/ChAMP做差异分析具有强大的分类能力，也验证了生物信息分析的可靠性。

附图说明

图1为24种化疗药物筛选后经算法聚类敏感组和非敏感组标本数划分具体数目；

图2为展示利用5种分类算法：SVM，RF，KNN，Logistics Regression和DecisionTree测试SVM筛选特征变量的AUC数值；

图3为展示利用5种分类算法：SVM，RF，KNN，Logistics Regression和DecisionTree测试SVM筛选特征变量的召回率数值；

图4：展示利用5种分类算法：SVM，RF，KNN，Logistics Regression和DecisionTree测试SVM筛选特征变量的准确率数值；

图5为GDSC数据库验证常见化疗药物初诊组和复发难治组IC50差异；

图6为阿糖胞苷耐药组和敏感组IC50差异；

图7为LASSO回归后，其中下横坐标为λ，上横标为基因筛选个数。

图8为高危组和低危组对于AML生存预后的影响；

如图，Gene Raw Data基因的原始数据、Differential analysis差分析、Feature-selection特征筛选、Data数据、Model模型、Stratified-KFold-CV分层交叉验证、Retrained Model重新训练模型、Final Data最终数据、Iteration迭代、Training folds培训折叠、choose the parameters whose model has the best score result选择的参数模型具有最好的得分结果、training set训练集、classification Model分类模型、validation验证。

具体实施方式

实施例1

一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其具体算法为：

对药物进行聚类分析

利用K-means聚类算法实现对病人药物敏感度分组(K＝2)，从而将病人划分为2组，为后续利用监督学习算法筛选药敏基因提供带有分类标签的数据集。

K-Means算法具体步骤

样本与聚类中心的距离度量为欧氏距离：

(3)针对每个类别C₁,C₂，重新计算其聚类中心

(4)重复(2)(3)步骤，直到算法收敛。

.多种基因筛选模型建立

结合基因筛选任务，RFECV的具体步骤如下：

(3)在测试集上运行分类器，计算分类结果评价指标。

(6)重复步骤(2)k次，保证每一次的验证集都不同。

逻辑回归(Logistic Regression)

logistic回归利用了Logistic函数，其函数形式为：

其中，

θ为特征权重向量，x∈R^p，表示病人样本x有p个特征基因。

岭回归(Ridge Regression)

式中，i＝1,…,N则表示训练集中的N个样本。

使得求解目标变为下式：

其中，λ为待求参数；

本申请研究中，共收纳复发难治AML和初诊AML病人共41例，同时进行转录组RNA-seq测序和甲基化组学850K芯片测序。甲基化的基因探针位点共涉及598243个，转录组共涉及23710个基因，考虑样本数量有限，样本特征基因数量较多，选用全部基因特征数据建模，易出现高维特征的失效，从而导致丧失模型学习的准确性。因此，首先考虑对基因特征进行差异分析，再进行不同算法模式降维处理。

RFECV模型参数表

学习模型SVM参数表

对于随机森林模型，其参数设定如下表所示

学习模型RF参数表

基因筛选模型的验证

1)召回率，精确率和F1 Score

2)AUC(Area under curve)

实施例2

本实施例中共收纳复发难治AML和初诊AML病人共41例，同时进行转录组RNA-seq测序和甲基化组学850K芯片测序。甲基化的基因探针位点共涉及598243个，转录组共涉及23710个基因，考虑样本数量有限，样本特征基因数量较多，选用全部基因特征数据建模，易出现高维特征的失效，从而导致丧失模型学习的准确性。因此，首先考虑对基因特征进行差异分析，再进行不同算法模式降维处理。

实施例3

GDSC数据库验证筛选基因药敏预测准确性

GDSC数据库药物在细胞系中疗效反应主要评价指标为IC50(半数抑制浓度)采用R包pRRophetic 0.5版本，用于获取并整合计算GDSC数据库。pRRophetic包是2014年由PaulGeeleher开发，选取了Cancer Genome Project(CGP)数据库里面收录的700多种细胞系的138种药物的临床反应情况，开发了用CGP数据库的表达矩阵进行药物反应预测算法，数据集里面验证了其算法的可靠性。基本原理及步骤如下：

1)对CGP数据库(细胞系基因表达矩阵作为训练集)和待预测的表达矩阵(临床病人基因表达矩阵作为测试集分别做标准化处理，将训练集和测试集合并，，同时去除低表达量基因。2)使用基因表达数据作为输入训练集预测值，药物IC50值car包的powerTransform函数进行转换作为结果变量，模型运用pRRopheticPredict函数，岭回归分析来预测测试集每一个病人的药物反应情况。

3)预测过程默认采取10折交叉，以增加可信度。

4)基于预测的病人药物敏感性，按照平均IC50值作为节点将病人划分成敏感组和耐药组两个组别，进而实现预测病人临床化疗药物反应功能。具体参数设置如下表：

pRRophetic 0.5参数表

基于本实验研究需求，采取RFE_SVM筛选的转录组基因表达量矩阵与GDSC数据库中AML细胞系常用化疗药物IC50值关联，来预测病人标本组间IC50值差异，并根据预测值比较组间样本的药物敏感性。

选用与数据库中重叠的化疗药物：阿糖胞苷，达沙替尼，多柔比星，依托泊苷，索拉菲尼，分别计算在初诊组和复发难治组的IC50差异(图5)。从以上结果可以看出，发现耐药组合基因在初诊组IC50低于复发难治组,这也说明筛选的耐药基因具有良好的预示耐药功能。

为了进一步探究筛选的基因预测耐药能力，选用GDSC数据库中细胞系基因表达及细胞系药敏IC50作为验证集，将耐药基因集利用岭回归分析，分别预测不同药物在细胞系中耐药组和敏感组IC50，发现敏感组IC50值均低于耐药组(图6)，故再次证明筛选的耐药基因靶点具有良好的预测性。

TCGA数据库药敏相关基因生存分析验证

目的为探索筛选出的目的基因表达量与AML病人生存预后相关，选取截至2019年7月的151例AML病人数据。其具体步骤如下：

1)从TCGA官网下载RNA-seq数据及病人临床信息。(https://gdc.xenahubs.net)

2)基因表达谱矩阵整合：将数据整理为基因×病人矩阵，为方便不同测序平台比较，选用FPKM转为TPM标准化模式。“sva”包Combat函数去除批次化效应。

3)生存预后分析：取表达量为0的样本数目小于总样本数pct％的样本，表达量方差大于1的基因，组成表达矩阵。采用“survival”，“KMsurv”和“surminer”等R包对这部分基因按照表达量进行从高到低进行排序，选用“surminer”包中res.cut函数对数据集进行划分，其中设置组内最少人数minprop＝0.2,对每个基因做KM生存分析和累积事件发生率分析。

在TCGA病人队列中对646个RFECV-SVM算法筛选基因进行cox单因素分析，并进行LASSO回归分析，10倍交叉验证，算出λ最小值，经过迭代后选出最小λ＝0.208，选取17个基因作为预后相关基因(图7)。接着用LASSO计算并输出每个signature基因的系数，然后将每个signature表达量*相关系数加权和得出每一个病人标本risk score评分。按照riskscore中位值划分高风险和低风险组，其中高风险组较低风险组基因组生存曲线有显著差异P<0.001(HR＝2.65；95％CI＝1.74-4.04)。算法筛选的药敏相关基因对于AML队列具有较好的区分预后的作用(图8)。

实施例4

1、K-Means样本总体聚类

K-Means算法具体步骤

样本与聚类中心的距离度量为欧氏距离：

(3)针对每个类别C₁,C₂，重新计算其聚类中心

(4)重复(2)(3)步骤，直到算法收敛。

2、样本总体聚类结果分析：

完成聚类后，根据聚类中心的数值来确定每一类别的具体含义，前述通过数据处理，使得横纵坐标值越大，代表着病人对药物越敏感。故对于K-means聚类结果的划分可划分为计算聚类中心离原点的距离，距离大者，该聚类中心所对应的类中所包含的样本为高敏病人，反之为低敏病人。

24个药物的聚类分类标本情况见表4和图1。

表4：聚类分类结果

横坐标为病人标本细胞体外药敏实验7个浓度梯度拟合GI50值，经归一化处理后，线性转换所得数值。纵坐标为100％PPC浓度梯度时体外药敏实验细胞抑制率情况。经K-Means(K＝2)划分后样本聚类情况。

3.差异分析及数据预处理结果：

利用的数据主要是24个药物的甲基化表达量矩阵和转录组的count值，而数据的分类标签则是前文通过聚类得到的病人药敏结果。

甲基化组学数据预处理

甲基化实验数据由40例病人的598243个基因表达组成，数据维度为40x598243，以24类药物的聚类药敏结果作为学习目标，分为敏感和不敏感(高敏和低敏)两类。首先利用ChAMP处理时的标准化数据以及根据adj p value<0.05和|deltaBeta|>0.1得到传统方法筛选后的基因，各药物筛选后的基因情况如下表所示。

表5 24个药物的甲基化ChAMP筛选基因数目

最后，再利用Z-score标准化方法对数据进行标准化处理，从而得到最终的甲基化数据集。

转录组学

转录组实验数据由41例病人的23710个count数据组成，数据维度为41x23710，以24类药物的聚类药敏结果作为学习目标，分为敏感和不敏感两类。首先利用DESeq2处理时的标准化数据以及根据adjust P<0.05和|logFC|>1得到第一次筛选的基因，各药物的筛选基因数目如表6所示。

表6 24个药物的转录组DESeq2筛选基因数目

同样地，对筛选后的基因数据进行Z-score标准化处理。

基因筛选结果(表7)从上述甲基化基因筛选的基因数目来看，RFECV_SVM在多个药物对应的情况下所保留的基因数目最少，或接近最少；而在氟达拉滨等药物，所保留的基因数目甚至比其他模型削减了一个数量级，RFECV_SVM算法更具有特异性。

表7：各模型甲基化基因筛选数目表

从转录组筛选的基因数目来看，RFECV_SVM同样倾向于保留最少的基因数目，而在Cladribine、Dasatinib、Ruxolitinib、Larotrectinib等药物，与其他模型所保留的基因数目差距达到一个数量级,进而增加算法的特异性(表8)。

表8：各模型转录组基因筛选数目表

基因验证

完成了基因筛选后，需要对各模型筛选的基因进行验证比较。为全方面比较基因筛选前后的效果，加入了对原始数据基因，以及单独差异分析后的基因数据的验证比较。同时由于所有模型都涉及到对24个不同药物药敏结果的训练验证，因此，取24个药物测试结果的平均F1值以在不同模型之间进行比较(表9，表10)。并在验证集上分别比较不同算法AUC，召回率及准确率(图2-4)。

表9：甲基化基因数据测试平均F1结果

表10：转录组基因数据测试平均F1结果

成果总结：

从甲基化和转录组的结果比较来看，通过对比差异分析前后基因数据的模型测试结果，经过差异分析后的基因对于模型分类能力提升均有质的影响，表明差异分析的初筛去除了大部分无效特征以及干扰特征，保留了对分类结果有重要影响的特征基因。

在经历了差异分析的初筛后，利用机器学习算法再度进行筛选，可以看到机器学习算法筛选的基因数据进一步在测试模型上取得了更好的效果。其中基于SVM的RFECV算法筛选的基因数据在所有分类模型上都达到了最优；同时通过上文基因筛选结果的分析，RFECV_SVM的筛选数量在多个模型的对比中，都处于比较低的水平。

RFECV_SVM以较少的特征实现最优的结果，足以表明通过差异分析以及RFECV_SVM算法能够去除绝大部分无效特征，保留对分类最具影响，最有效果的特征，从而实现较为理想的基因筛选。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本发明提到的各个部件为现有领域常见技术，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其特征在于包括样本聚类、基因筛选；

所述样本聚类是利用K-means聚类算法分别对24种药物的病人敏感度进行聚类；

所述基因筛选是根据病人的聚类结果利用特征选择模型对24种药物的甲基化和转录组数据进行基因的筛选与验证；

其具体算法为：Step1：利用K-means聚类算法对药物进行聚类分析；

病人体外药物敏感性实验设计，分别计算出每种药物的GI50和100％PPC抑制率指

标，

利用K-means聚类算法实现对病人药物敏感度分组(K≥2)，从而将病人划分为多组，为后续利用监督学习算法筛选药敏基因提供带有分类标签的数据集；

所述K-Means算法具体步骤为：

(1)从处理好的样本中随机选择2个样本C₁,C₂作为初始的聚类中心；

(2)根据每个样本的数据，计算每个样本与2个聚类中心的距离，并将其划分到距离最小的聚类中心所对应的类中；

样本与聚类中心的距离度量为欧氏距离：

其中，x代表每个病人样本拟合的GI50数据，y代表着样本中的100％PPC抑制率数据；

(3)针对每个类别C₁,C₂，重新计算其聚类中心

(4)重复(2)(3)步骤，直到算法收敛；

完成聚类后，根据聚类中心的数值来确定每一类别的具体含义，通过数据处理，使得横纵坐标值越大，代表着病人对药物越敏感，故对于K-means聚类结果的划分可划分为：计算聚类中心离原点的距离，距离大者，该聚类中心所对应的类中所包含的样本为敏感组，反之，为耐药组；

Step2:多种基因筛选模型建立；

多种基因筛选模型建立采用Logistic回归、岭回归、支持向量机SVM、随机森林RandomForest、基于交叉验证的递归特征消除算法RFECV反复验证；所述SVM、Random Forest则是作为RFECV底层算法的学习模型；

Logistic回归与岭回归使用4折分层交叉验证进行参数优选，设定特征选择的阈值为特征权重的平均值，即特征权重大于平均值的特征将会被保留；

SVM(Support Vector Machine)支持向量机，是一种常用的分类模型，SVM核心思想是寻找最大间隔的划分超平面，从而可以更好地匹配样本数据，容忍随机扰动，提高模型的泛化能力，SVM做分类器时，它的参数取决于样本的数量而非特征的数量，与样本－特征的数量比值几乎无关，这样的模型因此可以很好地适应高维小样本数据；

RFE基于分类器模型进行特征选择，要求分类器需要能计算特征的重要性或权重；RFE算法的核心思想是利用权重可以用来对特征进行排序，从最重要的依次递减，RFE算法每次删除权重排名最后的一个特征，迭代直到剩下想要留下的特征数目为止；

RFECV是基于交叉验证的RFE算法，它则能够自动选择和调整需要保留的基因数目，该算法利用k折交叉验证方法，在每一次迭代中，采用分层采样将数据划分为k等份，确保训练集，测试集中各类别样本的比例与原始数据集中相同，利用其中的k-1等份对学习模型进行训练，用剩下的一份数据集进行验证；

Step3：基因筛选模型的验证；

为了检验最终模型的性能以及所筛选特征的有效性，将甲基化和转录组的数据集均按照75％、25％的比例分为训练集和测试集，由于样本类别不平衡，因此利用分层采样划分，保证训练集，测试集中各类别样本的比例与原始数据集中相同，为消除测试模型本身的影响，基于各筛选模型处理后的数据，利用SVM、RF、logistic回归、KNN算法、决策树算法在测试集进行训练，以验证各模型的筛选特征结果是否具有分类意义；

选择逻辑回归、岭回归、RFECV-SVM、RFECV-RF这4类算法作为基因筛选模型，选用以下评价指标评估并选出最优模型：

1)召回率，精确率和F1 Score

由于个别药物组间样本类别数目不平衡，利用F1指标评价模型，F1的计算方式如下：

公式中，TP表示正确地把敏感病例预测为敏感，FP表示错误地把不敏感病例预测为敏感病，FN表示错误地把敏感病例预测为不敏感病例，P为精确率(Precision Rate)，R为召回率(Recall Rate)，F1为精确率和召回率的调和平均值，F1值区间范围[0,1],目前认为F1值越大，分类器模型越可靠；

2)AUC(Area under curve)

AUC目前主要用于二分类模型的评价，是基于样本的真实类别和预测概率，以FP为横坐标，TP为纵坐标算出的曲线下面积，由于AUC对样本类别是否均衡并不敏感，故对于组间不均衡样本可选用AUC评价分类，并通过优化AUC值训练分类器模型；

Step4：GDSC数据库验证筛选基因药敏预测准确性

其原理及步骤如下：

1)对CGP数据库和待预测的表达矩阵分别做标准化处理,将训练集和测试集合并，同时去除低表达量基因，细胞系基因表达矩阵作为训练集，临床病人基因表达矩阵作为测试集；

3)预测过程默认采取10折交叉，以增加可信度；

其具体步骤如下：

1)从TCGA官网下载RNA-seq数据及病人临床信息；

2.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其特征在于所述RFECV的具体步骤如下：

(1)利用分层采样将原始数据集划分为k等份，当前特征基因包含所有基因；

(2)选择k-1个等份作为训练集，剩下的一个等份作为验证集，在学习模型SVM、RF上进行训练；

(3)在测试集上运行分类器，计算分类结果评价指标；

(4)根据训练集上的基重要性因排序，删去排名最后的m个特征；

(5)进入下一轮训练迭代，重复(2)、(3)、(4)直到训练集剩下的基因为空；

(6)重复步骤(2)k次，保证每一次的验证集都不同；

3.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其特征在于所述24种药物包括靶向药物9种，传统化疗药物15种。

4.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其特征在于所述24种药物由蒽环类、抗代谢药物、植物碱类、烷化剂、去甲基化药物、鬼臼类药物、吖啶类药物、小分子TKI、其他组成。

5.按照权利要求1所述的一种机器学习算法构建急性髓系白血病药敏相关基因分类器，其特征在于所述24种药物包括柔红霉素、去甲氧柔红霉素、米托蒽醌、阿克拉霉素、阿糖胞苷、氟达拉滨、克拉曲滨、高三尖杉酯碱、环磷酰胺、地西他滨、阿扎胞苷、依托泊苷、安丫啶、ABT-199、达沙替尼、索拉菲尼、泊纳替尼、芦可替尼、Glasdegib、Larotrectinib、恩西地平、西达苯胺、三氧化二砷、二甲双胍。