CN113903400A - 免疫相关疾病分子分型和亚型分类器的分类方法、系统 - Google Patents

免疫相关疾病分子分型和亚型分类器的分类方法、系统 Download PDF

Info

Publication number
CN113903400A
CN113903400A CN202111276527.3A CN202111276527A CN113903400A CN 113903400 A CN113903400 A CN 113903400A CN 202111276527 A CN202111276527 A CN 202111276527A CN 113903400 A CN113903400 A CN 113903400A
Authority
CN
China
Prior art keywords
immune
subtype
molecular typing
marker genes
subtypes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111276527.3A
Other languages
English (en)
Inventor
刘杰
骆菲菲
莫少聪
宋欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huashan Hospital of Fudan University
Original Assignee
Huashan Hospital of Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huashan Hospital of Fudan University filed Critical Huashan Hospital of Fudan University
Priority to CN202111276527.3A priority Critical patent/CN113903400A/zh
Publication of CN113903400A publication Critical patent/CN113903400A/zh
Priority to PCT/CN2022/112157 priority patent/WO2023071406A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biotechnology (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种免疫相关疾病分子分型和亚型分类器的分类方法、系统,包括:在训练集中利用聚类算法进行分子分型,得到多个在训练集中稳定出现的亚型及每个亚型的标记基因;对亚型的标记基因进行富集分析,对亚型进行免疫细胞浸润评估,根据分析和评估结果,得到多种免疫特征稳定的亚型类别;通过比较集比较不同亚型类别的治疗反应率,确定所需识别的亚型类别;利用筛选得到特征基因以及最佳参数组合构建支持向量机模型;鉴别待分类免疫相关疾病数据是否为所需的亚型类别。本发明能够鉴别出具有稳定特征的免疫相关疾病亚型,以利于精准药物选择、以及经济化治疗。本发明适用于各免疫相关疾病的分子分型和亚型分类,并不局限于本文中的实施例。

Description

免疫相关疾病分子分型和亚型分类器的分类方法、系统
技术领域
本发明涉及精准医疗技术领域,具体地,涉及一种基于人工智能机器学习的免疫相关疾病分子分型和亚型分类器的分类方法、系统。
背景技术
免疫相关疾病(Immune related diseases)是指机体免疫调节失去平衡而引起的疾病。针对免疫相关疾病的治疗方法众多,尤其是单克隆抗体等生物制剂的使用日益广泛。然而临床可见不同免疫相关疾病的患者治疗预后情况不甚相同,这反映同种疾病不同病人的免疫状态存在广泛的异质性,难以根据临床表现来区分,亟需在分子层面对其免疫表征进行精准分型,以利临床预后和治疗。
以典型的免疫相关疾病溃疡性结肠炎(Ulcerative colitis,UC)为例,溃疡性结肠炎以直肠到近端结肠的慢性炎症为疾病特征,给全球医疗带来了巨大负担。UC治疗药物包括5-氨基水杨酸类药物(5Aminosalicylic Acid,5-ASA)、糖皮质激素、硫嘌呤、抗TNF药物、抗整合素和Janus激酶抑制剂等。目前临床实践中,轻症病人以5-ASA治疗为主,中-重度病人缓解治疗常以糖皮质激素和抗TNF治疗为主,但药物抵抗、药物不良反应、以及药物的昂贵价格,均制约患者预后。从治病机制来看,肠道稳态的破坏、肠道屏障的功能障碍和炎症反应,是UC患者的病理特征。UC肠道上皮中存在炎症负调节因子和促炎因子的平衡被破坏,中性粒细胞、淋巴细胞的激活和多种细胞因子参与了UC肠道炎症中,如细胞因子白细胞介素9(IL-9)、IL-13、IL-23和IL-36等。由此可知,肠道免疫稳态破坏是UC发病的本质,提示部分UC患者用药效果不良与病灶局部免疫浸润的异质性有关。
因缺乏UC分子分型,临床用药主要依据UC病理严重程度,专利文献CN110993099A公开了一种基于深度学习的溃疡性结肠炎严重程度评估方法及系统,利用溃疡性结肠炎严重程度评估模型输出Mayo内镜下评分、血管分型、自发出血和糜烂溃疡特征的评分预测结果,再将血管分型、自发出血和糜烂溃疡特征的评分预测结果累加,得到溃疡性结肠炎内镜下活动指数评分。现有技术根据严重程度的评估结果,采取单用或联用方案,如激素和免疫生物制剂常被用于中-重度患者的缓解治疗,前者作用广谱但副反应大,而后者往往针对某一免疫靶点但作用局限且价格昂贵,故而造成精准性差且经济负担重。
除了溃疡性结肠炎以外,其他诸多免疫相关疾病都存在上述的临床问题,例如克罗恩病(Crohn’s disease,CD)、系统性红斑狼疮、类风湿关节炎等。这类疾病的治疗有一个共同点,都需要用免疫抑制剂来抑制针对自身机体的免疫反应。最常用的是肾上腺皮质激素类制剂,如:强的松、氢化可的松、地塞米松等,简称“激素”。所有免疫抑制剂有个主要的共同的不良作用,它们会不同程度地影响机体的抗感染、抗肿瘤免疫功能。
因此,免疫相关疾病分子分型对于认识疾病的异质性,实现个性化治疗和避免过度医疗有极大意义。但是从现有报道来看,少有研究对免疫相关疾病进行精准且高质量的分子分型。本发明将以溃疡性结肠炎和克罗恩病两个实例来说明免疫相关疾病分子分型及亚型分类器的分类方法和分类系统。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种免疫相关疾病分子分型和亚型分类器的分类方法、分类系统。
根据本发明提供的一种免疫相关疾病分子分型和亚型分类器的分类方法,包括:
数据获取步骤:获取免疫相关疾病芯片数据集,将所述免疫相关疾病芯片数据集分为训练集、验证集和比较集;
分子分型步骤:在所述训练集中利用聚类算法进行分子分型,得到多个在所述训练集中稳定出现的亚型及每个亚型的标记基因,通过所述验证集验证分子分型结果的稳定性;
分析评估步骤:对所述亚型的标记基因进行富集分析,对所述亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,得到多种免疫特征稳定的亚型类别;
比较步骤:通过所述比较集比较不同亚型类别的治疗反应率,确定所需识别的亚型类别;
分类器构建步骤:利用从所有所述标记基因中筛选得到的特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型;
分类步骤:将待分类免疫相关疾病数据输入所述支持向量机模型,鉴别所述待分类免疫相关疾病数据是否为所需识别的亚型类别。
优选地,所述免疫相关疾病芯片数据集从GEO数据库获取,所述免疫相关疾病芯片数据集包括溃疡性结肠炎芯片数据集或克罗恩病芯片数据集;
溃疡性结肠炎芯片数据集对应的所述训练集包括GSE87466、GSE107499和GSE75214,所述验证集包括GSE83687和GSE126124,所述比较集包括GSE114527、GSE73661和GSE16879;
所述克罗恩病芯片数据集对应的所述训练集包括GSE112366、GSE75214、GSE179285和GSE100833,所述验证集包括GSE16879,所述比较集包括GSE112366。
优选地,所述聚类算法包括CrossICC算法,所述富集分析采用clusterProfiler包,所述免疫细胞浸润评估采用CIBERSORT和单样本富集分析ssGSEA;
多种亚型类别包括:免疫激活型和免疫稳态型;或者,固有免疫激活型、全免疫激活型和免疫稳态样型;或者,免疫稳态样型、固有免疫激活型和中间型;或者,免疫稳态型和免疫稳态型以外的其他类别。
优选地,筛选得到特征基因的方式包括:
对所有亚型的标记基因,先通过Boruta包中的随机森林方法,设定最大运行次数、树的数目后,将筛选后留下的标记基因输入10折交叉验证的Lasso回归中,留下参数不为0的标记基因作为所述特征基因。
优选地,还包括对构建的支持向量机模型在所述训练集和所述验证集中进行预测和评价,利用混淆矩阵评价分类的表现,其中:
准确度=分类正确的样本/总样本;
灵敏度=被正确分类的阳性样本数/总阳性样本数;
特异度=被正确分类的阴性样本数/总阴性样本数;
假阳性率=被判断为阳性的阴性样本/总阴性样本数;
假阴性率=被判断为阴性的阳性样本/总阳性样本数。
优选地,根据特征基因选择gamma值和cost值得到所述最佳参数组合。
根据本发明提供的一种免疫相关疾病分子分型和亚型分类器的分类系统,包括:
数据获取模块:获取免疫相关疾病芯片数据集,将所述免疫相关疾病芯片数据集分为训练集、验证集和比较集;
分子分型模块:在所述训练集中利用聚类算法进行分子分型,得到多个在所述训练集中稳定出现的亚型及每个亚型的标记基因,通过所述验证集验证分子分型结果的稳定性;
分析评估模块:对所述亚型的标记基因进行富集分析,对所述亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,得到多种免疫特征稳定的亚型类别;
比较模块:通过所述比较集比较不同亚型类别的治疗反应率,确定所需识别的亚型类别;
分类器构建模块:利用从所有所述标记基因中筛选得到的特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型;
分类模块:将待分类免疫相关疾病数据输入所述支持向量机模型,鉴别所述待分类免疫相关疾病数据是否为所需识别的亚型类别。
优选地,所述免疫相关疾病芯片数据集从GEO数据库获取,所述免疫相关疾病芯片数据集包括溃疡性结肠炎芯片数据集或克罗恩病芯片数据集;
溃疡性结肠炎芯片数据集对应的所述训练集包括GSE87466、GSE107499和GSE75214,所述验证集包括GSE83687和GSE126124,所述比较集包括GSE114527、GSE73661和GSE16879;
所述克罗恩病芯片数据集对应的所述训练集包括GSE112366、GSE75214、GSE179285和GSE100833,所述验证集包括GSE16879,所述比较集包括GSE112366。
优选地,所述聚类算法包括CrossICC算法,所述富集分析采用clusterProfiler包,所述免疫细胞浸润评估采用CIBERSORT和单样本富集分析ssGSEA;
多种亚型类别包括:免疫激活型和免疫稳态型;或者,固有免疫激活型、全免疫激活型和免疫稳态样型;或者,免疫稳态样型、固有免疫激活型和中间型;或者,免疫稳态型和免疫稳态型以外的其他类别。
优选地,筛选得到特征基因的方式包括:
对所有亚型的标记基因,先通过Boruta包中的随机森林方法,设定最大运行次数、树的数目后,将筛选后留下的标记基因输入10折交叉验证的Lasso回归中,留下参数不为0的标记基因作为所述特征基因。
与现有技术相比,本发明具有如下的有益效果:
本发明的免疫相关疾病分子分型的通用流程是:在训练集用CrossICC聚类,在验证集验证亚型,对亚型进行富集分析和免疫浸润评估以得到免疫亚型,在比较集比较各亚型的治疗反应率。该方案可适用于各免疫相关疾病的分子分型,并不局限于本发明所述的溃疡性结肠炎和克罗恩病两种疾病。
本发明通过大规模临床样本和机器学习的方法实现免疫相关疾病分子分型的分类,并在临床中准确鉴别出具有稳定特征的亚型,通过比较各亚型的治疗反应率,即可确定不同治疗方式下治疗反应率最优、较优的亚型,以利于后续的精准药物选择、以及经济化治疗。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的流程图;
图2-图5为溃疡性结肠炎实例附图;
其中:
图2A、2B、2C为用三个训练集分别训练CrossICC算法得到的分子亚型的示意图;
图2D、2E为用两个验证集分别验证CrossICC算法得到的溃疡性结肠炎分子亚型的示意图;
图3A、3B、3C为对三种亚型的GO富集分析结果的示意图;
图3D、3E、3F为对三种亚型的CIBERSORT免疫浸润评估结果的示意图;
图3G为对亚型的ssGSEA免疫浸润评估结果的示意图;
图4A为IHL-UC和其他类型的UC在疾病严重程度的差别的示意图;
图4B为亚型对糖皮质激素治疗反应的示意图;
图4C为不同亚型对英夫里昔单抗(IFX)或维多利住单抗(Vdx)治疗反应的示意图;
图4D为GSE73661中IFX/Vdz治疗反应率和统计检验的示意图;
图4E为GSE73661治疗靶点在亚型间比较的示意图;
图4F为不同亚型IFX治疗反应的示意图;
图4G为GSE16879中IFX治疗反应率和统计检验的示意图;
图4H为GSE16879治疗靶点在亚型间比较的示意图;
图5A为机器学习工作流程的示意图;
图5B为用混淆矩阵评价分类器的准确度的示意图;
图6-图9为克罗恩病示例附图;
其中:
图6A、6B、6C、6D为用四个训练集分别训练CrossICC算法得到的克罗恩病分子亚型的示意图;
图6E为用验证集验证CrossICC算法得到的分子亚型的示意图;
图7A、7B为对前两种主要亚型的GO富集分析结果的示意图;
图7C、7D、7E为对三种亚型的CIBERSORT免疫浸润评估结果的示意图;
图7F为对亚型的ssGSEA免疫浸润评估结果的示意图;
图8A不同亚型克罗恩病对乌司奴单抗治疗反应的示意图;
图8B为GSE112366中乌司奴单抗治疗反应率和统计检验的示意图;
图9为用混淆矩阵评价分类器的准确度的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明提供一种免疫相关疾病分子分型和亚型分类器的分类方法,包括:
数据获取步骤:获取免疫相关疾病芯片数据集,将所述免疫相关疾病芯片数据集分为训练集、验证集和比较集。
分子分型步骤:在所述训练集中利用聚类算法进行分子分型,得到多个在所述训练集中稳定出现的亚型及每个亚型的标记基因,通过所述验证集验证分子分型结果的稳定性。
分析评估步骤:对所述亚型的标记基因进行富集分析,对所述亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,得到多种免疫特征稳定的亚型类别。
比较步骤:通过所述比较集比较不同亚型类别的治疗反应率,确定所需识别的亚型类别。
分类器构建步骤:利用从所有所述标记基因中筛选得到的特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型。
分类步骤:将待分类免疫相关疾病数据输入所述支持向量机模型,鉴别所述待分类免疫相关疾病数据是否为所需识别的亚型类别。
实施例1,溃疡性结肠炎(Ulcerative colitis,UC)。
本实施例提供的一种UC分子分型和亚型分类器的分类方法,包括:
数据获取步骤:获取UC芯片数据集,将UC芯片数据集分为训练集、验证集和比较集。在本发明中,从GEO数据库获取UC芯片数据集,GSE87466(n=87)、GSE107499(n=47)和GSE75214(n=74)被用作训练集,GSE83687(n=28)和GSE126124(n=18)被用作分型验证集,GSE114527(n=15)、GSE73661(n=64)和GSE16879(n=24)被用于比较治疗反应率。仅来自结肠的组织被纳入,仅活动性UC,受累的黏膜组织被纳入,另留置正常样本作对照组。总计208例黏膜组织被纳入训练集。数据都经过log2转化。治疗靶点通路基因集从GSEA-Msigdb(http://www.gsea-msigdb.org/gsea/msigdb/)下载。
分子分型步骤:在所述训练集中利用聚类算法进行分子分型,得到多个在训练集中稳定出现的亚型及每个亚型的标记基因,通过验证集验证分型训练结果的稳定性。本发明利用CrossICC算法,利用训练集GSE87466、GSE107499和GSE75214训练得到亚型及每个亚型的标记基因。将分型结果在验证集GSE83687、GSE126124上进行预测,观察分型结果是否稳定,如果不稳定则需对训练集重新进行数据集选择及质量控制。
分析评估步骤:对亚型的标记基因进行富集分析,对亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,将得到的亚型分为多种不同亚型类别。本发明利用clusterProfiler包对各亚型的标记基因进行富集分析,利用CIBERSORT和单样本富集分析(ssGSEA)对各亚型进行免疫细胞浸润评估。
比较步骤:通过比较集比较不同亚型类别的治疗反应率。GSE114527、GSE73661和GSE16879中包括激素治疗、生物制剂治疗的反应数据被下载得到,仅使用药物前的黏膜表达谱数据被用于亚型鉴别。如不同亚型类别具有不同的药物治疗效果,则可说明本分子分型的临床价值,并且提示建立可供临床使用的分类器的必要性。
分类器构建步骤:利用从所有标记基因中筛选得到特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型。根据CrossICC的结果,把样本分为二分类:免疫稳态样型与免疫稳态样型以外的其他亚型。基于所有亚型的标记基因,先通过Boruta包中的随机森林方法,设定最大运行次数为100,树的数目为500,将筛选后的留下的特征输入10折交叉验证的Lasso回归中。留下参数不为0的基因作为最终特征基因。支持向量机方法被用于亚型判断。每次执行支持向量机前,先将每个样本内的特征基因在基因之间进行标准化(scale),以避免过大标准差的特征基因对支持向量的影响。生成支持向量机模型后,在训练集和两个外部验证集中进行预测和评价。利用混淆矩阵评价分类的表现。其中:
准确度=分类正确的样本/总样本;
灵敏度=被正确分类的阳性样本数/总阳性样本数;
特异度=被正确分类的阴性样本数/总阴性样本数;
假阳性率=被判断为阳性的阴性样本/总阴性样本数;
假阴性率=被判断为阴性的阳性样本/总阳性样本数。
统计分析步骤:Wilcoxon检验用于两组连续变量均值比较。Kruskal-Wallis检验用于多组连续型变量均值比较,分类变量使用卡方检验。所有的统计分析在R(4.0.3版本)中完成。
分类步骤:将待分类UC数据输入支持向量机模型,鉴别待分类UC数据是否为免疫稳态样型。
实验结果
(一)CrossICC识别出三个稳定的UC分子亚型。
CrossICC算法在GSE87466、GSE107499、GSE75214三个数据集中都识别出了一系列亚型,其中第一簇Cluster 1、第二簇Cluster 2、第三簇Cluster 3稳定出现于各数据集中(图2A-C)。每个亚型的标记基因均被获得。为了确认分型的稳定性,两个外部验证集,GSE83687、GSE126124被用于亚型验证,发现根据标记基因,在这两个数据集中也可以得到Cluster 1、Cluster 2、Cluster 3亚型(图2D-E)。
(二)对亚型的富集分析和免疫浸润
对各亚型的标记基因进行GO富集分析,发现Cluster 1的标记基因富集于中性粒细胞活化的通路,Cluster 2的基因富集于多种免疫活化的通路,但Cluster 3的基因富集于代谢相关的通路(图3A-C)。将三个数据集去除批次效应合并成一个数据集,CIBERSORT免疫浸润显示,Cluster 1的中性粒细胞和肥大细胞比例较正常明显增多,Cluster 2中,免疫细胞浸润比例与正常差异更显著,表现出了淋巴细胞如T细胞、B细胞的活化增强。但Cluster 3中的免疫浸润和正常黏膜较为相似(图3D-F)。ssGSEA评估免疫浸润显示免疫细胞在第三型中显示不高的免疫细胞丰度(图3G)。据此,将Cluster 1命名为固有免疫激活型(Innate Immune Activation,IIA),将Cluster 2命名为全免疫激活型(Whole ImmuneActivation,WIA),Cluster 3命名为免疫稳态样型(Immune Homeostasis Like,IHL)。
(三)亚型的严重程度和治疗反应性比较
从临床资料比较免疫稳态样型UC(IHL-UC)和其他亚型的疾病严重程度(病变Extensive或limited),发现两组之间并无统计学差异(卡方检验P=0.3774)(图4A),说明亚型在仅靠临床表现上难以区分。GSE114527中比较亚型激素治疗反应性,发现各组无差异(图4B)。GSE73661中比较亚型英夫里昔单抗(Infliximab,IFX)或维多利珠单抗(Vedolizumab,Vdz)治疗反应性,发现WIA型疗效最差(90%在初治无反应),IHL型治疗反应率最佳(卡方检验P=0.044)(图4C,4D)。GSE16879中比较IFX治疗反应性,发现WIA型疗效最差(100%无反应),IHL型治疗反应率最佳(卡方检验P=0.024)(图4F,4G)。ssGSEA评估经典治疗靶点(包括白三烯、前列腺素、血栓素、血小板激活通路等)和新型治疗靶点(TNF,整合素、Janus激酶通路等)可见,WIA型各类治疗靶点丰度均较大,不同治病通路存在代偿可能是生物制剂无反应的原因(图4E,4H)。
(四)基于机器学习的分类器开发
以上结果提示,临床中准确鉴别出IHL-UC可针对性对其使用生物制剂保证较高反应率,而对其他亚型应尽可能避免使用生物制剂,以最大程度避免医疗资源的浪费。鉴于总共有460个标记基因,需要筛选出更少的特征基因来建立适合临床使用的Panel。根据学习流程(图5A),随机森林共保留了108个特征基因,10折交叉验证的Lasso回归后留下16个特征基因。10折交叉验证确定了支持向量机最佳参数组合gamma值=0.1,cost值=1,支持向量机模型建立后,在训练集上进行预测,得到准确度97.5%。外部验证集GSE83687上,得到准确度89.3%,外部验证集GSE126124上,准确度94.4%。该模型对IHL-UC和其他亚型的UC具有较好的区分能力(图5B)。图5B左侧:混淆矩阵,右侧:灵敏度、特异度、假阳性率、假阴性率表。
IHL型虽在临床表现上与其它亚型相似,但其病灶局部免疫细胞浸润谱接近正常黏膜。通过对临床研究患者行上述分子分型,并结合预后分析发现,针对抗肿瘤坏死因子(Tumor Necrosis Factor,TNF)或抗整合素等免疫生物制剂治疗,IHL型UC患者反应率近50%,而WIA型UC患者反应率不足10%,提示鉴别UC亚型有助于临床药物精准选择。因此,我们通过随机森林、正则化和支持向量机的机器学习流程,建立了基于免疫相关基因表达谱的IHL型UC分类器,在训练集和验证集中分别取得了97.5%和89.3~94.4%的准确度,实现IHL型UC精准、快速鉴别,助力UC精准治疗。
值得说明的是,在本实施例的分析评估步骤中,根据实际的分析结果,将得到的亚型分为三种亚型类别:固有免疫激活型、全免疫激活型和免疫稳态样型,而在治疗反应性比较时,发现对免疫稳态样型使用生物制剂时的反应率较高,因此在后续的支持向量机构建时,只是识别出反应率较高免疫稳态样型即可,以便于后续针对性使用生物制剂。而在使用其他治疗方式的时候,也会有其他类别的亚型出现较高的反应率,即只要识别出某治疗方式下反应率较高的亚型类别,即可在后续治疗过程中达到根据识别结果进行针对性治疗的目的。
有鉴于此,本领域技术人员有理由想到:在分析评估步骤中,可以只是将亚型分为免疫稳态样型和其他亚型类别即可,无需进行过多的分类。也可以是将亚型分为多种类别之后,通过支持向量机识别出治疗反应率高于目标值的一种或多种类别。因此,也可以将亚型分为免疫激活型(将前述的固有免疫激活型、全免疫激活型进行合并)和免疫稳态型;或者,分为免疫稳态样型和其他不限数量的类别。而本发明对于所要识别的具体的亚型类别不做限定,本领域技术人员可以根据治疗方式和治疗反应率确定相应的亚型类别。
实施例2,克罗恩病(Crohn's disease,CD)。
一种克罗恩病分子分型和亚型分类器的分类方法,包括:
数据获取步骤:获取CD芯片数据集,将CD芯片数据集分为训练集、验证集和比较集。在本发明中,从GEO数据库获取CD芯片数据集,GSE112366(n=110)、GSE75214(n=51)、GSE179285(n=33)和GSE100833(n=50)被用作训练集,GSE16879(n=18)被用作分型验证集,GSE112366(n=66)被用于比较治疗反应率。仅来自回肠末端的组织被纳入,仅活动性CD,受累的黏膜组织被纳入,另留置正常样本作对照组。总计244例黏膜组织被纳入训练集。数据都经过log2转化。
分子分型步骤:在所述训练集中利用聚类算法进行分子分型,得到多个在训练集中稳定出现的亚型及每个亚型的标记基因,通过验证集验证分型训练结果的稳定性。本发明利用CrossICC算法,利用训练集GSE112366、GSE75214、GSE179285和GSE100833训练得到亚型及每个亚型的标记基因。将分型结果在验证集GSE16879上进行预测,观察分型结果是否稳定,如不稳定则对训练集重新进行数据集选择及质量控制。
分析评估步骤:对亚型的标记基因进行富集分析,对亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,将得到的多个亚型分为免疫稳态样型、固有免疫激活型和中间型。本发明利用clusterProfiler包对各亚型的标记基因进行富集分析,利用CIBERSORT和单样本富集分析(ssGSEA)对各亚型进行免疫细胞浸润评估。
比较步骤:通过比较集比较不同亚型的治疗反应率。GSE112366乌司奴单抗(IL-12/IL-23抑制剂)生物制剂治疗的反应数据被下载得到,仅使用药物前的黏膜表达谱数据被用于亚型鉴别。如不同亚型具有不同的药物治疗效果,则可说明本分子分型的临床价值,并且提示建立可供临床使用的分类器的必要性。
分类器构建步骤:利用从所有标记基因中筛选得到特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型。根据CrossICC的结果,把样本分为二分类:免疫稳态样型与其他亚型。基于所有亚型的标记基因,先通过Boruta包中的随机森林方法,设定最大运行次数为1000,树的数目为500,将筛选后的留下的特征输入10折交叉验证的Lasso回归中。留下参数不为0的基因作为最终特征基因。支持向量机方法被用于亚型判断。每次执行支持向量机前,先将每个样本内的特征基因在基因之间进行标准化(scale),以避免过大标准差的特征基因对支持向量的影响。生成支持向量机模型后,在训练集和两个外部验证集中进行预测和评价。利用混淆矩阵评价分类的表现。其中:
准确度=分类正确的样本/总样本;
灵敏度=被正确分类的阳性样本数/总阳性样本数;
特异度=被正确分类的阴性样本数/总阴性样本数;
假阳性率=被判断为阳性的阴性样本/总阴性样本数;
假阴性率=被判断为阴性的阳性样本/总阳性样本数。
统计分析步骤:Wilcoxon检验用于两组连续变量均值比较。Kruskal-Wallis检验用于多组连续型变量均值比较,分类变量使用卡方检验或Fisher’s精确检验。所有的统计分析在R(4.0.3版本)中完成。
分类步骤:将待分类CD数据输入支持向量机模型,鉴别待分类CD数据是否为免疫稳态样型。
实验结果
(一)CrossICC识别出三个稳定的CD分子亚型。
CrossICC算法在GSE112366、GSE75214、GSE179285和GSE100833三个数据集中识别出了一系列亚型,其中第一簇Cluster 1、第二簇Cluster 2稳定出现于各数据集中(图6A-D)。每个亚型的标记基因均被获得。为了确认分型的稳定性,两个外部验证集,GSE16879被用于亚型验证,发现根据标记基因,在这两个数据集中也可以得到Cluster 1、Cluster 2亚型,Cluster 3也为较为重要的亚型(图2E)。
(二)对亚型的富集分析和免疫浸润
对各亚型的标记基因进行GO富集分析,发现Cluster 1的标记基因富集于代谢相关的通路,Cluster 2的基因富集于髓系、中性粒细胞活化的通路(图7A-B)。将四个数据集去除批次效应合并成一个数据集,CIBERSORT免疫浸润显示,Cluster 1的未见明显的免疫细胞激活,Cluster 2中,中性粒细胞和M1巨噬细胞明显活化,Cluster 3的免疫浸润介于Cluster 1-2之间(图7C-E)。ssGSEA评估免疫浸润显示免疫细胞在第一型中显示不高的免疫细胞丰度(图7F)。据此,将Cluster 1命名为免疫稳态样型(Immune Homeostasis Like,IHL),将Cluster 2命名为固有免疫激活型(Innate Immune Activation,IIA),Cluster 3为中间型。
(三)亚型的严重程度和治疗反应性比较
GSE16879中比较亚型乌司奴单抗治疗反应性,发现IHL型治疗反应率最佳(卡方检验P=0.044)(图8A,8B)。
(四)基于机器学习的分类器开发
以上结果提示,临床中准确鉴别出IHL-CD可针对性对其使用生物制剂保证较高反应率,而对其他亚型应尽可能避免使用生物制剂,以最大程度避免医疗资源的浪费。鉴于总共有273个标记基因,需要筛选出更少的特征基因来建立适合临床使用的Panel。根据学习流程,随机森林共保留了130个特征基因,10折交叉验证的Lasso回归后留下24个特征基因。10折交叉验证确定了支持向量机最佳参数组合gamma值=0.01,cost值=1,支持向量机模型建立后,在训练集上进行预测,得到准确度98.8%。外部验证集GSE16879上,得到准确度88.9%。该模型对IHL-CD和其他亚型的CD具有较好的区分能力(图9)。图9左侧:混淆矩阵,右侧:灵敏度、特异度、假阳性率、假阴性率表。
IHL型CD虽在临床表现上与其它亚型相似,但其病灶局部免疫细胞浸润谱接近正常黏膜。通过对临床研究患者行上述分子分型,并结合预后分析发现,免疫生物制剂治疗中IHL型CD患者反应率近70%,而其他亚型CD患者反应率较低,提示鉴别CD亚型有助于临床药物精准选择。因此,我们通过随机森林、正则化和支持向量机的机器学习流程,建立了基于免疫相关基因表达谱的IHL型CD分类器,在训练集和验证集中分别取得了88.9%-98.8%的准确度,实现IHL型CD精准、快速鉴别,助力CD精准治疗。
值得说明的是,在本实施例的分析评估步骤中,根据实际的分析结果,将得到的亚型分为三种亚型类别:固有免疫激活型、中间型和免疫稳态样型,而在治疗反应性比较时,发现对免疫稳态样型使用生物制剂时的反应率较高,因此在后续的支持向量机构建时,只是识别出反应率较高免疫稳态样型即可,以便于后续针对性使用生物制剂。而在使用其他治疗方式的时候,也会有其他类别的亚型出现较高的反应率,即只要识别出某治疗方式下反应率较高的亚型类别,即可在后续治疗过程中达到根据识别结果进行针对性治疗的目的。
有鉴于此,本领域技术人员有理由想到:在分析评估步骤中,可以只是将亚型分为免疫稳态样型和其他亚型类别即可,无需进行过多的分类。也可以是将亚型分为多种类别之后,通过支持向量机识别出治疗反应率高于目标值的一种或多种类别。因此,也可以将亚型分为免疫稳态样型和其他不限数量的类别。而本发明对于所要识别的具体的亚型类别不做限定,本领域技术人员可以根据治疗方式和治疗反应率确定相应的亚型类别。
上述两个本实施例分别以溃疡性结肠炎(UC)和克罗恩病(CD)为例进行说明,但本领域技术人员知道,本方案可以适用于其他领域的免疫相关疾病分子分型中,本发明对此不做限制。
根据本发明提供的一种免疫相关疾病分子分型和亚型分类器的分类系统,包括:
数据获取模块:获取免疫相关疾病芯片数据集,将所述免疫相关疾病芯片数据集分为训练集、验证集和比较集。
分子分型模块:在所述训练集中利用聚类算法进行分子分型,得到多个在所述训练集中稳定出现的亚型及每个亚型的标记基因,通过所述验证集验证分子分型结果的稳定性。
分析评估模块:对所述亚型的标记基因进行富集分析,对所述亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,得到多种免疫特征稳定的亚型类别;
比较模块:通过所述比较集比较不同亚型类别的治疗反应率,确定所需识别的亚型类别。
分类器构建模块:利用从所有所述标记基因中筛选得到的特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型。
分类模块:将待分类免疫相关疾病数据输入所述支持向量机模型,鉴别所述待分类免疫相关疾病数据是否为所需识别的亚型类别。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种免疫相关疾病分子分型和亚型分类器的分类方法,其特征在于,包括:
数据获取步骤:获取免疫相关疾病芯片数据集,将所述免疫相关疾病芯片数据集分为训练集、验证集和比较集;
分子分型步骤:在所述训练集中利用聚类算法进行分子分型,得到多个在所述训练集中稳定出现的亚型及每个亚型的标记基因,通过所述验证集验证分子分型结果的稳定性;
分析评估步骤:对所述亚型的标记基因进行富集分析,对所述亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,得到多种免疫特征稳定的亚型类别;
比较步骤:通过所述比较集比较不同亚型类别的治疗反应率,确定所需识别的亚型类别;
分类器构建步骤:利用从所述标记基因中筛选得到的特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型;
分类步骤:将待分类免疫相关疾病数据输入所述支持向量机模型,鉴别所述待分类免疫相关疾病数据是否为所需识别的亚型类别。
2.根据权利要求1所述的免疫相关疾病分子分型和亚型分类器的分类方法,其特征在于,所述免疫相关疾病芯片数据集从GEO数据库获取,所述免疫相关疾病芯片数据集包括溃疡性结肠炎芯片数据集或克罗恩病芯片数据集;
溃疡性结肠炎芯片数据集对应的所述训练集包括GSE87466、GSE107499和GSE75214,所述验证集包括GSE83687和GSE126124,所述比较集包括GSE114527、GSE73661和GSE16879;
所述克罗恩病芯片数据集对应的所述训练集包括GSE112366、GSE75214、GSE179285和GSE100833,所述验证集包括GSE16879,所述比较集包括GSE112366。
3.根据权利要求1所述的免疫相关疾病分子分型和亚型分类器的分类方法,其特征在于,所述聚类算法包括CrossICC算法,所述富集分析采用clusterProfiler包,所述免疫细胞浸润评估采用CIBERSORT和单样本富集分析ssGSEA;
多种亚型类别包括:免疫激活型和免疫稳态型;或者,固有免疫激活型、全免疫激活型和免疫稳态样型;或者,免疫稳态样型、固有免疫激活型和中间型;或者,免疫稳态型和免疫稳态型以外的其他类别。
4.根据权利要求1所述的免疫相关疾病分子分型和亚型分类器的分类方法,其特征在于,筛选得到特征基因的方式包括:
对所有亚型的标记基因,先通过Boruta包中的随机森林方法,设定最大运行次数、树的数目后,将筛选后留下的标记基因输入10折交叉验证的Lasso回归中,留下参数不为0的标记基因作为所述特征基因。
5.根据权利要求1所述的免疫相关疾病分子分型和亚型分类器的分类方法,其特征在于,还包括对构建的支持向量机模型在所述训练集和所述验证集中进行预测和评价,利用混淆矩阵评价分类的表现,其中:
准确度=分类正确的样本/总样本;
灵敏度=被正确分类的阳性样本数/总阳性样本数;
特异度=被正确分类的阴性样本数/总阴性样本数;
假阳性率=被判断为阳性的阴性样本/总阴性样本数;
假阴性率=被判断为阴性的阳性样本/总阳性样本数。
6.根据权利要求1所述的免疫相关疾病分子分型和亚型分类器的分类方法,其特征在于,根据特征基因选择gamma值和cost值得到所述最佳参数组合。
7.一种免疫相关疾病分子分型和亚型分类器的分类系统,其特征在于,包括:
数据获取模块:获取免疫相关疾病芯片数据集,将所述免疫相关疾病芯片数据集分为训练集、验证集和比较集;
分子分型模块:在所述训练集中利用聚类算法进行分子分型,得到多个在所述训练集中稳定出现的亚型及每个亚型的标记基因,通过所述验证集验证分子分型结果的稳定性;
分析评估模块:对所述亚型的标记基因进行富集分析,对所述亚型进行免疫细胞浸润评估,根据富集分析和免疫细胞浸润评估的结果,得到多种免疫特征稳定的亚型类别;
比较模块:通过所述比较集比较不同亚型类别的治疗反应率,确定所需识别的亚型类别;
分类器构建模块:利用从所有所述标记基因中筛选得到的特征基因,以及支持向量机的最佳参数组合,构建支持向量机模型;
分类模块:将待分类免疫相关疾病数据输入所述支持向量机模型,鉴别所述待分类免疫相关疾病数据是否为所需识别的亚型类别。
8.根据权利要求7所述的免疫相关疾病分子分型和亚型分类器的分类系统,其特征在于,所述免疫相关疾病芯片数据集从GEO数据库获取,所述免疫相关疾病芯片数据集包括溃疡性结肠炎芯片数据集或克罗恩病芯片数据集;
溃疡性结肠炎芯片数据集对应的所述训练集包括GSE87466、GSE107499和GSE75214,所述验证集包括GSE83687和GSE126124,所述比较集包括GSE114527、GSE73661和GSE16879;
所述克罗恩病芯片数据集对应的所述训练集包括GSE112366、GSE75214、GSE179285和GSE100833,所述验证集包括GSE16879,所述比较集包括GSE112366。
9.根据权利要求7所述的免疫相关疾病分子分型和亚型分类器的分类系统,其特征在于,所述聚类算法包括CrossICC算法,所述富集分析采用clusterProfiler包,所述免疫细胞浸润评估采用CIBERSORT和单样本富集分析ssGSEA;
多种亚型类别包括:免疫激活型和免疫稳态型;或者,固有免疫激活型、全免疫激活型和免疫稳态样型;或者,免疫稳态样型、固有免疫激活型和中间型;或者,免疫稳态型和免疫稳态型以外的其他类别。
10.根据权利要求7所述的免疫相关疾病分子分型和亚型分类器的分类系统,其特征在于,筛选得到特征基因的方式包括:
对所有亚型的标记基因,先通过Boruta包中的随机森林方法,设定最大运行次数、树的数目后,将筛选后留下的标记基因输入10折交叉验证的Lasso回归中,留下参数不为0的标记基因作为所述特征基因。
CN202111276527.3A 2021-10-29 2021-10-29 免疫相关疾病分子分型和亚型分类器的分类方法、系统 Pending CN113903400A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111276527.3A CN113903400A (zh) 2021-10-29 2021-10-29 免疫相关疾病分子分型和亚型分类器的分类方法、系统
PCT/CN2022/112157 WO2023071406A1 (zh) 2021-10-29 2022-08-12 免疫相关疾病分子分型和亚型分类器的分类方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111276527.3A CN113903400A (zh) 2021-10-29 2021-10-29 免疫相关疾病分子分型和亚型分类器的分类方法、系统

Publications (1)

Publication Number Publication Date
CN113903400A true CN113903400A (zh) 2022-01-07

Family

ID=79027081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111276527.3A Pending CN113903400A (zh) 2021-10-29 2021-10-29 免疫相关疾病分子分型和亚型分类器的分类方法、系统

Country Status (2)

Country Link
CN (1) CN113903400A (zh)
WO (1) WO2023071406A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071406A1 (zh) * 2021-10-29 2023-05-04 复旦大学附属华山医院 免疫相关疾病分子分型和亚型分类器的分类方法、系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3079438A1 (en) * 2017-11-30 2019-06-06 Nantomics, Llc Detecting intratumor heterogeneity of molecular subtypes in pathology slide images using deep-learning
CN111369573A (zh) * 2020-03-05 2020-07-03 上海市肺科医院(上海市职业病防治院) 一种肺腺癌亚型的辅助鉴别系统及方法
CN111739584B (zh) * 2020-07-01 2024-02-09 苏州贝康医疗器械有限公司 一种用于pgt-m检测的基因分型评估模型的构建方法及装置
CN112116957A (zh) * 2020-08-20 2020-12-22 澳门科技大学 基于小样本的疾病亚型预测方法、系统、装置及介质
CN113096730B (zh) * 2021-04-02 2022-02-25 中山大学 一种鼻咽癌分子分型的预测系统
CN113903400A (zh) * 2021-10-29 2022-01-07 复旦大学附属华山医院 免疫相关疾病分子分型和亚型分类器的分类方法、系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071406A1 (zh) * 2021-10-29 2023-05-04 复旦大学附属华山医院 免疫相关疾病分子分型和亚型分类器的分类方法、系统

Also Published As

Publication number Publication date
WO2023071406A1 (zh) 2023-05-04

Similar Documents

Publication Publication Date Title
US20060259246A1 (en) Methods for efficiently mining broad data sets for biological markers
JP2003536179A (ja) ヒューリスティック分類方法
CN107058521B (zh) 一种检测人体免疫状态的检测系统
Momtazmanesh et al. Artificial intelligence in rheumatoid arthritis: current status and future perspectives: a state-of-the-art review
Tarca et al. Methodological approach from the best overall team in the sbv improver diagnostic signature challenge
CN113903400A (zh) 免疫相关疾病分子分型和亚型分类器的分类方法、系统
CN112927757A (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
Ahuja et al. Preservation of epithelial cell barrier function and muted inflammation in resistance to allergic rhinoconjunctivitis from house dust mite challenge
Hu et al. Analysis of gene expression profiles associated with glioma progression
CN116705193A (zh) 一种重定位候选药物的筛选方法及其应用
Chen et al. Integrated analysis of multiple microarray studies to identify novel gene signatures in ulcerative colitis
US20170145501A1 (en) Apparatus and methods of using of biomarkers for predicting tnf-inhibitor response
Lock et al. Bayesian genome-and epigenome-wide association studies with gene level dependence
Joshi et al. Artificial intelligence, big data and machine learning approaches in genome-wide SNP-based prediction for precision medicine and drug discovery
Dan et al. Distal fecal wash host transcriptomics identifies inflammation throughout the colon and terminal ileum
Xin et al. Identification of pulpitis‐related potential biomarkers using bioinformatics approach
CN114324887A (zh) 免疫球蛋白a肾病t细胞诊断标志物
CN108913773A (zh) 一种临床评价卵巢癌铂类药物化疗敏感性的多分子标志物及其装置与评价方法
CN114999642A (zh) 一种基于机器学习随机森林ercp术后胆囊炎诊断模型的构建方法及应用
US20240038326A1 (en) Method and system for phenotypic profile similarity analysis used in diagnosis and ranking of disease-driving factors
Tonello et al. Data mining-based statistical analysis of biological data uncovers hidden significance: clustering Hashimoto’s thyroiditis patients based on the response of their PBMC with IL-2 and IFN-γ secretion to stimulation with Hsp60
CN111785319B (zh) 基于差异表达数据的药物重定位方法
Khalili et al. Prediction of the thromboembolic syndrome: an application of artificial neural networks in gene expression data analysis
Lu et al. A machine learning-derived gene signature for assessing rupture risk and circulatory immunopathologic landscape in patients with intracranial aneurysms
WO2020135500A1 (zh) 一种构建生物信息分析参照数据集的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination