CN111863137A

CN111863137A - 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用

Info

Publication number: CN111863137A
Application number: CN202010469452.XA
Authority: CN
Inventors: 李园园; 戴文韬; 刘伟
Original assignee: Shanghai Pudai Biotech Partnership LP
Current assignee: Shanghai Pudai Biotech Partnership LP
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-10-30
Anticipated expiration: 2040-05-28
Also published as: CN111863137B

Abstract

本发明涉及基因检测及生物信息学领域，公开了一种基于转录组数据、外显子组/基因组数据和临床表型挖掘复杂疾病标志物的方法，设计了一套整合高通量测序数据和临床表型构建复杂疾病状态评估模型的计算方法，并将其应用于结直肠癌、胰腺导管癌、泛肿瘤靶向用药，分别筛选到了疾病相关的生物标志物，形成了相应的疾病状态评估模型。通过本发明方法构建得到准确性与机制解释性兼顾的标志物，可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等。

Description

一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用

技术领域

本发明涉及基因检测及生物信息学技术领域，具体涉及一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法，及其相关检测panel设计和实施应用案例。

背景技术

第一代测序技术，通过双脱氧末端终止法或化学切割法，获得序列特定位置的碱基信息，利用电泳和显影读取核酸序列。基因芯片技术，通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法，实现了高通量并行化，缺点在于可重复性和灵敏度有待增强，分析范围不够广泛。二代测序技术，又称新一代测序技术(next-generation sequencing，NGS)，与第一代测序不同，通过体外片段扩增和边合成边测序，实现了高通量并行化测序，主要缺点是读长短。第三代测序技术，又称单分子测序技术，无需扩增，直接通过检测模板序列的荧光信号或电信号，不受读长限制地直接读取模板序列信息。高通量测序数据(第二代或第三代测序技术生成)，在DNA层面可以高通量检测突变，包括点突变、插入缺失突变、基因融合、拷贝数变异等，在RNA层面则可高通量检测基因定量表达水平、可变基因剪切与融合等，对于精准医学发展起到重要推动作用。

以肿瘤、心脑血管疾病、代谢类疾病为代表的复杂疾病是人类健康的重大威胁，目前对复杂疾病致病机制的研究，得益于生物技术的快速发展，有了长足进步。基于复杂疾病样本的高通量测序数据，可以从分子水平阐释复杂疾病的发生、进展、转归、治疗和预后的规律，辅助有效评估肿瘤状态，为制定精准有效的治疗方案提供指导。肿瘤是复杂疾病的典型代表，其导致的可检测的突变或异常表达基因，同具体肿瘤临床表型密切相关时，即有可能作为分子肿瘤标志物，用于诊断、风险评估、预后、指导治疗、进展和安全性评估等。

基于高通量测序数据的复杂疾病标志物发现技术和相关标志物检测评估方案已经取得长足进步，但仍面临如下不足有待克服：1)标志物挖掘方法相对简单，准确性和可解释性亟需增强。对于多基因相关的复杂疾病，基于单个基因的标志物难以达到高准确性；相对于提高准确性，对标志物的机制可解释性关注更为不足。这既不符合循证医学理念以及理解标志物关键原理，也不利于实现标志物的理论最优组合，从而提高其鲁棒性和可重复性。2)检测和评估内容相对单一，功能有限。目前，由于基因收集筛选能力和测序成本，同一标志物检测方案覆盖的基因相对较少，实际应用中以单位点或小片段突变为主要评估指标，近年来以基因表达水平和检测panel中所有基因整体突变水平作为标志物评估的方案日益受到关注；在功能方面，以位点或基因相关靶向药效果预测为主，对于更广泛的手术、化疗、放疗、免疫治疗等指导意义有限。3)标志物设计及配套数据分析工具，对多元信息的利用不够充分。目前多数设计方案仅针对药物指南、标签以及有限的文献收集，技术路线侧重于单一组学层面，基于大规模测序结果、公共数据库及文本挖掘技术综合分析较少，对涵盖多种分子组学和临床表型信息的多元数据整合分析严重不足。

发明内容

为了解决上述问题，本发明提出了一种基于转录组数据、外显子组/基因组数据和临床表型挖掘复杂疾病标志物的方法，设计了一套整合高通量测序数据和临床表型构建复杂疾病状态评估模型的计算方法，并将其应用于结直肠癌、胰腺导管癌、泛肿瘤，分别筛选到了疾病相关的生物标志物，形成了相应的疾病状态评估模型。

通过本发明建立的方法挖掘到的复杂疾病标志物，兼顾标志物准确性与机制解释性；本发明所设计的复杂疾病状态评估模型构建方法，对多元信息利用充分，评价指标丰富，功能系统全面实用，涵盖筛选挖掘、建模评分与检测panel设计等。以上技术创新能为复杂疾病标志物筛选和状态评估模型构建提供可靠通用的计算支持，并在结直肠癌、胰腺导管癌和泛肿瘤标志物挖掘中进行了具体实施。

本发明提出了一种基于转录组数据、外显子组数据和临床表型挖掘复杂疾病标志物的方法，包括以下步骤：

步骤1)对复杂疾病病例信息分类整理：

步骤1.1)将所述复杂疾病病例信息分为转录组数据、外显子组/基因组数据和临床信息；

步骤1.2)将所述复杂疾病病例信息按照疾病状态分类并进行配对整理；以上信息分类将用于步骤2三种方法模式的选择。

步骤2)构建复杂疾病标志物组合，使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选：

若所述复杂疾病病例信息仅涉及转录组数据与临床信息，则执行步骤2.1) 基于转录组数据与临床信息进行标志物挖掘，构建复杂疾病相关的基因异常调控关系标志物组合；

若所述复杂疾病病例信息仅涉及外显子组/基因组数据与临床信息，则执行步骤2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘，构建复杂疾病相关的基因变异标志物组合；

若所述复杂疾病病例信息同时包含转录组数据、外显子组/基因组数据与临床信息，则执行步骤2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘，构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。

具体地，所述步骤2.1)包括以下子步骤：

步骤2.1.1)构建参考基因调控网络：从公共数据资源中可获取的转录调控关系信息以及人类编码基因启动子序列出发，识别潜在的转录因子 (transcriptional factor,TF)与靶基因(target)关系对，构建参考基因调控网络(Reference Gene RegulationNetwork,rGRN)。

步骤2.1.2)基于特定疾病状态下的转录组表达数据以及rGRN中的 TF-target关系，构建特定疾病状态下的，即条件特异的基因调控网络 (Conditional Gene RegulationNetwork,cGRN)。步骤2.1.2)中，采用基于机器学习的特征选择算法，包括Boruta、

Bayes、NMF、单变量线性回归，并通过异构计算或并行化方法实现加速，筛选在疾病状态下对TF-target关系贡献显著的TFs，形成条件特异的基因调控网络，即特定疾病状态的基因调控网络。

步骤2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异：采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度；

采用De-biased LASSO方法进行回归，求解得到每一个基因调控关系的调控强度及其置信区间，通过比较不同条件特异的基因调控网络中同一调控关系的置信区间是否有重叠，判定其调控差异是否显著；或通过比较不同条件特异的基因调控网络中同一调控关系的强度均值变化，无需计算置信区间，直接量化其调控差异。

步骤2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系：

整合三方面与基因调控相关的因素，筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系，包括：基因调控强度显著变化、调控目标基因表达水平显著变化，以及TF对target的调控强度变化方向与target表达水平变化方向一致；同时，根据调控强度在不同疾病状态间的差异程度，对筛选到的基因异常调控关系进行排序。

步骤2.1.5)基于基因异常调控关系，构建复杂疾病状态(如疾病进展阶段、预后、治疗方案敏感性)相关的基因异常调控关系标志物组合，该标志物组合可用于疾病进展评估、预后评估、治疗方案辅助决策。

步骤2.1.5从基因异常调控关系出发，采用Cox回归模型筛选与疾病状态，如疾病进展阶段、预后、治疗方案敏感性相关的标志物组合。其中，涉及每个异常调控基因对的Cox模型构建及其C-index比较、基于贪婪算法的异常调控基因对逐次增加迭代，以及基于遗传算法的进化式迭代。

具体地，所述步骤2.2)包括以下子步骤：

步骤2.2)基于外显子组/基因组数据与临床信息的标志物挖掘；

步骤2.2.1)识别与复杂疾病相关的基因变异；其中，与疾病状态相关的DNA 变异包括基因拷贝数与体细胞突变，包括但不限于单个碱基多态性(SNP)、插入与缺失(Indel)、拷贝数变异(CNV)、基因融合(fusion)、基因重排(rearrangement) 等高通量测序技术可以检测的变异；

步骤2.2.2)采用数据驱动和/或先验知识驱动定量筛选复杂疾病状态相关的重要基因变异；其中，数据定量过滤筛选，涉及体细胞基因变异频率计算、排序，以及高频变异基因识别，其中基因变异频率≥5％的基因进一步用于先验知识过滤；先验知识过滤筛选，包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的复杂疾病相关基因；

步骤2.2.3)基于步骤2.2.2)得到的复杂疾病状态相关的重要基因变异，构建复杂疾病状态(如疾病进展阶段、预后、治疗方案敏感性)相关的DNA变异标志物组合，该标志物组合可用于疾病进展评估、预后评估、治疗方案辅助决策。其中，采用Cox回归模型筛选与疾病状态，如疾病进展阶段、预后、治疗方案敏感性相关的DNA变异标志物组合。其中，涉及每个变异的Cox模型构建及其 C-index比较、基于贪婪算法的重要变异逐次增加迭代，以及基于遗传算法的进化式迭代。以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建复杂疾病相关的基因变异标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

具体地，所述步骤2.3)包括以下子步骤：

步骤2.3.1)对于同时具备转录组数据和外显子组/基因组数据的复杂疾病数据集，利用步骤2.1.1～2.1.4筛选疾病状态相关的基因异常调控关系，同时利用步骤2.2.1～2.2.2挖掘疾病状态相关的重要基因变异，分别得到复杂疾病相关的基因异常调控关系和重要基因变异；

步骤2.3.2)随后采纳步骤2.1.5和步骤2.2.3中，基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代，整合RNA和DNA信息，构建复杂疾病相关的基因异常调控关系和基因变异标志物组合。

基于上述方法得到的复杂疾病标志物，本发明提出了一种复杂疾病综合状态评分方法，包括以下步骤：

步骤3.1)针对已知先验知识，筛选复杂疾病状态相关的临床信息(如疾病进展阶段、预后、治疗方案敏感性)及检验和病理指标；

步骤3.2)从复杂疾病队列中病例信息出发，筛选复杂疾病状态相关的临床信息及检验和病理指标；

步骤3.3)将本发明方法得到的复杂疾病相关的基因异常调控关系和/或基因变异标志物组合，同步骤3.1和3.2筛选所得复杂疾病状态相关的临床信息及检验和病理指标整合，优化成为复杂疾病多元标志物组合，构建复杂疾病综合状态评分模型；所述模型用于复杂疾病综合状态评分计算。其中，利用基于贪婪算法的逐次增加迭代和/或基于遗传算法的进化迭代，将复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标，整合优化精简特征后形成复杂疾病多元标志物组合，包含复杂疾病相关的基因异常调控关系、基因变异、临床信息、检验和病例指标；进而利用统计回归和机器学习算法，针对复杂疾病预后评估、治疗效果预测及治疗方案辅助决策，构建复杂疾病综合状态评分模型。

具体地，步骤3.1采用公开渠道可获得的国内外最新临床指南、专家共识和推荐意见，药物临床应用指南，来自中国临床肿瘤学会(CSCO)、美国国家综合癌症网络(NCCN)、美国临床肿瘤学会(ASCO)、欧洲肿瘤内科学会(ESMO)和日本肿瘤学会(JSC)的临床实践指南，以及通用知识库中的复杂疾病相关各类检验指标，结合复杂疾病相关知名本体库和公开发表的权威文献，系统检索和挖掘同复杂疾病进展、治疗方案敏感性和预后高度关联的检验指标，去除冗余后，纳入后续模型及工具开发。

具体地，步骤3.2基于可以得到的复杂疾病队列数据，整合复杂疾病状态评估相关检验指标和临床信息构建模型，利用预测评估指标(如C-index、AUC)，采用机器学习特征选择策略，如Boruta、

Bayes、NMF、单变量线性回归，筛选对临床信息预测效果位于前列的检验指标。

具体地，步骤3.3利用统计建模或机器学习手段，将前文所述测序组学标志物、临床检验指标，以及基于疾病队列信息筛选到的指标，结合病例临床信息，训练实现复杂疾病状态评估模型；并以更为准确可靠地预测复杂疾病患者预后状态和治疗方案受益情况为目标，综合使用各类指标(如生存曲线、C-index、AUC 等)精简特征组合(最优组合目标是特征数量少，准确可靠，机制可解释性强)，迭代优化状态评估模型。

本发明提出了一种复杂疾病综合状态评分计算系统，采用本发明复杂疾病综合状态评分方法，将复杂疾病综合状态评分模型开发封装为方便使用的复杂疾病综合状态评分计算系统(如软件、在线服务器形式)。其中，必须包括实用方便的输入和输出模块和评分模型，其中输出内容应至少包括复杂疾病的分类及风险评分以及对应的治疗受益预测提示等信息。

本发明提出了一种基因检测panel设计方法，包括以下步骤：

步骤4.1)基于本发明方法筛选得到复杂疾病相关的基因异常调控关系和/ 或基因变异标志物组合，并最终纳入本发明所述复杂疾病综合状态评分方法的基因集，梳理基因集中基因相关信息，去除冗余，确定标准基因名；

步骤4.2)针对步骤4.1)中梳理后的基因，选择用于复杂疾病检测设计的靶基因目标区域，可用于探针设计或引物设计；

步骤4.3)根据步骤4.2)中的靶基因目标区域，设计相应的探针和/或引物序列，并记录重要注释；

步骤4.4)针对步骤4.2)中的靶基因目标区域，参考人类基因组中可设计探针和/或引物数据集，对靶基因目标区域进行优化设计，使探针和/或引物能均匀捕获覆盖目标区域；

步骤4.5)将步骤4.3和4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对，获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案；

步骤4.6)基于步骤4.5设计的靶基因目标区域相关探针和/或引物，制作出用于充分进行复杂疾病状态评估的基因检测panel。

具体地，步骤4.2选择探针设计的基因目标区域时，采取精准优先、逐步扩大的原则，首先采用变异位点区域，次优选择变异位点所在外显子区域，最后可采用变异基因的全部可变剪切区域。其中，选择用于复杂疾病检测的探针和/或引物设计的靶基因目标区域，遵循以下原则：对于变异位点信息明确具体且该变异位点序列前后各100bp范围内无其它变异位点，则将此已明确的基因位点覆盖区域作为靶基因目标区域；对于变异位点较集中或密集的基因区域，即两个变异位点相邻且间隔不超过100bp，则选择该组变异位点的外显子作为靶基因目标区域；对于步骤4.1)确定的信息非常多样的重要基因，在前两项设计不适用的情况下，则选择该基因全部可变剪切类型的区域作为靶基因目标区域。

具体地，步骤4.3)中的设计是指采用对步骤4.2)中的靶基因目标区域两端延伸，合并延伸后的全部目标区域并去除冗余；以合适的文件格式记录探针和/ 或引物设计的靶基因目标区域的重要信息，包括靶基因目标区域的染色体编号、靶基因目标区域的起始位置、靶基因目标区域的终止位置、突变位点信息、自定义信息，如引物设计所需3’端信息。

具体地，步骤4.4)中参考人类基因组中可设计探针和/或引物数据集，对靶基因目标区域设计的探针和/或引物覆盖深度进行加权，并基于人类全基因组测序数据预测其探针和/或引物覆盖深度后，在全探针和/或引物数据集进行调整，使探针和/或引物能均匀捕获覆盖目标区域。

具体地，步骤4.5综合比对步骤4.3和步骤4.4所生成的探针设计区域，并同时测评探针对重要变异位点和全部目标区域的覆盖度，获取具有最优覆盖度的探针设计方案。其中，步骤4.5)中靶基因目标区域相关探针和/或引物的最优覆盖度是指计算探针和/或引物对步骤4.1)所述重要基因变异位点的覆盖度和全部靶基因目标区域的覆盖度，计算公式为：覆盖度＝比对上的读长数/目标测序读长数；通过靶基因目标区域附近的优化，使得最终设计的探针和/或引物，对全部靶基因目标区域的覆盖度≥90％，同时对步骤4.1)所述重要基因变异位点的覆盖度≥97％。

本发明中，步骤4.1至4.6整体上是一个综合流程，可以根据具体检测中采用的检测平台，如PCR、NGS、三代测序、NanoString等。针对不同领域和技术经验规范，可进行相应的调整优化。

本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法，基于复杂疾病状态评估基因检测panel同综合状态评分计算系统的联用进行评估，包括以下步骤：

步骤5.1)基于本发明所述方法设计的基因检测panel，得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合的定量值，本发明所述的复杂疾病综合状态评分计算系统；

步骤5.2)将获取本发明所述复杂疾病状态相关的临床信息及检验和病理指标的定量值，输入本发明所述的复杂疾病综合状态评分计算系统；

步骤5.3)将步骤5.1)和5.2)所涉及的硬件、软件和/或在线工具，组合为一套配套联用的流程，使得用户根据需求可以完成检测、信息输入、计算评估和结果获取,顺利获得评估状态和提示建议输出等有效信息。

本发明中，步骤5.1采用适应具体应用需求的方式，如检测装置或试剂盒，灵活获取DNA和RNA层面包括但不限于拷贝数、基因变异和基因表达在内的多种组学信息，以得到输入综合状态评分计算系统的定量数值为目标，并确定规范输入方式。

本发明中，步骤5.2采用适合应用场景，并与步骤5.1中基因检测panel配套的硬件或软件模块，以自动化或人工方式从HIS或EMR等医学信息系统中获取可以输入综合状态评分计算系统的病例检测指标和临床信息，并确定规范输入方式。

本发明中，步骤5.3构建的基因检测panel同综合评分系统的联用方法，以符合应用需求为目标，组合形式灵活多样，包括但不限于试剂盒/软件，检测装置/数据处理一体机，试剂盒/检测装置/数据在线分析平台等形式；使用者可以按说明文档，以最方便友好和高效的形式，输入个体病例的必要信息，包括复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标，自动化或半自动化进行数据汇总统计和预处理之后，完成计算评估，并输出该个体病例的分类及风险评分以及对应的治疗受益预测提示等信息；最终可以实现对复杂疾病个体病例状态的评估，辅助临床决策等功能。

本发明所述的方法在构建基于高通量测序数据和临床表型构建复杂疾病状态评估模型中的应用，包括在筛选复杂疾病综合状态评估标志物组合中的应用；在筛选肿瘤综合状态评估标志物组合中的应用；在复杂疾病预后评估、治疗效果预测及治疗方案辅助决策中的应用。

本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估模型方法在结直肠肿瘤状态评估中的应用(包括：结直肠肿瘤状态评估模型构建方法；结直肠肿瘤状态评估panel设计方法；结直肠肿瘤状态评估方法、等)，包括以下步骤：

步骤14.1)获取结直肠肿瘤病例信息，包括高通量测序数据和临床信息，根据结直肠肿瘤病例状态分类并进行配对整理，并确定挖掘模式；

步骤14.2)构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合；

步骤14.3)筛选结直肠肿瘤相关的临床信息及检验和病理指标；参考结直肠肿瘤相关的基因异常调控关系和步骤14.2所得基因变异标志物组合，整合优化为结直肠肿瘤多元标志物组合，用于构建结直肠肿瘤综合状态评分模型，并开发封装为结直肠肿瘤综合状态评分计算系统；

步骤14.4)基于步骤14.2所得结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合，设计结直肠肿瘤综合状态评估的靶基因目标区域相关探针和/ 或引物，用作结直肠肿瘤综合状态评估基因检测panel；

步骤14.5)构建一套结直肠肿瘤综合状态评估基因检测panel和综合状态评分计算系统联用流程，使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。

具体地，步骤14.1中，对结直肠肿瘤病例信息进行分类整理：

步骤14.1.1)将所述结直肠肿瘤病例信息分为转录组数据、外显子组/基因组数据和临床信息；

步骤14.1.2)将所述结直肠肿瘤病例信息按照疾病状态分类并进行配对整理。

具体地，步骤14.2中，构建结直肠肿瘤标志物组合，使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选：

若所述结直肠肿瘤病例信息仅涉及转录组数据与临床信息，则执行步骤 14.2.1)基于转录组数据与临床信息进行标志物挖掘，构建结直肠肿瘤相关的基因异常调控关系标志物组合；

若所述结直肠肿瘤病例信息仅涉及外显子组/基因组数据与临床信息，则执行步骤14.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘，构建结直肠肿瘤相关的基因变异标志物组合；

若所述结直肠肿瘤病例信息同时包含转录组数据、外显子组/基因组数据与临床信息，则执行步骤14.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘，构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。

具体地，所述步骤14.2.1)具体包括以下子步骤：

步骤14.2.1.1)构建参考基因调控网络；

步骤14.2.1.2)基于结直肠肿瘤特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系，构建条件特异的基因调控网络；

步骤14.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异；

步骤14.2.1.4)筛选不同结直肠肿瘤疾病状态下的条件特异的基因调控网络之间的基因异常调控关系；

步骤14.2.1.5)基于步骤14.2.1.4)得到的基因异常调控关系，构建结直肠肿瘤相关的基因异常调控关系标志物组合。

具体地，步骤14.2.1.2)中，采用基于机器学习的特征选择算法，包括Boruta、

Bayes、NMF、单变量线性回归，并通过异构计算或并行化方法实现加速，筛选在疾病状态下对TF-target关系贡献显著的TFs，形成条件特异，即结直肠肿瘤特定疾病状态的基因调控网络。

具体地，步骤14.2.1.3)中，采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度；

采用De-biased LASSO方法进行回归，求解得到每一个基因调控关系的调控强度及其置信区间，通过比较不同条件特异基因调控网络中同一调控关系的置信区间是否有重叠，判定其调控差异是否显著；或通过比较不同条件特异基因调控网络中同一调控关系的强度均值变化，无需计算置信区间，直接量化其调控差异。

具体地，步骤14.2.1.4)中，整合三方面与基因调控相关的因素，筛选结直肠肿瘤不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系，包括：基因调控强度显著变化、调控目标基因表达水平显著变化，以及TF对target 的调控强度变化方向与target表达水平变化方向一致；同时，根据调控强度在不同疾病状态间的差异程度，对筛选到的基因异常调控关系进行排序。

具体地，步骤14.2.1.5)中以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建结直肠肿瘤相关的基因异常调控关系标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC 为指标衡量其对治疗方案受益状态的预测效果。

具体地，所述步骤14.2.2)具体包括以下子步骤：

步骤14.2.2.1)识别与结直肠肿瘤相关的基因变异；

步骤14.2.2.2)采用数据驱动和/或先验知识驱动定量筛选结直肠肿瘤状态相关的重要基因变异；

步骤14.2.2.3)基于步骤14.2.2.2)得到的结直肠肿瘤状态相关的重要基因变异，构建结直肠肿瘤相关的基因变异标志物组合。

具体地，步骤14.2.2.2)中，数据定量过滤筛选，涉及体细胞基因变异频率计算、排序，以及高频变异基因识别，其中基因变异频率≥5％的基因进一步用于先验知识过滤；先验知识过滤筛选，包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的结直肠肿瘤相关基因。

具体地，步骤14.2.2.3)中，以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建结直肠肿瘤相关的基因变异标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

具体地，所述步骤14.2.3)具体包括以下子步骤：

步骤14.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的结直肠肿瘤数据集，利用步骤14.2.1.1～14.2.1.4筛选疾病状态相关的基因异常调控关系，同时利用步骤14.2.2.1～14.2.2.2挖掘疾病状态相关的重要基因变异，分别得到结直肠肿瘤相关的基因异常调控关系和重要基因变异；

步骤14.2.3.2)随后采纳步骤14.2.1.5和步骤14.2.2.3中，基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代，整合RNA和DNA信息，构建结直肠肿瘤相关的基因异常调控关系和基因变异标志物组合。

具体地，所述步骤14.3中，筛选结直肠肿瘤相关的临床信息及检验和病理指标包括以下步骤：

步骤14.3.1)针对已知先验知识，筛选结直肠肿瘤状态相关的临床信息及检验和病理指标；

步骤14.3.2)从结直肠肿瘤队列中病例信息出发，筛选结直肠肿瘤状态相关的临床信息及检验和病理指标。

具体地，所述步骤14.3中，结直肠肿瘤相关基因异常调控关系通过以下方法得到：

将得到的结直肠肿瘤相关的基因异常调控关系和/或基因变异标志物组合，同步骤14.3.1和14.3.2筛选所得结直肠肿瘤状态相关的临床信息及检验和病理指标整合，优化为结直肠肿瘤多元标志物组合。

具体地，所述步骤14.4中，基因检测panel设计包括以下步骤：

步骤14.4.1)基于筛选得到结直肠肿瘤相关基因异常调控关系和/或基因变异标志物组合，并最终纳入结直肠肿瘤综合状态评分方法的基因集，梳理基因集中基因相关信息，去除冗余，确定标准基因名；

步骤14.4.2)针对步骤14.4.1)中梳理后的基因，选择用于结直肠肿瘤检测设计的靶基因目标区域，可用于探针设计或引物设计；

步骤14.4.3)根据步骤14.4.2)中的靶基因目标区域，设计相应的探针和/ 或引物序列，并记录重要注释；

步骤14.4.4)针对步骤14.4.2)中的靶基因目标区域，参考人类基因组中可设计探针和/或引物数据集，对靶基因目标区域进行优化设计，使探针和/或引物能均匀捕获覆盖目标区域；

步骤14.4.5)将步骤14.4.3和14.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对，获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案；

步骤14.4.6)基于步骤14.4.5设计的靶基因目标区域相关探针和/或引物，制作出用于充分进行结直肠肿瘤状态评估的基因检测panel。

具体地，步骤14.5中，所述联用流程包括以下步骤：

步骤14.5.1)基于本发明所述方法设计的基因检测panel，得到结直肠肿瘤相关基因异常调控关系和/或基因变异标志物组合的定量值，输入结直肠肿瘤综合状态评分计算系统；

步骤14.5.2)将获取的结直肠肿瘤状态相关的临床信息及检验和病理指标的定量值，输入结直肠肿瘤综合状态评分计算系统；

步骤14.5.3)将步骤14.5.1)和14.5.2)所涉及的硬件、软件和/或在线工具，组合为一套配套联用的流程，使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。

具体地，步骤14.2)中结直肠肿瘤相关基因异常调控关系和基因变异标志物组合，具体基因集包括以下53个基因：RUNX3、GPR15、P2RY8、SNAI3、TLR7、 ATOH1、SIGLEC1、KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、 SDHD、NF1；PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、 PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、 GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E之任一及其组合；具体地，所有53个基因组合可用于生存预后评估；RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1 用于化疗方案效果预测；KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、 SDHC、SDHD、NF1用于靶向治疗方案效果预测，PD1、PDL1、PDL2、CTLA4、TIGIT、 TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、 SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、 NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估，以及免疫检查点抑制剂治疗效果预测。

步骤14.3中结直肠肿瘤相关的临床信息及检验和病理指标，同结直肠肿瘤相关基因异常调控关系和基因变异标志物组合的53个基因，一起组成结直肠肿瘤多元标志物组合，用于预后效果、化疗、靶向治疗和免疫治疗效果预测，辅助临床决策；具体地，所有53个基因均用于生存预后评估，其低评分组预示病例预后效果较好；其中RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1用于化疗方案效果预测(特别是术后场景)，包括5-FU和联合ADJC(包括FOLFIRI、 FOLFOX和FUFOL)，为基于病理分期的半定量化疗方案选择，提供定量评分，低评分组病例更能从化疗中受益；KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、 SDHB、SDHC、SDHD、NF1用于靶向治疗方案效果预测，其相应基因表达或变异评分，同靶向药受益密切相关，如HER2高评分病例，更可能从HER2单抗药物治疗获益；PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、 CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、 PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、 HLA-DQA1、HLA-DRB1、HLA-E用于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估，以上基因评分的免疫低风险亚型，免疫细胞浸润程度高，免疫细胞毒性强，免疫检查点激活程度高，更易从免疫检查点抑制剂治疗中受益。

具体地，步骤14.4中设计的结直肠肿瘤综合状态评估的53个靶基因目标区域相关探针和/或引物，对靶基因目标区域覆盖度不低于95％，对其中重要基因变异位点的覆盖度不低于97％；以上53个靶基因目标区域，既可整体作为一个检测panel，也根据具体用途分为3个检测panel，包括化疗状态评估检测 panel(包括RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1等基因，)，靶向治疗状态评估检测panel(包括RAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、 SDHB、SDHC、SDHD、NF1等基因)和免疫治疗状态评估检测panel(包括PD1、PDL1、 PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、 CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、 CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、 HLA-E)。

本发明步骤14.1所述数据获取整理，充分涵盖已公开结直肠肿瘤数据集，包括但不限于TCGA、GEO、ICGC等，并纳入生存、用药治疗效果等信息，并实现对以上信息相关转录组和外显子组标志物的系统挖掘。

本发明步骤14.2所述方法，整合三方面与基因调控相关的因素，筛选结直肠肿瘤cGRN之间的基因异常调控关系，包括：TF-target调控强度显著变化、 target表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致。同时，可根据调控强度的差异程度，对筛选到的基因异常调控关系进行排序；并基于对病例预后生存和治疗方案效果预测能力，采用基于贪婪算法的逐次增加迭代，挖掘转录组相关标志物，且该标志物组合具有准确可靠，机制可解释性强的特点。

本发明步骤14.2所述方法，综合采用数据驱动和先验知识驱动的定量筛选策略，使用了基于遗传算法的进化迭代方法，筛选结直肠肿瘤状态如进展阶段、预后生存、治疗方案敏感性相关的高频DNA变异标志物组合，且该标志物组合具有准确可靠，机制可解释性强的特点。

本发明步骤14.3所述基因集和模型系统，可以实现结直肠癌病人的综合状态评分，且该评分同结直肠肿瘤预后生存和治疗手段(包括但不限于化疗、靶向、免疫抑制剂等)效果有较高相关性。具体来看，所有输入特征均对生存预后有所贡献；但对治疗手段效果预测的权重有所不同，其中RUNX3、GPR15、P2RY8、SNAI3、 TLR7、ATOH1、SIGLEC1的贡献集中在化疗方案效果预测，包括5-FU和联合ADJC(包括FOLFIRI、FOLFOX和FUFOL)，为基于病理分期的半定量化疗方案选择，提供有效的定量评分支持；KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、 SDHC、SDHD、NF1的贡献侧重于靶向治疗方案效果预测，而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、 TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、 CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、 HLA-E侧重于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估，对免疫抑制剂治疗方案效果预测贡献较大；手术情况(有/无)、病理级别(I-IV)和微卫星不稳定(MSI) 等信息对于预后和治疗效果预测均有贡献。

本发明步骤14.4和14.5所述panel设计及评估系统联用流程，可实现探针设计捕获效率和目标区域覆盖度均较高，panel和评分模块可以根据需求灵活调整，用于结直肠肿瘤病人综合状态评估，并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。panel 和评分模块的灵活调整，示例如下：仅使用异常调控4-DysReg涵盖的7个基因 (RUNX3、GPR15、P2RY8、SNAI3、TLR7、ATOH1、SIGLEC1)标志物组合，可以作为一个小panel，并保留相关的状态评分模型即可组成一个定位于结直肠癌辅助化疗方案状态评估流程。以上思路，同样适用于靶向治疗和免疫抑制剂治疗方案状态评估流程的单独提取，缩小panel，降低检测成本。

本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法在胰腺导管癌状态评估中的应用，包括以下步骤：

步骤15.1)获取胰腺导管癌病例信息，包括高通量测序数据和临床信息，根据胰腺导管癌病例状态分类并进行配对整理；

步骤15.2)构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合；

步骤15.3)筛选胰腺导管癌相关的临床信息及检验和病理指标；参考胰腺导管癌相关的基因异常调控关系和同步骤15.2所得胰腺导管癌相关的基因异常调控关系和基因变异标志物组合，整合优化为胰腺导管癌多元标志物组合，用于构建胰腺导管癌综合状态评分模型，并开发封装为胰腺导管癌综合状态评分计算系统；

步骤15.4)基于步骤15.2所得胰腺导管癌相关基因异常调控关系和基因变异标志物组合，设计胰腺导管癌综合状态评估的靶基因目标区域相关探针和/或引物，用作胰腺导管癌综合状态评估基因检测panel；

步骤15.5)构建一套胰腺导管癌综合状态评估基因检测panel和综合状态评分计算系统联用流程，使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。

具体地，步骤15.1中，对胰腺导管癌病例信息进行分类整理：

步骤15.1.1)将所述胰腺导管癌病例信息分为转录组数据、外显子组/基因组数据和临床信息；

步骤15.1.2)将所述胰腺导管癌病例信息按照疾病状态分类并进行配对整理。

具体地，步骤15.2中，构建胰腺导管癌标志物组合，使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选：

若所述胰腺导管癌病例信息仅涉及转录组数据与临床信息，则执行步骤 15.2.1)基于转录组数据与临床信息进行标志物挖掘，构建胰腺导管癌相关的基因异常调控关系标志物组合；

若所述胰腺导管癌病例信息仅涉及外显子组/基因组数据与临床信息，则执行步骤15.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘，构建胰腺导管癌相关基因变异标志物组合；

若所述胰腺导管癌病例信息同时包含转录组数据、外显子组/基因组数据与临床信息，则执行步骤15.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘，构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合。

具体地，所述步骤15.2.1)具体包括以下子步骤：

步骤15.2.1.1)构建参考基因调控网络；

步骤15.2.1.2)基于胰腺导管癌特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系，构建条件特异的基因调控网络；

步骤15.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异；

步骤15.2.1.4)筛选胰腺导管癌不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系；

步骤15.2.1.5)基于步骤15.2.1.4)得到的基因异常调控关系，构建胰腺导管癌相关的基因异常调控关系标志物组合。

具体地，步骤15.2.1.2)中，采用基于机器学习的特征选择算法，包括Boruta、

Bayes、NMF、单变量线性回归，并通过异构计算或并行化方法实现加速，筛选在疾病状态下对TF-target关系贡献显著的TFs，形成条件特异，即胰腺导管癌特定疾病状态的基因调控网络。

具体地，步骤15.2.1.3)中，采用多元线性回归模型量化条件特异基因调控网络中的基因调控强度；

具体地，步骤15.2.1.4)中，整合三方面与基因调控相关的因素，筛选胰腺导管癌不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系，包括：基因调控强度显著变化、调控目标基因表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致；同时，根据调控强度在不同疾病状态间的差异程度，对筛选到的基因异常调控关系进行排序。

具体地，步骤15.2.1.5)中以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建胰腺导管癌相关基因异常调控关系标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

具体地，所述步骤15.2.2)具体包括以下子步骤：

步骤15.2.2.1)识别与胰腺导管癌相关的基因变异；

步骤15.2.2.2)采用数据驱动和/或先验知识驱动定量筛选胰腺导管癌状态相关的重要基因变异；

步骤15.2.2.3)基于步骤15.2.2.2)得到的胰腺导管癌状态相关的重要基因变异，构建胰腺导管癌相关的基因变异标志物组合。

具体地，步骤15.2.2.2)中，数据定量过滤筛选，涉及体细胞基因变异频率计算、排序，以及高频变异基因识别，其中基因变异频率≥5％的基因进一步用于先验知识过滤；先验知识过滤筛选，包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的胰腺导管癌相关基因。

具体地，步骤15.2.2.3)中，以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建胰腺导管癌相关的基因变异标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

具体地，所述步骤15.2.3)具体包括以下子步骤：

步骤15.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的胰腺导管癌数据集，利用步骤15.2.1.1～15.2.1.4筛选疾病状态相关的基因异常调控关系，同时利用步骤15.2.2.1～15.2.2.2挖掘疾病状态相关的重要基因变异，分别得到胰腺导管癌相关的基因异常调控关系和重要基因变异；

步骤15.2.3.2)随后采纳步骤15.2.1.5和步骤15.2.2.3中，基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代，整合RNA和DNA信息，构建胰腺导管癌相关的基因异常调控关系和基因变异标志物组合。

具体地，所述步骤15.3中，筛选胰腺导管癌相关的临床信息及检验和病理指标包括以下步骤：

步骤15.3.1)针对已知先验知识，筛选胰腺导管癌状态相关的临床信息及检验和病理指标；

步骤15.3.2)从胰腺导管癌队列中病例信息出发，筛选胰腺导管癌状态相关的临床信息及检验和病理指标。

具体地，所述步骤15.3中，胰腺导管癌相关基因异常调控关系通过以下方法得到：

将得到的胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合，同步骤15.3.1和15.3.2筛选所得胰腺导管癌状态相关的临床信息及检验和病理指标整合，优化为胰腺导管癌多元标志物组合。

具体地，所述步骤15.4中，基因检测panel设计包括以下步骤：

步骤15.4.1)基于筛选得到胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合，并最终纳入胰腺导管癌综合状态评分方法的基因集，梳理基因集中基因相关信息，去除冗余，确定标准基因名；

步骤15.4.2)针对步骤15.4.1)中梳理后的基因，选择用于胰腺导管癌检测设计的靶基因目标区域，可用于探针设计或引物设计；

步骤15.4.3)根据步骤15.4.2)中的靶基因目标区域，设计相应的探针和/ 或引物序列，并记录重要注释；

步骤15.4.4)针对步骤15.4.2)中的靶基因目标区域，参考人类基因组中可设计探针和/或引物数据集，对靶基因目标区域进行优化设计，使探针和/或引物能均匀捕获覆盖目标区域；

步骤15.4.5)将步骤15.4.3和15.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对，获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案；

步骤15.4.6)基于步骤15.4.5设计的靶基因目标区域相关探针和/或引物，制作出用于充分进行胰腺导管癌状态评估的基因检测panel。

具体地，步骤15.5中，所述联用流程包括以下步骤：

步骤15.5.1)基于本发明所述方法设计的基因检测panel，得到胰腺导管癌相关基因异常调控关系和/或基因变异标志物组合的定量值，输入胰腺导管癌综合状态评分计算系统；

步骤15.5.2)将获取的胰腺导管癌状态相关的临床信息及检验和病理指标的定量值，输入胰腺导管癌综合状态评分计算系统；

步骤15.5.3)将步骤15.5.1)和15.5.2)所涉及的硬件、软件和/或在线工具，组合为一套配套联用的流程，使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。

具体地，步骤15.2中胰腺导管癌相关基因异常调控关系和基因变异标志物组合，具体基因集包括以下86个基因：AKT1、BRCA2、ERBB2、IDH1、MAP2K2、 MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、 FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、 PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、 TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、 NF1；PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、 CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、 PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、 HLA-DQA1、HLA-DRB1、HLA-E之任一或其组合。具体的，所有86个基因组合可用于生存预后评估；KRAS/TP53/CDKN2A及所有基因拷贝数变异用于手术方案效果预测；所有基因拷贝数变异用于化疗方案效果预测；PD1、PDL1、PDL2、CTLA4、 TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、 CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估，以及免疫检查点抑制剂治疗效果预测；AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11用于潜在靶向治疗效果预测。

具体地，步骤15.3中胰腺导管癌相关的临床信息及检验和病理指标，主要包括胰腺导管癌病人的年龄、性别、血液生化及免疫检测指标、手术情况(有/ 无)、病理级别(I-IV)和肿瘤病人移植动物模型(PDX)建模情况(快/慢/无)等临床信息，同本发明所述胰腺导管癌相关基因异常调控关系和基因变异标志物组合的86个基因，一起组成胰腺导管癌多元标志物组合，用于预后效果、化疗、免疫治疗和潜在靶向治疗效果预测，辅助临床决策。具体的，所有86个基因组合可用于生存预后评估，其低评分组预示病例预后效果较好；KRAS/TP53/CDKN2A 及所有基因拷贝数变异用于手术方案效果预测，其中低风险分类病例更易从R0 范式手术治疗受益；所有86个基因拷贝数变异用于化疗方案效果预测，拷贝变异评分越高的病例越易从吉西他滨(gemcitabine)治疗受益，拷贝变异评分越低的病例越易从伊立替康(irinotecan)治疗受益；PD1、PDL1、PDL2、CTLA4、TIGIT、 TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、 SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、 NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E用于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估，以及免疫检查点抑制剂治疗效果预测，以上基因评分的免疫低风险亚型病例，免疫细胞浸润程度高，免疫细胞毒性强，免疫检查点激活程度高，更易从免疫检查点抑制剂治疗中受益；AKT1、BRCA2、 ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、 PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、 KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、 TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、 SDHC、SDHD、NF1、STK11用于潜在靶向治疗效果预测，其相应基因表达或变异评分，同靶向药受益密切相关，如KRAS、NRAS、AKT、BRCA2等突变病例，预测更难以从抗EGFR单抗治疗中获益。肿瘤病人移植动物模型(PDX)建模情况，可用于手术方案效果预测，造模不成功病例更易从手术中受益。

具体地，步骤15.4中设计的胰腺导管癌综合状态评估的86个靶基因目标区域相关探针和/或引物，对靶基因目标区域覆盖度不低于95％，对其中重要基因变异位点的覆盖度不低于97％；以上86个靶基因目标区域，既可整体作为一个检测panel(用于预后状态评估和化疗状态评估预测)，也根据具体用途分为3个检测panel，包括手术状态评估检测panel(KRAS/TP53/CDKN2A及所有基因拷贝数变异)，免疫治疗状态评估检测panel(PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、 LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、 CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E)，潜在靶向治疗状态评估检测panel(AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11)。

本发明中，胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标 (如CA199血清浓度等)、手术情况R0-R2、PDX建模情况作为补充临床信息，也可纳入评分模型的输入范围。

本发明中，步骤15.2综合采用数据驱动和先验知识驱动的定量筛选策略，筛选胰腺导管状态如进展阶段、预后生存、治疗方案敏感性相关的高频DNA变异标志物组合，可包括基因变异、临床病理和PDX建模数据等信息，且该标志物组合具有准确可靠，机制可解释性强的特点。同时在标志物组合优化阶段，根据需要，灵活采用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代，提升效果。

本发明中，步骤15.3所述基因集和模型系统，可以实现胰腺导管癌病人的综合状态评分，且该评分同胰腺导管癌病人的预后生存和治疗手段(包括但不限于手术范式、化疗、靶向、免疫抑制剂等)效果有较高相关性。所有输入特征均对生存预后有所贡献；但对治疗手段效果预测的权重有所不同，其中 KRAS/TP53/CDKN2A及所有基因拷贝数变异的贡献集中在手术方案效果预测；所有基因拷贝数变异的贡献侧重于化疗方案效果预测，特别是吉西他滨 (gemcitabine)和伊立替康(irinotecan)的疗效预测；PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、 SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、 CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E侧重于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估，对免疫抑制剂治疗方案效果预测贡献较大；另外，对于部分处于临床试验中的可能用于胰腺导管癌治疗的靶向药，AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、 BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1、STK11的突变情况可以提供有价值的参考。不仅胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标(如CA199血清浓度等)、手术情况R0-R2等临床信息，而且病例的PDX 建模情况，对于病例的预后效果预测均有贡献。

本发明中，步骤15.4和15.5所述panel设计及评估系统联用流程，可实现探针设计捕获效率和目标区域覆盖度均较高，panel和评分模块可以根据需求灵活调整，用于胰腺导管癌病人综合状态评估，并辅助临床决策包括但不限于手术方案、辅助化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。Panel 和评分模块的灵活调整示例如下，选取43个基因，包括AKT1、BRCA2、ERBB2、 IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、 AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、 STK11、TP53、TSC1、TSC2、SMARCB1、SMAD4等组成一个小panel并保留相关的状态评分模型，即可形成一个胰腺导管癌病例手术和辅助化疗方案状态评估流程。以上思路，同样适用于胰腺导管癌预后和免疫抑制剂治疗方案等状态评估流程的单独提取构建，缩小panel，降低检测成本。

本发明提出了一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法在泛肿瘤靶向药敏感性状态评估中的应用，包括以下步骤：

步骤16.1)获取泛肿瘤癌病例信息，包括高通量测序数据和临床信息，根据泛肿瘤病例状态分类并进行配对整理，并确定挖掘模式；

步骤16.2)构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合；

步骤16.3)筛选泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的临床信息及检验和病理指标；参考泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系和步骤16.2所得泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合，整合优化为泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关多元标志物组合，用于构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评分模型，并开发封装为泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评分计算系统；

步骤16.4)基于步骤16.2所得泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合，设计泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估的靶基因目标区域相关探针和/或引物，用作泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估基因检测panel。

步骤16.5)构建一套泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性综合状态评估基因检测panel和综合状态评分计算系统联用流程，使得用户根据需求依此流程可以完成检测、信息输入、计算评估和结果获取。

具体地，步骤16.1中，对泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息进行分类整理：

步骤16.1.1)将所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息分为转录组数据、外显子组/基因组数据和临床信息；

步骤16.1.2)将所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息按照疾病状态分类并进行配对整理。

具体地，步骤16.2中，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性标志物组合，使用基于贪婪算法的逐次迭代和/或基于遗传算法的进化迭代进行组合优化筛选：

若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息仅涉及转录组数据与临床信息，则执行步骤16.2.1)基于转录组数据与临床信息进行标志物挖掘，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合；

若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息仅涉及外显子组/ 基因组数据与临床信息，则执行步骤16.2.2)基于外显子组/基因组数据与临床信息进行标志物挖掘，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合；

若所述泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性病例信息同时包含转录组数据、外显子组/基因组数据与临床信息，则执行步骤16.2.3)基于转录组数据、外显子组/基因组数据与临床信息进行标志物挖掘，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系和基因变异标志物组合。

具体地，所述步骤16.2.1)具体包括以下子步骤：

步骤16.2.1.1)构建参考基因调控网络；

步骤16.2.1.2)基于特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系，构建条件特异的基因调控网络；

步骤16.2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异；

步骤16.2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系；

步骤16.2.1.5)基于步骤16.2.1.4)得到的基因异常调控关系，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因异常调控关系标志物组合。

具体地，步骤16.2.1.2)中，采用基于机器学习的特征选择算法，包括Boruta、

Bayes、NMF、单变量线性回归，并通过异构计算或并行化方法实现加速，筛选在疾病状态下对TF-target关系贡献显著的TFs，形成条件特异，即特定疾病状态的基因调控网络。

具体地，步骤16.2.1.3)中，采用多元线性回归模型量化条件特异基因调控网络中的基因调控强度；

具体地，步骤16.2.1.4)中，整合三方面与基因调控相关的因素，筛选不同疾病状态下的条件特异基因调控网络之间的基因异常调控关系，包括：基因调控强度显著变化、调控目标基因表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致；同时，根据调控强度在不同疾病状态间的差异程度，对筛选到的基因异常调控关系进行排序。

具体地，步骤16.2.1.5)中以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

具体地，所述步骤16.2.2)具体包括以下子步骤：

步骤16.2.2.1)识别与泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关的基因变异；

步骤16.2.2.2)采用数据驱动和/或先验知识驱动定量筛选泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性状态相关的重要基因变异；

步骤16.2.2.3)基于步骤16.2.2.2)得到的泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性状态相关的重要基因变异，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合。

具体地，步骤16.2.2.2)中，数据定量过滤筛选，涉及体细胞基因变异频率计算、排序，以及高频变异基因识别，其中基因变异频率≥5％的基因进一步用于先验知识过滤；先验知识过滤筛选，包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因。

具体地，步骤16.2.2.3)中，以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建泛肿瘤靶向药敏感性泛肿瘤靶向药敏感性相关基因变异标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

具体地，所述步骤16.2.3)具体包括以下子步骤：

步骤16.2.3.1)对于同时具备转录组数据和外显子组/基因组数据的泛肿瘤靶向药敏感性数据集，利用步骤16.2.1.1～16.2.1.4筛选疾病状态相关的基因异常调控关系，同时利用步骤16.2.2.1～16.2.2.2挖掘疾病状态相关的重要基因变异，分别得到泛肿瘤靶向药敏感性相关的基因异常调控关系和重要基因变异；

步骤16.2.3.2)随后采纳步骤16.2.1.5和步骤16.2.2.3中，基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代，整合RNA和DNA信息，构建泛肿瘤靶向药敏感性相关的基因异常调控关系和基因变异标志物组合。

具体地，所述步骤16.3中，筛选泛肿瘤靶向药敏感性相关的临床信息及检验和病理指标包括以下步骤：

步骤16.3.1)针对已知先验知识，筛选泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标；

步骤16.3.2)从泛肿瘤靶向药敏感性队列中病例信息出发，筛选泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标。

具体地，所述步骤16.3中，泛肿瘤靶向药敏感性相关基因异常调控关系通过以下方法得到：

将得到的泛肿瘤靶向药敏感性相关基因异常调控关系和/或基因变异标志物组合，同步骤16.3.1和16.3.2筛选所得泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标整合，优化为泛肿瘤靶向药敏感性多元标志物组合。

具体地，所述步骤16.4中，基因检测panel设计包括以下步骤：

步骤16.4.1)基于筛选得到泛肿瘤靶向药敏感性相关基因异常调控关系和/ 或基因变异标志物组合，并最终纳入泛肿瘤靶向药敏感性综合状态评分方法的基因集，梳理基因集中基因相关信息，去除冗余，确定标准基因名；

步骤16.4.2)针对步骤16.4.1)中梳理后的基因，选择用于泛肿瘤靶向药敏感性检测设计的靶基因目标区域，可用于探针设计或引物设计；

步骤16.4.3)根据步骤16.4.2)中的靶基因目标区域，设计相应的探针和/ 或引物序列，并记录重要注释；

步骤16.4.4)针对步骤16.4.2)中的靶基因目标区域，参考人类基因组中可设计探针和/或引物数据集，对靶基因目标区域进行优化设计，使探针和/或引物能均匀捕获覆盖目标区域；

步骤16.4.5)将步骤16.4.3和16.4.4中的靶基因目标区域相关探针和/或引物设计区域进行比对，获取具有最优覆盖度的靶基因目标区域相关探针和/或引物设计方案；

步骤16.4.6)基于步骤16.4.5设计的靶基因目标区域相关探针和/或引物，制作出用于充分进行泛肿瘤靶向药敏感性状态评估的基因检测panel。

具体地，步骤16.5中，所述联用流程包括以下步骤：

步骤16.5.1)基于本发明所述方法设计的基因检测panel，得到泛肿瘤靶向药敏感性相关基因异常调控关系和/或基因变异标志物组合的定量值，输入泛肿瘤靶向药敏感性综合状态评分计算系统；

步骤16.5.2)将获取的泛肿瘤靶向药敏感性状态相关的临床信息及检验和病理指标的定量值，输入泛肿瘤靶向药敏感性综合状态评分计算系统；

步骤16.5.3)将步骤16.5.1)和16.5.2)所涉及的硬件、软件和/或在线工具，组合为一套配套联用的流程，使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。

具体地，步骤16.2中泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合，特别适用于TGFbeta通路、MAPK通路和PI3K通路相关的11种靶向用药治疗方案，包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719+ cetuximab+encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、 cetuximab+encorafenib、CLR457、encorafenib，具体基因集包括以下24个基因：AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、 KLF6、SMAD3、KLF11。同时，对于胃肠道肿瘤TGFbeta通路相关靶向用药，BMPR2、MYC、TFDP2、TGIF2等四个基因可以作为一个基因异常调控关系标志物组合。

具体地，步骤16.3中泛肿瘤靶向药敏感性多元标志物组合构建方法，利用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代，进行多元标志物组合优化，通过机器学习分类算法，决策树、随机森林、SVM均可采用，构建泛肿瘤靶向药敏感性综合状态评分模型，并开发封装为泛肿瘤靶向药敏感性综合状态评分计算系统，用于泛肿瘤病例靶向用药效果预测。

具体地，步骤16.3中泛肿瘤病人靶向用药相关的临床信息及检验和病理指标，主要包括肿瘤病人的年龄、性别、血液生化及免疫检测指标、手术情况(有/ 无)、病理级别(分化程度/TNM分期)、转移和治疗等临床信息，同本发明所述泛肿瘤靶向药敏感性相关基因异常调控关系标志物组合的24个基因，一起组成泛肿瘤靶向药敏感性多元标志物组合，用于泛肿瘤靶向药敏感性治疗效果预测，特别是TGFbeta-MAPK-PI3K三通路靶向用药治疗效果预测，辅助临床决策。具体地，可基于泛肿瘤靶向药敏感性多元标志物组合，构建开发泛肿瘤靶向药敏感性综合状态评分计算系统，用于泛肿瘤病例TGFbeta-MAPK-PI3K三通路相关6种单药治疗方案(包括binimetinib、BKM120、BYL719、cetuximab、CLR457和encorafenib)和5种联合治疗方案(包括BYL719+cetuximab、BYL719+cetuximab+ encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab+encorafenib) 的治疗受益情况预测，辅助临床决策。

具体地，步骤16.4中设计的泛肿瘤靶向药敏感性状态评估的24个靶基因目标区域相关探针和/或引物，对靶基因目标区域覆盖度不低于95％，对其中重要基因变异位点的覆盖度不低于97％。

本发明泛肿瘤靶向用药方案状态评估方法及应用，步骤16.1所述数据收集整理，充分涵盖已公开泛肿瘤用药数据集，充分利用病人队列和动物实验数据，包括但不限于TCGA、GEO、NIBR PDXE等。

本发明泛肿瘤靶向用药方案状态评估方法及应用，步骤16.2所述方法，整合三方面与基因调控相关的因素，筛选泛肿瘤辅助用药专属cGRN之间的基因异常调控关系，包括：TF-target调控强度显著变化、target表达水平显著变化以及TF对target的调控强度变化方向与target表达水平变化方向一致。同时，可根据调控强度的差异程度，对筛选到的基因异常调控关系进行排序；并基于对收集到的所有用药方案(包括但不限于靶向药单用、靶向药联合用药等)效果预测能力，挖掘转录组相关标志物及组合，且该标志物组合具有准确可靠，机制可解释性强的特点。同时综合采用数据驱动和先验知识驱动的定量筛选策略，并在标志物组合优化阶段，根据需要，灵活采用基于贪婪算法的逐次增加迭代或基于遗传算法的进化迭代，提升效果。

本发明泛肿瘤靶向用药方案状态评估方法及应用，步骤16.3所述方法，可以实现基于生物通路的泛肿瘤靶向药治疗方案效果评估基因集构建，并可实现对泛肿瘤病人的辅助用药治疗综合状态评分，且该评分同泛肿瘤靶向药治疗效果密切相关。此处富集到了TGFbeta通路、MAPK通路和PI3K通路的11种靶向用药治疗方案，包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719 +cetuximab+encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、 cetuximab+encorafenib、CLR457、encorafenib，该评估模型所用基因集，包括24个基因，即包括，AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、 E2F4、SMAD1、KLF6、SMAD3、KLF11等。

本发明泛肿瘤靶向用药方案状态评估方法及应用，步骤16.4和16.5所述 panel设计及评估系统联用流程，可实现探针设计捕获效率和目标区域覆盖度均较高，panel和评分模块可以根据需求灵活调整，实现对泛肿瘤病人辅助用药治疗综合状态评分，有效辅助临床决策，提升治疗效果。Panel和评分模块的灵活调整示例如下，BMPR2、MYC、TFDP2、TGIF2等4个基因组成的小panel，可以用 PCR检测表达量，配合相应评分模型，用于对胃肠道相关肿瘤Cetuximab治疗状态评估。以上思路也适用于，针对其它肿瘤类型和用药方案，定制化单独提取特征基因和临床信息，缩小panel，降低检测成本。

本发明的有益效果包括通过基于转录组表达数据，构建条件特异的基因调控网络，能够识别基因异常调控关系；且包含不止一种识别策略；能够由基因异常调控关系构建标志物；且此构建过程包括两种筛选策略，即基于贪婪算法的逐次增加迭代和基于遗传算法的进化迭代，最终构建准确性与机制解释性兼顾的标志物可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等。

本发明的有益效果也包括通过识别复杂疾病相关重要基因变异；且具备不同识别策略，如数据驱动的定量筛选和知识库过滤筛选及其联用；能够由复杂疾病相关DNA层面重要变异基因构建标志物；且此构建过程包括两种筛选策略，即基于贪婪算法的逐次增加迭代和基于遗传算法的进化迭代，最终构建的标志物可用于复杂疾病预后评估、治疗效果预测及治疗方案辅助决策等；且可实现RNA数据和DNA数据的整合利用，方法灵活多样，标志物组合系统，准确性与机制解释性兼备。

本发明的有益效果还包括可利用丰富的技术手段，充分整合高通量测序数据、临床信息和知识库来源的多元信息构建综合评分系统；且包括临床及药物指南和公开文献的系统挖掘检索，临床信息的有效利用，综合评分计算系统构建等策略及功能；同时提供了综合评分计算系统配套的基因检测panel设计方案；且包括基因探针目标区域设计，探针覆盖度设计，基于覆盖度的质量控制；并提出了基因检测panel同综合评分系统的联用流程，且包括综合状态评估模型功能，输入输出功能及可能构思，组合联用形式及可能构思。

本发明的有益效果亦包括提出了一种结直肠肿瘤状态评估模型构建及panel 设计方案；包括充分利用多元信息，含DNA、RNA测序及临床信息等，通过较少的基因和实用可靠的检测评估手段；且实现结直肠肿瘤病例综合状态评估，包括病例预后计算评估，化疗、靶向和免疫治疗等方案治疗效果预测；并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。

本发明的有益效果亦包括提出了一种胰腺导管癌状态评估模型构建及panel 设计方案，充分利用多元信息，含DNA、RNA测序及临床信息等，通过较少的基因和实用可靠的检测评估手段；且实现胰腺导管癌综合状态评估，包括病例预后计算评估，手术、化疗和免疫及潜在靶向治疗等方案治疗效果预测；并可辅助临床决策包括但不限于辅助手术方案和化疗方案选择、免疫疗法参考、预后状态评估等。

本发明的有益效果亦包括提出了泛肿瘤辅助用药标志物挖掘及评估模型构建和panel设计方案；且可最终用于TGFbeta通路、MAPK通路和PI3K通路靶向用药方案状态评估，包括11种治疗方案，含单药和联合治疗；且可用于包括结直肠肿瘤、肝癌、肺癌等多种肿瘤的TGFbeta-MAPK-PI3K通路相关靶向治疗方案的辅助决策。

附图说明

附图1为基于高通量测序数据和临床表型构建复杂疾病状态评估模型方法流程框架示意图。

附图2为基因检测panel设计流程图。

附图3为复杂疾病状态评估基因检测panel同综合状态评分计算系统的联用流程图。

附图4为4-DysReg与其他预后标志物之间的准确性比较。

附图5为结直肠肿瘤综合状态评估流程应用示意图。

附图6为胰腺导管癌候选标志物效果展示。

附图7为胰腺导管癌综合状态评估流程应用示意图。

附图8为DysReg识别的异常调控关系的预后效应。

附图9为基因异常调控关系对泛肿瘤药敏结果的预测能力。

附图10为BMPR2/MYC/TFDP2/TGIF2等TGFbeta通路基因在CRC PDX和 GSE5851数据集对Cetuximab的药敏预测结果。

附图11为泛肿瘤靶向药敏感性综合状态评估流程应用示意图。

附表1为18种治疗药物的信息及其异常调控关系识别情况。

具体实施方式

以下结合实施例和附图进一步阐述本发明。应理解，这些实施例仅用于说明本发明，而非限制本发明的范围。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书及等同内容为保护范围。

实施例1

实施例1本发明应用于结直肠肿瘤状态评估模型构建及panel设计的全过程，结合具体实施例对本发明做进一步详细说明，应理解，以下实施例仅用于说明本发明而非用于限定本发明的范围。其具体步骤如下：

S1.1结直肠肿瘤测序数据和临床表型信息的获取与整理

TCGA-CRC的mRNA数据和临床数据从UCSC xena数据库下载。380个原位肿瘤样本和51个癌旁样本被挑选出来。mRNA数据的表达水平以TPM量化。当TPM 的值小于1时，看作是缺失值。对于一个基因，如果缺失值的数量大于样本量的 20％，就把该基因去除。剩下的缺失值用K最小近邻法(k-Nearest Neighbor，kNN) 进行填充，并做log2转化。在这些样本中，32对配对的肿瘤样本和癌旁样本用于做基因异常调控分析。包括完整的总生存时间(overallsurvival，OS)、无进展生存期(recurrent free survival，RFS)、年龄、性别、病理级别的350个原位肿瘤样本用于后续标志物挖掘。

GSE39582和GSE17538两CRC数据集的表达谱数据和临床数据从 GEO(http://www.ncbi.nlm.nih.gov/geo/)下载。GSE39582包含566个肿瘤样本和19个正常的样本，GSE17538包含238肿瘤样本，这两个数据集都基于GPL570 表达谱芯片平台。对于一个探针能够映射多个基因的情况，将相应的探针从数据集中去除；对于多个探针映射到一个基因的情况，用每个样本中的相应的多个探针的最大值作为该基因在每个样本中的表达值。缺失值的处理方式与TCGA-CRC 中缺失值的处理方式一致。最后利用分位数方法做样本间的标准化，并做log2 转化。GSE39582数据集中有563个样本拥有完整的如上所述的临床信息，GSE17538数据集中有200个样本拥完整的临床信息，这些样本用于后续标志物挖掘。

TCGA-CRC的体细胞突变数据(somatic mutation)和拷贝数变异(CNV)，也由 UCSCxena数据库下载，其中体细胞突变数据来自VarScan2识别，拷贝数变异以log2(copy-number/2)为单位，病例选择同转录组数据取交集，共得到包括完整的总生存时间(overallsurvival，OS)、无进展生存期(recurrent free survival，RFS)、年龄、性别、病理级别的350个原位肿瘤样本用于后续标志物挖掘。

因为本实施例同时包括转录组数据、DNA测序数据与临床信息，因此执行步骤2.3，分别挖掘转录组和DNA变异标志物。

S1.2基于结直肠肿瘤转录组中的基因异常调控关系挖掘生物标志物

S1.2.1构建结直肠肿瘤基因调控网络并识别基因异常调控关系

基于步骤S1中整理到的TCGA-CRC数据集中，32对配对的肿瘤样本和癌旁样本，参考步骤2.1.1-2.1.4，利用Boruta算法分别构建正常条件和癌症条件的GRN，正常条件下的GRN有30186个调控关系，癌症条件下的GRN有15665个调控关系。利用de-biased LASSO方法对调控关系的调控强度进行度量，并获得调控强度的95％置信区间。随后，根据调控强度差异显著、靶基因表达水平差异显著、调控强度变化方向与靶基因表达水平变化方向一致三个因素筛选异常调控关系，最终筛选出389个基因异常调控关系。

S1.2.2由识别到的基因异常调控关系构建标志物

此处采用步骤2.1.5中基于贪婪算法的逐次增加迭代方法，筛选最优标志物组合。具体步骤如下：

首先，在TCGA-CRC数据集中，对每个异常调控关系结合临床数据(包括年龄、性别、病理级别)对OS拟合cox模型，并用C-Index量化模型对预后的准确性。其中，异常调控关系RUNX3-GPR15对应的模型的C-Index最大，达到0.763，遂用作迭代起始。

其次，根据步骤2.1.5所述基于贪婪算法的逐次增加迭代方法，一个包括4 个异常调控关系的预后标志物(4-DysReg)，即RUNX3-GPR15、RUNX3-P2RY8、 SNAI3-TLR7、ATOH1-SIGLEC1作为最优组合。

再次，基于4个异常调控关系(4-DysReg)中的7个基因的表达数据，结合 TCGA-CRC数据集的年龄、性别、病理分期临床信息，我们在TCGA-CRC数据集上建立了OS cox模型。该模型的C-Index为0.79(SE＝0.038)。

最后，在TCGA-CRC和GSE39582数据集上，将4-DysReg的预测效果同已报道的CRC标志物如RUNX3、ColoPrint(包含18个基因)、ColoGuideEx(包含13 个基因)、ColoGuidePro(包含7个基因)、ColoFinder(包含9个基因)、一个 7-gene标志物、和一个4-gene标志物等进行比较，结果表明4-DysReg对预后具有更为稳定良好的预测能力。见附图4，4-DysReg与其他预后标志物之间的准确性比较。

S1.2.3结直肠肿瘤辅助化疗状态评估标志物挖掘及模型构建

辅助化疗(Adjuvant chemotherapy，ADJC)在治疗CRC患者的过程中被广泛采用。ADJC的指导原则建立在病理级别上。III期和IV期CRC患者常规治疗接受ADJC治疗；具有高复发风险的二期CRC患者也考虑接受ADJC。相对目前以经验为主的半定量ADJC指导方案，亟需一套ADJC相关肿瘤状态评估方案。

利用GSE39582中321个没有接受ADJC的样本作为训练集，以这4-DysReg 中的7个基因作为自变量拟合一个OS cox模型，利用该模型计算232个接受ADJC 的样本的风险评分。结果显示，风险评分为负的样本具有更好的预后(HR＝0.432， 95％CI：0.269～0.693)。

4-DysReg对特定化疗类型疗效的预测能力，包括5-FU和联合ADJC(包括 FOLFIRI、FOLFOX和FUFOL)。结果显示，风险评分为负的样本在联合ADJC(n＝84， HR＝0.380；95％CI:0.178～0.813)和5-FU(n＝79，HR＝0.437，95％CI： 0.181～1.055)中都有更好的预后。利用timeROC评估标志物对联合ADJC预测的准确性，3年和5年总生存期的AUC分别达到0.71和0.74，高于病理分期模型的AUC 0.65和0.69。这些结果表明，该项研究构建的标志物4-DysReg对ADJC 的治疗效果具有预测能力，不仅对单独的5-FU或联合ADJC具有预测能力，而且对所有类型的ADJC的整体结果也有预测能力。

S1.3基于结直肠肿瘤DNA测序数据中的基因变异挖掘生物标志物

S1.3.1利用步骤2.2.2疾病状态相关DNA变异的定量化及筛选(如基因拷贝数与体细胞突变，SNP、Indel、CNV、Fusion等)所述方法，基于TCGA-CRC数据集筛选高频变异基因，并经过“预后”AND“结直肠癌”AND“药物”等关键词组合的知识库(PharmGKB、NCCN、CSCO、FDA、NMPA、EMA、NCBI Pubmed)过滤，得到581个候选标志物基因。

S1.3.2采用步骤2.2.3所述基于遗传算法的进化迭代方法，筛选到包括45 个基因及其变异的标志物组合，具体基因集包括：KRAS、NRAS、BRAF、HER2、KIT、 PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1；PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、 LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、 CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、 IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。

S1.3.3对以上DNA层面生物标志物组合，在TCGA-CRC数据集进行检验，利用timeROC评估该组合的准确性，1年、3年和5年的生存期预测准确率(AUC) 分别达到0.87、0.83和0.80。采用风险评分的中位数将样本分为高、低两组做 KM分析，结果显示低评分组患者预后更好(p-value＝4.52e-8)。同时，在CPTAC-2 colon cancer(110例)、ICGC的COAD-US(402例)和COAD-CN(321例)数据集上进行生存期预测，基因组合准确率AUC达到0.81.

S1.4结直肠肿瘤综合状态评估基因集及评分系统开发

S1.4.1确定4-DysReg中7个基因和筛选到的45个结直肠癌重要变异基因，共计53个基因，作为结直肠肿瘤综合状态评估基因集。

S1.4.2综合纳入结直肠癌病人的年龄、性别、手术情况(有/无)、病理级别 (I-IV)和微卫星不稳定(MSI)等作为结直肠肿瘤综合状态评分系统的输入信息。

S1.4.3根据步骤3.3多元信息的充分整合构建综合评分系统中所述方法，采用随机森林与权重投票器的机器学习方案，以python语言开发了结直肠肿瘤综合状态评分系统的原型。

S1.4.4该系统可以输出结直肠癌病人的综合状态评分，该评分同其预后和治疗手段(化疗、靶向、免疫抑制剂)等效果有一定相关性，可以提供参考指导。

对该评分系统解析可以发现，所有输入特征均对生存预后有所贡献；但对治疗手段效果预测的权重有所不同，其中RUNX3、GPR15、P2RY8、SNAI3、TLR7、 ATOH1、SIGLEC1的贡献集中在化疗方案效果预测，KRAS、NRAS、BRAF、HER2、 KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1的贡献侧重于靶向治疗方案效果预测，而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、 PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、 STK11、HLA-DQA1、HLA-DRB1、HLA-E侧重于结直肠肿瘤免疫浸润与免疫细胞毒性状态评估，对免疫抑制剂治疗方案效果预测贡献较大；手术情况(有/无)、病理级别(I-IV)和微卫星不稳定(MSI)等信息对于预后和治疗效果预测均有贡献。

S1.5结直肠肿瘤检测panel设计与评估系统构建

S1.5.1梳理上述53个基因的检测信息(如RNA表达值，拷贝数CNV，基因变异包括SNP、Indel、Fusion等)，然后通过NCBI office name或HGNC approved Official Symbol系统确定标准基因名。

S1.5.2参考步骤4基因检测panel设计方法，完成结直肠肿瘤检测panel 的设计，并根据PCR或高通量测序平台做相应优化，比如RUNX3、GPR15、P2RY8、 SNAI3、TLR7、ATOH1、SIGLEC1等7个基因组成的小panel即DysReg4，可以用 PCR检测表达量；所有53个基因，可以利用panel设计捕获相关序列，利用高通量测序技术进行检测。捕获效率一般在30％～60％之间，全部基因目标区域覆盖度不低于95％，因此可认定探针设计合格。

S1.5.3根据panel检测数值和病例临床信息输入方式，对结直肠肿瘤综合状态评分系统进行优化，比如小panel即DysReg4，就可以仅保留该panel相关的功能模块，删掉45个变异基因的相关特征及预测功能模块。相应基因检测panel 和该软件系统中对应功能模块，可以组合为一套配套联用流程，包括但不限于试剂盒/软件，检测装置/数据处理一体机，试剂盒/检测装置/数据在线分析平台等形式，用于结直肠肿瘤病人综合状态评估，并辅助临床决策包括但不限于辅助手术方案、化疗方案和靶向治疗方案选择、免疫疗法参考、预后状态评估等。

实施例2

实施例2本发明应用于胰腺导管癌状态评估模型构建及panel设计的全过程，结合具体实施例对本发明做进一步详细说明，应理解，以下实施例仅用于说明本发明而非用于限定本发明的范围。具体步骤如下：

S2.1胰腺导管癌测序数据和临床表型信息的获取与整理

S2.1.1自主获得了71例胰腺导管癌临床病例的测序数据(外显子测序和 RNA-Seq)和临床表型信息(包括年龄、性别、病理级别、手术情况R0-R2、PDX 建模情况、生存情况含OS和DFS)；其中39例成功建立PDX模型，并在此基础上获得了2种一线化疗药物治疗方案的标准药效数据，包括吉西他滨 (gemcitabine)和伊立替康(irinotecan)。

S2.1.2来自ICGC的194例胰腺导管癌病例(PACA-AU和PACA-CA)和来自TCGA 的148例胰腺导管癌病例(TCGA-PDAC)，包括其测序数据(外显子测序和RNA-Seq) 和临床表型(包括年龄、性别、病理级别、无病生存期即DFS)。

本实施例同时包括转录组数据、DNA测序数据与临床信息，因此执行步骤2.3，分别挖掘转录组和DNA变异标志物。

S2.2胰腺导管癌预后生存预测标志物挖掘

S2.2.1参考步骤2.2整合DNA测序数据与临床信息挖掘预后生存标志物。采用基于贪婪算法的逐次增加迭代的方法，发现KRAS/TP53/CDKN2A/SMAD4的突变和病例整体拷贝数变异(后续范围缩小至43个基因)，在ICGC、TCGA和自主建立的胰腺导管癌数据集上同病例预后生存情况密切相关，其中拷贝数变异的相关性也在转录组层面得到了进一步验证，以上指标的C-index均大于0.65。这43 个基因包括AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、 BRCA1、EGFR、MAP2K1、SMARCA4、STK11、TP53、TSC1、TSC2、SMARCB1、SMAD4。

S2.2.2可发现预测最为有效的组合是KRAS/TP53/CDKN2A突变加43个基因拷贝数。43个基因拷贝数变异<2评分记为0，拷贝数变异>2则评分记为1； KRAS/TP53/CDKN2A无突变和拷贝数变异评分记为0，存在突变或拷贝数变异则记为1；据此将胰腺导管病例，分为低风险(0)，中风险(1～2)，高风险(3～4)三类。在194例ICGC胰腺导管癌数据中低风险，中风险和高风险对应的DFS中位值分别为608天，370天和252天，log-rank p-value<0.001；在148例TCGA胰腺导管癌病例中低风险，中风险和高风险对应的DFS中位值分别为28.6个月，13.7个月和12.9个月，log-rank p-value＝0.01。可见附图6胰腺导管癌候选标志物效果展示。

S2.2.3参考步骤3.2可以发现PDX建模情况同预后生存密切相关，可以纳入综合状态评估特征。PDX建模成功的病例，其总生存期OS(log-rank p-value<0.001)和无病生存期DFS(log-rank p-value＝0.001)均短于PDX建模未成功病例。

S2.2.4采用步骤2.2.2中知识库过滤筛选思路，经过“预后”AND“胰腺导管癌”AND(“药物”OR“手术”OR“免疫”)等关键词组合的知识库(PharmGKB、 NCCN、CSCO、FDA、NMPA、EMA、NCBI Pubmed)过滤得到候选标志物基因，采用步骤2.2.3所述基于遗传算法的进化迭代构建方法，筛选到包括45个基因及其变异的预后标志物组合，具体基因集包括：KRAS、NRAS、BRAF、HER2、KIT、PDGFRA、 SDHA、SDHB、SDHC、SDHD、NF1；PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、 IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、 CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、 IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。

S2.3胰腺导管癌治疗效果预测标志物挖掘

S2.3.1在自主建立的胰腺导管癌数据集71个病例上，发现 KRAS/TP53/CDKN2A突变加86个基因拷贝数的风险评分，同手术范式(R0\R1\R2) 的预后效果密切相关。86个基因拷贝数变异<4评分记为0，拷贝数变异>4则评分记为1；KRAS/TP53/CDKN2A无突变和拷贝数变异评分记为0，存在突变或拷贝数变异则记为1；据此将胰腺导管病例，分为低风险(0)，中风险(1～2)，高风险 (3～4)三类。具体情况如下：低风险(得分为0)病例R0范式后的DFS中位值大于 20个月，R1和R2范式后的DFS中位值不足10个月；中风险(得分为1～2)病例 R0范式后的DFS中位值接近20个月，R1和R2范式后的DFS中位值约10个月；高风险(得分为3～4)病例R0/R1/R2三种手术范式的DFS并无区别，均在10个月左右。可见附图7胰腺导管癌候选标志物效果展示。

S2.3.2在自主建立的胰腺导管癌数据集71个病例的一线化疗药物治疗方案的标准药效数据预测，包括吉西他滨(gemcitabine)和伊立替康(irinotecan)，结果显示，86个基因拷贝数变异越高的病例对吉西他宾更为敏感，基本阈值约为4，即拷贝数大于4的病例，更易从化疗特别是吉西他滨方案中受益。

最后，综上所述以上86个基因可以用于胰腺导管癌化疗前状态评估，为手术和用药方案提供参考。可见附图6胰腺导管癌候选标志物效果展示。

S2.4胰腺导管癌综合状态评估基因集及评分系统开发

S2.4.1将86个基因的拷贝数和突变情况，纳入胰腺导管癌的综合状态评估基因集，具体包括AKT1、BRCA2、ERBB2、IDH1、MAP2K2、MTOR、PMS1、APC、CDKN2A、 FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、FGFR2、FGFR3、KIT、MLH1、 NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、PIK3CA、PIK3R1、RET、ROS1、 BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、TSC2、SMARCB1、SMAD4、BRAF、 HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、NF1；PD1、PDL1、PDL2、CTLA4、 TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、CXCL8、CXCL9、CXCL10、TGFB1、 SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、PRF1、CCL5、CD27、CD274、CMKLR1、 CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、HLA-DQA1、HLA-DRB1、HLA-E。

S2.4.2将胰腺导管癌病人的年龄、性别、病理级别、血液生化及免疫指标(如CA199血清浓度等)、手术情况R0-R2、PDX建模情况作为补充临床信息，纳入胰腺导管癌综合状态评分系统的信息输入范围。

S2.4.3根据步骤3.3多元信息的充分整合构建综合评分系统中所述方法，采用评分分类的机器学习方案，以python语言开发了胰腺导管癌综合状态评分系统的原型。

S2.4.4该系统可以输出胰腺导管癌病人的综合状态评分，该评分同其预后和治疗手段(手术、化疗、免疫抑制剂)等效果有一定相关性，可以提供参考指导。

对该评分系统解析可以发现，所有输入特征均对生存预后有所贡献；但对治疗手段效果预测的权重有所不同，其中KRAS/TP53/CDKN2A及基因拷贝数变异的贡献集中在手术方案效果预测，基因拷贝数变异的贡献侧重于化疗方案效果预测，而PD1、PDL1、PDL2、CTLA4、TIGIT、TIM3、LAG3、IFNG、CCL2、GZMA、PRF1、 CXCL8、CXCL9、CXCL10、TGFB1、SOX10、SERPINB9、CD8A、CD8B、GZMA、GZMB、 PRF1、CCL5、CD27、CD274、CMKLR1、CXCR6、NKG7、IDO1、PSMB10、STAT1、STK11、 HLA-DQA1、HLA-DRB1、HLA-E侧重于胰腺导管癌病人的免疫浸润与免疫细胞毒性状态评估，对免疫抑制剂治疗方案效果预测贡献较大；另外，对于部分处于临床试验中的可能用于胰腺导管癌治疗的靶向药，AKT1、BRCA2、ERBB2、IDH1、MAP2K2、 MTOR、PMS1、APC、CDKN2A、FBXW7、JAK2、MET、NRAS、PMS2、AR、CFTR、FGFR1、 FGFR2、FGFR3、KIT、MLH1、NTRK1、PTEN、BRAF、CTNNB1、KRAS、MSH2、MSH6、 PIK3CA、PIK3R1、RET、ROS1、BRCA1、EGFR、MAP2K1、SMARCA4、TP53、TSC1、 TSC2、SMARCB1、SMAD4、BRAF、HER2、KIT、PDGFRA、SDHA、SDHB、SDHC、SDHD、 NF1、STK11的突变情况可以提供有价值的参考。

以上系统框架，可见图7胰腺导管癌综合状态评估模型框架示意图。

S2.5胰腺导管癌检测panel设计与评估系统构建

S2.5.1梳理上述86个基因的检测信息(如RNA表达值，拷贝数CNV，基因变异包括SNP、Indel、Fusion等)，然后通过NCBI office name或HGNC approved Official Symbol系统确定标准基因名。以上86个基因，如果明确具体变异位置，则根据已明确的基因位点覆盖区域来选择目标区域；对于位置较集中或密集的基因区域，则选择外显子作为目标区域；对于与复杂疾病状态评估高度相关且信息非常多样的重要基因，在前两项设计不适用的情况下，则选择全部可变剪切类型的区域作为目标区域。

S2.5.1参考步骤4基因检测panel设计方法，完成胰腺癌导管癌检测panel 的设计，并根据具体采用的高通量测序平台做相应优化，使得理论探针覆盖深度比较均匀，且全部基因覆盖度≥90％、重要位点覆盖度≥99％；在探针两端添加固定的扩增序列，合成DNA单链，PCR扩增，转录成RNA探针，添加生物素标记，合成后得到用于胰腺导管癌综合状态评估的基因检测panel。合成后的panel探针，通过测序测试发现捕获效率大约在50％，全部基因目标区域覆盖度不低于 95％，因此可认定探针设计合格。

S2.5.3根据panel检测数值和病例临床信息输入方式，对胰腺导管癌综合状态评分系统进行优化后，包括信息输入、状态评分、参考建议与报告输出等功能模块，并将以上功能模块打包封装在一个软件系统之内，设置判断参数方便配套 panel供用户使用。未来86个基因检测panel和该软件系统，可以组合为一套配套联用流程，包括但不限于试剂盒/软件，检测装置/数据处理一体机，试剂盒 /检测装置/数据在线分析平台等形式，用于胰腺导管癌综合状态评估，并辅助临床决策包括但不限于辅助手术方案和化疗方案选择、免疫疗法参考、预后状态评估等。

实施例3

本发明应用于泛肿瘤预后标志物挖掘，结合具体实施例对本发明做进一步详细说明，应理解，以下实施例仅用于说明本发明而非用于限定本发明的范围。具体步骤如下：

S3.1泛肿瘤测序和临床表型数据集收集

TCGA pan-cancer的mRNA数据和临床数据从UCSC xena下载。mRNA数据来源于TOILRNA-seq分析流程产生的数据，基因的表达水平以TPM量化。对于每一种癌症类型，选出原位肿瘤样本和癌旁样本。原位肿瘤样本和癌旁样本的配对数量大于或约等于20的癌症类型被选出来用作异常调控分析，最终选出14种癌症类型。对于每一种癌症类型的mRNA数据，TPM值小于1的时候作为缺失值，当缺失值的数量大于样本量20％的时候，去除该基因。剩下的缺失值用kNN方法填充。最后，对表达谱数据做log2转化，用作后续标志物挖掘。

S3.2基于转录组和临床表型挖掘预后状态评估生物标志物

S3.2.1对于TCGA pan-cancer数据集，依据步骤2.1转录组数据与临床信息挖掘，利用Boruta算法分别构建正常条件和癌症条件的GRN，用de-biased LASSO 方法对每个调控关系的调节强度及其置信区间进行量化，通过整合调控强度显著改变、target差异表达、TF为target的关键调控因子三个特性来识别基因异常调控关系。

进而，参考步骤2.1.5中的基于遗传算法的进化迭代构建预后状态评估标志物组合，在具体实施过程中使用R survival包 (https://cran.r-project.org/web/packages/survival/)拟合八种cox模型： (1)exp+clin_OS：异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量，以总生存期(overall survival，OS)作为应变量拟合cox模型；(2) exp_OS：异常调控关系的两个基因作为自变量，以OS作为应变量拟合cox模型； (3)exp+clin_DSS：异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量，以疾病特定生存期(disease-specific survival，DSS)作为应变量拟合cox模型；(4)exp_DSS：异常调控关系的两个基因作为自变量，以DSS作为应变量拟合cox模型；(5)exp+clin_DFI：异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量，以无疾病生存期(disease-free interval， DFI)作为应变量拟合cox模型；(6)exp_DFI：异常调控关系的两个基因作为自变量，以DFI作为应变量拟合cox模型；(7)exp+clin_PFI：异常调控关系的两个基因和临床因素年龄、性别、病理级别作为自变量，以无进展生存期 (progress-freeinterval，PFI)作为应变量拟合cox模型；(8)exp_PFI：异常调控关系的两个基因作为自变量，以PFI作为应变量拟合cox模型。对于每个 cox模型，利用C-Index衡量预测精度。类似的实施方案，也用于DiffCor和 DiffCor++识别到的异常调控关系，进一步用于比较本发明所提出方案的优效性。

S3.2.2在四种常见癌症类型LIHC、LUAD、LUSC和STAD中，根据OS、DSS、 DFI、PFI等四种临床表型预后，基于8种COX回归模型的预测效果，经Wilcox 检验显示DysReg识别的异常调控关系对应的C-Index与两种随机对照相比，总体来说有着稳定的效果提升。可见附图8DysReg识别的异常调控关系的预后效应。

S3.2.3在四种常见癌症类型LIHC、LUAD、LUSC和STAD中，根据OS、DSS、 DFI、PFI等四种临床表型预后，基于8种COX回归模型的预测效果，经Wilcox 检验显示DysReg的预后效应预测效果(准确性和稳定性)要优于DiffCor和 DiffCor++。

实施例4

本发明应用于泛肿瘤辅助用药标志物挖掘及评估模型构建和panel设计，结合具体实施例对本发明做进一步详细说明，应理解，以下实施例仅用于说明本发明而非用于限定本发明的范围。具体步骤如下：

S4.1泛肿瘤测序和临床药效表型数据集收集

S4.1.1从诺华的NIBR PDXE数据集中获取CRC PDX模型的RNA-seq数据和药敏反应数据，最终获得了51个同时具有RNA-seq数据和药敏反应数据的样本，其中包括21种不同的药物治疗。RNA-seq数据以FPKM定量基因的表达水平，FPKM 值小于0.1作为缺失值处理。当缺失值大于总样本量的20％时，该基因被删除，剩余缺失数据采用kNN方法进行填补。最后对RNA-seq数据做log2(RNA-seq+1) 转换，用于后续的标志物挖掘。

S4.1.2包含EGFR抑制剂Cetuximab药效的CRC数据集GSE5851从 GEO(https://www.ncbi.nlm.nih.gov/geo/)下载，对于一个探针能够映射多个基因的情况，将相应的探针从数据集中去除；对于多个探针映射到一个基因的情况，用每个样本中的相应的多个探针的最大值作为该基因在每个样本中的表达值。表达值小于1作为缺失值处理，当缺失值大于总样本量的20％时，该基因被删除，剩余缺失数据采用kNN方法进行填补；利用分位数方法做样本间的标准，并做 log2转换后，用于对CRC PDX模型所筛选标志物的验证。Cetuximab药敏级别记录为“complete response”、“partial response”、“stabledisease”(三者归并为响应组)，“progressive disease”(记录为未响应组)，“unable tobe determined”(去除掉此类样本)。

S4.2基于基因异常调控关系挖掘泛肿瘤辅助用药评估生物标志物

S4.2.1对诺华的NIBR PDXE数据集中药物效果划为四个级别，分别是完全缓解(CR)、部分缓解(PR)、疾病稳定(SD)和疾病进展(PD)，CR、PR、SD分为响应组，PD分为无响应组；选出响应组和无响应组均大于10个样本的药物，最终选出18种治疗方案。

S4.2.2参考步骤2.1转录组数据与临床信息挖掘，利用Boruta算法分别构建响应条件和无响应条件的GRN，用de-biased LASSO方法对每个调控关系的调节强度及其置信区间进行量化，通过整合调控强度显著改变、target差异表达、 TF为target的关键调控因子三个特性来识别基因异常调控关系。这18种治疗药物的信息及其异常调控关系情况，见附表118种治疗药物的信息及其异常调控关系识别情况。

S4.2.3参考步骤2.1.5中的基于贪婪算法的逐次增加迭代构建预后状态评估标志物组合，并进行交叉验证，比较依据本发明提出方案识别的异常调控关系对药敏预测的准确性是否显著地高于不同类型随机抽取的两个基因对药敏预测的准确性。在18种治疗中，有13种治疗识别出的异常调控关系对药效预测的准确性都要显著大于四种对照，这些治疗包括binimetinib、BKM120+LJC049、 BYL719、BYL719+cetuximab、BYL719+cetuximab+encorafenib、 BYL719+encorafenib、BYL719+LJM716、cetuximab、CGM097、CLR457、encorafenib、 HDM201、LKA136。结果可见附图9基因异常调控关系对泛肿瘤药敏结果的预测能力。

S4.2.4通过步骤2中的基于贪婪算法的逐次增加迭代，配合异常调控关系对的通路富集分析可以发现，11种用药方案富集到TGFbeta通路、MAPK通路和PI3K 通路，大大提升了标志物的可解释性和循证医学可靠性。这11种用药方案具体包括binimetinib、BKM120、BYL719、BYL719+cetuximab、BYL719+cetuximab +encorafenib、BYL719+encorafenib、BYL719+LJM716、cetuximab、cetuximab +encorafenib、CLR457、encorafenib；利用ROC曲线，计算AUC，获得组合优化后的肿瘤用药状态评估标志物由以下基因组成，包括AXIN1、JUNB、MYC、SMAD5、 SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、NR2C2、PPP1CB、SKIL、SMURF1、 SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、KLF6、SMAD3、KLF11等，以上基因至少对一种用药治疗方案效果预测AUC达到0.7以上。

S4.2.5在GSE5851数据集中验证以上标志物对Cetuximab治疗效果的预测能力，发现BMPR2、MYC、TFDP2、TGIF2等四个基因不仅在NIBR PDXE中CRC PDX 上表现出色，同时在GSE5851数据集对Cetuximab药效预测有着优良表现。以上结果可见附图10BMPR2/MYC/TFDP2/TGIF2等TGFbeta通路基因在CRC PDX和GSE5851数据集对Cetuximab的药敏预测结果。

S4.3 TGFbeta通路、MAPK通路和PI3K通路靶向用药方案状态评估基因集的 panel设计与综合评分系统开发

S4.3.1梳理S4.2.4筛选到的24个基因的检测信息，然后通过NCBI office name或HGNC approved Official Symbol系统确定标准基因名。具体基因集包括，AXIN1、JUNB、MYC、SMAD5、SMAD4、TGIF2、UBB、ATF3、BMPR2、JUND、KLF10、 NR2C2、PPP1CB、SKIL、SMURF1、SP1、TP53、PITX2、TFDP2、E2F4、SMAD1、KLF6、 SMAD3、KLF11等。

S4.3.2参考步骤4基因检测panel设计方法，完成TGFbeta-MAPK-PI3K三通路检测panel的设计，并根据PCR或高通量测序平台做相应优化，比如BMPR2、 MYC、TFDP2、TGIF2等4个基因组成的小panel，可以用PCR检测表达量；所有 24个基因，可以利用panel设计捕获相关序列，利用高通量测序技术进行检测。捕获效率一般在30％～60％之间，全部基因目标区域覆盖度不低于95％，因此可认定探针设计合格。

S4.3.3根据panel检测数值和病例临床信息输入方式，对 TGFbeta-MAPK-PI3K三通路靶向用药综合状态评分系统，采用SVM以python语言进行开发，并根据4基因和24基因分别训练两个模型，打包封装在一个软件系统之内，设置判断参数方便配套panel供用户使用。使得工具使用者可以按说明文档，输入个体病例的必要信息(即panel检测表达值、检验指标和临床信息等)，该软件系统即可利用评估模型完成计算，并输出该待评估个体病例的TGFbeta-MAPK-PI3K三通路靶向用药综合状态评分以及对应的治疗受益预测提示等信息，辅助临床决策，提升治疗效果。

附表1 18种治疗药物的信息及其异常调控关系识别情况

Claims

1.一种基于转录组数据、外显子组数据和临床表型挖掘复杂疾病标志物的方法，其特征在于，包括以下步骤：

步骤1)对复杂疾病病例信息进行分类整理：

步骤1.2)将所述复杂疾病病例信息按照疾病状态分类并进行配对整理；

若所述复杂疾病病例信息仅涉及转录组数据与临床信息，则执行步骤2.1)基于转录组数据与临床信息进行标志物挖掘，构建复杂疾病相关的基因异常调控关系标志物组合；

2.如权利要求1所述的方法，其特征在于，所述步骤2.1)具体包括以下子步骤：

步骤2.1.1)构建参考基因调控网络；

步骤2.1.2)基于特定疾病状态下的转录组数据以及所述参考基因调控网络的TF-target关系，构建条件特异的基因调控网络；

步骤2.1.3)量化条件特异的基因调控网络中的基因调控强度和网络间调控强度差异；

步骤2.1.4)筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系；

步骤2.1.5)基于步骤2.1.4)得到的基因异常调控关系，构建复杂疾病相关的基因异常调控关系标志物组合。

3.如权利要求2所述的方法，其特征在于，步骤2.1.2)中，采用基于机器学习的特征选择算法，包括Boruta、

Bayes、NMF、单变量线性回归，并通过异构计算或并行化方法实现加速，筛选在疾病状态下对TF-target关系贡献显著的TFs，形成条件特异的基因调控网络，即特定疾病状态的基因调控网络；和/或，

步骤2.1.3)中，采用多元线性回归模型量化条件特异的基因调控网络中的基因调控强度；

采用De-biased LASSO方法进行回归，求解得到每一个基因调控关系的调控强度及其置信区间，通过比较不同条件特异的基因调控网络中同一调控关系的置信区间是否有重叠，判定其调控差异是否显著；或通过比较不同条件特异的基因调控网络中同一调控关系的强度均值变化，无需计算置信区间，直接量化其调控差异；和/或，

步骤2.1.4)中，整合三方面与基因调控相关的因素，筛选不同疾病状态下的条件特异的基因调控网络之间的基因异常调控关系，包括：基因调控强度显著变化、调控目标基因表达水平显著变化，以及TF对target的调控强度变化方向与target表达水平变化方向一致；同时，根据调控强度在不同疾病状态间的差异程度，对筛选到的基因异常调控关系进行排序；和/或，

步骤2.1.5)中以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建复杂疾病相关的基因异常调控关系标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

4.如权利要求1所述的方法，其特征在于，所述步骤2.2)具体包括以下子步骤：

步骤2.2.1)识别与复杂疾病相关的基因变异；

步骤2.2.2)采用数据驱动和/或先验知识驱动定量筛选复杂疾病状态相关的重要基因变异；

步骤2.2.3)基于步骤2.2.2)得到的复杂疾病状态相关的重要基因变异，构建复杂疾病相关的基因变异标志物组合。

5.如权利要求4所述的方法，其特征在于，步骤2.2.2)中，数据定量过滤筛选，包括体细胞基因变异频率计算、排序，以及高频变异基因识别，其中基因变异频率≥5％的基因进一步用于先验知识过滤；先验知识过滤筛选，包括应用标准、临床治疗指南、药物标签及通用知识库和文献报道中的复杂疾病相关基因；和，

步骤2.2.3)中，以基于贪婪算法的逐次增加迭代，和/或基于遗传算法的进化迭代，构建复杂疾病相关的基因变异标志物组合；对上述标志物组合，以C-index为指标衡量其对疾病预后状态的预测效果，或以AUC为指标衡量其对治疗方案受益状态的预测效果。

6.如权利要求1所述的方法，其特征在于，所述步骤2.3)具体包括以下子步骤：

7.一种复杂疾病综合状态评分方法，包括以下步骤：

步骤3.1)针对已知先验知识，筛选复杂疾病状态相关的临床信息及检验和病理指标；

步骤3.3)将如权利要求1所述方法得到的复杂疾病相关的基因异常调控关系和/或基因变异标志物组合，同步骤3.1)和3.2)筛选所得复杂疾病状态相关的临床信息及检验和病理指标整合，优化成为复杂疾病多元标志物组合，构建复杂疾病综合状态评分模型；所述模型用于复杂疾病综合状态评分计算。

8.如权利要求7所述的方法，其特征在于，步骤3.3)中，利用基于贪婪算法的逐次增加迭代和/或基于遗传算法的进化迭代，将复杂疾病相关的基因异常调控关系和/或基因变异标志物组合、复杂疾病相关临床信息及检验和病理指标，整合形成复杂疾病多元标志物组合，包含复杂疾病相关的基因异常调控关系、基因变异、临床信息、检验和病例指标；进而利用统计回归和机器学习算法，针对复杂疾病预后评估、治疗效果预测及治疗方案辅助决策，构建复杂疾病综合状态评分模型。

9.基于复杂疾病相关的基因异常调控关系和/或基因变异标志物组合构建一种基因检测panel设计方法，其特征在于，包括以下步骤：

步骤4.1)基于权利要求1所述方法筛选得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合，并纳入权利要求7所述复杂疾病综合状态评分方法的基因集，梳理基因集中基因相关信息，去除冗余，确定标准基因名；

步骤4.2)针对步骤4.1)中梳理后的基因，选择用于复杂疾病检测设计的靶基因目标区域，用于探针设计或引物设计；

10.如权利要求9所述的方法，其特征在于，步骤4.2)中，选择用于复杂疾病检测的探针和/或引物设计的靶基因目标区域，遵循以下原则：对于变异位点信息明确具体且该变异位点序列前后各100bp范围内无其它变异位点，则将此已明确的基因位点覆盖区域作为靶基因目标区域；对于变异位点较集中或密集的基因区域，即两个变异位点相邻且间隔不超过100bp，则选择该组变异位点的外显子作为靶基因目标区域；对于步骤4.1)确定的重要基因，在前两项设计不适用的情况下，则选择该基因全部可变剪切类型的区域作为靶基因目标区域；和/或，

步骤4.3)中的设计是指采用对步骤4.2)中的靶基因目标区域两端延伸，合并延伸后的全部目标区域并去除冗余；记录探针和/或引物设计的靶基因目标区域的重要信息，包括靶基因目标区域的染色体编号、靶基因目标区域的起始位置、靶基因目标区域的终止位置、自定义信息，如引物设计所需3’端信息；和/或，

步骤4.4)中参考人类基因组中可设计探针和/或引物数据集，对靶基因目标区域设计的探针和/或引物覆盖深度进行加权，并基于人类全基因组测序数据预测其探针和/或引物覆盖深度后，在全探针和/或引物数据集进行调整，使探针和/或引物能均匀捕获覆盖目标区域；和/或，

步骤4.5)中靶基因目标区域相关探针和/或引物的最优覆盖度是指计算探针和/或引物对步骤4.1所述重要基因变异位点的覆盖度和全部靶基因目标区域的覆盖度，计算公式为：覆盖度＝比对上的读长数/目标测序读长数；通过靶基因目标区域附近的优化，使得最终设计的探针和/或引物，对全部靶基因目标区域的覆盖度≥90％，同时对步骤4.1所述重要基因变异位点的覆盖度≥97％。

11.一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法，其特征在于，基于复杂疾病状态评估基因检测panel同综合状态评分计算系统的联用进行评估，包括以下步骤：

步骤5.1)基于如权利要求9所述方法设计的基因检测panel，得到复杂疾病相关的基因异常调控关系和/或基因变异标志物组合的定量值，输入复杂疾病综合状态评分计算系统；

步骤5.2)将获取权利要求5所述复杂疾病状态相关的临床信息及检验和病理指标的定量值，输入复杂疾病综合状态评分计算系统；

步骤5.3)将步骤5.1)和5.2)所涉及的硬件、软件和/或在线工具，组合为一套配套联用的流程，使得用户根据需求可以完成检测、信息输入、计算评估和结果获取。

12.如权利要求1-11之任一项所述的方法在构建基于高通量测序数据和临床表型构建复杂疾病状态评估模型中的应用，包括在筛选复杂疾病综合状态评估标志物组合中的应用；在筛选肿瘤综合状态评估标志物组合中的应用；在复杂疾病预后评估、治疗效果预测及治疗方案辅助决策中的应用。