CN111933211B

CN111933211B - 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用

Info

Publication number: CN111933211B
Application number: CN202010854377.9A
Authority: CN
Inventors: 秦钧; 占冬冬; 黄文雯; 李亚卓; 郑乃仁; 汪宜; 沈琳; 陈凛; 赵青川; 王宏伟
Original assignee: Beijing Guhai Tianmu Biomedical Technology Co ltd
Current assignee: Beijing Guhai Tianmu Biomedical Technology Co ltd
Priority date: 2020-06-28
Filing date: 2020-08-21
Publication date: 2023-10-31
Anticipated expiration: 2040-08-21
Also published as: CN111933211A

Abstract

本发明涉及一种癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用，该方法通过从多中心、大样本队列中获得分型标志物，发现分子分型，进而利用分型标志物或者使用基于分型标签得到的差异蛋白作为选择特征，构建分类器；所述分类器进行分类应用时，输入采集样本的表达谱数据，进行表达谱数据预处理、分类器特征匹配、对数转化后、经过机器学习分类算法或者人工智能模型构建的分类器预测后，最后得到化疗敏感组或化疗不敏感组的输出标签，进行精准化疗的分子分型，解决了肿瘤医疗领域的痛点问题，包括精准判别化疗是否获益人群、提供一线用药方案最佳组合推荐以及提供化疗方案最适周期推荐。

Description

癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用

技术领域

本发明涉及肿瘤临床医学领域，具体涉及一种癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用。

背景技术

据中国国家癌症中心于2019年1月发布的最新一期的全国癌症统计数据显示，癌症已经成为严重威胁中国人群健康的主要公共卫生问题之一，恶性肿瘤死亡占居民全部死因的23.91％，且近十几年来恶性肿瘤的发病死亡均呈持续上升态势，每年恶性肿瘤所致的医疗花费超过2200亿，防控形势严峻。

以胃癌为例，胃癌是世界范围发病率第五位的常见肿瘤，是仅次于肺癌、肝癌的第三位癌症死因。作为胃癌的高发大国，我国胃癌的发病率和死亡率均位居恶性肿瘤的第二位，严重危害国人健康。与日韩等国家早诊早治的特点不同，我国胃癌确诊时约70％患者处于局部进展期或晚期(进展期胃癌)，进展期胃癌预后很差，即使进行根治性手术，复发率也高达30％～70％，治疗原则是以化疗为主的多学科综合治疗，氟尿嘧啶类与铂类或者紫杉类等化疗药的组合成为临床上一、二线的路径。随着精准医疗概念的提出，针对所有患者使用同一化疗方案的治疗方法显然已不能满足临床需求。

为了更好的预测患者预后和指导个体治疗方案，研究者一直对胃癌合理的分型进行探究。目前应用最广泛的分型方式是基于形态学的病理学分型，即Lauren分型。从发病率来看肠型胃癌要占到全胃癌的54％，而弥漫型胃癌占32％，混合型胃癌大约为15％。然而，组织病理学分型的分类不够细致，且同为肠型或者弥漫型的病人预后和治疗敏感性大有不同，而不同亚型的患者也可能具有同样的分子特征，因此基于分子分型了解胃癌异质性至关重要。

另外，基因检测也是目前癌症精准分型与精准用药的一个重要方法。但是，基因与生命活动的最终执行者——蛋白质之间仍然存在较大差异，难以直接反映生命变化。基因水平信息反映的是疾病发生的概率(即可能性)，而蛋白质作为生命活动的最终执行者，其状态的改变更为直接地反映了疾病的发生、发展状况。目前基于基因组数据完成的分子分型工作，如肿瘤基因组项目(TCGA)的4iCluster-subtypes,Critescu et al.的4PCA-subtypes等，虽然从基因层面描绘出了胃癌的不同“画像”，揭示了不同“性格”胃癌的分子特征，但对于真正改变临床实践还是任重道远。

胃癌治疗中存在的重大难题是“个体化”差异，以及“癌症分型与临床治疗效果关联度低”，而依靠分期或病理类型等临床特征以及现有的基因组分型特征还无法突破现有瓶颈。蛋白质组因其更接近生物信息传递的表层，基于蛋白质组数据的分型，将有助于区分出化疗中最能获益的治疗群体，预测治疗结果，优化治疗方案，避免过度化疗给病人带来的经济负担和身体痛苦，实现胃癌精准化疗从0到1的突破；从长远期看，将有助于胃癌新型靶向性治疗方案的研发，无论是新药开发，或是老药新用，都将对提高胃癌的有效率具有至关重要的意义。

目前尚没有临床级指导癌症精准化疗的解决方案设计相关资料公开。以胃癌为例，现有的基于形态学的病理分型——Lauren分型虽然对胃癌治疗起着一定的指导作用，但不同Lauren分型对于不同的化疗药物疗效差异较大，同种药物对不同的分型疗效亦有差异。基于基因组技术产生的一系列关于胃癌的分子分型，大多使用的是手术切除后冷冻的新鲜组织，相较于石蜡包埋(FFPE)样本，对于样本存储的要求更高，样本量少，随访信息缺乏，其对应的分型的结果通常与生物功能进行关联，但没有切实回答哪些病人适合化疗、适合什么方案、最佳使用周期等肿瘤医疗领域的痛点问题。

公开号为CN103687964A的中国专利公开了一种用于预测患有癌症之对象对化疗之临床响应的方法，涉及胆碱激酶α作为预测性标志物用于在患有癌症之对象中确定对化疗性治疗之响应的用途，特别是用于预测患有非小细胞肺癌之对象对基于铂之化疗性治疗的临床响应的用途。本发明涉及基于胆碱激酶α的表达水平为患有癌症(特别是非小细胞肺癌)的对象设计个性化治疗的方法，并且涉及基于在对象中使用基于铂的化疗性治疗来治疗非小细胞肺癌的方法，其中基于胆碱激酶α的表达水平来选择所述对象。但是该专利没有切实回答哪些病人适合化疗，适合什么方案，最佳使用周期等肿瘤医疗领域的痛点问题。

此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于发明人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

根据上述领域的需求和空白，本发明基于质谱的定量蛋白质组学技术，采用定量FOT值构成的蛋白表达谱，对其进行精准化疗的分子分型，解决了肿瘤医疗领域的痛点问题，包括精准判别化疗是否获益人群、提供一线用药方案最佳组合推荐以及提供化疗方案最适周期推荐，具体方案如下：

本发明一方面提供一种癌症分型标志物的筛选方法，包含如下处理过程：

a)高置信蛋白筛选：从来自于多个样本形成的蛋白质表达谱数据中筛选蛋白，筛选的蛋白含有至少一条专属肽段(unique peptide)且离子分值(ion score)大于等于20，且至少二条离子分值大于等于20的肽段，或者三条离子分值大于等于20的肽段；

b)剔除在样本中出现频次低于预设出现频率的蛋白或保留高于预设出现频率的蛋白；

c)去除冗余蛋白；

d)选取FOT值排名在预设位置前的蛋白用于后续分析；

e)基于总和的定量数据标准化：针对所选蛋白集，对于每一列，计算FOT之和，然后将每个蛋白的FOT除以前述FOT总和，得到基于总和的定量数据标准化后的数据，为了便于数据可视化，标准化后的数值再乘以10⁵。

在上述技术方案中，还包含如下处理过程：

所选蛋白在样本间存在差异，具有变异系数CV大于或等于预设值；

优选所述癌症为胃癌时，CV大于等于2.7。

所述的蛋白质表达谱数据包括：蛋白的标识符，如Protein GI number,Accession和Gene Symbol；对应蛋白在当前实验中的定量表达值(包括标准化前后，如标准化前的Spectral count、iBAQ等，标准化后的iFOT、LFQ等)。

在上述技术方案中，

b)剔除鉴定频次低于500-1000的蛋白，优选700，或保留满足最低鉴定频次,即占总实验数的1/10；

c)去除冗余蛋白：剔除样本中1％-10％的极高丰度的蛋白，优选5％，其FOT之和占总体FOT的60％-90％，优选80％；

d)选取FOT值排名在800-1200，优选1000的蛋白用于后续分析。

本发明另一方面提供一种关联临床化疗信息的癌症化疗分子分型方法，包括如下步骤：

(1)根据所述筛选方法选出该种癌症的分型标志物集，以及检测所述分型标志物集中每个蛋白的FOT值；

(2)对所述分型标志物集进行以下分型步骤：

a.采用log(1+x)对所述分型标志物集中的每个蛋白的FOT值进行转换，其中x即蛋白的FOT值；

b.采用非负矩阵分解(NMF)一致性聚类方法对蛋白标志物集进行分型,并为每个分型分配NMF分型标签；

(3)关联所述多个样本的临床信息进行生存分析；

i.提供所述多个样本的临床信息，包含：是否化疗、总生存时间、是否死亡、性别、年龄、TNM分期、Lauren分型；

ii.对所述多个样本进行生存分析：采用K-M方法和Cox多因素分析；

(4)根据步骤(3)的结果，对步骤(2)的分型结果进行参数调整得到癌症化疗分子分型参考表。

在上述技术方案中，步骤(3)中的关联分析还包括关联所述多个样本的临床化疗方案进行生存分析：

a'.将化疗方案进行归纳分类得出化疗分类方案一，化疗分类方案二、…、化疗分类方案N；

b'.基于化疗是否获益亚组，对每个分类方案进行生存分析；

i.纳入分析的临床变量包括：是否化疗、化疗是否获益标签、方案分类标签、是否使用对应方案、是否死亡、总生存时间；

ii.生存分析的方法：K-M曲线和Cox多因素分析，因素包含性别，年龄，TNM分期，Lauren分型。

在上述技术方案中，步骤(3)中的关联分析还包括关联所述多个样本的临床化疗周期进行生存分析：

c'.化疗周期归纳分组：对每一个所述化疗分类方案的的化疗周期进行归纳，并分配化疗周期分组标签；

d'.基于化疗是否获益亚组，展开不同分组周期的生存分析；

基于化疗是否获益亚组，对每个分类方案进行生存分析；

i.纳入分析的临床变量：是否化疗、周期分组标签、是否死亡、总生存时间；

ii.生存分析的方法：K-M曲线和Cox多因素分析，因素包含性别，年龄，TNM分期，Lauren分型；

所述癌症化疗分子分型参考表包含分型标签、化疗获益和不获益亚组、化疗方案分类、不同化疗方案的最佳适用周期。

所述的癌症化疗分子分型方法，所述癌症是胃癌，并且包括：

a'.将化疗方案进行归纳分类得出化疗分类方案一额化疗分类方案二，其中分类方案一包含不化疗(NoChemo)、氟尿嘧啶加铂类方案(Fu+Pt)、其他方案；其中分类方案二包含不化疗方案、FOLFOX方案、XELOX方案、SOX方案、其他方案；

c'.所述化疗周期归纳分组：

针对所述分类方案一，优选地，氟尿嘧啶加铂类方案的化疗周期归纳为2、3、4、5|7、6、8、9|10|11|12；

针对所述分类方案二，优选地，FOLFOX方案的化疗周期归纳为1|2|3、4、6、8|9|10|11|12；

针对所述分类方案二，优选地，XELOX方案的化疗周期归纳为2|3|4、6、7|8|10；

针对所述分类方案二，优选地，SOX方案的化疗周期归纳为2|3|4、6、7|8。

本发明的再一方面提供一种癌症精准化疗分类器的构建方法，包括以下步骤：

(1)选择分类器特征：使用上述任一癌症分型标志物的筛选方法获得的分型标志物或者使用分型差异蛋白；

(2)分类器选择：已知机器学习分类算法或者人工智能模型，如随机森林、支持向量机；

(3)输入数据：log(FOT+1)，前述癌症化疗分子分型方法产生的NMF分型标签；其中FOT来自于所述分型标志物或者使用分型差异蛋白；

(4)对算法进行准确性测试，优选采用10折交叉验证。

在上述技术方案中，所述癌症指胃癌，所述分型标志物如表1所列。

本发明的再一方面提供了前述的构建方法得到的胃癌精准化疗分类器。

本发明的再一方面提供了一种胃癌精准化疗分型标志物在制备胃癌患者化疗敏感性检测试剂盒和/或芯片中的应用，所述胃癌精准化疗分型标志物为表1中所示的110个蛋白分型标志物。

在上述技术方案中，所述检测包括分型诊断、化疗方案选择及最适化疗周期确定中的任意一种或多种。

本发明的再一方面提供了一种胃癌患者化疗敏感性检测试剂盒或芯片，其特征在于：所述检测芯片存储有表1中所示的蛋白分型标志物的信息，优选地，还存储有上述所述的分类器。

本发明提供一种胃癌患者化疗敏感性检测芯片，所述检测芯片存储有表1中所示的癌症分型标志物的检测试剂，所述检测试剂是特异性抗体、特异性核苷酸探针(如catTFRE技术)或针对特定类别蛋白(如激酶)的特异性底物小分子。

本发明的最后一方面提供了一种用于个体胃癌精准化疗分型的装置，其特征在于，具有以下模块：

1)蛋白标志物筛选模块：用于完成上述癌症分型标志物的筛选，从待分析个体样本形成的蛋白质表达谱数据中选出其癌症分型标志物；

2)蛋白标志物分型模块：用于采用前述癌症化疗分子分型方法对个体癌症分型标志物集进行分型并生成NMF分型标签；

3)分型器模块：接收输入log(FOT+1)和NMF分型标签，进行分类器特征匹配，对数转化，预测；

4)分型结果输出单元：将个体胃癌精准化疗分型推荐结果输出。

本发明的有益效果是：1)使用了满足临床研究大样本要求的FFPE样本，数量多，可以从多个中心收集，保存时间长，随访信息完整；2)第一次使用基于质谱的定量蛋白质组学技术，采用定量FOT值构成的蛋白表达谱，对其进行精准化疗的分子分型，解决了肿瘤医疗领域的痛点问题，包括精准判别化疗获是否获益人群、提供一线用药方案最佳组合推荐以及提供化疗方案最适周期推荐。

附图说明

图1是去除冗余蛋白得到的结果；

图2是胃癌NMF分型结果；

图3是胃癌生存分析——K-M曲线；

图4是胃癌生存分析——Cox多因素分析；

图5是胃癌最佳化疗方案选择-归类方案1；

图6是胃癌最佳化疗方案选择-归类方案2；

图7是胃癌最适化疗周期指导-归类方案一；

图8是胃癌最适化疗周期指导-归类方案二；

图9是构建得到的胃癌精准化疗分类器。

具体实施方式

下面结合具体实施例对本发明作示例性说明。下述实施例中的实验方法，如无特别说明，均为常规方法。下述实施例中所使用的材料、试剂等，如无特殊说明，均可通过商业途径获得。

实施例1获得胃癌FFPE样本的蛋白质表达谱数据

针对1020例已知胃癌病例的FFPE样本进行蛋白质提取和分析，详细步骤依据专利申请CN110146636A中实施例1第一部分记载的步骤。

对样本进行质谱检测，检测和分析参照专利申请CN108445097A中具体实施方式部分“三、胃癌蛋白样品的质谱检测；四、胃癌蛋白样品的质谱数据分析”部分：

使用Firmiana计算平台解析质谱数据，进行肽段的鉴定和蛋白的组装，采用iBAQ算法进行蛋白定量，从而构成蛋白质表达谱数据，包括：蛋白的标识符，如Protein GInumber,Accession或Gene Symbol；对应蛋白在当前实验中的定量表达值(包括标准化前后，如标准化前的Spectral count、iBAQ等，标准化后的iFOT、LFQ等)。

实施例2分型标志物的选择

基于实施例1的数据进行分型标志物选择，具体步骤如下：

1)蛋白表达谱预处理和实验过滤

a)高置信蛋白筛选：要求定量的蛋白含有至少一条专属肽段(unique peptide)且离子分值(ion score)大于等于20，且至少二条离子分值大于等于20的肽段，或者三条离子分值大于等于20的肽段。

b)剔除蛋白鉴定频次低于700的实验(该步骤可根据不同癌症、不同样本类型的实际蛋白鉴定数进行调整)。

c)将1020个样本分为发现集(742个样本)和验证集(278个样本)。

d)基于742个样本构成的发现集去除冗余蛋白：5％的蛋白FOT之和占总体FOT的80％，结果如图1所示：针对蛋白表达谱矩阵(行是蛋白，列是实验)，计算每个蛋白的平均值，X轴是蛋白的平均值的大小排名(降序)，Y轴是平均值的累积和。图中虚线表示蛋白的平均值累积和达到平均值总和的80％。剔除累积和达到虚线处之前的所有蛋白(冗余蛋白)，大约占总体5％。

e)选取每个实验的FOT值排名前1000(Top1000)的3772个蛋白用于后续分析。

f)基于总和的定量数据标准化：针对所选蛋白集，对于每一列(即实验)，计算FOT之和，然后将每个蛋白的FOT除以前述FOT总和，得到基于总和的定量数据标准化后的数据，为了便于数据可视化，标准化后得数值再乘以10⁵。

2)分型标志物的选择

a)基于742个胃癌FFPE样本构成的发现集，满足最低鉴定频次,即占总实验数的1/10，该步骤可根据不同癌症、不同样本类型的蛋白质组数据进行调整；

b)基于742个胃癌FFPE样本构成的发现集，在样本间存在较大差异，变异系数(CV)大于等于2.7(每个分型标志物的CV是基于标准化后的数据计算得到的)，该步骤可根据不同癌症、不同样本类型的蛋白质组数据进行调整；

按照上述筛选步骤，基于742个胃癌FFPE样本构成的发现集，最终获得如表1所示的110个分型标志物。

表1

实施例3胃癌的精准化疗的分子分型

第一部分：精准化疗的分子分型

(1)对实施例2得到的分型标志物集进行以下分型步骤：

a.采用log(1+x)对分型标志物集中的每个蛋白的FOT值进行转换，其中x即蛋白的FOT值；转换后的数据如下表2所示(表中，行是分型标志物，列是实验)：

表2

b.采用非负矩阵分解(NMF)一致性聚类方法对分型标志物集进行分型,并为每个分型分配NMF分型标签，具体如下：

加载R语言程序包CancerSubtypes，使用ExecuteCNMF函数对分型标志物表达谱进行分析，参数clusterNum设置为2，nrun设置为50。

NMF分型结果如表3所示：

表3

实验号	分型标签
		Exp027601	2
Exp027603	2
		Exp027607	1
Exp027617	2
		Exp027621	2
Exp027623	1
		省略733个实验号	······
Exp059510	2
		Exp059514	2
Exp059516	2
		总共742个实验号

分型结果如图2所示，图2A根据非负矩阵分解一致性聚类方法，无监督地将742个样本分成二类(Cluster 1和2)；图2B为轮廓系数图，轮廓系数作为一种聚类效果的评价指标，需满足单个类别的轮廓系数和平均轮廓系数中大于等于0.8，轮廓系数越大，聚类越好。

(2)关联临床信息，进行生存分析

i.临床信息：如下表4所示：

表4

ii.生存分析：K-M方法和Cox多因素分析。

K-M方法：

针对前述临床信息和NMF分型标签，使用R语言程序包survival中的survfit函数进行K-M生存分析，输入数据包括表4中患者的总生存时间、生存状态和是否化疗分组，其他参数默认，得到一个survfit结果对象。

使用R语言程序包survminer中的ggsurvplot函数，输入前述survfit结果对象绘制K-M生存曲线图。

Cox多因素分析：

针对前述临床信息和NMF分型标签，使用R语言程序包survival中的survival函数进行COX多因素生存分析，输入数据包括表4中患者的总生存时间、生存状态，是否化疗分组，以及协变量(年龄、性别、AJCC分期、Lauren分型)，其他参数默认，得到一个coxph结果对象。

使用R语言程序包survminer中的ggforest函数，输入前述coxph结果对象绘制Cox多因素生存分析的森林图。

绘制的K-M曲线如图3所示，可见：

如图3A所示，将化疗敏感组(CSG：Chemo-sensitive group)的患者分为接受化疗和未接受化疗的两组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.00058表示接受化疗和未接受化疗的两组患者生存存在显著差异，HR＝0.49(P<0.001)来自Cox多因素分析，表示接受化疗比未接受化疗的患者的死亡风险显著降低51％。

如图3B所示，将化疗不敏感组(CIG：Chemo-insensitive group)的患者分为接受化疗和未接受化疗的两组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.61表示接受化疗和未接受化疗的两组患者生存无差异，HR＝0.82(P＝0.325)来自Cox多因素分析，表示接受化疗和未接受化疗的患者的死亡风险无显著差别。

Cox多因素分析结果如图4所示，可见：

如图4A所示，将化疗敏感组(CSG：Chemo-sensitive group)的患者分为接受化疗和未接受化疗的两组，引入协变量，包括年龄，性别，AJCC分期，进行Cox多因素分析，绘制森林图，Chemotherapy status栏，HR＝0.54,Pvalue＝0.025，表示接受化疗比未接受化疗的患者的死亡风险显著降低46％。

如图4B所示，将化疗不敏感组(CIG：Chemo-insensitive group)的患者分为接受化疗和未接受化疗的两组，引入协变量，包括年龄，性别，AJCC分期，进行Cox多因素分析，绘制森林图，Chemotherapy status栏，HR＝1.06，Pvalue＝0.914，表示接受化疗和未接受化疗的患者的死亡风险无显著差别。

(3)根据步骤(2)的结果，对步骤b的分型结果进行参数调整：

如果NMF分型的结果和临床化疗结果关联不上，即不能区分出化疗敏感和不敏感亚组，则改变实施例2中分型标志物的选择的卡值标准，调整鉴定频次和CV卡值。

至此，确定了NMF的分型结果可以和临床的化疗结果关联后，进一步去探究分型结果和临床化疗方案和周期的关联。

第二部分：临床化疗方案和周期关联分析

1)最佳化疗方案选择

a)对所选样本进行化疗方案归纳分类

i.分类方案一：不化疗(No Chemo)、氟尿嘧啶加铂类方案(Fu+Pt)、其他方案(Others)

ii.分类方案二：不化疗、FOLFOX方案、XELOX方案、SOX方案、其他方案

具体分类结果如下表5所示：

表5

b)基于化疗是否获益亚组，展开不同分类方案的生存分析

i.纳入分析的临床变量：是否化疗，化疗是否获益标签，方案分类标签、是否使用对应方案，是否死亡，总生存时间；临床变量信息见下表6：

表6

/>

ii.生存分析的方法：对表6中的数据进行K-M曲线和Cox多因素分析(协变量：性别，年龄，TNM分期，Lauren分型)；

得出最佳化疗方案选择-归类方案1，结果如图5所示：

如图5A，将化疗敏感组(CSG：Chemo-sensitive group)的患者分为未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案(Others)治疗的三组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.00049表示未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案治疗的三组患者生存存在显著差异。Fu+Pt：HR＝0.38(P<0.001)来自Cox多因素分析，表示接受FU+Pt方案治疗比未接受化疗的患者的死亡风险显著降低62％。Others：HR＝0.56(P<0.019)来自Cox多因素分析，表示接受非FU+Pt方案治疗比未接受化疗的患者的死亡风险显著降低44％。

如图5B，将化疗不敏感组(CIG：Chemo-insensitive group)的患者分为未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案(Others)治疗的三组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.18表示未接受化疗、接受FU+Pt方案治疗和接受非FU+Pt方案治疗的三组患者生存无显著差异。Fu+Pt：HR＝0.68(P<0.08)来自Cox多因素分析，表示接受FU+Pt方案治疗比未接受化疗的患者的死亡风险无显著差别。Others：HR＝0.89(P<0.66)来自Cox多因素分析，表示接受非FU+Pt方案治疗比未接受化疗的患者的死亡风险无显著差别。

得出最佳化疗方案选择-归类方案2，结果如图6所示：

如图6A，将化疗敏感组(CSG：Chemo-sensitive group)的患者分为未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX(Others)治疗的五组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.002表示未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX治疗的五组患者生存存在显著差异。FOLFOX：HR＝0.46(P＝0.014)来自Cox多因素分析，表示接受FOLFOX方案治疗比未接受化疗的患者的死亡风险显著降低54％。XELOX：HR＝0.43(P＝0.012)来自Cox多因素分析，表示接受XELOX方案治疗比未接受化疗的患者的死亡风险显著降低57％。SOX：HR＝0.19(P＝0.001)来自Cox多因素分析，表示接受SOX方案治疗比未接受化疗的患者的死亡风险显著降低81％。Others：HR＝0.54(P＝0.012)来自Cox多因素分析，表示接受Others方案治疗比未接受化疗的患者的死亡风险显著降低46％。

如图6B，将化疗不敏感组(CIG：Chemo-insensitive group)的患者分为未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX(Others)治疗的五组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.57表示未接受化疗、接受FOLFOX方案治疗、接受XELOX方案治疗、接受SOX方案治疗和接受非FOLFOX/XELOX/SOX治疗的五组患者生存无显著差异。FOLFOX：HR＝0.80(P＝0.427)来自Cox多因素分析，表示接受FOLFOX方案治疗比未接受化疗的患者的死亡风险无显著差别。XELOX：HR＝0.71(P＝0.232)来自Cox多因素分析，表示接受XELOX方案治疗比未接受化疗的患者的死亡风险无显著差别。SOX：HR＝0.60(P＝0.071)来自Cox多因素分析，表示接受SOX方案治疗比未接受化疗的患者的死亡风险无显著差别。Others：HR＝0.83(P＝0.452)来自Cox多因素分析，表示接受Others方案治疗比未接受化疗的患者的死亡风险无显著差别。

1)最适化疗周期指导(以胃癌临床蛋白质组学分析为例)

a)化疗周期归纳分组

i.针对1)中的分类方案一，氟尿嘧啶加铂类方案的化疗周期归纳为2、3、4、5|7、6、8、9|10|11|12

ii.针对1)中的分类方案二，FOLFOX方案的化疗周期归纳为1|2|3、4、6、8|9|10|11|12

iii.针对1)中的分类方案二，XELOX方案的化疗周期归纳为2|3|4、6、7|8|10

iv.针对1)中的分类方案二，SOX方案的化疗周期归纳为2|3|4、6、7|8

b)基于化疗是否获益亚组，展开不同分组周期的生存分析

i.纳入分析的临床变量：是否化疗，周期分组标签，是否死亡，总生存时间，如表7：

表7

ii.生存分析的方法：用表7中的数据进行K-M曲线和Cox多因素分析(性别，年龄，TNM分期，Lauren分型)

分析得到如图7所示的最适化疗周期指导-归类方案一：

如图7A，将化疗敏感组(CSG：Chemo-sensitive group)的患者中接受Fu+Pt患者根据化疗周期(CC:chemotherapy cycle)进行分组，分别对应CC＝2；3；4；5|7；6；8；9|10|11|12七组，结合协变量(年龄、性别和AJCC分期)，同未化疗组病人相比，进行Cox多因素分析，CC＝4；6；9|10|11|12(P<0.05)三组，患者的死亡风险显著降低。

如图7B，将化疗敏感组(CSG：Chemo-sensitive group)的患者中接受Fu+Pt患者根据化疗周期(CC:chemotherapy cycle)进行分组，分别对应CC＝2；3；4；5|7；6；8；9|10|11|12七组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.0022表示前述七组患者与未化疗的患者相比，生存存在显著差异。

如图7C，针对CC＝2；3；4；5|7；6；8；9|10|11|12七组和未化疗组，计算每个组别的5年生存率，呈现化疗周期差异。

分析得到如图8所示的最适化疗周期指导-归类方案二：

如图8A，将化疗敏感组(CSG：Chemo-sensitive group)的患者中接受SOX患者根据化疗周期(CC:chemotherapy cycle)进行分组，分别对应CC＝2|3|4；6；7|8三组，结合协变量(年龄、性别和AJCC分期)，同未化疗组病人相比，进行Cox多因素分析，CC＝2|3|4组，患者的死亡风险显著降低。

如图8B，将化疗敏感组(CSG：Chemo-sensitive group)的患者中接受SOX患者根据化疗周期(CC:chemotherapy cycle)进行分组，分别对应CC＝2|3|4；6；7|8三组，根据Kaplan-Meier方法绘制的生存曲线，Log-rank P＝0.0062表示前述三组患者与未化疗的患者相比，生存存在显著差异。

如图8C，针对CC＝2|3|4；6；7|8三组和未化疗组，计算每个组别的5年生存率，呈现化疗周期差异。

第三部分：构建癌症精准化疗参考表

基于第一部分和第二部分的结果，构建癌症精准化疗参考表，包括以下信息：化疗获益和不获益亚组；化疗方案分类；不同化疗方案的最佳适用周期。构建的胃癌精准化疗参考表如表8所示：

表8胃癌精准化疗参考表

针对化疗敏感组(CSG)，患者使用FU+Pt的化疗方案治疗，可以显著从4/6/9-12个化疗周期中获益，建议做适当周期的化疗；

具体到FU+Pt的详细方案中，患者使用FOLFOX方案可从>8个周期的治疗中显著获益，患者使用XELOX方案可从6个周期的治疗中显著获益，患者使用SOX方案可从2-4个周期中的治疗中显著获益，建议做适当周期的化疗；

针对化疗不敏感组(CIG)，无论使用哪种化疗方案，均不能显著获益，建议不采取化疗或者使用其他治疗方法。

实施例4癌症精准化疗分类器的构建方法

1)分类器特征选择：使用表1所列的110个分型标志物；

2)分类器构建：

用于胃癌分子分型的分类器的构建，包括发现、验证及测试三个阶段，即将发现集样本FOT的log₁₀(FOT+1)矩阵和NMF分型标签作为输入数据(输入的数据如表9所示)，训练随机森林模型，训练过程中采用10倍交叉验证法随机划分发现集样本，评估分类器准确率，即将742个样本随机分为10等分，这10等分中两个亚型也是平均分布的，用90％的样本进行建模，用剩下10％的样本进行测试，如此重复10次，计算10次准确率的平均值。然后用训练好的分类器预测独立验证集，得到的分型标签关联预测集样本的临床信息，观察预测集两簇样本特征是否能与发现集两个亚型的特征相对应。

表9

/>

构建得到的分类器如图9所示：

基于发现集中筛选出的特征蛋白集合(110个蛋白)，利用机器学习算法(随机森林)，构建分类器，预测化疗敏感和不敏感亚组，采用10折交叉验证的方式对模型的准确性进行评价，得到模型的预测准确性为93.9％。

验证例1.癌症精准化疗分类器的应用

对其它278个样本，进行验证；

对样本预处理得到表达谱数据(方法参照实施例1)

a)输入：样本的表达谱数据；

b)中间过程：表达谱数据预处理(方法参照实施例2)，分类器特征匹配(匹配表1所列的110个分型标志物)，对数转化，预测；

c)输出：输出结果如表10所示，其中278个样本中有217个划为化疗敏感亚组，61个划为化疗不敏感亚组。分类器应用预测结果与样本来源患者的临床治疗情况相符合。

表10

实验号	分类标签
		Exp018817	1
Exp018823	1
		Exp018825	1
Exp018831	1
		Exp018835	1
Exp018839	1
		省略269个实验号	······
Exp061483	1
		Exp061487	1
Exp061491	2

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种关联临床化疗信息的癌症化疗分子分型方法，其特征在于，包括如下步骤：

(1)筛选该癌症的分型标志物集，以及检测所述分型标志物集中每个蛋白的FOT值；

(2)对所述分型标志物集进行以下分型步骤：

a.采用1g(1+x)对所述分型标志物集中的每个蛋白的FOT值进行转换，其中x即蛋白的FOT值；

b.采用非负矩阵分解一致性聚类方法对蛋白标志物集进行分型，并为每个分型分配NMF分型标签；

(3)关联多个样本的临床信息进行生存分析；

ii对所述多个样本进行生存分析：采用K-M方法和Cox多因素分析；

2.根据权利要求1所述的癌症化疗分子分型方法，其特征在于，步骤(1)筛选该种癌症的分型标志物集的方法包括：

a)高置信蛋白筛选：从来自于多个样本形成的蛋白质表达谱数据中筛选蛋白，筛选的蛋白含有①至少一条专属肽段且离子分值大于等于20，且至少二条离子分值大于等于20的肽段；②或者三条离子分值大于等于20的肽段；

c)去除冗余蛋白；

d)选取FOT值排名在预设位置前的蛋白用于后续分析；

e)基于总和的定量数据标准化：针对所选蛋白集，计算FOT之和，然后将每个蛋白的FOT除以前述FOT总和，得到基于总和的定量数据标准化后的数据。

3.根据权利要求2所述的癌症化疗分子分型方法，其特征在于，

所述癌症为胃癌时，CV大于等于2.7；

在b)步骤中，剔除鉴定频次低于500-1000的蛋白，或保留满足最低鉴定频次，即占总实验数的1/10的蛋白；

在c)步骤中，去除冗余蛋白：剔除样本中1％-10％的极高丰度的蛋白，其FOT之和占总体FOT的60％-90％；

在d)步骤中，选取FOT值排名在800-1200的蛋白作为癌症分型标志物用于后续分析。

4.根据权利要求2或3所述的癌症化疗分子分型方法，其特征在于，

在b)步骤中，剔除鉴定频次低于700的蛋白。

5.根据权利要求2或3所述的癌症化疗分子分型方法，其特征在于，

在c)步骤中，剔除样本中5％的极高丰度的蛋白。

6.根据权利要求2或3所述的癌症化疗分子分型方法，其特征在于，

在c)步骤中，其FOT之和占总体FOT的80％。

7.根据权利要求2或3所述的癌症化疗分子分型方法，其特征在于，

在d)步骤中，选取FOT值排名在l000的蛋白作为癌症分型标志物用于后续分析。

8.根据权利要求1所述的癌症化疗分子分型方法，其特征在于，

步骤(3)中的关联分析还包括关联所述多个样本的临床化疗方案进行生存分析：

a’.将化疗方案进行归纳分类得出化疗分类方案一，化疗分类方案二、…、化疗分类方案N；

b’.基于化疗是否获益亚组，对每个分类方案进行生存分析；

ii.生存分析的方法：K-M曲线和Cox多因素分析，因素包含性别、年龄、TNM分期和Lauren分型；

c’.化疗周期归纳分组：对每一个所述化疗分类方案的化疗周期进行归纳，并分配化疗周期分组标签；

d’.基于化疗是否获益亚组，展开不同分组周期的生存分析；

基于化疗是否获益亚组，对每个分类方案进行生存分析；

ii生存分析的方法：K-M曲线和Cox多因素分析，因素包含性别、年龄、TNM分期和Lauren分型；

9.根据权利要求8所述的癌症化疗分子分型方法，其特征在于，所述癌症是胃癌，该方法包括：

a’.将化疗方案进行归纳分类得出化疗分类方案一，化疗分类方案二；

其中分类方案一包含不化疗、氟尿嘧啶加铂类方案、其他方案；

其中分类方案二包含不化疗方案、FOLFOX方案、XELOX方案、SOX方案、其他方案；

c’.所述化疗周期归纳分组：

针对所述分类方案一，氟尿嘧啶加铂类方案的化疗周期归纳为2、3、4、5|7、6、8、9|10|11|12；

针对所述分类方案二，FOLFOX方案的化疗周期归纳为1|2|3、4、6、8|9|10|11|12；

针对所述分类方案二，XELOX方案的化疗周期归纳为2|3|4、6、7|8|10；针对所述分类方案二，SOX方案的化疗周期归纳为2|3|4、6、7|8。

10.一种癌症精准化疗分类器的构建方法，其特征在于，包括以下步骤：

(1)选择分类器特征：使用权利要求2～7之一所述方法获得的分型标志物或者使用分型差异蛋白；

(2)分类器选择：已知机器学习分类算法或者人工智能模型，包括随机森林和支持向量机；

(3)输入数据：lg(FOT+1)，权利要求3或4所述方法产生的NMF分型标签；FOT来自于所述分型标志物或者使用分型差异蛋白；

(4)对算法进行准确性测试；

其中，所述癌症指胃癌，所述分型标志物如表1所示：

表1

11.根据权利要求10所述的癌症精准化疗分类器的构建方法，其特征在于，在步骤(4)中，采用10折交叉验证。

12.一种用于个体胃癌精准化疗分型的装置，其特征在于，具有以下模块：

1)蛋白标志物筛选模块：用于完成权利要求2～7之一所述的癌症分型标志物的筛选，从待分析个体样本形成的蛋白质表达谱数据中选出其癌症分型标志物；

2)蛋白标志物分型模块：用于采用权利要求1或8所述的癌症化疗分子分型方法对个体癌症分型标志物集进行分型并生成NMF分型标签；

3)分型器模块：接收输入lg(FOT+1)和NMF分型标签，进行分类器特征匹配，对数转化，预测；