CN114672556A

CN114672556A - 结直肠癌分子分型及生存风险基因群及诊断产品和应用

Info

Publication number: CN114672556A
Application number: CN202011561310.2A
Authority: CN
Inventors: 周彤; 胡志元; 周伟庆; 马琳琳; 陆俊欢
Original assignee: Shanghai Precision Diagnostics Co ltd
Current assignee: Shanghai Precision Diagnostics Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-06-28
Also published as: CN116761899A; WO2022135552A1

Abstract

本发明属于生物技术领域，公开了一组可以对结直肠癌分子分型及生存风险进行评估的基因群；公开了检测所述基因群的基因表达水平的试剂在制备产品中的应用，所述产品用于确定结直肠癌分子分型及评估结直肠癌患者的生存风险；所述产品包括二代测序(NGS)检测试剂盒、荧光定量PCR检测试剂盒、基因芯片和蛋白芯片。本发明还公开了利用所述检测试剂盒进行结直肠癌分子分型及生存风险评估的方法。

Description

结直肠癌分子分型及生存风险基因群及诊断产品和应用

技术领域

本发明属于生物技术领域，具体涉及结直肠癌亚型分型及评估结直肠癌患者生存风险的基因群及其体外诊断产品和应用。

背景技术

结肠癌临床分期与治疗方案密切相关。对于Ⅰ期和Ⅳ期结肠癌的治疗一般比较明确。Ⅰ期以手术为主，无需辅助化疗，Ⅳ则需要以化疗为主的综合治疗。然而，对于Ⅱ、Ⅲ期结肠癌的治疗相对比较复杂，对于其手术后的化疗是否获益，当前的临床或病例诊断尚无好的预测指标。即使是相同病理组织类型、同一临床分期的患者，采用同样的治疗手段，其预后也各不相同。需要新的生物学指标来指导这部分患者术后的辅助治疗或术前的新辅助治疗。近年来，基于基因表达谱肿瘤分子诊断产品的发展，为结肠癌的精准治疗提供了新的方向。

NCCN肿瘤临床实践指南(2020.v4)提出了三个基于基因表达谱的结肠癌分子诊断产品，Oncotype Dx、ColoPrint及ColDx，可以预测结肠癌手术后的远处转移风险及辅助化疗获益的几率。Oncotype Dx通过检测12个基因的表达谱预测Ⅱ、Ⅲ期结直肠癌的复发风险以及手术后是否需要化疗及化疗方案的选择，亦可评估Ⅱ期直肠癌术后生存(参见Reimers,M.S.et al.,2014,Journal of the National Cancer Institute,106)；ColoPrint为基于18个基因的表达谱的检测方法，同样用于Ⅱ期结肠癌的复发风险评估；ColDx则为基于芯片技术的643个基因的表达谱的检测方法，评估Ⅱ期结肠癌的复发风险评估。三个产品的共同特点是风险评估指数为一个独立的预后指标，不受其他危险因素的影响，包括TNM分期、肿瘤分级、淋巴结转移、错配修复(MMR)状态、穿孔等。

除复发风险评估外，基于表达谱的结直肠分子分型可将其分为不同的分子亚型，进一步描述肿瘤的分子特征及可能的发生机制，进而有针对性地制定临床治疗方案或提供靶向药物的研发方向。由6个从事基于基因表达的结直肠癌分子分型研究机构形成的研究联盟综合各自的研究结果，提出了一个达成共识的分子分型方法“CMS”(参见Guinney J.etal.,The consensus molecular subtypes of colorectal cancer[J].Naturemedicine.2015,21(11):1350-6)。CMS分子分型包括：CMS1(微卫星不稳定加免疫激活型，14％)，特征为高突变、微卫星不稳定(MSI)、强免疫激活；CMS2(经典型，37％)，特征为上皮型、染色体不稳定、WNT及MYC信号通路激活；CMS3(代谢型，13％)，特征为上皮型、明显的代谢失调；CMS4(间皮型，23％)，特征为TGFβ激活、侵犯基质、血管形成；以及混合型(13％)，其可能代表了不明亚型或肿瘤内的异质性。但是，CMS分型体系中，亚型间，尤其是CMS1至CMS3之间的生存数据(OS，DFS)无明显差异。

发明内容

在一方面，本发明提供一组用于确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险的基因群，其包括分子分型及生存风险评估相关基因。在一实施方案中，所述基因群还包括参考基因。所述结直肠癌分子分型包括CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型。

在一方面，本发明还提供用于检测本发明的基因群中的基因的表达水平的试剂。在一优选实施方案中，所述试剂为检测本发明基因转录的RNA、特别是mRNA的量的试剂；或者其为检测与mRNA互补的cDNA的量的试剂。在一具体实施方案中，所述试剂为引物、探针或其组合。

在另一方面，本发明还提供对结直肠癌进行分子分型和/或生存风险评估的产品，其包含本发明的试剂。本发明还提供本发明的基因群或试剂在制备产品中的应用。所述产品用于确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险。在一实施方案中，所述产品为二代测序试剂盒、实时荧光定量PCR检测试剂盒、基因芯片、蛋白芯片、ELISA诊断试剂盒或免疫组化(IHC)试剂盒。在优选的实施方案中，所述产品为二代测序试剂盒或实时荧光定量PCR检测试剂盒。

在一方面，本发明还提供用于确定受试者的结直肠癌分子分型和/或生存风险的方法，所述方法包括：(1)提供受试者的样本；(2)测定所述样本中本发明的基因群中基因的表达水平；(3)确定所述受试者的结直肠癌分子分型和/或生存的风险。

附图说明

图1示出结直肠癌分子分型及生存风险相关基因(增殖相关基因、细胞外基质相关基因、细胞内基质相关基因、免疫相关基因、免疫球蛋白相关基因)在CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型(Mixed)中的表达热图。

图2示出采用Kaplan-Meier法为1091例结直肠癌病例(分为CRC1、CRC2、CRC3、CRC4、CRC5和混合型)进行生存分析的结果，表示结直肠癌每种亚型生存风险有不同。其中，CRC2亚型10年无远处转移生存率较好，CRC1亚型及CRC5亚型10年无远处转移生存率相对较差，CRC3亚型和CRC4亚型预后中等。

图3示出采用Kaplan-Meier法为1091例结直肠癌病例(分为免疫蛋白指数强和免疫蛋白指数弱两组)进行生存分析的结果，表示免疫球蛋白指数可以指示结直肠癌预后。根据免疫球蛋白指数可将结直肠癌病例分为免疫球蛋白指数强和免疫球蛋白指数弱两组，其中免疫球蛋白指数强组的10年无远处转移生存率较高。

图4示出采用Cox模型建立风险评估模型并对1091例结直肠癌病例(分为低、高风险两组)进行生存分析的结果，表示结直肠癌复发风险指数可以指示生存风险。低风险(复发风险指数为0-65)组的无远处转移生存率较高，高风险(复发风险指数为66-100)组的10年无远处转移生存率较低。

图5A示出采用Kaplan-Meier法为生存风险评估为高风险(173例)的Ⅲ期结肠癌病例(分为接受化疗和未接受化疗两组)进行生存分析的结果，表示对于生存风险评估为高风险的Ⅲ期结肠癌病例，接受化疗的病例组的10年无远处转移生存率比未接受化疗的病例组高。

图5B示出采用Kaplan-Meier法为生存风险评估为低风险(108例)的Ⅲ期结肠癌病例(分为接受化疗和未接受化疗两组)进行生存分析的结果，表示对于生存风险评估为低风险的Ⅲ期结肠癌病例，接受与未接受化疗的病例组的10年无远处转移生存率无显著差异。

具体实施方式

一般定义和术语

以下将对本发明进一步详细说明，应理解，所述用语旨在描述目的，而非限制本发明。

除非另有说明，本文使用的所述技术和科学术语具有与本发明所属领域技术人员通常所理解的相同的含义。若存在矛盾，则以本申请提供的定义为准。文中未注明具体条件的实验方法，通常例如可以按照常规条件Sambrook et al.,Molecular Cloning:ALaboratory Manual,4th ed,Cold Spring Harbor,N.Y.,2012中所述的条件，或按照制造商所建议的条件。

当以范围、优选范围、或者优选的数值上限以及优选的数值下限的形式表述某个量、浓度或其他值或参数的时候，应当理解相当于具体揭示了通过将任意一对范围上限或优选数值与任意范围下限或优选数值结合起来的任何范围，而不考虑该范围是否具体揭示。除非另有说明，本文所列出的数值范围旨在包括范围的端点和该范围内的所有整数和分数(小数)。

术语“约”、“大约”当与数值变量并用时，通常指该变量的数值和该变量的所有数值在实验误差内(例如对于平均值95％的置信区间内)或在指定数值的±10％内，或更宽范围内。

术语“任选”或“任选存在”是指随后描述的事件或情况可能发生或可能不发生，该描述包括发生所述事件或情况和不发生所述事件或情况。

表述“包含”或与其同义的类似表述“包括”、“含有”和“具有”等是开放性的，不排除额外的未列举的元素、步骤或成分。表述“由…组成”排除未指明的任何元素、步骤或成分。表述“基本上由…组成”指范围限制在指定的元素、步骤或成分，加上任选存在的不会实质上影响所要求保护的主题的基本和新的特征的元素、步骤或成分。应当理解，表述“包含”涵盖表述“基本上由…组成”和“由…组成”。

表述“至少一个(种)”或者“一个(种)或多个(种)”可以表示1、2、3、4、5、6、7、8、9个(种)或更多个(种)。

本文所述的基因表达水平的检测可以例如通过检测目标核酸(例如RNA转录物)来实现，也可以例如通过检测目标多肽的量(例如编码的蛋白)，例如用蛋白组学方法检测蛋白表达水平来实现。目标多肽的量，例如目标基因编码的多肽、蛋白或蛋白片段的量，可以针对样本中总蛋白的量或参考基因所编码的多肽的量来标准化。目标核酸的量，例如目标基因的DNA、其RNA转录物或与RNA转录物互补的cDNA的量，可以针对样本中总DNA、总RNA或总cDNA的量或者针对一组参考基因的DNA、RNA转录物或与RNA转录物互补的cDNA的量来标准化。

在本文中，术语“多肽”是指由氨基酸以肽键连接组成的化合物，包括多肽的全长或氨基酸片段。在本文中，“多肽”与“蛋白”可以互换使用。

术语“核苷酸”包括脱氧核糖核苷酸和核糖核苷酸。术语“核酸”是指由两个或以上核苷酸组成的聚合物，涵盖脱氧核糖核酸(DNA)、核糖核酸(RNA)以及核酸类似物。

术语“RNA转录物”是指总RNA，即编码或者非编码RNA，包括直接来自于组织或外周血样本中，也包括间接来自于细胞裂解后的组织或血液样本中的RNA。总RNA包含tRNA、mRNA和rRNA，其中，mRNA包括目标基因转录的mRNA，也包括来自于其他非目标基因的mRNA。术语“mRNA”可包括前体mRNA和成熟mRNA，既可为mRNA全长也可为其片段。在本文中，可用于检测的RNA优选为mRNA，更优选为成熟mRNA。术语“cDNA”是指具有与RNA互补碱基序列的DNA。本领域技术人员可应用本领域已知方法由基因的DNA获得其RNA转录物和/或与其RNA转录物互补的cDNA，例如，通过化学合成方法或分子克隆方法。

在本文中，目标核酸(例如RNA转录物)可以例如通过杂交、扩增或者测序的方法来检测和量化。比如，将RNA转录物与探针或者引物杂交形成复合物，通过检测复合物的量获得目标核酸的量。术语“杂交”是指在适当条件下，两个核酸片段通过稳定且特异的氢键结合，形成双螺旋复合物的过程。

术语“扩增引物”或“引物”，是指包含5～100个核苷酸的核酸片段，优选地，包含能起始酶促反应(如，酶促扩增反应)的15～30个核苷酸。

术语“(杂交)探针”是指包括至少5个核苷酸的核酸序列(可以为DNA或RNA)，比如，包含5～100个核苷酸，其能在指定条件下与目标核酸(例如目标基因的RNA转录物或者RNA转录物的扩增产物、或与RNA转录物互补的cDNA)杂交形成复合物。杂交探针上还可以包括用于检测的标志物。术语“TaqMan探针”是一种基于TaqMan技术的探针，其5’末端携带荧光基团，例如FAM、TET、HEX、NED、VIC或Cy5等，3’末端携带荧光淬灭基团(例如TAMRA和BHQ基团)或非荧光淬灭基团(TaqMan MGB探针)，具有能够与目标核酸杂交的核苷酸序列，当应用于实时荧光定量PCR(RT-PCR)时可报告与其形成复合物的核酸的量。

术语“参考基因”或“内参基因”在本文中指能够作为参照物用于校正和标准化目标基因的表达水平的基因，可以考虑的参考基因纳入标准有：(1)在组织中稳定表达，其表达水平不受病理状况或药物治疗影响或者影响较小；(2)表达水平不宜过高，以避免在表达数据(如通过二代测序获得)获取的数据中占比过高，影响其他基因的数据检测和解读的准确性。因此，可用于检测本发明的参考基因表达水平的试剂也在本发明的保护范围之内。可以用于本发明的参考基因包括但不限于“看家基因”。在本文中，“参考基因”、“内参基因”和“看家基因”可以互换使用。

术语“看家基因”指这样一类基因，其产物是维持细胞基本生命活动所必需的，在个体生长各个阶段的大多数或几乎全部组织中持续表达，并且表达水平受环境因素影响较小。

在本文中，术语“结直肠癌”又称为大肠癌、直肠癌、大肠直肠癌、结肠直肠癌、或肠癌，为源自结肠或直肠的癌症。因为细胞不正常的生长，可能侵犯或转移至身体其他部。

在本文中，术语“结直肠癌分子分型”是指基于结直肠癌肿瘤组织的基因表达谱建立的结直肠癌分类方法。

在本文中，术语“预后”是指对结直肠癌的病程和发展结果的预测，包括但不限于对结直肠癌生存风险的预测。生存风险较低的结直肠癌的预后较好，反之则预后较差。

“生存风险评估”在本文中是指从随机开始的指定期间内，评估结直肠癌患者疾病进展或因为结直肠癌及其相关原因死亡的可能性。在本文中，“疾病进展”包括但不限于肿瘤细胞增多、再次出现和转移。在本文中，“生存风险评估”和“复发风险评估”可互换使用。在本文中，术语“复发风险”和“生存风险”可以互换使用。在本文中，通过计算复发风险评分(又叫做复发风险指数)来进行生存风险评估。

本发明的基因群

在一总的方面，本发明提供一组基因群，其包括结直肠癌分子分型及生存风险评估相关基因。

本发明的结直肠癌分子分型及生存风险评估相关基因可以包括：(1)21个增殖相关基因，(2)17个细胞外基质相关基因，(3)16个细胞内基质相关基因，(4)13个免疫相关基因以及(5)9个免疫球蛋白相关基因。

(1)增殖相关基因：CCNB2、MKI67、RRM1、SPAG5、TOP2A、CKS1B、DNMT1、DTYMK、EZH2、FOXM1、MAD2L1、MCM2、MCM3、MCM6、PCLAF、PLK1、PSRC1、RFC5、SMC4、TMPO和UBE2S；

(2)细胞外基质相关基因：AEBP1、COL6A3、HTRA1、MMP2、TIMP3、CLIC4、DPYSL3、EFEMP1、GJA1、LGALS1、LUM、MSN、PALLD、SERPING1、TIMP1、TNC和VIM；

(3)细胞内基质相关基因：ADNP、MAPRE1、TMEM189-UBE2V1、CSE1L、EIF2S2、EIF6、NCOA6、PPP1R3D、PRPF6、PSMA7、RALY、RBM39、RNF114、RPS21、TOMM34和ZMYND8；

(4)免疫相关基因：CCL5、CD2、CXCL13、GZMA、MNDA、BCL2A1、CCL3、CSF2RB、LCP2、PLA2G7、RASGRP1、RHOH和TLR2；

(5)免疫球蛋白相关基因：CD79A、IGKV1-17、IGKV2-28、CD27、IGHM、IGKV4-1、JCHAIN、POU2AF1和TNFRSF17。

在一具体方面，本发明提供了一组基因群，其包括结直肠癌分子分型及生存风险评估相关基因，即如上所述：(1)21个增殖相关基因中的一个或多个，(2)17个细胞外基质相关基因中的一个或多个，(3)16个细胞内基质相关基因中的一个或多个，(4)13个免疫相关基因中的一个或多个以及(5)9个免疫球蛋白相关基因中的一个或多个。

在一实施方案中，所述基因群包括76个结直肠癌分子分型及生存风险评估相关基因(参见表1)，其包括如上所述21个增殖相关基因，17个细胞外基质相关基因，16个细胞内基质相关基因，13个免疫相关基因以及9个免疫球蛋白相关基因。

在另一实施方案中，所述基因群包括21个结直肠癌分子分型及生存风险评估相关基因(参见表2)，其包括5个增殖相关基因(CCNB2、MKI67、RRM1、SPAG5和TOP2A)，5个细胞外基质相关基因(AEBP1、COL6A3、HTRA1、MMP2和TIMP3)，3个细胞内基质相关基因(ADNP、MAPRE1和TMEM189-UBE2V1)，5个免疫相关基因(CCL5、CD2、CXCL13、GZMA和MNDA)，以及3个免疫球蛋白相关基因(CD79A、IGKV1-17和IGKV2-28)。

在一优选实施方案中，所述基因群还可以包括参考基因。优选地，参考基因为看家基因。可以用于本发明的看家基因包括但不限于以下中的一个或多个：GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1。在一实施方案中，本发明的基因群还可以包括以下中的至少一个参考基因(例如1、2、3、4、5或6个)、优选至少3个、最优选6个：GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1。在一具体实施方案中，所述参考基因包括GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1。在另一具体实施方案中，所述参考基因包括GAPDH、GUSB和TFRC。

在一优选实施方案中，本发明的基因群包括如上所述76个分子分型及生存风险评估相关基因，以及参考基因。在一具体实施方案中，所述参考基因包括GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1，所述基因群如表1所示。

在又一优选实施方案中，本发明的基因群包括如上所述的21个分子分型及生存风险评估相关基因，以及参考基因。在一实施方案中，所述参考基因包括GAPDH、GUSB、MRPL19、PSMC4、SF3A1和TFRC中的三个。在一具体实施方案中，所述参考基因包括GAPDH、GUSB和TFRC，所述基因群如表2所示。

表1

表2

序号	功能	基因名
			1	增殖相关基因	CCNB2
2	增殖相关基因	MKI67
			3	增殖相关基因	RRM1
4	增殖相关基因	SPAG5
			5	增殖相关基因	top2A
6	细胞外基质相关基因	AEBP1
			7	细胞外基质相关基因	COL6A3
8	细胞外基质相关基因	HTRA1
			9	细胞外基质相关基因	MMP2
10	细胞外基质相关基因	TIMP3
			11	细胞内基质相关基因	ADNP
12	细胞内基质相关基因	MAPRE1
			13	细胞内基质相关基因	TMEM189-UBE2V1
14	免疫相关基因	CCL5
			15	免疫相关基因	CD2
16	免疫相关基因	CXCL13
			17	免疫相关基因	GZMA
18	免疫相关基因	MNDA
			19	免疫球蛋白相关基因	CD79A
20	免疫球蛋白相关基因	IGKV1-17
			21	免疫球蛋白相关基因	IGKV2-28
22	看家基因	GAPDH
			23	看家基因	GUSB
24	看家基因	TFRC

在一具体的实施方案中，本发明的基因群可用于确定结直肠癌分子分型(亚型分型)和/或评估结直肠癌患者的生存风险。

结直肠癌分子分型可以包括CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型。生存风险可以包括低风险和高风险。

本领域技术人员应当理解，本发明的基因群不限于以上所列的组合。鉴于本发明公开的内容，本领域技术人员应当能够将本发明的分子分型及生存风险评估相关基因和参考基因进行组合，从而获得包含不同基因的组合的基因群，这些基因群也在本发明的保护范围内。

本发明的诊断产品

在又一方面，本发明涉及用于检测本发明基因群中基因的表达水平的试剂及其在制备检测/诊断产品中的应用。所述基因群如上所述。

所述试剂或所述检测/诊断产品可以用于确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险。本领域技术人员应当理解，试剂或产品中的选择可以各自对应于本发明的基因群中的基因。作为示例，当列举出多个选择，例如SEQ ID NO.165-SEQ IDNO.212的引物或SEQ ID NO.213-SEQ ID NO.236的探针时，并不表示本发明的试剂或产品必须包含全部这些引物或探针，而是表示所述试剂或产品会包含其中所涵盖基因所对应的那些引物或探针。

在优选的方案中，所述试剂用于检测目标核酸(例如本发明的基因群中的基因的DNA、RNA转录物或与RNA转录物互补的cDNA)的量，优选地，为用于检测本发明的基因群中的基因的RNA转录物，特别是mRNA的量，或者检测与mRNA互补的cDNA的量。在一实施方案中，所述试剂为检测目标基因(即本发明的基因群中的基因)的RNA转录物、特别是mRNA的量的试剂。在又一实施方案中，所述试剂为检测与所述mRNA互补的cDNA的量的试剂。

在一优选方案中，所述试剂为探针或引物或其组合，其能够与目标核酸(例如本发明的基因群的基因、其RNA转录物或与RNA转录物互补的cDNA)的部分序列杂交形成复合物。优选地，探针和引物对目标核酸具有高度特异性。探针和引物可以是人工合成的。

在一实施方案中，所述试剂为引物。在一实施方案中，所述引物具有如SEQ IDNO.1-SEQ ID NO.164所示的序列(又参见表3)。在另一实施方案中，所述引物具有如SEQ IDNO.165-SEQ ID NO.212所示的序列(又参见表4)。

在一优选实施方案中，所述引物用于二代测序，优选地用于靶向测序。在一具体实施方案中，所述引物用于靶向测序且具有如SEQ ID NO.1-SEQ ID NO.164所示的序列(表3)。

在另一优选实施方案中，所述引物用于定量PCR，优选实时荧光定量PCR(RT-PCR)，例如基于SYBR Green染料的SYBR Green RT-PCR和基于TaqMan技术的TaqMan RT-PCR。TaqMan RT-PCR可以例如为多重RT-PCR和单重RT-PCR。在一实施方案中，所述引物用于SYBRGreen RT-PCR，并且具有如SEQ ID NO.165-SEQ ID NO.212所示的序列(又参见表4)。在另一实施方案中，所述引物用于TaqMan RT-PCR，并且具有如SEQ ID NO.165-SEQ ID NO.212所示的序列(表4)。在一具体实施方案中，所述引物用于单重或多重RT-PCR且具有SEQ IDNO.165-SEQ ID NO.212所示的序列(表4)。

在一实施方案中，所述引物用于制备检测/诊断产品，所述产品为基于靶向测序的二代测序试剂盒或实时荧光定量PCR试剂盒。

在另一实施方案中，所述试剂为探针，包括但不限于用于RT-PCR、原位杂交(ISH)、DNA印记或RNA印记、基因芯片技术等检测的探针。

在一方案中，所述探针为能够用于原位杂交的探针。用于原位杂交的探针例如可以为用于双色银染原位杂交(DISH)、DNA荧光原位杂交(DNA-FISH)、RNA荧光原位杂交(RNA-FISH)、显色原位杂交(CISH)等的探针，所述探针可带有标记物，所述标记物可为荧光基团(例如Alexa Fluor染料、FITC、Texas Red、Cy3、Cy5等)、生物素、地高辛等。在另一方案中，所述探针能够用于基因芯片检测，所述探针还可带有标记物，所述标记物可为荧光基团。在一具体实施方案中，所述探针可用于制备检测/诊断产品，所述产品为基因芯片。

在一优选实施方案中，所述探针用于RT-PCR。在一实施方案中，所述探针用于TaqMan RT-PCR。在一实施方案中，所述探针为TaqMan探针。在一实施方案中，所述探针具有如SEQ ID NO.213-SEQ ID NO.236所示的序列(又参见表4)。在一具体实施方案中，所述探针为具有如SEQ ID NO.213-SEQ ID NO.236所示序列的TaqMan探针。

在一实施方案中，所述探针可用于制备检测/诊断产品，所述产品为实时荧光定量PCR检测试剂盒。

在又一实施方案中，所述试剂为引物和探针的组合。优选地，所述探针为TaqMan探针。在一实施方案中，所述引物和探针的组合用于RT-PCR，例如单重或多重RT-PCR。在一实施方案中，所述引物具有如SEQ ID NO.165-SEQ ID NO.212所示的序列。在一实施方案中，所述探针具有如SEQ ID NO.213-SEQ ID NO.236所示的序列。在一具体实施方案中，所述引物具有如SEQ ID NO.165-SEQ ID NO.212所示的序列，所述探针为具有如SEQ ID NO.213-SEQ ID NO.236所示序列的TaqMan探针(又参见表4)。

在一实施方案中，所述探针和引物可用于制备诊断产品，所述诊断产品为实时荧光定量PCR检测试剂盒，例如多重或单重实时荧光定量PCR检测试剂盒。

在可选的实施方案中，所述试剂用于检测目标基因(本发明的基因群中的基因)编码的多肽的量。优选地，所述试剂为抗体、抗体片段或者亲和性蛋白，其能够与目标基因编码的多肽特异性结合。更优选地，所述试剂为能够与目标基因编码的多肽特异性结合的抗体或抗体片段。所述抗体、抗体片段或者亲和性蛋白还可带有用于检测的标记物，例如酶(例如过氧化物辣根酶)、放射性同位素、荧光标记物(例如Alexa Fluor染料、FITC、TexasRed、Cy3、Cy5等)、化学发光物质(例如鲁米诺)、生物素、量子点标记(Qdot)等。因此，在一优选的方案中，所述试剂为能够与目标基因编码的多肽特异性结合的抗体或抗体片段，并且可选地带有用于检测的标记物，所述标记物选自酶、放射性同位素、荧光标记物、化学发光物质、生物素、量子点标记。在一实施方案中，所述试剂用于制备检测/诊断产品，所述产品为蛋白芯片(例如蛋白质微阵列)、ELISA诊断试剂盒或免疫组化(IHC)试剂盒。

因此，在另一方面，本发明提供一种产品，其可用于确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险。所述产品包含本发明的试剂。所述产品可以为基于靶向测序的二代测序试剂盒、实时荧光定量PCR试剂盒、基因芯片、蛋白芯片、ELISA诊断试剂盒或免疫组化(IHC)试剂盒或其组合。

在一实施方案中，所述产品为基于二代测序(NGS)的诊断产品。在一具体实施方案中，所述产品包含检测本发明的基因群的基因的表达水平的试剂。在一实施方案中，所述基因群包括82个基因，即如上所述的76个分子分型及生存风险评估相关基因以及6个看家基因(又参见表1)。在一实施方案中，所述的本发明的基因群包括24个基因，即如上所述的21个分子分型及生存风险评估相关基因以及3个看家基因，所述3个看家基因包括GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1中的三个。在又一实施方案中，所述的本发明的基因群包括24个基因，即如上所述的21个分子分型及生存风险评估相关基因以及3个看家基因(又参见表2)。在一具体实施方案中，所述基于二代测序(NGS)的诊断产品包含具有如SEQ IDNO.1-SEQ ID NO.164所示序列的引物(又参见表3)。

在又一实施方案中，所述诊断产品为基于荧光定量PCR的诊断产品，优选实时荧光定量PCR(RT-PCR)，例如SYBR Green RT-PCR和TaqMan RT-PCR。TaqMan RT-PCR可以例如是多重RT-PCR和单重RT-PCR。在一实施方案中，所述诊断产品包含检测本发明的基因群的基因的表达水平的试剂。在一实施方案中，所述基因群包括82个基因，即如上所述的76个分子分型及生存风险评估相关基因以及6个看家基因(又参见表1)。在一实施方案中，所述基因群包括24个基因，即如上所述的21个分子分型及生存风险评估相关基因以及3个看家基因(又参见表2)。在一具体实施方案中，所述基于荧光定量PCR的诊断产品包含具有如SEQ IDNO.165-SEQ ID NO.212所示序列的引物。在另一具体实施方案中，所述基于荧光定量PCR的诊断产品包含具有如SEQ ID NO.213-SEQ ID NO.236所示序列的TaqMan探针。在一优选实施方案中，所述基于荧光定量PCR的诊断产品包含具有如SEQ ID NO.165-SEQ ID NO.212所示序列的引物，以及具有如SEQ ID NO.213-SEQ ID NO.236所示序列的TaqMan探针(又参见表4)。

在一实施方案中，所述产品为体外诊断产品。在一具体的实施方案中，所述产品为诊断试剂盒。

在一实施方案中，所述产品用于确定结直肠癌亚型分型和/或评估结直肠癌患者的生存风险。

在一优选的实施方案中，所述产品还包含总RNA抽提试剂、逆转录试剂、二代测序试剂和/或定量PCR试剂。

所述总RNA抽提试剂可以为本领域常规的总RNA抽提试剂。其实例包括但不限于RNA storm CD201、Qiagen 73504、Invitrogen K156002和ABI AM1975。

所述逆转录试剂可以为本领域常规的逆转录试剂，并且优选地包含dNTP溶液和/或RNA逆转录酶。逆转录试剂的实例包括但不限于NEB M0368L、Thermo K1622、ABI4366596。

所述二代测序试剂可以为本领域常规使用的试剂，只要能够满足对所得序列进行二代测序的要求即可。二代测序试剂可以为市售产品，其实例包括但不限于Illumina公司

Reagent Kit v3(150cycle)(MS-102-3001)、

Targeted RNA Index KitA-96Indices(384Samples)(RT-402-1001)。二代测序为本领域常规的二代测序，例如为靶向RNA-seq技术。因此，二代测序试剂还可以包含可供构建靶向RNA-seq的文库Illumina定制的试剂，例如

Targeted RNA Custom Panel Kit(96Samples)(RT-102-1001)。

所述定量PCR试剂为本领域常规使用的试剂，只要能够满足对所得序列进行定量PCR的要求即可。所述定量PCR试剂可以为市售的。所述定量PCR技术为本领域常规的定量PCR技术，优选为实时荧光定量PCR技术，例如SYBR Green RT-PCR和Taqman RT-PCR技术。所述PCR试剂较佳地还包含可供构建定量PCR的文库的试剂。优选地，所述定量PCR试剂还可以包含实时荧光定量PCR试剂，例如用于SYBR Green RT-PCR的试剂(例如SYBR Green预混物，例如SYBR Green PCR Master Mix)和用于Taqman RT-PCR的试剂(例如Taqman RT-PCRMaster Mix)。本领域技术人员能够根据所用的定量PCR技术选择合适的定量PCR试剂。用于定量PCR检测的检测平台可以为ABI7500实时荧光定量PCR仪或罗氏

480Ⅱ实时荧光定量PCR仪或其他所有可进行实时荧光定量检测的PCR仪。

在一具体实施方案中，所述产品为基于靶向RNA-seq的二代测序试剂盒，其包含具有如表3所示序列的引物，任选地，还包含选自以下的一个或多个：总RNA抽提试剂、逆转录试剂和二代测序试剂。优选地，所述二代测序试剂为可供构建靶向RNA-seq的文库Illumina定制的试剂。

在又一具体实施方案中，所述产品为SYBR Green RT-PCR的试剂盒，其包含具有如表4所示序列的引物(SEQ ID NO.165-SEQ ID NO.212)，任选地，还包含选自以下的一个或多个：总RNA抽提试剂、逆转录试剂和用于SYBR Green RT-PCR的试剂。

在另一具体实施方案中，所述产品为TaqMan RT-PCR检测试剂盒，其包含具有如表4所示序列的引物(SEQ ID NO.165-SEQ ID NO.212)和TaqMan探针(SEQ ID NO.213-SEQ IDNO.236)，任选地，还包含选自以下的一个或多个：总RNA抽提试剂、逆转录试剂和用于TaqMan RT-PCR的试剂。

本发明的诊断产品(优选试剂盒的形式)还优选地包含从受试者提取检测样本的器械；例如从受试者体内提取组织或血液的器械，优选任何能用于取血的釆血针、注射器等。所述受试者为哺乳动物，优选为人，特别是患有结直肠癌的患者。

本发明的方法和应用

在又一方面，本发明还涉及一种用于确定受试者的结直肠癌分子分型和/或生存风险的方法，所述方法包括

(1)提供受试者的样本，

(2)测定所述样本中本发明的基因群中基因的表达水平，

(3)确定所述受试者的结直肠癌分子分型和/或复发风险。

本发明的方法可以用于诊断或非诊断目的。

用于本发明的方法的受试者为哺乳动物，优选为人，特别是结直肠癌患者。

在步骤(1)中使用的样本没有特别的限制，只要能从其中获得基因群中的基因的表达水平即可，例如可以从所述样本提取受试者的总RNA、总蛋白等，优选为总RNA。所述样本优选地为组织、血液、血浆、体液或其组合的样本，优选为组织样本，特别是石蜡组织样本。在优选的实施方案中，样本为肿瘤组织样本或包含肿瘤细胞的组织样本。在优选的实施方案中，样本为肿瘤细胞含量高的组织。

步骤(2)中可以采用本领域已知的测定基因表达水平的方法来进行。本领域技术人员可根据需要选择步骤(1)中的样本种类和样本量，并选择本领域的常规技术实现步骤(2)所述测定。优选地，根据参考基因的表达水平对目标基因(例如本发明的分子分型及生存风险评估相关基因)的表达水平进行标准化。对基因的表达水平进行标准化的方法是本领域技术人员所熟知的。

在一实施方案中，步骤(2)可通过检测目标基因(本发明的基因群中的基因)编码的多肽的量来实现。所述检测可通过如上所述的试剂与本领域已知的技术来实现，其中所述技术包括但不限于酶联免疫吸附分析法(ELISA)、化学发光免疫分析技术(例如免疫化学发光分析、化学发光酶免疫分析、电化学发光免疫分析)、流式细胞术、免疫组化法(IHC)。

在一优选实施方案中，步骤(2)可通过检测目标核酸的量实现。所述检测可通过如上所述的试剂与本领域已知的技术来实现，包括但不限于分子杂交技术、定量PCR技术或核酸测序技术等。分子杂交技术包括但不限于ISH技术(例如DISH、DNA-FISH、RNA-FISH、CISH技术等)、DNA印记或RNA印记技术、基因芯片技术(例如微阵列芯片或微流控芯片技术)等，优选原位杂交技术。定量PCR技术包括但不限于半定量PCR和RT-PCR技术，优选RT-PCR技术，例如SYBR Green RT-PCR技术、TaqMan RT-PCR技术。核酸测序技术包括但不限于Sanger测序、二代测序(NGS)、三代测序、单细胞测序技术等，优选二代测序，更优选靶向RNA-seq技术。更优选地，所述检测使用本发明的试剂来实现。

在一优选实施方案中，在步骤(2)中，采用二代测序技术测定本发明的基因群中基因的表达水平。在一实施方案中，所述基因群的基因如表1或表2所示。在一实施方案中，所述基因群包括如上所述的76个分子分型及生存风险评估相关基因以及6个看家基因，并且还可以参见表1。在又一实施方案中，所述基因群包括如上所述的21个分子分型及生存风险评估相关基因以及3个看家基因，并且还可以参见表2。

在一具体的实施方案中，步骤(2)可以包括：

(2a-1)提取样本中的总RNA；

(2a-2)将任选地进行纯化的总RNA转化为cDNA，然后将其制备成可用于二代测序的文库；

(2a-3)对步骤(2a-2)获得的文库进行测序，任选地根据看家基因的表达水平将分子分型及生存风险评估相关基因的表达水平标准化。

步骤(2a-1)的提取可以通过本领域常规方法进行，优选地利用可商购的RNA提取试剂盒提取受试者的新鲜冷冻组织或石蜡包埋组织的总RNA。在更优选的实施方案中，可以使用RNA storm CD201或Qiagen 73504进行提取。

在一优选的实施方案中，步骤(2a-2)可以包括以下步骤：

(ⅰ)将提取的总RNA反转录生成所关注基因的cDNA；

(ⅱ)将所得cDNA制备成可供测序的文库。

在一优选实施方案中，步骤(2a-2)中使用如表3所示的引物对cDNA进行扩增以制备成可供测序的文库。

步骤(2a-3)可以通过RNA测序完成。所述的测序的方法可以为本领域常规的用于确定基因表达水平的RNA-seq测序方法。优选地利用Illumina NextSeq/MiSeq/MiniSeq/iSeq系列测序仪进行二代测序。利用试剂盒中的引物对本发明的基因群中的基因进行扩增，根据步骤(2a-2)所制备的文库的不同，可以对所得基因序列进行二代测序。优选地，二代测序为靶向RNA-seq技术，用Illumina NextSeq/MiSeq/MiniSeq/iSeq测序仪进行双端测序或单端测序。这样的过程可以由仪器本身自动完成。

在步骤(2)中，还可采用荧光定量PCR方法测定本发明的基因群中基因的表达水平。在一实施方案中，所述基因群包括如上所述的21个分子分型及生存风险评估相关基因以及3个看家基因，并且还可以参见表2。

在一具体实施方案中，步骤(2)可以包括：

(2b-1)提取样本中的总RNA；

(2b-2)将(2-1)所述总RNA反转录为cDNA；

(2b-3)将所获得cDNA进行实时荧光定量PCR(RT-PCR)检测，任选地根据看家基因的表达水平将分子分型及生存风险评估相关基因的表达水平标准化。

步骤(2b-1)的提取可以通过本领域常规方法进行，优选地利用可商购的RNA提取试剂盒提取受试者的新鲜冷冻组织或石蜡包埋组织的总RNA。在更优选的实施方案中，可以使用RNA storm CD201或Qiagen 73504进行提取。步骤(2b-2)的反转录可使用可商购的逆转录试剂盒进行。在一优选实施方案中，步骤(2b-3)所述RT-PCR方法为TaqMan RT-PCR。优选地，可使用引物和探针对如表2所示的基因分别进行RT-PCR检测，所述探针为TaqMan探针。优选地，所述引物和探针的序列如表4所示。在一实施方案中，使用如表4所示的引物和探针进行单重或多重RT-PCR检测。

在可选的实施方案中，步骤(2b-3)所述RT-PCR方法为SYBR Green RT-PCR，可使用引物和可商购的SYBR Green预混物对表2所示基因分别或同时进行检测。优选地，所述引物的序列如SEQ ID NO.165-SEQ ID NO.212所示(又参见表4)。

上述RT-PCR检测可使用ABI 7500实时荧光定量PCR仪(Applied Biosystems)或罗氏的

480Ⅱ)进行。反应结束后，记录每个基因的Ct值，代表了各个基因的表达水平。

在本发明的一实施方案中，步骤(3)可以通过将步骤(2)中获得的所述样本中本发明的基因群中基因的表达水平进行统计分析完成。可以任选地根据Hu等开创的单一样品预测法SSP(Single Sample Predictor)(参见Hu Z,et al.,BMC genomics.2006,7:96)和Parker等优化的方法(参见Parker JS,et al,Journal of clinical oncology:officialjournal of the American Society of Clinical Oncology.2009,27(8):1160-7)来进行结直肠癌分子分型和复发风险预测。对步骤(2)获得的基因表达数据进行分析获得单一样品的亚型分型，并可以计算复发风险。

在一实施方案中，步骤(3)包括对结直肠癌进行分子分型，其包括根据步骤(2)中获得的受试者的样本中各基因的表达水平，判断受试者的结直肠癌分子分型。

本发明人通过EPIG基因表达谱分析程序(参见Zhou T,et al.,2006.EnvironHealth Perspect 114(4),553-559；Chou JW,et al.,2007.BMC Bioinformatics 8,427)分析Affymatrics基因芯片表达谱数据库中1091例具有临床信息的结直肠癌基因表达量，获得本发明基因的表达谱。进一步地，根据基因的表达谱，采用层次聚类的方法，比较各检测基因间的相似性，将基因进行分组；比较结直肠癌样本间表达谱的相似性，将结直肠癌进行分组，将结直肠癌分为CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型；将结直肠癌分子亚型的基因表达谱作为标准测试数据，用于对样本进行分子分型和生存风险评估。

结直肠癌分子亚型可以包括CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型：

CRC1亚型主要特征为增殖相关基因低表达，细胞外基质相关基因高表达，免疫相关基因低表达，细胞内基质相关基因低表达，10年无远处转移生存率低；

CRC2亚型主要特征为增殖相关基因中等表达，细胞外基质相关基因低表达，免疫相关基因高表达，细胞内基质相关基因低表达，10年无远处转移生存率最高；

CRC3亚型主要特征为增殖相关基因高表达，细胞外基质相关基因低表达，免疫相关基因低表达，细胞内基质相关基因高表达，10年无远处转移生存率中等；

CRC4亚型主要特征为增殖相关基因低表达，细胞外基质相关基因低表达，免疫相关基因高表达，细胞内基质相关基因低表达，10年无远处转移生存率中等；

CRC5亚型主要特征为增殖相关基因中等表达，细胞外基质相关基因高表达，免疫相关基因低表达，细胞内基质相关基因中等表达，10年无远处转移生存率低；

混合型为不属于CRC1型、CRC2型、CRC3型、CRC4型和CRC5型的结直肠癌。

在一具体实施方案中，步骤(3)可以包括判断受试者的结直肠癌分子分型，其包括：

(3-1)根据本发明的基因群在具有统计学显著性数量的结直肠癌样本(训练集)中的表达数据，建立CRC1型、CRC2型、CRC3型、CRC4型、CRC5型中本发明基因群的表达谱作为标准测试数据；

(3-2)根据步骤(2)中获得的所述样本中本发明基因群中基因的表达水平，采用Pearson相关分析法，计算所述样本中本发明基因群的表达谱与标准测试数据的CRC1型、CRC2型、CRC3型、CRC4型或CRC5型中基因表达谱之间的Pearson相关系数(即所述样本与CRC1型、CRC2型、CRC3型、CRC4型或CRC5亚型肿瘤之间的Pearson相关系数)；

(3-3)当所述样本基因表达谱与X亚型(X选自CRC1型、CRC2型、CRC3型、CRC4型和CRC5型)中基因表达谱的相关系数最高且可信限大于等于0.8时，可将所述样本判断为X亚型；当可信度低于0.8时，则将所述样本判断为混合型(Mixed)。

在又一实施方案中，步骤(3)还包括判断受试者的生存风险，其包括：

(3a)根据免疫球蛋白相关基因的表达水平判断受试者的免疫球蛋白指数；

(3b)根据错配修复状态判定受试者的MMR指数；以及

(3c)计算结直肠患者的生存风险。

在一实施方案中，步骤(3a)包括以下步骤：

(3a-1)根据本发明的基因群中的免疫球蛋白相关基因在具有统计学显著性数量的结直肠癌样本(训练集)中的表达数据，计算训练集中免疫球蛋白相关基因表达水平的加权平均值，结合生存数据，采用本领域已知的统计学软件(例如x-tile软件、SPSS或其他能够用于计算临界值的分析软件，优选x-tile软件)进行生存分析，取得能最大限度区分生存曲线差异的加权平均值作为临界值；

(3a-2)根据步骤(2)中获得的免疫球蛋白相关基因表达水平，计算受试者的样本中免疫球蛋白相关基因表达水平的加权平均值，即受试者的免疫球蛋白指数，基于步骤(3a-1)所述临界值，判断免疫球蛋白指数为强(步骤(2)中获得的免疫球蛋白相关基因表达水平＞临界值)或弱(步骤(2)中获得的免疫球蛋白相关基因表达水平≤临界值)；

(3a-3)根据步骤(3a-2)中获得的免疫球蛋白指数进行复发风险评估：受试者的免疫球蛋白指数强，则受试者免疫功能强，复发风险低，预后较好；受试者的免疫球蛋白指数弱，则受试者免疫功能弱，复发风险高，预后较差。

免疫球蛋白指数可以通过以下公式计算：

免疫球蛋白指数＝

免疫球蛋白相关基因

其中n为用于计算免疫球蛋白指数的免疫球蛋白相关基因的个数，其为1-9的整数。在一实施方案中，n＝9，免疫球蛋白相关基因包括：CD79A、IGKV1-17、IGKV2-28、CD27、IGHM、IGKV4-1、JCHAIN、POU2AF1和TNFRSF17(还可参见表1中的相关信息)。在另一实施方案中，n＝3，免疫球蛋白相关基因包括：CD79A、IGKV1-17和IGKV2-28(又可参见表2)。

在获得本发明的基因群中的基因的表达水平的数据之后，本领域技术人员能够应用本领域已知技术获得各组基因表达水平的加权平均值，并结合生存数据获得能最大限度区分生存曲线差异的加权平均值作为临界值。

在一实施方案中，步骤(3b)包括以下步骤：

(3b-1)确定受试者样本的错配修复(MMR)状态；以及

(3b-2)根据MMR状态判定受试者的MMR指数，其中MMR指数可以通过以下公式赋值：

当MMR状态为错配修复正常(pMMR)时，MMR指数＝1；

当MMR状态为错配修复缺陷(dMMR)时，MMR指数＝-1。

在本文中，“错配修复(mismatch repair，MMR)”指纠正DNA复制错误、重组以及某些类型的碱基修饰而引起的核苷酸错配的过程。MMR蛋白(例如MLH1、PMS2、MSH2和MSH6等)行使识别和修复错配的功能。通常而言，MMR状态可以包括错配修复缺陷(dMMR)和错配修复正常(pMMR)。

在本文中，“微卫星不稳定(microsatellite instability，MSI)”是指与正常的微卫星(MS)相比，微卫星由于重复单位的插入或缺失而造成的长度的任何改变。通常认为，MSI是由于错配修复缺陷引起的。

确定MMR状态的方法可以使用本领域已知的方法进行，可以包括例如：通过检测MMR蛋白的表达情况(例如利用免疫组化)以及通过检测微卫星位点不稳定性(例如利用PCR法)。在一些实施方案中，所述MMR蛋白包括MLH1、PMS2、MSH2和MSH6。在一些实施方案中，所述微卫星位点包括BAT25、BAT26、D5S346、D2S123和D17S250。在一些实施方案中，步骤(3b-1)通过利用免疫组化法检测MLH1、PMS2、MSH2和MSH6的表达和/或利用PCR检测BAT25、BAT26、D5S346、D2S123和D17S250来实现。

用于确定样本的MMR状态的方法可以参考例如Bethesda指南标准(J Natl CancerInst.2004Feb 18；96(4):261–268.)。例如，可以利用免疫组化法检测样本中MLH1、PMS2、MSH2和MSH6的表达，当：其中任一蛋白的表达完全缺失，则判定样本的MMR状态为MMR缺失(dMMR)；没有MMR蛋白表达缺失，则判定样本的MMR状态为MMR正常(pMMR)。或者，可以利用PCR方法检测微卫星位点BAT25、BAT26、D5S346、D2S123和D17S250，并与正常MS相比较，当：其中有至少2个位点(例如2、3、4或5个位点)(即40％以上)表现出不稳定，则判定样本的MSI为微卫星高度不稳定(high frequency MSI，MSI-H)，MMR状态为dMMR；其中有1个位点表现出不稳定，则判定样本的MSI为微卫星低度不稳定(low frequency MSI，MSI-L)，MMR状态为pMMR；未检测到不稳定，则判定样本的MSI为微卫星稳定(microsatellite stable，MSS)，MMR状态为pMMR。

在一实施方案中，步骤(3)还包括(3c)计算结直肠患者的生存风险，其包括以下步骤：

(3c-1)采用Cox模型，以疾病进展或死亡是否发生及发生时间作为观察终点，根据步骤(3-2)中获得的所述样本与CRC1型、CRC2型、CRC3型、CRC4型或CRC5亚型肿瘤之间的Pearson相关系数、步骤(3a-2)获得的免疫球蛋白指数和步骤(3b-2)获得的MMR指数对于生存发生影响的相对危险度确定相应系数，计算受试者的复发风险评分(Risk ofRecurrence，ROR)；

(3c-2)根据步骤(3c-1)中所计算得出的复发风险评分(又称为复发风险指数)，判断受试者的生存风险：低风险(复发风险评分为0-65)和高风险(复发风险评分为66-100)。

在一具体实施方案中，步骤(3c-1)中使用82个结直肠癌分子分型及生存风险相关基因(又可参见表1)计算受试者的复发风险评分，

ROR＝(0.18*CRC1)+(-0.09*CRC2)+(-0.09*CRC3)+(0.07*CRC4)+(0.27*CRC5)+(-0.15*免疫球蛋白指数)+(0.32*MMR指数)；其中，

“CRC1”代表该肿瘤与CRC1型肿瘤的Pearson相关系数；“CRC2”代表该肿瘤与CRC2型肿瘤的Pearson相关系数；“CRC3”代表该肿瘤与CRC3型肿瘤的Pearson相关系数；“CRC4”代表该肿瘤与CRC4型肿瘤的Pearson相关系数；“CRC5”代表该肿瘤与CRC5型肿瘤的Pearson相关系数；“免疫球蛋白指数”为表1中9个免疫球蛋白相关基因计算的免疫球蛋白指数；“MMR指数”为根据错配修复状态判定的MMR指数，MMR指数判定方法如前所述。

在另一具体实施方案中，步骤(3c-1)中使用21个结直肠癌分子分型及生存风险相关基因(又可参见表2)计算复发风险评分，

ROR＝(0.10*CRC1)+(-0.16*CRC2)+(-0.14*CRC3)+(0.21*CRC4)+(0.10*CRC5)+(-0.24*免疫球蛋白指数)+(0.27*MMR指数)；其中，

“CRC1”、“CRC2”、“CRC3”、“CRC4”、“CRC5”和“MMR指数”如上所定义；“免疫球蛋白指数”为表2中3个免疫球蛋白相关基因计算的免疫球蛋白指数。

相应地，本发明还提供了本发明的基因群在对结直肠癌进行分子分型和/或评估结直肠癌患者生存风险中的应用。本发明还提供了本发明的基因群、检测本发明的基因群中的基因的表达水平的试剂在制备对结直肠癌进行分子分型和/或评估结直肠癌患者生存风险的产品中的应用。在优选的实施方案中，所述产品为检测/诊断试剂盒。在一实施方案中，所述产品为体外诊断产品。所述试剂如上文所述。所述产品如上文所述。根据本发明的方法或应用，可以将结直肠癌分为不同的分子亚型，所述结直肠癌的分子亚型可以包括CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型。根据本发明的方法或应用，可以评估结直肠癌患者的生存风险，所述生存风险可以包括低风险和高风险。

在另一方面，本发明还涉及一组免疫球蛋白相关基因，其包括：CD79A、IGKV1-17、IGKV2-28、CD27、IGHM、IGKV4-1、JCHAIN、POU2AF1和TNFRSF17(还可参见表1中的相关信息)。

本发明还涉及通过检测如上所述免疫球蛋白相关基因的表达水平，并计算免疫球蛋白指数；其中，免疫球蛋白指数可以用于评估结直肠患者的免疫状况并指导结直肠癌的细胞免疫治疗。因此，本发明还涉及所述免疫球蛋白相关基因在进行结直肠癌患者的生存风险评估中的应用。

有益效果

本发明涉及用于进行结直肠癌分子分型和/或生存风险评估的基因群，用于检测所述基因群中基因的表达水平的试剂，以及进行结直肠癌分子分型和/或生存风险评估的方法和产品。

根据本发明的基因群中基因在结直肠癌样本中的表达水平，建立结直肠癌分子分型的体系，可以将结直肠癌分为不同亚型，并为属于不同亚型的结直肠癌患者提供更有针对性的个体化治疗。另一方面，根据本发明的方法和应用，可以很好地预测结直肠癌患者的复发风险并有效评估肿瘤的免疫状况，对临床治疗有重要指导意义。结合亚型、免疫球蛋白指数、MMR指数和风险评分可以对于结直肠癌患者的预后做出判断。对结直肠癌患者进行结直肠癌分子分型和风险评估，可以筛选出不同治疗方案的优势人群，并提供潜在的治疗途径。对于复发风险低的患者，可以考虑不再做放疗化疗，减少不良反应的发生和治疗的经济负担；对于复发风险高的患者，则要及时辅做化疗、放疗或者生物治疗，以期收到最大临床获益。对于无法手术的晚期患者，基于表达谱的分子诊断则可帮助识别一种治疗方案可获益群体，提高治疗效率，避免无效治疗。

与当前结直肠癌分子分型的方法相比，本发明的优势在于不仅对结直肠癌进行亚型分型，还评估了肿瘤患者的免疫球蛋白指数以及复发风险，综合评价结直肠癌患者的预后以及对治疗可能的受益。本发明的另一优势在于，提供了多个可以选择的基因或基因组合作为补充的实施方案，当将本发明应用于癌症患者时，如果由于患者的病理状况或其他原因(例如某个或某些基因的表达异常)导致某个或某些基因的表达水平检测无效或失灵时，可以采用多个替代方案进行补充，使得基于本发明的检测结果更加稳定、可靠。

实施例

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法，按照常规方法和条件，或按照商品说明书选择。本文的实施例中所用的试剂和仪器均是可商购的。

实施例1：评估结直肠癌亚型分型及生存风险相关基因群的筛选

方法：通过EPIG基因表达谱分析程序(参见Zhou,Chou et al,2006.EnvironHealth Perspect 114(4),553-559；Chou,Zhou et al,2007.BMC Bioinformatics 8,427)分析Affymatrics基因芯片表达谱数据库中1091例具有临床信息的结直肠癌基因表达量，筛选出与结直肠癌复发风险密切相关的增殖相关基因、细胞外基质相关基因、细胞内基质相关基因、免疫相关基因、免疫球蛋白相关基因，并在每组基因中计算并优选对分型及复发风险贡献率大的基因。

结果：共筛选获得了与结直肠癌亚型分型及生存风险相关的76个基因及6个看家基因，即82个基因测试组合。基因列表见表1。

将所筛选的82个基因在419例结直肠癌的TCGA数据库的数据中进行有效性和稳定性验证。可以将结直肠癌分为CRC1型、CRC2型、CRC3型、CRC4型、CRC5型或混合型：

实施例2：用于结直肠癌分子分型及生存风险评估的基因测试组合

根据实施例1筛选的82个基因的测试组合，用于进行结直肠癌分子分型和生存风险评估。

82基因测试组合：

实验方法：采用82基因测试组合(参见表1)，其中76个结直肠癌分子分型及生存风险相关基因群(增殖相关基因：CCNB2、MKI67、RRM1、SPAG5、TOP2A、CKS1B、DNMT1、DTYMK、EZH2、FOXM1、MAD2L1、MCM2、MCM3、MCM6、PCLAF、PLK1、PSRC1、RFC5、SMC4、TMPO和UBE2S；细胞外基质相关基因：AEBP1、COL6A3、HTRA1、MMP2、TIMP3、CLIC4、DPYSL3、EFEMP1、GJA1、LGALS1、LUM、MSN、PALLD、SERPING1、TIMP1、TNC和VIM；细胞内基质相关基因：ADNP、MAPRE1、TMEM189-UBE2V1、CSE1L、EIF2S2、EIF6、NCOA6、PPP1R3D、PRPF6、PSMA7、RALY、RBM39、RNF114、RPS21、TOMM34和ZMYND8；免疫相关基因：CCL5、CD2、CXCL13、GZMA、MNDA、BCL2A1、CCL3、CSF2RB、LCP2、PLA2G7、RASGRP1、RHOH和TLR2；免疫球蛋白相关基因：CD79A、IGKV1-17、IGKV2-28、CD27、IGHM、IGKV4-1、JCHAIN、POU2AF1和TNFRSF17)用于确定结直肠癌分子分型及评估结直肠癌患者的生存风险，6个内参基因(包括GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1)作为内标将分子分型及生存风险相关基因的表达水平进行标准化。计算复发风险指数时采用表1中76个结直肠癌分子分型及生存风险相关基因。

实验结果：

根据实施例1中获得的标准测试数据，采用如前所述的结直肠癌分子分型方法(参见“本发明的方法和应用”部分中的步骤(3-1)至(3-3))，利用表1所示76个结直肠癌分子分型及生存风险相关基因的表达水平(经GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1的表达水平标准化的)对1091例结直肠癌病例进行分子分型，将结直肠癌肿瘤分为CRC1型、CRC2型、CRC3型、CRC4型、CRC5型或混合型。

通过计算不同亚型生存的数量和时间，以结直肠癌病例10年内观察到肿瘤发生远处转移为观察事件，绘制Kaplan-Meier生存曲线可以获得10年无远处转移生存率，指示各亚型的复发风险。各亚型的复发风险不同，表示结直肠癌每种亚型复发风险有不同。

2、免疫球蛋白指数

根据实施例1中获得的标准测试数据，采用如前所述的免疫球蛋白指数计算方法(参见“本发明的方法和应用”部分中的步骤(3a-1)至(3a-3))，根据9个免疫球蛋白相关基因CD79A、IGKV1-17、IGKV2-28、CD27、IGHM、IGKV4-1、JCHAIN、POU2AF1和TNFRSF17的表达水平计算免疫球蛋白指数，根据免疫球蛋白指数可将每个亚型进一步分为两组，免疫球蛋白指数强组和免疫球蛋白指数弱组，并观察两组之间的生存差异。结果显示，免疫球蛋白指数可以指示结直肠癌的预后，免疫球蛋白指数强的病例组10年无远处转移生存率较高，预后相对好。

免疫球蛋白指数＝

免疫球蛋白相关基因(n＝9)

3、MMR指数

采用如前所述的MMR指数判定方法(参见“本发明的方法和应用”部分中的步骤(3b-1)至(3b-3))，利用免疫组化法检测MMR蛋白MLH1、PMS2、MSH2和MSH6的表达和/或PCR检测微卫星位点BAT25、BAT26、D5S346、D2S123和D17S250来确定MMR状态，并判定MMR指数。

4、复发风险评估

肿瘤复发风险的计算采用Cox模型，以肿瘤发生远处转移为观察终点，根据肿瘤与各亚型之间的Pearson相关系数、免疫指球蛋白数、MMR指数对于生存发生影响的相对危险度确定相应系数，计算复发风险评分，计算方法如下：

复发风险评分(Risk of Recurrence，ROR)的计算：ROR范围为0-100，其中：0-65，低风险；66-100，高风险；

“CRC1”代表该肿瘤与CRC1型肿瘤的Pearson相关系数；“CRC2”代表该肿瘤与CRC2型肿瘤的Pearson相关系数；“CRC3”代表该肿瘤与CRC3型肿瘤的Pearson相关系数；“CRC4”代表该肿瘤与CRC4型肿瘤的Pearson相关系数；“CRC5”代表该肿瘤与CRC5型肿瘤的Pearson相关系数；“免疫球蛋白指数”为表1中9个免疫球蛋白相关基因计算的免疫球蛋白指数；“MMR指数”为根据错配修复状态判定的MMR指数：当MMR状态为pMMR时，MMR指数＝1；当MMR状态为dMMR时，MMR指数＝-1。

根据所计算得出的复发风险评分，可将肿瘤复发风险分为两组，低风险(0-65)和高风险(66-100)。结果显示，复发风险指数可以指示结直肠癌患者的生存风险：低风险组的10年无远处转移生存率较高、高风险组的10年无远处转移生存率较低。

24基因测试组合：

24基因测试组合的结直肠癌分子分型方法、免疫球蛋白指数、MMR指数和生存风险评分的计算方法与82基因测试组合类似。所述24基因测试组合(参见表2)包括：21个结直肠癌分子分型及生存风险相关基因群(增殖相关基因：CCNB2、MKI67、RRM1、SPAG5和TOP2A；细胞外基质相关基因：AEBP1、COL6A3、HTRA1、MMP2和TIMP3；细胞内基质相关基因：ADNP、MAPRE1和TMEM189-UBE2V1；免疫相关基因：CCL5、CD2、CXCL13、GZMA和MNDA；免疫球蛋白相关基因：CD79A、IGKV1-17和IGKV2-28)，其用于确定结直肠癌分子分型及评估结直肠癌患者的生存风险；以及3个内参基因(包括GAPDH、GUSB和TFRC)作为内标，其用于将分子分型及生存风险相关基因的表达水平进行标准化。计算复发风险指数时采用表2中21个结直肠癌分子分型及生存风险相关基因。

实验结果：

1、结直肠癌分子分型

利用表2所示21个结直肠癌分子分型及生存风险相关基因的表达水平(经GAPDH、GUSB和TFRC的表达水平标准化的)对1091例结直肠癌病例进行分子分型，将结直肠癌肿瘤分为CRC1型、CRC2型、CRC3型、CRC4型、CRC5型或混合型(图1、2)。结果与82基因测试组合相似。

2、免疫球蛋白指数

根据3个免疫球蛋白相关基因CD79A、IGKV1-17和IGKV2-28的表达水平计算免疫球蛋白指数，根据免疫球蛋白指数可将每个亚型进一步分为两组，免疫球蛋白指数强组和免疫球蛋白指数弱组，并观察两组之间的生存差异(图3)。结果与82基因测试组合相似。

免疫球蛋白指数＝

免疫球蛋白相关基因(n＝3)

3、MMR指数

采用如前所述的MMR指数判定方法(参见“本发明的方法和应用”部分中的步骤(3b-1)至(3b-3))，利用免疫组化法检测MMR蛋白MLH1、PMS2、MSH2和MSH6的表达和/或PCR检测微卫星位点BAT25、BAT26、D5S346、D2S123和D17S250来判断MMR状态，并判定MMR指数。

4、复发风险评估

肿瘤复发风险的计算采用Cox模型，以肿瘤发生远处转移为观察终点，根据肿瘤的亚型、免疫球蛋白指数和MMR指数对于生存发生影响的相对危险度确定相应系数，计算复发风险评分，计算方法如下：

根据所计算得出的复发风险评分，可将肿瘤复发风险分为两组，低风险(0-65)和高风险(66-100)(图4)。结果与82基因测试组合相似。

实施例3：用于确定结直肠癌分子分型及评估结直肠癌患者的生存风险的二代测序检测试剂盒

根据实施例2中82基因测试组合，设计了二代测序检测试剂盒，其包含用于将所述82基因的cDNA进行特异性扩增的引物，引物序列示于表3。使用二代测序检测试剂盒确定结直肠癌分子分型和评估结直肠癌患者的生存风险的方法如下所述。

步骤1：取检测对象肿瘤或石蜡包埋组织，利用检测试剂盒中的方法获取检测对象含肿瘤细胞高的区域为原始材料。

步骤2：提取组织中总RNA。可以使用RNA storm CD201RNA或者Qiagen RNeaseFFPE kit RNA抽提试剂盒来提取。

步骤3：将所得RNA制成可供测序的文库。将所得组织的RNA制成可供靶向RNA-seq技术二代测序的文库，文库的制备方法包括以下步骤：

(3-1)：使用

逆转录酶(New England Biolabs，#M0368L)将步骤(2)中提取的RNA反转录成cDNA。

(3-2)：使用Illumina的

Targeted RNA建库试剂盒(#15034457)将所得cDNA处理制成可供测序的文库，具体步骤如下：(ⅰ)杂交：加入TOP(具体组成参见表3)4.5μl，混匀后加入21μl OB1，升温至70℃后缓慢梯度降温至30℃；(ⅱ)延伸和连接：将(ⅰ)中产物用磁力架吸附后弃上清，用试剂盒中AM1和UB1洗涤两次后弃上清，加入36μl ELM4，在PCR仪或金属浴中37℃孵育45分钟；(ⅲ)对(ⅱ)所得产物进行测序标签(Index)的连接，然后PCR：将(ⅱ)所得产物用磁力架吸附后弃上清，加入稀释40倍的HP3 18μl，用磁力架吸附后吸取16μl，加入17.3μl TDP1、0.3μl PMM2、6.4μl Index，混匀后进行PCR扩增32个循环；(ⅳ)釆用Gnome DNA(QuestGenomics，南京)纯化试剂盒纯化DNA，得到文库。

步骤4：对所得DNA文库进行用NextSeq/MiSeq/MiniSeq/iSeq进行二代测序。用Illumina NextSeq/MiSeq/MiniSeq/iSeq测序仪进行双端测序或单端测序。此过程均由仪器本身自动完成(Illumina公司)。

步骤5：结果统计分析。将所得测序结果进行统计分析。然后采用实施例2所述方法对受试者的结直肠癌进行分子分型，计算免疫球蛋白指数和复发风险评分，并预测受试者的生存风险。

表3

实施例4：用于确定结直肠癌分子分型及评估结直肠癌患者的生存风险的定量PCR检测试剂盒

根据实施例2中24基因测试组合，设计了定量PCR检测试剂盒，其包含用于对所述24基因进行PCR扩增的引物，以及用于对扩增产物定量的TaqMan探针，引物和探针的序列示于表4。所述试剂盒可以用于单重或多重RT-PCR检测。应用所述试剂盒通过单重RT-PCR检测来进行结直肠癌分子分型和复发风险评估的方法如下所述。

实验方法：取结直肠癌肿瘤组织，提取肿瘤细胞中的RNA，采用TaqMan RT-PCR技术，使用表4所示引物和探针，分别检测基因的表达水平。步骤如下：

步骤3：RT-PCR检测。所述RT-PCR检测的方法为Taqman RT-PCR，将表4中所示基因分别进行RT-PCR检测。步骤如下：

(3-1)：提取检测对象的总RNA；

(3-2)：对(3-1)所得RNA进行反转录，具体步骤为：取总量为2μg左右的样本RNA(例如取200ng/μl左右的样本RNA 11μl)，和11μl参考RNA一起反转录(Thermo K1622反转录试剂盒)获得样本cDNA和参考cDNA；向样本cDNA加入80μl无RNA酶水将其5倍稀释，向参考cDNA加入180μl无RNA酶水将其10倍稀释；

(3-3)：对(3-2)所得对应每个基因的cDNA样本进行TaqMan RT-PCR检测对21个结直肠癌分子分型及生存风险相关基因和3个参考基因(参见表2)分别进行检测。步骤如下：(ⅰ)制备每孔反应体系：(3-2)所得的cDNA样本2μl(总量100-400ng)，如表4所示的正向、反向特异性引物及TaqMan荧光探针(10μM)共1.4μl，反应预混合液10μl，DEPC水6.6μl；(ⅱ)95℃灭活逆转录酶2分钟；(ⅲ)扩增与检测：95℃变性25秒，60℃退火、延伸及荧光检测60秒，进行45个循环，暂缓期60℃60秒；扩增反应结束后，记录每个基因的Ct值，代表了各个基因的表达水平。

步骤4：结果统计分析。将所得测序结果进行统计分析。然后采用实施例2所述方法对受试者的结直肠癌进行分子分型，计算免疫球蛋白指数和复发风险评分，并预测生存风险。

表4

实施例5：根据结直肠癌分子分型及风险评估的结果预测结肠癌患者的化疗获益

方法：使用结直肠癌分子分型及风险评估24基因测试组合对281例Ⅲ期结肠癌病例进行风险评估。具体地，采用实施例2所述的方法为每个结肠癌病例进行复发风险评估；然后采用Kaplan-Meier法，比较接受化疗组与未接受化疗组生存曲线的差异。

结果：为281例Ⅲ期结肠癌病例进行复发风险评估，可以将病例分为低风险组(108例)和高风险组(173例)(表5)。

采用Kaplan-Meier法，为高风险组病例进行生存分析的结果示于图5A，为低风险组病例进行生存分析的结果示于图5B。结果表明，对于复发风险评估为高风险的Ⅲ期结肠癌病例，接受化疗的病例组10年无远处转移生存率比未接受化疗的病例组高(图5A)；而对于复发风险评估为低风险的Ⅲ期结肠癌病例，接受与未接受化疗的病例组的10年无远处转移生存率无显著差异(图5B)。也就是说，根据本发明的方法，评估为高风险的Ⅲ期结肠癌患者预期能够从化疗中获益。因此，本发明的基因群可以用于确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险。根据生存风险的评估结果可以预测结直肠癌患者是否能够从化疗中获益。

表5

风险组	数量
		低风险	108
高风险	173
		合计	281

实施例6：结直肠癌基因突变在不同分子亚型的分布

方法：使用结直肠癌分子分型及风险评估24基因测试组合对364例结肠癌病例进行分子分型。具体地，采用实施例2所述的方法为每个结肠癌病例进行分子分型；然后根据TCGA数据库中的基因突变信息对各分子亚型的基因突变情况的分布进行统计。

结果：为364例结肠癌病例进行分子分型，可以将病例分为CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型，其BRAF、ERBB2、KDR、KRAS、VEGFA基因突变在不同亚型中分布不同(表6)。

表6

序列表

<110> 上海善准生物科技有限公司

<120> 结直肠癌分子分型及生存风险基因群及诊断产品和应用

<130> I2020TC5053CS

<160> 236

<170> PatentIn version 3.5

<210> 1

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> CCNB2上游区引物序列

<400> 1

aatgtggtga aagtaaatga aaacttaac 29

<210> 2

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CCNB2下游区引物序列

<400> 2

caagcagcaa actcctgaag atcag 25

<210> 3

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> CKS1B上游区引物序列

<400> 3

gatgggtcca ttatatgatc catgaac 27

<210> 4

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> CKS1B下游区引物序列

<400> 4

aacctcacat cttgctgttc cgg 23

<210> 5

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> DNMT1上游区引物序列

<400> 5

ttggccaaag cccgagagag tgcct 25

<210> 6

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> DNMT1下游区引物序列

<400> 6

aataaaggag gaggaagctg ctaag 25

<210> 7

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> DTYMK上游区引物序列

<400> 7

accgcgccga actgctccgg ttcccgga 28

<210> 8

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> DTYMK下游区引物序列

<400> 8

atcaactgaa atcggcaaac ttctg 25

<210> 9

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> EZH2上游区引物序列

<400> 9

caagaggttc agacgagctg atgaa 25

<210> 10

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> EZH2下游区引物序列

<400> 10

agagtatgtt tagttccaat cgtcagaaaa 30

<210> 11

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> FOXM1上游区引物序列

<400> 11

cggagctacg gcctaacggc ggc 23

<210> 12

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> FOXM1下游区引物序列

<400> 12

caatggagag tgaaaacgca gattc 25

<210> 13

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> MAD2L1上游区引物序列

<400> 13

gcgggagcgc cgaaatcgtg gcc 23

<210> 14

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MAD2L1下游区引物序列

<400> 14

aacagcattt tatatcagcg tggca 25

<210> 15

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MCM2上游区引物序列

<400> 15

tgaggtccct gagaaggact tggtg 25

<210> 16

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> MCM2下游区引物序列

<400> 16

atccacaacc tctctgcatt ttatgacag 29

<210> 17

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MCM3上游区引物序列

<400> 17

gagattacct ggacttcctg gacga 25

<210> 18

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> MCM3下游区引物序列

<400> 18

ggaagaccag ggaatttatc agagcaaag 29

<210> 19

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MCM6上游区引物序列

<400> 19

agaaactgtt cctggacttc ttgga 25

<210> 20

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> MCM6下游区引物序列

<400> 20

tttcagagca gcgatggaga aattaaat 28

<210> 21

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> MKI67上游区引物序列

<400> 21

aacctctgct ccccacctca gagagtttt 29

<210> 22

<211> 26

<212> DNA

<213> Artificial Sequence

<220>

<223> MKI67下游区引物序列

<400> 22

gaggaaatgt gttcttcagt gcacag 26

<210> 23

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PCLAF上游区引物序列

<400> 23

taaagcagac agtgttccag gcact 25

<210> 24

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PCLAF下游区引物序列

<400> 24

tggtggctgc tcgagccccc agaaa 25

<210> 25

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PLK1上游区引物序列

<400> 25

gcagcgtgca gatcaacttc ttcca 25

<210> 26

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PLK1下游区引物序列

<400> 26

tcacaccaag ctcatcttgt gccca 25

<210> 27

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PSRC1上游区引物序列

<400> 27

tggctggaca tggaggattt ggagg 25

<210> 28

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> PSRC1下游区引物序列

<400> 28

atgtaaggtt tattgtggat gagaccttg 29

<210> 29

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> RFC5上游区引物序列

<400> 29

aatgatctca tttctcatca ggacattc 28

<210> 30

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RFC5下游区引物序列

<400> 30

tcaatgaaga ccgactgcca cactt 25

<210> 31

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> RRM1上游区引物序列

<400> 31

atgcacttct acggctggaa g 21

<210> 32

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> RRM1下游区引物序列

<400> 32

ggtttgaaga ctgggatgta ttatttaag 29

<210> 33

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> SMC4上游区引物序列

<400> 33

cgcacggaga gcccagccac cgc 23

<210> 34

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> SMC4下游区引物序列

<400> 34

agactgcaag tgaggaactt gataatag 28

<210> 35

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> SPAG5上游区引物序列

<400> 35

agaaaaacta gatgacattg ttcagcata 29

<210> 36

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> SPAG5下游区引物序列

<400> 36

aggtggtgag gggatgcaaa gaact 25

<210> 37

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TMPO上游区引物序列

<400> 37

tgaaatacgg agtgaatcct ggtcc 25

<210> 38

<211> 31

<212> DNA

<213> Artificial Sequence

<220>

<223> TMPO下游区引物序列

<400> 38

agctatatga gaaaaagctt ttgaaactga g 31

<210> 39

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> TOP2A上游区引物序列

<400> 39

aagaagactt ggctacattt attgaag 27

<210> 40

<211> 26

<212> DNA

<213> Artificial Sequence

<220>

<223> TOP2A下游区引物序列

<400> 40

aaacaagatg aacaagtcgg acttcc 26

<210> 41

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> UBE2S上游区引物序列

<400> 41

cctcaccgac ctccaggtca ccatc 25

<210> 42

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> UBE2S下游区引物序列

<400> 42

ggaccccata tgctggaggt ctgtt 25

<210> 43

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> AEBP1上游区引物序列

<400> 43

ggcaagccag ggaagcggcc aggga 25

<210> 44

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> AEBP1下游区引物序列

<400> 44

gcctccggaa aagaccaaag acaaa 25

<210> 45

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CLIC4上游区引物序列

<400> 45

aagagcccct catcgagctc ttcgt 25

<210> 46

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CLIC4下游区引物序列

<400> 46

gcagtgatgg tgaaagcata ggaaa 25

<210> 47

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> COL6A3上游区引物序列

<400> 47

agcccaggga cacacgcctt caggt 25

<210> 48

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> COL6A3下游区引物序列

<400> 48

tttggtgctt agacaaattc aaaatgagg 29

<210> 49

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> DPYSL3上游区引物序列

<400> 49

tttatgctga tatttacatg gaagatggct 30

<210> 50

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> DPYSL3下游区引物序列

<400> 50

ttggagacaa tctgattgtt cctgg 25

<210> 51

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> EFEMP1上游区引物序列

<400> 51

aggacaccga agaaaccatc acgta 25

<210> 52

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> EFEMP1下游区引物序列

<400> 52

atgcactgac ggatatgagt gggat 25

<210> 53

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> GJA1上游区引物序列

<400> 53

cacttggcgt gacttcacta ctttt 25

<210> 54

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> GJA1下游区引物序列

<400> 54

tggtgcccag gcaacatggg tgact 25

<210> 55

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> HTRA1上游区引物序列

<400> 55

gtcctgcagc gcggagcctg cgg 23

<210> 56

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> HTRA1下游区引物序列

<400> 56

ggaagatccc aacagtttgc gccat 25

<210> 57

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> LGALS1上游区引物序列

<400> 57

cgaggcgagg tggctcctga cgcta 25

<210> 58

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> LGALS1下游区引物序列

<400> 58

gcttcgtgct gaacctgggc aaaga 25

<210> 59

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> LUM上游区引物序列

<400> 59

aagaattaac gaaagcagtg tcaagacag 29

<210> 60

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> LUM下游区引物序列

<400> 60

tttgccaaaa atgagtctaa gtgca 25

<210> 61

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MMP2上游区引物序列

<400> 61

ctggatgccg tcgtggacct gcagg 25

<210> 62

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MMP2下游区引物序列

<400> 62

tcaagggtgc ctattacctg aagct 25

<210> 63

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MSN上游区引物序列

<400> 63

actccgctgc ctttgccgcc accat 25

<210> 64

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MSN下游区引物序列

<400> 64

cagtgtgcgt gtgaccacca tggat 25

<210> 65

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PALLD上游区引物序列

<400> 65

caaggaggac ctcctgaaca atggc 25

<210> 66

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PALLD下游区引物序列

<400> 66

agaaagaatg gctcgtcgac tgcta 25

<210> 67

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> SERPING1上游区引物序列

<400> 67

ctgaccctgc tgaccctcct gctgc 25

<210> 68

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> SERPING1下游区引物序列

<400> 68

gagcctcctc aaatccaaat gctac 25

<210> 69

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TIMP1上游区引物序列

<400> 69

cgcagatcca gcgcccagag agaca 25

<210> 70

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TIMP1下游区引物序列

<400> 70

cctttgagcc cctggcttct ggcat 25

<210> 71

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> TIMP3上游区引物序列

<400> 71

ccacccccag gacgccttct gcaactcc 28

<210> 72

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TIMP3下游区引物序列

<400> 72

tccgggccaa ggtggtgggg aagaa 25

<210> 73

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TNC上游区引物序列

<400> 73

cttccaagga cctaggtctc tcgcc 25

<210> 74

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> TNC下游区引物序列

<400> 74

aaataattct ttcaagaaga tcagggaca 29

<210> 75

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> VIM上游区引物序列

<400> 75

acttctgatt aagacggttg aaactagag 29

<210> 76

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> VIM下游区引物序列

<400> 76

atcaacgaaa cttctcagca tcacg 25

<210> 77

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> ADNP上游区引物序列

<400> 77

actgtgggac ccatcactta cgaaa 25

<210> 78

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> ADNP下游区引物序列

<400> 78

ttctgctgca gcgcttgtcc atttt 25

<210> 79

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CSE1L上游区引物序列

<400> 79

gctggggttc cctcctccgt ttctg 25

<210> 80

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CSE1L下游区引物序列

<400> 80

tcagcgatgc aaatctgcaa acact 25

<210> 81

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> EIF2S2上游区引物序列

<400> 81

cactcgagcc gcagccatgt ctggg 25

<210> 82

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> EIF2S2下游区引物序列

<400> 82

gatttttgat cctactatga gcaagaag 28

<210> 83

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> EIF6上游区引物序列

<400> 83

catgcgggat tccctcattg acagc 25

<210> 84

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> EIF6下游区引物序列

<400> 84

acctgagtca ccttccaagt tgttc 25

<210> 85

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MAPRE1上游区引物序列

<400> 85

ggcagtggac gcggttctgc cgaga 25

<210> 86

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MAPRE1下游区引物序列

<400> 86

cgtatactca acgtcagtga ccagt 25

<210> 87

<211> 33

<212> DNA

<213> Artificial Sequence

<220>

<223> NCOA6上游区引物序列

<400> 87

agaagatgac ctggataaat gataaaaatt aag 33

<210> 88

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> NCOA6下游区引物序列

<400> 88

tgtcctcttg gcatatgctt ctgga 25

<210> 89

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PPP1R3D上游区引物序列

<400> 89

accgcaagaa gcggaggacc tggac 25

<210> 90

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PPP1R3D下游区引物序列

<400> 90

ggagcaaggt ggcgaaccaa gggta 25

<210> 91

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PRPF6上游区引物序列

<400> 91

acgacgagga tctaaatgac accaa 25

<210> 92

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PRPF6下游区引物序列

<400> 92

ctatgctggg agcctcttct caagt 25

<210> 93

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PSMA7上游区引物序列

<400> 93

tgctgtcatg aggcgagatc aatcc 25

<210> 94

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> PSMA7下游区引物序列

<400> 94

agaaattgag aagtatgttg ctgaaattg 29

<210> 95

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RALY上游区引物序列

<400> 95

cgcggcttcc tccagacctc tcggc 25

<210> 96

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RALY下游区引物序列

<400> 96

gaggcaggtg gtgctgaccc tgtaa 25

<210> 97

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RBM39上游区引物序列

<400> 97

gagcaccaca ggcgcccgaa ggccg 25

<210> 98

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> RBM39下游区引物序列

<400> 98

agagaaaatg gcagacgata ttgatattg 29

<210> 99

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RNF114上游区引物序列

<400> 99

gcacagagac ttcttgccat ggctg 25

<210> 100

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RNF114下游区引物序列

<400> 100

aagatccggt cccacgtggc tactt 25

<210> 101

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RPS21上游区引物序列

<400> 101

tctctcgcgc gcggtgtggt ggcag 25

<210> 102

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RPS21下游区引物序列

<400> 102

agcccagcct cgaaatgcag aacga 25

<210> 103

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TMEM189-UBE2V1上游区引物序列

<400> 103

ccccacgaga cctacttctg catca 25

<210> 104

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TMEM189-UBE2V1下游区引物序列

<400> 104

caatttccga ctgttggaag aactc 25

<210> 105

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TOMM34上游区引物序列

<400> 105

taatgtgacg tcagccgtag aaggc 25

<210> 106

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TOMM34下游区引物序列

<400> 106

tcatggactc gcttgggcct gagtg 25

<210> 107

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> ZMYND8上游区引物序列

<400> 107

tgacattaca cagtgttaac aatgcatcc 29

<210> 108

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> ZMYND8下游区引物序列

<400> 108

cttggctgaa gaggaaataa aaacagaac 29

<210> 109

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> BCL2A1上游区引物序列

<400> 109

ttgccccgga tgtggatacc tataa 25

<210> 110

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> BCL2A1下游区引物序列

<400> 110

tttcatattt tgttgcggag ttcataat 28

<210> 111

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CCL3上游区引物序列

<400> 111

gctctctgca accagttctc tgcat 25

<210> 112

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CCL3下游区引物序列

<400> 112

cttgctgctg acacgccgac cgcct 25

<210> 113

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> CCL5上游区引物序列

<400> 113

gctactgccc tctgcgctcc tgcatct 27

<210> 114

<211> 26

<212> DNA

<213> Artificial Sequence

<220>

<223> CCL5下游区引物序列

<400> 114

cctcggacac cacaccctgc tgcttt 26

<210> 115

<211> 26

<212> DNA

<213> Artificial Sequence

<220>

<223> CD2上游区引物序列

<400> 115

caaggaatcc agtgtcgagc ctgtca 26

<210> 116

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> CD2下游区引物序列

<400> 116

tcatcattgg catatgtgga gga 23

<210> 117

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CSF2RB上游区引物序列

<400> 117

agaagactgg tctctcccac cacac 25

<210> 118

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CSF2RB下游区引物序列

<400> 118

aggccaggag ggagaggtcc caaga 25

<210> 119

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CXCL13上游区引物序列

<400> 119

ctgctggtca gcagcctctc tccag 25

<210> 120

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CXCL13下游区引物序列

<400> 120

tggaggtcta ttacacaagc ttgag 25

<210> 121

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> GZMA上游区引物序列

<400> 121

aaagactggg tgttgactgc agct 24

<210> 122

<211> 26

<212> DNA

<213> Artificial Sequence

<220>

<223> GZMA下游区引物序列

<400> 122

aacaaaaggt cccaggtcat tcttgg 26

<210> 123

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> LCP2上游区引物序列

<400> 123

ctgggacccc gacagccttg ctgac 25

<210> 124

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> LCP2下游区引物序列

<400> 124

ctgtgagaag gcagtgaaga agtac 25

<210> 125

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> MNDA上游区引物序列

<400> 125

ctgaagacta ttgtggaaga agcatcca 28

<210> 126

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> MNDA下游区引物序列

<400> 126

aagctataac atcagaaatg gtgaatgaa 29

<210> 127

<211> 30

<212> DNA

<213> Artificial Sequence

<220>

<223> PLA2G7上游区引物序列

<400> 127

aagcttcatt agcattctta caaaagcatt 30

<210> 128

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PLA2G7下游区引物序列

<400> 128

ataaagattt tgatcagtgg gactg 25

<210> 129

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RASGRP1上游区引物序列

<400> 129

ctggacgatc tcattgacag ctgca 25

<210> 130

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RASGRP1下游区引物序列

<400> 130

cctgtgtcga agtaaccaac tgttg 25

<210> 131

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> RHOH上游区引物序列

<400> 131

gaagccggct acaggaaatt gactt 25

<210> 132

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> RHOH下游区引物序列

<400> 132

aacttgctaa tctcttttgt cacattcgg 29

<210> 133

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TLR2上游区引物序列

<400> 133

attgctcttt cactgctttc aactg 25

<210> 134

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TLR2下游区引物序列

<400> 134

tgaagcactg gacaatgcca catac 25

<210> 135

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CD27上游区引物序列

<400> 135

aaagctgtgc tgccagatgt gtgag 25

<210> 136

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CD27下游区引物序列

<400> 136

gaaggactgt gaccagcata gaaag 25

<210> 137

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CD79A上游区引物序列

<400> 137

cctcttcctg ctgtctgctg tctac 25

<210> 138

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CD79A下游区引物序列

<400> 138

ggtgccaggc cctgtggatg cacaa 25

<210> 139

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> IGHM上游区引物序列

<400> 139

gggtcaccga gaggaccgtg gac 23

<210> 140

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGHM下游区引物序列

<400> 140

agggggaggt gagcgccgac gagga 25

<210> 141

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV1-17上游区引物序列

<400> 141

gagacagagt caccatcact tgccg 25

<210> 142

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV1-17下游区引物序列

<400> 142

gcccctaagc gcctgatcta tgctg 25

<210> 143

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV2-28上游区引物序列

<400> 143

cagagcctcc tgcatagtaa tggat 25

<210> 144

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV2-28下游区引物序列

<400> 144

tgatctattt gggttctaat cgggc 25

<210> 145

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV4-1上游区引物序列

<400> 145

ctccacagct cctgatctat ttggg 25

<210> 146

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV4-1下游区引物序列

<400> 146

cactgaaaat cagcagagtg gaggc 25

<210> 147

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> JCHAIN上游区引物序列

<400> 147

cctggcggtt tttattaagg ctgtt 25

<210> 148

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> JCHAIN下游区引物序列

<400> 148

aagaagatga aaggattgtt cttgttgac 29

<210> 149

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> POU2AF1上游区引物序列

<400> 149

tcctgtcaca ggccatgctc tggca 25

<210> 150

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> POU2AF1下游区引物序列

<400> 150

acccacagct ccggagcaag cccca 25

<210> 151

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> TNFRSF17上游区引物序列

<400> 151

aattaaccat ttcgactcga gcagt 25

<210> 152

<211> 29

<212> DNA

<213> Artificial Sequence

<220>

<223> TNFRSF17下游区引物序列

<400> 152

atcttttgtc agaatagatg atgtgtcag 29

<210> 153

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> GAPDH上游区引物序列

<400> 153

tcaacgacca ctttgtcaag ctca 24

<210> 154

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> GAPDH下游区引物序列

<400> 154

cagcaacagg gtggtggacc tca 23

<210> 155

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> GUSB上游区引物序列

<400> 155

gaggagcagt ggtaccggcg gc 22

<210> 156

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> GUSB下游区引物序列

<400> 156

gacatgccag ttccctccag cttcaat 27

<210> 157

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MRPL19上游区引物序列

<400> 157

ctgttcttcc ccttcgagga atgaa 25

<210> 158

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> MRPL19下游区引物序列

<400> 158

tccacggggc ggtgcttgtc cacga 25

<210> 159

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PSMC4上游区引物序列

<400> 159

tctggggccg ggacacggac agtgc 25

<210> 160

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> PSMC4下游区引物序列

<400> 160

cttctccacc aagatgccta tctcc 25

<210> 161

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> SF3A1上游区引物序列

<400> 161

gaatcctcct ttgaagatgc ttctt 25

<210> 162

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> SF3A1下游区引物序列

<400> 162

ggctgtttgg gctccgtggg cacgg 25

<210> 163

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> TFRC上游区引物序列

<400> 163

gtcatgaaga aactcaatga tcgtgtc 27

<210> 164

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> TFRC下游区引物序列

<400> 164

tcctctctcc ctacgtatct ccaaaag 27

<210> 165

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> CCNB2正向引物序列

<400> 165

aaccagagca gcacaagtag 20

<210> 166

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> CCNB2反向引物序列

<400> 166

ggtttgacag aagcagtagg t 21

<210> 167

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> MKI67正向引物序列

<400> 167

gacctcaaac tggctcctaa tc 22

<210> 168

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> MKI67反向引物序列

<400> 168

gctgccagat agagtcagaa ag 22

<210> 169

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> RRM1正向引物序列

<400> 169

tccacattgc tgagcctaac 20

<210> 170

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> RRM1反向引物序列

<400> 170

ccgctggtct tgtccttaaa ta 22

<210> 171

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> SPAG5正向引物序列

<400> 171

gccagcacca tagcagataa 20

<210> 172

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> SPAG5反向引物序列

<400> 172

agagagtcag gctctgtagt t 21

<210> 173

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> TOP2A正向引物序列

<400> 173

gacgcttcgt tatgggaaga ta 22

<210> 174

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> TOP2A反向引物序列

<400> 174

gggccagttg tgatggataa 20

<210> 175

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> AEBP1正向引物序列

<400> 175

caccaacggc tatgaggaaa 20

<210> 176

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> AEBP1反向引物序列

<400> 176

attccaggtg agtgggtaga 20

<210> 177

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> COL6A3正向引物序列

<400> 177

caggtgaacc tgggctaaat 20

<210> 178

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> COL6A3反向引物序列

<400> 178

gtctcccttc tgtccaacta tc 22

<210> 179

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> HTRA1正向引物序列

<400> 179

gctagtgggt ctgggtttat t 21

<210> 180

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> HTRA1反向引物序列

<400> 180

taagtggcac cgttcttcag 20

<210> 181

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> MMP2正向引物序列

<400> 181

agagaacctc agggagagta ag 22

<210> 182

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> MMP2反向引物序列

<400> 182

cctcgaacag atgccacaat a 21

<210> 183

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> TIMP3正向引物序列

<400> 183

tttgcccttc tcctccaata c 21

<210> 184

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> TIMP3反向引物序列

<400> 184

tctttcacac accttgagtc tatc 24

<210> 185

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> ADNP正向引物序列

<400> 185

gtctgctaat gcctcttctc tc 22

<210> 186

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> ADNP反向引物序列

<400> 186

tttggaactg gactgaccta ac 22

<210> 187

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> MAPRE1正向引物序列

<400> 187

ggctgcgtat tgtcagttta tg 22

<210> 188

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> MAPRE1反向引物序列

<400> 188

gttctggatg tactcgtgtt ct 22

<210> 189

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> TMEM189-UBE2V1正向引物序列

<400> 189

cgagacctac ttctgcatca c 21

<210> 190

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> TMEM189-UBE2V1反向引物序列

<400> 190

ctactccttt ctggccttct tc 22

<210> 191

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> CCL5正向引物序列

<400> 191

tgcccacatc aaggagtatt t 21

<210> 192

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> CCL5反向引物序列

<400> 192

gatgtactcc cgaacccatt t 21

<210> 193

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> CD2正向引物序列

<400> 193

ccatcacacc agtaaggaga ag 22

<210> 194

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> CD2反向引物序列

<400> 194

gcatctacac atgacctgag ag 22

<210> 195

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> CXCL13正向引物序列

<400> 195

catctcgaca tctctgcttc tc 22

<210> 196

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> CXCL13反向引物序列

<400> 196

gctctcttgg acacatctac ac 22

<210> 197

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> GZMA正向引物序列

<400> 197

gagactcgtg caatggagat t 21

<210> 198

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> GZMA反向引物序列

<400> 198

cgagggtctc cgcatttatt 20

<210> 199

<211> 19

<212> DNA

<213> Artificial Sequence

<220>

<223> MNDA正向引物序列

<400> 199

cccaccgcaa gaaacaaac 19

<210> 200

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> MNDA反向引物序列

<400> 200

tgctcttggg acaccttatt c 21

<210> 201

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> CD79A正向引物序列

<400> 201

cccactcttc ttccctctaa ac 22

<210> 202

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> CD79A反向引物序列

<400> 202

cactaacgag gctgctacaa 20

<210> 203

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV1-17正向引物序列

<400> 203

gagacagagt caccatcact tg 22

<210> 204

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV1-17反向引物序列

<400> 204

cagcatagat caggcgctta g 21

<210> 205

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV2-28正向引物序列

<400> 205

cagagcctcc tgcatagtaa tg 22

<210> 206

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV2-28反向引物序列

<400> 206

gcccgattag aacccaaata ga 22

<210> 207

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> GAPDH正向引物序列

<400> 207

ggtgtgaacc atgagaagta tga 23

<210> 208

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> GAPDH反向引物序列

<400> 208

gagtccttcc acgataccaa ag 22

<210> 209

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> GUSB正向引物序列

<400> 209

tgctggctac tacttgaaga tg 22

<210> 210

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> GUSB反向引物序列

<400> 210

ccttgtctgc tgcatagtta ga 22

<210> 211

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> TFRC正向引物序列

<400> 211

tttccaccat ctcggtcatc 20

<210> 212

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> TFRC反向引物序列

<400> 212

gggacagtct ccttccatat tc 22

<210> 213

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CCNB2探针序列

<400> 213

accaaagttc cagttcaacc cacca 25

<210> 214

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> MKI67探针序列

<400> 214

cgggagcaga gccagtaaac ttcc 24

<210> 215

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> RRM1探针序列

<400> 215

agcagggttt gaagactggg atgt 24

<210> 216

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> SPAG5探针序列

<400> 216

aaagctaggg ctgctgactg agc 23

<210> 217

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> TOP2A探针序列

<400> 217

atggttccca catcaaaggc ttgc 24

<210> 218

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> AEBP1探针序列

<400> 218

ttcatgggaa cgtggacaag gaca 24

<210> 219

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> COL6A3探针序列

<400> 219

acaacaggac ccaaaggcat caga 24

<210> 220

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> HTRA1探针序列

<400> 220

tggactgatc gtgacaaatg ccca 24

<210> 221

<211> 27

<212> DNA

<213> Artificial Sequence

<220>

<223> MMP2探针序列

<400> 221

tctgtcctgt agaaagagcc ctgaaga 27

<210> 222

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> TIMP3探针序列

<400> 222

aggatcagtc aaaggcagca agca 24

<210> 223

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> ADNP探针序列

<400> 223

tctctcagtc acaggcatcc agagt 25

<210> 224

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> MAPRE1探针序列

<400> 224

aatggagcca gggaacagca tgtc 24

<210> 225

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> TMEM189-UBE2V1探针序列

<400> 225

agtccctcgc aatttccgac tgtt 24

<210> 226

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> CCL5探针序列

<400> 226

agcagtcgtc tttgtcaccc gaaa 24

<210> 227

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> CD2探针序列

<400> 227

agaatggtag aggaccgagc acaga 25

<210> 228

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> CXCL13探针序列

<400> 228

agcctctctc cagtccaagg tgtt 24

<210> 229

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> GZMA探针序列

<400> 229

ccctttgttg tgcgagggtg ttt 23

<210> 230

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> MNDA探针序列

<400> 230

acatcggaag caagagggag gatt 24

<210> 231

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> CD79A探针序列

<400> 231

cccagcgggt aatgagccct taat 24

<210> 232

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV1-17探针序列

<400> 232

tatcagcaga aaccagggaa agccc 25

<210> 233

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> IGKV2-28探针序列

<400> 233

ttggattggt acctgcagaa gcca 24

<210> 234

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> GAPDH探针序列

<400> 234

agatcatcag caatgcctcc tgca 24

<210> 235

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> GUSB探针序列

<400> 235

tcgctcacac caaatccttg gacc 24

<210> 236

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> TFRC探针序列

<400> 236

cagacaatct ccagagctgc tgca 24

Claims

1.一组用于确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险的基因群，其包括分子分型及生存风险评估相关基因，其中，所述分子分型及生存风险评估相关基因包括：

(1)以下增殖相关基因中的一个或多个：CCNB2、MKI67、RRM1、SPAG5、TOP2A、CKS1B、DNMT1、DTYMK、EZH2、FOXM1、MAD2L1、MCM2、MCM3、MCM6、PCLAF、PLK1、PSRC1、RFC5、SMC4、TMPO和UBE2S；

(2)以下细胞外基质相关基因中的一个或多个：AEBP1、COL6A3、HTRA1、MMP2、TIMP3、CLIC4、DPYSL3、EFEMP1、GJA1、LGALS1、LUM、MSN、PALLD、SERPING1、TIMP1、TNC和VIM；

(3)以下细胞内基质相关基因中的一个或多个：ADNP、MAPRE1、TMEM189-UBE2V1、CSE1L、EIF2S2、EIF6、NCOA6、PPP1R3D、PRPF6、PSMA7、RALY、RBM39、RNF114、RPS21、TOMM34和ZMYND8；

(4)以下免疫相关基因中的一个或多个：CCL5、CD2、CXCL13、GZMA、MNDA、BCL2A1、CCL3、CSF2RB、LCP2、PLA2G7、RASGRP1、RHOH和TLR2；以及

(5)以下免疫球蛋白相关基因中的一个或多个：CD79A、IGKV1-17、IGKV2-28、CD27、IGHM、IGKV4-1、JCHAIN、POU2AF1和TNFRSF17。

2.权利要求1所述的基因群，其包括21个分子分型及生存风险评估相关基因，所述分子分型及生存风险评估相关基因包括：

(1)增殖相关基因：CCNB2、MKI67、RRM1、SPAG5和TOP2A；

(2)细胞外基质相关基因：AEBP1、COL6A3、HTRA1、MMP2和TIMP3；

(3)细胞内基质相关基因：ADNP、MAPRE1和TMEM189-UBE2V1；

(4)免疫相关基因：CCL5、CD2、CXCL13、GZMA和MNDA；以及

(5)免疫球蛋白相关基因：CD79A、IGKV1-17和IGKV2-28。

3.权利要求1所述的基因群，其包括76个分子分型及生存风险评估相关基因，所述分子分型及生存风险评估相关基因包括：

(4)免疫相关基因：CCL5、CD2、CXCL13、GZMA、MNDA、BCL2A1、CCL3、CSF2RB、LCP2、PLA2G7、RASGRP1、RHOH和TLR2；以及

4.权利要求1-3中任一项所述的基因群，其还包括参考基因；

优选地，所述参考基因包括以下中的1个、更优选3个、最优选6个：GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1。

5.权利要求2所述的基因群，其还包括参考基因；优选地，所述参考基因包括GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1中的三个；更优选地，所述参考基因包括GAPDH、GUSB和TFRC。

6.权利要求3所述的基因群，其还包括参考基因；优选地，所述参考基因包括GAPDH、GUSB、TFRC、MRPL19、PSMC4和SF3A1。

7.用于检测权利要求1-6中任一项所述的基因群中的基因的表达水平的试剂。

8.权利要求7所述的试剂，其为检测所述基因转录的RNA、特别是mRNA的量的试剂；或者，其为检测与mRNA互补的cDNA的量的试剂。

9.权利要求7或8所述的试剂，其为引物、探针或其组合。

10.权利要求9所述的试剂，其为引物；

优选地，所述引物具有如SEQ ID NO.1-SEQ ID NO.164所示的序列，或者具有如SEQ IDNO.165-SEQ ID NO.212所示的序列。

11.权利要求9所述的试剂，其为探针；

优选地，所述探针为TaqMan探针；

更优选地，所述探针具有如SEQ ID NO.213-SEQ ID NO.236所示的序列；

最优选地，所述探针为具有如SEQ ID NO.213-SEQ ID NO.236所示序列的TaqMan探针。

12.权利要求9所述的试剂，其为引物和探针的组合，

优选地，所述引物具有如SEQ ID NO.165-SEQ ID NO.212所示的序列，所述探针为具有如SEQ ID NO.213-SEQ ID NO.236所示序列的TaqMan探针。

13.权利要求7所述的试剂，其为检测所述基因编码的多肽的量的试剂，优选地，所述试剂为抗体、抗体片段或者亲和性蛋白。

14.一种对结直肠癌进行分子分型和/或生存风险评估的产品，其包含权利要求7-13中任一项所述的试剂。

15.权利要求1-6中任一项所述的基因群、权利要求7-13中任一项所述的试剂或权利要求14所述的产品在确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险中的应用。

16.权利要求1-6中任一项所述的基因群或权利要求7-13中任一项所述的试剂在制备产品中的应用，所述产品用于确定结直肠癌分子分型和/或评估结直肠癌患者的生存风险。

17.权利要求14所述的产品或权利要求16所述的应用，其中所述产品为体外诊断产品的形式，优选诊断试剂盒的形式。

18.权利要求14所述的产品或权利要求16所述的应用，其中所述产品为二代测序试剂盒、实时荧光定量PCR检测试剂盒、基因芯片、蛋白芯片、ELISA诊断试剂盒或免疫组化(IHC)试剂盒或其组合。

19.权利要求18所述的产品或应用，其中所述产品为二代测序试剂盒，其包含具有如SEQ ID NO.1-SEQ ID NO.164所示序列的引物，并且任选地包含选自以下的一个或多个：总RNA抽提试剂、逆转录试剂和二代测序试剂。

20.权利要求18所述的产品或应用，其中所述产品为实时荧光定量PCR检测试剂盒，其包含具有如SEQ ID NO.165-SEQ ID NO.212所示序列的引物。

21.权利要求20所述的产品或应用，其中所述实时荧光定量PCR检测试剂盒还包含TaqMan探针，并且任选地包含选自以下的一个或多个：总RNA抽提试剂、逆转录试剂和用于TaqMan RT-PCR的试剂。

22.权利要求21所述的产品或应用，其中所述实时荧光定量PCR检测试剂盒包含具有如SEQ ID NO.165-SEQ ID NO.212所示序列的引物和具有如SEQ ID NO.213-SEQ ID NO.236所示序列的TaqMan探针。

23.权利要求20所述的产品或应用，其中所述实时荧光定量PCR检测试剂盒还包含选自以下的一个或多个：总RNA抽提试剂、逆转录试剂和用于SYBR Green RT-PCR的试剂。

24.权利要求1-6中任一项所述的基因群、权利要求7-13中任一项所述的试剂、权利要求14和17-23中任一项所述的产品、权利要求15-23中任一项所述的应用，其特征在于，

所述结直肠癌包括CRC1型、CRC2型、CRC3型、CRC4型、CRC5型和混合型。