CN111739586B

CN111739586B - 以87个基因作为生物标志物预测细胞增殖活性的模型

Info

Publication number: CN111739586B
Application number: CN202010554703.4A
Authority: CN
Inventors: 吴超; 郑敏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2024-04-05
Anticipated expiration: 2040-06-17
Also published as: WO2021253544A1; CN111739586A

Abstract

本发明提供以87个基因作为生物标志物预测细胞增殖活性的模型。细胞增殖基因集合表达水平与细胞的增殖活性正相关。本发明提供了一套无需体外培养对细胞增殖活性进行评估的方法。结合单细胞测序技术，可以快捷简便的测定体内各细胞类型的增殖活性。本发明可以帮助我们判断癌症组织中是否存在显著增殖的正常细胞。当癌症组织中存在大量该类细胞时，针对细胞增殖标志物的治疗与评估手段将会受到干扰而可能失败，当癌症组织不存在大量该类细胞时，针对细胞增殖标志物的治疗与评估手段有望成功。本发明对于基于细胞增殖机制的癌症诊疗具有辅助指导意义。

Description

以87个基因作为生物标志物预测细胞增殖活性的模型

技术领域

本发明属于基因技术及生物医学领域，具体涉及一种以87个基因作为生物标志物预测细胞增殖活性的方法

背景技术

癌细胞的大量无序增殖是肿瘤发生的关键机制。针对细胞增殖机制，人们发展出化疗等治疗手段。同时，人们开发出多个细胞增殖基因标志物如MKI67，MCM2和PCNA等，使用其mRNA或者蛋白表达水平来指示癌症细胞的增殖活性，从而辅助评估术后病患的预后情况。特别是针对MKI67的蛋白表达量，人们开发出Ki-67指数来标记病理样本中Ki-67表达阳性细胞的比率，从而评估肺癌、乳腺癌、前列腺癌、宫颈癌、结直肠癌、膀胱癌、淋巴癌等癌症患者的预后。

增殖并不是癌症细胞所独有的特性。已有研究表明，人体皮肤、骨髓与胃肠道等组织中存在大量具有增殖活性的细胞。当癌症发生于上述组织时，术后病患的癌症组织样本中MKI67等细胞增殖标志物的表达量部分来源于癌症细胞，部分来源于正常增殖细胞，将无法准确反映癌症细胞的增殖活性。由于缺乏足够的数据支持，美国临床肿瘤学会(ASCO)肿瘤标志物指导委员会不建议将Ki-67指数作为新近诊断为乳腺癌的患者的常规预后标志物。这一现象的部分原因是由于正常骨髓与淋巴结等免疫器官中亦存在大量增殖细胞，在患者病理样本中，Ki-67指数无法精确区分正常增殖细胞与肿瘤细胞，导致其癌症细胞增殖活性估计精度下降，进而导致预测患者预后能力的下降。

体外培养能够帮助我们鉴定正常细胞的增殖能力。但是目前这一方法存在极大的困难：1.部分细胞无法在体外进行培养；2.部分细胞由于生存环境存在巨大差异，其体外培养条件下的增殖能力无法反映体内环境中的真实增殖能力。

发明内容

针对人体不同类型细胞增殖活性的差异和当前培养方式细胞增殖活性评估的困难，本发明提供一个以87个细胞增殖基因集合作为标志物评估细胞增殖活性的方法。为了实现这一目的，本发明采用以下技术方案。

1.建立细胞增殖基因集合，由87个基因组成细胞增殖基因集合，具体实施步骤如下：

(1)数据采集

从Tabula Muris数据库(https://tabula-muris.ds.czbiohub.org/)获得不同类型正常细胞的单细胞RNA-Seq数据，从癌症基因组图谱(TCGA)数据库(http://cancergenome.nih.gov/)获得癌症和癌旁组织RNA-Seq数据，从GTEx(Genotype-TissueExpression Project)数据库(https://www.gtexportal.org/)中获得组织RNA-Seq数据，从CCLE(Cancer Cell Line Encyclopedia)数据库(https://portals.broadinstitute.org/ccle)获得细胞系RNA-Seq数据与细胞增殖活性数据。

(2)干/组细胞特异性表达基因集合挖掘

a)将Tabula Muris数据库中的体内正常单细胞按细胞类型归为81类，计算各类细胞的基因表达值。对某一特定细胞类型i当中的某一基因j，计算其表达值(X_ji)如下：

其中m为属于细胞类型i的细胞总数，n为细胞类型i中细胞基因j的reads count大于0的细胞的数目。如此，计算细胞类型i中所有基因的表达值。依次，计算81种细胞类型的所有基因的表达值。

b)将81类细胞分为两组：干/组细胞组与其他细胞组。

c)使用层次聚类分析，挖掘在干/组细胞组中高表达，在其他细胞组极低表达的基因，作为干/组细胞特异性基因集合。

(3)细胞增殖基因集合挖掘

a)获得GTEx数据库中各正常组织样本中干/组细胞特异性基因集合中基因的表达值。在绝大多数正常组织中不具有增殖活性的终末细胞占据主要成分，为此对上述基因进行层次聚类分析，获得在正常组织中低表达的87个基因组成的基因群(87个基因包括ANLN、ARHGAP11A、ASF1B、ATAD2、AURKA、AURKB、BIRC5、BRCA2、BUB1、BUB1B、CCNA2、CCNB1、CCNB2、CDC20、CDC45、CDCA2、CDCA5、CDCA8、CDK1、CDT1、CENPA、CENPE、CENPF、CENPH、CENPK、CENPM、CENPW、CEP55、CKAP2、CKAP2L、CLSPN、DBF4、DLGAP5、ECT2、ESCO2、FEN1、FOXM1、HIRIP3、HIST1H2AG、HMMR、KIF11、KIF15、KIF20A、KIF20B、KIF23、KIFC1、LMNB1、LMNB2、LRWD1、MAD2L1、MCM2、MKI67、NCAPG、NCAPG2、NCAPH、NDC80、NEIL3、NUDT1、NUF2、NUSAP1、PBK、PKMYT1、PLK1、PLK4、PRC1、RACGAP1、RAD51、RCC1、RRM2、SHCBP1、SKA1、SMC2、SNRNP25、SPC24、SPC25、SYCE2、TACC3、TK1、TOP2A、TPX2、TRIM59、TRIP13、TYMS、UBE2C、UBE2T、UHRF1和VRK1)。

b)获得TCGA数据库癌和癌旁组织样本中上述87个基因的表达值。对某一个基因j(1≤j≤87)，计算其在所有癌和癌旁组织样本中Z-score标准化的基因表达值Y_j。对某一个样本k,列举其87个基因的表达向量为{Y_1k,Y_2k,…,Y_87k},然后，计算基因集合的表达值为上述87个基因表达向量的中值(median{Y_1k,Y_2k,…,Y_87k})。进一步使用T检验将每一种癌症的样本的基因集合表达值与所有癌旁样本的基因集合表达值进行比较。由于绝大多数癌组织由高增殖的癌细胞组成，进一步确认上述基因集合在癌组织高表达，在癌旁低表达，至此，确认上述87个基因组成的基因群为细胞增殖基因集合。

2.使用上述细胞增殖基因集合建立预测细胞增殖活性的模型,具体实施步骤如下:

(1)细胞增殖基因集合预测体外培养癌细胞系增殖活性

a)获得CCLE数据库中各癌症细胞系中细胞增殖基因集合中基因的表达值。同样，对某一个基因j(1≤j≤87)，计算其在所有细胞系样本中Z-score标准化的基因表达值Z_j。对某一个细胞系样本k,列举其87个基因的表达向量为{Z_1k,Z_2k,…,Z_87k},然后，计算基因集合的表达值为上述87个基因表达值的中值(median{Z_1k,Z_2k,…,Z_87k})。计算每一个细胞系样本的细胞增殖基因集合表达值。

b)获得CCLE数据库中部分细胞增殖活性数据(倍增时间)。

c)对细胞系样本的细胞增殖基因集合表达值数据与对应细胞系的倍增时间数据，进行皮尔森相关分析。确认在来源于实体瘤的癌症细胞系中，细胞增殖活性与87个基因组成的细胞增殖基因集合表达值存在显著正相关，即细胞增殖基因集合表达高低可以预测来源于实体瘤的癌症细胞系的增殖活性。

(2)建立细胞增殖活性预测模型

a)将Tabula Muris数据库中的单细胞按细胞类型归为81类，获得各类细胞的基因表达值如上。

b)使用上述87个基因的表达值对81个细胞类型进行层次聚类分析。通过聚类分析，将细胞类型聚成2-3类。

c)对81个细胞类型中的每一个细胞类型，计算其细胞增殖基因集合表达值,获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值。对某一个细胞类型i,对某一个基因j(1≤j≤87的基因表达值X_ji，列举其87个基因的表达向量为{X_1i,X_2i,…,X_87i},然后，计算细胞增殖基因集合的表达值为上述87个基因表达值的中值(median{X_1i,X_2i,…,X_87i)。

d)依据聚类分析的结果，将81个细胞类型聚成2-3个不同的细胞类型群，对每一个细胞类型群，获得其细胞增殖基因集合的表达值向量，比较不同细胞类型群的细胞增殖基因集合的表达值(T检验，双尾)。以P<0.05为阈值，判断是否某一细胞类型群的细胞增殖基因集合表达值显著高于其他细胞类型群，从而确认高表达细胞增殖基因的细胞类型与低表达细胞增殖基因的细胞类型，实现对81种细胞类型增殖活性的评估。

至此，使用细胞增殖基因集合表达水平实现体内81种正常细胞类型的增殖活性的评估。

本发明通过单细胞RNA-Seq数据，识别出87个基因组成的细胞增殖相关基因标志物集合，使用该集合，我们评估体内不同正常细胞类型的增殖活性，全面识别体内高速增殖的正常细胞类型。这一技术的实现，可以帮助我们判断癌症组织中是否存在具有增殖活性的正常细胞。当癌症组织中存在大量该类细胞时，针对细胞增殖标志物的治疗与评估手段将会受到干扰而可能失败。

本发明的优势在于，(1)基于培养的细胞增殖活性判断方法需要对正常组织细胞进行体外培养，目前部分组织细胞无法进行体外培养，部分组织细胞受培养条件影响体内外细胞增殖活性存在巨大差异，本方法利用单细胞技术，直接对体内组织细胞的增殖活性进行评估，能够准确评估细胞的增殖活性。(2)本方法所获得的正常细胞增殖活性结果可以辅助判断癌症组织中是否存在大量具有增殖能力的正常细胞，从而为针对细胞增殖机制的癌症治疗与评估手段提供指导。

附图说明

图1：干/组细胞组高表达基因聚类分析热图。图中一列表示一种细胞类型，一行表示一个基因。对在干/组细胞组中任一细胞类型表达水平>0.5的基因进行聚类分析，聚成15个基因群，发现一个162个基因组成的基因群，其基因在干/组细胞组显著表达，在其他细胞类型中极低表达。图中Epi-SC指示表皮干细胞，数字1-7指示Slamf1阳性多能组细胞(1)、巨核-红系祖细胞(2)、晚期B前体细胞(3)、粒单核组细胞(4)、粒系细胞(5)、淋巴祖细胞(6)和自然杀伤前体细胞(7)，这8类细胞组成干/组细胞组。

图2：干/组细胞特异性表达基因集合基因在54个人正常组织样本的聚类分析热图。图中一列表示一个样本，一行表示一个基因，同一颜色的样本属于同一个组织类型。在54个人正常组织的17382样本中对干/组细胞特异性表达基因集合基因进行聚类分析，聚成2个基因群。发现由87个基因聚集形成的基因群只在(1)培养后皮肤成纤维细胞(culturedskin fibroblasts)，(2)EBV转染淋巴细胞(EBV-transformed lymphocytes)和(3)睾丸组织(testis)组织中高表达，在其他组织中均为低表达。

图3：不同癌症中细胞增殖基因集合的表达水平箱式图。获得来源于32种癌和癌旁组织的9630个样本的细胞增殖基因集合表达水平值，然后将所有癌旁样本合并(Control)。使用t检验比较每一种癌症和Control的细胞增殖基因集合表达水平。以双尾P-value<0.05为指标，红色高亮其细胞增殖基因集合表达水平显著高于癌旁组的癌症类型。

图4：细胞增殖基因集合表达水平和细胞最佳倍增时间相关分析。图中每一个点表示一个细胞系，横坐标表示细胞系的细胞增殖基因集合表达水平，纵坐标指示(供货商提供的)细胞系倍增时间。计算细胞增殖基因集合表达水平和细胞最佳倍增时间的皮尔森相关系数和P-value。

图5：Tabula Muris中81个不同正常细胞类型的聚类分析热图。图中一列表示一种细胞类型，一行表示一个细胞增殖基因集合中的一个基因。根据细胞增殖基因集合中基因的表达水平将81个正常细胞类型聚成三类。

具体实施方式

下面结合附图和实施例详细描述本发明，以下所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

实施例1：使用Tabula Muris数据库、TCGA数据库、GTEx数据库与CCLE数据库建立含有87个基因的细胞增殖基因集合，预测Tabula Muris数据库中收集的体内81种不同正常细胞类型的增殖活性，并辅助判断TCGA数据库中的癌症组织中是否存在大量具有增殖活性的正常细胞，指导针对细胞增殖标志物的癌症治疗与评估手段。

(1)数据采集

从Tabula Muris数据库获得Smart-Seq2单细胞测序技术产生的来源于81种不同正常细胞类型的53760个单细胞RNA-Seq数据。从癌症基因组图谱(TCGA)数据库获得32种癌症的9630个癌与癌旁组织RNA-Seq数据，同时获得其中31种癌症预后数据。从GTEx数据库获得54个组织的17382组织RNA-Seq数据。从CCLE数据库获得1019个细胞系样本的RNA-Seq数据与其中部分细胞系的培养方式(悬浮/贴壁/半贴壁)和倍增时间信息。

(2)干/组细胞特异性表达基因集合挖掘

首先，我们将Tabula Muris数据库中收集的53760个体内正常单细胞按细胞类型归为81类，计算不同细胞类型当中基因的表达值。对某一特定细胞类型i当中的某一基因j，计算其表达值(X_ji)如下：其中m为属于细胞类型i的细胞总数，n为细胞类型i中细胞基因j的reads count大于0的细胞的数目。如此，计算细胞类型i中所有基因的表达值。依次，计算81种细胞类型的所有基因的表达值。

其次，将81类细胞分为两组：干/组细胞组与其他细胞组(表1)。干/组细胞组包括表皮干细胞(stem cell of epidermis)，Slamf1阳性多能组细胞(Slamf1-positivemultipotent progenitor cell),巨核-红系祖细胞(megakaryocyte-erythroidprogenitor cell),晚期B前体细胞(late pro-B cell)，粒单核组细胞(granulocytemonocyte progenitor cell)，粒系细胞(granulocytopoietic cell)，淋巴祖细胞(commonlymphoid progenitor)和自然杀伤前体细胞(pre-natural killer cell)；其他细胞组包括余下的73类细胞。

最终，筛选在干/组细胞组任一细胞类型中表达值>0.5的基因。对这些基因，使用层次聚类分析，挖掘在干/组细胞组中高表达同时在其他细胞组极低表达的162个基因组成的基因群，作为干/组细胞特异性基因集合(图1)。

表1：Tabula Muris数据库中81种正常细胞类型

(3)细胞增殖基因集合挖掘

首先，获得GTEx数据库中各正常组织样本中干/组细胞特异性基因集合中162个基因的表达值。对每一个基因，获得其在17382个组织样本中的表达值，进行Z-score标准化，获得该基因的标准化后的表达值。依此，获得162个基因的标准化后表达值。对基因进行层次聚类分析，由于在绝大多数正常组织中不具有增殖活性的终末细胞占据主要成分，获得只在(i)培养后皮肤成纤维细胞(cultured skin fibroblasts)，(ii)EBV转染淋巴细胞(EBV-transformed lymphocytes)和(iii)睾丸组织(testis)组织中高表达，在其他51个组织低表达的87个基因聚集而成的基因群(图2)。该87个基因组成细胞增殖基因集合(表2)。

表2：细胞增殖基因集合基因列表

ANLN

CCNA2

CENPA

CLSPN

KIF11

MCM2

PBK

SKA1

TRIM59

ARHGAP11A

CCNB1

CENPE

DBF4

KIF15

MKI67

PKMYT1

SMC2

TRIP13

ASF1B

CCNB2

CENPF

DLGAP5

KIF20A

NCAPG

PLK1

SNRNP25

TYMS

ATAD2

CDC20

CENPH

ECT2

KIF20B

NCAPG2

PLK4

SPC24

UBE2C

AURKA

CDC45

CENPK

ESCO2

KIF23

NCAPH

PRC1

SPC25

UBE2T

AURKB

CDCA2

CENPM

FEN1

KIFC1

NDC80

RACGAP1

SYCE2

UHRF1

BIRC5

CDCA5

CENPW

FOXM1

LMNB1

NEIL3

RAD51

TACC3

VRK1

BRCA2

CDCA8

CEP55

HIRIP3

LMNB2

NUDTI

RCC1

TK1

BUB1

CDK1

CKAP2

HISTTH2AG

LRWD1

NUF2

RRM2

top2A

BUBTB

CDTT

CKAP2L

HMMR

MAD2L1

NUSAP1

SHCBP1

TPX2

其次，获得TCGA数据库中32种癌症(表3)癌症组织和癌旁组织共计9630样本中上述87个基因的表达值。对某一个基因j(1≤j≤87)，计算其在所有癌和癌旁组织样本中Z-score标准化的基因表达值Y_j。对某一个样本k，列举其87个基因的表达向量为{Y_1k，Y_2k，...，Y_87k}，然后，计算基因集合的表达值为上述87个基因表达向量的中值(median{Y_1k，Y_2k，...，Y_87k})。进一步使用T检验将每一种癌症的样本的基因集合表达值与所有癌旁样本的基因集合表达值进行比较。由于绝大多数癌症组织由高增殖的癌细胞组成，进一步确认在32个癌症类型的28个癌症中，细胞增殖基因集合在癌症组织中的表达值高于癌旁组织的表达值(P＜0.05，表3和图3)。

表3：TCGA数据库中32种癌症名称中英文对照

HNSC	头颈鳞状细胞癌	SKCM	皮肤黑色素瘤
				KICH	肾嫌色细胞癌	STAD	胃癌
KIRC	肾透明细胞癌	BLCA	膀胱尿路上皮癌
				KIRP	肾乳头状细胞癌	TGCT	睾丸癌
LAML	急性髓细胞样白血病	THCA	甲状腺癌
				LGG	脑低级别胶质瘤	THYM	胸腺癌
LIHC	肝细胞肝癌	UCEC	子宫内膜癌
				LUAD	肺腺癌	UCS	子宫肉瘤
LUSC	肺鳞癌	UVM	葡萄膜黑色素瘤
				ACC	肾上腺皮质癌	BRCA	乳腺浸润癌
MESO	间皮瘤	CESC	宫颈鳞癌和腺癌
				OV	卵巢浆液性囊腺癌	COAD	结肠癌
PAAD	胰腺癌	DLBC	弥漫性大B细胞淋巴瘤
				PCPG	嗜铬细胞瘤和副神经节瘤	ESCA	食管癌
PRAD	前列腺癌	GBM	多形成性胶质细胞瘤
				READ	直肠腺癌	SARC	肉瘤

(4)细胞增殖基因集合预测癌细胞增殖活性

首先，获得CCLE数据库中所有癌症细胞系中细胞增殖基因集合中87个基因的表达值。

对某一个基因j(1≤j≤87)，计算其在1019个细胞系样本中Z-score标准化的基因表达值Z_j。对某一个细胞系样本k，列举其87个基因的表达向量为{Z_1k，Z_2k，...，Z_87k}，然后，计算基因集合的表达值为上述87个基因表达值的中值(median{Z_1k，Z_2k，...，Z_87k})。

计算每一个细胞系样本的细胞增殖基因集合表达值。

其次，CCLE数据库提供部分细胞系的培养方式(悬浮/半贴壁/贴壁)和倍增时间(由供货商提供/由CCLE工作人员统计)的信息。认为供货商提供的倍增时间表达了细胞系的最佳倍增时间，可以作为细胞系的细胞增殖活性能力的指标。为此，获得99个以半贴壁或贴壁培养的细胞系(由供货商提供的)倍增时间数据，作为这批细胞系的细胞增殖活性的指标。最后，发现这批细胞系的细胞增殖基因集合表达值与细胞倍增时间存在负相关关系(皮尔斯相关分析，图4)。由于细胞倍增时间越短，细胞增殖活性越强。这一结果表明细胞增殖基因集合表达值与细胞增殖活性之间存在正相关关系。一般实体瘤为半贴壁或贴壁方式生长而血液瘤以悬浮方式生长。这一结果表明，实体瘤的细胞增殖基因集合表达值可以预测其细胞增殖活性。

(5)细胞增殖活性评估

首先，将Tabula Muris数据库中的单细胞按细胞类型归为81类，计算各类细胞的基因表达值如上。对这81个不同细胞类型，获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值。

其次，使用上述87基因的表达值对81种不同正常细胞类型进行层次聚类分析。使用R软件包“factoextra”进行层次聚类分析，使用的距离度量为“euclidean”，聚类方法为“ward.D2”，依据层次聚类树结果，将81个细胞类型聚成三类(图5)。一类为干/组细胞组，其他两类来源于其他细胞组(表1)，分别为显著增殖组(该组细胞具有显著细胞增殖基因表达从而具有一定的细胞增殖能力)和稀少增殖组((该组细胞很少表达细胞增殖基因从而细胞增殖能力很弱)。

最后，对81个细胞类型中的每一个细胞类型，计算其细胞增殖基因集合表达值。对81个细胞类型中的每一个细胞类型，计算其细胞增殖基因集合表达值。获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值。对某一个细胞类型i,对某一个基因j(1≤j≤87的基因表达值X_ji，列举其87个基因的表达向量为{X_1i,X_2i,…,X_87i},然后，计算细胞增殖基因集合的表达值为上述87个基因表达值的中值(median{X_1i,X_2i,…,X_87i)。比较上述3类不同细胞类型群的细胞增殖基因集合表达值结果。使用T检验方法，以双尾P<0.05为阈值，发现干/组细胞组群的细胞增殖基因集合表达值显著大于显著增殖组的细胞增殖基因集合表达值，同时显著增殖组的细胞增殖基因集合表达值大于稀少增殖组的细胞增殖基因集合表达值。如此，成功将81种不同正常细胞类型分成三类细胞增殖能力不同的细胞类型群，实现相应细胞类型的增殖能力的等级评估。

(6)正常细胞类型增殖活性指导细胞增殖标志物的临床应用

首先，依据细胞类型信息，发现在显著增殖组中immature B cell(非成熟B细胞)，basal cell of epidermis(表皮基底细胞),epithelial cell of large intestine(大肠上皮细胞)所在组织可能会发生实体瘤。

其次，对TCGA的31组具有临床预后信息的实体瘤分析，发现DLBC(弥漫性大B细胞淋巴瘤)癌组织中可能包含大量非成熟B细胞，HNSC(头颈鳞状细胞癌),LUSC(肺鳞癌),ESCA(食管癌)和CESC(宫颈鳞癌和腺癌)均包含鳞状上皮细胞癌，其癌组织可能包含大量表皮基底细胞，而COAD(结肠癌)和READ(直肠腺癌)其癌组织可能包含大量大肠上皮细胞。这7类癌症中均含有大量具有显著增殖活性的正常细胞，基于细胞增殖标志物的治疗与预后预测可能会失败。

最后，使用TCGA的癌症组织RNA-Seq数据与临床progression-free interval(PFI，疾病缓解期)数据，运用Cox比例风险回归模型(连续变量方法)方法，判断DLBC，HNSC,LUSC,ESCA，CESC，COAD和READ患者术后癌组织样本增殖标记MKI67表达值是否对其疾病缓解期具有预测意义。以P-value<0.05为阈值，发现MKI67表达值不能够预测这7种癌症的疾病缓解期(表4)。这一结果与我们预测结果相一致。

表4：7种癌组织包含大量显著增殖正常细胞类型的癌症细胞增殖标志物MKI67预后分析

癌症类型	Hazard Ratio(95％置信区间)	Type 3 P-value
			宫颈鳞癌和腺癌	1.03(0.77-1.37)	0.8566
结肠癌	0.87(0.54-1.4)	0.5555
			弥漫性大B细胞淋巴瘤	1(0.55-1.81)	0.9902
食管癌	1.04(0.89-1.21)	0.6189
			头颈鳞状细胞癌	0.97(0.84-1.12)	0.6502
肺鳞癌	1.18(0.95-1.45)	0.1277
			直肠腺癌	1.61(0.73-3.55)	0.242

Claims

1.一种以87个基因作为生物标志物预测细胞增殖活性的模型，其特征在于，通过以下步骤实现：

(1)建立细胞增殖基因集合：

1)数据采集

从Tabula Muris数据库获得不同类型正常细胞的单细胞RNA-Seq数据，从癌症基因组图谱数据库获得癌症和癌旁组织RNA-Seq数据，从GTEx数据库中获得组织RNA-Seq数据，从CCLE数据库获得细胞系RNA-Seq数据与细胞增殖活性数据；

2)干/组细胞特异性表达基因集合挖掘

a)将Tabula Muris数据库中的体内正常单细胞按细胞类型归为81类，计算各类细胞的基因表达值，对某一特定细胞类型i当中的某一基因j，计算其表达值(X_ji)如下：

其中m为属于细胞类型i的细胞总数，n为细胞类型i中细胞基因j的reads count大于0的细胞的数目，计算细胞类型i中所有基因的表达值，依次计算81种细胞类型的所有基因的表达值；

b)将81类细胞分为两组：干/组细胞组与其他细胞组；

c)使用层次聚类分析，挖掘在干/组细胞组中高表达，在其他细胞组极低表达的基因，作为干/组细胞特异性基因集合；

3)细胞增殖基因集合挖掘

a)获得GTEx数据库中各正常组织样本中干/组细胞特异性基因集合中基因的表达值，在绝大多数正常组织中不具有增殖活性的终末细胞占据主要成分，为此对基因进行层次聚类分析，获得在正常组织中低表达的87个基因组成的基因群；

b)获得TCGA数据库癌和癌旁组织样本中上述87个基因的表达值，对某一个基因j，计算其在所有癌和癌旁组织样本中Z-score标准化的基因表达值Y_j，对某一个样本k,列举其87个基因的表达向量为{Y_1k,Y_2k,…,Y_87k},然后，计算基因集合的表达值为87个基因表达向量的中值，进一步使用T检验将每一种癌症的样本的基因集合表达值与所有癌旁样本的基因集合表达值进行比较，由于绝大多数癌组织由高增殖的癌细胞组成，进一步确认上述基因集合在癌组织高表达，在癌旁低表达，确认上述87个基因组成的基因群为细胞增殖基因集合；

(2)使用上述细胞增殖基因集合建立预测细胞增殖活性的模型:

1)细胞增殖基因集合预测体外培养癌细胞系增殖活性

a)获得CCLE数据库中各癌症细胞系中细胞增殖基因集合中基因的表达值，对某一个基因j，计算其在所有细胞系样本中Z-score标准化的基因表达值Z_j，对某一个细胞系样本k,列举其87个基因的表达向量为{Z_1k,Z_2k,…,Z_87k},然后，计算基因集合的表达值为上述87个基因表达值的中值，计算每一个细胞系样本的细胞增殖基因集合表达值；

b)获得CCLE数据库中部分细胞增殖活性数据；

c)对细胞系样本的细胞增殖基因集合表达值数据与对应细胞系的倍增时间数据，进行皮尔森相关分析，确认在来源于实体瘤的癌症细胞系中，细胞增殖活性与87个基因组成的细胞增殖基因集合表达值存在显著正相关，通过细胞增殖基因集合表达高低预测来源于实体瘤的癌症细胞系的增殖活性；

2)建立细胞增殖活性预测模型

a)将Tabula Muris数据库中的单细胞按细胞类型归为81类，获得各类细胞的基因表达值；

b)使用上述87个基因的表达值对81个细胞类型进行层次聚类分析，通过聚类分析，将细胞类型聚成2-3类；

c)对81个细胞类型中的每一个细胞类型，计算其细胞增殖基因集合表达值,获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值，对某一个细胞类型i,对某一个基因j的基因表达值X_ji，列举其87个基因的表达向量为{X_1i,X_2i,…,X_87i},然后计算细胞增殖基因集合的表达值为上述87个基因表达值的中值；

d)依据聚类分析的结果，将81个细胞类型聚成2-3个不同的细胞类型群，对每一个细胞类型群，获得其细胞增殖基因集合的表达值向量，比较不同细胞类型群的细胞增殖基因集合的表达值，以P<0.05为阈值，判断是否某一细胞类型群的细胞增殖基因集合表达值显著高于其他细胞类型群，从而确认高表达细胞增殖基因的细胞类型与低表达细胞增殖基因的细胞类型，实现对81种细胞类型增殖活性的评估。

2.根据权利要求1所述的一种以87个基因作为生物标志物预测细胞增殖活性的模型，其特征在于，87个基因为：ANLN、ARHGAP11A、ASF1B、ATAD2、AURKA、AURKB、BIRC5、BRCA2、BUB1、BUB1B、CCNA2、CCNB1、CCNB2、CDC20、CDC45、CDCA2、CDCA5、CDCA8、CDK1、CDT1、CENPA、CENPE、CENPF、CENPH、CENPK、CENPM、CENPW、CEP55、CKAP2、CKAP2L、CLSPN、DBF4、DLGAP5、ECT2、ESCO2、FEN1、FOXM1、HIRIP3、HIST1H2AG、HMMR、KIF11、KIF15、KIF20A、KIF20B、KIF23、KIFC1、LMNB1、LMNB2、LRWD1、MAD2L1、MCM2、MKI67、NCAPG、NCAPG2、NCAPH、NDC80、NEIL3、NUDT1、NUF2、NUSAP1、PBK、PKMYT1、PLK1、PLK4、PRC1、RACGAP1、RAD51、RCC1、RRM2、SHCBP1、SKA1、SMC2、SNRNP25、SPC24、SPC25、SYCE2、TACC3、TK1、TOP2A、TPX2、TRIM59、TRIP13、TYMS、UBE2C、UBE2T、UHRF1和VRK1。

3.根据权利要求1所述的一种以87个基因作为生物标志物预测细胞增殖活性的模型，其特征在于:步骤(2)中获得CCLE数据库中部分细胞增殖活性数据，是指获得CCLE数据库中部分细胞倍增时间增殖活性数据，使用T检验比较不同细胞类型群的细胞增殖基因集合的表达值。