CN111739586B - 以87个基因作为生物标志物预测细胞增殖活性的模型 - Google Patents

以87个基因作为生物标志物预测细胞增殖活性的模型 Download PDF

Info

Publication number
CN111739586B
CN111739586B CN202010554703.4A CN202010554703A CN111739586B CN 111739586 B CN111739586 B CN 111739586B CN 202010554703 A CN202010554703 A CN 202010554703A CN 111739586 B CN111739586 B CN 111739586B
Authority
CN
China
Prior art keywords
cell
genes
cell proliferation
gene
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010554703.4A
Other languages
English (en)
Other versions
CN111739586A (zh
Inventor
吴超
郑敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010554703.4A priority Critical patent/CN111739586B/zh
Priority to PCT/CN2020/101544 priority patent/WO2021253544A1/zh
Publication of CN111739586A publication Critical patent/CN111739586A/zh
Application granted granted Critical
Publication of CN111739586B publication Critical patent/CN111739586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Physiology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供以87个基因作为生物标志物预测细胞增殖活性的模型。细胞增殖基因集合表达水平与细胞的增殖活性正相关。本发明提供了一套无需体外培养对细胞增殖活性进行评估的方法。结合单细胞测序技术,可以快捷简便的测定体内各细胞类型的增殖活性。本发明可以帮助我们判断癌症组织中是否存在显著增殖的正常细胞。当癌症组织中存在大量该类细胞时,针对细胞增殖标志物的治疗与评估手段将会受到干扰而可能失败,当癌症组织不存在大量该类细胞时,针对细胞增殖标志物的治疗与评估手段有望成功。本发明对于基于细胞增殖机制的癌症诊疗具有辅助指导意义。

Description

以87个基因作为生物标志物预测细胞增殖活性的模型
技术领域
本发明属于基因技术及生物医学领域,具体涉及一种以87个基因作为生物标志物预测细胞增殖活性的方法
背景技术
癌细胞的大量无序增殖是肿瘤发生的关键机制。针对细胞增殖机制,人们发展出化疗等治疗手段。同时,人们开发出多个细胞增殖基因标志物如MKI67,MCM2和PCNA等,使用其mRNA或者蛋白表达水平来指示癌症细胞的增殖活性,从而辅助评估术后病患的预后情况。特别是针对MKI67的蛋白表达量,人们开发出Ki-67指数来标记病理样本中Ki-67表达阳性细胞的比率,从而评估肺癌、乳腺癌、前列腺癌、宫颈癌、结直肠癌、膀胱癌、淋巴癌等癌症患者的预后。
增殖并不是癌症细胞所独有的特性。已有研究表明,人体皮肤、骨髓与胃肠道等组织中存在大量具有增殖活性的细胞。当癌症发生于上述组织时,术后病患的癌症组织样本中MKI67等细胞增殖标志物的表达量部分来源于癌症细胞,部分来源于正常增殖细胞,将无法准确反映癌症细胞的增殖活性。由于缺乏足够的数据支持,美国临床肿瘤学会(ASCO)肿瘤标志物指导委员会不建议将Ki-67指数作为新近诊断为乳腺癌的患者的常规预后标志物。这一现象的部分原因是由于正常骨髓与淋巴结等免疫器官中亦存在大量增殖细胞,在患者病理样本中,Ki-67指数无法精确区分正常增殖细胞与肿瘤细胞,导致其癌症细胞增殖活性估计精度下降,进而导致预测患者预后能力的下降。
体外培养能够帮助我们鉴定正常细胞的增殖能力。但是目前这一方法存在极大的困难:1.部分细胞无法在体外进行培养;2.部分细胞由于生存环境存在巨大差异,其体外培养条件下的增殖能力无法反映体内环境中的真实增殖能力。
发明内容
针对人体不同类型细胞增殖活性的差异和当前培养方式细胞增殖活性评估的困难,本发明提供一个以87个细胞增殖基因集合作为标志物评估细胞增殖活性的方法。为了实现这一目的,本发明采用以下技术方案。
1.建立细胞增殖基因集合,由87个基因组成细胞增殖基因集合,具体实施步骤如下:
(1)数据采集
从Tabula Muris数据库(https://tabula-muris.ds.czbiohub.org/)获得不同类型正常细胞的单细胞RNA-Seq数据,从癌症基因组图谱(TCGA)数据库(http://cancergenome.nih.gov/)获得癌症和癌旁组织RNA-Seq数据,从GTEx(Genotype-TissueExpression Project)数据库(https://www.gtexportal.org/)中获得组织RNA-Seq数据,从CCLE(Cancer Cell Line Encyclopedia)数据库(https://portals.broadinstitute.org/ccle)获得细胞系RNA-Seq数据与细胞增殖活性数据。
(2)干/组细胞特异性表达基因集合挖掘
a)将Tabula Muris数据库中的体内正常单细胞按细胞类型归为81类,计算各类细胞的基因表达值。对某一特定细胞类型i当中的某一基因j,计算其表达值(Xji)如下:
其中m为属于细胞类型i的细胞总数,n为细胞类型i中细胞基因j的reads count大于0的细胞的数目。如此,计算细胞类型i中所有基因的表达值。依次,计算81种细胞类型的所有基因的表达值。
b)将81类细胞分为两组:干/组细胞组与其他细胞组。
c)使用层次聚类分析,挖掘在干/组细胞组中高表达,在其他细胞组极低表达的基因,作为干/组细胞特异性基因集合。
(3)细胞增殖基因集合挖掘
a)获得GTEx数据库中各正常组织样本中干/组细胞特异性基因集合中基因的表达值。在绝大多数正常组织中不具有增殖活性的终末细胞占据主要成分,为此对上述基因进行层次聚类分析,获得在正常组织中低表达的87个基因组成的基因群(87个基因包括ANLN、ARHGAP11A、ASF1B、ATAD2、AURKA、AURKB、BIRC5、BRCA2、BUB1、BUB1B、CCNA2、CCNB1、CCNB2、CDC20、CDC45、CDCA2、CDCA5、CDCA8、CDK1、CDT1、CENPA、CENPE、CENPF、CENPH、CENPK、CENPM、CENPW、CEP55、CKAP2、CKAP2L、CLSPN、DBF4、DLGAP5、ECT2、ESCO2、FEN1、FOXM1、HIRIP3、HIST1H2AG、HMMR、KIF11、KIF15、KIF20A、KIF20B、KIF23、KIFC1、LMNB1、LMNB2、LRWD1、MAD2L1、MCM2、MKI67、NCAPG、NCAPG2、NCAPH、NDC80、NEIL3、NUDT1、NUF2、NUSAP1、PBK、PKMYT1、PLK1、PLK4、PRC1、RACGAP1、RAD51、RCC1、RRM2、SHCBP1、SKA1、SMC2、SNRNP25、SPC24、SPC25、SYCE2、TACC3、TK1、TOP2A、TPX2、TRIM59、TRIP13、TYMS、UBE2C、UBE2T、UHRF1和VRK1)。
b)获得TCGA数据库癌和癌旁组织样本中上述87个基因的表达值。对某一个基因j(1≤j≤87),计算其在所有癌和癌旁组织样本中Z-score标准化的基因表达值Yj。对某一个样本k,列举其87个基因的表达向量为{Y1k,Y2k,…,Y87k},然后,计算基因集合的表达值为上述87个基因表达向量的中值(median{Y1k,Y2k,…,Y87k})。进一步使用T检验将每一种癌症的样本的基因集合表达值与所有癌旁样本的基因集合表达值进行比较。由于绝大多数癌组织由高增殖的癌细胞组成,进一步确认上述基因集合在癌组织高表达,在癌旁低表达,至此,确认上述87个基因组成的基因群为细胞增殖基因集合。
2.使用上述细胞增殖基因集合建立预测细胞增殖活性的模型,具体实施步骤如下:
(1)细胞增殖基因集合预测体外培养癌细胞系增殖活性
a)获得CCLE数据库中各癌症细胞系中细胞增殖基因集合中基因的表达值。同样,对某一个基因j(1≤j≤87),计算其在所有细胞系样本中Z-score标准化的基因表达值Zj。对某一个细胞系样本k,列举其87个基因的表达向量为{Z1k,Z2k,…,Z87k},然后,计算基因集合的表达值为上述87个基因表达值的中值(median{Z1k,Z2k,…,Z87k})。计算每一个细胞系样本的细胞增殖基因集合表达值。
b)获得CCLE数据库中部分细胞增殖活性数据(倍增时间)。
c)对细胞系样本的细胞增殖基因集合表达值数据与对应细胞系的倍增时间数据,进行皮尔森相关分析。确认在来源于实体瘤的癌症细胞系中,细胞增殖活性与87个基因组成的细胞增殖基因集合表达值存在显著正相关,即细胞增殖基因集合表达高低可以预测来源于实体瘤的癌症细胞系的增殖活性。
(2)建立细胞增殖活性预测模型
a)将Tabula Muris数据库中的单细胞按细胞类型归为81类,获得各类细胞的基因表达值如上。
b)使用上述87个基因的表达值对81个细胞类型进行层次聚类分析。通过聚类分析,将细胞类型聚成2-3类。
c)对81个细胞类型中的每一个细胞类型,计算其细胞增殖基因集合表达值,获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值。对某一个细胞类型i,对某一个基因j(1≤j≤87的基因表达值Xji,列举其87个基因的表达向量为{X1i,X2i,…,X87i},然后,计算细胞增殖基因集合的表达值为上述87个基因表达值的中值(median{X1i,X2i,…,X87i)。
d)依据聚类分析的结果,将81个细胞类型聚成2-3个不同的细胞类型群,对每一个细胞类型群,获得其细胞增殖基因集合的表达值向量,比较不同细胞类型群的细胞增殖基因集合的表达值(T检验,双尾)。以P<0.05为阈值,判断是否某一细胞类型群的细胞增殖基因集合表达值显著高于其他细胞类型群,从而确认高表达细胞增殖基因的细胞类型与低表达细胞增殖基因的细胞类型,实现对81种细胞类型增殖活性的评估。
至此,使用细胞增殖基因集合表达水平实现体内81种正常细胞类型的增殖活性的评估。
本发明通过单细胞RNA-Seq数据,识别出87个基因组成的细胞增殖相关基因标志物集合,使用该集合,我们评估体内不同正常细胞类型的增殖活性,全面识别体内高速增殖的正常细胞类型。这一技术的实现,可以帮助我们判断癌症组织中是否存在具有增殖活性的正常细胞。当癌症组织中存在大量该类细胞时,针对细胞增殖标志物的治疗与评估手段将会受到干扰而可能失败。
本发明的优势在于,(1)基于培养的细胞增殖活性判断方法需要对正常组织细胞进行体外培养,目前部分组织细胞无法进行体外培养,部分组织细胞受培养条件影响体内外细胞增殖活性存在巨大差异,本方法利用单细胞技术,直接对体内组织细胞的增殖活性进行评估,能够准确评估细胞的增殖活性。(2)本方法所获得的正常细胞增殖活性结果可以辅助判断癌症组织中是否存在大量具有增殖能力的正常细胞,从而为针对细胞增殖机制的癌症治疗与评估手段提供指导。
附图说明
图1:干/组细胞组高表达基因聚类分析热图。图中一列表示一种细胞类型,一行表示一个基因。对在干/组细胞组中任一细胞类型表达水平>0.5的基因进行聚类分析,聚成15个基因群,发现一个162个基因组成的基因群,其基因在干/组细胞组显著表达,在其他细胞类型中极低表达。图中Epi-SC指示表皮干细胞,数字1-7指示Slamf1阳性多能组细胞(1)、巨核-红系祖细胞(2)、晚期B前体细胞(3)、粒单核组细胞(4)、粒系细胞(5)、淋巴祖细胞(6)和自然杀伤前体细胞(7),这8类细胞组成干/组细胞组。
图2:干/组细胞特异性表达基因集合基因在54个人正常组织样本的聚类分析热图。图中一列表示一个样本,一行表示一个基因,同一颜色的样本属于同一个组织类型。在54个人正常组织的17382样本中对干/组细胞特异性表达基因集合基因进行聚类分析,聚成2个基因群。发现由87个基因聚集形成的基因群只在(1)培养后皮肤成纤维细胞(culturedskin fibroblasts),(2)EBV转染淋巴细胞(EBV-transformed lymphocytes)和(3)睾丸组织(testis)组织中高表达,在其他组织中均为低表达。
图3:不同癌症中细胞增殖基因集合的表达水平箱式图。获得来源于32种癌和癌旁组织的9630个样本的细胞增殖基因集合表达水平值,然后将所有癌旁样本合并(Control)。使用t检验比较每一种癌症和Control的细胞增殖基因集合表达水平。以双尾P-value<0.05为指标,红色高亮其细胞增殖基因集合表达水平显著高于癌旁组的癌症类型。
图4:细胞增殖基因集合表达水平和细胞最佳倍增时间相关分析。图中每一个点表示一个细胞系,横坐标表示细胞系的细胞增殖基因集合表达水平,纵坐标指示(供货商提供的)细胞系倍增时间。计算细胞增殖基因集合表达水平和细胞最佳倍增时间的皮尔森相关系数和P-value。
图5:Tabula Muris中81个不同正常细胞类型的聚类分析热图。图中一列表示一种细胞类型,一行表示一个细胞增殖基因集合中的一个基因。根据细胞增殖基因集合中基因的表达水平将81个正常细胞类型聚成三类。
具体实施方式
下面结合附图和实施例详细描述本发明,以下所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
实施例1:使用Tabula Muris数据库、TCGA数据库、GTEx数据库与CCLE数据库建立含有87个基因的细胞增殖基因集合,预测Tabula Muris数据库中收集的体内81种不同正常细胞类型的增殖活性,并辅助判断TCGA数据库中的癌症组织中是否存在大量具有增殖活性的正常细胞,指导针对细胞增殖标志物的癌症治疗与评估手段。
(1)数据采集
从Tabula Muris数据库获得Smart-Seq2单细胞测序技术产生的来源于81种不同正常细胞类型的53760个单细胞RNA-Seq数据。从癌症基因组图谱(TCGA)数据库获得32种癌症的9630个癌与癌旁组织RNA-Seq数据,同时获得其中31种癌症预后数据。从GTEx数据库获得54个组织的17382组织RNA-Seq数据。从CCLE数据库获得1019个细胞系样本的RNA-Seq数据与其中部分细胞系的培养方式(悬浮/贴壁/半贴壁)和倍增时间信息。
(2)干/组细胞特异性表达基因集合挖掘
首先,我们将Tabula Muris数据库中收集的53760个体内正常单细胞按细胞类型归为81类,计算不同细胞类型当中基因的表达值。对某一特定细胞类型i当中的某一基因j,计算其表达值(Xji)如下:其中m为属于细胞类型i的细胞总数,n为细胞类型i中细胞基因j的reads count大于0的细胞的数目。如此,计算细胞类型i中所有基因的表达值。依次,计算81种细胞类型的所有基因的表达值。
其次,将81类细胞分为两组:干/组细胞组与其他细胞组(表1)。干/组细胞组包括表皮干细胞(stem cell of epidermis),Slamf1阳性多能组细胞(Slamf1-positivemultipotent progenitor cell),巨核-红系祖细胞(megakaryocyte-erythroidprogenitor cell),晚期B前体细胞(late pro-B cell),粒单核组细胞(granulocytemonocyte progenitor cell),粒系细胞(granulocytopoietic cell),淋巴祖细胞(commonlymphoid progenitor)和自然杀伤前体细胞(pre-natural killer cell);其他细胞组包括余下的73类细胞。
最终,筛选在干/组细胞组任一细胞类型中表达值>0.5的基因。对这些基因,使用层次聚类分析,挖掘在干/组细胞组中高表达同时在其他细胞组极低表达的162个基因组成的基因群,作为干/组细胞特异性基因集合(图1)。
表1:Tabula Muris数据库中81种正常细胞类型
(3)细胞增殖基因集合挖掘
首先,获得GTEx数据库中各正常组织样本中干/组细胞特异性基因集合中162个基因的表达值。对每一个基因,获得其在17382个组织样本中的表达值,进行Z-score标准化,获得该基因的标准化后的表达值。依此,获得162个基因的标准化后表达值。对基因进行层次聚类分析,由于在绝大多数正常组织中不具有增殖活性的终末细胞占据主要成分,获得只在(i)培养后皮肤成纤维细胞(cultured skin fibroblasts),(ii)EBV转染淋巴细胞(EBV-transformed lymphocytes)和(iii)睾丸组织(testis)组织中高表达,在其他51个组织低表达的87个基因聚集而成的基因群(图2)。该87个基因组成细胞增殖基因集合(表2)。
表2:细胞增殖基因集合基因列表
ANLN CCNA2 CENPA CLSPN KIF11 MCM2 PBK SKA1 TRIM59
ARHGAP11A CCNB1 CENPE DBF4 KIF15 MKI67 PKMYT1 SMC2 TRIP13
ASF1B CCNB2 CENPF DLGAP5 KIF20A NCAPG PLK1 SNRNP25 TYMS
ATAD2 CDC20 CENPH ECT2 KIF20B NCAPG2 PLK4 SPC24 UBE2C
AURKA CDC45 CENPK ESCO2 KIF23 NCAPH PRC1 SPC25 UBE2T
AURKB CDCA2 CENPM FEN1 KIFC1 NDC80 RACGAP1 SYCE2 UHRF1
BIRC5 CDCA5 CENPW FOXM1 LMNB1 NEIL3 RAD51 TACC3 VRK1
BRCA2 CDCA8 CEP55 HIRIP3 LMNB2 NUDTI RCC1 TK1
BUB1 CDK1 CKAP2 HISTTH2AG LRWD1 NUF2 RRM2 top2A
BUBTB CDTT CKAP2L HMMR MAD2L1 NUSAP1 SHCBP1 TPX2
其次,获得TCGA数据库中32种癌症(表3)癌症组织和癌旁组织共计9630样本中上述87个基因的表达值。对某一个基因j(1≤j≤87),计算其在所有癌和癌旁组织样本中Z-score标准化的基因表达值Yj。对某一个样本k,列举其87个基因的表达向量为{Y1k,Y2k,...,Y87k},然后,计算基因集合的表达值为上述87个基因表达向量的中值(median{Y1k,Y2k,...,Y87k})。进一步使用T检验将每一种癌症的样本的基因集合表达值与所有癌旁样本的基因集合表达值进行比较。由于绝大多数癌症组织由高增殖的癌细胞组成,进一步确认在32个癌症类型的28个癌症中,细胞增殖基因集合在癌症组织中的表达值高于癌旁组织的表达值(P<0.05,表3和图3)。
表3:TCGA数据库中32种癌症名称中英文对照
HNSC 头颈鳞状细胞癌 SKCM 皮肤黑色素瘤
KICH 肾嫌色细胞癌 STAD 胃癌
KIRC 肾透明细胞癌 BLCA 膀胱尿路上皮癌
KIRP 肾乳头状细胞癌 TGCT 睾丸癌
LAML 急性髓细胞样白血病 THCA 甲状腺癌
LGG 脑低级别胶质瘤 THYM 胸腺癌
LIHC 肝细胞肝癌 UCEC 子宫内膜癌
LUAD 肺腺癌 UCS 子宫肉瘤
LUSC 肺鳞癌 UVM 葡萄膜黑色素瘤
ACC 肾上腺皮质癌 BRCA 乳腺浸润癌
MESO 间皮瘤 CESC 宫颈鳞癌和腺癌
OV 卵巢浆液性囊腺癌 COAD 结肠癌
PAAD 胰腺癌 DLBC 弥漫性大B细胞淋巴瘤
PCPG 嗜铬细胞瘤和副神经节瘤 ESCA 食管癌
PRAD 前列腺癌 GBM 多形成性胶质细胞瘤
READ 直肠腺癌 SARC 肉瘤
(4)细胞增殖基因集合预测癌细胞增殖活性
首先,获得CCLE数据库中所有癌症细胞系中细胞增殖基因集合中87个基因的表达值。
对某一个基因j(1≤j≤87),计算其在1019个细胞系样本中Z-score标准化的基因表达值Zj。对某一个细胞系样本k,列举其87个基因的表达向量为{Z1k,Z2k,...,Z87k},然后,计算基因集合的表达值为上述87个基因表达值的中值(median{Z1k,Z2k,...,Z87k})。
计算每一个细胞系样本的细胞增殖基因集合表达值。
其次,CCLE数据库提供部分细胞系的培养方式(悬浮/半贴壁/贴壁)和倍增时间(由供货商提供/由CCLE工作人员统计)的信息。认为供货商提供的倍增时间表达了细胞系的最佳倍增时间,可以作为细胞系的细胞增殖活性能力的指标。为此,获得99个以半贴壁或贴壁培养的细胞系(由供货商提供的)倍增时间数据,作为这批细胞系的细胞增殖活性的指标。最后,发现这批细胞系的细胞增殖基因集合表达值与细胞倍增时间存在负相关关系(皮尔斯相关分析,图4)。由于细胞倍增时间越短,细胞增殖活性越强。这一结果表明细胞增殖基因集合表达值与细胞增殖活性之间存在正相关关系。一般实体瘤为半贴壁或贴壁方式生长而血液瘤以悬浮方式生长。这一结果表明,实体瘤的细胞增殖基因集合表达值可以预测其细胞增殖活性。
(5)细胞增殖活性评估
首先,将Tabula Muris数据库中的单细胞按细胞类型归为81类,计算各类细胞的基因表达值如上。对这81个不同细胞类型,获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值。
其次,使用上述87基因的表达值对81种不同正常细胞类型进行层次聚类分析。使用R软件包“factoextra”进行层次聚类分析,使用的距离度量为“euclidean”,聚类方法为“ward.D2”,依据层次聚类树结果,将81个细胞类型聚成三类(图5)。一类为干/组细胞组,其他两类来源于其他细胞组(表1),分别为显著增殖组(该组细胞具有显著细胞增殖基因表达从而具有一定的细胞增殖能力)和稀少增殖组((该组细胞很少表达细胞增殖基因从而细胞增殖能力很弱)。
最后,对81个细胞类型中的每一个细胞类型,计算其细胞增殖基因集合表达值。对81个细胞类型中的每一个细胞类型,计算其细胞增殖基因集合表达值。获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值。对某一个细胞类型i,对某一个基因j(1≤j≤87的基因表达值Xji,列举其87个基因的表达向量为{X1i,X2i,…,X87i},然后,计算细胞增殖基因集合的表达值为上述87个基因表达值的中值(median{X1i,X2i,…,X87i)。比较上述3类不同细胞类型群的细胞增殖基因集合表达值结果。使用T检验方法,以双尾P<0.05为阈值,发现干/组细胞组群的细胞增殖基因集合表达值显著大于显著增殖组的细胞增殖基因集合表达值,同时显著增殖组的细胞增殖基因集合表达值大于稀少增殖组的细胞增殖基因集合表达值。如此,成功将81种不同正常细胞类型分成三类细胞增殖能力不同的细胞类型群,实现相应细胞类型的增殖能力的等级评估。
(6)正常细胞类型增殖活性指导细胞增殖标志物的临床应用
首先,依据细胞类型信息,发现在显著增殖组中immature B cell(非成熟B细胞),basal cell of epidermis(表皮基底细胞),epithelial cell of large intestine(大肠上皮细胞)所在组织可能会发生实体瘤。
其次,对TCGA的31组具有临床预后信息的实体瘤分析,发现DLBC(弥漫性大B细胞淋巴瘤)癌组织中可能包含大量非成熟B细胞,HNSC(头颈鳞状细胞癌),LUSC(肺鳞癌),ESCA(食管癌)和CESC(宫颈鳞癌和腺癌)均包含鳞状上皮细胞癌,其癌组织可能包含大量表皮基底细胞,而COAD(结肠癌)和READ(直肠腺癌)其癌组织可能包含大量大肠上皮细胞。这7类癌症中均含有大量具有显著增殖活性的正常细胞,基于细胞增殖标志物的治疗与预后预测可能会失败。
最后,使用TCGA的癌症组织RNA-Seq数据与临床progression-free interval(PFI,疾病缓解期)数据,运用Cox比例风险回归模型(连续变量方法)方法,判断DLBC,HNSC,LUSC,ESCA,CESC,COAD和READ患者术后癌组织样本增殖标记MKI67表达值是否对其疾病缓解期具有预测意义。以P-value<0.05为阈值,发现MKI67表达值不能够预测这7种癌症的疾病缓解期(表4)。这一结果与我们预测结果相一致。
表4:7种癌组织包含大量显著增殖正常细胞类型的癌症细胞增殖标志物MKI67预后分析
癌症类型 Hazard Ratio(95%置信区间) Type 3 P-value
宫颈鳞癌和腺癌 1.03(0.77-1.37) 0.8566
结肠癌 0.87(0.54-1.4) 0.5555
弥漫性大B细胞淋巴瘤 1(0.55-1.81) 0.9902
食管癌 1.04(0.89-1.21) 0.6189
头颈鳞状细胞癌 0.97(0.84-1.12) 0.6502
肺鳞癌 1.18(0.95-1.45) 0.1277
直肠腺癌 1.61(0.73-3.55) 0.242

Claims (3)

1.一种以87个基因作为生物标志物预测细胞增殖活性的模型,其特征在于,通过以下步骤实现:
(1)建立细胞增殖基因集合:
1)数据采集
从Tabula Muris数据库获得不同类型正常细胞的单细胞RNA-Seq数据,从癌症基因组图谱数据库获得癌症和癌旁组织RNA-Seq数据,从GTEx数据库中获得组织RNA-Seq数据,从CCLE数据库获得细胞系RNA-Seq数据与细胞增殖活性数据;
2)干/组细胞特异性表达基因集合挖掘
a)将Tabula Muris数据库中的体内正常单细胞按细胞类型归为81类,计算各类细胞的基因表达值,对某一特定细胞类型i当中的某一基因j,计算其表达值(Xji)如下:
其中m为属于细胞类型i的细胞总数,n为细胞类型i中细胞基因j的reads count大于0的细胞的数目,计算细胞类型i中所有基因的表达值,依次计算81种细胞类型的所有基因的表达值;
b)将81类细胞分为两组:干/组细胞组与其他细胞组;
c)使用层次聚类分析,挖掘在干/组细胞组中高表达,在其他细胞组极低表达的基因,作为干/组细胞特异性基因集合;
3)细胞增殖基因集合挖掘
a)获得GTEx数据库中各正常组织样本中干/组细胞特异性基因集合中基因的表达值,在绝大多数正常组织中不具有增殖活性的终末细胞占据主要成分,为此对基因进行层次聚类分析,获得在正常组织中低表达的87个基因组成的基因群;
b)获得TCGA数据库癌和癌旁组织样本中上述87个基因的表达值,对某一个基因j,计算其在所有癌和癌旁组织样本中Z-score标准化的基因表达值Yj,对某一个样本k,列举其87个基因的表达向量为{Y1k,Y2k,…,Y87k},然后,计算基因集合的表达值为87个基因表达向量的中值,进一步使用T检验将每一种癌症的样本的基因集合表达值与所有癌旁样本的基因集合表达值进行比较,由于绝大多数癌组织由高增殖的癌细胞组成,进一步确认上述基因集合在癌组织高表达,在癌旁低表达,确认上述87个基因组成的基因群为细胞增殖基因集合;
(2)使用上述细胞增殖基因集合建立预测细胞增殖活性的模型:
1)细胞增殖基因集合预测体外培养癌细胞系增殖活性
a)获得CCLE数据库中各癌症细胞系中细胞增殖基因集合中基因的表达值,对某一个基因j,计算其在所有细胞系样本中Z-score标准化的基因表达值Zj,对某一个细胞系样本k,列举其87个基因的表达向量为{Z1k,Z2k,…,Z87k},然后,计算基因集合的表达值为上述87个基因表达值的中值,计算每一个细胞系样本的细胞增殖基因集合表达值;
b)获得CCLE数据库中部分细胞增殖活性数据;
c)对细胞系样本的细胞增殖基因集合表达值数据与对应细胞系的倍增时间数据,进行皮尔森相关分析,确认在来源于实体瘤的癌症细胞系中,细胞增殖活性与87个基因组成的细胞增殖基因集合表达值存在显著正相关,通过细胞增殖基因集合表达高低预测来源于实体瘤的癌症细胞系的增殖活性;
2)建立细胞增殖活性预测模型
a)将Tabula Muris数据库中的单细胞按细胞类型归为81类,获得各类细胞的基因表达值;
b)使用上述87个基因的表达值对81个细胞类型进行层次聚类分析,通过聚类分析,将细胞类型聚成2-3类;
c)对81个细胞类型中的每一个细胞类型,计算其细胞增殖基因集合表达值,获取每一个细胞类型中细胞增殖基因集合中87个基因的表达值,对某一个细胞类型i,对某一个基因j的基因表达值Xji,列举其87个基因的表达向量为{X1i,X2i,…,X87i},然后计算细胞增殖基因集合的表达值为上述87个基因表达值的中值;
d)依据聚类分析的结果,将81个细胞类型聚成2-3个不同的细胞类型群,对每一个细胞类型群,获得其细胞增殖基因集合的表达值向量,比较不同细胞类型群的细胞增殖基因集合的表达值,以P<0.05为阈值,判断是否某一细胞类型群的细胞增殖基因集合表达值显著高于其他细胞类型群,从而确认高表达细胞增殖基因的细胞类型与低表达细胞增殖基因的细胞类型,实现对81种细胞类型增殖活性的评估。
2.根据权利要求1所述的一种以87个基因作为生物标志物预测细胞增殖活性的模型,其特征在于,87个基因为:ANLN、ARHGAP11A、ASF1B、ATAD2、AURKA、AURKB、BIRC5、BRCA2、BUB1、BUB1B、CCNA2、CCNB1、CCNB2、CDC20、CDC45、CDCA2、CDCA5、CDCA8、CDK1、CDT1、CENPA、CENPE、CENPF、CENPH、CENPK、CENPM、CENPW、CEP55、CKAP2、CKAP2L、CLSPN、DBF4、DLGAP5、ECT2、ESCO2、FEN1、FOXM1、HIRIP3、HIST1H2AG、HMMR、KIF11、KIF15、KIF20A、KIF20B、KIF23、KIFC1、LMNB1、LMNB2、LRWD1、MAD2L1、MCM2、MKI67、NCAPG、NCAPG2、NCAPH、NDC80、NEIL3、NUDT1、NUF2、NUSAP1、PBK、PKMYT1、PLK1、PLK4、PRC1、RACGAP1、RAD51、RCC1、RRM2、SHCBP1、SKA1、SMC2、SNRNP25、SPC24、SPC25、SYCE2、TACC3、TK1、TOP2A、TPX2、TRIM59、TRIP13、TYMS、UBE2C、UBE2T、UHRF1和VRK1。
3.根据权利要求1所述的一种以87个基因作为生物标志物预测细胞增殖活性的模型,其特征在于:步骤(2)中获得CCLE数据库中部分细胞增殖活性数据,是指获得CCLE数据库中部分细胞倍增时间增殖活性数据,使用T检验比较不同细胞类型群的细胞增殖基因集合的表达值。
CN202010554703.4A 2020-06-17 2020-06-17 以87个基因作为生物标志物预测细胞增殖活性的模型 Active CN111739586B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010554703.4A CN111739586B (zh) 2020-06-17 2020-06-17 以87个基因作为生物标志物预测细胞增殖活性的模型
PCT/CN2020/101544 WO2021253544A1 (zh) 2020-06-17 2020-07-13 以87个基因作为生物标志物预测细胞增殖活性的模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010554703.4A CN111739586B (zh) 2020-06-17 2020-06-17 以87个基因作为生物标志物预测细胞增殖活性的模型

Publications (2)

Publication Number Publication Date
CN111739586A CN111739586A (zh) 2020-10-02
CN111739586B true CN111739586B (zh) 2024-04-05

Family

ID=72649544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010554703.4A Active CN111739586B (zh) 2020-06-17 2020-06-17 以87个基因作为生物标志物预测细胞增殖活性的模型

Country Status (2)

Country Link
CN (1) CN111739586B (zh)
WO (1) WO2021253544A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114042161B (zh) * 2021-11-17 2023-05-30 浙江省人民医院 Cenpw抑制剂在制备抗肿瘤药物中的应用
GB2613386A (en) * 2021-12-02 2023-06-07 Apis Assay Tech Limited Diagnostic test
CN117954097A (zh) * 2023-03-16 2024-04-30 中国人民解放军空军军医大学 一种肺腺癌预后评估系统和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108424969A (zh) * 2018-06-06 2018-08-21 深圳市颐康生物科技有限公司 一种生物标志物、诊断或预估死亡风险的方法
CN109852671A (zh) * 2011-07-19 2019-06-07 皇家飞利浦有限公司 使用目标基因表达的概率建模评估细胞信号传导途径活性
CN109859801A (zh) * 2019-02-14 2019-06-07 辽宁省肿瘤医院 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN110441523A (zh) * 2019-08-09 2019-11-12 首都医科大学附属北京朝阳医院 Atad2蛋白作为标志物在判断卵巢癌增殖状态中的应用
KR20200038660A (ko) * 2018-10-04 2020-04-14 사회복지법인 삼성생명공익재단 바이오마커의 선별 방법 및 이를 이용한 암의 진단을 위한 정보제공방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294062A1 (en) * 2012-10-29 2015-10-15 Ontario Institute For Cancer Research (Oicr) Method for Identifying a Target Molecular Profile Associated with a Target Cell Population
US11427873B2 (en) * 2018-08-10 2022-08-30 Omniseq, Inc. Methods and systems for assessing proliferative potential and resistance to immune checkpoint blockade
CN109797221A (zh) * 2019-03-13 2019-05-24 上海市第十人民医院 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109852671A (zh) * 2011-07-19 2019-06-07 皇家飞利浦有限公司 使用目标基因表达的概率建模评估细胞信号传导途径活性
CN108424969A (zh) * 2018-06-06 2018-08-21 深圳市颐康生物科技有限公司 一种生物标志物、诊断或预估死亡风险的方法
KR20200038660A (ko) * 2018-10-04 2020-04-14 사회복지법인 삼성생명공익재단 바이오마커의 선별 방법 및 이를 이용한 암의 진단을 위한 정보제공방법
CN109859801A (zh) * 2019-02-14 2019-06-07 辽宁省肿瘤医院 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
CN110441523A (zh) * 2019-08-09 2019-11-12 首都医科大学附属北京朝阳医院 Atad2蛋白作为标志物在判断卵巢癌增殖状态中的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MicroRNA:一种新型的肺癌诊断、预测和治疗的生物标志物;关雅萍(综述);王俊(审阅);王宝成(审阅);中国肿瘤生物治疗杂志;第20卷(第4期);498-505 *

Also Published As

Publication number Publication date
WO2021253544A1 (zh) 2021-12-23
CN111739586A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111739586B (zh) 以87个基因作为生物标志物预测细胞增殖活性的模型
Keren et al. A structured tumor-immune microenvironment in triple negative breast cancer revealed by multiplexed ion beam imaging
Santagata et al. Taxonomy of breast cancer based on normal cell phenotype predicts outcome
Vatter et al. High-dimensional phenotyping identifies age-emergent cells in human mammary epithelia
Abreu et al. Male breast cancer: Looking for better prognostic subgroups
Saare et al. High-throughput sequencing approach uncovers the miRNome of peritoneal endometriotic lesions and adjacent healthy tissues
Schwede et al. Stem cell-like gene expression in ovarian cancer predicts type II subtype and prognosis
Liu et al. Identification of a gene signature for renal cell carcinoma–associated fibroblasts mediating cancer progression and affecting prognosis
Yin et al. Integrative radiomics expression predicts molecular subtypes of primary clear cell renal cell carcinoma
Liu et al. Discovery of microarray-identified genes associated with ovarian cancer progression
Kawaguchi et al. Gene Expression Signature–Based Prognostic Risk Score in Patients with Primary Central Nervous System Lymphoma
Amiri Souri et al. Cancer Grade Model: a multi-gene machine learning-based risk classification for improving prognosis in breast cancer
Wang et al. Single-cell transcriptional regulation and genetic evolution of neuroendocrine prostate cancer
Riester et al. Distance in cancer gene expression from stem cells predicts patient survival
Goh et al. Transcriptomics indicate nuclear division and cell adhesion not recapitulated in MCF7 and MCF10A compared to luminal A breast tumours
Wang et al. A comprehensive understanding of ovarian carcinoma survival prognosis by novel biomarkers.
Gross et al. A multi-omic analysis of MCF10A cells provides a resource for integrative assessment of ligand-mediated molecular and phenotypic responses
Bell et al. PanIN and CAF transitions in pancreatic carcinogenesis revealed with spatial data integration
Li et al. [Retracted] Identification of Tumor Tissue of Origin with RNA‐Seq Data and Using Gradient Boosting Strategy
Ouyang et al. Integrated analysis of mRNA and extrachromosomal circular DNA profiles to identify the potential mRNA biomarkers in breast cancer
Armanious et al. Digital gene expression analysis might aid in the diagnosis of thyroid cancer
Bell et al. Spatial transcriptomics of FFPE pancreatic intraepithelial neoplasias reveals cellular and molecular alterations of progression to pancreatic ductal carcinoma
Ajaib et al. GBMdeconvoluteR accurately infers proportions of neoplastic and immune cell populations from bulk glioblastoma transcriptomics data
Diaz‐Romero et al. Hierarchical clustering of flow cytometry data for the study of conventional central chondrosarcoma
CN117954097A (zh) 一种肺腺癌预后评估系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant