CN115074446B - 检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用 - Google Patents

检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用 Download PDF

Info

Publication number
CN115074446B
CN115074446B CN202211003014.XA CN202211003014A CN115074446B CN 115074446 B CN115074446 B CN 115074446B CN 202211003014 A CN202211003014 A CN 202211003014A CN 115074446 B CN115074446 B CN 115074446B
Authority
CN
China
Prior art keywords
colorectal cancer
age
aging
senescence
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211003014.XA
Other languages
English (en)
Other versions
CN115074446A (zh
Inventor
陈利民
李振
钱玉凤
李磊
莫苑宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Yunjian Medical Lab Co ltd
Tianjin Yunjian Medical Instrument Co ltd
Original Assignee
Tianjin Yunjian Medical Lab Co ltd
Tianjin Yunjian Medical Instrument Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Yunjian Medical Lab Co ltd, Tianjin Yunjian Medical Instrument Co ltd filed Critical Tianjin Yunjian Medical Lab Co ltd
Priority to CN202211003014.XA priority Critical patent/CN115074446B/zh
Publication of CN115074446A publication Critical patent/CN115074446A/zh
Application granted granted Critical
Publication of CN115074446B publication Critical patent/CN115074446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明为检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用。利用多变量建模分析和机器学习,首先分析筛选出1,146个与衰老相关的差异表达基因(DEG),再通过整合代谢通路与聚类分析,确定了与两种聚集的衰老相关通路中关系密切的40个重要基因。以此构建的基因表达的衰老代谢模型(DEG‑Age),在结直肠癌样本和以及相邻的正常组织样本中,观察到其衰老过程明显减慢。利用该特性,这种基于衰老相关基因差异表达构建的衰老代谢模型,可以用于结直肠癌的风险评估。

Description

检测样本中40种生物标志物的表达水平的试剂在制备用于评 估结直肠癌风险的试剂盒应用
技术领域
本发明属于生物医药建模领域,涉及提供检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用,用于评估结直肠癌风险的应用。
背景技术
衰老过程与癌症发病率密切相关。然而,由于在显示与年龄相关的表型特征(如心血管功能、胰岛素敏感性等)方面存在显著的个体间差异,衰老过程和肿瘤发生之间涉及的细胞转化和生物学机制仍然知之甚少。在发现稳健的生物标志物和衰老模型以预测生物学年龄以反映观察到的衰老相关表型的差异方面,人们付出了相当大的努力。几种与癌症相关的衰老生物标志物已被用于表征衰老和不同类型的癌症;DNA 甲基化时钟是研究最多的。来自TCGA(癌症基因组图谱)使用所有相邻正常组织甲基化模式获得的CancerClock数据之前已有报道。只有少数与CancerClock显著不同的癌症类型和有限的患者结果可预测性得以实现。最近几项研究和基于基因型-组织表达(GTEx)数据库的最新转录组学分析表明,衰老是组织特异性的,与年龄相关的基因表达变化可能因组织而异。尽管人们已经在与衰老相关的表观遗传变化方面做出了重大努力,但与衰老、衰老速度和癌症相关的基因表达变化和分化尚未得到充分探索,尤其是在癌症发展方面。在这项研究中,可以专注于使用来自基因型-组织表达(GTEx)数据库的与年龄相关的差异表达基因 (DEG) 构建一个与年龄相关的时钟,并调整该时钟以计算结直肠癌的衰老过程。基因型-组织表达(GTEx)数据分析了超过1000名年龄从20岁到79岁的个体的正常组织的基因表达。同样,癌症基因组图谱(TCGA)拥有来自超过1万名患者的肿瘤RNAseq数据,涵盖超过33种癌症类型。本研究旨在了解与衰老相关的基因表达变化与结肠癌肿瘤发生和潜在的患者结果预测。
发明内容
本发明的主要目的在于提供一种基于40个相关衰老基因表达构建的代谢衰老模型,以及在结直肠癌检测中的应用。
40种生物标志物分别为
ZNF264,CEBPZ,DNAJC14,GFOD1,EDA2R,EYA4,CDKN2A,POLR2A,PFAS,HOXB4,SMC4,SLC25A44,ZNF469,ZNF248,PKDREJ,DIRAS1,KBTBD3,IQCG,CLIC6,ZNF714,TSNAXIP1,ZNF177,SOCS1,ZBTB42,PITX1,HYDIN,SSTR2,CTSF,HAS1,BEX5,ABHD12B,TRIB1,ABCB5,GPR75,FABP3,RGS1,PTX3,CPXM1,NAIP,TMEM140。
所述评估结直肠癌的风险包括如下步骤:
A.采集健康人群和结直肠癌人群的40种生物标志物样本,并统计样本的实际年龄;
B.通过衰老代谢模型对步骤A的样本进行分析,获得样本的预测年龄,所述预测年龄 =- 5.190287 * ZNF264 - 4.464243 * CEBPZ + 3.984903 * DNAJC14 + 2.766384 *GFOD1 + 2.755828 * EDA2R + 2.607809 * EYA4 + 2.191429 * CDKN2A + 2.159529 *POLR2A + 2.141818 * PFAS - 2.130765 * HOXB4 - 1.974833 * SMC4 + 1.561778 *SLC25A44 - 1.330601 * ZNF469 - 1.269772 * ZNF248 - 1.251433 * PKDREJ -1.230216 * DIRAS1 + 1.211511 * KBTBD3 + 1.195435 * IQCG - 1.179516 * CLIC6 -1.043441 * ZNF714 - 0.961488 * TSNAXIP1 - 0.902444 * ZNF177 - 0.897912 *SOCS1 + 0.89264 * ZBTB42 - 0.870189 * PITX1 + 0.849953 * HYDIN - 0.812131 *SSTR2 - 0.770472 * CTSF - 0.720021 * HAS1 + 0.702006 * BEX5 - 0.675801 *ABHD12B + 0.664531 * TRIB1 + 0.653026 * ABCB5 - 0.609162 * GPR75 + 0.603402 *FABP3 + 0.569022 * RGS1 - 0.565467 * PTX3 - 0.563849 * CPXM1 - 0.547544 *NAIP + 0.523819 * TMEM140 + 45.480218;
C.将步骤A中统计的实际年龄与步骤B中得到的预测年龄进行对比分析,对其中延缓衰老组的样本给出结直肠癌阳性风险诊断。
步骤B通过弹性净多变量分析,对与衰老密切相关的 40个表达基因,进行衰老代谢模型建模。
本发明的有益效果是:
本发明建立了一种基于40个相关衰老基因表达构建的衰老代谢模型,结合了与衰老密切相关的差异表达基因和代谢通路,创建了一个比较全面的高精度的差异表达基因的衰老时钟。通过本模型的构建,发现了1146个差异表达基因(DEG)与衰老相关,结合代谢通路,并从中筛选出40个重要性评分较高的衰老相关的差异表达基因。本发明从差异表达基因和代谢通路的2个角度阐明了在结直肠癌发生过程中衰老模式,存在显著延缓衰老的现象,并通过结直肠癌患者的组织差异表达基因(DEG)数据和相邻正常组织基因表达数据,验证了所述的延缓衰老现象用于结直肠癌诊断的可能性。该模型根据低衰老表型准确预测结直肠癌阳性诊断,通过引导入样本到结直肠癌的实际发生情况进行ROC分析,结直肠癌的预测阳性值(PPVs)为80%(图9,图10,图11)。该差异表达基因的衰老代谢模型,不仅可以用于预测结直肠癌的风险,也具有用于评估其他疾病(与衰老过程密切相关的疾病)的风险的潜力。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1.不同年龄组DEG的oPLS-DA分析;
图2. 25~75岁年龄组的DEG火山分布图,|log2_fold50| > log2(1.5), p值<0.05;
图3. 年龄相关的DEG按聚集的KEGG通路分组;
图4. 差异表达基因对于DEG-age时钟的重要性评估;
图5. 通过DEG-age时钟预测结直肠癌I、II、III、IV期以及正常组织的年龄,在所有分期中,大量结直肠癌患者都观察到衰老减速;
图6. DEG-age时钟预测结直肠癌相邻正常组织和健康人群正常组织的衰老年龄;
图7.正常和结直肠癌组织的DEG的PLS-DA分析;
图8. 根据DEG-age时钟与实际年龄比较对患者进行分类;
图9. 用于结直肠癌风险预测的衰老代谢模型的ROC分析;
图10. 使用DEG预测年龄cox分析衰老代谢模型区分潜在的结直肠癌阳性与正常人群;
图11. 平均Δage、敏感性和特异性由ROC分析确定,其PPV为80%,NPV为100%;
图12 .DEG预测年龄与训练和测试集的实际年龄的关系。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部试验结果。
本发明提供了一种基于40个相关衰老基因表达构建的衰老代谢模型的建模及训练的过程。实施例中对结直肠癌风险的评估过程。
为了实现上述目的,根据本发明技术路线如下:
第一步,首先分析确定了来自GTEx(v7)(一种mRNA转录和表达的数据库,包含来自53种组织的11,688个样本中的21,518个蛋白编码基因)的正常组织的衰老相关基因表达变化和差异。潜在结构的正交投影判别分析显示,基因表达谱从20岁到60岁的缓慢但显著的转变,随后从60岁到80岁发生了相对于正常标准的急剧性转变(图1)。
与衰老相关的差异表达基因的分析筛选处理流程:
(a)数据交叉消除没有蛋白编码的表达基因;
(b)将数据集分为不同组织;
(c) RNAseq数据通过TMM归一化和Voom(观测水平的均值方差建模)转换进一步归一化。
共分析出,有1146个差异表达基因(DEG)与衰老相关,即随年龄增加出现显著表达差异,调整后的p值<0.05(Benjamini-Hochberg方法)和|log2_fold50|>log2(1.5),log2_fc50是从25-75岁的倍数变化;图2。
第二步,通过GO-term富集分析和KEGG pathway富集分析进一步丰富和完善与衰老相关的差异表达基因。变换GTEx数据训练集与实际年龄范围相关,绝对相关系数|r|≥0.3被保留。以年龄、性别、死亡耐受性为自变量,对各基因进行线性构建衰老代谢模型单因素分析,以降低基因水平上的年龄和性别效应,通过调整后的p值<0.05(BH方法),从年龄25到75,用|log2_fc50|>log2(1.5),选择差异表达基因 (DEG),其中log2_fc50是25到75岁之间的倍数变化。然后将带注释的差异表达基因(DEG)特征聚合并分类至KEGG路径中,简而言之,首先用实际年龄计算每个差异表达基因特征 i 的单变量相关性 ri。接下来,根据相关系数的符号计算特征方向性(上/下)。然后,从METLIN中鉴定出的差异表达基因被映射到k每个方向的KEGG通路,如:
Figure 724301DEST_PATH_IMAGE001
最后,使用特征表达值计算
Figure 172599DEST_PATH_IMAGE002
样本的
Figure 358861DEST_PATH_IMAGE003
通路表达值
Figure 285229DEST_PATH_IMAGE004
,如下所示,其中
Figure 240547DEST_PATH_IMAGE005
代 表集合
Figure 594168DEST_PATH_IMAGE006
中的元素数量:
Figure 267726DEST_PATH_IMAGE007
这些路径与绝对相关系数的DEG值的加权平均值呈正相关或负相关。根据相关系数的符号计算DEG方向性(随年龄上升或下降)。图3显示了具有≥15个基因的通路分组聚类相关图,并且显示了在聚合途径中随年龄变化的基因轨迹。
第三步,基于差异表达基因(DEG)和已确定的与年龄相关的总路径,通过弹性网络多变量分析对衰老代谢模型进行建模,训练:测试=3:1,以构建差异表达基因的衰老代谢模型(DEG-age)。确定了两种聚集的,共40种衰老相关的差异表达基因,其中每个基因在衰老相关的通路中重要性评分为>10,也显示了它们对衰老代谢模型的贡献(图4)。差异表达基因的重要性分数是使用caret软件包(Kuhn,2015)从最终弹性网络模型的系数计算的,并且仅差异表达基因被包括在聚合路径中。在训练集和测试集上都进行了DEG-age预测,其中训练集中的实际年龄 r = 0.86 (75%),测试集中的 r = 0.68 (25%),以验证与实际年龄相对应的差异表达基因衰老时钟准确性(图12)。将正常GTEx组织数据作为线性校正器,用ququtreg软件包拟合差异表达基因年龄与实际年龄的分位数线性回归模型。
上述弹性网络回归模型公式如下:
衰老代谢模型预测年龄 = - 5.190287 * ZNF264 - 4.464243 * CEBPZ +3.984903 * DNAJC14 + 2.766384 * GFOD1 + 2.755828 * EDA2R + 2.607809 * EYA4 +2.191429 * CDKN2A + 2.159529 * POLR2A + 2.141818 * PFAS - 2.130765 * HOXB4 -1.974833 * SMC4 + 1.561778 * SLC25A44 - 1.330601 * ZNF469 - 1.269772 * ZNF248- 1.251433 * PKDREJ - 1.230216 * DIRAS1 + 1.211511 * KBTBD3 + 1.195435 * IQCG- 1.179516 * CLIC6 - 1.043441 * ZNF714 - 0.961488 * TSNAXIP1 - 0.902444 *ZNF177 - 0.897912 * SOCS1 + 0.89264 * ZBTB42 - 0.870189 * PITX1 + 0.849953 *HYDIN - 0.812131 * SSTR2 - 0.770472 * CTSF - 0.720021 * HAS1 + 0.702006 *BEX5 - 0.675801 * ABHD12B + 0.664531 * TRIB1 + 0.653026 * ABCB5 - 0.609162 *GPR75 + 0.603402 * FABP3 + 0.569022 * RGS1 - 0.565467 * PTX3 - 0.563849 *CPXM1 - 0.547544 * NAIP + 0.523819 * TMEM140 + 45.480218。
第四步,将差异表达基因的衰老代谢模型(DEG-age)应用于来自TCGA的结直肠癌患者的DEG数据,得到DEG-age或生物学年龄。对于所有阶段的 癌症,大多数患者都观察到低衰老表型(图5)。基于DEG-age时钟的衰老过程在结直肠癌患者样本中明显减慢。这一结果表明,衰老时钟的失调可能是结直肠癌肿瘤发生过程的一部分。令人惊讶的是,当使用相同的DEG-age时钟于相邻正常组织基因表达数据时,来自TGCA数据集的相邻正常组织也显示出低老化表型(图6)。这一发现表明,结直肠癌的发展也可能影响附近健康组织的衰老速度。
第五步,通过多变量Cox回归分析,利用DEG-age时钟计算每个结直肠癌患者的∆Age。以中位∆年龄= 68作为分界点,将结直肠癌患者分为高危组和低危组。对基于结果的2组数据进行Kaplan-Meier生存分析,log-rank检验判定统计学意义。使用 ∆Age,能够根据结直肠癌患者的DEG-age和相应的实际年龄(p<0.0014)之间的差异,来预测和区分结直肠癌患者的结果和生存率(图8)。衰老减速越大,风险评分越高,这直接转化为更差的临床结果和患者的存活率。结果表明,与衰老相关基因表达可能为结直肠癌治疗结果提供有效的预后生物标志物。
第六步,使用差异表达基因的衰老代谢模型(DEG-age)来预测DEG-age,并根据预测对健康和患者数据进行线性回归分析(图7)。PLS-DA分析显示正常和结直肠癌患者组织的DEG-age有明显的特征分离。该模型根据低衰老表型准确预测结直肠癌阳性诊断,通过引导样本到结直肠癌 的实际发生情况进行ROC分析,结直肠癌的预测阳性值(PPVs)为80%(图9,图10,图11)。可以观察到,几乎所有结直肠癌患者都表现为低衰老表型。这种现象也发生在结直肠癌患者的正常邻近组织中(图6)。这表明,该分析可以在其他正常组织上进行,而无需识别和收获原发肿瘤。上述观察结果证明,可以利用容易获得的细胞(如血液单核细胞)进行衰老时钟分析。可以通过衰老减速来预测结直肠癌的风险,作为早期结直肠癌检测和评估的潜在生物标志物。同时,该差异表达基因的衰老代谢模型也可以用于评估其他与衰老过程密切相关的疾病的风险。
数据可用性声明:
支持本研究结果的数据可在基因型组织表达 (GTEx) 和癌症基因组图谱计划(TCGA)中公开获得。
实施例的实施方法:
衰老相关基因的区分与统计:
原始基因表达计数从 GTEx 网站下载。由于GTEx数据集中仅报告了年龄范围,因此将每个年龄组的年龄设置为每个年龄组的中年(例如20-29岁设为25岁)。通过biomaRt(v92)数据的交叉消除,没有蛋白质编码的基因被消除,并将数据集分为不同的组织。结肠组织GTEx数据被鉴定和分离用于进一步分析。不到30%的样品性能指数< 1。RNAseq数据通过TMM归一化和Voom(观测水平的均值方差建模)转换进一步归一化。
衰老差异表达基因和衰老代谢途径聚集:
变换GTEx数据训练集与实际年龄范围相关,绝对相关系数|r|≥0.3被保留。以年龄、性别、死亡耐受性为自变量,对各基因进行线性构建衰老代谢模型单因素分析,以降低基因水平上的年龄和性别效应,通过调整后的p值<0.05(BH方法),从年龄25到75,用|log2_fc50|>log2(1.5),选择差异表达基因 (DEG),其中log2_fc50是25到75岁之间的倍数变化。然后将带注释的DEG特征聚合并分类为KEGG路径,这些路径与绝对相关系数的DEG值的加权平均值呈正相关或负相关。根据相关系数的符号计算DEG方向性(随年龄上升或下降)。
结直肠组织差异表达基因的衰老代谢模型(DEG-age时钟)的构建:
结肠组织DEG的GTEx数据分为两个队列:训练集和测试集,比例为 3:1。然后构建了DEG衰老时钟,基于年龄相关的DEG和使用弹性网络模型针对实际年龄的路径。DEG的重要性分数是使用caret软件包(Kuhn,2015)从最终弹性网络模型的系数计算的,并且仅DEG被包括在聚合路径中。在训练集和测试集上都进行了DEG-age预测,以验证与实际年龄相对应的DEG衰老时钟准确性。将正常GTEx组织数据作为线性校正器,用ququtreg软件包拟合DEG年龄与实际年龄的分位数线性回归模型。
正常和病变结直肠组织DEG-age的预测:
使用构建的DEG-age时钟,预测正常结肠组织(GTEx)、结肠癌和邻近正常组织(TCGA)的DEG-age。来自GTEx数据预测的单个组织的DEG-age作为DEG的参考年龄型。将预测的DEG年龄与实际年龄作图比较。为了对衰老表型进行分类,在95%置信区间内定义了3个部分,线性回归线分别为2.5%和97.5%,平均为50%。将每个群体的衍生DEG年龄叠加到正常和的图上。预测值低于2.5%分位数回归线的个体被归类为减速衰老(低衰老表型),预测高于97.5%回归线的个体被归类为加速衰老(超衰老表型),其他预测介于2.5%和97.5%之间的个体被归类为正常衰老。
基于低衰老表型的结果分类和生存分析:
为了预测治疗结果和患者的死亡风险,可以根据 DEG 衰老时钟的基因特征构建并通过加权通路聚合进行处理。利用交叉验证队列中样本的路径值建立5倍XGBoost交叉验证模型,以对高风险和低风险结直肠癌患者进行分类。多方差矩阵由实际年龄的结直肠癌阶段、性别、年龄和delta-age组成。预测和区分结肠癌患者的能力是基于他们的治疗反应和结果进行评估的,指定的患者数据通过Kaplan-Meier生存曲线表示。Kaplan-Meir生存分析及风险预测的统计学意义采用log-rank检验。
差异表达基因的衰老代谢模型(DEG-age)作为结直肠癌风险的预测指标:
探讨使用低衰老表型和减慢衰老作为结直肠癌诊断风险预测因子的可行性。可以将所有具有低衰老表型的个体列为潜在结直肠癌阳性。为了模拟一般人群中的结直肠癌发病率,来自测试数据集和结直肠癌样本的预测,被导入替换成5倍覆盖率的发病率65的(TGCA)和9958例正常组织(来自GTEx的) (Imperialbe et al., 2014)。用真实阳性计数与总预测阳性计数之比计算阳性预测值(PPVs)。如前所述,以中心极限定理假设通过logit变换计算PPV的置信区间。分析结果表明,结直肠癌的预测阳性值(PPVs)为80%(图9,图10,图11)。
本领域技术人员会理解,本发明不限于这里的实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (1)

1.检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用,其特征在于:
40种生物标志物分别为
ZNF264,CEBPZ,DNAJC14,GFOD1,EDA2R,EYA4,CDKN2A,POLR2A,PFAS,HOXB4,SMC4,SLC25A44,ZNF469,ZNF248,PKDREJ,DIRAS1,KBTBD3,IQCG,CLIC6,ZNF714,TSNAXIP1,ZNF177,SOCS1,ZBTB42,PITX1,HYDIN,SSTR2,CTSF,HAS1,BEX5,ABHD12B,TRIB1,ABCB5,GPR75,FABP3,RGS1,PTX3,CPXM1,NAIP,TMEM140;
所述评估结直肠癌的风险包括如下步骤:
A.采集健康人群和结直肠癌人群的40种生物标志物样本,并统计样本的实际年龄;
B.通过弹性净多变量分析,对与衰老密切相关的 40个表达基因,进行衰老代谢模型建模,通过衰老代谢模型对步骤A的样本进行分析,获得样本的预测年龄,所述预测年龄 =-5.190287 * ZNF264 - 4.464243 * CEBPZ + 3.984903 * DNAJC14 + 2.766384 * GFOD1+ 2.755828 * EDA2R + 2.607809 * EYA4 + 2.191429 * CDKN2A + 2.159529 * POLR2A+ 2.141818 * PFAS - 2.130765 * HOXB4 - 1.974833 * SMC4 + 1.561778 * SLC25A44- 1.330601 * ZNF469 - 1.269772 * ZNF248 - 1.251433 * PKDREJ - 1.230216 *DIRAS1 + 1.211511 * KBTBD3 + 1.195435 * IQCG - 1.179516 * CLIC6 - 1.043441 *ZNF714 - 0.961488 * TSNAXIP1 - 0.902444 * ZNF177 - 0.897912 * SOCS1 + 0.89264* ZBTB42 - 0.870189 * PITX1 + 0.849953 * HYDIN - 0.812131 * SSTR2 - 0.770472* CTSF - 0.720021 * HAS1 + 0.702006 * BEX5 - 0.675801 * ABHD12B + 0.664531 *TRIB1 + 0.653026 * ABCB5 - 0.609162 * GPR75 + 0.603402 * FABP3 + 0.569022 *RGS1 - 0.565467 * PTX3 - 0.563849 * CPXM1 - 0.547544 * NAIP + 0.523819 *TMEM140 + 45.480218;
C.将步骤A中统计的实际年龄与步骤B中得到的预测年龄进行对比分析,对其中延缓衰老组的样本给出结直肠癌阳性风险诊断。
CN202211003014.XA 2022-08-22 2022-08-22 检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用 Active CN115074446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211003014.XA CN115074446B (zh) 2022-08-22 2022-08-22 检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211003014.XA CN115074446B (zh) 2022-08-22 2022-08-22 检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用

Publications (2)

Publication Number Publication Date
CN115074446A CN115074446A (zh) 2022-09-20
CN115074446B true CN115074446B (zh) 2022-11-25

Family

ID=83244313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211003014.XA Active CN115074446B (zh) 2022-08-22 2022-08-22 检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用

Country Status (1)

Country Link
CN (1) CN115074446B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113151483A (zh) * 2021-05-25 2021-07-23 复旦大学附属中山医院 结直肠癌代谢基因预后预测模型

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113151483A (zh) * 2021-05-25 2021-07-23 复旦大学附属中山医院 结直肠癌代谢基因预后预测模型

Also Published As

Publication number Publication date
CN115074446A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN109859801B (zh) 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
CN109082471B (zh) 一种肺腺癌患者预后预测用外周血mRNA标记物及其筛选方法和应用
CN111564214B (zh) 一种基于7个特殊基因的乳腺癌预后评估模型的建立与验证方法
Boulesteix et al. Added predictive value of high-throughput molecular data to clinical data and its validation
Milanez-Almeida et al. Cancer prognosis with shallow tumor RNA sequencing
CN110232974B (zh) 多发性骨髓瘤综合风险评分方法
US20200010912A1 (en) Prognostic method for individuals with prostate cancer
KR102170726B1 (ko) 바이오마커의 선별 방법 및 이를 이용한 암의 진단을 위한 정보제공방법
CN109971862A (zh) C9orf139和MIR600HG作为胰腺癌预后标志物及其确立方法
WO2023071877A1 (zh) 泌尿系统结石术后复发风险预测模型、评估系统及方法
Xin et al. Evaluating the effect of multiple genetic risk score models on colorectal cancer risk prediction
CN114317532B (zh) 用于预测白血病预后的评估基因集、试剂盒、系统及应用
CN113421609A (zh) 一种基于lncRNA对的结肠癌预后预测模型及其构建方法
CN112037863B (zh) 一种早期nsclc预后预测系统
CN115074446B (zh) 检测样本中40种生物标志物的表达水平的试剂在制备用于评估结直肠癌风险的试剂盒应用
Rauschenberger et al. Sparse classification with paired covariates
EP4031688A1 (en) In vitro method for determining the risk of developing breast cancer in a subject
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
CN116525005A (zh) 巨噬细胞标记基因在肝癌预后中的应用及其风险评估模型
CN115798703A (zh) 基于新型脂肪酸代谢相关基因预测肾透明细胞癌预后的装置和计算机可读存储介质
Tournoud et al. A strategy to build and validate a prognostic biomarker model based on RT-qPCR gene expression and clinical covariates
CN114267411A (zh) Dtc预后标志物及其应用、dtc预后评估模型的构建方法
CN113195741A (zh) 从循环核酸中鉴定全基因组序列数据中的全局序列特征
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant