CN117004744A - 一种基于血浆微生物dna特征的肺癌预后评估方法及模型 - Google Patents

一种基于血浆微生物dna特征的肺癌预后评估方法及模型 Download PDF

Info

Publication number
CN117004744A
CN117004744A CN202210454379.8A CN202210454379A CN117004744A CN 117004744 A CN117004744 A CN 117004744A CN 202210454379 A CN202210454379 A CN 202210454379A CN 117004744 A CN117004744 A CN 117004744A
Authority
CN
China
Prior art keywords
cmdna
model
lung cancer
plasma
microorganism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210454379.8A
Other languages
English (en)
Other versions
CN117004744B (zh
Inventor
邱满堂
陈海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Base Nanjing Technology Co ltd
Original Assignee
Digital Base Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Base Nanjing Technology Co ltd filed Critical Digital Base Nanjing Technology Co ltd
Priority to CN202210454379.8A priority Critical patent/CN117004744B/zh
Publication of CN117004744A publication Critical patent/CN117004744A/zh
Application granted granted Critical
Publication of CN117004744B publication Critical patent/CN117004744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及生物信息学技术领域,具体提供一种基于血浆微生物DNA特征的肺癌预后评估方法及模型,本申请通过鉴定血浆中cmDNA物种特征,并建立机器学习模型,评估或预测肺癌患者的生存预后,该方法有助于指导临床上肺癌患者治疗方案的制定,能够促进肿瘤的精准治疗。

Description

一种基于血浆微生物DNA特征的肺癌预后评估方法及模型
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基于血浆微生物DNA特征的肺癌预后评估方法和模型。
背景技术
术后病理TNM分期是肺癌预后的主要预测因素。然而,肺癌病理分期无法在术前提供患者的预后信息,并且受限于组织样本,也不能动态监测患者术后的生存情况。
有研究提出基于肺部CT建立深度学习模型预测肺癌预后,评估肺部结节的磨玻璃成分与早期肺癌预后的关系,然而CT检查存在着一系列局限性,例如:①特异性有待提高;②定期的CT筛查给患者造成一定的放射性损伤,限制其受益范围。液体活检主要指通过PCR技术、高通量测序等技术手段,检测血液、尿液、唾液等体液中循环游离DNA(cfDNA)、循环肿瘤细胞、细胞外囊泡、蛋白质和代谢产物等,因其取样简单、创伤性小等特性已经逐渐被临床实践所认可,在癌症诊断、治疗后监测及预后评估等方面发挥越来越重要的作用。
近年来不少研究表明微生物在肿瘤的发生发展中有着重要作用,并且微生物来源的循环游离DNA(cmDNA)可以作为癌症诊断的生物标志物。基于此,寻求通过鉴定血浆中cmDNA的物种特征建立机器学习模型,预测肺癌患者的生存预后,可能有助于指导临床上肺癌患者治疗方案的制定,促进肿瘤的精准治疗。
有鉴于此,提出本发明。
发明内容
为解决上述技术问题,本发明提出了一种基于宿主血浆微生物DNA特征的肺癌预后评估的全新思路,因此本发明至少包括如下目的:
本发明的第一目的是提供一种基于宿主血浆微生物DNA特征的肺癌预后评估模型及其构建方法;
本发明的第二目的是提供一种基于宿主血浆微生物DNA特征的肺癌预后评估方法;
本发明的第三目的是提供血浆cmDNA物种特征在肺癌预后评估中的应用。
具体的,本发明详细技术方案如下:
本发明首先提供一种基于宿主血浆微生物DNA特征的肺癌预后评估模型的构建方法,所述方法包括如下步骤:
1)cfDNA测序:宿主血浆提取cfDNA,全基因组测序获得cfDNA序列;
2)cmDNA获取:将cfDNA序列比对到宿主参考基因组,过滤掉宿主基因片段获得血浆微生物来源的DNA片段cmDNA;
3)物种特征提取:基于cmDNA通过序列比对注释微生物物种信息,并评估微生物相对丰度,得到cmDNA物种特征;
4)模型建立和评估:将样本划分为训练集和测试集,基于提取的cmDNA物种特征建立模型,并通过测试集进行验证,评估模型效能。
进一步的,所述宿主为人或非人动物,优选为人。
进一步的,所述肺癌为非小细胞肺癌。
进一步的,所述步骤1)中:所述全基因组测序为低深度全基因组测序,优选的为 5×全基因组测序。
进一步的,所述步骤2)中:所述参考基因组为hg19;
优选的,所述步骤2)具体为:将cfDNA序列比对到人参考基因组hg19,得到BAM 文件;过滤掉宿主基因片段后获得血浆微生物来源的DNA片段cmDNA。
进一步的,所述步骤3)中,所述微生物相对丰度为微生物属水平相对丰度;
优选的,所述微生物为细菌;
更优选的,所述细菌包括Staphylococcus、Massilia和/或Klebsiella;
进一步优选的,所述细菌包括Klebsiella、Microbulbifer、Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
进一步的,所述步骤4)中,所述模型为随机森林模型。
本申请还提供一种基于宿主血浆微生物DNA特征的肺癌预后评估方法,包括权利要求上述任一所述方法步骤,并进一步包括基于上述构建方法确定的血浆cmDNA物种特征评估肺癌预后的步骤。
本申请还提供一种血浆cmDNA物种特征在肺癌预后评估中的应用。
优选的,所述cmDNA物种特征为微生物属水平相对丰度;
更优选的,所述微生物为细菌;
进一步优选的,所述细菌包括Staphylococcus、Massilia和/或Klebsiella;
更进一步优选的,所述细菌包括Klebsiella、Microbulbifer、Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
本申请还提供一种用于检测cmDNA物种特征的产品在制备肺癌预后评估产品中的应用;
进一步的,所述肺癌为非小细胞肺癌。
优选的,所述cmDNA物种特征为微生物属水平相对丰度;
更优选的,所述微生物为细菌;
进一步优选的,所述细菌包括Staphylococcus、Massilia和/或Klebsiella;
更进一步优选的,所述细菌包括Klebsiella、Microbulbifer、Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
本发明还提供一种基于宿主血浆微生物DNA特征的肺癌预后评估模型,所述模型包括如下模块:
1)cfDNA测序模型:宿主血浆提取cfDNA,全基因组测序获得cfDNA序列;
2)cmDNA获取模型:将cfDNA序列比对到宿主参考基因组,过滤掉宿主基因片段获得血浆微生物来源的DNA片段cmDNA;
3)微生物物种特征提取模型:基于cmDNA通过序列比对注释微生物物种信息,并评估微生物相对丰度;
4)模型建立和评估模型:将样本划分为训练集和测试集,提取训练集的cmDNA物种特征建立模型,并通过测试集进行验证,评估模型效能。
进一步的,所述宿主为人或非人动物,优选为人。
进一步的,所述肺癌为非小细胞肺癌。
进一步的,所述步骤1)中:所述全基因组测序为低深度全基因组测序,优选的为 5×全基因组测序。
进一步的,所述步骤2)中:所述参考基因组为hg19;
优选的,所述步骤2)具体为:将cfDNA序列比对到人参考基因组hg19,得到BAM 文件;过滤掉宿主基因片段后获得血浆微生物来源的DNA片段cmDNA。
进一步的,所述步骤3)中,所述微生物相对丰度为微生物属水平相对丰度;
优选的,所述微生物为细菌;
更优选的,所述细菌包括Staphylococcus、Massilia和/或Klebsiella;
进一步优选的,所述细菌包括Klebsiella、Microbulbifer、Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
进一步的,所述步骤4)中,所述模型为随机森林模型。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明有益的技术效果:
1)本申请首次提出基于血液cmDNA能够用于肺癌预后评估,而且相比于传统病理组织取样,血液cmDNA取样更加便携,并且cmDNA检测可以在术前预测患者的预后情况,及时指导更精准的肿瘤治疗方案;
2)本申请的血浆cmNDA检测可以多次重复取样,可以术后动态监测患者生存预后;
3)本申请方法对测序深度要求低,仅需采用低深度全基因组测序方法,具有检测成本更低的优势,能够更好地扩大了患者的受益范围;
4)相较于传统方法,本申请还具有操作简单、检测周期短等其他优势;
5)本发明方法确立Klebsiella、Microbulbifer、Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus可用于肺癌预后评估指标,为后续肺癌预后评估提供理论基础。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1、基于模型的研究流程图;
图2、基于16S rDNA测序构建预测模型的受试者工作特征(ROC)曲线图;
图3、微生物属水平的物种组成图;
图4、箱形图,展示7个物种在发现队列中的相对丰度;
图5、主成分分析图,显示样本按照7个物种的相对丰度分层;
图6、基于物种Staphylococcus相对丰度的生存曲线分析图;
图7、基于物种Massilia相对丰度的生存曲线分析图;
图8、基于物种Klebsiella相对丰度的生存曲线分析图;
图9、发现队列中R组与NR组物种相对丰度比较图;
图10、基于7个物种的随机森林模型的ROC曲线图;
图11、基于肿瘤标志物构建ROC曲线图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围,并且所述实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
部分术语定义
除非在下文中另有定义,本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本发明。
如本发明中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。
本发明所述的基于宿主血浆微生物DNA特征的肺癌预后评估模型的构建方法,所述方法包括如下步骤:1)cfDNA测序:宿主血浆提取cfDNA,全基因组测序获得cfDNA 序列;2)cmDNA获取:将cfDNA序列比对到宿主参考基因组,过滤掉宿主基因片段获得血浆微生物来源的DNA片段cmDNA;3)物种特征提取:基于cmDNA通过序列比对注释微生物物种信息,并评估微生物相对丰度,得到cmDNA物种特征;4)模型建立和评估:将样本划分为训练集和测试集,基于提取的cmDNA物种特征建立模型,并通过测试集进行验证,评估模型效能。
本发明中的“肺癌”可以包含非小细胞肺癌和小细胞肺癌。
在一些方案中,所述癌症是非小细胞肺癌。在一些具体实施方式中,所述癌症是复发性或难治性非小细胞肺癌。在一些具体实施方式中,所述非小细胞肺癌是复发性的。在一些具体实施方式中,所述非小细胞肺癌是难治性的。在一些具体实施方式中,所述非小细胞肺癌是转移性的。在一些具体实施方式中,所述非小细胞肺癌是晚期寡转移的。
在一些具体实施方式中,所述癌症治疗是复发性、难治性或晚期寡转移的非小细胞肺癌的二线治疗。在一些具体实施方式中,所述癌症治疗是转移性非小细胞肺癌的二线治疗。在一些具体实施方式中,所述癌症治疗是复发性、难治性或晚期寡转移的非小细胞肺癌的三线治疗。在一些具体实施方式中,所述癌症治疗是转移性非小细胞肺癌的三线治疗。在一些具体实施方式中,所述复发性、难治性或晚期寡转移的非小细胞肺癌在完成一线化疗期间或之后没有进展。在一些具体实施方式中,所述转移性非小细胞肺癌在完成一线化疗期间或之后没有进展。在一些具体实施方式中,所述复发性、难治性或晚期寡转移的非小细胞肺癌在化疗后已进展。在一些具体实施方式中,所述转移性非小细胞肺癌在化疗后已进展。
在一些具体实施方式中,所述主体先前已接受手术和/或化疗治疗。在一些具体实施方式中,所述主体经手术后获完全缓解后再次出现疾病进展。在一些具体实施方式中,所述主体经手术后未能完全缓解或未能部分缓解。在一些具体实施方式中,所述主体经化疗后获完全缓解后再次出现疾病进展。在一些具体实施方式中,所述主体经化疗后未能完全缓解或未能部分缓解。
本发明中,所述的非小细胞肺癌,其组织学分型包括但不限于腺癌、鳞状细胞癌、大细胞癌或不明确型非小细胞肺癌;其临床分期包括但不限于局部晚期、和/或晚期 (例如IIIB/IV期)和/或转移性的非小细胞肺癌。其中转移性非小细胞肺癌包括但不限于病灶单个转移、播散性转移、弥散性转移;所述转移病灶包括但不限于淋巴结、胸膜、骨、脑、心包、肾上腺、肝脏;在一些实施方案中,所述的非小细胞肺癌包括但不限于支气管内阻塞的非小细胞肺癌、可切除的复发非小细胞肺癌、纵膈淋巴结复发非小细胞肺癌、上腔静脉(SVC)阻塞非小细胞肺癌、严重咯血的非小细胞肺癌。在一些实施方案中,所述的非小细胞肺癌可以是鳞癌,也可以是非鳞癌。在一些实施方案中,所述的非小细胞肺癌可以是肺鳞癌、腺癌或腺鳞癌。
本申请的“预后评估”是指对于“肺癌”尤其指非小细胞肺癌的治疗后的评估,所述治疗不做限制,可以包括:外科治疗、放射性治疗、药物治疗或。在一些实施方案中,所述外科治疗是外科手术或微创外科治疗等;在一些实施方案中,所述药物治疗是化疗、免疫治疗、分子靶向治疗等;在一些实施方案中,所述局部治疗是介入治疗、热疗、射频治疗、激光治疗、冷冻治疗或微波治疗等。
本申请的“宿主”不做限制,可以包括人或非人动物(包括哺乳动物),诸如人、非人灵长类动物(猿、长臂猿、大猩猩、黑猩猩、猩猩、猕猴)、家畜(狗和猫)、农场动物(家禽如鸡和鸭、马、牛、山羊、绵羊、猪)和实验动物(小鼠、大鼠、兔、豚鼠)。人受试者包括胎儿、新生儿、婴儿、青少年和成人受试者。进一步的,所述受试者还包括动物疾病模型。在本申请的一些具体实施方案中,所述宿主尤其指人。
本发明中的“cmDNA”或“微生物来源的循环游离DNA”具有相同意思,是指来宿主血液或血浆中来自微生物的循环游离DNA。
本发明中的“物种特征”尤其是指宿主血液中(尤其血浆)微生物的相对丰度,在一些实施方式中,所述相对丰度是指属水平的相对丰度;在一些具体实施方式中,所述微生物为细菌;在一些更具体实施方式中,所述细菌包括Staphylococcus、 Massilia和/或Klebsiella;优选的,所述细菌包括Klebsiella、Microbulbifer、 Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
在一些实施方式中,本申请的步骤1)中所述全基因组测序可以为低深度全基因组测序,在一些具体实施方式中,该低深度全基因组测序可以为5×全基因组测序。
在一些实施方式中,所述步骤2)中:所述参考基因组为宿主hg19(Human Genomeversion 19);在一些具体实施方式中,所述步骤2)具体为:将cfDNA序列比对到人参考基因组hg19,得到BAM文件;过滤掉宿主基因片段后获得血浆微生物来源的DNA 片段cmDNA。
在一些具体实施方式中,本申请的步骤4)中,所述的模型为随机森林模型。
在已知了上述模型的构建方法后,本申请可进一步保护基于宿主血浆微生物DNA特征的肺癌预后评估方法,该方法包括上述方法步骤,并进一步包括基于上述构建方法确定的血浆cmDNA物种特征评估肺癌预后的步骤。
通过上述模型构建,本申请确立了血浆cmDNA物种特征能够在肺癌预后评估中的应用,或检测cmDNA物种特征的产品在制备肺癌预后评估产品中的应用。在一些实施方式中,所述cmDNA物种特征为微生物属水平相对丰度;在一些优选实施方式中,所述微生物为细菌;在一些更具体实施方式中,所述细菌包括Staphylococcus、 Massilia和/或Klebsiella;优选的,所述细菌包括Klebsiella、Microbulbifer、 Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
如下为具体的实施例,其仅用于解释本发明,并不作保护范围的限制。
实施例1、本申请方法构建
1)对皮肤表面消毒两次后,采集全血于EDTA管,将EDTA管置于4℃离心机中,1600rpm,离心10min,分离血浆和细胞组分;将得到的血浆置于4℃离心机中,16000r pm,离心10min,以清除任何残留的细胞碎片,并在-80℃保存,直到提取DNA。
2)通过血浆提取cfDNA,用Quibt 4.0进行DNA浓度测定;用10ng-250ng的 cfDNA制备NGS文库,进行5×全基因组测序。
3)将cfDNA序列比对到人参考基因组hg19,得到BAM文件;过滤掉宿主基因片段后获得血浆微生物来源的DNA片段,再通过序列比对注释cmDNA的微生物物种信息,并评估(比如利用MaAslin2算法评估)细菌属水平的相对丰度。
4)将样本划分为训练集和测试集,提取训练集的cmDNA物种特征建立模型,并通过测试集进行验证,评估模型的效能,具体的:将样本划分为训练集和测试集,在训练集中利用MaAslin2算法获得相对丰度存在差异的物种,从MaAslin2结果中筛选出具有显著性差异的微生物物种,以此为依据建立随机森林预测模型,并在测试集中评估模型性能。
实施例2、基于模型的临床样本评估
A.样本收集
纳入63名非小细胞肺癌患者(图1),其中29名患者术后三年发生复发为复发 (R)组,34名患者术后三年无复发为非复发(NR)组。为减少混杂因素的干扰,采用倾向性评分匹配衡量R组和NR组患者其他各项特征的度量,两组患者在年龄、性别、 BMI、吸烟史、病理等方面均无差异。采用实施例1方法进行cfDNA提取、测序和建模。
B.循环微生物DNA的丰度图谱
将入组患者按照2:1分为训练集与测试集,其中训练集43例,R组20例,NR组 23例(图1)。训练集R组所纳入的20例患者,在之前的研究中也进行了患者的肿瘤组织16S rDNA测序,在微生物属水平建立了患者预后评估模型(图2)。该模型的 AUC值为0.891,可以较准确地预测患者术后是否出现复发。经分析微生物属水平物种鉴定精度高,本申请据此构建模型。
本申请在循环微生物属水平对物种丰度做进一步分析,使用MaAslin2算法计算R组与NR组相对丰度存在差异的微生物物种(图3)。经过筛选,得到7个在两组之间存在显著性差异的细菌物种种属(图4):Klebsiella、Massilia、Microbulbifer在 R组富集,而Cutibacterium、Comamonas、Staphylococcus、Hydrogenophilus在NR 组富集。
基于种属相对丰度作生存分析,发现所选的7个种属可以区分R组与NR组,其中Staphylococcus、Massilia、Klebsiella预测无复发生存的效能较优(图6–图8),其中Massilia仅在R组富集(图9)。
C.潜在预后生物标志物的鉴定
为了进一步评估所筛选物种的预测能力,使用主成分分析(PCA)对训练集43例样本进行分析,发现NR组与R组之间存在明显的聚类差异(图5)。基于7个物种在训练集的相对丰度,可以区分R组与NR组。PCA第一主成分和第二主成分分别解释了总方差的25.1%和21.2%,表明这7个物种在NR组与R组之间存在明显的聚类差异,提示所选择的标志物对R组与NR组病例的鉴别有良好的分辨率。
实施例3、模型评价
评价一、测试集评价
将样本随机划分为训练集与测试集。采用随机森林算法对训练集进行训练,所筛选的7个物种的相对丰度作为特征,训练一个随机森林模型来评估入组患者的生存预后(图10),最终构建的评估模型较准确地预测了入组病例的生存预后,ROC曲线下方的面积大小(AUC)为0.857(图10)。进一步评估所选择的标志物与预测模型的泛化性,将上述模型在测试集验证,得到一个相当不错的预测效能(AUC=0.717,图10)。
评价二、与其他肿瘤标志物的比较评价
肿瘤标志物常被用来评估肿瘤患者的预后,为了比较cmDNA与常用临床工具的效能,在这些患者中,本实施例提取了其常用肿瘤标志物:细胞胶蛋白19片段、胃泌素释放肽前体、糖链抗原125、糖链抗原19-9、癌胚抗原、骨胶素CYFRA21-1、神经元特异性烯醇化酶、白细胞介素6。根据这些肿瘤标志物建立预后模型,其预测效能不及 cmDNA模型(AUC=0.7071,图11),这也证实cmDNA在预测肺癌预后方面优于目前常用的肿瘤标志物。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于宿主血浆微生物DNA特征的肺癌预后评估模型的构建方法,其特征在于,所述方法包括如下步骤:
1)cfDNA测序:宿主血浆提取cfDNA,全基因组测序获得cfDNA序列;
2)cmDNA获取:将cfDNA序列比对到宿主参考基因组,过滤掉宿主基因片段获得血浆微生物来源的DNA片段cmDNA;
3)物种特征提取:基于cmDNA通过序列比对注释微生物物种信息,并评估微生物相对丰度,得到cmDNA物种特征;
4)模型建立和评估:将样本划分为训练集和测试集,基于提取的cmDNA物种特征建立模型,并通过测试集进行验证,评估模型效能。
2.权利要求1所述的构建方法,其特征在于,所述宿主为人或非人动物,优选为人。
3.权利要求1-2任一所述的构建方法,其特征在于,所述步骤2)中:所述参考基因组为hg19;
优选的,所述步骤2)具体为:将cfDNA序列比对到人参考基因组hg19,得到BAM文件;过滤掉宿主基因片段后获得血浆微生物来源的DNA片段cmDNA。
4.权利要求1-2任一所述的构建方法,所述步骤3)中,所述微生物相对丰度为微生物属水平相对丰度;
优选的,所述微生物为细菌;
更优选的,所述细菌包括Staphylococcus、Massilia和/或Klebsiella;
近一步优选的,所述细菌包括Klebsiella、Microbulbifer、Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
5.权利要求1-2任一所述的方法,其特征在于,
所述步骤1)中:所述全基因组测序为低深度全基因组测序,优选的为5×全基因组测序;
所述步骤4)中,所述模型为随机森林模型。
6.一种基于宿主血浆微生物DNA特征的肺癌预后评估方法,其特征在于,包括权利要求1-5任一所述构建方法的步骤,并进一步包括基于权利要求1-5任一构建方法确定的血浆cmDNA物种特征评估肺癌预后的步骤。
7.血浆cmDNA物种特征在肺癌预后评估中的应用,或用于检测cmDNA物种特征的产品在制备肺癌预后评估产品中的应用;
优选的,所述cmDNA物种特征为微生物属水平相对丰度;
更优选的,所述微生物为细菌;
进一步优选的,所述细菌包括Staphylococcus、Massilia和/或Klebsiella;
更进一步优选的,所述细菌包括Klebsiella、Microbulbifer、Cutibacterium、Comamonas、Massilia、Staphylococcus和/或Hydrogenophilus。
8.一种基于宿主血浆微生物DNA特征的肺癌预后评估模型,其特征在于,所述模型包括如下模块:
1)cfDNA测序模型:宿主血浆提取cfDNA,全基因组测序获得cfDNA序列;
2)cmDNA获取模型:将cfDNA序列比对到宿主参考基因组,过滤掉宿主基因片段获得血浆微生物来源的DNA片段cmDNA;
3)微生物物种特征提取模型:基于cmDNA通过序列比对注释微生物物种信息,并评估微生物相对丰度;
4)模型建立和评估模型:将样本划分为训练集和测试集,提取训练集的cmDNA物种特征建立模型,并通过测试集进行验证,评估模型效能。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
CN202210454379.8A 2022-04-27 2022-04-27 一种基于血浆微生物dna特征的肺癌预后评估方法及模型 Active CN117004744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210454379.8A CN117004744B (zh) 2022-04-27 2022-04-27 一种基于血浆微生物dna特征的肺癌预后评估方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454379.8A CN117004744B (zh) 2022-04-27 2022-04-27 一种基于血浆微生物dna特征的肺癌预后评估方法及模型

Publications (2)

Publication Number Publication Date
CN117004744A true CN117004744A (zh) 2023-11-07
CN117004744B CN117004744B (zh) 2024-05-24

Family

ID=88573145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454379.8A Active CN117004744B (zh) 2022-04-27 2022-04-27 一种基于血浆微生物dna特征的肺癌预后评估方法及模型

Country Status (1)

Country Link
CN (1) CN117004744B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243240A (zh) * 2010-05-11 2011-11-16 中国科学院上海生命科学研究院 非小细胞肺癌分子标志物及其应用
KR20180003348A (ko) * 2016-06-30 2018-01-09 연세대학교 산학협력단 폐암의 진단 또는 폐암의 병기에 관한 정보를 제공하는 방법 및 이를 이용하는 키트
KR20180034046A (ko) * 2016-09-27 2018-04-04 경북대학교 산학협력단 Dtx1의 다형성을 이용한 비소세포폐암의 예후 진단 방법
CN108070656A (zh) * 2017-11-13 2018-05-25 深圳华大基因股份有限公司 肺癌标志物及其应用
CN108239670A (zh) * 2016-12-26 2018-07-03 Md保健株式会社 通过宏基因组分析来诊断copd患者的肺癌的试剂盒和方法
KR20190003330A (ko) * 2017-06-30 2019-01-09 주식회사 엠디헬스케어 천식환자에서 세균 메타게놈 분석을 통한 폐암 진단방법
CN109937047A (zh) * 2016-09-02 2019-06-25 犹他大学研究基金会 nNIF和nNIF相关肽以及相关方法
CN110272985A (zh) * 2019-06-26 2019-09-24 广州市雄基生物信息技术有限公司 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其系统与方法
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
US20210057046A1 (en) * 2018-03-29 2021-02-25 Freenome Holdings, Inc. Methods and systems for analyzing microbiota
CN112538545A (zh) * 2020-12-15 2021-03-23 上海交通大学医学院 真菌微生物组作为标志物在制备治疗筛查和肺癌诊断中的应用
CN113913333A (zh) * 2021-10-20 2022-01-11 南京世和基因生物技术股份有限公司 一种肺癌诊断标志物及用途

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243240A (zh) * 2010-05-11 2011-11-16 中国科学院上海生命科学研究院 非小细胞肺癌分子标志物及其应用
KR20180003348A (ko) * 2016-06-30 2018-01-09 연세대학교 산학협력단 폐암의 진단 또는 폐암의 병기에 관한 정보를 제공하는 방법 및 이를 이용하는 키트
CN109937047A (zh) * 2016-09-02 2019-06-25 犹他大学研究基金会 nNIF和nNIF相关肽以及相关方法
KR20180034046A (ko) * 2016-09-27 2018-04-04 경북대학교 산학협력단 Dtx1의 다형성을 이용한 비소세포폐암의 예후 진단 방법
CN108239670A (zh) * 2016-12-26 2018-07-03 Md保健株式会社 通过宏基因组分析来诊断copd患者的肺癌的试剂盒和方法
CN108265115A (zh) * 2016-12-26 2018-07-10 Md保健株式会社 用于通过细菌的宏基因组分析诊断肺癌的试剂盒和方法
KR20190003330A (ko) * 2017-06-30 2019-01-09 주식회사 엠디헬스케어 천식환자에서 세균 메타게놈 분석을 통한 폐암 진단방법
CN108070656A (zh) * 2017-11-13 2018-05-25 深圳华大基因股份有限公司 肺癌标志物及其应用
US20210057046A1 (en) * 2018-03-29 2021-02-25 Freenome Holdings, Inc. Methods and systems for analyzing microbiota
CN110272985A (zh) * 2019-06-26 2019-09-24 广州市雄基生物信息技术有限公司 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其系统与方法
CN112011616A (zh) * 2020-09-02 2020-12-01 复旦大学附属中山医院 预测肝细胞癌肿瘤免疫浸润和术后生存时间的免疫基因预后模型
CN112538545A (zh) * 2020-12-15 2021-03-23 上海交通大学医学院 真菌微生物组作为标志物在制备治疗筛查和肺癌诊断中的应用
CN113913333A (zh) * 2021-10-20 2022-01-11 南京世和基因生物技术股份有限公司 一种肺癌诊断标志物及用途

Also Published As

Publication number Publication date
CN117004744B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
Elhanafi et al. Comparison of endoscopic ultrasound tissue acquisition methods for genomic analysis of pancreatic cancer
KR102233740B1 (ko) Dna 복제수 변이 기반의 암 종 예측 방법
JP2021519607A (ja) ゲノムワイド統合による循環腫瘍dnaの超音波感受性検出
CN112805563A (zh) 用于评估和/或治疗癌症的无细胞dna
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
EP2812693A1 (en) A multi-biomarker-based outcome risk stratification model for pediatric septic shock
US20220136062A1 (en) Method for predicting cancer risk value based on multi-omics and multidimensional plasma features and artificial intelligence
Peled et al. An update on the use of exhaled breath analysis for the early detection of lung cancer
JP7499239B2 (ja) 体細胞変異のための方法およびシステム、ならびにそれらの使用
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN116356001A (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
CN110570951A (zh) 构建乳腺癌新辅助化疗疗效分类模型的方法
Wang et al. Enhanced detection of landmark minimal residual disease in lung cancer using cell-free DNA fragmentomics
US20220084632A1 (en) Clinical classfiers and genomic classifiers and uses thereof
CN117004744B (zh) 一种基于血浆微生物dna特征的肺癌预后评估方法及模型
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
CN117316278A (zh) 一种基于cfDNA片段长度分布特征的癌症无创早筛方法及系统
He et al. Analysis of threshold change of tumor mutation burden in gastric cancer
Zhu et al. Correlation of transrenal DNA with non-small-cell lung cancer in noninvasive disease monitoring
CN115678999B (zh) 标志物在肺癌复发预测中的应用和预测模型构建方法
KR102138517B1 (ko) 췌장암 진단용 바이오마커의 추출 방법, 이를 위한 컴퓨팅 장치, 췌장암 진단용 바이오마커 및 이를 포함하는 췌장암 진단 장치
Dive et al. Cancer moonshot connecting international liquid biopsy efforts through academic partnership
Chandratre Evidence-Based Detection of Pancreatic Canc
Schlomm The Era of Prostate-specific Antigen-based Personalized Prostate Cancer Screening Has Only Just Begun

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant