CN113362884A - 基于单碱基替换特征的肿瘤标志物筛选方法及应用 - Google Patents

基于单碱基替换特征的肿瘤标志物筛选方法及应用 Download PDF

Info

Publication number
CN113362884A
CN113362884A CN202010151690.6A CN202010151690A CN113362884A CN 113362884 A CN113362884 A CN 113362884A CN 202010151690 A CN202010151690 A CN 202010151690A CN 113362884 A CN113362884 A CN 113362884A
Authority
CN
China
Prior art keywords
screening
tumor
combination
base substitution
risk prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010151690.6A
Other languages
English (en)
Inventor
张清政
白健
吴�琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Herui Precision Medical Device Technology Co ltd
Original Assignee
Fujian Herui Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Herui Gene Technology Co ltd filed Critical Fujian Herui Gene Technology Co ltd
Priority to CN202010151690.6A priority Critical patent/CN113362884A/zh
Publication of CN113362884A publication Critical patent/CN113362884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Databases & Information Systems (AREA)
  • Oncology (AREA)
  • Data Mining & Analysis (AREA)
  • Microbiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种肿瘤标志物或其组合的筛选方法,所述筛选方法满足以下条件:1)利用包含单碱基替换特征在内的一种或多种指标筛选肿瘤相关标志物;和/或2)包含检测单碱基替换特征的步骤。本发明还提供了基于所述筛选方法的肿瘤风险预测、筛查和/或诊断模型构建方法和癌症风险预测、筛查和/或诊断方法,以及相关的肿瘤标志物组合、试剂盒、系统、装置、计算机可读存储介质和设备。

Description

基于单碱基替换特征的肿瘤标志物筛选方法及应用
技术领域
本发明属于测序技术领域,具体涉及一种基于单碱基替换特征的肿瘤标志物筛选方法及其相关的肿瘤风险预测、筛查和/或诊断模型构建方法和诊断方法、装置、系统、计算机可读存储介质、设备,以及相关的单碱基替换特征量化方法。
背景技术
癌症是危害人类健康的重大疾病之一,2018年最新的全球癌症统计结果显示,全球有1819万癌症新增病例和960万癌症死亡病例,而我国的癌症患病率处于国际中等偏上水平。相比于晚期癌症,早期癌症未发生转移,更容易通过手术、放化疗等手段清除,在癌症早期进行治疗干预,有助于增加患者存活机会,减轻痛苦,降低经济负担。目前尚无有效治疗晚期癌症的手段,及早发现及早治疗被认为是处置癌症最有效的手段,因此提升肿瘤检测的灵敏度对于提高癌症患者生存率具有重大意义,这其中早筛早诊将会起到重要作用。对于肿瘤的诊断,目前临床上主要依赖影像学检查和特异性肿瘤标志物的血液检测。但传统的影像学检测及特异性肿瘤标志物检测并没有较高的灵敏度。肿瘤标记物通常缺乏特异性,仅在辅助诊断、预后判断等方面有一定价值。影像学检测主要包括磁共振(MRI)、计算机断层扫描(CT)检查、超声检测等,然而上述检测手段存在灵敏度较低、难以在早期发现肿瘤的缺陷,并且对人的器官也存在一定损伤。
当前最有希望实现肿瘤灵敏检测突破是在肿瘤基因组学领域。随着液态活检技术的发展,血浆游离DNA(cfDNA)在肿瘤临床检测中得到广泛应用。血浆cfDNA由双链DNA片段组成,在健康人中,血浆cfDNA主要源于造血系正常细胞的凋亡,而在特定疾病过程中,cfDNA的很大一部分可能由不同类型的组织提供。目前这一特性已被用来实现基于cfDNA组成的无创产前诊断。在肿瘤患者中,肿瘤与正常组织的细胞会不断释放DNA片段进入血液,构成血浆游离DNA,其中肿瘤释放的循环肿瘤DNA(ctDNA)在众多维度上均带有肿瘤组织DNA特征,针对ctDNA的检测可实时反映体细胞基因组状态。目前技术多为检测cfDNA中的一些特定的序列变异特征,应用于中晚期肿瘤诊断,指导对患者的临床治疗。然而对于肿瘤筛查而言,仅用序列变异作为检测指标时,灵敏度以及组织特异性不足,原因主要是受限于肿瘤体细胞变异的随机性,并且ctDNA本身在血液中含量比较低且半衰期较短,大约只有cfDNA的0.1%到1%,如果使用超深度测序,其检测费用也很昂贵,血浆中突变检测所需数据量一般要超过30000X,所以ctDNA突变的检测也遇到了较大的瓶颈。
表观修饰改变通常发生于肿瘤发展早期阶段,可通过游离DNA全基因组测序,获得更多广泛存在的表观修饰变异特征,从而提高诊断的特异性和敏感性,其中最重要的方法为DNA甲基化检测,根据近期发表于Nature等国际著名杂志的文献报道,可知目前最优的基于甲基化区分肿瘤患者和正常人的模型的特异性为90.5%、敏感性为83.3%,在早期和极早期肿瘤病人中的准确性会剧烈下降,敏感性仅为20-40%。可见基于甲基化的检测并未达到理想效果,且甲基化改变易受环境因素影响,检测稳定性存在问题,并且检测成本高昂。
已经出现了围绕点突变(如SNV)开发的技术,然而为了能够精确的找到发生突变的位点,目前的检测方法多使用检测特定基因或基因组合的部分区域,使用超深度测序,检测费用很昂贵,血浆中突变检测所需数据量一般要超过30000X,即便如此最后能够确定发生变异的位点数量也较少(SNV),因此基于ctDNA突变的检测灵敏度和特异性都受到一定的局限性。
根据以上情况可知,本领域存在寻找新的肿瘤标志物的需求,以提高肿瘤筛查的准确性、特异性和灵敏度。通过大量调研以往研究,肿瘤在发生发展的过程中会累积大量突变,但受入血比例,以及目前突变位点检测算法的影响,最终得到可信度高的位点较少,且即使对于同一种肿瘤,不同患者的发生碱基替换的位点及类型也不相同,这就无法找到固定的特征作为肿瘤标志物。
综合现有技术的情况来看,针对肿瘤早筛早诊,仍然需要有效的筛选相关肿瘤标志物的方法。
发明内容
本发明的一个目的是针对现有技术存在的缺陷,提供一种新的肿瘤标志物及其组合的筛选方法。发明人基于现有的基于SNV等序列变异特征的技术中存在的问题和困难,转变思路,不再针对于某一基因或某些基因的精确检测,转而在全局范围内考虑变异特征的差异。发明人发现,通过对单碱基替换特征进行量化,能够成功地将这一指标应用于肿瘤的早期筛查,筛选出对肿瘤早期筛查有效且高准确性的肿瘤标志物及组合。即使在低深度测序的条件下,通过量化单碱基替换特征,使用机器学习方法筛选肿瘤细胞与正常细胞存在差异的单碱基替换类型组合,仍能构建出具有高灵敏度和特异性的筛查模型,有效提升了对肿瘤的检测的准确性,与现有技术相比,本发明不受肿瘤类型的限制,可应用于不同类型肿瘤的检测,且具有更高的准确性。
为了实现以上目的,本发明提供了一种肿瘤标志物或其组合的筛选方法,所述筛选方法满足以下条件:
1)包含检测单碱基替换特征的步骤;和/或
2)利用包含单碱基替换特征在内的一种或多种指标筛选肿瘤相关标志物。
本发明中,单碱基替换特征是不同单碱基替换类型分布情况的量化指标;可以选自各单碱基替换类型的丰度、各单碱基替换类型的出现位点数、各单碱基替换类型的读段(read)支持数或者各单碱基替换类型的占比。
在本发明的一个实施方案中,单碱基替换特征可以是单碱基替换类型的占比;优选地,所述单碱基替换类型的占比=每种单碱基替换的位点数/发生单碱基替换的总位点数。
在本发明的一个实施方案中,单碱基替换类型分布情况可以是在全基因组中的分布情况、外显子组中的分布情况或者基因组中一个或多个区域中的分布情况。
在本发明的一个实施方案中,单碱基替换类型是以突变位点处一定范围的序列为单位,根据突变前后的碱基种类不同而对样本中存在的单碱基替换进行分类后获得的类型。
进一步地,所述一定范围的序列可以包含突变位点自身以及侧翼序列。所述侧翼序列可以是突变位点一侧或两侧的序列,优选两侧序列。
进一步地,所述一定范围的序列也可以仅包含突变位点自身。
在本发明的一个实施方案中,所述一定范围的序列的长度可以是1bp、2bp、3bp、4bp、5bp或更长。
优选地,所述一定范围的序列可以是突变位点及其上下游各1bp的序列。
在本发明的一个实施方案中,筛选方法还可以包含对单碱基替换位点进行筛选以降低误差的步骤。
进一步地,所述对单碱基替换位点进行筛选可以是选取同种单碱基替换类型支持数大于等于2、3、4或5的位点。
进一步地,所述对单碱基替换位点进行筛选可以是去除人群高频突变位点;优选去除dbSNP数据库中收录的人群高频突变位点。
本发明的肿瘤标志物或其组合的筛选方法还可以包含如下步骤:
a)使用统计学方法筛选单碱基替换特征在肿瘤患者和健康人群中存在显著差异的单碱基替换类型,筛选获得的单碱基替换类型作为肿瘤标志物;
b)任选地,对a)步骤筛选获得的单碱基替换类型进行降维处理,降维后的单碱基替换类型作为肿瘤标志物;
c)任选地,在受试者的单碱基替换特征数据集合中随机选取若干受试者形成子集,重复步骤a)至步骤b)若干次,得到在每次重复中稳定存在显著差异的单碱基替换类型,作为肿瘤标志物;优选重复1次以上;更优选重复1-1000次;更优选重复200次。
进一步地,在步骤a)中,所述统计学方法可以选自秩和检验、T检验、方差齐性检验或卡方检验;优选秩和检验;优选p值小于0.05或0.01为显著性差异基因。
进一步地,在步骤b)中,所述降维处理可以选自LASSO回归算法、岭回归(Ridgeregression)算法或弹性网络(Elastic Net);优选采用LASSO回归算法,筛选权重得分不为0的基因作为肿瘤标志物。
本发明中,单碱基替换特征可以通过测序测定。
本发明可以使用各类测序技术,例如Sanger测序、二代测序(NGS)或单分子测序,优选二代测序。优选地,所述测序可以是低深度测序;优选测序深度为1-5X的低深度测序;更优选测序深度为2X的低深度测序。
本发明的技术方案可以在癌症的各种诊断和非诊断的应用场景中使用。本发明的技术方案可适用于任何分期的肿瘤,例如极早期肿瘤、早期肿瘤、中期肿瘤、晚期肿瘤;优选用于早期肿瘤或极早期肿瘤。
本发明的另一个目的是提供一种肿瘤风险预测、筛查和/或诊断模型的构建方法,所述方法使用本发明的筛选方法筛选得到的肿瘤标志物或其组合构建肿瘤风险预测、筛查和/或诊断模型。
本发明中,肿瘤风险预测、筛查和/或诊断模型的构建方法以所述肿瘤标志物或其组合的单碱基替换特征作为输入数据,通过机器学习的方法构建肿瘤风险预测、筛查和/或诊断模型。
进一步地,机器学习的方法可以选自随机森林、支持向量机(SVM)、逻辑回归、规则学习和神经网络;优选支持向量机。
在本发明的一个实施方案中,所述构建方法还可以包括通过模型迭代训练确定最优参数的步骤。
本发明还提供采用本发明的筛选方法获得的肿瘤标志物的组合。
进一步地,肿瘤标志物组合可以包含下表中的单碱基替换类型:
GCG>GTG ATG>AAG ATT>ACT ACC>AGC
TCT>TGT GTA>GAA TCC>TAC TTT>TCT
TTT>TGT GTA>GCA TCC>TGC TTC>TAC
CTC>CAC CTA>CAA TCA>TTA ATG>AGG
CCG>CTG CCT>CTT ACG>ATG TTC>TCC
GTG>GCG GCC>GAC CTT>CCT CTG>CCG
TCG>TTG GCA>GTA ATA>AGA CTG>CAG
GTG>GGG GTC>GGC ACT>ATT CTG>CGG
GCG>GAG GTC>GAC TCA>TAA ACA>AAA
CCG>CGG CTC>CCC TCC>TTC TCG>TAG
GCA>GAA ACT>AAT ACC>AAC GTT>GAT
GCA>GGA ACT>AGT ATT>AAT GTT>GCT
CTT>CGT TTA>TGA ATT>AGT TTA>TAA
CCC>CAC
本发明还提供一种肿瘤风险预测、筛查和/或诊断方法,所述方法包括使用肿瘤风险预测、筛查和/或诊断模型的步骤,所述肿瘤风险预测、筛查和/或诊断模型是采用本发明的构建方法所构建的肿瘤风险预测、筛查和/或诊断模型。
本发明还提供一种肿瘤风险预测、筛查和/或诊断方法,所述方法使用采用本发明的筛选方法得到的肿瘤标志物或其组合,或者本发明提供的上述肿瘤标志物的组合。
本发明还提供一种肿瘤风险预测、筛查和/或诊断试剂盒,所述试剂盒包含用于特异性检测肿瘤标志物或其组合的试剂,所述肿瘤标志物或其组合是采用本发明的筛选方法得到的肿瘤标志物或其组合,或者是本发明提供的上述肿瘤标志物组合,或者是采用本发明的构建方法所构建的肿瘤风险预测、筛查和/或诊断模型中的肿瘤标志物或其组合。
本发明还提供用于特异性检测肿瘤标志物或其组合的试剂在制备肿瘤风险预测试剂盒、筛查试剂盒和/或诊断试剂盒中的用途,所述肿瘤标志物或其组合是采用本发明的筛选方法得到的肿瘤标志物或其组合,或者是本发明提供的上述肿瘤标志物组合,或者是采用本发明的构建方法所构建的肿瘤风险预测、筛查和/或诊断模型中的肿瘤标志物或其组合。
本发明还提供一种用于癌症风险预测、筛查和/或诊断的系统或装置,所述系统或装置包括:
获取模块,用于获取受试者的肿瘤标志物或其组合的测定数据,所述肿瘤标志物或其组合是采用本发明的筛选方法得到的肿瘤标志物或其组合,或者是本发明提供的上述肿瘤标志物组合,或者是采用本发明的构建方法所构建的肿瘤风险预测、筛查和/或诊断模型中的肿瘤标志物或其组合,所述测定数据是单碱基替换特征;
数据分析模块,用于将所述肿瘤标志物或其组合的测定数据输入采用本发明的构建方法所构建的肿瘤风险预测、筛查和/或诊断模型中,以得出筛查结果。
本发明的系统或装置还可以包括:诊断模块,用于生成疾病风险建议或诊断结果。
本发明的系统或装置还可以包括:测序模块,用于对受试者进行测序。
本发明还提供一种设备,包括处理器、存储器以及存储在所述存储器中的计算机程序,所述计算机程序包括:
1)用于执行本发明的肿瘤标志物或其组合的筛选方法的程序;和/或
2)用于执行本发明的肿瘤风险预测、筛查和/或诊断模型的构建方法的程序;和/或
3)用于执行本发明的癌症风险预测、筛查和/或诊断方法的程序。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,所述计算机程序包含:
1)用于执行本发明的肿瘤标志物或其组合的筛选方法的程序;和/或
2)用于执行本发明的肿瘤风险预测、筛查和/或诊断模型的构建方法的程序;和/或
3)用于执行本发明的癌症风险预测、筛查和/或诊断方法的程序。
本发明还提供一种单碱基替换特征的量化方法,所述方法使用单碱基替换类型的丰度、单碱基替换类型的出现位点数、单碱基替换类型的读段(read)支持数或者单碱基替换类型的占比对所述单碱基替换特征进行量化。
在本发明的一个实施方案中,所述单碱基替换特征用单碱基替换类型的占比表征,所述单碱基替换类型的占比=每种单碱基替换的位点数/发生单碱基替换的总位点数。
本发明的各项方法还可以包含测序的步骤,测定样本的核苷酸序列。
本发明的有益效果至少包括以下方面:
(1)本发明的筛选方法所得到的单碱基替换类型组合性能优异,能够构建出高准确度的肿瘤风险预测、筛查和/或诊断模型,与甲胎蛋白(AFP)等传统临床标志物以及靶向突变检测、甲基化检测、拷贝数变异检测和突变联合蛋白检测等NGS标志物相比,能够获得更加准确的预测效果。本发明方法获得的肿瘤标志物与常见的基于NGS的标志物相比,获取更为简便,准确性更高,并且所需数据量更少,采用低深度测序即可实现肿瘤的早筛早诊,避免了现有肿瘤早筛技术中高深度测序所产生的昂贵的检测成本。
(2)本发明的方法从原理上不受肿瘤类型的限制,可应用于不同类型肿瘤的检测,具有更加广泛的潜在应用。
(3)对于不同的肿瘤分期,其单碱基替换特征分值基本没有差距,因而本发明的方法能够适用于各个分期的肿瘤,有效实现了对早期甚至极早期肿瘤的筛查。
(4)与影像学等检测手段相比,本发明的方法可实现无创检测,更加安全且不受受试者体质的影响:并且仅需采集少量血液即可完成,而影像学检查受到某些脏器的生理活动的影响以及某些特殊体质病人无法进行检测,且某些放射性物质会对身体有一定的损伤。
(5)本发明采用LASSO降维算法有效降低了计算量,提高了准确性。
(6)本发明不仅提供了能够获得更准确筛查结果的肿瘤标志物筛选方法,还提供了新的肿瘤标志物组合,实现了优于现有技术的筛查效果。
附图说明
图1为本发明实施例中的肿瘤标志物筛选方法及其评价试验设计流程图。
图2为采用本发明的筛选方法构建的肿瘤筛查模型与AFP检测效果对比。
图3为肿瘤不同分期的单碱基替换特征差异。
具体实施方式
如无特别指明,本发明所使用术语均具有本领域通常的含义,所使用的试剂均为本领域常规商业化试剂。
本发明的术语“单碱基替换”是指发生了单个碱基替换的点突变。点突变可以发生在个体中,也可以发生在群体中,优选发生在个体中。
本发明的术语“单碱基替换类型”是指以突变位点处一定范围的序列为单位,根据突变前后的碱基种类不同而对样本中存在的单碱基替换进行的分类。所述一定范围的序列可以仅包含突变位点自身,在这种情况下可以形成12个单碱基替换类型;但在低深度测序的情况下,由于无法区分正负模板链的差别,因而可形成6个单碱基替换类型,例如C->T、C->A、C->G、T->A、T->C和T->G。所述一定范围的序列还可以包含突变位点自身以及侧翼序列,所述侧翼序列可以是突变位点一侧或两侧的序列,优选两侧序列;所述一定范围的序列的长度可以是1bp、2bp、3bp、4bp、5bp或更长,优选是突变位点及其上下游各1bp的序列,例如将GCG>GTG、GCG>GAG、GCA>GAA、ATG>AAG分别作为不同的单碱基替换类型。
本发明的术语“单碱基替换特征”是指用来表征不同单碱基替换类型分布情况的量化指标。所述分布情况可以选自各个单碱基替换类型的丰度、各个单碱基替换类型的出现位点数、各个单碱基替换类型的读段(read)支持数或者各个单碱基替换类型的占比。通过统计不同单碱基替换类型的分布在肿瘤患者与健康人群中的差异,可以筛选出能够作为肿瘤标志物使用的单碱基替换类型或单碱基替换类型的组合。
本发明的术语“单碱基替换类型支持数”是指对于某个单碱基替换位点,发生该单碱基替换类型的读段(read)的数量。
本发明的术语“AUC”可以指ROC曲线下的面积,可以用来表征癌症筛查/预测的表现。AUC的范围为0.5-1.0,数值越接近1.0表明该方法的筛查/预测表现越好。
本发明的术语“ROC”或“ROC曲线”可以指受试者工作特征曲线(receiveroperatingcharacteristic curve),可以用来表征分类器的表现。可以通过在各个阈值设置下用灵敏度对特异性作图来生成ROC曲线。
本发明的术语“灵敏度”(sensitivity)可以指真阳性的数量除以真阳性与假阴性数量的总和,可以用来表征正确鉴别真正患有癌症的群体的能力。
本发明的术语“特异性”(specificity)可以指真阴性的数量除以真阴性与假阳性数量的总和,可以用来表征正确鉴别真正未患癌症的群体的能力。
实施例1
本实施例的入组样本来源于发明人的另一项研究,在该研究中同时验证了发明人的数项构思,共包含957例受试者,具体为481例肝癌(HCC)患者和476例健康人对照(NC)(图1)。按照以下步骤提取血浆游离DNA(cfDNA):
(1)取3ml外周血(收集保存于Streck cell-free DNA采血管),Eppendorf离心机(5810R和5427R,German),在4℃低温条件下,先1600g低速离心10min,仅取上清液;再16000g高速离心10min,取上清液,即得到血浆样本。用试剂盒MagMAXCell-Free DNAIsolation Kit(Thermo)与核酸提取仪(Thermo Kingfisher FLEX,USA)提取血浆中的cell-free DNA。
(2)DNA质量检测:DNA浓度用Qubit 3核酸/蛋白质定量荧光计(Thermo,USA)检测,DNA片段分布用Fragment Analyzer(Agilent,USA)检测。
实施例2
对实施例1中制取的所有受试者的cfDNA样品进行低深度全基因组测序。测序过程如下:
(1)WGS文库构建和上机测序:取5ng cfDNA用Enzymatics公司(USA)相关试剂盒构建预文库,主要包含末端修复(5X ER/A-Tailing Enzyme Mix)和加接头(WGSLigase)两个步骤,接头序列适用于IlluminaNovaSeq 6000测序平台。接头连接后使用XP磁珠(AgencourtAMPure XP beads,Beckman Coulter)进行纯化。WGS文库使用qPCR(KAPALibrary Quant Kit,Roche)确定浓度值,使用Fragment Analyzer(Agilent,USA)确定文库大小。之后在IlluminaNovaSeq 6000测序平台进行双端150bp的测序,单样本数据量平均为全基因组2X。
(2)数据质控:使用Fastp软件对测序下机数据进行过滤,包括减去测序接头序列,去除测序读长小于50bp的DNA片段,去除平均测序质量较低的DNA片段。使用BWA将过滤后的数据与Hg19参考基因组进行比对,得到每个DNA片段基因组上对应的具体位置信息。使用Sambamba软件去除PCR引入的数据冗余,使用SAMtools软件去除比对质量较低、未比对上、双端读段(read)未能完美配对的DNA片段。将过滤过后的DNA片段按比对位置进行排序,便于后续分析处理。使用Varscan软件找到存在单碱基替换的位点,由于测序数据量较小,需将软件各种参数调整至最宽松,以得到发生单碱基替换的所有位点。
实施例3
将肿瘤患者和健康人群的测序数据分成独立的训练集(510例)、验证集(98例)及测试集(349例)。训练集用于筛选特征单碱基替换类型,验证集用于确定模型最优阈值,测试集用于评估模型性能。
基于实施例2中获得的测序数据,计算各训练集样本中每种单碱基替换类型的占比:使用Varscan软件将全基因组中所有存在单碱基替换突变的位点输出,选取突变支持数(即同种碱基替换支持数)大于等于2的位点,去除dbSNP数据库中收录的人群高频突变位点,从而尽可能减少背景突变的影响,并一定程度上减少系统性误差带来的影响。为了考虑左右碱基带来的影响,使用hg19参考基因组序列进行比对,确定发生单碱基替换的位点左右碱基的种类。按照如下公式计算每种单碱基替换类型所占比例:单碱基替换类型所占比例=每种单碱基替换的位点数/发生单碱基替换的总位点数。
使用秩和检验在训练集中筛选单碱基替换类型占比在肿瘤患者和健康人群中存在显著差异的单碱基替换类型,差异显著标准为P值小于0.05,筛选获得的单碱基替换类型作为肿瘤标志物。使用LASSO(least absolute shrinkage and selection operator)回归对前述步骤得到的存在显著差异的单碱基替换类型进一步进行降维处理,筛选权重得分不为0的类型作为模型构建的单碱基替换类型组合。随机选取训练集样本,重复以上所述步骤200次,得到稳定的53个单碱基替换类型(如表1所示)。
表1差异单碱基替换类型的筛选结果
GCG>GTG ATG>AAG ATT>ACT ACC>AGC
TCT>TGT GTA>GAA TCC>TAC TTT>TCT
TTT>TGT GTA>GCA TCC>TGC TTC>TAC
CTC>CAC CTA>CAA TCA>TTA ATG>AGG
CCG>CTG CCT>CTT ACG>ATG TTC>TCC
GTG>GCG GCC>GAC CTT>CCT CTG>CCG
TCG>TTG GCA>GTA ATA>AGA CTG>CAG
GTG>GGG GTC>GGC ACT>ATT CTG>CGG
GCG>GAG GTC>GAC TCA>TAA ACA>AAA
CCG>CGG CTC>CCC TCC>TTC TCG>TAG
GCA>GAA ACT>AAT ACC>AAC GTT>GAT
GCA>GGA ACT>AGT ATT>AAT GTT>GCT
CTT>CGT TTA>TGA ATT>AGT TTA>TAA
CCC>CAC
按照以下步骤构建机器学习分类模型、进行性能验证:
(1)特征数据提取:提取各个样本测序数据中以上述方法筛选得到单碱基替换类型的占比数据作为输入数据,用以构建肿瘤筛查模型。
(2)肿瘤筛查模型构建及优化:使用支持向量机(SVM)进行模型构建及迭代训练,训练集样本通过交叉验证的方法,尝试不同参数组合,通过迭代训练,确定并记录模型性能达到最优的参数,在验证集样本找到灵敏度和特异性为最优的阈值。
(3)模型性能验证:使用确定好的模型的最优参数和最优阈值在独立的测试集中进行验证,绘制ROC曲线,计算AUC值,用测试集的表现代表模型的整体性能。
实施例4
为了测试本发明的肿瘤标志物的性能,对实施例3中构建的肿瘤筛查模型的预测效果进行验证,并与其他肿瘤标志物进行对比。
甲胎蛋白(AFP)在实践中被作为肝癌诊断的金标准,因而本实施例中选择AFP作为指示本发明肿瘤标志物性能的对照指标。结果如图2所示,测试集样本中,208例肝癌患者中的185例被本发明的肿瘤标志物正确预测,本发明的肿瘤标志物预测的194个阳性结果中,仅9例为非肝癌患者,本发明的肿瘤标志物的灵敏度和特异性分别达到了88.94%和93.62%,AUC为0.9507,而传统肿瘤标志物AFP的检测灵敏度和特异性分别仅为51.44%和88.65%,AUC为0.764。由此可见,本发明的肿瘤标志物与临床传统标志物相比有着更为优异的灵敏度和特异性,极大提升了检测准确性。
除了传统肿瘤标志物外,还与其他常用的基于二代测序的标志物进行了比较,具体包括靶向突变检测、甲基化检测、拷贝数变异检测和突变联合蛋白检测(SNV/INDEL和甲胎蛋白),这些检测需要复杂的文库构建过程,需经各种技术手段处理,所需数据量也大。采用本发明的标志物,不仅文库构建过程相对简单,而且所需数据量很少,如表2所示,仅仅使用2X的测序深度,AUC就能达到0.95;而采用其他肿瘤标志物至少需要20X,甚至20000X以上的测序深度,并且即使采用超高深度测序也未能达到本发明肿瘤标志物的表现。
表2单碱基替换特征与其他肿瘤标志物的测序深度和准确性对比
检测类型 所需数据量 准确性(AUC)
靶向突变检测 >20000X 0.87
甲基化检测 30X-2000X 0.88
拷贝数变异检测 20-50X 0.81
SNV/INDEL和甲胎蛋白检测 10000X 0.93
单碱基替换类型占比检测 2X 0.95
由此可见,以单碱基替换特征作为肿瘤标志物,与基于二代测序的其他肿瘤标志物相比,获取更方便,需要的数据量更少,准确性更高。
为了测试本发明标志物对肿瘤不同分期的筛查能力,分别以不同肿瘤分期的病人对本发明的肿瘤标志物进行了测试,包括BCLC分期为0+A(最早期+早期)、B(中期)、C(晚期)的患者,结果显示(图3),对于处在不同的BCLC分期的肿瘤病人,其单碱基替换特征分值基本没有差距,因此本发明的肿瘤标志物可以适用于肿瘤的各个时期。
需要说明的是:本发明述及的各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种肿瘤标志物或其组合的筛选方法,所述方法满足以下条件:
1)利用包含单碱基替换特征在内的一种或多种指标筛选肿瘤相关标志物;和/或
2)包含检测单碱基替换特征的步骤。
2.一种肿瘤风险预测、筛查和/或诊断模型的构建方法,其特征在于,所述构建方法使用如权利要求1所述的筛选方法筛选得到的肿瘤标志物或其组合构建所述肿瘤风险预测、筛查和/或诊断模型。
3.根据权利要求1所述的筛选方法获得的肿瘤标志物的组合。
4.一种肿瘤风险预测、筛查和/或诊断方法,其特征在于,所述方法:
1)包括使用肿瘤风险预测、筛查和/或诊断模型的步骤,所述肿瘤风险预测、筛查和/或诊断模型是根据权利要求2所述的构建方法构建的肿瘤风险预测、筛查和/或诊断模型;和/或
2)使用如权利要求1所述的筛选方法得到的肿瘤标志物或其组合或者根据权利要求3所述的肿瘤标志物的组合。
5.用于特异性检测肿瘤标志物或其组合的试剂在制备肿瘤风险预测试剂盒、筛查试剂盒和/或诊断试剂盒中的用途,其特征在于,所述肿瘤标志物或其组合是根据权利要求1所述的筛选方法得到的肿瘤标志物或其组合,或者是根据权利要求3所述的肿瘤标志物的组合,或者是根据权利要求2所述的构建方法构建的肿瘤风险预测、筛查和/或诊断模型中的肿瘤标志物或其组合。
6.一种肿瘤风险预测、筛查和/或诊断试剂盒,其特征在于,所述试剂盒包含用于特异性检测肿瘤标志物或其组合的试剂,所述肿瘤标志物或其组合是根据权利要求1所述的筛选方法得到的肿瘤标志物或其组合,或者是根据权利要求3所述的肿瘤标志物组合,或者是根据权利要求2所述的构建方法构建的肿瘤风险预测、筛查和/或诊断模型中的肿瘤标志物或其组合。
7.一种用于肿瘤风险预测、筛查和/或诊断的系统或装置,其特征在于,所述系统或装置包括:
获取模块,用于获取受试者的肿瘤标志物或其组合的测定数据,所述肿瘤标志物或其组合是根据权利要求1所述的筛选方法得到的肿瘤标志物或其组合,或者是根据权利要求3所述的肿瘤标志物的组合,或者是根据权利要求2所述的构建方法构建的肿瘤风险预测、筛查和/或诊断模型中的肿瘤标志物或其组合,所述测定数据是单碱基替换特征;
数据分析模块,用于将所述肿瘤标志物或其组合的测定数据输入根据权利要求2所述的构建方法构建的肿瘤风险预测、筛查和/或诊断模型中,以得出筛查结果。
8.一种计算机可读存储介质,其包括存储的计算机程序,所述计算机程序包含:
1)用于执行如权利要求1所述的肿瘤标志物或其组合的筛选方法的程序;和/或
2)用于执行如权利要求2所述的肿瘤风险预测、筛查和/或诊断模型的构建方法的程序;和/或
3)用于执行如权利要求4所述的癌症风险预测、筛查和/或诊断方法的程序。
9.一种设备,其包括处理器、存储器以及存储在所述存储器中的计算机程序,所述计算机程序包含:
1)用于执行根据权利要求1所述的肿瘤标志物或其组合的筛选方法的程序;和/或
2)用于执行根据权利要求2所述的肿瘤风险预测、筛查和/或诊断模型的构建方法的程序;和/或
3)用于执行根据权利要求4所述的癌症风险预测、筛查和/或诊断方法的程序。
10.一种单碱基替换特征的量化方法,其特征在于,使用单碱基替换类型的丰度、单碱基替换类型的出现位点数、单碱基替换类型的读段(read)支持数或者单碱基替换类型的占比对所述单碱基替换特征进行量化。
CN202010151690.6A 2020-03-06 2020-03-06 基于单碱基替换特征的肿瘤标志物筛选方法及应用 Pending CN113362884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010151690.6A CN113362884A (zh) 2020-03-06 2020-03-06 基于单碱基替换特征的肿瘤标志物筛选方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010151690.6A CN113362884A (zh) 2020-03-06 2020-03-06 基于单碱基替换特征的肿瘤标志物筛选方法及应用

Publications (1)

Publication Number Publication Date
CN113362884A true CN113362884A (zh) 2021-09-07

Family

ID=77524037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010151690.6A Pending CN113362884A (zh) 2020-03-06 2020-03-06 基于单碱基替换特征的肿瘤标志物筛选方法及应用

Country Status (1)

Country Link
CN (1) CN113362884A (zh)

Similar Documents

Publication Publication Date Title
CN112888459B (zh) 卷积神经网络系统及数据分类方法
JP7487163B2 (ja) がんの進化の検出および診断
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
CN109767810B (zh) 高通量测序数据分析方法及装置
CN106156543B (zh) 一种肿瘤ctDNA信息统计方法
JP2019531700A5 (zh)
IL249095B1 (en) Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies
US20210310067A1 (en) Methods and systems for monitoring organ health and disease
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
EP3729441B1 (en) Microsatellite instability detection
CN116403644B (zh) 一种用于癌症风险预测的方法及装置
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN110055331A (zh) 一种用于膀胱癌辅助诊断或筛查的试剂盒及其应用
CN113362893A (zh) 肿瘤筛查模型的构建方法及应用
CN113362897A (zh) 基于核小体分布特征的肿瘤标志物筛选方法及应用
US20220084632A1 (en) Clinical classfiers and genomic classifiers and uses thereof
CN116356001B (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
CN113362884A (zh) 基于单碱基替换特征的肿瘤标志物筛选方法及应用
CN114410772A (zh) 慢阻肺急性加重易感基因及其在预测易感慢阻肺急性加重中的应用
CN106755322A (zh) 一种预测肺癌转移的试剂盒及其使用方法
CN110607370A (zh) 一种用于人体肿瘤分子分型的基因组合及其应用
CN117423388B (zh) 一种基于甲基化水平的多癌种检测系统及电子设备
CN113393901B (zh) 一种基于单核细胞采集肿瘤核酸的胶质瘤分检装置
CN114093424A (zh) 病变特异性数据筛选及处理方法、装置、设备及存储介质
CN115011690A (zh) 一种用于ⅱ/ⅲ期结直肠癌术后复发预测的标记基因及预测模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220525

Address after: 350200 R & D building 7, No. 33, Donghu Road, digital Fujian Industrial Park, Changle District, Fuzhou City, Fujian Province

Applicant after: Fujian Herui Gene Technology Co.,Ltd.

Applicant after: Beijing Herui precision medical device technology Co.,Ltd.

Address before: 350000 R & D building 7, 33 Donghu Road, digital Fujian Industrial Park, Changle City, Fuzhou City, Fujian Province

Applicant before: Fujian Herui Gene Technology Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination