CN114141303A - 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒 - Google Patents

一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒 Download PDF

Info

Publication number
CN114141303A
CN114141303A CN202010915503.7A CN202010915503A CN114141303A CN 114141303 A CN114141303 A CN 114141303A CN 202010915503 A CN202010915503 A CN 202010915503A CN 114141303 A CN114141303 A CN 114141303A
Authority
CN
China
Prior art keywords
lung cancer
items
target region
cancer screening
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010915503.7A
Other languages
English (en)
Inventor
杨浩
王寅
白健
郑璐
孙福明
吴�琳
杜凤霞
陈碧思
李娴
郑滢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Herui Precision Medical Device Technology Co ltd
Fujian Herui Gene Technology Co ltd
Original Assignee
Beijing Herui Precision Medical Device Technology Co ltd
Fujian Herui Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Herui Precision Medical Device Technology Co ltd, Fujian Herui Gene Technology Co ltd filed Critical Beijing Herui Precision Medical Device Technology Co ltd
Priority to CN202010915503.7A priority Critical patent/CN114141303A/zh
Publication of CN114141303A publication Critical patent/CN114141303A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Library & Information Science (AREA)
  • Physiology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biochemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒,涉及肿瘤检测技术领域,该构建方法通过将肺癌患者和健康人群基因组中目标区域的甲基化水平的测试数据作为输入数据,能构建准确率较高的肺癌筛查模型,该模型相对于传统的临床检测手段以及传统肿瘤标志物而言,具有更好的检测灵敏度和特异性,为肺癌的早期筛查或治疗提供了一种新的途径。

Description

一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒
技术领域
本发明涉及肿瘤检测技术领域,具体而言,涉及一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒。
背景技术
癌症是由影响某些通路功能的特定癌症基因,经过持续的一系列改变所引起的,并且通常需要几十年才能形成,因此绝大多数癌症在前90%的生命周期内未被检测到。有数据表明,癌症筛查在具有明确定义早期阶段的癌症类型中非常有效,这些癌症类型很可能发展为恶性疾病。
在美国,从1975年到2012年,通过筛查,结直肠癌的发病率和死亡率下降了将近50%,反之亦然,有63%的结直肠癌患者死亡归因于缺少筛查。癌症早期检测和筛查的重要性也反映在不同结直肠癌阶段的生存率中,I期、II期、III期和IV期的存活率分别为94%、82%、67%和11%。由此可见,若能在癌症早期时,通过筛查及时发现并治疗,能显著提高癌症患者的存活率。且晚期癌症仍难以攻克,及早发现并治疗仍然是目前治疗癌症最有效的手段,因此,提升肿瘤检测的灵敏度对于提高癌症患者生存率具有重大意义。
而对于肿瘤的诊断,目前临床上主要依赖影像学检查、特异性肿瘤标志物以及基于ctDNA点突变的血液检测。影像学检测主要包括超声检测,计算机断层扫描(CT)检查,磁共振(MRI)等,但这些检测手段除了检测的灵敏度有限之外,对人体器官也有一定的损伤。
当前利用ctDNA进行癌症检测的大多数研究均集中在癌症相关基因突变的检测上。然而,基于ctDNA点突变实施早期癌症检测的方法具有诸多挑战。第一,早期癌症患者的ctDNA水平通常远低于晚期癌症患者。第二,不同于利用肿瘤组织的基因组变异监控ctDNA,预先并不能知晓在单个病人的肿瘤中可能存在哪些特定的突变。第三,良性组织中出现癌症相关突变,导致潜在的假阳性。尤其是克隆性造血,事实上,10%~15%的70岁以上的个体都具有克隆性造血。此外,在良性色素痣中观察到BRAF V600突变。一项研究中,在123个匹配的非癌症对照组的cfDNA中,11.4%的个体具有TP53突变。最后,由于许多癌症都具有TP53和KRAS等基因突变,因此在检测到ctDNA突变后,如何将早期癌症定位到特定的器官部位是一个重大挑战。
肿瘤标志物检测主要包括酶学检测:血浆肿瘤标志物检测是常用于肿瘤筛查和术后监测的常用临床检测手段;癌胚抗原(CEA)是一种“广谱”的肿瘤标志物,有研究表明,CEA诊断肺癌的灵敏度和特异性分别为69%和68%。临床上肺癌比较常用的标志物还有细胞角质蛋白19片段抗原(C YFRA21-1)及神经元特异性烯醇化酶(NSE)抗原,此两种抗原分别在诊断鳞癌和小细胞癌中更有优势。但是由于肿瘤的异质性,尚未发现特异性和灵敏度足够高的用于诊断早期肺癌的肿瘤标志物。如碱性磷酸酶,在肝癌和骨肉瘤患者可明显升高;糖蛋白,如肺癌血清ɑ酸性糖蛋白可有升高,消化系统肿瘤CA19-9等增高;肿瘤相关抗原,如癌胚抗原(CEA)在胃肠道肿瘤、肺癌、乳腺癌中可出现增高,甲胎蛋白(AFP)在肝癌和恶性畸胎瘤中可增高。目前,肿瘤标记物缺乏特异性,仅在辅助诊断和判断预后等方面仍有一定价值。
鉴于此,特提出本发明。
发明内容
本发明的目的在于提供一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒。
本发明是这样实现的:
第一方面,实施例提供了一种肺癌筛查模型的构建方法,其包括将待测样本基因组中目标区域的甲基化水平作为输入数据,通过机器学习的方法构建肺癌筛查模型;
所述目标区域选自表1中第1~136项中的至少一项;
表1目标区域
Figure BDA0002664873570000031
Figure BDA0002664873570000041
Figure BDA0002664873570000051
Figure BDA0002664873570000061
所述待测样本包括肺癌患者和健康人群。
第二方面,实施例提供了一种肺癌筛查的试剂盒,其包括用于待测样本基因组中目标区域甲基化水平的试剂,所述目标区域选自表1中第1~136项中的至少一项。
第三方面,实施例提供了检测待测样本基因组中目标区域的甲基化水平的试剂在制备肺癌筛查的试剂盒中的应用,所述目标区域选自表1中第1~136项中的至少一项。
第四方面,实施例提供了一种用于肺癌筛查的装置,其包括数据分析模块;
数据分析模块,用于将待测样本基因组中待测区域甲基化水平的测试数据输入如前述实施例所述的肺癌筛查模型的构建方法构建的肺癌筛查的模型中,以得出筛查结果;
所述待测区域与所述构建方法中的所述目标区域相同。
第五方面,实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如前述实施例所述的肺癌筛查模型的构建方法。
第六方面,实施例提供了一种电子设备,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述实施例所述的肺癌筛查模型的构建方法。
本发明具有以下有益效果:
本发明提供了一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒,该构建方法通过将肺癌患者和健康人群基因组中目标区域的甲基化水平的测试数据作为输入数据,能构建准确率较高的肺癌筛查模型,该模型相对于传统的临床检测手段以及传统肿瘤标志物而言,具有更好的检测灵敏度和特异性,为肺癌的早期筛查或治疗提供了一种新的途径。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例1中的构建肺癌筛查模型的示意图;
图2为本发明验证例中的肺癌筛查模型的检测结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
名词定义
本文中的“甲基化”,是指DNA甲基化转移酶(DNMT)催化下,以S-腺苷甲硫氨酸为甲基供体,将活性甲基转移至DNA链中特定碱基上的化学修饰过程。哺乳动物基因组中,DNA甲基化多发生在CpG二核苷酸中的胞嘧啶的5位碳原子。DNA甲基化是一种表观(epigenetic)修饰,它在不改变DNA序列的情况下,对个体的生长、发育、基因表达模式以及基因组的稳定性起到重要的调控作用,并且这种修饰在发育和细胞增殖的过程中是可以稳定传递的。
本文中的“甲基化水平”,同甲基化程度,甲基化信号强度(FPKM值)。
本文中的“Fragments”是测序时,被打成的片段,测序测的就是Frag ments,测出来的结果就是reads,又可以分为单端测和双端测,单端测序的话,至少从Framents的一端测序,测多长reads就多长,双端测序就是从一个Fragments的两端测,得到两个reads。
本文中的“ROC”或“ROC曲线”可以指受试者工作特征曲线(receive r operatingcharacteristic curve),可以用来表征分类器的表现。可以通过在各个阈值设置下用灵敏度对特异性作图来生成ROC曲线。
本文中的“AUC”可以指ROC曲线下的面积,可以用来表征癌症筛查/预测的表现。AUC的范围为0.5-1.0,数值越接近1.0表明该方法的筛查/预测表现越好。
实施方式
首先,本发明实施例还提供了一种肺癌筛查模型的构建方法,其包括:将待测样本基因组中目标区域的甲基化水平作为输入数据,通过机器学习的方法构建肺癌筛查模型;
所述目标区域选自表1中第1~136项中的至少一项;所述待测样本包括肺癌患者和健康人群。
发明人经大量的研究和实验发现了136个肺癌患者和健康人群基因组中甲基化水平存在显著差异的区域,且这些特定的区域的甲基化数据能够用于构建准确率较高的肺癌筛查模型,构建的模型能快速地区分受试者是来自于肺癌患者或是健康人群。
需要说明的是,作为输入数据的甲基化标志物的甲基化水平已标注分类结果。
优选地,所述目标区域选自第1~136项中的至少50项。
优选地,所述目标区域选自第1~136项中的至少100项。
优选地,所述目标区域包括第1~136项。该136个目标区域并不仅是肿瘤细胞和正常细胞甲基化水平存在显著差异的CpG区域,其作为组合在用于构建肺癌筛查模型时,能够最大限度的提高分类模型对肿瘤的检测准确性,当目标区域包括第1~136项时,构建的模型的检测灵敏度更高,特异性更好。
优选地,所述待测样本的数量不少于600例,其中,肺癌患者的样本不少于300,健康人群的样本不少于300例。
在可选的实施方式中,所述待测样本基因组中目标区域的甲基化水平通过测序测定,使用测序深度对甲基化水平进量化。
在可选的实施方式中,目标区域的甲基化水平的计算公式如下:目标区域的甲基化水平=109ⅹ(比对到目标区域的Fragments数/(比对到基因组的所有Fragments数ⅹ目标区域的长度))。
在可选的实施方式中,所述机器学习的方法选自:支持向量机、随机森林、规则学习、神经网络和逻辑回归中的至少一种。
优选地,所述机器学习的方法为随机森林。
首先,本发明实施例还提供了一种肺癌筛查的试剂盒,其包括用于待测样本基因组中目标区域甲基化水平的试剂,所述目标区域选自表1中第1~136项中的至少一项。
优选地,所述目标区域选自第1~136项中的至少50项。
优选地,所述目标区域选自第1~136项中的至少100项。
优选地,所述目标区域包括第1~136项。
对于检测受试者目标区域的甲基化水平的方式不作限定,只要是能检测上述目标区域的试剂均属于本申请的保护范围内。在可选的实施方式中,所述试剂选自以下至少一种方法中所用的试剂:DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化特异性PCR(Me thylation-specific PCR,MSP)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法(High resolution Melting,HR M)、基于芯片的甲基化图谱分析和质谱(例如飞行质谱)。
在可选的实施方式中,所述试剂选自以下试剂中的一种或多种的组合:引物、探针、PCR缓冲液、聚合酶、dNTPs、重亚硫酸盐及其衍生物、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标和对照物。其中,所述引物和探针用于检测所述目标区域的甲基化水平。
本发明实施例提供了检测待测样本基因组中目标区域的甲基化水平的试剂在制备肺癌筛查的试剂盒中的应用,所述目标区域选自上表中第1~136项中的至少一项。
优选地,所述目标区域选自第1~136项中的至少50项;
优选地,所述目标区域选自第1~136项中的至少100项;
优选地,所述目标区域包括第1~136项。
在可选的实施方式中,所述试剂同上述任意实施方式所述的试剂盒中的试剂,不再赘述。
本发明实施例还提供了一种用于肺癌筛查的装置,其包括数据分析模块;
数据分析模块,用于将待测样本基因组中待测区域的甲基化水平的测试数据输入如前述任一实施方式所述的肺癌筛查模型的构建方法构建的肺癌筛查的模型中,以得出筛查结果;所述待测区域与所述构建方法中的所述目标区域相同。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如前述任一实施方式所述的肺癌筛查模型的构建方法。
此外,本发明实施例还提供了一种电子设备,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述任一实施方式所述的肺癌筛查模型的构建方法。
该电子设备可以包括存储器、处理器、总线和通信接口,该存储器、处理器和通信接口相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条总线或信号线实现电性连接。处理器可以处理与目标识别有关的信息和/或数据,以执行本申请中描述的一个或多个功能。
存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Eras able Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
需要说明的是,本实施例中的存储器与前述实施例中的计算机可读存储介质相互等同。
处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,F PGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
该电子设备中的各组件可以采用硬件、软件或其组合实现。在实际应用中,该电子设备可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、手持计算机、上网本、个人数字助理(personaldigital assistant,PDA)、可穿戴电子设备、虚拟现实设备等设备,因此本申请实施例对电子设备的种类不做限制。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
实施例1
首先,确定入组的肿瘤患者和健康人群,提取肿瘤患者及健康人群的血浆游离的DNA(cfDNA),并进行甲基化DNA免疫共沉淀测序(cfMe DIP-seq),构建MeDIP文库并将构建的文库上机测序。之后将测序数据进行质控、比对到参考基因组、获取基因组上指定区域(基因的启动子区域)的FPKM值(甲基化信号强度);使用处理过后的测序数据,对全基因组CpG区域甲基化信号差异的量化;使用机器学习方法筛选肿瘤患者与健康人群存在甲基化信号差异的CpG区域(DMR);利用随机森林(Random Forest)构建机器学习分类模型;通过绘制ROC曲线并且利用Youden inde x选取最优阈值,对模型性能评估,进而反映构建的肺癌筛查模型对肿瘤检测的灵敏度及特异性(数据处理步骤见图1)。
(1)MeDIP文库建库及文库上机测序的具体步骤包括:
1.MeDIP文库的cfDNA使用量为3-5ng,掺入11pg内参DNA混合液(自制,166bp)后使用Enzymatics公司的末端修复加A尾试剂盒(5X ER/A-Tailing Enzyme Mix),以及测序接头连接试剂盒(WGS Ligase)构建预文库,使文库具有可在Illumina NovaSeq 6000测序仪上测序的结构。
2.连接后使用AMPure XP beads(Beckman)进行纯化,使用EB缓冲液(Qiagen)洗脱收集文库。
3.预文库DNA按照1:80的比例分为Input样本与IP样本,将IP样本与5mC抗体(Diagnode MagMeDIP qPCR Kit)、可与5mC抗体结合的富集磁珠(Diagnode MagMeDIP qPCRKit)、Filler DNA(自制一定比例的甲基化与非甲基化的166bpλDNA,用于减少微量DNA的建库损失)于4℃孵育过夜。经过洗涤液清洗磁珠后,IP样本DNA中含有5mC的片段就通过抗体磁珠富集下来。
4.对富集后的IP样本及未富集的Input样本进行扩增,即获得通过抗原抗体免疫沉淀法特异富集5mC片段的终文库及对照文库。IP文库及Inp ut文库使用qPCR(KAPA SYBRFast Kit,Roche)进行定量,计算阴性回收率及特异性。
5.合格的IP文库(阴性内参回收率<1%,反应特异性>99%)使用qP CR(KAPALibrary Quant Kit,Roche)确定浓度值,使用Fragment Analyz er(Agilent,USA)确定文库大小。之后在Illumina NovaSeq 6000测序平台进行双端150bp的测序。
(2)测序数据进行质控的具体步骤如下:
1.使用fastp软件对测序下机数据进行数据过滤,包括过滤测序接头序列,去除测序读长小于50bp的DNA片段,去除平均测序质量较低的DNA片段;
2.使用Bowtie2将过滤后的数据与人类参考基因组hg19进行比对,得到每个DNA片段基因组上对应的具体位置信息;
3.使用picard软件去除PCR扩增过程中引入的数据冗余,使用samto ols去除比对质量较低、未比对上、双端reads未能完美配对的DNA片段;
4.将过滤过后的DNA片段按比对位置进行排序,便于后续分析处理。
5.统计lambda内参甲基化序列与非甲基化序列占比,对测序文库进行甲基化转化率质控。
(3)全基因组CpG区域甲基化信号差异的量化的具体步骤如下:
1.全基因组基因转录起始位置(TSS)及启动子区域获取:使用UCS C数据库中发布的参考基因的canoncial转录本的转录起始位点,前后各扩展550bp作为基因的启动子区域;
2.启动子区域fragment数获取:将BAM文件的reads还原成原始的D NA模板(fragment),并统计指定区域内的fragment数目,为了消除性别差异引入的偏差,不记录线粒体、X染色体和Y染色体上的甲基化信号;
4.不同的样本,由于文库大小不一致,因此需要在样本内进行均一化操作,引入“每一百万reads”均一化方法的原因是,不同的样本可能测序的深度不一样,深度越深,同一区域内的fragment数越多。如果某个区域的实际观测测序片段数目除以各自库的数量(以一百万reads为单位),那么就能很好地衡量两个不同样本中同一个区域的相对甲基化信号强度差异,具体计算公式为:
指定启动子区域的甲基化信号强度=109ⅹ(比对到该区域的Fragment s数/(比对到基因组的所有fragments数ⅹ该区域的长度))。
(4)筛选肿瘤患者与健康人群存在甲基化信号差异的CpG区域(D MR)的具体步骤如下:
1.将肿瘤患者和健康人群分组:将肿瘤患者和健康人群的测序数据分成独立的训练集,验证集及测试集。训练集作用为特征区域筛选,验证集作用为模型最优阈值确定;测试集用于模型性能评估;
2.数据标准化:在训练集中,按启动子区域进行数据标准化处理,具体做法为,计算每个启动子区域甲基化信号强度(FPKM)在训练集所有样本中的均值及标准差,根据Z值计算公式进行数据标准化处理,并记录得到的每个启动子区域的均值及标准差,应用于验证集及测试集的数据标准化处理;
3.常规统计学方法筛选:通过以上描述的各个启动子区域的甲基化信号强度,使用秩和检验在训练集中筛选中存在显著差异的区域,P值小于0.05为差异显著;
4.使用机器学习方法LASSO(least absolute shrinkage and selectionoperator)回归算法对上述得到存在显著差异的区域进一步降维处理,筛选权重绝对值大于等于0.001的区域作为模型构建的区域组合。
经随机选取训练集样本,重复以上所述步骤100次,得到稳定的区域1~区域136,见表1。
(5)构建机器学习分类模型具体操作步骤包括:
1.特征数据提取:提取600例样本(300例来自肺癌患者,300例来自健康人群)测序数据中区域1~区域136的甲基化信号强度(FPKM)作为输入数据;
2.模型最优参数确定:使用随机森林(Random Forest)进行模型构建及迭代训练,训练集样本通过10倍交叉验证的方法,给定参数空间,搜索最优参数组合,通过迭代训练,确定并记录模型性能达到最优的参数,在验证集样本找到灵敏度和特异性为最优的阈值;
随机森林的模型公式为:
Figure BDA0002664873570000151
其中,B表示随机森林中树的数量;b表示树的索引;fb表示索引为b的决策树;x’表示待测样本的输入值;f表示随机森林模型对待测样本的最终预测值;
模型最优参数如下:clf_oob_score:False;clf_bootstrap:True;clf_criterion:gini;clf_max_features:log2;clf_n_estimators:1000;clf_criterion:gini。
3.模型性能验证:使用确定好的模型的最优参数和最优阈值在独立的测试集中进行验证,绘制ROC曲线,计算AUC值,最终测试集的表现即代表模型的整体性能。
实施例2
本实施例提供一种肺癌筛查模型的构建方法,构建机器学习分类模型具体操作步骤同实施例1的步骤(5),区别在于目标区域的不同:所述目标区域包括表1中的50项,具体请参照表2。
表2目标区域
Figure BDA0002664873570000161
Figure BDA0002664873570000171
实施例3
本实施例提供一种肺癌筛查模型的构建方法,构建机器学习分类模型具体操作步骤同实施例1的步骤(5),区别在于目标区域的不同:所述目标区域包括表1中的100项,具体请参照表3。
表3目标区域
Figure BDA0002664873570000172
Figure BDA0002664873570000181
Figure BDA0002664873570000191
Figure BDA0002664873570000201
验证例1
对实施例1中构建的肺癌筛查模型的预测效果进行验证。
采用实施例1构建的肺癌筛查模型对225名受试者进行检测,其中,116名肺癌患者(其中,肺癌I期95人,II期7人,III期10人,IV期4人),109名健康患者。检测结果如图2和表4所示。
表4检测结果
Figure BDA0002664873570000202
由结果可知,由实施例1构建的肺癌筛查模型对肺癌患者的检测灵敏度为73.28%,特异性为90.82%,AUC为0.9187,相对于现有技术以及临床传统标志物而言,检测准确性有显著提升,且检测结果系自动化判定,排除了人为经验导致的误差。
验证例2
对实施例2中构建的肺癌筛查模型的预测效果进行验证。
采用实施例2构建的肺癌筛查模型对225名受试者进行检测,其中,116名肺癌患者(其中,肺癌I期95人,II期7人,III期10人,IV期4人),109名健康患者。检测结果如表4所示。
表5检测结果
Figure BDA0002664873570000211
由结果可知,由实施例2构建的肺癌筛查模型对肺癌患者的检测灵敏度为67.24%,特异性为80.73%。
验证例3
对实施例3中构建的肺癌筛查模型的预测效果进行验证。
采用实施例3构建的肺癌筛查模型对225名受试者进行检测,其中,116名肺癌患者(其中,肺癌I期95人,II期7人,III期10人,IV期4人),109名健康患者。检测结果如表6所示。
表6检测结果
Figure BDA0002664873570000212
Figure BDA0002664873570000221
由结果可知,由实施例3构建的肺癌筛查模型对肺癌患者的检测灵敏度为69.93%,特异性为82.57%。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种肺癌筛查模型的构建方法,其特征在于,其包括:将待测样本基因组中目标区域的甲基化水平作为输入数据,通过机器学习的方法构建肺癌筛查模型;
所述目标区域选自下表中第1~136项中的至少一项;
Figure FDA0002664873560000011
Figure FDA0002664873560000021
Figure FDA0002664873560000031
Figure FDA0002664873560000041
所述待测样本包括肺癌患者和健康人群。
2.根据权利要求1所述的肺癌筛查模型的构建方法,其特征在于,所述目标区域选自第1~136项中的至少50项;
优选地,所述目标区域选自第1~136项中的至少100项;
优选地,所述目标区域包括第1~136项;
优选地,所述待测样本的数量不少于600例,其中,肺癌患者的样本不少于300,健康人群的样本不少于300例。
3.根据权利要求2所述的肺癌筛查模型的构建方法,其特征在于,所述待测样本基因组中目标区域的甲基化水平通过测序测定,使用测序深度对甲基化水平进量化;
优选地,目标区域的甲基化水平的计算公式如下:目标区域的甲基化水平=109ⅹ(比对到目标区域的Fragments数/(比对到基因组的所有Fragments数ⅹ目标区域的长度))。
4.根据权利要求1~3任一项所述的肺癌筛查模型的构建方法,其特征在于,所述机器学习的方法选自:支持向量机、随机森林、规则学习、神经网络和逻辑回归中的至少一种。
5.一种肺癌筛查的试剂盒,其特征在于,其包括用于待测样本基因组中目标区域甲基化水平的试剂,所述目标区域选自如上表中第1~136项中的至少一项。
6.根据权利要求5所述的肺癌筛查的试剂盒,其特征在于,所述目标区域选自第1~136项中的至少50项;
优选地,所述目标区域选自第1~136项中的至少100项;
优选地,所述目标区域包括第1~136项。
7.检测待测样本基因组中目标区域的甲基化水平的试剂在制备肺癌筛查的试剂盒中的应用,其特征在于,所述目标区域选自上表中第1~136项中的至少一项;
优选地,所述目标区域选自第1~136项中的至少50项;
优选地,所述目标区域选自第1~136项中的至少100项;
优选地,所述目标区域包括第1~136项。
8.一种用于肺癌筛查的装置,其特征在于,其包括数据分析模块;
数据分析模块,用于将待测样本基因组中待测区域的甲基化水平的测试数据输入如权利要求1~3任一项所述的肺癌筛查模型的构建方法构建的肺癌筛查的模型中,以得出筛查结果;
所述待测区域与所述构建方法中的所述目标区域相同。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~3任一项所述的肺癌筛查模型的构建方法。
10.一种电子设备,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1~3任一项所述的肺癌筛查模型的构建方法。
CN202010915503.7A 2020-09-03 2020-09-03 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒 Pending CN114141303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010915503.7A CN114141303A (zh) 2020-09-03 2020-09-03 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010915503.7A CN114141303A (zh) 2020-09-03 2020-09-03 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒

Publications (1)

Publication Number Publication Date
CN114141303A true CN114141303A (zh) 2022-03-04

Family

ID=80438099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010915503.7A Pending CN114141303A (zh) 2020-09-03 2020-09-03 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒

Country Status (1)

Country Link
CN (1) CN114141303A (zh)

Similar Documents

Publication Publication Date Title
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
He et al. Assessing the impact of data preprocessing on analyzing next generation sequencing data
EP3658684B1 (en) Enhancement of cancer screening using cell-free viral nucleic acids
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
CN113838533B (zh) 一种癌症检测模型及其构建方法和试剂盒
US20200392584A1 (en) Methods and systems for detecting residual disease
CN112951418A (zh) 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质
CN112176057B (zh) 利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其应用
CN112941180A (zh) 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用
KR20190085667A (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
CN109082470A (zh) 微卫星不稳定性状态的二代测序引物探针组及其检测方法
CN115820860A (zh) 基于增强子甲基化差异的非小细胞肺癌标志物筛选方法及其标志物和应用
CN116804218A (zh) 用于检测肺结节良恶性的甲基化标志物及其应用
WO2023142625A1 (zh) 一种甲基化测序数据过滤方法及应用
CN115976209A (zh) 一种肺癌预测模型的训练方法以及预测装置和应用
CN114214409B (zh) 用于食管癌分型的生物标志物及其应用
CN114141303A (zh) 一种肺癌筛查模型的构建方法以及肺癌筛查的试剂盒
CN117441027A (zh) Heatrich-BS:用于亚硫酸氢盐测序的富含CpG的区域的热富集
CN114507738A (zh) 甲基化位点、检测甲基化水平的产品的用途及试剂盒
CN114438080A (zh) 一种基因诊断探针及其应用
Hu et al. Processing UMI Datasets at High Accuracy and Efficiency with the Sentieon ctDNA Analysis Pipeline
CN115376616B (zh) 一种基于cfDNA多组学的多分类方法及装置
CN116162705B (zh) 一种胃癌诊断产品和诊断模型
Chen Cancer detection from plasma cell-free DNA
Niu et al. Optimizing Accuracy and Efficiency in Analyzing Non-UMI Liquid Biopsy Datasets Using the Sentieon ctDNA Pipeline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination