CN117423388B - 一种基于甲基化水平的多癌种检测系统及电子设备 - Google Patents

一种基于甲基化水平的多癌种检测系统及电子设备 Download PDF

Info

Publication number
CN117423388B
CN117423388B CN202311744645.1A CN202311744645A CN117423388B CN 117423388 B CN117423388 B CN 117423388B CN 202311744645 A CN202311744645 A CN 202311744645A CN 117423388 B CN117423388 B CN 117423388B
Authority
CN
China
Prior art keywords
cancer
sample
module
methylation level
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311744645.1A
Other languages
English (en)
Other versions
CN117423388A (zh
Inventor
蔡丽丽
刘�文
冷雪
张怡然
郝艳同
陈慧娟
周启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiuzhen Medical Equipment Co ltd
Original Assignee
Beijing Qiuzhen Medical Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiuzhen Medical Equipment Co ltd filed Critical Beijing Qiuzhen Medical Equipment Co ltd
Priority to CN202311744645.1A priority Critical patent/CN117423388B/zh
Publication of CN117423388A publication Critical patent/CN117423388A/zh
Application granted granted Critical
Publication of CN117423388B publication Critical patent/CN117423388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/15Devices for taking samples of blood
    • A61B5/153Devices specially adapted for taking samples of venous or arterial blood, e.g. with syringes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/15Devices for taking samples of blood
    • A61B5/157Devices characterised by integrated means for measuring characteristics of blood
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Veterinary Medicine (AREA)
  • Bioethics (AREA)
  • Zoology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Wood Science & Technology (AREA)
  • Hematology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Immunology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Hospice & Palliative Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oncology (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Artificial Intelligence (AREA)

Abstract

本发明提供了一种基于甲基化水平的多癌种检测系统及电子设备,属于医疗检测领域,系统包括:样本采集模块,用于采集待测目标的外周静脉血,得到待测样本;甲基化水平提取模块,与样本采集模块连接,用于提取待测样本的循环游离DNA甲基化水平;预测模块,与甲基化水平提取模块连接,用于根据待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定待测样本的类型;类型为肺癌、肝癌、肠癌或健康;多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。本发明实现了多个癌种(肺癌、肠癌、肝癌)的精准检测。

Description

一种基于甲基化水平的多癌种检测系统及电子设备
技术领域
本发明涉及医疗检测领域,特别是涉及一种基于甲基化水平的多癌种检测系统及电子设备。
背景技术
通常,恶性肿瘤从超早期阶段的分子癌变到中晚期阶段的组织癌变,历时超过10年。在这期间,恶性肿瘤从单个细胞生长到近百万的癌变组织,会经过三个阶段。如果能够在长达10年的最佳预防时期,和长达3年的最佳治疗时期介入,无疑会极大提高肿瘤全流程的诊疗效率。但是由于肿瘤含量非常少,很难通过传统的标记物和影像学检出方法检出,液体活检在基因层面对癌症进行筛查,因此可以检测到早期和超早期的变化。
液体活检技术通过血液、唾液、尿液等体液样本对肿瘤信号进行循环肿瘤细胞(circulating tumor cell,CTC)、循环游离DNA(circulating cell-free DNA,cfDNA)、外泌体和微小核糖核酸检测分析,其他前两种研究比较成熟,但是循环肿瘤细胞的量非常少,临床上通常检测循环游离DNA。循环游离DNA中包含点突变、结构变异、拷贝数变异等基因组变异和DNA甲基化,两者相比甲基化具有绝对优势:首先,基因组变异检测方法的极限在0.1%-0.5%质检,而早期患者的cfDNA浓度一般在0.008%左右,两者存在数量级上的差异,因此通过基因组变异检测的方法灵敏性有限;其次,DNA甲基化发生在肿瘤早期具有组织特异性;再者,体细胞变异通常局限于肿瘤组织亚群,而DNA甲基化在更大的基因组区域内是一致的,更广泛的存在于相同类型的肿瘤中,其结果更稳定。因此,DNA甲基化数据在多个癌种早期筛查方面具有极大的潜在价值,与传统方法相比具有无创、实时动态监测、克服肿瘤异质性、可重复采样、便于连续取样、一次性可检测多种癌型等优点,不同人群中筛查的准确率也有了明显的提升,可辅助临床肿瘤的早期筛查与诊断。
目前临床上传统的检测方法有影像学、血清学、组织活检等方法。影像学筛查方法主要基于CT、B超、钼靶、胃肠镜等影像学仪器进行检测,其检出时间的下限为已经产生一定大小的病变肿瘤组织,其检测的准确性和特异性均较好,可作为诊断的金标准,但是胃镜、肠镜给患者带来极大的痛苦,不适合大范围筛查。组织活检主要针对实体瘤,常规检查的样本来源于肿瘤组织,但是由于异质性,组织活检存在很多局限性。血清学主要是基于AFP、CEA等多种血清标志物,但血清标志物假阳性高,检测效率低。虽然基于液体活检的早筛技术已经取得了很大的进步,但是目前只有肠癌产品已上市,广泛应用于临床检测中,其余癌型产品还处于研发阶段,急需一种取样简单、无创、一次性可以覆盖多种癌型(肺癌、肠癌、肝癌)的早筛产品。
发明内容
本发明的目的是提供一种基于甲基化水平的多癌种检测系统及电子设备,可实现多个癌种的高精度检测。
为实现上述目的,本发明提供了一种基于甲基化水平的多癌种检测系统,包括以下模块。
样本采集模块,用于采集待测目标的外周静脉血,得到待测样本。
甲基化水平提取模块,与所述样本采集模块连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
预测模块,与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
为实现上述目的,本发明还提供了一种电子设备,包括存储器及处理器。
所述存储器用于存储多癌种检测模型;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
所述处理器与所述处理器连接,所述处理器中包括样本采集模块、甲基化水平提取模块及预测模块。
所述样本采集模块用于采集待测目标的外周静脉血,得到待测样本。
所述甲基化水平提取模块分别与所述样本采集模块及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
所述预测模块与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提取待测样本的循环游离DNA甲基化水平,根据待测样本的循环游离DNA甲基化水平,采用预先训练好的多癌种检测模型确定待测样本的类型(肺癌、肝癌、肠癌或健康),其中,多癌种检测模型基于XGBoost构建,能够同时检测多个癌种(肺癌、肠癌、肝癌),并提高了检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于甲基化水平的多癌种检测系统的示意图。
图2为多癌种检测模型构建的总体流程图。
图3为读段及CpG位点的示意图。
图4为差异甲基化基因筛选的示意图。
图5为多癌种检测模型构建过程的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于甲基化水平的多癌种检测系统及电子设备,对cfDNA进行全基因组甲基化测序,使用高通量测序数据分析各个癌种的甲基化水平,基于集成学习极端梯度提升树(XGBoost)算法进行模型训练、优化和测试,实现高精度多个癌种(肺癌、肠癌、肝癌)的早期筛查和高准确性组织溯源的检测。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的基于甲基化水平的多癌种检测系统包括:样本采集模块1、甲基化水平提取模块2及预测模块3。
其中,样本采集模块1用于采集待测目标的外周静脉血,得到待测样本。
甲基化水平提取模块2与所述样本采集模块1连接,甲基化水平提取模块2用于提取所述待测样本的循环游离DNA甲基化水平。所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
具体地,所述甲基化水平提取模块2包括:片段提取子模块、测序子模块、比对子模块、甲基化水平确定子模块。
片段提取子模块用于提取所述待测样本的循环游离DNA片段。
转化子模块与所述片段提取子模块连接,转化子模块用于对所述循环游离DNA片段进行重亚硫酸盐转化理,并扩增得到DNA文库。
测序子模块与所述转化子模块连接,测序子模块用于对所述DNA文库进行测序,得到所述待测样本的fastq文件。所述fastq文件中包括每个基因的多个读段,每个读段上有多个CpG位点,多个CpG位点分为甲基化CpG位点及未甲基化CpG位点。
比对子模块与所述测序子模块连接,比对子模块用于将所述待测样本的fastq文件中的读段比对到参考基因组上,确定每条片段的位置,得到所述待测样本的bam文件。
甲基化水平确定子模块与所述比对子模块连接,甲基化水平确定子模块用于针对任一基因,根据所述bam文件,确定所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,并根据所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,确定所述基因的甲基化水平。
其中,未甲基化CpG位点为未转化为胸腺嘧啶的胞嘧啶的CpG位点,甲基化CpG位点为转化为胸腺嘧啶的胞嘧啶的CpG位点。
预测模块3与所述甲基化水平提取模块2连接,预测模块3用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型。所述类型为肺癌、肝癌、肠癌或健康。
所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的。所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
进一步地,在多癌种检测模型构建方面,所述基于甲基化水平的多癌种检测系统还包括:内部数据集获取模块、公共数据集获取模块、差异分析模块及筛选模块。
其中,内部数据集获取模块用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集。
具体地,如图2所示,内部数据集获取的过程包括获取原始数据、数据质控及过滤、序列比对、甲基化水平计算及过滤、基因甲基化水平计算。
(1)获取原始数据。包括对样本进行DNA提取、样本检测、文库构建、文库质检、上机测序等操作,具体如下。
DNA提取:采集肺癌、肠癌、肝癌患者及健康人的外周静脉血,在采集后6h内,13000×g离心10min后取上层血清,上清液16000×g离心10min,舍去沉淀物。置于-80℃冰箱保存备用。采用TIANamp Micro DNA Kit试剂盒提取血浆cfDNA,严格按照说明书步骤进行。
样本检测:使用Qubit double-strand molecular probes kit估计DNA片段降解水平。通过3%琼脂糖凝胶电泳判断DNA降解情况,若DNA降解严重可能会影响后续的检测结果,通过电泳的条带推断cfDNA片段的长度,如果片段长度在170bp左右证明DNA质量比较好,保留此样本,进行后续操作,否则结束实验。
文库构建:进行DNA片段末端修复、DNA片段的3'端添加碱基A,并进行甲基化接头连接。然后使用EZ DNA Methylation-gold kitDNA甲基化试剂盒对cfDNA进行重亚硫酸盐处理,得到全基因组重亚硫酸盐测序文库。使用PCR扩增全基因组重亚硫酸盐测序文库中的DNA的量,得到DNA文库。
文库质检:得到DNA文库后,先使用Qubit进行定量分析,随后使用Agilent 2100对DNA文库的insert size进行检测,库检合格后,使用qPCR方法对DNA文库的有效浓度进行准确定量,以保证DNA文库的质量。
上机测序:使用Illumina Nextseq 550 System测序仪进行测序。获得各样本的fastq文件。
(2)数据质控及过滤:对原始下机数据fastq格式文件进行质控,包含去除建库时引进的接头序列以及质量低于15的碱基。这些因素会导致后续比对到参考基因组上的读段(reads)较少,或影响后续结果准确性。使用fastp软件对结果进行去除接头序列和低质量碱基等质控步骤,得到过滤后的fastq格式文件。
(3)序列比对:经过质控的读段需要根据与参考基因组的序列相似性比对到参考基因组上,确定每条片段的位置。使用Bismark软件进行序列比对,得到reads的比对后的bam文件。
(4)甲基化水平计算及过滤:经重亚硫酸盐转化,未甲基化的胞嘧啶(C)被转化成尿嘧啶(U),甲基化的胞嘧啶保持不变。再经过碱基互补,序列中未甲基化的胞嘧啶的碱基类型仍然是C,甲基化的胞嘧啶的碱基类型变为胸腺嘧啶(T)。每个CpG位点的甲基化水平可根据bam文件中未转化为胸腺嘧啶的胞嘧啶与转化为胸腺嘧啶的胞嘧啶的reads的比例计算得到,并过滤掉低深度位点。
即:;其中C-reads为未转化为胸腺嘧啶的胞嘧啶的reads数量,T-reads为转化为胸腺嘧啶的胞嘧啶的reads数量。
过滤掉低深度位点:使用脚本统计序列上每个位点所在滑窗内(120bp)的胞嘧啶(C)和鸟嘌呤(G)含量,当CpG位点的个数小于5时,过滤掉该低深度位点。
如图3所示,基因组上包含第一CpG位点C1和第二CpG位点C2,每条横线代表一条reads,白色圆代表未甲基化的CpG位点,黑色圆代表甲基化的CpG位点,CpG位点的甲基化水平根据reads上覆盖的甲基化CpG位点和未甲基化CpG位点的比例确定。图3中,第一CpG位点C1的甲基化水平为,第二CpG位点C2的甲基化水平为
(5)基因甲基化水平计算:每个基因包含多个CpG位点,将包含的所有CpG位点的甲基化水平均值作为此基因的甲基化水平。
公共数据集获取模块用于从基因表达综合(Gene Expression Omnibus database,GEO)数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集。其中,按照与内部数据相同的处理方式计算每个位点的甲基化水平、过滤低深度位点、计算基因的甲基化水平。
所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型。
差异分析模块与所述公共数据集获取模块连接,差异分析模块用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,得到差异基因列表。所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本。所述阴性样本为类型为健康的训练样本。
全基因甲基化数据中包含1万多个基因的甲基化水平,其中大部分基因的甲基化水平在不同癌型和健康样本中无显著差异,所以需要进行特征选择,挑选出在不同类型样本中显著差异的基因的数据用于模型构建,避免无关基因对多癌种筛查造成的负面影响或特征维度太高在模型构建时产生的维度灾难。
具体地,如图4所示,使用公共数据集中的阳性样本(肺癌、肠癌、肝癌)和阴性样本(健康)所共有的所有基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选。
(1)单一癌种与健康个体进行差异分析,癌种特有的基因。
(2)单一癌种和其他癌种数据进行差异分析,癌种特有的基因。
(3)单一癌种和其他单一癌种进行差异分析,癌种特有的基因。
合并三组差异基因去重后作为最终的差异基因列表,如表1。
表1 最终的差异基因列表
ABHD14B EMX1 LOC100335030 RNF113B
ACP1 ENHO LOC100505795 RNF223
AGPAT2 ETV6 LOC100507577 RPL36AL
AGXT FASN LOC283070 RSC1A1
AK055957 FBXW5 LOC619207 SAMD1
ALDH1L1-AS1 FGFR3 LOC645434 SEPT5-GP1BB
ALDH3A1 FLJ45513 LOC728819 SEPT9
ALX4 FOXK2 LPP-AS2 SFRP2
AOC2 GAMT LRRC33 SFRP5
APC GPR135 LRRC4 SIAH1
APEX1 GPR21 METTL23 SLC15A4
ARL11 GPS1 MGC16025 SLC25A47
B4GALT5 GUCA2B MLH1 SLC35B2
BDH1 HDHD3 MPST SLC6A1-AS1
BMP3 HGFAC MSL2 SLC9A3R2
BTBD6 HIC1 MTRNR2L3 SMPD2
C11orf86 HLTF MYEOV SPHK2
C2orf82 HNRNPC NAA60 STK25
CA9 HNRNPM NCK2 STUB1
CAPN12 HOXA1 NDRG4 STX11
CBX4 HSPB7 NDUFB7 SYNGR2
CD2BP2 IGF2-AS NELFCD TAAR3
CDC42 IGFALS NUDT14 TAAR5
CEACAM8 ILK PANK2 TBCC
CEL IRF2 PCGF3 TGOLN2
CLEC11A IRS2 PIP4K2A TSPYL1
COL18A1-AS2 ISG15 PLD6 TSSK3
COTL1 IST1 PPP1R16A USP22
CRYBB3 ITGA4 PROZ YWHAE
CSNK2A3 ITPRIPL2 PSAPL1 YWHAZ
CXCL5 JARID2 PTBP1 ZADH2
DAB2IP KBTBD6 PTP4A2 ZBTB12
DHRS3 KBTBD7 PXDC1 ZBTB16
DKK4 KLHL9 QPRT ZDHHC7
DOC2GP LBX2 RAB10 ZEB2
E4F1 LCAT RAB1A ZNF516
EDN2 LGMN RAB20 ZNF764
EEF2 LINC00319 RAC1 ZSWIM8-AS1
EGOT LINC00341 RD3L
EMP3 LINC00656 RER1
作为一种具体的实施方式,通过阳性样本(肺癌331例患者、肠癌444例患者、肝癌767例患者)和阴性样本(健康949例样本)进行差异分析,分三组进行筛选。
(1)单一癌种与健康个体进行差异分析,得到55个癌种特有的基因。
(2)单一癌种和其他癌种数据进行差异分析,得到43个癌种特有的基因。
(3)单一癌种和其他单一癌种进行差异分析,得到68个癌种特有的基因。
合并三组差异基因去重后共158个作为最终差异基因列表。
筛选模块与所述差异分析模块连接,筛选模块用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集。
具体地,根据差异基因列表从内部数据集和公共数据集中提取出公共数据子集和内部数据子集作为训练样本集。其中,公共数据子集按照7:3分为训练集和验证集,内部数据子集作为独立测试集,每个数据集中均包含阳性样本(肺癌、肠癌、肝癌)和阴性样本(健康)。
作为一种具体的实施方式,如图5所示,公共数据子集中包括2491例样本。训练集中包括1744例样本,肺癌232例,肠癌311例,肝癌537例,健康664例。验证集中包括747例样本,肺癌99例,肠癌133例,肝癌230例,健康285例。内部数据子集中包括491例样本,肺癌65例,肠癌78例,肝癌135例,健康213例。
训练模块与所述筛选模块连接,训练模块用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型。
为建立多癌种检测模型,本发明使用Python3的sklearn包,根据训练集和验证集进行模型构建和参数优化。具体地,所述XGBoost的参数包括通用参数、提升参数和学习任务参数。所述训练模块包括:学习任务参数设置子模块、提升参数设置子模块及通用参数调优子模块。学习任务参数设置子模块用于根据学习目标设置学习任务参数。提升参数设置子模块用于根据计算资源设置并行处理任务数量。通用参数调优子模块用于根据所述训练样本集,对通用参数进行调优,以得到多癌种检测模型。
本实施例中,通用参数包括:学习率、最大深度、树的棵树、结点分类阈值、样本采样比例、构造每棵树时列的子采样率及正则化参数。所述通用参数调优子模块采用网格搜索方式对通用参数进行调优。
极端梯度提升树(XGBoost)是一种集成学习的模型,其核心思想为:不断进行特征分类,生长一棵树,每次添加一颗新树,本质上是学习一个新的函数f(x)去拟合上次预测的残差。当训练完得到k颗树后,将待测样本的特征输入模型中,在每棵树上寻找对应的一个叶子结点,每个叶子结点对应一个分数;最后将每棵树对应的分数求和,得到该待测样本的预测值。目前XGBoost模型封装在python3的xgboost模块中。
模型构建的具体步骤为:首先,根据学习目标为多癌种早期筛查将模型的学习任务参数设为多分类参数(objective=’multi:softmax’,eval_metric=’error’,seed=27)。然后,根据计算资源将并行处理任务数设为3(nthread=3)。最后,输入训练集数据特征和对应的类别标签,进行模型构建,得到初始的多癌种检测模型。
XGBoost模型包含很多通用参数,合理的参数设置可以得到最优的预测效果,本发明采用网格搜索的方式进行模型参数优化,挑选验证集中敏感性+特异性值最高的参数作为多癌种检测的最优模型。模型参数优化的步骤如下。
(1)设置学习率etc。其取值范围为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],etc=0.5时,模型性能最优。
(2)进行最大深度max_depth和树的棵树n_estinators调优。max_depth的取值范围为[1,2,3,4,5,6,7,8,9,10],n_estinators的取值范围为[1,6,11,16,21,26,31,36,41,46,51]。当max_depth=3和n_estinators=11时,模型性能最优。
(3)结点分类阈值gamma调优,gamma的取值范围为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]。当gamma=0.1时,模型性能最优。
(4)对样本采样比例Subsample和构造每棵树时列的子采样率colsample_bytree进行调优,Subsample和colsample_bytree的取值范围均为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],当Subsample=0.8,colsample_bytree=0.7时,模型性能最优。
(5)对正则化参数reg_lambda和reg_alpha进行调优,取值范围均为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],当reg_lambda=1,reg_alpha=0.6时,模型性能最优。
本实施例中,最终的模型参数为:n_estinators=11,max_depth=3,gamma=0.1,Subsample=0.8,colsample_bytree=0.7,reg_lambda=1,reg_alpha=0.6,eta=0.5。
本发明使用测试集,通过灵敏性、特异性、组织溯源准确性作为性能评价核心参数,评估多癌种检测模型的性能。灵敏性指所有实际患癌人群中检测出阳性的比例,代表多癌种检测模型对患者的检出能力水平。特异性指在所有实际未患癌的人群中检出阴性的比例,代表多癌种检测模型对健康人群的排除水平。两个参数从技术层面上体现了多癌种检测模型对受检群体的分辨能力,计算方法如表2。
表2 性能指标
灵敏性=真阳性人群/实际患癌人群=TP/A。
特异性=真阴性人群/实际未患癌人群=TN/B。
组织溯源准确性=(真阳性人群+真阴性人群)/总人数=(TP+TN)/N。
本发明建立的多癌种检测模型在训练集、验证集上的敏感性可达到95%以上,特异性可达到96%以上,组织溯源准确性可达到93%以上,测试集的敏感性可达到94%,特异性可达到93%,组织溯源准确性可达到93%以上,未出现不同集合间差异太大的问题,具体结果如表3至表8所示。
表3 训练集预测结果
表4 验证集预测结果
表5 训练集组织溯源结果
表6 验证集组织溯源结果
表7 测试集预测结果
表8 测试集组织溯源结果
本发明使用公共数据集和自建队列进行差异甲基化基因筛选,基于差异甲基化基因的cfDNA甲基化水平通过集成学习进行多个癌种的检测,多癌种检测模型可通过一次检查,进行三种最常见癌种的早期筛查和组织溯源,无创且检测敏感性、特异性、组织溯源准确性高。
此外,本发明还提供了一种电子设备,包括存储器及处理器。
所述存储器用于存储多癌种检测模型。所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的。所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
所述处理器与所述处理器连接,所述处理器中包括样本采集模块1、甲基化水平提取模块2及预测模块3。
所述样本采集模块1用于采集待测目标的外周静脉血,得到待测样本。
所述甲基化水平提取模块2分别与所述样本采集模块1及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平。
所述预测模块3与所述甲基化水平提取模块2连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于甲基化水平的多癌种检测系统,其特征在于,所述基于甲基化水平的多癌种检测系统包括:
样本采集模块,用于采集待测目标的外周静脉血,得到待测样本;
甲基化水平提取模块,与所述样本采集模块连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平;
内部数据集获取模块,用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集;
公共数据集获取模块,用于从基因表达综合数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集;所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型;
差异分析模块,与所述公共数据集获取模块连接,用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选:单一癌种与健康个体进行差异分析,癌种特有的基因;单一癌种和其他癌种数据进行差异分析,癌种特有的基因;单一癌种和其他单一癌种进行差异分析,癌种特有的基因;合并三组差异基因去重后作为最终的差异基因列表;所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本;所述阴性样本为类型为健康的训练样本;
筛选模块,与所述差异分析模块连接,用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集;
训练模块,与所述筛选模块连接,用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型;
预测模块,与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
2.根据权利要求1所述的基于甲基化水平的多癌种检测系统,其特征在于,所述甲基化水平提取模块包括:
片段提取子模块,用于提取所述待测样本的循环游离DNA片段;
转化子模块,与所述片段提取子模块连接,用于对所述循环游离DNA片段进行重亚硫酸盐转化理,并扩增得到DNA文库;
测序子模块,与所述转化子模块连接,用于对所述DNA文库进行测序,得到所述待测样本的fastq文件;所述fastq文件中包括每个基因的多个读段,每个读段上有多个CpG位点,多个CpG位点分为甲基化CpG位点及未甲基化CpG位点;
比对子模块,与所述测序子模块连接,用于将所述待测样本的的fastq文件中的读段比对到参考基因组上,确定每条片段的位置,得到所述待测样本的bam文件;
甲基化水平确定子模块,与所述比对子模块连接,用于针对任一基因,根据所述bam文件,确定所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,并根据所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,确定所述基因的甲基化水平。
3.根据权利要求1所述的基于甲基化水平的多癌种检测系统,其特征在于,所述XGBoost的参数包括通用参数、提升参数和学习任务参数;
所述训练模块包括:
学习任务参数设置子模块,用于根据学习目标设置学习任务参数;
提升参数设置子模块,用于根据计算资源设置并行处理任务数量;
通用参数调优子模块,用于根据所述训练样本集,对通用参数进行调优,以得到多癌种检测模型。
4.根据权利要求3所述的基于甲基化水平的多癌种检测系统,其特征在于,所述通用参数包括:学习率、最大深度、树的棵树、结点分类阈值、样本采样比例、构造每棵树时列的子采样率及正则化参数。
5.根据权利要求3所述的基于甲基化水平的多癌种检测系统,其特征在于,所述通用参数调优子模块采用网格搜索方式对通用参数进行调优。
6.一种电子设备,其特征在于,所述电子设备包括存储器及处理器;
所述存储器用于存储多癌种检测模型;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型;
所述处理器与所述处理器连接,所述处理器中包括样本采集模块、甲基化水平提取模块及预测模块;
所述样本采集模块用于采集待测目标的外周静脉血,得到待测样本;
所述甲基化水平提取模块分别与所述样本采集模块及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平;
所述预测模块与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;
所述处理器中还包括:
内部数据集获取模块,用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集;
公共数据集获取模块,用于从基因表达综合数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集;所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型;
差异分析模块,与所述公共数据集获取模块连接,用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选:单一癌种与健康个体进行差异分析,癌种特有的基因;单一癌种和其他癌种数据进行差异分析,癌种特有的基因;单一癌种和其他单一癌种进行差异分析,癌种特有的基因;合并三组差异基因去重后作为最终的差异基因列表;所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本;所述阴性样本为类型为健康的训练样本;
筛选模块,与所述差异分析模块连接,用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集;
训练模块,与所述筛选模块连接,用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型。
CN202311744645.1A 2023-12-19 2023-12-19 一种基于甲基化水平的多癌种检测系统及电子设备 Active CN117423388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311744645.1A CN117423388B (zh) 2023-12-19 2023-12-19 一种基于甲基化水平的多癌种检测系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311744645.1A CN117423388B (zh) 2023-12-19 2023-12-19 一种基于甲基化水平的多癌种检测系统及电子设备

Publications (2)

Publication Number Publication Date
CN117423388A CN117423388A (zh) 2024-01-19
CN117423388B true CN117423388B (zh) 2024-03-22

Family

ID=89525180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311744645.1A Active CN117423388B (zh) 2023-12-19 2023-12-19 一种基于甲基化水平的多癌种检测系统及电子设备

Country Status (1)

Country Link
CN (1) CN117423388B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951418A (zh) * 2021-05-17 2021-06-11 臻和(北京)生物科技有限公司 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质
CN113424263A (zh) * 2018-12-21 2021-09-21 格里尔公司 异常片段检测与分类
CN114045345A (zh) * 2022-01-07 2022-02-15 臻和(北京)生物科技有限公司 基于游离dna的基因组癌变信息检测系统和检测方法
CN114736968A (zh) * 2022-06-13 2022-07-12 南京世和医疗器械有限公司 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置
CN115064211A (zh) * 2022-08-15 2022-09-16 臻和(北京)生物科技有限公司 一种基于全基因组甲基化测序的ctDNA预测方法及其应用
CN115132273A (zh) * 2022-08-01 2022-09-30 广州燃石医学检验所有限公司 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统
WO2022253288A1 (zh) * 2021-06-03 2022-12-08 广州燃石医学检验所有限公司 一种甲基化测序方法和装置
CN115976209A (zh) * 2022-12-05 2023-04-18 北京大学人民医院 一种肺癌预测模型的训练方法以及预测装置和应用
CN116356021A (zh) * 2023-02-28 2023-06-30 复旦大学附属中山医院 基于cfDNA靶向甲基化测序多维度特征的常见消化系统癌症早检技术
CN116665771A (zh) * 2023-06-01 2023-08-29 福建和瑞基因科技有限公司 同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021088653A1 (zh) * 2019-11-08 2021-05-14 中国科学院北京基因组研究所(国家生物信息中心) 一种尿沉渣基因组dna的分类方法、装置和用途

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113424263A (zh) * 2018-12-21 2021-09-21 格里尔公司 异常片段检测与分类
CN112951418A (zh) * 2021-05-17 2021-06-11 臻和(北京)生物科技有限公司 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质
WO2022253288A1 (zh) * 2021-06-03 2022-12-08 广州燃石医学检验所有限公司 一种甲基化测序方法和装置
CN114045345A (zh) * 2022-01-07 2022-02-15 臻和(北京)生物科技有限公司 基于游离dna的基因组癌变信息检测系统和检测方法
CN114736968A (zh) * 2022-06-13 2022-07-12 南京世和医疗器械有限公司 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置
CN115132273A (zh) * 2022-08-01 2022-09-30 广州燃石医学检验所有限公司 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统
CN115064211A (zh) * 2022-08-15 2022-09-16 臻和(北京)生物科技有限公司 一种基于全基因组甲基化测序的ctDNA预测方法及其应用
CN115976209A (zh) * 2022-12-05 2023-04-18 北京大学人民医院 一种肺癌预测模型的训练方法以及预测装置和应用
CN116356021A (zh) * 2023-02-28 2023-06-30 复旦大学附属中山医院 基于cfDNA靶向甲基化测序多维度特征的常见消化系统癌症早检技术
CN116665771A (zh) * 2023-06-01 2023-08-29 福建和瑞基因科技有限公司 同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EpiPanGI Dx: A Cell-free DNA Methylation Fingerprint for the Early Detection of Gastrointestinal Cancers;Raju Kandimalla;《Clin Cancer Res》;20211115;第27卷(第22期);第6136-6140页 *
Raju Kandimalla.EpiPanGI Dx: A Cell-free DNA Methylation Fingerprint for the Early Detection of Gastrointestinal Cancers.《Clin Cancer Res》.2021,第27卷(第22期),第6136-6140页. *
基于TCGA公共数据库及高通量测序的肾移植术后肾肿瘤筛查技术研究;罗武;《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》;20220515(第05期);E067-23 *

Also Published As

Publication number Publication date
CN117423388A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN106650312B (zh) 一种用于循环肿瘤dna拷贝数变异检测的装置
CN106156543B (zh) 一种肿瘤ctDNA信息统计方法
CN113257350B (zh) 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
CN109767810B (zh) 高通量测序数据分析方法及装置
CN108256292B (zh) 一种拷贝数变异检测装置
CN113539355B (zh) 预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用
KR102029393B1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
CN105653898A (zh) 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN116403644B (zh) 一种用于癌症风险预测的方法及装置
AU2020364225B2 (en) Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis
CN115087745A (zh) 无细胞样品中的双末端dna片段类型及其用途
CN112289376A (zh) 一种检测体细胞突变的方法及装置
CN113362893A (zh) 肿瘤筛查模型的构建方法及应用
CN111833963A (zh) 一种cfDNA分类方法、装置和用途
CN117275585A (zh) 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备
CN117423388B (zh) 一种基于甲基化水平的多癌种检测系统及电子设备
CN111968702A (zh) 一种基于循环肿瘤dna的恶性肿瘤早期筛查系统
CN113362897A (zh) 基于核小体分布特征的肿瘤标志物筛选方法及应用
CN115491423A (zh) 一种用于b细胞淋巴瘤mrd监测的基因组合、试剂盒与应用
WO2018209704A1 (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质
CN117316278A (zh) 一种基于cfDNA片段长度分布特征的癌症无创早筛方法及系统
US11535896B2 (en) Method for analysing cell-free nucleic acids
CN106709267A (zh) 数据获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant