CN115424666A - 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 - Google Patents

一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 Download PDF

Info

Publication number
CN115424666A
CN115424666A CN202211109652.XA CN202211109652A CN115424666A CN 115424666 A CN115424666 A CN 115424666A CN 202211109652 A CN202211109652 A CN 202211109652A CN 115424666 A CN115424666 A CN 115424666A
Authority
CN
China
Prior art keywords
tumor
methylation
sample
screening
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211109652.XA
Other languages
English (en)
Other versions
CN115424666B (zh
Inventor
许志晖
邓望龙
魏强
韩一辉
张超
王小强
任用
李诗濛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiansheng Medical Examination Laboratory Co ltd
Nanjing Xiansheng Medical Laboratory Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Original Assignee
Beijing Xiansheng Medical Examination Laboratory Co ltd
Nanjing Xiansheng Medical Laboratory Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiansheng Medical Examination Laboratory Co ltd, Nanjing Xiansheng Medical Laboratory Co ltd, Jiangsu Xiansheng Medical Diagnosis Co ltd filed Critical Beijing Xiansheng Medical Examination Laboratory Co ltd
Priority to CN202211109652.XA priority Critical patent/CN115424666B/zh
Publication of CN115424666A publication Critical patent/CN115424666A/zh
Application granted granted Critical
Publication of CN115424666B publication Critical patent/CN115424666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及生物信息学技术领域,具体提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统。本方法基于全基因组重亚硫酸盐测序数据,根据癌旁样本的甲基化水平以及肿瘤样本的肿瘤占比,对肿瘤样本的甲基化水平进行校正,筛选出具有真实差异的甲基化区间。通过自编码模型对初筛分子标志物进行贡献度排序,从分子水平上评估其在肿瘤样本与癌旁样本及白细胞中的差异精简初筛分子标志物,提升开发产品的准确率和经济性。

Description

一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标 志物的方法及系统
技术领域
本发明属于生信分析领域,具体提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统。
背景技术
2020年全球新发癌症病例1929万例,其中中国新发癌症457万人,占全球23.7%。2020年全球癌症死亡病例996万例,其中中国癌症死亡人数300万人,占癌症死亡总人数30%。癌症不久将成为全球死亡的主要原因,虽然开发更加有效的治疗方案是有必要的,但是这也只能延长患者几个月的生存期,因此肿瘤早筛成为了必然的选择。肿瘤早筛不仅可以降低癌症死亡率,而且可以提高治疗的成功率,降低医疗成本和治疗难度,提高患者生命质量。
传统的肿瘤早筛技术主要为医学影像学检查、肿瘤标志物检测以及组织活检,对医生的依赖度大。在早期病变不明显的情况下,传统的癌症早筛技术不适用于普查。相较于传统筛查技术,液体活检使用血、尿液、胸腔积液或粪便样本,具有安全性高、非入侵性、简单可重复以及进行全局筛查等特点,使得研究焦点从传统侵入式检查转向液体活检技术。目前,液体活检技术检测的生物标志物来源包括外泌体、循环肿瘤细胞、细胞外游离DNA(Cell-free DNA,cfDNA)、线粒体DNA(mitochondria DNA,mtDNA)和血液中的游离蛋白等(图1)。近来,较多文献报道使用cfDNA的DNA甲基化水平的变化作为特征进行肿瘤的预测和诊断,都取得较好的结果。
DNA甲基化是一种广泛分布的动态表观修饰,在早期肿瘤患者没有临床表现的情况下,DNA修饰就已发生改变,并随着疾病的进程不断进展,调控相关基因的表达。随着技术的发展,利用少量DNA样本在单碱基分辨率下分析甲基化水平的变异已成为可能,因而基于cfDNA甲基化的液体活检技术有希望成为一种高效的进行肿瘤筛查的方法。
目前,使用cfDNA的甲基化修饰特征来进行肿瘤早筛和早诊也存在一些需要攻克的难题。在肿瘤早期,细胞释放到血液中的cfDNA量较少,检测需要采集更多血液样本,患者的接受度较低。不同的采血方式、存储和人员操作等也会在一定程度上导致cfDNA中的甲基化信号丢失。上述问题可以通过规范化取样和实验操作,改进甲基化文库构建方法来解决。其次,血液提取cfDNA主要是肝脏组织或其他组织、白细胞等来源的,而源于肿瘤细胞释放的DNA(circle tumor DNA,ctDNA)的占比在早期可能不到1%,这导致肿瘤甲基化信号极弱,难以被检测到。此外,DNA甲基化位点修饰差异在不同肿瘤样本中不尽相同,且全基因甲基化测序成本很高,如何选择合适的基因组标志物区间来增强信号提升诊断效果同时兼顾经济性成为该方法能否商用的关键。针对上述问题,现有方法可以使用分子标志物的cfDNA片段甲基化单倍型的得分替代甲基化水平来扩大信号来进行肿瘤的预测(图2)。然而,通过全基因组重亚硫酸盐测序数据筛选的分子标志物会存在受到肿瘤占比的影响,导致部分真实存在差异CpG位点或区间无法筛出,以及筛选出的分子标志物甲基化水平差异极小,在保证分类效力时难以有效精简的问题。
综上所述,从全基因组的甲基化位点中筛选出合适大小的分子标志物,提高区间测序覆盖度和甲基化信号强度的同时兼顾经济性,成为肿瘤早筛早诊的关键。
有鉴于此,特提出本发明。
发明内容
为解决上述技术问题,本申请基于全基因组测序数据,根据癌旁样本的甲基化水平以及肿瘤样本的肿瘤占比,对肿瘤样本的甲基化水平进行校正,筛选出具有真实差异的甲基化区间。通过自编码模型对初筛分子标志物进行贡献度排序,从分子水平上评估其在肿瘤样本与癌旁样本及白细胞中的差异精简初筛分子标志物,提升开发产品的准确率和经济性。
具体的,本申请详细技术方案如图3或如下:
本申请首先提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法,包括如下步骤:
1)获取肿瘤样本、癌旁样本和白细胞样本的DNA甲基化测序数据;
2)基于拷贝数变异评估肿瘤样本的肿瘤占比TF;
3)校正肿瘤样本CpG位点的甲基化水平:
4)鉴定肿瘤与癌旁及白细胞样本间的差异位点;
5)CpG位点合并:如果显著差异的CpG位点在基因组上相邻则合并。
进一步的,所述方法还包括如下步骤:
6)机器学习模型对初筛分子标志物进行排序和过滤;优选的,连续3个差异CpG位点在100bp区间内则进行合并。
7)结合平均甲基化差异和自编码模型分配的重要性得分对分子标志物重新排序,选取优先级高的分子标志物形成最终panel。
进一步的,所述步骤1)中进一步包括,测序数据使用比对到人类hg19参考基因组上,去除PCR重复和比对质量低的reads。
进一步的,所述步骤2)进一步包括,剔除肿瘤占比较低的样本;优选的,所述肿瘤占比较低的样本为肿瘤占比低于15%的样本。
进一步的,所述步骤步骤3)具体为:
a)计算所有癌旁样本的CpG位点的甲基化水平的平均值(Mi,norm);
b)计算每个肿瘤样本的亚克隆占比s,所述s计算如下:
Figure BDA0003842144130000031
其中,CNA为基因组拷贝数变异数,c为肿瘤细胞倍性值,TF为步骤2)评估的肿瘤占比;
c)计算肿瘤样本CpG位点的真实甲基化水平Mi,pure,所述Mi,pure计算如下:
Figure BDA0003842144130000032
其中,Mi,obs是实验得到的肿瘤样本每个CpG位点的甲基化水平。
进一步的,所述步骤4)中覆盖度较低的CpG位点为覆盖度<50的CpG位点;所述显著差异的CpG位点为甲基化差异>0.6的位点。
进一步的,所述步骤5)具体为:
a)计算所有肿瘤样本的CpG位点甲基化水平的平均值,过滤覆盖度较低的CpG位点;
b)选取肿瘤和癌旁样本、白细胞样本的甲基化差异均有显著差异的CpG位点。
进一步的,所述步骤6)具体包括:
a)计算分子标志物在reads水平上的甲基化得分;
b)癌旁样本和肿瘤样本分为训练和测试样本,采用5折交叉验证训练自编码模型;优选的,模型的输入特征是各分子标志物在reads水平上甲基化得分,输入和输出保持一致,都是n维向量;
c)测试样本代入训练好的模型,对各特征分配重要性得分,对特征重新排序。
进一步的,所述机器学习模型的结构如下:输入层网络结构为线性层,输入维度为n;标准层共4层,前两层为编码器,后两层为解码器;输出维度为n;该模型通过修改模型的深度和参数使输入和输出保持一致;所述n为分子标志物的数量。
进一步的,所述分子标志物为基因组目标区域,具体的为甲基化差异区间输入自编码模型筛选得到的基因组目标区域。
本申请还提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的系统,包括各模块,所述各模块能够执行上述任一所述方法步骤。
本申请还提供一种电子设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行上述任一项所述的方法。
本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如上述任一项所述的方法。
本发明的有益技术效果:
1)本申请按照肿瘤占比对肿瘤样本的甲基化水平进行校正得到接近真实值,避免由于肿瘤占比不同导致肿瘤样本间的甲基化波动对分子标志物筛选的影响,增加具有真实差异分子标志物筛出的概率。
2)本申请使用深度学习模型对分子标志物的重要性进行排序筛选,并在reads水平上评估癌旁样本和肿瘤样本的差异,在精简分子标志物数量的同时提升产品的经济性和分类效力。
3)本申请通过对整体方法设计、参数选择以及自编码模型构建等,保证了方法获得的分子标志物对正常和肿瘤样本的分类效果极高,AUC高达0.99。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1液体活检样本的肿瘤标志物及来源图;
图2利用cfDNA片段的甲基化水平对肿瘤进行分类示意图;
图3泛癌早筛分子标志物筛选流程图;
图4肿瘤占比评估;
图5肿瘤样本甲基化水平校正;
图6初筛筛选分子标志物的降维区分结果图;
图7模型筛选分子标志物的降维区分结果图;
图8基于TCGA数据库的最终分子标志物的ROC曲线和AUC值。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
除非在下文中另有定义,本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本发明。
如本发明中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
实验例本申请方法及体系建立
1、将患者按照不同年龄段(30岁以上,每10岁一个年龄段)进行分层,收集肿瘤和癌旁样本,同时收集健康人白细胞样本;
2、提取样本的DNA,重亚硫酸盐试剂对DNA进行处理,使用SWIFT甲基化建库试剂盒构建单链特异性文库并于Novo-seq 6000上测序;
3、下机数据使用BWA-meth比对到人类hg19参考基因组上,并去除PCR重复和比对质量低的reads;
4、使用ichorCNA对肿瘤样本的肿瘤占比进行估计,剔除肿瘤占比低于15%的样本
5、校正肿瘤样本CpG位点的甲基化水平;
1)计算所有癌旁样本的CpG位点的甲基化水平的平均值(Mi,norm);
2)根据公式(1)计算每个肿瘤样本亚克隆的占比,其中s为亚克隆的占比,c为肿瘤细胞倍性,TF为ichorCNA评估的肿瘤占比;
Figure BDA0003842144130000061
3)根据公式(2)计算肿瘤样本CpG位点的真实甲基化水平(Mi,pure),其中Mi,obs是实验得到的肿瘤样本甲基化;
Figure BDA0003842144130000062
6、鉴定肿瘤与癌旁以及白细胞样本间的差异位点
1)计算所有肿瘤样本的CpG位点甲基化水平的平均值,过滤覆盖度小于50的CpG位点;
2)选取肿瘤和癌旁样本、白细胞的甲基化差异在0.6以上的位点。
7、如果显著差异的CpG位点在基因组上相邻则合并,比如,连续3个差异CpG位点在100bp区间内则进行合并;
8、机器学习模型对差异区间进行排序和过滤
初筛的分子标志物是基于CpG位点平均甲基化强度信号筛选出的,忽略了reads水平上甲基化的变动情况和这种变动在各分子标志物的相关性。因此,使用自编码模型reads水平的甲基化得分进行拟合。
具体步骤如下:
a)计算分子标志物在reads水平上的甲基化得分;
b)癌旁和肿瘤样本分为训练和测试样本,采用5折交叉验证训练自编码模型。因为癌旁和肿瘤中的reads无法确定其释放来源的细胞类型,从而导致reads的标签是模糊的,所以本专利中从无监督学习的方法中选取了自编码模型作为特征提取器。自编码模型的输入是各分子标志物在reads水平上甲基化得分组成的向量,输出是各分子标志物在reads水平上甲基化预测得分组成的向量。
本申请构建的自编码模型结构如下表所示:首先是输入层,网络结构为线性层,输入维度为n,n为筛选出的分子标志物的数量,输出维度为1024。其次为标准层,共有4层,前两层为编码器,后两层为解码器,输入维度依次为1024、256、2、256,输出维度依次为256、2、256、1024。最后是输出层,输入维度为1024,输出维度为n。
网络层名 网络层结构 输入维度 输出维度
输入层 线性层 n 1024
标准层1 线性层+BN层+激活函数(sigmoid)+dropout 1024 256
标准层2 线性层+BN层+激活函数(sigmoid)+dropout 256 2
标准层3 线性层+BN层+激活函数(sigmoid)+dropout 2 256
标准层4 线性层+BN层+激活函数(sigmoid)+dropout 256 1024
输出层 线性层+激活函数(linear) 1024 n
c)测试样本代入训练好的模型,使用DeepLIFT方法对各特征分配重要性得分,对特征重新排序。
9、结合平均甲基化差异和自编码模型分配的重要性得分对分子标志物重新排序,选取优先级高的分子标志物形成最终panel。
实施例基于临床样本分析验证
一、样本和数据处理
1、本实施例从临床中获取的肺的肿瘤和癌旁配对样本(57对),肝的肿瘤和癌旁配对样本(30对),乳腺的肿瘤和癌旁配对样本(34)对,食管的肿瘤和癌旁配对样本(39对)以及白细胞样本(32例)中提取DNA,使用ZYMO EZ DNA Methylation Gold Kit转化和SWIFT试剂盒构建单链特异性文库并于Novo-seq 6000上测序,得到全基因组重亚硫酸盐测序数据;
2、BWA-meth比对到人类基因组参考序列hg19上,MethylDackel提取CpG位点甲基化水平;
二、分子标志物筛选
1、根据肿瘤占比评估结果剔除不合格肿瘤样本,如图4所示;
2、根据公式(1),对肿瘤样本的CpG甲基化水平均一化校正,消除肿瘤样本中正常细胞甲基化水平的干扰。肿瘤样本CpG位点的甲基化水平受到正常细胞占比,肿瘤细胞亚克隆占比和细胞倍性的影响。假设肿瘤样本中正常细胞占比30%,肿瘤细胞占比70%,某个CpG位点的正常细胞和肿瘤细胞的甲基化水平分别为0和1。在没有肿瘤细胞亚克隆的情况下,甲基化水平在校正前为0.3,校正后为0,和真实水平一致。通过校正可增大肿瘤与癌旁样本及白细胞间的甲基化差异,筛选出真实的具有显著差异的CpG位点(参见图5);
3、设定肿瘤样本、癌旁样本和白细胞样本的CpG位点reads覆盖度的阈值均大于50X,筛选出三者间差异均在0.6以上的位点。
4、计算初筛分子标志物在reads水平上的甲基化水平得分,以其为特征输入到自编码模型中,使用DeepLIFT方法对各特征的贡献度进行排序。初筛和自编码模型筛选的标志物各挑选前100和200的分子标志物,tSNE对各个样本分子标志物的甲基化均值进行降维观察分类效果。
选取排序前100个分子标志物对肺腺癌、肺鳞癌以及癌旁样本进行分类,结果如图6和7所示,肺腺癌、肺鳞癌和癌旁样本分别聚集成三类,但是初筛标志物难以区分肺腺癌和肺鳞癌的样本(图6)。当选取前200个分子标志物进行tSNE降维后,初筛标志物仍难以区分肺腺癌和肺鳞癌样本(图6)。而本申请自编码模型重排筛选的标志物可以有效的区分两种肺癌亚型(图7),说明结合自编码模型和DeepLIFT方法得到的筛选分子标志物可具有更好的分类效果。
5、初筛分子标志物的最终优先级是甲基化水平差异和特征重要性得分排序的加权平均值,部分示例如下表1。
表1分子标志物排序
Figure BDA0003842144130000081
6、选取排序top1000的分子标志物,基于TCGA数据库进行验证。
将TCGA数据集中乳腺、肝、肺和食管的各自样本按1:1分为训练集和测试集,采用5折交叉验证的方式训练逻辑回归模型并测试分类能力。
测试结果如图8所示,以分子标志物总体甲基化水平的变动作为特征值输入到逻辑回归模型中即可对癌旁和肿瘤样本进行分类,得到AUC的平均值为0.99。由此可见,通过本申请方法获得的分子标志物对于正常和肿瘤样本的分类效果非常优秀。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (10)

1.一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法,其特征在于,包括如下步骤:
1)获取肿瘤样本、癌旁样本和白细胞样本的DNA甲基化测序数据;
2)基于拷贝数变异评估肿瘤样本的肿瘤占比TF;
3)校正肿瘤样本CpG位点的甲基化水平;
4)鉴定肿瘤与癌旁及白细胞样本间的差异位点;
5)CpG位点合并:如果显著差异的CpG位点在基因组上相邻则合并。
2.根据权利要求1所述的方法,其特征体在于,所述方法进一步包括:
6)机器学习模型对分子标志物进行排序和过滤;
7)结合平均甲基化差异和自编码模型分配的重要性得分对分子标志物重新排序,选取优先级高的分子标志物形成最终panel。
3.根据权利要求1-2任一所述的方法,其特征体在于,所述步骤1)中进一步包括,测序数据使用比对到人类hg19参考基因组上,去除PCR重复和比对质量低的reads。
4.根据权利要求1-3任一所述的方法,其特征体在于,所述步骤2)进一步包括,剔除肿瘤占比较低的样本;优选的,所述肿瘤占比较低的样本为肿瘤占比低于15%的样本。
5.根据权利要求1-4任一所述的方法,其特征在于,所述步骤3)具体为:
a)计算所有癌旁样本的CpG位点的甲基化水平的平均值(Mi,norm);
b)计算每个肿瘤样本的亚克隆占比s,所述s计算如下:
Figure FDA0003842144120000011
其中,CNA为基因组拷贝数变异数,c为肿瘤细胞倍性值,TF为步骤2)评估的肿瘤占比;
c)计算肿瘤样本CpG位点的真实甲基化水平Mi,pure,所述Mi,pure计算如下:
Figure FDA0003842144120000012
其中,Mi,obs是实验得到的肿瘤样本每个CpG位点的甲基化水平。
6.根据权利要求1-5任一所述的方法,其特征体在于,所述步骤4)具体为:
a)计算所有肿瘤样本的CpG位点甲基化水平的平均值,过滤覆盖度较低的CpG位点;
b)选取肿瘤样本、癌旁样本、白细胞样本的甲基化差异均有显著差异的CpG位点。
7.根据权利要求6所述的方法,其特征体在于,所述步骤4)中覆盖度较低的CpG位点为覆盖度<50的CpG位点;所述显著差异的CpG位点为甲基化差异>0.6的位点。
8.根据权利要求1-7任一所述的方法,其特征体在于,所述步骤6)具体包括:
a)计算分子标志物在reads水平上的甲基化得分;
b)癌旁样本和肿瘤样本分为训练和测试样本,采用5折交叉验证训练自编码模型;
c)测试样本代入训练好的模型,对各特征分配重要性得分,对特征重新排序。
优选的,所述所述机器学习模型的结构如下:输入层网络结构为线性层,输入维度为n;标准层共4层,前两层为编码器,后两层为解码器;输出维度为n;该模型通过修改模型的深度和参数使输入和输出保持一致;所述n为筛选出的差异甲基化区间的数量。
9.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-7任一项所述的方法。
CN202211109652.XA 2022-09-13 2022-09-13 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 Active CN115424666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211109652.XA CN115424666B (zh) 2022-09-13 2022-09-13 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211109652.XA CN115424666B (zh) 2022-09-13 2022-09-13 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统

Publications (2)

Publication Number Publication Date
CN115424666A true CN115424666A (zh) 2022-12-02
CN115424666B CN115424666B (zh) 2023-07-11

Family

ID=84202184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211109652.XA Active CN115424666B (zh) 2022-09-13 2022-09-13 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统

Country Status (1)

Country Link
CN (1) CN115424666B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116287266A (zh) * 2023-03-07 2023-06-23 江苏先声医学诊断有限公司 Dna复制晚期区域在泛癌种诊断中的应用
CN117316289A (zh) * 2023-09-06 2023-12-29 复旦大学附属华山医院 一种中枢神经系统肿瘤的甲基化测序分型方法及系统
CN117831619A (zh) * 2023-12-29 2024-04-05 北京吉因加医学检验实验室有限公司 肾脏细胞甲基化标志物组合及其应用

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120053071A1 (en) * 2008-12-18 2012-03-01 Koninklijke Philips Electronics N.V. Method for the detection of dna methylation patterns
US20140274748A1 (en) * 2013-03-14 2014-09-18 Mayo Foundation For Medical Education And Research Detecting neoplasm
US20170073774A1 (en) * 2015-02-10 2017-03-16 The Chinese University Of Hong Kong Detecting mutations for cancer screening and fetal analysis
CN108949970A (zh) * 2017-05-23 2018-12-07 中国科学院深圳先进技术研究院 基于多组学的宫颈癌特征获取方法和系统
CN109680060A (zh) * 2017-10-17 2019-04-26 华东师范大学 甲基化标志物及其在肿瘤诊断、分类中的应用
CN112397157A (zh) * 2020-10-28 2021-02-23 星药科技(北京)有限公司 基于子图-变分自编码结构的分子生成方法
CN113555121A (zh) * 2021-08-25 2021-10-26 南方医科大学南方医院 一种胃癌预后标志物的筛选和分类方法、胃癌预后标志物和检测胃癌预后的试剂及应用
CN114150061A (zh) * 2021-10-18 2022-03-08 中国人民解放军总医院第一医学中心 一种用于诊断癌症的分子标志物及试剂盒
CN114974430A (zh) * 2021-02-25 2022-08-30 博尔诚(北京)科技有限公司 用于癌症筛查的系统及其方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120053071A1 (en) * 2008-12-18 2012-03-01 Koninklijke Philips Electronics N.V. Method for the detection of dna methylation patterns
US20140274748A1 (en) * 2013-03-14 2014-09-18 Mayo Foundation For Medical Education And Research Detecting neoplasm
US20170073774A1 (en) * 2015-02-10 2017-03-16 The Chinese University Of Hong Kong Detecting mutations for cancer screening and fetal analysis
CN108949970A (zh) * 2017-05-23 2018-12-07 中国科学院深圳先进技术研究院 基于多组学的宫颈癌特征获取方法和系统
CN109680060A (zh) * 2017-10-17 2019-04-26 华东师范大学 甲基化标志物及其在肿瘤诊断、分类中的应用
CN112397157A (zh) * 2020-10-28 2021-02-23 星药科技(北京)有限公司 基于子图-变分自编码结构的分子生成方法
CN114974430A (zh) * 2021-02-25 2022-08-30 博尔诚(北京)科技有限公司 用于癌症筛查的系统及其方法
CN113555121A (zh) * 2021-08-25 2021-10-26 南方医科大学南方医院 一种胃癌预后标志物的筛选和分类方法、胃癌预后标志物和检测胃癌预后的试剂及应用
CN114150061A (zh) * 2021-10-18 2022-03-08 中国人民解放军总医院第一医学中心 一种用于诊断癌症的分子标志物及试剂盒

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
叶松山;刘先娟;侯俊然;毛秉豫;邱耕;: "基于p73和DAPK基因异常甲基化模式的白血病肿瘤标志物研究", 中华肿瘤防治杂志, no. 11 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116287266A (zh) * 2023-03-07 2023-06-23 江苏先声医学诊断有限公司 Dna复制晚期区域在泛癌种诊断中的应用
CN117316289A (zh) * 2023-09-06 2023-12-29 复旦大学附属华山医院 一种中枢神经系统肿瘤的甲基化测序分型方法及系统
CN117316289B (zh) * 2023-09-06 2024-04-26 复旦大学附属华山医院 一种中枢神经系统肿瘤的甲基化测序分型方法及系统
CN117831619A (zh) * 2023-12-29 2024-04-05 北京吉因加医学检验实验室有限公司 肾脏细胞甲基化标志物组合及其应用

Also Published As

Publication number Publication date
CN115424666B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
WO2020182710A1 (en) Multiple instance learner for prognostic tissue pattern identification
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
CN115424666A (zh) 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统
Rathore et al. A recent survey on colon cancer detection techniques
SG194590A1 (en) Analyzing the expression of biomarkers in cells with moments
CN111863250B (zh) 一种早期乳腺癌的联合诊断模型及系统
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
CN111833963B (zh) 一种cfDNA分类方法、装置和用途
CN109801680A (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
US20220254450A1 (en) method for classifying individuals in mixtures of DNA and its deep learning model
CN113838533A (zh) 一种癌症检测模型及其构建方法和试剂盒
Reddy et al. Intelligent deep learning algorithm for lung cancer detection and classification
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
CN115881296B (zh) 一种甲状腺乳头状癌(ptc)风险辅助分层系统
US20240194294A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
KR20230064172A (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
CN114822690A (zh) 应用于全基因组表达谱数据的多类别多功能智能分类方法
US11535896B2 (en) Method for analysing cell-free nucleic acids
Hrizi et al. Lung cancer detection and nodule type classification using image processing and machine learning
Ait Amou et al. A Novel MRI Diagnosis Method for Brain Tumor Classification Based on CNN and Bayesian Optimization. Healthcare 2022, 10, 494
Abel et al. Deep-learning quantified cell-type-specific nuclear morphology predicts genomic instability and prognosis in multiple cancer types
Sirinukunwattana et al. Self-Organizing Maps for Cellular In Silico Staining and Cell Substate Classification
Dodda et al. Pancreatic Cancer Detection Through Hyperparameter Tuning and Ensemble Methods.
CN117999586A (zh) 用于识别胰腺导管腺癌分子亚型的系统和方法
Ramkumar et al. Experimental Analysis on Breast Cancer Using Random Forest Classifier on Histopathological Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant