CN112820407B - 利用血浆游离核酸检测癌症的深度学习方法和系统 - Google Patents

利用血浆游离核酸检测癌症的深度学习方法和系统 Download PDF

Info

Publication number
CN112820407B
CN112820407B CN202110021990.7A CN202110021990A CN112820407B CN 112820407 B CN112820407 B CN 112820407B CN 202110021990 A CN202110021990 A CN 202110021990A CN 112820407 B CN112820407 B CN 112820407B
Authority
CN
China
Prior art keywords
cancer
methylation
nucleic acid
information
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110021990.7A
Other languages
English (en)
Other versions
CN112820407A (zh
Inventor
汪小我
李嘉琦
魏磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110021990.7A priority Critical patent/CN112820407B/zh
Publication of CN112820407A publication Critical patent/CN112820407A/zh
Application granted granted Critical
Publication of CN112820407B publication Critical patent/CN112820407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种利用血浆游离核酸检测癌症的深度学习方法和系统,其中,方法包括以下步骤:通过使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,从而达到富集分子分辨率级别的信息的效果;使用深度学习模型整合核酸分子的序列信息以及甲基化信息从而达成精确的核酸分子来源预测;通过计算最大后验概率的方式估计血浆中来自癌症的核酸序列片段占比,从而起到癌症的非侵入式辅助诊断的效果。将本发明的方法应用于癌症检测中,能够在非常低深度的测序数据上达到稳定的预测效果,从而在降低检测成本的同时保证足够的灵敏性与准确性。

Description

利用血浆游离核酸检测癌症的深度学习方法和系统
技术领域
本发明涉及生物信息与医疗技术领域,特别涉及一种利用血浆游离核酸检测癌症的深度学习方法和系统。
背景技术
在生物体内,伴随着细胞凋亡等过程,细胞内的DNA片段会被释放到血浆中成为游离DNA(cell-free DNA,简称cfDNA)。在癌症发生早期,当患者还未表现出明显的临床症状时,细胞内DNA的状态就已经发生了变化,这些DNA被释放到血浆中,使得血浆cfDNA蕴含了与癌症相关的信息。通过对这些信息进行提取和处理,即可对癌症进行非侵入式诊断,实现癌症的早诊早治。
目前癌症cfDNA相关研究的主流思路是利用cfDNA上与癌症相关的单基因或少数基因的突变推断癌症的发生。然而,cfDNA本质上是一个信噪比较低的混合信号,在癌症发生早期癌cfDNA比例极低,影响基因突变的检出率;此外,由于癌症突变的异质性很强,不同的个体发生突变的位点很可能不同,限制了该技术的进一步应用。此外,对cfDNA片段的整体性质进行统计和分析,例如拷贝数变异,片段化模式等也可以反映出癌症发生的相关信息,但是由于这些信号噪声较大,在癌症发生早期的诊断准确率较为有限。对比而言,DNA甲基化由于在癌症发生早期即会在全基因组水平上发生较为显著的变化,被认为是一种具有癌症早筛应用潜力的基因组特征。
通过使用全基因组甲基化测序(WGBS)技术,可以同时获得血浆中cfDNA的序列信息以及甲基化状态信息,使用深度学习模型,能够将这样高精度的信息进行整合,从而实现高精度的序列来源预测,并根据预测结果进行癌症信号的检测以及癌症的非侵入式筛查。
然而,现有的基于单条读段(read)的癌症检测方式并没有充分利用序列信息,这使得序列的来源预测准确程度不足,尤其在低测序深度下表现不够稳定,亟待解决。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种利用血浆游离核酸检测癌症的深度学习方法,通过使用深度学习对数据的整合能力与对大量数据的分析能力,实现对血浆中cfDNA序列来源的预测,实现高精度的非侵入式癌症早期检测。
本发明的另一个目的在于提出一种利用血浆游离核酸检测癌症的深度学习系统。
为达到上述目的,本发明一方面实施例提出了一种利用血浆游离核酸检测癌症的深度学习方法,包括以下步骤:使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从所述差异甲基化区间筛选得到富集分子分辨率级别的信息;使用深度学习模型整合所述信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;计算所述核酸分子来源的最大后验概率,根据所述最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据所述占比确定癌症的风险结果。
本发明实施例的利用血浆游离核酸检测癌症的深度学习方法,使用深度学习模型判断血浆中游离核酸分子组织来源以及根据预测结果进行癌症检测,从而能够在非常低深度的测序数据上达到稳定的预测效果,在降低检测成本的同时保证足够的灵敏性与准确性。
另外,根据本发明上述实施例的利用血浆游离核酸检测癌症的深度学习方法还可以具有以下附加的技术特征:
进一步地,所述根据所述占比确定癌症的风险结果,包括:将所述占比作为似然值,根据所述似然值计算得到置信参数;当所述置信参数最大时,将所述占比作为癌症的风险参数,以确定癌症的风险结果。
进一步地,所述置信参数为:
Figure BDA0002888996210000021
其中,n为DNA片段的数量,pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1-pi,r为所述占比;所述风险参数为:
Figure BDA0002888996210000022
进一步地,还包括:截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;将每一个碱基转换成one-hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个所述甲基化向量拼接得到输入矩阵,以根据所述输入矩阵训练得到所述深度学习模型。
进一步地,所述使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,包括:从待测区间中获取健康血浆样本和癌症实体瘤样本;分别从所述健康血浆样本和所述癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算所述健康血浆样本和所述癌症实体瘤样本的甲基化率;当所述健康血浆样本和所述癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定所述待测区间为所述差异甲基化区间。
为达到上述目的,本发明另一方面实施例提出了一种利用血浆游离核酸检测癌症的深度学习系统,包括:筛选模块,用于使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从所述差异甲基化区间筛选得到富集分子分辨率级别的信息;预测模块,用于使用深度学习模型整合所述信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;诊断模块,用于计算所述核酸分子来源的最大后验概率,根据所述最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据所述占比确定癌症的风险结果。
本发明实施例的利用血浆游离核酸检测癌症的深度学习系统,使用深度学习模型判断血浆中游离核酸分子组织来源以及根据预测结果进行癌症检测,从而能够在非常低深度的测序数据上达到稳定的预测效果,在降低检测成本的同时保证足够的灵敏性与准确性。
另外,根据本发明上述实施例的利用血浆游离核酸检测癌症的深度学习系统还可以具有以下附加的技术特征:
进一步地,所述诊断模块进一步用于将所述占比作为似然值,根据所述似然值计算得到置信参数,当所述置信参数最大时,将所述占比作为癌症的风险参数,以确定癌症的风险结果。
进一步地,所述置信参数为:
Figure BDA0002888996210000031
其中,n为DNA片段的数量,pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1-pi,r为所述占比;所述风险参数为:
Figure BDA0002888996210000032
进一步地,还包括:训练模块,用于截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;将每一个碱基转换成one-hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个所述甲基化向量拼接得到输入矩阵,以根据所述输入矩阵训练得到所述深度学习模型。
进一步地,所述筛选模块进一步用于从待测区间中获取健康血浆样本和癌症实体瘤样本,分别从所述健康血浆样本和所述癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算所述健康血浆样本和所述癌症实体瘤样本的甲基化率;当所述健康血浆样本和所述癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定所述待测区间为所述差异甲基化区间。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的利用血浆游离核酸检测癌症的深度学习方法的流程图;
图2为根据本发明一个具体实施例的利用血浆游离核酸检测癌症的深度学习方法的流程图;
图3为根据本发明一个实施例的在测试集样本上进行癌症预测效果的ROC曲线;
图4为根据本发明一个实施例的在降采样数据上的预测表现效果图;
图5为根据本发明一个实施例的仿真实验的结果图;
图6为根据本发明一个实施例的利用血浆游离核酸检测癌症的深度学习系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明是基于发明人基于以下发现所获得的:
甲基化信息是DNA上一类主要的修饰信息,在不同组织内的DNA甲基化修饰也会有所不同,而在癌症发生的早期,癌细胞内部的甲基化状态就会发生改变,同时癌细胞的代谢更快,会释放更多的DNA片段到血浆中,这就使得通过分析血浆中的cfDNA进行癌症信号检测成为了可能。在研究中,甲基化位点主要指的是在DNA中5’到3’方向上胞嘧啶与鸟嘌呤相邻的位点(CpG位点)的甲基化状态。现有工作中已经有通过使用单条DNA片段上的甲基化状态进行序列的来源推测,但是在这一过程中序列信息没有被充分利用。有文献表明序列信息也会对甲基化位点的甲基化状态造成影响。通过使用深度学习的方法结合序列信息对血浆中的DNA片段来源进行预测,并在肝癌WGBS数据上进行了测试,以期能够更为精细地对片段来源进行判断。
为此,本发明提出一种使用深度学习方法对WGBS数据进行建模和分析,使用深度学习方法判断单个血浆中游离核酸分子来源从而进行非侵入式癌症辅助诊断的方法和系统。
下面参照附图描述根据本发明实施例提出的利用血浆游离核酸检测癌症的深度学习方法及系统,首先将参照附图描述根据本发明实施例提出的利用血浆游离核酸检测癌症的深度学习方法。
图1是本发明一个实施例的利用血浆游离核酸检测癌症的深度学习方法的流程图。
如图1所示,该利用血浆游离核酸检测癌症的深度学习方法包括以下步骤:
在步骤S101中,使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从差异甲基化区间筛选得到富集分子分辨率级别的信息。
可以理解的是,通过使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,从而可以达到富集分子分辨率级别的信息的效果。
具体地,因为全基因组范围广泛,很多区域实际上并不包含有效的信息,如果直接使用所有测序结果进行模型构建将会引入明显噪声,为了从WGBS数据中获取信息量更为丰富的数据,需要根据测序数据对全基因组的区间进行筛选,从全基因组的区间中筛选得到在癌症中的甲基化模式与健康人血浆中的甲基化模式不同的区域,选用来自这些区域的DNA片段用作模型的训练以及最终的分类。在以往的研究中,差异区间的确定通常是考察在两类样本中区间内平均甲基化率的差异,当在两类区间中的差异具有统计显著性时,对应的区间会被选为差异区间,而这样的方式将会明显地掩盖住单条序列中可能明显包含的强而明显的信号特征,因此并不是非常适合用于基于单条序列来源判断的方法中。
基于这种情况,本发明实施例提出了一种全新的差异甲基化区间定义方式,这种方式是基于单条序列的甲基化状态进行差异甲基化区间定义的,经过实验验证,使用基于这种方式定义的甲基化区间,能够有效地提高模型的预测准确性,成功地富集出与癌症相关的信息。
在本发明的一个实施例中,使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,包括:从待测区间中获取健康血浆样本和癌症实体瘤样本;分别从健康血浆样本和癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算健康血浆样本和癌症实体瘤样本的甲基化率;当健康血浆样本和癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定待测区间为差异甲基化区间。
具体而言,本发明实施例将这里定义的差异甲基化区间命名为开关区间,开关区间的定义流程如下:
在定义开关区间时,需要用到若干健康人血浆样本中cfDNA的WGBS数据以及癌症患者的实体瘤组织中的WGBS数据,经过与人类基因组的比对之后,使用这两种来源的WGBS数据进行开关区间的筛选。
首先,将全基因组划分为不重叠的,固定长度的小区域,针对其中的每一个小区域,都进行开关性质的检查。分别从健康人血浆样本和癌症实体瘤样本中取出所有来自该区间的测序得到的DNA片段,去除掉所有CpG位点数小于3个的序列之后,分别计算来自两类的甲基化率。根据这里的计算结果,能够得到来自两类样本的不同的甲基化率分布。将来自这两个分布中的甲基化率最大值与最小值分别记为:来自实体瘤的甲基化率最大值为Mmax,T,来自实体瘤的甲基化率最小值记为Mmin,T,来自健康血浆的甲基化率最大值为Mmax,N,来自健康血浆的甲基化率最小值为Mmin,T
然后,通过对这些值进行比较,能够得到两种不同定义的开关区间。设定一个差异阈值,在这里记为T,对于呈现出在癌症中特异高甲基化的区间,当Mmax,T-Mmax,N>T时,该区间被认为是开关区间,甲基化率高于Mmax,N的序列被记为开关序列。而对于在癌症中呈现出特异低甲基化的区间,当Mmin,N–Mmin,T>T时,该区间被认为是开关区间,甲基化率低于的Mmin,N序列被记为开关序列,同时,当一个开关区间中的总reads数过少时不应当将该区间看作开关区间,否则可能会引入明显的噪声信息。使用这样的定义方式能够更加灵敏地提取出序列分辨率级别的甲基化特征信号,从而在进行模型训练与来源判断的时候得到更为精确的结果。
在步骤S102中,使用深度学习模型整合信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源。
可以理解的是,使用深度学习模型整合核酸分子的序列信息以及甲基化信息,从而可以达成精确的核酸分子来源预测。
具体地,在完成了差异甲基化区间的筛选之后,本发明实施例需要进行分类模型的搭建过程。在这里实际上解决的是reads的来源分类问题:一方面希望能够将序列信息与甲基化信息进行整合,充分利用信息以期达到更加准确的来源预测;另一方面希望能够将不同区间的信息整合在一起,实现在非常低测序深度下也能够进行个体诊断的目标。因此本发明实施例使用深度学习模型,通过利用深度学习模型对不同形式数据的整合能力与对于大量复杂信息的挖掘能力完成对序列来源的判断。
在本发明的一个实施例中,还包括:截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;将每一个碱基转换成one-hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个甲基化向量拼接得到输入矩阵,以根据输入矩阵训练得到深度学习模型。
其中,第一段可以为每条序列5’段,第二段可以为3’段,在此仅作为示例,不作具体限定。预设部分、预设数量与预设值均可以根据实际情况进行设置。
具体而言,本发明实施例将每一条DNA片段看作一个样本,在训练集中,将来自健康人血浆中cfDNA的标签记为0,来自实体瘤的DNA片段标签记为1,深度学习模型的作用就是使用序列信息和甲基化信息完成这个二分类问题。
本发明实施例参照了DanQ神经网络结构,在其基础上进行了一定的调整。为了避免测序数据两端adapter的影响,首先将每条序列5’段的前一部分截掉,之后在3’段再截掉若干碱基,保证所有序列的长度统一,在这里记为L。这里同样只选用CpG位点数大于等于3的reads。将每一个碱基都对应地转换成one-hot编码,每一条DNA片段将对应一个L*4的矩阵,同时将其甲基化信息转变成一个L*1的向量,其中1代表甲基化,0代表未甲基化,将这两个向量拼接起来就能够得到一个L*5的矩阵,将这个矩阵作为输入,依次经过一维卷积、池化、双向LSTM、一维卷积和三个全连接层之后,连接到一个神经元,并使用sigmoid输出对应标签。完成训练之后就可以实现对单条read的来源判断。
在步骤S103中,计算核酸分子来源的最大后验概率,根据最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据占比确定癌症的风险结果。
可以理解的是,通过计算最大后验概率的方式估计血浆中来自癌症的核酸序列片段占比,从而可以起到癌症的非侵入式辅助诊断的效果。
具体地,完成单条序列的来源判断之后,需要对样本中含有来自癌细胞序列的风险进行评估,针对每一个待诊断个体,使用深度学习模型对其血浆中cfDNA的来源进行预测之后,可以获得其预测值的分布,针对这个分布,这里参照CancerDetector中的方法,使用最大化后验概率的方式对这一风险进行评估。
在本发明的一个实施例中,根据占比确定癌症的风险结果,包括:将占比作为似然值,根据似然值计算得到置信参数;当置信参数最大时,将占比作为癌症的风险参数,以确定癌症的风险结果。
具体而言,假设来自待测个体的DNA片段一共有n条,用pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值(即概率值),则其来自与健康细胞的概率值就应当为1-pi,这样的话,每当给定一个血浆中来自癌细胞的DNA片段占比r作为似然值时,就能够得出一个置信参数val,这个置信参数为:
Figure BDA0002888996210000071
当这个置信参数val最大时,对应的r就是这里所需要的个体患有癌症的风险参数,也就是说,所需求取的风险参数可以表示为:
Figure BDA0002888996210000072
使用这样的评估模型,能够对每一个待测的个体进行癌症检测,通过输出的risk来判断其是否患有癌症。
下面将通过一个具体实施例对利用血浆游离核酸检测癌症的深度学习方法进行进一步阐述,如图2所示,具体如下:
本发明实施例使用European Genome-Phenome Archive database(EGA)中accession number为EGAS00001000566的数据进行在肝癌的非侵入式检测中的效果。其中,包含32个来自健康人血浆中的cfDNA的WGBS测序数据,8个HBV携带者的cfDNA的WGBS测序数据,24个肝癌患者的血浆cfDNA测序数据,13个是有配对的实体瘤的WGBS测序数据,使用这些数据进行模型的建立和测试。
首先,将这些数据进行分组:从32个健康人的血浆测序数据中随机选出18个并使用13个实体瘤样本中的9个的测序数据组成训练集,将剩余的14个健康人的血浆测序数据、8个HBV携带者的血浆cfDNA的测序数据以及没有实体瘤配对的11个肝癌患者的血浆测序数据作为测试集。此外,保留了剩余的4个实体瘤样本的测序数据用作仿真验证。
完成数据集的划分后,使用训练集中的健康人血浆数据与癌症的实体瘤数据进行开关区间的筛选。这里选用的区间长度为500bp,挑选出的是在癌症的实体瘤中特异低甲基化的开关区间。开关区间的筛选阈值为0.3。当区间中来自某一类的reads数目小于25条时这个区间将会被筛掉,不作为开关区间。
完成开关区间的筛选之后,按照上述方法,首先将每条序列5’段的前5bp截掉,之后在3’段再截掉若干碱基,保证所有序列的长度统一为66bp。这里同样只选用CpG位点数大于等于3的reads。将每一个碱基都对应地转换成one-hot编码,每一条DNA片段将对应一个66*4的矩阵,同时将其甲基化信息转变成一个66*1的向量,其中1代表甲基化,0代表未甲基化,将这两个向量拼接起来就能够得到一个66*5的矩阵,将这个矩阵作为输入,依次经过一维卷积、池化、双向LSTM、一维卷积和三个全连接层之后,连接到一个神经元,并使用sigmoid输出对应标签。完成训练之后就可以实现对单条read的来源判断。
在完成训练之后,将测试集中来自所选的开关区间的序列拿出来使用深度学习的模型进行来源预测,完成预测之后使用计算最大后验的方法对这些样本中含有来自癌症的DNA序列的风险进行计算与评估。重复十次实验后,对结果绘制受试者工作特征曲线(ROC曲线),并使用ROC曲线下方面积(AUC)进行效果评估,发现模型能够达到非常良好的预测效果,AUC值能够达到0.9948±0.0018。其中,如图3所示,有效测序深度1×至3×。
为了验证模型在低深度测序数据下的效果,本发明实施例对测试集的样本进行了降采样,同时使用CancerDetector方法以及使用开关序列占比的方法分别在降采样的实验中进行了测试,结果发现本发明实施例的方法能够在非常低的深度下仍然保持良好的预测效果,从而可以证明本发明实施例的模型能够应用于低深度的测序数据,表现出了非常强大的临床应用潜力。如图4所示,对比效果说明了本发明实施例使用深度学习模型成功整合了序列信息与甲基化信息,达到了更高的预测精度,同时也比现有的方法达到了更佳的预测效果。
为了进一步验证本发明实施例模型的准确度和灵敏性,使用验证集中的实体瘤测序数据结合测试集中健康人的血浆测序数据进行了仿真实验。随机从实体瘤测序数据以及血浆测序数据中抽取一部分,按照不同的比例进行混合,并通过修改混合样本中reads的总数来模拟不同测序深度下获得的数据。之后使用本发明实施例的方法对混合样本中来自癌细胞的DNA占比进行预测,通过对比其预测值与实际的混合比,验证本发明实施例模型的准确性和灵敏性。在不同的测序深度以及混合比例的模拟下,都进行了10次仿真,且还进行了和CancerDetector的对比,其中,本实施例中使用的是相同样本。如图5所示,仿真结果显示本发明实施例的方法在各个测序深度下都能够表现出非常一致的特性,在不同的测序深度下预测值更具有稳定性;而CancerDetector的方法在各个不同的仿真测序深度下预测结果出现了偏移,这也使得本发明实施例的模型更具实际应用的能力。
根据本发明实施例提出的利用血浆游离核酸检测癌症的深度学习方法,使用深度学习模型判断血浆中游离核酸分子组织来源以及根据预测结果进行癌症检测,从而能够在非常低深度的测序数据上达到稳定的预测效果,在降低检测成本的同时保证足够的灵敏性与准确性。
其次参照附图描述根据本发明实施例提出的利用血浆游离核酸检测癌症的深度学习系统。
图6是本发明一个实施例的利用血浆游离核酸检测癌症的深度学习系统的结构示意图。
如图6所示,该利用血浆游离核酸检测癌症的深度学习系统10包括:筛选模块100、预测模块200和诊断模块300。
其中,筛选模块100用于使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从差异甲基化区间筛选得到富集分子分辨率级别的信息;预测模块200用于使用深度学习模型整合信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;诊断模块300用于计算核酸分子来源的最大后验概率,根据最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据占比确定癌症的风险结果。
进一步地,诊断模块300进一步用于将占比作为似然值,根据似然值计算得到置信参数,当置信参数最大时,将占比作为癌症的风险参数,以确定癌症的风险结果。
进一步地,置信参数为:
Figure BDA0002888996210000091
其中,n为DNA片段的数量,pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1-pi,r为占比;风险参数为:
Figure BDA0002888996210000092
Figure BDA0002888996210000093
进一步地,本发明实施例的系统10还包括:训练模块。其中,训练模块用于截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;将每一个碱基转换成one-hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个甲基化向量拼接得到输入矩阵,以根据输入矩阵训练得到深度学习模型。
进一步地,筛选模块100进一步用于从待测区间中获取健康血浆样本和癌症实体瘤样本,分别从健康血浆样本和癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算健康血浆样本和癌症实体瘤样本的甲基化率;当健康血浆样本和癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定待测区间为差异甲基化区间。
需要说明的是,前述对利用血浆游离核酸检测癌症的深度学习方法实施例的解释说明也适用于该实施例的利用血浆游离核酸检测癌症的深度学习系统,此处不再赘述。
根据本发明实施例提出的利用血浆游离核酸检测癌症的深度学习系统,使用深度学习模型判断血浆中游离核酸分子组织来源以及根据预测结果进行癌症检测,从而能够在非常低深度的测序数据上达到稳定的预测效果,在降低检测成本的同时保证足够的灵敏性与准确性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种利用血浆游离核酸检测癌症的深度学习方法,其特征在于,包括以下步骤:
使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从所述差异甲基化区间筛选得到富集分子分辨率级别的信息;
使用深度学习模型整合所述信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;以及
计算所述核酸分子来源的最大后验概率,根据所述最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据所述占比确定癌症的风险结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述占比确定癌症的风险结果,包括:
将所述占比作为似然值,根据所述似然值计算得到置信参数;
当所述置信参数最大时,将所述占比作为癌症的风险参数,以确定癌症的风险结果。
3.根据权利要求2所述的方法,其特征在于,
所述置信参数为:
Figure FDA0002888996200000011
其中,n为DNA片段的数量,pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1-pi,r为所述占比;
所述风险参数为:
Figure FDA0002888996200000012
4.根据权利要求1所述的方法,其特征在于,还包括:
截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;
将每一个碱基转换成one-hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个所述甲基化向量拼接得到输入矩阵,以根据所述输入矩阵训练得到所述深度学习模型。
5.根据权利要求1所述的方法,其特征在于,所述使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,包括:
从待测区间中获取健康血浆样本和癌症实体瘤样本;
分别从所述健康血浆样本和所述癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算所述健康血浆样本和所述癌症实体瘤样本的甲基化率;
当所述健康血浆样本和所述癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定所述待测区间为所述差异甲基化区间。
6.一种利用血浆游离核酸检测癌症的深度学习系统,其特征在于,包括:
筛选模块,用于使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从所述差异甲基化区间筛选得到富集分子分辨率级别的信息;
预测模块,用于使用深度学习模型整合所述信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;以及
诊断模块,用于计算所述核酸分子来源的最大后验概率,根据所述最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据所述占比确定癌症的风险结果。
7.根据权利要求6所述的系统,其特征在于,所述诊断模块进一步用于将所述占比作为似然值,根据所述似然值计算得到置信参数,当所述置信参数最大时,将所述占比作为癌症的风险参数,以确定癌症的风险结果。
8.根据权利要求7所述的系统,其特征在于,
所述置信参数为:
Figure FDA0002888996200000021
其中,n为DNA片段的数量,pi表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1-pi,r为所述占比;
所述风险参数为:
Figure FDA0002888996200000022
9.根据权利要求6所述的系统,其特征在于,还包括:
训练模块,用于截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;将每一个碱基转换成one-hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个所述甲基化向量拼接得到输入矩阵,以根据所述输入矩阵训练得到所述深度学习模型。
10.根据权利要求6所述的系统,其特征在于,所述筛选模块进一步用于从待测区间中获取健康血浆样本和癌症实体瘤样本,分别从所述健康血浆样本和所述癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算所述健康血浆样本和所述癌症实体瘤样本的甲基化率;当所述健康血浆样本和所述癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定所述待测区间为所述差异甲基化区间。
CN202110021990.7A 2021-01-08 2021-01-08 利用血浆游离核酸检测癌症的深度学习方法和系统 Active CN112820407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110021990.7A CN112820407B (zh) 2021-01-08 2021-01-08 利用血浆游离核酸检测癌症的深度学习方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110021990.7A CN112820407B (zh) 2021-01-08 2021-01-08 利用血浆游离核酸检测癌症的深度学习方法和系统

Publications (2)

Publication Number Publication Date
CN112820407A CN112820407A (zh) 2021-05-18
CN112820407B true CN112820407B (zh) 2022-06-17

Family

ID=75869034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110021990.7A Active CN112820407B (zh) 2021-01-08 2021-01-08 利用血浆游离核酸检测癌症的深度学习方法和系统

Country Status (1)

Country Link
CN (1) CN112820407B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210125683A1 (en) * 2017-09-15 2021-04-29 The Regents Of The University Of California Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring
CN114898802B (zh) * 2022-07-14 2022-09-30 臻和(北京)生物科技有限公司 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置
CN117535404A (zh) * 2022-08-01 2024-02-09 广州燃石医学检验所有限公司 一种多癌种甲基化检测试剂盒及其应用
CN115662519B (zh) * 2022-09-29 2023-11-03 南京医科大学 一种基于机器学习预测癌症的cfDNA片段特征组合及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6995625B2 (ja) * 2015-05-01 2022-01-14 ガーダント ヘルス, インコーポレイテッド 診断方法
CN110168099B (zh) * 2016-06-07 2024-06-07 加利福尼亚大学董事会 用于疾病和病症分析的无细胞dna甲基化模式
JP2020537487A (ja) * 2017-07-12 2020-12-24 ユニバーシティー ヘルス ネットワーク メチローム解析を用いる癌の検出及び分類
EP3899953A1 (en) * 2018-12-21 2021-10-27 Grail, Inc. Source of origin deconvolution based on methylation fragments in cell-free-dna samples

Also Published As

Publication number Publication date
CN112820407A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112820407B (zh) 利用血浆游离核酸检测癌症的深度学习方法和系统
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
CN111833965B (zh) 一种尿沉渣基因组dna的分类方法、装置和用途
CN109767810A (zh) 高通量测序数据分析方法及装置
JP5180478B2 (ja) ゲノムベースの医療診断テストを最適化する遺伝アルゴリズム
Zhang et al. Statistical method evaluation for differentially methylated CpGs in base resolution next-generation DNA sequencing data
Kumar et al. Biomarkers of diseases in medicine
Li et al. C-CSN: single-cell RNA sequencing data analysis by conditional cell-specific network
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN113517073B (zh) 肺癌手术后生存率预测模型构建方法和预测模型系统
CN113362893A (zh) 肿瘤筛查模型的构建方法及应用
CN110890130A (zh) 基于多类型关系的生物网络模块标志物识别方法
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
Huo et al. Bayesian latent hierarchical model for transcriptomic meta-analysis to detect biomarkers with clustered meta-patterns of differential expression signals
CN106874705A (zh) 基于转录组数据确定肿瘤标记物的方法
Bell-Glenn et al. A novel framework for the identification of reference dna methylation libraries for reference-based deconvolution of cellular mixtures
Wei et al. NGS-based likelihood ratio for identifying contributors in two-and three-person DNA mixtures
CN111164701A (zh) 针对靶标定序的定点噪声模型
AU2022326787A1 (en) Method for characterization of cancer
Cao Analysis of Concordance and Discordance in Genetic Association Studies via Forward-Backward Scoring Scheme
Floares et al. Mining knowledge and data to discover intelligent molecular biomarkers: prostate cancer i-biomarkers
Yet Identification of bio-markers for insulin resistance and sensitivity through multi-omics analysis
CN115678999B (zh) 标志物在肺癌复发预测中的应用和预测模型构建方法
Fang et al. A machine learning framework of functional biomarker discovery for different microbial communities based on metagenomic data
Lakshmi et al. An Analysis of Breast Cancer Gene Sequences using Differential Evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant