CN115497556A - 一种用于区分体细胞突变和种系突变的方法 - Google Patents
一种用于区分体细胞突变和种系突变的方法 Download PDFInfo
- Publication number
- CN115497556A CN115497556A CN202210614536.7A CN202210614536A CN115497556A CN 115497556 A CN115497556 A CN 115497556A CN 202210614536 A CN202210614536 A CN 202210614536A CN 115497556 A CN115497556 A CN 115497556A
- Authority
- CN
- China
- Prior art keywords
- mutant
- length
- fragments
- wild
- mutation site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Organic Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Wood Science & Technology (AREA)
- Oncology (AREA)
- Microbiology (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
Abstract
本申请涉及用于区分体细胞突变和种系突变的方法:获取源自受试者样本的至少一个突变位点;获取野生型支持片段和突变型支持片段;所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,所述野生型碱基序列与人类参考基因组在所述突变位点的对应位置处的核苷酸序列相比序列相同,所述突变型碱基序列则不同;获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算相同长度的两者与对应支持片段的总数的比值的差值;将该差值作为区分的指标。提供用以从cfDNA中识别ctDNA的方法及装置。该方法用于肿瘤家系管理、TMB检测。
Description
技术领域
本申请涉及生物信息领域,具体的涉及一种用于区分体细胞突变和种系突变的方法。
背景技术
在肿瘤患者的血浆中,广泛存在cfDNA,其中包含少量肿瘤特异性ctDNA存在。这些ctDNA在细胞衰老和凋亡过程中与其他正常的cfDNA在剪切方式上存在差异。换言之,血浆中游离DNA中ctDNA和其他常规cfDNA片段化分布模式的不同。因此,这种分布模式的差异可以作为ctDNA识别的标志物。
体细胞突变是在人类生命周期中逐渐累积的一种区别于种系突变(也称为:胚系突变)的非遗传变异。体细胞突变由于与肿瘤发生的分子信号通路密切相关,而作为肿瘤形成的重要标志。种系突变是发生在生殖细胞可遗传的突变,对研究遗传性疾病和基因组进化具有重要意义。在《肿瘤突变负荷检测及临床应用中国专家共识(2020年版)》中提到:在肿瘤突变负荷(TMB)算法的标准化要求中,核心要素是对能影响蛋白质编码的体细胞突变的探测及计算。由于目前公开的人群数据库均已欧美人群为主,不适用于中国人群TMB检测,因此建议TMB的体细胞突变确定应使用对照样本(外周血或癌旁组织)去除患者的胚系变异,或使用中国人群大样本遗传性突变数据库构建背景库过滤胚系变异。因此,正确区分细胞中的突变类型和来源对肿瘤的分类,治疗,预后等具有重要作用。
然而,当前进行体细胞突变判别方法主要依赖于对配对样本的检测,配对样本平行测序可以很准确地判断出突变的来源,但是对于初次没有收取配对材料的样本,重新收取配对样本往往非常困难。另外,与肿瘤样本进行同深度的高通量测序会造成经费和计算资源的大量消耗。同时该方法对样本收集的完整性和计算存储资源有很高的要求,并且会显著增加突变检测成本。另外,突变频率过滤和突变注释数据库比对的方法在准确性上仍然无法满足要求。
发明内容
本申请提供了一种用于区分体细胞突变和种系突变的方法,一种用于在cfDNA中识别ctDNA的方法,以及所述方法对应的装置以及应用。本申请所述的方法和/或装置,具有以下特征中的至少一种:(1)仅需要使用单一样本,即来源于受试者的样本;(2)适用范围广,可以适用于不同癌症种类中体细胞突变的识别,和/或ctDNA的识别;(3)高灵敏度;(4)高准确性,例如可以同时在突变数据库、人群频率、突变丰度的基础上,使多个因素共同参与本申请所述的方法而提高区分结果的可靠性;(5)易于实施,对突变位点的数量没有限制;(6)操作快捷,例如可以以受试者的血浆作为样本;(7)引入了新的区分维度。
一方面,本申请提供了一种用于区分体细胞突变和种系突变的方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值作为区分所述突变位点为体细胞突变还是种系突变的指标。
一方面,本申请提供了一种用于在cfDNA中识别ctDNA的方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值作为识别所述突变位点是否位于ctDNA的指标。
一方面,本申请提供了一种机器学习模型的训练方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值作为训练的指标输入至所述机器学习模型以进行机器学习训练。
一方面,本申请提供了一种数据库建立方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值存储至数据库中,以便区分体细胞突变和种系突变,和/或在cfDNA中识别ctDNA。
在某些实施方式中,所述基因测序包括二代基因测序(NGS)。
在某些实施方式中,所述方法仅使用源自受试者的样本。
在某些实施方式中,所述样本包括血液样本。
在某些实施方式中,所述方法还包括以下的步骤:获取源自受试者的样本。
在某些实施方式中,所述突变位点包括单核苷酸变异(SNV)。
在某些实施方式中,所述突变位点包含两个以上的核苷酸变异。
在某些实施方式中,所述野生型支持片段和/或所述突变型支持片段的长度的范围为约1个核苷酸至约550个核苷酸。
在某些实施方式中,所述野生型支持片段和/或所述突变型支持片段的长度的范围为约1个核苷酸至约400个核苷酸。
在某些实施方式中,所述野生型支持片段和/或所述突变型支持片段的长度的范围为约1个核苷酸至约200个核苷酸。
在某些实施方式中,所述方法包括以下的步骤:(4’)获得步骤(3)所述差值的分布,选择所述分布中的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在某些实施方式中,所述方法包括以下的步骤:(4’)获得步骤(3)所述差值的分布,将其称为第一分布。
在某些实施方式中,所述方法包括以下的步骤:(5)在有效片段区间的长度范围内,将所述第一分布中的每个差值依次进行累加,获得加成值,其中,所述有效片段区间的长度覆盖缠绕核小体的核酸序列的长度。
在某些实施方式中,所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内。
在某些实施方式中,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约200以上个核苷酸。
在某些实施方式中,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约250-约400个核苷酸。
在某些实施方式中,所述方法包括以下的步骤:(6)获得步骤(5)所述加成值的第二分布,计算所述第二分布中所述加成值的最大值。在某些实施方式中,将所述加成值的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在某些实施方式中,所述差值经平滑化处理,其中所述平滑化处理包括以下步骤:
(a)确定平滑化窗口值;其中所述平滑化窗口值为约1-10中的整数;(b)确定若干个长度值等于平滑化窗口值的平滑化取样长度范围,其中每一个平滑化取样长度范围的最小值为起始长度,其中所述起始长度的范围为所述野生型支持片段和/或所述突变型支持片段的长度的范围;(c)获取任意一个平滑化取样长度范围中,至少一个平滑化取样长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,
计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;
计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;(d)根据所述至少一个平滑化取样长度的所述差值计算该平滑化取样长度范围的平均差值;(e)将所得的平均差值作为所述该平滑化取样长度范围的代表值。
在某些实施方式中,所述平滑化窗口值为约2-6中的整数。
在某些实施方式中,所述平滑化窗口值为3。
在某些实施方式中,所述平滑化处理包括以下步骤:(f)获得步骤(e)所述平均差值的第一分布。
在某些实施方式中,所述平滑化处理包括以下步骤:(g)在有效片段区间的长度范围内,将所述第一分布中的每个平均差值依次进行累加,获得加成值,其中,所述有效片段区间的长度为缠绕核小体的核酸序列的长度。
在某些实施方式中,所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内。
在某些实施方式中,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约200以上个核苷酸。
在某些实施方式中,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约250-约400个核苷酸。
在某些实施方式中,所述平滑化处理包括以下步骤:(h)获得步骤(g)所述加成值的第二分布,计算所述第二分布中所述加成值的最大值。
在某些实施方式中,将所述加成值的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在某些实施方式中,所述指标还包括选自下组参数中的一种或多种:所述突变位点所在的染色体位置、所述突变位点的碱基替换模式、所述突变位点的野生型中各个长度的核酸片段的计数值和/或所述突变位点的突变型中各个长度的核酸片段的计数值、所述突变位点的等位变异、受试者的年龄和所述突变位点的突变类型。
在某些实施方式中,所述指标还包括选自下组参数中的一种或多种:所述SNV位点所在的染色体位置、所述SNV位点的碱基替换模式、所述SNV位点的野生型中各个长度的核酸片段的计数值和/或所述SNV位点的突变型中各个长度的核酸片段的计数值、所述SNV位点的等位变异、受试者的年龄和所述SNV位点的突变类型。
在某些实施方式中,检测所述突变位点包括以下的步骤:
(1)从所述样本中获得数据;(2)对步骤(1)所得的数据进行变异识别;(3)对步骤(2)识别的变异进行变异注释;以及,(4)对步骤(3)注释的变异进行过滤,获得突变位点;可选地,对所述突变位点进行质量控制。
另一方面,本申请提供了一种区分体细胞突变和种系突变的装置,其包括:计算模块,用于计算相同长度的比值WC与比值MC的差值;其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中,所述参考基因组为所述基因测序中的人类参考基因组;所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,判断模块,用于依据已被进行机器学习训练的机器学习模型获得识别所述体细胞突变的识别结果,其中所述机器学习训练包括将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
另一方面,本申请提供了一种在cfDNA中识别ctDNA的装置,其包括:
计算模块,用于计算相同长度的比值WC与比值MC的差值;其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中,所述参考基因组为所述基因测序中的人类参考基因组;所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,判断模块,用于依据已被进行机器学习训练的机器学习模型获得在所述cfDNA中识别ctDNA的判断结果,其中所述机器学习训练包括将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
另一方面,本申请提供了一种机器学习模型的训练装置,其包括:
计算模块,用于计算相同长度的比值WC与比值MC的差值;其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中,所述参考基因组为所述基因测序中的人类参考基因组;所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,训练模块,用于将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
在某些实施方式中,所述装置仅使用源自受试者的样本。
在某些实施方式中,所述的装置还包括:输出模块,用以显示所述判断模块产生的所述体细胞突变的识别结果和/或在所述cfDNA中识别ctDNA的判断结果。
在某些实施方式中,所述的装置还包括样品获得模块,用于获得受试者的所述样本。
在某些实施方式中,所述样本包括血液样本。
在某些实施方式中,所述样品获得模块包括获得所述样本的试剂和/或仪器。
在某些实施方式中,所述的装置还包括数据接收模块,用于获得所述样本中所述突变位点。
在某些实施方式中,所述突变位点包括单核苷酸变异(SNV)。
在某些实施方式中,所述突变位点包含两个以上的核苷酸变异。
在某些实施方式中,所述装置中检测所述突变位点包括以下的步骤:
(1)从所述样本中获得数据;(2)对步骤(1)所得的数据进行变异识别;(3)对步骤(2)识别的变异进行变异注释;以及,(4)对步骤(3)注释的变异进行过滤,获得突变位点;可选地,对所述突变位点进行质量控制。
在某些实施方式中,所述基因测序包括二代基因测序(NGS)。
在某些实施方式中,所述数据接收模块包括所述基因测序所需的试剂和/或仪器。
在某些实施方式中,所述装置还包括输入模块,用以获得所述至少一个长度的所述野生型支持片段的数量,和/或所述对应的相同长度的所述突变型支持片段的数量。
在某些实施方式中,所述输入模块能够区分所述野生型支持片段和所述突变型支持片段。
在某些实施方式中,所述输入模块统计不同长度的所述野生型支持片段的数量;以及,统计不同长度的所述野生型支持片段的数量。
在某些实施方式中,所述野生型支持片段和/或所述突变型支持片段的长度的范围为约1个核苷酸至约550个核苷酸。
在某些实施方式中,所述野生型支持片段和/或所述突变型支持片段的长度的范围为约1个核苷酸至约400个核苷酸。
在某些实施方式中,所述野生型支持片段和/或所述突变型支持片段的长度的范围为约1个核苷酸至约200个核苷酸。
在某些实施方式中,在所述计算模块中:获得所述差值的分布,选择所述分布中的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。在某些实施方式中,在所述计算模块中平滑化处理所述差值,其中所述平滑化处理包括以下步骤:(a)确定平滑化窗口值,其中所述平滑化窗口值为约1-10中的整数;(b)确定若干个长度值等于平滑化窗口值的平滑化取样长度范围,其中每一个平滑化取样长度范围的最小值为起始长度,其中所述起始长度的范围为所述野生型支持片段和/或所述突变型支持片段的长度的范围;(c)获取任意平滑化取样长度范围中,至少一个平滑化取样长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,
计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;
计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;(d)根据所述至少一个平滑化取样长度的所述差值计算该平滑化取样长度范围的平均差值;(e)将所得的平均差值作为所述该平滑化取样长度范围的代表值。
在某些实施方式中,所述平滑化窗口值为约2-6中的整数。
在某些实施方式中,所述平滑化窗口值为3。
在某些实施方式中,所述平滑化处理包括以下步骤:(f)获得步骤(e)所述平均差值的第一分布。
在某些实施方式中,所述平滑化处理包括以下步骤:(g)在有效片段区间的长度范围内,将所述第一分布中的每个平均差值依次进行累加,获得加成值,其中,所述有效片段区间的长度覆盖缠绕核小体的核酸序列的长度。
在某些实施方式中,所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内。
在某些实施方式中,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约200以上个核苷酸。
在某些实施方式中,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约250-约400个核苷酸。
在某些实施方式中,所述平滑化处理包括以下步骤:(h)获得步骤(g)所述加成值的第二分布,计算所述第二分布中所述加成值的最大值。
在某些实施方式中,将所述加成值的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在某些实施方式中,所述计算模块输出所述Dev(Max)。
在某些实施方式中,所述指标和/或训练样本还包括选自下组参数中的一种或多种:所述突变位点所在的染色体位置、所述突变位点的碱基替换模式、所述突变位点的野生型中各个长度的核酸片段的计数值和/或所述突变位点的突变型中各个长度的核酸片段的计数值、所述突变位点的等位变异、受试者的年龄和所述突变位点的突变类型。
在某些实施方式中,所述指标和/或训练样本还包括选自下组参数中的一种或多种:所述SNV位点所在的染色体位置、所述SNV位点的碱基替换模式、所述SNV位点的野生型中各个长度的核酸片段的计数值和/或所述SNV位点的突变型中各个长度的核酸片段的计数值、所述SNV位点的等位变异、受试者的年龄和所述SNV位点的突变类型。
另一方面,本申请提供了一种电子设备,包括存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令执行以实现本申请所述的区分体细胞突变和种系突变的方法;本申请所述的在cfDNA中识别ctDNA的方法,或者本申请所述的机器学习模型的训练方法。
另一方面,本申请提供了一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行以实现本申请所述的区分体细胞突变和种系突变的方法;本申请所述的在cfDNA中识别ctDNA的方法,或者本申请所述的机器学习模型的训练方法。
另一方面,本申请提供了一种数据库系统,其包括存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令执行以实现本申请所述的区分体细胞突变和种系突变的方法;本申请所述的在cfDNA中识别ctDNA的方法,或者本申请所述的数据库建立方法。
另一方面,本申请提供了一种本申请所述的区分体细胞突变和种系突变的方法在肿瘤家系管理的应用。
另一方面,本申请提供了一种本申请所述的区分体细胞突变和种系突变的方法在肿瘤突变负担(TMB)检测中的应用。
本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的,本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地,本申请的附图和说明书中的描述仅仅是示例性的,而非为限制性的。
附图说明
本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明书如下:
图1显示的是本申请所述方法进行机器学习模型所用的训练集,以及验证本申请所述的区分体细胞突变和种系突变的方法能够区分体细胞突变和种系突变所需的验证集的情况。
图2显示的是利用本申请所述方法获得的机器学习模型的机器训练结果。
图3显示的是本申请所述方法获得的机器学习模型在验证集1中区分体细胞突变和种系突变的情况。
图4显示的是本申请所述方法获得的机器学习模型在验证集2中区分体细胞突变和种系突变的情况。
图5显示的是利用本申请所述的方法可以针对不同的瘤种区分体细胞突变和种系突变。
图6显示的是本申请所述方法区分体细胞突变和种系突变的AUC结果。
图7显示的是本申请所述方法区分体细胞突变和种系突变的AUC结果。
图8显示的是针对一个突变位点的所述野生型支持片段和所述突变型支持片段的长度的分布情况。
图9显示的是针对一个突变位点的所述野生型支持片段和所述突变型支持片段的长度的分布情况。
图10显示的是针对一个突变位点的所述野生型支持片段和所述突变型支持片段的长度的分布情况。
具体实施方式
以下由特定的具体实施例说明本申请发明的实施方式,熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。
术语定义
在本申请中,术语“体细胞突变”通常是指发生在非胚胎细胞中的后天获得的一类突变。在本申请中,所述体细胞突变可以包括在体细胞组织(例如,种系外的细胞)中发生的遗传改变。在本申请中,所述体细胞突变可以包括点突变(例如,单个核苷酸与另一个核苷酸的交换(例如,沉默突变、错义突变和无义突变))、插入和缺失(例如,添加和/或移除一个或多个核苷酸(例如,插入缺失))、扩增、基因重复、拷贝数改变(CNA)、重排和剪接变体。所述体细胞突变可以与细胞的生长,编程,衰老和凋亡过程密切相关。例如,所述体细胞突变可以与肿瘤发生中信号通路改变,血管生成和/或肿瘤的转移相关。
在本申请中,术语“种系突变”通常是指发生在生殖细胞(例如卵子或精子)可遗传的突变。所述种系突变可以传给后代,例如可以被纳入后代体内的每个细胞(例如种系细胞和体细胞)的DNA中。所述种系突变可以与肿瘤的发生关联性不大。例如,所述种系突变可以作为TMB分析中的“基线”。
在本申请中,术语“基因测序”通常是指用于确定DNA分子中核苷酸碱基腺嘌呤,鸟嘌呤,胞嘧啶和胸腺嘧啶的顺序的技术。所述基因测序可以包括一代基因测序、二代基因测序、三代基因测序或单分子测序(SMS)。二代或下一代基因测序可以是指在产生许多序列的同时使用先进技术(光学)检测碱基位置方法的技术(例如可以参见Metzker,2009的综述)。术语“二代基因测序“或者“下一代测序”(Next-generation sequencing,NGS),是一种高通量测序技术(High-throughput sequencing),可以一次并行对几十万到几百万条DNA分子进行序列测定,一般读长较短。根据发展历史、影响力、测序原理和技术不同等,主要有以下几种:大规模平行签名测序(Massively Parallel Signature Sequencing,MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyro sequencing)、Illumina(Solexa)sequencing、离子半导体测序(Ion semi conductor sequencing)、DNA纳米球测序(DNAnano-ball sequencing)、Complete Genomics的DNA纳米阵列与组合探针锚定连接测序法等。所述二代基因测序可以使对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。
在本申请中,术语“突变位点”通常是指与对照序列的核苷酸序列相比存在差异的核苷酸所在的位点。例如,所述对照序列可以为基因测序中使用的参照序列(例如可以为人类参考基因组)。在本申请中,所述突变位点可以包括至少1个(例如,1个、2个、3个、4个或更多个)位点处的核苷酸序列的不同(例如,所述不同可以包括核苷酸取代、重复、缺失和/或增加)。例如,所述突变位点可以包括至少1个核苷酸位点处发生核苷酸突变。所述核苷酸突变可以为自然突变,也可以为人工突变。所述突变位点可以包括单核苷酸变异(SNV)。
在本申请中,术语“野生型碱基序列”通常是指与参考基因组(例如可以为人类参考基因组)在所述突变位点的对应位置处的核苷酸序列相比相同的序列。在某些情况下,所述野生型碱基序列可以为人类参考基因组在所述突变位点的对应位置处的核苷酸序列。在某些情况下,针对某一个特定的本申请所述的突变位点,所述野生型碱基序列可以不包含所述的突变位点。
在本申请中,术语“突变型碱基序列”通常是指与参考基因组(例如可以为人类参考基因组)在所述突变位点的对应位置处的核苷酸序列相比不同的序列。在某些情况下,针对某一个特定的本申请所述的突变位点,所述突变型碱基序列可以包含所述的突变位点。
在本申请中,术语“野生型支持片段”通常是指包含本申请所述野生型碱基序列的cfDNA片段。在本申请中,针对某一个特定的本申请所述的突变位点,所述野生型支持片段可以有不同的序列长度。在某些情况下,针对某一个特定的本申请所述的突变位点,所述野生型支持片段可以不包含所述的突变位点。在某些情况下,针对某一个特定的本申请所述的突变位点,所述野生型支持片段可以不包含所述的突变位点,然而针对另一个其他的本申请所述的突变位点,所述野生型支持片段可以包含,也可以不包含所述另一个其他的突变位点。术语“野生型支持片段的长度”,指的是本申请所述野生型支持片段的长度,单位是“核苷酸”的个数。
在本申请中,术语“突变型支持片段”通常是指包含本申请所述突变型碱基序列的cfDNA片段。在某些情况下,针对某一个特定的本申请所述的突变位点,所述突变型支持片段可以包含所述的突变位点。在某些情况下,这对一个特定的本申请所述的突变位点,所述突变型支持片段可以包含所述的突变位点,然而针对另一个其他的本申请所述的突变位点,所述突变型支持片段可以包含,也可以不包含所述另一个其他的突变位点。术语“突变型支持片段的长度”,指的是本申请所述突变型支持片段的长度,单位是“核苷酸”的个数。
在本申请中,术语“人类参考基因组”通常是指可以在基因测序中发挥参照功能的人类基因组。所述人类参考基因组的信息可以参考UCSC(http://genome.ucsc.edu/index.html)。所述人类参考基因组可以有不同的版本,例如,可以为hg19、GRCH37或ensembl 75。
在本申请中,术语“对应位置处”通常是指针对至少一个的特定碱基在一个序列中的位置,另一个序列中所述特定碱基在该序列中的位置。例如,所述对应位置处可以为针对本申请所述野生型碱基序列或所述突变型碱基序列中所述突变位点处的核苷酸位置,本申请所述参考基因组中所述突变位点的位置。例如,在所述突变型碱基序列中所述突变位点为第100位核苷酸,则所述参考基因组中的所述对应位置处可以为在所述参考基因组中对应序列的第100位。
在本申请中,术语“cfDNA”通常是指Cell free DNA的缩写,可以指血浆游离DNA。例如,所述cfDNA可以是位于外周循环中的细胞外的DNA片段。
在本申请中,术语“ctDNA”通常是指循环肿瘤DNA。ctDNA是血液中与细胞无关的肿瘤来源的片段DNA。所述ctDNA可以由凋亡或坏死的肿瘤细胞中的基因组进入血液而产生。所述ctDNA可以携带有原发瘤或转移瘤特定的基因特征。所述ctDNA可以为认为是一种特殊的所述cfDNA。
在本申请中,术语“机器学习模型”通常是指被配置为实现算法、过程或数学模型的系统或程序指令和/或数据的集合。在本申请中,所述算法、过程或数学模型可以基于给定的输入来预测和提供期望的输出。在本申请中,所述机器学习模型的参数可以没有被明确地编程,并且在传统意义上,所述机器学习模型可以没有被明确地设计成遵循特定的规则以便为给定的输入提供期望的输出。例如,所述机器学习模型的使用可以意味着机器学习模型和/或作为机器学习模型的数据结构/一组规则是由机器学习算法训练的。
在本申请中,术语“数据库”通常是指相关数据的有组织实体,而不管数据或有组织实体的表示方式。例如,所述相关数据的有组织实体可以采取表、映射、网格、分组、数据报、文件、文档、列表的形式或任何其他形式。在本申请中,所述数据库可以包括以计算机可存取的方式来收集并保存的任何数据。
在本申请中,术语“单核苷酸变异(SNV)”通常是指在基因组中特定位置处发生的单核苷酸中的变异,其中所述特定位置与参比基因组(例如本申请所述的人类参考基因组)中对应位置处的核苷酸不同(例如,取代、重复、缺失或添加一个核苷酸)。
在本申请中,术语“平滑化处理”通常是指使一个以上的本申请所述的差值之间的偏差减小的数据处理的方法。例如,所述平滑化处理可以包括获得一定数量的本申请所述差值的平均值。例如,所述平滑化处理可以包括根据一定的间隔长度(例如,可以为本申请所述的平滑化窗口值),选择不同长度(例如,可以为本申请所述的平滑化取样长度)所对应的所述野生型支持片段和/或所述突变型支持片段的数量,计算两者数量分别与所述野生型支持比值的总数量的比值和与所述突变型支持片段的总数量的比值的差值。例如,所述平滑化处理可以包括将一定长度范围内,所述差值的累加值再除以间隔长度以获得比值。例如,所述比值可以被认为是该长度范围的所述差值的平均差值。
在本申请中,术语“平滑化窗口值”通常是指在本申请所述的平滑化处理中,所选择的不同长度的所述野生型支持片段和/或所述突变型支持片段所间隔的核苷酸的长度值。例如,在所述的平滑化处理中,所选择的所述野生型支持片段和/或所述突变型支持片段的长度可以依次为1、4、7、10、13……个核苷酸,则所述平滑化窗口值可以为3。所述平滑化窗口值可以为约1-30中的整数,例如,可以为1、2、3、4、5、6、7、8、9或10。例如,可以为1、2、3、4、5或6。
在本申请中,术语“平滑化取样长度”通常是指在本申请所述的平滑化处理中,所选择以进行计数的所述野生型支持片段的长度值,和/或,所选择以进行计数的所述突变型支持片段的长度值。例如,所述平滑化取样长度,可以为在本申请所述野生型支持片段和/或所述突变型支持片段的长度的范围内,平滑化取样长度范围内的各个支持片段的长度值。例如,在每一个平滑化取样长度范围内,可以自起始长度(例如,可以从长度为1个核苷酸起),至该平滑化取样长度范围的最大值(例如可以为起始长度+(平滑化窗口值-1)),其中各个支持片段的长度值。例如,如果所述平滑化窗口值可以为3,如果所述起始长度为1个核苷酸,则所述平滑化取样长度范围可以为1-3、4-6、7-9……;例如,如果所述平滑化窗口值可以为3,如果所述起始长度为1个核苷酸,则所述平滑化取样长度范围也可以为1-3、2-4、3-5……。在本申请中,所述起始长度也可以为除1以外的其他长度(例如,可以从长度为2个核苷酸起)。例如,如果所述起始长度为2个核苷酸,则所述平滑化取样长度范围可以为2-4、5-7、8-10……;例如,如果所述平滑化窗口值可以为3,如果所述起始长度为2个核苷酸,则所述平滑化取样长度范围也可以为2-4、3-5、4-6……。
在本申请中,术语“第一分布”通常是指本申请所述的各个平滑化取样长度范围的平均差值的分布。在某些情况下,所述第一分布可以为各个本申请所述的平均差值的集合。
在本申请中,术语“缠绕核小体的核酸序列的长度”通常是指一个核酸序列缠绕核小体所需要的长度。例如,所述核酸序列可以以一定的倍数(例如,可以缠绕一倍以内,或者,可以缠绕2倍以上)缠绕核小体。
在本申请中,术语“有效片段区间的长度”通常是指计算本申请所述加成值所需的所述野生型支持片段和/或所述突变型支持片段所对应的长度的范围。
在本申请中,术语“第二分布”通常是指本申请所述的加成值的分布。在某些情况下,所述第二分布可以为各个本申请所述的加成值的集合。
在本申请中,术语“计算模块”通常是指用于计算相同长度的本申请所述野生型支持片段的数量与本申请所述突变型支持片段的数量的差值的功能模块。所述计算模块可以输入本申请所述野生型支持片段的数量,以及对应地相同长度的所述突变型支持片段的数量。所述计算模块可以输出本申请所述的差值。例如,可以输出本申请所述的Dev(Max)。在所述计算模块中,可以进行本申请所述的平滑化处理。
在本申请中,术语“判断模块”通常是指用于依据已被进行机器学习训练的机器学习模型获得相关判断结果(例如,所述判断结果可以包括本申请所述体细胞突变的识别结果,和/或本申请所述cfDNA中识别ctDNA的判断结果)。在本申请中,所述判断模块可以输入本申请所述差值(例如所述的Dev(Max))。所述判断模块可以输出所述的相关判断结果。在所述判断模块中,可以借助所述机器学习模型进行判断。
在本申请中,术语“训练模块”通常是指用于将本申请所述差值(例如所述的Dev(Max))作为训练样本输入至所述机器学习模型以进行机器学习训练的功能模块。所述“机器学习”可以指被配置为在没有显式编程的情况下从数据中学习的人工智能系统。所述“机器学习模型”可以是参数和函数的集合,其可以在一组训练样品上训练参数。参数和函数可以是线性代数运算、非线性代数运算和张量代数运算的集合。参数和函数可以包含统计函数、检验和概率模型。在本申请中,所述训练模块可以输入本申请所述差值(例如所述的Dev(Max))。所述训练模块可以输出已被进行机器学习训练的机器学习模型。
在本申请中,术语“输出模块”通常是指用于显示本申请所述判断模块产生的所述体细胞突变的识别结果和/或所述cfDNA中识别ctDNA的判断结果的功能模块。例如,所述输出模块可以包括显示器,其可以显示(例如以图表和/或文字的形式)显示本申请所述判断模块产生的所述体细胞突变的识别结果和/或所述cfDNA中识别ctDNA的判断结果。
在本申请中,术语“样品获得模块”通常是指用于获得受试者的所述样本的功能模块。例如,所述样品获得模块可以包括用以获得所述样本(例如血液样本)所需的试剂和/或仪器。例如,可以包括采血针、采血管和/或血液样本运输箱。所述样品获得模块可以输出本申请所述的样本。
在本申请中,术语“数据接收模块”通常是指用于获得所述样本中所述突变位点的功能模块。在本申请中,所述数据接收模块可以输入本申请所述样本(例如血液样本)。所述数据接收模块可以输出所述突变位点。所述数据接收模块可以对所述样本的突变位点进行检测。例如,所述数据接收模块可以对所述样本进行本申请所述的基因测序(例如二代基因测序)。例如,所述数据接收模块可以包括用以进行所述基因测序所需的试剂和/或仪器。所述数据接收模块可以检测出所述单核苷酸变异。
在本申请中,术语“输入模块”通常是指用以获得所述至少一个长度的所述野生型支持片段的数量,和/或所述对应的相同长度的所述突变型支持片段的数量的功能模块。在本申请中,所述输入模块可以输入本申请所述的突变位点。所述输入模块可以输出(例如,可以显示出)所述至少一个长度的所述野生型支持片段的数量,和/或所述对应的相同长度的所述突变型支持片段的数量。所述输入模块可以包括能够对特定长度的所述野生型支持片段进行计数的试剂和/或仪器。所述输入模块可以包括能够对特定长度的所述突变型支持片段进行计数的试剂和/或仪器。所述输入模块可以识别所述野生型支持片段的长度并分别计数;所述输入模块可以识别所述突变型支持片段的长度并分别计数。所述输入模块可以判断所述野生型支持片段的长度和所述突变型片段的长度是否相同。
在本申请中,术语“肿瘤家系管理”通常是指为家族遗传性肿瘤患者、其亲属和/或高风险人群提供肿瘤相关事宜的帮助。例如,所述肿瘤家系管理可以包括为上述人群提供遗传咨询、进行肿瘤相关基因的检测和结果解读、患肿瘤的风险评估、预防性干预措施的咨询和/或实施。
在本申请中,术语“肿瘤突变负荷(TMB)”指tumor mutation burden,根据《肿瘤突变负荷检测及临床应用中国专家共识(2020年版)》中的定义,TMB一般指特定基因组区域内每兆碱基对(Mb)体细胞非同义突变的个数,通常用每兆碱基有多少个突变表示(XX个突变/Mb)。所述TMB可以作为免疫治疗反应相关的生物标志物。所述TMB可以间接反映肿瘤产生新抗原的能力和程度,已经被证明可以预测免疫治疗的反应,例如,NSCLC指南2019年第1版中指出TMB用于识别适合接受“Nivolumab+Ipilimumab”免疫联合治疗和“Nivolumab”单药治疗的肺癌患者。TMB表达水平可能与多种因素有关,例如微卫星不稳定(microsatelliteinstability,MSI-H)及某些驱动基因的存在等。
在本申请中,术语“包含”通常是指包括明确指定的特征,但不排除其他要素。
在本申请中,术语“约”通常是指在指定数值以上或以下0.5%-10%的范围内变动,例如在指定数值以上或以下0.5%、1%、1.5%、2%、2.5%、3%、3.5%、4%、4.5%、5%、5.5%、6%、6.5%、7%、7.5%、8%、8.5%、9%、9.5%、或10%的范围内变动。
发明详述
方法
一方面,本申请提供了一种用于区分体细胞突变和种系突变的方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值作为区分所述突变位点为体细胞突变还是种系突变的指标。
一方面,本申请提供了一种用于在cfDNA中识别ctDNA的方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值作为识别所述突变位点是否位于ctDNA的指标。
一方面,本申请提供了一种机器学习模型的训练方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值作为训练的指标输入至所述机器学习模型以进行机器学习训练。
一方面,本申请提供了一种数据库建立方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中所述参考基因组为所述基因测序中的人类参考基因组;(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(4)将所述差值存储至数据库中,以便区分体细胞突变和种系突变,和/或在cfDNA中识别ctDNA。
在本申请中,所述基因测序可以包括二代基因测序(NGS)。在本申请中,所述NGS可以选自下组:Solexa测序技术、454测序技术、SOLiD测序技术、Complete Genomics测序方法和半导体(Ion Torrent)测序技术。所述基因测序可以是高通量的,例如可以一次性对几十万、几百万数量级的DNA分子进行测序。所述基因测序可以是短片段的,例如,NGS的读长可以不超过500bp。
在本申请中,所述基因测序可以包括以下的步骤:(1)文库构建;例如,可以包括对DNA分子的末端进行修饰,并添加接头(例如,可以形成Y形接头),然后再进行PCR扩增;(2)测序;例如,可以包括以寡核苷酸为引物、文库片段为模板进行DNA复制;然后进行“桥式”扩增,并且边合成边测序。然后加入测序引物Index引物,读出接头中的Index序列,从而确定每个位点的DNA属于哪一个文库。
在本申请中,所述方法可以仅使用源自受试者的样本。在本申请中,所述方法可以无需使用配对样本。因此本申请所述的方法可以极大地减少对受试者的样本的要求。
在本申请中,所述样本可以包括血液样本。
在本申请中,所述方法还可以包括以下的步骤:获取源自受试者的样本。例如,可以包括利用采血针系统,从所述受试者中获取血液样本的步骤。所述获取样本的方法可以包括真空采血管采血法。
在本申请中,所述突变位点可以包括单核苷酸变异(SNV)。在本申请中,所述突变位点可以包含两个以上的核苷酸变异。例如,本申请所述的突变位点可以包括1个所述SNV,也可以包括两个以上(例如,可以为2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个)的SNV(例如,可以包括两个以上的核苷酸变异)。在本申请中,针对一个特定的所述突变位点,所述野生型支持片段和所述突变型支持片段该突变位点位置处的核苷酸序列存在不同。所述突变位点可以包括核苷酸的替换,也可以在某些情况下包括核苷酸的删除和/或插入。在本申请中,所述突变位点可以包括核苷酸的替换。
在本申请中,所述野生型支持片段和/或所述突变型支持片段的划分可以是针对一个特定的所述突变位点的。例如,如果在该突变位点处的核苷酸序列与所述参考基因组在所述突变位点的对应位置处的核苷酸序列相同,则可以在针对该突变位点时被认为是所述野生型支持片段;如果在该突变位点处的核苷酸序列与所述参考基因组在所述突变位点的对应位置处的核苷酸序列不同,则可以在针对该突变位点时被认为是所述突变型支持片段。
在本申请中,所述野生型支持片段和/或所述突变型支持片段的长度的范围可以为约1个核苷酸至约550个核苷酸(例如,可以为约1-500个、约1-450个、约1-400个、约1-350个、约1-300个、约1-250个、约1-200个或者约1-100个)。例如,可以为约1个核苷酸至约400个核苷酸。例如,可以为约1个核苷酸至约200个核苷酸。
在本申请中,所述方法可以包括以下的步骤:(4’)获得步骤(3)所述差值的分布,选择所述分布中的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在本申请中,所述分布可以为所述差值的集合。所述Dev(Max)可以为在所述集合中,所述差值的最大值。
在本申请中,所述差值可以经平滑化处理。在本申请中,经过所述平滑化处理,所述差值可以更直观、更准确地反映出相同长度的所述野生型支持片段的数量与所述突变型支持片段的数量的差值。进一步地,经过所述平滑化处理的所述差值能够更准确、更特异性和/或更灵敏地区分所述体细胞突变和所述体系突变,和/或在所述ctDNA中识别cfDNA。
在本申请中,所述平滑化处理可以包括以下步骤:
(a)确定平滑化窗口值;其中所述平滑化窗口值为约1-10中的整数;(b)确定平滑化取样长度范围,其中每一个平滑化取样长度范围的最小值为起始长度,其中每一个平滑化取样长度范围的最大值为起始长度+(平滑化窗口值-1),即:每一个平滑取样长度范围的长度值等于确定的平滑窗口值;其中所述起始长度的范围为所述野生型支持片段和/或所述突变型支持片段的长度的范围;(c)获取任意一个平滑化取样长度范围中,至少一个平滑化取样长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,
计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;(d)将步骤(c)所得的每一个所述差值进行累加,除以所述平滑化窗口值,得到该平滑取样长度范围的平均差值;(e)将所得的平均差值作为该所述平滑化取样长度范围的代表值。
在本申请中,所述平滑化窗口值可以根据不同的受试者情况,不同的基因测序方法和/或不同的区分目的而调整,只要所选择的所述平滑化窗口值可以使得所述平滑化处理得以实施即可。在本申请中,所述平滑化窗口值可以为约2-6中的整数(例如,所述平滑化窗口值可以为2、3、4、5或6)。例如,所述平滑化窗口值可以为3。
在本申请中,所述平滑化处理可以包括以下的具体步骤:
(a)确定平滑化窗口值;其中所述平滑化窗口值为约1-10中的整数(例如,选择所述平滑化窗口值为3);
(b)确定平滑化取样长度范围,其中每一个平滑化取样长度范围的最小值为起始长度,其中每一个平滑化取样长度范围的最大值为起始长度+(平滑化窗口值-1);其中所述起始长度的范围为所述野生型支持片段和/或所述突变型支持片段的长度的范围(例如,可以为约1个核苷酸至约400个核苷酸);在本申请中,所述起始长度可以为在所述野生型支持片段和/或所述突变型支持片段的长度的范围内中的任意的长度。在本申请中,所述“长度”可以以核苷酸的个数来衡量。
在本申请中,这对各个所述平滑化取样长度范围,每一个所述平滑化取样长度范围中的所述最小值可以为一个以所述起始长度为第一项,以所述平滑化窗口值为公差,在所述野生型支持片段和/或所述突变型支持片段的长度的范围内的等差数列中的第一项、第二项、第三项直至第N项。例如,当所述平滑化窗口值为3,所述起始长度为1,则在约1个核苷酸至约400个核苷酸的范围内,所述平滑化最小值可以依次为1、4、7、10……400。
例如,当所述起始长度为1,如果平滑化窗口值为3,且如果各个所述平滑化取样长度范围相互不重叠,则平滑化取样长度范围可以为1-3、4-6、7-10……。例如,当所述起始长度为1,如果平滑化窗口值为3,且如果各个所述平滑化取样长度范围可以相互重叠,则平滑化取样长度范围可以为1-3、2-4、3-5……,或者1-3、3-5、5-7……。又例如,当所述起始长度为2,如果平滑化窗口值为3,且如果各个所述平滑化取样长度范围相互不重叠,则平滑化取样长度范围可以为2-4、5-7、8-11……。例如,当所述起始长度为2,如果平滑化窗口值为3,且如果各个所述平滑化取样长度范围可以相互重叠,则平滑化取样长度范围可以为2-4、3-5、4-6……。
(c)获取任意一个平滑化取样长度范围中,至少一个(例如至少1个、至少2个、至少3个或更多个)平滑化取样长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值。
例如,获取长度为1个核苷酸的所述野生型支持片段的数量,将该数量除以所述野生型支持片段的总数量Wtotal,得到比值WC1;获取长度为1个核苷酸的所述突变型支持片段的数量,将该数量除以所述突变型支持片段的总数量Mtotal,得到比值MC1,计算两者的差值WC1-MC1;例如,获取长度为4个核苷酸的所述野生型支持片段的数量,将该数量除以所述野生型支持片段的总数量Wtotal,得到比值WC4;获取长度为4个核苷酸的所述突变型支持片段的数量MC4,将该数量除以所述突变型支持片段的总数量Mtotal,计算两者的差值WC4-MC4;从而分别得到不同的所述平滑化取样长度(例如1、4、7、10……400)各自对应的比值的差值;例如,可以获得各个所述平滑化取样长度范围内,各个所述平滑化取样长度下,所述野生型支持片段的数量与所述野生型支持片段的总数量的比值与所述突变型支持片段的数量与所述突变型支持片段的总数量的比值的差值。例如,针对平滑化取样长度范围1-3,可以分别获得(WC1-MC1)、(WC2-MC2)和(WC3-MC3)。
(d)根据所述至少一个平滑化取样长度的所述差值计算该平滑化取样长度范围的平均差值;例如,计算(WC1-MC1)、(WC2-MC2)和(WC3-MC3)之和,再除以所述平滑化窗口值,得到平均差值。可选地,也可以只计算单个平滑化取样长度范围中的部分差值,例如:(WC1-MC1)和(WC3-MC3),再计算它们的平均值作为平均差值;
(e)将所得的平均差值作为所述平滑化取样长度范围的平均差值的代表值。例如,将(WC1-MC1)、(WC2-MC2)和(WC3-MC3)的累加值除以平滑化窗口值3,所获得的平均差值B1可以作为该所述平滑化取样长度范围的代表值。例如,将(WC4-MC4)、(WC5-MC5)和(WC6-MC6)的累加值除以平滑化窗口值3,所获得的平均差值B4可以作为该所述平滑化取样长度范围的代表值。
在本申请中,所述平滑化处理可以包括以下步骤:(f)获得步骤(e)所述平均差值的第一分布。例如,将所述的各个累加值B1、B4、B7等形成所述第一分布D=[B1、B4、B7……B400]。
在本申请中,所述平滑化处理还可以包括以下步骤:(g)在有效片段区间的长度范围内,将所述第一分布中的每个平均差值依次进行累加,获得加成值,其中,所述有效片段区间的长度覆盖缠绕核小体的核酸序列的长度。
在本申请中,所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内。例如,所述有效片段区间的长度可以为约1-约180个核苷酸(例如,可以为约1-约180个、约1-约179个、约1-约178个、约1-约177个、约1-约176个、约1-约175个、约1-约174个、约1-约173个、约1-约172个、约1-约171个、约1-约170个、约1-约169个、约1-约168个、约1-约167个、约1-约166个或约1-约165个),和/或,可以约200以上个核苷酸(例如,可以为约200以上个、约210以上个、约220以上个、约230以上个、约240以上个、约250以上个、约260以上个、约270以上个、约280以上个、约290以上个、约300以上个、约350以上个或约400以上个)。例如,所述有效片段区间的长度可以为约1-约167个核苷酸,和/或,约250-约400个核苷酸。
例如,可以将所述第一分布中的B1和B4累加,得到加成值D1;可以将所述第一分布中的B1、B4和B7累加,得到加成值D2。
在本申请中,所述平滑化处理包括可以以下步骤:(h)获得步骤(g)所述加成值的第二分布,计算所述第二分布中所述加成值的最大值。例如,可以将各所述加成值D1、D2等形成所述第二分布A=[D1、D2……Di]。其中,i可以为所述有效片段区间的长度。
在本申请中,可以将所述第二分布中的最大值作为Dev(Max)。在本申请中,可以将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在本申请中,为了进一步提高本申请所述方法的准确性、灵敏度和/或特异性,还可以在本申请所述的差值(例如所述Dev(Max))的基础上将其他参数作为所述区分的指标和/或作为所述训练样本。例如,所述指标还可以包括选自下组参数中的一种或多种:所述突变位点所在的染色体位置、所述突变位点的碱基替换模式、所述突变位点的野生型中各个长度的核酸片段的计数值和/或所述突变位点的突变型中各个长度的核酸片段的计数值、所述突变位点的等位变异、受试者的年龄和所述突变位点的突变类型。
在本申请中,所述指标还可以包括选自下组参数中的一种或多种:所述SNV位点所在的染色体位置、所述SNV位点的碱基替换模式、所述SNV位点的野生型中各个长度的核酸片段的计数值和/或所述SNV位点的突变型中各个长度的核酸片段的计数值、所述SNV位点的等位变异、受试者的年龄和所述SNV位点的突变类型。
在本申请中,所述方法还可以包括检测所述突变位点的步骤。检测所述突变位点的步骤可以是本领域常规的步骤,参考所述基因测序例如,检测所述突变位点可以包括以下的步骤:(1)从所述样本中获得数据;(2)对步骤(1)所得的数据进行变异识别(例如,可以通过对碱基质量、mapping质量、错配数量、突变频率、支持突变的读数等因素,进行所述变异识别);(3)对步骤(2)识别的变异进行变异注释(例如,可以使用ANNOVAR 20160201、1000Genomes数据库、ExAC数据库和/或gnomAD genome数据库进行注释;例如,可以使用数据库注释、hot位点注释、突变类型及和/或人群频率注释);以及,(4)对步骤(3)注释的变异进行过滤(例如,可以进行人群突变位点频率的过滤、热点突变的过滤、克隆性造血突变的过滤,和/或最大深度的过滤),获得突变位点。例如,所述步骤还可以包括在步骤(4)之后,对所述突变位点进行质量控制(例如,所述质量控制可以包括去除重复片段,和/或,过滤低质量片段)。
装置
另一方面,本申请提供了一种区分体细胞突变和种系突变的装置,其包括:
计算模块,用于计算相同长度的比值WC与比值MC的差值;其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中,所述参考基因组为所述基因测序中的人类参考基因组;所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,
判断模块,用于依据已被进行机器学习训练的机器学习模型获得识别所述体细胞突变的识别结果,其中所述机器学习训练包括将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
另一方面,本申请提供了一种在cfDNA中识别ctDNA的装置,其包括:
计算模块,用于计算相同长度的比值WC与比值MC的差值;其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中,所述参考基因组为所述基因测序中的人类参考基因组;所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,
判断模块,用于依据已被进行机器学习训练的机器学习模型获得在所述cfDNA中识别ctDNA的判断结果,其中所述机器学习训练包括将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
另一方面,本申请提供了一种机器学习模型的训练装置,其包括:
计算模块,用于计算相同长度的比值WC与比值MC的差值;其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,其中,所述参考基因组为所述基因测序中的人类参考基因组;所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,
训练模块,用于将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
在本申请中,所述装置可以仅使用源自受试者的样本。
在本申请中,所述的装置还可以包括:输出模块,用以显示所述判断模块产生的所述体细胞突变的识别结果和/或所述cfDNA中识别ctDNA的判断结果。
在本申请中,所述输出模块可以显示本申请所述判断模块产生的所述体细胞突变的识别结果和/或所述cfDNA中识别ctDNA的判断结果。例如,所述输出模块可以包括输出装置(例如显示器)和/或输出程序(例如移动端APP),从而可以显示本申请所述判断模块产生的所述体细胞突变的识别结果和/或所述cfDNA中识别ctDNA的判断结果。在本申请中,所述输出模块输入所述判断模块获得的所述体细胞突变的识别结果和/或所述cfDNA中识别ctDNA的判断结果。
在本申请中,所述的装置还可以包括样品获得模块,用于获得受试者的所述样本。
例如,所述样本可以包括血液样本。在本申请中,所述样品获得模块可以包括获得所述样本所需的试剂和/或仪器。例如,所述样品获得模块可以包括采血针、采血管和/或血液样本运输箱。例如,所述样品获得模块可以包括抗凝剂。在本申请中,所述样品获得模块可以输出本申请所述的样本。
在本申请中,所述的装置还可以包括数据接收模块,用于获得所述样本中所述突变位点。例如,所述数据接收模块可以输入所述样本。例如,所述数据接收模块可以输出本申请所述的突变位点。在本申请中,所述数据接收模块可以包括获得所述突变位点所需的试剂和/或仪器。例如,所述数据接收模块可以包括所述基因测序所需的试剂和/或仪器。在本申请中,所述数据接收模块可以进行本申请所述的基因测序,例如,所述基因测序可以包括二代基因测序(NGS)。
例如,所述数据接收模块可以包括二代基因测序仪(例如Roche454测序仪、Illumina测序仪)。例如,所述数据接收模块可以包括自动化样本制备系统。例如,所述数据接收模块可以包括荧光标记的dNTP、末端修复酶、末端修复反应缓冲液、DNA连接酶、DNA连接缓冲液和/或文库扩增反应液。
在本申请中,所述突变位点可以包括单核苷酸变异(SNV)。在本申请中,所述突变位点可以包含两个以上的核苷酸变异。
在本申请中,所述装置中检测所述突变位点可以包括以下的步骤:(1)从所述样本中获得数据;(2)对步骤(1)所得的数据进行变异识别;(3)对步骤(2)识别的变异进行变异注释;以及,(4)对步骤(3)注释的变异进行过滤,获得突变位点;可选地,对所述突变位点进行质量控制。
在本申请中,所述装置还可以包括输入模块,用以获得所述至少一个长度的所述野生型支持片段的数量,和/或所述对应的相同长度的所述突变型支持片段的数量。
例如,所述输入模块可以输入本申请所述的突变位点。所述输入模块可以输出所述至少一个长度的所述野生型支持片段的数量,和/或所述对应的相同长度的所述突变型支持片段的数量。在本申请中,所述输入模块可以包括能够对特定长度的所述野生型支持片段进行计数的试剂和/或仪器。所述输入模块可以包括能够对特定长度的所述突变型支持片段进行计数的试剂和/或仪器。在本申请中,所述输入模块可以包括能够显示出所述至少一个长度的所述野生型支持片段的数量,和/或所述对应的相同长度的所述突变型支持片段的数量的仪器(例如显示器)和/或输出程序(例如移动端APP),从而可以显示利用所述输入模块获得的野生型和/或突变型支持片段的数量。在本申请中,所述输入模块可以区分所述野生型支持片段和所述突变型支持片段。在本申请中,所述输入模块可以统计不同长度的所述野生型支持片段的数量;以及,统计不同长度的所述野生型支持片段的数量。
在本申请中,所述野生型支持片段和/或所述突变型支持片段的长度的范围可以为约1个核苷酸至约550个核苷酸。例如,可以为约1个核苷酸至约400个核苷酸。例如,可以为约1个核苷酸至约200个核苷酸。
在本申请中,所述计算模块可以输入(例如,可以通过本申请所述输入模块获得的)本申请所述野生型支持片段的数量,以及对应地相同长度的所述突变型支持片段的数量。所述计算模块可以输出本申请所述的差值,例如,所述计算模块可以输出本申请所述Dev(Max)。所述计算模块可以包括用以计算本申请所述差值的计算逻辑和/或计算程序。
在本申请中,在所述计算模块中可以获得所述差值的分布,选择所述分布中的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在本申请中,可以在所述计算模块中平滑化处理所述差值,其中所述平滑化处理可以包括以下步骤:(a)确定平滑化窗口值,其中所述平滑化窗口值为约1-30中的整数;(b)确定若干个长度值等于平滑化窗口值的平滑化取样长度范围,其中每一个平滑化取样长度范围的最小值为起始长度,其中所述起始长度的范围为所述野生型支持片段和/或所述突变型支持片段的长度的范围;(c)获取任意一个平滑化取样长度范围中,至少一个平滑化取样长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;计算相同长度下所述比值WC与所述比值MC的差值;(d)根据所述至少一个平滑化取样长度的所述差值计算该平滑化取样长度范围的平均差值;(e)将步骤(d)将所得的平均差值作为所述该平滑化取样长度范围的代表值。
在本申请中,所述平滑化窗口值可以为约2-6中的整数。例如,所述平滑化窗口值可以为3。
在本申请中,所述平滑化处理可以包括以下步骤:(f)获得步骤(e)所述平均差值的第一分布。
在本申请中,所述平滑化处理可以包括以下步骤:(g)在有效片段区间的长度范围内,将所述第一分布中的每个平均差值依次进行累加,获得加成值,其中,所述有效片段区间的长度覆盖缠绕核小体的核酸序列的长度。
在本申请中,所述核酸序列可以能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内。在本申请中,所述有效片段区间的长度可以为约1-约167个核苷酸,和/或,约200以上个核苷酸。在本申请中,所述有效片段区间的长度可以为约1-约167个核苷酸,和/或,约250-约400个核苷酸。
在本申请中,所述平滑化处理可以包括以下步骤:(h)获得步骤(g)所述加成值的第二分布,计算所述第二分布中所述加成值的最大值。在本申请中,可以将所述加成值的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
在本申请中,所述判断模块可以依据已被进行机器学习训练的机器学习模型获得相关判断结果(例如,所述判断结果可以包括本申请所述体细胞突变的识别结果,和/或本申请所述cfDNA中识别ctDNA的判断结果)。在本申请中,所述判断模块可以输入本申请所述差值(例如所述的Dev(Max))。所述判断模块可以输出所述的相关判断结果。在本申请中,所述判断,模块可以包括已被进行机器学习训练的机器学习模型。其中,所述机器学习模型通使用验证集,以及本申请所述的差值(例如,还可以包括使用本申请所述的参数),利用本申请所述的机器学习模型的训练方法得到。
在本申请中,所述指标和/或训练样本还可以包括以下参数中的一种或多种:所述突变位点所在的染色体位置、所述突变位点的碱基替换模式、所述突变位点的野生型中各个长度的核酸片段的计数值和/或所述突变位点的突变型中各个长度的核酸片段的计数值、所述突变位点的等位变异、受试者的年龄和所述突变位点的突变类型。
在本申请中,所述指标和/或训练样本还可以包括以下参数中的一种或多种:所述SNV位点所在的染色体位置、所述SNV位点的碱基替换模式、所述SNV位点的野生型中各个长度的核酸片段的计数值和/或所述SNV位点的突变型中各个长度的核酸片段的计数值、所述SNV位点的等位变异、受试者的年龄和所述SNV位点的突变类型。
在本申请中,所述装置可以包括所述计算模块和所述判断模块。所述装置可以包括所述计算模块和所述训练模块。
在本申请中,所述装置可以包括所述样品获取模块、所述数据接收模块、所述输入模块、所述计算模块、所述判断模块和所述输出模块。在本申请中,所述样本,以及源自于所述样本的信息和/或计算结果可以自所述样品获取模块、所述数据接收模块、所述输入模块、所述计算模块、所述判断模块和所述输出模块的顺序依次传输。
另一方面,本申请提供了一种电子设备,包括存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令执行以实现本申请所述的区分体细胞突变和种系突变的方法;本申请所述的在cfDNA中识别ctDNA的方法,或者本申请所述的机器学习模型的训练方法。
另一方面,本申请提供了一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行以实现本申请所述的区分体细胞突变和种系突变的方法;本申请所述的在cfDNA中识别ctDNA的方法,或者本申请所述的机器学习模型的训练方法。
例如,所述非易失性计算机可读存储介质可以包括软盘、柔性盘、硬盘、固态存储(SSS)(例如固态驱动(SSD))、固态卡(SSC)、固态模块(SSM))、企业级闪存驱动、磁带或任何其他非临时性磁介质等。非易失性计算机可读存储介质还可以包括打孔卡、纸带、光标片(或任何其他具有孔型图案或其他光学可识别标记的物理介质)、压缩盘只读存储器(CD-ROM)、可重写式光盘(CD-RW)、数字通用光盘(DVD)、蓝光光盘(BD)和/或任何其他非临时性光学介质。
另一方面,本申请提供了一种数据库系统,其包括存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令执行以实现本申请所述的区分体细胞突变和种系突变的方法;本申请所述的在cfDNA中识别ctDNA的方法,或者本申请所述的数据库建立方法。
例如,所述据库系统可以实现各种机制以便确保在数据库系统上执行的本申请所述的方法产生正确的结果。在本申请中,所述数据库系统可以使用磁盘作为永久性数据存储器。在本申请中,所述数据库系统可以为多个数据库客户端提供数据库存储和处理服务。所述数据库客户端可以跨多个共享存储设备存储数据库数据,和/或可以利用具有多个执行节点的一个或更多个执行平台。所述数据库系统可以被组织成使得存储和计算资源可以被有效地无限扩展。
应用
另一方面,本申请提供了一种本申请所述的区分体细胞突变和种系突变的方法在肿瘤家系管理的应用。
另一方面,本申请提供了一种本申请所述的区分体细胞突变和种系突变的方法在肿瘤突变负担(TMB)检测中的应用。
在本申请中,所述方法可以用于判断所述受试者是否具有种系突变。携带某些特定的种系突变的受试者与普通人群相比,可以具有更高的患有肿瘤(例如结直肠癌、子宫内膜癌、胃癌和/或卵巢癌)的终生风险。因此,所述方法可以用于筛选出具有较高风险的受试者。该受试者可以接受肿瘤的个体化监测,从而可以达到早诊早治的目的。
在本申请中,所述方法可以用于通过检测所述TMB,可以用于临床实践(例如可以推测某些特定的肿瘤治疗方式是否适于该受试者)。在某些情况下,所述方法检测出的TMB水平可以与免疫检查点、T细胞炎症标志物等其他生物标志物联合使用于临床实践。
不欲被任何理论所限,下文中的实施例仅仅是为了阐释本申请的融合蛋白、制备方法和用途等,而不用于限制本申请发明的范围。
实施例
实施例1获得本申请所述的突变位点
1.数据准备
a)序列回帖:使用bwa 0.7.10软件中的mem模块将序列映射(mapping)至人类参考基因组GRCh37/hg19上形成比对结果.bam文件。
2.变异识别
使用vardict 1.5.1对SNV进行突变体调用(variant calling),调用参数如下:
a)去除碱基品质(base quality)<30的碱基;
b)去除映射品质(mapping quality)过低的读数,例如<60的读数(reads);
c)去除错配过多的读数(reads),例如:错配超过12个、10个、8个或6个;
d)突变频率不应过小,例如:突变频率>=0.002、0.001、0.0005、0.0002或0.0001;
e)支持突变的读数(reads)>=3、2或1;
3.变异注释
其中包括数据库注释、热点突变(hot)位点注释、突变类型及、人群频率注释。
a)使用ANNOVAR 20160201对变异位点进行注释;
b)注释热点突变(hot)位点:若一个突变在热点突变列表中,则该突变为热点突变,在后续的突变过滤中,热点突变不纳入模型的预测当中;
c)使用SnpEff V4.3对变异进行突变类型的注释;
d)人群频率的注释:给定变异位点,取多种数据库中的人群频率的最大值作为该突变位点的人群频率。
使用的数据库包括但不限于:1000Genomes数据库、ExAC数据库和ESP6500数据库等。。
4.SNV突变过滤
按照一下条件对所有的注释后的突变位点进行注释:
a)人群突变频率的过滤:过滤后保留人群突变频率小于特定值的突变,例如:小于等于0.005、0.002或0.001;
b)热点突变的过滤;
c)克隆性造血突变过滤;
d)最大深度过滤:过滤大于特定测序深度的突变,例如:测序深度大于20000等;
5.SNV突变位点片段质量控制
a)重复序列去除:将PCR扩增过程中产生的重复序列去掉;
b)过滤低质量片段:将碱基质量中位数小于Q20的片段过滤;
c)过滤测序错误的片段:将无法与参考基因组比对的片段过滤;
d)低覆盖深度的突变去除:去除支持片段少于50条的SNV。
实施例2获得本申请所述的差值的方法
2.1
根据实施例1获得的突变位点SNV,按以下的步骤计算本申请所述的差值:
a)野生型支持片段和突变型支持片段的获取:其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为与参考基因组在所述突变位点的对应位置处的核苷酸序列相比相同的序列,其中,所述突变型碱基序列为与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,所述参考基因组为所述基因测序中的人类参考基因组。
b)在特定长度范围内,分别构建所述野生型支持片段和突变型支持片段的分布模式:
在1到400个核苷酸的长度范围内,计算所述野生型支持片段和突变型支持片段的分布分布情况。
c)其中,在特定区间内量化两组之间片段化模式的差异(Dev),计算公式如下:
D=[B1,B4,B7…B397] (2)
公式(1)中的WCi,和MCi分别表示某一个所述突变位点处,长度为i个核苷酸的所述野生型支持片段的数量和长度为i个核苷酸的所述突变型支持片段的数量。
其中,3为所述平滑化窗口值;
其中,j为所述平滑化取样长度范围中的长度值,例如,j可以为1、4、7、10这样的等差数列中的整数;
其中,400为所述野生型支持片段和/或所述突变型支持片段的长度的范围。
换言之,以3为间隔长度,在核苷酸长度为1-400的范围内,按照公式(1)分别计算不同所述长度时的所述比值的累加值,这些比值的集合构成所述第一分布D(即公式(2))。
然后,将所述有效片段区间的长度设定为约1-约167个核苷酸,和/或,约250-约400个核苷酸。在本申请中,所述有效片段区间的长度可以为缠绕核小体的核酸序列的长度。例如,所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内(例如,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约250-约400个核苷酸)。
在所述有效片段的区间内,将所述第一分布D中的各个B的值(即所述比值的累加值)再次依次进行累加,得到所述加成值(即参见公式(3))。
例如,假设所述有效片段的区间的长度为100(即i为100),则在核苷酸的长度为1-100的范围内,计算所述第一分布D中的各个B的值依次的加成值。
所述加成值的集合构成所述第二分布A,并且,将所述第二分布中最大的所述加成值记为Dev(Max)(即参见公式(4))。
Dev=Max(A) (4)
例如,图8显示了针对人4号染色体第20525808处的突变位点C-T,利用实施例2.1所述的方法获得的本申请所述野生型支持片段和所述突变型支持片段的长度的分布频率。
例如,图9显示了针对人5号染色体第56189455处的突变位点G-T,利用实施例2.1所述的方法获得的本申请所述野生型支持片段和所述突变型支持片段的长度的分布频率。
例如,图10显示了针对人17号染色体第7577141处的突变位点C-A,利用实施例2.1所述的方法获得的本申请所述野生型支持片段和所述突变型支持片段的长度的分布频率。
2.2
根据实施例1获得的突变位点SNV,按以下的步骤计算本申请所述的差值:
a)野生型支持片段和突变型支持片段的获取:其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,其中,所述野生型碱基序列为与参考基因组在所述突变位点的对应位置处的核苷酸序列相比相同的序列,其中,所述突变型碱基序列为与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,所述参考基因组为所述基因测序中的人类参考基因组。
b)在特定长度范围内,分别构建所述野生型支持片段和突变型支持片段的分布模式:
在1到400个核苷酸的长度范围内,计算所述野生型支持片段和突变型支持片段的分布分布情况。
c)其中,在特定区间内量化两组之间片段化模式的差异(Dev),计算公式如下:
D=[B1,B2,B3…B400] (2)
公式(1)中的WCi,和MCi分别表示某一个所述突变位点处,长度为i个核苷酸的所述野生型支持片段的数量和长度为i个核苷酸的所述突变型支持片段的数量。
其中,3为所述平滑化窗口值;
其中,j为所述平滑化取样长度范围中的长度值,例如,j可以为1、2、3、4这样的等差数列中的整数;
其中,400为所述野生型支持片段和/或所述突变型支持片段的长度的范围。
换言之,以3为间隔长度,在核苷酸长度为1-400的范围内,按照公式(1)分别计算不同所述长度时的所述比值的累加值,这些比值的集合构成所述第一分布D(即公式(2))。
然后,将所述有效片段区间的长度设定为约1-约167个核苷酸,和/或,约250-约400个核苷酸。在本申请中,所述有效片段区间的长度可以为缠绕核小体的核酸序列的长度。例如,所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内(例如,所述有效片段区间的长度为约1-约167个核苷酸,和/或,约250-约400个核苷酸)。
在所述有效片段的区间内,将所述第一分布D中的各个B的值(即所述比值的累加值)再次依次进行累加,得到所述加成值(即参见公式(3))。
例如,假设所述有效片段的区间的长度为100(即i为100),则在核苷酸的长度为1-100的范围内,计算所述第一分布D中的各个B的值依次的加成值。
所述加成值的集合构成所述第二分布A,并且,将所述第二分布中最大的所述加成值记为Dev(Max)(即参见公式(4))。
Dev=Max(A) (4)
实施例3进行本申请所述的机器学习
(1)将表1中涉及的指标输入至本申请所述机器学习模型以进行机器学习训练。
根据不同的特征所属类型,这些指标可以被划分为7个类型,所述指标均与所述突变位点相关。
表1
a)位置信息:其中包括SNV所在的染色体位置,如,将16号染色体的68771372。
b)碱基替换模式:在单个SNV位点中,由野生型的碱基转化为新引入的突变碱基模式。例如chr3,178935093C>A,碱基的替换模式为“CA”。该特征使用“独热编码”的方法,将理论上12种替换模式均考虑在内,分别是:AT,AC,AG,TA,TC,TG,CA,CT,CG,GA,GT,GC。
c)实施例2获得的Dev值(即可以反映cfDNA的片段化的模式):其还可以表征突变偏移方向的特征Wratio和Mratio。
为了直观显示两组之间的差异,还可以表征Deltaratio。以上三个参数的计算方法分别依次如公式(5)、公式(6)和公式(7)所示。
Deltaratio=Wratio-Mratio (7)
其中,167也可以为160-174中任意的整数。
公式(5)中,Cl>167和分别Cl<167表示长度大于167个核苷酸的所述野生型支持片段的数量,以及长度小于167个核苷酸的所述野生型支持片段的数量,Wratio则表示Cl>167和Cl<167的比值。
公式(6)中,Cl>167和分别Cl<167表示长度大于167个核苷酸的所述突变型支持片段的数量,以及长度小于167个核苷酸的所述突变型支持片段的数量,Mratio则表示Cl>167和Cl<167的比值。
公式(7)则表示Wratio和Mratio的差值。
d)片段计数:其中包含在某一个突变位点中所有的未发生突变的野生型片段,以及该位点发生单碱基突变的所有支持的片段个数。
e)等位变异:该类特征包含两类,即样本频率和人群频率。样本频率指的是在某一个样本中发生突变的等位基因突变频率(Variant Allele Frequency),人群频率(Population Frequency)指的是人群中发生该突变的频率。
f)年龄:即产生该突变的样本年龄。
g)突变类型:即变异注释的结果产生,该类别特征包括以下几个种类:
splice_donor_variant,(剪接供体突变)
synonymous_variant,(同义突变)
stop_gained,(终止子获得)
intron_variant,(内含子突变)
stop_lost,(终止子缺失)
missense_variant,(无义突变)
splice_region_variant,(剪接区域突变)
splice_acceptor_variant,(剪接受体突变)
promoter_region_variant,(启动子区域突变)
start_lost(起始密码子突变)
编码完成后,对每一个特征类型进行z变换,即将所有数值转换为均值为0,方差为1的标准正态分布。
(2)模型训练
模型训练过程中使用python中的机器学习库sklearn v.0.23.2中的ensemble模块
参数设置。设置判别类别分离纯度方法为“entropy”,最大决策树深度由叶节点的最小分离样本个数决定设置为None,节点可分的最小样本数为10,最终的结果由40个决策树投票决定。
实施例4本申请所述的方法对特定肿瘤的应用
真实数据总共包括1309个肺癌血液样本,将这些样本分成一组包含928个样本的训练集,和分别包含191个和190个样本的两组验证集(即分别为图1中的训练集、验证集1和验证集2)。
首先,按照实施例1-3的步骤,采用经过人群频率过滤之后,对训练集中剩余的12173个胚系和5816个体系突变进行建模,获得所述已被进行机器学习训练的机器学习模型。
然后,利用所述已被进行机器学习训练的机器学习模型,分别对上述2个验证集进行模型验证(参见图1)。
训练过程中,将所有17989个突变的20%当量的数据划分成测试集合。在80%的训练集合中,采用了内部5倍的交叉验证来选择所有最优模型的超参数,最终得到每一个最优模型在20%测试集合中的结果。模型的机器训练结果如图2所示。图2中,所述RF(+Dev)或者RF(-Dev)分别指指包含Dev这个参数和不包含这个参数进行机器学习训练的机器学习模型对对上述2个验证集进行模型验证的结果。
结果表明,随机森林在所有的模型表现最优,其AUC值为0.9975。另外,在上述2个验证集中(图3-4)。其中图3-4分别显示了本申请所述已被进行机器学习训练的机器学习模型在验证集1和验证集2中的表现。
由此可见,本申请所述已被进行机器学习训练的机器学习模型也体现了优越的性能,AUC分别达到了0.9973和0.9979,证明了本申请所述方法的泛化能力。
实施例5本申请所述的方法对不同肿瘤的应用
为了证实本申请所述已被进行机器学习训练的机器学习模型可以综合的应用于泛癌种的胚系体系判别,使用了来自11种癌症类型共计1008个样本(样本的具体情况参见图5),经过人群频率等过滤方法,最终纳入考核的包括6647个体系突变和13567个种系突变(图5)。
整体上本申请所述已被进行机器学习训练的机器学习模型对混杂的1008个多癌种测试集具有良好的预测能力,AUC达到了0.9947(参见图6),其中,cfSvG表示申请人开发的算法的名称。
另外,还对该模型在每一种癌种的分类能力进行测试。结果发现,几乎在所有11种癌症中模型的AUC都稳定在0.99以上。但是在膀胱癌数据中,表现略有下降,但是其AUC也达到了0.9886(AUC的结果参见图7)。
本申请所述的方法和/或模型不仅在肺癌种表现良好,并且在泛癌种的分类能力上也具有卓越表现。
以上详细描述了本申请的实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。此外,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
Claims (35)
1.一种用于区分体细胞突变和种系突变的方法,其特征在于,包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,
(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;
其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,
所述突变型支持片段为包含突变型碱基序列的cfDNA片段,
其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,
其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,
其中所述参考基因组为所述基因测序中的人类参考基因组;
(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,
计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;
计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;
(4)将所述差值或差值的集合作为区分所述突变位点为体细胞突变还是种系突变的指标。
2.一种用于在cfDNA中识别ctDNA的方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,
(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;
其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,
所述突变型支持片段为包含突变型碱基序列的cfDNA片段,
其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,
其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,
其中所述参考基因组为所述基因测序中的人类参考基因组;
(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,
计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;
计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;
(4)将所述差值或差值的集合作为识别所述突变位点是否是ctDNA的指标。
3.一种机器学习模型的训练方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,
(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;
其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,
所述突变型支持片段为包含突变型碱基序列的cfDNA片段,
其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,
其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,
其中所述参考基因组为所述基因测序中的人类参考基因组;
(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,
计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;
计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;
(4)将所述差值或差值的集合作为训练的指标输入至所述机器学习模型以进行机器学习训练。
4.一种数据库建立方法,其包括以下步骤:
(1)获取源自受试者样本的至少一个突变位点;其中,所述突变位点通过基因测序的方法获得,
(2)针对每一个所述突变位点,获取野生型支持片段和突变型支持片段;
其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,
所述突变型支持片段为包含突变型碱基序列的cfDNA片段,
其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,
其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,
其中所述参考基因组为所述基因测序中的人类参考基因组;
(3)针对每一个突变位点,获取至少一个长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,
计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;
计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;
(4)将所述差值或差值的集合存储至数据库中,以便区分体细胞突变和种系突变,和/或从cfDNA中识别ctDNA。
5.根据权利要求1-4中任一项所述的方法,其中所述方法仅使用源自受试者的样本,尤其是血液样本。
6.根据权利要求1-5中任一项所述的方法,其中所述突变位点包括单核苷酸变异(SNV)或两个以上的核苷酸变异。
7.根据权利要求1-6中任一项所述的方法,其中所述野生型支持片段和/或所述突变型支持片段的长度的范围为约1个核苷酸至约550个核苷酸,或者约1个核苷酸至约400个核苷酸,或者约1个核苷酸至约200个核苷酸。
8.根据权利要求1-7中任一项所述的方法,其包括以下的步骤:
(4’)获得步骤(3)所述差值的分布,选择所述分布中的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
9.根据权利要求1-8中任一项所述的方法,其包括以下步骤:
(4’)获得步骤(3)所述差值的分布,将其称为第一分布。
10.根据权利要求9所述的方法,其包括以下步骤:
(5)在有效片段区间的长度范围内,将所述第一分布中的每个差值依次进行累加,获得加成值,其中,所述有效片段区间的长度覆盖缠绕核小体的核酸序列的长度。
11.根据权利要求10所述的方法,其中所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内。
12.根据权利要求10-11中任一项所述的方法,其中所述有效片段区间的长度为约1-约167个核苷酸,和/或,约200以上个核苷酸,例如,约250-约400个核苷酸。
13.根据权利要求10-12中任一项所述的方法,其包括以下步骤:
(6)获得步骤(5)所述加成值的第二分布,计算所述第二分布中所述加成值的最大值。
14.根据权利要求13所述的方法,其中将所述加成值的最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
15.根据权利要求1-14中任一项所述的方法,其中所述差值经平滑化处理,其中所述平滑化处理包括以下步骤:
(a)确定平滑化窗口值,其中所述平滑化窗口值为约1-10中的整数;
(b)确定若干个长度值等于平滑化窗口值的平滑化取样长度范围,其中每一个平滑化取样长度范围的最小值为起始长度,
其中所述起始长度的范围为所述野生型支持片段和/或所述突变型支持片段的长度的范围;
(c)获取任意一个平滑化取样长度范围中,至少一个平滑化取样长度的所述野生型支持片段的数量,获取对应的相同长度的所述突变型支持片段的数量,计算该长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值WC;计算相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值MC;
计算相同长度下所述比值WC与所述比值MC的差值;
(d)根据所述至少一个平滑化取样长度的所述差值计算该平滑化取样长度范围的平均差值;
(e)将所得的平均差值作为所述该平滑化取样长度范围的代表值。
16.根据权利要求15所述的方法,其中所述平滑化窗口值为约2-6中的整数,例如,所述平滑化窗口值为3。
17.根据权利要求15-16中任一项所述的方法,其中所述平滑化处理包括以下步骤:
(f)获得步骤(e)所述平均差值的第一分布。
18.根据权利要求17所述的方法,其中所述平滑化处理包括以下步骤:
(g)在有效片段区间的长度范围内,将所述第一分布中的每个平均差值依次进行累加,获得加成值,
其中,所述有效片段区间的长度为缠绕核小体的核酸序列的长度。
19.根据权利要求18所述的方法,其中所述核酸序列能够缠绕核小体2周以上,或者,能够缠绕核小体1周以内。
20.根据权利要求18-19中任一项所述的方法,其中所述有效片段区间的长度为约1-约167个核苷酸,和/或,约200以上个核苷酸,例如,约250-约400个核苷酸。
21.根据权利要求18-20中任一项所述的方法,其中所述平滑化处理包括以下步骤:
(h)获得步骤(g)所述加成值的第二分布,计算所述第二分布中所述加成值的最大值。
22.根据权利要求21所述的方法,其中将所述最大值作为Dev(Max),将所述Dev(Max)作为所述区分的指标和/或作为所述训练样本。
23.根据权利要求1-22中任一项所述的方法,其中所述指标还包括选自下组参数中的一种或多种:所述突变位点所在的染色体位置、所述突变位点的碱基替换模式、所述突变位点的野生型中各个长度的核酸片段的计数值和/或所述突变位点的突变型中各个长度的核酸片段的计数值、所述突变位点的等位变异、受试者的年龄和所述突变位点的突变类型。
24.根据权利要求1-23中任一项所述的方法,其中所述指标还包括选自下组参数中的一种或多种:所述SNV位点所在的染色体位置、所述SNV位点的碱基替换模式、所述SNV位点的野生型中各个长度的核酸片段的计数值和/或所述SNV位点的突变型中各个长度的核酸片段的计数值、所述SNV位点的等位变异、受试者的年龄和所述SNV位点的突变类型。
25.根据权利要求1-24中任一项所述的方法,其中检测所述突变位点包括以下的步骤:
(1)从所述样本中获得数据;
(2)对步骤(1)所得的数据进行变异识别;
(3)对步骤(2)识别的变异进行变异注释;以及,
(4)对步骤(3)注释的变异进行过滤,获得突变位点;可选地,对所述突变位点进行质量控制。
26.区分体细胞突变和种系突变的装置,其包括:
计算模块,用于计算相同长度的比值WC与比值MC的差值;
其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;
所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;
其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;
其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,
其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,
其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,
其中,所述参考基因组为所述基因测序中的人类参考基因组;
所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,
判断模块,用于依据已被进行机器学习训练的机器学习模型获得识别所述体细胞突变的识别结果,
其中所述机器学习训练包括将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
27.在cfDNA中识别ctDNA的装置,其包括:
计算模块,用于计算相同长度的比值WC与比值MC的差值;
其中,针对每一个突变位点,根据至少一个长度的野生型支持片段的数量,以及对应的相同长度的突变型支持片段的数量;
所述比值WC为一个长度的所述野生型支持片段的数量与所述野生型支持片段的总数量的比值;
其中所述比值MC为对应的相同长度的所述突变型支持片段的数量与所述突变型支持片段的总数量的比值;
其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,
其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,
其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,
其中,所述参考基因组为所述基因测序中的人类参考基因组;
所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,
判断模块,用于依据已被进行机器学习训练的机器学习模型获得从所述cfDNA中识别ctDNA的判断结果,
其中所述机器学习训练包括将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
28.一种机器学习模型的训练装置,其包括:
计算模块,用于计算相同长度的野生型支持片段的数量与突变型支持片段的数量的差值;其中,所述野生型支持片段的数量包括针对每一个突变位点,至少一个长度的所述野生型支持片段的数量,所述突变型支持片段的数量包括对应的相同长度的所述突变型支持片段的数量,
其中,所述野生型支持片段为包含野生型碱基序列的cfDNA片段,所述突变型支持片段为包含突变型碱基序列的cfDNA片段,
其中,所述野生型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,相同的序列,
其中,所述突变型碱基序列为,与参考基因组在所述突变位点的对应位置处的核苷酸序列相比,不同的序列,
其中,所述参考基因组为所述基因测序中的人类参考基因组;
所述突变位点源自受试者样本,其中,所述突变位点通过基因测序的方法获得,训练模块,用于将所述差值作为训练样本输入至所述机器学习模型以进行机器学习训练。
29.根据权利要求26-28中任一项所述的装置,其还包括:
输出模块,用以显示所述判断模块产生的所述体细胞突变的识别结果和/或所述识别ctDNA的判断结果。
30.根据权利要求26-29中任一项所述的装置,其还包括输入模块,
用以获得所述至少一个长度的所述野生型支持片段的数量,和/或所述对应的相同长度的所述突变型支持片段的数量。
31.电子设备,包括存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令执行以实现权利要求1、5-25中任一项所述的区分体细胞突变和种系突变的方法;权利要求2、5-25中任一项所述的在cfDNA中识别ctDNA的方法,或者权利要求3、5-25中任一项所述的机器学习模型的训练方法。
32.非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行以实现权利要求1、5-25中任一项所述的区分体细胞突变和种系突变的方法;权利要求2、5-25中任一项所述的在cfDNA中识别ctDNA的方法,或者权利要求3、5-25中任一项所述的机器学习模型的训练方法。
33.一种数据库系统,其包括存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令执行以实现权利要求1、5-25中任一项所述的区分体细胞突变和种系突变的方法;权利要求2、5-25中任一项所述的在cfDNA中识别ctDNA的方法,或者权利要求4-25中任一项所述的数据库建立方法。
34.权利要求1、5-25中任一项所述的区分体细胞突变和种系突变的方法在肿瘤家系管理的应用。
35.权利要求1、5-25中任一项所述的区分体细胞突变和种系突变的方法在肿瘤突变负担(TMB)检测中的应用。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679099 | 2021-06-18 | ||
CN2021106790992 | 2021-06-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497556A true CN115497556A (zh) | 2022-12-20 |
Family
ID=84464021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210614536.7A Pending CN115497556A (zh) | 2021-06-18 | 2022-05-31 | 一种用于区分体细胞突变和种系突变的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115497556A (zh) |
WO (1) | WO2022262569A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3795696B1 (en) * | 2013-03-15 | 2023-04-26 | The Board of Trustees of the Leland Stanford Junior University | Identification and use of circulating nucleic acid tumor markers |
US20170058332A1 (en) * | 2015-09-02 | 2017-03-02 | Guardant Health, Inc. | Identification of somatic mutations versus germline variants for cell-free dna variant calling applications |
EP3625341A4 (en) * | 2017-05-16 | 2021-05-19 | Guardant Health, Inc. | IDENTIFICATION OF SOMATIC ORIGIN OR GERMINAL LINE OF CELLLESS DNA |
CN111278993A (zh) * | 2017-09-15 | 2020-06-12 | 加利福尼亚大学董事会 | 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测 |
KR20200057024A (ko) * | 2017-09-20 | 2020-05-25 | 가던트 헬쓰, 인크. | 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템 |
SG11202100344WA (en) * | 2018-07-23 | 2021-02-25 | Guardant Health Inc | Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage |
CN113278706B (zh) * | 2021-07-23 | 2021-11-12 | 广州燃石医学检验所有限公司 | 一种用于区分体细胞突变和种系突变的方法 |
-
2022
- 2022-05-31 WO PCT/CN2022/096125 patent/WO2022262569A1/zh unknown
- 2022-05-31 CN CN202210614536.7A patent/CN115497556A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022262569A1 (zh) | 2022-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Coster et al. | Towards population-scale long-read sequencing | |
US11043283B1 (en) | Systems and methods for automating RNA expression calls in a cancer prediction pipeline | |
CN110168648A (zh) | 序列变异识别的验证方法和系统 | |
CN106575321A (zh) | 用于基因组分析的方法和系统 | |
Dickson et al. | Targeted RNA sequencing: a routine ancillary technique in the diagnosis of bone and soft tissue neoplasms | |
CN113366577A (zh) | 通过片段尺寸分析增强的对靶dna的检测 | |
JP2021505977A (ja) | 体細胞突然変異のクローン性を決定するための方法及びシステム | |
CN113278706B (zh) | 一种用于区分体细胞突变和种系突变的方法 | |
US20230287487A1 (en) | Systems and methods for genetic identification and analysis | |
WO2023115662A1 (zh) | 一种变体核酸的检测方法 | |
US20210358626A1 (en) | Systems and methods for cancer condition determination using autoencoders | |
Storvall et al. | Efficient and comprehensive representation of uniqueness for next-generation sequencing by minimum unique length analyses | |
CA3170277A1 (en) | Cancer classification with synthetic training samples | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN111540410B (zh) | 用于预测个体的吸烟状况的系统和方法 | |
CN113789371A (zh) | 一种基于批次矫正的拷贝数变异的检测方法 | |
CN114067908B (zh) | 一种评估单样本同源重组缺陷的方法、装置和存储介质 | |
CN114694752B (zh) | 预测同源重组修复缺陷的方法、计算设备和介质 | |
JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN115497556A (zh) | 一种用于区分体细胞突变和种系突变的方法 | |
CN113159529A (zh) | 一种肠道息肉的风险评估模型及相关系统 | |
Sun et al. | Mapping of expression quantitative trait loci using RNA-seq data | |
CN117935933B (zh) | Cdkn2a/b纯合性缺失的分析方法及系统 | |
JP7498793B2 (ja) | 合成トレーニングサンプルによるがん分類 | |
Padre | Modeling Sequencing Artifacts in Artificial Low Frequency Cancer Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40085687 Country of ref document: HK |