CN116153394A - 检测snv的装置和方法 - Google Patents

检测snv的装置和方法 Download PDF

Info

Publication number
CN116153394A
CN116153394A CN202111393055.XA CN202111393055A CN116153394A CN 116153394 A CN116153394 A CN 116153394A CN 202111393055 A CN202111393055 A CN 202111393055A CN 116153394 A CN116153394 A CN 116153394A
Authority
CN
China
Prior art keywords
sample
cancer
vaf
function
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111393055.XA
Other languages
English (en)
Inventor
任兴
叶亦舟
杨韩雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai 3D Medicines Co Ltd
Original Assignee
Shanghai 3D Medicines Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai 3D Medicines Co Ltd filed Critical Shanghai 3D Medicines Co Ltd
Priority to CN202111393055.XA priority Critical patent/CN116153394A/zh
Publication of CN116153394A publication Critical patent/CN116153394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开内容涉及以高准确性检测样本中目标基因的SNV的方法、装置和系统。

Description

检测SNV的装置和方法
技术领域
本发明属于基因检测技术领域,尤其涉及以高准确性检测样本中目标基因的SNV的方法、系统和装置。
背景技术
基因变异是影响肿瘤发生和进展的关键因素。高通量测序(Next GenerationSequencing,NGS)是目前主流和最具前景的检测肿瘤细胞变异位置和类型的技术手段。变异的多种类型里,以单核苷酸变异(single nucleotide variation, SNV)最为常见。NGS的SNV分析流程分为以下几个步骤:
1) 去除下机数据中低质量序列和外源序列(例如测序接头和分子标签),
2) 通过序列比对软件比对回参考基因组,并对来源于同一个DNA模板的序列去重,得到去重后的BAM文件,
3) 将BAM文件中携带变异位点的信号和背景噪音作比较,当变异位点信号显著高于背景噪音时,则判定为该位点突变为阳性。
上述步骤3)中,背景噪音的模型和估计值是否准确直接影响结果的准确性。NGS数据中包括各种实验因素产生的错误(统称为背景噪音),影响数据分析的准确性,故判定肿瘤SNV需要对实验中背景噪音做出准确估计。目前通常的估计方法是通过采集一定数量的正常人样本(panel of normal, PON),把PON中的信号当成背景噪音,建立背景噪音的统计模型。
现有技术已有的LoLoPicker方案使用正常人样本作为PON,通过K均值聚类(k-means)算法过滤掉可能存在的真实变异,再用二项式模型估计背景噪音。
在现有的技术框架下,PON方法存在如下几个主要缺点:1)PON的样本数通常很有限,无法对背景噪音做出准确的评估;2)PON的样本通常选择健康人群,而医院肿瘤科室临床样本通常来自于癌症患者或者高风险人群,其背景噪音在部分基因上存在差异;3)当PON选定后,背景噪音模型也随之固定,检测服务提供方无法对其及时更新。
本发明目的在于解决上述三个问题。对背景噪音的估计将不再采用健康人群的PON,而是用检测服务提供方积累的肿瘤患者的临床样本,从而获得更准确的噪音估计模型。
发明内容
本申请人发明人首创性地利用临床样本而非健康人样本建立背景噪音模型;并提出新型的截断统计模型,保证了用于模型拟合的阴性样本的真实性,进而得到更准确的背景噪音估计值;同时利用不断积累的临床样本逐步优化噪音估计。
在此基础上,本发明提供了一种以高准确性检测样本中目标基因的SNV的方法、系统和装置,保证只有高度确定的阴性样本被用于估算噪音,进而得到更准确的背景噪音估计值。
本发明的方法主要包括以下四个步骤:1)从BAM文件提取位点信息;2)确定阴性样本的阈值;3)对阴性样本建立统计模型并做参数估计;和4)对受检样本在该位点是否存在变异做出判定。
相比于现有技术,本发明至少有如下优点:
1)相比由正常人样本组成的PON,本发明使用的临床样本更能代表肿瘤样本的复杂性;
2)现有技术的聚类方法并不能完全去除真实变异,会混杂真实的低频变异。本发明建立的选择阈值的方法可以保证只有高度确定的阴性样本被用于估算噪音;
3)本发明所建立的截断贝塔二项式模型更有弹性,更适合跨样本的噪音估计;
4)根据本发明,检测提供方可以根据临床样本的积累及时更新背景噪音的评估模型。
在第一方面,本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的装置,所述装置包括:测序数据读入模块,用于实施步骤(A)对原始测序数据进行质控,比对到参考基因组并去重,生成存储测序片段(reads)信息的BAM文件;
VAF计算模块,用于实施步骤(B)从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x i )和测序深度(n i ),通过x i /n i 计算变异频率VAF;
阈值确定模块,用于实施步骤(C)通过该位点的VAF分布的高斯平滑核函数计算阈值c,将不超过c的样本划分为阴性;
背景噪音估计模块,用于实施步骤(D)选取阴性样本的x i 和n i ,对截断贝塔-二项式分布做拟合,用最大似然值方法估计背景噪音参数θ;
SNV判定模块,用于实施步骤(E)确定变异reads数(x i )的阈值,将超过阈值的样本判定为变异。
在一个实施方案中,仅当x i /n i ≤ c时,用于估计背景噪音的样本中不存在真实变异。
在一个实施方案中,在步骤(C)中,如下设定阈值c:记t i = log(x i / n i ),对t i 的分布做高斯核平滑:
Figure 100002_DEST_PATH_IMAGE002
其中m为样本数,σ 2为高斯核函数方差,exp()为指数函数,K(t)为核平滑后的t i 的分布函数;
K(t)分别寻找最大值和局部最小值:
Figure 100002_DEST_PATH_IMAGE004
选取VAF < t l 的样本,设定阈值c为这部分样本VAF的80%分位数。
在一个实施方案中,步骤(D)如下进行:对所有阴性样本(包括VAF ≤ c 和VAF >c)的x i n i 建立统计模型:
Figure 100002_DEST_PATH_IMAGE006
其中
Figure 100002_DEST_PATH_IMAGE008
为贝塔二项式(beta-binomial)的概率质量函数,/>
Figure 100002_DEST_PATH_IMAGE010
为模型的二维参数,/>
Figure 100002_DEST_PATH_IMAGE012
为贝塔(Beta)函数,/>
Figure 100002_DEST_PATH_IMAGE014
为伽玛(Gamma)函数,!为阶乘符:
Figure 100002_DEST_PATH_IMAGE016
另外记
Figure 100002_DEST_PATH_IMAGE018
为贝塔二项式的累积分布函数:
Figure 100002_DEST_PATH_IMAGE020
排除步骤(C)中x i / n i > c的临床样本后,变异数
Figure 100002_DEST_PATH_IMAGE022
的统计分布变成右截断的贝塔二项式分布:
Figure 100002_DEST_PATH_IMAGE024
用最大似然值方法估计背景噪音参数
Figure 100002_DEST_PATH_IMAGE026
:/>
Figure 100002_DEST_PATH_IMAGE028
为对数似然函数,当/>
Figure 100002_DEST_PATH_IMAGE030
时,
Figure 100002_DEST_PATH_IMAGE032
取最大值,/>
Figure 100002_DEST_PATH_IMAGE034
即为背景噪音的最大似然估计值,并且/>
Figure DEST_PATH_IMAGE034A
决定背景噪音分布,
Figure 100002_DEST_PATH_IMAGE036
在一个实施方案中,步骤(E)如下进行:对于受检样本(x, n),当p值小于设定的假阳性率阈值α时判定该样本为阳性
Figure 100002_DEST_PATH_IMAGE038
在一个实施方案中,所述样本为肿瘤样本,并且所述肿瘤选自实体瘤。
在一个实施方案中,其中所述泛癌肿实体瘤选自卵巢癌、乳腺癌、结直肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、子宫颈癌、膀胱癌、肾癌、黑素瘤和头颈癌等。
在一个实施方案中,所述目标基因为原始测序数据包含的任一基因。
在一个实施方案中,所述目标基因为BRAF基因,并且所述位点为V600E位点。
在第二方面,本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的方法,所述方法包括:
测序数据读入步骤(A):对原始测序数据进行质控,比对到参考基因组并去重,生成存储测序片段(reads)信息的BAM文件;
VAF计算步骤(B):从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x i )和测序深度(n i ),通过x i /n i 计算变异频率VAF;
阈值确定步骤(C):通过该位点的VAF分布的高斯平滑核函数计算阈值c,将不超过c的样本划分为阴性;
背景噪音估计步骤(D):选取阴性样本的x i 和n i ,对截断贝塔-二项式分布做拟合,用最大似然值方法估计背景噪音参数θ;
SNV判定步骤(E):确定变异reads数(x i )的阈值,将超过阈值的样本判定为变异。
在一个实施方案中,仅当x i /n i ≤ c时,用于估计背景噪音的样本中不存在真实变异。
在一个实施方案中,在步骤(C)中,如下设定阈值c:记t i = log(x i / n i ),对t i 的分布做高斯核平滑:
Figure 100002_DEST_PATH_IMAGE040
其中m为样本数,σ 2为高斯核函数方差,exp()为指数函数,K(t)为核平滑后的t i 的分布函数;
K(t)分别寻找最大值和局部最小值:
Figure DEST_PATH_IMAGE042
选取VAF < t l 的样本,设定阈值c为这部分样本VAF的80%分位数。
在一个实施方案中,步骤(D)如下进行:对所有阴性样本(包括VAF ≤ c 和VAF >c)的x i n i 建立统计模型:
Figure DEST_PATH_IMAGE044
其中
Figure DEST_PATH_IMAGE045
为贝塔二项式(beta-binomial)的概率质量函数,/>
Figure DEST_PATH_IMAGE047
为模型的二维参数,/>
Figure DEST_PATH_IMAGE049
为贝塔(Beta)函数,/>
Figure DEST_PATH_IMAGE051
为伽玛(Gamma)函数,!为阶乘符:
Figure DEST_PATH_IMAGE053
另外记
Figure DEST_PATH_IMAGE055
为贝塔二项式的累积分布函数:/>
Figure DEST_PATH_IMAGE057
排除步骤(C)中x i / n i > c的临床样本后,变异数
Figure DEST_PATH_IMAGE059
的统计分布变成右截断的贝塔二项式分布:
Figure DEST_PATH_IMAGE061
用最大似然值方法估计背景噪音参数
Figure DEST_PATH_IMAGE063
:/>
Figure DEST_PATH_IMAGE065
为对数似然函数,当/>
Figure DEST_PATH_IMAGE067
时,
Figure DEST_PATH_IMAGE069
取最大值,/>
Figure DEST_PATH_IMAGE071
即为背景噪音的最大似然估计值,并且/>
Figure DEST_PATH_IMAGE071A
决定背景噪音分布,
Figure DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE075
在一个实施方案中,步骤(E)如下进行:对于受检样本(x, n),当p值小于设定的假阳性率阈值α时判定该样本为阳性
Figure DEST_PATH_IMAGE077
在一个实施方案中,所述样本为肿瘤样本,并且所述肿瘤选自实体瘤。
在一个实施方案中,其中所述泛癌肿实体瘤选自卵巢癌、乳腺癌、结直肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、子宫颈癌、膀胱癌、肾癌、黑素瘤和头颈癌等。
在一个实施方案中,所述目标基因为BRAF基因,并且所述位点为V600E位点。
在一个实施方案中,所述目标基因为原始测序数据包含的任一基因。
在第三方面,本公开内容提供了一种用于实施根据第二方面所述的任一种方法的计算机系统,其包括:
输入设备,用于输入样本核酸序列的测序信息;
计算机存储器,用于存储计算机程序指令;
计算机处理器,用于执行所述计算机程序指令,其中所述计算机程序指令实施所述SNV检测,并将结果传输到输出设备;和
输出设备,用于显示所述结果。
在第四方面,本公开内容提供了一种计算机可读介质,其中
所述计算机可读介质存储有计算机程序,
其中所述计算机程序能被计算机处理器执行以实施根据第二方面所述的任一种方法。
下列描述和实施例详细阐述了本发明的实施方案。要理解的是,本发明不限于本文所述的具体实施方案并因此可改动。本领域技术人员将认识的是,存在本发明的许多变动和修改,所述变动和修改均包含在其范围之内。
附图说明
图1是根据本公开内容的一个实施方案的流程图,包括1)从BAM文件提取位点信息;2)确定阴性样本的阈值;3)对阴性样本建立统计模型并做参数估计;和4)对受检样本在该位点是否存在变异做出判定。
具体实施方式
本申请人发明人首创性地利用临床样本而非健康人样本建立背景噪音模型并提出新型的截断统计模型。而且,所述背景噪音模型和截断统计模型保证了用于模型拟合的阴性样本的真实性,进而得到更准确的背景噪音估计值,同时能够利用不断积累的临床样本逐步优化噪音估计。
如上所述,现有技术的方案使用正常人样本作为PON,并不能完全去除真实变异,因而无法对背景噪音做出准确的评估。本公开内容意想不到地克服了这些现有技术的缺点。
相应地,本公开内容提供了一种以高准确性检测样本中目标基因的SNV的方法、系统和装置,保证只有高度确定的阴性样本被用于估算噪音,进而得到更准确的背景噪音估计值。
相比于现有技术,本发明至少有如下优点:
1)相比由正常人样本组成的PON,本发明使用的临床样本更能代表肿瘤样本的复杂性;
2)现有技术的聚类方法并不能完全去除真实变异,会混杂真实的低频变异。本发明建立的选择阈值的方法可以保证只有高度确定的阴性样本被用于估算噪音;
3)本发明所建立的截断贝塔二项式模型更有弹性,更适合跨样本的噪音估计;
4)根据本发明,检测提供方可以根据临床样本的积累及时更新背景噪音的评估模型。
在第一方面,本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的装置,所述装置包括:测序数据读入模块,用于实施步骤(A)对原始测序数据进行质控,比对到参考基因组并去重,生成存储测序片段(reads)信息(序列、位置、质量等信息)的BAM文件;
VAF计算模块,用于实施步骤(B)从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x i ) (即,该位置碱基与参考基因组不一致的reads)和测序深度(n i ),通过x i /n i 计算变异频率VAF;
阈值确定模块,用于实施步骤(C)通过该位点的VAF分布的高斯平滑核函数计算阈值c,将不超过c的样本划分为阴性;
背景噪音估计模块,用于实施步骤(D)选取阴性样本的x i 和n i ,对截断贝塔-二项式分布做拟合,用最大似然值方法估计背景噪音参数θ;
SNV判定模块,用于实施步骤(E)确定变异reads数(x i )的阈值,将超过阈值的样本判定为变异。
在一个实施方案中,仅当x i /n i ≤ c时,用于估计背景噪音的样本中不存在真实变异。
在一个实施方案中,在步骤(C)中,如下设定阈值c:记t i = log(x i / n i ),对t i 的分布做高斯核平滑:
Figure DEST_PATH_IMAGE079
其中m为样本数,σ 2为高斯核函数方差,exp()为指数函数,K(t)为核平滑后的t i 的分布函数;
K(t)分别寻找最大值和局部最小值:
Figure DEST_PATH_IMAGE081
选取VAF < t l 的样本,设定阈值c为这部分样本VAF的80%分位数。
在一个实施方案中,步骤(D)如下进行:对所有阴性样本(包括VAF ≤ c 和VAF >c)的x i n i 建立统计模型:
Figure DEST_PATH_IMAGE083
其中
Figure DEST_PATH_IMAGE085
为贝塔二项式(beta-binomial)的概率质量函数,/>
Figure DEST_PATH_IMAGE087
为模型的二维参数,/>
Figure DEST_PATH_IMAGE089
为贝塔(Beta)函数,/>
Figure DEST_PATH_IMAGE091
为伽玛(Gamma)函数,!为阶乘符:
Figure DEST_PATH_IMAGE093
另外记
Figure DEST_PATH_IMAGE095
为贝塔二项式的累积分布函数:
Figure DEST_PATH_IMAGE097
排除步骤(C)中x i / n i > c的临床样本后,变异数
Figure DEST_PATH_IMAGE099
的统计分布变成右截断的贝塔二项式分布:
Figure DEST_PATH_IMAGE101
用最大似然值方法估计背景噪音参数
Figure DEST_PATH_IMAGE103
:/>
Figure DEST_PATH_IMAGE105
为对数似然函数,当/>
Figure DEST_PATH_IMAGE107
时,
Figure DEST_PATH_IMAGE109
取最大值,/>
Figure DEST_PATH_IMAGE111
即为背景噪音的最大似然估计值,并且/>
Figure DEST_PATH_IMAGE112
决定背景噪音分布,/>
Figure DEST_PATH_IMAGE114
在一个实施方案中,步骤(E)如下进行:对于受检样本(x, n),当p值小于设定的假阳性率阈值α时判定该样本为阳性
Figure DEST_PATH_IMAGE116
在一个实施方案中,所述样本为肿瘤样本,并且所述肿瘤选自实体瘤。
在一个实施方案中,所述肿瘤选自泛癌肿实体瘤,包括卵巢癌、乳腺癌、结直肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、子宫颈癌、膀胱癌、肾癌、黑素瘤和头颈癌等。
在一个实施方案中,所述目标基因为原始测序数据包含的任一基因。
在一个更具体实施方案中,所述目标基因为BRAF基因,并且所述位点为V600E位点。
在第二方面,本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的方法。参考图1,步骤1对应于
测序数据读入步骤(A):对原始测序数据进行质控,比对到参考基因组并去重,生成存储测序片段(reads)信息的BAM文件;
VAF计算步骤(B):从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x i )和测序深度(n i ),通过x i /n i 计算变异频率VAF;
步骤2对应于
阈值确定步骤(C):通过该位点的VAF分布的高斯平滑核函数计算阈值c,将不超过c的样本划分为阴性;
步骤3对应于
背景噪音估计步骤(D):选取阴性样本的x i 和n i ,对截断贝塔-二项式分布做拟合,用最大似然值方法估计背景噪音参数θ;
步骤4对应于
SNV判定步骤(E):确定变异reads数(x i )的阈值,将超过阈值的样本判定为变异。
在一个更具体实施方案中,步骤1-4如下进行:
1)对于疑似变异位点,从样本i去重后的BAM文件中提取该位点含有变异的片段数x i 和测序深度n i ,变异频率(VAF)为x i / n i
2)由于临床样本中存在大量真实变异的位点,包括低频变异,所以需要排除后才能准确计算背景噪音。寻找阈值c,仅当x i / n i c时才认为样本不存在真实变异,否则有一定概率存在变异。记t i = log(x i / n i ),对t i 的分布做高斯核平滑:
Figure DEST_PATH_IMAGE118
其中m为样本数,σ 2为高斯核函数方差,exp()为指数函数。
K(t)分别寻找最大值和局部最小值:
Figure DEST_PATH_IMAGE120
选取VAF < t l 的样本,设定阈值c为这部分样本VAF的80%分位数。
3)对x i n i 建立统计模型:
Figure DEST_PATH_IMAGE122
其中
Figure DEST_PATH_IMAGE124
为贝塔二项式(beta-binomial)的概率质量函数,/>
Figure DEST_PATH_IMAGE126
为模型的二维参数,/>
Figure DEST_PATH_IMAGE128
为贝塔(Beta)函数,/>
Figure DEST_PATH_IMAGE130
为伽玛(Gamma)函数,!为阶乘符:
Figure DEST_PATH_IMAGE132
另外记
Figure DEST_PATH_IMAGE134
为贝塔二项式的累积分布函数:
Figure DEST_PATH_IMAGE136
排除2)中x i / n i > c的临床样本后,变异数
Figure DEST_PATH_IMAGE138
的统计分布变成右截断的beta-binomial分布:
Figure DEST_PATH_IMAGE140
用最大似然值方法估计背景噪音参数
Figure DEST_PATH_IMAGE142
。/>
Figure DEST_PATH_IMAGE144
为对数似然函数,当/>
Figure DEST_PATH_IMAGE146
时,
Figure DEST_PATH_IMAGE148
取最大值,/>
Figure DEST_PATH_IMAGE150
即为背景噪音的最大似然估计值。
Figure DEST_PATH_IMAGE152
4)对于受检样本(x, n), 当p值小于设定的假阳率阈值α时判定该样本为阳性
Figure DEST_PATH_IMAGE154
本文所用的术语仅以描述具体的实施方案为目的而不意图限制本发明。除非上下文另有明确指示,否则本文所用的单数形式“一”、“一个”和“所述”也意图包括复数形式。此外,开放式的表述“包括”和“包含”解释为还可以含有没有述及的结构组成部分或方法步骤,但需要注意的是,该开放式的表述也涵盖仅由所述的组分和方法步骤组成的情形(即涵盖了封闭式表述“由……组成”的情形)。
如全文所用,范围用作描述该范围内的每个数值和所有数值的简写形式。范围内的任何数值例如整数值、以十分之一递增的值(当范围的端值为小数点后一位时)或以百分之一递增的值(当范围的端值为小数点后二位时)都可选做该范围的终点。例如,范围0.1-10用作描述该范围内的所有数值,例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8……9.5、9.6、9.7、9.8、9.9和10 (以十分之一递增的值),并且包括所有子范围,例如0.1-1.0、2.0-3.0、4.0-5.0、6.0-7.0、8.0-9.0等。
本说明书中提及的所有科学技术术语具有与本领域技术人员通常理解的含义相同的含义,在冲突的情况下以本说明书中的定义为准。为了使本发明的描述更易于理解,以下先对一些术语进行解释说明。
本文所述的术语“高通量测序”又可以称为下一代测序技术(Next GenerationSequencing, NGS)、大规模平行测序(Massively Parallel Sequencing(MPS)),是指采用“边合成边测序”的原理、对于几十万到几百万DNA分子同时进行平行的测序反应,然后通过生物信息学分析所得到的原始图像数据或电化学信号、最终得到待测样品的核酸序列或拷贝数等信息的测序技术,又称为高通量测序、深度测序、二代测序等。高通量测序的基本程序是将待测DNA随机打断成小片段,经末端修复、连接接头序列、PCR等步骤进行文库构建,最后使用Illumina,Ion Torrent等测序仪进行测序。
本文所述的术语“突变/变异”是指在生物或细胞的基因组中的遗传改变。例如,目的突变/变异可以是相对于生物生殖系的变化,例如癌细胞特异性变化。突变/变异可包括单核苷酸变异(SNV)、拷贝数变异(CNV)、单核苷酸多态性(SNP)、插入、缺失和重排(例如FUSION(融合))。
本文所述的术语“SNV (single nucleotide variant,单核苷酸变异)”是一种体细胞单核苷酸突变。
本文所述的术语“癌症”和“肿瘤”在本文中可交换使用以及可以指表现出自发的不受调控生长的细胞或组织,由此所述细胞或组织表现出以增加的细胞增殖(例如显著的细胞增殖)为特征的异常生长。用于本申请的检测、分析或处理的目的细胞可包括但不限于癌前细胞(例如良性细胞)、恶性细胞、转移前细胞、转移性细胞和非转移性细胞。事实上各组织的癌症均为本领域技术人员已知的,包括实体瘤,例如肉瘤、成胶质细胞瘤、黑素瘤、淋巴瘤、骨髓瘤等,以及循环癌症,例如白血病。癌症的实例包括但不限于卵巢癌、乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、子宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、癌瘤、黑素瘤、头颈癌和脑癌。
虽然上文已描述了本发明的各种实施方案,但是应理解的是,其仅以实例的方式提供,而并非限制。对公开的实施方案的许多改变可依照本文的公开内容来进行,而不会背离本发明的精神或范围。因此,本发明的广度和范围不应受到任何上述的实施方案所限制。
本文提及的所有文献都通过引用结合到本文中。本申请引用的所有出版物和专利文件都为所有目的而通过引用结合,引用程度如同单独地指出各个出版物或专利文件一样。
实施例
除非另外说明,否则本文实施例所用的材料均为送检的肿瘤样本,用于进行实验的各种具体实验方法均为本领域常规的实验方法或者按照制造商所建议的步骤和条件,并能由本领域技术人员根据需要常规地确定。
实施例1:泛癌肿实体瘤样本中BRAF基因的V600E位点的SNV检测
鼠类肉瘤滤过性毒菌致癌同源体(BRAF)基因编码的蛋白由783个氨基酸组成,V600E突变是位于第15号外显子上的单个胸腺嘧啶突变成腺嘌呤,导致编码蛋白第600位密码子的缬氨酸(V)被谷氨酸(E)取代。BRAF V600E突变对多种肿瘤的发生、发展及预后有重要影响。
利用本发明提供的方法检测BRAF V600E SNV。具体过程如下:
(1). 运行测序数据读入模块,对原始测序数据进行质控,参考基因组比对,去重,生成BAM文件。运行VAF计算模块,从BAM文件提取覆盖BRAF V600E位点的变异reads数(x i )和总reads数(n i )。从6580个泛癌肿实体瘤样本得到6580个数据点(x,n): (0,460),(1,1105),(0,537),…。
(2). 运行阈值确定模块,通过x/n分布的高斯平滑核函数计算阴性阈值c。6580个样本中共有392个样本x > 0:(1,1105),(67,240),(220,661),…。 把这部分样本的(x,n)带入计算
Figure DEST_PATH_IMAGE156
。当/>
Figure DEST_PATH_IMAGE158
时,/>
Figure DEST_PATH_IMAGE160
取最大值,故/>
Figure DEST_PATH_IMAGE162
。当/>
Figure DEST_PATH_IMAGE164
Figure DEST_PATH_IMAGE166
取局部最小值,故/>
Figure DEST_PATH_IMAGE168
。选择非零且小于/>
Figure DEST_PATH_IMAGE170
x/n:1/1105,1/129,1/223,…。80%的分位数为/>
Figure DEST_PATH_IMAGE172
,x/n ≤ c的样本即为选择建模的阴性样本。
(3). 运行背景噪音估计模块,选取阴性样本的x i 和n i ,对截断分布做拟合,估计背景噪音参数。共有6499个样本的x/nc。将这部分样本的(x,n)和
Figure DEST_PATH_IMAGE174
带入
Figure DEST_PATH_IMAGE176
,当/>
Figure DEST_PATH_IMAGE178
和/>
Figure DEST_PATH_IMAGE180
时/>
Figure DEST_PATH_IMAGE182
取最大值,故/>
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE186
(4). 运行SNV判定模块,用
Figure DEST_PATH_IMAGE188
计算每个样本的/>
Figure DEST_PATH_IMAGE190
值,并设定阈值α为/>
Figure DEST_PATH_IMAGE192
。对样本(1,1105), />
Figure DEST_PATH_IMAGE194
,该样本判定为阴性。对样本(1,1105),
Figure DEST_PATH_IMAGE196
,判定为阴性。对另一样本(6,869), />
Figure DEST_PATH_IMAGE198
,判定为阳性,该阳性样本经第三方实验平台验证为真实的突变样本。
本实施例的数据表明,相比由正常人样本组成的PON,本发明使用临床样本实现了更准确的噪音估计,并实现了低频变异的准确判读。另外,本实施例的数据也表明,该方法适用于泛癌肿实体瘤样本,而不局限于某种特定肿瘤,即各种实体瘤类型均可受益于本发明的方法和装置。
虽然上文已描述了本发明的各种实施方案,但是应理解的是,其仅以实例的方式提供,而并非限制。在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都将落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种以高准确性检测样本i中目标基因的SNV的装置,所述装置包括:
测序数据读入模块,用于实施步骤(A)对原始测序数据进行质控,比对到参考基因组并去重,生成存储测序片段(reads)信息的BAM文件;
VAF计算模块,用于实施步骤(B)从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x i )和测序深度(n i ),通过x i /n i 计算变异频率(Variant AlleleFrequency, VAF);
阈值确定模块,用于实施步骤(C)通过该位点的VAF分布的高斯平滑核函数计算阈值c,将不超过c的样本划分为阴性;
背景噪音估计模块,用于实施步骤(D)选取阴性样本的x i 和n i ,对截断贝塔-二项式分布做拟合,用最大似然值方法估计背景噪音参数θ;
SNV判定模块,用于实施步骤(E)确定变异reads数(x i )的阈值,将超过阈值的样本判定为变异。
2. 根据权利要求1所述的装置,其中仅当x i /n i ≤ c时,用于估计背景噪音的样本中不存在真实变异。
3.根据权利要求1或2所述的装置,其中在步骤(C)中,如下设定阈值c:记t i = log(x i / n i ),对t i 的分布做高斯核平滑:
Figure DEST_PATH_IMAGE002
其中m为样本数,σ 2为高斯核函数方差,exp()为指数函数,K(t)为核平滑后的t i 的分布函数;
K(t)分别寻找最大值和局部最小值:
Figure DEST_PATH_IMAGE004
选取VAF < t l 的样本,设定阈值c为这部分样本VAF的80%分位数。
4.根据权利要求1-3中任一项所述的装置,其中步骤(D)如下进行:对所有阴性样本(包括VAF ≤ c 和VAF > c)的x i n i 建立统计模型:
Figure DEST_PATH_IMAGE006
其中
Figure DEST_PATH_IMAGE008
为贝塔二项式的概率质量函数,/>
Figure DEST_PATH_IMAGE010
为模型的二维参数,/>
Figure DEST_PATH_IMAGE012
为贝塔(Beta)函数,/>
Figure DEST_PATH_IMAGE014
为伽玛(Gamma)函数,!为阶乘符:/>
Figure DEST_PATH_IMAGE016
另外记
Figure DEST_PATH_IMAGE018
为贝塔二项式的累积分布函数:
Figure DEST_PATH_IMAGE020
排除步骤(C)中x i / n i > c的临床样本后,变异数
Figure DEST_PATH_IMAGE022
的统计分布变成右截断的贝塔二项式分布:
Figure DEST_PATH_IMAGE024
用最大似然值方法估计背景噪音参数
Figure DEST_PATH_IMAGE026
:/>
Figure DEST_PATH_IMAGE028
为对数似然函数,当/>
Figure DEST_PATH_IMAGE030
时,/>
Figure DEST_PATH_IMAGE032
取最大值,/>
Figure DEST_PATH_IMAGE034
即为背景噪音的最大似然估计值,并且/>
Figure DEST_PATH_IMAGE036
决定背景噪音分布,
Figure DEST_PATH_IMAGE038
5. 根据权利要求1-3中任一项所述的装置,其中步骤(E)如下进行:对于受检样本(x,n),当p值小于设定的假阳性率阈值α时判定该样本为阳性
Figure DEST_PATH_IMAGE040
6.根据权利要求1-3中任一项所述的装置,其中所述样本为肿瘤样本,并且所述肿瘤选自实体瘤。
7.根据权利要求6所述的装置,其中所述肿瘤为泛癌肿实体瘤。
8.根据权利要求7所述的装置,其中所述泛癌肿实体瘤选自卵巢癌、乳腺癌、结直肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、子宫颈癌、膀胱癌、肾癌、黑素瘤和头颈癌。
9.根据权利要求1-3中任一项所述的装置,其中所述目标基因为原始测序数据包含的任一基因。
10.根据权利要求1-3中任一项所述的装置,其中所述目标基因为BRAF基因,并且所述位点为V600E位点。
CN202111393055.XA 2021-11-23 2021-11-23 检测snv的装置和方法 Pending CN116153394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111393055.XA CN116153394A (zh) 2021-11-23 2021-11-23 检测snv的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111393055.XA CN116153394A (zh) 2021-11-23 2021-11-23 检测snv的装置和方法

Publications (1)

Publication Number Publication Date
CN116153394A true CN116153394A (zh) 2023-05-23

Family

ID=86353054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111393055.XA Pending CN116153394A (zh) 2021-11-23 2021-11-23 检测snv的装置和方法

Country Status (1)

Country Link
CN (1) CN116153394A (zh)

Similar Documents

Publication Publication Date Title
CN108733975B (zh) 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
Ding et al. Expanding the computational toolbox for mining cancer genomes
CN106909806B (zh) 定点检测变异的方法和装置
US11043283B1 (en) Systems and methods for automating RNA expression calls in a cancer prediction pipeline
CN110010197B (zh) 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质
KR101795124B1 (ko) 복제 수 변이를 검측하기 위한 방법 및 시스템
TWI814753B (zh) 用於標靶定序之模型
JP2021040655A (ja) 無細胞核酸の多重解像度分析のための方法
CN109949861B (zh) 肿瘤突变负荷检测方法、装置和存储介质
CN111278993A (zh) 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测
KR101828052B1 (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
CN106676178B (zh) 一种评估肿瘤异质性的方法及系统
Redelings Erasing errors due to alignment ambiguity when estimating positive selection
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN111429968A (zh) 用于预测肿瘤类型的方法、电子设备和计算机存储介质
WO2023115662A1 (zh) 一种变体核酸的检测方法
WO2019020652A1 (en) METHODS FOR DETECTION OF BIELELIC LOSS OF A FUNCTION IN GENOMIC GENERATION NEGATIVE GENERATION DATA
CN112927755B (zh) 一种鉴定cfDNA变异来源的方法和系统
CN116631508B (zh) 肿瘤特异性突变状态的检测方法及其应用
CN105483210A (zh) 一种rna编辑位点的检测方法
Duan et al. Common copy number variation detection from multiple sequenced samples
JP2020537527A (ja) 体細胞構造変異の検出のための方法、及び、システム
CN116153394A (zh) 检测snv的装置和方法
CN111028888A (zh) 一种全基因组拷贝数变异的检测方法及其应用
Eitan et al. Reconstructing cancer karyotypes from short read data: the half empty and half full glass

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination