CN116030885A - 一种检测外显子拷贝数异常的方法及装置 - Google Patents
一种检测外显子拷贝数异常的方法及装置 Download PDFInfo
- Publication number
- CN116030885A CN116030885A CN202211691717.6A CN202211691717A CN116030885A CN 116030885 A CN116030885 A CN 116030885A CN 202211691717 A CN202211691717 A CN 202211691717A CN 116030885 A CN116030885 A CN 116030885A
- Authority
- CN
- China
- Prior art keywords
- exon
- copy number
- sample
- score
- data matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种检测外显子拷贝数异常的方法及装置,该方法包括:拷贝数异常检测步骤,包括根据参考数据矩阵,对待测样本的每个外显子计算分数,然后根据预设阈值判定拷贝数异常的外显子区间。本发明能直接检测外显子级别的拷贝数异常,而不是只能检测基因级别或更大片段级别的拷贝数异常,即提高了拷贝数异常检测的分辨率。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种检测外显子拷贝数异常的方法及装置。
背景技术
目前,二代测序检测染色体拷贝数异常的方法主要是通过与样本基线的对照,对划定的区间进行拷贝数计算,随后利用统计学算法将计算出的小片段合成大片段的拷贝数统一区间,之后再利用给定阈值将拷贝数异常的区间筛选出来。这种方法的缺陷在于容易忽略零散的小片段的拷贝数异常。其他的方法,比如qPCR(Quantitative Real-timepolymerase chain react ion,实时荧光定量多聚核苷酸链式反应),qPCR通过荧光染料或荧光特异性探针,对PCR产物进行标记跟踪,实时监控反应过程,并记录荧光信号强弱,通过软件对荧光积累信息进行分析和计算,获得待测样品模板的初始浓度。但是,qPCR只能够通过标准曲线和标准品进行相对定量,无法做到精准绝对定量,且单次验证的范围小。MLPA(multiplex ligation-depe ndent probe amplification,多重连接探针扩增技术)通过简单的杂交、连接、PCR扩增及电泳步骤,对靶核苷酸序列进行检测和定量分析。但MLPA不能区分样本外显子缺失和点突变,另外与qPCR类似,依赖标准品的对照,且单次验证的区域范围小。
发明内容
根据第一方面,在一实施例中,提供一种检测外显子拷贝数异常的方法,包括:
拷贝数异常检测步骤,包括根据参考数据矩阵,对待测样本的每个外显子计算分数,然后根据预设阈值判定拷贝数异常的外显子区间。
根据第二方面,在一实施例中,提供一种检测外显子拷贝数异常的装置,包括:
拷贝数异常检测模块,用于根据参考数据矩阵,对待测样本的每个外显子计算分数,然后根据预设阈值判定拷贝数异常的外显子区间。
在一实施例中,所述装置还包括构建所述参考数据矩阵的模块,用于对每个参考样本以及其中的外显子分别进行质控,构建得到参考数据矩阵。
根据第三方面,在一实施例中,提供一种检测外显子拷贝数异常的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面任一项所述的方法。
根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面任一项所述的方法。
依据上述实施例的一种检测外显子拷贝数异常的方法及装置,本发明能直接检测外显子级别的拷贝数异常,而不是只能检测基因级别或更大片段级别的拷贝数异常,即提高了拷贝数异常检测的分辨率。
在一实施例中,本发明不仅对样本进行质控,还对每个外显子进行质控,提高了参考数据矩阵的可靠性。
在一实施例中,本发明相对分子实验方法而言,不需要依赖于标准品,并且能确定具体的拷贝数,而非只能确定拷贝数是缺失还是增加。
附图说明
图1为一种实施例的参考数据矩阵的构建流程示意图;
图2为一种实施例中对输入样本进行拷贝数异常检测的流程示意图;
图3为样本AS69246的DMD基因45号外显子拷贝数异常结果;
图4为样本AS69246的DMD基因45号外显子拷贝数异常IGV(基因组浏览器)深度结果;
图5为样本AS63150的TSC2基因31号外显子拷贝数异常结果;
图6为样本AS63150的TSC2基因31号外显子(顺时针旋转90°正放时,右侧为31号外显子)拷贝异常IGV深度结果;
图7为样本AS69246的DMD基因拷贝数异常MLPA验证结果;
图8为样本AS63150的TSC2基因拷贝数异常MLPA验证结果。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
本文中,小片段异常一般是指外显子级别的拷贝数异常,即200bp左右,大片段异常一般指1Mb以上的拷贝数异常。
根据第一方面,在一实施例中,提供一种检测外显子拷贝数异常的方法,包括:
拷贝数异常检测步骤,包括根据参考数据矩阵,对待测样本的每个外显子计算分数,然后根据预设阈值判定拷贝数异常的外显子区间。
在一实施例中,拷贝数异常检测步骤中,包括将输入的待测样本的测序深度转换成FPK M值,用待测样本中每个外显子的FPKM值除以参考数据矩阵中的外显子FPKM值中位数,随后再取对数,得到每个外显子的得分列表,当得分大于第一预设阈值且大于得分的分布的第一预设阈值分位数时,判定该外显子为拷贝数重复,当得分小于第二预设阈值且小于得分的分布的第二预设阈值分位数时,判定该外显子为拷贝数缺失。
待测样本的测序深度可以通过CNVkit(检测大片段拷贝数异常的软件)等现有软件计算得到。
在一实施例中,拷贝数异常检测步骤中,所述对数包括以2为底的对数,即log2。
在一实施例中,拷贝数异常检测步骤中,所述第一预设阈值可以为0.4。
在一实施例中,拷贝数异常检测步骤中,所述第一预设阈值分位数可以为99%。
在一实施例中,拷贝数异常检测步骤中,所述第二预设阈值可以为-0.6。
在一实施例中,拷贝数异常检测步骤中,所述第二预设阈值分位数可以为1%。
在一实施例中,构建所述参考数据矩阵的方法包括:对每个参考样本以及其中的外显子分别进行质控,构建得到参考数据矩阵。
在一实施例中,构建所述参考数据矩阵的方法中,将参考样本在外显子区间的测序深度转换成FPKM值,对每个参考样本的FPKM值以及每个参考样本中的每个外显子的FPKM值分别进行质控,使用质控合格的参考样本的FPKM值和外显子的FPKM值构建得到参考数据矩阵。参考样本的测序深度可以通过CNVkit(检测大片段拷贝数异常的软件)等现有软件计算得到。
在一实施例中,构建所述参考数据矩阵的方法中,质控的方法包括:
中位数计算步骤,包括去除参考样本中所有外显子区间FPKM值的离群点,计算去除离群点后的每个外显子区间的所有参考样本的FPKM值的中位数;
外显子得分计算步骤,包括将每个参考样本的每个外显子区间FPKM值除以所述中位数,再取对数,得到每个参考样本中每个外显子的得分;
外显子质控步骤,包括计算去除了离群点的外显子分数的标准差,根据预设条件判断外显子是否合格,保留合格的外显子;
参考样本质控步骤,包括根据参考样本的全部外显子的得分的标准差是否满足预设条件,判定参考样本是否合格,保留合格的参考样本。
在一实施例中,外显子质控步骤中,若标准差大于预设阈值,或该标准差大于外显子标准差的分布的预设阈值分位数,则判定该外显子不合格,予以去除,反之,则判定合格,予以保留。即,若标准差≤预设阈值,或该标准差≤外显子标准差的分布的预设阈值分位数,则判定该外显子合格,予以保留。
在一实施例中,外显子质控步骤中,所述预设阈值可以为0.2。
在一实施例中,外显子质控步骤中,所述预设阈值分位数可以为99%分位数。
在一实施例中,参考样本质控步骤中,若参考样本的全部外显子的得分的标准差大于预设阈值或该参考样本在预设阈值显著性下FPKM值均值与其他参考样本有差异,则判定该参考样本不合格,予以去除,反之,则判定该参考样本合格,予以保留。
在一实施例中,参考样本质控步骤中,预设阈值可以为0.2。
在一实施例中,参考样本质控步骤中,预设阈值显著性可以为5%显著性。
在一实施例中,外显子得分计算步骤中,所述对数包括以2为底的对数。
在一实施例中,构建所述参考数据矩阵的方法中,还包括计算步骤,包括对质控合格的参考样本和外显子,计算得到每个外显子的FPKM值中位数,以及外显子得分的平均值和标准差,即为参考数据矩阵,所述参考数据矩阵用于计算拷贝数异常检测步骤中待测样本的外显子得分。
在一实施例中,还包括适用性判定步骤,包括对拷贝数异常检测步骤获得的待测样本的得分进行质控,判定所述参考数据矩阵是否适用于所述待测样本的外显子拷贝数异常检测。
在一实施例中,适用性判定步骤中,如果待测样本的所有外显子的得分的标准差大于预设阈值,则判定所述待测样本的质控失败,并判定所述参考数据矩阵不适用于所述待测样本的外显子拷贝数异常检测。
在一实施例中,适用性判定步骤中,将待测样本中的外显子得分除以外显子得分的标准差,即为该外显子拷贝数异常的可信度指标。
在一实施例中,还包括拷贝数异常区间集合获取步骤,包括将待测样本中被检测为拷贝数异常的数据分别与通过其他方法被检测为拷贝数异常的数据取交集,得到可信度高的拷贝数异常区间集合。其他方法可以是现有的方法。
在一实施例中,其他方法包括但不限于qPCR、MLPA中的至少一种。其他方法为CNVkit校正偏差后的结果,该结果一般可靠性较差,本发明旨在提升该结果的召回率和准确性。
在一实施例中,拷贝数异常区间集合获取步骤中,所述拷贝数异常数据包括拷贝数重复或缺失的数据。
根据第二方面,在一实施例中,提供一种检测外显子拷贝数异常的装置,包括:
拷贝数异常检测模块,用于根据参考数据矩阵,对待测样本的每个外显子计算分数,然后根据预设阈值判定拷贝数异常的外显子区间。
在一实施例中,所述装置还包括构建所述参考数据矩阵的模块,用于对每个参考样本以及其中的外显子分别进行质控,构建得到参考数据矩阵。
根据第三方面,在一实施例中,提供一种检测外显子拷贝数异常的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面任一项所述的方法。
根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面任一项所述的方法。
在一实施例中,为了识别小片段拷贝数异常,实现对拷贝数的精确定量,本发明提出了一种可对外显子级别拷贝数异常检测的方法,通过对外显子及样本的质控,构建参考数据矩阵,利用阈值确定拷贝数异常的外显子区间。本方法提供可信度指标供筛选真阳的区间,另外提供与其他现有方法的检测拷贝数异常区间的交集,以实现交叉验证,提高准确度。
在一实施例中,本方法将一批样本在外显子区间的测序深度转换成FPKM(Fragments Per Kilobase Per Million Reads每千个碱基的转录本每百万序列数的片段数),随后对每个样本和每个外显子的FPKM进行质控,将通过质控的样本和外显子的FPKM用于计算参考数据矩阵。本方法将输入样本在每个外显子区间的深度转换成FPKM,随后对输入样本的每个外显子根据参考数据矩阵计算分数,超过或低于分数阈值的区间将被确定为拷贝数重复或缺失。本方法还可将结果和其他流程的结果文件求交集,以确定可信的拷贝数异常区间集合。
实施例1
本实施例的方法分两部分:一部分为建立参考数据矩阵(分析流程示意图见图1),另一部分为对输入样本进行拷贝数异常检测(分析流程示意图见图2)。
第一部分:将输入的参考样本的测序深度(由检测大片段拷贝数异常的软件CNVkit计算得到)转换成FPKM矩阵,对矩阵内各个参考样本以及其中的每个外显子进行质控,质控的方法为:1.去除所有外显子区间FPKM值的离群点,对去除离群点后的每个外显子区间的所有参考样本的FPKM值求中位数;2.将每个参考样本的每个外显子区间FPKM值除以上述求得的中位数,再取log2对数(即以2为底的对数),得到每个参考样本每个外显子的得分;3.外显子质控:对去除了离群点的外显子分数,求得其标准差,若标准差大于0.2(当标准差大于0.2时,信号占比将低于75%)或该标准差大于外显子标准差的分布的99%分位数,则该外显子不合格;4.参考样本质控:若参考样本的全部外显子的得分的标准差大于0.2或该参考样本在5%显著性下FPKM均值与其他参考样本有差异,则该参考样本不合格。质控合格的参考样本和外显子则再用于计算每个外显子的FPKM中位数、外显子得分的平均值和标准差(得分平均值在下文第二部分用于计算1%和99%分位数,标准差用于计算可信度指标,即外显子得分除于标准差),用于下一步对输入待测样本的每个外显子进行得分的计算。
关于外显子,合格外显子的得分计算步骤见下文,至于不合格的外显子,不对这部分进行计算。
关于样本,无论是合格样本还是不合格样本,均对它的所有合格外显子进行计算,不同的是,不合格的样本的所有“合格”外显子的计算结果都被标记为质控不合格,提示该参考数据矩阵不适合该样本,也提示这些计算结果不可靠(不合格样本里并不全是不合格的外显子,不合格样本并没有被丢弃,不合格样本只在参考数据矩阵构建的时候被丢弃)。
下表是参考样本以及待测样本的数据格式,主要用的数据是depth列,即测序深度,将这列转换成FPKM。
表1
chromosome | start | end | gene | log2 | depth | weight |
1 | 861321 | 861393 | SAMD11 | 0.351347 | 115.222 | 0.958667 |
1 | 865534 | 865716 | SAMD11 | -0.0641803 | 154.808 | 0.980484 |
1 | 866418 | 866469 | SAMD11 | -0.15512 | 78.7059 | 0.959556 |
1 | 871151 | 871276 | SAMD11 | 0.152334 | 164.456 | 0.974191 |
1 | 874419 | 874509 | SAMD11 | 0.050255 | 97.4444 | 0.955524 |
下表的第二列为参考样本所有外显子得分的的标准差,该值大于0.2,则样本不合格。第三列是该样本方差分析的P值,即衡量FPKM均值在5%显著性下与其他参考样本是否有差异的指标,该值小于0.05,该样本不合格,不合格的参考样本不参与参考数据矩阵的构建,即该样本会被丢弃,这与第二部分的不合格的待测样本有区别,不合格的待测样本不会被丢弃,只是标记该待测样本不合格,其计算结果不可靠。
表2
sample | std | anova | qc_result |
AS69514 | 0.17 | 0.7197 | sampleQC_Pass |
AS69517 | 0.21 | 0.7179 | sampleQC_Failed |
AS69520 | 0.19 | 0.2073 | sampleQC_Pass |
AS69521 | 0.22 | 0.509 | sampleQC_Failed |
AS69523 | 0.19 | 0.8436 | sampleQC_Pass |
下表是外显子质控的矩阵,当外显子得分的标准差(即std列)大于0.2或大于外显子标准差分布的99%分位数时,该外显子被标记为exonQC_Failed,即该外显子不合格。
表3
coor | exon_median | exon_mean | std | qc_result |
10:91486049-91486278 | 12 | -0.015182429 | 0.21 | exonQC_Pass |
10:91487612-91487653 | 5 | 0.031727118 | 0.4 | exonQC_Failed |
10:91492659-91492813 | 13 | -0.032285078 | 0.16 | exonQC_Pass |
10:91497143-91497389 | 17 | 0.008910324 | 0.16 | exonQC_Pass |
10:91497389-91497635 | 18 | 0.021134831 | 0.14 | exonQC_Pass |
第二部分:对输入的待测样本进行拷贝数异常检测,具体如下:将输入的待测样本的测序深度转换成FPKM,用待测样本每个外显子的FPKM除以参考数据矩阵中的外显子FPKM中位数,随后再取log2对数(即以2为底的对数),得到每个外显子的得分列表,当得分大于0.4且大于得分的分布的99%分位数(假设该得分服从正态分布,99%分位数是mean+2.576*sd,mean为得分平均值,sd为得分标准差)时,判定该外显子为拷贝数重复;当得分小于-0.6且小于得分的分布的1%分位数时(假设该得分服从正态分布,1%分位数是mean-2.576*sd,mean为得分平均值,sd为得分标准差),判定该外显子为拷贝数缺失;本方法可对输入待测样本的所有外显子得分(每个待测样本的所有外显子)做质控,当得分的标准差大于0.2时,输入待测样本的质控失败,提示输入待测样本的实验方法(即文库构建方法)与构建参考数据矩阵的参考样本的实验方法(即文库构建方法)有明显不同,不适用该参考数据矩阵。外显子得分除以外显子得分的标准差,即为该外显子拷贝数异常的可信度指标。另外,输入待测样本被检测为拷贝数重复或缺失的数据分别与其他方法被检测为拷贝数重复或缺失的数据取交集(待测样本被检测为拷贝数重复的数据与其他方法被检测为拷贝数重复的数据取交集,缺失的数据同理),得到可信度高的拷贝数异常区间集合。本方法可为每个外显子区间注释出基因名称、转录本以及外显子号。
拷贝数判定规则:对于女性样本,当外显子得分<-3.32时,判定该外显子的拷贝数为0;当-3.32≤外显子得分≤-0.6时,判定该外显子的拷贝数为1拷贝;当0.4≤外显子得分≤0.93时,判定该外显子的拷贝数为3拷贝;当外显子得分>0.93时,判定该外显子的拷贝数为4拷贝。对于男性样本:常染色体与女性样本的判定方法相同,对于X和Y染色体,当外显子得分<-3.32时,判定该外显子的拷贝数为0;当外显子得分>0.93时,判定该外显子的拷贝数为2拷贝。
例如,样本AS69246的DMD基因的45号外显子的FPKM值为0,而参考数据矩阵中DMD基因的45号外显子中位数FPKM为15,则该样本在DMD基因的45号外显子的得分为log2(0/15),而log20是负无穷,对于该情况,结果将赋值-3.32,而-3.32小于-0.6,则判定该样本的DMD基因的45号外显子为缺失,拷贝数为0。
AS63150的TSC2的31号外显子的FPKM值为16,而参考数据矩阵中TSC2基因的31号外显子中位数FPKM为36,则该样本在TSC2基因的31号外显子的得分为log2(16/36),即-1.17,而-1.17小于-0.6,则判定该样本TSC2基因的31号外显子为缺失,拷贝数为1。
而比如AS69246样本的DMBT1基因37号外显子FPKM值为12,参考数据矩阵中DM BT1基因37号外显子FPKM中位数为34,但DMBT1基因37号外显子质控不合格,则不再计算该外显子的得分。
对于不合格的样本,正常进行以上步骤的计算,但该样本会被标记为质控不合格,提示该参考数据矩阵不适合该样本,这些计算结果也不可靠,比如样本AS66482被标记为质控不合格,而在该样本中检测出PARK7基因的7号外显子为拷贝数重复,但经人工核查,PARK7基因的7号外显子为拷贝数重复是假阳。
共验证42个样本,其中27个样本被证实HBA1/HBA2外显子缺失,9个样本是DMD基因的缺失,一个样本的TSC2基因外显子的缺失,一个样本的NHS基因外显子缺失,一个样本的PPT1基因外显子重复,一个样本的PARK2基因外显子缺失,一个样本的CDK13基因外显子重复,全部检出。
表4
尽管qPCR和MLPA有自身的缺陷,但这两种方法检测拷贝数异常的结果是十分可靠的,因此挑选一部分经qPCR(Quantitative Real-time PCR,实时荧光定量PCR)或MLPA(multiplex ligation-dependent probe amplification,多重连接探针扩增技术)验证的外显子拷贝数异常的样本,被qPCR或MLPA验证的外显子拷贝数异常均能被本方法检出。
以下为两个样本的检测结果:
表5
样本编号 | 基因名 | 拷贝数异常的外显子 | 致病性 | 是否检出 |
AS69246 | DMD | 45号外显子半合子缺失 | 致病 | 检出 |
AS63150 | TSC2 | 31号外显子杂合缺失 | 致病 | 检出 |
图3为样本AS69246的DMD基因45号外显子拷贝数异常结果。
图4为样本AS69246的DMD基因45号外显子拷贝数异常IGV(基因组浏览器)深度结果。
图5为样本AS63150的TSC2基因31号外显子拷贝数异常结果。
图6为样本AS63150的TSC2基因31号外显子(右)拷贝异常IGV深度结果。顺时针旋转90°正放时,右侧为31号外显子,左侧为30号外显子。
图7为样本AS69246的DMD基因拷贝数异常MLPA验证结果。
图8为样本AS63150的TSC2基因拷贝数异常MLPA验证结果。
可见,本方法用一批样本的测序深度建立参考数据矩阵,对样本和外显子都作质控,可靠性和准确性高,弥补了已有的二代测序方法无法发现外显子级别的拷贝数异常的缺点,同时也克服了分子实验方法对标准品的依赖和无法确定拷贝数的不足。
在一实施例中,本发明具有更高的检出率(或召回率)。
在一实施例中,本发明具有如下有益效果:
1)本发明将一批样本在外显子区间的测序深度转换成FPKM,随后对每个样本和每个外显子的FPKM进行质控,通过质控的样本和外显子的FPKM用于计算参考数据矩阵,不要求这批样本都为健康人群样本或患病样本。2)本发明将输入样本在每个外显子区间的深度转换成FPKM,随后对输入样本的每个外显子根据参考数据矩阵计算分数,超过分数阈值的区间将被确定为拷贝数异常。
在一实施例中,可以通过用一批样本建立参考数据矩阵进行拷贝数检测,也可以不建立参考矩阵,直接对一批样本里的每个样本进行拷贝数检测。
在一实施例中,在利用参考样本基线检测外显子级别拷贝数异常的基础上,可以再比较多样本在外显子上的校正后的深度,以减少假阳率。
在一实施例中,本发明最大的优势在于能直接检测外显子级别的拷贝数异常,而不是只能检测基因级别或更大片段级别的拷贝数异常,即提高了拷贝数异常检测的分辨率。例如,某样本的外显子1号拷贝数正常,外显子2号拷贝数异常,外显子3号拷贝数正常。现有技术无法检出外显子2号拷贝数异常,而本发明能够检出前述异常。
在一实施例中,本发明不仅对样本进行质控,还对每个外显子进行质控,提高了参考数据矩阵的可靠性。
在一实施例中,本发明将外显子测序深度转换成FPKM(Fragments Per KilobasePer Million Reads每千个碱基的转录本每百万序列数的片段数),然后再用FPKM来计算拷贝数,这比直接用测序深度来计算拷贝数要更可靠。因为FPKM去除了测序深度对于不同外显子之间长度差异带来的偏差,以及不同样本总测序深度差异带来的偏差。
在一实施例中,本发明相对分子实验方法而言,不需要依赖于标准品,并且能确定具体的拷贝数,而非只能确定拷贝数是缺失还是增加。
在一实施例中,本发明集成了参考数据矩阵构建、拷贝数异常检测、与CNVkit(检测大片段拷贝数异常的软件)结果取交集以及绘图的功能。
在一实施例中,本发明直接使用CNVkit(检测大片段拷贝数异常的软件)结果文件进行进一步分析,因此无需对测序reads(读段)质量进行过滤,也无需进行参考样本校正、GC校正以及目标片段长度校正等。
在一实施例中,本发明无需选取健康或患者的样本作为参考样本,只需选取与待测样本在相似实验条件下进行测序的一批样本进行参考数据矩阵的构建,选取的样本数量为45-50个,一般比其他方法构建参考数据使用的样本数都多。
在一实施例中,本发明无需对将相邻的拷贝数正常或异常的区间合并,以确定一个连续的拷贝数正常或异常区间。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (10)
1.一种检测外显子拷贝数异常的方法,其特征在于,包括:
拷贝数异常检测步骤,包括根据参考数据矩阵,对样本的每个外显子计算分数,然后根据预设阈值判定拷贝数异常的外显子区间。
2.如权利要求1所述的方法,其特征在于,拷贝数异常检测步骤中,包括将输入的待测样本的测序深度转换成FPKM值,用待测样本中每个外显子的FPKM值除以参考数据矩阵中的外显子FPKM值中位数,随后再取对数,得到每个外显子的得分列表,当得分大于第一预设阈值且大于得分的分布的第一预设阈值分位数时,判定该外显子为拷贝数重复,当得分小于第二预设阈值且小于得分的分布的第二预设阈值分位数时,判定该外显子为拷贝数缺失。
3.如权利要求2所述的方法,其特征在于,拷贝数异常检测步骤中,所述对数包括以2为底的对数;
优选地,拷贝数异常检测步骤中,所述第一预设阈值为0.4;
优选地,拷贝数异常检测步骤中,所述第一预设阈值分位数为99%;
优选地,拷贝数异常检测步骤中,所述第二预设阈值为-0.6;
优选地,拷贝数异常检测步骤中,所述第二预设阈值分位数为1%。
4.如权利要求1所述的方法,其特征在于,构建所述参考数据矩阵的方法包括:对每个参考样本以及其中的外显子分别进行质控,构建得到参考数据矩阵;
优选地,构建参考数据矩阵的方法中,将参考样本在外显子区间的测序深度转换成FPKM值,对每个参考样本的FPKM值以及每个参考样本中的每个外显子的FPKM值分别进行质控,使用质控合格的参考样本的FPKM值和外显子的FPKM值构建得到参考数据矩阵。
5.如权利要求4所述的方法,其特征在于,构建所述参考数据矩阵的方法中,质控的方法包括:
中位数计算步骤,包括去除参考样本中所有外显子区间FPKM值的离群点,计算去除离群点后的每个外显子区间的所有参考样本的FPKM值的中位数;
外显子得分计算步骤,包括将每个参考样本的每个外显子区间FPKM值除以所述中位数,再取对数,得到每个参考样本中每个外显子的得分;
外显子质控步骤,包括计算去除了离群点的外显子分数的标准差,根据预设条件判断外显子是否合格,保留合格的外显子;
参考样本质控步骤,包括根据参考样本的全部外显子的得分的标准差是否满足预设条件,判定参考样本是否合格,保留合格的参考样本。
6.如权利要求5所述的方法,其特征在于,外显子质控步骤中,若标准差大于预设阈值,或该标准差大于外显子标准差的分布的预设阈值分位数,则判定该外显子不合格,予以去除,反之,则判定合格,予以保留;
优选地,外显子质控步骤中,所述预设阈值为0.2;
优选地,外显子质控步骤中,所述预设阈值分位数为99%分位数;
优选地,参考样本质控步骤中,若参考样本的全部外显子的得分的标准差大于预设阈值或该参考样本在预设阈值显著性下FPKM值均值与其他参考样本有差异,则判定该参考样本不合格,予以去除,反之,则判定该参考样本合格,予以保留;
优选地,参考样本质控步骤中,预设阈值为0.2;
优选地,参考样本质控步骤中,预设阈值显著性为5%显著性;
优选地,外显子得分计算步骤中,所述对数包括以2为底的对数;
优选地,构建所述参考数据矩阵的方法中,还包括计算步骤,包括对质控合格的参考样本和外显子,计算得到每个外显子的FPKM值中位数,以及外显子得分的平均值和标准差,即为参考数据矩阵,所述参考数据矩阵用于计算拷贝数异常检测步骤中待测样本的外显子得分。
7.如权利要求1所述的方法,其特征在于,还包括适用性判定步骤,包括对拷贝数异常检测步骤获得的待测样本的得分进行质控,判定所述参考数据矩阵是否适用于所述待测样本的外显子拷贝数异常检测;
优选地,适用性判定步骤中,如果待测样本的所有外显子的得分的标准差大于预设阈值,则判定所述待测样本的质控失败,并判定所述参考数据矩阵不适用于所述待测样本的外显子拷贝数异常检测;
优选地,适用性判定步骤中,将待测样本中的外显子得分除以外显子得分的标准差,即为该外显子拷贝数异常的可信度指标;
优选地,还包括拷贝数异常区间集合获取步骤,包括将待测样本中被检测为拷贝数异常的数据分别与通过其他方法被检测为拷贝数异常的数据取交集,得到可信度高的拷贝数异常区间集合;
优选地,其他方法包括qPCR、MLPA中的至少一种;
优选地,拷贝数异常区间集合获取步骤中,所述拷贝数异常数据包括拷贝数重复或缺失的数据。
8.一种检测外显子拷贝数异常的装置,其特征在于,包括:
拷贝数异常检测模块,用于根据参考数据矩阵,对待测样本的每个外显子计算分数,然后根据预设阈值判定拷贝数异常的外显子区间。
9.一种检测外显子拷贝数异常的装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211691717.6A CN116030885A (zh) | 2022-12-27 | 2022-12-27 | 一种检测外显子拷贝数异常的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211691717.6A CN116030885A (zh) | 2022-12-27 | 2022-12-27 | 一种检测外显子拷贝数异常的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116030885A true CN116030885A (zh) | 2023-04-28 |
Family
ID=86078741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211691717.6A Pending CN116030885A (zh) | 2022-12-27 | 2022-12-27 | 一种检测外显子拷贝数异常的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030885A (zh) |
-
2022
- 2022-12-27 CN CN202211691717.6A patent/CN116030885A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
US10468121B2 (en) | Phasing and linking processes to identify variations in a genome | |
US11193175B2 (en) | Normalizing tumor mutation burden | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
CA2891731A1 (en) | Accurate and fast mapping of targeted sequencing reads | |
Smolka et al. | Detection of mosaic and population-level structural variants with Sniffles2 | |
CN113249453B (zh) | 一种检测拷贝数变化的方法 | |
US20170101670A1 (en) | Method for detecting rare mutation | |
US20240029890A1 (en) | Computational modeling of loss of function based on allelic frequency | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN113789371A (zh) | 一种基于批次矫正的拷贝数变异的检测方法 | |
CN116240273B (zh) | 一种基于低深度全基因组测序的判断母源污染比例的方法及其应用 | |
JP2022549823A (ja) | キットおよびキットの使用方法 | |
KR102347463B1 (ko) | 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 | |
CN116030885A (zh) | 一种检测外显子拷贝数异常的方法及装置 | |
Te Boekhorst et al. | Computational problems of analysis of short next generation sequencing reads | |
CN115896256A (zh) | 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质 | |
Tiedemann et al. | Updated guidelines for DNA data quality control and error rate estimation, for genetic studies relevant to IWC management advice | |
CN115428087A (zh) | 克隆水平缺乏靶变体的显著性建模 | |
JP2021534803A (ja) | 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム | |
US20170226588A1 (en) | Systems and methods for dna amplification with post-sequencing data filtering and cell isolation | |
JP2021502072A (ja) | 脱アミノ化に誘導される配列エラーの補正 | |
CN112513292A (zh) | 基于高通量测序检测同源序列的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |