CN112634987B - 一种单样本肿瘤dna拷贝数变异检测的方法和装置 - Google Patents
一种单样本肿瘤dna拷贝数变异检测的方法和装置 Download PDFInfo
- Publication number
- CN112634987B CN112634987B CN202011562169.8A CN202011562169A CN112634987B CN 112634987 B CN112634987 B CN 112634987B CN 202011562169 A CN202011562169 A CN 202011562169A CN 112634987 B CN112634987 B CN 112634987B
- Authority
- CN
- China
- Prior art keywords
- sample
- capture area
- value
- copy number
- target capture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
本申请公开了一种单样本肿瘤DNA拷贝数变异检测的方法和装置。本申请的方法和装置,利用动态基线波动水平模拟参考人群基准水平,基于每个捕获区域参考人群基准水平波动,计算临床组织样本构建训练集样本RC值相对于参考人群在每个捕获区域的Z‑score值,利用该统计学打分值训练每个目标捕获区域的SVR模型;在进行单样本肿瘤DNA拷贝数变异检测时,利用各个区域的SVR模型计算该区域的Ratio值,最后按照注释和过滤规则,输出发生拷贝数变异的区域。本申请解决了现有的拷贝数变异检测方法和软件在单样本情况下无法进行拷贝数变异检测的困境,克服了由于测序环境方面的因素导致的灵敏度低、准确率低等缺陷。
Description
技术领域
本申请涉及肿瘤DNA拷贝数变异检测技术领域,特别是涉及一种单样本肿瘤DNA拷贝数变异检测的方法和装置。
背景技术
拷贝数变异(Copy numbervariation,CNV)是由基因组发生重排而导致的,在人群中普遍存在。拷贝数变异检测可以及早发现基因组中大片段DNA序列的变异,从而为疾病的诊断和治疗提供参考依据。目前测定CNV的方法主要包括微阵列比较基因组杂交(aCGH)、微滴式数字PCR(ddPCR)、荧光原位杂交技术(FISH)等,每种测定方法都有各自的特点。
目标区域测序(Target region sequencing)是通过定制感兴趣的基因组区域的探针,与基因组DNA进行杂交,将目标区域DNA富集后进行高通量测序的研究策略。通过对大量样本的目标区域研究,有助于发现和验证疾病相关候选基因或相关位点,在临床诊断和药物开发方面有着巨大的应用潜力。这种新的技术与PCR技术相比,通量高,同时能节省大量的时间及成本,是当前在研究疾病基因组变异的常用的高性价比、高准确率的方法。
基于捕获测序数据,进行CNV鉴定软件有很多,主要分为两步:第一步是比较待测样本与参考样本在各目标捕获区间的平均测序深度或RC量来量化该基因的拷贝数。由于GC含量、整体文库的大小、目标捕获区域的大小等因素都会对上述的指标产生影响,在鉴定CNV时,各软件一般都会对其中的几个因素进行校正,获得各捕获区域的拷贝数信息。第二步是通过算法判断染色体上发生CNV片段的断点并计算最终的拷贝数。常用的鉴定软件包括:Excavator、Contra、CNVKit等。
目前传统的拷贝数变异检测方法,如FISH、ddPCR、aCGH等,都存在操作繁琐,分辨率低等问题。FISH是目前临床病理检验基因CNV的金标准方法,但是该方法步骤繁多,容易造成信号丢失,造成假阴性结果;除此之外,它只能定性检测、不能定量。ddPCR是一种核酸分子绝对定量技术,但是它通量不高、操作复杂、只能定性分析、容易污染等。aCGH虽然具有相对较高的分辨率、灵敏度、通量,但是它无法鉴定断点的具体位置。
并且,目前已存在的分析软件,大部分仅适用于全外显子测序,并且适用双样本的场景,即肿瘤样本和配对的正常样本;除此之外,部分软件并未消除实验时间、环境等因素带来的误差,影响检测结果的准确性。
发明内容
本申请的目的是提供一种新的单样本肿瘤DNA拷贝数变异检测的方法和装置。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种单样本肿瘤DNA拷贝数变异检测的方法,其包括以下步骤:
测序读长标准化步骤,包括针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数;
待测样本CNV水平计算步骤,包括利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值;
区域注释和过滤步骤,包括计算每个区域的Ratio值*2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果;其中,shift默认为0,相应的2^shift=1,如果样本为男性,shift赋值为1;
其中,参考人群组的基线为利用不同批次的基线计算各目标捕获区域标准化后reads数量的均值和方差,不同批次的基线中每个基线由至少30个临床血细胞样本建立;SVR模型以临床组织样本作为训练集,计算训练集中各样本每个目标捕获区域RC的波动与参考人群组的基线的拷贝数水平相偏离程度的统计学打分作为模型的输入,由此训练获得。
本申请的单样本肿瘤DNA拷贝数变异检测的方法,利用动态基线波动水平模拟参考人群基准水平,基于每个目标捕获区域参考人群基准水平波动,计算临床组织样本构建训练集样本RC值相对于参考人群在每个捕获区域的Z-score值,利用该统计学打分值训练每个目标捕获区域的SVR模型,在分析待测样本时,利用已知每个区域的SVR模型计算该区域的Ratio值,最后按照注释和过滤规则,输出发生拷贝数变异的区域。本申请的方法不仅能够对单样本肿瘤DNA进行拷贝数变异检测,而且克服了目前软件存在由于测序环境方面的因素导致的灵敏度低、准确率低等缺陷。
本申请的一种实现方式中,SVR模型具体采用以下方法获得:
训练集捕获区域reads数获取步骤,包括选取不少于300个且去重后深度不小于300×的临床组织样本,消除样本数据量、GC含量、捕获区域大小的影响,针对每个样本获取目标捕获区域标准化后的reads数量,利用所述参考人群组的基线和临床组织样本的标准化read数量,计算出以目标捕获区域为单位的Z-score值;
SVR模型训练步骤,包括由每个临床组织样本在目标捕获区域的Z-score构建矩阵作为训练模型的数据集,针对每一个目标捕获区域选取前后105kb范围的区域作为该区域的模型对应的数据集,此区域在每个临床组织样本集中的检测到的Ratio值作为响应变量,作为每个区域训练集训练获得所述SVR模型。
本申请的一种实现方式中,参考人群组的基线具体采用以下方法获得:
选取至少30个同批次临床血细胞样本,针对各个样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到矫正后的每个目标捕获区域标准化reads数量,以此计算基准水平的波动范围,作为临床动态基线;综合不同时间段、不同试验环境获得的临床动态基线,计算每个目标捕获区域基准水平波动范围,即获取每个目标捕获区域的标准化后reads数量的均值和方差,作为所述参考人群组的基线。
本申请的一种实现方式中,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,具体包括,StatusRatio值大于1.4时,记为该基因发生扩增,StatusRatio值小于0.8时,记为该基因发生缺失。
本申请的一种实现方式中,各步骤消除样本数据量、GC含量、捕获区域大小的影响,具体采用的是CNVkit的reference模块。
基于本申请的单样本肿瘤DNA拷贝数变异检测的方法,本申请的第二方面公开了一种用于单样本肿瘤DNA拷贝数变异检测的SVR模型的制备方法,本申请的第三方面公开了一种用于单样本肿瘤DNA拷贝数变异检测的参考人群组基线的制备方法。
需要说明的是,本申请的SVR模型的制备方法和参考人群组基线的制备方法中,各步骤和参数都可以参考本申请的单样本肿瘤DNA拷贝数变异检测的方法,在此不累述。
本申请的第四方面公开了一种单样本肿瘤DNA拷贝数变异检测的装置,包括测序读长标准化模块、参考人群组的基线获取模块、SVR模型训练模块、待测样本CNV水平计算模块、区域注释和过滤模块;
测序读长标准化模块,包括用于针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数;
参考人群组的基线获取模块,包括用于选取至少30个同批次临床血细胞样本,针对各个样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到矫正后的每个目标捕获区域标准化reads数量,以此计算基准水平的波动范围,作为临床动态基线;综合不同时间段、不同试验环境获得的临床动态基线,计算每个目标捕获区域基准水平波动范围,即获取每个目标捕获区域的标准化后reads数量的均值和方差,作为参考人群组的基线;
SVR模型训练模块,包括用于选取不少于300个且去重后深度不小于300×的临床组织样本,消除样本数据量、GC含量、捕获区域大小的影响,针对每个样本获取目标捕获区域标准化后的reads数量,利用参考人群组的基线和临床组织样本的标准化read数量,计算出以目标捕获区域为单位的Z-score值;由每个临床组织样本在目标捕获区域的Z-score构建矩阵作为训练模型的数据集,针对每一个目标捕获区域选取前后105kb范围的区域作为该区域的模型对应的数据集,此区域在每个临床组织样本集中的检测到的Ratio值作为响应变量,作为每个区域训练集训练获得所述SVR模型;
待测样本CNV水平计算模块,包括用于利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值;
区域注释和过滤模块,包括用于计算每个区域的Ratio值*2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果;其中,shift默认为0,相应的2^shift=1,如果样本为男性,shift赋值为1。
需要说明的是,本申请单样本肿瘤DNA拷贝数变异检测的装置,实际上就是通过各模块分别实现本申请单样本肿瘤DNA拷贝数变异检测方法中的各步骤;因此,个模块的具体限定可以参考本申请单样本肿瘤DNA拷贝数变异检测方法,在此不累述。
可以理解,本申请单样本肿瘤DNA拷贝数变异检测的装置中,参考人群组的基线获取模块和SVR模型训练模块,只需要在首次使用时运行;在获得参考人群组的基线和SVR模型的情况下,可以直接用于后续的待测样本检测。当然,为了不断提高检测的稳定性和准确性,可以在后续使用过程中不断的增加临床肿瘤样本的数量,进一步完善参考人群组的基线和SVR模型。
本申请的第五方面公开了一种单样本肿瘤DNA拷贝数变异检测的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请的单样本肿瘤DNA拷贝数变异检测的方法。
本申请的第六方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请单的样本肿瘤DNA拷贝数变异检测的方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请的单样本肿瘤DNA拷贝数变异检测方法,解决了现有的拷贝数变异检测方法和软件在单样本情况下无法进行拷贝数变异检测的困境;本申请的方法不仅能够对单样本肿瘤DNA进行拷贝数检测,而且克服了由于测序环境方面的因素导致的灵敏度低、准确率低等缺陷。本申请的方法和装置,为单样本肿瘤DNA拷贝数变异检测提供了一种灵敏度高、且更准确的方案和途径。
附图说明
图1是本申请实施例中单样本肿瘤DNA拷贝数变异检测方法的流程框图;
图2是本申请实施例中单样本肿瘤DNA拷贝数变异检测装置的结构框图;
图3是本申请实施例中SVR模型检测拷贝数变异的流程图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
现有的肿瘤样本拷贝数变异检测方法和软件普遍采用双样本检测,并且没有消除实验时间、环境等因素带来的误差,影响检测结果的准确性。
本申请学习大量动态基线(历史基线)分布规律,开发一套借助机器学习训练SVR模型(支持向量机回归)检测CNV,解决单样本无法检测CNV困境,克服目前软件存在由于测序环境方面的因素导致灵敏度低、准确率低等缺陷。本申请主要利用大量动态基线波动水平模拟参考人群基准水平,基于每个捕获区域参考人群基准水平波动,计算临床组织样本构建训练集样本RC值相对于参考人群在每个捕获区域的Z-score值,利用该统计学打分值训练每个目标捕获区域的SVR模型。在分析Case样本时,利用已知每个区域的SVR模型计算该区域的Ratio值,最后按照严格的注释和过滤规则,输出发生拷贝数变异的区域。
本申请技术方案的实现方式,如图3所示,主要包括:1.获取历史动态基线文件,从基线文件中剔除异常捕获区域,获得参考人群CNV事件的基线波动统计量;2.从临床样本中筛选符合条件的组织样本以此作为模型的训练集样本,利用CNVkit软件的reference模块分析组织样本的bam文件,输出组织样本在探针捕获区域标准化RC值;3.分析训练集样本中区域层面CNV水平和参考人群基线CNV水平的波动统计打分(Z-score);4.以每个目标捕获区域前后位置延伸一定的长度,将延伸长度内的目标捕获区域作为该区域的特征值,以该区域在双样本在CNVkit软件得到的Ratio值作为响应变量,借助该数据训练每个区域的SVR模型;5.结合目标捕获区域已知的SVR模型和待测样本的目标捕获区域的CNV水平的波动统计打分计算待测样本的CNV水平(Ratio值);7.注释每个目标捕获区域对应的基因及转录本,然后对按照一定的过滤规则,筛选发生拷贝数变异的区域。
本申请所要求的输入文件包括:历史基线文件、临床组织样本经过比对、排序、过滤、标记重复等步骤后生成的测序数据文件(bam格式)、目标捕获区域文件(bed格式,包含染色体、目标捕获区域起始点、终止点)、人类参考基因组序列(fastq格式)。
本申请的输出文件包括:每个目标捕获区域的训练集和测试集的Ratio预测值、每个目标获取区域的SVR模型、待测样本区域的Ratio值、发生拷贝数变异的区域及对应的StatusRatio值。
基于以上研究,本申请创造性的提出了一种新的单样本肿瘤DNA拷贝数变异检测的方法,如图1所示,包括测序读长标准化步骤11、待测样本CNV水平计算步骤12、区域注释和过滤步骤13。
其中,测序读长标准化步骤11包括针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数。本申请的一种实现方式中,用训练集同样的方式消除数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数,即利用CNVkit的reference模块消除样本数据量、GC含量、捕获区域大小的影响。
待测样本CNV水平计算步骤12包括利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值。其中,参考人群组的基线是利用不同批次的基线(基线:用30个临床血细胞样本建立)计算各目标捕获区域标准化后reads数量的均值和方差;
本申请的一种实现方式中,参考人群组的基线的获取方式为,在不同批次的上机样本选取30个同批次正常血细胞样本,针对各个样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到矫正后的每个目标捕获区域标准化reads数量,以此计算基准水平的波动范围,作为临床动态基线;综合不同时间段、不同试验环境获得的临床动态基线,计算每个目标捕获区域基准水平波动范围,即获取每个目标捕获区域的标准化后reads数量的均值和方差,作为参考人群组的基线。
待测样本CNV水平计算步骤12中,SVR模型以临床组织样本作为训练集,计算训练集中各样本每个目标捕获区域RC的波动与参考人群组拷贝数基线水平相偏离程度的统计学打分作为模型的输入,由此训练获得。
本申请的一种实现方式中,SVR模型的制备具体包括,训练集捕获区域reads数获取:选取一定数量的符合条件临床组织样本,利用CNVkit的reference模块(消除样本数据量、GC含量、捕获区域大小的影响)针对每个样本获取目标捕获区域标准化后的reads数量,利用参考人群组和临床组织样本的标准化read数量,计算出以目标捕获区域为单位的Z-score值。SVR模型的训练:由每个临床样本在捕获区域的Z-score构建矩阵作为训练模型的数据集。考虑到有时可能关注某个探针捕获区域的CNV水平的波动,故对每个区域训练一个SVR模型。针对每一个目标区域选取前后一定区域范围内目标捕获区域作为该区域的模型对应的数据集,此区域在每个样本集中的检测到的Ratio值作为响应变量,作为每个区域训练集训练获得所述SVR模型。本申请的一种实现方式中,具体的,随机选取四分之三的数据作为每个区域训练集训练SVR模型,剩余为测试集。
区域注释和过滤步骤13包括计算每个区域的Ratio值*2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果;其中,shift默认为0,相应的2^shift=1,如果样本为男性,shift赋值为1。
本申请的单样本肿瘤DNA拷贝数变异检测方法,其技术关键包括:
(1)参考人群基线通过大量历史动态基线获取:现有处理单样本的基线问题,一般都是采用固定某一天的大量Normal样本建立的基线,或随机某一个Normal样本建立基线作为固定基线,但这种方式的处理丢失每天测序环境的不同带来的干扰,导致待测样本分析CNV的结果存在一定的偏差。本申请学习大量历史基线分布特点,计算在每个捕获区域的RC值的均值和标准差统计量作为该区域在参考人群中RC波动的基准水平。
(2)基于参考人群组拷贝数基线水平数据,计算训练集样本在每个捕获区域的CNV与之相偏离程度的统计学打分:本申请随机挑选临床组织样本作为训练集,针对每个训练样本同样采用CNVkit软件reference模块获取在每个捕获区域RC的波动,该软件对染色体测序覆盖数据、GC含量和捕获区间长度三个因素进行了标准化,以此来消除实验带来的影响,然后计算每个捕获区域RC的波动与参考人群组拷贝数基线水平相偏离程度的统计学打分作为模型的输入。
(3)合并捕获区域到基因层面的拷贝数:目前存在的CNV鉴定软件,大部分都是通过算法判断发生拷贝数变异的断点位置,输出的结果都是区域层面的拷贝数,而解读实际更关系的是基因层面的拷贝数,本发明针对每个区域训练SVR模型,得到每个区域的拷贝数值,借助区域层面的拷贝数值按照一定的合并规则,输出基因层面的拷贝数,供解读判断。
本申请的一种实现方式中,对MET、ERBB2基因检出率为100%,StatusRatio值与双样本的相关性0.84。说明本申请的单样本肿瘤DNA拷贝数变异检测的方法,能够对单样本肿瘤DNA进行拷贝数变异检测,且检出率高,检测结果准确性好,能够替代现有的双样本的检测方法。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的方法,本申请提出了一种单样本肿瘤DNA拷贝数变异检测的装置,如图2所示,包括测序读长标准化模块21、参考人群组的基线获取模块22、SVR模型训练模块23、待测样本CNV水平计算模块24、区域注释和过滤模块25。
其中,测序读长标准化模块21,包括用于针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数;本申请的一种实现方式中,消除样本数据量、GC含量、捕获区域大小的影响,采用的是CNVkit的reference模块。
参考人群组的基线获取模块22,包括用于选取至少30个同批次临床血细胞样本,针对各个样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到矫正后的每个目标捕获区域标准化reads数量,以此计算基准水平的波动范围,作为临床动态基线;综合不同时间段、不同试验环境获得的临床动态基线,计算每个目标捕获区域基准水平波动范围,即获取每个目标捕获区域的标准化后reads数量的均值和方差,作为参考人群组的基线。本申请的一种实现方式中,具体采用30个同批次正常血细胞样本用于临床动态基线计算。
SVR模型训练模块23,包括用于选取不少于300个且去重后深度不小于300×的临床组织样本,消除样本数据量、GC含量、捕获区域大小的影响,针对每个样本获取目标捕获区域标准化后的reads数量,利用所述参考人群组的基线和临床组织样本的标准化read数量,计算出以目标捕获区域为单位的Z-score值;由每个临床组织样本在目标捕获区域的Z-score构建矩阵作为训练模型的数据集,针对每一个目标捕获区域选取前后105kb范围的区域作为该区域的模型对应的数据集,此区域在每个临床组织样本集中的检测到的Ratio值作为响应变量,作为每个区域训练集训练获得所述SVR模型。本申请的一种实现方式中,随机选取四分之三的数据作为每个区域训练集训练SVR模型,剩余为测试集。
待测样本CNV水平计算模块24,包括用于利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值。
区域注释和过滤模块25,包括用于计算每个区域的Ratio值*2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果;其中,shift默认为0,相应的2^shift=1,如果样本为男性,shift赋值为1。
本申请的一种实现方式中,本申请的单样本肿瘤DNA拷贝数变异检测装置,能够自动化的进行拷贝数变异检测,单线程运行,一次可鉴定一个待测样本。
本申请的装置,利用各模块相互协调作用,能够实现本申请的单样本肿瘤DNA拷贝数变异检测方法,特别是通过本申请装置的各模块能够实现本申请方法中的相应的各个步骤,从而实现自动化的单样本肿瘤DNA拷贝数变异检测。
本申请的另一实现方式中还提供了一种单样本肿瘤DNA拷贝数变异检测的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:测序读长标准化步骤,包括针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数;待测样本CNV水平计算步骤,包括利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值;区域注释和过滤步骤,包括计算每个区域的Ratio值*2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:测序读长标准化步骤,包括针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数;待测样本CNV水平计算步骤,包括利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值;区域注释和过滤步骤,包括计算每个区域的Ratio值*2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果。
本申请的术语及其缩写含义如下:
reads数:基因组序列片段。
RC值:Read Count值的简称,比对某一区域的reads数。
SVR模型:SVR全称是support vectorregression,即支持向量回归。
GC含量:在DNA四种碱基中,将鸟嘌呤和胞嘧啶所占的比率称为GC含量。
CNV:全称是Copynumbervariations,即基因拷贝数变异。
实施例
本试验按照以上方法,对MET、ERBB2基因的拷贝数进行鉴定。
挑选138天的历史基线文件作为参考人群组,计算每个目标捕获区域RC的均值和方差,以此作为固定基线文件。同样筛选了476个临床组织样本作为训练集样本,采用CNVkit软件对其进行捕获测序和测序数据的预处理,将固定基线文件作为输入文件,计算训练集样本在每个探针捕获区域的RC相对与固定基线的统计学打分值,即Z-score值:作为样本在每个探针捕获区域的衡量CNV水平的指标,对每个捕获区域前后延伸105KB,在该长度内的目标捕获区域作为该区域的特征值,区域对应的Ratio值作为响应变量,训练每个区域的SVR模型。其中,Ratio值是基于双样本用CNVkit软件分析得到。
从临床组织样本中挑选120个样本作为测试集,利用处理训练集样本同样的方式对其进行预处理,得到测试集每个探针捕获区域的统计学打分值,然后嵌套每个区域的SVR模型得到相应的Ratio值,将此结果作为注释和过滤模块的输入,得到发生拷贝数变异的区域。
与此同时,本试验采用测试集的120个样本的配对样本中解读报出基因作为真集,对MET、ERBB2基因拷贝数的检测结果进行验证。
测试集的120个样本的MET、ERBB2基因拷贝数的部分鉴定结果如表1所示,这两个基因在部分样本未发生拷贝数变异。
表1测试集120个样本的MET、ERBB2基因拷贝数的鉴定结果
表1的结果显示,采用本申请的单样本肿瘤DNA拷贝数变异检测方法,可以稳定鉴定到单样本肿瘤DNA中的MET和ERBB2基因,除了极个别样本拷贝数与CNVkit软件检测的结果存在一定的差异外,其它样本的结果都很准确;MET、ERBB2基因检出率为100%。
将本申请方法的检测结果与双样本的检测结果进行相关性分析,结果显示,StatusRatio值与双样本的相关性0.84。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
Claims (8)
1.一种单样本肿瘤DNA拷贝数变异检测的方法,其特征在于:包括以下步骤,
测序读长标准化步骤,包括针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数;
待测样本CNV水平计算步骤,包括利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值;
区域注释和过滤步骤,包括计算每个区域的Ratio值* 2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果;其中,shift默认为0,相应的2^shift=1,如果样本为男性,shift赋值为1;
所述参考人群组的基线为利用不同批次的基线计算各目标捕获区域标准化后reads数量的均值和方差,不同批次的基线中每个基线由至少30个临床血细胞样本建立;
所述SVR模型以临床组织样本作为训练集,计算训练集中各样本每个目标捕获区域RC的波动与所述参考人群组的基线的拷贝数水平相偏离程度的统计学打分作为模型的输入,由此训练获得;
所述SVR模型具体采用以下方法获得,
训练集捕获区域reads数获取步骤,包括选取不少于300个且去重后深度不小于300×的临床组织样本,消除样本数据量、GC含量、捕获区域大小的影响,针对每个样本获取目标捕获区域标准化后的reads数量,利用所述参考人群组的基线和临床组织样本的标准化read数量,计算出以目标捕获区域为单位的Z-score值;
SVR模型训练步骤,包括由每个临床组织样本在目标捕获区域的Z-score构建矩阵作为训练模型的数据集,针对每一个目标捕获区域选取前后105kb范围的区域作为该区域的模型对应的数据集,此区域在每个临床组织样本集中的检测到的Ratio值作为响应变量,作为每个区域训练集训练获得所述SVR模型;
所述参考人群组的基线具体采用以下方法获得,
选取至少30个同批次临床血细胞样本,针对各个样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到矫正后的每个目标捕获区域标准化reads数量,以此计算基准水平的波动范围,作为临床动态基线;综合不同时间段、不同试验环境获得的临床动态基线,计算每个目标捕获区域基准水平波动范围,即获取每个目标捕获区域的标准化后reads数量的均值和方差,作为所述参考人群组的基线。
2.根据权利要求1所述的方法,其特征在于:所述依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,具体包括,StatusRatio值大于1.4时,记为该基因发生扩增,StatusRatio值小于0.8时,记为该基因发生缺失。
3.根据权利要求1或2所述的方法,其特征在于:所述消除样本数据量、GC含量、捕获区域大小的影响,具体采用的是CNVkit的reference模块。
4.一种单样本肿瘤DNA拷贝数变异检测的装置,其特征在于:包括测序读长标准化模块、参考人群组的基线获取模块、SVR模型训练模块、待测样本CNV水平计算模块、区域注释和过滤模块;
所述测序读长标准化模块,包括用于针对待测样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到每个区域标准化后的reads数;
所述参考人群组的基线获取模块,包括用于选取至少30个同批次临床血细胞样本,针对各个样本在每个捕获区域read数,消除样本数据量、GC含量、捕获区域大小的影响,得到矫正后的每个目标捕获区域标准化reads数量,以此计算基准水平的波动范围,作为临床动态基线;综合不同时间段、不同试验环境获得的临床动态基线,计算每个目标捕获区域基准水平波动范围,即获取每个目标捕获区域的标准化后reads数量的均值和方差,作为所述参考人群组的基线;
所述SVR模型训练模块,包括用于选取不少于300个且去重后深度不小于300×的临床组织样本,消除样本数据量、GC含量、捕获区域大小的影响,针对每个样本获取目标捕获区域标准化后的reads数量,利用所述参考人群组的基线和临床组织样本的标准化read数量,计算出以目标捕获区域为单位的Z-score值;由每个临床组织样本在目标捕获区域的Z-score构建矩阵作为训练模型的数据集,针对每一个目标捕获区域选取前后105kb范围的区域作为该区域的模型对应的数据集,此区域在每个临床组织样本集中的检测到的Ratio值作为响应变量,作为每个区域训练集训练获得所述SVR模型;
所述待测样本CNV水平计算模块,包括用于利用参考人群组的基线,计算待测样本在每个目标捕获区域为单位的Z-score值,然后结合每一个目标捕获区域的训练的SVR模型和其对应特征的Z-score值得到每个区域的Ratio值;
所述区域注释和过滤模块,包括用于计算每个区域的Ratio值* 2^shift,合并区间后再加权平均的Ratio值,记为AvgRatio,区间所在基因的所有与该区间Status一致的区域的AvgRatio加权平均值记为StatusRatio值,依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,按照外显子坐标轴顺序,将相邻结果Status一致的合并到一起,获得单样本肿瘤DNA拷贝数变异的检测结果;其中,shift默认为0,相应的2^shift=1,如果样本为男性,shift赋值为1。
5.根据权利要求4所述的装置,其特征在于:所述依据StatusRatio阈值筛选发生拷贝数变异的外显子区域,具体包括,StatusRatio值大于1.4时,记为该基因发生扩增,StatusRatio值小于0.8时,记为该基因发生缺失。
6.根据权利要求4或5所述的装置,其特征在于:所述测序读长标准化模块、所述参考人群组的基线获取模块和所述SVR模型训练模块中,消除样本数据量、GC含量、捕获区域大小的影响,具体采用的是CNVkit的reference模块。
7.一种单样本肿瘤DNA拷贝数变异检测的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-3任一项所述的方法。
8.一种计算机可读存储介质,其特征在于:所述存储介质中存储有程序,所述程序能够被处理器执行以实现权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011562169.8A CN112634987B (zh) | 2020-12-25 | 2020-12-25 | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011562169.8A CN112634987B (zh) | 2020-12-25 | 2020-12-25 | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634987A CN112634987A (zh) | 2021-04-09 |
CN112634987B true CN112634987B (zh) | 2021-07-27 |
Family
ID=75324877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011562169.8A Active CN112634987B (zh) | 2020-12-25 | 2020-12-25 | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634987B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571130B (zh) * | 2021-07-23 | 2023-08-18 | 上海科技大学 | 一种简洁全面的拷贝数变异模式识别方法及其应用 |
CN113674803B (zh) * | 2021-08-30 | 2023-08-08 | 广州燃石医学检验所有限公司 | 一种拷贝数变异的检测方法、装置、存储介质及其应用 |
CN114703263B (zh) * | 2021-12-20 | 2023-09-22 | 北京科迅生物技术有限公司 | 一种群组染色体拷贝数变异检测方法及装置 |
CN117095744A (zh) * | 2023-08-21 | 2023-11-21 | 上海信诺佰世医学检验有限公司 | 一种基于单样本高通量转录组测序数据的拷贝数变异检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106591441A (zh) * | 2016-12-02 | 2017-04-26 | 深圳市易基因科技有限公司 | 基于全基因捕获测序的α和/或β‑地中海贫血突变的检测探针、方法、芯片及应用 |
CN108319813A (zh) * | 2017-11-30 | 2018-07-24 | 臻和(北京)科技有限公司 | 循环肿瘤dna拷贝数变异的检测方法和装置 |
CN108875302A (zh) * | 2018-06-22 | 2018-11-23 | 广州漫瑞生物信息技术有限公司 | 一种检测细胞游离肿瘤基因拷贝数变异的系统和方法 |
CN109887546A (zh) * | 2019-01-15 | 2019-06-14 | 明码(上海)生物科技有限公司 | 一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法 |
CN111028890A (zh) * | 2019-12-31 | 2020-04-17 | 东莞博奥木华基因科技有限公司 | 一种基于run间矫正的CNV检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256289B (zh) * | 2018-01-17 | 2020-10-16 | 湖南大地同年生物科技有限公司 | 一种基于目标区域捕获测序基因组拷贝数变异的方法 |
CN111370056B (zh) * | 2019-05-22 | 2021-03-30 | 深圳思勤医疗科技有限公司 | 确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质 |
CN110246543B (zh) * | 2019-06-21 | 2021-02-26 | 元码基因科技(北京)股份有限公司 | 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机系统 |
-
2020
- 2020-12-25 CN CN202011562169.8A patent/CN112634987B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106591441A (zh) * | 2016-12-02 | 2017-04-26 | 深圳市易基因科技有限公司 | 基于全基因捕获测序的α和/或β‑地中海贫血突变的检测探针、方法、芯片及应用 |
CN108319813A (zh) * | 2017-11-30 | 2018-07-24 | 臻和(北京)科技有限公司 | 循环肿瘤dna拷贝数变异的检测方法和装置 |
CN108875302A (zh) * | 2018-06-22 | 2018-11-23 | 广州漫瑞生物信息技术有限公司 | 一种检测细胞游离肿瘤基因拷贝数变异的系统和方法 |
CN109887546A (zh) * | 2019-01-15 | 2019-06-14 | 明码(上海)生物科技有限公司 | 一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法 |
CN111028890A (zh) * | 2019-12-31 | 2020-04-17 | 东莞博奥木华基因科技有限公司 | 一种基于run间矫正的CNV检测方法 |
Non-Patent Citations (2)
Title |
---|
SeqBBS: A change-point model based algorithm and R package for searching CNV regions via the ratio of sequencing reads;Li Hua等;《2013 IEEE International Workshop on Genomic Signal Processing and Statistics》;20131031;第1-4页 * |
基于家系基因测序数据的拷贝数变异检测方法研究;董洪超;《中国优秀硕士学位论文全文数据库》;20180215;第A006-366页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112634987A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112634987B (zh) | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 | |
Lähnemann et al. | Eleven grand challenges in single-cell data science | |
Beißbarth et al. | Processing and quality control of DNA array hybridization data | |
JP6029683B2 (ja) | データ解析装置、データ解析プログラム | |
KR101828052B1 (ko) | 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치 | |
Topa et al. | Gaussian process test for high-throughput sequencing time series: application to experimental evolution | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
CN113096728B (zh) | 一种微小残余病灶的检测方法、装置、存储介质及设备 | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
JP2005531853A (ja) | Snp遺伝子型クラスタリングのためのシステムおよび方法 | |
JP5854346B2 (ja) | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN107267613A (zh) | 测序数据处理系统和smn基因检测系统 | |
CN112687333A (zh) | 一种泛癌种的单样本微卫星不稳定性的分析方法和装置 | |
WO2014050160A1 (ja) | 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム | |
CN111508559B (zh) | 检测目标区域cnv的方法及装置 | |
CA3154621A1 (en) | Single cell rna-seq data processing | |
AU2022218581B2 (en) | Sequencing data-based itd mutation ratio detecting apparatus and method | |
Li et al. | BagGMM: Calling copy number variation by bagging multiple Gaussian mixture models from tumor and matched normal next-generation sequencing data | |
Parikh et al. | LI Detector: a framework for sensitive colony-based screens regardless of the distribution of fitness effects | |
CN114078567A (zh) | 一种基于cfDNA的肿瘤负荷检测装置及检测方法 | |
CN117012274B (zh) | 基于高通量测序识别基因缺失的装置 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN115662507B (zh) | 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 | |
US20170226588A1 (en) | Systems and methods for dna amplification with post-sequencing data filtering and cell isolation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |