CN116189763A - 一种基于二代测序的单样本拷贝数变异检测方法 - Google Patents

一种基于二代测序的单样本拷贝数变异检测方法 Download PDF

Info

Publication number
CN116189763A
CN116189763A CN202310145770.4A CN202310145770A CN116189763A CN 116189763 A CN116189763 A CN 116189763A CN 202310145770 A CN202310145770 A CN 202310145770A CN 116189763 A CN116189763 A CN 116189763A
Authority
CN
China
Prior art keywords
sample
cnv
negative
probe
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310145770.4A
Other languages
English (en)
Inventor
林程宏
陈少红
潘心怡
金保雷
张林华
李旭超
阮力
郑立谋
罗捷敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amoy Diagnostics Co Ltd
Original Assignee
Amoy Diagnostics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amoy Diagnostics Co Ltd filed Critical Amoy Diagnostics Co Ltd
Priority to CN202310145770.4A priority Critical patent/CN116189763A/zh
Publication of CN116189763A publication Critical patent/CN116189763A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出一种基于二代测序的单样本拷贝数变异检测方法,包括:将基于二代测序技术的多类CNV阴性样本测序数据合并,得到CNV阴性参考集;采用已标记CNV的测序样本,训练隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取预测为阴性的探针对应的基因序列,得到待测样本的比对样本;从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,统计待测样本每个探针经最优参考子集归一化的数据特征;利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测,再次将探针标记为阴性(Negative)、扩增(Gain)和缺失(Loss),合并得到全CNV区域;过滤得真实CNV区域,不依赖待测样本自身的阴性对照样本或同批次的阴性样本参考集,简单、准确率高、适应性强。

Description

一种基于二代测序的单样本拷贝数变异检测方法
技术领域
本发明涉及二代测序技术测序领域,特别是指一种基于二代测序的单样本拷贝数变异检测。
背景技术
人类基因组上广泛存在着多种遗传变异形式与DNA多态性。除了DNA的点突变,基因组上还可以发生涉及1kb和5Mb之间的大片段DNA序列的重复或缺失。此类基因组片段的变异称为拷贝数变异(Copy number variation,CNV)。CNV是产生个体间遗传差异和人类遗传多样性的一个重要来源,是人类基因组中的一种结构变异,占基因组多样性的很大一部分,并与许多复杂的人类疾病有关。对CNV这类遗传变异的研究,或将可以促进对相关人类疾病的发病机制的认识,对患者临床诊断、预后、化疗敏感性以及治疗方案的制订具有重要意义。
在多数临床检验中,CNV的检测依赖于核型分析、荧光原位杂交、单核苷酸多态性阵列方法、阵列比较基因组杂交和多重连接依赖性探针扩增(Multiplex ligation-dependent probe amplification,MLPA)等。然而,由于杂交噪声、低分辨率、基因组覆盖范围有限以及难以检测新的和稀有突变等缺点,这些传统方法并不是最理想的。与传统方法不同,二代测序技术(Next-generation sequencing,NGS)产生的短读长具有更高的分辨率,为高效、低成本和高通量的准确识别CNV带来了新的可能性。
近年来,大多数基于NGS数据检测CNV的相关工具都是基于覆盖深度开发的,通常,这类方法需要同批次的肿瘤配对的阴性样本或其他样本构建参考集,并通过比较待测样本和参考集之间的覆盖深度信号水平差异来识别样本的CNV,例如:BIC-seq2、SeqCNV、rSW-seq、ExomeCNV、ExomeDepth、CNVkit、CONTRA等方法。然而,这不仅增加了测序成本;且检测范围有限:不适用于配对样本无法获取的应用场景,还存在同批次测序的样本数量要求,无法分析小样本量,特别是单个样本,其检出的结果往往也会受到同批次其他样本的影响;此外,如果使用通用的阴性样本构建参考集,由于NGS数据极易受到不同测序平台、实验试剂、实验参数、实验批次等环节的影响,而产生一定的整体波动,因此使用固定参考集在实际检测中往往会出现跨批次样本检出性能不佳,乃至不同平台、仪器、癌种需要构建和维护不同参考集以及参数流程的情况,在应用上带来很大的局限性,无法灵活快速的应对新平台、新仪器、新癌种数据。
综上,现有的方法都无法对单个样本CNV进行稳定的检出,因此,如何建立一个高效便捷且可在不同NGS检测平台、批次和不同癌种中通用的CNV阴性样本参考集用于单个样本CNV的检测至关重要。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于二代测序的单样本CNV检测方法。本发明适用于常见的基于NGS的序列捕获探针集合,可以是覆盖靶向的感兴趣区域的探针;本发明也适用于常见的基于测序覆盖深度的CNV检出算法的样本特征。
本发明采用如下技术方案:
一种基于二代测序的单样本拷贝数变异检测方法,包括:
将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,得到CNV阴性参考集;所述多类CNV阴性样本测序数据包括但不限于:不同检测平台、批次、试剂类型和不同癌种;
采用已标记CNV的测序样本,训练隐马尔可夫模型,得到训练好的隐马尔可夫模型,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本;
从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,得到最优参考子集,统计待测样本每个探针经最优参考子集归一化的数据特征;
利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测,再次将探针标记为Negative、Gain和Loss,基于数据特征合并得到全CNV区域;
将得到的全CNV区域进行过滤得到真实CNV区域。
具体地,将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,所述预处理具体包括:
统计参考集中每个样本在探针i的总reads数,记为探针的测序深度Di
对参考集中每个样本的所有探针i的测序深度Di进行样本内归一化统计出该探针的数据特征Fi;所述样本内归一化是计算该样本所有探针的测序深度Di的均值或是中位值MSi,即FSi=Di/MSi
对参考集样本利用统计学方法,基于样本的每个探针的数据特征FSi进行分组质控,去掉含空值、样本内探针的数据特征波动超过阈值或整体特征超过组内其他样本偏离阈值的样本;得到CNV阴性参考集。
具体地,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本,具体包括:
设定阈值a,统计该组被预测为某一种阳性CNV类型的探针数x,若x>a,则认为该组探针包含该种CNV类型;由此,得到该组探针阳性CNV类型数:0表示该组探针全为Negative,1表示该组阳性探针为Gain或者Loss,2表示该组阳性探针同时包含Gain和Loss;
若该组CNV类型数为0,则将该组探针对应的基因外显子区域标记为Negative;
若该组CNV类型数为1,根据所包含的CNV类型及设定的阈值,将该组探针对应的基因外显子区域标记为Gain或者Loss;所述阈值为针对Gain和Loss类型分别设定的过滤阈值,例如:假设该组探针仅包含Loss类型的阳性探针,可以设定Loss的阈值为t,计算该组探针数据特征的均值,若均值<t,则将该组探针对应的基因外显子区域标记为Loss,否则标记为Negative;
若该组CNV类型数为2,则将该组探针对应的基因外显子区域标记为Conflict;
根据设定的阈值,预测得到每个基因相应外显子的CNV状态,若同一基因有连续多个外显子都被标记为同一种CNV类型,则将连续相同的外显子合并标记。
具体地,统计待测样本每个探针经最优参考子集归一化的数据特征,具体为:
先计算待测样本每个探针样本内归一化数据特征FSi在最优参考子集中的均值或中位值MRi,然后求的待测样本归一化数据特征值FRi=FSi/MRi
具体地,将得到的全CNV区域进行过滤得到真实CNV区域,具体包括:朴素贝叶斯-高斯模型构建与过滤、同样本过滤、批次样本过滤和其他过滤。
具体地,若同一基因有连续多个外显子都被标记为同一种CNV类型,则将连续相同的外显子合并标记,还包括:所述连续允许中间有b个外显子与其他外显子的CNV类型不一致,其中,b为1或2。
具体地,从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集之前,还包括:
利用统计学方法,比较待测样本的比对样本与CNV阴性参考集的每个样本,保留与待测样本的比对样本来自同一个分布的参考集样本,所述统计学方法包括但不限于T检验、Anderson-Darling检验。
具体地,从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,所述相似度计算具体为:
计算相似度距离,包括但不限于欧式距离、余弦距离、曼哈顿距离。
本发明实施例另一方面提供一种基于二代测序的单样本拷贝数变异检测系统,包括:
CNV阴性参考集获取单元:将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,得到CNV阴性参考集;所述多类CNV阴性样本测序数据包括但不限于:不同检测平台、批次、试剂类型和不同癌种;
待测样本初筛单元:采用已标记CNV的测序样本,训练隐马尔可夫模型,得到训练好的隐马尔可夫模型,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本;
最优参考子集获取单元:从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,得到最优参考子集,统计待测样本每个探针经最优参考子集归一化的数据特征;
全CNV区域获取单元:利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测,再次将探针标记为Negative、Gain和Loss,基于数据特征合并得到全CNV区域;
过滤单元:将得到的全CNV区域进行过滤得到真实CNV区域。
本发明实施例另一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于二代测序的单样本拷贝数变异检测方法步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明提供的一种基于NGS技术的CNV阴性样本参考集构建与适配方法,该分析方法能够应用在各种基于NGS测序的样本中,用于拷贝数变异的检测,且检测灵敏度能达到外显子级别(~200bp);
(2)本发明方法不依赖于待测样本自身的阴性对照样本或同批次的阴性样本参考集,能够在无法获得自身阴性样本参考集的情况下,自动适配与其数据特征最接近的阴性参考集,提供一种基于NGS的单样本CNV检测方法;
(3)本发明提供的方法具备比固定参考集更强的跨批次、跨试剂、跨仪器、跨平台、跨癌种检出性能;
(4)本发明方法使待测样本和阴性参考集之间本底数据特征更相近,能够不需要针对待测样本类型进行单独优化和调参,乃至建立单独的流程,能够节约大量资源和成本,兼具理论与实际应用价值;
(5)相比传统的CNV检测方法,比如:阵列比较基因组杂交、MLPA,本发明基于NGS的方法具有高通量、高分辨率、实验方案简单高效等优点。
附图说明
图1是本发明实施例提供的一种基于二代测序的单样本拷贝数变异检测方法的流程框图;
图2是本发明实施例提供的一种基于二代测序的单样本拷贝数变异检测系统架构图;
图3是本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外,应理解,在阅读了本发明的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本发明所限定的范围。
实施例中所涉及的实验样本均预先通过MLPA方法进行验证,共54例BRCA基因CNV突变的阳性样本和1883例阴性样本。样本分成104个批次进行扩增子上机测序,使用了Nextseq500和MiSeq两种测序仪器。验证的阳性突变情况见表1,片段长度从单个外显子到整个基因不等,突变类型包含了Loss和Gain。
表1阳性样本CNV变异区域和类型
Figure BDA0004089125120000051
/>
Figure BDA0004089125120000061
/>
Figure BDA0004089125120000071
基于本发明的方法,具体实施步骤如下:
1.构建混合参考集
本实施例抽样选取了50个批次共763例阴性样本构建混合参考集,统计了上述阴性样本在BRCA基因上每条探针i的有效深度Di,并除以每例样本的有效深度中位值MSi进行样本内归一化,得到样本内归一化深度FSi=Di/MSi,在本实施例中,有效深度值指比对到该探针i序列的reads数的总和。对样本进行质控,具体而言:
去除样本中存在有效深度为0的样本;去除归一化后样本内探针标准差≥0.3的样本;求出每条探针在所有样本中的中位值,得到中位值样本,然后每个阴性样本与中位值进行两两F检验,去除F检验P<0.05的阴性样本,剩下的548例样本构建成混合参考集。
2.构建隐马尔可夫模型与待测样本状态初步预测
抽样选取部分阳性样本(24例),使用其阳性探针部分和阴性探针部分的FSi训练隐马尔可夫模型;
使用训练得到的隐马尔可夫模型对所有待测阳性和阴性待测样本探针进行状态预测,标记所有探针的CNV状态;对探针状态进行合并,得到每个样本的阳性外显子区域和阴性外显子区域;
3.待测样本CNV参考子集匹配与归一化
每个样本基于其初步标记为Negative的探针挑选12个阴性样本作为最优参考子集,具体方法为:。
利用统计学方法,比较待测样本的比对样本与CNV阴性参考集的每个样本,保留与待测样本的比对样本来自同一个分布的参考集样本,所述统计学方法包括但不限于T检验、Anderson-Darling检验;
从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,所述相似度计算具体为:
计算相似度距离,包括但不限于欧式距离、余弦距离、曼哈顿距离;或采用聚类方法,挑选出来的相似度最高的子集,即为最优参考子集;
并使用参考子集在每条探针处的中位值深度MRi对待测样本进行参考集归一化FRi=FSi/MRi
4.待测样本CNV区域检出与过滤
将每个待测样本基于参考集归一化深度FRi使用隐马尔可夫模型进行探针状态预测,并合并得到阳性外显子区域;
5.CNV区域过滤
具体过滤方法包括:
(1)朴素贝叶斯-高斯模型构建与过滤:使用已标记CNV的测序样本进行训练,即基于步骤2预测出来的每个CNV区域的观测值与样本的真实标签构建模型;根据该模型,对待测样本的所预测出来的CNV区域进行预测,预测结果分为三类:Negative、Gain和Loss。基于此,过滤掉预测为的Negative的CNV区域。所述观测值可以为该区域探针的数据特征的均值、该区域阳性探针数与总探针数的比值、待测样本与最优参考子集的相似度、该待测样本中预测为阳性的基因数等;
(2)同样本过滤:对于待测样本,针对步骤2预测出的每个CNV区域,计算该区域的探针与不在该区域内的其他探针的数据特征FRi是否存在显著差异,若不存在显著差异,则认为该区域阳性不可信。所述显著性可以利用T检验方法统计;
(3)批次样本过滤:若同时有多个样本进行检测,对来自同一批次进行检出的样本,针对步骤2预测出的每个CNV区域,计算该区域的探针在待测样本与该批次其他样本中的数据特征FRi是否存在显著差异,若不存在显著差异,则认为该区域阳性不可信。所述显著性可以利用T检验方法统计;
(4)其他过滤:对于待测样本,针对步骤2预测出的CNV区域,可根据阳性基因数、该区域阳性探针数与总探针数的比值、阴性区域探针的数据特征的标准差等,设定相应阈值进行过滤;
根据上述过滤方法对所有阳性外显子区域进行过滤,去除因为噪声等因素带来的假阳性区域,保留真实的阳性区域。
检出的具体结果见表2。结果显示,54例MLPA阳性样本53例检出为CNV阳性,仅1例被界定为CNV阴性,真阳性率(TPR)98.15%;1883例阴性样本中检出2例假阳,真阴性率(TNR)为99.89%,且检测灵敏度能达到外显子级别(~200bp),检出的CNV突变区域BRCA1_E24、BRCA1_E16、BRCA1_E3等均为一个外显子;
上述结果表明了本发明提供的基于NGS技术,构建和挑选待测样本最优阴性样本参考集,对样本CNV变异进行检测的方法,与MLPA测序结果比较,准确率达99.85%,相比常规的固定参考集的方法,能够准确的进行单个样本的CNV检测,能够灵敏的检出单个外显子至整个基因的扩增或缺失,同时具备更好的跨批次、跨试剂、跨仪器、跨平台、跨癌种的稳定性。
表2本方法检出的样本CNV突变区域和类型
Figure BDA0004089125120000081
/>
Figure BDA0004089125120000091
/>
Figure BDA0004089125120000101
如图2是本发明实施例提供的一种基于二代测序的单样本拷贝数变异检测系统架构图;包括:
CNV阴性参考集获取单元201:将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,得到CNV阴性参考集;所述多类CNV阴性样本测序数据包括但不限于:不同检测平台、批次、试剂类型和不同癌种;
待测样本初筛单元202:采用已标记CNV的测序样本,训练隐马尔可夫模型,得到训练好的隐马尔可夫模型,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本;
最优参考子集获取单元203:从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,得到最优参考子集,统计待测样本每个探针经最优参考子集归一化的数据特征;
全CNV区域获取单元204:利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测,再次将探针标记为Negative、Gain和Loss,基于数据特征合并得到全CNV区域;
过滤单元205:将得到的全CNV区域进行过滤得到真实CNV区域。
请参阅图3,图3为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图3所示,本实施例提供了一种计算机可读存储介质300,其上存储有计算机程序311,该计算机程序311被处理器执行时实现本发明实施例提供的跨用户行为识别迁移学习的方法;
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (10)

1.一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,包括:
将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,得到CNV阴性参考集;所述多类CNV阴性样本测序数据包括但不限于:不同检测平台、批次、试剂类型和不同癌种;
采用已标记CNV的测序样本,训练隐马尔可夫模型,得到训练好的隐马尔可夫模型,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本;
从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,得到最优参考子集,统计待测样本每个探针经最优参考子集归一化的数据特征;
利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测,再次将探针标记为Negative、Gain和Loss,基于数据特征合并得到全CNV区域;
将得到的全CNV区域进行过滤得到真实CNV区域。
2.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,所述预处理具体包括:
统计参考集中每个样本在探针i的总reads数,记为探针的测序深度Di
对参考集中每个样本的所有探针i的测序深度Di进行样本内归一化统计出该探针的数据特征Fi;所述样本内归一化是计算该样本所有探针的测序深度Di的均值或是中位值MSi,即FSi=Di/MSi
对参考集样本利用统计学方法,基于样本的每个探针的数据特征FSi进行分组质控,去掉含空值、样本内探针的数据特征波动超过阈值或整体特征超过组内其他样本偏离阈值的样本;得到CNV阴性参考集。
3.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,
通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本,具体包括:
设定阈值a,统计该组被预测为某一种阳性CNV类型的探针数x,若x>a,则认为该组探针包含该种CNV类型;由此,得到该组探针阳性CNV类型数:0表示该组探针全为Negative,1表示该组阳性探针为Gain或者Loss,2表示该组阳性探针同时包含Gain和Loss;
若该组CNV类型数为0,则将该组探针对应的基因外显子区域标记为Negative;
若该组CNV类型数为1,根据所包含的CNV类型及设定的阈值,将该组探针对应的基因外显子区域标记为Gain或者Loss;所述阈值为针对Gain和Loss类型分别设定的过滤阈值,
若该组CNV类型数为2,则将该组探针对应的基因外显子区域标记为Conflict;
根据设定的阈值,预测得到每个基因相应外显子的CNV状态,若同一基因有连续多个外显子都被标记为同一种CNV类型,则将连续相同的外显子合并标记。
4.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,统计待测样本每个探针经最优参考子集归一化的数据特征,具体为:
先计算待测样本每个探针样本内归一化数据特征FSi在最优参考子集中的均值或中位值MRi,然后求的待测样本归一化数据特征值FRi=FSi/MRi
5.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,将得到的全CNV区域进行过滤得到真实CNV区域,具体包括:朴素贝叶斯-高斯模型构建与过滤、同样本过滤、批次样本过滤和其他过滤。
6.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,若同一基因有连续多个外显子都被标记为同一种CNV类型,则将连续相同的外显子合并标记,还包括:所述连续允许中间有b个外显子与其他外显子的CNV类型不一致,其中,b为1或2。
7.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集之前,还包括:
利用统计学方法,比较待测样本的比对样本与CNV阴性参考集的每个样本,保留与待测样本的比对样本来自同一个分布的参考集样本,所述统计学方法包括但不限于T检验、Anderson-Darling检验。
8.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法,其特征在于,从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,所述相似度计算具体为:
计算相似度距离,包括但不限于欧式距离、余弦距离、曼哈顿距离。
9.一种基于二代测序的单样本拷贝数变异检测系统,其特征在于,包括:
CNV阴性参考集获取单元:将基于二代测序技术的多类CNV阴性样本测序数据合并,并进行预处理,得到CNV阴性参考集;所述多类CNV阴性样本测序数据包括但不限于:不同检测平台、批次、试剂类型和不同癌种;
待测样本初筛单元:采用已标记CNV的测序样本,训练隐马尔可夫模型,得到训练好的隐马尔可夫模型,通过训练好的隐马尔可夫模型,预测待测样本每个探针的CNV状态,并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列,得到待测样本的比对样本;
最优参考子集获取单元:从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集,得到最优参考子集,统计待测样本每个探针经最优参考子集归一化的数据特征;
全CNV区域获取单元:利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测,再次将探针标记为Negative、Gain和Loss,基于数据特征合并得到全CNV区域;
过滤单元:将得到的全CNV区域进行过滤得到真实CNV区域。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN202310145770.4A 2023-02-21 2023-02-21 一种基于二代测序的单样本拷贝数变异检测方法 Pending CN116189763A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310145770.4A CN116189763A (zh) 2023-02-21 2023-02-21 一种基于二代测序的单样本拷贝数变异检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310145770.4A CN116189763A (zh) 2023-02-21 2023-02-21 一种基于二代测序的单样本拷贝数变异检测方法

Publications (1)

Publication Number Publication Date
CN116189763A true CN116189763A (zh) 2023-05-30

Family

ID=86432352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310145770.4A Pending CN116189763A (zh) 2023-02-21 2023-02-21 一种基于二代测序的单样本拷贝数变异检测方法

Country Status (1)

Country Link
CN (1) CN116189763A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117265069A (zh) * 2023-09-21 2023-12-22 北京安智因生物技术有限公司 基于半导体测序平台检测brca1/2基因拷贝数变异
CN117409856A (zh) * 2023-10-25 2024-01-16 北京博奥医学检验所有限公司 基于单个待测样本靶向基因区域二代测序数据的变异检测方法、系统及可存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117265069A (zh) * 2023-09-21 2023-12-22 北京安智因生物技术有限公司 基于半导体测序平台检测brca1/2基因拷贝数变异
CN117265069B (zh) * 2023-09-21 2024-05-14 北京安智因生物技术有限公司 基于半导体测序平台检测brca1/2基因拷贝数变异
CN117409856A (zh) * 2023-10-25 2024-01-16 北京博奥医学检验所有限公司 基于单个待测样本靶向基因区域二代测序数据的变异检测方法、系统及可存储介质
CN117409856B (zh) * 2023-10-25 2024-03-29 北京博奥医学检验所有限公司 基于单个待测样本靶向基因区域二代测序数据的变异检测方法、系统及可存储介质

Similar Documents

Publication Publication Date Title
EP2926288B1 (en) Accurate and fast mapping of targeted sequencing reads
CN113366122B (zh) 游离dna末端特征
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN108920899B (zh) 一种基于目标区域测序的单个外显子拷贝数变异预测方法
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
US20190287646A1 (en) Identifying copy number aberrations
CN112102944A (zh) 一种基于ngs的脑肿瘤分子诊断的分析方法
CN117059173A (zh) 一种拷贝数变异精确断裂点识别的方法及其应用
CN110942806A (zh) 一种血型基因分型方法和装置及存储介质
CN113355401A (zh) 一种基于ngs的cnv分析检测脑胶质瘤染色体的方法
Coussement et al. Quantitative transcriptomic and epigenomic data analysis: a primer
CN114093417B (zh) 一种鉴定染色体臂杂合性缺失的方法和装置
JP4414823B2 (ja) 遺伝子情報の表示方法及び表示装置
LU503668B1 (en) Clustering Method of Methylation Samples Integrated with Single-cell Sequencing Analysis Method
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation
Luong Predicting Formalin-fixed Paraffin-embedded (FFPE) Sequencing Artefacts from Breast Cancer Exome Sequencing Data Using Machine Learning
US20090182512A1 (en) Gene information processing apparatus and gene information display apparatus
KR20210105725A (ko) 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치
CN115747334A (zh) 杂合性缺失的检测方法及装置
CN117037906A (zh) 一种基于二代测序的短串联重复序列的分型方法
CN115956129A (zh) 遗传信息分析系统和遗传信息分析方法
CN118230820A (zh) 基于宏基因测序数据的耐药基因物种来源鉴定方法
CN114242164A (zh) 一种全基因组复制的分析方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination