CN111028890B - 一种基于run间矫正的CNV检测方法 - Google Patents

一种基于run间矫正的CNV检测方法 Download PDF

Info

Publication number
CN111028890B
CN111028890B CN201911404854.5A CN201911404854A CN111028890B CN 111028890 B CN111028890 B CN 111028890B CN 201911404854 A CN201911404854 A CN 201911404854A CN 111028890 B CN111028890 B CN 111028890B
Authority
CN
China
Prior art keywords
groups
score
sample
ratio
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911404854.5A
Other languages
English (en)
Other versions
CN111028890A (zh
Inventor
黄铨飞
王杨
朱鹏远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CapitalBio Genomics Co Ltd
Original Assignee
CapitalBio Genomics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CapitalBio Genomics Co Ltd filed Critical CapitalBio Genomics Co Ltd
Priority to CN201911404854.5A priority Critical patent/CN111028890B/zh
Publication of CN111028890A publication Critical patent/CN111028890A/zh
Application granted granted Critical
Publication of CN111028890B publication Critical patent/CN111028890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于run间矫正的CNV检测方法,所述方法对组内具有相同CNV类型的样本的测序结果进行矫正,并比较run间参考值,再进行CNV检测,将所有样本的结果构建参考数据库,有效避免了假阴性或假阳性结果,提高了方法的准确性。

Description

一种基于run间矫正的CNV检测方法
技术领域
本发明属于高通量测序技术领域,涉及一种基于run间矫正的CNV检测方法。
背景技术
全基因组测序的方法为将DNA打断后进行PCR扩增,对扩增产物直接进行测序,测序结果虽然受到GC含量等因素的影响,使得部分区域的测序深度不一致,但是整体的测序深度较均一,且由于是对整个基因组进行测序,可以依据临近区域的测序深度进行矫正,实现对CNV的检测。
外显子测序通常采用PCR扩增或杂交捕获的方法从DNA上获取目标区域,再对目标区域文库进行PCR扩增测序。在获取目标区域的步骤中,不同外显子的捕获效率不一致,在对目标区域文库进行PCR扩增的步骤中,不同外显子的深度不均一,两方面原因最终导致不同外显子的测序深度不一致、均一性差,并且由于外显子测序不包含内含子区域,无法依据临近区域的测序深度进行矫正,难以基于样本深度实现对CNV的检测。
针对以上问题,研究人员提出了基于run内样本间的测序深度矫正方法,由于相同的测序方法在不同样本各区域上的测序深度基本一致,可以对不同区域的测序深度进行矫正,实现对CNV的检测。
然而,当run内样本间存在亲缘关系、run内样本量较少或罕见地均为同样 CNV致病的样本,基于run内样本间的矫正方法会使得CNV被认为野生型,出现假阴性结果;当run内测序不稳定时,可能导致同一个区域的测序深度变化很大,出现假阳性结果。
因此,有必要研发一种新的CNV检测方法,避免run内样本间的测序深度矫正方法准确性差、可能出现假阴性或假阳性结果等问题。
发明内容
针对现有技术的不足和实际需求,本发明提供了一种基于run间矫正的 CNV检测方法,所述方法对组内具有相同CNV类型的样本的测序结果进行矫正,并比较run间参考值,再进行CNV检测,将所有样本的结果构建参考数据库,有效避免了假阴性或假阳性结果,提高了方法的准确性。
为达此目的,本发明采用以下技术方案:
第一方面,本发明提供了一种基于run间矫正的CNV检测方法,所述方法包括如下步骤:
(1)采集初始样本,对每个初始样本计算外显子标准化深度;计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3,选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差;结合每个初始样本的测序结果,构建初始深度组间数据库;
(2)采集待测样本,对每个待测样本计算外显子标准化深度;利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差,进行Z-score归一化,计算组内Z-score和组内Ratio;利用初始深度组间数据库对样本进行Z-score 归一化,计算组间Z-score和组间Ratio;
(3)根据外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果。
CNV为Copy number variations的缩写,即基因拷贝数变异,run为单次上机测序反应。
优选地,步骤(1)所述初始样本包括阴性样本和/或CNV类型确定的样本。
优选地,步骤(1)所述初始样本的个数为40~200个,例如可以是40、50、 60、70、80、90、100、110、120、130、140、150、160、170、180、190或200。
优选地,步骤(1)所述外显子标准化深度的计算公式为:外显子标准化深度=外显子深度/样本平均深度。
优选地,步骤(1)所述可接受范围在Q3+1.5IQR与Q1-1.5IQR之间;
其中,IQR=Q3-Q1。
优选地,步骤(2)所述Z-score的计算公式为:Z-score=(样本深度-参考值平均深度)/参考值标准差。
优选地,步骤(2)所述Ratio的计算公式为:Ratio=样本深度/参考值平均深度。
对于组内Z-score,其参考值为组内样本的平均深度和标准差。
对于组间Z-score,其参考值为步骤1计算的组间数据库的平均深度和标准差。
优选地,步骤(3)所述判断的标准包括:
a)当外显子标准化深度<0.1x:
i.外显子有纯合/半合缺失事件的发生;
b)对于外显子标准化深度>0.1x的常染色体外显子:
对于组内样本数大于等于20的样本:
i.组内Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组内Z-score小于-2.58时,若组内Ratio小于0.67,样本为杂合缺失;
iii.组内Z-score小于-2且组内Ratio小于0.65时,判断组间Z-score与组间Ratio,若组间Z-score小于-2且组间Ratio小于0.65,样本为杂合缺失;若组间 Z-score小于-2且组间Ratio小于0.65不成立,列为疑似杂合缺失;若组内Z-score 小于-2且组内Ratio小于0.65不成立,样本拷贝数正常;
iv.组内Z-score大于2.58时,若组内Ratio大于1.38,样本为杂合重复;
v.组内Z-score大于2且组内Ratio大于1.35时,判断组间Z-score与组间 Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为杂合重复;若组间 Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score 大于2时且组内Ratio大于1.35不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.组间Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组间Z-score小于-2.58时,若组间Ratio小于0.67,样本为杂合缺失;若组间Ratio≥0.67且<0.78,样本为疑似杂合缺失;
iii.组间Z-score小于-2且组间Ratio小于0.65时,样本为疑似杂合缺失;
iv.组间Z-score大于2.58时,若组间Ratio大于1.32,样本为杂合重复;若组间Ratio>1.12且≤1.32,则样本为疑似杂合重复;
v.组间Z-score大于2且组间Ratio大于1.32时,样本为疑似杂合重复;
c)对于组内标准化深度>0.1x的X染色体外显子:
对于组内样本数目大于等于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组内Z-score大于2.58时,若组内Ratio大于1.38,样本为重复;
组内Z-score大于2且组内Ratio大于1.38,判断组间Z-score与组间Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为重复;若组间Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score大于2 且组内Ratio大于1.38不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组间Z-score大于2.58时,若组间Ratio大于1.38,样本为重复,若组间 Ratio>1.20且≤1.38时,样本为疑似重复;
组间Z-score大于2且组间Ratio大于1.38,样本为疑似重复。
优选地,所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本,判读CNV检测结果。
优选地,所述方法将每次待测样本的检测结果加入步骤(1)构建的初始深度组间数据库,形成新的初始深度组间数据库。
优选地,所述方法在步骤(1)之前还包括测试run内达到正态分布的样本数。
优选地,所述样本数为20~30个,例如可以是20个、21个、22个、23个、 24个、25个、26个、27个、28个、29个或30个。
根据本发明,常规的CNV分析方法包括基于GC矫正、深度run内矫正等,本发明中,在长期的科研实践中对已检测的数千样本进行回顾性分析,针对CNV检测假阳性和假阴性频繁出现的问题,针对run内和run间矫正的方法进行优化比较,发现run间数据整体测序深度较一致,将run间矫正加入CNV 分析流程后,对真阳性样本检测结果无影响,但对run内矫正的假阳性或假阴样本有矫正的效果,因此确立了run间矫正的方案:所述方法通过先对初始样本外显子进行标准化,再借鉴箱线图思路计算可接受范围,构建组间数据库,然后对待测样品计算Z-score和Ratio,依据判读标准进行CNV检测结果的判读,即对同一个run内相同检测类型的样本进行矫正,并比较run间参考值,再进行 CNV检测,将所有该方法检测的样本构建参考数据库,各步骤各条件相互协调配合,最终有效避免run内矫正的假阳性CNV与假阴性CNV。
作为优选技术方案,本发明提供了一种基于run间矫正的CNV检测方法,包括如下步骤:
(1)测试run内可达到正态分布的样本数;
(2)采集40~200个阴性样本和/或CNV类型确定的样本,对每个初始样本计算外显子标准化深度,外显子标准化深度=外显子深度/样本平均深度;计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3,选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差,可接受范围为Q3+1.5IQR与Q1-1.5IQR之间,其中,IQR=Q3-Q1;结合每个初始样本的测序结果,构建初始深度组间数据库;
(3)采集待测样本,对每个待测样本计算外显子标准化深度;利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差,进行Z-score归一化,计算组内Z-score和组内Ratio;利用初始深度组间数据库对样本进行Z-score 归一化,计算组间Z-score和组间Ratio;
其中,Z-score=(样本深度-参考值平均深度)/参考值标准差,Ratio=样本深度/参考值平均深度;
(4)根据外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果;
a)当外显子标准化深度<0.1x:
i.外显子有纯合/半合缺失事件的发生;
b)对于外显子标准化深度>0.1x的常染色体外显子:
对于组内样本数大于等于20的样本:
i.组内Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组内Z-score小于-2.58时,若组内Ratio小于0.67,样本为杂合缺失;
iii.组内Z-score小于-2且组内Ratio小于0.65时,判断组间Z-score与组间Ratio,若组间Z-score小于-2且组间Ratio小于0.65,样本为杂合缺失;若组间 Z-score小于-2且组间Ratio小于0.65不成立,列为疑似杂合缺失;若组内Z-score 小于-2且组内Ratio小于0.65不成立,样本拷贝数正常;
iv.组内Z-score大于2.58时,若组内Ratio大于1.38,样本为杂合重复;
v.组内Z-score大于2且组内Ratio大于1.35时,判断组间Z-score与组间 Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为杂合重复;若组间 Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score 大于2时且组内Ratio大于1.35不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.组间Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组间Z-score小于-2.58时,若组间Ratio小于0.67,样本为杂合缺失;若组间Ratio≥0.67且<0.78,样本为疑似杂合缺失;
iii.组间Z-score小于-2且组间Ratio小于0.65时,样本为疑似杂合缺失;
iv.组间Z-score大于2.58时,若组间Ratio大于1.32,样本为杂合重复;若组间Ratio>1.12且≤1.32,则样本为疑似杂合重复;
v.组间Z-score大于2且组间Ratio大于1.32时,样本为疑似杂合重复;
c)对于组内标准化深度>0.1x的X染色体外显子:
对于组内样本数目大于等于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组内Z-score大于2.58时,若组内Ratio大于1.38,样本为重复;
组内Z-score大于2且组内Ratio大于1.38,判断组间Z-score与组间Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为重复;若组间Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score大于2 且组内Ratio大于1.38不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组间Z-score大于2.58时,若组间Ratio大于1.38,样本为重复,若组间 Ratio>1.20且≤1.38时,样本为疑似重复;
组间Z-score大于2且组间Ratio大于1.38,样本为疑似重复。
(5)所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本,判读CNV检测结果;将每次待测样本的检测结果加入步骤(1)构建的初始深度组间数据库,形成新的初始深度组间数据库。
第二方面,本发明提供了一种组间数据库,所述数据库由第一方面所述的方法构建得到。
与现有技术相比,本发明具有如下有益效果:
本发明提供的基于run间矫正的CNV检测方法结果准确,稳定性高,简洁高效,通过将每次样本的检测结果加入数据库,能够不断更新完善,进一步提高了检测准确度,有效避免了run内矫正的假阳性CNV与假阴性CNV,具有广阔的应用前景和巨大的市场价值,为CNV检测提供了新的思路和视野。
附图说明
图1为10个样本同时建库测序、15个样本同时建库测序、20个样本同时建库测序与30个样本同时建库测序的不同基因不同外显子的均一化深度结果;
图2为本发明的判读标准图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
(1)测试run内可达到或者近似达到正态分布的样本数
结果如图1所示,在外显子CNV检测上,20个样本同时建库测序与30个样本同时建库测序,在数据分布上无显著差异;
(2)利用50个阴性样本构建初始深度组间数据库
采集50个初始样本,对每个初始样本独立计算外显子标准化深度(外显子标准化深度=外显子深度/样本平均深度),以排除测序定量对样本深度带来的误差;借鉴箱线图的思路计算50个初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3,选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差,可接受范围为Q3+1.5IQR与Q1-1.5IQR之间,其中,IQR(四分位差)=Q3-Q1;结合每个初始样本的测序结果,构建初始深度组间数据库;
(3)当有新的测序数据时,先按照同样的方案对每个测序样本计算外显子标准化深度;再利用组内样本进行Z-score归一化,计算组内样本Ratio,接着利用组间数据库对样本进行Z-score归一化,并计算组间样本深度与参考值平均深度的比例Ratio;
其中,Z-score=(样本深度-参考值平均深度)/参考值标准差,Ratio=样本深度/参考值平均深度;
(4)根据外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果;
a)当外显子标准化深度<0.1x:
i.外显子有纯合/半合缺失事件的发生;
b)对于外显子标准化深度>0.1x的常染色体外显子:
对于组内样本数大于等于20的样本:
i.组内Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组内Z-score小于-2.58时,若组内Ratio小于0.67,样本为杂合缺失;
iii.组内Z-score小于-2且组内Ratio小于0.65时,判断组间Z-score与组间Ratio,若组间Z-score小于-2且组间Ratio小于0.65,样本为杂合缺失;若组间Z-score小于-2且组间Ratio小于0.65不成立,列为疑似杂合缺失;若组内Z-score 小于-2且组内Ratio小于0.65不成立,样本拷贝数正常;
iv.组内Z-score大于2.58时,若组内Ratio大于1.38,样本为杂合重复;
v.组内Z-score大于2且组内Ratio大于1.35时,判断组间Z-score与组间 Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为杂合重复;若组间 Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score 大于2时且组内Ratio大于1.35不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.组间Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组间Z-score小于-2.58时,若组间Ratio小于0.67,样本为杂合缺失;若组间Ratio≥0.67且<0.78,样本为疑似杂合缺失;
iii.组间Z-score小于-2且组间Ratio小于0.65时,样本为疑似杂合缺失;
iv.组间Z-score大于2.58时,若组间Ratio大于1.32,样本为杂合重复;若组间Ratio>1.12且≤1.32,则样本为疑似杂合重复;
v.组间Z-score大于2且组间Ratio大于1.32时,样本为疑似杂合重复;
c)对于组内标准化深度>0.1x的X染色体外显子:
对于组内样本数目大于等于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组内Z-score大于2.58时,若组内Ratio大于1.38,样本为重复;
组内Z-score大于2且组内Ratio大于1.38,判断组间Z-score与组间Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为重复;若组间Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score大于2 且组内Ratio大于1.38不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组间Z-score大于2.58时,若组间Ratio大于1.38,样本为重复,若组间 Ratio>1.20且≤1.38时,样本为疑似重复;
组间Z-score大于2且组间Ratio大于1.38,样本为疑似重复。
(5)每次有新的样本测序后,将其加入组间数据库,样本越多,数据模型的结果准确性越高,且可以对单个测序样本独立判断其准确性。
为了检验模型的准确性,在每次测序时均加入一个女性对照样本与一个男性对照样本,判读CNV检测结果。
实施例2
利用2个已知CNV结果的样本,在初始模型构建后进行测序及分析,以及累积100样本后进行测序分析。
结果如表1所示,初始模型下,对确定样本的预测结果相对准确,但存在杂合预测为疑似杂合的案例(Ratio未达到阈值);累计样本后,Z-score与Ratio 更加显著,达到判读阈值,杂合可预测为杂合,结果更加可信;说明本发明的检测方法能够准确检测CNV,且随着累积样本的增加,检测结果的准确性越来越高。
表1
Figure BDA0002348366020000121
Figure BDA0002348366020000131
综上所述,本发明提供了一种基于run间矫正的CNV检测方法,通过先对初始样本外显子进行标准化,再借鉴箱线图思路计算可接受范围,构建组间数据库,然后对待测样品计算Z-score和Ratio,依据判读标准进行CNV检测结果的判读,即对同一个run内相同检测类型的样本进行矫正,并比较run间参考值,再进行CNV检测,将所有该方法检测的样本构建参考数据库,各步骤各条件相互协调配合,最终有效避免run内矫正的假阳性CNV与假阴性CNV。
声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

Claims (14)

1.一种基于组间矫正的CNV检测方法,其特征在于,所述方法包括以下步骤:
(1)采集初始样本,对每个初始样本计算外显子标准化深度;计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3,选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差;结合每个初始样本的测序结果,构建初始深度组间数据库;
(2)采集待测样本,对每个待测样本计算外显子标准化深度;利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差,进行Z-score归一化,计算组内Z-score和组内Ratio;利用初始深度组间数据库对样本进行Z-score归一化,计算组间Z-score和组间Ratio;
(3)根据待测样本外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述初始样本包括阴性样本和/或CNV类型确定的样本。
3.根据权利要求1所述的方法,其特征在于,步骤(1)所述初始样本的个数为40~200个。
4.根据权利要求1所述的方法,其特征在于,步骤(1)所述外显子标准化深度的计算公式为:外显子标准化深度=外显子深度/样本平均深度。
5.根据权利要求1所述的方法,其特征在于,步骤(1)所述可接受范围在Q3+1.5IQR与Q1-1.5IQR之间;
其中,IQR=Q3-Q1。
6.根据权利要求1所述的方法,其特征在于,步骤(2)所述Z-score的计算公式为:Z-score=(样本深度-参考值平均深度)/参考值标准差。
7.根据权利要求1所述的方法,其特征在于,步骤(2)所述Ratio的计算公式为:Ratio=样本深度/参考值平均深度。
8.根据权利要求1所述的方法,其特征在于,步骤(3)所述判断的标准包括:
a)当外显子标准化深度<0.1x:
i.外显子有纯合/半合缺失事件的发生;
b)对于外显子标准化深度>0.1x的常染色体外显子:
对于组内样本数大于等于20的样本:
i.组内Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组内Z-score小于-2.58时,若组内Ratio小于0.67,样本为杂合缺失;
iii.组内Z-score小于-2且组内Ratio小于0.65时,判断组间Z-score与组间Ratio,若组间Z-score小于-2且组间Ratio小于0.65,样本为杂合缺失;若组间Z-score小于-2且组间Ratio小于0.65不成立,列为疑似杂合缺失;若组内Z-score小于-2且组内Ratio小于0.65不成立,样本拷贝数正常;
iv.组内Z-score大于2.58时,若组内Ratio大于1.38,样本为杂合重复;
v.组内Z-score大于2且组内Ratio大于1.35时,判断组间Z-score与组间Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为杂合重复;若组间Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score大于2时且组内Ratio大于1.35不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.组间Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组间Z-score小于-2.58时,若组间Ratio小于0.67,样本为杂合缺失;若组间Ratio≥0.67且<0.78,样本为疑似杂合缺失;
iii.组间Z-score小于-2且组间Ratio小于0.65时,样本为疑似杂合缺失;
iv.组间Z-score大于2.58时,若组间Ratio大于1.32,样本为杂合重复;若组间Ratio>1.12且≤1.32,则样本为疑似杂合重复;
v.组间Z-score大于2且组间Ratio大于1.32时,样本为疑似杂合重复;
c)对于组内标准化深度>0.1x的X染色体外显子:
对于组内样本数目大于等于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组内Z-score大于2.58时,若组内Ratio大于1.38,样本为重复;
组内Z-score大于2且组内Ratio大于1.38,判断组间Z-score与组间Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为重复;若组间Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score大于2且组内Ratio大于1.38不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组间Z-score大于2.58时,若组间Ratio大于1.38,样本为重复,若组间Ratio>1.20且≤1.38时,样本为疑似重复;
组间Z-score大于2且组间Ratio大于1.38,样本为疑似重复。
9.根据权利要求1所述的方法,其特征在于,所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本,判读CNV检测结果。
10.根据权利要求1所述的方法,其特征在于,所述方法将每次待测样本的检测结果加入步骤(1)构建的初始深度组间数据库,形成新的初始深度组间数据库。
11.根据权利要求1所述的方法,其特征在于,所述方法在步骤(1)之前还包括测试组内达到正态分布的样本数。
12.根据权利要求11所述的方法,其特征在于,所述样本数为20~30个。
13.根据权利要求1所述的方法,其特征在于,包括如下步骤:
(1)测试组内可达到正态分布的样本数;
(2)采集40~200个阴性样本和/或CNV类型确定的样本,对每个初始样本计算外显子标准化深度,外显子标准化深度=外显子深度/样本平均深度;计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3,选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差,可接受范围为Q3+1.5IQR与Q1-1.5IQR之间,其中,IQR=Q3-Q1;结合每个初始样本的测序结果,构建初始深度组间数据库;
(3)采集待测样本,对每个待测样本计算外显子标准化深度;利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差,进行Z-score归一化,计算组内Z-score和组内Ratio;利用初始深度组间数据库对样本进行Z-score归一化,计算组间Z-score和组间Ratio;
其中,Z-score=(样本深度-参考值平均深度)/参考值标准差,Ratio=样本深度/参考值平均深度;
(4)根据外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果;
a)当外显子标准化深度<0.1x:
i.外显子有纯合/半合缺失事件的发生;
b)对于外显子标准化深度>0.1x的常染色体外显子:
对于组内样本数大于等于20的样本:
i.组内Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组内Z-score小于-2.58时,若组内Ratio小于0.67,样本为杂合缺失;
iii.组内Z-score小于-2且组内Ratio小于0.65时,判断组间Z-score与组间Ratio,若组间Z-score小于-2且组间Ratio小于0.65,样本为杂合缺失;若组间Z-score小于-2且组间Ratio小于0.65不成立,列为疑似杂合缺失;若组内Z-score小于-2且组内Ratio小于0.65不成立,样本拷贝数正常;
iv.组内Z-score大于2.58时,若组内Ratio大于1.38,样本为杂合重复;
v.组内Z-score大于2且组内Ratio大于1.35时,判断组间Z-score与组间Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为杂合重复;若组间Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score大于2时且组内Ratio大于1.35不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.组间Z-score介于[-2.58,2.58]范围内,样本拷贝数正常;
ii.组间Z-score小于-2.58时,若组间Ratio小于0.67,样本为杂合缺失;若组间Ratio≥0.67且<0.78,样本为疑似杂合缺失;
iii.组间Z-score小于-2且组间Ratio小于0.65时,样本为疑似杂合缺失;
iv.组间Z-score大于2.58时,若组间Ratio大于1.32,样本为杂合重复;若组间Ratio>1.12且≤1.32,则样本为疑似杂合重复;
v.组间Z-score大于2且组间Ratio大于1.32时,样本为疑似杂合重复;
c)对于组内标准化深度>0.1x的X染色体外显子:
对于组内样本数目大于等于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组内Z-score大于2.58时,若组内Ratio大于1.38,样本为重复;
组内Z-score大于2且组内Ratio大于1.38,判断组间Z-score与组间Ratio;若组间Z-score大于2且组间Ratio大于1.38,样本为重复;若组间Z-score大于2且组间Ratio大于1.38不成立,列为疑似杂合重复;若组内Z-score大于2且组内Ratio大于1.38不成立,样本拷贝数正常;
对于组内样本数目小于20的样本:
i.女性样本:与常染色体判断标准一致;
ii.男性样本:
组间Z-score大于2.58时,若组间Ratio大于1.38,样本为重复,若组间Ratio>1.20且≤1.38时,样本为疑似重复;
组间Z-score大于2且组间Ratio大于1.38,样本为疑似重复;
(5)所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本,判读CNV检测结果;将每次待测样本的检测结果加入步骤(1)构建的初始深度组间数据库,形成新的初始深度组间数据库。
14.一种组间数据库,其特征在于,所述数据库由权利要求1-13任一项所述的方法构建得到。
CN201911404854.5A 2019-12-31 2019-12-31 一种基于run间矫正的CNV检测方法 Active CN111028890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404854.5A CN111028890B (zh) 2019-12-31 2019-12-31 一种基于run间矫正的CNV检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404854.5A CN111028890B (zh) 2019-12-31 2019-12-31 一种基于run间矫正的CNV检测方法

Publications (2)

Publication Number Publication Date
CN111028890A CN111028890A (zh) 2020-04-17
CN111028890B true CN111028890B (zh) 2020-09-11

Family

ID=70196748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404854.5A Active CN111028890B (zh) 2019-12-31 2019-12-31 一种基于run间矫正的CNV检测方法

Country Status (1)

Country Link
CN (1) CN111028890B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508559B (zh) * 2020-04-21 2021-08-13 北京橡鑫生物科技有限公司 检测目标区域cnv的方法及装置
CN112634987B (zh) * 2020-12-25 2021-07-27 北京吉因加医学检验实验室有限公司 一种单样本肿瘤dna拷贝数变异检测的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012173809A2 (en) * 2011-06-02 2012-12-20 Ehli Erik Method of identifying de novo copy number variants (cnv) using mz twins discordant for attention problems/disorders
CN105986008A (zh) * 2015-01-27 2016-10-05 深圳华大基因科技有限公司 Cnv检测方法和装置
US10095831B2 (en) * 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
CN108256292B (zh) * 2016-12-29 2021-11-02 浙江安诺优达生物科技有限公司 一种拷贝数变异检测装置
CN109979529B (zh) * 2017-12-28 2021-01-08 北京安诺优达医学检验实验室有限公司 Cnv检测装置
CN108920899B (zh) * 2018-06-10 2022-02-08 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法

Also Published As

Publication number Publication date
CN111028890A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
Lauer et al. Single-cell copy number variant detection reveals the dynamics and diversity of adaptation
AU2020244451B2 (en) Methods and systems for detection of abnormal karyotypes
Ambroset et al. Deciphering the molecular basis of wine yeast fermentation traits using a combined genetic and genomic approach
Li et al. Current analysis platforms and methods for detecting copy number variation
Beissinger et al. Marker density and read depth for genotyping populations using genotyping-by-sequencing
CN111028890B (zh) 一种基于run间矫正的CNV检测方法
CN109346130B (zh) 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
Almeida et al. Adaptive divergence in wine yeasts and their wild relatives suggests a prominent role for introgressions and rapid evolution at noncoding sites
CN104990893A (zh) 一种基于相似判别的汽油辛烷值检测方法
AU2014255759B2 (en) Yeast alleles involved in maximal alcohol accumulation capacity and tolerance to high alcohol levels
CN107153777B (zh) 一种估算四倍体物种基因组的二倍化程度的方法
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
Coussement et al. Quantitative transcriptomic and epigenomic data analysis: a primer
Chen et al. scCircle-seq unveils the diversity and complexity of circular DNAs in single cells
CN110938679B (zh) 一种高灵敏度高效率定量检测酵母不同染色体端粒重组的方法
McQueary et al. No evidence for whole-chromosome dosage compensation or global transcriptomic expression differences in spontaneously-aneuploid mutation accumulation lines of Saccharomyces cerevisiae
Morohashi et al. P-BOSS: a new filtering method for treasure hunting in metabolomics
Xia et al. A novel HMM for analyzing chromosomal aberrations in heterogeneous tumor samples
CN112735518B (zh) 基于染色体微阵列的roh数据分析系统
Bickel Correcting the estimated level of differential expression for gene selection bias: Application to a microarray study
CN111128305B (zh) 对具有已知序列的生物序列进行分析的方法和系统
Ruddy et al. Shrinkage of dispersion parameters in the binomial family, with application to differential exon skipping
da SILVA JUNIOR et al. Design and evaluation of a sequence capture systemfor genome-wide SNP genotyping in highly heterozygous plant genomes: a case studywith a keystone Neotropical hardwood tree genome.
Kelly The quantitative genetics of gene expression in Mimulus guttatus
Jago et al. High-throughput method rapidly characterizes hundreds of novel antibiotic resistance mutations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant