CN114049914B - 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 - Google Patents

一体化检测cnv、单亲二体、三倍体和roh的方法及装置 Download PDF

Info

Publication number
CN114049914B
CN114049914B CN202210039954.8A CN202210039954A CN114049914B CN 114049914 B CN114049914 B CN 114049914B CN 202210039954 A CN202210039954 A CN 202210039954A CN 114049914 B CN114049914 B CN 114049914B
Authority
CN
China
Prior art keywords
sample
analysis
cnv
roh
reference database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210039954.8A
Other languages
English (en)
Other versions
CN114049914A (zh
Inventor
卢娜如
张军
孔令印
梁波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Basecare Medical Device Co ltd
Original Assignee
Suzhou Basecare Medical Device Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Basecare Medical Device Co ltd filed Critical Suzhou Basecare Medical Device Co ltd
Priority to CN202210039954.8A priority Critical patent/CN114049914B/zh
Publication of CN114049914A publication Critical patent/CN114049914A/zh
Application granted granted Critical
Publication of CN114049914B publication Critical patent/CN114049914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一体化检测CNV、单亲二体、三倍体和ROH的方法及装置。所述方法包括以下步骤:(1)获取样本基因组上覆盖深度信息及SNP基因型信息;(2)构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;(3)进行单亲二体及三倍体分析、CNV分析和ROH分析。本发明的一体化检测CNV、单亲二体、三倍体和ROH的方法,能够基于全基因组测序数据,一体化检测出CNV、单亲二体、三倍体和ROH区域,简化了检测流程,提高了检测效率且降低了检测成本。

Description

一体化检测CNV、单亲二体、三倍体和ROH的方法及装置
技术领域
本发明属于遗传检测技术领域,涉及一体化检测CNV、单亲二体、三倍体和ROH的方法及装置。
背景技术
拷贝数变异(CNV)、单亲二体(UPD)、三倍体和存在连续性纯合片段(runs ofhomozygosity,ROH)是导致许多常见遗传疾病、癌症和其他复杂疾病的大型基因组畸变。识别这些畸变对于了解疾病至关重要。
为了检测CNV和ROH区域,单核苷酸多态性(SNP)阵列被大量使用。近年来,从高通量下一代全基因组测序(WGS)数据中检测CNV已成为一种广泛使用的研究方法,该方法需要在全基因组范围内进行非常高的覆盖深度。目前检测单亲二体、三倍体的方法包括:1)染色体核型分析:可检测三倍体,但无法识别整体单亲二体、片段ROH、小片段CNV,且需较多人力,实验周期长;2)短串联重复序列(STR):可检测常见的非整倍体异常、三倍体、整体单亲二体,但无法检测小片段CNV、片段ROH;3)荧光原位杂交(FISH):无法检测小片段CNV且仅能检测部分染色体异常;4)SNParray、WGS:针对全基因组进行测序,基于全基因组数据进行分析的检测方法有:①PennCNV:检测全基因组SNP基因分型数据中的高分辨率拷贝数变异;②Control-FREEC:使用NGS数据自动检测拷贝数变异和ROH区域;③基于LC-WGS的SBA方法:基于单核苷酸多态性的低覆盖全基因组测序筛选三倍体。
综上所述,现有技术中无有效方法进行一体化的检测,检测成本高,过程复杂,因此,开发检测CNV、单亲二体、三倍体和ROH的方法的有效方法,简化检测分析过程,降低成本,对于遗传检测技术领域具有重要意义。
发明内容
针对现有技术的不足和实际需求,本发明提供一体化检测CNV、单亲二体、三倍体和ROH的方法及装置,所述方法能够基于全基因组测序数据,一体化检测出CNV、单亲二体、三倍体和ROH区域,过程简单,成本低,对于遗传检测技术领域具有重要意义。
第一方面,本发明提供一体化检测CNV、单亲二体、三倍体和ROH的方法,所述方法包括以下步骤:
(1)获取样本基因组上覆盖深度信息及SNP基因型信息;
(2)构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;
(3)进行单亲二体及三倍体分析、CNV分析和ROH分析;
所述单亲二体及三倍体分析包括统计样本染色体的B等位基因频率(BAF)偏移量和杂合SNP比例,并按式(1)计算染色体的Z值,其中,
Figure 338397DEST_PATH_IMAGE001
为样本染色体的R值,
Figure 308627DEST_PATH_IMAGE002
为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值,
Figure 319308DEST_PATH_IMAGE003
为单亲二体及三倍体分析参考数据库中染色体R值的标准差;
Figure 880740DEST_PATH_IMAGE004
(1);
所述CNV分析包括计算样本与CNV分析参考数据库比对结果Log 2 RR的平均值
Figure 976872DEST_PATH_IMAGE005
,并利用所述
Figure 688476DEST_PATH_IMAGE005
按式(2)计算拷贝数CN;
Figure 288084DEST_PATH_IMAGE006
(2);
所述ROH分析包括按式(3)计算样本与ROH分析参考数据库的比对结果
Figure 426942DEST_PATH_IMAGE007
,其中F1为ROH分析参考数据库窗口值,F2为样本窗口值,进行断点识别和片段合并;
Figure 744791DEST_PATH_IMAGE008
(3)。
本发明创造性设计遗传检测分析流程,提出了一体化检测CNV、单亲二体、三倍体和ROH的方法,流程图如图1所示,所述方法能够基于全基因组测序数据,一体化检测出CNV、单亲二体、三倍体和ROH区域,简化了检测流程,提高了检测效率且降低了检测成本。
优选地,所述覆盖深度信息包括样本基因组中窗口的覆盖深度,所述窗口的长度为1 kb~100 kb,包括但不限于2 kb、3 kb、4 kb、5 kb、6 kb、7 kb、8 kb、9 kb、10 kb、20kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、91 kb、92 kb、93 kb、94 kb、95 kb、96kb、97 kb、98 kb或99 kb。
优选地,所述SNP基因型信息包括SNP位点的基因型和B等位基因频率。
优选地,将样本进行全基因组测序,获取样本在整个基因组上覆盖深度信息及全基因组的SNP(单核苷酸多态性)基因型信息。
优选地,所述获取样本在整个基因组上覆盖深度信息包括将基因组分成每10 kb一个的窗口,统计每个窗口的覆盖深度;
优选地,所述SNP基因型信息包括每个SNP位点的基因型和B等位基因频率(BAF)。
优选地,步骤(2)所述CNV分析参考数据库的构建方法包括以下步骤:
(1’)选取样本的覆盖深度信息;
(2’)采用定基比率法对窗口进行标准化;
(3’)过滤掉覆盖深度一直为0或SD大于SD阈值的窗口;
(4’)采用LOESS算法,对样本进行GC校正;
(5’)将样本按照对应窗口合并,取平均值;
(6’)选择合适的分析策略,按照步长3~5、滑动1~3(例如步长4、滑动1等)的策略将窗口合并。
优选地,本发明基于测序数据的覆盖深度信息,所述CNV分析参考数据库按性别分为男性、女性两类,所述CNV分析参考数据库的构建方法包括以下步骤:
(1’)样本选择:选取多个二倍体样本的覆盖深度信息;
(2’)标准化:为了消除测序数据量的差别,以每个样本的窗口覆盖深度的中位数为基数,采用定基比率法对每个窗口进行标准化;
(3’)确定过滤阈值:计算每个窗口在多个样本中的SD,确定整体窗口的SD阈值;
(4’)窗口过滤:整合所有样本,过滤掉覆盖深度一直为0或在多个样本中SD大于SD阈值的窗口;
(5’)GC校正:整个基因组中,不同区域GC含量不同,而不同的GC含量可能会影响实验过程中片段的扩增效率,为了消除GC含量带来的误差,采用LOESS(局部加权回归)算法,对每个样本分别进行GC校正;
(6’)样本合并:将所有样本按照对应窗口合并,取平均值;
(7’)窗口合并:选择合适的分析策略,按照步长3~5、滑动1~3的策略(例如步长4、滑动1等)将小窗口合并为大窗口,大窗口值等于其包含的小窗口之和。
优选地,步骤(2)所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤:
(1’’)选取样本的SNP基因型信息;
(2’’)统计样本染色体的杂合SNP的B等位基因频率与二倍体杂合SNP的B等位基因频率理论值的距离,取平均值作为该条染色体的B等位基因频率偏移量
Figure 853561DEST_PATH_IMAGE009
(3’’)统计杂合SNP比例
Figure 838834DEST_PATH_IMAGE010
(4’’)整合染色体的B等位基因频率偏移量和杂合SNP比例,按式(4)计算R值;
Figure 617435DEST_PATH_IMAGE011
(4)。
优选地,本发明基于SNP基因型信息,所述单亲二体及三倍体分析参考数据库按性别分为男性、女性两类,所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤:
(1’’)样本选择:选取多个二倍体样本的SNP基因型信息;
(2’’)BAF偏移量统计:
理论上,若样本只存在一套遗传物质,则其所有SNP均为纯合状态,BAF为0或1;若样本存在两套遗传物质,则SNP存在杂合、纯合两种状态,杂合SNP的BAF为0.5,纯合SNP的BAF为0或1;若样本存在三套遗传物质,则SNP存在杂合、纯合两种状态,杂合SNP的BAF为0.33或0.66,纯合SNP的BAF为0或1;
每个样本分别统计其每条染色体的杂合SNP的BAF与二倍体杂合SNP的BAF理论值(0.5)的距离,取平均值作为该条染色体的BAF偏移量offsetchr,如式(6)所示;
Figure 422580DEST_PATH_IMAGE012
(6)
(3’’)杂合SNP比例统计:
理论上,若样本只存在一套遗传物质,则其所有SNP均为纯合状态,杂合SNP比例为0;若样本存在二套遗传物质,在不考虑自然界遗传因素的情况下,其杂合SNP比例为1/3;若样本存在三套遗传物质,在不考虑自然界遗传因素的情况下,其杂合SNP比例为1/2;
每个样本分别统计其每条染色体上杂合SNP占该条染色体总SNP的比例fracchr,如式(7)所示,其中Nhet为杂合SNP的数目,Nhom为纯合SNP的数目;
Figure 475986DEST_PATH_IMAGE013
(7)
(4’’)参数整合:整合每条染色体的BAF偏移量和杂合SNP比例,按式(4)计算R值。
优选地,步骤(2)所述ROH分析参考数据库的构建方法包括以下步骤:
(1’’’)选取样本的SNP基因型信息;
(2’’’)将基因组划分为大小为400~800 kb的等分窗口(例如可以是410 kb、420kb、450 kb、460 kb、500 kb、600 kb、650 kb、700 kb、750 kb、780 kb或790 kb),统计窗口的杂合SNP比例;
(3’’’)采用定基比率法对窗口进行标准化;
(4’’’)将样本按照对应窗口合并,取平均值。
优选地,本发明基于SNP基因型信息,所述ROH分析参考数据库按性别分为男性、女性两类,所述ROH分析参考数据库的构建方法包括以下步骤:
(1’’’)样本选择:选取多个二倍体样本的SNP基因型信息;
(2’’’)杂合SNP比例统计:将基因组划分为600 kb窗口,按式(7)统计每个窗口的杂合SNP比例;
(3’’’)窗口标准化:以每个样本的窗口覆盖深度的中位数为基数,采用定基比率法对每个窗口进行标准化;
(4’’’)样本合并:将所有样本按照对应窗口合并,取平均值。
优选地,所述CNV分析包括以下步骤:
a.采用定基比率法对窗口进行标准化;
b.过滤掉覆盖深度为0或SD大于SD阈值的窗口;
c.采用LOESS算法,对样本进行GC校正;
d.按照选择合适的分析策略,按照步长3~5、滑动1~3的策略(例如步长4、滑动1等)将窗口合并;
e.按式(5)计算样本与CNV分析参考数据库比对结果Log 2 RR,其中R1为CNV分析参考数据库窗口值,R2为样本窗口值;
Figure 909242DEST_PATH_IMAGE014
(5);
f.查找染色体的CNV断点;
g.针对所述CNV断点,采用游程检验算法合并染色体的片段;
h.计算样本与CNV分析参考数据库比对结果Log 2 RR的平均值
Figure 389902DEST_PATH_IMAGE015
,并利用所述
Figure 416763DEST_PATH_IMAGE015
按式(2)计算拷贝数CN。
优选地,所述CNV分析包括以下步骤:
a.标准化:为了消除测序数据量的差别,以每个样本的窗口覆盖深度的中位数为基数,采用定基比率法对每个窗口进行标准化;
b.窗口过滤:过滤掉CNV分析参考数据库中过滤的窗口(覆盖深度一直为0窗口或SD大于SD阈值的窗口);
c.GC校正:采用LOESS(局部加权回归)算法,对每个样本分别进行GC校正;
d.窗口合并:选择合适的分析策略,按照步长3~5、滑动1~3的策略(例如步长4、滑动1等)将小窗口合并为大窗口,大窗口值等于其包含的小窗口之和;
e.与CNV分析参考数据库比对:设相应性别的CNV分析参考数据库中某个窗口的值为R1,处理样本该窗口的值为R2,按式(5)计算与CNV分析参考数据库的比对结果Log 2 RR
f.断点识别:采用环状二元分割算法(circular binary segmentation, CBS)或隐马尔可夫模型(Hidden Markov Model,HMM)等算法查找每条染色体的CNV断点,将染色体划分为多个片段;
g.小片段合并:针对CBS或HMM等算法查找的CNV断点,对相同染色体的相邻片段采用游程检验算法进行合并,若检验的p-value > 1e-5,说明相邻区域无显著差异,则将两个区域进行合并,再与下一个片段进行检验,依次类推,最终每个区域的Log 2 RR值为该区域包含的大窗口的Log 2 RR值的平均值;
h.拷贝数计算:正常人类细胞为二倍体,则每条染色体有两个拷贝,按式(2)计算样本区域的拷贝数CN;
i.异常区域报告:报告该样本中CN大于重复阈值线的区域与CN小于缺失阈值线的区域。
优选地,所述单亲二体及三倍体分析包括以下步骤:
a.统计该样本染色体的B等位基因频率偏移量和杂合SNP比例,并进行参数整合;
b.并按式(1)计算样本染色体的Z值,Z≥3,则该条染色体为三体;Z≤-3,则该条染色体为单体;计算样本所有染色体的Z值的中位数Zgenome,Zgenome≥3,则该样本为三倍体;Zgenome≤-3,则该样本为单亲二体。
优选地,所述单亲二体及三倍体分析包括以下步骤:
a.按照上述构建单亲二体及三倍体分析参考数据库的方法统计样本每条染色体的BAF偏移量与杂合SNP比例,并进行参数整合;
b.Z-Score标准化:结合样本与相应性别单亲二体及三倍体分析参考数据库中所有样本,对每条染色体的R值分别进行Z-Score标准化,按式(1)计算出每条染色体的Z值,衡量该条染色体是否异常;
c.异常报告:Z≥3,则该条染色体为三体;Z≤-3,则该条染色体为单体;计算样本所有染色体的Z值的中位数Zgenome,Zgenome≥3,则该样本为三倍体;Zgenome≤-3,则该样本为单亲二体。
优选地,所述ROH分析包括以下步骤:
a.统计窗口的杂合SNP比例;
b.按式(3)计算样本与ROH分析参考数据库的比对结果
Figure 8282DEST_PATH_IMAGE007
c.查找染色体的CNV断点;
d.针对所述CNV断点,采用游程检验算法合并染色体的片段,报告样本中Log 10 FF小于阈值线的区域。
优选地,所述ROH分析包括以下步骤:
a.按照ROH分析参考数据库的构建方法统计每个窗口的杂合SNP比例;
b.与ROH分析参考数据库比对:设相应性别的ROH分析参考数据库中某个窗口的值为F1,样本该窗口的值为F2,按式(3)计算与ROH分析参考数据库的比对结果Log 10 FF
c.断点识别:采用环状二元分割算法(circular binary segmentation, CBS)或隐马尔可夫模型(Hidden Markov Model,HMM)等算法查找每条染色体的CNV断点,将染色体划分为多个片段;
d.小片段合并:针对CBS或HMM等算法查找的CNV断点,对相同染色体的相邻片段采用游程检验算法进行合并,若检验的p-value > 1e-5,说明相邻区域无显著差异,则将两个区域进行合并,再与下一个片段进行检验,依次类推,最终每个区域的Log 10 FF值为该区域包含的大窗口的Log 10 FF值的平均值;
e.异常区域报告:报告该样本中Log 10 FF小于阈值线的区域。
本发明可对任意核酸样本进行分析检测,可应用于人体核酸样本分析检测,也可用于非疾病诊断和/或治疗为目的的体外基因组相关科学研究,如三倍体发生机制的研究、女性年龄与流产组织拷贝数变异的相关性研究等。
第二方面,本发明提供一体化检测CNV、单亲二体、三倍体和ROH的装置,所述装置包括采集信息模块、构建对比库模块和分析模块。
所述采集信息模块包括:获取样本在整个基因组上覆盖深度信息及全基因组的SNP基因型信息。
所述构建对比库模块包括:分别构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库。
所述分析模块包括:进行单亲二体及三倍体分析、CNV分析和ROH分析。
所述单亲二体及三倍体分析包括统计样本染色体的B等位基因频率偏移量和杂合SNP的比例,并按式(1)计算染色体的Z值,其中,
Figure 968147DEST_PATH_IMAGE016
为样本染色体的R值,
Figure 213184DEST_PATH_IMAGE017
为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值,
Figure 992921DEST_PATH_IMAGE018
为单亲二体及三倍体分析参考数据库中染色体R值的标准差。
所述CNV分析包括计算样本与CNV分析参考数据库比对结果Log 2 RR的平均值
Figure 856972DEST_PATH_IMAGE015
,并利用所述
Figure 671344DEST_PATH_IMAGE015
按式(2)计算拷贝数CN。
所述ROH分析包括按式(3)计算样本与ROH分析参考数据库的比对结果
Figure 87282DEST_PATH_IMAGE007
,其中F1为ROH分析参考数据库窗口值,F2为样本窗口的值,进行断点识别和片段合并。
第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序执行第一方面所述的一体化检测CNV、单亲二体、三倍体和ROH的方法中的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行第一方面所述的一体化检测CNV、单亲二体、三倍体和ROH的方法中的步骤。
本发明所述一体化检测CNV、单亲二体、三倍体和ROH检测装置、计算机设备和计算机可读存储介质,获取待测样本的基因组测序信息,并根据设计的方法和算法构建对比库并进行分析,通过利用全基因组比对结果对染色体进行检测分析,不使用额外实验手段。可以提高染色体的检测效率、降低检测成本,基于机器学习模型和相应分析算法,可以提高检测的覆盖率和准确性。
与现有技术相比,本发明具有以下有益效果:
(1)本发明的一体化检测CNV、单亲二体、三倍体和ROH的方法,能够基于全基因组测序数据,一体化检测出CNV、单亲二体、三倍体和ROH区域,简化了检测流程,提高了检测效率且降低了检测成本;
(2)本发明所述一体化检测CNV、单亲二体、三倍体和ROH检测装置、计算机设备和计算机可读存储介质,通过利用全基因组比对结果对染色体进行检测分析,不使用额外实验手段。可以提高染色体的检测效率、降低检测成本,基于机器学习模型和相应分析算法,可以提高检测的覆盖率和准确性。
附图说明
图1为本发明一体化检测CNV、单亲二体、三倍体和ROH的方法的分析流程图;
图2为小CNV样本检测结果图;
图3为单亲二体样本检测结果图;
图4为三倍体样本检测结果图;
图5为区域性ROH样本检测结果图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
本实施例利用本发明一体化检测CNV、单亲二体、三倍体和ROH的方法对小CNV样本(细胞系样本)进行检测,包括以下步骤:
1、构建基因组测序文库;
2、上机测序,获得处理样本1的全基因组测序数据;
3、获得分析参数:每个窗口的覆盖深度信息及SNP基因型信息;
4、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV;
5、基于SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
6、基于SNP基因型信息按照ROH分析流程检测5M以上ROH。
检测结果如图2所示,CNV检测结果为:
dup(4)(p16.1).seq[GRCh37/hg19](8930001-9500000)×3
dup(8)(p23.1).seq[GRCh37/hg19](7000001-12500000)×3
dup(12)(p11.21).seq[GRCh37/hg19](31220001-31430000)×3
del(12)(q12).seq[GRCh37/hg19](40890001-41240000)×1。
如图2(CNV检测/Copy Number)所示,在4号染色体、8号染色体、12号染色体检出了大于100 kb的CNV;如图2(倍性检测/Z-score)所示,所有染色体的Z-score中位数为-1.0745,在(-3,3)之间,则其单亲二体/三倍体检测结果为:二倍体;如图2(ROH检测/LogFF)所示,所有染色体的LogFF值均在0附近,表明处理样本1的F值与ROH分析参考数据库中F值相差较小,未检测出ROH区域。
实施例2
本实施例利用本发明一体化检测CNV、单亲二体、三倍体和ROH的方法对单亲二体样本(细胞系样本)进行检测,包括以下步骤:
1、构建基因组测序文库;
2、上机测序,获得处理样本2的全基因组测序数据;
3、获得分析参数:每个窗口的覆盖深度信息及SNP基因型信息;
4、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV;
5、基于SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
6、基于SNP基因型信息按照ROH分析流程检测5 M以上ROH。
检测结果如图3所示,CNV检测结果:未检测到100kb以上CNV;倍性检测结果:单亲二体。从图3可以看出,处理样本2所有染色体Z-score<-3,表明其为单倍体样本;ROH检测结果:整个基因组均为ROH状态。从图3可以看出,处理样本2所有染色体LogFF<-1,表明其为ROH区域,出现这种情况的原因是该样本为单亲二体,整个基因组只有一套遗传物质,所以都表现为纯合状态,与倍性检测结果一致。
实施例3
本实施例利用本发明一体化检测CNV、单亲二体、三倍体和ROH的方法对三倍体样本(细胞系样本)进行检测,包括以下步骤:
1、构建基因组测序文库;
2、上机测序,获得处理样本3的全基因组测序数据;
3、获得分析参数:每个窗口的覆盖深度信息及SNP基因型信息;
4、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV;
5、基于SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
6、基于SNP基因型信息按照ROH分析流程检测5 M以上ROH。
检测结果如图4所示,CNV检测结果:+(mosaic)(X);-(mosaic)(Y);倍性检测结果:三倍体;处理样本3所有染色体Z-score>3,其中位数为6.865,表明该样本为三倍体;ROH检测结果:ROH(X)(p22.31-p11.4)(32.4M);ROH(X)(q25-q28)(28.8M);处理样本3的X染色体上存在两个区域LogFF<-1,表明其为ROH区域。
综合三个检测结果,可以得到该样本核型为69,XXY,即其他染色体都存在3条,chrX存在2条,chrY存在一条。所以在与正常样本的CNV分析参考数据库对比的时候,出现了CNV检测结果中chrX嵌合重复,chrY嵌合缺失的情况。由于该样本的两条chrX可能均来自母亲,所以同源重组的存在会导致ROH的出现。三个结果是一致,相互验证的。
实施例4
本实施例利用本发明一体化检测CNV、单亲二体、三倍体和ROH的方法对区域性ROH样本(细胞系样本)进行检测,包括以下步骤:
1、构建基因组测序文库;
2、上机测序,获得处理样本4的全基因组测序数据;
3、获得分析参数:每个窗口的覆盖深度信息及SNP基因型信息;
4、基于测序深度信息按照CNV分析流程获得100kb以上小CNV;
5、基于SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
6、基于SNP基因型信息按照ROH分析流程检测5M以上ROH。
检测结果如图5所示,CNV检测结果:
del(2)(p11.2-p11.2).seq[GRCh37/hg19](89150001-90280000)×1
dup(10)(q11.21).seq[GRCh37/hg19](45190001-45380000)×3
dup(12)(p11.21).seq[GRCh37/hg19](31210001-31430000)×3
del(14)(q32.33).seq[GRCh37/hg19](106190001-106970000)×1
dup(16)(p12.3).seq[GRCh37/hg19](20420001-20640000)×3
dup(16)(p11.2-p11.1).seq[GRCh37/hg19](34440001-34770000)×3
dup(17)(q21.31).seq[GRCh37/hg19](44140001-44370000)×3。
倍性检测结果:二倍体,处理样本4所有染色体的中位数为1.309,在(-3,3)区间内,表明该样本为二倍体。
ROH检测结果:ROH(15)(q11.2-q22.2)(38.4M);ROH(15)(q26.2-q26.3)(5.4M),从图5可以看出,处理样本4的15号染色体上存在两个区域LogFF<-1,表明其为ROH区域。
综合三个检测结果,我们可以得出该样本15号染色体存在较大的ROH区域,则会导致Z-score下降,结果一致,可以相互验证。
综上所述,本发明的一体化检测CNV、单亲二体、三倍体和ROH的方法,能够基于全基因组测序数据,一体化检测出CNV、单亲二体、三倍体和ROH区域,简化了检测流程,提高了检测效率且降低了检测成本。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

Claims (10)

1.一体化检测CNV、单亲二体、三倍体和ROH的方法,其特征在于,所述方法包括以下步骤:
(1)获取样本基因组上覆盖深度信息及SNP基因型信息;
(2)构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;
(3)进行单亲二体及三倍体分析、CNV分析和ROH分析;
所述单亲二体及三倍体分析包括统计样本染色体的B等位基因频率偏移量和杂合SNP 比例,并按式(1)计算染色体的Z值,其中,
Figure DEST_PATH_IMAGE001
为样本染色体的R值,
Figure DEST_PATH_IMAGE002
为单亲二体及三倍 体分析参考数据库中相应染色体R值的平均值,
Figure DEST_PATH_IMAGE003
为单亲二体及三倍体分析参考数据库 中染色体R值的标准差;
Figure DEST_PATH_IMAGE004
(1);
所述CNV分析包括计算样本与CNV分析参考数据库比对结果Log2RR的平均值
Figure DEST_PATH_IMAGE005
,并 利用所述
Figure 996197DEST_PATH_IMAGE005
按式(2)计算拷贝数CN;
Figure DEST_PATH_IMAGE006
(2);
所述ROH分析包括按式(3)计算样本与ROH分析参考数据库的比对结果
Figure DEST_PATH_IMAGE007
,其中F1 为ROH分析参考数据库窗口值,F2为样本窗口值,进行断点识别和片段合并;
Figure DEST_PATH_IMAGE008
(3)。
2.根据权利要求1所述的方法,其特征在于,所述覆盖深度信息包括样本基因组中窗口的覆盖深度,所述窗口的长度为1 kb~100 kb;
所述SNP基因型信息包括SNP位点的基因型和B等位基因频率。
3.根据权利要求1所述的方法,其特征在于,步骤(2)所述CNV分析参考数据库的构建方法包括以下步骤:
(1’)选取样本的覆盖深度信息;
(2’)采用定基比率法对窗口进行标准化;
(3’)过滤掉覆盖深度一直为0或SD大于SD阈值的窗口;
(4’)采用LOESS算法,对样本进行GC校正;
(5’)将样本按照对应窗口合并,取平均值;
(6’)按照步长3~5、滑动1~3的策略将窗口合并。
4.根据权利要求1所述的方法,其特征在于,步骤(2)所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤:
(1’’)选取样本的SNP基因型信息;
(2’’)统计样本染色体的杂合SNP的B等位基因频率与二倍体杂合SNP的B等位基因频率 理论值的距离,取平均值作为样本染色体的B等位基因频率偏移量
Figure DEST_PATH_IMAGE009
(3’’)统计杂合SNP比例
Figure DEST_PATH_IMAGE010
(4’’)整合染色体的B等位基因频率偏移量和杂合SNP比例,按式(4)计算R值;
Figure DEST_PATH_IMAGE011
(4);
步骤(2)所述ROH分析参考数据库的构建方法包括以下步骤:
(1’’’)选取样本的SNP基因型信息;
(2’’’)将基因组划分为大小为400~800 kb的等分窗口,统计窗口的杂合SNP比例;
(3’’’)采用定基比率法对窗口进行标准化;
(4’’’)将样本按照对应窗口合并,取平均值。
5.根据权利要求1所述的方法,其特征在于,所述CNV分析包括以下步骤:
a.采用定基比率法对窗口进行标准化;
b.过滤掉覆盖深度为0或SD大于SD阈值的窗口;
c.采用LOESS算法,对样本进行GC校正;
d.按照步长3~5、滑动1~3的策略将窗口合并;
e.按式(5)计算样本与CNV分析参考数据库比对结果Log2RR,其中R1为CNV分析参考数据库窗口值,R2为样本窗口值;
Figure DEST_PATH_IMAGE012
(5);
f.查找染色体的CNV断点;
g.针对所述CNV断点,采用游程检验算法合并染色体的片段;
h.计算样本与CNV分析参考数据库比对结果Log2RR的平均值
Figure 631446DEST_PATH_IMAGE005
,并利用所述
Figure 676763DEST_PATH_IMAGE005
按式(2)计算拷贝数CN。
6.根据权利要求1所述的方法,其特征在于,所述单亲二体及三倍体分析包括以下步骤:
a.统计该样本染色体的B等位基因频率偏移量和杂合SNP比例,并进行参数整合;
b.并按式(1)计算样本染色体的Z值,Z≥3,则样本染色体为三体;Z≤-3,则样本染色体为单体;计算样本所有染色体的Z值的中位数Zgenome,Zgenome≥3,则该样本为三倍体;Zgenome≤-3,则该样本为单亲二体。
7.根据权利要求1所述的方法,其特征在于,所述ROH分析包括以下步骤:
a.统计窗口的杂合SNP比例;
b.按式(3)计算样本与ROH分析参考数据库的比对结果
Figure 275234DEST_PATH_IMAGE007
c.查找染色体的CNV断点;
d.针对所述CNV断点,采用游程检验算法合并染色体的片段,报告样本中Log10FF小于阈值线的区域。
8.一体化检测CNV、单亲二体、三倍体和ROH的装置,其特征在于,所述装置包括采集信息模块、构建对比库模块和分析模块;
所述采集信息模块包括:获取样本在整个基因组上覆盖深度信息及全基因组的SNP基因型信息;
所述构建对比库模块包括:分别构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;
所述分析模块包括:进行单亲二体及三倍体分析、CNV分析和ROH分析;
所述单亲二体及三倍体分析包括统计样本染色体的B等位基因频率偏移量和杂合SNP 的比例,并按权利要求1所述式(1)计算染色体的Z值,其中,
Figure DEST_PATH_IMAGE013
为样本染色体的R值,
Figure DEST_PATH_IMAGE014
为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值,
Figure DEST_PATH_IMAGE015
为单亲二体及三倍 体分析参考数据库中染色体R值的标准差;
所述CNV分析包括计算样本与CNV分析参考数据库比对结果Log2RR的平均值
Figure 417503DEST_PATH_IMAGE005
,并 利用所述
Figure 567861DEST_PATH_IMAGE005
按权利要求1所述式(2)计算拷贝数CN;
所述ROH分析包括按权利要求1所述式(3)计算样本与ROH分析参考数据库的比对结果
Figure 100474DEST_PATH_IMAGE007
,其中F1为ROH分析参考数据库窗口值,F2为样本窗口的值,进行断点识别和片段合 并。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-7任一项所述的一体化检测CNV、单亲二体、三倍体和ROH的方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-7任一项所述的一体化检测CNV、单亲二体、三倍体和ROH的方法中的步骤。
CN202210039954.8A 2022-01-14 2022-01-14 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 Active CN114049914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210039954.8A CN114049914B (zh) 2022-01-14 2022-01-14 一体化检测cnv、单亲二体、三倍体和roh的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210039954.8A CN114049914B (zh) 2022-01-14 2022-01-14 一体化检测cnv、单亲二体、三倍体和roh的方法及装置

Publications (2)

Publication Number Publication Date
CN114049914A CN114049914A (zh) 2022-02-15
CN114049914B true CN114049914B (zh) 2022-04-15

Family

ID=80196596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210039954.8A Active CN114049914B (zh) 2022-01-14 2022-01-14 一体化检测cnv、单亲二体、三倍体和roh的方法及装置

Country Status (1)

Country Link
CN (1) CN114049914B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420208B (zh) * 2022-02-28 2023-04-18 上海亿康医学检验所有限公司 一种用于鉴定核酸样本中cnv的方法和装置
CN115287369A (zh) * 2022-10-08 2022-11-04 北京大学第三医院(北京大学第三临床医学院) 基于单细胞测序的非单精子判定方法
CN115798580B (zh) * 2023-02-10 2023-11-07 北京中仪康卫医疗器械有限公司 基于基因型填补和低深度测序的一体化基因组分析方法
CN117594122B (zh) * 2024-01-19 2024-04-09 苏州贝康医疗器械有限公司 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2018009823A (es) * 2016-02-12 2019-02-20 Regeneron Pharma Metodos y sistemas para la deteccion de cariotipos anormales.
WO2021037016A1 (en) * 2019-08-30 2021-03-04 The Chinese University Of Hong Kong Methods for detecting absence of heterozygosity by low-pass genome sequencing
CN113593644B (zh) * 2021-06-29 2024-03-26 广东博奥医学检验所有限公司 基于家系的低深度测序检测染色体单亲二体的方法
CN113337600B (zh) * 2021-08-02 2021-11-09 北京嘉宝仁和医疗科技有限公司 一种基于低深度测序法检测染色体中三倍体、roh的方法

Also Published As

Publication number Publication date
CN114049914A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN114049914B (zh) 一体化检测cnv、单亲二体、三倍体和roh的方法及装置
JP6718885B2 (ja) コピー数多型検出のための方法及びシステム
CN109074426B (zh) 用于检测异常核型的方法和系统
EP3039597B1 (en) Haplotyping and copy number typing using polymorphic variant allelic frequencies
CN110648721B (zh) 针对外显子捕获技术检测拷贝数变异的方法及装置
CN113593644B (zh) 基于家系的低深度测序检测染色体单亲二体的方法
CN113724791B (zh) Cyp21a2基因ngs数据分析的方法、装置及应用
CN113113081B (zh) 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统
CN115798580B (zh) 基于基因型填补和低深度测序的一体化基因组分析方法
Kang et al. Consanguinity rates predict long runs of homozygosity in Jewish populations
CN111226281B (zh) 确定染色体非整倍性、构建分类模型的方法和装置
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN114921536A (zh) 一种检测单亲二倍体和杂合性缺失的方法、装置、存储介质和设备
CN117594122B (zh) 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置
US20230282307A1 (en) Method for detecting uniparental disomy based upon ngs-trio, and use thereof
JP2022513946A (ja) 循環核酸からの全ゲノム配列データにおける包括的配列特徴の同定
Rissman Mapping copy number variants across the cattle genome
Min et al. Accurate detection of CNV based on single-nucleotide variants recalibration and image classification from whole genome sequencing
CN114708905A (zh) 基于ngs的染色体非整倍体检测方法、装置、介质和设备
CN116913378A (zh) 基于低深度测序数据检测基因组纯合区域的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant