CN110993022A - 检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置 - Google Patents

检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置 Download PDF

Info

Publication number
CN110993022A
CN110993022A CN201911329712.7A CN201911329712A CN110993022A CN 110993022 A CN110993022 A CN 110993022A CN 201911329712 A CN201911329712 A CN 201911329712A CN 110993022 A CN110993022 A CN 110993022A
Authority
CN
China
Prior art keywords
samples
copy number
sample
baseline
same batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911329712.7A
Other languages
English (en)
Other versions
CN110993022B (zh
Inventor
单光宇
张静波
徐冰
李孟键
刘�文
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN201911329712.7A priority Critical patent/CN110993022B/zh
Publication of CN110993022A publication Critical patent/CN110993022A/zh
Application granted granted Critical
Publication of CN110993022B publication Critical patent/CN110993022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置。建立动态基线的方法包括:利用同一批次多个样本各自的测序数据检测得到各样本对应的拷贝数V0;根据各样本对应的拷贝数V0,确定阳性样本和极值样本;从同一批次多个样本中去除阳性样本和极值样本,得到阴性样本;利用阴性样本的测序数据建立同一批次多个样本的批次参考基线,记为动态基线。该动态基线因采用同批次样本构建所得,故能去除上游实验、操作误差对于基线的影响,进而避免了测序批次、实验操作、实验试剂改变造成的基线误差问题,从而准确确定样本的拷贝数,进而利于准确检测其扩增状态,避免了对样本错检或漏检的现象。

Description

检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态 基线的方法和装置
技术领域
本发明涉及高通量测序技术领域,具体而言,涉及一种检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置。
背景技术
在二代测序的临床实践中,检测拷贝数扩增是一项重要的内容。即事先使用白细胞样本 (20-30例左右)建立基线,然后对肿瘤样本进行拷贝数变异的检测。然而,由于基线更新常常跟不上人员、实验流程以及试剂的变更导致发生样本错检和漏检。
然而,目前对于这一状况尚无有效的解决方案。
发明内容
本发明的主要目的在于提供一种检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置,以解决现有技术中的基线在拷贝数扩增检测时检测的拷贝数不准确而导致样本错检或漏检的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种建立拷贝数扩增检测的动态基线的方法,该方法包括:利用同一批次多个样本各自的测序数据检测得到各样本对应的拷贝数V0;根据各样本对应的拷贝数V0,确定阳性样本和极值样本;从同一批次多个样本中去除阳性样本和极值样本,得到阴性样本;利用阴性样本的测序数据建立同一批次多个样本的批次参考基线,记为动态基线。
进一步地,利用同一批次多个样本各自的测序数据检测得到各样本对应的拷贝数V0包括:获取同一批次多个样本各自的测序数据,统计各样本的平均覆盖深度;将各样本的平均覆盖深度与静态基线相比,从而检测得到各样本对应的拷贝数V0;其中,静态基线由检测同一批次的多个样本之前的阴性样本建立而成。
进一步地,根据各样本对应的拷贝数V0,确定阳性样本和极值样本包括:根据各样本对应的拷贝数V0,将拷贝数V0满足第一阈值或第二阈值的样本确定为极值样本;将拷贝数V0 满足第三阈值的样本确定为阳性样本;优选地,第一阈值为大于10的数值,第二阈值为小于 0.4的数值,第三阈值为大于4的数值。
进一步地,利用阴性样本的测序数据建立同一批次多个样本的批次参考基线,记为动态基线包括:利用多个阴性样本各自的测序数据,统计各阴性样本对应的各目标区域的覆盖深度;对各目标区域的覆盖深度进行均一化,得到各目标区域的区域覆盖深度;对各目标区域的区域覆盖深度进行GC矫正,得到各目标区域的矫正区域覆盖深度;对多个阴性样本的各目标区域的矫正区域覆盖深度取平均值,得到各目标区域的区域平均覆盖深度,记为动态基线;优选地,均一化是指将各目标区域的覆盖深度除以多个阴性样本在目标区域的覆盖深度的中位数;优选地,对各目标区域的区域覆盖深度采用LOESS算法进行GC矫正。
为了实现上述目的,根据本发明的第二个方面,提供了一种检测拷贝数扩增的方法,该方法包括:获取同一批次多个样本的测序数据,利用上述任一种方法建立建立检测拷贝数扩增的动态基线;利用动态基线对同一批次中任一样本进行拷贝数扩增检测,得到拷贝数V1。
根据本发明的第三个方面,提供了一种建立拷贝数扩增检测的动态基线的装置,该装置包括:V0获取模块,用于利用同一批次多个样本各自的测序数据检测得到各样本对应的拷贝数V0;确定模块,用于根据各样本对应的拷贝数V0,确定阳性样本和极值样本;去除模块,用于从同一批次多个样本中去除阳性样本和极值样本,得到阴性样本;动态基线建立模块,用于利用阴性样本的测序数据建立同一批次多个样本的批次参考基线,记为动态基线。
进一步地,V0获取模块包括:第一统计模块,用于利用同一批次多个样本各自的测序数据,统计各样本的平均覆盖深度;第一检测模块,用于将各样本的平均覆盖深度与静态基线相比,从而检测得到各样本对应的拷贝数V0;其中,静态基线由检测同一批次的多个样本之前的阴性样本建立而成。
进一步地,确定模块包括:第一确定模块,用于根据各样本对应的拷贝数V0,将拷贝数 V0满足第一阈值或第二阈值的样本确定为极值样本;第二确定模块,用于将拷贝数V0满足第三阈值的样本确定为阳性样本;优选地,第一阈值为大于10,第二阈值为小于0.4,第三阈值为大于4。
进一步地,动态基线建立模块包括:第二统计模块,用于利用多个阴性样本各自的测序数据,统计各阴性样本对应的各目标区域的覆盖深度;均一化模块,用于对各目标区域的覆盖深度进行均一化,得到各目标区域的区域覆盖深度;GC矫正模块,用于对各目标区域的区域覆盖深度进行GC矫正,得到各目标区域的矫正区域覆盖深度;均值模块,用于对多个阴性样本的各目标区域的矫正区域覆盖深度取平均值,得到各目标区域的区域平均覆盖深度,记为动态基线;优选地,GC矫正模块为LOESS模块。
根据本发明的第四个方面,提供了一种检测拷贝数扩增的装置,该装置包括:动态基线建立模块,用于获取同一批次多个样本的测序数据,并利用上述任一种方法建立检测拷贝数扩增的动态基线;第二检测模块,用于利用动态基线对同一批次中任一样本进行拷贝数扩增检测,得到拷贝数V1。
根据本发明的第五个方面,提供了一种存储介质,存储介质上存储有计算机可执行的程序,程序被设置为运行时,执行上述任一种建立检测拷贝数扩增的动态基线的方法,或上述任一种检测拷贝数扩增的方法。
根据本发明的第六个方面,提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,计算机程序执行上述任一种建立检测拷贝数扩增的动态基线的方法,或上述任一种检测拷贝数扩增的方法。
应用本发明的技术方案,通过利用同一批次样本的测序数据,先按照现有方法检测出各样本的拷贝数扩增状态,找出并去除其中的阳性样本以及极值样本,利用剩余的阴性样本建立基于该同一批次样本的动态基线。该动态基线因采用同批次样本构建所得,故能够去除上游实验、操作误差对于基线的影响,进而避免了测序批次、实验操作、实验试剂改变造成的基线误差问题,从而准确确定样本的拷贝数,进而利于准确检测其扩增状态,避免了对样本错检或漏检的现象。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的一种优选实施例中提供的建立拷贝数扩增检测的动态基线的方法的流程示意图;以及
图2示出了根据本发明的一种优选实施例中提供的检测拷贝数扩增方法的详细流程示意图;
图3示出了根据本发明的一种优选实施例中提供的建立拷贝数扩增检测的动态基线的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
如背景技术中所提到的,现有方法常常是建立基线对拷贝数变异进行检测,然而在真实的临床实践中,往往由于信息传达滞后等问题导致基线不能够及时更新,产生样本发生拷贝数扩增错检、漏检的风险。
因此,为了解决基线不能及时更新导致样本拷贝数扩增错检、漏检的问题,本申请一种优选的实施例中,提供了一种建立拷贝数扩增检测的动态基线的方法,如图1所示,该方法包括:
步骤S101,利用同一批次多个样本各自的测序数据检测得到各样本对应的拷贝数V0;
步骤S102,根据各样本对应的拷贝数V0,确定阳性样本和极值样本;
步骤S103,从同一批次多个样本中去除阳性样本和极值样本,得到阴性样本;
步骤S104,利用阴性样本的测序数据建立同一批次多个样本的批次参考基线,记为动态基线。
上述实施例,通过利用同一批次样本的测序数据,先按照现有方法检测出各样本的扩增拷贝数,找出并去除其中的阳性样本以及极值样本(即拷贝数处于极端值的样本,包括极高值和极低值,具体数值可以根据实际数据来确定),利用剩余的阴性样本建立基于该同一批次样本的动态基线。利用该方法建立的基于批次样本的动态基线,避免了测序批次、实验操作、实验试剂改变造成的基线误差问题,从而准确确定样本的拷贝数,进而利于准确检测其扩增状态,避免了对样本错检或漏检的现象。
需要说明的是,上述实施例中,所用的测序数据是靶向捕获文库的测序数据。具体的靶向捕获文库中的目标序列可以根据研究目的不同,涵盖不同目标基因的序列,可以是单一基因的,也可以是多个基因的。多个基因的,可以根据针对的对象的不同或研究兴趣的不同,设计成不同的基因panel。构建靶向捕获文库的方法采用现有方法即可,本申请中不做特殊限定。
建立靶向捕获文库的主要步骤如下:1.样本预处理并提取DNA;2.目标区域捕获原理使用特定序列的捕获探针捕获样本的目标区域;3.通过高通量测序法进行测序,得到样本的目标序列。
上述实施例中,在获得同一批次多个样本的测序数据并进行拷贝数检测之前,需要对测序数据进行常规的前处理。具体地,在得到靶向文库的测序数据之后,按照常规流程过滤掉低质量序列,得到有效测序数据(Clean data),然后利用BWA-mem比对软件将高通量测序序列比对到人类参考基因组上,未比对上的序列形成软截断。然后根据比对到参考基因组上的位置进行排序,并用samtools软件建立index。
上述利用同一批次多个样本各自的测序数据检测得到各样本对应的拷贝数V0是指按照现有方法先获得各样本在各对应的目标区域的拷贝数。具体包括:获取同一批次多个样本各自的测序数据,统计各样本的平均覆盖深度;将各样本的平均覆盖深度与静态基线相比,从而检测得到各样本对应的拷贝数V0;其中,静态基线由检测同一批次的多个样本之前的阴性样本建立而成(也就是指现有方法中以一批固定的白细胞样本建立的基线,该基线并不虽不同批次的样本的变化而变化)。
上述各样本的测序数据中,每个碱基对应一个覆盖深度(即该碱基被测到的次数),一个目标区域的覆盖深度以该区域内的所有碱基的平均覆盖深度来计算,记为该样本该目标的平均覆盖深度。一个样本有多个目标区域,进而对应有多个平均覆盖深度,利用该样本的多个目标区域的多个平均覆盖深度与静态基线(即阴性样本在多个区域的多个平均覆盖深度)比较,得到拷贝数V0。
为尽可能使所建立的动态基线体现的是真正的阴性样本的拷贝数水平,上述实施例在建立动态基线之前,充分考虑了阳性样本等干扰因素,并排除了包括极由于PCR导致的极值扩增样本,包括极高扩增的样本和极低扩增的样本(即高缺失的样本)。
在一可选实施例中,根据各样本对应的拷贝数V0,确定阳性样本和极值样本包括:根据各样本对应的拷贝数V0,将拷贝数V0满足第一阈值或满足第二阈值的样本确定为极值样本,将拷贝数V0满足第三阈值的样本确定为阳性样本。
需要说明的是,在实际应用中,根据目的基因的不同,上述第一阈值、第二阈值和第三阈值可以根据实际测序数据的不同而有所差异。优选地,此处的第一阈值为大于10的数值,第二阈值为小于0.4的数值,第三阈值为大于4的数值。
上述利用改进的动态基线法对各样本的拷贝数进行检测的步骤,除了基线不同外,其余步骤均可参照现有基于静态法进行检测的步骤进行操作。
在一可选实施例中,利用阴性样本的测序数据建立同一批次多个样本的批次参考基线,记为动态基线包括:利用多个阴性样本各自的测序数据,统计各阴性样本对应的各目标区域的覆盖深度(即该目标区域内各基因的覆盖深度的平均值);对各目标区域的覆盖深度进行均一化,得到各目标区域的区域覆盖深度;对各目标区域的区域覆盖深度进行GC矫正,得到各目标区域的矫正区域覆盖深度;对多个阴性样本的各目标区域的矫正区域覆盖深度取平均值,得到各目标区域的区域平均覆盖深度,记为动态基线。
优选地,均一化是指将各目标区域的覆盖深度除以多个阴性样本在该目标区域的覆盖深度的中位数。
优选地,对各目标区域的区域覆盖深度采用LOESS算法进行GC矫正。
基线对于拷贝数检测至关重要,与使用一条固有基线相比,本实施例的方法(动态基线法)能够克服由于基线更新滞后导致拷贝数扩增检测错误的问题,使得检测更加准确。除此之外,上述优选的实施例所提供的方法,能够很好地利用病理样本的深度信息,辅之本申请上述矫正步骤,能够准确地进行拷贝数扩增检测,使得即使在基线更新滞后的情况下也准确识别拷贝数。
实施例2
在本申请一种优选的实施例中,还提供了一种检测拷贝数扩增的方法,该方法包括:获取同一批次多个样本的测序数据,并利用上述任一种方法建立检测拷贝数扩增的动态基线;利用动态基线对同一批次中任一样本进行拷贝数扩增检测,得到拷贝数V1。
该实施例中,通过采用上述动态基线法对同一批次的任一样本进行拷贝数扩增检测,进而利于对样本状态的准确判定,避免了现有技术中基线更新不及时而导致的检测错误或漏检的问题,同时该检测方法还具有高灵敏性和高特异性的特点(通过采用10例样本进行测试,阴阳性样本均可正确判定,没有出现错判的情况来确定,具体见实施例7)。
实施例3
在本申请一种优选的实施例中,还提供了一种具体的检测拷贝数扩增的方法,步骤如下:
1.对样本预处理并提取DNA;
2.目标区域捕获原理使用特定序列的捕获探针捕获样本的目标区域;
3.通过高通量测序法进行测序,得到样本的目标序列;
4.过滤掉低质量序列,利用本申请的图2所示的流程进行检测。
第一部分:样本处理
样本DNA提取、加接头、杂交捕获、洗脱、富集及测序。
第二部分:数据处理
利用BWA-mem比对软件将高通量测序序列比对到人类参考基因组上,未比对上的序列形成软截断。然后根据比对到参考基因组上的位置进行排序,并用samtools软件建立index;
第三部分:构建本批次基线
1:对该批次多个样本中的每例样本按照静态基线(即事先用20-30例白细胞样本建立的基线)法进行拷贝数变异检测,得到拷贝数V0;
2:先去除极值样本:拷贝数V0<0.4或拷贝数V0>10;
3.再去除阳性样本:拷贝数V0>4;
4:使用过滤后的阴性样本建立本批次参考基线。建立基线的具体步骤如下:
1)使用确定的阴性样本若干例(最好50例以上);
2)根据测序结果,得到每个探针区域(即目标区域)的覆盖深度;
3)对每个探针区域的深度进行均一化,得到探针区域覆盖度。方法是该探针区域深度/ 所有阴性样本该探针区域深度的中位数;
4)对各探针区域覆盖度使用loess算法进行GC矫正,得到每个探针区域矫正后的区域覆盖度;
5)计算每个探针区域50例样本的探针区域覆盖度的平均值记为各探针区域平均覆盖度;得到的每个探针区域的平均覆盖度,即为该同一批次样本的批次参考基线,记为动态基线,可用于后续分析。
第四部分:使用本批次基线对样本进行拷贝数变异检测
利用上一步构建好的批次基线对所有样本进行拷贝数变异检测,更新拷贝数V0,得到拷贝数V1。
由于拷贝数V1利用同批次样本构建的基线获得,因而可以去除上游实验、操作误差对于基线的影响,从而使得检测结果更准确。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
对应于上述方式,本申请还分别提供了一种建立拷贝数扩增检测的动态基线的装置及一种检测拷贝数扩增的装置,这些装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例4
在一种优选的实施例中,还提供了一种建立拷贝数扩增检测的动态基线的装置,如图3 所示,该装置包括:V0获取模块20、确定模块40、去除模块60及动态基线建立模块80,其中,V0获取模块20,用于利用同一批次多个样本各自的测序数据检测得到各样本对应的拷贝数V0;确定模块40,用于根据各样本对应的拷贝数V0,确定阳性样本和极值样本;去除模块60,用于从同一批次多个样本中去除阳性样本和极值样本,得到阴性样本;动态基线建立模块80,用于利用阴性样本的测序数据建立同一批次多个样本的批次参考基线,记为动态基线。
上述装置通过利用同一批次样本的测序数据,先按照现有方法检测出各样本的拷贝数扩增状态,找出并去除其中的阳性样本以及极值样本,利用剩余的阴性样本建立基于该同一批次样本的动态基线。该动态基线采用同批次样本构建所得,能够去除上游实验、操作误差对于基线的影响,进而避免了测序批次、实验操作、实验试剂改变造成的基线误差问题,从而准确确定样本的拷贝数,进而利于准确检测其扩增状态,避免了对样本错检或漏检的现象。
一可选的实施例中,V0获取模块包括:第一统计模块,用于利用同一批次多个样本各自的测序数据统计各样本的平均覆盖深度;第一检测模块,用于将各样本的平均覆盖深度与静态基线相比,从而检测得到各样本对应的拷贝数V0;其中,静态基线由检测同一批次的多个样本之前的阴性样本建立而成。
一可选的实施例中,确定模块包括:第一确定模块,用于根据各样本对应的拷贝数V0,将拷贝数V0满足第一阈值的样本或拷贝数V0满足第二阈值的样本确定为极值样本;第二确定模块,用于将拷贝数V0满足第三阈值的样本确定为阳性样本。
优选地,第一阈值为大于10,第二阈值为小于0.4,第三阈值为大于4。
一可选的实施例中,动态基线建立模块包括:第二统计模块,用于利用多个阴性样本各自的测序数据,统计各阴性样本对应的各目标区域的覆盖深度;均一化模块,用于对各目标区域的覆盖深度进行均一化,得到各目标区域的区域覆盖深度;GC矫正模块,用于对各目标区域的区域覆盖深度进行GC矫正,得到各目标区域的矫正区域覆盖深度;均值模块,用于对多个阴性样本的各目标区域的矫正区域覆盖深度取平均值,得到各目标区域的区域平均覆盖深度,记为动态基线。
优选地,GC矫正模块为LOESS模块。
实施例5
在一种优选的实施例中,还提供了一种检测拷贝数扩增的装置,该装置包括:动态基线建立模块及第二检测模块,其中,动态基线建立模块,用于获取同一批次多个样本的测序数据,并利用上述任一种方法建立检测拷贝数扩增的动态基线;第二检测模块,用于利用动态基线对同一批次中任一样本进行拷贝数扩增检测,得到拷贝数V1。
该装置利用同批次样本构建的基线获得,因而使用这样的基线能够去除上游实验、操作误差对于基线的影响,从而使得检测得到的拷贝数V1更准确。解决了由于基线更新不及时导致拷贝数变异检出错误的情况发生。
此外,本申请还提供了一种存储介质,存储介质上存储有计算机可执行的程序,程序被设置为运行时,执行上述任一种建立检测拷贝数扩增的动态基线的方法,或上述任一种检测拷贝数扩增的方法。
在一可选实施例中,本申请还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,计算机程序执行上述任一种建立检测拷贝数扩增的动态基线的方法,或上述任一种检测拷贝数扩增的方法。
实施例6
以下实施例中的待检样本是使用历史基线已知HER2阳性漏检的乳腺癌病理样本以及同批次上机测序的其他多个样本。
(一)捕获文库构建及测序
该实施例所用试剂是市售的,信息如下:
表1:
Figure BDA0002329264140000091
具体步骤如下:
1.利用荧光定量计(Qubit)进行定量,其浓度为3.8ng/ul,体积为130ul;利用超声破碎仪 (Covaris)对样品进行片段化,使DNA片段大小在200-400bp之间,然后利用琼脂糖凝胶电泳检测片段大小是否符合要求。
2.先将片段化的样品进行磁珠纯化,然后进行末端修复和3’端腺苷化,体系配置见下面表格,基本步骤如下:先在20℃温浴30min,其次在65℃温浴30min结束反应。
表2:
末端修复和3’端腺苷化缓冲液 7μl
末端修复和3’端腺苷化酶混合液 3μl
DNA 50ul(500ng)
3.将上述修复后的DNA进行接头连接,接头连接体系详见下表,在20℃温浴15min。
表3:
试剂 体积
带标签的接头 2.5μl
DNA样品 60ul
连接反应液 30ul
连接酶 10ul
无核酸酶的水 7.5ul
4.将上述接头连接后的产物进行磁珠纯化,然后进行PCR扩增,得到足量的带接头的DNA 片段,基本步骤如下:先在98℃预变性45s,其次在98℃变性15s,然后在60℃退火30s,72℃延伸30s;重复变性退火延伸过程7次;最后在72℃延伸1min,结束反应。扩增体系见下表:
表4:
试剂 体积
快速热启动聚合酶 25μL
扩增引物 1uL
连上接头的DNA片段 24μL
5.对PCR扩增产物进行磁珠纯化后,利用Qubit定量得到浓度后,取出500ng扩增产物(P5 接头端引物,SEQ ID NO.1:aatgatacggcgaccaccgaga,P7接头端引物,SEQ ID NO.2:caagcagaagacggcatacgag),使用浓缩仪将扩增产物体积浓缩到4.4ul,然后进行封闭和探针杂交,杂交反应体系如下表所示:
表5:
试剂 体积
封闭试剂混合液 5.6μl
P5、P7封闭试剂 2ul
快速封闭试剂 5ul
RNA酶封闭试剂 2ul
针对目标区域的生物素探针 2ul
杂交缓冲液 6ul
无核酸酶的水 3ul
PCR扩增产物 4.4ul
杂交反应条件如下表所示:
表6:
Figure BDA0002329264140000111
6.使用链霉亲合素磁珠对探针结合的样品进行捕获,步骤如下:将50ul磁珠加入1.5ml 离心管,置于磁力架上,弃上清,用200ul连接缓冲液清洗三遍后,使用200ul连接缓冲液重悬磁珠,将与探针杂交的样品加入磁珠,混匀仪上颠倒混匀30min,置于磁力架上,弃上清,用清洗液1清洗1遍,然后用预热到65℃的清洗液2清洗3遍,期间保证磁珠和缓冲液2的温度在65℃。最后置于磁力架上,弃上清,加入38ul无核酸酶的水,重悬磁珠。
7.将磁珠捕获到的DNA片段进行PCR扩增,扩增体系见下表,得到足量的加上接头的 DNA片段,基本步骤如下:先在98℃预变性2min,其次在98℃变性30s,然后在60℃退火30s,72℃延伸1min;重复变性退火延伸过程14次;最后在72℃延伸5min,结束反应。反应体系如下所示:
表7:
试剂 体积
高保真DNA聚合酶 1ul
扩增引物 1ul
高保真DNA聚合酶反应混和液 10ul
单核苷酸混合液 0.5ul
磁珠上的目标区域DNA 37.5ul
8.将得到的PCR扩增产物进行磁珠纯化,然后利用qPCR定量,利用2100进行片段大小检测。
9.测序,在基因测序仪上完成测序,测序平台将得到的光信号转化为碱基序列下机数据为 fastq文件存储所有测序片段结果。
(二)将下机数据fq文件比对上参考基因组,去除低质量序列,使用实施例2的检测流程进行检测(利用同批次样本建立该批次的动态基线,利用动态基线对待检样本的拷贝数进行检测)。
(三)检测结果:
样本检测结果为:该例样本HER2的拷贝数为5.8,大于目前设定的阈值5.0(经过金标准样本,即采用FISH验证的样本训练所得),因此该样本被判定为HER2阳性,与样本真实状态一致。
实施例7
使用10例与实施例6同批次的已知扩增状态的二代测序样本,利于实施例6所建立的动态基线进行检测,检测结果表明所有样本均可以正确判定,具体见下表。
表8:
样本编号 样本类型 真实状态 拷贝数 拷贝数判定 是否一致
S1 乳腺癌样本 HER2阳性 5.7 阳性 一致
S2 乳腺癌样本 HER2阳性 6.6 阳性 一致
S3 乳腺癌样本 HER2阳性 8.3 阳性 一致
S4 乳腺癌样本 HER2阳性 6.8 阳性 一致
S5 乳腺癌样本 HER2阳性 5.3 阳性 一致
S6 乳腺癌样本 HER2阴性 2.3 阴性 一致
S7 乳腺癌样本 HER2阴性 2.3 阴性 一致
S8 乳腺癌样本 HER2阴性 2.1 阴性 一致
S9 乳腺癌样本 HER2阴性 3.5 阴性 一致
S10 乳腺癌样本 HER2阴性 4.1 阴性 一致
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
通过利用同一批次样本的测序数据,先按照现有方法检测出各样本的拷贝数扩增状态,找出并去除其中的阳性样本以及极值样本,利用剩余的阴性样本建立基于该同一批次样本的动态基线。该动态基线因采用同批次样本构建所得,故能够去除上游实验、操作误差对于基线的影响,进而避免了测序批次、实验操作、实验试剂改变造成的基线误差问题,从而准确确定样本的拷贝数,进而利于准确检测其扩增状态,避免了对样本错检或漏检等检测异常的问题。
需要说明的是,本申请中建立拷贝数扩增检测的动态基线的方法及检测拷贝数扩增的方法,所得到的结果都是待检测区域拷贝数变异检测的中间步骤,前者仅提供基线用于对拷贝数进行检测,后者仅提供检测到的待测区域的拷贝数,该拷贝数不能直接体现样本的阴性阳性状态或疾病情况。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种建立拷贝数扩增检测的动态基线的方法,其特征在于,所述方法包括:
利用同一批次多个样本各自的测序数据检测得到各所述样本对应的拷贝数V0;
根据各所述样本对应的所述拷贝数V0,确定阳性样本和极值样本,
从同一批次多个所述样本中去除所述阳性样本和所述极值样本,得到阴性样本;
利用所述阴性样本的所述测序数据建立所述同一批次多个所述样本的批次参考基线,记为所述动态基线。
2.根据权利要求1所述的方法,其特征在于,利用同一批次多个样本各自的测序数据检测得到各所述样本对应的拷贝数V0包括:
获取同一批次多个样本各自的测序数据,统计各所述样本的平均覆盖深度;
将各所述样本的平均覆盖深度与静态基线相比,从而检测得到各所述样本对应的所述拷贝数V0;
其中,所述静态基线由检测所述同一批次的多个所述样本之前的阴性样本建立而成。
3.根据权利要求1的方法,其特征在于,根据各所述样本对应的所述拷贝数V0,确定所述阳性样本和所述极值样本包括:
根据各所述样本对应的所述拷贝数V0,
将所述拷贝数V0满足第一阈值或第二阈值的样本确定为所述极值样本;
将所述拷贝数V0满足第三阈值的样本确定为所述阳性样本;
优选地,所述第一阈值为大于10的数值,所述第二阈值为小于0.4的数值,所述第三阈值为大于4的数值。
4.根据权利要求1所述的方法,其特征在于,利用所述阴性样本的所述测序数据建立所述同一批次多个所述样本的批次参考基线,记为所述动态基线包括:
利用多个所述阴性样本各自的所述测序数据,统计各所述阴性样本对应的各目标区域的覆盖深度;
对各所述目标区域的覆盖深度进行均一化,得到各所述目标区域的区域覆盖深度;
对各所述目标区域的所述区域覆盖深度进行GC矫正,得到各所述目标区域的矫正区域覆盖深度;
对多个所述阴性样本的各所述目标区域的所述矫正区域覆盖深度取平均值,得到各所述目标区域的区域平均覆盖深度,记为所述动态基线;
优选地,所述均一化是指将各所述目标区域的所述覆盖深度除以多个所述阴性样本在所述目标区域的所述覆盖深度的中位数;
优选地,对各所述目标区域的所述区域覆盖深度采用LOESS算法进行GC矫正。
5.一种检测拷贝数扩增的方法,其特征在于,所述方法包括:
获取同一批次多个样本的测序数据,利用权利要求1至4中任一项所述的方法建立建立检测拷贝数扩增的动态基线;
利用所述动态基线对所述同一批次中任一所述样本进行拷贝数扩增检测,得到拷贝数V1。
6.一种建立拷贝数扩增检测的动态基线的装置,其特征在于,所述装置包括:
V0获取模块,用于利用同一批次多个样本各自的测序数据检测得到各所述样本对应的拷贝数V0;
确定模块,用于根据各所述样本对应的所述拷贝数V0,确定阳性样本和极值样本;
去除模块,用于从同一批次多个所述样本中去除所述阳性样本和所述极值样本,得到阴性样本;
动态基线建立模块,用于利用所述阴性样本的所述测序数据建立所述同一批次多个所述样本的批次参考基线,记为所述动态基线。
7.根据权利要求6所述的装置,其特征在于,所述V0获取模块包括:
第一统计模块,用于利用同一批次多个样本各自的测序数据,统计各所述样本的平均覆盖深度;
第一检测模块,用于将各所述样本的平均覆盖深度与静态基线相比,从而检测得到各所述样本对应的所述拷贝数V0;
其中,所述静态基线由检测所述同一批次的多个所述样本之前的阴性样本建立而成。
8.根据权利要求6的装置,其特征在于,所述确定模块包括:
第一确定模块,用于根据各所述样本对应的所述拷贝数V0,将所述拷贝数V0满足第一阈值或第二阈值的样本确定为所述极值样本;
第二确定模块,用于将所述拷贝数V0满足第三阈值的样本确定为所述阳性样本;
优选地,所述第一阈值为大于10,所述第二阈值为小于0.4,所述第三阈值为大于4。
9.根据权利要求6所述的装置,其特征在于,所述动态基线建立模块包括:
第二统计模块,用于利用多个所述阴性样本各自的所述测序数据,统计各所述阴性样本对应的各目标区域的覆盖深度;
均一化模块,用于对各所述目标区域的覆盖深度进行均一化,得到各所述目标区域的区域覆盖深度;
GC矫正模块,用于对各所述目标区域的所述区域覆盖深度进行GC矫正,得到各所述目标区域的矫正区域覆盖深度;
均值模块,用于对多个所述阴性样本的各所述目标区域的所述矫正区域覆盖深度取平均值,得到各所述目标区域的区域平均覆盖深度,记为所述动态基线;
优选地,所述GC矫正模块为LOESS模块。
10.一种检测拷贝数扩增的装置,其特征在于,所述装置包括:
动态基线建立模块,用于获取同一批次多个样本的测序数据,并利用权利要求1至4中任一项所述的方法建立检测拷贝数扩增的动态基线;
第二检测模块,用于利用所述动态基线对所述同一批次中任一所述样本进行拷贝数扩增检测,得到拷贝数V1。
11.一种存储介质,所述存储介质上存储有计算机可执行的程序,其特征在于,所述程序被设置为运行时,执行权利要求1至4中任一项所述的建立检测拷贝数扩增的动态基线的方法,或权利要求5所述的检测拷贝数扩增的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述计算机程序执行权利要求1至4中任一项所述的建立检测拷贝数扩增的动态基线的方法,或权利要求5所述的检测拷贝数扩增的方法。
CN201911329712.7A 2019-12-20 2019-12-20 检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置 Active CN110993022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911329712.7A CN110993022B (zh) 2019-12-20 2019-12-20 检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911329712.7A CN110993022B (zh) 2019-12-20 2019-12-20 检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置

Publications (2)

Publication Number Publication Date
CN110993022A true CN110993022A (zh) 2020-04-10
CN110993022B CN110993022B (zh) 2023-09-05

Family

ID=70073830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911329712.7A Active CN110993022B (zh) 2019-12-20 2019-12-20 检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置

Country Status (1)

Country Link
CN (1) CN110993022B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823353A (zh) * 2021-08-12 2021-12-21 上海厦维医学检验实验室有限公司 基因拷贝数扩增检测方法、装置及可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372459A (zh) * 2016-08-30 2017-02-01 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置
WO2018057770A1 (en) * 2016-09-22 2018-03-29 Illumina, Inc. Somatic copy number variation detection
CN107992719A (zh) * 2017-11-23 2018-05-04 南方医科大学 一种基于高通量测序的膀胱癌检测试剂盒
CN108427864A (zh) * 2018-02-14 2018-08-21 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372459A (zh) * 2016-08-30 2017-02-01 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置
WO2018057770A1 (en) * 2016-09-22 2018-03-29 Illumina, Inc. Somatic copy number variation detection
CN107992719A (zh) * 2017-11-23 2018-05-04 南方医科大学 一种基于高通量测序的膀胱癌检测试剂盒
CN108427864A (zh) * 2018-02-14 2018-08-21 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823353A (zh) * 2021-08-12 2021-12-21 上海厦维医学检验实验室有限公司 基因拷贝数扩增检测方法、装置及可读介质
CN113823353B (zh) * 2021-08-12 2024-02-09 上海厦维医学检验实验室有限公司 基因拷贝数扩增检测方法、装置及可读介质

Also Published As

Publication number Publication date
CN110993022B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN107058551B (zh) 检测微卫星位点不稳定性的方法及装置
CN106462670B (zh) 超深度测序中的罕见变体召集
US11371074B2 (en) Method and system for determining copy number variation
CN108300716B (zh) 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法
CN106715711B (zh) 确定探针序列的方法和基因组结构变异的检测方法
CN106372459B (zh) 一种基于扩增子二代测序拷贝数变异检测的方法及装置
Fujiki et al. Assessing the accuracy of variant detection in cost-effective gene panel testing by next-generation sequencing
WO2018184495A1 (zh) 一步法构建扩增子文库的方法
CN110468189B (zh) 基于单样本二代测序检测样本体细胞变异的方法及装置
CN104133914A (zh) 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN105543380A (zh) 一种检测基因融合的方法及装置
US20230170042A1 (en) Structural variation detection in chromosomal proximity experiments
CN109686404B (zh) 检测样本混淆的方法及装置
CN107077533B (zh) 测序数据处理装置和方法
CN110993022B (zh) 检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置
CN111477277A (zh) 样本质量评估方法和装置
CN110993024B (zh) 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置
Chung et al. Tissue requirements and DNA quality control for clinical targeted next-generation sequencing of formalin-fixed, paraffin-embedded samples: a mini-review of practical issues
CN115954052A (zh) 一种实体瘤微小残留病灶监控位点筛选方法及系统
JP2023060046A (ja) 脱アミノ化に誘導される配列エラーの補正
CN116064818A (zh) 检测igh基因重排及超突变的引物组、方法和系统
WO2021219114A1 (zh) 测序方法及其分析方法和系统、计算机可读存储介质和电子设备
Isakov et al. Deep sequencing data analysis: challenges and solutions
CN111218514A (zh) 一种基于ngs技术的abo基因全长序列测定方法及试剂包
CN109536588A (zh) 检测ffpe样本氧化状态的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant