CN117352050A

CN117352050A - 体细胞拷贝数变化检测

Info

Publication number: CN117352050A
Application number: CN202311358695.6A
Authority: CN
Inventors: 庄涵宇; 赵晨
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2016-09-22
Filing date: 2017-09-21
Publication date: 2024-01-05
Also published as: KR20190058556A; MX2019003344A; CA3037917A1; CA3213915A1; KR20220098812A; CA3214358A1; US20230207048A1; JP6839268B2; RU2019111924A; NZ751798A; AU2021200154B2; RU2019111924A3; EP3516564A1; KR102416441B1; CN110024035B; WO2018057770A1; AU2017332381A1; JP2019537095A; RU2768718C2; AU2021200154A1

Abstract

本文中提出用于评估拷贝数变化的技术。所述技术包含从一组基线样本产生基线，所述基线代表或模仿个别生物样本的假定匹配的样本，所述一组基线样本不与所述个别生物样本匹配。来自这组基线样本的经归一化的测序数据被提供给用户，所述经归一化的测序数据包含感兴趣区的至少一个拷贝数基线。

Description

体细胞拷贝数变化检测

本申请是国际申请日为2017年9月21日、国际申请号为PCT/US2017/052766、国家申请号为201780070781.3、发明名称为“体细胞拷贝数变化检测”的发明专利申请的分案申请。

相关申请的交叉引用

本申请主张2016年9月22日申请的名为“体细胞拷贝数变化检测(SOMATIC COPYNUMBER VARIATION DETECTION)”的第62/398,354号美国临时申请以及2017年1月17日申请的名为“体细胞拷贝数变化检测(SOMATIC COPY NUMBER VARIATION DETECTION)”的第62/447,065号美国临时申请的优先权，其中所述美国临时申请的公开内容出于所有目的以引用方式并入本文中。

背景技术

本公开总的来说涉及与生物样本相关的数据(例如，序列数据)的领域。更明确地说，本公开涉及基于测序数据来确定拷贝数变化的技术。

基因测序已成为基因研究中日益重要的领域，未来很有希望用在诊断和其它应用中。通常，基因测序涉及确定核酸(例如，RNA或DNA的片段)的核苷酸的次序。一些技术涉及全基因组测序，其中全基因组测序涉及分析基因组的综合方法。其它技术涉及基因的子集或基因组的一些区域的靶向测序。靶向测序侧重于感兴趣区域，从而产生较小且较紧凑的数据集。此外，靶向测序降低测序成本和数据分析负担，同时还允许在高覆盖度级别下进行深度测序以检测感兴趣区域中的变体。这些变体的实例可包含体细胞突变、单核苷酸多态性和拷贝数变化。变体的检测可向医师提供关于疾病可能性或易感性的信息。因此，需要改进对测序数据中的变体的检测。

发明内容

本公开提供用于生物样本中的拷贝数变化的检测的新颖手段。如本文所述，拷贝数变化(CNV)是导致一个或更多个基因组区域的异常数量的拷贝的基因组改变。例如重复、增殖、缺失、易位和倒位等结构性基因组重排可导致CNV。如同单核苷酸多态性(SNP)，某些CNV可与疾病易感性相关联。术语“拷贝数变化”在本文中可表示存在于感兴趣检验样本中的核酸序列的拷贝数与预期拷贝数相比的变化。例如，对于人类来说，常染色体序列(以及女性中的X染色体序列)的预期拷贝数是二。其它生物体可根据其基因组结构而具有不同预期拷贝数。拷贝数变化可因重复或缺失所致。在某些实施例中，拷贝数变体表示重复或缺失的至少1kb的序列。在一个实施例中，拷贝数变体可以是至少单个基因尺寸。在另一实施例中，拷贝数变体可以是至少140bp、140到280bp或至少500bp。

在一个实施例中，“拷贝数变体”表示一核酸序列，在该核酸序列中，通过检验样本中的感兴趣序列与该感兴趣序列的预期级别的比较而发现拷贝数差异。如本文所述，从不匹配样本的一组测序数据导出参考样本以产生归一化信息，其中归一化信息允许对个别检验样本进行归一化，以使得可基于经归一化测序数据来确定相对于预期拷贝数的偏差。归一化数据是使用本文所述的技术而产生的，并且允许归一化至与检验样本匹配的假设最具代表性的样本。通过对检验样本进行归一化，由测序引入的噪声或其它偏差被移除。

在某些实施例中，对来自靶向测序进程的原始测序数据覆盖度进行归一化以减少技术噪声和生物噪声来改进CNV检测。在一个实施例中，根据期望测序技术(例如，使用具有探针的测序面板以指向感兴趣区域的靶向测序技术)来对感兴趣样本(例如，福尔马林固定的石蜡包埋样本)进行测序。一旦收集了测序数据，便对测序数据进行归一化以移除噪声，并且随后分析经归一化数据以检测CNV。

在一个实施例中，提供一种对拷贝数进行归一化的方法，包含以下步骤：从用户接收对生物样本中的一个或更多个感兴趣区域进行测序的测序请求；从来自不与生物样本匹配的多个基线生物样本的一个或更多个感兴趣区域获取基线测序数据；使用基线测序数据而确定拷贝数归一化信息，其中拷贝数归一化信息包括一个或更多个感兴趣区域中的某一感兴趣区域的至少一个拷贝数基线；以及将拷贝数归一化信息提供给用户。

在另一实施例中，提供一种检测拷贝数变化的方法，包含以下步骤：从生物样本获取测序数据，其中测序数据包括对于相应多个感兴趣区域的多个原始测序读长计数；以及对测序数据进行归一化以移除区域依存的覆盖度。归一化包括：针对每一感兴趣区域，将生物样本的感兴趣区域中的一个或更多个区段(bin)的原始测序读长计数与基线中值测序读长计数进行比较以产生感兴趣区域中的一个或更多个区段的经基线校正的测序读长计数，其中感兴趣区域中的一个或更多个区段的基线中值测序读长计数是从不与生物样本匹配的多个基线样本导出并仅从每一感兴趣区域的基线测序数据的最具代表性的部分确定；以及从经基线校正的测序读长计数移除GC偏差以产生每一感兴趣区域的经归一化测序读长计数。所述方法还包含基于每一感兴趣区域中的一个或更多个区段的经归一化的测序读长计数而确定每一感兴趣区域中的拷贝数变化。

在另一实施例中，提供一种评估靶向测序面板的方法，包含以下步骤：针对靶向测序面板而识别基因组中的第一多个靶，其中第一多个靶对应于相应多个基因的一些部分；确定第一多个靶中的每一个靶的GC含量；去除第一多个靶中GC含量处于预定范围外的靶以产生少于第一多个靶的第二多个靶；当在去除之后个别基因的靶数量少于对应于该基因的靶对应部分的预定数量时，识别该基因中的额外靶；将额外靶添加到第二多个靶以产生第三多个靶；以及提供测序面板，该测序面板包括专用于第三多个靶的探针。

附图简单说明

图1是根据本技术的用于检测拷贝数变体的方法的概略图；

图2是可结合图1的方法使用的测序装置的框图；

图3是根据本公开的实施例的归一化技术的实例的示意图；

图4示出如本文所述的归一化之前和之后的测序结果的区段概况数据；

图5示出相对于高度退化细胞系和正常细胞系混合物存在于正常FFPE样本中的噪声；

图6是示出在不同样本类型之间基线相关性不好的一组图表；

图7示出可应用到来自非匹配样本的基线参考测序数据以移除坏区段而产生用于归一化的基线的一种或更多种类型的区段过滤的实例；

图8示出用于使用来自非匹配正常样本的基线参考测序数据而识别代表性基线的分层聚类；

图9示出通过线性回归进行基线校正以移除噪声的结果，其中c1和c2是从分层聚类学习的两个代表性基线；

图10示出样本S1、S2、S3和S4之间的可变的且样本依存的GC偏差；

图11示出包含使用输入数据A并产生图表D中的经校正数据的基线和GC偏差校正的归一化，其中A到B表示使用经训练算法的基线的线性回归，并且B到C表示产生代表样本的GC偏差的经拟合曲线，并且C到D表示将经拟合曲线整平以从样本移除GC偏差；

图12示出在归一化之前和之后的结果，包含ERBB2的序列区段；

图13示出差异倍数检测是独立于所使用的基线而稳定的，其中跨越340个FFPE样本，R²＝0.99；

图14示出如本文所述的归一化技术与针对许多感兴趣区域(包含EGFR、ERBB2、FGFR1、MDM2、MET和MYC)使用面板而检验的22个FFPE样本的ddPCR之间的高一致性；

图15示出针对EGFR使用如本文所述的归一化技术得到的结果以及无对照样本而得到的结果的比较；

图16示出使用如本文所述的归一化技术得到的结果以及具有0.0202的成对的t检验p值的匹配的正常样本而得到的结果的中值绝对偏差比较，

图17示出了差异倍数比较，其具有在通过如本文所述的归一化技术(y轴)与匹配的正常样本(x轴)之间的所检测的差异倍数(FC)比较；

图18示出使用如本文所述的归一化技术而检测的KIT变体；

图19示出使用替代主要成分分析技术而检测的KIT变体；

图20示出使用如本文所述的归一化技术而检测到的BRCA2变体；

图21示出使用替代主要成分分析技术而未能检测到的BRCA2变体；

图22是针对实例基因的探针设计的示意图，其中示出了多个区段区域；

图23是基于片段的区段计数(而不是读长计数)的示意图；

图24是区段名称和特性的表格；

图25是探针的靶尺寸分布的图表；

图26示出基因中值绝对分布以及与靶数和靶的GC含量的比较；

图27示出FFPE样本的性别分类以及染色体Y覆盖度的存在；

图28示出具有覆盖度增强子与不具有覆盖度增强子的情况下的探针覆盖度的比较；

图29示出各种基因的探针覆盖度的概述；以及

图30示出所检测的拷贝数变化的图形用户界面的实例。

具体实施方式

本技术涉及为实现改进的体细胞拷贝数变化(CNV)检测而对测序数据的分析和处理。CNV检测通常因为在样本保存、库制备或测序期间引入的各种类型的偏差而变得困难。在不存在偏差的情况下，读取深度/覆盖度在二倍体区域的基因组之间应当是统一的，并且针对拷贝数增益(损失)区域而成比例地较高(较低)。在存在偏差的情况下，至少针对受偏差作用的基因组的区域，此假设不再有效。例如在CNV检测之前首先移除偏差或对数据进行归一化会实现较准确的CNV访问，如本文所述。

本文中提供产生个别生物样本的参考基线的技术，其中参考基线适用于在评估代表基因组中的一个或更多个感兴趣区域的拷贝数改变的变化之前对测序数据进行归一化。所公开的技术提供参考或归一化信息，而不依赖于来自个体(从该个体获得检验样本)的匹配的样本，以对检验样本进行归一化。虽然其它技术可使用患者自身的组织以产生参考，但使用取自与生物样本相同的个体的匹配的样本具有某些难度。例如，样本收集(样本质量、所选择的组织部位)的变化可表示参考样本不真正代表正常组织。此外，只要影响测序数据的偏差的引入可在样本之间变化，匹配的参考样本便相对于检验样本具有不同级别的所引入的偏差，这转而可导致不准确性以及不适当地归一化的数据。此外，并不是所有检验样本都具有可用的匹配的组织或足够高质量的匹配的组织来进行测序。

因此，所公开的技术通过产生具有减小的偏差的归一化信息并在不使用匹配的样本的情况下有助于较准确的拷贝数差异评估。归一化信息可用于在个别样本中的CNV检测之前将一组测序数据归一化。归一化信息是使用一组或一群不匹配的参考基线生物样本而产生。从这组不匹配的参考基线生物样本产生的测序数据则用于产生代表最典型的假定的匹配的参考样本的归一化信息。也就是说，归一化信息表示虚拟的经校准的黄金标准参考，其中任何个别检验样本可相对于所述虚拟的经校准的黄金标准参考来归一化。

在某些实施例中，可使用完整基因组测序技术来检测CNV。然而，这些技术昂贵，并且涉及产生可能处于感兴趣区域外的数据。在其它实施例中，使用靶向测序技术以检测CNV较便宜，并且与较快周转时间相关联。在靶向测序中，靶向探针用于从用于测序的样本DNA下拉感兴趣区域；所使用的探针可取决于感兴趣区域和期望检测结果而变化。然而，来自靶向测序进程的测序数据的覆盖度可由于基因组中的感兴趣区域(例如，靶序列)的变化的特性、探针和样本自身的质量而变化。例如，专用于较大靶(例如，较长外显子)的探针将通常相比用于较小靶的探针具有较多读长或覆盖度。在另一实例中，生物样本中的DNA的降级区域将具有较少读长。在又一实例中，感兴趣的富GC区域或贫GC区域将具有覆盖度变化，其中覆盖度变化可以是非线性的。因此，来自靶向测序进程的测序数据的覆盖度的可变性可引入噪声，所述噪声基于覆盖度/读取深度对CNV检测的准确性形成干扰。

表1示出存在于富集数据中的常见类型的测序偏差/噪声。例如，不同探针可具有不同下拉效率，因此跨越不同区域产生不均匀的覆盖度(基线效果)。覆盖度也可以是GC依存的，即，具有低或高GC含量的区域通常具有较低覆盖度。此外，覆盖度可受福尔马林固定石蜡包埋(FFPE)样本质量或样本类型影响。全部上述非自然现象使扩增检测变得困难。CNV稳健分析旨在在CNV访问之前移除这些偏差(即，使用数据归一化)。

偏差来源	解释
		测序深度	样本间变化
靶尺寸	较大靶引起较多读长
		PCR复本	读长级别
探针下拉效率	专门针对序列内容
		GC偏差	专门针对靶的非线性效果
DNA质量	降级

表1：生物样本中的偏差来源

所公开的技术利用参考正常样本的面板以省去在肿瘤样本的读长计数归一化中使用匹配的正常样本的需要。具体来说，序列读长计数偏差与检验样本的组织类型和DNA质量很强程度地相关，即使未曾强过它，也与样本的种系遗传学的影响相当。因此，通过表示不同组织类型和不同DNA质量的各种各样的参考正常样本，硅中CRAFT(CRAFT in silicon)经由所有参考正常样本的线性组合而将“虚拟”匹配的正常样本组装到检验肿瘤样本。

所述参考正常样本的面板经历数据驱动式聚类过程以形成读长计数基线。每一参考基线代表某组织类型、DNA质量以及关于读长计数偏差的其它系统背景，而不是基因组中的真实拷贝数改变。针对检验样本，对样本读长计数数据执行参考基线的线性回归以确定每一基线的系数。每一检验样本得到唯一一组系数，从而模仿虚拟匹配的正常样本。当用户通过特定测序面板来获取测序数据时，用户可使用所述系数而将所获取的测序数据归一化。在一个实施例中，可经由线性组合来应用系数以针对特定感兴趣区域(例如，基因)而产生经加权的拷贝数值。

因此，所公开的技术消除或减少由测序偏差导致的拷贝数变化评估误差。图1是示出使用如本文所述的归一化技术在终端用户与供应商之间的互动的流程图10。所描绘的流程图10是在靶向测序面板的背景下呈现。然而，应理解，也可在完整基因组测序反应的背景下发生类似互动。

在步骤12中，用户获取用于评估的感兴趣生物样本。生物样本可以是组织样本、流体样本或含有基因组或基因组DNA的至少一部分的其它样本。在某些实施例中，生物样本是新鲜的、冷冻的或使用例如FFPE等标准组织病理学防腐剂而保存。生物样本可以是检验样本，或可以是用于产生归一化信息的内部样本。在使用靶向测序面板来评估生物样本的实施例中，用户将靶向测序请求传输到供应商，其中所述请求包括基于样本的基因组DNA中感兴趣的期望区域所选择的预先存在的测序面板和/或定制的测序面板。所述请求可包含客户信息、生物样本生物体信息、生物样本类型信息(例如，识别样本是新鲜的、冷冻的还是保存的信息)、组织类型和期望的测序测定类型。所述请求可还包含测序面板的期望探针的核酸序列和/或基因组中的感兴趣区域的核酸序列，其中所述感兴趣区域可由供应商使用以设计和/或产生靶向测序面板的探针。

供应商在步骤14中接收请求，并在步骤16中基于指定的探针组和/或指定的感兴趣区域(例如，区段)而产生将用于测序的探针。在某些实施例中，针对预先存在的测序面板，可在步骤14中接收请求之前产生探针并将其保持在库存中。在步骤20中，将探针提供给用户，并且在步骤22中的任何相关样本制备之后，在步骤24中，将探针用于对生物样本进行测序。在步骤26中，用户从测序获取测序数据。

在步骤28中，当用户选择靶向测序面板的探针时，探针也用于对一组非匹配样本(例如，不与生物样本匹配或不来自与生物样本相同的个体的其它生物样本)的基线测序反应，以获取基线测序数据。在步骤30中，基线测序数据用于产生归一化信息，在步骤32中，归一化信息被提供到用户。在步骤34中，使用归一化信息，用户对检验样本的测序数据进行归一化并随后分析生物样本的所获取的测序数据，以识别包含在靶向测序面板中的位置的拷贝数变体。也就是说，在有助于仅对基因组的一部分进行测序的靶向测序面板的背景下，可仅识别存在于经测序部分中的拷贝数变体。这与完整基因组应用形成对比，在完整基因组应用中，可根据本技术来识别遍及完整基因组的拷贝数变体。

在步骤36中，响应于识别拷贝数变体，可将输出提供给用户。所述输出可包含所显示的图形用户界面(参见图30)，其中所显示的图形用户界面包含基因组中的特定位置处的拷贝数的图形图标。

用户可以是供应商的测序服务的外部或内部用户。例如，可执行流程图10的步骤，作为校准或产生任何新靶向测序面板产品的一部分，其中所述校准或产生可还包含用于定制测序面板的外部请求。给定的靶向测序面板将与基于由面板探针指向的感兴趣区域的特定偏差趋势相关联。此偏差可对拷贝数变化的准确评估形成干扰。因此，可在设计、修改或更新包含探针组的任何靶向测序面板时执行流程图10的步骤。在另一实施例中，如果用户请求包含基因组中的感兴趣区域，那么可使用所公开的技术而产生并评估包含探针组的面板以产生归一化信息。可使用一组度量而评估归一化信息。如果所述度量指示所述面板产生不良的归一化信息，那么可丢弃所述面板并重新设计所述探针(例如，在任一方向上平移50bp)。可使用流程图50的步骤来检验新探针，直到获得高质量归一化信息为止。在一个实施例中，通过在识别内部样本中的拷贝数变体之前应用归一化信息而获得所述度量。如果跨越经测序区域的所识别拷贝数变体偏离预期分布，那么可提供指示应触发新测序面板(例如，探针重新设计)的输出。预期分布可与拷贝数变体的可能分布相关联。例如，大多数变体在任一方向上处于两倍改变或三倍改变以内。如果内部样本被示出为具有10倍或更高的变体的大于预期的分布，那么所分析的样本可被指示为偏离预期分布。

在使用归一化信息对通过对生物样本进行测序而产生的测序数据归一化之后，可分析该测序数据以对任何拷贝数变化进行表征。应理解，生物样本测序数据和基线测序数据可以是原始数据、碱基访问数据或已经历一次分析或二次分析的数据的形式。

此外，应理解，CNV可被识别为基因的一部分、基因内区域等。也应理解，CNV检测可与所重复或所缺失的序列相关联。因此，CNV检测可表示核酸区域(例如，包含一个或更多个基因的区域)的重复拷贝。在一个实施例中，CNV是至少1kb尺寸的所重复或所缺失的基因组区域。

测序覆盖度描述与已知参考碱基对准或“覆盖”已知参考碱基的测序读长计数的平均数。覆盖度级别通常确定是否可在特定碱基位置处以某置信度进行变体发现。在较高覆盖度级别下，每一碱基由较大数量的经对准序列读长覆盖，因此可按较高置信度进行碱基访问。读长在完整基因组上不是均匀地分布的，这仅仅是因为读长仅按随机且独立的方式对基因组采样。因此，许多碱基将由比平均覆盖度少的读长覆盖，而其它碱基将由比平均数多的读长覆盖。这由覆盖度度量来表达，其中覆盖度度量是已对基因组进行测序的次数(测序深度)。针对靶向重新测序，覆盖度可表示对区域进行测序的次数。例如，针对靶向重新测序，覆盖度表示对基因组的靶向子集进行测序的次数。所公开的实施例解决因偏差所致的测序覆盖度中的噪声。

图2是可结合图1的用于获取用于对拷贝数变化进行评估的测序数据(例如，检验样本测序数据、基线测序数据)的流程图的步骤而使用的测序装置60的示意图。测序装置60可根据任何测序技术来实施，例如，包含第2007/0166705号美国专利公开、第2006/0188901号美国专利公开、第2006/0240439号美国专利公开、第2006/0281109号美国专利公开、第2005/0100900号美国专利公开、第7,057,026号美国专利、WO 05/065814、WO 06/064199、WO07/010,251所述的合成测序方法的测序技术，其中所述专利文献的全部公开内容以引用方式并入本文中。或者，连接测序技术可用于测序装置60中。这些技术使用DNA连接酶以掺入寡核苷酸并识别这些寡核苷酸的掺入，并且描述在第6,969,488号美国专利、第6,172,218号美国专利和第6,306,597号美国专利中，其中所述美国专利的全部公开内容以引用方式并入本文中。一些实施例可利用纳米孔测序，其中靶核酸链或从靶核酸外切移除的核苷酸穿过纳米孔。随着靶核酸或核苷酸穿过纳米孔，每一类型的碱基可通过测量孔的电导率的波动来识别(第7,001,792号美国专利；Soni和Meller，《美国临床医学》第53期，第1996到2001页(2007)；Healy，《纳米医学》第2期，第459到481页(2007)；以及Cockroft等人，《美国化学会志》第130期，第818到820页(2008)，其中所述文献的全部公开内容以引用方式并入本文中)。又一些其它实施例包含在将核苷酸掺入到延伸产物后释放的质子的检测。例如，基于所释放的质子的检测的测序可使用可从Ion Torrent公司(康州吉尔福德，LifeTechnologies子公司)购得的电气检测器和相关联的技术或US 2009/0026082 A1、US2009/0127589 A1、US 2010/0137143 A1或US 2010/0282617 A1所述的测序方法和系统，其中所述文献中的每一个的全部公开内容以引用方式并入本文中。特定实施例可利用涉及DNA聚合酶活性的实时监视的方法。核苷酸掺入可经由带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或通过如例如以下文献所述的零模波导来检测：Levene等人，《科学》第299期，第682到686页(2003)；Lundquist等人，《光学快报》第33期，第1026到1028页(2008)；Korlach等人，《美国国家科学研究院期刊》第105期，第1176到1181页(2008)，其中所述文献的全部公开内容以引用方式并入本文中。其它适当替代技术包含例如荧光原位测序(FISSEQ)和大规模并行签名测序(MPSS)。在特定实施例中，测序装置16可以是购自Illumina公司(加州拉霍亚)的HiSeq、MiSeq或HiScanSQ。

在所描绘的实施例中，测序装置60包含独立样本处理装置62和相关联的计算机64。然而，如上所述，这些装置可实施为单个装置。此外，相关联的计算机64可处于样本处理装置62本地或与样本处理装置62联网。在所描绘的实施例中，生物样本可作为样本载玻片70而装载到样本处理装置62中，其中样本载玻片70被成像以产生序列数据。例如，与生物样本相互作用的试剂响应于由成像模块72产生的激发光束而在特定波长下发出荧光，并因此返回辐射以进行成像。例如，荧光成分可由带有荧光标签的核酸产生，其中所述带有荧光标签的核酸杂交到所述成分的互补分子或杂交到使用聚合酶而掺入到寡核苷酸中的带有荧光标签的核苷酸。如本领域的技术人员应了解的是，样本的染料被激发的波长以及它们发出荧光的波长将取决于具体染料的吸收光谱和发射光谱。这些返回的辐射可经由引导光学器件而向回传播。这些向后光束可大体上被引导向成像模块72的检测光学器件。

成像模块检测光学器件可基于任何适当技术，并且可例如是基于光子撞击装置中的多个位置而产生像素化图像数据的电荷耦合装置(CCD)传感器。然而，应理解，也可使用各种其它检测器中的任一个，包含(但不限于)被配置成进行时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、盖革模式光子计数器或任何其它适当检测器。TDI模式检测可与线扫描耦合，如第7,329,860号美国专利所述，其中所述美国专利以引用方式并入本文中。其它有用的检测器例如在各种核酸测序方法的背景下在本文中先前提供的参考文献中予以描述。

成像模块72可例如经由处理器74而处于处理器控制下，并且样本接收装置18可还包含I/O控制装置76、内部总线78、非易失性存储器80、RAM 82和任何其它存储器结构，以使得存储器能够存储可执行指令，并且可还包含可类似于关于图2所述的硬件部件的其它适当硬件部件。此外，相关联的计算机20可还包含处理器84、I/O控制装置86、通信模块84以及包含RAM 88和非易失性存储器90的存储器架构，以使得所述存储器架构能够存储可执行指令92。硬件部件可由内部总线94联系，其中内部总线94可还联系到显示器96。在测序装置实施为一体化装置的实施例中，可省去某些多余的硬件元件。

本技术有助于检测或访问生物样本(例如，肿瘤样本)中的CNV，而不首先将测序数据归一化为匹配的测序数据。所述技术使用预处理步骤以产生清单文件和基线文件，其中所述清单文件和基线文件用作归一化步骤的输入参数。清单文件和基线文件独立于感兴趣样本的分析并先于感兴趣样本的分析而产生以确定拷贝数变化。清单文件和基线文件是从非匹配的样本(即，非匹配的正常样本)产生并经由如本文所述的基线产生技术而确定。可对非匹配的正常样本执行基线产生，并且将基线产生的结果作为基线信息(或归一化信息)存储以由归一化技术的可执行指令访问。例如，具有感兴趣样本的用户可执行一个或更多个CNV的分析。在某些实施例中，在产生和存储之后，基线信息用于不同和/或后续时间点的多个感兴趣样本的分析。用户可基于对应于基线信息的测序面板而访问所存储的文件。

在一个实施例中，针对特定测序面板，拷贝数归一化信息一旦产生，便是固定的。也就是说，拷贝数归一化信息与测序面板的特定探针相关联，并且由供应商存储并发送到特定测序面板的用户。不同测序面板具有不同拷贝数归一化信息。在另一实例中，CNV访问软件包可存储多个不同拷贝数归一化信息，其中所述多个不同拷贝数归一化信息各自与不同测序面板相关联。用户可基于用于获取测序数据的测序面板而选择适当归一化信息。或者，测序装置60可基于由用户输入的与所使用的测序面板相关的信息而自动获取适当拷贝数归一化信息。如果拷贝数归一化信息由供应商改进，那么CNV访问软件包也能够从远程服务器接收更新。

如图3所概述，体细胞拷贝数变化检测的问题通过以下方式来解决：使用分层聚类方法而识别代表性基线覆盖度行为并且接着利用线性回归和局部加权回归以进行数据归一化。所述技术包含配置100(例如，算法训练)、感兴趣样本的归一化102以及提供输出或统计104，例如，以个别基因为基础的拷贝数差异倍数和T-stat。例如，FC是感兴趣基因的中值与基因组中值之间的比。T-stat可以是与基因组的剩余部分相比的感兴趣基因的区段计数分布(例如，针对二倍体生物体)。

预处理(算法训练)可包含以下步骤：

1.区段/外显子选择110：从一组训练正常样本(例如，FFPE正常样本)计算每一区段的中值、中值绝对偏差、GC含量和尺寸(参见图7)。接着，在清单文件中，将具有低中值、大MAD、极端GC含量和小尺寸的区段标记为坏区段。仅小百分比(～5％)的区段受此步骤影响。例如，如图6所示，所使用的过滤参数是：

中值>0.25

CV：(0,2)

GC：(0.25,0.8)

靶尺寸：>20bp

2.从基线或正常样本(例如，FFPE正常样本)的基线产生112：来自不同组织类型或具有不同DNA质量的样本可具有截然不同的基线行为。因此，多个基线用于校正基线效果。在一个实例中，来自每一组织类型的4到5个正常FFPE样本用于确定每一区段的中值行为以表示不同组织类型。为了产生基线，分层聚类用于识别反映正常样本群中的多个潜在覆盖度行为的代表性群组。参见图8。聚类与样本质量相关。一旦识别了聚类，每一区段的中值便用于产生基线文件，该基线文件将用于后续归一化。也就是说，每一聚类中的中值区段计数被视为基线。通过使用聚类方法，正常样本中的“最具代表性的”行为用于下游归一化。

在使用上文产生的参考基线进行的基线或归一化(应用到所评估的样本)之后，新样本通过靶尺寸和中值区段计数而被定标到归一化信息114。

1.基线校正116：针对新样本，将其区段计数建模为基线的线性组合：Y～c1+c2+c3。由于新样本中的可能的CNV，首先从Y移除异常值，并关于移除异常值后的值而建立线性模型。在某些实施例中，异常值被屏蔽。在其它实施例中，仅移除或屏蔽极端异常值。接着，Y和线性模型预测的比被用作经基线校正的值。高出或低出3个标准偏差的区段计数被视为异常值。

Lm(Y[good.idx]～c1[good.idx]+c2[good.idx]+c3[good.idx])

Y_new～Y/predict(lm,data＝ALL)

2.在步骤1之后进行强健局部加权回归118，以移除GC偏差。

3.针对每一基因，通过比较该基因的中值区段值与基因组中值而计算该基因的差异倍数124。也可确定额外统计，例如，每一基因的t-stat 126。

图4示出跨越多个区段的如本文所述的归一化之前和之后的测序结果的区段概况数据。存在于“之前”结果中的噪声如“之后”结果所示而减小。噪声妨碍了拷贝数变体的准确访问。图5示出相对于高度退化细胞系和正常细胞系混合物存在于正常FFPE样本中的噪声。存在于数据中的噪声对准确CNV访问形成干扰。此外，噪声存在于变化的质量的样本中。然而，在不同样本类型之间的基线相关性是低劣的。因此，本技术允许进行样本类型的用户输入以选择适当归一化信息。

图9示出通过线性回归进行基线校正以移除噪声的结果，其中c1和c2是从分层聚类学习的两个代表性基线。如图10所示，GC偏差是专门针对样本的。总的来说，极低GC或极高GC区域在读长中是代表性不足的。一些样本具有比其它样本大的曲率。图11是逐步手段的归一化步骤的图示。(A)由于大基线效果，在外显子计数与GC之间不存在可见的关系。(B)在基线校正之后，在计数与GC之间存在可见负面趋势。(C)识别异常值，并在移除了异常值的数据上进行局部加权回归拟合。(D)在移除GC偏差之后，得到最终归一化结果。

图12示出在归一化之前和之后的结果，所述结果包含ERBB2基因的序列区段。“之后”结果展示出经由如本文所述的归一化而导致的噪声的显著减小。图13示出差异倍数检测是稳定的，与所使用的基线无关，其中跨越340个FFPE样本，R²＝0.99。图14示出针对许多感兴趣区域(包含EGFR、ERBB2、FGFR1、MDM2、MET和MYC)如本文所述的归一化技术与跨越使用面板而检验的22个FFPE样本的ddPCR之间的高一致性。

图15是如本文所使用的归一化技术与基线或无对照方法的比较。无对照方法不需要任何额外的对照或正常样本来进行归一化。无对照方法实际上依赖于检验样本自身来进行数据归一化。与本文所使用的归一化技术相比，无对照方法倾向于就所测量的差异倍数(FC)值来说低估基因扩增级别。此外，将无对照方法应用在正常检验样本上展示出，FC可变性远大于本归一化技术，这导致较高空白极限(LoB)。总的来说，相比如本文所述的归一化技术，无对照方法不太灵敏也不太有针对性。在图15中，Y轴表示无对照方法的内部实施方案，并且X轴是本文所述的归一化技术的实施例。与归一化技术相比，无对照方法倾向于低估差异倍数值。

图16示出使用如本文所述的归一化技术得到的结果与具有0.0202的成对t检验p值的匹配的正常样本得到的结果的中值绝对偏差比较。图17示出差异倍数比较，也就是通过如本文所述的归一化技术(y轴)与匹配的正常样本(x轴)之间的所检测的差异倍数(FC)比较；

图18到图21示出如本文所述的归一化技术与XHMM——即基于机器学习PCA手段的CNV方法(其不需要匹配的正常样本)——之间的比较。在数据归一化之后，其使用分段方法以访问样本内的CNV。关于15个CNV样本使用下载的程序进程而获得针对XHMM示出的结果，并将其与归一化技术比较。XHMM检测到15个扩增中的10个，而归一化技术检测到14CNV中的14个，其中1个没有访问。基于该结果，相比XHMM，归一化技术具有较高灵敏度。

本发明的技术不使用或不需要匹配的正常样本来执行归一化。实际上，本文中的归一化技术使用非匹配正常样本以产生参考基线，从该参考基线检测到差异倍数。在某些实施例中，多个正常样本用于确定参考基线，并且多个样本的测序数据的聚类被执行以确定最具代表性的正常区段。因此，以每区段为基础而不是以每样本为基础而评估参考基线值。此外，本技术在历史正常样本中掺入不止一个基线行为值。本技术利用线性回归以进行基线校正，并利用局部加权回归以进行GC校正。所得到的结果在R2 DVT研究(包含某些无访问)中包含100％灵敏度。

与其它技术相比，就LoB和LOD来说，相比无对照，如本文所述的归一化产生较好性能。此外，相对于使用匹配的正常样本的技术(其需要额外的样本处理)，归一化是较经济的。使用归一化进行的CNV访问是较经济的，这是因为测序成本不包含用于对匹配的正常样本进行测序的成本。因此，测序装置的测序进程和操作是较有效的。例如无参考手段等其它手段由于探针下拉效果而不产生高质量结果。针对某些样本类型，使用SVD分解或PCA的统计技术也不产生高质量结果和/或具有有限适用性。

在特定实施例中，如本文所述的区段是基因组的感兴趣的相邻核酸区域。区段可以是外显子的、内含子的或基因内的。区段或区段区域可包含变体，并且因此，大体上表示基因组的位置或区域，而不是固定核酸序列。区段计数是在片段级别下进行，而不是在读长级别下进行。例如，如图22所示，基因A和B可具有指向各个区段(阴影区域)的各种探针。图23是基于片段而不是基于读长的区段计数的示意图。与区段重叠的片段有助于对此区段的区段计数。单个片段可有助于对多个区段的区段计数。因此，针对每一片段，发现了与之重叠的所有靶。执行读长过滤以确定适当对准的对、非PCR复本、正链(用于避免重复计数)和MAPQ>20。

在某些实施例中，可改进探针靶选择以减少测序数据中的噪声的引入。例如，在一种技术中，如下面列出的那样进行探针选择：针对每一基因，识别GC含量介于0.3与0.8之间的靶的数量。如果靶的数量小于20，那么识别未由当前探针设计覆盖的区域。产生尺寸为140bp的相等间隔的窗口，并计算每一窗口的GC和可映射性(75mer)。通过可映射性和GC含量而选择最好的K个窗口。针对用于性别分类的Y染色体，随机选择可映射性为1并且GC介于0.4与0.6之间的40个区域。图24是实例区段名称和特性的表格，其指示所检查的区段的开始位点和结束位点、GC含量以及某些基因的确定的质量。

图25是探针的靶尺寸分布的图表。图26示出基因中值绝对分布以及与靶数和靶的GC含量的比较。在一个实施例中，20个好靶(30％到80％的GC)足以使gDNA样本中的基因MAD稳定化(中图)。

在一个实例中，探针组2C中的170个基因中的116个具有不到20个靶。选择1042个额外靶。49个扩增基因中的31个具有不到20个靶。选择350个额外靶。针对Y染色体，对于性别分类选择40个靶。总的来说，为了以至少20个靶/基因覆盖所有49个扩增基因，将390个额外靶(140bp窗口)添加到探针组2C。FGF4、CKD4和MYC仍由于小基因尺寸而具有不到20个靶。某些基因的基因靶示出在表2中。

基因	CEBPA	FGF4	FOXL2	CDK4	MYC	CD79B	HRAS	CD79A	VHL
										靶	8	9	10	12	15	16	16	17	18

表2：基因靶

图27示出29个FFPE样本的性别分类以及染色体Y覆盖度的存在。染色体Y在右图中由箭头指示。

图28示出具有覆盖度增强子与不具有覆盖度增强子的情况下的探针覆盖度的比较；图29示出各种基因的探针覆盖度的概况。

所公开的技术的实施例包含图形用户界面，该图形用户界面用于显示拷贝数变化信息并提供输出或指示、使用和/或接收用户输入。图30是图形用户界面200的实例。例如由处理器(参见图2)执行归一化技术导致显示CNV信息。所显示的CNV信息(包含沿着一轴线的变体号)是后归一化。也就是说，在已发生归一化之后，针对拷贝数变体而分析所获取的测序数据的拷贝数。因此，图形用户界面200显示经归一化CNV信息。

所公开的实施例的技术效果包含生物样本中的CNV的改进的且较准确的确定。拷贝数变体可与遗传性疾病、癌症发展或其它不良临床状况相关联。因此，改进的CNV检测可允许测序数据将较丰富且较有意义的信息提供给医师。此外，所公开的CNV评估技术可结合仅对基因组的一部分进行测序的靶向测序技术而使用。以此方式，可从较有效的测序策略识别CNV。如本文所述的归一化技术解决影响测序覆盖度计数的引入到测序数据中的偏差。

虽然仅在本文中说明和描述本公开的某些特征，但对于本领域的技术人员来说，将清楚许多修改和改变。因此，应理解，随附权利要求书希望涵盖落入本公开的真实精神内的所有这些修改和改变。

Claims

1.一种检测拷贝数变化的方法，包括：

从生物样本获取测序数据，其中所述测序数据包括相应多个感兴趣区域的多个原始测序读长计数；

对所述测序数据进行归一化以移除取区域依存的覆盖度偏差，其中所述归一化包括：

针对每一感兴趣区域，将所述生物样本的感兴趣区域中的一个或更多个区段的原始测序读长计数与基线中值测序读长计数进行比较以产生所述感兴趣区域中的所述一个或更多个区段的经基线校正的测序读长计数，其中所述感兴趣区域中的一个或更多个区段的所述基线中值测序读长计数是从不与所述生物样本匹配的多个基线样本导出的并仅从每一感兴趣区域的所述基线测序数据的最具代表性的部分确定；以及

从所述经基线校正的测序读长计数移除GC偏差以产生每一感兴趣区域的经归一化的测序读长计数；以及

基于每一感兴趣区域中的所述一个或更多个区段的所述经归一化的测序读长计数而确定每一感兴趣区域中的拷贝数变化。

2.根据权利要求1所述的方法，其中每一感兴趣区域包括单个区段。

3.根据权利要求1所述的方法，其中每一感兴趣区域包括多个区段，并且其中所述基线中值测序读长计数是跨越所述多个区段的中值。

4.根据权利要求1所述的方法，其中所述方法不包括从匹配的生物样本获取测序数据。

5.根据权利要求1所述的方法，其中所述方法是无对照的。

6.根据权利要求1所述的方法，包括基于每一感兴趣区域中的所述拷贝数变化而确定所述生物样本的临床状态。

7.根据权利要求6所述的方法，其中所述生物样本是体细胞样本，并且其中所述临床状态包括肿瘤或正常状态的指示。

8.根据权利要求1所述的方法，其中每一感兴趣区域的所述基线中值测序读长计数是通过将所述基线测序数据聚类而确定的。

9.根据权利要求1所述的方法，其中第一感兴趣区域的第一基线中值序列覆盖度计数是从所述多个基线样本的第一子集导出，并且其中第二感兴趣区域的第二基线中值序列覆盖度计数是从所述多个基线样本中不同于所述第一子集的第二子集导出。

10.根据权利要求1所述的方法，包括在对所述测序数据进行归一化之前移除或屏蔽所述测序数据中的异常区段。

11.根据权利要求1所述的方法，其中对所述测序数据进行归一化包括在移除或屏蔽所述异常区段之后，将局部加权回归应用到所述测序数据以将所述测序数据拟合到曲线。

12.根据权利要求1所述的方法，其中所述区域依存的偏差包括GC偏差、PCR偏差或DNA质量偏差中的一个或更多个。

13.一种评估靶向测序面板的方法，包括：

针对靶向测序面板而识别基因组中的第一多个靶，其中所述第一多个靶对应于相应多个基因的部分；

确定所述第一多个靶中的每一个靶的GC含量；

消除所述第一多个靶中GC含量处于预定范围外的靶以产生少于所述第一多个靶的第二多个靶；

当在所述消除之后个别基因具有少于对应于所述个别基因的部分的预定数量的靶时，识别所述个别基因中的额外靶；

将所述额外靶添加到所述第二多个靶以产生第三多个靶；以及

提供包括专用于所述第三多个靶的探针的测序面板。