CN111462816B

CN111462816B - 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质

Info

Publication number: CN111462816B
Application number: CN202010245571.7A
Authority: CN
Inventors: 王凯; 张水荣; 王钎; 王傲迪
Original assignee: Origimed Technology Shanghai Co ltd
Current assignee: Origimed Technology Shanghai Co ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-05-20
Anticipated expiration: 2040-03-31
Also published as: CN111462816A

Abstract

本公开涉及一种用于检测胚系基因微缺失微重复变异的方法、电子设备和计算机存储介质。该方法包括：将探针区域打断至预定长度的多个片段探针区域；获取待测样本的测序序列与参考基因组序列的第一比对结果信息；获取对照样本测序序列与参考基因组序列第二比对结果信息；基于第一比对结果信息和第二比对结果信息，确定待测样本和对照样本关于相同片段探针区域的测序深度相对变化值；以及基于测序深度相对变化值与预定值的比较，确定关于待测样本的胚系基因微缺失微重复变异的检测结果。本公开能够准确并高效率地检测到微缺失微重复。

Description

用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质

技术领域

本公开总体上涉及生物信息处理，并且具体地，涉及用于检测胚系基因微缺失微重复变异的方法、电子设备和计算机存储介质。

背景技术

基因拷贝数变异(copy number variation。CNV)是一定尺度DNA片段的缺失或扩增。微缺失微重复(Microdeletion/duplication，简称Microdel/dup)变异是指染色体上出现缺失或增加的小片段的变异，其包括一个基因的若干个外显子的缺失或增加、或者整个基因的缺失或增加。当人体的生殖系发生某个基因的若干个外显子的缺失或增加时，通常认为该变异是有害的，可能会造成罹患肿瘤的风险增加，后代遗传到该变异的几率约50％-100％左右。例如，在家族性乳腺癌、卵巢癌中，往往存在胚系(血液)的微缺失微重复。因此准确的检测结果能够为患者的靶向治疗及肿瘤风险评估提供有价值的参考。

传统的用于检测基因拷贝数变异的方案，例如包括两种，一种是基于目标区域二代测序(tNGS，targeted next generation sequence)数据的缺失扩增检测技术，另一种是基于多重连接依赖式探针扩增技术(MLPA，Multiplex ligation-dependent probeamplification)的缺失扩增检测技术。前者能够准确地检测出大片段(例如1Kb-3Mb)的缺失扩增，但对于微缺失微重复的检测效果准确度低下，甚至无法检测，例如无法检测到50bp-300bp的微缺失微重复。后者则需要依赖进口的MRC-HOLLAND试剂盒来进行杂交，变性、连接、PCR及毛细管电泳分析等一系列操作，因此，每一次检测仅能检测一个基因，因而需要花费大量的时间，例如5天左右。

综上，传统的用于检测基因拷贝数变异的方案存在无法准确并且高效率地检测到微缺失微重复的不足之处。

发明内容

本公开提供一种用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质，能够准确并高效率地检测到微缺失微重复。

根据本公开的第一方面，提供了一种用于检测胚系基因微缺失微重复的方法。该方法包括：将探针区域打断至预定长度的多个片段探针区域；获取待测样本的测序序列与参考基因组序列的第一比对结果信息；获取对照样本测序序列与参考基因组序列第二比对结果信息；基于第一比对结果信息和第二比对结果信息，确定待测样本和对照样本关于相同片段探针区域的测序深度相对变化值；以及基于测序深度相对变化值与预定值的比较，确定关于待测样本的胚系基因微缺失微重复变异的检测结果。

根据本发明的第二方面，还提供了一种计算设备，该设备包括：存储器，被配置为存储一个或多个计算机程序；以及处理器，耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令，该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

图1示出了根据本公开的实施例的用于实施检测胚系基因微缺失微重复变异的方法的系统100的示意图；

图2示出了根据本公开的实施例的用于检测胚系基因微缺失微重复变异的方法200的流程图；

图3示出了根据本公开的实施例的用于确定胚系基因微缺失微重复变异的检测结果的方法300的流程图；

图4示出了根据本公开的实施例的待测样本1的检测结果的可视化图；

图5示出了根据本公开的实施例的待测样本4的检测结果的可视化图

图6示出了根据本公开的实施例的待测样本4的断点信息可视化图；

图7示出了根据本公开的实施例的待测样本6的断点信息可视化图；

图8示出了根据本公开的实施例的用于计算测序深度相对变化值的方法800的流程图；

图9示出了根据本公开的实施例的检测微缺失微重复变异的方法900的示意图；

图10示意性示出了适于用来实现本公开实施例的电子设备1000的框图；以及

图11示出了根据本公开的实施例的用于确定预定值的ROC曲线示意图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

如前文，传统的用于检测基因拷贝数变异的方案中，或者因为微缺失微重复长度短，因此导致微缺失微重复的检测效果差或者无法检测；或者对于短的插入缺失检测，运行的时间长，插入或缺失的断点处没有探针覆盖时，容易造成漏检，出现假阴性。因此，传统的用于检测基因拷贝数变异的方案中存在无法准确并且高效率地检测到微缺失微重复的不足之处。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于检测胚系基因微缺失微重复变异的方案。该方案包括：将探针区域打断至预定长度的多个片段探针区域；获取待测样本的测序序列与参考基因组序列的第一比对结果信息；获取对照样本测序序列与参考基因组序列第二比对结果信息；基于第一比对结果信息和第二比对结果信息，确定待测样本和对照样本关于相同片段探针区域的测序深度相对变化值；以及基于测序深度相对变化值与预定值的比较，确定关于待测样本的胚系基因微缺失微重复变异的检测结果。

在上述方案中，通过将探针区域打断为多个小片段探针区域；基于待测样本和对照样本关于相同小片段探针区域上的测序深度相对变化值与预定值的比较来确定关于待测样本的基因微缺失微重复变异的检测结果，本公开能够检测到小片段探针区域的微缺失微重复变异，使得检测结果不受检测片段的范围的局限性，快速而准确地检测到微缺失微重复。

图1示出了根据本公开的实施例的用于实施检测胚系基因微缺失微重复变异的方法的系统100的示意图。如图1所示，系统100包括：比对单元110、数据获取单元112、、测序深度相对变化值确定单元114、拷贝数计算单元116、检测结果确定单元118。在一些实施例中，系统100还包括：生信服务器140、网络150。

在一些实施例中，数据获取单元112、测序深度相对变化值确定单元114、拷贝数计算单元116、检测结果确定单元118可以配置在一个或者多个计算设备130上；而比对单元110可以独立于计算设备130之外。计算设备130可以通过有线或者无线的方式(例如网络150)与比对单元110、生信服务器140进行数据交互。

关于计算设备130，其用于将探针区域打断为预定长度的多个片段探针区域，以及基于待测样本和对照样本在相同片段探针区域上的测序深度相对变化值与预定值的比较来确定关于待测血液样本的基因微缺失微重复变异的检测结果。在一些实施例中，计算设备130可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。

关于基因拷贝数变异(CNV)在基因组中的存在形式主要有以下几种：两条同源染色体拷贝数同时出现缺失；一条同源染色体发生缺失，一条正常；一条同源染色体出现拷贝数重复，另一条正常；一条同源染色体出现缺失，另一条出现拷贝数重复；两条同源染色体同时出现拷贝数重复。

在一些实施例中，计算设备130的数据获取单元112可以经由网络150获取来自生信服务器140的关于待测样本(例如待测患者的白细胞)的测序序列与参考基因组序列的比对结果信息，以及对照样本(例如健康个体的白细胞)的测序序列与参考基因组序列的比对结果信息。在一些实施例中，计算设备130也可以配置有一般的生信处理流程，并且将来自比对单元110的结果经由所配置的生信处理流程而生成关于待测样本的基因组测序序列与参考基因组序列的第一比对结果信息，以及对照样本的测序序列与参考基因组序列的第二比对结果信息。在一些实施例中，数据获取单元112将所获取的第一比对结果信息和第二比对结果信息发送至测序深度相对变化值确定单元114。

关于测序深度相对变化值确定单元114，其用于基于所获取的第一比对结果信息和第二比对结果信息，确定待测样本和对照样本关于相同片段探针区域上的测序深度相对变化值。

关于拷贝数计算单元116，其用于基于来自深度相对变化值确定单元114的测序深度相对变化值计算拷贝数数据。

关于检测结果确定单元118，其用于基于深度相对变化值确定单元114所计算的测序深度相对变化值以及断点信息来确定关于待测血液样本的基因微缺失微重复变异的检测结果。在一些实施例中，检测结果确定单元118可以基于测序深度相对变化值与预定值的比较，确定关于待测血液样本的基因微缺失微重复变异的检测结果。在一些实施例中，检测结果确定单元118确定以下至少一项条件满足时确定关于待测样本的基因微缺失微重复变异的检测结果为高度可靠的：测序深度相对变化值与预定值的差值在预定范围之外，预定值为第一预定阈值或第二预定阈值；以及测序深度相对变化值与预定值的差值在预定范围之内并且存在断点。

以下将结合图2描述根据本公开的实施例的用于检测胚系基因微缺失微重复变异的方法。图2示出了根据本公开的实施例的用于检测胚系基因微缺失微重复变异的方法200的流程图。应当理解，方法200例如可以在图10所描述的电子设备1000处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框202处，计算设备130将探针区域打断成预定长度的多个片段探针区域。在一些实施例中，计算设备130将探针区域打断成20bp的多个片段探针区域。例如，将探针文件打断成bin长度为20bp的探针文件。通过将探针区域打断成小片段探针区域，能够提高目标基因组小片段基因缺失或增扩的检测灵敏度。其原因在于，假设原始探针区域长度例如为120bp，如果存在长度小于50bp的基因缺失区域，由于探针所捕获目标基因组区域中还存在例如超过70bp长度的区域不存在微缺失微重复变异，其可能对整个目标基因组区域中关于微缺失微重复变异的检测结果带来干扰，例如使得检测结果降低，因此不利于敏感地检测到上述长度小于50bp的基因缺失区域。与此形成对比的是，如果将探针区域打断成多个小片段探针区域(例如20bp)，则能够灵敏地捕获微缺失微重复，例如前述长度小于50bp的基因缺失区域。

在框204处，计算设备130获取待测样本的测序序列与参考基因组序列的第一比对结果信息。

关于待测样本，在一些实施例中，其可以是待测个体的血液样本。例如，将某个需要做微缺失微重复检测的患者的待测血液样本的白细胞分离出来，然后将经分离的白细胞进行打碎，再提取DNA进行目标区域二代测序，以获得fastq格式的测序数据。然后再通过比对软件(例如BWA)将待测血液样本白细胞的测序序列与人类参考基因组序列(例如是人类Hg19标准样本的基因序列)进行比对，以便生成关于待测样本的第一比对结果信息。

关于第一比对结果信息，其例如是关于待测样本的第一比对结果文件，例如第一bam文件，其中例如至少指示关于待测样本的测序序列比对成功的坐标信息和断点信息等信息。计算设备130可以基于关于待测样本的测序序列比对成功的坐标信息，计算比对成功的片段数量，以用于计算关于待测样本的第一测序深度。在一些实施例中，计算设备130基于第一比对结果信息，可以获得比对成功的坐标信息；基于该坐标信息可以计算目标区域中比对成功的片段数量，进而用于后续计算关于待测样本的第一测序深度。

关于测序手段，其例如是经由全基因组测序、全部外显子测序、和特定基因的探针测序中的一种测序技术而获得的。

在框206处，计算设备130获取对照样本测序序列与参考基因组序列第二比对结果信息。

关于对照样本，其可以为健康个体的血液样本。在一些实施例中，对照样本可以是由做微缺失微重复检测健康个体的血液样本分离出的白细胞。例如，通过提取对照血液样本白细胞的DNA进行目标区域二代测序，以获得fastq格式的测序数据。然后再通过比对软件(BWA)将对照样本的测序序列与人类参考基因组序列(例如是人类Hg19标准样本的基因序列)进行比对，以便生成关于对照样本的第二比对结果信息。在一些实施例中，对照样本也可以是多个健康个体血液样本白细胞测序数据的混合文件。

关于第二比对结果信息，其例如是关于对照样本的第二比对结果文件，例如是第二bam文件，其中例如指示关于对照样本的测序序列比对成功的坐标信息和断点信息等信息。例如可以基于关于对照样本的测序序列比对成功的坐标信息，计算比对成功的片段数量，以用于计算关于对照样本的第二测序深度。

关于测序手段，应当理解，对照样本的测序手段需要与待检样本的测序手段一致，比如所使用的探针要一致、二代建库实验条件要一致。

在框208处，计算设备130基于第一比对结果信息和第二比对结果信息，确定待测样本和对照样本关于相同片段探针区域的测序深度相对变化值。

在一些实施例中，计算设备130可以首先基于待测样本的第一比对结果信息(例如是第一bam文件)、关于健康个体的对照样本的第二比对结果信息(例如是第二bam文件)、bin长度为20bp的探针文件(例如是bed文件)，分别计算待测样本白细胞和对照样本白细胞在每个相同片段探针区域上的测序深度。然后对所计算的测序深度进行归一化处理，以便消除不同样本测序深度不同所造成的影响。计算设备130再利用局部多项式回归方法(LOESS)和广义相加模型(GAM)针对经由归一化处理的测序深度进行GC含量校正。再基于GC含量校正之后的测序深度，计算测序深度相对变化值。

关于测序深度(Sequencing Depth)，其是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值。例如，一个基因组大小为7M，测序总碱基数为70M，则测序深度为10X。

关于测序深度的归一化处理方式，其可以采用多种方式。在一些实施例中，计算设备130可以基于基因组的最大测序深度和最小测序深度，对关于待测样本的第一测序深度和关于对照样本的第二测序深度进行归一化处理，以便生成经归一化处理之后的第一测序深度和第二测序深度。以下通过结合公式(1)说明测序深度的归一化处理的具体方式。

X_i’＝(X_i-X_min)/(X_max-X_min) (1)

在上述公式(1)中，X_i代表未经归一化处理处理后的某个区域的测序深度。X_i’代表经归一化处理处理之后的某个区域的测序深度。X_min代表整个基因组的最小测序深度。X_max代表整个基因组的最大测序深度。根据上述归一化处理，如果当前区域的测序深度等于整个基因组的最大测序深度时，经归一化处理处理之后的测序深度X_i’＝1。如果当前区域的测序深度等于整个基因组的最小测序深度时，经归一化处理处理之后的测序深度X_i’＝0。在一些实施例中，也可以针对测序深度采用其他方式的归一化处理，例如，将所计算的测序深度减去一个中位数等等。通过采用上述归一化处理手段，可以避免因不同样本测序深度不同而对检测结果所造成的影响。

测序深度的计算容易受到GC含量等因素的影响，这是因为部分基因组区域存在较高同源性，同源性较高的区域，容易造成比对过程中坐标位置的不确定性，从而影响测序深度，因此有必要针对测序深度进行GC含量校正。在一些实施例中，计算设备130可以利用局部多项式回归方法(LOESS)和广义相加模型(GAM)针对经由归一化处理的测序深度进行GC含量校正。通过不同的两个算法进行GC含量校正，利于结果的准确性。

关于测序深度相对变化值，计算设备130可以对经归一化处理的第一测序深度和第二测序深度进行GC含量校正；以及基于经GC含量校正的第一测序深度和第二测序深度，计算第一测序深度相对于第二测序深度的变化比例；以及以2为底，计算变化比例的对数值，以生成关于相同片段探针区域的测序深度相对变化值。下文将结合图8具体说明用于计算测序深度相对变化值的方法，在此，不再赘述。应当理解，如果关于待测样本的第一测序深度相对于关于对照样本的第二测序深度没有变化，所计算的测序深度相对变化值(log2ratio)例如为log₂ ^2/2＝0，这种情况下，通常没有发生微缺失微重复变异。如果待测样本相对于对照样本发生了基因的增扩或者缺失，例如扩增后拷贝数为4，所计算的测序深度相对变化值(log2ratio)例如为log₂ ^4/2＝1。

在框210处，计算设备130基于测序深度相对变化值与预定值的比较，确定关于待测样本的基因微缺失微重复变异的检测结果。

确定关于待测样本的基因微缺失微重复变异的检测结果的方式可以包括多种。例如，如果计算设备130确定测序深度相对变化值大于或者等于第一预定阈值，确定待测样本存在基因扩增区域；如果计算设备130确定测序深度相对变化值小于或者等于第二预定阈值，确定待测样本存在基因缺失区域。

关于预定值，其例如是用于确定存在基因微重复的第一预定阈值(如0.335)，或者用于确定存在基因微缺失第二预定阈值(如-0.667)。该预定值的确定方式例如是通过以基于多重连接依赖式探针扩增技术(MLPA)的缺失扩增检测技术为对照标准，通过本公开方法和MLPA的缺失扩增检测技术同时检测预定个数(例如31个)样本的微重复、微缺失测试结果，再做图11所示的接受者操作特性曲线(receiver operating characteristic curve，简称ROC曲线)而确定的。图11示出了根据本公开的实施例的用于确定预定值的接受者操作特性曲线示意图。图11所示的接受者操作特性曲线(receiver operating characteristiccurve，简称ROC曲线)为反映敏感性和特异性连续变量的综合指标，roc曲线上每个点反映着对同一信号(预定值)刺激的感受性。如图11所示，横坐标代表特异性(1-Specificity)，用于代表伪正类率(False positive rate，FPR)，即预测为正但实际为负的样本占所有负例样本的比例；纵坐标代表敏感性(Sensitivity)，用于代表真正类率(True positiverate，TPR)，即·预测为正且实际为正的样本占所有正例样本的比例。AUC(Area UnderCurve)代表ROC曲线下的面积。图11中左侧，预定值为0.335(0.998,1.000)，AUC＝0.999。图11中右侧，预定值为-0.667(1.000,1.000)，AUC＝1。

如果计算设备130确定所计算的测序深度相对变化值例如为4，其显著大于第一预定阈值(例如为0.335)，则待测样本存在基因扩增区域，例如存在微重复。如果计算设备130确定所计算的测序深度相对变化值例如为-0.9，其小于第二预定阈值(例如为--0.667)，则待测样本存在基因缺失区域，例如存在微缺失。如果计算设备130确定所计算的测序深度相对变化值如为0，则待测血液样本不存在基因扩增区域或者缺失区域。

在上述方案中，通过将探针区域打断为多个小片段探针区域；基于待测血液样本和对照血液样本关于每一个相同小片段探针区域上的测序深度相对变化值来计算拷贝数数据；以及基于所计算的拷贝数数据与预定值的比较来确定关于待测血液样本的基因微缺失微重复变异的检测结果，本公开能够不受检测片段的范围的局限性，快速而准确地检测到微缺失微重复。

在一些实施例中，方法200还包括计算拷贝数数据的方法，例如：计算设备130针对关于相邻片段探针区域的测序深度相对变化值进行合并片段化(segment)，以生成片段化的测序深度相对变化值；以及基于片段化的测序深度相对变化值，生成测序深度相对变化值。

关于合并片段化(segment)，在一些实施例中，计算设备130在计算每个片段探针区域的测序深度相对变化值之后，由于相邻片段探针区域的测序深度相对变化值较为接近，因此可以经由环二元分割法(CBS)和贝叶斯模型(Bayesian)，分别针对关于相邻片段探针区域的测序深度相对变化值进行合并，以生成两个片段化的测序深度相对变化值，即关于segment的测序深度相对变化对数值(log2ratio)，以用于校验检测结果的可靠性。通过利用环二元分割法(CBS)和贝叶斯模型(Bayesian)两种不同的算法进行合并片段化，并计算片段化的测序深度相对变化值，有利于对检测结果进行相互校验，提高检测结果的有效性。例如下文提及的表一和表二中分别示出了基于环二元分割法(CBS)和贝叶斯模型(Bayesian)两种不同算法的检测结果。当两种不同算法的检测结果一致时，检测结果更为可靠。

在一些实施例中，方法200还包括确定关于待测血液样本的基因微缺失微重复变异的检测结果的方法。图3示出了根据本公开的实施例的用于胚系基因微缺失微重复变异的检测结果的方法300的流程图。应当理解，方法300例如可以在图10所描述的电子设备1000处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框302处，计算设备130确定测序深度相对变化值与预定值的差值是否在预定范围之内。在一些实施例中，预定值例如是用于确定存在基因扩增区域的第一预定阈值和用于确定存在基因缺失区域的第二预定阈值中的一个。

在框304处，如果计算设备130确定测序深度相对变化值与预定值的差值在预定范围之内(例如在第一预定阈值的附近，或者在第二预定阈值的附近)，则计算设备130可以进一步基于比对位置信息确定是否存在断点，比对位置信息是基于第一比对结果信息和第二比对结果信息而确定的。例如，如果计算设备130确定所计算的测序深度相对变化值在预定值附近，则计算设备130可以进一步基于比对位置信息(例如下文表一和表二中所示的起点和终点所代表的位置信息)来确定是否存在断点。在一些实施例中，如果计算设备130确定所计算的测序深度相对变化值(例如为5)与预定值(例如第一预定阈值：0.335)的差值远远超出预定范围(例如0.1)，则可以确定待测血液样本存在基因扩增区域，无需基于断点信息来对辅助判断关于基因扩增区域这一检测结果的可靠性。

在框306处，如果计算设备130确定存在断点，确定待测血液样本存在可靠的基因扩增区域或者基因缺失区域。例如，如果探针所覆盖的A区域发生拷贝数扩增，例如通过比对结果信息可以确定存在断点信息，则确定关于待测血液样本存在拷贝数扩增这一检测结果是高度可靠的。

在一些实施例中，如果计算设备130确定以下至少一项条件满足，确定关于待测样本的基因微缺失微重复变异的检测结果为高度可靠的：测序深度相对变化值与预定值的差值在预定范围之外，预定值为第一预定阈值或第二预定阈值；以及测序深度相对变化值与预定值的差值在预定范围之内并且存在断点。换言之，如果测序深度相对变化值满足相应的第一预定阈值或第二预定阈值标准并且存在有断点的序列支持，则关于微缺失微重复变异的检测结果的为高度可靠可信的；其次，如果测序深度相对变化值相对第一预定阈值或第二预定阈值标准变化明显，但无断点序列支持，关于微缺失微重复变异的检测结果的可信度较高。如果测序深度相对变化值不满足相应的阈值标准，但有断点序列支持，在这种情况下，关于微缺失微重复变异的检测结果的可信度较低。

以下表一显示了针对5个关于BRCA1和BRCA2基因的待测样本(待测样本1至5)的微缺失微重复变异的阳性的待测样本的检测结果。其中例如包括：待测样本1至5的比对成功的起点位置信息、终点位置信息、测序深度相对变化值(log2ratio)、拷贝数数据(Cn)、最终确定的检测结果(result)、以及关于检测结果可信度的等级(grade)。

表一

如表一所示，待测样本1的测序深度相对变化值(log2ratio)为-0.97019，拷贝数数据(Cn)为1，不存在断点。图4示出了根据本公开的实施例(表一中)的待测样本1的检测结果可视化图。其中，待测样本1的微缺失微重复变异的检测结果以及结果等级的等级是测序深度相对变化值(log2ratio)与预定阈值比较的标准和断点情况标准来判断的。图4中，Z、C分别代表2种算法，在基线以下指示待测样本1存在微缺失。待测样本1的检测结果为存在微缺失，检测结果的可信度等级为“中度”。

另外，表一中的待测样本4的测序深度相对变化值(log2ratio)例如为0.48776，拷贝数数据(Cn)为3，存在断点信息。图5示出了根据本公开的实施例(表一中)的待测样本4的检测结果可视化图。图6示出了根据本公开的实施例的待测样本4的断点信息可视化图。如图6所示，表一所示的待测样本4存在断点。计算设备130确定的关于待测样本4的检测结果为：存在微重复，结果可信度等级为“高度”。

表二

以上表二显示了针对另外5个关于BRCA1和BRCA2基因的待测样本(待测样本6至10)的微缺失微重复变异的阳性的待测样本的检测结果。其中例如包括：待测样本6至10的比对成功的起点位置信息、终点位置信息、测序深度相对变化值(log2ratio)、拷贝数数据(Cn)、最终确定的检测结果(result)、以及关于检测结果可信度的等级(grade)。

表二所示的待测样本6的测序深度相对变化值(log2ratio)为-0.95756，拷贝数数据(Cn)为1，存在断点信息。图7示出了表二所示的待测样本6的断点信息可视化图。如图7所示，存在断点。计算设备130确定的关于待测样本6的检测结果为：存在微缺失，结果可信度等级为“高度”。

在一些实施例中，如果计算设备130可以基于检测结果给出患者存在微缺失微重复的基因列表以及关于具体哪些外显子的哪段区域发生微缺失微重复的信息。

在上述方案中，通过结合基于测序深度计算的拷贝数数据与预定值的比较标准以及断点信息标准的判定结果来综合确定待测血液样本存在基因微缺失微重复变异的情况，能够进一步提高检测到微缺失微重复的可信度。

图8示出了根据本公开的实施例的用于计算测序深度相对变化值的方法800的流程图。应当理解，方法800例如可以在图10所描述的电子设备1000处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法800还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框802处，计算设备130基于第一比对结果信息，确定待测样本在相同片段探针区域上的第一测序深度。

在框804处，计算设备130基于第二比对结果信息，确定对照样本在相同片段探针区域上的第二测序深度。

在框806处，计算设备130对第一测序深度和第二测序深度进行归一化处理。例如，计算设备130可以基于基因组的最大测序深度和最小测序深度，对第一测序深度和第二测序深度分别进行归一化处理，以生成经归一化处理的第一测序深度和第二测序深度。通过对第一测序深度和第二测序深度进行归一化处理，能够为消除不同样本测序深度不同造成的影响。

在一些实施例中，计算设备130还进一步通过框808至814处处理，确定测序深度相对变化值。

在框808处，计算设备130对经归一化处理的第一测序深度和第二测序深度进行GC含量校正。在一些实施例中，进行GC含量校正的方式例如包括：经由局部多项式回归方法(LOESS)和广义相加模型(GAM)，针对经归一化处理的第一测序深度和第二测序深度分别进行GC含量校正。

在框810处，计算设备130针对经GC含量校正的第一测序深度和第二测序深度进行比对情况(mappability)校正。

在框812处，计算设备130基于经比对情况校正的第一测序深度和第二测序深度，计算第一测序深度相对于第二测序深度的变化比例。

在框814处，计算设备130以2为底，计算变化比例的对数值，以生成关于相同片段探针区域的测序深度相对变化值。

在一些实施例中，计算设备130进一步针对关于相邻片段探针区域的测序深度相对变化值进行合并，以生成片段化的测序深度相对变化值，以及基于片段化的测序深度相对变化值，生成拷贝数数据。

通过上述方案，本公开能够基于深度数据高效率并准确地计算用于微缺失微重复变异检测的测序深度相对变化值及其拷贝数数据。

图9示出了根据本公开的实施例的检测微缺失微重复变异的方法900的示意图。应当理解，方法900例如可以在图10所描述的电子设备1000处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法900还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

计算设备130获取关于待测样本(例如患者待测血液样本的白细胞)测序序列相对于参考基因组序列的第一比对结果文件(例如是第一bam文件)902、关于对照样本(例如健康个体血液样本的白细胞)测序序列相对于参考基因组序列的第二比对结果文件(例如是第二bam文件)904、以及bin(类似一个窗口)长度为20bp的探针文件(例如是bed文件)906。该20bp的探针文件是经由针对原始探针区域打断而获得的。

计算设备130基于第一比对结果文件902和探针文件906，计算待测样本在每个相同片段探针区域上的第一测试测序深度；然后对所计算的第一测试测序深度进行归一化处理，以生成经归一化处理之后的第一测试测序深度T1。类似的，计算设备130基于第二比对结果文件904和探针文件906，计算对照样本在每个相同片段探针区域上的第二测试测序深度；然后对所计算的第二测试测序深度进行归一化处理，以生成经归一化处理之后的第二测试测序深度N1。

计算设备130针对第一测试测序深度T1进行GC含量校准，生成经GC含量校正的第一测试测序深度T2；以及针对第二测试测序深度N1进行GC含量校正之后，生成经GC含量校正的第二测试测序深度N2。计算设备130例如利用局部多项式回归方法(LOESS)和广义相加模型(GAM)针对经由归一化处理的测序深度进行GC含量校正，以生成经GC含量校准的测序深度。

计算设备130针对经GC含量校正的第一测试测序深度T2和第二测试测序深度N2分别进行比对情况校正(例如相似度区域校正)，以生成经比对情况校正处理之后的第一测试测序深度T3和第二测试测序深度N3。

计算设备130计算经比对情况校正处理之后的第一测试测序深度T3和第二测试测序深度T3之间的变化比例(例如，变化比例ratio，ratio＝T3/N3)，然后以2为底计算变化比例的对数值，以生成关于片段区域的测试深度相对变化值log2ratio。

然后，计算设备130针对相同片段探针区域的测序深度相对变化值进行合并，例如，可以利用环二元分割法(CBS)和贝叶斯模型进行合并，以生成片段化(segment)的测序深度相对变化值922；然后基于片段化的测序深度相对变化值922，生成拷贝数数据924。在一些实施例中，以下通过公式(2)来说明生成拷贝数数据924的方式。

Cn＝2^{(1+log2ratio)} (2)

在上述公式(2)中，Cn代表拷贝数数据。log2ratio代表片段化的测序深度相对变化值。拷贝数数据例如是经由针对Cn进行四舍五入取整而确定。

计算设备130基于第一比对结果文件902的位置信息，获取断点信息926；然后基于所生成的深度相对变化值922(或者拷贝数数据924)以及断点信息926，来确定关于待测样本的微缺失微重复的状态928。由此，快速而准确地检测到微缺失微重复变异。

图10示意性示出了适于用来实现本公开实施例的电子设备1000的框图。设备1000可以是用于实现执行图2、图4至图6所示的方法200、400至600，以及图4所示预测模型300的设备。如图1所示，设备1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006、输出单元1007、存储单元1008，处理单元1001执行上文所描述的各个方法和处理，例如执行方法200、300、800、900。例如，在一些实施例中，方法200、300、800、900可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由CPU 1001执行时，可以执行上文描述的方法200、300、800、900的一个或多个操作。备选地，在其他实施例中，CPU1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300、800、900的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于检测胚系基因微缺失微重复变异的方法，包括：

将探针区域打断至预定长度的多个片段探针区域；

获取待测样本的测序序列与参考基因组序列的第一比对结果信息；

获取对照样本测序序列与参考基因组序列第二比对结果信息；

基于所述第一比对结果信息和所述第二比对结果信息，确定所述待测样本和所述对照样本关于相同片段探针区域的测序深度相对变化值；以及

基于所述测序深度相对变化值与预定值的比较，确定关于所述待测样本的胚系基因微缺失微重复变异的检测结果，

其中确定关于所述待测样本的胚系基因微缺失微重复变异的检测结果包括：

响应于确定所述测序深度相对变化值与所述预定值的差值在预定范围之内，基于比对位置信息确定是否存在断点，所述比对位置信息是基于所述第一比对结果信息和所述第二比对结果信息而确定的；以及

响应于确定存在断点，确定所述待测样本存在可靠的基因扩增区域或者基因缺失区域，

其中确定所述待测样本和所述对照样本关于相同片段探针区域的测序深度相对变化值包括：

基于所述第一比对结果信息，确定所述待测样本在相同片段探针区域上的第一测序深度；

基于所述第二比对结果信息，确定所述对照样本在相同片段探针区域上的第二测序深度；

基于经比对情况校正的所述第一测序深度和第二测序深度，计算所述第一测序深度相对于第二测序深度的变化比例；

以2为底，计算所述变化比例的对数值，以生成关于所述相同片段探针区域的测序深度相对变化值。

2.根据权利要求1所述的方法，其中确定关于所述待测样本的胚系基因微缺失微重复变异的检测结果包括：

响应于确定以下至少一项条件满足，确定关于所述待测样本的胚系基因微缺失微重复变异的检测结果为高度可靠的：

所述测序深度相对变化值与所述预定值的差值在预定范围之外，所述预定值为第一预定阈值或第二预定阈值；以及

所述测序深度相对变化值与所述预定值的差值在预定范围之内并且存在断点。

3.根据权利要求1所述的方法，其中确定关于所述待测样本的胚系基因微缺失微重复变异的检测结果包括：

响应于确定所述测序深度相对变化值大于或者等于第一预定阈值，确定所述待测样本存在基因扩增区域；以及

响应于确定所述测序深度相对变化值小于或者等于第二预定阈值，确定所述待测样本存在基因缺失区域。

4.根据权利要求1所述的方法，其中所述预定长度为20bp。

5.根据权利要求1所述的方法，其中确定所述待测样本和所述对照样本关于相同片段探针区域的测序深度相对变化值还包括：

对所述第一测序深度和第二测序深度进行归一化处理。

6.根据权利要求5所述的方法，其中确定所述待测样本和所述对照样本关于相同片段探针区域的测序深度相对变化值还包括：

对经归一化处理的所述第一测序深度和第二测序深度进行GC含量校正。

7.根据权利要求6所述的方法，其中确定所述待测样本和所述对照样本关于相同片段探针区域的测序深度相对变化值还包括：

针对经GC含量校正的所述第一测序深度和第二测序深度进行比对情况校正。

8.根据权利要求7所述的方法，还包括：

针对关于相邻片段探针区域的测序深度相对变化值进行合并，以生成片段化的测序深度相对变化值；以及

基于所述片段化的测序深度相对变化值，生成拷贝数数据。

9.根据权利要求8所述的方法，其中生成片段化的测序深度相对变化值包括：

经由环二元分割法CBS和贝叶斯模型Bayesian，分别针对关于相邻片段探针区域的测序深度相对变化值进行合并，以生成两个片段化的测序深度相对变化值，以用于校验检测结果的可靠性。

10.根据权利要求1所述的方法，其中所述对照样本为多个健康个体白细胞测序比对文件的混合文件，所述待测样本为待测个体的白细胞样本。

11.根据权利要求5所述的方法，其中对所述第一测序深度和第二测序深度进行归一化处理包括：

基于基因组的最大测序深度和最小测序深度，对所述第一测序深度和第二测序深度分别进行归一化处理，以生成经归一化处理的所述第一测序深度和第二测序深度。

12.根据权利要求6所述的方法，其中对经归一化处理的所述第一测序深度和第二测序深度进行GC含量校正包括：

经由局部多项式回归方法LOESS和广义相加模型GAM，针对经归一化处理的所述第一测序深度和第二测序深度分别进行GC含量校正。

13.一种计算设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行根据权利要求1至12任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被机器执行时实现根据权利要求1至12中任一项所述的方法。