CN114400045A

CN114400045A - 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统

Info

Publication number: CN114400045A
Application number: CN202210108512.4A
Authority: CN
Inventors: 刘星宇; 王伟伟; 张利利; 田埂
Original assignee: Geneis Beijing Co ltd
Current assignee: Geneis Beijing Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-04-26

Abstract

本发明公开一种基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统，该方法包括：取选定人群的全基因组的序列数据，拼接组成对应于各染色体的多个连续序列；以固定长度为单位将多个连续序列分别平均划分为若干大小相同的区间，得到对应区间的候选SNP位点组成候选位点集；改变固定长度，进一步得到多个候选位点集；进行各候选位点集的性能模拟验证，计算对应各候选位点集的HRD得分；和选取作为检测同源重组修复缺陷的最优位点集。本发明的方法省去了验证步骤中不同panel探针的合成成本，同时具有更好的准确性以及分辨率，从而显著降低同源重组修复缺陷检测成本。

Description

基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统

技术领域

本发明涉及分子检测领域，具体地涉及基于二代测序技术对同源重组修复缺陷SNP位点进行筛选及验证的方法，以及对基因组不稳定性进行打分的方法。

背景技术

DNA在人体内不断被破坏和自我修复，DNA损伤有多种修复途径。DNA双链断裂(double strand break，DSB)的首选修复方式为同源重组修复(homologousrecombination repair，HRR)。同源重组修复缺陷(homologous recombinationdeficiency，HRD)是指细胞水平上的HRR功能障碍状态。HRD已成为晚期卵巢癌患者临床应用聚腺苷二磷酸核糖聚合酶(PARP)抑制剂的新型生物标志物，对乳腺癌、前列腺癌等肿瘤的PARP抑制剂和铂类药物的临床用药具有指导价值。

HRD由HRR基因胚系或体细胞突变以及表观遗传改变等诸多因素导致，并且可以产生可量化的、特定且稳定的基因组改变。在卵巢癌中若仅检测HRR基因(含BRCA1/2)，受益人群比例为31％，但若进行基因组HRD评分(含BRCA1/2检测)，受益人群比例可提高至50％。

目前，基因组HRD评分通常需要大量不相连的SNP位点组成panel，SNP位点数量常在3万至5万个点。例如，中国专利申请公布CN112226495A公开了一种DNA同源重组异常的检测方法，包括：(1)SNP位点筛选；(2)为筛选到的SNP位点设计捕获探针；(3)基因组DNA提取和文库构建；(4)文库靶向富集；(5)高通量测序并分析测序数据，判断HRD状态时使用Kolmogorov Smirnov检验或者scarHRD。

上述方法不论是SNP位点确定后的panel性能验证，还是临床样本的检测均需要较高成本。目前PARP抑制剂药物已应用于乳腺癌、卵巢癌、胰腺癌及前列腺癌中，如何经济、准确地筛选出能够使用PARP抑制剂药物的HRD阳性患者是需要解决的重要问题。

背景技术中的信息仅仅在于说明本发明的总体背景，不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。

发明内容

为解决现有技术中的技术问题，本发明提供一种基于二代测序技术对同源重组修复缺陷SNP位点进行筛选及验证的方法，以及对基因组不稳定性进行打分的方法。具体地，本发明包括以下内容。

本发明的第一方面，提供一种基于二代测序检测同源重组修复缺陷的方法，其包括以下步骤：

(1)取选定人群的全基因组的序列数据，将所述序列数据拼接为对应于不同染色体的多个连续序列；

(2)以固定长度为单位将所述多个连续序列分别平均划分为若干大小相同的区间，在各区间内选取标准参考位置，取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点，由所述多个候选SNP位点组成候选位点集；

(3)改变作为单位的固定长度，重复步骤(2)得到多个候选位点集，所述多个候选位点集中SNP位点的个数因固定长度不同而不同；

(4)利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证，计算对应各候选位点集的HRD得分；和

(5)选取性能最优且SNP位点数最少的候选位点集作为检测同源重组修复缺陷的最优位点集。

根据本发明所述的基于二代测序检测同源重组修复缺陷的方法，优选地，所述染色体不包括Y染色体。

根据本发明所述的基于二代测序检测同源重组修复缺陷的方法，优选地，HRD得分包括基因组杂合性缺失、端粒等位基因不平衡和大片段迁移评分之和。

根据本发明所述的基于二代测序检测同源重组修复缺陷的方法，优选地，所述基因组杂合性缺失为不跨越整个染色体的、超过15Mb的杂合性缺失区域；所述端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒，但未跨越端粒；所述大片段迁移为相邻区域之间至少10Mb的染色体断裂，且两者的距离不超过3Mb。

根据本发明所述的基于二代测序检测同源重组修复缺陷的方法，优选地，根据与WGS结果的一致性确定各候选位点集的性能。

根据本发明所述的基于二代测序检测同源重组修复缺陷的方法，优选地，进一步包括利用探针组捕获样本中目标序列的步骤，其中所述目标序列包含最优位点集内的至少一个SNP位点，所述探针组的探针设计为在严格杂交条件下能够与含有最优位点集内的至少一个SNP的序列互补结合。

本发明的第二方面，提供一种基于二代测序检测同源重组修复缺陷的探针组，所述探针组在严格杂交条件下能够与目标序列结合，所述目标序列包含根据第一方面所述方法得到的最优位点集中的至少一个SNP位点。

本发明的第三方面，提供一种基于二代测序检测同源重组修复缺陷的试剂盒，其包含根据第二方面所述的探针组。优选地，其进一步包含用于扩增目标序列的引物，所述目标序列包含根据第一方面所述方法得到的最优位点集中的至少一个SNP位点。

本发明的第四方面，提供一种基于二代测序检测同源重组修复缺陷的系统，其包括：

(a)数据获取模块，其用于获取选定人群的全基因组的序列数据；

(b)数据处理模块，其用于将所述序列数据按染色体划分为对应于各染色体的多个连续序列，然后以固定长度为单位将所述多个连续序列分别平均划分为若干大小相同的区间，在各区间内选取标准参考位置，取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点，由所述多个候选SNP位点构建组成候选位点集；改变作为单位的固定长度，重复构建候选位点集的步骤，得到多个候选位点集，所述多个候选位点集中SNP位点的个数因固定长度不同而不同；

(c)模拟验证模块，其用于利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证，得到对应各候选位点集的HRD得分，并将HRD得分与WGS结果一致性最优的候选位点集作为最优位点集；和

(d)检测模块，其用于以最优位点集检测待测样本的同源重组修复缺陷。

本发明针对性地选取中国人群相关位点，并提前去除难以捕获的区域。经过基础筛选后，以每个染色体为单位，预设梯度密度进行染色体位置拆分，并选取此位置最优的SNP作为候选。随后对这些密度下产生的不同个数的panel进行模拟验证，省去验证步骤中不同panel探针的合成成本。在对panel进行优选后，本发明可用21785个SNP位点达到竞品(37000，42000或以上SNP位点)相同或更好的准确性，且在测试集中拥有更好的分辨率。本发明在保持较高准确性的基础上，优选更适合中国人群的基因组不稳定性和检测位点，本发明的位点集拥有更好的分辨率，同时可显著降低检测成本。

附图说明

图1示出了经本发明筛选的标志物的分辨率结果。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

除非另有说明，本文所用术语“测量”、“测定”和“检测”可互换使用，旨在包括检测样品中的同源重组缺陷相关SNP位点的存在与否和/或定量同源重组缺陷相关SNP位点。

基于二代测序检测同源重组修复缺陷的方法

本发明的方法包括：1)SNP位点筛选；2)SNP位点的优选；3)panel的数据分析及模拟验证，具体地，包括步骤(1)-(5)，下面详细进行说明。

在本发明的步骤(1)中，取选定人群的全基因组的序列数据，将所述序列数据按染色体划分为对应于各染色体的多个连续序列。优选地，所述序列数据是指针对中国人群的全基因组序列数据，其可以通过已知数据库获得。在具体实施方案中，已知数据库是指1000Genomes数据库。进一步对所述序列数据进行预处理以实现SNP位点的初步筛选。示例性地，预处理步骤包括：

a.选取突变频率在0.05-0.95之间的SNP；

b.去除Y染色体上的SNP；

c.去除Indel数据；

d.提取SNP位点上下游各80-140bp区域，优选120bp区域，选取GC含量30-60％的位点；

e.选取SNP最小等位基因频率MAF在0.2-0.5的SNP位点；

f.去除上下游各75bp内涉及重复(repeat)区的位点；

g.过滤明显偏离Hardy-Weinberg equilibrium的SNP。

将所述序列数据按染色体划分为对应于各染色体的多个连续序列，这里的染色体是指不包含性染色体，尤其是指不含Y染色体的染色体集合。

本发明中的方法中，步骤(2)包括：以固定长度为单位将所述多个连续序列分别平均划分为若干大小相同的区间，在各区间内选取标准参考位置，取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点，由所述多个候选SNP位点组成候选位点集。本文所用术语“固定长度”是指长度区间为50-250K，优选50-200K，例如50K、100K、150K、200K为单位的长度。本文所用术语“标准参考位置”是指位于上述给定区间的中间位置，例如，当选择100K的长度作为平均划分区间时，标准参考位置是指第50K对应的碱基位置，此时候选SNP位点的选择是在上述标准参考位置最近的SNP位点。候选位点集是指染色体经上述筛选后得到的候选SNP位点的集合。

本发明的步骤(3)与步骤(2)的不同在于长度范围的选择，可以理解的是，所述多个候选位点集中SNP位点的个数因固定长度不同而不同。固定长度的选择对于本发明是重要的，其保证SNP的位置尽量分散的同时降低panel大小，从而大大降低检测成本。

本发明的步骤(4)包括：利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证，得到对应各候选位点集的HRD得分，原始数据来源于全基因组测序，用于全基因组测序的平台和系统不特别限定，其包括但不限于大规模平行签名测序(Massively Parallel Signature Sequencing,MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyrosequencing)、Illumina(Solexa)sequencing、ABI SOLiDsequencing、离子半导体测序(Ion semiconductor sequencing)、DNA纳米球测序(DNAnanoball sequencing)等。

本发明中，性能验证包括HRD score打分，HRD score为下述三部分评分之和：基因组杂合性缺失(Loss of Heterozygosity，LOH)、端粒等位基因不平衡(Telomeric AllelicInbalance，TAI)和大片段迁移(Large-scale state Transition，LST)。其中，基因组杂合性缺失定义为不跨越整个染色体的，超过15Mb的杂合性缺失区域；端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒，但未跨越端粒。本部分仅考虑亲本等位基因序列的不平等贡献，不涉及到总拷贝数的变化；大片段迁移为相邻区域之间至少10Mb的染色体断裂，且他们的距离不超过3Mb。

在本发明中，HRD score打分阈值设置为42。

发明人通过研究，发现在步骤(2)中，长度区域越小，位点越多，准确性越高，且长度区间在75-90K时，成本最低，并能够保持较高准确率。在具体实施方案中，长度区间为83K。

探针组

本发明的探针组在严格杂交条件下能够与目标序列结合，所述目标序列包含根据第一方面所述方法得到的最优位点集中的至少一个SNP位点。优选地，所述最优位点集中的位点如表2所示，这里仅列出选自21785个位点的部分以进行说明。可以理解，本领域技术人员根据本发明的方法能够得到完成的SNP位点集合。

本文所用术语“严格杂交条件”是指允许杂交探针优先与靶核酸(最优位点集中的至少一个SNP位点对应的核酸)而非源自密切相关的非靶核酸杂交的条件。严格杂交条件可根据探针的GC含量和长度、探针序列与可存在于待测样本中的非靶序列的序列之间的相似程度等进行变化。本领域技术人员可使用常规方法确定严格杂交条件。

本发明中，术语“待测样本”是指来源于受试者/患者的生物样品。可用于本发明的生物样品类型的实例包括但不限于以下的一种或多种：尿、粪便、泪液、全血、血清、血浆、血液成分、骨髓、细胞、组织、器官、体液、唾液、脸颊拭子、淋巴液、脑脊髓液、病变渗出物和由身体产生的其他流体。生物样品类型也可以是冷冻、固定、石蜡包埋或新鲜的活检样品。

术语“受试者”或“患者”在本文中可互换使用，其指脊椎动物，优选为哺乳动物，还优选为人。哺乳动物包括但不限于鼠类、猿、家畜等。具体的哺乳动物包括大鼠、小鼠、猫、狗、猴子和人。非人类哺乳动物包括除人之外的所有哺乳动物。在体外获得或在体外培养的生物实体的组织、细胞及其后代也涵盖在本发明的保护范围之内。

试剂盒

本发明进一步提供试剂盒，其包含本发明的探针组。本发明的试剂盒进一步包括关于如何对特定的生物样品类型进行本发明的检测方法或试验的说明和检测同源重组修复缺陷得分的判断标准。该试剂盒可进一步包含能够通过各种测定类型(诸如ELISA测定、免疫测定、蛋白质芯片或微阵列、DNA/RNA芯片或微阵列、RT-PCR、三代测序、质谱法、免疫组织化学法、流式细胞术或高含量细胞筛选)进行常规检测的其他试剂。

除了上述组分之外，本发明的试剂盒还可包括以政府机构规定的形式与调控制造、使用或销售诊断试剂盒相关的注意事项。另外，本发明的试剂盒还可提供有使用、储存和故障排除的详细说明书。试剂盒还可任选地设置在适合的优选用于以高通量设置的机器人操作的装置中。

在某些实施方案中，本发明的试剂盒的组分(例如，寡核苷酸)可提供为干粉。当试剂和/或组分提供为干粉时，粉末可通过添加适合的溶剂来恢复原状。预期该溶剂还可设置于另一容器中。容器通常会包括至少一种小瓶、试管、烧瓶、瓶、注射器和/或其它容器手段，其中可选等分地放置溶剂。试剂盒还可包括用于包含无菌、药学上可接受的缓冲液和/或其它溶剂的第二容器的手段。

在某些实施方案中，本发明的试剂盒的组分可以溶液形式提供，例如水溶液的形式提供。在以水溶液状态存在的情况下，这些成分的浓度或含量是本领域技术人员能够根据不同需求而方便地确定的。例如，用于储存的目的时，例如寡核苷酸的浓度可以较高的形式存在，当处于工作状态或使用时，可通过例如稀释上述较高浓度的溶液来将浓度降低至工作浓度。

在试剂盒中存在超过一种组分的情况下，该试剂盒还通常会包含可单独放置另外的组分的第二、第三或其它另外的容器。另外，可在容器中包含各多种组分的组合。本文所述的任何组合物或试剂可为试剂盒中的组分。

系统

本发明的基于二代测序检测同源重组修复缺陷的系统，其特征在于，包括：

优选地，在本发明的系统的模拟验证模块中，设置HRD得分阈值为≥42。

本领域的技术人员可以理解的是，本发明所述的各种示例性实施方案可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明的具体实施方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质或非暂态计算机可读存储介质(可以是CD ROM、U盘、移动硬盘等)中或网络上，包括若干指令以使得计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明的方法。

在示例性实施方案中，本发明的程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的实例包括但不限于：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

相应地，基于同一发明构思，本发明还提供一种电子设备。

在示例性实施方案中，电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：至少一个处理器、至少一个存储器、连接不同系统组件(包括存储器和处理器)的总线。

其中，所述存储器存储有程序代码，所述程序代码可以被所述处理单元执行，使得所述处理单元执行本发明所述的方法，其中处理器至少包括本发明所述的数据处理单元(也可以称为“模块”)。存储器可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以进一步包括只读存储单元(ROM)。

本发明的存储器还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。

这种通信可以通过输入/输出(I/O)接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当理解，尽管本文未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本发明的系统或方法的检测/鉴别价值可通过例如计算受试者工作特征曲线下面积(AUC)、灵敏度、特异度等评价指标来判断其效能。其中AUC也称为受试者工作特征曲线下面积，其被定义为ROC曲线下与坐标轴围成的面积，所述面积的数值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高。

本发明进一步提供探针组或试剂盒在癌症相关的同源重组修复缺陷检测中的用途，其中，所述癌症包括但不限于胃癌、乳腺癌、卵巢癌、胰腺癌及前列腺癌。

本领域技术人员应理解，只要能够实现本发明的目的，在上述步骤(1)-(5)前后，或步骤之间还可包含其他步骤或操作，例如进一步优化和/或改善本发明所述的方法。

实施例1

1、SNP的筛选

1)选取1000Genomes数据库中的中国人群的突变数据；

2)选取突变频率在0.05-0.95之间的SNP；

3)去除Y染色体上的SNP；

4)去除Indel数据；

5)提取SNP位点上下游各120bp区域，选取GC含量选取30-60％的位点；

6)选取SNP最小等位基因频率MAF在0.2-0.5的SNP；

7)去除上下游各75bp内涉及到repeat区的位点；

8)过滤明显偏离Hardy-Weinberg equilibrium的SNP；

9)选取不同长度区间，如50K、100K、200K等，在每个染色体上选取距离区间距离最小的点组成不同个数梯度的候选panel。

经过初次筛选后，最终选定长度区间为125K、100K、83K、71K、62K，使用表1所述样本对各panel结果进行验证。

表1样本信息表

结果表明长度区域越小、位点越多、准确性越高，在准确性一致的情况下，长度区域83K的SNP个数最少，为21785个，选取此panel成本最低。具体参见表2，需要说明的是，表2仅示例性的示出了选自21785中的部分位点。

表2候选panel

chr1	173052	chr11	23425775	chr14	56421542	chr19	19584987	chr22	44000711	chr4	189252701
												chr1	757640	chr11	23500784	chr14	56508491	chr19	19753292	chr22	44083442	chr4	189340282
chr1	924528	chr11	23592851	chr14	56590542	chr19	19839439	chr22	44167684	chr4	189419268
												chr1	1002434	chr11	23842349	chr14	56672496	chr19	19923100	chr22	44250261	chr4	189503554
chr1	1425700	chr11	24001840	chr14	56756743	chr19	20003109	chr22	44335331	chr4	189587310
												chr1	1509156	chr11	24085740	chr14	56841899	chr19	20169887	chr22	44423396	chr4	189675061
chr1	1585642	chr11	24175352	chr14	56917786	chr19	20258013	chr22	44504928	chr4	189759591
												chr1	1759213	chr11	24252515	chr14	57000051	chr19	20423698	chr22	44589008	chr4	189833279
chr1	1916529	chr11	24334578	chr14	57092439	chr19	20501082	chr22	44751158	chr4	190004091
												chr1	2008688	chr11	24421735	chr14	57170818	chr19	20671870	chr22	44838800	chr4	190087776
chr1	2090095	chr11	24502888	chr14	57250582	chr19	20842549	chr22	44923371	chr4	190252051
												chr1	2169079	chr11	24586870	chr14	57418430	chr19	21007488	chr22	45001390	chr4	190341664
chr1	2257695	chr11	24755708	chr14	57500488	chr19	21092584	chr22	45085141	chr4	190422067
												chr1	2337032	chr11	24837039	chr14	57842247	chr19	21586797	chr22	45175971	chr4	190508869
chr1	2416357	chr11	24916589	chr14	57920517	chr19	21750648	chr22	45254083	chr4	190587367
												chr1	2500893	chr11	25009710	chr14	58084871	chr19	21838492	chr22	45333160	chr4	190755641
chr1	2585772	chr11	25090265	chr14	58172007	chr19	22002611	chr22	45421242	chr5	172971
												chr1	2753237	chr11	25751647	chr14	58259785	chr19	22174872	chr22	45584396	chr5	252683

不同长度区间panel性能验证结果如表3所示。

表3不同长度区间panel性能验证结果

长度区域	SNP个数	精准度	召回率	敏感性	特异性
						125k	14842	80.00％	66.67％	66.67％	50.00％
100k	18465	83.33％	83.33％	83.33％	50.00％
						83k	21785	85.71％	100.00％	100.00％	50.00％
71k	25282	85.71％	100.00％	100.00％	50.00％
						62k	28525	85.71％	100.00％	100.00％	50.00％

2、HRD得分计算及相关定义

本发明HRD score打分为下述三部分评分之和，即基因组杂合性缺失(Loss ofHeterozygosity，LOH)、端粒等位基因不平衡(Telomeric Allelic Inbalance，TAI)和大片段迁移(Large-scale state Transition，LST)。其中，基因组杂合性缺失定义为不跨越整个染色体的，超过15Mb的杂合性缺失区域；端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒，但未跨越端粒。本部分仅考虑亲本等位基因序列的不平等贡献，不涉及到总拷贝数的变化；大片段迁移为相邻区域之间至少10Mb的染色体断裂，且他们的距离不超过3Mb。

3、候选SNP位点panel的性能模拟验证流程

1)使用fastp对normal和cancer样本的原始数据进行质控及过滤，去除测序质量较低的reads；

2)使用bwa的mem将normal和cancer样本比对到参考基因组上(hg19)，得到bam文件；

3)根据候选SNP的位置，计算SNP前后各60bp的距离，制作成bed文件；

4)根据bed文件使用bedtools软件的intersect提取normal和cancer样本的比对后的bam文件中bed区域内的所有reads，形成仅含有panel目标区域reads的bam文件；

5)使用samtools的sort对bam文件进行排序；

6)使用samtools的index对排序后的bam文件进行索引；

7)使用sequenza-utils中的bam2seqz对索引后的cancer及normal样本的bam文件进行拷贝数分析，得到此样本的等位基因特异性拷贝数结果文件；

8)调用R内的scarHRD包，对等位基因特异性拷贝数结果文件进行同源重组缺陷水平定量分析，得到相关数值。

9)选取性能最优且SNP位点个数最少的panel。

4、本发明性能验证结果

选取12例高深度测序的WGS样本数据，将本发明候选SNP位点与市售2款同类型产品(产品一、产品二)分别进行与WGS结果的对比验证，所用样本及数据量情况如表1。

根据步骤3候选SNP位点panel的性能模拟验证流程对本发明(22000个SNP)panel及产品一(370000个SNP)、产品二(42000个SNP)panel进行验证，结果如表4-6所示。本发明所涉及标志物准确性较好，在验证的11个样本(6阳+5阴)中，与全基因组测序结果相比，本发明可用22000个SNP达到同类产品二(42000个SNP)相同准确性，且优于同类产品一(37000个SNP)。

在分辨率方面，结果如图1所示。在相同验证集(n＝11)中，相较产品一、产品二，本发明拥有更好的分辨率，更易区分阳性样本，以减少假阳性、假阴性概率。

表4示例性候选标志物panel结果验证

表5产品一候选标志物panel结果验证

表6产品二候选标志物panel结果验证

尽管本发明已经参考示例性实施方案进行了描述，但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下，可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims

1.一种基于二代测序检测同源重组修复缺陷的方法，其特征在于，包括以下步骤：

(2)以固定长度为单位将所述多个连续序列分别划分为若干大小相同的区间，在各区间内选取标准参考位置，取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点，由所述多个候选SNP位点组成候选位点集；

(4)利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证，计算对应各候选位点集的HRD得分；

2.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法，其特征在于，所述染色体不包括Y染色体。

3.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法，其特征在于，所述HRD得分包括基因组杂合性缺失、端粒等位基因不平衡和大片段迁移评分之和。

4.根据权利要求3所述的基于二代测序检测同源重组修复缺陷的方法，其特征在于，所述基因组杂合性缺失为不跨越整个染色体的、超过15Mb的杂合性缺失区域；所述端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒，但未跨越端粒；所述大片段迁移为相邻区域之间至少10Mb的染色体断裂，且两者的距离不超过3Mb。

5.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法，其特征在于，根据与WGS结果的一致性确定各候选位点集的性能。

6.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法，其特征在于，进一步包括利用探针组捕获样本中目标序列的步骤，其中所述目标序列包含最优位点集内的至少一个SNP位点，所述探针组的探针设计为在严格杂交条件下能够与含有最优位点集内的至少一个SNP的目标序列互补结合。

7.一种基于二代测序检测同源重组修复缺陷的探针组，其特征在于，所述探针组在严格杂交条件下能够与目标序列结合，所述目标序列包含根据权利要求1所述方法得到的最优位点集中的至少一个SNP位点。

8.一种基于二代测序检测同源重组修复缺陷的试剂盒，其特征在于，其包含根据权利要求7所述的探针组。

9.根据权利要求8所述的基于二代测序检测同源重组修复缺陷的试剂盒，其特征在于，其进一步包含用于扩增目标序列的引物，所述目标序列包含根据权利要求1所述方法得到的最优位点集中的至少一个SNP位点。

10.一种基于二代测序检测同源重组修复缺陷的系统，其特征在于，包括：

(b)数据处理模块，其用于将所述序列数据拼接为对应不同染色体的多个连续序列，然后以固定长度为单位将所述多个连续序列分别划分为若干大小相同的区间，在各区间内选取标准参考位置，取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点，由所述多个候选SNP位点构建组成候选位点集；改变作为单位的固定长度，重复构建候选位点集的步骤，得到多个候选位点集，所述多个候选位点集中SNP位点的个数因固定长度不同而不同；

(c)模拟验证模块，其用于利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证，计算对应各候选位点集的HRD得分，并将HRD得分与WGS结果一致性最优的候选位点集作为最优位点集；和