CN113658638A

CN113658638A - 一种基于ngs平台的同源重组缺陷的检测方法和质控体系

Info

Publication number: CN113658638A
Application number: CN202110965392.5A
Authority: CN
Inventors: 杨元; 邓望龙; 叶雷; 陆光华; 丁然; 范峰; 李诗濛; 任用
Original assignee: Jiangsu Xiansheng Diagnostic Medical Instrument Co ltd; Nanjing Xiansheng Diagnostic Technology Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Current assignee: Jiangsu Xiansheng Diagnostic Medical Instrument Co ltd; Nanjing Xiansheng Diagnostic Technology Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-16
Anticipated expiration: 2041-08-20
Also published as: CN113658638B

Abstract

本发明提供一种生信分析过程中肿瘤纯度矫正方法以及基于NGS平台的同源重组缺陷的检测方法，本发明方法通过比较临床样本与阴性样本在目标区域的测序深度和单核苷酸多态性位点等位基因频率的差异，有效校正肿瘤纯度和倍性，实现HRD评估。

Description

一种基于NGS平台的同源重组缺陷的检测方法和质控体系

技术领域

本发明属于生信分析领域，具体涉及一种基于NGS平台的同源重组缺陷检测方法(HRDkit)和质控体系。

背景技术

同源重组缺陷(Homologous Recombination Deficiency，HRD)指由BRCA1/2基因变异、启动子甲基化、遗传性变异等引起的修复DNA双链断裂的同源重组通路功能缺陷，基因组不稳定是HRD的物理表现。HRD可以导致基因组疤痕现象，包括杂合性缺失(Loss ofHeterozygosity，LOH)、端粒等位基因不平衡(Telomeric Allelic Imbalance，TAI)和大片段迁移(Large-scale State Transition，LST)。已获批上市的Myriad’s myChoice HRD检测综合LOH、TAI、LST评分，将分值≥42或携带BRCA1/2基因(疑似)有害变异定义为HRD阳性。

LOH指同源染色体某一区域来自父(母)方的姐妹染色单体缺失，表现为该区域的所有杂合单核苷酸多态性位点(Single Nucleotide Polymorphism，SNP)变为纯合的状态。根据拷贝数的状态，LOH分为拷贝数缺失的LOH和拷贝数正常的LOH。TAI指延伸至端粒但不跨过着丝粒区域的等位基因不平衡。正常情况下的等位基因的拷贝数之比为1:1，发生拷贝数扩增后，等位基因拷贝数之比可能变为2:1、3:1等，LOH是一种特殊的TAI，其等位基因拷贝数之比为1:0或2:0。LST指过滤基因组上长度≤3M(Megabase)的区域，相邻的区域长度均≥10M、拷贝数不相同且二者之间的距离≤3M的大片段结构。

HRD阳性的肿瘤细胞对PARP抑制剂(Poly ADP-ribose polymerase inhibitors，PARPi)敏感，已有多款PARP抑制剂在中国和美国获批上市。PARP抑制剂通过“合成致死”的方式诱导肿瘤细胞凋亡。PARP蛋白参与DNA单链损伤修复，在HRD阳性的肿瘤细胞中，PARP抑制剂阻断DNA单链损伤修复，DNA单链损伤累积逐渐形成DNA双链损伤，由于同源重组通路功能缺陷，DNA双链损伤无法被修复，最终导致肿瘤细胞凋亡；而在正常细胞中，同源重组通路功能正常，DNA双链损伤可以被修复，细胞存活。

HRD衡量肿瘤细胞中的基因组不稳定状态，而肿瘤临床样本通常包含部分正常细胞(即肿瘤纯度<100％)，若不使用肿瘤纯度校正LOH、TAI和LST评分，则最终得到的HRD评分为肿瘤细胞与混合细胞的HRD评分，不能真实反映肿瘤细胞的HRD状态。当肿瘤纯度逐渐变低时，肿瘤细胞中低拷贝数的CNV(Copy Number Variation，CNV)会受到正常细胞稀释的影响使得拷贝数逐渐趋近于2个拷贝的正常状态，降低样本的HRD评分，进而影响临床样本HRD检测结果的准确性。目前针对肿瘤组织的肿瘤纯度评估通常使用组织病理评估方法，该方法涉及繁琐复杂的实验流程且检测主观性较强，此外，针对部分肿瘤组织并不能常规使用病理评估方法进行肿瘤纯度评估，这会影响HRD检测的可靠性。另一方面，目前基于NGS平台的肿瘤纯度检测的主流软件是PureCN和ABSOLUTE，但这些生信算法软件都存在准确性和其应用方面的局限性。

在实际临床样本检测过程中，很多样本质量因素以及实验过程会影响HRD检测的准确性和可靠性，主要表现：1)肿瘤临床样本在取样、运输、实验等环节可能受到其他样本的污染(人源污染)而影响HRD检测准确性；2)与NGS平台检测单核苷酸变异/小片段插入缺失类似，HRD评分也会受到测序深度的影响，测序深度的降低会影响HRD检测结果的稳定性。

综上所述，肿瘤样本HRD检测的准确性会受到肿瘤纯度、人源污染、测序深度的影响，因此，有必要基于NGS平台开发一种HRD检测方法和质控体系，保证HRD检测的准确性，并确立了适用于该检测体系的质控标准。

有鉴于此，提出本发明。

发明内容

本发明的目的是提高肿瘤样本HRD检测的准确性。为实现上述目的，本发明具体提供如下技术方案。

本发明首先提供一种测序文库构建方法，包括如下步骤：

1)将每条染色体按40-60kp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；同时所述SNP位点来自基因组非重复、且上下游各40-80bp区域GC含量正常的区域；

2)将筛选出每个SNP位点左右外扩40-80bp长度作为Backbone区域，针对Backbone区域设计相应探针；

3)基于探针构建测序文库。

本发明还提供一种生信分析过程中肿瘤纯度矫正方法，包括如下生信分析步骤：

1)获得NGS测序下机数据；

2)分析下机数据得到Backbone区域拷贝数CN；

3)分析下机数据得到SNP等位基因频率AF；

4)纯合SNP去除：所述去除为基于SNP的mBAF(mirrored B Allele Frequency)或SUM(Triplet-SUM)进行去除；

5)合并区段Segment，并确立mBAF偏离的Segment；

6)基于mBAF偏离的Segment评估肿瘤纯度。

进一步的，所述所述步骤3)中的去除为：当下机数据不存在污染时，所述去除标准为mBAF≥0.95或TSUM≥0.80；当下机数据存在轻度污染时，即外源DNA污染比例≤5％,所述去除标准为mBAF≥0.90或TSUM≥0.80；

进一步的，所述所述步骤3)中的mBAF和TSUM由如下公式计算：

mBAF＝|AF-0.5|+0.5；

TSUM_i＝|mBAF_i-1-mBAF_i|+|mBAF_i+1-mBAF_i|+mBAF_i-0.5；

其中，i表示经过mBAF过滤后按照染色体、位置从小到大排序的SNP索引。

进一步的，所述步骤5)中所述mBAF偏离的Segment为mBAF检测值偏离0.5的Segment。

进一步的，所述步骤5)中合并区段Segment为将每条染色体臂上CN和mBAF均相近的Backbone区域合并成区段Segment，确立区段Segment的CN和mBAF检测值；

在一些优选的方式中，使用循环二元分割算法将每条染色体臂上CN和mBAF均相近的Backbone区域合并成区段Segment，取Backbone区域CN和mBAF的中位值作为Segment的CN和mBAF的检测值。

进一步的，所述步骤6)中的评估包括如下步骤：

d)对Segment的CN和mBAF作二维聚类得到CN和mBAF均相近的多个Segment组成的簇(Cluster)，根据下表的优先级从1到5的顺序选择包含Segment数量最多的Cluster；

优先级	CN检测值	Purity	Ploidy	nB
					1	(0.00,1.80]	[0.10,1.00]	1	0、1
3	(1.80,1.95)	[0.10,1.00]	1、2	0、1、2
					2	[1.95,2.05]	[0.10,1.00]	2	0、2
4	(2.05,2.20)	[0.10,1.00]	2、3、4、5、6	0、1、2、3、4、5、6
					5	[2.20,+∞)	[0.10,1.00]	3、4、5、6	0、1、2、3、4、5、6

e)计算步骤a)得到Cluster中Segment的CN和mBAF的理论值，所述理论CN和mBAF由下列公式计算：

3N＝Ploidy×Purity+2(1-Purity)

其中，Ploidy、Purity、nB为肿瘤细胞的拷贝数、纯度、次等位基因拷贝数；

其中Ploidy、Purity、nB的取值范围如下表所示；

f)比较每种Ploidy、Purity、nB组合，计算得到的mBAF理论值与检测值之间距离，距离最小组合中的Purity即为肿瘤纯度。

进一步的，所述所述步骤1)的下机数据来自探针杂交捕获文库的NGS测序下机数据；

在一些优选的方式中，所述探针设计如下：将每条染色体按40-60kp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；同时所述SNP位点来自基因组非重复、且上下游各40-80bp区域GC含量正常的区域；将筛选出每个SNP位点左右外扩40-80bp长度作为Backbone区域，针对Backbone区域设计相应探针；

在一些更优选的方式中，所述探针设计如下：将每条染色体按50kp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；同时所述SNP位点来自基因组非重复、且上下游各60bp区域GC含量正常的区域；将筛选出每个SNP位点左右外扩60bp长度作为Backbone区域，针对Backbone区域设计相应探针。

本发明还提供一种基于NGS平台的同源重组缺陷检测方法，其特征在于，包含权利要求上述的方法，并进一步包括如下步骤：

7)使用步骤6)中的评估肿瘤纯度的方法校正所有Segment的拷贝数；

8)根据LOH、TAI和LST三个指标定义分别计算评分，三者之和为HRD评分；

9)可视化，绘制Backbone区域拷贝数和SNP的AF散点图。

本发明还提供一种生信分析过程中肿瘤纯度矫正系统，包括如下模块：

1)获得NGS测序下机数据模块；

2)分析下机数据得到Backbone区域拷贝数CN模块；

3)分析下机数据得到SNP等位基因频率AF模块；

4)纯合SNP去除模块：所述去除为基于SNP的mBAF(mirrored B AlleleFrequency)或SUM(Triplet-SUM)进行去除；

5)合并区段Segment并确立mBAF偏离的Segment模块；

6)基于mBAF偏离的Segment评估肿瘤纯度模块；

所述模块1)-6)分别执行上述权利要求1-7中的步骤1)-6)。

进一步的，所述所述模块3)中的去除为：当下机数据不存在污染时，所述去除标准为mBAF≥0.95或TSUM≥0.80；当下机数据存在轻度污染时，即外源DNA污染比例≤5％,所述去除标准为mBAF≥0.90或TSUM≥0.80；

进一步的，所述所述模块3)中的mBAF和TSUM由如下公式计算：

mBAF＝|AF-0.5|+0.5；

TSUM_i＝|mBAF_i-1-mBAF_i|+|mBAF_i+1-mBAF_i|+mBAF_i-0.5；

进一步的，所述模块5)中所述mBAF偏离的Segment为mBAF检测值偏离0.5的Segment。

进一步的，所述模块5)中合并区段Segment为将每条染色体臂上CN和mBAF均相近的Backbone区域合并成区段Segment，确立区段Segment的CN和mBAF检测值；

进一步的，所述模块6)中的评估包括如下步骤：

a)对Segment的CN和mBAF作二维聚类得到CN和mBAF均相近的多个Segment组成的簇(Cluster)，根据下表的优先级从1到5的顺序选择包含Segment数量最多的Cluster；

b)计算步骤a)得到Cluster中Segment的CN和mBAF的理论值，所述理论CN和mBAF由下列公式计算：

CN＝Ploidy×Purity+2×(1-Purity)

其中，Ploidy、Purity、nB为肿瘤细胞的拷贝数、纯度、次等位基因拷贝数；其中Ploidy、Purity、nB的取值范围如下表所示；

c)比较每种Ploidy、Purity、nB组合，计算得到的mBAF理论值与检测值之间距离，距离最小组合中的Purity即为肿瘤纯度。

进一步的，所述所述模块1)的下机数据来自探针杂交捕获文库的NGS测序下机数据；

在一些优选的方式中，所述探针设计如下：将每条染色体按40-60kp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；同时所述SNP位点来自基因组非重复、且上下游各40-80bp区域GC含量正常的区域；将筛选出每个SNP位点左右外扩40-80bp长度作为Backbone区域，针对Backbone区域设计相应探针。

本发明还提供一种基于NGS平台的同源重组缺陷的检测系统，其特征在于，所述系统包括上述模块，并进一步包括如下模块：

7)拷贝数校正模块：使用6)中评估肿瘤纯度的方法进行Segment拷贝数校正；

8)HRD评分计算模块：根据LOH、TAI和LST三个指标定义分别计算评分，三者之和为HRD评分；

9)可视化模块：绘制Backbone区域拷贝数和SNP的AF散点图。

本发明还提供一种基于NGS平台的同源重组缺陷的检测装置，其特征在于，包括：至少一个存储器，用于存储程序；至少一个处理器，用于加载所述程序以执行上述方法。

本发明还提供一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现上述方法。

与现有技术相比，本发明至少具有如下优势：

(1)本发明开发出一种全新的基于NGS平台的同源重组缺陷检测方法(HRDkit)和体系；

(2)本发明构建了准确的肿瘤纯度评估方法，矫正了HRD检测的准确性，解决了部分样本不能进行病理评估而无法进行HRD检测的问题；

(3)本发明构建了HRD检测的质控体系，确定肿瘤纯度LOD和最低测序深度，允许5％污染比例的样本进行HRD检测，解决实际检测中样本存在轻度污染的问题。

(4)本发明方法具有良好的检测限和测序深度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1 Panel设计示意图；

图2 HRDkit分析流程图；

图3 20例阴性样本中SNP位点的mBAF分布图；

图4 20例阴性样本总SNP位点的TSUM分布图；

图5轻度污染样本mBAF阈值的确立；

图6模拟污染样本1调整mBAF阈值前后的HRD评分；

图7模拟污染样本2调整mBAF阈值前后的HRD评分；

图8模拟污染样本3调整mBAF阈值前后的HRD评分；

图9模拟污染样本4调整mBAF阈值前后的HRD评分；

图10肿瘤纯度的检测值与期望值(HRDkit)；

图11肿瘤纯度的检测值与期望值(PureCN)；

图12肿瘤纯度的检测值与组织病理评估结果(HRDkit)；

图13肿瘤纯度的检测值与组织病理评估结果(PureCN)；

图14临床样本HRD评分分布；

图15不同肿瘤纯度下的HRD评分分布；

图16不同测序深度下的HRD评分(300x vs原始)；

图17不同测序深度下的HRD评分(250x vs原始)；

图18不同测序深度下的HRD评分(200x vs原始)。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。

除非在下文中另有定义，本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本发明。

如本发明中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。

本发明所述的生信分析过程中肿瘤纯度矫正方法，大体包括如下分析步骤(如图2)：

1)获得NGS测序下机数据；

2)分析下机数据得到Backbone区域拷贝数CN；

3)分析下机数据得到SNP等位基因频率AF；

5)合并区段Segment，并确立mBAF偏离的Segment；

6)基于mBAF偏离的Segment评估肿瘤纯度。

在一些实施例中，所述步骤1)的下机数据来自探针杂交捕获文库的NGS测序下机数据，可以理解这种探针杂交捕获文库的获得可以是本领域常规的获得方式，在满足本发明的需求基础上，本领域技术人员能够设计获得；不作限制，如下为一些具体的探针设计示范例：

在一些实施例中，所述探针设计如下：将每条染色体按40-60kp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；同时所述SNP位点来自基因组非重复、且上下游各40-80bp区域GC含量正常的区域；将筛选出每个SNP位点左右外扩40-80bp长度作为Backbone区域，针对Backbone区域设计相应探针；

在一些优选的实施例中，所述探针设计如下：将每条染色体按50kp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；同时所述SNP位点来自基因组非重复、且上下游各60bp区域GC含量正常的区域；将筛选出每个SNP位点左右外扩60bp长度作为Backbone区域，针对Backbone区域设计相应探针。

在一些实施例中，所述所述步骤3)中的去除为：所述去除标准为mBAF≥0.95或TSUM≥0.80。另外，本发明通过实验证实当下机数据存在轻度污染时，即外源DNA污染比例≤5％,需要调整去除标准，具体所述去除标准为mBAF≥0.90或TSUM≥0.80；

在一些实施例中，所述步骤5)中所述mBAF偏离的Segment为mBAF检测值偏离0.5的Segment。

在一些实施例中，所述步骤5)中合并区段Segment为将每条染色体臂上CN和mBAF均相近的Backbone区域合并成区段Segment，确立区段Segment的CN和mBAF检测值；

这里的CN和mBAF检测值获得，本领域可以使用循环二元分割算法将每条染色体臂上CN和mBAF均相近的Backbone区域合并成区段Segment，取Backbone区域CN和mBAF的中位值作为Segment的CN和mBAF的检测值。

在一些实施例中，所述步骤6)中的评估包括如下步骤：

g)对Segment的CN和mBAF作二维聚类得到CN和mBAF均相近的多个Segment组成的簇(Cluster)，根据下表的优先级从1到5的顺序选择包含Segment数量最多的Cluster；

h)计算步骤a)得到Cluster中Segment的CN和mBAF的理论值，所述理论CN和mBAF由下列公式计算：

CN＝Ploidy×Purity+2×(1-Purity)

i)比较每种Ploidy、Purity、nB组合，计算得到的mBAF理论值与检测值之间距离，距离最小组合中的Purity即为肿瘤纯度。

可以理解，在经生信肿瘤纯度矫正后，本发明进一步可以执行检测目的，即基于NGS平台的同源重组缺陷检测方法，进一步包括如下步骤：

9)可视化，绘制Backbone区域拷贝数和SNP的AF散点图。

本领域可以理解，该方法在实践应用中，既可以是诊断目的，即通过评估HRD用于患病风险评估；也可以是非诊断目的，比如科研学术应用、非临床研究中的分析应用等。

下面为具体的实施例。

实施例1、本发明的Panel设计

本实施例Panel设计方法如下，示例性的，如图1所示。

1)筛选基因组非重复区域、上下游各60bp区域GC含量正常、可以被探针捕获的东亚人群的高频SNP位点；

2)将每条染色体按50000bp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；

3)将上一步中得到的SNP位点左右外扩60bp长度作为骨架(Backbone)区域，针对Backbone设计相应的探针。

通过上述设计，最终得到5.4万个Backbone和8万个SNP位点。

实施例2、本发明检测方法(HRDkit)建立

示例性，如图2所示，本发明数据分析分为以下步骤：

1)使用上述探针建库在NGS平台测序得到下机原始数据；

2)下机数据使用拷贝数变异分析软件得到Backbone区域的CN；

3)下机数据使用单核苷酸变异分析软件得到SNP的等位基因频率AF；

4)去除纯合SNP，使用下列公式计算SNP的mBAF(mirrored B Allele Frequency)或TSUM(Triplet-SUM)，若mBAF≥0.95或TSUM≥0.80，则去除SNP，其中i表示经过mBAF过滤后按照染色体、位置从小到大排序的SNP索引。

当样本存在外源DNA污染时，mBAF会受到影响导致无法完全过滤纯合SNP：临床样本纯合SNP位点的mBAF为1，若外源DNA在对应SNP位点为mBAF为0.50(杂合)，临样本的纯合SNP位点的mBAF会随着污染程度的增加而降低。若样本存在轻度污染(污染比例≤5％),调整mBAF阈值为0.90可确保去除纯合SNP；

mBAF＝|AF-0.5|+0.5

TSUM_i＝|mB F_i-1-mBAF_i|+|mBAF_i+1-mBAF_i|+mBAF_i-0.5

5)使用循环二元分割(Circular Binary Segmentation，CBS)算法将每条染色体臂上CN和mBAF均相近的相邻Backbone区域合并成区段(Segment)，取Backbone区域CN和mBAF的中位值作为Segment的CN和mBAF的检测值；

6)偏离的Segment评估肿瘤纯度：使用核密度估计(Kernel Density Estimation，KDE)算法判断每个Segment的mBAF是否偏离0.5，筛选mBAF偏离0.5的Segment用于评估肿瘤纯度，具体包括：

(1)对Segment的CN和mBAF作二维聚类得到CN和mBAF均相近的多个Segment组成的簇(Cluster)，根据下表的优先级从1到5的顺序选择包含Segment数量最多的Cluster；

(2)计算步骤(1)得到Cluster中Segment的CN和mBAF的理论值，所述理论CN和mBAF由下列公式计算：

3N＝Ploidy×Puri y+2×(1-Purity)

(3)比较每种Ploidy、Purity、nB组合计算得到的mBAF理论值与检测值之间距离(差值绝对值)，距离最小组合中的Purity即为肿瘤纯度；

表：Ploidy、Purity和nB在不同Segment的CN检测值范围内的取值

；

7)使用肿瘤纯度评估的方法校正所有Segment的拷贝数CN；

8)根据LOH、TAI和LST三个指标定义计算评分，三者之和为HRD评分；

9)可视化，绘制Backbone区域拷贝数和SNP的AF散点图。

上述方法确立中，部分参数的优化确立过程如下，仅作例举：

a、步骤4)中的mBAF和TSUM阈值确立

由于阴性样本中不存在拷贝数变异，因此所有的SNP位点均为杂合(AF＝0.5，mBAF＝0.5)或纯合(AF＝0或1，mBAF＝1)。通过计算20例阴性样本所有SNP位点的mBAF和TSUM值确定阈值。mBAF的分布如图3所示，SNP位点集中分布在0.5(杂合)和1(纯合)附近，因此将mBAF的阈值设定为0.95可去有效除纯合SNP位点。TSUM的分布如图4所示，当SNP位点及其左右相邻的SNP位点均为杂合时，对应的TSUM值分布在0.5附近，当SNP位点为纯合，左右相邻的SNP位点均为杂合时，对应的TSUM值分布在0.95以及1.45附近，因此，将TSUM的阈值设定为0.80可有效去除纯合SNP位点。

b、对于轻度污染样本的mBAF阈值确立

然而，当样本存在外源DNA污染时，mBAF会受到影响导致无法完全过滤纯合SNP(如表1所示)：

为验证轻度污染样本的HRD评分的准确性，本发明使用临床样本模拟1％、2％、3％、4％、5％污染比例的样本，分别使用本发明确立的0.95，和0.90的mBAF阈值分析临床样本，比较不同阈值下HRD评分和状态。

轻度污染样本mBAF阈值的确立过程如下，分别对上述模拟1％至5％污染比例的样本使用0.95、0.94、0.93、0.92、0.91、0.90的mBAF阈值分析，比较不同mBAF阈值HRD评分和状态,选择HRD评分在不同污染比例之间波动最小以及HRD状态未发生改变对应的mBAF阈值作为轻度污染样本的mBAF阈值。结果如图5所示，对于轻度污染样本，当mBAF的阈值设定在0.90时，HRD评分在不同污染比例之间波动最小，HRD状态均为发生改变。

而且，如图6-9所示，当污染比例≤5％时，调整mBAF的阈值(0.90)可以使得同一样本在不同污染比例之间HRD评分的差异减小，且所有污染样本在调整后的HRD状态与未污染情况下完全一致。因此，对污染样本的处理可以保证HRD评分以及HRD状态的准确性。

实施例3、肿瘤纯度评估方法比较(本发明有效性实验)

为验证肿瘤纯度评估方法的准确性，使用100％肿瘤纯度的细胞系和其配对样本按不同比例混合，稀释肿瘤纯度至95％、90％、80％、30％、20％，分别使用本发明的HRDkit和现有技术中的PureCN分析肿瘤纯度，比较肿瘤纯度的检测值和期望值的一致性，对已进行组织病理评估临床样本，分别使用HRDkit和PureCN分析肿瘤纯度，比较肿瘤纯度的检测值与组织病理评估结果的一致性。

分析结果如图10-13所示，其中HRDkit与期望值之间的相关性R²为99.15％，与组织病理评估之间的相关性R²为97.14％；PureCN与期望值之间的相关性R²为38.68％，与组织病理评估之间的相关性R²为43.02％。

综上所述，无论在细胞系还是临床样本中，本发明的HRDkit分析结果优于PureCN，与期望值或组织病理评估的结果高度相关。

实施例4、同源重组缺陷检测的性能验证(HRD评分、最低检测限等)

1)HRD评分阈值

基于本发明的肿瘤纯度评估方法，为确定HRD评分阈值，临床样本HRD评分如图14所示，使用196例临床样本确定HRD评分阈值，其中BRCA阳性样本(携带BRCA有害或疑似有害变异)77例，BRCA阴性样本119例。为保证95％BRCA阳性样本为HRD阳性，以第5百分位的BRCA阳性样本的HRD评分40作为阈值。HRD状态的评价标准为HRD评分≥40或携带BRCA1/2基因(疑似)有害变异。

2)基于本发明同源重组缺陷检测发明检测限

样本的肿瘤纯度越低，样本中发生拷贝数变异区段的CN越接近于2，mBAF越接近于0.5。当肿瘤纯度低于某一阈值时，低拷贝数的LOH和TAI会变成正常的区段，降低样本的HRD评分。为确定肿瘤纯度的检测下限(Limit of Detection，LOD)，使用100％肿瘤纯度的细胞系和其配对样本按不同比例混合，稀释肿瘤纯度至95％、90％、80％、30％、20％，比较不同肿瘤纯度下HRD评分的差异，如图15所示，20％肿瘤纯度下的HRD评分与其他肿瘤纯度下的HRD评分存在明显差异，故肿瘤纯度的LOD为30％。

与NGS平台检测单核苷酸变异/小片段插入缺失类似，HRD评分也会受到测序深度的影响。为确定最低测序深度，将196例临床样本分别DownSample至300x、250x、200x，比较不同测序深度下HRD评分的差异，如图16-18所示，随着测序深度的降低，DownSample前后HRD评分之间的相关性也随之降低。以样本的HRD状态是否改变确定最低测序深度，DownSample至300x时，所有样本的HRD状态均保持不变，DownSample至250x时，6例样本的HRD状态发生改变，DownSample至200x时，7例样本的HRD状态发生改变，故最低测序深度为300x。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种生信分析过程中肿瘤纯度矫正方法，其特征在于，包括如下生信分析步骤：

1)获得NGS测序下机数据；

2)分析下机数据得到Backbone区域拷贝数CN；

3)分析下机数据得到SNP等位基因频率AF；

5)合并区段Segment，并确立mBAF偏离的Segment；

6)基于mBAF偏离的Segment评估肿瘤纯度。

2.权利要求1所述的矫正方法，其特征在于，所述所述步骤3)中的去除为：当下机数据不存在污染时，所述去除标准为mBAF≥0.95或TSUM≥0.80；当下机数据存在轻度污染时，即外源DNA污染比例≤5％,所述去除标准为mBAF≥0.90或TSUM≥0.80。

3.权利要求2所述的矫正方法，其特征在于，所述所述步骤3)中的mBAF和TSUM由如下公式计算：

mBAF＝|AF-0.5|+0.5；

TSUM_i＝|mBAF_i-1-mBAF_i|+|mBAF_i+1-mBAF_i|+mBAF_i-0.5；

4.权利要求1-3任一所述的矫正方法，其特征在于，所述步骤5)中所述mBAF偏离的Segment为mBAF检测值偏离0.5的Segment。

5.权利要求4所述的矫正方法，其特征在于，所述步骤5)中合并区段Segment为将每条染色体臂上CN和mBAF均相近的Backbone区域合并成区段Segment，确立区段Segment的CN和mBAF检测值；优选的为，使用循环二元分割算法将每条染色体臂上CN和mBAF均相近的Backbone区域合并成区段Segment，取Backbone区域CN和mBAF的中位值作为Segment的CN和mBAF的检测值。

6.权利要求1-5任意所述的矫正方法，其特征在于，所述步骤6)中的评估包括如下步骤：

3N＝Ploidy×Purity+2×(1-Purity)

7.权利要求1所述的矫正方法，其特征在于，所述所述步骤1)的下机数据来自探针杂交捕获文库的NGS测序下机数据；

优选的，所述探针设计如下：将每条染色体按40-60kp的长度等分成不重叠区域，筛选出每个区域内人群频率最接近50％的SNP位点；同时所述SNP位点来自基因组非重复、且上下游各40-80bp区域GC含量正常的区域；将筛选出每个SNP位点左右外扩40-80bp长度作为Backbone区域，针对Backbone区域设计相应探针。

8.一种基于NGS平台的同源重组缺陷检测方法，其特征在于，包含权利要求1-7任一所述的方法，并进一步包括如下步骤：

9)可视化，绘制Backbone区域拷贝数和SNP的AF散点图。

9.一种基于NGS平台的同源重组缺陷的检测系统，其特征在于，包括如下模块：

1)获得NGS测序下机数据模块；

2)分析下机数据得到Backbone区域拷贝数CN模块；

3)分析下机数据得到SNP等位基因频率AF模块；

4)纯合SNP去除模块：所述去除为基于SNP的mBAF(mirrored B Allele Frequency)或SUM(Triplet-SUM)进行去除；

5)合并区段Segment并确立mBAF偏离的Segment模块；

6)基于mBAF偏离的Segment评估肿瘤纯度模块；

9)可视化模块：绘制Backbone区域拷贝数和SNP的AF散点图；

所述模块1)-9)分别执行上述权利要求1-7中的步骤1)-9)。

10.一种测序文库构建方法，其特征在于，包括如下步骤：

3)基于探针构建测序文库。