CN112802548A

CN112802548A - 单样本全基因组预测等位基因特异性拷贝数变异的方法

Info

Publication number: CN112802548A
Application number: CN202110020493.5A
Authority: CN
Inventors: 黄毅; 陈海新; 刘久成; 吴玲清; 刘青峰
Original assignee: Shenzhen Guiinga Medical Laboratory
Current assignee: Suzhou jiyinga medical laboratory Co.,Ltd.
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-05-14
Anticipated expiration: 2041-01-07
Also published as: CN112802548B

Abstract

一种单样本全基因组预测等位基因特异性拷贝数变异的方法，该方法包括：分析比对到参考基因组的待测样本的测序数据，提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息，然后根据染色体每个区段的总拷贝数变异信息进行分类处理，将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为奇数区间或0区间，则直接推算出等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为非0偶数区间，则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。本发明只需要单样本，无需配对的正常样本，所需待测样本的测序深度低，检测准确度高，可检测低肿瘤纯度样本的同源重组缺陷。

Description

单样本全基因组预测等位基因特异性拷贝数变异的方法

技术领域

本发明涉及生物信息学领域，具体涉及一种单样本全基因组预测等位基因特异性拷贝数变异的方法。

背景技术

近年来，随着聚ADP核糖聚合酶抑制剂(Poly ADP-ribose Polymeraseinhibitors,PARPi)的出现和应用，卵巢癌等其他癌症患者维持治疗取得了较大突破，BRCA突变和同源重组缺陷(Homologous Recombination Deficiency,HRD)状态作为标志物的指导作用在临床实践应用中日益凸显。临床上PARP抑制剂获益人群从BRCA突变患者扩展到HRD阳性人群，也就意味着，更多癌症患者有机会从PARP抑制剂的治疗中获益。同时，药物适用癌种也从卵巢癌扩展到乳腺癌、前列腺癌、胰腺癌、膀胱癌等实体瘤患者。

目前，市面上针对PARP抑制剂相关生物标志物检测的策略主要有如下三种：1)BRCA1/2基因检测；2)同源重组修复通路基因检测；3)HRD检测。其中第三种检测方法获益人群最高，约为70％。针对HRD的检测方法，虽然有不同的策略和决策，但是检测基因组杂合性缺失(Loss of Heterozygosity，LOH)、端粒等位基因不平衡(Telomeric AllelicImbalance，TAI)、大片段迁移(Large-scale state Transition，LST)三个基因组不稳定性指标来计算HRD评分策略的准确度高且被广泛接受。

HRD的检测主要有两种，探针捕获高密度芯片和高深度全基因组测序(30×)。全基因组测序检测HRD主要优点是：1)没有芯片捕获偏好；2)覆盖全基因的所有位点；3)无人群位点偏好性。但缺点是需要进行高深度测序，造成测序成本较高；低深度测序策略只能准确分析LST(Large-scale state Transition，大片段迁移)指标，假阴性高；对于肿瘤纯度低的样本需要更高的测序深度，进一步增加成本。

发明内容

根据第一方面，在一些实施例中，提供一种单样本全基因组预测等位基因特异性拷贝数变异的方法，包括：

分析比对到参考基因组的待测样本的测序数据，提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息，然后根据染色体每个区段的总拷贝数变异信息进行分类处理，将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为奇数区间或0区间，则直接推算出等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为非0偶数区间，则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。

根据第二方面，在一些实施例中，提供一种单样本全基因组检测同源重组缺陷的方法，包括：

等位基因特异性拷贝数变异预测步骤，包括根据第一方面所述方法获得待测样本中染色体每个区段的等位基因特异性拷贝数变异信息；

同源重组缺陷预测步骤，包括根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息，计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数，根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值，判断待测样本是否存在同源重组缺陷。

根据第三方面，在一些实施例中，提供一种单样本全基因组预测等位基因特异性拷贝数变异的系统，包括：

等位基因特异性拷贝数变异预测装置，用于分析比对到参考基因组的待测样本的测序数据，提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息，然后根据染色体每个区段的总拷贝数变异信息进行分类处理，将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为奇数区间或0区间，则直接推算出等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为非0偶数区间，则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。

根据第四方面，在一些实施例中，提供一种单样本全基因组检测同源重组缺陷的系统，包括：

等位基因特异性拷贝数变异预测装置，用于分析比对到参考基因组的待测样本的测序数据，提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息，然后根据染色体每个区段的总拷贝数变异信息进行分类处理，将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为奇数区间或0区间，则直接推算出等位基因特异性拷贝数变异信息，如果染色体区段的总拷贝数变异信息为非0偶数区间，则通过模型预测得到该区间的等位基因特异性拷贝数变异信息；

同源重组缺陷预测装置，用于根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息，计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数，根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值，判断待测样本是否存在同源重组缺陷。

根据第五方面，在一些实施例中，提供一种单样本全基因组检测同源重组缺陷的装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现第一方面和/或第二方面所述的方法。

根据第六方面，在一些实施例中，提供一种计算机可读存储介质，其上存储有程序，所述程序能够被处理器执行以实现第一方面和/或第二方面所述的方法。

依据上述实施例的单样本全基因组预测等位基因特异性拷贝数变异及其检测同源重组缺陷的方法，只需要单样本，无需配对的正常样本，所需待测样本的测序深度低，检测准确度高，可检测低肿瘤纯度样本的同源重组缺陷。

附图说明

图1显示为一种实施例的单样本全基因组检测同源重组缺陷的流程图；

图2显示为一种实施例的AA型候选信号位点BAF分布图；

图3显示为一种实施例的AB型候选信号位点BAF分布图；

图4显示为一种实施例中使用十乘交叉对训练模型数据的检验结果图；

图5显示为一种实施例的相关性曲线图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

术语解释

LOH：Loss of heterozygosity，杂合性缺失，是指位于一对同源染色体上的相同基因座位的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失，与之配对的染色体上仍然存在。

cnLOH：Copy neutral LOHs，拷贝中性LOH，亦称拷贝中性杂合性缺失，。

WGS：Whole genome sequence，全基因组测序。

HRD：Homologous Recombination Deficiency，同源重组缺陷。

CNV：Copy number variations，基因拷贝数变异。

TCNV：Total copy number alterations，总拷贝数变异。

ASCNV：Allele-specific copy number alterations，等位基因特异性拷贝数变异。

BAF：B allele frequency，次等位基因频率，是指在给定群体中，第二常见的基因型(次等位基因)出现的基因频率就称为次等位基因频率。

TAI：Telomeric Allelic Imbalance，端粒等位基因不平衡。

LST：Large-scale state Transition，大片段迁移。

WGD：whole genome duplication，全基因组复制，亦称全基因组重复。

reads：读段，测序仪产生的核苷酸序列被称为“读段”。序列读段长度可以在几十到几千个核苷酸之间。

mutil allele位点：在种群中，同源染色体的相同位点上，可以存在两种以上的等位基因，遗传学上把这种等位基因称为复等位基因，即multiple alleles，亦称复等位基因位点。

测序深度：测序得到的碱基总量(bp)与基因组大小(Genome)的比值。例如，测序深度为10×，表示测序得到的碱基总量(bp)与基因组大小(Genome)的比值为10。

本文中，突变(mutation)是指生物体基因组、病毒基因组或染色体外DNA基因组核苷酸序列的改变。“突变”、“变异”可互换使用。

在一些实施例中，本发明的目的是提供一种基于机器学习算法的低深度(测序深度可以为10×)单样本全基因组多指标的HRD分析方法。

在一些实施例中，如果总拷贝数变异信息为奇数区间，则等位基因等位基因A＝1，等位基因等位基因B＝N-1；其中，N为该区间的总拷贝数变异信息。

在一些实施例中，如果总拷贝数变异信息为0区间，则等位基因A＝0，等位基因B＝0。

在一些实施例中，如果染色体区段的总拷贝数变异信息为非0偶数区间，通过模型预测得到该区间的等位基因特异性拷贝数变异信息的方法包括：按照滑动窗口对总拷贝数变异信息进行切割，并独立预测各个滑动窗口的拷贝数变异类型，然后将所述拷贝数变异类型转换为等位基因特异性拷贝数变异信息。

在一些实施例中，所述滑动窗口的长度为2Mb-3Mb。1Mb＝1000kb＝1000000bp。

在一些实施例中，所述滑动窗口的长度为2Mb或3Mb。

在一些实施例中，获取滑动区间内的候选信号位点的次等位基因频率信息分布，然后提取次等位基因频率信息分布曲线矩阵值，将所述次等位基因频率信息分布曲线矩阵值与肿瘤纯度信息、全基因组复制信息整合，将整合结果输入模型，使用模型预测得到该区间的基因拷贝数变异类型，然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息。

在一些实施例中，按以下规则将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息：

1)如果模型预测的基因拷贝数变异类型为AA，则等位基因A＝0，等位基因B＝N，其中，N为该区间的总拷贝数变异信息；

2)如果模型预测的基因拷贝数变异类型为AB，则等位基因A＝等位基因B＝N/2，其中，N为该区间的总拷贝数变异信息。

在一些实施例中，所述候选信号位点需满足以下条件中的至少一种：

1)该位点为杂合位点；

2)位点测序深度大于6；

3)该位点为非复等位基因位点(即非mutil allele位点)；

4)该位点的比对质量值大于10，比对质量值MAPQ＝-10*log10{mapping出错的概率}，比对质量值越大，则正确几率越大；

5)该位点不在黑名单区间上；

6)该位点与相邻的候选信号位点距离大于30bp。

在一些实施例中，所述候选信号位点需满足条件1)至条件6)中的全部。

在一些实施例中，所述黑名单区间包括但不限于染色体上重复序列区域、端粒重复区域。

在一些实施例中，所述待测样本的测序数据的测序深度≥8×。在另一些实施例中，所述待测样本的测序数据的测序深度≥9×。在另一些实施例中，所述待测样本的测序数据的测序深度≥10×。该测序数据为低深度测序数据。在一些实施例中，所述待测样本的测序数据的测序深度为8×至29×的任意一个测序深度，具体可以包括但不限于8×、9×、10×、11×、12×、13×、14×、15×、16×、17×、18×、19×、20×、21×、22×、23×、24×、25×、26×、27×、28×、29×。

在一些实施例中，所述待测样本包括但不限于肿瘤组织样本、血液细胞游离DNA样本、其他体液细胞游离DNA样本中的至少一种。

在一些实施例中，所述待测样本来源于人体。

在一些实施例中，所述待测样本的测序数据为全基因组测序数据。

在一些实施例中，所述待测样本的测序数据依次经过过滤、比对到参考基因组、质控，得到可用于后续分析的测序数据。

在一些实施例中，过滤参数包括但不限于如下参数中的至少一种：Q20＞80％、N＜5％，满足过滤参数的测序数据进入下一步骤(即比对到参考基因组)。

在一些实施例中，过滤参数同时包括：Q20＞80％，N＜5％。也即是说，同时满足这两个条件的数据才进入后续的比对步骤。

Q20是指读段中碱基质量值大于20的百分比。

N是指读段中未检出的碱基的占比。

在一些实施例中，质控参数包括但不限于如下参数中的至少一种：比对率≥90％、测序数据量≥9×、基因组覆盖度(5×深度)≥60％的样本。满足质控参数的测序数据为质控合格的数据，用于后续分析。

在一些实施例中，质控参数包括如下参数中的全部：比对率≥90％、测序数据量≥9×、基因组覆盖度(5×深度)≥60％的样本。

在一些实施例中，所述模型包括但不限于机器学习模型。

在一些实施例中，所述模型包括但不限于分类模型、聚类模型、回归模型中的至少一种。

在一些实施例中，所述模型的算法包括但不限于K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机(SVM)、神经网络、AdaBoost中的至少一种。

在一些实施例中，模型构建成功之后，可重复使用。

在一些实施例中，所述模型的构建方法包括：

信息提取步骤，包括分析比对到参考基因组的肿瘤样本和相应的正常样本的测序数据，提取等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息，将这些信息作为答案集，根据等位基因特异性拷贝数变异信息，获得总拷贝数变异信息为非0偶数区间的测序数据的起点、终点以及拷贝数变异类型；

不同纯度肿瘤样本制备步骤，包括将正常样本的测序数据混入同一生物体来源的肿瘤样本的测序数据中，降低肿瘤纯度，获得由不同肿瘤纯度的样本测序数据组成的模拟样本数据集，将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信息、全基因组复制信息作为机器学习输入特征值，以各个样本的等位基因特异性拷贝数变异信息作为标签，构建得到机器学习模型。

在一些实施例中，所述机器学习模型为二分类机器学习模型。

在一些实施例中，所述次等位基因频率分布信息为次等位基因频率分布曲线矩阵值。

在一些实施例中，所述模拟样本数据集中候选信号位点需满足以下条件中的至少一种：

1)该位点为杂合位点；

2)位点测序深度大于6；

3)该位点为非复等位基因位点；

4)该位点的变异质量值大于10；

5)该位点不在黑名单区间上；

6)该位点与相邻的候选信号位点距离大于30bp。

在一些实施例中，所述不同肿瘤纯度的样本为不同梯度肿瘤纯度的样本。梯度可以包括但不限于0.05、0.1、0.2等等。

在一些实施例中，模型的构建方法中，所述肿瘤样本但不限于肿瘤组织样本、血液细胞游离DNA样本、其他体液细胞游离DNA样本中的至少一种。

在一些实施例中，模型的构建方法中，所述相应的正常样本包括但不限于癌旁组织样本、血细胞样本、其他正常细胞样本中的至少一种。

在一些实施例中，模型的构建方法中，所述相应的正常样本是指与肿瘤样本来源于同一生物体的样本。

在一些实施例中，模型的构建方法中，所述肿瘤样本、相应的正常样本的测序数据均为全基因组测序数据。

在一些实施例中，模型的构建方法中，所述肿瘤样本、相应的正常样本的测序深度≥10×。

在一些实施例中，信息提取步骤中，先依次对肿瘤样本、相应的正常样本的测序数据进行过滤、对比到参考基因组、质控，得到可用于后续分析的比对数据。

在一些实施例中，过滤参数包括但不限于如下参数中的至少一种：Q20＞80％，N＜5％。满足过滤参数条件的测序数据进入下一步骤，即比对到参考基因组。

在一些实施例中，过滤参数包括如下参数中的全部：Q20＞80％，N＜5％。

在一些实施例中，质控参数包括但不限于比对率≥90％。满足质控参数条件的测序数据为质控合格的数据，用于后续的分析。

需要说明的是，比对到参考基因组的待测样本的测序数据是离体样本的测序数据，因此，不是以有生命的人体为对象；并且，等位基因特异性拷贝数变异预测结果和/或后续的同源重组缺陷预测步骤预测得到的待测样本的结果(即待测样本是否存在同源重组缺陷)只是中间结果，供后续的疾病诊断参考，属于中间参考信息，不是最终的诊断结果，在实际应用中，在利用本发明的方法预测待测样本是否存在同源重组缺陷之后，还需要结合受试者当前的主观感受症状、既往病史、家族遗传史等信息，才能得出最后的诊断结果或健康状况。单纯根据本发明的等位基因特异性拷贝数变异预测结果和/或同源重组缺陷预测步骤预测得到的结果是不能直接得到专利法意义上的诊断结果的。因此，本发明的技术方案不属于疾病的诊断方法，更不属于疾病的治疗方法。并且，本发明还可用于科研中相关疾病候选药物和/或候选新药的筛选等其他非诊断、非治疗目的。

在一些实施例中，所述综合值是指大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的总和。

在一些实施例中，获得所述综合值之后，根据全基因组复制信息，对所述综合值进行修正，得到修正值，根据所述修正值，预测待测样本是否存在同源重组缺陷。

在一些实施例中，对所述综合值进行修正的方法如下：获得大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值raw HRD score之后，利用全基因组复制信息对该综合值进行修正，当全基因组复制信息WGD＝0时，取最优阈值C1，当全基因组复制信息WGD＝0时，取最优阈值C2，修正值HRD score＝raw HRD score-WGD*(C1-C2)。

在一些实施例中，得到修正值之后，根据所述修正值与预设的同源重组缺陷阳性阈值之间的大小关系，预测待测样本是否存在同源重组缺陷。

在一些实施例中，如果修正值＞同源重组缺陷阳性阈值，则预测待测样本中存在同源重组缺陷。

在一些实施例中，如果修正值≤同源重组缺陷阳性阈值，则预测待测样本中不存在同源重组缺陷。

在一些实施例中，所述同源重组缺陷阳性阈值为[38-42]。同源重组缺陷阳性阈值具体可以包括但不限于38、39、40、41、42等等。此处仅仅是示例性列举，本领域技术人员可以根据需要设置具体的比对参考值。

存储器，用于存储程序；

在一些实施例中，如图1所示，本发明可分为如下三个模块：

1.模型构建模块

首先利用高深度配对样本的测序数据分析得到对应样本的ASCNV结果，标记候选区间和CNV类型作为答案集。然后利用配对的正常样本(即normal样本)稀释对应的肿瘤样本，提取稀释样本的候选BAF特征并按照答案集CNV类型进行标记，增加肿瘤纯度信息和WGD信息，构建机器学习模型。

2.分析预测模块

对低深度全基因组测序样本进行分析，获得肿瘤纯度信息、WGD信息以及TCNV信息。如果TCNV为奇数区间、0区间，则直接推算出ASCNV；如果TCNV为非0偶数区间(即TCNV＝2N，N≥1)，则提取TCNV＝2N(N≥1)区域的BAF特征，作为机器模型的输入，并预测CNV类型，再转换成ASCNV信息。

3.HRD检测模块

整合测试样本的ASCNV信息，分别计算LST、LOH、TAI三个指标数值。最后三个指标相加作为HRD score，并借助测试样本的WGD信息进行修正。

在一些实施例中，本发明只需10×全基因测序深度的待测样本测序数据，甚至可以低至8×，所需样本测序深度低，成本低，且无人群特异性和捕获偏好性。

在一些实施例中，本发明检测时为单样本，无需配对的正常样本。

在一些实施例中，本发明分析LST、LOH、TAI三个指标，准确度高。

在一些实施例中，本发明适用范围广，样本肿瘤纯度LOD(检测限)低至0.2，可实现低肿瘤纯度样本的检测。

在一些实施例中，本发明的产品升级较为容易，不受位点设计限制。

实施例1

本实施例中，tumor样本是指肿瘤样本，normal样本是指正常样本。

如图1所示，本实施例的各模块步骤如下：

1、模型构建模块

本实施例收集了148例配对肿瘤样本(即每个肿瘤样本与同一个体来源的正常样本配对，肿瘤样本为肿瘤组织样本，正常样本为癌旁组织样本)高深度全基因组测序数据(测序深度为30×)。其中涵盖了健康人(健康人的肿瘤为结节或良性的肿瘤)和四大癌种(卵巢癌、乳腺癌、前列腺癌、膀胱癌)。数据质量过滤(Q20＞80％，N＜5％)；使用BWA软件比对到人类参考基因组hg19，评估样本的污染率，去掉污染率高的样本(具体是去掉比对率＜90％的样本)，所得的剩余样本用于后续分析。

对于剩余配对样本，使用专业软件分析(软件可以是GATK、Accucopy、freeC等等，本实施例为freeC)等位基因特异性拷贝数变异(ASCNV)信息、肿瘤纯度信息和WGD信息，这些结果作为答案集。根据ASCNV信息获得“偶数拷贝候选区间”(偶数拷贝候选区间，即该区间的总拷贝突变数(TCNV)为2N(N≥1))的起点、终点以及CNV类型。

CNV类型包含AA型或AB型；AA型表示cnLOH，即等位基因A＝0或者等位基因B＝0；AB型表示等位基因A≠0且等位基因B≠0。

对剩余配对样本进行稀释，具体是将与肿瘤样本来源于同一个体的正常样本的读段(reads)按照特定比例混入到肿瘤样本数据中，降低肿瘤纯度，从而获得含有不同梯度肿瘤纯度(按照step＝0.05获得梯度样本，如肿瘤纯度等于0.9的，则梯度纯度为[0.9,0.85,0.8,0.75,0.7,...,0.15,0.1])的模拟样本集，且模拟样本集的数据深度为10×。

不同CNV类型的BAF(次等位基因频率)分布不同，因此，根据各个梯度纯度样本的BAF分布，判断CNV类型，例如，如图2所示，其中横坐标为BAF，纵坐标为密度分布指数。cnLOH型候选信号位点BAF分布在0.2和0.4均存在高峰，依据图2可以判断“偶数拷贝候选区间”的CNV类型为AA型，即cnLOH型。

如图3所示，其中横坐标为BAF，纵坐标为密度分布指数。若“偶数拷贝候选区间”的CNV类型为AB型，则候选信号位点BAF仅在0.4均存在高峰。

因此，可通过BAF的分布曲线判断“偶数拷贝候选区间”的CNV类型，CNV类型即为模型的预测结果，然后将预测结果转换为ASCNV结果。

二分类模型的构建方法具体如下：获取样本集的偶数拷贝候选区间的候选信号位点BAF分布。候选信号位点需同时满足以下条件：1.杂合位点；2.位点测序深度大于6；3.非复等位基因位点；4.突变质量值大于10；5.不在黑名单区间上(后续分析预测模块的黑名单区间与此处的黑名单相同)；6.相邻信号位点距离大于30bp。黑名单区间包括指染色体上重复序列区域、端粒重复区域等等，黑名单区间的确定可参考文献《The ENCODE Blacklist：Identification of Problematic Regions of the Genome》(作者：Haley M.Amemiya，Anshul Kundaje&Alan P.Boyle，在线公开时间：2019年6月7日，文献网址：https://www.nature.com/articles/s41598-019-45839-z)。

部分黑名单区间如表1所示。X染色体、Y染色体以及1至22号染色体上均有黑名单区间，本实施例共有2132个黑名单区间。

表1

染色体	起点	终点	染色体	起点	终点	染色体	起点	终点	染色体	起点	终点
												X	969238	970836	X	48863969	48864276	X	100645999	100667285	X	147546228	147546948
X	1437739	1438052	X	49008986	49009277	X	104048595	104049120	X	147903688	147903972
												Y	2709527	2800041	X	54249757	54250495	X	107386780	107682727	X	150161974	150162564
X	2976264	2976543	X	56269370	56269842	X	107683074	107940775	X	152163780	152164039
												Y	5661341	5661778	X	63430570	63430866	X	109096541	109097148	X	152669306	152669599
Y	7192338	7192636	X	67819926	67820315	X	110859125	110859401	X	152927611	152928147
												X	12413876	12414286	X	69441858	69442164	X	110867438	110867954	X	152931681	152931970
X	13592865	13593185	X	70182814	70183143	X	112099102	112099388	X	153618315	153637504
												X	13614355	13614667	X	70304339	70304637	X	113219603	113219893	X	153724167	153724463
Y	14365457	14366162	X	71264395	71264742	X	113824088	113824403	X	153724534	153724819
												Y	14394177	14394465	X	71418562	71418898	X	114432995	114433312	1	1340841	1341132
X	16216551	16217412	X	71443094	71443403	X	115108801	115109100	1	3699379	3699673
												X	16557262	16557562	X	71475529	71497150	X	117280026	117280524	1	6241329	6269449
X	18933365	18933653	X	72755339	72756077	X	118568482	118568781	1	8335184	8335438
												X	20470226	20470549	X	73462445	73462736	X	118920467	118925606	1	9039637	9039933
X	22072271	22072551	X	73610527	73610822	X	121672106	121673313	1	10007376	10007694
												Y	22918050	22942918	X	73629353	73629935	X	122844694	122844982	1	10366523	10366813
X	23854761	23855459	X	73673458	73673691	X	127447259	127448026	1	10450059	10450353
												X	25078768	25079056	X	74604181	74604663	X	127972419	127972812	1	10676893	10677170
Y	26357107	26357382	X	77140874	77141127	X	128542359	128542598	1	11293020	11293169
												X	36392908	36393298	X	78018723	78019396	X	130268062	130268364	1	12096799	12097071
X	39645780	39646077	X	81761883	81762261	X	133741187	133741662	1	19646299	19646554
												X	39724678	39725142	X	92828833	92829578	X	133784860	133785441	1	19750878	19751163
X	40794198	40795117	X	94934129	94934626	X	135873223	135873939	1	19934608	19935062
												X	41204835	41205129	X	95278359	95278644	X	136677424	136677710	1	20297462	20297760
X	41496727	41497012	X	95450476	95450616	X	137479510	137479787	1	20852482	20853244
												X	41542424	41542719	X	95665431	95665781	X	139168014	139168307	1	21330043	21330427
X	44508375	44508965	X	96596045	96596341	X	139553031	139553439	1	22305444	22305729
												X	44632021	44632307	X	97506677	97507541	X	142178133	142178463	1	22313974	22314268
X	47140214	47140462	X	100594905	100595922	X	142285034	142285377	1	22330078	22330361
												X	47700362	47701101	X	100645812	100651105	X	144138628	144138957	1	22337143	22337437

提取BAF分布曲线矩阵值，增加肿瘤纯度值和WGD值作为机器学习输入特征值，以专业软件(可以是GATK、Accucopy、freeC等任一软件，本实施例为freeC)分析得到的样本等位基因特异性拷贝数变异(ASCNV)作为参考标签(AA为0，AB为1)，构建二分类机器学习模型(机器学习模型包括朴素贝叶斯模型、决策树模型、SVM模型等)。对训练模型数据，使用十乘交叉检验模型的健壮性，结果如图4所示，图4中，横坐标为特异性(％)，即Specificity(％)，纵坐标为灵敏度(％)，即Sensitivity(％)，AUC(Area Under Curve)为ROC曲线(receiver operating characteristic curve，接收者操作特征曲线)下与坐标轴围成的面积。从图4可以看出，特异性高达91.1％，灵敏度高达95.8％，曲线下面积(AUC)高达98.0％，说明模型的健壮性非常好。

2、分析预测模块

获得测试样本(即单肿瘤样本，不再需要配对正常样本)的低深度(测序深度为10×)全基因组测序数据后，进行数据质量过滤(过滤参数为：Q20＞80％，N＜5％)；并比对到人类参考基因组上，根据比对率、测序数据量以及覆盖度进行质控，比对率<90％，或测序数据量小于9×，或者基因组覆盖度(5×深度)小于60％的样本为不合格样本，也即是说，只要样本不满足前述三个条件中的任一条件，即判定为不合格样本，应重新采样或重新测序，同时满足比对率≥90％、测序数据量≥9×、基因组覆盖度(5×深度)≥60％的样本为质控合格的样本，进入后续分析步骤。

使用专业软件(可以是Accucopy、freeC、ACE等等，本实施例使用的是freec软件)分析测试样本，得到肿瘤纯度、WGD和TCNV结果。然后根据染色体不同区段的TCNV进行分类处理，转换成ASCNV结果。

由于测试样本为低深度(10×)全基因组测序数据，因此，软件分析得到的ASCNV不可信，但TCNV可信。若染色体部分区段TCNV为奇数区间或为0区间，则可直接推算出ASCNV，即等位基因A和等位基因B数值；另外一些染色体区段TCNV为非0偶数区间，则需通过模型构建模块中构建的模型进行预测，得到该区间的ASCNV，作为HRD检测模块的输入值之一。

具体如下：

1)如果TCNV为奇数区间，则等位基因A＝1，等位基因B＝N-1；其中，N为该区间TCNV拷贝数；

2)如果TCNV为0区间，则等位基因A＝0，等位基因B＝0；

3)如果TCNV为非0偶数区间，则按照滑动窗口进行切割并独立预测，其中，窗口＝2Mb，2Mb＝2000kb＝2000000bp。

TCNV为非0偶数区间时，按照滑动窗口进行切割并独立预测的具体操作如下：获取滑动区间内的候选信号位点BAF分布，候选信号位点需同时满足以下条件：1.杂合位点；2.位点测序深度大于6；3.非复等位基因位点；4.突变质量值大于10；5.不在黑名单区间上(黑名单区间包括指染色体上重复序列区域、端粒重复区域等等)；6.相邻信号位点距离大于30bp。然后提取BAF分布曲线矩阵值，与肿瘤纯度值和WGD值整合作为机器学习。并利用训练模型进行预测，预测结果即为该区间的CNV类型。按以下规则转换成ASCNV结果：

1)如果CNV预测类型为AA，则等位基因A＝0，等位基因B＝N，其中，N为该区间TCNV拷贝数。

2)如果CNV预测类型为AB，则等位基因A＝等位基因B＝N/2，其中，N为该区间TCNV拷贝数。

3、HRD检测模块

整合上述三部分结果(即TCNV分别为奇数区间、0区间、非0偶数区间的ASCNV结果)，获得测试样本染色体每个区段的ASCNV结果，转换成scarHRD软件的输入格式，使用scarHRD软件分别计算LST score、LOH score、TAI score，并汇总获得raw HRD score。LSTscore表示大片段迁移分数，LOH score表示杂合性缺失分数，TAI score表示端粒等位基因不平衡分数。

raw HRD score＝LST score+LOH score+TAI score。

最后根据先验知识，利用WGD对raw HRD score进行修正。例如，当WGD＝0时，可以取一个最优阈值C1，当WGD＝1时，可以取一个最优阈值C2，公式为：

HRD score＝raw HRD score-WGD*(C1-C2)。

本实施例中，设定同源重组缺陷阳性阈值为42，如果最终HRD score大于42，则判断为HRD阳性，该样本可作为PARP获益群体样本。

采用上述方法进行如下样本检测实验。

低肿瘤纯度样本检测实验

取两例肿瘤样本，编号分别为179008702TD、189006257TD，样本179008702TD的肿瘤纯度为0.5(通过Freec和ACE等软件分析得到的肿瘤纯度)，样本189006257TD的肿瘤纯度为0.8。对两例肿瘤样本进行稀释，具体是将癌旁样本(与对应的肿瘤样本来自同一受试者)的reads按照特定比例混入到肿瘤样本数据中，降低肿瘤纯度，从而获得梯度肿瘤纯度(按照step＝0.1获得梯度样本，如肿瘤纯度等于0.9的，梯度纯度为[0.8,0.7,...,0.2,0.1])的模拟样本集，且模拟样本集的数据深度为10×。

对不同肿瘤纯度梯度的低深度全基因组测序数据，通过本实施例的方法计算得到HRDscore，样本179008702TD的不同肿瘤纯度梯度的数据结果如表2所示，样本189006257TD的不同肿瘤纯度梯度的数据结果如表3所示。

表2

表3

样本编号	肿瘤纯度	LOH	NtAI	LST	SUM
						189006257TD	0.1	13	23	19	55
189006257TD	0.2	14	19	25	58
						189006257TD	0.3	16	20	25	61
189006257TD	0.4	16	23	27	66
						189006257TD	0.5	16	23	26	65
189006257TD	0.6	16	23	26	65
						189006257TD	0.7	15	23	26	64
189006257TD	0.8	16	23	28	67

对肿瘤LOD(检测限)进行测试，从表2、表3的数据结果可以看出，肿瘤纯度在0.2时，HRD score依然稳定，说明样本肿瘤纯度LOD(检测限)低至0.2。

本实施例方法与配对WES检测的HRD score一致性评估实验如下：

取23例配对样本(肿瘤和癌旁组织)的WES测序数据，通过GATK软件分析获得变异信息，再通过ScarHRD软件计算HRDscore，作为对比例。

取上述23例单肿瘤样本的低深度全基因组测序数据，通过本实施例的方法检测得到HRD score，将该检测结果与配对WES检测的HRD score比较，图5所示为本实施例的方法的HRD score和配对WES检测的HRD score相关性曲线图，图5中，横坐标Pair-WES HRDscore为23例配对样本(肿瘤组织和癌旁组织)的WES测序数据的检测结果，纵坐标WGS HRDscore为使用本实施例的方法对23例单肿瘤样本的低深度全基因组测序数据进行检测的结果，可见，R²＝0.8921，说明本实施例的方法与对比例的方法的检测结果相关性非常高，从而说明两种方法的一致性强。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种单样本全基因组预测等位基因特异性拷贝数变异的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，如果总拷贝数变异信息为奇数区间，则等位基因A＝1，等位基因B＝N-1；其中，N为该区间的总拷贝数变异信息；如果总拷贝数变异信息为0区间，则等位基因A＝0，等位基因B＝0。

3.如权利要求1所述的方法，其特征在于，如果染色体区段的总拷贝数变异信息为非0偶数区间，通过模型预测得到该区间的等位基因特异性拷贝数变异信息的方法包括：按照滑动窗口对总拷贝数变异信息进行切割，并独立预测各个滑动窗口的拷贝数变异类型，然后将所述拷贝数变异类型转换为等位基因特异性拷贝数变异信息；

和/或，滑动窗口的长度为2Mb-3Mb；

和/或，获取滑动区间内的候选信号位点的次等位基因频率信息分布，然后提取次等位基因频率信息分布曲线矩阵值，将所述次等位基因频率信息分布曲线矩阵值与肿瘤纯度信息、全基因组复制信息整合，将整合结果输入模型，使用模型预测得到该区间的基因拷贝数变异类型，然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息；

和/或，按以下规则将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息：

2)如果模型预测的基因拷贝数变异类型为AB，则等位基因A＝等位基因B＝N/2，其中，N为该区间的总拷贝数变异信息；

和/或，所述候选信号位点需满足以下条件中的至少一种：

1)该位点为杂合位点；

2)位点测序深度大于6；

3)该位点为非复等位基因位点；

4)该位点的变异质量值大于10；

5)该位点不在黑名单区间上；

6)该位点与相邻的候选信号位点距离大于30bp；

和/或，所述候选信号位点需满足条件1)至条件6)中的全部；

和/或，所述黑名单区间包括染色体上重复序列区域、端粒重复区域；

和/或，所述待测样本的测序数据的测序深度≥8×；

和/或，所述待测样本的测序数据的测序深度为8×至29×，包括边界值；

和/或，所述待测样本选自肿瘤组织样本、血液细胞游离DNA样本中的至少一种；

和/或，所述待测样本来源于人体；

和/或，所述待测样本的测序数据为全基因组测序数据；

和/或，所述待测样本的测序数据依次经过过滤、比对到参考基因组、质控，得到可用于后续分析的测序数据。

4.如权利要求1所述的方法，其特征在于，所述模型包括机器学习模型；

和/或，所述模型选自分类模型、聚类模型、回归模型中的至少一种；

和/或，所述模型的算法选自K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络、AdaBoost中的至少一种；

和/或，所述模型的构建方法包括：

不同纯度肿瘤样本制备步骤，包括将正常样本的测序数据混入同一生物体来源的肿瘤样本的测序数据中，降低肿瘤纯度，获得由不同肿瘤纯度的样本测序数据组成的模拟样本数据集，将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信息、全基因组复制信息作为机器学习输入特征值，以各个样本的等位基因特异性拷贝数变异信息作为标签，构建得到机器学习模型；

和/或，所述机器学习模型为二分类机器学习模型；

和/或，所述次等位基因频率分布信息为次等位基因频率分布曲线矩阵值；

和/或，所述模拟样本数据集中候选信号位点需满足以下条件中的至少一种：

1)该位点为杂合位点；

2)位点测序深度大于6；

3)该位点为非复等位基因位点；

4)该位点的变异质量值大于10；

5)该位点不在黑名单区间上；

6)该位点与相邻的候选信号位点距离大于30bp；

和/或，所述不同肿瘤纯度的样本为不同梯度肿瘤纯度的样本；

和/或，模型的构建方法中，所述肿瘤样本选自肿瘤组织样本、血液细胞游离DNA样本中的至少一种，所述相应的正常样本选自癌旁组织样本、血细胞样本中的至少一种；

和/或，模型的构建方法中，所述相应的正常样本是指与肿瘤样本来源于同一生物体的样本；

和/或，模型的构建方法中，所述肿瘤样本、相应的正常样本的测序数据均为全基因组测序数据；

和/或，模型的构建方法中，所述肿瘤样本、相应的正常样本的测序深度≥10×。

和/或，信息提取步骤中，先依次对肿瘤样本的测序数据进行过滤、对比到参考基因组、质控，得到可用于后续分析的比对数据。

5.一种单样本全基因组检测同源重组缺陷的方法，其特征在于，包括：

等位基因特异性拷贝数变异预测步骤，包括根据权利要求1-4任意一项所述方法获得待测样本中染色体每个区段的等位基因特异性拷贝数变异信息；

6.如权利要求5所述的方法，其特征在于，所述综合值是指大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的总和；

和/或，获得所述综合值之后，根据全基因组复制信息，对所述综合值进行修正，得到修正值，根据所述修正值，预测待测样本是否存在同源重组缺陷；

和/或，对所述综合值进行修正的方法如下：获得大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值raw HRD score之后，利用全基因组复制信息对该综合值进行修正，当全基因组复制信息WGD＝0时，取最优阈值C1，当全基因组复制信息WGD＝0时，取最优阈值C2，修正值HRD score＝raw HRD score-WGD*(C1-C2)；

和/或，得到修正值之后，根据所述修正值与预设的同源重组缺陷阳性阈值之间的大小关系，预测待测样本是否存在同源重组缺陷；

和/或，如果修正值＞同源重组缺陷阳性阈值，则预测待测样本中存在同源重组缺陷；

和/或，如果修正值≤同源重组缺陷阳性阈值，则预测待测样本中不存在同源重组缺陷；

和/或，所述同源重组缺陷阳性阈值为[38-42]。

7.一种单样本全基因组预测等位基因特异性拷贝数变异的系统，其特征在于，包括：

8.一种单样本全基因组检测同源重组缺陷的系统，其特征在于，包括：

9.一种单样本全基因组检测同源重组缺陷的装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-6任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，所述程序能够被处理器执行以实现如权利要求1-6任意一项所述的方法。