CN114067909B

CN114067909B - 一种矫正同源重组缺陷评分的方法、装置和存储介质

Info

Publication number: CN114067909B
Application number: CN202111396426.XA
Authority: CN
Inventors: 管彦芳; 李彩琴; 刘涛; 程海楠; 方欢
Original assignee: Shenzhen Jiyinga Information Technology Co ltd; Beijing Jiyinjia Medical Laboratory Co ltd
Current assignee: Beijing Jiyinjia Medical Laboratory Co ltd; Shenzhen Jiyinga Information Technology Co ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-08-30
Anticipated expiration: 2041-11-23
Also published as: CN114067909A

Abstract

本申请公开了一种矫正同源重组缺陷评分的方法、装置和存储介质。本申请方法包括获取待测样本的体系CNV和体系SNV；利用体系CNV和SNV，计算待测样本最优模型下的WGD值，及原始的LOH score值、TAI score值、LSTscore值；对发生WGD的待测样本，矫正LST score值＝(1‑k1×WGD值)×原始LST score值，矫正TAI score值＝(1‑k2×WGD值)×原始LST score值。本申请矫正同源重组缺陷评分的方法和装置，利用WGD值对TAI和LST进行矫正，解决了全基因组倍增样本TAI和LST评分偏高的问题，提高了同源重组缺陷状态评估灵敏度和准确性。

Description

一种矫正同源重组缺陷评分的方法、装置和存储介质

技术领域

本申请涉及同源重组缺陷评分方法技术领域，特别是涉及一种矫正同源重组缺陷评分的方法、装置和存储介质。

背景技术

研究数据表明，女性同胞中卵巢癌的发病例逐年增加，死亡率也在增加；大多数卵巢癌患者发现已经是晚期，5年生存率不足30％；因此，卵巢癌已经成为女性最致命的恶性肿瘤之一。但是，随着PARP抑制剂的来临，给卵巢癌患者带了新的希望。2014年后多个PARP抑制剂陆续获批上市，极大地提高了卵巢癌患者的生存率，提高了生存的效益。卵巢癌PARP抑制剂的生物标记物从BRCA基因拓展到HRD(同源重组缺陷)状态，意味着卵巢癌获益人群将从20％左右扩展到50％以上，这对改善患者生存预后有极大帮助。

DNA同源重组修复(Homologous Recombination Repair,HRR)是DNA双链损伤的重要修复方式。HRR是一条涉及到多个步骤的复杂的信号通路，其中关键蛋白为BRCA1和BRCA2。当HRR出现问题时，会导致不能对聚集的双链DNA损伤进行修复，进而导致细胞的死亡，这种缺陷简称HRD(Homologous Recombination Deficiency)，即同源重组修复缺陷。当发生同源重组修复缺陷时，在基因组层面主要的不稳定表现为：基因组杂合缺失(LOH)，端粒等位基因不平衡(TAI)，大片段迁移(LST)。利用捕获测序数据对LOH、TAI、LST三个指标进行检测，进而评估HRD状态，即同源重组缺陷评分，这种结合染色体层面的检测相对比较全面，PARPi获益人群更广泛。

然而，现有的同源重组缺陷评分方法无法解决对发生全基因组倍增(WGD，whole-genome doubling)的肿瘤样本存在LST、TAI两个指标评分偏高的问题，存在由于发生WGD的因素导致灵敏度低、准确率低等缺陷。因此，如何更灵敏、准确的获得同源重组缺陷评分，是同源重组缺陷状态评估亟待解决的问题。

发明内容

本申请的目的是提供一种新的矫正同源重组缺陷评分的方法、装置和存储介质。

为了实现上述目的，本申请采用了以下技术方案：

本申请的第一方面公开了一种矫正同源重组缺陷评分的方法，包括以下步骤，

体系CNV和体系SNV突变集获取步骤，包括获取待测样本的体系CNV突变和体系SNV突变；

全基因组倍增WGD值获取步骤，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值；

同源重复缺陷评分步骤，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值；

矫正步骤，包括对发生WGD的待测样本(WGD＝1/2)，利用第一矫正系数k1矫正原始LST score值，利用第二矫正系数k2矫正原始TAI score值，

矫正后LST score值＝(1-k1×WGD值)×原始LST score值，

矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，

矫正后的同源重组缺陷评分HRD score值为矫正后LST score值、矫正后TAIscore值和原始LOH score值的加和。

需要说明的是，本申请的关键在于利用WGD值对HRD score值进行矫正，具体的，创造性的提出利用WGD值对TAI score值和LST score值进行矫正；从而解决发生全基因组倍增的肿瘤样本存在LST、TAI两个指标评分偏高的问题；使得矫正后的同源重组缺陷评分HRDscore值能够更灵敏、准确的用于同源重组缺陷状态评估。

还需要说明的是，本申请中，第一矫正系数k1和第二矫正系数k2是采用已知样本作为训练集训练获得的矫正系数。例如，本申请的一种实现方式中，矫正系数训练方法包括，采用穷举方法，以步长为0.1遍历0到1内的所有值作为LST score值、TAI score值的矫正系数，筛选BRCA阳性HRD阳性比例大于0.95、BRCA阴性HRD阳性比例小于0.5、P_value大于0.1的系数组合；其中P_value是WGD等于0样本集对应的HRD score和WGD不等于0样本集对应的HRD score值；结合筛选后的每个遍历系数下WGD-和WGD+样本集的HRD score值的秩和检验及利用训练集样本生存数据得到的HR、95％置信区间、预后价值四个维度的结果，训练获得第一矫正系数k1和第二矫正系数k2，以及HRD score阈值。

本申请的一种实现方式中，矫正步骤的第一矫正系数k1为0.3，第二矫正系数k2为0.4。

需要说明的是，第一矫正系数k1为0.3，第二矫正系数k2为0.4是本申请实施例中采用穷举方法遍历LST、TAI两个指标的系数，以BRCA阳性HRD阳性达到文献报道值以上、BRCA阴性HRD阳性达到文献报道值以下为目标确定的LST、TAI两个指标的系数。可以理解，按照相同的研究思路，第一矫正系数和第二矫正系数还可以是其他的具体数值。

本申请的一种实现方式中，体系CNV和体系SNV突变集获取步骤，具体是利用GATK软件检测CNV突变，结合配对样本CNV结果，过滤胚系CNV突变，得到体系CNV突变；利用Mutect2软件检测SNV突变，结合配对样本SNV结果，过滤胚系SNV突变，得到体系SNV突变。

需要说明的是，GATK软件检测CNV突变、Mutect2软件检测SNV突变以及具体的胚系突变过滤都只是本申请的一种实现方式中具体采用的方案，不排除还可以采用其他常规的CNV突变检测软件、SNV突变检测软件和胚系突变过滤方法。

本申请的一种实现方式中，全基因组倍增WGD值获取步骤中，计算待测样本最优模型下的WGD值，具体包括，利用体系CNV突变和体系SNV突变作为软件ABSOLUTE的输入，输出待测样本若干个模型下模拟的WGD值、purity值、ploidy值，对于预测得到的模型进行筛选确定最优模型，获得最优模型下的WGD值。

本申请的一种实现方式中，同源重复缺陷评分步骤中，计算待测样本的原始LOHscore值、原始TAI score值、原始LST score值，具体包括，利用体系CNV突变和体系SNV突变作为软件scarHRD的输入，输出待测样本的原始LOH score值、原始TAI score值、原始LSTscore值。

本申请的第二方面公开了一种矫正同源重组缺陷评分的装置，包括体系CNV和体系SNV突变集获取模块、全基因组倍增WGD值获取模块、同源重复缺陷评分模块和矫正模块；体系CNV和体系SNV突变集获取模块，用于获取待测样本的体系CNV突变和体系SNV突变；全基因组倍增WGD值获取模块，用于根据获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值；同源重复缺陷评分模块，用于根据获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值；矫正模块，用于对发生WGD的待测样本，利用第一矫正系数k1矫正原始LST score值，利用第二矫正系数k2矫正原始TAI score值，矫正后LST score值＝(1-k1×WGD值)×原始LST score值，矫正后TAIscore值＝(1-k2×WGD值)×原始TAI score值，矫正后的同源重组缺陷评分HRD score值为矫正后LST score值、矫正后TAI score值和原始LOH score值的加和。

需要说明的是，本申请矫正同源重组缺陷评分的装置，实际上就是通过各模块分别实现本申请矫正同源重组缺陷评分的方法中的各步骤；因此，各模块的具体限定可以参考本申请矫正同源重组缺陷评分的方法，在此不累述。

本申请的第三方面公开了一种矫正同源重组缺陷评分的装置，该装置包括存储器和处理器；其中，存储器，包括用于存储程序；处理器，包括用于通过执行该存储器存储的程序以实现本申请的矫正同源重组缺陷评分的方法。

本申请的第四方面公开了一种计算机可读存储介质，该存储介质中存储有程序，该程序能够被处理器执行以实现本申请的矫正同源重组缺陷评分的方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请矫正同源重组缺陷评分的方法和装置，利用WGD值对TAI score值和LSTscore值进行矫正，解决了全基因组倍增待测样本的TAI score值和LST score值偏高的问题，消除了HRD score值随WGD值增大而增大的情况，提高了同源重组缺陷状态评估的灵敏度和准确性。

附图说明

图1是本申请实施例中矫正同源重组缺陷评分的方法的流程框图；

图2是本申请实施例中矫正同源重组缺陷评分的装置的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他装置、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

现有的同源重组缺陷评分方法或软件普遍都是直接输出LOH score值、TAI score值和LST score值三个指标，没有对TAI score值和LST score值进行任何处理。本申请发明人研究发现，无论是在HRD阳性样本还是HRD阴性样本中，TAI score值和LST score值都会随着WGD值的增加而增加；也就是说，对于发生全基因组倍增的待测样本，其检测获得的TAIscore值和LST score值偏高，会影响同源重组缺陷状态评估的准确性。

基于以上研究和认识，本申请创造性的提出了一种新的矫正同源重组缺陷评分的方法，如图1所示，包括体系CNV和体系SNV突变集获取步骤11、全基因组倍增WGD值获取步骤12、同源重复缺陷评分步骤13和矫正步骤14。

其中，体系CNV和体系SNV突变集获取步骤11，包括获取待测样本的体系CNV突变和体系SNV突变。

本申请的一种实现方式中，主要利用GATK软件检测CNV突变，结合配对样本CNV结果，过滤胚系CNV突变，获得体系CNV突变；利用Mutect2软件检测SNV突变，结合配对样本SNV结果，过滤胚系SNV突变，获得体系SNV突变。

需要说明的是，以上实现方式中，关键技术点之一是，利用GATK软件检测体细胞发生LOH的区域。通常软件鉴定拷贝数变异时，利用肿瘤样本配对的血细胞作为对照检测CNV，但是单个肿瘤细胞配对样本不足以代表肿瘤样本的测序实验环境。而GATK软件选用一定数目的正常样本的bam文件构建正常基线，即PoN基线文件。杂合性缺失(Loss ofheterozygosity,LOH)是指在正常组织中，该位点处于杂合性的状态，而在肿瘤组织中，由于染色体拷贝数目的变化、基因转换、体细胞重组和有丝分裂不分离等机制导致原来处于杂合性状态的一些位点转化为纯合性状态。这种由杂合状态转换为纯合状态的结果称为杂合性缺失。而GATK软件(例如gatk-4.beta.1版本)借助发生CNV信息，采用一定的算法输出发生LOH的区域。

全基因组倍增WGD值获取步骤12，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值。本申请的一种实现方式中，具体是利用过滤后体系CNV、SNV突变位点集作为开源软件ABSOLUTE的输入，输出待测样本多个模型下模拟的WGD值、purity值、ploidy值等，根据自主研发的专利技术(202010567812.X)，对于预测得到的模型进行筛选确定最优模型，输出最优模型下的WGD值。

需要说明的是，筛选确定最优模型的方式参考专利202010567812.X，具体如下：(1)对肿瘤和正常样本的下机数据进行质控，并将质控后的数据比对到参考基因组上，对成对的肿瘤和正常样本的比对文件进行变异位点检测，对变异检测位点进行人群数据库注释；(2)将步骤(1)获得的数据作为纯度预测软件的输入文件，得到纯度和拷贝数信息模型；(3)通过模型倍型的探针支持数分布与全基因组加倍WGD的比较进一步判断纯度和拷贝数信息模型是否符合正常分布，删除不符合正常分布的纯度和拷贝数信息模型，具体的，如果WGD＝0，则倍型的探针支持数分布峰值应该在ploidy＝2，如果WGD＝1，则倍型的探针支持数分布峰值应该在ploidy＝2和ploidy＝4；如果WGD＝2，则倍型的探针支持数分布峰值应该在ploidy＝4和ploidy＝8，依此类推；如果不符合以上规律，则将纯度和拷贝数信息模型判断为不符合正常分布，予以删除；(4)对符合正常分布的纯度和拷贝数信息模型进行亚克隆区域筛选，并对筛选亚克隆区域进行纯度筛选，累加得到高肿瘤细胞分数亚克隆区域；(5)对纯度预测软件计算获得的BAF与allele1和allele2的拷贝数进行一致性统计，获得一致片段所占比例，计算公式如式一所示，式一M＝f÷(f+b)；式一中，M表示BAF与allele1和allele2拷贝数匹配率，f表示BAF与allele1和allele2拷贝数匹配的探针支持数，b表示BAF与allele1和allele2拷贝数不匹配的探针支持数；BAF与allele1和allele2拷贝数匹配的条件为，BAF＝0.5，且allele1拷贝数＝allele2拷贝数，判断为匹配；或者，BAF不等于0.5，且allele1拷贝数不等于allele2拷贝数，判断为匹配；其余类型为不匹配；(6)将高肿瘤细胞分数亚克隆区域的探针支持数累加值乘以BAF与allele1和allele2拷贝数匹配率，如式二所示，统计最终得分S，分数最高者为最优模型，式二S＝R×M；式二中，S表示模型判断的最终得分，R表示高肿瘤细胞分数亚克隆区域探针支持数累加值，M表示BAF与allele1和allele2拷贝数匹配率。专利202010567812.X中所有与最优模型筛选或确定相关的技术援引至本申请。

需要说明的是，以上实现方式中，关键技术点之一是，利用ABSOULTE软件检测待测样本的WGD值。ABSOULTE软件的文献发表在NBT计算生物学上，该文献是我目前所知CNV绝对定量最经典的一篇。是最常用的评估肿瘤纯度、肿瘤倍性、基因组加倍的软件，它是基于拷贝数变异数及单核苷酸突变两个维度的突变数据评估纯度、倍性、基因组加倍的结果，它还能使用大量不同的样本集合来帮助解决模糊情况，还可对样本中的亚克隆拷贝数改变和点突变做出解释。主要通过三个子模型进行计分，然后进行整合，最高分者为最优模型，但是文章也指出最优模型并不是最好的，所以基于ABSOULTE输出结果，进一步的筛选和确定最优模型，快速高效的校正了纯度检测软件的模型，能更准确的得到肿瘤的纯度、倍性、全基因组加倍三个维度的信息，保障准确度的同时，避免了人工校验的繁琐过程，节省了人工成本。

同源重复缺陷评分步骤13，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值。本申请的一种实现方式中，是利用过滤后体系CNV、SNV突变位点集作为开源软件scarHRD的输入，输出待测样本的原始LOH score值、原始TAI score值、原始LST score值三个指标的评分。

矫正步骤14，包括对发生WGD的待测样本(WGD＝1/2)，利用第一矫正系数k1矫正原始LST score值，利用第二矫正系数k2矫正原始TAI score值，

矫正后LST score值＝(1-k1×WGD值)×原始LST score值，

矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，

本申请的一种实现方式中，采用穷举方法遍历LST、TAI两个指标的系数，以BRCA阳性HRD阳性达到文献报道值以上、BRCA阴性HRD阳性达到文献报道值以下为目标确定LST、TAI两个指标的系数，最终确定第一矫正系数k1为0.3，第二矫正系数k2为0.4。因此，HRDscore值公式如下：

矫正后HRD score值＝(1-0.3×WGD值)×原始LST score值+(1-0.4×WGD值)×原始TAI score值+原始LOH score值。

并且，最终确定HRD score值的阈值为33。需要说明的是，第一矫正系数k1为0.3，第二矫正系数k2为0.4，阈值为33，都是本申请的一种实现方式中具体展示的其中一种可行的系数方案和阈值方案；在相同的发明构思下，采用不同的数据样本，以上具体数值会有所不同，在此不作具体限定。

本领域技术人员可以理解，上述方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述方法中全部或部分功能。

因此，基于本申请的方法，本申请提出了一种矫正同源重组缺陷评分的装置，如图2所示，包括体系CNV和体系SNV突变集获取模块21、全基因组倍增WGD值获取模块22、同源重复缺陷评分模块23和矫正模块24。

其中，体系CNV和体系SNV突变集获取模块21，用于获取待测样本的体系CNV突变和体系SNV突变。例如参考GATK软件检测CNV突变，过滤胚系CNV突变，获得体系CNV突变；参考Mutect2软件检测SNV突变，过滤胚系SNV突变，获得体系SNV突变。

全基因组倍增WGD值获取模块22，用于根据获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值。例如参考软件ABSOLUTE，以体系CNV突变和体系SNV突变为输入，输出若干个模型下模拟的WGD值、purity值、ploidy值，再筛选获得最优模型及最优模型下的WGD值。

同源重复缺陷评分模块23，用于根据获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值。例如参考软件scarHRD，以体系CNV突变和体系SNV突变为输入，输出待测样本的原始LOH score值、原始TAI score值、原始LST score值。

矫正模块24，用于对发生WGD的待测样本(WGD＝1/2)，利用第一矫正系数k1矫正原始LST score值，利用第二矫正系数k2矫正原始TAI score值，

矫正后LST score值＝(1-k1×WGD值)×原始LST score值，

矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，

例如，LST score值的矫正系数为0.3，TAI score值的矫正系数为0.4，HRD score值公式如下：

本申请的装置，利用各模块相互协调作用，能够实现本申请的矫正同源重组缺陷评分的的方法，特别是通过本申请装置的各模块能够实现本申请方法中的相应的各个步骤，从而实现自动化的矫正同源重组缺陷评分。

本申请的另一实现方式中还提供了一种矫正同源重组缺陷评分的装置，该装置包括存储器和处理器；存储器，包括用于存储程序；处理器，包括用于通过执行存储器存储的程序以实现以下方法：体系CNV和体系SNV突变集获取步骤，包括获取待测样本的体系CNV突变和体系SNV突变；全基因组倍增WGD值获取步骤，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值；同源重复缺陷评分步骤，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值；矫正步骤，包括对发生WGD的待测样本(WGD＝1/2)，利用第一矫正系数k1矫正原始LSTscore值，利用第二矫正系数k2矫正原始TAI score值，矫正后LST score值＝(1-k1×WGD值)×原始LST score值，矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，矫正后的同源重组缺陷评分HRD score值为矫正后LST score值、矫正后TAI score值和原始LOHscore值的加和。

本申请另一种实现方式中还提供一种计算机可读存储介质，该存储介质中包括程序，该程序能够被处理器执行以实现如下方法：体系CNV和体系SNV突变集获取步骤，包括获取待测样本的体系CNV突变和体系SNV突变；全基因组倍增WGD值获取步骤，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值；同源重复缺陷评分步骤，包括利用获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAIscore值、原始LST score值；矫正步骤，包括对发生WGD的待测样本(WGD＝1/2)，利用第一矫正系数k1矫正原始LST score值，利用第二矫正系数k2矫正原始TAI score值，矫正后LSTscore值＝(1-k1×WGD值)×原始LST score值，矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，矫正后的同源重组缺陷评分HRD score值为矫正后LST score值、矫正后TAI score值和原始LOH score值的加和。

本申请矫正同源重组缺陷评分的方法和装置，主要包括：1.利用测序下机数据，经过比对、排序、过滤、标记重复等步骤后生成的测序数据文件(bam格式)；2.将待测样本比对的bam文件作为GATK软件的输入，分析待测样本发生CNV突变的segment区段，并输出区段的大小、区段包含的探针数、区段的BAF值等信息；3.将待测样本比对的bam文件作为检测SNV的输入，分析待测样本的发生单核苷酸体系突变位点信息，输出位点的位置、注释基因、注释转录本等信息；4.将获取到的待测样本的CNV和SNV信息作为ABSOULTE软件的输入，预测待测样本的纯度(purity)、倍性(ploidy)、全基因组加倍(WGD)等信息；5.将获取到的待测样本的CNV和SNV信息作为scarHRD软件的输入，预测待测样本HRD-score评分值，即分别获取到LOH、LST、TAI三个指标的评分值；6.根据待测样本的WGD值判断是否需要矫正LSTscore、TAI score两个指标值，输出经矫正后的HRD score值。

本申请所要求的主要输入文件包括：待测样本经过比对、排序、过滤、标记重复等步骤后生成的测序数据文件(bam格式)、目标捕获区域文件(bed格式，包含染色体、目标捕获区域起始点、终止点)、人类参考基因组序列(fastq格式)。本申请的主要输出文件包括：待测样本LOH score、TAI score、LST score三个指标的评分值。本申请的一种实现方式中，提供HRD score计算运行模式：自动化HRD score值计算模块，单线程运行，一次鉴定一个待测样本。

本申请利用标准品评估ABSOLUTE软件获取WGD值的性能，以此提高待测样本检测HRD结果灵敏性和准确性。本申请的一种实现方式中，LST、TAIscore校正系数分别为0.3、0.4，且HRD score值阈值为33时，统计了136例样本，利用WGD值未校正和校正HRD score值后的BRCA阳性HRD阳性、BRCA阴性HRD阳性比例，发现BRCA阴性HRD阳性比例明显下降，接近文献报道值，除此之外消除了随着WGD值的增大HRDscore值也随着增大情况，具体统计结果如表1所示。

表1 未校正和校正HRD score值的统计结果

表1的结果显示，本申请矫正同源重组缺陷评分的方法，能够解决全基因组倍增待测样本的TAI score值和LST score值偏高的问题，使得矫正后的同源重组缺陷评分HRDscore值能够更灵敏、准确的用于同源重组缺陷状态评估。

本申请的术语及其缩写含义如下：

HRD score值：同源重组缺陷评分。

LOH：基因组杂合性缺失。

TAI：端粒等位基因不平衡。

LST：大片端迁移是指通过过滤掉小于3MB的区域后，相邻区域之间至少10MB之间的染色体断点数量。

CNV：全称是Copy number variations，即基因拷贝数变异。

SNV：单核苷酸变异。

WGD：全基因组复制或全基因组加倍，WGD值即全基因组加倍的倍数。

Purity值：肿瘤细胞的占比。

Ploidy值：肿瘤细胞的平均拷贝数。

实施例

本例矫正同源重组缺陷评分的方法，包括以下步骤：

体系CNV和体系SNV突变集获取步骤：获取待测样本的体系CNV突变和体系SNV突变。

本例具体利用GATK软件检测CNV突变，结合配对样本CNV结果，过滤胚系CNV突变，获得体系CNV突变；利用Mutect2软件检测SNV突变，结合配对样本SNV结果，过滤胚系SNV突变，获得体系SNV突变。

全基因组倍增WGD值获取步骤：包括利用获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值。

本例具体利用过滤后体系CNV、SNV突变位点集作为开源软件ABSOLUTE的输入，输出待测样本多个模型下模拟的WGD值、purity值、ploidy值，根据自主研发的专利技术(202010567812.X)，对于预测得到的模型进行筛选确定最优模型，输出最优模型下的WGD值。

筛选确定最优模型的方式具体如下：(1)对肿瘤和正常样本的下机数据进行质控，并将质控后的数据比对到参考基因组上，对成对的肿瘤和正常样本的比对文件进行变异位点检测，对变异检测位点进行人群数据库注释；(2)将步骤(1)获得的数据作为纯度预测软件的输入文件，得到纯度和拷贝数信息模型；(3)通过模型倍型的探针支持数分布与全基因组加倍WGD的比较进一步判断纯度和拷贝数信息模型是否符合正常分布，删除不符合正常分布的纯度和拷贝数信息模型，具体的，如果WGD＝0，则倍型的探针支持数分布峰值应该在ploidy＝2，如果WGD＝1，则倍型的探针支持数分布峰值应该在ploidy＝2和ploidy＝4；如果WGD＝2，则倍型的探针支持数分布峰值应该在ploidy＝4和ploidy＝8，依此类推；如果不符合以上规律，则将纯度和拷贝数信息模型判断为不符合正常分布，予以删除；(4)对符合正常分布的纯度和拷贝数信息模型进行亚克隆区域筛选，并对筛选亚克隆区域进行纯度筛选，累加得到高肿瘤细胞分数亚克隆区域；(5)对纯度预测软件计算获得的BAF与allele1和allele2的拷贝数进行一致性统计，获得一致片段所占比例，计算公式如式一所示，式一M＝f÷(f+b)；式一中，M表示BAF与allele1和allele2拷贝数匹配率，f表示BAF与allele1和allele2拷贝数匹配的探针支持数，b表示BAF与allele1和allele2拷贝数不匹配的探针支持数；BAF与allele1和allele2拷贝数匹配的条件为，BAF＝0.5，且allele1拷贝数＝allele2拷贝数，判断为匹配；或者，BAF不等于0.5，且allele1拷贝数不等于allele2拷贝数，判断为匹配；其余类型为不匹配；(6)将高肿瘤细胞分数亚克隆区域的探针支持数累加值乘以BAF与allele1和allele2拷贝数匹配率，如式二所示，统计最终得分S，分数最高者为最优模型，式二S＝R×M；式二中，S表示模型判断的最终得分，R表示高肿瘤细胞分数亚克隆区域探针支持数累加值，M表示BAF与allele1和allele2拷贝数匹配率。

同源重复缺陷评分步骤：包括利用获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值。本例具体利用过滤后体系CNV、SNV突变位点集作为开源软件scarHRD的输入，输出待测样本的原始LOH score值、原始TAI score值、原始LST score值三个指标的评分。

矫正步骤，包括对发生WGD的待测样本，利用第一矫正系数k1矫正原始LST score值，利用第二矫正系数k2矫正原始TAI score值，

矫正后LST score值＝(1-k1×WGD值)×原始LST score值，

矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，

本例具体利用136例样本作为训练集，所有样本都是配对样本；本例的136例样本由北京吉因加科技有限公司保存和提供。采用穷举方法，以步长为0.1遍历0到1内的所有值作为LST score值、TAI score值的矫正系数，筛选了BRCA阳性HRD阳性比例大于0.95、BRCA阴性HRD阳性比例小于0.5、P_value大于0.1的系数组合；其中P_value是WGD等于0样本集对应的HRD score和WGD不等于0样本集对应的HRDscore值。筛选后的部分遍历结果如表2所示。

表2 矫正系数遍历结果

结合筛选后的每个遍历系数下WGD-和WGD+样本集的HRD-score值的秩和检验及利用患者生存数据得到的HR、95％置信区间、预后价值四个维度的结果，最终确定了TAI、LST校正系数为0.4、0.3，阈值为33。

因此，矫正后LST score值、矫正后TAI score值和矫正后HRD score值，具体计算公式如下：

矫正后LST score值＝(1-0.3×WGD值)×原始LST score值，

矫正后TAI score值＝(1-0.4×WGD值)×原始TAI score值，

根据已确定的最优校正系数、阈值，对136例样本构建训练集矫正HRD score值，部分样本校正结果如表3所示。

表3 矫正后的HRD score值

利用WGD值未校正和矫正后的HRD score值，统计136例样本的BRCA阳性HRD阳性、BRCA阴性HRD阳性比例，结果如表1所示。

表1 未校正和校正HRD score值的统计结果

以上结果显示，本例利用WGD值对TAI score值和LST score值进行矫正，解决了发生全基因组倍增的肿瘤样本存在LST、TAI两个指标评分偏高的问题，使得矫正后的HRDscore值能够更灵敏、准确的评估同源重组缺陷状态。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种矫正同源重组缺陷评分的方法，其特征在于：包括以下步骤，

矫正后LST score值＝(1-k1×WGD值)×原始LST score值，

矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，

矫正后的同源重组缺陷评分HRD score值为矫正后LST score值、矫正后TAI score值和原始LOH score值的加和；

所述全基因组倍增WGD值获取步骤中，计算待测样本最优模型下的WGD值包括，利用体系CNV突变和体系SNV突变作为软件ABSOLUTE的输入，输出待测样本若干个模型下模拟的WGD值、purity值、ploidy值，对于预测得到的模型进行筛选确定最优模型，获得最优模型下的WGD值。

2.根据权利要求1所述的方法，其特征在于：所述体系CNV和体系SNV突变集获取步骤，包括利用GATK软件检测CNV突变，结合配对样本CNV结果，过滤胚系CNV突变，得到体系CNV突变；利用Mutect2软件检测SNV突变，结合配对样本SNV结果，过滤胚系SNV突变，得到体系SNV突变。

3.根据权利要求1或2所述的方法，其特征在于：所述同源重复缺陷评分步骤中，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值包括，利用体系CNV突变和体系SNV突变作为软件scarHRD的输入，输出待测样本的原始LOH score值、原始TAI score值、原始LST score值。

4.一种矫正同源重组缺陷评分的装置，其特征在于：包括体系CNV和体系SNV突变集获取模块、全基因组倍增WGD值获取模块、同源重复缺陷评分模块和矫正模块，

所述体系CNV和体系SNV突变集获取模块，包括用于获取待测样本的体系CNV突变和体系SNV突变；

所述全基因组倍增WGD值获取模块，包括用于根据获得的体系CNV突变和体系SNV突变，计算待测样本最优模型下的WGD值；

所述同源重复缺陷评分模块，包括用于根据获得的体系CNV突变和体系SNV突变，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值；

所述矫正模块，包括用于对发生WGD的待测样本，利用第一矫正系数k1矫正原始LSTscore值，利用第二矫正系数k2矫正原始TAI score值，

矫正后LST score值＝(1-k1×WGD值)×原始LST score值，

矫正后TAI score值＝(1-k2×WGD值)×原始TAI score值，

所述全基因组倍增WGD值获取模块中，计算待测样本最优模型下的WGD值包括，利用体系CNV突变和体系SNV突变作为软件ABSOLUTE的输入，输出待测样本若干个模型下模拟的WGD值、purity值、ploidy值，对于预测得到的模型进行筛选确定最优模型，获得最优模型下的WGD值。

5.根据权利要求4所述的装置，其特征在于：所述体系CNV和体系SNV突变集获取模块，包括利用GATK软件检测CNV突变，结合配对样本CNV结果，过滤胚系CNV突变，得到体系CNV突变；利用Mutect2软件检测SNV突变，结合配对样本SNV结果，过滤胚系SNV突变，得到体系SNV突变。

6.根据权利要求4或5所述的装置，其特征在于：所述同源重复缺陷评分模块中，计算待测样本的原始LOH score值、原始TAI score值、原始LST score值包括，利用体系CNV突变和体系SNV突变作为软件scarHRD的输入，输出待测样本的原始LOH score值、原始TAI score值、原始LST score值。

7.一种矫正同源重组缺陷评分的装置，其特征在于：所述装置包括存储器和处理器；

所述存储器，包括用于存储程序；

所述处理器，包括用于通过执行所述存储器存储的程序以实现权利要求1-3任一项所述的方法。

8.一种计算机可读存储介质，其特征在于：所述存储介质中存储有程序，所述程序能够被处理器执行以实现权利要求1-3任一项所述的方法。