CN114096681B

CN114096681B - 同源重组缺失检测方法及其试剂组

Info

Publication number: CN114096681B
Application number: CN202180004123.0A
Authority: CN
Inventors: 王玮馥; 叶雅琪; 陈映嘉; 陈淑贞; 陈建宏; 陈冠萤; 谭文皓
Original assignee: Action Gene Zhicai Co ltd
Current assignee: Action Gene Zhicai Co ltd
Priority date: 2021-01-10
Filing date: 2021-08-13
Publication date: 2024-06-21
Anticipated expiration: 2041-08-13
Also published as: JP2024502611A; US20240026462A1; CN114096681A; EP4274908A1

Abstract

本发明提供一种评估个体的同源重组缺失(homologous recombination deficiency，HRD)状态的方法、系统及试剂组。本发明进一步提供一种依据人类个体的HRD状态而决定疗法的方法、系统及试剂组。

Description

同源重组缺失检测方法及其试剂组

技术领域

本申请案主张2021年1月10日提出的美国临时申请案第63/135,622号的优先权，其全部内容通过引用并入本文。

本发明系关于一种评估同源重组缺失(homologous recombination deficiency，HRD)状态的方法、系统及试剂组。

背景技术

聚(二磷酸腺苷核糖)聚合酶(poly(ADP-ribose)polymerases，PARPs)途径及同源重组修复(homologous recombination repair，HRR)途径皆参与DNA损伤之修复。抑制PARP可能导致未修复的DNA单股断裂(single-strand breaks，SSBs)以及暂停复制叉(replication forks)的累积，造成DNA复制过程中复制叉崩解以及产生双股DNA断裂(double-strand DNA breaks，DSBs)。在正常细胞中，双股DNA断裂是透过HRR途径予以修复。当HRR有缺失时，抑制PARP会导致合成致死(synthetic lethality)发生。现今，PARP抑制剂已被开发为带有同源重组缺失癌症患者的治疗药物。

关于PARP抑制剂疗法，在该疗法开始前大多需要进行生物标志物(biomarker)检测(即BRCA1/2突变状态)，以识别最能从该疗法中获益的患者。到目前为止，已经获得食品药物管理局批准的PARP抑制剂疗法的伴随式诊断检测(companion diagnostic test)仅有两种，即Myriad myChoice和FoundationFocus。目前仍然需要开发更多的伴随式诊断检测法以测定患者的HRD状态。

发明内容

总括而言，本发明系关于一种评估个体的同源重组缺失(HRD)状态的方法，包含：

(1)对来自一个体的一样本中的复数个单核苷酸多型性(single nucleotidepolymorphism，SNP)位点(loci)进行定序，其中每两个相邻的SNP位点之间有一区间(interval)，并且至少50％的该区间的长度为0.01至1Mb；

(2)依据该定序的结果确定异型合子丧失(loss of heterozygosity，LOH)SNP位点的数量及非同型合子(non-homozygous)SNP位点的数量；

(3)计算LOH分数，其中该LOH分数是该LOH SNP位点的数量与该非同型合子SNP位点的数量的比值；以及

(4)依据该LOH分数识别HRD状态。

在一些实施例中，该复数个SNP位点的数量为至少1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、20000、30000、40000、50000。60000、70000、80000、90000、100000、110000、120000、130000、140000、150000、160000、170000、180000、190000、200000、210000、220000、230000、240000、250000、260000、270000、280000、290000、或300000个。在一些实施例中，该复数个SNP位点的数量为1000至260000个、2000至200000个、3000至100000个、3000至60000个、6000至11000个、7000至10000个、或7500至9500个。在一些实施例中，该复数个SNP位点系位于至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21或22对人类染色体。在一些实施例中，该复数个SNP位点系位于体染色体(autosomal chromosome)。在一些实施例中，该SNP位点系位于人类染色体臂1p、2p、3p、4p、5p、6p、7p、8p、9p、10p、11p、12p、16p、17p、18p、19p、20p、21p、22p、1q、2q、3q、4q、5q、6q、7q、8q、9q、10q、11q、12q、13q、14q、15q、16q、17q、18q、19q、20q、21q及/或22q。在一些实施例中，该复数个SNP位点之间的复数个区间中，至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或100％的区间的长度为0.01至3Mb、0.02至2Mb、0.03至1Mb、0.06至1Mb、0.1至1Mb、0.1至0.5Mb、或0.06至0.6Mb。在一些实施例中，该复数个SNP位点之间的区间的平均长度为0.01至3Mb、0.02至2Mb、0.03至1Mb、0.06至1Mb、0.1至1Mb、0.06至0.6Mb、0.1至0.5Mb、或0.2至0.4Mb。

在一些实施例中，染色体异常(chromosomal aberration)是异型合子丧失(LOH)。在一些实施例中，该HRD分数是LOH分数。在一些实施例中，该LOH分数是带有染色体异常的非同型合子SNP位点的数量与非同型合子SNP位点的数量的比值。在一些实施例中，该LOH分数是LOH SNP位点的数量与非同型合子SNP位点的数量的比值。在一些实施例中，非同型合子SNP位点包含异型合子(heterozygous)SNP位点及LOH SNP位点。在一些实施例中，该异型合子SNP位点是从SNP位点中确定。

在一些实施例中，该LOH分数是透过排除不平衡染色体臂(imbalancedchromosome arm)来调整。在一些实施例中，该LOH分数是该LOH SNP位点在非不平衡染色体臂上的数量与该非同型合子SNP位点在非不平衡染色体臂上的数量的比值。在一些实施例中，该不平衡染色体臂的特征是一染色体臂中该LOH SNP位点的数量相对于该非同型合子SNP位点的数量为一预定比值，且该预定比值为至少70％、75％、80％、85％、90％、95％或100％。

在一些实施例中，用于表征不平衡染色体臂的带有LOH的非同型合子SNP位点的比值是依据样本的肿瘤含量(tumorpurity)值进行调整。在一些实施例中，用于识别不平衡染色体臂的带有LOH的非同型合子SNP位点的比值为至少70％、75％、80％、85％、90％、95％、98％或100％。在一些实施例中，该肿瘤含量值是介于30％至95％之间或介于30％至70％之间。在一些实施例中，该肿瘤含量值为30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％或95％。

在一些实施例中，该HRD状态被识别为HRD阳性或HRD阴性。在一些实施例中，用于识别HRD状态的LOH分数的阈值(cutoff value)为0.3、0.35、0.4、0.45、0.5、0.55或0.6。

另一方面，本发明大体上系关于一种评估个体的HRD状态的方法，包含：

(1)对来自一个体的一样本中的复数个SNP位点进行定序，其中每两个相邻的SNP位点之间有一区间，并且至少50％的该区间的长度为0.01至1Mb；

(2)计算LOH SNP位点的数量与非同型合子SNP位点的数量的比值；以及

(3)识别HRD状态。

(1)对来自一个体的一样本中的至少一同源重组修复(HRR)相关基因进行定序；

(2)确定该HRR相关基因之任一者是否带有变异(alteration)；以及

(3)识别该个体的HRD状态。

在一些实施例中，当该基因至少一者带有变异时，HRD状态被识别为HRD阳性。在一些实施例中，当没有任何基因带有变异时，HRD状态被识别为HRD阴性。

在一些实施例中，该变异是选自由单核苷酸变异(single nucleotide variant，SNV)、插入(insertion)、缺失(deletion)、扩增(amplification)、基因融合(gene fusion)及重组(rearrangement)所组成的群组。在一些实施例中，该变异是选自由SNV、小片段插入和缺失(small insertions and deletion，INDEL)、大片段基因重组(large genomicrearrangement，LGR)及拷贝数变异(copy number variation，CNV)所组成的群组。在一些实施例中，该变异是生殖细胞变异(germline alteration)或体细胞变异(somaticalteration)。

(1)对包含BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、RAD54L或其任意组合之基因进行定序；

(2)确定前述BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D及RAD54L之任一基因是否带有变异；以及

(3)识别HRD状态。

在一些实施例中，该方法进一步包含依据该个体的该HRD状态决定一疗法的步骤及/或向该个体施用治疗有效量的一疗法的步骤。

在一些实施例中，该疗法包含给予一药物，其包括但不限于DNA损伤剂(DNAdamaging agent)、蒽环类化合物(anthracycline)、拓朴异构酶I抑制剂(topoisomerase Iinhibitor)、放射线、及/或PARP抑制剂或其任意组合。在一些实施例中，该PARP抑制剂包括但不限于奥拉帕利(olaparib)、尼拉帕利(niraparib)、鲁卡帕利(rucaparib)及他拉唑帕利(talazoparib)。

在一些实施例中，评估样本的HRD状态的方法是在次世代定序(NGS)计算平台上执行。在一些实施例中，该样本是通过NGS检测进行定序。在一些实施例中，用于NGS检测的次世代定序系统包括但不限于Illumina公司制造的MiSeq、HiSeq、MiniSeq、iSeq、NextSeq、及NovaSeq定序仪，Life Technologies公司制造的Ion Personal Genome Machine(PGM)、IonProton、Ion S5系列、及Ion GeneStudio S5系列，以及BGI公司制造的BGIseq系列、DNBseq系列及MGIseq系列，以及由Oxford Nanopore Technologies公司制造的MinION/PromethION定序仪。

在一些实施例中，定序片段(sequencing reads)是由初始样本扩增后的核酸或用诱饵(bait)捕获的核酸而产生。在一些实施例中，该定序片段是从需要添加一转接子序列(adapter sequence)的定序仪所产生。在一些实施例中，该定序片段是从包括但不限于下列的方法所产生：杂交捕获(hybrid capture)、引子延伸目标扩增(primer extensiontarget enrichment)、基于分子倒位探针(molecular inversion probe)的方法、或多重目标特异性聚合酶连锁反应(multiplex target-specific PCR)。

在一些实施例中，该样本是来自细胞株(cell line)、活体组织检体(biopsy)、原发组织(primary tissue)、冷冻组织、福尔马林固定石蜡包埋(formalin-fixed paraffin-embedded，FFPE)组织、液态活体组织检体(liquid biopsy)、血液、血清、血浆、白血球层(buffy coat)、体液、内脏液、腹水、腔液穿刺(paracentesis)、脑脊髓液、唾液、尿液、泪液、精液、阴道分泌物、抽出物(aspirate)、灌洗液(lavage)、口腔抹片(buccal swab)、外周血单核细胞(peripheral blood mononuclear cells，PBMC)、循环肿瘤细胞(circulatingtumor cell，CTC)、游离DNA(cell-free DNA，cfDNA)、循环肿瘤DNA(circulating tumorDNA，ctDNA)、DNA、RNA、核酸、纯化的核酸、纯化的DNA、或纯化的RNA。

在一些实施例中，该样本来自一人类个体。在一些实施例中，该样本是一临床样本。在一些实施例中，该样本来自一患者。在一些实施例中，该样本来自一患者，其患有癌症、实体瘤、或血液恶性肿瘤。在一些实施例中，该样本来自一患者，其患有卵巢癌(ovariancancer)、前列腺癌(prostate cancer)、乳癌(breast cancer)、胰脏癌(pancreaticcancer)。在一些实施例中，该样本来自一患者，其患有脑癌(brain cancer)、乳癌(breastcancer)、结肠癌(colon cancer)、内分泌腺癌(endocrine gland cancer)、食道癌(esophageal cancer)、女性生殖器官癌、头颈癌(head and neck cancers)、肝胆系统癌症(hepatobiliary system cancer)、肾癌(kidney cancer)、肺癌(lung cancer)、间质细胞瘤(mesenchymal cell neoplasm)、前列腺癌(prostate cancer)、皮肤癌(skin cancer)、胃癌(stomach cancer)、外分泌胰腺瘤(tumor of exocrine pancreas)、或泌尿系统癌(urinary system cancer)。在一些实施例中，该样本来自孕妇、儿童、青少年、老年人或成年人。在一些实施例中，该样本是一研究样本。

在一些实施例中，该方法进一步包含将HRD状态输出至一电子储存媒体或一显示器的步骤。

另一方面，本发明大体上系关于一种在NGS计算平台上执行的评估个体的HRD状态的方法，包含：

(1)检测来自一个体的一样本中的一基因的变异，包含：

(1a)对该样本的包含BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、RAD54L或其任意组合的基因进行定序；及

(1b)确定前述BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D及RAD54L之任一基因是否带有变异；

(2)计算该样本的HRD分数，包含：

(2a)对该样本的复数个SNP位点进行定序；及

(2b)计算一染色体异常的HRD分数；以及

(3)识别HRD状态。

(1)检测来自一个体的一样本中的复数个基因的变异，包含：

(1a)对至少一HRR相关基因进行定序；及

(1b)确定该HRR相关基因是否带有变异；

(2)计算该样本的LOH分数，包含：

(2a)对该样本的复数个SNP位点进行定序，其中每两个相邻的SNP位点之间有一区间，并且至少50％的该区间的长度为0.01至1Mb；及

(2b)计算LOH SNP位点的数量与非同型合子SNP位点的数量的比值；以及

(3)识别HRD状态。

在一些实施例中，当该基因至少一者带有变异或该分数(即LOH分数或HRD分数)大于一阈值时，该HRD状态为HRD阳性。

另一方面，本发明大体上系关于一种评估HRD状态的系统。该系统包含一数据储存装置，其储存用于测定HRD状态特征的指令，以及一处理器，其被设置成执行该指令以运行一包含下列步骤的方法：

(1)对一样本中的复数个SNP位点进行定序，其中每两个相邻的SNP位点之间有一区间，并且至少50％的该区间的长度为0.01至1Mb；

(2)计算LOH分数，其中该LOH分数是该LOH SNP位点的数量与该非同型合子SNP位点的数量的比值；以及

(3)识别HRD状态。

(1)检测一样本中的复数个基因的变异，包含：

(1a)对包含BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、RAD54L或其任意组合的基因进行定序；及

(1b)确定前述BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、RAD54L之任一基因是否带有变异；

(2)计算该样本的HRD分数，包含：

(2a)对该样本的复数个SNP位点进行定序；及

(2b)计算一染色体异常的HRD分数；以及

(3)识别HRD状态。

(1)检测一样本中的复数个基因的变异，包含：

(1a)对至少一HRR相关基因进行定序；及

(1b)确定该HRR相关基因之任一者是否带有变异；

(2)计算该样本的LOH分数，包含：

(3)识别HRD状态。

另一方面，本发明大体上系关于一种评估一样本的HRD状态的试剂组，包含：

(1)一组靶向复数个SNP位点的寡核苷酸(oligonucleotides)；

(2)一组靶向复数个HRR相关基因的寡核苷酸；以及

(3)一计算机程序，包含用于执行一识别HRD状态的方法的指令。

(1)一试剂，包含：

一组靶向复数个SNP位点的寡核苷酸，其中每两个相邻的SNP位点之间有一区间，并且至少50％的该区间的长度为0.01至1Mb；以及

(2)一计算机程序，包含：

计算LOH分数的指令，其中该LOH分数是LOH SNP位点的数量与非同型合子SNP位点的数量的比值；及

用于识别HRD状态的指令。

(1)一试剂，包含：

一组靶向一基因的寡核苷酸，该基因包含BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、RAD54L或其任意组合；以及

(2)一计算机程序，包含：

确定前述BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、RAD54L之任一基因是否带有变异的指令；及

用于识别HRD状态的指令。

(1)一试剂，包含：

一组靶向复数个SNP位点的寡核苷酸，其中每两个相邻的SNP位点之间有一区间，并且至少50％的该区间的长度为0.01至1Mb；及

一组靶向至少一HRR相关基因的寡核苷酸；以及

(2)一计算机程序，包含：

计算LOH分数的指令，其中该LOH分数是LOH SNP位点的数量与非同型合子SNP位点的数量的比值；

确定该HRR相关基因之任一者是否带有变异的指令；及

识别HRD状态的指令。

(1)一试剂，包含：

一组靶向复数个SNP位点的寡核苷酸，及

(2)一计算机程序，包含：

计算一染色体异常的HRD分数的指令；

识别HRD状态的指令。

在一些实施例中，该计算机程序进一步包含依据个体的HRD状态确定一疗法的指令。

附图说明

图1A-1D显示两个肿瘤样本(GSM956523和GSM956527)及两个正常样本(GSM956582和GSM956597)的LOH分数的稳定性，该LOH分数系以采计不同数量SNP位点的不同算法计算而得。

图2A显示不同肿瘤组别及正常样本组的LOH分数，其系以采计不同数量SNP位点的公式1计算而得。

图2B显示不同肿瘤组别及正常样本组的LOH分数，其系以采计不同数量SNP位点的公式2计算而得。

图3显示在考虑或忽略染色体臂不平衡因素的情况下，不同肿瘤含量的LOH分数。

图4系显示SNP位点之间区间长度的盒形图。

图5系显示不同组别LOH分布的盒形图。

具体实施方式

除非另有定义，本文中使用的所有技术及科学术语具有与本发明所属技术领域中熟习技艺者通常理解的相同含义。除非上下文另有明确指示，本文中所使用的单数形式「一」、「一个」及「该」包含复数指称。

本文中所用的「HRR相关基因(HRR-associated gene)」系指一HRR基因或其调节因子(regulator)或其调控因子(modulator)。HRR相关基因的变异可能造成HRD。在一些实施例中，HRR相关基因是选自于由BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、ABL1、BAP1、BARD1、BLM、BRIP1、CDK12、CHEK1、CHEK2、ERCC1、ERCC3、ERCC4、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCL、LIG3、MRE11、MSH2、MSH6、MLH1、NBN、PALB2、PTEN、PARP1、POLB、RAD50、RAD51、RAD51B、RAD51C、RAD51D、RAD52、RAD54L、UBE2A、XRCC2、DNMT3A、IDH1、IDH2、STAG2及TP53基因所组成的群组。在一些实施例中，HRR相关基因是选自于由BRCA1、BRCA2、ARID1A、ATM、ATR、ATRX、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、及RAD54L基因所组成的群组。

本文中所用「阈值(cutoffvalue)」系指用于区分一生物样本的两个或多个分类状态的一数值或其他表示方式。在本发明的一些实施例中，阈值被用于区分HRD阳性和HRD阴性。如果HRD分数大于阈值，则HRD状态被判定为HRD阳性；或者如果HRD分数小于阈值，则HRD状态被判定为HRD阴性。

本文中所用「不平衡染色体臂(imbalanced chromosome arm)」系指染色体臂的拷贝数缺失或增加。在一些实施例中，不平衡染色体臂是指一染色体臂具有至少70％、75％、80％、85％、90％、95％或100％的带有LOH的非同型合子SNP位点。

本文中所用「肿瘤含量(tumorpurity)」是一肿瘤样本中的癌细胞占比。肿瘤含量会影响使用NGS方法所测定的分子与基因体学特征的准确评估。在本发明的一些实施例中，样本的肿瘤含量为至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、或100％。

本文中所用「深度(depth)」系指每一位置的定序片段数。「平均深度」系指整个定序区域的平均片段数。一般而言，平均深度对NGS检测的效能有影响。平均深度越高，突变的变异频率(variant frequency)的变异性(variability)越低。在本发明的一些实施例中，样本整个定序区域的平均深度为至少200倍、300倍、400倍、500倍、600倍、700倍、800倍、900倍、1000倍、2000倍、3000倍、4000倍、5000倍、6000倍、8000倍、10000倍、或20000倍。

本文中所用「定序覆盖度(coverage)」系指在某一位点的深度。「目标碱基定序覆盖度(targetbase coverage)」系指以高于一预定值的深度进行定序的区域所占的百分比。目标碱基定序覆盖度需要指出进行评估时的深度。在一些实施例中，100倍时的目标碱基定序覆盖度是85％，此表示85％的定序目标碱基被深度为至少100倍的定序片段所覆盖。在一些实施例中，30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍、125倍、150倍、175倍、200倍、300倍、400倍、500倍、750倍、1000倍时的目标碱基定序覆盖度是高于70％、75％、80％、85％、90％或95％。

本文中所用「个体(subject)」或「人类个体(human subject)」系指被正式诊断出疾病的人、未被正式确认疾病的人、接受医疗关注的人、有罹病风险的人等。

本文中所用「治疗(treat)」、「疗法(treatment)」及「治疗(treating)」包括治疗性治疗、预防性治疗、以及减少个体罹病风险或降低其他风险因子的处置。治疗不要求完全治愈疾病，而是涵盖减轻症状或潜在风险因子的实施例。

本文中所用「治疗有效量(therapeutically effective amount)」系指引起所期望的生物或临床效果所需的治疗活性分子的量。在本发明的较佳实施例中，「治疗有效量」是治疗具备HRD阳性的癌症患者所需的药物量。

本发明将通过以下实施例进一步说明，该些实施例的目的是示范而非限制。

实施例

实施例1LOH计分算法的稳定性试验

本研究旨在评估由不同算法得出的LOH分数的稳定性。

对从人类基因表现图谱芯片Affymetrix GeneChip Human Mapping 250KNspl数组数据中随机选择的26万(260K)、15万(150K)、10万(100K)、5万(50K)、4万(40K)、3万(30K)、2万(20K)、1万(10K)、9千(9K)、8千(8K)、7千(7K)、6千(6K)、5千(5K)、4千(4K)、3千(3K)、2千(2K)或1千(1K)个SNP位点进行了计算机降采样(in silico downsampling)。前述数据发表在高通量基因表现数据库GEO(Gene Expression Omnibus)，其GEO编号为GSE39130(Wang,Birkbak,et al.,2012)。我们首先为该数组数据中的每个SNP位点归属染色体臂信息，并且对同型合子、异型合子、及异型合子丧失(LOH)的SNP位点的等位基因频率范围加以定义。该计算机降采样是透过在染色体臂层次进行分层抽样，以获得指定数量的SNP。我们对每个染色体臂的SNP位点进行独立采样，以确保降采样后的每个染色体臂的SNP位点数量与原始数据集成正比。经由使用100个靴拔重复抽样(bootstrap)试样，评估不同算法在SNP位点的数量不同时，其LOH分数的变异情形。公式1将LOH SNP的数量列入考虑，通过异型合子丧失SNP的数量与非同型合子SNP的数量的比值来计算LOH分数。相对地，公式2考虑LOH SNP的总长度，通过异型合子丧失SNP区域的总长度与基因体长度(genome size)的比值来决定LOH分数。该分析是利用统计软件R(4.0.0版)进行。

图1A-1D显示使用两种不同算法对两个肿瘤样本(GSM956523和GSM956527)及两个正常样本(GSM956582和GSM956597)进行LOH计分的结果。使用公式1的计算结果显示，当SNP位点数量不同时，LOH分数的中位数是稳定的，而由公式2得出的LOH分数随着SNP位点数量的减少而下降。

实施例2LOH计分算法的验证

本研究选择了一种估计LOH分数的算法，该算法在SNP位点的数量不同时，LOH分数在肿瘤组与正常组之间皆具有显著差异。

前述研究中使用的所有样本都被纳入分析(Wang,Birkbak,et al.,2012)。具有BRCA2LOH的肿瘤样本被归类到基因体高不稳定性组(GI-H)，与此相对，基因体低不稳定性组(GI-L)是没有BRCA2LOH的肿瘤样本。由于具有BRCA2LOH的细胞表现出基因体不稳定性，并且表现出对DNA损伤剂的高度敏感性，因此本研究中的GI-H组可以代表药物敏感组，而GI-L组可以代表抗药性组。GI-H组、GI-L组和正常组中分别有12、11及18个样本。在SNP位点数量为26万(260K)、5万(50K)、1万(10K)、7千(7K)、5千(5K)、3千(3K)、2千(2K)及1千(1K)的情况下，以实施例1中描述的公式1和公式2估算每个样本的LOH分数。利用威尔卡森符号检定(Wilcoxon signed-rank test)估算GI-H组、GI-L组及正常组样本的LOH分数之间的P值。

当使用公式1时，我们发现GI-H和GI-L二个肿瘤组在所有不同数量SNP位点下的LOH分数之间存在显著差异(P值<0.05)。然而，使用公式2时，只有在SNP位点的数量等于或高于7千时，二个肿瘤组的LOH分数间才有显著差异。

实施例3在考虑或不考虑染色体臂不平衡因素的情况下，对不同肿瘤含量的样本进行LOH计分

本研究的目的是评估染色体臂不平衡对LOH分数计算的影响。

将带有拷贝数变异的癌细胞株样本(NCL-H1395)和与其相匹配的正常样本(match-normal sample)混合，以模拟不同的肿瘤含量。实验流程包括DNA萃取、构建序列库及NGS定序，皆与实施例5一致。不同肿瘤含量的混合样本的LOH分数由三种不同算法来估计。第一种算法在不考虑染色体臂不平衡的影响下计算LOH分数(公式1)。第二及第三种算法考虑了染色体臂不平衡的因素，其排除了位于不平衡染色体臂上的SNP(公式3)。不平衡染色体臂以一染色体臂上LOH SNP位点的数量与非同型合子SNP位点的数量的比值为特征。在本实施例中的该比值为85％。第三种算法进一步调整了带有LOH的非同型合子SNP位点的比值，以便基于不同肿瘤含量去表征不平衡染色体臂。

图3显示在不同肿瘤含量下使用三种不同算法的LOH计分结果。第一种算法计算得到的LOH分数随着肿瘤含量上升而急剧增加。相对地，当肿瘤含量大于30％，由第二及第三种算法计算得的LOH分数是稳定的。

表1.考虑或忽略染色体臂不平衡因素的不同肿瘤含量的LOH分数

实施例4测定癌症样本的HRD状态

设计一基于扩增子(amplicon)的次世代基因定序套组(NGS panel)，使其靶向PanelA的编码区(coding regions)，PanelA包括ARID1A、ATM、ATR、ATRX、BARD1、BRCA1、BRCA2、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D及RAD54L，以及横跨整个人类基因体的约9000个SNP位点。SNP位点之间的区间的长度平均为约0.3Mb(图4)。

收集来自癌症患者的福尔马林固定石蜡包埋(FFPE)样本及外周血单核细胞(PBMC)样本，并且利用NGS基因定序套组进行检测。使用RecoverAll^TM总核酸分离试剂组(RecoverAll^TM Total Nucleic Acid Isolation Kit；Thermo Fisher Scientific)萃取基因体DNA。依据CleanPlex NGS基因定序套组(CleanPlex NGS panel；Paragon Genomics，美国)的使用说明书构建NGS序列库(NGS library)。简言之，使用靶向前述设计区的引子，通过多重PCR反应扩增60ng DNA。在使用磁珠进行纯化、CP消化(CP digestion)及第二次纯化后，依据使用说明书，使用Illumina i5和i7标签引子(indexing primers)进行第二次PCR反应。再次纯化后，对样本进行毛细管电泳(FragmentAnalyzer，AATI)。将通过序列库质量控管(QC)的样本混合以便在NextSeq550定序仪(Illumina，美国)上进行定序，前述流程是依据制造商的系统说明书以及Illumina次世代定序系统变性与稀释序列库说明书(IlluminaNextSeq System Denature and Dilute Libraries Guide)。

使用BWA(0.7.17版)将由定序仪产生的原始读序回贴至hg19参考基因体。使用Pisces(5.2.5.20版)识别单核甘酸变异(SNVs)及小片段插入和缺失(INDELs)。使用变异影响预测软件VEP(Variant Effect Predictor)(88版)并利用Clinvar数据库(20180729版)与Genome Aggregation数据库r2.1.1批注每个变异。通过bedtools及samtools工具进行定序覆盖度分析，以计算套组中每个目标碱基和目标扩增子的深度。

对样本进行质量控管以确保每个样本的平均定序深度达到1000倍。

为了判定大片段基因重组(LGR)及拷贝数变异(CNV)，自所有可检测到的扩增子中，删除读序数(read counts)属最低的百分之一和最高的百分之0.5的扩增子，以及删除变异系数≥0.35的扩增子。其余的扩增子经过标准化处理以校正序列库的设计偏差。使用ONCOCNV(Boeva等人在2014年提出的计算扩增子定序数据中拷贝数变异的方法)进行扩增子总数、扩增子GC含量、扩增子长度及技术相关偏差的标准化，随后以基因感知模型(gene-aware model)将样本分段。每个基因和外显子(exon)的观察拷贝数(observed copynumber)是以ONCOCNV来计算。肿瘤外显子组异常检测(Aberration Detection in TumourExome，ADTEx)软件(Amarasinghe等人，2014)被用来计算每个FFPE样本的肿瘤含量。透过FFPE样本的肿瘤含量校正计算出每个基因的校正拷贝数。

依据SNP的变异等位基因频率(variant allele frequency)认定该SNP为LOH SNP或异型合子SNP。一个样本的LOH分数是依据公式3计算处于LOH状态的SNP的比例。

当检测到染色体臂不平衡时，该染色体臂上的所有SNP被排除而不纳入分析。这里所谓的染色体臂不平衡被是指检测到整个染色体臂的拷贝数增加或缺失。

受测样本的LOH分数列于表2。

表2.受测样本的LOH分数

样本ID	癌症种类	肿瘤纯	平均深	LOH分
					E01242	卵巢癌	度45％	度489	数0.28
F00627	胰脏癌	61％	960	0.13
					ACT1925	肺癌	67％	595	0.29
ACT1850	肺癌	43％	365	0.53
					E01900	卵巢癌	65％	940	0.2
F01519	卵巢癌	57％	730	0.65
					AA-20-01148	卵巢癌	78％	895	0.49
ACT1730	前列腺癌	71％	322	0.22
					E00195	前列腺癌	58％	414	0.63
F00044	前列腺癌	40％	415	0.29

实施例5不同基因型组别样本的LOH分布

本研究旨在评估Panel A中不同基因型样本的LOH分数的分布。该PanelA包括ARID1A、ATM、ATR、ATRX、BARD1、BRCA1、BRCA2、BRIP1、CDK12、CHEK1、CHEK2、FANCA、FANCL、FANCM、HDAC2、NBN、PALB2、PPP2R2A、PTEN、RAD51、RAD51B、RAD51C、RAD51D、及RAD54L。

依实施例4中的检测方法对总计92个卵巢癌样本及4个正常样本进行定序，并且以公式3计算每个样本的LOH分数。样本的Panel A之基因具有致病性突变(pathogenicmutation)或可能致病性突变(likely pathogenic mutation)者，该样本被归类为Panel A基因缺失(deleterious)。相对地，所有Panel A基因没有致病性突变或可能致病性突变的其他样本被认为是Panel A基因野生型(WT)。图5显示了各组样本LOH分数的分布。

不同组别样本的LOH分数的分布显示，Panel A基因缺失组相比其他组别有较高的LOH分数。

Claims

1.能够靶向复数个单核苷酸多型性位点的寡核苷酸在制备用于评估同源重组缺失状态的方法的试剂组中的应用，其特征在于，所述应用，包含：

(1) 对来自一个体的一样本中的复数个单核苷酸多型性位点进行定序，其中每两个相邻的单核苷酸多型性位点之间有一区间，并且至少50%的所述区间的长度为0.01至1 Mb；

(2) 依据所述定序的结果确定异型合子丧失单核苷酸多型性位点的数量及非同型合子单核苷酸多型性位点的数量；

(3) 计算异型合子丧失分数，其中，包含透过排除不平衡染色体臂来调整所述异型合子丧失分数，其中所述异型合子丧失分数是所述异型合子丧失单核苷酸多型性位点在非不平衡染色体臂上的数量与所述非同型合子单核苷酸多型性位点在非不平衡染色体臂上的数量的比值，所述非同型合子单核苷酸多型性位点为异型合子单核苷酸多型性位点及异型合子丧失单核苷酸多型性位点；以及

(4) 依据所述异型合子丧失分数识别同源重组缺失状态。

2.如权利要求1所述的应用，其特征在于：其中，所述复数个单核苷酸多型性位点的数量为至少1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、110000、120000、130000、140000、150000、160000、170000、180000、190000、200000、210000、220000、230000、240000、250000、260000、270000、280000、290000或300000个。

3.如权利要求1所述的应用，其特征在于：其中，所述复数个单核苷酸多型性位点的数量为2500至250000个。

4.如权利要求1所述的应用，其特征在于：其中，所述复数个单核苷酸多型性位点的数量为2200至60000个。

5.如权利要求1所述的应用，其特征在于：其中，所述复数个单核苷酸多型性位点的数量为6000至11000个。

6.如权利要求1所述的应用，其特征在于：其中，所述复数个单核苷酸多型性位点位于至少2对染色体。

7.如权利要求1所述的应用，其特征在于：其中，所述复数个单核苷酸多型性位点位于22对染色体。

8.如权利要求1所述的应用，其特征在于：其中，所述区间的平均长度为0.01至3 Mb。

9.如权利要求1所述的应用，其特征在于：其中，所述不平衡染色体臂的特征是一染色体臂中所述异型合子丧失单核苷酸多型性位点的数量相对于所述非同型合子单核苷酸多型性位点的数量为一预定比值，其中该预定比值为至少70%、75%、80%、85%、90%、95%、98%或100%。

10.如权利要求9所述的应用，其特征在于：其中，所述预定比值系依据所述样本的肿瘤含量进一步调整。

11.如权利要求10所述的应用，其特征在于：其中，所述肿瘤含量为30%至95%。

12.如权利要求10所述的应用，其特征在于：其中，所述肿瘤含量为30%至70%。

13.如权利要求1所述的应用，其特征在于：其中，所述同源重组缺失状态被识别为同源重组缺失阳性或同源重组缺失阴性。

14.如权利要求1所述的应用，其特征在于：其中，用于识别所述同源重组缺失状态的所述异型合子丧失分数的阈值为0.3、0.35、0.4、0.45、0.5、0.55或0.6。

15.能够靶向复数个单核苷酸多型性位点的寡核苷酸在制备用于评估同源重组缺失状态的方法的试剂组中的应用，其特征在于，所述应用，包含：

(1) 检测来自一个体的一样本中的一基因的变异，包含：

(1a) 对一同源重组修复相关基因进行定序；及

(1b) 确定所述同源重组修复相关基因是否带有变异；

(2) 计算该样本的一异型合子丧失分数，其中，包含透过排除不平衡染色体臂来调整所述异型合子丧失分数，其中包含：

(2a) 对所述样本的复数个单核苷酸多型性位点进行定序，其中每两个相邻的单核苷酸多型性位点之间有一区间，并且至少50%的所述区间的长度为0.01至1 Mb；及

(2b) 计算异型合子丧失单核苷酸多型性位点在非不平衡染色体臂上的数量与非同型合子单核苷酸多型性位点在非不平衡染色体臂上的数量的比值，所述非同型合子单核苷酸多型性位点为异型合子单核苷酸多型性位点及异型合子丧失单核苷酸多型性位点；以及

(3) 依据步骤(1b)、步骤(2b)或该二步骤的结果识别同源重组缺失状态。

16.如权利要求15所述的应用，其特征在于：其中，当在步骤(1)中所述基因带有变异或在步骤(2)中所述分数大于一阈值，所述同源重组缺失状态为同源重组缺失阳性。

17.如权利要求1或15所述的应用，其特征在于：进一步包含依据所述个体的所述同源重组缺失状态决定一疗法的步骤。

18.如权利要求17所述的应用，其特征在于：其中，所述疗法是PARP抑制剂。

19.如权利要求18所述的应用，其特征在于：其中，所述PARP抑制剂是选自由奥拉帕利、尼拉帕利、鲁卡帕利及他拉唑帕利所组成的群组。

20.如权利要求1或15所述的应用，其特征在于：其中，所述评估样本的同源重组缺失状态的方法是在一次世代定序计算平台上执行。

21.如权利要求1或15所述的应用，其特征在于：其中，所述样本是通过世代定序检测进行定序。

22.如权利要求1或15所述的应用，其特征在于：其中，所述样本来自细胞株、活体组织检体、冷冻组织或福尔马林固定石蜡包埋组织。

23.如权利要求1或15所述的应用，其特征在于：其中，所述个体是人类。

24.如权利要求1或15所述的应用，其特征在于：其中，所述个体是一癌症患者。

25.如权利要求1或15所述的应用，其特征在于：其中，所述样本的肿瘤含量为至少5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%。

26.如权利要求1或15所述的应用，进一步包含将所述同源重组缺失状态输出至一电子储存媒体或一显示器的步骤。

27.一种评估同源重组缺失状态的系统，其特征在于，包含：

一数据储存装置，储存用于测定同源重组缺失状态特征的指令；以及

一处理器，被设置成执行所述指令以运行一方法，所述方法包含：

(1) 对来自一个体的一样本中的复数个单核苷酸多型性位点进行定序，其特征在于：其中，每二个相邻的单核苷酸多型性位点之间有一区间，并且至少50%的所述区间的长度为0.01至1 Mb；

(4) 依据所述异型合子丧失分数识别同源重组缺失状态。

28.一种评估同源重组缺失状态的系统，其特征在于，包含：

(1) 检测来自一个体的一样本中的一基因的变异，包含：

(1a) 对一同源重组修复相关基因进行定序；及

(1b) 确定所述同源重组修复相关基因是否带有变异；

(2) 计算所述样本的一异型合子丧失分数，其中，包含透过排除不平衡染色体臂来调整所述异型合子丧失分数，其中包含：

29.如权利要求27或28所述的评估同源重组缺失状态的系统，其特征在于：其中，所述方法进一步包含依据所述个体的所述同源重组缺失状态来决定一疗法的步骤。

30.一种评估同源重组缺失状态的试剂组，其特征在于，包含：

一试剂，包含：

一组靶向复数个单核苷酸多型性位点的寡核苷酸，其中，每两个相邻的单核苷酸多型性位点之间有一区间，并且至少50%的所述区间的长度为0.01至1 Mb；以及

一计算机程序，包含：

计算一异型合子丧失分数的指令，其中，计算所述异型合子丧失分数包含透过排除不平衡染色体臂来调整所述异型合子丧失分数，其中所述异型合子丧失分数是异型合子丧失单核苷酸多型性位点在非不平衡染色体臂上的数量与非同型合子单核苷酸多型性位点在非不平衡染色体臂上的数量的比值，所述非同型合子单核苷酸多型性位点为异型合子单核苷酸多型性位点及异型合子丧失单核苷酸多型性位点；及

用于识别同源重组缺失状态的指令。

31.一种评估同源重组缺失状态的试剂组，其特征在于，包含：

一试剂，包含：

一组靶向复数个单核苷酸多型性位点的寡核苷酸，其中每两个相邻的单核苷酸多型性位点之间有一区间，并且至少50%的所述区间的长度为0.01至1 Mb；及

一组靶向一同源重组修复相关基因的寡核苷酸；以及

一计算机程序，包含：

计算一异型合子丧失分数的指令，其中，计算所述异型合子丧失分数包含透过排除不平衡染色体臂来调整所述异型合子丧失分数，其中所述异型合子丧失分数是异型合子丧失单核苷酸多型性位点在非不平衡染色体臂上的数量与非同型合子单核苷酸多型性位点在非不平衡染色体臂上的数量的比值，所述非同型合子单核苷酸多型性位点为异型合子单核苷酸多型性位点及异型合子丧失单核苷酸多型性位点；

确定所述同源重组修复相关基因是否带有变异的指令；及

识别同源重组缺失状态的指令。

32.如权利要求30所述的评估同源重组缺失状态的试剂组，其特征在于：其中，当所述异型合子丧失分数大于一阈值，所述同源重组缺失状态为同源重组缺失阳性。

33.如权利要求31所述的评估同源重组缺失状态的试剂组，其特征在于：其中，当所述异型合子丧失分数大于所述阈值或所述同源重组修复相关基因带有变异，所述同源重组缺失状态为同源重组缺失阳性。

34.如权利要求30或31所述的评估同源重组缺失状态的试剂组，其特征在于：其中，所述计算机程序进一步包含依据所述个体的所述同源重组缺失状态确定一疗法的指令。