CN114400045A - 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统 - Google Patents

基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统 Download PDF

Info

Publication number
CN114400045A
CN114400045A CN202210108512.4A CN202210108512A CN114400045A CN 114400045 A CN114400045 A CN 114400045A CN 202210108512 A CN202210108512 A CN 202210108512A CN 114400045 A CN114400045 A CN 114400045A
Authority
CN
China
Prior art keywords
candidate
homologous recombination
snp
site
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210108512.4A
Other languages
English (en)
Inventor
刘星宇
王伟伟
张利利
田埂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geneis Beijing Co ltd
Original Assignee
Geneis Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Geneis Beijing Co ltd filed Critical Geneis Beijing Co ltd
Priority to CN202210108512.4A priority Critical patent/CN114400045A/zh
Publication of CN114400045A publication Critical patent/CN114400045A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统,该方法包括:取选定人群的全基因组的序列数据,拼接组成对应于各染色体的多个连续序列;以固定长度为单位将多个连续序列分别平均划分为若干大小相同的区间,得到对应区间的候选SNP位点组成候选位点集;改变固定长度,进一步得到多个候选位点集;进行各候选位点集的性能模拟验证,计算对应各候选位点集的HRD得分;和选取作为检测同源重组修复缺陷的最优位点集。本发明的方法省去了验证步骤中不同panel探针的合成成本,同时具有更好的准确性以及分辨率,从而显著降低同源重组修复缺陷检测成本。

Description

基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒 和系统
技术领域
本发明涉及分子检测领域,具体地涉及基于二代测序技术对同源重组修复缺陷SNP位点进行筛选及验证的方法,以及对基因组不稳定性进行打分的方法。
背景技术
DNA在人体内不断被破坏和自我修复,DNA损伤有多种修复途径。DNA双链断裂(double strand break,DSB)的首选修复方式为同源重组修复(homologousrecombination repair,HRR)。同源重组修复缺陷(homologous recombinationdeficiency,HRD)是指细胞水平上的HRR功能障碍状态。HRD已成为晚期卵巢癌患者临床应用聚腺苷二磷酸核糖聚合酶(PARP)抑制剂的新型生物标志物,对乳腺癌、前列腺癌等肿瘤的PARP抑制剂和铂类药物的临床用药具有指导价值。
HRD由HRR基因胚系或体细胞突变以及表观遗传改变等诸多因素导致,并且可以产生可量化的、特定且稳定的基因组改变。在卵巢癌中若仅检测HRR基因(含BRCA1/2),受益人群比例为31%,但若进行基因组HRD评分(含BRCA1/2检测),受益人群比例可提高至50%。
目前,基因组HRD评分通常需要大量不相连的SNP位点组成panel,SNP位点数量常在3万至5万个点。例如,中国专利申请公布CN112226495A公开了一种DNA同源重组异常的检测方法,包括:(1)SNP位点筛选;(2)为筛选到的SNP位点设计捕获探针;(3)基因组DNA提取和文库构建;(4)文库靶向富集;(5)高通量测序并分析测序数据,判断HRD状态时使用Kolmogorov Smirnov检验或者scarHRD。
上述方法不论是SNP位点确定后的panel性能验证,还是临床样本的检测均需要较高成本。目前PARP抑制剂药物已应用于乳腺癌、卵巢癌、胰腺癌及前列腺癌中,如何经济、准确地筛选出能够使用PARP抑制剂药物的HRD阳性患者是需要解决的重要问题。
背景技术中的信息仅仅在于说明本发明的总体背景,不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。
发明内容
为解决现有技术中的技术问题,本发明提供一种基于二代测序技术对同源重组修复缺陷SNP位点进行筛选及验证的方法,以及对基因组不稳定性进行打分的方法。具体地,本发明包括以下内容。
本发明的第一方面,提供一种基于二代测序检测同源重组修复缺陷的方法,其包括以下步骤:
(1)取选定人群的全基因组的序列数据,将所述序列数据拼接为对应于不同染色体的多个连续序列;
(2)以固定长度为单位将所述多个连续序列分别平均划分为若干大小相同的区间,在各区间内选取标准参考位置,取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点,由所述多个候选SNP位点组成候选位点集;
(3)改变作为单位的固定长度,重复步骤(2)得到多个候选位点集,所述多个候选位点集中SNP位点的个数因固定长度不同而不同;
(4)利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证,计算对应各候选位点集的HRD得分;和
(5)选取性能最优且SNP位点数最少的候选位点集作为检测同源重组修复缺陷的最优位点集。
根据本发明所述的基于二代测序检测同源重组修复缺陷的方法,优选地,所述染色体不包括Y染色体。
根据本发明所述的基于二代测序检测同源重组修复缺陷的方法,优选地,HRD得分包括基因组杂合性缺失、端粒等位基因不平衡和大片段迁移评分之和。
根据本发明所述的基于二代测序检测同源重组修复缺陷的方法,优选地,所述基因组杂合性缺失为不跨越整个染色体的、超过15Mb的杂合性缺失区域;所述端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒,但未跨越端粒;所述大片段迁移为相邻区域之间至少10Mb的染色体断裂,且两者的距离不超过3Mb。
根据本发明所述的基于二代测序检测同源重组修复缺陷的方法,优选地,根据与WGS结果的一致性确定各候选位点集的性能。
根据本发明所述的基于二代测序检测同源重组修复缺陷的方法,优选地,进一步包括利用探针组捕获样本中目标序列的步骤,其中所述目标序列包含最优位点集内的至少一个SNP位点,所述探针组的探针设计为在严格杂交条件下能够与含有最优位点集内的至少一个SNP的序列互补结合。
本发明的第二方面,提供一种基于二代测序检测同源重组修复缺陷的探针组,所述探针组在严格杂交条件下能够与目标序列结合,所述目标序列包含根据第一方面所述方法得到的最优位点集中的至少一个SNP位点。
本发明的第三方面,提供一种基于二代测序检测同源重组修复缺陷的试剂盒,其包含根据第二方面所述的探针组。优选地,其进一步包含用于扩增目标序列的引物,所述目标序列包含根据第一方面所述方法得到的最优位点集中的至少一个SNP位点。
本发明的第四方面,提供一种基于二代测序检测同源重组修复缺陷的系统,其包括:
(a)数据获取模块,其用于获取选定人群的全基因组的序列数据;
(b)数据处理模块,其用于将所述序列数据按染色体划分为对应于各染色体的多个连续序列,然后以固定长度为单位将所述多个连续序列分别平均划分为若干大小相同的区间,在各区间内选取标准参考位置,取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点,由所述多个候选SNP位点构建组成候选位点集;改变作为单位的固定长度,重复构建候选位点集的步骤,得到多个候选位点集,所述多个候选位点集中SNP位点的个数因固定长度不同而不同;
(c)模拟验证模块,其用于利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证,得到对应各候选位点集的HRD得分,并将HRD得分与WGS结果一致性最优的候选位点集作为最优位点集;和
(d)检测模块,其用于以最优位点集检测待测样本的同源重组修复缺陷。
本发明针对性地选取中国人群相关位点,并提前去除难以捕获的区域。经过基础筛选后,以每个染色体为单位,预设梯度密度进行染色体位置拆分,并选取此位置最优的SNP作为候选。随后对这些密度下产生的不同个数的panel进行模拟验证,省去验证步骤中不同panel探针的合成成本。在对panel进行优选后,本发明可用21785个SNP位点达到竞品(37000,42000或以上SNP位点)相同或更好的准确性,且在测试集中拥有更好的分辨率。本发明在保持较高准确性的基础上,优选更适合中国人群的基因组不稳定性和检测位点,本发明的位点集拥有更好的分辨率,同时可显著降低检测成本。
附图说明
图1示出了经本发明筛选的标志物的分辨率结果。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
除非另有说明,本文所用术语“测量”、“测定”和“检测”可互换使用,旨在包括检测样品中的同源重组缺陷相关SNP位点的存在与否和/或定量同源重组缺陷相关SNP位点。
基于二代测序检测同源重组修复缺陷的方法
本发明的方法包括:1)SNP位点筛选;2)SNP位点的优选;3)panel的数据分析及模拟验证,具体地,包括步骤(1)-(5),下面详细进行说明。
在本发明的步骤(1)中,取选定人群的全基因组的序列数据,将所述序列数据按染色体划分为对应于各染色体的多个连续序列。优选地,所述序列数据是指针对中国人群的全基因组序列数据,其可以通过已知数据库获得。在具体实施方案中,已知数据库是指1000Genomes数据库。进一步对所述序列数据进行预处理以实现SNP位点的初步筛选。示例性地,预处理步骤包括:
a.选取突变频率在0.05-0.95之间的SNP;
b.去除Y染色体上的SNP;
c.去除Indel数据;
d.提取SNP位点上下游各80-140bp区域,优选120bp区域,选取GC含量30-60%的位点;
e.选取SNP最小等位基因频率MAF在0.2-0.5的SNP位点;
f.去除上下游各75bp内涉及重复(repeat)区的位点;
g.过滤明显偏离Hardy-Weinberg equilibrium的SNP。
将所述序列数据按染色体划分为对应于各染色体的多个连续序列,这里的染色体是指不包含性染色体,尤其是指不含Y染色体的染色体集合。
本发明中的方法中,步骤(2)包括:以固定长度为单位将所述多个连续序列分别平均划分为若干大小相同的区间,在各区间内选取标准参考位置,取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点,由所述多个候选SNP位点组成候选位点集。本文所用术语“固定长度”是指长度区间为50-250K,优选50-200K,例如50K、100K、150K、200K为单位的长度。本文所用术语“标准参考位置”是指位于上述给定区间的中间位置,例如,当选择100K的长度作为平均划分区间时,标准参考位置是指第50K对应的碱基位置,此时候选SNP位点的选择是在上述标准参考位置最近的SNP位点。候选位点集是指染色体经上述筛选后得到的候选SNP位点的集合。
本发明的步骤(3)与步骤(2)的不同在于长度范围的选择,可以理解的是,所述多个候选位点集中SNP位点的个数因固定长度不同而不同。固定长度的选择对于本发明是重要的,其保证SNP的位置尽量分散的同时降低panel大小,从而大大降低检测成本。
本发明的步骤(4)包括:利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证,得到对应各候选位点集的HRD得分,原始数据来源于全基因组测序,用于全基因组测序的平台和系统不特别限定,其包括但不限于大规模平行签名测序(Massively Parallel Signature Sequencing,MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyrosequencing)、Illumina(Solexa)sequencing、ABI SOLiDsequencing、离子半导体测序(Ion semiconductor sequencing)、DNA纳米球测序(DNAnanoball sequencing)等。
本发明中,性能验证包括HRD score打分,HRD score为下述三部分评分之和:基因组杂合性缺失(Loss of Heterozygosity,LOH)、端粒等位基因不平衡(Telomeric AllelicInbalance,TAI)和大片段迁移(Large-scale state Transition,LST)。其中,基因组杂合性缺失定义为不跨越整个染色体的,超过15Mb的杂合性缺失区域;端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒,但未跨越端粒。本部分仅考虑亲本等位基因序列的不平等贡献,不涉及到总拷贝数的变化;大片段迁移为相邻区域之间至少10Mb的染色体断裂,且他们的距离不超过3Mb。
在本发明中,HRD score打分阈值设置为42。
发明人通过研究,发现在步骤(2)中,长度区域越小,位点越多,准确性越高,且长度区间在75-90K时,成本最低,并能够保持较高准确率。在具体实施方案中,长度区间为83K。
探针组
本发明的探针组在严格杂交条件下能够与目标序列结合,所述目标序列包含根据第一方面所述方法得到的最优位点集中的至少一个SNP位点。优选地,所述最优位点集中的位点如表2所示,这里仅列出选自21785个位点的部分以进行说明。可以理解,本领域技术人员根据本发明的方法能够得到完成的SNP位点集合。
本文所用术语“严格杂交条件”是指允许杂交探针优先与靶核酸(最优位点集中的至少一个SNP位点对应的核酸)而非源自密切相关的非靶核酸杂交的条件。严格杂交条件可根据探针的GC含量和长度、探针序列与可存在于待测样本中的非靶序列的序列之间的相似程度等进行变化。本领域技术人员可使用常规方法确定严格杂交条件。
本发明中,术语“待测样本”是指来源于受试者/患者的生物样品。可用于本发明的生物样品类型的实例包括但不限于以下的一种或多种:尿、粪便、泪液、全血、血清、血浆、血液成分、骨髓、细胞、组织、器官、体液、唾液、脸颊拭子、淋巴液、脑脊髓液、病变渗出物和由身体产生的其他流体。生物样品类型也可以是冷冻、固定、石蜡包埋或新鲜的活检样品。
术语“受试者”或“患者”在本文中可互换使用,其指脊椎动物,优选为哺乳动物,还优选为人。哺乳动物包括但不限于鼠类、猿、家畜等。具体的哺乳动物包括大鼠、小鼠、猫、狗、猴子和人。非人类哺乳动物包括除人之外的所有哺乳动物。在体外获得或在体外培养的生物实体的组织、细胞及其后代也涵盖在本发明的保护范围之内。
试剂盒
本发明进一步提供试剂盒,其包含本发明的探针组。本发明的试剂盒进一步包括关于如何对特定的生物样品类型进行本发明的检测方法或试验的说明和检测同源重组修复缺陷得分的判断标准。该试剂盒可进一步包含能够通过各种测定类型(诸如ELISA测定、免疫测定、蛋白质芯片或微阵列、DNA/RNA芯片或微阵列、RT-PCR、三代测序、质谱法、免疫组织化学法、流式细胞术或高含量细胞筛选)进行常规检测的其他试剂。
除了上述组分之外,本发明的试剂盒还可包括以政府机构规定的形式与调控制造、使用或销售诊断试剂盒相关的注意事项。另外,本发明的试剂盒还可提供有使用、储存和故障排除的详细说明书。试剂盒还可任选地设置在适合的优选用于以高通量设置的机器人操作的装置中。
在某些实施方案中,本发明的试剂盒的组分(例如,寡核苷酸)可提供为干粉。当试剂和/或组分提供为干粉时,粉末可通过添加适合的溶剂来恢复原状。预期该溶剂还可设置于另一容器中。容器通常会包括至少一种小瓶、试管、烧瓶、瓶、注射器和/或其它容器手段,其中可选等分地放置溶剂。试剂盒还可包括用于包含无菌、药学上可接受的缓冲液和/或其它溶剂的第二容器的手段。
在某些实施方案中,本发明的试剂盒的组分可以溶液形式提供,例如水溶液的形式提供。在以水溶液状态存在的情况下,这些成分的浓度或含量是本领域技术人员能够根据不同需求而方便地确定的。例如,用于储存的目的时,例如寡核苷酸的浓度可以较高的形式存在,当处于工作状态或使用时,可通过例如稀释上述较高浓度的溶液来将浓度降低至工作浓度。
在试剂盒中存在超过一种组分的情况下,该试剂盒还通常会包含可单独放置另外的组分的第二、第三或其它另外的容器。另外,可在容器中包含各多种组分的组合。本文所述的任何组合物或试剂可为试剂盒中的组分。
系统
本发明的基于二代测序检测同源重组修复缺陷的系统,其特征在于,包括:
(a)数据获取模块,其用于获取选定人群的全基因组的序列数据;
(b)数据处理模块,其用于将所述序列数据按染色体划分为对应于各染色体的多个连续序列,然后以固定长度为单位将所述多个连续序列分别平均划分为若干大小相同的区间,在各区间内选取标准参考位置,取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点,由所述多个候选SNP位点构建组成候选位点集;改变作为单位的固定长度,重复构建候选位点集的步骤,得到多个候选位点集,所述多个候选位点集中SNP位点的个数因固定长度不同而不同;
(c)模拟验证模块,其用于利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证,得到对应各候选位点集的HRD得分,并将HRD得分与WGS结果一致性最优的候选位点集作为最优位点集;和
(d)检测模块,其用于以最优位点集检测待测样本的同源重组修复缺陷。
优选地,在本发明的系统的模拟验证模块中,设置HRD得分阈值为≥42。
本领域的技术人员可以理解的是,本发明所述的各种示例性实施方案可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明的具体实施方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质或非暂态计算机可读存储介质(可以是CD ROM、U盘、移动硬盘等)中或网络上,包括若干指令以使得计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明的方法。
在示例性实施方案中,本发明的程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的实例包括但不限于:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
相应地,基于同一发明构思,本发明还提供一种电子设备。
在示例性实施方案中,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:至少一个处理器、至少一个存储器、连接不同系统组件(包括存储器和处理器)的总线。
其中,所述存储器存储有程序代码,所述程序代码可以被所述处理单元执行,使得所述处理单元执行本发明所述的方法,其中处理器至少包括本发明所述的数据处理单元(也可以称为“模块”)。存储器可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
本发明的存储器还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。
这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当理解,尽管本文未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本发明的系统或方法的检测/鉴别价值可通过例如计算受试者工作特征曲线下面积(AUC)、灵敏度、特异度等评价指标来判断其效能。其中AUC也称为受试者工作特征曲线下面积,其被定义为ROC曲线下与坐标轴围成的面积,所述面积的数值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高。
本发明进一步提供探针组或试剂盒在癌症相关的同源重组修复缺陷检测中的用途,其中,所述癌症包括但不限于胃癌、乳腺癌、卵巢癌、胰腺癌及前列腺癌。
本领域技术人员应理解,只要能够实现本发明的目的,在上述步骤(1)-(5)前后,或步骤之间还可包含其他步骤或操作,例如进一步优化和/或改善本发明所述的方法。
实施例1
1、SNP的筛选
1)选取1000Genomes数据库中的中国人群的突变数据;
2)选取突变频率在0.05-0.95之间的SNP;
3)去除Y染色体上的SNP;
4)去除Indel数据;
5)提取SNP位点上下游各120bp区域,选取GC含量选取30-60%的位点;
6)选取SNP最小等位基因频率MAF在0.2-0.5的SNP;
7)去除上下游各75bp内涉及到repeat区的位点;
8)过滤明显偏离Hardy-Weinberg equilibrium的SNP;
9)选取不同长度区间,如50K、100K、200K等,在每个染色体上选取距离区间距离最小的点组成不同个数梯度的候选panel。
经过初次筛选后,最终选定长度区间为125K、100K、83K、71K、62K,使用表1所述样本对各panel结果进行验证。
表1样本信息表
Figure BDA0003494189330000121
Figure BDA0003494189330000131
结果表明长度区域越小、位点越多、准确性越高,在准确性一致的情况下,长度区域83K的SNP个数最少,为21785个,选取此panel成本最低。具体参见表2,需要说明的是,表2仅示例性的示出了选自21785中的部分位点。
表2候选panel
chr1 173052 chr11 23425775 chr14 56421542 chr19 19584987 chr22 44000711 chr4 189252701
chr1 757640 chr11 23500784 chr14 56508491 chr19 19753292 chr22 44083442 chr4 189340282
chr1 924528 chr11 23592851 chr14 56590542 chr19 19839439 chr22 44167684 chr4 189419268
chr1 1002434 chr11 23842349 chr14 56672496 chr19 19923100 chr22 44250261 chr4 189503554
chr1 1425700 chr11 24001840 chr14 56756743 chr19 20003109 chr22 44335331 chr4 189587310
chr1 1509156 chr11 24085740 chr14 56841899 chr19 20169887 chr22 44423396 chr4 189675061
chr1 1585642 chr11 24175352 chr14 56917786 chr19 20258013 chr22 44504928 chr4 189759591
chr1 1759213 chr11 24252515 chr14 57000051 chr19 20423698 chr22 44589008 chr4 189833279
chr1 1916529 chr11 24334578 chr14 57092439 chr19 20501082 chr22 44751158 chr4 190004091
chr1 2008688 chr11 24421735 chr14 57170818 chr19 20671870 chr22 44838800 chr4 190087776
chr1 2090095 chr11 24502888 chr14 57250582 chr19 20842549 chr22 44923371 chr4 190252051
chr1 2169079 chr11 24586870 chr14 57418430 chr19 21007488 chr22 45001390 chr4 190341664
chr1 2257695 chr11 24755708 chr14 57500488 chr19 21092584 chr22 45085141 chr4 190422067
chr1 2337032 chr11 24837039 chr14 57842247 chr19 21586797 chr22 45175971 chr4 190508869
chr1 2416357 chr11 24916589 chr14 57920517 chr19 21750648 chr22 45254083 chr4 190587367
chr1 2500893 chr11 25009710 chr14 58084871 chr19 21838492 chr22 45333160 chr4 190755641
chr1 2585772 chr11 25090265 chr14 58172007 chr19 22002611 chr22 45421242 chr5 172971
chr1 2753237 chr11 25751647 chr14 58259785 chr19 22174872 chr22 45584396 chr5 252683
不同长度区间panel性能验证结果如表3所示。
表3不同长度区间panel性能验证结果
长度区域 SNP个数 精准度 召回率 敏感性 特异性
125k 14842 80.00% 66.67% 66.67% 50.00%
100k 18465 83.33% 83.33% 83.33% 50.00%
83k 21785 85.71% 100.00% 100.00% 50.00%
71k 25282 85.71% 100.00% 100.00% 50.00%
62k 28525 85.71% 100.00% 100.00% 50.00%
2、HRD得分计算及相关定义
本发明HRD score打分为下述三部分评分之和,即基因组杂合性缺失(Loss ofHeterozygosity,LOH)、端粒等位基因不平衡(Telomeric Allelic Inbalance,TAI)和大片段迁移(Large-scale state Transition,LST)。其中,基因组杂合性缺失定义为不跨越整个染色体的,超过15Mb的杂合性缺失区域;端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒,但未跨越端粒。本部分仅考虑亲本等位基因序列的不平等贡献,不涉及到总拷贝数的变化;大片段迁移为相邻区域之间至少10Mb的染色体断裂,且他们的距离不超过3Mb。
3、候选SNP位点panel的性能模拟验证流程
1)使用fastp对normal和cancer样本的原始数据进行质控及过滤,去除测序质量较低的reads;
2)使用bwa的mem将normal和cancer样本比对到参考基因组上(hg19),得到bam文件;
3)根据候选SNP的位置,计算SNP前后各60bp的距离,制作成bed文件;
4)根据bed文件使用bedtools软件的intersect提取normal和cancer样本的比对后的bam文件中bed区域内的所有reads,形成仅含有panel目标区域reads的bam文件;
5)使用samtools的sort对bam文件进行排序;
6)使用samtools的index对排序后的bam文件进行索引;
7)使用sequenza-utils中的bam2seqz对索引后的cancer及normal样本的bam文件进行拷贝数分析,得到此样本的等位基因特异性拷贝数结果文件;
8)调用R内的scarHRD包,对等位基因特异性拷贝数结果文件进行同源重组缺陷水平定量分析,得到相关数值。
9)选取性能最优且SNP位点个数最少的panel。
4、本发明性能验证结果
选取12例高深度测序的WGS样本数据,将本发明候选SNP位点与市售2款同类型产品(产品一、产品二)分别进行与WGS结果的对比验证,所用样本及数据量情况如表1。
根据步骤3候选SNP位点panel的性能模拟验证流程对本发明(22000个SNP)panel及产品一(370000个SNP)、产品二(42000个SNP)panel进行验证,结果如表4-6所示。本发明所涉及标志物准确性较好,在验证的11个样本(6阳+5阴)中,与全基因组测序结果相比,本发明可用22000个SNP达到同类产品二(42000个SNP)相同准确性,且优于同类产品一(37000个SNP)。
在分辨率方面,结果如图1所示。在相同验证集(n=11)中,相较产品一、产品二,本发明拥有更好的分辨率,更易区分阳性样本,以减少假阳性、假阴性概率。
表4示例性候选标志物panel结果验证
Figure BDA0003494189330000151
表5产品一候选标志物panel结果验证
Figure BDA0003494189330000161
表6产品二候选标志物panel结果验证
Figure BDA0003494189330000162
尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims (10)

1.一种基于二代测序检测同源重组修复缺陷的方法,其特征在于,包括以下步骤:
(1)取选定人群的全基因组的序列数据,将所述序列数据拼接为对应于不同染色体的多个连续序列;
(2)以固定长度为单位将所述多个连续序列分别划分为若干大小相同的区间,在各区间内选取标准参考位置,取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点,由所述多个候选SNP位点组成候选位点集;
(3)改变作为单位的固定长度,重复步骤(2)得到多个候选位点集,所述多个候选位点集中SNP位点的个数因固定长度不同而不同;
(4)利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证,计算对应各候选位点集的HRD得分;
(5)选取性能最优且SNP位点数最少的候选位点集作为检测同源重组修复缺陷的最优位点集。
2.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法,其特征在于,所述染色体不包括Y染色体。
3.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法,其特征在于,所述HRD得分包括基因组杂合性缺失、端粒等位基因不平衡和大片段迁移评分之和。
4.根据权利要求3所述的基于二代测序检测同源重组修复缺陷的方法,其特征在于,所述基因组杂合性缺失为不跨越整个染色体的、超过15Mb的杂合性缺失区域;所述端粒等位基因不平衡为同源染色体上的两个等位基因拷贝数不同并延伸至端粒,但未跨越端粒;所述大片段迁移为相邻区域之间至少10Mb的染色体断裂,且两者的距离不超过3Mb。
5.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法,其特征在于,根据与WGS结果的一致性确定各候选位点集的性能。
6.根据权利要求1所述的基于二代测序检测同源重组修复缺陷的方法,其特征在于,进一步包括利用探针组捕获样本中目标序列的步骤,其中所述目标序列包含最优位点集内的至少一个SNP位点,所述探针组的探针设计为在严格杂交条件下能够与含有最优位点集内的至少一个SNP的目标序列互补结合。
7.一种基于二代测序检测同源重组修复缺陷的探针组,其特征在于,所述探针组在严格杂交条件下能够与目标序列结合,所述目标序列包含根据权利要求1所述方法得到的最优位点集中的至少一个SNP位点。
8.一种基于二代测序检测同源重组修复缺陷的试剂盒,其特征在于,其包含根据权利要求7所述的探针组。
9.根据权利要求8所述的基于二代测序检测同源重组修复缺陷的试剂盒,其特征在于,其进一步包含用于扩增目标序列的引物,所述目标序列包含根据权利要求1所述方法得到的最优位点集中的至少一个SNP位点。
10.一种基于二代测序检测同源重组修复缺陷的系统,其特征在于,包括:
(a)数据获取模块,其用于获取选定人群的全基因组的序列数据;
(b)数据处理模块,其用于将所述序列数据拼接为对应不同染色体的多个连续序列,然后以固定长度为单位将所述多个连续序列分别划分为若干大小相同的区间,在各区间内选取标准参考位置,取距离所述标准参考位置最近的SNP位点作为对应区间的候选SNP位点,由所述多个候选SNP位点构建组成候选位点集;改变作为单位的固定长度,重复构建候选位点集的步骤,得到多个候选位点集,所述多个候选位点集中SNP位点的个数因固定长度不同而不同;
(c)模拟验证模块,其用于利用正常人群样本和患者样本的原始数据进行各候选位点集的性能模拟验证,计算对应各候选位点集的HRD得分,并将HRD得分与WGS结果一致性最优的候选位点集作为最优位点集;和
(d)检测模块,其用于以最优位点集检测待测样本的同源重组修复缺陷。
CN202210108512.4A 2022-01-28 2022-01-28 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统 Pending CN114400045A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210108512.4A CN114400045A (zh) 2022-01-28 2022-01-28 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210108512.4A CN114400045A (zh) 2022-01-28 2022-01-28 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统

Publications (1)

Publication Number Publication Date
CN114400045A true CN114400045A (zh) 2022-04-26

Family

ID=81232625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210108512.4A Pending CN114400045A (zh) 2022-01-28 2022-01-28 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统

Country Status (1)

Country Link
CN (1) CN114400045A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985399A (zh) * 2023-03-20 2023-04-18 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985399A (zh) * 2023-03-20 2023-04-18 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统

Similar Documents

Publication Publication Date Title
Zhao et al. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols
Hause et al. Classification and characterization of microsatellite instability across 18 cancer types
Bell et al. Insights into variation in meiosis from 31,228 human sperm genomes
Gaspar et al. DMRfinder: efficiently identifying differentially methylated regions from MethylC-seq data
US11978535B2 (en) Methods of detecting somatic and germline variants in impure tumors
Bertucci et al. Lobular and ductal carcinomas of the breast have distinct genomic and expression profiles
US20230040907A1 (en) Diagnostic assay for urine monitoring of bladder cancer
CA3160566A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US20210238695A1 (en) Methods of mast cell tumor prognosis and uses thereof
Aberg et al. Methyl-CpG-binding domain sequencing: MBD-seq
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN116312785A (zh) 乳腺癌诊断标志基因及其筛查方法
CN114400045A (zh) 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统
Quiroz-Zárate et al. Expression Quantitative Trait loci (QTL) in tumor adjacent normal breast tissue and breast tumor tissue
Meyer et al. ReadZS detects cell type-specific and developmentally regulated RNA processing programs in single-cell RNA-seq
CN113981070B (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes
CN110970093A (zh) 一种筛选引物设计模板的方法、装置及应用
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
BR102014003033A2 (pt) processo, aparato ou sistema e kit de classificação de amostras tumorais de origem desconhecida e/ou incerta e uso dos genes do grupo de biomarcadores
CN109880905B (zh) 一组用于三阴性乳腺癌免疫组化分型的基因及其应用
Zador et al. Gene expression signatures identify biologically homogenous subgroups of grade 2 meningiomas
Fettke et al. Analytical validation of an error-corrected ultra-sensitive ctDNA next-generation sequencing assay
Sun et al. A genetical genomics approach to genome scans increases power for QTL mapping
Henikoff et al. RNA Polymerase II hypertranscription in cancer FFPE samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination