CN113948151A - 一种低深度wgs下机数据的处理方法 - Google Patents

一种低深度wgs下机数据的处理方法 Download PDF

Info

Publication number
CN113948151A
CN113948151A CN202111154180.5A CN202111154180A CN113948151A CN 113948151 A CN113948151 A CN 113948151A CN 202111154180 A CN202111154180 A CN 202111154180A CN 113948151 A CN113948151 A CN 113948151A
Authority
CN
China
Prior art keywords
afr
window
hrd
wgs
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111154180.5A
Other languages
English (en)
Other versions
CN113948151B (zh
Inventor
楼峰
刘凯
张萌萌
郭璟
孙宏
曹善柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Xiangxin Biotechnology Co ltd
Tianjin Xiangxin Medical Instrument Co ltd
Beijing Xiangxin Biotechnology Co ltd
Original Assignee
Tianjin Xiangxin Biotechnology Co ltd
Tianjin Xiangxin Medical Instrument Co ltd
Beijing Xiangxin Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Xiangxin Biotechnology Co ltd, Tianjin Xiangxin Medical Instrument Co ltd, Beijing Xiangxin Biotechnology Co ltd filed Critical Tianjin Xiangxin Biotechnology Co ltd
Priority to CN202111154180.5A priority Critical patent/CN113948151B/zh
Publication of CN113948151A publication Critical patent/CN113948151A/zh
Application granted granted Critical
Publication of CN113948151B publication Critical patent/CN113948151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请属于基因检测技术领域,具体公开一种低深度WGS下机数据的处理方法,该方法可以用于评估HRD score。本申请至少具有以下有益效果之一:本申请提供的基于低深度WGS评估HRD score的方法以低深度WGS测序形成的数据为基础进行分析,极大地降低了成本,有利于大规模的应用。

Description

一种低深度WGS下机数据的处理方法
技术领域
本申请属于基因检测技术领域,更具体地说,它涉及一种低深度WGS下机数据的处理方法、建立基因组杂合性缺失LOH的计算方法、建立大片段迁移LST的计算方法和端粒等位基因不平衡TAI的计算方法。
背景技术
DNA双链断裂(double strand breaks)是一种DNA损伤类型,严重时会导致染色体的断裂和重排等,由于没有互补链进行修复,所以DNA序列难以恢复,造成遗传信息丢失,这种DNA双链断裂需要同源重组修复。若同源重组修复能力缺失即发生HRD,则会导致基因组丧失稳定性,在基因组不稳定的情况下容易积累DNA损伤,以此恶性循环,导致癌症发生。HRD对铂类或者PARP抑制剂的使用具有很重要的指导意义。
HRD一般由同源重组修复通路中基因变异或者表观变异引起,同源重组修复通路中包含BRCA1/2、Rad52/Rad22、PALB2、RAD51家族、BRIP1/BACH1、ATM和CHEK2等基因。研究表明存在BRCA1突变的女性,会存在50-85%和15-45%的概率罹患乳腺癌和卵巢癌。在乳腺癌中,遗传性BRCA1/2变异占大约7%,而在三阴性乳腺癌中能达到11%-15%。在家族性和偶发性乳腺癌患者中,估计有40%属于同源重组缺陷。尽管目前主要关注HRD在乳腺癌中的治疗,但是HRD在其他癌种中也是一个重要的指标。
目前,HRD的检测方法有以下两种:
HR基因芯片,芯片设计时包含同源重组通路基因,利用靶向捕获技术和二代测序技术,获得同源重组通路基因的测序数据,检测所有基因的SNV、Indel和largearrangement,缺点是可能会高估HRD,而且基于芯片检测时,芯片上的SNP位点是固定的,只能检测特定位点的变异,具有一定的局限性。
全基因组测序(WGS),对全基因组进行测序,检测染色体结构变异:包括杂合性缺失-LOH,端粒位点不平衡-TAI和大程度基因组不稳定性-LST来计算HRD score。优点是准确率高;缺点是成本相对较高。
发明内容
为了在保证灵敏度及准确率的情况下降低成本,本申请提供一种基于低深度WGS评估HRD score的方法,该方法以低深度WGS测序所获得数据为基础进行评估HRD score,其降低了成本,更适合于大规模应用于临床。
本申请是通过以下方案实现的:
本申请提供一种基于低深度WGS评估HRD score的方法,包括如下步骤:处理待测样本的低深度WGS下机数据;以及选自以下步骤中的任意一个或多个步骤:
步骤一:建立基因组杂合性缺失LOH的计算方法,获得HRD-LOH score;
步骤二:建立端粒等位基因不平衡TAI的计算方法,获得HRD-TAI score;和,
步骤三:建立大片段迁移LST的计算方法,获得HRD-LST score。
本申请以低深度WGS下机数据为基础,建立评估HRD score的方法,大大降低了全基因组测序(WGS)的成本,相较于HR基因芯片检测,本申请检测的位点更加灵活,检测待测样本的结果更加准确,符合待测样本真实情况。
在本申请的一个具体实施方式中,所述处理待测样本的低深度WGS下机数据具体包括:
S1-1:将所述下机数据与人类全基因组的参考基因组比对,得到第一比对文件;
S1-2:去除所述第一比对文件中重复的reads,得到第二比对文件;
S1-3:将人类全基因组划分成100Kbp大小的windows。
本申请中,将全基因组按照顺序,以100Kbp大小划分为不同的windows,便于后续数据的分析和处理。
在本申请的一个具体实施方式中,所述处理待测样本的低深度WGS下机数据还包括:
S1-4:以所述第二比对文件中的reads为基本单元,统计落在每个window内的reads数,作为该window的reads count,记为RCi,i为全基因组中按照排列顺序划分成的window的次序,i为1,2,3....;
S1-5:统计每个window的GC碱基含量,将相邻的GC含量相同的windows合并为一组,第j组记为Wj,第j组含有的window的个数记为Mj,第j组含有的第k个window记为Wkj,j、k分别为1,2,3...;
S1-6:计算每个Wj的中位值,记为RCj,与该样本整体的平均RC,记为RCp,通过以下公式对RCi进行矫正:
Figure 426861DEST_PATH_IMAGE001
i=M1+M2+M3...+M(j-1)+k;
S1-7:按照步骤S1-1、S1-2和S1-3处理N个健康样本的低深度WGS下机数据,计算每个window在N个健康样本中的中位值RC,记为RCy,作为该window的RC,构建baseline,N≥30,y为1,2,3...;
S1-8:对待测样本的windows和健康样本的windows进行遍历,取每个window待测样本的NRCi除以对应baseline中的RCy,得到DR;
S1-9:基于循环二元分割算法(CBS)对DR进行分段,记为DR片段,同一个DR片段中的DR值比较接近,相邻两个DR片段的平均DR值相差显著,且每个DR片段中至少包含10个windows。
本申请中,设置每个DR片段中至少包含10个windows,其中10个windows可以保证在每个DR片段中保留长度在1M以上的片段,以最大可能的屏蔽掉干扰信号。
在本申请的一个具体实施方式中,所述处理待测样本的低深度WGS下机数据还包括:
S1-10:统计每个DR片段中DR的中位值,作为该DR片段的DR值,记为DRq,计算该DR片段的拷贝数,记为Cq,计算公式为:
Figure 406318DEST_PATH_IMAGE002
本申请中,通过计算Cq值,可以初步了解癌症发生的内在原因,可以在细胞学水平上对症下药,使得癌症的缓解率大大提高。如果Cq值不等于2,则说明发生了基因拷贝数的变异。Cq值大于2意味着基因增加(gain),小于2则意味着基因缺失(loss)。如果某些负责细胞增殖的基因发生gain或者抑癌基因发生loss,则有可能引发细胞无限增殖,导致癌症的发生。因此,可以根据Cq值初步判断癌症的发生。
在本申请的一个具体实施方式中,所述建立基因组杂合性缺失LOH的计算方法具体包括:
S2-1:使用千人基因组计划数据,选择杂合概率较高的SNP位点;
S2-2:统计所述SNP位点上的每个位点等位碱基在待测样本上的频率,如果存在多个等位碱基,取频率最高的两个;如果仅有一个等位碱基,第二等位碱基给定默认频率为0;
S2-3:统计每个window中所述SNP位点第二等位碱基频率的平均数作为该window的AF(allele frequency),生成新的AF数列;如果AF大于0,则将AF调整成0.5;
S2-4:将步骤S2-3中所述AF相同的且相邻的window相连,得到较大的AF片段;
S2-5:选取Cq大于等于1,且AF等于0的AF片段,如果该片段长度大于15Mb,且小于其所在整个染色体的长度,则记为一个LOH事件;
S2-6:记录待测样本中的LOH事件,记为HRD-LOH score。
在本申请的一个具体实施方式中,杂合概率较高的SNP位点,是指杂合概率大于0.2,这些位点在基因组上大致均匀分布,共约110000个SNP位点。
在本申请的一个具体实施方式中,所述建立大片段迁移LST的计算方法具体包括:
S4-1:步骤S1-9中获得的DR片段中,去除DR片段小于3Mb的片段;
S4-2:以单一的染色体为分析目标,依次将DR片段与染色体进行比对处理,将该染色体上相邻的Cq相同的DR片段合并为一个大片段,记为DRd,依次分析处理所有的染色体;
S4-3:对DRd进行统计,如果形成DRd的两个相邻的DR片段的长度均大于10Mb,且中间间隔小于3Mb,则记为一个LST事件;
S4-4:记录待测样本中的LST事件,记为HRD-LST score。
在本申请的一个具体实施方式中,所述建立端粒等位基因不平衡TAI的计算方法具体包括:
S3-1:使用千人基因组计划数据,选择杂合概率较高的SNP位点;
S3-2:统计所述SNP位点上每个位点等位碱基的变异频率,得到变异频率最高的两个频率,第一等位碱基频率AF1和第二等位碱基频率AF2,根据以下公式计算每个位点的AFR值(allele frequency ratio);如果某位点没有变异则AFR值为0,去除该位点;
Figure 608892DEST_PATH_IMAGE003
S3-3:计算每个window的平均AFR,作为该window的AFR,记为AFRp,如果某window的AFR值均为0,则该window的AFRp为0;
S3-4:将AFRp小于0.5的临近window进行合并,将AFRp大于0.5的临近window进行合并,分别生成AFR片段;
S3-5:如果某个AFR片段包含端粒,长度大于11Mb,且AFRp小于0.5,则记为一个TAI事件;
S3-6:记录待测样本中的TAI事件,记为HRD-TAI score。
在本申请的一个具体实施方式中,所述处理待测样本的低深度WGS下机数据还包括S1-0:下机数据的前处理:将下机数据去除reads上的接头。
在本申请的一个具体实施方式中,所述低深度WGS下机数据的文件格式为fastq格式。
在本申请的一个具体实施方式中,所述下机数据通过fastp软件去除reads上的接头。
在本申请的一个具体实施方式中,所述第一比对文件的格式为bam格式。
在本申请的一个具体实施方式中,所述下机数据与人类全基因组的参考基因组通过bwa软件进行比对。
在本申请的一个具体实施方式中,所述第一比对文件通过picard软件去除重复的reads,得到第二比对文件。
在本申请的一个具体实施方式中,所述第一比对文件在去除重复reads前,对第一比对文件进行碱基质量值矫正。
在本申请的一个具体实施方式中,所述第一比对文件通过GATK软件进行碱基质量矫正。
在本申请的一个具体实施方式中,所述HRD score = HRD-LOH score + HRD-TAIscore + HRD-LST score。
在本申请的一个具体实施方式中,所述HRD阴性或阳性的cutoff值为HRD score=42。
在本申请的一个具体实施方式中,所述低深度WGS为10层以上的WGS测序结果。优选地,所述低深度WGS为10层的WGS测序结果。
本申请另一方面提供一种实现基于低深度WGS评估HRD score的装置,其包括:
数据处理模块:用于处理低深度WGS下机数据;和选自以下统计模块中的一种或多种:
HRD-LOH score统计模块:用于判断并统计HRD-LOH score;
HRD-TAI score统计模块:用于判断并统计HRD-TAI score;和
HRD-LST score统计模块:用于判断并统计HRD-LST score。
本申请提供的方法至少具有以下有益效果之一:
本申请提供的基于低深度WGS评估HRD score的方法以低深度WGS测序形成的数据为基础进行分析,极大地降低了成本,有利于大规模的应用。
附图说明
图1为本申请实施例中提供的基于低深度WGS评估HRD score的方法流程示意图。
图2为本申请实施例中提供的不同HRD score患者的生存分析图。
图3为本申请实施例中提供的HRD score与BRCA1/2有害突变的关系图。
具体实施方式
除非另有定义,本申请中使用的所有技术和科学术语具有与本申请所述技术领域的普通技术人员通常理解的相同含义。
下面将结合本申请实施例,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
本申请中缩略语和关键术语的定义如下:
HR:Homologous Recombination,同源重组
HRD:Homologous Recombination Deficiency,同源重组修复缺陷
LOH:Loss of Hererozygosity,杂合性缺失
TAI:Telomeric allelic imbalance,端粒位点不平衡
LST:Large-Scale Genomic Instability,大程度基因组不稳定性
HRD-LOH score:长度大于15Mb且小于染色体长度的LOH事件个数
HRD-TAI score:延伸到染色体末端的位点不平衡,且区域长度大于11Mb的事件个数
HRD-LST score:染色体相邻的两个片段长度大于10Mb,且两个片段之间距离小于3Mb的事件个数
本申请中,待测样本来源于公司接收的肿瘤患者样本,健康样本来源于公司收集的本公司员工贡献样本。全基因组来源于公开数据库NCBI,版本为hg19。千人基因组计划数据来源于公开数据库https://www.internationalgenome.org/data。
如图1所示,为本申请基于低深度WGS评估HRD score的过程。图1中是以HRD-LOHscore、HRD-TAI score和HRD-LST score三者的总和评估HRD score。在实际应用过程中,可以根据HRD-LOH score或者结合其他指标例如BRCA1/2突变等初步判断与杂合体缺失相关的疾病或指导用药等,也可以初步判断HRD score;可以根据HRD-TAI score或者结合其他指标初步判断与端粒位点不平衡相关的疾病或指导用药等,也可以初步判断HRD score;以及根据HRD-LST score或者结合其他指标初步判断与大程度基因组不稳定性相关的疾病或指导用药等,也可以初步判断HRD score。
实施例1 低深度WGS数据处理的预处理
1. 将低深度WGS下机数据通过fastp软件去除reads上的接头;
2. 将处理后的下机数据与人类全基因组的参考基因组通过bwa软件进行比对,得到bam格式的第一比对文件;
3. 将第一比对文件通过GATK软件进行碱基质量值矫正;
4. 将矫正后的第一比对文件通过picard软件去除重复的reads,得到不包含重复reads的第二比对文件,文件的格式为bam格式。
5. 将人类全基因组按照排列顺序划分成100Kbp大小的windows。
实施例2 构建DR片段
1)以实施例1中的第二比对文件中的reads为基本单元,统计落在实施例1中每个window内的reads数,作为该window的reads count,记为RCi,i为全基因组中按照排列顺序划分成的window的次序,i为1,2,3....。
2)统计每个window的GC碱基含量,将GC含量相同的相邻的windows合并为一组,第j组记为Wj,第j组含有的window的个数记为Mj,第j组含有的第k个window记为Wkj,j、k分别为1,2,3....;
3)计算Wj的中位值RC,记为RCj,与该待测样本整体的平均RC,记为RCp,通过以下公式对RCi进行矫正:
Figure 800839DEST_PATH_IMAGE004
i=M1+M2+M3...+M(j-1)+k;
4)按照步骤1)、2)和3)中的方法处理30个健康人低深度WGS数据,计算每个window在多个样本中的中位RC,记为RCy,作为该window的RC,构建baseline;N≥30,y为1,2,3...。
5)取每个window的待测样本的NRCi除以对应baseline中的RCy,得到DR(depthRatio);
6)基于循环二元分割算法(CBS:circular binary segmentation)对DR进行分段(segment),记为DR片段,同一个DR片段中的DR值比较接近,相邻两个DR片段的平均DR值相差显著,且每个DR片段中至少包含10个windows。
实施例3 计算拷贝数
统计每个DR片段中DR的中位值,作为该DR片段的DR值,记为DRq,计算该DR片段的拷贝数,记为Cq,计算公式为:
Figure 411949DEST_PATH_IMAGE002
本实施例中,可以通过Cq(拷贝数)的计算,初步了解患者发生癌症的内在原因。
实施例4 HRD-LOH score统计
1. 使用千人基因组计划数据,选择杂合概率较高的SNP位点,这些位点在基因组中大致均匀分布,约为110000个;
2. 统计SNP位点上的每个位点等位碱基在待测样本上的频率,如果存在多个等位碱基,取频率最高的两个;如果仅有一个等位碱基,第二等位碱基给定默认频率为0;
3. 统计实施例1中每个window中SNP位点第二等位碱基频率的平均数作为该window的AF(allele frequency),生成新的AF数列;如果AF大于0,则将AF调整成0.5;
4. 将步骤3中,AF相同且相邻的window相连,得到较大的AF片段;
5. 选取实施例3中的Cq大于等于1,且AF等于0的AF片段,如果该片段长度大于15Mb,且小于其所在整个染色体的长度,则记为一个LOH事件;
6. 记录待测样本中的LOH事件,记为HRD-LOH score。
实施例5 HRD - TAI score的统计
1. 使用千人基因组计划数据,选择杂合概率较高的SNP位点;
2. 统计SNP位点上每个位点等位碱基的变异频率,得到变异频率最高的两个频率,第一等位碱基频率AF1和第二等位碱基频率AF2,根据以下公式计算每个位点的AFR值;如果某位点没有变异则AFR值为0,去除该位点;
Figure 798193DEST_PATH_IMAGE005
3. 计算实施例1中每个window的平均AFR,作为该window的AFR,记为AFRp,如果某window的AFR值均为0,则该window的AFRp为0;
4. 将AFRp小于0.5的临近window进行合并,将AFRp大于0.5的临近window进行合并,分别生成AFR片段;
5. 如果某个AFR片段包含端粒,长度大于11Mb,且AFRp小于0.5,则记为一个TAI事件;
6. 记录待测样本中的TAI事件,记为HRD-TAI score。
实施例6 HRD - LST score的统计
1. 将实施例2中构建的DR片段中,去除DR片段小于3Mb的片段;
2. 以单一的染色体为分析目标,依次将DR片段与染色体进行比对处理,将该染色体上相邻的Cq相同的DR片段合并为一个大片段,记为DRd,依次分析处理所有的染色体;
3. 对DRd进行统计,如果形成DRd的两个相邻的DR片段的长度都大于10Mb,且中间间隔小于3Mb,则记为一个LST事件;
4. 记录待测样本中的LST事件,记为HRD-LST score。
实施例7 HRD score的统计
HRD score = HRD-LOH score + HRD-TAI score + HRD-LST score。
本实施例中,HRD的cutoff值为HRD score=42,即HRD score大于42时,该患者对铂类药物和PARP抑制剂敏感。
实施例8 低深度WGS测序层数的确定
使用10个样本进行WGS测序,得到50多层的数据,然后分别随机截取50X、30X、20X、10X、5X,使用实施例1-7中的方法检测HRD-LOH score、HRD-TAI score和HRD-LST score,并计算最终的HRD score,进而进行最低测序量评估。其实验结果见表1所示。
表1 不同深度测序的相关性
Figure 721018DEST_PATH_IMAGE006
从表1可知,以50X的数据量的检测结果作为参考,当使用30X、20X、10X数据量的时候,得到的HRD-score与50X数据量时的相关系数超过95%,层数越低,相关系数越差,因此本申请实施例中以超过相关性大于95%的10X作为低深度WGS测序的最低层数。
应用例1
利用本申请实施例1-8中确定方法分析某乳腺癌患者样本。
乳腺癌患者:姓名吴某,性别女,年龄46,临床症状左侧乳腺浸润性癌,无其他病史。
利用本申请实施例1-8中确定方法计算该患者的HRD-LOH score为1,HRD - TAIscore为4,HRD - LST score为44,总的HRD score为49,高于cutoff值,则判断为HRD阳性。判断该患者对铂类化疗药物或者PARP抑制剂等有很好的响应,此结果与已有文献报道HRD-high和铂类药物治疗敏感的相关性相符。在临床上,给患者使用了铂类化疗药物,其无进展生存期(PFS)达到了13个月,说明利用本申请实施例1-6中确定的方法计算HRD score,并通过HRD score可以指导临床用药。
应用例2
选取43例乳腺癌样本和72例卵巢癌样本(共115例样本)进行低深度全基因组测序,115例样本具有铂类药物化疗的预后信息(即对115例样本均采用铂类药物化疗)。利用本申请实施例1-8中的方法计算LOH、TAI、LST,获取HRD score。
根据HRD score数值,以cutoff值=42为临界点,将115例样本分为两组,HRD-High(阳性)组和HRD-Low(阴性)组。其中,HRD-High组为40例,HRD-low组为75例。结合临床PFS(Progress Free Survival),对HRD-High组和HRD-Low组进行生存分析,实验结果如图2所示。
从图2中可以看出,HRD-High组(40例)的整体生存时间要显著长于HRD-Low(75例)组,说明HRD-High组对铂类药物治疗敏感,与实际相符。
分别检测115例样本BRCA1/2基因上的SNV、Indel有害变异。其结果为:43例乳腺癌样本中,BRCA1/2突变样本13例,BRCA1/2野生型30例;72例卵巢癌样本中,BRCA1/2突变样本27例,BRCA1/2野生型样本45例,制作BRCA1/2-HRD分布图,其结果如图3所示。
由图3可以看出,发生BRCA1/2突变的样本中,大部分HRD值较高,属于HRD阳性,该类患者对铂类药物敏感;而BRCA1/2野生型中也有少比例的样本属于HRD-High,结合图2可知,即使是BRCA1/2野生型,但如果其HRD score较高,属于HRD阳性,则该患者对铂类药物也敏感,与实际相符。因此,利用本申请实施例中提供的方法计算HRD score,通过HRD score的数值,在一定程度上能够指导临床用药。
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。

Claims (7)

1.一种低深度WGS下机数据的处理方法,其特征在于,包括如下步骤:
S1-1:将待测样本的低深度WGS下机数据与全基因组的参考基因组比对,得到第一比对文件;
S1-2:去除所述第一比对文件中重复的reads,得到第二比对文件;
S1-3:将全基因组按照排列顺序划分成100Kbp大小的windows;
S1-4:以所述第二比对文件中的reads为基本单元,统计落在每个所述window内的reads数,作为该window的reads count,记为RCi,i为全基因组中按照排列顺序划分成的window的次序,i为1,2,3....;
S1-5:统计每个window的GC碱基含量,将GC含量相同的相邻的windows合并为一组,第j组记为Wj,第j组含有的window的个数记为Mj,第j组含有的第k个window记为Wkj,j、k分别为1,2,3....;
S1-6:计算Wj的中位值RC,记为RCj,与该待测样本整体的平均RC,记为RCp,通过以下公式对RCi进行矫正:
Figure 169308DEST_PATH_IMAGE001
i=M1+M2+M3...+M(j-1)+k;
S1-7:按照步骤S1-4、S1-5和S1-6处理N个健康样本的低深度WGS下机数据,计算每个window在N个健康样本中的中位值RC,记为RCy,作为该window的RC,构建baseline;N≥30,y为1,2,3...;
S1-8:取每个window的待测样本的NRCi除以对应baseline中的RCy,得到DR;
S1-9:基于循环二元分割算法对DR进行分段,记为DR片段,同一个DR片段中的DR值比较接近,相邻两个DR片段的平均DR值相差显著,且每个DR片段中至少包含10个windows。
2.根据权利要求1所述的低深度WGS下机数据的处理方法,其特征在于,还包括:
S1-10:统计每个DR片段中DR的中位值,作为该DR片段的DR值,记为DRq,计算该DR片段的拷贝数,记为Cq,计算公式为:
Figure 41449DEST_PATH_IMAGE002
3.一种基因组杂合性缺失LOH的计算方法,其特征在于,包括权利要求2所述的低深度WGS下机数据的处理方法中的处理步骤,以及如下步骤:
S2-1:使用千人基因组计划数据,选择杂合概率较高的SNP位点;
S2-2:统计所述SNP位点上的每个位点等位碱基在待测样本上的频率,如果存在多个等位碱基,取频率最高的两个;如果仅有一个等位碱基,第二等位碱基给定默认频率为0;
S2-3:统计每个window中所述SNP位点第二等位碱基频率的平均数作为该window的AF,生成新的AF数列;如果AF大于0,则将AF调整成0.5;
S2-4:将步骤S2-3中所述AF相同且相邻的window相连,得到较大的AF片段;
S2-5:选取Cq大于等于1,且AF等于0的AF片段,如果该片段长度大于15Mb,且小于其所在整个染色体的长度,则记为一个LOH事件;
S2-6:记录待测样本中的LOH事件,记为HRD-LOH score。
4.一种大片段迁移LST的计算方法,其特征在于,包括权利要求1中所述的低深度WGS下机数据的处理方法中的处理步骤,以及如下步骤:
S4-1:步骤S1-9中获得的DR片段中,去除DR片段小于3Mb的片段;
S4-2:以单一的染色体为分析目标,依次将DR片段与染色体进行比对处理,将该染色体上相邻的Cq相同的DR片段合并为一个大片段,记为DRd,依次分析处理所有的染色体;
S4-3:对DRd进行统计,如果形成DRd的两个相邻的DR片段的长度都大于10Mb,且中间间隔小于3Mb,则记为一个LST事件;
S4-4:记录待测样本中的LST事件,记为HRD-LST score。
5.一种端粒等位基因不平衡TAI的计算方法,其特征在于,包括如下步骤:
S1-1:将待测样本的低深度WGS下机数据与全基因组的参考基因组比对,得到第一比对文件;
S1-2:去除所述第一比对文件中重复的reads,得到第二比对文件;
S1-3:将全基因组按照排列顺序划分成100Kbp大小的windows;
S3-1:使用千人基因组计划数据,选择杂合概率较高的SNP位点;
S3-2:统计所述第二比对文件所述SNP位点上每个位点等位碱基的变异频率,得到变异频率最高的两个频率,第一等位碱基频率AF1和第二等位碱基频率AF2,根据以下公式计算每个位点的AFR值;如果某位点没有变异则AFR值为0,去除该位点;
Figure 97130DEST_PATH_IMAGE003
S3-3:计算每个所述window的平均AFR,作为该window的AFR,记为AFRp,如果某window的AFR值均为0,则该window的AFRp为0;
S3-4:将AFRp小于0.5的临近window进行合并,将AFRp大于0.5的临近window进行合并,分别生成AFR片段;
S3-5:如果某个AFR片段包含端粒,长度大于11Mb,且AFRp小于0.5,则记为一个TAI事件;
S3-6:记录待测样本中的TAI事件,记为HRD-TAI score。
6.根据权利要求1或2所述的低深度WGS下机数据的处理方法,或权利要求3所述的基因组杂合性缺失LOH的计算方法,或权利要求4所述的大片段迁移LST的计算方法,或权利要求5所述的端粒等位基因不平衡TAI的计算方法,其特征在于,所述低深度WGS下机数据的处理方法还包括S1-0:下机数据的前处理:将下机数据去除reads上的接头。
7.根据权利要求6所述的方法,其特征在于,所述低深度WGS为10层以上的WGS测序结果。
CN202111154180.5A 2021-06-28 2021-06-28 一种低深度wgs下机数据的处理方法 Active CN113948151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111154180.5A CN113948151B (zh) 2021-06-28 2021-06-28 一种低深度wgs下机数据的处理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111154180.5A CN113948151B (zh) 2021-06-28 2021-06-28 一种低深度wgs下机数据的处理方法
CN202110716079.8A CN113257346B (zh) 2021-06-28 2021-06-28 一种基于低深度WGS评估HRD score的方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110716079.8A Division CN113257346B (zh) 2021-06-28 2021-06-28 一种基于低深度WGS评估HRD score的方法

Publications (2)

Publication Number Publication Date
CN113948151A true CN113948151A (zh) 2022-01-18
CN113948151B CN113948151B (zh) 2022-07-05

Family

ID=77189984

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202111154180.5A Active CN113948151B (zh) 2021-06-28 2021-06-28 一种低深度wgs下机数据的处理方法
CN202210674201.4A Active CN114999568B (zh) 2021-06-28 2021-06-28 一种端粒等位基因不平衡tai的计算方法
CN202110716079.8A Active CN113257346B (zh) 2021-06-28 2021-06-28 一种基于低深度WGS评估HRD score的方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202210674201.4A Active CN114999568B (zh) 2021-06-28 2021-06-28 一种端粒等位基因不平衡tai的计算方法
CN202110716079.8A Active CN113257346B (zh) 2021-06-28 2021-06-28 一种基于低深度WGS评估HRD score的方法

Country Status (1)

Country Link
CN (3) CN113948151B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067909B (zh) * 2021-11-23 2022-08-30 北京吉因加医学检验实验室有限公司 一种矫正同源重组缺陷评分的方法、装置和存储介质
CN114242170B (zh) * 2021-12-21 2023-05-09 深圳吉因加医学检验实验室 一种同源重组修复缺陷的评估方法、装置和存储介质
CN114300053A (zh) * 2021-12-29 2022-04-08 苏州绘真医学检验有限公司 一种同源重组缺陷基因分析方法
CN115862733B (zh) * 2023-02-27 2023-06-02 广州嘉检医学检测有限公司 基于中深度全基因组二代测序检测杂合性缺失的方法
CN115985399B (zh) * 2023-03-20 2023-07-04 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105986011A (zh) * 2015-01-30 2016-10-05 深圳华大基因研究院 一种杂合性缺失的检测方法
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN111676277A (zh) * 2020-08-12 2020-09-18 臻和(北京)生物科技有限公司 一种基于二代测序技术测定基因组不稳定的方法及试剂盒
CN111883211A (zh) * 2020-08-07 2020-11-03 张哲� 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法
CN112226495A (zh) * 2020-12-18 2021-01-15 北京迈基诺基因科技股份有限公司 一种dna同源重组异常的检测方法及其应用
CN112397145A (zh) * 2020-11-19 2021-02-23 河南省肿瘤医院 一种基于芯片检测的hrd评分计算方法
CN112410423A (zh) * 2020-11-03 2021-02-26 南京世和基因生物技术股份有限公司 同源重组缺失的标志物、检测方法以及检测系统
CN112802548A (zh) * 2021-01-07 2021-05-14 深圳吉因加医学检验实验室 单样本全基因组预测等位基因特异性拷贝数变异的方法
CN112820351A (zh) * 2021-03-01 2021-05-18 江苏医联生物科技有限公司 检测肿瘤患者的突变和hrd评分指导用药的方法
CN112980834A (zh) * 2021-04-22 2021-06-18 菁良基因科技(深圳)有限公司 一种同源重组修复缺陷参考品及其制备方法和试剂盒

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2931181C (en) * 2013-12-09 2023-01-24 Institut Curie Methods for detecting inactivation of the homologous recombination pathway (brca1/2) in human tumors
JP6877334B2 (ja) * 2014-08-15 2021-05-26 ミリアド・ジェネティックス・インコーポレイテッド 相同組換え欠損を評価するための方法および材料
WO2016118726A2 (en) * 2015-01-21 2016-07-28 Sangamo Biosciences, Inc. Methods and compositions for identification of highly specific nucleases
CN112164420B (zh) * 2020-09-07 2021-07-20 厦门艾德生物医药科技股份有限公司 一种基因组瘢痕模型的建立方法
CN112669906B (zh) * 2020-11-25 2021-09-28 深圳华大基因股份有限公司 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105986011A (zh) * 2015-01-30 2016-10-05 深圳华大基因研究院 一种杂合性缺失的检测方法
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN111883211A (zh) * 2020-08-07 2020-11-03 张哲� 一种表征hrd同源重组修复缺陷的基因瘢痕及鉴定方法
CN111676277A (zh) * 2020-08-12 2020-09-18 臻和(北京)生物科技有限公司 一种基于二代测序技术测定基因组不稳定的方法及试剂盒
CN112410423A (zh) * 2020-11-03 2021-02-26 南京世和基因生物技术股份有限公司 同源重组缺失的标志物、检测方法以及检测系统
CN112397145A (zh) * 2020-11-19 2021-02-23 河南省肿瘤医院 一种基于芯片检测的hrd评分计算方法
CN112226495A (zh) * 2020-12-18 2021-01-15 北京迈基诺基因科技股份有限公司 一种dna同源重组异常的检测方法及其应用
CN112802548A (zh) * 2021-01-07 2021-05-14 深圳吉因加医学检验实验室 单样本全基因组预测等位基因特异性拷贝数变异的方法
CN112820351A (zh) * 2021-03-01 2021-05-18 江苏医联生物科技有限公司 检测肿瘤患者的突变和hrd评分指导用药的方法
CN112980834A (zh) * 2021-04-22 2021-06-18 菁良基因科技(深圳)有限公司 一种同源重组修复缺陷参考品及其制备方法和试剂盒

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALEXANDRE EECKHOUTTE等: "ShallowHRD: detection of homologous recombination deficiency from shallow whole genome sequencing", 《BIOINFORMATICS》 *
XAVIER M.DE LUCA1等: "Using whole-genome sequencing data to derive the homologous recombination deficiency scores", 《NPJ BREAST CANCER》 *
罗华玉等: "全基因组低覆盖度测序结合传统细胞遗传学核型分析在罕见遗传病诊断中的应用", 《检验医学与临床》 *
邵谦之等: "全基因组测序及其在遗传性疾病研究及诊断中的应用", 《遗传》 *

Also Published As

Publication number Publication date
CN113257346A (zh) 2021-08-13
CN113257346B (zh) 2021-10-19
CN113948151B (zh) 2022-07-05
CN114999568A (zh) 2022-09-02
CN114999568B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN113257346B (zh) 一种基于低深度WGS评估HRD score的方法
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
CN112226495B (zh) 一种dna同源重组异常的检测方法及其应用
CN103667438B (zh) 一种筛查HRDs致病突变的方法及涉及的基因芯片杂交探针设计方法
CN107423578B (zh) 检测体细胞突变的装置
CN111968701B (zh) 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN108256292A (zh) 一种拷贝数变异检测装置
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN112088220A (zh) 替代标志物及用于肿瘤突变负荷测定的方法
CN111951893A (zh) 构建肿瘤突变负荷tmb面板的方法及其使用方法
Zhao et al. Association between the IL-10-1082G/A, IL-10-592A/C, and IL-10-819G/A polymorphisms and atopic dermatitis susceptibility: a meta-analysis
CN113724781B (zh) 检测纯合缺失的方法和装置
CN112037863B (zh) 一种早期nsclc预后预测系统
CN116741272A (zh) 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法
CN103710340B (zh) 一种i型usher综合征相关基因突变及应用此突变基因的耳聋分子病因学诊断试剂
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
CN114694752B (zh) 预测同源重组修复缺陷的方法、计算设备和介质
CN105838720A (zh) Ptprq基因突变体及其应用
CN114410772A (zh) 慢阻肺急性加重易感基因及其在预测易感慢阻肺急性加重中的应用
CN115074439B (zh) 一组nk/t细胞淋巴瘤预后相关基因、基因组预后模型及其用途
Gillmor Deconvolution of Genetic Heterogeneity in Glioblastoma
Haque et al. SNPs of ASPM suggested population differentiation and Genographic patterns among diverse population
Guo et al. Enhancing Variant Calling in Whole-Exome Sequencing Data Using Population-Matched Reference Genomes
CN117867113A (zh) 用于预测宫颈癌患者预后的ICTR-lncRNAs及预测模型和应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant