CN113362889A - 基因组结构变异注释方法 - Google Patents

基因组结构变异注释方法 Download PDF

Info

Publication number
CN113362889A
CN113362889A CN202110713095.1A CN202110713095A CN113362889A CN 113362889 A CN113362889 A CN 113362889A CN 202110713095 A CN202110713095 A CN 202110713095A CN 113362889 A CN113362889 A CN 113362889A
Authority
CN
China
Prior art keywords
variation
breakpoint
annotating
gene
annotated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110713095.1A
Other languages
English (en)
Inventor
安玥
刘成林
魏从翀
张周
张之宏
揣少坤
汉雨生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Burning Rock Dx Laboratory Co ltd
Original Assignee
Guangzhou Burning Rock Dx Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Burning Rock Dx Laboratory Co ltd filed Critical Guangzhou Burning Rock Dx Laboratory Co ltd
Priority to CN202110713095.1A priority Critical patent/CN113362889A/zh
Publication of CN113362889A publication Critical patent/CN113362889A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开涉及对基因组结构变异进行注释和预测融合蛋白形成的方法。本公开还提供了用于对基因组结构变异进行注释和预测融合蛋白形成的系统、设备和计算机可读介质。

Description

基因组结构变异注释方法
技术领域
本发明属于生物信息学领域,并具体涉及使用对基因组中的结构变异(SV)进行注释的方法和系统。
技术背景
结构变异(Structural Variants,SV)是人类基因组中最主要的变异形式。结构变异包含了缺失(Deletion)、扩增(Duplication)、插入(Insertion)、倒位(Transversion)、易位(Translocation)以及更为复杂形式的变异。在胚系突变当中,结构变异多态性是一些常见疾病的相关因素。在体系突变当中,通常以更为复杂形式出现的结构变异与癌症的发展具有一定相关性。
结构变异作为一种复杂的变异形式除了上述缺失、扩增、插入、倒位、易位等多样的变异类型外,它可能发生在基因内,也可能发生在基因间,它可能在同一个染色体上的跨度几十bp到几十兆bp,也可能是染色体间的易位。丰富的变异形式使得注释和解读结构变异十分困难。目前,针对结构变异的解读大多停留在基因或其结构的注释上,对于它的突变类型(mutation type),推测影响,是否推测形成融合蛋白,融合蛋白的结构组成,功能影响的预测,HGVS以及致病性评级等临床关注的信息均无法合理有效的注释和预测。这大大制约了结构变异在精准医疗领域的应用。
综上,目前本领域缺乏可以有效注释解读结构变异特别是人类基因组结构变异的方法和系统。
发明内容
以下列出了本公开中使用的部分术语及其定义。
NGS:高通量测序(High-Throughput Sequencing)又名下一代测序(NextGeneration Sequencing,NGS),是相对于传统的桑格测序(Sanger Sequencing) 而言的。
FASTQ格式文件:是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。
SAM格式文件:SAM(Sequence Alignment/Map format)文件是一种序列比对格式标准,由Sanger制定,是以TAB为分割符的文本格式。
BAM格式文件:SAM格式文件的二进制文件。
BED格式文件:BED(Browser Extensible Data)文件是定义track特征信息比如注释的格式,是以TAB为分割符的文本格式。
VCF格式文件:VCF(Variant Call Format)文件是一种保存基因序列变异的文本格式。
HGVS:人类基因组变异协会(Human Genome Variation Society)制定的序列变异的描述规范。
SV:结构变异(Structural Variation)。
本方法提供一种完整的对人类基因组结构变异注释和结构及功能预测的方法和系统。本方法除了对基因名称和结构的注释外,还可以进一步包括突变类型 (mutationtype)、推测影响(putative impact)的注释,预测是否形成融合蛋白,融合蛋白的结构组成,功能影响预测,HGVS注释以及致病性评级等临床关注的信息,来帮助相关专业人员评估结构变异的影响。
在一方面,本公开提供了一种对基因组结构变异(SV)进行注释的方法,所述方法包括:
a.提供SV信息,所述信息包括SV的类型、方向(orientation)和两个断点坐标,其中所述SV类型包括缺失、重复、倒位和易位;
b.根据断点坐标对每个断点所处的基因、转录本和断点在转录本中的位置,以及所述转录本的方向信息,CDS的最小外显子编号和最大外显子编号进行注释,或者当所述断点位于基因之间的区域时将其注释为基因间区域;和
c.根据SV类型和步骤b中对每个断点的注释,对SV产生的突变类型进行注释。
在上述方法的一些实施方案中,其中步骤a包括读取上游SV检测软件的分析结果以提取SV信息。在优选的实施方案中,所述SV变异检测软件选自Delly、 Manta、LUMPY、GRIDSS和markSV。
在一些实施方案中,步骤b包括:
b1.根据断点坐标将其注释为所述位置处的基因或基因间区域;
b2.确定b1中注释的基因的所有转录本及转录本的外显子、内含子、CDS和 UTR信息;
b3.根据断点在所述转录本中的位置,将其注释为位于UTR区域、外显子M 或内含子N,其中M为所述断点所处的CDS区域的外显子编号,N为所述断点处于两个CDS区域之间时,外显子编号较小的CDS的外显子编号;和
b4.获取所述基因的所述转录本的方向信息(+/-链信息)、CDS的最小外显子编号和最大外显子编号。
其中,在基因存在多个转录本的情况下,可以选择指定的转录本进行注释。在没有指定转录本的情况下,可以选择基因最长的转录本进行注释。
在上述方法的一些实施方案中,对突变类型进行注释包括对两个断点不在同一个基因内的SV进行注释,包括:
若两个断点都在基因间区域,则将突变类型注释为基因间变异;
若至少一个断点在基因区域,则将突变类型注释为基因融合。
在上述方法的一些实施方案中,对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是缺失的SV进行注释,包括:
(1)若两个断点在同一个外显子上,则根据至少一个断点与外显子边缘的距离,将突变类型注释为剪接区域变异或蛋白质改变变异;优选地,根据缺失核苷酸数量是否为3个核苷酸的倍数,将所述蛋白质改变变异注释为符合读码框缺失或移码变异;
(2)若两个断点在同一个内含子上,则根据至少一个断点与内含子上下游边缘的距离,将突变类型注释为剪接位点变异、剪接区域变异或内含子变异;优选地,根据至少一个断点与内含子上游边缘的距离或内含子下游边缘的距离,将所述剪接位点变异注释为剪接受体变异或剪接供体变异;
(3)若至少一个断点在UTR区域,另一个断点在同一个UTR的上、下游基因间区域,根据该UTR区域,将突变类型注释为5’UTR变异或3’UTR变异;
(4)若两个断点中一个在5’UTR上且另一个在3’UTR上,则将突变类型注释为拷贝数缺失变异;
(5)对于其他情况,将突变类型注释为大片段基因组重排。
在一些实施方案中,以上步骤(1)包括:若两个断点在同一个外显子上,则根据缺失核苷酸数量是否为3个核苷酸的倍数,将所述蛋白质改变变异注释为符合读码框缺失(缺失核苷酸数量为3个核苷酸的倍数)或移码变异(缺失核苷酸数量不是3个核苷酸的倍数);其中若至少一个断点在外显子内边缘2bp以内,则将突变类型覆盖为剪接区域变异。
在一些实施方案中,以上步骤(2)包括:若两个断点在同一个内含子上,将突变类型注释为内含子变异;其中若至少一个断点在外显子上游外边缘2bp以内,则将突变类型覆盖为剪接受体变异,若至少一个断点在外显子下游外边缘2bp以内,则将突变类型覆盖为剪接供体变异,若至少一个断点在外显子外边缘2-20bp 之间,则将突变类型覆盖为剪接区域变异。
在上述方法的一些实施方案中,对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是重复的SV进行注释,包括:
(1)若两个断点在同一个外显子上或在相邻的外显子上,将突变类型注释为蛋白质改变变异;优选地,根据重复核苷酸数量是否为3个核苷酸的倍数,将所述蛋白质改变变异注释为符合读码框重复或移码变异;
(2)若两个断点中的一个在内含子上,且另一个在同一个内含子上或与该内含子相邻的外显子或UTR上,则将突变类型注释为内含子变异;
(3)若至少一个断点在UTR区域,另一个断点在同一个UTR区域的上、下游基因间区域,根据该UTR区域,将突变类型注释为5’UTR变异或3’UTR变异;
(4)若两个断点中一个在5’UTR上且另一个在3’UTR上,则将突变类型注释为拷贝数重复变异;
(5)对于其他情形,将突变类型注释为大片段基因组重排。
在上述方法的一些实施方案中,对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是倒位的SV进行注释,包括:
(1)若两个断点在同一个外显子上,根据至少一个断点与外显子边缘的距离,将突变类型注释为剪接区域变异或蛋白质改变变异;优选地,根据突变后的编码框内是否有终止子,将所述蛋白质改变变异注释为终止获得或错义变异;
(2)若两个断点在同一个内含子上,则根据至少一个断点与外显子上游、下游边缘的距离将突变类型注释为剪接位点变异、剪接区域变异或内含子变异;优选地,根据至少一个断点与外显子上游边缘的距离或外显子下游边缘的距离,将所述剪接位点变异注释为剪接受体变异或剪接供体变异;
(3)若至少一个断点在UTR区域,另一个断点在同一个UTR区域的上、下游基因间区域,根据该UTR区域,将突变类型注释为5’UTR变异或3’UTR变异;
(4)对于其他情况,将其突变类型注释为大片段基因组重排。
在一些实施方案中,以上步骤(1)包括:若两个断点在同一个外显子上,则根据突变后的编码框内是否有终止子,分别将突变类型注释为终止获得(有终止子) 或错义变异(无终止子);其中若至少一个断点在外显子内边缘2bp以内,则将突变类型覆盖为剪接区域变异。
在一些实施方案中,以上步骤(2)包括:若两个断点在同一个内含子上,则将突变类型注释为内含子变异;其中若至少一个断点在外显子上游外边缘2bp以内,则将突变类型覆盖为剪接受体变异,若至少一个断点在外显子下游外边缘2bp以内,则将突变类型覆盖为剪接供体变异,若至少一个断点在外显子外边缘2-20bp 之间,则将突变类型覆盖为剪接区域变异。
在一些实施方案中,本公开的方法进一步包括对突变类型的推测影响进行注释。
在一些实施方案中,将拷贝数重复变异注释为推测影响为中,将拷贝数缺失变异和大片段基因组重排注释为推测影响为高。在一些实施方案中,除以上外,其它突变类型的推测影响按照snpEff软件的预测标准进行注释。
在一些实施方案中,所述snpEff软件的预测标准如下:
Figure RE-GDA0003193994520000051
在一些实施方案中,本公开的方法进一步包括对突变类型为基因融合的SV 产生的新融合序列进行注释,包括:
a.根据SV方向构建融合序列,包括:
对于方向为FR(forward-reverse)的SV,将两个基因组回帖上的序列顺序连接;对于方向为RF(reverse-forward)的SV,将两个基因回帖上的序列逆序连接;对于方向为FF(forward-forward)的SV,将下游基因回帖上的序列反向互补后顺序与上游基因连接;对于方向为RR(reverse-reverse)的SV,将上游基因回帖上的序列反向互补后顺序与下游基因连接;
b.根据融合序列两个基因的组成关系和转录本方向,如下确定融合序列结构:
对于融合序列在基因组上游的基因,如果转录本链方向是正向,融合后序列保留断点所在外显子上游的外显子序列,如果转录本链方向是反向,融合后序列保留断点所在外显子下游的外显子序列;
对于融合序列在基因组下游的基因,如果转录本链方向是正向,融合后序列保留断点所在外显子下游的外显子序列,如果转录本链方向是反向,融合后序列保留断点所在外显子上游的外显子序列;
c.按照融合序列两个基因的组成关系和转录方向存在4种情形:(1)++,即融合序列的5’端是融合序列的左边,3’端是融合序列的右边;(2)--,即融合序列的 3’端是融合序列的左边,5’端是融合序列的右边;(3)+-,即融合序列的两个基因的转录方向冲突,不能确定5’端和3’端;和(4)-+,即融合序列的两个基因的转录方向冲突,不能确定5’端和3’端,
其中情形(1)和(2)预测为能够形成融合蛋白,且情形(3)和(4)预测为不能形成融合蛋白。
在一些实施方案中,本公开的方法进一步包括对SV的功能影响进行注释,包括:
对于基因间的SV,若两个基因中的一个是原癌基因,且预测为生成融合蛋白,则将功能影响注释为功能失去:若一个基因是肿瘤抑制基因,则将功能影响注释为功能失去;
对于基因内的SV,若所述基因是肿瘤抑制基因,则将功能影响注释为功能失去;对于已知会造成功能获得的基因内SV,则将功能影响注释为功能获得;
对于其他情形将功能影响注释为None。
在一些实施方案中,所述已知会造成功能获得的基因内SV可以选自BRAF exon11-18 amp,EGFR 18-25amp,MET exon15-21 amp和BRAF exon5-9 del。除以上列举的以外,本领域已知其它会造成功能获得的基因内SV。
在一些实施方案中,本公开的方法进一步包括对SV的致病等级进行注释,其中:
对于基因间的SV,若其注释为功能失去,则证据注释为PVS1,评级注释为可能致病;
对于基因内的SV,参考ACMG CNV指南(例如2019ACMG CNV指南)对证据等级和评级进行注释。
在一些实施方案中,本公开的方法进一步包括基于SV的类型和断点坐标生成HGVS数据结构的注释。在一些实施方案中,所述HGVS数据结构可以包括 g.HGVS、c.HGVS和/或p.HGVS数据结构。
在另一个方面,本公开涉及用于对基因组结构变异(SV)进行注释的系统,所述系统包括:
SV信息读取模块;和
SV注释模块,
其中所述SV信息读取模块配置为读取SV信息,所述信息包括SV的类型、方向(orientation)和两个断点坐标,其中所述SV类型包括缺失、重复、倒位和易位;且所述SV注释模块配置为通过本公开的第一方面中所述的方法对SV进行注释。
在一个方面,本公开涉及用于对基因组结构变异(SV)进行注释的设备,其包括:
用于存储计算机程序指令的存储器;和
用于执行计算机程序指令的处理器,
其中当所述计算机程序指令由所述处理器执行时,所述设备执行本公开的第一方面中所述的方法。
在另一个方面,本公开涉及计算机可读介质,所述计算机可读介质存储有计算机程序指令,其中当所述计算机程序指令被处理器执行时实现本公开的第一方面中所述的方法。
具体实施方式
实施例1.示例性结构变异(SV)检测方法
以下以markSV方法为例,说明获得基因组区域中的结构变异(SV)相关信息的方法。
1.序列比对文件生成:待测样品经过文库制备后,在Illumina测序平台进行上机测序生成FASTQ文件。对FASTQ文件进行质控后,用比对软件BWA-MEM以人类参考基因组(hg19/b37)对FASTQ文件进行比对回帖并生成SAM文件。将 SAM文件用samtools软件转成BAM文件后,以BAM文件作为输入文件进行后续检测。
2.插入片段长度异常值计算:读取BAM文件中的读长来估计插入片段长度分布的参数及异常值的阈值。如果BAM文件含有超过100万个的读长,随机抽取 100万个来进行计算以减少插入片段长度分布参数计算时间。插入片段长度分布默认为log-normal分布,通过计算插入片段长度分布的参数μ,σ并根据3sigma原则得出分布异常值阈值。如果某对读长的插入片段长度超过μ+3σ则视为异常插入片段长度。
3.读取BAM文件,过滤掉MapQ小于10的读长和位于长重复区域(同聚物序列或微卫星序列长度超过45bp)的读长,保留剩下的有效读长进入下一步。
4.提取有效读长中有关SV的信号:(1)含有soft-clipping的读长,作为SR信号进入SR信号分析流程;(2)读长对回帖方向不是正向-反向的读长,作为PE信号进入PE信号分析流程;(3)读长对回帖方向是正向-反向但是插入片段长度超过上述步骤2中计算的插入片段长度分布异常值阈值的读长,作为PE信号进入PE 信号分析流程。
5.SR信号分析流程:
5.1进入SR信号分析流程的读长首先根据QNAME分组,并在每个组中根据 FLAG值进行主要回帖和次优回帖的配对,过滤掉不能配对的读长;
5.2配对后的SR信号读长根据主要回帖和次优回帖的位置和方向信息判断 SV类型,并根据SV类型和断点坐标信息进行聚类后形成SR信号聚类;
5.3根据读长模板的起始坐标和终止坐标统计SR信号聚类中含有不同模版的读长数量(unique)和总数量(total)。记录unique为1且total大于3的SR信号聚类中的读长的QNAME,其将在PE信号分析流程中过滤掉;和
5.4将断点的两个坐标波动均小于或等于10bp的两个SR信号聚类合并。
6.PE信号分析流程:
6.1进入PE信号分析流程的读长对首先根据QNAME分组,并在每个组中根据FLAG值进行R1和R2的配对,过滤掉不能配对的读长;
6.2配对后的PE信号读长对根据R1和R2的位置和方向信息判断SV类型;过滤掉具有上述步骤5.4中记录的QNAME的读长,并根据SV类型和断点坐标信息进行聚类后形成PE信号聚类;
6.3将断点的两个坐标波动均小于或等于10bp的两个PE信号聚类合并。
7信号整合:根据断点坐标信息和读长的QNAME合并SR信号聚类,PE信号聚类并形成综合信号聚类,其包括合并的SR信号聚类和PE信号聚类,或未能合并的单独SR信号聚类或PE信号聚类。
8.过滤器:
8.1针对综合信号聚类进行相似性的评估并过滤掉高相似性的综合信号聚类,具体如下:提取断点的两个坐标上下游各220bp的参考基因组序列,利用BLASTn进行比对,如果同一性超过80%且比对长度超过50bp则认为是高相似性;
8.2针对综合信号聚类进行重复区域的评估并过滤掉位于重复区域的综合信号聚类,具体如下:提取综合信号聚类断点的两个坐标上的读长序列,识别序列中是否含有同聚物(homopolymer;1个碱基序列重复超过10次及以上),微卫星 (2-6个连续碱基序列重复超过4次及以上),或者两者的组合;在至少一个坐标上的读长序列含有同聚物序列和/或微卫星序列的情况下则认为位于重复区域;
8.3针对综合信号聚类进行嵌合体的评估并过滤掉具有嵌合体的综合信号聚类,具体如下:提取每个断点坐标上读长的soft-clipping序列及soft-clipping的起始坐标,将soft-clipping序列及soft-clipping的起始坐标两者均一致的读长分为一组;将soft-clipping的起始坐标与断点坐标一致的分组作为主要分组,其他分组合并为次要分组,计算两个分组的熵值;在至少一个断点坐标上的熵值超过0.5的情况下,则认为所述综合信号聚类具有嵌合体。
8.4针对综合信号聚类进行简单模板的评估并过滤掉是简单模板的综合信号聚类,具体如下:提取综合信号聚类中读长模版起始和终止坐标的波动范围,如果起始和终止坐标的波动范围都小于或等于3bp,则认为是简单模板;
8.5针对综合信号聚类进行平均mapq的评估并过滤掉低平均mapq的综合信号聚类,具体如下:提取综合信号聚类断点的两个坐标上读长的mapq值,并计算平均mapq;在至少一个坐标上的读长的平均mapq小于或等于过滤阈值25的情况下,则认为所述综合信号聚类为低平均mapq;
8.6针对综合信号聚类进行是否在BED文件定义区域的评估并过滤掉不在 BED文件定义区域的综合信号聚类,具体如下:提取综合信号聚类断点的两个坐标,在两个坐标都不在BED文件定义区域的情况下,则认为所述综合信号聚类不在BED文件定义区域;对于没有指定BED文件的不进行该步骤;
8.7过滤掉SV大小小于500的综合信号聚类;
8.8根据综合信号聚类中读长的起始坐标和终止坐标,确定每个综合信号聚类中含有不同模板的读长对数量(unique)和读长对总数量(total),并过滤掉unique 值小于4的综合信号聚类。
9.输出报告:注释综合信号聚类,输出结果报告。
实施例2.结构变异(SV)注释流程
1.读取结构变异结果文件
读取解析上游结构变异检测软件(如markSV软件)的分析结果并从中提取注释需要的信息,如:SV类型,方向(orientation),断点坐标(包含染色体号及基因组坐标)等信息。支持的格式包括自定义格式的tsv文件以及VCF格式文件。
2.基因及结构信息注释
结构变异通常包括两个断点,需要针对每一个断点注释基因及结构信息。对于基因及结构信息的注释分为基因注释,转录本注释,基因结构注释三个步骤。
2.1基因注释
根据断点的染色体号以及基因组坐标,在GENCODE数据库中先检索出其所处位置的基因及相关信息。对于断点所处位置没有任何基因的情况视为基因间区域。同时检索该断点上下游的基因,将该点注释为在上游基因和下游基因之间的基因间区域,形式为基因间(上游基因,下游基因),与此同时结束基因及结构信息注释。对于断点所处位置有多个基因的情况,优先选择有蛋白功能的基因。
2.2转录本注释
根据上一步基因注释的基因ID,在GENCODE数据库中检索出该基因ID所有的转录本及其所含有的UTR,Exon,CDS等结构信息。如果根据配置信息,对于某个基因有指定的转录本则直接选择该转录本进入基因结构注释。否则,选择最长的转录本作为默认转录本进入基因结构注释。
2.3基因结构注释
根据上一步选择的转录本,历遍该转录本所含有的UTR,Exon,CDS等结构信息。如果断点在UTR区域,则视为该断点在这个基因,这个转录本的UTR区域。如果断点在CDS区域,获取该CDS区域的外显子号,则视为该断点在这个基因,这个转录本的外显子N区域(N为外显子号)。如果断点在两个相邻CDS区域之间,获取这两个CDS区域外显子号较小的那一个,则视为该断点在这个基因,这个转录本的内含子N区域(N为较小的外显子号)。与此同时收集这个基因,这个转录本方向信息(+/-链),CDS最小外显子号和最大外显子号信息。
如此,基因及结构信息注释得到了每个断点所处基因,转录本,基因结构的信息,同时还有这个基因,这个转录本方向信息(+/-链),CDS最小外显子号和最大外显子号等信息,以供后续流程使用。
3.突变类型及推测影响注释
突变类型的命名主要根据SO(Sequence Ontology)的框架来实施,并根据实际情况做了一定的调整。
3.1基因间结构变异
对于两个断点不处于同一个基因中的结构变异。如果两个断点都在基因间区域,则突变类型注释为基因间变异(SO:0001628)。如果只有一个断点在基因间区域,则突变类型注释为基因融合(SO:0001565)。如果两个断点都在基因区域,则突变类型注释为基因融合(SO:0001565)。
3.2基因内结构变
对于两个断点处于同一个基因内的结构变异,根据变异类型具体判断。
3.2.1对于变异类型是缺失(Deletion),做如下判断:
如果是两个断点在同一个外显子上的情况,如果缺失的长度是3个核苷酸的倍数,则突变类型注释为符合读码框缺失(SO:0001822),否则突变类型注释为移码变异(SO:0001589)。在这其中,如果断点在外显子内边缘2bp(影响剪接),则突变类型覆盖为剪接区域变异(SO:0001630)。
如果是两个断点在同一个内含子上的情况,则突变类型注释为内含子变异 (SO:0001627)。在这其中,如果断点在外显子上游外边缘2bp(影响剪接),则突变类型覆盖为剪接受体变异(SO:0001574);如果断点在外显子下游外边缘2bp (影响剪接),则突变类型覆盖为剪接供体变异(SO:0001575);如果断点在外显子外边缘2-20bp(影响剪接),则突变类型覆盖为剪接区域变异(SO:0001630)。
如果是两个断点在同一个UTR上的情况,如果是5’UTR,则突变类型注释为 5’UTR变异(SO:0001623)。如果是3’UTR,则突变类型注释为3’UTR变异 (SO:0001624)。
如果是两个断点在不同外显子或不同的内含子或一个在外显子一个在内含子上的情况,则突变类型注释为大片段基因组重排。
如果是两个断点所处位置仅影响UTR区域的情况,例如:如果断点一个在 5’UTR区域,另一个在5’UTR区域上的内含子或外显子上(即:同一个5’UTR区域的上、下游基因区域),则突变类型注释为5’UTR变异(SO:0001623)。如果断点一个在3’UTR区域,另一个在3’UTR区域上的内含子或外显子上(即:同一个 3’UTR区域的上、下游基因区域),则突变类型注释为3’UTR变异(SO:0001624)。
如果两个断点一个在5’UTR另一个在3’UTR,则突变类型注释为拷贝数缺失变异。
对于其他情况,则突变类型注释为大片段基因组重排。
3.2.2对于变异类型是重复(Duplication),做如下判断:
当两个断点在同一个外显子上或在相邻的两个外显子上的情况下,如果重复的长度是3个核苷酸的倍数,则突变类型注释为符合读码框插入(SO:0001821),否则将突变类型注释为移码变异(SO:0001589)。
如果是两个断点在同一个内含子上的情况,则突变类型注释为内含子变异 (SO:0001627)。
如果是两个断点在同一个UTR上的情况,如果是5’UTR,则突变类型注释为 5’UTR变异(SO:0001623)。如果是3’UTR,则突变类型注释为3’UTR变异 (SO:0001624)。
如果是两个断点在两个不相邻的外显子上的情况,则突变类型注释为大片段基因组重排。
如果是两个断点在两个相邻的外显子和内含子上的情况,则突变类型注释为内含子变异(SO:0001627)。
如果是两个断点在两个不相邻的外显子和内含子上的情况,则突变类型注释为大片段基因组重排。
如果是两个断点在相邻的UTR和内含子上,则突变类型注释为内含子变异。
如果是两个断点所处位置仅影响UTR区域的情况,例如:如果断点一个在 5’UTR区域,另一个在5’UTR区域上的内含子或外显子上(即:同一个5’UTR区域的上、下游基因区域),则突变类型注释为5’UTR变异(SO:0001623)。如果断点一个在3’UTR区域,另一个在3’UTR区域上的内含子或外显子上(即:同一个 3’UTR区域的上、下游基因区域),则突变类型注释为3’UTR变异(SO:0001624)。
如果两个断点一个在5’UTR另一个在3’UTR,则突变类型注释为拷贝数重复变异。
对于其他情况,则突变类型注释为大片段基因组重排。
3.2.3对于变异类型是倒位(Inversion),做如下判断:
如果是两个断点在同一个外显子上的情况,如果突变后的编码框内有终止子,则突变类型注释为终止获得(SO:0001587)。否则突变类型注释为错义变异 (SO:0001583)。在这其中,如果断点在外显子内边缘2bp(影响splice),则突变类型覆盖为剪接区域变异(SO:0001630)。
如果是两个断点在同一个内含子上的情况,则突变类型注释为内含子变异 (SO:0001627)。在这其中,如果断点在外显子上游外边缘2bp(影响剪接),则突变类型覆盖为剪接受体变异(SO:0001574);如果断点在外显子下游外边缘2bp (影响剪接),则突变类型覆盖为剪接供体变异(SO:0001575);如果断点在外显子外边缘2-20bp(影响剪接),则突变类型覆盖为剪接区域变异(SO:0001630)。
如果是两个断点所处位置仅影响UTR区域的情况,例如:如果断点一个在 5’UTR区域,另一个在5’UTR区域上的内含子或外显子上(即:同一个5’UTR区域的上、下游基因区域),则突变类型注释为5’UTR变异(SO:0001623)。如果断点一个在3’UTR区域,另一个在3’UTR区域上的内含子或外显子上(即:同一个 3’UTR区域的上、下游基因区域),则突变类型注释为3’UTR变异(SO:0001624)。
如果是两个断点在不同外显子或不同的内含子或一个在外显子一个在内含子上的情况,则突变类型注释为大片段基因组重排(SO:0001572)。
如果两个断点一个在5’UTR另一个在3’UTR,则突变类型注释为大片段基因组重排。
对于其他情况,则突变类型注释为大片段基因组重排(SO:0001572)。
对于拷贝数重复变异,则注释推测影响为中。对于拷贝数缺失变异,则注释推测影响为高。
对于突变类型为大片段基因组重排,则注释推测影响为高。
其余突变类型的推测影响按照snpEff软件的预测标准进行注释,如下。
Figure RE-GDA0003193994520000141
4.融合序列结构注释及融合蛋白预测
对于基因间的结构变异产生的新融合序列注释融合后序列的结构以及预测是否会形成融合蛋白以帮助判断该结构变异在蛋白功能方面的影响。
首先根据变异类型以及方向构建融合序列。对于染色体内变异类型有缺失,重复,倒位等,他们对应的方向分别为对应于“缺失”的FR(forward-reverse),对应于“重复”的RF(reverse-forward),以及对应于“倒位”的FF和RR(其中,倒位有left-spanning和right-spanning两种,left-spanning对应于FF方向,right- spanning对应于RR方向)。对于染色体间变异类型所对应的方向与染色体内的类似,也是FR,RF,FF,RR四种。对于FR类型,是两个基因回帖上的序列顺序连接。对于RF类型,是两个基因回帖上的序列逆序连接。对于FF类型,是将(基因组)下游基因回帖上的序列反向互补后顺序与(基因组)上游基因连接。对于RR 类型,是将(基因组)上游基因回帖上的序列反向互补后顺序与(基因组)下游基因连接。
然后根据融合序列两个基因的组成关系和转录方向确定融合序列的结构。对于融合序列左边的基因,如果该基因转录本为+,则融合后保留了该基因5’端的序列。如果该基因转录本为-,则融合后保留了该基因3’端的序列。对于融合序列右边的基因,如果该基因转录本为+,则融合后保留了该基因3’端的序列。如果该基因转录本为-,则融合后保留了该基因5’端的序列。对于保留5’端的序列,如果断点在外显子N上,则预测保留该基因外显子1-(N-1)的部分;如果断点在内含子N上,则预测保留该基因内含子1-N的部分。对于保留3’端的序列,如果断点在外显子N上,则预测保留该基因外显子(N+1)及之后的部分;如果断点在内含子N 上,则也预测保留该基因外显子(N+1)及之后的部分。
最后确定融合后新序列的转录方向。按照融合序列两个基因的组成关系和转录方向有以下4种可能:(1).++,即融合序列的5’端是融合序列的左边,3’端是融合序列的右边。(2).--,即融合序列的3’端是融合序列的左边,5’端是融合序列的右边,与(1)相反。以上两种情况均预测可以形成融合蛋白。(3).+-,即融合序列的两个基因的转录方向相冲突,不能断定5’端和3’端。(4).-+,也即融合序列的两个基因的转录方向相冲突,不能断定5’端和3’端。以上两种情况均预测不能形成融合蛋白。
5.HGVS注释
对于基因内的结构变异注释HGVS帮助描述和理解变异。
5.1生成g.HGVS
根据两个断点的坐标和变异类型即可生成g.HGVS,形式为{refseq}:g.{start}_{end}{var_type}。其中,refseq为染色体号对应的refseq,亦可以直接用染色体号;start为断点较小的坐标;end为断点较大的坐标;如果是缺失, var_type为是del,如果是重复,var_type是dup,如果倒位,var_type是inv。
5.2生成c.HGVS
根据上一步生成的g.HGVS,在mutalyzer上利用position-converter页面进行注释c.HGVS。对于一个g.HGVS因为基因不同以及转录本的不同可能生成多个 c.HGVS,先选择前述步骤注释出来基因名的相关条目。如果指定了转录本,则用该转录本及其c.HGVS。否则优先选择LRG转录本及其c.HGVS,如果没有LRG 转录本,则优先使用NM或MP开头的转录本及其c.HGVS。
5.3生成p.HGVS
根据上一步生成的转录本及c.HGVS,在mutalyzer上利用name-checker页面进行注释p.HGVS。对于无法注释p.HGVS情况,则将p.HGVS注释为None。默认p.HGVS是三字母的形式,同时根据氨基酸三字母和单字母转换关系,另外生成一个单字母p.HGVS形式以便后续流程使用。
上述过程与mutalyzer网页/接口交互的过程可以使用网络爬虫程序来实现自动化来提高效率和稳定性。
6.功能影响预测
对于基因间的结构变异,如果partner基因(两个基因中的一个)是原癌基因且上游流程预测生成融合蛋白则功能影响注释为功能失去。如果partner基因是肿瘤抑制基因则功能影响亦注释为功能失去。
对于基因内的结果变异,如果基因(两个基因相同)是肿瘤抑制基因则功能影响注释为功能失去。对于已知会造成功能获得的基因内结构变异,包括BRAF exon11-18 amp,EGFR 18-25amp,MET exon15-21 amp以及BRAF exon5-9 del,则功能影响注释为功能获得。
对于其他情况功能影响注释为None。
7.Classification注释
对于基因间的结构变异,如果上游流程注释为功能失去,则证据等级注释为PVS1,评级注释为可能致病。
对于基因内的结构变异,主要参考2019ACMG CNV指南对证据等级和评级进行注释和判断。
实施例3.结构变异注释
样本经过文库制备的一系列步骤后,在Illumina测序平台进行上机测序生成FASTQ文件。对FASTQ文件进行质控后,用比对软件BWA-MEM以人类参考基因组(hg19/b37)对FASTQ文件进行比对回帖并生成SAM文件。再将SAM文件用 samtools软件转成BAM文件后,以BAM文件作为输入文件,并用结构变异检测软件分析出结构变异结果。以结构变异结果作为输入文件,用本方法分析并得到分析结果。
分析步骤如实施例2中所述。分析结果以一个肺癌FFPE样本为例。该样本经过结构变异检测软件分析后结果中有一例染色体间易位(CTX),方向为FR,一个断点在chr6:117647625,另一个断点在chr5:149782845。经过本方法分析后得出,该结构变异是突变类型为基因融合,并且发生在ROS1内含子32 (chr6:117647625)与CD74内含子6(chr5:149782845)的融合。融合形式为CD74- ROS1(C6:R33),它表示该融合是CD74基因的5'UTR-内含子6与ROS1基因的外显子33-3'UTR相连接。并且本方法预测该融合会形成融合蛋白。
该样本经过FISH方法验证后为CD74-ROS1阳性,该结果表明该样本在DNA 层面有CD74和ROS1的融合。该样本同时也经过IHC方法验证后为CD74-ROS1阳性,该结果表明该样本在蛋白层面也有CD74和ROS1的融合。这两个验证结果均符合本方法预测结果。另外,本方法还提供其他注释与预测信息:推测影响为高,功能影响预测为功能失去,证据等级为PVS1,致病性评级为可能致病。
本方法不仅对结构变异注释了基因及其结构,还对于它的突变类型,推测影响,是否预测形成融合蛋白,融合蛋白的结构组成,功能影响预测,HGVS以及致病性评级等临床关注的信息也进行了注释或预测。从而由多个角度注释或预测了结构变异的基本信息以及临床相关的信息并为临床应用提供了更全面更深入的解读。

Claims (10)

1.对基因组结构变异(SV)进行注释的方法,所述方法包括:
a.提供SV信息,所述信息包括SV的类型、方向(orientation)和两个断点坐标,其中所述SV类型包括缺失、重复、倒位和易位;
b.根据断点坐标对每个断点所处的基因、转录本和断点在转录本中的位置,以及所述转录本的方向信息,CDS的最小外显子编号和最大外显子编号进行注释,或者当所述断点位于基因之间的区域时将其注释为基因间区域;和
c.根据SV类型和步骤b中对每个断点的注释,对SV产生的突变类型进行注释。
2.权利要求1的方法,其中步骤a包括读取上游SV检测软件的分析结果以提取SV信息,优选所述SV变异检测软件选自Delly、Manta、LUMPY、GRIDSS和markSV;
可选地,其中步骤b包括:
b1.根据断点坐标将其注释为所述位置处的基因或基因间区域;
b2.确定b1中注释的基因的所有转录本及转录本的外显子、内含子、CDS和UTR信息,其中对于有指定转录本的基因选择该转录本进行注释,对于没有指定转录本的基因选择最长的转录本进行注释;
b3.根据断点在所述转录本中的位置,将其注释为位于UTR区域、外显子M或内含子N,其中M为所述断点所处的CDS区域的外显子编号,N为所述断点处于两个CDS区域之间时,外显子编号较小的CDS的外显子编号;和
b4.获取所述基因的所述转录本的方向信息(+/-链信息)、CDS的最小外显子编号和最大外显子编号。
3.权利要求1或2所述的方法,其中对突变类型进行注释包括对两个断点不在同一个基因内的SV进行注释,包括:
若两个断点都在基因间区域,则将突变类型注释为基因间变异;
若至少一个断点在基因区域,则将突变类型注释为基因融合;
优选地,其中对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是缺失的SV进行注释,包括:
(1)若两个断点在同一个外显子上,则根据至少一个断点与外显子边缘的距离,将突变类型注释为剪接区域变异或蛋白质改变变异;优选地,根据缺失核苷酸数量是否为3个核苷酸的倍数,将所述蛋白质改变变异注释为符合读码框缺失或移码变异;
(2)若两个断点在同一个内含子上,则根据至少一个断点与内含子上下游边缘的距离,将突变类型注释为剪接位点变异、剪接区域变异或内含子变异;优选地,根据至少一个断点与内含子上游边缘的距离或内含子下游边缘的距离,将所述剪接位点变异注释为剪接受体变异或剪接供体变异;
(3)若至少一个断点在UTR区域,另一个断点在同一个UTR的上、下游基因间区域,根据该UTR区域,将突变类型注释为5’UTR变异或3’UTR变异;
(4)若两个断点中一个在5’UTR上且另一个在3’UTR上,则将突变类型注释为拷贝数缺失变异;
(5)对于其他情况,将突变类型注释为大片段基因组重排;
进一步优选地,其中对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是重复的SV进行注释,包括:
(1)若两个断点在同一个外显子上或在相邻的外显子上,将突变类型注释为蛋白质改变变异;优选地,根据重复核苷酸数量是否为3个核苷酸的倍数,将所述蛋白质改变变异注释为符合读码框重复或移码变异;
(2)若两个断点中的一个在内含子上,且另一个在同一个内含子上或与该内含子相邻的外显子或UTR上,则将突变类型注释为内含子变异;
(3)若至少一个断点在UTR区域,另一个断点在同一个UTR区域的上、下游基因间区域,根据该UTR区域,将突变类型注释为5’UTR变异或3’UTR变异;
(4)若两个断点中一个在5’UTR上且另一个在3’UTR上,则将突变类型注释为拷贝数重复变异;
(5)对于其他情形,将突变类型注释为大片段基因组重排;
更进一步优选地,其中对突变类型进行注释包括对两个断点位于同一个基因内且SV类型是倒位的SV进行注释,包括:
(1)若两个断点在同一个外显子上,根据至少一个断点与外显子边缘的距离,将突变类型注释为剪接区域变异或蛋白质改变变异;优选地,根据突变后的编码框内是否有终止子,将所述蛋白质改变变异注释为终止获得或错义变异;
(2)若两个断点在同一个内含子上,则根据至少一个断点与外显子上游、下游边缘的距离将突变类型注释为剪接位点变异、剪接区域变异或内含子变异;优选地,根据至少一个断点与外显子上游边缘的距离或外显子下游边缘的距离,将所述剪接位点变异注释为剪接受体变异或剪接供体变异;
(3)若至少一个断点在UTR区域,另一个断点在同一个UTR区域的上、下游基因间区域,根据该UTR区域,将突变类型注释为5’UTR变异或3’UTR变异;
(4)对于其他情况,将其突变类型注释为大片段基因组重排。
4.权利要求1-3中任一项的方法,其进一步包括对突变类型的推测影响进行注释;优选地,其中将拷贝数重复变异注释为推测影响为中,将拷贝数缺失变异和大片段基因组重排注释为推测影响为高,其余突变类型的推测影响按照snpEff软件的预测标准进行注释。
5.权利要求3或4的方法,其中所述方法包括对突变类型为基因融合的SV产生的新融合序列进行注释,包括:
a.根据SV方向构建融合序列,包括:
对于方向为FR(forward-reverse)的SV,将两个基因组回帖上的序列顺序连接;对于方向为RF(reverse-forward)的SV,将两个基因回帖上的序列逆序连接;对于方向为FF(forward-forward)的SV,将下游基因回帖上的序列反向互补后顺序与上游基因连接;对于方向为RR(reverse-reverse)的SV,将上游基因回帖上的序列反向互补后顺序与下游基因连接;
b.根据融合序列两个基因的组成关系和转录本方向,如下确定融合序列结构:
对于融合序列在基因组上游的基因,如果转录本链方向是正向,融合后序列保留断点所在外显子上游的外显子序列,如果转录本链方向是反向,融合后序列保留断点所在外显子下游的外显子序列;
对于融合序列在基因组下游的基因,如果转录本链方向是正向,融合后序列保留断点所在外显子下游的外显子序列,如果转录本链方向是反向,融合后序列保留断点所在外显子上游的外显子序列;
c.按照融合序列两个基因的组成关系和转录方向存在4种情形:(1)++,即融合序列的5’端是融合序列的左边,3’端是融合序列的右边;(2)--,即融合序列的3’端是融合序列的左边,5’端是融合序列的右边;(3)+-,即融合序列的两个基因的转录方向冲突,不能确定5’端和3’端;和(4)-+,即融合序列的两个基因的转录方向冲突,不能确定5’端和3’端,
其中情形(1)和(2)预测为能够形成融合蛋白,且情形(3)和(4)预测为不能形成融合蛋白;
优选地,所述方法进一步包括对SV的功能影响进行注释,包括:
对于基因间的SV,若两个基因中的一个是原癌基因,且预测为生成融合蛋白,则将功能影响注释为功能失去:若一个基因是肿瘤抑制基因,则将功能影响注释为功能失去;
对于基因内的SV,若所述基因是肿瘤抑制基因,则将功能影响注释为功能失去;对于已知会造成功能获得的基因内SV,则将功能影响注释为功能获得;
对于其他情形将功能影响注释为None;
进一步优选地,其中所述已知会造成功能获得的基因内SV选自BRAF exon11-18 amp,EGFR 18-25amp,MET exon15-21 amp和BRAF exon5-9 del。
6.权利要求5的方法,其中所述方法进一步包括对SV的致病等级进行注释,其中:
对于基因间的SV,若其注释为功能失去,则证据注释为PVS1,评级注释为可能致病;
对于基因内的SV,参考ACMG CNV指南对证据等级和评级进行注释。
7.权利要求1-6中任一项的方法,其中所述方法进一步包括基于SV的类型和断点坐标生成HGVS数据结构的注释;优选地,其中所述HGVS数据结构包括g.HGVS、c.HGVS和/或p.HGVS数据结构。
8.用于对基因组结构变异(SV)进行注释的系统,所述系统包括:
SV信息读取模块;和
SV注释模块,
其中所述SV信息读取模块配置为读取SV信息,所述信息包括SV的类型、方向(orientation)和两个断点坐标,其中所述SV类型包括缺失、重复、倒位和易位;且所述SV注释模块配置为通过权利要求1-7中任一项所述的方法对SV进行注释。
9.用于对基因组结构变异(SV)进行注释的设备,其包括:
用于存储计算机程序指令的存储器;和
用于执行计算机程序指令的处理器,
其中当所述计算机程序指令由所述处理器执行时,所述设备执行权利要求1-7中任一项所述的方法。
10.计算机可读介质,所述计算机可读介质存储有计算机程序指令,其中当所述计算机程序指令被处理器执行时实现权利要求1-7中任一项所述的方法。
CN202110713095.1A 2021-06-25 2021-06-25 基因组结构变异注释方法 Pending CN113362889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110713095.1A CN113362889A (zh) 2021-06-25 2021-06-25 基因组结构变异注释方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110713095.1A CN113362889A (zh) 2021-06-25 2021-06-25 基因组结构变异注释方法

Publications (1)

Publication Number Publication Date
CN113362889A true CN113362889A (zh) 2021-09-07

Family

ID=77536454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110713095.1A Pending CN113362889A (zh) 2021-06-25 2021-06-25 基因组结构变异注释方法

Country Status (1)

Country Link
CN (1) CN113362889A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627967A (zh) * 2022-03-15 2022-06-14 北京基石生命科技有限公司 一种精确注释三代全长转录本的方法
CN114822700A (zh) * 2022-04-25 2022-07-29 至本医疗科技(上海)有限公司 用于呈现重排或融合结构亚型的方法、设备和介质
CN114974412A (zh) * 2022-07-05 2022-08-30 至本医疗科技(上海)有限公司 生成目标对象的肿瘤检测数据的方法、设备和介质
CN116312780A (zh) * 2023-05-10 2023-06-23 广州迈景基因医学科技有限公司 靶向基因二代测序数据体细胞突变检测方法、终端及介质
WO2024092681A1 (zh) * 2022-11-04 2024-05-10 深圳华大基因股份有限公司 一种判断功能丧失型致病性证据的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN107122624A (zh) * 2017-05-01 2017-09-01 杨永臣 人类基因突变的hgvs名称生成及分析系统的实现方法
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN112349346A (zh) * 2020-10-27 2021-02-09 广州燃石医学检验所有限公司 检测基因组区域中的结构变异的方法
CN112599188A (zh) * 2021-03-01 2021-04-02 上海思路迪医学检验所有限公司 一种融合驱动基因单端锚定的dna融合断点注释方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN107122624A (zh) * 2017-05-01 2017-09-01 杨永臣 人类基因突变的hgvs名称生成及分析系统的实现方法
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN112349346A (zh) * 2020-10-27 2021-02-09 广州燃石医学检验所有限公司 检测基因组区域中的结构变异的方法
CN112599188A (zh) * 2021-03-01 2021-04-02 上海思路迪医学检验所有限公司 一种融合驱动基因单端锚定的dna融合断点注释方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627967A (zh) * 2022-03-15 2022-06-14 北京基石生命科技有限公司 一种精确注释三代全长转录本的方法
CN114822700A (zh) * 2022-04-25 2022-07-29 至本医疗科技(上海)有限公司 用于呈现重排或融合结构亚型的方法、设备和介质
CN114974412A (zh) * 2022-07-05 2022-08-30 至本医疗科技(上海)有限公司 生成目标对象的肿瘤检测数据的方法、设备和介质
CN114974412B (zh) * 2022-07-05 2023-02-10 至本医疗科技(上海)有限公司 生成目标对象的肿瘤检测数据的方法、设备和介质
WO2024092681A1 (zh) * 2022-11-04 2024-05-10 深圳华大基因股份有限公司 一种判断功能丧失型致病性证据的方法及装置
CN116312780A (zh) * 2023-05-10 2023-06-23 广州迈景基因医学科技有限公司 靶向基因二代测序数据体细胞突变检测方法、终端及介质

Similar Documents

Publication Publication Date Title
CN113362889A (zh) 基因组结构变异注释方法
CN108830044B (zh) 用于检测癌症样本基因融合的检测方法和装置
Clark et al. Performance comparison of exome DNA sequencing technologies
Krawitz et al. Microindel detection in short-read sequence data
CN102770558B (zh) 由母本生物样品进行胎儿基因组的分析
Zhernakova et al. Genome-wide sequence analyses of ethnic populations across Russia
CN116042833A (zh) 比对和变体测序分析管线
CN112349346A (zh) 检测基因组区域中的结构变异的方法
Palacio et al. Genome data on the extinct Bison schoetensacki establish it as a sister species of the extant European bison (Bison bonasus)
CN110189796A (zh) 一种绵羊全基因组重测序分析方法
CN104272311A (zh) Dna序列的数据分析
CN111279420A (zh) 用于利用基因组数据分析中的亲缘关系的系统和方法
US20190325990A1 (en) Process for aligning targeted nucleic acid sequencing data
Denoyelle et al. VarGoats project: a dataset of 1159 whole-genome sequences to dissect Capra hircus global diversity
JP2023526252A (ja) 相同組換え修復欠損の検出
Cmero et al. MINTIE: identifying novel structural and splice variants in transcriptomes using RNA-seq data
WO2020047553A1 (en) Genetic variant detection based on merged and unmerged reads
Normand et al. An introduction to high-throughput sequencing experiments: design and bioinformatics analysis
Player et al. A novel Canis lupus familiaris reference genome improves variant resolution for use in breed-specific GWAS
Sakoparnig et al. Whole genome phylogenies reflect long-tailed distributions of recombination rates in many bacterial species
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
Xing et al. SECNVs: a simulator of copy number variants and whole-exome sequences from reference genomes
Pan et al. InDelGT: An integrated pipeline for extracting indel genotypes for genetic mapping in a hybrid population using next‐generation sequencing data
Sobel et al. Estimating somatic mutation rates by bottlenecked duplex sequencing in non-model organisms: Daphnia magna as a case study
CN116386713A (zh) 基因编辑酶脱靶位点的检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination