CN107885972A - 一种基于单端测序的融合基因检测方法及其应用 - Google Patents

一种基于单端测序的融合基因检测方法及其应用 Download PDF

Info

Publication number
CN107885972A
CN107885972A CN201610881242.5A CN201610881242A CN107885972A CN 107885972 A CN107885972 A CN 107885972A CN 201610881242 A CN201610881242 A CN 201610881242A CN 107885972 A CN107885972 A CN 107885972A
Authority
CN
China
Prior art keywords
fusion
sequencing
gene
depth
strong promoter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610881242.5A
Other languages
English (en)
Other versions
CN107885972B (zh
Inventor
刘继龙
刘足
程少敏
郭凤明
叶明芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huada Gene Technology Co Ltd
Guangzhou Huada Gene Medical Laboratory Co Ltd
Original Assignee
Guangzhou Huada Gene Technology Co Ltd
Guangzhou Huada Gene Medical Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huada Gene Technology Co Ltd, Guangzhou Huada Gene Medical Laboratory Co Ltd filed Critical Guangzhou Huada Gene Technology Co Ltd
Priority to CN201610881242.5A priority Critical patent/CN107885972B/zh
Publication of CN107885972A publication Critical patent/CN107885972A/zh
Application granted granted Critical
Publication of CN107885972B publication Critical patent/CN107885972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Pathology (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种基于单端测序的融合基因检测方法及其应用。本申请的融合基因检测方法包括,(1)设计融合基因第一基因的捕获探针,进行单端测序;(2)分析单端测序结果,获得第二基因强启动子测序深度;(3)将获得的强启动子测序深度与测序深度基线比较,如待测样品强启动子测序深度显著大于测序深度基线,判断待测样品发生基因融合突变,反之则未发生基因融合;测序深度基线为融合基因阴性样品的第二基因强启动子的测序深度基线。本申请的融合基因检测方法,将单端测序劣势变优势,提高了单端测序检测融合基因的敏感度,并且数据分析的时间短、效率高、数据利用率高、成本低。

Description

一种基于单端测序的融合基因检测方法及其应用
技术领域
本申请涉及融合基因检测领域,特别是涉及一种基于单端测序的融合基因检测方法及其应用。
背景技术
融合基因是指两个或两个以上基因的部分或全部的序列构成一个新的嵌合基因的过程。融合基因可导致蛋白质表达水平、功能和作用位点的异常,这会引起细胞的异常增殖,促进肿瘤的发生或发展。目前,临床上主要通过免疫组化(缩写IHC)和原位杂交系统(缩写FISH)来检测基因融合。IHC法是一种以组织为基础的蛋白检测方法,发生基因融合的肿瘤细胞存在明显的膜着色反应,而正常拷贝数的细胞不会有特殊的着色反应,此方法简便,费用低,但是蛋白在标本固定和处理过程中容易变形破坏而影响检测结果,且结果判断存在主观判断的差异,使得IHC检测结果的假阳性和假阴性无法降低。
FISH是一种以组织为基础的细胞遗传学技术,由于方法的敏感性高,具有较高稳定性与可重复性,是目前临床上融合基因检测的金标准。然而,FISH探针只针对特定突变设计,增加新的突变检测位点较困难。
随着基因组学和生物信息学的不断发展,高通量测序也逐渐应用到融合基因检测中。其中,SeekSV软件是双端测序平台常用的融合基因检测软件。但是,SeekSV应用于单端测序平台(如BGISEQ-100)时,由于缺少两末端比对到不同基因上的PE reads的信息支持,SeekSV对BGISEQ-100测序数据中融合基因检测效果不佳,融合基因检测敏感度非常低。
发明内容
本申请的目的是提供一种新的基于单端测序的融合基因检测方法及其应用。
为了实现上述目的,本申请采用了以下技术方案:
本申请的一方面公开了一种基于单端测序的融合基因检测方法,包括以下步骤,
(1)设计融合基因中第一基因的探针,利用捕获技术对待测样品进行文库构建,并对所构建的文库进行单端测序;
(2)对待测样品的单端测序结果进行分析,获得待测样品中第二基因的强启动子的测序深度;
(3)将待测样品第二基因的强启动子的测序深度与测序深度基线进行比较,如果待测样品第二基因强启动子的测序深度显著大于测序深度基线,则判断待测样品发生了基因融合突变,反之则待测样品未发生基因融合突变;
其中,测序深度基线为融合基因阴性样品的第二基因强启动子的测序深度基线。
优选地,捕获技术为芯片捕获技术。
优选地,测序深度基线的获得方法包括,对多个融合基因阴性样品的单端测序数据进行统计分析,根据融合基因阴性样品中第二基因强启动子的平均测序深度建立测序深度基线。
优选的,根据融合基因阴性样品中第二基因强启动子的测序深度建立测序深度基线,具体包括,根据融合基因阴性样品中第二基因强启动子的测序深度的平均值和标准差,构建z-score模型,进而建立测序深度基线。
在本申请中,第一基因和第二基因是指相融合的两个基因。当两个基因发生基因融合时,含有激酶区序列或蛋白功能区序列的基因为第一基因,含有启动子序列的基因为第二基因。第一基因包含内含子区,第二基因可增强第一基因的功能。在本申请的一种实现方式中,第一基因即肿瘤基因,例如ALK、ROS-1、RET等,第二基因为与第一基因发生融合的基因,如EML4、STRN、TFG、CD74、CCDC6、KIF5B等。强启动子是第二基因的启动子。本申请的关键也是在于利用该启动子的在阴性样品和阳性样品中测序深度的显著变化,从而实现融合基因的检测。
在本申请中,融合基因阴性样品是指没有发生基因融合的样品,在本申请的一种应用中,具体的就是指没有发生基因融合的肿瘤基因。需要说明的是,在采用单端测序的实际应用过程中,虽然强启动子基因没有与肿瘤基因发生融合,但是,仍然会有部分被测序芯片非特异性捕获,这样就导致,就算没有融合的存在,也会因为捕获的非特异性而测到强启动子基因,这实际上是单端测序判断融合基因的一大缺点。而本申请的关键就在于,利用该缺点,将单端测序判断融合基因的劣势变为优势;具体的,利用融合基因阴性样品中强启动子的平均测序深度建立测序深度基线,利用阳性样品中强启动子测序深度会发生显著变化的特点,通过将待测样品强启动子测序深度与本申请建立的测序深度基线进行比较,根据待测样品强启动子测序深度是否发生显著变化来判断待测样品是否为融合基因。本申请的融合基因检测方法,变单端测序的劣势为优势,大大提高了单端测序检测融合基因的敏感度;特别适用于单端测序平台,例如BGISEQ-100。
还需要说明的是,本申请中,无论是“融合基因阴性样品的单端测序数据”,还是待测样品的“单端测序结果”,都是单端测序后经过常规的排序、去除PCR扩增产生的重复序列、QC质控等数据分析后的有效测序结果;其中排序、去除PCR扩增产生的重复序列、QC质控等为测序平台进行的常规的测序数据分析,在此不做具体限定。
需要补充说明的是,本申请的关键在于将待测样品的强启动子测序深度与测序深度基线进行比较;而测序深度基线是根据融合基因阴性样品的强启动子的测序深度进行统计分析而获得的;可以理解,既然是统计分析,自然需要多个融合基因阴性样品的单端测序数据。但是,就统计学意义来说,并没有明确限定具体需要统计多少个融合基因阴性样品才有效;原则上,自然是统计的样品越多越好;但是,在实际应用中显然不可能无限穷举;因此,本申请所限定的“对多个融合基因阴性样品的单端测序数据进行统计分析”,其具体数量可以根据具体试验条件而定,数量越多越好。在本申请的一种实现方式中,具体统计分析了37个融合基因阴性样品的单端测序数据。
优选的,测序深度基线的获得方法,具体包括,在序列范围内以100-150bp划分窗口,步长为20-30bp移动,统计融合基因阴性样品的测序数据中,每个窗口的强启动子测序深度平均值和标准差,构建z-score模型,确定不同位置的平均测序深度和平均值加三倍标准差的异常值界限,即获得本申请的测序深度基线
需要说明的是,以100-150bp划分窗口,步长为20-30bp移动,只是本申请的一种实现方式,可以理解,本申请的关键在于建立阴性样品的强启动子测序深度基线,至于窗口的大小和移动步长,可以根据具体的测序数据和分析条件而定。但是,需要提醒的是,窗口的范围可以是100-150bp,不宜过长,窗口过长会减弱融合存在带来的窗口平均深度增加。
优选的,本申请的融合基因检测方法中,步骤(2)中,对待测样品的单端测序结果进行分析,获得待测样品中第二基因的强启动子的测序深度,具体包括,在序列范围内以100-150bp划分窗口,步长为20-30bp移动,统计待测样品每个窗口的强启动子的测序深度。
可以理解,在本申请的一种实现方式中,阴性样品强启动子测序深度基线是按照“100-150bp划分窗口,步长为20-30bp移动”进行统计分析的,待测样品的测序深度也要按照相同的方法进行分析,两者比较的结果准确度会更高。
优选的,步骤(3)中,将待测样品中第二基因的强启动子的测序深度与测序深度基线进行比较,具体为将待测样品第二基因的强启动子测序深度与融合基因阴性样品强启动子的测序深度基线进行U检验,显著性表现为P值>0.95。
需要说明的是,本申请的一种实现方式中,测序深度基线,实际上就是U检验模型限定的异常值界限;因此,待测样品第二基因的强启动子测序深度比较,实际上就是U检验,在P-value即P值>0.95时,待测样品的强启动子测序深度与测序深度基线差异显著,判断为异常;而测序深度异常的唯一解释,即待测样品发生了基因融合。
优选的,本申请的融合基因检测方法还包括步骤(4),在步骤(3)中判断待测样品发生了基因融合突变后,在待测样品的测序深度异常的区域搜索soft-clip reads序列,通过soft-clip reads序列判断融合基因的类型。
需要说明的是,当发生基因融合时,在测序过程中,横跨融合断点的reads比对到人类参考基因组hg19时会被切成两段,匹配到不同的区域,即发生融合的两个基因的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。
优选的,本申请的一种实现方式中,第一基因为肿瘤基因,第二基因为与肿瘤基因融合的基因。
而本申请的另一面也公开了融合基因检测方法在肿瘤融合基因检测中的应用。
需要说明的是,本申请的融合基因检测方法,实际上就是针对肿瘤基因融合而设计的,单端测序也是针对肿瘤基因进行的单端测序;根据肿瘤基因与强启动子融合或不融合,两者的强启动子测序深度会发生显著变化来判断是否发生了基因融合;并且,在测序深度异常的区域搜索soft-clip reads序列,即断点序列,以此确认发生融合的肿瘤基因。其中,在待测样品的测序深度异常的区域搜索soft-clip reads序列,大大缩小了搜索范围,提高了数据分析效率。
可以理解,本申请的融合基因检测方法,虽然是针对肿瘤基因融合而设计的,但是,其不只限于肿瘤基因融合的检测;实际上,本申请的融合基因检测方法,适用于所有类型的融合基因。如染色体重排导致的基因融合,若两条染色体间存在重排的热点,通过该热点可找到其对应的两个基因和断点位置。染色体重排导致的基因融合的典型例子为唐氏综合症,该综合证的类型之一是由21号染色体和另一条染色体(如14号)之间的易位所致。此外,还可以适用于外源基因插入导致的基因融合检测,如病原体整合到人类基因组中,检测病原体中特定基因整合到特定染色体的位置。
本申请的再一面还公开了一种检测肿瘤融合基因的方法,包括以下步骤,
(1)设计融合基因中肿瘤基因的捕获探针,利用捕获技术对待测样品进行文库构建,并对所构建的文库进行单端测序;
(2)对待测样品的单端测序结果进行分析,获得待测样品中第二基因的强启动子的测序深度;
(3)将待测样品第二基因的强启动子的测序深度与测序深度基线进行比较,如果待测样品第二基因的强启动子的测序深度显著大于测序深度基线,则判断待测样品发生了基因融合突变,反之则待测样品未发生基因融合突变。
其中,测序深度基线为融合基因阴性样品的第二基因强启动子的测序深度基线。
优选的,本申请的检测肿瘤融合基因的方法,探针捕获技术、阴性样品强启动子测序深度基线的建立、以及待测样品与深度基线之间的U检验、以及后续的soft-clip reads序列搜索和比较分析,都与本申请的融合基因检测方法相同。在步骤(3)中判断待测样品发生了基因融合后,在待测样品的测序深度异常的区域搜索soft-clip reads序列,将soft-clip reads序列与肿瘤基因进行比对,即可确定发生融合的肿瘤基因。
由于采用以上技术方案,本申请的有益效果在于:
本申请的融合基因检测方法,通过将待测样品中第二基因强启动子测序深度与阴性样本的测序深度基线进行比较,根据测序深度是否发生了显著变化,判断是否发生融合基因突变,将单端测序的劣势变为优势,大大提高了单端测序检测融合基因的敏感度。在预先构建测序深度基线的情况下,可以快速的对待测样品进行融合基因检测和分析,数据分析的时间短、效率高。此外,本申请的融合基因检测方法,完全基于单端测序进行,不仅检测芯片成本低,而且能够最大限度的利用数据,提高数据的利用率,减少数据分析的时间和成本,进一步降低融合基因的检测成本。本申请的融合基因检测方法应用范围广,不仅可以用于单端测序平台,也可以用于双端测序平台,为融合基因的检测提供了一种简单有效的途径。
附图说明
图1是本申请实施例单端测序融合基因检测方法构建的融合基因阴性样品强启动子测序深度基线图;
图2是本申请实施例中采用单端测序融合基因检测方法检测的阳性样品的结果图;
图3是本申请实施例中融合基因的结构示意图。
具体实施方式
单端测序中,由于捕获芯片对没有融合的强启动子也存在非特异性捕获,因此大大影响融合基因检测的准确性和敏感度。而本申请反其道而行,转变分析思路,利用单端测序对没有融合的强启动子的非特异性捕获,建立融合基因阴性样品强启动子测序深度基线,变单端测序分析融合基因的劣势为优势,通过比较待测样品的强启动子测序深度是否与测序深度基线存在显著差异来判断待测样品是否发生基因融合。
需要说明的是,本申请的融合基因检测方法,之所以可以对融合基因进行检测,其中还有一个关键的事实,即虽然捕获芯片对没有融合的强启动子也存在非特异性捕获,但是,其测序深度非常低,即便是平均值加三倍标准差作为异常值界限,其测序深度也都在1.2以下,如图1所示。而对于阳性样品而言,即基因融合一旦发生,强启动子的测序深度就会大大提高,如图2所示。因此,本申请的融合基因检测方法,可以通过比较待测样品的强启动子测序深度与融合基因阴性样品强启动子的测序深度基线,如果待测样品的强启动子测序深度异常,则说明其发生了基因融合。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例的融合基因检测方法,包括以下步骤,
(1)对多个融合基因阴性样品的单端测序数据进行统计分析,建立强启动子在阴性样品中的测序深度基线;具体的,在序列范围内以100bp或者150bp划分窗口,步长为20bp或者30bp移动,统计融合基因阴性样品的测序数据中,每个窗口的测序深度平均值和标准差,构建z-score模型,确定不同位置的平均测序深度和平均值加三倍标准差的异常值界限,即获得测序深度基线;本例具体的以100bp划分窗口,步长为20bp移动;
(2)对待测样品进行单端测序,分析获得待测样品单端测序中强启动子的测序深度;具体的,根据融合基因中第一基因的融合区域设计捕获探针,利用捕获技术对待测样品进行文库构建,并对所构建的文库进行单端测序;同样的,对测序结果在序列范围内以100bp或者150bp划分窗口,步长为20bp或者30bp移动,统计待测样品每个窗口的测序深度;本例具体的以100bp划分窗口,步长为20bp移动;
(3)将待测样品强启动子的测序深度与融合基因阴性样品强启动子的测序深度基线进行比较,即将待测样品的强启动子测序深度与融合基因阴性样品强启动子的测序深度基线进行U检验,显著性表现为P值>0.95,如果待测样品强启动子的测序深度显著大于测序深度基线,则判断待测样品发生了基因融合突变,反之则待测样品未发生基因融合突变;
(4)在步骤(3)中判断待测样品发生了基因融合后,在待测样品的测序结果中搜索soft-clip reads序列,通过soft-clip reads序列判断融合基因的类型;
本例中,所有用于分析的数据,都是单端测序后经过常规的排序、去除PCR扩增引起的重复序列、QC质控等数据分析和质量控制后输出的有效测序结果;其中排序、去除PCR扩增引起的重复序列、QC质控等为测序平台进行的常规的测序数据分析。
需要说明的是,在首次采用本申请的方法进行融合基因检测时,需要预先建立测序深度基线;可以理解,在第二次或以后的融合基因检测中,可以利用芯片捕获技术直接对待测样品进行文库构建,并对所构建的文库进行单端测序,将统计的待测样品的测序深度直接与之前获得的测序深度基线进行比较即可。
还需要说明的是,对于测序深度基线的建立,可以是直接采用之前的阴性样品的单端测序数据进行统计分析后得到的测序深度基线结果,即预设好的测序深度基线;也可以采用设计的捕获探针,对阴性样品进行单端测序,然后根据测序结果统计分析强启动子的平均测序深度,建立测序深度基线。
下面以肺癌基因的融合检测进行试验:
首先收集COSMIC数据库中记载的具有临床意义的融合突变热点基因组合,生成融合突变检测列表。部分结果如表1所示,由于数据较多,此处仅显示部分数据。
表1融合突变检测列表
融合类型 未捕获强启动子基因染色体 强启动子基因起始位置 强启动子基因终止位置
EML4_ALK chr2 42396490 42552694
TFG_ALK chr3 100428175 100447608
CD74_ROS1 chr5 149792499 149785823
CCDC6_RET chr10 61666414 61665880
肺癌的融合基因中,主要是ALK、RET、ROS-1这三个基因发生融合,而对应的与之融合的基因多达数十种,融合基因的结构示意图如图3所示,图中,第一基因即癌基因,如ALK、ROS-1、RET等,第二基因为可与第一基因发生融合的基因,如EML4、STRN、TFG、CD74、CCDC6、KIF5B等。强启动子是第二基因的启动子。本例的芯片仅对ALK、RET、ROS-1这三个基因的融合区域,包含内含子区域,进行探针设计,对于发生融合的另一端基因,本例不进行序列捕获。这种芯片的设计特点在于,芯片大小可控,能够最大限度的利用数据,提高数据的利用率,减少数据分析的时间。为了保障探针捕获的质量,本例针对RET基因设计了123条捕获探针,针对ALK基因设计了49条捕获探针,针对ROS-1基因设计了229条捕获探针。部分探针序列信息如表2所示。将设计好的探针序列交给深圳华大基因科技服务有限公司制备成捕获芯片。
表2捕获探针序列
表2给出了部分探针序列,完整的探针序列及其计算机可读文本由本申请人保存。可以理解,虽然本申请针对ALK、RET、ROS-1三个癌基因总共设计了401条探针,已经可以很好的保障三个基因被捕获;但是,不排除还可以针对这三个基因设计更多的探针,或者设计与本申请不同序列的探针。本申请中,捕获探针虽然是保障融合基因检测的重要因素,但是,本申请的关键发明点不在于捕获探针的序列或数量,捕获探针只要能够尽量有效的对ALK、RET、ROS-1三个癌基因进行全面的捕获即可,其具体序列或探针数量不是本申请要求保护的,因此,表2只示出了部分探针序列。本领域技术人员根据常规的探针设计原则,完全可以设计出更多的探针用于ALK、RET、ROS-1三个癌基因的捕获,并不只限于本申请的探针序列。
本例采用ALK、RET、ROS-1三个癌基因的捕获芯片,对37个融合基因阴性样品进行文库构建与单端测序。文库构建操作参照Shao D等人在文章“A targeted next-generation sequencing method for identifying clinically relevant mutationprofiles in lung adenocarcinoma”(Sci Rep.2016)中披露的方法。单端测序平台采用BGISEQ-100。本例的,融合基因阴性样品是指ALK、RET、ROS-1三个癌基因没有发生基因融合突变的样品。测序数据进行常规的tmap比对、samtools sort排序、BamDuplicates去重和QC质控后,用于后续分析。其中,tmap比对工具源自:
https://github.com/iontorrent/TS/tree/master/Analysis/TMAP。使用samtools sort对tmap比对结果,即bam文件,进行排序,具体的,根据染色体编号和所在染色体上的位置按从小到大的顺序进行排序;BamDuplicates去重即去除PCR扩增引起的重复序列,去掉比对结果的PCR重复片段。使用BamDuplicates,在排序后的结果,即bam文件中去除PCR重复片段,BamDuplicates工具的著作权源自Ion Torrent Systems,Inc.。
QC质控合格后,在序列范围内以100bp划分窗口,步长为20bp移动,统计37个融合基因阴性样品每个窗口中的平均值和方差,构建z-score模型,确定不同位置的平均测序深度以及平均值加三倍标准差的异常值界限,即本例的融合基因阴性样品强启动子测序深度基线,如图1所示,图中曲线u为37个样品的测序深度平均值,曲线为37个样品的测序深度平均值加三倍标准差。
本例以一名女性左上肺腺癌患者的FFPE组织样本为待测样品进行试验,采用与构建融合基因阴性样品强启动子测序深度基线相同的捕获芯片以及相同的方法,对待测样品进行文库构建与单端测序。采用相同的方法对下机数据进行比对、排序、去除PCR扩增引起的重复序列。
QC质控合格后,在序列范围内以100bp划分窗口,步长为20bp移动,分析待测样品每个窗口中的测序深度,将待测样品强启动子的测序深度与融合基因阴性样品强启动子的测序深度基线进行比较,即将待测样品的强启动子测序深度与融合基因阴性样品强启动子的测序深度基线进行U检验,显著性表现为P值>0.95,结果如图2所示,图中曲线u为37个样品的测序深度平均值,曲线为37个样品的测序深度平均值加三倍标准差,曲线SV为待测样品每个窗口的测序深度,图2的结果可见,本例的待测样品强启动子测序深度发生了显著变化,因此,判断其有发生基因融合,与预期相符。
本例中的Z-scoe模型即U检验模型,其计算公式为:其中,对于每一个需要检测的窗口,即上文提到的划分窗口,u表示的是该窗口37个样本,即用于建立深度基线的37个样本的测序深度的平均值,表示的是该窗口37个样本平均测序深度的标准差,x表示的是待检测样本强启动子在待判定窗口的平均测序深度。Z-scoe(u检验)的判定标准是Z>=3的时候存在显著性的差异,3是u检验在统计学上的检验阈值。将公式进行转换即
在确定待测样品发生了基因融合后,在待测样品的强启动子测序深度异常的区域搜索soft-clip reads序列,对soft-clip reads进行分析,提出soft-clip reads中比对到癌基因(ALK,ROS1或RET)的部分,与数据库中记录的癌基因对应的全长基因序列进行比对,三个癌基因各自对应一个全长基因序列的fasta文件,类似于hg19.fasta,如果从soft-clip reads中提取出来的这部分序列能很好的比对到同一个癌基因的同一个位置,则确实存在该癌基因跟深度异常的启动子基因之间的融合,并计算出两个基因具体的断点信息,结果如表3所示。
表3融合基因检测结果
表3中,NEG表示阴性,SCX表示阳性。
表3的结果显示,待测样品发生了癌基因ALK与强启动子基因EML4的融合,与预期相符。
此外,本例还将阳性的待测样品与阴性样品按照不同比例混合,对比了本例的融合基因检测方法与常规的SeekSV融合基因检测软件的检测效果。具体的,配制阳性样品占样品质量的20%、25%、30%、50%的混合样品,余量为阴性样品;其中,阳性样品占样品质量的20%的混合样品两个重复,阳性样品占样品质量的25%的混合样品四个重复,阳性样品占样品质量的30%的混合样品七个重复,阳性样品占样品质量的50%的混合样品两个重复;另外设一个阴性样品作为对照。同样,采用BGISEQ-100单端测序平台,对混合样品进行文库构建与单端测序,测序获得的有效序列,分别采用本例的融合基因检测方法和SeekSV融合基因检测软件,进行融合基因检测。检测结果统计如表4所示。
表4融合基因检测比较
表4中,NEG为阴性结果,ALK/EML4为检测出ALK和EML4的基因融合,结果显示,本例的融合基因检测方法对融合基因具有很好的检测效果,相比SeekSV融合基因检测软件而言,本例的融合基因检测方法敏感度高,对所有混合样品都有检测出,而SeekSV则大部分为阴性结果,检出率低。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护范围。

Claims (10)

1.一种基于单端测序的融合基因检测方法,其特征在于:包括以下步骤,
(1)设计融合基因中第一基因的探针,利用捕获技术对待测样品进行文库构建,并对所构建的文库进行单端测序;
(2)对待测样品的单端测序结果进行分析,获得待测样品中第二基因的强启动子的测序深度;
(3)将待测样品中第二基因的强启动子的测序深度与测序深度基线进行比较,如果待测样品第二基因强启动子的测序深度显著大于所述测序深度基线,则判断待测样品发生了基因融合突变,反之则待测样品未发生基因融合突变;其中,所述测序深度基线为融合基因阴性样品的第二基因强启动子的测序深度基线。
2.根据权利要求1所述的融合基因检测方法,其特征在于:所述捕获技术为芯片捕获技术。
3.根据权利要求1所述的融合基因检测方法,其特征在于:所述测序深度基线的获得方法包括,对多个融合基因阴性样品的单端测序数据进行统计分析,根据融合基因阴性样品中第二基因强启动子的测序深度建立测序深度基线。
4.根据权利要求3所述的融合基因检测方法,其特征在于:所述根据融合基因阴性样品中第二基因强启动子的测序深度建立测序深度基线,具体包括,根据融合基因阴性样品中第二基因强启动子的测序深度的平均值和标准差,构建z-score模型,进而建立测序深度基线。
5.根据权利要求4所述的融合基因检测方法,其特征在于:所述测序深度基线的获得方法,具体包括,在序列范围内以100-150bp划分窗口,步长为20-30bp移动,统计融合基因阴性样品的测序数据中,每个窗口的强启动子测序深度平均值和标准差,构建z-score模型,确定不同位置的平均测序深度和平均值加三倍标准差的异常值界限,即获得所述测序深度基线。
6.根据权利要求1所述的融合基因检测方法,其特征在于:所述步骤(2)中,对待测样品的单端测序结果进行分析,获得待测样品中第二基因的强启动子的测序深度,具体包括,在序列范围内以100-150bp划分窗口,步长为20-30bp移动,统计待测样品每个窗口的强启动子的测序深度。
7.根据权利要求1所述的融合基因检测方法,其特征在于:所述步骤(3)中,将待测样品中第二基因的强启动子的测序深度与测序深度基线进行比较,具体为将待测样品第二基因的强启动子测序深度与融合基因阴性样品强启动子的测序深度基线进行U检验,显著性表现为P值>0.95。
8.根据权利要求1所述的融合基因检测方法,其特征在于:还包括步骤(4),在所述步骤(3)中判断待测样品发生了基因融合突变后,在待测样品的测序深度异常的区域搜索soft-clip reads序列,通过soft-clip reads序列判断融合基因的类型。
9.根据权利要求1-8任一项所述的融合基因检测方法,其特征在于:所述第一基因为肿瘤基因,第二基因为与肿瘤基因融合的基因。
10.根据权利要求1-9任一项所述的融合基因检测方法在肿瘤融合基因检测中的应用。
CN201610881242.5A 2016-09-30 2016-09-30 一种基于单端测序的融合基因检测方法及其应用 Active CN107885972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610881242.5A CN107885972B (zh) 2016-09-30 2016-09-30 一种基于单端测序的融合基因检测方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610881242.5A CN107885972B (zh) 2016-09-30 2016-09-30 一种基于单端测序的融合基因检测方法及其应用

Publications (2)

Publication Number Publication Date
CN107885972A true CN107885972A (zh) 2018-04-06
CN107885972B CN107885972B (zh) 2021-07-27

Family

ID=61770170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610881242.5A Active CN107885972B (zh) 2016-09-30 2016-09-30 一种基于单端测序的融合基因检测方法及其应用

Country Status (1)

Country Link
CN (1) CN107885972B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637587A (zh) * 2019-01-18 2019-04-16 臻悦生物科技江苏有限公司 检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法
CN110660451A (zh) * 2018-06-13 2020-01-07 广州华大基因医学检验所有限公司 确定生物样本中是否存在融合基因的方法、设备及应用
CN111243663A (zh) * 2020-02-26 2020-06-05 西安交通大学 一种基于模式增长算法的基因变异检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101768598A (zh) * 2010-01-22 2010-07-07 浙江大学 一个定向突变及遗传改造的重组质粒及其应用
CN102121004A (zh) * 2010-12-03 2011-07-13 西北农林科技大学 葡萄病原菌诱导型启动子的分离方法及在抗病育种中的应用
CN103201286A (zh) * 2010-04-15 2013-07-10 圣祖德儿童研究医院 用于诊断和治疗抗间变性淋巴瘤激酶(alk)激酶抑制剂的癌症的方法和组合物
CN105779572A (zh) * 2014-12-22 2016-07-20 深圳华大基因研究院 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101768598A (zh) * 2010-01-22 2010-07-07 浙江大学 一个定向突变及遗传改造的重组质粒及其应用
CN103201286A (zh) * 2010-04-15 2013-07-10 圣祖德儿童研究医院 用于诊断和治疗抗间变性淋巴瘤激酶(alk)激酶抑制剂的癌症的方法和组合物
CN102121004A (zh) * 2010-12-03 2011-07-13 西北农林科技大学 葡萄病原菌诱导型启动子的分离方法及在抗病育种中的应用
CN105779572A (zh) * 2014-12-22 2016-07-20 深圳华大基因研究院 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110660451A (zh) * 2018-06-13 2020-01-07 广州华大基因医学检验所有限公司 确定生物样本中是否存在融合基因的方法、设备及应用
CN110660451B (zh) * 2018-06-13 2023-04-28 广州华大基因医学检验所有限公司 确定生物样本中是否存在融合基因的方法、设备及应用
CN109637587A (zh) * 2019-01-18 2019-04-16 臻悦生物科技江苏有限公司 检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法
CN109637587B (zh) * 2019-01-18 2022-11-04 臻悦生物科技江苏有限公司 检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法
CN111243663A (zh) * 2020-02-26 2020-06-05 西安交通大学 一种基于模式增长算法的基因变异检测方法
CN111243663B (zh) * 2020-02-26 2022-06-07 西安交通大学 一种基于模式增长算法的基因变异检测方法

Also Published As

Publication number Publication date
CN107885972B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
Lähnemann et al. Eleven grand challenges in single-cell data science
Finotello et al. Next-generation computational tools for interrogating cancer immunity
Naik et al. Cellular barcoding: a technical appraisal
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
CN115428088A (zh) 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN106156543A (zh) 一种肿瘤ctDNA信息统计方法
CN107267613A (zh) 测序数据处理系统和smn基因检测系统
CN108642568B (zh) 一种家犬全基因组低密度品种鉴定专用snp芯片设计方法
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN107885972A (zh) 一种基于单端测序的融合基因检测方法及其应用
CN109949862A (zh) 一种血液ctDNA的微卫星不稳定性检测方法
WO2019046804A1 (en) IDENTIFICATION OF FALSE POSITIVE VARIANTS USING A MODEL OF IMPORTANCE
Churcheward et al. MAGNETO: an automated workflow for genome-resolved metagenomics
Foster et al. A targeted capture approach to generating reference sequence databases for chloroplast gene regions
Fomitcheva-Khartchenko et al. Space in cancer biology: its role and implications
CN115948521B (zh) 一种检测非整倍体缺失染色体信息的方法
CN112102944A (zh) 一种基于ngs的脑肿瘤分子诊断的分析方法
McPherson et al. Observing clonal dynamics across spatiotemporal axes: A prelude to quantitative fitness models for cancer
CN104769133A (zh) 通过链排除改进微阵列表现的方法
CN114400045B (zh) 基于二代测序检测同源重组修复缺陷的方法、探针组、试剂盒和系统
CN114990202A (zh) Snp位点在评估基因组异常的应用及评估基因组异常的方法
Wainer-Katsir et al. BIRD: identifying cell doublets via biallelic expression from single cells
CN114093417B (zh) 一种鉴定染色体臂杂合性缺失的方法和装置
Kim et al. Constructing and visualizing cancer genomic maps in 3D spatial context by Phenotype-based High-throughput Laser-aided Isolation and Sequencing (PHLI-seq)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1247354

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant