CN112164423B

CN112164423B - 基于RNAseq数据的融合基因检测方法、装置和存储介质

Info

Publication number: CN112164423B
Application number: CN202011098214.9A
Authority: CN
Inventors: 吴玲清; 刘久成; 黄毅; 易玉婷; 杜新华; 陈晨; 陈振玺; 戴平平; 付骁睿
Original assignee: Shenzhen Guiinga Medical Laboratory
Current assignee: Shenzhen guiinga Medical Laboratory; SUZHOU JIYINJIA BIOMEDICAL ENGINEERING Co.,Ltd.
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-03-23
Anticipated expiration: 2040-10-14
Also published as: CN112164423A

Abstract

本申请公开了一种基于RNAseq数据的融合基因检测方法、装置和存储介质。本申请方法包括，对原始下机数据进行质控，评估有效比对数据量、外显子比对率、污染率等情况；通过阳性和阴性标准品融合基因检出情况对比筛选融合基因检测软件；保留热点融合基因列表，过滤假阳性融合基因列表，针对标准品中假阳性融合检出情况设置支持读段过滤规则，降低假阳性检出比例；并针对基因内部分外显子缺失引起的融合突变进行软件开发和过滤规则制定。本申请方法综合数据质控评估、软件性能评估、过滤规则制定、外显子缺失分析等多种方案，既保证融合基因更全面地检出，又最大限度降低假阳性和假阴性比例，对临床用药指导和疾病诊断提供更全面精准的指导。

Description

基于RNAseq数据的融合基因检测方法、装置和存储介质

技术领域

本申请涉及融合基因检测技术领域，特别是涉及一种基于RNAseq数据的融合基因检测方法、装置和存储介质。

背景技术

人类疾病，特别是在各类比较难治愈的癌症中，基因组异常，如基因融合，引起的细胞代谢、生长、分化失去调控，往往是导致疾病发生、发展的直接或间接原因。因此，如何快速、准确、全面的检测相关变异一直以来都是一个具有重要研究价值的课题。近年来，随着高通量测序技术(缩写NGS)的推广和应用，在各类临床检测应用中，高通量测序技术正在逐渐地占据主导地位。

全转录组测序，又常被称为RNA-seq，或缩写RNAseq，是指利用第二代高通量测序技术进行cDNA测序，全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本，是一种非常具有临床应用前景的可用于融合基因检测的测序技术之一。通过对癌症患者的融合变异进行检测，进而可以指导靶向药物的使用。虽然目前已经有很多融合基因检测软件的开发，但关于软件性能对比，及分析结果假阳性的过滤还有待改进。而且STAR-fusion、FusionCatcher等软件不具有检测基因间和内含子断点的能力，也无法检测外显子重复或反转类型的融合基因。目前的融合基因检测软件只能应用RNA数据进行融合基因检测，对于DNA上存在但RNA中漏检的融合基因无法回捞，灵敏性有限。

MET基因编码肝细胞生长因子受体，属于酪氨酸激酶。MET基因14外显子剪切序列附近突变引起的14外显子跳读，目前已作为非小细胞肺癌一个新兴的治疗靶点，引起广泛关注。MET基因14外显子跳读突变在肺腺癌中的发生频率约为4％，而在肺肉瘤样癌中的频率高达22％。在非小细胞肺癌中，携带MET基因14外显子跳读突变的患者对MET抑制剂，如克唑替尼、卡博替尼，在临床试验中有较好的应答。研究发现MET基因14外显子剪切供体及剪切受体区域的点突变或缺失突变，可能引起MET基因表达时剪切异常，“跳过”14外显子编码区域，产生14外显子缺失的MET蛋白。这样的突变型MET蛋白泛素化异常，蛋白降解率减低，从而增加MET稳定性和引起下游RAS-RAF-MEK-ERK、PI3K/AKT等信号通路的持续激活，促进肿瘤细胞生长与增殖，参与肿瘤的发生和发展。

恶性肿瘤，如胶质细胞瘤、乳腺癌、卵巢癌、非小细胞肺癌等，的细胞表面有表皮生长因子受体(缩写EGFR)的过表达和基因的突变或重组，而表皮生长因子受体III型突变体(缩写EGFRvIII)是表皮生长因子受体最常见的突变体形式。EGFRvIII是EGFR缺失了胞外段的2-7外显子部分，约801bp的核酸片段，而1和8外显子直接连接，且在连接处形成了一个新的甘氨酸。较EGFR野生型来说，EGFRvIII缺失了胞外段的6-273号氨基酸残基；因此EGFR的配体结合区，其本身不和配体结合，即可产生持续的磷酸化，使受体产生持续的刺激信号。近年来的研究报道，EGFRvIII通过促进细胞的增殖、迁移和侵袭，降低细胞的死亡来促进肿瘤的发生和发展。与此同时，EGFRvIII仅表达于肿瘤细胞，而正常细胞中却没有报道，这也是近年来越来越多的免疫治疗以EGFRvIII为靶向的主要原因。

目前针对MET14外显子跳读和EGFRVIII缺失突变检测主要采用的方法有直接测序法、实时定量PCR以及组织免疫组化等方法，基于二代测序的方法主要是通过设计特定引物或试剂盒靶向捕获目标基因，进行PCR扩增测序，通过序列分析进行验证。这些方法各有优势，但操作复杂、耗时长、成本相对较大一定程度上限制了这些方法的推广使用。并且一次只能检测一种突变，无法同时检测其它突变类型，所以实际上应用范围有限。当前市面上并没有成熟的生信分析软件可以基于全转录组数据对外显子缺失造成的融合突变进行有效的检测，急需开发出相应的检测流程。

发明内容

本申请的目的是提供一种新的基于RNAseq数据的融合基因检测方法、装置和存储介质。

为了实现上述目的，本申请采用了以下技术方案：

本申请的第一方面公开了一种基于RNAseq数据的融合基因检测方法，包括以下步骤：

数据质控步骤，包括对原始下机数据进行质控，评估有效比对数据量、外显子比对率、污染率情况；

融合基因检测软件筛选步骤，包括通过阳性标准品和阴性标准品的融合基因检出情况，对比若干个融合基因检测软件的性能，从中挑选最佳性能的融合基因检测软件用于后续使用；

支持读段过滤步骤，包括采用融合基因检测软件筛选步骤获得的融合基因检测软件对经过数据质控步骤处理的待测样品的RNAseq数据进行融合基因检测；包括保留热点融合基因列表，过滤假阳性融合基因列表；并针对阳性标准品和阴性标准品中假阳性融合检出情况，设置支持读段的过滤规则，降低假阳性检出比例；

外显子缺失融合突变分析步骤，包括统计支持基因发生融合突变的split reads和spanning reads的数目，通过split reads和spanning reads数目阈值判定是否存在外显子缺失。

需要说明的是，本申请的融合基因检测方法，综合考虑了测序数据质控评估、软件性能评估、过滤规则制定、外显子缺失分析等多种方案，既保证了融合基因更全面地检出，也最大限度降低了假阳性和假阴性比例，对临床上用药指导和疾病诊断提供更全面更精准的指导和参考。

目前关于外显子缺失引起的融合突变尚无成熟的软件可以检测，本申请的一种实现方式中，特别研发了新的分析软件，统计各外显子的支持读段，通过对阳性标准品和阴性标准品拟定过滤规则，自动判断是否发生外显子缺失融合突变。

本申请的一种实现方式中，原始下机数据为全转录组测序数据或RNA探针捕获数据。

可以理解，本申请是基于RNAseq数据的融合基因检测方法，RNAseq数据可以是全转录组测序数据或RNA探针捕获数据，在此不作具体限定。

本申请的一种实现方式中，数据质控步骤包括通过质量评估，筛选符合融合基因突变检测的样本，质量评估指标具体包括：

数据量>预期下机数据量的90％；

基因组比对率>85％；

外显子比对率>35％；

污染率<10％。

本申请的一种实现方式中，污染率的评估包括外源微生物污染和物种内样本间的交叉污染。

本申请的一种实现方式中，融合基因检测软件筛选步骤中，具体对比了以下融合基因检测软件中的至少两个，Arriba、STAR-fusion、FusionCatcher、ChimeraScan、ChimPipe、deFuse、EricScript、FusionHunter、InFusion、JAFFA-Assembly、JAFFA-Direct、JAFFA-Hybrid、MapSplice、nFuse、Pizzly、PRADA、SOAP-fuse、STARChip、STAR-SEQR、TopHat-Fusion、TopHatFusion-C、TopHatFusion-D、TopHatFusion-UC。

本申请的一种实现方式中，支持读段过滤步骤中，具体的，设置支持读段的过滤规则，使得阳性标准品和阴性标准品的检测灵敏度>95％，假阳性比率为0。

本申请的一种实现方式中，保留热点融合基因列表，具体包括，保留DNA融合变异位点信息和/或临床数据库及文献报道的已知热点融合基因。

本申请的一种实现方式中，过滤假阳性融合基因列表，具体包括，删除健康组织中存在的常见的比对伪影和转录本，例如邻近基因之间的通读融合、环状RNA和其他非正规剪接的转录本。

本申请的一种实现方式中，不考虑融合支持读段的过滤条件，强制保留DNA融合变异位点信息和/或临床数据库及文献报道的已知热点融合基因；并且，不考虑融合支持读段的过滤条件，强制过滤去除假阳性融合基因列表。

本申请的一种实现方式中，对于热点融合基因的融合支持读段过滤规则为，2≤split read1+split read2+spanning reads＜5或split read1+split read2+spanningreads≥5时，split read1、split read2、spanning reads至少两项不为0；对于非热点融合基因的融合支持读段过滤规则为，10<split read1+split read2+spanning reads，且split read1、split read2、spanning reads至少两项不为0。

本申请的一种实现方式中，外显子缺失融合突变分析步骤的split reads和spanning reads数目阈值，通过阳性标准品和阴性标准品的检测结果进行设定，并且，需要使得阳性标准品和阴性标准品的检测灵敏度>95％，假阳性比率<5％。

本申请的一种实现方式中，split reads和spanning reads数目阈值具体为，split reads+spanning reads≥10，且split reads≠0。

本申请的一种实现方式中，本申请的融合基因检测方法还包括多重比对嵌合读对步骤，该多重比对嵌合读对步骤包括将多重比对嵌合读对，比对到参考基因组上，使得同一个基因发生两次及其以上的融合位点分别检出，提高检出灵敏度。

需要说明的是，本申请的一种实现方式中，具体对STAR软件的一些参数进行了修改，例如修改了--chimMultimapNmax to a value、--alignSplicedMateMapLminOverLmate、--chimScoreDropMax等参数，并修改了输出代码，实现STAR软件分析结果能够在比对结果文件(即bam文件)中包含嵌合比对读段；以及回收了部分跨越内含子和比对质量值比较低的嵌合比对读段，提高多重比对嵌合读段支持的融合检出。

本申请的第二方面公开了一种基于RNAseq数据的融合基因检测装置，其包括数据质控模块、融合基因检测软件筛选模块、支持读段过滤模块、外显子缺失融合突变分析模块和多重比对嵌合读对模块；数据质控模块，包括用于对原始下机数据进行质控，评估有效比对数据量、外显子比对率、污染率情况；融合基因检测软件筛选模块，包括用于通过阳性标准品和阴性标准品的融合基因检出情况，对比若干个融合基因检测软件的性能，从中挑选最佳性能的融合基因检测软件用于后续使用；支持读段过滤模块，包括用于采用融合基因检测软件筛选模块获得的融合基因检测软件对经过数据质控模块处理的待测样品的RNAseq数据进行融合基因检测；保留热点融合基因列表，过滤假阳性融合基因列表；并针对阳性标准品和阴性标准品中假阳性融合检出情况，设置支持读段的过滤规则，降低假阳性检出比例；外显子缺失融合突变分析模块，包括用于针对基因的外显子缺失引起的融合突变进行过滤规则制定；过滤规则制定包括分别计算支持所述基因发生融合突变的splitreads和spanning reads的数目，通过split reads和spanning reads数目阈值判定是否存在外显子缺失；多重比对嵌合读对模块，包括用于将多重比对嵌合读对，比对到参考基因组上，使得同一个基因发生两次及其以上的融合位点分别检出，提高检出灵敏度。

需要说明的是，本申请的融合基因检测装置，实际上就是通过各模块实现本申请的融合基因检测方法的各个步骤，因此，本申请融合基因检测装置中各模块的具体实现方式或参数条件可以参考本申请的融合基因检测方法。例如，数据质控模块可以参考本申请方法的数据质控步骤中数据量、基因组比对率、外显子比对率、剪接位点的读段总长和污染率等的质控条件；融合基因检测软件筛选模块可以参考本申请方法中的融合基因检测软件筛选步骤对所列的23个融合基因检测软件中的至少两个进行对比分析；支持读段过滤模块可以参考本申请方法中的支持读段过滤步骤，设置过滤规则、保留DNA融合变异位点信息和/或临床数据库及文献报道的已知热点融合基因、过滤去除假阳性融合基因列表、设置热点融合基因的融合支持读段过滤规则和非热点融合基因的融合支持读段过滤规则；外显子缺失融合突变分析模块可以参考本申请方法的外显子缺失融合突变分析步骤，设定splitreads和spanning reads数目阈值；多重比对嵌合读对模块可以参考本申请方法的多重比对嵌合读对步骤。

本申请的第三方面公开了一种基于RNAseq数据的融合基因检测装置，该装置包括存储器和处理器；其中，存储器，包括用于存储程序；处理器，包括用于通过执行存储器存储的程序以实现本申请的融合基因检测方法。

本申请的第三方面公开了一种计算机可读存储介质，该存储介质中包括程序，该程序能够被处理器执行以实现本申请的融合基因检测方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请的融合基因检测方法，通过数据质控步骤减少不达标样本对融合检测结果的影响；通过融合基因检测软件筛选步骤，选取最佳性能的融合基因检测软件，保障检测方法的可靠性；通过支持读段过滤步骤，设置支持读段的过滤规则，结合热点融合基因列表和假阳性融合基因列表，提高检出灵敏度的同时降低假阳性检出比例；并能够实现外显子缺失引起的融合突变的检出。本申请的融合基因检测方法，综合考虑了测序数据质控评估、软件性能评估、过滤规则制定、外显子缺失分析等多种方案，既保证了融合基因更全面地检出，又最大限度降低了假阳性和假阴性比例，对临床上用药指导和疾病诊断提供更全面更精准的指导和参考。

附图说明

图1是本申请实施例基于RNAseq数据的融合基因检测方法的流程框图；

图2是本申请实施例基于RNAseq数据的融合基因检测装置的结构框图；

图3是本申请实施例中融合支持读段splitreads的结构示意图；

图4是本申请实施例中融合支持读段spanning reads的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

现有的应用RNA数据进行融合基因检测的方法，虽然都有对原始下机数据进行质控，但是，对于质控的要求不同，使得数据过滤的效果以及后续融合基因检测的效果也不同；并且，现有的融合基因检测方法中，普遍缺乏对融合基因检测软件性能的注释和筛选，也缺乏对融合支持读段的进一步过滤，因此，容易出现假阳性或假阴性，影响融合基因检测结果的准确性和完整性。

因此，本申请创造性的提出了一种新的基于RNAseq数据的融合基因检测方法，如图1所示，包括数据质控步骤11、融合基因检测软件筛选步骤12、支持读段过滤步骤13和外显子缺失融合突变分析步骤14。

其中，数据质控步骤11，包括对原始下机数据进行质控，评估有效比对数据量、外显子比对率、污染率情况；其中，原始下机数据可以是全转录组测序数据，也可以是RNA探针捕获数据；污染率的评估包括外源微生物污染和物种内样本间的交叉污染。质量评估指标具体如下：

数据量>90％×预期下机数据量；

基因组比对率>85％；

外显子比对率>35％；

污染率<10％。

融合基因检测软件筛选步骤12，包括通过阳性标准品和阴性标准品的融合基因检出情况，对比若干个融合基因检测软件的性能，从中挑选最佳性能的融合基因检测软件用于后续使用。通过标准品的已知目标融合基因和和无融合基因的阴性标准品检出率和假阳性融合基因检出比率对比k个融合基因检测软件性能，2≤k≤23；如Arriba、STAR-fusion、FusionCatcher、ChimeraScan、ChimPipe、deFuse、EricScript、FusionHunter、InFusion、JAFFA-Assembly、JAFFA-Direct、JAFFA-Hybrid、MapSplice、nFuse、Pizzly、PRADA、SOAP-fuse、STARChip、STAR-SEQR、TopHat-Fusion、TopHatFusion-C、TopHatFusion-D、TopHatFusion-UC等，从中挑选最佳性能的融合基因检测软件。

支持读段过滤步骤13，包括采用融合基因检测软件筛选步骤获得的融合基因检测软件对经过数据质控步骤处理的待测样品的RNAseq数据进行融合基因检测；包括保留热点融合基因列表，过滤假阳性融合基因列表；并针对阳性标准品和阴性标准品中假阳性融合检出情况，设置支持读段的过滤规则，降低假阳性检出比例。具体的，设置支持读段的过滤规则，使得阳性标准品和阴性标准品的检测灵敏度>95％，假阳性比率为0。其中，保留热点融合基因列表，具体包括，保留DNA融合变异位点信息和/或临床数据库及文献报道的已知热点融合基因。本申请的一种实现方式中，不考虑融合支持读段的过滤条件，强制保留DNA融合变异位点信息和/或临床数据库及文献报道的已知热点融合基因；并且，不考虑融合支持读段的过滤条件，强制过滤去除假阳性融合基因列表。过滤假阳性融合基因列表，具体包括，删除健康组织中存在的常见的比对伪影和转录本，例如邻近基因之间的通读融合、环状RNA和其他非正规剪接的转录本。

其中，split reads和spanning reads都是融合支持读段。split reads如图3所示，read1或者read2中的一条read位于融合断点两侧，这样的片段称为split reads。spanning reads如图4所示，read1和read2本身都没有覆盖到融合断点，只是其比对位置位于两个不同的基因上，且reads间距离大于成对reads之间的距离，这样的片段称为spanning reads。

外显子缺失融合突变分析步骤14，包括统计支持所述基因发生融合突变的splitreads和spanning reads的数目，通过splitreads和spanning reads数目阈值判定是否存在外显子缺失。具体的，split reads和spanning reads数目阈值，通过阳性标准品和阴性标准品的检测结果进行设定，并且，需要使得阳性标准品和阴性标准品的检测灵敏度>95％，假阳性比率<5％；本申请的一种实现方式中，split reads和spanning reads数目阈值具体为，split reads+spanning reads≥10，且split reads≠0。关于该步骤，目前尚没有成熟的软件可以检测外显子缺失引起的融合突变；因此，本申请的一种实现方式中，特别研发了新的分析软件，统计各外显子的支持读段，通过对阳性和阴性标准品样本拟定过滤规则，自动判断是否发生外显子缺失融合突变。

本申请的一种实现方式中，融合基因检测方法还包括多重比对嵌合读对步骤15，如图1所示，多重比对嵌合读对步骤15包括将多重比对嵌合读对，比对到参考基因组上，使得同一个基因发生两次及其以上的融合位点分别检出，提高检出灵敏度。

本领域技术人员可以理解，上述方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，基于本申请的融合基因检测方法，本申请提出了基于RNAseq数据的融合基因检测装置，如图2所示，包括数据质控模块21、融合基因检测软件筛选模块22、支持读段过滤模块23、外显子缺失融合突变分析模块24和多重比对嵌合读对模块25。

其中，数据质控模块21，包括用于对原始下机数据进行质控，评估有效比对数据量、外显子比对率、污染率情况。融合基因检测软件筛选模块22，包括用于通过阳性标准品和阴性标准品的融合基因检出情况，对比若干个融合基因检测软件的性能，从中挑选最佳性能的融合基因检测软件用于后续使用。支持读段过滤模块23，包括用于采用融合基因检测软件筛选模块获得的融合基因检测软件对经过数据质控模块处理的待测样品的RNAseq数据进行融合基因检测；保留热点融合基因列表，过滤假阳性融合基因列表；并针对阳性标准品和阴性标准品中假阳性融合检出情况，设置支持读段的过滤规则，降低假阳性检出比例。外显子缺失融合突变分析模块24，包括统计支持所述基因发生融合突变的split reads和spanning reads的数目，通过splitreads和spanning reads数目阈值判定是否存在外显子缺失。多重比对嵌合读对模块25，包括用于将多重比对嵌合读对，比对到参考基因组上，使得同一个基因发生两次及其以上的融合位点分别检出，提高检出灵敏度。

本申请的融合基因检测装置，利用各模块相互协调作用，能够实现基于RNAseq数据的融合基因检测，特别是通过本申请装置的各模块能够实现本申请基于RNAseq数据的融合基因检测方法中的相应的各个步骤，从而实现自动化的快速高效的融合基因检测。

本申请的另一实现方式中还提供了一种基于RNAseq数据的融合基因检测装置，该装置包括存储器和处理器；存储器，包括用于存储程序；处理器，包括用于通过执行存储器存储的程序以实现本申请的基于RNAseq数据的融合基因检测方法。

本申请另一种实现方式中还提供一种计算机可读存储介质，该存储介质中包括程序，该程序能够被处理器执行以实现本申请的基于RNAseq数据的融合基因检测方法。

本申请的融合基因检测方法，与现有的融合基因检测方法相比，具有以下优点：

(1)本申请的方法通过质量评估，筛选符合融合基因突变检测的样本，减少不达标样本对融合检测结果的影响，质控评估指标细化至具体的数值，不仅包括常规的数据量，基因组比对率指标，还对外显子比对率、剪接位点的读段总和、污染率这三个关键影响指标也进行了评估，目前尚无系统的评估融合基因样本质控的指标发表。

(2)通过标准品的已知目标融合基因检出率对比多个融合注释软件性能，选取最佳性能的融合基因检测软件，保障检测方法的可靠，本申请的一种实现方式中，对主流的STAR比对软件中进行了代码校正，实现STAR软件分析结果能够在比对结果文件(bam文件)中包含嵌合比对读段；以及回收了部分跨越内含子和比对质量值比较低的嵌合比对读段，有效地实现同一个基因发生两次及其以上的融合位点分别检出，提高检出灵敏度。

(3)本申请的方法有别于其它研究涉及的通过跟热点融合基因数据库对比对结果进行分析检测得到融合基因的方法，本申请方法不仅可以对热点融合基因进行检测，还可挖掘其它非热点融合基因及未报道的融合基因；对临床上用药指导和疾病诊断提供更全面更精准的指导；

(4)本申请方法除了保留热点融合基因列表和过滤假阳性融合基因列表外，进一步针对标准品中假阳性融合检出情况设置支持读段的过滤规则，提高检出灵敏度，进一步降低假阳性检出比例；

(5)本申请方法具有检测基因间和内含子断点的能力，也能检测外显子重复或反转类型的融合基因，还能利用从全基因组测序中获得的结构变异信息，过滤在健康组织中观察到的转录组变异，降低假阳性；并且对DNA上存在但RNA中漏检的融合基因进行回捞，提高灵敏性。

(6)同时本申请方法还针对基因内外显子缺失导致的融合突变类型进行软件开发，目前这类融合突变主要是通过专门的试剂盒进行检测，还没有成熟的生物信息分析软件可以检测。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例一

本例基于RNAseq数据的融合基因检测方法包括以下步骤：

步骤一：应用全转录组测序技术获得11个已知目标融合基因突变的阳性肿瘤标准品(即阳性标准品)和3个无融合基因突变的阴性肿瘤标准品(即阴性标准品)的RNA测序数据；标准品样本来源于北京吉因加医学检验实验室，具体参见表1。

步骤二：原始下机数据进行数据过滤和质量评估得到高质量序列，具体评估指标包括数据量>90％×预期下机数据量；基因组比对率>85％；

外显子比对率>35％，污染率<10％。

步骤三：以人基因组(版本：RhGH37)作为参考序列，将获得的高质量序列分别应用Arriba、STAR-fusion、FusionCatcher软件进行融合基因检测。

步骤四：对比不同软件的融合基因检测结果，计算不同融合基因检测软件对阳性标准品已知的目标融合基因和阴性样本的检出率情况，具体参见表1，其中Arriba软件灵敏度为93.75％，STAR-fusion软件灵敏度为90.63％，FusionCatcher软件灵敏度最弱，仅为81.25％。

以199001206FR为例，除了15个目标融合基因外，Arriba软件还检出7个其它假阳性融合基因，STAR-fusion软件还检出其它168个其它假阳性融合基因，FusionCather软件还检出49个其它假阳性融合基因。因此Arriba软件假阳性融合基因检出率最低。综上所述，Arriba软件为最佳性能的融合基因检测软件。

表1不同融合检测软件检测性能评估表

步骤五：根据步骤四得到最佳性能的融合基因检测软件为Arriba软件，基于15个标准品的已知热点融合基因的检出情况，制定过滤规则，使假阳性比率为0，具体参见表2。Arriba软件的热点融合基因过滤规则具体如下：2≤split read1+split read2+spanningreads＜5或split read1+split read2+spanning reads≥5时，splitread1、splitread2、spanning reads至少两项不为0。

对于非热点融合基因的过滤规则具体如下：10<split read1+split read2+spanning reads，且split read1、splitread2、spanning reads至少两项不为0。

其中，如果read1或者read2中的一条read位于连接点两侧，这样的片段称之为split reads，如图3所示；如果read1和read2本身都没有覆盖到连接点，只是其比对位置位于两个不同的基因上，且reads间距离大于成对reads之间的距离，这样的片段称之为spanning reads，如图4所示。

表2标准品热点融合基因检出情况

实施例二

本例基于RNAseq数据的融合基因检测方法包括以下步骤：

步骤一：应用全转录组测序技术获得3个MET14外显子缺失阳性肿瘤标准品和8个阴性肿瘤标准品的RNA测序数据，标准品样本来源于北京吉因加医学检验实验室，具体参见表3。

步骤二：下机数据进行数据过滤和质量评估得到高质量序列，具体评估指标包括数据量>90％×20G；基因组比对率>85％；外显子比对率>35％；

污染率<10％。

步骤三：以人基因组(版本：RhGH37)作为参考序列，将获得的高质量序列通过MET计算软件，计算MET基因各外显子的读长数目及其支持MET14外显子跳读的split reads和spanning read数目，如表3所示。

步骤四：通过MET14外显子缺失阳性标准品和阴性肿瘤标准品的检测结果制定支持MET基因13号外显子和15号外显子融合的split reads和spanning reads阈值，保证检测灵敏度>95％，假阳性比率<5％，如表3所示。具体阈值：split reads+spanning reads≥10，且split reads≠0。

表3 MET14外显子跳读标准品检测结果

实施例三

本例基于RNAseq数据的融合基因检测方法包括以下步骤：

步骤一：应用全转录组测序技术获得3个EGFR基因VIII缺失突变阳性肿瘤标准品和8个阴性肿瘤标准品的RNA测序数据，标准品样本来源于北京吉因加医学检验实验室，具体参见表4。

污染率<10％。

步骤三：以人基因组(版本：RhGH37)作为参考序列，将获得的高质量序列通过EGFR计算软件，计算EGFR基因各外显子的读长数目及其支持EGFR基因VIII缺失突变的splitreads和spanning read数目，如表4所示。

步骤四：通过EGFR基因VIII缺失突变阳性标准品和阴性肿瘤标准品的检测结果制定支持EGFR基因1号外显子和8号外显子融合的split reads和spanning reads阈值，保证检测灵敏度>95％，假阳性比率<5％，如表4所示。具体阈值split reads+spanning reads≥10，且split reads≠0。

表4 EGFR基因VIII缺失突变标准品检测结果

实施例四

本例基于RNAseq数据的融合基因检测方法包括以下步骤：

步骤一：应用全转录组测序技术获得1个肿瘤临床样本209001872FR的RNA测序数据；标准品样本来源于北京吉因加医学检验实验室。

步骤二：原始下机数据进行数据过滤和质量评估得到高质量序列，具体的质控结果参见表5，各质控指标均合格。评估指标包括原始碱基总数>90％×预期下机数据量，本例的预期下机数据量为20Gbp；基因组比对率>85％；

外显子比对率>35％；污染率<10％。

表5 209001872FR样本质控信息汇总

样本	209001872FR
		原始碱基总数(bp)	21008242736
质控后碱基总数(bp)	20871693144
		比对率(％)	93.52
多重比对的读段占比(％)	6.1
		剪接位点的读段总长	18331270
外显子比对率(％)	37.32
		污染率(％)	0.97

步骤三：以人基因组(版本：RhGH37)作为参考序列，将获得的高质量序列分别应用Arriba原始软件、改进代码后升级的Arriba软件(命名为oncofusion软件)进行融合基因检测。本例具体的，通过修改STAR软件的一些参数，包括，--chimMultimapNmax to avalue、--alignSplicedMateMapLminOverLmate、--chimScoreDropMax参数，并修改了输出代码，实现STAR软件分析结果能够在比对结果文件(bam文件)中包含嵌合比对读段；以及回收了部分跨越内含子和比对质量值比较低的嵌合比对读段，提高多重比对嵌合读段支持的融合检出。

步骤四：对比两个软件的融合基因检测结果，计算不同软件对融合基因检出率情况，具体参见表6，其中Arriba软件可以实现对基因间的检测，如TAF1D-HPRTP3(12075)、HEPHL1(10068)，也能实现内含子断点的检测，如YME1L1-DOCK6，还能检测外显子重复，如EGFR-EGFR，或反转类型的融合基因。

对比Arriba软件，oncofusion软件为性能更佳的融合基因检测软件，因为读段如果存在多重嵌合比对，会干扰融合的检出，209001872FR样本存在6.1％的多重比对读段，导致部分融合基因能在组织DNA中检出，但在RNA中无法检出，如EML4-ALK和NPM1-ALK，oncofusion软件是在Arriba软件基础上针对性的修改升级，对这部分RNA中漏检的融合基因进行回捞，提高检出灵敏性，还可实现对基因内外显子缺失导致的融合基因的检出，如MET14外显子缺失和EGFR基因VIII缺失突变的检测。

表6不同融合检测软件检测性能评估表

以上实施例的分析结果显示，通过测序数据质控评估、软件性能评估、过滤规则制定、外显子缺失分析等多种方案，能够保证融合基因更全面地检出，并且，最大限度的降低假阳性和假阴性比例。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种基于RNAseq数据的融合基因检测方法，其特征在于：包括以下步骤，

支持读段过滤步骤，包括采用所述融合基因检测软件筛选步骤获得的融合基因检测软件对经过所述数据质控步骤处理的待测样品的RNAseq数据进行融合基因检测；保留热点融合基因列表，过滤假阳性融合基因列表；并针对阳性标准品和阴性标准品中假阳性融合检出情况，设置支持读段的过滤规则，降低假阳性检出比例；

外显子缺失融合突变分析步骤，包括统计支持所述基因发生融合突变的split reads和spanning reads的数目，通过split reads和spanning reads数目阈值判定是否存在外显子缺失。

2.根据权利要求1所述的融合基因检测方法，其特征在于：所述原始下机数据为全转录组测序数据或RNA探针捕获数据。

3.根据权利要求1所述的融合基因检测方法，其特征在于：所述数据质控步骤包括通过质量评估，筛选符合融合基因突变检测的样本，质量评估指标具体包括，

数据量>预期下机数据量的90%；

基因组比对率>85%；

外显子比对率>35%；

剪接位点的读段总长>（数据量×1

×1/2）；

污染率<10%。

4.根据权利要求3所述的融合基因检测方法，其特征在于：所述污染率的评估，包括外源微生物污染和物种内样本间的交叉污染。

5.根据权利要求1所述的融合基因检测方法，其特征在于：所述融合基因检测软件筛选步骤中，具体对比了以下融合基因检测软件中的至少两个，Arriba、STAR-fusion、FusionCatcher、ChimeraScan、ChimPipe、deFuse、EricScript、FusionHunter、InFusion、JAFFA-Assembly、JAFFA-Direct、JAFFA-Hybrid、MapSplice、nFuse、Pizzly、PRADA、SOAP-fuse、STARChip、STAR-SEQR、TopHat-Fusion、TopHatFusion-C、TopHatFusion-D、TopHatFusion-UC。

6.根据权利要求1所述的融合基因检测方法，其特征在于：所述支持读段过滤步骤中，具体的，设置支持读段的过滤规则，使得阳性标准品和阴性标准品的检测灵敏度>95%，假阳性比率为0。

7.根据权利要求6所述的融合基因检测方法，其特征在于：所述保留热点融合基因列表，具体包括，保留DNA融合变异位点信息和/或临床数据库及文献报道的已知热点融合基因；

优选的，所述过滤假阳性融合基因列表，具体包括，删除健康组织中存在的常见的比对伪影和转录本，包括邻近基因之间的通读融合、环状RNA和其他非正规剪接的转录本；

优选的，不考虑融合支持读段的过滤条件，强制保留DNA融合变异位点信息和/或临床数据库及文献报道的已知热点融合基因；并且，不考虑融合支持读段的过滤条件，强制过滤去除假阳性融合基因列表。

8.根据权利要求7所述的融合基因检测方法，其特征在于：对于热点融合基因的融合支持读段过滤规则为，2 ≤ split read1+split read2+spanning reads ＜ 5或splitread1+split read2+spanning reads ≥ 5时，split read1、split read2、spanningreads至少两项不为0；对于非热点融合基因的融合支持读段过滤规则为，10 < splitread1+split read2+spanning reads，且split read1、split read2、spanning reads至少两项不为0。

9.根据权利要求1所述的融合基因检测方法，其特征在于：所述外显子缺失融合突变分析步骤中，split reads和spanning reads数目阈值，通过阳性标准品和阴性标准品的检测结果进行设定，并且，需要使得阳性标准品和阴性标准品的检测灵敏度>95%，假阳性比率<5%；

优选的，split reads和spanning reads数目阈值具体为，split reads+spanningreads ≥ 10，且split reads ≠ 0。

10.根据权利要求1-9任一项所述的融合基因检测方法，其特征在于：还包括多重比对嵌合读对步骤，所述多重比对嵌合读对步骤包括将多重比对嵌合读对，比对到参考基因组上，使得同一个基因发生两次及其以上的融合位点分别检出，提高检出灵敏度。

11.一种基于RNAseq数据的融合基因检测装置，其特征在于：包括数据质控模块、融合基因检测软件筛选模块、支持读段过滤模块、外显子缺失融合突变分析模块和多重比对嵌合读对模块；

所述数据质控模块，包括用于对原始下机数据进行质控，评估有效比对数据量、外显子比对率、污染率情况；

所述融合基因检测软件筛选模块，包括用于通过阳性标准品和阴性标准品的融合基因检出情况，对比若干个融合基因检测软件的性能，从中挑选最佳性能的融合基因检测软件用于后续使用；

所述支持读段过滤模块，包括用于采用所述融合基因检测软件筛选模块获得的融合基因检测软件对经过所述数据质控模块处理的待测样品的RNAseq数据进行融合基因检测；保留热点融合基因列表，过滤假阳性融合基因列表；并针对阳性标准品和阴性标准品中假阳性融合检出情况，设置支持读段的过滤规则，降低假阳性检出比例；

所述外显子缺失融合突变分析模块，包括用于针对基因的外显子缺失引起的融合突变进行过滤规则制定；所述过滤规则制定包括分别计算支持所述基因发生融合突变的splitreads和spanning reads的数目，通过split reads和spanning reads数目阈值判定是否存在外显子缺失；

所述多重比对嵌合读对模块，包括用于将多重比对嵌合读对，比对到参考基因组上，使得同一个基因发生两次及其以上的融合位点分别检出，提高检出灵敏度。

12.一种基于RNAseq数据的融合基因检测装置，其特征在于：所述装置包括存储器和处理器；

所述存储器，包括用于存储程序；

所述处理器，包括用于通过执行所述存储器存储的程序以实现权利要求1-10任一项所述的融合基因检测方法。

13.一种计算机可读存储介质，其特征在于：所述存储介质中包括程序，所述程序能够被处理器执行以实现权利要求1-10任一项所述的融合基因检测方法。