CN109637587A

CN109637587A - 检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法

Info

Publication number: CN109637587A
Application number: CN201910049880.4A
Authority: CN
Inventors: 张亚晰; 于佳宁; 宋雪; 颜林林; 林小静; 陈维之; 杜波; 何骥
Original assignee: Yue Yue Biotechnology Jiangsu Co Ltd
Current assignee: Yue Yue Biotechnology Jiangsu Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-04-16
Anticipated expiration: 2039-01-18
Also published as: CN109637587B

Abstract

本申请公开了一种检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法，以降低检测的假阳性。检测基因融合突变的方法包括：从转录本水平上检测待测样本是否符合已知融合突变类型；若不符合，则检测待测样本是否存在潜在融合，潜在融合包括如下至少之一：原癌基因在转录本水平上存在未知融合；原癌基因在基因组水平上存在结构融合；若存在，则检测所述潜在融合是否为有义融合，若是有义融合，则检测原癌基因是否存在以下两方面表达量异常：原癌基因的功能区过量表达；原癌基因在5’端和3’端的表达量存在显著差异；若存在，则判定为阳性，否则判定为阴性。该方法整合多维度融合特征降低了检测结果的假阳性。

Description

检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法

技术领域

本申请涉及基因突变检测领域，具体而言，涉及一种检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法。

背景技术

基因融合突变是一种常见的染色体变异，是指2个基因或多个基因的片段因为染色体易位、中间缺失或染色体倒置等染色体变异，形成的新的基因。一个强的启动子与下游功能基因的融合，会造成下游基因表达量的异常。根据功能分类，肿瘤中发现的融合基因的下游功能基因可以分为以下几类：激酶类、转录因子类、代谢酶类、Wnt信号通路类、TGFβ类、染色质修饰基因等。所有这些基因都具有原癌基因属性。原癌基因功能的过度激活均是重要的致癌因素。而融合基因通过二聚体化等修饰，使得这些原癌基因变得持续激活，不受控制，从而成为致癌主导因素。随着检测技术的进步，在多种癌种中都发现了融合突变，如白血病中的BCR-ABL，非小细胞肺癌中的ALK，ROS1融合等。

越来越多的融合突变的发掘促进了针对基因融合的个性化药物研发和临床试验。在所有融合突变中，相当比例的突变与激酶相关。由于激酶融合突变大多数是功能持续获得性突变，使得激酶融合突变成为一个有效的致癌突变指标和靶点。在非小细胞肺癌中，ALK的融合突变的发生频率约为3％～7％，辉瑞的Crizotinib是最早获得FDA批准的ALK小分子抑制剂，同时也是首次获批的固体瘤融合突变靶向小分子酪氨酸激酶抑制剂(TKI)。后来诺华的Ceritinib，罗氏的Alectinib，以及最近获得加速审批的Ariad的Brigatinib均是在Crizotinib之后的二代，二线靶向药，可以有效克服Crizotinib的耐药性。最新刚刚获得突破性疗法的辉瑞的ALK TKI三代Lorlatinib的ALK激酶活性最高，能够较有效地克服一代和二代ALKTKI的耐药性。同时，作为激酶抑制剂，Crizotinib和Ceritinib也可以有效抑制ROS1的融合突变。Larotrectinib是作为一款广谱肿瘤药来开发的，拟用于所有表达有原肌球蛋白受体激酶(TRK)的肿瘤患者，经过快速通道，2018年通过FDA的审批，适应症为NTRK基因融合。Ignyta的Entrectinib也具有NTRK1-3活性，活性比LOXO-101高，开发进程接近但略晚。由于Entrectinib有穿透血脑屏障的活性，一方面它可以对脑转移的肿瘤有积极作用，但另一方面，可能会增加TRK靶向神经毒性(CNS)。Entrectinib最近也获得了FDA颁发的突破疗法认证。期待其近期的临床进展。越来越多的药物可用于基因融合突变的患者，显著提高患者的生存期和生存质量。因此，需要准确的融合突变检测方法来帮助筛选有效的受益人群。

用于检测基因融合的方法随着时间的推移而演变，包括多种检测平台方法，临床常见的组织检测方法有：免疫组织化学(Immunohistochemistry,IHC)检测法、荧光原位杂交(Fluorescence in situ hybridization,FISH)检测法和反转录聚合酶链反应(RT-PCR)检测法。

IHC检测法实验操作简单易行，敏感性高(假阴性率低)，适用于临床筛查。但是IHC特异性低(假阳性高)。因此，常规IHC阳性患者还需要FISH、RT-PCR等其他方式的确诊。

FISH检测法的原理是在原癌基因的两端分别设计红绿探针，一旦基因发生断裂重排，红绿信号就会分离，从而检测到荧光信号的变化。由于基因融合结果的判读涉及到对荧光信号的观察和检测技术，因此必须要由经验丰富的病理科医师来完成。同时，15％的阈值(100个细胞中要有15个细胞出现红绿信号分离)，使得该检测法灵敏度受到限制。对于晚期患者的小活检标本而言，很难保证每个视野存在50个以上的癌细胞。总的来说，FISH的价格昂贵，操作严格，对观察视野要求严苛，需要非常专业的实验人员来判读结果，自动化程度低，成本高，不适合大规模临床检测筛选。

RT-PCR法适用于检测固定的已知的融合模式，对于新的融合变异无法检出。

目前，采用无偏差的融合检测技术，如NGS测序，可以在研究和临床中检测到越来越多的融合事件。NGS能够同时进行多种驱动基因检测，常见的融合检测方式是通过对肿瘤组织基因组进行DNA文库构建，通过同时富集融合热点区域(主要是原癌基因区域)以及其他靶向的单核苷酸位点等，但该方法存在测序成本高以及无法准确判断是否融合的缺陷，而导致判断结果出现假阳性。此外，NGS还能够通过组织RNA对基因融合进行检测。但RNA的融合检测法同样会出现假阳性的问题。

发明内容

本发明提供了一种检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法，以降低检测的假阳性。

根据本申请的一个方面，提供了一种检测基因融合突变的方法，该方法包括：从转录本水平上检测待测样本是否符合已知融合突变类型；如符合，则判定为融合突变阳性；若不符合，则检测待测样本是否存在潜在融合，潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合；若不存在，则判定为融合突变阴性；若存在，则检测所述潜在融合是否为有义融合，若非有义融合，则判定为融合突变阴性；若存在有义融合，则检测原癌基因是否存在表达量异常，表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在，则判定为融合突变阳性，否则判定为融合突变阴性。

进一步的，在从转录本水平上检测待测样本是否符合已知融合突变类型之前，上述方法还包括获取已知融合突变类型。更优选地，获取已知融合突变类型包括：通过将已知的热点融合RNA产物序列与人类参考基因组序列进行比对，找到每个热点融合RNA产物序列上对应的断点位置，从而获得已知融合突变类型。

进一步的，从转录本水平上检测待测样本是否符合已知融合突变类型包括：将待测样本的RNA测序数据与热点融合RNA产物序列进行比对，得到第一split read集和第一discordant read集；分别统计第一split read集中split read的个数t1和第一discordant read集中discordant read的个数t2，t1和t2分别为≥0的整数；当t1+t2≥2，则判定待测样本符合已知融合突变类型，否则，不符合。

进一步的，在统计split read的个数t1时，还包括从第一split read集中去除不合格的split read，其中，不合格的split read指第一split read集中断点位置距离序列端点的长度小于mbp的split read，序列端点指split read的5’端和3’端中与断点位置最近的一端，m为≥10的自然数。

进一步的，在统计discordant read的个数t2时，还包括从第一discordant read集中去除不合格discordant read；其中，不合格discordant read指第一discordant read集中5’端和3’端在热点融合RNA产物序列上的距离超过dbp的discordant read，d为自然数且120≤d≤800。

进一步的，当潜在融合涉及(a)原癌基因在转录本水平上存在未知融合时，检测待测样本是否存在潜在融合包括：将待测样本的RNA测序数据与人类参考基因组进行比对；提取not proper pair reads及soft-clip reads，分别作为第二discordant read集和第二split read集；分别统计第二split read集中split read的个数t3和第二discordantread集中discordant read的个数t4，t3和t4分别为≥0的整数；当t3+t4≥2，则判定待测样本存在潜在融合，否则，不存在。

进一步的，当潜在融合涉及(b)原癌基因在基因组水平上存在结构融合时，检测待测样本是否存在潜在融合包括：将待测样本的DNA测序数据与人类参考基因组进行比对；提取not proper pair reads及soft-clip reads，分别作为第三discordant read集和第三split read集；分别统计第三split read集中split read的个数t5和第三discordantread集中discordant read的个数t6，t5和t6分别为≥0的整数；当t5+t6≥2，则判定待测样本存在潜在融合，否则，不存在。

进一步的，检测潜在融合是否为有义融合包括：检测潜在融合是否属于第一异常融合，第一异常融合指原癌基因与融合伴侣基因的方向不一致的融合，和/或断点处的密码子框发生移码现象的融合，若不属于，则潜在融合为有义融合。

进一步的，检测潜在融合是否为有义融合包括：检测潜在融合是否属于第二异常融合，第二异常融合指原癌基因与融合伴侣基因的方向不一致的融合。

进一步的，检测原癌基因是否存在表达量异常包括：建立阴性样本的RNA表达基线，表达基线包括基因水平上的表达基线和外显子水平上的表达基线；检测待测样本的原癌基因在基因水平上的Z值是否大于阴性样本基因水平上的表达基线，当大于，则将原癌基因的功能区过量判断为过表达，优选阴性样本基因水平上的表达基线为阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；检测待测样本的原癌基因在每个外显子水平上的Z值；绘制原癌基因在全部外显子水平上的Z值的趋势曲线；比较原癌基因的5’端的外显子的Z值与3’端的外显子的Z值的差值，当差值大于阴性样本在外显子水平上的表达基线时，则判定原癌基因在5’端和3’端的表达量存在显著差异；优选地，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值为M，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差为N，则阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

进一步的，建立阴性样本的RNA表达基线包括：获取多个阴性样本与人类参考基因组的比对结果；计算每个阴性样本的每个外显子上的nRPM值及每个外显子上的nRPM第一均值和第一方差，每个外显子上的nRPM值为每个外显子的RPM值与内参基因的表达量的中位数的比值；根据第一均值和第一方差计算每个阴性样本的外显子水平上的Z值，进而获得阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M和5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N，将M+n×N作为阴性样本在外显子水平上的表达基线，n为2～4的自然数；计算每个阴性样本的每个基因上的nRPM值及每个基因上的nRPM第二均值和第二方差，每个基因上的nRPM值为每个基因的RPM值与内参基因的表达量的中位数的比值；根据第二均值和所第二方差计算每个阴性样本的基因水平上的Z值，将阴性样本的多个基因水平上的Z值中的第x百分位数作为阴性样本在基因水平上的表达基线，x为90～100的自然数；优选地，内参基因的表达量的中位数通过如下方法获得：选取多个内参基因，并通过试验确定每个内参基因的标准RRM值；计算每个内参基因测序获得的RPM值与标准RPM值的比值，得到多个比值；多个比值的中位数即为内参基因的表达量的中位数。

进一步的，待测样本的DNA测序数据由待测样本的DNA文库经高通量测序得到，优选DNA文库通过如下方法构建而成：提取待测样本的基因组DNA；将基因组DNA打断成250～500bp的片段；将250～500bp的片段构建成全基因组文库；利用DNA文库探针对全基因组文库中的靶向片段进行捕获富集，获得DNA文库。

进一步的，RNA文库构建的步骤包括：提取待测样本的总RNA；构建全部转录本文库；利用RNA文库探针对全部转录本文库中的靶向片段进行捕获富集，获得RNA文库。

进一步的，在提取待测样本的基因组DNA或总RNA的步骤中，对待测样本的基因组DNA和总RNA进行共提取；优选采用核酸共提试剂盒进行共提取。

进一步的，DNA文库探针和RNA文库探针各自分别包括覆盖了已知的融合热点基因的全部外显子区域的探针以及覆盖融合热点基因与融合伴侣基因的基因组融合区域的探针，其中，覆盖融合热点基因与融合伴侣基因的基因组融合区域的探针包括跨断点的探针和断点两侧外显子的探针；优选地，探针为多重覆瓦式设计的探针。

根据本申请的第二个方面，提供了一种检测基因融合突变的装置，该装置包括：第一检测判定模块、第二检测判定模块、第三检测判定模块以及第四检测判定模块，其中，第一检测判定模块，用于从转录本水平上检测待测样本是否符合已知融合突变类型，并在符合的情况下，将待测样本判定为融合突变阳性；第二检测判定模块，用于在第一检测模块检测为不符合已知融合突变类型的情况下，检测待测样本是否存在潜在融合，潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合；并在不存在潜在融合的情况下，将待测样本判定为融合突变阴性；第三检测判定模块，用于在第二检测模块检测为存在潜在融合的情况下，检测潜在融合是否为有义融合，并在非有义融合的情况下，将待测样本判定为融合突变阴性；第四检测判定模块，用于在第三检测模块检测为是有义融合的情况下，检测原癌基因是否存在表达量异常，表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在表达量异常，则判定为融合突变阳性，否则判定为融合突变阴性。

进一步的，该装置还包括已知融合突变类型获取模块，已知融合突变类型获取模块用于在第一检测判定模块从转录本水平上检测待测样本是否符合已知融合突变类型之前，获取已知融合突变类型。

进一步的，已知融合突变类型获取模块包括：第一比对查找模块，用于通过将已知的热点融合RNA产物序列与人类参考基因组序列进行比对，找到每个热点融合RNA产物序列上对应的断点位置，从而获得已知融合突变类型。

进一步的，第一检测判定模块包括：第一比对模块，用于将待测样本的RNA测序数据与热点融合RNA产物序列进行比对，得到第一split read集和第一discordant read集；第一统计模块，用于分别统计第一split read集中split read的个数t1和第一discordantread集中discordant read的个数t2，t1和t2分别为≥0的整数；第一融合判定模块，用于在t1+t2≥2的情况下，判定待测样本符合已知融合突变类型，否则，判定为不符合已知融合突变类型。

进一步的，第一统计模块包括第一统计过滤模块，第一统计过滤模块，用于在统计split read的个数t1时，从第一split read集中去除不合格的split read，其中，不合格的split read指第一split read集中断点位置距离序列端点的长度小于mbp的split read，序列端点指split read的5’端和3’端中与断点位置最近的一端，m为≥10的自然数。

进一步的，第一统计模块包括第二统计过滤模块，第二统计过滤模块，用于在统计discordant read的个数t2时，从第一discordant read集中去除不合格discordant read；其中，不合格discordant read指第一discordant read集中5’端和3’端在热点融合RNA产物序列上的距离超过dbp的discordant read，d为自然数且120≤d≤800。

进一步的，当潜在融合涉及(a)原癌基因在转录本水平上存在未知融合时，第二检测判定模块包括：第二比对模块，用于将待测样本的RNA测序数据与人类参考基因组进行比对；第一提取模块，用于提取not proper pair reads及soft-clip reads，分别作为第二discordant read集和第二split read集；第二统计模块，用于分别统计第二split read集中split read的个数t3和第二discordant read集中discordant read的个数t4，t3和t4分别为≥0的整数；第二融合判定模块，用于在t3+t4≥2的情况下，判定待测样本存在潜在融合，否则，判定为不存在潜在融合。

进一步的，当潜在融合涉及(b)原癌基因在基因组水平上存在结构融合时，第二检测判定模块包括：第三比对模块，用于将待测样本的DNA测序数据与人类参考基因组进行比对；第二提取模块，用于提取not proper pair reads及soft-clip reads，分别作为第三discordant read集和第三split read集；第三统计模块，用于分别统计第三split read集中split read的个数t5和第三discordant read集中discordant read的个数t6，t5和t6分别为≥0的整数；第三融合判定模块，用于在t5+t6≥2的情况下，判定待测样本存在潜在融合，否则，判定为不存在潜在融合。

进一步的，第三检测判定模块包括：第一异常融合检测判定模块，用于检测潜在融合是否属于第一异常融合，第一异常融合指原癌基因与融合伴侣基因的方向不一致的融合，和/或断点处的密码子框发生移码现象的融合，若不属于，则潜在融合为有义融合。

进一步的，第三检测判定模块包括：第二异常融合检测判定模块，用于检测潜在融合是否属于第二异常融合，第二异常融合指原癌基因与融合伴侣基因的方向不一致的融合。

进一步的，第四检测判定模块包括：阴性表达基线建立模块，用于建立阴性样本的RNA表达基线，表达基线包括基因水平上的表达基线和外显子水平上的表达基线；第一表达量检测模块，用于检测待测样本的原癌基因在基因水平上的Z值；第一比较模块，用于比较原癌基因在基因水平上的Z值是否大于阴性样本基因水平上的表达基线，当大于，则将原癌基因的功能区过量判断为过表达，优选阴性样本基因水平上的表达基线为阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；第二表达量检测模块，用于检测待测样本的原癌基因在每个外显子水平上的Z值；Z值趋势曲线绘制模块，用于绘制原癌基因在全部外显子水平上的Z值的趋势曲线；第二比较模块，用于比较原癌基因的5’端的外显子的Z值与3’端的外显子的Z值的差值，当差值大于阴性样本在外显子水平上的表达基线时，则判定原癌基因在5’端和3’端的表达量存在显著差异；优选地，将阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值记为M，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差记为N，则阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

进一步的，阴性表达基线建立模块包括：第一获取模块，用于获取多个阴性样本与人类参考基因组的比对结果；第一计算模块，计算每个阴性样本的每个外显子上的nRPM值及每个外显子上的nRPM第一均值和第一方差，每个外显子上的nRPM值为每个外显子的RPM值与内参基因的表达量的中位数的比值；第一定义模块，用于根据第一均值和所第一方差计算每个外显子水平上的Z值，进而获得阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M和5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N，将M+n×N作为阴性样本在外显子水平上的表达基线，n为2～4的自然数；第二计算模块，用于计算每个阴性样本的每个基因上的nRPM值及每个基因上的nRPM第二均值和第二方差，每个基因上的nRPM值为每个基因的RPM值与内参基因的表达量的中位数的比值；第二定义模块，用于根据第二均值和所第二方差计算每个阴性样本的基因水平上的Z值，将阴性样本的多个基因水平上的Z值中的第x百分位数作为阴性样本在基因水平上的表达基线，x为90～100的自然数。

进一步的，内参基因的表达量的中位数通过执行如下内参中位数模块获得，内参中位数模块包括：选取实验模块，用于选取多个内参基因，并通过试验确定每个内参基因的标准RRM值；比值计算模块，用于计算每个内参基因测序获得的RPM值与标准RPM值的比值，得到多个比值；第三定义模块，用于将多个比值的中位数作为内参基因的表达量的中位数。

根据本申请的第三个方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项的检测基因融合突变的方法。

根据本申请的第四个方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项的检测基因融合突变的方法。

根据本申请的第五个方面，提供了一种转录组数据表达量的标准化的方法，该方法包括：获取包括待测基因和内参基因的转录组测序数据，内参基因有多个；获取预设的多个内参基因的标准RPM值，标准RPM值根据多次预实验计算得到；计算转录组测序数据中每个内参基因的RPM值与标准RPM值的比值，得到多个比值；将转录组测序数据中每个待测基因的RPM值除以多个比值的中位数，从而获得每个待测基因的标准化的RPM值，即nRPM值。

通过本申请，采用以下步骤：先检测待测样本是否属于已知融合突变类型，在确定不属于已知融合突变类型的情况下，再结合DNA测序数据和RNA测序数据判断是否存在潜在融合，若不存在，则可以判定待测样本为融合阴性；在确定存在潜在融合的情况下，再进一步判断这种融合是否属于有义融合，在确定属于有义融合的情况下，再根据原癌基因的功能区的表达量是否过量，以及原癌基因5’端与3’端的表达量存在显著差异而确定上述有义融合是否属于融合突变阳性。该方法综合DNA信息和RNA信息，逐层递进式检测，提高了融合突变检测的准确性，降低了假阳性。同时通过整合多维度的融合特征，建立了判断融合基因的决策树，进而实现高灵敏度高准确性的肿瘤组织基因融合突变检测。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本发明实施例提供的检测基因融合突变的方法流程图；

图2示出了根据本发明的优选实施例中片段化DNA的长度分布图；

图3示出了本发明的一例实施例为ALK的3’端与5’端转录本的表达不平衡；

图4示出了本发明的一例实施例为ROS1的3’端与5’端转录本的表达不平衡。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

术语解释：

原癌基因：肿瘤是由环境因素和遗传因素相互作用所导致的一类疾病，肿瘤的发生与基因的改变有关。癌基因和抑癌基因都是在细胞生长、增殖调控中起重要作用的基因。原癌基因(细胞癌基因)是指存在于生物正常细胞基因组中的癌基因。正常情况下，存在于基因组中的原癌基因处于低表达或不表达状态，并发挥重要的生理功能。但在某些条件下，如病毒感染、化学致癌物或辐射作用等，原癌基因可被异常激活，转变为癌基因，诱导细胞发生癌变。原癌基因活化的机制主要有四种：获得强启动子与增强子、染色体易位、基因扩增及点突变。

融合伴侣基因：与原癌基因融合导致原癌基因异常激活的基因，被称为融合伴侣基因。

基因组水平的原癌基因DNA与融合伴侣基因DNA的有义融合，是指伴侣基因DNA与原癌基因编码功能结构域的DNA融合产生的新基因共同使用伴侣基因的启动子，且该启动子为强启动子。

转录本水平原癌基因调控功能区与融合伴侣基因外显子或启动子的有义融合，是指伴侣基因与原癌基因编码功能结构域融合产生的转录产物，5’端为伴侣基因，3’端为原癌基因3’端的活性功能区，且没有产生移码突变，伴侣基因同样具有强启动子。

Split read：指测序数据中跨断点位置的测序序列，这类序列以断点位置为界，一边是融合伴侣基因的序列，另一边是原癌基因的序列。断点位置在该类序列上的具体位置可能位于中间，也可能位于偏融合伴侣基因的一侧，也可能位于偏原癌基因的一侧。比如，一条split read的长度为120bp，断点位置的左侧是A基因，右侧是B基因，其中，A基因的序列长度为60bp，B基因的序列长度为60bp，则断点位置在该split read的中间。若A基因的序列长度为30bp，B基因的序列长度为90bp，则断点位置在该split read的偏A基因的一侧。若A基因的序列长度为80bp，B基因的序列长度为40bp，则断点位置在该split read的偏B基因的一侧。

Split read集，就是包含上述Split read的数据集合。

discordant read：指构建的文库中的插入片段的长度超过了双端测序所能测得的序列的总长度，该插入片段经双端测序仅能测得两端的序列，而两端的序列都未测到断点位置，仅测到了断点位置两侧的侧翼序列，而断点位于插入片段中间的未被测序测到的部分。该类序列也是涵盖融合断点位置的，因此也是检测基因融合突变时需要关注的序列类型。

discordant read集，就是包含上述discordant read的数据集合。

not proper pair reads：指在与人类参考基因组比对后双端测序序列比对到了不同的染色体上，或双端距离不在软件评估的合理距离范围内.

soft-clip reads：指在与人类参考基因组比对后的测序序列只有其中部分序列比对到某一位置，而其他部分序列并未比对到对应位置。

过表达或过量表达：均是指在发生融合突变的状态下，原癌基因的表达量显著高于在正常未融合状态时的表达量的情况。

nRPM(normalized RPM，标准化的RPM)：转录组数据分析中，为了排除基因长度和测序深度的影响，需要对表达量进行标准化，而不是直接使用read数表示。常用标准化方法包括Fragments Per Kilobase of exon model per Million mapped fragments(FPKM，每千个碱基的转录每百万映射读取的fragments)，Reads Per Kilobase of exon model perMillion mapped reads(RPKM，每千个碱基的转录每百万映射读取的reads)，Reads ofexon model per Million mapped reads(RPM，每百万映射读取的reads)等。捕获测序由于其片段化的模式，并不适用与像FPKM/RPKM这是对长度标准化的方式，而仅考虑测序深度影响的RPM的标准化方法又不够全面，因此，本申请中采用一种新的表达量标准化方法nRPM(即normailized RPM)，具体方法下文有详述。

为解决现有技术中检测基因融合存的假阳性高的问题，发明人对现有的基因融合突变检测方法进行了深入研究。分析发现，目前基于NGS对肿瘤组织基因组DNA文库进行测序检测方法，但由于测序成本的限制，通常仅包括筛选出的外显子Exons和少数已知的内含子Introns，因此有可能无法检测出新的融合类型变异，只通过DNA文库检测可能得到假阴性的结论。另外由于内含子的序列的特异性不强，常规DNA文库插入片段不长，经常很难判断原癌基因融合了哪个基因的启动子，是否为强启动子。因此即使能够准确地检测到DNA层面上的突变，也很有可能无法在功能上准确判定这种融合是否会造成原癌基因的过激活。由于染色体重排的复杂性，涉及到多个基因或者多个基因的短片段，即使检测到了一个强启动子基因的部分基因与原来基因的下游发生了融合，依然无法肯定此融合基因的启动子就是这个强启动子。在这种情况下，只以DNA文库的检测的融合为准，可能会得出假阳性的结论。

而现有技术中基于NGS的RNA融合检测法是指将RNA文库构建方法与杂交捕获方法结合，通过针对关心的原癌基因位点，设计序列特异性的捕获探针，富集指定的原癌基因片段，然后获得测序数据进行融合分析。Ancher PhusionPlex方法将RNA文库构建方法与扩增子方法结合，通过以cDNA为模板，通过单端锚定PCR的方式对含有指定原癌基因的片段进行富集。上述2种以RNA文库为基础的融合检测方式，判定方法都是通过检测原癌基因RNA上游是否有其他融合基因片段，该融合基因是否为强启动子驱动来判定融合。相比于DNA，以RNA为检测材料，具有更高的灵敏性，因为DNA探针往往需要对Intron进行探针设计，而内含子的序列复杂性低，很多位点不能设计出特异性足够的探针或引物。同时，使用RNA，成本也更低，外显子序列长度相比于内含子大大减少。

如前述，尽管基于RNA的融合检测法相比DNA测序数据的检测方法有诸多优势，但RNA的融合检测法同样会遇到假阳性的问题。因为文库信息依然是片段化的，依然无法追踪到完整的转录本，无法确定最上游的启动子，不能完全确定这个融合变异造成了强启动子的过激活。

针对现有技术中的缺陷，本申请的发明人提出了本申请的改进构思：通过同时构建DNA文库和RNA文库，对肿瘤相关的热点融合基因进行富集测序，并综合多维度融合特征，以决策树的方式进行基因融合突变判定。其中，基因融合突变的判定基于以下事实：(1)同时采集DNA和RNA的信息可以提供更全面的融合支持证据，(2)融合基因的转录受5’端融合伴侣基因的强启动子调控，激活了原癌基因的表达；(3)基因融合须为非移码融合，保留完整的原癌基因的功能区活性；(4)受原癌基因启动子调控的原癌基因5’端非融合区的RNA表达水平与受融合伴侣基因强启动子调控的功能区的RNA表达水平不同。

针对上述发明构思，申请人提成了本申请的技术方案。根据本申请的实施例，提供了一种检测基因融合突变的方法。

图1是根据本申请实施例的检测基因融合突变的方法的流程图一。如图1所示，该方法包括以下步骤：

从转录本水平上检测待测样本是否符合已知融合突变类型；如符合，则判定为融合突变阳性；

若不符合，则检测待测样本是否存在潜在融合，潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合；若不存在，则判定为融合突变阴性；

若存在，则检测所述潜在融合是否为有义融合，若非有义融合，则判定为融合突变阴性；

若存在有义融合，则检测原癌基因是否存在表达量异常，表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在，则判定为融合突变阳性，否则判定为融合突变阴性。

本申请的实施例所提供的检测基因融合突变的方法，通过先检测待测样本是否属于已知同和突变类型，在确定不属于已知融合突变类型的情况下，再结合DNA测序数据和RNA测序数据判断是否存在潜在融合，若不存在，则可以判定待测样本为融合阴性；在确定存在潜在融合的情况下，再进一步判断这种融合是否属于有义融合(本申请中指原癌基因的表达框不因融合而发生移码，原癌基因的功能区活性保留完整。此处的功能区是指原癌基因中执行编码蛋白活性的结构域，比如对激酶而言，其功能区就是指其激酶活性区)，在确定属于有义融合的情况下，再根据原癌基因的功能区的表达量是否过量，以及原癌基因5’端与3’端的表达量存在显著差异而确定上述有义融合是否属于融合突变阳性。该方法综合DNA信息和RNA信息，逐层递进式检测，提高了融合突变检测的准确性，降低了假阳性。同时通过整合多维度的融合特征，建立了判断融合基因的决策树，进而实现高灵敏度高准确性的肿瘤组织基因融合突变检测。

上述方法中，已知融合突变类型可以根据现有公开的相关融合基因的类型进行总结整理获得。具体地，比如，可以通过已发表文献或COSMIC(Catalogue of SomaticMutations in Cancer)，TCGA(The Cancer Genome Atlas)等数据库搜集29个跟癌症相关基因，并从NCBI(National Center for Biotechnology Information)的GenBank板块下载这些基因相关的常见融合RNA产物序列。具体所使用的已知融合突变类型可以根据实际需要进行合理选择，本申请中并不做具体限定。

在本申请一种优选的实施例中，在从转录本水平上检测待测样本是否符合已知融合突变类型之前，上述方法还包括获取已知融合突变类型。更优选地，获取已知融合突变类型包括：通过将已知的热点融合RNA产物序列与人类参考基因组序列进行比对，找到每个热点融合RNA产物序列上对应的断点位置，从而获得已知融合突变类型。便于根据实际需要检测的融合突变类型，先将已知的通过该步骤直接检测出来，或者明确不属于已知融合突变类型。

在本申请一种优选的实施例中，从转录本水平上检测待测样本是否符合已知融合突变类型包括：将待测样本的RNA测序数据与热点融合RNA产物序列进行比对，得到第一split read集和第一discordant read集；分别统计第一split read集中split read的个数t1和第一discordant read集中discordant read的个数t2，t1和t2分别为≥0的整数；当t1+t2≥2，则判定待测样本符合已知融合突变类型，否则，不符合。

如前述，split read和discordant read都是覆盖断点位置的测序序列，因此，这两种类型的序列中，只要有两条能够支持所覆盖的断点，则可以判定该断点位置是真实的融合位置，无论是任意一种的序列数大于等于两条，还是每种类型的序列各有一条以上。

为了使上述两种类型的序列的个数统计更准确，从而使融合检测结果也更准确，在本申请一种优选的实施例中，在统计split read的个数t1时，还包括从第一split read集中去除不合格的split read，其中，不合格的split read指第一split read集中断点位置距离序列端点的长度小于mbp的split read，序列端点指split read的5’端和3’端中与断点位置最近的一端，m为≥10的自然数。

当断点位置距离序列的一端短于上述阈值(mbp)时，有可能是比对导致的错误，或者其他原因导致的错误，因而不能确定是融合突变导致的断裂序列，去除该类序列有助于降低假阳性，提高检测准确性。需要说明的是，此处的阈值m的最小值为10，对最大值并不限定，但最多也只能是相应split read一半的长度，此时，断点位置位于该split read的中间。

同理，对于discordant read，也存在其他原因导致的错误，比如，当discordantread的两端在已知的热点融合RNA产物序列上的物理距离远远大于(比如插入片段为240bp，而两端的距离为1000bp)其实际文库中的插入片段的长度时，是明显不合理的序列，因而需要删除来减少对检测结果的干扰。在本申请一种优选的实施例中，在统计discordant read的个数t2时，还包括从第一discordant read集中去除不合格discordantread；其中，不合格discordant read 指第一discordant read集中5’端和3’端在热点融合RNA产物序列上的距离超过dbp的discordant read，d为自然数且120≤d≤800。

前述在检测待测样本是否存在潜在融合时，只要符合(a)和(b)的条件之一即判定为存在潜在融合。其中，(a)是基于RNA测序数据从转录本水平上检测是否存在与已知融合突变类型不同的未知融合突变，RNA测序检测的融合是可能表达出蛋白的。(b)是基于DNA测序数据从基因组水平上(包含intron区，因而可能检测到断点位置在intron区的融合突变)。RNA测序数据和DNA测序数据在融合基因检测的步骤上基本相似。

在本申请一种优选的实施例中，当潜在融合涉及(a)原癌基因在转录本水平上存在未知融合时，检测待测样本是否存在潜在融合包括：将待测样本的RNA测序数据与人类参考基因组进行比对；提取not proper pair reads及soft-clip reads，分别作为第二discordant read集和第二split read集；分别统计第二split read集中split read的个数t3和第二discordant read集中discordant read的个数t4，t3和t4分别为≥0的整数；当t3+t4≥2，则判定待测样本存在潜在融合，否则，不存在。

在本申请一种优选的实施例中，当潜在融合涉及(b)原癌基因在基因组水平上存在结构融合时，检测待测样本是否存在潜在融合包括：将待测样本的DNA测序数据与人类参考基因组进行比对；提取not proper pair reads及soft-clip reads，分别作为第三discordant read集和第三split read集；分别统计第三split read集中split read的个数t5和第三discordant read集中discordant read的个数t6，t5和t6分别为≥0的整数；当t5+t6≥2，则判定待测样本存在潜在融合，否则，不存在。

上述两种优选的实施例中，由于在已知融合突变类型的热点融合RNA产物序列上未检测到已知融合突变，因而需要进一步比对到人类参考基因组上来判断是否存在潜在融合。具体的判断方法与前述的已知融合突变类型的判断方法相似，都是统计split read和discordant read的个数之和是否大于等于2。不同之处在于，这两类序列在比对到人类参考基因组上时需要采用BWA-MEM模式或类似的带有soft-clip功能的比对软件来进行比对。

由于本申请所检测的融合突变是指涉及融合伴侣基因与原癌基因的融合，且这种融合能够对原癌基因的功能区进行过激活导致过表达，同时这种融合在功能区不发生表达框移码，因而不影响功能区的活性。这种融合在本申请中称为有义融合，否则称为无义融合。因此，即使检测到了潜在融合，还需要判断是否为有义融合。而有义融合在基因组水平上需要保持发生融合的两个基因在基因组上的方向保持一致，同样，也需要保持功能区不发生移码突变，这样原癌基因才能受到融合伴侣基因的强启动子的影响而发生过表达。

在本申请一种优选的实施例中，针对RNA测序数据，检测潜在融合是否为有义融合包括：检测潜在融合是否属于第一异常融合，第一异常融合指原癌基因与融合伴侣基因的方向不一致的融合，和/或断点处的密码子框发生移码现象的融合，若不属于，则潜在融合为有义融合。

在本申请一种优选的实施例中，针对DNA测序数据，检测潜在融合是否为有义融合包括：检测潜在融合是否属于第二异常融合，第二异常融合指原癌基因与融合伴侣基因的方向不一致的融合。

上述在检测确定属于有义融合的情况下，为进一步提高检测的准确性，通过表达量异常与否的检测，能够进一步确定在判定为有义融合的情况下，是否存在真实的显著过量表达量，若真实存在，则发生前述潜在融合为真实的，即可确认属于融合突变阳性。

在表达量检测时，会涉及捕获测序数据的标准化的步骤，但现有的标准化的方法应用于捕获测序的数据时，容易是的表达量检测结果不准确。如前述，捕获测序由于其片段化的模式，并不适用与像FPKM/RPKM这是对长度标准化的方式，而仅考虑测序深度影响的RPM的标准化方法又不够全面，因此，本申请在另一种典型的实施例中，提供了一种新的表达量标准化方法nRPM。下面结合实施例介绍下该方法。

在一种优选实施例中，还提供一种转录组数据表达量的标准化的方法包括：获取包括待测基因和内参基因的转录组测序数据，内参基因有多个；获取预设的多个内参基因的标准RPM值，标准RPM值根据多次预实验计算得到；计算转录组测序数据中每个内参基因的RPM值与标准RPM值的比值，得到多个比值；将转录组测序数据中每个待测基因的RPM值除以多个比值的中位数，从而获得每个待测基因的标准化的RPM值，即nRPM值。该方法更适合捕获测序数据的标准化，能够使表达量的统计相对更准确，进而对过表达与否的判定也相对更准确，从而使检测结果更准确。

基于上述改进的表达量标准化的方法，本申请进一步对表达量异常与否进行了检测。在本申请一种优选的实施例中，检测原癌基因是否存在表达量异常包括：建立阴性样本的RNA表达基线，表达基线包括基因水平上的表达基线和外显子水平上的表达基线；检测待测样本的原癌基因在基因水平上的Z值是否大于阴性样本基因水平上的表达基线，当大于，则将原癌基因的功能区过量判断为过表达，优选阴性样本基因水平上的表达基线为阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；检测待测样本的原癌基因在每个外显子水平上的Z值；绘制原癌基因在全部外显子水平上的Z值的趋势曲线；比较原癌基因的5’端的的Z值与3’端的外显子的Z值的差值，当差值大于阴性样本在外显子水平上的表达基线时，则判定原癌基因在5’端和3’端的表达量存在显著差异；优选地，将阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值记作M，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差记作N，则所述阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

上述表达量异常，通过从基因层面和外显子层面两个层面上都确认存异常表达时，才将待测样本的潜在融合判定为阳性融合突变，这种判定标准大大降低了假阳性结果。

需要说明的是，本申请中的阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M，根据具体Z值的不同而不同，可以是整数或小数，可以是正数或负数。而阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N是一个非负数，具体数值根据各具体Z值的不同而不同。

在本申请一种优选的实施例中，建立阴性样本的RNA表达基线包括：获取多个阴性样本与人类参考基因组的比对结果；计算每个阴性样本的每个外显子上的nRPM值及每个外显子上的nRPM第一均值和第一方差，每个外显子上的nRPM值为每个外显子的RPM值与内参基因的表达量的中位数的比值；根据第一均值和第一方差计算每个阴性样本的外显子水平上的Z值，进而获得阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M和5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N，将将M+n×N作为阴性样本在外显子水平上的表达基线，n为2～4的自然数；计算每个阴性样本的每个基因上的nRPM值及每个基因上的nRPM第二均值和第二方差，每个基因上的nRPM值为每个基因的RPM值与内参基因的表达量的中位数的比值；根据第二均值和所第二方差计算每个阴性样本的基因水平上的Z值，将阴性样本的多个基因水平上的Z值中的第x百分位数作为阴性样本在基因水平上的表达基线，x为90～100的自然数；优选地，内参基因的表达量的中位数通过如下方法获得：选取多个内参基因，并通过试验确定每个内参基因的标准RRM值；计算每个内参基因测序获得的RPM值与标准RPM值的比值，得到多个比值；多个比值的中位数即为内参基因的表达量的中位数。

捕获测序由于其片段化的模式，并不适用与像FPKM/RPKM这是对长度标准化的方式，而仅考虑测序深度影响的RPM的标准化方法又不够全面，因此，本申请中所采用的新的表达量标准化方法nRPM，能够使表达量的统计相对更准确，进而对过表达与否的判定也相对更准确，从而使检测结果更准确。

如前述发明分析的，现有的DNA测序数据在检测融合突变时，所构建的DNA文库的插入片段的长度通常较短，经常很难判断原癌基因融合了哪个基因的启动子，是否为强启动子。因此即使能够准确地检测到DNA层面上的突变，也很有可能无法在功能上准确判定这种融合是否会造成原癌基因的过激活。

为便于能够进行上述判断，在本申请一种优选的实施例中，待测样本的DNA测序数据由待测样本的DNA文库经高通量测序得到，优选DNA文库通过如下方法构建而成：提取待测样本的基因组DNA；将基因组DNA打断成250～500bp的片段；将250～500bp的片段构建成全基因组文库；利用DNA文库探针对全基因组文库中的靶向片段进行捕获富集，获得DNA文库。

通过将DNA打断的长度长于常规DNA文库的长度(150～200bp)，在一定程度上能够获得涵盖融合断点位置两端的侧翼序列(如前述的discordant read)，而该类序列有助于判断原癌基因及其融合伴侣基因。上述DNA的打断可以通过酶切或机械打断等方式实现。

在本申请一种优选的实施例中，RNA文库构建的步骤包括：提取待测样本的总RNA；构建全部转录本文库；利用RNA文库探针对全部转录本文库中的靶向片段进行捕获富集，获得RNA文库。

需要说明的是，上述DNA或总RNA的提取可以分别提取，也可以使用核酸共提试剂盒同时提取，在本申请一种优选的实施例中，在提取待测样本的基因组DNA或总RNA的步骤中，对待测样本的基因组DNA和总RNA进行共提取；优选采用核酸共提试剂盒进行共提取。更优选的，采用临床样本所使用的核酸共提试剂盒。此外，本申请中的起始材料的DNA和RNA来自于肿瘤组织，包括手术穿刺获得的肿瘤组织和胸水、腹水等体液肿瘤细胞。

在本申请一种优选的实施例中，DNA文库探针和RNA文库探针各自分别包括覆盖了已知的融合热点基因的全部外显子区域的探针以及覆盖融合热点基因与融合伴侣基因的基因组融合区域的探针，其中，覆盖融合热点基因与融合伴侣基因的基因组融合区域的探针包括跨断点的探针和断点两侧外显子的探针；优选地，探针为多重覆瓦式设计的探针。DNA文库探针和RNA文库探针采用多重覆瓦式设计，提高了捕获的效率，降低假阴性检出率。

综上所述，本申请实施提供的检测基因融合突变的方法实现了以下技术效果：

1)在建立已知热点融合突变类型数据库的情况下，能够针对转录本测序数据实现快速比对以及融合突变的快速检出。

2)同时检测DNA和RNA的信息，从而获得更全面的融合支持证据，提高检测的准确性，减低加阳性检出结果。

3)通过整合有义融合及原癌基因的功能区的过表达以及5’和3’端的差异表达等多维度的融合特征，建立了判断融合基因的决策树，进而实现高灵敏度高准确性的肿瘤组织基因融合突变检测。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种检测基因融合突变的装置，需要说明的是，本申请实施例的装置可以用于执行本申请实施例所提供的检测方法。以下对本申请实施例提供的装置进行介绍。

该装置包括：第一检测判定模块、第二检测判定模块、第三检测判定模块以及第四检测判定模块。

其中，第一检测判定模块，用于从转录本水平上检测待测样本是否符合已知融合突变类型，并在符合的情况下，将待测样本判定为融合突变阳性；

第二检测判定模块，用于在第一检测模块检测为不符合已知融合突变类型的情况下，检测待测样本是否存在潜在融合，潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合；并在不存在潜在融合的情况下，将待测样本判定为融合突变阴性；

第三检测判定模块，用于在第二检测模块检测为存在潜在融合的情况下，检测潜在融合是否为有义融合，并在非有义融合的情况下，将待测样本判定为融合突变阴性；

第四检测判定模块，用于在第三检测模块检测为是有义融合的情况下，检测原癌基因是否存在表达量异常，表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在表达量异常，则判定为融合突变阳性，否则判定为融合突变阴性。

上述检测基因融合突变的装置，通过依次执行第一检测判定模块、第二检测判定模块、第三检测判定模块以及第四检测判定模块，先检测待测样本是否属于已知同和突变类型，在确定不属于已知融合突变类型的情况下，再结合DNA测序数据和RNA测序数据判断是否存在潜在融合，若不存在，则可以判定待测样本为融合阴性；在确定存在潜在融合的情况下，再进一步判断这种融合是否属于有义融合；在确定属于有义融合的情况下，再根据原癌基因的功能区的表达量是否过量，以及原癌基因5’端与3’端的表达量存在显著差异而确定上述有义融合是否属于融合突变阳性。该装置通过整合多维度的融合特征，建立了判断融合基因的决策树，进而实现高灵敏度高准确性的肿瘤组织基因融合突变检测。

在本申请一种优选的实施例中，装置还包括已知融合突变类型获取模块，已知融合突变类型获取模块用于在第一检测判定模块从转录本水平上检测待测样本是否符合已知融合突变类型之前，获取已知融合突变类型。已知融合突变类型获取模块可以利用现有软件或者开发的软件，只要能够从现有公开的报道中获取相关融合基因的类型即可。比如，可以通过已发表文献或COSMIC(Catalogue of Somatic Mutations in Cancer)，TCGA(TheCancer Genome Atlas)等数据库搜集29个跟癌症相关基因，并从NCBI(National Centerfor Biotechnology Information)的GenBank板块下载这些基因相关的常见融合RNA产物序列。

在本申请一种优选的实施例中，已知融合突变类型获取模块包括：第一比对查找模块，用于通过将已知的热点融合RNA产物序列与人类参考基因组序列进行比对，找到每个热点融合RNA产物序列上对应的断点位置，从而获得已知融合突变类型。该模块能够根据实际需要检测的融合突变类型，先将已知的通过该步骤直接检测出来，或者明确不属于已知融合突变类型。

在本申请一种优选的实施例中，第一检测判定模块包括：第一比对模块，用于将待测样本的RNA测序数据与热点融合RNA产物序列进行比对，得到第一split read集和第一discordant read集；第一统计模块，用于分别统计第一split read集中split read的个数t1和第一discordant read集中discordant read的个数t2，t1和t2分别为≥0的整数；第一融合判定模块，用于在t1+t2≥2的情况下，判定待测样本符合已知融合突变类型，否则，判定为不符合已知融合突变类型。

为了使上述两种类型的序列的个数统计更准确，从而使融合检测结果也更准确，在本申请一种优选的实施例中，第一统计模块包括第一统计过滤模块，第一统计过滤模块，用于在统计split read的个数t1时，从第一split read集中去除不合格的split read，其中，不合格的split read指第一split read集中断点位置距离序列端点的长度小于mbp的split read，序列端点指split read的5’端和3’端中与断点位置最近的一端，m为≥10的自然数。

当断点位置距离序列的一端短于上述阈值(m)时，有可能是比对导致的碱基错误，或者其他原因导致的错误，因而不能确定是融合突变导致的断裂序列，因此，通过第一统计过滤模块去除该类序列有助于降低假阳性，提高检测准确性。

需要说明的是，本申请中的阈值m的最小值为10，对最大值并不限定，但最多也只能是相应split read一半的长度，此时，断点位置位于该split read的中间。

同理，对于discordant read，也存在其他原因导致的错误，比如，当discordantread的两端在已知的热点融合RNA产物序列上的物理距离远远大于(比如插入片段为240bp，而两端的距离为1000bp)其实际文库中的插入片段的长度时，是明显不合理的序列，因而需要删除来减少对检测结果的干扰。

因此，在本申请一种优选的实施例中，第一统计模块包括第二统计过滤模块，第二统计过滤模块，用于在统计discordant read的个数t2时，从第一discordant read集中去除不合格discordant read；其中，不合格discordant read指第一discordant read集中5’端和3’端在热点融合RNA产物序列上的距离超过dbp的discordant read，d为自然数且120≤d≤800。

前述的第二检测判定模块在检测待测样本是否存在潜在融合时，只要符合(a)和(b)的条件之一即判定为存在潜在融合。其中，(a)是基于RNA测序数据从转录本水平上检测是否存在与已知融合突变类型不同的未知融合突变，RNA测序检测的融合是可能表达出蛋白的。(b)是基于DNA测序数据从基因组水平上(包含intron区，因而可能检测到断点位置在intron区的融合突变)。RNA测序数据和DNA测序数据在融合基因检测的步骤上基本相似。

在本申请一种优选的实施例中，当潜在融合涉及(a)原癌基因在转录本水平上存在未知融合时，第二检测判定模块包括：第二比对模块，用于将待测样本的RNA测序数据与人类参考基因组进行比对；第一提取模块，用于提取not proper pair reads及soft-clipreads，分别作为第二discordant read集和第二split read集；第二统计模块，用于分别统计第二split read集中split read的个数t3和第二discordant read集中discordantread的个数t4，t3和t4分别为≥0的整数；第二融合判定模块，用于在t3+t4≥2的情况下，判定待测样本存在潜在融合，否则，判定为不存在潜在融合。

在本申请一种优选的实施例中，当潜在融合涉及(b)原癌基因在基因组水平上存在结构融合时，第二检测判定模块包括：第三比对模块，用于将待测样本的DNA测序数据与人类参考基因组进行比对；第二提取模块，用于提取not proper pair reads及soft-clipreads，分别作为第三discordant read集和第三split read集；第三统计模块，用于分别统计第三split read集中split read的个数t5和第三discordant read集中discordantread的个数t6，t5和t6分别为≥0的整数；第三融合判定模块，用于在t5+t6≥2的情况下，判定待测样本存在潜在融合，否则，判定为不存在潜在融合。

上述两种优选的实施例中，由于第一检测判断模块在已知融合突变类型的热点融合RNA产物序列上未检测到已知融合突变，因而需要进一步通过第二检测判断模块将相应的测序数据比对到人类参考基因组上来判断是否存在潜在融合。具体的判断方法与前述的已知融合突变类型的判断方法相似，都是统计split read和discordant read的个数之和是否大于等于2。不同之处在于，这两类序列在比对到人类参考基因组上时需要采用BWA-MEM模式或类似的带有soft-clip功能的比对软件来进行比对。

由于本申请所检测的融合突变是指涉及融合伴侣基因与原癌基因的融合，且这种融合能够对原癌基因的功能区进行过激活导致过表达，同时这种融合在功能区不发生表达框移码，因而不影响功能区的活性。这种融合在本申请中称为有义融合，否则称为无义融合。因此，即使第二检测判断模块检测到了潜在融合，还需要执行第三检测判定模块进一步判断是否为有义融合。而有义融合在基因组水平上需要保持发生融合的两个基因在基因组上的方向保持一致，同样，也需要保持功能区不发生移码突变，这样原癌基因才能受到融合伴侣基因的强启动子的影响而发生过表达。

在本申请一种优选的实施例中，第三检测判定模块包括：第一异常融合检测判定模块，用于检测潜在融合是否属于第一异常融合，第一异常融合指原癌基因与融合伴侣基因的方向不一致的融合，和/或断点处的密码子框发生移码现象的融合，若不属于，则潜在融合为有义融合。

在本申请一种优选的实施例中，第三检测判定模块包括：第二异常融合检测判定模块，用于检测潜在融合是否属于第二异常融合，第二异常融合指原癌基因与融合伴侣基因的方向不一致的融合。

在本申请一种优选的实施例中，第四检测判定模块包括：阴性表达基线建立模块，用于建立阴性样本的RNA表达基线，表达基线包括基因水平上的表达基线和外显子水平上的表达基线；第一表达量检测模块，用于检测待测样本的原癌基因在基因水平上的Z值；第一比较模块，用于比较原癌基因在基因水平上的Z值是否大于阴性样本基因水平上的表达基线，当大于，则将原癌基因的功能区过量判断为过表达，优选阴性样本基因水平上的表达基线为阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；第二表达量检测模块，用于检测待测样本的原癌基因在每个外显子水平上的Z值；Z值趋势曲线绘制模块，用于绘制原癌基因在全部外显子水平上的Z值的趋势曲线；第二比较模块，用于比较原癌基因的5’端的外显子的Z值与3’端的外显子的Z值的差值，当差值大于阴性样本在外显子水平上的表达基线时，则判定原癌基因在5’端和3’端的表达量存在显著差异；优选地，将阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值记为M，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差记为N，则阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

第一表达量检测模块和第二表达量检测模块通过采用新的适用于捕获测序数据的标准化方法的模块来检测表达量异常，分别利用第一比较模块和第二比较模块从基因层面和外显子层面两个层面上都确认存异常表达时，才将待测样本的潜在融合判定为阳性融合突变，这种判定标准大大降低了假阳性结果。

在本申请一种优选的实施例中，阴性表达基线建立模块包括：第一获取模块，用于获取多个阴性样本与人类参考基因组的比对结果；第一计算模块，计算每个阴性样本的每个外显子上的nRPM值及每个外显子上的nRPM第一均值和第一方差，每个外显子上的nRPM值为每个外显子的RPM值与内参基因的表达量的中位数的比值；第一定义模块，用于根据第一均值和所第一方差计算每个外显子水平上的Z值，进而获得阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M和5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N，将M+n×N作为阴性样本在外显子水平上的表达基线，n为2～4的自然数；第二计算模块，用于计算每个阴性样本的每个基因上的nRPM值及每个基因上的nRPM第二均值和第二方差，每个基因上的nRPM值为每个基因的RPM值与内参基因的表达量的中位数的比值；第二定义模块，用于根据第二均值和所第二方差计算每个阴性样本的基因水平上的Z值，将阴性样本的多个基因水平上的Z值中的第x百分位数作为阴性样本在基因水平上的表达基线，x为90～100的自然数。

更优选地，内参基因的表达量的中位数通过执行如下内参中位数模块获得，内参中位数模块包括：选取实验模块，用于选取多个内参基因，并通过试验确定每个内参基因的标准RRM值；比值计算模块，用于计算每个内参基因测序获得的RPM值与标准RPM值的比值，得到多个比值；第三定义模块，用于将多个比值的中位数作为内参基因的表达量的中位数。

捕获测序由于其片段化的模式，并不适用与像FPKM/RPKM这是对长度标准化的方式，而仅考虑测序深度影响的RPM的标准化方法又不够全面，因此，本申请上述阴性表达基线建立模块中各模块采用的新的表达量标准化方法nRPM，能够使表达量的统计相对更准确，进而对过表达与否的判定也相对更准确，从而使检测结果更准确。

需要说明的是，本申请中所提到的内参基因的具体数量和种类可以根据实际需要进行合理选择，本申请中优选采用看家基因作为内参基因。

上述检测基因融合突变的装置包括处理器和存储器，上述模块、模块、模块以及模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对基因融合突变进行有效检测。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现检测基因融合突变的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行检测基因融合突变的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：从转录本水平上检测待测样本是否符合已知融合突变类型；如符合，则判定为融合突变阳性；若不符合，则检测待测样本是否存在潜在融合，潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合；若不存在，则判定为融合突变阴性；若存在，则检测所述潜在融合是否为有义融合，若非有义融合，则判定为融合突变阴性；若存在有义融合，则检测原癌基因是否存在表达量异常，表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在，则判定为融合突变阳性，否则判定为融合突变阴性。

可选的，在从转录本水平上检测待测样本是否符合已知融合突变类型之前，上述方法还包括获取已知融合突变类型。更优选地，获取已知融合突变类型包括：通过将已知的热点融合RNA产物序列与人类参考基因组序列进行比对，找到每个热点融合RNA产物序列上对应的断点位置，从而获得已知融合突变类型。

可选的，从转录本水平上检测待测样本是否符合已知融合突变类型包括：将待测样本的RNA测序数据与热点融合RNA产物序列进行比对，得到第一split read集和第一discordant read集；分别统计第一split read集中split read的个数t1和第一discordant read集中discordant read的个数t2，t1和t2分别为≥0的整数；当t1+t2≥2，则判定待测样本符合已知融合突变类型，否则，不符合。

可选的，在统计split read的个数t1时，还包括从第一split read集中去除不合格的split read，其中，不合格的split read指第一split read集中断点位置距离序列端点的长度小于mbp的split read，序列端点指split read的5’端和3’端中与断点位置最近的一端，m为≥10的自然数。

可选的，在统计discordant read的个数t2时，还包括从第一discordant read集中去除不合格discordant read；其中，不合格discordant read指第一discordant read集中5’端和3’端在热点融合RNA产物序列上的距离超过dbp的discordant read，d为自然数且120≤d≤800。

可选的，当潜在融合涉及(a)原癌基因在转录本水平上存在未知融合时，检测待测样本是否存在潜在融合包括：将待测样本的RNA测序数据与人类参考基因组进行比对；提取not proper pair reads及soft-clip reads，分别作为第二discordant read集和第二split read集；分别统计第二split read集中split read的个数t3和第二discordantread集中discordant read的个数t4，t3和t4分别为≥0的整数；当t3+t4≥2，则判定待测样本存在潜在融合，否则，不存在。

可选的，当潜在融合涉及(b)原癌基因在基因组水平上存在结构融合时，检测待测样本是否存在潜在融合包括：将待测样本的DNA测序数据与人类参考基因组进行比对；提取not proper pair reads及soft-clip reads，分别作为第三discordant read集和第三split read集；分别统计第三split read集中split read的个数t5和第三discordantread集中discordant read的个数t6，t5和t6分别为≥0的整数；当t5+t6≥2，则判定待测样本存在潜在融合，否则，不存在。

可选的，检测潜在融合是否为有义融合包括：检测潜在融合是否属于第一异常融合，第一异常融合指原癌基因与融合伴侣基因的方向不一致的融合，和/或断点处的密码子框发生移码现象的融合，若不属于，则潜在融合为有义融合。

可选的，检测潜在融合是否为有义融合包括：检测潜在融合是否属于第二异常融合，第二异常融合指原癌基因与融合伴侣基因的方向不一致的融合。

可选的，检测原癌基因是否存在表达量异常包括：建立阴性样本的RNA表达基线，表达基线包括基因水平上的表达基线和外显子水平上的表达基线；检测待测样本的原癌基因在基因水平上的Z值是否大于阴性样本基因水平上的表达基线，当大于，则将原癌基因的功能区过量判断为过表达，优选阴性样本基因水平上的表达基线为阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；检测待测样本的原癌基因在每个外显子水平上的Z值；绘制原癌基因在全部外显子水平上的Z值的趋势曲线；比较原癌基因的5’端的外显子的Z值与3’端的外显子的Z值的差值，当差值大于阴性样本在外显子水平上的表达基线时，则判定原癌基因在5’端和3’端的表达量存在显著差异；优选地，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值为M，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差为N，则阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

可选的，建立阴性样本的RNA表达基线包括：获取多个阴性样本与人类参考基因组的比对结果；计算每个阴性样本的每个外显子上的nRPM值及每个外显子上的nRPM第一均值和第一方差，每个外显子上的nRPM值为每个外显子的RPM值与内参基因的表达量的中位数的比值；根据第一均值和第一方差计算每个阴性样本的外显子水平上的Z值，进而获得阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M和5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N，将M+n×N作为阴性样本在外显子水平上的表达基线，n为2～4的自然数；计算每个阴性样本的每个基因上的nRPM值及每个基因上的nRPM第二均值和第二方差，每个基因上的nRPM值为每个基因的RPM值与内参基因的表达量的中位数的比值；根据第二均值和所第二方差计算每个阴性样本的基因水平上的Z值，将阴性样本的多个基因水平上的Z值中的第x百分位数作为阴性样本在基因水平上的表达基线，x为90～100的自然数；优选地，内参基因的表达量的中位数通过如下方法获得：选取多个内参基因，并通过试验确定每个内参基因的标准RRM值；计算每个内参基因测序获得的RPM值与标准RPM值的比值，得到多个比值；多个比值的中位数即为内参基因的表达量的中位数。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：从转录本水平上检测待测样本是否符合已知融合突变类型；如符合，则判定为融合突变阳性；若不符合，则检测待测样本是否存在潜在融合，潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合；若不存在，则判定为融合突变阴性；若存在，则检测所述潜在融合是否为有义融合，若非有义融合，则判定为融合突变阴性；若存在有义融合，则检测原癌基因是否存在表达量异常，表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在，则判定为融合突变阳性，否则判定为融合突变阴性。

可选的，检测原癌基因是否存在表达量异常包括：建立阴性样本的RNA表达基线，表达基线包括基因水平上的表达基线和外显子水平上的表达基线；检测待测样本的原癌基因在基因水平上的Z值是否大于阴性样本基因水平上的表达基线，当大于，则将原癌基因的功能区过量判断为过表达，优选阴性样本基因水平上的表达基线为阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；检测待测样本的原癌基因在每个外显子水平上的Z值；绘制原癌基因在全部外显子水平上的Z值的趋势曲线；比较原癌基因的5’端的外显子的Z值与3’端的外显子的Z值的差值，当差值大于阴性样本在外显子水平上的表达基线时，则判定原癌基因在5’端和3’端的表达量存在显著差异，则阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值为M，阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差为N，则阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

下面将结合更具体的实施例来进一步说明本申请的有益效果。

实施例1

一、DNA/RNA的共提

可采用市面上商品化的试剂盒完成。

1RNA质控

1.1提取的RNA首先用Qubit RNA HS对浓度进行测定。

1.2RNA稀释到5ng/ul以下，使用Agilent RNA Pico 6000对RNA的完整性进行评估，记录其RIN值及DV200(％)。

2DNA质控

2.1浓度测量：使用Qubit对提取的DNA进行定量

二、RNA文库构建

建库起始量为100ng total RNA，采用先去除rRNA，再对剩余的total RNA进行文库构建。详述如下：

2.1rRNA去除及片段化

rRNA的去除采用比较常规的探针结合法，具体如下：

2.1.1RNA样品与探针杂交

向RNA中加入特异性结果rRNA的DNA探针。

表1：反应体系

试剂	体积
		rRNA探针(H/M/R)	1μL
探针缓冲液	3μL
		总RNA	11μL
总体积	15μL

探针缓冲液和探针可预先在EP管中混匀，加入总RNA后，再吹打混匀。然后按以下反应进行(见表2)。

表2：反应条件

温度	时间
		95℃	2min
95-22℃	0.1℃/sec
		22℃	5min
4℃	∞

该步将PCR仪热盖温度设为105℃。

2.1.2RNase H消化

对结合了rRNA的DNA-RNA杂交链使用RNase H进行消化，去除掉rRNA。

在冰上制备表3所示反应体系：

表3：

试剂	体积
		RNase H Buffer	4μL
RNase H	1μL
		上一步产物	15μL
总体积	20μL

RNase H Buffer和RNase H酶可预先在离心管中配制成mix，加入到上一步产物中，吹打混匀后按以下条件进行反应。

表4：反应条件

温度	时间
		37℃	30min
4℃	∞

热盖设置为105℃。反应结束后，立即进行下一步。

2.1.3DNase I消化

将DNA探针用DNase I进行消化。

在冰上配制如下反应体系：

表5：

试剂	体积
		DNase I Buffer	29μL
DNase I	1μL
		RNase H消化产物	20μL
总体积	50μL

吹打混匀后按以下条件进行反应：

表6：

温度	时间
		37℃	30min
4℃	∞

2.1.4纯化去除rRNA后的RNA并片段化

2.1.4.1在上一步反应体系中加入110ul Agencourt RNAClean XP纯化磁珠，充分涡旋振荡，轻微离心。

2.1.4.2冰上吸附15分钟，使RNA与磁珠充分结合。EP管放至磁力架至液体澄清，缓慢弃上清。

2.1.4.3加入200μL无酶水新鲜配制的80％乙醇，孵育30秒，缓慢丢弃EP管中的乙醇上清。

2.1.4.4重复用乙醇清洗一次。

2.1.4.5EP管室温干燥3-5分钟至乙醇完全挥发。

2.1.4.6从磁力架取下EP管，加入18.5μL片段化Buffer，涡旋振荡，室温孵育2分钟洗脱RNA。

2.1.4.7待溶液澄清后，小心吸取16ul上清至一个新的Nuclease-free离心管中。

2.1.4.8将样本置于PCR仪中，根据RNA样本本身的质量以及插入片段大小的需要，选择片段化条件和时间：

表7：

插入片段大小(bp)	温度和时间
		150-200	94℃8min
200-300	94℃5min
		250-450	85℃6min
450-550	85℃5min

2.2双链cDNA合成

2.2.1第一条cDNA链的合成

我们想建成链特异性的文库，故在第一链合成时需要用到Actinomycin D，其储存液为5mg/ml，使用浓度为0.5mg/ml，需将原液用nuclease-free水稀释，现用现配。按如下反应体系进行双链cDNA的合成：

表8：

吹打混匀后按如下程序进行反应：

表9：

温度	时间
		25℃	10min
42℃	15min
		70℃	15min
4℃	∞

热盖温度设置为105℃，反应结束后立即进行下一步。

2.2.2第二链cDNA的合成

在PCR管中配制第二链cDNA合成的反应液：

表10：

试剂	体积
		1st strand cDNA	25μL
2nd Strand Marking Buffer	20μL
		2nd Strand/End Repair Enzyme Mix	5μL
总体积	50μL

吹打混匀后按如下程序进行反应：

表11：

温度	时间
		16℃	60min
4℃	∞

注意：此步热盖为30℃。

反应结果后继续进行下一步(注：该步合成的产物可在4℃暂存1小时)。

2.2.3双链cDNA纯化

2.2.3.1在上一步反应体系中加入90ul Agencourt AMPure XP纯化磁珠，充分涡旋振荡，轻微离心。

2.2.3.2室温孵育10分钟，使双链DNA与磁珠充分结合。将样本管放至磁力架至液体澄清，缓慢弃上清。

2.2.3.3加入200μL新鲜配制的80％乙醇，孵育30秒，缓慢丢弃EP管中的乙醇上清。

2.2.3.4重复用80％乙醇清洗一次。

2.2.3.5EP管室温干燥3-5分钟至乙醇完全挥发。

2.2.3.6从磁力架取下EP管，加入20μL无酶水，涡旋振荡，室温孵育2分钟洗脱DNA。

2.2.3.7待溶液澄清后，小心吸取17.5ul上清至一个新的Nuclease-free PCR管中。

注：洗脱产物可在-20℃暂存24小时。

2.3末端dA-Tailing

反应体系：表12：

试剂	体积
		末端修复的ds cDNA	17.5μL
dA-Tailing Buffer	10μL
		dA-Tailing Enzyme Mix	2.5μL
总体积	30μL

Buffer和酶应预先在EP管中混匀，与DNA涡旋混匀后按以下反应进行。

反应条件：表13：

温度	时间
		37℃	30min
70℃	5min
		4℃	∞

该步将PCR仪热盖温度设为105℃。

dA-Tailing产物可在4℃暂存1小时。

2.4连接接头

该步使用的接头为IDT 384，根据优化推荐，100ng RNA使用37.5uM接头。按照下表配制反应体系：表14：

试剂	体积
		反应产物	30μL
Ligation Mix	2.5μL
		IDT adapter(15uM)	2.5μL
总体积	35μL

移液器吹打混匀，此反应的试剂应逐一加入，不可提前配制成mix。

在PCR仪中进行如下连接反应：

表15：

温度	时间
		30℃	10min
4℃	∞

热盖温度为105℃，反应结束后立即进行连接终止反应。

2.5终止连接反应

表16：

试剂	体积
		连接产物	35μL
Stop Ligation Mix	5μL
		总体积	40μL

吹打混匀，终止连接反应。

2.6连接产物接头

2.6.1在上一步反应体系中加入40ul Agencourt AMPure XP纯化磁珠，充分涡旋振荡，轻微离心。

2.6.2室温吸附10分钟，使DNA与磁珠充分结合。EP管放至磁力架至液体澄清，缓慢弃上清。

2.6.3加入200μL 80％乙醇，孵育30秒，缓慢丢弃EP管中乙醇。

2.6.4重复用乙醇清洗一次。

2.6.5EP管室温干燥3-5分钟至乙醇完全挥发。

2.6.6从磁力架取下EP管，加入52.5μL无酶水，涡旋振荡，室温孵育2分钟洗脱DNA。

2.6.7将EP管放到磁力架上至液体澄清，吸取50ul上清至新的EP管。

2.6.8向EP管中再加入50ulAgencourt AMPure XP纯化磁珠，充分涡旋振荡，轻微离心，进行第二次的纯化。

2.6.9室温静置10分钟，使DNA与磁珠充分结合。EP管放至磁力架至液体澄清，缓慢弃上清。

2.6.10加入200μL 80％乙醇，孵育30秒，缓慢丢弃EP管中乙醇。

2.6.11重复用乙醇清洗一次。

2.6.12EP管室温干燥3-5分钟至乙醇完全挥发。

2.6.13从磁力架取下EP管，加入21.5μL无酶水，涡旋振荡，室温孵育2分钟洗脱DNA。

2.6.14将EP管放到磁力架上至液体澄清，吸取19ul上清至新的EP管。

2.7文库扩增

按照下表配制PCR体系

表17：

试剂	体积
		纯化后的接头连接产物	19ul
PCR Primer Mix	5μL
		Amplification Mix 1	25μL
Heat-labile UDG	1μL
		总体积	50μL

充分震荡后快速离心，按照下表条件进行PCR反应。

表18：

热盖105℃，扩增产物可在4℃暂存1小时。

2.8文库纯化

2.8.1在上一步反应体系中加入50ul Agencourt AMPure XP纯化磁珠，充分涡旋振荡，轻微离心。

2.8.2室温吸附10分钟，使DNA与磁珠充分结合。EP管放到磁力架上至液体澄清，缓慢弃上清。

2.8.3加入200μL 80％乙醇，孵育30秒，缓慢丢弃EP管中乙醇。

2.8.4重复用乙醇清洗一次。

2.8.5EP管室温干燥3-5分钟至乙醇完全挥发。

2.8.6从磁力架取下EP管，加入25μL超纯水，涡旋振荡，室温孵育2分钟洗脱DNA。

2.8.7将EP管放至磁力架上吸附至液体澄清，吸取22.5ul上清转移至新的EP管，取1μL测文库DNA浓度，剩余的即为所得文库。

2.8.8文库浓度稀释至5ng/ul后进行Agilent 2100文库质控。

3.捕获

3.1文库捕获

3.1.1按下表要求依次加入试剂于新的1.5ml离心管中：

表19：

组分	加入量
		DNA文库混合样品	1μg
UBO	2.5ul
		COT DNA	5μl

根据文库个数计算样本量，若1个捕获样本加入10个文库，则每个文库需加入100ng。

3.1.2用移液器吹打混匀，封口膜封住EP管，在膜上插若干小孔，用真空离心浓缩仪在60℃、1350r/min下进行干燥，直至液体完全蒸干。

3.1.3待液体蒸干后，加入如下组分：

表20：

组分	加入量(μl)
		2×杂交缓冲液	7.5
杂交组分A	3
		合计	10.5

3.1.4涡旋震荡混匀，短暂离心以去除管壁残留。于恒温金属浴仪95℃孵育10分钟使DNA变性，短暂离心以去除管壁残留。

3.1.5用移液器将杂交混合液转移至新的PCR管中，加入4.5μl探针，涡旋震荡混匀，短暂离心以去除管壁残留。于PCR仪47℃孵育16～20小时，同时PCR仪加热盖温度设置为57℃以上。

3.2捕获产物的漂洗

3.2.1按下表稀释洗脱缓冲液：

表21：

组分	超纯水加入量(μl)
		30μl-10×洗脱缓冲液I	270
20μl-10×洗脱缓冲液II	180
		20μl-10×洗脱缓冲液III	180
40μl-10×洗脱缓冲液IV	360
		200μl-2.5×磁珠洗脱缓冲液	300

3.2.2吸取100μl 1×洗脱缓冲液I和400μl 1×洗脱缓冲液IV在47℃预热至少2小时。捕获磁珠室温放置30分钟后使用。

3.2.3取100μl捕获磁珠于新的1.5ml离心管中，将EP管放至磁力架上吸附至液体澄清，用移液器吸去上清。

3.2.4从磁力架上取下离心管，加入200μl 1×磁珠洗脱缓冲液，涡旋震荡混匀。将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.2.5重复一次上述步骤。

3.2.6向离心管加入100μl 1×磁珠洗脱缓冲液，涡旋震荡混匀。将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.2.7将15μl捕获产物加入到磁珠离心管中，用移液器吹打混匀，于47℃孵育45分钟。每间隔15分钟涡旋震荡3秒，使磁珠处于悬浮状态。

3.2.8离心管中加入100μl 47℃预热的1×洗脱缓冲液I，涡旋震荡混匀。

3.2.9将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.2.10从磁力架上取下离心管，加入200μl 47℃预热的1×洗脱缓冲液IV，用移液器吹打混匀。于恒温金属浴仪47℃孵育5分钟。

3.2.11重复一次上述步骤。

3.2.12将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.2.13从磁力架上取下离心管，每个离心管中分别依次加入200μl未加热的1×洗脱缓冲液I，涡旋震荡2分钟。将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.2.14从磁力架上取下离心管，每个离心管中分别依次加入200μl 1×洗脱缓冲液II，涡旋震荡1分钟。将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.2.15从磁力架上取下离心管，每个离心管中分别依次加入200μl 1×洗脱缓冲液III，涡旋震荡30秒。将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.2.16从磁力架上取下离心管，加入40μl水，用移液器吹打混匀。

3.3捕获产物扩增

3.3.1在上述40ul混合液中加入如下组分：

表22：

组分	加入量(μl)
		2×HiFi热启动酶缓冲液	50
Post-PCR引物	10
		合计	60

3.3.2涡旋震荡混匀，按50μl/管分装量分装到两个新的PCR管中，按以下反应程序扩增：

表23：

注：扩增后的产物可于2～8℃保存，但不超过72小时。

3.4捕获产物纯化

3.4.1将100μl扩增产物转移至新的1.5ml离心管中，加入180μl纯化磁珠，涡旋震荡混匀。室温静置15分钟。

3.4.2将EP管放至磁力架吸附至液体澄清，用移液器吸去上清。

3.4.3向离心管中加入200μl 80％乙醇，室温静置30秒，用移液器吸去上清。

3.4.4重复一次上述步骤，室温静置3～5分钟至乙醇完全挥发。

3.4.5从磁力架取下EP管，加入52μL超纯水，涡旋振荡，室温孵育2分钟洗脱DNA。

3.4.6将EP管放至磁力架吸附至液体澄清，上清转移50ul至新的EP管，即为所得捕获后产物取1μL测DNA浓度。

三、DNA文库构建

建库起始量为大于50ng组织基因组DNA。详述如下：

1.1DNA的片段化

1.1.1使用Covaris打断基因组DNA。通过调节合适的功率保证打断片段的平均长度畅预200bp。

如，50ul的covaris管子，设置Duty Factor10％，Cycles Per Burst200，打断时间100s，温度20℃。

DNA的片段分布图如图2，平均长度在250～500bp范围内。

1.2末端补平悬A(使用KAPA Hyper Prep Kit，见下表)：

表24：

反应条件见表25：

1.3接头连接(使用KAPA Hyper Prep Kit，见表26)：

表26：

反应条件：20℃30分钟。连接后用0.8xSPRI纯化

1.4连接后扩增体系见表27：

表27：

反应条件见表28：

表28：

1.5文库杂交捕获

文库杂交：将文库等比例混合成总量1μg，加入5μg人Cot-1DNA和5μl通用阻断寡核苷酸(UBO)后，在真空干燥仪中蒸干；干燥产物中加入7.5μL 2×Hybridization Buffer和3μL Hybridization Component A(vial 6)，混匀后95℃变性，加入4.5μl探针，47℃杂交16小时。

杂交的清洗和洗脱：按照说明书，用链霉亲和素磁珠与杂交体系孵育结合后，分别用Stringent Wash Buffer，Wash Buffer1，Wash Buffer2，Wash Buffer3清洗去除与探针非特异结合的序列，最后用15μl去离子水重悬磁珠。

捕获后按照表29所示体系进行文库扩增，扩增程序见表30：

表29：

试剂	体积
		KAPA HiFi HotStart ReadyMix	25μL
Post-LM-PCR Oligos 1&2,5μM	10μL
		上一步洗脱的DNA	15μL
总计	50μL

表30：扩增程序：

四、上机测序：

将上述所得的DNA捕获文库和RNA捕获文库，按照Illmina Novaseq仪器的操作说明上机，进行双端测序。

五、生物信息学分析：

1.数据分析步骤实例：

对待测样本，根据附图3，先与已经融合比对下列步骤1.1,若未判断为阳性，执行1.2挑选出全部有义潜在融合后，执行1.3-1.6(若已建立过RNA表达量基线，可省略1.4)判断最终结果。

1.1：直接比对到已知融合序列产物

受益于世界范围内对人类基因组的广泛研究，目前已发现多种常见融合，并且世面上大部分癌症治疗药物也只针对这些常见融合。所以，以患者实际疗效考虑，更准确的鉴定到上述有限种的常见融合对治疗更为有利。为此，本实施例选择避免在整个人类基因组范围内鉴定所有融合(该检测更费时且准确性不高)的方法，而是选择更有针对性地鉴定已知的热点融合突变。

首先从公共数据库下载人类参考基因组序列，整理成包含热点融合RNA产物序列的数据库，然后通过如下步骤鉴定是否属于已知融合突变类型：

1)分别将各常见热点融合RNA产物序列与人类参考基因组序列比对，找到每个融合序列上对应的断点位置；

2)以常见热点融合RNA产物序列作为参考序列，将测序数据分别与参考序列比对；

3)统计全部候选的split read和discordant read的个数；

4)过滤split read上断点和read end的长度小于m的read，m推荐为20的整数；

5)过滤discordant read，双端距离超过阈值d的read,d推荐根据文库插入片段长度选择；

6)统计过滤后最终的split spanning read的个数t1和discordant read的个数t2，当满足t1+t2≥2时，判断为阳性，否则为阴性。

1.2：DNA/RNA测序数据的融合突变检测(包括是否有义融合突变检测)

多数融合断点发生在intron区，通过DNA测序能找到跨越intron区上断点的reads，通过RNA测序检测的融合是可能表达出蛋白的。RNA和DNA在融合基因鉴定要基本相似，主要包括以下几步：

1)使用BWA-MEM模式或类似带有soft-clip功能的比对软件，将测序数据与人类参考基因组做比对

2)提取not proper pair reads和soft-clip reads，作为候选discordant read和split read

3)判断两端基因A和基因B的方法，若基因A和基因B的方向不一致，则去除掉此候选融合。

4)对RNA数据，去除断点处的密码子框的类型为frame-shift的融合,保留为InFrame类型的融合

5)过滤split read和discordant read的个数

1.3：表达量计算方法(nRPM)

转录组数据分析中，为了排除基因长度和测序深度的影响，需要对表达量进行标准化，而不是直接使用read数表示。常用标准化方法包括Fragments Per Kilobase of外显子model per Million mapped fragments(FPKM，每千个碱基的转录每百万映射读取的fragments)，Reads Per Kilobase of外显子modelper Million mapped reads(RPKM，每千个碱基的转录每百万映射读取的reads)，Reads of外显子model per Million mappedreads(RPM，每百万映射读取的reads)等。捕获测序由于其片段化的模式，并不适用与像FPKM/RPKM这是对长度标准化的方式，而仅考虑测序深度影响的RPM的标准化方法又不够全面，为此本申请使用一种新的表达量标准化方法nRPM(normailized RPM)。

看家基因拥有在不同人中稳定表达的特点，因此本方法每批样本中加入多个看家基因(housekeeping)作为内参，对待测样本的RPM值做标准化。具体方法如下：

1)对每个看家基因经过多次实验设定一个标准的RPM值；

2)计算实测样本中的全部看家基因的RPM值与标准RPM值的比值，取中位数；

3)其余基因按上述中位数标准化的值即为nRPM。

1.4：建立阴性样本RNA表达基线(baseline)

本模块输入阴性样本集的比对结果，输出阴性样本在基因水平和外显子水平的两版基线。

1)输入阴性样本集与人类参考基因组的比对结果，计算每个样本每个外显子上标准化后的nRPM值，及每个外显子上的平均nRPM值和方差，根据均值和方差计算阴性样本的外显子水平上的Z值，并根据多个5’端的外显子的Z值和3’端的外显子的Z值的差值设置外显子水平的阈值(cutoff)，输出为阴性样本在外显子水平的基线。推荐基线为5’端的外显子的Z值和3’端的外显子的Z值的差值的均值加上5’端的外显子的Z值和3’端的外显子的Z值的差值的2倍方差。

2)输入阴性样本集的比对结果，计算每个样本每个基因上标准化后的nRPM值，及每个基因上的平均nRPM值和方差，根据均值和方差计算阴性样本在基因水平上的Z值，根据多个Z值设置基因水平上的阈值(cutoff)，输出为阴性样本在基因水平基线。推荐基线为多个Z值中的第95百分位数。

1.5：原癌基因过表达判断

1)输入待测样本在候选基因的nRPM值，根据基因水平基线计算对应Z值；

2)通过比较待测样本在候选基因上的Z值是否大于阴性样本在基因水平基线来判断是否过表达，当大于时，判断为阳性，否则阴性。

1.6：原癌基因5’/3’表达差异判断

1)输入待测样本在候选基因的nRPM值，根据外显子水平基线计算每个外显子对应Z值；

2)绘制原癌基因全外显子上Z值趋势曲线；

3)比较待测样本在候选基因的临近5’端的外显子的Z值和3’端的外显子的Z值的差值，当该差值大于阴性样本在外显子水平的基线时，判断为阳性，否则为阴性。

2.实例结果：

样本S1，在(1.1)比对到常见融合序列EML4-外显子6-ALK-外显子20，直接判断为阳性，不再执行其余步骤。

样本S2，未能直接比对到任何常见融合，在(1.2)RNA检测到EML4-外显子6-ALK-外显子20潜在融合，但(1.5)ALK基因为表达判断为阴性。

样本S3，未能直接比对到任何常见融合，在(1.2)DNA检测到EML4-外显子19-ALK-外显子20潜在融合，且(1.5-1.6)ALK基因相对基线过表达，且5’与3’端存在表达差异(见表31和附图3)。

样本S4，未能直接比对到任何常见融合，在(2.2)DNA检测到断点位于intron区的CD74-intron7-ROS1-intron32潜在融合，RNA检测到CD74-外显子7-ROS1-外显子32潜在融合，且(2.5-2.6)ROS1基因相对基线过表达，且5’与3’端存在表达差异(见表31和附图4)。

表31：

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种检测基因融合突变的方法，其特征在于，所述方法包括：

从转录本水平上检测待测样本是否符合已知融合突变类型，如符合，则判定为融合突变阳性；

若不符合，则检测所述待测样本是否存在潜在融合，所述潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合，若不存在，则判定为融合突变阴性；

若是有义融合，则检测所述原癌基因是否存在表达量异常，所述表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在，则判定为融合突变阳性，否则判定为融合突变阴性。

2.根据权利要求1所述的方法，其特征在于，在从转录本水平上检测待测样本是否符合已知融合突变类型之前，所述方法还包括获取已知融合突变类型；

优选地，所述获取已知融合突变类型包括：

通过将已知的热点融合RNA产物序列与人类参考基因组序列进行比对，找到每个所述热点融合RNA产物序列上对应的断点位置，从而获得所述已知融合突变类型。

3.根据权利要求2所述的方法，其特征在于，从转录本水平上检测待测样本是否符合已知融合突变类型包括：

将所述待测样本的RNA测序数据与所述热点融合RNA产物序列进行比对，得到第一split read集和第一discordant read集；

分别统计所述第一split read集中split read的个数t1和所述第一discordant read集中discordant read的个数t2，t1和t2分别为≥0的整数；

当t1+t2≥2，则判定所述待测样本符合所述已知融合突变类型，否则，不符合。

4.根据权利要求3所述的方法，其特征在于，在统计所述split read的个数t1时，还包括从所述第一split read集中去除不合格的split read，

其中，所述不合格的split read指所述第一split read集中断点位置距离序列端点的长度小于mbp的split read，所述序列端点指所述split read的5’端和3’端中与所述断点位置最近的一端，m为≥10的自然数。

5.根据权利要求3所述的方法，其特征在于，在统计所述discordant read的个数t2时，还包括从所述第一discordant read集中去除不合格discordant read；

其中，所述不合格discordant read指所述第一discordant read集中5’端和3’端在所述热点融合RNA产物序列上的距离超过dbp的discordant read，d为自然数且120≤d≤800。

6.根据权利要求1所述的方法，其特征在于，当所述潜在融合涉及(a)原癌基因在转录本水平上存在未知融合时，检测所述待测样本是否存在潜在融合包括：

将所述待测样本的RNA测序数据与人类参考基因组进行比对；

提取not proper pair reads及soft-clip reads，分别作为第二discordant read集和第二splitread集；

分别统计所述第二split read集中split read的个数t3和所述第二discordant read集中discordant read的个数t4，t3和t4分别为≥0的整数；

当t3+t4≥2，则判定所述待测样本存在所述潜在融合，否则，不存在。

7.根据权利要求3所述的方法，其特征在于，当所述潜在融合涉及(b)原癌基因在基因组水平上存在结构融合时，检测所述待测样本是否存在潜在融合包括：

将所述待测样本的DNA测序数据与人类参考基因组进行比对；

提取not proper pair reads及soft-clip reads，分别作为第三discordant read集和第三splitread集；

分别统计所述第三split read集中split read的个数t5和所述第三discordant read集中discordant read的个数t6，t5和t6分别为≥0的整数；

当t5+t6≥2，则判定所述待测样本存在所述潜在融合，否则，不存在。

8.根据权利要求6所述的方法，其特征在于，检测所述潜在融合是否为有义融合包括：

检测所述潜在融合是否属于第一异常融合，所述第一异常融合指所述原癌基因与融合伴侣基因的方向不一致的融合，和/或断点处的密码子框发生移码现象的融合，若不属于，则所述潜在融合为有义融合。

9.根据权利要求7所述的方法，其特征在于，检测所述潜在融合是否为有义融合包括：

检测所述潜在融合是否属于第二异常融合，所述第二异常融合指所述原癌基因与融合伴侣基因的方向不一致的融合。

10.根据权利要求1所述的方法，其特征在于，检测所述原癌基因是否存在表达量异常包括：

建立阴性样本的RNA表达基线，所述表达基线包括基因水平上的表达基线和外显子水平上的表达基线；

检测所述待测样本的所述原癌基因在基因水平上的Z值是否大于所述阴性样本基因水平上的表达基线，当大于，则将所述原癌基因的功能区过量判断为过表达，优选所述阴性样本基因水平上的表达基线为所述阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；

检测所述待测样本的所述原癌基因在每个外显子水平上的Z值；

绘制所述原癌基因在全部外显子水平上的Z值的趋势曲线；

比较所述原癌基因的5’端的外显子的Z值与3’端的外显子的Z值的差值，当所述差值大于所述阴性样本在外显子水平上的表达基线时，则判定所述原癌基因在5’端和3’端的表达量存在显著差异，

优选地，将所述阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值记为M，所述阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差记为N，则所述阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

11.根据权利要求10所述的方法，其特征在于，所述建立阴性样本的RNA表达基线包括：

获取多个阴性样本与人类参考基因组的比对结果；

计算每个所述阴性样本的每个外显子上的nRPM值及每个外显子上的nRPM第一均值和第一方差，每个外显子上的nRPM值为每个所述外显子的RPM值与内参基因的表达量的中位数的比值；

根据所述第一均值和所述第一方差计算每个所述阴性样本在外显子水平上的Z值，进而获得所述阴性样本5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M和所述阴性样本5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N，将M+n×N作为所述阴性样本在外显子水平上的表达基线，n为2～4的自然数；

计算每个所述阴性样本的每个基因上的nRPM值及每个基因上的nRPM第二均值和第二方差，每个基因上的nRPM值为每个所述基因的RPM值与内参基因的表达量的中位数的比值；

根据所述第二均值和所第二方差计算每个所述阴性样本的基因水平上的Z值，将所述阴性样本的多个所述基因水平上的Z值中的第x百分位数作为所述阴性样本在基因水平上的表达基线，x为90～100的自然数；

优选地，所述内参基因的表达量的中位数通过如下方法获得：

选取多个所述内参基因，并通过试验确定每个所述内参基因的标准RRM值；

计算每个所述内参基因测序获得的RPM值与所述标准RPM值的比值，得到多个所述比值；

多个所述比值的中位数即为所述内参基因的表达量的中位数。

12.根据权利要求7所述的方法，其特征在于，所述待测样本的DNA测序数据由所述待测样本的DNA文库经高通量测序得到，优选所述DNA文库通过如下方法构建而成：

提取所述待测样本的基因组DNA；

将所述基因组DNA打断成250～500bp的片段；

将所述250～500bp的片段构建成全基因组文库；

利用DNA文库探针对所述全基因组文库中的靶向片段进行捕获富集，获得所述DNA文库。

13.根据权利要求12所述的方法，其特征在于，所述待测样本的RNA测序数据由所述待测样本的RNA文库经高通量测序得到，优选所述RNA文库构建的步骤包括：

提取所述待测样本的总RNA；

构建全部转录本文库；

利用RNA文库探针对所述全部转录本文库中的靶向片段进行捕获富集，获得所述RNA文库。

14.根据权利要求13所述的方法，其特征在于，在提取所述待测样本的基因组DNA或总RNA的步骤中，对所述待测样本的基因组DNA和总RNA进行共提取；优选采用核酸共提试剂盒进行所述共提取。

15.根据权利要求13所述方法，其特征在于，

所述DNA文库探针和所述RNA文库探针各自分别包括覆盖了已知的融合热点基因的全部外显子区域的探针以及覆盖所述融合热点基因与融合伴侣基因的基因组融合区域的探针，

其中，覆盖所述融合热点基因与融合伴侣基因的基因组融合区域的探针包括跨断点的探针和所述断点两侧外显子的探针；

优选地，所述探针为多重覆瓦式设计的探针。

16.一种检测基因融合突变的装置，其特征在于，所述装置包括：

第一检测判定模块，用于从转录本水平上检测待测样本是否符合已知融合突变类型，并在符合的情况下，将所述待测样本判定为融合突变阳性；

第二检测判定模块，用于在所述第一检测模块检测为不符合所述已知融合突变类型的情况下，检测所述待测样本是否存在潜在融合，所述潜在融合包括如下至少之一：(a)原癌基因在转录本水平上存在未知融合，(b)原癌基因在基因组水平上存在结构融合；并在不存在所述潜在融合的情况下，将所述待测样本判定为融合突变阴性；

第三检测判定模块，用于在所述第二检测模块检测为存在所述潜在融合的情况下，检测所述潜在融合是否为有义融合，并在非有义融合的情况下，将所述待测样本判定为融合突变阴性；

第四检测判定模块，用于在所述第三检测模块检测为是有义融合的情况下，检测所述原癌基因是否存在表达量异常，所述表达量异常包括以下两方面：(c)原癌基因的功能区过量表达，(d)原癌基因在5’端和3’端的表达量存在显著差异；若存在所述表达量异常，则判定为融合突变阳性，否则判定为融合突变阴性。

17.根据权利要求16所述的装置，其特征在于，所述装置还包括已知融合突变类型获取模块，所述已知融合突变类型获取模块用于在所述第一检测判定模块从转录本水平上检测待测样本是否符合已知融合突变类型之前，获取已知融合突变类型；

优选地，所述已知融合突变类型获取模块包括：

第一比对查找模块，用于通过将已知的热点融合RNA产物序列与人类参考基因组序列进行比对，找到每个所述热点融合RNA产物序列上对应的断点位置，从而获得所述已知融合突变类型。

18.根据权利要求17所述的装置，其特征在于，所述第一检测判定模块包括：

第一比对模块，用于将所述待测样本的RNA测序数据与所述热点融合RNA产物序列进行比对，得到第一split read集和第一discordant read集；

第一统计模块，用于分别统计所述第一split read集中split read的个数t1和所述第一discordant read集中discordant read的个数t2，t1和t2分别为≥0的整数；

第一融合判定模块，用于在t1+t2≥2的情况下，判定所述待测样本符合所述已知融合突变类型，否则，判定为不符合所述已知融合突变类型。

19.根据权利要求18所述的装置，其特征在于，所述第一统计模块包括第一统计过滤模块，所述第一统计过滤模块，用于在统计所述split read的个数t1时，从所述第一splitread集中去除不合格的split read，

20.根据权利要求18所述的装置，其特征在于，所述第一统计模块包括第二统计过滤模块，所述第二统计过滤模块，用于在统计所述discordant read的个数t2时，从所述第一discordant read集中去除不合格discordant read；

21.根据权利要求16所述的装置，其特征在于，当所述潜在融合涉及(a)原癌基因在转录本水平上存在未知融合时，所述第二检测判定模块包括：

第二比对模块，用于将所述待测样本的RNA测序数据与人类参考基因组进行比对；

第一提取模块，用于提取not proper pair reads及soft-clip reads，分别作为第二discordant read集和第二split read集；

第二统计模块，用于分别统计所述第二split read集中split read的个数t3和所述第二discordant read集中discordant read的个数t4，t3和t4分别为≥0的整数；

第二融合判定模块，用于在t3+t4≥2的情况下，判定所述待测样本存在所述潜在融合，否则，判定为不存在所述潜在融合。

22.根据权利要求16所述的装置，其特征在于，当所述潜在融合涉及(b)原癌基因在基因组水平上存在结构融合时，所述第二检测判定模块包括：

第三比对模块，用于将所述待测样本的DNA测序数据与人类参考基因组进行比对；

第二提取模块，用于提取not proper pair reads及soft-clip reads，分别作为第三discordant read集和第三split read集；

第三统计模块，用于分别统计所述第三split read集中split read的个数t5和所述第三discordant read集中discordant read的个数t6，t5和t6分别为≥0的整数；

第三融合判定模块，用于在t5+t6≥2的情况下，判定所述待测样本存在所述潜在融合，否则，判定为不存在所述潜在融合。

23.根据权利要求21所述的装置，其特征在于，所述第三检测判定模块包括：

第一异常融合检测判定模块，用于检测所述潜在融合是否属于第一异常融合，所述第一异常融合指所述原癌基因与融合伴侣基因的方向不一致的融合，和/或断点处的密码子框发生移码现象的融合，若不属于，则所述潜在融合为有义融合。

24.根据权利要求22所述的装置，其特征在于，所述第三检测判定模块包括：

第二异常融合检测判定模块，用于检测所述潜在融合是否属于第二异常融合，所述第二异常融合指所述原癌基因与融合伴侣基因的方向不一致的融合。

25.根据权利要求16所述的装置，其特征在于，所述第四检测判定模块包括：

阴性表达基线建立模块，用于建立阴性样本的RNA表达基线，所述表达基线包括基因水平上的表达基线和外显子水平上的表达基线；

第一表达量检测模块，用于检测所述待测样本的所述原癌基因在基因水平上的Z值；

第一比较模块，用于比较所述原癌基因在基因水平上的Z值是否大于所述阴性样本基因水平上的表达基线，当大于，则将所述原癌基因的功能区过量判断为过表达，优选所述阴性样本基因水平上的表达基线为所述阴性样本在基因水平上的Z值的第x百分位数，x为90～100的自然数；

第二表达量检测模块，用于检测所述待测样本的所述原癌基因在每个外显子水平上的Z值；

Z值趋势曲线绘制模块，用于绘制所述原癌基因在全部外显子水平上的Z值的趋势曲线；

第二比较模块，用于比较所述原癌基因的5’端的外显子的Z值与3’端的外显子的Z值的差值，当所述差值大于所述阴性样本在外显子水平上的表达基线时，则判定所述原癌基因在5’端和3’端的表达量存在显著差异，

优选地，所述阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的均值为M，所述阴性样本的5’端的外显子的Z值与3’端的外显子的Z值的差值的方差为N，则所述阴性样本在外显子水平上的表达基线为M+n×N，n为2～4的自然数。

26.根据权利要求25所述的装置，其特征在于，所述阴性表达基线建立模块包括：

第一获取模块，用于获取多个阴性样本与人类参考基因组的比对结果；

第一计算模块，计算每个所述阴性样本的每个外显子上的nRPM值及每个外显子上的nRPM第一均值和第一方差，每个外显子上的nRPM值为每个所述外显子的RPM值与内参基因的表达量的中位数的比值；

第一定义模块，用于根据所述第一均值和所第一方差计算每个所述外显子水平上的Z值，进而获得所述阴性样本5’端的外显子的Z值与3’端的外显子的Z值的差值的均值M和所述阴性样本5’端的外显子的Z值与3’端的外显子的Z值的差值的方差N，将M+n×N作为所述阴性样本在外显子水平上的表达基线，n为2～4的自然数；

第二计算模块，用于计算每个所述阴性样本的每个基因上的nRPM值及每个基因上的nRPM第二均值和第二方差，每个基因上的nRPM值为每个所述基因的RPM值与内参基因的表达量的中位数的比值；

第二定义模块，用于根据所述第二均值和所第二方差计算每个所述阴性样本的基因水平上的Z值，将所述阴性样本的多个所述基因水平上的Z值中的第x百分位数作为所述阴性样本在基因水平上的表达基线，x为90～100的自然数；

优选地，所述内参基因的表达量的中位数通过执行如下内参中位数模块获得，所述内参中位数模块包括：

选取实验模块，用于选取多个所述内参基因，并通过试验确定每个所述内参基因的标准RRM值；

比值计算模块，用于计算每个所述内参基因测序获得的RPM值与所述标准RPM值的比值，得到多个所述比值；

第三定义模块，用于将多个所述比值的中位数作为所述内参基因的表达量的中位数。

27.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至15中任意一项所述的检测基因融合突变的方法。

28.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至15中任意一项所述的检测基因融合突变的方法。

29.一种转录组数据表达量标准化的方法，其特征在于，所述方法包括：

获取包括待测基因和内参基因的转录组测序数据，所述内参基因有多个；

获取预设的多个所述内参基因的标准RPM值，所述标准RPM值根据多次预实验计算得到；

计算所述转录组测序数据中每个所述内参基因的RPM值与所述标准RPM值的比值，得到多个所述比值；

将所述转录组测序数据中每个所述待测基因的RPM值除以多个所述比值的中位数，从而获得每个所述待测基因的标准化的RPM值，即nRPM值。