CN116978453A

CN116978453A - 判断融合基因真实性的方法和电子装置

Info

Publication number: CN116978453A
Application number: CN202311230434.6A
Authority: CN
Inventors: 于洋
Original assignee: Beijing Novogene Technology Co ltd
Current assignee: Beijing Novogene Technology Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-10-31
Anticipated expiration: 2043-09-22
Also published as: CN116978453B

Abstract

本发明提供了一种判断融合基因真实性的方法和电子装置。其中，上述方法包括：a）将RNA测序数据与参考基因组比对，获得测序比对文件；b）将融合基因的原始基因的外显子区域根据碱基长度进行拆分，获得多个碱基长度相同的区域；c）计算每个区域在测序比对文件上的测序深度，获得每个区域的测序深度；d）对每个区域的测序深度进行归一化处理，获得归一化测序深度；e）比较位于融合断点两侧的区域的归一化测序深度，若融合断点两侧的区域的归一化测序深度均有显著性差异，则融合基因为真。能够解决现有技术中利用RNA测序数据判断融合基因的准确率低的问题，适用于融合基因检测领域。

Description

判断融合基因真实性的方法和电子装置

技术领域

本发明涉及融合基因检测领域，具体而言，涉及一种判断融合基因真实性的方法和电子装置。

背景技术

融合基因（fusion gene）是指由两个或更多基因的片段融合而成的新基因。在肿瘤组织中，融合基因是一种常见的基因结构异常，两个基因的片段融合在一起产生了一个新的融合基因，具有不同于原始基因的序列结构和功能。肿瘤组织中的融合基因在癌症的发生和发展过程中起着重要的作用。融合基因可以通过多种机制改变细胞的生长、分化和凋亡等关键过程，从而促进肿瘤的形成。

在现有技术中，可以通过传统的PCR方法对融合断点设计探针进行验证，也可以结合一定的生物信息学方法，对发生融合的蛋白结构域进行分析，再结合已发表文献对筛选出可能与该肿瘤相关的融合基因。但传统PCR验证的方法需要而外的时间成本和资金成本，另外由于临床样本多为FFPE样本，样本提取核酸的难度较大，验证结果不一定准确。通过生物信息学的方法需要一定的技术积累和经验，且具有一定的主观性，不同人鉴定的结果会有差异。

在现有技术中也可以利用RNA测序，包括但不限于RNA捕获测序，检测肿瘤组织样本中发生的融合基因。但在利用RNA捕获测序检测融合基因的过程中，涉及样本提取、文库构建、上机测序及生信分析等多种环节，每个环节的异常或变动会极大影响融合基因的检测，因此此种方法的准确度较低。在现有技术中虽然也公开了一种通过对融合基因的外显子进行表达定量，通过比较融合断点两端的外显子的表达差异来判断融合基因的真阳性的方法，但在实际应用中，由于每个外显子长度不一样，不同区域探针的捕获效率不一样，导致直接对外显子定量无法准确判断断点两侧外显子的表达差异，对于融合基因的判断的准确率仍较低。

发明内容

本发明的主要目的在于提供一种判断融合基因真实性的方法和电子装置，以解决现有技术中的利用RNA测序数据判断融合基因的准确率低的问题。

为了实现上述目的，根据本发明的第一个方面，提供了一种判断融合基因真实性的方法，该方法包括：a）将RNA测序数据与参考基因组比对，获得测序比对文件；b）将融合基因的原始基因的外显子区域根据碱基长度进行拆分，获得多个碱基长度相同的区域；c）计算每个区域在测序比对文件上的测序深度，获得每个区域的测序深度；d）对每个区域的测序深度进行归一化处理，获得归一化测序深度；e）比较位于融合断点两侧的区域的归一化测序深度，若融合断点两侧的区域的归一化测序深度均有显著性差异，则融合基因为真。

进一步地，归一化处理包括：对测序深度进行测序数据量的归一化处理，获得每百万条数据量测序深度；再对每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度。

进一步地，测序数据量的归一化处理包括：获得RNA测序数据的测序数据量，根据测序深度和测序数据量计算获得每百万条数据量测序深度，每百万条数据量测序深度 =测序深度 ÷ 测序数据量 × 10⁶。

进一步地，测序效率的归一化处理包括：利用归一化因子对每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度，归一化因子包括中位数归一化因子和/或平均数归一化因子，归一化测序深度包括中位数归一化测序深度和/或平均数归一化测序深度，中位数归一化测序深度 = 每百万条数据量的测序深度 × 中位数归一化因子，平均数归一化测序深度 = 每百万条数据量的测序深度 × 平均数归一化因子。

进一步地，归一化因子的计算方法包括：d1）对同一样本进行多次RNA捕获测序，并将测序结果分别与参考基因组比对，获得多个RNA参考数据；d2）对于每个RNA参考数据，计算每个区域在RNA参考数据中的测序深度；d3）统计每个区域在多个RNA参考数据中的测序深度，获得每个区域的测序深度的中位数和/或平均数，计算每个区域的中位数归一化因子和/或平均数归一化因子，中位数归一化因子 = 100÷ 中位数，平均数归一化因子 = 100÷ 平均数。

进一步地，碱基长度为8-20 bp。

为了实现上述目的，根据本发明的第二个方面，提供了一种判断融合基因真实性的电子装置，该电子装置包括序列比对单元、区域拆分单元、测序深度计算单元、归一化处理单元和显著性判断单元；其中，序列比对单元，用于将RNA测序数据与参考基因组比对，获得测序比对文件；区域拆分单元，用于将融合基因的原始基因的外显子区域根据碱基长度进行拆分，获得多个碱基长度相同的区域；测序深度计算单元，用于计算每个区域在测序比对文件上的测序深度，获得每个区域的测序深度；归一化处理单元，用于对每个区域的测序深度进行归一化处理，获得归一化测序深度；显著性判断单元，用于比较位于融合断点两侧的区域的归一化测序深度，若融合断点两侧的区域的归一化测序深度均有显著性差异，则融合基因为真。

进一步地，归一化处理单元包括测序数据量归一化单元和测序效率归一化单元；其中，测序数据量归一化单元，用于对于测序深度进行测序数据量的归一化处理，获得每百万条数据量测序深度；测序效率归一化单元，用于对于每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度。

进一步地，测序数据量归一化单元包括：第一获取模块，用于获取RNA测序数据的测序数据量，以及第一计算模块，用于计算每百万条数据量测序深度，每百万条数据量测序深度=测序深度 ÷ 测序数据量 × 10⁶；测序效率归一化单元包括：第二获取模块，用于获取归一化因子，归一化因子包括中位数归一化因子和/或平均数归一化因子，以及第二计算模块，用于利用归一化因子对每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度，归一化测序深度包括中位数归一化测序深度和/或平均数归一化测序深度，中位数归一化测序深度 = 每百万条数据量的测序深度 × 中位数归一化因子，平均数归一化测序深度 = 每百万条数据量的测序深度 × 平均数归一化因子。

进一步地，测序效率归一化单元中储存有中位数归一化因子和/或平均数归一化因子，或测序效率归一化单元中包括归一化因子计算单元，归一化因子计算单元包括：获取比对模块，用于获取对同一样本进行多次RNA捕获测序的测序结果，并将测序结果分别与参考基因组比对，获得多个RNA参考数据；深度计算模块，用于对于每个RNA参考数据，计算每个区域在RNA参考数据中的测序深度；以及归一化因子统计计算模块，用于统计每个区域在多个RNA参考数据中的测序深度，获得每个区域的测序深度的中位数和/或平均数，并计算每个区域的中位数归一化因子和/或平均数归一化因子，中位数归一化因子 = 100÷ 中位数，平均数归一化因子 = 100÷ 平均数。

进一步地，碱基长度为8-20 bp。

为了实现上述目的，根据本发明的第三个方面，提供了一种计算机可读储存介质，该储存介质包括存储的程序，其中，在程序运行时，控制储存介质所在设备执行上述方法。

为了实现上述目的，根据本发明的第四个方面，提供了一种处理器，该处理器用于运行程序，其中，程序运行上述方法。

应用本发明的技术方案，利用上述判断融合基因真实性的方法，通过将外显子区域拆分为特定碱基长度的区域（bin），统计每个bin的测序深度，并对测序深度进行归一化处理获得归一化测序深度，通过对融合断点两侧的bin的归一化测序深度进行显著性分析，从而实现利用生物信息学的方法准确判断融合基因的真实性，避免外显子长度、GC含量等因素影响对于融合基因判断准确性的影响。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明实施例的判断融合基因真实性的方法的流程图。

图2示出了本发明实施例的一种可选的判断融合基因真实性的电子装置的示意图。

图3是根据本发明实施例的一种可选的判断融合基因真实性的方法的硬件结构框图。

图4是根据本发明实施例2的EWSR1和FLI1融合基因的判断结果图。

图5是根据本发明对比例2的EWSR1和FLI1融合基因的判断结果图。

图6是根据本发明实施例3的ATF1和EWSR1融合基因的判断结果图。

图7是根据本发明对比例3的ATF1和EWSR1融合基因的判断结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提到的，现有技术中利用PCR技术判断融合基因的难度大、成本高、耗时长，而利用RNA捕获测序判断融合基因的准确率低，均难以满足临床的需求。在本申请中发明人尝试开发一种新的判断融合基因真实性的方法，以此为基础提出了本申请的一系列保护方案。

在本申请第一种典型的实施方式中，提供了一种判断融合基因真实性的方法，该方法包括：a）将RNA测序数据与参考基因组比对，获得测序比对文件；b）将融合基因的原始基因的外显子区域根据碱基长度进行拆分，获得多个碱基长度相同的区域；c）计算每个区域在测序比对文件上的测序深度，获得每个区域的测序深度；d）对每个区域的测序深度进行归一化处理，获得归一化测序深度；e）比较位于融合断点两侧的区域的归一化测序深度，若融合断点两侧的区域的归一化测序深度均有显著性差异，则融合基因为真。

图1是根据本发明实施例的一种判断融合基因真实性的方法的流程图，如图1所示，该方法包括如下步骤。

上述方法是一种对于结构、组成已知的融合基因进行判断的方法，即对于融合基因的组成基因、外显子、融合断点等为已知信息。上述方法为一种非诊断、治疗目的的、判断融合基因真实性的方法。利用上述方法，能够对动物、植物或微生物中存在的融合基因的真实性进行判断。

在上述方法中，首先将样本的RNA测序数据与参考基因组进行比对，获得测序比对文件（S10）。上述比对包括但不限于利用STAR等现有技术中的软件进行的比对，在本申请中获得的测序比对文件的格式为BAM，上述测序比对文件也可为现有技术中的其他格式。

将融合基因的原始基因的外显子区域根据固定的碱基长度进行拆分，获得长度相同的区域（bin）（S20）。上述原始基因为融合基因在融合前的原始基因，比如利用上述方法判断样本中的EWSR1-FLI1融合基因是否为真，则EWSR1基因和FLI1基因即为该融合基因的原始基因，在S20中将EWSR1基因和FLI1基因的外显子区域均进行拆分，形成多个bin。在本申请含有bin的信息的文件为BED格式，也可选用现有技术中的其他格式，能够记录bin的序列信息和在染色体上的位置信息即可。

上述S10和S20的步骤不分先后顺序，可以同时发生，也可以有先后顺序的发生，关于bin的信息还可以预先处理获得后进行储存，使用时直接调用即可。

在完成S10和S20后，计算每个区域（bin）在测序比对文件上的测序深度，获得每个区域的测序深度（Depth）（S30）。每个bin的Depth即为该bin在测序比对文件中被测序的次数。一般而言，在RNA测序数据中，bin的Depth数值越大，代表该bin对应的转录表达水平越高。但在发明人在实际应用中发现，在实际检测中，尤其是在RNA测序数据中，探针的性能、基因组的GC含量、样本的质量以及捕获实验的温度等参数均会对测序效率产生影响，从而对Depth的数值产生影响。

进一步地，对每个区域的测序深度进行归一化处理，获得归一化测序深度（S40）。由于Depth的数值会受到不同的试验条件、序列自身因素等影响，因此需要对每个bin的Depth进行归一化处理即校正，从而获得能够准确反映转录表达水平的归一化测序深度的数据。

最后，比较位于融合断点两侧的区域（bin）的归一化测序深度，若融合断点两侧的bin的归一化测序深度均有显著性差异，则说明上述融合基因为真，在样本中真实存在此种融合基因（S50）。上述融合断点为原始基因形成融合基因时产生断裂的位置。比如对于EWSR1-FLI1融合基因，该融合基因是EWSR1的第1到7号外显子和FLI1的第6到9号外显子发生的融合。即对于EWSR1-FLI1融合基因而言，对于EWSR1-FLI1融合基因而言，一个融合断点位于EWSR1的7号外显子上，另一个融合断点位于FLI1的6号外显子上。对于断点两侧的bin的归一化测序深度进行比较，若基因没有发生融合，则断点两侧的bin的转录表达量应接近，不应具有显著性差异；若基因发生了融合，基于断点两侧外显子表达的跳跃，断点两侧的bin的转录表达量的差异较大，一般而言发生融合部分的bin的归一化测序深度会高于没有发生融合部分的bin。

利用上述方法，对外显子区域进行拆分，形成长度相同的bin。相较于不考虑外显子长度，以外显子为单位进行测序深度的比较，能够避免由于外显子长度不同、外显子GC含量差异等因素而导致的测序差异，减少对于判断准确性的不利影响。再通过对每个区域的测序深度进行归一化处理，进一步减少不同区域测序效率等因素对于准确性的不利影响。利用本申请上述判断融合基因真实性的方法，能够对样本中是否存在融合基因进行准确判断，判断速度快，准确度高，无需进行湿试验既能够进行判断，避免试验误差对于准确性的影响。

在一种优选的实施例中，归一化处理包括：对测序深度进行测序数据量的归一化处理，获得每百万条数据量测序深度；再对每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度。

在上述归一化处理中，对于测序深度进行样本维度的归一化处理（测序数据量的归一化处理）和bin维度的归一化处理（测序效率的归一化处理），能够分别减少测序数据量对于测序深度的影响和不同位置的bin的自身因素（包括但不限于GC含量、探针测序效率等因素）对于测序深度的影响。

在一种优选的实施例中，测序数据量的归一化处理包括：获得RNA测序数据的测序数据量，根据测序深度和测序数据量计算获得每百万条数据量测序深度，每百万条数据量测序深度 = 测序深度 ÷ 测序数据量 × 10⁶。

在上述方法中，测序数据量表示RNA测序数据中获得的读段（reads）数。进行测序数据量的归一化处理获得的每百万条数据量测序深度，能够避免不同测序中产生的不同测序数据量，对测序深度的准确性产生影响。

在一种优选的实施例中，测序效率的归一化处理包括：利用归一化因子对每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度，归一化因子包括中位数归一化因子和/或平均数归一化因子，归一化测序深度包括中位数归一化测序深度（Median hCPM）和/或平均数归一化测序深度（Mean hCPM），中位数归一化测序深度 = 每百万条数据量的测序深度 × 中位数归一化因子，平均数归一化测序深度 = 每百万条数据量的测序深度 × 平均数归一化因子。

在RNA捕获测序中，探针的测序效率受到多种因素的影响，比如探针的性能、基因组的GC含量、样本的质量以及捕获实验的温度。通过对多个同一捕获测序技术测序的样本进行分析，并计算了每个区域（bin）的测序深度，汇总了每个区域（bin）的中位数和平均值，能够得到中位数归一化因子和平均数归一化因子。上述2种归一化因子能够反映不同区域的测序深度的差异，通过利用归一化因子对测序深度的数据进行归一化处理即校正，能够防止由于不同区域之间自身性质差异而产生的测序深度差异影响对于表达水平的判断。

若在上述方法中，对于一侧的融合断点，优选地利用中位数归一化因子和平均数归一化因子对该侧融合断点的每百万条数据量的测序深度进行归一化处理，两种归一化测序深度均有显著性差异时，该侧的融合断点的归一化测序深度具有显著性差异；若两种归一化测序深度均没有显著性差异，或两种归一化测序深度的显著性差异结论相反时，该侧的融合断点的归一化测序深度不具有显著性差异。进一步地利用相同的方法对另一侧的融合断点进行分析。当融合基因的两侧的融合断点的归一化测序深度均具有显著性差异时，则该融合基因为真；当融合基因两侧的融合断点的归一化测序深度均不具有显著性差异时，则该融合基因为假；当融合基因两侧的融合断点的归一化测序深度，一侧具有显著性差异而另一侧不具有显著性差异，则无法判断融合基因的真实性，此时需要利用现有技术中的其他技术手段对融合基因的真实性进行进一步判断。

在一种优选的实施例中，归一化因子的计算方法包括：d1）对同一样本进行多次RNA捕获测序，并将测序结果分别与参考基因组比对，获得多个RNA参考数据；d2）对于每个RNA参考数据，计算每个区域在RNA参考数据中的测序深度；d3）统计每个区域在多个RNA参考数据中的测序深度，获得每个区域的测序深度的中位数和/或平均数，计算每个区域的中位数归一化因子和/或平均数归一化因子，中位数归一化因子 = 100÷ 中位数，平均数归一化因子 = 100÷ 平均数。

上述测序效率的归一化处理利用归一化因子对每百万条数据量测序深度进行校正，实现bin维度的归一化处理，从而降低不同位置的bin的自身因素（包括但不限于GC含量、探针捕获效率等因素）对于测序深度的影响。通过对于同一个样本进行多次RNA捕获测序，并依照上述bin的拆分原则，分别计算每个测序数据中的不同bin的测序深度。进而对于每个bin，统计每个bin在不同测序数据中的测序深度，并计算该bin的测序深度的中位数和/或平均数，并计算获得中位数归一化因子和/或平均数归一化因子。此种中位数归一化因子和/或平均数归一化因子即能够代表每个bin在RNA捕获测序中被捕获、被测序的倾向，从而将上述不同位置的bin的自身因素进行降低。在上述进行的多次RNA捕获测序中，使用的测序方法、测序条件、测序探针等因素均与对于上述待检测判断融合基因真实性的样本相同。在实际应用中，也可以在对待检测判断融合基因真实性的样本进行测序或判断前，即构建获得中位数归一化因子和/或平均数归一化因子，在对样本利用上述方法进行判断时直接调用该参数即可。

在一种优选的实施例中，碱基长度为8-20 bp，优选为10 bp，包括但不限于8、9、10、11、12、13、14、15、16、17、18、19或20 bp。

在一种优选的实施例中，上述对同一样本进行多次RNA捕获测序包括进行大于等于20次RNA捕获测序，包括但不限于20、25、30、35、40、45、50、55或60次。

在一种优选的实施例中，RNA测序数据包括但不限于RNA捕获测序数据。

在本申请第二种典型的实施方式中，提供了一种判断融合基因真实性的电子装置，该电子装置包括序列比对单元10、区域拆分单元20、测序深度计算单元30、归一化处理单元40和显著性判断单元50；其中，序列比对单元10，用于将RNA测序数据与参考基因组比对，获得测序比对文件；区域拆分单元20，用于将融合基因的原始基因的外显子区域根据碱基长度进行拆分，获得多个碱基长度相同的区域；测序深度计算单元30，用于计算每个区域在测序比对文件上的测序深度，获得每个区域的测序深度；归一化处理单元40，用于对每个区域的测序深度进行归一化处理，获得归一化测序深度；显著性判断单元50，用于比较位于融合基因断点两侧的区域的归一化测序深度，若不同区域的归一化测序深度有显著性差异，则融合基因为真；若不同区域的归一化测序深度没有显著性差异，则融合基因为假。

图2是根据本发明实施例的一种可选的判断融合基因真实性的电子装置的示意图，如图2所示，该装置包括序列比对单元10、区域拆分单元20、测序深度计算单元30、归一化处理单元40和显著性判断单元50。

在上述电子装置中，序列比对单元10能够将样本的RNA测序数据与参考基因组进行比对，获得测序比对文件。上述比对包括但不限于利用STAR等现有技术中的软件进行的比对，在本申请中获得的测序比对文件的格式为BAM，上述测序比对文件也可为现有技术中的其他格式。

区域拆分单元20能够将融合基因在融合前的原始基因的外显子区域根据固定的碱基长度进行拆分，获得长度相同的区域（bin）。在本申请含有bin的信息的文件为BED格式，也可选用现有技术中的其他格式，能够记录bin的序列信息和在染色体上的位置信息即可。

上述序列比对单元10和区域拆分单元20各自独立设置并运行，关于bin的信息还可以预先处理获得后在区域拆分单元20进行储存，使用时直接调用即可。

测序深度计算单元30能够获取序列比对单元10和区域拆分单元20中生成的测序比对文件和含有bin的信息的文件，计算每个区域（bin）在测序比对文件上的测序深度，获得每个区域的测序深度（Depth）。每个bin的Depth即为该bin在测序比对文件中被测序的次数。

归一化处理单元40能够获取测序深度计算单元30中生成的测序深度，并对每个区域的测序深度进行归一化处理，获得归一化测序深度。

显著性判断单元50能够获取归一化处理单元40中生成的归一化测序深度，比较位于融合断点两侧的区域（bin）的归一化测序深度，若断点两侧的bin的归一化测序深度有显著性差异，则输出上述融合基因为“真”的结果；若断点两侧的bin的归一化测序深度没有显著性差异，则输出上述融合基因为“假”的结果。在显著性判断单元50中，可内置有用于进行显著性分析的模块，也可将待进行显著性分析的数据输出，后续在外部进行显著性的判断。

在一种优选的实施例中，归一化处理单元40包括测序数据量归一化单元和测序效率归一化单元；其中，测序数据量归一化单元，用于对于测序深度进行测序数据量的归一化处理，获得每百万条数据量测序深度；测序效率归一化单元，用于对于每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度。

优选地，测序数据量归一化单元，包括：第一获取模块，用于获取RNA测序数据的测序数据量，以及第一计算模块，用于计算每百万条数据量测序深度，每百万条数据量测序深度=测序深度 ÷ 测序数据量 × 10⁶；优选地，测序效率归一化单元，包括：第二获取模块，用于获取归一化因子，归一化因子包括中位数归一化因子和/或平均数归一化因子；以及第二计算模块，用于利用归一化因子对每百万条数据量测序深度进行测序效率的归一化处理，获得归一化测序深度，归一化测序深度包括中位数归一化测序深度和/或平均数归一化测序深度，中位数归一化测序深度 = 每百万条数据量的测序深度 × 中位数归一化因子，平均数归一化测序深度 = 每百万条数据量的测序深度 × 平均数归一化因子。

在一种优选的实施例中，测序效率归一化单元中储存有中位数归一化因子和/或平均数归一化因子，或测序效率归一化单元中包括归一化因子计算单元，归一化因子计算单元包括：获取比对模块，用于获取对同一样本进行多次RNA捕获测序的测序结果，并将测序结果分别与参考基因组比对，获得多个RNA参考数据；深度计算模块，用于对于每个RNA参考数据，计算每个区域在RNA参考数据中的测序深度；以及归一化因子统计计算模块，用于统计每个区域在多个RNA参考数据中的测序深度，获得每个区域的测序深度的中位数和/或平均数，并计算每个区域的中位数归一化因子和/或平均数归一化因子，中位数归一化因子= 100÷ 中位数，平均数归一化因子 = 100÷ 平均数。

上述包括测序数据量归一化单元和测序效率归一化单元，能够对于测序深度进行样本维度的归一化处理（测序数据量的归一化处理）和bin维度的归一化处理（测序效率的归一化处理），能够分别减少测序数据量对于测序深度的影响和不同位置的bin的自身因素（包括但不限于GC含量、探针捕获效率等因素）对于测序深度的影响。测序数据量归一化单元用于获取测序深度计算单元30中生成的测序深度，输出每百万条数据量测序深度；测序效率归一化单元用于获取测序数据量归一化单元中生成的每百万条数据量测序深度，输出归一化测序深度。

在上述电子装置中，归一化处理单元40中也可以储存有中位数归一化因子和/或平均数归一化因子，在使用时直接调用即可。

在一种优选的实施例中，碱基长度为8-20 bp，优选为10 bp。

在本申请第三种典型的实施方式中，提供了一种计算机可读储存介质，该储存介质包括存储的程序，其中，在程序运行时，控制储存介质所在设备执行上述方法。

在本申请第四种典型的实施方式中，提供了一种处理器，该处理器用于运行程序，其中，程序运行上述方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加检测装置等硬件设备的方式来实现。基于这样的理解，本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分的方法。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请所提供的方法可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例，图3是本发明实施例的高通量测序中降低单碱基替换测序错误率的方法的终端的硬件结构框图。如图3所示，终端可以包括一个或多个（图3中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，可选地，上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的读段拼接、分簇、一致性处理等方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

显然，本领域的技术人员应该明白，上述的本申请的部分模块或步骤可以在通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

下面将结合具体的实施例来进一步详细解释本申请的有益效果。

实施例1

1) 使用STAR软件将RNA捕获测序的数据比对到人的参考基因组，得到BAM格式的文件。

2) 将组成融合基因的原始基因的外显子区域按照固定长度（bin大小为10bp）进行连续拆分，得到BED格式的文件。

3) 使用bedtools multcov软件计算每个拆分的区域（bin）的测序深度（Depth）。

4) 对测序深度进行样本测序的数据量的归一化处理，得到每百万条数据量测序深度（CPM），计算方法为Depth ÷ 测序数据量 × 10⁶。

5) 对每百万条数据量测序深度进行探针测序效率（捕获效率）的归一化处理，得到hCPM（hybridization normalized CPM），计算方法为CPM × 归一化因子。

探针的捕获效率受到多种因素的影响，比如探针的性能、基因组的GC含量、样本的质量以及捕获实验的温度。通过对50个同一捕获测序技术测序的样本进行分析，按照本发明的方法计算了每个区域（bin）的测序深度，汇总了每个区域（bin）的中位数和平均值，得到了中位数归一化因子和平均数归一化因子。

中位数归一化因子 = 100 / 测序深度的中位数。

平均数归一化因子 = 100 / 测序深度的平均数。

6) 两个基因的融合部分是共表达，相较于非融合部分，融合外显子的表达会有一定的升高，通过比较融合基因断点两侧的区域的表达水平是否具有显著性差异，判断融合基因是否为真。

实施例2

真阳性融合基因EWSR1和FLI1的融合，是EWSR1的第1到7号外显子和FLI1的第6到9号发生的融合。利用上述实施例1中的方法对这两个基因外显子区域的表达进行定量和归一化处理，分别对测序深度（Depth）、测序数据量归一化的测序深度（CPM）以及测序效率归一化的测序深度（Mean hCPM和Median hCPM）进行比较，结果如图4所示。图4中“o”表示的点是ESWR1或FLI1发生融合的区域。

利用t检验（Student's t test）的方法，对断点两侧的Depth、CPM、Mean hCPM和Median hCPM分别进行显著性分析，结果如表1所示。

表1

。

注：本申请表中，ns表示p>0.05；*表示0.001<p<0.05； **表示1e-10<p<0.001；***表示p<1e-10。

对比例1

相较于实施例1，区别在于不将外显子区域（exon）进行拆分，直接计算每个外显子区域的Depth、CPM、Mean hCPM和Median hCPM。

对比例2

真阳性融合基因EWSR1和FLI1的融合，是EWSR1的第1到7号外显子和FLI1的第6到9号发生的融合。利用上述对比例1中的方法对这两个基因外显子区域的表达进行定量和归一化处理，分别对测序深度（Depth）、测序数据量归一化的测序深度（CPM）以及测序效率归一化的测序深度（Mean hCPM和Median hCPM）进行比较，结果如图5所示，图5中“o”表示的点是ESWR1或FLI1发生融合的区域。

利用t检验的方法，对断点两侧的Depth、CPM、Mean hCPM和Median hCPM分别进行显著性分析，结果如表2所示。

表2

。

在上述实施例2和对比例2中，分别对真阳性融合基因EWSR1和FLI1的融合真实性进行分析。实施例2的结果如表1所示，融合断点两侧的bin的归一化测序深度具有显著性差异，能够得出融合为真的结论，与阳性的实际情况相同。

对比例2的结果如表2所示，ESWR1断点两侧的exon的归一化测序深度具有显著性差异，但FLI1断点两侧的exon的归一化测序深度没有显著性差异。无法对融合的真实性进行判断，需要进一步利用现有技术中的方法进行验证。

实施例3

假阳性融合基因ATF1和EWSR1的融合，是ATF1的第1到3号外显子和EWSR1的第10到17号发生的融合。利用上述实施例1中的方法对这两个基因外显子区域的表达进行定量和归一化处理，分别对测序深度（Depth）、测序数据量归一化的测序深度（CPM）以及测序效率归一化的测序深度（Mean hCPM和Median hCPM）进行比较，结果如图6所示。图6中“o”表示的点是ATF1或EWSR1发生融合的区域。

利用t检验的方法，对断点两侧的Depth、CPM、Mean hCPM和Median hCPM分别进行显著性分析，结果如表3所示。

表3

。

对比例3

假阳性融合基因ATF1和EWSR1的融合，是ATF1的第1到3号外显子和EWSR1的第10到17号发生的融合。利用上述对比例1中的方法对这两个基因外显子区域的表达进行定量和归一化处理，分别对测序深度（Depth）、测序数据量归一化的测序深度（CPM）以及测序效率归一化的测序深度（Mean hCPM和Median hCPM）进行比较，结果如图7所示。图7中“o”表示的点是ATF1或EWSR1发生融合的区域。

利用t检验的方法，对断点两侧的Depth、CPM、Mean hCPM和Median hCPM分别进行显著性分析，结果如表4所示。

表4

。

在上述实施例3和对比例3中，分别对假阳性融合基因ATF1和EWSR1的融合真实性进行分析。实施例3的结果如表3所示，ATF1断点的Mean hCPM和Median hCPM均不具有显著性差异，即ATF1断点的归一化测序深度不具有显著性差异；ESWR1断点的Mean hCPM具有显著性差异，Median hCPM不具有显著性差异，即ESWR1断点的的归一化测序深度不具有显著性差异，从而得出得出融合为假的结论，与阴性的实际情况相同。

对比例3的结果如表4所示，ATF1断点的Mean hCPM和Median hCPM均不具有显著性差异，即ATF1断点的归一化测序深度不具有显著性差异；ESWR1断点的Mean hCPM和MedianhCPM均具有显著性差异，即ESWR1断点的归一化测序深度具有显著性差异。无法对融合的真实性进行判断，需要进一步利用现有技术中的方法进行验证。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：利用上述判断融合基因真实性的方法，能够对RNA测序数据进行分析，无需湿试验既能够准确判断融合基因真实性，避免PCR等湿试验的时间、资金成本高，判断结果受主观因素影响大等缺点；也克服了现有技术中利用生物信息学对融合基因进行判断准确率低的问题。上述判断融合基因真实性的方法准确度高、成本低，且能够应用到高通量测序的所有平台以及不同范围的RNA捕获测序中，实现对于融合基因的快速、准确判断。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种判断融合基因真实性的方法，其特征在于，所述方法包括：

a）将RNA测序数据与参考基因组比对，获得测序比对文件；

b）将所述融合基因的原始基因的外显子区域根据碱基长度进行拆分，获得多个所述碱基长度相同的区域；

c）计算每个所述区域在所述测序比对文件上的测序深度，获得每个所述区域的测序深度；

d）对每个所述区域的测序深度进行归一化处理，获得归一化测序深度；

e）比较位于融合断点两侧的所述区域的所述归一化测序深度，若所述融合断点两侧的所述区域的所述归一化测序深度均有显著性差异，则所述融合基因为真。

2.根据权利要求1所述的方法，其特征在于，所述归一化处理包括：

对所述测序深度进行测序数据量的归一化处理，获得每百万条数据量测序深度；

再对所述每百万条数据量测序深度进行测序效率的归一化处理，获得所述归一化测序深度。

3.根据权利要求2所述的方法，其特征在于，所述测序数据量的归一化处理包括：

获得所述RNA测序数据的测序数据量，根据所述测序深度和所述测序数据量计算获得所述每百万条数据量测序深度，

所述每百万条数据量测序深度 = 所述测序深度 ÷ 所述测序数据量 × 10⁶。

4.根据权利要求2所述的方法，其特征在于，所述测序效率的归一化处理包括：

利用归一化因子对所述每百万条数据量测序深度进行所述测序效率的归一化处理，获得所述归一化测序深度，

所述归一化因子包括中位数归一化因子和/或平均数归一化因子，

所述归一化测序深度包括中位数归一化测序深度和/或平均数归一化测序深度，

所述中位数归一化测序深度 = 所述每百万条数据量的测序深度 × 所述中位数归一化因子，

所述平均数归一化测序深度 = 所述每百万条数据量的测序深度 × 所述平均数归一化因子。

5.根据权利要求4所述的方法，其特征在于，所述归一化因子的计算方法包括：

d1）对同一样本进行多次RNA捕获测序，并将测序结果分别与所述参考基因组比对，获得多个RNA参考数据；

d2）对于每个所述RNA参考数据，计算每个所述区域在所述RNA参考数据中的测序深度；

d3）统计每个所述区域在多个所述RNA参考数据中的所述测序深度，获得每个所述区域的所述测序深度的中位数和/或平均数，计算每个所述区域的中位数归一化因子和/或所述平均数归一化因子，

所述中位数归一化因子 = 100÷ 所述中位数，

所述平均数归一化因子 = 100÷ 所述平均数。

6.根据权利要求1所述的方法，其特征在于，所述碱基长度为8-20 bp。

7.一种判断融合基因真实性的电子装置，其特征在于，所述电子装置包括序列比对单元、区域拆分单元、测序深度计算单元、归一化处理单元和显著性判断单元；

其中，所述序列比对单元，用于将RNA测序数据与参考基因组比对，获得测序比对文件；

所述区域拆分单元，用于将所述融合基因的原始基因的外显子区域根据碱基长度进行拆分，获得多个所述碱基长度相同的区域；

所述测序深度计算单元，用于计算每个所述区域在所述测序比对文件上的测序深度，获得每个所述区域的所述测序深度；

所述归一化处理单元，用于对每个所述区域的测序深度进行归一化处理，获得归一化测序深度；

所述显著性判断单元，用于比较位于融合断点两侧的所述区域的所述归一化测序深度，若所述融合断点两侧的所述区域的所述归一化测序深度均有显著性差异，则所述融合基因为真。

8.根据权利要求7所述的电子装置，其特征在于，所述归一化处理单元包括测序数据量归一化单元和测序效率归一化单元；

其中，所述测序数据量归一化单元，用于对于所述测序深度进行测序数据量的归一化处理，获得每百万条数据量测序深度；

所述测序效率归一化单元，用于对于所述每百万条数据量测序深度进行测序效率的归一化处理，获得所述归一化测序深度。

9.根据权利要求8所述的电子装置，其特征在于，所述测序数据量归一化单元包括：第一获取模块，用于获取所述RNA测序数据的测序数据量，以及第一计算模块，用于计算所述每百万条数据量测序深度，所述每百万条数据量测序深度=所述测序深度 ÷ 所述测序数据量 × 10⁶；

所述测序效率归一化单元，包括：第二获取模块，用于获取归一化因子，所述归一化因子包括中位数归一化因子和/或平均数归一化因子；以及第二计算模块，用于利用归一化因子对所述每百万条数据量测序深度进行所述测序效率的归一化处理，获得所述归一化测序深度，

10.根据权利要求8或9所述的电子装置，其特征在于，所述测序效率归一化单元中储存有中位数归一化因子和/或平均数归一化因子，或所述测序效率归一化单元中包括归一化因子计算单元，

所述归一化因子计算单元包括：获取比对模块，用于获取对同一样本进行多次RNA捕获测序的测序结果，并将所述测序结果分别与所述参考基因组比对，获得多个RNA参考数据；

深度计算模块，用于对于每个所述RNA参考数据，计算每个所述区域在所述RNA参考数据中的测序深度；以及

归一化因子统计计算模块，用于统计每个所述区域在多个所述RNA参考数据中的所述测序深度，获得每个所述区域的所述测序深度的中位数和/或平均数，并计算每个所述区域的中位数归一化因子和/或所述平均数归一化因子，所述中位数归一化因子 = 100÷ 所述中位数，所述平均数归一化因子 = 100÷ 所述平均数。

11.根据权利要求7所述的电子装置，其特征在于，所述碱基长度为8-20 bp。

12.一种计算机可读储存介质，其特征在于，所述储存介质包括存储的程序，其中，在所述程序运行时，控制所述储存介质所在设备执行权利要求1至6中任一项所述的方法。

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行权利要求1至6中任一项所述的方法。