CN115896256A

CN115896256A - 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质

Info

Publication number: CN115896256A
Application number: CN202211496171.9A
Authority: CN
Inventors: 闫慧婷; 苏琳; 吕红; 郑杉; 陈维之; 杜波
Original assignee: Zhenyue Biotechnology Jiangsu Co ltd
Current assignee: Zhenyue Biotechnology Jiangsu Co ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-04-04

Abstract

本申请公开了一种基于二代测序技术的RNA插入缺失突变的检测方法、装置、设备和存储介质，属于基因检测技术领域。该方法采用特定区域拼接外显子序列检测Indel更适合RNA测序，利用拼接后的外显子序列作为参考基因组，从而去除了内含子序列的影响，将测序后的RNA序列比对到参考基因组(拼接后的外显子序列)，从而提高了比对质量，解决了漏检或者检测频率偏低的问题，并将其与普通检测(h19基因组为参考基因组)识别的Indel合并，提高了检测灵敏度和准确性。

Description

基于二代测序技术的RNA插入缺失突变的检测方法、装置、设备和存储介质

技术领域

本申请属于基因检测技术领域，具体涉及一种基于二代测序技术的RNA插入缺失突变的检测方法、装置、设备和存储介质。

背景技术

肿瘤的发生往往伴随有多种体细胞的基因突变，基因突变是基因在其分子结构上发生的核苷酸组成或排列顺序的改变，主要包括点突变、插入、缺失、倒位和易位等。插入缺失(Indel)是指基因组上小片段序列的插入或缺失，其与肿瘤的发生密切相关。

靶向治疗是目前治疗肿瘤较为有效的方法之一，部分靶向药针对的正是基因序列的插入缺失突变，如EGFR靶向药，包括吉非替尼、厄洛替尼、埃克替尼、阿法替尼、达可替尼以及奥希替尼等。但是针对不同的插入缺失突变，不同靶向药物的疗效并不相同，如临床前研究显示Y764_V765insHH、M766_A767insAI、V769_D770insASV、D770_N771insNPG、D770_N771insSVD等突变阿法替尼可能有效，A767delinsASVD突变有个案报道阿法替尼有效，而D770delinsGY这个突变有个案报道达可替尼有效，因此在靶向治疗前检测其插入缺失突变是一项重要的工作。

临床上常用的插入缺失检测技术平台包括PCR技术、一代测序技术和二代测序技术(高通量测序技术，NGS)。其中，PCR技术是针对目标突变基因设计引物和探针并扩增出目标基因的方法，优点是检测比较快速简便，缺点是只能检测已知的几个热点基因的异常，无法发现新的或者少见的基因异常，并且只能对一个基因位点或者基因的一小段区域进行检测，所以一次检测获得的结果单一、效率相对低下，检测的灵敏度比较低。一代测序技术所需样本量较大，且灵敏度较低，如果用于检测的肿瘤组织中异常基因的量比较低，或者标本中本身含有的癌细胞数量较少，则可能会出现无法检出，而导致假阴性结果。

临床上常用的插入缺失检测样本包括DNA和RNA。其中，采用DNA为待测样本进行检测时，无法直接反应相关基因突变是否被表达并产生异常蛋白参与细胞代谢。传统的以RNA为待测样本进行检测时，通过将测序结果比对到参考基因组(hg19)进行检测，但这会影响Indel的识别，可能造成位点的漏检：因为RNA转录后会剪切掉内含子序列，而参考基因组包含外显子和内含子序列，与hg19参考基因组比对时会出现缺失较大的情况；若Indel位于外显子边界，在外显子边界发生的插入或缺失，会因为内含子的存在被比对软件识别为不能比对到参考基因组的SoftClip序列，尤其是EGFR 19del这种较长的缺失，会导致某些突变由于比对质量差，造成下游检测软件对于Indel识别的漏检；若Indel发生在距离外显子边界较近的位置，由于比对到hg19参考基因组时内含子序列的存在，序列局部重比对时，有些较短的插入或缺失不会被下游检测软件识别到，因此减少支持插入或缺失的序列数目，从而导致识别到的Indel的频率偏低。

发明内容

1.要解决的问题

本申请针对现有技术中RNA插入缺失突变检测中存在的漏检或者检测频率偏低的问题，提供了一种基于二代测序技术的RNA插入缺失突变的检测方法、装置、设备和存储介质，该方法以RNA为检测样本，利用拼接后的外显子序列作为参考基因组，将测序后的RNA序列比对到该参考基因组，从而可以去除内含子序列的影响，提高了比对质量，解决了上述漏检或者检测频率偏低的问题，提高了检测灵敏度和准确性。

2.技术方案

为了解决上述问题，本申请所采用的技术方案如下：

作为本申请的第一方面，本申请提供了一种基于二代测序技术的RNA插入缺失突变的检测方法，该方法具体包括如下步骤：

S1：目标基因获取，包括从患者样本中提取RNA，并构建cDNA文库；靶向捕获目标基因片段并通过PCR扩增富集；

S2：测序及数据处理，包括通过测序仪获得S1中目标基因的原始测序序列RawReads(或称为Raw data)；对Raw data进行精细过滤获得Clean Reads，所述精细过滤包括去除建库过程引入的接头序列、引物、低质量的碱基片段和/或未检出的碱基，接头序列、引物、低质量的碱基片段和/或未检出的碱基容易对后续信息分析造成干扰，为了保证信息的分析质量，因此需要去除；

S3：序列比对与定位及校准，包括将处理后的Clean Reads比对至hg19(GRCh37)人类参考基因组，去重后获得Clean Reads在基因组的比对位置信息；进行Indel的重比对，即将比对过程中所发现的序列插入或者序列删除的区域进行重新矫正；因为基于参考基因的序列特点以及商业软件，如BWA这类全局搜索最优匹配的算法在存在Indel的区域及其附近的比对情况往往是不准确的，此外对碱基错配的容忍度也是不同的，因此需要重新矫正；

S4：Indel检测，包括普通检测和De Novo检测，普通检测包括以hg19为参考基因组识别突变；De Novo检测包括寻找包含重要的Indel区域的外显子区，将外显子片段序列拼接为新的参考基因组(称为外显子参考序列)，从序列校准的结果中提取比对到重要Indel区域的Reads序列，将该部分序列重新比对到外显子参考序列上，识别Indel突变；

S5：检出位点合并，包括将普通检测和De Novo检测出的突变进行合并，得到合并的突变位点；

S6：突变过滤，过滤掉Support reads＜4和Freq≤0.5的突变，保留的突变即为RNA插入缺失突变，其中Support reads指支持突变的reads，Freq指支持突变的reads数与覆盖该位点所有reads的比例，本申请通过热点数据框(根据不同肿瘤，疾病高发的基因，建立一个明确的靶向位点及化疗药物相关性的热点基因列表)、公共数据库(EXAC/千人/gnomAD/HGMD/OMIM/cosmic等)、转录本选择(判断是否是用药位点转录本/Clinvar中致病性位点/Transvar结果中是否有该转录本/是否有位于内含子非splice/经典转录本/是否在外显子区)验证得到上述阈值标准，能够有效保留RNA插入缺失突变。

进一步地，上述S1中样本包括肿瘤患者肿瘤的组织样本。更进一步地，上述组织样本包括经福尔马林固定的石蜡包埋(FFPE)的肿瘤组织样本。

进一步地，上述S1中目标基因包括EGFR、ERBB2、KIT和PDGFRA中的一种或多种。

进一步地，上述S1中构建cDNA文库包括以提取的RNA进行反转录，然后进行末端修复，将粘末端修复成平末端，添加一个腺嘌呤脱氧核苷酸后，与带有特异序列的接头序列进行连接，构建文库。

进一步地，上述S1中靶向捕获目标片段包括通过生物素标记的探针与文库进行液态杂交从而实现目标区域的捕获；利用带有链霉亲和素的磁珠通过生物素亲和素反应吸附探针捕获的目标片段，洗去未与探针结合的非目标片段。

进一步地，上述S2中去除接头以及引物序列需要权衡灵敏度和特异性，即保证接头和引物去除干净且保证不是接头和引物的序列不被误切除，理论上接头序列和引物序列可能出现在Reads中的任何位置，但实际上序列中出现接头和引物大部分情况下都是由于文库插入片段比测序读长短导致的，这种情况在Reads的开头部分是有一段可用序列的，末端包含了接头的全长或部分序列，因此需要对序列进行裁剪，精细过滤原则包括：

(1)Raw Reads从起始位置开始就包含了完整的接头序列，直接过滤整条Reads；

(2)在双端测序模式(PE)下，将Reads与包含接头和引物的序列(所有被视为污染的序列)进行允许2个错配碱基的比对，针对PE测序Read1和Read2之间比对分值至少为30才进行接头切除，切除接头序列的最低比对分值至少为10，允许切除的最短接头序列为8bp，保留与Read1完全反向互补的Read2，因为在双端测序模式(PE)下，如果文库的插入片段比测序读长短，那么Read1和Read2中非接头序列的那部分会完全反向互补，利用正反向测序Reads中一段碱基可以完全反向互补的特点，将两个接头序列与Reads进行比对，同时两条Reads之间也互相比对，可以将3'末端接头序列准确去除；

(3)切除Raw Reads首尾端质量值小于3的碱基；

(4)Raw Reads中设置4bp的滑动窗口，统计滑动窗口中所有碱基的平均质量值，剪切掉平均质量值低于20的窗口，剪切后保留的Read长度最小为51bp。

进一步地，上述S2中接头序列、引物、低质量的碱基片段和/或未检出的碱基的去除是使用基于Trimmomatic-0.36软件的分析软件的数据预处理模块处理。

进一步地，上述S2中还包括数据质控，数据质控是针对数据处理和基因表达的结果进行质量评估，通过设置参数及判断阈值，当该参数满足阈值条件时，则样本测序质量符合要求并进行下一步。

进一步地，上述S2中数据质控的参数包括每个样本的Q30碱基占比、序列比对到参考基因组比例、看家基因检出个数、序列比对到捕获区域的Reads、内含子比例等参数。

进一步地，上述S2中数据质控中如果Q30碱基占比≥85％，序列比对至参考基因组比例≥90％，看家基因检出个数≥6，序列比对到捕获区域的Reads≥2M，内含子比例≤10％，则样本数据质控通过；否则样本数据质控不通过，如果数据质控不通过，则需要重新实验。

进一步地，上述S3中序列比对及定位，即Clean Reads比对至hg19(GRCh37)人类参考基因组，去重后获得Clean Reads在基因组的比对位置信息是通过商业软件完成。更进一步地，比对与定位是使用BWA软件进行hg19(GRCh37)人类参考基因组比对，生成bam文件，并根据基因组坐标用novosort对bam文件进行排序，生成.sorted.bam文件，使用GATK插件MarkDuplicates去重生成mkdup.bam，获得Reads在基因组的比对位置信息。

进一步地，上述S3中校准，即Indel的重比对是通过商业软件完成。更进一步地，采用GATK插件RealignerTargetCreator矫正Indel的错配生成rmdup.realign.bam。

进一步地，上述S4中普通检测包括检测普通InDel突变和Complex突变，检测的最小突变频率为0.1％，检测普通InDel突变时错配碱基不前后延展以寻求插入或缺失，不采取local realignment；检测complex突变时在8bp以内前后延伸以寻找插入或缺失，采取local realignment；两类突变合并即为以hg19为参考基因组检出的突变，合并规则是尽可能多地保留检出突变。

进一步地，上述普通检测是通过商业软件完成。更进一步地，使用分析软件VarDict检测普通InDel突变，输出文件为*.raw.vcf；VardictComplex检测Complex突变，输出文件为complex/*.raw.vcf；检测普通Indel使用-X为0，表示错配碱基不前后延展以寻求插入或缺失，-k为0表示不采取local realignment；检测complex突变时设置核心参数有-X为8，表示在8bp以内前后延伸以寻找插入或缺失；-k为1表示采取软件内部的localrealignment；二者参数-f均为0.001，检测的最小突变频率为0.1％。

进一步地，上述S4中De Novo检测具体包括：

(1)确定重点区域；

(2)根据已知区域从hg19的序列中，确定重点区域的染色体位置，起始终止位置，提取拼接生成外显子参考序列；

(3)从序列校准的结果中提取重点区域的序列，然后将这些序列比对到外显子参考序列上；

(4)在比对到外显子参考序列上的结果中，检测突变；

(5)将在外显子参考序列的识别突变的结果，进行位置转换，由外显子位置转换为hg19基因组的位置。

进一步地，上述S4中重要的Indel区域包括：

基因	突变类型	区域
			EGFR	Indel	exon 18 del
EGFR	Indel	exon 19 del
			EGFR	Indel	exon 20 ins
ERBB2	Indel	exon 20 ins
			KIT	Indel	exon 11 Indel
PDGFRA	Indel	exon 12 Indel
			PDGFRA	Indel	exon 18 Indel

进一步地，上述S5中检出位点合并规则如下：

(1)保留hg19检出非重点区域的位点的结果；

(2)hg19未检出重点区域的位点，保留外显子参考序列检出的该位点的结果；

(3)hg19和外显子参考序列两者都检出的位点，检出结果以外显子参考序列检出结果为准。

作为本申请的第二方面，本申请提供了一种基于二代测序技术的RNA插入缺失突变的检测装置，包括：

数据输入模块，用于输入第一方面S1中目标基因的原始测序序列；

数据处理模块，用于根据输入数据完成第一方面所述的测序数据处理、序列比对与定位及校准、Indel检测、检出位点合并和突变过滤的数据处理；

结果输出模块，用于输出第一方面所述的突变过滤后保留的突变。

作为本申请的第三方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

作为本申请的第四方面，本申请提供了一种计算机存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

3.有益效果

本申请与现有技术相比，其有益效果在于：

本申请提供的一种基于二代测序技术的RNA插入缺失突变的检测方法、装置、设备和存储介质，采用特定区域拼接外显子序列检测Indel更适合RNA测序，用拼接后的外显子序列作为参考基因组，去除内含子序列的影响，将测序的RNA序列更好的比对到外显子拼接的参考基因组上，解决了由于内含子存在而导致的错检，漏检，频率偏低的问题，并将其与普通检测(h19基因组为参考基因组)识别的Indel合并，从而提高产品检测灵敏度和准确性。

附图说明

图1是本申请的分析流程图。

具体实施方式

下面结合具体实施例对本申请进一步进行描述。

需要说明的是，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等用语，亦仅为便于叙述的明了，而非用以限定可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本申请可实施的范畴。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如本文所使用，术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。

如本文所使用，术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如，“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。

浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解，这样的范围格式仅是为了方便和简洁而使用，并且应当灵活地解释为不仅包括明确叙述为范围极限的数值，而且还包括涵盖在所述范围内的所有单独的数值或子范围，就如同每个数值和子范围都被明确叙述一样。例如，约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值，而且还包括单独的数字(诸如2、3、4)和子范围(诸如1至3、2至4等)。相同的原理适用于仅叙述一个数值的范围，诸如“小于约4.5”，应当将其解释为包括所有上述的值和范围。此外，无论所描述的范围或特征的广度如何，都应当适用这种解释。

实施例1

本实施例提供一种基于二代测序技术的RNA插入缺失突变的检测方法，其流程如图1所示，具体包括如下步骤：

S1：肿瘤目标基因的获取

从肿瘤患者经福尔马林固定的石蜡包埋(FFPE)组织样本中提取RNA并进行反转录，然后进行末端修复，将粘末端修复成平末端；添加一个腺嘌呤脱氧核苷酸后，与带有特异序列的接头进行连接，构建文库；通过生物素标记的探针与文库进行液态杂交从而实现目标区域的捕获；利用带有链霉亲和素的磁珠通过生物素亲和素反应吸附探针捕获的目标片段，洗去未与探针结合的非目标片段，并通过PCR反应对目标片段进行富集。

S2：测序及数据处理

本实施例采用的华大MGI2000测序仪，使用基因测序仪及配套测序试剂进行测序，获得原始测序序列(Raw Reads)。

使用华大MGI2000测序仪软件分析每批次数据的测序质量Q30碱基占比，根据华大MGI2000测序仪的质控要求，批次测序数据碱基质量值达到30的比例≥85％则质控通过，进入后续预处理分析，否则质控不通过。Q30质控通过以后，使用splitBarcodeV2.0.0软件将华大MGI2000测序仪测序生成的BCL文件转化成样本对应的FASTQ文件。

根据样本的原始图像数据经碱基识别(Base calling)分析转化为原始测序序列(Sequenced Reads)，也就是Raw data或者Raw Reads，结果以FASTQ(简称为fq)文件格式存储，其中包含测序序列(Reads)的序列信息以及其对应的测序质量信息。高通量测序可以分为单端测序(single-end，简称SE)和双端测序(paired-end，简称PE)，本软件主要分析双端测序结果，Reads长度为100bp。bcl2fastq软件同时根据样本的引物序列(Barcode)将FASTQ数据拆分到不同的样本里面，从而得到每个样本的Raw data。

测序得到的原始数据中会有少量Reads包含接头信息、低质量碱基或未检出的碱基，对后续信息分析造成很大干扰，为了保证信息的分析质量，必须对Raw Reads进行精细过滤，得到Clean Reads，后续分析都基于Clean Reads，本实施例使用分析软件的数据预处理模块(基于Trimmomatic-0.36软件)去除建库过程引入的接头序列以及低质量的碱基片段。去除接头以及引物序列需要权衡灵敏度(保证接头和引物去除干净)和特异性(保证不是接头和引物的序列不被误切除)，理论上接头序列和引物序列可能出现在Reads中的任何位置，但实际上序列中出现接头和引物大部分情况下都是由于文库插入片段比测序读长短导致的，这种情况在Reads的开头部分是有一段可用序列的，末端包含了接头的全长或部分序列，因此需要对序列进行裁剪。原始Reads主要进行以下过滤：

(1)测序Reads从起始位置开始就包含了完整的接头序列(Adapter)，直接过滤整条Reads；

(2)在PE测序模式下如果文库的插入片段比测序读长短，那么Read1和Read2中非接头序列的那部分会完全反向互补，Trimmomatic软件中‘palindrome’模式利用这个特点对接头序列进行去除。其原理是利用正反向测序Reads中一段碱基可以完全反向互补的特点，将两个接头序列与Reads进行比对，同时两条Reads之间也互相比对，可以将3'末端接头序列准确去除。具体方式如下：将Reads与包含接头和引物的序列(所有被视为污染的序列)进行允许2个错配碱基的比对，针对PE测序Read1和Read2之间比对分值至少为30才进行接头切除，切除接头序列的最低比对分值至少为10，允许切除的最短接头序列为8bp，保留与Read1完全反向互补的Read2；

(3)切除Reads首尾端质量值小于3的碱基；

(4)设置4bp的滑动窗口，统计滑动窗口中所有碱基的平均质量值，如果低于20这个窗口就会被剪切掉，剪切后保留的Read长度最小为51bp。

数据质控环节，主要是针对数据预处理和基因表达的结果进行质量评估，通过设置判断阈值，评估样本测序质量是否符合要求。数据质控包括每个样本的Q30碱基占比、序列比对到参考基因组比例、看家基因检出个数、序列比对到捕获区域的Reads、内含子比例等参数。如果Q30碱基占比≥85％，序列比对至参考基因组比例≥90％，看家基因检出个数≥6，序列比对到捕获区域的Reads≥2M，内含子比例≤10％则样本数据质控通过；否则样本数据质控不通过。如果数据质控不通过，则需要重新实验。

S3：序列比对与定位与校准

将原始数据进行预处理之后，先经过BWA软件进行hg19(GRCh37)人类参考基因组比对，生成bam文件，并根据基因组坐标用novosort对bam文件进行排序，生成.sorted.bam文件，使用GATK插件MarkDuplicates去重生成mkdup.bam，获得Reads在基因组的比对位置信息。

序列校准，因为扩增错误在扩增过程中会放大假阳，采用GATK插件RealignerTargetCreator矫正Indel的错配生成rmdup.realign.bam。

S4：Indel检测，包括普通Indel检测和De Novo检测Indel；

普通Indel检测：使用分析软件VarDict检测InDel，输出文件为*.raw.vcf；VardictComplex检测Complex突变，输出文件为complex/*.raw.vcf。检测普通Indel使用-X为0表示错配碱基不前后延展以寻求insersion or deletion，-k为0表示不采取localrealignment。检测complex突变时设置核心参数有-X为8，表示在8bp以内前后延伸以寻找insersion or deletion；-k为1表示采取软件内部的local realignment。二者参数-f均为0.001，检测的最小突变频率为0.1％。两类突变合并即为以hg19为参考基因组检出的突变，合并规则是尽可能多地保留检出突变。

De Novo检测Indel：重要Indel区域进行gtf注释，找到重点外显子区，将外显子片段序列拼接为新的参考基因组，称为外显子参考序列。从序列校准的结果中提取比对到重要Indel区域的Reads序列，然后将该部分序列重新比对到外显子参考序列上，识别Indel突变。流程如下：

(1)确定下表重点区域；

(3)从序列校准的结果中提取重要区域的序列的名字，然后从clean fastq中根据序列的名字，提取序列的详细信息，然后将这些序列比对到外显子参考序列上；

(4)使用vardict complex模式，在比对到外显子参考序列上的结果中，检测突变；

S5：检出位点合并

包括将普通检测和De Novo检测出的突变进行合并，得到合并的突变位点；

最终结果需要hg19检出位点与外显子参考序列检出位点合并。合并规则如下：

(1)保留hg19检出非重点区域的位点的结果；

S6：突变过滤

过滤掉Support reads＜4和Freq≤0.5的突变，保留的突变即为RNA插入缺失突变，其中Support reads指支持突变的reads，Freq指支持突变的reads数与覆盖该位点所有reads的比例。

实施例2

本实施例提供一种基于二代测序技术的RNA插入缺失突变的检测方法的灵敏度分析，具体如下：

采用已知Indel位点信息的阳性样本进行文库构建、杂交捕获、上机测序和测序数据处理分析，实验过程和上机测序参考实施例1，测序数据进行数据预处理、数据质控、序列比对、序列校准。然后分别进行普通Indel分析和De Novo分析，对各自的灵敏度进行分析。

从上述结果可知，采用De Novo方法检测Indel，可以检测出更多Indel，提高灵敏度。

实施例3

本实施例提供一种基于二代测序技术的RNA插入缺失突变的检测方法的准确性分析，具体如下：

采用263例临床队列样本进行文库构建、杂交捕获、上机测序和测序数据处理分析，实验过程和上机测序参考实施例1，测序数据处理分析参考实施例2。检测263例样本的Indel结果，检测结果与对照方法进行一致性分析。

从上述结果可知，对263例样本进行Indel分析，阴阳性符合率≥95％，二者一致性较好。

实施例4

本实施例提供了一种基于二代测序技术的RNA插入缺失突变的检测装置，包括：

数据输入模块，用于输入从患者样本中提取RNA，并构建cDNA文库；靶向捕获目标基因片段并通过PCR扩增富集后文库的原始测序序列Raw Reads(或称为Raw data)；

数据处理模块，用于根据输入数据完成测序数据处理、序列比对与定位及校准、Indel检测、检出位点合并和突变过滤的数据处理；其中：

测序数据处理，包括对Raw Reads进行精细过滤获得Clean Reads，所述精细过滤包括去除建库过程引入的接头序列、引物、低质量的碱基片段和/或未检出的碱基，接头序列、引物、低质量的碱基片段和/或未检出的碱基容易对后续信息分析造成干扰，为了保证信息的分析质量，因此需要去除，

序列比对与定位及校准，包括将处理后的Clean Reads比对至hg19(GRCh37)人类参考基因组，去重后获得Clean Reads在基因组的比对位置信息；进行Indel的重比对，即将比对过程中所发现的序列插入或者序列删除的区域进行重新矫正，

Indel检测，包括普通检测和De Novo检测，普通检测包括以hg19为参考基因组识别突变；De Novo检测包括寻找包含重要的Indel区域外显子区，将外显子片段序列拼接为新的参考基因组(称为外显子参考序列)，从序列校准的结果中提取比对到重要Indel区域的Reads序列，将该部分序列重新比对到外显子参考序列上，识别Indel突变，

检出位点合并，包括将普通检测和De Novo检测出的突变进行合并，得到合并的突变位点，

突变过滤，包括过滤掉Support reads＜4和Freq≤0.5的突变，保留的突变即为RNA插入缺失突变，其中Support reads指支持突变的reads，Freq指支持突变的reads数与覆盖该位点所有reads的比例；

结果输出模块，用于输出数据处理模块中突变过滤后保留的突变。

Claims

1.一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述方法具体包括如下步骤：

S1：目标基因的获取，从患者样本中提取RNA，并构建cDNA文库；靶向捕获目标片段并通过PCR扩增富集；

S2：测序及数据处理，通过测序仪获得S1中目标基因的原始测序序列Raw Reads；对RawReads进行精细过滤获得Clean Reads，所述精细过滤包括去除建库过程引入的接头序列、引物、低质量的碱基片段和/或未检出的碱基；

S3：序列比对与定位及校准，将处理后的Clean Reads比对至hg19人类参考基因组；去重后获得Clean Reads在基因组的比对位置信息；并进行Indel的重比对，即将比对过程中所发现的序列插入或者序列删除的区域进行重新矫正；

S4：Indel检测，包括普通检测和De Novo检测，普通检测包括以hg19为参考基因组识别突变；De Novo检测包括寻找包含重要的Indel区域的外显子区，将外显子片段序列拼接为新的参考基因组，从序列校准的结果中提取比对到重要Indel区域的Reads序列，然后将该部分序列重新比对到外显子参考序列上，识别Indel突变；

S6：突变过滤，过滤掉Support reads＜4和Freq≤0.5的突变，保留的突变即为RNA插入缺失突变，其中Support reads指支持突变的reads，Freq指支持突变的reads数与覆盖该位点所有reads的比例。

2.根据权利要求1所述的一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述样本包括肿瘤组织样本；所述目标基因包括EGFR、ERBB2、KIT和PDGFRA中的一种或多种。

3.根据权利要求1或2所述的一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述S2中精细过滤原则包括：

(2)在双端测序模式下，将Reads与包含接头和引物的序列进行允许2个错配碱基的比对，针对PE测序Read1和Read2之间比对分值至少为30才进行接头切除，切除接头序列的最低比对分值至少为10，允许切除的最短接头序列为8bp，保留与Read1完全反向互补的Read2；

(3)切除Raw Reads首尾端质量值小于3的碱基；

4.根据权利要求3所述的一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述数据质控中如果Q30碱基占比≥85％，序列比对至参考基因组比例≥90％，看家基因检出个数≥6，序列比对到捕获区域的Reads≥2M，内含子比例≤10％，则样本数据质控通过。

5.根据权利要求3或4所述的一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述S4中普通检测包括检测普通InDel突变和Complex突变，检测的最小突变频率为0.1％，检测普通InDel突变时错配碱基不前后延展以寻求插入或缺失，不采取localrealignment；检测complex突变时在8bp以内前后延伸以寻找插入或缺失，采取localrealignment；两类突变合并即为以hg19为参考基因组检出的突变，合并规则是尽可能多地保留检出突变。

6.根据权利要求5所述的一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述S4中De Novo检测具体包括：

(1)确定重点区域；

(4)在比对到外显子参考序列上的结果中，检测突变；

7.根据权利要求6所述的一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述重点区域包括：

基因EGFR，exon 18del、exon 19del、exon 20ins区域；

基因ERBB2，exon 20ins区域；

基因KIT，exon 11Indel区域；

基因PDGFRA，exon 12Indel、exon 18Indel区域。

8.根据权利要求7所述的一种基于二代测序技术的RNA插入缺失突变的检测方法，其特征在于，所述S5中检出位点合并规则如下：

(1)保留hg19检出非重点区域的位点的结果；

9.一种基于二代测序技术的RNA插入缺失突变的检测装置，其特征在于，包括：

数据输入模块，用于输入权利要求1-8任一所述方法中目标基因的原始测序序列；

数据处理模块，用于根据输入数据完成权利要求1-8任一所述方法中测序数据处理、序列比对与定位及校准、Indel检测、检出位点合并和突变过滤的数据处理；其中：

测序数据处理，包括对Raw Reads进行精细过滤获得Clean Reads，所述精细过滤包括去除建库过程引入的接头序列、引物、低质量的碱基片段和/或未检出的碱基，

序列比对与定位及校准，包括将处理后的Clean Reads比对至hg19人类参考基因组，去重后获得Clean Reads在基因组的比对位置信息；进行Indel的重比对，即将比对过程中所发现的序列插入或者序列删除的区域进行重新矫正，

Indel检测，包括普通检测和De Novo检测，普通检测包括以hg19为参考基因组识别突变；De Novo检测包括寻找包含重要的Indel区域外显子区，将外显子片段序列拼接为新的参考基因组，从序列校准的结果中提取比对到重要Indel区域的Reads序列，将该部分序列重新比对到外显子参考序列上，识别Indel突变，

10.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现权利要求1-8任一实现方式所描述的方法。

11.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。