CN110164504A

CN110164504A - 二代测序数据的处理方法、装置及电子设备

Info

Publication number: CN110164504A
Application number: CN201910444043.1A
Authority: CN
Inventors: 卢宇蓝; 黎籽秀
Original assignee: Childrens Hospital of Fudan University
Current assignee: Childrens Hospital of Fudan University
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-08-23
Anticipated expiration: 2039-05-27
Also published as: CN110164504B

Abstract

本申请公开了一种二代测序数据的处理方法、装置及电子设备。其中的方法包括：获取待筛选的二代测序数据；所述待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释；所述第一注释包括测序信息；获取参考数据库；所述参考数据库至少包括：第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库；根据所述参考数据库，对所述待筛选的二代测序数据进行注释添加处理，按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理，输出筛选的变异位点及经注释添加后的所述第一注释。

Description

二代测序数据的处理方法、装置及电子设备

技术领域

本申请涉及生物信息技术领域，尤其涉及一种二代测序数据的处理方法、装置及电子设备。

背景技术

脱氧核糖核酸(deoxyribonucleic acid，DNA)，是生物染色体的主要组成成分，同时也是生物的主要遗传物质。DNA分子巨大，是由核苷酸组成的序列。DNA测序技术，即测定DNA序列的技术，对生物医疗都具有重大意义。尤其在医疗中，通过分析DNA序列，可以协助临床诊断。Sanger测序技术是第一代DNA测序技术，随着科技的发展，第二代DNA测序技术(简称二代测序技术)也逐渐成熟，相比Sanger测序技术，二代测序技术具有通量高、精度高、成本低的优点。

由于高通量，二代测序技术会产生大量的测序数据，因此，二代测序技术也带来了处理和分析大规模数据的挑战。目前，在消除实验误差、序列片段拼装和定位变异位点等方面对二代测序数据进行处理的方法和流程已经较为完善。经过相关技术处理之后的二代测序数据，可以定位变异位点，但是仍然无法直接应用于临床诊断，主要是因为：

第一，变异位点数据量大。以一份平均测序深度120倍的全外显子检测数据为例，经标准流程处理后,即从二代测序技术得到的二代测序数据的原始文件出发，与参考基因组对比寻找变异位点，一个样本所产生的变异位点数量大约在10万个左右,这些变异位点已经经过实验流程筛选和一定的概率模型筛选，本身作为真实存在的变异位点概率极高(视筛选流程参数而定，可以达到99.99％以上)，从测序技术的层面上已经很难进一步筛选。此阶段的数据体现了二代测序技术大通量的特性，试图通过人工来判断每个变异位点的临床意义是不现实的。

第二，变异结果信息不足。二代测序技术本身所产出的变异位点，其结果中仅包含该变异在基因上发生的位置、变异类型和核型，其关注点在于变异位点本身的存在情况,缺少对变异位点的致病性的分析。

发明内容

本申请的目的是提供一种二代测序数据的处理方法、装置及电子设备，以解决相关技术中经过处理之后的二代测序数据无法直接应用于临床诊断的问题。

本申请的目的是通过以下技术方案实现的：

一种二代测序数据的处理方法，包括：

获取待筛选的二代测序数据；所述待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释；所述第一注释包括测序信息；

获取参考数据库；所述参考数据库至少包括：第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库；所述第一类数据库包括变异位点及对应的第二注释，所述第二注释包括已报道不致病或者已报道可能致病或者已报道明确致病；所述第二类数据库包括基因位置的注释，所述基因位置的注释包括外显子的捕获区域在基因组上的定位；所述第三类数据库包括已报道与疾病相关的基因；第四类数据库包括基因组上的变异位点以及对应的第三注释，所述第三注释包括基因组上的变异位点在公共人群中出现的频率及核型；所述第五类数据库包括变异位点以及对应的第四注释，所述第四注释包括变异位点在目标地区人群中出现的频率及目标地区的临床报告；所述第六类数据库包括变异位点及对应的第五注释，所述第五注释包括变异位点所属基因已知相关的疾病、疾病的遗传模式、基因功能；

根据所述参考数据库，对所述待筛选的二代测序数据进行注释添加处理，按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理，输出筛选的变异位点及经注释添加后的所述第一注释。

可选的，所述注释添加处理，至少包括：

对所述待筛选的二代测序数据中存在于所述第一类数据库中的变异位点的所述第一注释添加所述第二注释；

根据所述第二类数据库、所述第三类数据库和所述第四类数据库，对所述待筛选的二代测序数据中、满足第一添加条件的所述待筛选的变异位点的所述第一注释添加注释：若所述待筛选的变异位点位于以所述外显子的捕获区域为基准外扩的区域内，添加第一标记注释，若存在于所述第四类数据库中，添加所述第三注释，若位于已报道与疾病相关的基因，添加变异位点所属已报道与疾病相关的基因；所述第一添加条件包括已报道明确致病的变异位点以外的变异位点；所述第一标记注释包括位于所述外扩的区域内；

对所述待筛选的二代测序数据中满足第二添加条件、且存在于所述第五类数据库中的所述待筛选的变异位点的所述第一注释添加所述第四注释；所述第二添加条件包括：所述待筛选的变异位点位于所述外扩的区域内且不存在于所述第四类数据库中，或者，位于所述外扩的区域内、存在于所述第四类数据库中且核型未见纯合变异，或者，位于所述外扩的区域内、存在于所述第四类数据库中、核型包括纯合变异、位于已报道与疾病相关的基因上且在公共人群中出现的频率小于第一预设频率；

通过预设算法对所述待筛选的二代测序数据中满足所述第二添加条件、且满足第三添加条件的所述待筛选的变异位点进行基因定位和危害等级预测，并添加第二标记注释；所述第二标记注释包括预测的危害等级，所述第三添加条件包括所述待筛选的变异位点不位于所述第五类数据库，或者，位于所述第五类数据库且在目标地区人群中出现的频率小于第二预设频率；

将所述待筛选的二代测序数据中满足所述第二添加条件、所述第三添加条件、且满足第四添加条件的所述待筛选的变异位点添加所述第五注释；所述第四添加条件包括所述待筛选的变异位点位于已报道与疾病相关的基因，或者预测的危害等级为最高等级，或者预测的危害等级低于最高等级且为非同义变异。

可选的，所述按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理，包括：

将满足第一筛选条件的所述待筛选的变异位点添加到第一变异位点筛选集合中；所述第一筛选条件包括所述第一注释中添加有所述第二注释且所述第二注释包括已报道明确致病；

将满足第二筛选条件的所述待筛选的变异位点添加到第二变异位点筛选集合中；所述第二筛选条件包括所述第一注释中添加有变异位点所属已报道与疾病相关的基因、且未添加所述第三注释和所述第四注释；

将满足第三筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中；所述第三筛选条件包括所述第一注释中添加有所述第一标记注释，添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率，添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率，添加有变异位点所属已报道与疾病相关的基因；

将满足第四筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中；所述第四筛选条件包括所述第一注释中添加有所述第一标记注释，添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率，添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率，添加有所述第二标记注释且所述第二标记注释包括最高等级；

将满足第五筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中；所述第五筛选条件包括所述第一注释中添加有所述第一标记注释，添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率，添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率，所述待筛选的变异位点为非同义变异；

将满足第六筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中；所述第六筛选条件包括所述第一注释中添加有所述第一标记注释，添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率，添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率，所述待筛选的变异位点的核型包括纯合或者半合；

将满足第七筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中；所述第七筛选条件包括所述第一注释中添加有所述第一标记注释，添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率，添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率，所述待筛选的变异位点所属基因包括的变异位点的数量大于或者等于第一预设数量；

将满足第八筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中；所述第八筛选条件包括所述第一注释中添加有所述第一标记注释，添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率，添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率，添加有所述第五注释且所述待筛选的变异位点所属基因疾病的遗传模式包括常显或者伴性，且外显率不全满足第一预设程度，且在所述第四类数据库中公共人群中出现的频率小于所述第一预设频率、出现的次数小于第一预设次数；

将满足第九筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中；所述第九筛选条件包括所述第一注释中添加有所述第一标记注释，添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率，添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率，所述待筛选的变异位点所属基因外显率不全满足第二预设程度，且在所述第四类数据库中公共人群中出现的频率小于所述第一预设频率、出现的次数小于第二预设次数。

可选的，所述输出筛选的变异位点，包括：

将所述第一变异位点筛选集合和所述第二变异位点筛选集合中的所述待筛选的变异位点输出，得到筛选的变异位点。

可选的，所述测序信息包括测序深度；

所述将满足第九筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中之后，还包括：

将所述第二变异位点筛选集合中满足第十筛选条件的所述待筛选的变异位点添加到第三变异位点筛选集合中；所述第十筛选条件包括：所述待筛选的变异位点的测序深度大于预设深度且所述第一注释中添加有变异位点所属已报道与疾病相关的基因；

将所述第二变异位点筛选集合中满足第十一筛选条件的所述待筛选的变异位点添加到所述第三变异位点筛选集合中；所述第十一筛选条件包括：所述待筛选的变异位点的测序深度大于预设深度，且所述第一注释中添加未有变异位点所属已报道与疾病相关的基因，且所述待筛选的变异位点的质量达到PASS级别，且所述待筛选的变异位点距离剪切位点小于预设碱基数量，且所述待筛选的变异位点所属基因小于第二预设数量或者同一个外显子上的变异位点小于第三预设数量。

可选的，所述输出筛选的变异位点，包括：

将所述第一变异位点筛选集合和所述第三变异位点筛选集合中的所述待筛选的变异位点输出，得到筛选的变异位点。

可选的，所述获取待筛选的二代测序数据之前，所述方法还包括：

获取二代测序数据的原始数据；

将所述原始数据处理成预设标准格式的数据，并进行质量检测以筛除误检的变异位点，得到所述待筛选的二代测序数据。

可选的，所述第一类数据库包括HGMD数据库和/或ClinVar数据库；

和/或，所述第二类数据库包括GENCODE数据库；

和/或，所述第四类数据库包括千人基因组数据库和/或ExAC数据库。

一种二代测序数据的处理装置，包括：

第一获取模块，用于获取待筛选的二代测序数据；所述待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释；所述第一注释包括测序信息；

第二获取模块，用于获取参考数据库；所述参考数据库至少包括：第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库；所述第一类数据库包括变异位点及对应的第二注释，所述第二注释包括已报道不致病或者已报道可能致病或者已报道明确致病；所述第二类数据库包括基因位置的注释，所述基因位置的注释包括外显子的捕获区域在基因组上的定位；所述第三类数据库包括已报道与疾病相关的基因；第四类数据库包括基因组上的变异位点以及对应的第三注释，所述第三注释包括基因组上的变异位点在公共人群中出现的频率及核型；所述第五类数据库包括变异位点以及对应的第四注释，所述第四注释包括变异位点在目标地区人群中出现的频率及目标地区的临床报告；所述第六类数据库包括变异位点及对应的第五注释，所述第五注释包括变异位点所属基因已知相关的疾病、疾病的遗传模式、基因功能；

处理模块，用于根据所述参考数据库，对所述待筛选的二代测序数据进行注释添加处理，按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理，输出筛选的变异位点及经注释添加后的所述第一注释。

一种电子设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如以上任一项所述的方法。

本申请采用以上技术方案，具有如下有益效果：

由于相关技术中基于二代测序技术产生的二代测序数据的变异位点的数据量非常大，且二代测序数据只关注变异位点本身的情况，信息量不足，导致相关技术中二代测序数据无法直接应用于临床诊断，为此，本申请提供了一种二代测序数据的处理方案，根据参考数据库从大量的二代测序数据中筛选出有价值的变异位点，并对变异位点添加注释丰富其信息量，最后得到的变异位点具有高度的临床诊断价值，可以直接为临床诊断提供参考依据。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的一种二代测序数据的处理方法流程图；

图2为本申请一个实施例提供的一种添加注释的方法流程图；

图3为本申请一个实施例提供的一种筛选处理的方法流程图；

图4为本申请一个实施例提供的一种二代测序数据的处理装置结构图；

图5为本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

实施例

参见图1，图1是本申请一个实施例提供的一种二代测序数据的处理方法的流程图。

如图1所示，本实施例提供一种二代测序数据的处理方法，至少包括以下步骤：

步骤11、获取待筛选的二代测序数据；待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释；第一注释包括测序信息。

其中，测序信息是指二代测序技术产生的基本信息，比如，测序深度、质量级别，变异位点在基因组上的定位、变异类型和核型。

其中，变异位点的定位是指突变位于基因组中哪个染色体的第几位核苷酸上。

其中，变异类型包括单核苷酸突变、小片段缺失或插入。

其中，核型包括纯合或者杂合。

步骤12、获取参考数据库；参考数据库至少包括：第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库；第一类数据库包括变异位点及对应的第二注释，第二注释包括已报道不致病或者已报道可能致病或者已报道明确致病；第二类数据库包括基因位置的注释，基因位置的注释包括外显子的捕获区域在基因组上的定位；第三类数据库包括已报道与疾病相关的基因；第四类数据库包括基因组上的变异位点以及对应的第三注释，第三注释包括基因组上的变异位点在公共人群中出现的频率及核型；第五类数据库包括变异位点以及对应的第四注释，第四注释包括变异位点在目标地区人群中出现的频率及目标地区的临床报告；第六类数据库包括变异位点及对应的第五注释，第五注释围绕变异位点所属的基因展开，包括变异位点所属基因已知相关的疾病、疾病的遗传模式、基因功能，其中，疾病的遗传模式包括常显或者伴性，并且显示外显率。

步骤13、根据参考数据库，对待筛选的二代测序数据进行注释添加处理，按照预设策略对经过注释添加处理后的待筛选的二代测序数据进行变异位点筛选处理，输出筛选的变异位点及经注释添加后的第一注释。

其中，第一类数据库的来源可以包括各种变异位点的致病情况的文献报道，比如，可以包括HGMD数据库，还可以包括ClinVar数据库，这是两种已知的数据库，还可以包括其它符合条件的数据库。还可以包括新发突变危害预测，比如，基于Polyphen2、MutationTaster和SIFT的预测。

其中，第二类数据库可以体现基因的位置，比如，可以包括GENCODE数据库。

其中，第三类数据库中包括的已报道与疾病相关的基因，可以是预先通过各种方式采集得到的。

其中，第四类数据库可以包括公共人群数据库，比如，包括千人基因组数据库，还可以包括ExAC数据库，列举的这两种数据库是现有的数据库。

其中，第五类数据库可以包括目标地区人群(即待筛选的变异基因的采集患者所在地)数据库，可以通过预先采集得到。

其中，第六类数据库包括的变异位点所属基因已知相关的疫病等等信息也可以通过预先采集得到。

由于相关技术中二代测序技术的处理平台有不同版本，相应的，产生的二代测序数据的原始数据中对测序结果的表达方式也不同。以缺失突变为例，假设第一、第二、第三位置的CAT发生了缺失A的突变，变成了CT，有的表示方式为第二位的A缺失了，有的表示方式为第一、第二位的CA变成了C。再比如，突变的存储方式不同，有的是不同的突变存储在不同的文件中，有的是所有突变都存在一个文件中。为了使得本方案能够适应各种处理平台的测序数据，获取待筛选的二代测序数据之前，本实施例的方法还可以包括：获取二代测序数据的原始数据；将原始数据处理成预设标准格式的数据，并进行质量检测以筛除误检的变异位点，得到待筛选的二代测序数据。如此，将原始数据的格式进行了标准化处理，处理结果更加准确。具体的，对于缺失/插入突变，在对比参考基因组的情况下，统一采用“左对齐”的记录方式，即：在发生缺失/插入突变的位置左边，保留且仅保留一位未发生改变的参考序列，并将其保留在突变过程的描述中。例如，对于CAT中缺失A而变为CT的突变，“左对齐”的描述方式为：CA变成了C。

误检的变异位点是指由二代测序技术本身的误差导致的误检的变异位点。二代测序技术表达位点时，包括属于参考序列的测序片段的位点的数量P，即未发生突变的数量，属于突变序列的测序片段的位点的数量Q，即发生突变的数量，满足测序质量要求的片段总数S，如果P与Q的和大于S，说明P和Q中有混淆的位点，需要把它删除。

具体实施时，由于参考数据库中包括多个类别的数据库，根据多个类别的数据库进行注释添加处理和筛选处理的具体实现方式有多种，发明人综合考虑了结果的准确性、处理速度等多种因素，创造性的提出了一种注释添加处理和筛选处理的步骤。以下进行具体介绍。

参见图2，图2是本申请一个实施例提供的一种注释添加处理方法的流程图。

如图2所示，注释添加处理方法至少包括以下步骤：

步骤21、对待筛选的二代测序数据中存在于第一类数据库中的变异位点的第一注释添加第二注释。

本步骤中，对于文献中已报道明确致病情况的变异位点进行注释添加，标记该位点，并丰富注释信息。

步骤22、根据第二类数据库、第三类数据库和第四类数据库，对待筛选的二代测序数据中、满足第一添加条件的待筛选的变异位点的第一注释添加注释：若待筛选的变异位点位于以外显子的捕获区域为基准外扩的区域内，添加第一标记注释，若存在于第四类数据库中，添加第三注释，若位于已报道与疾病相关的基因，添加变异位点所属已报道与疾病相关的基因；第一添加条件包括已报道明确致病的变异位点以外的变异位点；第一标记注释包括位于外扩的区域内。

由于已报道明确致病的变异位点是已明确致病的，为了减少数据处理，本步骤中，仅对已报道明确致病的变异位点以外的变异位点进行注释添加。

由于在变异位点捕获时，对于可能致病的非基因区域也进行提取，又由于我们已经将已明确致病的变异位点标记出来，那么，非基因区域已明确致病的变异位点也就被标记出来，在后续的处理中，非基因区域就可以不参与了，如此，可以进一步减少数据处理，提高处理效率，基于此，对于不属于编码蛋白质基因的位置不进行处理，又由于不同版本的基因表达方式，外显子的区域是不同的，为了适应不同的版本，可以将不同版本的外显子区域合并，取最长的外显子，并且外扩一定数量的碱基数量，即得到上述以外显子区域为基准外扩的区域，一般，外扩的碱基数量可以是5～20bp，可选的，为15bp。

步骤23、对待筛选的二代测序数据中满足第二添加条件、且存在于第五类数据库中的待筛选的变异位点的第一注释添加第四注释；第二添加条件包括：待筛选的变异位点位于外扩的区域内且不存在于第四类数据库中，或者，位于外扩的区域内、存在于第四类数据库中且核型未见纯合变异，或者，位于外扩的区域内、存在于第四类数据库中、核型包括纯合变异、位于已报道与疾病相关的基因上且在公共人群中出现的频率小于第一预设频率。其中，第一预设频率可以是0.5％～1％，可选的为0.5％。

本步骤中，如果第四类数据库包括千人基因组数据库和ExAC数据库，需要对两个数据库进行预处理：将两个数据库合并，并且将两个数据库中，参考第一类数据库，将已明确致病的变异位点去除，参考第二类数据库，将上述外扩的区域外的变异位点去除，这些变异位点已无需处理，如此，可以提高处理效率。

本步骤中，对于各种有价值的情况进行了注释，其中，如果变异位点存在于第四数据库中，如果变异位点位于已报道与疾病相关的基因上且在公共人群中出现的频率较小，说明不是公共人群所特有的，可能是致病性的变异，需要注释出来，为筛选提供依据。

步骤24、通过预设算法对待筛选的二代测序数据中满足第二添加条件、且满足第三添加条件的待筛选的变异位点进行基因定位和危害等级预测，并添加第二标记注释；第二标记注释包括预测的危害等级，第三添加条件包括待筛选的变异位点不位于第五类数据库，或者，位于第五类数据库且在目标地区人群中出现的频率小于第二预设频率。第二预设频率可以为2％～5％，可选的为2％。

本步骤中，具体的，可以采用ANNOVAR和VEP两个软件进行处理，本方案可以综合参考两个软件的结果，定位变异位点所属基因以及预测危害等级，定位时，如果变异位点位于两个具有重叠区域的基因上，根据基因的致病性和严重性确定将变异位点归为哪个基因，如果变异位点所属的第一个基因是致病的，所属的第二个基因是不致病或者严重有害，则确定变异位点属于第一个基因；如果变异位点所属第一基因是不致病的，所属第二个基因是严重有害的，则确定变异位点属于第二个基因。预测的危害等级为严重有害以及确定最终的危害等级，其中，危害等级包括危害较小、危害中等和严重有害等级别，严重有害的等级最高。本步骤中，按照变异位点对基因转录和蛋白质的影响(即变异结果)对变异位点进行分类，所包括类别包括影响剪切位点、终止/起始密码子变异和移码变异的变异位点，以及非同义变异位点，等等，将这些类别的变异位点的危害等级确定为危害等级最高，该类型的变异位点将被标记并为筛选提供依据。其中，如果变异位点在目标地区人群中出现的频率非常小，说明不是该人群特有的，可能是致病性的变异，需要注释出来，为筛选提供依据。

步骤25、将待筛选的二代测序数据中满足第二添加条件、第三添加条件、且满足第四添加条件的待筛选的变异位点添加第五注释；第四添加条件包括待筛选的变异位点位于已报道与疾病相关的基因，或者预测的危害等级为最高等级，或者预测的危害等级低于最高等级且为非同义变异。

基于以上注释添加处理步骤，可以参考注释对待筛选的二代测序数据进行变异位点的筛选，如此，上述步骤13中，按照预设策略对经过注释添加处理后的待筛选的二代测序数据进行变异位点筛选处理，如图3所示，具体实现方式可以是：

步骤31、将满足第一筛选条件的待筛选的变异位点添加到第一变异位点筛选集合中；第一筛选条件包括第一注释中添加有第二注释且第二注释包括已报道明确致病；

步骤32、将满足第二筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第二筛选条件包括第一注释中添加有变异位点所属已报道与疾病相关的基因、且未添加第三注释和第四注释；

步骤33、将满足第三筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第三筛选条件包括第一注释中添加有第一标记注释，添加有第三注释且未见纯合变异、在公共人群中出现的频率小于第一预设频率，添加有第四注释且在目标地区人群中出现的频率小于第二预设频率，添加有变异位点所属已报道与疾病相关的基因；

步骤34、将满足第四筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第四筛选条件包括第一注释中添加有第一标记注释，添加有第三注释且未见纯合变异、在公共人群中出现的频率小于第一预设频率，添加有第四注释且在目标地区人群中出现的频率小于第二预设频率，添加有第二标记注释且第二标记注释包括最高等级；

步骤35、将满足第五筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第五筛选条件包括第一注释中添加有第一标记注释，添加有第三注释且未见纯合变异、在公共人群中出现的频率小于第一预设频率，添加有第四注释且在目标地区人群中出现的频率小于第二预设频率，待筛选的变异位点为非同义变异；

步骤36、将满足第六筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第六筛选条件包括第一注释中添加有第一标记注释，添加有第三注释且未见纯合变异、在公共人群中出现的频率小于第一预设频率，添加有第四注释且在目标地区人群中出现的频率小于第二预设频率，待筛选的变异位点的核型包括纯合或者半合；

步骤37、将满足第七筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第七筛选条件包括第一注释中添加有第一标记注释，添加有第三注释且未见纯合变异、在公共人群中出现的频率小于第一预设频率，添加有第四注释且在目标地区人群中出现的频率小于第二预设频率，待筛选的变异位点所属基因包括的变异位点的数量大于或者等于第一预设数量；第一预设数量的范围可以是2～5，可选的，为2。

步骤38、将满足第八筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第八筛选条件包括第一注释中添加有第一标记注释，添加有第三注释且未见纯合变异、在公共人群中出现的频率小于第一预设频率，添加有第四注释且在目标地区人群中出现的频率小于第二预设频率，添加有第五注释且待筛选的变异位点所属基因疾病的遗传模式包括常显或者伴性，且外显率不全满足第一预设程度，且在第四类数据库中公共人群中出现的频率小于第一预设频率、出现的次数小于第一预设次数；其中，第一预设次数可以是30～300，可选的是60。第一预设程度是指多见外显率不全，具体可以根据实际需要进行设置。

步骤39、将满足第九筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中；第九筛选条件包括第一注释中添加有第一标记注释，添加有第三注释且未见纯合变异、在公共人群中出现的频率小于第一预设频率，添加有第四注释且在目标地区人群中出现的频率小于第二预设频率，待筛选的变异位点所属基因外显率不全满足第二预设程度，且在第四类数据库中公共人群中出现的频率小于第一预设频率、出现的次数小于第二预设次数。其中，第二预设次数可以是3～5，可选的是3。第二预设程度是指偶见外显率不全，具体可以根据实际需要进行设置。

经过上述筛选步骤之后，还可以获取预先处理的基因组单碱基重复区域；

对第一变异位点筛选集合和第二变异位点筛选集合中，位于重复区域或者包含重复区域的预设区域内的待筛选的变异位点在第一注释中添加第三标记注释；第三标记注释包括位于重复区域或者预设区域，或者，未位于重复区域或者预设区域。

上述输出筛选的变异位点，具体的可以是：将第一变异位点筛选集合和第二变异位点筛选集合中的待筛选的变异位点输出，得到筛选的变异位点。

本实施中，经过一系列的筛选步骤，得到的变异位点已经非常少了，而且添加有非常丰富的注释信息，可以给临床诊断提供最有价值的参考。

为了进一步减少筛选出来的变异位点的数量，找到更加有价值的变异位点，本实施例中，将满足第九筛选条件的待筛选的变异位点添加到第二变异位点筛选集合中之后，还可以包括：将第二变异位点筛选集合中满足第十筛选条件的待筛选的变异位点添加到第三变异位点筛选集合中；第十筛选条件包括：待筛选的变异位点的测序深度大于预设深度且第一注释中添加有变异位点所属已报道与疾病相关的基因；将第二变异位点筛选集合中满足第十一筛选条件的待筛选的变异位点添加到第三变异位点筛选集合中；第十一筛选条件包括：待筛选的变异位点的测序深度大于预设深度，且第一注释中添加未有变异位点所属已报道与疾病相关的基因，且待筛选的变异位点的质量达到PASS级别，且待筛选的变异位点距离剪切位点小于预设碱基数量，且待筛选的变异位点所属基因小于第二预设数量或者同一个外显子上的变异位点小于第三预设数量。其中，测序深度可以是2-5倍，可选的为5倍。预设碱基数量不超过5bp。其中，第二预设数量可以是3～5，可选的为3，第三预设数量可以是2～4，可选的为2。

基于以上实施例，将第二变异位点筛选集合中满足第十一筛选条件的待筛选的变异位点添加到第三变异位点筛选集合中之后，还可以获取预先处理的基因组单碱基重复区域；对第一变异位点筛选集合和第三变异位点筛选集合中，位于重复区域或者包含重复区域的预设区域内的待筛选的变异位点在第一注释中添加第三标记注释；第三标记注释包括位于重复区域或者预设区域，或者，未位于重复区域或者预设区域。

相应的，输出筛选的变异位点，具体实现方式可以是：将第一变异位点筛选集合和第三变异位点筛选集合中的待筛选的变异位点输出，得到筛选的变异位点。

本实施例中，通过进一步的筛选，减少了变异位点的数量，得到的变异位点更加准确，加快了临床诊断的速度。

需要说明的是，上述注释添加处理的过程和变异位点筛选处理的过程可以并行实施，也就是说，对满足某一添加条件的变异位点的第一注释添加相应的注释之后，就判断添加相应的注释后的第一注释是否满足对应的筛选条件，然后继续对满足另一添加条件的变异位点的第一注释添加相应的注释，然后判断添加相应的注释后的第一注释是否满足对应的筛选条件，以此类推。

下面以一个具体的应用场景为例，对本申请实施例提供的二代测序数据的处理方法进行更加详细的描述。

本实施例的应用场景中，以一份使用安捷伦(Agilent)SureSelect Human AllExon V5试剂盒捕获，Illumina HiSeq 2000平台测序，GATK标准流程处理后的VCF文件作为输入范例。该VCF文件的数据基本质量包括：配对测序读长125bp，总测序读数数据量9.28Gb，测序片段数量6121万条，平均测序深度114.58倍，96.88％的区域测序深度不小于20倍，等等。GATK标准流程处理后，VCF文件中共提供了696449个单核苷酸变异位点，和19410个插入/缺失变异位点。

本实施例中，第一类数据库包括HGMD数据库和ClinVar数据库。

第二类数据库包括GENCODE数据库。

第三类数据库中包括的已报道与疾病相关的基因，可以是预先通过各种方式采集得到的。

其中，第四类数据库包括千人基因组数据库和ExAC数据库。

其中，第五类数据库可以包括目标地区人群数据库，可以通过预先采集得到。

基于此，步骤一、将原始的VCF文件处理成预设标准格式的数据，得到待筛选的二代测序数据。

步骤二、对待筛选的二代测序数据进行质量检测以筛除误检的变异位点，以排序后的BED格式输出，此步骤后剩余715858个变异位点。

步骤三、参考图2和图3所示的步骤，对待筛选的二代测序数据进行注释添加以及对待筛选的二代测序数据进行变异位点的筛选。

本步骤中，上述外扩的区域中，外扩的碱基数量为15bp，排除上述外扩的区域以外的变异位点，剩余49782个变异位点。排除在第四类数据库且纯合变异且在公共人群出现的频率大于或者等于第一预设频率的变异位点，剩余9552个变异位点，其中，第一预设频率为0.5％。排除在第五类数据库且在目标地区人群中出现的频率大于或者等于第二预设频率(即高频检出)的变异位点，剩余3381个变异位点，其中，第二预设频率为2％。排除在第五类数据库且所属基因不致病、危害等级非最高、同义变异、未见纯合变异、未见半合变异、所属基因的变异位点的数量小于第一预设数量、未包含疾病遗传模式的变异位点，排除在第五类数据库且所属基因不致病、危害等级非最高、同义变异、未见纯合变异、未见半合变异、所属基因的变异位点的数量小于第一预设数量、未包含疾病遗传模式、不属于多见外显率不全、不属于偶见外显率不全的变异位点，排除在第五类数据库且所属基因不致病、危害等级非最高、同义变异、未见纯合变异、未见半合变异、所属基因的变异位点的数量小于第一预设数量、未包含疾病遗传模式、不属于多见外显率不全、属于偶见外显率不全、在所述第四类数据库中公共人群中出现的频率大于或者等于所述第一预设频率(即高频检出)、出现的次数大于或者等于第二预设次数的变异位点，其中，第一预设数量为2，其中，第二预设次数为3，排除在第五类数据库且所属基因不致病、危害等级非最高、同义变异、未见纯合变异、未见半合变异、所属基因的变异位点的数量小于第一预设数量、未包含疾病遗传模式、属于多见外显率不全、且在ExAC数据库中出现次数大于或者等于60且在人群中出现的频率大于0.5％的变异位点，到此，剩余245个位点。

步骤四、将第二变异位点筛选集合中满足第十筛选条件的待筛选的变异位点添加到第三变异位点筛选集合中；第十筛选条件包括：待筛选的变异位点的测序深度大于预设深度且第一注释中添加有变异位点所属已报道与疾病相关的基因；将第二变异位点筛选集合中满足第十一筛选条件的待筛选的变异位点添加到第三变异位点筛选集合中。其中，预设深度取5，预设碱基数量取5bp。第二预设数量为3，第三预设数量为2。将第一变异位点筛选集合和第三变异位点筛选集合中的待筛选的变异位点输出，得到筛选的变异位点，此步处理后剩余185个位点。

在本实施例中，在不到5分钟内筛除了原始VCF文件715859个变异位点中99.974％的变异位点，同时为保留下的185个位点提供了超过50项注释内容，尽可能地涵盖了临床诊断重点关注的信息。值得注意的是，本方案虽然只保留了万分之二的变异位点，但在部分标准上还留有余地，有经验的遗传咨询人员或是临床医生，可以迅速地在本申请方法的结果基础上，进一步将可疑的致病变异缩小到10个以内。

变异位点的筛选不宜按照传统的按照临床表型进行筛选，送检患者的临床表型可能不完全，本申请中并简单根据临床表型进行的筛选，而是考虑了多重因素、采用了创造性的筛选策略，筛选结果更加准确。

经过各种测试，可以验证本方案的筛选强度大(筛除原始数据中99.9％以上的变异位点，保留变异位点100个左右，高亮变异位点10个左右)、注释信息完备、处理速度快(以一颗Intel(R)Xeon(R)E5-2650v2@CPU进行处理，3分钟完成一个样本，从80万变异位点精简到100个变异位点)，对于二代测序技术在临床诊断中的应用具有很大的帮助作用。

图4是本申请一个实施例提供的一种二代测序数据的处理装置结构示意图。

如图4所示，本实施例提供一种二代测序数据的处理装置，包括：

第一获取模块401，用于获取待筛选的二代测序数据；待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释；第一注释包括测序信息；

第二获取模块402，用于获取参考数据库；参考数据库至少包括：第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库；第一类数据库包括变异位点及对应的第二注释，第二注释包括已报道不致病或者已报道可能致病或者已报道明确致病；第二类数据库包括基因位置的注释，基因位置的注释包括外显子的捕获区域在基因组上的定位；第三类数据库包括已报道与疾病相关的基因；第四类数据库包括基因组上的变异位点以及对应的第三注释，第三注释包括基因组上的变异位点在公共人群中出现的频率及核型；第五类数据库包括变异位点以及对应的第四注释，第四注释包括变异位点在目标地区人群中出现的频率及目标地区的临床报告；第六类数据库包括变异位点及对应的第五注释，第五注释包括变异位点所属基因已知相关的疾病、疾病的遗传模式、基因功能；

处理模块403，用于根据参考数据库，对待筛选的二代测序数据进行注释添加处理，按照预设策略对经过注释添加处理后的待筛选的二代测序数据进行变异位点筛选处理，输出筛选的变异位点及经注释添加后的第一注释。

图5是本申请一个实施例提供的一种电子设备的结构示意图。

如图5所示，本实施例提供一种电子设备，包括：

处理器501，以及与处理器相连接的存储器502；

存储器502用于存储计算机程序；

处理器501用于调用并执行存储器中的计算机程序，以执行如以上任意实施例的方法。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种二代测序数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述注释添加处理，至少包括：

3.根据权利要求2所述的方法，其特征在于，所述按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述输出筛选的变异位点，包括：

5.根据权利要求3所述的方法，其特征在于，所述测序信息包括测序深度；

6.根据权利要求5所述的方法，其特征在于，所述输出筛选的变异位点，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取待筛选的二代测序数据之前，所述方法还包括：

获取二代测序数据的原始数据；

8.根据权利要求1所述的方法，其特征在于，所述第一类数据库包括HGMD数据库和/或ClinVar数据库；

和/或，所述第二类数据库包括GENCODE数据库；

9.一种二代测序数据的处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如权利要求1-8任一项所述的方法。