CN111091870A

CN111091870A - 基因变异位点质量控制方法及系统

Info

Publication number: CN111091870A
Application number: CN201911312378.4A
Authority: CN
Inventors: 陈飞; 徐涛; 周凯欣; 王友; 何顺民; 邵健
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-01
Anticipated expiration: 2039-12-18
Also published as: CN111091870B

Abstract

本申请公开了一种基因变异位点质量控制方法及系统。所述基因变异位点质量控制方法包括：获取包含指定人群基因变异位点的数据集；去除数据集中缺失率大于预设缺失率阈值的个体基因数据，得到第一数据子集；获取第一数据子集中基因的单核苷酸多态性变异位点；对单核苷酸多态性变异位点进行处理，得到期望基因变异位点。本发明公开了基因变异位点的质量控制方法，利用该质量控制方法获得了期望的高质量的基因变异位点，进一步提高利用该基因变异位点所制备芯片的精确性。

Description

基因变异位点质量控制方法及系统

技术领域

本申请涉及一种基因变异位点质量控制方法及系统，属于生物医学技术领域。

背景技术

随着人类基因组计划的顺利完成，开启了人类健康与生命科学研究的新时代。生物样本库的不断发展及技术的日趋成熟，更是为人类疾病尤其是重大慢性疾病的研究提供了丰富的样本资源及临床数据支撑。采用基因芯片技术对样本进行基因分型，通过队列基因数据的生物信息学分析去寻找特定的生物标志物，成为人类攻克一系列复杂疾病的强有力的技术手段。通过基因芯片技术获取基因分型数据，其宝贵价值也日益得到人们的理解与重视，世界各国政府及科研单位更是投入大量资源针对特定国家及地区的特定人群队列进行了诸多人群队列的基因分型工作。

由于不同国家和地区的人群在基因型上有很大区别，所以在对样本进行基因分型时，所使用的基因芯片是有针对性的，其针对的是特定的国家和人群。现有技术中，并没有针对亚洲人群的基因芯片。若想制备针对亚洲人群的基因芯片，首先需要获取亚洲人群的基因变异位点，在获取基因变异位点后，由于变异位点中包含大量的低质量的变异位点信息，如不进行质量控制，则会影响获取的基因芯片的精确性。

发明内容

本发明的目的在于，提供一种基因变异位点质量控制方法，以获取高质量的变异位点，同时，本发明还提供了基于该方法的系统。

本发明提供了一种基因变异位点质量控制方法，包括：

获取包含指定人群基因变异位点的数据集；

去除所述数据集中缺失率大于预设缺失率阈值的个体基因数据，得到第一数据子集；

获取所述第一数据子集中基因的单核苷酸多态性变异位点；

对单核苷酸多态性变异位点进行处理，得到期望基因变异位点。

优选地，所述数据集为包含多个中国人的全基因组测序数据的数据集。

优选地，获取所述第一数据子集中基因的单核苷酸多态性变异位点的具体步骤为：

对所述第一数据子集中的基因变异位点进行过滤，获取单核苷酸多态性变异位点和插入缺失变异位点；

去除单核苷酸多态性变异位点和插入缺失变异位点中全部的插入缺失变异位点，保留单核苷酸多态性变异位点。

优选地，所述对单核苷酸多态性变异位点进行处理，具体为：

去除单核苷酸多态性变异位点中，丢失率大于预设最大丢失率阈值的基因变异位点；

去除单核苷酸多态性变异位点中，次等位基因频率小于预设次等位基因频率阈值的基因变异位点；

去除单核苷酸多态性变异位点中，最小质量值小于预设最小质量值阈值的基因变异位点。

进一步地，所述对单核苷酸多态性变异位点进行处理，还包括：

去除单核苷酸多态性变异位点中，测序深度小于预设最小测序深度阈值的基因变异位点。

去除单核苷酸多态性变异位点中，哈德温伯格平衡参数小于预设哈德温伯格平衡参数阈值的基因变异位点。

本发明还提供了一种基于上述基因变异位点质量控制方法的计算机系统，所述计算机系统被编程以执行上述基因变异位点质量控制方法的步骤。

本发明的基因变异位点质量控制方法，相较于现有技术，具有如下有益效果：

本发明公开了基因变异位点的质量控制方法，以获得期望的高质量的基因变异位点，使得利用该基因变异位点所制备的芯片的精确性高。

本发明使用全基因组测序数据作为原始数据集，可以获得整个基因组的数据，避免基因不全影响后续制备的基因芯片的精确性，同时，由于全基因组测序数据为高分辨率数据，便于从中获取大型、小型全面的变异位点。

本发明使用最大丢失率、次等位基因频率、最小质量值参数、最小测序深度参数、缺失率及哈德温伯格平衡参数对变异位点进行质量控制，可以获取高质量的变异位点，使得利用该基因变异位点所制备的芯片的精确性高。

附图说明

图1为本发明一种基因变异位点质量控制方法的流程图。

具体实施方式

在阐述之前，首先对本发明所涉及的名词及所涉及的公式进行解释：

本发明中的单核苷酸多态性变异位点的丢失率为：全部测序人群中，在该位点未测到的次数与全部人群数量的比值；

次等位基因频率为：在一特定人群中单核苷酸多态性的等位基因频率较低的频率；

质量值为衡量测序效果的一种指标值；

测序深度为：测序得到的总碱基数与待测基因组大小的比值，可以理解为基因组中每个碱基被测序到的平均次数，计算公式为测序深度＝reads长度×比对的reads数目/参考序列长度；

个体的缺失率为：某一个体未测得的全基因组测序位点数量与标准的全基因组测序位点数量的比值；

哈德温伯格平衡参数为：在理想状态下，各等位基因的频率在遗传中是稳定不变的，即保持着基因平衡。在实际状态下，通过卡方分布来衡量等位基因频率的理论值和等位基因频率的实际值差异为哈德温伯格平衡参数。

下面，基于具体的实施例阐述本发明的基因变异位点质量控制方法。

本实施例是以包含2641个中国人的30倍测序深度的全基因组测序数据集为原始数据集，基于该数据集说明本发明的基因变异位点质量控制方法。该质量控制方法的流程图参见图1。

本实施例中，使用SNP变异位点表示单核苷酸多态性变异位点，本发明的基因变异位点质量控制方法，包括如下步骤：

首先获取包含2641个中国人的30倍测序深度的全基因组测序数据集，然后利用GATK工具从基础数据集中提取基因变异位点，得到包含基因变异位点的数据集。GATK工具会对数据集中的基因变异位点进行标记，将各种变异位点进行区分，同时将满足标准的基因变异位点标记为PASS。筛选出标记为PASS的基因变异位点。然后去除标记为PASS的基因变异位点的数据集中缺失率大于预设缺失率阈值的个体基因数据，得到第一数据子集。本实施例中的缺失率阈值为0.05。将2641个中国人的30倍测序深度的全基因组测序数据中每一个个体的基因缺失率与设定的缺失率阈值进行比较，当某一个个体的基因缺失率大于设定的缺失率阈值，去除该个体的基因数据，否则保留该个体的基因数据。执行该步骤的目的在于，进一步去除样本中缺失率较大，影响最终所获得的SNP变异位点精度的个体数据。

获取的第一数据子集中包括单核苷酸多态性变异位点(SNP变异位点)和插入缺失变异位点，总量为1亿个。然后，再将标记为插入缺失变异位点的位点删除，保留单核苷酸多态性变异位点，获得七千五百万个单核苷酸多态性变异位点(SNP变异位点)。

然后利用最大丢失率、次等位基因频率和最小质量值对SNP变异位点进行筛选。最大丢失率阈值设定为0.5，次等位基因频率阈值设定为3，最小质量阈值设定为30。该步的筛选过程为：判断SNP变异位点中每一个变异位点的碱基丢失率，当丢失率大于最大丢失率阈值时，去除该变异位点，否则保留该变异位点。将SNP变异位点中每一个变异位点的碱基的次等位基因频率与设定次等位基因频率阈值进行比较，当某一个变异位点小于设定次等位基因频率阈值时，去除该变异位点，否则保留。判断SNP变异位点中每一个变异位点的碱基质量值参数，当质量值参数小于最小质量值阈值时，去除该变异位点，否则保留该变异位点。

进一步，设定最小测序深度阈值为3，去除SNP变异位点中小于最小测序深度阈值的变异位点。

进一步，设定哈德温伯格平衡参数阈值为0.000001，将SNP变异位点中每一个变异位点的碱基的哈德温伯格平衡参数与设定的哈德温伯格平衡参数阈值进行比较，当某一个变异位点的哈德温伯格平衡参数小于设定的哈德温伯格平衡参数阈值，去除该变异位点，否则保留。利用上述质量控制方法对2641个中国人的基因变异位点进行处理，最终获得一千八百万个SNP变异位点。可见，本发明的方法可以获得期望高质量的基因变异位点信息。期望高质量的变异位点的可信度更高，可在制备芯片过程中提供更可信的位点信息。

本实施例还提供了一种基因变异位点质量控制系统，包括计算机系统，所述计算机系统被编程以执行所述基因变异位点质量控制方法的步骤。

本发明使用最大丢失率、次等位基因频率、最小质量值参数、最小测序深度参数、缺失率及哈德温伯格平衡参数对变异位点进行质量控制，可以获取高质量的变异位点，提高了利用上述变异位点所制备的基因芯片的精确性。

以上所述，仅是本申请的实施例，并非对本申请做任何形式的限制，虽然本申请以较佳实施例揭示如上，然而并非用以限制本申请，任何熟悉本专业的技术人员，在不脱离本申请技术方案的范围内，利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例，均属于技术方案范围内。

Claims

1.一种基因变异位点质量控制方法，其特征在于，包括：

获取包含指定人群基因变异位点的数据集；

获取所述第一数据子集中基因的单核苷酸多态性变异位点；

2.根据权利要求1所述的基因变异位点质量控制方法，其特征在于，所述数据集为包含多个中国人的全基因组测序数据的数据集。

3.根据权利要求1所述的基因变异位点质量控制方法，其特征在于，获取所述第一数据子集中基因的单核苷酸多态性变异位点的具体步骤为：

4.根据权利要求1所述的基因变异位点质量控制方法，其特征在于，对单核苷酸多态性变异位点进行处理，具体为：

5.根据权利要求4所述的基因变异位点质量控制方法，其特征在于，对单核苷酸多态性变异位点进行处理，还包括：

6.根据权利要求5所述的基因变异位点质量控制方法，其特征在于，对单核苷酸多态性变异位点进行处理，还包括：

7.一种基因变异位点质量控制系统，其特征在于，包括计算机系统，所述计算机系统被编程以执行权利要求1～6中任意一项所述的基因变异位点质量控制方法的步骤。