CN109741788A

CN109741788A - 一种snp位点分析方法及系统

Info

Publication number: CN109741788A
Application number: CN201811583420.1A
Authority: CN
Inventors: 范绍钦
Original assignee: Guangzhou United Biotechnology Co Ltd
Current assignee: Guangzhou United Biotechnology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-10

Abstract

本发明涉及一种SNP位点分析方法及系统。所述的SNP位点分析方法包括：获取标准SNP序列；将标准SNP序列进行标注；获取样本SNP序列；将样本SNP序列进行峰图处理，并标记第二峰；去除样本SNP序列末端的杂峰；将标准SNP序列与样本SNP序列进行对比；统计样本序列的基因型并输出结果。本发明所述的SNP位点分析方法主要对SNP位点进行对比统计与分析。

Description

一种SNP位点分析方法及系统

技术领域

本发明涉及生物信息学、分子生物学、统计学及计算机编程领域，具体涉及一种SNP位点分析方法及系统。

背景技术

SNP为单核苷酸多态性的简称，是指在基因组上单个核苷酸的变异，包括转换、颠换、缺失和插入，形成的遗传标记，其数量很多，多态性丰富。现阶段SNP成为第三代遗传标志，是人类基因组计划走向应用的重要步骤。研究表明在人类基因组中每300碱基对就出现一次。大量的SNP位点与人的疾病用药有关。现阶段SNP大量用在高危人群发现、疾病相关基因的鉴定、药物的设计、测试、筛选已有生物学的基础研究等。由于SNP应用的领域广泛检测与筛查的量也随之增大，对于SNP序列的位点基因型数据的分析尤为重要。

现阶段的技术可以查找全基因组外显子基因变异情况，是结合高通量二代测序应用的软件技术，主要是针对原始数据的分析。本发明主要针对已知SNP位点的比对统计分析。

发明内容

本发明解决的技术问题是，提供了一种SNP位点分析方法及系统。所述的一种SNP位点分析方法及系统针对SNP位点进行对比统计与分析。

为了解决上述技术问题，本发明提供的技术方案为：

一种SNP位点分析方法，其包括：

获取标准SNP序列；

将标准SNP序列进行标注；

获取样本SNP序列；

将样本SNP序列进行峰图处理，并标记第二峰；

去除样本SNP序列末端的杂峰；

将标准SNP序列与样本SNP序列进行对比；

统计样本序列的基因型并输出结果。

优选地，所述的将标准SNP序列进行标注，具体为标注基因型及SNP所在基因序列中的位置。获取标准SNP序列进行存储用于后续比对。

优选地，所述的将标准SNP序列进行标注后，将标准SNP序列以多个文件或镜像存储形式进行存储，形成标准数据库。此存储方法有利于数据的查找。

优选地，所述的去除样本SNP序列末端的杂峰后还包括：

将SNP序列进行拼接。可以将完成峰图处理的序列按名称进行拼接。单向不需拼接，双向可以拼接，也可以多个拼接。拼接后形成新序列。直接拼接的系统命名，用名称拼接来显示该名称。

优选地，所述的将标准SNP序列与样本SNP序列进行对比，具体为根据标准SNP序列，在样本SNP序列中显示相对应的位点并用不同颜色标记。

优选地，所述的将标准SNP序列与样本SNP序列进行对比，还包括根据标准序列中的一种基因型，显示该基因型相同的样本序列个数和位置。对比结果用于后续根据将相应要计算的样本数，基因型输入统计计算。

本发明还提供一种SNP位点分析系统，其包括：

标准序列获取模块：所述标准序列获取模块用于获取标准SNP序列；

标准序列标注模块：所述标准序列标注模块用于将标准SNP序列进行标注；

样本序列获取模块：所述样本序列获取模块用于获取样本SNP序列；

样本序列处理模块：所述样本序列处理模块用于先将样本SNP序列进行峰图处理，并标记第二峰，再去除样本SNP序列末端的杂峰；

比较模块：所述比较模块用于将标准SNP序列与样本SNP序列进行对比；

统计模块：所述统计模块用于统计样本序列的基因型并输出结果。

优选地，所述标准序列获取模块用于获取标准SNP序列；标准SNP序列通过序列的导入进行截取，并存储，用于后续的与样本进行对比。

优选地，所述标准序列标注模块用于将标准SNP序列进行标注；标注基因型及SNP所在基因序列中的位置。

优选地，所述样本序列获取模块用于获取样本SNP序列；

优选地，所述样本序列处理模块用于先将样本SNP序列进行峰图处理，并标记第二峰，再去除样本SNP序列末端的杂峰，将样本SNP序列末端的杂峰进行剪切，去除低质量数据，删除序列上的载体。

优选地，所述比较模块用于将标准SNP序列与样本SNP序列进行对比；目的是将标准SNP序列与样本SNP序列进行比对输出标准SNP序列和样本SNP序列的SNP位点信息。可以一对多或是多对一地比对，并且建立SNP标准数据库可以随时调用和比对。

优选地，所述统计模块用于统计样本序列的基因型并输出结果。统计学计算，对SNP位点各基因型进行统计，数据输出，可以输出单SNP位点的信息和多个SNP位点的分析数据信息。

优选地，所述的一种SNP位点分析系统还包括：

拼接模块：所述的拼接模块用于将SNP序列进行拼接。单向不需拼接，双向可以拼接，也可以多个拼接。拼接后形成新序列。直接拼接的系统命名，用名称拼接来显示该名称。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，该程序指令适于由处理器加载并执行上述SNP位点分析方法。

本发明还提供一种移动终端，其包括处理器以及存储器，所述的处理器用于执行存储器中存储的程序，以实现上述SNP位点分析方法。

与现有技术相比，本发明具有的有益效果为：本发明提供了一种SNP位点的比对统计分析方法及系统，具有速度快，只在一个界面就可以完成全部操作，只要点击选择所要分析的项目不需额外设置。所述的SNP位点的分析方法中，设置第二峰，找到潜在的异合子；SNP序列可进行双向拼接或多个拼接，拼接后形成新的序列，便于研究人员的分析研究；通过标准序列与样本序列的比较，可以进行一对多或者多对一的对比来统计基因型以及SNP位点的位置，通过SNP序列与基因型的分析对于持续增大的SNP检测量与筛查量有很重要的意义。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明所述的一种SNP位点分析方法的流程示意图；

图2是本发明所述的一种SNP位点分析系统的结构图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本流程图，因此其仅显示与本发明有关的流程。

如图1所示，本发明是一种SNP位点分析方法，所述的方法具体为：

S1.获取标准SNP序列；

S2.将标准SNP序列进行标注；

S3.获取样本SNP序列；

S4.将样本SNP序列进行峰图处理，并标记第二峰；

S5.去除样本SNP序列末端的杂峰；

S6.将标准SNP序列与样本SNP序列进行对比；

S7.统计样本序列的基因型并输出结果。

步骤S1.获取标准SNP序列。具体操作过程为：在文件中选择新项目或打开项目导入单个序列，或者文件夹，此导入方法适合多种文本。选中所要导出的序列在文件中选择导出并选择要导出文件的类型。可多个文件序列一同导出。也可以将整个镜像存储，有利与数据的查找。可以直接点击序列名称进行修改，选重序列也可以在编辑中选择符号进行重新命名。

步骤S2.将标准SNP序列进行标注；具体为将基因型及SNP所在基因序列中的位置用不同的颜色标注出来。

步骤S3.获取样本SNP序列；将样本SNP序列选中。

步骤S4.将样本SNP序列进行峰图处理，并标记第二峰；具体为选中样本SNP序列后，将获取的SNP序列进行峰图处理，设置第二峰找到潜在的异合子，并用相应的编码标出。

步骤S5.去除样本SNP序列末端的杂峰；具体为将样本SNP序列末端的杂峰进行剪切，去除低质量数据，删除序列上的载体。

峰图处理后，还可将SNP序列进行拼接，单向不需拼接，双向可以拼接，也可以多个拼接。拼接后形成新序列。直接拼接的系统命名，用名称拼接来显示该名称。

步骤S6.将标准SNP序列与样本SNP序列进行对比；可以观查与标准序列SNP位点相对应的样品序列的基因型。具体为将标准片段与样本片段进行比对，显示样本序列中相对应的位点并用不同颜色标记，根据标准序列中的一种基因型，显示该基因型相同的样本序列个数和位置。

步骤S7.统计样本序列的基因型并输出结果。具体为选择要统计的样本的基因型进行统计，并将数据输出，输出方式为复制或打印。

如图2所示，本发明提供了一种SNP位点分析系统：

标准序列获取模块1：所述标准序列获取模块用于获取标准SNP序列；

标准序列标注模块2：所述标准序列标注模块用于将标准SNP序列进行标注；

样本序列获取模块3：所述样本序列获取模块用于获取样本SNP序列；

样本序列处理模块4：所述样本序列处理模块用于将样本SNP序列进行峰图处理，并标记第二峰；将样本SNP序列末端的杂峰进行剪切，去除低质量数据；

比较模块5：所述比较模块用于将标准SNP序列与样本SNP序列进行对比；

统计模块6：所述统计模块用于统计样本序列的基因型并输出结果。

标准序列获取模块1：用于获取标准SNP序列；标准SNP序列通过序列的导入进行截取，并存储，用于后续的与样本进行对比。

标准序列标注模块2：用于将标准SNP序列进行标注；标注基因型及SNP所在基因序列中的位置。

样本序列获取模块3：用于获取样本SNP序列；

样本序列处理模块4：用于先将样本SNP序列进行峰图处理，并标记第二峰，再去除样本SNP序列末端的杂峰，将样本SNP序列末端的杂峰进行剪切，去除低质量数据，删除序列上的载体。

比较模块5：用于将标准SNP序列与样本SNP序列进行对比；目的是将标准SNP序列与样本SNP序列进行比对输出标准SNP序列和样本SNP序列的SNP位点信息。可以一对多或是多对一地比对，并且建立SNP标准数据库可以随时调用和比对。

统计模块6：用于统计样本序列的基因型并输出结果。统计学计算，对SNP位点各基因型进行统计，数据输出，可以输出单SNP位点的信息和多个SNP位点的分析数据信息。

所述的一种SNP位点分析系统还包括：

上列详细说明是针对本发明可行实施例的具体说明，以上实施例并非用以限制本发明的专利范围，凡未脱离本发明所为的等效实施或变更，均应包含于本案的专利范围中。

Claims

1.一种SNP位点分析方法，其特征在于，包括：

获取标准SNP序列；

将标准SNP序列进行标注；

获取样本SNP序列；

将样本SNP序列进行峰图处理，并标记第二峰；

去除样本SNP序列末端的杂峰；

将标准SNP序列与样本SNP序列进行对比；

统计样本序列的基因型并输出结果。

2.根据权利要求1所述的一种SNP位点分析方法，其特征在于，所述的将标准SNP序列进行标注，具体为标注基因型及SNP所在基因序列中的位置。

3.根据权利要求2所述的一种SNP位点分析方法，其特征在于，所述的将标准SNP序列进行标注后，将标准SNP序列以多个文件或镜像存储形式进行存储，形成标准数据库。

4.根据权利要求1所述的一种SNP位点分析方法，其特征在于，所述的去除样本SNP序列末端的杂峰后还包括：

将SNP序列进行拼接。

5.根据权利要求1所述的一种SNP位点分析方法，其特征在于，所述的将标准SNP序列与样本SNP序列进行对比，具体为根据标准SNP序列，在样本SNP序列中显示相对应的位点并用不同颜色标记。

6.根据权利要求7所述的一种SNP位点分析方法，其特征在于，所述的将标准SNP序列与样本SNP序列进行对比，还包括根据标准序列中的一种基因型，显示该基因型相同的样本序列个数和位置。

7.一种SNP位点分析系统，其特征在于包括：

样本序列处理模块：所述样本序列处理模块用于先将样本SNP序列进行峰图处理，并标记第二峰后，再去除样本SNP序列末端的杂峰；

8.根据权利要求7所述的一种SNP位点分析系统，其特征在于，还包括：

拼接模块：所述的拼接模块用于将SNP序列进行拼接。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序指令，该程序指令适于由处理器加载并执行权利要求1~6任一项所述的方法。

10.一种移动终端，其特征在于，包括处理器以及存储器，所述的处理器用于执行存储器中存储的程序，以实现权利要求1~6任一项所述的方法。