CN109741788A - 一种snp位点分析方法及系统 - Google Patents

一种snp位点分析方法及系统 Download PDF

Info

Publication number
CN109741788A
CN109741788A CN201811583420.1A CN201811583420A CN109741788A CN 109741788 A CN109741788 A CN 109741788A CN 201811583420 A CN201811583420 A CN 201811583420A CN 109741788 A CN109741788 A CN 109741788A
Authority
CN
China
Prior art keywords
sequence
snp
sample
standard
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811583420.1A
Other languages
English (en)
Inventor
范绍钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou United Biotechnology Co Ltd
Original Assignee
Guangzhou United Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou United Biotechnology Co Ltd filed Critical Guangzhou United Biotechnology Co Ltd
Priority to CN201811583420.1A priority Critical patent/CN109741788A/zh
Publication of CN109741788A publication Critical patent/CN109741788A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种SNP位点分析方法及系统。所述的SNP位点分析方法包括:获取标准SNP序列;将标准SNP序列进行标注;获取样本SNP序列;将样本SNP序列进行峰图处理,并标记第二峰;去除样本SNP序列末端的杂峰;将标准SNP序列与样本SNP序列进行对比;统计样本序列的基因型并输出结果。本发明所述的SNP位点分析方法主要对SNP位点进行对比统计与分析。

Description

一种SNP位点分析方法及系统
技术领域
本发明涉及生物信息学、分子生物学、统计学及计算机编程领域,具体涉及一种SNP位点分析方法及系统。
背景技术
SNP为单核苷酸多态性的简称,是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记,其数量很多,多态性丰富。现阶段SNP成为第三代遗传标志,是人类基因组计划走向应用的重要步骤。研究表明在人类基因组中每300碱基对就出现一次。大量的SNP位点与人的疾病用药有关。现阶段SNP大量用在高危人群发现、疾病相关基因的鉴定、药物的设计、测试、筛选已有生物学的基础研究等。由于SNP应用的领域广泛检测与筛查的量也随之增大,对于SNP序列的位点基因型数据的分析尤为重要。
现阶段的技术可以查找全基因组外显子基因变异情况,是结合高通量二代测序应用的软件技术,主要是针对原始数据的分析。本发明主要针对已知SNP位点的比对统计分析。
发明内容
本发明解决的技术问题是,提供了一种SNP位点分析方法及系统。所述的一种SNP位点分析方法及系统针对SNP位点进行对比统计与分析。
为了解决上述技术问题,本发明提供的技术方案为:
一种SNP位点分析方法,其包括:
获取标准SNP序列;
将标准SNP序列进行标注;
获取样本SNP序列;
将样本SNP序列进行峰图处理,并标记第二峰;
去除样本SNP序列末端的杂峰;
将标准SNP序列与样本SNP序列进行对比;
统计样本序列的基因型并输出结果。
优选地,所述的将标准SNP序列进行标注,具体为标注基因型及SNP所在基因序列中的位置。获取标准SNP序列进行存储用于后续比对。
优选地,所述的将标准SNP序列进行标注后,将标准SNP序列以多个文件或镜像存储形式进行存储,形成标准数据库。此存储方法有利于数据的查找。
优选地,所述的去除样本SNP序列末端的杂峰后还包括:
将SNP序列进行拼接。可以将完成峰图处理的序列按名称进行拼接。单向不需拼接,双向可以拼接,也可以多个拼接。拼接后形成新序列。直接拼接的系统命名,用名称拼接来显示该名称。
优选地,所述的将标准SNP序列与样本SNP序列进行对比,具体为根据标准SNP序列,在样本SNP序列中显示相对应的位点并用不同颜色标记。
优选地,所述的将标准SNP序列与样本SNP序列进行对比,还包括根据标准序列中的一种基因型,显示该基因型相同的样本序列个数和位置。对比结果用于后续根据将相应要计算的样本数,基因型输入统计计算。
本发明还提供一种SNP位点分析系统,其包括:
标准序列获取模块:所述标准序列获取模块用于获取标准SNP序列;
标准序列标注模块:所述标准序列标注模块用于将标准SNP序列进行标注;
样本序列获取模块:所述样本序列获取模块用于获取样本SNP序列;
样本序列处理模块:所述样本序列处理模块用于先将样本SNP序列进行峰图处理,并标记第二峰,再去除样本SNP序列末端的杂峰;
比较模块:所述比较模块用于将标准SNP序列与样本SNP序列进行对比;
统计模块:所述统计模块用于统计样本序列的基因型并输出结果。
优选地,所述标准序列获取模块用于获取标准SNP序列;标准SNP序列通过序列的导入进行截取,并存储,用于后续的与样本进行对比。
优选地,所述标准序列标注模块用于将标准SNP序列进行标注;标注基因型及SNP所在基因序列中的位置。
优选地,所述样本序列获取模块用于获取样本SNP序列;
优选地,所述样本序列处理模块用于先将样本SNP序列进行峰图处理,并标记第二峰,再去除样本SNP序列末端的杂峰,将样本SNP序列末端的杂峰进行剪切,去除低质量数据,删除序列上的载体。
优选地,所述比较模块用于将标准SNP序列与样本SNP序列进行对比;目的是将标准SNP序列与样本SNP序列进行比对输出标准SNP序列和样本SNP序列的SNP位点信息。可以一对多或是多对一地比对,并且建立SNP标准数据库可以随时调用和比对。
优选地,所述统计模块用于统计样本序列的基因型并输出结果。统计学计算,对SNP位点各基因型进行统计,数据输出,可以输出单SNP位点的信息和多个SNP位点的分析数据信息。
优选地,所述的一种SNP位点分析系统还包括:
拼接模块:所述的拼接模块用于将SNP序列进行拼接。单向不需拼接,双向可以拼接,也可以多个拼接。拼接后形成新序列。直接拼接的系统命名,用名称拼接来显示该名称。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,该程序指令适于由处理器加载并执行上述SNP位点分析方法。
本发明还提供一种移动终端,其包括处理器以及存储器,所述的处理器用于执行存储器中存储的程序,以实现上述SNP位点分析方法。
与现有技术相比,本发明具有的有益效果为:本发明提供了一种SNP位点的比对统计分析方法及系统,具有速度快,只在一个界面就可以完成全部操作,只要点击选择所要分析的项目不需额外设置。所述的SNP位点的分析方法中,设置第二峰,找到潜在的异合子;SNP序列可进行双向拼接或多个拼接,拼接后形成新的序列,便于研究人员的分析研究;通过标准序列与样本序列的比较,可以进行一对多或者多对一的对比来统计基因型以及SNP位点的位置,通过SNP序列与基因型的分析对于持续增大的SNP检测量与筛查量有很重要的意义。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明所述的一种SNP位点分析方法的流程示意图;
图2是本发明所述的一种SNP位点分析系统的结构图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本流程图,因此其仅显示与本发明有关的流程。
如图1所示,本发明是一种SNP位点分析方法,所述的方法具体为:
S1.获取标准SNP序列;
S2.将标准SNP序列进行标注;
S3.获取样本SNP序列;
S4.将样本SNP序列进行峰图处理,并标记第二峰;
S5.去除样本SNP序列末端的杂峰;
S6.将标准SNP序列与样本SNP序列进行对比;
S7.统计样本序列的基因型并输出结果。
步骤S1.获取标准SNP序列。具体操作过程为:在文件中选择新项目或打开项目导入单个序列,或者文件夹,此导入方法适合多种文本。选中所要导出的序列在文件中选择导出并选择要导出文件的类型。可多个文件序列一同导出。也可以将整个镜像存储,有利与数据的查找。可以直接点击序列名称进行修改,选重序列也可以在编辑中选择符号进行重新命名。
步骤S2.将标准SNP序列进行标注;具体为将基因型及SNP所在基因序列中的位置用不同的颜色标注出来。
步骤S3.获取样本SNP序列;将样本SNP序列选中。
步骤S4.将样本SNP序列进行峰图处理,并标记第二峰;具体为选中样本SNP序列后,将获取的SNP序列进行峰图处理,设置第二峰找到潜在的异合子,并用相应的编码标出。
步骤S5.去除样本SNP序列末端的杂峰;具体为将样本SNP序列末端的杂峰进行剪切,去除低质量数据,删除序列上的载体。
峰图处理后,还可将SNP序列进行拼接,单向不需拼接,双向可以拼接,也可以多个拼接。拼接后形成新序列。直接拼接的系统命名,用名称拼接来显示该名称。
步骤S6.将标准SNP序列与样本SNP序列进行对比;可以观查与标准序列SNP位点相对应的样品序列的基因型。具体为将标准片段与样本片段进行比对,显示样本序列中相对应的位点并用不同颜色标记,根据标准序列中的一种基因型,显示该基因型相同的样本序列个数和位置。
步骤S7.统计样本序列的基因型并输出结果。具体为选择要统计的样本的基因型进行统计,并将数据输出,输出方式为复制或打印。
如图2所示,本发明提供了一种SNP位点分析系统:
标准序列获取模块1:所述标准序列获取模块用于获取标准SNP序列;
标准序列标注模块2:所述标准序列标注模块用于将标准SNP序列进行标注;
样本序列获取模块3:所述样本序列获取模块用于获取样本SNP序列;
样本序列处理模块4:所述样本序列处理模块用于将样本SNP序列进行峰图处理,并标记第二峰;将样本SNP序列末端的杂峰进行剪切,去除低质量数据;
比较模块5:所述比较模块用于将标准SNP序列与样本SNP序列进行对比;
统计模块6:所述统计模块用于统计样本序列的基因型并输出结果。
标准序列获取模块1:用于获取标准SNP序列;标准SNP序列通过序列的导入进行截取,并存储,用于后续的与样本进行对比。
标准序列标注模块2:用于将标准SNP序列进行标注;标注基因型及SNP所在基因序列中的位置。
样本序列获取模块3:用于获取样本SNP序列;
样本序列处理模块4:用于先将样本SNP序列进行峰图处理,并标记第二峰,再去除样本SNP序列末端的杂峰,将样本SNP序列末端的杂峰进行剪切,去除低质量数据,删除序列上的载体。
比较模块5:用于将标准SNP序列与样本SNP序列进行对比;目的是将标准SNP序列与样本SNP序列进行比对输出标准SNP序列和样本SNP序列的SNP位点信息。可以一对多或是多对一地比对,并且建立SNP标准数据库可以随时调用和比对。
统计模块6:用于统计样本序列的基因型并输出结果。统计学计算,对SNP位点各基因型进行统计,数据输出,可以输出单SNP位点的信息和多个SNP位点的分析数据信息。
所述的一种SNP位点分析系统还包括:
拼接模块:所述的拼接模块用于将SNP序列进行拼接。单向不需拼接,双向可以拼接,也可以多个拼接。拼接后形成新序列。直接拼接的系统命名,用名称拼接来显示该名称。
上列详细说明是针对本发明可行实施例的具体说明,以上实施例并非用以限制本发明的专利范围,凡未脱离本发明所为的等效实施或变更,均应包含于本案的专利范围中。

Claims (10)

1.一种SNP位点分析方法,其特征在于,包括:
获取标准SNP序列;
将标准SNP序列进行标注;
获取样本SNP序列;
将样本SNP序列进行峰图处理,并标记第二峰;
去除样本SNP序列末端的杂峰;
将标准SNP序列与样本SNP序列进行对比;
统计样本序列的基因型并输出结果。
2.根据权利要求1所述的一种SNP位点分析方法,其特征在于,所述的将标准SNP序列进行标注,具体为标注基因型及SNP所在基因序列中的位置。
3.根据权利要求2所述的一种SNP位点分析方法,其特征在于,所述的将标准SNP序列进行标注后,将标准SNP序列以多个文件或镜像存储形式进行存储,形成标准数据库。
4.根据权利要求1所述的一种SNP位点分析方法,其特征在于,所述的去除样本SNP序列末端的杂峰后还包括:
将SNP序列进行拼接。
5.根据权利要求1所述的一种SNP位点分析方法,其特征在于,所述的将标准SNP序列与样本SNP序列进行对比,具体为根据标准SNP序列,在样本SNP序列中显示相对应的位点并用不同颜色标记。
6.根据权利要求7所述的一种SNP位点分析方法,其特征在于,所述的将标准SNP序列与样本SNP序列进行对比,还包括根据标准序列中的一种基因型,显示该基因型相同的样本序列个数和位置。
7.一种SNP位点分析系统,其特征在于包括:
标准序列获取模块:所述标准序列获取模块用于获取标准SNP序列;
标准序列标注模块:所述标准序列标注模块用于将标准SNP序列进行标注;
样本序列获取模块:所述样本序列获取模块用于获取样本SNP序列;
样本序列处理模块:所述样本序列处理模块用于先将样本SNP序列进行峰图处理,并标记第二峰后,再去除样本SNP序列末端的杂峰;
比较模块:所述比较模块用于将标准SNP序列与样本SNP序列进行对比;
统计模块:所述统计模块用于统计样本序列的基因型并输出结果。
8.根据权利要求7所述的一种SNP位点分析系统,其特征在于,还包括:
拼接模块:所述的拼接模块用于将SNP序列进行拼接。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序指令,该程序指令适于由处理器加载并执行权利要求1~6任一项所述的方法。
10.一种移动终端,其特征在于,包括处理器以及存储器,所述的处理器用于执行存储器中存储的程序,以实现权利要求1~6任一项所述的方法。
CN201811583420.1A 2018-12-24 2018-12-24 一种snp位点分析方法及系统 Pending CN109741788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811583420.1A CN109741788A (zh) 2018-12-24 2018-12-24 一种snp位点分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811583420.1A CN109741788A (zh) 2018-12-24 2018-12-24 一种snp位点分析方法及系统

Publications (1)

Publication Number Publication Date
CN109741788A true CN109741788A (zh) 2019-05-10

Family

ID=66359565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811583420.1A Pending CN109741788A (zh) 2018-12-24 2018-12-24 一种snp位点分析方法及系统

Country Status (1)

Country Link
CN (1) CN109741788A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349624A (zh) * 2019-05-30 2019-10-18 山东省农业科学院玉米研究所 sam文件flag标签定位T-DNA插入位点的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN102460155A (zh) * 2009-04-29 2012-05-16 考利达基因组股份有限公司 用于关于参考多核苷酸序列标注样本多核苷酸序列中的变异的方法和系统
CN103198238A (zh) * 2012-01-06 2013-07-10 深圳华大基因科技有限公司 药物相关基因型别数据库、基因分型及药物反应检测

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102460155A (zh) * 2009-04-29 2012-05-16 考利达基因组股份有限公司 用于关于参考多核苷酸序列标注样本多核苷酸序列中的变异的方法和系统
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN103198238A (zh) * 2012-01-06 2013-07-10 深圳华大基因科技有限公司 药物相关基因型别数据库、基因分型及药物反应检测

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349624A (zh) * 2019-05-30 2019-10-18 山东省农业科学院玉米研究所 sam文件flag标签定位T-DNA插入位点的方法

Similar Documents

Publication Publication Date Title
Venturini et al. Leveraging multiple transcriptome assembly methods for improved gene structure annotation
US20240004885A1 (en) Systems and methods for annotating biomolecule data
Nikolayeva et al. edgeR for differential RNA-seq and ChIP-seq analysis: an application to stem cell biology
Degroeve et al. SpliceMachine: predicting splice sites from high-dimensional local context representations
Korpelainen et al. RNA-seq data analysis: a practical approach
CN101233509A (zh) 对双标记序列进行处理和/或基因组定位的方法
CN107075571B (zh) 用于检测结构变异体的系统和方法
Cary et al. EchinoBase: tools for echinoderm genome analyses
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
Malhis et al. Slider—maximum use of probability information for alignment of short sequence reads and SNP detection
Holtgrewe et al. Methods for the detection and assembly of novel sequence in high-throughput sequencing data
Portik et al. SuperCRUNCH: A bioinformatics toolkit for creating and manipulating supermatrices and other large phylogenetic datasets
CN115101128B (zh) 一种杂交捕获探针脱靶危险性评估的方法
CN109741788A (zh) 一种snp位点分析方法及系统
Shi et al. The FASTQ+ format and PISA
KR20220109707A (ko) 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법
CN108182348A (zh) 基于种子序列信息的dna甲基化数据检测方法及其装置
WO2000011145A1 (fr) Appareil d'extraction et de traitement de motifs geniques, procede d'extraction et de traitement de motifs geniques et milieu d'enregistrement supportant le programme d'extraction/traitement de motifs geniques
Levy et al. Xlandscape: the graphical display of word frequencies in sequences.
Jing et al. ScSmOP: a universal computational pipeline for single-cell single-molecule multiomics data analysis
US6994965B2 (en) Method for displaying results of hybridization experiment
CN111883212B (zh) Dna指纹图谱的构建方法、构建装置及终端设备
CN113284552B (zh) 一种微单倍型的筛选方法及装置
CN105368923B (zh) 遗传图谱的构建方法和装置
Mabrouk et al. BIOINFTool: Bioinformatics and sequence data analysis in molecular biology using Matlab

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510