CN109448789A - 一种基于perl语言的种群特异SNP位点的自动化分析方法 - Google Patents

一种基于perl语言的种群特异SNP位点的自动化分析方法 Download PDF

Info

Publication number
CN109448789A
CN109448789A CN201811083689.3A CN201811083689A CN109448789A CN 109448789 A CN109448789 A CN 109448789A CN 201811083689 A CN201811083689 A CN 201811083689A CN 109448789 A CN109448789 A CN 109448789A
Authority
CN
China
Prior art keywords
population
special
snp
automated analysis
analysis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811083689.3A
Other languages
English (en)
Inventor
刘坤艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Original Assignee
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd filed Critical SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority to CN201811083689.3A priority Critical patent/CN109448789A/zh
Publication of CN109448789A publication Critical patent/CN109448789A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开的一种基于perl语言的种群特异SNP位点的自动化分析方法,具体包括如下步骤:(1)样本过滤步骤;(2)特异性定义步骤;(3)比较种群定义步骤;(4)比较方式选择步骤。本发明的有益效果在于:1.本发明是基于perl脚本的自动化分析方法,可对vcf文件全自动分析,提高数据处理效率和服务器使用效率。2.本发明的输入文件为变异的vcf文件格式,能与现有所有主流软件产生的变异结果文件无缝对接,大大提高了分析的便利性。3.本发明中的流程预留了不同的参数设置,既能比较两个种群,也能比较三个及以上的种群,同时满足不同研究目的的需要。

Description

一种基于perl语言的种群特异SNP位点的自动化分析方法
技术领域
本发明涉及分子生物学技术领域中的高通量测序生物信息分析领域,具体是指一种基于perl语言的种群特异SNP位点的自动化分析方法。
背景技术
以Illumina为代表的第二代测序技术,也称为高通量测序技术,具有通量高、成本低、测序时间短等优势,目前广泛应用于分子生物学领域。在高通量测序技术的帮助下,科学家可以快速地获知每个研究样本的基因组信息,极大地推动了分子生物学的发展。
种群是指在自然状态下或人为分类中的一个物种内遗传背景比较接近的一群个体。种群特异的分子标记是指能区分单个个体的种群属性的分子标记。即对单个个体,只需要测定出这些分子标记的基因型后就能判断这个个体是属于哪个种群。种群特异的分子标记在科研和生产生活中都有极大的应用价值。 SNP广泛存在于基因组中,数量大,分布广。随着高通量测序技术的发展,SNP 目前已经成为一种广泛应用的分子标记。
种群特异的SNP一般是指两个或多个种群比较,找到在目标种群中特异性很高的SNP。
但是现在有很多鉴定单个样本的SNP位点的软件,但是现在并没有直接根据单个样本的SNP位点信息鉴定种群特异SNP的流程。
发明内容
为了解决现有技术所存在的上述问题,本发明所提供的一种基于perl语言的种群特异SNP位点的自动化分析方法。
为了实现上述目的,本发明所采用的技术方式是:一种基于perl语言的种群特异SNP位点的自动化分析方法,包括如下步骤:
(1)样本过滤步骤;
(2)特异性定义步骤;
(3)比较种群定义步骤;
(4)比较方式选择步骤。
在本发明的一个优选实施例中,其特征在于,所述步骤(1)的过滤条件包括:a.是否考虑基因型缺失的情况;b.SNP位点的准确度;c.SNP位点的测序深度。
在本发明的一个优选实施例中,其特征在于,所述步骤(2)的定义标准包括:通过两个阈值(A和B)来定义特异性,一是SNP在目标群体中出现的频率高于阈值(A),二是SNP在非目标群体中出现的频率低于阈值(B)。
在本发明的一个优选实施例中,其特征在于,所述步骤(3)包括:将目标种群是与另外一个种群比较或与其它多个种群比较。
在本发明的一个优选实施例中,其特征在于,所述步骤(4)包括:根据步骤(3)中比较的情况,选择比较的方式,步骤(2)中定义的阈值B是在比较的多个群体内都满足,还是将多个种群看成一个种群,这个大种群的平均值满足阈值B。
由于采用了如上的技术方案,本发明具有如下几点主要创新点:
本发明是基于perl脚本的自动化分析方法,可对vcf文件全自动分析,提高数据处理效率和服务器使用效率。
本发明的输入文件为变异的vcf文件格式,能与现有所有主流软件产生的变异结果文件无缝对接,大大提高了分析的便利性。
本发明中的流程预留了不同的参数设置,既能比较两个种群,也能比较三个及以上的种群,同时满足不同研究目的的需要。
附图说明
图1为本发明的群体特异SNP鉴定方法的自动化分析流程图。
具体实施方式
实施例1
参见图1,图中所示的一种基于perl语言的种群特异SNP位点的自动化分析方法,包括如下步骤:
(1)准备要进行分析的原始数据;
数据为vcf文件,是生物信息分析中通用的存储变异位点信息的文件格式。与现在所有主流的鉴定变异位点的软件(samtools/GATK等)的结果文件兼容。
(2)设置SNP位点过滤的标准;
主要是:
a.SNP位点的准确性,即vcf文件中的GQ值,默认为30;
b.SNP位点测序的深度,即vcf文件中的DP值,默认为10;
c.是否考虑测序缺失的情况,即vcf文件中基因型为./.的情况,默认不考虑。
(3)定义特异的标准;
即设定阈值A和B的值,A和B默认为0.8和0.2。
(4)设置比较的种群;
即是指定用于比较的种群的名称。注意,这个种群名称必须与vcf文件中的名称一致。
(5)对于目标种群与其它多个种群比较的情况,选择比较的方式;
默认是将多个种群看成一个种群,这个大种群的平均值满足(3)中设定的标准阈值B。另外一个选项是用于比较的多个种群,每个种群内部的SNP位点都必须满足(3)中设定的标准阈值B。
在实际应用中,本发明的方法所利用的工具包共包含1个perl脚本代码,脚本名称如下:
Get_PopulationSpecificSNP.pl
这个脚本的代码编写基于perl语言,可以在Linux、MacOS等多种类Unix系统平台下使用。能够在工作站和或服务器上进行使用。
该程序以vcf格式文件作为输入数据,通过设置不同的参数,进行流程图所示的过程。
在实际应用中,查看鉴定种群特异SNP的参数方式为:Linux环境,执行perl Get_PopulationSpecificSNP.pl-h,具体的各种参数与对应的说明会出现在屏幕中。
在实际应用中,执行鉴定种群特异SNP程序的方式为:根据实际情况,设置好各种参数后,执行该perl程序,就能得到种群特异SNP的结果文件。
在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些参数。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。如果必要参数没有设置,该程序会返回错误信息并退出。可选参数有默认值,实际使用中分析人员也可以结合实际需求进行调整,具有灵活性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (5)

1.一种基于perl语言的种群特异SNP位点的自动化分析方法,包括如下步骤:
(1)样本过滤步骤;
(2)特异性定义步骤;
(3)比较种群定义步骤;
(4)比较方式选择步骤。
2.如权利要求1所述的一种基于perl语言的种群特异SNP位点的自动化分析方法,其特征在于,所述步骤(1)的过滤条件包括:a.是否考虑基因型缺失的情况;b.SNP位点的准确度;c.SNP位点的测序深度。
3.如权利要求1所述的一种基于perl语言的种群特异SNP位点的自动化分析方法,其特征在于,所述步骤(2)的定义标准包括:通过两个阈值(A和B)来定义特异性,一是SNP在目标群体中出现的频率高于阈值(A),二是SNP在非目标群体中出现的频率低于阈值(B)。
4.如权利要求1所述的一种基于perl语言的种群特异SNP位点的自动化分析方法,其特征在于,所述步骤(3)包括:将目标种群是与另外一个种群比较或与其它多个种群比较。
5.如权利要求1所述的一种基于perl语言的种群特异SNP位点的自动化分析方法,其特征在于,所述步骤(4)包括:根据步骤(3)中比较的情况,选择比较的方式,步骤(2)中定义的阈值B是在比较的多个群体内都满足,还是将多个种群看成一个种群,这个大种群的平均值满足阈值B。
CN201811083689.3A 2018-09-17 2018-09-17 一种基于perl语言的种群特异SNP位点的自动化分析方法 Pending CN109448789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811083689.3A CN109448789A (zh) 2018-09-17 2018-09-17 一种基于perl语言的种群特异SNP位点的自动化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811083689.3A CN109448789A (zh) 2018-09-17 2018-09-17 一种基于perl语言的种群特异SNP位点的自动化分析方法

Publications (1)

Publication Number Publication Date
CN109448789A true CN109448789A (zh) 2019-03-08

Family

ID=65532824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811083689.3A Pending CN109448789A (zh) 2018-09-17 2018-09-17 一种基于perl语言的种群特异SNP位点的自动化分析方法

Country Status (1)

Country Link
CN (1) CN109448789A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681708A (zh) * 2020-06-01 2020-09-18 上海派森诺生物科技股份有限公司 一种基于perl语言快速自动化分析多个SNP位点的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104561315A (zh) * 2015-01-09 2015-04-29 上海市农业科学院 水稻高抗性淀粉含量突变基因sbe3-rs的SNP检测方法
CN104781422A (zh) * 2012-09-20 2015-07-15 香港中文大学 从血浆无创测定胎儿或肿瘤的甲基化组
CN105653893A (zh) * 2015-12-25 2016-06-08 北京百迈客生物科技有限公司 一种基因组重测序分析系统及方法
CN106048038A (zh) * 2016-07-06 2016-10-26 中国水产科学研究院长江水产研究所 一种基于线粒体dna序列的中国大鲵群体划分方法
CN106103736A (zh) * 2013-10-15 2016-11-09 瑞泽恩制药公司 高分辨率等位基因鉴定
US20160328515A1 (en) * 2014-01-17 2016-11-10 Cornell University Method to match organ donors to recipients for transplantation
CN106599616A (zh) * 2017-01-03 2017-04-26 上海派森诺医学检验所有限公司 基于duplex‑seq的超低频突变位点检测分析方法
CN107619873A (zh) * 2017-08-30 2018-01-23 上海交通大学 基于关联分析和KASP开发waxy1基因内分子标记

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104781422A (zh) * 2012-09-20 2015-07-15 香港中文大学 从血浆无创测定胎儿或肿瘤的甲基化组
CN106103736A (zh) * 2013-10-15 2016-11-09 瑞泽恩制药公司 高分辨率等位基因鉴定
US20160328515A1 (en) * 2014-01-17 2016-11-10 Cornell University Method to match organ donors to recipients for transplantation
CN104561315A (zh) * 2015-01-09 2015-04-29 上海市农业科学院 水稻高抗性淀粉含量突变基因sbe3-rs的SNP检测方法
CN105653893A (zh) * 2015-12-25 2016-06-08 北京百迈客生物科技有限公司 一种基因组重测序分析系统及方法
CN106048038A (zh) * 2016-07-06 2016-10-26 中国水产科学研究院长江水产研究所 一种基于线粒体dna序列的中国大鲵群体划分方法
CN106599616A (zh) * 2017-01-03 2017-04-26 上海派森诺医学检验所有限公司 基于duplex‑seq的超低频突变位点检测分析方法
CN107619873A (zh) * 2017-08-30 2018-01-23 上海交通大学 基于关联分析和KASP开发waxy1基因内分子标记

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHASE W. NELSON ET AL: "SNPGenie: estimating evolutionary parameters to detect natural selection using pooled next-generation sequencing data", 《BIOINFORMATICS》 *
GOODNIGHT: "札记-处理两个物种多个群体的VCF文件中筛选SNP数据", 《知乎》 *
杨新笋: "基于SSR、SNP和形态学标记的甘薯种质资源遗传多样性研究", 《中国博士学位论文全文数据库 农业科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681708A (zh) * 2020-06-01 2020-09-18 上海派森诺生物科技股份有限公司 一种基于perl语言快速自动化分析多个SNP位点的方法

Similar Documents

Publication Publication Date Title
US20240218445A1 (en) Methods for clonotype screening
US10347365B2 (en) Systems and methods for visualizing a pattern in a dataset
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
Stoeckius et al. Cell Hashing with barcoded antibodies enables multiplexing and doublet detection for single cell genomics
CN107849612B (zh) 比对和变体测序分析管线
CN104484558B (zh) 生物信息项目的分析报告自动生成方法及系统
CN106201643A (zh) 数据解析方法及装置
CN103714180A (zh) 一种生物信息学数据库系统和数据处理方法
CN107451429A (zh) 一种一键化分析rna数据的系统
Todorov et al. Computational approaches for high‐throughput single‐cell data analysis
CN107944228A (zh) 一种基因测序变异位点的可视化方法
CN109616155A (zh) 一种编码区域遗传变异致病性分类的数据处理系统与方法
Schwender et al. Identifying interesting genes with siggenes
CN109448789A (zh) 一种基于perl语言的种群特异SNP位点的自动化分析方法
LU502479B1 (en) Group of snp loci and method for identifying biogeographic origins of east asian populations
CN110176276A (zh) 生物信息分析流程化管理方法及系统
CN106021987A (zh) 超低频突变分子标签聚类分群算法
Mir et al. In vivo ChIP-Seq of nuclear receptors: a rough guide to transform frozen tissues into high-confidence genome-wide binding profiles
Prunier et al. Fast alignment of mass spectra in large proteomics datasets, capturing dissimilarities arising from multiple complex modifications of peptides
CN104484750B (zh) 生物信息项目的产品参数自动匹配方法及系统
JP2024512651A (ja) 配列決定のためのヌクレオチド-試料スライド内の泡を検出するための機械学習モデル
Cheng et al. Unraveling the timeline of gene expression: A pseudotemporal trajectory analysis of single-cell RNA sequencing data
CN103488913A (zh) 一种用于利用测序数据将肽映射到蛋白质的计算方法
Vetter et al. ImmunoDataAnalyzer: a bioinformatics pipeline for processing barcoded and UMI tagged immunological NGS data
CN104484581A (zh) 生物信息项目的自动化分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190308