CN110232952A - 一种批量分析微卫星数据的生物信息学方法 - Google Patents

一种批量分析微卫星数据的生物信息学方法 Download PDF

Info

Publication number
CN110232952A
CN110232952A CN201811649699.9A CN201811649699A CN110232952A CN 110232952 A CN110232952 A CN 110232952A CN 201811649699 A CN201811649699 A CN 201811649699A CN 110232952 A CN110232952 A CN 110232952A
Authority
CN
China
Prior art keywords
file
data
txt
loci
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811649699.9A
Other languages
English (en)
Other versions
CN110232952B (zh
Inventor
范李强
商海红
袁有禄
张志斌
范森淼
邹先炎
张震
刘爱英
葛群
李俊文
龚举武
巩万奎
石玉真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Original Assignee
Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Cotton Research of Chinese Academy of Agricultural Sciences filed Critical Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Priority to CN201811649699.9A priority Critical patent/CN110232952B/zh
Publication of CN110232952A publication Critical patent/CN110232952A/zh
Application granted granted Critical
Publication of CN110232952B publication Critical patent/CN110232952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种批量分析微卫星数据的生物信息学方法。本发明所提供的批量分析微卫星数据的生物信息学方法综合运用了检测微卫星无效等位位点的Cervus、MICRO‑CHECKER软件,计算群体遗传结构的STRUCTURE分析和PCoA分析,以及结合Perl脚本语言编程等方法。实验证明,本发明所提供的批量分析微卫星数据的生物信息学方法全面而系统,去除无效等位位点的微卫星数据更加准确,整个批量处理过程只需要在Windows系统中即可完成,操作简单可行,效率高,准确性好。

Description

一种批量分析微卫星数据的生物信息学方法
技术领域
本发明涉及生物技术领域,具体而言,涉及一种批量分析微卫星数据的生物信息学方法。
背景技术
简单序列重复(simple sequence repeat,SSR)又称微卫星DNA标记,是由1~6个核苷酸为基本重复单位组成的串联重复序列,其含量非常丰富,且随机遍布于整个基因组,长度一般在200bp以下。微卫星作为遗传学研究中最受欢迎的分子标记之一,具有高突变率、高等位基因多态性、近缘种之间较高的通用性、共显性遗传以及可重复性好等特点。
近年来,随着二代测序技术的发展,大量转录组数据和基因组数据的公开获取,使得直接在转录组或基因组数据上进行微卫星设计更加便捷可行。再加上用SSR方法分析样本的遗传变异关系时,只有等位变异数达到一定的范围时,才能真实地反映出研究样本之间的遗传变异关系,所以群体研究中对SSR标记数量的要求越来越高,尤其是对于样本量有限时。
群体结构分析(STRUCTURE分析和PCoA分析),是群体进化关系分析中最常见,最基础的分析内容,应用十分广泛。目前使用微卫星数据进行群体结构分析非常普遍,然而无效等位基因的频繁存在,使得在使用微卫星数据,尤其是大规模微卫星数据时不得不谨慎对待。无效等位基因又叫哑等位基因,是指那些在PCR扩增过程中不能成功扩增的等位基因。无效等位基因在微生物,植物,鱼类,以及哺乳动物等众多物种中普遍存在。若在研究分析中不排除这些无效等位基因,将会使结果产生巨大偏差,甚至会导致错误的推断。在此背景下,大规模SSR数据中对于无效等位位点的计算和排除,以及后续生物学分析中数据格式的转换对于非生物信息专业以及计算机基础相对薄弱的研究者来说往往需要手工处理,耗费大量的精力和时间,且容易出现人为的错误,造成软件无法正确运行,最终制约了他们在群体遗传学中的研究。
发明内容
为了克服上述瓶颈,本发明旨在于提供一种批量分析SSR数据的生物信息学方法,帮助科研人员实现得到大批量SSR数据后,只需要在Windows系统中即可实现批量化处理,直接自动化的实现SSR数据的矫正以及后续生物学分析,直接获取计算结果的一站式流程,从而为广大科研人员提供形式多样,高效率,通俗易懂的自动化流程。
本发明提供的技术方案是:
一种批量分析微卫星数据的生物信息学方法,包括以下步骤:
(1)通过对扩增成功的SSR样品进行条带的读取,然后由软件GeneMarker分析并记录每个SSR位点等位基因大小获得微卫星数据,得到最终SSR数据文件,标记为A数据集(文件A.xls),A数据集的数据格式见表1,位点名称假定为Locus1、Locus2、Locus3······,样品名称假定为Sample1、Sample2、Sample3、Sample4······;
表1.A数据集数据格式
Sample ID Locus 1 Locus 2 Locus 3 ···
Sample 1 数值1-1.1 数值1-1.2 数值1-2.1 数值1-2.2 数值1-3.1 数值1-3.2
Sample 2 数值2-1.1 数值2-1.2 数值2-3.1 数值2-3.2
Sample 3 数值3-2.1 数值3-2.2 数值3-3.1 数值3-3.2
Sample 4 数值4-1.1 数值4-1.2 数值4-2.1 数值4-2.2 数值4-3.1 数值4-3.2
···
所述A数据集中一般存在数值缺失情况,是由PCR扩增失败,或者条带读取失败等原因造成,缺失的数值为空缺状态;
(2)在office软件中打开A数据集,另存为csv格式,标记为B数据集(文件B.csv),数据格式不变,在A数据集第一行加上通用表头信息“Allele A和Allele B”,保存,标记为C数据集(文件C.xls),C数据集的数据格式见表2;
表2.C数据集数据格式
Sample ID Allele A Allele B Allele A Allele B Allele A Allele B Allele A Allele B
Locus 1 Locus 2 Locus 3 ···
Sample 1 数值1-1.1 数值1-1.2 数值1-2.1 数值1-2.2
Sample 2 数值2-1.1 数值2-1.2 数值2-3.1 数值2-3.2
Sample 3 数值3-2.1 数值3-2.2 数值3-3.1 数值3-3.2
Sample 4 数值4-1.1 数值4-1.2 数值4-2.1 数值4-2.2 数值4-3.1 数值4-3.2
···
所述B数据集(文件B.csv)为满足软件Cervus v3.0输入格式的文件,所述C数据集(文件C.xls)为满足软件MICRO-CHECKER v2.2.3输入格式的文件;
(3)在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B数据集和C数据集进行分析,得到“Cervus-result.txt”,“MICRO-CHECKER-result.txt”文件;
所述“Cervus-result.txt”,“MICRO-CHECKER-result.txt”文件为运用不同的方法检测无效等位位点后得到的结果,取二者无效等位位点的并集,用于下一步去除无效等位位点的步骤中;
所述“Cervus-result.txt”结果中,F(Null)值大于0.4(F(Null)>0.4)判定该位点为无效等位位点,所述“MICRO-CHECKER-result.txt”结果中,Null Present一栏出现“yes”判定该位点为无效等位位点。
(4)步骤(3)得到的无效等位位点的名称假定为Locus2和Locus4,输入到新建的“tag_list.txt”文件中,位点名称之间用换行符隔开,在office软件中打开A数据集,另存为txt格式,标记为D数据集(文件D.txt),数据格式不变,D数据集在运行前要置于“delete_null_loci.pl”脚本的文件夹内,通过命令行“perl delete_null_loci.pl D.txt tag_list.txt E.txt”运行脚本,可自动将D数据集中无效等位位点Locus2和Locus4删去,得到文件标记为E数据集(文件E.txt),E数据集的数据格式见表3;
表3.E数据集数据格式
Sample ID Locus 1 Locus 3 Locus 5 ···
Sample 1 数值1-1.1 数值1-1.2 数值1-5.1数值1-5.2
Sample 2 数值2-1.1 数值2-1.2 数值2-3.1 数值2-3.2
Sample 3 数值3-3.1 数值3-3.2 数值3-5.1 数值3-5.2
Sample 4 数值4-1.1 数值4-1.2 数值4-3.1 数值4-3.2 数值4-5.1 数值4-5.2
···
所述perl脚本“delete_null_loci.pl”的运行需要perl环境,所以需要预先在Windows系统中安装软件ActivePerl,生成perl环境;
(5)在office软件中打开步骤(4)得到的E数据集,删除第一行信息,增加第二列信息,并通过office软件查找替换功能将缺失数据替换成数值“-9”,保存标记为F数据集(文件F.txt),F数据集格式见表4,将名称“F.txt”输入到perl脚本“structure_convert.pl”中,同时输入生成文件的名称,标记为G,F数据集在运行前要置于“structure_convert.pl”脚本的文件夹内,通过命令行“perl structure_convert.pl”运行脚本,进行数据格式的转换,得到文件G数据集(文件G,无后缀),G数据集的数据格式见表5;
表4.F数据集数据格式
Sample 1 1 数值1-1.1 数值1-1.2 -9 -9 数值1-5.1 数值1-5.2 ···
Sample 2 1 数值2-1.1 数值2-1.2 数值2-3.1 数值2-3.2 -9 -9
Sample 3 1 -9 -9 数值3-3.1 数值3-3.2 数值3-5.1 数值3-5.2
Sample 4 1 数值4-1.1 数值4-1.2 数值4-3.1 数值4-3.2 数值4-5.1 数值4-5.2
··· 1
表5.G数据集数据格式
所述perl脚本“structure_convert.pl”的运行需要perl环境,所以需要预先在Windows系统中安装软件ActivePerl,生成perl环境,所述F数据集为满足软件STRUCTUREv2.3.4输入格式的文件;
(6)将步骤(5)得到的G数据集导入软件STRUCTURE v2.3.4中进行分析,得到名称为“result”的结果文件夹,在Windows系统中用压缩软件将其压缩为zip格式,标记为H数据集(H.zip)。然后在STRUCTURE HARVESTER(http://taylor0.biology.ucla.edu/structureHarvester/)中上传H数据集,点击按钮“Harvest!”即可得到计算结果;
(7)在office软件中打开步骤(4)得到的E数据集,添加前两行和第二列并添加特定信息-位点数目,样品数目和Pop ID,并通过替换功能将缺失数据替换成数值“0”,保存得到I数据集(I.txt),I数据集的数据格式见表6;
表6.I数据集数据格式
所述I数据集为满足GenAlEx v6.501软件输入格式的文件。
(8)将步骤(7)得到的I数据集导入软件GenAlEx v6.501中,按照软件默认参数进行PCoA分析。
在上述方法步骤(4)中,所述脚本“delete_null_loci.pl”中删除无效等位位点信息是基于如下方法进行编程的:打开并依次读取文件D.txt第一行信息,当第一行中出现的位点名称和tag_list.txt中记录的的无效等位位点名称不匹配时,跳过,匹配时,则将此位点所在列和邻近的下一列删去。
在上述方法步骤(5)中,所述脚本“structure_convert.pl”中进行数据格式的转换是基于如下方法进行编程的:打开并读取文件F.txt,首先对第一列和第二列的每一行内容进行如下操作:复制第一列和第二列的每一行内容,并在此行下方新建一行,粘贴内容。对于第三列以及之后的列,以每一行的2列数据为一个单位,依次读取并进行转位,从水平排列变为竖直排列,保存为新命名文件。
在上述方法步骤(6)中,所述STRUCTURE分析参数设定如下:估算每一个分组(K)的似然率值,K值范围设置为=1-8,并且允许分组间等位基因频率相关,500 000次burn-in重复,1500 000次MCMC重复(Monte Carlo Markov Chain),选择等位基因频率相关的混合模型(admixture model)进行重复20次的运算,所述H数据集(H.zip)为满足网站STRUCTUREHARVESTER输入格式的文件,通过两种计算方法—似然估计法(likelihood estimate)和ΔK统计法(ΔK statistic method)进行计算,从而判断最佳K值。
进一步地,本发明中所述脚本“delete_null_loci.pl”具体为:
进一步地,本发明中所述脚本“structure_convert.pl”具体为:
在本发明方法中,所述SSR数据为二倍体微卫星数据。
本发明具有以下优点:一是采用两种方法检测和去除无效等位位点,使得SSR数据更为准确;二是将适合各个软件输入的数据格式确定下来,效率高;三是本发明可以在Windows系统中将SSR数据分析过程中常用的软件和Perl脚本语言编程完美流畅的结合起来,实现软件之间的准确衔接,很大程度上弥补了非生物信息专业以及计算机基础相对薄弱的研究者对于大规模SSR数据处理过程中耗时费力、容易出现错误、流程化批量化欠缺等不足。本发明在批量分析微卫星数据的过程中可以发挥重要的作用。本发明所提供的批量分析微卫星数据的生物信息学方法综合运用了检测微卫星无效等位位点的Cervus、MICRO-CHECKER软件,计算群体遗传结构的STRUCTURE分析和PCoA分析,以及结合Perl脚本语言编程等方法。实验证明,本发明所提供的批量分析微卫星数据的生物信息学方法全面而系统,去除无效等位位点的微卫星数据更加准确,整个批量处理过程只需要在Windows系统中即可完成,操作简单可行,效率高,准确性好。
附图说明
图1为本发明批量分析微卫星数据的生物信息学方法的流程图。
图2为实施例2中步骤6)中得到的STRUCTURE分析结果。
图3为实施例2中步骤8)中得到的PCoA分析结果。
具体实施方式
下面,结合具体实施方式,对本发明做进一步描述,而这些实施例并不试图限制本发明的保护范围。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所使用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
批量分析微卫星数据的生物信息学方法的建立
请参见图1。本发明所提供的批量分析微卫星数据的生物信息学方法具体包括以下步骤:
(1)在office软件中打开SSR数据文件(A数据集),另存为文件B.csv,(B数据集)。在A数据集第一行加上通用表头信息“Allele A和Allele B”,保存为文件C.xls(C数据集)。
(2)在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B数据集和C数据集进行分析,得到“Cervus-result.txt”,“MICRO-CHECKER-result.txt”文件;所述“Cervus-result.txt”结果中,F(Null)值大于0.4(F(Null)>0.4)判定该位点为无效等位位点,所述“MICRO-CHECKER-result.txt”结果中,Null Present一栏出现“yes”判定该位点为无效等位位点,取二者无效等位位点的并集。
(3)在Windows系统中安装软件ActivePerl v5.24.2.2403,生成perl环境,能够运行perl脚本。
(4)将无效等位位点名称输入到新建的“tag_list.txt”文件中,位点名称之间用换行符隔开。在office软件中打开A数据集,另存为文件D.txt(D数据集),数据格式不变。D数据集在运行前要置于“delete_null_loci.pl”脚本的文件夹内,通过命令行“perldelete_null_loci.pl D.txt tag_list.txt E.txt”运行脚本,可自动将D数据集中无效等位位点删去,得到文件E.txt(E数据集)。
所述脚本“delete_null_loci.pl”中删除无效等位位点信息是基于如下方法进行编程的:打开并依次读取文件D.txt第一行信息,当第一行中出现的位点名称和tag_list.txt中记录的的无效等位位点名称不匹配时,跳过,匹配时,则将此位点所在列和邻近的下一列删去。
(5)在office软件中打开步骤(4)得到的E数据集,删除第一行信息,增加第二列信息,并通过office软件查找替换功能将缺失数据替换成数值“-9”,保存标记为文件F.txt(F数据集),将名称“F.txt”输入到perl脚本“structure_convert.pl”中,同时输入生成文件的名称,标记为G,F数据集在运行前要置于“structure_convert.pl”脚本的文件夹内,通过命令行“perl structure_convert.pl”运行脚本,进行数据格式的转换,得到文件G(G数据集)。
所述脚本“structure_convert.pl”中进行数据格式的转换是基于如下方法进行编程的:打开并读取文件F.txt,首先对第一列和第二列的每一行内容进行如下操作:复制第一列和第二列的每一行内容,并在此行下方新建一行,粘贴内容。对于第三列以及之后的列,以每一行的2列数据为一个单位,依次读取并进行转位,从水平排列变为竖直排列,保存为新命名文件。
(6)将步骤(5)得到的G数据集导入软件STRUCTURE v2.3.4中进行分析,参数设定如下:估算每一个分组(K)的似然率值,K值范围设置为=1-8,并且允许分组间等位基因频率相关;500 000次burn-in重复,1500 000次MCMC重复(Monte Carlo Markov Chain),选择等位基因频率相关的混合模型(admixture model)进行重复20次的运算,得到名称为“result”的结果文件夹,在Windows系统中用压缩软件将其压缩为zip格式,标记为H数据集(H.zip)。然后在STRUCTURE HARVESTER(http://taylor0.biology.ucla.edu/structureHarvester/)中上传H数据集,点击按钮“Harvest!”即可得到计算结果。
(7)在office软件中打开步骤(4)得到的E数据集,插入前两行和第二列并添加特定信息-位点数目,样品数目和Pop ID,并通过替换功能将缺失数据替换成数值“0”,保存得到I.txt(I数据集)。
所述I数据集为满足GenAlEx v6.501软件输入格式的文件。
(8)将步骤(7)得到的I数据集导入软件GenAlEx v6.501中,按照软件默认参数进行PCoA分析。
实施例2
利用实施例1建立的方法批量分析杨属物种375个清溪杨和山杨样品,16个位点的SSR数据。在Windows系统中进行微卫星无效等位位点的计算和去除,数据格式的转换以及遗传结构分析。在计算过程中,所涉及的常用程序名称、运行环境及地址如表7所示。
表7.所用软件信息
具体操作步骤如下:
1)参照实施例1的步骤(1)进行。
在office软件中打开375个清溪杨和山杨样品,16个位点的SSR数据(A.xls,SSR引物信息见表8),另存为文件B.csv。在文件A.xls第一行加上通用表头信息“Allele A和Allele B”,保存为文件C.xls。
表8.微卫星位点信息
2)参照实施例1的步骤(2)进行。
在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B.csv和C.xls进行分析,得到“Cervus-result.txt”,“MICRO-CHECKER-result.txt”文件。所述“Cervus-result.txt”结果中,F(Null)值大于0.4(F(Null)>0.4)判定该位点为无效等位位点,所述“MICRO-CHECKER-result.txt”结果中,Null Present一栏出现“yes”判定该位点为无效等位位点,取二者无效等位位点的并集,最终确定无效等位位点为GCPM_1260,PeuSSR_48175。
3)参照实施例1的步骤(3)进行。
在Windows系统中安装软件ActivePerl v5.24.2.2403,生成perl环境,能够运行perl脚本。
4)参照实施例1的步骤(4)进行。
在office软件中打开A.xls,另存为D.txt并置于“delete_null_loci.pl”脚本所在的文件夹内,将无效等位位点名称GCPM_126和PeuSSR_4817输入到新建的“tag_list.txt”文件中,位点名称之间用换行符隔开。通过命令行“perl delete_null_loci.plD.txt tag_list.txt E.txt”运行脚本,可自动将D.txt中GCPM_1260,PeuSSR_48175这两个位点的数据删去,得到文件E.txt。
5)参照实施例1的步骤(5)进行。
在office软件中打开E.txt,删除第一行信息,增加第二列信息,并通过office软件查找替换功能将缺失数据替换成数值“-9”,另存为文件F.txt并放置于“structure_convert.pl”脚本的文件夹内,将名称“F.txt”输入到perl脚本“structure_convert.pl”中,同时输入生成文件的名称“G”,通过命令行“perl structure_convert.pl”运行脚本,进行数据格式的转换,得到文件G。
6)参照实施例1的步骤(6)进行。
将文件G导入软件STRUCTURE v2.3.4中进行分析,参数设定如下:估算每一个分组(K)的似然率值,K值范围设置为=1-8,并且允许分组间等位基因频率相关。500 000次burn-in重复,1500 000次MCMC重复(Monte Carlo Markov Chain),选择等位基因频率相关的混合模型(admixture model)进行重复20次的运算,得到名称为“result”的结果文件夹,在Windows系统中用压缩软件将其压缩为H.zip。然后在STRUCTURE HARVESTER中上传H.zip,点击按钮“Harvest!”即可得到计算结果,见图2,结果显示当K=2时,ΔK呈现单峰,观察对数-似然函数值的峰图可知,尽管函数值随着K值(2-8)的增加而持续增加,但在K=2后函数值趋于稳定。综上表明,所有样品被划分为两个群体,分别与山杨,清溪杨这两个物种对应。
7)参照实施例1的步骤(7)进行。
在office软件中打开E.txt,插入前两行和第二列并添加特定信息(位点数目为14,样品数目为375),并通过替换功能将缺失数据替换成数值“0”,保存得到I.txt。
8)参照实施例1的步骤(8)进行。
将I.txt导入软件GenAlEx v6.501中,按照软件默认参数进行PCoA分析,结果见图3,结果与上述STRUCTURE结果保持一致,互相验证,所采集的样品中山杨,清溪杨这两个物种的遗传结构清晰明了。
本发明采用上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (7)

1.一种批量分析微卫星数据的生物信息学方法,包括如下流程步骤:
(1)通过对扩增成功的SSR样品进行条带的读取,然后由软件GeneMarker分析并记录每个SSR位点等位基因大小获得微卫星数据,得到最终SSR数据文件,标记为A数据集(文件A.xls),A数据集中,位点名称假定为Locus1、Locus2、Locus3······,样品名称假定为Sample1、Sample2、Sample3、Sample4······;
所述A数据集中一般存在数值缺失情况,缺失的数值为空缺状态;
(2)在office软件中打开A数据集,另存为csv格式,标记为B数据集(文件B.csv),数据格式不变,在A数据集第一行加上通用表头信息“Allele A和Allele B”,保存,标记为C数据集(文件C.xls);
所述B数据集(文件B.csv)为满足软件Cervus v3.0输入格式的文件,所述C数据集(文件C.xls)为满足软件MICRO-CHECKER v2.2.3输入格式的文件;
(3)在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B数据集和C数据集进行分析,得到“Cervus-result.txt”,“MICRO-CHECKER-result.txt”文件;
所述“Cervus-result.txt”,“MICRO-CHECKER-result.txt”文件为运用不同的方法检测无效等位位点后得到的结果,取二者无效等位位点的并集,用于下一步去除无效等位位点的步骤中;
(4)步骤(3)得到的无效等位位点的名称假定为Locus2和Locus4,输入到新建的“tag_list.txt”文件中,位点名称之间用换行符隔开,在office软件中打开A数据集,另存为txt格式,标记为D数据集(文件D.txt),数据格式不变,D数据集在运行前要置于“delete_null_loci.pl”脚本的文件夹内,通过命令行“perl delete_null_loci.pl D.txt tag_list.txtE.txt”运行脚本,可自动将D数据集中无效等位位点Locus2和Locus4删去,得到文件标记为E数据集(文件E.txt);
(5)在office软件中打开步骤(4)得到的E数据集,删除第一行信息,增加第二列信息,并通过office软件查找替换功能将缺失数据替换成数值“-9”,保存标记为F数据集(文件F.txt),将名称“F.txt”输入到perl脚本“structure_convert.pl”中,同时输入生成文件的名称,标记为G,F数据集在运行前要置于“structure_convert.pl”脚本的文件夹内,通过命令行“perl structure_convert.pl”运行脚本,进行数据格式的转换,得到文件G数据集,文件G,无后缀;
所述F数据集为满足软件STRUCTURE v2.3.4输入格式的文件;
(6)将步骤(5)得到的G数据集导入软件STRUCTURE v2.3.4中进行分析,得到名称为“result”的结果文件夹,在Windows系统中用压缩软件将其压缩为zip格式,标记为H数据集(H.zip),然后在STRUCTURE HARVESTER中上传H数据集,点击按钮“Harvest!”即可得到计算结果;
(7)在office软件中打开步骤(4)得到的E数据集,插入前两行和第二列并添加特定信息,并通过替换功能将缺失数据替换成数值“0”,保存得到I数据集(I.txt),I数据集的数据格式见表6;
所述I数据集为满足GenAlEx v6.501软件输入格式的文件;
(8)将步骤(7)得到的I数据集导入软件GenAlEx v6.501中,按照软件默认参数进行PCoA分析。
2.根据权利要求1所述的方法,其特征在于:步骤(3)中所述“Cervus-result.txt”结果中,F(Null)值大于0.4(F(Null)>0.4)判定该位点为无效等位位点,所述“MICRO-CHECKER-result.txt”结果中,Null Present一栏出现“yes”判定该位点为无效等位位点。
3.根据权利要求1所述的方法,其特征在于:步骤(4)中所述脚本“delete_null_loci.pl”中删除无效等位位点信息是基于如下方法进行编程的:打开并依次读取文件D.txt第一行信息,当第一行中出现的位点名称和tag_list.txt中记录的的无效等位位点名称不匹配时,跳过,匹配时,则将此位点所在列和邻近的下一列删去。
4.根据权利要求1所述的方法,其特征在于:步骤(5)中所述脚本“structure_convert.pl”中进行数据格式的转换是基于如下方法进行编程的:打开并读取文件F.txt,首先对第一列和第二列的每一行内容进行如下操作:复制第一列和第二列的每一行内容,并在此行下方新建一行,粘贴内容。对于第三列以及之后的列,以每一行的2列数据为一个单位,依次读取并进行转位,从水平排列变为竖直排列,保存为新命名文件。
5.根据权利要求1所述的方法,其特征在于:所述SSR数据为二倍体微卫星数据。
6.根据权利要求1所述的方法,其特征在于:步骤(6)中,所述STRUCTURE分析参数设定如下:估算每一个分组(K)的似然率值,K值范围设置为=1-8,并且允许分组间等位基因频率相关,500 000次burn-in重复,1500 000次MCMC重复(Monte Carlo Markov Chain),选择等位基因频率相关的混合模型(admixture model)进行重复20次的运算,所述H数据集(H.zip)为满足网站STRUCTURE HARVESTER输入格式的文件,通过两种计算方法—似然估计法和ΔK统计法进行计算,从而判断最佳K值。
7.根据权利要求1所述的方法,其特征在于:步骤(7)中所述特定信息为位点数目,样品数目和Pop ID。
CN201811649699.9A 2018-12-30 2018-12-30 一种批量分析微卫星数据的生物信息学方法 Active CN110232952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811649699.9A CN110232952B (zh) 2018-12-30 2018-12-30 一种批量分析微卫星数据的生物信息学方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811649699.9A CN110232952B (zh) 2018-12-30 2018-12-30 一种批量分析微卫星数据的生物信息学方法

Publications (2)

Publication Number Publication Date
CN110232952A true CN110232952A (zh) 2019-09-13
CN110232952B CN110232952B (zh) 2022-11-18

Family

ID=67861892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811649699.9A Active CN110232952B (zh) 2018-12-30 2018-12-30 一种批量分析微卫星数据的生物信息学方法

Country Status (1)

Country Link
CN (1) CN110232952B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040215401A1 (en) * 2003-04-25 2004-10-28 Krane Dan Edward Computerized analysis of forensic DNA evidence
US20090282324A1 (en) * 2006-10-04 2009-11-12 Dilip Patel Method and system for automatically generating template based excel pivots from web analytics
WO2015184608A2 (zh) * 2014-06-04 2015-12-10 四川农业大学 一种利用全基因组和est数据开发多态性est-ssr标记的方法
CN105426700A (zh) * 2015-12-18 2016-03-23 江苏省农业科学院 一种批量计算基因组直系同源基因进化速率的方法
TW201629233A (zh) * 2015-02-11 2016-08-16 王佩華 鵝隻遺傳特性鑑定與個體鑑別方法
CN106191245A (zh) * 2016-07-11 2016-12-07 南京农业大学 禾谷孢囊线虫est‑ssr分子标记的引物组合及应用
CN108441538A (zh) * 2018-04-17 2018-08-24 南昌大学 基于多样本高通量测序开发多态性微卫星分子标记的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040215401A1 (en) * 2003-04-25 2004-10-28 Krane Dan Edward Computerized analysis of forensic DNA evidence
US20090282324A1 (en) * 2006-10-04 2009-11-12 Dilip Patel Method and system for automatically generating template based excel pivots from web analytics
WO2015184608A2 (zh) * 2014-06-04 2015-12-10 四川农业大学 一种利用全基因组和est数据开发多态性est-ssr标记的方法
TW201629233A (zh) * 2015-02-11 2016-08-16 王佩華 鵝隻遺傳特性鑑定與個體鑑別方法
CN105426700A (zh) * 2015-12-18 2016-03-23 江苏省农业科学院 一种批量计算基因组直系同源基因进化速率的方法
CN106191245A (zh) * 2016-07-11 2016-12-07 南京农业大学 禾谷孢囊线虫est‑ssr分子标记的引物组合及应用
CN108441538A (zh) * 2018-04-17 2018-08-24 南昌大学 基于多样本高通量测序开发多态性微卫星分子标记的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
NONIC M,等: ""intra-population genetic diversity of beech in northeast serbia assessed by microsatellite markers"", 《INTERNATIONAL CONFERENCE: REFORESTATION CHALLENGES, BELGREDE, SERBIA, 3-6 JUNE 2015. PROCEEDINGS》 *
YU-CHUNG CHIANG,等: ""Management of Biodiversity Conservation Based on Genetic Diversity in Ecological and Agricultural Restoration"", 《2018 PACIFIC NEIGHBORHOOD CONSORTIUM ANNUAL CONFERENCE AND JOINT MEETINGS (PNC)》 *
王琳: ""鄂尔多斯高原遗鸥种群繁殖对策及其保护研究"", 《中国博士学位论文全文数据库基础科学辑》 *
翟云,等: ""基于SLAF-seq技术开发蓝圆鲹微卫星标记及跨物种扩增检测"", 《应用海洋学报》 *
陈海玲: ""基于SSR标记探讨三种金花茶植物的遗传多样性和遗传结构"", 《广西植物》 *
陈露瑶: ""海岛濒危植物舟山新木姜子谱系分化和遗传多样性研究"", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Also Published As

Publication number Publication date
CN110232952B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
Larsen et al. Population structure, relatedness and ploidy levels in an apple gene bank revealed through genotyping-by-sequencing
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN107292123A (zh) 一种基于高通量测序的微生物群落组成的方法和装置
CN112786102B (zh) 一种基于宏基因组学分析精准识别水体中未知微生物群落的方法
CN105112518B (zh) 一种基于Pacbio RS II测序平台的HLA分型方法
CN111341383A (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN109402241A (zh) 鉴定和分析古dna样本的方法
CN113278711A (zh) 绵羊种质资源鉴定和系谱重构的基因芯片、分子探针组合、试剂盒及应用
CN109524060B (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
CN110491446A (zh) 一种快速的批量化SNP/Indel引物设计的方法及系统
US20160078169A1 (en) Method of and apparatus for providing information on a genomic sequence based personal marker
CN109243531A (zh) 一种批量计算近缘物种间基因组编码区snp位点的方法
CN110570901B (zh) 一种基于测序数据进行ssr分型的方法及系统
Giguere et al. Complete and validated genomes from a metagenome
CN117409857A (zh) 一种GT-Seq分型SNP的数据处理方法
CN105528532A (zh) 一种rna编辑位点的特征分析方法
CN110232952A (zh) 一种批量分析微卫星数据的生物信息学方法
CN108823330B (zh) 一种大豆hrm-snp分子标记点标记方法及其应用
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN113981070B (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
CN113293220B (zh) 分析绵羊耳部大小的基因芯片、分子探针组合、试剂盒及应用
Hesse K-Mer-Based Genome Size Estimation in Theory and Practice
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
CN110453001B (zh) 1073个snp位点在结核分枝杆菌谱系3中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant