CN110232952B

CN110232952B - 一种批量分析微卫星数据的生物信息学方法

Info

Publication number: CN110232952B
Application number: CN201811649699.9A
Authority: CN
Inventors: 范李强; 商海红; 袁有禄; 张志斌; 范森淼; 邹先炎; 张震; 刘爱英; 葛群; 李俊文; 龚举武; 巩万奎; 石玉真
Original assignee: Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Current assignee: Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2022-11-18
Anticipated expiration: 2038-12-30
Also published as: CN110232952A

Abstract

本发明公开了一种批量分析微卫星数据的生物信息学方法。本发明所提供的批量分析微卫星数据的生物信息学方法综合运用了检测微卫星无效等位位点的Cervus、MICRO‑CHECKER软件，计算群体遗传结构的STRUCTURE分析和PCoA分析，以及结合Perl脚本语言编程等方法。实验证明，本发明所提供的批量分析微卫星数据的生物信息学方法全面而系统，去除无效等位位点的微卫星数据更加准确，整个批量处理过程只需要在Windows系统中即可完成，操作简单可行，效率高，准确性好。

Description

一种批量分析微卫星数据的生物信息学方法

技术领域

本发明涉及生物技术领域，具体而言，涉及一种批量分析微卫星数据的生物信息学方法。

背景技术

简单序列重复(simple sequence repeat,SSR)又称微卫星DNA标记，是由1～6个核苷酸为基本重复单位组成的串联重复序列，其含量非常丰富，且随机遍布于整个基因组，长度一般在200bp以下。微卫星作为遗传学研究中最受欢迎的分子标记之一，具有高突变率、高等位基因多态性、近缘种之间较高的通用性、共显性遗传以及可重复性好等特点。

近年来，随着二代测序技术的发展，大量转录组数据和基因组数据的公开获取，使得直接在转录组或基因组数据上进行微卫星设计更加便捷可行。再加上用SSR方法分析样本的遗传变异关系时，只有等位变异数达到一定的范围时，才能真实地反映出研究样本之间的遗传变异关系，所以群体研究中对SSR标记数量的要求越来越高，尤其是对于样本量有限时。

群体结构分析(STRUCTURE分析和PCoA分析)，是群体进化关系分析中最常见，最基础的分析内容，应用十分广泛。目前使用微卫星数据进行群体结构分析非常普遍，然而无效等位基因的频繁存在，使得在使用微卫星数据，尤其是大规模微卫星数据时不得不谨慎对待。无效等位基因又叫哑等位基因，是指那些在PCR扩增过程中不能成功扩增的等位基因。无效等位基因在微生物，植物，鱼类，以及哺乳动物等众多物种中普遍存在。若在研究分析中不排除这些无效等位基因，将会使结果产生巨大偏差，甚至会导致错误的推断。在此背景下，大规模SSR数据中对于无效等位位点的计算和排除，以及后续生物学分析中数据格式的转换对于非生物信息专业以及计算机基础相对薄弱的研究者来说往往需要手工处理，耗费大量的精力和时间，且容易出现人为的错误，造成软件无法正确运行，最终制约了他们在群体遗传学中的研究。

发明内容

为了克服上述瓶颈，本发明旨在于提供一种批量分析SSR数据的生物信息学方法，帮助科研人员实现得到大批量SSR数据后，只需要在Windows系统中即可实现批量化处理，直接自动化的实现SSR数据的矫正以及后续生物学分析，直接获取计算结果的一站式流程，从而为广大科研人员提供形式多样，高效率，通俗易懂的自动化流程。

本发明提供的技术方案是：

一种批量分析微卫星数据的生物信息学方法，包括以下步骤：

(1)通过对扩增成功的SSR样品进行条带的读取，然后由软件GeneMarker分析并记录每个SSR位点等位基因大小获得微卫星数据，得到最终SSR数据文件，标记为A数据集(文件A.xls)，A数据集的数据格式见表1，位点名称假定为Locus1、Locus2、Locus3······，样品名称假定为Sample1、Sample2、Sample3、Sample4······；

表1.A数据集数据格式

Sample ID	Locus 1	Locus 2	Locus 3	···
					Sample 1	数值1-1.1 数值1-1.2	数值1-2.1 数值1-2.2	数值1-3.1 数值1-3.2
Sample 2	数值2-1.1 数值2-1.2		数值2-3.1 数值2-3.2
					Sample 3		数值3-2.1 数值3-2.2	数值3-3.1 数值3-3.2
Sample 4	数值4-1.1 数值4-1.2	数值4-2.1 数值4-2.2	数值4-3.1 数值4-3.2
					···

所述A数据集中一般存在数值缺失情况，是由PCR扩增失败，或者条带读取失败等原因造成，缺失的数值为空缺状态；

(2)在office软件中打开A数据集，另存为csv格式，标记为B数据集(文件B.csv)，数据格式不变，在A数据集第一行加上通用表头信息“Allele A和Allele B”，保存，标记为C数据集(文件C.xls)，C数据集的数据格式见表2；

表2.C数据集数据格式

Sample ID	Allele A Allele B	Allele A Allele B	Allele A Allele B	Allele A Allele B
						Locus 1	Locus 2	Locus 3	···
Sample 1	数值1-1.1 数值1-1.2	数值1-2.1 数值1-2.2
					Sample 2	数值2-1.1 数值2-1.2		数值2-3.1 数值2-3.2
Sample 3		数值3-2.1 数值3-2.2	数值3-3.1 数值3-3.2
					Sample 4	数值4-1.1 数值4-1.2	数值4-2.1 数值4-2.2	数值4-3.1 数值4-3.2
···

所述B数据集(文件B.csv)为满足软件Cervus v3.0输入格式的文件，所述C数据集(文件C.xls)为满足软件MICRO-CHECKER v2.2.3输入格式的文件；

(3)在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B数据集和C数据集进行分析，得到“Cervus-result.txt”，“MICRO-CHECKER-result.txt”文件；

所述“Cervus-result.txt”，“MICRO-CHECKER-result.txt”文件为运用不同的方法检测无效等位位点后得到的结果，取二者无效等位位点的并集，用于下一步去除无效等位位点的步骤中；

所述“Cervus-result.txt”结果中，F(Null)值大于0.4(F(Null)>0.4)判定该位点为无效等位位点，所述“MICRO-CHECKER-result.txt”结果中，Null Present一栏出现“yes”判定该位点为无效等位位点。

(4)步骤(3)得到的无效等位位点的名称假定为Locus2和Locus4，输入到新建的“tag_list.txt”文件中，位点名称之间用换行符隔开，在office软件中打开A数据集，另存为txt格式，标记为D数据集(文件D.txt)，数据格式不变，D数据集在运行前要置于“delete_null_loci.pl”脚本的文件夹内，通过命令行“perl delete_null_loci.pl D.txt tag_list.txt E.txt”运行脚本，可自动将D数据集中无效等位位点Locus2和Locus4删去，得到文件标记为E数据集(文件E.txt)，E数据集的数据格式见表3；

表3.E数据集数据格式

Sample ID	Locus 1	Locus 3	Locus 5	···
					Sample 1	数值1-1.1 数值1-1.2		数值1-5.1数值1-5.2
Sample 2	数值2-1.1 数值2-1.2	数值2-3.1 数值2-3.2
					Sample 3		数值3-3.1 数值3-3.2	数值3-5.1 数值3-5.2
Sample 4	数值4-1.1 数值4-1.2	数值4-3.1 数值4-3.2	数值4-5.1 数值4-5.2
					···

所述perl脚本“delete_null_loci.pl”的运行需要perl环境，所以需要预先在Windows系统中安装软件ActivePerl，生成perl环境；

(5)在office软件中打开步骤(4)得到的E数据集，删除第一行信息，增加第二列信息，并通过office软件查找替换功能将缺失数据替换成数值“-9”，保存标记为F数据集(文件F.txt)，F数据集格式见表4，将名称“F.txt”输入到perl脚本“structure_convert.pl”中，同时输入生成文件的名称，标记为G，F数据集在运行前要置于“structure_convert.pl”脚本的文件夹内，通过命令行“perl structure_convert.pl”运行脚本，进行数据格式的转换，得到文件G数据集(文件G，无后缀)，G数据集的数据格式见表5；

表4.F数据集数据格式

Sample 1	1	数值1-1.1 数值1-1.2	-9 -9	数值1-5.1 数值1-5.2	···
						Sample 2	1	数值2-1.1 数值2-1.2	数值2-3.1 数值2-3.2	-9 -9
Sample 3	1	-9 -9	数值3-3.1 数值3-3.2	数值3-5.1 数值3-5.2
						Sample 4	1	数值4-1.1 数值4-1.2	数值4-3.1 数值4-3.2	数值4-5.1 数值4-5.2
···	1

表5.G数据集数据格式

所述perl脚本“structure_convert.pl”的运行需要perl环境，所以需要预先在Windows系统中安装软件ActivePerl，生成perl环境，所述F数据集为满足软件STRUCTUREv2.3.4输入格式的文件；

(6)将步骤(5)得到的G数据集导入软件STRUCTURE v2.3.4中进行分析，得到名称为“result”的结果文件夹，在Windows系统中用压缩软件将其压缩为zip格式，标记为H数据集(H.zip)。然后在STRUCTURE HARVESTER(http://taylor0.biology.ucla.edu/structureHarvester/)中上传H数据集，点击按钮“Harvest！”即可得到计算结果；

(7)在office软件中打开步骤(4)得到的E数据集，添加前两行和第二列并添加特定信息-位点数目，样品数目和Pop ID，并通过替换功能将缺失数据替换成数值“0”，保存得到I数据集(I.txt)，I数据集的数据格式见表6；

表6.I数据集数据格式

所述I数据集为满足GenAlEx v6.501软件输入格式的文件。

(8)将步骤(7)得到的I数据集导入软件GenAlEx v6.501中，按照软件默认参数进行PCoA分析。

在上述方法步骤(4)中，所述脚本“delete_null_loci.pl”中删除无效等位位点信息是基于如下方法进行编程的：打开并依次读取文件D.txt第一行信息，当第一行中出现的位点名称和tag_list.txt中记录的的无效等位位点名称不匹配时，跳过，匹配时，则将此位点所在列和邻近的下一列删去。

在上述方法步骤(5)中，所述脚本“structure_convert.pl”中进行数据格式的转换是基于如下方法进行编程的：打开并读取文件F.txt，首先对第一列和第二列的每一行内容进行如下操作：复制第一列和第二列的每一行内容，并在此行下方新建一行，粘贴内容。对于第三列以及之后的列，以每一行的2列数据为一个单位，依次读取并进行转位，从水平排列变为竖直排列，保存为新命名文件。

在上述方法步骤(6)中，所述STRUCTURE分析参数设定如下：估算每一个分组(K)的似然率值，K值范围设置为＝1-8，并且允许分组间等位基因频率相关，500 000次burn-in重复，1500 000次MCMC重复(Monte Carlo Markov Chain)，选择等位基因频率相关的混合模型(admixture model)进行重复20次的运算，所述H数据集(H.zip)为满足网站STRUCTUREHARVESTER输入格式的文件，通过两种计算方法—似然估计法(likelihood estimate)和ΔK统计法(ΔK statistic method)进行计算，从而判断最佳K值。

进一步地，本发明中所述脚本“delete_null_loci.pl”具体为：

进一步地，本发明中所述脚本“structure_convert.pl”具体为：

在本发明方法中，所述SSR数据为二倍体微卫星数据。

本发明具有以下优点：一是采用两种方法检测和去除无效等位位点，使得SSR数据更为准确；二是将适合各个软件输入的数据格式确定下来，效率高；三是本发明可以在Windows系统中将SSR数据分析过程中常用的软件和Perl脚本语言编程完美流畅的结合起来，实现软件之间的准确衔接，很大程度上弥补了非生物信息专业以及计算机基础相对薄弱的研究者对于大规模SSR数据处理过程中耗时费力、容易出现错误、流程化批量化欠缺等不足。本发明在批量分析微卫星数据的过程中可以发挥重要的作用。本发明所提供的批量分析微卫星数据的生物信息学方法综合运用了检测微卫星无效等位位点的Cervus、MICRO-CHECKER软件，计算群体遗传结构的STRUCTURE分析和PCoA分析，以及结合Perl脚本语言编程等方法。实验证明，本发明所提供的批量分析微卫星数据的生物信息学方法全面而系统，去除无效等位位点的微卫星数据更加准确，整个批量处理过程只需要在Windows系统中即可完成，操作简单可行，效率高，准确性好。

附图说明

图1为本发明批量分析微卫星数据的生物信息学方法的流程图。

图2为实施例2中步骤6)中得到的STRUCTURE分析结果。

图3为实施例2中步骤8)中得到的PCoA分析结果。

具体实施方式

下面，结合具体实施方式，对本发明做进一步描述，而这些实施例并不试图限制本发明的保护范围。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所使用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

批量分析微卫星数据的生物信息学方法的建立

请参见图1。本发明所提供的批量分析微卫星数据的生物信息学方法具体包括以下步骤：

(1)在office软件中打开SSR数据文件(A数据集)，另存为文件B.csv，(B数据集)。在A数据集第一行加上通用表头信息“Allele A和Allele B”，保存为文件C.xls(C数据集)。

(2)在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B数据集和C数据集进行分析，得到“Cervus-result.txt”，“MICRO-CHECKER-result.txt”文件；所述“Cervus-result.txt”结果中，F(Null)值大于0.4(F(Null)>0.4)判定该位点为无效等位位点，所述“MICRO-CHECKER-result.txt”结果中，Null Present一栏出现“yes”判定该位点为无效等位位点，取二者无效等位位点的并集。

(3)在Windows系统中安装软件ActivePerl v5.24.2.2403，生成perl环境，能够运行perl脚本。

(4)将无效等位位点名称输入到新建的“tag_list.txt”文件中，位点名称之间用换行符隔开。在office软件中打开A数据集，另存为文件D.txt(D数据集)，数据格式不变。D数据集在运行前要置于“delete_null_loci.pl”脚本的文件夹内，通过命令行“perldelete_null_loci.pl D.txt tag_list.txt E.txt”运行脚本，可自动将D数据集中无效等位位点删去，得到文件E.txt(E数据集)。

所述脚本“delete_null_loci.pl”中删除无效等位位点信息是基于如下方法进行编程的：打开并依次读取文件D.txt第一行信息，当第一行中出现的位点名称和tag_list.txt中记录的的无效等位位点名称不匹配时，跳过，匹配时，则将此位点所在列和邻近的下一列删去。

(5)在office软件中打开步骤(4)得到的E数据集，删除第一行信息，增加第二列信息，并通过office软件查找替换功能将缺失数据替换成数值“-9”，保存标记为文件F.txt(F数据集)，将名称“F.txt”输入到perl脚本“structure_convert.pl”中，同时输入生成文件的名称，标记为G，F数据集在运行前要置于“structure_convert.pl”脚本的文件夹内，通过命令行“perl structure_convert.pl”运行脚本，进行数据格式的转换，得到文件G(G数据集)。

所述脚本“structure_convert.pl”中进行数据格式的转换是基于如下方法进行编程的：打开并读取文件F.txt，首先对第一列和第二列的每一行内容进行如下操作：复制第一列和第二列的每一行内容，并在此行下方新建一行，粘贴内容。对于第三列以及之后的列，以每一行的2列数据为一个单位，依次读取并进行转位，从水平排列变为竖直排列，保存为新命名文件。

(6)将步骤(5)得到的G数据集导入软件STRUCTURE v2.3.4中进行分析，参数设定如下：估算每一个分组(K)的似然率值，K值范围设置为＝1-8，并且允许分组间等位基因频率相关；500 000次burn-in重复，1500 000次MCMC重复(Monte Carlo Markov Chain)，选择等位基因频率相关的混合模型(admixture model)进行重复20次的运算，得到名称为“result”的结果文件夹，在Windows系统中用压缩软件将其压缩为zip格式，标记为H数据集(H.zip)。然后在STRUCTURE HARVESTER(http://taylor0.biology.ucla.edu/structureHarvester/)中上传H数据集，点击按钮“Harvest！”即可得到计算结果。

(7)在office软件中打开步骤(4)得到的E数据集，插入前两行和第二列并添加特定信息-位点数目，样品数目和Pop ID，并通过替换功能将缺失数据替换成数值“0”，保存得到I.txt(I数据集)。

所述I数据集为满足GenAlEx v6.501软件输入格式的文件。

实施例2

利用实施例1建立的方法批量分析杨属物种375个清溪杨和山杨样品，16个位点的SSR数据。在Windows系统中进行微卫星无效等位位点的计算和去除，数据格式的转换以及遗传结构分析。在计算过程中，所涉及的常用程序名称、运行环境及地址如表7所示。

表7.所用软件信息

具体操作步骤如下：

1)参照实施例1的步骤(1)进行。

在office软件中打开375个清溪杨和山杨样品，16个位点的SSR数据(A.xls，SSR引物信息见表8)，另存为文件B.csv。在文件A.xls第一行加上通用表头信息“Allele A和Allele B”，保存为文件C.xls。

表8.微卫星位点信息

2)参照实施例1的步骤(2)进行。

在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B.csv和C.xls进行分析，得到“Cervus-result.txt”，“MICRO-CHECKER-result.txt”文件。所述“Cervus-result.txt”结果中，F(Null)值大于0.4(F(Null)>0.4)判定该位点为无效等位位点，所述“MICRO-CHECKER-result.txt”结果中，Null Present一栏出现“yes”判定该位点为无效等位位点，取二者无效等位位点的并集，最终确定无效等位位点为GCPM_1260，PeuSSR_48175。

3)参照实施例1的步骤(3)进行。

在Windows系统中安装软件ActivePerl v5.24.2.2403，生成perl环境，能够运行perl脚本。

4)参照实施例1的步骤(4)进行。

在office软件中打开A.xls，另存为D.txt并置于“delete_null_loci.pl”脚本所在的文件夹内，将无效等位位点名称GCPM_126和PeuSSR_4817输入到新建的“tag_list.txt”文件中，位点名称之间用换行符隔开。通过命令行“perl delete_null_loci.plD.txt tag_list.txt E.txt”运行脚本，可自动将D.txt中GCPM_1260，PeuSSR_48175这两个位点的数据删去，得到文件E.txt。

5)参照实施例1的步骤(5)进行。

在office软件中打开E.txt，删除第一行信息，增加第二列信息，并通过office软件查找替换功能将缺失数据替换成数值“-9”，另存为文件F.txt并放置于“structure_convert.pl”脚本的文件夹内，将名称“F.txt”输入到perl脚本“structure_convert.pl”中，同时输入生成文件的名称“G”，通过命令行“perl structure_convert.pl”运行脚本，进行数据格式的转换，得到文件G。

6)参照实施例1的步骤(6)进行。

将文件G导入软件STRUCTURE v2.3.4中进行分析，参数设定如下：估算每一个分组(K)的似然率值，K值范围设置为＝1-8，并且允许分组间等位基因频率相关。500 000次burn-in重复，1500 000次MCMC重复(Monte Carlo Markov Chain)，选择等位基因频率相关的混合模型(admixture model)进行重复20次的运算，得到名称为“result”的结果文件夹，在Windows系统中用压缩软件将其压缩为H.zip。然后在STRUCTURE HARVESTER中上传H.zip，点击按钮“Harvest！”即可得到计算结果，见图2，结果显示当K＝2时，ΔK呈现单峰，观察对数-似然函数值的峰图可知，尽管函数值随着K值(2-8)的增加而持续增加，但在K＝2后函数值趋于稳定。综上表明，所有样品被划分为两个群体，分别与山杨，清溪杨这两个物种对应。

7)参照实施例1的步骤(7)进行。

在office软件中打开E.txt，插入前两行和第二列并添加特定信息(位点数目为14，样品数目为375)，并通过替换功能将缺失数据替换成数值“0”，保存得到I.txt。

8)参照实施例1的步骤(8)进行。

将I.txt导入软件GenAlEx v6.501中，按照软件默认参数进行PCoA分析，结果见图3，结果与上述STRUCTURE结果保持一致，互相验证，所采集的样品中山杨，清溪杨这两个物种的遗传结构清晰明了。

本发明采用上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种批量分析微卫星数据的生物信息学方法，包括如下流程步骤：

（1）通过对扩增成功的SSR样品进行条带的读取，然后由软件GeneMarker分析并记录每个SSR位点等位基因大小获得微卫星数据，得到最终SSR数据文件，标记为A数据集即文件A.xls，A数据集中，位点名称假定为Locus1、Locus2、Locus3······，样品名称假定为Sample1、Sample2、Sample3、Sample4······；

所述A数据集中一般存在数值缺失情况，缺失的数值为空缺状态；

（2）在office软件中打开A数据集，另存为csv格式，标记为B数据集即文件B.csv，数据格式不变，在A数据集第一行加上通用表头信息“Allele A和Allele B”，保存，标记为C数据集即文件C.xls；

所述B数据集即文件B.csv为满足软件Cervus v3.0输入格式的文件，所述C数据集即文件C.xls为满足软件MICRO-CHECKER v2.2.3输入格式的文件；

（3）在Windows系统中分别利用Cervus v3.0、MICRO-CHECKER v2.2.3软件对B数据集和C数据集进行分析，得到“Cervus-result.txt”，“MICRO-CHECKER-result.txt”文件；

（4）步骤（3）得到的无效等位位点的名称假定为Locus2和Locus4，输入到新建的“tag_list.txt”文件中，位点名称之间用换行符隔开，在office软件中打开A数据集，另存为txt格式，标记为D数据集即文件D.txt，数据格式不变，D数据集在运行前要置于“delete_null_loci.pl”脚本的文件夹内，通过命令行“perl delete_null_loci.pl D.txt tag_list.txtE.txt”运行脚本，可自动将D数据集中无效等位位点Locus2和Locus4删去，得到文件标记为E数据集即文件E.txt；

（5）在office软件中打开步骤（4）得到的E数据集，删除第一行信息，增加第二列信息，并通过office软件查找替换功能将缺失数据替换成数值“-9”，保存标记为F数据集即文件F.txt，将名称“F.txt”输入到perl脚本“structure_convert.pl”中，同时输入生成文件的名称，标记为G，F数据集在运行前要置于“structure_convert.pl”脚本的文件夹内，通过命令行“perl structure_convert.pl”运行脚本，进行数据格式的转换，得到文件G数据集，文件G，无后缀；

所述F数据集为满足软件STRUCTURE v2.3.4输入格式的文件；

（6）将步骤（5）得到的G数据集导入软件STRUCTURE v2.3.4中进行分析，得到名称为“result”的结果文件夹，在Windows系统中用压缩软件将其压缩为zip格式，标记为H数据集即H.zip，然后在STRUCTURE HARVESTER中上传H数据集，点击按钮“Harvest！”即可得到计算结果；

（7）在office软件中打开步骤（4）得到的E数据集，插入前两行和第二列并添加特定信息，并通过替换功能将缺失数据替换成数值“0”，保存得到I数据集即I.txt；

所述I数据集为满足GenAlEx v6.501软件输入格式的文件；

（8）将步骤（7）得到的I数据集导入软件GenAlEx v6.501中，按照软件默认参数进行PCoA分析。

2.根据权利要求1所述的方法，其特征在于：步骤（3）中所述“Cervus-result.txt”结果中，F(Null)值大于0.4即F(Null)>0.4判定该位点为无效等位位点，所述“MICRO-CHECKER-result.txt”结果中，Null Present一栏出现“yes”判定该位点为无效等位位点。

3.根据权利要求1所述的方法，其特征在于：步骤（4）中所述脚本“delete_null_loci.pl”中删除无效等位位点信息是基于如下方法进行编程的：打开并依次读取文件D.txt第一行信息，当第一行中出现的位点名称和tag_list.txt中记录的的无效等位位点名称不匹配时，跳过，匹配时，则将此位点所在列和邻近的下一列删去。

4.根据权利要求1所述的方法，其特征在于：步骤（5）中所述脚本“structure_convert.pl”中进行数据格式的转换是基于如下方法进行编程的：打开并读取文件F.txt，首先复制第一列和第二列的每一行内容，并在此行下方新建一行，粘贴内容，对于第三列以及之后的列，以每一行的2列数据为一个单位，依次读取并进行转位，从水平排列变为竖直排列，保存为新命名文件。

5.根据权利要求1所述的方法，其特征在于：所述SSR数据为二倍体微卫星数据。

6.根据权利要求1所述的方法，其特征在于：步骤（6）中，所述STRUCTURE分析参数设定如下：估算每一个分组K的似然率值，K值范围设置为=1-8，并且允许分组间等位基因频率相关，500 000次burn-in重复，1500 000次MCMC重复，选择等位基因频率相关的混合模型进行重复20次的运算，所述H数据集即H.zip为满足网站STRUCTURE HARVESTER输入格式的文件，通过两种计算方法—似然估计法和ΔK 统计法进行计算，从而判断最佳K值。

7.根据权利要求1所述的方法，其特征在于：步骤（7）中所述特定信息为位点数目，样品数目和Pop ID。