CN106480215B

CN106480215B - 一种分析处理农作物ssr标记图谱的方法及其装置

Info

Publication number: CN106480215B
Application number: CN201611102076.0A
Authority: CN
Inventors: 张宪晨; 朱丽; 刘越; 闫珍臣
Original assignee: BEIJING HUASHENG HENGYE TECHNOLOGY Co Ltd
Current assignee: Beijing Academy of Agricultural Sciences Seed Industry Technology Co.,Ltd.
Priority date: 2016-12-05
Filing date: 2016-12-05
Publication date: 2017-11-28
Anticipated expiration: 2036-12-05
Also published as: CN106480215A

Abstract

本发明涉及一种分析处理农作物SSR标记图谱的方法及其装置，其中所述方法包括曲线处理、内标校准以及片段分析和基因分型3个主要处理步骤，其特征在于,片段分析处理中还包括连续多峰处理步骤，所述连续多峰处理包括连续多峰识别、N+1峰识别、N+1峰识别、N+1峰处理、N+1峰再识别、递增多峰识别、递增多峰处理和影子峰处理；所述装置包括曲线处理、内标校准以及片段分析和基因分型3个模块，其特征在于，片段分析和基因分型模块还包括连续多峰处理子模块。本发明提供的分析处理农作物SSR图谱的方法大大改善了SSR标记的指纹采集效果，特别是对2bp的SSR标记类型的读取准确性大大提高。

Description

一种分析处理农作物SSR标记图谱的方法及其装置

技术领域

本发明一般地涉及生物遗传学和基因组学领域，并且更特别地，涉及一种分析处理农作物SSR标记图谱的方法及其装置。

背景技术

简单重复序列(Simple Sequence Repeats，SSR)，又称微卫星DNA或短串重复序列(Short Tandem Repeat,STR)，通常是以2-5个核苷酸为重复单位经10-50次重复串联的DNA序列，如(TC)_n、(GATA)_n、(GAA)_n以及(A)_n等。同类的简单重复序列可以分布在整个DNA序列的不同位置上，其长度一般不超过100碱基对(bp)。SSR的长度多态性来源于重复单位拷贝数的个体差异。

相比起其他现有的分子标记技术，如RFLP、PAPD、AFLP以及SNP等，SSR在农作物遗传信息处理方面具有显著的优势：1)SSR在整个DNA序列中有多处分布，数量丰富，能够充分揭示遗传多态性；2)由于具有多等位基因的特性，能够提供更多的遗传信息；3)SSR为共显性遗传，不易被自然和人工选择淘汰；和4)扩增片段短，易于利用PCR扩增及荧光毛细管电泳产生图谱，对所检测的DNA遗传物质的质量和数量要求相对较低，检测操作相对简单，成本相对低廉。利用SSR标记的高多态性，结合相关SSR标记图谱的处理分析手段，可以对不同亲缘农作物物种进行分类，判断其亲缘关系，评价不同农作物品种的异质性，并进而划分杂交优势群。

相对于人类遗传资源的研究，农作物遗传资源的研究相对落后。目前，由于用于农作物SSR标记的引物设计相对匮乏，也没有成熟的试剂盒，经PCR扩增和荧光毛细管电泳产生的SSR标记图谱不但有单峰(纯合子)和双峰(杂合子)还常常存在连续多峰，即一系列等间距、间距不大于2.5bp且峰数大于2的峰，这严重影响SSR标记检测的准确度。

导致连续多峰存在的因素有很多，主要为以下四个方面。N+1峰是连续多峰的主要因素，在用AmpliTaq DNA聚合酶进行PCR扩增时，该酶可以在扩增产物3’端附近加上一个与模板无互补关系的碱基，多数情况下为A，若有的产物不添加，有的产物添加，则会合成长度相差只有1个碱基的两种DNA扩增产物，分别为“N”峰和“N+1”峰。影子(stutter)峰表现为比相应等位基因主峰弱且相差一个或几个重复单元的次峰或递增多峰，其形成原因一般认为是PCR扩增过程中DNA聚合酶在合成DNA时滑动错配所致。还有，当等位基因如一些杂合等位基因距离较近，例如相差1个或2个重复单元时，如果此时又出现stutter峰，那么极有可能导致几个峰连起来形成连续多峰。另外，与人类的个体研究相比，农作物一般都是对一个品种的同质群体的整体描述，而非该品种的一个单株。在当样本纯度较低时，例如品种纯度为90％时，那么很有可能在正常峰附近出现比例大于10％的另外峰，而当纯度更低时则很可能会出现多个杂峰，如果杂峰距离相同则形成连续多峰。

若对连续多峰不加以有效处理会对SSR标记图谱能否被有效读取产生很大影响：一是峰不识别，由于滑动造成单个峰的峰高下降，当峰高低于高低峰的阈值时容易被漏读；二是读峰位置不稳定，最高的子峰不一定落在最右边，如果不定义终点峰的确定位置的规则，会造成不同样品相同峰型的基因型数据有差异；三是读峰不准确，存在多个与最高子峰峰高接近的子峰时，不仅读峰位置有误差而且容易将一个连续多峰识别成多个峰。这些影响会导致农作物SSR标记读取准确性降低，甚至失败。目前本领域缺乏对连续多峰的有效处理，连续多峰时常被直接排除只保留最大峰，或仅仅凭借技术人员的个人经验手动将连续多峰进行调整，如何快速且有效处理农作物SSR标记图谱中出现的连续多峰问题是本领域技术人员面临的挑战。

发明内容

为了解决现有技术无法快速且有效处SSR标记图谱中出现的连续多峰的问题，本发明的目的是提供一种分析处理农作物SSR标记图谱的方法，包括曲线处理、内标校准以及片段分析和基因分型3个主要处理步骤，其特征在于,片段分析处理中还包括连续多峰处理，所述连续多峰处理包括以下步骤:

1)连续多峰识别：扫描整个图谱，识别图谱是否存在一系列等间距、间距不大于2.5bp且峰数大于2的峰，即连续多峰，若存在则前往下一步骤步骤，不存在则结束连续多峰处理；

2)N+1峰识别：从连续多峰的第一个峰开始，如果后峰与本峰的间距在不大于1.2bp则将后峰加入至N+1峰组，若后峰与本峰的间距均大于1.2bp则前往步骤6；

3)N+1峰分组：在N+1峰组中找到最高的峰，如果最高峰在N+1峰组前3个位置则将最高峰、最高峰的左侧峰及最高峰的右侧的两个峰分为一子组而其他峰为另一子组，反之则以最高峰左侧第一峰为界将N+1峰组分为两子组；

4)N+1峰处理：在分组后，以每子组的最高峰为基础进行间隔过滤，即将每子组中最高峰两侧的第2n-1峰排除，其中n为整数且大于0；

5)N+1峰再识别：若处理后留下的N+1峰之间的间距仍不大于1.2bp，重复步骤3-4，若处理后的连续多峰段只剩一峰则结束连续多峰处理，若与上述两个情况不符则进入下一步骤；

6)递增多峰识别：从连续多峰的第一个峰开始作为本峰，若满足H_f<H_b<xH_f，或满足yH_f<H_b<H_f，将后峰加入递增多峰组，直至本峰为该连续多峰中的最高峰，其中H_f为本峰峰高，H_b为后峰峰高,5≤x≤10，0.85≤y<1；

7)递增多峰处理：若递增多峰组内峰数大于2，将组内其他峰排除只保留最后一峰，并将其他各峰的峰高叠加至最后一峰，处理后结束连续多峰处理，反之则不做处理并进入下一步骤；

8)影子峰处理：若左峰小于右峰的左比例则将左峰排除，若右峰小于左峰的右比例则将右峰排除，结束连续多峰处理步骤，其中所述左比例和右比例的取值在0至1之间。

进一步地，所述曲线处理还包括钉子峰处理步骤，所述钉子峰处理步骤是将由于电泳时电流不稳而导致的钉子状尖峰去除。

进一步地，所述曲线处理还包括饱和峰处理步骤，所述饱和峰处理步骤是将由于峰强度超过了测序仪的阈值而导致的平头或凹头型饱和峰以及在饱和峰下对应出现的拔起峰相叠加从而形成一个完整的峰。

本发明的另一个目的是在于提供一种分析处理农作物SSR标记图谱的装置，所述装置包括曲线处理、内标校准以及片段分析和基因分型3个模块，其特征在于，片段分析和基因分型模块还包括连续多峰处理子模块，所述连续多峰处理子模块包括以下单元：

连续多峰识别单元，用于识别所处理图谱是否存在连续多峰；

N+1峰识别单元，用于识别连续多峰是否存在N+1峰，即从连续多峰的第一个峰开始，如果后峰与本峰的间距在不大于1.2bp则将后峰加入至N+1峰组；

N+1峰分组单元，用于将被识别出的N+1峰进行分组处理，即在N+1峰组中找到最高的峰，如果最高峰在N+1峰组前3个位置则将最高峰、最高峰的左侧峰及最高峰的右侧的两个峰分为一组而其他峰为另一组，反之则以最高峰左侧第一峰为界将N+1峰组再分为两子组；

N+1峰处理单元，用于将经分组处理后的N+1峰进行处理，即以每子组的最高峰为基础进行间隔过滤，即将每子组中最高峰两侧的第2n-1峰排除，其中n为整数且大于0；

N+1峰再识别单元，用于识别经N+1峰处理单元处理后的图谱是否还存在N+1峰，若还存在N+1峰即将图谱传送至N+1峰分组单元再次进行分组处理，若处理后的连续多峰段只剩一峰则结束连续多峰处理，若与上述两个情况不符则进入下一步骤；

递增多峰识别单元，用于识别图谱是否存在递增多峰，即从连续多峰的第一个峰开始作为本峰，若满足H_f<H_b<xH_f，或满足yH_f<H_b<H_f，将后峰加入递增多峰组，直至本峰为该连续多峰中的最高峰，其中H_f为本峰峰高，H_b为后峰峰高，5≤x≤10，0.85≤y<1；

递增多峰处理单元，用于处理被识别出的递增多峰，即若递增多峰组内峰数大于2，将组内其他峰排除只保留最后一峰，并将其他各峰的峰高叠加至最后一峰，处理后结束连续多峰处理步骤，反之则不做处理并进入下一步骤；

影子峰处理单元，用于识别并处理被识别出的图谱中的影子峰，即若左峰小于右峰的左比例则将左峰排除，若右峰小于左峰的右比例则将右峰排除，结束连续多峰处理步骤，其中所述左比例和右比例的取值在0至1之间。

进一步地，所述曲线处理模块还包括钉子峰处理子模块，所述钉子峰处理子模块用于将由于电泳时电流不稳而导致的钉子状尖峰去除。

进一步地，所述曲线处理模块还包括饱和峰处理子模块，所述饱和峰处理子模块用于将由于峰强度超过了测序仪的阈值而导致的平头或凹头型饱和峰以及在饱和峰下对应出现的拔起峰相叠加从而形成一个完整的峰。

本发明的另一目的是提供一种电子终端，其特征在于，所述电子终端包括上文所述的任一种分析处理农作物SSR标记图谱的装置。

进一步地，所述电子终端包括：

通信模块，用于通过有线和/或无线的方式将所述分析处理农作物SSR标记图谱的装置处理后的图谱或图谱对应的数据传输到外部的其他设备。

本发明所述的曲线处理还可包括基线校准、曲线平滑处理等手段。

由于电泳系统中存在荧光物质的干扰，图谱中的各个色带的基线可能存在偏差。本发明所述的基线校准是将每个色带的最低峰值定为0，使每个色带在同一基准线上。

平滑处理是将图谱中存在的锯齿形状进行平滑处理，使原始峰值更加明显可读。

由于在PCR扩增和电泳处理中存在操作误差和其他物质的干扰，SSR图谱可能存在水平位移的情况。本发明所述的内标校准步骤是将检测所获得图谱中内标物(又称标准物)对应的峰的位置与内标物标准图谱中各个峰的位置做比对，以校准图谱的横坐标，即迁移距离(frame)。

本发明所述的片段分析(GeneScan)是先将已知长度的内标物做分子量标准得到基因长度(bp)对迁移距离(frame)的标准曲线，将检测的未知样品的峰与标准曲线作对比，计算出各个峰对应的实际基因片段长度(bp)。

本发明所述的基因分型(Genotyping)是将未知样品的峰与等位基因分型标准物(allelic ladder)做比对，以确认峰对应的等位基因。

本发明中提到的峰数指的是峰的个数。

本发明所述的分析处理农作物SSR图谱的方法与现有技术相比的优点在于：

(1)峰位置确定的更准确，大多数连续多峰都能像单峰一样能将位置误差控制在1bp以内。从而解决了以前SSR的引物等位基因梯度(BIN)设置时需要合并多个等位基因和BIN范围过宽的情况，在SSR指纹库构建时数据更加准确，不同实验室数据整合更加容易；

(2)峰高估值更加真实反映引物扩增情况，对引物不对称扩增现象得到更好的校正，对用混合样品构建品种SSR指纹库的方案具有极大的支持作用；

(3)峰的识别更加准确，减少了多识别峰和少识别峰的几率；

(4)易实现自动化，有效避免由人为判断而引入的误差，提高图谱处理速度。

总而言之，本发明提供的分析处理农作物SSR图谱的方法大大改善了SSR标记的指纹采集效果。特别是对2bp的SSR标记类型的读取准确性大大提高，而这部分标记在SSR标记中数量多、多态性高，作物品种SSR鉴定标准推荐的核心引物中包括大量这类标记，如果仅仅因为连续多峰的读取问题而将这部分标记放弃掉，将对作物品种SSR指纹库构建产生巨大影响，存在核心引物的重新筛选问题，也存在多态性降低的问题。

附图说明

图1为经过本发明的一个方法实施例与一个方法对比例处理的部分检测图谱对比图，其中上半图为经过该对比例处理的部分检测图谱，下半图为该实施例处理的同一部分检测图谱；

图2为经过本发明的另一个方法实施例与另一个方法对比例处理的部分检测图谱对比图，其中上半图为经过该对比例处理的部分检测图谱，下半图为该实施例处理的同一部分检测图谱；

图3为本发明的一个装置实施例的功能框图；

图4为本发明的另一个装置实施例的功能框图。

具体实施方式

需要说明的是，本发明所述的左比例、右比例、x和y的具体取值一般根据农作物的种类决定，在本发明所定义的各个取值范围内，本领域普通技术人员可以根据简单的正交实验得出特定农作物所对应的左比例、右比例、x和y的最佳值。

方法实施例1

使用P9引物对玉米的SSR标记测序，并使用PCR扩增和荧光标记形成相应的检测图谱。

对该检测图谱进行分析处理，所述分析处理包括曲线处理、内标校准以及片段分析和基因分型3个主要处理步骤，其中片段分析处理中还包括连续多峰处理，所述连续多峰处理包括以下步骤:

6)递增多峰识别：从连续多峰的第一个峰开始作为本峰，若满足H_f<H_b<xH_f，或满足yH_f<H_b<H_f，将后峰加入递增多峰组，直至本峰为该连续多峰中的最高峰，其中H_f为本峰峰高，H_b为后峰峰高，x＝5，y＝0.85；

7)递增多峰处理：若递增多峰组内峰数大于2，将组内其他峰排除只保留最后一峰，并将其他各峰的峰高叠加至最后一峰，处理后结束连续多峰处理步骤，反之则不做处理并进入下一步骤；

8)影子峰处理：若左峰小于右峰的左比例则将左峰排除，若右峰小于左峰的右比例则将右峰排除，结束连续多峰处理步骤，其中所述左比例为0.55，右比例为0.25。

处理后的检测图谱见附图1(下)。

方法实施例2

使用P31引物对玉米的SSR标记测序，并使用PCR扩增和荧光标记形成相应的检测图谱。

对该检测图谱进行分析处理，所述分析处理除x＝8、y＝0.9、左比例为0.6和右比例为0.33外与实施例1的分析处理过程相同。

处理后的检测图谱见附图2(下)。

方法对比例1

对该检测图谱进行分析处理，所述分析处理除了不做连续多峰处理外，其余与实施例1所述的处理分析相同。

处理后的检测图谱见附图1(上)。

方法对比例2

对该检测图谱进行分析处理，所述分析处理除了不做连续多峰处理外，其余与实施例2所述的处理分析相同。

处理后的检测图谱见附图2(上)。

通过附图1可以看到，在进行连续多峰处理后，检测图谱中272bp-280bp的连续多峰段得到了有效处理，273bp和274.8bp上干扰峰得到排除，从而避免多识别峰的情况，使检测准确率得到提高。

通过附图2可以看到，在进行连续多峰处理后，检测图谱中290bp-300bp的连续多峰段得到了有效处理，位置在299bp的峰被准确检出，从而避免少识别峰的情况，使检测准确率得到提高。

实验例1

对玉米、大豆、小麦的200个已知序列样品用测序分重复测序3次，对每种农作物同一已知序列的测序过程相同。所述样品包括混样样品。测序使用SSR标记，PCR扩增和荧光标记形成检测图谱，每种农作物分别得到300个检测图谱。将这些图谱分别经过连续多峰处理(即与实施例1相似)和非连续多峰处理方法(即与对比例1相似)进行分析处理，并将分析处理后的结果与已知序列做对比，得到每个方法的平均检测错误率，具体结果见下表。

在经过连续多峰处理后，检测图谱的平均检测错误率大幅降低，大大改善了SSR标记的指纹采集效果，特别是对2bp(如玉米和水稻)的SSR标记类型和混样样品的读取准确性大大提高。

图3为本发明的一个装置实施例的功能框图。如图3所示，该装置100包括：

包括曲线处理模块110、内标校准模块120、片段分析和基因分型模块130，其中片段分析模块和基因分型模块130还包括连续多峰处理子模块131，所述连续多峰处理子模块131包括以下单元：

连续多峰识别单元1311，用于识别所处理图谱是否存在连续多峰；

N+1峰识别单元1312，用于识别连续多峰是否存在N+1峰；

N+1峰分组单元1313，用于将被识别出的N+1峰进行分组处理；

N+1峰处理单元1314，用于将经分组处理后的N+1峰进行处理；

N+1峰再识别单元1315，用于识别经N+1峰处理单元处理后的图谱是否还存在N+1峰；

递增多峰识别单元1316，用于识别图谱是否存在递增多峰；

递增多峰处理单元1317，用于处理被识别出的递增多峰；

影子峰处理单元1318，用于识别并处理被识别出的图谱中的影子峰。

图4为本发明的一个装置实施例的功能框图。如图4所示，该装置100中的曲线处理模块110还可以包括钉子峰处理子模块111，用于将由于电泳时电流不稳而导致的钉子状尖峰去除；以及饱和峰处理子模块112，用于将由于峰强度超过了测序仪的阈值而导致的平头或凹头型饱和峰以及在饱和峰下对应出现的拔起峰相叠加从而形成一个完整的峰。

本发明实施例的装置的工作方法请详见上面的方法实施例，故在此不再详述。

本发明实施例还提供一种电子终端，所述电子终端包括以上的分析处理农作物SSR标记图谱的装置。进一步地，该电子终端还可以包括：通信单元，用于通过有线和/或无线的方式将所述分析处理农作物SSR标记图谱的装置处理后的图谱或图谱对应的数据传输到外部的其他设备。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，或者二者的结合来实施。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件模块或计算机软件产品可以存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。存储介质可以是随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

虽然本发明的原理已经在本文有具体描述，但是本领域的技术人员应当理解，这个描述仅通过示例的方式来进行，并且不作为关于本发明的范围的限制。除本文中所示出和描述的示例性实施例之外，在本发明的范围内通过本领域的普通技术人员的修改和代替的其他实施例，均被认为是在本发明的范围内。

Claims

1.一种分析处理农作物SSR标记图谱的装置，所述装置包括曲线处理、内标校准以及片段分析和基因分型3个模块，其特征在于，片段分析和基因分型模块包括连续多峰处理子模块，所述连续多峰处理子模块包括以下单元：

N+1峰组识别单元，用于识别连续多峰是否存在N+1峰组，即从连续多峰的第一个峰开始，如果后峰与本峰的间距不大于1.2bp则将后峰加入至N+1峰组；

N+1峰组分子组单元，用于将被识别出的N+1峰组进行分子组处理，即在N+1峰组中找到最高的峰，如果最高峰在N+1峰组前3个位置则将最高峰、最高峰的左侧峰及最高峰的右侧的两个峰分为一子组而其他峰为另一子组，反之则将最高峰左侧第一峰、最高峰及最高峰右侧所有峰分为一子组，而其他峰为另一子组；

N+1峰组处理单元，用于将经分子组处理后的N+1峰组进行处理，即以每子组的最高峰为基础进行间隔过滤，即将每子组中最高峰两侧的第2n-1峰排除，其中n为整数且大于0；

N+1峰组再识别单元，用于识别经N+1峰组处理单元处理后的图谱是否还存在N+1峰组，若还存在N+1峰组即将图谱传送至N+1峰组分子组单元再次进行分子组处理，若处理后的连续多峰段只剩一峰则结束连续多峰处理，若与上述两个情况不符则进入递增多峰识别单元；

递增多峰识别单元，用于识别图谱是否存在递增多峰，即从连续多峰的第一个峰开始作为本峰，若满足Hf<Hb<xHf，或满足yHf<Hb<Hf，将后峰加入递增多峰组，直至本峰为该连续多峰中的最高峰，其中Hf为本峰峰高，Hb为后峰峰高，5≤x≤10，0.85≤y<1；

递增多峰处理单元，用于处理被识别出的递增多峰，即若递增多峰组内峰数大于2，将组内其他峰排除只保留最后一峰，并将其他各峰的峰高叠加至最后一峰，处理后结束连续多峰处理，反之则不做处理并进入影子峰处理单元；

2.根据权利要求1所述的装置，其特征在于，所述曲线处理模块还包括钉子峰处理子模块，所述钉子峰处理子模块用于将由于电泳时电流不稳而导致的钉子状尖峰去除。

3.根据权利要求1所述的装置，其特征在于，所述曲线处理模块还包括饱和峰处理子模块，所述饱和峰处理子模块用于将由于峰强度超过了测序仪的阈值而导致的平头或凹头型饱和峰以及在该饱和峰下对应出现的拔起峰相叠加从而形成一个完整的峰。

4.一种电子终端，其特征在于，所述电子终端包括权利要求1-3中任一项所述的分析处理农作物SSR标记图谱的装置。

5.根据权利要求4所述的电子终端，其特征在于，所述电子终端包括：