CN107944227A

CN107944227A - 一种遗传图谱的标记校正方法及装置

Info

Publication number: CN107944227A
Application number: CN201711296893.9A
Authority: CN
Inventors: 刘致浩
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-04-20
Anticipated expiration: 2037-12-08
Also published as: CN107944227B

Abstract

本发明公开了一种遗传图谱的标记校正方法及装置，其中的方法包括：根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分，获得拆分结果，其中，所述待校正的遗传图谱为CP群体，所述CP群体包含至少两种标记类型；根据所述拆分结果，对子代的标记来源进行判断，获得判断结果；根据所述判断结果，判断所述子代位点的标记是否有误；如果有误，则对所述子代位点的标记进行校正。本发明解决了现有技术无法对包含多种类型标记的遗传图谱进行校正的技术问题。

Description

一种遗传图谱的标记校正方法及装置

技术领域

本发明属于生物化学技术领域，尤其涉及一种遗传图谱的标记校正方法及装置。

背景技术

遗传图谱即遗传连锁图谱，是基因组研究中的一个重要组成部分，它是指基因组中基因以及专一的多态性标记之间相对位置的图谱。

目前在遗传图谱构建过程中主要的两种标记校正方法为Smooth算法(平滑处理算法)与Maskov算法，上述两种算法只能对单一的标记类型进行校正，而利用CP群体构建遗传图谱在基因组组装和性状定位方面都有非常重要的作用，CP群体的图谱构建相较于其他群体会有更多类型的标记，例如常用的标记类型为lm*ll、nn*np、hk*hk，从而采用现有的标记校正方法无法对包含多种类型标记的遗传图谱进行校正。

可见，现有技术存在无法对包含多种类型标记的遗传图谱进行校正的技术问题。

发明内容

本发明提供了一种遗传图谱的标记校正方法及装置，用以解决现有技术无法对包含多种类型标记的遗传图谱进行校正的技术问题。

本发明第一方面提供了一种遗传图谱的标记校正方法，所述方法包括：

根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分，获得拆分结果，其中，所述待校正的遗传图谱为CP群体，所述CP群体包含至少两种标记类型；

根据所述拆分结果，对子代的标记来源进行判断，获得判断结果；

根据所述判断结果，判断所述子代位点的标记是否有误；

如果有误，则对所述子代位点的标记进行校正。

可选地，所述方法还包括：

在所述根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分之前，去除完全相同的标记，并在校正完成后将所述完全相同的标记补回遗传图谱中。

可选地，所述根据所述判断结果，判断所述子代位点的标记是否有误，包括：

判断所述子代位点的标记的D值是否高于阈值；

如果高于阈值，则所述位点的标记有误。

可选地，所述对所述子代位点的标记进行校正，包括：

根据所述子代位点的标记与相邻位点的基因型之间的关系，对所述子代位点标记的基因型进行推断，获得推断结果；

基于所述推断结果，对所述子代位点标记进行校正。

可选地，在所述对所述子代位点的标记进行校正之后，所述方法还包括：

将新的构图数据与校正后的位点信息进行统计后输出，并进一步重新构图，获得构图结果。

可选地，在所述将新的构图数据与校正后的位点信息进行统计后输出并进一步构图之后，所述方法还包括：

判断所述构图结果是否合格；

如果不合格，则对所述构图结果进行再次校正。

重新调整阈值；

并基于调整后的阈值对所述构图结果进行再次校正。

基于同样的发明构思，本发明第二方面提供了一种遗传图谱的标记校正装置，所述装置包括：

拆分模块，用于根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分，获得拆分结果，其中，所述待校正的遗传图谱为CP群体，所述CP群体包含至少两种标记类型；

来源判断模块，用于根据所述拆分结果，对子代的标记来源进行判断，获得判断结果；

标记判断模块，用于根据所述判断结果，判断所述子代位点的标记是否有误；

校正模块，用于当所述子代位点的标记是否有误时，对所述子代位点的标记进行校正。

可选的，所述装置还包括：去除模块和补回模块，其中，所述去除模块用于在所述根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分之前，去除完全相同的标记，所述补回模块用于在校正完成后将所述完全相同的标记补回遗传图谱中。

可选的，所述标记判断模块用于：

判断所述子代位点的标记的D值是否高于阈值；

如果高于阈值，则所述位点的标记有误。

可选的，所述校正模块还用于：

基于所述推断结果，对所述子代位点标记进行校正。

可选的，所述装置还包括构图模块，用于在所述对所述子代位点的标记进行校正之后：

可选的，所述装置还包括第一处理模块，用于在所述将新的构图数据与校正后的位点信息进行统计后输出并进一步构图之后：

判断所述构图结果是否合格；

如果不合格，则对所述构图结果进行再次校正。

可选的，所述装置还包括第二处理模块，用于在所述将新的构图数据与校正后的位点信息进行统计后输出并进一步构图之后，所述方法还包括：

重新调整阈值；

并基于调整后的阈值对所述构图结果进行再次校正。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明提供的遗传图谱的标记校正方法，通过对待校正的遗传图谱进行排序后的基因型分布结果和所述标记类型对亲本的四条同源染色体进行拆分，获得拆分结果；并根据所述拆分结果，对子代的标记来源进行判断，从而可以得到子代标记的来源，然后根据判断结果判断所述子代位点的标记是否有误；如果有误，则对所述子代位点的标记进行校正。由于本发明提供的方法可以对包含多种标记类型的CP群体进行拆分，然后针对拆分后的部分进行来源判断以及错误的子代位点标记的判断，并进行校正，从而可以实现对包含多种标记类型的CP群体的标记进行校正，并且通过对错误的位点标记进行校正，保证了标记的准确度。解决了现有技术无法对包含多种类型标记的遗传图谱进行校正的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中遗传图谱的标记校正方法的流程图；

图2为本发明实施例中排序后的遗传图谱基因型分布结果示意图；

图3为图2的拆分结果图示意图；

图4为图3的来源结果判断示意图；

图5为图4的校正结果示意图；

图6为完全相同标记示意图；

图7为本发明实施例中遗传图谱的标记校正装置的结构图(这里面的排序模块不是我的)；

具体实施方式

本申请实施例中的技术方案，总体思路如下：

一种遗传图谱的标记校正方法，其特征在于，所述方法包括：

根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分，获得拆分结果，其中，所述待校正的遗传图谱为CP群体，所述CP群体包含至少两种标记类型；根据所述拆分结果，对子代的标记来源进行判断，获得判断结果；根据所述判断结果，判断所述子代位点的标记是否有误；如果有误，则对所述子代位点的标记进行校正

上述方法中，由于可以对包含多种标记类型的CP群体进行拆分，然后针对拆分后的部分进行来源判断以及错误的子代位点标记的判断，并进行校正，从而可以实现对包含多种标记类型的CP群体的标记进行校正，并且通过对错误的位点标记进行校正，保证了标记的准确度。解决了现有技术无法对包含多种类型标记的遗传图谱进行校正的技术问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种遗传图谱的标记校正方法，请参考图1，所述方法包括：

步骤S101：根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分，获得拆分结果，其中，所述待校正的遗传图谱为CP群体，所述CP群体包含至少两种标记类型；

步骤S102：根据所述拆分结果，对子代的标记来源进行判断，获得判断结果；

步骤S103：根据所述判断结果，判断所述子代位点的标记是否有误；

步骤S104：如果有误，则对所述子代位点的标记进行校正。

本发明提供的遗传图谱的标记校正方法，通过对判断所述子代位点的标记是否有误，并利用标记校正步骤，可以实现对CP群体错误标记基因型的检测与推断，提高了标记准确度，并且，可以对包含多种标记类型的CP群体进行校正，解决了现有技术中仅能针对一种标记类型的图谱进行标记的问题，此外，相较于常规的最大似然排序而言，可以提升CP群体遗传图谱质量，较回归算法排序可以提升标记数量与计算效率。

下面，结合图1，对本实施例提供的遗传图谱的标记校正方法进行详细描述：

首先执行步骤S101：根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分，获得拆分结果，其中，所述待校正的遗传图谱为CP群体，所述CP群体包含至少两种标记类型；

具体来说，可以采用现有的软件对遗传图谱进行构建，例如Joinmap软件等，排序的方法可以采用最大似然法或者回归法。排序后的基因型分布结果中包含phase结果，可以展示亲本标记在同源染色体上基因型分布。举例来说，Joinmap软件在遗传图谱构建中将F1群体称为CP群体，标记类型可以为lm*ll、hk*hk或者nn*np。以lm*ll为例，排序后的分布结果如图2所示，图2中的前7行表示了一些基本信息，第8-17行为第一个标记信息，18-27行为第2个标记信息，以此类推，其中第8/18行分别为第1/2个标记的名称、类型(<>中)、phase({}中)以及遗传位置信息(0.000cM 40.470cM)，其余行中的内容为每个子代个体的基因型信息。

具体来说，在对遗传图谱进行排序后，根据上述排序后的基因型分布结果和标记类型进行拆分，可分别依据父母本类型标记拆分出可区分的部分，从而获得拆分结果，以标记类型lm*ll为例，拆分结果如图3所示，其中图3中的第一行为表头，第1列为标记名称，第2列为遗传距离，第3列为标记类型，第4列为phase信息，第5-6列为母本的同源染色体拆分结果(MatherC1/C2),第7-8列为父本的同源染色体拆分结果(FatherC1/C2)，第9列及以后为每个子代的基因型信息。

接下来执行步骤S102：根据所述拆分结果，对子代的标记来源进行判断，获得判断结果。

具体来说，由于子代的标记与亲本的标记有关，在获得亲本同源染色体的拆分结果后，根据根据子代标记与亲本标记之间的关系，对子代的标记来源进行判断，获得判断结果，如图4所示，其中第1-8列与图3表示的信息类似，第9列开始改变，其中MC1表示来自于母本的第一条染色体，MC2为母本的第2条染色体，FC1与FC2分别为表示父本的第1/2条染色体。

然后执行步骤S103：根据所述判断结果，判断所述子代位点的标记是否有误。

具体来说，判断结果中包含了亲本和子代的基因型标记，此时需要判断子代的基因型标记是否有误，作为一种可选实施方式，判断子代位点的标记是否有误可以通过如下方式来实现：

判断所述子代位点的标记的D值是否高于阈值；

如果高于阈值，则所述位点的标记有误。

在具体的实施过程中，阈值可以根据实际情况进行设置，可以控制在0.7-0.99之间，其中D值的计算可以通过下述方式来实现：

分别选择标记位点上下游各15个相邻的其他标记，并依据距离远近赋予不同的权重值W(w₁,w₂....w₃₀)，然后分别判断这些相邻标记的来源，继续参见图4，将MC1与FC1来源对应分数记为1分，MC2与FC2来源分数记为-1分，如果缺失为0分，用s来表示分数，则每个位点最终的分数可记录为s₁*w₁,s₂*w₂……s₃₀*w₃₀，将每个位点的得分相加得到Score,即同时计算其绝对值的和值即然后计算出Score与AbsScore的比值记为预测值Pre-value；依据分析位点的来源可以得到观测值Ob-value(即MC1/FC1为1，MC2/FC2为-1)，最后计算Ob-value与Pre-value的差值的绝对值即为D-value，即D值，然后将D值与阈值进行比较，如果D值高于设置的阈值，则判定该位点有误。

最后执行步骤S104：如果有误，则对所述子代位点的标记进行校正。

具体来说，对所述子代位点的标记进行校正可以通过下述方式实现：

基于所述推断结果，对所述子代位点标记进行校正。

在具体的实施过程中，可以根据与该子代位点相邻点的基因型的关系，对子代位点标记进行推断，进而进行校正，得到正确的标记。如图5所示，其中前8列表示的信息与图3类似，第9列开始为每个子代的基因型，其中第一个：前者为推断之前的基因型，后者则为推断后的基因型来源。

需要说明的是，本申请方法中的图2-图6中所示的信息都可以保存到相应的文件中，有的为临时文件，有的为最终结果文件。

在本实施例提供的方法中，在根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分之前，去除完全相同的标记，并在校正完成后将所述完全相同的标记补回遗传图谱中。其中，去除完全相同的标记的示意图如图6所示，每一行中的标记为相互间完全相同的标记。

在本实施例提供的方法中，在所述对所述子代位点的标记进行校正之后，还包括：

将新的构图数据与校正后的位点信息进行统计后输出，并进一步构图，获得构图结果。

在本实施例提供的方法中，在所述将新的构图数据与校正后的位点信息进行统计后输出并进一步构图之后，所述方法还包括：

判断所述构图结果是否合格；

如果不合格，则对所述构图结果进行再次校正。

具体来说，通过上述方式，可以进一步对校正结果进行验证，从而进一步保证结果的准确性。

重新调整阈值；

并基于调整后的阈值对所述构图结果进行再次校正。

具体来说，由于阈值与校正幅度相关，也影响着校正结果的准确性，通过调整阈值的方式可以快速进行校正。

基于与实施例一同样的发明构思，本发明还提供了一种遗传图谱的标记校正方法相对应的装置，具体参见实施例二。

实施例二

本实施例提供了一种遗传图谱的标记校正装置，请参见图7，所述装置包括：

拆分模块201，用于根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分，获得拆分结果，其中，所述待校正的遗传图谱为CP群体，所述CP群体包含至少两种标记类型；

来源判断模块202，用于根据所述拆分结果，对子代的标记来源进行判断，获得判断结果；

标记判断模块203，用于根据所述判断结果，判断所述子代位点的标记是否有误；

校正模块204，用于当所述子代位点的标记是否有误时，对所述子代位点的标记进行校正。

本实施例提供的装置还包括：去除模块和补回模块，其中，所述去除模块用于在根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分之前，去除完全相同的标记，所述补回模块用于在校正完成后将所述完全相同的标记补回遗传图谱中。

本实施例提供的装置中，所述标记判断模块还用于：

判断所述子代位点的标记的D值是否高于阈值；如果高于阈值，则所述位点的标记有误。

本实施例提供的装置中，所述校正模块还用于：

根据所述子代位点的标记与相邻位点的基因型之间的关系，对所述子代位点标记的基因型进行推断，获得推断结果；基于所述推断结果，对所述子代位点标记进行校正。

本实施例提供的装置还包括构图模块，用于在所述对所述子代位点的标记进行校正之后：将新的构图数据与校正后的位点信息进行统计后输出，并进一步构图获得构图结果。

本实施例提供的装置还包括第一处理模块，用于在所述将新的构图数据与校正后的位点信息进行统计后输出，并进一步构图之后：

判断所述构图结果是否合格；如果不合格，则对所述构图结果进行再次校正。

本实施例提供的装置还包括第二处理模块，用于在所述将新的构图数据与校正后的位点信息进行统计后输出，并进一步构图之后：

重新调整阈值；并基于调整后的阈值对所述构图结果进行再次校正。

实施例一中的遗传图谱的标记校正方法的各种变化方式和具体实例同样适用于本实施例的遗传图谱的标记校正装置，通过前述对遗传图谱的标记校正方法的详细描述，本领域技术人员可以清楚的知道本实施例中的遗传图谱的标记校正装置，所以为了说明书的简洁，在此不再详述。

本发明提供的遗传图谱的标记校正方法，通过对待校正的遗传图谱进行排序，获得排序后的基因型分布结果后，可以根据排序后的基因型分布结果和所述标记类型对亲本的四条同源染色体进行拆分，获得拆分结果；并根据所述拆分结果，对子代的标记来源进行判断，从而可以得到子代标记的来源，然后根据判断结果判断所述子代位点的标记是否有误；如果有误，则对所述子代位点的标记进行校正。由于本发明提供的方法可以对包含多种标记类型的CP群体进行拆分，然后针对拆分后的部分进行来源判断以及错误的子代位点标记的判断，并进行校正，从而可以实现对包含多种标记类型的CP群体的标记进行校正，并且通过对错误的位点标记进行校正，保证了标记的准确度。解决了现有技术无法对包含多种类型标记的遗传图谱进行校正的技术问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种遗传图谱的标记校正方法，其特征在于，所述方法包括：

根据所述判断结果，判断所述子代位点的标记是否有误；

如果有误，则对所述子代位点的标记进行校正。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述判断结果，判断所述子代位点的标记是否有误，包括：

判断所述子代位点的标记的D值是否高于阈值；

如果高于阈值，则所述位点的标记有误。

4.如权利要求1所述的方法，其特征在于，所述对所述子代位点的标记进行校正，包括：

基于所述推断结果，对所述子代位点标记进行校正。

5.如权利要求1所述的方法，其特征在于，在所述对所述子代位点的标记进行校正之后，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，在所述将新的构图数据与校正后的位点信息进行统计后输出并进一步构图之后，所述方法还包括：

判断所述构图结果是否合格；

如果不合格，则对所述构图结果进行再次校正。

7.如权利要求5所述的方法，其特征在于，在所述将新的构图数据与校正后的位点信息进行统计后输出并进一步构图之后，所述方法还包括：

重新调整阈值；

并基于调整后的阈值对所述构图结果进行再次校正。

8.一种遗传图谱的标记校正装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述装置还包括：去除模块和补回模块，其中，所述去除模块用于在所述根据对待校正的遗传图谱进行排序后获得的基因型分布结果和所述待校正的遗传图谱的标记类型，对亲本的四条同源染色体进行拆分之前，去除完全相同的标记，所述补回模块用于在校正完成后将所述完全相同的标记补回遗传图谱中。

10.如权利要求8所述的装置，其特征在于，所述标记判断模块用于：

判断所述子代位点的标记的D值是否高于阈值；

如果高于阈值，则所述位点的标记有误。