CN114203257A

CN114203257A - 基于snp标记获取回交群体背景回复率的方法

Info

Publication number: CN114203257A
Application number: CN202210144099.7A
Authority: CN
Inventors: 王凤格; 许理文; 葛建镕; 张云龙; 霍永学
Original assignee: Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-03-18
Anticipated expiration: 2042-02-17
Also published as: CN114203257B

Abstract

本发明提供基于SNP标记获取回交群体背景回复率的方法及装置，该方法包括：根据受体目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体第一目标SNP位点的基因型数据；基于回交群体中样品目标染色体第一目标SNP位点的基因型数据，确定第二目标SNP位点；将样品目标染色体第二目标SNP位点的基因型数据，与拟合受体目标染色体第二目标SNP位点的基因型数据进行对比，获取样品目标染色体的初步背景回复结果；对样品目标染色体的初步背景回复结果进行降噪处理；基于降噪处理后的初步背景回复结果，获取回交群体目标染色体的背景回复率。本发明提供的基于SNP标记获取回交群体背景回复率的方法及装置，能提高准确度。

Description

基于SNP标记获取回交群体背景回复率的方法

技术领域

本发明涉及植物育种技术领域，尤其涉及一种基于SNP标记获取回交群体背景回复率的方法及装置。

背景技术

回交转育技术是杂交育种的重要方式，其将提供优良基因的自交系作为供体非轮回亲本，通过杂交将目的基因转入到需要改良的受体轮回亲本中，再经过与受体轮回亲本多次回交，保证供体优良基因存在条件下不断增加轮回亲本的遗传比重；最后，对背景选择后的样品进行多代自交纯化，得到具有优良基因的纯合个体。

目前，主要利用染色体上数百个SSR（Simple Sequence Repeats，简单重复序列）标记作为回交后代回复情况的检测依据，以获取背景回复率。但基于SSR标记获取背景回复率的方法的准确度较差。

发明内容

本发明提供一种基于SNP标记获取回交群体背景回复率的方法及装置，用以解决现有技术中获取的回交群体背景回复率的准确度较低的缺陷，实现回交群体背景回复率的高准确度获取。

本发明提供一种基于SNP标记获取回交群体背景回复率的方法，包括：

根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体所述目标染色体各第一目标SNP位点的基因型数据；

基于回交群体中各样品所述目标染色体各所述第一目标SNP位点的基因型数据，确定各第二目标SNP位点；

分别将各所述样品所述目标染色体每一第二目标SNP位点的基因型数据，与所述拟合受体所述目标染色体所述每一第二目标SNP位点的基因型数据进行对比，获取每一所述样品所述目标染色体的初步背景回复结果；

对各所述样品所述目标染色体的初步背景回复结果进行降噪处理；

基于降噪处理后的各所述样品所述目标染色体的初步背景回复结果，获取所述回交群体所述目标染色体的背景回复率；

其中，所述第二目标SNP位点为各所述第一目标SNP位点中作为跟踪标记的SNP位点。

根据本发明提供的一种基于SNP标记获取回交群体背景回复率的方法，所述基于回交群体中各样品所述目标染色体各所述第一目标SNP位点的基因型数据，确定各第二目标SNP位点，具体包括：

基于各所述样品所述目标染色体各所述第一目标SNP位点的基因型数据，获取各所述第一目标SNP位点的最小等位基因频率；

删除各所述第一目标SNP位点中的单态标记，确定各第三目标SNP位点；

基于最小二乘法，对各所述样品所述目标染色体各所述第三目标SNP位点的最小等位基因频率进行拟合，获取拟合曲线；

基于所述拟合曲线和预设的浮动范围，对各所述第三目标SNP位点进行筛选，确定各所述第二目标SNP位点。

根据本发明提供的一种基于SNP标记获取回交群体背景回复率的方法，所述对各所述样品所述目标染色体的初步背景回复结果进行降噪处理，具体包括：

基于滑动窗口，对各所述样品所述目标染色体的初步背景回复结果进行降噪处理。

根据本发明提供的一种基于SNP标记获取回交群体背景回复率的方法，所述根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体所述目标染色体各第一目标SNP位点的基因型数据之前，还包括：

基于SNP芯片，获取所述各受体亲本目标染色体各SNP位点的基因型数据和各所述样品所述目标染色体所述各SNP位点的基因型数据。

根据本发明提供的一种基于SNP标记获取回交群体背景回复率的方法，所述根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体所述目标染色体各第一目标SNP位点的基因型数据，具体包括：

根据各受体亲本目标染色体各SNP位点的基因型数据，计算各所述SNP位点的等位基因频率；

对于每一所述SNP位点，在所述SNP位点的杂合基因型比例小于目标阈值的情况下，将所述SNP位点确定为所述第一目标SNP位点，并将所述SNP位点的等位基因频率最大的等位基因的纯合基因型，确定为所述拟合受体所述目标染色体所述第一目标SNP位点的基因型数据。

根据本发明提供的一种基于SNP标记获取回交群体背景回复率的方法，所述基于降噪处理后的各所述样品所述目标染色体的初步背景回复结果，获取所述回交群体所述目标染色体的背景回复率之后，还包括：

基于所述回交群体各所述目标染色体的背景回复率，获取所述回交群体全染色体的背景回复率。

根据本发明提供的一种基于SNP标记获取回交群体背景回复率的方法，所述SNP芯片包括Maize 6H-60K芯片。

本发明还提供一种基于SNP标记获取回交群体背景回复率的装置，包括：

受体拟合模块，用于根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体所述目标染色体各第一目标SNP位点的基因型数据；

标记确定模块，用于基于回交群体中各样品所述目标染色体各所述第一目标SNP位点的基因型数据，确定各第二目标SNP位点；

数据比对模块，用于分别将各所述样品所述目标染色体每一第二目标SNP位点的基因型数据，与所述拟合受体所述目标染色体所述每一第二目标SNP位点的基因型数据进行对比，获取每一所述样品所述目标染色体的初步背景回复结果；

结果降噪模块，用于对各所述样品所述目标染色体的初步背景回复结果进行降噪处理；

结果统计模块，用于基于降噪处理后的各所述样品所述目标染色体的初步背景回复结果，获取所述回交群体所述目标染色体的背景回复率；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于SNP标记获取回交群体背景回复率的方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于SNP标记获取回交群体背景回复率的方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于SNP标记获取回交群体背景回复率的方法的步骤。

本发明提供的基于SNP标记获取回交群体背景回复率的方法及装置，通过SNP位点分布均匀、密度大、范围广、高精确性的巨大优势，能解决利用SSR标记无法判断标记间的染色体片段发生交换情况，从而能提高背景回复率获取的准确度和效率。进一步地，随着标记位点的成百倍增长，回交后代背景选择更加精准和高效。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于SNP标记获取回交群体背景回复率的方法的流程示意图之一；

图2是本发明提供的SNP位点的最小等位基因频率的示意图；

图3是本发明提供的降噪前的初步背景回复结果的示意图；

图4是本发明提供的降噪后的初步背景回复结果的示意图；

图5是本发明提供的基于SNP标记获取回交群体背景回复率的方法的流程示意图之二；

图6是本发明提供的基于SNP标记获取回交群体背景回复率的装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明的基于SNP标记获取回交群体背景回复率的方法及装置。

图1是本发明提供的基于SNP标记获取回交群体背景回复率的方法的流程示意图之一。如图1所示，该方法包括：步骤101、步骤102、步骤103、步骤104和步骤105。

具体地，本发明实施例提供的基于SNP标记获取回交群体背景回复率的方法的执行主体可以为基于SNP标记获取回交群体背景回复率的装置。该装置可以将通过PC（个人计算机）或移动终端等多种形式实施。

步骤101、根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体各第一目标SNP位点的基因型数据。

具体地，目标染色体为目标作物的某条染色体。例如，对于玉米，目标染色体可以为十条染色体中的任意一条染色体。

对于目标染色体，可以根据各受体亲本（可以简称为“受体”）该染色体各SNP（单核苷酸多态性，Single Nucleotide Polymorphism）位点的基因型数据进行拟合，确定该染色体每个SNP位点的最终基因型，得到拟合受体目标染色体各第一目标SNP位点的基因型数据。

将各SNP位点去掉被判定为缺失的位点之后，剩余的位点为各第一目标SNP位点。

在回交育种过程中，SSR标记位点数量受到实验工作量和成本限制。例如，对于玉米，多数情况下只能选取均匀分布在十条染色体上100-200个具备代表性的标记位点，标记在染色体上分布密度小，经过检测只能验证标记位点是否存在，而不能反映出全染色体上的详细回复情况；当SSR两个相邻标记点间发生重组交换，缺失等情况时，由于SSR标记技术无法检测出两标记中间区段的变化情况，该片段在评估回复程度时将默认为已回复，但是这样的判定并不可靠，还会直接影响背景回复程度评估准确度。而SNP位点的数量可达万级。

步骤102、基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，确定各第二目标SNP位点。

其中，第二目标SNP位点为各第一目标SNP位点中作为跟踪标记的SNP位点。

具体地，将每一第一目标SNP位点均作为标记，基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，对各标记进行筛选，确定各标记中的跟踪标记，即确定各第一目标SNP位点中的各第二目标SNP位点。

步骤103、分别将各样品目标染色体每一第二目标SNP位点的基因型数据，与拟合受体目标染色体每一第二目标SNP位点的基因型数据进行对比，获取每一样品目标染色体的初步背景回复结果。

具体地，对于回交群体中的每一样品，将该样品目标染色体每一第二目标SNP位点的基因型数据，分别与拟合受体目标染色体该第二目标SNP位点的基因型数据进行对比。

对比的结果可以包括三种：完全回复、半完全回复和完全未回复。

示例性地，可以将完全与拟合受体相同的位点的比对值设定为1，代表完全回复位点，即样品位点与拟合受体在该位点的基因型完全一致；将一半与拟合受体相同的位点的比对值设定为2，代表该位点半完全回复，即样品位点与拟合受体在该位点的基因型有一半一致；将完全与拟合受体不同的位点的比对值设定为3，代表完全未回复，即样品位点与拟合受体在该位点的基因型完全不一致。

步骤104、对各样品目标染色体的初步背景回复结果进行降噪处理。

具体地，可以基于预设的降噪算法，对各样品目标染色体的初步背景回复结果进行降噪处理，更加凸显样品整体较母本的回复情况。

降噪算法可以根据实际需求灵活选择，本发明实施例对具体采用的降噪算法不进行具体限定。示例性的，可以采用滑动平均或中值滤波等。

步骤105、基于降噪处理后的各样品目标染色体的初步背景回复结果，获取回交群体目标染色体的背景回复率。

具体地，对于回交群体中的每一样品，可以基于降噪处理后的该样品目标染色体的初步背景回复结果，统计该样品目标染色体完全回复的第二目标SNP位点的数量和比例。该样品目标染色体完全回复的第二目标SNP位点的比例，即为回交群体中该样品目标染色体的背景回复率。

示例性地，玉米共有10条染色体，每条染色体上的SNP number代表其包含的SNP数量，SNP rate代表其SNP回复的比例（即回复率）。在每条染色体的统计前显示的是全染色体完全回复的SNP的总数（总回复数）和总回复率。某个玉米回交群体的背景回复率可以如表1所示。

表1 玉米回交群体的背景回复率表

根据表1即可进行单株筛选，以找出回复率高的单株作为下一代的回交亲本。

本发明实施例基于SNP位点获取回交群体的背景回复率，通过SNP位点分布均匀、密度大、范围广、高精确性的巨大优势，能解决利用SSR标记无法判断标记间的染色体片段发生交换情况，从而能提高背景回复率获取的准确度和效率。进一步地，随着标记位点的成百倍增长，回交后代背景选择更加精准和高效。

基于上述任一实施例的内容，基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，确定各第二目标SNP位点，具体包括：基于各样品目标染色体各第一目标SNP位点的基因型数据，获取各第一目标SNP位点的最小等位基因频率。

具体地，筛选第一目标SNP位点以获取跟踪标记的过程中，可以先基于各样品目标染色体每个第一目标SNP位点的基因型数据，统计该第一目标SNP位点在群体中的最小等位基因频率（Minor Allele Frequency，MAF）。

删除各第一目标SNP位点中的单态标记，确定各第三目标SNP位点。

具体地，过滤在群体中表现为单态的标记（即第一目标SNP位点），将剩余的第一目标SNP作为第三目标SNP位点，从而确定各第三目标SNP位点。

可以理解的是，第一目标SNP位点，是删除在受体或供体表现为杂合的标记（即SNP位点）后得到的，即对于各SNP位点，可以删除在受体或供体表现为杂合的标记以及在群体中表现为单态的标记，从而将剩余的SNP位点作为第三目标SNP位点。

基于最小二乘法，对各样品目标染色体各第三目标SNP位点的最小等位基因频率进行拟合，获取拟合曲线。

具体地，基于最小二乘法，对各第三目标SNP位点的最小等位基因频率进行多项式曲线拟合，确定曲线方程

。其中，M是多项式的最高次数，

代表的是x的 j次幂，

是

的系数。

在本实施例中，x表示第三目标SNP位点在目标染色体上的位置；

表示该第三目标SNP位点的最小等位基因频率的拟合值。

基于拟合曲线和预设的浮动范围，对各第三目标SNP位点进行筛选，确定各第二目标SNP位点。

具体地，对于每一第三目标SNP位点，若该第三目标SNP位点的最小等位基因频率F满足F∈[f(x)-a，f(x)+a]，则将该可以第三目标SNP位点确定为跟踪标记，即作为第二目标SNP位点；若该第三目标SNP位点的最小等位基因频率F不满足F∈[f(x)-a，f(x)+a]，则不将该可以第三目标SNP位点确定为跟踪标记，即不作为第二目标SNP位点。

其中，a为用于表示浮动范围的参数。参数a的值可以根据实际情况预先确定。对于参数a的值，本发明实施例不进行具体限定。优选地，a=0.1。

如图2所示，图2中的横坐标代表第三目标SNP位点在目标染色体上的位置，纵坐标代表第三目标SNP位点的等位基因频率；每个数据点代表对第三目标SNP位点的最小等位基因频率；中间的曲线代表由数据点拟合的多项式曲线（即拟合曲线）；上下的曲线代表拟合曲线上下浮动0.1的范围。

对于回交转育群体中的位点数据，拟合出曲线后选定曲线上下0.1浮动范围内的标记，作为跟踪标记。

本发明实施例通过删除各第一目标SNP位点中的单态标记，确定各第三目标SNP位点，基于最小二乘法，对各样品目标染色体各第三目标SNP位点的最小等位基因频率进行拟合，获取拟合曲线，基于拟合曲线和预设的浮动范围，对各第三目标SNP位点进行筛选，确定各第二目标SNP位点，能确定更合适的跟踪标记，从而能提高背景回复率获取的准确度和效率。

基于上述任一实施例的内容，对各样品目标染色体的初步背景回复结果进行降噪处理，具体包括：基于滑动窗口，对各样品目标染色体的初步背景回复结果进行降噪处理。

具体地，可以采用基于滑动窗口的数据降噪算法，对各样品目标染色体的初步背景回复结果进行降噪处理，通过迭代的方式依次对每个样品的全部跟踪标记的回复情况进行降噪处理。

滑动窗口的步长可以根据实际情况确定。对于滑动窗口的步长的具体值，本发明实施例不进行具体限定。优选地，滑动窗口的步长为5个SNP位点。

示例性地，根据比对结果，对每个样品的每个第二目标SNP位点的比对结果进行降噪处理，具体步骤如下：

第1步：首先定义每个滑动窗口大小为5个SNP标记（即5个SNP位点）。滑动窗口中的5个SNP标记为一个区块，以固定的方向滑动该滑动窗口。

第2步：依次遍历每个样品和该样品的每个SNP标记，时间复杂度为O(m*n)。其中，m为样品数，n为SNP标记数。

第3步：计算每个区块中出现频率最高且出现频率大于0.5的值，并以该值作为该区块（即当前窗口）的代表值。

第4步：结合前后窗口的代表值进行综合判断，对当前区块内的数据降噪。具体包括：

第4.1步：如果当前区块的代表值是缺失，则当前区块中的每个SNP位点的比对结果为前一区块的代表值；

第4.2步：如果当前区块的代表值与前后区块的代表值不同，且前后区块的代表值相同，则当前区块中的每个SNP位点的比对结果为前一区块的代表值；

第4.3步：如果当前区块的代表值与前后区块的代表值不同，且前后区块的代表值不同，则当前区块中的每个SNP位点的比对结果为前一区块的代表值；

第4.4步：其他情况下，当前区块中的每个SNP位点的比对结果为当前区块的代表值。

以玉米2号染色体为例，得到降噪处理前后的情况分别如图3和图4所示。图3示出的是降噪处理前各样品目标染色体的初步背景回复结果；图4示出的是降噪处理后各样品目标染色体的初步背景回复结果。图3和图4中的每行表示BC1（回交1代）群体中的一个样品，每列代表一个SNP位点；栅格“/”表示完全回复、栅格“|”表示杂合基因型、栅格“+”表示完全未回复。

本发明实施例通过滑动窗口，对各样品目标染色体的初步背景回复结果进行降噪处理，能有效处理缺失、杂合位点的数据，能提高背景回复率获取的准确度和效率。

基于上述任一实施例的内容，根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体各第一目标SNP位点的基因型数据之前，还包括：基于SNP芯片，获取各受体亲本目标染色体各SNP位点的基因型数据和各样品目标染色体各SNP位点的基因型数据。

具体地，各受体亲本目标染色体各SNP位点的基因型数据和各样品目标染色体各SNP位点的基因型数据，可以通过SNP芯片获取。

SNP芯片包括大量用于SNP检测的探针，从而可以检测基因组的多态性。SNP芯片对SNP的检测可以自动化、批量化，实现高通量的SNP检测，具有廉价、快速等优点。

基于上述任一实施例的内容，根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体各第一目标SNP位点的基因型数据，具体包括：根据各受体亲本目标染色体各SNP位点的基因型数据，计算各SNP位点的等位基因频率。

具体地，对于目标染色体的每一SNP位点，根据各受体亲本目标染色体该SNP位点的基因型数据，计算该SNP位点的等位基因频率。

对于每一SNP位点，在SNP位点的杂合基因型比例小于目标阈值的情况下，将SNP位点确定为第一目标SNP位点，并将SNP位点的等位基因频率最大的等位基因的纯合基因型，确定为拟合受体目标染色体第一目标SNP位点的基因型数据。

具体地，对于该SNP位点，若该SNP位点的杂合基因型比例大于目标阈值，则判定该SNP位点缺失，不将该SNP位点作为第一SNP位点；若该SNP位点的杂合基因型比例小于目标阈值，则将该SNP位点作为第一SNP位点，将该SNP位点等位基因频率最大的等位基因的纯合基因型，作为该SNP位点的最终基因型，即作为拟合受体目标染色体该第一目标SNP位点的基因型数据。

目标阈值可以根据实际情况预先确定。对于目标阈值的具体值，本发明实施例不进行具体限定。优选地，目标阈值为50%。

本发明实施例通过各SNP位点的等位基因频率，进行受体数据拟合，能有效处理缺失、杂合位点的数据，能提高背景回复率获取的准确度和效率。

基于上述任一实施例的内容，基于降噪处理后的各样品目标染色体的初步背景回复结果，获取回交群体目标染色体的背景回复率之后，还包括：基于回交群体各目标染色体的背景回复率，获取回交群体全染色体的背景回复率。

具体地，对于回交群体中的任一样品，获取该样品各目标染色体的背景回复率之后，可以获取该样品全染色体的背景回复率。

本发明实施例基于回交群体各目标染色体的背景回复率，获取回交群体全染色体的背景回复率，能提高背景回复率获取的准确度和效率。

基于上述任一实施例的内容，SNP芯片包括Maize 6H-60K芯片。

具体地，可以基于Maize 6H-60K芯片获取玉米回交群体的背景回复率。

Maize6H-60K SNP芯片基于全球收集的388个玉米自交系的全基因组重测序数据研制的。首先在核基因组上挖掘定位到了160M个SNP位点，建立原始SNP位点信息集。经过测序数据覆盖度、位点质量分值评估，获得25.6M个SNP位点，形成优异SNP位点池。并行开发了100个叶绿体基因组位点，并入到优异位点池中。将上述优异位点基于侧翼序列保守性、芯片平台兼容性、位点杂合率进一步筛选评估，并将玉米核基因组按照100kb窗口划分为20，599个bins，每个bin内随机选取约10个SNP位点，最后获得候选位点199，875个，形成筛选芯片位点组合。进一步采取更加严格过滤参数，筛选高质量、高多态、均匀分布的位点组合，最终确定61，282个位点，形成Maize6H-60K芯片。芯片包含60K位点均匀分布在玉米10条染色体上，35%的位点位于基因内区域，其中21%位于编码区。

利用329个代表自交系、221个国审杂交种、34套三联体（父、母本及F1）以及育种群体材料对60K芯片进行多维度评估。结果显示80%的位点被评估为高质量、高效率位点，超过85%的位点MAF值大于0.20；利用60K芯片对329份自交系的类群划分结果与已发表种质资源评估结果和已知系谱关系一致，并能进一步细化国内种质材料的分群。221个杂交种之间的遗传距离分析显示SNP和SSR标记结果具有极高的相关性，数据点集中分布，并成线性关系。

全基因组、高密度Maize6H-60K芯片是玉米分子遗传研究的重要辅助工具，是集品种鉴定、品种确权、分子育种等多用途为一体的新型芯片。该芯片已授权生产10万张，通过科企合作联合体模式已在多家大型种企进行规模化应用，累计检测玉米杂交种、自交系、种质资源、DH系、育种群体等3万多份样品，通过大量材料的应用进一步验证了Maize6H-60K芯片具有高质量、高鉴别力、高兼容性、高灵活性等特点。

为了便于对本发明是上述各实施例的理解，下面以玉米回交群体为例，说明基于SNP标记获取回交群体背景回复率的方法的实施过程。

如图5所示，基于SNP标记获取回交群体背景回复率的方法可以包括以下步骤。

步骤501、构建数据集合。

以染色体为单位拆分每块Maize 6H-60K芯片数据板，再将拆分结果按染色体合并，最终得到十条染色体的数据集。

步骤502、拟合受体数据。

对于BC1，根据各受体亲本目标染色体各SNP位点的基因型数据进行拟合，获取拟合受体目标染色体各第一目标SNP位点的基因型数据。

步骤503、确定跟踪标记。

基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，确定各第二目标SNP位点（即跟踪标记）。

步骤504、构建数据子集。

根据跟踪标记和需要分析的样品数据构建数据子集，即筛选出各样品每一目标染色体各第二目标SNP位点的基因型数据，作为数据子集。

步骤505、群体数据与拟合受体比对。

分别将各样品目标染色体每一第二目标SNP位点的基因型数据，与拟合受体目标染色体每一第二目标SNP位点的基因型数据进行对比，获取每一样品目标染色体的初步背景回复结果。

步骤506、结果降噪。

使用基于滑动窗口的数据降噪算法对结果进行降噪处理，使用迭代的方式依次对每个样品的全部标记进行降噪处理。

步骤507、统计汇总。

统计样品在每条染色体上的回复情况（即回复率）和全染色体回复情况（即回复率）。

需要说明的是，对于非BC1的群体，步骤501之后可以直接进入步骤504。

Maize 6H-60K芯片通过高密度的SNP标记位点提高了对全染色体重组交换频率分析的精度，经过分析、计算可以详细地统计样品全染色体上发生重组交换的SNP位点分布、重组交换频率以及精确到各染色体上发生交换次数等信息，可以有效地解决传统SSR标记数目少无法识别出标记之间较长染色体片段发生交换的情况，显著提高了背景选择的精细化程度和准确度。统计结果符合遗传重组交换规律。

下面对本发明提供的基于SNP标记获取回交群体背景回复率的装置进行描述，下文描述的基于SNP标记获取回交群体背景回复率的装置与上文描述的基于SNP标记获取回交群体背景回复率的方法可相互对应参照。

图6是本发明提供的基于SNP标记获取回交群体背景回复率的装置的结构示意图。基于上述任一实施例的内容，如图6所示，基于SNP标记获取回交群体背景回复率的装置包括受体拟合模块601、标记确定模块602、数据比对模块603、结果降噪模块604和结果统计模块605，其中：

受体拟合模块601，用于根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体各第一目标SNP位点的基因型数据；

标记确定模块602，用于基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，确定各第二目标SNP位点；

数据比对模块603，用于分别将各样品目标染色体每一第二目标SNP位点的基因型数据，与拟合受体目标染色体每一第二目标SNP位点的基因型数据进行对比，获取每一样品目标染色体的初步背景回复结果；

结果降噪模块604，用于对各样品目标染色体的初步背景回复结果进行降噪处理；

结果统计模块605，用于基于降噪处理后的各样品目标染色体的初步背景回复结果，获取回交群体目标染色体的背景回复率；

具体地，受体拟合模块601、标记确定模块602、数据比对模块603、结果降噪模块604和结果统计模块605顺次电连接。

对于目标染色体，受体拟合模块601可以根据各受体亲本该染色体各SNP位点的基因型数据进行拟合，确定该染色体每个SNP位点的最终基因型，得到拟合受体目标染色体各第一目标SNP位点的基因型数据。

标记确定模块602可以将每一第一目标SNP位点均作为标记，基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，对各标记进行筛选，确定各标记中的跟踪标记，即确定各第一目标SNP位点中的各第二目标SNP位点。

对于回交群体中的每一样品，数据比对模块603可以将该样品目标染色体每一第二目标SNP位点的基因型数据，分别与拟合受体目标染色体该第二目标SNP位点的基因型数据进行对比，从而获取该样品目标染色体的初步背景回复结果

结果降噪模块604可以基于预设的降噪算法，对各样品目标染色体的初步背景回复结果进行降噪处理，更加凸显样品整体较母本的回复情况。

对于回交群体中的每一样品，结果统计模块605可以基于降噪处理后的该样品目标染色体的初步背景回复结果，统计该样品目标染色体完全回复的第二目标SNP位点的数量和比例。该样品目标染色体完全回复的第二目标SNP位点的比例，即为回交群体中该样品目标染色体的背景回复率。

可选地，标记确定模块602可以具体用于：

基于各样品目标染色体各第一目标SNP位点的基因型数据，获取各第一目标SNP位点的最小等位基因频率；

删除各第一目标SNP位点中的单态标记，确定各第三目标SNP位点；

基于最小二乘法，对各样品目标染色体各第三目标SNP位点的最小等位基因频率进行拟合，获取拟合曲线；

可选地，结果降噪模块604可以具体用于：

基于滑动窗口，对各样品目标染色体的初步背景回复结果进行降噪处理。

可选地，该基于SNP标记获取回交群体背景回复率的装置可以包括：

数据获取模块，用于基于SNP芯片，获取各受体亲本目标染色体各SNP位点的基因型数据和各样品目标染色体各SNP位点的基因型数据。

可选地，受体拟合模块601可以具体用于：

根据各受体亲本目标染色体各SNP位点的基因型数据，计算各SNP位点的等位基因频率；

可选地，结果统计模块605，还可以用于基于回交群体各目标染色体的背景回复率，获取回交群体全染色体的背景回复率。

可选地，SNP芯片包括Maize 6H-60K芯片。

本发明实施例提供的基于SNP标记获取回交群体背景回复率的装置，用于执行本发明上述基于SNP标记获取回交群体背景回复率的方法，其实施方式与本发明提供的基于SNP标记获取回交群体背景回复率的方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

该基于SNP标记获取回交群体背景回复率的装置用于前述各实施例的基于SNP标记获取回交群体背景回复率的方法。因此，在前述各实施例中的基于SNP标记获取回交群体背景回复率的方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于SNP标记获取回交群体背景回复率的方法，该方法包括：根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体各第一目标SNP位点的基因型数据；基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，确定各第二目标SNP位点；分别将各样品目标染色体每一第二目标SNP位点的基因型数据，与拟合受体目标染色体每一第二目标SNP位点的基因型数据进行对比，获取每一样品目标染色体的初步背景回复结果；对各样品目标染色体的初步背景回复结果进行降噪处理；基于降噪处理后的各样品目标染色体的初步背景回复结果，获取回交群体目标染色体的背景回复率；其中，第二目标SNP位点为各第一目标SNP位点中作为跟踪标记的SNP位点。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器710可以调用存储器730中的逻辑指令，其实施方式与本发明提供的基于SNP标记获取回交群体背景回复率的方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于SNP标记获取回交群体背景回复率的方法，该方法包括：根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体各第一目标SNP位点的基因型数据；基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，确定各第二目标SNP位点；分别将各样品目标染色体每一第二目标SNP位点的基因型数据，与拟合受体目标染色体每一第二目标SNP位点的基因型数据进行对比，获取每一样品目标染色体的初步背景回复结果；对各样品目标染色体的初步背景回复结果进行降噪处理；基于降噪处理后的各样品目标染色体的初步背景回复结果，获取回交群体目标染色体的背景回复率；其中，第二目标SNP位点为各第一目标SNP位点中作为跟踪标记的SNP位点。

本发明实施例提供的计算机程序产品被执行时，实现上述基于SNP标记获取回交群体背景回复率的方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于SNP标记获取回交群体背景回复率的方法，该方法包括：根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体目标染色体各第一目标SNP位点的基因型数据；基于回交群体中各样品目标染色体各第一目标SNP位点的基因型数据，确定各第二目标SNP位点；分别将各样品目标染色体每一第二目标SNP位点的基因型数据，与拟合受体目标染色体每一第二目标SNP位点的基因型数据进行对比，获取每一样品目标染色体的初步背景回复结果；对各样品目标染色体的初步背景回复结果进行降噪处理；基于降噪处理后的各样品目标染色体的初步背景回复结果，获取回交群体目标染色体的背景回复率；其中，第二目标SNP位点为各第一目标SNP位点中作为跟踪标记的SNP位点。

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述基于SNP标记获取回交群体背景回复率的方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于SNP标记获取回交群体背景回复率的方法，其特征在于，包括：

2.根据权利要求1所述的基于SNP标记获取回交群体背景回复率的方法，其特征在于，所述基于回交群体中各样品所述目标染色体各所述第一目标SNP位点的基因型数据，确定各第二目标SNP位点，具体包括：

3.根据权利要求1所述的基于SNP标记获取回交群体背景回复率的方法，其特征在于，所述对各所述样品所述目标染色体的初步背景回复结果进行降噪处理，具体包括：

4.根据权利要求1所述的基于SNP标记获取回交群体背景回复率的方法，其特征在于，所述根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体所述目标染色体各第一目标SNP位点的基因型数据之前，还包括：

5.根据权利要求1所述的基于SNP标记获取回交群体背景回复率的方法，其特征在于，所述根据各受体亲本目标染色体各SNP位点的基因型数据，获取拟合受体所述目标染色体各第一目标SNP位点的基因型数据，具体包括：

6.根据权利要求1至5任一所述的基于SNP标记获取回交群体背景回复率的方法，其特征在于，所述基于降噪处理后的各所述样品所述目标染色体的初步背景回复结果，获取所述回交群体所述目标染色体的背景回复率之后，还包括：

7.根据权利要求4所述的基于SNP标记获取回交群体背景回复率的方法，其特征在于，所述SNP芯片包括Maize 6H-60K芯片。

8.一种基于SNP标记获取回交群体背景回复率的装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于SNP标记获取回交群体背景回复率的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于SNP标记获取回交群体背景回复率的方法的步骤。