CN115762641A

CN115762641A - 一种指纹图谱构建方法及系统

Info

Publication number: CN115762641A
Application number: CN202310030065.XA
Authority: CN
Inventors: 焦成智; 王天义; 荆鑫; 陈力杨; 徐凤凤
Original assignee: Tianjin Jizhi Gene Technology Co ltd
Current assignee: Tianjin Jizhi Gene Technology Co ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-03-07
Anticipated expiration: 2043-01-10
Also published as: CN115762641B

Abstract

本申请提供一种指纹图谱构建方法及系统，指纹图谱构建方法包括：挑选一组独立标记序列依次增加至标记集合，得到标记集合中相同样本的第一标记序列；将相同第一标记序列为一组，得到k组区分样本；重复迭代步骤，直至满足目标条件；重复上述步骤，得到多个满足目标条件的区分样本数量；计算所有区分样本数量的最小值，选取最小值对应的标记集合为候选标记集合；计算未被挑选的独立标记序列的区分贡献度；每次向候选标记集合中添加未被挑选的独立标记序列，直至候选标记集合中所具有的第一设定组合的数量最大，得到优选标记集合；将优选标记集合作为指纹图谱。通过上述步骤，使得指纹图谱基因组覆盖度较高，标记分布更为均匀，标记代表性更优。

Description

一种指纹图谱构建方法及系统

技术领域

本公开一般涉及指纹图谱技术领域，具体涉及一种指纹图谱构建方法及系统。

背景技术

种质资源是作物遗传育种的物质基础，是我国农业可持续发展的物质保障。由于农作物的亲本利用的集中化现象，将导致一些性状差异不明显的品种产生，传统得品种鉴定方法已经不能满足品种鉴定的需求。因此，寻找一种新的高效且实用性强的技术来进行农作物的真实性鉴定就显得尤为重要；

DNA指纹图谱因所具有的检测方便性，精确性等特点，已经广泛应用于多种农作物的品种鉴定；

现有技术中，指纹图谱的构建多采用SSR标记和简化基因组测序标记，由于基因组覆盖度较低，使得标记分布不均一，标记代表性较差。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供可解决上述技术问题的一种指纹图谱构建方法及系统。

本申请第一方面提供一种指纹图谱构建方法，包括：

S100：获取n个样本的全基因组测序数据，得到多个单核苷酸多态性序列；

S200：从多个所述单核苷酸多态性序列中筛选出m个独立标记序列A _i；所述独立标记序列A _i包括n个样本对应的同一个不连锁的变异位点i的基因型；

S300：随机挑选一组独立标记序列A _i并依次增加至标记集合，得到所述标记集合中相同样本的第一标记序列；将相同所述第一标记序列为一组，得到k组区分样本；

S400：重复迭代步骤S300，直至满足目标条件k≥m；

S500：重复步骤S300-S400，得到多个满足所述目标条件的区分样本数量k；计算所有所述区分样本数量k的最小值k _s，选取所述最小值k _s对应的标记集合为候选标记集合；

S600：计算对应所述候选标记集合中未被挑选的独立标记序列A _i对所述候选标记集合的区分贡献度；按照所述区分贡献度由大到小的顺序，每次向所述候选标记集合中添加j个未被挑选的独立标记序列A _i ，直至所述候选标记集合中所具有的第一设定组合的数量最大，得到优选标记集合；所述第一设定组合为两个样本之间的基因型一致度小于设定阈值的组合；

S700：将所述优选标记集合作为所述指纹图谱。

根据本申请实施例提供的技术方案，通过以下子步骤，计算对应所述候选标记集合中未被挑选的独立标记序列A _i对所述候选标记集合的区分贡献度：

计算所述候选标记集合中任意两个样本之间的基因型一致度；

确定所有对比组合中基因型一致度大于等于所述设定阈值的目标样本组合；

计算独立标记序列A _i中第二设定组合的数量，得到所述区分贡献度；所述第二设定组合为所述未被挑选的独立标记序列A _i所对应的目标样本组合中具有相同基因型的组合。

根据本申请实施例提供的技术方案，将所述优选标记集合作为所述指纹图谱的方法具体为：

计算所述优选标记集合与所述单核苷酸多态性序列的基因型一致度；

判断所述基因型一致度大于设定值时，将所述优选标记集合作为所述指纹图谱；否则，重复步骤S600。

根据本申请实施例提供的技术方案，获取n个样本的全基因组测序数据，得到多个单核苷酸多态性序列的方法具体为：

获取n个样本的全基因组测序数据；

对所有所述全基因组测序数据进行质控得到有效数据；

将所述有效数据比对到参考基因组中得到比对数据；

确定所述比对数据在所述参考基因组的不同位置分布，得到bam数据；

对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列；

对所述初始单核苷酸多态性序列进行过滤，得到所述单核苷酸多态性序列。

根据本申请实施例提供的技术方案，所述指纹图谱构建方法还包括：

获取待检测样本，对所述待检测样本进行比对和变异检测，得到待检测单核苷酸多态性数据；

判断所述待检测单核苷酸多态性数据与所述指纹图谱的一致度小于所述设定阈值时，输出检测信息为新物种。

本申请第二方面提供一种指纹图谱构建系统，包括：

处理模块，所述处理模块配置用于：

S400：重复迭代步骤S300，直至满足目标条件k≥m；

计算模块，所述计算模块与所述处理模块的输出端连接，所述计算模块配置用于：

S700：将所述优选标记集合作为所述指纹图谱。

根据本申请实施例提供的技术方案，所述计算模块还具体配置用于：

根据本申请实施例提供的技术方案，所述计算模块还配置用于：

根据本申请实施例提供的技术方案，所述处理模块还具体配置用于：

获取n个样本的全基因组测序数据；

对所有所述全基因组测序数据进行质控得到有效数据；

将所述有效数据比对到参考基因组中得到比对数据；

根据本申请实施例提供的技术方案，指纹图谱构建系统还包括检测模块；所述检测模块配置用于：

本申请的有益效果在于：本申请中通过全基因组测序数据，得到多个独立标记序列A _i；通过随机挑选，重复迭代的方式，得到了一个随机方式下能够将样本进行区分的区分样本数量，并通过多次试验，选取多有区分样本数量的最小值，得到了候选标记集合；该候选标记集合在满足能够区分样本的前提下，实现了区分样本数量最小，避免产生冗余，有利于提高计算速度，保证了标记的代表性；基于未被挑选集合的区分贡献度，将其依次添加至候选标记集合内，保证了分布的均匀性和标记的代表性；通过设置设定阈值以及目标条件（直至所述候选标记集合中所具有的第一设定组合的数量最大），避免数据产生冗余；由此得到的指纹图谱，基因组覆盖度较高，标记分布更为均匀，标记代表性更优。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请提供的一种指纹图谱构建方法的流程图；

图2为本申请提供的一种指纹图谱构建系统的原理图；

图中标号：

1、处理模块；2、计算模块；3、检测模块。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

请参考图1为本申请提供的一种指纹图谱构建方法，包括：

具体的，n个样本为同一种类的样本；

具体的，所述单核苷酸多态性序列即SNPs（single nucleotide polymorphisms）数据，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性。

具体的，所述不连锁的变异位点i相对独立，相对独立即处于基因组染色体非连锁区域的变异位点。

具体的，为了便于说明，以n=4为例，某一所述独立标记序列A ₁例如表-1所示：

表-1

其中，Ref表示此位点参考基因组的碱基类型；Alt表示此位点不同于参考基因组的碱基类型；

其中，Sample1-Sample4分别表示一个样本；该独立标记序列A ₁包括4个样本对应的同一不连锁的变异位点（SNP1）的基因型，分别为A、T、T、T；

为了便于说明，m个独立标记序列A _i如表-2所示：

表-2

具体的，随机挑选一组独立标记序列A _i时应挑选未被挑选过的序列；

S400：重复迭代步骤S300，直至满足目标条件k≥m；

例如：

挑选表-2中独立标记序列A ₁增加至标记集合，此时得到两组区分样本，分别为A组和T组，即k=2；

重复迭代步骤S300，例如选取独立标记序列A ₂，增加至标记集合，此时得到三组区分样本，分别为AC组、TC组和TG组，即k=3；

重复迭代步骤S300，例如选取独立标记序列A ₂，增加至标记集合，此时得到四组区分样本，分别为ACC组、TCT组、TGT组和TGC组，即k=4，此时k=m，结束本步骤，并得到由独立标记序列A ₁、A ₂、A ₃组成的标记集合。

具体的，步骤S500中的重复次数可根据实际需求进行确定，例如在一些实施例中，重复2000次；2000次重复使最后得到的最小值k _s更接近真实的最小值；

由于步骤S300为随机挑选，因此重新重复进行步骤S300-S400，则将得到若干个满足所述目标条件的区分样本数量k，选取所有区分样本数量k中区分样本数量k的最小值k _s，选取该最小值k _s对应的标记集合为候选标记集合；

进一步的，当最小值k _s对应的标记集合有多个时，则选取该多个标记集合中最均匀的集合，并将其作为候选标记集合。

由此得到的候选标记集合的样本数量k _s在将各样本区分开的基础上，实现了区分样本数量最少，有利于减少后续进行比对的计算量，提高计算效率。

具体的，j为设定值，可根据实际需求进行设置，例如j=20；

具体的，设定阈值可根据实际需求进行设置，例如设定阈值设置为92%。

为了便于说明，继续以上述举例进行说明，同时设定j=1，设定阈值为92%为例，则步骤S600具体为：

计算独立标记序列A ₄-A _m对所述候选标记集合的区分贡献度；

按照所述区分贡献度由大到小的顺序，每次向所述候选标记集合中添加1个未被挑选的独立标记序列A _i ，直至所述候选标记集合中所具有的第一设定组合的数量最大，得到优选标记集合；

例如添加独立标记序列A ₄，则当前候选集合如表-3所示：

表-3

当前候选集合中各个样本组合的基因型一致度为：

Sample1-2：75%；

Sample1-3：0%；

Sample1-4：25%；

Sample2-3：75%；

Sample2-4：50%；

Sample3-4：75%；

由此得到当前所述候选标记集合中所具有的第一设定组合的数量为6，此时第一设定组合的数量最大；

需要注意的是，上述举例并非是对本申请技术方案的限定，而是为了以少量、简单、直观的数据进行举例说明，便于本领域技术人员进一步理解本申请的技术方案。可以理解的，在实际操作过程中，样本数量应较多，例如样本数量n≥300，以使样本尽可能有较高的多态性。

S700：将所述优选标记集合作为所述指纹图谱。

工作原理：本申请中通过全基因组测序数据，得到多个独立标记序列A _i；通过随机挑选，重复迭代的方式，得到了一个随机方式下能够将样本进行区分的区分样本数量，并通过多次试验，选取多有区分样本数量的最小值，得到了候选标记集合；该候选标记集合在满足能够区分样本的前提下，实现了区分样本数量最小，避免产生冗余，有利于提高计算速度，保证了标记的代表性；

基于未被挑选集合的区分贡献度，将其依次添加至候选标记集合内，保证了分布的均匀性和标记的代表性；通过设置设定阈值以及目标条件（直至所述候选标记集合中所具有的第一设定组合的数量最大），避免数据产生冗余；由此得到的指纹图谱，基因组覆盖度较高，标记分布更为均匀，标记代表性更优，进而使得鉴定的速度和效率更高较高，实际测试时，可在1分钟之内、1C1G资源下鉴定50份以上的材料。

在一些实施例中，通过以下子步骤，计算对应所述候选标记集合中未被挑选的独立标记序列A _i对所述候选标记集合的区分贡献度：

为了便于说明，例如某次计算得到的候选标记集合任意两个样本之间的基因型一致度分别为：

Sample1-2：93%；

Sample1-3：89%；

Sample1-4：74%；

Sample2-3：94%；

Sample2-4：90%；

Sample3-4：80%；

以设定阈值为92%为例，则目标样本组合（大于等于92%）分别为：

1、Sample1-Sample2；

2、Sample2-Sample3；

以表-4中未被挑选的独立标记序列A ₁₀为例，则独立标记序列A ₁₀中所具有的第二设定组合的数量为1个，即Sample2（T）-Sample3（T）。

表-4

在一些实施例中，将所述优选标记集合作为所述指纹图谱的方法具体为：

在一些实施例中，获取n个样本的全基因组测序数据，得到多个单核苷酸多态性序列的方法具体为：

S101：获取n个样本的全基因组测序数据；

S102：对所有所述全基因组测序数据进行质控得到有效数据；

具体的，将所述全基因组测序数据通过FASTP平台进行质控得到所述有效数据；其中，所述有效数据是指：

不含测序接头序列

单条read含N的碱基数量小于5

单条read质量值小于15的碱基比例不超过40%

所有reads总体碱基错误率小于0.1%，质量值达到Q20以上

S103：将所述有效数据比对到参考基因组中得到比对数据；

S104：确定所述比对数据在所述参考基因组的不同位置分布，得到bam数据；

具体的，所述bam数据是由有效数据比对到参考基因组得到的数据在基因组不同位置分布的文件，bam主体部分格式如下：

第1列：read ID

第2列：FLAG

第3列：比对到基因组的染色体名称

第4列：比对的基因组的位置

第5列：MAPQ比对质量值

第6列：比对详细信息，M表示匹配、I表示插入、D表示删除、N表示内含子和D类似、S表示替换、H表示剪切；

第7列：这条reads第二次比对的位置

第8列：该列表示与该reads对应的mate pair reads的比对位置

第9列：序列模板长度

第10列：read序列

第11列：ASCII码格式的序列质量

S105：对所述bam数据进行变异检测得到多个初始单核苷酸多态性序列；即不同样本相比于参考基因组的变异信息，主要指SNP变异信息，作用是作为标记区分样本间的差异（可以由GATK软件基于bam文件检测得到）

S106：对所述初始单核苷酸多态性序列进行过滤，得到所述单核苷酸多态性序列。过滤方式例如为基于深度、缺失率和最小等位基因频率等。

在一些实施例中，所述指纹图谱构建方法还包括：

实施例2

请参考图2为本实施例提供一种指纹图谱构建系统的原理图，包括：

处理模块1，所述处理模块1配置用于：

S400：重复迭代步骤S300，直至满足目标条件k≥m；

计算模块2，所述计算模块2与所述处理模块1的输出端连接，所述计算模块2配置用于：

S700：将所述优选标记集合作为所述指纹图谱。

在一些实施例中，所述计算模块2还具体配置用于：

在一些实施例中，所述计算模块2还配置用于：

在一些实施例中，所述处理模块1还具体配置用于：

获取n个样本的全基因组测序数据；

对所有所述全基因组测序数据进行质控得到有效数据；

将所述有效数据比对到参考基因组中得到比对数据；

在一些实施例中，所述指纹图谱构建系统还包括检测模块3；所述检测模块3配置用于：

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种指纹图谱构建方法，其特征在于，包括：

S400：重复迭代步骤S300，直至满足目标条件k≥m；

S700：将所述优选标记集合作为所述指纹图谱。

2.根据权利要求1所述的指纹图谱构建方法，其特征在于，通过以下子步骤，计算对应所述候选标记集合中未被挑选的独立标记序列A _i对所述候选标记集合的区分贡献度：

3.根据权利要求1所述的指纹图谱构建方法，其特征在于，将所述优选标记集合作为所述指纹图谱的方法具体为：

4.根据权利要求1所述的指纹图谱构建方法，其特征在于，获取n个样本的全基因组测序数据，得到多个单核苷酸多态性序列的方法具体为：

获取n个样本的全基因组测序数据；

对所有所述全基因组测序数据进行质控得到有效数据；

将所述有效数据比对到参考基因组中得到比对数据；

5.根据权利要求1-4任意一项所述的指纹图谱构建方法，其特征在于，还包括：

6.一种指纹图谱构建系统，其特征在于，包括：

处理模块（1），所述处理模块（1）配置用于：

S400：重复迭代步骤S300，直至满足目标条件k≥m；

计算模块（2），所述计算模块（2）与所述处理模块（1）的输出端连接，所述计算模块配置用于：

S700：将所述优选标记集合作为所述指纹图谱。

7.根据权利要求6所述的指纹图谱构建系统，其特征在于，所述计算模块（2）还具体配置用于：

8.根据权利要求6所述的指纹图谱构建系统，其特征在于，所述计算模块（2）还配置用于：

9.根据权利要求6所述的指纹图谱构建系统，其特征在于，所述处理模块（1）还具体配置用于：

获取n个样本的全基因组测序数据；

对所有所述全基因组测序数据进行质控得到有效数据；

将所述有效数据比对到参考基因组中得到比对数据；

10.根据权利要求6-9任意一项所述的指纹图谱构建系统，其特征在于，还包括检测模块（3）；所述检测模块（3）配置用于：