CN110706745B

CN110706745B - 一种单核苷酸多态性位点整合方法及装置

Info

Publication number: CN110706745B
Application number: CN201910925655.2A
Authority: CN
Inventors: 王凤格; 江彬; 田红丽; 赵久然; 王蕊; 易红梅
Original assignee: BEIJING ACADEMY OF AGRICULTURE AND FORESTRY SCIENCES
Current assignee: BEIJING ACADEMY OF AGRICULTURE AND FORESTRY SCIENCES
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2022-05-17
Anticipated expiration: 2039-09-27
Also published as: CN110706745A

Abstract

本发明实施例提供了一种单核苷酸多态性位点整合方法及装置，所述方法包括：获取目标样品的所有单核苷酸多态性SNP位点，并按照预设参数确定每个SNP位点对应的目标权重；基于所有SNP位点对应的目标权重对所有SNP位点进行整合，得到目标最佳SNP位点；将所述目标最佳SNP位点确定为所述目标样品的目标基因型。采用本发明提供的单核苷酸多态性位点整合方法可以实现SNP位点的高效可靠的整合。

Description

一种单核苷酸多态性位点整合方法及装置

技术领域

本发明涉及DNA检测技术领域，尤其涉及一种单核苷酸多态性位点整合方法及装置。

背景技术

随着SNP(Single Nucleotide Polymorphism，单核苷酸多态性)标记技术的不断发展，越来越多的技术人员选择通过SNP标记检测技术进行植物DNA检测。

由于植物的DNA是群体有效的，即单个籽粒或者单个叶片的DNA检测结果不能代表该植物的检测结果，故而，目前技术人员需要采用混株提取DNA的方式对植物进行DNA检测。具体的，首先，技术人员需要基于混株提取的DNA数据进行多组重复平行实验，产生大量SNP位点；然后，技术人员根据经验在前述大量SNP位点中选取一个SNP位点作为检测结果。使得检测结果的准确性和可靠性较低，故而，目前亟需一种可靠有效的单核苷酸多态性位点整合方法以解决前述问题。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种单核苷酸多态性位点整合方法及装置。

第一方面，本发明实施例提供一种单核苷酸多态性位点整合方法，包括：

获取目标样品的所有单核苷酸多态性SNP位点，并按照预设参数确定每个SNP位点对应的目标权重；

基于所有SNP位点对应的目标权重对所有SNP位点进行整合，得到目标最佳SNP位点；

将所述目标最佳SNP位点确定为所述目标样品的目标基因型。

可选地，所述按照预设参数确定每个SNP位点对应的目标权重之前，还包括：

获取每个SNP位点包含的碱基，并基于每个SNP位点包含的碱基，将每个SNP位点转换成数字形式。

可选地，所述按照预设参数确定每个SNP位点对应的目标权重，包括：

确定所有SNP位点对应的第一预设参数的数量，并基于所述第一预设参数的数量确定每个SNP位点对应的第一权重；

确定所有SNP位点对应的第二预设参数的数量，并基于所述第二预设参数的数量，确定每个SNP位点对应的第二权重；

确定所有SNP位点对应的第三预设参数的数量，并基于所述第三预设参数的数量，确定每个SNP位点对应的第三权重；

基于每个SNP位点对应的第一权重、第二权重及第三权重，确定每个SNP位点对应的目标权重。

可选地，所述基于所有SNP位点对应的目标权重对所有SNP位点进行整合，得到目标最佳SNP位点，包括：

将当前SNP位点与除所述当前SNP位点之外的所有SNP位点分别进行比较；

统计与所述当前SNP位点对应的无差异数及无差异位点权重和，其中，所述无差异数表示与所述当前SNP位点无差异的SNP位点的数量，所述无差异位点权重和表示与所述当前SNP位点无差异的SNP位点的权重之和；

选取无差异数的最大值对应的多组目标SNP位点，在所述多组目标SNP位点对应的无差异位点权重和中选取最大值，并将所述无差异位点权重和的最大值对应的目标SNP位点确定为目标最佳SNP位点。

第二方面，本发明实施例提供一种单核苷酸多态性位点整合装置，包括权重分配模块、数据整合模块和基因确定模块，其中：

所述权重分配模块，用于获取目标样品的所有单核苷酸多态性SNP位点，并按照预设参数确定每个SNP位点对应的目标权重；

所述数据整合模块，用于基于所有SNP位点对应的目标权重对所有SNP位点进行整合，得到目标最佳SNP位点；

所述基因确定模块，用于将所述目标最佳SNP位点确定为所述目标样品的目标基因型。

可选地，所述权重分配模块，还用于：

可选地，所述权重分配模块，用于：

可选地，所述数据整合模块，用于：

第三方面，本发明实施例还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的单核苷酸多态性位点整合方法的步骤。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如第一方面所述的单核苷酸多态性位点整合方法。

由上述技术方案可知，本发明实施例提供的单核苷酸多态性位点整合方法及装置，通过按照预设参数对各个SNP位点分配权重，并基于各个权重进行数据整合，实现了SNP位点的自动化整合，有效的提高了SNP位点整合效率及检测结果的准确性和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种单核苷酸多态性位点整合方法的流程示意图；

图2为本发明实施例提供的一种权重树的示意图；

图3为本发明实施例提供的一种单核苷酸多态性位点整合装置的结构示意图；

图4为本发明实施例提供的电子设备的逻辑框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本实施例提供的一种单核苷酸多态性位点整合方法的流程示意图，包括：

S101，获取目标样品的所有单核苷酸多态性SNP位点，并按照预设参数确定每个SNP位点对应的目标权重。

其中，所述目标样品指需要进行DNA检测的植物的样品。

所述SNP位点指实验员分别对提取的目标样品的每组DNA，进行多次平行重复实验，产生的单核苷酸多态性位点。

所述预设参数指可能会对检测结果有影响的因素，如实验员数量、提取的DNA数量及实验次数等。

所述目标权重指通过整合算法按照预设参数确定的每个SNP位点对应的权重。

在实施中，当需要对某种植物进行DNA检测时，可以选取该植物的目标样品，并可以由数名实验员分别提取目标植物的多组DNA，并对每组DNA进行多次平行重复实验，产生多组SNP位点，再对多组SNP位点进行整合处理得到目标基因型。具体的，可以通过计算机获取前述目标样品的所有SNP位点，并通过整合算法按照预设参数确定获取到的前述每个SNP位点对应的目标权重，其中，预设参数可以是如实验员、提取的DNA数量及实验次数等可能会对检测结果有影响的因素。可以理解，在实验过程中由多名实验员进行平行重复实验可以更好的提高检测数据的可靠性；同时，也要增加对实验设备的保养和维护，提高实验试剂及耗材的质量，也可进一步降低实验和数据处理时间，进而可以有效减少时间消耗实现高效整合，并可以提高检测结果的准确性和可靠性。

S102，基于所有SNP位点对应的目标权重对所有SNP位点进行整合，得到目标最佳SNP位点。

其中，所述目标最佳SNP位点指可以代表目标样品的SNP位点。

在实施中，在确定前述每个SNP位点对应的目标权重之后，可以对所有SNP位点的目标权重进行数据整合处理(如可以通过递归合并等方法进行处理)，以得到可以代表目标样品的目标最佳SNP位点。

S103，将目标最佳SNP位点确定为目标样品的目标基因型。

其中，所述目标基因型指目标样品的检测结果。

在实施中，在确定出目标最佳SNP位点之后，可以将前述目标最佳SNP位点确定为前述目标样品的目标基因型，即目标基因型为前述目标样品的检测结果。

在实施中，在得到检测结果之后，还可以基于检测结果构建标准DNA库。这样，在标准DNA库已经建立完成之后，有需要进行DNA检测时，则可以采用单实验员重复进行实验的方式进行常规检测；然后，再将实际的常规检测结果与标准DNA库进行对比。这样，不仅可以大幅提高检测效率，还可以有效提高检测结果的准确性和可靠性。

由上述技术方案可知，本发明实施例提供的单核苷酸多态性位点整合方法，通过按照预设参数对各个SNP位点分配权重，并基于各个权重进行数据整合，实现了SNP位点的自动化整合，有效的提高了SNP位点整合效率及检测结果的准确性和可靠性。

进一步地，在上述方法实施例的基础上，在按照预设参数确定每个SNP位点对应的目标权重之前，可以对每个SNP位点的表示形式进行转换，相应的，上述处理可以如下：获取每个SNP位点包含的碱基，并基于每个SNP位点包含的碱基，将每个SNP位点转换成数字形式。

在实施中，考虑到SNP位点的数量较多，且每个SNP位点通常是由碱基A(ADENINE腺嘌呤)、G(GUANINE鸟嘌呤)、C(CYTOSINE胞嘧啶)、T(THYMINE胸腺嘧啶)中的一种或几种组成，这种形式和规模的SNP位点不便于存储和计算，故而，在按照预设参数为每个SNP位点分配目标权重前，可以将每个SNP位点的表示形式转化为数字形式。具体的，可以设置不同的数字表示不同的碱基，再将数字转化成二进制形式，以二进制的数字形式表示每个SNP位点。以A、G、C、T分别用数字1、2、4、8表示，每个SNP位点由两个碱基组成为例，可以将A、G、C、T转化成二进制表示，具体对应关系可参见表1。对应的，各个SNP位点的碱基组成的数字表示形式可参见表2。这样，通过将SNP位点的表示形式转换成数字表示，可以使得每个SNP位点只占用一个字节，进而可以大大降低数据存储的内存消耗，提高硬件利用率；同时，将SNP位点转换成数字形式，更便于计算、更有利于进行数据的整合处理，从而可以提高计算速度，进而可以有效提高SNP位点的整合处理的效率，进一步实现SNP位点的高效整合。

表1

碱基	A	G	C	T	无
						数字	1	2	4	8	0
二进制	0001	0010	0100	1000	0000

表2

碱基	A	G	C	T
					A	AA(0001 0001)	AG(0001 0010)	AC(0001 0100)	AT(0001 1000)
G	GA(0010 0001)	GG(0010 0010)	GC(0010 0100)	GT(0010 1000)
					C	CA(0100 0001)	CG(0100 0010)	CC(0100 0100)	CT(0100 1000)
T	TA(1000 0001)	TG(1000 0010)	TC(1000 0100)	TT(1000 1000)

进一步地，在上述方法实施例的基础上，可以按照不同等级的预设参数确定每个SNP位点对应的目标权重，相应的，上述步骤S101的部分处理可以如下：确定所有SNP位点对应的第一预设参数的数量，并基于第一预设参数的数量确定每个SNP位点对应的第一权重；确定所有SNP位点对应的第二预设参数的数量，并基于第二预设参数的数量，确定每个SNP位点对应的第二权重；确定所有SNP位点对应的第三预设参数的数量，并基于第三预设参数的数量，确定每个SNP位点对应的第三权重；基于每个SNP位点对应的第一权重、第二权重及第三权重，确定每个SNP位点对应的目标权重。

其中，所述第一预设参数、第二预设参数及第三预设参数指按照各因素对检测结果可能产生的影响程度的大小，对不同的预设参数进行的等级划分。

所述第一权重、第二权重及第三权重分别指：按照第一预设参数的数量、第二预设参数的数量及第三预设参数的数量确定的每个SNP位点对应的权重。

在实施中，考虑到由于实验员、DNA、实验时间、实验条件和实验设备等因素，可能会对检测结果产生影响，故而，可以将不同的因素设置为给每个SNP位点分配目标权重所依据的预设参数。具体的，可以将按照各因素对检测结果可能产生的影响程度的大小，将不同的预设参数划分为第一预设参数、第二预设参数和第三预设参数，并依次按照不同等级的预设参数确定每个SNP位点对应的目标权重。具体的，首先，可以按照第一预设参数的数量确定权重(可称为第一权重)，假设第一预设参数的数量为n，则可以确定每个第一预设参数对应的SNP位点对应的第一权重1/n。然后，可以按照第二预设参数的数量继续确定权重(可称为第二权重)，假设第二预设参数的数量为x，则可以确定每个第二预设参数对应的SNP位点对应的第二权重1/x。之后，再按照第三预设参数的数量确定权重(可称为第三权重)，假设第三预设参数的数量为y，则可以确定每个第三预设参数对应的SNP位点对应的第三权重1/y，然后，再基于前述第一权重、第二权重及第三权重，可以确定每个SNP位点对应的目标权重为1/n_*x_*y。这样，通过按照不同等级的预设参数对每个SNP位点进行分级确定权重，即依据不同阶段的影响因素及影响程度确定不同的权重，可以更好的将不同因素对检测结果的影响纳入到整合的处理过程中，从而可以使得整合结果的准确性和可靠性更高，进而可以有效提高DNA检测结果的准确性和可靠性。

以第一预设参数为实验员个数、第二预设参数为DNA个数、第三预设参数为实验次数为例，假设实验员个数为2，实验员1提取的某样品DNA的个数为2、且对DNA1的实验次数为2、对DNA2的实验次数为1，实验员2提取的该样品的DNA的个数为1、且对该DNA的实验次数为1，则相应的确定的每个SNP位点的权重可以如图2所示。可以理解，前述预设参数的等级设置也可以根据具体的实际情况进行划分，目标权重确定后的表示形式可以表示成如图2所示的权重树，也可以采用其他表示形式。

进一步地，在上述方法实施例的基础上，可以根据每个SNP位点对应的无差异数及无差异位点权重和，确定目标最佳SNP位点，相应的，上述步骤S102的处理可以如下：将当前SNP位点与除当前SNP位点之外的所有SNP位点分别进行比较；统计与当前SNP位点对应的无差异数及无差异位点权重和；选取无差异数的最大值对应的多组目标SNP位点，在多组目标SNP位点对应的无差异位点权重和中选取最大值，并将无差异位点权重和的最大值对应的目标SNP位点确定为目标最佳SNP位点。

其中，所述无差异数表示与当前SNP位点无差异的SNP位点的数量，所述无差异位点权重和表示与当前SNP位点无差异的SNP位点的权重之和。

所述目标SNP位点指与无差异数的最大值对应的SNP位点。

在实施中，在确定每个SNP位点的目标权重之后，可以将当前SNP位点与除前述当前SNP位点之外的所有SNP位点分别进行比较，并统计与当前SNP位点对应的无差异数，以及当前SNP位点对应的无差异位点权重和，逐次进行前述比较及统计过程，直至得到所有SNP位点对应的无差异数及无差异位点权重和。然后，可以通过逐层递归合并的方式在统计出的每个SNP位点对应的多组无差异数中，选取出无差异数的最大值并确定与该无差异数的最大值对应的所有目标SNP位点。然后，可以在前述所有目标SNP位点对应的无差异位点权重和中，选取出无差异位点权重和的最大值，并可以将该无差异位点权重和的最大值对应的SNP位点确定为目标最佳SNP位点。可以理解，当无差异数的最大值仅对应一个SNP位点时，则可以将该SNP位点确定为目标最佳SNP位点，在具体实施中，也可以根据实际情况优先选取无差异位点权重和最大的SNP位点，本申请对此不作限定。这样，通过选取无差异数及无差异位点权重和最大的值对应的SNP位点为目标最佳SNP位点，可以将实验次数越多得到的数据越准确的因素纳入整合过程，从而可以使得整合出的目标最佳SNP位点更准确，进而可以进一步的提高检测结果的准确性和可靠性。

以SNP位点分别为n₁、n₂、……n₈为例，假设每个SNP位点对应基因型和目标权重如表3所示，其中，v₁、v₂、v₃、v₄表示基因型。

表3

SNP位点

n1

n2

n3

n4

n5

n6

n7

n8

基因型

v1

v2

v3

v1

v3

v4

v1

v2

权重值

1/4

1/8

1/4

1/8

1/2

1/4

计算每个SNP位点对应的无差异数和无差异位点权重和，见表4，其中，c表示无差异数，s表示权重值，r(c，s)表示无差异数和权重值组成的数组。

表4

SNP位点	n<sub>1</sub>	n<sub>2</sub>	n<sub>3</sub>	n<sub>4</sub>
					c	2	1	1	2
s	3/8	1/4	1/4	3/4
					r(c，s)	(2,3/8)	(1,1/4)	(1,1/4)	(2,3/4)
SNP位点	n<sub>5</sub>	n<sub>6</sub>	n<sub>7</sub>	n<sub>8</sub>
					c	1	0	2	1
s	1/8	0	3/8	1/8
					r(c，s)	(1,1/8)	(0,0)	(2,3/8)	(1,1/8)

由表4可知，无差异数的最大值为2，该无差异数的最大值对应的SNP位点为n₁、n₄和n₇，SNP位点n₁、n₄和n₇中对应的无差异位点权重和的最大值为3/4，该无差异位点权重和的最大值对应的SNP位点为n₄，即无差异数及无差异位点权重和均最大的数组对应的SNP位点为n₄，即目标最佳SNP位点为n₄。

进一步地，在上述方法实施例的基础上，本发明实施例还提供了一种单核苷酸多态性位点整合装置，如图3所示，所述单核苷酸多态性位点整合装置包括权重分配模块301、数据整合模块302和基因确定模块303，其中：

所述权重分配模块301，用于获取目标样品的所有单核苷酸多态性SNP位点，并按照预设参数确定每个SNP位点对应的目标权重；

所述数据整合模块302，用于基于所有SNP位点对应的目标权重对所有SNP位点进行整合，得到目标最佳SNP位点；

所述基因确定模块303，用于将所述目标最佳SNP位点确定为所述目标样品的目标基因型。

进一步地，所述权重分配模块301，还用于：

进一步地，所述权重分配模块301，用于：

进一步地，所述数据整合模块302，用于：

本实施例所述的单核苷酸多态性位点整合装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

如图4所示，本发明实施例还提供了一种电子设备，所述电子设备可以包括：处理器(processor)401、存储器(memory)402和总线403；

其中，

所述处理器401和存储器402通过所述总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法。

此外，上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种单核苷酸多态性位点整合方法，其特征在于，包括：

将所述目标最佳SNP位点确定为所述目标样品的目标基因型；

所述基于所有SNP位点对应的目标权重对所有SNP位点进行整合，得到目标最佳SNP位点，包括：

2.根据权利要求1所述的单核苷酸多态性位点整合方法，其特征在于，所述按照预设参数确定每个SNP位点对应的目标权重之前，还包括：

3.根据权利要求1所述的单核苷酸多态性位点整合方法，其特征在于，所述按照预设参数确定每个SNP位点对应的目标权重，包括：

4.一种单核苷酸多态性位点整合装置，其特征在于，包括权重分配模块、数据整合模块和基因确定模块，其中：

所述基因确定模块，用于将所述目标最佳SNP位点确定为所述目标样品的目标基因型；

所述数据整合模块，用于：

5.根据权利要求4所述的单核苷酸多态性位点整合装置，其特征在于，所述权重分配模块，还用于：

6.根据权利要求4所述的单核苷酸多态性位点整合装置，其特征在于，所述权重分配模块，用于：

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述的单核苷酸多态性位点整合方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至3任一项所述的单核苷酸多态性位点整合方法的步骤。