CN117649875A

CN117649875A - 一种基于探针捕获技术的分子检测样本质控方法及系统

Info

Publication number: CN117649875A
Application number: CN202311730760.3A
Authority: CN
Inventors: 许彦芬; 张仁旭; 尉思; 蓝昊发; 叶伟健
Original assignee: Shijiazhuang Breeding Biotechnology Co ltd
Current assignee: Shijiazhuang Breeding Biotechnology Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-05
Anticipated expiration: 2043-12-15
Also published as: CN117649875B

Abstract

本发明公开了一种基于探针捕获技术的分子检测样本质控方法及系统，涉及分子检测领域，本发明可以检测实验过程中是否存在操作错误，导致样本的混淆；还可在检测到样本发生混淆后，将样本和正确的数据结果进行对应；本发明在检测过程中，如果有滴液或液体飞溅等情况导致样本间污染，质控系统也可以判断为样本污染，需要重新进行检测，保证样本基因分型的准确性，提高数据质量。

Description

一种基于探针捕获技术的分子检测样本质控方法及系统

技术领域

本发明涉及分子检测领域，具体是一种基于探针捕获技术的分子检测样本质控方法及系统。

背景技术

在分子水平进行遗传变异的检测，简称为分子检测，是生物遗产变异分析的重要手段。分子检测广泛应用于医学、农业、环保、生命科学和食品安全等领域，是一种快速、准确、灵敏和可靠的检测方法。随着分子检测技术和应用的不断发展，市场逐渐扩大，规模也不断增长。常见的分子检测技术包括PCR、荧光定量PCR、基因芯片、基因测序和原位杂交等。其中利用基因芯片的二代测序是最主流的DNA测序技术。随着技术的不断升级和市场竞争的加剧，二代测序的成本不断降低，市场规模在过去的几年中一直呈现出强劲的增长态势。

二代测序实验的过程中，需要先提取样本基因组DNA，再进行文库构建、杂交捕获和上机测序。由于通量较大，在实验过程中是用96孔板进行操作，所以每个样本都需要先从取样管中转移到96孔板中；之后的每个步骤都需要取前一个步骤的产物再进行下一步的实验。从取样管转移到96孔板中，以及每次的产物取拿操作都可能导致样本和96孔板位置的对应关系发生混淆。例如，样本在96孔板的位置记录错误，或者样本加入错误；实验过程中存在96孔板180°调转、96孔板板间混淆、barcode记录错误（加入的是第一板barcode，记录的是第二板barcode）等情况，最终导致样本数据拆分失败或者样本和最终的数据对应错误。

发明内容

本发明旨在克服现有技术的不足，解决二代测序的通量大周期短，实验过程中同时处理的样本较多，极易发生样本混淆的问题，提出一种基于探针捕获技术的分子检测样本质控方法及系统。

其中，一种基于探针捕获技术的分子检测样本质控方法，包括以下步骤：

S1. 利用软件编写人工序列；将编写的人工序列与NCBI库进行比对，并筛选出特异序列；

S2. 将挑选出的特异序列根据设定参数进行探针设计，将设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列；

S3. 将序列集合中的序列进行随机排列组合，每个组合至少包含10~20条序列，在实验前，将并将得到的标签组合放于96孔板中；

S4. 将标签组合与样本统一进行全流程实验和数据分析；

其中，所述步骤S4中，当进行数据分析时，还包括对标签组合进行序列分析，具体流程为：进行标签组合的判定，判断数据分析得到的标签组合的序列与记录的该样本使用的标签组合的序列是否一致。

进一步的，所述判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致的具体步骤如下：

S401. 计算所有片段平均值；

S402. 统计深度大于平均值的片段个数，判断深度大于平均值的片段个数，当数量小于15时，则进行组合判定，执行步骤S403，当数量大于等于15时，则判定为污染的标签序列；

S403. 对标签序列进行组合判定，当判定结果为可判断出组合时，即匹配最佳的组合，输出该标签组合，当判定结果为不可判断出组合时，执行步骤S404；

S404. 对标签序列进行二次判定，当平均值小于10时，则判断为深度低的标签序列，当平均值大于等于10时，则判断为污染的标签序列。

进一步的，所述步骤S1中，将序列与NCBI库进行比对，并筛选出特异序列，具体包括以下步骤：

S101. 从NCBI数据库中选择NR库作为参考序列；

S102. 使用选定的BLASTn比对算法和参数，对待比对的序列与参考序列进行比对。

进一步的，所述步骤S2中，设定参数具体为：探针长度110 bp，GC含量30%~70%，最大同源在基因组同源次数hom=5，探针离被设计区域的最大距离dis=10。

进一步的，所述步骤S2中，合成序列的纯化方式为RPC。

一种基于探针捕获技术的分子检测样本质控系统，该系统基于上述任一项所述的一种基于探针捕获技术的分子检测样本质控方法来实现，包括：

人工序列编写模块，用于通过编写人工序列；

特异序列筛选模块，用于将序列与NCBI库进行比对，并筛选出特异序列；

探针设计输出模块，用于将挑选出的序列根据设定参数进行探针设计，输出设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列；

随机排列组合模块，用于将序列集合中的序列进行随机排列组合，每个组合至少包含10~20条序列；

数据分析模块，用于对标签序列进行分析，并进行标签组合的判定，判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致。

进一步的，所述是数据分析模块还包括：

平均值计算单元，用于计算所有片段平均值；

一次判定单元，用于统计深度大于平均值的片段个数，判断深度大于平均值的片段个数，当数量小于15时，则进行组合判定单元的组合判定，当数量大于等于15时，则输出为污染的标签序列；

组合判定单元，用于对标签序列进行组合判定，当判定结果为可判断出组合时，即匹配最佳的组合，输出该标签组合，当判定结果为不可判断出组合时，进行二次判定单元判定；

二次判定单元，用于对标签序列进行二次判定，当平均值小于10时，则输出为深度低的标签序列，当平均值大于等于10时，则输出为污染的标签序列。

进一步的，所述特异序列筛选模块还包括：

参考序列提取单元，用于从NCBI数据库中选择NR库作为参考序列；

数据比对单元，用于通过选定的BLASTn比对算法和参数，对待比对的序列与参考序列进行比对。

进一步的，所述探针设计输出模块中，设定参数具体为：探针长度110 bp，GC含量30%~70%，最大同源在基因组同源次数hom=5，探针离被设计区域的最大距离dis=10。

发明的有益效果是：

（1）本发明可以检测实验过程中是否存在操作错误，导致样本的混淆；还可在检测到样本发生混淆后，将样本和正确的数据结果进行对应；

（2）本发明在检测过程中，如果有滴液或液体飞溅等情况导致样本间污染，质控系统也可以判断为样本污染，需要重新进行检测，保证样本基因分型的准确性，提高数据质量。

附图说明

图1为本发明实施例提供的一种基于探针捕获技术的分子检测样本质控方法的方法流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

为了使本发明的目的，技术方案及优点更加清楚明白，结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”，“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程，方法，物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程，方法，物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程，方法，物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，一种基于探针捕获技术的分子检测样本质控方法，包括以下步骤：

S2. 将挑选出的特异序列根据设定参数进行探针设计，将设计成功的序列作为最终的序列集合，并合成序列及对应的探针序列；

S4. 将标签组合与样本统一进行全流程实验和数据分析；

进一步的，作为本实施例优选的具体实施方式，提出一种人工序列编写方式，具体的，利用软件人工编写100,000条人工序列。编写人工DNA序列的原则包括：（1）总体结构：确保生成的序列具有合理的总体结构，包括核苷酸序列的长度、基团组合、碱基配对等。（2）序列相似性：保证生成的序列在一定程度上与现有的自然DNA序列相似，具备相关的生物学特征。这可以通过模拟已知的具有类似功能的DNA序列来实现。（3）编码准确性：生成的DNA序列应遵循DNA的基本编码规则和限制条件，确保每个碱基在序列中的位置和顺序是合理的。（4）合成可行性：生成的DNA序列应符合实际合成的可行性，考虑到合成方法和成本的限制。基于人工智能的算法和深度学习技术可以辅助生成DNA序列，但仍需要人工的参与进行结果的验证和优化。

进一步的，根据上述优选实施方式，对于步骤S3中的标签组合，则共计得到9600种标签组合，分别放于100板96孔板中。

进一步的，作为本实施例优选的实施方式，提出采用RNN循环神经网络作为生成DNA序列的模型，具体流程如下：

数据准备：收集和准备自然DNA序列数据作为训练集，确保数据集具有多样性和代表性；将数据集分为训练集和验证集。

模型选择和训练：选择基于循环神经网络（RNN）的模型；使用训练集对模型进行训练，使其能够学习自然DNA序列的统计特性和结构；

总体结构生成：通过模型生成新的DNA序列，确保生成的序列具有合理的总体结构，如长度、基团组合和碱基配对；引入适当的噪声以增加生成序列的多样性。

序列相似性：在模型的训练中，引入已知DNA序列，使生成的序列在一定程度上与现有自然DNA序列相似；在训练中使用具有相似生物学功能的DNA片段。

编码准确性：确保生成的DNA序列遵循DNA的基本编码规则和限制条件，包括碱基的配对规则和启动子、终止子等功能区域的存在。

合成可行性：考虑生成的DNA序列的合成可行性，即考虑到实际合成方法和成本的限制。在模型中引入合成的相关信息，以确保生成的序列在合成时可行。

其中，本实施方式使用基于字符级别的RNN，该网络模型为将前面的字符作为输入，然后生成下一个字符，具体为：

；

其中，所述表示时间步t的隐藏状态，所述/>表示时间步t的输入，即DNA序列的一个字符；

在模型的输入中引入自然DNA序列的特征，将序列作为附加输入，通过修改RNN的输入表示为：

；

其中，表示与自然DNA序列相关的特征向量；

为确保编码准确性，使用交叉熵作为损失函数，其中包括目标DNA序列的真实分布和模型生成的分布之间的交叉，对于时间步t的损失，定义为：

；

其中，所述表示真实的目标分部，所述/>表示模型生成的分布；

S401. 计算所有片段平均值；

S404. 对标签序列进行二次判定，当平均值小于10时，则判断为深度低的标签序列，当平均值大于等于10时，则判断为污染的标签序列。示例性的，提出一种可能的判读结果示例，具体如下判断结果示例表：

Sample	Group	Number_of_insert	标签序列reads比例
				Z43	组合17	10	0.20%
Z02	组合14	10	0.05%
				Z03	组合14	10	0.10%
Z04	组合14	10	0.13%
				Z13	深度低(1.27)	14	0.14%
Z25	深度低(3.32)	17	0.02%
				Z01	污染	15	0.05%
Z35	污染	判断不出组合(3)	0.07%
				Z36	污染	判断不出组合(3)	0.14%
Z14	污染	组合16(10)和组合15(10)片段数很相近，无法判断	0.06%

结果示例表

S101. 从NCBI数据库中选择NR库作为参考序列；

进一步的，对于上述特异序列的挑选条件，一般需要考虑：（1）相似性：与其他序列的比对结果应该有明显的差异，即较高的相似性分数或较低的E值。（2）区域覆盖度：序列应与目标区域的长度无匹配或覆盖度很低。（3）区域特异性：序列应在目标区域内不具有显著的特异性匹配。

进一步的，所述步骤S2中，合成序列的纯化方式为RPC。具体的，所述的设计的探针序列示例如下探针序列示例表：

探针序列示例表

人工序列编写模块，用于通过编写人工序列；

进一步的，所述是数据分析模块还包括：

平均值计算单元，用于计算所有片段平均值；

进一步的，所述特异序列筛选模块还包括：

进一步的，作为本实施例优选的实施方式，本方案还可适用于探针捕获技术，具体的，将特异性的片段设计探针形成标签液相芯片，和产品的芯片混合使用；用探针捕获的技术同时捕获目标片段和标签，得到目标位点的分析结果的同时获得样本使用的标签信息。

进一步的，作为本实施例优选的实施方式，本方案还可适用于所有动植物的多种送样方案，具体的，取样方案包括：动物组织采样管中保存的动物组织（包括水产、动物组织、毛发等）；采血管中的血液；植物叶片和种子送样方案等。

示例性的，提出本实施例方案应用于植物田间采样管和动物组织采样管的实例，具体的，通过对植物田间采样管和动物组织采样管中添加特定组合的标签序列，经DNA提取、文库构建、杂交捕获及上机测序等操作环节，对测序数据进行分析均可以正确判定出样本中添加的标签序列，其结果如下动物组织采样管内标签序列识别结果表和植物田间采样管内标签序列识别结果表：

Sample	Group	Number_of_insert	内参reads比例
				ZR_01	组合1	10	0.13%
ZR_02	组合1	10	0.09%
				ZR_03	组合1	10	0.11%
ZR_04	组合1	10	0.10%
				ZR_05	组合1	10	0.11%
ZR_06	组合1	10	0.09%
				ZR_07	组合1	10	0.45%
ZR_08	组合1	10	0.11%
				ZR_09	组合1	10	0.08%
ZR_10	组合1	10	0.08%
				ZR_11	组合1	10	0.11%
ZR_12	组合1	10	0.14%
				ZR_13	组合1	10	0.12%
ZR_14	组合1	10	0.06%
				ZR_15	组合1	10	0.11%
ZR_16	组合2	10	0.20%
				ZR_17	组合2	10	0.14%
ZR_18	组合2	10	0.14%

动物组织采样管内标签序列识别结果表

ID	Depth(NC_021)	Depth(NC_022)	Depth(NC_023)	Depth(NC_024)
					NC_073	0	2	1	1
NC_086	1	2	2	3
					NC_087	1	2	2	2
NC_082	1	4	11	0
					NC_083	1	3	3	2
NC_060	1	4	1	2
					NC_097	1	6	2	0
NC_051	1	2	1	2
					NC_012	1	1	1	3
NC_048	2	2	1	1
					NC_076	2	2	1	0
NC_072	2	2	2	2
					NC_057	3	2	1	3
NC_059	3	4	3	3
					NC_055	3	3	0	0
NC_050	3	4	0	5
					NC_056	3	4	1	4
NC_091	3	4	2	5
					NC_088	33	1	0	2
NC_049	3	7	0	2
					NC_081	3	4	0	2
NC_115	3	3	0	2
					NC_110	4	4	2	0
NC_066	5	1	3	1
					NC_070	7	6	0	2
NC_058	10	10	7	7
					NC_068	10	5	4	7
NC_094	25	19	19	18
					NC_023	1279	2776	560	379
NC_092	1313	2665	579	442
					NC_096	1391	2595	525	421
NC_054	1641	3605	767	547
					NC_075	1858	3906	795	657
NC_089	1935	3696	826	629
					NC_069	1967	3908	875	666
NC_071	2009	4228	928	651
					NC_085	2081	4146	952	656
NC_019	2114	4277	935	673

植物田间采样管内标签序列识别结果表。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于探针捕获技术的分子检测样本质控方法，其特征在于，包括以下步骤：

S4. 将标签组合与样本统一进行全流程实验和数据分析；

2.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法，其特征在于，所述判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致的具体步骤如下：

S401. 计算所有片段平均值；

3.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法，其特征在于，所述步骤S1中，将序列与NCBI库进行比对，并筛选出特异序列，具体包括以下步骤：

S101. 从NCBI数据库中选择NR库作为参考序列；

4.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法，其特征在于，所述步骤S2中，设定参数具体为：探针长度110 bp，GC含量30%~70%，最大同源在基因组同源次数hom=5，探针离被设计区域的最大距离dis=10。

5.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法，其特征在于，所述步骤S2中，合成序列的纯化方式为RPC。

6.一种基于探针捕获技术的分子检测样本质控系统，该系统基于权利要求1-5中任一项所述的一种基于探针捕获技术的分子检测样本质控方法来实现，其特征在于，包括：

人工序列编写模块，用于通过编写人工序列；

7.如权利要求6所述的一种基于探针捕获技术的分子检测样本质控系统，其特征在于，所述是数据分析模块还包括：

平均值计算单元，用于计算所有片段平均值；

8.如权利要求6所述的一种基于探针捕获技术的分子检测样本质控系统，其特征在于，所述特异序列筛选模块还包括：

9.如权利要求6所述的一种基于探针捕获技术的分子检测样本质控系统，其特征在于，所述探针设计输出模块中，设定参数具体为：探针长度110 bp，GC含量30%~70%，最大同源在基因组同源次数hom=5，探针离被设计区域的最大距离dis=10。