CN117649875A - 一种基于探针捕获技术的分子检测样本质控方法及系统 - Google Patents
一种基于探针捕获技术的分子检测样本质控方法及系统 Download PDFInfo
- Publication number
- CN117649875A CN117649875A CN202311730760.3A CN202311730760A CN117649875A CN 117649875 A CN117649875 A CN 117649875A CN 202311730760 A CN202311730760 A CN 202311730760A CN 117649875 A CN117649875 A CN 117649875A
- Authority
- CN
- China
- Prior art keywords
- sequence
- combination
- tag
- sequences
- probe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000523 sample Substances 0.000 title claims abstract description 106
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000005516 engineering process Methods 0.000 title claims abstract description 22
- 238000003908 quality control method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000007405 data analysis Methods 0.000 claims description 21
- 239000012634 fragment Substances 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000012300 Sequence Analysis Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003556 assay Methods 0.000 claims 3
- 230000008569 process Effects 0.000 abstract description 11
- 239000007788 liquid Substances 0.000 abstract description 4
- 238000011109 contamination Methods 0.000 abstract description 2
- 238000003205 genotyping method Methods 0.000 abstract description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 18
- 238000005070 sampling Methods 0.000 description 10
- 241001465754 Metazoa Species 0.000 description 8
- 238000012163 sequencing technique Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010189 synthetic method Methods 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000007901 in situ hybridization Methods 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于探针捕获技术的分子检测样本质控方法及系统,涉及分子检测领域,本发明可以检测实验过程中是否存在操作错误,导致样本的混淆;还可在检测到样本发生混淆后,将样本和正确的数据结果进行对应;本发明在检测过程中,如果有滴液或液体飞溅等情况导致样本间污染,质控系统也可以判断为样本污染,需要重新进行检测,保证样本基因分型的准确性,提高数据质量。
Description
技术领域
本发明涉及分子检测领域,具体是一种基于探针捕获技术的分子检测样本质控方法及系统。
背景技术
在分子水平进行遗传变异的检测,简称为分子检测,是生物遗产变异分析的重要手段。分子检测广泛应用于医学、农业、环保、生命科学和食品安全等领域,是一种快速、准确、灵敏和可靠的检测方法。随着分子检测技术和应用的不断发展,市场逐渐扩大,规模也不断增长。常见的分子检测技术包括PCR、荧光定量PCR、基因芯片、基因测序和原位杂交等。其中利用基因芯片的二代测序是最主流的DNA测序技术。随着技术的不断升级和市场竞争的加剧,二代测序的成本不断降低,市场规模在过去的几年中一直呈现出强劲的增长态势。
二代测序实验的过程中,需要先提取样本基因组DNA,再进行文库构建、杂交捕获和上机测序。由于通量较大,在实验过程中是用96孔板进行操作,所以每个样本都需要先从取样管中转移到96孔板中;之后的每个步骤都需要取前一个步骤的产物再进行下一步的实验。从取样管转移到96孔板中,以及每次的产物取拿操作都可能导致样本和96孔板位置的对应关系发生混淆。例如,样本在96孔板的位置记录错误,或者样本加入错误;实验过程中存在96孔板180°调转、96孔板板间混淆、barcode记录错误(加入的是第一板barcode,记录的是第二板barcode)等情况,最终导致样本数据拆分失败或者样本和最终的数据对应错误。
发明内容
本发明旨在克服现有技术的不足,解决二代测序的通量大周期短,实验过程中同时处理的样本较多,极易发生样本混淆的问题,提出一种基于探针捕获技术的分子检测样本质控方法及系统。
其中,一种基于探针捕获技术的分子检测样本质控方法,包括以下步骤:
S1. 利用软件编写人工序列;将编写的人工序列与NCBI库进行比对,并筛选出特异序列;
S2. 将挑选出的特异序列根据设定参数进行探针设计,将设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列;
S3. 将序列集合中的序列进行随机排列组合,每个组合至少包含10~20条序列,在实验前,将并将得到的标签组合放于96孔板中;
S4. 将标签组合与样本统一进行全流程实验和数据分析;
其中,所述步骤S4中,当进行数据分析时,还包括对标签组合进行序列分析,具体流程为:进行标签组合的判定,判断数据分析得到的标签组合的序列与记录的该样本使用的标签组合的序列是否一致。
进一步的,所述判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致的具体步骤如下:
S401. 计算所有片段平均值;
S402. 统计深度大于平均值的片段个数,判断深度大于平均值的片段个数,当数量小于15时,则进行组合判定,执行步骤S403,当数量大于等于15时,则判定为污染的标签序列;
S403. 对标签序列进行组合判定,当判定结果为可判断出组合时,即匹配最佳的组合,输出该标签组合,当判定结果为不可判断出组合时,执行步骤S404;
S404. 对标签序列进行二次判定,当平均值小于10时,则判断为深度低的标签序列,当平均值大于等于10时,则判断为污染的标签序列。
进一步的,所述步骤S1中,将序列与NCBI库进行比对,并筛选出特异序列,具体包括以下步骤:
S101. 从NCBI数据库中选择NR库作为参考序列;
S102. 使用选定的BLASTn比对算法和参数,对待比对的序列与参考序列进行比对。
进一步的,所述步骤S2中,设定参数具体为:探针长度110 bp,GC含量30%~70%,最大同源在基因组同源次数hom=5,探针离被设计区域的最大距离dis=10。
进一步的,所述步骤S2中,合成序列的纯化方式为RPC。
一种基于探针捕获技术的分子检测样本质控系统,该系统基于上述任一项所述的一种基于探针捕获技术的分子检测样本质控方法来实现,包括:
人工序列编写模块,用于通过编写人工序列;
特异序列筛选模块,用于将序列与NCBI库进行比对,并筛选出特异序列;
探针设计输出模块,用于将挑选出的序列根据设定参数进行探针设计,输出设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列;
随机排列组合模块,用于将序列集合中的序列进行随机排列组合,每个组合至少包含10~20条序列;
数据分析模块,用于对标签序列进行分析,并进行标签组合的判定,判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致。
进一步的,所述是数据分析模块还包括:
平均值计算单元,用于计算所有片段平均值;
一次判定单元,用于统计深度大于平均值的片段个数,判断深度大于平均值的片段个数,当数量小于15时,则进行组合判定单元的组合判定,当数量大于等于15时,则输出为污染的标签序列;
组合判定单元,用于对标签序列进行组合判定,当判定结果为可判断出组合时,即匹配最佳的组合,输出该标签组合,当判定结果为不可判断出组合时,进行二次判定单元判定;
二次判定单元,用于对标签序列进行二次判定,当平均值小于10时,则输出为深度低的标签序列,当平均值大于等于10时,则输出为污染的标签序列。
进一步的,所述特异序列筛选模块还包括:
参考序列提取单元,用于从NCBI数据库中选择NR库作为参考序列;
数据比对单元,用于通过选定的BLASTn比对算法和参数,对待比对的序列与参考序列进行比对。
进一步的,所述探针设计输出模块中,设定参数具体为:探针长度110 bp,GC含量30%~70%,最大同源在基因组同源次数hom=5,探针离被设计区域的最大距离dis=10。
发明的有益效果是:
(1) 本发明可以检测实验过程中是否存在操作错误,导致样本的混淆;还可在检测到样本发生混淆后,将样本和正确的数据结果进行对应;
(2) 本发明在检测过程中,如果有滴液或液体飞溅等情况导致样本间污染,质控系统也可以判断为样本污染,需要重新进行检测,保证样本基因分型的准确性,提高数据质量。
附图说明
图1为本发明实施例提供的一种基于探针捕获技术的分子检测样本质控方法的方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
为了使本发明的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,一种基于探针捕获技术的分子检测样本质控方法,包括以下步骤:
S1. 利用软件编写人工序列;将编写的人工序列与NCBI库进行比对,并筛选出特异序列;
S2. 将挑选出的特异序列根据设定参数进行探针设计,将设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列;
S3. 将序列集合中的序列进行随机排列组合,每个组合至少包含10~20条序列,在实验前,将并将得到的标签组合放于96孔板中;
S4. 将标签组合与样本统一进行全流程实验和数据分析;
其中,所述步骤S4中,当进行数据分析时,还包括对标签组合进行序列分析,具体流程为:进行标签组合的判定,判断数据分析得到的标签组合的序列与记录的该样本使用的标签组合的序列是否一致。
进一步的,作为本实施例优选的具体实施方式,提出一种人工序列编写方式,具体的,利用软件人工编写100,000条人工序列。编写人工DNA序列的原则包括:(1)总体结构:确保生成的序列具有合理的总体结构,包括核苷酸序列的长度、基团组合、碱基配对等。(2)序列相似性:保证生成的序列在一定程度上与现有的自然DNA序列相似,具备相关的生物学特征。这可以通过模拟已知的具有类似功能的DNA序列来实现。(3)编码准确性:生成的DNA序列应遵循DNA的基本编码规则和限制条件,确保每个碱基在序列中的位置和顺序是合理的。(4)合成可行性:生成的DNA序列应符合实际合成的可行性,考虑到合成方法和成本的限制。基于人工智能的算法和深度学习技术可以辅助生成DNA序列,但仍需要人工的参与进行结果的验证和优化。
进一步的,根据上述优选实施方式,对于步骤S3中的标签组合,则共计得到9600种标签组合,分别放于100板96孔板中。
进一步的,作为本实施例优选的实施方式,提出采用RNN循环神经网络作为生成DNA序列的模型,具体流程如下:
数据准备:收集和准备自然DNA序列数据作为训练集,确保数据集具有多样性和代表性;将数据集分为训练集和验证集。
模型选择和训练:选择基于循环神经网络(RNN)的模型;使用训练集对模型进行训练,使其能够学习自然DNA序列的统计特性和结构;
总体结构生成:通过模型生成新的DNA序列,确保生成的序列具有合理的总体结构,如长度、基团组合和碱基配对;引入适当的噪声以增加生成序列的多样性。
序列相似性:在模型的训练中,引入已知DNA序列,使生成的序列在一定程度上与现有自然DNA序列相似;在训练中使用具有相似生物学功能的DNA片段。
编码准确性:确保生成的DNA序列遵循DNA的基本编码规则和限制条件,包括碱基的配对规则和启动子、终止子等功能区域的存在。
合成可行性:考虑生成的DNA序列的合成可行性,即考虑到实际合成方法和成本的限制。在模型中引入合成的相关信息,以确保生成的序列在合成时可行。
其中,本实施方式使用基于字符级别的RNN,该网络模型为将前面的字符作为输入,然后生成下一个字符,具体为:
;
其中,所述表示时间步t的隐藏状态,所述/>表示时间步t的输入,即DNA序列的一个字符;
在模型的输入中引入自然DNA序列的特征,将序列作为附加输入,通过修改RNN的输入表示为:
;
其中,表示与自然DNA序列相关的特征向量;
为确保编码准确性,使用交叉熵作为损失函数,其中包括目标DNA序列的真实分布和模型生成的分布之间的交叉,对于时间步t的损失,定义为:
;
其中,所述表示真实的目标分部,所述/>表示模型生成的分布;
进一步的,所述判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致的具体步骤如下:
S401. 计算所有片段平均值;
S402. 统计深度大于平均值的片段个数,判断深度大于平均值的片段个数,当数量小于15时,则进行组合判定,执行步骤S403,当数量大于等于15时,则判定为污染的标签序列;
S403. 对标签序列进行组合判定,当判定结果为可判断出组合时,即匹配最佳的组合,输出该标签组合,当判定结果为不可判断出组合时,执行步骤S404;
S404. 对标签序列进行二次判定,当平均值小于10时,则判断为深度低的标签序列,当平均值大于等于10时,则判断为污染的标签序列。示例性的,提出一种可能的判读结果示例,具体如下判断结果示例表:
Sample | Group | Number_of_insert | 标签序列reads比例 |
Z43 | 组合17 | 10 | 0.20% |
Z02 | 组合14 | 10 | 0.05% |
Z03 | 组合14 | 10 | 0.10% |
Z04 | 组合14 | 10 | 0.13% |
Z13 | 深度低(1.27) | 14 | 0.14% |
Z25 | 深度低(3.32) | 17 | 0.02% |
Z01 | 污染 | 15 | 0.05% |
Z35 | 污染 | 判断不出组合(3) | 0.07% |
Z36 | 污染 | 判断不出组合(3) | 0.14% |
Z14 | 污染 | 组合16(10)和组合15(10)片段数很相近,无法判断 | 0.06% |
结果示例表
进一步的,所述步骤S1中,将序列与NCBI库进行比对,并筛选出特异序列,具体包括以下步骤:
S101. 从NCBI数据库中选择NR库作为参考序列;
S102. 使用选定的BLASTn比对算法和参数,对待比对的序列与参考序列进行比对。
进一步的,对于上述特异序列的挑选条件,一般需要考虑:(1)相似性:与其他序列的比对结果应该有明显的差异,即较高的相似性分数或较低的E值。(2)区域覆盖度:序列应与目标区域的长度无匹配或覆盖度很低。(3)区域特异性:序列应在目标区域内不具有显著的特异性匹配。
进一步的,所述步骤S2中,设定参数具体为:探针长度110 bp,GC含量30%~70%,最大同源在基因组同源次数hom=5,探针离被设计区域的最大距离dis=10。
进一步的,所述步骤S2中,合成序列的纯化方式为RPC。具体的,所述的设计的探针序列示例如下探针序列示例表:
探针序列示例表
一种基于探针捕获技术的分子检测样本质控系统,该系统基于上述任一项所述的一种基于探针捕获技术的分子检测样本质控方法来实现,包括:
人工序列编写模块,用于通过编写人工序列;
特异序列筛选模块,用于将序列与NCBI库进行比对,并筛选出特异序列;
探针设计输出模块,用于将挑选出的序列根据设定参数进行探针设计,输出设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列;
随机排列组合模块,用于将序列集合中的序列进行随机排列组合,每个组合至少包含10~20条序列;
数据分析模块,用于对标签序列进行分析,并进行标签组合的判定,判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致。
进一步的,所述是数据分析模块还包括:
平均值计算单元,用于计算所有片段平均值;
一次判定单元,用于统计深度大于平均值的片段个数,判断深度大于平均值的片段个数,当数量小于15时,则进行组合判定单元的组合判定,当数量大于等于15时,则输出为污染的标签序列;
组合判定单元,用于对标签序列进行组合判定,当判定结果为可判断出组合时,即匹配最佳的组合,输出该标签组合,当判定结果为不可判断出组合时,进行二次判定单元判定;
二次判定单元,用于对标签序列进行二次判定,当平均值小于10时,则输出为深度低的标签序列,当平均值大于等于10时,则输出为污染的标签序列。
进一步的,所述特异序列筛选模块还包括:
参考序列提取单元,用于从NCBI数据库中选择NR库作为参考序列;
数据比对单元,用于通过选定的BLASTn比对算法和参数,对待比对的序列与参考序列进行比对。
进一步的,所述探针设计输出模块中,设定参数具体为:探针长度110 bp,GC含量30%~70%,最大同源在基因组同源次数hom=5,探针离被设计区域的最大距离dis=10。
进一步的,作为本实施例优选的实施方式,本方案还可适用于探针捕获技术,具体的,将特异性的片段设计探针形成标签液相芯片,和产品的芯片混合使用;用探针捕获的技术同时捕获目标片段和标签,得到目标位点的分析结果的同时获得样本使用的标签信息。
进一步的,作为本实施例优选的实施方式,本方案还可适用于所有动植物的多种送样方案,具体的,取样方案包括:动物组织采样管中保存的动物组织(包括水产、动物组织、毛发等);采血管中的血液;植物叶片和种子送样方案等。
示例性的,提出本实施例方案应用于植物田间采样管和动物组织采样管的实例,具体的,通过对植物田间采样管和动物组织采样管中添加特定组合的标签序列,经DNA提取、文库构建、杂交捕获及上机测序等操作环节,对测序数据进行分析均可以正确判定出样本中添加的标签序列,其结果如下动物组织采样管内标签序列识别结果表和植物田间采样管内标签序列识别结果表:
Sample | Group | Number_of_insert | 内参reads比例 |
ZR_01 | 组合1 | 10 | 0.13% |
ZR_02 | 组合1 | 10 | 0.09% |
ZR_03 | 组合1 | 10 | 0.11% |
ZR_04 | 组合1 | 10 | 0.10% |
ZR_05 | 组合1 | 10 | 0.11% |
ZR_06 | 组合1 | 10 | 0.09% |
ZR_07 | 组合1 | 10 | 0.45% |
ZR_08 | 组合1 | 10 | 0.11% |
ZR_09 | 组合1 | 10 | 0.08% |
ZR_10 | 组合1 | 10 | 0.08% |
ZR_11 | 组合1 | 10 | 0.11% |
ZR_12 | 组合1 | 10 | 0.14% |
ZR_13 | 组合1 | 10 | 0.12% |
ZR_14 | 组合1 | 10 | 0.06% |
ZR_15 | 组合1 | 10 | 0.11% |
ZR_16 | 组合2 | 10 | 0.20% |
ZR_17 | 组合2 | 10 | 0.14% |
ZR_18 | 组合2 | 10 | 0.14% |
动物组织采样管内标签序列识别结果表
ID | Depth(NC_021) | Depth(NC_022) | Depth(NC_023) | Depth(NC_024) |
NC_073 | 0 | 2 | 1 | 1 |
NC_086 | 1 | 2 | 2 | 3 |
NC_087 | 1 | 2 | 2 | 2 |
NC_082 | 1 | 4 | 11 | 0 |
NC_083 | 1 | 3 | 3 | 2 |
NC_060 | 1 | 4 | 1 | 2 |
NC_097 | 1 | 6 | 2 | 0 |
NC_051 | 1 | 2 | 1 | 2 |
NC_012 | 1 | 1 | 1 | 3 |
NC_048 | 2 | 2 | 1 | 1 |
NC_076 | 2 | 2 | 1 | 0 |
NC_072 | 2 | 2 | 2 | 2 |
NC_057 | 3 | 2 | 1 | 3 |
NC_059 | 3 | 4 | 3 | 3 |
NC_055 | 3 | 3 | 0 | 0 |
NC_050 | 3 | 4 | 0 | 5 |
NC_056 | 3 | 4 | 1 | 4 |
NC_091 | 3 | 4 | 2 | 5 |
NC_088 | 33 | 1 | 0 | 2 |
NC_049 | 3 | 7 | 0 | 2 |
NC_081 | 3 | 4 | 0 | 2 |
NC_115 | 3 | 3 | 0 | 2 |
NC_110 | 4 | 4 | 2 | 0 |
NC_066 | 5 | 1 | 3 | 1 |
NC_070 | 7 | 6 | 0 | 2 |
NC_058 | 10 | 10 | 7 | 7 |
NC_068 | 10 | 5 | 4 | 7 |
NC_094 | 25 | 19 | 19 | 18 |
NC_023 | 1279 | 2776 | 560 | 379 |
NC_092 | 1313 | 2665 | 579 | 442 |
NC_096 | 1391 | 2595 | 525 | 421 |
NC_054 | 1641 | 3605 | 767 | 547 |
NC_075 | 1858 | 3906 | 795 | 657 |
NC_089 | 1935 | 3696 | 826 | 629 |
NC_069 | 1967 | 3908 | 875 | 666 |
NC_071 | 2009 | 4228 | 928 | 651 |
NC_085 | 2081 | 4146 | 952 | 656 |
NC_019 | 2114 | 4277 | 935 | 673 |
植物田间采样管内标签序列识别结果表。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种基于探针捕获技术的分子检测样本质控方法,其特征在于,包括以下步骤:
S1. 利用软件编写人工序列;将编写的人工序列与NCBI库进行比对,并筛选出特异序列;
S2. 将挑选出的特异序列根据设定参数进行探针设计,将设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列;
S3. 将序列集合中的序列进行随机排列组合,每个组合至少包含10~20条序列,在实验前,将并将得到的标签组合放于96孔板中;
S4. 将标签组合与样本统一进行全流程实验和数据分析;
其中,所述步骤S4中,当进行数据分析时,还包括对标签组合进行序列分析,具体流程为:进行标签组合的判定,判断数据分析得到的标签组合的序列与记录的该样本使用的标签组合的序列是否一致。
2.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法,其特征在于,所述判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致的具体步骤如下:
S401. 计算所有片段平均值;
S402. 统计深度大于平均值的片段个数,判断深度大于平均值的片段个数,当数量小于15时,则进行组合判定,执行步骤S403,当数量大于等于15时,则判定为污染的标签序列;
S403. 对标签序列进行组合判定,当判定结果为可判断出组合时,即匹配最佳的组合,输出该标签组合,当判定结果为不可判断出组合时,执行步骤S404;
S404. 对标签序列进行二次判定,当平均值小于10时,则判断为深度低的标签序列,当平均值大于等于10时,则判断为污染的标签序列。
3.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法,其特征在于,所述步骤S1中,将序列与NCBI库进行比对,并筛选出特异序列,具体包括以下步骤:
S101. 从NCBI数据库中选择NR库作为参考序列;
S102. 使用选定的BLASTn比对算法和参数,对待比对的序列与参考序列进行比对。
4.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法,其特征在于,所述步骤S2中,设定参数具体为:探针长度110 bp,GC含量30%~70%,最大同源在基因组同源次数hom=5,探针离被设计区域的最大距离dis=10。
5.如权利要求1所述的一种基于探针捕获技术的分子检测样本质控方法,其特征在于,所述步骤S2中,合成序列的纯化方式为RPC。
6.一种基于探针捕获技术的分子检测样本质控系统,该系统基于权利要求1-5中任一项所述的一种基于探针捕获技术的分子检测样本质控方法来实现,其特征在于,包括:
人工序列编写模块,用于通过编写人工序列;
特异序列筛选模块,用于将序列与NCBI库进行比对,并筛选出特异序列;
探针设计输出模块,用于将挑选出的序列根据设定参数进行探针设计,输出设计成功的序列作为最终的序列集合,并合成序列及对应的探针序列;
随机排列组合模块,用于将序列集合中的序列进行随机排列组合,每个组合至少包含10~20条序列;
数据分析模块,用于对标签序列进行分析,并进行标签组合的判定,判断数据分析得到的标签序列与记录的该样本使用的标签序列是否一致。
7.如权利要求6所述的一种基于探针捕获技术的分子检测样本质控系统,其特征在于,所述是数据分析模块还包括:
平均值计算单元,用于计算所有片段平均值;
一次判定单元,用于统计深度大于平均值的片段个数,判断深度大于平均值的片段个数,当数量小于15时,则进行组合判定单元的组合判定,当数量大于等于15时,则输出为污染的标签序列;
组合判定单元,用于对标签序列进行组合判定,当判定结果为可判断出组合时,即匹配最佳的组合,输出该标签组合,当判定结果为不可判断出组合时,进行二次判定单元判定;
二次判定单元,用于对标签序列进行二次判定,当平均值小于10时,则输出为深度低的标签序列,当平均值大于等于10时,则输出为污染的标签序列。
8.如权利要求6所述的一种基于探针捕获技术的分子检测样本质控系统,其特征在于,所述特异序列筛选模块还包括:
参考序列提取单元,用于从NCBI数据库中选择NR库作为参考序列;
数据比对单元,用于通过选定的BLASTn比对算法和参数,对待比对的序列与参考序列进行比对。
9.如权利要求6所述的一种基于探针捕获技术的分子检测样本质控系统,其特征在于,所述探针设计输出模块中,设定参数具体为:探针长度110 bp,GC含量30%~70%,最大同源在基因组同源次数hom=5,探针离被设计区域的最大距离dis=10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311730760.3A CN117649875B (zh) | 2023-12-15 | 2023-12-15 | 一种基于探针捕获技术的分子检测样本质控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311730760.3A CN117649875B (zh) | 2023-12-15 | 2023-12-15 | 一种基于探针捕获技术的分子检测样本质控方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117649875A true CN117649875A (zh) | 2024-03-05 |
CN117649875B CN117649875B (zh) | 2024-05-31 |
Family
ID=90045044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311730760.3A Active CN117649875B (zh) | 2023-12-15 | 2023-12-15 | 一种基于探针捕获技术的分子检测样本质控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117649875B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444255A (zh) * | 2019-08-30 | 2019-11-12 | 深圳裕策生物科技有限公司 | 基于二代测序的生物信息质控方法、装置和存储介质 |
CN111933219A (zh) * | 2020-09-16 | 2020-11-13 | 北京求臻医学检验实验室有限公司 | 一种分子标志物肿瘤缺失突变负荷的检测方法 |
CN111944806A (zh) * | 2020-07-30 | 2020-11-17 | 上海韦翰斯生物医药科技有限公司 | 一种高通量测序污染检测用分子标签组及其应用 |
WO2021120527A1 (zh) * | 2019-12-20 | 2021-06-24 | 苏州赛美科基因科技有限公司 | 一种基因稀有突变的高通量检测方法 |
CN113564266A (zh) * | 2021-09-24 | 2021-10-29 | 上海仁东医学检验所有限公司 | Snp分型遗传标记组合、检测试剂盒及用途 |
CN113755628A (zh) * | 2021-09-29 | 2021-12-07 | 石家庄博瑞迪生物技术有限公司 | 一种基于mSNP技术检测白萝卜种子纯度的混样检测方法 |
CN114395619A (zh) * | 2021-12-29 | 2022-04-26 | 福建和瑞基因科技有限公司 | 一种高通量测序方法以及内参质控品 |
CN115526300A (zh) * | 2022-11-14 | 2022-12-27 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
WO2023283591A2 (en) * | 2021-07-07 | 2023-01-12 | The Regents Of The University Of California | Methods of methylation analysis for disease detection |
CN115747320A (zh) * | 2022-08-03 | 2023-03-07 | 伯科生物科技有限公司 | Rna靶向测序基因芯片的质控方法及应用 |
CN116959564A (zh) * | 2022-04-14 | 2023-10-27 | 上海思路迪生物医学科技有限公司 | 样本污染检测方法、装置、系统及相关设备 |
-
2023
- 2023-12-15 CN CN202311730760.3A patent/CN117649875B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444255A (zh) * | 2019-08-30 | 2019-11-12 | 深圳裕策生物科技有限公司 | 基于二代测序的生物信息质控方法、装置和存储介质 |
WO2021120527A1 (zh) * | 2019-12-20 | 2021-06-24 | 苏州赛美科基因科技有限公司 | 一种基因稀有突变的高通量检测方法 |
CN111944806A (zh) * | 2020-07-30 | 2020-11-17 | 上海韦翰斯生物医药科技有限公司 | 一种高通量测序污染检测用分子标签组及其应用 |
CN111933219A (zh) * | 2020-09-16 | 2020-11-13 | 北京求臻医学检验实验室有限公司 | 一种分子标志物肿瘤缺失突变负荷的检测方法 |
WO2023283591A2 (en) * | 2021-07-07 | 2023-01-12 | The Regents Of The University Of California | Methods of methylation analysis for disease detection |
CN113564266A (zh) * | 2021-09-24 | 2021-10-29 | 上海仁东医学检验所有限公司 | Snp分型遗传标记组合、检测试剂盒及用途 |
CN113755628A (zh) * | 2021-09-29 | 2021-12-07 | 石家庄博瑞迪生物技术有限公司 | 一种基于mSNP技术检测白萝卜种子纯度的混样检测方法 |
CN114395619A (zh) * | 2021-12-29 | 2022-04-26 | 福建和瑞基因科技有限公司 | 一种高通量测序方法以及内参质控品 |
CN116959564A (zh) * | 2022-04-14 | 2023-10-27 | 上海思路迪生物医学科技有限公司 | 样本污染检测方法、装置、系统及相关设备 |
CN115747320A (zh) * | 2022-08-03 | 2023-03-07 | 伯科生物科技有限公司 | Rna靶向测序基因芯片的质控方法及应用 |
CN115526300A (zh) * | 2022-11-14 | 2022-12-27 | 南京邮电大学 | 一种基于循环神经网络的序列重排方法 |
Non-Patent Citations (2)
Title |
---|
刘菲菲;孙明明;胡昌明;欧小华;赵薇薇;: "三种人全外显子组捕获探针的性能比较", 中华临床实验室管理电子杂志, no. 01, 28 February 2020 (2020-02-28), pages 26 - 33 * |
翟玉龙;李德洋;杜小红;何显力;邢金良;: "一种新的线粒体基因组DNA捕获探针的制备及初步应用", 现代生物医学进展, no. 13, 10 May 2016 (2016-05-10), pages 69 - 73 * |
Also Published As
Publication number | Publication date |
---|---|
CN117649875B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114420212B (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
CA2906725C (en) | Characterization of biological material using unassembled sequence information, probabilistic methods and trait-specific database catalogs | |
CN110875082B (zh) | 一种基于靶向扩增测序的微生物检测方法和装置 | |
Roberts et al. | Transcriptome-wide spatial RNA profiling maps the cellular architecture of the developing human neocortex | |
CN107312873B (zh) | 一种快速区分5种小鼠呼吸道病原的多重液相基因芯片检测引物、试剂盒及方法 | |
CN110512011A (zh) | 一种肠道菌群检测分析方法、装置、系统及存储介质 | |
CN117649875B (zh) | 一种基于探针捕获技术的分子检测样本质控方法及系统 | |
CN105603081B (zh) | 一种非诊断目的的肠道微生物定性与定量的检测方法 | |
CN111916151A (zh) | 一种苜蓿黄萎病菌的溯源检测方法及应用 | |
CN107365839A (zh) | 一种用于鹿科动物鉴定的引物及其应用 | |
US20230203600A1 (en) | Method for treating cell population and method for analyzing genes included in cell population | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
AU2004234996B2 (en) | Array having substances fixed on support arranged with chromosomal order or sequence position information added thereto, process for producing the same, analytical system using the array and use of these | |
CN114424291A (zh) | 免疫组库健康评估系统和方法 | |
CN101565744A (zh) | 一种三疣梭子蟹多元高通量遗传标记系统及遗传分析方法 | |
Lu et al. | Application of Single-Cell Assay for Transposase-Accessible Chromatin with High Throughput Sequencing in Plant Science: Advances, Technical Challenges, and Prospects | |
Cadel-Six et al. | qPCR method for identifying highly pathogenic Salmonella serotypes | |
CN117116351B (zh) | 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统 | |
CN117265139B (zh) | 一种萨福克羊体重相关snp标记及其筛选方法与应用 | |
CN117051129B (zh) | 一种微生物检测背景菌阈值设定方法及其应用 | |
CN1995394B (zh) | 一种利用分子检索表对昆虫进行分类鉴定的方法 | |
CN105713967B (zh) | 一种水体微生物定性与定量的检测方法 | |
WO2023081260A1 (en) | Systems and methods for cell-type identification | |
CN117587159A (zh) | 一种辣椒snp分子标记组合、snp芯片及其应用 | |
Herzog | DNA metabarcoding: a method in animal diet analysis studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |