CN114999572B - 一种设计引物的方法、设备、可读介质及装置 - Google Patents
一种设计引物的方法、设备、可读介质及装置 Download PDFInfo
- Publication number
- CN114999572B CN114999572B CN202210828434.5A CN202210828434A CN114999572B CN 114999572 B CN114999572 B CN 114999572B CN 202210828434 A CN202210828434 A CN 202210828434A CN 114999572 B CN114999572 B CN 114999572B
- Authority
- CN
- China
- Prior art keywords
- sequence
- primer
- base
- fragment
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013461 design Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 239000012634 fragment Substances 0.000 claims description 65
- 108091093088 Amplicon Proteins 0.000 claims description 12
- 150000007523 nucleic acids Chemical group 0.000 claims description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 239000000523 sample Substances 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 8
- 230000035772 mutation Effects 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 241000894007 species Species 0.000 description 9
- 238000002864 sequence alignment Methods 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 5
- 108091034117 Oligonucleotide Proteins 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 241000701161 unidentified adenovirus Species 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 3
- 239000000539 dimer Substances 0.000 description 3
- 238000002844 melting Methods 0.000 description 3
- 230000008018 melting Effects 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 241000712003 Human respirovirus 3 Species 0.000 description 2
- 241001113283 Respirovirus Species 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000000137 annealing Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000004925 denaturation Methods 0.000 description 2
- 230000036425 denaturation Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 241000620571 Human mastadenovirus A Species 0.000 description 1
- 208000002606 Paramyxoviridae Infections Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 101150104012 TOP2 gene Proteins 0.000 description 1
- 101150107801 Top2a gene Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 238000012772 sequence design Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物信息技术领域,具体地,涉及一种设计引物的方法,更具体地,涉及一种基于突变分析构建兼并参考基因组设计引物的方法、设备、可读介质及装置。本发明提供一种设计引物的方法,所述方法包括:S1、获取目标物种序列数据,构建序列数据集;S2、过滤短序列及序列比对;S3、根据所述碱基信息,重新构建兼并碱基的参考序列;S4、对所述S3所构建的参考序列进行引物模板筛选,设计引物。本发明的方法采用种子序列定位及延伸算法比对,其时间复杂度远低于多序列比对,耗时短,可以最大限度的利用目标物种已有序列数据、并在全基因组层面上获得最完整的序列保守信息以确保引物的敏感性。
Description
技术领域
本发明属于生物信息技术领域,具体地,涉及一种设计引物的方法,更具体地,涉及一种基于突变分析构建兼并参考基因组的、筛选引物设计模板、设计引物的方法、设备、可读介质及装置。
背景技术
聚合酶链式反应(Polymerase Chain Reaction,PCR)是在体外放大扩增特定DNA片段的分子生物技术,每次扩增都以上次扩增产物作为模板进行指数扩增,短时间内达到目的DNA片段富集的目标。PCR的基本反应包括三步,变性、退火和延伸。变性阶段双链DNA在高温条件下解链为单链;退火阶段引物在温度下降至适宜温度下与单链DNA模板互补配对;延伸阶段DNA聚合酶以脱氧核糖核苷酸(dNTP)为底物在引物与模板链结合沿5’向3’方向合成一条与模板链互补的新链。PCR作为最基础的分子生物学实验手段之一,被广泛应用于基因工程、微生物诊断等领域。基于核酸的分子检测具有检测速度快、特异性强、易于操作。近年来各种基因诊断技术在微生物检测中不断开发利用,尤其是基于PCR的检测技术发挥着越来越重要的作用。PCR引物设计的好坏是PCR实验成败的一个关键因素,尤其在微生物检测中特异性强、敏感性高的PCR引物尤为重要。
目前,筛选合适的PCR引物往往依赖于经验、文献检索或对目标物种可信度较高的DNA序列进行相似性比对,筛选全部或大部分序列都包含的相同片段即是该物种的保守片段。在保守片段中选择合适区域作为扩增子设计引物。目前常用的多序列比对方法采用渐进式比对或迭代式比对策略,如Muscle、MAFFT、ClustalW、T-Coffee等比对软件。这些方法需先计算两两序列之间的距离,根据距离使用层次聚类算法构建指导树,指导序列两两比对与合并,以得到最优比对结果。部分方法或在此基础上进行适当优化来实现最终的局部或全局比对结果。这些方法都有着很高的时间复杂度,总体时间复杂度不低于O(m2n+kmn)(m为序列的条数,n为序列的长度,k为计算序列相似度的k-mer长度),在序列较短、序列数较少时能够较好地用于序列保守区段的分析。然而随着测序飞速发展,物种序列越来越多,常规多序列比对花费时间动辄已经以天计数,无法满足分析需求。基于经验、文献检索方法,对物种序列特征没有全局把控,需要不断试错来获得相对理想的引物。这些方法存在效率低、耗时长,以及引物特异性难以均衡等不足。
因此,本领域需要一种引物设计方法,耗时短、效率高和引物特异性能够均衡。
发明内容
有鉴于此,第一方面,本发明提供一种设计引物的方法,包括:
S1、获取目标物种序列数据,构建序列数据集;
S2、过滤短序列及序列比对,包括:设定参考序列长度百分比K为预设值,当序列长度百分比小于预设值时,即过滤,其中,K的取值范围为50~80;将过滤后保留的长序列以参考序列作为模板进行定位比对,统计序列各位置碱基信息;
S3、根据所述碱基信息,重新构建兼并碱基的参考序列,其包括:
当目标位置的碱基频率百分比不小于预设值M,所述碱基为重构序列对应位置的碱基,其中,M的取值范围为60~90;
当目标位置的碱基没有单个碱基满足预设值M,则计算深度最高的两个碱基总频率百分比是否不小于预设值M,若不小于,则所述两个碱基对应的兼并碱基为重构序列对应位置的碱基;
若都不满足,则所述位置为“N”碱基;
S4、对S3所构建的参考序列进行引物模板筛选、设计引物,筛选条件为:
a、片段长度不小于17bp;
b、片段内不含“N”碱基;
c、片段连续17bp长度内兼并碱基个数不大于3,且不连续;
满足所述筛选条件的片段作为被用作引物设计模板序列,构建引物设计模板序列集。
在一些具体的实施方案中,所述目标物种序列数据包括参考序列和目标物种其它基因组核酸序列数据。
在一些具体的实施方案中,所述碱基信息包括各位置碱基比对频数、插入频数、缺失频数,和/或碱基比例。
在一些具体的实施方案中,预设值M优选为80。
在一些具体的实施方案中,所述方法包括:
S4、将S3所构建的参考序列进行筛选,筛选条件为:
a、片段长度17bp~47bp;
b、片段内不含“N”碱基;
c、片段连续17bp长度内兼并碱基个数不大于3,且不连续。
本发明的方法基于突变构建兼并参考基因组筛选引物模板、设计引物。突变分析采用种子序列定位及延伸算法比对,其时间复杂度远低于多序列比对。避免了常规多序列比对算法对序列数目、序列长度的限制,以及正反向序列不兼容的缺陷,可以最大限度的利用目标物种已有序列数据、并在全基因组层面上获得最完整的序列保守信息以确保引物的敏感性。
在一些具体的实施方案中,上述方法进一步包括:引物设计模板序列集内进行初步引物搜索获取引物片段,搜索条件包括:
引物设计模板序列的片段长度为17bp~47bp时,直接作为初步引物;
引物设计模板序列的片段长度为48bp~70bp时,将其分为n份(n=备用片段长度/24向下取整)作为初步引物;
引物设计模板序列的片段长度大于70bp时,采用常用引物设计软件获取引物、探针。
在一些具体的实施方案中,上述方法进一步包括:对所述初步引物搜索获得的引物片段,确定合适作为引物的片段。
所述确定合适作为引物的片段包括计算初步引物基本信息,例如Tm、长度、CG%、引物自身任何位置和3'端附近出现互补形成二级结构/二聚体,发夹结构的解链温度等。本领域技术人员可以根据需要设定阈值进行确定,初步引物序列不满足设定标准则进行调整。具体调整方法为:以初步引物序列左端开始选取24bp序列计算基本信息,若满足标准则将其作为该初步引物片段的代表序列,不满足则通过调整序列长度或移动位置直至满足标准。
可选的,在一些具体的实施方案中,确定合适片段作为引物还可以:通过组合初步引物使其扩增子长度满足指定范围,前后初步引物片段使用“N”连接构建扩增模板(“N”个数由前、后初步引物位置差决定),采用常用引物设计软件如primer3等在前、后初步引物区根据设定标准获取引物。
在一些具体的实施方案中,上述方法进一步包括:根据扩增子长度的范围,在确定合适作为引物的片段中检索满足扩增子长度的两两组合引物对,进行模拟PCR。
在一个具体的实施方案中,根据扩增子长度范围为70bp~200bp,在确定合适作为引物的片段中检索满足扩增子长度的两两组合引物对,进行模拟PCR。
另一方面,本发明提供一种设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项所述的设计引物的方法。
在一些实施方案中,所述设备还包括至少一个输入设备和至少一个输出设备;在所述设备中,所述处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明的又一方面,提供了一种存储介质,所述存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述任一项所述的设计引物的方法。
在一些实施方案中,存储介质为计算机可读存储介质。
本发明的又一方面,提供了一种装置,包括:
过滤模块,用于过滤短序列及序列比对;
重构模块,用于重新构建兼并碱基的参考序列;
筛选模块,用于筛选重构模块构建的参考序列、设计引物。
所述过滤短序列进一步包括:设定参考序列长度百分比K为预设值,当序列长度百分比小于预设值时,即过滤,其中,K的取值范围为50~80;将过滤后保留的长序列以参考序列作为模板进行定位比对,统计序列各位置碱基信息。
所述重新构建兼并碱基的参考序列进一步包括:
当目标位置的碱基频率百分比不小于预设值M,所述碱基为重构序列对应位置的碱基,其中,M的取值范围为60~90;
当目标位置的碱基没有单个碱基满足预设值M,则计算深度最高的两个碱基总频率百分比是否不小于预设值M,若不小于,则所述两个碱基对应的兼并碱基为重构序列对应位置的碱基;
若都不满足,则所述位置为“N”碱基。
所述筛选重构模块构建的参考序列进一步包括:满足下述筛选条件的片段作为被用作引物设计模板序列,构建引物设计模板序列集:
a、片段长度不低于17bp;
b、片段内不含“N”碱基;
c、片段连续17bp长度内兼并碱基个数不大于3,且不连续。
附图说明
图1为本发明方法的基本流程示意图。
具体实施方式
下文将结合具体实施方案和实施例,具体阐述本发明,本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解,这些具体实施方案和实施例是用于说明本发明,而非限制本发明。
实施例1、副流感病毒3型引物设计
本发明方法的基本流程如图1所示。
从NCBI数据库下载人副流感病毒3型相关序列共计2318条。
采用本发明方法对该数据集进行引物设计,具体包括以下步骤:
(a)人副流感病毒3型参考序列NC_001796长度为15462bp,过滤序列长度小于15462/2bp的序列,剩余511条为分析序列。以NC_001796为模板,使用minimap2软件对模板序列构建索引,再将剩余分析序列比对到模板序列。根据比对结果统计序列比对到参考基因组各位置碱基比对频数、插入/缺失频数、碱基比例等基本数据;
表1、部分参选基因组各位置碱基比对情况统计数据:
注:Pos:参考基因组位置,REF:指定位置参考基因组碱基型,Dep:比对到的序列数,“+”:插入,“-”:缺失,A、C、G、T(%):四种碱基型的频数和总体比例,Max%:最高碱基占比;Top2%:top 2类碱基占比;ContinusPos(>0.8):单碱基占比超过80%连续位数,MajBase:最高碱基类型,ContinusPosTop2(>0.8):深度最高前两位碱基占比总和超过80%连续位数,Top2Base:深度最高前两位碱基类型。
(b)根据统计数据以碱基占比阈值为80%构建带兼并碱基的参考序列,并从中筛选长度不小于24bp,兼并碱基个数不超过3且不连续存在的序列为引物备用片段,共计得到201条引物备用片段;
(c)在引物备用片段集内按如下规则进行初步引物搜索:引物备用片段长度不足48bp时,直接作为初步引物;当备用片段长度达到48bp时,备用片段均分为n份(n=备用片段长度/24取整)作为初步引物寡核苷酸链;
(d)计算初步引物寡核苷酸链基本信息(Tm、长度、CG%、引物自身任何位置和3'端附近出现互补形成二级结构/二聚体any_th、3'_th,发夹结构的解链温度hairpin等),并根据设定阈值对初步引物序列进行调整(具体调整方法为:以初步引物序列左端开始选取24bp序列计数基本信息,若满足标准则将其作为该初步引物片段的代表序列,不满足则通过调整序列长度或移动位置直至满足标准)或过滤;
表2、初步引物寡核苷酸链过滤标准:
项目 | 通过标准 |
Tm | 55≤Tm≤65 |
GC% | 35≤GC%≤65% |
any_th | <30 |
3'_th | <6 |
hairpin | <30 |
(e)设定扩增子长度L范围:70≤L≤200,在初步引物集中检索满足扩增子长度为L的所有两两组合,并对满足要求的前向F和后向R引物长度进行调整使其Tm值差异不高于5°。从输出结果中筛选适合的PCR引物;
表3、筛选引物序列及基本信息:
(f)对筛选出的引物在核酸序列数据库中进行模拟PCR,检测引物特异性,表4各引物匹配情况:
表4
*Other:代表其他非目标物种匹配情况,包括Bovine respirovirus 3和质粒序列,Bovine respirovirus 3与前向F引物和后向R引物都存在3个以上错配碱基;
由表4结果可见本申请所提出的筛选引物模板、设计引物方法可行,模拟PCR结果显示设计的引物有很好的特异性。
实施例2、腺病毒引物设计
腺病毒是双链DNA病毒,呼吸道感染常见病原体之一,其感染可引起多种疾病。自发现并成功分离以来,已陆续发现了100余个血清型,其中人腺病毒有88种,分为A、B、C、D、E、F、G 7个亚群。本实施例以腺病毒为例,基于突变分析构建简并参考序列设计引物,其步骤包括:
(a)从NCBI官网上下载Human mastadenovirus A、B、C、D、E、F、G所有核酸序列共计14170条。下载序列中最长全基因组序列长度为37885bp,以其为参考序列,过滤长度小于37885/2bp的序列,剩余1530条分析序列。以参考序列为模板,将其它序列与其进行比对分析,根据比对结果统计序列比对道参考基因组各位置碱基比对频数、频数、插入/缺失频数、碱基比例等基本数据;
(b)根据统计数据以碱基占比阈值为80%构建带兼并碱基的参考序列,并从中筛选长度不小于24bp,兼并碱基个数不超过3且不连续存在的序列为引物备用片段,共计得到120条引物备用片段;
(c)引物备用片段集内按如下规则进行初步引物搜索:引物备用片段长度不足48bp时,直接作为初步引物;当备用片段长度达到48bp时,备用片段均分为n份(n=备用片段长度/24取整)作为初步引物寡核苷酸链;
(d)将计算初步引物寡核苷酸链基本信息(Tm、长度、CG%、引物自身任何位置和3'端附近出现互补形成二级结构/二聚体any_th、3'_th,发夹结构的解链温度hairpin等),并根据设定阈值调整或过滤;
(e)设定扩增子长度L范围:70≤L≤200,在初步引物集中检索满足扩增子长度为L的所有两两组合,并对满足要求的前向F和后向R引物长度进行调整使其Tm值差异不高于5°。将满足条件的引物对在核酸序列数据库中进行模拟PCR,过滤存在非特异扩增的引物对,从输出结果中筛选适合的PCR引物;
表5、筛选引物序列及基本信息:
(f)对筛选出的引物在核酸序列数据库中进行模拟PCR,检测引物特异性,表6各引物扩增情况:
表6、筛选引物序列模拟PCR结果统计:
以腺病毒为例,若采用多序列比对方法搜索公共序列,1530条序列仅多序列比对步骤耗时超3.5个小时,且比对后总序列长度达7万bp,很难从中搜索共有区段。而本专利所述方法相同配置条件下突变分析及重构参考序列耗时不足10分钟。由此可以看出,本发明的方法在时间上具有显著优势。
Claims (10)
1.一种设计引物的方法,其特征在于,所述方法包括:
S1、获取目标物种序列数据,构建序列数据集;
S2、过滤短序列及序列比对,包括:设定参考序列长度百分比K为预设值,当序列长度百分比小于预设值时,过滤;
其中,K的取值范围为50~80;将过滤后保留的长序列以参考序列作为模板进行定位比对,统计序列各位置碱基信息;
S3、根据所述碱基信息,重新构建兼并碱基的参考序列,其包括:
当目标位置的碱基频率百分比不小于预设值M,所述碱基为重构序列对应位置的碱基,其中,M的取值范围为60~90;
当目标位置的碱基没有单个碱基满足预设值M,则计算深度最高的两个碱基总频率百分比是否不小于预设值M,若不小于,则所述两个碱基对应的兼并碱基为重构序列对应位置的碱基;
若都不满足,则所述位置为“N”碱基;
S4、对所述S3所构建的参考序列进行引物模板筛选、设计引物,筛选条件为:
a、片段长度不小于17bp;
b、片段内不含“N”碱基;
c、片段连续17bp长度内兼并碱基个数不大于3,且不连续;
满足所述筛选条件的片段作为被用作引物设计模板序列,构建引物设计模板序列集。
2.根据权利要求1所述的方法,其特征在于,所述目标物种序列数据包括参考序列和目标物种其它基因组核酸序列数据。
3.根据权利要求1所述的方法,其特征在于,所述碱基信息包括各位置碱基比对频数、插入频数、缺失频数,和/或碱基比例。
4.根据权利要求1所述的方法,其特征在于,所述预设值M为80。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:引物设计模板序列集内进行初步引物搜索获取引物片段,搜索条件包括:
引物设计模板序列的片段长度为17bp~47bp时,直接作为初步引物;
引物设计模板序列的片段长度为48bp~70bp时,将其分为n份作为初步引物,其中,n=引物设计模板序列的片段长度/24向下取整;
引物设计模板序列的片段长度大于70bp时,采用常用引物设计软件获取引物、探针。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:根据扩增子长度的范围,在确定合适作为引物的片段中检索满足扩增子长度的两两组合引物对,进行模拟PCR。
7.一种设备,其特征在于,所述设备包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1~6中任一项所述的设计引物的方法。
8.根据权利要求7所述的设备,其特征在于,所述设备还包括至少一个输入设备和至少一个输出设备;在所述设备中,所述处理器、存储器、输入设备、输出设备之间通过总线连接。
9.一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以根据权利要求1~6中任一项所述的设计引物的方法。
10.一种装置,其特征在于,所述装置包括:
过滤模块,用于过滤短序列及序列比对;
重构模块,用于重新构建兼并碱基的参考序列;
筛选模块,用于筛选重构模块构建的参考序列、设计引物;
所述过滤短序列进一步包括:设定参考序列长度百分比K为预设值,当序列长度百分比小于预设值时,过滤;其中,K的取值范围为50~80;将过滤后保留的长序列以参考序列作为模板进行定位比对,统计序列各位置碱基信息;
所述重新构建兼并碱基的参考序列进一步包括:
当目标位置的碱基频率百分比不小于预设值M,所述碱基为重构序列对应位置的碱基,其中,M的取值范围为60~90;
当目标位置的碱基没有单个碱基满足预设值M,则计算深度最高的两个碱基总频率百分比是否不小于预设值M,若不小于,则所述两个碱基对应的兼并碱基为重构序列对应位置的碱基;
若都不满足,则所述位置为“N”碱基;
所述筛选重构模块构建的参考序列进一步包括:满足下述筛选条件的片段作为被用作引物设计模板序列,构建引物设计模板序列集:
a、片段长度不小于17bp;
b、片段内不含“N”碱基;
c、片段连续17bp长度内兼并碱基个数不大于3,且不连续。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210828434.5A CN114999572B (zh) | 2022-07-13 | 2022-07-13 | 一种设计引物的方法、设备、可读介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210828434.5A CN114999572B (zh) | 2022-07-13 | 2022-07-13 | 一种设计引物的方法、设备、可读介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114999572A CN114999572A (zh) | 2022-09-02 |
CN114999572B true CN114999572B (zh) | 2024-07-26 |
Family
ID=83021474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210828434.5A Active CN114999572B (zh) | 2022-07-13 | 2022-07-13 | 一种设计引物的方法、设备、可读介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114999572B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116347B (zh) * | 2023-10-25 | 2024-01-26 | 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) | 多序列保守区间的探测方法、简并引物的设计方法、相关装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200143026A (ko) * | 2019-06-14 | 2020-12-23 | 한국생명공학연구원 | 뚜렛증후군의 원인 유전자를 동정하는 방법 |
WO2022113835A1 (ja) * | 2020-11-26 | 2022-06-02 | 富士フイルム株式会社 | アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102206704B (zh) * | 2011-03-02 | 2013-11-20 | 深圳华大基因科技服务有限公司 | 组装基因组序列的方法和装置 |
CN112634990B (zh) * | 2020-12-21 | 2021-10-12 | 广州市金域转化医学研究院有限公司 | 一种pcr引物设计模板筛选的方法及应用 |
-
2022
- 2022-07-13 CN CN202210828434.5A patent/CN114999572B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200143026A (ko) * | 2019-06-14 | 2020-12-23 | 한국생명공학연구원 | 뚜렛증후군의 원인 유전자를 동정하는 방법 |
WO2022113835A1 (ja) * | 2020-11-26 | 2022-06-02 | 富士フイルム株式会社 | アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN114999572A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110997937B (zh) | 具有可变长度非随机独特分子标识符的通用短衔接子 | |
CN110313034B (zh) | 对核酸分子进行测序的方法、机器可读介质和计算机系统 | |
EP2893040B1 (en) | Methods to detect rare mutations and copy number variation | |
EP3882362B1 (en) | Methods for sequencing of cell free polynucleotides | |
EP3378001B1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN114999572B (zh) | 一种设计引物的方法、设备、可读介质及装置 | |
Yusuf et al. | Bcheck: a wrapper tool for detecting RNase P RNA genes | |
US20220310203A1 (en) | Methods and compositions for improved multiplex genotyping and sequencing | |
WO2024193471A1 (zh) | 一种多重混样直接rna纳米孔测序方法及系统 | |
CN115240770A (zh) | 一种检测短串联重复扩张和基因分型的方法、电子设备及存储介质 | |
US20240141425A1 (en) | Correcting for deamination-induced sequence errors | |
CN111326210A (zh) | 一种基于k-mer算法的引物设计方法及系统 | |
Liu et al. | Prediction and analysis of prokaryotic promoters based on sequence features | |
CN115101126A (zh) | 基于ce平台的呼吸道病毒和/或细菌亚型引物设计方法及系统 | |
CN110875084B (zh) | 一种核酸序列比对的方法 | |
US20240336954A1 (en) | Automated design of primer sets for nucleic acid amplification | |
CN118762752A (zh) | 一种靶向病原微生物测序引物的设计方法和系统 | |
Wang et al. | CRISPR/Cas9-based depletion of 16S ribosomal RNA improves library complexity of single-cell RNA-sequencing | |
Lin et al. | A DATABASE TO AID PROBE DESIGN FOR VIRUS IDENTIFICATION | |
Seeja et al. | An association rule mining Approach for co-regulated Signature genes identification in cancer | |
CN118866126A (zh) | 一种基于泛基因组图对宏基因组数据进行菌株水平分类的方法 | |
JORNG-TZONG HORNG | FENG-MAO LIN', HSIEN-DA HUANG”, YU-CHUNG CHANG", PAK-LEONG CHAN' | |
Liu et al. | A software system for gene sequence database construction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |