CN111477276B - 微生物的种特异共有序列的获得方法、装置及应用 - Google Patents

微生物的种特异共有序列的获得方法、装置及应用 Download PDF

Info

Publication number
CN111477276B
CN111477276B CN202010254696.6A CN202010254696A CN111477276B CN 111477276 B CN111477276 B CN 111477276B CN 202010254696 A CN202010254696 A CN 202010254696A CN 111477276 B CN111477276 B CN 111477276B
Authority
CN
China
Prior art keywords
candidate
sequence
species
consensus sequence
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010254696.6A
Other languages
English (en)
Other versions
CN111477276A (zh
Inventor
嵇匆
邵俊斌
刘燕
齐霞
金宇丹
李启腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai ZJ Bio Tech Co Ltd
Original Assignee
Shanghai ZJ Bio Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai ZJ Bio Tech Co Ltd filed Critical Shanghai ZJ Bio Tech Co Ltd
Priority to CN202010254696.6A priority Critical patent/CN111477276B/zh
Priority to US17/916,247 priority patent/US20230154565A1/en
Priority to EP20928069.2A priority patent/EP4116982A4/en
Priority to PCT/CN2020/090177 priority patent/WO2021196357A1/zh
Priority to AU2020439910A priority patent/AU2020439910A1/en
Priority to JP2022560033A priority patent/JP7333482B2/ja
Publication of CN111477276A publication Critical patent/CN111477276A/zh
Application granted granted Critical
Publication of CN111477276B publication Critical patent/CN111477276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本发明的提供一种微生物的种特异共有序列的获得方法,至少包括以下步骤:S100,寻找候选共有序列:基于聚类算法对属于同一菌种的各个目标菌株的特异性序列进行聚类,获得多个候选种特异共有序列;S200,验证和获得初次筛选种特异共有序列:判断候选种特异共有序列是否满足以下条件:1)株种覆盖度满足预设值;2)有效拷贝数满足预设值;若候选种特异共有序列满足以上所有条件,则为种特异共有序列。本发明的方法灵敏度高;可在组装不完整的基序中寻找重复序列;获得的种特异性共有序列精确,可识别到亚种水平;识别的共有序列保守性强,以最少的共有序列尽可能达到株种覆盖度的最大值;所有的逻辑模块都带有多重验证,准确性高。

Description

微生物的种特异共有序列的获得方法、装置及应用
技术领域
本发明涉及生物信息学领域,特别是涉及一种微生物的种特异共有序列的获得方法、装置及应用。
背景技术
由于生物样本中病原微生物的DNA浓度大多非常低,接近检测极限。而使用传统PCR或者实时PCR检测时常常缺乏检测灵敏度。其他方法如两步巢式PCR可以被用来提高灵敏度,但是方法耗时、成本高、准确性不好。因此,提高检测灵敏度至关重要。其中一种方式是在设计引物时寻找合适的模板区域,通常情况下会选用质粒和16S rRNA。
但是,选用质粒做引物设计会产生一些问题:不是所有微生物都含有物种特异性质粒,并且有些微生物没有质粒。首先,质粒DNA的物种特异性不确定,有些物种质粒上的序列和其他物种质粒上的序列高度相似,那么基于质粒的PCR检测会产生假阳性或假阴性结果的高风险,许多临床实验室仍然需要使用其他PCR引物对来进行验证性实验。其次,质粒不具有普遍性,有些物种本身并没有质粒,那么就不能使用质粒来检测该物种,更不能通过在质粒上设计引物来提高检测灵敏度。例如,有研究报道,大约有5%的淋病奈瑟氏菌菌株因为没有质粒而无法检测到。
同样地,选用rRNA基因区域作为检测PCR的模板也存在一些问题:rRNA基因虽然存在于所有微生物物种基因组中,并且常常有多个拷贝能够提高检测灵敏度。但事实上,并不是所有rRNA基因都是特异性。例如,在结核分支杆菌H37Rv中rRNA基因只有1个拷贝。另外,有一些rRNA基因序列的变化并不适合做检测。例如,在亲缘性很近的物种之间甚至是相同物种不同亚型的菌株之间,rRNA基因由于序列太保守而无法满足物种特异性甚至是亚种特异性的要求。
另一方面,如果遇到序列未知的微生物引起疫情的爆发,病原微生物数据库会不断更新数据,有可能导致原有的探针引物设计不能覆盖到疫情病原微生物中,从而影响核酸检测试剂的质量。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种微生物的种特异共有序列的获得方法、装置及应用。
本发明第一方面提供一种微生物的种特异共有序列的获得方法,所述方法至少包括以下步骤:
S100,寻找候选共有序列:基于聚类算法对属于同一菌种的各个目标菌株的特异性序列进行聚类,获得多个候选种特异共有序列;
S200,验证和获得初次筛选种特异共有序列:
判断候选种特异共有序列是否满足以下条件:
3)株种覆盖度满足预设值;
4)有效拷贝数满足预设值;
若候选种特异共有序列满足以上所有条件,则为种特异共有序列;
其中,
株种覆盖度=(出现该候选种特异共有序列的目标菌株数量/目标菌株的总数量)*100%;
所述有效拷贝数采用公式(I)进行计算:
Figure GDA0002723245470000021
其中,
N为候选种特异共有序列拷贝数梯度的总数;
Ci为第i个候选种特异共有序列对应的拷贝数;
Si为出现第i个候选种特异共有序列的菌株数量;
Sall为目标菌株总数量。
本发明第二方面提供一种微生物的种特异共有序列的获得装置,所述装置至少包括以下模块:
候选共有序列寻找模块,用于基于聚类算法对属于同一菌种的各个目标菌株的特异性序列进行聚类,获得多个候选种特异共有序列;
初次筛选种特异共有序列验证和获得模块,用于判断候选种特异共有序列是否满足以下条件:
1)株种覆盖度满足预设值;
2)有效拷贝数满足预设值;
若候选种特异共有序列满足以上所有条件,则为种特异共有序列;
其中,
株种覆盖度=(出现该候选种特异共有序列的目标菌株数量/目标菌株的总数量)*100%;
所述有效拷贝数采用公式(I)进行计算:
Figure GDA0002723245470000031
其中,
N为候选种特异共有序列拷贝数梯度的总数;
Ci为第i个候选种特异共有序列对应的拷贝数;
Si为出现第i个候选种特异共有序列的菌株数量;
Sall为目标菌株总数量。
本发明第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述微生物的种特异共有序列的获得方法。
本发明第四方面提供一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述微生物的种特异共有序列的获得方法的步骤。
本发明第五方面提供一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行前述的微生物的种特异共有序列的获得方法。
本发明第六方面提供前述微生物的种特异共有序列的获得方法,前述微生物的种特异共有序列的获得装置,前述计算机可读存储介质,前述计算机处理设备或前述的电子终端,用于核苷酸扩增中模板序列的筛选。
本发明第七方面提供一种微生物菌种鉴定方法,包括:通过扩增的方法鉴定目标菌株中是否含有种特异共有序列,所述种特异共有序列采用述微生物的种特异共有序列的获得方法,前述微生物的种特异共有序列的获得装置,前述计算机可读存储介质,前述计算机处理设备或前述的电子终端获得。
如上所述,本发明的微生物的种特异共有序列的获得方法、装置及应用,具有以下有益效果:
本发明的方法灵敏度高,识别出未发现的多拷贝区域;可在组装不完整的基序中寻找重复序列;获得的种特异性共有序列精确,可识别到亚种水平;识别的共有序列保守性强,以最少的共有序列尽可能达到株种覆盖度的最大值;所有的逻辑模块都带有多重验证,准确性高。优先选择多拷贝和优先选择特异性,可以由用户根据不同检测对象选择合适的计算方案。系统化自动化检测生物样本中致病微生物的定量PCR引物和探针设计的检测装置,可以涵盖所有的致病微生物,包括细菌、病毒、真菌、变形虫、隐孢子虫、鞭毛虫、微孢子虫、梨形虫、疟原虫、弓形虫、毛滴虫、动质体等等。用户可以根据项目目的选择不同的配置参数,主要包括:工作流名称、目标菌种、对比菌种、上传本地fasta文件、目标片段长度、菌种特异性(与其他种相似性)、重复区域相似性、目标片段的菌株分布、过滤寄主序列、优先方案(优先选择多拷贝区域vs优先选择特异性区域)、计算目标菌株相似性和相似性报警阈值,及引物探针设计参数。
附图说明
图1是本发明实施例的方法的流程图。
图1-1是候选种特异共有序列的区域示意图。
图1-2本发明实施例特异性区域获得方法的序列展示示意图。
图1-3本比对序列的覆盖率与序列匹配率的计算结果图。
图1-4是本发明的特异性区域获得方法将第一轮切割片段Tn与其余对比菌株的全基因组序列进行分组迭代比对的方法示意图。
图1-5本发明实施例多拷贝区域获得方法的序列展示示意图。
图2是本发明实施例的装置示意图。
图3是本发明实施例中电子终端示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
此外应理解,本发明中提到的一个或多个方法步骤并不排斥在所述组合步骤前后还可以存在其他方法步骤或在这些明确提到的步骤之间还可以插入其他方法步骤,除非另有说明;还应理解,本发明中提到的一个或多个步骤之间的组合连接关系并不排斥在所述组合步骤前后还可以存在其他步骤或在这些明确提到的两个步骤之间还可以插入其他步骤,除非另有说明。而且,除非另有说明,各方法步骤的编号仅为鉴别各方法步骤的便利工具,而非为限制各方法步骤的排列次序或限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容的情况下,当亦视为本发明可实施的范畴。
请参阅图1至图3。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,虽图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本实施例的微生物的种特异共有序列的获得方法,包括如下步骤:
S100:寻找候选共有序列:基于聚类算法对属于同一菌种的各个目标菌株的特异性序列进行聚类,获得多个候选种特异共有序列;
S200:验证和获得初次筛选种特异共有序列:
判断候选种特异共有序列是否满足以下条件:
1)株种覆盖度满足预设值;
2)有效拷贝数满足预设值;
若候选种特异共有序列满足以上所有条件,则为种特异共有序列;
其中,株种覆盖度=(出现该候选种特异共有序列的目标菌株数量/目标菌株的总数量)*100%;
所述有效拷贝数采用公式(I)进行计算:
Figure GDA0002723245470000051
其中,
N为候选种特异共有序列拷贝数梯度的总数。N可以通过获得候选种特异共有序列在各个菌株中拷贝数后,统计拷贝数的梯度获得;
Ci为第i个候选种特异共有序列对应的拷贝数;
Si为出现第i个候选种特异共有序列的菌株数量;
Sall为目标菌株总数量。
株种覆盖度的预设值可以根据需要确定,预设值越高,筛选出的种特异共有序列覆盖的目标菌株数量越多,越具有代表性。株种覆盖度的预设值最优为100%。但若实际情况达不到,可依次递减,例如100%,99%,98%,97%,96%。
有效拷贝数的预设值可以根据需要确定。有效拷贝数的预设值推荐超过1,例如,2,3,4,10,20,等。
公式(I)的含义是指,对Ci(Si/Sall)进行求和,其中,i的范围为:从Cmin到Cmax,i的数量为n。Cmin为所有候选种特异共有序列的拷贝数最小值;Cmax为所有候选种特异共有序列的拷贝数最大值。
可以将各个候选种特异共有序列分别比对到所有目标菌株的全基因组上,统计候选种特异共有序列的株种覆盖度和有效拷贝数。
进一步地,通过将候选种特异共有序列重新比对回每个目标菌株的全基因组序列上,计算一条候选种特异共有序列在一个目标菌株全基因组上有多少个拷贝,以此类推,统计出该条候选种特异共有序列在所有目标菌株全基因组上的拷贝数,获得Sall个拷贝数值。将拷贝数值按从小到大排列,计算每个拷贝数值下对应多少覆盖菌株。
具体的,以图1-1为例,5个目标菌株均含有候选种特异共有序列的区域cluster43区域,株种覆盖度达到100%(5/5)。其拷贝数分布9(5)的意思是指有5个菌株的拷贝数为9,拷贝数的梯度为1。则,可知,n=1,Cmin和Cmax均为9,Si和Sall均为5;带入公式(I)可知,有效拷贝数=9*(1/1)=9。故该区域cluster43的有效拷贝数为9。
再如,图1-1中,5个目标菌株均含有候选种特异共有序列的区域cluster226区域,株种覆盖度达到100%(5/5)。其拷贝数分布7(1)|8(2)|9(2)的意思是指有1个菌株的拷贝数为7,有2个菌株的拷贝数为8,还有2个菌株的拷贝数为9,拷贝数具有3个梯度。可知,n=3,Cmin和Cmax分别为7和9,C1为7,C2为8,C3=9,S1=1,S2=2,S3=2,Sall=5;带入公式(I)可知,有效拷贝数=7*(1/5)+8*(2/5)+9*(2/5)=8.2。故该区域cluster226的有效拷贝数为8.2。
步骤S100中,进行聚类后,相似的特异性多拷贝序列形成一个集合,每一个集合对应一条共有序列。
聚类采用的聚类算法可以将所有的特异性序列进行聚类,根据序列相似性原理,选出不同分组中最能够代表该分组的序列来作为共有序列,该共有序列距离该分组中的所有序列距离最近。
所述特异性序列是指,同属于同一目标菌株的目标片段,所述目标片段所在区域是所述目标菌株的特异性区域。所述特异性区域可以是特异性单拷贝区域,也可以是特异性多拷贝区域,基于多拷贝区域扩增的可操作性更强,优选特异性多拷贝区域。一个目标菌株可以有多条特异性多拷贝序列。
所述特异性区域的获得方法包括如下步骤:
S110,将微生物目标片段与一个或多个对比菌株全基因组序列分别进行一对一比对,去除相似性超过预设值的片段,获得若干剩余片段,作为第一轮切割片段T1~Tn,其中,n为≥1的整数;
S120,将所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列比对,去除相似性超过预设值的片段,获得剩余切割片段的集合作为微生物目标片段的候选特异性区域;
S130,验证和获得特异性区域:判断候选特异性区域是否满足以下条件:
1)搜寻公共数据库,寻找是否存在与候选特异性区域相似性大于预设值的其他物种;
2)将候选特异性区域分别与各对比菌株的全基因组序列,以及微生物目标片段来源菌株的寄主的全基因组序列进行比对,寻找是否存在相似性大于预设值的片段;
若候选特异性区域均不满足以上条件,则为微生物目标片段的特异性区域。
所述方法能够区别所述微生物目标片段来源菌株与对比菌株是否为同一种或亚种。
上述步骤中,所述相似性是指微生物目标片段的覆盖率与匹配率的乘积。
覆盖率=(相似序列片段长度/(微生物目标片段末端值-微生物目标片段起始值+1))*100%匹配率即为微生物目标片段与对比菌株比对时的identity值。两序列比对的identity值可以利用needle、water或blat等软件获得。
相似序列的长度是指:两序列比对时,相匹配的片段在目标片段中所占的碱基数,即相匹配的片段长度。
相似性预设值可以根据需要确定,相似性预设值越高,去除的片段越少。相似性预设值推荐应超过95%,例如96%,97%,98%,99%,100%。
具体的序列表示如图1-2中所示,浅色碱基表示相似性超过预设值的序列片段。
微生物目标片段的覆盖率、匹配率可以利用needle、water或blat软件进行计算。
例如,计算结果如图1-3所示,序列A为微生物目标片段,序列B为对比菌株1,将序列A和B进行对比。
则A序列的覆盖率=(187/(187-1+1))*100%=100%
序列A和序列B的匹配率=98.4%。
则A和B的相似性=100%*98.4%=98.4%。
步骤S110中的微生物目标片段和对比菌株均来源于公共数据库,所述公共数据库选自主要是ncbi(https://www.ncbi.nlm.nih.gov)。
所述方法还包括以下步骤:S111,将选定的相邻微生物目标片段进行两两比对,若出现相似性低于预设值的比对结果,则发出警报并显示目标株种对应的筛选条件。可以过滤异常数据及人为错误导致的冗余数据。
步骤S110中的微生物目标片段可以是微生物的全基因组,也可以是微生物的基因片段。
步骤S120中,为了加快比对速度,在优选的实施方式中,将所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列分组迭代比对。
具体的,如图1-4所示,将第一轮切割片段Tn与其余对比菌株的全基因组序列进行分组迭代比对时包括下列步骤:
S121,将其余对比菌株分为P组,每组若干个对比菌株;
S122,将第一轮切割片段Tn同时与第1组中各对比菌株的全基因组序列进行一对一的比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的第一轮候选序列库;
S123,将第一轮切割片段Tn的上一轮候选序列库同时与下一组中各对比菌株的全基因组序列进行一对一的比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的下一轮候选序列库;从第一轮候选序列库开始重复步骤S122直至获得第P轮候选序列库作为第一轮切割片段Tn的候选特异性序列库;
所有第一轮切割片段的候选特异性序列库的集合即为候选特异性区域。
为了避免多线程阻塞,应根据运算环境的硬件配置设置对比菌株分组中所含对比菌株的数量。该数量可以为根据运行环境总配置设置的线程数。一般可以为1~50。具体可以为1~4,4~8,8-10,10~20,20~50。优选为4线程。在图1-2所示的实施方式中为8。
例如,如图1-4所示,目标序列包含2541条微生物目标片段,对比菌株588条,m=8,首先将微生物目标片段1与588条对比菌株中的序列1~8同时进行比较,进行第一轮的切割以去除匹配序列,综合汇总后获得第一轮的特异性序列库;再将该库与588条对比菌株中的序列9~16同时进行比较,进行第二轮的切割以去除匹配序列,综合汇总后获得第二轮的特异性序列库;再将该库与588条对比菌株中的序列17~24同时进行比较,进行第三轮的切割以去除匹配序列,综合汇总后获得第三轮的特异性序列库;……,依次进行,直到将第七十三轮的特异性序列库与588条对比菌株中的序列585~588同时进行比较,进行第七十四轮的切割以去除匹配序列,综合汇总后获得第七十四轮的特异性序列库,也即目标片段1的特异性序列库。
其次,再将目标序列中的微生物目标片段2与588条对比菌株中的序列1~8同时进行比较,进行第一轮的切割以去除匹配序列,综合汇总后获得第一轮的特异性序列库;再将该库与588条对比菌株中的序列9~16同时进行比较,进行第二轮的切割以去除匹配序列,综合汇总后获得第二轮的特异性序列库;再将该库与588条对比菌株中的序列17~24同时进行比较,进行第三轮的切割以去除匹配序列,综合汇总后获得第三轮的特异性序列库;……,依次进行,直到将第七十三轮的特异性序列库与588条对比菌株中的序列585~588同时进行比较,进行第七十四轮的切割以去除匹配序列,综合汇总后获得第七十四轮的特异性序列库,也即目标片段2的特异性序列库。
依次进行,直到目标序列中的微生物目标片段2541与588条对比菌株均对比完成,获得的切割片段为微生物目标片段的候选特异性区域。
在优选的实施方式中,步骤S120后还包括:
执行步骤S110与S120获得目标序列中各微生物目标片段的候选特异性区域,将各微生物目标片段的候选特异性区域的集合作为目标序列的候选特异性区域。
目标序列可以包括多个目标片段。多个目标片段可以是经由其他筛选步骤从微生物的基因组中筛选获得的片段,例如为特定微生物的多拷贝片段。
步骤S130中,所述公共数据库选自主要是ncbi(https://www.ncbi.nlm.nih.gov)。搜寻公共数据库的算法可以为blast算法。
进一步地,在进行步骤S110、S120和S130之前,根据运算环境的硬件配置设置切割大小,对待运算的数据进行单位切割。具体的,在步骤S110中,待运算的数据为目标片段;在步骤S120中,待运算的数据为每次迭代去除匹配序列后的本轮特异性序列库;在步骤S130中,待运算的数据为候选特异性区域。
单位切割后的单位数量*单位文件运行所需配置不能超出运行环境的总配置。
单位切割是指由所需切割序列的总数除以线程数m记为单位切割后的单位数量;多线程运行环境下每个线程运行同样数量的计算任务,以保证在最优性能条件下实现高效运算。
多拷贝区域的获得方法包括如下步骤:
S140:寻找候选多拷贝区域:对微生物目标片段进行内部比对,寻找相似性满足预设值的待测序列对应的区域作为候选多拷贝区域,所述相似性是指待测序列的覆盖率与匹配率的乘积;
S150:验证获得多拷贝区域:获得候选多拷贝区域拷贝数的中值;若候选多拷贝区域拷贝数的中值大于1,则记为多拷贝区域。
所述相似性的预设值可以根据需要进行调整。相似性预设值推荐应超过80%,例如85%,90%,95%,96%,97%,98%,99%,或100%。
覆盖率=(相似序列的长度/(待测序列末端值-待测序列起始值+1))*100%
匹配率即为待测序列与另一序列比对时的identity值。两序列比对的identity值可以利用needle、water或blat等软件获得。
相似序列的长度是指:待测序列与另一序列比对时,相匹配的片段在待测序列中所占的碱基数,即相匹配的片段长度。
例如,一候选多拷贝区域对应的待测序列的数据情况如图1-5所示,其中,
序列A为待测序列,将序列A和B进行对比,两者相匹配的片段长度为187,A序列的起始值(即起始位置)为1,末端值(即结束位置)为187,则:
A序列的覆盖率=(187/(187-1+1))*100%=100%
序列A和序列B的匹配率对应identity为98.4%。
则A和B的相似性=100%*98.4%=98.4%。相似性预设值为80%,A和B的相似性满足预设值,因此作为候选多拷贝区域。
两个进行对比的序列之间的各个碱基的位置不发生交叉(即两比对序列在微生物目标片段中是完全分离的,没有重合部分)。可以在比对前去除有区域重叠的比对序列对,也可以在比对后,去除有区域重叠的比对序列对获得的相似性值。例如,如图1-3所示,所述序列A位置1-187,则序列B中各个碱基的位置不会出现在1-187之间。可以在计算完覆盖率和匹配率后,利用uniq函数进行去重。
步骤S150中,候选多拷贝区域拷贝数的中值的获得方法为:确定各候选多拷贝区域在微生物目标片段上的位置,获得待验证候选多拷贝区域的每个碱基位置上覆盖的其他候选多拷贝区域的个数,计算该待验证候选多拷贝区域的拷贝数的中值。所述其他候选多拷贝区域是指除了待验证候选多拷贝区域以外的候选多拷贝区域。
具体的,例如,如图1-5所示,第一行代表微生物目标片段序列,在微生物目标片段序列中,框线内的片段为待验证的候选多拷贝区域,第二行的数字为待验证的候选多拷贝区域中,各碱基对应的多拷贝数,图中灰色片段代表待验证的候选多拷贝区域以外的候选多拷贝区域(之后简称为重复片段)。从左边开始,框线中第一行的第一个碱基A,由于该碱基对应在5个重复片段中出现(即被5个重复片段覆盖),因此认为,与其位置对应的重复片段的数量为5,则该位置的多拷贝数为5;如图中框线中最后一个碱基G,与其位置对应的重复片段的数量为4,则该位置的多拷贝数为4。以此类推,统计待验证的候选多拷贝区域的每个碱基位置上覆盖的重复片段的个数。统计结果图中参见第二行的多拷贝数,结合各个位置的拷贝数的数值,即可计算获得候选多拷贝区域拷贝数的中值。中值是指:是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值。
所述重复片段是指待验证的候选多拷贝区域以外的候选多拷贝区域,各个重复片段的位置与该重复片段在全基因组的原位置对应。
进一步的,步骤S140中,微生物目标片段可以为一条链,也可以为不完整的多条基序。
当微生物目标片段为不完整的多条基序时,将各基序连接起来再寻找候选多拷贝区域。基序连接的顺序没有特别限定,可以按照任意的顺序连接。例如,将各基序按随机顺序连接成一条链。相似满足预设值的区域中若包含不同基序,则将该区域按照原来的基序连接点进行切割,分成两个区域,分别判断两个区域是否是候选多拷贝区域。
各个基序连接方式随机。
微生物目标片段为不完整的多条基序指的部分微生物目标片段序列不是连续的单条序列,而是由多个不同大小的基序组成。基序是现有二代测序条件下短读长拼接不完整导致的。
本发明所述方法不受限于是否存在全基因组序列,可以通过提供目标菌株和对比菌株的名称或者本地上传序列文件来提交运算任务。从检测范围上比较,本方法可以涵盖所有的致病微生物,包括但不限于细菌、病毒、真菌、变形虫、隐孢子虫、鞭毛虫、微孢子虫、梨形虫、疟原虫、弓形虫、毛滴虫、动质体等。
在优选的实施方式中,在步骤S150中,还可计算候选多拷贝区域拷贝数的95%置信区间。置信区间是指由样本统计量所构造的总体参数的估计区间,即对这个目标区域的整体拷贝数的区间估计。它体现了该目标区域拷贝数的真实值有一定概率落在测量结果周围的程度,其给出的是被测量参数的测量值的可信程度。
在计算候选多拷贝区域拷贝数的95%置信区间时,以候选多拷贝区域的碱基数为样本数,候选多拷贝区域中各碱基对应的拷贝数值为样本值计算。
如图1-5所示,在这个长度为500bp的多拷贝目标区域中,每个碱基对应1个拷贝数值,那么这是一组共计500个的拷贝数值。
除了上文提到的拷贝数中值外,本发明使用这500个拷贝数值的95%置信区间来衡量在显著性水平为0.05时,置信度为95%的情况下,该多拷贝目标区域整体拷贝数的区间估计。在置信水平相同时,样本量越多,置信区间越窄,越接近均值。
所述微生物目标片段可以是微生物的全基因组,也可以是微生物的基因片段。
多拷贝区域的获得机理为:正常情况下,代表这500个拷贝数值的中值和95%置信区间可以反映出该候选多拷贝区域的真实情况。本模块的设计除了进一步验证多拷贝以外,也可以排除一些特殊情况。例如,这500bp的候选多拷贝区域中仅有5个碱基的拷贝数为1000,而剩余495个碱基的拷贝数为1。那么这种情况下的拷贝数中值为1,均值却为10.99,95%置信区间为(2.25-19.73)。很显然,虽然均值显示为多拷贝,但是中值已经不在这95%置信区间范围内,候选多拷贝区域不可判为多拷贝。
在进一步优选的技术方案中,还包括如下步骤:
S300:针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列。
在一种实施方式中,还包括以下步骤:
S400:若步骤S200中候选共有序列的株种覆盖度均未达到预设值,则将候选共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,采用步骤S200验证和获得初次筛选种特异共有序列。
在另一种实施方式中,还包括以下步骤:
S500:若步骤S300中所述候选探针引物的菌株覆盖度均未达到预设值,则将初次筛选种特异共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,采用步骤S200验证和获得初次筛选种特异共有序列。
在步骤S400和S500中,可以将共有序列数目由低到高进行组合,来进行选择。
具体的,先进入两两共有序列组合,虽然没有一条共有序列可以覆盖所有菌株,但是可以寻找两条共有序列,它们分别覆盖的株种覆盖度之和大于等于株种覆盖度的预设值。若有这样的两条共有序列,则将其记入结果中;若没有,则进入三三共有序列组合。即虽然没有一条、两条共有序列可以满足株种覆盖度的预设值,但是可以寻找三条共有序列,它们分别覆盖的株种覆盖度之和大于等于株种覆盖度的预设值。若有这样的三条共有序列,则将其记入结果中;若没有,则进入四四共有序列组合。以此类推,进入无限循环组合设计中,直至找到共有序列组合后可以满足总的株种覆盖度的预设值为止,记入结果中。
为了保证生物标志物数据库的持续更新,一方面通过重新提交运算任务来实现最新数据的重新计算。另一方面,也可以通过序列更新覆盖度模块来检验已有的生物标志物在更新的序列数据集中的覆盖度。当所述目标菌株的数量进行更新时,将原有的候选探针引物比对到更新的目标菌株全基因组上,计算覆盖度,验证原有的候选探针引物是否可以覆盖更新的目标菌株。
本发明所述方法筛选出的种特异共有序列可以同时满足特异性,灵敏度和保守性等多个条件。
如图2所示,本发明一实施例的微生物的种特异共有序列的获得装置,至少包括以下模块:
候选共有序列寻找模块,用于基于聚类算法对属于同一菌种的各个目标菌株的特异性序列进行聚类,获得多个候选种特异共有序列;
初次筛选种特异共有序列验证和获得模块,用于判断候选种特异共有序列是否满足以下条件:
1)株种覆盖度满足预设值;
2)有效拷贝数满足预设值;
若候选种特异共有序列满足以上所有条件,则为种特异共有序列;
其中,
株种覆盖度=(出现该候选种特异共有序列的目标菌株数量/目标菌株的总数量)*100%;
所述有效拷贝数采用公式(I)进行计算:
Figure GDA0002723245470000131
其中,
N为候选种特异共有序列拷贝数梯度的总数;
Ci为第i个候选种特异共有序列对应的拷贝数;
Si为出现第i个候选种特异共有序列的菌株数量;
Sall为目标菌株总数量。
所述特异性序列是指,同属于同一目标菌株的目标片段,所述目标片段所在区域是所述目标菌株的特异性区域。
所述特异性区域为特异性多拷贝区域。
所述装置还包括以下模块,用于获得特异性区域:
第一轮切割片段获得模块,用于将微生物目标片段与一个或多个对比菌株全基因组序列分别进行一对一比对,去除相似性超过预设值的片段,获得若干剩余片段,作为第一轮切割片段T1~Tn,其中,n为≥1的整数;
候选特异性区域获得模块,用于将所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列比对,去除相似性超过预设值的片段,获得剩余切割片段的集合作为微生物目标片段的候选特异性区域;
特异性区域验证和获得模块,用于判断候选特异性区域是否满足以下条件:
1)搜寻公共数据库,寻找是否存在与候选特异性区域相似性大于预设值的其他物种;
2)将候选特异性区域分别与各对比菌株的全基因组序列,以及微生物目标片段来源菌株的寄主的全基因组序列进行比对,寻找是否存在相似性大于预设值的片段;
若候选特异性区域均不满足以上条件,则为微生物目标片段的特异性区域。
所述装置能够区别所述微生物目标片段来源菌株与对比菌株是否为同一种或亚种。
所述相似性是指微生物目标片段的覆盖率与匹配率的乘积,所述覆盖率=(相似序列片段长度/(微生物目标片段末端值-微生物目标片段起始值+1))*100%。
所述相似性预设值超过80%。
两个进行对比的序列之间的各个碱基的位置不发生交叉。
可选的,第一轮切割片段获得模块还包括以下子模块,原始数据相似性比较子模块,用于将选定的相邻微生物目标片段进行两两比对,若出现相似性低于预设值的比对结果,则发出警报并显示目标株种对应的筛选条件。
所述候选特异性区域获得模块中,所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列分组迭代比对。
可选的,将第一轮切割片段Tn与其余对比菌株的全基因组序列进行分组迭代比对时,所述候选特异性区域获得模块包括下列子模块:
对比菌株分组子模块,用于将其余对比菌株分为P组,每组若干个对比菌株;
第一轮候选序列库获得子模块,用于将第一轮切割片段Tn同时与第1组中各对比菌株的全基因组序列进行两两比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的第一轮候选序列库;
候选特异性区域获得子模块,用于将第一轮切割片段Tn的上一轮候选序列库同时与下一组中各对比菌株的全基因组序列进行一对一的比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的下一轮候选序列库;从第一轮候选序列库开始重复候选特异性区域获得子模块直至获得第P轮候选序列库作为第一轮切割片段Tn的候选特异性序列库;
所有第一轮切割片段的候选特异性序列库的集合即为候选特异性区域。
进一步的,所述装置还包括以下模块,用于获得多拷贝区域:
候选多拷贝区域寻找模块,用于对微生物目标片段进行内部比对,寻找相似性满足预设值的待测序列对应的区域作为候选多拷贝区域,所述相似性是指待测序列的覆盖率与匹配率的乘积;
多拷贝区域验证获得模块,用于获得候选多拷贝区域拷贝数的中值;若候选多拷贝区域拷贝数的中值大于1,则记为多拷贝区域。
覆盖率=(相似序列的长度/(待测序列末端值-待测序列起始值+1))*100%。
当微生物目标片段为不完整的多条基序时,将各基序连接起来再寻找候选多拷贝区域。
所述多拷贝区域验证获得模块中还包括候选多拷贝区域拷贝数的中值的获得子模块,用于确定各候选多拷贝区域在微生物目标片段上的位置,获得待验证候选多拷贝区域的每个碱基位置上覆盖的其他候选多拷贝区域的个数,计算该待验证候选多拷贝区域的拷贝数的中值。
在一种实施方式中,所述装置还包括:最终的种特异共有序列筛选模块,用于针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列。
在一种实施方式中,所述装置还包括:第一共有序列组合筛选模块,用于当初次筛选种特异共有序列验证和获得模块中,候选共有序列的株种覆盖度均未达到预设值时,将候选共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,利用初次筛选种特异共有序列验证和获得模块,验证和获得初次筛选种特异共有序列。
在一种实施方式中,所述装置还包括:第二共有序列组合筛选模块,若最终的种特异共有序列筛选模块中,所述候选探针引物的菌株覆盖度均未达到预设值,则将初次筛选种特异共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,利用初次筛选种特异共有序列验证和获得模块,验证和获得初次筛选种特异共有序列。
第一共有序列组合筛选模块和第二共有序列组合筛选模块中,将共有序列数目由低到高进行组合,来进行选择。
在一种实施方式中,所述装置还包括:序列更新覆盖度模块,用于当所述目标菌株的数量进行更新时,将原有的候选探针引物比对到更新的目标菌株全基因组上,计算覆盖度,验证原有的候选探针引物是否可以覆盖更新的目标菌株。
用户通过界面提交最新的序列数据集,所述序列更新覆盖度模块可以将其重新整合进数据库,将原有的探针引物序列重新比对回更新序列中计算覆盖度;其结果可以反映原有的探针引物序列是否可以覆盖更新的菌株。
可选的,多拷贝区域验证获得模块还用于计算候选多拷贝区域拷贝数的95%置信区间。优选的,在计算候选多拷贝区域拷贝数的95%置信区间时,以候选多拷贝区域的碱基数为样本数,候选多拷贝区域中各碱基对应的拷贝数值为样本值计算。
由于本实施例中的装置与前述方法实施例的原理基本相同,在上述方法和装置实施例中,对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用,不再重复赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在某一个芯片中实现,此外,也可以以程序代码的形式存储于存储器中,由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA,或图形处理器(GraphicsProcessing Unit,简称:GPU))等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
在本发明的一些实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述微生物目标片段中特异性区域的识别方法。
在本发明的一些实施例中,还提供了一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述微生物目标片段中特异性区域的识别方法的步骤。
在本发明的一些实施例中,还提供了一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行实现前述微生物目标片段中特异性区域的识别方法。
如图3所示,展示本发明提供的一种电子终端的示意图。所述电子终端包括处理器31、存储器32、通信器33、通信接口34和系统总线35;存储器32和通信接口34通过系统总线35与处理器31和通信器33连接并完成相互间的通信,存储器32用于存储计算机程序,通信器34、通信接口34用于和其他设备进行通信,处理器31和通信器33用于运行计算机程序,使电子终端执行如上图像分析方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或图形处理器(Graphics Processing Unit,简称:GPU)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。
前述的微生物的种特异共有序列的获得方法、前述的微生物的种特异共有序列的获得装置、计算机可读存储介质、计算机处理设备或电子终端可用于核苷酸扩增中模板序列的筛选的用途。
筛选以种特异共有序列为模板序列。所述的种特异共有序列可以是步骤S200或初次筛选种特异共有序列验证和获得模块获得的初次筛选种特异共有序列,也可以是步骤S300或最终的种特异共有序列筛选模块获得的最终的种特异共有序列。
本发明一实施例提供一种微生物菌种鉴定方法,包括:通过扩增的方法鉴定目标菌株中是否含有采用前述方法获得的种特异共有序列。
所述方法能够区别所述微生物目标片段来源菌株与对比菌株是否为同一种或亚种。
微生物选自细菌、病毒、真菌、变形虫、隐孢子虫、鞭毛虫、微孢子虫、梨形虫、疟原虫、弓形虫、毛滴虫或动质体中的一种或多种。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (30)

1.一种微生物的种特异共有序列的获得方法,其特征在于,所述方法至少包括以下步骤:
S100,寻找候选共有序列:基于聚类算法对属于同一菌种的各个目标菌株的特异性序列进行聚类,获得多个候选种特异共有序列;
S200,验证和获得初次筛选种特异共有序列:
判断候选种特异共有序列是否满足以下条件:
1)株种覆盖度满足预设值;
2)有效拷贝数满足预设值;
若候选种特异共有序列满足以上所有条件,则为种特异共有序列;
其中,
株种覆盖度=(出现该候选种特异共有序列的目标菌株数量/目标菌株的总数量)*100%;
所述有效拷贝数采用公式(I)进行计算:
Figure FDA0002723245460000011
其中,
N为候选种特异共有序列拷贝数梯度的总数;
Ci为第i个候选种特异共有序列对应的拷贝数;
Si为出现第i个候选种特异共有序列的菌株数量;
Sall为目标菌株总数量。
2.如权利要求1所述的微生物的种特异共有序列的获得方法,其特征在于,所述特异性序列是指,同属于同一目标菌株的目标片段,所述目标片段所在区域是所述目标菌株的特异性区域。
3.如权利要求2所述的微生物的种特异共有序列的获得方法,其特征在于,所述特异性区域为特异性多拷贝区域。
4.如权利要求2所述的微生物的种特异共有序列的获得方法,其特征在于,所述特异性区域的获得方法包括如下步骤:
S110,将微生物目标片段与一个或多个对比菌株全基因组序列分别进行两两比对,去除相似性超过预设值的片段,获得若干剩余片段,作为第一轮切割片段T1~Tn,其中,n为≥1的整数;
S120,将所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列比对,去除相似性超过预设值的片段,获得剩余切割片段的集合作为微生物目标片段的候选特异性区域;
S130,验证和获得特异性区域:判断候选特异性区域是否满足以下条件:
1)搜寻公共数据库,寻找是否存在与候选特异性区域相似性大于预设值的其他物种;
2)将候选特异性区域分别与各对比菌株的全基因组序列,以及微生物目标片段来源菌株的寄主的全基因组序列进行比对,寻找是否存在相似性大于预设值的片段;
若候选特异性区域均不满足以上条件,则为微生物目标片段的特异性区域。
5.如权利要求4所述的微生物的种特异共有序列的获得方法,其特征在于,还包括以下特征中的一项或多项:
a.所述方法能够区别所述微生物目标片段来源菌株与对比菌株是否为同一种或亚种;
b.所述相似性是指微生物目标片段的覆盖率与匹配率的乘积,所述覆盖率=(相似序列片段长度/(微生物目标片段末端值-微生物目标片段起始值+1))*100%;
c.步骤S120中,所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列分组迭代比对;
d.所述相似性预设值超过95%;
e.所述方法还包括以下步骤:S111,将选定的相邻微生物目标片段进行两两比对,若出现相似性低于预设值的比对结果,则发出警报并显示目标株种对应的筛选条件。
6.如权利要求5所述的微生物的种特异共有序列的获得方法,其特征在于,将第一轮切割片段Tn与其余对比菌株的全基因组序列进行分组迭代比对时包括下列步骤:
S121,将其余对比菌株分为P组,每组若干个对比菌株;
S122,将第一轮切割片段Tn同时与第1组中各对比菌株的全基因组序列进行一对一的比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的第一轮候选序列库;
S123,将第一轮切割片段Tn的上一轮候选序列库同时与下一组中各对比菌株的全基因组序列进行一对一的比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的下一轮候选序列库;从第一轮候选序列库开始重复步骤S122直至获得第P轮候选序列库作为第一轮切割片段Tn的候选特异性序列库;
所有第一轮切割片段的候选特异性序列库的集合即为候选特异性区域。
7.如权利要求3所述的微生物的种特异共有序列的获得方法,其特征在于,多拷贝区域的获得方法包括如下步骤:
S140,寻找候选多拷贝区域:对微生物目标片段进行内部比对,寻找相似性满足预设值的待测序列对应的区域作为候选多拷贝区域,所述相似性是指待测序列的覆盖率与匹配率的乘积;
S150,验证获得多拷贝区域:获得候选多拷贝区域拷贝数的中值;若候选多拷贝区域拷贝数的中值大于1,则记为多拷贝区域。
8.如权利要求7所述的微生物的种特异共有序列的获得方法,其特征在于,还包括以下特征中的一项或多项:
a.覆盖率=(相似序列的长度/(待测序列末端值-待测序列起始值+1))*100%;
b.当微生物目标片段为不完整的多条基序时,将各基序连接起来再寻找候选多拷贝区域;
c.候选多拷贝区域拷贝数的中值的获得方法为:确定各候选多拷贝区域在微生物目标片段上的位置,获得待验证候选多拷贝区域的每个碱基位置上覆盖的其他候选多拷贝区域的个数,计算该待验证候选多拷贝区域的拷贝数的中值;
d.在步骤S150中,还可计算候选多拷贝区域拷贝数的95%置信区间;优选的,在计算候选多拷贝区域拷贝数的95%置信区间时,以候选多拷贝区域的碱基数为样本数,候选多拷贝区域中各碱基对应的拷贝数值为样本值计算。
9.如权利要求1所述的微生物的种特异共有序列的获得方法,其特征在于,还包括如下步骤中的一项或多项:
S300,针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列;
S400,若步骤S200中候选共有序列的株种覆盖度均未达到预设值,则将候选共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,采用步骤S200验证和获得初次筛选种特异共有序列。
10.如权利要求1所述的微生物的种特异共有序列的获得方法,其特征在于,还包括如下两个特征中的任一项:
1)所述方法还包括如下步骤:
S300,针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列;
S500,若步骤S300中所述候选探针引物的菌株覆盖度均未达到预设值,则将初次筛选种特异共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,采用步骤S200验证和获得初次筛选种特异共有序列;
2)所述方法还包括如下步骤:
S300,针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列;
S400,若步骤S200中候选共有序列的株种覆盖度均未达到预设值,则将候选共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,采用步骤S200验证和获得初次筛选种特异共有序列;
S500,若步骤S300中所述候选探针引物的菌株覆盖度均未达到预设值,则将初次筛选种特异共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,采用步骤S200验证和获得初次筛选种特异共有序列。
11.如权利要求9或10所述的微生物的种特异共有序列的获得方法,其特征在于,在步骤S400和S500中,将共有序列数目由低到高进行组合,来进行选择。
12.如权利要求9或10所述的微生物的种特异共有序列的获得方法,其特征在于,当所述目标菌株的数量进行更新时,将原有的候选探针引物比对到更新的目标菌株全基因组上,计算覆盖度,验证原有的候选探针引物是否可以覆盖更新的目标菌株。
13.一种微生物的种特异共有序列的获得装置,其特征在于,所述装置至少包括以下模块:
候选共有序列寻找模块,用于基于聚类算法对属于同一菌种的各个目标菌株的特异性序列进行聚类,获得多个候选种特异共有序列;
初次筛选种特异共有序列验证和获得模块,用于判断候选种特异共有序列是否满足以下条件:
1)株种覆盖度满足预设值;
2)有效拷贝数满足预设值;
若候选种特异共有序列满足以上所有条件,则为种特异共有序列;
其中,
株种覆盖度=(出现该候选种特异共有序列的目标菌株数量/目标菌株的总数量)*100%;
所述有效拷贝数采用公式(I)进行计算:
Figure FDA0002723245460000051
其中,
N为候选种特异共有序列拷贝数梯度的总数;
Ci为第i个候选种特异共有序列对应的拷贝数;
Si为出现第i个候选种特异共有序列的菌株数量;
Sall为目标菌株总数量。
14.如权利要求13所述的微生物的种特异共有序列的获得装置,其特征在于,所述特异性序列是指,同属于同一目标菌株的目标片段,所述目标片段所在区域是所述目标菌株的特异性区域。
15.如权利要求14所述的微生物的种特异共有序列的获得装置,其特征在于,所述特异性区域为特异性多拷贝区域。
16.如权利要求13所述的微生物的种特异共有序列的获得装置,其特征在于,所述装置还包括以下模块,用于获得特异性区域:
第一轮切割片段获得模块,用于将微生物目标片段与一个或多个对比菌株全基因组序列分别进行两两比对,去除相似性超过预设值的片段,获得若干剩余片段,作为第一轮切割片段T1~Tn,其中,n为≥1的整数;
候选特异性区域获得模块,用于将所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列比对,去除相似性超过预设值的片段,获得剩余切割片段的集合作为微生物目标片段的候选特异性区域;
特异性区域验证和获得模块,用于判断候选特异性区域是否满足以下条件:
1)搜寻公共数据库,寻找是否存在与候选特异性区域相似性大于预设值的其他物种;
2)将候选特异性区域分别与各对比菌株的全基因组序列,以及微生物目标片段来源菌株的寄主的全基因组序列进行比对,寻找是否存在相似性大于预设值的片段;
若候选特异性区域均不满足以上条件,则为微生物目标片段的特异性区域。
17.如权利要求16所述的微生物的种特异共有序列的获得装置,其特征在于,还包括以下特征中的一项或多项:
a.所述装置能够区别所述微生物目标片段来源菌株与对比菌株是否为同一种或亚种;
b.所述相似性是指微生物目标片段的覆盖率与匹配率的乘积,所述覆盖率=(相似序列片段长度/(微生物目标片段末端值-微生物目标片段起始值+1))*100%;
c.所述候选特异性区域获得模块中,所述第一轮切割片段T1~Tn分别与其余对比菌株的全基因组序列分组迭代比对;
d.所述相似性预设值超过95%;
e.第一轮切割片段获得模块还包括以下子模块,原始数据相似性比较子模块,用于将选定的相邻微生物目标片段进行两两比对,若出现相似性低于预设值的比对结果,则发出警报并显示目标株种对应的筛选条件。
18.如权利要求17所述的微生物的种特异共有序列的获得装置,其特征在于,将第一轮切割片段Tn与其余对比菌株的全基因组序列进行分组迭代比对时,所述候选特异性区域获得模块包括下列子模块:
对比菌株分组子模块,用于将其余对比菌株分为P组,每组若干个对比菌株;
第一轮候选序列库获得子模块,用于将第一轮切割片段Tn同时与第1组中各对比菌株的全基因组序列进行一对一的比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的第一轮候选序列库;
候选特异性区域获得子模块,用于将第一轮切割片段Tn的上一轮候选序列库同时与下一组中各对比菌株的全基因组序列进行一对一的比对,去除相似性超过预设值的片段,获得若干剩余片段作为第一轮切割片段Tn的下一轮候选序列库;从第一轮候选序列库开始重复候选特异性区域获得子模块直至获得第P轮候选序列库作为第一轮切割片段Tn的候选特异性序列库;
所有第一轮切割片段的候选特异性序列库的集合即为候选特异性区域。
19.如权利要求15所述的微生物的种特异共有序列的获得装置,其特征在于,所述装置还包括以下模块,用于获得多拷贝区域:
候选多拷贝区域寻找模块,用于对微生物目标片段进行内部比对,寻找相似性满足预设值的待测序列对应的区域作为候选多拷贝区域,所述相似性是指待测序列的覆盖率与匹配率的乘积;
多拷贝区域验证获得模块,用于获得候选多拷贝区域拷贝数的中值;若候选多拷贝区域拷贝数的中值大于1,则记为多拷贝区域。
20.如权利要求19所述的微生物的种特异共有序列的获得装置,其特征在于,还包括以下特征中的一项或多项:
a.覆盖率=(相似序列的长度/(待测序列末端值-待测序列起始值+1))*100%;
b.当微生物目标片段为不完整的多条基序时,将各基序连接起来再寻找候选多拷贝区域;
c.所述多拷贝区域验证获得模块中还包括候选多拷贝区域拷贝数的中值的获得子模块,用于确定各候选多拷贝区域在微生物目标片段上的位置,获得待验证候选多拷贝区域的每个碱基位置上覆盖的其他候选多拷贝区域的个数,计算该待验证候选多拷贝区域的拷贝数的中值;
d.多拷贝区域验证获得模块还用于计算候选多拷贝区域拷贝数的95%置信区间;优选的,在计算候选多拷贝区域拷贝数的95%置信区间时,以候选多拷贝区域的碱基数为样本数,候选多拷贝区域中各碱基对应的拷贝数值为样本值计算。
21.如权利要求13所述的微生物的种特异共有序列的获得装置,其特征在于,所述装置还包括以下模块的一个或多个:
最终的种特异共有序列筛选模块,用于针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列;
第一共有序列组合筛选模块,用于当初次筛选种特异共有序列验证和获得模块中,候选共有序列的株种覆盖度均未达到预设值时,将候选共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,利用初次筛选种特异共有序列验证和获得模块,验证和获得初次筛选种特异共有序列。
22.如权利要求13所述的微生物的种特异共有序列的获得装置,其特征在于,还包括以下两个特征中的任一个:
1)所述装置还包括以下模块:
最终的种特异共有序列筛选模块,用于针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列;
第二共有序列组合筛选模块,若最终的种特异共有序列筛选模块中,所述候选探针引物的菌株覆盖度均未达到预设值,则将初次筛选种特异共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,利用初次筛选种特异共有序列验证和获得模块,验证和获得初次筛选种特异共有序列;
2)所述装置还包括以下模块:
最终的种特异共有序列筛选模块,用于针对初次筛选种特异共有序列,根据探针引物设计规则,进行探针、引物设计,获得候选探针引物;将候选探针引物序列比对到所有目标菌株全基因组上,计算每条探针引物序列对应的菌株覆盖度,筛选出菌株覆盖度都满足预设值的候选探针引物,将筛选出的候选探针引物对应的初次筛选种特异共有序列作为最终的种特异共有序列;
第一共有序列组合筛选模块,用于当初次筛选种特异共有序列验证和获得模块中,候选共有序列的株种覆盖度均未达到预设值时,将候选共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,利用初次筛选种特异共有序列验证和获得模块,验证和获得初次筛选种特异共有序列;
第二共有序列组合筛选模块,若最终的种特异共有序列筛选模块中,所述候选探针引物的菌株覆盖度均未达到预设值,则将初次筛选种特异共有序列进行组合,从中筛选出株种覆盖度能够达到预设值并且共有序列最少的组合,以筛选出的组合作为候选共有序列,利用初次筛选种特异共有序列验证和获得模块,验证和获得初次筛选种特异共有序列。
23.如权利要求21或22所述的微生物的种特异共有序列的获得装置,其特征在于,第一共有序列组合筛选模块和第二共有序列组合筛选模块中,将共有序列数目由低到高进行组合,来进行选择。
24.如权利要求21或22所述的微生物的种特异共有序列的获得装置,其特征在于,所述装置还包括以下模块:
序列更新覆盖度模块,用于当所述目标菌株的数量进行更新时,将原有的候选探针引物比对到更新的目标菌株全基因组上,计算覆盖度,验证原有的候选探针引物是否可以覆盖更新的目标菌株。
25.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-12任一所述的微生物的种特异共有序列的获得方法。
26.一种计算机处理设备,包括处理器及权利要求25所述的计算机可读存储介质,其特征在于,所述处理器执行所述计算机可读存储介质上的计算机程序,实现权利要求1-12任一所述的微生物的种特异共有序列的获得方法的步骤。
27.一种电子终端,其特征在于,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1-12任一所述的微生物的种特异共有序列的获得方法。
28.如权利要求1-12任一所述的微生物的种特异共有序列的获得方法,或权利要求13-24任一所述的微生物的种特异共有序列的获得装置,或权利要求25所述的计算机可读存储介质,或权利要求26所述的计算机处理设备或权利要求27所述的电子终端,用于核苷酸扩增中模板序列的筛选的用途。
29.一种微生物菌种鉴定方法,包括:通过扩增的方法鉴定目标菌株中是否含有种特异共有序列,所述种特异共有序列采用如权利要求1-12任一所述的微生物的种特异共有序列的获得方法,权利要求13-24任一所述的微生物的种特异共有序列的获得装置,权利要求25所述的计算机可读存储介质,权利要求26所述的计算机处理设备或权利要求27所述的电子终端获得。
30.如权利要求29所述的微生物菌种鉴定方法,其特征在于,还包括以下特征中的一项或多项:
a.所述方法能够区别所述微生物目标片段来源菌株与对比菌株是否为同一种或亚种;
b.微生物选自细菌、病毒、真菌、变形虫、隐孢子虫、鞭毛虫、微孢子虫、梨形虫、疟原虫、弓形虫、毛滴虫或动质体中的一种或多种。
CN202010254696.6A 2020-04-02 2020-04-02 微生物的种特异共有序列的获得方法、装置及应用 Active CN111477276B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202010254696.6A CN111477276B (zh) 2020-04-02 2020-04-02 微生物的种特异共有序列的获得方法、装置及应用
US17/916,247 US20230154565A1 (en) 2020-04-02 2020-05-14 Method and device for obtaining species-specific consensus sequences of microorganisms and use thereof
EP20928069.2A EP4116982A4 (en) 2020-04-02 2020-05-14 METHOD AND DEVICE FOR OBTAINING SPECIES-SPECIFIC CONSENSUS SEQUENCES FROM MICROORGANISMS AND USE
PCT/CN2020/090177 WO2021196357A1 (zh) 2020-04-02 2020-05-14 微生物的种特异共有序列的获得方法、装置及应用
AU2020439910A AU2020439910A1 (en) 2020-04-02 2020-05-14 Method and device for obtaining species-specific consensus sequences of microorganisms and use thereof
JP2022560033A JP7333482B2 (ja) 2020-04-02 2020-05-14 微生物の種特異的共通配列の取得方法、装置及び応用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010254696.6A CN111477276B (zh) 2020-04-02 2020-04-02 微生物的种特异共有序列的获得方法、装置及应用

Publications (2)

Publication Number Publication Date
CN111477276A CN111477276A (zh) 2020-07-31
CN111477276B true CN111477276B (zh) 2020-12-15

Family

ID=71749828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010254696.6A Active CN111477276B (zh) 2020-04-02 2020-04-02 微生物的种特异共有序列的获得方法、装置及应用

Country Status (6)

Country Link
US (1) US20230154565A1 (zh)
EP (1) EP4116982A4 (zh)
JP (1) JP7333482B2 (zh)
CN (1) CN111477276B (zh)
AU (1) AU2020439910A1 (zh)
WO (1) WO2021196357A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992277B (zh) * 2021-03-18 2021-10-26 南京先声医学检验实验室有限公司 一种微生物基因组数据库构建方法及其应用
CN113921083B (zh) * 2021-10-27 2022-11-25 云舟生物科技(广州)股份有限公司 自定义序列的分析方法、计算机存储介质及电子设备
CN114752694A (zh) * 2022-05-31 2022-07-15 湖南大学 用于鉴定变形杆菌属的16SrRNA基因特异性序列片段及其筛选方法
CN115719616B (zh) * 2022-11-24 2023-09-29 江苏先声医疗器械有限公司 一种病原物种特异性序列的筛选方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2507189C (en) 2002-11-27 2018-06-12 Sequenom, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
WO2010016071A2 (en) * 2008-08-05 2010-02-11 Swati Subodh Identification of genomic signature for differentiating highly similar sequence variants of an organism
EP2446062B1 (en) 2009-06-26 2014-08-13 The Regents of the University of California Methods and systems for phylogenetic analysis
US20140288844A1 (en) * 2013-03-15 2014-09-25 Cosmosid Inc. Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
CN103714267B (zh) * 2013-12-27 2016-08-17 中国人民解放军军事医学科学院生物工程研究所 基于种特有序列的检测或辅助检测待测菌株的方法
US10350280B2 (en) * 2016-08-31 2019-07-16 Medgenome Inc. Methods to analyze genetic alterations in cancer to identify therapeutic peptide vaccines and kits therefore
US20200239937A1 (en) * 2017-02-23 2020-07-30 The Council Of The Queensland Institute Of Medical Research Biomarkers for diagnosing conditions
CN110914448A (zh) * 2017-06-02 2020-03-24 昂飞股份有限公司 使用差异性标记的等位基因特异性探针分析混合样品的基于阵列的方法
CN110021353B (zh) * 2017-09-30 2020-11-06 厦门艾德生物医药科技股份有限公司 一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法
US20190112640A1 (en) * 2017-10-13 2019-04-18 Genomic Vision Method for mapping spinal muscular atrophy (“sma”) locus and other complex genomic regions using molecular combing
US20190139627A1 (en) * 2017-11-07 2019-05-09 Echelon Diagnostics, Inc. System for Increasing the Accuracy of Non Invasive Prenatal Diagnostics and Liquid Biopsy by Observed Loci Bias Correction at Single Base Resolution
CN110111843B (zh) 2018-01-05 2021-07-06 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN110875082B (zh) * 2018-09-04 2022-05-31 深圳华大因源医药科技有限公司 一种基于靶向扩增测序的微生物检测方法和装置
CN110970093B (zh) * 2018-09-30 2022-12-23 深圳华大因源医药科技有限公司 一种筛选引物设计模板的方法、装置及应用
CN109949867B (zh) * 2019-01-25 2023-05-30 中国农业科学院特产研究所 一种多条序列比对算法的优化方法和系统、存储介质
CN110246545B (zh) * 2019-06-06 2021-04-13 武汉希望组生物科技有限公司 一种序列的校正方法及其校正装置
CN110808086B (zh) * 2019-09-30 2022-10-28 广州白云山和记黄埔中药有限公司 一种鉴定关键酶基因的植物物种特异性序列片段的方法
CN110895959B (zh) * 2019-11-08 2022-05-20 至本医疗科技(上海)有限公司 基因拷贝数评估方法、装置、系统以及计算机可读介质

Also Published As

Publication number Publication date
EP4116982A1 (en) 2023-01-11
AU2020439910A1 (en) 2022-11-10
JP2023515249A (ja) 2023-04-12
WO2021196357A1 (zh) 2021-10-07
EP4116982A4 (en) 2023-12-20
CN111477276A (zh) 2020-07-31
US20230154565A1 (en) 2023-05-18
JP7333482B2 (ja) 2023-08-24

Similar Documents

Publication Publication Date Title
CN111477276B (zh) 微生物的种特异共有序列的获得方法、装置及应用
Lazar et al. Batch effect removal methods for microarray gene expression data integration: a survey
EP1037158A2 (en) Methods and apparatus for analyzing gene expression data
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
CN103168118A (zh) 用减少数量的转录物测量进行的基因表达概况分析
KR20010042824A (ko) 화학적 및 생물학적 분석의 평가방법
Xiao et al. Modified screening and ranking algorithm for copy number variation detection
Kuśmirek et al. Comparison of kNN and k-means optimization methods of reference set selection for improved CNV callers performance
CN110246544B (zh) 一种基于整合分析的生物标志物选择方法及系统
CN109949866B (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
EP1630709B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
CN111477275B (zh) 微生物目标片段中多拷贝区域的识别方法、装置及应用
CN111477274B (zh) 微生物目标片段中特异性区域的识别方法、装置及应用
Resutik et al. Comparative evaluation of the MAPlex, Precision ID Ancestry Panel, and VISAGE Basic Tool for biogeographical ancestry inference
EP1134687A2 (en) Method for displaying results of hybridization experiments
Lauria Rank-based miRNA signatures for early cancer detection
Zachariasen et al. Identification of representative species-specific genes for abundance measurements
Kuśmirek et al. Clustering-based optimization method of reference set selection for improved CNV callers performance
Ji et al. Shine: A novel strategy to extract specific, sensitive and well-conserved biomarkers from massive microbial genomic datasets
US10964407B2 (en) Method for estimating the probe-target affinity of a DNA chip and method for manufacturing a DNA chip
WO2022168195A1 (ja) 遺伝情報解析システム、及び遺伝情報解析方法
Hill et al. A Simple Deep Learning Approach for Detecting Duplications and Deletions in Next-Generation Sequencing Data
CN115719616A (zh) 一种病原物种特异性序列的筛选方法及系统
Meher et al. A Non-parametric Regression based Computational Approach for Prediction of Donor Splice Sites
Anjum et al. A two-step procedure for detecting change points in genomic sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant