CN110021365A - 确定检测靶点的方法、装置、计算机设备和存储介质 - Google Patents

确定检测靶点的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110021365A
CN110021365A CN201810651693.9A CN201810651693A CN110021365A CN 110021365 A CN110021365 A CN 110021365A CN 201810651693 A CN201810651693 A CN 201810651693A CN 110021365 A CN110021365 A CN 110021365A
Authority
CN
China
Prior art keywords
genome
specific regions
coincidence
mer
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810651693.9A
Other languages
English (en)
Other versions
CN110021365B (zh
Inventor
孙亚洲
杜刘稳
陈斌
牛团结
肖贡
郭婷
曾柳眉
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Darren Gene Technology Co Ltd
Original Assignee
Shenzhen Darren Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Darren Gene Technology Co Ltd filed Critical Shenzhen Darren Gene Technology Co Ltd
Priority to CN201810651693.9A priority Critical patent/CN110021365B/zh
Priority to PCT/CN2018/111924 priority patent/WO2019242186A1/zh
Publication of CN110021365A publication Critical patent/CN110021365A/zh
Application granted granted Critical
Publication of CN110021365B publication Critical patent/CN110021365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请涉及一种确定检测靶点的方法、系统、计算机设备和存储介质。方法包括:确定待检测的目标病原体操作组;从靶点数据库中获取目标病原体操作组中包含的特异性k‑mer;确定目标病原体操作组中包含的每个基因组中包含的特异性k‑mer;对每个基因组包含的特异性k‑mer进行处理,得到每个基因组对应的非重合特异性区域集合;获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;选取出现次数超过预设次数阈值的非重合特异性区域作为目标病原体操作组的检测靶点。这种技术方案大大扩大了潜在检测靶点的搜寻范围,增加了对检测靶点搜索范围限定的灵活性,提高了确定检测靶点的效率。

Description

确定检测靶点的方法、装置、计算机设备和存储介质
技术领域
本申请涉及基因检测技术领域,特别是涉及一种确定检测靶点的方法、装置、计算机设备和存储介质。
背景技术
靶点是指特殊的核酸片段,此核酸片段可以用于PCR反应(Polymerase ChainReaction,聚合酶链式反应)、抗体抗原反应以及杂交探针反应等。
在传统技术中,如果需要确定针对某一病原体或病原体操作组的特异性检测靶点(即特征靶点),则需要对该病原体或病原体操作组的生理、代谢、遗传等多种指标进行细致和详细的长期研究,因此耗时长、效率低。目前已有的一些新的技术方案已经可以通过对基因组进行数据分析的方法,从而寻找到针对某一病原体或病原体操作组的潜在检测靶点。但目前的这些技术方案往往要求苛刻,例如要求特征靶点仅在一个物种操作组中存在,并且在该物种操作组中的每一个个体的基因组中都存在。这样没有任何弹性的苛刻要求使得在一个病原体或病原体操作组中找到特征靶点非常困难。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高确定检测靶点效率的确定检测靶点的方法、装置、计算机设备和存储介质。
一种确定检测靶点的方法,所述方法包括:
确定待检测的目标病原体操作组;
从靶点数据库中获取所述目标病原体操作组中包含的特异性k-mer,所述特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列;
确定所述目标病原体操作组中包含的每个基因组中包含的特异性k-mer;
对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,所述非重合特异性区域集合中包含有非重合特异性区域;
获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;
选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点。
一种确定检测靶点的装置,所述装置包括:
确定模块,用于确定待检测的目标病原体操作组;
特异性k-mer获取模块,用于从靶点数据库中获取所述目标病原体操作组中包含的特异性k-mer,所述特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列;确定所述目标病原体操作组中包含的每个基因组中包含的特异性k-mer;
非重合特异性区域获取模块,用于对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,所述非重合特异性区域集合中包含有非重合特异性区域;
检测靶点选取模块,用于获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点。
一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
确定待检测的目标病原体操作组;
从靶点数据库中获取所述目标病原体操作组中包含的特异性k-mer,所述特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列;
确定所述目标病原体操作组中包含的每个基因组中包含的特异性k-mer;
对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,所述非重合特异性区域集合中包含有非重合特异性区域;
获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;
选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
确定待检测的目标病原体操作组;
从靶点数据库中获取所述目标病原体操作组中包含的特异性k-mer,所述特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列;
确定所述目标病原体操作组中包含的每个基因组中包含的特异性k-mer;
对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,所述非重合特异性区域集合中包含有非重合特异性区域;
获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;
选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点。
上述确定检测靶点的方法、装置、计算机设备和存储介质,通过获取到目标病原体操作组的特异性k-mer,再从根据特异性k-mer得到的非重合特异性区域中选取出符合预设次数阈值要求的非重合特异性区域,作为目标病原体操作组的检测靶点。由于通过概率性的预设特异性条件来确定特异性k-mer,并根据特异性k-mer得到非重合特异性区域集合,最终再选取出符合条件的非重合特异性区域作为检测靶点时,因此这种技术方案大大扩大了潜在检测靶点的搜寻范围,增加了对检测靶点搜索范围限定的灵活性,提高了确定检测靶点的效率。
附图说明
图1为一个实施例中确定检测靶点的方法的流程示意图;
图2为一个实施例中在步骤102之前的流程示意图;
图3为一个实施例中步骤108的流程示意图;
图4为一个实施例中步骤306的流程示意图;
图5为一个实施例中在步骤306之后的流程示意图;
图6为一个实施例中步骤110的流程示意图;
图7为一个实施例中在步骤112之后的流程示意图;
图8为一个实施例中步骤704的流程示意图;
图9为另一个实施例中在步骤112之后的流程示意图;
图10为一个实施例中步骤906的流程示意图;
图11为一个实施例中步骤912的流程示意图;
图12为一个实施例中步骤1104的流程示意图;
图13为另一个实施例中确定检测靶点的方法的流程示意图;
图14为一个实施例中步骤1302的流程示意图;
图15为一个实施例中步骤1304的流程示意图;
图16为一个实施例中确定检测靶点的装置的结构框图;
图17为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种确定检测靶点的方法,包括以下步骤:
步骤102,确定待检测的目标病原体操作组。
一个病原体操作组,可以代表一个物种、一个亚种、一个亚型、一个菌株或病毒株、或一个属等不同分类层级的遗传单位或物种分类学单位,一个病原体操作组可以包括一个或多个相关的基因组。目标病原体操作组是指待检测的一种病原体操作组。比如待检测的病原体操作组为金黄色葡萄球菌,那么步骤102中的目标病原体操作组则指的是金黄色葡萄球菌。
步骤104,从靶点数据库中获取目标病原体操作组中包含的特异性k-mer,特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列。
在靶点数据库中存储有预先为每个病原体操作组建立的特征靶点序列集合,在每个病原体操作组对应的特征靶点序列集合中包含有每个病原体操作组对应的特异性k-mer。因此,可从靶点数据库中获取到目标病原体操作组中包含的特异性k-mer。特异性k-mer是指从目标病原体操作组包含的k-mer中选取的满足预设特异性条件的k-mer,即作为目标病原体操作组对应的特异性k-mer。预设特异性条件是技术人员预先设定的条件,用于选取符合的k-mer,预设特异性条件可根据技术人员的考虑或实际项目需求而定。
k-mer是指长度为k的基因组序列,k为自然数。如果一种基因组数据中一共有a个不同的确定性字符,那么对于一个特定的k,则一共有数量为a的k次方个可能不相同的k-mer。对于DNA或RNA(核糖核酸)序列,确定性字符是指A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)、U(尿嘧啶)这五种碱基;如果是蛋白序列,确定性字符则是指确定的氨基酸字符。
步骤106,确定目标病原体操作组中包含的每个基因组中包含的特异性k-mer。
一个病原体操作组可以包括一个或多个相关的基因组。因此在目标病原体操作组中包含有一个或多个相关的基因组,而在每个基因组中,包含有一个或多个k-mer。特异性k-mer是满足预设特异性条件的k-mer,因此在每个基因组中包含有一个或多个特异性k-mer。因此可确定待检测的目标病原体操作组中包含的每个基因组中包含的特异性k-mer。
步骤108,对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,非重合特异性区域集合中包含有非重合特异性区域。
在确定目标病原体操作组中包含的每个基因组中包含的特异性k-mer后,可以对每个基因组包含的特异性k-mer进行处理。在对每个基因组包含的特异性k-mer进行处理后,则可以得到每个基因组对应的非重合特异性区域集合。在每个基因组对应的非重合特异性区域集合中,包含有每个基因组对应的一个或多个非重合特异性区域。非重合特异性区域与特异性k-mer不同的是,特异性k-mer是有长度限制的,是特定长度为k的一段序列,而非重合特异性区域对于其本身的长度没有任何限制。
步骤110,获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数。
在得到每个基因组对应的非重合特异性区域集合后,可获取每个非重合特异性区域集合中每个非重合特异性区域在全部的非重合特异性区域集合中的出现次数。可以将每个基因组对应的非重合特异性区域集合看做是一个小的集合,将全部的基因组的非重合特异性区域集合组成非重合特异性区域全集,即由多个小的集合组成了全集。在非重合特异性区域全集中包含有该病原体操作组中包括的全部的基因组中的非重合特异性区域,因此可获取到每个基因组各自的非重合特异性区域集合中的每个非重合特异性区域,在重合特异性区域全集中的出现次数。
步骤112,选取出现次数超过预设次数阈值的非重合特异性区域作为目标病原体操作组的检测靶点。
在获取到每个非重合特异性区域在全部的非重合特异性区域集合中的出现次数后,可从中选取出现次数超过预设次数阈值的非重合特异性区域作为目标病原体操作组的检测靶点。预设次数阈值可由技术人员根据实际项目需求设定。选取出的非重合特异性区域可以是多个,也可以对应多个基因组。
上述确定检测靶点的方法中,通过获取到目标病原体操作组的特异性k-mer,再从根据特异性k-mer得到的非重合特异性区域中选取出符合预设次数阈值要求的非重合特异性区域,作为目标病原体操作组的检测靶点。由于通过概率性的预设特异性条件来确定特异性k-mer,并根据特异性k-mer得到非重合特异性区域集合,最终再选取出符合条件的非重合特异性区域作为检测靶点时,因此这种技术方案大大扩大了潜在检测靶点的搜寻范围,增加了对检测靶点搜索范围限定的灵活性,提高了确定检测靶点的效率。
在一个实施例中,预设次数阈值=(1-Y)*N,其中,Y为预设第一条件阈值,N为非重合特异性区域集合数量。
在从多个非重合特异性区域中选取部分非重合特异性区域作为目标病原体操作组的检测靶点时,选取的是在全部非重合特异性区域集合中的出现次数达到预设次数阈值的非重合特异性区域。在本实施例中,预设次数阈值等于(1-Y)*N。Y为预设第一条件阈值,可将预设第一条件阈值Y设置为小于5%,具体可由技术人员根据实际情况进行设定。N为非重合特异性区域集合的数量,而每个基因组对应一个非重合特异性区域集合,因此N实际上就是目标病原体操作组中包含的基因组的数量。一般情况下,一个非重合特异性区域并不会在每个基因组中都出现,因此任意一个非重合特异性区域在全部非重合特异性区域集合中的出现次数一般会小于或等于N。
在一个实施例中,预设第一条件阈值小于5%。
在本实施例中,预设第一条件阈值设置为小于5%。
在一个实施例中,特异性k-mer是指在目标病原体操作组的基因组出现次数索引表中的出现次数满足预设误差条件的病原体操作组中的k-mer。
在每个病原体操作组对应的特征靶点序列集合中,都包含有每个病原体操作组中满足预设特异性条件的特异性k-mer。进一步地,预设特异性条件是指,在每个目标病原体操作组的基因组出现次数索引表中出现次数满足预设误差条件的病原体操作组中包含的k-mer。预设误差条件是指技术人员根据实际项目需求预先设定的误差条件,误差条件可以是一个区域范围,即允许了选取作为特异性的k-mer能够存在一定的误差,而不是完全一定要满足某个严格的客观条件。
一个目标病原体操作组有其对应的病原体操作组基因组出现次数索引表。可根据目标病原体操作组对应的基因组出现次数索引表获知目标病原体操作组中包含的k-mer的在目标病原体操作组中所包含的多少个基因组里出现过,即可选出在目标病原体操作组的基因组出现次数索引表中的出现次数满足预设误差条件的病原体操作组中的k-mer,将选出的k-mer作为目标病原体操作组中包含的特异性k-mer。
在选取特异性k-mer时允许了一定的误差性,因此能够在一定误差范围内较高概率地找到代表目标病原体操作组的特异性序列,由于通过概率性的预设特异性条件来确定特异性k-mer,并根据特异性k-mer得到非重合特异性区域集合,最终再选取出符合条件的非重合特异性区域作为检测靶点时,因此这种技术方案大大扩大了潜在检测靶点的搜寻范围,增加了对检测靶点搜索范围限定的灵活性,提高了确定检测靶点的效率。
在一个实施例中,在上述步骤102之前,还包括以下步骤:生成与目标病原体操作组对应的基因组出现次数索引表,基因组次数索引表记录了目标病原体操作组包含的基因组中包含有每个k-mer的基因组的个数;将基因组出现次数索引表存储至与目标病原体操作组对应的特征靶点序列集合。
基因组是指一个生物体内所有遗传信息,这种遗传信息以核苷酸序列形式存储。一个生物体(例如一个动植物个体、或动植物细胞、或细菌个体)的一个完整单体内的遗传物质的总和即为基因组。在每个病原体操作组中,可以包含有多个基因组,而在每个基因组中,则可以包含有多个k-mer。在每个病原体操作组对应的基因组出现次数索引表中记录了每个病原体操作组包含的k-mer在该病原体操作组的多少个基因组中出现过,即基因组次数索引表记录了每个k-mer对应的病原体操作组包含的基因组中包含有该k-mer的基因组的个数。
目标病原体操作组对应的基因组次数表中实际上记录的是,目标病原体操作中包含的每个k-mer在目标病原体操作组中包含的多少个基因组中出现过。如果在同一个基因组中一个k-mer出现超过一次,那么在目标病原体操作组对应的基因组出现次数索引表中仍然只会计数一次。在获取到目标病原体操作中包含的每个k-mer在目标病原体操作组中包含的多少个基因组中出现过的数据后,即可建立针对目标病原体操作组对应的基因组出现次数索引表。当目标病原体操作组对应的基因组出现次数索引表建立后,可将基因组出现次数索引表存储至与目标病原体操作组对应的特征靶点序列集合,即存储至靶点数据库中,存储后,若是需要用到基因组出现次数索引表即可从数据库进行数据调取,进而提高了检测的效率。
在一个实施例中,如图2所示,在上述步骤102之前,还包括以下步骤:
步骤100,从目标病原体操作组对应的k-mer中选取满足预设特异性条件的k-mer。
步骤101,将满足预设特异性条件的k-mer存储至目标病原体操作组对应的特征靶点序列集合中。
在靶点数据库中,存储有目标病原体操作组对应的特征靶点序列集合,在目标特征靶点序列集合中包含有目标病原体操作组对应的特异性k-mer。特异性k-mer是指从目标病原体操作组包含的k-mer中选取满足预设特异性条件的k-mer,当选取出满足预设特异性条件的k-mer,即特异性k-mer,存储至目标病原体操作组对应的特征靶点序列集合中。
在一个实施例中,特异性k-mer中的k-mer满足以下两个条件:在目标病原体操作组对应的基因组出现次数索引表中的出现次数满足第一预设误差条件;在目标病原体操作组对应的基因组出现次数索引表中的出现次数,以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件。目标病原体操作组对应的基因组次数索引表记录了目标病原体操作组包含的基因组中包含有每个k-mer的基因组的个数;全集的基因组出现次数索引表记录了在全集包含的基因组中包含有每个k-mer的基因组的个数。
在靶点数据库中,目标病原体操作组有对应的特征靶点序列集合,在特征靶点序列集合中包含的特异性k-mer是指满足预设特异性条件的k-mer。预设特异性条件包括有第一预设误差条件及第二预设误差条件,当k-mer同时满足这两个条件时,即认为该k-mer满足预设特异性条件,可将该k-mer作为特异性k-mer。进一步地,k-mer在目标病原体操作组的基因组出现次数索引表中的出现次数需要满足第一预设误差条件,且该k-mer在目标病原体操作组的基因组出现次数索引表中的出现次数,以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件。全集是指收集到的所有高可信度基因组组成的集合,高可信度基因组中既包含有各个病原体基因组,也包含有非病原体基因组。比如共生菌、益生菌、人类、动物、植物等的高可信度基因组。高可信度基因组是指选取出的满足预设可信度条件的基因组。
全集的基因组出现次数索引表中记录的每一个k-mer所对应的计数代表的是该k-mer一共在全集中多少个基因组中出现过。如果该k-mer在同一个基因组中出现过多次,也只会计数一次。在目标病原体操作组的基因组次数索引表中,记录了目标病原体操作组包含的基因组中包含有每个k-mer的基因组的个数,而全集的基因组出现次数索引表记录了在全集包含的基因组中包含有该k-mer的基因组的个数。
与现有技术不同的是,本实施例中的特异性k-mer的选取加入了一预设误差条件及第二预设误差条件这两个参数,因此允许了一定范围内的特异性k-mer的非特异性。如果没有这两个参数,就不能允许一定范围内的非特异性,那么针对一个病原体操作组,往往很难找到特异性k-mer。所以通过允许一定误差的方式选取的特异性k-mer,从而建立的特点靶点序列集合,能够高概率地找到能够代表该病原体操作组的特异性靶点。
在一个实施例中,第一预设误差条件为:在目标病原体操作组的基因组出现次数索引表中的出现次数与目标病原体操作组中包含的基因组数量的比值与第一阈值的和大于等于1。
在本实施例中,第一预设误差条件是指,在目标病原体操作组对应的基因组出现次数索引表中记录的出现次数与目标病原体操作组中包含的基因组数量的比值与第一阈值的和大于等于1。假设目标病原体操作组包含有N个基因组,某一k-mer在目标病原体操作组的基因组出现次数索引表中的出现次数为C1,第一阈值为P1,那么第一预设误差条件是指,C1/N+P1≥1。第一阈值P1代表的是可接受的误差概率,可以是一个0到1之间的任意值,第一阈值可由技术人员根据实际项目进行设定。
在一个实施例中,第一阈值小于5%。
第一阈值是指可接受的误差概率,第一阈值可以是一个0到1之间的任意值,在本实施例中,可将第一阈值设为小于5%的值。
在一个实施例中,第二预设误差条件为:在目标病原体操作组的基因组出现次数索引表中的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。
在本实施例中,第二预设误差条件是指,在目标病原体操作组对应的基因组出现次数索引表中记录的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。假设某一k-mer在目标病原体操作组的基因组出现次数索引表中的出现次数为C1,该k-mer在全集的基因组出现次数索引表中的出现次数为C2,第二阈值为P2,那么第二预设误差条件是指,C1/C2+P2≥1。第二阈值与上述的第一阈值一样,代表的是可接受的误差概率,可以是一个0到1之间的任意值,第二阈值P2同样可由技术人员根据实际项目进行设定。
在一个实施例中,第二阈值小于5%。
第二阈值与第一阈值一样,均是指可接受的误差概率,第二阈值也可以是一个0到1之间的任意值,在本实施例中,可将第二阈值设为小于5%的值。第一阈值与第二阈值可以是相等的,也可以是不等的。
在一个实施例中,在获取样本的测序数据之前,还包括:生成全集的基因组出现次数索引表,全集的基因组出现次数索引表记录了在全集包含的基因组中包含有每个k-mer的基因组的个数;将全集的基因组出现次数索引表存储至靶点数据库。
在靶点数据库中,存储有每个病原体操作组对应的特征靶点序列集合。在全集中包含有收集到的所有高可信度基因组,即在全集中既包含有多个病原体操作组的高可信度基因组,也包含有多个非病原体操作组的高可信度基因组。获取到每个病原体操作组中包含的每个k-mer在全集包含的多少个基因组中出现过的数据后,即可生成全集的基因组出现次数索引表。在全集的基因组出现次数索引表中记录了每个病原体操作组包含的k-mer在全集的多少个基因组中出现过,即全集的基因组次数索引表记录了每个k-mer在全集包含的基因组中包含有该k-mer的基因组的个数。
因此在全集的基因组次数表中实际上记录的是每个k-mer在全集包含的多少个基因组中出现过,即记录的是在全部的基因组中,每个k-mer在多少个基因组中出现过,也就是计量数为基因组的数量,而不是k-mer的出现次数。如果在同一个基因组中一个k-mer出现超过一次,那么在该全集的基因组出现次数索引表中仍然只会计数一次。在获取到每个k-mer在全集的多少个基因组中出现过的数据后,即可建立针对全集的基因组出现次数索引表。全集的基因组出现次数索引表与各个病原体操作组所对应的基因组出现次数索引表有所不同,病原体操作组的基因组出现次数索引表是与病原体操作组对应的,每一个病原体操作组均有其对应的基因组出现次数索引表,但全集的基因组出现次数索引表则只会生成一个,针对的是全部的数据。将生成的全集的基因组出现次数索引表进行存储后,若是在对测序数据进行检测的过程中需要用到,即可从数据库进行数据调取,进而提高了检测的效率。
在一个实施例中,上述步骤106,包括:依次将目标病原体操作组中包含的每个基因组作为参考基因组;将目标病原体操作组中包含的每个特异性k-mer定位至参考基因组;将定位至参考基因组的特异性k-mer作为参考基因组包含的特异性k-mer。
在目标病原体操作组中包含有多个基因组,可以依次将每个基因组作为参考基因组,并将目标病原体操作组中包含的特异性k-mer定位至参考基因组上。由于特异性k-mer是预先挑选出来符合预设特异性条件的k-mer,因此会存在有部分特异性k-mer无法定位到某一个基因组上的情况。可以将成功定位至参考基因组的特异性k-mer作为该参考基因组中包含的特异性k-mer。也就是说,有的特异性k-mer是无法定位至某个基因组上的,则可以认为该特异性k-mer并不是该基因组中包含的。因此本实施例中的定位也可以认为是再次确认各个基因组中包含的特异性k-mer。因此通过这种定位操作,对每个基因组中包含的特异性k-mer进行二次确认,增加容错几率。
在一个实施例中,将定位至参考基因组的特异性k-mer作为参考基因组包含的特异性k-mer,包括:依次从参考基因组中选取一个区域与特异性k-mer进行比较;当检测到选取的区域与特异性k-mer的相似度达到预设相似阈值时,则将特异性k-mer作为参考基因组包含的特异性k-mer。
在将目标病原体操作组中包含的特异性k-mer定位至参考基因组以确定该特异性k-mer是否属于参考基因组时,可以依次从参考基因组中选取一个区域与特异性k-mer进行比较。选取的区域是一个基因序列,将此选取的基因序列与特异性k-mer进行比较,可以对这两个序列的相似度进行检测。当检测到选取的区域与特异性k-mer的相似度达到预设相似阈值时,则可以认为该特异性k-mer是包含在参考基因组中的,即可以将该特异性k-mer作为参考基因组包含的特异性k-mer。可以将参考基因组当做一个由很多碱基组成的字符串,在与特异性k-mer进行比对时,可以从参考基因组这个字符串中依次取长度为k的序列与特异性k-mer进行比较。如果选取的序列与特异性k-mer中,相似的字符串达到预设相似阈值时,则可以认为该特异性k-mer是参考基因组中的特异性k-mer。预设相似阈值可以由技术人员进行自定义设置。例如将预设相似阈值设置为99%时,则如果有一个特异性k-mer与参考基因组上的一个区域的相似度达到或超过99%,则认为该特异性k-mer属于参考基因组。
在一个实施例中,将定位至参考基因组的特异性k-mer作为参考基因组包含的特异性k-mer,包括:依次从参考基因组中选取与特异性k-mer长度相同的序列,将选取的与特异性k-mer长度相同的序列与特异性k-mer进行比较;当检测到选取的序列与特异性k-mer相同时,则将特异性k-mer作为参考基因组包含的特异性k-mer。
本实施例中与上一个实施例中判断选取的区域与特异性k-mer的相似度是否达到预设相似阈值的定位方式有所不同。在本实施例中,可以依次从参考基因组中选取与特异性k-mer长度相同的序列与特异性k-mer进行比较。若是检测到选取的序列与特异性k-mer相同,则认为该特异性k-mer属于参考基因组,是参考基因组中包含的特异性k-mer。若是检测到选取的序列与特异性k-mer不相同,则认为该特异性k-mer不属于参考基因组。也就是说,在本实施例中,不存在判断选取的序列与特异性k-mer相似的情况,只有属于或不属于。本实施例中的定位方式由于没有相似度差错的判断,速度会更快。
在一个实施例中,在确定待检测的目标病原体操作组之前,还包括:获取预先选取的满足预设可信度条件的基因组作为高可信度基因组;确定每个病原体操作组包括的高可信度基因组,作为每个病原体操作组对应的基因组。
高可信度基因组是指选取出的满足预设可信度条件的基因组。预设可信度条件是指由技术人员设定的挑选基因组的条件。在获取到高可信度基因组后,可以确定每个病原体操作组中包含的高可信度基因组,即可确定每个病原体操作组中对应包含的基因组。高可信度基因组既可以包括病原体基因组,也包括非病原体基因组,例如共生菌、益生菌、人类、动物、植物等的高可信度基因组。高可信度的基因组可以来源于NCBI((NationalCenter for Biotechnology Information,美国国立生物技术信息中心)的RefSeq数据集(RefSeq参考序列数据库,美国国家生物信息技术中心提供的具有生物意义上的非冗余的基因和蛋白质序列)或其他公共或私有的高可信度基因组。
在一个实施例中,满足预设可信度条件包括以下任意一种:基因组序列中包含的非确定性字符的比例低于预设比例阈值时;基因组序列中包含的属于同一条染色体的序列片段低于预设片段阈值时;将某一基因组序列与其他所有遗传关系符合预设遗传距离阈值范围的基因组序列进行序列比对,以确定该基因组序列在其相近的基因组序列中的全序列平均覆盖百分比,当该平均覆盖百分比高于预设百分比值时。
高可信度的基因组的确认和筛选方法可以通过以下这三种方式:
1、根据一条基因组数据中所含非确定性字符的比例进行筛选。例如对于DNA基因组来说,非确定性字符的比例是指其中含有的非ACGT字符的比例,一条DNA基因组数据如果其非ACGT字符的比例过高,那么该条数据即为疑似低可信度的基因组。对于DNA或RNA序列,非确定性字符是指除去ACGTU这几个确定性字符以外的字符;对于蛋白质序列,非确定性字符则是指除了确定的氨基酸字符以外的字符。
2、根据一条完整的染色体所包括的基因组数据片段的数目进行筛选,如果有过多的片段同属于一条染色体,那么该基因组即为疑似低可信度的基因组。
3、通过与该基因组遗传关系相近的(例如遗传距离小于某一阈值)多个基因组进行全基因组序列比对,确定该基因组在其相近基因组中的全基因组平均覆盖百分比,然后根据这个全基因组平均覆盖百分比进行筛选:平均覆盖百分比过低的基因组即为疑似低完成度、即低可信度的基因组。遗传距离是指衡量物种间(或个体间)综合遗传差异大小的指标。
在一个实施例中,如图3所示,步骤108,包括:
步骤302,将每个基因组包含的特异性k-mer定位至该基因组上。
步骤304,依次选取每个基因组包含的特异性k-mer和/或非重合特异性区域进行检测。
步骤306,当检测到选取的特异性k-mer和/或非重合特异性区域在基因组上的距离小于预设距离阈值时,则将选取的特异性k-mer和/或非重合特异性区域进行替换,得到替换后的非重合特异性区域。
步骤308,根据最终所保留的特异性k-mer和替换后的非重合特异性区域得到每个基因组对应的非重合特异性区域集合。
在确定了目标病原体操作组中包含的每个基因组中包含的特异性k-mer后,可以将每个基因组包含的特异性k-mer定位至该基因组上。然后可以依次选取基因组中包含的两个特异性k-mer进行检测,检测选取的两个特异性k-mer在基因组上的距离是否小于预设距离阈值,若是,则将选取的两个特异性k-mer进行替换。替换方式可以是取能覆盖选取的两个特异性k-mer的最小区域替换选取的两个特异性k-mer,即可得到对应的非重合特异性区域。也可以是截取选取的这两个特异性k-mer在基因组上定位的那一段序列作为对应的非重合特异性区域。预设距离阈值可以是一个负数,也可以为0,一般设置为小于5的整数。
还可以将每个基因组中的特异性k-mer与该基因组中得到的非重合特异性区域进行比对,或者对该基因组中的两个非重合特异性区域之间进行比对。也就是说,在进行定位比对的时候,可以选取每个基因组包含的特异性k-mer和/或非重合特异性区域进行检测。比对方式与两个特异性k-mer之间进行比对的方式是一致的。检测选取的两个非重合特异性区域或选取的特异性k-mer与非重合特异性区域,在基因组上的距离是否小于预设距离阈值。若是,则将选取的特异性k-mer和非重合特异性区域或将选取的两个非重合特异性区域进行替换,即可得到对应的非重合特异性区域。根据每个基因组中的最终所保留的特异性k-mer和替换后的非重合特异性区域可得到每个基因组对应的非重合特异性区域集合,在每个基因组对应的非重合特异性区域集合中包含的是该基因组中的非重合特异性区域。
假设A和B为选取的两个特异性k-mer,A为ACGGTCATC,B为TCATCCGA。将A和B定位至基因组上后,若是在A和B之间的序列为CCC,那么将A和B进行替换的方式可以是A+CCC+B,也就是将A和B替换得到的费重合特异性区域为ACGGTCATCCCTCATCCGA。若是在A和B之间没有序列,则可以直接将A和B进行拼接,也就是A+B组成的序列就是将A和B替换得到的费重合特异性区域。而本例子中,A和B之间存在有末端重合的情况,也就是A的末端和B的首端存在有多个重合的字符。那么对A和B的替换方式则是取能覆盖选取的两个特异性k-mer的最小区域替换选取的两个特异性k-mer,即ACGGTCATCCGA。具体的替换方式可由技术人员进行自定义,或者根据A和B之间相距的距离或重合的字符数进行选择。
在对特异性k-mer进行处理得到非重合特异性区域时,可能存在的情况是,两个特异性k-mer进行替换能得到一个非重合特异性区域,也可能是三个特异性k-mer进行替换能得到一个非重合特异性区域,或者也可以是多个特异性k-mer进行替换能得到的非重合特异性区域。因此得到的非重合特异性区域的长度并无限制。若选取的两个特异性k-mer在基因组上的距离并未小于预设距离阈值,则无需处理。针对每个基因组均做此处理后,即可得到每个基因组中包含的非重合特异性区域集合。在每个基因组对应的非重合特异性区域集合中包含的是该基因组中的非重合特异性区域。
在一个实施例中,预设距离阈值小于5。
在本实施例中,预设距离阈值小于5的整数。
在一个实施例中,如图4所示,上述步骤306,包括:
步骤402,检测选取的特异性k-mer和/或非重合特异性区域在基因组上的距离是否小于或等于零,若是,则执行步骤404,;若否,则执行步骤406。
步骤404,取能覆盖选取的两个特异性k-mer的最小区域替换选取的两个特异性k-mer,得到非重合特异性区域。
针对每个基因组,依次从基因组中选取出两个特异性k-mer和/或非重合特异性区域定位至基因组上,则可获取到这两个特异性k-mer和/或非重合特异性区域相隔的距离,也就是距离的字符数量。当检测到选取的两个特异性k-mer和/或非重合特异性区域在基因组上的距离小于预设距离阈值时,则可以将选取的两个特异性k-mer和/或非重合特异性区域进行替换,得到对应的非重合特异性区域。当选取的这两个特异性k-mer和/或非重合特异性区域在基因组上的距离为0时,意味着选取的这两个特异性k-mer和/或非重合特异性区域直接相邻并相接。距离为负数时,意味着选取的这两个特异性k-mer和/或非重合特异性区域有一定数量的碱基对的重合。当检测到选取的两个特异性k-mer和/或非重合特异性区域在基因组上的距离小于或等于0时,则对这两个特异性k-mer和/或非重合特异性区域的替换方式可以是,取能覆盖选取的两个特异性k-mer和/或非重合特异性区域的最小区域替换选取的两个特异性k-mer和/或非重合特异性区域。也就是一个区域替换这两个特异性k-mer和/或非重合特异性区域,此区域就是根据这两个特异性k-mer和/或非重合特异性区域得到的非重合特异性区域。
步骤406,获取选取的两个特异性k-mer和/或非重合特异性区域在定位的基因组上中间间隔的序列。
步骤408,将选取的两个特异性k-mer和中间间隔的序列依次进行拼接,得到拼接序列。
步骤410,将选取的两个特异性k-mer替换成拼接序列,得到非重合特异性区域。
当检测到选取的特异性k-mer和/或非重合特异性区域在基因组上的距离大于零时,意味着这两个序列之间存在着有其他序列。则可以获取到选取这两个序列在基因组上中间间隔的序列。选取的这两个序列可以是两个特异性k-mer,也可以是一个特异性k-mer与一个非重合特异性区域,还可以是两个非重合特异性区域。从而可以将选取的两个序列和中间间隔的序列依次进行拼接,得到拼接序列,将选取的两个序列替换成拼接序列后,即可得到非重合特异性区域。以此类推,直到没有任何距离小于预设距离阈值的特异性k-mer或特异性区域。
在一个实施例中,如图5所示,在步骤306之后,还包括:
步骤502,选取每个基因组包含的特异性k-mer和/或非重合特异性区域进行检测。
步骤504,当检测到选取的特异性k-mer和/或非重合特异性区域在基因组上的距离小于预设距离阈值时,则将选取的特异性k-mer和/或非重合特异性区域进行替换,得到替换后的非重合特异性区域。
步骤506,根据最终所保留的特异性k-mer和替换后的非重合特异性区域得到每个基因组对应的非重合特异性区域集合。
在对特异性k-mer进行相应的处理后,可得到对应的非重合特异性区域。可以将每个基因组中的特异性k-mer与该基因组中得到的非重合特异性区域进行比对,或者对该基因组中的两个非重合特异性区域之间进行比对。比对方式与两个特异性k-mer之间进行比对的方式是一致的。检测选取的两个非重合特异性区域或选取的特异性k-mer与非重合特异性区间,在基因组上的距离是否小于预设距离阈值。若是,则将选取的特异性k-mer和非重合特异性区域或将选取的两个非重合特异性区域进行替换,即可得到对应的非重合特异性区域。根据每个基因组中最终所保留的特异性k-mer和替换后的非重合特异性区域可得到每个基因组对应的非重合特异性区域集合,在每个基因组对应的非重合特异性区域集合中包含的是该基因组中的非重合特异性区域。
在一个实施例中,如图6所示,上述步骤110,包括:
步骤602,将目标病原体操作组中包含的每个基因组对应的非重合特异性区域集合进行汇总,得到非重合特异性区域并集。
步骤604,获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在非重合特异性区域并集中的出现次数。
在得到每个基因组对应的非重合特异性区域集合后,如果目标病原体操作组中包含有N个基因组,那么将可以得到N个非重合特异性区域集合。将这N个非重合特异性区域集合进行汇总,则可得到一个非重合特异性区域并集。在计算每个非重合特异性区域在全部非重合特异性区域集合中的出现次数时,实际上就是计算每个非重合特异性区域在非重合特异性区域并集中的出现次数。如果某一个非重合特异性区域在M个基因组中出现过,那么该非重合特异性区域在非重合特异性区域并集中的出现次数则会为M。
在一个实施例中,如图7所示,在步骤112之后,还包括:
步骤702,将选取的出现次数超过预设次数阈值的非重合特异性区域作为代表特异性区域。
步骤704,根据获得的各个代表特异性区域组成代表特异性区域总集合。
步骤706,去除代表特异性区域总集合中不具备生物功能的代表特异性区域,得到具备生物功能的代表特异性区域总集合。
步骤708,将具备生物功能的代表特异性区域总集合中的非重合特异性区域作为目标病原体操作组的检测靶点。
基因的生物功能有,遗传信息的储存、遗传信息的复制以及遗传信息的表达等。在选取部分出现次数超过预设次数阈值的非重合特异性区域后,可将这些选取出的非重合特异性区域作为代表特异性区域,根据选取出的各个代表特异性区域可以组成代表特异性区域总集合。并对代表特异性区域总集合中的非重合特异性区域进行筛选。筛选的方式为,去除不具备生物功能的代表特异性区域,则可以得到具备生物功能的代表特异性区域总集合。从而可以将具备生物功能的代表特异性区域总集合中的这些具备生物功能的代表特异性区域作为检测靶点,即将具备生物功能的代表特异性区域总集合中的非重合特异性区域作为目标病原体操作组的检测靶点。
在一个实施例中,如图8所示,步骤704,包括:
步骤802,从靶点数据库中获取目标病原体操作组中包含的每个基因组的基因注释信息,基因注释信息包含有每个基因组上每个已知的有功能的区域的位置及对应的功能信息。
基因注释信息是指标注一个基因组中各个基因位置及功能的信息,因此每个基因组的基因注释信息中包含有每个基因组上每个已知的有功能的区域的位置及对应的功能信息。区域的位置包括有起止位置、正负链以及序列等,对应的功能信息包括编码蛋白的基因、编码microRNA(一类由内源基因编码的长度约为22个核苷酸的非编码单链RNA分子)的基因,编码promoter(启动子)的区域,编码调控蛋白识别结合的区域,复制起始区等。靶点数据库中存储的各个基因组的基因注释信息,可以通过NCBI的GenBank数据库(NCBI的一个开源的有注释信息的核算序列数据库)获取到对应基因组的GenBank基因注释信息,或通过Ensembl数据库(一个由欧洲生物信息研究所等组织维护的基因组序列及注释信息的数据库)获得对应基因组的基因注释信息。
在靶点数据库中存储有每个病原体操作组中包含的每个基因组的基因注释信息,因此可从靶点数据库中获取到目标病原体操作组中包含的每个基因组的基因注释信息,即可获取到目标病原体操作组中包含的每个基因组中具备生物功能的区域。
步骤804,依次从代表特异性区域总集合中选取一个代表特异性区域与全部基因组中已知的有功能的区域进行比对。
步骤806,去除与已知的有功能的区域的重合区域长度低于预设重合阈值的代表特异性区域,得到具备生物功能的代表特异性区域总集合。
代表特异性区域总集合,是根据各个基因组选取出的出现次数超过预设次数阈值的非重合特异性区域对应的非重合特异性区域集合,组成的并集。在确定代表特异性区域总集合中的每个代表特异性区域是否具备生物功能时,可依次选取出一个代表特异性区域与目标病原体操作组中的全部基因组包含的已知的有功能的区域进行比对,并判断选取出的代表特异性区域与已知的有功能的区域的重合区域是否有显著重合,即判断两个序列重合程度是否达到预先设定的重合阈值。当选取出的代表特异性区域与已知的有功能的区域的重合程度低于预设重合阈值时,则认为该代表特异性区域是不具备生物功能的,可去除这些与已知的有功能的区域的重合程度低于预设重合阈值的代表特异性区域。从而其他剩余的与已知的有功能的区域的重合区域程度高于预设重合阈值的代表特异性区域,则就是具备生物功能的代表特异性区域。
在比对判断选取出的代表特异性区域与已知的有功能的区域的重合区域是否有显著重合时,即判断两个序列重合程度是否达到预先设定的重合阈值。此处显著重合的预先设定的重合阈值可以是:重合的区域长度超过一定阈值T1,例如12bp,或重合区域的长度占特异性区域长度的百分比超过一定阈值T2,例如30%,或重合区域的长度占相关的有功能的区域的长度的百分比超过一定阈值T3,例如30%,或该特异性区域所包含的所有有功能区域的总长度占该特异性区域的长度的百分比超过一定阈值T4,例如30%。
步骤806是可选步骤,即步骤806可以不执行,但一般建议执行。因为一般具备生物功能的序列才会在选择压力的筛选下在进化过程中不发生变异,因此最后挑选出有生物功能的序列作为诊断靶点,可以有效避免在病原体进化及繁殖过程中出现在所选出的特异性区域里的发生突变,即改变序列的情况。因此能在一定程度上保证本实施例中最终所选择出的检测靶点的长时间的有效性和准确性。
在一个实施例中,如图9所示,在步骤112之后,还包括:
步骤902,将包含有出现次数超过预设次数阈值的非重合特异性区域数量最多的基因组作为代表基因组。
步骤904,将代表基因组对应的代表特异性区域集合作为PCR代表特异性区域集合。
在将选取出的出现次数超过预设次数阈值的非重合特异性区域,作为目标病原体操作组的检测靶点之后,可以根据这些选取出的非重合特异性区域在基因组中的出现次数,选出代表基因组。具体地,可统计每个基因组中包含有出现次数超过预设次数阈值的非重合特异性区域的数量,将包含有这些出现次数超过预设次数阈值的非重合特异性区域数量最多的基因组选出,作为代表基因组。
代表特异性区域是选取的在全部的非重合特异性区域集合中出现次数超过预设次数阈值的非重合特异性区域,即代表特异性区域有多个。也就是说,每个基因组中选取出的代表特异性区域可以是多个,每个基因组对应有一个代表特异性区域集合,代表特异性区域集合中包含的就是代表特异性区域。代表基因组实际上就是从目标病原体操作组包含的多个基因组中选出的一个基因组,那么代表基因组也有其对应的代表特异性区域集合。因此,可以在选出代表基因组后,将代表基因组对应的代表特异性区域集合作为PCR(聚合酶链式反应)代表特异性区域集合。
步骤906,从PCR代表特异性区域集合中选取符合预设相距距离范围的非重合特异性区域,生成符合条件的PCR特异性区域对集合。
步骤908,从符合条件的PCR特异性区域对集合中选取一个PCR特异性区域对中的两个非重合特异性区域定位至代表基因组上。
在PCR代表特异性区域集合中包含有一个或多个非重合特异性区域,可以获取到PCR代表特异性区域集合中包含的每个非重合特异性区域在代表基因组上的位置。从而可以找到在基因组上的距离符合预设相距距离范围的两个非重合特异性区域,生成符合条件的PCR特异性区域对集合。预设相距距离范围D可以是(MD-SD,MD+SD)。其中,MD可以设置为1000bp左右,SD可以设置为500bp左右。
步骤910,将选取的两个非重合特异性区域在代表基因组上行成的区间对应的序列作为待检测区间;
步骤912,根据获得的各个待检测区间组成待检测区间集合。
步骤914,对待检测区间集合中的每个待检测区间进行筛选,得到最终检测引物对集合。
假设A和B是在基因组上的距离符合预设相距距离范围的两个非重合特异性区域,那么A和B则就是符合条件的PCR特异性区域对,而A和B分别是一个PCR特异性区域。从符合条件的PCR特异性区域对集合中选取一对PCR特异性区域对中的两个PCR特异性区域,并定位到代表基因组上,则这选取的两个PCR特异性区域会在代表基因组上形成一个区间,可获取到这两个PCR特异性区域形成的区间所对应的序列,将这序列作为代表基因组的待检测区间。将符合条件的PCR特异性区域对集合中的每一对PCR特异性区域对中的两个PCR特异性区域均选取出来定位至基因组上,则能获取到各个相应的待检测区间,就能够获取到待检测区间集合。即在待检测区间集合中包含有一个或多个待检测区间。
再对待检测区间集合中的每个待检测区间进行筛选,筛选后即可得到最终检测引物对集合。筛选时可以使用自动PCR引物生成工具挑选出合适的备选的PCR引物对,比如Primer3(一个设计引物工具)。在此处,根据待检测区间得到的最终检测引物对集合中,可以包含有多个PCR引物对。
在一个实施例中,步骤902,包括:根据选取的出现次数超过预设次数阈值的非重合特异性区域得到代表特异性区域总集合;选取包含有代表特异性区域总集合中非重合特异性区域数量最多的基因组为代表基因组。
获取到每个非重合特异性区域在全部非重合特异性区域集合中的出现次数后,可以选取出出现次数超过预设次数阈值的非重合特异性区域。将选取出的这些非重合特异性区域组成代表特异性区域总集合。也就是说,在代表特异性区域总集合中包含有一个或多个在全部非重合特异性区域集合中出现次数超过预设次数阈值的非重合特异性区域。可以从代表特异性区域总集合中,选取出包含有出现次数超过预设次数阈值的非重合特异性区域(即代表特异性区域)数量最多的基因组作为代表基因组。即,选取包含有代表特异性区域总集合中非重合特异性区域数量最多的基因组为代表基因组。
在一个实施例中,如图10所示,步骤906,包括:
步骤1002,获取PCR代表特异性区域集合中每个PCR代表特异性区域在代表基因组中的位置。
步骤1004,将相距距离符合预设相距距离范围的两个非重合特异性区域作为符合条件的PCR特异性区域对;
步骤1006,根据符合条件的PCR特异性区域对生成符合条件的PCR特异性区域对集合。
在得到PCR代表特异性区域组成的PCR代表特异性区域集合后,可从PCR代表特异性区域集合中选取符合预设相距距离范围的非重合特异性区域,生成符合条件的PCR特异性区域对集合。具体地,可获取到PCR代表特异性区域集合中包含的每个PCR代表特异性区域在代表基因组中的位置,即将PCR代表特异性区域集合中包含的每个非重合特异性区域均定位至代表基因组上,可确定每个非重合特异性区域在代表基因组上的位置。从而可以获取到每两个非重合特异性区域之间的相距距离,即获取到每两个非重合特异性区域之间相隔的字符数。可选取出相距距离符合预设相距距离范围的两个非重合特异性区域。
比如,将预设相距距离范围设置为一个范围700到1300,那么可选取出相距距离在范围700到1300的两个非重合特异性区域,即相隔字符数为700到1300个的两个非重合特异性区域。将选取出的相距距离符合预设相距距离范围的两个非重合特异性区域,作为符合条件的PCR特异性区域对。进一步地,可根据选取出的符合条件的PCR特异性区域对生成符合条件的PCR特异性区域对集合。即,在符合条件的PCR特异性区域对集合中包含有一个或多个符合条件的PCR特异性区域对。
在一个实施例中,预设相距距离范围大于500bp且小于1500bp。
在本实施例中,将预设相距距离范围设置为大于500bp且小于1500bp。
在一个实施例中,步骤910,将选取的两个非重合特异性区域在代表基因组上相距最远的两段的位置作为待检测区间的边界;将待检测区间边界在代表基因组上行成的区间对应的序列作为待检测区间。
在生成符合条件的PCR特异性区域对集合后,可从符合条件的PCR特异性区域对集合中任意选取两个非重合特异性区域定位至代表基因组上,获取到选取的两个非重合特异性区域在代表基因组上的位置。可获取到选取的这两个非重合特异性区域在代表基因组上相距最远的两段的位置,即获取到其中一个非重合特异性区域首端至另一个非重合特异性区域的末端的位置。假设A和B为选取的两个非重合特异性区域,A为ACGGTCATC,B为TCATCCGAG。将A和B定位至代表基因组上,在A和B之间相隔的序列为AAAATTTTT,那么可获取到A和B在代表基因组上相距最远的两段的位置为“ACGGTCATC”中首端的A字符至“TCATCCGAG”中末端的G字符。可将字符“A”和“G”作为待检测区间的边界,那么待检测区间实际上为“ACGGTCATC”+“AAAATTTTT”+“TCATCCGAG”。即最终得到的待检测区间为“ACGGTCATCAAAATTTTT TCATCCGAG”。对符合条件的PCR特异性区域对集合中任意选取的两个非重合特异性区域均做此处理,即可得到多个对应的待检测区间。
在一个实施例中,在代表基因组上标注出选取的两个非重合特异性区域的位置,以及选取的两个非重合特异性区域之间的非特异性区域的位置。
将选取的两个非重合特异性定位至代表基因组上后,还可以还在代表基因组上标注出选取的这两个非重合特异性区域的位置,也可以记录下这两个非重合特异性区域之间的非特异性区域的位置。非特异性区域指的是不属于选取出的特异性k-mer,也不属于由特异性k-mer形成非重合特异性区域。在对非重合特异性区域的位置进行标记后,可用于确定PCR引物对。PCR引物需要用到非重合特异性区域,而PCR的特异性取决于引物,因此可以标记出哪些属于非重合特异性区域,哪些属于非特异性区域。
在一个实施例中,如图11所示,步骤912,包括:
步骤1102,运用PCR引物工具对待检测区间集合中的每个待检测区间进行筛选,得到备选PCR引物对集合。
在将选取的两个非重合特异性区域在代表基因组上行成的区间对应的序列作为待检测区间,以此方式得到多个待检测区间后,对每个待检测区间进行筛选,如可以运用PCR引物工具对待检测区间集合中的每个待检测区间进行筛选。PCR引物工具可以是Primer3。从而可以筛选出部分待检测区间,得到一个或多个备选PCR引物对集合。
步骤1104,从备选PCR引物对集合中选出针对目标病原体操作组的特异性引物对,生成与目标病原体操作组对应的特异性引物对集合。
现有的大部分自动PCR引物生成工具自动生成的一对PCR引物仅仅能够满足在所使用这个待检测区域内的引物的特异性,并不能保证在其他区域的特异性。同时,某些自动PCR引物生成工具并不能参考待检测区间内的特异性区域标注消息。因此需要进一步确定得到的备选PCR引物对集合中的引物的特异性。因此,可以从得到的备选PCR引物对集合中选出针对目标病原体操作组的特异性引物对,生成与目标病原体操作组对应的特异性引物对集合。具体地,可以使用全集中的不属于目标病原体操作组中的基因组分别作为比对参考基因组,并将一个备选PCR引物对中的两个引物分别与比对参考基因组中的序列进行比对并定位至比对参考基因组上。判断是否定位成功时,可以将比对参考基因组的引物对与定位在比对参考基因组的位置对应的序列进行对比,当序列相似度达到预设相似度阈值时,则判定引物对定位成功。定位成功的备选PCR引物对即被判定为不是目标病原体操作组相对应的特异性引物对,并从备选PCR引物对集合中去除该对引物。可根据选出的特异性引物对生成与目标病原体操作组对应的特异性引物对集合。
步骤1106,选取特异性引物对集合中符合预设引物条件的引物对,作为最终检测引物对。
步骤1108,根据最终检测引物对生成最终检测引物对集合。
在选取出针对目标病原体操作组的特异性引物对后,可以再进行进一步的筛选。从特异性引物对集合中挑选出符合预设引物条件的引物对,将这些选取的引物对作为最终检测引物对,从而生成对应的最终检测引物对集合。
在一个实施例中,如图12所示,步骤1104,包括:
步骤1202,从靶点数据库中获取全集,全集中包含有多个收集到的高可信度基因组。
步骤1204,通过全集获取到不包含于目标病原体操作组中的基因组,作为比对参考基因组。
在靶点数据库中存储有全集,在全集中包含有多个收集到的高可信度基因组。高可信度基因组是指选取出的满足预设可信度条件的基因组。因此可获知目标病原体操作组中包含的基因组,从而可从全集中去除目标病原体操作组中包含的基因组,将其他不属于目标病原体操作组中的基因组作为比对参考基因组。也就是说,比对参考基因组并不包含在目标病原体操作组中。
步骤1206,依次从备选PCR引物对集合中选取引物对定位至比对参考基因组。
步骤1208,将选取的引物对与定位在比对参考基因组的位置对应的序列进行对比,当序列相似度达到预设相似度阈值时,则判定引物对定位成功。
判定引物对是否有定位至比对参考基因组时,可将选取定位至比对参考基因的引物对,与该引物对定位至比对参考基因组时所在的位置对应的序列进行对比。当检测到引物对与所在的位置对应的序列之间的相似度达到预设相似度阈值时,则判定引物对定位成功。预设相似度阈值可由技术人员进行设置,比如可将预设相似度设置为95%,99%。则当检测到引物对与所在的位置对应的序列之间的相似度达到95%或99%时,才会判定引物对成功定位至比对参考基因组。
步骤1210,从判定为定位成功的引物对中去除满足预设比对条件的引物对,得到与目标病原体操作组对应的特异性引物对。
步骤1212,根据特异性引物对生成与目标病原体操作组对应的特异性引物对集合。
依次从备选PCR引物对集合中选取一个引物对定位至比对参考基因组,并判断选取的引物对是否有成功定位至对比参考基因组上。从判定为定位成功的引物对中,去除满足预设比对条件的引物对,留下的即为与目标病原体操作组对应的特异性引物对。可以根据特异性引物对生成与目标病原体操作组对应的特异性引物对集合。即,在目标病原体操作组对应的特异性引物对集合中,包含有一个或多个与目标病原体操作组对应的特异性引物对。
在一个实施例中,预设比对条件包括以下至少一种:选取的引物对的两个引物同时定位在同一个基因组的同一条染色体上;选取的引物对的两个引物的距离在预设距离范围内;选取的引物对的任意一个引物的3'末端存在有预设数量个碱基序列与引物对定位在比对参考基因组的位置上的碱基序列相同。
满足以上条件的引物对会被标记为非特异性引物对。而需要选取的是在判定为成功定位至比对参考基因组的引物对中,去除满足预设比对条件的引物对。也就是说,会去除这部分标记为非特异性引物对的引物对,需要的是特异性引物对。其中,预设距离范围是一个范围区间D,D可以在(MD-SD,MD+SD)这一范围内浮动,其中MD一般为1000bp,SD一般为500dp。k一般大于0.5。
在一个实施例中,符合预设引物条件包括以下至少一种:引物长度在17到28bp之间;引物退火温度在52到58摄氏度之间;GC百分比在40%到60%之间;引物的3'端为C、G、CG、或GC;引物的3'端最后5个碱基中G/C不超过3个,引物的3'端最后5个碱基内不含有连续超过2个的C或G;不包含重复序列或单核酸重复序列;不存在有两个引物之间的3'端互补,或单个引物的自互补。
在一个实施例中,如图13所示,提供了一种确定检测靶点的方法,包括以下步骤:
步骤1302,建立目标病原体操作组的特征靶点序列集合。
如图14所示,步骤1302,包括:
步骤1302A,高可信度基因组的收集与整理。
在靶点数据库中,可以存储有每个病原体操作组对应的特征靶点序列集合。在建立每个病原体操作组对应的特征靶点序列集合时,需要先对高可信度基因组数据进行收集与整理。高可信度基因组既可以包括病原体基因组,也包括非病原体基因组,例如共生菌、益生菌、人类、动物、植物等的高可信度基因组。高可信度的基因组可以来源于NCBI((National Center for Biotechnology Information,美国国立生物技术信息中心)的RefSeq数据集(RefSeq参考序列数据库,美国国家生物信息技术中心提供的具有生物意义上的非冗余的基因和蛋白质序列)或其他公共或私有的高可信度基因组。
高可信度的基因组的确认和筛选方法可以通过以下这三种方式:
1、根据一条基因组数据中所含非确定性字符的比例进行筛选。例如对于DNA基因组来说,非确定性字符的比例是指其中含有的非ACGT字符的比例,一条DNA基因组数据如果其非ACGT字符的比例过高,那么该条数据即为疑似低可信度的基因组。对于DNA或RNA序列,非确定性字符是指除去ACGTU这几个确定性字符以外的字符;对于蛋白质序列,非确定性字符则是指除了确定的氨基酸字符以外的字符。
2、根据一条完整的染色体所包括的基因组数据片段的数目进行筛选,如果有过多的片段同属于一条染色体,那么该基因组即为疑似低可信度的基因组。
3、通过与该基因组遗传关系相近的(例如遗传距离小于某一阈值)多个基因组进行全基因组序列比对,确定该基因组在其相近基因组中的全基因组平均覆盖百分比,然后根据这个全基因组平均覆盖百分比进行筛选:平均覆盖百分比过低的基因组即为疑似低完成度、即低可信度的基因组。遗传距离是指衡量物种间(或个体间)综合遗传差异大小的指标。
可将所有收集整理到的高可信度基因组统称为全集。
步骤1302B,确定目标病原体操作组中包含的基因组。
高可信度基因组是指选取出的满足预设可信度条件的基因组。在获取到高可信度基因组后,可以确定一个病原体操作组中包含的高可信度基因组,即可确定一个病原体操作组中对应包含的基因组。因此可确定目标病原体操作组中包含的基因组。目标病原体操作组是指待检测的一种病原体操作组。比如待检测的病原体操作组为金黄色葡萄球菌,那么步骤102中的目标病原体操作组则指的是金黄色葡萄球菌。
步骤1302C,生成全集的基因组出现次数索引表。
使用全集,可生成全集的基因组出现次数索引表,在全集的基因组出现次数索引表中,记录有全集中包含的每个k-mer在全集的多少个基因组中出现过。k-mer是指长度为k的基因组序列,k可自行定义,一般可将范围设置在11到32之间。如果一种基因组数据中一共有a个不同的确定性字符,那么对于一个特定的k,一共有a的k次方个可能的不同k-mer。
例如,对于DNA基因组数据,DNA一共有ACGT四种不同的确定性字符,那么对于一个特定的k,一共有4的k次方个可能的不同k-mer。对于一个长度为n的基因组,其最多可能有n-k+1个不同的k-mer。但是因为一个基因组中含有重复区域,所以一般情况下一个n字符长的基因组中包含的不同k-mer会远远小于n-k+1。因此,若使用普通的k-mer计数法,在一个给定的基因组中,一个特定的k-mer可能会出现多次,并可能进行多次计数。在本实施例中建立的全集的基因组出现次数索引表中,与之前的方法不同的是,如果一个基因组中一个k-mer出现超过一次,那么在该全集的基因组出现次数索引表中仍然仅仅计数一次。因此,在由此产生的k-mer基因组出现次数索引表中一个k-mer所对应的计数即代表着该k-mer一共在全集中多少个基因组中出现过。
如果使用的是DNA或RNA基因组序列,因为核酸序列的反向互补性,一个k-mer A出现后,其反向互补序列A'也应该被认定为已经出现,因此A和A'都应该被记录到表中。在后续步骤中,如果针对的是DNA或RNA序列的k-mer,当一个k-mer A被提及做某种操作时,默认也认为其反向互补序列A'也被提及并进行了相应的处理操作。
步骤1302D,生成目标病原体操作组对应的基因组出现次数索引表。
目标病原体操作组的基因组出现次数索引表与上述步骤1302C中的全集的基因组出现次数索引表有所不同。全集的基因组出现次数索引表记录的是全集的,也就是一个k-mer在全部的病原体操作组包含的多少个基因组中出现过,即一个k-mer在全集的多少个基因组中出现过。但目标病原体操作组对应的基因组出现次数索引表是与目标病原体操作组对应的,记录的是目标病原体操作组中包含的k-mer,在目标病原体操作组的多少个基因组中出现过。
步骤1302E,生成目标病原体操作组对应的特异性k-mer表。
目标病原体操作组对应的特异性k-mer表中记录的是目标病原体操作组中满足预设特异性条件的k-mer,即特异性k-mer。特异性k-mer是从k-mer中挑选出的符合预设特异性条件的k-mer,挑选出成为特异性k-mer的需要满足以下两个条件:
1、如果目标病原体操作组含有N个基因组,某个k-mer在目标病原体操作组对应的基因组出现次数索引表中的出现次数为C1,那么需要满足条件:C1/N+P1≥1,即在目标病原体操作组的基因组出现次数索引表中的出现次数与目标病原体操作组中包含的基因组数量的比值与第一阈值的和大于等于1,其中第一阈值P1通常小于5%。
2、如果某个k-mer在目标病原体操作组对应的基因组出现次数索引表中的出现次数为C1,该k-mer在全集的基因组出现次数索引表中的出现次数为C2,那么则需要满足条件:C1/C2+P2≥1,即在目标病原体操作组的基因组出现次数索引表中的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。其中第二阈值P2通常小于5%。
第一阈值P1与第二阈值P2可以相等,也可以不相等。在本实施例中,选取特异性k-mer时加入了第一阈值P1与第二阈值P2这两个参数,允许了在一定范围内的误差率,即允许了一定范围内的特异性k-mer的非特异性。如果没有这两个参数,则不能允许一定范围内的非特异性,那么针对某一个病原体操作组,往往很难找到特异性k-mer。
对于一个病原体操作组,如果发现有n个特异性k-mer,假设本步骤条件(1)中的P1出现情况是随机分布于该病原体操作组的各个基因组中的,那么实际上对于该病原体操作组出现假阴性的概率则小于或等于P1 n。对于足够大的n,此处可能出现的假阴性的可能性将极小。同时,如果最终实际检测到该病原体操作组有n'个特异性k-mer,假设本步骤条件(2)中的P2出现情况是随机分布于非本病原体操作组的各个其他基因组中的,那么实际上对于该病原体操作组出现假阳性的概率则小于或等于P1 n'(即P2的n'次方)。对于足够大的n',此处可能出现的假阳性的可能性将极小。假阴性率是指在测试中产生阴性测试结果的阳性的比例,即考虑到正在查找的状况存在阴性测试结果的条件概率。
步骤1304,确定目标病原体操作组的检测靶点。
如图15所示,步骤1304,包括:
步骤1304A,依次将目标病原体操作组中包含的每个基因组作为参考基因组,将目标病原体操作组中包含的每个特异性k-mer定位至参考基因组。
依次将目标病原体操作组中包含的每个基因组作为参考基因组,将目标病原体操作组对应的特异性k-mer表中的每个特异性k-mer定位至参考基因组。由于特异性k-mer是预先挑选出来符合预设特异性条件的k-mer,因此会存在有部分特异性k-mer无法定位到基因组上的情况。可以将成功定位至参考基因组的特异性k-mer作为该参考基因组中包含的特异性k-mer。也就是说,有的特异性k-mer是无法定位至某个基因组上的,则可以认为该特异性k-mer并不是该基因组中包含的。因此本实施例中的定位也可以认为是再次确认各个基因组中包含的特异性k-mer。由于可能存在位移的情况,因此通过这种定位操作,对每个基因组中包含的特异性k-mer进行二次确认,增加容错几率。
步骤1304B,依次从参考基因组中选取一个区域与特异性k-mer进行比较,当检测到选取的区域与特异性k-mer的相似度达到预设相似阈值时,则将特异性k-mer作为参考基因组包含的特异性k-mer。
步骤1304C,依次选取参考基因组中包含的两个特异性k-mer进行检测。
步骤1304D,当检测到选取的两个特异性k-mer在参考基因组上的距离小于预设距离阈值时,则将选取的两个特异性k-mer进行替换,得到非重合特异性区域。
步骤1304E,通过获得的每个基因组中的各个非重合特异性区域生成与每个基因组对应的非重合特异性区域集合。
可以依次选取基因组中包含的两个特异性k-mer进行检测,检测选取的两个特异性k-mer在基因组上的距离是否小于预设距离阈值,若是,则将选取的两个特异性k-mer进行替换。当检测到选取的两个特异性k-mer在基因组上的距离小于或等于0时,则对这两个特异性k-mer的替换方式可以是,取能覆盖选取的两个特异性k-mer的最小区域替换选取的两个特异性k-mer。也就是一个区域替换这两个特异性k-mer,此区域就是根据这两个特异性k-mer得到的非重合特异性区域。也可以是截取选取的这两个特异性k-mer在基因组上定位的那一段序列作为对应的非重合特异性区域。预设距离阈值可以是一个负数,也可以为0,一般设置为小于5的整数。当选取的这两个特异性k-mer在基因组上的距离为0时,意味着选取的这两个特异性k-mer直接相邻并相接。距离为负数时,意味着选取的这两个特异性k-mer有一定数量的碱基对的重合。
在对特异性k-mer进行处理得到非重合特异性区域时,可能存在的情况是,两个特异性k-mer进行替换能得到一个非重合特异性区域,也可能是三个特异性k-mer进行替换能得到一个非重合特异性区域,或者也可以是多个特异性k-mer进行替换能得到的非重合特异性区域。因此得到的非重合特异性区域的长度并无限制。若选取的两个特异性k-mer在基因组上的距离并未小于预设距离阈值,则无需处理。针对每个基因组均做此处理后,即可得到每个基因组中包含的非重合特异性区域集合。在每个基因组对应的非重合特异性区域集合中包含的是该基因组中的非重合特异性区域。
步骤1304F,获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数。
在得到每个基因组对应的非重合特异性区域集合后,可获取每个非重合特异性区域集合中每个非重合特异性区域在全部的非重合特异性区域集合中的出现次数。可以将每个基因组对应的非重合特异性区域集合看做是一个小的集合,将全部的基因组的非重合特异性区域集合组成非重合特异性区域全集,即由多个小的集合组成了全集。在非重合特异性区域全集中包含有全部的基因组中的非重合特异性区域,因此可获取到每个基因组各自的非重合特异性区域集合中的每个非重合特异性区域,在重合特异性区域全集中的出现次数。
假设得到了N个基因组对应的N个非重合特异性区域集合,一般情况下,一个非重合特异性区域并不会在每一个基因组中都出现,因此每个非重合特异性区域在全部的非重合特异性区域集合中的出现次数一般会小于等于N。
步骤1304G,选取出现次数超过预设次数阈值的非重合特异性区域作为目标病原体操作组的检测靶点。
在获取到每个非重合特异性区域在全部的非重合特异性区域集合中的出现次数后,可从中选取出现次数超过预设次数阈值的非重合特异性区域作为目标病原体操作组的检测靶点。预设次数阈值可由技术人员根据实际项目需求设定。选取出的非重合特异性区域可以是多个,也可以对应多个基因组。
挑选出来的非重合特异性区域都有如下特点:(1)长度一般比目标病原体操作的特征靶点序列中得到的k-mer都要长很多;(2)基本上都在目标病原体操作组包含所有的基因组中出现过;(3)基本上都没有在不是目标病原体操作组的基因组中出现过。这些特点可以满足大部分诊断检测技术中所需要使用的检测靶点的技术需求。因此将挑选出来的各个非重合特异性区域,再按照某一特定诊断检测技术的检测靶点的技术需求进行简单筛选(例如满足长度,CG含量百分比,退火温度等的条件),最后就可以得到满足检测靶点技术需求的非重合特异性区域,即组成了最终的可以用于检测目标病原体操作组的检测靶点集合。用户根据该检测靶点集合中的序列,就可以合成及制造适用于该特定的诊断检测技术的分子探针。
步骤1304H,将选取的出现次数超过预设次数阈值的非重合特异性区域作为代表特异性区域,将包含有出现次数超过预设次数阈值的非重合特异性区域数量最多的基因组作为代表基因组。
步骤1304I,将代表基因组对应的代表特异性区域集合作为PCR代表特异性区域集合。
在将选取出的出现次数超过预设次数阈值的非重合特异性区域,作为目标病原体操作组的检测靶点之后,可以根据这些选取出的非重合特异性区域在基因组中的出现次数,选出代表基因组。可统计每个基因组中包含有出现次数超过预设次数阈值的非重合特异性区域的数量,将包含有这些出现次数超过预设次数阈值的非重合特异性区域数量最多的基因组选出,作为代表基因组。实际上,代表基因组中包含的非重合特异性区域就是确定的目标病原体操作组的检测靶点。
代表特异性区域是选取的在全部的非重合特异性区域集合中出现次数超过预设次数阈值的非重合特异性区域,即代表特异性区域有多个。也就是说,每个基因组中选取出的代表特异性区域可以是多个,每个基因组对应有一个代表特异性区域集合,代表特异性区域集合中包含的就是代表特异性区域。代表基因组实际上就是从目标病原体操作组包含的多个基因组中选出的一个基因组,那么代表基因组也有其对应的代表特异性区域集合。因此,可以在选出代表基因组后,将代表基因组对应的代表特异性区域集合作为PCR(聚合酶链式反应)代表特异性区域集合。
具体地,在步骤1304I之前需要去除部分不具备生物功能的非重合特异性区域,以得到具备生物功能的代表特异性区域。对于目标病原体操作组中包含的每一个基因组,可从靶点数据库中获取到每一个基因组的基因注释信息。基因注释信息是指标注一个基因组中各个基因位置及功能的信息,因此每个基因组的基因注释信息中包含有每个基因组上每个已知的有功能的区域的位置及对应的功能信息。例如通过NCBI的GenBank数据库获得该基因组的GenBank基因注释信息,或通过Ensembl数据库获得该基因组的基因注释信息。该类基因注释信息包括该基因组上任何一个已知的有功能的区域的位置及该区域所对应的功能信息。位置包括起止位置、正负链、序列等,功能信息,是指如编码蛋白的基因,编码microRNA的基因,编码promoter的区域,编码调控蛋白识别结合的区域,复制起始区等。
可以根据获取到的目标病原体操作组中各个基因组的基因注释信息,对每个代表基因组中包含的各个非重合特异性区域进行筛选。代表特异性区域是选取出的出现次数超过预设次数阈值的非重合特异性区域。在确定每个代表特异性区域是否具备生物功能时,可依次选取出一个代表特异性区域与目标病原体操作组中的全部基因组包含的已知的有功能的区域进行比对,并判断选取出的代表特异性区域与已知的有功能的区域的重合区域是否有显著重合,即判断两个序列重合程度是否达到预先设定的重合阈值。当选取出的代表特异性区域与已知的有功能的区域的重合程度低于预设重合阈值时,则认为该代表特异性区域是不具备生物功能的,可去除这些与已知的有功能的区域的重合程度低于预设重合阈值的代表特异性区域。从而其他剩余的与已知的有功能的区域的重合区域程度高于预设重合阈值的代表特异性区域,则就是具备生物功能的代表特异性区域。
在比对判断选取出的代表特异性区域与已知的有功能的区域的重合区域是否有显著重合时,即判断两个序列重合程度是否达到预先设定的重合阈值。此处显著重合的预先设定的重合阈值可以是:重合的区域长度超过一定阈值T1,例如12bp,或重合区域的长度占特异性区域长度的百分比超过一定阈值T2,例如30%,或重合区域的长度占相关的有功能的区域的长度的百分比超过一定阈值T3,例如30%,或该特异性区域所包含的所有有功能区域的总长度占该特异性区域的长度的百分比超过一定阈值T4,例如30%。
步骤1304J,从PCR代表特异性区域集合中选取符合预设相距距离范围的非重合特异性区域,生成符合条件的PCR特异性区域对集合。
在PCR代表特异性区域集合中包含有一个或多个非重合特异性区域,可以获取到PCR代表特异性区域集合中包含的每个非重合特异性区域在代表基因组上的位置。从而可以找到在基因组上的距离符合预设相距距离范围的两个非重合特异性区域,生成符合条件的PCR特异性区域对集合。预设相距距离范围D可以是(MD-SD,MD+SD)。其中,MD可以设置为1000bp左右,SD可以设置为500bp左右。
步骤1304K,从符合条件的PCR特异性区域对集合中选取一个PCR特异性区域对中的两个非重合特异性区域定位至代表基因组上,将选取的两个非重合特异性区域在代表基因组上行成的区间对应的序列作为待检测区间。
步骤1304L,对每个待检测区间进行筛选,得到最终检测引物对集合。
从符合条件的PCR特异性区域对集合中选取一对PCR特异性区域对中的两个PCR特异性区域,并定位到代表基因组上,则这选取的两个PCR特异性区域会在代表基因组上形成一个区间,可获取到这两个PCR特异性区域形成的区间所对应的序列,将这序列作为代表基因组的待检测区间。将符合条件的PCR特异性区域对集合中的每一对PCR特异性区域对中的两个PCR特异性区域均选取出来定位至基因组上,则能获取到各个相应的待检测区间,就能够获取到待检测区间集合。即在待检测区间集合中包含有一个或多个待检测区间。
以此方式得到多个待检测区间后,对每个待检测区间进行筛选,如可以运用PCR引物工具对待检测区间集合中的每个待检测区间进行筛选。PCR引物工具可以是Primer3。从而可以筛选出部分待检测区间,得到一个或多个备选PCR引物对集合。现有的大部分自动PCR引物生成工具自动生成的一对PCR引物仅仅能够满足在所使用这个待检测区域内的引物的特异性,并不能保证在其他区域的特异性。同时,某些自动PCR引物生成工具并不能参考待检测区间内的特异性区域标注消息。因此需要进一步确定得到的备选PCR引物对集合中的引物的特异性。因此,可以从得到的备选PCR引物对集合中选出针对目标病原体操作组的特异性引物对,生成与目标病原体操作组对应的特异性引物对集合。
具体地,可以使用全集中的不属于目标病原体操作组中的基因组分别作为比对参考基因组,并将一个备选PCR引物对中的两个引物分别与比对参考基因组中的序列进行比对并定位至比对参考基因组上。判断是否定位成功时,可以将比对参考基因组的引物对与定位在比对参考基因组的位置对应的序列进行对比,当序列相似度达到预设相似度阈值时,则判定引物对定位成功。定位成功的备选PCR引物对即被判定为不是目标病原体操作组相对应的特异性引物对,并从备选PCR引物对集合中去除该队引物。可根据选出的特异性引物对生成与目标病原体操作组对应的特异性引物对集合。在选取出针对目标病原体操作组的特异性引物对后,可以再进行进一步的筛选。从特异性引物对集合中挑选出符合预设引物条件的引物对,将这些选取的引物对作为最终检测引物对,从而生成对应的最终检测引物对集合。
符合预设引物条件包括以下至少一种:引物长度在17到28bp之间;引物退火温度在52到58摄氏度之间;GC百分比在40%到60%之间;引物的3'端为C、G、CG、或GC;引物的3'端最后5个碱基中G/C不超过3个,引物的3'端最后5个碱基内不含有连续超过2个的C或G;不包含重复序列或单核酸重复序列;不存在有两个引物之间的3'端互补,或单个引物的自互补。
针对一个选定的目标病原体操作组,需要先运行步骤1302中的流程再运行步骤1304中的流程。如果病原体的基因组数据,或背景基因组的数据被更新了,那么就需要重新运行步骤1302和步骤1304。
应该理解的是,虽然各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图16所示,提供了一种确定检测靶点的装置,包括
确定模块1602,用于确定待检测的目标病原体操作组。
特异性k-mer获取模块1604,用于从靶点数据库中获取目标病原体操作组中包含的特异性k-mer,特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列;确定目标病原体操作组中包含的每个基因组中包含的特异性k-mer。
非重合特异性区域获取模块1606,用于对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,非重合特异性区域集合中包含有非重合特异性区域。
检测靶点选取模块1608,用于获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;取出现次数超过预设次数阈值的非重合特异性区域作为目标病原体操作组的检测靶点。
在一个实施例中,上述特异性k-mer获取模块1604还用于依次将目标病原体操作组中包含的每个基因组作为参考基因组;将目标病原体操作组中包含的每个特异性k-mer定位至参考基因组;将定位至参考基因组的特异性k-mer作为参考基因组包含的特异性k-mer。
在一个实施例中,上述特异性k-mer获取模块1604还用于依次从参考基因组中选取一个区域与特异性k-mer进行比较;当检测到选取的区域与特异性k-mer的相似度达到预设相似阈值时,则将特异性k-mer作为参考基因组包含的特异性k-mer。
在一个实施例中,上述特异性k-mer获取模块1604还用于依次从参考基因组中选取与特异性k-mer长度相同的序列,将选取的与特异性k-mer长度相同的序列与特异性k-mer进行比较;当检测到选取的序列与特异性k-mer相同时,则将特异性k-mer作为参考基因组包含的特异性k-mer。
在一个实施例中,上述装置还包括数据建立模块(图中未示出),用于获取预先选取的满足预设可信度条件的基因组作为高可信度基因组;确定每个病原体操作组包括的高可信度基因组,作为每个病原体操作组对应的基因组。
在一个实施例中,满足预设可信度条件包括以下任意一种:基因组序列中包含的非确定性字符的比例低于预设比例阈值时;基因组序列中包含的属于同一条染色体的序列片段低于预设片段阈值时;将某一基因组序列与其他所有遗传关系符合预设遗传距离阈值范围的基因组序列进行序列比对,以确定该基因组序列在其相近的基因组序列中的全序列平均覆盖百分比,当该平均覆盖百分比高于预设百分比值时。
在一个实施例中,上述非重合特异性区域获取模块1606还用于将每个基因组包含的特异性k-mer定位至该基因组上;依次选取每个基因组包含的所述特异性k-mer和/或所述非重合特异性区域进行检测;当检测到选取的特异性k-mer和/或非重合特异性区域在所述基因组上的距离小于预设距离阈值时,则将选取的特异性k-mer和/或非重合特异性区域进行替换,得到替换后的非重合特异性区域;根据最终所保留的特异性k-mer和替换后的非重合特异性区域得到每个基因组对应的非重合特异性区域集合。
在一个实施例中,上述非重合特异性区域获取模块1606还用于选取每个基因组包含的特异性k-mer和/或非重合特异性区域进行检测;当检测到选取的特异性k-mer和/或非重合特异性区域在基因组上的距离小于预设距离阈值时,则将选取的特异性k-mer和/或非重合特异性区域进行替换,得到替换后的非重合特异性区域;根据最终所保留的特异性k-mer和替换后的非重合特异性区域与替换后的非重合特异性区域得到每个基因组对应的非重合特异性区域集合。
在一个实施例中,上述非重合特异性区域获取模块1606还用于当检测到选取的特异性k-mer和/或非重合特异性区域在基因组上的距离小于或等于零时,则取能覆盖选取的两个特异性k-mer的最小区域替换选取的两个特异性k-mer,得到非重合特异性区域;当检测到选取的特异性k-mer和/或非重合特异性区域在基因组上的距离大于零时,则获取选取的两个特异性k-mer和/或非重合特异性区域在定位的基因组上中间间隔的序列;将选取的两个特异性k-mer和中间间隔的序列依次进行拼接,得到拼接序列;将选取的两个特异性k-mer替换成拼接序列,得到非重合特异性区域。
在一个实施例中,预设距离阈值小于5。
在一个实施例中,上述检测靶点选取模块1608还用于将所述目标病原体操作组中包含的每个基因组对应的非重合特异性区域集合进行汇总,得到非重合特异性区域并集;获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在非重合特异性区域并集中的出现次数。
在一个实施例中,预设次数阈值=(1-Y)*N,其中,Y为预设第一条件阈值,N为非重合特异性区域集合的数量。
在一个实施例中,预设第一条件阈值小于5%。
在一个实施例中,上述装置还包括引物筛选模块(图中未示出),用于将选取的出现次数超过预设次数阈值的非重合特异性区域作为代表特异性区域;根据获得的各个代表特异性区域组成代表特异性区域总集合;去除代表特异性区域总集合中不具备生物功能的代表特异性区域,得到具备生物功能的代表特异性区域总集合;将具备生物功能的代表特异性区域总集合中的非重合特异性区域作为目标病原体操作组的检测靶点。
在一个实施例中,上述引物筛选模块还用于从靶点数据库中获取目标病原体操作组中包含的每个基因组的基因注释信息,基因注释信息包含有每个基因组上每个已知的有功能的区域的位置及对应的功能信息;依次从代表特异性区域总集合中选取一个代表特异性区域与全部基因组中已知的有功能的区域进行比对;去除与已知的有功能的区域的重合区域长度低于预设重合阈值的代表特异性区域,得到具备生物功能的代表特异性区域总集合。
在一个实施例中,上述引物筛选模块还用于将包含有出现次数超过预设次数阈值的非重合特异性区域数量最多的基因组作为代表基因组;将代表基因组对应的代表特异性区域集合作为PCR代表特异性区域集合;从PCR代表特异性区域集合中选取符合预设相距距离范围的非重合特异性区域,生成符合条件的PCR特异性区域对集合;从符合条件的PCR特异性区域对集合中选取一个PCR特异性区域对中的两个PCR特异性区域定位至代表基因组上;将选取的两个PCR特异性区域在代表基因组上行成的区间对应的序列作为待检测区间;根据获得的各个待检测区间组成待检测区间集合;对待检测区间集合中的每个待检测区间进行筛选,得到最终检测引物对集合。
在一个实施例中,上述引物筛选模块还用于根据选取的出现次数超过预设次数阈值的非重合特异性区域得到代表特异性区域总集合;选取包含有代表特异性区域总集合中非重合特异性区域数量最多的基因组为代表基因组。
在一个实施例中,上述引物筛选模块还用于获取PCR代表特异性区域集合中每个PCR代表特异性区域在代表基因组中的位置;将相距距离符合预设相距距离范围的两个PCR代表特异性区域作为符合条件的PCR特异性区域对;根据符合条件的PCR特异性区域对生成符合条件的PCR特异性区域对集合。
在一个实施例中,预设相距距离范围大于500bp且小于1500bp。
在一个实施例中,上述引物筛选模块还用于将选取的一个PCR特异性区域对中的两个非重合特异性区域在代表基因组上相距最远的两段的位置作为待检测区间的边界;将待检测区间边界在代表基因组上行成的区间对应的序列作为待检测区间。
在一个实施例中,上述引物筛选模块还用于在代表基因组上标注出选取的两个非重合特异性区域的位置,以及选取的两个非重合特异性区域之间的非特异性区域的位置。
在一个实施例中,上述引物筛选模块还用于运用PCR引物工具对待检测区间集合中的每个待检测区间进行筛选,得到备选PCR引物对集合;从备选PCR引物对集合中选出针对目标病原体操作组的特异性引物对,生成与目标病原体操作组对应的特异性引物对集合;选取特异性引物对集合中符合预设引物条件的引物对,作为最终检测引物对;根据最终检测引物对生成最终检测引物对集合。
在一个实施例中,上述引物筛选模块还用于从靶点数据库中获取全集,全集中包含有多个收集到的高可信度基因组;通过全集获取到不包含于目标病原体操作组中的基因组,作为比对参考基因组;依次从备选PCR引物对集合中选取引物对定位至比对参考基因组;将选取的引物对与定位在比对参考基因组的位置对应的序列进行对比,当序列相似度达到预设相似度阈值时,则判定引物对定位成功;从判定为定位成功的引物对中去除满足预设比对条件的引物对,得到与目标病原体操作组对应的特异性引物对;根据特异性引物对生成与目标病原体操作组对应的特异性引物对集合。
在一个实施例中,上述引物筛选模块还用于将选取的引物对与定位在比对参考基因组的位置对应的序列进行对比,当序列相似度达到预设相似度阈值时,则判定引物对定位成功。
在一个实施例中,预设比对条件包括以下至少一种:选取的引物对的两个引物同时定位在同一个基因组的同一条染色体上;选取的引物对的两个引物的距离在预设距离范围内;选取的引物对的任意一个引物的3'末端存在有预设数量个碱基序列与引物对定位在比对参考基因组的位置上的碱基序列相同。
在一个实施例中,符合预设引物条件包括以下至少一种:引物长度在17到28bp之间;引物退火温度在52到58摄氏度之间;GC百分比在40%到60%之间;引物的3'端为C、G、CG、或GC;引物的3'端最后5个碱基中G/C不超过3个,引物的3'端最后5个碱基内不含有连续超过2个的C或G;不包含重复序列或单核酸重复序列;不存在有两个引物之间的3'端互补,或单个引物的自互补。
在一个实施例中,特异性k-mer中的k-mer满足以下两个条件:在目标病原体操作组对应的基因组出现次数索引表中的出现次数满足第一预设误差条件;在目标病原体操作组对应的基因组出现次数索引表中的出现次数,以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件;目标病原体操作组对应的基因组次数索引表记录了目标病原体操作组包含的基因组中包含有每个k-mer的基因组的个数;全集的基因组出现次数索引表记录了在全集包含的基因组中包含有每个k-mer的基因组的个数。
在一个实施例中,第一预设误差条件为:在目标病原体操作组的基因组出现次数索引表中的出现次数与目标病原体操作组中包含的基因组数量的比值与第一阈值的和大于等于1。
在一个实施例中,第一阈值小于5%。
在一个实施例中,第二预设误差条件为:在目标病原体操作组的基因组出现次数索引表中的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。
在一个实施例中,第二阈值小于5%。
关于确定检测靶点的装置的具体限定可以参见上文中对于确定检测靶点的方法的限定,在此不再赘述。上述确定检测靶点的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储确定检测靶点的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种确定检测靶点的方法。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现本申请任意一个实施例中提供的确定检测靶点的方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请任意一个实施例中提供的确定检测靶点的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (27)

1.一种确定检测靶点的方法,所述方法包括:
确定待检测的目标病原体操作组;
从靶点数据库中获取所述目标病原体操作组中包含的特异性k-mer,所述特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列;
确定所述目标病原体操作组中包含的每个基因组中包含的特异性k-mer;
对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,所述非重合特异性区域集合中包含有非重合特异性区域;
获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;
选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标病原体操作组中包含的每个基因组中包含的特异性k-mer,包括:
依次将所述目标病原体操作组中包含的每个基因组作为参考基因组;
将所述目标病原体操作组中包含的每个特异性k-mer定位至所述参考基因组;
将定位至所述参考基因组的特异性k-mer作为所述参考基因组包含的特异性k-mer。
3.根据权利要求1所述的方法,其特征在于,在所述确定待检测的目标病原体操作组之前,还包括:
获取预先选取的满足预设可信度条件的基因组作为高可信度基因组;
确定每个病原体操作组包括的高可信度基因组,作为每个病原体操作组对应的基因组。
4.根据权利要求3所述的方法,其特征在于,所述满足预设可信度条件包括以下任意一种:
基因组序列中包含的非确定性字符的比例低于预设比例阈值时;
基因组序列中包含的属于同一条染色体的序列片段低于预设片段阈值时;
将某一基因组序列与其他所有遗传关系符合预设遗传距离阈值范围的基因组序列进行序列比对,以确定该基因组序列在其相近的基因组序列中的全序列平均覆盖百分比,当该平均覆盖百分比高于预设百分比值时。
5.根据权利要求1所述的方法,其特征在于,所述对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,包括:
将每个基因组包含的特异性k-mer定位至该基因组上;
依次选取每个基因组包含的所述特异性k-mer和/或所述非重合特异性区域进行检测;
当检测到选取的特异性k-mer和/或非重合特异性区域在所述基因组上的距离小于预设距离阈值时,则将选取的特异性k-mer和/或非重合特异性区域进行替换,得到替换后的非重合特异性区域;
根据最终所保留的特异性k-mer和替换后的非重合特异性区域得到每个基因组对应的非重合特异性区域集合。
6.根据权利要求5所述的方法,其特征在于,所述将选取的两个特异性k-mer进行替换,得到非重合特异性区域,包括:
当检测到选取的特异性k-mer和/或非重合特异性区域在所述基因组上的距离小于或等于零时,则取能覆盖选取的两个特异性k-mer的最小区域替换选取的两个特异性k-mer,得到非重合特异性区域;
当检测到选取的特异性k-mer和/或非重合特异性区域在所述基因组上的距离大于零时,则获取所述选取的两个特异性k-mer和/或非重合特异性区域在定位的基因组上中间间隔的序列;
将所述选取的两个特异性k-mer和所述中间间隔的序列依次进行拼接,得到拼接序列;
将所述选取的两个特异性k-mer替换成拼接序列,得到非重合特异性区域。
7.根据权利要求5所述的方法,其特征在于,所述预设距离阈值小于5。
8.根据权利要求1所述的方法,其特征在于,所述获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数,包括:
将所述目标病原体操作组中包含的每个基因组对应的非重合特异性区域集合进行汇总,得到非重合特异性区域并集;
获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在所述非重合特异性区域并集中的出现次数。
9.根据权利要求1所述的方法,其特征在于,所述预设次数阈值=(1-Y)*N,其中,Y为预设第一条件阈值,N为非重合特异性区域集合的数量。
10.根据权利要求9所述的方法,其特征在于,所述预设第一条件阈值小于5%。
11.根据权利要求1所述的方法,其特征在于,在所述选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点之后,还包括:
将选取的所述出现次数超过预设次数阈值的非重合特异性区域作为代表特异性区域;
根据获得的各个代表特异性区域组成代表特异性区域总集合;
去除所述代表特异性区域总集合中不具备生物功能的代表特异性区域,得到具备生物功能的代表特异性区域总集合;
将所述具备生物功能的代表特异性区域总集合中的非重合特异性区域作为所述目标病原体操作组的检测靶点。
12.根据权利要求11所述的方法,其特征在于,所述去除所述代表特异性区域总集合中不具备生物功能的代表特异性区域,得到具备生物功能的代表特异性区域总集合,包括:
从所述靶点数据库中获取所述目标病原体操作组中包含的每个基因组的基因注释信息,所述基因注释信息包含有每个基因组上每个已知的有功能的区域的位置及对应的功能信息;
依次从代表特异性区域总集合中选取一个代表特异性区域与全部基因组中已知的有功能的区域进行比对;
去除与所述已知的有功能的区域的重合区域长度低于预设重合阈值的代表特异性区域,得到具备生物功能的代表特异性区域总集合。
13.根据权利要求1所述的方法,其特征在于,在所述选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点之后,还包括:
将包含有所述出现次数超过预设次数阈值的非重合特异性区域数量最多的基因组作为代表基因组;
将所述代表基因组对应的代表特异性区域集合作为PCR代表特异性区域集合;
从所述PCR代表特异性区域集合中选取符合预设相距距离范围的非重合特异性区域,生成符合条件的PCR特异性区域对集合;
从所述符合条件的PCR特异性区域对集合中选取一个PCR特异性区域对中的两个非重合特异性区域定位至所述代表基因组上;
将选取的两个非重合特异性区域在所述代表基因组上行成的区间对应的序列作为待检测区间;
根据获得的各个待检测区间组成待检测区间集合;
对所述待检测区间集合中的每个待检测区间进行筛选,得到最终检测引物对集合。
14.根据权利要求13所述的方法,其特征在于,所述从所述PCR代表特异性区域集合中选取符合预设相距距离范围的非重合特异性区域,生成符合条件的PCR特异性区域对集合,包括:
获取所述PCR代表特异性区域集合中每个PCR代表特异性区域在所述代表基因组中的位置;
将相距距离符合预设相距距离范围的两个PCR代表特异性区域作为符合条件的PCR特异性区域对;
根据所述符合条件的PCR特异性区域对生成符合条件的PCR特异性区域对集合。
15.根据权利要求14所述的方法,其特征在于,所述预设相距距离范围大于500bp且小于1500bp。
16.根据权利要求13所述的方法,其特征在于,所述对所述待检测区间集合中的每个待检测区间进行筛选,得到最终检测引物对集合,包括:
运用PCR引物工具对所述待检测区间集合中的每个待检测区间进行筛选,得到备选PCR引物对集合;
从所述备选PCR引物对集合中选出针对所述目标病原体操作组的特异性引物对,生成与所述目标病原体操作组对应的特异性引物对集合;
选取所述特异性引物对集合中符合预设引物条件的引物对,作为最终检测引物对;
根据所述最终检测引物对生成最终检测引物对集合。
17.根据权利要求16所述的方法,其特征在于,所述从所述备选PCR引物对集合中选出针对所述目标病原体操作组的特异性引物对,生成与所述目标病原体操作组对应的特异性引物对集合,包括:
从所述靶点数据库中获取全集,全集中包含有多个收集到的高可信度基因组;
通过所述全集获取到不包含于所述目标病原体操作组中的基因组,作为比对参考基因组;
依次从所述备选PCR引物对集合中选取引物对定位至所述比对参考基因组;
将所述选取的引物对与定位在所述比对参考基因组的位置对应的序列进行对比,当序列相似度达到预设相似度阈值时,则判定所述引物对定位成功;
从判定为定位成功的引物对中去除满足预设比对条件的引物对,得到与所述目标病原体操作组对应的特异性引物对;
根据所述特异性引物对生成与所述目标病原体操作组对应的特异性引物对集合。
18.根据权利要求17所述的方法,其特征在于,所述预设比对条件包括以下至少一种:
所述选取的引物对的两个引物同时定位在同一个基因组的同一条染色体上;
所述选取的引物对的两个引物的距离在预设距离范围内;
所述选取的引物对的任意一个引物的3'末端存在有预设数量个碱基序列与所述引物对定位在所述比对参考基因组的位置上的碱基序列相同。
19.根据权利要求16所述的方法,其特征在于,所述符合预设引物条件包括以下至少一种:
引物长度在17到28bp之间;
引物退火温度在52到58摄氏度之间;
GC百分比在40%到60%之间;
引物的3'端为C、G、CG、或GC;
引物的3'端最后5个碱基中G/C不超过3个,引物的3'端最后5个碱基内不含有连续超过2个的C或G;不包含重复序列或单核酸重复序列;
不存在有两个引物之间的3'端互补,或单个引物的自互补。
20.根据权利要求1所述的方法,其特征在于,所述特异性k-mer中的k-mer满足以下两个条件:
在目标病原体操作组对应的基因组出现次数索引表中的出现次数满足第一预设误差条件;在所述目标病原体操作组对应的基因组出现次数索引表中的出现次数,以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件;
所述目标病原体操作组对应的基因组次数索引表记录了所述目标病原体操作组包含的基因组中包含有每个k-mer的基因组的个数;所述全集的基因组出现次数索引表记录了在全集包含的基因组中包含有每个k-mer的基因组的个数。
21.根据权利要求20的方法,其特征在于,第一预设误差条件为:在所述目标病原体操作组的基因组出现次数索引表中的出现次数与所述目标病原体操作组中包含的基因组数量的比值与第一阈值的和大于等于1。
22.根据权利要求21的方法,其特征在于,第一阈值小于5%。
23.根据权利要求20的方法,其特征在于,第二预设误差条件为:在所述目标病原体操作组的基因组出现次数索引表中的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。
24.根据权利要求23的方法,其特征在于,第二阈值小于5%。
25.一种确定检测靶点的装置,其特征在于,所述装置包括:
确定模块,用于确定待检测的目标病原体操作组;
特异性k-mer获取模块,用于从靶点数据库中获取所述目标病原体操作组中包含的特异性k-mer,所述特异性k-mer为满足预设特异性条件的k-mer,k-mer是指长度为k的基因组序列;确定所述目标病原体操作组中包含的每个基因组中包含的特异性k-mer;
非重合特异性区域获取模块,用于对每个基因组包含的特异性k-mer进行处理,得到每个基因组对应的非重合特异性区域集合,所述非重合特异性区域集合中包含有非重合特异性区域;
检测靶点选取模块,用于获取每个基因组对应的非重合特异性区域集合中包含的每个非重合特异性区域在全部非重合特异性区域集合中的出现次数;选取所述出现次数超过预设次数阈值的非重合特异性区域作为所述目标病原体操作组的检测靶点。
26.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至24中任一项所述方法的步骤。
27.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至24中任一项所述的方法的步骤。
CN201810651693.9A 2018-06-22 2018-06-22 确定检测靶点的方法、装置、计算机设备和存储介质 Active CN110021365B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810651693.9A CN110021365B (zh) 2018-06-22 2018-06-22 确定检测靶点的方法、装置、计算机设备和存储介质
PCT/CN2018/111924 WO2019242186A1 (zh) 2018-06-22 2018-10-25 确定检测靶点的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810651693.9A CN110021365B (zh) 2018-06-22 2018-06-22 确定检测靶点的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110021365A true CN110021365A (zh) 2019-07-16
CN110021365B CN110021365B (zh) 2021-01-22

Family

ID=67188391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810651693.9A Active CN110021365B (zh) 2018-06-22 2018-06-22 确定检测靶点的方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110021365B (zh)
WO (1) WO2019242186A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326210A (zh) * 2020-03-11 2020-06-23 中国科学院生态环境研究中心 一种基于k-mer算法的引物设计方法及系统
CN112634983A (zh) * 2021-01-08 2021-04-09 江苏先声医疗器械有限公司 病原物种特异pcr引物优化设计方法
CN116597893A (zh) * 2023-06-14 2023-08-15 北京金匙医学检验实验室有限公司 预测耐药基因-病原微生物归属的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060286566A1 (en) * 2005-02-03 2006-12-21 Helicos Biosciences Corporation Detecting apparent mutations in nucleic acid sequences
CN102222175A (zh) * 2011-05-06 2011-10-19 西南大学 一种与miRNA相关的功能性分子标记的开发方法
CN102270282A (zh) * 2010-06-01 2011-12-07 上海聚类生物科技有限公司 一种microRNA编码区靶基因预测的方法
CN103571833A (zh) * 2013-11-18 2014-02-12 四川农业大学 一种ssr标记引物设计方法、小麦ssr标记引物
US20140288844A1 (en) * 2013-03-15 2014-09-25 Cosmosid Inc. Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
US20160191076A1 (en) * 2014-08-29 2016-06-30 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
US20170335388A1 (en) * 2015-11-04 2017-11-23 Vineland Research and Innovations Centre Inc. High throughput method of screening a population for members comprising mutation(s) in a target sequence using alignment-free sequence analysis
CN107532332A (zh) * 2015-04-24 2018-01-02 犹他大学研究基金会 用于多重分类学分类的方法和系统
CN108090327A (zh) * 2017-12-20 2018-05-29 吉林大学 包含三维自由能的外源性miRNA调控靶基因预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030143554A1 (en) * 2001-03-31 2003-07-31 Berres Mark E. Method of genotyping by determination of allele copy number
US10832797B2 (en) * 2013-10-18 2020-11-10 Seven Bridges Genomics Inc. Method and system for quantifying sequence alignment

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060286566A1 (en) * 2005-02-03 2006-12-21 Helicos Biosciences Corporation Detecting apparent mutations in nucleic acid sequences
CN102270282A (zh) * 2010-06-01 2011-12-07 上海聚类生物科技有限公司 一种microRNA编码区靶基因预测的方法
CN102222175A (zh) * 2011-05-06 2011-10-19 西南大学 一种与miRNA相关的功能性分子标记的开发方法
US20140288844A1 (en) * 2013-03-15 2014-09-25 Cosmosid Inc. Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
CN103571833A (zh) * 2013-11-18 2014-02-12 四川农业大学 一种ssr标记引物设计方法、小麦ssr标记引物
US20160191076A1 (en) * 2014-08-29 2016-06-30 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
CN107532332A (zh) * 2015-04-24 2018-01-02 犹他大学研究基金会 用于多重分类学分类的方法和系统
US20170335388A1 (en) * 2015-11-04 2017-11-23 Vineland Research and Innovations Centre Inc. High throughput method of screening a population for members comprising mutation(s) in a target sequence using alignment-free sequence analysis
CN108090327A (zh) * 2017-12-20 2018-05-29 吉林大学 包含三维自由能的外源性miRNA调控靶基因预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOUSEF,M等: ""Distinguishing between MicroRNA Targets from Diverse Species using Sequence Motifs and K-mers"", 《10TH INTERNATIONAL JOINT CONFERENCE ON BIOMEDICAL ENGINEERING SYSTEMS AND TECHNOLOGIES》 *
范一灵等: ""金黄色葡萄球菌特异性PCR检测靶点的自动化筛选"", 《生物工程学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326210A (zh) * 2020-03-11 2020-06-23 中国科学院生态环境研究中心 一种基于k-mer算法的引物设计方法及系统
CN111326210B (zh) * 2020-03-11 2023-07-14 中国科学院生态环境研究中心 一种基于k-mer算法的引物设计方法及系统
CN112634983A (zh) * 2021-01-08 2021-04-09 江苏先声医疗器械有限公司 病原物种特异pcr引物优化设计方法
CN112634983B (zh) * 2021-01-08 2021-07-09 江苏先声医疗器械有限公司 病原物种特异pcr引物优化设计方法
CN116597893A (zh) * 2023-06-14 2023-08-15 北京金匙医学检验实验室有限公司 预测耐药基因-病原微生物归属的方法
CN116597893B (zh) * 2023-06-14 2023-12-15 北京金匙医学检验实验室有限公司 预测耐药基因-病原微生物归属的方法

Also Published As

Publication number Publication date
WO2019242186A1 (zh) 2019-12-26
CN110021365B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
Kolmogorov et al. metaFlye: scalable long-read metagenome assembly using repeat graphs
KR102317911B1 (ko) 심층 학습 기반 스플라이스 부위 분류
US20210217490A1 (en) Method, computer-accessible medium and system for base-calling and alignment
JP6314091B2 (ja) Dna配列のデータ分析
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
Myers Whole-genome DNA sequencing
CN110021365A (zh) 确定检测靶点的方法、装置、计算机设备和存储介质
Pertea et al. Computational gene finding in plants
AU3221699A (en) A method for obtaining a plant with a genetic lesion in a gene sequence
Ray SINEs of progress: Mobile element applications to molecular ecology
CN115997255A (zh) 从基因组预测细菌表型性状的分子技术
Debray et al. Identification and assessment of variable single-copy orthologous (SCO) nuclear loci for low-level phylogenomics: a case study in the genus Rosa (Rosaceae)
Seal et al. Tools, resources and databases for SNPs and indels in sequences: a review
Kuster et al. ngsComposer: an automated pipeline for empirically based NGS data quality filtering
CN109949866A (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
Driller et al. Optimization of ddRAD-like data leads to high quality sets of reduced representation single copy orthologs (R2SCOs) in a sea turtle multi-species analysis
JP7129015B2 (ja) 情報処理システム、変異検出システム、記憶媒体および情報処理方法
Driller et al. Achieving high-quality ddRAD-like reference catalogs for non-model species: the power of overlapping paired-end reads
Yamasaki et al. Empirical analysis of selection screens for domestication and improvement loci in maize by extended DNA sequencing
Ramlee Utilization of complete chloroplast genomes for phylogenetic studies
Cavassim et al. PRDM9 losses in vertebrates are coupled to the loss of at least three other meiotic genes
Ng et al. Optimization of MLVA loci combination using metaheuristic methods
Jünemann Quality is a Myth-Assessing and Addressing Errors in Sequencing Data
Masárová Struktura repeatomu u vybraných zástupců rodu Boechera (brukvovité)
Shenker Leveraging high throughput transcriptome sequencing to characterize alternative polyadenylation across species

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant