CN112823206B - 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 - Google Patents
从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 Download PDFInfo
- Publication number
- CN112823206B CN112823206B CN201880098544.2A CN201880098544A CN112823206B CN 112823206 B CN112823206 B CN 112823206B CN 201880098544 A CN201880098544 A CN 201880098544A CN 112823206 B CN112823206 B CN 112823206B
- Authority
- CN
- China
- Prior art keywords
- phage
- sequence
- region
- temperate
- host
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001580 bacterial effect Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005065 mining Methods 0.000 title claims abstract description 29
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 48
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 230000010354 integration Effects 0.000 claims abstract description 33
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 28
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims abstract description 7
- 241000894006 Bacteria Species 0.000 claims description 66
- 108091036078 conserved sequence Proteins 0.000 claims description 31
- 241000894007 species Species 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 230000002101 lytic effect Effects 0.000 claims description 11
- 238000013518 transcription Methods 0.000 claims description 10
- 230000035897 transcription Effects 0.000 claims description 10
- 230000009545 invasion Effects 0.000 claims description 9
- 238000010835 comparative analysis Methods 0.000 claims description 8
- 230000017188 evasion or tolerance of host immune response Effects 0.000 claims description 8
- 230000001105 regulatory effect Effects 0.000 claims description 8
- 230000010076 replication Effects 0.000 claims description 8
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 241001515965 unidentified phage Species 0.000 claims description 3
- 108010077805 Bacterial Proteins Proteins 0.000 claims 2
- 208000015181 infectious disease Diseases 0.000 abstract description 10
- 241000588724 Escherichia coli Species 0.000 description 11
- 238000012216 screening Methods 0.000 description 11
- 241000700605 Viruses Species 0.000 description 9
- 238000001066 phage therapy Methods 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 241000589517 Pseudomonas aeruginosa Species 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 208000035143 Bacterial infection Diseases 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- 102100034343 Integrase Human genes 0.000 description 3
- 108010061833 Integrases Proteins 0.000 description 3
- 206010052428 Wound Diseases 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 208000022362 bacterial infectious disease Diseases 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000003115 biocidal effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 241000233866 Fungi Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 101710172711 Structural protein Proteins 0.000 description 2
- 239000003242 anti bacterial agent Substances 0.000 description 2
- 229940088710 antibiotic agent Drugs 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 230000009089 cytolysis Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- OTLLEIBWKHEHGU-UHFFFAOYSA-N 2-[5-[[5-(6-aminopurin-9-yl)-3,4-dihydroxyoxolan-2-yl]methoxy]-3,4-dihydroxy-6-(hydroxymethyl)oxan-2-yl]oxy-3,5-dihydroxy-4-phosphonooxyhexanedioic acid Chemical compound C1=NC=2C(N)=NC=NC=2N1C(C(C1O)O)OC1COC1C(CO)OC(OC(C(O)C(OP(O)(O)=O)C(O)C(O)=O)C(O)=O)C(O)C1O OTLLEIBWKHEHGU-UHFFFAOYSA-N 0.000 description 1
- 206010008631 Cholera Diseases 0.000 description 1
- 241000701959 Escherichia virus Lambda Species 0.000 description 1
- 241001235200 Haemophilus influenzae Rd KW20 Species 0.000 description 1
- 208000032376 Lung infection Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 108700005077 Viral Genes Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000000844 anti-bacterial effect Effects 0.000 description 1
- 239000004599 antimicrobial Substances 0.000 description 1
- 230000010065 bacterial adhesion Effects 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000003850 cellular structure Anatomy 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000007012 clinical effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002095 exotoxin Substances 0.000 description 1
- 231100000776 exotoxin Toxicity 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000013505 freshwater Substances 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006801 homologous recombination Effects 0.000 description 1
- 238000002744 homologous recombination Methods 0.000 description 1
- 230000009215 host defense mechanism Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000002934 lysing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001018 virulence Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N7/00—Viruses; Bacteriophages; Compositions thereof; Preparation or purification thereof
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/70—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Engineering & Computer Science (AREA)
- Immunology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Biomedical Technology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
提供一种从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和包含能执行所述方法的程序的存储介质,所述方法包括:获取细菌全基因组序列,将温和型噬菌体的功能元件聚类比对到细菌全基因组序列上,得到功能元件呈聚簇现象的区域作为噬菌体疑似区域,其中功能元件包括假定蛋白元件、侵染元件、组装元件和未知保守元件,在噬菌体疑似区域的两端寻找重复序列,得到温和型噬菌体整合位点,从而确定温和型噬菌体的序列区域,将温和型噬菌体的序列区域作为噬菌体基因组序列进行基因组学特征分析,输出功能性噬菌体的序列信息。
Description
技术领域
本发明涉及噬菌体技术领域,具体涉及一种从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质。
背景技术
噬菌体是一种专门感染细菌的病毒,广泛存在于细菌群落分布的地方,例如土壤、海洋、人和动物肠道等。噬菌体不具有细胞结构,主要由蛋白质形成的外壳和包裹其中的单一核酸DNA或RNA遗传物质组成。噬菌体的长度由20纳米到200纳米不等,其基因组可编码少至若干个、多达几百个基因。噬菌体不能独立生长或复制,必须利用宿主细胞中的能量和代谢系统来实现自身的生长和增殖。噬菌体通过与细菌表面的受体特异性结合识别宿主,因此具有严格的宿主特异性。噬菌体按生命周期的不同可以分为裂解型和温和型两类。裂解型噬菌体在侵染宿主细胞后快速完成自我增值,以裂解宿主细胞的方式释放子代噬菌体。温和型噬菌体在侵染宿主细胞后,并不直接裂解细胞,而是将其基因组整合入宿主DNA或以环状质粒形式存在于细胞内,使之伴随宿主DNA复制。在一定条件下,温和型噬菌体可进入裂解状态,通过裂解宿主细胞以释放子代噬菌体。
早在十九世纪二十年代,噬菌体发现之初,噬菌体便被其发现者Felix d’Herelle用于细菌感染的临床应用,例如防控印度霍乱以及埃及鼠疫的爆发。但由于当时噬菌体相关基础研究不足,噬菌体疗法存在疗效评价标准不统一、生产方法难以标准化、产物纯度低等问题。随着抗生素的发现和使用,噬菌体疗法很快便被更加便宜、高效的抗生素疗法取代。噬菌体疗法也因此慢慢淡出西方发达国家的医疗以及研究体系。近些年来,随着抗生素耐药细菌在全球的蔓延,抗生素对细菌感染的治疗效果受到严峻挑战,这促使部分科学家重新投入噬菌体疗法的研究中。2005年7月抗菌药物和化学疗法(Antimicrobial Agentsand Chemotherapy)杂志报道了噬菌体疗法的首次规范化随机双盲人体试验,证明了口服噬菌体制剂对人体的安全性。2009年6月,伤口护理杂志(Journal of Wound Care)报道了首个美国FDA批准的临床I期试验,证明了噬菌体制剂在伤口治疗中的安全性。同年9月,临床耳鼻喉科(Clinical Otolaryngology)杂志报道了首个评估噬菌体疗法疗效的随机对照临床试验,该研究表明噬菌体混合制剂治疗耐药绿脓杆菌引起的人类慢性耳部感染是安全且有效的。此外,还有许多其它的动物实验和人体临床试验评估噬菌体对包括烧伤感染、肺部感染等的治疗效果。
自然界存在的天然噬菌体物种多样性极为丰富,其中绝对部分是温和型噬菌体。近年来才有可能通过使用生物信息学工具“大规模序列数据集一细菌基因组数据”来挖掘病毒、检测病毒与宿主菌之间的关系。但目前,噬菌体资源库和数据库内容尤为匮乏,NCBIGeneBank、EMBL-EBI、Phantom这几个全球最著名的大型数据库都仅有3000株左右噬菌体的基因组信息,并且基因组注释十分不完善,这给噬菌体的相关研究、改造以及噬菌体疗法带来不便。
对占绝大多数的温和型噬菌体来说,其原噬菌体(整合到宿主基因组中的噬菌体)可以通过相应基因表达影响代谢、细菌粘附、定植、入侵、扩散、抗免疫反应、外毒素产生、血清抗性、竞争性细菌的破坏和抗生素抗性等。针对温和型噬菌体功能性研究以及多样性分析,这意味着需要更完整的噬菌体基因组序列来充分了解遗传多样性的真实程度、遗传能力与交换能力以及噬菌体的进化等。在噬菌体与宿主共存的真实情况发生时,人们往往将原噬菌体的存在忽略,视其为细菌基因组的一部分,所以理论上在细菌完整基因组序列中存在一个巨大的、探索不足的公共可利用的噬菌体基因组的资源。而在已发现的噬菌体中,裂解型噬菌体因其表型特异相对更容易被挖掘分析,但针对各种噬菌体的基础科学研究目前还很难做到全覆盖,而直接将分离出的天然裂解型噬菌体用于细菌感染治疗在临床效果、时效性以及安全性上都有一定的不可预见性的问题。
因此,解决噬菌体疗法的弊端,推进噬菌体用于细菌相关疾病治疗,首先需要面对的最大问题是人们对自然界存在的10^31至10^32噬菌体了解甚少。同时,伴随基因组学、合成生物学领域飞速发展,而制约其噬菌体研究的最重要的问题是噬菌体数据匮乏。针对噬菌体全基因组序列预测挖掘技术的发展,将直接作用于噬菌体研究领域,噬菌体治疗领域的发展。
噬菌体挖掘在生物信息学、基因组学、二代测序技术未发展普及之初,仅利用宿主菌靶向筛选天然裂解型噬菌体的实验方法,不得不面临耗时、成本高、分离筛选的偶然随机性等一系列弊端。其技术方案即宿主菌与疑似噬菌体存在样本共培养,扩增后观察裂解现象,进一步获得噬菌体样本,并且往往在对噬菌体未测序了解的情况下,也就是说对其是否含有毒力基因未知的情况下,用于临床杀灭病原菌。
在噬菌体预测挖掘的生物信息学领域,人们为了挖掘噬菌体资源,也开发了一系列的预测软件和挖掘方法。早期开发的预测软件和挖掘方法包括Phage Finder(Fouts,2006)、Prophinder(Lima-Mendez et al.,2008)、PHAST(Zhou et al.,2011)以及PhiSpy(Akhter,Aziz&Edwards,2012)。以功能蛋白质长度、转录序列方向性、定量AT和GC比率、噬菌体插入位点以及噬菌体相似性蛋白质为特征对比分析的PhiSpy,利用五个特征可以识别与已知的噬菌体基因没有任何序列相似性的原噬菌体,在筛选精准性上还有所欠缺,对于功能性噬菌体的完整性也不能保证。而只针对原噬菌体的预测工具Prophinder,则在功能性相关方面有所欠缺,功能单一,但是其可镶嵌性使得在与其他软件工具的协同合作方面,拥有更大的优势。在准确性方面,Phage Finder基于原噬菌体区域并不总是由具有非典型的G+C核苷酸组成,噬菌体并不总是整合到编码区域,也不是专门使用tRNA作为整合的靶位点,因此将被破坏的基因或tRNA作为独立的方法进行扫描的筛选带来的结果并不足够可靠。而利用搜索针对噬菌体序列的集合和来自HMMSEARCH分析的441个噬菌体特异性隐藏的马尔可夫模型(HMM)来定位噬菌体原始区域,是其提高准确性的一大亮点。除此之外对于在线数据服务的PHAST工具以及升级版PHASTER,其提供了可以准确地识别、注释和图形化显示细菌以及病毒序列结果的网站服务器,最重要的是PHAST接受原始DNA序列数据或部分注释的GenBank格式的数据,并快速执行一些数据库比较以及噬菌体“基础”特征识别步骤来定位,注释和显示前序列和前噬特征。与此同时其存在用户界面一次只能接受一组数据,所以无法高通量的在线操作的缺点。
近些年较为突出的噬菌体预测挖掘软件包括MetaPhinder、VirFinder、Virsorter等。以MetaPhinder为例,它是将宏基因组组装片段通过blastn算法与预先构建好的噬菌体数据库比对,根据所有比对成功的结果计算一个综合指标平均核苷酸一致性(averagenucleotide identity,ANI),若某条片段的ANI值大于1.7%,则认为该片段可能含有噬菌体序列。此类方法原理简单,操作便捷,但其局限性也显而易见,即难以获取数据库中尚未收录的噬菌体序列。近期,Ren等人开发的VirFinder很好地解决了这一问题。有研究表明,病毒与其宿主在基因组的k-mer频数存在比较显著的差异。VirFinder正是基于噬菌体与宿主细菌在k-mer频数上的差异,利用大量分别来源于噬菌体和细菌的k-mer训练而成的逻辑回归分类器。VirFinder不依赖于数据库,且在对独立于训练集中测试集进行分类时能取得理想的效果,证明其在识别未知噬菌体序列应用上的可靠性。Virsorter在很大程度上依赖于与现有病毒数据库的相似搜索,但它还有一个额外的优势,即它使用自行编写的病毒参考基因组数据库,其中增加了从淡水、海水和人类肠道、肺和唾液采集的病毒基因组序列。另一个优势是使用了链转换和短基因标准,这两个是不需要相似对比搜索的典型病毒特征。其基于病毒基因的筛选中,需要在一个连续体中至少有三个预测基因来进行预测,从而排除了许多较短的连续体。
目前,基于生物信息分析的所有预测挖掘噬菌体的方法都受到现有噬菌体数据匮乏的限制,无论是基于数据库的比对,还是利用机器学习方法训练计算机模型预测,相对于噬菌体复杂的物种多样性和自然界未知且庞大的数量,都具有相对局限性。并且在对结果的进一步筛选中往往忽略功能性噬菌体(即可以完整脱离宿主基因组并可以形成病毒颗粒)的完整性,原噬菌体整合在宿主基因组也面临宿主的防御机制、水平基因转移等问题,使得自身不完整无法重新脱离形成病毒颗粒。并且缺乏后续验证预测结果手段,无法针对性避免假阳性、假阴性情况的发生。
发明内容
本发明提供一种从细菌全基因组序列中挖掘温和型噬菌体的方法和装置及存储介质,能够实现精确的噬菌体序列挖掘预测。
根据第一方面,一种实施例中提供一种从细菌全基因组序列中挖掘温和型噬菌体的方法,包括:
获取细菌全基因组序列;
将温和型噬菌体的功能元件聚类比对到上述细菌全基因组序列上,得到上述功能元件呈聚簇现象的区域作为噬菌体疑似区域,其中上述功能元件包括假定蛋白元件、侵染元件、组装元件和未知保守元件;
在上述噬菌体疑似区域的两端寻找重复序列,得到温和型噬菌体整合位点,从而确定温和型噬菌体的序列区域;
将上述温和型噬菌体的序列区域作为噬菌体基因组序列进行基因组学特征分析,输出功能性噬菌体的序列信息。
进一步地,上述方法还包括:
在进行上述基因组学特征分析之前,使用宿主菌属种相对保守序列与上述温和型噬菌体的序列区域进行比对,以判断上述序列区域中是否插入上述宿主菌属种相对保守序列。
进一步地,上述功能元件是基于噬菌体的马赛克结构从噬菌体基因组数据库中具有噬菌体注释信息的全基因组数据中提取的,其中上述马赛克结构是指噬菌体基因组上表达相似功能的基因趋向于在相邻的位置。
进一步地,上述功能元件还包括裂解元件、整合元件、复制元件、调控元件、包装元件、免疫逃逸元件和tRNA元件中的一个或多个。
进一步地,上述基因组学特征分析包括GC含量和/或K-mer频数特征分析。
进一步地,上述基因组学特征分析还包括宿主菌基因组特征与噬菌体基因组特征的对比分析。
进一步地,上述对比分析是原噬菌体与宿主菌蛋白长度差异分析。
进一步地,上述对比分析是原噬菌体与宿主菌转录方向差异分析。
根据第二方面,一种实施例中提供一种从细菌全基因组序列中挖掘温和型噬菌体的装置,包括:
序列获取单元,用于获取细菌全基因组序列;
疑似区域确定单元,用于将温和型噬菌体的功能元件聚类比对到上述细菌全基因组序列上,得到上述功能元件呈聚簇现象的区域作为噬菌体疑似区域,其中上述功能元件包括假定蛋白元件、侵染元件、组装元件和未知保守元件;
整合位点确定单元,用于在上述噬菌体疑似区域的两端寻找重复序列,得到温和型噬菌体整合位点,从而确定温和型噬菌体的序列区域;
组学特征分析单元,用于将上述温和型噬菌体的序列区域作为噬菌体基因组序列进行基因组学特征分析,输出功能性噬菌体的序列信息。
进一步地,上述装置还包括:
保守序列判断单元,用于在进行上述基因组学特征分析之前,使用宿主菌属种相对保守序列与上述温和型噬菌体的序列区域进行比对,以判断上述序列区域中是否插入上述宿主菌属种相对保守序列。
进一步地,上述功能元件是基于噬菌体的马赛克结构从噬菌体基因组数据库中具有噬菌体注释信息的全基因组数据中提取的,其中上述马赛克结构是指噬菌体基因组上表达相似功能的基因趋向于在相邻的位置。
进一步地,上述功能元件还包括裂解元件、整合元件、复制元件、调控元件、包装元件、免疫逃逸元件和tRNA元件中的一个或多个。
进一步地,上述基因组学特征分析包括GC含量和/或K-mer频数特征分析。
进一步地,上述基因组学特征分析还包括宿主菌基因组特征与噬菌体基因组特征的对比分析。
进一步地,上述对比分析是原噬菌体与宿主菌蛋白长度差异分析。
进一步地,上述对比分析是原噬菌体与宿主菌转录方向差异分析。
根据第三方面,一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如第一方面的方法。
本发明的方法能够实现精确的噬菌体序列挖掘预测,其预测结果为功能性噬菌体,并且降低结果中的假阳性和假阴性。
附图说明
图1为本发明实施例的从细菌全基因组序列中挖掘温和型噬菌体的方法流程图;
图2为本发明实施例中噬菌体整合到宿主菌基因组上的原理机制示意图;
图3为本发明实施例的从细菌全基因组序列中挖掘温和型噬菌体的装置结构框图;
图4为本发明实施例中四类功能元件(INF,HYP,ASB,UNS)在已知含有原噬菌体的宿主菌的基因组上聚簇现象结果图;
图5为本发明实施例中疑似噬菌体区域被插入一段来源于大肠杆菌的保守序列结果图;
图6为本发明实施例中噬菌体基因组学GC%含量特征分析结果图;
图7为本发明实施例中原噬菌体与相关宿主菌蛋白长度差异分析结果;
图8为本发明实施例中原噬菌体与相关宿主菌蛋白平均长度差异分析结果;
图9为本发明实施例中原噬菌体与宿主转录方向差异分析结果图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本发明实施例提供一种从细菌全基因组测序数据中精确地挖掘预测温和型噬菌体序列的方法。该方法结合宿主菌基因水平转移等生物学特征,以及噬菌体基因组学特征分析,最终实现不仅在结果中输出预测噬菌体的序列,还结合细菌基因组学与噬菌体组学对比特征,输出证明结果准确的生物信息学证据,确保预测结果为功能性噬菌体,降低结果中的假阳性和假阴性。
如图1所示,在本发明一个实施例中,一种从细菌全基因组序列中挖掘温和型噬菌体的方法,包括如下步骤:
S101:获取细菌全基因组序列。
本发明实施例中,细菌全基因组序列可以是从细菌全基因组测序数据组装得到的基因组序列。测序数据包括大量测序读长(reads),这些测序读长经现有各种方法组合即可得到细菌全基因组序列。测序读长可以来源于任何二代高通量测序技术。
S102:将温和型噬菌体的功能元件聚类比对到细菌全基因组序列上,得到功能元件呈聚簇现象的区域作为噬菌体疑似区域,其中功能元件包括假定蛋白元件、侵染元件、组装元件和未知保守元件。
本发明实施例中,温和型噬菌体的功能元件是从现有噬菌体基因组注释信息中提取的元件。具体而言,在本发明一个实施例中,功能元件是基于噬菌体的马赛克结构(即噬菌体基因组上表达相似功能的基因趋向于在相邻的位置),从噬菌体基因组数据库中具有噬菌体注释信息的全基因组数据中提取的元件。在一个具体实施例中,利用噬菌体所特有的马赛克结构,从NCBI-Refseq数据库(2018年1月)中的2101株噬菌体基因组注释信息中挖掘噬菌体功能元件,搭建一个容量包括约10万个功能元件的元件库。然后,基于各功能元件的功能,对功能元件进行分类,共分为11个主要类别:LYS(lysis,裂解元件),INT(integration,整合元件),REP(replication,复制元件),REG(regulatory,调控元件),PAC(package,包装元件),ASB(assembly,组装元件),INF(infection,侵染元件),EVA(immuneevasion,免疫逃逸元件),HYP(hypothetical,假定蛋白元件),UNS(unsorted,未知保守元件),以及tRNA元件(转运元件)。对初步挖掘得到的所有功能元件进行去冗余,去掉核酸相似度>75%的元件,最终得到99438个噬菌体功能元件(表1),并统计相关功能元件在噬菌体基因组上的占比,得到数据特征。
表1
本发明实施例中,只需要使用假定蛋白元件、侵染元件、组装元件和未知保守元件这4类功能元件聚类比对到细菌全基因组序列上,即可得到这些功能元件呈聚簇现象的区域,并以该区域作为噬菌体疑似区域。这4类功能元件是利用已知含有原噬菌体的宿主菌基因组,进行功能元件的筛选,从上述11类功能元件比对得到的最优元件。它们作为最优元件的依据在于:侵染元件(INF)包含噬菌体尾部、尾壳等结构蛋白相关功能,与组装元件(ASB)共同作为噬菌体生存必须元件;而占比最高的假定蛋白元件(HYP),与未知保守元件(UNS)与噬菌体结构相关,应用于原噬菌体定位更为准确。
本发明实施例,基于已分析的NCBI-Refseq数据库现有噬菌体库中2000多条注释信息较为完整的全基因组数据,利用噬菌体功能蛋白注释信息,构建了约10万个功能元件,并通过统计学方法分析相关功能元件比例以及噬菌体基因组组成,得到噬菌体基因组学特征。从中筛选出四类最优功能元件,利用功能元件聚类方法来判断噬菌体疑似区域。其中,功能元件是基于噬菌体特殊的马赛克结构提取的,从而扩展功能基因的范围,提高模糊匹配的准确性。功能元件的聚簇现象以及功能性占比,为从全局角度证明原噬菌体的存在提供可靠依据。功能元件的模糊匹配有效避免了目前匮乏的噬菌体数据库的缺陷,最大限度保证已知噬菌体数据信息的利用,并且最优功能元件的选择避免了裂解型噬菌体的偏向性,表现最突出的功能元件是侵染元件,在初步筛选中基本上可以过滤大部分阴性结果。
本发明实施例中,功能元件呈“聚簇现象”的区域,是指在细菌全基因组序列上,功能元件集中出现的区域,这一点符合噬菌体特殊的马赛克结构特点。这样的区域被称为“噬菌体疑似区域”,是指噬菌体具有高度可能性地出现在该区域。
在本发明的优选实施例中,除了选用假定蛋白元件、侵染元件、组装元件和未知保守元件这4类功能元件以外,还可以选用裂解元件、整合元件、复制元件、调控元件、包装元件、免疫逃逸元件和tRNA元件中的一个或多个,与细菌全基因组序列进行聚类比对。选择额外的功能元件能在一定程度上提高聚类比对准确性。
S103:在噬菌体疑似区域的两端寻找重复序列,得到温和型噬菌体整合位点,从而确定温和型噬菌体的序列区域。
如图2所示,根据噬菌体整合到宿主菌基因组上的原理机制,温和型噬菌体在侵染宿主时,利用整合酶以及整合位点,插入到宿主的基因组内形成原噬菌体状态。图中,POP’表示噬菌体整合位点,BOB’表示宿主菌整合位点,噬菌体侵染时自身环化,然后POP’与BOB’同源重组,噬菌体整合到宿主菌基因组上形成原噬菌体,该原噬菌体两端重复序列,即BOP’和POB’分别是原噬菌体两端整合位点,表现为长度大部分为10~200bp的重复序列。因此,通过在噬菌体疑似区域的两端寻找重复序列,即可得到温和型噬菌体整合位点,也就是原噬菌体两端的精确边界,位于两端的边界之间的区域就是温和型噬菌体的序列区域。
在本发明的优选实施例中,在进行下一步S104之前,首先使用宿主菌属种相对保守序列与温和型噬菌体的序列区域进行比对,以判断序列区域中是否插入宿主菌属种相对保守序列。
本发明实施例中,“宿主菌属种相对保守序列”是指温和型噬菌体所在的宿主菌所属的属种中以保守序列形式存在的序列。例如,如果温和型噬菌体的宿主菌是大肠杆菌,那么“宿主菌属种相对保守序列”是指在大肠杆菌的各属种中保守的序列。
在本发明一个实施例中,利用多序列比对软件,将宿主菌属种的代表性全基因组数据构建得到宿主菌属种相对保守序列。例如,针对大肠杆菌宿主菌,利用现有的宿主菌所在属种信息,获取代表性基因组数据,利用多序列比对软件(例如Musgy),构建代表基因组集合,得到大肠杆菌的代表性基因组保守序列,即宿主菌属种相对保守序列。然后,使用该宿主菌属种相对保守序列与温和型噬菌体的序列区域或噬菌体疑似区域进行比对,筛选出插入宿主菌属种相对保守序列的序列区域,并将这样的序列区域剔除,能够有效地去除预测结果中的假阳性结果,保证温和型噬菌体挖掘预测的准确性。
S104:将温和型噬菌体的序列区域作为噬菌体基因组序列进行基因组学特征分析,输出功能性噬菌体的序列信息。
在本发明的优选实施例中,“基因组学特征分析”包括GC含量和/或K-mer频数特征分析,以及任选的未知功能蛋白注释等噬菌体病毒特征分析。进一步地,在本发明的优选实施例中,基因组学特征分析还包括宿主菌基因组特征与噬菌体基因组特征的对比分析,例如原噬菌体与宿主菌转录方向差异分析等对比分析。
本发明实施例的方法,充分利用现有温和型噬菌体数据库,分析得到其组学数据特征,并利用大量的宿主同属细菌的全基因组数据的宿主菌群体多序列比对分析,得到宿主相对噬菌体的保守序列,并利用该保守序列进行假阳性剔除,并结合噬菌体组装机制,设置参数剔除插入宿主保守序列而破坏完整性的结果。综合考虑噬菌体的生物学特征,准确判定噬菌体疑似区域是否为功能性噬菌体。本发明实施例的方法直接输出功能性噬菌体的序列信息,以及任选的宿主菌基因组特征与预测的噬菌体基因组特征对比结果,保证预测结果的准确性。
通过本发明实施例的方法,在构建的测试数据集中,预测结果与真实结果吻合率在95%以上;准确地从267例大肠杆菌全基因组数据中,预测到3株功能性噬菌体,经过实验结果验证,并测序证明输出的功能性噬菌体的序列信息的准确性;预测得到的温和型噬菌体将推动噬菌体数据库的扩展;并且针对特殊宿主菌的温和噬菌体预测,为噬菌体靶向宿主菌治疗提供了新的选择。
对应于本发明实施例的从细菌全基因组序列中挖掘温和型噬菌体的方法,本发明还提供一种从细菌全基因组序列中挖掘温和型噬菌体的装置,如图3所示,包括:序列获取单元301,用于获取细菌全基因组序列;疑似区域确定单元302,用于将温和型噬菌体的功能元件聚类比对到上述细菌全基因组序列上,得到上述功能元件呈聚簇现象的区域作为噬菌体疑似区域,其中上述功能元件包括假定蛋白元件、侵染元件、组装元件和未知保守元件;整合位点确定单元303,用于在上述噬菌体疑似区域的两端寻找重复序列,得到温和型噬菌体整合位点,从而确定温和型噬菌体的序列区域;组学特征分析单元304,用于将上述温和型噬菌体的序列区域作为噬菌体基因组序列进行基因组学特征分析,输出功能性噬菌体的序列信息。
在本发明的优选实施例中,从细菌全基因组序列中挖掘温和型噬菌体的装置还包括:保守序列判断单元305,用于在进行上述基因组学特征分析之前,使用宿主菌属种相对保守序列与上述温和型噬菌体的序列区域进行比对,以判断上述序列区域中是否插入上述宿主菌属种相对保守序列。
在本发明的优选实施例中,功能元件是基于噬菌体的马赛克结构从噬菌体基因组数据库中具有噬菌体注释信息的全基因组数据中提取的,其中马赛克结构是指噬菌体基因组上表达相似功能的基因趋向于在相邻的位置。
在本发明的优选实施例中,功能元件还包括裂解元件、整合元件、复制元件、调控元件、包装元件、免疫逃逸元件和tRNA元件中的一个或多个。
在本发明的优选实施例中,基因组学特征分析包括GC含量和/或K-mer频数特征分析。在本发明的优选实施例中,基因组学特征分析还包括宿主菌基因组特征与噬菌体基因组特征的对比分析,例如,原噬菌体与宿主菌蛋白长度差异分析,或原噬菌体与宿主菌转录方向差异分析。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,本发明一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如本发明实施例的从细菌全基因组序列中挖掘温和型噬菌体的方法。
以下通过实施例详细说明本发明的技术方案,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例
1、噬菌体功能元件库的构建:
因噬菌体所特有的马赛克结构,即相邻的基因表达相同的功能,利用功能元件的概念来挖掘噬菌体功能元件,搭建一个容量约为10万功能元件的元件库。利用2018年1月的NCBI-Refseq数据库中的2101株噬菌体基因组注释信息,提取对应的功能元件,并基于各功能,对挖掘的功能元件进行分类,分为11个主要类别:LYS(lysis,裂解元件),INT(integration,整合元件),REP(replication,复制元件),REG(regulatory,调控元件),PAC(package,包装元件),ASB(assembly,组装元件),INF(infection,侵染元件),EVA(immuneevasion,免疫逃逸元件),HYP(hypothetical,假定蛋白元件),UNS(unsorted,未知保守元件),以及tRNA元件(转运元件)。对初步挖掘得到的所有功能元件进行去冗余,去掉核酸相似度>75%的元件,最终得到99438个噬菌体功能元件(表1),并统计相关功能元件在噬菌体基因组上的占比,得到数据特征。
2、噬菌体功能元件库的筛选:
利用已知含有原噬菌体的宿主菌基因组,进行功能元件的筛选,从11类功能元件比对得到最优的四类功能元件——侵染元件(INF)、组装元件(ASB)、假定蛋白元件(HYP)和未知保守元件(UNS)。它们作为最优元件的依据在于:侵染元件(INF)包含噬菌体头部、尾部等结构蛋白相关功能,与组装元件(ASB)共同作为噬菌体生存必须元件;而占比最高的假定蛋白元件(HYP),与未知保守元件(UNS)与噬菌体结构相关,应用于原噬菌体定位更为准确。
利用功能元件的聚簇现象,可以很明确地得到噬菌体所在疑似区域,如图4所示,示出了已知含有原噬菌体的宿主菌(NC_000907,Haemophilus influenzae Rd KW20)的基因组上四类功能元件(INF,HYP,ASB,UNS)的聚簇现象,得到的疑似噬菌体区域与实际噬菌体所在区域(已注释噬菌体)吻合。表明本发明方法得到的疑似噬菌体区域具有可靠性。
3、疑似噬菌体区域两端整合位点挖掘:
利用python语言编写的滑动窗口脚本,进行疑似噬菌体区域两端整合位点的挖掘。其生物学依据在于:温和型噬菌体在侵染宿主菌时进行自身环化,并编码整合酶,识别宿主菌上的整合位点,在整合酶作用下整合进宿主基因组,并进行同源重组。最终在形成的原噬菌体(即温和型噬菌体插入宿主基因组的状态)的两端形成新的整合位点(如图2所示)。基于该生物学特性,利用两端重复序列,精准确定原噬菌体两端准确位置。
4、宿主菌群体的多序列比对分析:
利用现有的宿主所在属种信息,获取代表基因组数据,利用多序列比对分析软件(例如Musgy),构建代表基因组集。根据分析结果,得到宿主菌属种相对保守序列信息。利用该宿主菌属种相对保守序列信息进行疑似噬菌体区域比对,有效筛选出预测结果中的假阳性结果。
例如,如图5所示,基于MetaPhinder(图中A软件)、Phaster(图中B软件)等预测软件中判断为含有原噬菌体的大肠杆菌ATCC25922,在其预测区域(即疑似噬菌体区域)整合了λ噬菌体,但经过大肠杆菌保守序列比对,发现其疑似噬菌体区域被插入一段来源于大肠杆菌MG1655的保守序列,其功能完整性被破坏,经诱导实验验证,无功能性噬菌体存在。因此这是一个假阳性结果,不是功能性噬菌体,需要排除出最终的挖掘预测结果。
5、疑似噬菌体基因组学特征分析:
基于温和型噬菌体,分析总结了相关的基因组学特征,得到相应数据特征,如1031株噬菌体基因组学GC%含量特征分析结果如图6所示,噬菌体基因组相对特异性存在三个数值区域(26%-32%,52%-58%,69%-71%),宿主细菌GC含量基本分布于30%~60%,差异较为明显。以铜绿假单胞菌(CP011317.1,Pseudomonas aeruginosa strain Carb01 63)为例,原噬菌体与相关宿主菌蛋白长度差异分析结果如图7所示,横坐标为蛋白氨基酸长度区间,纵坐标为其功能蛋白基因占比,每个柱子表示该蛋白长度区间表达基因数/总表达基因数,已被证实的原噬菌体与宿主菌的蛋白长度差异明显,原噬菌体蛋白长度大多位于50-200区间,占比大于50%。原噬菌体与相关宿主菌蛋白平均长度差异分析结果如图8所示,进一步发现,原噬菌体蛋白平均长度为206个氨基酸,宿主菌的蛋白平均长度为316个氨基酸,原噬菌体通常表达蛋白长度低于宿主菌。以铜绿假单胞菌(CP011317.1,Pseudomonasaeruginosa strain Carb01 63)为例,原噬菌体与宿主转录方向差异分析结果如图9所示,柱状图表示同向连续转录的基因数占比基因组总基因数,原噬菌体为46.6%,表现为大多数连续基因在同一方向转录链上编码,而宿主菌仅为0.8%,表现为7146个基因中仅有56个为同向转录连续基因。基于这三个差异特征,对上一步确定的疑似噬菌体区域是否为温和型功能性噬菌体进行匹配特征判定。
6、预测挖掘结果:
本发明实施例,从267例宿主菌大肠杆菌中,发现3株大肠杆菌预测存在功能性温和型噬菌体,经过生物学理论论证以及诱导实验验证,符合预测结果。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (13)
1.一种从细菌全基因组序列中挖掘温和型噬菌体的方法,其特征在于,所述方法包括:
获取细菌全基因组序列;
将温和型噬菌体的功能元件聚类比对到所述细菌全基因组序列上,得到所述功能元件呈聚簇现象的区域作为噬菌体疑似区域,其中所述功能元件包括假定蛋白元件、侵染元件、组装元件和未知保守元件;所述功能元件是基于噬菌体的马赛克结构从噬菌体基因组数据库中具有噬菌体注释信息的全基因组数据中提取的,其中所述马赛克结构是指噬菌体基因组上表达相似功能的基因趋向于在相邻的位置;
在所述噬菌体疑似区域的两端寻找重复序列,得到温和型噬菌体整合位点,从而确定温和型噬菌体的序列区域;
使用宿主菌属种相对保守序列与所述温和型噬菌体的序列区域进行比对,以判断所述序列区域中是否插入所述宿主菌属种相对保守序列;
将所述温和型噬菌体的序列区域作为噬菌体基因组序列进行基因组学特征分析,输出功能性噬菌体的序列信息。
2.根据权利要求1所述的方法,其特征在于,所述功能元件还包括裂解元件、整合元件、复制元件、调控元件、包装元件、免疫逃逸元件和tRNA元件中的一个或多个。
3.根据权利要求1所述的方法,其特征在于,所述基因组学特征分析包括GC含量和/或K-mer频数特征分析。
4.根据权利要求3所述的方法,其特征在于,所述基因组学特征分析还包括宿主菌基因组特征与噬菌体基因组特征的对比分析。
5.根据权利要求4所述的方法,其特征在于,所述对比分析是原噬菌体与宿主菌蛋白长度差异分析。
6.根据权利要求4所述的方法,其特征在于,所述对比分析是原噬菌体与宿主菌转录方向差异分析。
7.一种从细菌全基因组序列中挖掘温和型噬菌体的装置,其特征在于,所述装置包括:
序列获取单元,用于获取细菌全基因组序列;
疑似区域确定单元,用于将温和型噬菌体的功能元件聚类比对到所述细菌全基因组序列上,得到所述功能元件呈聚簇现象的区域作为噬菌体疑似区域,其中所述功能元件包括假定蛋白元件、侵染元件、组装元件和未知保守元件;所述功能元件是基于噬菌体的马赛克结构从噬菌体基因组数据库中具有噬菌体注释信息的全基因组数据中提取的,其中所述马赛克结构是指噬菌体基因组上表达相似功能的基因趋向于在相邻的位置;
整合位点确定单元,用于在所述噬菌体疑似区域的两端寻找重复序列,得到温和型噬菌体整合位点,从而确定温和型噬菌体的序列区域;
保守序列判断单元,用于宿主菌属种相对保守序列与所述温和型噬菌体的序列区域进行比对,以判断所述序列区域中是否插入所述宿主菌属种相对保守序列;
组学特征分析单元,用于将所述温和型噬菌体的序列区域作为噬菌体基因组序列进行基因组学特征分析,输出功能性噬菌体的序列信息。
8.根据权利要求7所述的装置,其特征在于,所述功能元件还包括裂解元件、整合元件、复制元件、调控元件、包装元件、免疫逃逸元件和tRNA元件中的一个或多个。
9.根据权利要求7所述的装置,其特征在于,所述基因组学特征分析包括GC含量和/或K-mer频数特征分析。
10.根据权利要求9所述的装置,其特征在于,所述基因组学特征分析还包括宿主菌基因组特征与噬菌体基因组特征的对比分析。
11.根据权利要求10所述的装置,其特征在于,所述对比分析是原噬菌体与宿主菌蛋白长度差异分析。
12.根据权利要求10所述的装置,其特征在于,所述对比分析是原噬菌体与宿主菌转录方向差异分析。
13.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-6中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/110636 WO2020077559A1 (zh) | 2018-10-17 | 2018-10-17 | 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112823206A CN112823206A (zh) | 2021-05-18 |
CN112823206B true CN112823206B (zh) | 2024-04-16 |
Family
ID=70283327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880098544.2A Active CN112823206B (zh) | 2018-10-17 | 2018-10-17 | 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112823206B (zh) |
WO (1) | WO2020077559A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658641A (zh) * | 2021-07-20 | 2021-11-16 | 北京大学 | 一种噬菌体分类方法、装置、设备及存储介质 |
CN115198036B (zh) * | 2022-09-13 | 2022-12-30 | 江苏省环境工程技术有限公司 | 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101203608A (zh) * | 2004-07-06 | 2008-06-18 | 麦克西斯法国股份有限公司 | 在噬菌体中产生重组基因 |
AU2007346006A1 (en) * | 2006-12-20 | 2008-08-07 | Pherecydes Pharma | Method for the preparation of modified bacteriophages by insertion of random sequences in the targeting proteins of said bacteriophages |
CA2760275A1 (fr) * | 2009-04-30 | 2010-11-04 | Pherecydes Pharma | Modification du genome d'un bacteriophage lytique par immobilisation dudit bacteriophage dans sa bacterie hote |
CN108220249A (zh) * | 2016-12-12 | 2018-06-29 | 上海交通大学医学院附属第九人民医院 | 长尾噬菌体及其获得方法和应用 |
-
2018
- 2018-10-17 WO PCT/CN2018/110636 patent/WO2020077559A1/zh active Application Filing
- 2018-10-17 CN CN201880098544.2A patent/CN112823206B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101203608A (zh) * | 2004-07-06 | 2008-06-18 | 麦克西斯法国股份有限公司 | 在噬菌体中产生重组基因 |
AU2007346006A1 (en) * | 2006-12-20 | 2008-08-07 | Pherecydes Pharma | Method for the preparation of modified bacteriophages by insertion of random sequences in the targeting proteins of said bacteriophages |
EP2097516A2 (fr) * | 2006-12-20 | 2009-09-09 | Pherecydes Pharma | Procédé de préparation de bactériophages modifiés par insertion de séquences aléatoires dans les protéines de ciblage desdits bactériophages |
CA2760275A1 (fr) * | 2009-04-30 | 2010-11-04 | Pherecydes Pharma | Modification du genome d'un bacteriophage lytique par immobilisation dudit bacteriophage dans sa bacterie hote |
CN108220249A (zh) * | 2016-12-12 | 2018-06-29 | 上海交通大学医学院附属第九人民医院 | 长尾噬菌体及其获得方法和应用 |
Non-Patent Citations (3)
Title |
---|
Bonnie L ; Hurwitz ; Alise, Ponsero ; James, Thornton ; Jana M, U'Ren.Phage hunters: Computational strategies for finding phages in large-scale 'omics datasets..Virus research.2017,第第244卷卷全文. * |
刘子辰 ; 李骑 ; 张福康 ; 张春龙 ; 马鸿芮 ; 伊廷旭 ; 高晓萌 ; 樊祥宇 ; .一株新铜绿假单胞菌噬菌体SRT6的分离以及全基因组序列分析.聊城大学学报(自然科学版).2018,(第03期),全文. * |
王雨晨 ; 孙建和 ; .噬菌体基因组学研究进展.畜牧与兽医.2010,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112823206A (zh) | 2021-05-18 |
WO2020077559A1 (zh) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Not all predicted CRISPR–Cas systems are equal: isolated cas genes and classes of CRISPR like elements | |
Dutilh et al. | A highly abundant bacteriophage discovered in the unknown sequences of human faecal metagenomes | |
Kauffman et al. | Resolving the structure of phage–bacteria interactions in the context of natural diversity | |
Sieradzki et al. | Dynamic marine viral infections and major contribution to photosynthetic processes shown by spatiotemporal picoplankton metatranscriptomes | |
Coyne et al. | Type VI secretion systems of human gut Bacteroidales segregate into three genetic architectures, two of which are contained on mobile genetic elements | |
Press et al. | Hi-C deconvolution of a human gut microbiome yields high-quality draft genomes and reveals plasmid-genome interactions | |
Yahara et al. | Long-read metagenomics using PromethION uncovers oral bacteriophages and their interaction with host bacteria | |
Jurtz et al. | MetaPhinder—identifying bacteriophage sequences in metagenomic data sets | |
Deboutte et al. | Honey-bee–associated prokaryotic viral communities reveal wide viral diversity and a profound metabolic coding potential | |
Wu et al. | DeePhage: distinguishing virulent and temperate phage-derived sequences in metavirome data with a deep learning approach | |
Hurwitz et al. | Phage hunters: Computational strategies for finding phages in large-scale ‘omics datasets | |
Kauffman et al. | Viruses of the Nahant Collection, characterization of 251 marine Vibrionaceae viruses | |
Le Doujet et al. | Closely-related Photobacterium strains comprise the majority of bacteria in the gut of migrating Atlantic cod (Gadus morhua) | |
Li et al. | Metagenomic analysis reveals unexplored diversity of archaeal virome in the human gut | |
CN112823206B (zh) | 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 | |
Pfennig et al. | MgCod: Gene Prediction in Phage Genomes with Multiple Genetic Codes | |
Scott et al. | Genes and regulatory mechanisms associated with experimentally-induced bovine respiratory disease identified using supervised machine learning methodology | |
Du et al. | Highly host-linked viromes in the built environment possess habitat-dependent diversity and functions for potential virus-host coevolution | |
Scott et al. | Multipopulational transcriptome analysis of post-weaned beef cattle at arrival further validates candidate biomarkers for predicting clinical bovine respiratory disease | |
Du et al. | ViralCC retrieves complete viral genomes and virus-host pairs from metagenomic Hi-C data | |
Hou et al. | DeepMicrobeFinder sorts metagenomes into prokaryotes, eukaryotes and viruses, with marine applications | |
Sangphukieo et al. | Photosynthetic protein classification using genome neighborhood-based machine learning feature | |
Tang et al. | Phage–bacterial contig association prediction with a convolutional neural network | |
R. Cerqueira et al. | OCCAM: prediction of small ORFs in bacterial genomes by means of a target-decoy database approach and machine learning techniques | |
Shuai et al. | Bacteriophages: Vectors of or weapons against the transmission of antibiotic resistance genes in hospital wastewater systems? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |