CN108491692B - 一种构建抗生素抗性基因数据库的方法 - Google Patents
一种构建抗生素抗性基因数据库的方法 Download PDFInfo
- Publication number
- CN108491692B CN108491692B CN201810195831.7A CN201810195831A CN108491692B CN 108491692 B CN108491692 B CN 108491692B CN 201810195831 A CN201810195831 A CN 201810195831A CN 108491692 B CN108491692 B CN 108491692B
- Authority
- CN
- China
- Prior art keywords
- protein
- sequence
- sequences
- database
- resistance gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了生物技术领域的一种构建抗生素抗性基因数据库的生物信息学方法,该方法包括在基因数据库(GenBank)搜索抗性基因的蛋白序列;选择高度精确的序列作为初始序列;采用ClustalW方法比对;构建隐马尔可夫模型并搜索GenBank蛋白数据库,得到全部包含蛋白保守位点的序列;根据序列的E值和GenBank数据库中序列的注释信息,去除高度同源和不符合要求的序列;删除重复序列后添加物种注释信息;整合所有蛋白序列,完成数据库的构建。该方法能够综合衡量序列的注释信息和比对相似性,提高序列收集的速度和准确性。利用本发明提供的方法,可以完成抗生素抗性基因数据库的构建,为研究抗性基因的引物设计、数据分析和序列注释提供基础数据。
Description
技术领域
本发明涉及生物技术领域,具体涉及一种基于蛋白保守位点的隐马尔可夫模型建立抗生素抗性基因数据库的生物信息学方法。
背景技术
目前构建抗生素抗性基因数据库的方法主要是根据抗性基因的名字或其他相关信息直接从GenBank数据库中搜索提取抗性基因序列,然后进行删除过滤,如抗生素抗性基因数据库ARDB(Antibiotic Resistance Database:Liu,B.and Pop,M.2009.ARDB-Antibiotic Resistance Genes Database.Nucleic Acids Research 37,D443-D447)和CARD(Comprehensive Antibiotic Resistance Database:Yan,M.,Yu,T.and Wright,G.D.2013.The Comprehensive Antibiotic Resistance Database.AntimicrobialAgents and Chemotherapy 57(7),3348-3357)等的构建;但是该方法依赖于GenBank数据库中序列的注释信息,可能由于注释信息的不准确而导致收集数据的偏差。或者通过BLAST的方法从已有数据库中比对搜索提取相似度高的抗性基因序列,如LacED(LactamaseEngineering Database:Thai,Q.K.,Boes,F.and Pleiss,J.2009.The LactamaseEngineering Database:a critical survey of TEM sequences in publicdatabases.Bmc Genomics 10)数据库是根据一条精确蛋白序列采用BLAST搜索GenBank数据库中相似度高的序列(E值小于10-120);该方法基于序列进行搜索,忽略了序列对应的注释信息,也可能存在收集序列的偏差。因此,我们考虑综合利用序列的注释信息和序列的相似性进行抗生素抗性基因序列的筛选和收集。
隐马尔可夫模型是一种概率模型,它的优势在于能能够从可观察的参数中确定该过程的隐含参数,比如通过高度精确的蛋白序列比对确定其关键保守位点,实现统计意义上的比对。相对常规的比对方法,如BLAST,能够实现多序列的比对,且同时具有更快的比对速度和更高的比对准确性。
发明内容
针对目前抗生素抗性基因数据库构建过程中可能带来的序列偏差问题,本发明首次提出,根据隐马尔可夫模型,识别蛋白序列的关键保守位点,并搜索、筛选、确定基因蛋白序列的关键技术,主要目的是提供一种构建抗生素抗性基因数据库的构建方法。
本发明提供的抗生素抗性基因数据库构建方法,包括以下步骤:
(1)在基因数据库(GenBank)搜索抗生素抗性基因对应的蛋白序列;
(2)选择具有精确注释信息和目标片段长度的无重复蛋白序列作为初始序列;
(3)采用ClustalW方法对初始蛋白序列进行多序列比对;
(4)以比对完成的序列构建该基因的蛋白保守位点隐马尔可夫模型,搜索GenBank蛋白数据库,得到全部具有该抗性基因蛋白保守位点的蛋白序列;
(5)根据搜索结果中序列的E值和GenBank蛋白数据库中序列的注释信息,去除高度同源序列和不符合要求的蛋白序列,其筛选标准如下:
①注释信息包含抗性基因名字;
②注释信息包含抗性基因产生耐药性的抗生素;
③注释信息包含抗性基因产生耐药性的主要作用机制;
④注释信息不存在推测蛋白(putative protein)和假定蛋白(hypotheticalprotein);
⑤E值小于1e-5;
在符合④⑤的前提下,符合①或②或③则认为该序列为抗性基因对应的蛋白序列;
(6)对筛选得到的蛋白序列删除重复,添加物种注释信息;
(7)整合所有蛋白序列,完成抗生素抗性基因数据库的构建。
在本发明中,基于隐马尔可夫模型,通过已知序列的蛋白保守位点来搜索所有潜在的抗性基因对应的蛋白序列。
在本发明中,筛选得到的蛋白序列符合E值的要求,且包含目标抗性基因的关键词注释信息及对应的物种信息。
本发明在使用蛋白保守位点隐马尔可夫模型搜索抗性基因序列时,能够快速有效地提取全部包含序列保守位点的蛋白序列,比对精确且得到的序列全面。
本发明所选择的蛋白序列特征数据包括与目标抗性基因紧密相关的关键词注释信息、对应的物种信息、蛋白序列与隐马尔可夫模型对比的E值。
与现有技术相比,本发明的有益效果是:
利用本发明提供的方法,可以完成抗生素抗性基因的蛋白序列数据库的构建,为研究抗生素抗性基因的引物设计、数据分析和序列注释提供基础数据。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
以下进一步对本发明进行描述,以多粘菌素类抗性基因MCR-1为例。
(1)在基因数据库(GenBank)(https://www.ncbi.nlm.nih.gov/)搜索多粘菌素类抗性基因MCR-1,得到MCR-1对应的蛋白序列:
(2)根据参考文献(Liu,Y.Y.,Wang Y.,Walsh T.W.,et al.2016.ARDB-Antibiotic Resistance Genes Database.Nucleic Acids Research 37,D443-D447)确定MCR-1基因的目标片段长度约在541bp左右,设定序列长度范围在491bp-591bp之间,且序列注释信息应包含MCR-1基因的名字,将符合要求的序列下载,删除重复序列后保留4条蛋白序列作为初始序列;
(3)采用ClustalW方法对选择的初始蛋白序列进行多序列比对;
(4)以比对完成的序列构建MCR-1基因的蛋白保守位点隐马尔可夫模型,搜索GenBank蛋白数据库,得到全部具有MCR-1基因蛋白保守位点的蛋白序列,共4171条;
隐马尔可夫模型:
全部潜在的MCR-1基因蛋白序列:
(5)根据搜索结果中序列的E值和GenBank蛋白数据库中序列的注释信息,去除高度同源序列和不符合要求的蛋白序列,保留蛋白序列627条,其筛选标准如下:
①注释信息包含抗性基因名字MCR-1;
②注释信息包含抗性基因MCR-1产生耐药性的抗生素多粘菌素(polymyxin resistance或colistin resistance);
③注释信息包含抗性基因MCR-1产生耐药性的主要作用酶:磷酸乙醇胺转移酶(phosphoethanolamine transferase);
④注释信息不存在推测蛋白(putative protein)和假定蛋白(hypotheticalprotein);
⑤序列对应的E值小于1e-5;
在符合④⑤的前提下,符合①或②或③则认为该序列为抗性基因MCR-1对应的蛋白序列。
(6)对筛选得到的蛋白序列删除重复后保留267条蛋白序列,添加物种注释信息;
(7)整合所有蛋白序列,完成抗生素抗性基因数据库MCR-1的构建:267条蛋白序列。
多粘菌素类抗性基因MCR-1数据库蛋白序列:
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
最后,所属领域的普通技术人员应当理解:以上列举的仅是本发明的具体实施例子,并非旨在说明本公开的范围(包括权利要求)被限于抗性基因如MCR-1数据库的构建。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等构建抗生素抗性基因数据库的方法,均应包含在本发明的保护范围之内。
Claims (3)
1.一种构建抗生素抗性基因数据库的方法,其特征在于,包括以下步骤:
(1)在基因数据库GenBank搜索抗生素抗性基因对应的蛋白序列;
(2)选择具有精确注释信息和目标片段长度的无重复蛋白序列作为初始序列;
(3)采用ClustalW方法对初始蛋白序列进行多序列比对;
(4)以比对完成的序列构建该基因的蛋白保守位点隐马尔可夫模型,搜索GenBank蛋白数据库,得到全部具有该抗性基因蛋白保守位点的蛋白序列;
(5)根据搜索结果中序列的E值和GenBank蛋白数据库中序列的注释信息,去除高度同源序列和不符合要求的蛋白序列,其筛选标准如下:
①注释信息包含抗性基因名字;
②注释信息包含抗性基因产生耐药性的抗生素;
③注释信息包含抗性基因产生耐药性的主要作用机制;
④注释信息不存在推测蛋白(putative protein)和假定蛋白(hypotheticalprotein);
⑤E值小于1e-5;
在符合④⑤的前提下,符合①或②或③则认为该序列为抗性基因对应的蛋白序列;
(6)对筛选得到的蛋白序列删除重复,添加物种注释信息;
(7)整合所有蛋白序列,完成抗生素抗性基因数据库的构建。
2.根据权利要求1所述的构建抗生素抗性基因数据库的方法,其特征是基于隐马尔可夫模型,通过已知序列的蛋白保守位点来搜索所有潜在的抗性基因对应的蛋白序列。
3.根据权利要求1所述的构建抗生素抗性基因数据库的方法,其特征在于筛选得到的蛋白序列符合E值的要求,且包含目标抗性基因的关键词注释信息及对应的物种信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195831.7A CN108491692B (zh) | 2018-03-09 | 2018-03-09 | 一种构建抗生素抗性基因数据库的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810195831.7A CN108491692B (zh) | 2018-03-09 | 2018-03-09 | 一种构建抗生素抗性基因数据库的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491692A CN108491692A (zh) | 2018-09-04 |
CN108491692B true CN108491692B (zh) | 2023-07-21 |
Family
ID=63338389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810195831.7A Active CN108491692B (zh) | 2018-03-09 | 2018-03-09 | 一种构建抗生素抗性基因数据库的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491692B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310708A (zh) * | 2019-06-18 | 2019-10-08 | 广东省生态环境技术研究所 | 一种构建异化砷还原酶蛋白数据库的方法 |
CN110610743A (zh) * | 2019-08-16 | 2019-12-24 | 广东省生态环境技术研究所 | 一种构建铬还原酶蛋白数据库的方法 |
CN111739591B (zh) * | 2020-04-24 | 2022-12-06 | 大连理工大学 | 一种预测微生物降解芳香族化合物潜力的预测方法 |
CN112992277B (zh) * | 2021-03-18 | 2021-10-26 | 南京先声医学检验实验室有限公司 | 一种微生物基因组数据库构建方法及其应用 |
CN113308467A (zh) * | 2021-07-13 | 2021-08-27 | 清华大学深圳国际研究生院 | β-内酰胺类抗生素的新型penA抗性基因及其应用 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063687A1 (en) * | 1999-04-15 | 2000-10-26 | The Trustees Of Columbia University In The City Of New York | Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins |
WO2001030830A2 (en) * | 1999-10-26 | 2001-05-03 | Mitokor | Gene sequences identified by protein motif database searching |
WO2002022876A1 (en) * | 2000-09-11 | 2002-03-21 | University Of Rochester | Method of identifying putative antibiotic resistance genes |
CN1672160A (zh) * | 2002-05-20 | 2005-09-21 | 埃博马可西斯公司 | 在计算机上产生和筛选蛋白质文库 |
WO2011071209A1 (ko) * | 2009-12-11 | 2011-06-16 | 한국생명공학연구원 | 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법 |
CN103421833A (zh) * | 2013-08-13 | 2013-12-04 | 浙江大学 | 一种跨膜输出蛋白基因选择克隆载体及其构建方法和应用 |
CN105164262A (zh) * | 2013-11-22 | 2015-12-16 | 孟加拉朱特研究所 | 来自长蒴黄麻和圆果种黄麻的编码wuschel相关的同源框4(wox4)蛋白的核苷酸序列和其使用方法 |
WO2016043588A1 (en) * | 2014-09-17 | 2016-03-24 | Wageningen Universiteit | New phytophthora resistance gene |
-
2018
- 2018-03-09 CN CN201810195831.7A patent/CN108491692B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063687A1 (en) * | 1999-04-15 | 2000-10-26 | The Trustees Of Columbia University In The City Of New York | Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins |
WO2001030830A2 (en) * | 1999-10-26 | 2001-05-03 | Mitokor | Gene sequences identified by protein motif database searching |
WO2002022876A1 (en) * | 2000-09-11 | 2002-03-21 | University Of Rochester | Method of identifying putative antibiotic resistance genes |
CN1672160A (zh) * | 2002-05-20 | 2005-09-21 | 埃博马可西斯公司 | 在计算机上产生和筛选蛋白质文库 |
WO2011071209A1 (ko) * | 2009-12-11 | 2011-06-16 | 한국생명공학연구원 | 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법 |
CN103421833A (zh) * | 2013-08-13 | 2013-12-04 | 浙江大学 | 一种跨膜输出蛋白基因选择克隆载体及其构建方法和应用 |
CN105164262A (zh) * | 2013-11-22 | 2015-12-16 | 孟加拉朱特研究所 | 来自长蒴黄麻和圆果种黄麻的编码wuschel相关的同源框4(wox4)蛋白的核苷酸序列和其使用方法 |
WO2016043588A1 (en) * | 2014-09-17 | 2016-03-24 | Wageningen Universiteit | New phytophthora resistance gene |
Non-Patent Citations (6)
Title |
---|
a program for degenerate primer design for broad-taxonomic-range PCR in microbial ecology studies;Hugerth L W等;《 Applied and environmental microbiology》;第80卷(第16期);5116-5123 * |
Alignment and structure prediction of divergent protein families: periplasmic and outer membrane proteins of bacterial efflux pumps;Johnson J M等;《Journal of molecular biology》;第287卷(第3期);695-715 * |
Exploring abundance, diversity and variation of a widespread antibiotic resistance gene in wastewater treatment plants;Wei Z等;《 Environment international》;第117卷;186-195 * |
Searching for antibiotic resistance genes in a pristine Arctic wetland;Diaz K S等;《Journal of Contemporary Water Research & Education》;第160卷(第1期);42-59 * |
可视化HMM抗性基因建模研究;阳攀;《中国优秀硕士学位论文全文数据库农业科技辑》(第5期);D043-118 * |
基于隐马尔科夫模型的基因预测算法;马宝山等;《大连海事大学学报》;第34卷(第4期);41-44 * |
Also Published As
Publication number | Publication date |
---|---|
CN108491692A (zh) | 2018-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491692B (zh) | 一种构建抗生素抗性基因数据库的方法 | |
Henikoff et al. | [6] Blocks database and its applications | |
WO2020147857A1 (zh) | 海量视频特征提取以及存储和检索方法及系统 | |
Wang et al. | Computational resources for ribosome profiling: from database to Web server and software | |
CN104142984A (zh) | 一种基于粗细粒度的视频指纹检索方法 | |
CN107229839B (zh) | 一种基于新一代测序数据的Indel检测方法 | |
Dunne et al. | OrthoFiller: utilising data from multiple species to improve the completeness of genome annotations | |
WO2014144745A1 (en) | Non-deterministic disambiguation and matching of business locale data | |
CN111192630A (zh) | 一种宏基因组数据挖掘方法 | |
Yousef et al. | Categorization of species based on their microRNAs employing sequence motifs, information-theoretic sequence feature extraction, and k-mers | |
US20170098034A1 (en) | Constructing custom knowledgebases and sequence datasets with publications | |
Jörger et al. | How to use CAOS software for taxonomy? A quick guide to extract diagnostic nucleotides or amino acids for species descriptions | |
CN109670153A (zh) | 一种相似帖子的确定方法、装置、存储介质及终端 | |
Fischer et al. | Synthesizing genome regulation data with vote-counting | |
CN107463781B (zh) | 用于高炉铁水硅含量预测模型的数据约简处理方法及装置 | |
WO2011073680A1 (en) | Improvements relating to hash tables | |
CN111259171A (zh) | 一种基于分词索引搜索多媒体资源的方法及服务器 | |
CN115798578A (zh) | 一种分析与检测病毒新流行变异株的装置及方法 | |
CN115329195A (zh) | 基于人工智能的意图挖掘方法、装置、设备及存储介质 | |
Hoeppner et al. | An introduction to RNA databases | |
CN107577667A (zh) | 一种实体词处理方法和装置 | |
CN107273713B (zh) | 一种基于TM-align的多域蛋白模板搜索方法 | |
Chalikiopoulou et al. | Untargeted metabolomics for disease-specific signatures | |
Kasukurthi et al. | SURFR: a real-time platform for non-coding RNA fragmentation analysis using wavelets | |
CN110544510A (zh) | 基于邻接代数模型及质量等级评估的contig集成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |