CN108491692B

CN108491692B - 一种构建抗生素抗性基因数据库的方法

Info

Publication number: CN108491692B
Application number: CN201810195831.7A
Authority: CN
Inventors: 邓晔; 魏子艳
Original assignee: Research Center for Eco Environmental Sciences of CAS; University of Chinese Academy of Sciences
Current assignee: Research Center for Eco Environmental Sciences of CAS; University of Chinese Academy of Sciences
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2023-07-21
Anticipated expiration: 2038-03-09
Also published as: CN108491692A

Abstract

本发明公开了生物技术领域的一种构建抗生素抗性基因数据库的生物信息学方法，该方法包括在基因数据库(GenBank)搜索抗性基因的蛋白序列；选择高度精确的序列作为初始序列；采用ClustalW方法比对；构建隐马尔可夫模型并搜索GenBank蛋白数据库，得到全部包含蛋白保守位点的序列；根据序列的E值和GenBank数据库中序列的注释信息，去除高度同源和不符合要求的序列；删除重复序列后添加物种注释信息；整合所有蛋白序列，完成数据库的构建。该方法能够综合衡量序列的注释信息和比对相似性，提高序列收集的速度和准确性。利用本发明提供的方法，可以完成抗生素抗性基因数据库的构建，为研究抗性基因的引物设计、数据分析和序列注释提供基础数据。

Description

一种构建抗生素抗性基因数据库的方法

技术领域

本发明涉及生物技术领域，具体涉及一种基于蛋白保守位点的隐马尔可夫模型建立抗生素抗性基因数据库的生物信息学方法。

背景技术

目前构建抗生素抗性基因数据库的方法主要是根据抗性基因的名字或其他相关信息直接从GenBank数据库中搜索提取抗性基因序列，然后进行删除过滤，如抗生素抗性基因数据库ARDB(Antibiotic Resistance Database：Liu,B.and Pop,M.2009.ARDB-Antibiotic Resistance Genes Database.Nucleic Acids Research 37,D443-D447)和CARD(Comprehensive Antibiotic Resistance Database：Yan,M.,Yu,T.and Wright,G.D.2013.The Comprehensive Antibiotic Resistance Database.AntimicrobialAgents and Chemotherapy 57(7),3348-3357)等的构建；但是该方法依赖于GenBank数据库中序列的注释信息，可能由于注释信息的不准确而导致收集数据的偏差。或者通过BLAST的方法从已有数据库中比对搜索提取相似度高的抗性基因序列，如LacED(LactamaseEngineering Database：Thai,Q.K.,Boes,F.and Pleiss,J.2009.The LactamaseEngineering Database:a critical survey of TEM sequences in publicdatabases.Bmc Genomics 10)数据库是根据一条精确蛋白序列采用BLAST搜索GenBank数据库中相似度高的序列(E值小于10-120)；该方法基于序列进行搜索，忽略了序列对应的注释信息，也可能存在收集序列的偏差。因此，我们考虑综合利用序列的注释信息和序列的相似性进行抗生素抗性基因序列的筛选和收集。

隐马尔可夫模型是一种概率模型，它的优势在于能能够从可观察的参数中确定该过程的隐含参数，比如通过高度精确的蛋白序列比对确定其关键保守位点，实现统计意义上的比对。相对常规的比对方法，如BLAST，能够实现多序列的比对，且同时具有更快的比对速度和更高的比对准确性。

发明内容

针对目前抗生素抗性基因数据库构建过程中可能带来的序列偏差问题，本发明首次提出，根据隐马尔可夫模型，识别蛋白序列的关键保守位点，并搜索、筛选、确定基因蛋白序列的关键技术，主要目的是提供一种构建抗生素抗性基因数据库的构建方法。

本发明提供的抗生素抗性基因数据库构建方法，包括以下步骤：

(1)在基因数据库(GenBank)搜索抗生素抗性基因对应的蛋白序列；

(2)选择具有精确注释信息和目标片段长度的无重复蛋白序列作为初始序列；

(3)采用ClustalW方法对初始蛋白序列进行多序列比对；

(4)以比对完成的序列构建该基因的蛋白保守位点隐马尔可夫模型，搜索GenBank蛋白数据库，得到全部具有该抗性基因蛋白保守位点的蛋白序列；

(5)根据搜索结果中序列的E值和GenBank蛋白数据库中序列的注释信息，去除高度同源序列和不符合要求的蛋白序列，其筛选标准如下：

①注释信息包含抗性基因名字；

②注释信息包含抗性基因产生耐药性的抗生素；

③注释信息包含抗性基因产生耐药性的主要作用机制；

④注释信息不存在推测蛋白(putative protein)和假定蛋白(hypotheticalprotein)；

⑤E值小于1e-5；

在符合④⑤的前提下，符合①或②或③则认为该序列为抗性基因对应的蛋白序列；

(6)对筛选得到的蛋白序列删除重复，添加物种注释信息；

(7)整合所有蛋白序列，完成抗生素抗性基因数据库的构建。

在本发明中，基于隐马尔可夫模型，通过已知序列的蛋白保守位点来搜索所有潜在的抗性基因对应的蛋白序列。

在本发明中，筛选得到的蛋白序列符合E值的要求，且包含目标抗性基因的关键词注释信息及对应的物种信息。

本发明在使用蛋白保守位点隐马尔可夫模型搜索抗性基因序列时，能够快速有效地提取全部包含序列保守位点的蛋白序列，比对精确且得到的序列全面。

本发明所选择的蛋白序列特征数据包括与目标抗性基因紧密相关的关键词注释信息、对应的物种信息、蛋白序列与隐马尔可夫模型对比的E值。

与现有技术相比，本发明的有益效果是：

利用本发明提供的方法，可以完成抗生素抗性基因的蛋白序列数据库的构建，为研究抗生素抗性基因的引物设计、数据分析和序列注释提供基础数据。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

以下进一步对本发明进行描述，以多粘菌素类抗性基因MCR-1为例。

(1)在基因数据库(GenBank)(https://www.ncbi.nlm.nih.gov/)搜索多粘菌素类抗性基因MCR-1，得到MCR-1对应的蛋白序列：

(2)根据参考文献(Liu,Y.Y.,Wang Y.,Walsh T.W.,et al.2016.ARDB-Antibiotic Resistance Genes Database.Nucleic Acids Research 37,D443-D447)确定MCR-1基因的目标片段长度约在541bp左右，设定序列长度范围在491bp-591bp之间，且序列注释信息应包含MCR-1基因的名字，将符合要求的序列下载，删除重复序列后保留4条蛋白序列作为初始序列；

(3)采用ClustalW方法对选择的初始蛋白序列进行多序列比对；

(4)以比对完成的序列构建MCR-1基因的蛋白保守位点隐马尔可夫模型，搜索GenBank蛋白数据库，得到全部具有MCR-1基因蛋白保守位点的蛋白序列，共4171条；

隐马尔可夫模型：

全部潜在的MCR-1基因蛋白序列：

(5)根据搜索结果中序列的E值和GenBank蛋白数据库中序列的注释信息，去除高度同源序列和不符合要求的蛋白序列，保留蛋白序列627条，其筛选标准如下：

①注释信息包含抗性基因名字MCR-1；

②注释信息包含抗性基因MCR-1产生耐药性的抗生素多粘菌素(polymyxin resistance或colistin resistance)；

③注释信息包含抗性基因MCR-1产生耐药性的主要作用酶：磷酸乙醇胺转移酶(phosphoethanolamine transferase)；

⑤序列对应的E值小于1e-5；

在符合④⑤的前提下，符合①或②或③则认为该序列为抗性基因MCR-1对应的蛋白序列。

(6)对筛选得到的蛋白序列删除重复后保留267条蛋白序列，添加物种注释信息；

(7)整合所有蛋白序列，完成抗生素抗性基因数据库MCR-1的构建：267条蛋白序列。

多粘菌素类抗性基因MCR-1数据库蛋白序列：

/>

最后，所属领域的普通技术人员应当理解：以上列举的仅是本发明的具体实施例子，并非旨在说明本公开的范围(包括权利要求)被限于抗性基因如MCR-1数据库的构建。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等构建抗生素抗性基因数据库的方法，均应包含在本发明的保护范围之内。

Claims

1.一种构建抗生素抗性基因数据库的方法，其特征在于，包括以下步骤：

(1)在基因数据库GenBank搜索抗生素抗性基因对应的蛋白序列；