CN105574359A - 一种蛋白质模板库的扩充方法及装置 - Google Patents

一种蛋白质模板库的扩充方法及装置 Download PDF

Info

Publication number
CN105574359A
CN105574359A CN201510938160.5A CN201510938160A CN105574359A CN 105574359 A CN105574359 A CN 105574359A CN 201510938160 A CN201510938160 A CN 201510938160A CN 105574359 A CN105574359 A CN 105574359A
Authority
CN
China
Prior art keywords
protein
sequence
protein sequence
sample
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510938160.5A
Other languages
English (en)
Other versions
CN105574359B (zh
Inventor
董启文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information technology of the island of Shanghai (Shanghai) Limited by Share Ltd
Original Assignee
SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510938160.5A priority Critical patent/CN105574359B/zh
Publication of CN105574359A publication Critical patent/CN105574359A/zh
Application granted granted Critical
Publication of CN105574359B publication Critical patent/CN105574359B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种蛋白质模板库的扩充方法及装置,包括:从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;通过蛋白质分子设计算法,设计与蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入原始蛋白质模板库,生成初始扩充蛋白质模板库;通过序列对比算法去除初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库,可见,在本实施例中,通过对筛选的蛋白质样本进行设计,能扩充现有蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度及准确率。

Description

一种蛋白质模板库的扩充方法及装置
技术领域
本发明涉及蛋白质结构预测领域,更具体地说,涉及一种蛋白质模板库的扩充方法及装置。
背景技术
在生命活动中,蛋白质扮演着关键性的角色,由于通过实验手段获取蛋白质三维结构的难度和成本很大,因此发展出了各种蛋白质结构预测方法。蛋白质结构预测方法主要分为从头预测和基于模板预测两种类别。相对来说,基于模板的方法准确率比较高,这种方法把已知结构的蛋白质作为模板,通过序列比对的方式,参考已知蛋白质结构来预测未知蛋白质结构,但存在的一个问题是难以从模板库中识别未知结构序列的远程同源序列,制约了预测准确率的提升。远程同源序列的识别,一方面需要有高效精准的识别算法,另一方面需要有足够数量的模板序列供识别算法选择,而目前普遍采用的蛋白质序列模板库中的数据都是通过实验手段测得结构的蛋白质序列,相对于所有待预测序列而言,规模很小。截止2015年11月,蛋白数据库集UniProtKB中包含的蛋白质序列(注释+未注释)有5500万余条,而蛋白质三维结构数据库PDB(proteindatabank)中仅包含11万余个蛋白质结构,因此已知结构的序列仅占整个序列的0.2%不到。基于模板的方法要根据0.2%不到的已知结构序列来预测剩余近99.8%序列的结构,难度可想而知。
因此,如何扩充蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度是现在需要解决的问题。
发明内容
本发明的目的在于提供一种蛋白质模板库的扩充方法及装置,以扩充蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度。
为实现上述目的,本发明实施例提供了如下技术方案:
一种蛋白质模板库的扩充方法,包括:
从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
优选的,所述通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,包括:
将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
优选的,所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本,包括:
从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述PDB数据库中下载所述蛋白质序列。
优选的,通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本,包括:
通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
优选的,将最终保留的蛋白质序列作为扩充蛋白质模板库之后,还包括:
获取目标蛋白质序列;
利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
一种蛋白质模板库的扩充装置,包括:
选择模块,用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本;
第一去除模块,用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
设计模块,用于通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
第二去除模块,用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
优选的,所述设计模块通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,具体包括:
将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
优选的,所述选择模块具体用于:
从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述PDB数据库中下载所述蛋白质序列。
优选的,所述第一去除模块具体用于:
通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
优选的,还包括:
获取模块,用于获取目标蛋白质序列;
同源蛋白质序列获取模块,用于利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
蛋白质序列结构预测模块,用于将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
通过以上方案可知,本发明实施例提供的一种蛋白质模板库的扩充方法及装置,包括:从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库,可见,在本实施例中,通过对筛选的蛋白质样本进行设计,能扩充现有蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度及准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种蛋白质模板库的扩充方法流程示意图;
图2为本发明实施例公开的一种蛋白质模板库的扩充装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种蛋白质模板库的扩充方法及装置,以扩充蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度。
参见图1,本发明实施例提供的一种蛋白质模板库的扩充方法,包括:
S101、从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
其中,所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本,包括:
从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述PDB数据库中下载所述蛋白质序列。
在本实施例中为了保证扩充模板库具有充分的覆盖率,要在已知结构的原始蛋白质模板库中均匀地、充分地选取蛋白质结构作为样本,这些样本要覆盖各种蛋白质结构类型。具体可以根据SCOP蛋白质结构分类体系,选取若干个折叠作为原始样本数据,选取的原始蛋白质结构均匀地覆盖整个已知结构数据集,并且由于蛋白质分子设计程序的输入数据是蛋白质的三维结构信息,因此,为了对样本蛋白质进行设计,需要按照蛋白质编号的名称从PDB数据库下载样本蛋白质的结构数据,作为蛋白质分子设计的初始样本。
其中,通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本,包括:
通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
具体的,鉴于远程同源蛋白质(序列相似度比较低)模板的数量对于基于模板的预测方法价值很大,因此本发明着重选取远程同源蛋白质,需要将序列相似度高的蛋白质去除。在此采用BLAST算法,在样本序列中进行搜索,只保留相似度低于指定阈值(50%)的蛋白质序列,最终保留的序列即为样本蛋白质序列。需要说明的是,在本实施例中的预定阈值可以根据实际情况自定义。
S102、通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
具体的,在本实施例中,为了能够充分提高基于模板的蛋白质结构预测方法的准确率,亟需采用合理的方法解决蛋白质序列模板库规模偏小的问题,即只有具备了足够数量和高质量的模板序列,基于模板的预测方法才能充分发挥作用。因此,在本实施例提供的蛋白质模板库扩充方法中,首先对蛋白质样本进行均匀的选取,再通过蛋白质分子设计算法设计与蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入原始蛋白质模板库中,以扩充蛋白质模板库,从而可以提高远程同源蛋白识别的精度,提升蛋白质结构预测的准确性。
其中,所述通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,包括:
将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
具体的,Evodesign是基于进化序列谱的蛋白质全新设计方法,利用蛋白质三维结构信息设计蛋白质序列。Evodesign主要包含前期处理、模拟、聚类和选择三个过程。利用Evodesign对同一个蛋白质结构获取多个设计序列,这些序列可以认为是同一个蛋白质结构的不同表现方式,将这些序列在基于模板的蛋白质结构预测中作为比对模板,有助于提升蛋白质同源模板的数量。
S103、通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
具体的,在本实施例中将蛋白质样本的结构作为输入,采用蛋白质分子设计算法Evodesign,设计与样本蛋白质结构对应的蛋白质序列,将这些序列加入到原始的序列模板库中,实现序列模板库的扩充。同样,在扩充的序列模板库中用序列比对算法BLAST去除相似度超过50%的蛋白质序列,只保留相似度较低的序列。
优选的,将最终保留的蛋白质序列作为扩充蛋白质模板库之后,还包括:
获取目标蛋白质序列;
利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
具体的,为了对目标蛋白质序列的结构进行预测,需要搜索出目标蛋白质序列的同源序列,并构造出序列比对结果。在本实施例中采用PSI-BLAST在扩充模板库中寻找目标蛋白质序列的同源蛋白质序列,进而获得目标蛋白质序列与同源蛋白质序列的比对结果。其中,Modeller软件包是一个被广泛使用的同源建模工具,并且同时支持单模板和多模板建模,在用于蛋白质三维结构的同源或者比较建模时,Modeller的输入数据是目标蛋白质序列和同源蛋白质序列的对比结果,Modeller以此为依据对蛋白质进行建模,从而实现了对目标蛋白质的结构预测。
具体的,在本实施例中基于蛋白质样本结构,逆向设计相应的蛋白质序列,从而扩充现有的蛋白质结构模板库,基于扩充的模板库进一步对未知结构的蛋白质序列进行结构预测,从而可探测到远程同源的蛋白质模板,进一步提高蛋白质结构预测的精度。
本发明实施例提供的一种蛋白质模板库的扩充方法,包括:从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库,可见,在本实施例中,通过对筛选的蛋白质样本进行设计,能扩充现有蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度及准确率。
下面对本发明实施例提供的一种蛋白质模板库的扩充装置进行介绍,下文描述的一种蛋白质模板库的扩充装置与上文描述的一种蛋白质模板库的扩充方法可以相互参照。
参见图2,本发明实施例提供的一种蛋白质模板库的扩充装置,包括:
选择模块100,用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本;
第一去除模块200,用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
设计模块300,用于通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
第二去除模块400,用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
本发明实施例提供的一种蛋白质模板库的扩充装置,包括:选择模块100,用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本;第一去除模块200,用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;设计模块300,用于通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;第二去除模块400,用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。可见,在本实施例中,通过对筛选的蛋白质样本进行设计,能扩充现有蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度及准确率。
优选的,在本发明提供的另一实施例中,所述设计模块通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,具体包括:
将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
优选的,在本发明提供的另一实施例中,所述选择模块具体用于:
从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述PDB数据库中下载所述蛋白质序列。
优选的,在本发明提供的另一实施例中,所述第一去除模块具体用于:
通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
优选的,在本发明提供的另一实施例中,本装置还包括:
获取模块,用于获取目标蛋白质序列;
同源蛋白质序列获取模块,用于利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
蛋白质序列结构预测模块,用于将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种蛋白质模板库的扩充方法,其特征在于,包括:
从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
2.根据权利要求1所述的扩充方法,其特征在于,所述通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,包括:
将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
3.根据权利要求2所述的扩充方法,其特征在于,所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本,包括:
从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述PDB数据库中下载所述蛋白质序列。
4.根据权利要求3所述的扩充方法,其特征在于,通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本,包括:
通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
5.根据权利要求1-4中任意一项所述的扩充方法,其特征在于,将最终保留的蛋白质序列作为扩充蛋白质模板库之后,还包括:
获取目标蛋白质序列;
利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
6.一种蛋白质模板库的扩充装置,其特征在于,包括:
选择模块,用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本;
第一去除模块,用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
设计模块,用于通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
第二去除模块,用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
7.根据权利要求6所述的扩充装置,其特征在于,所述设计模块通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,具体包括:
将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
8.根据权利要求7所述的扩充装置,其特征在于,所述选择模块具体用于:
从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述PDB数据库中下载所述蛋白质序列。
9.根据权利要求8所述的扩充装置,其特征在于,所述第一去除模块具体用于:
通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
10.根据权利要求6-9中任意一项所述的扩充装置,其特征在于,还包括:
获取模块,用于获取目标蛋白质序列;
同源蛋白质序列获取模块,用于利用PSI-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
蛋白质序列结构预测模块,用于将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
CN201510938160.5A 2015-12-15 2015-12-15 一种蛋白质模板库的扩充方法及装置 Expired - Fee Related CN105574359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510938160.5A CN105574359B (zh) 2015-12-15 2015-12-15 一种蛋白质模板库的扩充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510938160.5A CN105574359B (zh) 2015-12-15 2015-12-15 一种蛋白质模板库的扩充方法及装置

Publications (2)

Publication Number Publication Date
CN105574359A true CN105574359A (zh) 2016-05-11
CN105574359B CN105574359B (zh) 2018-09-14

Family

ID=55884484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510938160.5A Expired - Fee Related CN105574359B (zh) 2015-12-15 2015-12-15 一种蛋白质模板库的扩充方法及装置

Country Status (1)

Country Link
CN (1) CN105574359B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706738A (zh) * 2019-10-30 2020-01-17 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104926940A (zh) * 2015-06-15 2015-09-23 江苏省农业科学院 一种人源杀虫蛋白及其制备方法与应用
CN104951669A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种用于蛋白质结构预测的距离谱构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951669A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种用于蛋白质结构预测的距离谱构建方法
CN104926940A (zh) * 2015-06-15 2015-09-23 江苏省农业科学院 一种人源杀虫蛋白及其制备方法与应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRALAY MITRA ET AL.: "EvoDesign: de novo protein design based on structural and evolutionary profiles", 《NUCLEIC ACIDS RESEARCH》 *
刘岳等: "蛋白质折叠类型的分类建模与识别", 《物理化学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706738A (zh) * 2019-10-30 2020-01-17 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105574359B (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
US10262105B2 (en) Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN102156751B (zh) 一种提取视频指纹的方法及装置
CN110692101B (zh) 用于比对靶向的核酸测序数据的方法
WO2014186604A1 (en) Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
WO2017143585A1 (zh) 对分隔长片段序列进行组装的方法和装置
US8738296B2 (en) Indexing a reference sequence for oligomer sequence mapping
RU2014127308A (ru) Инженерия и оптимизация одноцепочечных антител на основе последовательности
CN107168868B (zh) 一种基于采样和集成学习的软件更改缺陷预测方法
CN1790335A (zh) Xml文件数据存取的方法
CN104699796A (zh) 一种基于数据仓库的数据清洗方法
CN111429980A (zh) 一种材料晶体结构特征的自动化获取方法
US8731843B2 (en) Oligomer sequences mapping
US8615365B2 (en) Oligomer sequences mapping
KR101520671B1 (ko) 실행코드 유사도 분석 시스템 및 방법
CN111324781A (zh) 一种数据分析方法、装置及设备
CN103793625A (zh) 碱基序列比对系统及方法
CN105574359A (zh) 一种蛋白质模板库的扩充方法及装置
CN102789553A (zh) 利用长转录组测序结果装配基因组的方法及装置
CN102841988A (zh) 一种对核酸序列信息进行匹配的系统和方法
Lu et al. TASSEL 3.0 universal network enabled analysis kit (UNEAK) pipeline documentation
KR101482010B1 (ko) 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법
CN104764455B (zh) 一种导航电子地图数据处理方法及装置
CN108226743B (zh) 一种测试向量的生成方法及装置
US9262572B2 (en) Fast and accurate capacitance checker
KR102447192B1 (ko) 염기 서열 처리 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 200080 room 547, new building 291, wunshui East Road, Hongkou District, Shanghai.

Patentee after: Information technology of the island of Shanghai (Shanghai) Limited by Share Ltd

Address before: 200083 Shanghai Hongkou District water circuit 682, Tianhong business building 7F

Patentee before: Shanghai Trueland Information Technology Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180914

Termination date: 20191215