CN110111849B

CN110111849B - 一种基于高性能计算平台的核酸适配体计算机辅助筛选方法及核酸适配体

Info

Publication number: CN110111849B
Application number: CN201910379241.4A
Authority: CN
Inventors: 刘彤; 屈锋; 裴智勇; 刘书霞; 陆晓娟; 刘满姣; 袁寒玉; 杨杰
Original assignee: BEIJING COMPUTING CENTER; Beijing Institute of Technology BIT
Current assignee: Beijing Computing Center Co.,Ltd.; Beijing Institute of Technology BIT
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2021-03-26
Anticipated expiration: 2039-05-08
Also published as: CN110111849A

Abstract

本发明提供了一种基于高性能计算平台的核酸适配体计算机辅助筛选方法，涉及分子生物学检测技术领域，根据匹配原则查询筛选平台集成的数据库系统中是否有与目标蛋白匹配的蛋白结构，如果有则作为受体模板，如果没有则进行同源构建，通过分子动力学模拟和分子对接筛选得到初选的核酸适配体，最为核酸适配体候选物，具有高效、快捷、准确率高的特点。该筛选方法可与“湿法”实验结合，减少“湿法”实验次数，节省实验成本，提高筛选成功率。通过计算机辅助模拟分析得到适配过程中蛋白质与核酸分子间化学反应机理等信息，并将数据在终端进行展示，并在揭示相应生物材料与核酸分子间可能的相互作用机理方面提供数据支撑，因此具有重要的研究意义和使用价值。

Description

一种基于高性能计算平台的核酸适配体计算机辅助筛选方法及核酸适配体

技术领域

本发明涉及分子生物学检测技术领域，尤其是涉及一种基于高性能计算平台的核酸适配体计算机辅助筛选方法及核酸适配体。

背景技术

计算生物学是一门充满活力的新兴交叉学科，在目前生物学研究中不断扮演着重要的角色，也是目前阐述生物学机理研究的一个重要工具。计算生物学能够完成基于大量生物学数据及复杂的计算过程，是目前生命学科与非生命学科的大交叉，具有高效便捷的特点。在基因与蛋白质的计算机辅助设计、比较基因组分析、生物系统模型、细胞信号传导与基因调控网络研究、专家数据库、生物软件包等领域发挥重要作用。

计算生物学中的蛋白核酸对接技术，为预测蛋白质-核酸复合物结构的有效方法，为研究生物学过程中蛋白质-核酸的相互作用提供了重要的工具。

核酸适配体是指可与目标分子特异性结合的单链的寡核苷酸链分子(DNA或RNA)，一般小于100mer。与抗体相比，核酸适配体与靶分子之间分子识别功能与抗体极为相似，但作用的靶分子范围更广，包括毒素免疫原性弱和不具有免疫原性的物质及能够识别单抗不能区分的相似物质，比抗体具有更高的特异性，亲和力更高。因其结构和性能的独特优越性，核酸适配体目益广泛地应用于生物医学基础研究、疾病诊治和药物研发。

但是，关于核酸适配体的筛选面临很多问题：

(1)Aptamers from Cell-Based Selection for Bioanalytical Applications，Chemical Reviews，2013，113，2842-2862，该现有技术介绍了目前一种针对细胞核酸适配体的筛选方法，一般需要20轮左右的筛选，才能获得高亲和力的核酸适配体，实现次数比较多，筛选过程比较复杂、耗时长。

(2)公告号为：CN103911379，专利名称为：核酸适配体及其衍生物、筛选方法和应用，利用单壁碳纳米管能够很好的吸附单链DNA的特点，将单壁碳纳米管引入到筛选的过程中，降低非特异性吸附，有效地去除结合的单链DNA，该方法虽然次数相应的有所减少，但是次数依旧比较多，且难以实现自动化。

由此可见，传统的核酸适配体筛选方法是核酸适配体通过指数级富集配体系统进化技术(Systematic evolution of ligands by exponential enrichment，SELEX)筛选得到，需要对预富集的核酸文库进行测序，再从大量的测序结果中挑选出亲和力高、选择性好的核酸适配体序列，这一过程存在耗时长、效率低、成本高、难以实现自动化的问题。即，该方法周期长，劳动量大，成本高，此外，过多的试验次数和试验周期，使得ssdna和drdna相互转换之间，会出现错配问题，每次收敛过程，目标序列由于没有得到扩增，从而造成目标序列的丢失。因此，亟待研究一种实验次数少、工作强度低、发展高效快速、准确度高的核酸适配体的方法，以满足日益增长的科学、医疗需求。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本发明的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本发明的目的在于提供一种基于高性能计算平台的核酸适配体计算机辅助筛选方法及核酸适配体，根据匹配原则查询筛选平台数据库系统中是否有与目标蛋白匹配的蛋白结构，如果有则作为受体模板，如果没有则进行同源构建，通过分子动力学模拟和分子对接筛选得到核酸适配体，该计算机辅助筛选方法实验次数少，高效快捷，能够通过模拟分析得到适配信息，并将数据在终端进行展示，并通过计算模拟方法，得到相应生物材料(主要为蛋白质、生物膜)与核酸分子间可能的相互作用机理，并与前端进行重点展示，相对于传统单纯湿法实验筛选方法，使得筛选准确度更高，筛选更有针对性，具有重要的研究意义和使用价值。

为实现上述目的，本发明提供了以下技术方案：

本发明提供的基于高性能计算平台的核酸适配体计算机辅助筛选方法，包括：

步骤一，对数据库进行筛选，筛选出具有蛋白A相应结构的蛋白质数据库和核酸数据库，蛋白A为目标蛋白；

步骤二，对经过第一步筛选后的数据库进行下载，并对所述经过第一步筛选后的所述数据库中的数据进行数据处理，所述经过第一步筛选后的数据库和经过第一步筛选后的所述数据库中的数据存储录入筛选平台数据库系统中；

步骤三，搭建核酸适配体计算生物学筛选平台进行核酸适配体筛选；

包括：蛋白体系的构建：

所述蛋白体系的构建包括：

S01：根据匹配原则查询所述筛选平台数据库系统中是否有与所述蛋白A匹配的蛋白结构：

如果所述筛选平台数据库系统中具有与所述蛋白A匹配的蛋白结构，则下载所述蛋白结构作为受体模板；

如果所述筛选平台数据库系统中没有与所述蛋白A匹配的蛋白结构，则进行同源构建；

S02：根据所述受体模板或所述同源构建方法构建蛋白A三维结构；

S03：对所述蛋白A进行分子动力学模拟，获得蛋白A稳定结构；

S04：将所述蛋白A稳定结构与所述筛选平台数据库系统中的核酸分子进行对接；判断所述蛋白A稳定结构与所述核酸分子是否对接成功：

如果对接成功，则所述核酸分子为初选核酸适配体。

可选地，步骤二中所述数据处理包括：对经过所述第一步筛选后的所述数据库需求数据，从后台下载，对所述需求数据进行统一整合形成存储数据，存储录入筛选平台中数据库系统中。

可选地，所述存储数据包含蛋白的三维晶体结构序列信息、名称信息，将所述存储数据录入相应的后台数据库表格中，用以后续的存取、调用和删减操作。

可选地，所述S01步骤中是在所述筛选平台数据库系统中的所述蛋白质数据库进行查询；所述S04步骤中是与所述筛选平台数据库系统中的所述核酸数据库中的核酸分子进行对接。

可选地，所述S03步骤中所述分子动力学模拟过程包括：

S0301：构建所述蛋白A格式文件；

S0302：选择与所述蛋白A格式文件合适的力场文件；

S0303：提交所述蛋白A格式文件与所述力场文件，进行计算。

可选地，所述S04步骤中所述核酸分子对接过程包括：安装分子对接软件；

还包括：

S0401：构建与所述蛋白A进行分子对接的格式文件；

S0402：分别构建至少一个核酸适配体对接所需要的格式文件，所述核酸适配体个数为N；

S0403：用所述分子对接软件进行所述蛋白A分别与N个所述核酸适配体进行对接，得到对接结果；

S0404：对所述S0403得到的对接结果进行流程化分析，得到n个初选核酸适配体。

可选地，所述S01中的所述匹配原则包括：

判断所述蛋白A与所述筛选平台数据库系统中蛋白结构序列一致性是否高于阈值f：

如果蛋白结构序列一致性高于f，则下载所述蛋白结构作为受体模板，应用Swissmodel进行目标蛋白结构构建；

否则，应用I-Tasear进行同源构建。

可选地，所述阈值f为30％。

可选地，所述S01步骤中利用检索加速引擎查询所述筛选平台数据库系统中是否有与所述蛋白A匹配的蛋白结构，所述S04步骤中，利用检索加速引擎将所述蛋白A稳定结构与所述筛选平台数据库系统中的核酸分子进行对接。

本发明还提供了一种核酸适配体，所述核酸适配体采用根据上述权利要求所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法制备获得。

本发明提供的技术方案中，根据匹配原则查询筛选平台数据库系统中是否有与目标蛋白匹配的蛋白结构，如果有则作为受体模板，如果没有则进行同源构建，通过分子动力学模拟和分子对接筛选得到核酸适配体，该筛选方法实验次数少，高效快捷，该核酸适配体计算生物学筛选平台包含材料蛋白、生物膜和小分子结构构建，能够通过模拟分析得到其分子结构、可能的化学反应机理等信息，并将数据在终端进行展示，并通过计算模拟方法，得到相应生物材料与核酸分子间可能的相互作用机理，并与前端进行重点展示，具有重要的研究意义和使用价值。

本发明提供的技术方案中，通过分子动力学模拟和分子对接，率先淘汰批量不适配的序列，剩余的序列再通过实验进行后期筛选，减少了实验次数，提高了筛选效率。

在本发明的优选方案中，通过用分子对接软件进行蛋白A分别与N个核酸适配体进行对接，得到对接结果；对得到的对接结果进行流程化分析，得到n个初选核酸适配体，n小于等于N，能够大大降低实验次数，传统的核酸适配体筛选方法是核酸适配体通过指数级富集配体系统进化技术筛选得到，需要对预富集的核酸文库进行测序，再从大量的测序结果中挑选出亲和力高、选择性好的核酸适配体序列，这一过程存在耗时长、效率低、成本高、难以实现自动化的问题。即，该方法周期长，劳动量大，成本高，此外，过多的试验次数和试验周期，使得ssdna和drdna相互转换之间，会出现错配问题，每次收敛过程，目标序列由于没有得到扩增，从而造成目标序列的丢失。本发明的筛选方法通过用分子对接软件进行蛋白A分别与N个核酸适配体进行对接，得到对接结果；对得到的对接结果进行流程化分析，得到n个初选核酸适配体，实验次数大大降低、工作强度降低、更加高效快速，此外能够有效改进传统筛选方法目标序列丢失、准确度低的核酸适配体筛选的方法，进一步满足日益增长的科学、医疗需求，实用性高。

在本发明的优选方案中，根据匹配原则查询筛选平台数据库系统中是否有与蛋白A匹配的蛋白结构，通过匹配原则的设定，能够率先判断是否需要进行同源构建，流程清晰、简化，结果更加精确。

在本发明的优选方案中，匹配原则包括：判断目标蛋白与筛选平台数据库系统中蛋白结构序列一致性是否高于阈值f：如果蛋白结构序列一致性高于f，则下载蛋白结构作为受体模板，应用Swissmodel进行目标蛋白结构构建；否则，应用I-Tasear进行同源构建，通过阈值f的设定，能够更加准确的判断是否需要进行同源构建，流程清晰、简化，结果相对于现有技术更加精确。关于Swissmodel同源建模方法预测蛋白结构包含以下四步：1、模板选择；2、目标序列模板序列比对；3、构建模型；4、评价。关于步骤一：SWISS-MODEL服务器模板数据库ExPDB是由PDB中提取的：PDB文件被分成确定蛋白链和不确定蛋白链，去掉不确定蛋白链(理论模型或仅提供α-碳坐标的质量较差的数据文件)，对于某一目标序列，SWISS-MODEL搜索模板数据库ExPDB选择合适的模板。如果对某一目标序列找不到合适的模板，但可以找到几个模板序列，经过拼凑后覆盖目标序列，SWISS-MODEL的建模过程就分成几个部分，分别进行批处理。关于步骤二、使用重复最小的方块算法，每个批处理最多能接受五个模板结构，去除不匹配模板(即那些与第一个模板相比有高α-碳均方差偏离的模板)。关于能量最小化，蛋白结构几何结构的调整是建模中的最后一步，当连接刚性片段时，使用根据能量最小原理的GROMOS96力场算法进行调整，经验的力场用于发现模型构象中的错误。在本发明的优选方案中，评定蛋白和核酸的参数指标有多个：比如一个指标为能量结合情况，能量越低越好。另一个指标为结合口袋及两分子的构象关系，如正负电和亲疏水等。如果目标蛋白分别与核酸a和核酸b结合，如果与b结合时的结合能量低，那么结合b构象时比结合a构象时稳定，但是如果b构象中的主要疏水部分结合在了目标蛋白的亲水端，那即便b构象的能量低，也是不可取的，使得筛选更加准确，更加有效的避免了筛选错误。

在本发明的优选方案中，通过并行化技术构建加速引擎，对蛋白序列在蛋白数据库中的特征值匹配与检索，以及核酸序列在核酸数据库中的特征值匹配与检索进行加速，即，通过高性能计算平台提供的加速引擎提高数据库检索、特征匹配、序列比对等计算模拟的速度，可以通过hadoop架构中的Redis来进行加速，大大提高了运算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中核酸适配体筛选流程图；

图2是本发明实施例中基于高性能计算的核酸适配体计算机辅助筛选平台界面图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

核酸适配体(Aptamer)是一段脱氧核糖核酸，通常是利用体外筛选技术-指数富集的配体系统进化技术(SELEX)，从核酸分子文库中得到的寡核苷酸片段。核酸适配体能与多种目标物质高特异性、高选择性地结合，因此被广泛应用于生物传感器领域。然而，近年来，随着改良SELEX体外筛选技术的不断出现与应用，该技术不断涌现出新的问题，如：时间成本较高、盲性实验高、实验结果假阳性率高。这部分技术，受限于生物实验手段的局限性，正不断制约着该方法的应用前景，但是本发明提供了一种基于高性能计算平台的核酸适配体计算机辅助筛选方法，避免了这些问题的存在。

本发明提供一种基于高性能计算平台的核酸适配体计算机辅助筛选方法，如图1-图2所示，包括以下几个步骤：

步骤二，对经过第一步筛选后的数据库进行下载，并对经过第一步筛选后的数据库中的数据进行数据处理，经过第一步筛选后的数据库和经过第一步筛选后的数据库中的数据存储录入筛选平台数据库系统中；

包括：蛋白体系的构建：

蛋白体系的构建包括：

S01：根据匹配原则查询筛选平台数据库系统中是否有与蛋白A匹配的蛋白结构：

如果筛选平台数据库系统中具有与蛋白A匹配的蛋白结构，则下载蛋白结构作为受体模板；

如果筛选平台数据库系统中没有与蛋白A匹配的蛋白结构，则进行同源构建；

S02：根据受体模板或同源构建方法构建蛋白A三维结构；

S03：对蛋白A进行分子动力学模拟，获得蛋白A稳定结构；

S04：将蛋白A稳定结构与筛选平台数据库系统中的核酸分子进行对接；判断蛋白A稳定结构与核酸分子是否对接成功：如果对接成功，则核酸分子为初选核酸适配体。本发明提供的基于高性能计算平台的核酸适配体计算机辅助筛选方法，根据匹配原则查询筛选平台数据库系统中是否有与目标蛋白匹配的蛋白结构，如果有则作为受体模板，如果没有则进行同源构建，通过分子动力学模拟和分子对接筛选得到核酸适配体，该计算机辅助筛选方法实验次数少，高效快捷，能够通过模拟分析得到适配信息，并将数据在终端进行展示，并通过计算模拟方法，得到相应生物材料(主要为蛋白质、生物膜)与核酸分子间可能的相互作用机理，并与前端进行重点展示，相对于传统单纯湿法实验筛选方法，使得筛选准确度更高，筛选更有针对性，具有重要的研究意义和使用价值。

于本发明的具体实施例中，通过搭建核酸适配体计算生物学筛选平台——核酸适配体Aptamer计算生物学筛选平台，提供多尺度材料对接计算服务，用于对包括生物材料(蛋白质、生物膜)和核酸材料的模型构建与计算模拟，进一步帮助研究者实现从分子结构解析到宏观性能预测的全尺度科学研究。

于本发明的具体实施例中，生物信息学相关数据库包含目前多家国际知名数据库相关数据，主要为蛋白质数据库和核酸数据库，也可以认为主要分为：蛋白数据库、核酸数据库、小分子化合物数据库、基因序列数据库。于本发明的具体实施例中，生物信息学相关数据库具体主要包括蛋白质RCSB PDB数据库、NCBI基因序列数据库。目前，国际知名蛋白质三维晶体结构数据库，主要分为已有三维晶体蛋白数据库和分子模型数据库，需下载和整合的分子结构数据库主要包括：蛋白晶体数据库、非蛋白晶体数据库分子模型数据库、生物学功能信息库、其它类型数据库，具体细节如下：

(1)蛋白晶体数据库

美国蛋白质结构数据库The Worldwide Protein Data Bank(wwPDB)是一个专门收录蛋白质及核酸的三维结构资料的数据库。该数据库中收集了通过X射线衍射和核磁共振(NMR)试验测定的蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。世界蛋白质数据库下分为四个分库：(1)RCSB Protein Data Bank(美国蛋白质结构数据库)；(2)PDBe(欧洲蛋白质结构数据库，PDBe：Protein Data BankEurope)；(3)PDBj(日本蛋白质结构数据库，PDBj：Protein Data Bank Japan)；(4)BMRB，Biological Magnetic Resonance Data Bank(USA)。

(2)非蛋白晶体数据库分子模型数据库

Molecular Modeling Database(MMDB)，这是Entrez检索工具所使用的三维结构数据库，以ASN，1格式反映PDB库中的结构和序列数据。NCBI同时提供一个配套的三维结构显示程序Cn3D。

(3)生物学功能信息库

Uniprot数据库UniProt是一个全面的，高质量的，免费使用的蛋白质序列与功能信息数据库，许多内容来自基因组计划，它还包含了大量来自研究文献的关于蛋白的生物学功能信息。

(4)其它类型数据库

KEGG数据库KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库，它有助于研究者把基因及表达信息作为一个整体网络进行研究。数据库存储包括细胞生化过程如代谢、膜转运、信号传递的通路等信息；KEGG的另一个数据库是LIGAND，包含关于化学物质、酶分子、酶反应等信息。KEGG是进行生物体内代谢分析、代谢网络研究的强有力工具。该数据库的优势和作用有如下几方面：1)可以提供相应的氨基酸相似性序列，在进行同源建模时，可以根据该数据库进行三维结构序列比对，以期用于后续分析；2)提供跨膜蛋白相应的作用通路，用于鉴定跨膜蛋白与上下游蛋白之间的相互作用体系。

若在蛋白晶体数据库和模拟分子库中，均无法查询搜索到相应的蛋白质或者核酸结构。我们此时需要知道所研究的蛋白氨基酸序列，并以此序列进行相应的蛋白质建模，因此还需要拥有相对应的氨基酸序列数据库。

需要说明的是，上述的生物信息学相关数据库，并不局限于前面列举的几个数据库，其数据库的选取以及来源并不局限于本发明的具体实施例，均是可以根据用户需求以及时代发展来进行实时更新的。

于本发明的具体实施例中，步骤二中数据处理包括：对经过第一步筛选后的数据库需求数据，从后台下载，对需求数据进行统一整合形成存储数据，存储录入筛选平台中数据库系统中。即，将蛋白数据库、核酸数据库和小分子化合物数据库中的部分需求数据，从后台进行直接下载。通过对所有数据进行统一整合，存储录入我们自己的相关数据库系统中。从而形成一个相对完整、全面的数据库系统，能够为核酸适配体的筛选提供更强有力的后台数据支撑。

为了提高数据库系统的可操作性，于本发明的具体实施例中，存储数据包含蛋白的三维晶体结构序列信息、名称信息，将存储数据录入相应的后台数据库表格中，用以后续的存取、调用和删减操作。如果后期想要实现部分分子结构的存取和调用，仅仅通过数据库系统即可实现分子结构的存取与调用，如果某部分分子结构有问题，需要从系统中对其进行删除，也是可以操作的，实用性更强。

为了保证数据库系统数据的及时性，于本发明的具体实施例中，还需要书写即时更新程序，将相应数据库中的最新更新所有数据，分批下载与保存，确保数据库后台调用数据的即时性，从而充分保证数据的准确程度。

基于高性能计算平台和超级计算资源，于本发明的具体实施例中，在给定配置搭载的服务器上，将对现行蛋白结构预测软件进行统一安装和配置。具体地，所安装的软件，涵盖了目前生物信息学方向所需的绝大多数主流软件。软件统一安装结束后，再根据不同的功能模式对软件中的各个模块进行重组构建，并在各软件中穿插相应的线程流程软件，以保证流程可以顺利完成。于本发明的具体实施例中，安装软件涉及到体系构建、计算模拟和结果分析三部分。包括构建、显示和分析材料及表面的结构模型，作用关系，并能预测生物材料的相关理化性质，提供多尺度材料对接计算服务，用于对蛋白质材料的模型构建与计算模拟，进一步帮助研究者实现从分子结构解析到宏观性能预测的全尺度科学研究。一体化流程，包含材料蛋白结构构建，并通过模拟分析得到其三维结构、b-factor值，带电性质、可能的化学反应机理等信息，一体化流程须能通过计算模拟方法，得到相应生物材料间可能的相互作用机理，并展示出来，并将数据在后期数据报告中进行展示，具体地如图2的界面所示，包括医疗机构模块、科研院所模块和企业模块，相应的适用对象可以为医疗机构、科研院所，也可以为企业。还包括分子对接软件和分子动力学计算软件，这些软件包括现有的软件的下载安装，也包括自行研发的软件，分别能够实现分子结构的对接或者进行分子动力学，为核酸适配体的筛选提供强有力的技术支撑具有还有多个数据库，主要为蛋白质数据库和核酸数据库，也可以认为主要分为：蛋白数据库、核酸数据库、小分子化合物数据库、基因序列数据库，于本发明的具体实施例中，核酸适配体计算生物学筛选平台包含蛋白数据库模块、核酸数据库模块、小分子化合物数据库模块和基因序列数据库模块，均可以在相应的数据库中进行搜索、筛选和应用，界面清晰、搜索查询简单且方便。

具体地，于本发明的具体是实施例中，生物蛋白大分子模拟功能涉及的模块涵盖以下几方面，主要包含序列分析、结构预测与构建及后续相关分析软件。安装软件主要包括体系构建、计算模拟和结果分析三部分。包括构建、显示和分析材料及表面的结构模型，作用关系，并能预测生物材料的相关理化性质。

于本发明的具体实施例中，关于软件安装、关于界面设置、关于数据调取、关于过程分析、关于结果显示，均是通过核酸适配体计算生物学筛选平台来实现，具体地SELEX软件布控与调试前端界面模板开发，首先需要将现行各大类大生物类数据库后台管道数据全部下载、并进行更新与存储，将多个数据库中数据间的相互关联，需通过书写代码进行聚类整合，做到自动收集和分类功能，程序编码开发完成。将后台全部数据下载完成，需将目前各知名数据库进行爬虫处理，对多个复杂模块进行在线调用。后台软件与前端展示页面关联，将前端数据上传并调取后台软件，计算结果(数据、图片、结构等)，经过抓取反馈到前端页面流程搭建。

安装软件详细如下：

生物大分子模拟内容与主流软件

蛋白质序列分析Blast、cd-hit等；

蛋白质三维结构预测Modeller、HOMCOS、Swiss-modeller等；

分子对接软件ROSETTA；

蛋白结构表面电荷分析创建后期数据分析图形文件，主要包括Pymol、Chimera等软件。

于本发明的具体实施例中，S01步骤中是在筛选平台数据库系统中的蛋白质数据库进行查询；S04步骤中是与筛选平台数据库系统中的核酸数据库中的核酸分子进行对接：

即，根据匹配原则查询筛选平台数据库系统的蛋白质数据库中是否有与蛋白A匹配的蛋白结构：

如果筛选平台数据库系统的蛋白质数据库中具有与蛋白A匹配的蛋白结构，则下载蛋白结构作为受体模板；

如果筛选平台数据库系统中的蛋白质数据库没有与蛋白A匹配的蛋白结构，则进行同源构建；

将蛋白A稳定结构与筛选平台数据库系统的核酸数据库中的核酸分子进行

对接；判断蛋白A稳定结构与核酸分子是否对接成功：

如果对接成功，则核酸分子为初选核酸适配体。

该初选核酸适配体即可作为核酸适配体侯选物，通过该筛选方法，初步筛选出核酸适配体侯选物，初步筛选出的核酸适配体侯选物可与“湿法”实验结合，减少“湿法”实验次数，实验次数的降低：一方面能够节省实验成本，另一方面，减少蛋白与核酸序列错配和目标丢失的可能性，提高核酸适配体筛选的成功率。

蛋白体系构建过程中，首先从已经建好的数据库中进行搜寻，若含有对应的分子蛋白体系，则利用已有蛋白进行后续分析。若在整合后的数据库中，不包含有已有的材料结构，即蛋白A结构，需要获悉该蛋白体系蛋白A相应的氨基酸序列，通过序列比对找寻该蛋白序列相应的晶体结构模板，进而利用同源建模软件对该蛋白进行建模分析。

于本发明的具体是实施例中，关于同源建模模块，需要安装的软件包括序列比对分析、结构预测与建模两大模块。其中序列比对分析软件包括目前常用的Blast和CD-HIT软件流程，结构预测与建模软件则包括Modeller、HOMCOS、Swiss-modeller等。其中HOMCOS软件我们只是利用其中的部分模块，因此需要对其进行重新编辑和整合；Modeller软件拥有Linux系统版本调用命令，在一体化流程中，将改软件设定为首要建模软件；Swiss-modeller等软件有在线服务器模式，需要书写响应的流程，进行在线整合。对于建模软件，需要针对不同材料的不同进行流程甄别，仔细比对建模软件的优先利用度，以便体系的相对可靠性。

于本发明的具体实施例中：

S03步骤中分子动力学模拟过程包括：

S0301：构建蛋白A格式文件；

S0302：选择与蛋白A格式文件合适的力场文件；

S0303：提交蛋白A格式文件与力场文件，进行计算。

S04步骤中核酸分子对接过程包括：安装分子对接软件；

还包括：

S0401：构建与蛋白A进行分子对接的格式文件；

S0402：分别构建至少一个核酸适配体对接所需要的格式文件，核酸适配体个数为N；

S0403：用分子对接软件进行蛋白A分别与N个核酸适配体进行对接，得到对接结果；

S0404：对S0403得到的对接结果进行流程化分析，得到n个初选核酸适配体，其中n小于N或者n等于N。能够大大降低实验次数，传统的核酸适配体筛选方法是核酸适配体通过指数级富集配体系统进化技术筛选得到，需要对预富集的核酸文库进行测序，再从大量的测序结果中挑选出亲和力高、选择性好的核酸适配体序列，这一过程存在耗时长、效率低、成本高、难以实现自动化的问题。即，该方法周期长，劳动量大，成本高，此外，过多的试验次数和试验周期，使得ssdna和drdna相互转换之间，会出现错配问题，每次收敛过程，目标序列由于没有得到扩增，从而造成目标序列的丢失。本发明的筛选方法通过用分子对接软件进行蛋白A分别与N个核酸适配体进行对接，得到对接结果；对得到的对接结果进行流程化分析，得到n个初选核酸适配体，实验次数大大降低、工作强度降低、更加高效快速，此外能够避免传统筛选方法目标序列丢失、准确度低的核酸适配体筛选的方法，进一步满足日益增长的科学、医疗需求，实用性高。

于本发明的具体实施例中，S01中的匹配原则包括：

判断蛋白A与筛选平台数据库系统中蛋白结构序列一致性是否高于阈值f：

如果蛋白结构序列一致性高于f，则下载蛋白结构作为受体模板，应用Swissmodel进行目标蛋白结构构建；

否则，应用I-Tasear进行同源构建。本发明的具体实施例根据匹配原则查询筛选平台数据库系统中是否有与蛋白A匹配的蛋白结构，通过匹配原则的设定，能够率先判断是否需要进行同源构建，流程清晰、简化，结果更加精确。

匹配原则包括：判断目标蛋白与筛选平台数据库系统中蛋白结构序列一致性是否高于阈值f：如果蛋白结构序列一致性高于f，则下载蛋白结构作为受体模板，应用Swissmodel进行目标蛋白结构构建；否则，应用I-Tasear进行同源构建，通过阈值f的设定，能够更加准确的判断是否需要进行同源构建，流程清晰、简化，结果相对于现有技术更加精确。关于Swissmodel同源建模方法预测蛋白结构包含以下四步：1、模板选择；2、目标序列模板序列比对；3、构建模型；4、评价。关于步骤一：SWISS-MODEL服务器模板数据库ExPDB是由PDB中提取的：PDB文件被分成确定蛋白链和不确定蛋白链，去掉不确定蛋白链(理论模型或仅提供α-碳坐标的质量较差的数据文件)，对于某一目标序列，SWISS-MODEL搜索模板数据库ExPDB选择合适的模板。如果对某一目标序列找不到合适的模板，但可以找到几个模板序列，经过拼凑后覆盖目标序列，SWISS-MODEL的建模过程就分成几个部分，分别进行批处理。关于步骤二、使用重复最小的方块算法，每个批处理最多能接受五个模板结构，去除不匹配模板(即那些与第一个模板相比有高α-碳均方差偏离的模板)。关于能量最小化，蛋白结构几何结构的调整是建模中的最后一步，当连接刚性片段时，使用根据能量最小原理的GROMOS96力场算法进行调整，经验的力场用于发现模型构象中的错误。在本发明的优选方案中，评定蛋白和核酸的参数指标有多个，一个为能量结合情况，能量越低越好。一个为结合口袋及两分子的构象关系，如正负电和亲疏水等。如果目标蛋白分别与核酸a和核酸b结合，如果与b结合时的结合能量低，那么结合b构象时比结合a构象时稳定，但是b构象中的主要疏水部分结合在了目标蛋白的亲水端，那即便b构象的能量低，也是不可取的。筛选更加准确，更加有效的避免了筛选错误。

实施例1：如蛋白A结合核酸a的构象时能量为-5Kcal/mol，结合b构象时能量为-6Kcal/mol，那么结合b构象时比结合a构象时稳定，这个值一般情况下-3Kcal/mol以下才算是可取的，因此，一般情况下b构象是可取的。

实施例2：如蛋白A结合核酸a的构象时能量是-5Kcal/mol，结合b构象时能量为-6Kcal/mol，但是b构象中的主要疏水部分结合在了蛋白A的亲水端，那即便b构象的能量低，b构象也是不可取的。

实施例3：如蛋白A结合核酸a的构象时能量是-5Kcal/mol，结合b构象时能量为-6Kcal/mol，但是b构象中的主要亲水部分结合在了蛋白A的亲水端，那么b构象的能量低，且b构象中的主要亲水部分结合在了蛋白A的亲水端，因此，b构象可取。

总是，本发明具体实施例中，基于高性能计算平台的核酸适配体计算机辅助筛选方法，能够根据匹配原则查询筛选平台数据库系统中是否有与目标蛋白匹配的蛋白结构，如果有则作为受体模板，如果没有则进行同源构建，通过分子动力学模拟和分子对接筛选得到核酸适配体，该计算机辅助筛选方法实验次数少，高效快捷，能够通过模拟分析得到适配信息，并将数据在终端进行展示，并通过计算模拟方法，得到相应生物材料(主要为蛋白质、生物膜)与核酸分子间可能的相互作用机理，并与前端进行重点展示，相对于传统单纯湿法实验筛选方法，使得筛选准确度更高，筛选更有针对性，具有重要的研究意义和使用价值。。

为了进一步提高筛选的准确性，于本发明的具体实施例中，阈值f为30％。

需要说明的是，阈值f的选择为30％，但是并不仅仅局限于此数值，均是根据具体结果以及科学验证，从而对阈值的取值范围进行适当调整的。

于本发明具体实施例中，S01步骤中利用检索加速引擎查询筛选平台数据库系统中是否有与蛋白A匹配的蛋白结构，S04步骤中，利用检索加速引擎将所述蛋白A稳定结构与筛选平台数据库系统中的核酸分子进行对接。通过并行化技术构建加速引擎，对蛋白序列在蛋白数据库中的特征值匹配与检索，以及核酸序列在核酸数据库中的特征值匹配与检索进行加速，可以通过hadoop架构中的Redis来进行加速，大大提高了运算效率。

本发明还提供了一种初选核酸适配体，初选核酸适配体采用根据上述权利要求的基于高性能计算平台的核酸适配体计算机辅助筛选方法制备获得，根据匹配原则查询筛选平台集成的数据库系统中是否有与目标蛋白匹配的蛋白结构，如果有则作为受体模板，如果没有则进行同源构建，通过分子动力学模拟和分子对接筛选得到初选核酸适配体，初选核酸适配体作为核酸适配体候选物，将核酸适配体候选物进行“湿法”实验，最终得到核酸适配体，具有高效、快捷、准确率高的特点。该筛选方法可与“湿法”实验结合，减少“湿法”实验次数，节省实验成本，提高筛选命中率。通过计算机辅助模拟分析得到适配过程中蛋白质与核酸的分子结构、可能的化学反应机理等信息，并将数据在终端进行展示，并在揭示相应生物材料(主要为蛋白质、生物膜)与核酸分子间可能的相互作用机理方面提供数据支撑，因此具有重要的研究意义和使用价值。即，相对于传统单纯湿法实验筛选方法，使得筛选准确度更高，筛选更有针对性，具有重要的研究意义和使用价值。通过该高性能计算平台的核酸适配体计算机辅助筛选方法获得的初选的核酸适配体，准确度更高，分子量小、易于合成与修饰，能够高特异性识别并且具有高亲和力，相容性更好，准确度更高，能够满足日益增长的科学、医疗需求。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，包括：

包括：蛋白体系的构建：

所述蛋白体系的构建包括：

如果对接成功，则所述核酸分子为初选核酸适配体。

2.根据权利要求1所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，步骤二中所述数据处理包括：对经过所述第一步筛选后的所述数据库需求数据，从后台下载，对所述需求数据进行统一整合形成存储数据，存储录入筛选平台中数据库系统中。

3.根据权利要求2所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，所述存储数据包含蛋白的三维晶体结构序列信息、名称信息，将所述存储数据录入相应的后台数据库表格中，用以后续的存取、调用和删减操作。

4.根据权利要求1所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，所述S01步骤中是在所述筛选平台数据库系统中的所述蛋白质数据库进行查询；所述S04步骤中是与所述筛选平台数据库系统中的所述核酸数据库中的核酸分子进行对接。

5.根据权利要求1所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，所述S03步骤中所述分子动力学模拟过程包括：

S0301：构建所述蛋白A格式文件；

S0302：选择与所述蛋白A格式文件合适的力场文件；

S0303：提交所述蛋白A格式文件与所述力场文件，进行计算。

6.根据权利要求1所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，所述S04步骤中所述核酸分子对接过程包括：安装分子对接软件；

还包括：

S0401：构建与所述蛋白A进行分子对接的格式文件；

7.根据权利要求5所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，所述S01中的所述匹配原则包括：

否则，应用I-Tasear进行同源构建。

8.根据权利要求7所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，所述阈值f为30％。

9.根据权利要求1所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法，其特征在于，所述S01步骤中利用检索加速引擎查询所述筛选平台数据库系统中是否有与所述蛋白A匹配的蛋白结构，所述S04步骤中，利用检索加速引擎将所述蛋白A稳定结构与所述筛选平台数据库系统中的核酸分子进行对接。

10.一种核酸适配体，其特征在于，所述核酸适配体采用根据权利要求1-9项中任一项所述的基于高性能计算平台的核酸适配体计算机辅助筛选方法制备获得。