CN111816250B

CN111816250B - 将大分子复合物结构映射到基因组和突变数据库的方法

Info

Publication number: CN111816250B
Application number: CN202010554880.2A
Authority: CN
Inventors: 刘士勇; 谢娟
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2022-02-15
Anticipated expiration: 2040-06-17
Also published as: CN111816250A

Abstract

本发明公开了一种将大分子复合物结构映射到基因组和突变数据库的方法。本发明包括计算蛋白质‑大分子(蛋白质/RNA/DNA)间的距离，得到复合物结构的结合位点；将蛋白质/RNA/DNA映射到基因组上；将得到的基因组坐标映射到疾病数据库，得到疾病信息。本发明能够将蛋白质‑大分子的三维复合物结构映射到基因组和突变数据库，发现大量的突变发生在蛋白质‑大分子相互作用界面上，这些突变可以通过改变结合自由能影响蛋白质和大分子的相互作用，从而导致疾病。本发明在结构、基因和疾病之间起着良好的桥梁作用，有助于从多基因和基于结构的药物设计来理解疾病的发病机制。

Description

将大分子复合物结构映射到基因组和突变数据库的方法

技术领域

本发明属于结构与基因组信息研究领域，更具体地，涉及一种将大分子复合物结构映射到基因组和突变数据库的方法。

背景技术

随着测序技术的发展，越来越多的致病突变被发现，但这些突变的致病机制目前还不完全清楚。将这些突变与决定功能的三维结构联系起来，特别是与疾病相关的蛋白质-大分子复合物，可能有助于解开这些谜团。为此，科学家们近几十年来一直在研究这个问题。

文献(Lu,et al.Bioinformatics,32(16),2016,2534–2536)和(Segura,etal.Bioinformatics,35(18),2019,3512–3513)分别公开了可以分析蛋白质-蛋白质相互作用网络中的突变的PinSnps和3DBIONOTESv3.0。这两种方法都主要通过UniProt显示蛋白质-蛋白质相互作用。文献(Wang,et al.Computational and Structural BiotechnologyJournal 13(2015)514–519)发表了工具SNP2Structure分析了蛋白质-RNA/DNA/配体复合物结构中蛋白质结构上的无义突变。尽管以前的方法可以很好地将突变信息映射到蛋白质结构上，但是这些方法仅仅考虑了蛋白质上的突变信息，而没有考虑RNA/DNA上的突变，这无疑将影响我们对致病突变分子机制的理解。此外，这些方法并未提供蛋白质/RNA/DNA在基因组中的位置，但是基因组上的位置对于了解突变的位置非常重要。例如外显子测序可以准确诊断患者的致病突变基因。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有技术仅仅考虑了蛋白质上的突变信息，而没有考虑RNA和DNA上的突变信息；以及现有技术并未提供蛋白质、RNA以及DNA在基因组中的位置的技术问题。

为实现上述目的，本发明提供一种将大分子复合物结构映射到基因组和突变数据库的方法，所述大分子复合物包括：蛋白质与蛋白质的复合物，蛋白质与DNA的复合物，蛋白质与RNA的复合物以及蛋白质与DNA和RNA的复合物；包括如下步骤：

确定所述大分子复合物结构上相互作用的残基与碱基中任意两个重原子之间的距离，当所述距离小于预设距离阈值，则认为对应的残基和碱基位于所述大分子复合物的相互作用界面上，并确定位于相互作用界面上的残基序号和碱基序号；所述残基属于蛋白质结构，所述碱基属于RNA结构或DNA结构；

将所述大分子复合物结构上的蛋白质结构映射到基因组；

将所述大分子复合物结构上的RNA结构映射到基因组；

将所述大分子复合物结构上的DNA结构映射到基因组；将所述蛋白质结构、RNA结构以及DNA结构映射到基因组以确定蛋白质结构、RNA结构以及DNA结构在基因组中的位置；

将所述基因组的坐标映射到突变数据库ClinVar，以确定蛋白质结构、RNA结构以及DNA结构在基因组中可能存在的突变信息；

将位于相互作用界面上的残基序号映射到蛋白质数据库UniProt和突变数据库SNPLogic，得到UniProt给出的所述残基序号在基因组上的位置以及UniProt和SNPLogic给出的所述残基序号可能存在的突变信息。

需要说明的是，本申请提到的大分子复合物又可以理解为：蛋白质-大分子的复合物，其中这里的“-”指的是“与”的关系，这里的大分子指的是蛋白质、DNA或RNA；即蛋白质与大分子的复合物组成一种大分子复合物。

可选地，将所述大分子复合物结构上的蛋白质结构映射到基因组，具体包括如下步骤：

将所述蛋白质结构用结构、功能、分类学以及序列的整合方法(SIFTS)映射到UniProt上，判断是否能得到对应的蛋白质数据库中的标识(UniProt ID)；

具体地，一个UniProt ID可能对应多个蛋白质结构。

如果不能得到对应的UniProt ID，则基于基本的蛋白质局部比对搜索工具BLASTp进行序列比对，根据人类蛋白质序列找到编码所述蛋白质最有可能的基因组序列及位置，从而得到所述蛋白质结构的基因组位置；

如果能得到对应的UniProt ID，则查看该UniProt ID是否有对应的共识蛋白质编码区ID，以将蛋白质结构与基因组位置进行匹配；

如果存在对应的共识蛋白质编码区ID，则进一步检测共识蛋白质编码区给出的基因长度是否满足预设条件，以判断蛋白质结构的长度是否匹配基因编码规则；

如果不能得到共识蛋白质编码区ID或者共识蛋白质编码区ID所对应的基因长度不满足预设条件，则根据UniProt ID对应的基因建立BLASTp所需要的搜索数据库，基于所建立的搜索数据库采用BLASTp进行序列比对，根据人类蛋白质序列找到编码所述蛋白质结构最有可能的基因组序列及位置，从而得到所述蛋白质结构的基因组位置；

如果共识蛋白质编码区ID对应的基因长度满足预设条件，则得到UniProt ID对应序列的基因组位置及所述蛋白质结构在基因组上的位置；

在将蛋白质结构映射到UniProt后，得到UniProt给出的该蛋白质结构在基因组上的位置以及可能存在的突变信息。

可选地，将所述大分子复合物结构上的RNA结构映射到基因组，具体包括如下步骤：

根据所述RNA结构中的碱基得到RNA序列；

将所述RNA序列逆转录到DNA序列；

将逆转录得到的DNA序列用可以将测序读数比对到参考序列的比对软件Bowtie2映射到基因组；

通过用于处理测序数据中SAM格式的方法SAMtools得到所述RNA序列所在的基因组坐标。

可选地，将所述大分子复合物结构上的DNA结构映射到基因组，具体包括如下步骤：

根据所述DNA结构中的碱基得到DNA序列；

将根据所述DNA结构中的碱基得到DNA序列用Bowtie2映射到基因组；

通过SAMtools得到所述DNA结构对应的DNA序列所在的基因组坐标。

可选地，所述预设距离阈值为6埃。

可选地，所述预设条件为共识蛋白质编码区ID所对应的基因长度为UniProt ID对应的序列长度的3倍加3。

可选地，所述位于相互作用界面上的残基序号和碱基序号用于从基因组中确定所述相互作用界面上的残基和碱基在基因组的位置。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种将大分子复合物结构映射到基因组和突变数据库的方法，以获得蛋白质、DNA以及RNA的突变信息，包括大分子复合物整条链和相互作用界面的突变信息；

本发明提供一种将大分子复合物结构映射到基因组和突变数据库的方法，可以显示蛋白质-大分子的基因组中残基和碱基的位置；

本发明提供一种将大分子复合物结构映射到基因组和突变数据库的方法，可以将蛋白质结构与UniProt动态链接，与UniProt中的humsavar.txt相比，它可以更完整地访问蛋白质的突变和致病信息。

本发明提供一种将大分子复合物结构映射到基因组和突变数据库的方法，可以将ClinVar上的致病突变映射到蛋白质-大分子复合物结构，这是因为可以获得蛋白质/大分子在基因组上的位置。

本发明提供一种将大分子复合物结构映射到基因组和突变数据库的方法，处理来自UniProt的疾病信息时，可以标记出蛋白质结构和UniProt之间不一致的残基。

本发明提供一种将大分子复合物结构映射到基因组和突变数据库的方法，可能有助于更好地了解三维复合物结构中突变的位置以及它如何影响大分子结构之间的相互作用以及如何影响疾病，这也可能有助于基于结构的药物设计。

附图说明

图1为本发明提供的将大分子复合物结构映射到基因组和突变数据库的方法流程图；

图2为本发明实施例提供的3SIU蛋白质-RNA复合物结构突变示意图；

图3为本发明实施例提供的3HL2蛋白质-RNA复合物结构突变示意图；

图4为本发明实施例提供的6BL8蛋白质-蛋白质复合物结构的突变示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

针对现有技术的以上缺陷或改进需求，本发明提供了一种将蛋白质-大分子复合物结构映射到基因组和突变数据库的方法。其目的在于通过将蛋白质/RNA/DNA分别映射到基因组和突变数据库上，由此解决目前方法不能将RNA和DNA映射到基因组上和突变数据库的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种将蛋白质-大分子复合物结构映射到基因组和疾病数据库的方法，包括如下步骤：

(1)以6埃为截断，计算蛋白质-大分子复合物结构上相互作用残基和碱基中任一重原子间距离；

(2)将蛋白质结构映射到基因组；

(3)将RNA结构映射到基因组；

(4)将DNA结构映射到基因组；

(5)将基因组坐标映射到ClinVar，以及将蛋白质-大分子相互作用界面上的残基映射到SNPLogic和UniProt上。

优选地，步骤(2)中得到蛋白质在基因组上的位置信息包括以下步骤：

(2-1)将蛋白质结构用SIFTS映射到UniProt上；

(2-2)如果不能得到UniProt ID，则用BLASTp进行序列比对，找到编码所述蛋白质的基因最有可能的基因序列及位置，从而得到所述蛋白质的基因组位置；

(2-3)如果能得到UniProt ID，则查看该UniProt是否有对应的共识蛋白质编码区ID；

(2-4)如果存在共识蛋白质编码区ID，则进一步检测共识蛋白质编码区给出的基因长度是否是UniProt ID所对应的蛋白质序列长度的三倍余3，其中一个氨基酸对应3个核苷酸，最后三个核苷酸编码终止密码子；

(2-5)如果不能得到共识蛋白质编码区ID或者共识蛋白质编码区ID所对应的基因长度不是UniProt ID对应的蛋白质序列长度的3倍加3，则根据UniProt ID对应的基因建立BLASTp所需要的搜索数据库，使得BLASTp结果更加可靠；

(2-6)如果共识蛋白质编码区ID对应的基因长度符合条件，则得到UniProt ID对应序列的基因组位置及所述蛋白质结构在基因组上的位置。

(2-7)在将蛋白质映射到UniProt后，我们可以得到UniProt给出的该蛋白质对应的突变信息。

优选地，步骤(3)具体为：

(3-1)根据RNA结构中的碱基得到RNA序列；

(3-2)将步骤(3-1)中的RNA序列逆转录到DNA序列；

(3-3)将步骤(3-2)中的DNA序列用Bowtie2映射到基因组；

(3-4)用SAMtools得到RNA序列所在的基因组坐标。

优选地，步骤(4)具体为：

(4-1)根据DNA结构中的碱基得到DNA序列；

(4-2)将步骤(4-1)中得到的DNA序列用Bowtie2映射到基因组；

(4-3)然后用SAMtools得到DNA序列所在的基因组坐标。

优选地，经过上述步骤(1)后可以得到蛋白质-大分子复合物结构的结合位点信息。

优选地，步骤(2)可以得到蛋白质在基因组上的位置信息。

优选地，步骤(3)可以得到RNA在基因组上的位置信息。

优选地，步骤(4)可以得到DNA在基因组上的位置信息。

优选地，在步骤(5)中由于部分蛋白质-大分子复合物结构有原子缺失或其他原因导致UniProt与蛋白质-大分子的残基标号不一致，因此该发明纠正了这些不匹配的结构从而得到正确的结果。

优选地，经过上述该操作可以得到蛋白质-大分子的突变和疾病信息。

本发明公开了一种将蛋白质-大分子复合物结构映射到基因组和突变数据库的方法，申请人为了简化，将本申请提供的方法命名为3D2God，如图1所示，其原理步骤包括：

(1)数据集的获取

下载了2019年8月3日之前存储在PDB数据库中分辨率高于3埃

的人类蛋白质-蛋白质/RNA/DNA复合物结构。共有265个蛋白质-RNA复合物结构，1355个蛋白质-DNA复合物结构，96个蛋白质-RNA-DNA复合物结构和16344个蛋白质-蛋白质复合物结构。

(2)获取大分子结构间的距离

根据距离计算公式

计算残基/碱基中任一两个重原子间的距离，其中x1,y1和z1分别是残基中某原子的横坐标，竖坐标和纵坐标；x2,y2和z2分别是碱基中某原子的横坐标，竖坐标和纵坐标。如果该距离小于6埃即认为该残基和碱基在相互作用界面上，在此过程中，该发明将会输出位于相互作用界面上的残基序号和碱基序号。

(3)将蛋白质结构映射到基因组上

由于部分氨基酸对应的密码子不唯一，所以不能直接从氨基酸逆转录得到密码子，这使得蛋白质映射到基因组具有一定难度。因此，该发明将通过以下步骤实现该目的：

1)将蛋白质结构用SIFTS映射到UniProt上；

2)如果不能得到UniProt ID，则用BLASTp进行序列比对，找到编码所述蛋白质的基因最有可能的基因组序列及位置，从而得到所述蛋白质的基因组位置；

3)如果能得到UniProt ID，该过程则会分别输出复合物结构在蛋白质数据库(PDB)的ID、蛋白质链ID、蛋白质的残基、PDB中该残基的序号、UniProt中该PDB的ID、UniProt中的残基和UniProt中该残基的序号。接下来继续查看该UniProt是否有对应的共识蛋白质编码区ID；

4)如果存在共识蛋白质编码区ID，该发明会输出该蛋白质对应的共识蛋白质编码区ID。比如4NW3中蛋白质A链对应的共识蛋白质编码区ID是CCDS31686.1。接下来进一步检测共识蛋白质编码区给出的基因长度是否是UniProt ID所对应的蛋白质序列长度的三倍余3。其中一个氨基酸对应3个核苷酸，最后三个核苷酸编码终止密码子；

5)如果不能得到共识蛋白质编码区ID或者共识蛋白质编码区ID所对应的基因长度不是UniProt ID对应的序列长度的3倍加3，则根据UniProt ID对应的基因建立BLASTp所需要的搜索数据库，使得BLASTp结果更加可靠，比如蛋白质-蛋白质复合物2J3T中B链蛋白质的基因名字为TRAPPC6A，但共识蛋白质编码区的基因序列长度不是UniProt中蛋白质长度的3倍加3，因此需要重新建立该基因的BLASTp搜索库；

6)如果共识蛋白质编码区ID对应的序列长度符合条件，则得到UniProt ID对应序列的基因组位置及所述蛋白质结构在基因组上的位置；

7)在将蛋白质映射到UniProt后，我们可以得到UniProt给出的该蛋白质对应的突变信息。

(4)将RNA结构映射到基因组位置上

根据RNA结构中的碱基得到RNA序列，然后逆转录到DNA序列。接下来用Bowtie2比对程序将DNA序列比对到参考基因组，最后用SAMtools得到RNA序列所在的基因组坐标。比如蛋白质-RNA复合物3SIU，经过上述操作后，该发明会发现3SIU中的RNA链位于2号染色体的121530906-121530934位置上。

(5)将DNA结构映射到基因组位置上

根据DNA结构中的碱基得到DNA序列。接下来用Bowtie2比对程序将DNA序列比到参考基因组，最后用SAMtools得到DNA序列的基因组坐标。比如蛋白质-DNA复合物9ICY，经过上述操作后，该发明会发现9ICY的DNA链位于4号染色体的94490288-94490295位置上。

(6)得到蛋白质-大分子复合物结构的突变和疾病信息

经过上述步骤后，蛋白质和其他大分子在基因组上的位置已经被得到，位于相互作用界面上的残基和碱基序号及其基因组上的位置也已经得到。因此，将所有位置信息映射到ClinVar、SNPLogic和UniProt中的突变或者疾病数据库上，可以得到蛋白质-大分子复合物的突变和疾病信息。比如蛋白质-RNA复合物3SIU的B链蛋白质，在映射到UniProt数据库后，会发现该链的194号残基当由氨基酸A突变到氨基酸D时，将会得到详细的突变页面，这个页面包括突变位置、这个蛋白质的序列长度，以及这个突变在不同物种上的情况等信息。当将3SIU映射到ClinVar上时，该发明会发现当C链RNA中48号碱基由G突变到A时，将会引起罗夫曼综合征。

实施例

经过上述步骤后，该发明发现大量的SNP发生在蛋白质-RNA/DNA/蛋白质相互作用界面，具体如表1所示：

表1：蛋白质-大分子复合物结构映射到不同疾病数据库中的情况

“/”之前的数字表示在相互作用界面上具有突变的链数；“/”后的数字表示具有突变的链数，“-”表示无法将任何链映射到数据库。

尽管可以使用测序或以前的研究来了解哪个基因具有由突变引起的疾病信息，但它并不能告诉我们与该基因相对应的起功能作用的三维复合物结构，有时可能不利于我们了解导致疾病的原因。然而，本发明可以将复合物结构映射到基因组，并探索相关的突变(SNP)如何影响蛋白质-蛋白质/RNA/DNA的结合，然后了解SNP是否引起疾病。因此本发明在结构、基因和疾病之间起着良好的桥梁作用。

如图2所示，该图显示3SIU这个蛋白质-RNA复合物结构示意图。当该发明将3SIU映射到基因组和ClinVar疾病数据库时，发现RNA的第37和48个碱基从G突变为A。第245个氨基酸的密码子从CCC突变为CCT时，氨基酸没有变化。但文献表明第48个碱基的突变可能会干扰蛋白质和RNA的结合，这可能是导致罗夫曼综合征的原因之一。

如图3所示，该图显示3HL2这个蛋白质-RNA复合物结构示意图。当该发明将3HL2映射到基因组和ClinVar疾病数据库时，发现RNA的第11个碱基在DNA序列中从G突变为C。第239个氨基酸的密码子从GCT突变为ACT，氨基酸从Ala变为Thr。第334个氨基酸的密码子从TAT突变为TGT，氨基酸从Tyr变为Cys。这两个突变会影响蛋白质与RNA之间的结合，进而导致患者出现桥小脑发育不全2D型的表型。

如图4所示，该图显示6B8L这个蛋白质-蛋白质复合物结构示意图。当该发明将6B8L映射到基因组和ClinVar疾病数据库时，发现链A中c.1044_1051delTGCCTGGC的缺失使患者听力下降。但是第141个氨基酸的密码子从TTC突变为TTG，氨基酸从Phe变为Leu。6B8L相互作用界面的突变可能导致患者的听力下降。

经过上述实施例可以发现，本发明可使需要帮助的人获得基因组中蛋白质-蛋白质/RNA/DNA复合物结构的位置、相互作用界面、突变/致病条件和蛋白质结构中的无义突变，这可以帮助我们更好地了解突变对蛋白功能和相关疾病的发病机制，可能有助于药物设计。

本发明公开了一种将蛋白质-大分子复合物结构映射到基因组和突变数据库的方法。本发明包括计算蛋白质-大分子(蛋白质/RNA/DNA)间的距离，得到复合物结构的结合位点；将蛋白质/RNA/DNA映射到基因组上；将得到的基因组坐标映射到突变数据库，得到疾病信息。本发明(命名为3D2God)能够将蛋白质-大分子的三维复合物结构映射到基因组和突变数据库，发现大量的突变发生在蛋白质-大分子相互作用界面上，这些突变可以通过改变结合自由能影响蛋白质和大分子的相互作用，从而导致疾病。本发明在结构、基因和疾病之间起着良好的桥梁作用，有助于从多基因和基于结构的药物设计来理解疾病的发病机制。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种将大分子复合物结构映射到基因组和突变数据库的方法，所述大分子复合物包括：蛋白质与蛋白质的复合物，蛋白质与DNA的复合物，蛋白质与RNA的复合物以及蛋白质与DNA和RNA的复合物；其特征在于，包括如下步骤：

确定所述大分子复合物结构上相互作用的残基与碱基中任意两个重原子之间的距离，若所述距离小于预设距离阈值，则认为对应的残基和碱基位于所述大分子复合物的相互作用界面上，并确定位于相互作用界面上的残基序号和碱基序号；所述残基属于蛋白质结构，所述碱基属于RNA结构或DNA结构；

将所述大分子复合物结构上的蛋白质结构映射到基因组；

将所述大分子复合物结构上的RNA结构映射到基因组；

将位于相互作用界面上的残基序号映射到蛋白质数据库UniProt和突变数据库SNPLogic，得到UniProt给出的所述残基序号在基因组上的位置以及UniProt和SNPLogic给出的所述残基序号可能存在的突变信息；

将所述大分子复合物结构上的蛋白质结构映射到基因组，具体包括如下步骤：

将所述蛋白质结构用结构、功能、分类学以及序列的整合方法SIFTS映射到UniProt上，判断是否能得到对应的蛋白质数据库中的标识UniProt ID；

如果不能得到对应的UniProt ID，则基于基本的蛋白质局部比对搜索工具BLASTp进行序列比对，根据人类蛋白质序列找到编码所述蛋白质最有可能的基因序列及位置，从而得到所述蛋白质结构的基因组位置；

如果不能得到共识蛋白质编码区ID或者共识蛋白质编码区ID所对应的基因长度不满足预设条件，则根据UniProt ID对应的基因建立BLASTp所需要的搜索数据库，基于所建立的搜索数据库采用BLASTp进行序列比对，根据人类蛋白质序列找到编码所述蛋白质结构最有可能的基因序列及位置，从而得到所述蛋白质结构的基因组位置；

在将蛋白质结构映射到UniProt后，得到UniProt给出的该蛋白质结构在基因组上的位置以及可能存在的突变信息；

将所述大分子复合物结构上的RNA结构映射到基因组，具体包括如下步骤：

根据所述RNA结构中的碱基得到RNA序列；

将所述RNA序列逆转录到DNA序列；

通过用于处理测序数据中SAM格式的方法SAMtools得到所述RNA序列所在的基因组坐标；

将所述大分子复合物结构上的DNA结构映射到基因组，具体包括如下步骤：

根据所述DNA结构中的碱基得到DNA序列；

2.根据权利要求1所述的将大分子复合物结构映射到基因组和突变数据库的方法，其特征在于，所述预设距离阈值为6埃。

3.根据权利要求1所述的将大分子复合物结构映射到基因组和突变数据库的方法，其特征在于，所述预设条件为共识蛋白质编码区ID所对应的基因长度为UniProt ID对应的序列长度的3倍加3。

4.根据权利要求1至3任一项所述的将大分子复合物结构映射到基因组和突变数据库的方法，其特征在于，所述位于相互作用界面上的残基序号和碱基序号用于从基因组中确定所述相互作用界面上的残基和碱基在基因组的位置。