CN113223610B

CN113223610B - 疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法

Info

Publication number: CN113223610B
Application number: CN202110585912.XA
Authority: CN
Inventors: 陈铭; 陈宏俊; 周业凯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-07-26
Anticipated expiration: 2041-05-27
Also published as: CN113223610A

Abstract

本发明公开了一种疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法，包括以下步骤：(1)人类蛋白质组注释的获取，注释内容包括；(2)从蛋白质相互作用公共数据集收集整理可信的蛋白质互作数据，并对蛋白质互作数据进行整合、重打分、网络构建；(3)疾病标签的整理、标准化；(4)疾病相关蛋白的互作子网络挖掘；(5)跨疾病共作用互作模块的挖掘；(6)网络分析及包含3D结构的可视化。本发明对人类蛋白质互作数据进行整合，针对疾病相关蛋白及蛋白质互作进行提取和多疾病分析，系统地寻找在多疾病中共同发挥重要作用的蛋白质互作，结合了多蛋白互作结构可视化工具，为疾病蛋白质互作模式提供微观角度的阐释。

Description

疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法

技术领域

本发明属于医学与系统生物学网络构建领域，具体涉及到人类疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法。

背景技术

目前对疾病蛋白了解不多，作为药物靶点也有限。随着医学和蛋白质组学研究的发展，蛋白质和人类相互作用组的种类迅速扩大。蛋白质-蛋白质(PPI)相互作用网络分析是发现疾病之间共有机制的重要系统生物学方法(Uncovering disease-diseaserelationships through the incomplete interactome,Menche et al,2015)，适用于各种疾病。以疾病为对象，也可以依靠现有数据对人类疾病蛋白质相互作用进行一定程度的了解。

例如神经退行性疾病是一类与错误折叠蛋白质累积相关的疾病。神经退行性疾病(ND)，由神经功能紊乱、结构损伤和细胞死亡导致发生，例如阿尔茨海默氏病，帕金森氏病，亨廷顿氏病和肌萎缩性侧索硬化。这些疾病的发病机理涉及多种分子机制。有研究认为，神经退行的最大风险因素是衰老，这是由线粒体DNA突变和氧化应激引起的(Mitochondrialdysfunction and oxidative stress in neurodegenerative diseases,Lin&Beal,2006nature)。几种ND中常见的原因是错误折叠的蛋白质聚集(The roles ofintracellular protein-degradation pathways in neurodegeneration Rubinsztein,2006)。自噬在许多ND的多个阶段均起着折衷的作用(Compromised autophagy andneurodegenerative diseases,Menzies et al,2015)。这些研究和评论扩展了我们对神经退行过程的认识，并识别了许多ND相关蛋白。

可变剪接生成可能与蛋白质错误折叠有关，而它产生大量的蛋白质异形体，能直接或间接影响PPI结合，扩大了蛋白质组学和调控的复杂性(Tissue-specificalternative splicing remodels protein-protein interaction networks,Ellis etal,2012)。因此，异形体信息可作为了解可变剪接影响发病机理的重要资源。PPI中结合区域的知识将有助于功能蛋白质组学，并提供预测PPI的替代方法。蛋白质分子的结构亲和力使我们能够在原子细节中描述蛋白质-蛋白质相互作用并推断相关功能。

为了进一步研究PPI如何影响神经退行性疾病发病机制，需要将PPI与相关因素之间的关联进行收集并进行深入挖掘。目前存在一些有关单个或多种神经退行性疾病的PPI的数据库，主要针对阿尔茨海默氏病，帕金森氏病和亨廷顿氏病。此外也有一些通用型的蛋白质互作数据库。但是，当前人类互作组中的PPI是二元相互作用，其有关结构亲和力或异形体的信息有限。尽管数据库和文章提供了足够的分子相互作用，但亟需神经退行性疾病有关的高分辨率PPI网络以解释更多问题。

可以从UniProt(UniProt:the universal protein knowledgebase UniProtConsortium,2018)和IIIDB(IIIDB:a database for isoform-isoform interactions andisoform network modules,Tseng et al,2015)等公共数据库中访问蛋白质异形体信息，其中收集了蛋白质异形体的变异序列，表达水平以及异形体-异形体相互作用。当前发表的PPI网络多数由缺少原子水平的细节和结合位点信息的简单二元互作组成。将蛋白质对接计算纳入考虑，有望构建构建一个高分辨率网络。ZDOCK的最新版本能够用一些参数例如构型互补性、静电和成对原子统计的潜力对蛋白质对接参数进行评估(AcceleratingProtein Docking in ZDOCK Using an Advanced 3D Convolution Library Pierce etal,2011)。

发明内容

本发明正是鉴于上述事实，实现了一种基于疾病和蛋白组公共数据的、疾病蛋白质互作网络整合和挖掘跨疾病作用模块的方法。该方法通过整合生物医学研究积累的数据，深入挖掘致病蛋白和相关相互作用因子。收集与疾病相关的蛋白质，相关的蛋白质互作和交互式可视化的信息，构建了最大的可以由现有研究数据验证的整合数据集。

疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法，包括以下步骤：

(1)人类蛋白质组注释的获取，注释内容包括；

(2)从蛋白质相互作用公共数据集收集整理可信的蛋白质互作数据，并对蛋白质互作数据进行整合、重打分、网络构建；

(3)疾病标签的整理、标准化；

(4)疾病相关蛋白的互作子网络挖掘；

(5)跨疾病共作用互作模块的挖掘；

(6)网络分析及包含3D结构的可视化。

优选的，步骤(1)中，从蛋白质公共数据库UniProt查询人类蛋白质组列表，下载xml格式数据，处理数据后，得到人类蛋白质条目与数据注释对应的表格，注释内容包括：蛋白质编号、蛋白质标签、蛋白质全名、基因标签、该蛋白质涉及的疾病。

优选的，步骤(2)中，对蛋白质互作数据根据步骤(1)得到的蛋白质标签，将不标准的蛋白质标签统一化，去冗余，统计数据库对蛋白质互作数据的原始打分及相关验证的参考文献，利用标准化及贝叶斯平均算法重打分，对蛋白质互作数据的分数和可信度进行重新计算。

更优选的，步骤(2)中，蛋白质互作数据的原始打分来源的数据库为BioGRID，InbioMap，IntAct，MINT和STRING。

更优选的，步骤(2)中，对蛋白质互作数据的分数和可信度进行重新计算后，将排名得分高于平均水平的蛋白质互作数据收集为高分数据集，用于步骤(4)疾病相关蛋白的互作子网络挖掘。

优选的，步骤(3)中，疾病本体数据库和蛋白质公共数据库UniProt中分别储存了疾病的条目，为每个疾病指定了名称、标签、和临床症状描述的信息，两个数据库之间没有现成的匹配关系。为了确保不遗漏研究疾病的对象，有必要从疾病本体数据库搜索目标的疾病条目，并与蛋白质公共数据库UniProt中的疾病条目进行匹配，并在指定的疾病范畴内筛选研究疾病的对象，获得指定疾病的疾病条目集合。

优选的，步骤(4)中，根据步骤(1)得到的蛋白质标签统一数据，筛选与步骤(3)所得疾病标签相关的蛋白质条目，并用简化的标签进行注释，将这些蛋白质条目放入步骤(2)构建的蛋白质互作整合网络，自动寻找第一邻接的蛋白质节点，生成子网络。

优选的，步骤(5)中，使用网络拓扑分析工具、富集分析工具等寻找指定疾病相关功能模块，并对不同疾病类型中共同牵涉的蛋白质相互作用网络中有特定生物学功能的团体，简称为PPI模块，进行筛选，并以筛选的PPI模块的网络拓扑学上有很高特性的蛋白质和具有疾病发生的生物学意义的蛋白质，统称为重要蛋白，以重要蛋白为对象，构建基于蛋白质结构的原子细节的对接。

优选的，步骤(6)中，使用网络计算、分析和可视化工具Cytoscape建立网络可视化，使用3D可视化工具对蛋白质结构对接进行进一步可视化，并对网络结构进行计算分析。

本发明对人类蛋白质互作数据进行整合，并且区分了蛋白质异形体。对蛋白质互作打分引入了贝叶斯平均算法，并能为深度学习数据集的构建提供一种参考。针对疾病相关蛋白及蛋白质互作进行提取和多疾病分析，系统地寻找在多疾病中共同发挥重要作用的蛋白质互作。第一次结合了多蛋白互作结构可视化工具，为疾病蛋白质互作模式提供微观角度的阐释。

附图说明

图1为本发明的技术路线流程图。

图2为本发明的数据生成的网络概念图。

具体实施方式

为了更具体地描述本发明，下面结合附图及具体实施方法对本发明的技术方案进行详细说明。

本发明基于疾病和蛋白组公共数据，涉及到网络的整合与疾病共作用的蛋白质功能模块的挖掘，并针对神经退行性疾病这一类与蛋白质有相关性的疾病展开。包括如下步骤：

(1)人类蛋白质组注释的获取

访问蛋白质序列功能信息数据库UniProt，并在通过物种字段搜索Homo sapiens，在结果列表中找到human，点击跳转至人类的信息页面，并点选reviewed的蛋白质条目。数据库返回的是经过实验验证的人类全部蛋白质(包括人类蛋白质组和少量尚未归类在蛋白组中的条目)，共20793条。点击download按钮并选择下载全部数据xml格式。获取的xml文件经过xml格式转换，生成一个蛋白质标签对应一系列注释信息(蛋白质编号、蛋白质标签、蛋白质全名、基因标签、该蛋白质涉及的疾病)的表格。利用Python，把表格写入列表，并应用内置的循环语句和字典函数，将该表格转换为蛋白质标签映射注释信息的字典。统计蛋白质条目的数量，并过滤对本发明有用的字段条目，作为蛋白组注释信息。最后得到包含20793个人类蛋白质的数据表格。

(2)人类蛋白质互作数据的整合、重打分、网络构建

访问8个蛋白质(分子)互作公共数据库，分别为UniProt、DIP、string-db、BioGRID、IntAct、MINT、InBio Web和HPRD，从中收集指定格式的人类互作组数据集。由于UniProt不直接提供制表符格式的PPI数据，因此使用UniProt提供的人类蛋白质的数据表格，提取为Python的列表后，再通过Python的循环语句和字典函数将上述数据表格批处理输出，对查询结果进行批处理请求，从经过实验验证的人类蛋白质组注释中收集蛋白质-蛋白质相互作用。这些数据集都整理成了每行为一条PPI，包括两个互作蛋白、相关注释信息等分别成列的数据表格式，存放在用于分析的计算机平台以用于整合。针对不同数据库使用的各不相同的蛋白质(基因)标签，通过各个数据库自己提供的或从其他公共数据库获取的变换规则，适合用Python程序批量转换所有数据库的蛋白标签为UniProt标签，并保留蛋白质异形体的标签信息。然后对数据表中同属于两个相同蛋白标签相互作用的行进行合并，使蛋白两两互作的条目唯一，实现初步去冗余的目的。合并标签后，再对这些两两互作条目进行去冗余，最终得到去冗余的人类蛋白质互作2625870条。所使用的公共数据库分别有部分对它来源的蛋白质互作进行了打分。这些分数代表着蛋白质互作在一些衡量标准下产生结合或关联的强度。不同的公共数据库采用的标准有区别，极值也不同。而不同的数据库评估的蛋白互作条目的范围也有差异，存在一定程度的偏好性。因此，对这些分数进行标准化和贝叶斯平均，相信能综合多个平台的结果，对所有覆盖的互作进行准确的打分。取公共数据的打分，并使用贝叶斯平均计算。分数来自数据库BioGRID，InbioMap，IntAct，MINT和STRING。另外也对每条蛋白质互作涉及的公共数据库数量及实验验证的论文数量进行了统计，以此为参数设置了置信度值。排名得分高于平均水平的PPI被收集为高分数据集。该高分数据集中的PPI打分值和置信度值都较高，意味着这些PPI设计的蛋白质两两之间有更高的互作的可能性，也有更多的实验数据支持此事实。由于互作可能性较低的PPI在实际应用中具备的生物学机制的研究价值有限，所以对于具体研究涉及到疾病关联的PPI，使用高分数据集能起到缩小研究范围，明确PPI生物学意义的作用。

(3)神经退行性疾病标签的整理、标准化

访问UniProt数据库的Disease页面，下载表格格式的全部疾病列表及描述。访问DiseaseOntology的github仓库，下载DO(disease ontology)疾病本体术语的整合文件。分别统计UniProt疾病条目和DO疾病条目的数量。UniProt文件包括Disease ID，Name，Mnemonic，Description几列，而DO文件中筛选DO ID，Name，Definition，Synonym，MESH，OMIM几个字段，整理成表格格式。包括以上预处理步骤，使用Python内置的正则表达式模块re，将疾病条目进行文本切割，输入列表，并使用循环语句提取，继续对疾病条目中包含“退行”关键词的条目进行初步筛选，然后用脑部区域描述、作为神经学术语条件筛选所有符合神经退行性疾病类别的条目。得到符合条件的UniProt疾病条目419条，DO疾病条目60条。这些疾病条目在命名上基本一致但有微小差异。所以用模糊匹配的模块找出两个列表中最为接近的词条，形成合并的神经退行性疾病标签集合。通过交叉引用后得到69个疾病类，并包含对应的UniProt疾病亚类380个。

(4)神经退行性疾病相关蛋白的互作子网络挖掘

将步骤(3)得到的UniProt疾病亚类用批处理程序获取人类蛋白质组中的关联蛋白质，总计349条。步骤(2)建好的整合去冗余的人类蛋白质互作网络，导入网络分析及可视化软件Cytoscape中，生成整体网络，构成网络图。将步骤(3)获取的疾病标签用于筛选步骤(1)的蛋白质条目中与各个疾病相关的蛋白质，再将这些蛋白质的名称在该生成的网络图中进行搜寻，所获得的网络节点即为疾病关联蛋白质的网络，并用Cytoscape的自动寻找第一邻接节点功能选中与这些网络节点直接有PPI连接的蛋白质，获得神经退行性疾病相关蛋白的互作子网络。

(5)跨疾病共作用互作模块的挖掘

选取两种疾病(如“阿尔茨海默症”和“帕金森症”)的互作子网络，首先分别统计各网络中的重要节点和高度密集的网络模块。使用Cytoscape软件中的MCODE插件分析网络，得到得分较高的网络模块，这些模块中蛋白质的网络拓扑属性存在相似性，并且功能上可能存在密切联系。从网络模块中筛选出与疾病机理有重要关系的节点蛋白，比较两种疾病所得的网络模块的差异，寻找相同的模块，并调查致病蛋白在各自网络中的分布。特别研究蛋白质异形体的存在对PPI的网络拓扑结构的影响。研究跨疾病作用的蛋白质在两个网络中的作用。以跨疾病蛋白为切入点，构建疾病子网络重叠部分的细节。将重叠的结果输出为表格和图片。

(6)网络分析及可视化

对步骤(4)生成的疾病相关蛋白的互作子网络，使用网络分析及可视化软件Cytoscape进行可视化，并使用Analyze network功能(即旧版Cytoscape自带的NetworkAnalyzer工具)的“以无向网络模式”选项计算和分析该网络的拓扑属性，包括网络节点的度、连通性、中心度和最短路径。以这些拓扑属性为参数，输出网络中的关键节点。将这些关键节点根据得分高低进行排序，并将之与功能相关联。使用BiNGO等基因本体或通路分析工具对得分较高的节点及相关互作蛋白进行分析，得到GO的生物过程术语富集的结果，探寻这些蛋白质与神经退行性疾病互作网络的功能联系，综合得出高度相关的蛋白质。

此外，针对步骤(5)获取的与疾病机理有重要关系的节点蛋白，从RSCB蛋白质结构数据库收集它们与它们的第一邻接节点的PDB蛋白质结构文件，并输入ZDOCK程序批量进行运算，以得到节点蛋白与每个第一邻接节点的对接最高得分，以及对接构型。使用优化的NGL viewer将同一个节点蛋白的所有对接构型在一个视图中进行可视化，实现蛋白质一对多对接的效果，并对对接表面的原子细节进行展示。

本发明通过整合多来源的人类蛋白质数据、PPI数据和疾病数据标签，并加入先进的打分算法，并且关注了蛋白质异形体；整合后构建了一个人类神经退行性疾病蛋白质相互作用网络，并挖掘了其中的一些疾病的跨疾病工作用蛋白质模块。提出网络整合与挖掘模块的方法，有利于在现有研究的基础上进一步完善人类蛋白互作组的细节与覆盖度。与疾病研究相结合，提升网络研究的生物学意义。使用自动化的程序挖掘，快速为相关的网络及疾病机制研究提供整合的数据资源。更进一步，本发明不仅关注传统的蛋白质点对点二元互作，也结合了以蛋白质结构对接为基础的高精度PPI注释，实现了多层次PPI网络的系统研究。

由此可见，本发明不仅在方法上具备创新性，也为用户实现了访问相关资源的条件。以蛋白质和蛋白质异形体为数据的核心，结合疾病注释数据和网络分析，有效地得到了整合、高精度人类蛋白质互作网络及疾病关联模块。基于计算机程序和算法，也构建了自动化生成整合网络的流程。对人类疾病、网络拓扑学研究等领域提供了重要的工具和数据支撑。

上述对实施例的描述提到神经退行性疾病，是为了方便相应技术领域的技术人员对本发明的构建和使用过程有一定理解并直接利用。如果对本领域技术非常熟悉，相关技术人员可以对本发明的工作流的部分结构进行优化和修改，引入自己的参数和算法，活用本发明的原理，将其应用到其他实施例中，而不必进行独创性劳动。因此，本发明不限于上述实施例和疾病研究对象，本领域技术人员根据本发明的揭示，在本发明的范畴内做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.疾病蛋白质互作网络整合及挖掘跨疾病作用模块的方法，其特征在于，包括以下步骤：

(1)人类蛋白质组注释的获取；

步骤(1)中，从蛋白质公共数据库UniProt查询人类蛋白质组列表，下载xml格式数据，处理数据后，得到人类蛋白质条目与数据注释对应的表格，注释内容包括：蛋白质编号、蛋白质标签、蛋白质全名、基因标签、该蛋白质涉及的疾病；

步骤(2)中，对蛋白质互作数据根据步骤(1)得到的蛋白质标签，将不标准的蛋白质标签统一化，去冗余，统计数据库对蛋白质互作数据的原始打分及相关验证的参考文献，利用标准化及贝叶斯平均算法重打分，对蛋白质互作数据的分数和可信度进行重新计算；

步骤(2)中，蛋白质互作数据的原始打分来源的数据库为BioGRID，InbioMap，IntAct，MINT和STRING；

步骤(2)中，对蛋白质互作数据的分数和可信度进行重新计算后，将排名得分高于平均水平的蛋白质互作数据收集为高分数据集，用于步骤(4)疾病相关蛋白的互作子网络挖掘；

(3)疾病标签的整理、标准化；

步骤(3)中，疾病本体数据库和蛋白质公共数据库UniProt中分别储存了疾病的条目，为每个疾病指定了名称、标签、和临床症状描述的信息，两个数据库之间没有现成的匹配关系，从疾病本体数据库搜索目标的疾病条目，并与蛋白质公共数据库UniProt中的疾病条目进行匹配，并在指定的疾病范畴内筛选研究疾病的对象，获得指定疾病的疾病条目集合；

(4)疾病相关蛋白的互作子网络挖掘；

步骤(4)中，根据步骤(2)得到的统一化后的蛋白质标签，筛选与步骤(3)所得疾病标签相关的蛋白质条目，并用简化的标签进行注释，将这些蛋白质条目放入步骤(2)构建的蛋白质互作整合网络，自动寻找第一邻接的蛋白质节点，生成子网络；

(5)跨疾病共作用互作模块的挖掘；

步骤(5)中，使用网络拓扑分析工具、富集分析工具寻找指定疾病相关功能模块，并对不同疾病类型中共同牵涉的蛋白质相互作用网络中有特定生物学功能的团体，简称为PPI模块，进行筛选，并以筛选的PPI模块的网络拓扑学上与其他蛋白质产生联系多的蛋白质和具有疾病发生的生物学意义的蛋白质，统称为重要蛋白，以重要蛋白为对象，构建基于蛋白质结构的原子细节的对接；

(6)网络分析及包含3D结构的可视化；

步骤(6)中，使用网络计算、分析和可视化工具Cytoscape建立网络可视化，使用3D可视化工具对蛋白质结构对接进行进一步可视化，并对网络结构进行计算分析。