CN112131402A

CN112131402A - 一种基于蛋白质家族聚类的ppi知识图谱表示学习方法

Info

Publication number: CN112131402A
Application number: CN202010962948.0A
Authority: CN
Inventors: 刘容恺
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-25

Abstract

本发明的基于蛋白质家族聚类的PPI知识图谱表示学习方法，通过以下步骤来实现：a).PPI知识图谱中实体分类；b).预表示学习；c).构建子父类损失函数；c‑1).距离误差平方和的计算；c‑2).距离误差平方和的归一化处理；d).进行总体训练；d‑1).通用模型的训练；d‑2).基于子父类损失函数的训练；e).通过步骤d)多次训练。本发明的PPI知识图谱表示学习方法，将基于子父类损失函数的表示学习模型应用于蛋白质相互作用知识图谱，通过同源蛋白和蛋白质家族的子父类关系进行表示学习训练，在蛋白质功能和互作用推理中具有更好的准确率、可靠性和可解释性。

Description

一种基于蛋白质家族聚类的PPI知识图谱表示学习方法

技术领域

本发明涉及一种PPI知识图谱表示学习方法，更具体的说，尤其涉及一种的基于蛋白质家族聚类的PPI知识图谱表示学习方法。

背景技术

蛋白质-蛋白质相互作用(Protein-Protein Interaction，PPI)是生物分子网络中的基本组成元件，也是生物活动的主要表层表征形式，是细胞活性和功能的最终执行者，在生物研究、病理分析、药物研发方面具有重要的意义。蛋白质直接决定了生物体的组成与修复、生物体的生理机能调节、载体运输和能量调节，参与了如遗传、发育、繁殖、代谢、应激等几乎所有的生物活动。对蛋白质结构和功能的深入研究，揭示生物体内成千上万种蛋白质的具体功能及实施功能的机制，一直是后基因组时代蛋白质研究的核心内容，研究意义与挑战并存。

部分蛋白质可以独立的发挥生物功能，但大多数蛋白质却需要与其伴侣蛋白结合，共同完成一项或多项复杂的生理功能。多数蛋白，往往都可以与几种蛋白相互作用，实现不同的功能；而少数关键性的蛋白，则存在大量的伴侣蛋白，这些关键蛋白也往往在细胞活性和功能中扮演着及其重要的作用。不同蛋白作为实体，蛋白之间的相互作用作为关系，将相关知识以属性的形式存储于实体和关系中，相互交织形成一个巨大的图谱，并支持查询、推理、智能分析等功能，该图谱就被称为“蛋白质相互作用知识图谱(Protein-ProteinInteraction Knowledge Graph，PPI KG)”。如何构建海量且复杂的蛋白质相互作用知识图谱及如何通过PPI KG，有效揭示蛋白质之间复杂的物理、生物化学、信号传导、基因网络作用规律，发现蛋白质之间尚未发现的隐含作用关系，对新蛋白的结构和功能做出有效预测，是生物医药领域知识图谱研究的重要方向。而随着传统蛋白结构研究、序列研究和网络拓扑研究潜力的逐渐透支和知识图谱理论和应用的不断完善，应用知识图谱作为蛋白质相互作用关系和知识的承载载体，在此基础上从表层知识的分析过度到底层潜在知识的挖掘，是蛋白组学研究心得突破点。其中又以表示学习的方法将图谱中的实体和关系向量化加以应用，应用最为广泛、发展最为迅速。而如何将PPI KG进行有效的表示学习，将图谱中的实体和关系正确高效的映射到统一的向量空间中，从而将语义和领域层面上的实际问题转化为在向量空间中的向量运算，是应用表示学习在PPI KG上对蛋白质的功能、性质、互作用关系进行推理和挖掘的基础。

表示学习的根本目的是通过某种模型或方法，将图谱中的实体和关系转化为统一的某一维度的向量表示，使得图谱中的三元组满足关系h+r≈t(h 为头实体向量，r为关系向量，t为尾实体向量)，如图1所示。表示学习方法已经经历了长久的发展，方法也不断推陈出新。其中，最有代表性的是 Trans系列。该系列最早的模型TransE是2013年由Bordes等人在NIPS上发表，并定义了三元组中的距离公式作为损失函数。但TransE无法解决多对多、多类型等问题，这些问题后来分别被TransH、TransR等模型解决，并结合路径等更高层的语义信息产生PTransE等模型。

另一方面，为了适应大数据环境下的超大规模知识图谱和海量实体、关系的表示学习，Facebook基于Pytorch推出了Pytorch BigGraph(PBG) 表示学习模型，实现了理论上不限规模图谱的表示学习。此外，随着GNN 的发展，基于图神经网络的表示学习成为了新兴的技术，收到了广泛的关注。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种基于蛋白质家族聚类的PPI知识图谱表示学习方法。

本发明的基于蛋白质家族聚类的PPI知识图谱表示学习方法，其特征在于，通过以下步骤来实现：

a).PPI知识图谱中实体分类，PPI知识图谱中只包含了蛋白质和蛋白质之间的相互作用关系，而并没有包含蛋白质家族实体；将蛋白质家族实体添加到PPI知识图谱中，并建立起蛋白质家族与同源蛋白之间的关联，并按照的蛋白质家族及与它关联的同源蛋白构建不同的聚类簇，并建立起不在聚类簇中的独立蛋白的集合；

b).预表示学习，对整个图谱进行一次预表示学习训练，输出各个实体的向量化表示，以获得子类实体和父类实体在向量空间中的初步表示，作为计算距离的基础；

c).构建子父类损失函数，子父类损失函数，旨在度量在向量空间中，表征各个子类实体向父类实体的靠拢程度，同时也表征各个子类实体的聚集程度；故将子父类损失函数的计算方法分为子类实体到父类实体距离误差平方和的计算和归一化处理；

c-1).距离误差平方和的计算，设所有父类的集合为F，距离误差平方和为E，通过公式(1)计算子类实体到父类实体距离误差平方和：

其中，f_i表示父类集合F中第i个父类实体，p表示f_i下的每个子类实体；公式(1)首先计算某个父类实体对应的每个子类实体到该父类实体在向量空间中的距离误差的平方和，之后再将各个父类实体所计算出的距离误差平方和进行累加，形成整个图谱领域的子父类距离误差平方和；

c-2).距离误差平方和的归一化处理，使用min-max标准化来进行归一化处理，因为是平方和的累加，所以将最小值min设置为0，对于最大值，使用预表示学习后第一次求得的距离误差平方和的1.2倍作为最大值max；取得min-max的最大、最小值取值范围后，将距离误差平方和应用min-max 标准化方法归一化到[0,1]区间；

d).进行总体训练，对于一次训练，需要对公式(1)求取的子父类损失函数和通用损失函数同时进行训练，择将两个损失函数进行相加，在反向传播阶段进行一次统一的更新，从而同时使用两个损失训练更新蛋白质相互作用网络图谱；其包括通用模型训练和基于子父类损失函数的训练；

d-1).通用模型的训练，通用模型的选取是任意的，根据应用场景选择一种合适的表示学习模型，通用模型的选取规则为：当知识图谱规模适中时，使用GCN或GraphSage训练模型，其中，当知识图谱较为稳定、只在特定时间进行集中的增量更新时选择GCN，当知识图谱需要经常添加或删除实体时，为了满足快速表示新实体的需求使用GraphSage模型；当知识图谱规模较大时，使用PBG来进行大规模、多线程、分布式的训练；

d-2).基于子父类损失函数的训练，其分为两种情况：一是子父类实体所构成的聚类簇的损失计算；二是独立于聚类簇外的独立节点的损失计算，利用公式(1)进行子父类损失函数的计算；对于独立于聚类簇外的独立节点，因为在现有的图谱结构中无法找到其明确的子父类关系，故在训练过程中不对其进行子父类损失函数的计算，即始终将它的子父类损失函数设置为0；

e).通过步骤d)多次训练，要同时对子父类损失函数和普通损失函数两个损失函数进行训练，使其双双收敛；在完成整体的训练，并获得各个实体在向量空间中的表示之后，将额外引入的蛋白质家族实体和子父类关系从PPI知识图谱和向量空间中去除，获得只包含蛋白质实体的纯粹的PPI 向量空间。

本发明的基于蛋白质家族聚类的PPI知识图谱表示学习方法，步骤b) 中所述的预表示学习过程中，当图谱规模较小时，选择参数最少、速度最快、开销最低的TransE作为预训练模型，并将训练出的向量表示作为整体模型的输入；向量空间的维度选取为300到500维；使用TransE训练模型中OpenKE预制的Trans系列模型直接进行训练；当图谱规模较大时，使用 FaceBook Pytorch BigGraph进行整体图谱的训练。

本发明的基于蛋白质家族聚类的PPI知识图谱表示学习方法，步骤c) 所述的构建子父类损失函数过程中，基于其它通用的表示学习模型，额外添加子父类损失函数；该损失函数的构建和使用，其前提是知识图谱中已存在明确的上下位关系，并能表现出合乎理论依据的聚类关系，如最常见的子父类关系，反映在PPI知识图谱中，即为蛋白质家族及该家族的同源蛋白实体间的关系；子父类损失函数的理论依据是同一父类的子类实体应当具有较强的相似性，而该相似性在表示学习后的向量空间中应当表示为更加接近的空间位置关系，同时要更加紧密的围绕父类实体在向量空间中的位置表示；子父类损失函数的设立，使得训练能够逐步的调整实体的向量表示位置，以满足以上在空间向量中表现出的子父类的聚类性质。

本发明的基于蛋白质家族聚类的PPI知识图谱表示学习方法，步骤d-2) 中所述的基于子父类损失函数的训练步骤中，对于子父类实体所构成的聚类簇的损失计算，在某一次数据输入过程中，当模型对某一实体的向量表示进行学习时，即使该次学习只针对某一实体节点或者包含该实体的某一特定三元组，也计算整个知识图谱的总体距离误差平方和损失；在反向传播阶段，缔造更均匀的下降梯度，避免个别簇中产生的较大或较小的距离误差平方和对梯度造成较大的影响，从而更好的保证整体的训练效果。

本发明的有益效果是：本发明的基于蛋白质家族聚类的PPI知识图谱表示学习方法，利用知识图谱中存在的子父类关系，构建子类向量到父类向量的距离平方和作为损失函数，参与表示学习训练，并在PPI KG中对蛋白质实体和相互作用关系进行更优秀的表示学习、输出更准确地向量化表示。相较于现有的通用的表示学习模型，本发明充分利用了知识图谱中子父类的语义关系，基于子父类应在语义空间中表现为相似的聚类性质，构建损失函数，在表示学习上取得更好的效果。将基于子父类损失函数的表示学习模型应用于蛋白质相互作用知识图谱，通过同源蛋白和蛋白质家族的子父类关系进行表示学习训练，在蛋白质功能和互作用推理中具有更好的准确率、可靠性和可解释性。

附图说明

图1为表示学习的三元组向量运算示意图；

图2为蛋白质互作用知识图谱中各个实体的向量化表示图；

图3为本发明中两个损失函数参与的整体训练流程；

图4为基于蛋白质家族聚类的PPI知识图谱表示学习方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图2所示，给出了使用GCN和PBG分别进行初步的表示学习，所获得的蛋白质互作用知识图谱中各个实体的向量化表示图。无论是哪种方法，训练时使用的损失函数对于表示学习的效果都是至关重要的。而已有的模型的损失函数往往只考虑图谱整体的三元组在向量运算时h+r和t的距离，或是只在一个语义平面上进行表示学习，而忽略了一些图谱本身在语义本体上的性质，最典型也是最重要的就是子父类的上下级关系。在向量空间中，相似的实体应当通过训练，其向量表示应当在向量空间中的位置彼此靠近。而作为具有极高内部相似性的子类实体，在向量空间中的位置应当更加紧密，表现出高度的聚类性质，同时子类实体应当表现出高度接近父类的性质。如能有效利用这两个性质，构建新的损失函数参与表示学习训练，将会提升表示学习效果。

而在PPI KG中，结构、功能、序列、通路等的相似性是蛋白质在进行互作用分析及诸如靶点挖掘、药物发现、功能推测、通路推理等应用时需要考虑的重要性质和理论依据。而蛋白质的相似性，高度体现在同一蛋白质家族的不同实体之间。蛋白质实体和蛋白质家族存在的明确的上下级关系，在PPI KG的表示学习过程中表现为子类蛋白实体应当处于以父类实体为中心的一定距离范围内，即各个子类蛋白实体到父类实体的距离平方和处于一定的阈值之内，才能保证语义的近似性在表示学习结果中有所侧重和体现。

现有的蛋白质互作用知识图谱的构建方法存在如下问题：

(1)如何能够在现有的表示学习技术的基础上，重点使用尚未被有效利用的子父类的语义关系特征，构建子父类损失函数进行训练，从而形成更好的表示学习模型。

(2)如何将子父类损失函数作为损失函数之一，与传统的表示学习损失函数一起，使用多个损失函数进行训练。

(3)如何将模型应用于PPI KG，进行蛋白质及相互作用关系的表示学习，从而进一步指导基于向量运算的补全、推理等下游应用。

如图3所示，给出了本发明中两个损失函数参与的整体训练流程，其中，Epochinput表示每次训练过程中所输出的实体数据，GCN表示GCN 训练模型，Normal Loss表示采用通用模型的训练损失，Parent-Children Distance Loss表示基于子父类损失函数对训练损失，Final Loss为最终的损失，其为Normal Loss与Parent-Children Distance Loss之和。如图4给出了基于蛋白质家族聚类的PPI知识图谱表示学习方法的流程图，其中的普通损失函数即为通用损失函数，普通损失即采用通用模型的训练损失。

本发明的基于蛋白质家族聚类的PPI知识图谱表示学习方法，通过以下步骤来实现：

该步骤中，所述的预表示学习过程中，当图谱规模较小时，选择参数最少、速度最快、开销最低的TransE作为预训练模型，并将训练出的向量表示作为整体模型的输入；向量空间的维度选取为300到500维；使用 TransE训练模型中OpenKE预制的Trans系列模型直接进行训练；当图谱规模较大时，使用FaceBook Pytorch BigGraph进行整体图谱的训练。

该步骤中，所述的构建子父类损失函数过程中，基于其它通用的表示学习模型，额外添加子父类损失函数；该损失函数的构建和使用，其前提是知识图谱中已存在明确的上下位关系，并能表现出合乎理论依据的聚类关系，如最常见的子父类关系，反映在PPI知识图谱中，即为蛋白质家族及该家族的同源蛋白实体间的关系；子父类损失函数的理论依据是同一父类的子类实体应当具有较强的相似性，而该相似性在表示学习后的向量空间中应当表示为更加接近的空间位置关系，同时要更加紧密的围绕父类实体在向量空间中的位置表示；子父类损失函数的设立，使得训练能够逐步的调整实体的向量表示位置，以满足以上在空间向量中表现出的子父类的聚类性质。

该步骤中，所述的基于子父类损失函数的训练步骤中，对于子父类实体所构成的聚类簇的损失计算，在某一次数据输入过程中，当模型对某一实体的向量表示进行学习时，即使该次学习只针对某一实体节点或者包含该实体的某一特定三元组，也计算整个知识图谱的总体距离误差平方和损失；在反向传播阶段，缔造更均匀的下降梯度，避免个别簇中产生的较大或较小的距离误差平方和对梯度造成较大的影响，从而更好的保证整体的训练效果。

本发明旨在使用自主设计的子父类损失函数，充分利用PPI知识图谱中的子父类语义性质，产生更准确的表示学习结果，从而更好的进行蛋白间相互作用和蛋白质功能等预测。

在蛋白质组学中，蛋白质及其家族间形成了优秀的子父类关系。蛋白质家族是由氨基酸序列相似并且结构和功能十分相近的蛋白质构成的，同一蛋白质家族的成员被称为同源蛋白。所以，同源蛋白之间具有极强的相似性和语义关联，它们在进行表示学习后，在语义空间中的距离也应当是十分接近的。所以，同源蛋白和父类的蛋白质家族之间的强烈的子父类关系使得子父类损失函数在表示学习的调优上具有充分的理论依据。

然而，PPI知识图谱中只包含了蛋白质和蛋白质之间的相互作用关系，而并没有包含蛋白质家族实体，也就不具备使用子父类损失函数的条件。所以，在预表示学习之前，就应当将蛋白质家族实体添加到PPI知识图谱中，并建立起蛋白质家族与同源蛋白之间的关联。

当构建起明确的子父类关系之后，即可按照的蛋白质家族及与它关联的同源蛋白构建不同的聚类簇，并建立起不在聚类簇中的独立蛋白的集合。在实际参与模型学习时，一方面各个同源蛋白实体按照选择的表示学习模型按照模型本身的损失函数进行训练，另一方面根据子父类损失函数算法，计算距离损失平方和并归一化为最终的损失值进行训练。

在完成整体的训练，并获得各个实体在向量空间中的表示之后，需要将额外引入的蛋白质家族实体和子父类关系从PPI知识图谱和向量空间中去除，获得只包含蛋白质实体的纯粹的PPI向量空间。

预表示学习的目的在于初步构建一个在实际模型中就可以进行调优的基础的向量表示，从而在正式训练刚开始时就进行有效的基于子父类损失函数的训练。当没有预表示学习时，虽然通用模型同样可以在第一次训练时生成大致的向量表示，但该表示在簇内距离损失上并不友好，极容易产生较大的损失值，而之后的训练都要在该较大值损失的基础上进一步减小，往往使得需要更多的训练次数才能达到收敛，并会造成通用损失函数部分在充分拟合后进行无用的梯度追溯，甚至造成过拟合的反效果。而提前进行预训练，可使模型的向量表示输入在初始时就将子父类损失函数值降低到一个理想的范围之内，再在此基础上进行学习，即可有效缩短训练成本，并且同步两个损失函数之间的收敛速度。

因为预表示学习只是生成一个基础的向量表示，而非真正要输出的向量化表示，故并不需要太高的精度。所以，此处的表示学习模型应当选择尽可能简化和快速的模型。常常使用的是最简单效率最高的TransE模型，即使该模型存在无法处理一对多、多对多、自指向和多标签的问题，但都会在接下来的训练中进行覆盖和修复。

子父类损失函数的建立，基于其它通用的表示学习模型，额外添加子父类损失函数。该损失函数的构建和使用，其前提是知识图谱中已存在明确的上下位关系，并能表现出合乎理论依据的聚类关系，如最常见的子父类关系。反映在PPI知识图谱中，即为蛋白质家族及该家族的同源蛋白实体间的关系。本发明中，子父类损失函数的理论依据是同一父类的子类实体应当具有较强的相似性，而该相似性在表示学习后的向量空间中应当表示为更加接近的空间位置关系，同时要更加紧密的围绕父类实体在向量空间中的位置表示。所以，该子父类损失函数的设立，使得训练能够逐步的调整实体的向量表示位置，以满足以上在空间向量中表现出的子父类的聚类性质。

在预表示学习训练中，通过一次完整的快速训练，已经得到了一组子父类实体的向量表示。此时，应当对子类进行类似聚类的操作。而此处不同的是，传统聚类方法的目的是对无序的离散点进行更合理的簇划分，是已知表示求解划分的问题。而本发明中的目的正好相反，是已知了最合理的簇划分，而需要将离散点的表示进行变动，使得使用某一聚类算法能更好、更清晰、更明确的完成该簇划分的过程，是已知划分求解表示的问题。

此处并不需要过度考虑具体的聚类方法，因为事先已知了同一父类下的子类应当划分到同一个聚类簇中，所以只需要有一个确定的聚类方法作为聚类性的约束和定量计算即可。在本发明中，直接使用了聚类簇中的各子类实体到父类实体的距离的平方和作为该簇的距离损失，并将各个簇的距离损失简单相加作为知识图谱整体的距离损失，以获得最小的计算复杂度和更高的效率。

两个损失函数参与的整体训练，在此模型中，使用了两个损失函数。一个是Trans系列表示学习模型所具有的基于三元组向量计算的损失函数或是GCN等图深度模型具有的基于图卷积的损失函数，一个是本发明中提出的基于子父类距离的损失函数。第一种通用损失函数的目的是为了获得在整个图谱范围内满足语义或者拓扑性质的图向量表示，使得通过模型将图谱映射到一定维度的向量空间中时仍能得到统一不变的语义性质和拓扑性质；第二种子父类损失函数在通用损失函数的基础上进一步强化了子父类中相似性的语义特征，使得子类实体具有语义相似性这一重要特征通过学习在意义空间中表现的更为突出。

为了能获得更好的表示学习效果，充分利用PPI知识图谱中出现的子父类性质，需要同时对两个损失函数进行训练，使其双双收敛。将两个损失函数相加，仍能分别追溯两个损失函数的梯度，所以只要在学习过程中使得相加后的最终损失函数收敛，即可保证参与运算的两个损失函数都能达到收敛。

Claims

1.一种基于蛋白质家族聚类的PPI知识图谱表示学习方法，其特征在于，通过以下步骤来实现：

c-2).距离误差平方和的归一化处理，使用min-max标准化来进行归一化处理，因为是平方和的累加，所以将最小值min设置为0，对于最大值，使用预表示学习后第一次求得的距离误差平方和的1.2倍作为最大值max；取得min-max的最大、最小值取值范围后，将距离误差平方和应用min-max标准化方法归一化到[0,1]区间；

e).通过步骤d)多次训练，要同时对子父类损失函数和普通损失函数两个损失函数进行训练，使其双双收敛；在完成整体的训练，并获得各个实体在向量空间中的表示之后，将额外引入的蛋白质家族实体和子父类关系从PPI知识图谱和向量空间中去除，获得只包含蛋白质实体的纯粹的PPI向量空间。

2.根据权利要求1所述的基于蛋白质家族聚类的PPI知识图谱表示学习方法，其特征在于：步骤b)中所述的预表示学习过程中，当图谱规模较小时，选择参数最少、速度最快、开销最低的TransE作为预训练模型，并将训练出的向量表示作为整体模型的输入；向量空间的维度选取为300到500维；使用TransE训练模型中OpenKE预制的Trans系列模型直接进行训练；当图谱规模较大时，使用FaceBook Pytorch BigGraph进行整体图谱的训练。

3.根据权利要求1或2所述的基于蛋白质家族聚类的PPI知识图谱表示学习方法，其特征在于：步骤c)所述的构建子父类损失函数过程中，基于其它通用的表示学习模型，额外添加子父类损失函数；该损失函数的构建和使用，其前提是知识图谱中已存在明确的上下位关系，并能表现出合乎理论依据的聚类关系，如最常见的子父类关系，反映在PPI知识图谱中，即为蛋白质家族及该家族的同源蛋白实体间的关系；子父类损失函数的理论依据是同一父类的子类实体应当具有较强的相似性，而该相似性在表示学习后的向量空间中应当表示为更加接近的空间位置关系，同时要更加紧密的围绕父类实体在向量空间中的位置表示；子父类损失函数的设立，使得训练能够逐步的调整实体的向量表示位置，以满足以上在空间向量中表现出的子父类的聚类性质。

4.根据权利要求1或2所述的基于蛋白质家族聚类的PPI知识图谱表示学习方法，其特征在于：步骤d-2)中所述的基于子父类损失函数的训练步骤中，对于子父类实体所构成的聚类簇的损失计算，在某一次数据输入过程中，当模型对某一实体的向量表示进行学习时，即使该次学习只针对某一实体节点或者包含该实体的某一特定三元组，也计算整个知识图谱的总体距离误差平方和损失；在反向传播阶段，缔造更均匀的下降梯度，避免个别簇中产生的较大或较小的距离误差平方和对梯度造成较大的影响，从而更好的保证整体的训练效果。