CN110706740B

CN110706740B - 基于模块分解的蛋白质功能预测的方法、装置、设备

Info

Publication number: CN110706740B
Application number: CN201910936767.8A
Authority: CN
Inventors: 郑莹; 吴峥; 展路彬
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-03-22
Anticipated expiration: 2039-09-29
Also published as: CN110706740A

Abstract

本发明公开了基于模块分解的蛋白质功能预测的方法、装置、设备，包括以下步骤：将蛋白质互作网络数据输入到系统中；对蛋白质互作网络数据进行预处理；使用模块分解技术对目标蛋白质互作网络数进行分解，得到约简后的蛋白质网络约简图；将蛋白质网络约简图与蛋白质功能对应的网络数据进行匹配对比，得出蛋白质的功能；将模块分解技术运用在蛋白质互作网络中进行分解计算，可以快速有效地在蛋白质互作网络中查找关键蛋白，对分析蛋白质互作网络结构以及蛋白质复合物挖掘的处理速度更快、方便快捷而且准确度和敏感度更高。

Description

基于模块分解的蛋白质功能预测的方法、装置、设备

技术领域

本发明涉及能检测领域，特别是基于模块分解的蛋白质功能预测的方法、装置、设备。

背景技术

在后基因组时代，随着高通量技术的迅猛发展，产生了大量的蛋白质相互作用网络数据，如何从这些海量的蛋白质网络数据中挖掘出有意义的子结构是当前生物信息学研究的主要热点之一,蛋白质复合物作为细胞元件功能实现的主要载体，对于理解蛋白质网络的结构以及认识细胞内生命活动的组织及过程具有重要的意义。

从2002年Girvan和Newman首次提出在网络中发现模块结构以来，复合物的识别在复杂网络、生物信息学和数据挖掘等领域引起广泛的关注，它们以相对紧密的方式连接在一起完成特定的功能。已有研究表明，复合物在蛋白质网络中呈现出很强的生物单一性，即复合物内的蛋白质功能相似性大于网络中其它蛋白质对的功能相似性。此外，研究表明复合物内的密度相对较高，且与其生物单一性有一定的关联,因此研究生物网络中的复合物识别算法具有重要的理论意义和应用价值。

基于聚类的方法是目前蛋白质相互作用网络中复合物发现方法中最主要的实现技术之一，聚类算法主要通过以点或团为种子结点进行扩展，以密度为聚类的目标，当形成的簇的密度值高于某一个指定的阈值时，就把该簇认定为蛋白质复合物。基于聚类的复合物发现算法还可以分为基于密度的局部搜索聚类算法，包括MCODE、CPM、CFinder、DPCLus等，基于层次的聚类算法，包括GN及其扩展算法、HCS算法、Newman快速算法、HC-PIN算法等。

以启发式为代表的智能优化算法逐渐发展为一种有竞争力的复合物发现方法。相对于聚类算法，智能优化算法主要用于研究社会网络等复杂网络中社区的结构发现。主要有：蚁群算法，遗传及其聚类融合算法，多目标进化规划等。

与启发式为代表的智能优化算法相比，矩阵分解方法已经成功应用于生物网络，如转录调控网络和基因表达数据集等。一类采用非负矩阵分解方式，另一类采用惩罚矩阵分解方式,还有概率回归模型、因果关系推断方法等都可应用于社会网络和生物网络中。

综上所述，在蛋白质相互作用网络的复合物发现算法中，聚类算法是最主要的方法之一，然而，对那些连接不紧密但具有生物意义的复合物发现仍然是一个挑战。另外，蛋白质相互作用网络的数据主要来源于高通量的实验技术，本身存在着很多假阳性和假阴性数据，蛋白质网络中的存在很多噪声数据，导致分析数据失真度很高。

即传统的方法是通过物理或化学实验方法对蛋白质互作网络进行分析，但生物实验确定蛋白质功能存在耗时多和费用高的问题，现有的基于计算的功能预测方法都是建立在数据库中已经注释的蛋白质功能之上。现有技术首先无法确定通过物理或化学方法是否会对蛋白质互作网络产生影响或破坏，其次传统分析方法的效率较低，无法凸显网络的特性。现阶段已有的聚类算法需要用大量的样本数据进行训练才能获得较好的实验结果，然而蛋白质互作网络的最大特点是数据量大但样本少，对那些连接不紧密但具有生物意义的复合物发现仍然是一个挑战，以启发式为代表的智能优化算法在蛋白质相互作用网络中挖掘复合物才刚刚起步，且最大的问题是时间复杂度太高，算法运行耗时量大。

发明内容

为了克服现有技术的不足，本发明的目的在于提供基于模块分解的蛋白质功能预测的方法、装置、设备，提高蛋白质网络相互作用的置信度，提高复合物发现的精度和准确性。

本发明解决其问题所采用的技术方案是：

第一方面，本发明提供了基于模块分解的蛋白质功能预测的方法，包括以下步骤：

将蛋白质互作网络数据输入到系统中；

对蛋白质互作网络数据进行预处理；

使用模块分解技术对目标蛋白质互作网络数进行分解，得到约简后的蛋白质网络约简图；

将蛋白质网络约简图与蛋白质功能对应的网络数据进行匹配对比，得出蛋白质的功能。

进一步，所述对蛋白质互作网络数据进行预处理包括：对蛋白质互作网络数据通过邻接矩阵形式进行预处理。

进一步，所述使用模块分解技术对目标蛋白质互作网络数进行分解包括：

判断是否存在当前结点完全相同的结点集；

若否，则新建结点集；

若是，则将当前结点加入相同的结点集；

判断链表是否到达尾部结点；

若否，则迭代上述判断是否存在当前结点完全相同的结点集的步骤；

若是，则结束运算，得到约简后的蛋白质网络约简图。

进一步，所述判断是否存在当前结点完全相同的结点集之前还包括以下步骤：将蛋白质互作网络数据中的结点信息输入链表。

第二方面，本发明提供了基于模块分解的蛋白质功能预测的装置，包括：

输入单元，用于将蛋白质互作网络数据输入到系统中；

预处理单元，用于对蛋白质互作网络数据进行预处理；

分解单元，用于使用模块分解技术对目标蛋白质互作网络数进行分解，得到约简后的蛋白质网络约简图；

计算单元，用于将蛋白质网络约简图与蛋白质功能对应的网络数据进行匹配对比，得出蛋白质的功能。

第三方面，本发明提供了基于模块分解的蛋白质功能预测的设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的电池内阻测量的方法。

第四方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如上所述的基于模块分解的蛋白质功能预测的方法。

第五方面，本发明还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使计算机执行如上所述的基于模块分解的蛋白质功能预测的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下有益效果：

将模块分解技术运用在蛋白质互作网络中进行分解计算，可以快速有效地在蛋白质互作网络中查找关键蛋白，对分析蛋白质互作网络结构以及蛋白质复合物挖掘的处理速度更快、方便快捷而且准确度和敏感度更高。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明实施例提供的基于模块分解的蛋白质功能预测的方法的一种实施方式的流程图；

图2是本发明实施例提供的基于模块分解的蛋白质功能预测的方法的模块分解示意图；

图3是本发明实施例提供的基于模块分解的蛋白质功能预测的方法的蛋白质网络约简图的示意图；

图4是本发明实施例提供的基于模块分解的蛋白质功能预测的方法的装置示意图；

图5是本发明实施例提供的基于模块分解的蛋白质功能预测的方法的设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

参照图1，本发明实施例的基于模块分解的蛋白质功能预测的方法，包括以下步骤：

S10：将蛋白质互作网络数据输入到系统中；

S20：对蛋白质互作网络数据进行预处理；

S30：使用模块分解技术对目标蛋白质互作网络数进行分解，得到约简后的蛋白质网络约简图；

S40：将蛋白质网络约简图与蛋白质功能对应的网络数据进行匹配对比，得出蛋白质的功能。

本发明实施例的基于模块分解的蛋白质功能预测的方法，所述对蛋白质互作网络数据进行预处理包括：对蛋白质互作网络数据通过邻接矩阵形式进行预处理。

本发明实施例的基于模块分解的蛋白质功能预测的方法，所述使用模块分解技术对目标蛋白质互作网络数进行分解包括：

判断是否存在当前结点完全相同的结点集；

若否，则新建结点集；

若是，则将当前结点加入相同的结点集；

判断链表是否到达尾部结点；

若是，则结束运算，得到约简后的蛋白质网络约简图。

模块分解是通过依序遍历蛋白质互作网络图中各结点，并检查所有结点中是否有完全相同的邻接情况而对整个蛋白质互作网络图进行快速分解压缩的技术。模块分解的基本原理在于描述结点及结点之间连接的关系，结点之间有边相连的称其为原结点的邻居，而模块分解中的模块是指在结点集合以外具有完全相同的邻居的结点的集合，模块化后将该结点集用一个新结点进行代替，则该新结点称之为商(quotient)，结点集称之为因式(factors)，进行替换后的图称之为商图。模块分解的过程是一个迭代运算的过程，直到整个图合并为最终的代表结点。在因式中，将其中结点全部互相连接的因式称为系列模块(series)，将其中结点各自互不连接的因式称为平行模块(parallel)，除此之外全部称为素模块(prime)。

参照图2-3所示，模块分解将蛋白质互作网络图循环递归生成一个带标签结点的树，此树称之为模块分解树(modular decomposition tree)。当分解后只有系列模块和平行模块时，通过自上而下遍历模块分解树，可以检索该树的最大团簇。

模块分解的难点在于如何快速检索当前结点与蛋白质互作网络图中其余结点存在完全相同的邻接情况，与此同时还存在由于模块分解检索顺序不确定而产生的模块合并及去重的问题。

由于模块分解所解决的蛋白质互作网络图的结构往往通过邻接表的形式表达，由于该种方式相比于邻接矩阵形式更为节省空间，但相应的在时间方面检索两结点是否存在连接的情况就需要O(n)时间。通过随机生成函数来构造蛋白质互作网络图及结点集合，并构造每个结点的邻居集就成为了进行模块分解的前序步骤，在给定了蛋白质互作网络图结构及结点的邻居集的情况下，存在模块检索和模块合并的问题。将模块表示为(1(2(3(45))))，由于整体模块是从结点1开始进行检索，故在前三个结点中都无法找到完全相同的邻接集合而进行下一结点的检索，当检索到结点4时由于结点4和结点5进行模块合并，如果循环到此结束，则其模块化分区成为了(123(45))，为避免模块分解由于结点编号而影响其结果，故每一次有结点加入任意模块中都需要与最大模块化分区进行比对，以保证循环到此时前序不存在可合并的模块。

通过循环中每次结点都检查最大模块化分区以保证每次循环进行到下一结点时最大模块化分区中都没有重复的模块，而每次循环都只需要检查当前结点是否需要加入最大模块化分区，而不需要完全检索整个蛋白质互作网络图及所有结点的邻居集合。而且如果此时最大模块化分区中不存在，则将当前结点新建为最大模块化分区中的一个最大模块，而如果需要进行模块合并则将模块合并后更新当前模块的标志邻居集合。

使用这种方式既可以减少循环时间，同时能解决存在相同的模块而无法合并的问题，对上述循环的时间提出进一步压缩时间的实施方法，具体如下：

定义1：假设如果结点i和结点j在同一模块，则删除其中任意一个不需要改变另一个的邻居集合，即删除模块内任意结点后对蛋白质互作网络整体图不产生影响。

由模块分解的定义出发，i和j处于同一模块，则两者在图中具备完全相同的相邻情况，则对于其他结点来说，删除该模块中的任意一个结点对蛋白质互作网络整体图不造成影响。

由于两个结点在同一模块中，那么对于其他结点则完全不关心模块内部的连接情况，只需要保证其他结点与模块的连接不被改动则可保证蛋白质互作网络整体图的完整性。

引理1：假设是两结点可进行模块分解的，则两结点在蛋白质互作网络图中具有完全相同的邻居连接集合，当且仅当以下条件成立：两结点的所有邻居结点一一对应。

通过定义1和引理1同时成立可得出两结点的模块分解，则不存在两结点间因其他结点间约简而产生的邻居结点数差异。通过先验证引理1成立再进行下一步判断，即通过所有结点的度及循环中删除模块中重复的结点来进行剪枝操作。故在每次循环中可预先判断两结点的度是否相同，如不同则可直接跳过。

模块分解在实际操作中可分为判定与更新两个部分，这是由于如果判定两结点为同一模块无关两结点是否直接连接，即有如下定义。

定义2如果两个结点可划分至同一最大模块化分区中，则任意结点加入已有最大模块化分区中的操作均能更新及合并最大模块化分区，与结点内部关系无关。

由定义1可知，对于给定模块外的结点，其模块内的结点如何连接与模块外的结点无关，则模块内部连接情况及操作无关外部模块及结点。

故由定义2可以将整体流程做进一步优化，即在每次循环中通过分离判定及更新两部分优化时间，当不需要加入现有最大模块化分区，则在最大模块化分区中将当前结点设为新的最大模块，当需要加入现有最大模块化分区，则更新合并所有最大模块化分区。通过这种方式能进一步明确循环体中操作的流程及步骤，简化其中判定条件边界。

模块分解的原始数据通过图的邻接表形式给出，因此不能直接读取图中结点的数量及边的数量。首先需要对图进行创建，紧接着需要将所有结点存入结点集作为循环体的控制变量，当所有结点遍历结束后整体算法结束。与此同时还需要构建各结点连接自身的边集，并计算结点自身的度，以此作为模块分解的判定条件。

为了实现该算法并使得结果更为美观，在实现过程中通过声明额外的列表保存当前模块分解树的结点名，而实际的模块分解判断及构建树都通过部分内置函数及封装相关函数来实现。

模块分解首先通过两个结点i和j的度进行预筛选，其中结点i是全体结点集合并通过字典序排序后的结果，结点j为最大模块化分区的遍历变量，用以检查当前最大模块化分区是否存在与结点i相同的模块，如果有则将i加入模块分解树及更新当前最大模块化分区，接着删除当前结点i并更新图的边集，如果最大模块化分区中不存在则将结点i设置为最新的最大模块化分区。

引理2假设结点i和j在同一模块，若i和j的邻居集在不包括自身的情况下完全相同则模块为平行模块，若i和j的邻居集在自身加入各自邻居集后与对方完全相同则模块为系列模块。由于模块分解的原始定义限制两结点的邻居集完全相同则为同一模块。若两结点相互连接则为系列模块，若两结点无相互连接则为平行模块。则对于系列模块中的结点i和j，其邻居集除包括对方结点其余部分完全相同，此时将自身加入邻居集合，则两结点的邻居集就只需要判断其余部分是否完全相同。即本身i的邻居集有j，i的邻居集有i，如果判断则两者不具备完全相同的邻居集合，但是当自身加入其邻居集后两结点的邻居集都为i和j，通过了上述方法避免模块误判。

模块分解具体判断即是通过以上定义来判断两结点是否为模块，而模块分解树的可视化及相关实现则是通过内置函数等来构造。

模块分解的时间复杂度为数据规模n的多项式时间，由于其需要整体遍历图中每个结点，而对于每个结点需要检查最大模块化分区，故整体时间复杂度为O(nm)，此时n为整体数据规模，m为判断时最大模块化分区的平均长度。对于整体模块化分解最差的情况为前序n-2个结点全部不能划分成模块，则最大模块化分区的长度为n-2，当倒数第二个和倒数第一个结点进行模块分解引起所有的最大模块化分区中的分区向前合并，故此时最差情况下的时间复杂度为

其实际数值小于O(n²)。模块分解的规模接近与数据规模n平方的多项式时间以内，得到的实际情况更优。

模块分解技术运用在蛋白质互作网络中，可以快速有效地在网络中查找关键蛋白，对比目前的蛋白质复合物发现方法，采用模块分解的方式，查找关键蛋白处理速度更快、方便快捷而且准确度和敏感度更高。

本发明实施例的基于模块分解的蛋白质功能预测的方法，所述判断是否存在当前结点完全相同的结点集之前还包括以下步骤：将蛋白质互作网络数据中的结点信息输入链表。

参照图4，本发明实施例还提供了基于模块分解的蛋白质功能预测的装置，包括：

输入单元1100，用于将蛋白质互作网络数据输入到系统中；

预处理单元1200，用于对蛋白质互作网络数据进行预处理；

分解单元1300，用于使用模块分解技术对目标蛋白质互作网络数进行分解，得到约简后的蛋白质网络约简图；

计算单元1400，用于将蛋白质网络约简图与蛋白质功能对应的网络数据进行匹配对比，得出蛋白质的功能。

需要说明的是，由于本实施例中的基于模块分解的蛋白质功能预测的装置与上述的电池内阻测量的方法基于相同的发明构思，因此，方法实施例中的相应内容同样适用于本装置实施例，此处不再详述。

参照图5，本发明实施例还提供了基于模块分解的蛋白质功能预测的设备，该电池内阻测量的设备200可以是任意类型的智能终端，例如手机、平板电脑、个人计算机等。

具体地，该电池内阻测量的设备200包括：一个或多个控制处理器201和存储器202，图5中以一个控制处理器201为例。

控制处理器201和存储器202可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器202作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的电池内阻测量的方法对应的程序指令/模块，例如，图4中所示的输入单元1100、预处理单元1200、分解单元1300、计算单元1400。控制处理器201通过运行存储在存储器202中的非暂态软件程序、指令以及模块，从而执行电池内阻测量的装置1000的各种功能应用以及数据处理，即实现上述方法实施例的电池内阻测量的的方法。

存储器202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电池内阻测量的装置1000的使用所创建的数据等。此外，存储器202可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器202可选包括相对于控制处理器201远程设置的存储器，这些远程存储器可以通过网络连接至该电池内阻测量的的设备200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器202中，当被一个或者多个控制处理器201执行时，执行上述方法实施例中的电池内阻测量的的方法，例如，执行以上描述的图1中的方法步骤S10至S40，实现图4中的单元1100-1400的功能。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被图5中的一个控制处理器201执行，可使得上述一个或多个控制处理器201执行上述方法实施例中的电池内阻测量的的方法，例如，执行以上描述的图1中的方法步骤S10至S40，实现图4中的单元1100-1400的功能。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于模块分解的蛋白质功能预测的方法，其特征在于：包括以下步骤：

将蛋白质互作网络数据输入到系统中；

对蛋白质互作网络数据进行预处理；

使用模块分解技术对目标蛋白质互作网络数进行分解，对相邻情况相同的结点进行删除操作，得到约简后的蛋白质网络约简图；

2.根据权利要求1所述的基于模块分解的蛋白质功能预测的方法，其特征在于：所述对蛋白质互作网络数据进行预处理包括：对蛋白质互作网络数据通过邻接矩阵形式进行预处理。

3.根据权利要求1所述的基于模块分解的蛋白质功能预测的方法，其特征在于：所述使用模块分解技术对目标蛋白质互作网络数进行分解，对相邻情况相同的结点进行删除操作，得到约简后的蛋白质网络约简图包括：

判断是否存在当前结点完全相同的结点集；

若否，则新建结点集；

若是，则将当前结点加入相同的结点集；

判断链表是否到达尾部结点；

若是，则结束运算。

4.根据权利要求3所述的基于模块分解的蛋白质功能预测的方法，其特征在于：所述判断是否存在当前结点完全相同的结点集之前还包括以下步骤：将蛋白质互作网络数据中的结点信息输入链表。

5.基于模块分解的蛋白质功能预测的装置，其特征在于：包括：

输入单元，用于将蛋白质互作网络数据输入到系统中；

预处理单元，用于对蛋白质互作网络数据进行预处理；

分解单元，用于使用模块分解技术对目标蛋白质互作网络数进行分解，对相邻情况相同的结点进行删除操作，得到约简后的蛋白质网络约简图；

6.基于模块分解的蛋白质功能预测的设备，其特征在于：包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1-4任一项所述的基于模块分解的蛋白质功能预测的方法。

7.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-4任一项所述的基于模块分解的蛋白质功能预测的方法。

8.一种装置，所述装置包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使计算机执行如权利要求1-4任一项所述的基于模块分解的蛋白质功能预测的方法。