CN103034687A

CN103034687A - 一种基于2-类异质网络的关联模块识别方法

Info

Publication number: CN103034687A
Application number: CN2012104974899A
Authority: CN
Inventors: 卢朋; 宋江龙; 高一波; 陈琳; 刘西; 代文; 陈迪
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2013-04-10
Anticipated expiration: 2032-11-29
Also published as: CN103034687B

Abstract

本发明公开了一种基于2-类异质网络的关联模块识别方法。该方法包括如下步骤：S1、根据两个类中的个体信息以及两个类中的个体之间的相互作用关系，构建2-类异质网络；S2、根据所述2-类异质网络的拓扑结构，构建节点拓扑向量；S3、采用基于边策略的层次聚类方法，利用特定评价函数将所述2-类异质网络进行划分，使网络划分为多个模块；S4、从最优网络划分中剔除无效的关联模块。本发明综合考虑了真实的和潜在的网络交互节点与交互关系，能更有效地挖掘包含两类个体网络的核心交互模式，挖掘的结果准确可靠。

Description

一种基于2-类异质网络的关联模块识别方法

技术领域

本发明属于计算机数据处理领域，具体涉及复杂网络理论在数据挖掘上的应用和拓展，特别是其于2-类异质网络中识别主要关联模块的方法。

背景技术

随着大数据时代的到来，大量的非结构化数据充斥着各个研究领域。对这类数据进行信息提取或知识学习，首要面临的问题是如何建立描述数据结构的模型。其中，一种特殊的图——网络，可以在一定程度上表示大量的、具有相互关系的数据。在网络模型上发展起来的复杂网络理论被应用于多个领域，解决各类问题。复杂网络的提出和发展对大数据时代下的知识获取具有重要的作用。

在实际应用问题中，经常被涉及的一类问题是对两类个体间交互关系的研究，如顾客-商品关系、化合物-基因关系、乘客所在地-往地关系等。当前解决这类问题主要有两类方法，均是基于二部图模型的。第一类是将二部图投影到某一类空间，然后在投影网络上进行拓扑分析或聚类分析，用来挖掘关键节点或核心模块。第二类是利用二部图的拓扑结构进行动态规划，挖掘关键交互节点对并预测新的交互关系。由于二部图模型的局限性和数据的不完整性，网络中不包含潜在的、具有交互作用的节点和其它的关联信息。因此，这两类方法对两类个体之间核心交互关系的挖掘和新的交互关系预测均存在一定的偏差。

针对这种情况，需要提出新的数据网络模型和对应的数据挖掘技术，以用来发现数据网络中决定系统行为的主要交互模块。

发明内容

(一)要解决的技术问题

本发明所要解决的技术问题是克服由现有的二部图模型的局限性和数据不完整性导致的对两类个体之间核心交互关系的挖掘和新的交互关系预测均存在的偏差。

(二)技术方案

为解决上述技术问题，本发明是一种基于2-类异质网络的关联模块识别方法，所述2-类异质网络是指这样一种网络：由节点和连接节点的边构成，节点代表自然事物的个体，边代表节点之间的关联关系，节点具有两种类别，分别代表性质不同的两类自然事物，所述模块是指在网络中具有相同属性或表现出相似性质的一组节点集合；关联模块是指包含两种不同类型节点的模块，本发明的方法包括如下步骤：

S1、根据两个类中的个体信息以及两个类中的个体之间的相互作用关系，构建2-类异质网络；

S2、根据所述2-类异质网络的拓扑结构，构建节点拓扑向量；

S3、采用基于边策略的层次聚类方法，利用特定评价函数将所述2-类异质网络进行划分，使网络划分为多个模块；

S4、从最优网络划分中剔除无效的关联模块。

根据本发发明的上体实施方式，所述步骤S3包括：

S31、将所述2-类异质网络中的每条边分配到不同的模块；

S32、计算所有相邻模块之间的相似度；

S33、寻找相邻模块相似度的最大值，将所有对应最大值的相邻模块合并，计算当前网络划分的评价函数值；

S34、重复步骤S32、S33，直到只有一个模块为止；

S35、选择对应评价函数的值最大的网络划分作为最终的识别结果。

(三)有益效果

本发明的2-类异质网络是比较常见的网络模型，在多个领域的许多问题研究中都会涉及，因此应用范围广泛。

本发明综合考虑了真实的和潜在的网络交互节点与交互关系，能更有效地挖掘包含两类个体网络的核心交互模式，挖掘的结果准确可靠。

本发明的方法的流程中有许多可以自定义的函数形式和指标，用户可以根据实际情况进行修改，因此可拓展空间较大。

附图说明

图1是本发明的2-类异质网络在三个不同子空间的拓扑结构示例图；

图2是本发明的2-类异质网络的相邻边和相邻模块的示例图；

图3是本发明的方法的流程图；

图4是本发明的网络层次聚类算法流程图；

图5是本发明的实施例中的网络结构图；

图6是本发明的实施例中主要关联模块揭示的通路图。

具体实施方式

本发明提出的方法一种是基于2-类异质网络模型的方法，以用于分析现实社会中有关联的两类自然事物之间的起主导作用的关联关系，以便于人们从整体上把握和研究这两类自然事物之间的关联关系。

为了更好地表述和便于理解本发明，我们首先考虑这样一个问题：如果甲顾客与乙顾客有相似的购物习惯并且乙顾客是某种商品的忠实消费者，那么，甲顾客极有可能也是这种商品的消费者或者甲顾客就是该商品的潜在消费者。这个问题可以看作是一个2-类问题，所谓2-类是指不同性质的两种自然事物，或者说是异质的自然事物，在此，2-类指的就是顾客和商品。进一步分析我们发现：各个顾客之间本身具有一定的关联关系，例如从性别、年龄、职业、经济状况方面表现的相似性；商品之间也具有一定的关联关系，比如基于商品种类、数量、来源、质量、价格等的相似性；此外，顾客和商品之间也具有一定的关联，比如类似的顾客总是选择类似的商品。然而，顾客与商品之间的关联关系比较复杂，什么样的顾客与什么样的商品存在什么样的关联，这种关联中哪些是起主导作用的关联关系，这些问题是许多市场参与者需要经常考虑的问题。

为了解决这类问题，本发明提出了采用2-类异质网络模型并利用计算机自动化手段来分析和识别2-类异质网络中的关联模块。所谓2-类异质网络是指这样一种网络：由节点和连接节点的边构成，节点代表自然事物的个体，边代表节点之间的关联关系；节点具有两种类别，分别代表性质不同的两类自然事物。图1是本发明的2-类异质网络在三个不同子空间的拓扑结构示例图。如图1所示，假设两个类分别为A类和B类，则构建的2-类异质网络如下：网络包括节点和连接节点的边，节点代表是类中的个体，边代表个体之间的关联关系。由于存在两个类，因此节点分为A类中的节点和B类中的节点，边分为三种：连接A类中节点的边、连接B类中节点的边、连接A类中的节点与B类中的节点的边。

更进一步，可以用边的权重表示节点之间的关系的强弱(或置信度的大小)。

本发明的目的是从2-类异质网络中识别关联模块，这些关联模块反应了实际2-类系统的核心交互机制，通常具有显著的现实意义。

图3是本发明的方法的流程图。如图3所示，本方法在实际应用中，主要由以下几个步骤组成。

S1、根据两个类中的个体信息以及两个类中的个体之间的相互作用关系，构建2-类异质网络。

需要说明的是，根据实际情况，如果类的个体信息和两个类中的个体信息之间的相互作用关系不明，则在步骤S1之前需要包括预处理步骤S0，收集两个类中的个体信息以及两个类中的个体之间的相互作用关系。

例如对于前面所述的顾客-商品构成的2-类系统，我们首先要收集顾客的信息，例如性别、年龄、职业、爱好、经济状况等等，也要收集商品的信息，例如种类、产地、生产商、数量、质量、价格等等，同时，我们也要收集每个顾客的消费情况，例如近1个月的消费记录，等等。

在所有上述信息都收集完全之后，就可以进行本发明的方法来分析顾客和商品之间的主导关联关系。

S1’、对所构建的2-类异质网络的边的权重进行归一化。

步骤S1所构建的2-类异质网络中具有三种类型的边，对于边的权重未归一化的网络，为了进行下面的步骤，可用分别采用不同的方式对所述三种类型的边的权重进行归一化，例如使权重分布在(0，1]区间。对于已经归一化边的权重的网络，该步骤可以省略。

S2、根据所述2-类异质网络的拓扑结构，构建节点拓扑向量。

假设2-类异质网络有N个节点{n₁，n₂，...，n_p，n_p+1，...，n_p+q}，且p+q＝N，其中前p个为A类节点，后q个为B类节点，则节点n_i(1≤i≤p+q)的拓扑向量表示为两部分：A空间的投影

和B空间的投影

元素s_ij是根据节点n_i和节点n_j之间的网络距离估计的相似度(1≤j≤p+q)。

S3、采用基于边策略的层次聚类方法，利用特定评价函数将所述2-类异质网络进行划分，使网络划分为多个模块，所述模块是指在网络中具有相同属性或表现出相似性质的一组节点集合。其中关联模块是指包含两种不同类型节点的模块。

图4是本发明的网络层次聚类算法流程图，如图4所示，层次聚类过程由以下几个步骤组成。

S31、将所述2-类异质网络中的每条边分配到不同的模块。

假设网络有m条边，则初始的模块有m个，每个模块只包含网络的一条边。

S32、计算所有相邻模块之间的相似度。

首先，需要定义相邻边和相邻模块：若两条边包含一个共同节点，则这两条边相邻；若一个模块的某条边与另一个模块的某条边相邻，则这两个模块相邻。可见，相邻的模块至少有一个共同的节点，而不一定有公共边。图2是本发明的2-类异质网络的相邻边和相邻模块的示例图。如图2所示，左图表示相邻边，边ab和边bc具有一个共同的节点b，因此边ab与边bc为相邻边；右图表示相邻模块，模块C₁和模块C₂拥有共同节点b₁，模块C₁中包含节点b₁的边与模块C₂中包含b₁的边是相邻边，因此模块C₁和C₂相邻。

其次，需要定义相邻边的相似度和相邻模块的相似度。在此相邻模块之间的相似度可以定义为相邻模块的所有相邻边的相似度的函数。不相邻的模块之间的相似度为零。根据本发明，相邻模块C₁和C₂之间的相似度S(C₁，C₂)可为

S(C₁，C₂)＝f(s(e_ik，e_jk)|e_ik∈C₁，e_jk∈C₂)

其中，e_ik是节点n_i和n_k之间的边；s(e_ik，e_jk)是两条相邻边之间的相似度。采用单连接方式时，f为最大值函数；全连接方式时，f为最小值函数；平均连接方式时，f为均值函数。

两条相邻边的相似度需要综合考虑A空间和B空间的拓扑向量相似度。边e_ik和e_jk之间的相似度为

s (e_{ik}, e_{jk}) = \frac{w_{ik} + w_{jk}}{2} \cdot g (sim ({\overset{&OverBar;}{v}}_{i | A}, {\overset{&OverBar;}{v}}_{j | A}), sim ({\overset{&OverBar;}{v}}_{i | B}, {\overset{&OverBar;}{v}}_{j | B}))

其中，w_ik是边e_ik的权重；

是节点n_i的拓扑向量在A空间的投影；

是两个向量之间的相似度。函数g是将A空间和B空间的向量相似度进行综合，通常是一个加权平均函数。sim是两个向量之间的相似度，可以采用余弦相似度、Tanimoto系数、Dice系数等方式来计算。对于某一空间的全零向量，即若

和

的所有元素均为零，则它们之间的相似度设定为零。

S33、寻找相邻模块相似度的最大值，将所有对应最大值的相邻模块合并，计算当前网络划分的评价函数值。

评价函数是层次聚类的优化目标，决定聚类过程是否终止。在网络聚类中，评价函数通常是一种可加性质量函数，评价网络划分的好坏。本发明的评价函数要求能够评价边加权的、可重叠的模块的质量，可采用改进的模块度等指标。

S34、重复步骤S32、S33，直到只有一个模块为止。

层次聚类是将初始的类(在此即为初始模块)依次合并，每次合并都对应一个新的聚类结果(即本发明的网络划分)，可以计算出每个聚类结果的得分(即评价函数的值)。

网络划分是一个模块集合，是基于边的层次聚类的结果。评价函数可能有局部极值。前述步骤已计算出所有的聚类结果(网络划分)的得分(评价函数值)，由此，该步骤可以选择一个得分最高的聚类结果，作为最终确定的网络划分并返回。

S4、从最优网络划分中剔除无效的关联模块。

该步即为保留核心的关联模块的步骤。该步骤是对层次聚类的结果进行筛选，从最优的网络划分中去掉无效的关联模块，包括只包含一种类型节点的模块、平凡模块(由单条边组成)等。

由此，本发明得到了关联模块，由此可分析关联模块的实际意义，从而解决实际的问题。通常，最大的关联模块代表这个2-类异质网络的行为模式，包含了A类和B类个体之间最有价值的交互关系。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

实施例：挖掘方剂麻杏石甘-银翘散与H1N1流感的分子网络的核心关联模块。

同样参照图3来描述本发明的该实施例。

S0、预处理

通过咨询中医专家与查询文献，获得麻杏石甘-银翘散配方的12种组成中药材和它们所含有的化学成分。这12种中药材分别是：甘草、炙麻黄、青蒿、银花、黄芩、连翘、薄荷、炒杏仁、牛蒡子、知母、浙贝母、石膏。它们所包含的、录入PubChem数据库的化合物有449个。采用ADMET Predictor对化合物的类药性进行评估，剔除ADMET风险过高的化合物。最终保留了344个类药的化学成分。

通过KEGG Pathway数据库，查找到174个与“Influenza A”通路(hsa05164)相关的基因。另外从文献中获得了616个与H1N1流感相关的异常的人类宿主因子。这些基因或基因产物将作为候选的靶标集合。这174个基因与616个因子有小部分重合。

通过共同的靶标来估计344个化合物中任意两个化合物的药理相似性。两个化合物c₁和c₂之间的药理相似性通过如下公式估计：

S (c_{1}, c_{2}) = \frac{1}{2} (\frac{Σ_{t &Element; T (c_{1}) \cap T (c_{2})} P (c_{1}, t)}{Σ_{t &Element; T (c_{1})} P (c_{1}, t)} + \frac{Σ_{t &Element; T (c_{1}) \cap T (c_{2})} P (c_{2}, t)}{Σ_{t &Element; T (c_{2})} P (c_{2}, t)})

其中，T(c₁)是化合物c₁的已知靶标集合；P(c₁，t)表示化合物c₁和靶标t之间关系的置信度。已知的化合物-靶标关系以及它们的置信度都可以从STITCH数据库中检索获得。

从STITCH数据库中检索344个化合物与“174+616”个基因产物之间已知的和预测的关联关系以及对应关系的置信度。

从STRING数据库中检索在174个基因及与化合物关联的基因产物中的蛋白质交换关系和对应关系的置信度。

S1、构建2-类异质网络

根据收集到得信息，构建2-类异质网络，称这个网络为MY-H1N1宿主系统。如图5所示，这个系统包含154个化合物，438个基因产物，以及519条化合物之间的边，1206条化合物与基因产物之间的边，1848条基因产物之间的边。

由于整个网络中的边的权重已经分布在(0，1]内，不用再对权重归一化，即省略了前述的步骤S1’。

S2、生成节点的拓扑向量

根据MY-H1N1宿主系统的拓扑结构，产生每个节点的拓扑向量。这个向量在化学空间的投影有154维，在基因空间的投影有438维。向量中每个元素按照如下的方式计算：

s_{ij} = \{\begin{matrix} \frac{1}{k_{i}} \underset{i^{'} &Element; Nb (i)}{Σ} w_{{ii}^{'}}, & if n_{i} = n_{j}; \\ w_{ij} \cdot \exp {- \frac{L_{ij}^{2}}{2 σ^{2}}}, & if n_{i} is adjacent to n_{j}; \\ 0, & otherwise . \end{matrix}

其中，k_i是节点n_i的度，即邻居个数；Nb(i)为节点n_i的邻居集合；w_ij是节点n_i和n_j之间边的权重；L_ij是节点n_i与n_j之间的网络距离；σ是宽度参数，控制径向基函数的范围，在实施例中设为1。

S3、基于边的层次聚类

在MY-H1N1宿主系统上进行层次聚类。通过Tanimoto系数来估计两条边之间的相似度，其公式如下：

S (e_{ik}, e_{jk}) = \frac{w_{ik} + w_{jk}}{2} \cdot \frac{Tc ({\overset{&OverBar;}{v}}_{i | C}, {\overset{&OverBar;}{v}}_{j | C}) + Tc ({\overset{&OverBar;}{v}}_{i | G}, {\overset{&OverBar;}{v}}_{j | G})}{2}

其中，Tc(·)是两个向量的Tanimoto系数；

和

分别为节点n_i的拓扑向量在化学空间和基因空间的投影。

模块之间的相似度是按单连接方式计算的，即模块之间相似度为两个模块间相邻边的最大相似度。

用于确定最优划分的评价函数实际上是衡量网络划分的质量，其定义如下：

Q_{P} = \frac{1}{M} \underset{C &Element; P}{Σ} (Q_{C} (α) \cdot \underset{e_{i, j} &Element; C}{Σ} w_{ij})

其中，M是网络尺寸，即所有边的权重之和；P是一个网络划分，即识别模块的集合；C是网络划分中的一个模块；Q_C(α)是模块C的质量。每个模块的质量是通过模块紧致性和模块独立性来衡量的，即

Q_{C} (α) = \frac{1}{\frac{α}{{MD}_{C}} + \frac{1 - α}{{MI}_{C}}}

其中，α∈[0，1]是可调参数，用于平衡模块紧致性MD_C和模块独立性MI_C，在实施例中设定为0.5。模块紧致性的定义如下

{ND}_{C} = \frac{m_{C}}{n_{C} * \frac{n_{C} - 1}{2}}

其中，m_C和n_C分别为模块C中边和节点的个数。模块独立性的定义如下

{MI}_{C} = \frac{\underset{e_{ij} &Element; C}{Σ} w_{ij}}{\underset{e_{ij} &Element; E, n_{i} &Element; C, n_{j} &Element; C}{Σ} w_{ij} + \underset{e_{ij} &Element; E, n_{i} &Element; C, n_{j} &NotElement; C}{Σ} w_{ij}}

其中，E是网络所有边的集合。

S4、筛选关联模块

从最优的网络划分中，剔除无效的关联模块(仅由化合物或基因产物组成)和平凡模块(由单条边组成)，剩余46个关联模块。在这些关联模块中，最大的关联模块远大于其它的模块，被认为是主要的关联模块。通过对主要关联模块进行分析，可以挖掘出潜在的化学药理意义。

通过与MCL、CPM等经典模块识别算法相比，本发明的方法被证明具有优越的性能，对于识别可重叠模块，特别是2-类异质网络中的可重叠关联模块，具有显著的优势。通过对模块识别的结果进行富集分析，结果发现识别出的关联模块具有显著性，且能够反映麻杏石甘-银翘散配方治疗H1N1流感的调控机制。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于2-类异质网络的关联模块识别方法，所述2-类异质网络是指这样一种网络：由节点和连接节点的边构成，节点代表自然事物的个体，边代表节点之间的关联关系，节点具有两种类别，分别代表性质不同的两类自然事物，所述模块是指在网络中具有相同属性或表现出相似性质的一组节点集合；关联模块是指包含两种不同类型节点的模块，其特征在于，本发明的方法包括如下步骤：

S2、根据所述2-类异质网络的拓扑结构，构建节点拓扑向量；

S4、从最优网络划分中剔除无效的关联模块。

2.如权利要求1所述的基于2-类异质网络的关联模块识别方法，其特征在于，在步骤S1之间还包括：

步骤S0、收集两个类中的个体信息以及两个类中的个体之间的相互作用关系。

3.如权利要求1所述的基于2-类异质网络的关联模块识别方法，其特征在于，在步骤S1之后还包括：

步骤S1’、对所构建的2-类异质网络的边的权重进行归一化。

4.如权利要求1所述的基于2-类异质网络的关联模块识别方法，其特征在于，所述步骤S2为：

和B空间的投影

5.如权利要求1所述的基于2-类异质网络的关联模块识别方法，其特征在于，所述步骤S3包括：

S31、将所述2-类异质网络中的每条边分配到不同的模块；

S32、计算所有相邻模块之间的相似度；

S34、重复步骤S32、S33，直到只有一个模块为止；

6.如权利要求5所述的基于2-类异质网络的关联模块识别方法，其特征在于，在步骤S32中，

相邻模块C₁和C₂之间的相似度S(C₁，C₂)可为

S(C₁，C₂)＝f(s(e_ik，e_jk)|e_ik∈C₁，e_jk∈C₂)

两条相邻边e_ik和e_jk之间的相似度为

s (e_{ik}, e_{jk}) = \frac{w_{ik} + w_{jk}}{2} \cdot g (sim ({\overset{&OverBar;}{v}}_{i | A}, {\overset{&OverBar;}{v}}_{j | A}), sim ({\overset{&OverBar;}{v}}_{i | B}, {\overset{&OverBar;}{v}}_{j | B})),

其中，w_ik是边e_ik的权重；

是节点n_i的拓扑向量在A空间的投影；

是两个向量之间的相似度；函数g是一个加权平均函数；sim是两个向量之间的相似度，为余弦相似度、Tanimoto系数或Dice系数。

7.如权利要求5所述的基于2-类异质网络的关联模块识别方法，其特征在于，在步骤S33中，所述评价函数是能够衡量边加权的、可重叠的模块的质量，是一个可加性函数。

8.如权利要求1所述的基于2-类异质网络的关联模块识别方法，其特征在于，在步骤S4中，所述无效的关联模块包括只包含一种类型节点的模块和未合并过的模块。