CN106874506A

CN106874506A - 基于统计模型的社区挖掘方法及系统

Info

Publication number: CN106874506A
Application number: CN201710110798.9A
Authority: CN
Inventors: 赵学华; 杨博; 陈慧灵; 刘学艳
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2017-06-20

Abstract

本发明适用于网络技术领域，提供了一种基于统计模型的社区挖掘方法及装置，所述方法包括：读取符号网络N的邻接矩阵A，设置社区数K的变化范围为[K_min，K_max]，并初始化社区数K＝K_min，其中，所述符号网络N的节点总数为n，K_min和K_max为n范围内的整数；初始化每一个社区数K对应的统计模型NM_K，将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K；比较所有统计模型NM_K的选择标准H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim；根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n。本发明实现了基于统计模型对符号网络的社区挖掘，有效地提高了对符号网络进行社区挖掘的准确度。

Description

基于统计模型的社区挖掘方法及系统

技术领域

本发明属于网络技术领域，尤其涉及一种基于统计模型的社区挖掘方法及系统。

背景技术

与仅能表示个体间是否存在关系的无符号网络相比，符号网络能够将单一的存在关系扩展为正、负关系。比如，社交网络中的正链接表示友好、喜欢、信任等关系，负链接表示敌对、不喜欢、不信任等关系；政治网络中的正链接表示政治同盟关系、负链接表示政治敌对关系等。这些增加的符号信息有助于更深入地了解网络背后隐含的规律。社区作为复杂网络中普遍存在的一类重要结构模式，对于理解网络/系统的功能及发展演化具有重要的意义。

对于社区发现问题，现有技术基于不同的原理提出了大量的社区发现算法。比如基于介数的算法、基于信息论的算法、基于模块度的算法、基于模型的算法等。然而，这些社区发现算法都是基于无符号网络提出的，更多地关注链接的密度而忽视了链接的符号，难以直接应用于带有正、负链接的符号网络。此外，现有技术还提出了专门用于符号网络的社区发现算法。比如：基于frustration的算法，通过最小化符号网络社区内负链接与社区间正链接的数量之和进行社区划分；基于改进模块度(modularity)的算法，对适用于无符号网络的模块度函数进行改进使之可以处理网络链接的符号；基于多目标优化的算法，通过同时优化多个目标函数实现对符号网络的社区发现，等等。然而，上述符号网络社区发现算法都归属于优化算法或启发算法，其检测精度依赖于所设计的优化目标函数或启发策略的质量，社区挖掘的准确度不高。

发明内容

鉴于此，本发明实施例提供了一种基于统计模型的社区挖掘方法及系统，以提高对符号网络进行社区挖掘的准确度。

第一方面，提供了一种基于统计模型的社区挖掘方法，所述社区挖掘方法包括：

读取符号网络N的邻接矩阵A，设置社区数K的变化范围为[K_min，K_max]，并初始化社区数K＝K_min，其中，所述符号网络N的节点总数为n，K_min和K_max为n范围内的整数；

初始化每一个社区数K对应的统计模型NM_K，将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K；

比较所有统计模型NM_K的选择标准H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim；

根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n。

进一步地，所述初始化每一个社区数K对应的统计模型NM_K包括：

对于变化范围[K_min，K_max]内的每一个社区数K，构建与所述社区数K对应的统计模型NM_K＝(n，K，Z，π，Ω)；

初始化统计模型NM_K中的第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ以及指示变量Z对应的近似分布参数τ；

其中，第一参数π为K×K×3维向量，表示社区间连接概率，所述第一参数π中的每一个元素π_lq包括三个分量，且满足：0<l≤K，0<q≤K,分量π_lq1表示第l个社区与第q个社区间节点存在一条正链接的概率，分量π_lq2表示第l个社区与第q个社区间节点没有链接的概率，分量π_lq3表示第l个社区与第q个社区间节点存在一条负链接的概率；

第二参数Ω为K维向量，表示节点属于社区的概率，所述第二参数Ω中的每一个元素ω_k满足：0＜k≤K；

所述指示变量Z为n×K维向量，用于指示每个节点i所属的社区；该指示变量Z的每一行中只有一个元素z_ik为1，其余元素z_ik为0，0<i≤n，0<k≤K。

进一步地，所述将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K包括：

A：将当前的统计模型NM_K与所述符号网络N拟合，按照预设计算公式更新所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ；

B：根据更新后的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ计算所述统计模型NM_K的选择标准H_K，并计算所述选择标准H_K与上一次迭代计算得到的选择标准H_K之间的差值；

C：比较所述差值与预设阈值，若所述差值小于所述预设阈值，则以本次更新的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ作为所述统计模型NM_K的最优参数；否则，返回步骤A进行下一次迭代计算。

进一步地，所述选择标准H_K的计算公式为：

其中，τ_ik表示指示变量Z中元素z_ik对应的近似分布参数，η_lqh表示第一参数π中元素π_lqh对应的近似分布参数，表示第一参数π中元素π_lqh对应的先验分布参数，ρ表示第二参数Ω中元素ω_k对应的近似分布参数，表示第二参数Ω中元素ω_k对应的先验分布参数。

进一步地，所述根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n包括：

根据所述最优模型NM_optim的指示变量Z的近似分布参数τ，确定所述符号网络N中每个节点i所属的社区，0<i≤n；

其中，所述节点i属于近似分布参数τ_ik最大的社区。

第二方面，提供了一种基于统计模型的社区挖掘系统，所述社区挖掘系统包括：

初始化模块，用于读取符号网络N的邻接矩阵A，设置社区数K的变化范围为[K_min，K_max]，并初始化社区数K＝K_min，其中，所述符号网络N的节点总数为n，K_min和K_max为n范围内的整数；

拟合模块，用于初始化每一个社区数K对应的统计模型NM_K，将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K；

比较模块，用于比较所有统计模型NM_K的选择标准H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim；

社区确定模块，用于根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n。

进一步地，所述拟合模块包括：

构建单元，用于对于变化范围[K_min，K_max]内的每一个社区数K，构建与所述社区数K对应的统计模型NM_K＝(n，K，Z，π，Ω)；

初始化单元，用于初始化统计模型NM_K中的第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ以及指示变量Z对应的近似分布参数τ；

第二参数Ω为K维向量，表示节点属于社区的概率，所述第二参数Ω中的每一个元素ω_k满足：0<k≤K；

进一步地，所述拟合模块还包括：

更新单元，用于将当前的统计模型NM_K与所述符号网络N拟合，按照预设计算公式更新所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ；

计算单元，用于根据更新后的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ计算所述统计模型NM_K的选择标准H_K，并计算所述选择标准H_K与上一次迭代计算得到的选择标准H_K之间的差值；

比较单元，用于比较所述差值与预设阈值，若所述差值小于所述预设阈值，则以本次更新的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ作为所述统计模型NM_K的最优参数；否则，返回更新单元进行下一次迭代计算。

进一步地，所述选择标准H_K的计算公式为：

进一步地，所述社区确定模块具体用于：

其中，所述节点i属于近似分布参数τ_ik最大的社区。

与现有技术相比，本发明实施例通过根据社区数K初始化对应的统计模型NM_K，然后将所述统计网络NM_K与符号网络拟合，并计算出所述统计模型NM_K的选择标准H_K；比较所有统计模型NM_K的模型选择H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim，以确定社区的数目；最后根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，从而实现了基于统计模型的符号网络社区挖掘，可实现对零先验知识的符号网络的社区挖掘，且有利于提高对符号网络进行社区挖掘的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于统计模型的社区挖掘方法的实现流程图；

图2是本发明实施例提供的初始化每一个社区数K对应的统计模型NM_K的具体实现流程；

图3是本发明实施例提供的将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K具体实现流程的实现流程图；

图4是本发明实施例提供的基于统计模型的社区挖掘系统的组成结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过根据社区数K初始化对应的统计模型NM_K，然后将所述统计网络NM_K与符号网络拟合，并计算出所述统计模型NM_K的选择标准H_K；比较所有统计模型NM_K的模型选择H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim，以确定社区的数目；最后根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，从而实现了基于统计模型的符号网络社区挖掘，可实现对零先验知识的符号网络的社区挖掘，且有利于提高对符号网络进行社区挖掘的准确度。本发明实施例还提供了相应的社区挖掘系统，以下分别进行详细的说明。

图1示出了本发明实施例提供的基于统计模型的社区挖掘方法的实现流程。

在本发明实施例中，所述基于统计模型的社区挖掘方法应用于计算机、服务器等设备。

参阅图1，所述基于统计模型的社区挖掘方法包括：

在步骤S101中，读取符号网络N的邻接矩阵A，设置社区数K的变化范围为[K_min，K_max]，并初始化社区数K＝K_min。

在这里，为了方便对复杂的符号网络N进行处理，本发明实施例通过读取符号网络N的邻接矩阵A来表示所述符号网络N中的节点以及节点之间的连接关系。其中，所述符号网络N的节点总数为n，所述邻接矩阵A中的元素a_ij表示节点i到节点j之间的边，所述1≤i≤n，1≤j≤n。当a_ij＝1时，表示节点i到节点j之间存在一条正边；当a_ij＝-1时，表示节点i到节点j之间存在一条负边；当a_ij＝0时，表示节点i到节点j之间不存在边。

所述社区数K表示符号网络N所划分的社区数量，K为正整数。本发明实施例预先设置了社区数K的取值范围为[K_min，K_max]，并且初始化社区数K为K_min，以从[K_min，K_max]中选取最优的社区数量。在这里，所述K_min和K_max均为n范围内的整数，K取[K_min，K_max]范围内的整数。

在步骤S102中，初始化每一个社区数K对应的统计模型NM_K，将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K。

本发明实施例根据给定的社区数K初始化对应的统计模型NM_K，所述统计模型NM_K通过符号网络N的节点总数n、社区数K、指示变量Z、第一参数π和第二参数Ω组合表示。然后将所述统计模型NM_K与符号网络N拟合，从而学习出符号网络N的社区结构。

作为本发明的一个优选示例，图2示出了本发明实施例提供的步骤S102中初始化每一个社区数K对应的统计模型NM_K的具体实现流程。

参阅图2，所述初始化每一个社区数K对应的统计模型NM_K包括：

在步骤S201中，对于变化范围[K_min，K_max]内的每一个社区数K，构建与所述社区数K对应的统计模型NM_K＝(n，K，Z，π，Ω)。

在这里，第一参数π为K×K×3维向量，表示社区间连接概率。所述第一参数π中的每一个元素π_lq包括三个分量，分别为π_lq1、π_lq2、π_lq3，且满足：0<l≤K，0<q≤K。其中，分量π_lq1表示第l个社区与第q个社区间节点存在一条正链接的概率，分量π_lq2表示第l个社区与第q个社区间节点没有链接的概率，分量π_lq3表示第l个社区与第q个社区间节点存在一条负链接的概率；分量π_lqh具有的先验分布p(π_lqh)为：Γ(x)表示gamma函数，为与元素π_lqh对应的先验分布参数。

所述第二参数Ω为K维向量，表示节点属于社区的概率，所述第二参数Ω中的每一个元素ω_k满足：0<k≤K；且所述第二参数Ω具有的先验分布p(Ω)为：为与元素ω_k对应的先验分布参数。

所述指示变量Z为n×K维向量，用于指示每个节点i所属的社区；该指示变量Z的每一行中只有一个元素z_ik为1，其余元素z_ik均为0，0<i≤n，0<k≤K，其中，z_ik＝1表示节点i属于社区k。

在这里，本发明实施例预先令(Z，π，Ω)的后验近似分布为q(Z,π,Ω)，且

所述q(z_i)表示指示变量Z的后验近似分布，且有：

其中，τ_ik表示指示变量Z对应的近似分布参数τ中的元素，为与元素z_ik对应的近似分布参数。τ为n×K维向量。

所述q(π)表示第一参数π的后验近似分布，且有：

其中，η_lqh表示所述第一参数π对应的近似分布参数η中的元素，为与元素π_lqh对应的近似分布参数。η为K×K×3维向量。

所述q(Ω)表示第二参数Ω的后验近似分布，且有：

其中，ρ_k表示所述第二参数Ω对应的近似分布参数ρ中的元素，为与元素ω_k对应的近似分布参数。ρ为K维向量。

因此，所述初始化每一个社区数K对应的统计模型NM_K还包括：

在步骤S202中，初始化统计模型NM_K中的第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ以及指示变量Z对应的近似分布参数τ。

在完成初始化社区数K对应的统计模型NM_K之后，则将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K。

可选地，图3示出了本发明实施例提供的步骤S102中将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K的具体实现流程，包括：

在步骤S301中，将当前的统计模型NM_K与所述符号网络N拟合，按照预设计算公式更新所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ。

具体地，本发明实施例先根据上一次迭代计算得到的指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ，对所述指示变量Z对应的近似分布参数τ进行更新。若为首次迭代计算，则以初始化得到的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ进行更新。在完成对所述指示变量Z对应的近似分布参数τ更新后，则基于所述更新后的近似分布参数τ对所述第一参数π对应的近似分布参数η和所述第二参数Ω对应的近似分布参数ρ进行更新。

所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ对应的计算公式为基于变分贝叶斯推理和上述公式(1)、(2)、(3)、(4)推理得到的。其中，所述指示变量Z对应的近似分布参数τ的计算公式为：

在这里，所述ψ(·)表示Digamma函数，所述δ(a_ij,2-h)表示如果a_ij＝2-h时函数值为1，否则为0，h＝{1,2,3}。

所述第一参数π对应的近似分布参数η的计算公式可以为：

所述第二参数Ω对应的近似分布参数ρ的计算公式可以为：

在步骤S302中，根据更新后的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ计算所述统计模型NM_K的选择标准H_K。

在本发明实施例中，所述选择标准H_K的计算公式根据模型证据结合模型推理得到，为：

在步骤S303中，计算所述选择标准H_K与上一次迭代计算得到的选择标准H_K之间的差值。

在这里，所述上一次迭代计算得到的选择标准H_K为上一次迭代计算中根据所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ，按照上述选择标准H_K的计算公式得到的选择标准H_K。

在步骤S304中，比较所述差值与预设阈值。

若所述差值小于所述预设阈值，执行步骤S305；若所述差值大于或等于所述预设阈值，则执行步骤S306。

在步骤S305中，以本次更新的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ作为所述统计模型NM_K的最优参数。

在步骤S306中，返回步骤S301进行下一次迭代计算。以本次迭代计算得到的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ作为下一次迭代计算的初始值。

在这里，本发明实施通过设置比较阈值，若本次计算得到的选择标准H_K与上一次迭代计算得到的选择标准H_K之间的差值小于所述预设阈值，则本次迭代计算得到的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ为所述统计模型NM_K的最优参数，并输出所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ，从而有效地识别出了社区数为K时符号网络中的社区结构。若本次迭代计算得到的选择标准H_K与上一次迭代计算得到的选择标准H_K之间的差值大于或等于所述预设阈值，则以本次迭代计算得到的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ作为初始值继续进行下一次迭代计算，直至获得差别最小的选择标准H_K。

对[K_min，K_max]内的每一个社区数K对应的统计模型NM_K，均按照上述步骤S301至步骤S306进行迭代计算，得到每一个社区数K对应的统计模型NM_K的最优参数，以及基于所述最优参数得到的模型选择H_K。

在步骤S103中，比较所有统计模型NM_K的选择标准H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim。

在获取到每一个社区数K对应的统计模型NM_K及其对应的选择标准H_K后，比较所有统计模型NM_K的选择标准H_K，从中选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim。本发明实施例中统计模型的选择标准是基于模型证据结合模型推理得到的，可对零先验知识的符号网络进行自动的社区挖掘，有效地提高了对符号网络进行社区挖掘的准确度。

在步骤S104中，根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n。

在这里，所述指示变量Z为n×K维向量。对于每一个节点i，0<i≤n，本发明实施例基于所述最优模型NM_optim的指示变量Z的近似分布参数τ，确定所述符号网络N中的节点i所属的社区，具体为即节点i属于近似分布参数τ_ik最大的社区，从而完成对符号网络N的社区挖掘，确定所述符号网络N的社区结构。

综上所述，本发明实施例通过提出一种统计模型，用于建模包含社区结构的符号网络，通过对社区内和社区间构建不同的分布表示符号网络中的边分布，有效地解决了现有模型无法处理符号网络中具有不同链接密度的社区问题；且通过变分推理出统计模型中各参数的近似分布参数，基于所述近似分布参数能够有效地识别符号网络中的社区；同时，结合模型，基于证据推导出了一个有效的模型选择标准，可实现对零先验知识的符号网络进行自动的社区挖掘。

图4示出了本发明实施例提供的基于统计模型的社区挖掘系统的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。

在本发明实施例中，所述社区挖掘系统用于实现上述图1至图3实施例中所述的基于统计模型的社区挖掘方法，可以是内置终端内的软件单元、硬件单元或者软硬件结合的单元。所述终端包括计算机、服务器等。

参阅图4，所述社区挖掘系统包括：

初始化模块41，用于读取符号网络N的邻接矩阵A，设置社区数K的变化范围为[K_min，K_max]，并初始化社区数K＝K_min，其中，所述符号网络N的节点总数为n，K_min和K_max为n范围内的整数；

拟合模块42，用于初始化每一个社区数K对应的统计模型NM_K，将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K；

比较模块43，用于比较所有统计模型NM_K的选择标准H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim；

社区确定模块44，用于根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n。

在这里，为了方便对复杂的符号网络N进行处理，本发明实施例通过读取符号网络N的邻接矩阵A来表示所述符号网络N中的节点以及节点之间的连接关系。然后根据给定的社区数K初始化对应的统计模型NM_K，所述统计模型NM_K采用多项式分布表示符号网络中的边分布。通过将所述统计模型NM_K与符号网络N拟合，从而可以学习出符号网络N的社区结构。

进一步地，所述拟合模块42包括：

构建单元421，用于对于变化范围[K_min，K_max]内的每一个社区数K，构建与所述社区数K对应的统计模型NM_K＝(n，K，Z，π，Ω)；

初始化单元422，用于初始化统计模型NM_K中的第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ以及指示变量Z对应的近似分布参数τ。

所述q(z_i)表示指示变量Z的后验近似分布，且有：

所述q(π)表示第一参数π的后验近似分布，且有：

所述q(Ω)表示第二参数Ω的后验近似分布，且有：

所述拟合模块42还包括：

更新单元423，用于将当前的统计模型NM_K与所述符号网络N拟合，按照预设计算公式更新所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ。

具体地，所述更新单元423先根据上一次迭代计算得到的指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ，对所述指示变量Z对应的近似分布参数τ进行更新。若为首次迭代计算，则以初始化得到的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ进行更新。在完成对所述指示变量Z对应的近似分布参数τ更新后，则基于所述更新后的近似分布参数τ对所述第一参数π对应的近似分布参数η和所述第二参数Ω对应的近似分布参数ρ进行更新。

在这里，所述ψ(·)表示Digamma函数，所述δ(a_ij,2-h)表示如果a_ij＝2-h时函数值为1，否则为0。

所述第一参数π对应的近似分布参数η的计算公式可以为：

所述第二参数Ω对应的近似分布参数ρ的计算公式可以为：

计算单元424，用于根据更新后的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ计算所述统计模型NM_K的选择标准H_K，并计算所述选择标准H_K与上一次迭代计算得到的选择标准H_K之间的差值。

比较单元425，用于比较所述差值与预设阈值，若所述差值小于所述预设阈值，则以本次更新的所述指示变量Z对应的近似分布参数τ、第一参数π对应的近似分布参数η、第二参数Ω对应的近似分布参数ρ作为所述统计模型NM_K的最优参数；否则，返回更新单元423进行下一次迭代计算。

对[K_min，K_max]内的每一个社区数K对应的统计模型NM_K，均通过上述更新单元423、计算单元424、比较单元425进行迭代计算，得到所述社区数K对应的统计模型NM_K的最优参数，以及基于所述最优参数得到的模型选择H_K。

在获取到每一个社区数K对应的统计模型NM_K及其对应的选择标准H_K后，通过比较模块43比较所有统计模型NM_K的选择标准H_K，从中选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim。本发明实施例中统计模型的选择标准是基于模型证据结合模型推理得到的，可对零先验知识的符号网络进行自动的社区挖掘，有效地提高了对符号网络进行社区挖掘的准确度。

进一步地，所述社区确定模块44具体用于：

其中，所述节点i属于具有最大概率的社区。

需要说明的是，本发明实施例中的系统可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实例中的相关描述，此处不再赘述。

综上所述，本发明实施例通过根据社区数K初始化对应的统计模型NM_K，然后将所述统计网络NM_K与符号网络拟合，并计算出所述统计模型NM_K的选择标准H_K；比较所有统计模型NM_K的模型选择H_K，选取选择标准H_K最大的统计模型NM_K作为最优模型NM_optim，以确定社区的数目；最后根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，从而实现了基于统计模型的符号网络社区挖掘，可实现对零先验知识的符号网络的社区挖掘，且有利于提高对符号网络进行社区挖掘的准确度。

本发明实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储可由一个或多个处理器执行的指令以执行操作，所述操作包括：

可选地，所述初始化每一个社区数K对应的统计模型NM_K包括：

可选地，所述将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K包括：

可选地，所述选择标准H_K的计算公式为：

可选地，所述根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n包括：

其中，所述节点i属于近似分布参数τ_ik最大的社区。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的基于方法及系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块、单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元、模块单独物理存在，也可以两个或两个以上单元、模块集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于统计模型的社区挖掘方法，其特征在于，所述社区挖掘方法包括：

2.如权利要求1所述的基于统计模型的社区挖掘方法，其特征在于，所述初始化每一个社区数K对应的统计模型NM_K包括：

3.如权利要求2所述的基于统计模型的社区挖掘方法，其特征在于，所述将所述统计模型NM_K与所述符号网络N拟合，并计算所述统计模型NM_K的选择标准H_K包括：

4.如权利要求3所述的基于统计模型的社区挖掘方法，其特征在于，所述选择标准H_K的计算公式为：

H_{K} = l o g {\frac{Γ (Σ_{k = 1}^{K} ρ_{k}^{0}) Π_{k = 1}^{K} Γ (ρ_{k})}{Γ (Σ_{k = 1}^{K} ρ_{k}) Π_{k = 1}^{K} Γ (ρ_{k}^{0})}} + \underset{l \leq q}{Σ} l o g {\frac{Γ (\underset{h}{Σ} η_{l q h}^{0}) \underset{h}{Π} Γ (η_{l q h})}{Γ (\underset{h}{Σ} η_{l q h}) \underset{h}{Π} Γ (η_{l q h}^{0})}} - Σ_{i = 1}^{n} Σ_{k = 1}^{K} τ_{i k} {logτ}_{i k};

5.如权利要求1至4任一项所述的基于统计模型的社区挖掘方法，其特征在于，所述根据所述最优模型NM_optim确定所述符号网络N中每个节点i所属的社区，0<i≤n包括：

其中，所述节点i属于近似分布参数τ_ik最大的社区。

6.一种基于统计模型的社区挖掘系统，其特征在于，所述社区挖掘系统包括：

7.如权利要求6所述的基于统计模型的社区挖掘系统，其特征在于，所述拟合模块包括：

8.如权利要求7所述的基于统计模型的社区挖掘系统，其特征在于，所述拟合模块还包括：

9.如权利要求8所述的基于统计模型的社区挖掘系统，其特征在于，所述选择标准H_K的计算公式为：

H_{K} = l o g {\frac{Γ (Σ_{k = 1}^{K} ρ_{k}^{0}) Π_{k = 1}^{K} Γ (ρ_{k})}{Γ (Σ_{k = 1}^{K} ρ_{k}) Π_{k = 1}^{K} Γ (ρ_{k}^{0})}} + \underset{l \leq q}{Σ} l o g {\frac{Γ (\underset{h}{Σ} η_{l q h}^{0}) \underset{h}{Π} Γ (η_{l q h})}{Γ (\underset{h}{Σ} η_{l q h}) \underset{h}{Π} Γ (η_{l q h}^{0})}} - Σ_{i = 1}^{n} Σ_{k = 1}^{K} τ_{i k} {logτ}_{i k};

10.如权利要求6至9任一项所述的基于统计模型的社区挖掘系统，其特征在于，所述社区确定模块具体用于：

其中，所述节点i属于近似分布参数τ_ik最大的社区。