CN106204299A - 基于符号网络模型的社区挖掘方法及装置 - Google Patents

基于符号网络模型的社区挖掘方法及装置 Download PDF

Info

Publication number
CN106204299A
CN106204299A CN201610573002.9A CN201610573002A CN106204299A CN 106204299 A CN106204299 A CN 106204299A CN 201610573002 A CN201610573002 A CN 201610573002A CN 106204299 A CN106204299 A CN 106204299A
Authority
CN
China
Prior art keywords
community
parameter
snm
symbolic network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610573002.9A
Other languages
English (en)
Inventor
赵学华
陈慧灵
杨博
刘学艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201610573002.9A priority Critical patent/CN106204299A/zh
Publication of CN106204299A publication Critical patent/CN106204299A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于网络技术领域,提供了一种基于符号网络的社区挖掘方法及装置,所述方法包括:读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[Kmin,Kmax],并初始化社区数K=Kmin,其中,所述符号网络N的节点总数为n,Kmin和Kmax为n范围内的整数;针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK;比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim;根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。本发明实现了对符号网络的社区挖掘,且有效地提高了对符号网络进行社区挖掘的准确度。

Description

基于符号网络模型的社区挖掘方法及装置
技术领域
本发明属于网络技术领域,尤其涉及一种基于符号网络模型的社区挖掘方法及装置。
背景技术
与仅能表示个体间是否存在关系的的无符号网络相比,符号网络能够将单一的存在关系扩展为正、负关系。比如,社交网络中的正链接表示友好、喜欢、信任等关系,负链接表示敌对、不喜欢、不信任等关系;政治网络中的正链接表示政治同盟关系、负链接表示政治敌对关系等。这些增加的符号信息有助于更深入地了解网络背后隐含的规律。社区作为复杂网络中普遍存在的一类重要结构模式,对于理解网络/系统的功能及发展演化具有重要的意义。
对于社区发现问题,现有技术基于不同的原理提出了大量的社区发现算法。比如基于介数的算法、基于信息论的算法、基于模块度的算法、基于模型的算法等。然而,这些社区发现算法都是基于无符号网络提出的,更多地关注链接的密度而忽视了链接的符号,难以直接应用于带有正、负链接的符号网络。此外,现有技术还提出了专门用于符号网络的社区发现算法。比如:基于frustration的算法,通过最小化符号网络社区内负链接与社区间正链接的数量之和进行社区划分;基于改进模块度(modularity)的算法,对适用于无符号网络的模块度函数进行改进使之可以处理网络链接的符号;基于多目标优化的算法,通过同时优化多个目标函数实现对符号网络的社区发现,等等。然而,上述符号网络社区发现算法都归属于优化算法或启发算法,其检测精度依赖于所设计的优化目标函数或启发策略的质量,未从符号网络的社区结构的生成机制考虑,社区挖掘的准确度不高。
发明内容
鉴于此,本发明实施例提供了一种基于符号网络模型的社区挖掘方法及装置,以提高对符号网络进行社区挖掘的准确度。
第一方面,提供了一种基于符号网络模型的社区挖掘方法,所述方法包括:
读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[Kmin,Kmax],并初始化社区数K=Kmin,其中,所述符号网络N的节点总数为n,Kmin和Kmax为n范围内的整数;
针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK
比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim
根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。
第二方面,提供了一种基于符号网络模型的社区挖掘装置,所述装置包括:
初始化模块,用于读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[Kmin,Kmax],并初始化社区数K=Kmin,其中,所述符号网络N的节点总数为n,Kmin和Kmax为n范围内的整数;
拟合模块,用于针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK
选取模块,用于比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim
社区确定模块,用于根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。
与现有技术相比,本发明实施例通过构建社区数K对应的符号网络模型SNMK,所述SNMK=(n,K,Z,π,θ),并将所述符号网络模型SNMK与所读取的符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK,以学习出符号网络N的社区结构;然后比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim,以确定社区的数目;最后根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,从而实现了对符号网络的社区挖掘,且有效地提高了对符号网络进行社区挖掘的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于符号网络模型的社区挖掘方法的实现流程图;
图2是本发明实施例提供的基于符号网络模型的社区挖掘方法中步骤S102的具体实现流程;
图3是本发明实施例提供的将符号网络模型SNMK与所述符号网络N拟合的实现流程图;
图4是本发明实施例提供的计算符号网络模型SNMK的成本函数值HK的实现流程图;
图5是本发明实施例提供的基于符号网络模型的社区挖掘装置的组成结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过构建社区数K对应的符号网络模型SNMK,所述SNMK=(n,K,Z,π,θ),并将所述符号网络模型SNMK与所读取的符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK,以学习出符号网络N的社区结构;然后比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim,以确定社区的数目;最后根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,从而实现了对符号网络的社区挖掘,且有效地提高了对符号网络进行社区挖掘的准确度。本发明实施例还提供了相应的装置,以下分别进行详细的说明。
图1示出了本发明实施例提供的基于符号网络模型的社区挖掘方法的实现流程。
在本发明实施例中,所述基于符号网络模型的社区挖掘方法应用于计算机、服务器等设备。
参阅图1,所述基于符号网络模型的社区挖掘方法包括:
在步骤S101中,读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[Kmin,Kmax],并初始化社区数K=Kmin
在这里,本发明实施例通过读取符号网络N的邻接矩阵A来表示所述符号网络N中的节点以及节点之间的连接关系,有利于方便对复杂的符号网络N进行处理。其中,所述符号网络N的节点总数为n,所述邻接矩阵A中的元素aij表示节点i到节点j之间的边。所述1≤i≤n,1≤j≤n。当aij=1时,表示节点i到节点j之间存在一条正边;当aij=-1时,表示节点i到节点j之间存在一条负边;当aij=0时,表示节点i到节点j之间不存在边。
所述社区数K表示符号网络N所划分的社区数量,本发明实施例预先设置了社区数K的取值范围为[Kmin,Kmax],并且初始化社区数K为Kmin,以从[Kmin,Kmax]中选取最优的社区数量。在这里,所述Kmin和Kmax为n范围内的整数,K取[Kmin,Kmax]范围内的整数。
在步骤S102中,针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK
本发明实施例根据给定的社区数K初始化对应的符号网络模型SNMK,所述符号网络模型SNMK采用多项式分布表示符号网络中的边分布,有效地解决了现有模型无法建模符号网络的问题。然后将初始化后的所述符号网络模型SNMK与符号网络N拟合,从而可以学习出符号网络N的社区结构。
作为本发明的一个优选示例,图2示出了本发明实施例提供的基于符号网络模型的社区挖掘方法中步骤S102的具体实现流程。
参阅图2,所述步骤S102包括:
在步骤S201中,对于变化范围[Kmin,Kmax]内的每一个社区数K,采用随机方式初始化指示变量Z、参数π和参数θ,得到对应的符号网络模型SNMK=(n,K,Z,π,θ)。
在步骤S202中,将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的参数π、参数θ以及指示变量Z的后验分布q。
在这里,所述指示变量Z为n×K维向量,用于指示每个节点i所属的社区,每一行向量有且只有一个元素zik为1,其余元素zik为0。
所述指示变量Z的后验分布q为n×K维向量,每一行向量中所有元素qik之和为1,即所述元素qik表示节点i属于社区k的后验概率,即元素zik的后验概率。
所述参数π为K维向量,表示节点属于社区的先验概率,其中,所述参数π中的元素πk满足:
所述参数θ为K×n维向量,表示社区与节点的连接概率。其中,所述参数θ中的每一个元素θki包括三个分量θ+ ki、θ- ki、θ0 ki,且所述θ+ ki表示社区k与节点i之间存在一条正边的概率、所述θ- ki表示社区k与节点i之间存在一条负边的概率、所述θ0 ki表示社区k与节点i之间不存在边的概率。其中,0<k≤K,社区k表示符号网络N划分为K个社区时其中的一个社区。
进一步地,图3示出了上述步骤S202中提供的将符号网络模型SNMK与所述符号网络N拟合的具体实现流程。
参阅图3,所述将符号网络模型SNMK与所述符号网络N拟合的步骤包括:
在步骤S301中,根据参数π和参数θ,计算指示变量Z的后验分布q中的每一个元素qik
在这里,所述元素qik的计算公式为:
q i k = &pi; k &Pi; j ( &theta; k , j + ) &delta; ( a i j , 1 ) ( &theta; k , j - ) &delta; ( a i j , - 1 ) ( &theta; k , j 0 ) &delta; ( a i j , 0 ) &Sigma; r = 1 K &pi; r &Pi; j ( &theta; r , j + ) &delta; ( a i j , 1 ) ( &theta; r , j - ) &delta; ( a i j , - 1 ) ( &theta; r , j 0 ) &delta; ( a i j , 0 ) .
在步骤S302中,根据所述元素qik更新参数π中的每一个元素πk和参数θ中的每一个元素θki的三个分量θ+ ki、θ- ki、θ0 ki
其中,所述元素πk的计算公式为:
&pi; k = 1 n &Sigma; i q i k .
所述元素θki的三个分量θ+ ki、θ- ki、θ0 ki分别为:
&theta; k j + = &Sigma; i &delta; ( a i j , 1 ) q i k &Sigma; i q i k ( &delta; ( a i j , 1 ) + &delta; ( a i j , - 1 ) + &delta; ( a i j , 0 ) ) ;
&theta; k j - = &Sigma; i &delta; ( a i j , - 1 ) q i k &Sigma; i q i k ( &delta; ( a i j , 1 ) + &delta; ( a i j , - 1 ) + &delta; ( a i j , 0 ) ) ;
&theta; k j 0 = 1 - &theta; k j + - &theta; k j - .
在步骤S303中,根据所述后验分布q以及更新后的参数π、参数θ计算对应的似然值L,并计算所述似然值L与上一次计算得到的似然值L之间的差值。
在这里,所述似然值L的计算公式为:
L = &Pi; i &Sigma; r = 1 K &pi; r &Pi; j ( &theta; r , j + ) &delta; ( a i j , 1 ) ( &theta; r , j - ) &delta; ( a i j , - 1 ) ( &theta; r , j 0 ) &delta; ( a i j , 0 ) .
所述上一次计算得到的似然值L为上一次计算中根据更新后的参数π、参数θ以及后验分布q按照上述似然值L的计算公式得到的似然值。
在步骤S304中,比较所述差值与预设阈值。
在步骤S305中,若所述差值小于所述预设阈值,则以本次更新的参数π、参数θ以及后验分布q作为最优参数。
在步骤S306中,若所述差值大于或等于所述预设阈值,返回步骤S301进行下一次计算。
在这里,本发明实施通过设置比较阈值,若本次计算得到的似然值L与上一次计算得到的似然值L之间的差值小于所述预设阈值,则本次更新后的参数π、参数θ以及后验分布q为所述符号网络模型SNMK的最优参数,并输出所述参数π、参数θ以及后验分布q,从而有效地识别出了社区数为K时符号网络中的社区结构。若本次计算得到的似然值L与上一次计算得到的似然值L之间的差值大于或等于所述预设阈值,则继续进行下一次计算,继续更新参数π、参数θ以及后验分布q。
在步骤S203中,根据计算得到的所述参数π和参数θ,计算所述符号网络模型SNMK的成本函数值HK
在得到社区数为K时的符号网络模型SNMK的最优参数后,根据所述最优参数中的参数π、参数θ以及所述最优参数对应的似然值L,按照预设公式计算所述符号网络模型SNMK的成本函数值HK,成本函数值是评价符号网络模型SNMK优劣的一个指标,成本函数值越低,符号网络模型SNMK越优。作为本发明的一个优选示例,图4示出了本发明实施例提供的计算符号网络模型SNMK的成本函数值HK的实现流程。
参阅图4,所述符号网络模型SNMK的成本函数值HK的计算流程包括:
在步骤S401中,获取最优参数中的参数π、参数θ,以及获取所述最优参数对应的似然值L。
在步骤S402中,根据所述参数π、参数θ以及似然值L,按照预设公式计算所述符号网络模型SNMK的成本函数值HK
其中,所述预设公式为:
H K = - L + &Sigma; k = 1 K ln ( &pi; k 1 / 3 n ) &delta; ( &pi; k &GreaterEqual; 1 / 3 n ) + &Sigma; k = 1 K &Sigma; i = 1 n ( ln ( &theta; k i + 1 / 3 n ) &delta; ( &theta; k i + &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i 0 1 / 3 n ) &delta; ( &theta; k i 0 &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i - 1 / 3 n ) &delta; ( &theta; k i - &GreaterEqual; 1 / 3 n ) )
在这里,所述函数δ(πk≥1/3n)表示若πk大于或等于1/3n则函数值为1,否则函数值为0;函数表示若θ+ ki大于或等于1/3n则函数值为1,否则函数值为0;函数表示若θ0 ki大于或等于1/3n则函数值为1,否则函数值为0;函数表示若θ- ki大于或等于1/3n则函数值为1,否则函数值为0。
在步骤S103中,比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim
在获取到每一个社区数K对应的符号网络模型SNMK及其对应的成本函数值HK后,比较所有符号网络模型SNMK的成本函数值HK,从中选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim。本发明实施例中模型选择的标准是基于最小描述长度准则并结合符号网络模型SNMK推理获得的,可对零先验知识的符号网络进行自动的社区挖掘,有效地提高了对符号网络进行社区挖掘的准确度。
在步骤S104中,根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。
在这里,指示变量Z为n×K维向量。对于每一个节点i,0<i≤n,本发明实施例从所述最优模型SNMoptim的指示变量Z的后验分布q中获取所述节点i属于社区k的后验概率,0<k≤K;然后选取后验概率最大的社区作为所述节点i所属的社区,即节点i属于具有最大后验概率的社区,从而确定每一个节点i所属的社区,完成对符号网络N的社区挖掘。
综上所述,本发明实施例通过构建社区数K对应的符号网络模型SNMK,所述SNMK=(n,K,Z,π,θ),并将所述符号网络模型SNMK与所读取的符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK,以学习出符号网络N的社区结构;然后比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim,以确定社区的数目;最后根据所述最优模型SNMoptim的指示变量Z的后验分布q,确定所述符号网络N中每个节点i所属的社区,从而实现对符号网络的社区挖掘,有效地提高了对符号网络进行社区挖掘的准确度。
图5示出了本发明实施例提供的基于符号网络模型的社区挖掘装置的组成结构,为了便于说明,仅示出了与本发明实施例相关的部分。
在本发明实施例中,所述装置用于实现上述图1至图4实施例中所述的基于符号网络模型的社区挖掘方法,可以是内置与计算机、服务器内的软件单元、硬件单元或者软硬件结合的单元。
参阅图5,所述装置包括:
初始化模块51,用于读取符号网络N的邻接矩阵A,并初始化社区数K=Kmin,设置社区数K的变化范围为[Kmin,Kmax],其中,所述符号网络N的节点总数为n,Kmin和Kmax为n范围内的整数;
拟合模块52,用于针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK
选取模块53,用于比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim
社区确定模块54,用于根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。
本发明实施例根据给定的社区数K初始化对应的符号网络模型SNMK,所述符号网络模型SNMK采用多项式分布表示符号网络中的边分布。通过将所述符号网络模型SNMK与符号网络N拟合,从而可以学习出符号网络N的社区结构。
进一步地,所述拟合模块52包括:
初始化单元521,用于对于变化范围[Kmin,Kmax]内的每一个社区数K,采用随机方式初始化指示变量Z、参数π和参数θ,得到对应的符号网络模型SNMK=(n,K,Z,π,θ);
拟合单元522,用于将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的参数π、参数θ以及指示变量Z的后验分布q;
计算单元523,用于根据计算得到的所述参数π和参数θ,计算所述符号网络模型SNMK的成本函数值HK
其中,所述指示变量Z为n×K维向量,用于指示每个节点i所属的社区,每一行向量有且只有一个元素zik为1,其余元素zik为0;
所述指示变量Z的后验分布q为n×K维向量,每一行向量中所有元素qik之和为1,即在这里,所述元素qik表示节点i属于社区k的后验概率,即元素zik的后验概率。
所述参数π为K维向量,表示节点属于社区的先验概率,所述参数π中的元素πk满足:
所述参数θ为K×n维向量,表示社区与节点的连接概率,所述参数θ中的每一个元素θki包括三个分量θ+ ki、θ- ki、θ0 ki,且所述θ+ ki表示社区k与节点i之间存在一条正边的概率、所述θ- ki表示社区k与节点i之间存在一条负边的概率、所述θ0 ki表示社区k与节点i之间不存在边的概率,0<k≤K。
进一步地,所述拟合单元522具体包括:
第一计算子单元5221,用于根据参数π和参数θ,计算指示变量Z的后验分布q中的每一个元素qik
在这里,所述元素qik的计算公式为:
q i k = &pi; k &Pi; j ( &theta; k , j + ) &delta; ( a i j , 1 ) ( &theta; k , j - ) &delta; ( a i j , - 1 ) ( &theta; k , j 0 ) &delta; ( a i j , 0 ) &Sigma; r = 1 K &pi; r &Pi; j ( &theta; r , j + ) &delta; ( a i j , 1 ) ( &theta; r , j - ) &delta; ( a i j , - 1 ) ( &theta; r , j 0 ) &delta; ( a i j , 0 ) .
第二计算子单元5222,用于根据所述元素qik更新参数π中的每一个元素πk和参数θ中的每一个元素θki的三个分量θ+ ki、θ- ki、θ0 ki
其中,所述元素πk的计算公式为:
&pi; k = 1 n &Sigma; i q i k .
所述元素θki的三个分量θ+ ki、θ- ki、θ0 ki分别为:
&theta; k j + = &Sigma; i &delta; ( a i j , 1 ) q i k &Sigma; i q i k ( &delta; ( a i j , 1 ) + &delta; ( a i j , - 1 ) + &delta; ( a i j , 0 ) ) ;
&theta; k j - = &Sigma; i &delta; ( a i j , - 1 ) q i k &Sigma; i q i k ( &delta; ( a i j , 1 ) + &delta; ( a i j , - 1 ) + &delta; ( a i j , 0 ) ) ;
&theta; k j 0 = 1 - &theta; k j + - &theta; k j - .
第三计算子单元5223,用于根据所述后验分布q以及更新后的参数π、参数θ计算对应的似然值L,并计算所述似然值L与上一次计算得到的似然值L之间的差值。
在这里,所述似然值L的计算公式为:
L = &Pi; i &Sigma; r = 1 K &pi; r &Pi; j ( &theta; r , j + ) &delta; ( a i j , 1 ) ( &theta; r , j - ) &delta; ( a i j , - 1 ) ( &theta; r , j 0 ) &delta; ( a i j , 0 ) .
比较子单元5224,用于比较所述差值与预设阈值,若所述差值小于所述预设阈值,则以本次更新的参数π、参数θ以及后验分布q作为最优参数;否则,返回第一计算子单元进行下一次计算。
在这里,本发明实施通过设置比较阈值,若本次计算得到的似然值L与上一次计算得到的似然值L之间的差值小于所述预设阈值,则本次更新后的参数π、参数θ以及后验分布q为所述符号网络模型SNMK的最优参数,并输出所述参数π、参数θ以及后验分布q,从而有效地识别出了社区数为K时符号网络中的社区结构。若本次计算得到的似然值L与上一次计算得到的似然值L之间的差值大于或等于所述预设阈值,则继续进行下一次计算,继续更新参数π、参数θ以及后验分布q。
进一步地,所述计算单元523具体用于:
根据所述最优参数中的参数π、参数θ以及所述最优参数对应的似然值L,按照预设公式计算所述符号网络模型SNMK的成本函数值HK
其中,所述预设公式为:
H K = - L + &Sigma; k = 1 K ln ( &pi; k 1 / 3 n ) &delta; ( &pi; k &GreaterEqual; 1 / 3 n ) + &Sigma; k = 1 K &Sigma; i = 1 n ( ln ( &theta; k i + 1 / 3 n ) &delta; ( &theta; k i + &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i 0 1 / 3 n ) &delta; ( &theta; k i 0 &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i - 1 / 3 n ) &delta; ( &theta; k i - &GreaterEqual; 1 / 3 n ) )
所述函数δ(πk≥1/3n)表示若πk大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ+ ki大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ0 ki大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ- ki大于或等于1/3n则函数值为1,否则函数值为0。
本发明实施例在获取到每一个社区数K对应的符号网络模型SNMK及其对应的成本函数值HK后,比较所有符号网络模型SNMK的成本函数值HK,从中选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim。本发明实施例中模型选择的标准是基于最小描述长度准则并结合符号网络模型SNMK推理获得的,可对零先验知识的符号网络进行自动的社区挖掘,有效地提高了对符号网络进行社区挖掘的准确度。
进一步地,所述社区确定模块54具体用于:
根据所述最优模型SNMoptim的指示变量Z的后验分布q,确定所述符号网络N中每个节点i所属的社区,0<i≤n;
其中,所述节点i属于具有最大后验概率的社区。
在这里,指示变量Z为n×K维向量。对于每一个节点i,0<i≤n,本发明实施例从所述最优模型SNMoptim的指示变量Z的后验分布q中获取所述节点i属于社区k的后验概率,0<k≤K;然后选取后验概率最小的社区作为所述节点i所属的社区,即节点i属于具有最大后验概率的社区,从而确定每一个节点i所属的社区,完成对符号网络N的社区挖掘。
需要说明的是,本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实例中的相关描述,此处不再赘述。
综上所述,本发明实施例通过构建社区数K对应的符号网络模型SNMK,所述SNMK=(n,K,Z,π,θ),并将所述符号网络模型SNMK与所读取的符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK,以学习出符号网络N的社区结构;然后比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim,以确定社区的数目;最后根据所述最优模型SNMoptim的指示变量Z的后验分布q,确定所述符号网络N中每个节点i所属的社区,从而实现对符号网络的社区挖掘,有效地提高了对符号网络进行社区挖掘的准确度。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的基于符号网络的社区挖掘方法及装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块、单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元、模块单独物理存在,也可以两个或两个以上单元、模块集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于符号网络模型的社区挖掘方法,其特征在于,所述方法包括:
读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[Kmin,Kmax],并初始化社区数K=Kmin,其中,所述符号网络N的节点总数为n,Kmin和Kmax为n范围内的整数;
针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK
比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim
根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。
2.如权利要求1所述的基于符号网络模型的社区挖掘方法,其特征在于,所述针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK包括:
对于变化范围[Kmin,Kmax]内的每一个社区数K,采用随机方式初始化指示变量Z、参数π和参数θ,得到对应的符号网络模型SNMK=(n,K,Z,π,θ);
将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的参数π、参数θ以及指示变量Z的后验分布q;
根据计算得到的所述参数π和参数θ,计算所述符号网络模型SNMK的成本函数值HK
其中,所述指示变量Z为n×K维向量,用于指示每个节点i所属的社区,每一行向量有且只有一个元素zik为1,其余元素zik为0;
所述指示变量Z的后验分布q为n×K维向量,每一行向量中所有元素qik满足:
所述参数π为K维向量,表示节点属于社区的先验概率,所述参数π中的元素πk满足:
所述参数θ为K×n维向量,表示社区与节点的连接概率,所述参数θ中的每一个元素θki包括三个分量θ+ ki、θ- ki、θ0 ki,且所述θ+ ki表示社区k与节点i之间存在一条正边的概率、所述θ- ki表示社区k与节点i之间存在一条负边的概率、所述θ0 ki表示社区k与节点i之间不存在边的概率,0<k≤K。
3.如权利要求2所述的基于符号网络模型的社区挖掘方法,其特征在于,所述将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的参数π、参数θ以及指示变量Z的后验分布q包括:
A:根据参数π和参数θ,计算指示变量Z的后验分布q中的每一个元素qik
B:根据所述元素qik更新参数π中的每一个元素πk和参数θ中的每一个元素θki的三个分量θ+ ki、θ- ki、θ0 ki
C:根据所述后验分布q以及更新后的参数π、参数θ计算对应的似然值L,并计算所述似然值L与上一次计算得到的似然值L之间的差值;
D:比较所述差值与预设阈值,若所述差值小于所述预设阈值,则以本次更新的参数π、参数θ以及后验分布q作为最优参数;否则,返回步骤A进行下一次计算。
4.如权利要求3所述的基于符号网络模型的社区挖掘方法,其特征在于,所述根据计算得到的所述参数π和参数θ,计算所述符号网络模型SNMK的成本函数值HK包括:
根据所述最优参数中的参数π、参数θ以及所述最优参数对应的似然值L,按照预设公式计算所述符号网络模型SNMK的成本函数值HK
其中,所述预设公式为:
H K = - L + &Sigma; k = 1 K ln ( &pi; k 1 / 3 n ) &delta; ( &pi; k &GreaterEqual; 1 / 3 n ) + &Sigma; k = 1 K &Sigma; i = 1 n ( ln ( &theta; k i + 1 / 3 n ) &delta; ( &theta; k i + &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i 0 1 / 3 n ) &delta; ( &theta; k i 0 &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i - 1 / 3 n ) &delta; ( &theta; k i - &GreaterEqual; 1 / 3 n ) )
所述函数δ(πk≥1/3n)表示若πk大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ+ ki大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ0 ki大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ- ki大于或等于1/3n则函数值为1,否则函数值为0。
5.如权利要求1至4任一项所述的基于符号网络模型的社区挖掘方法,其特征在于,所述根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n包括:
根据所述最优模型SNMoptim的指示变量Z的后验分布q,确定所述符号网络N中每个节点i所属的社区,0<i≤n;
其中,所述节点i属于具有最大后验概率的社区。
6.一种基于符号网络模型的社区挖掘装置,其特征在于,所述装置包括:
初始化模块,用于读取符号网络N的邻接矩阵A,设置社区数K的变化范围为[Kmin,Kmax],并初始化社区数K=Kmin,其中,所述符号网络N的节点总数为n,Kmin和Kmax为n范围内的整数;
拟合模块,用于针对每一个社区数K,初始化对应的符号网络模型SNMK,并将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的成本函数值HK
选取模块,用于比较所有符号网络模型SNMK的成本函数值HK,选取成本函数值HK最小的符号网络模型SNMK作为最优模型SNMoptim
社区确定模块,用于根据所述最优模型SNMoptim确定所述符号网络N中每个节点i所属的社区,0<i≤n。
7.如权利要求6所述的基于符号网络模型的社区挖掘装置,其特征在于,所述拟合模块包括:
初始化单元,用于对于变化范围[Kmin,Kmax]内的每一个社区数K,采用随机方式初始化指示变量Z、参数π和参数θ,得到对应的符号网络模型SNMK=(n,K,Z,π,θ);
拟合单元,用于将所述符号网络模型SNMK与所述符号网络N拟合,计算所述符号网络模型SNMK的参数π、参数θ以及指示变量Z的后验分布q;
计算单元,用于根据计算得到的所述参数π和参数θ,计算所述符号网络模型SNMK的成本函数值HK
其中,所述指示变量Z为n×K维向量,用于指示每个节点i所属的社区,每一行向量有且只有一个元素zik为1,其余元素zik为0;
所述指示变量Z的后验分布q为n×K维向量,每一行向量中所有元素qik满足:
所述参数π为K维向量,表示节点属于社区的先验概率,所述参数π中的元素πk满足:
所述参数θ为K×n维向量,表示社区与节点的连接概率,所述参数θ中的每一个元素θki包括三个分量θ+ ki、θ- ki、θ0 ki,且所述θ+ ki表示社区k与节点i之间存在一条正边的概率、所述θ- ki表示社区k与节点i之间存在一条负边的概率、所述θ0 ki表示社区k与节点i之间不存在边的概率,0<k≤K。
8.如权利要求7所述的基于符号网络模型的社区挖掘装置,其特征在于,所述拟合单元具体包括:
第一计算子单元,用于根据参数π和参数θ,计算指示变量Z的后验分布q中的每一个元素qik
第二计算子单元,用于根据所述元素qik更新参数π中的每一个元素πk和参数θ中的每一个元素θki的三个分量θ+ ki、θ- ki、θ0 ki
第三计算子单元,用于根据所述后验分布q以及更新后的参数π、参数θ计算对应的似然值L,并计算所述似然值L与上一次计算得到的似然值L之间的差值;
比较子单元,用于比较所述差值与预设阈值,若所述差值小于所述预设阈值,则以本次更新的参数π、参数θ以及后验分布q作为最优参数;否则,返回第一计算子单元进行下一次计算。
9.如权利要求8所述的基于符号网络模型的社区挖掘装置,其特征在于,所述计算单元具体用于:
根据所述最优参数中的参数π、参数θ以及所述最优参数对应的似然值L,按照预设公式计算所述符号网络模型SNMK的成本函数值HK
其中,所述预设公式为:
H K = - L + &Sigma; k = 1 K ln ( &pi; k 1 / 3 n ) &delta; ( &pi; k &GreaterEqual; 1 / 3 n ) + &Sigma; k = 1 K &Sigma; i = 1 n ( ln ( &theta; k i + 1 / 3 n ) &delta; ( &theta; k i + &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i 0 1 / 3 n ) &delta; ( &theta; k i 0 &GreaterEqual; 1 / 3 n ) + ln ( &theta; k i - 1 / 3 n ) &delta; ( &theta; k i - &GreaterEqual; 1 / 3 n ) )
所述函数δ(πk≥1/3n)表示若πk大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ+ ki大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ0 ki大于或等于1/3n则函数值为1,否则函数值为0;所述函数表示若θ- ki大于或等于1/3n则函数值为1,否则函数值为0。
10.如权利要求6至9任一项所述的基于符号网络模型的社区挖掘装置,其特征在于,所述社区确定模块具体用于:
根据所述最优模型SNMoptim的指示变量Z的后验分布q,确定所述符号网络N中每个节点i所属的社区,0<i≤n;
其中,所述节点i属于具有最大后验概率的社区。
CN201610573002.9A 2016-07-20 2016-07-20 基于符号网络模型的社区挖掘方法及装置 Pending CN106204299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610573002.9A CN106204299A (zh) 2016-07-20 2016-07-20 基于符号网络模型的社区挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610573002.9A CN106204299A (zh) 2016-07-20 2016-07-20 基于符号网络模型的社区挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN106204299A true CN106204299A (zh) 2016-12-07

Family

ID=57494263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610573002.9A Pending CN106204299A (zh) 2016-07-20 2016-07-20 基于符号网络模型的社区挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN106204299A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934494A (zh) * 2017-02-28 2017-07-07 深圳信息职业技术学院 符号预测方法及装置
CN108400887A (zh) * 2018-01-24 2018-08-14 深圳信息职业技术学院 符号网络的结构识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934494A (zh) * 2017-02-28 2017-07-07 深圳信息职业技术学院 符号预测方法及装置
CN106934494B (zh) * 2017-02-28 2021-04-06 深圳信息职业技术学院 符号预测方法及装置
CN108400887A (zh) * 2018-01-24 2018-08-14 深圳信息职业技术学院 符号网络的结构识别方法及装置
CN108400887B (zh) * 2018-01-24 2021-06-04 深圳信息职业技术学院 符号网络的结构识别方法及装置

Similar Documents

Publication Publication Date Title
Deb et al. A taxonomy for metamodeling frameworks for evolutionary multiobjective optimization
CN106126521B (zh) 目标对象的社交账号挖掘方法及服务器
Quoc Viet Hung et al. An evaluation of aggregation techniques in crowdsourcing
Hong et al. Problem solving by heterogeneous agents
CN106874506A (zh) 基于统计模型的社区挖掘方法及系统
Davidson et al. Intractability and clustering with constraints
Adenso-Dı́az et al. Machine cell formation in generalized group technology
CN103782309A (zh) 用于机器学习分类器的自动数据清除
CN106600067A (zh) 多维立方体模型的优化方法和装置
CN103678436A (zh) 信息处理系统和信息处理方法
CN102508971B (zh) 概念设计阶段产品功能模型建立方法
CN108512775A (zh) 一种排序交易队列的方法及装置
CN104574141A (zh) 一种业务影响度分析方法
CN107870810A (zh) 应用清理方法、装置、存储介质及电子设备
CN108681751A (zh) 确定事件影响因素的方法及终端设备
CN106708912A (zh) 垃圾文件识别及管理方法、识别装置、管理装置和终端
CN106204299A (zh) 基于符号网络模型的社区挖掘方法及装置
CN113312494A (zh) 垂直领域知识图谱构建方法、系统、设备及存储介质
CN102945262A (zh) 一种rnc配置数据对比方法和装置
CN110110155B (zh) 基于元社会关系圈的人物知识图谱属性获取方法及装置
CN106250110A (zh) 建立模型的方法及装置
Zhang et al. A novel large group decision-making method via normalized alternative prediction selection
CN109542432A (zh) 风控规则编辑方法及终端设备
CN112953781B (zh) 网络切片下基于粒子群的虚拟业务故障恢复方法及装置
CN106407212B (zh) 一种网络账户的类别确定方法、对象聚类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207