CN103559318A - 对异质信息网络包含的对象进行排序的方法 - Google Patents

对异质信息网络包含的对象进行排序的方法 Download PDF

Info

Publication number
CN103559318A
CN103559318A CN201310595047.2A CN201310595047A CN103559318A CN 103559318 A CN103559318 A CN 103559318A CN 201310595047 A CN201310595047 A CN 201310595047A CN 103559318 A CN103559318 A CN 103559318A
Authority
CN
China
Prior art keywords
network
current sub
subnet
maincenter
sub network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310595047.2A
Other languages
English (en)
Other versions
CN103559318B (zh
Inventor
石川
王然
吴玲玲
吴斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201310595047.2A priority Critical patent/CN103559318B/zh
Publication of CN103559318A publication Critical patent/CN103559318A/zh
Application granted granted Critical
Publication of CN103559318B publication Critical patent/CN103559318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开一种对异质信息网络中对象排序的方法,该方法包括:获取包含N个对象类型的异质信息网络,其中N>1;依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成;将所述N个子网组成一个子网序列环;从所述子网序列环中任意选取一个所述子网作为当前子网;对所述当前子网中的对象进行排序;判断排序结果是否稳定;如果所述排序结果稳定,输出所述排序结果。与现有技术相比,本发明实施例对异质信息网络中的对象进行排序时利用了对象类型等语义信息,从而使得排序结果相对准确。

Description

对异质信息网络包含的对象进行排序的方法
技术领域
本发明涉及信息技术领域,尤其涉及对异质信息网络包含的对象进行排序的方法。
背景技术
信息网络是指由对象与对象之间的链接组成的网络。信息网络一般可以分成同质信息网络和异质信息网络。其中,同质信息网络是指由同一类型的对象及对象之间的链接组成的网络,异质信息网络指的是由不同类型的对象及对象之间的链接组成的网络。在异质信息网络中,不同的对象可以属于不同的类型,不同对象之间的链接也可以表示不同的关系。异质信息网络不但普遍存在,而且已经成为现代信息基础体系的不可缺少的一部分。例如,文献网络即为一类常见的异质信息网络。在文献网络中,类型包括作者,论文,会议,关键词等;对象之间的链接可以表示作者之间的合作关系、作者与论文间的写作关系、论文与会议间的发布关系、论文与论文间的引用关系等不同的关系。
随着搜索引擎技术的发展,用户的搜索需求也越来越多样化。用户在对某信息网络所包含的信息进行检索时,不但希望检索结果准确,而且通常希望检索结果能够按照重要性进行呈现。例如,人们检索某个作者的论文时,不但希望检索到该作者的所有论文,而且通常该作者的所有论文能够按照其重要性排序后再进行显示。因此,按照对象的重要性对异质信息网络中的同一类型的对象进行排序就成为一项重要的任务。
现有排序方法,通常都是基于同质网络进行排序。在对异质信息网络中的对象进行排序时,通常不考虑对象和关系间的异质性,首先从异质信息网络中抽取出同质网络,然后基于同质网络上完成对象的排序。由于同质网络通常是从异质信息网络中抽取出来的一部分内容,所以这种同质网络会大量失去异质信息网络所包含的关系和语义信息。因此,基于同质网络对异质网络中的对象进行排序,会使得混合排序结果会明显地偏向于具有较多链接的对象,造成排序结果与对象的实际重要性顺序之间存在较大误差。
发明内容
本发明实施例提供了一种对异质信息网络包含的对象进行排序的方法,以解决现有排序方法会造成异质信息网络所包含的关系和语义信息大量丢失,排序结果不准确,无法满足人们检索信息的需求的问题。
一方面,本发明实施例提供了一种对异质信息网络包含的对象进行排序的方法,该方法包括:获取包含N个对象类型的异质信息网络,其中N>1;依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成;将所述N个子网组成一个子网序列环;从所述子网序列环中任意选取一个所述子网作为当前子网;对所述当前子网中的对象进行排序;判断排序结果是否稳定;如果所述排序结果稳定,输出所述排序结果。
结合一方面,在第一种可能的实现方式中,所述方法还包括:如果所述排序结果不稳定,选择所述子网序列环中当前子网的下一个子网,并将所述下一个子网作为当前子网,返回对所述当前子网中的对象进行排序步骤。
结合一方面或第一种可能的实现方式,在第二种可能的实现方式中,所述判断排序结果是否稳定,包括:判断排序次数是否达到预设值,或者判断排序结果是否不再变化。
结合一方面、第一种可能的实现方式或第二种可能的实现方式,在第三种可能的实现方式中,所述对所述当前子网中的对象进行排序,包括:生成当前子网的聚类信息;根据所述聚类信息对所述当前子网中的对象进行排序。
结合第三种可能的实现方式,在第四种可能的实现方式中,如果所述当前子网为从所述子网序列环中任意选取的所述子网,所述生成聚类信息包括:将所述当前子网中的对象随机分配到K个聚簇中生成当前子网的聚类信息,所述对象包括中枢对象与支持对象。
结合第三种可能的实现方式,在第五种可能的实现方式中,如果所述当前子网为所述排序结果不稳定时选择的所述子网,所述生成聚类信息包括:将所述当前子网中的对象随机分配到K个聚簇中生成第一子信息,所述对象包括中枢对象与支持对象;获取从所述当前子网的上一个子网继承的第二子信息;将所述第一子信息与所述第二子信息进行整合生成当前子网的聚类信息。
结合第四种可能的实现方式或第五种可能的实现方式,在第六种可能的实现方式中,所述根据所述聚类信息对所述当前子网中的对象进行排序包括:采用随机游走方式生成每个所述聚簇中所述支持对象的可达概率;根据所述可达概率计算所述聚簇中所述中枢对象的异质概率;采用随机游走方式生成所述聚簇中所述中枢对象的同质概率;根据所述异质概率与所述同质概率生成所述中枢对象的存在概率;根据所述存在概率生成中枢对象的后验概率;根据所述中枢对象的后验概率计算支持对象的后验概率;根据所述后验概率对所述当前子网中的对象进行排序。
结合第六种可能的实现方式,在第七种可能的实现方式中,在根据所述后验概率对所述当前子网中的对象进行排序之前,还包括:获取所述当前子网中每一个所述对象的额外重要性度量;所述以所述后验概率为排序依据对当前子网中的对象进行排序,包括:根据所述后验概率与所述额外重要性度量的乘积,对当前子网中的对象进行排序。
从上述实施例可以看出获取包含N个对象类型的异质信息网络,其中N>1;依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成;将所述N个子网组成一个子网序列环;从所述子网序列环中任意选取一个所述子网作为当前子网;对所述当前子网中的对象进行排序;判断排序结果是否稳定;如果所述排序结果稳定,输出所述排序结果。与现有技术相比,本发明排序过程中使用了异质信息网络所包含的所有关系及语义等信息,排序结果相对准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1为本发明对异质网络包含的对象进行排序的方法一个实施例的流程图;
图2为一个异质网络结构示意图;
图3为一个二分网络结构示意图;
图4为一个星形网络结构示意图;
图5为异质网络一个子网结构示意图;
图6为异质网络另一个子网结构示意图;
图7为异质网络另一个子网结构示意图;
图8为异质网络映射示意图;
图9为对当前子网排序的流程图;
图10为本发明对异质网络包含的对象进行排序的方法另一个实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示装置结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
参见图1,为本发明对异质信息网络中的对象排序的方法一个实施例的流程图,该方法包括如下步骤:
步骤101,获取包含N个对象类型的异质信息网络,其中N>1。
在对信息网络中的对象进行排序时,需要根据对象的语义或特征将所有对象分成N类,每一类对象对应一个对象类型。一个信息网络所对应的图(GRAPH)可以用A=(T,R)表示,其中,T={T}是对象类型集合。R={R}是关系类型集合。一个一般的信息网络定义为图G=(X,E),其中对象类型的映射函数τ:X→T,链接类型映射函数每个对象x∈X属于一个特定的对象类型τ(x)∈T。每个链接e∈E属于一个特定的关系类型当对象类型的类型数|T|>1或者关系类型的类型数|R|>1,这种网络就叫做异质信息网络;否则就是个同质信息网络。异质信息网络又简称为异质信息网络,同质信息网络又简称为同质信息网络。其中,对象的类型数|T|即为N的值。
一个一般异质信息网络可能具有任意的模式。它可以只包含异质关系,也可以既包含同质关系又包含异质关系。它也可以只包含一个中枢节点,也可以包含多重中枢节点,其中,中枢节点是指和两个或两个以上的节点存在链接的节点。以SLAP数据网络为例。SLAP数据网络包括基因(G,GENE),基因本体(GO,GENE-ONTOLOGY),化合物(C,CHEMICALCOMPOUND),组织(T,TISSUE),副作用(SI,SIDE EFFECT),子结构(SUB,SUBSTRUCTURE)6种类型的对象。其中,G类型包含323个基因,C类型包括38,116种化合物,SI类型包括672种副作用,SUB类型包括212种子结构,T类型包括170种组织,GO类型包括948种基因本体。6种类型的对象及对象间存在的105,387个链接构成了SLAP数据网络。SLAP数据网络对应的异质信息网络如图2所示,其中T、G、GO、SI、C、Sub均指对象类型,箭头表示对象类型之间的链接。其中,对象G具有异质的关系,例如,G→GO和G→C,同时也具有同质关系,例如G→G。显然,如图3所示的二分图及如图4所示的星形网络都是一般异质信息网络的特殊例子,其中A、P、T、V均指对象类型,箭头表示不同对象类型之间的连接。并且,图2展现的异质信息网络因为具有多重中枢节点,因而比如图4所示的星形网络要更加复杂。
步骤102,依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成。
对于一般异质信息网络,我们可以从N个对象类型中选择一个对象类型作为中枢类型,与该中枢类型之间存在链接的其他类型作为支持类型。这些类型和它们之间的链接构成了原先异质信息网络的映射子网,其中链接由对象类型所包含的对象之间的关系构成,所述链接通常具有一定的语义。如果一个异质信息网络具有模式A=(T,R),它的映射子网具有模式A'=(T',R'),其中
Figure BDA0000419320870000051
T'包括一个记为P的中枢类型以及其它与P链接并记为S={SJ}支持类型。R'包括P与SJ之间的异质关系和P之间的同质关系。
一个映射子网可以记为P-S。X(P)是中枢对象类型集合,
Figure BDA0000419320870000052
代表支持类型SJ的对象集合。为了表述方便,映射子网也称作子网,以它的中枢类型P表示。例如,图5展示了图2的一个映射子网G-{C,T,GO},其中G为中枢类型,C,T和GO都与G类型之间存在链接,所以是支持类型。类似地,图6和图7分别展示了具有中枢类型GO和C的映射子网。
步骤103,将所述N个子网组成一个子网序列环。
可以采用依次选取T个类型中的一个作为中枢类型生成一个子网的方式,将一个具有T个类型对象的异质信息网络映射成一个由T个映射子网组成的有序集合。在生成映射序列后,将映射序列的尾部和头部相连接,从而生成与该映射序列对应的子网序列环。
图8展示了一个网络的映射例子。通过依次选取对象类型GO,G,C等等,网络被映射成一个子网序列。显然异质信息网络映射是个结构信息无损的网络分解方法,所有在原异质信息网络中的对象和关系都被映射到了子网中。即是说,异质信息网络可以从映射的子网序列中经过重构得到。如果子网中只有两种对象类型,那么这个网络是个二分图;否则它是个星形网络。与传统的二分图和星形网络不同,在子网中的中枢类型也许包含例如自环等同质关系。由于选择中枢类型的顺序不同,异质信息网络的映射序列也不同,例如,图8中的异质信息网络具有映射序列:GO-G-C-SI-SUB-T,T-G-GO-C-SI-SUB等等。事实上,一个具有T个类型对象的异质信息网络总共有T!种映射序列。在生成子网序列环时,可以任意选取其中一种映射序列,将映射序列的头尾相连接得到子网序列环。
步骤104,从所述子网序列环中任意选取一个所述子网作为当前子网。
在生成子网序列环之后,可以任意选择该子网序列环中的一个子网作为当前子网。
步骤105,对所述当前子网中的对象进行排序。
具体来说,对当前子网中的对象进行排序包括如下步骤:生成当前子网的聚类信息;根据所述聚类信息对所述当前子网中的对象进行排序。
在生成当前子网的聚类信息时,如果所述当前子网为从所述子网序列环中任意选取的所述子网,即,当前子网为排序过程的第一个子网,所述生成聚类信息包括:将所述当前子网中的对象随机分配到K个聚簇中生成当前子网的聚类信息,所述对象包括中枢对象与支持对象。其中,聚簇数量K可以根据需要进行设定,通常与中枢对象的数量相关。在实际使用中,K的值可以由技术人员设定。
如果所述当前子网为所述排序结果不稳定时选择的所述子网,即,当前子网不为排序过程的第一个子网,所述生成聚类信息包括:将所述当前子网中的对象随机分配到K个聚簇中生成第一子信息,所述对象包括中枢对象与支持对象;获取从所述当前子网的上一个子网继承的第二子信息;将所述第一子信息与所述第二子信息进行整合生成当前子网的聚类信息。
例如,假设J表示对象类型集合{T}中的一个类型。对象类型J所对应的对象集合可以记为X={X(J)},其中
Figure BDA0000419320870000061
是对象p∈X(J),例如,τ(p)=J。对象间的同质关系和异质关系两种关系类型,可以分别用同质和异质两种关系矩阵来表示。如果对象类型J具有同质关系,同质关系矩阵记为H(J),其中
Figure BDA0000419320870000062
表示对象
Figure BDA0000419320870000064
之间的关系。如果两种对象类型之间有异质关系,异质关系矩阵记为H(I.J)
Figure BDA0000419320870000065
表示
Figure BDA0000419320870000066
Figure BDA0000419320870000067
之间的关系。相应的,我们有同质转移矩阵M(J)和异质转移矩阵M(I.J)。显然,转移矩阵M(I.J)可以由关系矩阵H(I.J)推导得到,
Figure BDA0000419320870000068
其中D(I.J)是对角矩阵,它的对角元素的值等于H(I.J)对应的行向量和。类似的,
Figure BDA0000419320870000069
以图4所示的异质信息网络为例,M(P)是引用关系H(P)的概率转移矩阵,M(A,P)是A-P关系H(A,P)的概率转移矩阵。
与同质信息网络不同,异质信息网络包含不同类别的对象。例如,在文献网络中,一个关于数据挖掘的聚簇包含会议、作者、以及这一领域的论文。对于每个对象类型X(J),我们定义成员关系矩阵
Figure BDA00004193208700000716
该矩阵是一个对角矩阵,对角元素表示
Figure BDA0000419320870000071
属于聚簇Ck的成员概率。
Figure BDA0000419320870000072
在K个聚簇的成员概率和应该等于1。例如, Σ k = 1 k B pp ( J | C k ) = 1 .
当前子网可以用子网C表示,可以用
Figure BDA0000419320870000074
表示从支持类型SI通过子网C中的中枢类型P到达类型SJ的概率转移矩阵。
Figure BDA0000419320870000075
的计算如下: M ( S I , S J | P , C ) = M ( S I , P | C ) × M ( P , S J | C ) , 其中,
Figure BDA0000419320870000077
是从SI到P的转移矩阵。
Figure BDA0000419320870000078
也叫做全局转移矩阵,它是对于一个固定的子网C的。例如,图5所示,全局转移矩阵M(T,GO|G,C)表示在子网G-{T,C,GO}中从类型T通过G到GO的转移概率。对象的全局概率是在概率计算过程中平滑中枢对象异质概率的重要信息。
考虑到聚类信息,支持对象间的转移矩阵应该根据聚簇调整。聚类信息可以通过中枢对象的成员关系矩阵表示,所以从SI通过聚簇CK
Figure BDA0000419320870000079
中的P到SJ条件转移矩阵的定义如下: M ( S I , S J | P , C K ) = M ( S I , P | C ) × B ( P | C K ) × M ( P , S J | C ) . 其中
Figure BDA00004193208700000711
是聚簇CK中的中枢对象的成员关系。相比于
Figure BDA00004193208700000712
又叫做条件转移矩阵。
上述转移矩阵只考虑当前子网中的聚类信息,这样可能会造成不同子网间的不一致性。例如,在文献数据网络映射成的子网中,子网P-{A,V,T}的聚类也许关注于研究领域,而子网A-{P}的聚类也许更关注作者的合作关系。由于本实施例对异质信息网络中所有的对象进行排序,为了保证子网序列环中不同子网的一致性,我们可以对当前子网序列环中的对象进行排序时,可以继承当前子网的上一个子网的一部分聚类信息。并且这些信息还将与当前子网的中枢类型的聚类信息整合。例如,可以从当前子网的上一个子网继承中继承当前子网中枢类型的聚类信息。这种简单机制能起作用的原因是中枢对象作为中枢结点,可以将聚类信息传播给所有的支持对象。
如果所述当前子网为所述排序结果不稳定时选择的当前子网,转移矩阵可以用如下公式表示: M ( S I , S J | P , C K ) = M ( S I , P | C ) × B ″ ( P | C K ) × M ( P , S J | C ) , 其中 B ″ ( P | C K ) = θ S , P × B ′ ( P | C K ) + ( 1 - θ S , P ) × B ( P | C K ) ,
Figure BDA00004193208700000715
是从中枢类型为S,支持类型为P的子网中继承的成员关系矩阵,θS,P是学习率,它控制从当前子网的上一个子网中继承到当前网络的聚类信息比例,θS,P的具体值可以根据异质信息网络的特征进行设置。图8中的虚线展示了信息继承的两个例子。转移矩阵可以将聚类信息在子网间传播,保障子网间的一致性,并且因为它采用了先验的聚类信息,能帮助加速收敛。对于如果当前子网为二分图,转移概率矩阵可以记做其计算的机制是一样的,在此就不再赘述。
如图9所示,根据所述聚类信息对所述当前子网中的对象进行排序的具体过程如下:步骤10521,采用随机游走方式生成每个所述聚簇中所述支持对象的可达概率;
当前子网中支持对象的可达概率可以利用基于路径的随机游走获取。基于路径的随机游走过程可以利用矩阵表示。
例如,子网C中的支持类型SJ的可达概率记为
Figure BDA0000419320870000082
聚簇CK中的支持类型SJ的可达概率记为根据随机游走(RANDOM WALK)可知,一个对象类型的概率由其它对象类型经过中枢对象到达自己的概率决定。所以,支持类型SJ的可达概率可以定义如下: p r ( X ( S J ) | C ) = Σ S I ∈ S , S I ! = S J p r ( X ( S I ) | C ) × M ( S I , S J | P , C ) , p r ( X ( S J ) | C k ) = Σ S I ∈ S , S I ! = S J p r ( X ( S I ) | C k ) × M ( S I , S J | P , C k ) . 支持类型SJ的可达概率可以通过迭代计算得出。在首次迭代时,
Figure BDA0000419320870000086
设置为相同值。对于二分网络,随机游走从支持类型SJ开始,经过中枢类型P,回到相同的SJ类型结束。支持类型SJ的可达概率
Figure BDA0000419320870000087
可以定义为 p r ( X ( S J ) | C k ) = p r ( X ( S I ) | C k ) × M ( S I , S J | C k ) .
步骤10522,根据所述可达概率计算所述聚簇中所述中枢对象的异质概率;
一个一般异质信息网络可能具有任意的模式。它可以包含同质或者异质的关系,也可以包含多重中枢节点,其中中枢节点是指和两个或两个以上的节点存在链接的节点。
由于可以认为中枢对象是由与它邻接的支持对象生成的。所以我们可以采用生成模型。中枢对象的概率来自两个方面:异质和同质关系,其中,同质关系是指中枢对象与中枢对象之间的链接,异质关系是指中枢对象与支持对象之间的链接。
对于异质关系,中枢对象P在子网C中的异质概率
Figure BDA0000419320870000089
可以通过如下公式计算: p r ( X p ( p ) | C ) = Π S J ∈ S Π q ∈ N ( p ) p r ( X q S J | C ) , 其中,N(P)是对象P在子网中的邻居结点集,即,中枢对象P是由与其邻接的不同类型的支持对象生成的。类似的,中枢对象P在聚簇Ck中的异质概率
Figure BDA00004193208700000811
也是由在聚簇Ck中与其邻接的支持对象生成的。
另外,还可以首先生成每一个中枢对象
Figure BDA00004193208700000812
的全局概率。中枢对象的全局概率可以起到平滑作用。 p r ( X p ( P ) | C k ) = λ Π S J ∈ S Π q ∈ N ( p ) p r ( X q ( S J ) | C k ) + ( 1 - λ ) p r ( X p ( P ) | C ) , 其中,平滑参数λ表示全局概率所占比例。平滑操作是个很重要的步骤能防止中枢对象被算入那些少数的聚簇中,提高了聚类的准确度;并且使得中枢对象的异质概率更加稳定。
步骤10523,采用随机游走方式生成所述聚簇中所述中枢对象的同质概率;
对于同质关系,我们可以基于同质转移概率为中枢类型计算聚类:
Figure BDA0000419320870000093
表示聚簇Ck中其他中枢对象到达P的转移概率和。概率和在某种程度上表明了对象P的重要性,概率和越大,表明对象P的重要性越高。
步骤10524,根据所述异质概率与所述同质概率生成所述中枢对象的存在概率;
考虑到同质关系,中枢对象P的存在于聚簇Ck中的存在概率由同质和异质关系同时决定,所以中枢对象的对象概率可以表示为如下式:
Figure BDA0000419320870000094
即中枢对象的存在概率为中枢对象的同质概率和中枢对象的异质概率的乘积。
步骤10525,根据所述存在概率生成中枢对象的后验概率;
每个子网都具有中枢对象和支持对象两种对象类型。因为中枢对象是子网的中枢,它将支持对象集中起来,并且包含了完整的语义信息,所以可以先计算中枢对象的后验概率,再根据中枢对象的后验概率计算支持对象的后验概率。
具体来说,可以使用最大期望算法(EM,EXPECTATION-MAXIMIZATION ALGORITHM)计算中枢对象的后验概率P(Ck|X(P))。根据贝叶斯法则可知P(Ck|X(P))∝P(X(P)|Ck)×P(Ck)。因为聚簇大小P(Ck)未知,需要估计适当的P(Ck)来平衡聚簇的大小。具体来说,可以采用能使得不同聚簇中的中枢对象的生成似然函数最大化的P(Ck)。似然函数的计算公式为: log L = Σ p ∈ X ( P ) log [ Σ k = 1 K P ( X p ( P ) | C k ) × P ( C k ) ] . 利用EM算法通过最大化logL可以求得P(Ck)。可以用下述两个公式求导。Pt(Ck|X(P))∝P(X(P)|Ck)×P(Ck), P t + 1 ( C k ) = Σ p ∈ X ( P ) P t ( C k | X p ( p ) ) × 1 | X ( P ) | . 起初可以设P(Ck)为相同的值,然后迭代计算,直到P(Ck)收敛,得出中枢对象的后验概率。具体的计算过程及收敛标准在此就不再赘述。
步骤10526,根据所述中枢对象的后验概率计算支持对象的后验概率;
由于支持对象的后验概率来自它的中枢对象的邻居,因此可以有: P ( C k | X q ( S J ) ) = Σ p ∈ N ( p ) P ( C k | X p ( p ) ) × 1 | N ( q ) | , 其中
Figure BDA0000419320870000102
是支持对象
Figure BDA0000419320870000103
属于聚簇Ck的概率;N(q)是支持对象Q的邻居结点集。这公式的意思是支持对象
Figure BDA0000419320870000104
的后验概率是它的关键邻居的平均值。
步骤10527,根据所述后验概率对所述当前子网中的对象进行排序。
因为当前子网中对象的后验概率遵守随机游走的准则,所以我们可以把这个后验概率看作当前子网中对象的排名依据。即,Rank(X(J)|Ck)≈P(X(J)|Ck),其中,Rank(X(J)|Ck)表示对象的排名,P(X(J)|Ck)为对象的后验概率。
因为后验概率P(X(J)|Ck)是通过随机游走过程来估计的,它会给度数高的结点分配高的概率,即,它会给链接较多的节点分配较高的概率。在某些场景下,这种基于链接数量的方法并不合适。比如,广告网页上存在很多链接,但是这些链接实际上也许没什么价值。如果我们知道其他可以用来衡量对象重要性的额外权重,我们可以获取这些额外权重,并将这些额外权重与对象的后验概率相结合,得到更加合理的排序结果。基于对象的后验概率与额外权重可得:Rank(X(J)|Ck)=AI(X(J))×P(X(J)|Ck),其中AI(X(J))是对象X(J)的额外权重。例如,在文献网络中,一篇论文的重要性很大程度上由它的被引用次数决定,则额外权重可以是一个与该论文被引用次数成比例的度量。我们也可以将权重信息通过转移概率矩阵传播给它的邻接对象。公式如下:Rank(X(J)|Ck)=Rank(X(J)|Ck)×M(J.I)
步骤106,判断排序结果是否稳定。
在对当前子网进行中的对象进行排序得出排序结果后,我们可以判断对当前子网进行中的对象排序得到的排序结果是否是所需的最终排序结果,判断的依据就是排序结果是否稳定。
在实际使用中,由于可能需要获取异质信息网络中所有对象的准确排名,也可能只需要知道排序最靠前的若干个对象的排名。针对不同的需求,可以采用不同的判断标准来判断排序结果是否稳定。
当需要获取异质信息网络中所有对象的准确排名时,可以通过判断排序结果是否不再变化,来判断排序结果是否稳定。即,比较第二排序结果与第一排序结果是否一致,其中第一排序结果是指对当前子网中的对象进行排序得出的排序结果,第二排序结果是指对当前子网的上一个子网排序得出的排序结果。如果第二排序结果与第一排序结果一致则可以认为,排序结果稳定,如果第二排序结果与第一排序结果不一致则可以认为排序结果不稳定。
采用本实施例提供的方法,在经过预定次数次的排序后,排名前几位的对象的名次通常已经不再发生变化。当只需要获取异质信息网络中排序最靠前的若干个对象的准确排名时,可以通过判断排序次数是否达到预设值,来判断排序结果是否稳定。即,首先设置一个预设值,然后按照子网序列环的顺序对子网中的对象进行排序,并对排序次数进行计数。当排序计数值达到预设值时,可以认为排序结果稳定,如果排序计数值未达到预设值,则可以认为排序结果不稳定。
步骤107,如果所述排序结果稳定,输出所述排序结果。
如果排序结果稳定,则可以将对当前子网中的对象进行排序得到的排序结果,作为最终排序结果。然后输出排序结果。所述排序结果就反映了对象的排名。
如图10所示,在另一个实施例中,在执行完步骤106后,如果所述排序结果不稳定,则可以执行步骤108,选择子网序列环中当前子网的下一个子网,选择所述子网序列环中所述当前子网的下一个子网,并将所述下一个子网作为当前子网,返回步骤105。如果得到的排序结果依然不稳定,则可以重复执行该过程。
具体来说,如果经过判断,所述排序结果不稳定,选择所述子网序列环中所述当前子网的下一个子网,并将所述下一个子网作为当前子网,对所述当前子网中的对象进行排序。对当前子网具体的排序过程参见步骤105,在此就不再赘述。其中需要说明的是,如果所述当前子网为所述排序结果不稳定时选择的所述子网,对当前子网中的对象进行排序时,需要根据当前子网聚类信息以及从当前子网的前一个子网继承的聚类信息进行排序。生成所述当前子网的聚类信息包括:将所述当前子网中的对象随机分配到K个聚簇中生成第一子信息,所述对象包括中枢对象与支持对象;获取从所述当前子网的上一个子网继承的第二子信息;将所述第一子信息与所述第二子信息进行整合生成当前子网的聚类信息。具体过程在步骤105中已经有详细描述,在此就不在赘述。
采用本实施例提供的方法,在经过预定次数次排序后,排名前几位的对象的名次通常已经不再发生变化。当只需要获取异质信息网络中排序最靠前的若干个对象的准确排名时,可以通过判断排序次数是否达到预设值,来判断排序结果是否稳定。即,首先设置一个预设值,然后按照子网序列环的顺序对子网进行排序,并对排序次数进行计数。当排序计数值达到预设值时,可以认为排序结果稳定,如果排序计数值未达到预设值,则可以认为排序结果不稳定。
步骤107,如果所述排序结果稳定,输出所述排序结果。
如果排序结果稳定,则可以将对当前子网进行排序得到的排序结果,作为最终排序结果。
如图10所示,在执行完步骤106后,如果所述排序结果不稳定,则可以执行步骤108,选择子网序列环中当前子网的下一个子网,选择所述子网序列环中所述当前子网的下一个子网,并将所述下一个子网作为当前子网,返回对所述当前子网中的对象进行排序步骤。
从上述实施例可以看出,获取包含N个对象类型的异质信息网络,其中T>1;依次选取N个对象类型中的一个对象类型作为中枢类型,将所述异质信息网络映射成T个子网,每一个所述子网由一个所述中枢类型及与所述中枢类型存在链接的支持类型构成;将所述N个子网组成一个子网序列环;从所述子网序列环中选取一个所述子网作为当前子网;对所述当前子网中的对象进行排序;判断排序结果是否稳定;如果所述排序结果稳定,输出所述排序结果。与现有技术相比,本发明实施例将异质网拆分成子网序列,并对子网序列中的每一个子网中的对象进行排序,在对每一个子网中的对象进行排序时,利用了对象类型等语义信息,从而使得排序结果相对准确。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种对异质信息网络中的对象排序的方法,其特征在于,包括:
获取包含N个对象类型的异质信息网络,其中N>1;
依次选取N个对象类型中的一个作为中枢类型,将所述异质信息网络映射成N个子网,每一个所述子网由一个所述中枢类型、相对于所述中枢类型的支持类型及所述中枢类型与所述支持类型之间的链接构成;
将所述N个子网组成一个子网序列环;
从所述子网序列环中任意选取一个所述子网作为当前子网;
对所述当前子网中的对象进行排序;
判断排序结果是否稳定;
如果所述排序结果稳定,输出所述排序结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述排序结果不稳定,选择所述子网序列环中当前子网的下一个子网,并将所述下一个子网作为当前子网,返回对所述当前子网中的对象进行排序步骤。
3.如权利要求1或2所述的方法,其特征在于,所述判断排序结果是否稳定,包括:
判断排序次数是否达到预设值,或者
判断排序结果是否不再变化。
4.如权利要求1至3任意一项权利要求所述的方法,其特征在于,所述对所述当前子网中的对象进行排序,包括:
生成当前子网的聚类信息;
根据所述聚类信息对所述当前子网中的对象进行排序。
5.如权利要求4所述的方法,其特征在于,如果所述当前子网为从所述子网序列环中任意选取的所述子网,所述生成聚类信息包括:
将所述当前子网中的对象随机分配到K个聚簇中生成当前子网的聚类信息,所述对象包括中枢对象与支持对象。
6.如权利要求4所述的方法,其特征在于,如果所述当前子网为所述排序结果不稳定时选择的所述子网,所述生成聚类信息包括:
将所述当前子网中的对象随机分配到K个聚簇中生成第一子信息,所述对象包括中枢对象与支持对象;
获取从所述当前子网的上一个子网继承的第二子信息;
将所述第一子信息与所述第二子信息进行整合生成当前子网的聚类信息。
7.如权利要求5或6所述的方法,其特征在于,所述根据所述聚类信息对所述当前子网中的对象进行排序包括:
采用随机游走方式生成每个所述聚簇中所述支持对象的可达概率;
根据所述可达概率计算所述聚簇中所述中枢对象的异质概率;
采用随机游走方式生成所述聚簇中所述中枢对象的同质概率;
根据所述异质概率与所述同质概率生成所述中枢对象的存在概率;
根据所述存在概率生成中枢对象的后验概率;
根据所述中枢对象的后验概率计算支持对象的后验概率;
根据所述后验概率对所述当前子网中的对象进行排序。
8.如权利要求7所述的方法,其特征在于,在根据所述后验概率对所述当前子网中的对象进行排序之前,还包括:
获取所述当前子网中每一个所述对象的额外重要性度量;
所述以所述后验概率为排序依据对当前子网中的对象进行排序,包括:
根据所述后验概率与所述额外重要性度量的乘积,对当前子网中的对象进行排序。
CN201310595047.2A 2013-11-21 2013-11-21 对异质信息网络包含的对象进行排序的方法 Active CN103559318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310595047.2A CN103559318B (zh) 2013-11-21 2013-11-21 对异质信息网络包含的对象进行排序的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310595047.2A CN103559318B (zh) 2013-11-21 2013-11-21 对异质信息网络包含的对象进行排序的方法

Publications (2)

Publication Number Publication Date
CN103559318A true CN103559318A (zh) 2014-02-05
CN103559318B CN103559318B (zh) 2016-08-17

Family

ID=50013564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310595047.2A Active CN103559318B (zh) 2013-11-21 2013-11-21 对异质信息网络包含的对象进行排序的方法

Country Status (1)

Country Link
CN (1) CN103559318B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469353A (zh) * 2016-09-08 2017-03-01 璧垫兜 一种面向大数据的项目合作企业智慧筛选排序方法
CN108710455A (zh) * 2018-04-04 2018-10-26 北京天元创新科技有限公司 一种子网的图形化管理方法及装置
CN109800504A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种异质信息网络的嵌入方法和装置
CN110010196A (zh) * 2019-03-19 2019-07-12 北京工业大学 一种基于异质网的基因相似性搜索算法
CN110533253A (zh) * 2019-09-04 2019-12-03 安徽大学 一种基于异构信息网络的科研合作关系预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
CN101710338A (zh) * 2009-11-24 2010-05-19 清华大学 一种基于公共隐空间的异构网络排序方法
US20120113847A1 (en) * 2010-11-05 2012-05-10 Motorola Mobility, Inc. Configuring Unscheduled Periods to Enable Interference Reduction in Heterogeneous Networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
CN101710338A (zh) * 2009-11-24 2010-05-19 清华大学 一种基于公共隐空间的异构网络排序方法
US20120113847A1 (en) * 2010-11-05 2012-05-10 Motorola Mobility, Inc. Configuring Unscheduled Periods to Enable Interference Reduction in Heterogeneous Networks

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LI PENG 等: "RNRank: Network-based ranking on relational tuples[M]//Behavior and Social Computing", 《BEHAVIOR AND SOCIAL COMPUTING》, 14 April 2013 (2013-04-14), pages 139 - 150 *
RAN WANG 等: "Integrating Clustering and Ranking on Hybrid Heterogeneous Information Network", 《ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING》, 17 April 2013 (2013-04-17), pages 583 - 594, XP047027488 *
SUN YIZHOU 等: "Rankclus: integrating clustering with ranking for heterogeneous information network analysis", 《PROCEEDINGS OF THE 12TH INTERNATIONAL CONFERENCE ON EXTENDING DATABASE TECHNOLOGY: ADVANCES IN DATABASE TECHNOLOGY》, 31 December 2009 (2009-12-31), pages 565 - 576 *
SUN YIZHOU 等: "Ranking-based clustering of heterogeneous information networks with star network schema", 《PROCEEDINGS OF THE 15TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》, 31 December 2009 (2009-12-31), pages 797 - 805 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469353A (zh) * 2016-09-08 2017-03-01 璧垫兜 一种面向大数据的项目合作企业智慧筛选排序方法
CN106469353B (zh) * 2016-09-08 2021-02-12 赵涵 一种面向大数据的项目合作企业智慧筛选排序方法
CN108710455A (zh) * 2018-04-04 2018-10-26 北京天元创新科技有限公司 一种子网的图形化管理方法及装置
CN108710455B (zh) * 2018-04-04 2020-12-22 北京天元创新科技有限公司 一种子网的图形化管理方法及装置
CN109800504A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种异质信息网络的嵌入方法和装置
CN109800504B (zh) * 2019-01-21 2020-10-27 北京邮电大学 一种异质信息网络的嵌入方法和装置
CN110010196A (zh) * 2019-03-19 2019-07-12 北京工业大学 一种基于异质网的基因相似性搜索算法
CN110533253A (zh) * 2019-09-04 2019-12-03 安徽大学 一种基于异构信息网络的科研合作关系预测方法
CN110533253B (zh) * 2019-09-04 2021-05-25 安徽大学 一种基于异构信息网络的科研合作关系预测方法

Also Published As

Publication number Publication date
CN103559318B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103678672B (zh) 一种信息推荐方法
CN103106279B (zh) 一种同时基于节点属性以及结构关系相似度的聚类方法
Clauset et al. Finding community structure in very large networks
CN105574025B (zh) 用于计算排序分及建立模型的方法、装置及商品推荐系统
CN103325061B (zh) 一种社区发现方法和系统
CN111428147A (zh) 结合社交和兴趣信息的异源图卷积网络的社交推荐方法
CN103559318A (zh) 对异质信息网络包含的对象进行排序的方法
CN102148717B (zh) 一种二分网络中社团检测方法及装置
CN106991617B (zh) 一种基于信息传播的微博社交关系提取算法
CN104636978B (zh) 一种基于多标签传播的重叠社区检测方法
CN108647800B (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
Gallos et al. Imdb network revisited: unveiling fractal and modular properties from a typical small-world network
CN103559320A (zh) 对异质网络中对象进行排序的方法
CN107276843B (zh) 一种基于Spark平台的多目标进化社区检测方法
CN112052404A (zh) 多源异构关系网络的群体发现方法、系统、设备及介质
CN103838831A (zh) 一种基于社区划分的在线社交网络海量数据存储方法
CN106407379A (zh) 一种基于Hadoop平台的电影推荐方法
Sheng et al. Community detection based on human social behavior
CN104035978B (zh) 社团发现方法及系统
Wickman et al. A Generic Graph Sparsification Framework using Deep Reinforcement Learning
Farokh et al. New heuristics for burning graphs
CN104657901A (zh) 一种基于随机游走的标签传播社区发现方法
Zhang et al. Locality and attachedness‐based temporal social network growth dynamics analysis: A case study of evolving nanotechnology scientific collaboration networks
CN113034297A (zh) 基于节点吸引力的复杂网络关键节点识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant