CN101661482A - 在网络中识别相似子图的方法和设备 - Google Patents

在网络中识别相似子图的方法和设备 Download PDF

Info

Publication number
CN101661482A
CN101661482A CN200810212645A CN200810212645A CN101661482A CN 101661482 A CN101661482 A CN 101661482A CN 200810212645 A CN200810212645 A CN 200810212645A CN 200810212645 A CN200810212645 A CN 200810212645A CN 101661482 A CN101661482 A CN 101661482A
Authority
CN
China
Prior art keywords
subgraph
key node
similar
sample
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810212645A
Other languages
English (en)
Inventor
钱伟红
刘世霞
曹楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200810212645A priority Critical patent/CN101661482A/zh
Priority to US12/548,513 priority patent/US8446842B2/en
Publication of CN101661482A publication Critical patent/CN101661482A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种从大网络图形中寻找与给定子图相似的子图的方法和系统,尤其适用于寻找大网络图形中的相似群落结构。当样本子图是群落结构时,其中通常包含紧密关联的大量节点,因此可以通过样本子图中的关键节点而进行筛选以寻找与样本子图相似的候选子图,然后再严格地比较每个候选子图与样本子图,以确定与样本子图相似的子图。

Description

在网络中识别相似子图的方法和设备
技术领域
本发明涉及网络中的相似子图的识别,进一步涉及包含群落的网络中的相似子图识别。
背景技术
许多现代应用处理能够被表示为图的对象。例如,交通运输需要处理道路网络,CAD/CAM应用需要组织电子或电路元件,图形识别和计算机视觉应用程序需要对未知对象进行分类,化学和分子生物学需要操作分子。在上述以及更多的应用中,对象的本质是结构性的(structural)并因此能够被作为图考虑。例如,图可以被表示为G(V,E),由一组节点V以及一组边E组成,一条边连接两个节点。图1示出了一个简单的网络图形的例子。在许多领域,所涉及的对象非常多,对象之间的关系也很复杂,因此可以被表示为巨大且复杂的网络图形。为了更好的理解本发明,以下介绍网络图形处理中的一些常用术语。
通常把图分为几类,包括单图、伪图(带有环)、多图(两条或多条边连接一对节点)、有向图(边具有方向)、加权图(每条边有相关的权重)等。为了便于讨论,本发明的具体实施例是结合单图来举例的。图之间的相似度可以通过计算图之间的距离(distance)来实现。图之间的距离越小,则图相似度越高。如果图之间的距离是0,则可以认为图是完全相同的。度量图之间的距离通常有两种方式:
-基于特征的距离(feature-based distance):从对象的结构表示中提取一组特征,这些特征被用作n维向量,从而可以计算欧几里德空间距离。
-基于成本的距离(cost-based distance):两个对象之间的距离度量了把第一对象变换为第二对象所需要的操造(编辑)次数。
现有技术中已经提出若干使用上述方式之一来计算图相似度的方法,例如Apostolos N.Papadopoulos,Yannis Manolopoulos的“Structure-Based Similarity Search with Graph Histograms”,10thInternational Workshop on Database & Expert Systems Applications,pp.174-178,September 1-3,1999,就是基于成本函数来计算图形相似度;还例如J.Raymond,E.Gardiner,and P.Willett的“Rascal:Calculation of Graph Similarity Using Maximum Common EdgeSubgraphs”,The Computer Journal,vol.45,no.6,pp.631-644,2002;还例如A.sanfeliu和K.-S.Fu的“A Distance Measure betweenAttributed Relational Graphs for Pattern Recognition”,IEEETransactions on Systems,Man and Cybernetics,vol.13,pp.353-362,1983。
网络图形领域经常面临的一个问题是如何从一个大且复杂的网络图形中检测群落结构(community structure)。所谓的群落是顶点V组成的一些子集,每个子集中的顶点之间的连接很密集,而子集和子集之间的连接很疏松,如图2所示。这种不均匀的连接表明了所述网络内有某种程度的自然分割。群落结构在真实的网络中是很常见的。例如,社区网络经常包含基于共同的位置、兴趣、职业等的群落。新陈代谢网络具有基于功能性分组的群落。通过识别网络内的这些子结构,能够深入理解网络的功能和拓扑结构。
找出任意网络中的群落是一个艰巨的任务。网络中的群落数目(如果有的话)通常是未知的,群落经常具有不同的大小和密度。尽管有这些困难,但是现有技术中已经提出了一些方法来寻找群落。最早的一种算法是把网络分割,即最小切割方法(Minimum-cut method),其变体为比例切割、规范切割等。该方法应用于例如并行计算的负载平衡,以最小化处理器节点之间的通信。在最小切割方法中,网络被分割为预定数目的部分(组),每个部分的大小通常基本相同,其被选择为使每组之间的边数是最小化的。该方法在为其最初设计的多个领域表现不错,但是在一般的网络中寻找群落时并不理想,因为它不考虑群落是否隐含在网络中,而且只寻找固定数目的群落。此外,一种最广泛使用的群落检测方法是模块最大化(ModularityMaximization)。模块是一种利益函数,其度量把网络分为群落的特定分割的质量。模块最大化方法搜索网络的可能分割以寻找一个或多个具有特别高的模块化程度的分割,从而检测出群落。由于穷尽式地搜索所有可能的分割通常是不可能的,因此提出了一些实际算法来近似优化,例如贪婪算法、仿真退火、或光谱优化等。
但是,当上述这些方法应用于巨大且复杂的网络图形时,所要求的计算量也是巨大的,常常是O(n3)数量级的计算复杂度。因此,采用现有方法来从巨大网络中寻找相似的子图(例如,群落结构)是有难度的。
发明内容
为了解决上述问题,本发明提出了一种从巨大的网络图形中寻找与样本子图相似的子图的方法和系统,尤其适用于寻找巨大网络图形中相似的群落结构。具体而言,当样本子图是群落结构时,其中通常包含大量的紧密关联的节点,因此可以通过群落结构中的关键节点而进行筛选以寻找与样本子图相似的候选子图,然后再严格地比较每个候选子图与样本子图,以确定与样本子图相似的子图。
本发明的一个主要优点是,首先通过处理样本子图的关键节点而进行预筛选,再从筛选结果中进行严格比较。这样减少了需要严格比较的网络图形规模,从而极大地提高了性能。
本发明一方面提出了一种从网络中识别可能与样本子图相似的候选子图的方法,包括:确定所述样本子图中的样本关键节点;从所述网络中选择与所述样本关键节点相似的关键节点;把所选出的相似关键节点分组;分别把至少一个相似关键节点组扩展为相应的候选子图。
本发明另一方面还提出了一种从网络中识别与样本子图相似的子图的方法,包括:确定所述样本子图中的样本关键节点;从所述网络中选择与所述样本关键节点相似的关键节点;把所选出的相似关键节点分组;分别把至少一个相似关键节点组扩展为相应的候选子图;比较每个候选子图与所述样本子图,从而识别所述网络中与所述样本子图相似的子图。
本发明另一方面还提出了一种从网络中识别与样本子图相似的子图的设备,包括:样本关键节点提取单元,用于从所述样本子图中提取样本关键节点;相似关键节点提取单元,用于从所述网络中选择与所述样本关键节点相似的关键节点;关键节点分组单元,用于所选出的相似关键节点分组;扩展单元,用于分别把至少一个相似关键节点组扩展为相应的候选子图;比较单元,用于比较每个候选子图与所述样本子图,从而识别所述网络中与所述样本子图相似的子图。
附图说明
这里所公开的系统和方法在其各种实施例中克服了上述现有技术的缺点,并且实现了这种系统和方法之前不可能存在的优点。
以下将参考附图更完整地描述本发明,附图示出了本发明的优选实施例。但是本发明可体现在许多其他的形式中,而不应当被理解为限于这里所述的实施例;相反提供这些实施例是为了公开内容将会详尽和完整,并且将会完整地将本发明的范围传达给本领域的技术人员。
图1(a)示出了一个道路网络。
图1(b)示出了图1(a)的道路网络被表示为图形的例子。
图2显示了一个包含群落的网络图形。
图3显示了本发明的寻找相似子图的方法的范例流程图。
图4显示了根据本发明一个实施例的图3所示方法流程的步骤S305。
图5显示了根据本发明一个实施例的图3所示方法流程的步骤S310。
图6显示了根据本发明一个实施例的图3所示方法流程的步骤S315。
图7显示了根据本发明一个实施例的图3所示方法流程的步骤S320。
图8显示了实现本发明的装置的范例结构图。
图9显示了执行本发明上述一系列处理的个人计算机硬件结构的例子。
具体实施方式
本发明提出了一种新颖的方法和系统以寻找巨大网络中与样本子图相似的子图。本申请的方法和系统可以用于多种领域,例如数据库搜索、生物活动的预测、组合合成物的设计、分子谱的解译、关于社会网络的分析等。简要的说,本发明的主要思路是,通过处理样本子图的关键节点来筛选出可能与样本子图相似的候选子图,然后再从所筛选出的候选子图中寻找与样本子图相似的子图。
图2显示了一个范例的网络图形,其中包含若干群落。为了便于理解,图2给出的网络图形并不复杂,包含3个群落。每个群落内部的节点之间连接相对紧密,而群落之间的连接相对疏松。
图3显示了根据本发明如何从大网络图形中寻找与样本子图相似的子图的范例流程图。具体步骤如下所述。
步骤S305中,确定样本子图中的关键节点(以下称为样本关键节点)。应当指出,所述样本子图既可以是从外部输入的、也可以是所述网络中的一部分。
图4示出了根据本发明实施例的步骤S305的处理。图4左侧显示了样本子图S1,其中步骤S305选出3个样本关键节点k1、k2和k3
子图也是由若干节点和边构成。每个节点具有可以预先定义的拓扑和/或语义属性,包括但不限于:点度中心性(degree centrality),中介中心性(betweenness centrality),接近中心性(closeness centrality),群聚系数(clustering coefficient),以及图的链接情况,这个属性类似于一些搜索引擎采用的链接分析(Line analysis),等等。上述属性也是本领域技术人员所熟知的内容。
具体而言,点度中心性通常被定义为进入一个节点v的链接的数目(即该节点具有的边E的数目)。如果是有向网络图形,则可以把点度中心性进一步区分为入点度(indegree)和出点度(outdegree)。点度中心性描述了一个节点与网络中其它节点之间联系的紧密程度。
中介中心性通常被视作一个节点在其图形中的重要性的度量。频繁在其它节点之间的最短路径上出现的那些节点具有较高的中介中心性。中介中心性很好地描述了网络中某个节点可能需要承载的流量。例如在通信网络中,一个节点v的中介中心性越大,流经它的数据分组越多,意味着它更容易拥塞,成为网络的瓶颈。实际的网络中,往往只有一小部分节点的中介中心性很大,这些节点称之为中枢节点。一旦中枢节点崩溃,整个网络就面临瘫痪的危险。
假设σst=σts是节点s和节点t之间的最短路径,其中约定σss=1;还假设σst(v)表示节点v在从节点s到节点t的最短路径中出现的次数,则中介中心性可以表示为(CB(v)为节点v的中介中心性):
C B ( υ ) = Σ s ≠ υ ≠ t ∈ V σ st ( υ ) σ st betweenness centrality ( Freeman , 1977 ; Anthonisse , 1971 )
其中上式的V表示节点集。
接近中心性是图形领域的一个基本概念。它是节点在图形中的中心性的另一种度量。例如,它可以定义为节点v与所有其它可达节点之间的平均测地距离。假设dG(s,t)表示节点t和s之间的距离,即连接s和t的最短路径长度,并约定dG(s,s)=0以及dG(s,t)=dG(t,s),则接近中心性可以表示为(CC(v)为节点v的接近中心性,dG(v,t)为节点v到节点t的最短距离,t取除v外的所有节点):
C C ( v ) = 1 Σ t ∈ V d G ( v , t ) closeness centrality(Sabidussi,1966)
链接分析也是网络分析,其探索对象之间的关系。一个例子是检查嫌疑人和被害人的地址、他们拨出的电话号码、给定时间间隔内他们进行的金融交易、以及这些对象之间的家庭关系,以作为警方调查的一部分。这里链接分析提供了不同类型的大量对象之间的重要关系和关联,而从孤立信息来看这些关系和关联是不明显的。计算机辅助的、或全自动的基于计算机的链接分析越来越多地使用在银行、保险公司的欺诈检测中,电信运营商的电信网络分析中,流行病学和制药学的医学部门中,执法调查中,搜索相关度排名的搜索引擎中,以及任何需要分析大量对象之间的关系的场合。例如,有些网页搜索排序算法使用基于链接的中心性度量,包括Marchiori’s Hyper Search,Google’s PageRank,Kleinberg’s HITS算法以及TrustRank算法。链接分析还使用在信息科学和通信科学中,以理解并提取网页集合的结构中的信息。例如,链接分析可以使政治家的网站或博客之间的相互链接。
由于上述各种节点属性都可以被量化,因此可以根据具体应用的需要,采用预先定义的标准(例如,预定阈值)从样本子图中选出关键节点。例如,当网络图形代表通信网络时,可以选择具有大于某一阈值的中介中心性的节点作为关键节点;当网络图形代表由电子邮件帐户构成的社区网络时,可以选择具有大于某一阈值的点度中心性的节点作为关键节点;当网络图形代表网站之间的相互链接时,可以采用具有某数值范围的链接分析值的节点作为关键节点。
此外,显而易见的是上述节点属性仅是示例性而非限制性的。本领域技术人员完全可以采用其它节点属性来从子图中选择关键节点。此外,上述属性不仅可以单独使用,也可以组合使用。
步骤S310中,从网络图形中选择与所述样本关键节点相似的关键节点。
图5示出了根据本发明实施例的步骤S310的处理。图5右侧显示了步骤S310所选出的关键节点(被圆圈包围),它们与左侧的3个样本关键节点k1、k2和k3相似。
优选地,步骤S310所采用的选择标准是与步骤S305采用的标准相同。这样,从所述网络图形中选择的关键节点具有与所述样本关键节点的属性相似(甚至相同)的属性。因此这里不再赘述。可替换地,步骤S310还可以分析步骤S305输出的样本关键节点的属性,并直接从网络中选择与样本关键节点具有相同或相似的属性的节点。
步骤S315中,把所选的相似的关键节点分组。
优选地,选出那些能够组成与所述样本关键节点构成图形相似的图形的关键节点作为一组。
图6示出了根据本发明实施例的步骤S315的处理。图6左侧示出了3个样本关键节点。直观地看,3个样本关键节点k1、k2和k3作为一个子图G1(如图6左侧的圆圈内所示),其构成了三角形。从步骤S310中确定的那些关键节点中寻找那些能够组成与所述3个样本关键节点构成的子图相似的图形的关键节点,并将其作为一组。图6右侧显示了所选出的2组(如图6右侧的圆圈内所示),这两组的关键节点都各自能够形成三角形子图G2和G3,并与3个样本关键节点k1、k2和k3形成的三角形子图G1相类似。
步骤S315实际上仅对步骤S310输出的关键节点进行处理,即比较样本子图中的样本关键节点和整个网络图形中的关键节点,例如将样本外的关键节点划分出多个组,每个组里关键节点的拓扑结构与样本中关键节点构成的拓扑结构相似。即使在规模较大且复杂的网路中,真正重要的关键节点往往也不会太多,因此步骤S315的计算负担也是可以承受的。优选地,本实施例中有3样本关键节点k1、k2和k3组成G1,并从所有的关键节点中寻找与G1相似的关键节点组。
可以采用各种方法来实现上述步骤S315。例如,Fernandez和Valiente的“Pattern Recognition Letters”,2001,介绍了如何寻找最大公共子图(Maximum common subgraph),即识别两个图形之间最大的同构(isomorphic)子图。所谓同构(isomorphism)是本领域的公知术语,这里不再详述。还例如Laura Zaget.的“Graph Similarityand Matching”,Master’s thesis,EECS,MIT,2005,也介绍了如何确定图形之间可能存在的同构关系。
应当指出,同构描述了图形之间的严格匹配,还可以放松标准以寻找满足预定相似程度的关键节点组。
此外,步骤S315也不仅限于上述提出的各种具体方法,本领域技术人员完全能够采用其它各种方式来实施步骤S315,只要能识别与样本关键节点k1、k2和k3组G1相似的任何关键节点组。
步骤S320把步骤S315输出的每一个关键节点组进行扩展,以得到候选样本子图。
图7显示了根据本发明实施例的步骤S320的处理。图7左侧显示了样本子图S1,图7右侧则显示了从关键节点组G2和G3扩展得到的候选子图S2和S3(如图7虚线矩形内所示)。
优选地,采用逐步扩展的方法把所述每个关键节点组扩展为一个候选子图。例如,可以采用1步扩展的方法,即从每组的每个关键节点扩展到其直接相邻的节点。可替换地,采用n步扩展的方法,n>1,即从每个关键节点开始扩展到与其相邻n步的节点。本实施例中,可以从关键节点开始一步一步扩展,直到扩展得到的子图的规模能够与样本子图S1具有可比性,如图7所示。本领域的技术人员完全可以根据需要对参数n进行预先设定。
可替换的,不预先设定扩展步数n,而是在每步扩展之后都与样本子图S1进行对比,直到满足需要为止。例如,把关键节点作为种子节点,把所有与种子节点直接相邻的节点加入子图,从而扩展子图,重复这些步骤直到满足某一标准,例如所述子图中的总节点数到达某给定数值。以这种方式生成了候选子图。
可替换的,还可以对步骤S315输出的至少一个关键节点组进行扩展,以得到至少一个候选子图,而非对每一个关键节点组进行扩展。
步骤S325中,严格比较每个候选子图S2和S3与样本子图S1,以找出与样本子图S1相似(甚至相同)的子图。在本实施例所给出的例子中,如图7所示,候选子图S2、S3中与样本子图S1都相似、但并不相同。
可以采用背景技术中介绍的各种方法来实现步骤S325。例如,Apostolos N.Papadopoulos,Yannis Manolopoulos的“Structure-BasedSimilarity Search with Graph Histograms”,其中基于成本函数来计算图形相似度;还例如J.Raymond,E.Gardiner,and P.Willett的“Rascal:Calculation of Graph Similarity Using Maximum CommonEdge Subgraphs”也能够对图形相似度进行严格比较。
应当指出,通过步骤S305-S320的处理,步骤S325仅需要比较候选子图S2、S3即可,而无需把样本子图S1与整个网络图形比较。
步骤S325之后,处理结束到S330。
应当指出,图4-7所示的实施例仅仅是示例性的。尤其是,为了简化说明,图4-7所示的网络图形比较简单。在实际应用中的网络图形可能是庞大而复杂的,其中包含许多群落结构,而样本子图和候选子图仅仅是整个网络图形中的一小部分。这种情况下,本发明能够显著地减少计算复杂度,因此应用价值更加显著。
图8显示了实现本发明的装置的一种范例结构图。
图8中的候选子图生成装置800用于产生和样本子图比较的候选子图。
候选子图生成装置800包括:样本关键节点提取单元805、相似关键节点提取单元810、关键节点分组单元815以及扩展单元820。
样本关键节点提取单元805接收样本子图,并从中提取样本关键节点,如图3的步骤S305所述。
相似关键节点提取单元810接收样本关键节点提取单元805输出的样本关键节点,并从整个网络图形中提取相似关键节点。优选地,相似关键节点提取单元810所采用的提取标准与样本关键节点提取单元805所采用的提取标准相同,如图3的步骤S310所述。
可替换地,相似关键节点提取单元810还可以分析所接收的样本关键节点的属性,并选择与样本关键节点具有相同或相似的属性的节点。
关键节点分组单元815接收相似关键节点提取单元810输出的相似关键节点,并将其分组,使得每个关键节点组构成的图形与样本关键节点构成的图形相同或相似,如图3的步骤S315所述。
扩展单元820接收关键节点分组单元815输出的关键节点组,并把每一组扩展为一个候选子图,如图3的步骤S320所述。由此,候选子图生成装置800输出了用于与样本子图比较的候选子图。
所述候选子图生成装置800可以把候选子图输出给后续的比较装置(未示出),比较装置可以把候选子图与样本子图进行比较,以识别出与样本子图相同或相似的子图。
还应当指出,所述候选子图生成装置800可以与所述比较装置集成为单个装置,还可以分离地实施为不同的装置。
图9显示了执行本发明上述一系列处理的个人计算机硬件结构的例子。
该计算机中,CPU(中央处理单元)901、ROM(只读存储器)902及RAM(随机访问存储器)903彼此通过总线904进行连接。
输入/输出接口905连接到总线904。该输入/输出接口905连接到由键盘、鼠标、麦克风等构成的输入单元906、由显示器、扬声器等构成的输出单元907、由硬盘、非易失性存储器等构成的存储单元908、由网络接口等构成的通信单元909及用于驱动诸如磁盘、光盘、磁光盘或半导体存储器等的可移动介质911的驱动器910。
这种结构的计算机中,CPU 901将存储在存储单元908中的程序经由输入/输出接口905和总线904加载到RAM 903,从而执行程序。
计算机(CPU 901)执行的程序被记录在作为由磁盘(包括软盘)、光盘(CD-ROM(压缩盘只读存储器))、DVD(数字多功能盘)、磁光盘、半导体存储器的封装介质的可移动介质911上,或者经由诸如局域网、互联网以及数字微型广播的有线或无线传输介质进行提供。
另外,通过将可移动介质911安装到驱动器910,程序能够经由输入/输出接口905安装在存储单元908中。另外,程序能够经由有线或无线传输介质由通信单元909进行接收,并且能够被安装在存储单元908中。此外,程序能够被预先安装在ROM 902中或存储单元908中。
应该注意,计算机执行的程序可以是具有依照本说明书描述的顺序执行以上步骤的程序,还可以是在需要这些处理步骤的时序(例如当对它调用时)执行这些处理步骤的程序。
应该注意,本发明的实施例不限于上述实施例,并且在不脱离本发明要点的情况下,可以进行各种变型。
本领域技术人员应该明白,可以根据权利要求及其等同物的范围内的设计需求和其它因素想到各种变型、组合、子组合及替换。

Claims (15)

1.一种从网络中识别与样本子图相似的子图的方法,包括:
确定所述样本子图中的样本关键节点;
从所述网络中选择与所述样本关键节点相似的关键节点;
把所选出的相似关键节点分组;
分别把至少一个相似关键节点组扩展为相应的候选子图;
比较每个候选子图与所述样本子图,从而识别所述网络中与所述样本子图相似的子图。
2.根据权利要求1的方法,其中确定所述样本子图中的样本关键节点的步骤还包括:选择所述样本子图中具有预定属性的节点作为所述样本关键节点。
3.根据权利要求2的方法,所述属性是节点的点度中心性、中介中心性、接近中心性以及链接分析中的至少之一。
4.根据权利要求2的方法,其中从所述网络中选择与所述样本关键节点相似的关键节点的步骤还包括:从所述网络中选择具有与所述预定属性相似的属性的节点作为所述相似关键节点。
5.根据权利要求1的方法,其中把所选出的相似的关键节点分组的步骤包括:把能够组成与所述样本关键节点构成图形相似的图形的关键节点作为一组。
6.根据权利要求1的方法,其中把至少一个相似关键节点组扩展为相应的候选子图的步骤包括:通过逐步扩展把一个相似关键节点组扩展为一个候选子图。
7.根据权利要求1的方法,其中所述样本子图是群落。
8.一种从网络中识别与样本子图相似的子图的设备,包括:
样本关键节点提取单元,用于从所述样本子图中提取样本关键节点;
相似关键节点提取单元,用于从所述网络中选择与所述样本关键节点相似的关键节点;
关键节点分组单元,用于把所选出的相似关键节点分组;
扩展单元,用于分别把至少一个相似关键节点组扩展为相应的候选子图;
比较单元,用于比较每个候选子图与所述样本子图,从而识别所述网络中与所述样本子图相似的子图。
9.根据权利要求8的设备,其中所述样本关键节点提取单元选择所述样本子图中具有预定属性的节点作为所述样本关键节点。
10.根据权利要求9的设备,所述属性是节点的点度中心性、中介中心性、接近中心性以及链接分析中的至少之一。
11.根据权利要求9的设备,其中所述相似关键节点提取单元从所述网络中选择具有与所述预定属性相似的属性的节点作为所述相似关键节点。
12.根据权利要求8的设备,其中所述关键节点分组单元把能够组成与所述样本关键节点构成图形相似的图形的关键节点作为一组。
13.根据权利要求8的设备,其中所述扩展单元通过逐步扩展把一个相似关键节点组扩展为一个候选子图。
14.根据权利要求8的设备,其中所述样本子图是群落。
15.一种从网络中识别可能与样本子图相似的候选子图的方法,包括:
确定所述样本子图中的样本关键节点;
从所述网络中选择与所述样本关键节点相似的关键节点;
把所选出的相似关键节点分组;
分别把至少一个相似关键节点组扩展为相应的候选子图。
CN200810212645A 2008-08-27 2008-08-27 在网络中识别相似子图的方法和设备 Pending CN101661482A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200810212645A CN101661482A (zh) 2008-08-27 2008-08-27 在网络中识别相似子图的方法和设备
US12/548,513 US8446842B2 (en) 2008-08-27 2009-08-27 Method and apparatus for identifying similar sub-graphs in a network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810212645A CN101661482A (zh) 2008-08-27 2008-08-27 在网络中识别相似子图的方法和设备

Publications (1)

Publication Number Publication Date
CN101661482A true CN101661482A (zh) 2010-03-03

Family

ID=41789510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810212645A Pending CN101661482A (zh) 2008-08-27 2008-08-27 在网络中识别相似子图的方法和设备

Country Status (2)

Country Link
US (1) US8446842B2 (zh)
CN (1) CN101661482A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646168A (zh) * 2012-04-16 2012-08-22 南京大学 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法
CN102724219A (zh) * 2011-03-29 2012-10-10 国际商业机器公司 网络数据的计算机处理方法及系统
CN102801552A (zh) * 2011-05-23 2012-11-28 通用汽车环球科技运作有限责任公司 基于网络建模的用于错误隔离和错误减轻的系统和方法
CN104767774A (zh) * 2014-01-06 2015-07-08 国际商业机器公司 用于灾难恢复的方法和系统
CN104933621A (zh) * 2015-06-19 2015-09-23 天睿信科技术(北京)有限公司 一种担保圈的大数据分析系统和方法
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN110427494A (zh) * 2019-07-29 2019-11-08 北京明略软件系统有限公司 知识图谱的展示方法、装置、存储介质及电子装置
CN110798467A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 目标对象识别方法、装置、计算机设备及存储介质

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661482A (zh) * 2008-08-27 2010-03-03 国际商业机器公司 在网络中识别相似子图的方法和设备
US20100205238A1 (en) * 2009-02-06 2010-08-12 International Business Machines Corporation Methods and apparatus for intelligent exploratory visualization and analysis
CN101876982B (zh) * 2009-04-30 2012-08-15 国际商业机器公司 动态非连通网络在显示区域内的布局方法和系统
US9390194B2 (en) * 2010-08-31 2016-07-12 International Business Machines Corporation Multi-faceted visualization of rich text corpora
US8799438B2 (en) * 2010-12-14 2014-08-05 Microsoft Corporation Generic and automatic address configuration for data center networks
CN102650964B (zh) * 2011-02-28 2016-03-09 国际商业机器公司 用于监控面向对象的应用的方法、系统和自监控系统
US9661084B2 (en) * 2012-09-28 2017-05-23 7517700 Canada Inc. O/A Girih Method and system for sampling online communication networks
US9652875B2 (en) 2012-10-29 2017-05-16 Yahoo! Inc. Systems and methods for generating a dense graph
EP2916268A1 (en) * 2014-03-05 2015-09-09 Fujitsu Limited A computer-implemented k-shortest path finding method
WO2015162458A1 (en) 2014-04-24 2015-10-29 Singapore Telecommunications Limited Knowledge model for personalization and location services
US9760619B1 (en) 2014-04-29 2017-09-12 Google Inc. Generating weighted clustering coefficients for a social network graph
US10402430B2 (en) * 2014-06-09 2019-09-03 Alcatel Lucent Method and system for representing paths on a graph based on a classification
US10769545B2 (en) 2014-06-17 2020-09-08 D-Wave Systems Inc. Systems and methods employing new evolution schedules in an analog computer with applications to determining isomorphic graphs and post-processing solutions
US10210280B2 (en) 2014-10-23 2019-02-19 Sap Se In-memory database search optimization using graph community structure
US9934327B2 (en) * 2015-06-01 2018-04-03 International Business Machines Corporation Mining relevant approximate subgraphs from multigraphs
CN105490840A (zh) * 2015-11-26 2016-04-13 电子科技大学 一种基于网络拓扑结构的故障诊断测点选择方法
US11979309B2 (en) * 2015-11-30 2024-05-07 International Business Machines Corporation System and method for discovering ad-hoc communities over large-scale implicit networks by wave relaxation
US10841852B2 (en) 2015-12-09 2020-11-17 DataSpark, PTE. LTD. Transportation network monitoring using cellular radio metadata
CN106874289B (zh) * 2015-12-11 2020-04-24 阿里巴巴集团控股有限公司 一种关联节点确定方法及设备
US10592534B2 (en) 2016-02-16 2020-03-17 Microsoft Technology Licensing Llc Automated aggregation of social contact groups
US10176340B2 (en) * 2016-03-13 2019-01-08 DataSpark, PTE. LTD. Abstracted graphs from social relationship graph
US11157520B2 (en) 2016-03-28 2021-10-26 DataSpark, Pte Ltd. Uniqueness level for anonymized datasets
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
CN108009933B (zh) * 2016-10-27 2021-06-11 中国科学技术大学先进技术研究院 图中心性计算方法及装置
US10970724B2 (en) * 2017-01-06 2021-04-06 At&T Intellectual Property I, L.P. Generating telecommunication network construction zones via clustering on weighted adjacency graphs of distribution areas
WO2018150227A1 (en) 2017-02-17 2018-08-23 Dataspark Pte, Ltd Mobility gene for trajectory data
WO2018150228A1 (en) 2017-02-17 2018-08-23 Dataspark Pte, Ltd Mobility gene for visit data
US11418915B2 (en) 2017-02-17 2022-08-16 DataSpark, PTE. LTD. Trajectory analysis with mode of transportation analysis
US10425435B1 (en) * 2017-04-19 2019-09-24 Symantec Corporation Systems and methods for detecting anomalous behavior in shared data repositories
CN110020087B (zh) * 2017-12-29 2021-11-09 中国科学院声学研究所 一种基于相似度估计的分布式PageRank加速方法
CN108833461B (zh) * 2018-04-10 2020-07-17 中国矿业大学 基于网络分解的社交网络关键节点发现方法及系统
CN108829770B (zh) * 2018-05-29 2020-07-17 浙江大学 一种相似子图间实体对应关系的快速查找方法
RU2769084C2 (ru) * 2020-04-28 2022-03-28 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система нахождения схожих мошеннических групп по графовым моделям
US11500876B2 (en) 2020-04-29 2022-11-15 International Business Machines Corporation Method for duplicate determination in a graph
US11941056B2 (en) 2020-04-29 2024-03-26 International Business Machines Corporation Method for weighting a graph
CN112214616B (zh) * 2020-10-20 2024-02-23 北京明略软件系统有限公司 知识图谱流畅展示方法、装置
US20220222543A1 (en) * 2021-01-13 2022-07-14 International Business Machines Corporation Information Matching Using Subgraphs
US11531656B1 (en) * 2021-06-08 2022-12-20 International Business Machines Corporation Duplicate determination in a graph
CN113436674B (zh) * 2021-06-23 2023-02-17 兰州大学 一种基于topsis种子扩张的增量式社团检测方法—tseia

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI20002377A (fi) * 2000-10-27 2002-04-28 Ssh Comm Security Corp Menetelmä käännetyn suodatinkoodin hallitsemiseksi
US7974978B2 (en) * 2004-04-30 2011-07-05 International Business Machines Corporation System and method for graph indexing
US8326823B2 (en) * 2007-11-01 2012-12-04 Ebay Inc. Navigation for large scale graphs
US9311402B2 (en) * 2007-12-21 2016-04-12 Semantinet Ltd. System and method for invoking functionalities using contextual relations
US8000262B2 (en) * 2008-04-18 2011-08-16 Bonnie Berger Leighton Method for identifying network similarity by matching neighborhood topology
CN101661482A (zh) * 2008-08-27 2010-03-03 国际商业机器公司 在网络中识别相似子图的方法和设备
US8041729B2 (en) * 2009-02-20 2011-10-18 Yahoo! Inc. Categorizing queries and expanding keywords with a coreference graph

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724219A (zh) * 2011-03-29 2012-10-10 国际商业机器公司 网络数据的计算机处理方法及系统
CN102724219B (zh) * 2011-03-29 2015-06-03 国际商业机器公司 网络数据的计算机处理方法及系统
US10103942B2 (en) 2011-03-29 2018-10-16 International Business Machines Corporation Computer processing method and system for network data
CN102801552A (zh) * 2011-05-23 2012-11-28 通用汽车环球科技运作有限责任公司 基于网络建模的用于错误隔离和错误减轻的系统和方法
CN102801552B (zh) * 2011-05-23 2015-09-30 通用汽车环球科技运作有限责任公司 基于网络建模的用于错误隔离和错误减轻的系统和方法
CN102646168A (zh) * 2012-04-16 2012-08-22 南京大学 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法
CN104767774A (zh) * 2014-01-06 2015-07-08 国际商业机器公司 用于灾难恢复的方法和系统
CN104933621A (zh) * 2015-06-19 2015-09-23 天睿信科技术(北京)有限公司 一种担保圈的大数据分析系统和方法
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN108804599B (zh) * 2018-05-29 2022-01-04 浙江大学 一种相似交易模式的快速查找方法
CN110427494A (zh) * 2019-07-29 2019-11-08 北京明略软件系统有限公司 知识图谱的展示方法、装置、存储介质及电子装置
CN110798467A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 目标对象识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US20100063973A1 (en) 2010-03-11
US8446842B2 (en) 2013-05-21

Similar Documents

Publication Publication Date Title
CN101661482A (zh) 在网络中识别相似子图的方法和设备
CN107862046B (zh) 一种基于短文本相似度的税务商品编码分类方法及系统
JP5092165B2 (ja) データ構築方法とシステム
CN107862022B (zh) 文化资源推荐系统
CN109815952A (zh) 品牌名称识别方法、计算机装置及计算机可读存储介质
Asdaghi et al. An effective feature selection method for web spam detection
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
JP2009104591A (ja) ウェブ文書クラスタリング方法およびシステム
CN108806718B (zh) 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN111199474A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN114722746B (zh) 一种芯片辅助设计方法、装置、设备及可读介质
CN110008306A (zh) 一种数据关系分析方法、装置及数据服务系统
CN111932269A (zh) 设备信息处理方法及装置
CN112115326B (zh) 一种以太坊智能合约的多标签分类和漏洞检测方法
JP2022073981A (ja) ソースコード取得
Sajadmanesh et al. Continuous-time relationship prediction in dynamic heterogeneous information networks
CN109145301A (zh) 信息分类方法及装置、计算机可读存储介质
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN110992194A (zh) 一种基于含属性的多进程采样图表示学习模型的用户参考指数算法
Tatti Discovering episodes with compact minimal windows
CN115987620B (zh) 一种检测web攻击的方法及系统
Doshi et al. Graph neural networks with parallel neighborhood aggregations for graph classification
Annam et al. Entropy based informative content density approach for efficient web content extraction
KR102405799B1 (ko) 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100303