CN101482876A

CN101482876A - 基于权重的链接多属性的实体识别方法

Info

Publication number: CN101482876A
Application number: CNA2008102446793A
Authority: CN
Inventors: 谢俊元; 刘红星; 雷钰丽; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2008-12-11
Filing date: 2008-12-11
Publication date: 2009-07-15
Anticipated expiration: 2028-12-11
Also published as: CN101482876B

Abstract

本发明基于权重的链接多属性的实体识别方法，包括以下步骤：1)数据预处理阶段：a)收集节点间关系数据；b)确定节点之间权重的表现方式，包括权重属性定义以及权重属性计算方法；c)生成给定节点的四层联系图；d)结束；2)实体识别阶段：a)通过把1－c生成的联系图中链接多属性映射为单属性得到中间关联图；b)计算给定节点与中间关联图中的其他节点的相似度；c)进行相似度排序，得到相似度前几位的节点编号；d)结束；本发明的基于权重的链接多属性的实体识别方法，利用了实际中关系数据的权重和模式信息来进行相似度度量，以此扩展了传统的实体识别的相似度度量方法，并使用提出的相似度量方法成功解决了链接多属性的实体识别问题。

Description

基于权重的链接多属性的实体识别方法

技术领域

本发明涉及实体识别方法，尤其是基于权重的链接多属性基于图的实体识别方法。

背景技术

实体识别的目的是在混淆的实体中找出其真正对应的实际实体。随着科学技术的进步，积累了越来越多的数据，这些数据包括了平面型的结构化数据和可以用图代表的链接型数据，各种大量的数据为各种预测提供了详尽的知识信息，比如个人的喜好或者社团结构的预测等。然而在这些知识信息被利用之前，必须要考虑一个最基本的属性：正确性，具体的说，必须能够确定两个不同的信息是不是代表同一个实体或者说这两个信息是不是冗余的。区分信息的正确性是使用和利用信息的前提，利用不正确的知识将对下面的分析和预测产生恶劣的影响。

实体识别领域传统的方法根据描述实体的字符串的相似度来表征实体间的相似程度，然后利用相似度度量进行聚类。目前，主要研究兴趣集中在使用链接或者关系结构来提高实体识别的精度，主要的思想是不仅考虑实体的属性之间的相似度如字符串的相似等，还考虑到与其相连的其他实体对其的影响。

随着实体识体识别领域的扩大，出现了一些新的应用场景，在这些应用场景中，如果采用原先的相似度度量方法进行计算，可能会丢失一些有用信息。本发明的思路就是在原有相似度度量的基础上提出新的相似度度量方法，把应用场景中一些丢失的有用信息加入到度量标准中来形成新的相似度度量准则。本发明针对这种特殊的应用场景，把基于无权重无向图的实体识别问题扩展到有权重图实体识别问题。本发明分别提出两个不同的相似度度量标准来处理有权重图的实体识别问题，一个是扩展Jaccard相似度度量标准使其能够在适应有权重图的实体识别，另外一种是借用马尔可夫随机游走的思想通过概率的形式来表示实体之间的相似性，并在这两种相似性度量基础上把表征图的权重形式从单一属性扩展到多属性，提出了基于链接多属性相似性的实体识别算法。

发明内容

本发明目的是：所要解决的技术问题是提供一种基于权重的链接多属性的实体识别方法，使基于图的实体识别从无向无权图扩展到包含权重向量的无向图中，以适用于包含众多权重模式信息的通信和相关领域；

本发明技术方案是：为解决上述问题，本发明的基于权重的链接多属性的实体识别方法包括如下步骤：

3)数据预处理阶段：

c)收集节点间关系数据；

d)确定节点之间权重的表现方式，包括权重属性定义以及权重属性计算方法；

e)生成给定节点的四层联系图；

f)结束；

4)实体识别阶段：

b)通过把步骤1-c)生成的联系图中的链接多属性映射为单属性得到中间关联图；

c)计算给定节点与中间关联图中的其他节点的相似度；

d)进行相似度排序，得到相似度前几位的节点编号；

e)结束；

其中：

步骤1-a)中获得个体之间的通信数据，这些通信数据的获得从交换机的原始话单或者是运营商那里得到的计费数据；

步骤1-b)中根据现实需要来具体决定相应的权重的表现方式和统计标准；

步骤1-c)中具体过程如下：

11)初始化队列，把给定的节点首先入队，并标记节点的层次为1层，标记为已访问过的节点。

12)设定程序状态信息，表示当前处理的节点的层次为第1层。

13)循环从队列中出队一个元素，同时得到此元素所在的层次，然后执行以下14到18步。

14)从关系数据中得到出队节点的所有联系节点。

15)针对没有被访问过的联系节点进行16-18步操作。

16)从关系数据中统计出权重的各个属性信息。

17)把节点以及它们的权重信息加入到关联图中。

18)把处理过的联系节点放到队列中供下次遍历。

步骤2-a)的具体过程如下：

21)对给定权重向量与基准向量的各个属性的值进行比对，循环进行22，23两步操作

22)分别得到两个向量当前属性值的最小值和最大值。

23)得到向量最小值的和以及最大值的和。

24)计算两个向量之间的相似程度。

25)把计算出来的相似度作为新的权重。

步骤2-b的具体过程如下：

31)对矩阵的每一行分别进行处理，循环进行32，33两步操作。

32)计算矩阵当前行的所有元素的和

33)分别对行的各个元素的值进行更新，更新的方法是当前的值除以所在行的所有值的和(第32步计算得到的值)

34)进行矩阵相乘运算得到相似度矩阵。

35)更新得到的相似度矩阵，把有边相连的两个节点的相似度置为0。

本发明有益效果：本发明的基于权重的链接多属性的实体识别方法成功的解决链接多属性的相似度计算问题，并且通过新定义的相似度度量更好满足了通信及相关领域的实体识别要求。

附图说明

图1为本发明的基于权重的多属性实体识别流程

图2为数据预处理阶段中生成联系图的流程

图3为把多属性链接转化为单属性链接的流程

图4为在进行转化后的图中计算相似度的流程

具体实施方式

下面结合附图对本发明进行详细说明。

如图1所示，在实体识别要经过要首先进行数据预处理才能进行识别。数据预处理的主要作用就是提取关系信息，并根据权重定义计算节点之间的权重信息。

步骤0为本发明的实体识别方法的起始状态。

在数据预处理阶段(步骤1-3)，步骤1主要获得人们之间的通信数据，这些通信数据的获得可以从交换机的原始话单或者是运营商那里得到的话费数据，这其中包含的最主要的就是通话双方之间的联系信息，包括目标号码和联系号码，以及通话类型，包括主叫、被叫等。步骤2确定权重表现方式，因为通信数据里包含了通信双方的通话信息，权重可以有不同的度量表现方式，一种是直接选中双方的通话次数，或者双方的通话时长作为权重的统计量。为了更好的利用通话模式方面的信息，可以采取包含多属性的统计信息来作为权重，如把属性定义为一天的24小时各个时段内平均通话次数作为统计量，那么采用的链接属性就包含了24个属性，这里不管采用单属性的统计量作为权重或者多属性的统计量作为权重都统一可以采用此框架来进行实体识别。

步骤3是节点之间联系图的产生，根据现实采集到的数据得到给定节点的四层联系图。

在实体识别阶段(步骤4-6)，步骤4的对得到关系图权重进行处理，把多属性的权重表现方式转化为单属性的权重表现方式。

步骤5使用步骤4转换得到的单权重图进行相似度计算，计算各个节点之间的相似度。

步骤6是按照相似度的大小对节点进行排序，并输出相似度较大的几个节点作为最后的结果。

图2是对图1中步骤3的详细描述，描述从关系数据中生成关系图的过程。

步骤10为起始步骤。

步骤11初始化队列，把给定的节点首先入队，并标记此节点的层次为1层，标记为已访问过的节点。

步骤12设定程序状态信息，表示当前处理的节点的层次为第1层。

步骤13从判断队列是否为空，并且保证当前处理的节点层次是不大于4的，如果有一个不满足就表示关系图生成结束，直接跳转到步骤22。

步骤14从队列中出队一个元素，并得到此元素所在的层次。

步骤15从关系数据中得到当前节点的所有联系节点。

步骤16-21是循环对当前节点的各个联系节点进行处理。步骤16是判断是否已经处理最后一个元素，如果已经处理完其所有的联系节点，则转到步骤13继续执行。

步骤17取出一个联系节点。

步骤18判断此节点是否已经访问过，如果已访问过则转到步骤16继续取出下一个联系节点，如果没有访问过，步骤19-21这是对没有访问过的节点进行处理。

步骤19是从关系数据中统计出步骤2定义的权重的各个属性信息。

步骤20是把节点以及它们的权重信息加入到关联图中。

步骤21是把处理过的联系节点放到队列中供下次遍历。

图3详述了图1中的步骤4。目的是把多属性的权重信息转化为单属性的权重信息。

步骤30是起始步骤。

步骤31定义了此流程中的参数的意义，其中链接1权重向量用weightVector1表示，基准链接的权重向量用weightVector2表示，向量的长度为len。

步骤32-35是进行向量的各个属性的值进行遍历。

步骤32判断是否向量的各个属性已经遍历完。

步骤33，34分别得到两个向量当前属性值的最小值和最大值。

步骤35得到存放向量最小值的和以及最大值的和。

步骤36是计算两个向量之间的相似程度。

步骤37是把向量与基准向量的相似程度作为权重赋给链接1。

步骤38是本流程的结束

图4详述了图1的步骤5。目的是在化简后的图中计算节点之间的相似度。

步骤40是起始步骤

步骤41是定义了此流程中参数的意义，其中RelationMatrix表示经过图1中的步骤4所形成的关系矩阵。

步骤42到45是对矩阵的每一行分别进行处理。

步骤42判断是不是到了矩阵的最后一行，如果是的则跳转到步骤45继续进行运算，否则的话对当前行进行处理。

步骤43计算矩阵当前行的所有元素的和

步骤44和步骤45分别对行的各个元素的值进行更新，更新的方法是当前的值除以所在行的所有值的和(步骤43计算得到的值)

步骤46是进行矩阵运算，表示求得任意两个节点之间通过中间节点所得到的相似度。

步骤47是纠正步骤46得到的相似度矩阵，把有边相连的两个节点的权重置为0。

步骤48是结束步骤。

Claims

1、基于权重的链接多属性的实体识别方法，其特征是包括如下步骤：

1)数据预处理阶段：

a)收集节点间关系数据；其中获得个体之间的通信数据，这些通信数据的获得从交换机的原始话单或者是运营商那里得到的计费数据；

b)确定节点之间权重的表现方式，包括权重属性定义以及权重属性计算方法；根据现实需要来具体决定相应的权重的表现方式和统计标准；

c)生成给定节点的四层联系图；具体过程如下：

11)初始化队列，把给定的节点首先入队，并标记节点的层次为1层，标记为已访问过的节点；

12)设定程序状态信息，表示当前处理的节点的层次为第1层；

13)循环从队列中出队一个元素，同时得到此元素所在的层次，然后执行以下14到18步；

14)从关系数据中得到出队节点的所有联系节点；

15)针对没有被访问过的联系节点进行16-18步操作；

16)从关系数据中统计出权重的各个属性信息；

17)把节点以及它们的权重信息加入到关联图中；

18)把处理过的联系节点放到队列中供下次遍历；

d)结束；

2)实体识别阶段：

a)通过把步骤1-c)生成的联系图中的链接多属性映射为单属性得到中间关联图；具体过程如下：

21)对给定权重向量与基准向量的各个属性的值进行比对，循环进行22，23两步操作；

22)分别得到两个向量当前属性值的最小值和最大值；

23)得到向量最小值的和以及最大值的和；

24)计算两个向量之间的相似程度；

25)把计算出来的相似度作为新的权重；

b)计算给定节点与中间关联图中的其他节点的相似度；具体过程如下：

31)对矩阵的每一行分别进行处理，循环进行32，33两步操作。

32)计算矩阵当前行的所有元素的和

33)分别对行的各个元素的值进行更新，更新的方法是当前的值除以所在行的所有值的和第32步计算得到的值；

34)进行矩阵相乘运算得到相似度矩阵，

35)更新得到的相似度矩阵，把有边相连的两个节点的相似度置为0；

c)进行相似度排序，得到相似度前几位的节点编号；

d)结束。