CN101482876A - 基于权重的链接多属性的实体识别方法 - Google Patents
基于权重的链接多属性的实体识别方法 Download PDFInfo
- Publication number
- CN101482876A CN101482876A CNA2008102446793A CN200810244679A CN101482876A CN 101482876 A CN101482876 A CN 101482876A CN A2008102446793 A CNA2008102446793 A CN A2008102446793A CN 200810244679 A CN200810244679 A CN 200810244679A CN 101482876 A CN101482876 A CN 101482876A
- Authority
- CN
- China
- Prior art keywords
- node
- attribute
- weight
- similarity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000002203 pretreatment Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000000691 measurement method Methods 0.000 abstract 2
- 238000013507 mapping Methods 0.000 abstract 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明基于权重的链接多属性的实体识别方法,包括以下步骤:1)数据预处理阶段:a)收集节点间关系数据;b)确定节点之间权重的表现方式,包括权重属性定义以及权重属性计算方法;c)生成给定节点的四层联系图;d)结束;2)实体识别阶段:a)通过把1-c生成的联系图中链接多属性映射为单属性得到中间关联图;b)计算给定节点与中间关联图中的其他节点的相似度;c)进行相似度排序,得到相似度前几位的节点编号;d)结束;本发明的基于权重的链接多属性的实体识别方法,利用了实际中关系数据的权重和模式信息来进行相似度度量,以此扩展了传统的实体识别的相似度度量方法,并使用提出的相似度量方法成功解决了链接多属性的实体识别问题。
Description
技术领域
本发明涉及实体识别方法,尤其是基于权重的链接多属性基于图的实体识别方法。
背景技术
实体识别的目的是在混淆的实体中找出其真正对应的实际实体。随着科学技术的进步,积累了越来越多的数据,这些数据包括了平面型的结构化数据和可以用图代表的链接型数据,各种大量的数据为各种预测提供了详尽的知识信息,比如个人的喜好或者社团结构的预测等。然而在这些知识信息被利用之前,必须要考虑一个最基本的属性:正确性,具体的说,必须能够确定两个不同的信息是不是代表同一个实体或者说这两个信息是不是冗余的。区分信息的正确性是使用和利用信息的前提,利用不正确的知识将对下面的分析和预测产生恶劣的影响。
实体识别领域传统的方法根据描述实体的字符串的相似度来表征实体间的相似程度,然后利用相似度度量进行聚类。目前,主要研究兴趣集中在使用链接或者关系结构来提高实体识别的精度,主要的思想是不仅考虑实体的属性之间的相似度如字符串的相似等,还考虑到与其相连的其他实体对其的影响。
随着实体识体识别领域的扩大,出现了一些新的应用场景,在这些应用场景中,如果采用原先的相似度度量方法进行计算,可能会丢失一些有用信息。本发明的思路就是在原有相似度度量的基础上提出新的相似度度量方法,把应用场景中一些丢失的有用信息加入到度量标准中来形成新的相似度度量准则。本发明针对这种特殊的应用场景,把基于无权重无向图的实体识别问题扩展到有权重图实体识别问题。本发明分别提出两个不同的相似度度量标准来处理有权重图的实体识别问题,一个是扩展Jaccard相似度度量标准使其能够在适应有权重图的实体识别,另外一种是借用马尔可夫随机游走的思想通过概率的形式来表示实体之间的相似性,并在这两种相似性度量基础上把表征图的权重形式从单一属性扩展到多属性,提出了基于链接多属性相似性的实体识别算法。
发明内容
本发明目的是:所要解决的技术问题是提供一种基于权重的链接多属性的实体识别方法,使基于图的实体识别从无向无权图扩展到包含权重向量的无向图中,以适用于包含众多权重模式信息的通信和相关领域;
本发明技术方案是:为解决上述问题,本发明的基于权重的链接多属性的实体识别方法包括如下步骤:
3)数据预处理阶段:
c)收集节点间关系数据;
d)确定节点之间权重的表现方式,包括权重属性定义以及权重属性计算方法;
e)生成给定节点的四层联系图;
f)结束;
4)实体识别阶段:
b)通过把步骤1-c)生成的联系图中的链接多属性映射为单属性得到中间关联图;
c)计算给定节点与中间关联图中的其他节点的相似度;
d)进行相似度排序,得到相似度前几位的节点编号;
e)结束;
其中:
步骤1-a)中获得个体之间的通信数据,这些通信数据的获得从交换机的原始话单或者是运营商那里得到的计费数据;
步骤1-b)中根据现实需要来具体决定相应的权重的表现方式和统计标准;
步骤1-c)中具体过程如下:
11)初始化队列,把给定的节点首先入队,并标记节点的层次为1层,标记为已访问过的节点。
12)设定程序状态信息,表示当前处理的节点的层次为第1层。
13)循环从队列中出队一个元素,同时得到此元素所在的层次,然后执行以下14到18步。
14)从关系数据中得到出队节点的所有联系节点。
15)针对没有被访问过的联系节点进行16-18步操作。
16)从关系数据中统计出权重的各个属性信息。
17)把节点以及它们的权重信息加入到关联图中。
18)把处理过的联系节点放到队列中供下次遍历。
步骤2-a)的具体过程如下:
21)对给定权重向量与基准向量的各个属性的值进行比对,循环进行22,23两步操作
22)分别得到两个向量当前属性值的最小值和最大值。
23)得到向量最小值的和以及最大值的和。
24)计算两个向量之间的相似程度。
25)把计算出来的相似度作为新的权重。
步骤2-b的具体过程如下:
31)对矩阵的每一行分别进行处理,循环进行32,33两步操作。
32)计算矩阵当前行的所有元素的和
33)分别对行的各个元素的值进行更新,更新的方法是当前的值除以所在行的所有值的和(第32步计算得到的值)
34)进行矩阵相乘运算得到相似度矩阵。
35)更新得到的相似度矩阵,把有边相连的两个节点的相似度置为0。
本发明有益效果:本发明的基于权重的链接多属性的实体识别方法成功的解决链接多属性的相似度计算问题,并且通过新定义的相似度度量更好满足了通信及相关领域的实体识别要求。
附图说明
图1为本发明的基于权重的多属性实体识别流程
图2为数据预处理阶段中生成联系图的流程
图3为把多属性链接转化为单属性链接的流程
图4为在进行转化后的图中计算相似度的流程
具体实施方式
下面结合附图对本发明进行详细说明。
如图1所示,在实体识别要经过要首先进行数据预处理才能进行识别。数据预处理的主要作用就是提取关系信息,并根据权重定义计算节点之间的权重信息。
步骤0为本发明的实体识别方法的起始状态。
在数据预处理阶段(步骤1-3),步骤1主要获得人们之间的通信数据,这些通信数据的获得可以从交换机的原始话单或者是运营商那里得到的话费数据,这其中包含的最主要的就是通话双方之间的联系信息,包括目标号码和联系号码,以及通话类型,包括主叫、被叫等。步骤2确定权重表现方式,因为通信数据里包含了通信双方的通话信息,权重可以有不同的度量表现方式,一种是直接选中双方的通话次数,或者双方的通话时长作为权重的统计量。为了更好的利用通话模式方面的信息,可以采取包含多属性的统计信息来作为权重,如把属性定义为一天的24小时各个时段内平均通话次数作为统计量,那么采用的链接属性就包含了24个属性,这里不管采用单属性的统计量作为权重或者多属性的统计量作为权重都统一可以采用此框架来进行实体识别。
步骤3是节点之间联系图的产生,根据现实采集到的数据得到给定节点的四层联系图。
在实体识别阶段(步骤4-6),步骤4的对得到关系图权重进行处理,把多属性的权重表现方式转化为单属性的权重表现方式。
步骤5使用步骤4转换得到的单权重图进行相似度计算,计算各个节点之间的相似度。
步骤6是按照相似度的大小对节点进行排序,并输出相似度较大的几个节点作为最后的结果。
图2是对图1中步骤3的详细描述,描述从关系数据中生成关系图的过程。
步骤10为起始步骤。
步骤11初始化队列,把给定的节点首先入队,并标记此节点的层次为1层,标记为已访问过的节点。
步骤12设定程序状态信息,表示当前处理的节点的层次为第1层。
步骤13从判断队列是否为空,并且保证当前处理的节点层次是不大于4的,如果有一个不满足就表示关系图生成结束,直接跳转到步骤22。
步骤14从队列中出队一个元素,并得到此元素所在的层次。
步骤15从关系数据中得到当前节点的所有联系节点。
步骤16-21是循环对当前节点的各个联系节点进行处理。步骤16是判断是否已经处理最后一个元素,如果已经处理完其所有的联系节点,则转到步骤13继续执行。
步骤17取出一个联系节点。
步骤18判断此节点是否已经访问过,如果已访问过则转到步骤16继续取出下一个联系节点,如果没有访问过,步骤19-21这是对没有访问过的节点进行处理。
步骤19是从关系数据中统计出步骤2定义的权重的各个属性信息。
步骤20是把节点以及它们的权重信息加入到关联图中。
步骤21是把处理过的联系节点放到队列中供下次遍历。
图3详述了图1中的步骤4。目的是把多属性的权重信息转化为单属性的权重信息。
步骤30是起始步骤。
步骤31定义了此流程中的参数的意义,其中链接1权重向量用weightVector1表示,基准链接的权重向量用weightVector2表示,向量的长度为len。
步骤32-35是进行向量的各个属性的值进行遍历。
步骤32判断是否向量的各个属性已经遍历完。
步骤33,34分别得到两个向量当前属性值的最小值和最大值。
步骤35得到存放向量最小值的和以及最大值的和。
步骤36是计算两个向量之间的相似程度。
步骤37是把向量与基准向量的相似程度作为权重赋给链接1。
步骤38是本流程的结束
图4详述了图1的步骤5。目的是在化简后的图中计算节点之间的相似度。
步骤40是起始步骤
步骤41是定义了此流程中参数的意义,其中RelationMatrix表示经过图1中的步骤4所形成的关系矩阵。
步骤42到45是对矩阵的每一行分别进行处理。
步骤42判断是不是到了矩阵的最后一行,如果是的则跳转到步骤45继续进行运算,否则的话对当前行进行处理。
步骤43计算矩阵当前行的所有元素的和
步骤44和步骤45分别对行的各个元素的值进行更新,更新的方法是当前的值除以所在行的所有值的和(步骤43计算得到的值)
步骤46是进行矩阵运算,表示求得任意两个节点之间通过中间节点所得到的相似度。
步骤47是纠正步骤46得到的相似度矩阵,把有边相连的两个节点的权重置为0。
步骤48是结束步骤。
Claims (1)
1、基于权重的链接多属性的实体识别方法,其特征是包括如下步骤:
1)数据预处理阶段:
a)收集节点间关系数据;其中获得个体之间的通信数据,这些通信数据的获得从交换机的原始话单或者是运营商那里得到的计费数据;
b)确定节点之间权重的表现方式,包括权重属性定义以及权重属性计算方法;根据现实需要来具体决定相应的权重的表现方式和统计标准;
c)生成给定节点的四层联系图;具体过程如下:
11)初始化队列,把给定的节点首先入队,并标记节点的层次为1层,标记为已访问过的节点;
12)设定程序状态信息,表示当前处理的节点的层次为第1层;
13)循环从队列中出队一个元素,同时得到此元素所在的层次,然后执行以下14到18步;
14)从关系数据中得到出队节点的所有联系节点;
15)针对没有被访问过的联系节点进行16-18步操作;
16)从关系数据中统计出权重的各个属性信息;
17)把节点以及它们的权重信息加入到关联图中;
18)把处理过的联系节点放到队列中供下次遍历;
d)结束;
2)实体识别阶段:
a)通过把步骤1-c)生成的联系图中的链接多属性映射为单属性得到中间关联图;具体过程如下:
21)对给定权重向量与基准向量的各个属性的值进行比对,循环进行22,23两步操作;
22)分别得到两个向量当前属性值的最小值和最大值;
23)得到向量最小值的和以及最大值的和;
24)计算两个向量之间的相似程度;
25)把计算出来的相似度作为新的权重;
b)计算给定节点与中间关联图中的其他节点的相似度;具体过程如下:
31)对矩阵的每一行分别进行处理,循环进行32,33两步操作。
32)计算矩阵当前行的所有元素的和
33)分别对行的各个元素的值进行更新,更新的方法是当前的值除以所在行的所有值的和第32步计算得到的值;
34)进行矩阵相乘运算得到相似度矩阵,
35)更新得到的相似度矩阵,把有边相连的两个节点的相似度置为0;
c)进行相似度排序,得到相似度前几位的节点编号;
d)结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102446793A CN101482876B (zh) | 2008-12-11 | 2008-12-11 | 基于权重的链接多属性的实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102446793A CN101482876B (zh) | 2008-12-11 | 2008-12-11 | 基于权重的链接多属性的实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101482876A true CN101482876A (zh) | 2009-07-15 |
CN101482876B CN101482876B (zh) | 2011-11-09 |
Family
ID=40879990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102446793A Expired - Fee Related CN101482876B (zh) | 2008-12-11 | 2008-12-11 | 基于权重的链接多属性的实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101482876B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102083010A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团公司 | 一种用户信息筛选方法和设备 |
CN102331987A (zh) * | 2010-07-12 | 2012-01-25 | 管中徽 | 专利数据挖掘系统及方法 |
CN102930010A (zh) * | 2011-10-31 | 2013-02-13 | 微软公司 | 实体属性和关系的排序 |
CN104103026A (zh) * | 2013-04-11 | 2014-10-15 | 中国中医科学院中国医史文献研究所 | 基于知识元的中医概念关注度和相关度的计算系统及方法 |
CN105335378A (zh) * | 2014-06-25 | 2016-02-17 | 富士通株式会社 | 多数据源的信息处理装置、服务器及方法 |
CN107133257A (zh) * | 2017-03-21 | 2017-09-05 | 华南师范大学 | 一种基于中心连通子图的相似实体识别方法及系统 |
CN109783698A (zh) * | 2019-01-15 | 2019-05-21 | 辽宁大学 | 基于Merkle-tree的工业生产数据实体识别方法 |
CN110147421A (zh) * | 2019-05-10 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种目标实体链接方法、装置、设备及存储介质 |
CN113297389A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 设备间关联关系的方法、装置和电子设备 |
WO2021164174A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 云平台的缓存服务器部署方法、装置和计算机设备 |
-
2008
- 2008-12-11 CN CN2008102446793A patent/CN101482876B/zh not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102083010A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团公司 | 一种用户信息筛选方法和设备 |
CN102083010B (zh) * | 2009-11-26 | 2014-05-07 | 中国移动通信集团公司 | 一种用户信息筛选方法和设备 |
CN102331987A (zh) * | 2010-07-12 | 2012-01-25 | 管中徽 | 专利数据挖掘系统及方法 |
CN102930010A (zh) * | 2011-10-31 | 2013-02-13 | 微软公司 | 实体属性和关系的排序 |
CN104103026A (zh) * | 2013-04-11 | 2014-10-15 | 中国中医科学院中国医史文献研究所 | 基于知识元的中医概念关注度和相关度的计算系统及方法 |
CN104103026B (zh) * | 2013-04-11 | 2017-08-29 | 中国中医科学院中国医史文献研究所 | 基于知识元的中医概念关注度和相关度的计算系统及方法 |
CN105335378A (zh) * | 2014-06-25 | 2016-02-17 | 富士通株式会社 | 多数据源的信息处理装置、服务器及方法 |
CN107133257A (zh) * | 2017-03-21 | 2017-09-05 | 华南师范大学 | 一种基于中心连通子图的相似实体识别方法及系统 |
CN109783698A (zh) * | 2019-01-15 | 2019-05-21 | 辽宁大学 | 基于Merkle-tree的工业生产数据实体识别方法 |
CN110147421A (zh) * | 2019-05-10 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种目标实体链接方法、装置、设备及存储介质 |
WO2021164174A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 云平台的缓存服务器部署方法、装置和计算机设备 |
CN113297389A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 设备间关联关系的方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101482876B (zh) | 2011-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101482876B (zh) | 基于权重的链接多属性的实体识别方法 | |
Chen et al. | Dual path networks | |
CN111507768B (zh) | 一种潜在用户的确定方法及相关装置 | |
Ong et al. | Memetic computation—past, present & future [research frontier] | |
CN107391542B (zh) | 一种基于文件知识图谱的开源软件社区专家推荐方法 | |
CN110532417A (zh) | 基于深度哈希的图像检索方法、装置及终端设备 | |
CN106527381B (zh) | 一种面向并行批处理机动态调度的快速评估方法 | |
CN107430704A (zh) | 基于与神经网络算法关联的元数据在神经突触基底上实现神经网络算法 | |
CN108304489A (zh) | 一种基于强化学习网络的目标引导型个性化对话方法与系统 | |
CN114386694A (zh) | 基于对比学习的药物分子性质预测方法、装置及设备 | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN110515732A (zh) | 一种基于资源受限机器人深度学习推理的任务分配方法 | |
CN104679818A (zh) | 一种视频关键帧提取方法及系统 | |
Zanghi et al. | Strategies for online inference of model-based clustering in large and growing networks | |
CN109711746A (zh) | 一种基于复杂网络的信用评估方法和系统 | |
CN113902131B (zh) | 抵抗联邦学习中歧视传播的节点模型的更新方法 | |
CN116108384A (zh) | 一种神经网络架构搜索方法、装置、电子设备及存储介质 | |
CN114743273A (zh) | 基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统 | |
CN113449878B (zh) | 数据分布式的增量学习方法、系统、设备及存储介质 | |
CN111737826A (zh) | 一种基于增强学习的轨道交通自动仿真建模方法及装置 | |
CN106611036A (zh) | 一种改进的多维尺度异构代价敏感决策树构建方法 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN106202113A (zh) | 应用于组队运动的信息提供方法和装置 | |
CN108197186B (zh) | 一种应用于社交网络中的动态图匹配查询方法 | |
CN115544307A (zh) | 基于关联矩阵的有向图数据特征提取与表达方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111109 Termination date: 20121211 |