CN103678279A - 基于异质网络时态语义路径相似度的人物唯一性识别方法 - Google Patents

基于异质网络时态语义路径相似度的人物唯一性识别方法 Download PDF

Info

Publication number
CN103678279A
CN103678279A CN201310746652.5A CN201310746652A CN103678279A CN 103678279 A CN103678279 A CN 103678279A CN 201310746652 A CN201310746652 A CN 201310746652A CN 103678279 A CN103678279 A CN 103678279A
Authority
CN
China
Prior art keywords
network
relation
heterogeneous
similarity
temporal meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310746652.5A
Other languages
English (en)
Other versions
CN103678279B (zh
Inventor
黄芳
朱磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201310746652.5A priority Critical patent/CN103678279B/zh
Publication of CN103678279A publication Critical patent/CN103678279A/zh
Application granted granted Critical
Publication of CN103678279B publication Critical patent/CN103678279B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异质网络时态语义路径相似度的人物唯一性识别方法,该方法首先建立异质社会关系网络,即从人物社会活动事务数据库中提取关系并建立具有时间属性的异质关系网络。根据网络结构对人物对象间的时态语义路径进行搜索,同时根据异质社会关系网络特征以及时态语义路径对网络中人物对象的路径相似度进行测算,然后按照相似度值对人物对象进行排序,再根据网络特征以及应用需求设定的相似度阈值进行过滤,从而识别具备唯一性特征的人物对象。该方法能在大规模和高复杂度社会关系网络中准确高效地测算出人物对象的相似性,有效地解决关系网络中人物唯一性识别问题,提高了关系网络分析与挖掘过程的有效性。

Description

基于异质网络时态语义路径相似度的人物唯一性识别方法
技术领域
本发明属于计算机应用技术领域,涉及一种基于异质网络结构的时态语义路径相似度的人物唯一性识别方法。
技术背景
    从海量的文本信息中抽出语义关系网络是社会关系网络建模与挖掘的重要研究课题。通常,从Web页面、电子文档库、事务数据库以及关系数据库中抽取大规模社会关系网络时,由于事务信息的时间差异、信息的不完整以及信息模式与结构的不同,导致网络中人物关系的混乱,这使得人物的唯一性难以确定,这个问题已经成为社会关系网络分析过程中亟待解决的关键问题。
传统的社会关系网络分析与挖掘建立在以文本数据或关系型数据库为基础的同质关系网络(Homogeneous Network)基础之上的,其基本特征是网络中的节点和关系的类型相同,例如,在“师生关系”网络中,节点类型只有“人”(老师或学生),关系类型只有“师从关系”。由于上述网络特征,即使是社会关系网络规模较大的情况下,同质关系网络很难提供多样性的社会关系信息,利用网络中同种类型的社会关系建立的相似度很难对网络中人物准确地识别。由于人的社会关系是蕴含在社会活动事务记录中,这些信息一般包含在求职简历、各类项目申请书、客户记录以及个人网页等各类形式、结构和来源不一的电子文档中,这使得能够代表人物的基本属性信息往往会出现矛盾或二义性现象,其唯一性难以确定。然而,由人的各类事务活动信息建立的社会关系具有多样性语义网络特征,是一个异质结构的关系网络。与同质关系网络不同,异质关系网络(Heterogeneous Network)中的节点类型和节点之间的关系类型并不唯一,多样化的节点类型决定了多样化的关系类型,在这种网络中的人物节点的唯一性完全可以由人物固有的社会关系来确定,所以,我们提出以异质关系网络为基础的人物唯一性识别方案。
异质关系网络具有多样化的节点类型和节点之间的关系类型,例如,学术关系网络就是一种典型的异质网络,学者关系除“师生关系”、“校友关系”外,还包括了“合著论文关系”、“项目合作关系”等多种关系,可以全面反映人物的学术关系信息。每种关系网络之下,节点的类型也有所不同,如“合著论文关系”中的节点就分为“人(论文作者)”和“文章(学术论文)”两种类型。在异质关系网络中,多样化的节点类型决定着多样化的关系类型,这些特征本质上可以从不同的侧面全面地描述人物在不同性质的社会活动中所形成的社会关系网络。然而,在实际的社会关系网络中,不同的人物对象可能具有完全相同的异质网络结构,但由于这些关系的时间属性不相同,使得具有相同网络结构的节点在时间上并不相同,例如,“张三”分别于1998年至2002年以及2003年至2005年在湖南大学和中南大学获得学士和硕士学位,“李四”分别于2000年至2004年以及2006年至2009年在湖南大学和中南大学获得学士与硕士学位,虽然“张三”和“李四”曾经都就读于湖南大学和中南大学,在“求学经历”关系上具有相同的网络结构,但由于就读的时间不同,所以上述关系并不是相同的关系。所以,仅利用网络结构无法完全对人物对象的唯一性进行准确的识别,因为关系的时间属性不同直接决定了关系的不同。为此,我们提出用时态语义路径计算相似度的方法,可以更加准确的识别相同的社会关系,从而保证了人物唯一性识别的准确性。
发明内容
本发明的目的是提出了一种基于异质网络时态语义路径相似度的人物唯一性识别方法。该方法从异质关系网络中提取人物对象和关系的基本属性,通过对时态语义路径上的时态权重的计算,求出人物对象之间的时态语义路径相似度,根据该相似度的值判断人物对象的唯一性。该方法能在较大数据规模和较高网络复杂度的社会关系网络中,准确且高效地识别出相同的人物对象,能有效地解决关系网络中人物唯一性识别问题。
本发明的技术解决方案如下:
一种基于异质网络时态语义路径相似度的人物唯一性识别方法,包括以下步骤:
步骤1:建立异质社会关系网络,该过程从人物社会活动事务数据库中提取关系并建立具有时间属性的异质关系网络; 
步骤2:搜索时态语义路径:首先根据异质网络中的关系的不同语义对网络进行划分,然后分别在不同语义的关系网络中利用网络结构对人物对象之间的时态语义路径进行搜索;
步骤3:计算时态语义路径相似度                                                
Figure 2013107466525100002DEST_PATH_IMAGE001
:分别在不同语义的关系网络中,利用异质社会关系网络特征以及时态语义路径对网络中人物对象的相似度进行测算;
步骤4:识别人物对象的唯一性:首先对不同的语义网络中人物对象的相似度求算术平均值,然后按照该值对人物对象对进行排序,找出时态语义路径相似度取值大于设定阈值的人物对象。
步骤1的具体步骤为:
社会活动事务记录数据库通常从记录人物社会活动的网页或文档中抽取形成的,其数据库记录信息包括人物对象基本属性信息、社会活动事务记录以及关系活动发生的时间属性数据,将这些事务记录的关系信息导入基于网络拓扑结构的图数据库(Graphic Database)中。例如:事务记录“张三于2005年至2012年就职于微软(中国)有限公司”,节点为“张三”和“微软(中国)有限公司”,关系为“就职于”,节点类型为“职员”和“公司”的节点决定了关系网络中的关系类型为“雇主关系”。按照社会关系的不同类型对该社会关系网络进行划分,形成相对独立的异质关系网络,例如,“学习经历关系网络”、“工作经历关系网络”、“雇主关系网络”等。在图数据库中,所有的“人物”和“实体”作为网络图中的节点,并具有其基本属性,“关系”作为网络图中的边,并具有起始节点、终止节点、活动类型以及时间属性,按照社会活动的不同类型遍历图数据库形成了独立的异质关系网络。
步骤2的具体步骤为:
在具有时间属性的社会关系网络中,根据网络结构可以确定节点之间的时态语义路径。时态语义路径为关系网络中两个节点之间仅经过一个邻居节点的一条或多条路径,且该路径具有原始事物记录的明确语义和时间属性。
如图5所示,“Wang”和“Chen”分别代表社会关系网络中的两个人物对象,“CSU”表示“Wang”和“Chen”就读的高校,“(1999,2003)”、“(2004,2008)”以及“(2005,2009)”表示“就读关系”的时间属性,即关系的开始时间与结束时间。上述网络结构中包含了两条时态语义路径,分别为:“‘Wang’于1999年至2003年就读于‘CSU’且‘Chen’于2005年至2009年就读于‘CSU’”;“‘Wang’于2004年至2008年就读于‘CSU’且‘Chen’于2005年至2009年就读于‘CSU’”。我们引入
Figure 642760DEST_PATH_IMAGE002
来表示网络中的一条关系边。其中,
Figure 2013107466525100002DEST_PATH_IMAGE003
表示网络中的人物对象节点,表示的邻居节点,也就是
Figure 616849DEST_PATH_IMAGE003
Figure 2013107466525100002DEST_PATH_IMAGE005
之间的中间节点,
Figure 31650DEST_PATH_IMAGE006
表示关系的时间属性,即开始时间与结束时间。在上述关系中,我们用
Figure 521669DEST_PATH_IMAGE003
分别表示两个人物对象“Wang”和“Chen”,用表示“CSU”,则
Figure 903922DEST_PATH_IMAGE005
以及
Figure 645132DEST_PATH_IMAGE004
之间的关系表示为
Figure 2013107466525100002DEST_PATH_IMAGE007
Figure 931757DEST_PATH_IMAGE008
Figure 2013107466525100002DEST_PATH_IMAGE009
。那么从节点经过
Figure 418550DEST_PATH_IMAGE004
后到
Figure 378547DEST_PATH_IMAGE005
之间的时态语义路径表示为
Figure 468863DEST_PATH_IMAGE010
为时态语义路径的标号。由于关系具有时间属性,例如关系的开始时间和结束时间,则时态语义路径的时态权重
Figure 463495DEST_PATH_IMAGE012
由关系
Figure 981064DEST_PATH_IMAGE002
和关系
Figure 2013107466525100002DEST_PATH_IMAGE013
的时态权重决定。关系的时态权重反映 了关系的发生的时间以及关系的持续时间。在已知关系的时间属性的情况下,我们采用以下策略计算关系
Figure 691006DEST_PATH_IMAGE002
的时态权重
Figure 319434DEST_PATH_IMAGE014
以及由两条关系
Figure 168572DEST_PATH_IMAGE002
Figure 857042DEST_PATH_IMAGE013
构成的时态语义路径
Figure 2013107466525100002DEST_PATH_IMAGE015
的时态权重
Figure 853948DEST_PATH_IMAGE012
Figure 223750DEST_PATH_IMAGE016
Figure 2013107466525100002DEST_PATH_IMAGE017
其中,
Figure 255291DEST_PATH_IMAGE018
表示当前年时间, 
Figure 2013107466525100002DEST_PATH_IMAGE019
Figure 880043DEST_PATH_IMAGE020
表示相同节点对之间不同关系边的标号,
Figure 2013107466525100002DEST_PATH_IMAGE021
表示时态语义路径,
Figure 364245DEST_PATH_IMAGE022
表示时态语义路径的标号。
步骤3的具体步骤为:
首先,从图数据库中按照不同的关系类型依次读取数据;
然后,对每一种类型的异质关系网络分别进行遍历,依次计算人物对象节点
Figure 334476DEST_PATH_IMAGE003
Figure 158206DEST_PATH_IMAGE005
之间的时态语义路径相似度
Figure 2013107466525100002DEST_PATH_IMAGE023
Figure 188479DEST_PATH_IMAGE023
的计算方法如下:
Figure 97660DEST_PATH_IMAGE024
其中,
Figure 2013107466525100002DEST_PATH_IMAGE025
表示异质社会关系网络中关系类型的标号。根据时态语义路径的起点和终点的不同时态语义路径被划分成三种不同类型的路径集合
Figure 681701DEST_PATH_IMAGE026
Figure 2013107466525100002DEST_PATH_IMAGE027
以及
Figure 2013107466525100002DEST_PATH_IMAGE029
Figure 889008DEST_PATH_IMAGE030
Figure 2013107466525100002DEST_PATH_IMAGE031
分别表示
Figure 410568DEST_PATH_IMAGE005
之间具有不同中间结点时所有三种类型语义路径
Figure 458158DEST_PATH_IMAGE010
Figure 767917DEST_PATH_IMAGE032
Figure 2013107466525100002DEST_PATH_IMAGE033
的路径权重之和,计算方法如下:
Figure 451358DEST_PATH_IMAGE034
Figure 2013107466525100002DEST_PATH_IMAGE035
Figure 317814DEST_PATH_IMAGE036
其中,
Figure 219911DEST_PATH_IMAGE014
Figure 2013107466525100002DEST_PATH_IMAGE037
分别为人物对象节点
Figure 513620DEST_PATH_IMAGE003
Figure 133957DEST_PATH_IMAGE005
与邻居节点
Figure 538525DEST_PATH_IMAGE004
的构成时态语义路径的关系的时态权重值,
Figure 498390DEST_PATH_IMAGE038
Figure 2013107466525100002DEST_PATH_IMAGE039
分别为人物对象节点
Figure 22388DEST_PATH_IMAGE003
Figure 802125DEST_PATH_IMAGE005
的构成时态语义路径的关系的数目。
    通过以上方法在不同类型的关系网络中分别计算人物对象对的时态语义路径相似度,可以得到人物对象节点
Figure 259651DEST_PATH_IMAGE003
Figure 887073DEST_PATH_IMAGE005
在整个异质社会关系网络中时态语义路径相似度的集合
Figure 771852DEST_PATH_IMAGE040
,其中
Figure 2013107466525100002DEST_PATH_IMAGE041
表示该异质社会关系网络中关系类型的集合,
Figure 851935DEST_PATH_IMAGE025
表示该网络中的一种关系类型。
步骤4的具体步骤为:
首先,对于每一对人物对象节点
Figure 113152DEST_PATH_IMAGE003
Figure 595080DEST_PATH_IMAGE005
,计算其在整个异质网络中的时态语义路径相似度
Figure 588444DEST_PATH_IMAGE023
值,即,对每一种类型的关系网络中时态语义路径相似度
Figure 405090DEST_PATH_IMAGE023
求算术平均值,如下:
Figure DEST_PATH_IMAGE043
其中,
Figure 797644DEST_PATH_IMAGE044
表示异质关系网络中关系种类的数目。计算结果
Figure DEST_PATH_IMAGE045
表示人物对象节点
Figure 837275DEST_PATH_IMAGE003
Figure 78900DEST_PATH_IMAGE005
在该异质关系网络中的时态语义路径相似度的值。
然后,根据人物对象节点对的
Figure 432652DEST_PATH_IMAGE045
值进行排序,并根据当前关系网络特征以及网络分析与挖掘的应用需求设定人物唯一性阈值
Figure 872861DEST_PATH_IMAGE046
,用该阈值对整个关系网络中所有人物对象节点对时态语义路径相似度的计算结果
Figure 286656DEST_PATH_IMAGE045
进行过滤,该相似度的取值小于该阈值的人物对象节点对即为两个具有唯一性特征的人物对象。
本发明针对从自然文本中抽取人物社会关系网络过程中,由于信息的不完整,人物节点出现矛盾性或二义性,使得人物的唯一性难以确定问题,提出了基于异质网络结构时态语义路径相似度的人物唯一性识别方法。该方法利用异质关系网络中多样化的关系信息更加精确地计算人物对像之间的时态语义路径相似性;采用在不同类型关系网络中分别计算人物对象的时态语义路径相似性,即综合人物对象的网络结构和时态信息,又能体现不同的语义特征,使得人物对像的相似性更符合实际情况;采用对不同类型关系网络中的人物对像相似性求算术平均值的计算方法,能够更加全面地反映关系网络中人物对像之间的相似性,使得人物唯一性识别更具有效性,该方法为提高社会关系网络分析及挖掘的有效性具有重要的现实意义。
附图说明
图1为本发明的主流程图;
图2为
Figure 749998DEST_PATH_IMAGE001
计算流程图;
图3为实施例1流程图;
图4为实施例2流程图;
图5为时态语义路径示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清晰,下面将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
本发明实例提供了一种基于异质网络结构时态语义路径相似度的计算方法,主要步骤如下:
101异质社会关系网络建立
首先,事物活动记录数据库中读取关系以及关系对象的基本属性信息,并将它们转换成起始节点名称、终止节点名称、关系名称,关系起始时间、结束时间,保存在基于网络拓扑结构的图数据库中。在图数据库中,所有的人物和关系都以“对象”的形式保存在数据库中,人物和关系对象都具有其各自的基本属性信息,例如,人物对象一般具有姓名、性别、年龄等基本属性,关系对象一般具有起始节点名称、结束节点名称、起始时间和结束时间等基本属性。在将数据导入到图数据库中之后,形成了异质社会关系网络图数据库。
我们从图数据库中读取一对人物对象对
Figure 966829DEST_PATH_IMAGE048
,并在包括“学习经历”和“工作经历”关系的异质关系网络中计算该人物对象对的时态语义路径相似度
Figure 2013107466525100002DEST_PATH_IMAGE049
Figure 261544DEST_PATH_IMAGE047
Figure 846240DEST_PATH_IMAGE048
的基本属性信息和关系属性信息如下:
Figure DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE055
Figure DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE063
Figure DEST_PATH_IMAGE065
Figure DEST_PATH_IMAGE067
Figure 246095DEST_PATH_IMAGE070
Figure 411628DEST_PATH_IMAGE072
其中,集合
Figure DEST_PATH_IMAGE073
分别表示该人物对象的“工作经历”和“学习经历”关系属性集合,集合中的每一个元素表示与该人物对象相关的一条关系,元素中的各个项表示关系的基本属性信息,如关系另一端的节点名称、起始时间、结束时间等。
时态语义路径相似度计算
首先,从图数据库中按照不同的关系类型依次读取数据,对于上述人物对象对
Figure 729794DEST_PATH_IMAGE047
Figure 226110DEST_PATH_IMAGE048
,分别读取他们的“工作经历”关系和“学习经历”关系基本属性信息,分别如下:
“工作经历”关系基本属性信息:
Figure DEST_PATH_IMAGE075
”,
”以及
Figure DEST_PATH_IMAGE077
,”,
”。
“学习经历”关系基本属性信息:
Figure 284830DEST_PATH_IMAGE080
”,
Figure DEST_PATH_IMAGE081
”,
”以及
Figure 711580DEST_PATH_IMAGE080
”,
Figure DEST_PATH_IMAGE083
”,
Figure 558050DEST_PATH_IMAGE084
”。
然后,分别在“工作经历”关系网络和“学习经历”网络中计算人物对象对
Figure 32893DEST_PATH_IMAGE047
之间的时态语义路径相似度
Figure DEST_PATH_IMAGE085
Figure 117841DEST_PATH_IMAGE086
在“工作经历”关系网络中计算
Figure 386143DEST_PATH_IMAGE085
,计算过程如下:
关系的时态权重值的计算过程如下:
Figure DEST_PATH_IMAGE087
Figure 895752DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE089
Figure 524180DEST_PATH_IMAGE090
在计算出每一条关系的时态权重值之后,分别计算出时间语义路径的时态权重值,计算方法如下:
Figure DEST_PATH_IMAGE091
Figure 698285DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE093
在时态语义路径的权重值之和得出之后,计算人物对象对
Figure 137488DEST_PATH_IMAGE047
Figure 321344DEST_PATH_IMAGE048
在该“工作经历”关系网络中的时态语义路径相似度
Figure 691146DEST_PATH_IMAGE085
,计算方法如下:
Figure 660370DEST_PATH_IMAGE094
由此得到人物对象对
Figure 519741DEST_PATH_IMAGE047
Figure 941627DEST_PATH_IMAGE048
在“工作经历”关系网络中的时态语义路径相似度的值为
Figure DEST_PATH_IMAGE095
在“学习经历”关系网络中计算
Figure 911857DEST_PATH_IMAGE096
,计算过程如下:
关系的时态权重值的计算过程如下:
Figure DEST_PATH_IMAGE097
Figure 800834DEST_PATH_IMAGE098
Figure DEST_PATH_IMAGE099
Figure 581839DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE101
在计算出每一条关系的时态权重值之后,分别计算出时间语义路径的时态权重值,计算方法如下:
Figure 553337DEST_PATH_IMAGE102
Figure DEST_PATH_IMAGE103
在时态语义路径的权重值之和得出之后,计算人物对象对
Figure 5495DEST_PATH_IMAGE047
Figure 144353DEST_PATH_IMAGE048
在该异质关系网络中的时态语义路径相似度
Figure 790098DEST_PATH_IMAGE086
,计算方法如下:
由此得到人物对象对
Figure 177829DEST_PATH_IMAGE047
Figure 897524DEST_PATH_IMAGE048
在该异质关系网络中的时态语义路径相似度的值为
Figure 20332DEST_PATH_IMAGE106
人物对象的唯一性识别
首先,根据上述人物对象对
Figure 19829DEST_PATH_IMAGE048
在“工作经历”关系网络和“学习经历”关系网络中的时态语义路径相似度,计算其在整个异质网络中的时态语义路径相似度
Figure DEST_PATH_IMAGE107
值,即,对
Figure 921925DEST_PATH_IMAGE085
Figure 215635DEST_PATH_IMAGE086
求算术平均值,如下:
计算结果
Figure 231750DEST_PATH_IMAGE107
表示人物对象节点对
Figure 988354DEST_PATH_IMAGE047
Figure 718544DEST_PATH_IMAGE048
在该异质关系网络中的时态语义路径相似度值。
然后,假设此处的唯一性阈值
Figure DEST_PATH_IMAGE109
应设定为00,由于
Figure DEST_PATH_IMAGE111
,我们可以得出结论:人物对象
Figure 831173DEST_PATH_IMAGE047
Figure 458595DEST_PATH_IMAGE048
不是使用了多个姓名的同一个人。
实施例2:
本实施例提供了基于异质社会关系网络的人物唯一性识别方法,具体步骤如下:
201异质社会关系网络建立
首先,从Excel数据表格中读取数据。在数据表中,人物对象基本属性信息分为:姓名、性别、出生年月,关系对象的基本属性信息分为:起始节点名称、起始节点名称、起始时间、结束时间。从关系型数据表中取出的数据以图形的形式保存在基于网络拓扑结构的图数据库中。在图数据库中,所有的人物和关系都以“对象”的形式保存在数据库中,人物和关系对象都具有其各自的基本属性信息,例如,人物对象一般具有姓名、性别、年龄等基本属性,关系对象一般具有其实节点名称、结束节点名称、起始时间和结束时间等基本属性。在将数据导入到图数据库中之后,基于基本数据建立起了异质社会关系网络。
我们从图数据库中读取一对人物对象对
Figure 343374DEST_PATH_IMAGE112
Figure DEST_PATH_IMAGE113
,并在包括“学习经历”关系、“工作经历”关系、“发表论文”关系和“承担项目”关系的异质关系网络中计算该人物对象对的时态语义路径相似度
Figure 420527DEST_PATH_IMAGE114
并判断
Figure 681744DEST_PATH_IMAGE112
是否为使用了不同姓名的同一个人。
Figure 219353DEST_PATH_IMAGE112
Figure 786732DEST_PATH_IMAGE113
的基本属性信息和关系属性信息如下:
Figure 586060DEST_PATH_IMAGE116
Figure 352339DEST_PATH_IMAGE120
Figure 656282DEST_PATH_IMAGE122
Figure 747384DEST_PATH_IMAGE124
Figure 390855DEST_PATH_IMAGE126
Figure 788338DEST_PATH_IMAGE128
Figure 330309DEST_PATH_IMAGE130
Figure 471441DEST_PATH_IMAGE132
Figure 969418DEST_PATH_IMAGE134
Figure 554114DEST_PATH_IMAGE136
Figure 567070DEST_PATH_IMAGE138
Figure 262624DEST_PATH_IMAGE140
Figure DEST_PATH_IMAGE141
Figure 677425DEST_PATH_IMAGE142
Figure DEST_PATH_IMAGE143
Figure 430093DEST_PATH_IMAGE124
Figure DEST_PATH_IMAGE145
Figure 743394DEST_PATH_IMAGE146
Figure 226328DEST_PATH_IMAGE132
Figure DEST_PATH_IMAGE149
Figure DEST_PATH_IMAGE151
其中,集合
Figure 500762DEST_PATH_IMAGE073
Figure 488310DEST_PATH_IMAGE152
Figure DEST_PATH_IMAGE153
分别表示该人物对象的“学习经历”关系、“工作经历”关系、“发表论文”关系和“承担项目”关系属性集合,集合中的每一个元素表示与该人物对象相关的一条关系,元素中的各个项表示关系的基本属性信息,如关系另一端的节点名称、起始时间、结束时间等。
时态语义路径相似度计算
首先,从图数据库中按照不同的关系类型依次读取数据,对于上述人物对象对
Figure 540316DEST_PATH_IMAGE112
Figure 664129DEST_PATH_IMAGE113
,分别读取他们的“学习经历”关系、“工作经历”关系、“发表论文”关系和“承担项目”关系基本属性信息,分别如下: “学习经历”关系基本属性信息:
 ”,
Figure DEST_PATH_IMAGE155
 ”,
Figure 236373DEST_PATH_IMAGE156
 ”以及
Figure 77421DEST_PATH_IMAGE154
 ”,
 ”,
Figure 510994DEST_PATH_IMAGE156
 ”
“工作经历”关系基本属性信息:
Figure DEST_PATH_IMAGE157
”,
Figure 286183DEST_PATH_IMAGE158
”以及
,
Figure DEST_PATH_IMAGE159
”,
Figure 26398DEST_PATH_IMAGE158
”。
“发表论文”关系基本属性信息:
Figure 200022DEST_PATH_IMAGE160
”,
Figure DEST_PATH_IMAGE161
”,
Figure 462507DEST_PATH_IMAGE162
”以及
Figure 832309DEST_PATH_IMAGE160
”,
Figure 785221DEST_PATH_IMAGE161
”,
Figure 395325DEST_PATH_IMAGE162
”。
“承担项目”关系基本属性信息:
Figure DEST_PATH_IMAGE163
”,
”,
Figure DEST_PATH_IMAGE165
”以及
Figure 118266DEST_PATH_IMAGE164
”,
Figure 4314DEST_PATH_IMAGE165
”。
然后,分别在“学习经历”关系网络、“工作经历”关系网络、“发表论文”关系网络和 “承担项目”网络中计算人物对象对
Figure 785319DEST_PATH_IMAGE112
Figure 943768DEST_PATH_IMAGE113
之间的时态语义路径相似度
Figure 468421DEST_PATH_IMAGE166
Figure DEST_PATH_IMAGE167
Figure 206046DEST_PATH_IMAGE168
Figure DEST_PATH_IMAGE169
在“学习经历”关系网络中计算
Figure 220269DEST_PATH_IMAGE170
,计算过程如下:
关系的时态权重值的计算过程如下:
Figure DEST_PATH_IMAGE171
Figure DEST_PATH_IMAGE175
Figure 789419DEST_PATH_IMAGE176
在计算出每一条关系的时态权重值之后,分别计算出时间语义路径的时态权重值,计算方法如下:
Figure DEST_PATH_IMAGE177
Figure 965755DEST_PATH_IMAGE178
Figure DEST_PATH_IMAGE179
在时态语义路径的权重值之和得出之后,计算人物对象对
Figure 974162DEST_PATH_IMAGE180
Figure DEST_PATH_IMAGE181
在该“学习经历”关系网络中的时态语义路径相似度,计算方法如下:
由此得到人物对象对
Figure 36424DEST_PATH_IMAGE180
Figure 391182DEST_PATH_IMAGE181
在“学习经历”关系网络中的时态语义路径相似度的值为
Figure DEST_PATH_IMAGE183
在“工作经历”关系网络中计算
Figure 58399DEST_PATH_IMAGE167
,计算过程如下:
关系的时态权重值的计算过程如下:
Figure 815003DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE185
Figure 341930DEST_PATH_IMAGE186
Figure DEST_PATH_IMAGE187
在计算出每一条关系的时态权重值之后,分别计算出时间语义路径的时态权重值,计算方法如下:
Figure DEST_PATH_IMAGE189
Figure 470871DEST_PATH_IMAGE190
在时态语义路径的权重值之和得出之后,计算人物对象对
Figure 19664DEST_PATH_IMAGE180
Figure 170023DEST_PATH_IMAGE181
在该“工作经历”关系网络中的时态语义路径相似度
Figure 253035DEST_PATH_IMAGE167
,计算方法如下:
Figure DEST_PATH_IMAGE191
由此得到人物对象对
Figure 514252DEST_PATH_IMAGE180
Figure 730601DEST_PATH_IMAGE181
在“工作经历”关系网络中的时态语义路径相似度的值为
Figure 51861DEST_PATH_IMAGE183
在“发表论文”关系网络中计算
Figure 619240DEST_PATH_IMAGE168
,计算过程如下:
关系的时态权重值的计算过程如下:
Figure 356251DEST_PATH_IMAGE192
Figure DEST_PATH_IMAGE193
Figure 755003DEST_PATH_IMAGE194
Figure DEST_PATH_IMAGE195
Figure 247164DEST_PATH_IMAGE196
Figure DEST_PATH_IMAGE197
在计算出每一条关系的时态权重值之后,分别计算出时间语义路径的时态权重值,计算方法如下:
Figure 95647DEST_PATH_IMAGE198
Figure DEST_PATH_IMAGE199
Figure 449399DEST_PATH_IMAGE200
在时态语义路径的权重值之和得出之后,计算人物对象对
Figure 155187DEST_PATH_IMAGE180
Figure 303403DEST_PATH_IMAGE181
在该“发表论文”关系网络中的时态语义路径相似度,计算方法如下:
Figure DEST_PATH_IMAGE201
由此得到人物对象对
Figure 48822DEST_PATH_IMAGE180
Figure 374497DEST_PATH_IMAGE181
在“发表论文”关系网络中的时态语义路径相似度的值为
在“承担项目”关系网络中计算
Figure 159099DEST_PATH_IMAGE169
,计算过程如下:
关系的时态权重值的计算过程如下:
Figure 854654DEST_PATH_IMAGE202
Figure DEST_PATH_IMAGE203
Figure 82504DEST_PATH_IMAGE204
Figure DEST_PATH_IMAGE205
在计算出每一条关系的时态权重值之后,分别计算出时间语义路径的时态权重值,计算方法如下:
Figure DEST_PATH_IMAGE207
Figure 400670DEST_PATH_IMAGE208
Figure DEST_PATH_IMAGE209
在时态语义路径的权重值之和得出之后,计算人物对象对
Figure 631407DEST_PATH_IMAGE180
Figure 166293DEST_PATH_IMAGE181
在该“承担项目”关系网络中的时态语义路径相似度
Figure 827213DEST_PATH_IMAGE169
,计算方法如下:
Figure 814760DEST_PATH_IMAGE210
由此得到人物对象对
Figure 852118DEST_PATH_IMAGE180
在“承担项目”关系网络中的时态语义路径相似度的值为
Figure 525861DEST_PATH_IMAGE183
人物对象的唯一性识别
   首先,根据上述人物对象对
Figure 751437DEST_PATH_IMAGE180
在“学习经历”关系网络、“工作经历”关系网络、 “发表论文”关系网络和“承担项目”关系网络中的时态语义路径相似度,计算其在整个异质网络中的时态语义路径相似度
Figure 757757DEST_PATH_IMAGE114
值,即,对
Figure 28988DEST_PATH_IMAGE170
Figure 991128DEST_PATH_IMAGE167
Figure 370287DEST_PATH_IMAGE168
Figure 406377DEST_PATH_IMAGE169
求算术平均值,如下:
Figure DEST_PATH_IMAGE211
计算结果
Figure 907896DEST_PATH_IMAGE114
表示人物对象节点
Figure 357332DEST_PATH_IMAGE180
Figure 461554DEST_PATH_IMAGE181
在该异质关系网络中的时态语义路径相似度值。
然后,假设此处的阈值应设定为00,由于,我们可以得出结论:人物对象
Figure 944915DEST_PATH_IMAGE180
Figure 768645DEST_PATH_IMAGE181
可能是使用了多个姓名的同一个人。

Claims (5)

1.一种基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,包括以下步骤:
步骤1:建立异质社会关系网络:对社会活动事务数据库中的数据进行读取,建立基于异质性关系网络的图数据库,形成具有时间属性异质性关系网络;
步骤2:搜索时态语义路径:首先根据异质网络中的关系的不同语义对网络进行划分,然后分别在不同语义的关系网络中利用网络结构对人物对象之间的时态语义路径进行搜索,从而得到各个人物对象与其邻居节点之间的时态语义路径,再根据各关系的时间属性计算时态语义路径的时态权重;
步骤3:计算时态语义路径相似度                                                :分别在不同语义的关系网络中,利用异质关系网络的结构特征以及时态语义路径的时态权重值对网络中人物对象的相似度进行测算,从而得到每一对人物对象的具有不同语义的时态语义路径相似度
Figure 583111DEST_PATH_IMAGE001
; 
步骤4:识别人物对象的唯一性:首先对每一对人物对象的时态语义路径相似度
Figure 885917DEST_PATH_IMAGE001
求算术平均值,然后按照该平均值对人物对象对进行排序,找出时态语义路径相似度取值小于设定阈值的人物对象对,这些人物对象节点为具有唯一性特征的人物对象。
2.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤1的具体步骤为:
从记录人物社会活动的网页或文档中抽取的人物社会活动事务记录数据库,其记录信息包括人物基本属性信息、社会活动事务以及关系活动发生的时间属性,将这些社会活动记录中的关系信息导入图数据库中;其中所有的人物或实体作为网络图中的节点,并具有其基本属性,活动关系作为网络图中的边,并具有起始节点、终止节点、活动类型以及时间属性,按照社会活动的不同类型遍历图数据库形成了独立的异质关系网络。
3.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤2的具体步骤为:
首先确定待搜索的人物对象
Figure 836555DEST_PATH_IMAGE002
Figure 2013107466525100001DEST_PATH_IMAGE003
以及邻居节点之间的时态语义路径
Figure 2013107466525100001DEST_PATH_IMAGE005
,然后根据关系
Figure 415752DEST_PATH_IMAGE006
的时间属性计算关系
Figure 889459DEST_PATH_IMAGE006
的时态权重以及由两条关系
Figure 158263DEST_PATH_IMAGE007
构成的时态语义路径
Figure 2013107466525100001DEST_PATH_IMAGE009
的时态权重,计算方法如下:
Figure 2013107466525100001DEST_PATH_IMAGE011
Figure 538221DEST_PATH_IMAGE012
其中,表示当前年份,表示关系属性中的开始时间年份,
Figure 2013107466525100001DEST_PATH_IMAGE015
表示关系属性中的结束时间年份,
Figure 761709DEST_PATH_IMAGE016
Figure 2013107466525100001DEST_PATH_IMAGE017
表示相同节点对之间不同关系的标号, 
Figure 577219DEST_PATH_IMAGE018
表示时态语义路径,
Figure 2013107466525100001DEST_PATH_IMAGE019
表示时态语义路径的标号,
Figure 927429DEST_PATH_IMAGE020
Figure 2013107466525100001DEST_PATH_IMAGE021
分别为人物对象节点
Figure 361952DEST_PATH_IMAGE002
Figure 543535DEST_PATH_IMAGE003
与邻居节点
Figure 264366DEST_PATH_IMAGE004
的构成时态语义路径的关系的时态权重值。
4.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤3的具体步骤为:
首先,从图数据库中按照不同类型的关系读取数据;
然后,对每一种类型的异质性关系网络分别进行遍历,依次在每一种类型的异质性关系网络中计算每一对人物对象对
Figure 164189DEST_PATH_IMAGE002
Figure 136824DEST_PATH_IMAGE003
的相似性测度,即
Figure 438492DEST_PATH_IMAGE022
Figure 330225DEST_PATH_IMAGE022
的计算方法如下:
Figure 2013107466525100001DEST_PATH_IMAGE023
其中, 
Figure 123869DEST_PATH_IMAGE024
表示异质社会关系网络中关系类型的标号,根据时态语义路径的起点和终点的不同划分成三种不同类型的时态语义路径的集合
Figure 24829DEST_PATH_IMAGE026
以及
Figure 2013107466525100001DEST_PATH_IMAGE027
,若以上关系具有权重,则
Figure 321949DEST_PATH_IMAGE028
Figure 650162DEST_PATH_IMAGE030
分别表示时态语义路径
Figure 662593DEST_PATH_IMAGE005
Figure 367244DEST_PATH_IMAGE032
的权重和。
5.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤4的具体步骤为:
对于每一对人物对象节点
Figure 784450DEST_PATH_IMAGE002
Figure 752406DEST_PATH_IMAGE003
,计算其在整个异质网络中的时态语义路径相似度
Figure 379696DEST_PATH_IMAGE022
值,即,对每一种类型的关系网络中时态语义路径相似度
Figure 91300DEST_PATH_IMAGE022
求算术平均值,如下:
Figure 2013107466525100001DEST_PATH_IMAGE033
其中,其中
Figure 2013107466525100001DEST_PATH_IMAGE035
表示该异质社会关系网络中关系类型的集合,
Figure 33028DEST_PATH_IMAGE036
表示该网络中的一种关系类型,表示异质关系网络中关系种类的数目,计算结果
Figure 22981DEST_PATH_IMAGE038
表示人物对象节点
Figure 803855DEST_PATH_IMAGE002
Figure 789129DEST_PATH_IMAGE003
在该异质关系网络中的时态语义路径相似度的值;最后,根据人物对象节点对的
Figure 505412DEST_PATH_IMAGE038
值进行排序,并根据当前关系网络特征以及网络分析与挖掘的应用需求设定人物唯一性阈值
Figure 2013107466525100001DEST_PATH_IMAGE039
,用该阈值对整个关系网络中所有人物对象节点对的时态语义路径相似度的计算结果进行过滤,该相似度的取值小于该阈值的人物对象节点即为具有唯一性特征的人物对象。
CN201310746652.5A 2013-12-31 2013-12-31 基于异质网络时态语义路径相似度的人物唯一性识别方法 Expired - Fee Related CN103678279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310746652.5A CN103678279B (zh) 2013-12-31 2013-12-31 基于异质网络时态语义路径相似度的人物唯一性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310746652.5A CN103678279B (zh) 2013-12-31 2013-12-31 基于异质网络时态语义路径相似度的人物唯一性识别方法

Publications (2)

Publication Number Publication Date
CN103678279A true CN103678279A (zh) 2014-03-26
CN103678279B CN103678279B (zh) 2016-08-17

Family

ID=50315888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310746652.5A Expired - Fee Related CN103678279B (zh) 2013-12-31 2013-12-31 基于异质网络时态语义路径相似度的人物唯一性识别方法

Country Status (1)

Country Link
CN (1) CN103678279B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509614A (zh) * 2018-04-03 2018-09-07 中山大学 一种基于图数据库的任务履历管理及分析方法
CN109815497A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法
CN109857753A (zh) * 2018-12-28 2019-06-07 考拉征信服务有限公司 用户数据验证方法、装置、电子设备及存储介质
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN110110222A (zh) * 2019-04-12 2019-08-09 保定市大为计算机软件开发有限公司 一种目标对象确定方法、装置及计算机存储介质
CN112836063A (zh) * 2021-01-27 2021-05-25 四川新网银行股份有限公司 一种实现特征溯源的方法
CN113282818A (zh) * 2021-01-29 2021-08-20 中国人民解放军国防科技大学 基于BiLSTM的挖掘网络人物关系的方法、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034687A (zh) * 2012-11-29 2013-04-10 中国科学院自动化研究所 一种基于2-类异质网络的关联模块识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034687A (zh) * 2012-11-29 2013-04-10 中国科学院自动化研究所 一种基于2-类异质网络的关联模块识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
YIZHOU SUN,JIAWEI HAN: "Meta-Path-Based Search and Mining in Heterogeneous Information", 《TSINGHUA SCIENCEAND TECHNOLOGY》 *
YIZHOU SUN、JIAWEI HAN、XIFENG YAN、PHILIP S. YU、TIANYI WU: "PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks", 《VLDB’11》 *
索利军: "多关系社会网络分析和可视化系统的研究", 《中国优秀硕士学位论文全文数据库•基础科学辑》 *
索利军: "多关系社会网络分析和可视化系统的研究", 《中国优秀硕士学位论文全文数据库•基础科学辑》, no. 3, 15 March 2011 (2011-03-15), pages 14 - 21 *
肖文杰: "大规模时态关系网络可视化技术研究", 《中国优秀硕士学位论文全文数据库•基础科学辑》 *
肖文杰: "大规模时态关系网络可视化技术研究", 《中国优秀硕士学位论文全文数据库•基础科学辑》, no. 2, 15 February 2013 (2013-02-15), pages 51 - 58 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN110020036B (zh) * 2017-07-18 2021-06-08 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN108509614A (zh) * 2018-04-03 2018-09-07 中山大学 一种基于图数据库的任务履历管理及分析方法
CN109857753A (zh) * 2018-12-28 2019-06-07 考拉征信服务有限公司 用户数据验证方法、装置、电子设备及存储介质
CN109815497A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法
CN109815497B (zh) * 2019-01-23 2023-04-18 四川易诚智讯科技有限公司 基于句法依存的人物属性抽取方法
CN110110222A (zh) * 2019-04-12 2019-08-09 保定市大为计算机软件开发有限公司 一种目标对象确定方法、装置及计算机存储介质
CN110110222B (zh) * 2019-04-12 2021-03-16 保定市大为计算机软件开发有限公司 一种目标对象确定方法、装置及计算机存储介质
CN112836063A (zh) * 2021-01-27 2021-05-25 四川新网银行股份有限公司 一种实现特征溯源的方法
CN113282818A (zh) * 2021-01-29 2021-08-20 中国人民解放军国防科技大学 基于BiLSTM的挖掘网络人物关系的方法、装置及介质
CN113282818B (zh) * 2021-01-29 2023-07-07 中国人民解放军国防科技大学 基于BiLSTM的挖掘网络人物关系的方法、装置及介质

Also Published As

Publication number Publication date
CN103678279B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103678279A (zh) 基于异质网络时态语义路径相似度的人物唯一性识别方法
CN110597870A (zh) 一种企业关系挖掘方法
WO2017211051A1 (zh) 目标对象的社交账号挖掘方法、服务器和存储介质
CN103559262A (zh) 基于社区的作者及其学术论文推荐系统和推荐方法
CN104636325B (zh) 一种基于极大似然估计确定文档相似度的方法
CN103092950A (zh) 一种网络舆情地理位置实时监控系统和方法
CN110059177B (zh) 一种基于用户画像的活动推荐方法及装置
WO2019109698A1 (zh) 目标用户群体的确定方法及装置
Fu et al. Automatic record linkage of individuals and households in historical census data
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
Cardon et al. Two Paths of Glory—Structural Positions and Trajectories of Websites within Their Topical Territory
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN108038734B (zh) 基于点评数据的城市商业设施空间分布探测方法及系统
Chen et al. Data analysis and knowledge discovery in web recruitment—based on big data related jobs
Cheng et al. Process and application of data mining in the university library
KR100938830B1 (ko) 지식베이스 구축 방법 및 그 서버
Mashat et al. Discovery of association rules from university admission system data
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置
CN105183806A (zh) 一种不同平台间识别同一用户的方法与系统
Wenan et al. analysis and evaluation of TripAdvisor data: a case of Pokhara, Nepal
Shimada et al. On-site likelihood identification of tweets for tourism information analysis
CN104636324B (zh) 话题溯源方法和系统
CN107480241A (zh) 一种基于潜在主题的相似企业推荐方法
Tossavainen et al. Implementing a system enabling open innovation by sharing public goals based on linked open data
Li et al. Jian Chen

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20191231

CF01 Termination of patent right due to non-payment of annual fee