CN112199957B - 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 - Google Patents
基于属性和关系信息联合嵌入的人物实体对齐方法及系统 Download PDFInfo
- Publication number
- CN112199957B CN112199957B CN202011208630.XA CN202011208630A CN112199957B CN 112199957 B CN112199957 B CN 112199957B CN 202011208630 A CN202011208630 A CN 202011208630A CN 112199957 B CN112199957 B CN 112199957B
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- information
- vector
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 142
- 230000006870 function Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络安全应用技术领域,特别涉及一种基于属性和关系信息联合嵌入的人物实体对齐方法及系统,包含:收集网络中人物实体数据,提取实体属性信息和关系信息,分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度,以判定两个人物实体是否为同一实体。本发明综合人物实体属性信息和关系信息来计算实体之间相似度,充分利用实体非共有但有关联的信息进行实体对齐,提高在共有信息稀疏时对齐的准确度。
Description
技术领域
本发明属于网络安全应用技术领域,特别涉及一种基于属性和关系信息联合嵌入的人物实体对齐方法及系统。
背景技术
近年来,互联网在全世界范围内迅速普及,网络服务开始多样化,一个人往往同时访问多种网络服务,因此不同的网络平台或网站可能同时提供了关于同一人物相同或不同的信息。研究者为了发现某些人物全面、准确的信息,得判断在各个网络服务中散落的信息是否属于同一人物实体,即人物实体对齐。人物实体对齐技术在网络安全、商品推荐、信息检索等多个领域具有重要意义;例如:公安机关通过实体对齐技术,对网络犯罪嫌疑人进行更加细致的分析,推动破案进程;在商业领域,商家可以通过顾客全面、完整的信息为其进行有效的商品推荐,实现营销利益最大化等。
人物实体对齐隶属于实体对齐,其研究方法主要分为两种:(1)基于字符串相似度的实体对齐算法。(2)基于知识嵌入的实体对齐算法。基于字符串相似度的实体对齐算法大多在共有属性丰富的情况下进行,例如:基于实体共有属性平均相似度的实体对齐算法;基于属性平均相似度对齐方法的基础上,加入属性标识度的定义并参与到对齐过程中,凸显不同属性在对齐过程中的作用。但是现有方法在利用实体的属性和关系信息解决实体对齐问题时,大多是基于实体的共有信息,而忽略了一些非共有但语义相近的属性信息,并且只考虑了一阶相邻实体之间的关系,导致在共有信息较少的情况下难以准确对齐实体。
发明内容
为此,本发明提供一种基于属性和关系信息联合嵌入的人物实体对齐方法及系统,综合人物实体属性信息和关系信息来计算实体之间相似度,充分利用实体非共有但有关联的信息进行实体对齐,提高在共有信息稀疏时对齐的准确度。
按照本发明所提供的设计方案,一种基于属性和关系信息联合嵌入的人物实体对齐方法,包含如下内容:
收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;
依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;
分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;
依据人物实体相似度判定两个人物实体是否为同一实体。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步的,提取关系信息中,将人物实体通过关系连接,形成人物实体关系结构;依据人物实体关系结构获取人物实体关系结构信息和关系语义信息。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,将实体关系信息特征和属性信息特征通过利用TransE翻译模型进行特征嵌入,以获取关系向量和属性向量。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,特征嵌入中,依据人物实体关系结构信息及关系语义信息,综合人物实体一阶关系信息和二阶关系信息,利用基于距离的损失函数来获取用于刻画人物实体一阶关系信息的向量表示;依据一阶关系信息获取各实体的二阶关系信息,并利用另一个基于距离的损失函数来获取用于刻画人物实体二阶关系信息的向量表示;通过设置一阶关系信息和二阶关系信息两者向量表示的权重来获取人物实体的关系向量。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,利用信息熵计算人物实体每种属性的标识度,以利用包含属性标识度的属性信息来获取属性向量。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,依据人物实体属性的属性值在该人物实体属性所有属性值中出现的概率来计算属性的该人物实体属性的标识度,计算公式表示为:其中,/>为属性ak的第u个属性值,/>为属性值/>在该属性所有属性值中出现的概率,f表示人物实体属性元素数。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,将人物实体属性中,假设语义相关的属性值其语义向量相似,选择Hownet中文语义知识库,通过Hownet词向量表示方法得到属性值的语义向量,结合属性标识度,将人物实体与属性通过向量表示学习后,基于距离的损失函数获取用于刻画人物实体属性特征的属性向量。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,用于获取属性向量的损失函数表示为:
其中,f(ak)、f(ak)'表示人物实体ed、ed'两者的属性ak的向量表示,A为人物实体正样本属性三元组集合,即原始的属性三元组数据集;A’为负样本属性三元组集合,即通过数据集中人物实体随机替换头实体或数据集中属性值向量随机替换尾属性值向量得到的三元组集合;γ为学习模型边界超参数。
作为本发明基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,人物实体相似度拟合计算公式表示为:其中,/>为人物实体ei和ej的属性向量相似度,/>为实体的关系向量相似度,θ为属性向量相似度在人物实体相似度中的权重。
进一步地,基于上述的方法,本发明还提供一种基于属性和关系信息联合嵌入的人物实体对齐系统,包含:特征提取模块、特征向量生成模块、相似度计算模块和实体对齐模块,其中,
特征提取模块,用于收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;
特征向量生成模块,用于依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;
相似度计算模块,用于分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;
实体对齐模块,用于依据人物实体相似度判定两个人物实体是否为同一实体。
本发明的有益效果:
本发明充分利用实体非共有但有关联的信息进行实体对齐,提高在共有信息稀疏时对齐结果的Hit@k值,从而能够判定多种网络服务不同网络平台或网站人物实体关系,提升人物实体对齐的准确有效性,对人物实体对齐技术在网络安全、商品对体检、信息检索等多个领域的应用具有指导意义,具有较好的应用前景和市场价值。
附图说明:
图1为实施例中人物实体对齐流程示意;
图2为实施例中人物实体对齐算法原理示意;
图3为实施例中百科数据集参数值选取示意;
图4为实施例中知识库数据集参数选取示意;
图5为实施例中属性标识度计算结果示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
现有方法在利用实体的属性和关系信息解决实体对齐问题时,大多是基于实体的共有信息,而忽略了一些非共有但语义相近的属性信息,并且只考虑了一阶相邻实体之间的关系,导致在共有信息较少的情况下难以准确对齐实体。为此,本发明实施例,参见图1所示,提供一种基于属性和关系信息联合嵌入的人物实体对齐方法,参见图1所示,包含如下内容:
S101、收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;
S102、依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;
S103、分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;
S104、依据人物实体相似度判定两个人物实体是否为同一实体。
通过对人物实体关系和属性数据进行分析,利用人物实体属性中同义属性和/或存在关联的属性、及关系结构和语义信息来对齐实体,能够充分利用实体非共有但有关联的信息,提高在共有信息稀疏时对齐的准确有效性,提升人物实体对齐实际应用价值。
作为本发明实施例中的基于属性和关系信息联合嵌入的人物实体对齐方法,进一步的,提取关系信息中,将人物实体通过关系连接,形成人物实体关系结构;依据人物实体关系结构获取人物实体关系结构信息和关系语义信息。
参见图2所示,由3部分组成:(1)关系信息嵌入:将人物实体中的一阶关系以及二阶关系信息通过翻译模型TransE进行特征嵌入,得到刻画实体关系信息的向量;(2)属性信息嵌入:先基于信息熵的方法计算每种属性的标识度,再通过Hownet将其属性值表示为对应的向量,最后对包含属性标识度的全部属性信息进行嵌入,得到刻画实体属性信息的特征向量;(3)人物实体相似度计算:先通过余弦相似度分别对属性向量和关系向量求相似度,再通过二元回归模型拟合实体属性向量和关系向量相似度求人物实体相似度,若相似度大于阈值则判定两个实体为同一实体。
在人物实体的关系信息中,实体与实体之间通过关系连接在一起,形成了关系结构,且实体之间的关系还具有语义信息,即不同实体之间的关系类型可能不同。传统的嵌入模型在嵌入时只对实体之间关系结构信息进行嵌入,不能刻画关系的语义信息,而TransE模型不仅可以对实体的关系结构信息嵌入,还嵌入了关系的语义信息,得到表示实体的关系结构和关系语义信息的向量;且相比于其他嵌入模型,TransE可以很好的解决(1)实体与实体之间的关系准确表示问题;(2)计算复杂度高的问题。故可使用TransE模型对实体信息进行向量表示学习。
作为本发明实施例中基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,特征嵌入中,依据人物实体关系结构信息及关系语义信息,综合人物实体一阶关系信息和二阶关系信息,来获取实体的人物关系向量。进一步地,利用基于距离的损失函数来获取用于刻画人物实体一阶关系信息的向量表示;依据一阶关系信息获取各实体的二阶关系信息,并利用另一个基于距离的损失函数来获取用于刻画人物实体二阶关系信息的向量表示;通过设置一阶关系信息和二阶关系信息两者向量表示的权重来获取人物实体的关系向量。
给定人物实体的关系三元组数据集S,其中每个三元组表示为Hr=(ea,rab,eb),实体与一阶关系通过向量表示学习后,方法期望ea+rab=eb。为了学习一阶实体关系的嵌入,TransE最小化基于距离的损失函数L1来衡量嵌入后的各个向量表示是否合理,损失函数L1计算公式为:
d(ea+rab,eb)=||ea+rab-eb||
S'={(ea',rab,eb)|ea'∈E}∪{ea,rab,eb'|eb'∈E}
其中,γ表示边界超参数,取值一般在(0,1),||x||表示向量x的一阶范数;E为实体的集合;S是人物实体的正样本关系三元组集合,是原始给定的关系三元组数据集;S’为负样本关系三元组集合,其通过数据集中实体随机替换头实体或随机替换尾实体得到。通过嵌入得到刻画人物实体一阶关系的向量表示为
在给定的关系三元组数据集S中,如果实体ea存在(ea,rab,eb)∧(eb,rbc,ec)这种关系,称实体ea拥有二阶实体关系。根据S中的一阶实体关系,可以得到S中各实体的二阶实体关系Hr2=(ea,rab+rbc,ec),用SQ表示实体二阶关系的三元组数据集,实体与二阶关系通过向量表示学习后,方法期望ea+(rab+rbc)=ec,为了学习实体二阶关系的嵌入,其最小化另一个基于距离的损失函数L2:
d(ea+(rab+rbc),ec)=||ea+(rab+rbc)-ec||
SQ'={(ea',(rab+rbc),ec)|ea'∈E}∪{ea,(rab+rbc),ec'|ec'∈E}其中,rab,rbc关系向量通过实体一阶关系嵌入得到;SQ,SQ'同样为正、负三元组集合;通过嵌入得到刻画人物实体的二阶关系向量表示为
综合实体一阶关系和二阶关系得到实体的关系向量表示为:
其中λ表示实体一阶关系的权重,由于一阶相邻实体关系能够比二阶关系更准确刻画实体的关系,故方法弱化了二阶关系的作用,所以λ通常大于0.5,λ的具体取值通过实验确定。
作为本发明实施例中基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,利用信息熵计算人物实体每种属性的标识度,以利用包含属性标识度的属性信息来获取属性向量。
在属性嵌入时,不同类型的属性对人物实体的标识作用不同。根据观察,在计算属性标识度时,目前大多数方法只考虑属性的取值范围,然而这种方法是片面的,例如:“职业”属性取值范围较广,有“演员”、“老师”、“政治家”等取值。其中,属性值“政治家”出现的次数较少,而属性值“老师”经常出现,因此属性值分布是否均匀也会影响属性的标识度。属性值分布的范围越广,分布越均匀,属性所含的信息量越大,属性标识度越高。信息熵可以衡量每个属性所含的信息量,故可基于属性的信息熵计算属性标识度。
作为本发明实施例中基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,依据人物实体属性的属性值在该人物实体属性所有属性值中出现的概率来计算属性的该人物实体属性的标识度,计算公式表示为:其中,为属性ak的第u个属性值,/>为属性值/>在该属性所有属性值中出现的概率,f表示人物实体属性元素数。
作为本发明实施例中的基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,将人物实体属性中,假设语义相关的属性值其语义向量相似,选择Hownet中文语义知识库,通过Hownet词向量表示方法得到属性值的语义向量,结合属性标识度,将人物实体与属性通过向量表示学习后,基于距离的损失函数获取用于刻画人物实体属性特征的属性向量。
在不同的数据源中,由于数据源的异构性,语义相同或者相近的属性值可能以不同的形式表达。实施例中可将用属性值的语义向量来表示属性值,语义相关的属性值其语义向量相似。在嵌入的过程中,属性值向量作为固定的向量值输入而不需要再学习,并加入属性标识度,更好地突出特征属性在实体向量中的占比,进而得到刻画属性特征的人物实体向量,则拥有相似属性值向量的实体通过学习会得到会得到相似的实体向量。Hownet是目前国内外广泛使用的中文语义知识库,可以清晰表达词语所包含的语义信息,本案实施例中数据为中文人物实体数据,故可选择Hownet语义知识库。通过Hownet词向量表示方法,得到属性值的语义向量,假设vk为Hownet编码后属性值ak的向量表示,则结合属性的标识度后,属性ak的向量f(ak)可表示为:f(ak)=identify(ak)×vk
在人物实体的属性三元组数据集A中,每个三元组表示为Ha=(ed,ak,f(ak)),在嵌入过程中,对属性值向量f(ak)作为固定向量进行嵌入,实体与属性通过向量表示学习后,方法期望ed+ak=f(ak)。进一步地,用于获取属性向量的损失函数表示为:
其中,f(ak)、f(ak)'表示人物实体ed、ed'两者的属性ak的向量表示,A为人物实体正样本属性三元组集合,即原始的属性三元组数据集;A’为负样本属性三元组集合,即通过数据集中人物实体随机替换头实体或数据集中属性值向量随机替换尾属性值向量得到的三元组集合;γ为学习模型边界超参数。
作为本发明实施例中基于属性和关系信息联合嵌入的人物实体对齐方法,进一步地,综合实体的关系向量相似度与属性向量相似度,计算人物实体相似度。当两个实体的相似度大于一定阈值μ时,认为这两个实体为同一实体。人物实体相似度拟合计算公式可表示为:其中,/>为人物实体ei和ej的属性向量相似度,/>为实体的关系向量相似度,/>θ为属性向量相似度在人物实体相似度中的权重。θ决定属性信息与关系信息在识别实体时的贡献度。不同数据源的数据质量存在差异:(1)其提供的关系信息与属性信息的丰富程度不同;(2)其提供的关系信息和属性信息的质量有所差异。因此,权重θ需要根据具体情况来设定,一般而言对于属性信息丰富且质量较高的数据集,θ的值应该较大,反之则较小。故实施例中可不设定θ的大小,而使用二元回归模型拟合不同数据质量下的θ取值。
进一步地,基于上述的方法,本发明实施例还提供一种基于属性和关系信息联合嵌入的人物实体对齐系统,包含:特征提取模块、特征向量生成模块、相似度计算模块和实体对齐模块,其中,
特征提取模块,用于收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息,所述属性信息至少包含同义和/或存在关联的属性,所述关系信息包含关系结构信息和关系语义信息;
特征向量生成模块,用于依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;
相似度计算模块,用于分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;
实体对齐模块,用于依据人物实体相似度判定两个人物实体是否为同一实体。
为验证本发明实施例中方案有效性,下面结合实验数据对本案实施例方案做进一步解释说明:
对实验的数据集、实验的参数、实验的对比方法以及实验的结果分别进行说明。为了验证二元回归模型效果,分别使用属性质量高的百科人物数据集与关系质量高的知识图谱人物实体数据集对本案方案进行实验。对方案中的相关参数的不同取值进行了实验,得到实验效果最佳的参数。在此基础上,将本案方案与基于本案方案的简化变形方法、现有综合使用属性和关系信息的方法(IMUSE)进行对比实验,以验证本案方案的有效性。
本案实验两个数据集分别来自百科以及知识图谱。百科数据来自百度百科和互动百科,百科数据中人物含有大量的属性信息,其属性质量较高。本案实验从百度百科以及互动百科爬取了15个明星重名人词条的人物属性与关系信息,其中百度百科人物实体总数628个,属性种类27种,关系种类24种;互动百科人物实体总数525个,属性种类28种,关系种类20种。知识图谱数据来自DBP和YAGO知识图谱实体数据,其中包含大量的非人物实体数据,本案研究人物实体对齐,因此,先通过stanford-core-nlp命名实体识别提取出其中人物实体数据,得到人物实体的属性以及关系数据,其中得到DBP人物实体数22903个,属性类型19种,关系类型35种。YAGO人物实体数14063个,属性类型5种,关系类型14种,通过命名实体识别得到对齐实体对828对。在每个数据集中,可选取20%已经对齐的实体作为测试集,剩下的为训练集.。得到的两个数据集结果如下表所示:
表1:数据集的统计
目前实体对齐方法的评价标准主要是Hit@k以及Mean Rank。Hits@k反映了排在k前面的正确对齐实体的比例;Mean Rank为正确对齐实体排名的平均值。本案从Hit@1、Hit@10以及Mean Rank 3个方面评价实验的结果。Hit@k的值越高、Mean Rank[]的值越低,代表实体对齐的效果越好,算法越有效。
参数选择实验:
(1)关系权重参数α的设定:由于知识图谱数据集关系数据较为丰富,故关系权重参数选择在知识图谱数据集上进行,且只选择关系信息观察实验效果,避免属性信息带来偏差。可从{0.6,,0.65,0.7,0.75,0.8,0.85,0.9}中选择一阶关系权重,当一阶关系权重α为0.75时,Hit@1与Hit@10值都为最高,故选择一阶关系权重α为0.75。其结果如下表2所示:
表2:α值的选取
α | 0.6 | 0.65 | 0.7 | 0.75 | 0.8 | 0.85 | 0.9 |
Hit@1 | 0.607 | 0.644 | 0.652 | 0.675 | 0.661 | 0.657 | 0.642 |
Hit@10 | 0.716 | 0.738 | 0.769 | 0.784 | 0.771 | 0.759 | 0.744 |
(2)基于TransE翻译模型向量表示时,边界超参数γ,向量维度k需要训练得到。实验中边界超参数γ从{0.5,1,2}中选择,向量维度k从{50,100,200}中选择,经过训练,当γ=1,k=100时效果最佳.所以本实验参数选择为γ=1,k=100。
(3)二元回归模型参数以及阈值的设定:针对不同的数据集,需要对二元回归模型参数θ,以及实体相似度阈值μ进行训练。实验中阈值μ从{0.75.0.8,0.85.0.9}中选择。在百科数据集上通过训练集训练参数θ与阈值μ时,训练得到二元回归模型参数折线图如图4所示,在θ值为0.66时,μ为0.85时,实验效果最佳,故可选取参数值θ为0.66,阈值μ为0.85。
综合两个数据集上全部的属性数据对38种属性计算标识度,根据信息熵法计算得到的部分属性标识度结果如图5所示,出生日期、主要成就等取值范围大且分布较均匀的属性的属性标识度较大,验证了用信息熵计算属性标识度的客观性和合理性。
为了验证综合两种信息以及综合两种信息时使用二元回归模型的有效性,将本案方案的算法(JARE_BR)进行简化,得到仅基于属性信息嵌入的实体对齐方法(AE)、仅基于关系信息嵌入的实体对齐方法(RE),以及综合属性和关系信息嵌入的平均相似度方法(JARE_AVE)三种简化方法,作为本案算法的对比算法。同时,为了验证本案方案对属性与关系信息进行嵌入的实体对齐效果,与同样是综合属性与关系信息的无监督实体对齐方法(IMUSE)进行对比实验:
从上表可以看出,在跨数据集上本案方案的算法在各项指标上都优于其他算法。在两个数据集上与简化的AE、RE方法相比,JARE_BR模型的Hit@1值至少提高了19.6%,Hit@10值至少提高了20.4%。这是因为相比于这两种方法仅利用实体的单方面信息,JARE_BR综合利用了实体的属性和关系信息,提高了实验的Hit@1以及Hit@10值。相比于JARE_AVE,我们观察到使用二元回归模型对实体对齐带来的改进,JARE_BR使用二元线性回归模型可以对不同数据集中不同质量的属性以及关系信息赋予不同的权重值,充分利用各自数据集中高质量的信息,故Hit@1提高了6.5%以上,Hit@10值提高了7.2%以上。和IMUSE相比,本案中的算法可以利用到实体有关联的属性信息以及实体的二阶关系信息,且利用属性信息时还考虑了属性的标识度,凸显了特征属性在对齐时的作用,故Hit@1提高了8.4%以上,Hit@10提高了9.1以上。且从上表可以看出,与其他方法相比,本案方案算法Mean rank值均为最低,可以有效的证明本案方案的有效性。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的系统。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的系统。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,包含如下内容:
收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;提取关系信息中,将人物实体通过关系连接,形成人物实体关系结构;依据人物实体关系结构获取人物实体关系结构信息和关系语义信息;
依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;其中,将实体关系信息特征和属性信息特征通过利用TransE翻译模型进行特征嵌入,获取关系向量和属性向量;特征嵌入中,依据人物实体关系结构信息及关系语义信息,综合人物实体一阶关系信息和二阶关系信息,利用基于距离的损失函数来获取用于刻画人物实体一阶关系信息的向量表示;依据一阶关系信息获取各实体的二阶关系信息,并利用另一个基于距离的损失函数来获取用于刻画人物实体二阶关系信息的向量表示;通过设置一阶关系信息和二阶关系信息两者向量表示的权重来获取人物实体的关系向量;给定人物实体的关系三元组数据集S,其中,每个三元组表示为Hr=(ea,rab,eb),通过最小化基于距离的损失函数l1来衡量一阶实体关系嵌入后的各个向量表示,并通过一阶实体关系嵌入得到刻画人物实体一阶关系的向量表示设定S中如果实体ea存在(ea,rab,eb)∧(eb,rbc,ec),则实体ea拥有二阶实体关系,根据S中的一阶实体关系,得到S中各实体的二阶实体关系Hr2=(ea,rab+rbc,ec),用SQ表示实体二阶关系的三元组数据集,通过最小化另一个基于距离的损失函数l2来学习实体二阶关系嵌入,并通过实体二阶关系嵌入得到刻画人物实体的二阶关系向量表示为/>综合实体一阶关系向量表示和二阶关系向量表示得到实体的关系向量表示,即/>λ表示实体一阶关系的权重;
d(ea+rab,eb)=||ea+rab-eb||,S'={(ea',rab,eb)|ea'∈E}∪{ea,rab,eb'|eb'∈E},γ表示边界超参数,||x||表示向量x的一阶范数,E为实体的集合,S’为实体一阶关系负样本关系三元组集合,其通过数据集中实体随机替换头实体或随机替换尾实体得到;
d(ea+(rab+rbc),ec)=||ea+(rab+rbc)-ec||,SQ'={(ea',(rab+rbc),ec)|ea'∈E}∪{ea,(rab+rbc),ec'|ec'∈E},SQ'为实体二阶关系负三元组集合;
分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;
依据人物实体相似度判定两个人物实体是否为同一实体。
2.根据权利要求1所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,利用信息熵计算人物实体每种属性的标识度,以利用包含属性标识度的属性信息来获取属性向量。
3.根据权利要求1或2所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,依据人物实体属性的属性值在该人物实体属性所有属性值中出现的概率来计算属性的该人物实体属性的标识度,计算公式表示为:其中,/>为属性ak的第u个属性值,/>为属性值/>在该属性所有属性值中出现的概率,f表示人物实体属性元素数。
4.根据权利要求1或2所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,在人物实体属性中,假设语义相关的属性值其语义向量相似,选择Hownet中文语义知识库,通过Hownet词向量表示方法得到属性值的语义向量,结合属性标识度,将人物实体与属性通过向量表示学习后,基于距离的损失函数获取用于刻画人物实体属性特征的属性向量。
5.根据权利要求4所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,用于获取属性向量的损失函数表示为:
其中,f(ak)、f(ak)'表示人物实体ed、ed'两者的属性ak的向量表示,A为人物实体正样本属性三元组集合,即原始的属性三元组数据集;A’为负样本属性三元组集合,即通过数据集中人物实体随机替换头实体或数据集中属性值向量随机替换尾属性值向量得到的三元组集合。
6.根据权利要求1所述的基于属性和关系信息联合嵌入的人物实体对齐方法,其特征在于,人物实体相似度拟合计算公式表示为:其中,/>为人物实体ei和ej的属性向量相似度,/>为实体的关系向量相似度,θ为属性向量相似度在人物实体相似度中的权重。
7.一种基于属性和关系信息联合嵌入的人物实体对齐系统,其特征在于,基于权利要求1所述的方法实现,包含:特征提取模块、特征向量生成模块、相似度计算模块和实体对齐模块,其中,
特征提取模块,用于收集网络中人物实体数据,提取表示人物基本数据的属性信息和表示人物关系数据的关系信息;
特征向量生成模块,用于依据属性信息和关系信息分别组成用于刻画实体关系特征的关系向量和用于刻画实体属性特征的属性向量;
相似度计算模块,用于分别计算任意两个人物实体中关系向量和属性向量的相似度,并将关系向量和属性向量两者的相似度拟合,获取人物实体相似度;
实体对齐模块,用于依据人物实体相似度判定两个人物实体是否为同一实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208630.XA CN112199957B (zh) | 2020-11-03 | 2020-11-03 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208630.XA CN112199957B (zh) | 2020-11-03 | 2020-11-03 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199957A CN112199957A (zh) | 2021-01-08 |
CN112199957B true CN112199957B (zh) | 2023-12-08 |
Family
ID=74033228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011208630.XA Active CN112199957B (zh) | 2020-11-03 | 2020-11-03 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199957B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561500B (zh) * | 2021-02-25 | 2021-05-25 | 深圳平安智汇企业信息管理有限公司 | 基于用户数据的薪酬数据生成方法、装置、设备及介质 |
CN112765370B (zh) * | 2021-03-29 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 |
CN113705236B (zh) * | 2021-04-02 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 实体比较方法、装置、设备及计算机可读存储介质 |
CN115237971B (zh) * | 2022-09-22 | 2022-12-20 | 北京智源人工智能研究院 | 一种基于实体融合的信息推荐方法、系统、装置及介质 |
CN115905561B (zh) * | 2022-11-14 | 2023-11-10 | 华中农业大学 | 本体对齐方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704480A (zh) * | 2016-08-08 | 2018-02-16 | 百度(美国)有限责任公司 | 扩展和强化知识图的方法和系统以及计算机介质 |
CN108694201A (zh) * | 2017-04-10 | 2018-10-23 | 华为软件技术有限公司 | 一种实体对齐方法和装置 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
CN111383773A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医学实体信息的处理方法、装置、存储介质及电子设备 |
CN111563192A (zh) * | 2020-04-28 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 实体对齐方法、装置、电子设备及存储介质 |
-
2020
- 2020-11-03 CN CN202011208630.XA patent/CN112199957B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704480A (zh) * | 2016-08-08 | 2018-02-16 | 百度(美国)有限责任公司 | 扩展和强化知识图的方法和系统以及计算机介质 |
CN108694201A (zh) * | 2017-04-10 | 2018-10-23 | 华为软件技术有限公司 | 一种实体对齐方法和装置 |
CN111383773A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医学实体信息的处理方法、装置、存储介质及电子设备 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110457486A (zh) * | 2019-07-05 | 2019-11-15 | 中国人民解放军战略支援部队信息工程大学 | 基于知识图谱的人物实体对齐方法及装置 |
CN111563192A (zh) * | 2020-04-28 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 实体对齐方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
庄严 等.知识库实体对齐技术综述.计算机研究与发展.2016,第53卷(第1期),165-192. * |
Also Published As
Publication number | Publication date |
---|---|
CN112199957A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199957B (zh) | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 | |
Li et al. | Learning ordinal discriminative features for age estimation | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110659665B (zh) | 一种异维特征的模型构建方法及图像识别方法、装置 | |
Xu et al. | Multi-task rank learning for image quality assessment | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN104537252B (zh) | 用户状态单分类模型训练方法和装置 | |
Fatras et al. | Minibatch optimal transport distances; analysis and applications | |
CN113177132A (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
Caruso et al. | Deprivation and the dimensionality of welfare: a variable‐selection cluster‐analysis approach | |
CN114998602B (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
Lin et al. | Unsupervised feature selection via orthogonal basis clustering and local structure preserving | |
Zeng et al. | Pan: Prototype-based adaptive network for robust cross-modal retrieval | |
Kunda et al. | Improving multi-site autism classification via site-dependence minimization and second-order functional connectivity | |
Zhou et al. | Improved cross-label suppression dictionary learning for face recognition | |
CN115309860B (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
Kapoor et al. | Which faces to tag: Adding prior constraints into active learning | |
CN117725261A (zh) | 一种视频文本跨模态检索方法、装置、设备与介质 | |
Sajid et al. | Short search space and synthesized-reference re-ranking for face image retrieval | |
Aggarwal et al. | Outlier detection in categorical, text, and mixed attribute data | |
Wang et al. | On variable selection in matrix mixture modelling | |
Gavrilev et al. | Anomaly detection in networks via score-based generative models | |
CN116319033A (zh) | 网络入侵攻击检测方法、装置、设备及存储介质 | |
CN111160398B (zh) | 一种基于示例级和标签级关联的缺失标签多标签分类方法 | |
CN112732908B (zh) | 试题新颖度评估方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |