CN113361263A - 基于属性值分布的人物实体属性对齐方法及系统 - Google Patents

基于属性值分布的人物实体属性对齐方法及系统 Download PDF

Info

Publication number
CN113361263A
CN113361263A CN202110626786.8A CN202110626786A CN113361263A CN 113361263 A CN113361263 A CN 113361263A CN 202110626786 A CN202110626786 A CN 202110626786A CN 113361263 A CN113361263 A CN 113361263A
Authority
CN
China
Prior art keywords
attribute
attributes
attribute value
alignment
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110626786.8A
Other languages
English (en)
Other versions
CN113361263B (zh
Inventor
尹美娟
王灿
刘晓楠
胡倩
毛颖
罗向阳
薛鑫卓
刘又文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202110626786.8A priority Critical patent/CN113361263B/zh
Publication of CN113361263A publication Critical patent/CN113361263A/zh
Application granted granted Critical
Publication of CN113361263B publication Critical patent/CN113361263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机数据处理技术领域,特别涉及一种基于属性值分布的人物实体属性对齐方法及系统,通过获取不同数据来源的人物实体属性,并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性;针对数值型属性,通过核密度估计计算每个属性的属性值概率分布;针对字符串型属性,将其转化为语义向量,利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布;针对属性的属性值概率分布,采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。本发明充分利用同一属性的属性值分布相似性特征,提高属性对齐的准确率以及召回率,自动识别存在对齐关系的属性对,具有较好的应用前景。

Description

基于属性值分布的人物实体属性对齐方法及系统
技术领域
本发明属于计算机数据处理技术领域,特别涉及一种基于属性值分布的人物实体属性对齐方法及系统。
背景技术
人物属性对齐技术是构建全面精准人物画像的关键技术之一,其旨在对齐表示相同或同一含义的人物属性。通过判断两个或多个人物属性是否表示同一属性,识别出不同来源或名字不同但是表示相同含义的属性,从而实现人物信息的一致性描述,为多源异构人物信息的融合奠定基础。属性对齐技术在多个领域具有重要作用。例如:知识图谱通过属性对齐技术融合来自多类数据源中的信息;公安机关通过属性对齐技术,自动化和智能化的搜索全面、准确的人物信息。
目前,研究者主要在实体对齐关系已知的情况下进行属性对齐,利用对齐实体的属性值解决属性对齐问题。当基于属性值求相似度时,跨语言的属性对齐算法基于已经对齐的实体,主要思想为分析和比较不同语言版本的属性值,将属性值分为字符串型、数字型、日期型以及链接型,针对不同的数据类型提出不同的计算方法,最后根据一对属性中属性值的平均相似度作为属性相似度,若相似度大于设定的阈值,则判定该属性对为同一属性。识别属性间细粒度关系的方法,首先给出六种属性值类型,并根据给出的六种类型为基础判断属性数据类型,针对不同的属性数据类型,分别使用不同的计算方法计算相似度,通过建模将属性对齐看做多分类问题,识别属性之间的同义、包含、相关等关系。尽管上述这些方法取得一定的效果,但都只适用于实体对齐关系已知的情况,针对实体对齐关系未知的数据集并不适用。。
发明内容
为此,本发明提供一种基于属性值分布的人物实体属性对齐方法及系统,在实体对齐关系未知的情况下,将属性分为数字型以及字符串型,充分利用同一属性的属性值分布相似性特征,提高属性对齐的准确率以及召回率,自动识别存在对齐关系的属性对。
按照本发明所提供的设计方案,一种基于属性值分布的人物实体属性对齐方法,包含如下内容:
获取不同数据来源的人物实体属性,并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性;
针对数值型属性,通过核密度估计计算每个属性的属性值概率分布;针对字符串型属性,将其转化为语义向量,利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布;
针对属性的属性值概率分布,采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。
作为本发明基于属性值分布的人物实体属性对齐方法,进一步地,将属性的属性值看做是由若干个字符组成,根据每种字符长度在整个属性值的长度中所占比例来确定属性值的数据类型;某一属性的属性值集合中属性值数据类型全为数值型,则判定该属性类型为数值型属性,否则为字符串型属性。
作为本发明基于属性值分布的人物实体属性对齐方法,进一步地,计算每种字符长度在整个属性值长度中所占的比例,选取所占比例最大的字符的数据类型作为对应属性值的数据类型。
作为本发明基于属性值分布的人物实体属性对齐方法,进一步地,针对数值型属性的属性值概率分布,通过
Figure BDA0003101595540000021
来计算属性
Figure BDA0003101595540000022
的概率分布,其中,n为属性值的个数,
Figure BDA0003101595540000023
为属性值观察集,h为平滑参数,K是核函数。
作为本发明基于属性值分布的人物实体属性对齐方法,进一步地,针对数值型属性的核密度估计,使用Epanechnikov核来最小化积分均方误差。
作为本发明基于属性值分布的人物实体属性对齐方法,进一步地,针对字符串型属性,使用word2vec得到属性值的向量表示集合,利用聚类算法并通过距离对代表属性值向量的点进行聚类,将表示同一类的属性值向量聚类到一个簇中,以获取字符串型属性的属性值类的分布;根据属性值类的分布来得到属性的属性值概率分布。
作为本发明基于属性值分布的人物实体属性对齐方法,进一步地,使用DBSCAN密度聚类算法对属性值向量进行聚类,首先,将属性值向量中全部向量设置未标记特征,并从中随机选择一个属性值向量设置为标记特征;然后,检查随机选择的属性值向量半径领域内属性向量的个数,若该个数大于设定的领域密度阈值,则为随机选择的属性值向量新建一个簇C,并将领域内全部向量放入设定集合N中;将集合N中属性值向量全部设置为标记特征,检查集合中每一个向量半径邻域内属性值向量的个数,若个数大于邻域阈值个数,将该向量加入到簇C中,并将该向量半径领域内的属性值向量加入到集合N中,通过迭代执行,直至集合N为空,形成聚类后的簇C;从随机选择后剩下的属性值向量集合中随机选择一个未标记特征的向量,重复执行,直至全部向量完成聚类。
作为本发明基于属性值分布的人物实体属性对齐方法,进一步地,字符串型属性的属性值概率分布计算表示为:
Figure BDA0003101595540000024
其中,si为第i个类里点的个数,m为属性聚类后类的个数。
作为本发明基于属性值分布的人物实体对齐方法,进一步地,以某一数据来源S1中某一属性
Figure BDA0003101595540000025
自动寻找另一数据来源S2中存在对齐关系的属性对的过程,包含如下内容:计算属性
Figure BDA0003101595540000026
与数据来源S2中所有属性的交叉熵,取出交叉熵值最小的一个属性,记为
Figure BDA0003101595540000027
Figure BDA0003101595540000028
与数据来源S1中所有属性进行交叉熵计算,取出交叉熵最小的一个属性,记为
Figure BDA0003101595540000031
判断属性
Figure BDA0003101595540000032
Figure BDA0003101595540000033
是否为同一属性,若是,则建立对齐关系,属性
Figure BDA0003101595540000034
Figure BDA0003101595540000035
记为两个数据来源中存有对齐关系的属性对。
进一步地,本发明还提供一种基于属性值分布的人物实体属性对齐系统,包含:数据获取模块、概率分布计算模块和属性对齐模块,其中,
数据获取模块,用于获取不同数据来源的人物实体属性,并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性;
概率分布计算模块,用于针对数值型属性,通过核密度估计计算每个属性的属性值概率分布;针对字符串型属性,将其转化为语义向量,利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布;
属性对齐模块,用于针对属性的属性值概率分布,采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。
本发明的有益效果:
本发明首先识别属性的数据类型,将属性分为数值型和字符串型,然后对数字型以及字符串型属性分别使用核密度估计以及DBSCAN密度聚类刻画一个属性下全部实体的对应属性值的概率分布,最后采用双向匹配的思想,通过交叉熵度量属性之间的相似性,由相似性大小判断属性是否可对齐;在实体对齐关系未知的情况下,将属性分为数字型以及字符串型,充分利用同一属性的属性值分布相似性特征,提高属性对齐的准确率以及召回率;采用双向匹配的思想对齐属性,不需要设定阈值,自动识别存在对齐关系的属性对,降低人工设定阈值对属性对齐结果产生的影响。并进一步通过实验结果表明,在存在较丰富共有实体但对齐关系未知的情况下,与现有属性对齐方法相比,在不同数据集上,本案方案准确率、召回率分别提高了8%、10%以上,具有较好的应用前景。
附图说明:
图1为实施例中基于属性值分布的人物实体属性对齐方法流程示意;
图2为实施例中人物实体属性对齐工作流程示意;
图3为实施例中核密度性能图示意;
图4为实施例中百科数据集实验结果对比示意;
图5为实施例中知识图谱数据集实验结果对比示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
人物属性对齐旨在判断不同来源的两个或多个人物属性是否本质上描述人物的同一个属性,对本质上表示同一属性的多个属性建立对齐关系。现有人物属性对齐方法主要在实体对齐关系已知的情况下进行,通过已对齐实体的属性名以及属性值信息判断属性是否对齐。然而在现实的大多数情况下,得到的数据集中并未事先对齐实体,导致此类方法并不适用。为此,本发明实施例,提供一种基于属性值分布的人物实体属性对齐方法,参见图1所示,包含如下内容:
S101、获取不同数据来源的人物实体属性,并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性;
S102、针对数值型属性,通过核密度估计计算每个属性的属性值概率分布;针对字符串型属性,将其转化为语义向量,利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布;
S103、针对属性的属性值概率分布,采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。
本案实施例中,基于属性值分布的属性对齐,在实体对齐关系未知的情况下,将属性分为数字型以及字符串型,充分利用同一属性的属性值分布相似性特征,提高属性对齐的准确率以及召回率。并通过采用双向匹配的思想对齐属性,不需要设定阈值,自动识别存在对齐关系的属性对,避免人为设置阈值对对齐结果的影响。
基于属性值分布的属性对齐算法(ABVD)原理框架,如图2所示,首先识别属性的数据类型,将属性分为数值型和字符串型,然后对数字型以及字符串型属性分别使用核密度估计以及DBSCAN密度聚类刻画一个属性下全部实体的对应属性值的概率分布,最后采用双向匹配的思想,通过交叉熵度量属性之间的相似性,由相似性大小判断属性是否可对齐。
给定两个数据源S1和S2,人物实体的某一个属性用ai表示,其中
Figure BDA0003101595540000041
表示某一字符串型属性,
Figure BDA0003101595540000042
表示某一数值型属性。某一个属性值用vi表示,其中
Figure BDA0003101595540000043
表示某一字符串型属性值,
Figure BDA0003101595540000044
表示某一数值型属性值。某一属性的属性值集合用Vi表示,其中
Figure BDA0003101595540000045
为某一字符串型属性的属性值集合,
Figure BDA0003101595540000046
为某一数值型属性属性值集合。属性对齐表示为寻找两个数据源中匹配的数值型和字符串型属性对集合:
Figure BDA0003101595540000047
作为本发明实施例中基于属性值分布的人物实体属性对齐方法,进一步地,将属性的属性值看做是由若干个字符组成,根据每种字符长度在整个属性值的长度中所占比例来确定属性值的数据类型;某一属性的属性值集合中属性值数据类型全为数值型,则判定该属性类型为数值型属性,否则为字符串型属性。进一步地,计算每种字符长度在整个属性值长度中所占的比例,选取所占比例最大的字符的数据类型作为对应属性值的数据类型。
任意属性值vi可看做是由k(k≥1)个字符c组成,单位不在本文字符的考虑范围之内,例如:“kg”、“cm”等。本文判断属性值数据类型的方法为:根据每种字符长度在整个属性值的长度中所占的比例确定属性值的数据类型,将所占比例最大的字符其数据类型作为属性值的数据类型。其判断公式为:
Figure BDA0003101595540000051
其中,glen为长度函数。根据上述公式可得:“186cm”、“1994年”等为数值型属性值,“中国”、“唱歌”等为字符串型属性值。而“第25、26届中国电影金鸡奖最佳男主角”为字符串型属性值。
若某一属性的属性值集合中属性值数据类型全为数值型,则判定该属性类型为数值型,否则按字符串型进行计算。
作为本发明实施例中基于属性值分布的人物实体属性对齐方法,进一步地,针对数值型属性的属性值概率分布,通过
Figure BDA0003101595540000052
来计算属性
Figure BDA0003101595540000053
的概率分布,其中,n为属性值的个数,
Figure BDA0003101595540000054
为属性值观察集,h为平滑参数,K是核函数。进一步地,针对数值型属性的核密度估计,使用Epanechnikov核来最小化积分均方误差。
两个数据源中每一个数值型属性
Figure BDA0003101595540000055
建立一个公共的概率空间。使用核密度估计确定每个属性
Figure BDA0003101595540000056
的属性值概率分布。数值型分布估计有直方图估计、样条估计、核密估计等,与许多分布不同的是,核密度估计是平滑的,并且不依赖于终点,其取决于带宽,且核密度中已有基于数据的自动方法选择带宽,故可选择核密度估计,其概率函数表示为:
Figure BDA0003101595540000057
其中,x1......xn为独立观测集,对于某一属性
Figure BDA0003101595540000058
利用公式
Figure BDA0003101595540000059
进行密度概率计算中,带宽h的选择非常重要,因为太小的值会过于陡峭,太宽的值会模糊样本原本的形状。根据不同的当前优化选择过程的方法,可使用平均积分平方误差的经验法则,选择核密度基于数据自动选择带宽的方法,h的表达式可表示为:
Figure BDA00031015955400000510
其中σ为样本之间的标准差。
与带宽相比,内核的选择对整体结果的影响较小,在选择核函数及其相关的平滑参数时,通过以最小化AMISE为目标测量核的性能,Epanechnikov内核最小化了AMISE,比许多其他核更有效,因此是最佳的,故本案实施例中可使用Epanechnikov核。其可定义为:
Figure BDA0003101595540000061
作为本发明实施例中基于属性值分布的人物实体属性对齐方法,进一步地,针对字符串型属性,使用word2vec得到属性值的向量表示集合,利用聚类算法并通过距离对代表属性值向量的点进行聚类,将表示同一类的属性值向量聚类到一个簇中,以获取字符串型属性的属性值类的分布;根据属性值类的分布来得到属性的属性值概率分布。
对于字符串型属性,无法直接对字符串的分布特征进行刻画,故本文首先用属性值的语义向量来表示属性值,将属性值向量表示看做空间中的点,则属性值向量集合为点的集合,通过集合中点的分布来刻画属性值的分布特征,根据一对属性的点集合分布特征来判定属性是否为同一属性。
Word2vec由于其可以快速有效地训练词向量,并且可以准确的表示出属性值的语义,故本文使用word2vec来训练属性值向量。对于任意属性
Figure BDA0003101595540000062
通过Word2vec得到其属性值的向量表示集合。表示为:
Figure BDA0003101595540000063
在得到属性值向量的点集合后,使用聚类算法对空间中的点进行聚类,本案实施例中,可通过距离对代表属性值向量的点进行聚类,将表示同一类的属性值向量聚在一起。常用的聚类算法主要分为基于划分的聚类算法、层次聚类算法、基于网格的方法、基于模型的方法以及基于密度的聚类算法。预先并不知道簇的个数以及集合中向量的顺序是混乱的,相比于其他聚类算法,DBSCAN密度聚类算法1)不需要设定簇的个数2)可以发现任意形状的簇3)聚类顺序不敏感。因此,可选用DBSCAN密度聚类算法进行聚类,其聚类过程可描述如下:
Step1:将属性值向量集合中的全部向量记为“未标记”,从中随机选择一个属性值向量
Figure BDA0003101595540000064
将其记做“标记”。
Step2:检查
Figure BDA0003101595540000065
半径领域ε内属性向量的个数,若个数大于等于设定的邻域密度阈值,则为
Figure BDA0003101595540000066
新建一个簇C,并将邻域内全部向量放入集合N中。
Step3:将N中的属性值向量全部记为“标记”,检查每一个向量邻域内属性值向量的个数,若大于等于邻域阈值个数,把该向量加入到簇C中,并将该向量半径邻域内的属性值向量加入到集合N中。不断迭代,直到N为空,则形成聚类后的簇C。
Step4从剩下的属性值向量集合中随机选择一个“未标记”的向量,重复上述步骤,直到所有的向量完成聚类。
基于DBSCAN的属性值分布特征刻画的算法内容可如表1所示:
表1:基于DBSCAN的属性值分布特征刻画的具体算法表
Figure BDA0003101595540000071
作为本发明实施例中基于属性值分布的人物实体属性对齐方法,进一步地,字符串型属性数据通过DBSCAN密度聚类算法得到属性其属性值类的分布,根据属性值类的分布得到某一属性的属性值分布特征,统计每一个属性聚类后类的个数为m,第i个类里点的个数记为si,则该类的概率分布可表示为:
Figure BDA0003101595540000081
衡量两个概率分布之间相似性的方法有KL散度、交叉熵、Wasserstein distance(EM距离)以及目前新兴的Sinkhorn distance等。目前基于距离的Wasserstein distance和Sinkhorn distance方法优势在于对分布没有重叠或者重叠部分很少的的时候,这种距离的值依然可以提供有用的信息,这与本案方案出发点并不相同。KL散度也叫相对熵,其主要是衡量两个概率分布之间的差异,而交叉熵侧重于在给定的真实分布下,描述两个概率分布之间的相互关系,计算两个概率分布之间的相似性。对于本案方案来讲,需要利用属性值分布之间的相似性来判断属性是否对齐,并非计算属性分布之间的差异,因此,本案方案中,可选择交叉熵度量属性值分布的相似性。
在判断属性是否对齐时,交叉熵的阈值设定并不好给出,因此采用双向匹配的思想判断属性是否可以对齐,以数据源S1中某一属性
Figure BDA0003101595540000082
为例,其寻找对齐属性的步骤可描述如下:
Step1:计算属性
Figure BDA0003101595540000083
与数据源S2中所有属性的交叉熵,取出交叉熵值最小的一个属性,假设其为
Figure BDA0003101595540000084
Step2:将
Figure BDA0003101595540000085
与数据源S1中所有属性进行交叉熵计算,取出交叉熵最小的一个属性,假设其为
Figure BDA0003101595540000086
Step3:判断属性
Figure BDA0003101595540000087
Figure BDA0003101595540000088
是否为同一属性,若是,则建立对齐关系。
两个数据源中属性
Figure BDA0003101595540000089
的交叉熵计算方法为:
Figure BDA00031015955400000810
其中p为属性值概率。
进一步地,基于上述的方法,本发明实施例还提供一种基于属性值分布的人物实体属性对齐系统,包含:数据获取模块、概率分布计算模块和属性对齐模块,其中,
数据获取模块,用于获取不同数据来源的人物实体属性,并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性;
概率分布计算模块,用于针对数值型属性,通过核密度估计计算每个属性的属性值概率分布;针对字符串型属性,将其转化为语义向量,利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布;
属性对齐模块,用于针对属性的属性值概率分布,采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。
为验证本案方案有效性,下面结合实验数据做进一步解释说明:
将本案方案与现有综合属性名和属性值相似度的属性对齐方法(CNVA)进行对比;并在未对齐实体的情况下,与同样是适用于对齐关系未知情况的现有基于互信息无向图结点匹配方法(OMIGM)进行对比。在百科和知识图谱真实人物数据集上进行实验,并且对核函数的选择进行分析。
实验数据:人物实体实验数据集分别来自百科以及知识图谱,在百科数据中,属性名的命名比较规范,在知识图谱中,属性名的命名方式差异较大。本案中,百科数据来自百度百科和互动百科,从百度百科以及互动百科爬取了15个明星重名人词条的信息,经过统计得到百度百科人物实体总数628个,互动百科人物实体总数525个,共有实体对为303对;百度百科属性种类51种,互动百科属性种类48种,百度百科和互动百科对齐属性为36种,每个属性属性名都具有意义且其属性值取值丰富,能形成一定的分布特征。知识图谱数据来自DBP和YAGO知识图谱实体数据,其中包含大量的非人物实体数据,本案研究人物实体,因此先通过stanford-core-nlp命名实体识别提取出其中人物实体数据,得到DBP人物实体数58865个,YAGO人物实体数57672个,其中对齐实体对57238对。本案方案从DBP和YAGO中分别选取2000个实体进行实验,且数据集中包括共有实体对1000对。经过统计,得到DBP属性类型54种,YAGO属性类型39种,可以对齐的属性为27种,每个属性属性名具有意义且其属性值取值丰富,能形成一定的分布特征。实验数据如表2所示。
表2:实验数据表
Figure BDA0003101595540000091
评价标准:使用以下3个方面对人物实体对齐结果进行评价
1)准确率:属性对齐的个数站所有属性个数的百分比。
Figure BDA0003101595540000092
2)召回率:在应该对齐的属性个数中成功实现属性对齐的个数。
Figure BDA0003101595540000101
3)F1-Score:准确率和召回率的综合值。
Figure BDA0003101595540000102
其中,TP表示将应该对齐的属性成功对齐的个数;FP表示将不应该对齐的属性却实现对齐的个数;FN表示将应该对齐的属性未实现对齐的个数。
核密度估计中核函数的选择:从Uniform,Triangular,Epanechnikov,Quartic,Triweight,Gaussian,Cosine,通过最小化AMISE测量核的性能,其曲线图如图3所示。
Figure BDA0003101595540000103
最优AMISE时,对于不同的核函数,对其相关常数进行计算,结果如表3所示。
表3:核函数相关系数表
Figure BDA0003101595540000104
从表3可以看出,Epanechnikov核中β(K)对应的最小,可以最优化AMISE。
属性对齐对比实验:为了验证本案方案算法(ABVD)的有效性,将本案方案算法与基于综合属性名和属性值相似度的属性对齐方法CNVA,以及实体对齐关系未知的OMIGM方法进行对比实验。为了验证属性名没有意义时本案方案的实验效果,将百科数据集和知识图谱中的所有属性数据用数字随机替换,替换时不同的属性使用不同的数字,这样属性名将失去本身的含义,在得到的数据集上重复与上述两种方法进行对比。上述对比实验得到的实验结果图4和图5所示,可以看出,在百科数据集中实体对齐关系未知的情况下,本案方案算法(ABVD)与OMIGM相比,准确率提高了约9个百分点,在知识图谱数据集上本案方案算法准确率提高了约8个百分点,与OMIGM方法相比,ABVD属性对齐效果更佳明显。
从图4和5可以看出,在属性名未替换的两个数据集中,本案方案算法与实体对齐关系已知的CNVA方法的准确率相差无几,但是在召回率上,高出3个百分点以上,尤其是在编辑不太规范的知识图谱数据集上,召回率提高了约7个百分点,表明本案方案可以对齐一些基于CNVA方法未能对齐的属性。
通过对比本案方案在两个数据集中的实验结果发现,F1-Score均为0.8左右,且在知识图谱数据集上的准确率和召回率比百科数据集均高出了约2个百分点,说明本案方案较为稳定且在实体更丰富的知识图谱数据集上可以获得更好的属性对齐效果。
从上述实验中可以看出,在属性名随机替换的两个数据集上,本案方案准确率、召回率以及F1-Score都远远高于CNVA方法,说明本案方案不仅仅适用于属性名编辑规范的情况,而且对于属性名表达错误或者无意义的情况,本案方案与其他方法相比能更准确的对齐属性。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法和/或系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的方法和/或系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于属性值分布的人物实体属性对齐方法,其特征在于,包含如下内容:
获取不同数据来源的人物实体属性,并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性;
针对数值型属性,通过核密度估计计算每个属性的属性值概率分布;针对字符串型属性,将其转化为语义向量,利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布;
针对属性的属性值概率分布,采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。
2.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法,其特征在于,将属性的属性值看做是由若干个字符组成,根据每种字符长度在整个属性值的长度中所占比例来确定属性值的数据类型;某一属性的属性值集合中属性值数据类型全为数值型,则判定该属性类型为数值型属性,否则为字符串型属性。
3.根据权利要求2所述的基于属性值分布的人物实体属性对齐方法,其特征在于,计算每种字符长度在整个属性值长度中所占的比例,选取所占比例最大的字符的数据类型作为对应属性值的数据类型。
4.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法,其特征在于,针对数值型属性的属性值概率分布,通过
Figure FDA0003101595530000011
来计算属性
Figure FDA0003101595530000012
的概率分布,其中,n为属性值的个数,
Figure FDA0003101595530000013
为属性值观察集,h为平滑参数,K是核函数。
5.根据权利要求1或4所述的基于属性值分布的人物实体属性对齐方法,其特征在于,针对数值型属性的核密度估计,使用Epanechnikov核来最小化积分均方误差。
6.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法,其特征在于,针对字符串型属性,使用word2vec得到属性值的向量表示集合,利用聚类算法并通过距离对代表属性值向量的点进行聚类,将表示同一类的属性值向量聚类到一个簇中,以获取字符串型属性的属性值类的分布;根据属性值类的分布来得到属性的属性值概率分布。
7.根据权利要求1或6所述的基于属性值分布的人物实体属性对齐方法,其特征在于,使用DBSCAN密度聚类算法对属性值向量进行聚类,首先,将属性值向量中全部向量设置未标记特征,并从中随机选择一个属性值向量设置为标记特征;然后,检查随机选择的属性值向量半径领域内属性向量的个数,若该个数大于设定的领域密度阈值,则为随机选择的属性值向量新建一个簇C,并将领域内全部向量放入设定集合N中;将集合N中属性值向量全部设置为标记特征,检查集合中每一个向量半径邻域内属性值向量的个数,若个数大于邻域阈值个数,将该向量加入到簇C中,并将该向量半径领域内的属性值向量加入到集合N中,通过迭代执行,直至集合N为空,形成聚类后的簇C;从随机选择后剩下的属性值向量集合中随机选择一个未标记特征的向量,重复执行,直至全部向量完成聚类。
8.根据权利要求1或6所述的基于属性值分布的人物实体属性对齐方法,其特征在于,字符串型属性的属性值概率分布计算表示为:
Figure FDA0003101595530000021
其中,si为第i个类里点的个数,m为属性聚类后类的个数。
9.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法,其特征在于,以某一数据来源S1中某一属性
Figure FDA0003101595530000022
自动寻找另一数据来源S2中存在对齐关系的属性对的过程,包含如下内容:计算属性
Figure FDA0003101595530000023
与数据来源S2中所有属性的交叉熵,取出交叉熵值最小的一个属性,记为
Figure FDA0003101595530000024
Figure FDA0003101595530000025
与数据来源S1中所有属性进行交叉熵计算,取出交叉熵最小的一个属性,记为
Figure FDA0003101595530000026
判断属性
Figure FDA0003101595530000027
Figure FDA0003101595530000028
是否为同一属性,若是,则建立对齐关系,属性
Figure FDA0003101595530000029
记为两个数据来源中存有对齐关系的属性对。
10.一种基于属性值分布的人物实体属性对齐系统,其特征在于,包含:数据获取模块、概率分布计算模块和属性对齐模块,其中,
数据获取模块,用于获取不同数据来源的人物实体属性,并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性;
概率分布计算模块,用于针对数值型属性,通过核密度估计计算每个属性的属性值概率分布;针对字符串型属性,将其转化为语义向量,利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布;
属性对齐模块,用于针对属性的属性值概率分布,采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。
CN202110626786.8A 2021-06-04 2021-06-04 基于属性值分布的人物实体属性对齐方法及系统 Active CN113361263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110626786.8A CN113361263B (zh) 2021-06-04 2021-06-04 基于属性值分布的人物实体属性对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110626786.8A CN113361263B (zh) 2021-06-04 2021-06-04 基于属性值分布的人物实体属性对齐方法及系统

Publications (2)

Publication Number Publication Date
CN113361263A true CN113361263A (zh) 2021-09-07
CN113361263B CN113361263B (zh) 2023-10-20

Family

ID=77532448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110626786.8A Active CN113361263B (zh) 2021-06-04 2021-06-04 基于属性值分布的人物实体属性对齐方法及系统

Country Status (1)

Country Link
CN (1) CN113361263B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860769A (zh) * 2023-02-21 2023-03-28 中国环境科学研究院 一种基于匹配度和交叉熵的危险废物溯源方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109633781A (zh) * 2018-08-16 2019-04-16 清能艾科(深圳)能源技术有限公司 地质属性获取方法及装置、电子设备、存储介质
US20190259041A1 (en) * 2018-02-20 2019-08-22 James R Jackson Systems and methods for generating a relationship among a plurality of datasets to generate a desired attribute value
WO2020114022A1 (zh) * 2018-12-04 2020-06-11 平安科技(深圳)有限公司 一种知识库对齐方法、装置、计算机设备及存储介质
US10715570B1 (en) * 2018-06-25 2020-07-14 Intuit Inc. Generic event stream processing for machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190259041A1 (en) * 2018-02-20 2019-08-22 James R Jackson Systems and methods for generating a relationship among a plurality of datasets to generate a desired attribute value
US10715570B1 (en) * 2018-06-25 2020-07-14 Intuit Inc. Generic event stream processing for machine learning
CN109633781A (zh) * 2018-08-16 2019-04-16 清能艾科(深圳)能源技术有限公司 地质属性获取方法及装置、电子设备、存储介质
WO2020114022A1 (zh) * 2018-12-04 2020-06-11 平安科技(深圳)有限公司 一种知识库对齐方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860769A (zh) * 2023-02-21 2023-03-28 中国环境科学研究院 一种基于匹配度和交叉熵的危险废物溯源方法

Also Published As

Publication number Publication date
CN113361263B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN103473283B (zh) 一种文本案例匹配方法
Liu et al. Full-text based context-rich heterogeneous network mining approach for citation recommendation
Wu et al. Webiq: Learning from the web to match deep-web query interfaces
US20040141354A1 (en) Query string matching method and apparatus
CN110414319B (zh) 一种公式相似度计算方法和科技文档检索方法及装置
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
US11797507B2 (en) Relation-enhancement knowledge graph embedding method and system
Zhang et al. A multi-level author name disambiguation algorithm
Zhiqiang et al. Measuring semantic similarity between words using wikipedia
CN113361263B (zh) 基于属性值分布的人物实体属性对齐方法及系统
Zhang et al. A multi-level matching method with hybrid similarity for document retrieval
CN112417082B (zh) 一种科研成果数据消歧归档存储方法
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN112597305B (zh) 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
Tian et al. Exploration of image search results quality assessment
CN115186138A (zh) 一种配电网数据的比对方法及终端
CN114064855A (zh) 一种基于变压器知识库的信息检索方法及系统
Meng [Retracted] Text Clustering and Economic Analysis of Free Trade Zone Governance Strategies Based on Random Matrix and Subject Analysis
Zhang et al. Map search via a factor graph model
de Brum Saccol et al. XML version detection
Zheng Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University
Konig et al. Scalable exploration of physical database design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant