CN113361263A

CN113361263A - 基于属性值分布的人物实体属性对齐方法及系统

Info

Publication number: CN113361263A
Application number: CN202110626786.8A
Authority: CN
Inventors: 尹美娟; 王灿; 刘晓楠; 胡倩; 毛颖; 罗向阳; 薛鑫卓; 刘又文
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-07
Anticipated expiration: 2041-06-04
Also published as: CN113361263B

Abstract

本发明属于计算机数据处理技术领域，特别涉及一种基于属性值分布的人物实体属性对齐方法及系统，通过获取不同数据来源的人物实体属性，并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性；针对数值型属性，通过核密度估计计算每个属性的属性值概率分布；针对字符串型属性，将其转化为语义向量，利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布；针对属性的属性值概率分布，采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。本发明充分利用同一属性的属性值分布相似性特征，提高属性对齐的准确率以及召回率，自动识别存在对齐关系的属性对，具有较好的应用前景。

Description

基于属性值分布的人物实体属性对齐方法及系统

技术领域

本发明属于计算机数据处理技术领域，特别涉及一种基于属性值分布的人物实体属性对齐方法及系统。

背景技术

人物属性对齐技术是构建全面精准人物画像的关键技术之一，其旨在对齐表示相同或同一含义的人物属性。通过判断两个或多个人物属性是否表示同一属性，识别出不同来源或名字不同但是表示相同含义的属性，从而实现人物信息的一致性描述，为多源异构人物信息的融合奠定基础。属性对齐技术在多个领域具有重要作用。例如：知识图谱通过属性对齐技术融合来自多类数据源中的信息；公安机关通过属性对齐技术，自动化和智能化的搜索全面、准确的人物信息。

目前，研究者主要在实体对齐关系已知的情况下进行属性对齐，利用对齐实体的属性值解决属性对齐问题。当基于属性值求相似度时，跨语言的属性对齐算法基于已经对齐的实体，主要思想为分析和比较不同语言版本的属性值，将属性值分为字符串型、数字型、日期型以及链接型，针对不同的数据类型提出不同的计算方法，最后根据一对属性中属性值的平均相似度作为属性相似度，若相似度大于设定的阈值，则判定该属性对为同一属性。识别属性间细粒度关系的方法，首先给出六种属性值类型，并根据给出的六种类型为基础判断属性数据类型，针对不同的属性数据类型，分别使用不同的计算方法计算相似度，通过建模将属性对齐看做多分类问题，识别属性之间的同义、包含、相关等关系。尽管上述这些方法取得一定的效果，但都只适用于实体对齐关系已知的情况，针对实体对齐关系未知的数据集并不适用。。

发明内容

为此，本发明提供一种基于属性值分布的人物实体属性对齐方法及系统，在实体对齐关系未知的情况下，将属性分为数字型以及字符串型，充分利用同一属性的属性值分布相似性特征，提高属性对齐的准确率以及召回率，自动识别存在对齐关系的属性对。

按照本发明所提供的设计方案，一种基于属性值分布的人物实体属性对齐方法，包含如下内容：

获取不同数据来源的人物实体属性，并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性；

针对数值型属性，通过核密度估计计算每个属性的属性值概率分布；针对字符串型属性，将其转化为语义向量，利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布；

针对属性的属性值概率分布，采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。

作为本发明基于属性值分布的人物实体属性对齐方法，进一步地，将属性的属性值看做是由若干个字符组成，根据每种字符长度在整个属性值的长度中所占比例来确定属性值的数据类型；某一属性的属性值集合中属性值数据类型全为数值型，则判定该属性类型为数值型属性，否则为字符串型属性。

作为本发明基于属性值分布的人物实体属性对齐方法，进一步地，计算每种字符长度在整个属性值长度中所占的比例，选取所占比例最大的字符的数据类型作为对应属性值的数据类型。

作为本发明基于属性值分布的人物实体属性对齐方法，进一步地，针对数值型属性的属性值概率分布，通过

来计算属性

的概率分布，其中，n为属性值的个数，

为属性值观察集，h为平滑参数，K是核函数。

作为本发明基于属性值分布的人物实体属性对齐方法，进一步地，针对数值型属性的核密度估计，使用Epanechnikov核来最小化积分均方误差。

作为本发明基于属性值分布的人物实体属性对齐方法，进一步地，针对字符串型属性，使用word2vec得到属性值的向量表示集合，利用聚类算法并通过距离对代表属性值向量的点进行聚类，将表示同一类的属性值向量聚类到一个簇中，以获取字符串型属性的属性值类的分布；根据属性值类的分布来得到属性的属性值概率分布。

作为本发明基于属性值分布的人物实体属性对齐方法，进一步地，使用DBSCAN密度聚类算法对属性值向量进行聚类，首先，将属性值向量中全部向量设置未标记特征，并从中随机选择一个属性值向量设置为标记特征；然后，检查随机选择的属性值向量半径领域内属性向量的个数，若该个数大于设定的领域密度阈值，则为随机选择的属性值向量新建一个簇C，并将领域内全部向量放入设定集合N中；将集合N中属性值向量全部设置为标记特征，检查集合中每一个向量半径邻域内属性值向量的个数，若个数大于邻域阈值个数，将该向量加入到簇C中，并将该向量半径领域内的属性值向量加入到集合N中，通过迭代执行，直至集合N为空，形成聚类后的簇C；从随机选择后剩下的属性值向量集合中随机选择一个未标记特征的向量，重复执行，直至全部向量完成聚类。

作为本发明基于属性值分布的人物实体属性对齐方法，进一步地，字符串型属性的属性值概率分布计算表示为：

其中，s_i为第i个类里点的个数，m为属性聚类后类的个数。

作为本发明基于属性值分布的人物实体对齐方法，进一步地，以某一数据来源S¹中某一属性

自动寻找另一数据来源S²中存在对齐关系的属性对的过程，包含如下内容：计算属性

与数据来源S²中所有属性的交叉熵，取出交叉熵值最小的一个属性，记为

将

与数据来源S¹中所有属性进行交叉熵计算，取出交叉熵最小的一个属性，记为

判断属性

与

是否为同一属性，若是，则建立对齐关系，属性

记为两个数据来源中存有对齐关系的属性对。

进一步地，本发明还提供一种基于属性值分布的人物实体属性对齐系统，包含：数据获取模块、概率分布计算模块和属性对齐模块，其中，

数据获取模块，用于获取不同数据来源的人物实体属性，并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性；

概率分布计算模块，用于针对数值型属性，通过核密度估计计算每个属性的属性值概率分布；针对字符串型属性，将其转化为语义向量，利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布；

属性对齐模块，用于针对属性的属性值概率分布，采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。

本发明的有益效果：

本发明首先识别属性的数据类型，将属性分为数值型和字符串型，然后对数字型以及字符串型属性分别使用核密度估计以及DBSCAN密度聚类刻画一个属性下全部实体的对应属性值的概率分布，最后采用双向匹配的思想，通过交叉熵度量属性之间的相似性，由相似性大小判断属性是否可对齐；在实体对齐关系未知的情况下，将属性分为数字型以及字符串型，充分利用同一属性的属性值分布相似性特征，提高属性对齐的准确率以及召回率；采用双向匹配的思想对齐属性，不需要设定阈值，自动识别存在对齐关系的属性对，降低人工设定阈值对属性对齐结果产生的影响。并进一步通过实验结果表明，在存在较丰富共有实体但对齐关系未知的情况下，与现有属性对齐方法相比，在不同数据集上，本案方案准确率、召回率分别提高了8％、10％以上，具有较好的应用前景。

附图说明：

图1为实施例中基于属性值分布的人物实体属性对齐方法流程示意；

图2为实施例中人物实体属性对齐工作流程示意；

图3为实施例中核密度性能图示意；

图4为实施例中百科数据集实验结果对比示意；

图5为实施例中知识图谱数据集实验结果对比示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

人物属性对齐旨在判断不同来源的两个或多个人物属性是否本质上描述人物的同一个属性，对本质上表示同一属性的多个属性建立对齐关系。现有人物属性对齐方法主要在实体对齐关系已知的情况下进行，通过已对齐实体的属性名以及属性值信息判断属性是否对齐。然而在现实的大多数情况下，得到的数据集中并未事先对齐实体，导致此类方法并不适用。为此，本发明实施例，提供一种基于属性值分布的人物实体属性对齐方法，参见图1所示，包含如下内容：

S101、获取不同数据来源的人物实体属性，并依据属性数据类型将人物实体属性划分为数值型属性和字符串型属性；

S102、针对数值型属性，通过核密度估计计算每个属性的属性值概率分布；针对字符串型属性，将其转化为语义向量，利用聚类算法对语义向量进行聚类来获取每个属性对应属性值概率分布；

S103、针对属性的属性值概率分布，采用双向匹配并利用交叉熵度量属性之间的相似性自动寻找存在对齐关系的属性对。

本案实施例中，基于属性值分布的属性对齐，在实体对齐关系未知的情况下，将属性分为数字型以及字符串型，充分利用同一属性的属性值分布相似性特征，提高属性对齐的准确率以及召回率。并通过采用双向匹配的思想对齐属性，不需要设定阈值，自动识别存在对齐关系的属性对，避免人为设置阈值对对齐结果的影响。

基于属性值分布的属性对齐算法(ABVD)原理框架，如图2所示，首先识别属性的数据类型，将属性分为数值型和字符串型，然后对数字型以及字符串型属性分别使用核密度估计以及DBSCAN密度聚类刻画一个属性下全部实体的对应属性值的概率分布，最后采用双向匹配的思想，通过交叉熵度量属性之间的相似性，由相似性大小判断属性是否可对齐。

给定两个数据源S¹和S²，人物实体的某一个属性用a_i表示，其中

表示某一字符串型属性，

表示某一数值型属性。某一个属性值用v_i表示，其中

表示某一字符串型属性值，

表示某一数值型属性值。某一属性的属性值集合用V_i表示，其中

为某一字符串型属性的属性值集合，

为某一数值型属性属性值集合。属性对齐表示为寻找两个数据源中匹配的数值型和字符串型属性对集合：

作为本发明实施例中基于属性值分布的人物实体属性对齐方法，进一步地，将属性的属性值看做是由若干个字符组成，根据每种字符长度在整个属性值的长度中所占比例来确定属性值的数据类型；某一属性的属性值集合中属性值数据类型全为数值型，则判定该属性类型为数值型属性，否则为字符串型属性。进一步地，计算每种字符长度在整个属性值长度中所占的比例，选取所占比例最大的字符的数据类型作为对应属性值的数据类型。

任意属性值v_i可看做是由k(k≥1)个字符c组成，单位不在本文字符的考虑范围之内，例如：“kg”、“cm”等。本文判断属性值数据类型的方法为：根据每种字符长度在整个属性值的长度中所占的比例确定属性值的数据类型，将所占比例最大的字符其数据类型作为属性值的数据类型。其判断公式为：

其中，g_len为长度函数。根据上述公式可得：“186cm”、“1994年”等为数值型属性值，“中国”、“唱歌”等为字符串型属性值。而“第25、26届中国电影金鸡奖最佳男主角”为字符串型属性值。

若某一属性的属性值集合中属性值数据类型全为数值型，则判定该属性类型为数值型，否则按字符串型进行计算。

作为本发明实施例中基于属性值分布的人物实体属性对齐方法，进一步地，针对数值型属性的属性值概率分布，通过

来计算属性

的概率分布，其中，n为属性值的个数，

为属性值观察集，h为平滑参数，K是核函数。进一步地，针对数值型属性的核密度估计，使用Epanechnikov核来最小化积分均方误差。

两个数据源中每一个数值型属性

建立一个公共的概率空间。使用核密度估计确定每个属性

的属性值概率分布。数值型分布估计有直方图估计、样条估计、核密估计等，与许多分布不同的是，核密度估计是平滑的，并且不依赖于终点，其取决于带宽，且核密度中已有基于数据的自动方法选择带宽，故可选择核密度估计，其概率函数表示为：

其中，x₁......x_n为独立观测集，对于某一属性

利用公式

进行密度概率计算中，带宽h的选择非常重要，因为太小的值会过于陡峭，太宽的值会模糊样本原本的形状。根据不同的当前优化选择过程的方法，可使用平均积分平方误差的经验法则，选择核密度基于数据自动选择带宽的方法，h的表达式可表示为：

其中σ为样本之间的标准差。

与带宽相比，内核的选择对整体结果的影响较小，在选择核函数及其相关的平滑参数时，通过以最小化AMISE为目标测量核的性能，Epanechnikov内核最小化了AMISE,比许多其他核更有效,因此是最佳的，故本案实施例中可使用Epanechnikov核。其可定义为：

作为本发明实施例中基于属性值分布的人物实体属性对齐方法，进一步地，针对字符串型属性，使用word2vec得到属性值的向量表示集合，利用聚类算法并通过距离对代表属性值向量的点进行聚类，将表示同一类的属性值向量聚类到一个簇中，以获取字符串型属性的属性值类的分布；根据属性值类的分布来得到属性的属性值概率分布。

对于字符串型属性，无法直接对字符串的分布特征进行刻画，故本文首先用属性值的语义向量来表示属性值，将属性值向量表示看做空间中的点，则属性值向量集合为点的集合，通过集合中点的分布来刻画属性值的分布特征，根据一对属性的点集合分布特征来判定属性是否为同一属性。

Word2vec由于其可以快速有效地训练词向量，并且可以准确的表示出属性值的语义，故本文使用word2vec来训练属性值向量。对于任意属性

通过Word2vec得到其属性值的向量表示集合。表示为：

在得到属性值向量的点集合后，使用聚类算法对空间中的点进行聚类，本案实施例中，可通过距离对代表属性值向量的点进行聚类，将表示同一类的属性值向量聚在一起。常用的聚类算法主要分为基于划分的聚类算法、层次聚类算法、基于网格的方法、基于模型的方法以及基于密度的聚类算法。预先并不知道簇的个数以及集合中向量的顺序是混乱的，相比于其他聚类算法，DBSCAN密度聚类算法1)不需要设定簇的个数2)可以发现任意形状的簇3)聚类顺序不敏感。因此，可选用DBSCAN密度聚类算法进行聚类，其聚类过程可描述如下：

Step1：将属性值向量集合中的全部向量记为“未标记”，从中随机选择一个属性值向量

将其记做“标记”。

Step2：检查

半径领域ε内属性向量的个数，若个数大于等于设定的邻域密度阈值，则为

新建一个簇C，并将邻域内全部向量放入集合N中。

Step3：将N中的属性值向量全部记为“标记”，检查每一个向量邻域内属性值向量的个数，若大于等于邻域阈值个数，把该向量加入到簇C中，并将该向量半径邻域内的属性值向量加入到集合N中。不断迭代，直到N为空，则形成聚类后的簇C。

Step4从剩下的属性值向量集合中随机选择一个“未标记”的向量，重复上述步骤，直到所有的向量完成聚类。

基于DBSCAN的属性值分布特征刻画的算法内容可如表1所示：

表1：基于DBSCAN的属性值分布特征刻画的具体算法表

作为本发明实施例中基于属性值分布的人物实体属性对齐方法，进一步地，字符串型属性数据通过DBSCAN密度聚类算法得到属性其属性值类的分布，根据属性值类的分布得到某一属性的属性值分布特征，统计每一个属性聚类后类的个数为m,第i个类里点的个数记为s_i,则该类的概率分布可表示为：

衡量两个概率分布之间相似性的方法有KL散度、交叉熵、Wasserstein distance(EM距离)以及目前新兴的Sinkhorn distance等。目前基于距离的Wasserstein distance和Sinkhorn distance方法优势在于对分布没有重叠或者重叠部分很少的的时候，这种距离的值依然可以提供有用的信息，这与本案方案出发点并不相同。KL散度也叫相对熵，其主要是衡量两个概率分布之间的差异，而交叉熵侧重于在给定的真实分布下，描述两个概率分布之间的相互关系，计算两个概率分布之间的相似性。对于本案方案来讲，需要利用属性值分布之间的相似性来判断属性是否对齐，并非计算属性分布之间的差异，因此，本案方案中，可选择交叉熵度量属性值分布的相似性。

在判断属性是否对齐时，交叉熵的阈值设定并不好给出，因此采用双向匹配的思想判断属性是否可以对齐，以数据源S¹中某一属性

为例，其寻找对齐属性的步骤可描述如下：

Step1：计算属性

与数据源S²中所有属性的交叉熵，取出交叉熵值最小的一个属性，假设其为

Step2：将

与数据源S¹中所有属性进行交叉熵计算，取出交叉熵最小的一个属性，假设其为

Step3：判断属性

与

是否为同一属性，若是，则建立对齐关系。

两个数据源中属性

的交叉熵计算方法为：

其中p为属性值概率。

进一步地，基于上述的方法，本发明实施例还提供一种基于属性值分布的人物实体属性对齐系统，包含：数据获取模块、概率分布计算模块和属性对齐模块，其中，

为验证本案方案有效性，下面结合实验数据做进一步解释说明：

将本案方案与现有综合属性名和属性值相似度的属性对齐方法(CNVA)进行对比；并在未对齐实体的情况下，与同样是适用于对齐关系未知情况的现有基于互信息无向图结点匹配方法(OMIGM)进行对比。在百科和知识图谱真实人物数据集上进行实验，并且对核函数的选择进行分析。

实验数据：人物实体实验数据集分别来自百科以及知识图谱，在百科数据中，属性名的命名比较规范，在知识图谱中，属性名的命名方式差异较大。本案中，百科数据来自百度百科和互动百科，从百度百科以及互动百科爬取了15个明星重名人词条的信息，经过统计得到百度百科人物实体总数628个，互动百科人物实体总数525个，共有实体对为303对；百度百科属性种类51种，互动百科属性种类48种，百度百科和互动百科对齐属性为36种，每个属性属性名都具有意义且其属性值取值丰富，能形成一定的分布特征。知识图谱数据来自DBP和YAGO知识图谱实体数据,其中包含大量的非人物实体数据，本案研究人物实体，因此先通过stanford-core-nlp命名实体识别提取出其中人物实体数据，得到DBP人物实体数58865个，YAGO人物实体数57672个，其中对齐实体对57238对。本案方案从DBP和YAGO中分别选取2000个实体进行实验，且数据集中包括共有实体对1000对。经过统计，得到DBP属性类型54种，YAGO属性类型39种，可以对齐的属性为27种，每个属性属性名具有意义且其属性值取值丰富，能形成一定的分布特征。实验数据如表2所示。

表2：实验数据表

评价标准：使用以下3个方面对人物实体对齐结果进行评价

1)准确率：属性对齐的个数站所有属性个数的百分比。

2)召回率：在应该对齐的属性个数中成功实现属性对齐的个数。

3)F1-Score:准确率和召回率的综合值。

其中，TP表示将应该对齐的属性成功对齐的个数；FP表示将不应该对齐的属性却实现对齐的个数；FN表示将应该对齐的属性未实现对齐的个数。

核密度估计中核函数的选择：从Uniform,Triangular,Epanechnikov,Quartic,Triweight,Gaussian,Cosine，通过最小化AMISE测量核的性能，其曲线图如图3所示。

最优AMISE时,对于不同的核函数，对其相关常数进行计算，结果如表3所示。

表3：核函数相关系数表

从表3可以看出，Epanechnikov核中β(K)对应的最小,可以最优化AMISE。

属性对齐对比实验：为了验证本案方案算法(ABVD)的有效性，将本案方案算法与基于综合属性名和属性值相似度的属性对齐方法CNVA，以及实体对齐关系未知的OMIGM方法进行对比实验。为了验证属性名没有意义时本案方案的实验效果，将百科数据集和知识图谱中的所有属性数据用数字随机替换，替换时不同的属性使用不同的数字，这样属性名将失去本身的含义，在得到的数据集上重复与上述两种方法进行对比。上述对比实验得到的实验结果图4和图5所示，可以看出，在百科数据集中实体对齐关系未知的情况下，本案方案算法(ABVD)与OMIGM相比，准确率提高了约9个百分点，在知识图谱数据集上本案方案算法准确率提高了约8个百分点，与OMIGM方法相比，ABVD属性对齐效果更佳明显。

从图4和5可以看出，在属性名未替换的两个数据集中，本案方案算法与实体对齐关系已知的CNVA方法的准确率相差无几，但是在召回率上，高出3个百分点以上，尤其是在编辑不太规范的知识图谱数据集上，召回率提高了约7个百分点，表明本案方案可以对齐一些基于CNVA方法未能对齐的属性。

通过对比本案方案在两个数据集中的实验结果发现，F1-Score均为0.8左右，且在知识图谱数据集上的准确率和召回率比百科数据集均高出了约2个百分点，说明本案方案较为稳定且在实体更丰富的知识图谱数据集上可以获得更好的属性对齐效果。

从上述实验中可以看出，在属性名随机替换的两个数据集上，本案方案准确率、召回率以及F1-Score都远远高于CNVA方法，说明本案方案不仅仅适用于属性名编辑规范的情况，而且对于属性名表达错误或者无意义的情况，本案方案与其他方法相比能更准确的对齐属性。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法和/或系统，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

基于上述的方法和/或系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于属性值分布的人物实体属性对齐方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法，其特征在于，将属性的属性值看做是由若干个字符组成，根据每种字符长度在整个属性值的长度中所占比例来确定属性值的数据类型；某一属性的属性值集合中属性值数据类型全为数值型，则判定该属性类型为数值型属性，否则为字符串型属性。

3.根据权利要求2所述的基于属性值分布的人物实体属性对齐方法，其特征在于，计算每种字符长度在整个属性值长度中所占的比例，选取所占比例最大的字符的数据类型作为对应属性值的数据类型。

4.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法，其特征在于，针对数值型属性的属性值概率分布，通过

来计算属性

的概率分布，其中，n为属性值的个数，

为属性值观察集，h为平滑参数，K是核函数。

5.根据权利要求1或4所述的基于属性值分布的人物实体属性对齐方法，其特征在于，针对数值型属性的核密度估计，使用Epanechnikov核来最小化积分均方误差。

6.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法，其特征在于，针对字符串型属性，使用word2vec得到属性值的向量表示集合，利用聚类算法并通过距离对代表属性值向量的点进行聚类，将表示同一类的属性值向量聚类到一个簇中，以获取字符串型属性的属性值类的分布；根据属性值类的分布来得到属性的属性值概率分布。

7.根据权利要求1或6所述的基于属性值分布的人物实体属性对齐方法，其特征在于，使用DBSCAN密度聚类算法对属性值向量进行聚类，首先，将属性值向量中全部向量设置未标记特征，并从中随机选择一个属性值向量设置为标记特征；然后，检查随机选择的属性值向量半径领域内属性向量的个数，若该个数大于设定的领域密度阈值，则为随机选择的属性值向量新建一个簇C，并将领域内全部向量放入设定集合N中；将集合N中属性值向量全部设置为标记特征，检查集合中每一个向量半径邻域内属性值向量的个数，若个数大于邻域阈值个数，将该向量加入到簇C中，并将该向量半径领域内的属性值向量加入到集合N中，通过迭代执行，直至集合N为空，形成聚类后的簇C；从随机选择后剩下的属性值向量集合中随机选择一个未标记特征的向量，重复执行，直至全部向量完成聚类。

8.根据权利要求1或6所述的基于属性值分布的人物实体属性对齐方法，其特征在于，字符串型属性的属性值概率分布计算表示为：

其中，s_i为第i个类里点的个数，m为属性聚类后类的个数。

9.根据权利要求1所述的基于属性值分布的人物实体属性对齐方法，其特征在于，以某一数据来源S¹中某一属性

将

判断属性

与

是否为同一属性，若是，则建立对齐关系，属性

记为两个数据来源中存有对齐关系的属性对。

10.一种基于属性值分布的人物实体属性对齐系统，其特征在于，包含：数据获取模块、概率分布计算模块和属性对齐模块，其中，