CN106354787A

CN106354787A - 一种基于相似度的实体共指消解方法

Info

Publication number: CN106354787A
Application number: CN201610711974.XA
Authority: CN
Inventors: 耿玉水; 李鹏; 赵晶
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2017-01-25

Abstract

本发明公开了一种基于相似度的实体共指消解方法，其实现过程为，首先对数据集中的数据进行预处理，形成数据对形式，这里的数据对为实体对；设定权重，进行相似度值计算，并将相似度值与设定的阈值进行比较；当达到指定阈值时，进行实体统一，即对所有达到阈值的数据对融合为一条数据；当未达到指定阈值时，则进行数据汇总，将数据对数据汇总到一起，形成一个新的数据集，其中，汇总结果包括合并的数据和小于阈值的数据这两个部分。该基于相似度的实体共指消解方法与现有技术相比，结合权重和相似度的度量指标，达到了很好的处理效果，能够满足处理海量数据中实体共指消解的需求，为实体共指消解提供了有效的保证，实用性强，易于推广。

Description

一种基于相似度的实体共指消解方法

技术领域

本发明涉及数据融合技术领域，具体地说是一种实用性强的基于相似度的实体共指消解方法。

背景技术

随着工业自动化和信息科技化的不断进步和发展，工业领域企业中产生了多种类型的大批量数据。结构化、半结构化和非结构化数据以指数级的趋势不断增加，给企业分析和处理并更好地利用数据带来了很大的困难。随着信息时代的来临，各种各样的数据源源不断地产生，实体共指消解面临着新的困难和挑战：(1)数据量急剧增多，计算量和计算难度增加，计算效率也成为一个急需解决的问题；(2)数据源多样，存在多种结构化数据，半结构化和非结构化数据占主导，同时存在着很多噪声数据；(3)数据之间有着复杂的关系，需要更多的信息去辨别不同的实体之间的关系。

在一个或者多个数据库中，同一现实世界实体可能有多种描述方式。由于对实物和信息的定位的差异，来自不同数据源的信息类型多种多样，对同一个实体的描述也各不相同。而实体共指消解的目的，就是从数据集中识别出描述同一真实世界实体的元组。实体共指消解的结果，可以在数据质量管理的其他阶段得到广泛应用。同一实体具体不同描述的这一问题，在各种应用领域的信息系统中也普遍存在。

在数据记录集合中，一些数据记录是对同一实体的不同描述，识别出指代同一实体的记录并融合在一起的过程就是实体共指消解。实体共指消解技术主要是通过某种计算规则或规律，采用某种计算方法来识别出实体之前是否为同一实体的可能性。由于实体共指消解在数据质量管理中具有十分重要的意义，对实体共指消解的研究也得到了足够的重视。早期的实体共指消解算法主要是对重复的记录进行检测，以便获得识别结果。之前的研究中，有的提出了计算字符串相似度的方法和并行化的方法，但扩展性不高。现有的实体共指消解方法文献在真实数据集基础上，对实体共指消解的效率问题进行了评价。另外，还有在马尔科夫链、启发式方法、距离函数等方面的研究。目前的实体共指消解方法中有的采用了机器学习的算法，其中，A.Cvitas提出了一种协同学习(Co-learning)方法。然而，尽管现有的方法在很多的应用中能够有效地识别实体，但是仍存在很多的不足：(1)当前，实体共指消解存在重名和异名的问题；(2)传统的实体共指消解方法往往是基于元组的相似性比较来获取结果；(3)对数据质量评估的体系不是很完善。

为了解决在大数据环境下的实体共指消解问题，本文提出了一种在大数据环境下基于相似度的实体共指消解方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、基于相似度的实体共指消解方法。

一种基于相似度的实体共指消解方法，其实现过程为：

首先对数据集中的数据进行预处理，形成数据对形式，这里的数据对为实体对；

设定权重，进行相似度值计算，并将相似度值与设定的阈值进行比较；

当达到指定阈值时，进行实体统一，即对所有达到阈值的数据对融合为一条数据；

当未达到指定阈值时，则进行实体汇总，将数据对数据汇总到一起，形成一个新的数据集，其中，汇总结果包括合并的数据和小于阈值的数据这两个部分。

所述数据预处理的过程为：

以数据的描述对象作为实体，将数据集中的数据进行预处理，选择每一条数据中的k个字段作为key，整条数据记录作为value，形成<key，value>键值对形式，这里的k取值范围为小于组成该数据的数据项的数目，然后计算数据集的笛卡尔积，将每一条数据进行两两配对，形成数据对形式。

所述相似度值计算过程为：

对k个字段分别赋予对应的权重w，且每一个字段的w均不相同；

根据k个w_i就可以计算每个实体对的相似度，其公式为：

S i m (e_{i}, e_{j}) = \frac{Σ (w_{i}, w_{j})}{{Σw}_{i}}, (0 < i < n; 0 < j < n; w_{i} > 0; w_{j} > 0);

在上述公式中，e_i和e_j表示实体对，当它们两个的k字段信息的内容越相近时，则两个实体越接近同一个实体。

所述实体统一的过程为：对所有达到阈值的数据对进行实体统一，即把相同的实体对融合为一条数据，融合过程是将相同类别的实体对进行合并，形成一个实体统一数据集。

所述实体汇总的过程为：将完成实体统一的实体与小于指定阈值的实体一起进行汇总，形成一个完成共指消解后的数据集。

本发明的一种基于相似度的实体共指消解方法，具有以下优点：

本发明提出的一种基于相似度的实体共指消解方法，解决在大数据环境下的实体共指消解问题，利用Hadoop平台和MapReduce框架，结合权重和相似度的度量指标，达到了很好的处理效果，能够满足处理海量数据中实体共指消解的需求，为实体共指消解提供了有效地保证，与现有方法相比，本方法有利于实体共指消解，具有很好的处理效果，实用性强，易于推广。

附图说明

附图1为本发明工作流程图。

附图2为本发明实验运行时间比较图。

附图3为本发明实验F1值比较图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明是一种基于相似度的实体共指消解方法。实体共指消解指的是消除掉数据集中共同指向同一实体的多条数据记录的过程，通过利用Hadoop平台和MapReduce框架，增加权重和相似度的度量指标，来提高实体共指消解的效果。

本发明提供的一种基于相似度的实体共指消解方法实现过程为：把数据集预处理成<key，value>键值对形式，并进行两两配对；设定权重，计算每一个数据对的相似度；设定阈值，对符合阈值条件的进入到实体统一阶段完成实体共指消解过程，不符合的直接进入实体汇总阶段；最后将消解后的实体和小于阈值的实体一起汇总。该基于相似度的实体共指消解方法能够利用MapReduce框架，结合权重和相似度的度量指标，达到了很好的处理效果，能够满足处理海量数据中实体共指消解的需求，实用性强，易于推广。

实施例：一种基于相似度的实体共指消解方法，参照附图1，包括以下步骤：

步骤一：预处理过程。

以数据的描述对象作为实体，将数据集中的数据进行预处理，选择每一条数据中的k个字段作为key，整条数据记录作为value，形成<key，value>键值对形式。如下表所示为多条数据记录，选择产品名、产品ID、产品价格和颜色这四项作为key，这条记录的完整信息作为该条记录的value。

步骤二：计算数据集的笛卡尔积(Cartesian product)，即每一条数据进行两两配对，形成数据对形式。例如有A，B，C，D这4条数据，可以组成AB、AC、AD、BC、BD、CD以上6个数据对。结合表1，编号0201的这条记录可以和剩下的所有记录组合成数据对，0201和0573就是一个数据对。

步骤三：计算相似度值，对每一个数据对进行筛选。设定相似度阈值为s，达到指定阈值的进入到下一步的实体共指消解阶段(即步骤四)，达不到阈值的等待进入步骤五。

对于实体对e_i和e_j，它们两个的k字段信息的内容越相近，表示这两个实体越接近同一个实体，这里的k取值小于组成该数据的数据项的数目，如组成产品这一数据的数据项有产品名、产品ID、产品价格、颜色、原材料、硬度等六部分，上述表格中选择了产品名、产品ID、产品价格和颜色这四项作为key，k的取值小于6。对k个字段分别赋予对应的权重w，每一个字段的w都是不一样的。对于实体e_i，越是具有决定性因素的字段，它的w_i越大，在这里，决定性因素是指关键因素，比如确定某个人是小明时，小明他的信息有：名字，身份证，性别，公司，家庭住址；身份证这个具有决定性因素，赋给它的权重就大，公司这个影响度不大，权重就小，即越是重要性程度越大的字段，它的w_i越大。那么，根据字段的重要性，可以设定每一部分的权重为如下表的形式。

产品名	产品ID	产品价格	颜色
				0.46	0.85	0.35	0.28

根据k个w_i就可以计算每个实体对的相似度，其公式为：

S i m (e_{i}, e_{j}) = \frac{Σ (w_{i}, w_{j})}{{Σw}_{i}}, (0 < i < n; 0 < j < n; w_{i} > 0; w_{j} > 0)

步骤四：实体统一阶段：对所有达到阈值的数据对进行实体统一，即把相同的实体对融合为一条数据。融合过程是将相同类别的数据对进行合并，形成一个实体统一数据集。其中，阈值小于s的数据集，它们不能参与步骤四而直接进入步骤五。下表所示为从步骤一数据中筛选出来的阈值小于s的数据集，它们不能参与步骤四而直接进入步骤五。

0573	baking soda	BS241	0.36	白色
					0049	sodium chloride	SD167	0.72	白色

步骤五：数据汇总阶段：将步骤三中阈值小于s的实体和经过步骤四后生成的实体汇总到一起，形成一个新的数据集。结合步骤一中的数据，合并结果如下：

经过以上五个步骤，实体数据集逐步从海量的数据中筛选出来，通过进行权重和相似度的比较对共指实体消解，最终得到一个共指实体消解完成的新数据集。

实验说明：实验数据来源于某制造企业的17153条数据，某电子商务网站的9416条数据。为了评估算法的精确性，将本文中的识别结果与基于规则的实体共指消解算法进行对比，采用准确率(Precision，P)、召回率(Recall，R)及F值(F1-Measure)作为识别结果精确性的标准衡量。其中，P＝A/(A+B)；R＝A/(A+C)；F1-Measure＝(2PR)/(P+R)。选用商品、原材料、员工、书籍和电影信息这5类数据集作为实体进行实验。以商品这一数据集为例，将商品名称、商品编号、销售价格和颜色这4个字段作为key，整条数据记录作为value，形成<key，value>键值对形式。实验选择基于规则的实体共指消解方法作为对比对象，分别测试两种方法在并行集群环境中不同节点数下处理数据的效果。根据得到的结果，做成如图2和图3所示的折线图，在附图2中，基于相似度的方法是下侧折线，基于规则的方法是上侧折线，在附图3中，基于相似度飞方法是上侧折线，基于规则的方法是下侧折线。

在相同数据集的条件下，基于相似度的实体共指消解方法的处理时间相对较短，处理速度相对较快。随着从节点的增多，并行处理效率也不断加快，然后逐渐趋于平稳。根据图2基于相似度方法的折线所示，实体共指消解方法的优势表较明显。

在相同实体对象的条件下，基于相似度的实体共指消解方法的准确度相对较高，对实体有很高的辨识度。如图3中折线所示，实体共指消解方法的效果比较明显。

根据以上对图形和结果的分析，可以更加直观的得出结论：基于相似度的实体共指消解的方法，极大地加快了实体共指消解的速度，提高了实体共指消解的效率，具有足够的优势，可以很好的运用到实际生活中。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种基于相似度的实体共指消解方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种基于相似度的实体共指消解方法，其特征在于，其实现过程为，

2.根据权利要求1所述的一种基于相似度的实体共指消解方法，其特征在于，所述数据预处理的过程为：

以数据的描述对象作为实体，将数据集中的数据进行预处理，选择每一条数据中的k个字段作为key，整条数据记录作为value，形成<key，value>键值对形式，这里的k取值范围为小于组成该数据的数据项数目，然后计算数据集的笛卡尔积，将每一条数据进行两两配对，形成数据对形式。

3.根据权利要求1所述的一种基于相似度的实体共指消解方法，其特征在于，所述相似度值计算过程为：

根据k个w_i就可以计算每个实体对的相似度，其公式为：

S i m (e_{i}, e_{j}) = \frac{Σ (w_{i}, w_{j})}{{Σw}_{i}}, (0 < i < n; 0 < j < n; w_{i} > 0; w_{j} > 0);

4.根据权利要求1所述的一种基于相似度的实体共指消解方法，其特征在于，所述实体统一的过程为：对所有达到阈值的数据对进行实体统一，即把相同的实体对融合为一条数据，融合过程是将相同类别的实体对进行合并，形成一个实体统一数据集。