CN104239553A

CN104239553A - 一种基于Map-Reduce框架的实体识别方法

Info

Publication number: CN104239553A
Application number: CN201410494470.8A
Authority: CN
Inventors: 王宏志; 王飞; 秦谦; 宋阳秋
Original assignee: Jiangsu Mingtong Tech Co Ltd
Current assignee: Jiangsu Mingtong Tech Co Ltd
Priority date: 2014-09-24
Filing date: 2014-09-24
Publication date: 2014-12-24

Abstract

本发明公开了一种基于Map-Reduce框架的实体识别方法，具体包括以下几个步骤：从用户数据库中导出海量数据，判断数据是否规范；基于相同属性值对实体进行初步聚类，建立属性索引表；对同一属性索引表中的实体进行实体识别，获取相似实体对，生成相似实体对集合文件，并计算实体对之间相似度；通过机器学习求得阈值；将相似实体对之间的相似度大小与阈值进行比较，大于阈值的相似实体对符合输出条件；通过实体划分建立实体对关系图，基于桥进行初步图划分，基于节点间公共邻居进行实体划分，生成实体分类文件；计算划分中的实体属于其所在实体分类的概率。本发明识别方法效率高，处理速度快，内存占用小，适用于大规模数据上的实体识别。

Description

一种基于Map-Reduce框架的实体识别方法

技术领域

本发明涉及一种实体识别方法，具体涉及一种基于Map-Reduce框架的实体识别方法，能够在大规模数据集合上运行。

背景技术

信息数据中对现实世界中同一事物的不同表示是导致数据质量低下的一个重要原因。在日常生活中，人们每天都要从网络上的海量数据中检索所需要的信息，如通过DBLP，Yahoo shopping，AllMusic等网站。在检索过程中人们常遇到的一个主要问题就是不同对象的相同表示或者相同对象的不同表示。例如，在DBLP中检索“Zhang Ping”的文章，会检索到由18个“Zhang Ping”发表的197篇文章。在AllMusic中存在以“Forgotten”为名字的8207首歌曲以及616张专辑。相同的实体可能出现截然不同的表述形式，而出现时往往会伴有大量的干扰信息，因此在上述情况下，人们往往不能快速地获取他们想要的答案。

同一对象的不同表示通常是由于不同的数据来源。不同的数据来源对同一对象有着不同的表示要求和不同的表示形式，当人们从不同的数据来源集成信息时，在数据的存储过程以及传递过程中均会产生无法避免的错误。因此，为了有效的管理数据，提高数据质量，需要在数据中准确识别出同一对象的不同表示，即实体识别。实体识别是数据质量管理中的一项重要技术，对能否提高数据质量中起着决定性作用。实体识别是对数据进行质量管理的重要步骤，目的是在数据库中识别描述同一个对象的不同表示方法，或者不同对象的相同表示方法，从而正确地识别出数据库中集成自不同数据源的的相同实体，其结果是数据库中所有实体的集合以及每个实体的不同表示形式。实体识别的结果可以在数据质量管理的各个阶段得到广泛的应用，如真值发现、不一致数据发现，去除冗余数据等。

文献Z.Chen,D.V.Kalashnikov,S.Mehrotra,Exploiting contextanalysis for combining multiple entity resolution systems,in:Proceedingsof the 2009ACM SIGMOD International Conference on Management ofData(SIGMOD’09),2009,pp.207–218提出一种基于实体出现的上下文环境来考虑实体是否是相似的分类器。如：实体1出现的上下文环境是“实体1在研究所工作”，而实体2出现的上下文环境是“实体2在商场工作”，则可判定实体1与实体2表示的不是同一对象，然而该分类器在识别实体时往往需要考察大量文本资料，这些资料将占用大量的计算空间且在其中找到相关实体也将消耗大量的时间。文献Venkatesh Ganti,Arnd ChristianRares Vernica,EntityCategorization Over Large Document Collections,SIGKDD2008提出利用语义学知识和统计特征值的方法优化基于上下文分类器的实体识别技术，从而有效降低计算空间，但是这种分类器并不适用于大规模数据上的实体识别。

发明内容

针对现有技术存在的不足，本发明目的是提供一种基于Map-Reduce框架的实体识别方法，识别方法效率高，处理速度快，内存占用小，且适用于大规模数据上的实体识别。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明的一种基于Map-Reduce框架的实体识别方法，具体包括以下几个步骤：

(1)从用户数据库中导出海量数据，判断数据是否规范，如果规范转向步骤(2)，如果不规范则进行数据预处理，生成可进行识别的规范数据，然后转向步骤(2)；

(2)通过初步聚类模块读取所述规范数据，基于相同属性值对实体进行初步聚类，生成属性索引表文件；

(3)通过实体识别模块读取所述属性索引表文件，对同一属性索引表中的实体进行实体识别，获取相似实体对，生成相似实体对集合文件，然后计算相似实体对之间的相似度，并转向步骤(5)；

(4)对步骤(1)中导出的海量数据进行数据抽样得到样本数据，通过机器学习求得阈值，并转向步骤(5)；

(5)将相似实体对之间的相似度大小与阈值进行比较，大于阈值的相似实体对符合输出条件，转向步骤(6)，小于阈值的相似实体对则结束实体识别；

(6)通过实体划分模块读取相似实体对集合文件，建立实体对关系图，其中图的顶点表示不同的实体，边代表实体间的相似关系，若实体对关系图较大，则寻找实体对关系图中的桥，通过桥将大的实体对关系图分割为小的实体对关系图；

(7)基于实体对关系图上相邻接实体之间的邻居信息及公共邻居信息(就是邻居的id)，对步骤(6)得到的实体对关系图进行划分，生成实体分类文件；

(8)判断相似实体对集合文件中实体个数是否大于1，如果大于1，则通过概率计算模块读取实体分类文件、相似实体对集合文件，计算划分中的实体属于其所在实体分类的概率，生成最终带有概率的实体分类结果文件；如果小于1则设置该实体概率为1。

步骤(4)中，通过机器学习求得阈值即针对已知的正例和反例建立感知器计算阈值。

步骤(7)中，对步骤(6)得到的实体对关系图进行划分的方法如下：

首先建立图GR＝(V，E)，其中V代表所有实体，对将E_i，E_j所对应的节点u，v之间加边构成边集E；深度优先遍历GR，基于桥进行初步划分，划分成独立子图GR[Ri]，任意两个独立子图互不连通，但其自身均是连通图；依次求解每个独立子图GR[Ri]的局部实体划分Di，具体方法如下：

对独立子图GR[Ri]中任意一条边e＝(u，v)所连接的两个节点u，v：若满足条件|N(u)∩N(v)|≥λ×|N(u)∪N(v)|,参数λ由人工设定，则u和v代表同一实体，此时将结点u，v收缩为一个结点u，令N(u，)＝N(u)∪N(v)，其他节点的邻居保持原始节点不变,不断迭代，直到没有可收缩节点为止，最终划分结果即为Ri的划分；

合并所有独立子图的实体划分D₁,D₂,…,D_k得到全局实体划分D＝{G₁,G₂,…,G_m}。

步骤(8)中，计算划分中的实体属于其所在实体分类的概率的方法如下：

数据A属于其所在实体的概率是

p_A＝∑d_A-X/∑d_i

其中，∑d_A-X是实体内与A相邻接的所有边的度数之和，∑d_i是实体内部所有边的度数之和。

本发明通过使用Map-Reduce框架技术，可以使得实体识别的过程可以在成百上千的大规模机群上运行，这意味着针对大规模数据仅需要扩充机群的规模就可以实现有效的实体识别；而且识别方法效率高，处理速度快，内存占用小。

附图说明

图1为本发明的实体识别方法工作流程图；

图2为本发明的实体识别系统数据流图；

图3为本发明的初步聚类模块数据流图；

图4为本发明的实体识别模块数据流图；

图5为本发明的实体划分模块数据流图；

图6为本发明的概率计算模块数据流图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

实体识别：对给定数据集合进行分类，使得每一类中的数据对象描述显示世界中的同一实体。

Map-Reduce:Map-Reduce是一个软件架构，主要用于大规模数据集的分布式计算及任务处理。一个Map-Reduce任务过程主要包括两个阶段：map(映射)阶段和reduce(化简)阶段。每个阶段都以键值对<key，value>作为输入和输出。map函数接受一组数据并将其转换为<key，value>列表，传递给reduce函数，reduce函数接受列表后根据它们的key值缩小<key，value>列表。

本方法的输入是数据库，输出是数据库的一个分类，其中每一类中的元组描述的是同一显示世界中的实体。

参见图1，本发明的实体识别方法工作流程简介如下：

(1)系统从数据库中导出海量数据并进行预处理，使数据格式满足系统可进行识别的要求；

(2)先基于相同属性值将可能相似的实体聚类，以减少实体对之间相似度的计算量，对海量数据的处理过程中涉及基于Hadoop的Map-Reduce框架；

(3)通过对提取的样本数据进行分析学习得出识别过程中能够准确判定相似对所需的阈值；

(4)对实体进行识别，主要通过将实体对之间的相似度大小与阈值进行比较，大于阈值的相似对符合条件输出，由于是在海量数据上进行计算识别，因此会多次涉及基于Hadoop的Map-Reduce框架；

(5)将相似实体对构建成图，若图较大，则寻找图中的桥，通过桥将大图分割为小图，以便后续处理；

(6)基于图上相邻接实体之间的邻居信息及公共邻居信息对图进行有效划分；

(7)计算识别结果中，每条记录属于其所在分类的概率，以描述其属于该分类的可能性，为后续数据清洗过程做准备；

(8)对系统所采用算法的各项指标(包括：时间效率、准确率、召回率、F1score等)进行有效评估。

下面对上述步骤的数据流程进行介绍：

系统的目的是通过对数据库中的海量记录进行识别，获取最终的相似实体集合。

参见图2，本发明的实体识别系统具体数据流程如下：

(1)实体识别子系统从用户数据库读入海量数据，并对数据进行预处理，生成可进行识别的规范数据；

(2)初步聚类模块读取规范数据，依据相同属性值对实体进行初步的聚类，生成属性索引表文件；

(3)实体识别模块读取属性索引表文件，对同一属性索引表中的实体进行实体识别，获取相似实体对，生成相似实体对集合文件；

(4)实体划分模块读取相似实体对集合文件，建立图，对图进行划分后得到最终结果，生成实体分类文件；

(5)概率计算模块读取实体分类文件及实体识别模块中生成的相似实体对集合文件，计算每条记录属于其所在实体的概率，生成最终带有概率的实体分类结果文件；

(6)算法评估模块根据所得结果进行评估，求得系统的准确率及召回率。

下面依次对各个模块的原理和功能加以介绍

初步聚类模块的主要功能是对海量实体进行初步的聚类，以有效提高实体识别的效率。

参见图3，本步骤重点考虑在所有不同属性中存在若干属性值相同的实体，提出了基于属性索引的检测模型。通过对属性值进行改造，插入属性索引表，使得具有同一属性值的实体共享同一个索引，从而构造属性索引表，形成一个初步的聚类，使用这种方法检测实体对删除冗余来说是有效且实际的。在后续的识别过程中，只需要对同一个属性索引表中的实体分别进行识别即可，而不同于传统的实体识别方法那样需要一一比较所有实体，从而有效地减少了计算量，达到了快速识别的目的。

参见图4，实体识别模块的主要功能是在海量数据中进行实体识别，以得到相似实体对集合。

在识别过程中，首先，依次扫描每个属性索引表，如果某属性索引表中某个属性值下实体的个数少于2个，则说明在此属性值下并没有相似的实体，跳过该位置继续向后扫描；如果实体个数不少于2个，则说明在此属性值下可能存在相似的实体对，对该位置下的任意两个实体均进行一次实体识别过程，求出两个实体的相似度大小作为衡量标准。将每对实体匹配得到的相似度与阈值进行大小比较。小于阈值则认为该对实体不相似，否则认为两个实体相似。依次将此匹配工作进行下去，从而得到最终的相似实体对集合。阈值的获取我们采用机器自动学习得出。

参见图5，实体划分模块的主要功能是基于图对相似实体对集合进行准确有效地划分，以得到最终的实体分类集合。

在实体划分阶段，由于实体划分结果具备以下特点：很多小型聚类且聚类个数事先并不知晓。因此我们提出了基于图模型的实体划分框架。首先，将实体识别得到的实体相似对集合转化为图，将所有数据源的实体作为图的结点，在实体相似对中的每一对实体之间作边。然后将待检测实体名字的相似性将对象结合归类，划分到同一分类中的实体相似，划分到不同分类中的实体不相似。最后根据不同背景下的领域知识构造不同的图划分方法，获取每个局部实体划分，求解每个划分对应的子图，从而得到最终的全局实体划分。在实体划分前期，为了适应系统并行化快速处理海量数据，我们将图进行分割，分割主要基于无向图的桥。

参见图6，概率计算模块的主要功能是明确标注每条记录属于其所在实体分类的概率。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于Map-Reduce框架的实体识别方法，其特征在于，具体包括以下几个步骤：

(7)基于实体对关系图上相邻接实体之间的邻居信息及公共邻居信息，对步骤(6)得到的实体对关系图进行划分，生成实体分类文件；

2.根据权利要求1所述的基于Map-Reduce框架的实体识别方法，其特征在于，

3.根据权利要求1所述的基于Map-Reduce框架的实体识别方法，其特征在于，

首先建立图GR＝(V，E)，其中V代表所有实体，对将E_i，E_j所对应的节点u，v之间加边构成边集E，其中Ei和Ej代表两个实体，N代表已经识别出的实体对的集合；深度优先遍历GR，基于桥进行初步划分，划分成独立子图GR[Ri]，任意两个独立子图互不连通，但其自身均是连通图；依次求解每个独立子图GR[Ri]的局部实体划分Di，具体方法如下：

对独立子图GR[Ri]中任意一条边e＝(u，v)所连接的两个节点u，v：若满足条件|N(u)∩N(v)|≥λ×|N(u)∪N(v)|,参数λ由人工设定，则u和v代表同一实体，N(u)和N(v)分别代表u和v在图中的邻居集合，此时将结点u，v收缩为一个结点u，令N(u，)＝N(u)∪N(v)，其他节点的邻居保持原始节点不变,不断迭代，直到没有可收缩节点为止，最终划分结果即为Ri的划分；

4.根据权利要求1所述的基于Map-Reduce框架的实体识别方法，其特征在于，

数据A属于其所在实体的概率是

p_A＝∑d_A-X/∑d_i