CN106294762A

CN106294762A - 一种基于学习的实体识别方法

Info

Publication number: CN106294762A
Application number: CN201610657082.6A
Authority: CN
Inventors: 耿玉水; 姜雪松; 李鹏
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2016-08-11
Filing date: 2016-08-11
Publication date: 2017-01-04
Anticipated expiration: 2036-08-11
Also published as: CN106294762B

Abstract

本发明公开了一种基于学习的实体识别方法，其实现过程为，从数据记录中抽取出部分数据作为训练数据集并人工标出分类，对其进行预处理，根据相似度值和匹配情况产生分类器；把数据记录中除训练数据集外的其它数据作为测试数据集存储到分布式文件系统中，作为实体识别的输入，采用训练好的分类模型对测试数据集进行分类处理；最后根据系统匹配结果，得出最终的实体识别结果。该基于学习的实体识别方法与现有技术相比，采用和机器学习结合的方式，通过应用分类器来提高执行速度，并能达到很好的识别效果，可以很好地满足识别海量数据中的实体的需求，实用性强。

Description

一种基于学习的实体识别方法

技术领域

本发明涉及数据融合技术领域，具体地说是一种实用性强的基于学习的实体识别方法。

背景技术

随着信息技术和工业自动化的不断进步和发展，工业领域企业中产生着越来越多的数据。其中，结构化、半结构化以及非结构化数据正以指数级的增长趋势出现，对数据的存储、管理和分析带来了更大的挑战，而如何高效利用这些海量数据也成为亟待解决的问题。为了更好地利用现有的这些数据资源，必须对数据进行一定程度的融合或者挖掘。但是，由于信息更新的数据很快，数据源的种类繁多，使得数据不断堆积不能及时更新而出现过时的现象。同时，不同数据源的异构性，使得数据存在质量问题，即存在大量的“脏数据”。在一个或者多个数据库中，同一现实世界实体可能有多种描述方式。由于对实物和信息的定位的差异，来自不同数据源的信息类型多种多样，对同一个实体的描述也各不相同。而实体识别的目的，就是从数据集中识别出描述同一真实世界实体的元组。实体识别的结果，可以在数据质量管理的其他阶段得到广泛应用。同一实体具体不同描述的这一问题，在各种应用领域的信息系统中也普遍存在。

早期的实体识别算法主要是对重复的记录进行检测，以便获得识别结果。当前采用的算法，主要是基于相似性函数和基于规则的方法。有的的研究是利用关系中的主键和函数依赖，定义描述同一实体不同记录的规则；利用用户标注的实例学习字符串的转换规则进行识别来提高精确度；提出一种生命式的、领域无关的、能够定义实体识别规则的语言Deduplog；基于MapReduce框架进行的几何相似性研究，对数据分块技术进行总结分析；在真实数据集基础上，对实体统一的效率问题进行评价。另外，还有在启发式方法、距离函数、马尔科夫链等方面的研究。目前最新的实体识别方法采用机器学习的算法，提出了一种协同学习(Co-learning)方法。但是，随着信息时代的来临，各种各样的数据源源不断地产生，实体识别面临着新的困难和挑战：(1)数据量急剧增多，计算量和计算难度增加，计算效率也成为一个急需解决的问题；(2)数据源多样，存在多种结构化数据，半结构化和非结构化数据占主导，同时存在着很多噪声数据；(3)数据之间有着复杂的关系，需要更多的信息去辨别不同的实体之间的关系。

实体识别技术主要是通过某种计算规则或规律，采用某种计算方法来识别出实体之前是否为同一实体的可能性。由于实体识别在数据质量管理中具有十分重要的意义，对实体识别的研究也得到了足够的重视。然而，尽管现有的方法在很多的应用中能够有效地识别实体，但是仍存在很多的不足：(1)当前，实体识别存在重名和异名的问题；(2)传统的实体识别方法往往是基于元组的相似性比较来获取结果；(3)目前，实体识别方法中采用的相似性度量没有考虑到不同词之间的相关性；(4)对数据质量评估的体系不是很完善。

基于大数据的时代背景之下，Hadoop无疑是当前比较流行的用于处理大数据的有效工具。其中，HDFS和MapReduce为大数据解决方案提供了有效的数据存储和高效的数据处理模式。本发明在大数据的背景下提出了一种在Hadoop平台的MapReduce框架下基于学习的实体识别方法。通过对MadReduce的工作流程进行详细分析，运行基于机器学习的算法，并行处理数据集来识别出数据实体。本发明的方法大大地提高了实体识别的效果，具有很好的处理性能和效果，满足了识别海量数据中的实体的需求。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、基于学习的实体识别方法。

一种基于学习的实体识别方法，其实现过程为：

首先产生分类器：从数据记录中抽取出部分数据作为训练数据集并人工标出分类，对其进行预处理，根据相似度值和匹配情况产生分类器；

然后应用分类器：把数据记录中除训练数据集外的其它数据作为测试数据集存储到分布式文件系统中，作为实体识别的输入，采用训练好的分类模型对测试数据集进行分类处理；

最后根据系统匹配结果，得出最终的实体识别结果。

所述分类器产生的具体过程为：

首先从数据记录中收集相关的数据集，抽取出训练数据集；

对获取的训练数据集进行预处理，即对训练数据集的数据进行标记，并利用笛卡尔积组成R和S的训练数据集数据对，这里的R和S是两个不同的数据集；

对训练数据集数据对进行相似度计算，由k个不同的匹配函数计算得到相应的相似度值，这里的k取值范围为3≤k＜10；

根据以上训练数据集数据对的相似度值和匹配或者不匹配的结果，进行分类器训练；

根据训练分类器的结果生成一个内部的分类模型作为分类器。

所述分类器的应用过程为：

首先标记测试数据集，并利用笛卡尔积组成R和S的测试数据集数据对，这里的R和S是两个不同的数据集；

对测试数据集数据对进行相似度计算，由k个不同的匹配函数计算得到相应的相似度值，这里的k取值范围为3≤k＜10；

根据以上测试数据集数据对的相似度值为分类器提供特征值，利用生成的分类器，由分类器返回匹配或者不匹配的结果；

最后，输出只包含匹配实体对的识别结果。

所述实体识别是指确定两个或多个数据记录描述的是否为同一个实体对象，其中：

对单个数据集的实体识别过程描述为：

对两个数据集的实体识别过程描述为：

在上述公式中，R和S是两个不同的数据集；e表示为实体；i、j为自然数；Ψ是识别函数，用来计算数据记录描述的是否为同一个实体；θ是合并函数，把数据记录合并成一个记录，并对整个数据库不产生影响；Ω是实体识别后产生的新的实体数据集。

实体识别过程是在机器识别模型中进行的，该机器识别模型用来处理实体，即通过Map函数和Reduce函数，将输入的所有键值对按照key部分是否相同来进行快速分组，并最终得到机器识别阶段的结果。

Map函数的处理过程是对数据集中的实体记录初步处理的过程，经过Map处理的数据对以<key，value>的形式存在；Map函数的输入是经过Split分片后的数据块，每个数据块中包含若干条数据记录，对于每一条数据记录，调用一次Map函数进行处理；

在Map函数内部，isEntity()函数首先检查输入的数据记录是否符合实体记录的定义，若满足实体记录的定义，则将该条数据记录作为Map函数的输出值value输出。

Reduce函数的处理过程是对经过Map过程处理后的数据进行处理，经过Reduce处理的数据以<key，value>的形式存在；Reduce函数的输入是Map函数输出出来的键值对，且输入Reduce函数的键值对由所有Reduce进程中的一个来处理，最后Reduce以文件的形式将分组到同一类的记录输出到HDFS里储存起来。

本发明的一种基于学习的实体识别方法，具有以下优点：

本发明提出的一种基于学习的实体识别方法，可以充分利用Hadoop并行处理模型和MapReduce框架，采用和机器学习结合的方式，通过应用分类器来提高执行速度，并能达到很好的识别效果，可以很好地满足识别海量数据中的实体的需求，具有很好的处理性能和效果，实用性强，易于推广。

附图说明

附图1为本发明MapReduce工作流程图。

附图2为本发明模拟效果图。

附图3为本发明实体识别工作流程图。

附图4为本发明完成时间和加速比的实验结果对比图。

附图5为本发明两种算法实验结果对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供一种基于学习的实体识别方法，首先，要对实体有一个整体的认识。由于对现实世界中的同一个实体的描述、理解和定位等方面的不同，造成同一个实体有多种表述方式。实体识别就是要从这些不同名称和理解的数据集中识别出这个实体，把多条描述同一个实体的信息整合到一起，形成一条对实体的描述的过程。所以，实体识别最根本的目的是确定两个或多个数据记录描述的是否为同一个实体对象。

如附图1、图2所示，假设R和S是两个不同的数据集，这里的数据集可采用任意企业的数据集，比如某制造企业产生的海量数据，e表示为实体，i、j为自然数，Ψ是识别函数，是被函数用来计算数据记录描述的是否为同一个实体，θ是合并函数，合并函数通过某种规则把数据记录合并成一个记录，并对整个数据库不产生影响，Ω是实体识别后产生的新的实体数据集。

如果对单个数据集的实体识别过程描述为：

对两个数据集的实体识别过程描述为：

那么，根据不同的计算框架，多个数据集也可以有这样的形式化描述结果。实体识别的关键是数据记录的匹配，可以通过基于机器学习的方法进行处理。

如下图所示所示的表格中，都是对实体“直接无减粗纱”的描述，所以它们有可能描述的是同一个实体对象。通过设置识别函数Ψ和合并函数θ，通过实体对形式的对比，最终识别出这个实体对象。

编号	产品名	产品ID	产品TEX
				001	粗纱	T838T	2400
002	直接无碱粗纱	T838T	null
				003	直接无碱粗纱	null	2400
004	null	T838T	2400
				005	直接无碱粗纱	T838T	2400

本发明的实体识别过程是在机器识别模型中进行的，该机器识别模型充分利用MapReduce并行框架的快速分组优势，将输入的所有键值对按照key部分是否相同来进行快速分组，并最终得到机器识别阶段的结果。下面简单说明机器识别阶段中Map函数和Reduce函数的工作流程。

Map函数可简单定义成如下的形式：

Map过程是对数据集中的实体记录初步处理的过程，经过Map处理的数据对会以<key，value>的形式存在。Map函数的输入是经过Split分片后的数据块，每个数据块中包含若干条数据记录。对于每一条数据记录，都会调用一次Map函数进行处理。在Map函数内部，isEntity()函数首先会检查输入的数据记录是否符合实体记录的定义。若满足实体记录的定义，则将该条数据记录作为Map函数的输出值value输出。

Reduce函数可简单定义成如下的形式：

Map过程之后就是Reduce过程了，它对经过Map过程处理后的数据进行处理，而经过Reduce处理的数据同样会以<key，value>的形式存在。Reduce函数的输入是上一步Map函数输出出来的键值对，具体的处理过程可以自行定义。输入Reduce函数的键值对，只会有由所有Reduce进程中的一个来处理，这是由键值对中key值部分以及MapReduce框架所确定的，这样可以确保每一个键值对都不会被多个Reduce重复处理。最后，Reduce会以文件的形式将分组到同一类的记录输出到HDFS里储存起来。

Map和Reduce两个过程，共同组成了MapReduce框架，是实体识别过程中重要的两个关键步骤。

基于上述描述，如附图3所示，本发明的实现过程为：

最后根据系统匹配结果，得出最终的实体识别结果。

所述分类器产生的具体过程为：

首先从数据记录中收集相关的数据集，抽取出训练数据集；

所述分类器的应用过程为：

最后，输出只包含匹配实体对的识别结果。

在上述表格中，001和002组成一个数据对，“产品名”、“产品ID”、“产品TEX”这3个匹配函数，计算它俩相似度值。根据这两个记录对的相似度值，就能判断它俩是不是一个数据。

实验说明：实验选取集群中的某一节点作为单机处理数据集的环境，对选取的的数据集进行处理，得到对应的数据处理时间。然后，分别测试在并行集群环境中不同节点数下处理数据的效果。在附图4中，起点在上侧的折线表示的是完成时间，起点在下侧的折线表示的是对应的加速比，由此分析可得，随着节点数的增多，完成时间缩短，运行速度逐渐加快。

将实验最终的结果与基于规则的算法的实验结果进行对比，采用准确率、召回率及F值作为识别结果精确性的标准衡量。在附图5中，上边的折线表示基于学习的算法的结果，下边的折线是基于规则的算法的结果，由此对比发现，基于学习的算法的精确度较高。

通过实验，证明了本发明提出的方法极可以充分利用Hadoop并行处理模型和MapReduce框架并能达到很好的识别效果，极大地加快了实体识别的速度，提高了实体识别的效率，可以很好地满足识别海量数据中的实体的需求。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种基于学习的实体识别方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种基于学习的实体识别方法，其特征在于，其实现过程为，

最后根据系统匹配结果，得出最终的实体识别结果。

2.根据权利要求1所述的一种基于学习的实体识别方法，其特征在于，所述分类器产生的具体过程为：

首先从数据记录中收集相关的数据集，抽取出训练数据集；

3.根据权利要求1所述的一种基于学习的实体识别方法，其特征在于，所述分类器的应用过程为：

最后，输出只包含匹配实体对的识别结果。

4.根据权利要求1-3任一所述的一种基于学习的实体识别方法，其特征在于，所述实体识别是指确定两个或多个数据记录描述的是否为同一个实体对象，其中：

对单个数据集的实体识别过程描述为：

对两个数据集的实体识别过程描述为：

5.根据权利要求4所述的一种基于学习的实体识别方法，其特征在于，实体识别过程是在机器识别模型中进行的，该机器识别模型用来处理实体，即通过Map函数和Reduce函数，将输入的所有键值对按照key部分是否相同来进行快速分组，并最终得到机器识别阶段的结果。

6.根据权利要求5所述的一种基于学习的实体识别方法，其特征在于，Map函数的处理过程是对数据集中的实体记录初步处理的过程，经过Map处理的数据对以<key，value>的形式存在；Map函数的输入是经过Split分片后的数据块，每个数据块中包含若干条数据记录，对于每一条数据记录，调用一次Map函数进行处理；

7.根据权利要求5所述的一种基于学习的实体识别方法，其特征在于，Reduce函数的处理过程是对经过Map过程处理后的数据进行处理，经过Reduce处理的数据以<key，value>的形式存在；Reduce函数的输入是Map函数输出出来的键值对，且输入Reduce函数的键值对由所有Reduce进程中的一个来处理，最后Reduce以文件的形式将分组到同一类的记录输出到HDFS里储存起来。