CN101986296B

CN101986296B - 基于语义本体的噪声数据清洗方法

Info

Publication number: CN101986296B
Application number: CN2010105220387A
Authority: CN
Inventors: 陈纯; 卜佳俊; 汪达舟; 郑淼; 张利军
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-10-28
Filing date: 2010-10-28
Publication date: 2012-04-25
Anticipated expiration: 2030-10-28
Also published as: CN101986296A

Abstract

基于语义本体的噪声数据清洗方法，包括建立一个存储不含噪声的干净数据的干净数据库；获取待清洗的文本数据，对待清洗数据进行预处理以获取结构化数据，所述的结构化数据组成文本数据的词的集合；引入知识网络的语义概念，获取每两个词的语义相似度；利用两个词的语义相似度作为距离度量，使用K-means算法，对词进行自动聚类，识别出噪声数据；在噪声数据中寻找引起噪声的语义本体，对引起噪声的语义本体进行矫正、以获取干净数据，将干净数据存入干净数据库中。本发明具有能够发现数据间语义的关联、能分辨同义词，保证在数据清洗中获得好性能的优点。

Description

基于语义本体的噪声数据清洗方法

技术领域

本发明涉及数据库，语义搜索，信息检索领域，特别是涉及一种基于语义本体的噪声数据清洗方法。

技术背景

近年来，数据仓库需要保证数据的正确性、一致性、完整性和可靠性，然而现有的业务系统对数据的操作存在很多的问题，容易产生脏数据，主要原因有：滥用缩写词和惯用语、数据输入错误、数据中的内嵌控制信息、相似重复记录、相似矛盾记录、缺省值、拼写变化、不同的计量单位、过时的编码等。这些脏数据可能导致操作费用昂贵、决策制定失败甚至错误等。因此数据提取与转换过程中必须对脏数据进行有效处理，确保数据仓库中数据的质量。这个过程一般称作数据清洗。现在市场上已有很多数据清洗工具。这些工具一般由两部分组成：检测工具和转换工具。用户先用检测工具检查数据中的错误，然后编写脚本或者使用提取转换工具去转换数据，修正错误并且将数据转换成分析所需要的格式。然而传统的基于文本相似函数的数据清洗方法过于关注数据的表现，而无法发现数据间语义上的关联，不能分辨同义词等数据现象，所以难以在数据清洗中获得更好的性能。

发明内容

为克服现有技术的无法发现数据间语义上的关联，不能分辨同义词等数据现象，难以在数据清洗中获得好性能的缺点，本发明提供了一种能够发现数据间语义的关联、能分辨同义词，保证在数据清洗中获得好性能的基于语义本体的噪声数据清洗方法。

基于语义本体的噪声数据清洗方法，包括以下步骤：

1）、建立一个存储不含噪声的干净数据的干净数据库；获取待清洗的文本数据，对待清洗数据进行预处理以获取结构化数据，所述的结构化数据组成文本数据的词的集合：

（1.1）将待清洗数据进行分词，并将所有词转换为统一的编码形式；

（1.2）将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据；

（1.3）对该标准化数据进行一致性校验，将内容上的明显错误进行修改，如应该相同的数据是否一致或者某些属性是否与可参考的外部数据一致；

（1.4）将完全相同的词进行去重操作，从而获得结构化数据；

2）、引入知识网络的语义概念，获取每两个词的语义相似度；

（2.1）分别获取每个词所表达的概念、和描述每个概念的义原；

（2.2）获取任意两个独立的词，分别计算两个词的每个概念下的义原之间的相似度，两个义原的相似度用他们的语义距离来衡量；寻找两个概念之间的最大义原相似度和最小义原相似度，两个概念之间的相似度为最大义原相似度和最小义原相似度的均值；寻找两个词之间的最大概念相似度，将最大概念相似度作为两个词的语义相似度；

3）、利用两个词的语义相似度作为距离度量，使用K-means算法，对词进行自动聚类，识别出噪声数据；

4）、在噪声数据中寻找引起噪声的语义本体，对引起噪声的语义本体进行矫正、以获取干净数据，将干净数据存入干净数据库中。

进一步，在步骤3）和步骤5）的聚类和矫正的过程中，获取噪声数据关于语义本体和数据属性的分布，通过统计对噪声数据的产生过程建模、以形成噪声数据的产生原因的分析库。

进一步，步骤3）中进行聚类、识别噪声数据包含以下步骤：

（3.1）随机获取K个词作为质心，设定相似度阈值；

（3.2）将剩余的每个词分别测量其到各个质心的距离，并将该词归入与其距离最短的质心的类中；

（3.3）重新计算已经得到的各个类的质心；判断新的质心与原质心的距离是否等于或小于相似度阈值，若是，则进入步骤4）；若否，则返回步骤（3.2）；

（3.4）远离各个质心而无法归于任一质心的类中的剩余数据即为噪声数据。

进一步，步骤4）中寻找引起噪声的语义本体，矫正噪声数据的方法包括以下步骤：

（4.1）、获取一个噪声数据，判断噪声数据中是否有某个字段明显偏离聚类质心而导致鼓励，若是，则认为该字段为引起噪声的语义本体；若否，则获取该噪声数据的所有字段，将该噪声数据的各个字段分别丢弃后进行聚类，若某个字段被丢弃后，此数据点仍然为噪声，则认为该被丢弃的字段为非噪声语义本体；若某个字段被丢弃后，此数据点不再称为噪声，则该被丢弃的字段为引起噪声的语义本体；

（4.2）去除该引起噪声的语义本体，将该噪声数据重新聚类以归入与其距离最短的质心的类中；

（4.3）将步骤（4.2）中的质心类中的原有的词的语义本体属性的数据值求平均，将此平均值作为噪声数据的语义本体属性，则认为噪声数据被矫正形成干净数据；重复执行步骤（4.1）至（4.3）直到所有噪声数据被矫正完成。

随着语义分析技术的提出，人们开始关注数据背后潜在的语义内容，于是本发明提出了一种基于语义本体的数据清洗方法，在数据检测过程中引入了语义概念，使得不同的数据元之间出现了语义上的关联，从而可以使得文本的聚类更为有效，也使聚类可以得到更为直观的解释，能更准确地识别出噪声数据。

噪声数据通常被认为包含了错误数据或存在偏离期望的孤点值，而除掉错误或偏离的那一部分以外的其它数据，仍然对于数据库是有效的。如果直接删除噪声数据将损失部分有效信息，利用干净数据对错误或偏离数据进行矫正，从而避免这种数据资源的浪费。而数据矫正的前提就是判断数据到底在哪个属性上发生了偏离，即找到引起噪声的语义本体。

当聚类产生的一个噪声数据点中，很明显的有某个字段与聚类中心偏离而导致孤立时，这一字段便可立即被判断为引起噪声的语义本体。而当一个噪声数据点中没有明显的单独偏离的一个字段时，引起噪声的语义本体就需要更多分析。根据“噪声记录去除非噪声属性后的仍然是噪声记录”这一原则，将此噪声数据点的各个字段分别丢弃后进行聚类，若某个字段被丢弃后，此数据点仍然为噪声，则该字段非噪声属性；若某个字段被丢弃后，此数据点不再成为噪声，则该字段即引起噪声的语义本体。

本发明具有能够发现数据间语义的关联、能分辨同义词，保证在数据清洗中获得好性能的优点。

附图说明

图1是本发明的流程图。

具体实施方式

参照附图，进一步说明本发明：

基于语义本体的噪声数据清洗方法，包括以下步骤：

在步骤3）和步骤5）的聚类和矫正的过程中，获取噪声数据关于语义本体和数据属性的分布，通过统计对噪声数据的产生过程建模、以形成噪声数据的产生原因的分析库。

步骤3）中进行聚类、识别噪声数据包含以下步骤：

（3.1）随机获取K个词作为质心，设定相似度阈值；

步骤4）中寻找引起噪声的语义本体，矫正噪声数据的方法包括以下步骤：

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于语义本体的噪声数据清洗方法，包括以下步骤：

1)、建立一个存储不含噪声的干净数据的干净数据库；获取待清洗的文本数据，对待清洗数据进行预处理以获取结构化数据，所述的结构化数据组成文本数据的词的集合：

(1.1)将待清洗数据进行分词，并将所有词转换为统一的编码形式；

(1.2)将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据；

(1.3)对该标准化数据进行一致性校验，将内容上的明显错误进行修改；

(1.4)将完全相同的词进行去重操作，从而获得结构化数据；

2)、引入知识网络的语义概念，获取每两个词的语义相似度；

(2.1)分别获取每个词所表达的概念、和描述每个概念的义原；

(2.2)获取任意两个独立的词，分别计算两个词的每个概念下的义原之间的相似度，两个义原的相似度用他们的语义距离来衡量；寻找两个概念之间的最大义原相似度和最小义原相似度，两个概念之间的相似度为最大义原相似度和最小义原相似度的均值；寻找两个词之间的最大概念相似度，将最大概念相似度作为两个词的语义相似度；

3)、利用两个词的语义相似度作为距离度量，使用K-means算法，对词进行自动聚类，识别出噪声数据；

4)、在噪声数据中寻找引起噪声的语义本体，对引起噪声的语义本体进行矫正、以获取干净数据，将干净数据存入干净数据库中；

(4.1)、获取一个噪声数据，判断噪声数据中是否有某个字段明显偏离聚类质心而导致鼓励，若是，则认为该字段为引起噪声的语义本体；若否，则获取该噪声数据的所有字段，将该噪声数据的各个字段分别丢弃后进行聚类，若某个字段被丢弃后，此数据点仍然为噪声，则认为该被丢弃的字段为非噪声语义本体；若某个字段被丢弃后，此数据点不再称为噪声，则该被丢弃的字段为引起噪声的语义本体；

(4.2)去除该引起噪声的语义本体，将该噪声数据重新聚类以归入与其距离最短的质心的类中；

(4.3)将步骤(4.2)中的质心类中的原有的词的语义本体属性的数据值求平均，将此平均值作为噪声数据的语义本体属性，则认为噪声数据被矫正形成干净数据；重复执行步骤(4.1)至(4.3)直到所有噪声数据被矫正完成。

2.如权利要求1所述的基于语义本体的噪声数据清洗方法，其特征在于：在步骤3)和步骤4)的聚类和矫正的过程中，获取噪声数据关于语义本体和数据属性的分布，通过统计对噪声数据的产生过程建模、以形成噪声数据的产生原因的分析库。

3.如权利要求2所述的基于语义本体的噪声数据清洗方法，其特征在于：步骤3)中进行聚类、识别噪声数据包含以下步骤：

(3.1)随机获取K个词作为质心，设定相似度阈值；

(3.2)将剩余的每个词分别测量其到各个质心的距离，并将该词归入与其距离最短的质心的类中；

(3.3)重新计算已经得到的各个类的质心；判断新的质心与原质心的距离是否等于或小于相似度阈值，若是，则进入步骤3.4)；若否，则返回步骤(3.2)；

(3.4)远离各个质心而无法归于任一质心的类中的剩余数据即为噪声数据。