CN106611053A

CN106611053A - 一种数据清理、索引方法

Info

Publication number: CN106611053A
Application number: CN201611219279.8A
Authority: CN
Inventors: 张国杰; 邵晓艳; 郭晓丽; 郭学明
Original assignee: Henan Xin'an Communication Technology Co Ltd
Current assignee: Henan Xin'an Communication Technology Co Ltd
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2017-05-03
Anticipated expiration: 2036-12-26
Also published as: CN106611053B

Abstract

本发明公开了一种数据清理、索引方法，属于数据检索领域，具体流程为：1）数据清理、导入：包括对于结构化数据的清理及对于非结构化数据的清理；2）元数据的建立：(1)元数据获取，通过元数据获取流程整合数据中心多个源中的不同元数据，使用数据库作为元数据知识库进行统一存储管理；(2)元数据发布，建立一套元数据的发布流程来管理元数据的发布；(3)元数据访问，建立一套元数据访问权限的授予、管理流程机制，控制合法用户对元数据资料的有效访问；3）索引构建：通过元数据访问，得出数据中心的分布式数据集群上的数据属性。本发明整体的数据属性非常清晰，结构化和非结构化数据区分的很明确，针对不同数据结构类型，有针对性选择清洗工具，使其达到最好的清洗转换效果，大大的提高了数据整合转换效率。

Description

一种数据清理、索引方法

技术领域

本发明属于数据检索领域，具体涉及一种基于云平台多维数据融合分析系统的数据清理、索引方法。

背景技术

目前，在企业平台建设方面，主要是以多方的数据为基础，比如手动导入的数据，包括txt格式、excel格式、csv格式等，同步的数据，实时从其他业务系统获取的数据等等，通过对数据的分析，进行数据的定向的汇总，以便后期的检索，但是随着企业规模的不断扩大，业务量的不断增长，自身产生的多方数据也是急剧的增加，对于一般的数据都是采用传统的方法或者购买现成的检索方法，进行数据的清理检索。但是对于大部分的数据都是来自于各个平台或者各方数据的汇总，这些数据由于没有之前的整理，规整，因此所有的数据都是处于零散的状态，如果还是采用普通的数据采集，数据清理，数据检索的方式，那么由于这些检索的工具都是现成的工具，没法进一步的进行工具的完善和修改，因此基本上所有的这些数据都不能够在现有的检索工具基础上汇总，使用，这给企业造成了很的麻烦和资源的浪费，因为只有在现有的检索方式的基础上进行尝试才能够发现其那些内容不能够使用或者检索效果不好，此过程本身就是一个资源的耗费过程，因此继续有针对性得进行改进。

发明内容

本发明的目的在于克服现有技术中的不足而提供一种针对性强，能够快速将数据进行规整，清理，能够根据具体的数据进行索引方法的微调，从而实现数据的快速索引，可复制性的效果非常好。

本发明的目的是这样实现的：

一种数据清理、索引方法，其特征在于：具体流程如下：

1）数据清理、导入：

对于结构化数据的清理，通过清理工具利用在线同步的方式同步到数据中心的分布式数据库集群上或者通过文件等方式传送到数据中心的分布式数据库集群中或者通过接口实时调用；

对于非结构化数据的清理，通过清理工具层进行交换处理，存放于数据中心的分布式文件系统中，指定冗余度，同时实现统一存储管理和冗余备份；

2）元数据的建立：

(1)元数据获取，通过元数据获取流程整合数据中心多个源中的不同元数据，并使用数据库作为元数据知识库进行统一存储管理；

(2)元数据发布，建立一套元数据的发布流程来管理元数据的发布，元数据发布后，用户能通过元数据报表来查询各种元数据的内容，使用关联影响分析、依赖分析、血统分析方法来分析元数据间的关系，通过搜索功能对元数据对象进行精确或模糊查询，以XML标准进行元数据交换，并提供API接口和WebService接口接入，使得用户的查询请求得到及时有效的反馈；

(3)元数据访问，建立一套元数据访问权限的授予、管理流程机制，控制合法用户对元数据资料的有效访问；

3）索引构建：

通过元数据访问，得出数据中心的分布式数据集群上的数据属性，其中对于与表有关的数据库结构采用数据库索引，对于存储在介质上的位置数据信息的描述采用空间索引，对于姓名、手机号和地址信息的描述采用关系索引，在关系型数据中，对数据中心的所有要素都要进行匹配的时候，采用全文索引。

基于以上所述，所述的数据清理、导入过程中，现有RDBMS数据库中，关键数据少的部分，通过清理工具利用在线同步的方式同步到数据中心的分布式数据库集群上；数据量大的部分，通过文件等方式传送到数据中心的分布式数据库集群中，或者通过接口实时调用的方式；

WEB平台录入的信息经过清理工具的处理直接同步到数据中心的分布式数据集群中。

基于以上所述，所述的清理工具为能够支持常见文件格式，至少包括txt文件、csv文件、Excel文件、dmp文件数据格式，并且相同数据、不同数据的转换过程能够自定义，还能够实现数据格式的转换，按照要求进行标准化处理，另外数据规范化工具操作便利、界面直观以及数据格式化工作自动和人工进行。

基于以上所述，所述的元数据建立过程中，当元数据发生变更时，元数据管理应用应该捕捉到这种变更，给出分析报告，指引用户完成元数据同步工作；并且自动跟踪和记录元数据的更新，包括变更时间和变更原因，生成完整的元数据变更历史。

本发明具有如下的优点：

本发明的技术方案是在具体的实践过程中，针对具体的情况所进行的分析判断，然后得出的技术方案。单单是数据的来源就有好多的种类，比如手动导入的数据，包括txt格式、excel格式、csv格式等，同步的数据，实时从其他业务系统获取的数据等等，很多的数据种类，本发明从数据的结构进行了整体的分类，这样以来，整体的数据属性就非常清晰，结构化和非结构化数据区分的很明确。这样针对不同的数据结构类型，有针对性的选择清洗工具，使其达到最好的清洗转换效果，大大的提高了数据整合转换的效率。元数据的使用，主要是更进一步的找到数据的属性，元数据作为一个中间数据，起到的作用是毋庸置疑的，在本发明中，元数据的建立主要是采用关联分析、依赖分析等手段或者方法分析数据之间的关系以及数据自身的属性，达到数据的更加清晰化和规范化，同时也能够更加方便的实现索引的建立。索引的建立是基于元数据的建立，属性的明确，索引的建立过程是一个再次对数据规整的过程，同时又不旦是规整，更多的是为了方便后期的检索，查询，更加准确的查询，四种索引的方式基于不同的数据属性，有针对性的建立索引，使得后期的索引方式更加有针对性，有目的性，最重要的是本发明的索引方法由于采用四种索引方法，这四种索引方法相互之间又都是根据不同的属性特点来实现，通过空间关系，关联关系，模糊匹配效率低的问题，以及与表有关的数据进行有针对性的索引，达到对数据库进行优化的效果。

另外，此清洗和索引的方法可以针对不同的数据，进行调整，比如清洗的工具，针对不同的数据来源，可以采用不同的清洗工具，也就说清洗的方法一样，但是因为清洗的数据不一样，清洗的过程会有变化，但是最终的目的都是为了元数据的建立提供更加规整的数据，元数据的属性确定，又为后期的索引提供规整的二次数据，这些一连串的过程，是可以复制，可操作性也是非常强，即便是出现了根据具体的情况的微调。

具体实施方式

下面通过具体的实施方式对本发明作进一步的描述。

一种数据清理、索引方法，其特征在于：具体流程如下：

1）数据清理、导入：

对于结构化数据的清理，所述的数据清理、导入过程中，现有RDBMS数据库中，关键数据少的部分，通过清理工具利用在线同步的方式同步到数据中心的分布式数据库集群上；数据量大的部分，通过文件等方式传送到数据中心的分布式数据库集群中，或者通过接口实时调用的方式。

对于非结构化数据的清理，各系统中相关的音频、视频、图片等以及其他较大的文件，通过清理工具层进行交换处理，存放于数据中心的分布式文件系统中，指定冗余度，同时实现统一存储管理和冗余备份。

数据导入功能负责把清洗过的数据导入数据库中，数据导入支持大数据量的批量导入。对关键要素（姓名、电话号码、地址、时间等）都进行索引的创建，提高数据的查询分析效率。

导入操作中伴随索引操作，会影响到数据导入的速度和效率，所以在导入前需要进行表或索引的存在性判断，已存在的表能够禁用索引，导入完成能够自动恢复索引，不存在的表、表空间、分区、索引能够自动创建表、索引、分区。

清理工具为能够支持常见文件格式，至少包括txt文件、csv文件、excel文件、dmp文件数据格式，并且相同数据、不同数据的转换过程能够自定义，还能够实现数据格式的转换，按照要求进行标准化处理，另外数据规范化工具操作便利、界面直观以及数据格式化工作自动和人工进行。

2）元数据的建立：

(3)元数据访问，建立一套元数据访问权限的授予、管理流程机制，控制合法用户对元数据资料的有效访问，元数据发布后，用户能通过元数据报表来查询各种元数据的内容，使用关联影响分析、依赖分析、血统分析等方法来分析元数据间的关系，通过搜索功能对元数据对象进行精确或模糊查询，以XML等标准进行元数据交换，并提供API接口和WebService接口接入。

所述的元数据建立过程中，当元数据发生变更时，元数据管理应用应该捕捉到这种变更，给出分析报告，指引用户完成元数据同步工作；并且自动跟踪和记录元数据的更新，包括变更时间和变更原因，生成完整的元数据变更历史。

3）索引构建：

数据库索引：

索引是指使用索引可快速访问数据库表中的特定信息。索引是对数据库表中一列或多列的值进行排序的一种结构。

在关系数据库中，索引是一种与表有关的数据库结构，它可以使对应于表的SQL语句执行得更快。索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。当表中有大量记录时，若要对表进行查询，第一种搜索信息方式是全表搜索，是将所有记录一一取出，和查询条件进行一一对比，然后返回满足条件的记录，这样做会消耗大量数据库系统时间，并造成大量磁盘I/O操作；第二种就是在表中建立索引，然后在索引中找到符合查询条件的索引值，最后通过保存在索引中的ROWID（相当于页码）快速找到表中对应的记录。

索引提供指向存储在表的指定列中的数据值的指针，然后根据您指定的排序顺序对这些指针排序。数据库使用索引的方式与您使用书籍中的索引的方式很相似：它搜索索引以找到特定值，然后顺指针找到包含该值的行。

在数据库关系图中，可以在选定表的“索引/键”属性页中创建、编辑或删除每个索引类型。当保存索引所附加到的表，或保存该表所在的关系图时，索引将保存在数据库中。

对于Oracle数据库中的各数据资源表，经常用于搜索的字段分别建立索引。提高Sql语音查询效率。

空间索引：

空间索引是指依据空间对象的位置和形状或空间对象之间的某种空间关系按一定的顺序排列的一种数据结构，其中包含空间对象的概要信息，如对象的标识、外接矩形及指向空间对象实体的指针。

空间数据查询即空间索引，是对存储在介质上的数据位置信息的描述，是用来提高系统对数据获取的效率，也称为空间访问方法(Spatial Access Method SAM)。是指依据空间对象的位置和形状或空间对象之间的某种空间关系按一定的顺序排列的一种数据结构其中包含空间对象的概要信息如对象的标识外接矩形及指向空间对象实体的指针。

作为一种辅助性的空间数据结构空间索引介于空间操作算法和空间对象之间它通过筛选作用，大量与特定空间操作无关的空间对象被排除从而提高空间操作的速度和效率。

一些资源中包含着人员地点信息，这些地点描述了经纬度坐标，对于地点字段建立空间索引，便于在系统中以地图的形式展示人员活动的位置；另一方面可以通过在地区中画一个区域，分析区域内的各种活动，这样进行搜索的话，用户使用上更直观易用，并且搜索更有目的性。

关系索引：

例如物流资源中有姓名、手机号、地址信息，那么手机号、姓名、地址就可以作为构建物流与常住人口关系的要素。根据常住人口中的手机号，可以找出该人员所有的邮寄关系，给哪些人邮寄过包裹信息；同样根据手机号从A口数据中，可以找出该人员所有的通话关系。

全文索引：

在关系型数据中，对数据资源中所有要素都进行模糊匹配，效率很低，尤其在数据量庞大的情况下。这样的sql语句很长，并且都是模糊匹配，效率很低。根据这样的情况，全文索引就发挥了很大的优势。

全文索引技术是目前搜索引擎的关键技术。试想在1M大小的文件中搜索一个词，可能需要几秒，在100M的文件中可能需要几十秒，如果在更大的文件中搜索那么就需要更大的系统开销，这样的开销是不现实的。所以在这样的矛盾下出现了全文索引技术，有时候有人叫倒排文档技术。

原理是先定义一个词库，然后在文章中查找每个词条(term)出现的频率和位置，把这样的频率和位置信息按照词库的顺序归纳，这样就相当于对文件建立了一个以词库为目录的索引，这样查找某个词的时候就能很快的定位到该词出现的位置。

问题在处理英文文档的时候显然这样的方式是非常好的，因为英文自然的被空格分成若干词，只要我们有足够大的词汇库就能很好的处理。但是亚洲文字因为没有空格作为断词标志，所以就很难判断一个词，而且人们使用的词汇在不断的变化，而维护一个可扩展的词汇库的成本是很高的，所以问题出现了。

解决出现这样的问题使“分词”成为全文索引的关键技术。目前有两种基本的方法：

二元法它把所有有可能的每两两汉字的组合看为一个词组，这样就没有维护词库的开销。

词库法它使使用词库中的词作为切分的标准，这样也出现了词库跟不上词汇发展的问题，除非你维护词库。

实际上现在很多著名的搜索引擎都使用了多种分词的办法，比如“正向最大匹配”+“逆向最大匹配”，基于统计学的新词识别，自动维护词库等技术，但是显然这样的技术还没有做到完美。

Claims

1.一种数据清理、索引方法，其特征在于：具体流程如下：

1）数据清理、导入：

2）元数据的建立：

3）索引构建：

2.根据权利要求1所述的一种数据清理、索引方法，其特征在于：所述的数据清理、导入过程中，现有RDBMS数据库中，关键数据少的部分，通过清理工具利用在线同步的方式同步到数据中心的分布式数据库集群上；数据量大的部分，通过文件等方式传送到数据中心的分布式数据库集群中，或者通过接口实时调用的方式；

3.根据权利要求1或者2所述的一种数据清理、索引方法，其特征在于：所述的清理工具为能够支持常见文件格式，至少包括txt文件、csv文件、excel文件、dmp文件数据格式，并且相同数据、不同数据的转换过程能够自定义，还能够实现数据格式的转换，按照要求进行标准化处理，另外数据规范化工具操作便利、界面直观以及数据格式化工作自动和人工进行。

4.根据权利要求1所述的一种数据清理、索引方法，其特征在于：所述的元数据建立过程中，当元数据发生变更时，元数据管理应用应该捕捉到这种变更，给出分析报告，指引用户完成元数据同步工作；并且自动跟踪和记录元数据的更新，包括变更时间和变更原因，生成完整的元数据变更历史。