CN105912735A

CN105912735A - 一种文本文件的并行解析过滤方法

Info

Publication number: CN105912735A
Application number: CN201610483787.0A
Authority: CN
Inventors: 孙凯
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2016-08-31

Abstract

本发明公开一种文本文件的并行解析过滤方法,涉及数据抽取转换技术，用于文本文件与hbase数据库的转换，通过配置数据模板及内置常用数据项，在解析出不同的文本文件类型后进行匹配解析，使得文本文件与数据模板中的常用数据项自动匹配；最后按照不同的数据分类存储到hbase数据库，进行文本文件的分类解析过滤。本发明通过配置数据模板及内置常用数据项实现文本文件的分类解析过滤，通过多线程入库hbase实现文本文件的分布式存储管理；增加了系统的可扩展性，同时使用了分类解析、存储、管理的方式，增强了文本数据解析过滤后的可用性。

Description

一种文本文件的并行解析过滤方法

技术领域

本发明涉及数据抽取转换技术，具体的说是一种文本文件的并行解析过滤方法。

背景技术

随着数据信息系统应用的不断发展，系统对应不同种类数据的解析、分类和管理能力的要求越来越高，由于很大一部分社会化数据信息以文本文件的方式存放，系统需要将此部分信息录入管理，比如：高校信息、生活信息（煤气/水电）、交通出行信息、求职就业信息等等。如何实现数据的高效提取、分类、管理，显得尤为重要。

为了更好的实现数据的高效提取管理，本发明提出了一种文本文件的并行解析过滤方法，实现文本文件与hbase数据库的转换，保证了文本数据的高效解析、分类、管理。

文本文件是一种计算机文件，存在于计算机文件系统中，是一种包含纯文本的容器。文本文件中文件的逻辑结构属于流式文件，是以ASCII码方式(也称文本方式)存储的文件。文本文件中除了存储文件有效字符信息外，不能存储其他任何信息。

HBase是一个分布式的、面向列的开源数据库，HBase在Hadoop之上提供了类似于Bigtable的能力；不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种文本文件的并行解析过滤方法。

本发明所述一种文本文件的并行解析过滤方法，解决上述技术问题采用的技术方案如下：所述一种文本文件的并行解析过滤方法，用于文本文件与hbase数据库的转换，通过配置数据模板及内置常用数据项，在解析出不同的文本文件类型后进行匹配解析，使得文本文件与数据模板中的常用数据项自动匹配；最后按照不同的数据分类存储到hbase数据库，实现文本文件的分类解析过滤，进而实现了文本数据的更高效的解析、存储和管理。

优选的，所述文本文件的并行解析过滤方法，其主要包括如下步骤：创建数据模板，过滤文本文件类型，解析匹配数据，以及多线程入库hbase。

优选的，所述创建数据模板这一步骤，其主要内容包括，不同的用户能够自定义不同的数据模板，数据模板中内置常用的匹配数据项；解析文本文件时选择指定的数据模块。

优选的，所述过滤文本文件类型这一步骤，其主要内容包括，解析出不同的文本文件类型，然后将文本文件与数据模板中的常用数据项自动匹配。

优选的，若文本文件类型不匹配，则结束；若文本文件类型匹配，则上传文本文件。

优选的，所述解析匹配数据这一步骤，其主要内容包括，根据不同的文本文件类型解析过滤；首先匹配内置的常用数据类型，再匹配选定的数据模板，并作相应标记。

优选的，所述多线程入库hbase这一步骤，其主要内容包括，根据匹配的不同的数据类型，分多线程批量存储到hbase数据库。

本发明所述一种文本文件的并行解析过滤方法与现有技术相比具有的有益效果是：本发明通过配置数据模板及内置常用数据项实现文本文件的分类解析过滤，通过多线程入库hbase实现文本文件的分布式存储管理；由于使用了数据模板增加了系统的可扩展性，同时使用了分类解析、存储、管理的方式，增强了文本数据解析过滤后的可用性。

说明书附图

附图1为所述文本文件的并行解析过滤方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明所述一种文本文件的并行解析过滤方法进一步详细说明。

本发明公开了一种文本文件的并行解析过滤方法，用于文本文件与hbase数据库的转换，通过配置数据模板及内置常用数据项，在解析出不同的文本文件类型后进行匹配解析，使得文本文件与数据模板中的常用数据项自动匹配；最后按照不同的数据分类存储到hbase数据库，实现文本文件的分类解析过滤，进而实现了文本数据的更高效的解析、存储和管理。

实施例：

本实施例所述一种文本文件的并行解析过滤方法，主要包括如下步骤：创建数据模板，过滤文本文件类型，解析匹配数据，以及多线程入库hbase。如附图1所示，该并行解析过滤方法的具体实施流程包括：

所述创建数据模板这一步骤，其主要内容是指，不同的用户能够自定义不同的数据模板，数据模板中内置常用的匹配数据项；解析文本文件时选择指定的数据模块，保证了可扩展性。

所述过滤文本文件类型这一步骤，其主要内容包括，解析出不同的文本文件类型，查看文本数据是否为csv、txt、excel2003、excel2007等等；然后将文本文件与数据模板中的常用数据项自动匹配；若文本文件类型不匹配，则结束；若文本文件类型匹配，则上传文本文件。

所述解析匹配数据这一步骤，其主要内容包括，根据不同的文本文件类型解析过滤，首先匹配内置的常用数据类型，再匹配选定的数据模板，并作相应标记。

所述多线程入库hbase这一步骤，其主要内容包括，根据匹配的不同的数据类型，分多线程批量存储到hbase数据库。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种文本文件的并行解析过滤方法，其特征在于, 用于文本文件与hbase数据库的转换，通过配置数据模板及内置常用数据项，在解析出不同的文本文件类型后进行匹配解析，使得文本文件与数据模板中的常用数据项自动匹配；最后按照不同的数据分类存储到hbase数据库，进行文本文件的分类解析过滤。

2.根据权利要求1所述一种文本文件的并行解析过滤方法，其特征在于, 所述文本文件的并行解析过滤方法，其主要包括如下步骤：创建数据模板，过滤文本文件类型，解析匹配数据，以及多线程入库hbase。

3.根据权利要求2所述一种文本文件的并行解析过滤方法，其特征在于, 所述创建数据模板这一步骤，其主要内容包括，不同的用户能够自定义不同的数据模板，数据模板中内置常用的匹配数据项；解析文本文件时选择指定的数据模块。

4.根据权利要求3所述一种文本文件的并行解析过滤方法，其特征在于, 所述过滤文本文件类型这一步骤，其主要内容包括，解析出不同的文本文件类型，然后将文本文件与数据模板中的常用数据项自动匹配。

5.根据权利要求4所述一种文本文件的并行解析过滤方法，其特征在于, 若文本文件类型不匹配，则结束；若文本文件类型匹配，则上传文本文件。

6.根据权利要求5所述一种文本文件的并行解析过滤方法，其特征在于, 所述解析匹配数据这一步骤，其主要内容包括，根据不同的文本文件类型解析过滤；首先匹配内置的常用数据类型，再匹配选定的数据模板，并作相应标记。

7.根据权利要求6所述一种文本文件的并行解析过滤方法，其特征在于, 所述多线程入库hbase这一步骤，其主要内容包括，根据匹配的不同的数据类型，分多线程批量存储到hbase数据库。