CN105912735A - 一种文本文件的并行解析过滤方法 - Google Patents
一种文本文件的并行解析过滤方法 Download PDFInfo
- Publication number
- CN105912735A CN105912735A CN201610483787.0A CN201610483787A CN105912735A CN 105912735 A CN105912735 A CN 105912735A CN 201610483787 A CN201610483787 A CN 201610483787A CN 105912735 A CN105912735 A CN 105912735A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- filtering method
- parallel
- parsed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开一种文本文件的并行解析过滤方法,涉及数据抽取转换技术,用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,进行文本文件的分类解析过滤。本发明通过配置数据模板及内置常用数据项实现文本文件的分类解析过滤,通过多线程入库hbase实现文本文件的分布式存储管理;增加了系统的可扩展性,同时使用了分类解析、存储、管理的方式,增强了文本数据解析过滤后的可用性。
Description
技术领域
本发明涉及数据抽取转换技术,具体的说是一种文本文件的并行解析过滤方法。
背景技术
随着数据信息系统应用的不断发展,系统对应不同种类数据的解析、分类和管理能力的要求越来越高,由于很大一部分社会化数据信息以文本文件的方式存放,系统需要将此部分信息录入管理,比如:高校信息、生活信息(煤气/水电)、交通出行信息、求职就业信息等等。如何实现数据的高效提取、分类、管理,显得尤为重要。
为了更好的实现数据的高效提取管理,本发明提出了一种文本文件的并行解析过滤方法,实现文本文件与hbase数据库的转换,保证了文本数据的高效解析、分类、管理。
文本文件是一种计算机文件,存在于计算机文件系统中,是一种包含纯文本的容器。文本文件中文件的逻辑结构属于流式文件,是以ASCII码方式(也称文本方式)存储的文件。文本文件中除了存储文件有效字符信息外,不能存储其他任何信息。
HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力;不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种文本文件的并行解析过滤方法。
本发明所述一种文本文件的并行解析过滤方法,解决上述技术问题采用的技术方案如下:所述一种文本文件的并行解析过滤方法,用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,实现文本文件的分类解析过滤,进而实现了文本数据的更高效的解析、存储和管理。
优选的,所述文本文件的并行解析过滤方法,其主要包括如下步骤:创建数据模板,过滤文本文件类型,解析匹配数据,以及多线程入库hbase。
优选的,所述创建数据模板这一步骤,其主要内容包括,不同的用户能够自定义不同的数据模板,数据模板中内置常用的匹配数据项;解析文本文件时选择指定的数据模块。
优选的,所述过滤文本文件类型这一步骤,其主要内容包括,解析出不同的文本文件类型,然后将文本文件与数据模板中的常用数据项自动匹配。
优选的,若文本文件类型不匹配,则结束;若文本文件类型匹配,则上传文本文件。
优选的,所述解析匹配数据这一步骤,其主要内容包括,根据不同的文本文件类型解析过滤;首先匹配内置的常用数据类型,再匹配选定的数据模板,并作相应标记。
优选的,所述多线程入库hbase这一步骤,其主要内容包括,根据匹配的不同的数据类型,分多线程批量存储到hbase数据库。
本发明所述一种文本文件的并行解析过滤方法与现有技术相比具有的有益效果是:本发明通过配置数据模板及内置常用数据项实现文本文件的分类解析过滤,通过多线程入库hbase实现文本文件的分布式存储管理;由于使用了数据模板增加了系统的可扩展性,同时使用了分类解析、存储、管理的方式,增强了文本数据解析过滤后的可用性。
说明书附图
附图1为所述文本文件的并行解析过滤方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明所述一种文本文件的并行解析过滤方法进一步详细说明。
本发明公开了一种文本文件的并行解析过滤方法,用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,实现文本文件的分类解析过滤,进而实现了文本数据的更高效的解析、存储和管理。
实施例:
本实施例所述一种文本文件的并行解析过滤方法,主要包括如下步骤:创建数据模板,过滤文本文件类型,解析匹配数据,以及多线程入库hbase。如附图1所示,该并行解析过滤方法的具体实施流程包括:
所述创建数据模板这一步骤,其主要内容是指,不同的用户能够自定义不同的数据模板,数据模板中内置常用的匹配数据项;解析文本文件时选择指定的数据模块,保证了可扩展性。
所述过滤文本文件类型这一步骤,其主要内容包括,解析出不同的文本文件类型,查看文本数据是否为csv、txt、excel2003、excel2007等等;然后将文本文件与数据模板中的常用数据项自动匹配;若文本文件类型不匹配,则结束;若文本文件类型匹配,则上传文本文件。
所述解析匹配数据这一步骤,其主要内容包括,根据不同的文本文件类型解析过滤,首先匹配内置的常用数据类型,再匹配选定的数据模板,并作相应标记。
所述多线程入库hbase这一步骤,其主要内容包括,根据匹配的不同的数据类型,分多线程批量存储到hbase数据库。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (7)
1.一种文本文件的并行解析过滤方法,其特征在于, 用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,进行文本文件的分类解析过滤。
2.根据权利要求1所述一种文本文件的并行解析过滤方法,其特征在于, 所述文本文件的并行解析过滤方法,其主要包括如下步骤:创建数据模板,过滤文本文件类型,解析匹配数据,以及多线程入库hbase。
3.根据权利要求2所述一种文本文件的并行解析过滤方法,其特征在于, 所述创建数据模板这一步骤,其主要内容包括,不同的用户能够自定义不同的数据模板,数据模板中内置常用的匹配数据项;解析文本文件时选择指定的数据模块。
4.根据权利要求3所述一种文本文件的并行解析过滤方法,其特征在于, 所述过滤文本文件类型这一步骤,其主要内容包括,解析出不同的文本文件类型,然后将文本文件与数据模板中的常用数据项自动匹配。
5.根据权利要求4所述一种文本文件的并行解析过滤方法,其特征在于, 若文本文件类型不匹配,则结束;若文本文件类型匹配,则上传文本文件。
6.根据权利要求5所述一种文本文件的并行解析过滤方法,其特征在于, 所述解析匹配数据这一步骤,其主要内容包括,根据不同的文本文件类型解析过滤;首先匹配内置的常用数据类型,再匹配选定的数据模板,并作相应标记。
7.根据权利要求6所述一种文本文件的并行解析过滤方法,其特征在于, 所述多线程入库hbase这一步骤,其主要内容包括,根据匹配的不同的数据类型,分多线程批量存储到hbase数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610483787.0A CN105912735A (zh) | 2016-06-28 | 2016-06-28 | 一种文本文件的并行解析过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610483787.0A CN105912735A (zh) | 2016-06-28 | 2016-06-28 | 一种文本文件的并行解析过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105912735A true CN105912735A (zh) | 2016-08-31 |
Family
ID=56759745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610483787.0A Pending CN105912735A (zh) | 2016-06-28 | 2016-06-28 | 一种文本文件的并行解析过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105912735A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108040040A (zh) * | 2017-11-30 | 2018-05-15 | 北京锐安科技有限公司 | 一种应用协议报文的自动化解析方法和装置 |
CN108241642A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 文件解析方法和装置 |
CN109992645A (zh) * | 2019-03-29 | 2019-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于文本数据的资料管理系统及方法 |
CN111880838A (zh) * | 2020-08-03 | 2020-11-03 | 北京神舟航天软件技术有限公司 | 一种基于模板匹配技术的数据解析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216835A (zh) * | 2007-12-29 | 2008-07-09 | 北京大学 | 一种数据文档转换方法及装置 |
CN103177045A (zh) * | 2011-12-26 | 2013-06-26 | 中国移动通信集团广东有限公司 | 文本解析方法及装置 |
CN103970874A (zh) * | 2014-05-14 | 2014-08-06 | 浪潮(北京)电子信息产业有限公司 | 一种实现Hadoop文件处理的方法及装置 |
CN104123376A (zh) * | 2014-07-29 | 2014-10-29 | 广东能龙教育股份有限公司 | 一种基于列模板的智能文本数据采集方法和系统 |
CN105320739A (zh) * | 2015-09-22 | 2016-02-10 | 深圳市永兴元科技有限公司 | 信息提取方法及装置 |
-
2016
- 2016-06-28 CN CN201610483787.0A patent/CN105912735A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216835A (zh) * | 2007-12-29 | 2008-07-09 | 北京大学 | 一种数据文档转换方法及装置 |
CN103177045A (zh) * | 2011-12-26 | 2013-06-26 | 中国移动通信集团广东有限公司 | 文本解析方法及装置 |
CN103970874A (zh) * | 2014-05-14 | 2014-08-06 | 浪潮(北京)电子信息产业有限公司 | 一种实现Hadoop文件处理的方法及装置 |
CN104123376A (zh) * | 2014-07-29 | 2014-10-29 | 广东能龙教育股份有限公司 | 一种基于列模板的智能文本数据采集方法和系统 |
CN105320739A (zh) * | 2015-09-22 | 2016-02-10 | 深圳市永兴元科技有限公司 | 信息提取方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241642A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 文件解析方法和装置 |
CN108241642B (zh) * | 2016-12-23 | 2021-03-30 | 北京国双科技有限公司 | 文件解析方法和装置 |
CN108040040A (zh) * | 2017-11-30 | 2018-05-15 | 北京锐安科技有限公司 | 一种应用协议报文的自动化解析方法和装置 |
CN109992645A (zh) * | 2019-03-29 | 2019-07-09 | 国家计算机网络与信息安全管理中心 | 一种基于文本数据的资料管理系统及方法 |
CN109992645B (zh) * | 2019-03-29 | 2021-05-14 | 国家计算机网络与信息安全管理中心 | 一种基于文本数据的资料管理系统及方法 |
CN111880838A (zh) * | 2020-08-03 | 2020-11-03 | 北京神舟航天软件技术有限公司 | 一种基于模板匹配技术的数据解析方法 |
CN111880838B (zh) * | 2020-08-03 | 2024-04-12 | 北京神舟航天软件技术有限公司 | 一种基于模板匹配技术的数据解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912735A (zh) | 一种文本文件的并行解析过滤方法 | |
US10572494B2 (en) | Bootstrapping the data lake and glossaries with ‘dataset joins’ metadata from existing application patterns | |
Das et al. | Big data analytics: A framework for unstructured data analysis | |
JP6521978B2 (ja) | 対話型事案管理システム | |
CN105956015A (zh) | 一种基于大数据的服务平台整合方法 | |
CN107391502B (zh) | 时间间隔的数据查询方法、装置及索引构建方法、装置 | |
CN104462185B (zh) | 一种基于混合结构的数字图书馆云存储系统 | |
US9922033B1 (en) | Systems and methods for efficiently extracting contents of container files | |
CN102750326A (zh) | 一种基于精简策略的集群系统的日志管理优化方法 | |
Liao et al. | Management and application of mobile big data | |
CN102929961A (zh) | 基于构建快速数据分级通道的数据处理方法及其装置 | |
CN114661810B (zh) | 轻量级多源异构数据融合方法及系统 | |
CN110570928A (zh) | 一种基于HBase和ozone的医疗影像文件存取方法 | |
CN104182465A (zh) | 一种基于网络的大数据处理方法 | |
CN102722368B (zh) | 一种基于文档树和消息泵的插件式软件设计方法 | |
Seo et al. | Big data framework for analyzing patents to support strategic R&D planning | |
CN105117824A (zh) | 用于项目管理的云服务系统 | |
Mao et al. | Geoai 2017 workshop report: the 1st acm sigspatial international workshop on geoai:@ ai and deep learning for geographic knowledge discovery: Redondo beach, ca, usa-november 7, 2016 | |
Fang et al. | Meteorological data analysis using mapreduce | |
CN104915415A (zh) | 一种分布式互联网数据采集解析系统 | |
CN104615734A (zh) | 一种社区管理服务大数据处理系统及其处理方法 | |
CN105245369B (zh) | 一种支持多传输协议的组件发布容器方法 | |
CN104008107A (zh) | 运维知识库的实现方法 | |
CN108073705B (zh) | 一种分布式海量数据聚合采集方法 | |
CN106127401B (zh) | 企业信息系统建模方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160831 |
|
RJ01 | Rejection of invention patent application after publication |