CN105912735A - 一种文本文件的并行解析过滤方法 - Google Patents

一种文本文件的并行解析过滤方法 Download PDF

Info

Publication number
CN105912735A
CN105912735A CN201610483787.0A CN201610483787A CN105912735A CN 105912735 A CN105912735 A CN 105912735A CN 201610483787 A CN201610483787 A CN 201610483787A CN 105912735 A CN105912735 A CN 105912735A
Authority
CN
China
Prior art keywords
text
data
filtering method
parallel
parsed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610483787.0A
Other languages
English (en)
Inventor
孙凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201610483787.0A priority Critical patent/CN105912735A/zh
Publication of CN105912735A publication Critical patent/CN105912735A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种文本文件的并行解析过滤方法,涉及数据抽取转换技术,用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,进行文本文件的分类解析过滤。本发明通过配置数据模板及内置常用数据项实现文本文件的分类解析过滤,通过多线程入库hbase实现文本文件的分布式存储管理;增加了系统的可扩展性,同时使用了分类解析、存储、管理的方式,增强了文本数据解析过滤后的可用性。

Description

一种文本文件的并行解析过滤方法
技术领域
本发明涉及数据抽取转换技术,具体的说是一种文本文件的并行解析过滤方法。
背景技术
随着数据信息系统应用的不断发展,系统对应不同种类数据的解析、分类和管理能力的要求越来越高,由于很大一部分社会化数据信息以文本文件的方式存放,系统需要将此部分信息录入管理,比如:高校信息、生活信息(煤气/水电)、交通出行信息、求职就业信息等等。如何实现数据的高效提取、分类、管理,显得尤为重要。
为了更好的实现数据的高效提取管理,本发明提出了一种文本文件的并行解析过滤方法,实现文本文件与hbase数据库的转换,保证了文本数据的高效解析、分类、管理。
文本文件是一种计算机文件,存在于计算机文件系统中,是一种包含纯文本的容器。文本文件中文件的逻辑结构属于流式文件,是以ASCII码方式(也称文本方式)存储的文件。文本文件中除了存储文件有效字符信息外,不能存储其他任何信息。
HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力;不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种文本文件的并行解析过滤方法。
本发明所述一种文本文件的并行解析过滤方法,解决上述技术问题采用的技术方案如下:所述一种文本文件的并行解析过滤方法,用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,实现文本文件的分类解析过滤,进而实现了文本数据的更高效的解析、存储和管理。
优选的,所述文本文件的并行解析过滤方法,其主要包括如下步骤:创建数据模板,过滤文本文件类型,解析匹配数据,以及多线程入库hbase。
优选的,所述创建数据模板这一步骤,其主要内容包括,不同的用户能够自定义不同的数据模板,数据模板中内置常用的匹配数据项;解析文本文件时选择指定的数据模块。
优选的,所述过滤文本文件类型这一步骤,其主要内容包括,解析出不同的文本文件类型,然后将文本文件与数据模板中的常用数据项自动匹配。
优选的,若文本文件类型不匹配,则结束;若文本文件类型匹配,则上传文本文件。
优选的,所述解析匹配数据这一步骤,其主要内容包括,根据不同的文本文件类型解析过滤;首先匹配内置的常用数据类型,再匹配选定的数据模板,并作相应标记。
优选的,所述多线程入库hbase这一步骤,其主要内容包括,根据匹配的不同的数据类型,分多线程批量存储到hbase数据库。
本发明所述一种文本文件的并行解析过滤方法与现有技术相比具有的有益效果是:本发明通过配置数据模板及内置常用数据项实现文本文件的分类解析过滤,通过多线程入库hbase实现文本文件的分布式存储管理;由于使用了数据模板增加了系统的可扩展性,同时使用了分类解析、存储、管理的方式,增强了文本数据解析过滤后的可用性。
说明书附图
附图1为所述文本文件的并行解析过滤方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明所述一种文本文件的并行解析过滤方法进一步详细说明。
本发明公开了一种文本文件的并行解析过滤方法,用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,实现文本文件的分类解析过滤,进而实现了文本数据的更高效的解析、存储和管理。
实施例
本实施例所述一种文本文件的并行解析过滤方法,主要包括如下步骤:创建数据模板,过滤文本文件类型,解析匹配数据,以及多线程入库hbase。如附图1所示,该并行解析过滤方法的具体实施流程包括:
所述创建数据模板这一步骤,其主要内容是指,不同的用户能够自定义不同的数据模板,数据模板中内置常用的匹配数据项;解析文本文件时选择指定的数据模块,保证了可扩展性。
所述过滤文本文件类型这一步骤,其主要内容包括,解析出不同的文本文件类型,查看文本数据是否为csv、txt、excel2003、excel2007等等;然后将文本文件与数据模板中的常用数据项自动匹配;若文本文件类型不匹配,则结束;若文本文件类型匹配,则上传文本文件。
所述解析匹配数据这一步骤,其主要内容包括,根据不同的文本文件类型解析过滤,首先匹配内置的常用数据类型,再匹配选定的数据模板,并作相应标记。
所述多线程入库hbase这一步骤,其主要内容包括,根据匹配的不同的数据类型,分多线程批量存储到hbase数据库。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (7)

1.一种文本文件的并行解析过滤方法,其特征在于, 用于文本文件与hbase数据库的转换,通过配置数据模板及内置常用数据项,在解析出不同的文本文件类型后进行匹配解析,使得文本文件与数据模板中的常用数据项自动匹配;最后按照不同的数据分类存储到hbase数据库,进行文本文件的分类解析过滤。
2.根据权利要求1所述一种文本文件的并行解析过滤方法,其特征在于, 所述文本文件的并行解析过滤方法,其主要包括如下步骤:创建数据模板,过滤文本文件类型,解析匹配数据,以及多线程入库hbase。
3.根据权利要求2所述一种文本文件的并行解析过滤方法,其特征在于, 所述创建数据模板这一步骤,其主要内容包括,不同的用户能够自定义不同的数据模板,数据模板中内置常用的匹配数据项;解析文本文件时选择指定的数据模块。
4.根据权利要求3所述一种文本文件的并行解析过滤方法,其特征在于, 所述过滤文本文件类型这一步骤,其主要内容包括,解析出不同的文本文件类型,然后将文本文件与数据模板中的常用数据项自动匹配。
5.根据权利要求4所述一种文本文件的并行解析过滤方法,其特征在于, 若文本文件类型不匹配,则结束;若文本文件类型匹配,则上传文本文件。
6.根据权利要求5所述一种文本文件的并行解析过滤方法,其特征在于, 所述解析匹配数据这一步骤,其主要内容包括,根据不同的文本文件类型解析过滤;首先匹配内置的常用数据类型,再匹配选定的数据模板,并作相应标记。
7.根据权利要求6所述一种文本文件的并行解析过滤方法,其特征在于, 所述多线程入库hbase这一步骤,其主要内容包括,根据匹配的不同的数据类型,分多线程批量存储到hbase数据库。
CN201610483787.0A 2016-06-28 2016-06-28 一种文本文件的并行解析过滤方法 Pending CN105912735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610483787.0A CN105912735A (zh) 2016-06-28 2016-06-28 一种文本文件的并行解析过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610483787.0A CN105912735A (zh) 2016-06-28 2016-06-28 一种文本文件的并行解析过滤方法

Publications (1)

Publication Number Publication Date
CN105912735A true CN105912735A (zh) 2016-08-31

Family

ID=56759745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610483787.0A Pending CN105912735A (zh) 2016-06-28 2016-06-28 一种文本文件的并行解析过滤方法

Country Status (1)

Country Link
CN (1) CN105912735A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040040A (zh) * 2017-11-30 2018-05-15 北京锐安科技有限公司 一种应用协议报文的自动化解析方法和装置
CN108241642A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 文件解析方法和装置
CN109992645A (zh) * 2019-03-29 2019-07-09 国家计算机网络与信息安全管理中心 一种基于文本数据的资料管理系统及方法
CN111880838A (zh) * 2020-08-03 2020-11-03 北京神舟航天软件技术有限公司 一种基于模板匹配技术的数据解析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216835A (zh) * 2007-12-29 2008-07-09 北京大学 一种数据文档转换方法及装置
CN103177045A (zh) * 2011-12-26 2013-06-26 中国移动通信集团广东有限公司 文本解析方法及装置
CN103970874A (zh) * 2014-05-14 2014-08-06 浪潮(北京)电子信息产业有限公司 一种实现Hadoop文件处理的方法及装置
CN104123376A (zh) * 2014-07-29 2014-10-29 广东能龙教育股份有限公司 一种基于列模板的智能文本数据采集方法和系统
CN105320739A (zh) * 2015-09-22 2016-02-10 深圳市永兴元科技有限公司 信息提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216835A (zh) * 2007-12-29 2008-07-09 北京大学 一种数据文档转换方法及装置
CN103177045A (zh) * 2011-12-26 2013-06-26 中国移动通信集团广东有限公司 文本解析方法及装置
CN103970874A (zh) * 2014-05-14 2014-08-06 浪潮(北京)电子信息产业有限公司 一种实现Hadoop文件处理的方法及装置
CN104123376A (zh) * 2014-07-29 2014-10-29 广东能龙教育股份有限公司 一种基于列模板的智能文本数据采集方法和系统
CN105320739A (zh) * 2015-09-22 2016-02-10 深圳市永兴元科技有限公司 信息提取方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241642A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 文件解析方法和装置
CN108241642B (zh) * 2016-12-23 2021-03-30 北京国双科技有限公司 文件解析方法和装置
CN108040040A (zh) * 2017-11-30 2018-05-15 北京锐安科技有限公司 一种应用协议报文的自动化解析方法和装置
CN109992645A (zh) * 2019-03-29 2019-07-09 国家计算机网络与信息安全管理中心 一种基于文本数据的资料管理系统及方法
CN109992645B (zh) * 2019-03-29 2021-05-14 国家计算机网络与信息安全管理中心 一种基于文本数据的资料管理系统及方法
CN111880838A (zh) * 2020-08-03 2020-11-03 北京神舟航天软件技术有限公司 一种基于模板匹配技术的数据解析方法
CN111880838B (zh) * 2020-08-03 2024-04-12 北京神舟航天软件技术有限公司 一种基于模板匹配技术的数据解析方法

Similar Documents

Publication Publication Date Title
CN105912735A (zh) 一种文本文件的并行解析过滤方法
US10572494B2 (en) Bootstrapping the data lake and glossaries with ‘dataset joins’ metadata from existing application patterns
Das et al. Big data analytics: A framework for unstructured data analysis
JP6521978B2 (ja) 対話型事案管理システム
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN107391502B (zh) 时间间隔的数据查询方法、装置及索引构建方法、装置
CN104462185B (zh) 一种基于混合结构的数字图书馆云存储系统
US9922033B1 (en) Systems and methods for efficiently extracting contents of container files
CN102750326A (zh) 一种基于精简策略的集群系统的日志管理优化方法
Liao et al. Management and application of mobile big data
CN102929961A (zh) 基于构建快速数据分级通道的数据处理方法及其装置
CN114661810B (zh) 轻量级多源异构数据融合方法及系统
CN110570928A (zh) 一种基于HBase和ozone的医疗影像文件存取方法
CN104182465A (zh) 一种基于网络的大数据处理方法
CN102722368B (zh) 一种基于文档树和消息泵的插件式软件设计方法
Seo et al. Big data framework for analyzing patents to support strategic R&D planning
CN105117824A (zh) 用于项目管理的云服务系统
Mao et al. Geoai 2017 workshop report: the 1st acm sigspatial international workshop on geoai:@ ai and deep learning for geographic knowledge discovery: Redondo beach, ca, usa-november 7, 2016
Fang et al. Meteorological data analysis using mapreduce
CN104915415A (zh) 一种分布式互联网数据采集解析系统
CN104615734A (zh) 一种社区管理服务大数据处理系统及其处理方法
CN105245369B (zh) 一种支持多传输协议的组件发布容器方法
CN104008107A (zh) 运维知识库的实现方法
CN108073705B (zh) 一种分布式海量数据聚合采集方法
CN106127401B (zh) 企业信息系统建模方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831

RJ01 Rejection of invention patent application after publication