CN108415892A - 一种快速数据分析生成报表处理方法 - Google Patents
一种快速数据分析生成报表处理方法 Download PDFInfo
- Publication number
- CN108415892A CN108415892A CN201810185330.0A CN201810185330A CN108415892A CN 108415892 A CN108415892 A CN 108415892A CN 201810185330 A CN201810185330 A CN 201810185330A CN 108415892 A CN108415892 A CN 108415892A
- Authority
- CN
- China
- Prior art keywords
- report
- processing method
- generates
- judgment
- data analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种快速数据分析生成报表处理方法,属于数据分析技术领域。快速数据分析生成报表处理方法,包括:步骤1从日志列表中读取一日志文件;步骤2生成内存流文件;步骤3读一行数据,进行正则表达式分析并写入临时报表;步骤4判断是否到达流文件尾,如判断为是,则将临时报表写入硬盘中的报表列表,清空临时报表并进入步骤5;如果判断为否,则返回步骤3;步骤6判断是否到达日志列表尾部,如果判断为是,结束;如果判断为否,返回步骤1。本发明的快速数据分析生成报表处理方法与现有技术相比,占用内存少,分析速度快,尤其适合于大型企业快速生成数据报表使用。
Description
技术领域
本发明具体涉及一种快速数据分析生成报表处理方法,属于数据分析技术领域。
背景技术
对于大型企业而言,在运营过程中产生大量的log文件。许多有用的信息蕴含其中,如此大的信息量如果不进行必要的数据清洗和挖掘,凭人工根本无法有效利用。
此类程序,不仅要求算法正确,更要求高效,往往同样是正确的程序,运行时间和对电脑的要求差别很大。
附图1为现有的一种生产报表的逻辑方案,这种方案的缺点是运行速度过慢,因为I/O操作次数=数据行数*报表数/2。一天的日志要进行几百万次的I/O操作,分析运行几个小时。
附图2为现有的另一种生产报表的逻辑方案,这种方案的缺点是内存100%占用,程序假死。原因是一天的日志分析,耗费大量的内存,对硬件要求过高,容易造成系统崩溃。
附图3为现有的另一种生产报表的逻辑方案,这种方案的运行速度有所提高,但是还是比较慢,原因是正则表达式分析长大字符串的效率不高。
发明内容
因此,本发明针对现有技术的上述问题,设计一种快速数据分析生成报表处理方法。
具体的,快速数据分析生成报表处理方法,所述方法包括:
步骤1 从日志列表中读取一日志文件;
步骤2 生成内存流文件;
步骤3 读一行数据,进行正则表达式分析并写入临时报表;
步骤4 判断是否到达流文件尾,如判断为是,则将临时报表写入硬盘中的报表列表,清空临时报表并进入步骤5;如果判断为否,则返回步骤3;
步骤6 判断是否到达日志列表尾部,如果判断为是,结束;如果判断为否,返回步骤1。
本发明的有益效果在于:本发明的快速数据分析生成报表处理方法与现有技术相比,占用内存少,分析速度快,尤其适合于大型企业快速生成数据报表使用。
附图说明
图1为背景技术中的第一种分析生成报表处理方法的逻辑图;
图2为背景技术中的第二种分析生成报表处理方法的逻辑图;
图3为背景技术中的第三种分析生成报表处理方法的逻辑图;
图4为本发明快速数据分析生成报表处理方法的逻辑图。
具体实施方式
下面结合附图对本发明的具体实施方式进行说明:
如图4所示。本实施例的使用背景与背景技术中相同,某交通企业行车log文件,平均每小时产生4万余条数据(10M左右文本文件),每日80~100万条数据,每月2500~3000万条数据。许多有用的信息蕴含其中,可以据此制定设备养护、维修计划,但如此大的信息量如果不进行必要的数据清洗和挖掘,凭人工根本无法有效利用。
此类程序,不仅要求算法正确,更要求高效,往往同样是正确的程序,运行时间和对电脑的要求差别很大。
通过使用本发明提供的处理方法,一台P4,2.8G CPU,512M内存的电脑中分析一天的数据占用内存50M,耗时30秒完成任务。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (1)
1.一种快速数据分析生成报表处理方法,其特征在于,所述方法包括:
步骤1 从日志列表中读取一日志文件;
步骤2 生成内存流文件;
步骤3 读一行数据,进行正则表达式分析并写入临时报表;
步骤4 判断是否到达流文件尾,如判断为是,则将临时报表写入硬盘中的报表列表,清空临时报表并进入步骤5;如果判断为否,则返回步骤3;
步骤6 判断是否到达日志列表尾部,如果判断为是,结束;如果判断为否,返回步骤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810185330.0A CN108415892A (zh) | 2018-03-07 | 2018-03-07 | 一种快速数据分析生成报表处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810185330.0A CN108415892A (zh) | 2018-03-07 | 2018-03-07 | 一种快速数据分析生成报表处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108415892A true CN108415892A (zh) | 2018-08-17 |
Family
ID=63130220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810185330.0A Pending CN108415892A (zh) | 2018-03-07 | 2018-03-07 | 一种快速数据分析生成报表处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108415892A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1046980A2 (en) * | 1999-04-19 | 2000-10-25 | Research In Motion Limited | Portable electronic device having a log-structured file system in flash memory |
US20060074855A1 (en) * | 2004-09-30 | 2006-04-06 | Fujitsu Limited | Apparatus and method for obtaining a log of information written on a recording medium and program therefor |
CN103593440A (zh) * | 2013-11-15 | 2014-02-19 | 北京国双科技有限公司 | 日志文件的读写方法及装置 |
CN106294866A (zh) * | 2016-08-23 | 2017-01-04 | 北京奇虎科技有限公司 | 一种日志处理方法和装置 |
US9639544B1 (en) * | 2013-10-28 | 2017-05-02 | Pivotal Software, Inc. | Table data persistence |
US10754813B1 (en) * | 2011-06-30 | 2020-08-25 | Amazon Technologies, Inc. | Methods and apparatus for block storage I/O operations in a storage gateway |
-
2018
- 2018-03-07 CN CN201810185330.0A patent/CN108415892A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1046980A2 (en) * | 1999-04-19 | 2000-10-25 | Research In Motion Limited | Portable electronic device having a log-structured file system in flash memory |
US20060074855A1 (en) * | 2004-09-30 | 2006-04-06 | Fujitsu Limited | Apparatus and method for obtaining a log of information written on a recording medium and program therefor |
US10754813B1 (en) * | 2011-06-30 | 2020-08-25 | Amazon Technologies, Inc. | Methods and apparatus for block storage I/O operations in a storage gateway |
US9639544B1 (en) * | 2013-10-28 | 2017-05-02 | Pivotal Software, Inc. | Table data persistence |
CN103593440A (zh) * | 2013-11-15 | 2014-02-19 | 北京国双科技有限公司 | 日志文件的读写方法及装置 |
CN106294866A (zh) * | 2016-08-23 | 2017-01-04 | 北京奇虎科技有限公司 | 一种日志处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hamilton et al. | Investing exhaustible resource rents and the path of consumption | |
TWI412942B (zh) | 跨越元資料合併之維持復原及取消復原能力 | |
CN101887410B (zh) | 文件转换装置、文件转换方法以及文件转换程序 | |
CN103425519A (zh) | 分布式计算方法和分布式计算系统 | |
CN104112026A (zh) | 一种短信文本分类方法及系统 | |
CN102073706B (zh) | 分布式文件存储系统和关系数据库的结合应用方法 | |
CN101599140A (zh) | 工作日志自动生成的系统及方法 | |
CN108173704A (zh) | 一种基于表征学习的网络流量分类的方法及装置 | |
CN103699441A (zh) | 基于任务粒度的MapReduce报表任务执行方法 | |
CN103838645B (zh) | 一种基于哈希的远程差异合成备份实现方法 | |
CN102629250A (zh) | 一种内存数据库重做日志文件的恢复方法 | |
Pramod et al. | Data stream mining: A review on windowing approach | |
US11726970B2 (en) | Incremental transfer of database segments | |
CN112597353A (zh) | 一种文本信息自动提取方法 | |
CN108932271A (zh) | 一种文件管理方法及装置 | |
CN108415892A (zh) | 一种快速数据分析生成报表处理方法 | |
CN103440181A (zh) | 一种文件修改的方法及系统 | |
CN106126487A (zh) | 一种日志文件拆分方法及装置 | |
CN101957840B (zh) | 一种mpi并行数据存储优化方法 | |
CN103970874A (zh) | 一种实现Hadoop文件处理的方法及装置 | |
CN108573043B (zh) | 业务过程死锁与缺乏同步错误的挖掘方法 | |
CN102591978A (zh) | 一种分布式文本拷贝检测系统 | |
CN103761193A (zh) | 抑制逻辑页碎片产生的方法及系统 | |
Solodkyi | Artificial intelligence implementation in ukrainian banks: perspectives and limitations | |
CN114840545B (zh) | 一种支持状态快速更新的区块链细粒度编辑方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |