CN108415892A - 一种快速数据分析生成报表处理方法 - Google Patents

一种快速数据分析生成报表处理方法 Download PDF

Info

Publication number
CN108415892A
CN108415892A CN201810185330.0A CN201810185330A CN108415892A CN 108415892 A CN108415892 A CN 108415892A CN 201810185330 A CN201810185330 A CN 201810185330A CN 108415892 A CN108415892 A CN 108415892A
Authority
CN
China
Prior art keywords
report
processing method
generates
judgment
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810185330.0A
Other languages
English (en)
Inventor
陈街雄
王亚玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yi Mai Data Technology Co Ltd
Original Assignee
Shenzhen Yi Mai Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yi Mai Data Technology Co Ltd filed Critical Shenzhen Yi Mai Data Technology Co Ltd
Priority to CN201810185330.0A priority Critical patent/CN108415892A/zh
Publication of CN108415892A publication Critical patent/CN108415892A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种快速数据分析生成报表处理方法,属于数据分析技术领域。快速数据分析生成报表处理方法,包括:步骤1从日志列表中读取一日志文件;步骤2生成内存流文件;步骤3读一行数据,进行正则表达式分析并写入临时报表;步骤4判断是否到达流文件尾,如判断为是,则将临时报表写入硬盘中的报表列表,清空临时报表并进入步骤5;如果判断为否,则返回步骤3;步骤6判断是否到达日志列表尾部,如果判断为是,结束;如果判断为否,返回步骤1。本发明的快速数据分析生成报表处理方法与现有技术相比,占用内存少,分析速度快,尤其适合于大型企业快速生成数据报表使用。

Description

一种快速数据分析生成报表处理方法
技术领域
本发明具体涉及一种快速数据分析生成报表处理方法,属于数据分析技术领域。
背景技术
对于大型企业而言,在运营过程中产生大量的log文件。许多有用的信息蕴含其中,如此大的信息量如果不进行必要的数据清洗和挖掘,凭人工根本无法有效利用。
此类程序,不仅要求算法正确,更要求高效,往往同样是正确的程序,运行时间和对电脑的要求差别很大。
附图1为现有的一种生产报表的逻辑方案,这种方案的缺点是运行速度过慢,因为I/O操作次数=数据行数*报表数/2。一天的日志要进行几百万次的I/O操作,分析运行几个小时。
附图2为现有的另一种生产报表的逻辑方案,这种方案的缺点是内存100%占用,程序假死。原因是一天的日志分析,耗费大量的内存,对硬件要求过高,容易造成系统崩溃。
附图3为现有的另一种生产报表的逻辑方案,这种方案的运行速度有所提高,但是还是比较慢,原因是正则表达式分析长大字符串的效率不高。
发明内容
因此,本发明针对现有技术的上述问题,设计一种快速数据分析生成报表处理方法。
具体的,快速数据分析生成报表处理方法,所述方法包括:
步骤1 从日志列表中读取一日志文件;
步骤2 生成内存流文件;
步骤3 读一行数据,进行正则表达式分析并写入临时报表;
步骤4 判断是否到达流文件尾,如判断为是,则将临时报表写入硬盘中的报表列表,清空临时报表并进入步骤5;如果判断为否,则返回步骤3;
步骤6 判断是否到达日志列表尾部,如果判断为是,结束;如果判断为否,返回步骤1。
本发明的有益效果在于:本发明的快速数据分析生成报表处理方法与现有技术相比,占用内存少,分析速度快,尤其适合于大型企业快速生成数据报表使用。
附图说明
图1为背景技术中的第一种分析生成报表处理方法的逻辑图;
图2为背景技术中的第二种分析生成报表处理方法的逻辑图;
图3为背景技术中的第三种分析生成报表处理方法的逻辑图;
图4为本发明快速数据分析生成报表处理方法的逻辑图。
具体实施方式
下面结合附图对本发明的具体实施方式进行说明:
如图4所示。本实施例的使用背景与背景技术中相同,某交通企业行车log文件,平均每小时产生4万余条数据(10M左右文本文件),每日80~100万条数据,每月2500~3000万条数据。许多有用的信息蕴含其中,可以据此制定设备养护、维修计划,但如此大的信息量如果不进行必要的数据清洗和挖掘,凭人工根本无法有效利用。
此类程序,不仅要求算法正确,更要求高效,往往同样是正确的程序,运行时间和对电脑的要求差别很大。
通过使用本发明提供的处理方法,一台P4,2.8G CPU,512M内存的电脑中分析一天的数据占用内存50M,耗时30秒完成任务。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种快速数据分析生成报表处理方法,其特征在于,所述方法包括:
步骤1 从日志列表中读取一日志文件;
步骤2 生成内存流文件;
步骤3 读一行数据,进行正则表达式分析并写入临时报表;
步骤4 判断是否到达流文件尾,如判断为是,则将临时报表写入硬盘中的报表列表,清空临时报表并进入步骤5;如果判断为否,则返回步骤3;
步骤6 判断是否到达日志列表尾部,如果判断为是,结束;如果判断为否,返回步骤1。
CN201810185330.0A 2018-03-07 2018-03-07 一种快速数据分析生成报表处理方法 Pending CN108415892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810185330.0A CN108415892A (zh) 2018-03-07 2018-03-07 一种快速数据分析生成报表处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810185330.0A CN108415892A (zh) 2018-03-07 2018-03-07 一种快速数据分析生成报表处理方法

Publications (1)

Publication Number Publication Date
CN108415892A true CN108415892A (zh) 2018-08-17

Family

ID=63130220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810185330.0A Pending CN108415892A (zh) 2018-03-07 2018-03-07 一种快速数据分析生成报表处理方法

Country Status (1)

Country Link
CN (1) CN108415892A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1046980A2 (en) * 1999-04-19 2000-10-25 Research In Motion Limited Portable electronic device having a log-structured file system in flash memory
US20060074855A1 (en) * 2004-09-30 2006-04-06 Fujitsu Limited Apparatus and method for obtaining a log of information written on a recording medium and program therefor
CN103593440A (zh) * 2013-11-15 2014-02-19 北京国双科技有限公司 日志文件的读写方法及装置
CN106294866A (zh) * 2016-08-23 2017-01-04 北京奇虎科技有限公司 一种日志处理方法和装置
US9639544B1 (en) * 2013-10-28 2017-05-02 Pivotal Software, Inc. Table data persistence
US10754813B1 (en) * 2011-06-30 2020-08-25 Amazon Technologies, Inc. Methods and apparatus for block storage I/O operations in a storage gateway

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1046980A2 (en) * 1999-04-19 2000-10-25 Research In Motion Limited Portable electronic device having a log-structured file system in flash memory
US20060074855A1 (en) * 2004-09-30 2006-04-06 Fujitsu Limited Apparatus and method for obtaining a log of information written on a recording medium and program therefor
US10754813B1 (en) * 2011-06-30 2020-08-25 Amazon Technologies, Inc. Methods and apparatus for block storage I/O operations in a storage gateway
US9639544B1 (en) * 2013-10-28 2017-05-02 Pivotal Software, Inc. Table data persistence
CN103593440A (zh) * 2013-11-15 2014-02-19 北京国双科技有限公司 日志文件的读写方法及装置
CN106294866A (zh) * 2016-08-23 2017-01-04 北京奇虎科技有限公司 一种日志处理方法和装置

Similar Documents

Publication Publication Date Title
Hamilton et al. Investing exhaustible resource rents and the path of consumption
TWI412942B (zh) 跨越元資料合併之維持復原及取消復原能力
CN101887410B (zh) 文件转换装置、文件转换方法以及文件转换程序
CN103425519A (zh) 分布式计算方法和分布式计算系统
CN104112026A (zh) 一种短信文本分类方法及系统
CN102073706B (zh) 分布式文件存储系统和关系数据库的结合应用方法
CN101599140A (zh) 工作日志自动生成的系统及方法
CN108173704A (zh) 一种基于表征学习的网络流量分类的方法及装置
CN103699441A (zh) 基于任务粒度的MapReduce报表任务执行方法
CN103838645B (zh) 一种基于哈希的远程差异合成备份实现方法
CN102629250A (zh) 一种内存数据库重做日志文件的恢复方法
Pramod et al. Data stream mining: A review on windowing approach
US11726970B2 (en) Incremental transfer of database segments
CN112597353A (zh) 一种文本信息自动提取方法
CN108932271A (zh) 一种文件管理方法及装置
CN108415892A (zh) 一种快速数据分析生成报表处理方法
CN103440181A (zh) 一种文件修改的方法及系统
CN106126487A (zh) 一种日志文件拆分方法及装置
CN101957840B (zh) 一种mpi并行数据存储优化方法
CN103970874A (zh) 一种实现Hadoop文件处理的方法及装置
CN108573043B (zh) 业务过程死锁与缺乏同步错误的挖掘方法
CN102591978A (zh) 一种分布式文本拷贝检测系统
CN103761193A (zh) 抑制逻辑页碎片产生的方法及系统
Solodkyi Artificial intelligence implementation in ukrainian banks: perspectives and limitations
CN114840545B (zh) 一种支持状态快速更新的区块链细粒度编辑方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180817