CN104361022A - 一种基于采集数据统计以及前台展现的方法 - Google Patents

一种基于采集数据统计以及前台展现的方法 Download PDF

Info

Publication number
CN104361022A
CN104361022A CN201410564773.2A CN201410564773A CN104361022A CN 104361022 A CN104361022 A CN 104361022A CN 201410564773 A CN201410564773 A CN 201410564773A CN 104361022 A CN104361022 A CN 104361022A
Authority
CN
China
Prior art keywords
data
database
space
data acquisition
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410564773.2A
Other languages
English (en)
Inventor
何嘉
王传超
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201410564773.2A priority Critical patent/CN104361022A/zh
Publication of CN104361022A publication Critical patent/CN104361022A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于采集数据统计以及前台展现的方法,该技术适用于后台数据的页面展现。目前,在大数据、云计算的广泛应用下,服务器采集的数据都需要对各种类型、区域、行业、时间等众多条件进行种种分类,加大了对数据库的查询量,如有更加模糊的查询条件会对数据库造成无法估计的影响,这就需要大量的人工和硬件配置来支撑该操作。通过该数据统计的方法,可减轻数据库的统计压力以及人工的工作量,又可避免因操作问题造成对工作以及硬件的影响。

Description

一种基于采集数据统计以及前台展现的方法
技术领域
本发明涉及计算机应用领域,具体地说是一种基于采集数据统计以及前台展现的方法。本方案适用于对数据的统计、分析和对客户的展现,涉及到Oracle数据库。
背景技术
随着数据量的增长,对数据的整理、查询、统计分析的需求增加,大数据应用的发展,数据库面临的压力和挑战与日俱增。随之而来的是,如何让所管理的数据库能承受因需求增长而带来的压力,以及如何能更好地管理数据库,更好地优化等等这方面工作已经成为大数据中最棘手的问题。以Oracle数据库为例,如今面临CPU瓶颈、较小的内存、I/O吞吐能力差、时常短暂的性能下降等问题,在程序方面,应用程序和页面实时展示方面都面临瓶颈。在此背景之下,该方案能够解决针对数据量大、分项种类多的统计以及展现时间长、速度慢的问题。
发明内容
本发明的目的是提供一种基于采集数据统计以及前台展现的方法。
本发明的目的是按以下方式实现的,数据采集主要是通过对数据库配置后,对各个网站的采集程序进行定时操作,包括对软件登录、软件中各个模块的数据采集并清洗,程序将数据采集清洗后,数据库定时任务会按时将数据进行分类汇总并生成相关表,确保在统计查询时能够及时响应页面并给与反馈,提供详细的数据分析报表和图表,具体步骤如下:
1)配置数据库:通过配置jdbc连接数据库,创建索引专用的表空间,根据系统用户数量、用户并发量,调整表空间大小、数据库processes和sessions值,同时需注意表空间不宜一次创建过大,可根据磁盘可用空间与数据量增长速度进行估算,设置自动扩展空间;
2)创建字段索引:根据查询、统计条件创建字段索引,并将索引创建在专用表空间中;
3)数据采集:通过手工方式或定时任务TimeTask来进行对各个网站的信息进行数据采集,并将采集的数据保存在Temp临时表中;
4)数据清洗:使用SQL脚本对采集的数据进行数据清洗,主要包括格式、冗余数据、异常数据的整理,并将整理后的数据进行分类储存;
5)页面展示:前台页面可通过查询功能对应的表进行快速的展现,解决了报表生成时间长、速度慢,同时对数据库的I/O压力有所减轻。
本发明的有益效果是:该技术适用于后台数据的页面展现。目前,在大数据、云计算的广泛应用下,服务器采集的数据都需要对各种类型、区域、行业、时间等众多条件进行种种分类,加大了对数据库的查询量,如有更加模糊的查询条件会对数据库造成无法估计的影响,这就需要大量的人工和硬件配置来支撑该操作。通过该数据统计的方法,可减轻数据库的统计压力以及人工的工作量,又可避免因操作问题造成对工作以及硬件的影响。
附图说明
图1是本发明的原理图;
图2是系统结构示意图;
图3是系统流程图。 
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
数据采集主要是通过对数据库配置后,对各个网站的采集程序进行定时操作,包括对软件登录、软件中各个模块的数据采集并清洗等。
程序将数据采集清洗后,数据库定时任务会按时将数据进行分类汇总并生成相关表,确保在统计查询时能够及时响应页面并给与反馈,提供详细的数据分析报表和图表。具体步骤如下:
1)配置数据库:通过配置jdbc连接数据库,创建索引专用的表空间,调整表空间大小、数据库processes和sessions值(根据系统用户数量、用户并发量),同时需注意表空间不宜一次创建过大,可根据磁盘可用空间与数据量增长速度进行估算,设置自动扩展空间;
2)创建字段索引:根据查询、统计条件创建字段索引,并将索引创建在专用表空间中;
3)数据采集:通过手工方式或定时任务TimeTask来进行对各个网站的信息进行数据采集,并将采集的数据保存在Temp临时表中;
4)数据清洗:使用SQL脚本对采集的数据进行数据清洗,主要包括格式、冗余数据、异常数据等整理,并将整理后的数据进行分类储存;
5)页面展示:前台页面可通过查询功能对应的表进行快速的展现,解决了报表生成时间长、速度慢,同时对数据库的I/O压力有所减轻。
实施例
第一步,通过jdbc连接数据库,配置数据库相关参数、创建索引表空间。根据查询、统计条件在相关表中建立字段索引。
第二步, 通过采集系统对各个网站的信息进行数据采集,并将采集后的数据通过jdbc连接存储到数据库临时表中。
第三步,数据清洗程序对采集的数据进行格式、异常、冗余等处理后进行整理,将相关数据在数据库中按照统计条件分类生成表并保存,使用索引进行相关统计和报表的生成。
第四步,前台页面可通过jdbc连接数据库查询相应的表并进行快速的展现,从而实现快速展现和统计。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种基于采集数据统计以及前台展现的方法, 其特征在于数据采集主要是通过对数据库配置后,对各个网站的采集程序进行定时操作,包括对软件登录、软件中各个模块的数据采集并清洗,程序将数据采集清洗后,数据库定时任务会按时将数据进行分类汇总并生成相关表,确保在统计查询时能够及时响应页面并给与反馈,提供详细的数据分析报表和图表,具体步骤如下:
1)配置数据库:通过配置jdbc连接数据库,创建索引专用的表空间,根据系统用户数量、用户并发量,调整表空间大小、数据库processes和sessions值,同时需注意表空间不宜一次创建过大,可根据磁盘可用空间与数据量增长速度进行估算,设置自动扩展空间;
2)创建字段索引:根据查询、统计条件创建字段索引,并将索引创建在专用表空间中;
3)数据采集:通过手工方式或定时任务TimeTask来进行对各个网站的信息进行数据采集,并将采集的数据保存在Temp临时表中;
4)数据清洗:使用SQL脚本对采集的数据进行数据清洗,主要包括格式、冗余数据、异常数据的整理,并将整理后的数据进行分类储存;
5)页面展示:前台页面可通过查询功能对应的表进行快速的展现,解决了报表生成时间长、速度慢,同时对数据库的I/O压力有所减轻。
CN201410564773.2A 2014-10-22 2014-10-22 一种基于采集数据统计以及前台展现的方法 Pending CN104361022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410564773.2A CN104361022A (zh) 2014-10-22 2014-10-22 一种基于采集数据统计以及前台展现的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410564773.2A CN104361022A (zh) 2014-10-22 2014-10-22 一种基于采集数据统计以及前台展现的方法

Publications (1)

Publication Number Publication Date
CN104361022A true CN104361022A (zh) 2015-02-18

Family

ID=52528284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410564773.2A Pending CN104361022A (zh) 2014-10-22 2014-10-22 一种基于采集数据统计以及前台展现的方法

Country Status (1)

Country Link
CN (1) CN104361022A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636245A (zh) * 2015-03-09 2015-05-20 浪潮集团有限公司 一种基于实时更新的用户浏览行为采集方式
CN104850361A (zh) * 2015-06-01 2015-08-19 广东电网有限责任公司信息中心 一种数据清洗方法及系统
CN105005604A (zh) * 2015-07-06 2015-10-28 苏州金立方通讯科技有限公司 一种大数据系统
CN105338107A (zh) * 2015-11-20 2016-02-17 上海斐讯数据通信技术有限公司 一种据点运营同步管理系统及方法
CN106339244A (zh) * 2016-08-30 2017-01-18 中国银行股份有限公司 一种实现统计信息收集的方法及装置
CN106354823A (zh) * 2016-08-30 2017-01-25 北京旷视科技有限公司 汇总人脸比对系统的操作数据的方法、装置及系统
CN106599267A (zh) * 2016-12-22 2017-04-26 北京锐安科技有限公司 一种删除数据的方法及装置
CN106681669A (zh) * 2017-01-25 2017-05-17 郑州云海信息技术有限公司 一种虚拟磁盘扩容的方法、装置和系统
CN107193711A (zh) * 2017-05-26 2017-09-22 郑州云海信息技术有限公司 一种服务器诊断结果的统计分析方法
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
WO2019006634A1 (zh) * 2017-07-04 2019-01-10 深圳齐心集团股份有限公司 一种计算机大数据存储系统
CN109445896A (zh) * 2018-10-29 2019-03-08 北京云测信息技术有限公司 一种智能终端用户界面数据采集系统及方法
CN110032587A (zh) * 2019-04-17 2019-07-19 上海圣剑网络科技股份有限公司 数据汇总方法、装置、计算机设备和存储介质
CN110688543A (zh) * 2019-09-25 2020-01-14 广东电网有限责任公司 一种变电站的快速查询系统及方法
CN114385663A (zh) * 2022-03-23 2022-04-22 北京国联政信科技有限公司 数据处理的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675603A (zh) * 2002-08-20 2005-09-28 东京毅力科创株式会社 基于数据上下文处理数据的方法
US20080222221A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Reducing database fragmentation
CN103279567A (zh) * 2013-06-18 2013-09-04 重庆邮电大学 一种基于AJAX的Web数据采集方法及系统
CN103810283A (zh) * 2014-02-20 2014-05-21 东莞中国科学院云计算产业技术创新与育成中心 一种基于用户关联关系的微博数据采集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675603A (zh) * 2002-08-20 2005-09-28 东京毅力科创株式会社 基于数据上下文处理数据的方法
US20080222221A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Reducing database fragmentation
CN103279567A (zh) * 2013-06-18 2013-09-04 重庆邮电大学 一种基于AJAX的Web数据采集方法及系统
CN103810283A (zh) * 2014-02-20 2014-05-21 东莞中国科学院云计算产业技术创新与育成中心 一种基于用户关联关系的微博数据采集方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯坤: ""烟草一号工程中DB2的性能优化及应用性研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
刘志瑛: ""金融资讯云平台数据采集和分析系统的研究和设计"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636245A (zh) * 2015-03-09 2015-05-20 浪潮集团有限公司 一种基于实时更新的用户浏览行为采集方式
CN104850361A (zh) * 2015-06-01 2015-08-19 广东电网有限责任公司信息中心 一种数据清洗方法及系统
CN105005604A (zh) * 2015-07-06 2015-10-28 苏州金立方通讯科技有限公司 一种大数据系统
CN105338107A (zh) * 2015-11-20 2016-02-17 上海斐讯数据通信技术有限公司 一种据点运营同步管理系统及方法
CN106339244A (zh) * 2016-08-30 2017-01-18 中国银行股份有限公司 一种实现统计信息收集的方法及装置
CN106354823A (zh) * 2016-08-30 2017-01-25 北京旷视科技有限公司 汇总人脸比对系统的操作数据的方法、装置及系统
CN106599267B (zh) * 2016-12-22 2020-12-08 北京锐安科技有限公司 一种删除数据的方法及装置
CN106599267A (zh) * 2016-12-22 2017-04-26 北京锐安科技有限公司 一种删除数据的方法及装置
CN106681669A (zh) * 2017-01-25 2017-05-17 郑州云海信息技术有限公司 一种虚拟磁盘扩容的方法、装置和系统
CN107193711A (zh) * 2017-05-26 2017-09-22 郑州云海信息技术有限公司 一种服务器诊断结果的统计分析方法
WO2019006634A1 (zh) * 2017-07-04 2019-01-10 深圳齐心集团股份有限公司 一种计算机大数据存储系统
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN109445896A (zh) * 2018-10-29 2019-03-08 北京云测信息技术有限公司 一种智能终端用户界面数据采集系统及方法
CN109445896B (zh) * 2018-10-29 2021-04-30 北京云测信息技术有限公司 一种智能终端用户界面数据采集系统及方法
CN110032587A (zh) * 2019-04-17 2019-07-19 上海圣剑网络科技股份有限公司 数据汇总方法、装置、计算机设备和存储介质
CN110688543A (zh) * 2019-09-25 2020-01-14 广东电网有限责任公司 一种变电站的快速查询系统及方法
CN114385663A (zh) * 2022-03-23 2022-04-22 北京国联政信科技有限公司 数据处理的方法和装置
CN114385663B (zh) * 2022-03-23 2022-06-28 北京国联政信科技有限公司 数据处理的方法和装置

Similar Documents

Publication Publication Date Title
CN104361022A (zh) 一种基于采集数据统计以及前台展现的方法
US11941017B2 (en) Event driven extract, transform, load (ETL) processing
US11347740B2 (en) Managed query execution platform, and methods thereof
WO2020233212A1 (zh) 一种日志记录的处理方法、服务器及存储介质
JP6388655B2 (ja) 選択性用データビットインターリーブによるリレーショナルデータベースのマルチカラムインデックスの生成
CN105512336A (zh) 一种基于Hadoop的海量数据处理方法和装置
CN102724059A (zh) 基于MapReduce的网站运行状态监控与异常检测
CN106156047B (zh) 一种快照信息处理方法及装置
CN105320757A (zh) 一种快速处理数据的商业智能分析方法
Williams et al. Bridging high velocity and high volume industrial big data through distributed in-memory storage & analytics
WO2015094269A1 (en) Hybrid flows containing a continuous flow
WO2015041731A1 (en) Interest-driven business intelligence systems including segment data
CN104915460A (zh) 一种日志存储方法及系统
Dagade et al. Big data weather analytics using hadoop
CN103117878A (zh) 一种基于Nagios的分布式监控系统的设计方法
CN102609501A (zh) 一种基于实时历史数据库的数据清洗方法
CN104573074A (zh) 基于医院数据的高速计算分析方法
CN103823881A (zh) 分布式数据库的性能优化的方法及装置
CN104346378B (zh) 一种实现复杂数据处理的方法、装置及系统
Liu et al. System anomaly detection in distributed systems through MapReduce-Based log analysis
Fiannaca et al. Benchmarking of relational and nosql databases to determine constraints for querying robot execution logs
CN103617171A (zh) 一种海量历史数据快速查询系统
SABTU et al. THE CHALLENGES OF EXTRACT, TRANSFORM AND LOAD (ETL) FOR DATA INTEGRATION IN NEAR REALTIME ENVIRONMENT.
EP2990895B1 (en) Industrial monitoring system
US20160292230A1 (en) Identifying a path in a workload that may be associated with a deviation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150218