CN106354770A - 一种数据分析系统 - Google Patents
一种数据分析系统 Download PDFInfo
- Publication number
- CN106354770A CN106354770A CN201610699387.3A CN201610699387A CN106354770A CN 106354770 A CN106354770 A CN 106354770A CN 201610699387 A CN201610699387 A CN 201610699387A CN 106354770 A CN106354770 A CN 106354770A
- Authority
- CN
- China
- Prior art keywords
- data
- subsystem
- analysis system
- acquisition
- acquisition module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据分析系统,包括数据采集子系统、数据存储子系统、数据处理子系统、数据分析子系统和数据呈现子系统;数据采集子系统用于采集数据并将数据传送到数据存储子系统;数据存储子系统用于存储数据采集子系统采集的数据;数据处理子系统用于清洗、转化、提取和计算数据存储子系统中的数据;数据分析子系统用于对数据处理子系统处理后的数据进行统计分析和深度挖掘;数据呈现子系统用于以表格、图片和文字的形式呈现数据分析子系统处理后的数据。本发明通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。
Description
本发明涉及一种分析系统,更详细地,涉及一种数据分析系统。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
数据多样化的形成主要有两方面的原因:一是数据来源多,有搜索引擎、社交网络、通话记录、传感器等等;二是数据格式多,有结构数据、半结构数据和非结构数据。据相关数据统计,每秒钟人们发送290封电子邮件;亚马逊处理72.9笔订单;每分钟人们在YouTube上传20小时的视频;每月人们总共在facebook上浏览7000亿分钟。
目前的数据分析面临的问题是数据量大、多种结构形式和实时性等多样化要求,这些问题增加了数据采集和整合困难,传统的基于块和文件的存储系统的架构设计已无法满足数据分析的需要。
发明内容
本发明的目的是克服现有技术的不足,提供一种数据分析系统,该系统可以对数据进行采集、存储、分析、处理和呈现,达到数据整合的目的。
一种数据分析系统,包括数据采集子系统、数据存储子系统、数据处理子系统、数据分析子系统和数据呈现子系统;所述数据采集子系统用于采集数据并将数据传送到数据存储子系统;所述数据存储子系统用于存储数据采集子系统采集的数据;所述数据处理子系统用于清洗、转化、提取和计算数据存储子系统中的数据;所述数据分析子系统用于对数据处理子系统处理后的数据进行统计分析和深度挖掘;所述数据呈现子系统用于以表格、图片和文字的形式呈现数据分析子系统处理后的数据。本发明通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。
进一步地,所述数据采集子系统包括硬件部分和软件部分。本发明通过硬件系统和软件系统同时采集数据,使采集的数据范围大、来源广,增加数据分析的可靠性。
进一步地,所述软件部分包括系统日志采集模块、网络数据采集模块和其他数据采集模块;所述日志采集模块为基于插件的模式,构建适应业务场景的采集插件,系统会根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库;所述网络数据采集模块通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件。所述其他数据采集模块通过与企业或研究机构合作,使用特定系统接口的方式采集数据。本发明的日志采集模块采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求;网络数据采集模块支持图片、音频和视频等文件或附件的采集,附件与正文可以自动关联;其他数据采集模块主要是针对企业生产经营数据或学科研究数据等保密性要求较高的数据,使用特定系统接口提高数据安全性。
进一步地,所述硬件部分包括依次连接的传感器、前置放大器、滤波器、多路模拟开关、采样保持器、A/D转换器和计算机系统。传感器包括各种类型的传感器,可以对图像、声音、温度等等数据进行采集,加强数据来源的完整性。
本发明的有益效果在于:
1、本发明通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。
2、通过硬件系统和软件系统同时采集数据,使采集的数据范围大、来源广,增加数据分析的可靠性。
3、本发明的日志采集模块采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求;网络数据采集模块支持图片、音频和视频等文件或附件的采集,附件与正文可以自动关联;其他数据采集模块主要是针对企业生产经营数据或学科研究数据等保密性要求较高的数据,使用特定系统接口提高数据安全性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本实施例提供一种数据分析系统,包括数据采集子系统、数据存储子系统、数据处理子系统、数据分析子系统和数据呈现子系统;数据采集子系统用于采集数据并将数据传送到数据存储子系统;数据存储子系统用于存储数据采集子系统采集的数据;数据处理子系统用于清洗、转化、提取和计算数据存储子系统中的数据;数据分析子系统用于对数据处理子系统处理后的数据进行统计分析和深度挖掘;数据呈现子系统用于以表格、图片和文字的形式呈现数据分析子系统处理后的数据;数据采集子系统包括硬件部分和软件部分,软件部分包括系统日志采集模块、网络数据采集模块和其他数据采集模块,
日志采集模块为基于插件的模式,构建适应业务场景的采集插件,系统会根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库,网络数据采集模块通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件,其他数据采集模块通过与企业或研究机构合作,使用特定系统接口的方式采集数据;硬件部分包括依次连接的传感器、前置放大器、滤波器、多路模拟开关、采样保持器、A/D转换器和计算机系统。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种数据分析系统,其特征在于,包括数据采集子系统、数据存储子系统、数据处理子系统、数据分析子系统和数据呈现子系统;
所述数据采集子系统用于采集数据并将数据传送到数据存储子系统;
所述数据存储子系统用于存储数据采集子系统采集的数据;
所述数据处理子系统用于清洗、转化、提取和计算数据存储子系统中的数据;
所述数据分析子系统用于对数据处理子系统处理后的数据进行统计分析和深度挖掘;
所述数据呈现子系统用于以表格、图片和文字的形式呈现数据分析子系统处理后的数据。
2.根据权利要求1所述的一种数据分析系统,其特征在于,所述数据采集子系统包括硬件部分和软件部分。
3.根据权利要求2所述的一种数据分析系统,其特征在于,所述软件部分包括
系统日志采集模块、网络数据采集模块和其他数据采集模块;
所述日志采集模块为基于插件的模式,构建适应业务场景的采集插件,系统会根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库;
所述网络数据采集模块通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件。
4.所述其他数据采集模块通过与企业或研究机构合作,使用特定系统接口的方式采集数据。
5.根据权利要求2所述的一种数据分析系统,其特征在于,所述硬件部分包括依次连接的传感器、前置放大器、滤波器、多路模拟开关、采样保持器、A/D转换器和计算机系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610699387.3A CN106354770A (zh) | 2016-08-22 | 2016-08-22 | 一种数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610699387.3A CN106354770A (zh) | 2016-08-22 | 2016-08-22 | 一种数据分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106354770A true CN106354770A (zh) | 2017-01-25 |
Family
ID=57844281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610699387.3A Pending CN106354770A (zh) | 2016-08-22 | 2016-08-22 | 一种数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354770A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704577A (zh) * | 2017-09-30 | 2018-02-16 | 四川师范大学 | 不动产大数据分析系统 |
CN109947751A (zh) * | 2018-12-29 | 2019-06-28 | 医渡云(北京)技术有限公司 | 一种医疗数据处理方法、装置、可读介质及电子设备 |
CN110119469A (zh) * | 2019-05-22 | 2019-08-13 | 北京计算机技术及应用研究所 | 一种面向暗网的数据采集与分析系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110314001A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Performing query expansion based upon statistical analysis of structured data |
CN104008437A (zh) * | 2013-02-25 | 2014-08-27 | 陈国祥 | 智能电网的可视化展示系统及其方法 |
CN104112207A (zh) * | 2014-07-29 | 2014-10-22 | 浪潮软件集团有限公司 | 一种基于互联网数据的电子商务交易监测方法 |
-
2016
- 2016-08-22 CN CN201610699387.3A patent/CN106354770A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110314001A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Performing query expansion based upon statistical analysis of structured data |
CN104008437A (zh) * | 2013-02-25 | 2014-08-27 | 陈国祥 | 智能电网的可视化展示系统及其方法 |
CN104112207A (zh) * | 2014-07-29 | 2014-10-22 | 浪潮软件集团有限公司 | 一种基于互联网数据的电子商务交易监测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704577A (zh) * | 2017-09-30 | 2018-02-16 | 四川师范大学 | 不动产大数据分析系统 |
CN107704577B (zh) * | 2017-09-30 | 2022-03-01 | 四川师范大学 | 不动产大数据分析系统 |
CN109947751A (zh) * | 2018-12-29 | 2019-06-28 | 医渡云(北京)技术有限公司 | 一种医疗数据处理方法、装置、可读介质及电子设备 |
CN110119469A (zh) * | 2019-05-22 | 2019-08-13 | 北京计算机技术及应用研究所 | 一种面向暗网的数据采集与分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339439A (zh) | 一种大数据分析方法 | |
Goward et al. | Forest disturbance and North American carbon flux | |
CN106933724B (zh) | 一种分布式信息追踪系统、信息处理方法及装置 | |
CN105426502A (zh) | 基于社交网络的人物信息搜索与关系网绘制的方法 | |
CN107423434B (zh) | 一种基于话单数据的潜在社会关系网络的挖掘方法 | |
CN104615699B (zh) | 一种家族网谱系统及其数据采集方法 | |
CN108304551A (zh) | 一种企业大数据分析系统和方法 | |
Li et al. | Statistically validated mobile communication networks: the evolution of motifs in European and Chinese data | |
Lieberman | Visualizing big data: Social network analysis | |
CN104618806A (zh) | 获取视频的评论信息的方法、装置及系统 | |
EP2441014A4 (en) | SYSTEM AND METHOD FOR COLLABORATIVELY RECORDING, ASSIGNING, VISUALIZING, ANALYZING AND MODIFYING PROBABLE GENEALOGICAL RELATIONS ON THE BASIS OF GEO-TEMPORARY AND TIMETABLE ACCIDENTS | |
WO2016041372A1 (zh) | 一种数据展现的方法及装置 | |
CN104111996A (zh) | 基于hadoop平台的医保门诊大数据抽取系统及方法 | |
CN104427292A (zh) | 会议纪要的提取方法及装置 | |
CN106354770A (zh) | 一种数据分析系统 | |
CN103823792B (zh) | 从文本文档中检测热点事件的方法和设备 | |
CN104778210B (zh) | 一种微博转发树和转发森林构建方法 | |
CN105518644B (zh) | 在地图上实时处理并显示社交数据的方法 | |
CN104991904A (zh) | 一种动态网页的页面数据采集方法 | |
CN104239472A (zh) | 对象信息的提供方法和装置 | |
CN108536700A (zh) | 一种无埋点收集日志的方法 | |
CN105825046A (zh) | 一种医疗数据的收集及处理方法及装置 | |
Hongqian et al. | Cloud-based data management system for automatic real-time data acquisition from large-scale laying-hen farms | |
CN107818156A (zh) | 一种实时个性化新闻推荐方法及系统 | |
CN109189842A (zh) | 大数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |
|
RJ01 | Rejection of invention patent application after publication |