CN108228830A - 一种数据处理系统 - Google Patents

一种数据处理系统 Download PDF

Info

Publication number
CN108228830A
CN108228830A CN201810004876.1A CN201810004876A CN108228830A CN 108228830 A CN108228830 A CN 108228830A CN 201810004876 A CN201810004876 A CN 201810004876A CN 108228830 A CN108228830 A CN 108228830A
Authority
CN
China
Prior art keywords
data
module
real
processing system
time streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810004876.1A
Other languages
English (en)
Inventor
蔡念
刘广聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810004876.1A priority Critical patent/CN108228830A/zh
Publication of CN108228830A publication Critical patent/CN108228830A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据处理系统,包括:数据采集模块用于根据预设数据采集方式,获取原始数据,数据治理模块用于对原始数据进行修正,获得目标数据,存储检索模块用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务,实时计算模块用于基于Spark Stream对实时流数据进行计算,挖掘计算模块用于基于预设的算法模型对目标数据进行计算,科研实践模块用于创建图形化的大数据科研平台,统一API模块用于整合各类型异构的数据库的接口,和对接第三方BI开发工具,数据安全模块用于在存储目标数据之前,对目标数据进行加密和/或备份,运维模块用于进行事故预测和事故发生后进行追踪。可有效利用教育大数据。

Description

一种数据处理系统
技术领域
本发明涉及大数据应用技术领域,特别是涉及一种数据处理系统。
背景技术
大数据时代,政务公共数据作为社会大众共享的无形财富。其中,教育数据作为公共数据的重要组成部分和基础内容,预计其开放的范围将越来越大、开放的程度将越来越高。
有报告预测,2016年中国教育大数据市场规模约为4.49亿元人民币,环比增长率为61.88%。
综上所述,如何有效地利用教育大数据等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种数据处理系统,以有效地利用教育大数据。
为解决上述技术问题,本发明提供如下技术方案:
一种数据处理系统,包括:
数据采集模块,用于根据预设数据采集方式,获取原始数据;
数据治理模块,用于对所述原始数据进行修正,获得目标数据;
存储检索模块,用于将所述目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务;
实时计算模块,用于基于SparkStream对实时流数据进行计算;
挖掘计算模块,用于基于预设的算法模型对所述目标数据进行计算;
科研实践模块,用于创建图形化的大数据科研平台;
统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具;
数据安全模块,用于在存储所述目标数据之前,对所述目标数据进行加密和/或备份;
运维模块,用于进行事故预测和事故发生后进行追踪。
优选地,存储检索模块,具体用于采样编码容错技术对所述目标数据进行处理之后,以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。
优选地,所述数据采集模块,具体用于根据预设数据采集方式,获取原始数据,所述预设数据采集方式包括接口读取、数据库获取、网络爬虫或智能录入。
优选地,所述数据治理模块,具体用于对所述原始数据修复缺失数据、纠正错误数据和对不可用数据进行适配,获得目标数据。
优选地,所述预设一体化异构数据库为融合了Mysql、Oracle、HDFS和HIVE的数据库。
优选地,所述实时计算模块,包括:
实时流数据获取单元,用于基于Flume获取实时流数据;
实时流数据调度单元,用于基于Kafka调度所述实时流数据;
实时流数据聚合单元,用于通过预设实时流数据聚合技术将所述实时流数据聚合;
流数据计算单元,用于采样SparkStream对实时流数据进行计算。
优选地,所述实时计算模块,具体用于对实时流数据进行分片之后,基于SparkStream对实时流数据进行计算。
优选地,所述挖掘计算模块,具体用于基于大数据算法和/或机器学习算法模型,对所述目标数据进行计算。
优选地,所述存储检索模块,具体用于将所述预设一体化异构数据库中的数据进行压缩。
优选地,所述数据处理系统为处理教育大数据的系统。
应用本发明所提供的系统,数据采集模块,用于根据预设数据采集方式,获取原始数据,数据治理模块,用于对原始数据进行修正,获得目标数据,存储检索模块,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务,实时计算模块,用于基于Spark Stream对实时流数据进行计算,挖掘计算模块,用于基于预设的算法模型对目标数据进行计算,科研实践模块,用于创建图形化的大数据科研平台,统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具,数据安全模块,用于在存储目标数据之前,对目标数据进行加密和/或备份,运维模块,用于进行事故预测和事故发生后进行追踪。本发明提供的数据处理系统包括9大模块,可获取原始数据,对原始数据进行修正,并存储在预设的一体化异构数据库中,可进行检索和挖掘计算、创建图形化的大数据科研平台等。当应用在教育大数据的处理时,可以有效的利用教育大数据。另外,以模块化的设计,可在不影响业务正常运行的情形下进行版本无缝升级。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种数据管理系统的结构示意图;
图2为本发明实施例中一种数据治理模块的数据治理示意图。
具体实施方式
本发明的核心是提供一种数据处理系统,数据采集模块,用于根据预设数据采集方式,获取原始数据,数据治理模块,用于对原始数据进行修正,获得目标数据,存储检索模块,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务,实时计算模块,用于基于Spark Stream对实时流数据进行计算,挖掘计算模块,用于基于预设的算法模型对目标数据进行计算,科研实践模块,用于创建图形化的大数据科研平台,统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具,数据安全模块,用于在存储目标数据之前,对目标数据进行加密和/或备份,运维模块,用于进行事故预测和事故发生后进行追踪。本发明提供的数据处理系统包括9大模块,可获取原始数据,对原始数据进行修正,并存储在预设的一体化异构数据库中,可进行检索和挖掘计算、创建图形化的大数据科研平台等。当应用在教育大数据的处理时,可以有效的利用教育大数据。另外,以模块化的设计,可在不影响业务正常运行的情形下进行版本无缝升级。
该系统可以用于处理教育大数据,即本申请提供的数据处理系统为处理教育大数据的系统。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例中一种数据处理系统的结构示意图,该系统包括:
数据采集模块101,用于根据预设数据采集方式,获取原始数据。
在本实施例中,科研预先设置数据采集方式,具体的数据采集方式可以根据实际需要采集的原始数据的类型确定,本发明实施例对比并不限定。
数据采集模块101可以根据预设的数据采集方式,获取原始数据。其中,原始数据可以为结构化、半结构化以及非结构化的数据。
在本发明的一个具体实施例中,数据采集模块101,具体用于根据预设数据采集方式,获取原始数据,预设数据采集方式包括接口读取、数据库获取、网络爬虫或智能录入。
当本发明提供的系统应用于教育大数据的处理时,数据采集模块101可以通过接口读取、数据库获取、网络爬虫和智能录入4种方式采集学校数据,全量存储在融合hive(基于Hadoop的数据仓库工具)、mysql(关系型数据库管理系统)、hdfs(Hadoop DistributedFile System,分布式文件系统)多种集群的数据仓库中,保证数据的原始性和多元性。此外,数据采集模块101还可以支持ftp(File Transfer Protocol,文件传输协议)、http、Oracle和syslog等采集方式。同时可以采用可视化ETL工具设计,用户可灵活拖拽,自主设计数据采集,并提供图形化的数据报告,用于数据监控与质量追踪。
数据治理模块102,用于对原始数据进行修正,获得目标数据。
在本实施例中,数据治理模块102可以对原始数据进行修正,以获得目标数据。目标数据为在系统中的其他模块可调用的数据,或可对系统外的应用读取的数据。
在本发明的一个具体实施例中,数据治理模块102,具体用于对原始数据修复缺失数据、纠正错误数据和对不可用数据进行适配,获得目标数据。即数据治理密可以对原始数据中的缺失数据、错误数据和不可以数据进行相应的修复、纠正和适配操作,以获得目标数据。
请参考图2,当本发明提供的系统应用于教育大数据的处理时,数据治理模块102可以作为数据管理和数据治理工具,即其可将缺失数据、错误数据、不可用数据等进行治理,结合学校标准和国家标准规范,以学校数据进行重新梳理,以保证大数据分析的原始数据质量。实现了对高校不同数据源进行针对性的数据清洗与治理工作。
存储检索模块103,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。
在本实施例中,存储检索模块103可以将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。其中,预设一体化异构数据库为融合了Mysql、Oracle、HDFS和HIVE的数据库。具体的,在存储时,可以采用MPP集群、HDFS分布式存储等,因分布式存储具有出色的多任务并行处理和分布式计算性能,并兼备高扩展、强容错、低延迟、高吞吐等特点,在结合Elastic Search和针对教育行业自定义分片技术,达到毫秒级全文搜索,可实现单条查询速度3ms以内、十亿多条日志量中查检索时间在7s以内。
在本发明的另一个实施例中,存储检索模块103,具体用于将预设一体化异构数据库中的数据进行压缩。即,存储检索模块103可以结合版本管理和时间轴的技术,将历史数据进行抽取存放,并且结合数据压缩技术,将存储在预设一体化异构数据库中的数据进行压缩。
在本发明的一个实施例中,存储检索模块103,具体用于采样编码容错技术对目标数据进行处理之后,以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。
在实际的应用中,存储检索模块103可以将目标数据存储在融合了Mysql、Oracle、HDFS和HIVE的一体化异构数据仓库中,并对数据进行切割、过滤、归纳、整理、排列等处理,可实现分布式存储,并且提供了高性能的并行计算能力,同时提供了PB数量级的秒级搜索功能,从而给客户提供强大、横向可扩展的大型分布式数据存储中心。还可以提供全量数据备份功能,采用增量备份,结合版本管理和时间轴的技术,将历史数据进行抽取存放,并且结合数据压缩技术,可以将系统中的数据存放10年以上,并实现历史数据的查询与分析。在存储检索模块103还可以内置聚合建模分析功能,可以提供超过30种聚合模型,采用数据量化、标签化、黑箱去重等技术。当进行教育大数据的处理时,可将高校每天百万级的日志记录和流水记录进行数据聚合,便于实时的数据挖掘与深度分析。
实时计算模块104,用于基于Spark Stream对实时流数据进行计算。
具体的,实时计算模块104,可以包括:
实时流数据获取单元,用于基于Flume获取实时流数据;
实时流数据调度单元,用于基于Kafka调度实时流数据;
实时流数据聚合单元,用于通过预设实时流数据聚合技术将实时流数据聚合;
流数据计算单元,用于采样Spark Stream对实时流数据进行计算。
在本发明的一个实施例中,实时计算模块104,具体用于对实时流数据进行分片之后,基于Spark Stream对实时流数据进行计算。其中,分片具体为采用Hash、Range、List和datetime等分片技术进行分片。
在实际的应用中,实时计算模块104可以采用基于Flume的实时流数据采集,基于Kafka实现实时流调度处理,同时通过高校的实时流数据聚合技术,并采用Spark Stream实现实时流计算功能,进行大数据实时计算与分析。实时计算模块104可以实时处理海量数据、在线统计分析,涵盖批处理、流处理、机器学习、图计算、SQL等多种应用模式,实现分布式存储、并行计算和自动容错等功能,提供低延迟、高性能的数据处理。
挖掘计算模块105,用于基于预设的算法模型对目标数据进行计算。
在本实施例中,可以预先对算法模型进行设置。挖掘计算模块105,便可以基于预设的算法模型对目标数据进行计算。需要说明的是,挖掘计算模块105,具体用于基于大数据算法和/或机器学习算法模型,对目标数据进行计算。
在实际应用中,挖掘计算模块105可以内置大量高校大数据与机器学习算法,包括分类、聚类、回归、频度关联和神经网络等,形成学生素质评估、行为异常、心理异常等大数据分析模型。挖掘计算模块105,可以内置超过50种高校行业定制优化的专用算法,用于深度挖掘分析大数据平台中的海量数据,从而快速构建基于高校业务的大规模数据挖掘分析应用。例如,将学生各科成绩进行学时加权标准分换算,以实现不同专业/科目具有可比性;基于学生综合数据,进行综合雷达画像的分析预测,判断学生性格特点;基于历史借阅信息、就业信息数据,以及样本关联指数进行书籍和就业岗位的推荐等。
科研实践模块106,用于创建图形化的大数据科研平台。
在实际应用中,科研实践模块106可快速构造大数据分析应用的科研实践中心,为高校用户提供图形化操作、简单易用的大数据科研平台。用户可通过快速选取数据源,采用内嵌的算法模型库或者自主开发算法,灵活选用饼图、折线图、散点图等展示图形,即可创建属于自己的大数据分析用应用,实现高校大数据科研分析的需求。
统一API模块107,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具。统一API模块107可以通过整合大数据平台中各类型异构的数据库,实现接口统一封装与数据调度,屏蔽由于语言和工具导致的接口差异,对外提供标准的jdbc接口。同时支持R语言、Python、Java等多种开发语言,并且对接第三方BI开发工具,可以提高用户数据查询、数据存储管理和自主开发的易用性。
在实际应用中,统一API模块107可以对外提供统一的API接口,支持SQL、R语言、Python、Scala、Java等多种语言,以及可无缝对接第三方主流BI,从而实现快速自主构建大数据应用环境,满足高校开发和运维的需求。
数据安全模块108,用于在存储目标数据之前,对目标数据进行加密和/或备份。
数据安全模块108可以采用加密、认证、审计、快照以及容灾备份等技术,有机全面建设涵盖访问安全、运维安全、内容安全和存储安全的防御体系。同时,数据安全模块108在服务组件交互中采用SSL链路加密机制,以保证链路之间传递信息不会被获取,从而保障数据安全。数据安全模块108还可以配置用户权限,可授权到字段级别,同时支持敏感字段加密、用户读写权限分配等功能,从而提高用户数据访问的安全。
在实际应用中,数据安全模块108还可以融合权限控制、数据加密脱敏、审计隔离、报警阻断和多租户安全等技术,建立标准规范的大数据安全防御体系,全面保障用户的数据绝对安全。同时利用先进的编码容错技术,实现分步式数据存放与恢复,可容忍多个数据块同时丢失,将平均无故障时间提高一倍。
运维模块109,用于进行事故预测和事故发生后进行追踪。
运维模块109提供大数据平台中的数据查询、数据管理、用户管理、存储管理、集群管理和用户管理等工作,采用图形化的工具,实现对成百上千节点的运维管理,同时支持平台性能、访问等异常告警功能并上报系统管理员,降低用户运维管理的技术难度,做到事故事前预测和事故后进行追踪,以进行双重保障。
应用本发明实施例所提供的系统,该系统包括:数据采集模块,用于根据预设数据采集方式,获取原始数据,数据治理模块,用于对原始数据进行修正,获得目标数据,存储检索模块,用于将目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务,实时计算模块,用于基于Spark Stream对实时流数据进行计算,挖掘计算模块,用于基于预设的算法模型对目标数据进行计算,科研实践模块,用于创建图形化的大数据科研平台,统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具,数据安全模块,用于在存储目标数据之前,对目标数据进行加密和/或备份,运维模块,用于进行事故预测和事故发生后进行追踪。本发明提供的数据处理系统包括9大模块,可获取原始数据,对原始数据进行修正,并存储在预设的一体化异构数据库中,可进行检索和挖掘计算、创建图形化的大数据科研平台等。当应用在教育大数据的处理时,可以有效的利用教育大数据。另外,以模块化的设计,可在不影响业务正常运行的情形下进行版本无缝升级。
需要说明的是,在实际的应用过程中,根据实际业务的需求,本发明实施例所提供的数据处理系统除了上文描述的九大核心模块之外,还可以有数据统一管理模块、数据库和字段授权模块、用户访问资源权限控制模块、服务节点监控模块、引入合作方模块等常见的系统模块。每个模块具体的应用于实现可以参照常见的处理系统,在此本发明实施例不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种数据处理系统,其特征在于,包括:
数据采集模块,用于根据预设数据采集方式,获取原始数据;
数据治理模块,用于对所述原始数据进行修正,获得目标数据;
存储检索模块,用于将所述目标数据以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务;
实时计算模块,用于基于Spark Stream对实时流数据进行计算;
挖掘计算模块,用于基于预设的算法模型对所述目标数据进行计算;
科研实践模块,用于创建图形化的大数据科研平台;
统一API模块,用于整合各类型异构的数据库的接口,和对接第三方BI开发工具;
数据安全模块,用于在存储所述目标数据之前,对所述目标数据进行加密和/或备份;
运维模块,用于进行事故预测和事故发生后进行追踪。
2.根据权利要求1所述的数据处理系统,其特征在于,存储检索模块,具体用于采样编码容错技术对所述目标数据进行处理之后,以分布式存储方式存入预设一体化异构数据库中,并对外提供检测服务。
3.根据权利要求1所述的数据处理系统,其特征在于,所述数据采集模块,具体用于根据预设数据采集方式,获取原始数据,所述预设数据采集方式包括接口读取、数据库获取、网络爬虫或智能录入。
4.根据权利要求1所述的数据处理系统,其特征在于,所述数据治理模块,具体用于对所述原始数据修复缺失数据、纠正错误数据和对不可用数据进行适配,获得目标数据。
5.根据权利要求1所述的数据处理系统,其特征在于,所述预设一体化异构数据库为融合了Mysql、Oracle、HDFS和HIVE的数据库。
6.根据权利要求1所述的数据处理系统,其特征在于,所述实时计算模块,包括:
实时流数据获取单元,用于基于Flume获取实时流数据;
实时流数据调度单元,用于基于Kafka调度所述实时流数据;
实时流数据聚合单元,用于通过预设实时流数据聚合技术将所述实时流数据聚合;
流数据计算单元,用于采样Spark Stream对实时流数据进行计算。
7.根据权利要求1所述的数据处理系统,其特征在于,所述实时计算模块,具体用于对实时流数据进行分片之后,基于Spark Stream对实时流数据进行计算。
8.根据权利要求1所述的数据处理系统,其特征在于,所述挖掘计算模块,具体用于基于大数据算法和/或机器学习算法模型,对所述目标数据进行计算。
9.根据权利要求1所述的数据处理系统,其特征在于,所述存储检索模块,具体用于将所述预设一体化异构数据库中的数据进行压缩。
10.根据权利要求1至9任一项所述的数据处理系统,其特征在于,所述数据处理系统为处理教育大数据的系统。
CN201810004876.1A 2018-01-03 2018-01-03 一种数据处理系统 Pending CN108228830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810004876.1A CN108228830A (zh) 2018-01-03 2018-01-03 一种数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810004876.1A CN108228830A (zh) 2018-01-03 2018-01-03 一种数据处理系统

Publications (1)

Publication Number Publication Date
CN108228830A true CN108228830A (zh) 2018-06-29

Family

ID=62645203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810004876.1A Pending CN108228830A (zh) 2018-01-03 2018-01-03 一种数据处理系统

Country Status (1)

Country Link
CN (1) CN108228830A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985083A (zh) * 2018-07-12 2018-12-11 江苏慧学堂系统工程有限公司 一种计算机数据安全管理系统及方法
CN109033854A (zh) * 2018-07-17 2018-12-18 阿里巴巴集团控股有限公司 基于模型的预测方法和装置
CN109086573A (zh) * 2018-07-30 2018-12-25 东北师范大学 多源生物大数据融合平台
CN109460393A (zh) * 2018-11-08 2019-03-12 浙江工业大学 一种基于大数据的预检预修可视化系统
CN109711658A (zh) * 2018-11-09 2019-05-03 成都数之联科技有限公司 一种工业生产优化检测系统和方法
CN109815736A (zh) * 2019-01-24 2019-05-28 深圳昂楷科技有限公司 一种数据库脱敏方法、装置及脱敏设备
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN109947820A (zh) * 2019-03-12 2019-06-28 山东浪潮云信息技术有限公司 一种基于Hadoop的数据治理系统
CN110750384A (zh) * 2019-10-15 2020-02-04 浙江众鑫空间科技有限公司 大数据管理系统
CN111026744A (zh) * 2019-12-11 2020-04-17 新奥数能科技有限公司 一种基于能源站系统模型框架的数据治理方法及装置
CN111046019A (zh) * 2019-11-22 2020-04-21 北京网聘咨询有限公司 数据库安全隐患排查方法及装置
CN111294371A (zh) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 一种数据传输方法、装置、电子设备及存储介质
CN111475839A (zh) * 2020-04-06 2020-07-31 华中科技大学 一种用于不可信环境的冗余数据编码方法、存储介质
CN111556098A (zh) * 2020-04-08 2020-08-18 深圳供电局有限公司 一种基于人工智能的物联网数据的分析系统和分析方法
CN111931945A (zh) * 2020-07-31 2020-11-13 北京百度网讯科技有限公司 基于标签引擎的数据处理方法、装置、设备及存储介质
CN111967667A (zh) * 2020-08-17 2020-11-20 交控科技股份有限公司 一种轨道交通分布式运维方法及系统
WO2021051612A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 数据授权脱敏自动化方法、系统、装置及存储介质
CN112632568A (zh) * 2019-10-08 2021-04-09 上海唯链信息科技有限公司 温度数据的存储和采集方法、系统、电子设备和存储介质
CN113190407A (zh) * 2021-05-07 2021-07-30 北京金融资产交易所有限公司 数据运维系统
CN113254969A (zh) * 2021-06-08 2021-08-13 挂号网(杭州)科技有限公司 业务数据处理方法、装置、电子设备及存储介质
CN112435022B (zh) * 2020-11-19 2023-09-22 上海领健信息技术有限公司 基于用户实时数据的动态检索系统、及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314375A (zh) * 2011-03-18 2012-01-11 北京神州数码思特奇信息技术股份有限公司 一种异构数据库存储统一接口和数据库访问方法
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN106649670A (zh) * 2016-12-14 2017-05-10 北京五八信息技术有限公司 基于流式计算的数据监控方法及装置
CN106776855A (zh) * 2016-11-29 2017-05-31 上海轻维软件有限公司 基于Spark Streaming读取Kafka数据的处理方法
CN106919685A (zh) * 2017-03-02 2017-07-04 浪潮软件集团有限公司 一种海量数据文件处理方法
CN107480189A (zh) * 2017-07-11 2017-12-15 上海精数信息科技有限公司 一种多维度实时分析系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314375A (zh) * 2011-03-18 2012-01-11 北京神州数码思特奇信息技术股份有限公司 一种异构数据库存储统一接口和数据库访问方法
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN106776855A (zh) * 2016-11-29 2017-05-31 上海轻维软件有限公司 基于Spark Streaming读取Kafka数据的处理方法
CN106649670A (zh) * 2016-12-14 2017-05-10 北京五八信息技术有限公司 基于流式计算的数据监控方法及装置
CN106919685A (zh) * 2017-03-02 2017-07-04 浪潮软件集团有限公司 一种海量数据文件处理方法
CN107480189A (zh) * 2017-07-11 2017-12-15 上海精数信息科技有限公司 一种多维度实时分析系统及方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985083A (zh) * 2018-07-12 2018-12-11 江苏慧学堂系统工程有限公司 一种计算机数据安全管理系统及方法
CN109033854A (zh) * 2018-07-17 2018-12-18 阿里巴巴集团控股有限公司 基于模型的预测方法和装置
TWI733106B (zh) * 2018-07-17 2021-07-11 開曼群島商創新先進技術有限公司 基於模型的預測方法和裝置
CN109033854B (zh) * 2018-07-17 2020-06-09 阿里巴巴集团控股有限公司 基于模型的预测方法和装置
CN109086573B (zh) * 2018-07-30 2021-08-24 东北师范大学 多源生物大数据融合系统
CN109086573A (zh) * 2018-07-30 2018-12-25 东北师范大学 多源生物大数据融合平台
CN109460393A (zh) * 2018-11-08 2019-03-12 浙江工业大学 一种基于大数据的预检预修可视化系统
CN109711658A (zh) * 2018-11-09 2019-05-03 成都数之联科技有限公司 一种工业生产优化检测系统和方法
CN111294371A (zh) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 一种数据传输方法、装置、电子设备及存储介质
CN111294371B (zh) * 2018-12-06 2022-07-05 北京嘀嘀无限科技发展有限公司 一种数据传输方法、装置、电子设备及存储介质
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN109815736A (zh) * 2019-01-24 2019-05-28 深圳昂楷科技有限公司 一种数据库脱敏方法、装置及脱敏设备
CN109947820A (zh) * 2019-03-12 2019-06-28 山东浪潮云信息技术有限公司 一种基于Hadoop的数据治理系统
WO2021051612A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 数据授权脱敏自动化方法、系统、装置及存储介质
CN112632568A (zh) * 2019-10-08 2021-04-09 上海唯链信息科技有限公司 温度数据的存储和采集方法、系统、电子设备和存储介质
CN112632568B (zh) * 2019-10-08 2022-11-29 上海唯链信息科技有限公司 温度数据的存储和采集方法、系统、电子设备和存储介质
CN110750384A (zh) * 2019-10-15 2020-02-04 浙江众鑫空间科技有限公司 大数据管理系统
CN111046019A (zh) * 2019-11-22 2020-04-21 北京网聘咨询有限公司 数据库安全隐患排查方法及装置
CN111026744A (zh) * 2019-12-11 2020-04-17 新奥数能科技有限公司 一种基于能源站系统模型框架的数据治理方法及装置
CN111475839B (zh) * 2020-04-06 2023-04-18 华中科技大学 一种用于不可信环境的冗余数据编码方法、存储介质
CN111475839A (zh) * 2020-04-06 2020-07-31 华中科技大学 一种用于不可信环境的冗余数据编码方法、存储介质
CN111556098A (zh) * 2020-04-08 2020-08-18 深圳供电局有限公司 一种基于人工智能的物联网数据的分析系统和分析方法
CN111556098B (zh) * 2020-04-08 2023-09-15 深圳供电局有限公司 一种基于人工智能的物联网数据的分析系统和分析方法
CN111931945A (zh) * 2020-07-31 2020-11-13 北京百度网讯科技有限公司 基于标签引擎的数据处理方法、装置、设备及存储介质
CN111967667A (zh) * 2020-08-17 2020-11-20 交控科技股份有限公司 一种轨道交通分布式运维方法及系统
CN111967667B (zh) * 2020-08-17 2024-03-01 交控科技股份有限公司 一种轨道交通分布式运维方法及系统
CN112435022B (zh) * 2020-11-19 2023-09-22 上海领健信息技术有限公司 基于用户实时数据的动态检索系统、及方法
CN113190407A (zh) * 2021-05-07 2021-07-30 北京金融资产交易所有限公司 数据运维系统
CN113254969A (zh) * 2021-06-08 2021-08-13 挂号网(杭州)科技有限公司 业务数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108228830A (zh) 一种数据处理系统
Fer et al. Beyond ecosystem modeling: A roadmap to community cyberinfrastructure for ecological data‐model integration
CN102667711B (zh) 虚拟数据库系统
Easter et al. The GEFSOC soil carbon modelling system: a tool for conducting regional-scale soil carbon inventories and assessing the impacts of land use change on soil carbon
Sridhar et al. Model governance: Reducing the anarchy of production {ML}
CN104915793A (zh) 基于大数据分析挖掘的公共信息智能分析平台
CN107111544A (zh) 生产诊断中的历史控制流可视化
Milanés-Batista et al. Application of Business Intelligence in studies management of Hazard, Vulnerability and Risk in Cuba
Jones et al. The evolution of the ATLAS computing model
Dobson et al. How important are model structural and contextual uncertainties when estimating the optimized performance of water resource systems?
Aslam et al. Seismic activity prediction of the northern part of Pakistan from novel machine learning technique
CN112052233B (zh) 一种基于上下文感知的多角度业务流程异常在线检测方法
Seenivasan ETL (extract, transform, load) best practices
King et al. A combinatorial procedure to determine the full range of potential operating scenarios for a dam system
Kratz et al. Pillars for Establishing a Durable and Future-Proof IT Architecture Maturing Along with the NSC: Approaches from Continuous Integration to Service Mesh
CN103279555B (zh) 基于业务系统的pi点自动维护方法及装置
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
Dickson et al. Enabling portable I/O analysis of commercially sensitive HPC applications through workload replication
Patil Early Prediction of HDD Failures in the Cloud Using Interpretable AI Models
Ledonio Computer Laboratory Network Centralization Files Management System
US20220342903A1 (en) A data extraction method
Guo et al. The research and design of a land reclamation supervisory information system in a mining area
Chwalek et al. No file left behind-monitoring transfer latencies in PhEDEx
Weijie et al. Research on the big data construction of equipment support
Higdon et al. Uncertainty quantification and error analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629

RJ01 Rejection of invention patent application after publication