CN111368165A - 时空流数据集成平台 - Google Patents
时空流数据集成平台 Download PDFInfo
- Publication number
- CN111368165A CN111368165A CN202010116408.0A CN202010116408A CN111368165A CN 111368165 A CN111368165 A CN 111368165A CN 202010116408 A CN202010116408 A CN 202010116408A CN 111368165 A CN111368165 A CN 111368165A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- module
- user
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010354 integration Effects 0.000 title claims abstract description 33
- 230000005540 biological transmission Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012544 monitoring process Methods 0.000 claims abstract description 38
- 238000004140 cleaning Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000012423 maintenance Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 238000007726 management method Methods 0.000 claims description 61
- 230000002159 abnormal effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 8
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 239000000725 suspension Substances 0.000 claims description 4
- 238000012550 audit Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000000379 polymerizing effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005868 electrolysis reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种时空流数据集成平台,包括:数据传输模块,以分布式消息中间件为基础,建立控制和管理功能,供用户建立“数据源‑连接器‑消息中间件‑连接器‑数据目的地”之间的传输通道;用户管理模块,用于注册和审核用户、管理历史操作日志,以及为用户分配权限;任务管理模块,提供任务的新建、控制和通知功能;任务是指通过数据传输模块建立的传输通道执行和完成一次数据传输的过程;运维监控模块,通过可视化运维看板管控所有数据传输过程和进展情况,提供多样化的图表;实时计算模块,结合流式处理的分布式计算中间件,提供针对时空流数据的过滤、聚合、汇总实时计算;数据清洗模块。本发明对时空流数据传输性能进行大幅提升。
Description
技术领域
本发明涉及一种数据处理与传输系统,尤其是一种时空流数据集成平台。
背景技术
公交卡刷卡记录、行车记录仪记录的驾驶行为、GPS/北斗定位数据、飞机船舶的态势信息、设备运行状况、卫星对地观测信息等各式各样的实时流数据信息,构成了智慧城市、物联网、工业4.0的基础。这些实时信息由于都具有时间和空间属性标签,描述一个物体在历史的时间维度和地理纬度上的状态变化信息,而对于这些数据的分析,就是尝试掌握并把控其变化的规律的过程。随着物联网、大数据和人工智能技术的发展,时空流数据呈现爆发式的增长。
时空流数据的集成系统至少必须具备高吞吐量、高缓存和实时处理的能力。但现有的数据集成软件系统和方法多用于离线文件的批处理,如专利:数据集成系统和数据集成方法(申请号201310392454.3 )、一种数据集成系统及方法(申请号:201811558696.4)、基于铝电解工厂的数据集成平台(申请号:201711481111.9),其目的是将业务数据(操作数据)文件从多个应用系统的数据库集成到统一的数据仓库中,以便于支持延时的决策分析,这类集成系统不具备高吞吐、高并发能力,也不能支持实时流计算方法,完全无法满足时空流数据的集成要求,难以整合利用时空流数据并从中获益。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种时空流数据集成平台,以高吞吐、高可用、高并发的分布式消息中间件为基础,根据时空流数据的特点和传输、集成、应用需求进行改进和性能提升。本发明采用的技术方案是:
一种时空流数据集成平台,包括:
数据传输模块,以分布式消息中间件为基础,建立控制和管理功能,供用户建立“数据源-连接器-消息中间件-连接器-数据目的地”之间的传输通道;
用户管理模块,用于注册和审核用户、管理历史操作日志,以及为用户分配权限;
任务管理模块,提供任务的新建、控制和通知功能;任务是指通过数据传输模块建立的传输通道执行和完成一次数据传输的过程;
运维监控模块,通过可视化运维看板管控所有数据传输过程和进展情况,提供多样化的图表;
实时计算模块,结合流式处理的分布式计算中间件,以API接口方式提供针对时空流数据的过滤、聚合、汇总实时计算;
数据清洗模块,提供自动化的纠正和转换方法,处理存在的无效数据、重复数据、异常数据。
进一步地,用户管理模块通过系统界面接收请求,进行权限验证后将权限转发给任务管理模块、实时计算模块、运维监控模块和数据传输模块;
实时计算模块通过消息中间件提供的调用接口输出数据进行处理、运维监控模块通过消息中间件提供的接口读取日志和运行状态,处理后进行呈现;
任务管理模块通过进程调用消息中间件的控制接口,实现任务管理;
数据传输模块通过接口调用实现连接器和消息中间件的参数配置。
进一步地,数据传输模块具体包括:
节点管理单元,用于新增、配置、修改和检测物理节点;
连接器管理单元,提供多个连接器的新建、配置、控制;显示正在运行的连接器列表和状态,实现连接器启动、暂停、停止和恢复,设置定时信息,包括执行频率和执行时间;
传输管理单元,用于通过可视化界面和拖拽方式实现数据源和数据目的地的传输管道,传输管理包含如下内容:连接配置、错误提示、内容管理。
进一步地,用户管理模块包括:
用户与用户组单元:提供用户注册、审核、登录和个人信息管理功能,提供创建和管理用户组功能,并将用户进行分组管理;
权限管理单元,用于添加和删除用户权限;组权限允许特定组中的每个用户具有指定的权限;支持为用户和用户组设置以下权限:
管理权限;
读权限,可以查看任务信息和执行情况和日志信息;
写权限,可以新建连接器和任务;
执行权限,可以运行、暂定、恢复、取消任务;
调用权限,可以调用实时计算API,以调用实时计算模块中的各计算单元;
用户日志单元,记录并能够呈现用户登录、创建、执行任务的日志信息。
进一步地,任务管理模块包括:
任务与任务组单元,提供任务和任务组的新建和编辑功能;供用户新建和删除任务,编写任务描述信息,说明任务或者任务组的意图,授予用户组管理任务的权限,或将任务分配至任务组中;
任务中心单元,呈现任务概览信息和运行状态,监控任务的执行情况,可视化管理数据传输过程,查看与任务相关的操作通知信息;
任务控制单元,用于进行,
任务取消:终止正在运行的任务并立即使任务失败;
任务暂停:阻止新任务或者连接器的运行,目前正在运行的任务、连接器照常进行;
任务恢复:恢复暂停执行;
任务重试:当任务仍处于活动状态时,重试将重新启动所有失败作业;
准备执行:设置任务运行的时间;
事件通知单元,在任务出现变更或执行过程中出现重大情况时,通知与任务相关的用户;每个任务均可设置如下通知项:任务变更、任务开始、任务失败、任务完成。
进一步地,运维监控模块,包括:
集群概况监控单元:进行包括主题数量、broker节点数量和地址、监控分区数量、leader数量监控项目;
节点负载监控单元:进行包括数据流入/流出速度、CPU占用率、网络流入/流出速度、磁盘读写速度、IO等待情况、磁盘占有率、内存使用率监控项目;
数据传输监控单元:进行包括数据流入/流出总数、数据流入/流出速度、平均速度、1分钟或多分钟均速监控项目;
错误事件管理单元:实时收集所有的数据相关错误,以错误概览和详情方式呈现。
进一步地,实时计算模块包括:
多维度组合过滤单元,根据给定的不同时间、空间维度的条件,查找符合条件的时空流数据;
交互级聚合查询单元,提供时空流数据的聚合方法;
预聚合单元,对实时写入后的时空流数据经过预聚合的运算,生成按指定规则的结果;
自动汇总单元,不同时间层面上把相同维度的数据做聚合,转换为更粗时间粒度的数据,但是还是拥有相同的维度。
进一步地,清洗任务管理单元,主要负责对清洗任务的各个过程进行管理,包括任务控制、任务生成、任务列表;
异常数据刪除单元,主要负责,检测明显偏离所属样本的其余观测值的数据并对其值进行修正,利用拟合曲线或者聚类结果对异常数据进行处理;
无用数据删除,主要针对对于后续数据挖掘不存在意义的数据进行删除;
缺失数据填补单元,主要针对在数据采集、传输和存储过程中,由于疏忽或者设备故障原因造成的值空缺的数据,负责用指定参数填补缺失,利用拟合曲线、平均值填补记录中的缺失值;
拟合曲线生成单元,主要负责根据数据曲线找到相似曲线,通过加权进行空缺填补和异常完善,生成拟合曲线;
清洗结果对比单元,主要负责对比清洗前和清洗后的文件,计算清洗操作对文件的影响,即清洗前后数据的变化情况。
本发明的优点在于:
1)全程管控:通过可视化运维看板管控所有数据传输过程和进展情况,提供多样化的图表,实现对集群概况、节点负载、消息情况等多维度监控与告警设置,帮助用户及时发现问题。
2)实时计算:与传统的数据集成软件系统不同,时空流数据集成平台采用分布式消息中间件为为基础,具备数据实时计算能力,在此基础上,为了让用户能够更好的利用这些数据,结合 Spark、Flink 等流式处理框架,集成平台提供针对时空流数据的过滤、聚合、汇总等多种实时计算方法,大幅降低数据应用成本。
附图说明
图1为本发明的系统部署示意图。
图2为本发明的系统中各模块关系示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
本发明实施例提出的时空流数据集成平台,其是一套软件,该软件的部署参考图1所示;图1中,所有服务器均通过网线连接在同一个局域网内;
集群的概念可以解释为两种,其一是物理集群,处于同一个局域网下的所有物理设备的总和可以称为一个物理集群,其中的一台机器被称为物理节点;其一是软件集群,指某个分布式系统所用的服务器(可以是物理服务器或者虚拟服务器)的总和,其中分布式系统的一部分部署在其中一台服务器上,这台服务器被称为分布式集群的一个节点;本文主要是用的第二种概念;
数据源和数据目的地主要是由数据库服务器承载的各类数据库系统和Web服务器承载的、可以通过标准的WebService接口提供数据的Web系统;
时空数据流集成平台需要两种分布式系统作为基础,一种是分布式消息中间件,数据传输模块在其基础上实现,一种是分布式计算中间件,实时计算模块在此基础上实现;分布式消息中间件部署至少需要3台服务器,每台服务器部署一个Broker(代理者模块)进行数据传输;分布式计算中间件部署至少需要4台服务器,其中一台服务器部署一个Proxy(代理者模块)作为主节点,其余三台服务器每台部署一个实现者模块进行计算;
时空数据流集成平台作为一个Web系统,可以使用Web容器(如Tomcat或者Apache应用服务器软件)提供基础运行环境,为提高系统稳定性,也可以采用负载均衡服务器软件(如Nginx)组建集群;将时空数据流集成平台冗余部署在数个Web服务器节点上,这些Web服务器节点上都是相同的时空数据流集成平台的软件;
时空流数据集成平台,各模块之间的关系如图2所示,
1、用户管理模块通过系统界面接收请求,进行权限验证后将权限转发给任务管理模块、实时计算模块、运维监控模块和数据传输模块;
2、实时计算模块通过消息中间件提供的调用接口输出数据进行处理、运维监控模块通过消息中间件提供的接口读取日志和运行状态,处理后进行呈现;
3、任务管理模块通过进程调用消息中间件的控制接口,实现任务管理;
4、数据传输模块通过接口调用实现连接器和消息中间件的参数配置;
时空流数据集成平台,具体包括:
1)数据传输模块,以高吞吐、高并发、高可用的分布式消息中间件为基础,建立一系列的控制和管理功能,用户可以通过可视化界面建立“数据源-连接器-消息中间件-连接器-数据目的地”之间的传输通道;数据传输模块具体包括以下单元:
节点管理单元,用于新增、配置、修改和检测物理节点;数据传输模块可以部署在多个节点上,实现分布式的消息传输;
连接器管理单元,连接器是将消息中间件与数据源或者数据目的地相连接的逻辑结构,连接器管理单元提供多个连接器的新建、配置、控制;显示正在运行的连接器列表和状态,实现连接器启动、暂停、停止和恢复等,设置定时信息,包括执行频率和执行时间;
传输管理单元,通过可视化界面和拖拽方式实现数据源和数据目的地的传输管道,即可开始执行数据同步工作,传输管理包含如下内容:连接配置(选择连接类型、连接方式、配置主机名称、数据库名称、端口号、用户名密码信息)、错误提示(能够对缺少数据库驱动包、数据库无法正常访问、数据库连接参数配置等错误进行提示)、内容管理(显示数据源的字段名、类型等数据内容,用户可通过可视化界面配置需要传输的字段,配置传输时间和传输频率);
2)用户管理模块,用于注册和审核用户、管理历史操作日志,以及为用户分配权限;用户管理模块包括以下单元:
用户与用户组单元:提供用户注册、审核、登录和个人信息管理功能,提供创建和管理用户组功能,并将用户进行分组管理;
权限管理单元,用于添加和删除用户权限;组权限允许特定组中的每个用户具有指定的权限,通过取消选中组权限来删除组权限;
支持为用户和用户组设置以下权限:管理权限(任何权限)、读权限(可以查看任务信息和执行情况和日志信息)、写权限(可以新建连接器和任务)、执行权限(运行、暂定、恢复、取消任务)、调用权限(可以调用实时计算API,以调用实时计算模块中的各计算单元);
用户日志单元,记录并能够呈现用户登录、创建、执行任务等关键日志信息,支持通过日志种类、用户和时间段为关键字进行检索;
3)任务管理模块,提供任务的新建、控制和通知功能;任务是指通过数据传输模块建立的传输通道执行和完成一次数据传输的过程;包括以下单元:
任务与任务组单元,提供任务和任务组的新建和编辑功能;供用户新建和删除任务,编写任务描述信息,说明任务或者任务组的意图,授予用户组可以管理任务的权限,或将任务分配至任务组中;
任务中心单元,以列表方式呈现任务概览信息和运行状态,监控任务的执行情况,可视化管理数据传输过程,查看与任务相关的操作通知信息;
任务控制单元,用于进行,
任务取消:终止正在运行的任务并立即使任务失败;
任务暂停:阻止新任务或者连接器的运行,目前正在运行的任务、连接器照常进行;
任务恢复:恢复暂停执行;
任务重试:当任务仍处于活动状态时,重试将重新启动所有失败作业;
准备执行:设置任务运行的时间;
事件通知单元,在任务出现变更或执行过程中出现重大情况时,通知与任务相关的用户;支持事件历史日志列表和检索功能;每个任务均可设置如下通知项:任务变更(如更改数据源或者连接器配置)、任务开始、任务失败、任务完成等;
4)运维监控模块,通过可视化运维看板管控所有数据传输过程和进展情况,提供多样化的图表,实现对集群概况、节点负载、消息情况等多维度监控与告警设置,帮助用户及时发现问题;具体包括以下单元:
集群概况监控单元:进行主题数量(topics)、broker节点数量(brokers)和地址、监控分区数量(partitions)、leader数量(leaders,消息中间件中的一种节点)等监控项目;
节点负载监控单元:进行数据流入(msgIn)/流出速度(msgOut)(条/s)、CPU占用率(cpuUsed)、网络流入/流出速度(bytesIn/bytesOut)、磁盘读写速度(ioRead/ioWrite)、IO等待情况(iowait)、磁盘占有率、内存使用率(memUsed)等监控项目;
数据传输监控单元:进行数据流入/流出总数(msgCount)、数据流入(msgIn)/流出速度(msgOut)(条/s)、平均速度(meanRate)、1分钟均速(oneMinuteRate)、5/15分钟均速等监控项目;
错误事件管理单元:实时收集所有的数据相关错误,以错误概览和详情方式呈现给管理人员,帮助管理人员分析错误原因,提高工作效率;
5)实时计算模块,与传统的数据集成软件系统不同,时空流数据集成平台采用分布式消息中间件为为基础,具备数据实时计算能力,在此基础上,为了让用户能够更好的利用这些数据,结合Spark、Flink等流式处理的分布式计算中间件,以API接口方式提供针对时空流数据的过滤、聚合、汇总等多种实时计算,大幅降低数据应用成本;主要包括以下单元:
多维度组合过滤单元,根据给定的不同时间、空间维度的条件,查找符合条件的时空流数据;
交互级聚合查询单元,提供时空流数据的AVG、SUM、MAX/MIN、方差/标准差、COUNT、TopN等聚合方法;时空流数据记录的是最原始的状态变化信息,而查询和分析通常需要的不是原始值,而是基于原始值的一些统计值,为此,集成平台提供的AVG、SUM、MAX/MIN、方差/标准差、COUNT、TopN等聚合方法;
预聚合单元,时空流数据实时写入后就会经过预聚合的运算,生成按指定规则的结果(AVG、SUM、MAX/MIN、方差/标准差、COUNT、TopN),供用户查询而不需要再次计算;当数据量较大,采用交互级聚合查询方式获取数据结果,过程较为缓慢,为此,集成平台提供预聚合功能;
自动汇总单元,不同时间层面上把相同维度的数据做聚合,转换为更粗时间粒度的数据,但是还是拥有相同的维度;
6)数据清洗模块,提供自动化的纠正和转换方法,处理存在的无效数据、重复数据、异常数据;用户可通过可视化界面在连接器中设置数据清洗方法,完成数据实时清洗;
由于设备状态和外界环境等原因,存在大量无效数据、重复数据、异常数据等“脏”数据,由于时空流数据的数据量较大且要求实时计算,传统集成系统提供的手工清洗方法并不适合,时空流数据集成平台提供自动化的纠正和转换方法,用户可通过可视化界面在连接器中设置数据清洗方法,完成数据实时清洗。主要包括以下单元:
清洗任务管理单元,主要负责对清洗任务的各个过程进行管理,包括任务控制(控制清洗任务的开始和停止)、任务生成(新建和编辑清洗任务的相关信息如清洗任务的ID、清洗任务的描述信息以及清洗结果文件的名字)、任务列表(获取所有清洗任务列表和任务具体信息、对清洗任务的信息进行查询);
异常数据刪除单元,主要负责,检测明显偏离所属样本的其余观测值的数据并对其值进行修正,利用拟合曲线或者聚类结果对异常数据进行处理;
无用数据删除,主要针对对于后续数据挖掘不存在意义的数据进行删除,例如大部分数据值都空缺或者相同的记录或者属性;
缺失数据填补单元,主要针对在数据采集、传输和存储过程中,由于疏忽或者设备故障等原因造成的值空缺的数据,负责用指定参数填补缺失,利用拟合曲线、平均值填补记录中的缺失值;
拟合曲线生成单元,主要负责根据数据曲线找到相似曲线,通过加权进行空缺填补和异常完善,生成拟合曲线;通过曲线相似性度量以找出最相似的N条曲线,再根据相似曲线通过加权得到该曲线的拟合曲线;
清洗结果对比单元,主要负责对比清洗前和清洗后的文件,计算清洗操作对文件的影响,即清洗前后数据的变化情况。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种时空流数据集成平台,其特征在于,包括:
数据传输模块,以分布式消息中间件为基础,建立控制和管理功能,供用户建立“数据源-连接器-消息中间件-连接器-数据目的地”之间的传输通道;
用户管理模块,用于注册和审核用户、管理历史操作日志,以及为用户分配权限;
任务管理模块,提供任务的新建、控制和通知功能;任务是指通过数据传输模块建立的传输通道执行和完成一次数据传输的过程;
运维监控模块,通过可视化运维看板管控所有数据传输过程和进展情况,提供多样化的图表;
实时计算模块,结合流式处理的分布式计算中间件,以API接口方式提供针对时空流数据的过滤、聚合、汇总实时计算;
数据清洗模块,提供自动化的纠正和转换方法,处理存在的无效数据、重复数据、异常数据。
2.如权利要求1所述的时空流数据集成平台,其特征在于,
用户管理模块通过系统界面接收请求,进行权限验证后将权限转发给任务管理模块、实时计算模块、运维监控模块和数据传输模块;
实时计算模块通过消息中间件提供的调用接口输出数据进行处理、运维监控模块通过消息中间件提供的接口读取日志和运行状态,处理后进行呈现;
任务管理模块通过进程调用消息中间件的控制接口,实现任务管理;
数据传输模块通过接口调用实现连接器和消息中间件的参数配置。
3.如权利要求1所述的时空流数据集成平台,其特征在于,
数据传输模块具体包括:
节点管理单元,用于新增、配置、修改和检测物理节点;
连接器管理单元,提供多个连接器的新建、配置、控制;显示正在运行的连接器列表和状态,实现连接器启动、暂停、停止和恢复,设置定时信息,包括执行频率和执行时间;
传输管理单元,用于通过可视化界面和拖拽方式实现数据源和数据目的地的传输管道,传输管理包含如下内容:连接配置、错误提示、内容管理。
4.如权利要求1所述的时空流数据集成平台,其特征在于,
用户管理模块包括:
用户与用户组单元:提供用户注册、审核、登录和个人信息管理功能,提供创建和管理用户组功能,并将用户进行分组管理;
权限管理单元,用于添加和删除用户权限;组权限允许特定组中的每个用户具有指定的权限;支持为用户和用户组设置以下权限:
管理权限;
读权限,可以查看任务信息和执行情况和日志信息;
写权限,可以新建连接器和任务;
执行权限,可以运行、暂定、恢复、取消任务;
调用权限,可以调用实时计算API,以调用实时计算模块中的各计算单元;
用户日志单元,记录并能够呈现用户登录、创建、执行任务的日志信息。
5.如权利要求1所述的时空流数据集成平台,其特征在于,
任务管理模块包括:
任务与任务组单元,提供任务和任务组的新建和编辑功能;供用户新建和删除任务,编写任务描述信息,说明任务或者任务组的意图,授予用户组管理任务的权限,或将任务分配至任务组中;
任务中心单元,呈现任务概览信息和运行状态,监控任务的执行情况,可视化管理数据传输过程,查看与任务相关的操作通知信息;
任务控制单元,用于进行,
任务取消:终止正在运行的任务并立即使任务失败;
任务暂停:阻止新任务或者连接器的运行,目前正在运行的任务、连接器照常进行;
任务恢复:恢复暂停执行;
任务重试:当任务仍处于活动状态时,重试将重新启动所有失败作业;
准备执行:设置任务运行的时间;
事件通知单元,在任务出现变更或执行过程中出现重大情况时,通知与任务相关的用户;每个任务均可设置如下通知项:任务变更、任务开始、任务失败、任务完成。
6.如权利要求1所述的时空流数据集成平台,其特征在于,
运维监控模块,包括:
集群概况监控单元:进行包括主题数量、broker节点数量和地址、监控分区数量、leader数量监控项目;
节点负载监控单元:进行包括数据流入/流出速度、CPU占用率、网络流入/流出速度、磁盘读写速度、IO等待情况、磁盘占有率、内存使用率监控项目;
数据传输监控单元:进行包括数据流入/流出总数、数据流入/流出速度、平均速度、1分钟或多分钟均速监控项目;
错误事件管理单元:实时收集所有的数据相关错误,以错误概览和详情方式呈现。
7.如权利要求1所述的时空流数据集成平台,其特征在于,
实时计算模块包括:
多维度组合过滤单元,根据给定的不同时间、空间维度的条件,查找符合条件的时空流数据;
交互级聚合查询单元,提供时空流数据的聚合方法;
预聚合单元,对实时写入后的时空流数据经过预聚合的运算,生成按指定规则的结果;
自动汇总单元,不同时间层面上把相同维度的数据做聚合,转换为更粗时间粒度的数据,但是还是拥有相同的维度。
8.如权利要求1所述的时空流数据集成平台,其特征在于,
清洗任务管理单元,主要负责对清洗任务的各个过程进行管理,包括任务控制、任务生成、任务列表;
异常数据刪除单元,主要负责,检测明显偏离所属样本的其余观测值的数据并对其值进行修正,利用拟合曲线或者聚类结果对异常数据进行处理;
无用数据删除,主要针对对于后续数据挖掘不存在意义的数据进行删除;
缺失数据填补单元,主要针对在数据采集、传输和存储过程中,由于疏忽或者设备故障原因造成的值空缺的数据,负责用指定参数填补缺失,利用拟合曲线、平均值填补记录中的缺失值;
拟合曲线生成单元,主要负责根据数据曲线找到相似曲线,通过加权进行空缺填补和异常完善,生成拟合曲线;
清洗结果对比单元,主要负责对比清洗前和清洗后的文件,计算清洗操作对文件的影响,即清洗前后数据的变化情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116408.0A CN111368165A (zh) | 2020-02-25 | 2020-02-25 | 时空流数据集成平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116408.0A CN111368165A (zh) | 2020-02-25 | 2020-02-25 | 时空流数据集成平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368165A true CN111368165A (zh) | 2020-07-03 |
Family
ID=71206305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116408.0A Pending CN111368165A (zh) | 2020-02-25 | 2020-02-25 | 时空流数据集成平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368165A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214866A (zh) * | 2020-08-25 | 2021-01-12 | 武汉船用机械有限责任公司 | 船用设备健康状况判定方法、装置和计算机设备 |
CN112445814A (zh) * | 2020-12-15 | 2021-03-05 | 北京乐学帮网络技术有限公司 | 一种数据获取方法、装置、计算机设备及存储介质 |
CN112487025A (zh) * | 2020-12-18 | 2021-03-12 | 广州奇享科技有限公司 | 数据查询方法、装置、电子设备及存储介质 |
CN112558995A (zh) * | 2020-12-24 | 2021-03-26 | 恩亿科(北京)数据科技有限公司 | 一种基于TBDS Hadoop的Flink集成方法和系统 |
CN113672401A (zh) * | 2021-07-07 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种批处理任务的触发方法、系统及计算机可读存储介质 |
CN113704341A (zh) * | 2021-08-30 | 2021-11-26 | 远景智能国际私人投资有限公司 | 数据采集系统和方法 |
CN113824759A (zh) * | 2021-08-02 | 2021-12-21 | 浪潮软件股份有限公司 | 政务服务大厅签到数据传输处理方法及计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908178A (zh) * | 2010-08-13 | 2010-12-08 | 广州联奕信息科技有限公司 | 应用于数据交换的中间件及数据交换方法 |
CN106326006A (zh) * | 2016-08-23 | 2017-01-11 | 成都卡莱博尔信息技术股份有限公司 | 针对数据平台任务流的任务管理系统 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
CN108306980A (zh) * | 2018-03-06 | 2018-07-20 | 北京工业大学 | 一种机务飞行保障大数据日志分析系统 |
CN110704280A (zh) * | 2019-10-10 | 2020-01-17 | 南方电网数字电网研究院有限公司 | 一种主数据监控系统 |
-
2020
- 2020-02-25 CN CN202010116408.0A patent/CN111368165A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908178A (zh) * | 2010-08-13 | 2010-12-08 | 广州联奕信息科技有限公司 | 应用于数据交换的中间件及数据交换方法 |
CN106326006A (zh) * | 2016-08-23 | 2017-01-11 | 成都卡莱博尔信息技术股份有限公司 | 针对数据平台任务流的任务管理系统 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
CN108306980A (zh) * | 2018-03-06 | 2018-07-20 | 北京工业大学 | 一种机务飞行保障大数据日志分析系统 |
CN110704280A (zh) * | 2019-10-10 | 2020-01-17 | 南方电网数字电网研究院有限公司 | 一种主数据监控系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214866A (zh) * | 2020-08-25 | 2021-01-12 | 武汉船用机械有限责任公司 | 船用设备健康状况判定方法、装置和计算机设备 |
CN112214866B (zh) * | 2020-08-25 | 2023-11-17 | 武汉船用机械有限责任公司 | 船用设备健康状况判定方法、装置和计算机设备 |
CN112445814A (zh) * | 2020-12-15 | 2021-03-05 | 北京乐学帮网络技术有限公司 | 一种数据获取方法、装置、计算机设备及存储介质 |
CN112487025A (zh) * | 2020-12-18 | 2021-03-12 | 广州奇享科技有限公司 | 数据查询方法、装置、电子设备及存储介质 |
CN112558995A (zh) * | 2020-12-24 | 2021-03-26 | 恩亿科(北京)数据科技有限公司 | 一种基于TBDS Hadoop的Flink集成方法和系统 |
CN113672401A (zh) * | 2021-07-07 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种批处理任务的触发方法、系统及计算机可读存储介质 |
CN113824759A (zh) * | 2021-08-02 | 2021-12-21 | 浪潮软件股份有限公司 | 政务服务大厅签到数据传输处理方法及计算机可读介质 |
CN113704341A (zh) * | 2021-08-30 | 2021-11-26 | 远景智能国际私人投资有限公司 | 数据采集系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368165A (zh) | 时空流数据集成平台 | |
CN107689953B (zh) | 一种面向多租户云计算的容器安全监控方法及系统 | |
US20230004434A1 (en) | Automated reconfiguration of real time data stream processing | |
CN103873279B (zh) | 一种服务器管理方法,及装置 | |
CN113515499B (zh) | 一种数据库服务方法及系统 | |
US20100057780A1 (en) | Action execution management facility for service configuration items | |
CN105631026A (zh) | 一种安全数据分析系统 | |
CN102638378B (zh) | 一种集成异构存储设备的海量存储系统监控方法 | |
WO2012000997A1 (en) | An apparatus for processing a batched unit of work | |
CN115277566B (zh) | 数据访问的负载均衡方法、装置、计算机设备及介质 | |
CN108052358B (zh) | 一种分布式部署的系统和方法 | |
US10476739B1 (en) | System and method for central administration of multiple application environments | |
CN104618455A (zh) | 一种通用缓存系统及其方法 | |
CN107480027A (zh) | 一种分布式深度学习运维系统 | |
CN115391361A (zh) | 一种基于分布式数据库的实时数据处理方法及其装置 | |
CN113242157A (zh) | 一种分布式处理环境下的集中式数据质量监测方法 | |
CN111240936A (zh) | 一种数据完整性校验的方法及设备 | |
CN108833451B (zh) | 基于国产安全管控平台的多级管控系统及管控方法 | |
CN117729576A (zh) | 告警监控方法、装置、设备及存储介质 | |
WO2019112581A1 (en) | System, method, and apparatus for managing a storage area network | |
CN116260703A (zh) | 分布式消息服务节点cpu性能故障自恢复方法及装置 | |
CN116016028B (zh) | 基于IPVlan为Pod创建多个网络接口的方法、系统、介质及设备 | |
CN117370451A (zh) | 一种基于区块链的大数据访问控制方法 | |
CN204425400U (zh) | 应用服务器系统 | |
CN103514044A (zh) | 一种动态行为分析系统的资源优化方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |