CN111078781B - 一种多源流式大数据融合汇聚处理框架模型实现方法 - Google Patents

一种多源流式大数据融合汇聚处理框架模型实现方法 Download PDF

Info

Publication number
CN111078781B
CN111078781B CN201911395133.2A CN201911395133A CN111078781B CN 111078781 B CN111078781 B CN 111078781B CN 201911395133 A CN201911395133 A CN 201911395133A CN 111078781 B CN111078781 B CN 111078781B
Authority
CN
China
Prior art keywords
data
source
streaming
processing
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911395133.2A
Other languages
English (en)
Other versions
CN111078781A (zh
Inventor
俞鹏飞
冯磊
李芝权
杨永刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fifth Research Institute Of Telecommunications Technology Co ltd
Original Assignee
Fifth Research Institute Of Telecommunications Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fifth Research Institute Of Telecommunications Technology Co ltd filed Critical Fifth Research Institute Of Telecommunications Technology Co ltd
Priority to CN201911395133.2A priority Critical patent/CN111078781B/zh
Publication of CN111078781A publication Critical patent/CN111078781A/zh
Application granted granted Critical
Publication of CN111078781B publication Critical patent/CN111078781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多源流式大数据融合汇聚处理框架模型实现方法,包括:多源流式数据采集实现方法包括:流式数据采集代理和多源流式数据采集服务,提供汇聚元数据标准,进行流式多源数据采集;多源流式数据融合处理实现方法包括:多源流式数据融合汇聚,提供基于Flink&Spark Stream流式处理引擎,依据汇聚元数据标准,配置采集的流式多源数据融合进行流式数据处理,加工为符合汇聚元数据标准要求的汇聚元数据,进行规整化汇聚元数据标准存储,为汇聚数据统计挖掘分析提供数据。本发明融合大数据处理主流Flink、Sprakstream开源技术组件,解决多源数据融合汇聚处理中的多源数据互补、特征算子化加工、汇聚元数据标准化、流式目标数据匹配。

Description

一种多源流式大数据融合汇聚处理框架模型实现方法
技术领域
本发明涉及流式大数据汇聚处理领域,尤其是一种多源流式大数据融合汇聚处理框架模型实现方法。
背景技术
目前,流式数据处理应用主要热点在分布式云计算领域。如在一篇申请号为“CN201110450268.1”的中国专利申请文件中公开了一种适用流式处理的大规模数据连续分析系统实现方法,其适用流式处理的大规模数据连续分析系统,包括元数据管理模块,用于管理数据表和数据库的元信息;查询计划生成模块,用于接收查询请求,生成优化的查询计划;数据导入任务生成模块,用于接收数据导入请求,生成数据导入MR作业集;增量处理模块,用于并行地增量地提交Hadoop系统数据导入和查询作业;MR消息处理模块,用于接收Hadoop系统的Map或Reduce函数的结果,将结果输出给Reduce端或下一个作业;数据库连接模块,用于作为Hadoop系统和数据库之间的接口。该发明使用Hadoop系统将各节点中的数据库有机组织在一起,并发地执行数据导入和数据查询,使用管道技术改进MapReduce(MR)执行流程,使得数据查询以连续的流水的方式执行,大大缩短了大规模数据分析的时间。
上述专利技术方案的存在的主要问题:
1、在于对数据采用传统的增量迭代处理来实现流式数据处理,并非真正的流式处理方法,不适应具备时效性特征的数据目标的发现。
2、没有提出满足高性能的流式数据加工处理,以及其对数据的处理内在规律分析等方面有效实现技术方法
3、没有给出面向多源数据的融合汇聚处理的技术方案,不适用于多源流式数据融合汇聚处理。
4、没有给出用户可定义的多源数据融合汇聚处理可定义的技术方法。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种多源流式大数据融合汇聚处理框架模型实现方法。
本发明采用的技术方案如下:
一种多源流式大数据融合汇聚处理框架模型实现方法,包括多源流式数据采集实现方法和多源流式数据融合处理实现方法;
所述多源流式数据采集实现方法包括:
流式数据采集代理,实现多源流式数据源节点的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
多源流式数据采集服务,提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务;其中,汇聚元数据标准与流式多源数据间的映射关系服务转换为流式数据采集代理需求配置,下发给流式数据采集代理;并管理和接收流式数据采集代理的回传数据,再将流式数据采集代理的回传数据融合分类标识后通过数据总线后传给多源流式数据融合汇聚;
所述多源流式数据融合处理实现方法包括:
多源流式数据融合汇聚,提供基于Flink&Spark Stream流式处理引擎,依据多源流式数据融合汇聚制定的汇聚元数据标准,配置采集的流式多源数据融合进行流式数据处理,加工为符合汇聚元数据标准要求的汇聚元数据,进行规整化汇聚元数据标准存储,为汇聚数据统计挖掘分析提供数据;
汇聚数据统计挖掘分析,提供基于Spark大数据计算,对汇聚元数据进行专题挖掘分析生成新质元数据;
多源数据采集融合汇聚应用服务:提供流式数据采集代理、多源流式数据采集服务、多源流式数据融合汇聚和汇聚数据统计挖掘分析的应用服务及其交互界面。
进一步,实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件;
所述流式数据采集代理组件,提供流式数据源接口用于流式多源数据的抽取/接入,实现流式多源数据的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
所述多源流式数据采集服务组件包括:
数据采集流程处理器,实现对采集的流式多源数据进行数据校验、数据清洗、数据转换、数据输出的流程可视化与编排;
数据采集web服务,实现数据采集任务的统一管理、调度和监控,以及提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务,并通过数据采集流程处理器下发给多源流式数据采集服务组件。
进一步,所述流式数据采集代理组件提供的流式数据源接口,实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。
进一步,实现所述多源流式数据融合汇聚的组件包括:数据流作业组件和流式处理配置管理web管理服务;
所述流式处理配置管理web管理服务,提供数据补全规则、目标匹配规则、加工算子及存储规则的配置,并提供数据融合处理配置,用于用户指定任一数据流作业进行数据补全规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置;
所述数据流作业组件,针对Flink或Spark Stream提交的数据流,依据数据融合处理配置加载处理流程制定的数据补全规则、目标匹配规则、加工算子及存储规则后,对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明融合大数据处理主流Flink、Sprakstream开源技术组件,解决多源数据融合汇聚处理中的多源数据互补、特征算子化加工、汇聚元数据标准化、流式目标数据匹配。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的多源流式大数据融合汇聚处理框架模型的示意图。
图2为本发明的实现所述流式数据采集的组件的示意图。
图3为本发明的实现所述多源流式数据融合汇聚的组件的示意图。
图4为本发明的多源流式大数据融合汇聚处理框架模型工作原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种多源流式大数据融合汇聚处理框架模型实现方法,包括多源流式数据采集实现方法和多源流式数据融合处理实现方法;
所述多源流式数据采集实现方法包括:
流式数据采集代理,实现多源流式数据源节点的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
多源流式数据采集服务,提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务;其中,汇聚元数据标准与流式多源数据间的映射关系服务转换为流式数据采集代理需求配置,下发给流式数据采集代理;并管理和接收流式数据采集代理的回传数据,再将流式数据采集代理的回传数据融合分类标识后通过数据总线后传给多源流式数据融合汇聚;
所述多源流式数据融合处理实现方法包括:
多源流式数据融合汇聚,提供基于Flink&Spark Stream流式处理引擎,依据多源流式数据融合汇聚制定的汇聚元数据标准,配置采集的流式多源数据融合进行流式数据处理,加工为符合汇聚元数据标准要求的汇聚元数据,进行规整化汇聚元数据标准存储,为汇聚数据统计挖掘分析提供数据;
汇聚数据统计挖掘分析,提供基于Spark大数据计算,对汇聚元数据进行专题挖掘分析生成新质元数据;
多源数据采集融合汇聚应用服务:提供流式数据采集代理、多源流式数据采集服务、多源流式数据融合汇聚和汇聚数据统计挖掘分析的应用服务及其交互界面。
如图2所示,实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件;
所述流式数据采集代理组件,提供流式数据源接口用于流式多源数据的抽取/接入,实现流式多源数据的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;通过所述流式数据采集代理组件完成分布在不同地域的多源流式数据源节点数据采集接入,并通过网络回传到多源流式数据采集服务组件,具备单独部署能力。流式数据采集代理组件与多源流式数据源节点个性化定制实现,具备在既有数据源系统接口的主机上进行接口编程的便利条件,可以在原生环境中适配数据源系统业务伸缩发展带来的复杂环境。同时前置流式数据采集代理组件与数据源系统同机房便于处理节点间网络异常的容错处理能力。
其中,所述流式数据采集代理组件提供的流式数据源接口,实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。
所述多源流式数据采集服务组件具备多服务集群部署能力,保证数据采集流量、规模、性能的动态伸缩能力,包括:
数据采集流程处理器,实现对采集的流式多源数据进行数据校验、数据清洗、数据转换、数据加载/输出的流程可视化与编排;
数据采集web服务,实现数据采集任务的统一管理、调度和监控,以及提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务,并通过数据采集流程处理器下发给多源流式数据采集服务组件。
其中,数据采集流程处理器实现的数据校验、数据清洗、数据转换、数据加载/输出的的功能如下:
数据清洗:数据去重、脏数据、数据标准清洗;
数据校验:文件校验、数据校验、元数据标准校验;
数据转换:数据类型归一转换、数值转换、数据字段转换等;
数据输出:抽取到的数据输出到Kafka、ES索引自动生成、写入文件系统;抽取完成的数据批量写入数据库Oracle、MySQL、GBase、HBase和MPP等。具体数据输出方式由数据服务接口进行配置。
如图3所示,实现所述多源流式数据融合汇聚的组件包括:数据流作业组件和流式处理配置管理web管理服务;
所述流式处理配置管理web管理服务,提供数据补全规则、目标匹配规则、加工算子及存储规则的配置,并提供数据融合处理配置,用于用户指定任一数据流作业进行数据补全规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置;
所述数据流作业组件,针对Flink或Spark Stream提交的数据流,依据数据融合处理配置加载处理流程制定的数据补全规则、目标匹配规则、加工算子及存储规则后,对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理。
其中,进行数据补全规则、目标匹配规则、加工算子及存储规则的配置方法为:
数据补全规则:是指针对数据流间进行补全关系,支持用户基于知识库(如IP归属知识库等)进行补全,基于多源流式数据间字段信息交叉抽取补全(如A数据流具有用户的位置性,B数据源具有用户的身份属性信息),内在关联业务数据间交叉印证补全(如A数据为用户访问某网站行为记录,B数据为用户与某网站的交互内容记录)。
目标匹配规则:是指基于正则表达式定义目标发现预警配置,即针对数据汇聚库中的某些字段进行正则表达式逻辑匹配(如在电商交易流式数据匹配出交易额度高于10万以上的用户)。
加工算子:是指自定义数据(特征)加工算子,即将流式多源数据中的信息叠加为某些高维特征字段的处理算子(如依据飞行器的航迹点加工出飞行器的飞行方向、加速度等特征维度字段)。
存储规则:支撑用户定义数据存储的位置,流式多源数据与汇聚元数据标准的字段映射关系。
如图4所示,通过上述的一种多源流式大数据融合汇聚处理框架模型实现方法,实现的多源流式大数据融合汇聚处理框架模型的工作原理如下:
(1)控制工作原理:
采集规则流程控制:
用户基于数据采集web服务,首先完成采集流式多源数据及汇聚元数据标准配置;其次,完成汇聚元数据标准与流式多源数据间的映射关系服务的配置,同时针对每个采集的流式多源数据的数据集进行数据校验、数据清洗、数据转换以及数据输出的采集处理流程配置;最后,根据流式数据源的流式数据采集代理分布情况分发相应的采集数据参数。
多源流式数据融合汇聚控制:
用户基于流式处理配置管理web管理服务,首先对与流式数据源与汇聚元数据存在差异或无法直接形成对应映射关系接对应的,通过配置的数据补全规则和加工算子对数据流间进行补全关系或自定义数据(特征)加工算子将流式多源数据加工处理为汇聚元数据标准所需的数据;其次,用户根据实际业务需要,基于正则表达式配置流式实时匹配目标。最后,数据融合处理配置,用户指定任一数据流作业进行具体的数据补全规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置。
(2)数据采集汇聚工作原理
流式数据采集:流式数据采集代理完成分布在不同地域的多源流式数据源节点数据采集接入,并通过网络回传到数据融合汇聚节点的多源流式数据采集服务。多源流式数据采集服务接收采集流式数据采集代理的回传数据,基于制定汇聚元数据标准及相关配置进行数据校验、数据清洗、数据转换并进行分类标识后通过数据总线后输出给多源流式数据融合汇聚处理。
多源流式数据融合汇聚处理:数据作业流依据数据融合处理配置加载流程处理制定的数据补全规则、目标匹配规则、加工算子及存储规则后,对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理,包括补全规则处理、目标匹配规则处理、加工算子处理,最后依据存储规则将融合汇聚后的数据存入数据汇聚库,为汇聚数据统计挖掘分析提供数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种多源流式大数据融合汇聚处理框架模型实现方法,其特征在于,包括多源流式数据采集实现方法和多源流式数据融合处理实现方法;
所述多源流式数据采集实现方法包括:
流式数据采集代理,实现多源流式数据源节点的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
多源流式数据采集服务,提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务;其中,汇聚元数据标准与流式多源数据间的映射关系服务转换为流式数据采集代理需求配置,下发给流式数据采集代理;并管理和接收流式数据采集代理的回传数据,再将流式数据采集代理的回传数据融合分类标识后通过数据总线后传给多源流式数据融合汇聚;
所述多源流式数据融合处理实现方法包括:
多源流式数据融合汇聚,提供基于Flink&Spark Stream流式处理引擎,依据多源流式数据融合汇聚制定的汇聚元数据标准,配置采集的流式多源数据融合进行流式数据处理,加工为符合汇聚元数据标准要求的汇聚元数据,进行规整化汇聚元数据标准存储,为汇聚数据统计挖掘分析提供数据;
汇聚数据统计挖掘分析,提供基于Spark大数据计算,对汇聚元数据进行专题挖掘分析生成新质元数据;
多源数据采集融合汇聚应用服务:提供流式数据采集代理、多源流式数据采集服务、多源流式数据融合汇聚和汇聚数据统计挖掘分析的应用服务及其交互界面;
实现所述多源流式数据融合汇聚的组件包括:数据流作业组件和流式处理配置管理web管理服务;
所述流式处理配置管理web管理服务,提供数据补全规则、目标匹配规则、加工算子及存储规则的配置,并提供数据融合处理配置,用于用户指定任一数据流作业进行数据补全规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置;
所述数据流作业组件,针对Flink或Spark Stream提交的数据流,依据数据融合处理配置加载处理流程制定的数据补全规则、目标匹配规则、加工算子及存储规则后,对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理;其中,数据补全规则、目标匹配规则、加工算子及存储规则的配置方法为:
数据补全规则:是指针对数据流间进行补全关系,支持用户基于知识库进行补全,基于多源流式数据间字段信息交叉抽取补全,内在关联业务数据间交叉印证补全;
目标匹配规则:是指基于正则表达式定义目标发现预警配置,即针对数据汇聚库中的某些字段进行正则表达式逻辑匹配;
加工算子:是指自定义数据加工算子,即将流式多源数据中的信息叠加为某些高维特征字段的处理算子;
存储规则:支撑用户定义数据存储的位置,流式多源数据与汇聚元数据标准的字段映射关系。
2.根据权利要求1所述的多源流式大数据融合汇聚处理框架模型实现方法,其特征在于,实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件;
所述流式数据采集代理组件,提供流式数据源接口用于流式多源数据的抽取/接入,实现流式多源数据的数据采集,并将采集的流式多源数据回传到给多源流式数据采集服务;
所述多源流式数据采集服务组件包括:
数据采集流程处理器,实现对采集的流式多源数据进行数据校验、数据清洗、数据转换、数据输出的流程可视化与编排;
数据采集web服务,实现数据采集任务的统一管理、调度和监控,以及提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准,并配置汇聚元数据标准与流式多源数据间的映射关系服务,并通过数据采集流程处理器下发给多源流式数据采集服务组件。
3.根据权利要求2所述的多源流式大数据融合汇聚处理框架模型实现方法,其特征在于,所述流式数据采集代理组件提供的流式数据源接口,实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。
CN201911395133.2A 2019-12-30 2019-12-30 一种多源流式大数据融合汇聚处理框架模型实现方法 Active CN111078781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911395133.2A CN111078781B (zh) 2019-12-30 2019-12-30 一种多源流式大数据融合汇聚处理框架模型实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911395133.2A CN111078781B (zh) 2019-12-30 2019-12-30 一种多源流式大数据融合汇聚处理框架模型实现方法

Publications (2)

Publication Number Publication Date
CN111078781A CN111078781A (zh) 2020-04-28
CN111078781B true CN111078781B (zh) 2023-05-26

Family

ID=70319631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911395133.2A Active CN111078781B (zh) 2019-12-30 2019-12-30 一种多源流式大数据融合汇聚处理框架模型实现方法

Country Status (1)

Country Link
CN (1) CN111078781B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858732B (zh) * 2020-07-14 2024-04-05 北京北大软件工程股份有限公司 数据融合方法及终端
CN112287007B (zh) * 2020-10-30 2022-02-11 常州微亿智造科技有限公司 基于Flink SQL引擎的工业生产数据实时处理方法、系统
CN116303832B (zh) * 2023-05-17 2024-04-09 鹏城实验室 一种可评价的汇聚多源数据的方法及相关装置
CN116719806A (zh) * 2023-08-11 2023-09-08 尚特杰电力科技有限公司 大数据计算分析系统
CN117874700A (zh) * 2024-01-19 2024-04-12 中国民航科学技术研究院 航班运行数据处理评估系统、方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统
CN108985531A (zh) * 2017-06-01 2018-12-11 中国科学院深圳先进技术研究院 一种多模异构电力大数据融合分析管理系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198298B2 (en) * 2015-09-16 2019-02-05 Salesforce.Com, Inc. Handling multiple task sequences in a stream processing framework
US10146592B2 (en) * 2015-09-18 2018-12-04 Salesforce.Com, Inc. Managing resource allocation in a stream processing framework
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用
WO2019084465A1 (en) * 2017-10-27 2019-05-02 Streamsimple, Inc. CONTINUOUS DIFFUSION MICRO-SERVICES FOR FLOW PROCESSING APPLICATIONS
CN108564254B (zh) * 2018-03-15 2021-04-09 国网四川省电力公司绵阳供电公司 基于大数据的配电设备状态可视化平台
CN109542859A (zh) * 2018-10-18 2019-03-29 天津大学 一种基于云计算的海事信息处理模型
CN109920522A (zh) * 2018-11-30 2019-06-21 广州百家医道健康管理股份有限公司 一种居民健康管理医疗大数据平台
CN110377653B (zh) * 2019-07-15 2021-05-07 武汉中地数码科技有限公司 一种实时大数据计算与存储方法及系统
CN110502559A (zh) * 2019-07-25 2019-11-26 浙江公共安全技术研究院有限公司 一种可信安全跨域数据交换的数据总线及传输方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985531A (zh) * 2017-06-01 2018-12-11 中国科学院深圳先进技术研究院 一种多模异构电力大数据融合分析管理系统及方法
CN107577805A (zh) * 2017-09-26 2018-01-12 华南理工大学 一种面向日志大数据分析的业务服务系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吕亮亮."基于Spark的电信客户细分数据分析平台实现和应用".《中国优秀硕士学位论文全文数.2019,全文. *
辛宇 ."基于Spark的数据挖掘技术在ERP系统上的研究与应用".《中国优秀硕士学位论文全文数.2019,全文. *

Also Published As

Publication number Publication date
CN111078781A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111078781B (zh) 一种多源流式大数据融合汇聚处理框架模型实现方法
US11816126B2 (en) Large scale unstructured database systems
CN104767813B (zh) 基于openstack的公众行大数据服务平台
CN106372114B (zh) 一种基于大数据的联机分析处理系统和方法
JP6117378B2 (ja) 分散型データベースクエリ・エンジン用のシステムおよび方法
CN106095862B (zh) 集中式可扩展融合型多维复杂结构关系数据的存储方法
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
CN103246749B (zh) 面向分布式计算的矩阵数据库系统及其查询方法
CN107301205A (zh) 一种大数据分布式实时查询方法及系统
Allam Components and development in big data system: A survey
CN109582717A (zh) 一种面向电力大数据的数据库统一平台及其读取方法
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及系统
CN112347071B (zh) 一种配电网云平台数据融合方法及配电网云平台
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
Soumaya et al. Real-time data stream processing challenges and perspectives
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
Gupta et al. Smartbench: A benchmark for data management in smart spaces
CN112559634A (zh) 一种基于计算机云计算大数据用数据管理系统
CN107895046A (zh) 一种异构数据集成平台
CN114297173A (zh) 一种面向大规模海量数据的知识图谱构建方法和系统
Mostajabi et al. A systematic review of data models for the big data problem
CN112328667B (zh) 一种基于数据血缘的页岩气田地面工程数字化移交方法
Yuan et al. VDB-MR: MapReduce-based distributed data integration using virtual database
CN109933622A (zh) 一种数据可视化系统及实现方法
CN114817226A (zh) 政府数据的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant