CN111026432A - 一种大数据处理平台、平台构建方法和存储介质 - Google Patents

一种大数据处理平台、平台构建方法和存储介质 Download PDF

Info

Publication number
CN111026432A
CN111026432A CN201911241175.0A CN201911241175A CN111026432A CN 111026432 A CN111026432 A CN 111026432A CN 201911241175 A CN201911241175 A CN 201911241175A CN 111026432 A CN111026432 A CN 111026432A
Authority
CN
China
Prior art keywords
data
component
data processing
platform
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911241175.0A
Other languages
English (en)
Inventor
赵世辉
陈铭新
李晓敦
唐景峰
翁世清
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201911241175.0A priority Critical patent/CN111026432A/zh
Publication of CN111026432A publication Critical patent/CN111026432A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种大数据处理平台、平台构建方法和存储介质。该平台包括:数据采集模块、数据处理模块、数据存储模块和数据输出模块;通过数据采集模块接收外部数据,并通过数据处理模块对外部数据中的元数据信息进行数据处理,得到数据处理结果,以及通过数据处理模块将外部数据中的实际数据存储至数据存储模块;数据输出模块通过统一数据访问接口输出数据处理结果,以对外提供服务。本发明实施例通过以元数据为驱动,将各个模块的功能进行有效串联,形成高效融合的大数据平台,提升了应用构建和运行的效率。

Description

一种大数据处理平台、平台构建方法和存储介质
技术领域
本发明实施例涉及大数据技术,尤其涉及一种大数据处理平台、平台构建方法和存储介质。
背景技术
在大数据处理过程中,需要用到多种技术和数据处理方式。对用户来说,要把所需要的大数据技术整合在一个环境里,需要耗费较多的时间和精力。并且,大数据技术更新升级速度快,用户建立的大数据应用经常会因为底层技术的更迭,不断适配和调整,增加维护的复杂度和成本。因此,如何建立一种集基础资源提供、技术工具提供、数据提供等功能于一体的大数据处理平台,是一个亟待解决的问题。
发明内容
有鉴于此,本发明提供一种大数据处理平台、平台构建方法和存储介质,提升了应用构建和运行的效率。
第一方面,本发明实施例提供了一种大数据处理平台,包括:数据采集模块、数据处理模块、数据存储模块和数据输出模块;
通过所述数据采集模块接收外部数据,并通过所述数据处理模块对所述外部数据中的元数据信息进行数据处理,得到数据处理结果,以及通过所述数据处理模块将所述外部数据中的实际数据存储至所述数据存储模块;
所述数据输出模块通过统一数据访问接口输出所述数据处理结果,以对外提供服务。
第二方面,本发明实施例还提供了一种大数据处理平台的构建方法,包括:
根据预先配置的业务需求确定大数据处理平台具备的多个通用能力;
基于预设的统一架构规范和原则,配置每个所述通用能力对应的技术组件;
以元数据信息为驱动,对每个所述技术组件进行串联,构建对应的大数据处理平台。
第三方面,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的大数据处理平台的构建方法。
本发明通过数据采集模块接收到外部数据之后,直接通过数据处理模块对外部数据中的元数据信息进行数据处理,得到数据处理结果,并通过数据输出模块输出数据处理结果,以对外提供服务,实现了以元数据为驱动,将各个模块的功能进行有效串联,形成高效融合的大数据平台,提升了应用构建和运行的效率。
附图说明
图1是现有技术中提供的一种大数据处理功能框架对应的产品架构图;
图2是现有技术中提供的一种建设体系的结构框图;
图3是现有技术中提供的一种技术产品的结构框图;
图4是本发明实施例提供的一种大数据处理平台的结构框图;
图5是本发明实施例提供的一种大数据处理平台中各组件间的关系示意图;
图6是本发明实施例提供的一种大数据处理平台的构建方法的流程图;
图7是本发明实施例提供的一种平台通用能力框架示意图;
图8是本发明实施例提供的另一种大数据处理平台中各组件间的关系示意图;
图9是本发明实施例提供的一种平台能力组合示意图;
图10是本发明实施例提供的一种云化大数据平台的物理部署示意图;
图11是本发明实施例提供的一种大数据处理平台的构建装置的结构框图;
图12是本发明实施例提供的一种设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
对于一个大数据处理平台来说,首要任务是有效的整合各种技术,形成功能全面、适用不同用户需求的开发应用环境。这个平台至少应具备数据采集、数据存储、数据管理、数据分析、数据展示等能力,涵盖大数据处理流程中的技术和资源。数据采集要能够从不同数据源,把不同形式的数据提取到加工环境中,按照应用的要求进行存储、加工和管理,再以多样化的手段进行分析和展示,从而实现大数据应用的整个流程。其次,为了降低应用建设的技术门槛,让构建过程便捷高效、底层技术对用户透明无感,平台需要以云计算的方式提供服务,每一种服务都要满足多租户资源隔离、资源动态伸缩、资源计量、数据安全保障等云化能力要求,让用户在一个相对独立的空间内完成所有工作,并以最低的成本、最高的资源利用率交付和运行。
示例性地,在现有技术中,存在两个大数据处理平台,比如,腾讯大数据处理套件(Tencent Big Data Suite,TBDS)和阿里大数据平台。
其中,TBDS是腾讯公司开发的大数据处理平台,提供实时流数据处理、离线批数据分析、实时多维分析等场景的数据分析,提供了全链路的数据开发以及数据治理服务帮助提升大数据开发效率。
图1是现有技术中提供的一种大数据处理功能框架对应的产品架构图。如图1所示,TBDS产品架构通过两层架构实现大数据处理的过程。其中,下层(即大数据套件组件层)是TBDS的核心,离线、实时数据接入后,进入以Hadoop技术为基础的组件功能集合,实现批量计算、流式计算,调度组件按照时间周期触发相关处理作业,处理结果存放在HBase、Kylin、Hermes等组件或产品中,用于报表展示或广告推荐;上层(即管理控制台)是对TBDS产品进行监控和管理,并提供一个数据开发环境,实现数据采集、存储、计算工作流任务的开发。
图2是现有技术中提供的一种建设体系的结构框图,图3是现有技术中提供的一种技术产品的结构框图。其中,阿里大数据平台是由一套建设体系(如图2所示)和多种技术产品(如图3所示)组成的综合体。如图2所示,大数据建设体系由OneID体系、OneData体系和OneService体系这三个子体系组成,OneID体系是数据提取和管理方式,OneData体系是数据存储和处理技术,OneService体系是统一数据服务引擎。如图3所示,借助这套体系,将数据、技术和服务连接起来,形成一套相对完整的大数据应用建设方法。在技术方面,提供了批量、实时、流计算、对象存储等核心存储处理引擎,DataWorks(数加)、元数据管理、任务调度等数据构建和管理工具,以及最上层提供的数据集成、数据传输、BI分析、大屏、机器学习等通用技术产品服务。
由于TBDS主要面向互联网场景,并且,TBDS各技术组件和产品相对独立,没有形成统一的产品体系,相互调用和衔接较困难。
而阿里大数据平台是通过建设方法论和各种工具连接形成的一套逻辑上统一的环境;并且,阿里的技术体系相对封闭,无法快速扩充开源技术组件;各类工具依赖其底层技术,学习和修改难度大;内部各产品相互独立,协调工作能力不强,无法根据用户需要组装成不同的工作环境。
有鉴于此,本发明针对以下几个问题:平台整体化能力不足的问题,产品功能不丰富和功能能力不强的问题,产品组件的云计算的特性不足的问题。
其一,平台整体化能力不足的问题:现有大部分大数据平台都是对多个技术组件或产品进行逻辑整合,各技术组件独立运行,组件间衔接不畅。特别是用户体系没有打通,导致用户在多个产品间存在重复登录;数据体系没有打通,在其他技术组件中的成果无法应用到另外的组件中。所以,本发明从顶层设计,以数据管理中的元数据为核心,各组件以数据为纽带紧密结合,能够更加高效的对外提供服务。
其二,产品功能不丰富,功能能力不强的问题:现有大数据平台主要面向互联网行业,以离线、非结构化分析为主要目标,对于其他行业支撑能力较弱。在功能扩充方面,各平台厂商基本为自研为主,但是因为大数据领域众多,对业务理解不深的原因,自研软件的软件效果不好。因此,本发明通过提取各行业对大数据平台需求的共同点来设计功能,保证了平台的通用性,同时,在平台架构上具备外部扩展能力,能够将外部成熟、先进的产品无缝集成到平台中,形成一个开放的生态体系。
其三,产品组件的云计算的特性不足的问题:现有平台大部分技术组件在设计时并没有将云计算特性作为其目标,因此在多租户、资源隔离、资源计量等方面考虑不足,更多的是通过托管模式提供服务。本发明实现的平台中的技术功能基于是原生的云计算设计,每个组件将云化的特性作为基础功能。此举可以提升大数据平台整体资源利用率和易用程序,减少中小型用户的使用成本。
本发明提出了一种大数据处理平台,具备大数据应用建设所需要的各种通用能力,并以平台即服务(Platform As A Service,PAAS)的方式提供服务,用户可以在平台上快速完成应用的开发和部署,提升应用构建和运行的效率。并且,在统一的架构下设计技术组件功能,使之能形成整体合力,而不是罗列更多的产品。另外,大数据处理平台应该架设在开放的框架下,以开源技术提升大数据平台功能的扩展性。
图4是本发明实施例提供的一种大数据处理平台的结构框图。如图4所示,大数据处理平台包括:数据采集模块10、数据处理模块20、数据存储模块30和数据输出模块40;
通过数据采集模块10接收外部数据,并通过数据处理模块20对外部数据中的元数据信息进行数据处理,得到数据处理结果,以及通过数据处理模块20将外部数据中的实际数据存储至数据存储模块30;
数据输出模块40通过统一数据访问接口输出数据处理结果,以对外提供服务。
在实施例中,在通过数据采集模块10接收到外部数据之后,直接通过数据处理模块20对外部数据中的元数据信息进行数据处理,得到数据处理结果,并通过数据输出模块40输出数据处理结果,以对外提供服务,实现了以元数据为驱动,将各个模块的功能进行有效串联,形成高效融合的大数据平台,提升了应用构建和运行的效率。
在一实施例中,图5是本发明实施例提供的一种大数据处理平台中各组件间的关系示意图,本实施例适用于形成一站式大数据应用环境的情况。如图5所示,数据采集模块10包括:数据采集组件110;数据存储模块30包括:存储与计算组件150;
数据处理模块20包括:数据集成组件120、智能调度组件130、数据管理组件140、存储与计算组件150、数据开发组件160、分析与可视化组件170、数据服务组件180和数据服务总线组件190;数据输出模块40包括:分析与可视化组件170,以及数据服务总线组件190;
其中,通过数据采集组件110接收外部数据,并通过智能调度组件130的控制将外部数据中的元数据信息登记至数据管理组件140,以及将外部数据中的实际数据写入存储与计算组件150;通过数据管理组件140收集各个组件中的数据描述和运行状态等元数据信息,以及对外提供元数据信息;通过数据开发组件160进行作业开发,并在作业开发过程中从数据管理组件140中获取元数据信息,以及将形成的作业代码路径和相关调度配置信息写入数据管理组件140,形成数据血缘信息;通过数据集成组件120提供的数据加工算子,对元数据信息进行过滤、变形和整合,并在智能调度组件130的控制下得到数据处理结果;由数据服务组件180通过统一数据访问接口输出数据处理结果,以对外提供服务。
本实施例的技术方案,在同一套架构和体系下构建各个技术组件,以形成技术架构高度一致的大数据平台;同时,以统一的元数据为核心,将各技术组件有效的串联,并且,各技术组件将数据描述和运行状态等元数据信息提供给数据管理组件,方便其他组件及时共享和获取状态,从而实现各组件有效地衔接,以及用户可以在大数据快速完成应用的开发和部署,提升应用构建和运行的效率。
在一实施例中,大数据平台还包括:通过存储与计算组件150读取元数据信息,并利用所述存储与计算组件150中的存储资源和计算资源对外部数据中的实际数据进行计算。
在一实施例中,智能调度组件130还用于:调配存储与计算组件中的不同计算资源。
在一实施例中,分析与可视化组件170,用于对数据处理结果进行分析挖掘和数据可视化展示;数据服务总线组件190,用于对外提供数据访问。
在一实施例中,分析与可视化组件170以及数据服务组件180用于从数据管理组件140获取元数据信息。
在一实施例中,元数据信息包括下述至少一项:数据结构、数据权限、存储路径、访问方式、运行信息和数据状态。
在实施例中,以数据采集组件110为入口,将外部数据抽取或传输至大数据处理平台,并通过智能调度组件130将外部数据中的元数据信息登记到数据管理组件140,以及将外部数据中的实际数据写入存储与计算组件150(存储部分),即整个过程通过智能调度组件130进行任务调度。由于数据管理组件140为所有组件的中枢,一方面收集各个组件中的元数据信息,另一方面对外提供元数据信息,包括数据结构、数据权限、存储路径、访问方式、运行信息和数据状态等。同时,根据业务需求,利用数据开发组件160进行作业开发,从数据管理组件140获取元数据信息,并将形成的作业代码路径和相关调度配置信息写入数据管理组件140,形成数据血缘等信息,即调度配置同步智能调度组件130。数据开发组件160形成的作业中利用数据集成组件提供的数据加工算子,实现对元数据信息的过滤、变形和整合,过程中包括从存储与计算组件150(存储部分)读取数据,使用存储与计算组件150(计算部分)中的资源完成计算(包括离线计算、流式计算、图计算等)。其中,智能调度组件130除了按照依赖关系运行所有代码外,还要承担不同计算资源的调配,保证处理过程满足用户定义的服务等级协议(Service-Level Agreement,SLA)指标。然后,加工后的结果由数据服务组件180通过统一的数据访问接口对外提供服务,一方面提供给分析与可视化组件170,用于数据的进一步分析挖掘和数据可视化展示;另一方面通过数据服务总线组件190对外提供数据访问,分析与可视化组件170、数据服务组件180也需要从数据管理组件140获取元数据信息。
本实施例的技术方案,通过数据采集组件、数据集成组件、智能调度组件、数据管理组件、存储与计算组件、数据开发组件、分析与可视化组件、数据服务组件和数据服务总线组件这九个技术组件构建的大数据处理平台,并以元数据信息为驱动,将九个技术组件的功能有效串联,形成高效融合的大数据平台,支持复杂的大数据应用构建。同时,各组件将数据描述和运行状态等元数据信息提供给数据管理组件,方便其他组件及时共享和获取状态,从而实现各组件有效的衔接。
图6是本发明实施例提供的一种大数据处理平台的构建方法的流程图,本实施例适用于构建统一架构的大数据处理平台的情况。如图6所示,本实施例包括如下步骤:
S210、根据预先配置的业务需求确定大数据处理平台具备的多个通用能力。
S220、基于预设的统一架构规范和原则,配置每个通用能力对应的技术组件。
S230、以元数据信息为驱动,对每个技术组件进行串联,构建对应的大数据处理平台。
在实施例中,首先确定大数据处理平台的功能,可以理解为,通过对各行业大数据能力的方法论的研究,对各行业典型大数据应用的分析,以及对现有市场上的技术进行总结,抽象提取了一个大数据处理平台应该具备的通用能力,涵盖了当前大数据处理所需要的通用能力。
其次,从用户易用性、技术扩展性、运行高效性的角度,设计每个通用能力之间的协作关系,并以此形成技术组件,同时,在保证“高内聚、低耦合”的要求下,将各技术组件形成一个整体能力,满足目前大、中、小型应用对大数据技术的要求。
最后,在组件设计开发中,形成统一的规范要求,如统一的用户对接、权限管理、数据安全等平台整体架构规范,多租户、资源计量、资源动态伸缩等云计算规范,组件对外提供的、对外部依赖的OpenAPI接口规范等,确保了平台技术的完整和统一,内部技术组件的原生云化能力,以及平台与第三方产品的对接和扩展能力。
在一实施例中,通用能力至少包括下述一项:数据采集能力、数据存储能力、数据交换能力、数据计算能力、数据调度能力、数据管理能力、数据集成能力、数据开发能力、数据分析能力、数据可视化能力、数据服务能力。
在实施例中,通过研究各行业专家学者对大数据应用构建所需能力的研究理论成果,然后从资源、技术、管理等多个层面抽象提取大数据平台应该具备的能力,最终形成大数据处理平台的初始框架模型。该框架模型包含数据获取、数据处理、数据应用三个维度的能力,能够涵盖在大数据处理过程中的能力要求。
其中,数据获取能力是指搜集数据资源,筛选对业务发展有价值的信息。数据获取能力的关键在于获取方式和支持数据种类的多样性,以及对高质量数据的选择,从复杂繁多的数据中提取出有价值的数据。
数据处理能力是在获取数据的基础上,以业务需求为目标,对数据进行存储、计算、管理的能力。数据经过加工处理后,可以更容易找到其中的相关性,预测发生规律,指导业务决策。
数据应用能力,指的是经过处理的数据更具价值和易于使用,为数据共享、分析问题、解决问题等提供支持,利用大数据对业务场景的重新规划,进行应用的重构和升级,提升业务能力和企业效能。
在以上三个维度中,数据获取能力是基础,数据处理能力是核心,数据应用能力则是判断标准。本发明中的大数据处理平台以上述框架模型为基础,结合各行业大数据应用案例分析、市场主流产品功能、大数据技术发展趋势,形成了以下能力框架。
图7是本发明实施例提供的一种平台通用能力框架示意图。如图6所示,大数据能力包括:数据获取能力、数据处理能力和数据应用能力;其中,数据获取能力包括:数据采集能力和数据交换能力;数据处理能力包括:数据存储能力、数据计算能力、数据调度能力和数据管理能力;数据应用能力包括:数据集成能力、数据开发能力、数据分析能力、数据可视化能力和数据服务能力。
如图7所示,框架中最下层的数据采集、数据交换、数据存储、数据计算、数据调度、数据管理、数据集成、数据开发、数据分析、数据可视化、数据服务共计十一项通用能力能够涵盖目前大数据处理过程中所需的所有能力,并且,通过上层三个能力维度之间的关系,能够将这十一个能力有效的串联,形成平台整体能力。
在一实施例中,以图7的十一个通用大数据能力为基础,结合用户使用习惯以及组件部署的便利性等因素,将十一个能力配置为对应的九个技术组件,组件名称及组件功能描述见表1。
表1一种组件名称和组件功能之间的对照表
Figure BDA0002306266920000121
Figure BDA0002306266920000131
为保证九个技术组件能够高效协同,在设计时对各个技术组件间的关系进行了规划。以元数据信息为驱动,加强各个技术组件的协作和能力的组合,确保平台能够以整体化能力对外服务,满足各类大数据应用建设需求。图8是本发明实施例提供的另一种大数据处理平台中各组件间的关系示意图。如图8所示,以数据采集组件为入口,将外部数据传输至大数据处理平台,并将大数据处理平台中的数据采集组件、数据集成组件、智能调度组件、数据管理组件、存储与计算组件、数据开发组件、分析与可视化组件、数据服务组件和数据服务总线组件之间的交互,对元数据信息进行处理,得到处理后的结果,并由数据服务组件通过统一的数据访问接口对外提供服务,以及通过分析与可视化组件对数据作进一步地分析挖掘,或者通过数据服务总线组件对外提供数据。
在能力组合方面,通过组件、服务的装配和前端界面的开发,能够形成多种一站式大数据应用环境,提升用户体验。图9是本发明实施例提供的一种平台能力组合示意图,如图9所示,通过对智能调度、数据开发、数据集成等组件或服务的能力组合,可以形成面向开发人员的大数据开发环境;通过对分析可视化组件、数据管理组件、数据服务组件的能力组合,可以形成面向数据分析人员的工作界面。本实施例提供的大数据处理平台的构建方法,九个技术组件提供的服务能够自由组合,形成灵活多样的大数据应用工作环境和应用支持方式,满足用户的个性化要求。
在一实施例中,在开始设计九个技术组件时,遵循统一的架构规范和原则。表2是本发明实施例提供的一种统一的架构规范和原则示意表。如表2所示,各个技术组件满足平台对云计算、易用性、高可靠性和易维护性的要求,各组件功能能够从最底层进行衔接和融合,大大提高了大数据平台的整体效率。尤其是云计算的特性,使平台具备PAAS服务能力,能够以界面、应用编程接口(Application Programming Interface,API)、软件开发工具包(Software Development Kit,SDK)等多种方式对外提供服务,灵活、无缝地支撑各种类型的大数据应用建设。
表2一种技术组件遵循的基础架构规范和原则对照表
Figure BDA0002306266920000141
在实施例中,九个技术组件以云计算、易用性、高可靠性、易维护性为基础架构规范和开发原则,原生支持统一的云计算特性、部署方式、服务模式以及资源控制。同时,大数据平台基于开源技术构建,具备开放的技术架构,能够快速扩展新的开源技术,并通过统一的用户接入和数据交互规范,扩展第三方技术。
图10是本发明实施例提供的一种云化大数据平台的物理部署示意图。如图10所示,基于以上规范建立的各组件,能够实现统一的部署方式、统一的服务模式、统一的资源控制,以各组件形成云化大数据平台的物理部署。
其中,标准的运行模式如下:
S1、租户通过控制台进入大数据云平台。
S2、进行权限验证,并获取可使用的组件信息。
S3、对于租户有权使用的组件,动态生成技术实例,准备相关计算资源。
S4、存储与计算组件根据技术组件实例形成的读写需求,通过管理租户的资源组,映射成用于实际读写的资源队列。
S5、对于使用容器资源的,为租户分配不同额度的容器资源,用于调度任务及Endpoint的扩展。
S6、数据集成、挖掘、实时计算、数据开发的资源由调度系统进行分配控制。
S7、数据服务、数据集成等对外接口通过API/SDK的方式对外服务。
在实施例中,在同一套架构规范和体系下构建的技术组件,能够形成技术架构高度一致的大数据平台,实现更多样化、更复杂、更高效的大数据应用场景。同时,大数据处理平台的各组件原生支持云计算的特性,可以在平台上进行组件或服务的功能组合,形成多种个性化的PAAS服务界面,满足多样的用户需求。基于开源技术体系建设,并提供第三方产品用户对接和数据对接的标准,能够快速进行功能扩充,满足用户多样化需求以及组件的持续技术更新。同时,
图11是本发明实施例提供的一种大数据处理平台的构建装置的结构框图,该装置可以由硬件/软件实现,并一般可集成在计算机设备中。如图11所示,该装置包括:确定模块310、配置模块320和构建模块330。
其中,确定模块310,用于根据预先配置的业务需求确定大数据处理平台具备的多个通用能力;
配置模块320,用于基于统一架构规范和原则,配置每个通用能力对应的技术组件;
构建模块330,用于以元数据信息为驱动,对每个技术组件进行串联,构建对应的大数据处理平台。
在上述实施例的基础上,统一架构规范和原则包括至少下述一项:云计算、易用性、可靠性和易维护性。
在上述实施例的基础上,通用能力至少包括下述一项:数据采集能力、数据存储能力、数据交换能力、数据计算能力、数据调度能力、数据管理能力、数据集成能力、数据开发能力、数据分析能力、数据可视化能力、数据服务能力;
技术组件至少包括下述一项:数据采集组件、数据集成组件、智能调度组件、数据管理组件、存储与计算组件、数据开发组件、分析与可视化组件、数据服务组件和数据服务总线组件。
上述大数据处理平台的构建装置可执行本发明任意实施例所提供的大数据处理平台的构建方法,具备执行方法相应的功能模块和有益效果。
图12是本发明实施例提供的一种设备的硬件结构示意图。如图12所示,本发明实施例提供的设备,包括:处理器410、存储器420、输入装置430和输出装置440。该设备中的处理器410可以是一个或多个,图12中以一个处理器410为例,设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图12中以通过总线连接为例。
该设备中的存储器420作为一种计算机可读存储介质,可用于存储一个或多个程序,程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例所提供的大数据处理平台的构建方法对应的程序指令/模块(例如,图11所示的大数据处理平台的构建装置中的模块,包括:确定模块、配置模块和构建模块)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法实施例中的大数据处理平台的构建方法。
存储器420可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备中所配置设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备中所配置的设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收用户输入的数字或字符信息,以产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。并且,当上述设备所包括一个或者多个程序被一个或者多个处理器410执行时,程序进行如下操作:
根据预先配置的业务需求确定大数据处理平台具备的多个通用能力;基于统一架构规范和原则,配置每个通用能力对应的技术组件;以元数据信息为驱动,对每个技术组件进行串联,构建对应的大数据处理平台。
上述设备可执行本发明任意实施例所提供的大数据处理平台的构建方法,具备执行方法相应的功能模块和有益效果。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被设备执行时实现本发明实施例提供的大数据处理平台的构建方法,该方法包括:根据预先配置的业务需求确定大数据处理平台具备的多个通用能力;基于统一架构规范和原则,配置每个通用能力对应的技术组件;以元数据信息为驱动,对每个技术组件进行串联,构建对应的大数据处理平台。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括,但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种大数据处理平台,其特征在于,包括:数据采集模块、数据处理模块、数据存储模块和数据输出模块;
通过所述数据采集模块接收外部数据,并通过所述数据处理模块对所述外部数据中的元数据信息进行数据处理,得到数据处理结果,以及通过所述数据处理模块将所述外部数据中的实际数据存储至所述数据存储模块;
所述数据输出模块通过统一数据访问接口输出所述数据处理结果,以对外提供服务。
2.根据权利要求1所述的大数据平台,其特征在于,所述数据采集模块包括:数据采集组件;所述数据存储模块包括:存储与计算组件;所述数据输出模块包括:分析与可视化组件,以及数据服务总线组件;
所述数据处理模块包括:数据集成组件、智能调度组件、数据管理组件、数据开发组件、和数据服务组件;
通过所述智能调度组件的控制将所述外部数据中的元数据信息登记至所述数据管理组件,以及将所述外部数据中的实际数据写入所述存储与计算组件;
通过所述数据管理组件收集各个组件中的元数据信息,以及对外提供元数据信息;
通过所述数据开发组件进行作业开发,并在作业开发过程中从所述数据管理组件中获取元数据信息,以及将形成的作业代码路径和相关调度配置信息写入所述数据管理组件,形成数据血缘信息;
通过所述数据集成组件提供的数据加工算子,对所述元数据信息进行过滤、变形和整合,并在智能调度组件的控制下得到数据处理结果;由所述数据服务组件通过统一数据访问接口输出所述数据处理结果,以对外提供服务。
3.根据权利要求2所述的大数据平台,其特征在于,所述大数据平台还包括:
通过所述存储与计算组件读取元数据信息,并利用所述存储与计算组件中的存储资源和计算资源对所述外部数据中的实际数据进行计算。
4.根据权利要求2所述的大数据平台,其特征在于,所述分析与可视化组件,用于对所述数据处理结果进行分析挖掘和数据可视化展示;
所述数据服务总线组件,用于对外提供数据访问。
5.根据权利要求4所述的大数据平台,其特征在于,所述分析与可视化组件以及所述数据服务组件用于从所述数据管理组件获取元数据信息。
6.根据权利要求1-5任一所述的大数据平台,其特征在于,所述元数据信息包括下述至少一项:数据结构、数据权限、存储路径、访问方式、运行信息和数据状态。
7.一种大数据处理平台的构建方法,其特征在于,包括:
根据预先配置的业务需求确定大数据处理平台具备的多个通用能力;
基于预设的统一架构规范和原则,配置每个所述通用能力对应的技术组件;
以元数据信息为驱动,对每个所述技术组件进行串联,构建对应的大数据处理平台。
8.根据权利要求7所述的方法,其特征在于,所述预设的统一架构规范和原则包括至少下述一项:云计算、易用性、可靠性和易维护性。
9.根据权利要求7所述的方法,其特征在于,所述通用能力至少包括下述一项:数据采集能力、数据存储能力、数据交换能力、数据计算能力、数据调度能力、数据管理能力、数据集成能力、数据开发能力、数据分析能力、数据可视化能力、数据服务能力;
所述技术组件至少包括下述一项:数据采集组件、数据集成组件、智能调度组件、数据管理组件、存储与计算组件、数据开发组件、分析与可视化组件、数据服务组件和数据服务总线组件。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求7-9中任一所述的大数据处理平台的构建方法。
CN201911241175.0A 2019-12-06 2019-12-06 一种大数据处理平台、平台构建方法和存储介质 Pending CN111026432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911241175.0A CN111026432A (zh) 2019-12-06 2019-12-06 一种大数据处理平台、平台构建方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911241175.0A CN111026432A (zh) 2019-12-06 2019-12-06 一种大数据处理平台、平台构建方法和存储介质

Publications (1)

Publication Number Publication Date
CN111026432A true CN111026432A (zh) 2020-04-17

Family

ID=70204483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911241175.0A Pending CN111026432A (zh) 2019-12-06 2019-12-06 一种大数据处理平台、平台构建方法和存储介质

Country Status (1)

Country Link
CN (1) CN111026432A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181779A (zh) * 2020-09-28 2021-01-05 北京云歌科技有限责任公司 一种ai元数据的综合处理方法和系统
CN113110826A (zh) * 2021-03-31 2021-07-13 北京靠谱云科技有限公司 一种云接口聚合层统一管控api的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024044A (zh) * 2010-12-08 2011-04-20 华为技术有限公司 分布式文件系统
CN103605663A (zh) * 2013-10-22 2014-02-26 芜湖大学科技园发展有限公司 通用的数据库校验及元数据导入方法
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN107341205A (zh) * 2017-06-23 2017-11-10 国网上海市电力公司 一种基于大数据平台的智能配用电系统
CN109033188A (zh) * 2018-06-27 2018-12-18 新华三大数据技术有限公司 一种元数据采集方法、装置、服务器和计算机可读介质
CN109286666A (zh) * 2018-09-21 2019-01-29 浪潮电子信息产业股份有限公司 一种云平台的调度请求处理方法、相关方法及相关装置
CN110188149A (zh) * 2019-06-04 2019-08-30 宁波银行股份有限公司 一种数据仓库系统
CN110458528A (zh) * 2019-08-07 2019-11-15 上海数讯信息技术有限公司 一种基于cmdb运维管理的全业务配置管理平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024044A (zh) * 2010-12-08 2011-04-20 华为技术有限公司 分布式文件系统
CN103605663A (zh) * 2013-10-22 2014-02-26 芜湖大学科技园发展有限公司 通用的数据库校验及元数据导入方法
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN107341205A (zh) * 2017-06-23 2017-11-10 国网上海市电力公司 一种基于大数据平台的智能配用电系统
CN109033188A (zh) * 2018-06-27 2018-12-18 新华三大数据技术有限公司 一种元数据采集方法、装置、服务器和计算机可读介质
CN109286666A (zh) * 2018-09-21 2019-01-29 浪潮电子信息产业股份有限公司 一种云平台的调度请求处理方法、相关方法及相关装置
CN110188149A (zh) * 2019-06-04 2019-08-30 宁波银行股份有限公司 一种数据仓库系统
CN110458528A (zh) * 2019-08-07 2019-11-15 上海数讯信息技术有限公司 一种基于cmdb运维管理的全业务配置管理平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈洪等: "基于大数据平台的水电机组状态数据处理架构研究", 《水电与新能源》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181779A (zh) * 2020-09-28 2021-01-05 北京云歌科技有限责任公司 一种ai元数据的综合处理方法和系统
CN112181779B (zh) * 2020-09-28 2024-06-04 北京云歌科技有限责任公司 一种ai元数据的综合处理方法和系统
CN113110826A (zh) * 2021-03-31 2021-07-13 北京靠谱云科技有限公司 一种云接口聚合层统一管控api的方法

Similar Documents

Publication Publication Date Title
Gokalp et al. Big data for industry 4.0: A conceptual framework
CN107948254B (zh) 混合云平台的大数据处理框架编排系统及方法
Talia Clouds for scalable big data analytics
US10112298B2 (en) Assigning tasks to a robot device for execution
Fehling et al. An architectural pattern language of cloud-based applications
CN106022007B (zh) 面向生物组学大数据计算的云平台系统及方法
Zhu et al. A framework-based approach to utility big data analytics
CN103984818A (zh) 基于Flex技术的AUV设计流程可视化建模方法
Carnevale et al. Osmotic computing as a distributed multi-agent system: The body area network scenario
JP7387734B2 (ja) イベント駆動型アプリケーションのルールに基づく割り当て
CN111026432A (zh) 一种大数据处理平台、平台构建方法和存储介质
CN114372084A (zh) 面向传感流数据的实时处理系统
CN113867600A (zh) 处理流式数据的开发方法、装置和计算机设备
US20190095840A1 (en) System and method for implementing a federated forecasting framework
CN115392501A (zh) 数据采集方法、装置、电子设备及存储介质
CN106815019B (zh) Hadoop分布式算法的WEB界面集成方法及装置
CN114237853A (zh) 应用于异构系统的任务执行方法、装置、设备、介质和程序产品
Akbar et al. The importance of granularity in multiobjective optimization of mobile cloud hybrid applications
US10505873B2 (en) Streamlining end-to-end flow of business-to-business integration processes
US20180150786A1 (en) Efficient task planning using past performance
Campos et al. Engineering environment to support product-service design using value chain data
US10719534B2 (en) Rollup engine for internet of things
CN114564249A (zh) 推荐调度引擎、推荐调度方法及计算机可读存储介质
Keller et al. Modelling collaborative processes for Virtual Organisations in the building industry
CN113923250A (zh) 一种辅助网络服务编排的方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220920

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right