CN113254514A - 一种基于大数据技术的智能综合治理平台产品 - Google Patents

一种基于大数据技术的智能综合治理平台产品 Download PDF

Info

Publication number
CN113254514A
CN113254514A CN202011432815.9A CN202011432815A CN113254514A CN 113254514 A CN113254514 A CN 113254514A CN 202011432815 A CN202011432815 A CN 202011432815A CN 113254514 A CN113254514 A CN 113254514A
Authority
CN
China
Prior art keywords
data
big data
intelligent
application
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011432815.9A
Other languages
English (en)
Inventor
李江
梁华钦
崔玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhuang International Industrial Internet Research Institute Co ltd
Original Assignee
Beijing Yizhuang International Industrial Internet Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhuang International Industrial Internet Research Institute Co ltd filed Critical Beijing Yizhuang International Industrial Internet Research Institute Co ltd
Publication of CN113254514A publication Critical patent/CN113254514A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种基于大数据技术的智能综合治理平台产品,该产品是能够满足各类组织数智化转型需求和进行数智创新的赋能平台。大数据及人工智能的技术门槛较高,通常需要开发者充分了解系统的底层架构,具备集群部署、操作、应用程序开发等各种能力,极大的限制了大数据及人工智能的普及与应用。为解决此问题,我们推出了该产品,该产品整合了常用的大数据和人工智能工具,提供了从数据探索、数据发现、数据建模、数智应用接口开发和管理、数智应用研发到应用部署全生命周期支撑,同时提供了可视化运维,使基于大数据和人工智能技术为核心的分布式系统运维变得更加高效、便捷。

Description

一种基于大数据技术的智能综合治理平台产品
技术领域
本发明属于大数据领域。
背景技术
大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的各类技术。
大数据平台常见的一些工具汇集主要包含:语言工具类、数据采集工具、ETL工具、数据存储工具、分析计算等。
一、语言工具类
1、Java编程技术
Java编程技术是目前使用最为广泛的网络编程语言之一,是大数据学习的基础。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点,拥有极高的跨平台能力,是一种强类型语言,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,最重要的是,Hadoop以及其他大数据处理技术很多都是用Java,因此,想学好大数据,掌握Java基础是必不可少的。
2、Python与数据分析
Python是面向对象的编程语言,拥有丰富的库,使用简单,应用广泛,在大数据领域也有所应用,主要可用于数据采集、数据分析以及数据可视化等,因此,大数据开发需学习一定的Python知识。
二、数据采集类工具
1)Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
2)Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。大数据的采集需要掌握Nutch与Scrapy爬虫技术。
三、ETL工具
1、Sqoop
Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如 MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库,学习使用Sqoop对关系型数据库数据和Hadoop之间的导入有很大的帮助。
2、Kettle
Kettle是一个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多,其数据抽取高效稳定。
四、数据存储类工具
1、Hadoop分布式存储与计算
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算,因此,需要重点掌握,除此之外,还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop 高级管理等相关技术与操作。
2、Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。相对于用Java代码编写MapReduce 来说,Hive的优势明显:快速开发,人员成本低,可扩展性(自由扩展集群规模),延展性(支持自定义函数)。十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。
3、ZooKeeper
ZooKeeper是一个开源的分布式协调服务,是Hadoop和HBase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。
4、HBase
HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,更适合于非结构化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase 基础知识、应用、架构以及高级用法等。
5、Redis
Redis是一个Key-Value存储系统,其出现很大程度补偿了Memcached这类Key/Value存储的不足,在部分场合可以对关系数据库起到很好的补充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl, Object-C,Python,Ruby,Erlang等客户端,使用很方便,大数据开发需掌握Redis的安装、配置及相关使用方法。
6、Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka 架构原理及各组件的作用和使用方法及相关功能的实现。
五、数据分析类工具
NBI一站式大数据可视化分析构建平台。
NBI一站式大数据分析平台作为国内领先的新一代自助式、探索式分析工具,在产品设计理念上始终从用户的角度出发,一直围绕简单、易用,强调交互分析为目的的新型产品。我们将数据分析的各环节(数据准备、自服务数据建模、探索式分析、权限管控)融入到系统当中,让企业有序的、安全的管理数据和分析数据。
发明内容
大数据智能综合治理平台是一站式大数据智能综合治理系统,构架于服务器、存储、网络等基础硬件资源和单机操作系统、中间件、数据库、大数据工具、人工智能工具等软件之上的大数据智能综合治理系统。该平台将硬件资源逻辑上整合成一台超级服务器,为上层数智应用提供统一、标准的接口,提供数据智能探索发现、数据智能建模、数据智能部署和数据智能应用开发等功能。
大数据智能综合治理平台,简称DataBrainOS,是能够满足各类组织数智化转型需求和进行数智创新的赋能平台。
该平台产品可完全处理混合负载(OLTP,OLAP,流式数据等),提供数据探索、模型构建、实时交互式查询/分析、机器学习、数智应用构建与部署等功能能有效推动组织业务服务模式和业务运营方式的创新,并且逐步帮助各类组织快速转型为面向未来的DT组织。
从数据智能建模、数据智能探索、数据智能部署到智能应用开发,均可在平台中实现。
1)平台支持丰富的机器学习和深度学习框架,大大降低人工智能技术的使用和应用门槛。平台整合了H2O、AI,支持大部分主流算法。公司自主研发的AI Manager,支持模型训练、模型管理、模型部署、服务的申请订阅、在线预测等,图形化的操作界面极大的降低了人工智能的门槛。
2)平台提供了自动化运维的支撑,基于容器云搭建的DataBrainOS平台,更易于运维。包括:日志采集、实时监控、自动伸缩、平台迁移等。
3)平台提供了统一的安全和多租户管理功能。
附图说明
图1是平台核心概念关系图,主要包括:数智大脑、数智基础服务组件、数智应用服务、数智探索单元、数智认知单元、数智探索神经元、数智认知神经元等相关的核心概念。基础服务组件称为“数智基础服务组件”,将这种在数智大脑中构建的应用服务称为“数智应用服务”。数智应用服务包括数智探索单元和数智认知单元。而数智探索单元和数智认知单元都是通过处理组件神经元拼接构成。我们将这些处理组件按照数据功能细分为三类:1)源组件,2)处理组件,3)宿组件。平台提供了缺省的处理组件,也支撑处理组件的定制化开发和处理组件的导入、导出,这些处理组件统称为数智神经元。
大数据智能综合治理平台即一个面向大数据人工智能分析处理的类脑平台,也即“数智大脑”。该数智大脑由基本的数智基础服务组件和运行引擎组成。在数智大脑中,多个数智神经元拼接形成一个个数智认知单元,以提供数智应用服务,实现大脑对外的赋能能力构建。
具体实施方式
过程分为三个阶段:1)安装准备;2)安装及配置;3)运行及验证。
安装准备阶段
准备好5台操作系统为Centos 7的机器,此处为虚机,设置主机IP地址为103.227.51.139,端口为 20002-20009。
1)下载deploy_dpaas.tar.gz文件;
2)复制压缩包deploy_dpaas.tar.gz到所有节点的/opt目录下;
3)在每台机器上解压该文件tar-xzvf deploy_dpaas.tar.gz;
4)在node1上执行cd deploy_dpaas;
5)在node1上执行./init.sh,在当前安装python等包;
6)在node1上执行python main.py change_host改变所有待安装节点的hostname。
安装及配置
1)使用浏览器登陆进入主页面,选择安装的节点,确认服务的节点分布;
2)选择首批安装的服务,进行安装;
3)选择第二批服务,进行安装,进行服务的配置;
4)databrain_user组件配置、Kafka UI配置、predict配置、AI Manager配置、进行kerberos配置
5)配置完成,重启所有服务。
运行及验证
1)使用浏览器登陆进入主页面;
2)验证创建数智应用是否成功;
3)验证数智应用准备阶段是否正常;
4)验证数智应用流处理阶段时候正常;
5)验证服务列表中各个子模块是否正常。

Claims (6)

1.低延迟的流处理
DataBrainOS支持事件驱动和流处理操作。在DataBrainOS Data Preprocessor、DataBrainOS Data Analyzer、Storm、Kakfa、Hbase等组件的完美搭配下,可处理任何形式与结构的数据,快速完成数据的获取、清洗、分析与存储。
2.快速构建可视化看板
DataBrainOS平台支持用户通过SQL等方式在线访问数据、构建可视化看板,并支持看板的复用和发布。应用开发人员可复用可视化看板丰富自己的应用UI,可视化看板内容会随数据变化而刷新。
3.图形化的大数据智能治理平台
在DataBrainOS平台中,不仅仅融合了十几种大数据开发常用的工具,而且支持用户自定义组件,以适应各种实际开发需求。DataBrainOS平台提供可视化操作界面,操作人员通过简单的拖拽即可实现复杂的数据处理和分析功能,可以大大降低技术门槛,节省开发时间。
4.丰富的机器学习和深度学习支持
DataBrainOS支持用户使用Spark与H2O.AI开发机器学习项目。
5.一站式管理
DataBrainOS平台支持数据智能建模、数据智能探索、数据智能部署、智能应用开发,实现了一站式管理。
6.基于容器云的大数据平台
DataBrainOS底层基于Docker和Kubernetes构建容器云,能更好的支撑快速部署、动态扩容、资源按需分配及自动化运维。
CN202011432815.9A 2020-07-16 2020-12-10 一种基于大数据技术的智能综合治理平台产品 Pending CN113254514A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010688846 2020-07-16
CN2020106888464 2020-07-16

Publications (1)

Publication Number Publication Date
CN113254514A true CN113254514A (zh) 2021-08-13

Family

ID=77180987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011432815.9A Pending CN113254514A (zh) 2020-07-16 2020-12-10 一种基于大数据技术的智能综合治理平台产品

Country Status (1)

Country Link
CN (1) CN113254514A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787064A (zh) * 2016-03-01 2016-07-20 广州铭诚计算机科技有限公司 一种基于大数据的挖掘平台构建方法
CN106682183A (zh) * 2016-12-29 2017-05-17 武汉璞华大数据技术有限公司 一种可联动的数据可视化看板系统
CN109840253A (zh) * 2019-01-10 2019-06-04 北京工业大学 企业级大数据平台架构
CN110245175A (zh) * 2019-06-19 2019-09-17 山东浪潮商用系统有限公司 一种基于大数据的可视化加工处理系统及方法
CN111047190A (zh) * 2019-12-12 2020-04-21 广西电网有限责任公司 一种基于交互式学习技术的多元化业务建模框架系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787064A (zh) * 2016-03-01 2016-07-20 广州铭诚计算机科技有限公司 一种基于大数据的挖掘平台构建方法
CN106682183A (zh) * 2016-12-29 2017-05-17 武汉璞华大数据技术有限公司 一种可联动的数据可视化看板系统
CN109840253A (zh) * 2019-01-10 2019-06-04 北京工业大学 企业级大数据平台架构
CN110245175A (zh) * 2019-06-19 2019-09-17 山东浪潮商用系统有限公司 一种基于大数据的可视化加工处理系统及方法
CN111047190A (zh) * 2019-12-12 2020-04-21 广西电网有限责任公司 一种基于交互式学习技术的多元化业务建模框架系统

Similar Documents

Publication Publication Date Title
Gupta et al. Cloud computing and big data analytics: what is new from databases perspective?
CN106611046A (zh) 基于大数据技术的空间数据存储处理中间件框架
US20140358844A1 (en) Workflow controller compatibility
Firouzi et al. Architecting iot cloud
CN103617211A (zh) 一种HBase加载数据的导入方法
CN106708993A (zh) 基于大数据技术的空间数据存储处理中间件框架实现方法
Shirazi et al. Design patterns to enable data portability between clouds' databases
Tannir Optimizing Hadoop for MapReduce
Wakde et al. Comparative analysis of hadoop tools and spark technology
Middleton Data-intensive technologies for cloud computing
CN113254514A (zh) 一种基于大数据技术的智能综合治理平台产品
Yu et al. Design and implementation of business access control in new generation power grid dispatching and control system
Wei et al. Big data analysis service platform building for complex product manufacturing
Shahverdi et al. Comparative evaluation for the performance of big stream processing systems
Faerber et al. Towards a web-scale data management ecosystem demonstrated by SAP HANA
Jamal et al. Performance Comparison between S3, HDFS and RDS storage technologies for real-time big-data applications
Chen et al. Towards low-latency big data infrastructure at sangfor
Barbierato et al. Performance evaluation of a data lake architecture via modeling techniques
Jiang Research and practice of big data analysis process based on hadoop framework
CN107885834B (zh) 一种Hadoop大数据组件统一验证系统
Lu et al. MSA vs. MVC: Future trends for big data processing platforms
Junwei et al. Architecture for component library retrieval on the cloud
Li Research Review of Cloud Computing Technology Based on Big Data
Sanaboyina Performance evaluation of time series databases based on energy consumption
Song et al. The development and application of “one-stop” cluster analysis application system under the background of big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination