CN107302583A - 一种基于Kylo实现数据集成的自动化运营管理方法 - Google Patents
一种基于Kylo实现数据集成的自动化运营管理方法 Download PDFInfo
- Publication number
- CN107302583A CN107302583A CN201710557349.9A CN201710557349A CN107302583A CN 107302583 A CN107302583 A CN 107302583A CN 201710557349 A CN201710557349 A CN 201710557349A CN 107302583 A CN107302583 A CN 107302583A
- Authority
- CN
- China
- Prior art keywords
- data
- kylo
- http
- nifi
- clients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Stored Programmes (AREA)
Abstract
一种基于Kylo实现数据集成的自动化运营管理方法,属于计算机技术领域。用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的服务请求网关通过HTTP(S)分别连接spark客户端和Kylo后端服务,Hive客户端通过JDBC/Thrift连接大数据生态系统,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。本方法可以应用到异构数据源同步、数据回流分析、数据加工处理、数据字典管理、精细化运营的数据集成实战场景。
Description
技术领域
本发明属于计算机技术领域,涉及一种基于Kylo实现数据集成的自动化运营管理方法。
背景技术
x86服务器运行过程中会出现CATERR(Catastrophic Error,灾难性错误)或IERR(Internal Error,灾难性错误),导致系统挂死,进而系统业务突然中断。由于CATERR死机故障发生后,很难得到完整的MCA(Machine Check Architecture,硬件故障检查架构)故障记录,另外即使收集到了MCA故障记录,根据大量的MCA寄存器数据无法快速准确地进行故障定位。
目前,对于CATERR或IERR故障定位的方法主要是依靠人工经验判断,或是运行诊断程序定位故障,或替换器件以确定发生故障的器件,都无法快速定位出故障。总之,现有技术对于CATERR或IERR引起的死机现象,故障定位的效率较低,严重影响用户体验。
发明内容
为克服现有技术所存在的缺陷,本发明提供一种基于Kylo实现数据集成的自动化运营管理方法,能够解决上述技术问题。
本发明要解决其技术问题所采用的技术方案是:设计一种基于Kylo实现数据集成的自动化运营管理方法,用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的Kylo界面包括操作管理界面、流管理界面和服务请求网关,所述的服务请求网关通过HTTP(S)分别连接spark客户端和Kylo后端服务,所述的Kylo后端服务包括REST服务、JOB服务、元数据管理和Hive客户端,Hive客户端通过JDBC/Thrift连接大数据生态系统,大数据生态系统通过数据库连接NiFi,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。
优选的,所述的NiFi包括数据处理器、数据发布服务、Hive客户端、Spark客户端和HDFS客户端。
优选的,所述的大数据生态系统包括Spark内存计算引擎、Hive数据仓库和HDFS分布式文件系统。
本发明所具有的有益效果是:
1、本发明提供基于Kylo实现多种异构数据源的数据集成到大数据平台Hive数据仓库的可视化管理方法,支持离线与实时数据的全量、增量等多方式,包含数据传输交互,数据验证,数据转换过滤,数据存储过程,实现数据流管理,定时任务调度与监控告警的自动化的运营管理,有效的快速定位数据集成过程中的服务故障问题点,达到了整个数据流的各个节点全方位跟踪效果。本方法可以应用到异构数据源同步、数据回流分析、数据加工处理、数据字典管理、精细化运营的数据集成实战场景。
2、本发明通过Kylo的GUI界面,业务人员可以按照他们关心的方式来操作数据,包括:创建数据源、定义数据加载、数据预处理、转换,发布到目标系统。因为不需要部署任何代码,也不需要依赖IT部门,业务人员做到了对项目的完全掌控,从而极大的减少了类似项目所需的时间。对于有技术能力的数据科学家、数据管家及IT运营人员来说,Kylo提供包括元数据管理、合适的数据加载及类似Google的检索能力,可以为业务分析人员赋予不同的权限、提供随时可用的模板,帮助他们使用、监控并提升数据湖的服务SLA。
附图说明
图1是本发明Kylo的整体构架图。
具体实施方式
下面结合附图对本发明作进一步说明:
如图1所示,一种基于Kylo实现数据集成的自动化运营管理方法,用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的Kylo界面包括操作管理界面、流管理界面和服务请求网关,所述的服务请求网关通过HTTP(S)分别连接spark客户端和Kylo后端服务,所述的Kylo后端服务包括REST服务、JOB服务、元数据管理和Hive客户端,Hive客户端通过JDBC/Thrift连接大数据生态系统,大数据生态系统通过数据库连接NiFi,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。
优选的,所述的NiFi包括数据处理器、数据发布服务、Hive客户端、Spark客户端和HDFS客户端。
优选的,所述的大数据生态系统包括Spark内存计算引擎、Hive数据仓库和HDFS分布式文件系统。
专业技术术语如下:
HTTP(S):HTTP或者HTTPS网络通信协议。其中超文本传输协议(HTTP,HyperTextTransfer Protocol),HTTPS(全称:Hyper Text Transfer Protocol over Secure SocketLayer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。
JDBC=Java数据库连接
JDBC(Java DataBase Connectivity,Java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序。
Hive=数据仓库工具,外文名Hive
Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。
Hive没有专门的数据格式。Hive可以很好的工作在Thrift之上,控制分隔符,也允许用户指定数据格式。
HDFS=分布式文件系统,全称Hadoop Distributed File System
Thrift=thrift通信服务
Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎,以构建在C++,Java,Go,Python,PHP,Ruby,Erlang,Perl,Haskell,C#,Cocoa,JavaScript,Node.js,Smalltalk,and OCaml这些编程语言间无缝结合的、高效的服务。
Thrift允许定义一个简单的定义文件中的数据类型和服务接口,以作为输入文件,编译器生成代码用来方便地生成RPC(Remote Procedure Call Protocol)——远程过程调用协议客户端和服务器通信的无缝跨编程语言。
JMS=消息中间件
JMS(Java Messaging Service)是Java平台上有关面向消息中间件(MOM)的技术规范,它便于消息系统中的Java应用程序进行消息交换,并且通过提供标准的产生、发送、接收消息的接口简化企业应用的开发,翻译为Java消息服务。
ActiveMQ-消息中间件
ActiveMQ是Apache出品,最流行的,能力强劲的开源消息总线。中文名ActiveMQ
ActiveMQ是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现,尽管JMS规范出台已经是很久的事情了,但是JMS在当今的J2EE应用中间仍然扮演着特殊的地位。
NiFi-数据处理和分发系统
Apache NiFi是一个易于使用、功能强大而且可靠的数据处理和分发系统。ApacheNiFi是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。
Spark-内存计算框架
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。
ElasticSearch-分布式搜索引擎,ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便,用于分布式全文检索。
REST服务介绍
RESTful service是一种架构模式,近几年比较流行了,它的轻量级Web服务,发挥HTTP协议的原生的GET,PUT,POST,DELETE。
REST模式的Web服务与复杂的SOAP和XML-RPC对比来讲明显的更加简洁,越来越多的Web服务开始采用REST风格设计和实现。
最后所应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应该理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于Kylo实现数据集成的自动化运营管理方法,其特征在于:用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的Kylo界面包括操作管理界面、流管理界面和服务请求网关,所述的服务请求网关通过HTTP(S)分别连接Spark客户端和Kylo后端服务,所述的Kylo后端服务包括REST服务、JOB服务、元数据管理和Hive客户端,Hive客户端通过JDBC/Thrift连接大数据生态系统,大数据生态系统通过数据库连接NiFi,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。
2.根据权利要求1所述的一种基于Kylo实现数据集成的自动化运营管理方法,其特征在于:所述的NiFi包括数据处理器、数据发布服务、Hive客户端、Spark客户端和HDFS客户端。
3.根据权利要求1所述的一种基于Kylo实现数据集成的自动化运营管理方法,其特征在于:所述的大数据生态系统包括Spark内存计算引擎、Hive数据仓库和HDFS分布式文件系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710557349.9A CN107302583A (zh) | 2017-07-10 | 2017-07-10 | 一种基于Kylo实现数据集成的自动化运营管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710557349.9A CN107302583A (zh) | 2017-07-10 | 2017-07-10 | 一种基于Kylo实现数据集成的自动化运营管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107302583A true CN107302583A (zh) | 2017-10-27 |
Family
ID=60134030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710557349.9A Pending CN107302583A (zh) | 2017-07-10 | 2017-07-10 | 一种基于Kylo实现数据集成的自动化运营管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107302583A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109714332A (zh) * | 2018-12-26 | 2019-05-03 | 北京字节跳动网络技术有限公司 | 基于Thrift和语法树解析的协议转换方法及装置 |
CN111737326A (zh) * | 2019-10-28 | 2020-10-02 | 埃睿迪信息技术(北京)有限公司 | 一种数据湖环境下异构数据源数据汇聚的实现方法 |
CN112540975A (zh) * | 2020-12-29 | 2021-03-23 | 中科院计算技术研究所大数据研究院 | 一种基于petri网的多源异构数据质量检测方法 |
CN112637356A (zh) * | 2020-12-28 | 2021-04-09 | 国电电力发展股份有限公司 | 异地数据中心的数据同步传输方法、系统、介质、终端 |
-
2017
- 2017-07-10 CN CN201710557349.9A patent/CN107302583A/zh active Pending
Non-Patent Citations (2)
Title |
---|
SCOTTREISDORF,等: "Kylo Architecture", 《GITHUB开源网站》 * |
存储在线工作人员: "Teradata天睿公司发布开源Kylo软件", 《存储在线》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109714332A (zh) * | 2018-12-26 | 2019-05-03 | 北京字节跳动网络技术有限公司 | 基于Thrift和语法树解析的协议转换方法及装置 |
CN111737326A (zh) * | 2019-10-28 | 2020-10-02 | 埃睿迪信息技术(北京)有限公司 | 一种数据湖环境下异构数据源数据汇聚的实现方法 |
CN111737326B (zh) * | 2019-10-28 | 2023-08-18 | 埃睿迪信息技术(北京)有限公司 | 一种数据湖环境下异构数据源数据汇聚的实现方法 |
CN112637356A (zh) * | 2020-12-28 | 2021-04-09 | 国电电力发展股份有限公司 | 异地数据中心的数据同步传输方法、系统、介质、终端 |
CN112540975A (zh) * | 2020-12-29 | 2021-03-23 | 中科院计算技术研究所大数据研究院 | 一种基于petri网的多源异构数据质量检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766205B (zh) | 一种面向微服务调用过程跟踪的监控系统及方法 | |
CN104618693B (zh) | 一种基于云计算的监控视频在线处理任务管理方法及系统 | |
Ranchal et al. | Disrupting healthcare silos: Addressing data volume, velocity and variety with a cloud-native healthcare data ingestion service | |
US11258814B2 (en) | Methods and systems for using embedding from Natural Language Processing (NLP) for enhanced network analytics | |
US20170109657A1 (en) | Machine Learning-Based Model for Identifying Executions of a Business Process | |
US20170109676A1 (en) | Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process | |
CN107302583A (zh) | 一种基于Kylo实现数据集成的自动化运营管理方法 | |
TWI649762B (zh) | 用於雲端臨床資料庫管理的方法及系統 | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
US20170109667A1 (en) | Automaton-Based Identification of Executions of a Business Process | |
Xhafa et al. | Processing and analytics of big data streams with yahoo! s4 | |
CN103701783B (zh) | 一种预处理单元、由其构成的数据处理系统以及处理方法 | |
CN108108288A (zh) | 一种日志数据解析方法、装置及设备 | |
CN103329129A (zh) | 支持云环境的多租户审计感知 | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
US20170109639A1 (en) | General Model for Linking Between Nonconsecutively Performed Steps in Business Processes | |
CN103618652A (zh) | 一种业务数据的审计和深度分析系统及其方法 | |
CN110784509B (zh) | 一种医疗信息处理方法、系统及相关组件 | |
US20170109638A1 (en) | Ensemble-Based Identification of Executions of a Business Process | |
JP2020201935A (ja) | プライバシ信頼性に基づくapiアクセス | |
CN113791586A (zh) | 一种新型的工业app与标识注册解析集成方法 | |
US20170109640A1 (en) | Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process | |
Ribeiro et al. | A data integration architecture for smart cities | |
US20170109670A1 (en) | Crowd-Based Patterns for Identifying Executions of Business Processes | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171027 |