CN107302583A - 一种基于Kylo实现数据集成的自动化运营管理方法 - Google Patents

一种基于Kylo实现数据集成的自动化运营管理方法 Download PDF

Info

Publication number
CN107302583A
CN107302583A CN201710557349.9A CN201710557349A CN107302583A CN 107302583 A CN107302583 A CN 107302583A CN 201710557349 A CN201710557349 A CN 201710557349A CN 107302583 A CN107302583 A CN 107302583A
Authority
CN
China
Prior art keywords
data
kylo
http
nifi
clients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710557349.9A
Other languages
English (en)
Inventor
杨文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Changxing Traffic Wisdom Technology Co Ltd
Original Assignee
Hunan Changxing Traffic Wisdom Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Changxing Traffic Wisdom Technology Co Ltd filed Critical Hunan Changxing Traffic Wisdom Technology Co Ltd
Priority to CN201710557349.9A priority Critical patent/CN107302583A/zh
Publication of CN107302583A publication Critical patent/CN107302583A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Stored Programmes (AREA)

Abstract

一种基于Kylo实现数据集成的自动化运营管理方法,属于计算机技术领域。用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的服务请求网关通过HTTP(S)分别连接spark客户端和Kylo后端服务,Hive客户端通过JDBC/Thrift连接大数据生态系统,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。本方法可以应用到异构数据源同步、数据回流分析、数据加工处理、数据字典管理、精细化运营的数据集成实战场景。

Description

一种基于Kylo实现数据集成的自动化运营管理方法
技术领域
本发明属于计算机技术领域,涉及一种基于Kylo实现数据集成的自动化运营管理方法。
背景技术
x86服务器运行过程中会出现CATERR(Catastrophic Error,灾难性错误)或IERR(Internal Error,灾难性错误),导致系统挂死,进而系统业务突然中断。由于CATERR死机故障发生后,很难得到完整的MCA(Machine Check Architecture,硬件故障检查架构)故障记录,另外即使收集到了MCA故障记录,根据大量的MCA寄存器数据无法快速准确地进行故障定位。
目前,对于CATERR或IERR故障定位的方法主要是依靠人工经验判断,或是运行诊断程序定位故障,或替换器件以确定发生故障的器件,都无法快速定位出故障。总之,现有技术对于CATERR或IERR引起的死机现象,故障定位的效率较低,严重影响用户体验。
发明内容
为克服现有技术所存在的缺陷,本发明提供一种基于Kylo实现数据集成的自动化运营管理方法,能够解决上述技术问题。
本发明要解决其技术问题所采用的技术方案是:设计一种基于Kylo实现数据集成的自动化运营管理方法,用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的Kylo界面包括操作管理界面、流管理界面和服务请求网关,所述的服务请求网关通过HTTP(S)分别连接spark客户端和Kylo后端服务,所述的Kylo后端服务包括REST服务、JOB服务、元数据管理和Hive客户端,Hive客户端通过JDBC/Thrift连接大数据生态系统,大数据生态系统通过数据库连接NiFi,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。
优选的,所述的NiFi包括数据处理器、数据发布服务、Hive客户端、Spark客户端和HDFS客户端。
优选的,所述的大数据生态系统包括Spark内存计算引擎、Hive数据仓库和HDFS分布式文件系统。
本发明所具有的有益效果是:
1、本发明提供基于Kylo实现多种异构数据源的数据集成到大数据平台Hive数据仓库的可视化管理方法,支持离线与实时数据的全量、增量等多方式,包含数据传输交互,数据验证,数据转换过滤,数据存储过程,实现数据流管理,定时任务调度与监控告警的自动化的运营管理,有效的快速定位数据集成过程中的服务故障问题点,达到了整个数据流的各个节点全方位跟踪效果。本方法可以应用到异构数据源同步、数据回流分析、数据加工处理、数据字典管理、精细化运营的数据集成实战场景。
2、本发明通过Kylo的GUI界面,业务人员可以按照他们关心的方式来操作数据,包括:创建数据源、定义数据加载、数据预处理、转换,发布到目标系统。因为不需要部署任何代码,也不需要依赖IT部门,业务人员做到了对项目的完全掌控,从而极大的减少了类似项目所需的时间。对于有技术能力的数据科学家、数据管家及IT运营人员来说,Kylo提供包括元数据管理、合适的数据加载及类似Google的检索能力,可以为业务分析人员赋予不同的权限、提供随时可用的模板,帮助他们使用、监控并提升数据湖的服务SLA。
附图说明
图1是本发明Kylo的整体构架图。
具体实施方式
下面结合附图对本发明作进一步说明:
如图1所示,一种基于Kylo实现数据集成的自动化运营管理方法,用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的Kylo界面包括操作管理界面、流管理界面和服务请求网关,所述的服务请求网关通过HTTP(S)分别连接spark客户端和Kylo后端服务,所述的Kylo后端服务包括REST服务、JOB服务、元数据管理和Hive客户端,Hive客户端通过JDBC/Thrift连接大数据生态系统,大数据生态系统通过数据库连接NiFi,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。
优选的,所述的NiFi包括数据处理器、数据发布服务、Hive客户端、Spark客户端和HDFS客户端。
优选的,所述的大数据生态系统包括Spark内存计算引擎、Hive数据仓库和HDFS分布式文件系统。
专业技术术语如下:
HTTP(S):HTTP或者HTTPS网络通信协议。其中超文本传输协议(HTTP,HyperTextTransfer Protocol),HTTPS(全称:Hyper Text Transfer Protocol over Secure SocketLayer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。
JDBC=Java数据库连接
JDBC(Java DataBase Connectivity,Java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序。
Hive=数据仓库工具,外文名Hive
Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。
Hive没有专门的数据格式。Hive可以很好的工作在Thrift之上,控制分隔符,也允许用户指定数据格式。
HDFS=分布式文件系统,全称Hadoop Distributed File System
Thrift=thrift通信服务
Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎,以构建在C++,Java,Go,Python,PHP,Ruby,Erlang,Perl,Haskell,C#,Cocoa,JavaScript,Node.js,Smalltalk,and OCaml这些编程语言间无缝结合的、高效的服务。
Thrift允许定义一个简单的定义文件中的数据类型和服务接口,以作为输入文件,编译器生成代码用来方便地生成RPC(Remote Procedure Call Protocol)——远程过程调用协议客户端和服务器通信的无缝跨编程语言。
JMS=消息中间件
JMS(Java Messaging Service)是Java平台上有关面向消息中间件(MOM)的技术规范,它便于消息系统中的Java应用程序进行消息交换,并且通过提供标准的产生、发送、接收消息的接口简化企业应用的开发,翻译为Java消息服务。
ActiveMQ-消息中间件
ActiveMQ是Apache出品,最流行的,能力强劲的开源消息总线。中文名ActiveMQ
ActiveMQ是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现,尽管JMS规范出台已经是很久的事情了,但是JMS在当今的J2EE应用中间仍然扮演着特殊的地位。
NiFi-数据处理和分发系统
Apache NiFi是一个易于使用、功能强大而且可靠的数据处理和分发系统。ApacheNiFi是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。
Spark-内存计算框架
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。
ElasticSearch-分布式搜索引擎,ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便,用于分布式全文检索。
REST服务介绍
RESTful service是一种架构模式,近几年比较流行了,它的轻量级Web服务,发挥HTTP协议的原生的GET,PUT,POST,DELETE。
REST模式的Web服务与复杂的SOAP和XML-RPC对比来讲明显的更加简洁,越来越多的Web服务开始采用REST风格设计和实现。
最后所应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应该理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于Kylo实现数据集成的自动化运营管理方法,其特征在于:用户进入浏览器页面后通过HTTP(S)进入Kylo界面,所述的Kylo界面包括操作管理界面、流管理界面和服务请求网关,所述的服务请求网关通过HTTP(S)分别连接Spark客户端和Kylo后端服务,所述的Kylo后端服务包括REST服务、JOB服务、元数据管理和Hive客户端,Hive客户端通过JDBC/Thrift连接大数据生态系统,大数据生态系统通过数据库连接NiFi,Hive客户端通过HTTP(S)连接REST接口,REST接口通过HTTP(S)连接NiFi,Kylo通过HTTP(S)向NiFi发送REST服务请求;NiFi箱JMS发送数据,JMS接收数据值Kylo后端服务。
2.根据权利要求1所述的一种基于Kylo实现数据集成的自动化运营管理方法,其特征在于:所述的NiFi包括数据处理器、数据发布服务、Hive客户端、Spark客户端和HDFS客户端。
3.根据权利要求1所述的一种基于Kylo实现数据集成的自动化运营管理方法,其特征在于:所述的大数据生态系统包括Spark内存计算引擎、Hive数据仓库和HDFS分布式文件系统。
CN201710557349.9A 2017-07-10 2017-07-10 一种基于Kylo实现数据集成的自动化运营管理方法 Pending CN107302583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710557349.9A CN107302583A (zh) 2017-07-10 2017-07-10 一种基于Kylo实现数据集成的自动化运营管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710557349.9A CN107302583A (zh) 2017-07-10 2017-07-10 一种基于Kylo实现数据集成的自动化运营管理方法

Publications (1)

Publication Number Publication Date
CN107302583A true CN107302583A (zh) 2017-10-27

Family

ID=60134030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710557349.9A Pending CN107302583A (zh) 2017-07-10 2017-07-10 一种基于Kylo实现数据集成的自动化运营管理方法

Country Status (1)

Country Link
CN (1) CN107302583A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109714332A (zh) * 2018-12-26 2019-05-03 北京字节跳动网络技术有限公司 基于Thrift和语法树解析的协议转换方法及装置
CN111737326A (zh) * 2019-10-28 2020-10-02 埃睿迪信息技术(北京)有限公司 一种数据湖环境下异构数据源数据汇聚的实现方法
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN112637356A (zh) * 2020-12-28 2021-04-09 国电电力发展股份有限公司 异地数据中心的数据同步传输方法、系统、介质、终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SCOTTREISDORF,等: "Kylo Architecture", 《GITHUB开源网站》 *
存储在线工作人员: "Teradata天睿公司发布开源Kylo软件", 《存储在线》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109714332A (zh) * 2018-12-26 2019-05-03 北京字节跳动网络技术有限公司 基于Thrift和语法树解析的协议转换方法及装置
CN111737326A (zh) * 2019-10-28 2020-10-02 埃睿迪信息技术(北京)有限公司 一种数据湖环境下异构数据源数据汇聚的实现方法
CN111737326B (zh) * 2019-10-28 2023-08-18 埃睿迪信息技术(北京)有限公司 一种数据湖环境下异构数据源数据汇聚的实现方法
CN112637356A (zh) * 2020-12-28 2021-04-09 国电电力发展股份有限公司 异地数据中心的数据同步传输方法、系统、介质、终端
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法

Similar Documents

Publication Publication Date Title
CN107766205B (zh) 一种面向微服务调用过程跟踪的监控系统及方法
CN104618693B (zh) 一种基于云计算的监控视频在线处理任务管理方法及系统
Ranchal et al. Disrupting healthcare silos: Addressing data volume, velocity and variety with a cloud-native healthcare data ingestion service
US11258814B2 (en) Methods and systems for using embedding from Natural Language Processing (NLP) for enhanced network analytics
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
CN107302583A (zh) 一种基于Kylo实现数据集成的自动化运营管理方法
TWI649762B (zh) 用於雲端臨床資料庫管理的方法及系統
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
Xhafa et al. Processing and analytics of big data streams with yahoo! s4
CN103701783B (zh) 一种预处理单元、由其构成的数据处理系统以及处理方法
CN108108288A (zh) 一种日志数据解析方法、装置及设备
CN103329129A (zh) 支持云环境的多租户审计感知
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
CN103618652A (zh) 一种业务数据的审计和深度分析系统及其方法
CN110784509B (zh) 一种医疗信息处理方法、系统及相关组件
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
JP2020201935A (ja) プライバシ信頼性に基づくapiアクセス
CN113791586A (zh) 一种新型的工业app与标识注册解析集成方法
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
Ribeiro et al. A data integration architecture for smart cities
US20170109670A1 (en) Crowd-Based Patterns for Identifying Executions of Business Processes
US20170109637A1 (en) Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171027