KR20180059269A - Bigdata platform interlock apparatus and method thereof - Google Patents

Bigdata platform interlock apparatus and method thereof Download PDF

Info

Publication number
KR20180059269A
KR20180059269A KR1020160158632A KR20160158632A KR20180059269A KR 20180059269 A KR20180059269 A KR 20180059269A KR 1020160158632 A KR1020160158632 A KR 1020160158632A KR 20160158632 A KR20160158632 A KR 20160158632A KR 20180059269 A KR20180059269 A KR 20180059269A
Authority
KR
South Korea
Prior art keywords
big data
data platform
metadata
query
file system
Prior art date
Application number
KR1020160158632A
Other languages
Korean (ko)
Inventor
송희용
Original Assignee
진데이타 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 진데이타 주식회사 filed Critical 진데이타 주식회사
Priority to KR1020160158632A priority Critical patent/KR20180059269A/en
Publication of KR20180059269A publication Critical patent/KR20180059269A/en

Links

Images

Classifications

    • G06F17/30194
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F17/30318
    • G06F17/30595

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A big data platform linking apparatus and a linking method thereof are disclosed. In the apparatus, a metadata processing unit receives metadata from a first database which provides the metadata that is setting information corresponding to a user, transmits the received metadata to a distributed file system in the big data platform, and directly stores the metadata in the distributed file system. A result transmitting unit directly reads and obtains analysis result data after a query analysis by the big data platform, from the distributed file system, and transmits the obtained analysis result data to a second database. A scheduler controls the time and order of tasks performed by the metadata processing unit and the result transmitting unit. Accordingly, the present invention can save a resource and provide fast performance.

Description

빅데이터 플랫폼 연동 장치 및 그 연동 방법 {BIGDATA PLATFORM INTERLOCK APPARATUS AND METHOD THEREOF}BIGDATA PLATFORM INTERLOCK APPARATUS AND METHOD THEREOF FIELD OF THE INVENTION [0001]

본 발명은 빅데이터 플랫폼 연동 장치 및 그 연동 방법에 관한 것이다.The present invention relates to a Big Data Platform Interworking Device and its interworking method.

최근 정형 또는 비정형 등의 대규모 데이터에 의미있는 가치를 부여하는 빅데이터(big data) 기술에 대한 관심이 높아지고 있다. Recently, interest in big data technology that gives meaningful value to massive data such as stereotyped or unstructured data is increasing.

많은 응용 서비스들은 빅데이터를 통해 정확하고 빠른 결과가 도출되도록 요청된다.Many application services are required to produce accurate and fast results through big data.

한편, 빅데이터를 처리하는데 사용되는 빅데이터 플랫폼은 외부의 관계형 데이터베이스 관리 시스템(Relational Database Management System, RDBMS)과 연동하여 빅데이터를 분석하여 처리한다. 이 때, RDBMS 기술은 수십년 동안 발전해왔기 때문에 빠르지만, 빅데이터 플랫폼은 대부분 오픈소스이고 아직 최적화가 이루어져 있지 않기 때문에 빅데이터 플랫폼에 기존의 RDBMS 연결 기술을 사용하는 경우 속도가 매우 느려지게 된다.On the other hand, the Big Data Platform used for processing Big Data analyzes Big Data in conjunction with an external Relational Database Management System (RDBMS). At this time, RDBMS technology is fast because it has evolved for decades, but the Big Data platform is mostly open-sourced and has not yet been optimized, so using the existing RDBMS connectivity technology on the Big Data platform will be very slow.

예를 들어, 최근에 빅데이터 플랫폼 중 하나로 각광받고 있는 하둡(Hadoop)은 기존의 RDBMS 방식으로는 처리가 어려운 데이터를 다루기 위해 데이터를 여러 컴퓨터에서 병렬로 처리하는 기술로서, 빅데이터의 표준으로 떠오르고 있는 기술이다.For example, Hadoop, which has recently become one of the big data platforms, is a technology that processes data in parallel on several computers in order to deal with data that is difficult to process by the existing RDBMS method, Technology.

이러한 하둡에서는 스쿱(sqoop)을 통해서 기존의 RDBMS와 연동하게 된다. 여기서, 스쿱(sqoop)은 RDBMS와 하둡 간의 대용량 데이터들을 효율적으로 변환할 수 있도록 설계된 기술이다.In Hadoop, it works with existing RDBMS through sqoop. Here, sqoop is a technology designed to efficiently convert large-capacity data between RDBMS and Hadoop.

예를 들어, 하둡 클러스터는 메타데이터를 제공하는 RDBMS로부터 스쿱을 통해서 메타데이터(meta data)를 제공받고, 사용자로부터의 쿼리에 따라 메타데이터를 사용하여 빅데이터 분석을 수행하고, 그 분석 결과를 또한 스쿱, JDBC(Java Database Connectivity), ODBC(Open Database Connectivity) 등의 연동 기술을 통해 외부 RDBMS로 제공한다. 여기서, 메타데이터는 분석 대상 로그를 분석하는 데 사용되는 설정 정보이다. For example, the Hadoop cluster receives meta data from the RDBMS providing metadata through a scan, performs big data analysis using the metadata according to a query from the user, It is provided as an external RDBMS through interworking technologies such as SQL, Java Database Connectivity (JDBC), and Open Database Connectivity (ODBC). Here, the metadata is setting information used for analyzing the log to be analyzed.

이와 같이, 기존의 연결 기술을 사용하는 경우에는 요구되는 프로세스별로 하둡과 연계되는 Hive 서버 등의 자원을 사용하여야 하기 때문에 분석을 위해서 사용되어야 하는 자원을 소모하게 되고, 이로 인해 하둡 클러스터에서의 분석 처리 속도가 지체되는 문제점이 있다. As described above, when the existing connection technology is used, resources required to be used for analysis are consumed because resources such as Hive servers associated with Hadoop must be used for each required process. Therefore, analysis processing in Hadoop cluster There is a problem that the speed is delayed.

본 발명이 이루고자 하는 기술적 과제는 빅데이터 플랫폼과 외부 RDBMS 사이의 연동시 빅데이터 플랫폼의 분석 자원을 소모하지 않아 빅데이터 플랫폼의 연동 속도가 빠른 빅데이터 플랫폼 연동 장치 및 그 연동 방법을 제공한다.SUMMARY OF THE INVENTION The present invention provides a large data platform interworking apparatus and method for interworking between a big data platform and an external RDBMS.

본 발명의 한 특징에 따른 빅데이터 플랫폼 연동 장치는,According to an aspect of the present invention,

사용자에 대응하는 설정 정보인 메타데이터를 제공하는 제1 데이터베이스로부터 메타데이터를 수신하고, 수신된 메타데이터를 상기 빅데이터 플랫폼 내의 분산 파일 시스템으로 전달하여 직접 저장시키는 메타데이터 처리부; 상기 빅데이터 플랫폼에 의해 쿼리 분석이 수행된 후의 분석 결과 데이터를 상기 분산 파일 시스템으로부터 직접 읽어서 획득하고, 획득되는 상기 분석 결과 데이터를 제2 데이터베이스로 전달하는 결과 전송부; 및 상기 메타데이터 처리부와 상기 결과 전송부에 의해 수행되는 작업의 시간 및 순서 제어를 수행하는 스케줄러를 포함한다.A metadata processing unit that receives metadata from a first database that provides metadata, which is setting information corresponding to a user, and transfers the received metadata to a distributed file system in the big data platform to directly store the received metadata; A result transmitting unit for reading and acquiring analysis result data after the query analysis is performed by the big data platform directly from the distributed file system and for transmitting the obtained analysis result data to a second database; And a scheduler for performing time and order control of operations performed by the metadata processing unit and the result transmitting unit.

여기서, 상기 메타데이터 처리부는 상기 제1 데이터베이스로부터 수신되는 메타데이터에 대한 정합성 확인을 수행한다.Here, the metadata processing unit performs consistency checking on the metadata received from the first database.

또한, 상기 메타데이터 처리부는 상기 제1 데이터베이스로부터 수신되는 메타데이터에서 변경된 정보만을 추출하여 상기 분산 파일 시스템에 저장한다.In addition, the metadata processing unit extracts only the changed information from the metadata received from the first database, and stores the extracted information in the distributed file system.

또한, 상기 스케줄러는 상기 메타데이터 처리부에 의해 생성되는 하나의 프로세스가 처리해야 하는 작업의 개수가 멀티쓰레드(multi thread)를 사용하여 처리해야 하는 경우 상기 메타데이터 처리부가 멀티쓰레드를 사용하여 처리할 수 있도록 제어한다.In addition, if the number of jobs to be processed by one process generated by the meta data processor is to be processed using a multi-thread, the scheduler can process the meta data processor using the multi-thread .

또한, 사용자에 의해 등록되는 쿼리를 수신하거나 또는 상기 빅데이터 플랫폼으로 등록되는 사용자 쿼리를 상기 빅데이터 플랫폼으로부터 전달받는 쿼리 수신부; 및 사용자에 의해 설정된 주기 및 수행 시간에 상기 빅데이터 플랫폼과 연동하여 상기 쿼리 수신부에 의해 수신된 쿼리에 대한 분석이 수행될 수 있도록 제어하는 쿼리 실행부를 더 포함하고, 상기 스케줄러는 상기 쿼리 수신부를 통해 사용자 쿼리를 읽어 들여서 쿼리의 실행부터 분석 결과 데이터의 전송까지의 전 작업 중에 구성요소간에 충돌이 발생하지 않도록 제어를 수행한다.A query receiver for receiving a query registered by a user or receiving a user query registered as the big data platform from the big data platform; And a query execution unit operable to perform an analysis of a query received by the query receiving unit in association with the big data platform at a cycle and an execution time set by the user, The user query is read and control is performed so that no conflict occurs between the components during the entire operation from execution of the query to transmission of the analysis result data.

또한, 상기 쿼리 실행부는 사용자가 정한 주기 및 수행 시간에 상기 빅데이터 플랫폼에 설정되어 있는 UDF(User Defined Function)가 포함된 분석 쿼리를 동시에 수행한다.In addition, the query execution unit simultaneously performs an analysis query including a UDF (User Defined Function) set in the Big Data Platform at a cycle and a execution time set by the user.

또한, 상기 빅데이터 플랫폼은 하둡(Hadoop) 시스템이고, 상기 분산 파일 시스템은 HDFS(Hadoop Distributed File System)이며, 상기 제1 데이터베이스 및 제2 데이터베이스는 RDBMS(Relational Database Management System)이다.In addition, the big data platform is a Hadoop system, the distributed file system is a HDFS (Hadoop Distributed File System), and the first database and the second database are RDBMS (Relational Database Management System).

본 발명의 다른 특징에 따른 빅데이터 플랫폼 연동 방법은,According to another aspect of the present invention,

빅데이터 플랫폼 연동 장치가 빅데이터 플랫폼과 외부의 제1 데이터베이스 및 제2 데이터베이스와 연동하는 방법으로서, 1. A method for a Big Data Platform Interlocking Device to interact with a Big Data Platform and an external first and second databases,

상기 제1 데이터베이스로부터 사용자에 대응하는 설정 정보인 메타데이터를 수신하고, 수신된 메타데이터를 상기 빅데이터 플랫폼 내의 분산 파일 시스템으로 전달하여 직접 저장하는 단계; 상기 빅데이터 플랫폼에 의해 쿼리 분석이 수행된 후 분석 결과 데이터가 상기 분산 파일 시스템에 저장되었는지를 판단하는 단계; 및 상기 분석 결과 데이터가 상기 분산 파일 시스템에 저장된 것으로 판단되는 경우, 상기 분산 파일 시스템으로부터 상기 분석 결과 데이터를 직접 읽어서 획득하고, 획득되는 상기 분석 결과 데이터를 상기 제2 데이터베이스로 전달하는 단계를 포함한다.Receiving metadata, which is setting information corresponding to a user, from the first database, transferring the received metadata to a distributed file system in the big data platform and directly storing the received metadata; Determining whether analysis result data is stored in the distributed file system after the query analysis is performed by the big data platform; And directly reading and acquiring the analysis result data from the distributed file system when it is determined that the analysis result data is stored in the distributed file system, and transferring the analysis result data obtained to the second database .

여기서, 상기 직접 저장하는 단계는, 상기 제1 데이터베이스로부터 사용자에 대응하는 설정 정보인 메타데이터를 수신하는 단계; 상기 메타데이터에 대한 정합성 확인을 수행하는 단계; 상기 정합성이 확인되는 경우 상기 메타데이터에서 변경된 정보만을 추출하는 단계; 및 추출된 상기 메타데이터를 상기 분산 파일 시스템에 직접 저장하는 단계를 포함한다.Here, the directly storing step may include: receiving metadata, which is setting information corresponding to a user, from the first database; Performing a consistency check on the metadata; Extracting only the changed information from the metadata if the matching is confirmed; And directly storing the extracted metadata in the distributed file system.

또한, 상기 직접 저장하는 단계에서, 하나의 프로세스가 처리해야 하는 작업의 개수가 멀티쓰레드를 사용하여 처리해야 하는 경우 멀티쓰레드를 생성하여 작업을 처리한다.Also, in the direct storing step, when the number of jobs to be processed by one process needs to be processed using the multi-thread, the multi-thread is generated and processed.

또한, 상기 직접 저장하는 단계와 상기 판단하는 단계 사이에, 사용자에 의해 설정된 주기 및 수행 시간에 상기 빅데이터 플랫폼과 연동하여 쿼리에 대한 분석이 수행될 수 있도록 제어하는 단계를 더 포함한다.The method may further include controlling the analysis of the query in cooperation with the big data platform at a cycle and a execution time set by the user between the direct storing step and the determining step.

본 발명의 또 다른 특징에 따른 빅데이터 플랫폼 연동 장치는, According to another aspect of the present invention,

통신부, 메모리 및 프로세서를 포함하며, 상기 통신부는 상기 연동 장치가 상기 빅데이터 플랫폼과 외부의 제1 데이터베이스 및 제2 데이터베이스 사이에 연동 동작을 수행할 수 있도록 데이터 송수신을 수행하고, 상기 메모리는 상기 통신부가 상기 빅데이터 플랫폼, 및 상기 제1 및 제2 데이터베이스와 데이터 전송을 수행하도록 하는 프로그램을 저장하며, 상기 프로세서는 상기 메모리에 저장된 프로그램을 호출하여, 상기 통신부를 통해 상기 제1 데이터베이스로부터 읽어 들인 메타데이터를 상기 빅데이터 플랫폼의 분산 파일 시스템으로 직접 전달하여 저장되도록 하고, 상기 분산 파일 시스템으로부터 직접 분석 결과 데이터를 읽어 와서 상기 제2 데이터베이스로 전달하는 작업을 수행한다.Wherein the communication unit performs data transmission and reception so that the interlocking device can perform an interlocking operation between the big data platform and a first external database and a second external database, And a program for causing the processor to perform a data transfer with the first and second databases, wherein the processor calls a program stored in the memory, and reads the metadata read from the first database via the communication unit Data is directly transferred to and stored in the distributed file system of the big data platform, and analysis result data is directly read from the distributed file system and transferred to the second database.

여기서, 상기 통신부는 사용자에 의해 등록되는 쿼리를 수신하거나 또는 상기 빅데이터 플랫폼으로 등록되는 사용자 쿼리를 상기 빅데이터 플랫폼으로부터 전달받고, 상기 메모리는 쿼리를 실행하도록 하는 프로그램을 더 저장하며, 상기 프로세서는 상기 메모리에 저장된 프로그램을 호출하여, 사용자에 의해 설정된 주기 및 수행 시간에 상기 빅데이터 플랫폼과 연동하여 상기 통신부를 통해 수신된 쿼리에 대한 분석이 수행될 수 있도록 작업을 수행한다.Here, the communication unit further stores a program for receiving a query registered by a user or receiving a user query from the big data platform registered as the big data platform, the memory executing a query, and the processor The program stored in the memory is called to perform an operation for performing an analysis on a query received through the communication unit in association with the big data platform at a cycle and execution time set by the user.

또한, 상기 메모리는 멀티쓰레드(multi thread)를 사용하여 작업을 수행하도록 하는 프로그램을 더 저장하고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 호출하여, 하나의 프로세스가 처리해야 하는 작업의 개수가 멀티쓰레드를 사용하여 처리해야 하는 경우 멀티쓰레드를 생성하여 작업을 처리한다.Further, the memory further stores a program for performing an operation using a multi-thread, and the processor calls a program stored in the memory so that the number of operations that a single process has to process is multi- If you need to do so, create a multithread and process it.

또한, 상기 프로세서는 멀티쓰레드를 사용하여 처리되는 작업 중에 충돌이 발생하지 않도륵 제어를 수행한다.In addition, the processor performs control so that collision does not occur during an operation that is performed using a multi-thread.

본 발명의 특징에 따른 컴퓨터 판독 가능 기록 매체는, A computer-readable recording medium according to an aspect of the present invention,

빅데이터 플랫폼의 연동 방법을 수행하는 프로그램을 저장하는 컴퓨터 판독 가능 기록 매체로서, 상기 제1 데이터베이스로부터 사용자에 대응하는 설정 정보인 메타데이터를 수신하고, 수신된 메타데이터를 상기 빅데이터 플랫폼 내의 분산 파일 시스템으로 전달하여 직접 저장하는 기능; 상기 빅데이터 플랫폼에 의해 쿼리 분석이 수행된 후 분석 결과 데이터가 상기 분산 파일 시스템에 저장되었는지를 판단하는 기능; 및 상기 분석 결과 데이터가 상기 분산 파일 시스템에 저장된 것으로 판단되는 경우, 상기 분산 파일 시스템으로부터 상기 분석 결과 데이터를 직접 읽어서 획득하고, 획득되는 상기 분석 결과 데이터를 상기 제2 데이터베이스로 전달하는 기능을 포함한다.A computer readable recording medium storing a program for performing a method of interworking with a big data platform, the computer readable medium having stored thereon metadata that is setting information corresponding to a user from the first database, Transferring them directly to the system and storing them directly; A function of determining whether analysis result data is stored in the distributed file system after the query analysis is performed by the big data platform; And directly reading and acquiring the analysis result data from the distributed file system when it is determined that the analysis result data is stored in the distributed file system, and transferring the analysis result data obtained to the second database .

본 발명에 따르면, 빅데이터 플랫폼과 외부의 RDBMS 사이를 연동하는 연동 장치가 직접 분산 파일 시스템에 메타데이터를 기록하고, 분산 파일 시스템에 저장된 분석 결과를 가져올 수 있도록 구현되기 때문에 분석을 위해서 사용되어야 하는 자원을 소모하지 않게 된다. According to the present invention, since an interworking device that interworks between a big data platform and an external RDBMS directly records metadata in a distributed file system and is implemented to fetch analysis results stored in a distributed file system, You will not consume resources.

또한, 빅데이터 플랫폼 연동 장치가 분산 파일 시스템에 대해 직접 읽고 씀으로써 속도면에서 빠른 성능을 제공할 수 있다.In addition, the Big Data Platform Interoperability can provide fast performance in terms of speed by directly reading and writing to the distributed file system.

또한, 빅데이터 플랫폼 연동 장치 내에서 생성되는 하나의 프로세스가 처리해야 하는 작업의 개수를 확인하여 필요한 만큼의 멀티쓰레드를 사용하여 처리함으로써 프로세스에 할당되는 자원을 절약할 수가 있다.In addition, the number of tasks to be processed by a single process created in the Big Data Platform Interworking Device can be checked and processed using as many multithreads as necessary, thereby saving resources allocated to the process.

도 1은 일반적인 하둡 시스템과 RDBMS 기반 시스템 사이의 연동 방식을 개략적으로 도시한 도면이다.
도 2는 도 1에 도시된 하둡 시스템과 RDBMS 기반 시스템 사이의 데이터 전달 흐름을 개략적으로 도시한 도면이다.
도 3은 본 발명의 실시예에 따른 빅데이터 플랫폼 연동 방법을 개략적으로 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 빅데이터 플랫폼 연동 장치가 사용된 하둡 시스템을 개략적으로 도시한 도면이다.
도 5는 본 발명의 실시예에 따른 빅데이터 플랫폼 연동 장치를 사용하는 경우의 작업 및 데이터 흐름을 개략적으로 도시한 도면이다.
도 6은 본 발명의 실시예에 따른 연동 장치의 다른 구성을 도시한 도면이다.
1 is a diagram schematically illustrating an interworking method between a general Hadoop system and an RDBMS-based system.
FIG. 2 is a diagram schematically illustrating a flow of data transfer between the Hadoop system and the RDBMS-based system shown in FIG.
3 is a diagram schematically illustrating a method of interfacing a Big Data Platform according to an embodiment of the present invention.
4 is a diagram schematically illustrating a Hadoop system using a Big Data Platform Interworking Device according to an embodiment of the present invention.
FIG. 5 is a diagram schematically illustrating a job and a data flow when using the Big Data Platform Interlocking Device according to the embodiment of the present invention.
6 is a view showing another configuration of the interlocking device according to the embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise. Also, the terms " part, "" module," and " module ", etc. in the specification mean a unit for processing at least one function or operation and may be implemented by hardware or software or a combination of hardware and software have.

먼저, 일반적인 빅데이터 플랫폼의 외부 시스템과의 연동 방법에 대해 설명한다.First, a method of interworking with an external system of a general big data platform will be described.

본 발명의 실시예에서는 설명의 편의를 위해 빅데이터 플랫폼으로 하둡 시스템을 사용하여 설명하지만, 본 발명의 기술적 범위는 여기에 한정되지 않고 다른 유형의 빅데이터 플랫폼에도 적용될 수 있다.In the embodiment of the present invention, a Hadoop system is used as a big data platform for convenience of explanation, but the technical scope of the present invention is not limited to this and can be applied to other types of big data platforms.

도 1은 일반적인 하둡 시스템과 RDBMS 기반 시스템 사이의 연동 방식을 개략적으로 도시한 도면이고, 도 2는 도 1에 도시된 하둡 시스템과 RDBMS 기반 시스템 사이의 데이터 전달 흐름을 개략적으로 도시한 도면이다.FIG. 1 is a diagram schematically illustrating an interworking method between a general Hadoop system and an RDBMS-based system, and FIG. 2 is a diagram schematically illustrating a data transfer flow between the Hadoop system and the RDBMS-based system shown in FIG.

도 1을 참조하면, 하둡 시스템(10)은 설정 정보를 제공하는 RDBMS(20)와 스쿱 연동 방식을 통해 설정 정보인 메타데이터를 제공받는다.Referring to FIG. 1, the Hadoop system 10 is provided with metadata, which is configuration information, through an RDBMS 20 providing setup information and a step-and-click interface.

그리고, 하둡 시스템(10)은 메타데이터를 이용한 빅데이터 분석 결과를 외부 RDBMS(30), 즉 분석 결과를 활용하는 RDBMS(30)로 제공할 때 Spark/Pig 연동 방식(51), JDBC/ODBM 연동 방식(52), 또는 스쿱(53)을 사용한다.When the Hadoop system 10 provides the large data analysis result using the metadata to the external RDBMS 30, i.e., the RDBMS 30 utilizing the analysis result, the Hadoop system 10 performs the Spark / Pig interworking method 51, the JDBC / ODBM interworking The method 52 or the step 53 is used.

한편, 도 2를 참조하면, 구체적으로 하둡 시스템(10)의 HDFS(Hadoop Distributed File System)(11) 내에 수집된 빅데이터가 저장되면, 그 후 하이브 서버(Hive Server)(12)가 스쿱(41)을 통해 RDBMS(20)로부터 메타데이터를 전달받고, 분석부(13)에 의해 빅데이터 분석이 완료되면 그 분석 결과가 스쿱 등의 연동 기술(51, 52, 53)을 통해 분석부(13)로부터 RDBMS(30)에게 전달된다.2, when the big data collected in the HDFS (Hadoop Distributed File System) 11 of the Hadoop system 10 is stored, the Hive Server 12 then stores the large data The analyzing unit 13 receives the metadata from the RDBMS 20 and analyzes the result of the analysis of the big data by the analyzing unit 13 through the interworking techniques 51, To the RDBMS 30.

이와 같이, 일반적인 기술에서 하둡 시스템과 외부 RDBMS가 스쿱 등의 연동 기술(40, 51, 52, 53)을 사용하여 연결되는 경우, 요구되는 프로세스별로 하둡과 연계되는 하이브 서버 등의 자원을 사용하여야 하기 때문에 분석을 위해서 사용되어야 하는 자원을 소모하게 되고, 이로 인해 하둡 클러스터에서의 분석 처리 속도가 지체되며, 또한, 프로세스별로 별도의 스케줄링이 필요하고 비즈니스 로직이 추가될 때마다 별도의 개발이 이루어져야 하는 문제점이 있다.In this way, when the Hadoop system and the external RDBMS are connected using the interworking technology (40, 51, 52, 53) such as a scan in the general technology, resources such as a hive server associated with Hadoop must be used for each required process Therefore, it is necessary to use separate scheduling for each process and separate development every time the business logic is added. In addition, .

이하, 상기한 문제점을 해결하기 위한 본 발명의 실시예에 대해 설명한다.Hereinafter, embodiments of the present invention for solving the above problems will be described.

도 3은 본 발명의 실시예에 따른 빅데이터 플랫폼 연동 방법을 개략적으로 도시한 도면이다. 본 발명의 실시예에서는 구체적인 시스템인 하둡 시스템을 예로 사용하여 설명하지만, 본 발명은 이에 한정되는 것은 아니다.3 is a diagram schematically illustrating a method of interfacing a Big Data Platform according to an embodiment of the present invention. In the embodiment of the present invention, the Hadoop system, which is a specific system, will be described as an example, but the present invention is not limited thereto.

일반적으로, 빅데이터 플랫폼인 하둡 시스템(100)에서 데이터 유입 속도보다 현저하게 빠른 것은 하둡 시스템(100)에서 대용량 데이터를 분산 방식으로 저장하는 하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS)(110)에 대한 읽고 쓰기(HDFS Read & Write), 대용량의 SQL(Structured Query Language) 수행 등이다.In general, the data inflow rate of Hadoop system 100, which is a big data platform, is remarkably faster than that of Hadoop Distributed File System (HDFS) 110, which stores large amounts of data in a distributed manner in Hadoop system 100, (HDFS Read & Write), and large-capacity SQL (Structured Query Language).

따라서, 본 발명의 실시예에 따라 하둡 시스템(100)과 외부의 RDBMS(200, 300)의 연동을 주관하는 연동 장치(400)는 상기한 HDFS Read & Write, 대용량의 SQL 수행 등을 결합하여 하둡 시스템(100)과 RDBMS(200, 300)을 효율적으로 연동하면서 분석을 위한 자원을 사용하지 않도록 한다.Therefore, the interlocking device 400, which manages interworking between the Hadoop system 100 and the external RDBMSs 200 and 300 according to the embodiment of the present invention, combines the HDFS Read & Write and the large- The system 100 and the RDBMSs 200 and 300 are efficiently linked and resources for analysis are not used.

본 발명의 실시예에 따른 연동 장치(400)는 단일 프로세스로 로그 분석 정보의 설정 정보에 해당하는 메타데이터를 제공하는 RDBMS(200)로부터 변경 정보를 확인하고 추출하여 HDFS Write로 HDFS(110)로 직접 데이터를 추가한다. 이 때 사용자가 원하는 메타데이터를 자동으로 인지하여 신규일 경우 생성하도록 구현될 수 있다.The interworking device 400 according to the embodiment of the present invention checks and extracts change information from the RDBMS 200 that provides metadata corresponding to the setting information of the log analysis information in a single process and outputs the change information to the HDFS 110 Add the data directly. At this time, the user may automatically recognize the desired metadata and generate the metadata if the metadata is new.

또한, 설정 정보의 정합성을 확보하기 위해 기본 키(primary key)를 인지하고 이를 기준으로 정렬하여 최근 데이터만을 취하도록 하이브 쿼리 작업을 수행한다.Also, in order to ensure the consistency of the setting information, the hive query operation is performed so that the primary key is recognized and sorted based on the primary key to take only the latest data.

또한, INSERT, OVERWRITE 형태의 사용자 쿼리에 대한 스케줄링과 수행 관리에 대해 본 발명의 실시예에 따른 연동 장치(400)가 알아수 수행하고 정해진 HDFS(100)의 위치를 읽어서 최종 RDBMS(300)로 벌크 삽입(Bulk Insert)을 수행할 수 있다.In addition, the interworking apparatus 400 according to the embodiment of the present invention can recognize and perform the scheduling and performance management for the INSERT, OVERWRITE type user query, read the position of the designated HDFS 100, Bulk Insert can be performed.

한편, 본 발명의 실시예에 따른 연동 장치(400)는 하둡 시스템(100)과 RDBMS(200, 300) 사이에 JDBC 연결 기능을 사용하여 데이터 전송을 수행할 수 있다.Meanwhile, the interworking device 400 according to the embodiment of the present invention can perform data transmission using the JDBC connection function between the Hadoop system 100 and the RDBMSs 200 and 300.

도 4는 본 발명의 실시예에 따른 빅데이터 플랫폼 연동 장치가 사용된 하둡 시스템을 개략적으로 도시한 도면이다.4 is a diagram schematically illustrating a Hadoop system using a Big Data Platform Interworking Device according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 본 발명의 실시예에 따른 연동 장치(400)는 메타데이터 처리부(410), 쿼리 수신부(420), 쿼리 실행부(430), 결과 전송부(440) 및 스케줄러(450)를 포함한다.4, the interlocking apparatus 400 according to the embodiment of the present invention includes a metadata processing unit 410, a query receiving unit 420, a query executing unit 430, a result transmitting unit 440, and a scheduler 450).

메타데이터 처리부(410)는 사용자에 대한 메타데이터를 RDBMS(200)로부터 수신하여 하둡 시스템(100)의 HDFS(110)에 직접 저장한다.The metadata processing unit 410 receives the metadata about the user from the RDBMS 200 and directly stores the metadata in the HDFS 110 of the Hadoop system 100. [

선택적으로, 메타데이터 처리부(410)는 RDBMS(200)로부터 수신되는 메타데이터에 대한 정합성 확인을 수행하고 변경된 정보만을 추출하여 HDFS(110)에 직접 저장할 수 있다.Alternatively, the metadata processing unit 410 may perform consistency checking on the metadata received from the RDBMS 200, extract only the changed information, and directly store the extracted information in the HDFS 110. [

쿼리 수신부(420)는 사용자에 의해 직접 등록되는 쿼리를 수신하거나 또는 하둡 시스템(100)으로 등록되는 사용자 쿼리를 하둡 시스템(100)으로부터 전달받는다.The query receiving unit 420 receives a query directly registered by the user or receives a user query registered in the Hadoop system 100 from the Hadoop system 100.

쿼리 실행부(430)는 사용자에 의해 설정된 주기 및 수행 시간에 하둡 시스템(100)의 하이브 서버(Hive Server)(120)와 연동하여 쿼리 수신부(420)에 의해 수신된 쿼리에 대한 분석이 수행될 수 있도록 한다. 예를 들어, 쿼리 실행부(430)는 사용자가 정한 주기 및 수행 시간에 하이브 서버(120)에 설정되어 있는 하이브 UDF(User Defined Function)가 포함된 분석 쿼리를 동시에 수행한다.The query execution unit 430 analyzes the query received by the query receiving unit 420 in conjunction with the Hive Server 120 of the Hadoop system 100 at the cycle and execution time set by the user . For example, the query execution unit 430 simultaneously executes an analysis query including a hive UDF (User Defined Function) set in the hive server 120 at a cycle and a execution time set by the user.

결과 전송부(440)는 하둡 시스템(100)에서 쿼리에 대해 빅데이터 기반 분석이 완료된 분석 결과가 HDFS(110)에 저장되면, HDFS(110)로부터 직접 분석 결과 데이터를 읽어오고, 읽어들인 분석 결과 데이터를 분석 결과를 활용하는 RDBMS(300)로 전달한다. 이 때, 결과 전송부(440)는 HDFS(110)의 위치, 대상 RDBMS(300) 정보 등을 인지하여 분석 결과 데이터를 바로 HDFS(110)에서 읽어서 해당 RDBMS(300)로 전송할 수 있어야 한다.The result transmitting unit 440 reads the analysis result data directly from the HDFS 110 when the analysis result in which the big data base analysis is completed for the query in the Hadoop system 100 is stored in the HDFS 110, And transmits the data to the RDBMS 300 utilizing the analysis result. In this case, the result transmitting unit 440 should be able to read the analysis result data directly from the HDFS 110 and transmit the analysis result data to the corresponding RDBMS 300 by recognizing the location of the HDFS 110, the target RDBMS 300, and the like.

스케줄러(450)는 메타데이터 처리부(410), 쿼리 수신부(420), 쿼리 실행부(430) 및 결과 전송부(440)를 제어하여, 하둡 시스템(100)과 외부의 RDBMS(200, 300)와의 연동이 수행되도록 한다.The scheduler 450 controls the metadata processing unit 410, the query receiving unit 420, the query executing unit 430 and the result transmitting unit 440 so that the Hadoop system 100 and the external RDBMSs 200 and 300 Interworking is performed.

구체적으로, 스케줄러(450)는 메타데이터 처리부(410)에 의해 생성되는 하나의 프로세스가 처리해야 하는 작업의 개수를 확인하여 필요한 만큼의 멀티쓰레드(multi thread)를 사용하여 처리할 수 있도록 함으로써 프로세스에 할당되는 자원을 절약할 수가 있다.Specifically, the scheduler 450 checks the number of tasks to be processed by one process generated by the meta data processor 410 and processes the tasks using as many multithreads as necessary. You can save allocated resources.

또한, 스케줄러(450)는 사용자의 설정 정보 및 쿼리를 읽어 들여서 쿼리의 실행부터 분석 결과 전송까지의 전 과정에 대해 각 구성요소가 작동되는 중에 충돌이 발생하지 않도록 시간 및 순서 제어를 수행한다. 예를 들어, 메타데이터 처리부(410)에 의해 멀티쓰레드가 생성되어 동작할 때 상호 간에 충돌이 발생하지 않도록 제어를 수행한다.In addition, the scheduler 450 reads the setting information of the user and the query, and performs time and order control so that collision does not occur during operation of each component from the execution of the query to the transmission of the analysis result. For example, when the multithread is created and operated by the meta data processor 410, control is performed so that no conflict occurs with each other.

도 5는 본 발명의 실시예에 따른 빅데이터 플랫폼 연동 장치를 사용하는 경우의 작업 및 데이터 흐름을 개략적으로 도시한 도면이다.FIG. 5 is a diagram schematically illustrating a job and a data flow when using the Big Data Platform Interlocking Device according to the embodiment of the present invention.

도 5를 참조하면, 먼저, 외부의 데이터 수집 서버(도시하지 않음)들에 의해 수집되는 데이터가 하둡 시스템(100)의 HDFS(110)에 저장되어 있다. 이러한 데이터들은 외부의 데이터 수집 서버들에 의해 주기적으로 또는 이벤트 발생시마다 해당하는 데이터가 수집되어 HDFS(110)에 저장되어 빅데이터를 형성한다.Referring to FIG. 5, first, data collected by an external data collection server (not shown) is stored in the HDFS 110 of the Hadoop system 100. These data are collected periodically by external data collection servers or at the time of event occurrence, and stored in the HDFS 110 to form big data.

본 발명의 실시예에 따른 연동 장치(400)의 스케줄러(450)는 사용자로부터 쿼리 등록이 수행되는 것을 쿼리 수신부(420)를 통해 인지하는 경우(S100), 메타데이터 처리부(410)를 통해 해당 사용자의 설정 정보인 메타데이터를 외부의 RDBMS(200)로부터 읽어들인다(S110).The scheduler 450 of the interworking device 400 according to the embodiment of the present invention recognizes that the query registration is performed from the user through the query receiving unit 420 in step S100, From the external RDBMS 200 (S110).

그 후, 메타데이터 처리부(410)는 읽어들인 메타데이터의 정합성을 확인하고, 정합성이 확인되는 메타데이터에 대해 HDFS(110)로 직접 전달하여 저장한다(HDFS Write)(S120). 여기서, 메타데이터 처리부(410)는 메타데이터의 정합성을 확보하기 위해 기본 키(primary)를 인지한다. Then, the metadata processing unit 410 confirms the consistency of the read metadata, directly transfers the metadata to the HDFS 110 and stores it (HDFS Write) (S120). Here, the metadata processing unit 410 recognizes a primary key to ensure the consistency of the metadata.

선택적으로, 메타데이터 처리부(410)는 정합성이 확인된 메타데이터를 정렬하여 최근의 데이터만을 취하도록 쿼리 작업을 수행할 수 있다.Alternatively, the metadata processing unit 410 may perform a query operation so as to sort only the latest data by sorting the metadata whose consistency has been confirmed.

그 후, 쿼리 실행부(430)는 사용자에 의해 설정된 주기 및 수행 시간에 하둡 시스템(100)의 하이브 서버(120)와 연동하여 쿼리 수신부(420)에 의해 수신된 쿼리에 대한 분석이 수행되도록 한다(S130). 예를 들어, 쿼리 실행부(430)는 사용자가 정한 주기 및 수행 시간에 하이브 서버(120)에 설정되어 있는 하이브 UDF가 포함된 분석 쿼리를 동시에 수행한다.The query execution unit 430 then analyzes the query received by the query receiving unit 420 in conjunction with the hive server 120 of the Hadoop system 100 at the cycle and execution time set by the user (S130). For example, the query execution unit 430 simultaneously executes an analysis query including a hive UDF set in the hive server 120 at a cycle and a execution time set by the user.

다음, 하둡 시스템(100)의 분석 수행부(130)가 HDFS(110)에 저장되어 있는 메타데이터와 분석 데이터를 사용하여 사용자 쿼리에 대응하는 분석을 수행한다(S140). 본 발명의 실시예에 따른 특징은 하둡 시스템(100)에서의 분석 수행 과정에 대한 것이 아니므로, 여기에서는 분석 수행부(130)가 쿼리에 대응하는 분석을 수행하는 과정에 대한 구체적인 설명을 생략하는 것에 대해 본 기술분야의 당업자라면 쉽게 이해할 것이다.Next, the analysis performing unit 130 of the Hadoop system 100 performs analysis corresponding to the user query using the metadata and analysis data stored in the HDFS 110 (S140). Since the characteristic according to the embodiment of the present invention is not related to the process of performing the analysis in the Hadoop system 100, a detailed description of the process of performing the analysis corresponding to the query is omitted here Will be readily apparent to those skilled in the art.

그 후, 분석 수행부(140)는 분석 수행의 결과물인 분석 결과 데이터를 HDFS(110)에 저장한다(S150).Thereafter, the analysis performing unit 140 stores the analysis result data, which is the result of the analysis, in the HDFS 110 (S150).

이와 같이, 하둡 시스템(100)에 의해 수행된 분석 결과 데이터가 HDFS(110)에 저장되는 것이 연동 장치(400)의 스케줄러(450)에 의해 인지되면, 결과 전송부(440)를 통해 HDFS(110)로부터 직접 분석 결과 데이터를 읽어오고(HDFS Read)(S160), 그 후, 읽어들인 분석 결과 데이터를 분석 결과를 활용하는 RDBMS(300)로 전달한다(S170). 이 때, 결과 전송부(440)는 HDFS(110)의 위치, 대상 RDBMS(300) 정보 등을 인지하여 분석 결과 데이터를 바로 HDFS(110)에서 읽어서 해당 RDBMS(300)로 전송할 수 있다.If it is recognized by the scheduler 450 of the interworking device 400 that the analysis result data performed by the Hadoop system 100 is stored in the HDFS 110, (HDFS Read) (S160), and then transmits the read analysis result data to the RDBMS 300 using the analysis result (S170). At this time, the result transmitting unit 440 recognizes the location of the HDFS 110, the target RDBMS 300, and the like, reads the analysis result data directly from the HDFS 110, and transmits the data to the corresponding RDBMS 300.

이와 같이, 본 발명의 실시예에서는 하둡 시스템(100)과 외부의 RDBMS(200, 300) 사이를 연동하는 연동 장치(400)가 직접 HDFS(110)에 메타데이터를 기록하고, HDFS(110)에 저장된 분석 결과를 가져올 수 있도록 구현되기 때문에 분석을 위해서 사용되어야 하는 자원을 소모하지 않게 된다. As described above, in the embodiment of the present invention, the interworking device 400 interworking between the Hadoop system 100 and the external RDBMSs 200 and 300 directly records the metadata in the HDFS 110, Because it is implemented to retrieve stored analysis results, it does not consume resources that should be used for analysis.

또한, 연동 장치(400)가 HDFS(110)에 대해 직접 읽고 씀으로써 속도면에서 빠른 성능을 제공할 수 있다.In addition, since the interlock 400 directly reads and writes to the HDFS 110, it is possible to provide fast performance in terms of speed.

또한, 본원 발명에서는 연동 장치(400) 내의 메타데이터 처리부(410)에 의해 생성되는 하나의 프로세스가 처리해야 하는 작업의 개수를 확인하여 필요한 만큼의 멀티쓰레드를 사용하여 처리함으로써 프로세스에 할당되는 자원을 절약할 수가 있다.In the present invention, the number of tasks to be processed by one process generated by the meta data processing unit 410 in the interworking device 400 is checked and processed using as many multithreads as necessary, You can save money.

도 6은 본 발명의 실시예에 따른 연동 장치의 다른 구성을 도시한 도면이다.6 is a view showing another configuration of the interlocking device according to the embodiment of the present invention.

도 6을 참조하면, 본 발명의 실시예에 따른 연동 장치(600)는 통신부(610), 메모리(620) 및 프로세서(630)를 포함한다.Referring to FIG. 6, an interlocking device 600 according to an embodiment of the present invention includes a communication unit 610, a memory 620, and a processor 630.

통신부(610)는 연동 장치(600)가 본 발명의 실시예에 따라 하둡 시스템(100)과 RDBMS(200, 300) 사이에 연동 동작을 수행할 수 있도록 데이터 송수신을 수행한다. 특히, 하둡 시스템(100)의 경우 하둡 시스템(100)의 HDFS(110)와 직접 데이터 송수신이 가능하도록 구현된다.The communication unit 610 performs data transmission and reception so that the interlocking device 600 can perform an interlocking operation between the Hadoop system 100 and the RDBMSs 200 and 300 according to an embodiment of the present invention. In particular, in the case of the Hadoop system 100, direct data transmission / reception with the HDFS 110 of the Hadoop system 100 is possible.

구체적으로, 통신부(610)는 사용자에 대한 메타데이터를 RDBMS(200)로부터 수신하고, 수신된 메타데이터를 하둡 시스템(100)의 HDFS(110)에 직접 전송한다. Specifically, the communication unit 610 receives the metadata about the user from the RDBMS 200 and directly transmits the received metadata to the HDFS 110 of the Hadoop system 100. [

또한, 통신부(620)는 사용자에 의해 직접 등록되는 쿼리를 수신하거나 또는 하둡 시스템(100)으로 등록되는 사용자 쿼리를 하둡 시스템(100)으로부터 수신한다.The communication unit 620 receives a query directly registered by the user or receives a user query registered in the Hadoop system 100 from the Hadoop system 100. [

또한, 통신부(620)는 HDFS(110)로부터 직접 분석 결과 데이터를 수신하고, 수신된 분석 결과 데이터를 RDBMS(300)로 전송한다. 이 때, 통신부(620)는 HDFS(110)의 위치, 대상 RDBMS(300) 정보 등을 인지하여 분석 결과 데이터를 바로 HDFS(110)에서 수신하여 해당 RDBMS(300)로 전송할 수 있어야 한다.The communication unit 620 receives analysis result data directly from the HDFS 110 and transmits the analysis result data to the RDBMS 300. At this time, the communication unit 620 must be able to recognize the location of the HDFS 110, the target RDBMS 300, and the like, receive the analysis result data directly from the HDFS 110, and transmit the data to the corresponding RDBMS 300.

한편, 메모리(620)는 통신부(610)가 하둡 시스템(100) 및 RDBMS(200, 300)과 데이터 전송을 수행하기 위한 프로그램, 쿼리를 실행하기 위한 프로그램, 멀티쓰레드를 사용하여 처리되는 작업 중에 충돌이 발생하지 않도륵 제어를 수행하는 프로그램 등을 저장한다.Meanwhile, the memory 620 stores a program for executing data transmission with the Hadoop system 100 and the RDBMSs 200 and 300, a program for executing a query, And a program that performs control so as not to occur.

프로세서(630)는 메모리(620)에 저장된 프로그램을 호출하여, 도 5를 참조하여 설명한 바와 같은 본 발명의 실시예에서 제안한 절차 및/또는 방법을 구현하도록 구성될 수 있다. 즉, 프로세서(630)는 통신부(610)를 통해 RDBMS(200)로부터 읽어들인 메타데이터를 하둡 시스템(100)의 HDFS(110)로 직접 전달하여 저장되도록 하고, 사용자에 의해 설정된 주기 및 수행 시간에 하둡 시스템(100)의 하이브 서버(120)와 연동하여 사용자 쿼리에 대한 분석이 수행되도록 하며, HDFS(110)로부터 직접 분석 결과 데이터를 읽어와서 RDBMS(300)로 전달하는 작업을 수행한다The processor 630 may be configured to invoke a program stored in the memory 620 to implement the procedures and / or methods proposed in embodiments of the present invention as described with reference to Fig. That is, the processor 630 directly transmits the metadata read from the RDBMS 200 to the HDFS 110 of the Hadoop system 100 through the communication unit 610 and stores the metadata in the period and the execution time set by the user An analysis of the user query is performed in cooperation with the hive server 120 of the Hadoop system 100 and the analysis result data is read directly from the HDFS 110 and is transferred to the RDBMS 300

이러한 프로세서(630)는 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 호칭될 수 있다. 또한, 프로세서(630)는 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있다.Such a processor 630 may also be referred to as a controller, a microcontroller, a microprocessor, a microcomputer, or the like. The processor 630 may also be implemented by hardware or firmware, software, or a combination thereof.

프로세서(630)는 통신부(610)가 RDBMS(200)로부터 수신되는 메타데이터에 대한 정합성 확인을 수행하고 변경된 정보만을 추출하여 HDFS(110)에 직접 저장할 수 있도록 제어한다.The processor 630 performs a consistency check on the metadata received from the RDBMS 200 by the communication unit 610 and extracts only the changed information and stores the extracted information in the HDFS 110 directly.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.The embodiments of the present invention described above are not implemented only by the apparatus and method, but may be implemented through a program for realizing the function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (16)

빅데이터 플랫폼의 연동 장치로서,
사용자에 대응하는 설정 정보인 메타데이터를 제공하는 제1 데이터베이스로부터 메타데이터를 수신하고, 수신된 메타데이터를 상기 빅데이터 플랫폼 내의 분산 파일 시스템으로 전달하여 직접 저장시키는 메타데이터 처리부;
상기 빅데이터 플랫폼에 의해 쿼리 분석이 수행된 후의 분석 결과 데이터를 상기 분산 파일 시스템으로부터 직접 읽어서 획득하고, 획득되는 상기 분석 결과 데이터를 제2 데이터베이스로 전달하는 결과 전송부; 및
상기 메타데이터 처리부와 상기 결과 전송부에 의해 수행되는 작업의 시간 및 순서 제어를 수행하는 스케줄러
를 포함하는 빅데이터 플랫폼 연동 장치.
As an interlocking device for the Big Data Platform,
A metadata processing unit that receives metadata from a first database that provides metadata, which is setting information corresponding to a user, and transfers the received metadata to a distributed file system in the big data platform to directly store the received metadata;
A result transmitting unit for reading and acquiring analysis result data after the query analysis is performed by the big data platform directly from the distributed file system and for transmitting the obtained analysis result data to a second database; And
A scheduler for performing time and order control of a job performed by the metadata processing unit and the result transmitting unit;
The Big Data Platform Interworking Device.
제1항에 있어서,
상기 메타데이터 처리부는 상기 제1 데이터베이스로부터 수신되는 메타데이터에 대한 정합성 확인을 수행하는,
빅데이터 플랫폼 연동 장치.
The method according to claim 1,
Wherein the metadata processing unit performs a consistency check on the metadata received from the first database,
Big Data Platform Interlock.
제2항에 있어서,
상기 메타데이터 처리부는 상기 제1 데이터베이스로부터 수신되는 메타데이터에서 변경된 정보를 추출하여 상기 분산 파일 시스템에 저장하는,
빅데이터 플랫폼 연동 장치.
3. The method of claim 2,
Wherein the metadata processing unit extracts the changed information from the metadata received from the first database and stores the extracted information in the distributed file system,
Big Data Platform Interlock.
제1항에 있어서,
상기 스케줄러는 상기 메타데이터 처리부에 의해 생성되는 하나의 프로세스가 처리해야 하는 작업의 개수가 멀티쓰레드(multi thread)를 사용하여 처리해야 하는 경우 상기 메타데이터 처리부가 멀티쓰레드를 사용하여 처리할 수 있도록 제어하는,
빅데이터 플랫폼 연동 장치.
The method according to claim 1,
The scheduler controls the meta data processor to perform processing using the multi-thread when the number of tasks to be processed by one process generated by the meta data processor is to be processed using a multi-thread doing,
Big Data Platform Interlock.
제1항에 있어서,
사용자에 의해 등록되는 쿼리를 수신하거나 또는 상기 빅데이터 플랫폼으로 등록되는 사용자 쿼리를 상기 빅데이터 플랫폼으로부터 전달받는 쿼리 수신부; 및
사용자에 의해 설정된 주기 및 수행 시간에 상기 빅데이터 플랫폼과 연동하여 상기 쿼리 수신부에 의해 수신된 쿼리에 대한 분석이 수행될 수 있도록 제어하는 쿼리 실행부
를 더 포함하고,
상기 스케줄러는 상기 쿼리 수신부를 통해 사용자 쿼리를 읽어 들여서 쿼리의 실행부터 분석 결과 데이터의 전송까지의 전 작업 중에 구성요소간에 충돌이 발생하지 않도록 제어를 수행하는,
빅데이터 플랫폼 연동 장치.
The method according to claim 1,
A query receiver for receiving a query registered by a user or receiving a user query registered as the big data platform from the big data platform; And
A query execution unit operable to perform analysis on a query received by the query receiving unit in association with the big data platform at a cycle and execution time set by a user,
Further comprising:
Wherein the scheduler reads a user query through the query receiver and performs control so as to prevent a collision between components during a whole operation from execution of a query to transmission of analysis result data,
Big Data Platform Interlock.
제5항에 있어서,
상기 쿼리 실행부는 사용자가 정한 주기 및 수행 시간에 상기 빅데이터 플랫폼에 설정되어 있는 UDF(User Defined Function)가 포함된 분석 쿼리를 동시에 수행하는,
빅데이터 플랫폼 연동 장치.
6. The method of claim 5,
Wherein the query execution unit concurrently performs an analysis query including a UDF (User Defined Function) set in the big data platform at a cycle and a execution time set by the user,
Big Data Platform Interlock.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 빅데이터 플랫폼은 하둡(Hadoop) 시스템이고, 상기 분산 파일 시스템은 HDFS(Hadoop Distributed File System)이며, 상기 제1 데이터베이스 및 제2 데이터베이스는 RDBMS(Relational Database Management System)인,
빅데이터 플랫폼 연동 장치.
7. The method according to any one of claims 1 to 6,
Wherein the big data platform is a Hadoop system, the distributed file system is a HDFS (Hadoop Distributed File System), the first database and the second database are relational database management systems (RDBMS)
Big Data Platform Interlock.
빅데이터 플랫폼 연동 장치가 빅데이터 플랫폼과 외부의 제1 데이터베이스 및 제2 데이터베이스와 연동하는 방법으로서,
상기 제1 데이터베이스로부터 사용자에 대응하는 설정 정보인 메타데이터를 수신하고, 수신된 메타데이터를 상기 빅데이터 플랫폼 내의 분산 파일 시스템으로 전달하여 직접 저장하는 단계;
상기 빅데이터 플랫폼에 의해 쿼리 분석이 수행된 후 분석 결과 데이터가 상기 분산 파일 시스템에 저장되었는지를 판단하는 단계; 및
상기 분석 결과 데이터가 상기 분산 파일 시스템에 저장된 것으로 판단되는 경우, 상기 분산 파일 시스템으로부터 상기 분석 결과 데이터를 직접 읽어서 획득하고, 획득되는 상기 분석 결과 데이터를 상기 제2 데이터베이스로 전달하는 단계
를 포함하는 빅데이터 플랫폼 연동 방법.
1. A method for a Big Data Platform Interlocking Device to interact with a Big Data Platform and an external first and second databases,
Receiving metadata, which is setting information corresponding to a user, from the first database, transferring the received metadata to a distributed file system in the big data platform and directly storing the received metadata;
Determining whether analysis result data is stored in the distributed file system after the query analysis is performed by the big data platform; And
Directly reading and acquiring the analysis result data from the distributed file system when it is determined that the analysis result data is stored in the distributed file system, and delivering the obtained analysis result data to the second database
The method comprising:
제8항에 있어서,
상기 직접 저장하는 단계는,
상기 제1 데이터베이스로부터 사용자에 대응하는 설정 정보인 메타데이터를 수신하는 단계;
상기 메타데이터에 대한 정합성 확인을 수행하는 단계;
상기 정합성이 확인되는 경우 상기 메타데이터에서 변경된 정보만을 추출하는 단계; 및
추출된 상기 메타데이터를 상기 분산 파일 시스템에 직접 저장하는 단계
를 포함하는, 빅데이터 플랫폼 연동 방법.
9. The method of claim 8,
Wherein the direct storing comprises:
Receiving metadata, which is setting information corresponding to a user, from the first database;
Performing a consistency check on the metadata;
Extracting only the changed information from the metadata if the matching is confirmed; And
Directly storing the extracted metadata in the distributed file system
The method comprising the steps of:
제8항에 있어서,
상기 직접 저장하는 단계에서,
하나의 프로세스가 처리해야 하는 작업의 개수가 멀티쓰레드를 사용하여 처리해야 하는 경우 멀티쓰레드를 생성하여 작업을 처리하는,
빅데이터 플랫폼 연동 방법.
9. The method of claim 8,
In the direct storing step,
If the number of tasks that a single process needs to handle is multithreaded,
Big Data Platform Interworking Method.
제8항에 있어서,
상기 직접 저장하는 단계와 상기 판단하는 단계 사이에,
사용자에 의해 설정된 주기 및 수행 시간에 상기 빅데이터 플랫폼과 연동하여 쿼리에 대한 분석이 수행될 수 있도록 제어하는 단계를 더 포함하는,
빅데이터 플랫폼 연동 방법.
9. The method of claim 8,
Between the direct storing step and the determining step,
Further comprising controlling the analysis of the query to be performed in cooperation with the big data platform at a cycle and a execution time set by the user,
Big Data Platform Interworking Method.
빅데이터 플랫폼의 연동 장치로서,
통신부, 메모리 및 프로세서를 포함하며,
상기 통신부는 상기 연동 장치가 상기 빅데이터 플랫폼과 외부의 제1 데이터베이스 및 제2 데이터베이스 사이에 연동 동작을 수행할 수 있도록 데이터 송수신을 수행하고,
상기 메모리는 상기 통신부가 상기 빅데이터 플랫폼, 및 상기 제1 및 제2 데이터베이스와 데이터 전송을 수행하도록 하는 프로그램을 저장하며,
상기 프로세서는 상기 메모리에 저장된 프로그램을 호출하여, 상기 통신부를 통해 상기 제1 데이터베이스로부터 읽어 들인 메타데이터를 상기 빅데이터 플랫폼의 분산 파일 시스템으로 직접 전달하여 저장되도록 하고, 상기 분산 파일 시스템으로부터 직접 분석 결과 데이터를 읽어 와서 상기 제2 데이터베이스로 전달하는 작업을 수행하는,
빅데이터 플랫폼 연동 장치.
As an interlocking device for the Big Data Platform,
A communication unit, a memory, and a processor,
The communication unit performs data transmission and reception so that the interlocking device can perform an interlocking operation between the big data platform and the external first and second databases,
The memory stores a program for causing the communication unit to perform data transmission with the big data platform and the first and second databases,
Wherein the processor calls the program stored in the memory to directly transfer the metadata read from the first database through the communication unit to the distributed file system of the big data platform and store the analysis result directly from the distributed file system Reading data from the first database and transferring the data to the second database,
Big Data Platform Interlock.
제12항에 있어서,
상기 통신부는 사용자에 의해 등록되는 쿼리를 수신하거나 또는 상기 빅데이터 플랫폼으로 등록되는 사용자 쿼리를 상기 빅데이터 플랫폼으로부터 전달받고,
상기 메모리는 쿼리를 실행하도록 하는 프로그램을 더 저장하며,
상기 프로세서는 상기 메모리에 저장된 프로그램을 호출하여, 사용자에 의해 설정된 주기 및 수행 시간에 상기 빅데이터 플랫폼과 연동하여 상기 통신부를 통해 수신된 쿼리에 대한 분석이 수행될 수 있도록 작업을 수행하는,
빅데이터 플랫폼 연동 장치.
13. The method of claim 12,
Wherein the communication unit receives a query registered by a user or receives a user query registered with the big data platform from the big data platform,
The memory further stores a program for causing a query to be executed,
Wherein the processor invokes a program stored in the memory to perform an operation in cooperation with the big data platform at an interval and an execution time set by a user so that an analysis of a query received through the communication unit can be performed,
Big Data Platform Interlock.
제13항에 있어서,
상기 메모리는 멀티쓰레드(multi thread)를 사용하여 작업을 수행하도록 하는 프로그램을 더 저장하고,
상기 프로세서는 상기 메모리에 저장된 프로그램을 호출하여, 하나의 프로세스가 처리해야 하는 작업의 개수가 멀티쓰레드를 사용하여 처리해야 하는 경우 멀티쓰레드를 생성하여 작업을 처리하는,
빅데이터 플랫폼 연동 장치.
14. The method of claim 13,
The memory further stores a program for performing an operation using a multi-thread,
Wherein the processor calls a program stored in the memory and generates a multi-thread when the number of tasks to be processed by one process needs to be processed using the multi-thread,
Big Data Platform Interlock.
제14항에 있어서,
상기 프로세서는 멀티쓰레드를 사용하여 처리되는 작업 중에 충돌이 발생하지 않도륵 제어를 수행하는,
빅데이터 플랫폼 연동 장치.
15. The method of claim 14,
Wherein the processor is configured to perform control to prevent collision during an operation that is performed using the multi-
Big Data Platform Interlock.
빅데이터 플랫폼의 연동 방법을 수행하는 프로그램을 저장하는 컴퓨터 판독 가능 기록 매체에 있어서,
상기 제1 데이터베이스로부터 사용자에 대응하는 설정 정보인 메타데이터를 수신하고, 수신된 메타데이터를 상기 빅데이터 플랫폼 내의 분산 파일 시스템으로 전달하여 직접 저장하는 기능;
상기 빅데이터 플랫폼에 의해 쿼리 분석이 수행된 후 분석 결과 데이터가 상기 분산 파일 시스템에 저장되었는지를 판단하는 기능; 및
상기 분석 결과 데이터가 상기 분산 파일 시스템에 저장된 것으로 판단되는 경우, 상기 분산 파일 시스템으로부터 상기 분석 결과 데이터를 직접 읽어서 획득하고, 획득되는 상기 분석 결과 데이터를 상기 제2 데이터베이스로 전달하는 기능
을 포함하는 프로그램을 저장하는 컴퓨터 판독 가능 기록 매체.
A computer-readable recording medium storing a program for performing an interworking method of a big data platform,
Receiving metadata, which is setting information corresponding to a user, from the first database, transmitting the received metadata to a distributed file system in the big data platform, and storing the metadata directly;
A function of determining whether analysis result data is stored in the distributed file system after the query analysis is performed by the big data platform; And
A step of directly reading and acquiring the analysis result data from the distributed file system when it is determined that the analysis result data is stored in the distributed file system and transferring the analysis result data obtained to the second database
The computer-readable recording medium according to claim 1,
KR1020160158632A 2016-11-25 2016-11-25 Bigdata platform interlock apparatus and method thereof KR20180059269A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160158632A KR20180059269A (en) 2016-11-25 2016-11-25 Bigdata platform interlock apparatus and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160158632A KR20180059269A (en) 2016-11-25 2016-11-25 Bigdata platform interlock apparatus and method thereof

Publications (1)

Publication Number Publication Date
KR20180059269A true KR20180059269A (en) 2018-06-04

Family

ID=62627994

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160158632A KR20180059269A (en) 2016-11-25 2016-11-25 Bigdata platform interlock apparatus and method thereof

Country Status (1)

Country Link
KR (1) KR20180059269A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102599008B1 (en) * 2022-09-29 2023-11-07 스마트마인드 주식회사 Method for processing multi-queries based on multi-query scheduler and data processing system providing the method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090002224A (en) * 2007-06-22 2009-01-09 주식회사 케이티프리텔 System and method for verifying database
KR20140048396A (en) * 2012-10-11 2014-04-24 주식회사 케이티 System and method for searching file in cloud storage service, and method for controlling file therein
KR20150112357A (en) * 2014-03-27 2015-10-07 (주)시엠아이코리아 Sensor data processing system and method thereof
KR20160031807A (en) * 2014-09-15 2016-03-23 (주)아펙스씨앤에스 The spreadsheet-based big data analysis system and the method
KR20160096313A (en) * 2015-02-05 2016-08-16 주식회사 클라우다인 Apparatus and method for monitoring analysis application for analyzing big data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090002224A (en) * 2007-06-22 2009-01-09 주식회사 케이티프리텔 System and method for verifying database
KR20140048396A (en) * 2012-10-11 2014-04-24 주식회사 케이티 System and method for searching file in cloud storage service, and method for controlling file therein
KR20150112357A (en) * 2014-03-27 2015-10-07 (주)시엠아이코리아 Sensor data processing system and method thereof
KR20160031807A (en) * 2014-09-15 2016-03-23 (주)아펙스씨앤에스 The spreadsheet-based big data analysis system and the method
KR20160096313A (en) * 2015-02-05 2016-08-16 주식회사 클라우다인 Apparatus and method for monitoring analysis application for analyzing big data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102599008B1 (en) * 2022-09-29 2023-11-07 스마트마인드 주식회사 Method for processing multi-queries based on multi-query scheduler and data processing system providing the method
WO2024071505A1 (en) * 2022-09-29 2024-04-04 스마트마인드 주식회사 Multi-query scheduler-based multi-query processing method, and data processing system for implementing same method

Similar Documents

Publication Publication Date Title
US20230252028A1 (en) Data serialization in a distributed event processing system
US11507583B2 (en) Tuple extraction using dynamically generated extractor classes
US10108625B2 (en) Merging database operations for serializable transaction execution
US7529752B2 (en) Asymmetric streaming record data processor method and apparatus
US8626765B2 (en) Processing database operation requests
US20180081956A1 (en) Method for automatically synchronizing multi-source heterogeneous data resources
EP2891994A1 (en) Method for achieving automatic synchronization of multisource heterogeneous data resources
CN109656963B (en) Metadata acquisition method, apparatus, device and computer readable storage medium
EP2044536A1 (en) Data processing over very large databases
US20220405266A1 (en) Concurrency control for transactions in database systems
EP3373139A1 (en) Lock mode determination service
US11243820B1 (en) Distributed deadlock detection and resolution in distributed databases
US20120059997A1 (en) Apparatus and method for detecting data race
US10599472B2 (en) Information processing apparatus, stage-out processing method and recording medium recording job management program
Chen et al. Data management at huawei: Recent accomplishments and future challenges
KR20180059269A (en) Bigdata platform interlock apparatus and method thereof
CN111026574A (en) Method and device for diagnosing Elasticissearch cluster problems
KR20220066647A (en) Bigdata platform interlock apparatus and method thereof
KR20210105685A (en) Bigdata platform interlock apparatus and method thereof
KR20210069953A (en) Big Data platform interlocks and their interlocks
EP4152173B1 (en) Data digital decoupling of legacy systems
US11709808B1 (en) Schema evolution for the serialization of non-primary key columnar data into row-organized byte sequences
CN104699834B (en) Optimize the method for database data access

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right