KR20190143519A - Connected data architecture of datalake framework - Google Patents

Connected data architecture of datalake framework Download PDF

Info

Publication number
KR20190143519A
KR20190143519A KR1020180065490A KR20180065490A KR20190143519A KR 20190143519 A KR20190143519 A KR 20190143519A KR 1020180065490 A KR1020180065490 A KR 1020180065490A KR 20180065490 A KR20180065490 A KR 20180065490A KR 20190143519 A KR20190143519 A KR 20190143519A
Authority
KR
South Korea
Prior art keywords
data
storage
lake
center
cloud
Prior art date
Application number
KR1020180065490A
Other languages
Korean (ko)
Other versions
KR102084219B1 (en
Inventor
차병래
박선
Original Assignee
제노테크주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제노테크주식회사 filed Critical 제노테크주식회사
Priority to KR1020180065490A priority Critical patent/KR102084219B1/en
Publication of KR20190143519A publication Critical patent/KR20190143519A/en
Application granted granted Critical
Publication of KR102084219B1 publication Critical patent/KR102084219B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs

Abstract

The present invention relates to a connected data architecture of a data lake framework, which logically assembles a plurality of physically divided storages by software to stably transmit data for each interface while managing the data systematically and structurally. The present invention includes: a data lake (100) storing the data; a cloud storage (200) receiving the data from the data lake (100) to perform a backup operation; a data center (300) receiving or transmitting the data from or to the data lake (100); and a plurality of micro storages (400) previously storing identification information for receiving the data from the data center (300).

Description

데이터레이크 프레임워크의 연결 데이터 아키텍쳐{CONNECTED DATA ARCHITECTURE OF DATALAKE FRAMEWORK}CONNECTED DATA ARCHITECTURE OF DATALAKE FRAMEWORK}

본 발명은 데이터레이크 프레임워크의 연결 데이터 아키텍쳐에 관한 것으로, 보다 상세하게는 물리적으로 분할된 다수의 스토리지를 소프트웨어에 의해 논리적으로 묶어 데이터를 체계적이고 구조적으로 관리하면서 안정적으로 인터페이스별 데이터를 전송할 수 있는 데이터레이크 프레임워크의 연결 데이터 아키텍쳐에 관한 것이다.The present invention relates to a connected data architecture of the datalake framework, and more particularly, a plurality of physically divided storages can be logically bundled by software to manage data systematically and structurally while stably transferring data for each interface. It relates to the connected data architecture of the Datalake framework.

최근 IT기술의 발달로 인해 기업 내에 인터넷 등의 사용이 증가하면서 많은 양의 데이터를 생산하고 소비한다. 또한, 점차적으로 기업의 가치는 데이터 중심으로 이동하고 있다.Recently, due to the development of IT technology, the use of the Internet, etc. in the enterprise increases, and a large amount of data is produced and consumed. Increasingly, corporate value is shifting to data.

이에 기업에서는 많은 양의 데이터를 저장하고 관리하기 위해 기업 데이터 구축 및 분석 시스템의 필요성을 인식하고 데이터 웨어하우스 또는 데이터 사일로 등을 구축하고 있는 추세이다.As a result, companies are recognizing the necessity of corporate data building and analysis systems to store and manage large amounts of data, and are building data warehouses or data silos.

데이터 웨어하우스는 방대한 조직 내에서 분산 운영되는 각각의 데이터 베이스 관리 시스템들을 효율적으로 통합하여 조정 및 관리하며, 효율적인 의사 결정 시스템을 위한 기초를 제공하는 실무적인 활용 방법론으로써, 관리 하드웨어, 관리 소프트웨어, 추출ㆍ변환ㆍ정렬 도구, 데이터 베이스 마케팅 시스템, 메타 데이터(meta data), 최종 사용자 접근 및 활용 도구 등으로 구성된다.The data warehouse is a practical application methodology that effectively integrates, coordinates and manages individual database management systems distributed across a large organization, and provides a foundation for efficient decision-making systems. ㆍ Consists of conversion and sorting tools, database marketing system, metadata, end user access and utilization tools.

이러한 데이터 웨어하우스는 등록특허 제10-1543506호(등록일자: 2015년 06월 04일)에 기재된 바와 같이, 다수의 소스 데이터 중 일부를 정제하는 ODS(Operational Data Store)와, 상기 ODS의 데이터들을 통합하고, 연관관계를 가지는 데이터들 간에 참조 관계를 생성하는 DW(Data Warehouse)와, 기설정된 비즈니스 규칙을 기초로 상기 ODS 또는 상기 DW의 데이터들에 대해 분석 주제별로 다차원 모델을 생성하는 다수의 데이터 마트 및 상기 다수의 데이터 마트 중 하나의 데이터 마트에 대하여 주제별로 다수의 테이블을 생성하는 테이블 보고서를 포함하며, 상기 테이블 보고서는, 기준실적을 기준으로 하는 원실적과 조정실적을 이용하여 서로 다른 테이블인 평가실적 테이블과 대차대조표실적 테이블을 생성하고, 실적 변동의 근기자료를 나타내는 실적근기정보 테이블과 품질관리정보 테이블을 생성하며, 상기 조정실적은, 이수관, 고객재분류, 역마진, 타처, 추천계좌, 수기조정, 구속성 부실MOU 및 직원실적 조정 모두를 고려하여 형성될 수 있다.Such a data warehouse includes an ODS (Operational Data Store) that purifies some of a plurality of source data, and the data of the ODS, as described in Korean Patent No. 10-1543506 (Registration Date: June 04, 2015). A data warehouse (DW) that integrates and creates a reference relationship between related data, and a plurality of data that generate a multidimensional model for each analysis subject on the data of the ODS or the DW based on a predetermined business rule. And a table report for generating a plurality of tables for each subject for one of the marts and one of the data marts, wherein the table report includes different tables using raw and adjusted results based on reference performance. Create a performance evaluation table and a balance sheet performance table; Generates quality information management table, the adjusted results can be yisugwan formed by considering both the customer reclassification, negative margin, tacheo, like accounts, handwriting adjustment, the old attribute bad MOU and staff performance tuning.

그러나 데이터 웨어하우스는 데이터양의 방대함과 복잡성으로 인해 실패 위험이 있으며, 막대한 비용과 기간을 투자해야 하는 문제점이 있고 기업에서 처리되는 데이터들도 다양한 형태로 대량화되어 짐에 따라 이를 효율적으로 처리할 수 있는 데이터 레이크를 사용하는 기업들이 많아지고 있는 추세이다.However, data warehouses have a risk of failure due to the enormous amount and complexity of data volume, which requires a huge amount of money and time to be invested, and data that is processed in an enterprise can be processed efficiently as it is massed in various forms. More and more companies are using data lakes.

데이터 레이크는 일반적인 데이터베이스 구조를 먼저 정의한 다음, 이 구조에 맞는 데이터로 데이터를 채우는 대신에 모든 종류의 데이터를 저장한 다음 필요할 때 이 데이터를 필요한 형식으로 사용할 수 있게 한다.Instead of defining a typical database structure first, then a data lake stores all kinds of data and then makes that data available when needed, instead of filling it with data that fits the structure.

데이터 레이크는 모든 유형의 데이터를 어떤 규모라도 저렴한 비용으로 수집 및 저장이 가능하게 되며, 데이터 보안 및 무단 액세스 방지, 중앙 저장소에서 관련 데이터를 카탈로그화, 검색 및 발견, 새로운 유형의 데이터 분석 수행 등을 할 수 있다.Data lakes enable you to collect and store any type of data at any cost, at any cost, to secure data and prevent unauthorized access, to catalog, search and discover relevant data from a central repository, and to perform new types of data analysis. can do.

또한, 기업에서 처리되는 데이터들도 다양한 형태로 대량화됨으로 인해 빅데이터를 활용하는 유스케이스의 사용이 증가하고 있다.In addition, as data processed in the enterprise is mass-produced in various forms, use cases using big data are increasing.

유스케이스는 기업 등의 빅데이터를 활용하는 것으로, 시스템 사이에서 교환되는 메시지의 중요도에 따라 클래스나 시스템에 제공되는 고유 기능 단위이며, 상호 행위자 밖의 하나 혹은 그 이상의 것이 시스템에 의해서 실행되는 행위를 함께 한다.A use case is a big function of a company or the like. It is a unique functional unit provided to a class or a system according to the importance of a message exchanged between systems, and one or more things outside of mutual actors are executed by the system. do.

이러한 데이터레이크에 저장된 대용량의 데이터를 안정적으로 전송할 수 있도록 인터페이스별 유스케이스에 대한 기술이 요구되고 있는 실정이다.In order to reliably transmit a large amount of data stored in such a data lake, there is a demand for a description of a use case for each interface.

본 발명은 상술한 문제점을 해결하기 위해 제안된 것으로, 기업 등에서 대용량으로 데이터가 저장되고 물리적으로 분할된 다수의 스토리지를 소프트웨어에 의해 논리적으로 묶어 데이터를 체계적이고 구조적으로 관리하면서 안정적으로 인터페이스별 데이터를 전송할 수 있는 데이터레이크 프레임워크의 연결 데이터 아키텍쳐를 제공하는 목적이 있다.The present invention has been proposed to solve the above-mentioned problems, in which a large amount of data is stored in a large capacity in a company or the like and logically bundled with a plurality of physically partitioned storage by software to manage data systematically and structurally while stably maintaining data for each interface. The purpose is to provide a connection data architecture of the datalake framework that can be transmitted.

본 발명이 해결하려는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다. Problems to be solved by the present invention are not limited to the above-mentioned problems, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.

상기의 목적을 달성하기 위한 본 발명에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐는, 데이터가 저장되기 위한 데이터레이크(100)와, 상기 데이터레이크(100)로부터 데이터를 수신받아 백업하기 위한 클라우드스토리지(200)와, 상기 데이터레이크(100)로부터 데이터를 수신받거나 전송하기 위한 데이터센터(300)와, 상기 데이터센터(300)로부터 데이터를 수신받기 위해 미리 식별정보가 저장된 다수의 마이크로스토리지(400)를 포함하고, 상기 데이터레이크(100)는, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400)와 통신하기 위한 데이터레이크통신부(101)와, 미리 입력된 데이터를 저장하고 관리하기 위한 데이터저장부(102)와, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400)로 데이터를 전송하기 위해 상기 클라우드스토리지(200) 또는 상기 데이터센터(300) 또는 상기 마이크로스토리지(400)에 대응되도록 전송함수를 생성하기 위한 전송함수생성부(103)와, 상기 전송함수생성부(103)에서 생성된 전송 함수를 오버라이드한 메소드를 이용하여 상기 데이터저장부(102)에 저장된 데이터를 상기 클라우드스토리지(200) 또는 상기 데이터센터(300)로 전송하기 위한 제1데이터전송부(104)와, 상기 전송함수생성부(103)에서 생성된 전송 함수를 오버로드한 메소드를 이용하여 상기 데이터저장부(102)에서 각 마이크로스토리지(400)의 식별정보에 대응되는 데이터를 추출하고 전송하기 위한 제2데이터전송부(105)를 포함하여 구성된다.The connection data architecture of the data lake framework according to the present invention for achieving the above object is a data lake 100 for storing data, and cloud storage for receiving and backing up data from the data lake 100 ( 200, a data center 300 for receiving or transmitting data from the data lake 100, and a plurality of micro storage 400 storing identification information in advance for receiving data from the data center 300. The data lake 100 includes a data lake communication unit 101 for communicating with the cloud storage 200, the data center 300, and the micro storage 400, and stores data previously input. Data storage unit 102 for management, the cloud storage 200, the data center 300 and the micro storage 400 to the day A transfer function generator 103 for generating a transfer function corresponding to the cloud storage 200 or the data center 300 or the micro storage 400 to transmit a transfer function, and the transfer function generator 103 A first data transmission unit 104 for transmitting data stored in the data storage unit 102 to the cloud storage 200 or the data center 300 by using a method overriding a transmission function generated in A second for extracting and transmitting data corresponding to the identification information of each microstorage 400 from the data storage unit 102 by using a method that overloaded the transfer function generated by the transfer function generator 103 It is configured to include a data transmission unit 105.

상술한 바와 같이 본 발명에 따르면, 기업 등에서 대용량으로 데이터가 저장되고 물리적으로 분할된 다수의 스토리지를 소프트웨어에 의해 논리적으로 묶어 데이터를 체계적이고 구조적으로 관리하면서 안정적으로 인터페이스별 데이터를 전송함으로써 데이터 공간의 확장 및 백업은 물론 원활한 업로드와 코딩의 용이성을 향상시킬 수 있는 효과가 있다.As described above, according to the present invention, a large amount of data is stored in a company and physically partitioned by software to logically bundle data by systematically and systematically managing data while stably transferring data for each interface, thereby creating a data space. This can be extended and backed up as well as improving the ease of uploading and coding.

또한, 인터페이스별로 오버라이드와 오버로드를 활용하여 효율적으로 데이터를 전송할 수 있는 효과가 있다.In addition, there is an effect that can efficiently transfer data by utilizing the override and overload for each interface.

도 1은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐,
도 2는 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터레이크,
도 3은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터레이크의 Abyss Storage Cluster,
도 4는 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터레이크의 클라우드 버스팅과 클라우드 스패닝,
도 5는 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 클라우드스토리지,
도 6은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터센터,
도 7은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 마이크로스토리지.
1 is a connection data architecture of a data lake framework according to an embodiment of the present invention;
2 is a data lake of the connection data architecture of the data lake framework according to an embodiment of the present invention;
3 is an Abyss Storage Cluster of a data lake of the connection data architecture of the data lake framework according to an embodiment of the present invention;
4 is a diagram illustrating cloud bursting and cloud spanning of a data lake of a connection data architecture of a data lake framework according to an embodiment of the present invention;
5 is a cloud storage of a connected data architecture of a data lake framework according to an embodiment of the present invention;
6 is a data center of a connected data architecture of a data lake framework according to an embodiment of the present invention;
7 is a microstorage of the connection data architecture of the datalake framework in accordance with one embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐를 상세히 설명한다.Hereinafter, with reference to the accompanying drawings will be described in detail the connection data architecture of the data lake framework according to the present invention.

도 1은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐이고, 도 2는 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터레이크이며, 도 3은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터레이크의 Abyss Storage Cluster이고, 도 4는 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터레이크의 클라우드 버스팅과 클라우드 스패닝이다.1 is a connection data architecture of the data lake framework according to an embodiment of the present invention, Figure 2 is a data lake of the connection data architecture of the data lake framework according to an embodiment of the present invention, Figure 3 Abyss Storage Cluster of the data lake of the connected data architecture of the data lake framework according to an embodiment of the present invention, Figure 4 is a cloud bursting of the data lake of the connected data architecture of the data lake framework according to an embodiment of the present invention Cloud Spanning.

또한, 도 5는 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 클라우드스토리지이고, 도 6은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 데이터센터이며, 도 7은 본 발명의 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐의 마이크로스토리지이다.5 is a cloud storage of the connection data architecture of the data lake framework according to an embodiment of the present invention, Figure 6 is a data center of the connection data architecture of the data lake framework according to an embodiment of the present invention, 7 is a microstorage of the connection data architecture of the datalake framework according to an embodiment of the present invention.

상기 도면의 구성 요소들에 인용부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있으며, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. 또한, '상부', '하부', '앞', '뒤', '선단', '전방', '후단' 등과 같은 방향성 용어는 개시된 도면(들)의 배향과 관련하여 사용된다. 본 발명의 실시 예의 구성요소는 다양한 배향으로 위치설정될 수 있기 때문에 방향성 용어는 예시를 목적으로 사용되는 것이지 이를 제한하는 것은 아니다.In adding the reference numerals to the components of the drawings, the same components are to have the same reference numerals as possible even if displayed on different drawings, and known functions that are determined to unnecessarily obscure the subject matter of the present invention Detailed description of the configuration will be omitted. Also, directional terms such as 'top', 'bottom', 'front', 'back', 'tip', 'front', 'back' and the like are used in connection with the orientation of the disclosed figure (s). Since the components of the embodiments of the present invention may be positioned in various orientations, the directional terminology is used for the purpose of illustration and not limitation.

본 발명의 바람직한 일실시 예에 의한 데이터레이크 프레임워크의 연결 데이터 아키텍쳐는, 상기 도 1에 도시된 바와 같이, 데이터가 저장되기 위한 데이터레이크(100)와, 상기 데이터레이크(100)로부터 데이터를 수신받아 백업하기 위한 클라우드스토리지(200)와, 상기 데이터레이크(100)로부터 데이터를 수신받거나 전송하기 위한 데이터센터(300)와, 상기 데이터센터(300)로부터 데이터를 수신받기 위해 미리 식별정보가 저장된 다수의 마이크로스토리지(400)를 포함하여 구성된다.In the connection data architecture of the data lake framework according to an exemplary embodiment of the present invention, as shown in FIG. 1, a data lake 100 for storing data and data received from the data lake 100 are provided. Cloud storage 200 for receiving and backing up, a data center 300 for receiving or transmitting data from the data lake 100, and a plurality of identification information stored in advance for receiving data from the data center 300. It comprises a micro storage 400 of.

상기 데이터레이크 프레임워크의 연결 데이터 아키텍쳐는 상기 데이터레이크(100)와 상기 클라우드스토리지(200) 간의 인터페이스 및 상기 데이터레이크(100)와 상기 데이터센터(300) 간의 인터페이스를 정의 및 설계하고, 상기 데이터레이크(100)와 마이크로스토리지(400) 간의 인터페이스를 정의 및 설계한다.The connected data architecture of the data lake framework defines and designs an interface between the data lake 100 and the cloud storage 200 and an interface between the data lake 100 and the data center 300, and the data lake. Define and design an interface between the 100 and the microstorage 400.

상기 데이터레이크(100)는, 상기 도 2에 도시된 바와 같이, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400)와 통신하기 위한 데이터레이크통신부(101)와, 미리 입력된 데이터를 저장하고 관리하기 위한 데이터저장부(102)와, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400)로 데이터를 전송하기 위해 상기 클라우드스토리지(200) 또는 상기 데이터센터(300) 또는 상기 마이크로스토리지(400)에 대응되도록 전송함수를 생성하기 위한 전송함수생성부(103)와, 상기 전송함수생성부(103)에서 생성된 전송 함수를 오버라이드한 메소드를 이용하여 상기 데이터저장부(102)에 저장된 데이터를 상기 클라우드스토리지(200) 또는 상기 데이터센터(300)로 전송하기 위한 제1데이터전송부(104)와, 상기 전송함수생성부(103)에서 생성된 전송 함수를 오버로드한 메소드를 이용하여 상기 데이터저장부(102)에서 각 마이크로스토리지(400)의 식별정보에 대응되는 데이터를 추출하고 전송하기 위한 제2데이터전송부(105)를 포함하여 구성된다.As shown in FIG. 2, the data lake 100 includes a data lake communication unit 101 for communicating with the cloud storage 200, the data center 300, and the micro storage 400, in advance. Data storage unit 102 for storing and managing the input data, the cloud storage 200 or the cloud storage 200 to transmit data to the cloud storage 200, the data center 300 and the micro storage 400 or Using a transfer function generation unit 103 for generating a transfer function corresponding to the data center 300 or the micro storage 400 and a transfer function generated by the transfer function generation unit 103 A first data transmitter 104 and the transfer function for transmitting data stored in the data storage 102 to the cloud storage 200 or the data center 300. A second data transmission unit for extracting and transmitting data corresponding to the identification information of each microstorage 400 from the data storage unit 102 by using the method that overloaded the transfer function generated in the unit 103; 105).

또한, 상기 데이터레이크(100)는 상기 도 3에 도시된 바와 같이 구성된 SMB를 위한 대용량 Abyss Storage Cluster을 기반으로 형성되며, 실제적으로 Abyss Storage Cluster의 H/W 프로토타입 개발과 제품의 양산이 가능하다. 또한 Abyss Storage의 성능 향상을 위하여 스토리지의 디스크 매체별 성능 테스트와 스토리지의 내부 네트워크의 가속화를 위한 본딩(Bonding)과 네트워크를 이용한 국내외 네트워크 트래픽 테스트를 완료한 상태이다.In addition, the data lake 100 is formed based on the large-capacity Abyss Storage Cluster for SMB configured as shown in Figure 3, it is possible to actually develop the H / W prototype of the Abyss Storage Cluster and mass production of the product . In addition, to improve the performance of Abyss Storage, the company has completed performance tests for each disk medium of the storage and bonding and network traffic tests for both domestic and international networks.

또한, 상기 데이터레이크(100)는 대용량 데이터를 캡처링, 처리, 분석하여 사용자 또는 데이터를 소비하는 시스템에 제공할 수 있도록 전사적 데이터 레이크를 구축하기 위해 물리적 계층(Physical Layer)과, 분산된 스토리지 계층(Distributed Storage Layer)과, 보안 계층(Security Layer)과, 데이터 수집 계층(Data Acquisition Layer)과, 메세징 계층(Messaging Layer)과, 유입 계층(Ingestion Layer)과, 람다 아키텍쳐(Lambda Architecture)와, 서비스 계층(Serving Layer)을 포함하여 구성될 수 있다.In addition, the data lake 100 may include a physical layer and a distributed storage layer to establish an enterprise-wide data lake to capture, process, and analyze a large amount of data and provide it to a user or a system consuming data. (Distributed Storage Layer), Security Layer, Data Acquisition Layer, Messaging Layer, Ingestion Layer, Lambda Architecture, Services It may be configured to include a layer (Serving Layer).

이때, 상기 데이터레이크(100)는 상기 도 4에 도시된 바와 같이 상기 람다 아키텍쳐의 메타데이터와 콘텐츠 계층의 관계에 의해 클라우드 버스팅과 클라우드 스패닝을 제공하게 된다.In this case, the datalake 100 provides cloud bursting and cloud spanning by the relationship between the metadata of the lambda architecture and the content layer, as shown in FIG. 4.

상기 클라우드 버스팅은 하이브리드 클라우드(혼합형 클라우드) 환경에서 사용되는 응용 프로그램 배포 모델이며, 상기 업무자기기(100)의 컴퓨팅 용량을 초과하면 초과 수요로 인해 퍼블릭 클라우드로 자동 전송되어 응용 프로그램이 계속 실행될 수 있도록 한다.The cloud bursting is an application distribution model used in a hybrid cloud (mixed cloud) environment, and when the computing capacity of the work device 100 is exceeded, it is automatically transmitted to the public cloud due to the excess demand, so that the application can continue to run. Make sure

상기 클라우드 스패닝은 많은 컴퓨팅 자원들을 필요로 하는 응용 프로그램 구성 요소가 여러 클라우드 환경에서 동시에 배포되도록 하는 전달 모델이며, 여러 대의 컴퓨터를 연결하여 상호 협력하도록 할 수 있다.The cloud spanning is a delivery model for distributing application components that require a large amount of computing resources in multiple cloud environments at the same time.

상기 데이터레이크통신부(101)는, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400)와 통신하기 위해 무선네트워크를 사용할 수 있다. 상기 무선네트워크는 와이파이, LTE(Long Term Evolution) 등을 사용할 수 있다.The data lake communication unit 101 may use a wireless network to communicate with the cloud storage 200, the data center 300, and the micro storage 400. The wireless network may use Wi-Fi, Long Term Evolution (LTE), and the like.

상기 데이터저장부(102)는, 데이터를 저장하고 관리하기 위한 것으로, 사용자가 미리 데이터를 입력하여 저장할 수 있다. The data storage unit 102 is for storing and managing data, and a user may input and store data in advance.

또한, 상기 데이터저장부(102)는, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400) 중 어느 하나에서 전송된 데이터를 입력하여 저장할 수도 있다.In addition, the data storage unit 102 may input and store data transmitted from any one of the cloud storage 200, the data center 300, and the micro storage 400.

상기 전송함수생성부(103)는, 데이터를 전송할 수 있도록 상기 클라우드스토리지(200) 또는 상기 데이터센터(300) 또는 상기 마이크로스토리지(400)에 대응되는 전송함수를 생성한다. 즉, 상기 전송함수생성부(103)는 데이터를 수신받거나 전송하기 위해 연결되는 클라우드스토리지(200) 또는 데이터센터(300) 또는 마이크로스토리지(400)에 따라 데이터를 전송하기 위한 전송함수를 생성한다.The transfer function generator 103 generates a transfer function corresponding to the cloud storage 200, the data center 300, or the micro storage 400 so as to transmit data. That is, the transmission function generator 103 generates a transmission function for transmitting data according to the cloud storage 200 or the data center 300 or the micro storage 400 connected to receive or transmit the data.

상기 제1데이터전송부(104)는, 상기 클라우드스토리지(200) 또는 상기 데이터센터(300)로 데이터를 전송하기 위한 것으로, 상기 전송함수생성부(103)에서 상기 클라우드스토리지(200) 또는 상기 데이터센터(300)로 데이터를 전송하기 위해 생성된 전송함수를 오버라이드한 메소드를 이용한다.The first data transmission unit 104 is for transmitting data to the cloud storage 200 or the data center 300, the cloud storage 200 or the data in the transfer function generation unit 103 In order to transmit data to the center 300, a method overriding the generated transmission function is used.

여기서, 오버라이드는 부모 클래스에 있는 메소드를 자식 클래스에서 재정의하는 것이다.Here, the override is to redefine the methods in the parent class in the child class.

상기 제1데이터전송부(104)를 통해 상기 클라우드스토리지(200)와 연결되어 데이터를 전송할 경우에는 데이터 공간의 확장과 안전한 데이터전송 및 데이터 보안이 필요하다. 특히, 클라우드스토리지(200)의 자원을 이용한 지능분석 또는 예측 등 다양한 서비스를 지원할 수 있다.When transmitting data in connection with the cloud storage 200 through the first data transmission unit 104, it is necessary to expand the data space, secure data transmission, and data security. In particular, it can support a variety of services, such as intelligent analysis or prediction using the resources of the cloud storage 200.

상기 제1데이터전송부(104)를 통해 상기 데이터센터(300)와 연결되어 데이터를 전송할 경우에는 데이터 공간의 확장 및 백업, 안전한 데이터 전송, 보안이 필수적으로 필요하게 된다.When transmitting data by being connected to the data center 300 through the first data transmission unit 104, expansion and backup of a data space, secure data transmission, and security are necessary.

상기 제2데이터전송부(105)는, 상기 마이크로스토리지(400)와 연결되어 데이터를 전송한다.The second data transmitter 105 is connected to the micro storage 400 to transmit data.

이때, 상기 제2데이터전송부(105)는 각 마이크로스토리지(400)의 식별정보에 따라 상기 데이터저장부(102)에서 데이터를 추출하고, 상기 전송함수생성부(103)에서 생성된 전송 함수를 오버로드한 메소드를 이용하여 해당 마이크로스토리지(400)로 상기 추출된 데이터를 전송한다.At this time, the second data transmission unit 105 extracts data from the data storage unit 102 according to the identification information of each micro storage 400, and transfers the transfer function generated by the transmission function generation unit 103. The extracted data is transmitted to the micro storage 400 by using the overloaded method.

여기서, 오버로드는 같은 이름의 메소드를 다른 파라미터를 사용하여 정의할 수 있는 것으로, 파라미터의 타입과 갯수가 변경될 수 있다.Here, the overload can define a method of the same name using different parameters, the type and number of parameters can be changed.

상기 제2데이터전송부(105)를 통해 각 마이크로스토리지마다 다른 데이터를 전송할 수 있게 된다.Through the second data transmission unit 105, it is possible to transmit different data for each micro storage.

상기 클라우드스토리지(200)는, 상기 도 5에 도시된 바와 같이, 상기 데이터레이크(100)와 통신하기 위한 클라우드통신부(201)와, 상기 클라우드통신부(201)를 통해 상기 데이터레이크(100)로부터 수신받은 데이터를 백업하기 위한 백업부(202)를 포함하여 구성된다.As shown in FIG. 5, the cloud storage 200 is received from the data lake 100 through the cloud communication unit 201 and the cloud communication unit 201 for communicating with the data lake 100. And a backup unit 202 for backing up the received data.

상기 클라우드스토리지(200)는 디지털 데이터를 논리 풀에 저장하고 물리 스토리지가 복수의 서버들에 걸쳐있으면서 물리적인 환경이 일반적으로 호스팅 업체에 의해 소유, 관리되는 데이터 스토리지 모델이다. 이러한 클라우드 제공자들은 데이터를 늘 사용 및 접근할 수 있도록, 또 물리 환경이 보호된 상태로 실행되도록 보장하는 역할을 맡는다. 개인 또는 단체는 스토리지 용적을 제공자로부터 구매 또는 임대하여 사용자, 단체, 애플리케이션 데이터를 저장한다. 이에, 상기 클라우드스토리지(200)는 주로 대용량 데이터를 보관하며, 인터넷 연결을 통해 언제 어디서나 접속할 수 있게 된다.The cloud storage 200 is a data storage model in which digital data is stored in a logical pool, and a physical environment is generally owned and managed by a hosting company while a physical storage spans a plurality of servers. These cloud providers are responsible for ensuring that data is always available and accessible, and that the physical environment runs protected. An individual or organization purchases or leases storage volumes from a provider to store user, organization, and application data. Accordingly, the cloud storage 200 mainly stores a large amount of data, and can be accessed anytime and anywhere through an internet connection.

상기 클라우드통신부(201)는, 상기 데이터레이크(100)와 통신하기 위해 와이파이, 인터넷 등과 같은 무선네트워크를 사용할 수 있다.The cloud communication unit 201 may use a wireless network such as Wi-Fi, the Internet, etc. to communicate with the data lake 100.

상기 백업부(202)는, 상기 데이터레이크(100)로부터 수신받은 데이터를 백업한다. 즉, 상기 백업부(202)는 상기 클라우드통신부(201)를 통해 상기 데이터레이크(100)로부터 수신받은 데이터를 복사하여 백업한 후 저장하고 관리한다.The backup unit 202 backs up the data received from the data lake 100. That is, the backup unit 202 copies and backs up the data received from the data lake 100 through the cloud communication unit 201, and then stores and manages the data.

상기 데이터센터(300)는, 상기 도 6에 도시된 바와 같이, 상기 데이터레이크(100)와 통신하기 위한 센터통신부(301)와, 상기 센터통신부(301)를 통해 상기 데이터레이크(100)로부터 수신받은 데이터를 저장하고 관리하기 위한 데이터관리부(302)와, 상기 데이터레이크(100)로 미리 입력된 신규데이터를 전달하기 위한 데이터전달부(303)를 포함하여 구성된다.As illustrated in FIG. 6, the data center 300 is received from the data lake 100 through a center communication unit 301 for communicating with the data lake 100 and the center communication unit 301. It includes a data management unit 302 for storing and managing the received data, and a data transfer unit 303 for delivering new data previously input to the data lake 100.

상기 데이터센터(300)는 주로 기업 등에서 사용되는 다수의 데이터인 빅데이터를 저장하고 관리한다.The data center 300 stores and manages big data, which is a plurality of data mainly used in corporations and the like.

상기 센터통신부(301)는, 와이파이, 인터넷 등과 같은 무선네트워크를 통해 상기 데이터레이크(100)와 통신한다.The center communication unit 301 communicates with the data lake 100 through a wireless network such as Wi-Fi, the Internet, or the like.

상기 센터통신부(301)를 통해 상기 데이터레이크(100)로부터 데이터를 수신받을 경우에 상기 데이터관리부(302)로 전송된다.When receiving data from the data lake 100 through the center communication unit 301 is transmitted to the data management unit 302.

상기 데이터관리부(302)는, 상기 데이터레이크(100)로부터 수신받은 데이터를 저장하고 관리한다.The data manager 302 stores and manages data received from the data lake 100.

이때, 상기 데이터관리부(302)에는 사용자가 신규로 데이터를 입력할 경우에 상기 사용자가 신규로 입력한 신규데이터를 더 저장하여 관리할 수 있다.In this case, when the user newly inputs data, the data manager 302 may further store and manage new data newly input by the user.

상기 데이터전달부(303)는, 미리 입력된 신규데이터를 상기 센터통신부(301)를 통해 상기 데이터레이크(100)로 전달한다.The data transfer unit 303 transfers previously inputted new data to the data lake 100 through the center communication unit 301.

상기 마이크로스토리지(400)는, 상기 도 7에 도시된 바와 같이, 상기 데이터레이크(100)와 통신하기 위한 마이크로통신부(401)와, 다른 마이크로스토리지(400)와 식별가능하도록 식별정보를 생성하기 위한 식별정보부(402)와, 상기 데이터레이크(100)로부터 데이터를 전송받기 위해 식별정보를 전송하기 위한 식별정보전송부(403)와, 상기 식별정보전송부(403)의 식별정보를 수신받은 상기 데이터레이크(100)로부터 상기 식별정보에 대응되는 데이터를 수신받아 누적하여 저장하기 위한 데이터누적부(404)를 포함하여 구성된다.As illustrated in FIG. 7, the micro storage 400 may include a micro communication unit 401 for communicating with the data lake 100 and for generating identification information to be distinguishable from other micro storage 400. An identification information unit 402, an identification information transmission unit 403 for transmitting identification information to receive data from the data lake 100, and the data receiving the identification information of the identification information transmission unit 403. And a data accumulator 404 for receiving and storing data corresponding to the identification information from the rake 100.

상기 마이크로스토리지(400)는 스마트폰, 보안기기, 의료기기, 네비게이션, IoT 디바이스 등과 같은 전자기기가 될 수 있다.The micro storage 400 may be an electronic device such as a smartphone, a security device, a medical device, a navigation device, an IoT device, and the like.

상기 마이크로통신부(401)는, 와이파이 등과 같은 무선네트워크를 이용하여 상기 데이터레이크(100)와 통신한다.The micro communication unit 401 communicates with the data lake 100 using a wireless network such as Wi-Fi.

상기 식별정보부(402)는, 상기 마이크로스토리지(400)를 식별하기 위한 식별정보를 입력하여 생성한다. 이때, 상기 식별정보는 마이크로스토리지의 종류, 사용자정보 등이 포함되어 생성될 수 있다.The identification information unit 402 inputs and generates identification information for identifying the micro storage 400. In this case, the identification information may be generated including the type of micro storage, user information, and the like.

상기 생성된 식별정보는 상기 식별정보전송부(403)를 통해 상기 데이터레이크(100)로 전송된다. 즉, 상기 식별정보전송부(403)는, 상기 생성된 식별정보를 상기 데이터레이크(100)로 전송하여 데이터를 요청하게 된다.The generated identification information is transmitted to the data lake 100 through the identification information transmission unit 403. That is, the identification information transmitting unit 403 transmits the generated identification information to the data lake 100 to request data.

상기 식별정보전송부(403)로 인해 상기 데이터레이크(100)로 식별정보를 전송함으로써 상기 마이크로스토리지(400)에 필요한 데이터를 전송받을 수 있게 된다.The identification information transmission unit 403 transmits the identification information to the data lake 100 so that the data necessary for the micro storage 400 can be received.

상기 데이터누적부(404)는, 상기 데이터레이크(100)로부터 수신받은 데이터를 누적하여 저장한다. 예를 들어 상기 마이크로스토리지(400)가 네비게이션일 경우에는 상기 식별정보부(402)를 통해 네비게이션이라는 정보를 포함하여 생성된 식별정보를 상기 식별정보전송부(403)로 인해 상기 데이터레이크(100)로 전송되어 상기 데이터레이크(100)로부터 상기 식별정보의 네비게이션에 대응되는 지도 등과 같은 데이터를 수신받아 누적하여 저장한다.The data accumulator 404 accumulates and stores the data received from the data lake 100. For example, when the micro storage 400 is navigation, the identification information generated by the identification information unit 402 including navigation information is transferred to the data lake 100 by the identification information transmission unit 403. The data is received and stored in the data lake 100 such as a map corresponding to the navigation of the identification information.

상기와 같이 구성된 데이터레이크 프레임워크의 연결 데이터 아키텍쳐는 물리적으로 분할된 다양한 스토리지들을 소프트웨어에 의한 논리적으로 묶을 수 있으며, 데이터레이크와 클라우드스토리지와 데이터센터와 마이크로스토리지 등과의 인터페이스별로 데이터를 전송하거나 수신받을 수 있게 된다. The connected data architecture of the data lake framework configured as described above can logically bundle various physically divided storages by software, and transmit or receive data for each interface between the data lake, cloud storage, data center, and micro storage. It becomes possible.

다시 말해, 상기 데이터레이크 프레임워크의 연결 데이터 아키텍쳐는 기업 등에서 대용량으로 데이터가 저장되고 물리적으로 분할된 다수의 스토리지를 소프트웨어에 의해 논리적으로 묶어 데이터를 체계적이고 구조적으로 관리하면서 안정적으로 인터페이스별 데이터를 전송함으로써 데이터 공간의 확장 및 백업은 물론 원활한 업로드와 코딩의 용이성을 향상시킬 수 있는 효과가 있다.In other words, the connected data architecture of the datalake framework transmits data per interface stably while systematically and systematically managing data by logically tying a plurality of storages in which a large amount of data is stored and physically partitioned by software in an enterprise or the like. By doing so, the data space can be expanded and backed up, as well as to facilitate easy uploading and coding.

앞에서 설명되고, 도면에 도시된 본 발명의 실시 예들은 본 발명의 기술적 사상을 한정하는 것으로 해석되어서는 안 된다. 본 발명의 보호범위는 청구범위에 기재된 사항에 의하여만 제한되고, 본 발명의 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상을 다양한 형태로 개량 변경하는 것이 가능하다. 따라서 이러한 개량 및 변경은 통상의 지식을 가진 자에게 자명한 것인 경우에는 본 발명의 보호범위에 속하게 될 것이다.The embodiments of the present invention described above and illustrated in the drawings should not be construed as limiting the technical spirit of the present invention. The protection scope of the present invention is limited only by the matters described in the claims, and those skilled in the art can change and change the technical idea of the present invention in various forms. Therefore, such improvements and modifications will fall within the protection scope of the present invention if it is obvious to those skilled in the art.

100: 데이터레이크 101: 데이터레이크통신부
102: 데이터저장부 103: 전송함수생성부
104: 제1데이터전송부 105: 제2데이터전송부
200: 클라우드스토리지 201: 클라우드통신부
202: 백업부 300: 데이터센터
301: 센터통신부 302: 데이터관리부
303: 데이터전달부 400: 마이크로스토리지
401: 마이크로통신부 402: 식별정보부
403: 식별정보전송부 404: 데이터누적부
100: data lake 101: data lake communication unit
102: data storage unit 103: transfer function generation unit
104: first data transmission unit 105: second data transmission unit
200: cloud storage 201: cloud communication
202: backup unit 300: data center
301: center communication unit 302: data management unit
303: data transfer unit 400: microstorage
401: micro communication unit 402: identification information unit
403: identification information transmission unit 404: data accumulation unit

Claims (1)

데이터가 저장되기 위한 데이터레이크(100)와, 상기 데이터레이크(100)로부터 데이터를 수신받아 백업하기 위한 클라우드스토리지(200)와, 상기 데이터레이크(100)로부터 데이터를 수신받거나 전송하기 위한 데이터센터(300)와, 상기 데이터센터(300)로부터 데이터를 수신받기 위해 미리 식별정보가 저장된 다수의 마이크로스토리지(400)를 포함하고,
상기 데이터레이크(100)는, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400)와 통신하기 위한 데이터레이크통신부(101)와, 미리 입력된 데이터를 저장하고 관리하기 위한 데이터저장부(102)와, 상기 클라우드스토리지(200)와 상기 데이터센터(300)와 상기 마이크로스토리지(400)로 데이터를 전송하기 위해 상기 클라우드스토리지(200) 또는 상기 데이터센터(300) 또는 상기 마이크로스토리지(400)에 대응되도록 전송함수를 생성하기 위한 전송함수생성부(103)와, 상기 전송함수생성부(103)에서 생성된 전송 함수를 오버라이드한 메소드를 이용하여 상기 데이터저장부(102)에 저장된 데이터를 상기 클라우드스토리지(200) 또는 상기 데이터센터(300)로 전송하기 위한 제1데이터전송부(104)와, 상기 전송함수생성부(103)에서 생성된 전송 함수를 오버로드한 메소드를 이용하여 상기 데이터저장부(102)에서 각 마이크로스토리지(400)의 식별정보에 대응되는 데이터를 추출하고 전송하기 위한 제2데이터전송부(105)를 포함하여 구성되는 데이터레이크 프레임워크의 연결 데이터 아키텍쳐.
A data lake 100 for storing data, a cloud storage 200 for receiving and backing up data from the data lake 100, and a data center for receiving or transmitting data from the data lake 100 ( 300, and a plurality of micro storage 400 is stored in advance identification information for receiving data from the data center 300,
The data lake 100, the data storage communication unit 101 for communicating with the cloud storage 200, the data center 300 and the micro storage 400, and for storing and managing pre-input data Data storage unit 102, the cloud storage 200, the data center 300 and the micro storage 400 for transmitting data to the cloud storage 200 or the data center 300 or the micro Transfer function generator 103 for generating a transfer function to correspond to the storage 400 and a method that overrides the transfer function generated by the transfer function generator 103 to the data storage 102. A transfer function generated by the first data transmitter 104 and the transfer function generator 103 for transmitting the stored data to the cloud storage 200 or the data center 300. A data lake frame including a second data transmitter 105 for extracting and transmitting data corresponding to the identification information of each microstorage 400 from the data storage 102 using the overloaded method. Workpiece's connection data architecture.
KR1020180065490A 2018-06-07 2018-06-07 Connected data architecture of datalake framework KR102084219B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180065490A KR102084219B1 (en) 2018-06-07 2018-06-07 Connected data architecture of datalake framework

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180065490A KR102084219B1 (en) 2018-06-07 2018-06-07 Connected data architecture of datalake framework

Publications (2)

Publication Number Publication Date
KR20190143519A true KR20190143519A (en) 2019-12-31
KR102084219B1 KR102084219B1 (en) 2020-05-22

Family

ID=69051703

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180065490A KR102084219B1 (en) 2018-06-07 2018-06-07 Connected data architecture of datalake framework

Country Status (1)

Country Link
KR (1) KR102084219B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012518330A (en) * 2009-02-16 2012-08-09 マイクロソフト コーポレーション Reliable cloud computing and cloud service framework
KR20160109300A (en) * 2015-03-10 2016-09-21 한국전자통신연구원 Method and Apparatus for managing distributed cloud

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012518330A (en) * 2009-02-16 2012-08-09 マイクロソフト コーポレーション Reliable cloud computing and cloud service framework
KR20160109300A (en) * 2015-03-10 2016-09-21 한국전자통신연구원 Method and Apparatus for managing distributed cloud

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
B. Cha et al. 'International Network Performance and Security Testing Based on Distributed Abyss Storage Cluster and Draft of Data Lake Framewrk', Hindawi Security and Communication Neteorks, 2018.02. *
이상범, 'Business Intelligence를 지원하기 위한 Big Data 기반 Data Lake 플랫폼의 선행 연구', 한국컴퓨터정보학회 동계학술대회 논문집 제26권 제1호, 2018.01. *

Also Published As

Publication number Publication date
KR102084219B1 (en) 2020-05-22

Similar Documents

Publication Publication Date Title
US10949447B2 (en) Blockchain-based data synchronizing and data block parsing method and device
CN108416577B (en) Block chain service system
US8775232B2 (en) Transforming a legacy IT infrastructure into an on-demand operating environment
CN101621405B (en) Distributed type management monitoring system, monitoring method and establishing method thereof
CN102033912A (en) Distributed-type database access method and system
CN101908165A (en) Geographic information system (GIS)-based industrial cluster information integration service system and method
CN107844274B (en) Hardware resource management method, device and terminal based on super-fusion storage system
EP2778968B1 (en) Mobile telecommunication device remote access to cloud-based or virtualized database systems
CN104090901A (en) Method, device and server for processing data
CN104536965A (en) System and method for data query and presentation under big data condition
US10182104B1 (en) Automatic propagation of resource attributes in a provider network according to propagation criteria
CN109241384A (en) A kind of method for visualizing and device of scientific research information
CN100498780C (en) Data inquire system and method
CN113806430A (en) Multifunctional data management platform
CN102882960B (en) A kind of sending method of resource file and device
CN110532058B (en) Management method, device and equipment of container cluster service and readable storage medium
CN101645062B (en) Report form generation method and system
CN106447257A (en) Multifunctional warehouse management system
KR20190143519A (en) Connected data architecture of datalake framework
CN111611220A (en) File sharing method and system based on hierarchical nodes
CN106940725B (en) Credit investigation data storage scheduling method and system
CN106993032A (en) The embedded accurate communication cloud service platform applied based on mobile Internet
CN114866416A (en) Multi-cluster unified management system and deployment method
CN101673361A (en) Technical architecture for order distribution system
US20140143278A1 (en) Application programming interface layers for analytical applications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant