KR102187127B1 - 데이터 연관정보를 이용한 중복제거 방법 및 시스템 - Google Patents

데이터 연관정보를 이용한 중복제거 방법 및 시스템 Download PDF

Info

Publication number
KR102187127B1
KR102187127B1 KR1020130149469A KR20130149469A KR102187127B1 KR 102187127 B1 KR102187127 B1 KR 102187127B1 KR 1020130149469 A KR1020130149469 A KR 1020130149469A KR 20130149469 A KR20130149469 A KR 20130149469A KR 102187127 B1 KR102187127 B1 KR 102187127B1
Authority
KR
South Korea
Prior art keywords
file
related information
chunk
data
information
Prior art date
Application number
KR1020130149469A
Other languages
English (en)
Other versions
KR20150064593A (ko
Inventor
신현정
이주평
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130149469A priority Critical patent/KR102187127B1/ko
Priority to US14/558,199 priority patent/US10108635B2/en
Publication of KR20150064593A publication Critical patent/KR20150064593A/ko
Application granted granted Critical
Publication of KR102187127B1 publication Critical patent/KR102187127B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Quality & Reliability (AREA)

Abstract

데이터 연관정보를 이용한 중복제거 방법이 개시된다. 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 파일과 연관된 적어도 하나의 다른 파일에 관한 정보가 연관정보로서 추출된다. 추출된 연관정보 내 파일을 중복 판단 시 비교를 위한 비교대상 세트로서 선정한다. 그리고 선정된 비교대상 세트 내 참조 파일을 대상으로 우선적으로 상기 파일과의 중복 판단을 수행한다.

Description

데이터 연관정보를 이용한 중복제거 방법 및 시스템{DEDUPLICATION METHOD USING DATA ASSOCIATION AND SYSTEM THEREOF}
데이터 중복제거 기술과 관련된다. 보다 상세하게는, 스토리지 공간을 효율적으로 사용하기 위한 데이터 중복제거 기술과 관련된다.
일반적으로 데이터 중복제거(deduplication) 기술은, 스토리지에 저장할 예정인 데이터와 그 스토리지에 이미 저장되어 있는 데이터가 중복되어 있는지를 판단하고, 중복이라고 판단되는 경우 저장할 예정인 데이터를 스토리지에 저장하지 않고 이미 저장되어 있는 데이터로의 링크만을 관리함으로써 스토리지 공간을 효율적으로 사용할 수 있도록 하는 스토리지 기술의 일종이다. 통상적으로 데이터의 중복 여부의 판단은 비교 대상인 데이터의 해시 인덱스(hash index) 등을 이용하여 비교함으로써 이루어진다.
중복제거는 중복제거가 이루어지는 레벨에 따라, 파일-레벨(file-level) 중복제거 및 블록-레벨(block-level) 중복제거로 나눌 수 있다. 파일-레벨 중복제거는 파일 단위로 해시 인덱스를 생성하여 비교한다. 이 경우 파일의 일부만이 달라져도 다른 파일로 인식되므로 저장 효율이 떨어진다.
블록-레벨 중복제거는 하나의 파일을 예컨대 512 바이트 내지 수 KB(kilobyte) 단위로 청킹(chunking)하여 다수의 블록 즉 청크(chunk)로 분할한 후 각각의 청크 단위로 해시 인덱스를 생성하여 비교한다. 이 경우, 파일의 일부에 해당하는 각 청크마다 중복 여부를 판단하므로, 파일이 일부만 변경된 경우 또는 하나의 청크가 여러 파일들에 걸쳐 중복된 경우도 발견할 수 있어, 저장 효율이 높다. 그러나 중복을 판단하기 위하여 하나의 청크에 대해 이미 저장되어 있는 데이터 모두와 중복되어 있는지 비교하여야 한다.
이러한 중복 판단 방식에 의하면, 중복 판단이 확실하다는 장점이 있지만, 만약 이미 저장되어 있는 데이터가 많은 경우에, 중복 판단에 필요한 비교 정보(예컨대, 해시 인덱스)의 양이 많다는 단점이 있다. 근래의 단일 스토리지 시스템에는 예컨대 테라바이트(TB, terabye : 1 terabyte = 1,000 gigabyte) 내지 페타바이트(PB, petabyte : 1 petabyte = 1,000 terabyte) 수준의 데이터량이 저장될 수 있다. 더욱이, 다수의 스토리지 노드들이 포함되어 있는 분산 스토리지 시스템의 경우, 단일 스토리지 시스템의 수 배 ~ 수십 배에 이르는 데이터량이 존재할 수 있다. 그러므로 데이터를 대량으로 저장하고 있는 근래 및 미래에서, 중복 판단 시 소요 시간의 증가는 큰 문제가 될 수 있다.
데이터 연관정보에 기초하여 상대적으로 작은 비교대상 세트만을 선정하여 데이터 중복 판단에 사용하는 효율적인 중복제거 방법 및 시스템을 제안한다.
일 양상에 따라 제공되는 데이터 연관정보를 이용한 중복제거 방법은, 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 단계; 상기 연관정보에 의해 인식되는 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 단계; 및 선정된 비교대상 세트 내 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 연관정보를 추출하는 단계는, 파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을 더 포함할 수 있다.
다른 실시예에 있어서, 상기 연관정보를 추출하는 단계는, 사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을 더 포함할 수 있다.
또 다른 실시예에 있어서, 상기 연관정보를 추출하는 단계는, 파일 오퍼레이션에 대한 추적 로그로부터 파일들 간의 연관정보를 추출하는 과정을 포함할 수 있다.
또 다른 실시예에 있어서, 추출된 상기 연관정보는, 파일 시스템에서 파일 메타데이터에 저장하고 관리할 수 있다.
또 다른 실시예에 있어서, 추출된 상기 연관정보는, 파일 시스템에서 별도의 연관정보 테이블로서 저장하고 관리할 수 있다.
또 다른 실시예에 있어서, 상기 중복 판단을 수행하는 단계는, 상기 대상 파일을 다수의 청크로 분할하는 과정; 분할된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함할 수 있다.
또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 과정 이후에, 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 과정; 및 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 수행하는 과정을 더 포함할 수 있다.
또 다른 실시예에 있어서, 상기 중복 판단을 수행하는 단계는, 상기 대상 파일을 다수의 청크로 분할하는 과정; 분할된 각각의 청크에 대해 상기 연관정보를 태그하는 과정; 및 상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함할 수 있다.
그리고 또 다른 실시예에 있어서, 상기 중복 판단을 수행하는 단계는, 상기 대상 파일을 다수의 청크로 분할하는 과정; 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 과정; 및 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함할 수 있다.
또한 다른 양상에 따라 제공되는 데이터 연관정보를 이용한 중복제거 시스템은, 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 연관정보 생성기; 상기 연관정보에 의해 인식되는 상기 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 레퍼런스 로더; 및 선정된 비교대상 세트 내 상기 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 디듀플리케이터를 포함할 수 있다.
일 실시예에 있어서, 상기 연관정보 생성기는, 파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 오퍼레이션 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성할 수 있다.
다른 실시예에 있어서, 상기 연관정보 생성기는, 사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 행위 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성할 수 있다.
또 다른 실시예에 있어서, 상기 연관정보 생성기는, 파일 오퍼레이션 추적 로그로부터 파일들 간의 연관정보를 추출할 수 있다.
또 다른 실시예에 있어서, 상기 연관정보 생성기에 의해 추출된 연관정보를 파일 시스템에서 관리하는 파일 메타데이터에 추가하여 저장하는 연관정보 관리자를 더 포함할 수 있다.
또 다른 실시예에 있어서, 상기 연관정보 생성기에 의해 추출된 상기 연관정보를 파일 시스템에서 별도의 연관정보 테이블로서 관리하도록 저장하는 연관정보 관리자를 더 포함할 수 있다.
또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 파일 분할기를 더 포함하고, 상기 디듀플리케이터는, 분할된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 할 수 있다.
또 다른 실시예에 있어서, 상기 파일 분할기에 의해 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 인덱스 생성기를 더 포함하고, 상기 디듀플리케이터는, 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 할 수 있다.
또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 파일 분할기; 및 분할된 각각의 청크에 대해 상기 연관정보를 태그하는 청크 태거를 더 포함하며, 상기 디듀플리케이터는, 상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 할 수 있다.
그리고 또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 파일 분할기; 및 상기 파일 분할기에 의해 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 인덱스 생성기를 더 포함하고, 상기 디듀플리케이터는, 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 할 수 있다.
데이터 연관정보에 기초하여 상대적으로 작은 비교대상 세트만을 선정하여 데이터 중복 판단에 사용함으로써 효율적으로 데이터의 중복을 제거할 수 있는 중복제거 방법 및 시스템을 구현할 수 있는 효과가 있다.
도 1은 단일 스토리지 시스템이 애플리케이션 시스템과 연결되어 있는 통합 스토리지 시스템의 일례를 나타낸 블록도,
도 2는 다수의 애플리케이션 서버와 다수의 스토리지 노드가 스토리지 네트워크를 통해 서로 연결되어 있는 분산 스토리지 시스템을 포함하는 확대된 통합 스토리지 시스템의 일례를 나타낸 블록도,
도 3은 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템의 전체적인 구성을 더 상세히 설명하기 위한 블록도,
도 4a는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서, 디듀플리케이터에 의한 중복 판단 과정의 일 예를 설명하기 위한 블록도,
도 4b는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 다른 예를 설명하기 위한 블록도,
도 4c는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 또 다른 예를 설명하기 위한 블록도,
도 5는 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법의 구체적인 과정을 더 상세히 설명하기 위한 흐름도,
도 6은 일 실시예에 따라 분산 컴퓨팅 환경에서 구현될 수 있는 데이터 연관정보를 이용한 중복제거 시스템의 예를 보여주는 블록도이다.
이하에서는 첨부한 도면을 참조하여 실시예를 상세히 설명한다. 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 명세서에서 설명하는 기술에서 각각의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 실질적으로 그 정의는 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
근래의 단일 스토리지 시스템 및/또는 분산 스토리지 시스템은 수 ~ 수십 TB 내지 PB의 데이터량을 저장할 수 있다. 이러한 대량 데이터 시대에 중복제거 기술은 중복 판단에 소요되는 시간을 감소시키는 것이 주요한 과제로 되고 있다. 예컨대, 상대적으로 작은 비교대상 세트만을 선정하여 데이터 중복 판단에 사용한다면 중복 판단 소요 시간을 감소시킬 수 있을 것이다.
예를 들어, 파일의 위치 즉 경로(path) 정보를 이용함으로써 상대적으로 작은 비교대상 세트만을 선정하는 중복제거 기술이 알려져 있다. 이 기술은, 스토리지 전체에 걸쳐 저장된 파일들이 아니라, 같은 폴더(folder)에 저장된 파일들만을 선택하고 선택된 파일들의 블록들에 대해서만 중복 판단을 함으로써, 중복 판단시 비교 정보의 양이 적다는 장점이 제공된다. 이것은 예컨대 백업 솔루션과 같이 지속적으로 조금씩 증가하는 업데이트가 발생하는 경우에는 효과적이다. 그러나, 이것은 예컨대 프라이머리 솔루션(primary solution)의 경우, 새 파일이 추가되는 경우, 및/또는 여러 폴더에 같은 파일이 중복되어 저장되는 경우 등에는 비효율적이다.
다른 예로서, 파일 타입과 같은 파일 메타데이터 내의 정보를 이용하는 블록-레벨 중복제거 기술이 알려져 있다. 그러나, 기존의 파일 메타데이터는 해당 파일에 국한된 정보에 불과하다. 파일 메타데이터는 특정한 하나의 파일이 그 외 다른 파일들과 어떠한 구체적인 데이터의 중복 판단에 도움이 될 수 있는 연관성을 보여주는 정보를 포함하지 않는다. 동일한 파일 타입의 서로 다른 파일들이 동일한 데이터를 포함하고 있을 가능성은 파일 메타데이터를 통해서는 전혀 알 수 없다.
예를 들어, 마이크로소프트사의 파워포인트 프로그램으로 작성된 파워포인트 문서들은 모두 하나의 파일 타입, 즉 "파워포인트 파일 타입"을 가진다. 또한 예컨대, 파워포인트 파일을 업무 양식으로 사용하는 기업의 스토리지 시스템에서, 파워포인트 파일 타입의 문서들은 상대적으로 많은 양이 저장되어 있을 수 있다. 이 경우, 만약 파워포인트 파일 타입을 기초로 하여 비교대상 세트를 선정한다면, 선정된 비교대상 세트 내 파일(즉, 파워포인트 파일 타입을 가진 파일)의 수는 상대적으로 클 수 있다. 더욱이 이들 파워포인트 파일 타입을 가진 문서들이 서로 중복된 데이터를 가지고 있을 연관성에 대해서 파일 타입 자체로는 알 수 없다. 이와 같이 동일한 파일 타입에 속한 파일들을 중복 판단을 위한 비교대상 세트로서 선정하는 경우에, 여전히 비교대상 세트의 크기가 클 수 있으며, 따라서 중복 데이터를 발견하기 위한 소요 시간이 오래 걸리고 중복제거는 비효율적일 수 있다.
아래에서는 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법 및 시스템이 도면들을 참조하여 예시로서 기술된다.
여기서, 실시예에 따른 연관정보(association)는 각각의 데이터가 생성될 때 동시에 생성되고 각각의 데이터와 함께 관리될 수 있는, 일종의 메타데이터라고 할 수 있다. 이 연관정보에는, 기존 메타데이터(legacy metadata)의 정보가 아닌, 해당 데이터와 연관되어 있는 다른 참조 데이터에 관련된 정보가 포함된다. 기존 메타데이터는 해당 데이터에 대한 여러 가지 정보, 예컨대, 데이터의 타입, 데이터가 생성된 수단, 데이터의 목적, 생성 일시, 데이터의 작성자, 데이터가 생성된 컴퓨터 네트워크 상의 위치, 사용된 표준 등을 포함할 수 있다. 통상적으로 이러한 기존 메타데이터는 데이터가 생성될 때 생성되고, 한번 생성되면 변하지 않는다. 반면에, 실시예에 따른 연관정보는 한번 생성되면, 변경되지 않는 것이 아니라, 데이터 또는 파일의 생성 시점부터 시작하여 중복 판단을 하는 시점까지에 이르는 계속해서 수정될 수 있다.
명세서 전반에 걸쳐, 데이터, 메타데이터, 파일, 블록, 청크 등의 다양한 용어가 사용되고 있다., 이들 용어는, 구체적으로 서로 다른 대상들을 지칭할 수도 있으나, 이들 용어 모두가 임의의 한 덩어리의 데이터를 포함하는 데이터 포맷, 형태, 또는 스트럭처인 하나의 동일한 대상을 지칭하는 것일 수 있다.
도 1 및 도 2는 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템의 전체적인 구성을 설명하기 위한 개략적인 블록도이다. 실시예에 따라, 중복 제거 시스템은 도 1에 도시된 바와 같은 단일 스토리지 시스템을 포함할 수 있다. 또는, 실시예에 따라 중복 제거 시스템은 도 2에 도시된 바와 같은 분산 환경의 다수의 스토리지 시스템을 포함할 수 있다.
도 1은 단일 스토리지 시스템이 애플리케이션 시스템과 연결되어 있는 통합 스토리지 시스템의 일례를 나타낸 블록도이다.
통합 스토리지 시스템(100)은 애플리케이션 시스템(110)과 단일 스토리지 시스템(130)이 예컨대 시스템 버스를 통해 연결되어 있는 하나의 컴퓨팅 장치, 예컨대 데스크탑, 랩탑, 타블렛, 스마트폰 등과 같은 컴퓨팅 장치로서 구현될 수 있다.
대안적으로, 통합 스토리지 시스템(100)은 애플리케이션 시스템(110)과 단일 스토리지 시스템(130)이 유선 및/또는 무선 통신 연결을 통해 서로 소통 가능하게 연결되어 있는 분산 컴퓨팅 시스템으로서 구현될 수 있다. 이 경우, 애플리케이션 시스템(110)은 데스크탑, 랩탑, 타블렛, 스마트폰 등과 같은 컴퓨팅 장치으로 구현될 수 있는 클라이언트 장치일 수 있고, 스토리지 시스템(130)은 애플리케이션 시스템(110)과 WAN, LAN 등에 의해 연결된 스토리지 서버, 클라우드 등의 스토리지 서버 장치일 수 있다.
애플리케이션 시스템(110)은 데이터 또는 파일이 생성되고 사용되는 시스템이다. 이러한 애플리케이션 시스템(110)은, 예컨대, 마이크로소프트 사의 WINDOWS 운영 시스템과 같은 운영 시스템이 설치될 수 있고, 또한 워드프로세싱, 오피스, 웹브라우저, 유무선 통신 모듈 등의 다양한 애플리케이션들이 설치되어 실행될 수 있다.
스토리지 시스템(130)은, 도 1에 예시된 바와 같이, 데이터 또는 파일을 저장하기 위한 시스템이며, 파일 시스템(131), 블록 관리부(132) 및 장치 관리부(133)를 포함하는 컴포넌트들과 하나 이상의 스토리지 장치(134, 135)를 포함할 수 있다. 파일 시스템(131)은 애플리케이션 시스템(110)으로부터 수신된 파일을 프로세싱하고 관리하는 부분이며, 실시예에 따른 중복제거 기능의 주요 부분을 구현하는 부분일 수 있다. 블록 관리부(132)는 파일을 여러 개의 블록으로 분할하여 프로세싱하고 관리할 수 있는 부분이다. 장치 관리부(133)는 스토리지 장치(134, 135)를 관리하는 부분이다. 스토리지 장치(134, 135)는 파일 및/또는 블록을 저장하는 매체일 수 있다. 도면에서는 2개의 스토리지 장치(134, 135) 만이 보여지고 있으나 이것은 단지 예시로서 제시된 것에 불과하며, 스토리지 장치의 개수는 실시예의 양태들에 따라 증가하거나 감소될 수 있다는 점이 해당 기술 분야의 통상의 지식을 가진 자에게 자명할 것이다.
도 2는 다수의 애플리케이션 서버와 다수의 스토리지 노드가 스토리지 네트워크를 통해 서로 연결되어 있는 분산 스토리지 시스템를 포함하는 확대된 통합 스토리지 시스템의 일례를 나타낸 블록도이다.
도 2를 참조하면, 확대된 통합 스토리지 시스템(200)은, 다수의 애플리케이션 서버(210, 220, 230) 및 분산 스토리지 시스템(distributed storage system)(250)을 포함한다. 분산 스토리지 시스템(250)은 다수의 스토리지 노드(2510, 2530, 2550)가 스토리지 네트워크를 통해 서로 연결되어 형성될 수 있다. 도면에서는 각각 3개의 애플리케이션 서버(210, 220, 23)와 3개의 스토리지 노드(2510, 2530, 2550) 만이 보여지고 있으나 이것은 단지 예시로서 제시된 것에 불과하며, 그 개수는 실시예의 양태들에 따라 증가하거나 감소될 수 있다는 점이 해당 기술 분야의 통상의 지식을 가진 자에게 자명할 것이다.
도 2의 예에서, 각각의 애플리케이션 서버(210, 220, 230)는 애플리케이션 시스템(211) 및 네트워크 파일 시스템의 클라이언트 부분(213)을 포함할 수 있다. 애플리케이션 시스템(211)은 도 1의 애플리케이션 시스템(110)에 대응할 수 있다. 네트워크 파일 시스템의 클라이언트 부분(213)은 애플리케이션 시스템(211)에서 생성되고 수정되고 관리되는 파일 또는 데이터를 스토리지 네트워크를 통해 분산 스토리지 시스템(250)으로 전송하는 역할을 담당할 수 있다.
분산 스토리지 시스템(250)의 각각의 스토리지 노드(2510, 2530, 255)는 네트워크 파일 시스템의 서버 부분(2511), 블록 관리부(2513), 장치 관리부(2515), 스토리지 장치(2517, 2519)를 포함할 수 있다. 분산 스토리지 시스템(250)은, 도 1의 스토리지 시스템(130)과 유사하게, 데이터 또는 파일을 저장하기 위한 시스템이며, 네트워크 파일 시스템의 서버 부분(2511), 블록 관리부(2513), 장치 관리부(2515)를 포함하는 운영시스템과 하나 이상의 스토리지 장치(2517, 2519)를 포함할 수 있다.
네트워크 파일 시스템의 서버 부분(2511)은, 애플리케이션 시스템(210, 230, 250)의 네트워크 파일 시스템의 클라이언트 부분(213)으로부터 수신된 파일을 프로세싱하고 관리하는 부분이다. 실시예에 따른 중복제거 기능의 주요 부분들은 네트워크 파일 시스템의 서버 부분(2511)과 애플리케이션 시스템(210, 230, 250)의 네트워크 파일 시스템의 클라이언트 부분(213)이 함께 구현할 수 있다. 블록 관리부(2513)는, 도 1의 블록 관리부(132)와 마찬가지로, 파일을 여러 개의 블록으로 분할하여 프로세싱하고 관리할 수 있는 부분이다. 장치 관리부(2515)는, 도 1의 장치 관리부(133)와 마찬가지로, 스토리지 장치(2517, 2519)를 관리하는 부분이다. 스토리지 장치(2517, 2519)는 파일 및/또는 블록을 저장하는 매체일 수 있다. 도면에서는 각각의 스토리지 노드마다 2개의 스토리지 장치(2517, 2519)만이 보여지고 있으나 이것은 단지 예시로서 제시된 것에 불과하며, 각 스토리지 노드 내의 스토리지 장치의 개수는 실시예의 양태들에 따라 증가하거나 감소될 수 있다는 점이 해당 기술 분야의 통상의 지식을 가진 자에게 자명할 것이다.
도 3은 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템의 전체적인 구성을 더 상세히 설명하기 위한 블록도이다.
도 3에는 도 1에 예시된 시스템(100) 중에서 중복제거와 연관된 부분이 더 상세히 도시되어 있다. 중복제거 시스템(300)은, 애플리케이션 시스템(301)에 의해 생성되고 수정된 파일을 파일 시스템(302)에서 수신하여 다수의 블록으로 분할한 후 블록 단위로 중복 판단을 수행한다. 이를 통하여 중복제거 시스템(300)은 블록-레벨 중복제거 기법을 구현한다.
파일 시스템(302)은 파일 인터페이스(303), 레거시 파일 관리부(304), 파일 레시피(file recipe)(305), 파일 식별자(file ID)(306), 레거시 메타데이터(307)와 같은, 일반적인 파일 관리를 위한 컴포넌트들을 포함할 수 있다. 또한, 파일 시스템(303)은 파일 분할기(chunking)(311), 인덱스 생성기(index generator)(312), 디듀플리케이터(deduplicator)(313), 청크 인덱스 테이블(chunk index table)(314), 청크 인덱스 리스트(chunk index list)(315), 및 청크 스토어(chunk store)(316)와 같은, 일반적인 블록-레벨 중복제거 기법을 위한 컴포넌트들을 포함할 수 있다.
더 나아가, 애플리케이션 시스템(301)은 행위 트래커(behavior tracker)(331)와 같은 컴포넌트를 더 포함할 수 있고, 파일 시스템(303)은 오퍼레이션 트래커(operation tracker)(332), 연관정보 생성기(association generator)(333), 연관정보 관리자(association manager)(334), 청크 태거(chunk tagger)(335), 레퍼런스 로더(reference loader)(336), 및 연관정보 메타데이터(association metadata)(337)와 같은 컴포넌트들을 더 포함할 수 있다. 이들 컴포넌트들은 실시예에 따른 데이터 연관정보를 생성하고 추출하고 이용하기 위한 부분들에 대응할 수 있다.
도시된 예에서, 애플리케이션 시스템(301)은 다양한 애플리케이션 프로그램을 실행함으로써 데이터 또는 파일이 생성되고 수정되도록 할 수 있다. 애플리케이션 시스템(301)이, 예컨대 스토리지 장치로 저장하기 위해, 파일을 스토리지 시스템의 파일 시스템(302)으로 전송할 수 있다. 파일 시스템(302)은 파일을 저장하기 전에, 예컨대 블록-레벨 중복제거 기술을 이용하여, 저장하고자 하는 파일을 다수의 블록으로 분할한 후 블록 단위로 중복 판단을 수행할 수 있다. 여기서, 파일이 분할되어 생성되는 다수의 "블록"은 종종 "청크"라는 용어로도 표현한다. 해당 기술 분야의 지식을 가진 자는 블록 및 청크는 동일하게 한 덩어리의 데이터를 의미할 수 있다는 것을 이해할 것이다.
파일 시스템(302)의 파일 인터페이스(303)는 애플리케이션 시스템(301)으로부터 파일을 수신한다. 레거시 파일 관리부(304)는 일반적인 파일 관련 관리 알고리즘에 따라, 파일과 함께 수신된 파일 메타데이터 또는 파일 레시피(305) 등을 관리할 수 있다. 파일 레시피(305)는 파일 식별자(306) 및 레거시 메타데이터(307)를 포함할 수 있다. 파일 식별자(306)는 파일을 고유하게 식별하는 식별자이다. 레거시 메타데이터(307)는 파일에 관한 여러 정보, 예컨대 파일 생성 일시, 파일의 목적, 파일 타입, 파일 작성자, 파일이 생성된 컴퓨터 네트워크 상의 위치, 사용된 표준, 및/또는 파일 크기나 길이, 해상도 등과 같은 정보를 포함하는 기존의 파일 메타데이터이다.
또한, 도시된 예에서, 파일 시스템(303)은 블록-레벨 중복제거 기법을 위하여, 파일 분할기(311)는 수신된 파일을 일정한 단위로, 예컨대 512 바이트 단위로 분할하여 다수의 블록, 즉 다수의 청크(chunk)로 만들 수 있다. 인덱스 생성기(312)는 각각의 청크마다 고유한 식별정보로서 청크 인덱스를 생성한다. 청크 인덱스는 예컨대 해시 함수를 이용하여 만든 해시 키일 수 있다. 생성된 청크 인덱스는 파일마다 청크 인덱스 테이블(314)로서 생성되어 관리될 수 있다. 청크 인덱스 리스트(315)는 파일 레시피(305)에 추가되어 관리될 수 있다. 각각의 청크는 청크 스토어(316)에서 관리된다. 디듀플리케이터(313)는 청크 내의 데이터를 직접 이용하거나 또는 간접적으로 청크 인덱스를 이용함으로써 각각의 청크에 대한 중복 판단을 수행할 수 있다.
행위 트래커(331)는 사용자가 사용자 인터페이스를 통해 파일에 대한 액션을 할 때, 이러한 사용자 액션에 의하여 이루어지는 파일에 대한 오퍼레이션을 추적(tracking)할 수 있다. 예컨대, 사용자가 특정 애플리케이션에서 파일 이름을 바꾸어 저장하는 리네임(rename) 기능을 사용하기 위해 키보드 또는 마우스와 같은 입력장치를 이용하여 리네임 명령을 입력하는 액션을 한다고 가정하자. 그러면, 이러한 사용자의 액션은 사용자 인터페이스를 통해 애플리케이션으로 전달되고, 애플리케이션은 파일에 대한 리네임 오퍼레이션을 수행할 수 있다. 이 예에서, 행위 트래커(331)는 사용자 인터페이스를 통한 사용자 액션을 감시하고 있다가, 사용자의 리네임 액션에 기인하여 하나의 파일(예컨대, a.txt)이 전체적으로 복사되어 새로운 파일(예컨대, a2.txt)로 생성되었다는 것을 알 수 있다. 이와 같이, 행위 트래커(331)는 특정 파일에 대한 사용자 인터페이스를 통한 사용자 액션을 감시함으로써, 이 특정 파일과 연관된 다른 파일을 발견할 수 있고, 그 결과를 행위 트래커의 파일 오퍼레이션 추적 로그로서 생성할 수 있다.
오퍼레이션 트래커(332)는 파일 시스템(302) 내의 파일 인터페이스(303)를 통해 요청되는 파일 프로세싱에 대한 정보를 추적할 수 있다. 오퍼레이션 트래커(332)는 특정 파일에 대한 파일 인터페이스(303)를 통한 오퍼레이션을 감시함으로써, 이 특정 파일과 연관된 다른 파일을 발견할 수 있고, 그 결과를 오퍼레이션 트래커의 파일 오퍼레이션 추적 로그로서 생성할 수 있다.
연관정보 생성기(333)는 파일의 연관정보를 추출하는 부분이다. 연관정보는 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지, 이 대상 파일과 연관된 다른 파일 즉 참조 파일에 관한 정보이다. 대상 파일과 연관된 참조 파일은 하나 이상일 수 있다. 연관정보 생성기(333)는 행위 트래커(331) 및/또는 오퍼레이션 트래커(332)에 의해 생성된 파일 오퍼레이션 추적 로그를 이용하여 그로부터 연관정보를 추출 또는 생성할 수 있다.
연관정보 관리자(334)는 연관정보 생성기(333)에 의해 추출된 연관정보를 파일 시스템(302)에서 관리하는 파일 메타데이터에, 즉 파일 레시피(305)에 추가하여 저장할 수 있다. 도 3에 도시된 예에서, 연관정보는 연관정보 메타데이터(337)로서 포함되어 있음을 볼 수 있다. 대안으로서, 연관정보 관리자(334)는 연관정보 생성기(333)에 의해 추출된 연관정보를 파일 레시피(305)가 아닌 별도의 연관정보 테이블로서 관리하도록 저장할 수도 있다. 이 경우, 별도의 연관정보 테이블은 파일 레시피(305)와 유사한 체제를 가질 수 있고, 또 파일 레시피(305)와 유사하게 파일 시스템(302)에 의해 관리될 수 있다.
청크 태거(335)는 파일 분할기(311)에서 생성되는 청크에 연관정보 메타데이터(337)의 연관정보를 태깅할 수 있다.
레퍼런스 로더(336)는, 대상 파일의 연관정보 및/또는 대상 파일의 청크에 태깅되어 있는 연관정보 내에서 연관된 것으로 나타나는 참조 파일을, 대상 파일 및/또는 대상 파일의 청크에 대한 중복 판단 시 비교를 위한 비교대상 세트로서 선정한다. 그리고 비교대상 세트 내 참조 파일들의 파일 레시피(305)를 조사하여 청크 인덱스 리스트(315)를 가져와 디듀플리케이터(313)에게 전달할 수 있다.
디듀플리케이터(313)는 선정된 비교대상 세트 내 참조 파일을 대상으로 우선적으로 중복 판단을 수행할 수 있다. 디듀플리케이터(313)의 중복 판단은 다양한 방식으로 이루어질 수 있는데, 도 4a 내지 도 4c에 몇 가지의 예가 도시되어 있다.
도 4a 내지 도 4c는 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템에서, 중복 판단 과정의 예들을 설명하기 위한 블록도이다.
도 4a는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 일 예를 설명하기 위한 블록도이다. 도 4a는 청크 인덱스를 이용하는 중복 판단의 일례이다.
도 4a를 참조하면, 디듀플리케이터(313)는 중복 판단을 할 대상 청크의 청크 인덱스(411)와 비교대상 세트 내 참조 파일들로부터 가져온 청크 인덱스 리스트들(412) 내의 청크 인덱스들을 서로 비교할 수 있다(413). 만약 참조 파일의 청크 인덱스 리스트(412) 내에 대상 청크의 청크 인덱스(411)와 정확하게 일치하는 청크 인덱스가 있다면, 이 일치하는 청크 인덱스에 대응하는 참조 파일의 청크는, 청크 인덱스(411)에 대응하는 대상 청크와 중복된 데이터를 가지고 있다고 판단할 수 있다(414).
도 4b는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 다른 예를 설명하기 위한 블록도이다. 도 4b는 한편으로 청크 인덱스를 이용하고, 다른 한편으로 청크의 데이터를 델타 압축 기법을 이용하여 직접 비교하는 중복 판단의 일례이다.
도 4b를 참조하면, 디듀플리케이터(313)는 중복 판단을 할 대상 청크(435)의 청크 인덱스(431)와 비교대상 세트 내 참조 파일들로부터 가져온 청크 인덱스 리스트(432)를 비교할 수 있다(433). 만약 참조 파일의 청크 인덱스 리스트(432) 내에 대상 청크의 청크 인덱스(431)와 정확하게 일치하는 청크 인덱스가 있다면, 이 일치하는 청크 인덱스에 대응하는 참조 파일의 청크는, 청크 인덱스(431)에 대응하는 대상 청크(435)와 중복된 데이터를 가진다고 판단할 수 있다(434). 이와 함께, 디듀플리케이터(313)는 중복 판단을 할 대상 청크(435)의 데이터와 비교대상 세트 내 참조 파일들로부터 가져온 청크들(436)의 데이터를 직접 비교할 수 있다. 이러한 비교는 델타 압축(delta compression) 기법을 사용(437)할 수 있다.
도 4c는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 또 다른 예를 설명하기 위한 블록도이다. 도 4c는 청크의 데이터를 델타 압축 기법을 이용하여 직접 비교하는 중복 판단의 일례이다.
도 4c를 참조하면, 디듀플리케이터(313)는 중복 판단을 할 대상 청크(451)의 데이터와 비교대상 세트 내 참조 파일들로부터 가져온 청크들(452)의 데이터를 직접 비교할 수 있다. 이러한 비교는 델타 압축(delta compression) 기법을 사용(4453)할 수 있다.
상술한 바와 같이, 실시예에 따라, 디듀플리케이터(313)는 대상 파일을 다수의 청크들로 분할하고, 대상 파일의 청크의 청크 인덱스와 참조 파일의 청크의 청크 인덱스를 비교함으로써 중복 판단을 할 수 있다. 및/또는 디듀플리케이터(313)는 대상 파일의 청크의 데이터와 참조 파일의 청크의 데이터를 직접 또는 델타 압축 등의 기법을 사용하여 비교함으로써 중복 판단을 할 수 있다.
실시예에서, 대상 파일에 대해 모든 파일들을 비교하는 중복 판단이 이루어지는 것이 아니라, 상대적으로 소수의 파일들만이 우선적인 중복 판단을 위한 비교대상 세트로서 선정된다. 더 나아가, 비교대상 세트에 포함되는 소수의 파일들, 즉 참조 파일들은 대상 파일의 생성시점부터, 예컨대 리네임, 붙여넣기, 복사 등의 파일 오퍼레이션과 관련하여 서로 연관되어 있는 파일들에 관한 정보를 포함하는 연관정보에 기초하여 선택된다.
그러므로 선정된 비교대상 세트 내 참조 파일들에는 대상 파일의 데이터와 동일한 데이터 즉, 중복 데이터가 포함되어 있을 가능성이 높다. 그러므로, 실시예에 따른 데이터 연관정보를 이용하는 중복제거 시스템은, 소수이면서 동시에 중복 데이터를 포함하고 있을 가능성이 큰 비교대상 세트 내 참조 파일에 대해 우선적으로 중복 판단을 수행할 수 있게 하므로, 중복 데이터를 신속하게 찾아낼 수 있게 보장할 수 있다.
도 5는 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법의 구체적인 과정을 더 상세히 설명하기 위한 흐름도이다.
도 5를 참조하면, 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법(500)을 보여주는 흐름도가 도시된다. 도시된 예는, 사용자가 기존 파일을 다른 이름을 붙여 새로운 파일로 생성하여 저장할 때 이루어지는 프로세스를 예시적으로 보여주고 있다.
실시예에서, 사용자가 특정 애플리케이션을 실행하여 기존 파일(original file)(a.txt)을 복사하고 파일 명칭을 바꾸기 위해 리네임(rename) 명령을 입력하는 액션을 할 수 있다. 그러면, 애플리케이션은 기존 파일(a.txt)의 데이터를 그대로 포함하는 새로운 파일(a2.txt)을 생성한 후 저장하는 파일 오퍼레이션을 수행할 수 있다(501).
이러한 파일 오퍼레이션이 수행되면, 파일 오퍼레이션을 감시 중인 오퍼레이션 트래커 및/또는 행위 트래커에 의해 파일 오퍼레이션 추적 로그들이 생성될 수 있다. 연관정보 생성기는 파일 오퍼레이션 추적 로그들을 읽어들임으로써 기존 파일(a.txt)과 새로운 파일(a2.txt) 사이의 연관관계를 인지할 수 있다.
이렇게 인지된 연관관계에 따라 연관정보 생성기는 기존 파일과 새로운 파일의 파일 식별자(file ID)를 수집할 수 있다(503).
또한 연관정보 생성기는 파일 오퍼레이션의 속성에 따라 연관정보 플래그(association flag)를 결정할 수 있다. 이 예에서, 연관정보 생성기는, 파일 리네임 액션에 따라 기존 파일 전체가 새로운 파일로 복사되는 파일 오퍼레이션을 나타내는 "FULL_COPY"를 연관정보 플래그로서 결정할 수 있다(505).
결정된 연관정보 플래그, 기존 파일 식별자, 및 새로운 파일 식별자는, 생성되는 새로운 파일의 연관정보에 포함될 수 있다. 생성된 새로운 파일의 연관정보는, 새로운 파일의 파일 레시피가 생성될 때, 파일 메타데이터 형태 즉 연관정보 메타데이터로서 저장될 수 있다(507).
이후 중복 제거 프로세스가 시작되어, 파일 분할기(311)는 새로운 파일(a2.txt)을 대상 파일로 하여 여러 개의 청크로 분할(chunking)하고, 각각의 청크에 대해 청크 태거가 새로운 파일의 연관정보 메타데이터를 태그시킨다(509).
그리고, 각각의 청크에 대해서 인덱스 생성기가 청크 인덱스를 생성한다(511). 청크 인덱스는 해시 함수를 이용하여 생성한 해시 키일 수 있다. 청크 인덱스는 각각의 청크를 고유하게 식별하기 위한 수단이다.
레퍼런스 로더는 각각의 청크에 태그된 연관정보로부터 새로운 파일(a2.txt)과 연관되어 있는 참조 파일이 기존 파일(a.txt)임을 인지하고, 이 연관되어 있는 기존 파일에 관한 정보를 획득할 수 있다(513).
레퍼런스 로더는 새로운 파일을 중복 판단하기 위한 비교대상 세트로서 연관정보 내의 파일을 선택한다. 레퍼런스 로더는 비교대상 세트의 참조 파일(a.txt)의 파일 레시피로부터 참조 파일의 청크 인덱스 리스트를 읽어온다(515). 레퍼런스 로더가 읽어온 참조 파일의 청크 인덱스 리스트는 디듀플리케이터로 제공될 수 있다.
그러면, 디듀플리케이터는 새로운 파일의 청크의 청크 인덱스와 참조 파일의 청크 인덱스 리스트 사이를 비교할 수 있다(517). 비교과정은, 도 4a 내지 도 4c에서 예시한 바와 같이, 청크 인덱스들을 비교하는 간접 방식 및/또는 청크들을 비교하는 직접 방식을 포함할 수 있다.
이러한 비교 결과 새로운 파일의 청크의 청크 인덱스가 참조 파일의 청크 인덱스 리스트에 존재하는지가 판단될 수 있다(519). 예컨대, 청크 인덱스가 "OxA12B"일 때, 이것과 같은 값을 가지는 청크 인덱스가 참조파일의 청크 인덱스 리스트 내에 존재하는지 여부를 판단할 수 있다(519).
한편으로, 만약 새로운 파일의 청크의 청크 인덱스와 같은 값을 가지는 청크 인덱스가 참조파일의 청크 인덱스 리스트 내에 존재하면, 이 청크 인덱스에 대응하는 청크는 중복 데이터를 가진다고 판단된다. 따라서 중복 데이터를 가진 것으로 판단된 새로운 파일의 청크를 청크 스토어에 저장하지 않고 대응하는 청크 인덱스의 참조값을 증가시킨다(521). 그리고 중복 데이터를 가진 것으로 판단된 청크의 청크 인덱스를 파일 레시피에 추가(523)한 후, 종료한다.
다른 한편으로, 만약 새로운 파일의 청크의 청크 인덱스와 같은 값을 가지는 청크 인덱스가 참조파일의 청크 인덱스 리스트에 존재하지 않으면, 이 청크 인덱스에 대응하는 새로운 청크와 중복되는 데이터를 가진 참조 파일의 청크가 발견되지 않았다고 판단된다. 따라서 중복되지 아니한 데이터를 가진 것으로 판단된 새로운 파일의 청크를 청크 스토어에 저장하고 청크 인덱스 테이블에 새로운 인덱스로서 추가한다(525). 그리고 중복 데이터를 가지지 않았다고 판단된 새로운 파일의 청크의 청크 인덱스를 파일 레시피에 추가(527)한 후, 종료한다.
이와 같이 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법(500)은 대상 파일의 데이터가 생성되고 수정되는 동안에 이루어지는 파일 오퍼레이션과 관련하여 연관되어 있는 참조 파일들에 대한 정보를 추적하여, 이들 연관되어 있는 파일들에 대해 우선적으로 중복 판단을 하게 한다. 참조 파일은, 대상 파일의 데이터를 생성하고 수정하는 파일 오퍼레이션 동작과 연관되어 있는 파일이기 때문에, 대상 파일과 중복된 데이터를 포함하고 있을 가능성이 크다. 따라서 참조 파일에 대해 우선적으로 중복 판단한다면, 중복 데이터 판단의 정확도를 보장할 수 있고, 중복 제거의 성능을 높일 수 있다.
도 6은 일 실시예에 따라 분산 컴퓨팅 환경에서 구현될 수 있는 데이터 연관정보를 이용한 중복제거 시스템의 예를 보여주는 블록도이다.
도 6을 참조하면, 도 3에 도시된 중복 제거 시스템(300)이 애플리케이션 서버(210)와 분산 스토리지 시스템(250)을 포함하는 확대된 시스템에 적용되는 예가 도시되어 있다.
도 6에 도시된 중복 제거 시스템(600)의 예는, 실시예에 따른 중복제거 기능의 주요 부분들이 네트워크 파일 시스템의 서버 부분(2511)과 네트워크 파일 시스템의 클라이언트 부분(213)에 분산되어 구현되는 예를 보여준다.
도시된 예에서와 같이, 네트워크 파일 시스템의 클라이언트 부분(213)은 연관정보를 추출하고 생성하여 예컨대 파일 레시피에 메타데이터로서 저장하는 컴포넌트들을 포함할 수 있다. 이들 컴포넌트들은 행위 트래커(601), 오퍼레이션 트래커(602), 연관정보 생성기(603), 연관정보 관리자(604)를 포함한다. 덧붙여서, 네트워크 파일 시스템의 클라이언트 부분(213)은 파일을 통신망을 통해 전송하기 위해 라우터(605)와 같은 통신모듈을 포함할 수 있다.
한편, 네트워크 파일 시스템의 서버 부분(2511)은 파일을 분할하여 청크 단위로 중복 판단을 하는 컴포넌트들을 포함할 수 있다. 이들 컴포넌트들은 파일 분할기(611), 인덱스 생성기(612), 디듀플리케이터(613), 청크 태거(614), 레퍼런스 로더(615)를 포함할 수 있다.
도 6의 중복 제거 시스템(600)의 각 부분의 역할 및 기능은, 도 3에 도시된 중복 제거 시스템(300)의 각 부분의 기능 및 역할과 서로 유사하며, 실시예에 따른 중복제거 기능의 주요 부분들이 네트워크 파일 시스템의 서버 부분(2511)과 네트워크 파일 시스템의 클라이언트 부분(213)에 분산되어 구현되는 것만이 다르다.
300 : 중복제거 시스템
301 : 애플리케이션 시스템
302 : 파일 시스템303 : 파일 인터페이스
304 : 레거시 파일 관리부
305 : 파일 레시피
306 : 파일 식별자
307 : 레거시 메타데이터
311 : 파일 분할기
312 : 인덱스 생성기
313 : 디듀플리케이터
314 : 청크 인덱스 테이블
315 : 청크 인덱스 리스트
316 : 청크 스토어
331 : 행위 트래커
332 : 오퍼레이션 트래커
333 : 연관정보 생성기
334 : 연관정보 관리자
335 : 청크 태거
336 : 레퍼런스 로더
337 : 연관정보 메타데이터

Claims (20)

  1. 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 단계;
    상기 연관정보에 의해 인식되는 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 단계; 및
    선정된 비교대상 세트 내 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 단계를 포함하되,
    상기 중복 판단을 수행하는 단계는,
    상기 대상 파일을 다수의 청크로 분할하는 과정;
    분할된 각각의 청크에 대해 상기 연관정보를 태그하는 과정; 및
    상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
  2. 제 1 항에 있어서,
    상기 연관정보를 추출하는 단계는,
    파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을
    더 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
  3. 제 1 항에 있어서,
    상기 연관정보를 추출하는 단계는,
    사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을
    더 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
  4. 제 1 항에 있어서,
    상기 연관정보를 추출하는 단계는,
    파일 오퍼레이션에 대한 추적 로그로부터 파일들 간의 연관정보를 추출하는 과정을
    포함하는, 데이터 연관정보를 이용한 중복제거 방법.
  5. 제 1 항에 있어서,
    추출된 상기 연관정보는,
    파일 시스템에서 파일 메타데이터에 저장하고 관리하는,
    데이터 연관정보를 이용한 중복제거 방법.
  6. 제 1 항에 있어서,
    추출된 상기 연관정보는,
    파일 시스템에서 별도의 연관정보 테이블로서 저장하고 관리하는,
    데이터 연관정보를 이용한 중복제거 방법.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 대상 파일을 다수의 청크로 분할하는 과정 이후에,
    분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 과정; 및
    분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 수행하는 과정을
    더 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
  9. 삭제
  10. 삭제
  11. 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 연관정보 생성기;
    상기 연관정보에 의해 인식되는 상기 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 레퍼런스 로더;
    선정된 비교대상 세트 내 상기 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 디듀플리케이터;
    상기 대상 파일을 다수의 청크로 분할하는 파일 분할기; 및
    분할된 각각의 청크에 대해 상기 연관정보를 태그하는 청크 태거를 포함하되,
    상기 디듀플리케이터는, 상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 하는, 데이터 연관정보를 이용한 중복제거 시스템.
  12. 제 11 항에 있어서,
    상기 연관정보 생성기는,
    파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 오퍼레이션 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성하는, 데이터 연관정보를 이용한 중복제거 시스템.
  13. 제 11 항에 있어서,
    상기 연관정보 생성기는,
    사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 행위 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성하는, 데이터 연관정보를 이용한 중복제거 시스템.
  14. 제 11 항에 있어서,
    상기 연관정보 생성기는,
    파일 오퍼레이션 추적 로그로부터 파일들 간의 연관정보를 추출하는, 데이터 연관정보를 이용한 중복제거 시스템.
  15. 제 11 항에 있어서,
    상기 연관정보 생성기에 의해 추출된 연관정보를 파일 시스템에서 관리하는 파일 메타데이터에 추가하여 저장하는 연관정보 관리자를 더 포함하는, 데이터 연관정보를 이용한 중복제거 시스템.
  16. 제 11 항에 있어서,
    상기 연관정보 생성기에 의해 추출된 상기 연관정보를 파일 시스템에서 별도의 연관정보 테이블로서 관리하도록 저장하는 연관정보 관리자를 더 포함하는, 데이터 연관정보를 이용한 중복제거 시스템.
  17. 삭제
  18. 제 11 항에 있어서,
    상기 파일 분할기에 의해 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 인덱스 생성기를 더 포함하고,
    상기 디듀플리케이터는, 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 하는, 데이터 연관정보를 이용한 중복제거 시스템.
  19. 삭제
  20. 삭제
KR1020130149469A 2013-12-03 2013-12-03 데이터 연관정보를 이용한 중복제거 방법 및 시스템 KR102187127B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130149469A KR102187127B1 (ko) 2013-12-03 2013-12-03 데이터 연관정보를 이용한 중복제거 방법 및 시스템
US14/558,199 US10108635B2 (en) 2013-12-03 2014-12-02 Deduplication method and deduplication system using data association information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130149469A KR102187127B1 (ko) 2013-12-03 2013-12-03 데이터 연관정보를 이용한 중복제거 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20150064593A KR20150064593A (ko) 2015-06-11
KR102187127B1 true KR102187127B1 (ko) 2020-12-04

Family

ID=53265498

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130149469A KR102187127B1 (ko) 2013-12-03 2013-12-03 데이터 연관정보를 이용한 중복제거 방법 및 시스템

Country Status (2)

Country Link
US (1) US10108635B2 (ko)
KR (1) KR102187127B1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152389B2 (en) * 2015-06-19 2018-12-11 Western Digital Technologies, Inc. Apparatus and method for inline compression and deduplication
CN107850983B (zh) * 2015-09-11 2020-11-03 株式会社日立制作所 计算机系统、存储装置和数据的管理方法
KR101667756B1 (ko) * 2015-11-04 2016-10-19 한림대학교 산학협력단 아카이브 파일 중복 제거 장치 및 방법
CN106708927B (zh) * 2016-11-18 2021-01-05 北京二六三企业通信有限公司 文件的去重处理方法和装置
US11644992B2 (en) 2016-11-23 2023-05-09 Samsung Electronics Co., Ltd. Storage system performing data deduplication, method of operating storage system, and method of operating data processing system
KR102306672B1 (ko) * 2016-11-23 2021-09-29 삼성전자주식회사 데이터 중복 제거를 수행하는 스토리지 시스템, 스토리지 시스템 및 데이터 처리 시스템의 동작방법
CN108241553B (zh) * 2016-12-23 2022-04-08 中科星图股份有限公司 一种数据备份控制方法
CN106951529A (zh) * 2017-03-21 2017-07-14 郑州云海信息技术有限公司 一种海量小文件的管理方法及系统
US10691340B2 (en) 2017-06-20 2020-06-23 Samsung Electronics Co., Ltd. Deduplication of objects by fundamental data identification
KR102026125B1 (ko) * 2017-11-01 2019-09-27 국민대학교산학협력단 경량 복잡도 기반의 패킷레벨 중복 제거 장치 및 방법, 이를 저장하는 기록매체
KR102220635B1 (ko) * 2018-11-21 2021-02-26 한국전자기술연구원 메모리 db 기반 중복 제거 블록 데이터 전송 방법
EP3963853B1 (en) * 2019-04-29 2023-07-05 Hitachi Vantara LLC Optimizing storage and retrieval of compressed data
CN111090620B (zh) * 2019-12-06 2022-04-22 浪潮电子信息产业股份有限公司 一种文件存储方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158993A (ja) 2006-12-26 2008-07-10 Hitachi Ltd ストレージシステム
JP2009282604A (ja) * 2008-05-20 2009-12-03 Nec Corp 重複データ排除システム、重複データ排除方法及び重複データ排除プログラム
JP2012093827A (ja) 2010-10-25 2012-05-17 Internatl Business Mach Corp <Ibm> ファイルの重複を排除する装置及び方法
WO2012138504A2 (en) 2011-04-08 2012-10-11 Micron Technology, Inc. Data deduplication
JP2012533126A (ja) 2009-07-16 2012-12-20 インターナショナル・ビジネス・マシーンズ・コーポレーション ソースおよびターゲットを含む分散型環境におけるデータを重複排除する方法、システム、及びプログラム
US20130060739A1 (en) * 2011-09-01 2013-03-07 Microsoft Corporation Optimization of a Partially Deduplicated File

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640262B1 (en) * 2006-06-30 2009-12-29 Emc Corporation Positional allocation
US7962452B2 (en) 2007-12-28 2011-06-14 International Business Machines Corporation Data deduplication by separating data from meta data
US7996371B1 (en) 2008-06-10 2011-08-09 Netapp, Inc. Combining context-aware and context-independent data deduplication for optimal space savings
US8694466B2 (en) 2008-10-07 2014-04-08 Dell Products L.P. Object deduplication and application aware snapshots
US8140491B2 (en) 2009-03-26 2012-03-20 International Business Machines Corporation Storage management through adaptive deduplication
US8495312B2 (en) 2010-01-25 2013-07-23 Sepaton, Inc. System and method for identifying locations within data
US8407193B2 (en) 2010-01-27 2013-03-26 International Business Machines Corporation Data deduplication for streaming sequential data storage applications
US8660994B2 (en) 2010-01-28 2014-02-25 Hewlett-Packard Development Company, L.P. Selective data deduplication
US20110314070A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Optimization of storage and transmission of data
US8645335B2 (en) 2010-12-16 2014-02-04 Microsoft Corporation Partial recall of deduplicated files
US9110936B2 (en) 2010-12-28 2015-08-18 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication
KR101583748B1 (ko) 2011-12-08 2016-01-19 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 사용자 간의 중복제거를 허용하기 위한 저장소 할인
US9104328B2 (en) * 2012-10-31 2015-08-11 Hitachi, Ltd. Storage apparatus and method for controlling storage apparatus
JP5954738B2 (ja) * 2013-03-19 2016-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ファイルのバックアップの処理を行うコンピュータ、システム、方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158993A (ja) 2006-12-26 2008-07-10 Hitachi Ltd ストレージシステム
JP2009282604A (ja) * 2008-05-20 2009-12-03 Nec Corp 重複データ排除システム、重複データ排除方法及び重複データ排除プログラム
JP2012533126A (ja) 2009-07-16 2012-12-20 インターナショナル・ビジネス・マシーンズ・コーポレーション ソースおよびターゲットを含む分散型環境におけるデータを重複排除する方法、システム、及びプログラム
JP2012093827A (ja) 2010-10-25 2012-05-17 Internatl Business Mach Corp <Ibm> ファイルの重複を排除する装置及び方法
WO2012138504A2 (en) 2011-04-08 2012-10-11 Micron Technology, Inc. Data deduplication
US20130060739A1 (en) * 2011-09-01 2013-03-07 Microsoft Corporation Optimization of a Partially Deduplicated File

Also Published As

Publication number Publication date
KR20150064593A (ko) 2015-06-11
US10108635B2 (en) 2018-10-23
US20150154221A1 (en) 2015-06-04

Similar Documents

Publication Publication Date Title
KR102187127B1 (ko) 데이터 연관정보를 이용한 중복제거 방법 및 시스템
US11080232B2 (en) Backup and restoration for a deduplicated file system
US20210173853A1 (en) Selective synchronization of content items in a content management system
US9792306B1 (en) Data transfer between dissimilar deduplication systems
US9798486B1 (en) Method and system for file system based replication of a deduplicated storage system
US8983952B1 (en) System and method for partitioning backup data streams in a deduplication based storage system
KR100985169B1 (ko) 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법
US8458144B2 (en) Data deduplication method using file system constructs
US8315985B1 (en) Optimizing the de-duplication rate for a backup stream
US9043540B2 (en) Systems and methods for tracking block ownership
US9110604B2 (en) System and method for full virtual machine backup using storage system functionality
CA2817119C (en) Synthetic backups within deduplication storage system
US10621151B2 (en) Elastic, ephemeral in-line deduplication service
US11176102B2 (en) Incremental virtual machine metadata extraction
US20170123935A1 (en) Cloud object data layout (codl)
US9396071B1 (en) System and method for presenting virtual machine (VM) backup information from multiple backup servers
EP2997501A2 (en) Efficient data replication and garbage collection predictions
JP5650982B2 (ja) ファイルの重複を排除する装置及び方法
CN106484820B (zh) 一种重命名方法、访问方法及装置
TW201346601A (zh) 與位置獨立之檔案
JP2018097450A (ja) データ処理装置,データ処理プログラムおよびデータ処理方法
US10754731B1 (en) Compliance audit logging based backup
WO2012079967A2 (en) Replicating data
US11836388B2 (en) Intelligent metadata compression

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant