KR102187127B1

KR102187127B1 - 데이터 연관정보를 이용한 중복제거 방법 및 시스템

Info

Publication number: KR102187127B1
Application number: KR1020130149469A
Authority: KR
Inventors: 신현정; 이주평
Original assignee: 삼성전자주식회사
Priority date: 2013-12-03
Filing date: 2013-12-03
Publication date: 2020-12-04
Also published as: KR20150064593A; US10108635B2; US20150154221A1

Abstract

데이터 연관정보를 이용한 중복제거 방법이 개시된다. 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 파일과 연관된 적어도 하나의 다른 파일에 관한 정보가 연관정보로서 추출된다. 추출된 연관정보 내 파일을 중복 판단 시 비교를 위한 비교대상 세트로서 선정한다. 그리고 선정된 비교대상 세트 내 참조 파일을 대상으로 우선적으로 상기 파일과의 중복 판단을 수행한다.

Description

데이터 연관정보를 이용한 중복제거 방법 및 시스템{DEDUPLICATION METHOD USING DATA ASSOCIATION AND SYSTEM THEREOF}

데이터 중복제거 기술과 관련된다. 보다 상세하게는, 스토리지 공간을 효율적으로 사용하기 위한 데이터 중복제거 기술과 관련된다.

일반적으로 데이터 중복제거(deduplication) 기술은, 스토리지에 저장할 예정인 데이터와 그 스토리지에 이미 저장되어 있는 데이터가 중복되어 있는지를 판단하고, 중복이라고 판단되는 경우 저장할 예정인 데이터를 스토리지에 저장하지 않고 이미 저장되어 있는 데이터로의 링크만을 관리함으로써 스토리지 공간을 효율적으로 사용할 수 있도록 하는 스토리지 기술의 일종이다. 통상적으로 데이터의 중복 여부의 판단은 비교 대상인 데이터의 해시 인덱스(hash index) 등을 이용하여 비교함으로써 이루어진다.

중복제거는 중복제거가 이루어지는 레벨에 따라, 파일-레벨(file-level) 중복제거 및 블록-레벨(block-level) 중복제거로 나눌 수 있다. 파일-레벨 중복제거는 파일 단위로 해시 인덱스를 생성하여 비교한다. 이 경우 파일의 일부만이 달라져도 다른 파일로 인식되므로 저장 효율이 떨어진다.

블록-레벨 중복제거는 하나의 파일을 예컨대 512 바이트 내지 수 KB(kilobyte) 단위로 청킹(chunking)하여 다수의 블록 즉 청크(chunk)로 분할한 후 각각의 청크 단위로 해시 인덱스를 생성하여 비교한다. 이 경우, 파일의 일부에 해당하는 각 청크마다 중복 여부를 판단하므로, 파일이 일부만 변경된 경우 또는 하나의 청크가 여러 파일들에 걸쳐 중복된 경우도 발견할 수 있어, 저장 효율이 높다. 그러나 중복을 판단하기 위하여 하나의 청크에 대해 이미 저장되어 있는 데이터 모두와 중복되어 있는지 비교하여야 한다.

이러한 중복 판단 방식에 의하면, 중복 판단이 확실하다는 장점이 있지만, 만약 이미 저장되어 있는 데이터가 많은 경우에, 중복 판단에 필요한 비교 정보(예컨대, 해시 인덱스)의 양이 많다는 단점이 있다. 근래의 단일 스토리지 시스템에는 예컨대 테라바이트(TB, terabye : 1 terabyte = 1,000 gigabyte) 내지 페타바이트(PB, petabyte : 1 petabyte = 1,000 terabyte) 수준의 데이터량이 저장될 수 있다. 더욱이, 다수의 스토리지 노드들이 포함되어 있는 분산 스토리지 시스템의 경우, 단일 스토리지 시스템의 수 배 ~ 수십 배에 이르는 데이터량이 존재할 수 있다. 그러므로 데이터를 대량으로 저장하고 있는 근래 및 미래에서, 중복 판단 시 소요 시간의 증가는 큰 문제가 될 수 있다.

데이터 연관정보에 기초하여 상대적으로 작은 비교대상 세트만을 선정하여 데이터 중복 판단에 사용하는 효율적인 중복제거 방법 및 시스템을 제안한다.

일 양상에 따라 제공되는 데이터 연관정보를 이용한 중복제거 방법은, 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 단계; 상기 연관정보에 의해 인식되는 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 단계; 및 선정된 비교대상 세트 내 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 단계를 포함할 수 있다.

일 실시예에 있어서, 상기 연관정보를 추출하는 단계는, 파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을 더 포함할 수 있다.

다른 실시예에 있어서, 상기 연관정보를 추출하는 단계는, 사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을 더 포함할 수 있다.

또 다른 실시예에 있어서, 상기 연관정보를 추출하는 단계는, 파일 오퍼레이션에 대한 추적 로그로부터 파일들 간의 연관정보를 추출하는 과정을 포함할 수 있다.

또 다른 실시예에 있어서, 추출된 상기 연관정보는, 파일 시스템에서 파일 메타데이터에 저장하고 관리할 수 있다.

또 다른 실시예에 있어서, 추출된 상기 연관정보는, 파일 시스템에서 별도의 연관정보 테이블로서 저장하고 관리할 수 있다.

또 다른 실시예에 있어서, 상기 중복 판단을 수행하는 단계는, 상기 대상 파일을 다수의 청크로 분할하는 과정; 분할된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함할 수 있다.

또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 과정 이후에, 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 과정; 및 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 수행하는 과정을 더 포함할 수 있다.

또 다른 실시예에 있어서, 상기 중복 판단을 수행하는 단계는, 상기 대상 파일을 다수의 청크로 분할하는 과정; 분할된 각각의 청크에 대해 상기 연관정보를 태그하는 과정; 및 상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함할 수 있다.

그리고 또 다른 실시예에 있어서, 상기 중복 판단을 수행하는 단계는, 상기 대상 파일을 다수의 청크로 분할하는 과정; 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 과정; 및 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함할 수 있다.

또한 다른 양상에 따라 제공되는 데이터 연관정보를 이용한 중복제거 시스템은, 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 연관정보 생성기; 상기 연관정보에 의해 인식되는 상기 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 레퍼런스 로더; 및 선정된 비교대상 세트 내 상기 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 디듀플리케이터를 포함할 수 있다.

일 실시예에 있어서, 상기 연관정보 생성기는, 파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 오퍼레이션 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성할 수 있다.

다른 실시예에 있어서, 상기 연관정보 생성기는, 사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 행위 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성할 수 있다.

또 다른 실시예에 있어서, 상기 연관정보 생성기는, 파일 오퍼레이션 추적 로그로부터 파일들 간의 연관정보를 추출할 수 있다.

또 다른 실시예에 있어서, 상기 연관정보 생성기에 의해 추출된 연관정보를 파일 시스템에서 관리하는 파일 메타데이터에 추가하여 저장하는 연관정보 관리자를 더 포함할 수 있다.

또 다른 실시예에 있어서, 상기 연관정보 생성기에 의해 추출된 상기 연관정보를 파일 시스템에서 별도의 연관정보 테이블로서 관리하도록 저장하는 연관정보 관리자를 더 포함할 수 있다.

또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 파일 분할기를 더 포함하고, 상기 디듀플리케이터는, 분할된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 할 수 있다.

또 다른 실시예에 있어서, 상기 파일 분할기에 의해 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 인덱스 생성기를 더 포함하고, 상기 디듀플리케이터는, 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 할 수 있다.

또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 파일 분할기; 및 분할된 각각의 청크에 대해 상기 연관정보를 태그하는 청크 태거를 더 포함하며, 상기 디듀플리케이터는, 상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 할 수 있다.

그리고 또 다른 실시예에 있어서, 상기 대상 파일을 다수의 청크로 분할하는 파일 분할기; 및 상기 파일 분할기에 의해 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 인덱스 생성기를 더 포함하고, 상기 디듀플리케이터는, 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 할 수 있다.

데이터 연관정보에 기초하여 상대적으로 작은 비교대상 세트만을 선정하여 데이터 중복 판단에 사용함으로써 효율적으로 데이터의 중복을 제거할 수 있는 중복제거 방법 및 시스템을 구현할 수 있는 효과가 있다.

도 1은 단일 스토리지 시스템이 애플리케이션 시스템과 연결되어 있는 통합 스토리지 시스템의 일례를 나타낸 블록도,
도 2는 다수의 애플리케이션 서버와 다수의 스토리지 노드가 스토리지 네트워크를 통해 서로 연결되어 있는 분산 스토리지 시스템을 포함하는 확대된 통합 스토리지 시스템의 일례를 나타낸 블록도,
도 3은 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템의 전체적인 구성을 더 상세히 설명하기 위한 블록도,
도 4a는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서, 디듀플리케이터에 의한 중복 판단 과정의 일 예를 설명하기 위한 블록도,
도 4b는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 다른 예를 설명하기 위한 블록도,
도 4c는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 또 다른 예를 설명하기 위한 블록도,
도 5는 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법의 구체적인 과정을 더 상세히 설명하기 위한 흐름도,
도 6은 일 실시예에 따라 분산 컴퓨팅 환경에서 구현될 수 있는 데이터 연관정보를 이용한 중복제거 시스템의 예를 보여주는 블록도이다.

이하에서는 첨부한 도면을 참조하여 실시예를 상세히 설명한다. 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 명세서에서 설명하는 기술에서 각각의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 실질적으로 그 정의는 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

근래의 단일 스토리지 시스템 및/또는 분산 스토리지 시스템은 수 ~ 수십 TB 내지 PB의 데이터량을 저장할 수 있다. 이러한 대량 데이터 시대에 중복제거 기술은 중복 판단에 소요되는 시간을 감소시키는 것이 주요한 과제로 되고 있다. 예컨대, 상대적으로 작은 비교대상 세트만을 선정하여 데이터 중복 판단에 사용한다면 중복 판단 소요 시간을 감소시킬 수 있을 것이다.

예를 들어, 파일의 위치 즉 경로(path) 정보를 이용함으로써 상대적으로 작은 비교대상 세트만을 선정하는 중복제거 기술이 알려져 있다. 이 기술은, 스토리지 전체에 걸쳐 저장된 파일들이 아니라, 같은 폴더(folder)에 저장된 파일들만을 선택하고 선택된 파일들의 블록들에 대해서만 중복 판단을 함으로써, 중복 판단시 비교 정보의 양이 적다는 장점이 제공된다. 이것은 예컨대 백업 솔루션과 같이 지속적으로 조금씩 증가하는 업데이트가 발생하는 경우에는 효과적이다. 그러나, 이것은 예컨대 프라이머리 솔루션(primary solution)의 경우, 새 파일이 추가되는 경우, 및/또는 여러 폴더에 같은 파일이 중복되어 저장되는 경우 등에는 비효율적이다.

다른 예로서, 파일 타입과 같은 파일 메타데이터 내의 정보를 이용하는 블록-레벨 중복제거 기술이 알려져 있다. 그러나, 기존의 파일 메타데이터는 해당 파일에 국한된 정보에 불과하다. 파일 메타데이터는 특정한 하나의 파일이 그 외 다른 파일들과 어떠한 구체적인 데이터의 중복 판단에 도움이 될 수 있는 연관성을 보여주는 정보를 포함하지 않는다. 동일한 파일 타입의 서로 다른 파일들이 동일한 데이터를 포함하고 있을 가능성은 파일 메타데이터를 통해서는 전혀 알 수 없다.

예를 들어, 마이크로소프트사의 파워포인트 프로그램으로 작성된 파워포인트 문서들은 모두 하나의 파일 타입, 즉 "파워포인트 파일 타입"을 가진다. 또한 예컨대, 파워포인트 파일을 업무 양식으로 사용하는 기업의 스토리지 시스템에서, 파워포인트 파일 타입의 문서들은 상대적으로 많은 양이 저장되어 있을 수 있다. 이 경우, 만약 파워포인트 파일 타입을 기초로 하여 비교대상 세트를 선정한다면, 선정된 비교대상 세트 내 파일(즉, 파워포인트 파일 타입을 가진 파일)의 수는 상대적으로 클 수 있다. 더욱이 이들 파워포인트 파일 타입을 가진 문서들이 서로 중복된 데이터를 가지고 있을 연관성에 대해서 파일 타입 자체로는 알 수 없다. 이와 같이 동일한 파일 타입에 속한 파일들을 중복 판단을 위한 비교대상 세트로서 선정하는 경우에, 여전히 비교대상 세트의 크기가 클 수 있으며, 따라서 중복 데이터를 발견하기 위한 소요 시간이 오래 걸리고 중복제거는 비효율적일 수 있다.

아래에서는 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법 및 시스템이 도면들을 참조하여 예시로서 기술된다.

여기서, 실시예에 따른 연관정보(association)는 각각의 데이터가 생성될 때 동시에 생성되고 각각의 데이터와 함께 관리될 수 있는, 일종의 메타데이터라고 할 수 있다. 이 연관정보에는, 기존 메타데이터(legacy metadata)의 정보가 아닌, 해당 데이터와 연관되어 있는 다른 참조 데이터에 관련된 정보가 포함된다. 기존 메타데이터는 해당 데이터에 대한 여러 가지 정보, 예컨대, 데이터의 타입, 데이터가 생성된 수단, 데이터의 목적, 생성 일시, 데이터의 작성자, 데이터가 생성된 컴퓨터 네트워크 상의 위치, 사용된 표준 등을 포함할 수 있다. 통상적으로 이러한 기존 메타데이터는 데이터가 생성될 때 생성되고, 한번 생성되면 변하지 않는다. 반면에, 실시예에 따른 연관정보는 한번 생성되면, 변경되지 않는 것이 아니라, 데이터 또는 파일의 생성 시점부터 시작하여 중복 판단을 하는 시점까지에 이르는 계속해서 수정될 수 있다.

명세서 전반에 걸쳐, 데이터, 메타데이터, 파일, 블록, 청크 등의 다양한 용어가 사용되고 있다., 이들 용어는, 구체적으로 서로 다른 대상들을 지칭할 수도 있으나, 이들 용어 모두가 임의의 한 덩어리의 데이터를 포함하는 데이터 포맷, 형태, 또는 스트럭처인 하나의 동일한 대상을 지칭하는 것일 수 있다.

도 1 및 도 2는 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템의 전체적인 구성을 설명하기 위한 개략적인 블록도이다. 실시예에 따라, 중복 제거 시스템은 도 1에 도시된 바와 같은 단일 스토리지 시스템을 포함할 수 있다. 또는, 실시예에 따라 중복 제거 시스템은 도 2에 도시된 바와 같은 분산 환경의 다수의 스토리지 시스템을 포함할 수 있다.

도 1은 단일 스토리지 시스템이 애플리케이션 시스템과 연결되어 있는 통합 스토리지 시스템의 일례를 나타낸 블록도이다.

통합 스토리지 시스템(100)은 애플리케이션 시스템(110)과 단일 스토리지 시스템(130)이 예컨대 시스템 버스를 통해 연결되어 있는 하나의 컴퓨팅 장치, 예컨대 데스크탑, 랩탑, 타블렛, 스마트폰 등과 같은 컴퓨팅 장치로서 구현될 수 있다.

대안적으로, 통합 스토리지 시스템(100)은 애플리케이션 시스템(110)과 단일 스토리지 시스템(130)이 유선 및/또는 무선 통신 연결을 통해 서로 소통 가능하게 연결되어 있는 분산 컴퓨팅 시스템으로서 구현될 수 있다. 이 경우, 애플리케이션 시스템(110)은 데스크탑, 랩탑, 타블렛, 스마트폰 등과 같은 컴퓨팅 장치으로 구현될 수 있는 클라이언트 장치일 수 있고, 스토리지 시스템(130)은 애플리케이션 시스템(110)과 WAN, LAN 등에 의해 연결된 스토리지 서버, 클라우드 등의 스토리지 서버 장치일 수 있다.

애플리케이션 시스템(110)은 데이터 또는 파일이 생성되고 사용되는 시스템이다. 이러한 애플리케이션 시스템(110)은, 예컨대, 마이크로소프트 사의 WINDOWS 운영 시스템과 같은 운영 시스템이 설치될 수 있고, 또한 워드프로세싱, 오피스, 웹브라우저, 유무선 통신 모듈 등의 다양한 애플리케이션들이 설치되어 실행될 수 있다.

스토리지 시스템(130)은, 도 1에 예시된 바와 같이, 데이터 또는 파일을 저장하기 위한 시스템이며, 파일 시스템(131), 블록 관리부(132) 및 장치 관리부(133)를 포함하는 컴포넌트들과 하나 이상의 스토리지 장치(134, 135)를 포함할 수 있다. 파일 시스템(131)은 애플리케이션 시스템(110)으로부터 수신된 파일을 프로세싱하고 관리하는 부분이며, 실시예에 따른 중복제거 기능의 주요 부분을 구현하는 부분일 수 있다. 블록 관리부(132)는 파일을 여러 개의 블록으로 분할하여 프로세싱하고 관리할 수 있는 부분이다. 장치 관리부(133)는 스토리지 장치(134, 135)를 관리하는 부분이다. 스토리지 장치(134, 135)는 파일 및/또는 블록을 저장하는 매체일 수 있다. 도면에서는 2개의 스토리지 장치(134, 135) 만이 보여지고 있으나 이것은 단지 예시로서 제시된 것에 불과하며, 스토리지 장치의 개수는 실시예의 양태들에 따라 증가하거나 감소될 수 있다는 점이 해당 기술 분야의 통상의 지식을 가진 자에게 자명할 것이다.

도 2는 다수의 애플리케이션 서버와 다수의 스토리지 노드가 스토리지 네트워크를 통해 서로 연결되어 있는 분산 스토리지 시스템를 포함하는 확대된 통합 스토리지 시스템의 일례를 나타낸 블록도이다.

도 2를 참조하면, 확대된 통합 스토리지 시스템(200)은, 다수의 애플리케이션 서버(210, 220, 230) 및 분산 스토리지 시스템(distributed storage system)(250)을 포함한다. 분산 스토리지 시스템(250)은 다수의 스토리지 노드(2510, 2530, 2550)가 스토리지 네트워크를 통해 서로 연결되어 형성될 수 있다. 도면에서는 각각 3개의 애플리케이션 서버(210, 220, 23)와 3개의 스토리지 노드(2510, 2530, 2550) 만이 보여지고 있으나 이것은 단지 예시로서 제시된 것에 불과하며, 그 개수는 실시예의 양태들에 따라 증가하거나 감소될 수 있다는 점이 해당 기술 분야의 통상의 지식을 가진 자에게 자명할 것이다.

도 2의 예에서, 각각의 애플리케이션 서버(210, 220, 230)는 애플리케이션 시스템(211) 및 네트워크 파일 시스템의 클라이언트 부분(213)을 포함할 수 있다. 애플리케이션 시스템(211)은 도 1의 애플리케이션 시스템(110)에 대응할 수 있다. 네트워크 파일 시스템의 클라이언트 부분(213)은 애플리케이션 시스템(211)에서 생성되고 수정되고 관리되는 파일 또는 데이터를 스토리지 네트워크를 통해 분산 스토리지 시스템(250)으로 전송하는 역할을 담당할 수 있다.

분산 스토리지 시스템(250)의 각각의 스토리지 노드(2510, 2530, 255)는 네트워크 파일 시스템의 서버 부분(2511), 블록 관리부(2513), 장치 관리부(2515), 스토리지 장치(2517, 2519)를 포함할 수 있다. 분산 스토리지 시스템(250)은, 도 1의 스토리지 시스템(130)과 유사하게, 데이터 또는 파일을 저장하기 위한 시스템이며, 네트워크 파일 시스템의 서버 부분(2511), 블록 관리부(2513), 장치 관리부(2515)를 포함하는 운영시스템과 하나 이상의 스토리지 장치(2517, 2519)를 포함할 수 있다.

네트워크 파일 시스템의 서버 부분(2511)은, 애플리케이션 시스템(210, 230, 250)의 네트워크 파일 시스템의 클라이언트 부분(213)으로부터 수신된 파일을 프로세싱하고 관리하는 부분이다. 실시예에 따른 중복제거 기능의 주요 부분들은 네트워크 파일 시스템의 서버 부분(2511)과 애플리케이션 시스템(210, 230, 250)의 네트워크 파일 시스템의 클라이언트 부분(213)이 함께 구현할 수 있다. 블록 관리부(2513)는, 도 1의 블록 관리부(132)와 마찬가지로, 파일을 여러 개의 블록으로 분할하여 프로세싱하고 관리할 수 있는 부분이다. 장치 관리부(2515)는, 도 1의 장치 관리부(133)와 마찬가지로, 스토리지 장치(2517, 2519)를 관리하는 부분이다. 스토리지 장치(2517, 2519)는 파일 및/또는 블록을 저장하는 매체일 수 있다. 도면에서는 각각의 스토리지 노드마다 2개의 스토리지 장치(2517, 2519)만이 보여지고 있으나 이것은 단지 예시로서 제시된 것에 불과하며, 각 스토리지 노드 내의 스토리지 장치의 개수는 실시예의 양태들에 따라 증가하거나 감소될 수 있다는 점이 해당 기술 분야의 통상의 지식을 가진 자에게 자명할 것이다.

도 3은 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템의 전체적인 구성을 더 상세히 설명하기 위한 블록도이다.

도 3에는 도 1에 예시된 시스템(100) 중에서 중복제거와 연관된 부분이 더 상세히 도시되어 있다. 중복제거 시스템(300)은, 애플리케이션 시스템(301)에 의해 생성되고 수정된 파일을 파일 시스템(302)에서 수신하여 다수의 블록으로 분할한 후 블록 단위로 중복 판단을 수행한다. 이를 통하여 중복제거 시스템(300)은 블록-레벨 중복제거 기법을 구현한다.

파일 시스템(302)은 파일 인터페이스(303), 레거시 파일 관리부(304), 파일 레시피(file recipe)(305), 파일 식별자(file ID)(306), 레거시 메타데이터(307)와 같은, 일반적인 파일 관리를 위한 컴포넌트들을 포함할 수 있다. 또한, 파일 시스템(303)은 파일 분할기(chunking)(311), 인덱스 생성기(index generator)(312), 디듀플리케이터(deduplicator)(313), 청크 인덱스 테이블(chunk index table)(314), 청크 인덱스 리스트(chunk index list)(315), 및 청크 스토어(chunk store)(316)와 같은, 일반적인 블록-레벨 중복제거 기법을 위한 컴포넌트들을 포함할 수 있다.

더 나아가, 애플리케이션 시스템(301)은 행위 트래커(behavior tracker)(331)와 같은 컴포넌트를 더 포함할 수 있고, 파일 시스템(303)은 오퍼레이션 트래커(operation tracker)(332), 연관정보 생성기(association generator)(333), 연관정보 관리자(association manager)(334), 청크 태거(chunk tagger)(335), 레퍼런스 로더(reference loader)(336), 및 연관정보 메타데이터(association metadata)(337)와 같은 컴포넌트들을 더 포함할 수 있다. 이들 컴포넌트들은 실시예에 따른 데이터 연관정보를 생성하고 추출하고 이용하기 위한 부분들에 대응할 수 있다.

도시된 예에서, 애플리케이션 시스템(301)은 다양한 애플리케이션 프로그램을 실행함으로써 데이터 또는 파일이 생성되고 수정되도록 할 수 있다. 애플리케이션 시스템(301)이, 예컨대 스토리지 장치로 저장하기 위해, 파일을 스토리지 시스템의 파일 시스템(302)으로 전송할 수 있다. 파일 시스템(302)은 파일을 저장하기 전에, 예컨대 블록-레벨 중복제거 기술을 이용하여, 저장하고자 하는 파일을 다수의 블록으로 분할한 후 블록 단위로 중복 판단을 수행할 수 있다. 여기서, 파일이 분할되어 생성되는 다수의 "블록"은 종종 "청크"라는 용어로도 표현한다. 해당 기술 분야의 지식을 가진 자는 블록 및 청크는 동일하게 한 덩어리의 데이터를 의미할 수 있다는 것을 이해할 것이다.

파일 시스템(302)의 파일 인터페이스(303)는 애플리케이션 시스템(301)으로부터 파일을 수신한다. 레거시 파일 관리부(304)는 일반적인 파일 관련 관리 알고리즘에 따라, 파일과 함께 수신된 파일 메타데이터 또는 파일 레시피(305) 등을 관리할 수 있다. 파일 레시피(305)는 파일 식별자(306) 및 레거시 메타데이터(307)를 포함할 수 있다. 파일 식별자(306)는 파일을 고유하게 식별하는 식별자이다. 레거시 메타데이터(307)는 파일에 관한 여러 정보, 예컨대 파일 생성 일시, 파일의 목적, 파일 타입, 파일 작성자, 파일이 생성된 컴퓨터 네트워크 상의 위치, 사용된 표준, 및/또는 파일 크기나 길이, 해상도 등과 같은 정보를 포함하는 기존의 파일 메타데이터이다.

또한, 도시된 예에서, 파일 시스템(303)은 블록-레벨 중복제거 기법을 위하여, 파일 분할기(311)는 수신된 파일을 일정한 단위로, 예컨대 512 바이트 단위로 분할하여 다수의 블록, 즉 다수의 청크(chunk)로 만들 수 있다. 인덱스 생성기(312)는 각각의 청크마다 고유한 식별정보로서 청크 인덱스를 생성한다. 청크 인덱스는 예컨대 해시 함수를 이용하여 만든 해시 키일 수 있다. 생성된 청크 인덱스는 파일마다 청크 인덱스 테이블(314)로서 생성되어 관리될 수 있다. 청크 인덱스 리스트(315)는 파일 레시피(305)에 추가되어 관리될 수 있다. 각각의 청크는 청크 스토어(316)에서 관리된다. 디듀플리케이터(313)는 청크 내의 데이터를 직접 이용하거나 또는 간접적으로 청크 인덱스를 이용함으로써 각각의 청크에 대한 중복 판단을 수행할 수 있다.

행위 트래커(331)는 사용자가 사용자 인터페이스를 통해 파일에 대한 액션을 할 때, 이러한 사용자 액션에 의하여 이루어지는 파일에 대한 오퍼레이션을 추적(tracking)할 수 있다. 예컨대, 사용자가 특정 애플리케이션에서 파일 이름을 바꾸어 저장하는 리네임(rename) 기능을 사용하기 위해 키보드 또는 마우스와 같은 입력장치를 이용하여 리네임 명령을 입력하는 액션을 한다고 가정하자. 그러면, 이러한 사용자의 액션은 사용자 인터페이스를 통해 애플리케이션으로 전달되고, 애플리케이션은 파일에 대한 리네임 오퍼레이션을 수행할 수 있다. 이 예에서, 행위 트래커(331)는 사용자 인터페이스를 통한 사용자 액션을 감시하고 있다가, 사용자의 리네임 액션에 기인하여 하나의 파일(예컨대, a.txt)이 전체적으로 복사되어 새로운 파일(예컨대, a2.txt)로 생성되었다는 것을 알 수 있다. 이와 같이, 행위 트래커(331)는 특정 파일에 대한 사용자 인터페이스를 통한 사용자 액션을 감시함으로써, 이 특정 파일과 연관된 다른 파일을 발견할 수 있고, 그 결과를 행위 트래커의 파일 오퍼레이션 추적 로그로서 생성할 수 있다.

오퍼레이션 트래커(332)는 파일 시스템(302) 내의 파일 인터페이스(303)를 통해 요청되는 파일 프로세싱에 대한 정보를 추적할 수 있다. 오퍼레이션 트래커(332)는 특정 파일에 대한 파일 인터페이스(303)를 통한 오퍼레이션을 감시함으로써, 이 특정 파일과 연관된 다른 파일을 발견할 수 있고, 그 결과를 오퍼레이션 트래커의 파일 오퍼레이션 추적 로그로서 생성할 수 있다.

연관정보 생성기(333)는 파일의 연관정보를 추출하는 부분이다. 연관정보는 대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지, 이 대상 파일과 연관된 다른 파일 즉 참조 파일에 관한 정보이다. 대상 파일과 연관된 참조 파일은 하나 이상일 수 있다. 연관정보 생성기(333)는 행위 트래커(331) 및/또는 오퍼레이션 트래커(332)에 의해 생성된 파일 오퍼레이션 추적 로그를 이용하여 그로부터 연관정보를 추출 또는 생성할 수 있다.

연관정보 관리자(334)는 연관정보 생성기(333)에 의해 추출된 연관정보를 파일 시스템(302)에서 관리하는 파일 메타데이터에, 즉 파일 레시피(305)에 추가하여 저장할 수 있다. 도 3에 도시된 예에서, 연관정보는 연관정보 메타데이터(337)로서 포함되어 있음을 볼 수 있다. 대안으로서, 연관정보 관리자(334)는 연관정보 생성기(333)에 의해 추출된 연관정보를 파일 레시피(305)가 아닌 별도의 연관정보 테이블로서 관리하도록 저장할 수도 있다. 이 경우, 별도의 연관정보 테이블은 파일 레시피(305)와 유사한 체제를 가질 수 있고, 또 파일 레시피(305)와 유사하게 파일 시스템(302)에 의해 관리될 수 있다.

청크 태거(335)는 파일 분할기(311)에서 생성되는 청크에 연관정보 메타데이터(337)의 연관정보를 태깅할 수 있다.

레퍼런스 로더(336)는, 대상 파일의 연관정보 및/또는 대상 파일의 청크에 태깅되어 있는 연관정보 내에서 연관된 것으로 나타나는 참조 파일을, 대상 파일 및/또는 대상 파일의 청크에 대한 중복 판단 시 비교를 위한 비교대상 세트로서 선정한다. 그리고 비교대상 세트 내 참조 파일들의 파일 레시피(305)를 조사하여 청크 인덱스 리스트(315)를 가져와 디듀플리케이터(313)에게 전달할 수 있다.

디듀플리케이터(313)는 선정된 비교대상 세트 내 참조 파일을 대상으로 우선적으로 중복 판단을 수행할 수 있다. 디듀플리케이터(313)의 중복 판단은 다양한 방식으로 이루어질 수 있는데, 도 4a 내지 도 4c에 몇 가지의 예가 도시되어 있다.

도 4a 내지 도 4c는 실시예에 따른 데이터 연관정보를 이용한 중복제거 시스템에서, 중복 판단 과정의 예들을 설명하기 위한 블록도이다.

도 4a는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 일 예를 설명하기 위한 블록도이다. 도 4a는 청크 인덱스를 이용하는 중복 판단의 일례이다.

도 4a를 참조하면, 디듀플리케이터(313)는 중복 판단을 할 대상 청크의 청크 인덱스(411)와 비교대상 세트 내 참조 파일들로부터 가져온 청크 인덱스 리스트들(412) 내의 청크 인덱스들을 서로 비교할 수 있다(413). 만약 참조 파일의 청크 인덱스 리스트(412) 내에 대상 청크의 청크 인덱스(411)와 정확하게 일치하는 청크 인덱스가 있다면, 이 일치하는 청크 인덱스에 대응하는 참조 파일의 청크는, 청크 인덱스(411)에 대응하는 대상 청크와 중복된 데이터를 가지고 있다고 판단할 수 있다(414).

도 4b는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 다른 예를 설명하기 위한 블록도이다. 도 4b는 한편으로 청크 인덱스를 이용하고, 다른 한편으로 청크의 데이터를 델타 압축 기법을 이용하여 직접 비교하는 중복 판단의 일례이다.

도 4b를 참조하면, 디듀플리케이터(313)는 중복 판단을 할 대상 청크(435)의 청크 인덱스(431)와 비교대상 세트 내 참조 파일들로부터 가져온 청크 인덱스 리스트(432)를 비교할 수 있다(433). 만약 참조 파일의 청크 인덱스 리스트(432) 내에 대상 청크의 청크 인덱스(431)와 정확하게 일치하는 청크 인덱스가 있다면, 이 일치하는 청크 인덱스에 대응하는 참조 파일의 청크는, 청크 인덱스(431)에 대응하는 대상 청크(435)와 중복된 데이터를 가진다고 판단할 수 있다(434). 이와 함께, 디듀플리케이터(313)는 중복 판단을 할 대상 청크(435)의 데이터와 비교대상 세트 내 참조 파일들로부터 가져온 청크들(436)의 데이터를 직접 비교할 수 있다. 이러한 비교는 델타 압축(delta compression) 기법을 사용(437)할 수 있다.

도 4c는 도 3의 데이터 연관정보를 이용한 중복제거 시스템에서,디듀플리케이터에 의한 중복 판단 과정의 또 다른 예를 설명하기 위한 블록도이다. 도 4c는 청크의 데이터를 델타 압축 기법을 이용하여 직접 비교하는 중복 판단의 일례이다.

도 4c를 참조하면, 디듀플리케이터(313)는 중복 판단을 할 대상 청크(451)의 데이터와 비교대상 세트 내 참조 파일들로부터 가져온 청크들(452)의 데이터를 직접 비교할 수 있다. 이러한 비교는 델타 압축(delta compression) 기법을 사용(4453)할 수 있다.

상술한 바와 같이, 실시예에 따라, 디듀플리케이터(313)는 대상 파일을 다수의 청크들로 분할하고, 대상 파일의 청크의 청크 인덱스와 참조 파일의 청크의 청크 인덱스를 비교함으로써 중복 판단을 할 수 있다. 및/또는 디듀플리케이터(313)는 대상 파일의 청크의 데이터와 참조 파일의 청크의 데이터를 직접 또는 델타 압축 등의 기법을 사용하여 비교함으로써 중복 판단을 할 수 있다.

실시예에서, 대상 파일에 대해 모든 파일들을 비교하는 중복 판단이 이루어지는 것이 아니라, 상대적으로 소수의 파일들만이 우선적인 중복 판단을 위한 비교대상 세트로서 선정된다. 더 나아가, 비교대상 세트에 포함되는 소수의 파일들, 즉 참조 파일들은 대상 파일의 생성시점부터, 예컨대 리네임, 붙여넣기, 복사 등의 파일 오퍼레이션과 관련하여 서로 연관되어 있는 파일들에 관한 정보를 포함하는 연관정보에 기초하여 선택된다.

그러므로 선정된 비교대상 세트 내 참조 파일들에는 대상 파일의 데이터와 동일한 데이터 즉, 중복 데이터가 포함되어 있을 가능성이 높다. 그러므로, 실시예에 따른 데이터 연관정보를 이용하는 중복제거 시스템은, 소수이면서 동시에 중복 데이터를 포함하고 있을 가능성이 큰 비교대상 세트 내 참조 파일에 대해 우선적으로 중복 판단을 수행할 수 있게 하므로, 중복 데이터를 신속하게 찾아낼 수 있게 보장할 수 있다.

도 5는 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법의 구체적인 과정을 더 상세히 설명하기 위한 흐름도이다.

도 5를 참조하면, 일 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법(500)을 보여주는 흐름도가 도시된다. 도시된 예는, 사용자가 기존 파일을 다른 이름을 붙여 새로운 파일로 생성하여 저장할 때 이루어지는 프로세스를 예시적으로 보여주고 있다.

실시예에서, 사용자가 특정 애플리케이션을 실행하여 기존 파일(original file)(a.txt)을 복사하고 파일 명칭을 바꾸기 위해 리네임(rename) 명령을 입력하는 액션을 할 수 있다. 그러면, 애플리케이션은 기존 파일(a.txt)의 데이터를 그대로 포함하는 새로운 파일(a2.txt)을 생성한 후 저장하는 파일 오퍼레이션을 수행할 수 있다(501).

이러한 파일 오퍼레이션이 수행되면, 파일 오퍼레이션을 감시 중인 오퍼레이션 트래커 및/또는 행위 트래커에 의해 파일 오퍼레이션 추적 로그들이 생성될 수 있다. 연관정보 생성기는 파일 오퍼레이션 추적 로그들을 읽어들임으로써 기존 파일(a.txt)과 새로운 파일(a2.txt) 사이의 연관관계를 인지할 수 있다.

이렇게 인지된 연관관계에 따라 연관정보 생성기는 기존 파일과 새로운 파일의 파일 식별자(file ID)를 수집할 수 있다(503).

또한 연관정보 생성기는 파일 오퍼레이션의 속성에 따라 연관정보 플래그(association flag)를 결정할 수 있다. 이 예에서, 연관정보 생성기는, 파일 리네임 액션에 따라 기존 파일 전체가 새로운 파일로 복사되는 파일 오퍼레이션을 나타내는 "FULL_COPY"를 연관정보 플래그로서 결정할 수 있다(505).

결정된 연관정보 플래그, 기존 파일 식별자, 및 새로운 파일 식별자는, 생성되는 새로운 파일의 연관정보에 포함될 수 있다. 생성된 새로운 파일의 연관정보는, 새로운 파일의 파일 레시피가 생성될 때, 파일 메타데이터 형태 즉 연관정보 메타데이터로서 저장될 수 있다(507).

이후 중복 제거 프로세스가 시작되어, 파일 분할기(311)는 새로운 파일(a2.txt)을 대상 파일로 하여 여러 개의 청크로 분할(chunking)하고, 각각의 청크에 대해 청크 태거가 새로운 파일의 연관정보 메타데이터를 태그시킨다(509).

그리고, 각각의 청크에 대해서 인덱스 생성기가 청크 인덱스를 생성한다(511). 청크 인덱스는 해시 함수를 이용하여 생성한 해시 키일 수 있다. 청크 인덱스는 각각의 청크를 고유하게 식별하기 위한 수단이다.

레퍼런스 로더는 각각의 청크에 태그된 연관정보로부터 새로운 파일(a2.txt)과 연관되어 있는 참조 파일이 기존 파일(a.txt)임을 인지하고, 이 연관되어 있는 기존 파일에 관한 정보를 획득할 수 있다(513).

레퍼런스 로더는 새로운 파일을 중복 판단하기 위한 비교대상 세트로서 연관정보 내의 파일을 선택한다. 레퍼런스 로더는 비교대상 세트의 참조 파일(a.txt)의 파일 레시피로부터 참조 파일의 청크 인덱스 리스트를 읽어온다(515). 레퍼런스 로더가 읽어온 참조 파일의 청크 인덱스 리스트는 디듀플리케이터로 제공될 수 있다.

그러면, 디듀플리케이터는 새로운 파일의 청크의 청크 인덱스와 참조 파일의 청크 인덱스 리스트 사이를 비교할 수 있다(517). 비교과정은, 도 4a 내지 도 4c에서 예시한 바와 같이, 청크 인덱스들을 비교하는 간접 방식 및/또는 청크들을 비교하는 직접 방식을 포함할 수 있다.

이러한 비교 결과 새로운 파일의 청크의 청크 인덱스가 참조 파일의 청크 인덱스 리스트에 존재하는지가 판단될 수 있다(519). 예컨대, 청크 인덱스가 "OxA12B"일 때, 이것과 같은 값을 가지는 청크 인덱스가 참조파일의 청크 인덱스 리스트 내에 존재하는지 여부를 판단할 수 있다(519).

한편으로, 만약 새로운 파일의 청크의 청크 인덱스와 같은 값을 가지는 청크 인덱스가 참조파일의 청크 인덱스 리스트 내에 존재하면, 이 청크 인덱스에 대응하는 청크는 중복 데이터를 가진다고 판단된다. 따라서 중복 데이터를 가진 것으로 판단된 새로운 파일의 청크를 청크 스토어에 저장하지 않고 대응하는 청크 인덱스의 참조값을 증가시킨다(521). 그리고 중복 데이터를 가진 것으로 판단된 청크의 청크 인덱스를 파일 레시피에 추가(523)한 후, 종료한다.

다른 한편으로, 만약 새로운 파일의 청크의 청크 인덱스와 같은 값을 가지는 청크 인덱스가 참조파일의 청크 인덱스 리스트에 존재하지 않으면, 이 청크 인덱스에 대응하는 새로운 청크와 중복되는 데이터를 가진 참조 파일의 청크가 발견되지 않았다고 판단된다. 따라서 중복되지 아니한 데이터를 가진 것으로 판단된 새로운 파일의 청크를 청크 스토어에 저장하고 청크 인덱스 테이블에 새로운 인덱스로서 추가한다(525). 그리고 중복 데이터를 가지지 않았다고 판단된 새로운 파일의 청크의 청크 인덱스를 파일 레시피에 추가(527)한 후, 종료한다.

이와 같이 실시예에 따른 데이터 연관정보를 이용한 중복제거 방법(500)은 대상 파일의 데이터가 생성되고 수정되는 동안에 이루어지는 파일 오퍼레이션과 관련하여 연관되어 있는 참조 파일들에 대한 정보를 추적하여, 이들 연관되어 있는 파일들에 대해 우선적으로 중복 판단을 하게 한다. 참조 파일은, 대상 파일의 데이터를 생성하고 수정하는 파일 오퍼레이션 동작과 연관되어 있는 파일이기 때문에, 대상 파일과 중복된 데이터를 포함하고 있을 가능성이 크다. 따라서 참조 파일에 대해 우선적으로 중복 판단한다면, 중복 데이터 판단의 정확도를 보장할 수 있고, 중복 제거의 성능을 높일 수 있다.

도 6은 일 실시예에 따라 분산 컴퓨팅 환경에서 구현될 수 있는 데이터 연관정보를 이용한 중복제거 시스템의 예를 보여주는 블록도이다.

도 6을 참조하면, 도 3에 도시된 중복 제거 시스템(300)이 애플리케이션 서버(210)와 분산 스토리지 시스템(250)을 포함하는 확대된 시스템에 적용되는 예가 도시되어 있다.

도 6에 도시된 중복 제거 시스템(600)의 예는, 실시예에 따른 중복제거 기능의 주요 부분들이 네트워크 파일 시스템의 서버 부분(2511)과 네트워크 파일 시스템의 클라이언트 부분(213)에 분산되어 구현되는 예를 보여준다.

도시된 예에서와 같이, 네트워크 파일 시스템의 클라이언트 부분(213)은 연관정보를 추출하고 생성하여 예컨대 파일 레시피에 메타데이터로서 저장하는 컴포넌트들을 포함할 수 있다. 이들 컴포넌트들은 행위 트래커(601), 오퍼레이션 트래커(602), 연관정보 생성기(603), 연관정보 관리자(604)를 포함한다. 덧붙여서, 네트워크 파일 시스템의 클라이언트 부분(213)은 파일을 통신망을 통해 전송하기 위해 라우터(605)와 같은 통신모듈을 포함할 수 있다.

한편, 네트워크 파일 시스템의 서버 부분(2511)은 파일을 분할하여 청크 단위로 중복 판단을 하는 컴포넌트들을 포함할 수 있다. 이들 컴포넌트들은 파일 분할기(611), 인덱스 생성기(612), 디듀플리케이터(613), 청크 태거(614), 레퍼런스 로더(615)를 포함할 수 있다.

도 6의 중복 제거 시스템(600)의 각 부분의 역할 및 기능은, 도 3에 도시된 중복 제거 시스템(300)의 각 부분의 기능 및 역할과 서로 유사하며, 실시예에 따른 중복제거 기능의 주요 부분들이 네트워크 파일 시스템의 서버 부분(2511)과 네트워크 파일 시스템의 클라이언트 부분(213)에 분산되어 구현되는 것만이 다르다.

300 : 중복제거 시스템
301 : 애플리케이션 시스템
302 : 파일 시스템303 : 파일 인터페이스
304 : 레거시 파일 관리부
305 : 파일 레시피
306 : 파일 식별자
307 : 레거시 메타데이터
311 : 파일 분할기
312 : 인덱스 생성기
313 : 디듀플리케이터
314 : 청크 인덱스 테이블
315 : 청크 인덱스 리스트
316 : 청크 스토어
331 : 행위 트래커
332 : 오퍼레이션 트래커
333 : 연관정보 생성기
334 : 연관정보 관리자
335 : 청크 태거
336 : 레퍼런스 로더
337 : 연관정보 메타데이터

Claims

대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 단계;
상기 연관정보에 의해 인식되는 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 단계; 및
선정된 비교대상 세트 내 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 단계를 포함하되,
상기 중복 판단을 수행하는 단계는,
상기 대상 파일을 다수의 청크로 분할하는 과정;
분할된 각각의 청크에 대해 상기 연관정보를 태그하는 과정; 및
상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 수행하는 과정을 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
제 1 항에 있어서,
상기 연관정보를 추출하는 단계는,
파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을
더 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
제 1 항에 있어서,
상기 연관정보를 추출하는 단계는,
사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 과정을
더 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
제 1 항에 있어서,
상기 연관정보를 추출하는 단계는,
파일 오퍼레이션에 대한 추적 로그로부터 파일들 간의 연관정보를 추출하는 과정을
포함하는, 데이터 연관정보를 이용한 중복제거 방법.
제 1 항에 있어서,
추출된 상기 연관정보는,
파일 시스템에서 파일 메타데이터에 저장하고 관리하는,
데이터 연관정보를 이용한 중복제거 방법.
제 1 항에 있어서,
추출된 상기 연관정보는,
파일 시스템에서 별도의 연관정보 테이블로서 저장하고 관리하는,
데이터 연관정보를 이용한 중복제거 방법.
삭제
제 1 항에 있어서,
상기 대상 파일을 다수의 청크로 분할하는 과정 이후에,
분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 과정; 및
분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 수행하는 과정을
더 포함하는, 데이터 연관정보를 이용한 중복제거 방법.
삭제
삭제
대상 파일이 생성되는 시점부터 중복 판단을 하는 시점까지 상기 대상 파일 및 상기 대상 파일과 연관된 적어도 하나의 참조 파일에 관한 정보를 연관정보로서 추출하는 연관정보 생성기;
상기 연관정보에 의해 인식되는 상기 적어도 하나의 참조 파일을 상기 대상 파일의 중복 판단 시 비교를 위한 비교대상 세트로서 선정하는 레퍼런스 로더;
선정된 비교대상 세트 내 상기 적어도 하나의 참조 파일을 대상으로 상기 대상 파일과의 중복 판단을 수행하는 디듀플리케이터;
상기 대상 파일을 다수의 청크로 분할하는 파일 분할기; 및
분할된 각각의 청크에 대해 상기 연관정보를 태그하는 청크 태거를 포함하되,
상기 디듀플리케이터는, 상기 연관정보가 태그된 청크 각각에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크들을 대상으로 우선적으로 중복 판단을 하는, 데이터 연관정보를 이용한 중복제거 시스템.
제 11 항에 있어서,
상기 연관정보 생성기는,
파일 시스템 내의 파일 인터페이스를 통한 파일 프로세싱에 의해 이루어지는 파일 오퍼레이션을 추적하는 오퍼레이션 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성하는, 데이터 연관정보를 이용한 중복제거 시스템.
제 11 항에 있어서,
상기 연관정보 생성기는,
사용자의 사용자 인터페이스를 통한 파일에 대한 액션에 의해 이루어지는 파일 오퍼레이션을 추적하는 행위 트래커의 파일 오퍼레이션 추적 로그를 이용하여 연관정보를 생성하는, 데이터 연관정보를 이용한 중복제거 시스템.
제 11 항에 있어서,
상기 연관정보 생성기는,
파일 오퍼레이션 추적 로그로부터 파일들 간의 연관정보를 추출하는, 데이터 연관정보를 이용한 중복제거 시스템.
제 11 항에 있어서,
상기 연관정보 생성기에 의해 추출된 연관정보를 파일 시스템에서 관리하는 파일 메타데이터에 추가하여 저장하는 연관정보 관리자를 더 포함하는, 데이터 연관정보를 이용한 중복제거 시스템.
제 11 항에 있어서,
상기 연관정보 생성기에 의해 추출된 상기 연관정보를 파일 시스템에서 별도의 연관정보 테이블로서 관리하도록 저장하는 연관정보 관리자를 더 포함하는, 데이터 연관정보를 이용한 중복제거 시스템.
삭제
제 11 항에 있어서,
상기 파일 분할기에 의해 분할된 각각의 청크에 대해 각각의 청크를 고유하게 식별하는 청크 인덱스를 생성하는 인덱스 생성기를 더 포함하고,
상기 디듀플리케이터는, 분할된 청크 각각의 청크 인덱스에 대해, 상기 연관정보를 이용하여 선정된 비교대상 세트 내 참조 파일의 청크 인덱스를 대상으로 우선적으로 중복 판단을 하는, 데이터 연관정보를 이용한 중복제거 시스템.
삭제
삭제