KR100985169B1

KR100985169B1 - 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법

Info

Publication number: KR100985169B1
Application number: KR1020090113516A
Authority: KR
Inventors: 김경수; 천재범; 김주현; 신봉식; 진봉주; 김형철; 김영규; 최선; 이구용
Original assignee: (주)피스페이스; 김경수; 천재범; 김주현; 이구용; 진봉주; 김형철; 김영규; 최선; 신봉식
Priority date: 2009-11-23
Filing date: 2009-11-23
Publication date: 2010-10-05
Also published as: US20120191675A1; WO2011062387A2; WO2011062387A3; CN102834803A

Abstract

본 발명은 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법에 관한 것이다.

본 발명에 따른 분산 저장 시스템에서의 파일 중복 제거 장치 및 방법은, 액티브 파일(active file)에 대해 청크(chunk) 별로 해시값을 산출하고, 상기 청크 별로 산출된 해시값을 합하여 2차 해시값을 산출하며, 상기 청크 별 해시값 및 2차 해시값을 이용하여 파일의 중복성을 검사한 후, 상기 검사 결과 중복된 파일을 제거하는 것을 특징으로 한다.

Description

분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법 {Apparatus and method for file deduplication in distributed storage system}

본 발명은 분산 저장 시스템(DSS; Distributed Storage System)에서 파일의 중복을 제거하는 장치 및 방법에 관한 것으로, 보다 상세하게는 분산 저장 시스템의 시스템 운용 과정에서 해시 알고리즘, 비트 레벨 비교 등을 이용하여 액티브 파일(active file)의 중복 검사를 실시하고 파일의 중복을 제거하는 장치 및 방법에 관한 것이다.

분산 저장 시스템(Distributed Storage System) 또는 병렬 저장 시스템(Parallel Storage System)은 여러 대의 저장 장치를 1대의 저장 장치로 가상화시킨 저장 시스템이다. 이러한 분산 저장 시스템에서는 1개의 파일을 저장할 때 1대의 저장 장치에 저장하지 않고 가상화되어 있는 여러 대의 저장 장치에 나누어 저장하고 사용한다.

기존의 RAID(Redundant Array of Inexpensive Devices) 저장 장치가 여러 개의 하드 디스크를 하나의 저장 장치로 통합하면서 더 크고, 더 빠르고, 더 안정적인 저장 장치로 구성하듯이, 분산 저장 시스템도 여러 대의 저장 장치를 1대의 저 장 장치로 구성하여 더 크고, 더 빠르고, 더 안정적인 저장 시스템 기능을 제공 할 수 있다.

이러한 분산 저장 시스템 기술은 클라우드 컴퓨팅(Cloud Computing) 등에서 핵심적인 기술로 이용되며, 분산 저장 시스템을 구성하는 저장 장치의 수량이 증가하면 증가할수록 용량과 성능도 비례하여 증가하고 전체 소유 비용(Total Cost of Owner-ship)의 비용 대비 효과를 극대화시켜 주기 때문에, 기존의 저장 시스템이 제공하지 못하는 높은 수준의 성능과 확장성을 제공할 수 있다.

이와 관련하여, 도 1은 종래기술에 따른 분산 저장 시스템의 구성을 예시한 것이다.

도 1을 참고하면, 일반적으로 분산 저장 시스템은 각각의 파일을 여러 개로 나누어 분산 저장하는 복수개의 저장 서버(이는 가상적인 하나의 저장 서버에 해당됨)(110)와 이들 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(120) 등으로 구성되며, 적어도 하나의 클라이언트(130)가 네트워크 등을 통해 소정 파일의 입/출력을 요청하면 메타데이터 서버(120)가 해당 파일이 분산 저장될/저장되어 있는 저장 서버들(110)의 정보를 제공하고 이에 클라이언트(130)가 이들 저장 서버(110)에 접속하여 해당 파일의 입/출력을 수행함으로써 서비스가 이루어진다. (참고로, 본 발명에서 '파일'이라는 용어는 클라이언트에 의해 조회 또는 요청되는 내용을 의미하는 것으로, 이는 파일, 데이터, 컨텐츠, 청크(chunk) 등을 포함하는 의미이다.)

한편, 이러한 분산 저장 시스템에서는 파일들을 효율적으로 관리하기 위하여 복수개의 저장 서버를 운용 서버와 백업 서버로 구분하고, 현재 운용 중인 액티브(active) 파일(데이터, 컨텐츠)은 성능이 좋은 운용 서버에 저장하고 현재 운용하지 않는 백업(backup) 파일은 다소 성능이 떨어지는 백업 서버에 보관함으로써 한정된 저장 매체를 효율적으로 이용한다.

그러나, 종래기술에 따른 파일 관리 방법은 실제 운용 시스템에서 파일의 중복 검사를 수행하지 않고 운용 서버에 저장하여 운용하기 때문에 중복된 파일로 인해 스토리지(storage) 증설과 시스템 증설 등이 필요하며, 이에 따라 시스템 설비 비용이 증가하고 시스템 운용에 필요한 인력 및 운용 비용 또한 증가하는 문제점이 있었다.

그리고, 백업(Backup), ILM(Information Lifecycle Management), 원격 동기화(Remote Synchronization), 미러(Mirror), 아카이브(Archive), 복제(Replication) 등의 시스템 연계 시에도 중복된 파일이 이동하게 되어 개별 시스템의 저장 공간을 낭비하고 네트워크 자원을 낭비하는 문제점이 있었다.

본 발명은 전술한 바와 같은 문제점을 해결하기 위해 창안된 것으로, 본 발명의 목적은 분산 저장 시스템에서 해시 알고리즘, 자체 알고리즘과 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 등을 이용하여 액티브 파일(active file)의 중복 검사를 실시하고 파일의 중복을 제거하는 장치 및 방법을 제공하는 것이다.

본 발명의 다른 목적은, 시스템 운용 과정에서 중복 파일(데이터, 컨텐츠)을 제거하여 중복된 파일로 인해 스토리지 증설과 시스템 증설 등이 불필요하게 발생하는 것을 방지하는 파일 중복 제거 장치 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 백업(Backup), ILM(Information Lifecycle Management), 원격 동기화(Remote Synchronization), 미러(Mirror), 아카이브(Archive), 복제(Replication) 등의 시스템 연계 시 중복된 파일을 전송하지 않게 하여 개별 시스템의 불필요한 스토리지 증설과 네트워크 자원 낭비를 방지하는 파일 중복 제거 장치 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 분산 저장 시스템에서 파일의 중복을 검사 및 제거할 때 여러 가지 형식의 해시 알고리즘을 지원할 수 있으며, 파일 단위 및/또는 청크(chunk) 단위로 파일의 중복 검사 및 제거가 가능하고, 시스템 전체, 볼륨(volumn) 별, 연계 시스템 별로 파일의 중복 검사 및 제거가 가능한 장치 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 전술한 바와 같은 파일 중복 제거 장치 및 방법 을 효율적으로 이용하는 분산 저장 시스템을 제공하는 것이다.

상기 목적을 위하여, 본 발명의 일 형태에 따른 분산 저장 시스템에서의 파일 중복 제거 장치는, 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 핑거프린팅부; 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성을 검사하는 중복성 검사부; 및 상기 검사 결과 중복된 파일을 제거하는 중복 파일 제거부를 포함하고, 상기 중복성 검사부는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 한다.

그리고, 본 발명의 일 형태에 따른 분산 저장 시스템은, 파일을 분산 저장하기 위한 복수개의 저장 서버; 및 상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하는 분산 저장 시스템에 있어서, 상기 메타데이터 서버는 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하며, 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행한 후, 상기 검사 결과 중복된 파일을 제거하며, 상기 중복성 검사는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나가 수행되어 1차 중복성 검사가 수행되고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사가 수행된 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사가 수행되는 것을 특징으로 한다.

한편, 본 발명의 일 형태에 따른 분산 저장 시스템에서의 파일 중복 제거 방법은, 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하는 단계; 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 단계; 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행하는 단계; 및 상기 검사 결과 중복된 파일을 제거하는 단계를 포함하고, 상기 중복성 검사를 수행하는 단계는, 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 한다.

본 발명에 따르면, 분산 저장 시스템에서 해시 알고리즘, 자체 알고리즘과 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 등을 이용하여 액티브 파일(active file)의 중복 검사를 실시하고 파일의 중복을 제거하여 파일 관리를 효율적으로 수행할 수 있는 효과를 가진다.

그리고, 본 발명에 따르면, 시스템 운용 과정에서 중복 파일(데이터, 컨텐츠)을 제거함으로써 중복된 파일로 인해 스토리지 증설과 시스템 증설 등이 불필요하게 발생하는 것을 방지하여 비용을 절감하고 운용에 필요한 운용 인력, 운용 비용 등을 절감하는 효과를 가진다.

또한, 본 발명에 따르면, 실제 운용 시스템의 중복 파일(데이터, 컨텐츠)을 검사하여 백업(Backup), ILM(Information Lifecycle Management), 원격 동기화(Remote Synchronization), 미러(Mirror), 아카이브(Archive), 복제(Replication) 등의 시스템 연계 시 중복된 파일이 전송되지 않도록 함으로써 개별 시스템의 스토리지 낭비와 네트워크 자원의 낭비를 줄일 수 있는 효과를 가진다.

이하에서는 첨부 도면 및 바람직한 실시예를 참조하여 본 발명을 상세히 설명한다. 참고로, 하기 설명에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

먼저, 도 2는 본 발명의 일 실시예에 따른 분산 저장 시스템의 구성을 예시한 것이다.

도 2를 참고하면, 본 발명의 일 실시예에 따른 분산 저장 시스템은 각각의 파일을 여러 개로 나누어 분산 저장하는 복수개의 저장 서버(210), 상기 복수개의 저장 서버(210)에 저장되는 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(220), 그리고 현재 운용 중인 액티브 파일(active file)의 중복을 검사하여 중복된 파일을 제거하는 파일 중복 제거 장치(240) 등으로 구성된다. 여기서, 복수개의 저장 서버(210)는 운용 서버와 백업 서버로 구분하여 구현될 수 있으며, 이 경우 운용 서버는 상대적으로 고속의 저장 서버로 구현하고 백업 서버는 상대적으로 저속이며 대용량의 서버로 구현하는 것이 바람직하다. 그리고, 상기 파일 중복 제거 장치(240)는 시스템 운용 단계에서 액티브 파일의 중복을 검사하여 중복된 파일을 제거함으로써, 스토리지 및 네트워크 자원의 낭비를 방지하고 효율적인 파일 관리와 경제적인 디스크 관리를 수행하여 전체 시스템 성능을 향상시킨다.

그리고, 도 3은 본 발명의 다른 실시예에 따른 분산 저장 시스템의 구성을 예시한 것이다.

도 3을 참고하면, 본 발명의 다른 실시예에 따른 분산 저장 시스템은 각각의 파일을 여러 개로 나누어 분산 저장하는 복수개의 저장 서버(310)와, 상기 복수개의 저장 서버(310)에 저장되는 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(320) 등으로 구성되며, 특히 상기 메타데이터 서버(320)는 본 발명에 따른 파일 중복 제거 장치의 기능을 포함함으로써, 현재 운용 중인 액티브 파일의 중복을 검사하여 중복된 파일을 제거하여 효율적인 파일 관리와 경제적인 디스크 관리를 수행한다.

부언하면, 본 발명에 따른 파일 중복 제거 장치는 분산 저장 시스템에서 별 도의 장치 또는 서버로 구성되거나(도 2 참조), 메타데이터 서버 자체 또는 일부로 구성되어(도 3 참조), 현재 운용 중인 액티브 파일의 중복을 검사하여 중복된 파일을 제거함으로써, 한정된 저장 매체를 효율적으로 활용하여 시스템 성능을 향상시킨다.

이와 관련하여, 도 4는 본 발명의 일 실시예에 따른 파일 중복 제거 장치의 상세 구성을 예시한 것으로, 도시된 바와 같이, 본 발명의 일 실시예에 따른 파일 중복 제거 장치(240)는 핑거프린팅부(241), 중복성 검사부(242), 중복 파일 제거부(243) 등을 포함하며, 이는 특히 도 2에 예시된 분산 저장 시스템에서 유용하게 적용될 수 있다.

그리고, 도 5는 본 발명의 다른 실시예에 따른 파일 관리 장치(320)의 상세 구성을 예시한 것으로, 도시된 바와 같이, 본 발명의 다른 실시예에 따른 파일 관리 장치(320)는 핑거프린팅부(321), 중복성 검사부(322), 중복 파일 제거부(323), 메타데이터 관리부(324), 저장 장치 관리부(325) 등을 포함하며, 이는 특히 도 3에 예시된 분산 저장 시스템에서 유용하게 적용될 수 있다.

한편, 도 6은 본 발명의 일 실시예에 따른 분산 저장 시스템에서의 파일 중복 제거 방법의 흐름도를 나타낸 것으로, 구체적으로는 운용 파일에 대해 청크 별로 해시값을 산출한 후 다시 청크별 해시값을 모두 합하여 2차 해시값을 산출함으로써 핑거프린팅을 수행하는 것을 나타낸 것이다.

그리고, 도 7은 본 발명의 다른 실시예에 따른 분산 저장 시스템에서의 파일 중복 제거 방법의 흐름도를 나타낸 것으로, 구체적으로는 파일의 생성, 삭제, 복사 프로세스 과정에서 액티브 파일에 대한 중복성 검사를 수행하여 중복된 파일을 제거하는 것을 나타낸 것이다.

이하에서는 도 2 내지 도 8을 참조하여 본 발명에 따른 분산 저장 시스템에서의 파일 중복 제거 장치 및 방법에 대해 상세 설명한다. 참고로, 하기 설명에서는 본 발명의 실시 형태가 다소 상이하더라도 실질적으로 동일하거나 유사한 구성 또는 기능에 대하여는 이를 구별하지 않고 함께 설명한다.

먼저, 도 4 및 도 5를 참조하면, 본 발명에 따른 파일 중복 제거 장치에 있어 핑거프린팅부(241, 321)는 분산 저장 시스템으로 유입되는 파일(데이터, 컨텐츠)에 대해 파일 단위 및/또는 청크(chunk) 단위로 해시값을 산출하여 핑거프린팅(fingerprinting)을 수행한다.

예컨대, 핑거프린팅부(241, 321)는 현재 운용 중인 액티브 파일에 대해 소정의 해시 알고리즘(예, MD2, MD4, MD5, SHA, SHA-1, RIPEMD160, DSS-1 등)을 이용하여 청크 단위로 해시값을 산출한다(도 6의 단계 S610 참조). 그리고, 핑거프린팅부(241, 321)는 해당 파일에 대해 청크 단위로 산출된 해시값을 모두 합한 후 소정의 해시 알고리즘을 이용하여 2차 해시값을 산출한다(도 6의 단계 S620 참조). 여기서, 2차 해시값은 파일 단위의 해시값이 되며, 단계 S610에서 사용된 해시 알고리즘과 단계 S620에서 사용된 해시 알고리즘은 동일 또는 상이한 알고리즘을 사용할 수 있다. 그리고, 핑거프린팅부(241, 321)는 이와 같이 산출된 청크 별 해시값과 2차 해시값을 메타데이터 서버, 저장 서버(운용 서버), 데이터베이스 등에 저장 한다(도 6의 단계 S630 참조).

단계 S630과 관련하여, 본 발명의 바람직한 실시예에 따르면, 청크 단위 해시값은 청크 헤더(header)와 메타데이터 페이로드(payload)에 포함되며, 파일 단위 해시값(2차 해시값)은 메타데이터 헤더에 포함되도록 구현된다. 구체적으로, 본 발명에 따른 파일 중복 제거 장치는 청크 단위 해시값과 파일 단위 해시값을 산출하여 메타데이터 서버로 전송하고, 메타데이터 서버는 파일 단위 해시값을 메타데이터 헤더에 포함시키고 청크 단위 해시값을 메타데이터 페이로드에 포함시켜 해당 파일에 대한 메타데이터를 생성 또는 변경한다.

또한, 본 발명의 바람직한 실시예에 따르면, 상기 청크 단위 해시값과 파일 단위 해시값은 해시값 관리 테이블 형태로 메모리와 데이터베이스에 저장된다. 구체적으로, 청크 단위 해시값 관리 테이블은 해당 청크를 저장하고 있는 개별 저장 서버(개별 운영 서버)의 메모리에 저장되며, 파일 단위 해시값 관리 테이블은 파일 중복 제거 장치(파일 중복 제거 서버)의 메모리에 저장된다. 또한, 청크 단위 해시값 관리 테이블 및/또는 파일 단위 해시값 관리 테이블은 데이터베이스에 저장되며, 여기서 데이터베이스는 본 발명에 따른 파일 중복 제거 장치(파일 중복 제거 서버) 내에 구비되거나 별도의 데이터베이스 서버 형태로 구비될 수 있다. 그리고, 이와 같이 구현함으로써 파일 및/또는 청크의 해시값을 매번 검출할 필요가 없으며, 특히 파일 중복 제거 장치(파일 중복 제거 서버)의 재구동, 개별 저장 서버(개별 운용 서버)의 재구동, 데이터베이스 재설치 등 복구가 필요한 상황에서 해시값을 재검출할 필요가 없다.

한편, 본 발명에 따른 파일 중복 제거 장치에 있어 중복성 검사부(242, 322)는 현재 운용 중인 파일에 대해 전술한 해시 관리 테이블을 참조하여 중복성 검사를 수행한다.

예컨대, 중복성 검사부(242, 322)는 운용 중인 파일에 대해 파일 단위 해시값 및/또는 청크 단위 해시값을 근거로 상기 파일 단위 해시값 관리 테이블 및/또는 청크 단위 해시값 관리 테이블을 참조하여 중복 여부를 검토함으로써 해당 파일에 대해 1차적인 중복성을 검사한다(도 7의 단계 S710 참조). 이 경우, 중복성 검사부(242, 322)는 먼저 메모리를 참조하여 만약 해당 테이블이 있으면 중복성 검사를 신속하게 수행하게 되며, 만약 메모리에 해당 테이블이 없으면 데이터베이스를 참조하여 중복성 검사를 수행하게 된다. 그리고, 중복성 검사부(242, 322)는 만약 1차 중복성 검사 결과 동일한 파일 및/또는 청크로 판단되면, 해당 파일 및/또는 청크에 대해 비트 레벨로 비교하는 2차적인 중복성 검사를 수행할 수 있다(도 7의 단계 S720 참조). 여기서, 청크 단위 비교, 파일 단위 비교, 비트 레벨 비교 등의 설정은 시스템 관리자(운용자)에 의해 설정될 수 있으며, 청크의 크기도 물론 시스템 관리자에 의해 설정(변경)될 수 있다.

본 발명에 따른 파일 관리 장치에 있어 중복 파일 제거부(243, 323)는 중복성 검사부(242, 322)에서의 검사 결과 만약 중복된 파일로 판단되면 해당 파일을 제거한다(도 7의 단계 S730 참조). 여기서, 파일의 제거는 물론 파일 단위 및/또는 청크 단위로 수행될 수 있다.

파일의 중복 검사 및 제거와 관련하여, 본 발명의 바람직한 실시예에 따르 면, 파일 단위의 중복 검사 및 제거는 파일 중복 제거 장치(파일 중복 제거 서버)에서 수행되며(도 8 참조), 청크 단위의 중복 검사 및 제거는 개별 저장 서버(개별 운영 서버)에서 수행되도록 구현될 수 있다(도 9 참조). 즉, 본 발명에 따르면, 청크 단위의 중복 검사 및 제거를 해당 청크들을 저장하고 있는 개별 저장 서버가 자체적으로 수행하여 개별 저장 서버에 중복 저장된 청크들을 제거함으로써, 본 발명에 따른 파일 중복 제거 장치(서버)의 부하를 감소시켜 전체적인 시스템 성능을 향상시킬 수 있다. 여기서, 물론 서로 다른 저장 서버 간의 청크의 중복 제거는 파일 중복 제거 장치(서버)가 담당하는 것이 바람직하다(도 8 참조).

한편, 중복된 파일의 제거는 실제로 파일 또는 청크를 제거할 수도 있지만 파일의 청크 단위 포인터(pointer)를 생성, 변경, 삭제함으로써 수행될 수 있다. 예컨대, 파일의 생성 프로세스인 경우 해당 파일에 대해 중복 검사를 수행한 후 만약 중복된 파일이 있으면 해당 파일의 청크 단위 포인터를 변경하고 중복된 파일은 삭제한다. 그리고, 파일의 삭제 프로세스인 경우 해당 파일의 청크 단위 포인터만 삭제하며, 파일의 복사 프로세스인 경우 해당 파일의 청크 단위 포인터만 생성한다.

마지막으로, 도 5를 참조하면, 메타데이터 관리부(324)와 저장 장치 관리부(325)는 본 발명에 따른 파일 관리 장치가 메타데이터 서버로 구현된 경우 추가로 더 포함할 수 있는 구성요소를 나타낸 것이다.

이를 간단히 설명하면, 메타데이터 관리부(324)는 복수개의 저장 서버(운용 서버, 백업 서버)에 분산 저장되는 파일에 대한 메타데이터를 생성하여 관리하며, 저장 장치 관리부(325)는 복수개의 저장 서버에 대한 성능 및 용량 정보를 관리한다. 이에 따라, 본 발명에 따른 파일 중복 제거 장치는 메타데이터 관리부(324) 및/또는 저장 장치 관리부(325)와 연동하여 파일을 보다 효율적으로 관리할 수 있다.

한편, 본 발명에 따른 분산 저장 시스템에서 파일의 중복을 제거하는 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록매체를 통하여 실시될 수 있다. 상기 컴퓨터 판독가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명의 기술적 사상이나 필수적 특징들을 변경하지 않고서 다른 구체적인 다양한 형태로 실시할 수 있는 것이므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.

그리고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 특정되는 것이며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

도 1은 종래기술에 따른 분산 저장 시스템의 구성도이다.

도 2는 본 발명의 일 실시예에 따른 분산 저장 시스템의 구성도이다.

도 3은 본 발명의 다른 실시예에 따른 분산 저장 시스템의 구성도이다.

도 4는 본 발명의 일 실시예에 따른 파일 중복 제거 장치의 상세 구성도이다.

도 5는 본 발명의 다른 실시예에 따른 파일 중복 제거 장치의 상세 구성도이다.

도 6은 본 발명의 일 실시예에 따른 파일 중복 제거 방법의 흐름도이다.

도 7은 본 발명의 다른 실시예에 따른 파일 중복 제거 방법의 흐름도이다.

도 8은 파일 중복 제거 장치(서버)에서 파일 단위의 중복 제거 및/또는 개별 저장 서버 간 청크 단위의 중복 제거를 수행하는 것을 설명하는 도면이다.

도 9는 개별 저장 서버 내에서 청크 단위의 중복 제거를 수행하는 것을 설명하는 도면이다.

Claims

분산 저장 시스템에서 파일의 중복을 제거하는 장치로서,

액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 핑거프린팅부;

상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성을 검사하는 중복성 검사부; 및

상기 검사 결과 중복된 파일을 제거하는 중복 파일 제거부를 포함하고,

상기 중복성 검사부는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 하는 파일 중복 제거 장치.
삭제
제1항에 있어서,

상기 청크 별로 산출된 1차 해시값은 청크 헤더 및 메타데이터 페이로드에 저장되고, 상기 파일 단위의 2차 해시값은 메타데이터 헤더에 저장되는 것을 특징으로 하는 파일 중복 제거 장치.
제1항 또는 제3항에 있어서,

상기 청크 별로 산출된 1차 해시값은 청크 단위 해시값 관리 테이블 형태로, 상기 파일 단위의 2차 해시값은 파일 단위 해시값 관리 테이블 형태로 메모리 및 데이터베이스 중 적어도 하나에 저장되는 것을 특징으로 하는 파일 중복 제거 장치.
제4항에 있어서,

상기 중복성 검사부는 상기 메모리를 1차적으로 참조하고 상기 데이터베이스를 2차적으로 참조하여 1차 중복성 검사를 수행하는 것을 특징으로 하는 파일 중복 제거 장치.
제1항 또는 제3항에 있어서,

상기 중복 파일 제거부는 파일 단위 또는 청크(chunk) 단위로 중복 파일을 제거하는 것을 특징으로 하는 파일 중복 제거 장치.
제6항에 있어서,

상기 중복 파일 제거부는 청크 단위 포인터(pointer)의 생성, 변경, 삭제 중 적어도 하나를 수행하여 중복 파일을 제거하는 것을 특징으로 하는 파일 중복 제거 장치.
제1항 또는 제3항에 있어서,

상기 파일에 대한 메타데이터를 관리하는 메타데이터 관리부를 더 포함하는 것을 특징으로 하는 파일 중복 제거 장치.
파일을 분산 저장하기 위한 복수개의 저장 서버; 및

상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하는 분산 저장 시스템에 있어서,

상기 메타데이터 서버는 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하며, 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행한 후, 상기 검사 결과 중복된 파일을 제거하며,

상기 중복성 검사는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나가 수행되어 1차 중복성 검사가 수행되고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사가 수행된 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사가 수행되는 것을 특징으로 하는 분산 저장 시스템.
제9항에 있어서,

상기 메타데이터 서버는 상기 청크 별로 산출된 1차 해시값을 메타데이터 페이로드에 저장하고, 상기 파일 단위의 2차 해시값을 메타데이터 헤더에 저장하는 것을 특징으로 하는 분산 저장 시스템.
삭제
제9항 또는 제10항에 있어서,

상기 메타데이터 서버는 파일 단위 중복성 검사 및 제거를 수행하고, 상기 저장 서버는 개별적으로 청크 단위 중복성 검사 및 제거를 수행하는 것을 특징으로 하는 분산 저장 시스템.
제9항 또는 제10항에 있어서,

상기 청크 별로 산출된 1차 해시값을 청크 단위 해시값 관리 테이블 형태로, 상기 파일 단위의 2차 해시값을 파일 단위 해시값 관리 테이블 형태로 저장하는 데이터베이스를 더 포함하는 것을 특징으로 하는 분산 저장 시스템.
분산 저장 시스템에서 파일의 중복을 제거하는 방법으로서,

액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하는 단계;

상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 단계;

상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행하는 단계; 및

상기 검사 결과 중복된 파일을 제거하는 단계를 포함하고,

상기 중복성 검사를 수행하는 단계는, 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 하는 파일 중복 제거 방법.
삭제
제14항에 있어서,

상기 중복된 파일을 제거하는 단계는 청크 단위 포인터(pointer)를 생성하는 과정, 청크 단위 포인터를 변경하는 과정, 청크 단위 포인터를 삭제하는 과정 중 적어도 하나를 수행하는 것을 특징으로 하는 파일 중복 제거 방법.
제14항 또는 제16항에 있어서,

상기 청크 별로 산출된 1차 해시값은 청크 헤더 및 메타데이터 페이로드에 저장되고, 상기 파일 단위의 2차 해시값은 메타데이터 헤더에 저장되는 것을 특징으로 하는 파일 중복 제거 방법.
제14항 또는 제16항에 따른 파일 중복 제거 방법을 수행하는 프로그램이 기록된 컴퓨터 판독가능 기록매체.