KR100985169B1 - 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법 - Google Patents

분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법 Download PDF

Info

Publication number
KR100985169B1
KR100985169B1 KR1020090113516A KR20090113516A KR100985169B1 KR 100985169 B1 KR100985169 B1 KR 100985169B1 KR 1020090113516 A KR1020090113516 A KR 1020090113516A KR 20090113516 A KR20090113516 A KR 20090113516A KR 100985169 B1 KR100985169 B1 KR 100985169B1
Authority
KR
South Korea
Prior art keywords
file
chunk
unit
hash value
redundancy check
Prior art date
Application number
KR1020090113516A
Other languages
English (en)
Inventor
김경수
천재범
김주현
신봉식
진봉주
김형철
김영규
최선
이구용
Original Assignee
(주)피스페이스
김경수
천재범
김주현
이구용
진봉주
김형철
김영규
최선
신봉식
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)피스페이스, 김경수, 천재범, 김주현, 이구용, 진봉주, 김형철, 김영규, 최선, 신봉식 filed Critical (주)피스페이스
Priority to KR1020090113516A priority Critical patent/KR100985169B1/ko
Application granted granted Critical
Publication of KR100985169B1 publication Critical patent/KR100985169B1/ko
Priority to PCT/KR2010/007764 priority patent/WO2011062387A2/ko
Priority to CN2010800467273A priority patent/CN102834803A/zh
Priority to US13/500,046 priority patent/US20120191675A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법에 관한 것이다.
본 발명에 따른 분산 저장 시스템에서의 파일 중복 제거 장치 및 방법은, 액티브 파일(active file)에 대해 청크(chunk) 별로 해시값을 산출하고, 상기 청크 별로 산출된 해시값을 합하여 2차 해시값을 산출하며, 상기 청크 별 해시값 및 2차 해시값을 이용하여 파일의 중복성을 검사한 후, 상기 검사 결과 중복된 파일을 제거하는 것을 특징으로 한다.

Description

분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법 {Apparatus and method for file deduplication in distributed storage system}
본 발명은 분산 저장 시스템(DSS; Distributed Storage System)에서 파일의 중복을 제거하는 장치 및 방법에 관한 것으로, 보다 상세하게는 분산 저장 시스템의 시스템 운용 과정에서 해시 알고리즘, 비트 레벨 비교 등을 이용하여 액티브 파일(active file)의 중복 검사를 실시하고 파일의 중복을 제거하는 장치 및 방법에 관한 것이다.
분산 저장 시스템(Distributed Storage System) 또는 병렬 저장 시스템(Parallel Storage System)은 여러 대의 저장 장치를 1대의 저장 장치로 가상화시킨 저장 시스템이다. 이러한 분산 저장 시스템에서는 1개의 파일을 저장할 때 1대의 저장 장치에 저장하지 않고 가상화되어 있는 여러 대의 저장 장치에 나누어 저장하고 사용한다.
기존의 RAID(Redundant Array of Inexpensive Devices) 저장 장치가 여러 개의 하드 디스크를 하나의 저장 장치로 통합하면서 더 크고, 더 빠르고, 더 안정적인 저장 장치로 구성하듯이, 분산 저장 시스템도 여러 대의 저장 장치를 1대의 저 장 장치로 구성하여 더 크고, 더 빠르고, 더 안정적인 저장 시스템 기능을 제공 할 수 있다.
이러한 분산 저장 시스템 기술은 클라우드 컴퓨팅(Cloud Computing) 등에서 핵심적인 기술로 이용되며, 분산 저장 시스템을 구성하는 저장 장치의 수량이 증가하면 증가할수록 용량과 성능도 비례하여 증가하고 전체 소유 비용(Total Cost of Owner-ship)의 비용 대비 효과를 극대화시켜 주기 때문에, 기존의 저장 시스템이 제공하지 못하는 높은 수준의 성능과 확장성을 제공할 수 있다.
이와 관련하여, 도 1은 종래기술에 따른 분산 저장 시스템의 구성을 예시한 것이다.
도 1을 참고하면, 일반적으로 분산 저장 시스템은 각각의 파일을 여러 개로 나누어 분산 저장하는 복수개의 저장 서버(이는 가상적인 하나의 저장 서버에 해당됨)(110)와 이들 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(120) 등으로 구성되며, 적어도 하나의 클라이언트(130)가 네트워크 등을 통해 소정 파일의 입/출력을 요청하면 메타데이터 서버(120)가 해당 파일이 분산 저장될/저장되어 있는 저장 서버들(110)의 정보를 제공하고 이에 클라이언트(130)가 이들 저장 서버(110)에 접속하여 해당 파일의 입/출력을 수행함으로써 서비스가 이루어진다. (참고로, 본 발명에서 '파일'이라는 용어는 클라이언트에 의해 조회 또는 요청되는 내용을 의미하는 것으로, 이는 파일, 데이터, 컨텐츠, 청크(chunk) 등을 포함하는 의미이다.)
한편, 이러한 분산 저장 시스템에서는 파일들을 효율적으로 관리하기 위하여 복수개의 저장 서버를 운용 서버와 백업 서버로 구분하고, 현재 운용 중인 액티브(active) 파일(데이터, 컨텐츠)은 성능이 좋은 운용 서버에 저장하고 현재 운용하지 않는 백업(backup) 파일은 다소 성능이 떨어지는 백업 서버에 보관함으로써 한정된 저장 매체를 효율적으로 이용한다.
그러나, 종래기술에 따른 파일 관리 방법은 실제 운용 시스템에서 파일의 중복 검사를 수행하지 않고 운용 서버에 저장하여 운용하기 때문에 중복된 파일로 인해 스토리지(storage) 증설과 시스템 증설 등이 필요하며, 이에 따라 시스템 설비 비용이 증가하고 시스템 운용에 필요한 인력 및 운용 비용 또한 증가하는 문제점이 있었다.
그리고, 백업(Backup), ILM(Information Lifecycle Management), 원격 동기화(Remote Synchronization), 미러(Mirror), 아카이브(Archive), 복제(Replication) 등의 시스템 연계 시에도 중복된 파일이 이동하게 되어 개별 시스템의 저장 공간을 낭비하고 네트워크 자원을 낭비하는 문제점이 있었다.
본 발명은 전술한 바와 같은 문제점을 해결하기 위해 창안된 것으로, 본 발명의 목적은 분산 저장 시스템에서 해시 알고리즘, 자체 알고리즘과 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 등을 이용하여 액티브 파일(active file)의 중복 검사를 실시하고 파일의 중복을 제거하는 장치 및 방법을 제공하는 것이다.
본 발명의 다른 목적은, 시스템 운용 과정에서 중복 파일(데이터, 컨텐츠)을 제거하여 중복된 파일로 인해 스토리지 증설과 시스템 증설 등이 불필요하게 발생하는 것을 방지하는 파일 중복 제거 장치 및 방법을 제공하는 것이다.
본 발명의 또 다른 목적은, 백업(Backup), ILM(Information Lifecycle Management), 원격 동기화(Remote Synchronization), 미러(Mirror), 아카이브(Archive), 복제(Replication) 등의 시스템 연계 시 중복된 파일을 전송하지 않게 하여 개별 시스템의 불필요한 스토리지 증설과 네트워크 자원 낭비를 방지하는 파일 중복 제거 장치 및 방법을 제공하는 것이다.
본 발명의 또 다른 목적은, 분산 저장 시스템에서 파일의 중복을 검사 및 제거할 때 여러 가지 형식의 해시 알고리즘을 지원할 수 있으며, 파일 단위 및/또는 청크(chunk) 단위로 파일의 중복 검사 및 제거가 가능하고, 시스템 전체, 볼륨(volumn) 별, 연계 시스템 별로 파일의 중복 검사 및 제거가 가능한 장치 및 방법을 제공하는 것이다.
본 발명의 또 다른 목적은, 전술한 바와 같은 파일 중복 제거 장치 및 방법 을 효율적으로 이용하는 분산 저장 시스템을 제공하는 것이다.
상기 목적을 위하여, 본 발명의 일 형태에 따른 분산 저장 시스템에서의 파일 중복 제거 장치는, 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 핑거프린팅부; 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성을 검사하는 중복성 검사부; 및 상기 검사 결과 중복된 파일을 제거하는 중복 파일 제거부를 포함하고, 상기 중복성 검사부는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 한다.
그리고, 본 발명의 일 형태에 따른 분산 저장 시스템은, 파일을 분산 저장하기 위한 복수개의 저장 서버; 및 상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하는 분산 저장 시스템에 있어서, 상기 메타데이터 서버는 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하며, 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행한 후, 상기 검사 결과 중복된 파일을 제거하며, 상기 중복성 검사는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나가 수행되어 1차 중복성 검사가 수행되고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사가 수행된 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사가 수행되는 것을 특징으로 한다.
한편, 본 발명의 일 형태에 따른 분산 저장 시스템에서의 파일 중복 제거 방법은, 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하는 단계; 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 단계; 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행하는 단계; 및 상기 검사 결과 중복된 파일을 제거하는 단계를 포함하고, 상기 중복성 검사를 수행하는 단계는, 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 한다.
본 발명에 따르면, 분산 저장 시스템에서 해시 알고리즘, 자체 알고리즘과 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 등을 이용하여 액티브 파일(active file)의 중복 검사를 실시하고 파일의 중복을 제거하여 파일 관리를 효율적으로 수행할 수 있는 효과를 가진다.
그리고, 본 발명에 따르면, 시스템 운용 과정에서 중복 파일(데이터, 컨텐츠)을 제거함으로써 중복된 파일로 인해 스토리지 증설과 시스템 증설 등이 불필요하게 발생하는 것을 방지하여 비용을 절감하고 운용에 필요한 운용 인력, 운용 비용 등을 절감하는 효과를 가진다.
또한, 본 발명에 따르면, 실제 운용 시스템의 중복 파일(데이터, 컨텐츠)을 검사하여 백업(Backup), ILM(Information Lifecycle Management), 원격 동기화(Remote Synchronization), 미러(Mirror), 아카이브(Archive), 복제(Replication) 등의 시스템 연계 시 중복된 파일이 전송되지 않도록 함으로써 개별 시스템의 스토리지 낭비와 네트워크 자원의 낭비를 줄일 수 있는 효과를 가진다.
이하에서는 첨부 도면 및 바람직한 실시예를 참조하여 본 발명을 상세히 설명한다. 참고로, 하기 설명에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
먼저, 도 2는 본 발명의 일 실시예에 따른 분산 저장 시스템의 구성을 예시한 것이다.
도 2를 참고하면, 본 발명의 일 실시예에 따른 분산 저장 시스템은 각각의 파일을 여러 개로 나누어 분산 저장하는 복수개의 저장 서버(210), 상기 복수개의 저장 서버(210)에 저장되는 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(220), 그리고 현재 운용 중인 액티브 파일(active file)의 중복을 검사하여 중복된 파일을 제거하는 파일 중복 제거 장치(240) 등으로 구성된다. 여기서, 복수개의 저장 서버(210)는 운용 서버와 백업 서버로 구분하여 구현될 수 있으며, 이 경우 운용 서버는 상대적으로 고속의 저장 서버로 구현하고 백업 서버는 상대적으로 저속이며 대용량의 서버로 구현하는 것이 바람직하다. 그리고, 상기 파일 중복 제거 장치(240)는 시스템 운용 단계에서 액티브 파일의 중복을 검사하여 중복된 파일을 제거함으로써, 스토리지 및 네트워크 자원의 낭비를 방지하고 효율적인 파일 관리와 경제적인 디스크 관리를 수행하여 전체 시스템 성능을 향상시킨다.
그리고, 도 3은 본 발명의 다른 실시예에 따른 분산 저장 시스템의 구성을 예시한 것이다.
도 3을 참고하면, 본 발명의 다른 실시예에 따른 분산 저장 시스템은 각각의 파일을 여러 개로 나누어 분산 저장하는 복수개의 저장 서버(310)와, 상기 복수개의 저장 서버(310)에 저장되는 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(320) 등으로 구성되며, 특히 상기 메타데이터 서버(320)는 본 발명에 따른 파일 중복 제거 장치의 기능을 포함함으로써, 현재 운용 중인 액티브 파일의 중복을 검사하여 중복된 파일을 제거하여 효율적인 파일 관리와 경제적인 디스크 관리를 수행한다.
부언하면, 본 발명에 따른 파일 중복 제거 장치는 분산 저장 시스템에서 별 도의 장치 또는 서버로 구성되거나(도 2 참조), 메타데이터 서버 자체 또는 일부로 구성되어(도 3 참조), 현재 운용 중인 액티브 파일의 중복을 검사하여 중복된 파일을 제거함으로써, 한정된 저장 매체를 효율적으로 활용하여 시스템 성능을 향상시킨다.
이와 관련하여, 도 4는 본 발명의 일 실시예에 따른 파일 중복 제거 장치의 상세 구성을 예시한 것으로, 도시된 바와 같이, 본 발명의 일 실시예에 따른 파일 중복 제거 장치(240)는 핑거프린팅부(241), 중복성 검사부(242), 중복 파일 제거부(243) 등을 포함하며, 이는 특히 도 2에 예시된 분산 저장 시스템에서 유용하게 적용될 수 있다.
그리고, 도 5는 본 발명의 다른 실시예에 따른 파일 관리 장치(320)의 상세 구성을 예시한 것으로, 도시된 바와 같이, 본 발명의 다른 실시예에 따른 파일 관리 장치(320)는 핑거프린팅부(321), 중복성 검사부(322), 중복 파일 제거부(323), 메타데이터 관리부(324), 저장 장치 관리부(325) 등을 포함하며, 이는 특히 도 3에 예시된 분산 저장 시스템에서 유용하게 적용될 수 있다.
한편, 도 6은 본 발명의 일 실시예에 따른 분산 저장 시스템에서의 파일 중복 제거 방법의 흐름도를 나타낸 것으로, 구체적으로는 운용 파일에 대해 청크 별로 해시값을 산출한 후 다시 청크별 해시값을 모두 합하여 2차 해시값을 산출함으로써 핑거프린팅을 수행하는 것을 나타낸 것이다.
그리고, 도 7은 본 발명의 다른 실시예에 따른 분산 저장 시스템에서의 파일 중복 제거 방법의 흐름도를 나타낸 것으로, 구체적으로는 파일의 생성, 삭제, 복사 프로세스 과정에서 액티브 파일에 대한 중복성 검사를 수행하여 중복된 파일을 제거하는 것을 나타낸 것이다.
이하에서는 도 2 내지 도 8을 참조하여 본 발명에 따른 분산 저장 시스템에서의 파일 중복 제거 장치 및 방법에 대해 상세 설명한다. 참고로, 하기 설명에서는 본 발명의 실시 형태가 다소 상이하더라도 실질적으로 동일하거나 유사한 구성 또는 기능에 대하여는 이를 구별하지 않고 함께 설명한다.
먼저, 도 4 및 도 5를 참조하면, 본 발명에 따른 파일 중복 제거 장치에 있어 핑거프린팅부(241, 321)는 분산 저장 시스템으로 유입되는 파일(데이터, 컨텐츠)에 대해 파일 단위 및/또는 청크(chunk) 단위로 해시값을 산출하여 핑거프린팅(fingerprinting)을 수행한다.
예컨대, 핑거프린팅부(241, 321)는 현재 운용 중인 액티브 파일에 대해 소정의 해시 알고리즘(예, MD2, MD4, MD5, SHA, SHA-1, RIPEMD160, DSS-1 등)을 이용하여 청크 단위로 해시값을 산출한다(도 6의 단계 S610 참조). 그리고, 핑거프린팅부(241, 321)는 해당 파일에 대해 청크 단위로 산출된 해시값을 모두 합한 후 소정의 해시 알고리즘을 이용하여 2차 해시값을 산출한다(도 6의 단계 S620 참조). 여기서, 2차 해시값은 파일 단위의 해시값이 되며, 단계 S610에서 사용된 해시 알고리즘과 단계 S620에서 사용된 해시 알고리즘은 동일 또는 상이한 알고리즘을 사용할 수 있다. 그리고, 핑거프린팅부(241, 321)는 이와 같이 산출된 청크 별 해시값과 2차 해시값을 메타데이터 서버, 저장 서버(운용 서버), 데이터베이스 등에 저장 한다(도 6의 단계 S630 참조).
단계 S630과 관련하여, 본 발명의 바람직한 실시예에 따르면, 청크 단위 해시값은 청크 헤더(header)와 메타데이터 페이로드(payload)에 포함되며, 파일 단위 해시값(2차 해시값)은 메타데이터 헤더에 포함되도록 구현된다. 구체적으로, 본 발명에 따른 파일 중복 제거 장치는 청크 단위 해시값과 파일 단위 해시값을 산출하여 메타데이터 서버로 전송하고, 메타데이터 서버는 파일 단위 해시값을 메타데이터 헤더에 포함시키고 청크 단위 해시값을 메타데이터 페이로드에 포함시켜 해당 파일에 대한 메타데이터를 생성 또는 변경한다.
또한, 본 발명의 바람직한 실시예에 따르면, 상기 청크 단위 해시값과 파일 단위 해시값은 해시값 관리 테이블 형태로 메모리와 데이터베이스에 저장된다. 구체적으로, 청크 단위 해시값 관리 테이블은 해당 청크를 저장하고 있는 개별 저장 서버(개별 운영 서버)의 메모리에 저장되며, 파일 단위 해시값 관리 테이블은 파일 중복 제거 장치(파일 중복 제거 서버)의 메모리에 저장된다. 또한, 청크 단위 해시값 관리 테이블 및/또는 파일 단위 해시값 관리 테이블은 데이터베이스에 저장되며, 여기서 데이터베이스는 본 발명에 따른 파일 중복 제거 장치(파일 중복 제거 서버) 내에 구비되거나 별도의 데이터베이스 서버 형태로 구비될 수 있다. 그리고, 이와 같이 구현함으로써 파일 및/또는 청크의 해시값을 매번 검출할 필요가 없으며, 특히 파일 중복 제거 장치(파일 중복 제거 서버)의 재구동, 개별 저장 서버(개별 운용 서버)의 재구동, 데이터베이스 재설치 등 복구가 필요한 상황에서 해시값을 재검출할 필요가 없다.
한편, 본 발명에 따른 파일 중복 제거 장치에 있어 중복성 검사부(242, 322)는 현재 운용 중인 파일에 대해 전술한 해시 관리 테이블을 참조하여 중복성 검사를 수행한다.
예컨대, 중복성 검사부(242, 322)는 운용 중인 파일에 대해 파일 단위 해시값 및/또는 청크 단위 해시값을 근거로 상기 파일 단위 해시값 관리 테이블 및/또는 청크 단위 해시값 관리 테이블을 참조하여 중복 여부를 검토함으로써 해당 파일에 대해 1차적인 중복성을 검사한다(도 7의 단계 S710 참조). 이 경우, 중복성 검사부(242, 322)는 먼저 메모리를 참조하여 만약 해당 테이블이 있으면 중복성 검사를 신속하게 수행하게 되며, 만약 메모리에 해당 테이블이 없으면 데이터베이스를 참조하여 중복성 검사를 수행하게 된다. 그리고, 중복성 검사부(242, 322)는 만약 1차 중복성 검사 결과 동일한 파일 및/또는 청크로 판단되면, 해당 파일 및/또는 청크에 대해 비트 레벨로 비교하는 2차적인 중복성 검사를 수행할 수 있다(도 7의 단계 S720 참조). 여기서, 청크 단위 비교, 파일 단위 비교, 비트 레벨 비교 등의 설정은 시스템 관리자(운용자)에 의해 설정될 수 있으며, 청크의 크기도 물론 시스템 관리자에 의해 설정(변경)될 수 있다.
본 발명에 따른 파일 관리 장치에 있어 중복 파일 제거부(243, 323)는 중복성 검사부(242, 322)에서의 검사 결과 만약 중복된 파일로 판단되면 해당 파일을 제거한다(도 7의 단계 S730 참조). 여기서, 파일의 제거는 물론 파일 단위 및/또는 청크 단위로 수행될 수 있다.
파일의 중복 검사 및 제거와 관련하여, 본 발명의 바람직한 실시예에 따르 면, 파일 단위의 중복 검사 및 제거는 파일 중복 제거 장치(파일 중복 제거 서버)에서 수행되며(도 8 참조), 청크 단위의 중복 검사 및 제거는 개별 저장 서버(개별 운영 서버)에서 수행되도록 구현될 수 있다(도 9 참조). 즉, 본 발명에 따르면, 청크 단위의 중복 검사 및 제거를 해당 청크들을 저장하고 있는 개별 저장 서버가 자체적으로 수행하여 개별 저장 서버에 중복 저장된 청크들을 제거함으로써, 본 발명에 따른 파일 중복 제거 장치(서버)의 부하를 감소시켜 전체적인 시스템 성능을 향상시킬 수 있다. 여기서, 물론 서로 다른 저장 서버 간의 청크의 중복 제거는 파일 중복 제거 장치(서버)가 담당하는 것이 바람직하다(도 8 참조).
한편, 중복된 파일의 제거는 실제로 파일 또는 청크를 제거할 수도 있지만 파일의 청크 단위 포인터(pointer)를 생성, 변경, 삭제함으로써 수행될 수 있다. 예컨대, 파일의 생성 프로세스인 경우 해당 파일에 대해 중복 검사를 수행한 후 만약 중복된 파일이 있으면 해당 파일의 청크 단위 포인터를 변경하고 중복된 파일은 삭제한다. 그리고, 파일의 삭제 프로세스인 경우 해당 파일의 청크 단위 포인터만 삭제하며, 파일의 복사 프로세스인 경우 해당 파일의 청크 단위 포인터만 생성한다.
마지막으로, 도 5를 참조하면, 메타데이터 관리부(324)와 저장 장치 관리부(325)는 본 발명에 따른 파일 관리 장치가 메타데이터 서버로 구현된 경우 추가로 더 포함할 수 있는 구성요소를 나타낸 것이다.
이를 간단히 설명하면, 메타데이터 관리부(324)는 복수개의 저장 서버(운용 서버, 백업 서버)에 분산 저장되는 파일에 대한 메타데이터를 생성하여 관리하며, 저장 장치 관리부(325)는 복수개의 저장 서버에 대한 성능 및 용량 정보를 관리한다. 이에 따라, 본 발명에 따른 파일 중복 제거 장치는 메타데이터 관리부(324) 및/또는 저장 장치 관리부(325)와 연동하여 파일을 보다 효율적으로 관리할 수 있다.
한편, 본 발명에 따른 분산 저장 시스템에서 파일의 중복을 제거하는 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록매체를 통하여 실시될 수 있다. 상기 컴퓨터 판독가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명의 기술적 사상이나 필수적 특징들을 변경하지 않고서 다른 구체적인 다양한 형태로 실시할 수 있는 것이므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.
그리고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 특정되는 것이며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 종래기술에 따른 분산 저장 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 분산 저장 시스템의 구성도이다.
도 3은 본 발명의 다른 실시예에 따른 분산 저장 시스템의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 파일 중복 제거 장치의 상세 구성도이다.
도 5는 본 발명의 다른 실시예에 따른 파일 중복 제거 장치의 상세 구성도이다.
도 6은 본 발명의 일 실시예에 따른 파일 중복 제거 방법의 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 파일 중복 제거 방법의 흐름도이다.
도 8은 파일 중복 제거 장치(서버)에서 파일 단위의 중복 제거 및/또는 개별 저장 서버 간 청크 단위의 중복 제거를 수행하는 것을 설명하는 도면이다.
도 9는 개별 저장 서버 내에서 청크 단위의 중복 제거를 수행하는 것을 설명하는 도면이다.

Claims (18)

  1. 분산 저장 시스템에서 파일의 중복을 제거하는 장치로서,
    액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 핑거프린팅부;
    상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성을 검사하는 중복성 검사부; 및
    상기 검사 결과 중복된 파일을 제거하는 중복 파일 제거부를 포함하고,
    상기 중복성 검사부는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 하는 파일 중복 제거 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 청크 별로 산출된 1차 해시값은 청크 헤더 및 메타데이터 페이로드에 저장되고, 상기 파일 단위의 2차 해시값은 메타데이터 헤더에 저장되는 것을 특징으로 하는 파일 중복 제거 장치.
  4. 제1항 또는 제3항에 있어서,
    상기 청크 별로 산출된 1차 해시값은 청크 단위 해시값 관리 테이블 형태로, 상기 파일 단위의 2차 해시값은 파일 단위 해시값 관리 테이블 형태로 메모리 및 데이터베이스 중 적어도 하나에 저장되는 것을 특징으로 하는 파일 중복 제거 장치.
  5. 제4항에 있어서,
    상기 중복성 검사부는 상기 메모리를 1차적으로 참조하고 상기 데이터베이스를 2차적으로 참조하여 1차 중복성 검사를 수행하는 것을 특징으로 하는 파일 중복 제거 장치.
  6. 제1항 또는 제3항에 있어서,
    상기 중복 파일 제거부는 파일 단위 또는 청크(chunk) 단위로 중복 파일을 제거하는 것을 특징으로 하는 파일 중복 제거 장치.
  7. 제6항에 있어서,
    상기 중복 파일 제거부는 청크 단위 포인터(pointer)의 생성, 변경, 삭제 중 적어도 하나를 수행하여 중복 파일을 제거하는 것을 특징으로 하는 파일 중복 제거 장치.
  8. 제1항 또는 제3항에 있어서,
    상기 파일에 대한 메타데이터를 관리하는 메타데이터 관리부를 더 포함하는 것을 특징으로 하는 파일 중복 제거 장치.
  9. 파일을 분산 저장하기 위한 복수개의 저장 서버; 및
    상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하는 분산 저장 시스템에 있어서,
    상기 메타데이터 서버는 액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하고, 상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하며, 상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행한 후, 상기 검사 결과 중복된 파일을 제거하며,
    상기 중복성 검사는 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나가 수행되어 1차 중복성 검사가 수행되고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사가 수행된 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사가 수행되는 것을 특징으로 하는 분산 저장 시스템.
  10. 제9항에 있어서,
    상기 메타데이터 서버는 상기 청크 별로 산출된 1차 해시값을 메타데이터 페이로드에 저장하고, 상기 파일 단위의 2차 해시값을 메타데이터 헤더에 저장하는 것을 특징으로 하는 분산 저장 시스템.
  11. 삭제
  12. 제9항 또는 제10항에 있어서,
    상기 메타데이터 서버는 파일 단위 중복성 검사 및 제거를 수행하고, 상기 저장 서버는 개별적으로 청크 단위 중복성 검사 및 제거를 수행하는 것을 특징으로 하는 분산 저장 시스템.
  13. 제9항 또는 제10항에 있어서,
    상기 청크 별로 산출된 1차 해시값을 청크 단위 해시값 관리 테이블 형태로, 상기 파일 단위의 2차 해시값을 파일 단위 해시값 관리 테이블 형태로 저장하는 데이터베이스를 더 포함하는 것을 특징으로 하는 분산 저장 시스템.
  14. 분산 저장 시스템에서 파일의 중복을 제거하는 방법으로서,
    액티브 파일(active file)에 대해 청크(chunk) 별로 1차 해시값을 산출하는 단계;
    상기 청크 별로 산출된 1차 해시값을 합하여 파일 단위의 2차 해시값을 산출하는 단계;
    상기 청크 별로 산출된 1차 해시값 및 상기 파일 단위의 2차 해시값을 이용하여 청크 단위 비교, 파일 단위 비교, 비트 단위 비교 중 적어도 하나를 수행하여 파일의 중복성 검사를 수행하는 단계; 및
    상기 검사 결과 중복된 파일을 제거하는 단계를 포함하고,
    상기 중복성 검사를 수행하는 단계는, 사용자가 1차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 청크 단위 비교 및 파일 단위 비교 중 적어도 하나를 수행하여 1차 중복성 검사를 수행하고, 사용자가 2차 중복성 검사 대상으로 설정한 파일 또는 청크에 대해 상기 1차 중복성 검사를 수행한 후 중복된 파일 또는 청크로 판단된 경우 비트 단위 비교를 수행하여 2차 중복성 검사를 수행하는 것을 특징으로 하는 파일 중복 제거 방법.
  15. 삭제
  16. 제14항에 있어서,
    상기 중복된 파일을 제거하는 단계는 청크 단위 포인터(pointer)를 생성하는 과정, 청크 단위 포인터를 변경하는 과정, 청크 단위 포인터를 삭제하는 과정 중 적어도 하나를 수행하는 것을 특징으로 하는 파일 중복 제거 방법.
  17. 제14항 또는 제16항에 있어서,
    상기 청크 별로 산출된 1차 해시값은 청크 헤더 및 메타데이터 페이로드에 저장되고, 상기 파일 단위의 2차 해시값은 메타데이터 헤더에 저장되는 것을 특징으로 하는 파일 중복 제거 방법.
  18. 제14항 또는 제16항에 따른 파일 중복 제거 방법을 수행하는 프로그램이 기록된 컴퓨터 판독가능 기록매체.
KR1020090113516A 2009-11-23 2009-11-23 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법 KR100985169B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020090113516A KR100985169B1 (ko) 2009-11-23 2009-11-23 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법
PCT/KR2010/007764 WO2011062387A2 (ko) 2009-11-23 2010-11-04 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법
CN2010800467273A CN102834803A (zh) 2009-11-23 2010-11-04 在分布式存储系统中去除文件的重复的装置及方法
US13/500,046 US20120191675A1 (en) 2009-11-23 2010-11-04 Device and method for eliminating file duplication in a distributed storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090113516A KR100985169B1 (ko) 2009-11-23 2009-11-23 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR100985169B1 true KR100985169B1 (ko) 2010-10-05

Family

ID=43134949

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090113516A KR100985169B1 (ko) 2009-11-23 2009-11-23 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법

Country Status (4)

Country Link
US (1) US20120191675A1 (ko)
KR (1) KR100985169B1 (ko)
CN (1) CN102834803A (ko)
WO (1) WO2011062387A2 (ko)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012086920A2 (ko) * 2010-12-24 2012-06-28 (주)케이티 내용 기반 중복 방지 기능을 가지는 분산 저장 시스템 및 그 오브젝트 저장 방법 및 컴퓨터에 의하여 독출가능한 저장 매체
WO2012173858A3 (en) * 2011-06-14 2013-04-25 Netapp, Inc. Hierarchical identification and mapping of duplicate data in a storage system
WO2012173859A3 (en) * 2011-06-14 2013-04-25 Netapp, Inc. Object-level identification of duplicate data in a storage system
US8495013B2 (en) 2010-12-24 2013-07-23 Kt Corporation Distributed storage system and method for storing objects based on locations
US8762352B2 (en) 2012-05-24 2014-06-24 International Business Machines Corporation Data depulication using short term history
US8775870B2 (en) 2010-12-22 2014-07-08 Kt Corporation Method and apparatus for recovering errors in a storage system
US8849756B2 (en) 2011-04-13 2014-09-30 Kt Corporation Selecting data nodes in distributed storage system
US9052962B2 (en) 2011-03-31 2015-06-09 Kt Corporation Distributed storage of data in a cloud storage system
KR101532283B1 (ko) * 2013-11-04 2015-06-30 인하대학교 산학협력단 Ssd 기반 raid 스토리지에서 데이터 및 패리티 디스크의 복합적 중복제거 방법
US9158460B2 (en) 2011-04-25 2015-10-13 Kt Corporation Selecting data nodes using multiple storage policies in cloud storage system
KR101620782B1 (ko) 2015-01-14 2016-05-13 한양대학교 에리카산학협력단 사전 데이터를 활용한 데이터 저장 방법 및 시스템
KR20170081504A (ko) * 2016-01-04 2017-07-12 한국전자통신연구원 암호 데이터의 중복 제거 방법 및 장치
US9888062B2 (en) 2010-12-24 2018-02-06 Kt Corporation Distributed storage system including a plurality of proxy servers and method for managing objects
CN108664555A (zh) * 2011-06-14 2018-10-16 慧与发展有限责任合伙企业 分布式文件系统中的去重复

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012053152A1 (ja) * 2010-10-19 2012-04-26 日本電気株式会社 ストレージシステム、データ管理装置、方法及びプログラム
CN102325167A (zh) * 2011-07-21 2012-01-18 杭州微元科技有限公司 一种网络文件传输的校验方法
US20130339605A1 (en) * 2012-06-19 2013-12-19 International Business Machines Corporation Uniform storage collaboration and access
GB2498238B (en) * 2012-09-14 2013-12-25 Canon Europa Nv Image duplication prevention apparatus and image duplication prevention method
CN103246730B (zh) * 2013-05-08 2016-08-10 网易(杭州)网络有限公司 文件存储方法和设备、文件发送方法和设备
US10496490B2 (en) 2013-05-16 2019-12-03 Hewlett Packard Enterprise Development Lp Selecting a store for deduplicated data
US10592347B2 (en) 2013-05-16 2020-03-17 Hewlett Packard Enterprise Development Lp Selecting a store for deduplicated data
US10296490B2 (en) 2013-05-16 2019-05-21 Hewlett-Packard Development Company, L.P. Reporting degraded state of data retrieved for distributed object
US9367562B2 (en) 2013-12-05 2016-06-14 Google Inc. Distributing data on distributed storage systems
KR101960339B1 (ko) * 2014-10-21 2019-03-20 삼성에스디에스 주식회사 파일 동기화 방법
US9732593B2 (en) 2014-11-05 2017-08-15 Saudi Arabian Oil Company Systems, methods, and computer medium to optimize storage for hydrocarbon reservoir simulation
CN108234542A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种机载文件网络化实现方法
US10235080B2 (en) * 2017-06-06 2019-03-19 Saudi Arabian Oil Company Systems and methods for assessing upstream oil and gas electronic data duplication
US10761743B1 (en) 2017-07-17 2020-09-01 EMC IP Holding Company LLC Establishing data reliability groups within a geographically distributed data storage environment
US10880040B1 (en) 2017-10-23 2020-12-29 EMC IP Holding Company LLC Scale-out distributed erasure coding
US10572191B1 (en) 2017-10-24 2020-02-25 EMC IP Holding Company LLC Disaster recovery with distributed erasure coding
CN108563649B (zh) * 2017-12-12 2021-12-07 南京富士通南大软件技术有限公司 基于GlusterFS分布式文件系统的离线去重方法
US10382554B1 (en) * 2018-01-04 2019-08-13 Emc Corporation Handling deletes with distributed erasure coding
US10579297B2 (en) 2018-04-27 2020-03-03 EMC IP Holding Company LLC Scaling-in for geographically diverse storage
US10594340B2 (en) 2018-06-15 2020-03-17 EMC IP Holding Company LLC Disaster recovery with consolidated erasure coding in geographically distributed setups
US11023130B2 (en) 2018-06-15 2021-06-01 EMC IP Holding Company LLC Deleting data in a geographically diverse storage construct
US10936196B2 (en) 2018-06-15 2021-03-02 EMC IP Holding Company LLC Data convolution for geographically diverse storage
US11436203B2 (en) 2018-11-02 2022-09-06 EMC IP Holding Company LLC Scaling out geographically diverse storage
US10901635B2 (en) 2018-12-04 2021-01-26 EMC IP Holding Company LLC Mapped redundant array of independent nodes for data storage with high performance using logical columns of the nodes with different widths and different positioning patterns
US11119683B2 (en) 2018-12-20 2021-09-14 EMC IP Holding Company LLC Logical compaction of a degraded chunk in a geographically diverse data storage system
US10931777B2 (en) 2018-12-20 2021-02-23 EMC IP Holding Company LLC Network efficient geographically diverse data storage system employing degraded chunks
US10892782B2 (en) 2018-12-21 2021-01-12 EMC IP Holding Company LLC Flexible system and method for combining erasure-coded protection sets
US11023331B2 (en) 2019-01-04 2021-06-01 EMC IP Holding Company LLC Fast recovery of data in a geographically distributed storage environment
US10942827B2 (en) 2019-01-22 2021-03-09 EMC IP Holding Company LLC Replication of data in a geographically distributed storage environment
US10936239B2 (en) 2019-01-29 2021-03-02 EMC IP Holding Company LLC Cluster contraction of a mapped redundant array of independent nodes
US10846003B2 (en) 2019-01-29 2020-11-24 EMC IP Holding Company LLC Doubly mapped redundant array of independent nodes for data storage
US10866766B2 (en) 2019-01-29 2020-12-15 EMC IP Holding Company LLC Affinity sensitive data convolution for data storage systems
US10942825B2 (en) 2019-01-29 2021-03-09 EMC IP Holding Company LLC Mitigating real node failure in a mapped redundant array of independent nodes
US11029865B2 (en) 2019-04-03 2021-06-08 EMC IP Holding Company LLC Affinity sensitive storage of data corresponding to a mapped redundant array of independent nodes
US10944826B2 (en) 2019-04-03 2021-03-09 EMC IP Holding Company LLC Selective instantiation of a storage service for a mapped redundant array of independent nodes
US11121727B2 (en) 2019-04-30 2021-09-14 EMC IP Holding Company LLC Adaptive data storing for data storage systems employing erasure coding
US11113146B2 (en) 2019-04-30 2021-09-07 EMC IP Holding Company LLC Chunk segment recovery via hierarchical erasure coding in a geographically diverse data storage system
US11119686B2 (en) 2019-04-30 2021-09-14 EMC IP Holding Company LLC Preservation of data during scaling of a geographically diverse data storage system
US11748004B2 (en) 2019-05-03 2023-09-05 EMC IP Holding Company LLC Data replication using active and passive data storage modes
US11209996B2 (en) 2019-07-15 2021-12-28 EMC IP Holding Company LLC Mapped cluster stretching for increasing workload in a data storage system
US11449399B2 (en) 2019-07-30 2022-09-20 EMC IP Holding Company LLC Mitigating real node failure of a doubly mapped redundant array of independent nodes
US11023145B2 (en) 2019-07-30 2021-06-01 EMC IP Holding Company LLC Hybrid mapped clusters for data storage
US11461229B2 (en) 2019-08-27 2022-10-04 Vmware, Inc. Efficient garbage collection of variable size chunking deduplication
US11775484B2 (en) 2019-08-27 2023-10-03 Vmware, Inc. Fast algorithm to find file system difference for deduplication
US11669495B2 (en) * 2019-08-27 2023-06-06 Vmware, Inc. Probabilistic algorithm to check whether a file is unique for deduplication
US11372813B2 (en) 2019-08-27 2022-06-28 Vmware, Inc. Organize chunk store to preserve locality of hash values and reference counts for deduplication
US11228322B2 (en) 2019-09-13 2022-01-18 EMC IP Holding Company LLC Rebalancing in a geographically diverse storage system employing erasure coding
US11449248B2 (en) 2019-09-26 2022-09-20 EMC IP Holding Company LLC Mapped redundant array of independent data storage regions
US11288139B2 (en) 2019-10-31 2022-03-29 EMC IP Holding Company LLC Two-step recovery employing erasure coding in a geographically diverse data storage system
US11119690B2 (en) 2019-10-31 2021-09-14 EMC IP Holding Company LLC Consolidation of protection sets in a geographically diverse data storage environment
US11435910B2 (en) 2019-10-31 2022-09-06 EMC IP Holding Company LLC Heterogeneous mapped redundant array of independent nodes for data storage
US11435957B2 (en) 2019-11-27 2022-09-06 EMC IP Holding Company LLC Selective instantiation of a storage service for a doubly mapped redundant array of independent nodes
US11144220B2 (en) 2019-12-24 2021-10-12 EMC IP Holding Company LLC Affinity sensitive storage of data corresponding to a doubly mapped redundant array of independent nodes
US11231860B2 (en) 2020-01-17 2022-01-25 EMC IP Holding Company LLC Doubly mapped redundant array of independent nodes for data storage with high performance
US11507308B2 (en) 2020-03-30 2022-11-22 EMC IP Holding Company LLC Disk access event control for mapped nodes supported by a real cluster storage system
US11288229B2 (en) 2020-05-29 2022-03-29 EMC IP Holding Company LLC Verifiable intra-cluster migration for a chunk storage system
US11693983B2 (en) 2020-10-28 2023-07-04 EMC IP Holding Company LLC Data protection via commutative erasure coding in a geographically diverse data storage system
US11847141B2 (en) 2021-01-19 2023-12-19 EMC IP Holding Company LLC Mapped redundant array of independent nodes employing mapped reliability groups for data storage
US11625174B2 (en) 2021-01-20 2023-04-11 EMC IP Holding Company LLC Parity allocation for a virtual redundant array of independent disks
US11354191B1 (en) 2021-05-28 2022-06-07 EMC IP Holding Company LLC Erasure coding in a large geographically diverse data storage system
US11449234B1 (en) 2021-05-28 2022-09-20 EMC IP Holding Company LLC Efficient data access operations via a mapping layer instance for a doubly mapped redundant array of independent nodes

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080101034A (ko) * 2007-05-15 2008-11-21 주식회사 코난테크놀로지 오디오 기반의 멀티미디어 파일 중복 검사와 관리를 위한시스템 및 방법
KR20090062747A (ko) * 2007-12-13 2009-06-17 한국전자통신연구원 파일 저장 시스템 및 파일 저장 시스템에서의 중복 파일관리 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4448719B2 (ja) * 2004-03-19 2010-04-14 株式会社日立製作所 ストレージシステム
US8140786B2 (en) * 2006-12-04 2012-03-20 Commvault Systems, Inc. Systems and methods for creating copies of data, such as archive copies
EP1712992A1 (en) * 2005-04-11 2006-10-18 Sony Ericsson Mobile Communications AB Updating of data instructions
KR20090012455A (ko) * 2007-07-30 2009-02-04 엘지전자 주식회사 디지털 기기에서의 파일 관리방법
US8515909B2 (en) * 2008-04-29 2013-08-20 International Business Machines Corporation Enhanced method and system for assuring integrity of deduplicated data
US20100088296A1 (en) * 2008-10-03 2010-04-08 Netapp, Inc. System and method for organizing data to facilitate data deduplication
WO2010045262A1 (en) * 2008-10-14 2010-04-22 Wanova Technologies, Ltd. Storage-network de-duplication
US8321648B2 (en) * 2009-10-26 2012-11-27 Netapp, Inc Use of similarity hash to route data for improved deduplication in a storage server cluster

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080101034A (ko) * 2007-05-15 2008-11-21 주식회사 코난테크놀로지 오디오 기반의 멀티미디어 파일 중복 검사와 관리를 위한시스템 및 방법
KR20090062747A (ko) * 2007-12-13 2009-06-17 한국전자통신연구원 파일 저장 시스템 및 파일 저장 시스템에서의 중복 파일관리 방법

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775870B2 (en) 2010-12-22 2014-07-08 Kt Corporation Method and apparatus for recovering errors in a storage system
WO2012086920A3 (ko) * 2010-12-24 2012-09-07 (주)케이티 내용 기반 중복 방지 기능을 가지는 분산 저장 시스템 및 그 오브젝트 저장 방법 및 컴퓨터에 의하여 독출가능한 저장 매체
US9888062B2 (en) 2010-12-24 2018-02-06 Kt Corporation Distributed storage system including a plurality of proxy servers and method for managing objects
US8495013B2 (en) 2010-12-24 2013-07-23 Kt Corporation Distributed storage system and method for storing objects based on locations
WO2012086920A2 (ko) * 2010-12-24 2012-06-28 (주)케이티 내용 기반 중복 방지 기능을 가지는 분산 저장 시스템 및 그 오브젝트 저장 방법 및 컴퓨터에 의하여 독출가능한 저장 매체
US9052962B2 (en) 2011-03-31 2015-06-09 Kt Corporation Distributed storage of data in a cloud storage system
US8849756B2 (en) 2011-04-13 2014-09-30 Kt Corporation Selecting data nodes in distributed storage system
US9158460B2 (en) 2011-04-25 2015-10-13 Kt Corporation Selecting data nodes using multiple storage policies in cloud storage system
WO2012173859A3 (en) * 2011-06-14 2013-04-25 Netapp, Inc. Object-level identification of duplicate data in a storage system
US9043292B2 (en) 2011-06-14 2015-05-26 Netapp, Inc. Hierarchical identification and mapping of duplicate data in a storage system
CN108664555A (zh) * 2011-06-14 2018-10-16 慧与发展有限责任合伙企业 分布式文件系统中的去重复
US9292530B2 (en) 2011-06-14 2016-03-22 Netapp, Inc. Object-level identification of duplicate data in a storage system
WO2012173858A3 (en) * 2011-06-14 2013-04-25 Netapp, Inc. Hierarchical identification and mapping of duplicate data in a storage system
US8762352B2 (en) 2012-05-24 2014-06-24 International Business Machines Corporation Data depulication using short term history
US8788468B2 (en) 2012-05-24 2014-07-22 International Business Machines Corporation Data depulication using short term history
KR101532283B1 (ko) * 2013-11-04 2015-06-30 인하대학교 산학협력단 Ssd 기반 raid 스토리지에서 데이터 및 패리티 디스크의 복합적 중복제거 방법
KR101620782B1 (ko) 2015-01-14 2016-05-13 한양대학교 에리카산학협력단 사전 데이터를 활용한 데이터 저장 방법 및 시스템
KR20170081504A (ko) * 2016-01-04 2017-07-12 한국전자통신연구원 암호 데이터의 중복 제거 방법 및 장치
US10025811B2 (en) 2016-01-04 2018-07-17 Electronics And Telecommunications Research Institute Method and apparatus for deduplicating encrypted data
KR102450295B1 (ko) 2016-01-04 2022-10-04 한국전자통신연구원 암호 데이터의 중복 제거 방법 및 장치

Also Published As

Publication number Publication date
US20120191675A1 (en) 2012-07-26
WO2011062387A2 (ko) 2011-05-26
WO2011062387A3 (ko) 2011-09-09
CN102834803A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
KR100985169B1 (ko) 분산 저장 시스템에서 파일의 중복을 제거하는 장치 및 방법
US9703803B2 (en) Replica identification and collision avoidance in file system replication
US8285957B1 (en) System and method for preprocessing a data set to improve deduplication
US8484164B1 (en) Method and system for providing substantially constant-time execution of a copy operation
US9396073B2 (en) Optimizing restores of deduplicated data
US8402063B2 (en) Restoring data backed up in a content addressed storage (CAS) system
US9047304B2 (en) Optimization of fingerprint-based deduplication
JP5918243B2 (ja) 分散型データベースにおいてインテグリティを管理するためのシステム及び方法
US8285689B2 (en) Distributed file system and data block consistency managing method thereof
JP5516575B2 (ja) データ挿入システム
KR102187127B1 (ko) 데이터 연관정보를 이용한 중복제거 방법 및 시스템
US20080270436A1 (en) Storing chunks within a file system
JP2013544386A5 (ko)
WO2011006859A1 (en) An integrated approach for deduplicating data in a distributed environment that involves a source and a target
US10242021B2 (en) Storing data deduplication metadata in a grid of processors
WO2012079967A2 (en) Replicating data
US8621166B1 (en) Efficient backup of multiple versions of a file using data de-duplication
US9361302B1 (en) Uniform logic replication for DDFS
Tan et al. SAFE: A source deduplication framework for efficient cloud backup services
US10592527B1 (en) Techniques for duplicating deduplicated data
KR20170116354A (ko) 인-메모리 db 환경에서 데이터 접근 빈도에 따른 가변 복제 방법
KR20180088991A (ko) 파일 데이터의 중복 저장 방지 방법

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130731

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140711

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150708

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160722

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170711

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee