KR102050723B1 - 컴퓨팅 시스템 및 그 데이터 관리 방법 - Google Patents

컴퓨팅 시스템 및 그 데이터 관리 방법 Download PDF

Info

Publication number
KR102050723B1
KR102050723B1 KR1020120109190A KR20120109190A KR102050723B1 KR 102050723 B1 KR102050723 B1 KR 102050723B1 KR 1020120109190 A KR1020120109190 A KR 1020120109190A KR 20120109190 A KR20120109190 A KR 20120109190A KR 102050723 B1 KR102050723 B1 KR 102050723B1
Authority
KR
South Korea
Prior art keywords
node
area
block
checkpointing
data
Prior art date
Application number
KR1020120109190A
Other languages
English (en)
Other versions
KR20140042430A (ko
Inventor
황주영
김재극
이창만
이철
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020120109190A priority Critical patent/KR102050723B1/ko
Priority to US14/038,953 priority patent/US9336095B2/en
Publication of KR20140042430A publication Critical patent/KR20140042430A/ko
Application granted granted Critical
Publication of KR102050723B1 publication Critical patent/KR102050723B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/16Protection against loss of memory contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Abstract

컴퓨팅 시스템 및 그 데이터 관리 방법이 제공된다. 상기 컴퓨팅 시스템의 데이터 관리 방법은 체크포인팅(checkpointing)를 수행하고, 상기 체크포인팅 후에, 다수의 노드를 순차적 라이트(sequential write) 방식으로 다수의 노드 블록에 라이트하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하고, 복구(recovery) 동작시, 상기 위치 정보를 이용하여 상기 다수의 노드 블록을 스캔하여 복구가 필요한 노드를 선별하는 것을 포함할 수 있다.

Description

컴퓨팅 시스템 및 그 데이터 관리 방법{Computing system and data management method thereof}
본 발명은 컴퓨팅 시스템 및 그 데이터 관리 방법에 관한 것이다.
파일시스템이 스토리지 장치에 파일을 저장하고자 할 때, 파일데이터와 메타데이터를 스토리지 장치에 저장한다. 파일데이터는 사용자 어플리케이션이 저장하고자 하는 파일의 내용을 포함하고, 메타데이터는 파일의 속성과 파일데이터가 저장되는 블록의 위치 등을 포함한다. 또한, 파일시스템이 스토리지 장치로부터 파일을 리드하고자 할 때, 저장되어 있는 파일데이터와 메타데이터를 스토리지 장치로부터 리드하여야 한다.
한편, 파일시스템은 갑작스런 파워 오프(sudden power off) 등을 지원하기 위해, 체크포인팅 기능을 지원할 수 있다. 이러한 체크포인팅 기능을 이용하여, 전원이 갑작스럽게 꺼진 후 다시 전원이 인가되었을 때, 파일시스템은 컨시스턴시(consistency)를 빠르게 보장할 수 있다.
본 발명이 해결하려는 과제는, 갑작스런 파워 오프시 빠른 복구가 가능한 컴퓨팅 시스템의 데이터 관리 방법을 제공하는 것이다.
본 발명이 해결하려는 다른 과제는, 갑작스런 파워 오프시 빠른 복구가 가능한 컴퓨팅 시스템을 제공하는 것이다.
본 발명이 해결하려는 또 다른 과제는, 갑작스런 파워 오프시 빠른 복구가 가능한 스토리지 장치를 제공하는 것이다.
본 발명이 해결하려는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 본 발명의 컴퓨팅 시스템의 일 면(aspect)은 체크포인팅(checkpointing)를 수행하고, 상기 체크포인팅 후에, 다수의 노드를 순차적 라이트(sequential write) 방식으로 다수의 노드 블록에 라이트하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하고, 복구(recovery) 동작시, 상기 위치 정보를 이용하여 상기 다수의 노드 블록을 스캔하여 복구가 필요한 노드를 선별하는 것을 포함할 수 있다.
여기서, 상기 다수의 노드 중 적어도 하나의 노드는, 관련된 데이터가 에프싱크 명령에 따라 라이트되었는지를 나타내는 에프싱크 마크(fsync mark)를 더 포함할 수 있다. 상기 에프싱크 마크를 포함하는 노드를 에프싱크 노드라고 하고, 상기 에프싱크 노드와 관련된 아이노드를 에프싱크 아이노드라 할 때, 상기 복구가 필요한 노드는, 상기 다수의 노드 중에서 상기 에프싱크 아이노드에 포함되는 적어도 하나의 노드일 수 있다.
상기 다수의 노드는 페어런트 아이노드 번호(parent inode number)와 파일명(filename)을 포함할 수 있다. 상기 페어런트 아이노드 번호와 상기 파일명을 이용하여, 상기 복구가 필요한 노드의 디렉토리(directory)를 복구하는 것을 더 포함할 수 있다.
상기 체크포인팅을 수행할 때, 마지막으로 사용된 노드를 체크포인팅 노드(checkpointing node)라고 할 때, 상기 체크포인팅 노드와, 상기 복구가 필요한 노드를 비교하여, 차이점을 찾아내고, 상기 체크포인팅 노드에 상기 차이점을 반영하는 것을 포함할 수 있다.
상기 체크포인트를 수행하는 것은, 체크포인트 블록, 데이터 세그먼트 요약(data segment summary) 블록 및 저널(journal) 블록을 포함하는 체크포인트를 생성할 수 있다. 상기 데이터 세그먼트 요약 블록 내에 노드 어드레스 테이블(node address table)과 세그먼트 정보 테이블(segment information table)의 변경사항이 저장될 수 있다. 상기 체크포인트가 저장될 수 있는 2개의 영역이 있고, 상기 체크포인팅를 수행할 때마다, 상기 체크포인트가 상기 2개의 영역에 교대로 저장될 수 있다.
스토리지 장치는 서로 구분되는 제1 영역과 제2 영역을 포함하고, 상기 제1 영역은 랜덤 라이트(random write) 방식으로 사용되는 영역이고, 상기 제2 영역은 순차적 라이트(sequential write) 방식으로 사용되는 영역이고, 상기 체크포인팅를 수행함으로써 생성된 체크포인트는 상기 제1 영역에 저장되고, 상기 다수의 노드 블록은 상기 제2 영역에 저장될 수 있다.
상기 과제를 해결하기 위한 본 발명의 컴퓨팅 시스템의 일 면(aspect)은 제1 영역과 제2 영역을 포함하는 스토리지 장치; 및 상기 스토리지 장치를 제어하는 호스트 장치를 포함하되, 상기 호스트 장치는 상기 제1 영역에는 체크포인트를 저장하고, 상기 제2 영역의 다수의 데이터 블록에 다수의 데이터를 저장하고, 상기 제2 영역의 다수의 노드 블록에 상기 다수의 데이터와 연관된 다수의 노드를 저장하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하고, 복구(recovery) 동작시, 상기 위치 정보를 이용하여 상기 다수의 노드 블록을 스캔하여 복구가 필요한 노드를 선별할 수 있다.
상기 다수의 노드 중 적어도 하나의 노드는, 관련된 데이터가 에프싱크 명령에 따라 라이트되었는지를 나타내는 에프싱크 마크(fsync mark)를 더 포함할 수 있다. 상기 에프싱크 마크를 포함하는 노드를 에프싱크 노드라고 하고, 상기 에프싱크 노드와 관련된 아이노드를 에프싱크 아이노드라 할 때, 상기 복구가 필요한 노드는, 상기 다수의 노드 중에서 상기 에프싱크 아이노드에 포함되는 적어도 하나의 노드일 수 있다.
상기 다수의 노드는 페어런트 아이노드 번호(parent inode number)와 파일명(filename)을 포함할 수 있다. 상기 호스트 장치는 상기 페어런트 아이노드 번호와 상기 파일명을 이용하여, 상기 복구가 필요한 노드의 디렉토리(directory)를 복구하는 것을 더 포함할 수 있다.
상기 체크포인트를 수행하는 것은, 체크포인트 블록, 데이터 세그먼트 요약(data segment summary) 블록 및 저널(journal) 블록을 포함하는 체크포인트를 생성할 수 있다. 상기 데이터 세그먼트 요약 블록 내에 노드 어드레스 테이블(node address table)와 세그먼트 정보 테이블(segment information table)의 변경사항이 저장될 수 있다.
상기 제1 영역은 랜덤 라이트(random write) 방식으로 사용되는 영역이고, 상기 제2 영역은 순차적 라이트(sequential write) 방식으로 사용되는 영역일 수 있다.
상기 과제를 해결하기 위한 본 발명의 컴퓨팅 시스템의 다른 면(aspect)은 스토리지 장치를 관리하는 파일 시스템(filesystem)을 포함하는 컴퓨팅 시스템에 있어서, 상기 파일 시스템은 체크포인팅(checkpointing)를 수행하여 상기 스토리지 장치 내에 체크포인트를 라이트하고, 다수의 노드를 순차적 라이트(sequential write) 방식으로 상기 스토리지 장치 내의 다수의 노드 블록에 라이트하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하고, 복구(recovery) 동작을 수행하되, 상기 위치 정보를 이용하여 상기 다수의 노드 블록을 스캔하여 복구가 필요한 노드를 선별하는 것을 포함할 수 있다.
상기 과제를 해결하기 위한 본 발명의 스토리지 장치의 일 면(aspect)은 랜덤 라이트(random write) 방식으로 사용되는 제1 영역; 순차적 라이트(sequential write) 방식으로 사용되는 제2 영역; 상기 제1 영역에 저장된 체크포인트; 상기 제2 영역의 데이터 블록에 저장된 다수의 데이터; 상기 제2 영역의 노드 블록에 저장되고, 상기 다수의 데이터와 연관된 다수의 노드(node)를 포함하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 컴퓨팅 시스템을 설명하기 위한 블록도이다.
도 2는 도 1의 호스트를 설명하기 위한 블록도이다.
도 3은 도 1의 스토리지 장치를 설명하기 위한 블록도이다.
도 4는 도 1의 스토리지 장치에 저장되는 파일의 구조를 설명하기 위한 도면이다.
도 5는 도 1의 스토리지 장치를 설명하기 위한 블록도이다.
도 6은 노드 어드레스 테이블을 설명하기 위한 도면이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 데이터 관리 방법을 설명하기 위한 개념도이다.
도 9a 내지 도 9c는 도 1의 스토리지 장치의 다른 구성예들을 설명하기 위한 블록도이다.
도 10은 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용되는 체크포인트의 예시적 구조를 설명하기 위한 블록도이다.
도 11은 체크포인트의 데이터 세그먼트 요약 블록의 예시적 구조를 설명하기 위한 블록도이다.
도 12는 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용하는 체크포인팅 동작을 설명하기 위한 블록도이다.
도 13a 및 도 13b는 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용하는 2개의 체크 포인터를 사용하는 방법을 설명하기 위한 블록도이다.
도 14는 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용되는 노드를 설명하기 위한 도면이다.
도 15 내지 도 17은 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용되는 복구 동작을 설명하기 위한 도면들이다.
도 18는 본 발명의 몇몇 실시예에 따른 컴퓨팅 시스템의 구체적인 일 예를 설명하기 위한 블록도이다.
도 19 내지 도 21은 본 발명의 몇몇 실시예에 따른 컴퓨팅 시스템의 구체적인 다른 예를 설명하기 위한 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
하나의 소자(elements)가 다른 소자와 "접속된(connected to)" 또는 "커플링된(coupled to)" 이라고 지칭되는 것은, 다른 소자와 직접 연결 또는 커플링된 경우 또는 중간에 다른 소자를 개재한 경우를 모두 포함한다. 반면, 하나의 소자가 다른 소자와 "직접 접속된(directly connected to)" 또는 "직접 커플링된(directly coupled to)"으로 지칭되는 것은 중간에 다른 소자를 개재하지 않은 것을 나타낸다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
예컨대, 어느 하나의 구성요소가 다른 구성요소로 데이터 또는 신호를 "전송 또는 출력"하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터 또는 신호를 "전송 또는 출력"할 수 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터 또는 신호를 상기 다른 구성요소로 "전송 또는 출력"할 수 있음을 의미한다.
"및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
도 1은 본 발명의 일 실시예에 따른 컴퓨팅 시스템을 설명하기 위한 블록도이다. 도 2는 도 1의 호스트를 설명하기 위한 블록도이다. 도 3 및 도 5는 도 1의 스토리지 장치를 설명하기 위한 블록도이다. 도 4는 도 1의 스토리지 장치에 저장되는 파일의 구조를 설명하기 위한 도면이다. 도 6은 노드 어드레스 테이블을 설명하기 위한 도면이다.
우선, 도 1을 참조하면, 본 발명의 일 실시예에 따른 컴퓨팅 시스템(1)은 호스트(10)와 스토리지 장치(20)를 포함한다.
호스트(10)와 스토리지 장치(20)는 특정한 프로토콜(protocol)을 이용하여 서로 통신한다. 예를 들어, USB(Universal Serial Bus) 프로토콜, MMC(multimedia card) 프로토콜, PCI(peripheral component interconnection) 프로토콜, PCI-E(PCI-express) 프로토콜, ATA(Advanced Technology Attachment) 프로토콜, Serial-ATA 프로토콜, Parallel-ATA 프로토콜, SCSI (small computer small interface) 프로토콜, ESDI(enhanced small disk interface) 프로토콜, 그리고 IDE(Integrated Drive Electronics) 프로토콜 등과 같은 다양한 인터페이스 프로토콜 중 적어도 하나를 통해 통신할 수 있으나, 이에 한정되는 것은 아니다.
호스트(10)는 스토리지 장치(20)를 컨트롤한다. 예를 들어, 호스트(10)는 스토리지 장치(20)에 데이터를 라이트하거나, 스토리지 장치(20)로부터 데이터를 리드할 수 있다.
도 2를 참조하면, 이러한 호스트(10)는 사용자 스페이스(user space)(11)와 커널 스페이스(kernel space)(13)를 포함한다.
사용자 스페이스(11)는 사용자 어플리케이션(user application)(12)이 실행되는 영역이고, 커널 스페이스(13)는 커널 실행을 위해서 제한적으로 보장된(restrictively reserved) 영역이다. 사용자 스페이스(11)에서 커널 스페이스(13)를 접근하기 위해서, 시스템 콜(system call)이 이용될 수 있다.
커널 스페이스(13)는 가상 파일시스템(14), 파일시스템(16), 장치 드라이버(18) 등을 포함할 수 있다. 파일시스템(16)은 하나 이상일 수 있다. 예를 들어, 파일시스템(16)은 ext2, ntfs, smbfs, proc 등일 수 있다. 또한, 본 발명의 일 실시예에 따른 컴퓨팅 시스템(1)은 F2FS 파일시스템을 포함할 수 있다. F2FS 파일시스템에 대해서는 도 3 내지 도 17을 이용하여 후술하도록 한다.
가상 파일시스템(14)은 하나 이상의 파일시스템(16)이 서로 상호 동작할 수 있도록 한다. 서로 다른 미디어의 서로 다른 파일시스템(16)에 대해 리드/라이트 작업을 하기 위해서, 표준화된 시스템 콜을 사용할 수 있도록 한다. 예를 들어, open(), read(), write()와 같은 시스템 콜은, 파일시스템(16)의 종류에 관계없이 사용될 수 있다. 즉, 가상 파일시스템(14)은 사용자 스페이스(11)와 파일시스템(16) 사이에 존재하는 추상화 계층이다.
장치 드라이버(18)는 하드웨어와 사용자 어플리케이션(또는 운영체제) 사이의 인터페이스를 담당한다. 장치 드라이버(18)는 하드웨어가 특정 운영체제 하에서 정상적으로 동작하기 위해 필요한 프로그램이다.
이하에서, F2FS 파일시스템이 스토리지 장치(20)를 어떻게 제어하는지를 설명한다.
스토리지 장치(20)는 SSD(Static Solid Disk), HDD(Hard Disk Drive), eMMC와 같은 각종 카드 스토리지, 데이터 서버 등일 수 있으나, 이에 한정되지 않는다.
스토리지 장치(20)는 도 3에 도시된 것과 같이, 구성될 수 있다. 세그먼트(SEGMENT)(53)는 다수의 블록(BLK)(51)을 포함하고, 섹션(SECTION)(55)은 다수의 세그먼트(53)를 포함하고, 존(ZONE)(57)은 다수의 섹션(55)을 포함할 수 있다. 예를 들어, 블록(51)은 4Kbyte이고, 세그먼트(53)는 512개의 블록(51)을 포함하여 2M byte일 수 있다. 이러한 구성은, 스토리지 장치(20)의 포맷(format) 시점에서 결정될 수 있으나, 이에 한정되는 것은 아니다. 섹션(55)과 존(57)의 사이즈는 포맷 시점에서 수정될 수도 있다. F2FS 파일시스템은 모든 데이터를 4Kbyte의 페이지 단위로 리드/라이트할 수 있다. 즉, 블록(51)에 하나의 페이지가 저장되고, 세그먼트(53)에 다수의 페이지가 저장될 수 있다.
한편, 스토리지 장치(20)에 저장되는 파일은 도 4에 도시된 것과 같은, 인덱싱 구조(indexing structure)를 가질 수 있다. 하나의 파일은 다수의 데이터 와, 다수의 데이터와 연관된 다수의 노드를 포함할 수 있다. 데이터 블록(70)은 데이터를 저장하는 부분이고, 노드 블록(80, 81~88, 91~95)은 노드를 저장하는 부분이다.
노드 블록(80, 81~88, 91~95)은 다이렉트 노드 블록(direct node block)(81~88), 인다이렉트 노드 블록(indirect node block)(91~95), 아이노드 블록(inode block)(80)을 포함할 수 있다.
다이렉트 노드 블록(81~88)은 데이터 블록(70)을 직접 가리키는 데이터 포인터(data pointer)를 포함한다.
인다이렉트 노드 블록(91~95)은 데이터 블록(70)이 아닌, 다른 노드 블록(83~88)(즉, 하위의 노드 블록)을 가리키는 포인터를 포함한다. 인다이렉트 노드 블록(91~95)은 예를 들어, 제1 인다이렉트 노드 블록(91~94), 제2 인다이렉트 노드 블록(95) 등을 포함할 수 있다. 제1 인다이렉트 노드 블록(91~94)은 다이렉트 노드 블록(83~88)을 가리키는 제1 노드 포인터를 포함한다. 제2 인다이렉트 노드 블록(95)은 제1 인다이렉트 노드 블록(93, 94)을 가리키는 제2 노드 포인터를 포함한다.
아이노드 블록(80)은 데이터 포인터, 다이렉트 노드 블록(81, 82)를 가리키는 제1 노드 포인터, 제1 인다이렉트 노드 블록(91, 92)을 가리키는 제2 노드 포인터, 제2 인다이렉트 노드 블록(95)를 가리키는 제3 노드 포인터 중 적어도 하나를 포함할 수 있다. 하나의 파일은 예를 들어, 최대 3Tbyte일 수 있고, 이러한 대용량의 파일을 다음과 같은 인덱스 구조를 가질 수 있다. 예를 들어, 아이노드 블록(80) 내의 데이터 포인터는 994개이고, 994개의 데이터 포인터 각각은 994개의 데이터 블록(70) 각각을 가리킬 수 있다. 제1 노드 포인터는 2개이고, 2개의 제1 노드 포인터 각각은 2개의 다이렉트 노드 블록(81, 82)를 가리킬 수 있다. 제2 노드 포인터는 2개이고, 2개의 제2 노드 포인터 각각은 2개의 제1 인다이렉트 노드 블록(91, 92)을 가리킬 수 있다. 제3 노드 포인터는 1개이고, 제2 인다이렉트 노드 블록(95)를 가리킬 수 있다.
또한, 파일별로 아이노드 메타데이터를 포함하는 아이노드 페이지가 존재한다.
한편, 도 5에서와 같이, 본 발명의 일 실시예에 따른 컴퓨팅 시스템(1)에서, 스토리지 장치(20)는 제1 영역(I)과 제2 영역(II)으로 나누어질 수 있다. 파일시스템(16)은 포맷(format)할 때, 스토리지 장치(20)를 제1 영역(I)과 제2 영역(II)으로 나눌 수 있으나, 이에 한정되는 것은 아니다. 제1 영역(I)은 시스템 전체로 관리되는 각종 정보가 저장되는 영역으로, 예를 들어, 현재 할당된 파일 수, 유효한 페이지 수, 위치 등의 정보를 포함할 수 있다. 제2 영역(II)은 실제 사용자가 사용하고 있는 각종 디렉토리 정보, 데이터, 파일 정보 등을 저장하는 공간이다.
또한, 제1 영역(I)은 스토리지 장치(20)의 앞부분에 저장되고, 제2 영역(II)은 스토리지 장치(20)의 뒷부분에 저장될 수 있다. 여기서, 앞부분은 뒷부분보다 물리 어드레스(physical address)를 기준으로 앞에 있음을 의미한다.
구체적으로, 제1 영역(I)은 슈퍼블록(61, 62), 체크포인트 영역(CheckPoint area, CP)(63), 세그먼트 정보 테이블(Segment Information Table, SIT)(64), 노드 어드레스 테이블(Node Address Table, NAT)(65), 세그먼트 요약 영역(Segment Summary Area, SSA)(66) 등을 포함할 수 있다.
먼저, 슈퍼블록(61, 62)에는, 파일시스템(16)의 디폴트 정보가 저장된다. 예를 들어, 블록(51)의 크기, 블록(51)의 개수, 파일시스템(16)의 상태 플러그(clean, stable, active, logging, unknown) 등이 저장될 수 있다. 도시된 것과 같이, 슈퍼블록(61, 62)은 2개일 수 있고, 각각에는 동일한 내용이 저장될 수 있다. 따라서, 둘 중 어느 하나에 문제가 발생하더라도, 다른 하나를 이용할 수 있다.
체크포인트 영역(63)은 체크포인트를 저장한다. 체크포인트는 논리적인 중단점으로서, 이러한 중단점까지의 상태가 완전하게 보존된다. 컴퓨팅 시스템의 동작 중에 사고(예를 들어, 파워 오프(sudden power off))가 발생하면, 파일시스템(16)은 보존된 체크포인트를 이용하여 데이터를 복구할 수 있다. 이러한 체크포인트의 생성 시점은, 예를 들어, 주기적으로 생성, System shutdown 시점 등일 수 있으나, 이에 한정되는 것은 아니다. 체크포인트, 체크포인팅 동작, 복구 동작 등에 대해서는 도 10 내지 도 17을 이용하여 자세히 후술하도록 한다.
노드 어드레스 테이블(65)은 도 6에 도시된 것과 같이, 노드 각각에 대응되는 다수의 노드 식별자(NODE ID)와, 다수의 노드 식별자 각각에 대응되는 다수의 물리 어드레스를 포함할 수 있다. 예를 들어, 노드 식별자 N0에 대응되는 노드 블록은 물리 어드레스 a에 대응되고, 노드 식별자 N1에 대응되는 노드 블록은 물리 어드레스 b에 대응되고, 노드 식별자 N2에 대응되는 노드 블록은 물리 어드레스 c에 대응될 수 있다. 모든 노드(아이노드, 다이렉트 노드, 인다이렉트 노드 등)는 각각 고유의 노드 식별자를 갖는다. 다르게 설명하면, 모든 노드(아이노드, 다이렉트 노드, 인다이렉트 노드 등)는 노드 어드레스 테이블(65)로부터 고유의 노드 식별자를 할당 받을 수 있다. 노드 어드레스 테이블(65)은 아이노드의 노드 식별자, 다이렉트 노드의 노드 식별자 및 인다이렉트 노드의 노드 식별자 등을 저장할 수 있다. 각 노드 식별자에 대응되는 각 물리 어드레스는 업데이트(update)될 수 있다.
세그먼트 정보 테이블(64)는 각 세그먼트의 유효한 페이지의 개수와, 다수의 페이지의 비트맵을 포함한다. 비트맵은 각 페이지가 유효한지 여부를 0 또는 1로 표시한 것을 의미한다. 세그먼트 정보 테이블(64)은 클리닝(cleaning) 작업(또는 가비지 컬렉션(garbage collection))에서 사용될 수 있다. 특히 비트맵은 클리닝 작업을 수행할 때, 불필요한 리드 요청을 줄일 수 있고, 어댑티브 데이터 로깅(adaptive data logging)시 블록 할당할 때 이용될 수 있다.
세그먼트 요약 영역(66)는 제2 영역(II)의 각 세그먼트의 요약 정보를 모아둔 영역이다. 구체적으로, 세그먼트 요약 영역(66)은 제2 영역(II)의 각 세그먼트의 다수의 블록이 속하는 노드의 정보를 기술한다. 세그먼트 요약 영역(66)은 클리닝(cleaning) 작업(또는 가비지 컬렉션(garbage collection))에서 사용될 수 있다. 구체적으로 설명하면, 노드 블록(80, 81~88, 91~95)은 데이터 블록(70) 또는 하위의 노드 블록(예를 들어, 다이렉트 노드 블록 등)의 위치를 확인하기 위해, 노드 식별자 목록 또는 어드레스를 가지고 있다. 이와는 반대로, 세그먼트 요약 영역(66)은 데이터 블록(70) 또는 하위의 노드 블록(80, 81~88, 91~95)이 상위의 노드 블록(80, 81~88, 91~95)의 위치를 확인할 수 있는 인덱스(index)를 제공한다. 세그먼트 요약 영역(66)은 다수의 세그먼트 요약 블록을 포함한다. 하나의 세그먼트 요약 블록은, 제2 영역(II)에 위치한 하나의 세그먼트에 대한 정보를 가지고 있다. 또한, 세그먼트 요약 블록은 다수의 요약 정보로 구성되어 있으며, 하나의 요약 정보는 하나의 데이터 블록 또는 하나의 노드 블록에 대응된다.
또한, 제2 영역(II)은 서로 분리된 데이터 세그먼트(data segment)(DS0, DS1)과 노드 세그먼트(node segment)(NS0, NS1)을 포함할 수 있다. 다수의 데이터는 데이터 세그먼트(DS0, DS1)에 저장되고, 다수의 노드는 노드 세그먼트(NS0, NS1)에 저장될 수 있다. 데이터와 노드가 분리되는 영역이 서로 다르면, 효율적으로 세그먼트를 관리할 수 있고, 데이터를 리드할 때 보다 효과적으로 빠른 시간 내에 리드할 수 있다.
한편, 제2 영역(II)은 순차적 라이트(sequential write) 방식으로 사용되는 영역이고, 제1 영역(I)은 랜덤 라이트(random write) 방식으로 사용되는 영역일 수 있다. 제2 영역(II)은 스토리지 장치(20)의 뒷부분에 저장될 수 있고, 제1 영역(I)은 스토리지 장치(20)의 앞부분에 저장된다.
스토리지 장치(20)가 예를 들어, SSD(Static Solid Disk)인 경우, SSD 내부에 버퍼(buffer)가 있을 수 있다. 버퍼는 예를 들어, 리드/라이트 속도가 빠른 SLC(Single Layer Cell) 메모리일 수 있다. 따라서, 이러한 버퍼는 한정된 공간의 랜덤 접근 방식의 라이트 속도를 빠르게 할 수 있다.
도면에서는, 제1 영역(I)은 슈퍼블록(61, 62), 체크포인트 영역(62), 세그먼트 정보 테이블(64), 노드 어드레스 테이블(65), 세그먼트 요약 영역(66) 순서로 되어 있으나, 이에 한정되는 것은 아니다. 예를 들어, 세그먼트 정보 테이블(64)과 노드 어드레스 테이블(65)의 위치가 바뀌어도 무방하고, 노드 어드레스 테이블(65)과 세그먼트 요약 영역(66)의 위치가 바뀌어도 무방하다.
이하에서, 도 7 및 도 8을 이용하여, 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 데이터 관리 방법을 설명하도록 한다. 도 7 및 도 8은 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 데이터 관리 방법을 설명하기 위한 개념도이다.
도 7을 참조하면, 파일시스템(16)은 스토리지 장치를 제1 영역(I)과 제2 영역(II)으로 나눈다. 전술한 것과 같이, 포맷 시점에서 제1 영역(I)과 제2 영역(II)로 나누어질 수 있다.
파일시스템(16)은 도 4를 이용하여 설명한 것과 같이, 하나의 파일을 다수의 데이터와, 다수의 데이터와 관련된 다수의 노드(예를 들어, 아이노드, 다이렉트 노드, 인다이렉트 노드 등)로 구성하여, 스토리지 장치(20) 내에 저장할 수 있다. 이 때, 모든 노드는, 노드 어드레스 테이블(65)로부터 노드 식별자(NODE ID)를 할당받는다. 예를 들어, N0~N5를 할당받았다고 가정하자. N0~N5에 대응되는 노드 블록은 각각 물리 어드레스 a, b, … d에 대응될 수 있다. 도 7에 도시된 해칭된 부분은, 제2 영역(II) 내에서 다수의 데이터, 다수의 노드가 라이트된 부분을 의미한다.
예를 들어, 다이렉트 노드 N5는 DATA10을 가리킬 수 있다. 다이렉트 노드 N5는 물리 어드레스 d에 해당하는 노드 블록에 저장되어 있다. 즉, 노드 어드레스 테이블(65) 내에서, 다이렉트 노드 N5는 물리 어드레스 d에 대응되는 것으로 저장되어 있다.
도 8을 참조하여, 파일 내의 일부 데이터 DATA10를 DATA10a로 수정하는 경우를 설명하면 다음과 같다.
제2 영역(II)은 순차적 접근(sequential access) 방식으로 라이트되는 영역이다. 따라서, 수정된 데이터 DATA10a는 비어있는 데이터 블록 내에 새롭게 저장된다. 또한, 다이렉트 노드 N5는, 수정된 데이터 DATA10a가 저장된 데이터 블록을 가리키도록 수정하여, 비어있는 노드 블록 내에 새롭게 저장된다.
제1 영역(I)은 랜덤 접근(random access) 방식으로 라이트되는 영역이다. 따라서, 다이렉트 노드 N5는 물리 어드레스 f에 대응되는 것으로, 오버라이트(overwrite)한다.
파일 내의 일부 데이터를 수정하는 것을 정리하면, 다수의 데이터 중에서 제1 데이터는 제1 물리 어드레스에 대응되는 제1 블록 내에 저장되고, 제1 다이렉트 노드는 제1 데이터를 지시하고 제1 다이렉트 노드는 제2 물리 어드레스에 대응되는 제2 블록 내에 저장된다. 노드 어드레스 테이블 내에서, 제1 다이렉트 노드는 제2 물리 어드레스에 대응되는 것으로 저장되어 있다. 여기서, 제1 데이터를 수정하여 제2 데이터를 생성한다. 제2 데이터를 제1 물리 어드레스와 다른 제3 물리 어드레스에 대응되는 제3 블록 내에 라이트한다. 제1 다이렉트 노드가 제2 데이터를 지시하도록 수정하여, 제2 물리 어드레스와 다른 제4 물리 어드레스에 대응되는 제4 블록 내에 라이트한다. 또한, 노드 어드레스 테이블 내에, 제1 다이렉트 노드는 제4 물리 어드레스에 대응되는 것으로 오버라이트(overwrite)한다.
로그 구조화된 파일시스템에서, 노드 어드레스 테이블(65)을 이용하면, 파일의 일부 데이터를 수정할 때, 수정해야 하는 데이터 및 노드의 양을 최소화할 수 있다. 즉, 수정된 데이터와, 수정된 데이터를 직접 가리키는 다이렉트 노드만 순차적 접근 방식으로 라이트하고, 다이렉트 노드를 가리키는 인다이렉트 노드 또는 아이노드 등은 수정할 필요가 없다. 노드 어드레스 테이블(65) 내에서, 다이렉트 노드에 대응되는 물리 어드레스를 수정하였기 때문이다.
도 9a 내지 도 9c는 도 1의 스토리지 장치의 다른 구성예들을 설명하기 위한 블록도이다. 이하에서 설명의 편의를 위해서, 도 5를 이용하여 설명한 내용과 다른 점을 위주로 설명한다.
도 9a를 참조하면, 본 발명의 다른 실시예에 따른 컴퓨팅 시스템의 스토리지 장치에서, 제2 영역(II)은 서로 분리된 다수의 세그먼트(S1~Sn, 단, n은 자연수)를 포함할 수 있다. 각 세그먼트(S1~Sn)에는, 데이터와 노드 구분없이 저장될 수 있다.
반면, 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서, 스토리지 장치는 서로 분리된 데이터 세그먼트(DS0, DS1), 노드 세그먼트(NS0, NS1)를 포함한다. 다수의 데이터는 데이터 세그먼트(DS0, DS1)에 저장되고, 다수의 노드는 노드 세그먼트(NS0, NS1)에 저장될 수 있다.
도 9b을 참조하면, 본 발명의 또 다른 실시예에 따른 컴퓨팅 시스템의 스토리지 장치에서, 제1 영역(I)은 세그먼트 요약 영역(도 5의 66 참조)을 포함하지 않는다. 즉, 제1 영역(I)은 슈퍼블록(61, 62), 체크포인트 영역(62), 세그먼트 정보 테이블(64), 노드 어드레스 테이블(65)을 포함한다.
세그먼트 요약 정보는 제2 영역(II)내에 저장될 수 있다. 구체적으로, 제2 영역(II)은 다수의 세그먼트(S0~Sn)를 포함하고, 각 세그먼트(S0~Sn)는 다수의 블록으로 구분된다. 각 세그먼트(S0~Sn)의 적어도 하나의 블록(SS0~SSn)에 세그먼트 요약 정보를 저장할 수 있다.
도 9c를 참조하면, 본 발명의 또 다른 실시예에 따른 컴퓨팅 시스템의 스토리지 장치에서, 제1 영역(I)은 세그먼트 요약 영역(도 5의 66 참조)을 포함하지 않는다. 즉, 제1 영역(I)은 슈퍼블록(61, 62), 체크포인트 영역(62), 세그먼트 정보 테이블(64), 노드 어드레스 테이블(65)을 포함한다.
세그먼트 요약 정보는 제2 영역(II) 내에 저장될 수 있다. 제2 영역(II)은 다수의 세그먼트(53)를 포함하고, 각 세그먼트(53)는 다수의 블록(BLK0~BLKm)으로 구분되고, 각 블록(BLK0~BLKm)은 OOB(Out Of Band)(OOB1~OOBm, 단, m은 자연수) 영역을 포함할 수 있다. OOB 영역(OOB1~OOBm)에 세그먼트 요약 정보를 저장할 수 있다.
이하에서, 도 10 내지 도 17을 이용하여, 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용하는 체크포인팅(checkpointing) 동작 및 복구(recovery) 동작을 설명하도록 한다.
도 10은 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용되는 체크포인트의 예시적 구조를 설명하기 위한 블록도이다. 도 11은 체크포인트의 데이터 세그먼트 요약 블록의 예시적 구조를 설명하기 위한 블록도이다.
우선, 도 10을 참조하면, 파일시스템(16)(즉, F2FS 시스템)은 체크포인팅 기능을 수행하여 체크포인트(CP)를 생성한다. 체크포인트(CP)는 전술한 것과 같이, 스토리지 장치(도 1의 20 참조)의 제1 영역(도 5의 I 참조)의 체크포인트 영역(도 5의 63 참조)에 저장될 수 있다.
이러한 체크포인트(CP)는 예를 들어, 체크포인트 블록(checkpoint block)(CPB1, CPB2), 데이터 세그먼트 요약 블록(data segment summary block)(SS1) 및 저널 블록(journal block)(J1)을 포함할 수 있다.
체크포인트 블록(CPB1, CPB2)은 체크포인트(CP)의 헤더(header)(CPB1), 풋터(footer)(CPB2)를 포함하여, 체크포인트(CP)의 가장 앞과 뒤에 위치한다. 또한, 최신의 체크포인트(CP)가 무엇인지 구분하기 위해서 체크포인트 버전 번호(checkpoint version number)를 가지고 있을 수 있다.
예시적으로, 체크포인트 블록(CPB1, CPB2)은 표 1과 같은 세부 구성을 포함할 수 있다. 표 1은 예시적인 것이고, 이에 한정되는 것은 아니다.
이름 오프셋
(Byte)
사이즈
(Bytes)
설 명
체크포인트 버전
(Checkpoint version)
0 8 체크포인트의 나이를 나타냄.
0에서 시작해서, 1씩 증가함.
리셋할 경우, 다시 0이 됨.
사용자 블록 개수
(User block count)
8 8 사용자에게 보이는 블록의 총개수임.
유효 블록 개수
(Valid block count)
16 8 살아있는 데이터(live data)를 포함하는 유효 블록의 개수임. ({user block count}-{valid block count})은, 프리 블록의 개수임.
리저브 세그먼트 개수
(Reserved segment count)
24 4 숨겨진 프리 세그먼트의 개수임. 오버 프로비전드 세그먼트 개수에 의해서 결정될 수 있음.
오버 프로비전드 세그먼트 개수
(Over-provisioned segment count)
28 4 오버 프로비전드 세그먼트 개수임. 가비지 컬렉션 선 성능과 관련됨
프리 세그먼트
개수
(Free segment count)
32 4 프리 세그먼트의 개수임.
배드 세그먼트 개수
(Bad segment count)
36 4 배드 세그먼트의 개수임.
액티브 노드 세그먼트번호
(Active node segment number)
40 12 3개의 액티브 노드 세그먼트 중에서, 액티브 노드 세그먼트의 번호임.
액티브 노드 세그먼트내의 다음 프리 블록 오프셋
(Next free block offset in active node segment)
52 6 3개의 액티브 노드 세그먼트 중에서, 프리 블록의 가장 작은 블록 오프셋임.
액티브 노드 세그먼트내의 컴펌될 다음 블록 오프셋
(Next block offset to be confirmed in active node segment)
58 6 3개의 액티브 노드 세그먼트에서, 이 값에 앞서 있는 노드 블록은 컨펌된다.
액티브 데이터 세그먼트 번호
(Active data segment number)
64 12 3개의 액티브 세그먼트의 세그먼트 번호
플래그(Flag) 76 4 플래그는 다음의 목적을 위해 사용됨. Umount할 때 생성됨. 플래그의 0번째 비트가 1이면, umount command 하에 체크포인트가 라이트되었음을 의미한다. 그렇지 않으면, 레귤러 체크포인트임. 플래그의 1번째 비트가 1이면, 체크포인트 내에 저널 블록이 존재함을 의미함.
체크포인트 내의 토탈 블록 개수
(Total block count in checkpoint)
80 4 현재 체크포인트의 블록의 번호
유효 노드 개수
(Valid node count)
84 4 유효 노드의 개수임.
유효 아이노드 개수
(Valid inode count)
88 4 유효 아이노드의 개수임.
다음 프리 노드
(Next free node)
92 4 할당될 프리 노드의 노드 번호임.
SIT 비트맵 사이즈
(SIT bitmap size)
96 4 SIT 비트맵의 바이트 사이즈임. 디폴트 값은 64임.
NAT 비트맵 사이즈
(NAT bitmap size)
100 4 NAT 비트맵의 바이트 사이즈임. 디폴트 값은 256임.
체크썸 오프셋
(Checksum offset)
104 4 체크썸의 바이트 오프셋임.
SIT 비트맵
(SIT bitmap)
108 {SIT bitmap size} 각 비트는 up-to-date data를 포함하는 SIT블록에 대응되는 세트임.
NAT 비트맵
(NAT bitmap)
108 +
{SIT bitmap size}
{NAT bitmap size} 각 비트는 up-to-date data를 포함하는 NAT블록에 대응되는 세트임.
체크썸
(Checksum)
{Checksum offset} 4 F2FS 체크포인트 블록의 CRC32임. 씨드값은 F2FS 슈퍼블록 내에 있는 F2FS 매직 번호임.
한편, 도 11을 참조하면, 데이터 세그먼트 요약 블록(SS1)에는 현재 라이트가 진행 중인 데이터 세그먼트(data segment)에 대한 요약이 저장된다. 이것은 세그먼트 요약 영역(도 5의 66 참조)에 저장되는 세그먼트 요약과 동일한 자료 구조를 갖는다. 그런데, 세그먼트 요약 영역(66)은 데이터 세그먼트가 완전히 다 채워진 경우에만 업데이트가 발생된다. 하지만, 데이터 세그먼트 요약 블록(SS1)에는 아직 다 채워지지 않은 상태의 액티브 데이터 세그먼트의 요약이 저장될 수 있다.
예를 들어, 데이터 세그먼트 요약 블록(SS1)은 3584Byte의 데이터 세그먼트 요약을 저장할 공간이 있고, 8Byte의 풋터를 포함할 수 있다. 특히, 데이터 세그먼트 요약 블록(SS1)은 504Byte의 사용하지 않는 공간이 있을 수 있는데, 여기에 노드 어드레스 테이블(NAT)와 세그먼트 정보 테이블(SIT)의 변경사항이 저장될 수 있다. 만약, 노드 어드레스 테이블과 세그먼트 정보 테이블을 별도의 블록 형태로 저장한다면, 라이트 양이 상당히 많아진다. 하지만, 데이터 세그먼트 요약 블록(SS1) 내에 노드 어드레스 테이블과 세그먼트 정보 테이블을 같이 저장한다면, 라이트 양이 줄어들기 때문에 체크포인트를 생성하는 시간이 상당히 줄어들 수 있다.
저널 블록(J1)은 오펀 아이노드(orphan inode) 정보를 담고 있다. 오펀 아이노드는 유효한 데이터가 존재하지만 해당 디렉토리 엔트리(directory entry)가 삭제된 아이노드를 의미한다. 파일시스템(도 2의 16 참조)의 컨시스턴시를 위해서, 오펀 아이노드는 제거되어야 한다. 예를 들어, 오펀 아이노드는 여러 사용자가 동시에 동일한 파일을 열어서 작업을 할 때 발생할 수 있다. 즉, 특정 사용자가 오픈하여 작업 중인 파일을 다른 사용자가 삭제하면, 해당 파일은 디렉토리 상에서 삭제되었으나 아이노드는 삭제할 수 없다. 이러한 상태에서, 체크포인팅이 진행되고, 전원이 나가게 되면 이러한 아이노드는 오펀 아이노드가 될 수 있다. 따라서, 파일시스템(16)은 체크포인팅할 때 오펀 아이노드의 정보를 저널 블록(J1)에 저장한다. 복구할 때, 저널 블록(J1)에 저장된 오펀 아이노드의 정보를 검사하여 오펀 아이노드를 삭제할 수 있다.
도 12는 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용하는 체크포인팅 동작을 설명하기 위한 블록도이다.
도 12를 참조하면, 체크포인팅이 시작되면, 파일시스템(도 2의 16 참조)은 우선 데이터를 모두 스토리지 장치(20)(즉, 스토리지 장치(20)의 제2 영역(II)의 데이터 세그먼트(예를 들어, 도 5의 DS1 참조))에 저장한다(S110).
이어서, 파일시스템(16)은 컨시스턴시(consistency)를 맞추기 위해서, 동작을 중단(freeze)시킨다(S120).
이어서, 파일시스템(16)은 데이터와 관련된 노드를 스토리지 장치(20)(즉, 스토리지 장치(20)의 제2 영역(II)의 노드 세그먼트(예를 들어, 도 5의 NS0 참조))에 저장한다(S140).
이어서, 파일시스템(16)은 제1 영역(I)에 세그먼트 정보 테이블(SIT1), 노드 어드레스 테이블(NAT1)을 저장한다(S150, S160).
이어서, 파일시스템(16)은 체크포인트 영역(63)에, 체크포인트(CP1)를 생성한다(S170). 여기서, 체크포인트 영역(63)에는 체크포인트(CP1)가 저장될 수 있는 2개의 영역(105a, 105b)이 있을 수 있고, 체크 포인팅을 수행할 때마다 생성된 체크포인트(CP1)를 2개의 영역(105a, 105b)에 교대로 저장할 수 있다. 이에 대해서는 도 13a 및 도 13b를 이용하여 설명한다. 도면에서는, 영역(105b)에 체크포인트(CP1)가 저장된 것을 도시하였다. 체크포인트(CP1)은 체크포인트 블록(CPB1, CPB2), 저널 블록(J1) 및 데이터 세그먼트 요약 블록(SS1, SS2, SS3)을 포함하는 것으로 도시하였으나, 이에 한정되지 않는다.
도 13a 및 도 13b는 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용하는 2개의 체크 포인터를 사용하는 방법을 설명하기 위한 블록도이다.
도 13a 및 도 13b를 참조하면, 스토리지 장치(20)의 체크포인트 영역(63)에는 체크포인트(CP1~CP4)가 저장될 수 있는 2개의 영역(105a, 105b)이 있을 수 있다. 생성된 체크포인트(CP1~CP4)는 2개의 영역(105a, 105b)에 교대로 저장될 수 있다.
구체적으로, 첫번째 체크포인팅(S210)에서 생성된 체크포인트(CP1)은 영역(105a)에 저장된다. 영역(105b)는 비어있는 상태일 수 있다.
체크포인트(CP1)는 예를 들어, 체크포인트 블록(CPB11, CPB12), 저널 블록(J11) 및 데이터 세그먼트 요약 블록(SS11, SS12)을 포함할 수 있다. 전술한 것과 같이, 체크포인트 블록(CPB11, CPB12)에는 체크포인트 버전 번호를 포함할 수 있다. 여기서, 체크포인트 버전 번호는 n일 수 있다.
이어서, 두번째 체크포인팅(S220)에서 생성된 체크포인트(CP2)은 영역(105b)에 저장된다. 영역(105a)에는 여전히 체크포인트(CP1)이 저장되어 있는 상태일 수 있다.
체크포인트(CP2)는 예를 들어, 체크포인트 블록(CPB21, CPB22), 저널 블록(J21, J22, J23) 및 데이터 세그먼트 요약 블록(SS21, SS22)을 포함할 수 있다. 체크포인트 블록(CPB1, CPB2)의 체크포인트 버전 번호는 n+1일 수 있다.
파일시스템(16)은 영역(105a)에 저장된 체크포인트(CP1)의 버전 번호(n)와 영역(105b)에 저장된 체크포인트(CP2)의 버전 번호(n+1)을 서로 비교하여, 최근의 버전 번호(n+1)를 갖는 체크포인트(CP2)를 이용하여 복구 동작을 수행할 수 있다. 하지만, 예를 들어, 체크포인트(CP2)를 저장하는 중에, 갑작스런 파워 오프가 발생하면, 파일시스템(16)은 이전에 저장하였던 체크포인트(CP1)를 이용하여 복구 동작을 수행하면 된다.
이어서, 세번째 체크포인팅(S230)에서 생성된 체크포인트(CP3)은 영역(105a)에 저장된다. 영역(105b)에는 여전히 체크포인트(CP2)이 저장되어 있는 상태일 수 있다.
체크포인트(CP3)는 예를 들어, 체크포인트 블록(CPB31, CPB32), 데이터 세그먼트 요약 블록(SS31, SS32)을 포함할 수 있다.
그런데, 체크포인트 영역(도 5의 63 참조)는 제1 영역(I)에 위치하고, 제1 영역(I)은 랜덤 라이트(random write) 방식으로 사용되는 영역이다. 전술한 것과 같이, 체크포인트(CP3)은 체크포인트(CP1)이 저장된 영역에 오버라이트(overwrite)된다. 따라서, 도시된 것과 같이, 체크포인트(CP1)의 체크포인트 블록(CPB12)가 남아있을 수 있다.
파일시스템(16)은 영역(105a)에 저장된 체크포인트(CP3)의 버전 번호(n+2)와 영역(105b)에 저장된 체크포인트(CP2)의 버전 번호(n+1)을 서로 비교하여, 최근의 버전 번호(n+2)를 갖는 체크포인트(CP3)를 이용하여 복구 동작을 수행할 수 있다. 하지만, 예를 들어, 체크포인트(CP3)를 저장하는 중에, 갑작스런 파워 오프가 발생하면, 이전에 저장하였던 체크포인트(CP2)를 이용하여 복구 동작을 수행하면 된다.
이어서, 네번째 체크포인팅(S240)에서 생성된 체크포인트(CP4)은 영역(105b)에 저장된다. 영역(105a)에는 여전히 체크포인트(CP3)이 저장되어 있는 상태일 수 있다.
체크포인트(CP4)는 예를 들어, 체크포인트 블록(CPB41, CPB42), 데이터 세그먼트 요약 블록(SS41, SS42) 및 저널 블록(J41)을 포함할 수 있다.
그런데, 체크포인트 영역(도 5의 63 참조)는 제1 영역(I)에 위치하고, 제1 영역(I)은 랜덤 라이트(random write) 방식으로 사용되는 영역이다. 체크포인트(CP4)은 체크포인트(CP2)이 저장된 영역에 오버라이트(overwrite)될 수 있다. 따라서, 도시된 것과 같이, 체크포인트(CP2)의 데이터 세그먼트 요약 블록(SS22), 체크포인트 블록(CPB22)가 남아있을 수 있다.
파일시스템(16)은 영역(105a)에 저장된 체크포인트(CP3)의 버전 번호(n+2)와 영역(105b)에 저장된 체크포인트(CP4)의 버전 번호(n+3)을 서로 비교하여, 최근의 버전 번호(n+3)를 갖는 체크포인트(CP4)를 이용하여 복구 동작을 수행할 수 있다. 하지만, 예를 들어, 체크포인트(CP4)를 저장하는 중에, 갑작스런 파워 오프가 발생하면, 이전에 저장하였던 체크포인트(CP3)를 이용하여 복구 동작을 수행하면 된다.
도 14는 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용되는 노드를 설명하기 위한 도면이다.
도 14를 참조하면, 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용되는 노드(270)는, 체크포인트 버전 번호(270a), 에프싱크 마크(270b), 페어런트 아이노드 번호(270c), 다음에 사용될 노드 블록의 위치 정보(270d), 파일명(270e) 등을 포함할 수 있다.
체크포인트 버전 번호(270a)은 노드(270)가 어떤 체크포인트에 해당하는지를 나타낸다. 예를 들어, 노드(270)가 생성되기 전, 가장 최근에 행해진 체크포인트(CP)가 n번째라면(즉, 체크포인트(CP)의 버전 번호가 n이라면), 노드(270)의 체크포인트 버전 번호(270a)는 n+1일 수 있다.
에프싱크 마크(270b)는 노드(270)와 관련된 데이터가 에프싱크(fsync) 명령에 따라 라이트되었는지를 나타내는 것이다. 이하에서, 에프싱크 마크(270b)를 포함하는 노드(270)는 "에프싱크 노드"라고 하고, 에프싱크 노드와 관련된 아이노드를 "에프싱크 아이노드"라고 부른다.
본 발명의 일 실시예에 따른 컴퓨팅 시스템에서는, 에프싱크(fsync) 명령에 따라 라이트 동작을 수행하더라도, 체크포인팅을 수행하지 않는다. 에프싱크 명령에 따라 동작할 때마다 체크포인팅을 하면, 에프싱크 명령이 자주 발생하는 컴퓨팅 시스템은 체크포인팅을 수행하는 시간 때문에 성능이 떨어질 수 있다. 따라서, 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서는, 에프싱크 명령에 대해서는 체크포인팅을 수행하지 않고 롤포워드(roll forward)를 하기 위한 최소한의 정보만을 스토리지 장치(20) 내에 남겨둔다. 롤포워드 동작은 도 15 내지 도 17을 이용하여 후술한다.
페어런트 아이노드 번호(270c)와 파일명(270e)은, 복구 동작시, 복구가 필요한 노드의 디렉토리(directory)를 복구할 때 사용된다.
만약, 디렉토리 로그(directory operation log)를 로깅(logging)하는데, 적은 수의 파일을 생성하고 에프싱크한다면, 디렉토리 로그를 위한 블록에 적은 정보를 라이트하기 때문에 비효율적이다. 따라서, 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서는, 노드(270)에 페어런트 아이노드 번호(270c)와 파일명(270e)을 사용함으로써, 디렉토리 로그를 위한 불필요한 블록을 생성하지 않는다.
또한, 다음에 사용될 노드 블록의 위치 정보(270d)는 현재 사용되고 있는 노드 블록에 다음에 어떤 노드 블록이 사용될지를 미리 알려주기 위한 것이다. 위치 정보(270d)는 노드 어드레스 테이블(65)로부터 미리 할당받아, 미리 알 수 있다. 이러한 위치 정보(270d)는 후술할 롤포워드 동작시 검사할 노드 블록의 양을 줄여준다. 즉, 전체 노드 블록을 검사하지 않고, 위치 정보(270d)를 통해서 연결된 노드 블록만을 검사하면 되기 때문이다.
도 15 내지 도 17은 본 발명의 일 실시예에 따른 컴퓨팅 시스템에서 사용되는 복구 동작을 설명하기 위한 도면들이다. 도 15 내지 도 17에 기술된 내용은, 복구시 롤포워드 동작에 관한 것이다.
우선 도 15를 참조하면, 체크포인팅 이후에, 다수의 노드 블록(271~282)에 순차적 라이트(sequential write) 방식으로 다수의 노드를 라이트하였다고 가정하자.
여기서, 노드 블록(271~282)에 적혀있는 숫자는 각 노드와 관련된 아이노드의 식별자(ID)를 의미한다. 즉, 노드 블록(271, 273, 279, 281)에 저장된 노드는 1번 아이노드에 포함되고, 노드 블록(272, 274, 280)에 저장된 노드는 2번 아이노드에 포함되고, 노드 블록(275)에 저장된 노드는 3번 아이노드에 포함되고, 노드 블록(276, 282)에 저장된 노드는 5번 아이노드에 포함되고, 노드 블록(277)에 저장된 노드는 6번 아이노드에 포함되고, 노드 블록(278)에 저장된 노드는 7번 아이노드에 포함된다.
또한, 노드 블록(271~282)에 적혀있는 FS는, 전술한 에프싱크 마크를 나타낸다.
또한, 노드 블록(271~282) 아래에 표시되어 있는 화살표(299)는, 전술한 다음에 사용될 노드 블록의 위치 정보(도 14의 270d)에 의해서 노드 블록(271~282)이 서로 체인으로 연결되어 있음을 나타낸다. 예를 들어, 노드 블록(271) 내에 저장되어 있는, 위치 정보(270d)는 노드 블록(272)을 지시하고 있다. 즉, 노드 블록(271) 다음에는 노드 블록(272)가 사용될 것임을 나타낸다. 노드 블록(272) 내에 저장되어 있는, 위치 정보(270d)는 노드 블록(273)을 지시하고 있다. 즉, 노드 블록(272) 다음에는 노드 블록(273)가 사용될 것임을 나타낸다.
한편, 체크포인팅 이후에 갑작스런 파워 오프로 인해서 복구하는 경우를 생각해 보자. 먼저 체크포인트(CP)를 이용하여, 체크포인트(CP)에 저장되어 있는 상태까지 복구한다. 그 후, 롤포워드(roll forward) 동작을 통해서, 체크포인트(CP)에 저장되어 있지 않은 일부의 노드를 복구하게 된다.
먼저, 다음에 사용할 노드 블록의 위치 정보(270d)를 이용하여 체크포인팅 이후에 형성된 다수의 노드 블록(271~282)을 제1 스캔(first scan)한다. 각 노드마다 위치 정보(270d)가 있기 때문에, 모든 노드 블록을 스캔하지 않고 체크포인팅 이후에 형성된 다수의 노드 블록(271~282)만을 스캔할 수 있다. 제1 스캔을 통해서, 복구가 필요한 노드를 선별할 수 있다.
구체적으로, 제1 스캔을 끝낸 후에, 도 16과 같은 에프싱크 아이노드 리스트(288)를 생성한다.
도 15에 도시된 것과 같은 경우에는, 에프싱크 아이노드 리스트(298)는 1번 아이노드, 2번 아이노드, 5번 아이노드를 포함할 수 있다. 즉, 노드 블록(273, 274, 280, 281, 282)에는 에프싱크 마크(FS)가 있는 노드가 저장되어 있다. 노드 블록(273, 281)에 저장된 노드는 1번 아이노드에 포함되고, 노드 블록(274, 280)에 저장된 노드는 2번 아이노드에 포함되고, 노드 블록(282)에 저장된 노드는 5번 아이노드에 포함된다.
복구가 필요한 노드는, 리스트에 있는 에프싱크 아이노드에 포함되는 적어도 하나의 노드일 수 있다. 여기서, 1번, 2번, 5번 아이노드에 포함되는 노드일 수 있다. 즉, 복구가 필요한 노드는 1번 아이노드에 포함되는 노드 블록(271, 273, 279, 281)과, 2번 아이노드에 포함되는 노드 블록(272, 274, 280), 5번 아이노드에 포함되는 노드 블록(276, 282)일 수 있다. 여기서, 노드 블록(271, 272, 276, 279)에 저장된 노드는, 에프싱크 마크(FS)를 포함하지 않더라도 복구할 수 있다.
도 17을 참조하면, 다시, 위치 정보(270d)를 이용하여 체크포인팅 이후에 형성된 다수의 노드 블록(271~282)을 제2 스캔(second scan)한다.
체크포인팅를 수행할 때, 마지막으로 사용된 노드를 체크포인팅 노드(checkpointing node)라고 하자. 예를 들어, 노드 블록(291, 292, 295)에 저장된 체크포인팅 노드 각각은 1번 아이노드, 2번 아이노드, 5번 아이노드와 관련되어 있다고 하자.
제2 스캔을 하면서, 체크포인팅 노드와, 복구가 필요한 노드를 비교하여, 차이점을 찾아내고, 체크포인팅 노드에 차이점을 반영한다.
다수의 노드 블록(271~282)을 차례대로 제2 스캔하면서, 앞에서 선정된 복구가 필요한 노드는 복구하고, 그렇지 않은 노드는 스킵(skip)하면 된다. 노드 블록(275, 277, 278)은 스킵된다.
예시적으로, 1번 아이노드와 관련된 복구 과정만을 구체적으로 설명한다. 파일시스템(16)은 노드 블록(291)로부터 체크포인팅 노드를 리드하고, 노드 블록(271)에 저장된 노드를 리드하여 서로 비교하여 제1 차이점을 찾아낸다. 제1 차이점을 체크포인팅 노드에 반영한다. 체크포인팅 노드에 반영하는 이유는, 체크포인팅 노드는 체크포인팅 과정을 거쳤기 때문에. 에러 또는 문제가 없는 노드라고 판단되기 때문이다.
이어서, 제1 차이점이 반영된 체크포인팅 노드와, 노드 블록(273)에 저장된 노드를 서로 비교하여 제2 차이점을 찾아낸다. 제2 차이점을, 제1 차이점이 반영된 체크포인팅 노드에 반영한다.
이어서, 제2 차이점이 반영된 체크포인팅 노드와, 노드 블록(279)에 저장된 노드를 서로 비교하여 제3 차이점을 찾아낸다. 제3 차이점을, 제2 차이점이 반영된 체크포인팅 노드에 반영한다.
이어서, 제3 차이점이 반영된 체크포인팅 노드와, 노드 블록(281)에 저장된 노드를 서로 비교하여 제4 차이점을 찾아낸다. 제4 차이점을, 제3 차이점이 반영된 체크포인팅 노드에 반영한다. 결과적으로, 최종적으로 모든 차이점이 반영된 체크포인팅 노드가 생성된다.
모든 차이점이 반영된 체크포인팅 노드를 노드 블록(281)에 오버라이트(overwrite)한다. 오버라이트를 할 때, 스토리지 장치(20)의 제1 영역(I)에 있는 세그먼트 정보 테이블(도 5의 64), 노드 어드레스 테이블(도 5의 65), 세그먼트 요약 영역(도 5의 66) 등이 업데이트된다. 그 결과, 노드(270)와 관련된 복구와, 세그먼트 정보 테이블(64), 노드 어드레스 테이블(65), 세그먼트 요약 영역(66)등과 관련된 복구가 모두 완성된다.
또한, 제2 스캔과정에서, 페어런트 아이노드 번호와 파일명을 이용하여, 복구가 필요한 노드의 디렉토리(directory)를 복구할 수 있다.
이하에서, 본 발명의 몇몇 실시예에 따른 컴퓨팅 시스템이 적용될 수 있는 구체적인 시스템을 설명한다. 이하에서 설명되는 시스템은 예시적인 것에 불과하고, 이에 한정되는 것은 아니다.
도 18는 본 발명의 몇몇 실시예에 따른 컴퓨팅 시스템의 구체적인 일 예를 설명하기 위한 블록도이다.
도 18을 참조하면, 호스트 서버(300)는 네트워크(20)를 통해서 다수의 데이터 베이스 서버(330, 340, 350, 360)와 접속되어 있다. 호스트 서버(300) 내에, 데이터 베이스 서버(330, 340, 350, 360)의 데이터를 관리하기 위한 파일시스템(316)을 설치될 수 있다. 파일시스템(316)은 도 1 내지 도 17을 이용하여 설명한 파일시스템 중 어느 하나일 수 있다.
도 19 내지 도 21은 본 발명의 몇몇 실시예에 따른 컴퓨팅 시스템의 구체적인 다른 예를 설명하기 위한 블록도이다.
우선, 도 19를 참조하면, 스토리지 장치(100)(도 1의 20에 대응됨)는 비휘발성 메모리 장치(1100) 및 컨트롤러(1200)를 포함할 수 있다.
여기서, 비휘발성 메모리 장치(1100)에는, 전술한 슈퍼블록(61, 62), 체크포인트 영역(63), 세그먼트 정보 테이블(64), 노드 어드레스 테이블(65) 등이 저장되어 있을 수 있다.
컨트롤러(1200)는 호스트 및 비휘발성 메모리 장치(1100)에 연결된다. 호스트(Host)로부터의 요청에 응답하여, 컨트롤러(1200)는 비휘발성 메모리 장치(1100)를 액세스하도록 구성된다. 예를 들면, 컨트롤러(1200)는 비휘발성 메모리 장치(1100)의 리드, 라이트, 이레이즈, 그리고 백그라운드(background) 동작을 제어하도록 구성된다. 컨트롤러(1200)는 비휘발성 메모리 장치(1100) 및 호스트(Host) 사이에 인터페이스를 제공하도록 구성된다. 컨트롤러(1200)는 비휘발성 메모리 장치(1100)를 제어하기 위한 펌웨어(firmware)를 구동하도록 구성된다.
예시적으로, 컨트롤러(1200)는 램(RAM, Random Access Memory), 프로세싱 유닛(processing unit), 호스트 인터페이스(host interface), 그리고 메모리 인터페이스(memory interface)와 같은 잘 알려진 구성 요소들을 더 포함한다. 램(RAM)은 프로세싱 유닛의 동작 메모리, 비휘발성 메모리 장치(1100) 및 호스트(Host) 사이의 캐시 메모리, 그리고 비휘발성 메모리 장치(1100) 및 호스트(Host) 사이의 버퍼 메모리 중 적어도 하나로서 이용된다. 프로세싱 유닛은 컨트롤러(1200)의 제반 동작을 제어한다.
컨트롤러(1200) 및 비휘발성 메모리 장치(1100)는 하나의 반도체 장치로 집적될 수 있다. 예시적으로, 컨트롤러(1200) 및 비휘발성 메모리 장치(1100)는 하나의 반도체 장치로 집적되어, 메모리 카드를 구성할 수 있다. 예를 들면, 컨트롤러(1200) 및 비휘발성 메모리 장치(1100)는 하나의 반도체 장치로 집적되어 PC 카드(PCMCIA, personal computer memory card international association), 컴팩트 플래시 카드(CF), 스마트 미디어 카드(SM, SMC), 메모리 스틱, 멀티미디어 카드(MMC, RS-MMC, MMCmicro), SD 카드(SD, miniSD, microSD, SDHC), 유니버설 플래시 기억장치(UFS) 등과 같은 메모리 카드를 구성할 것이다.
컨트롤러(1200) 및 비휘발성 메모리 장치(1100)는 하나의 반도체 장치로 집적되어 SSD(Solid State Drive)를 구성할 수 있다. SSD는 반도체 메모리에 데이터를 저장하도록 구성되는 저장 장치를 포함한다. 시스템(1000)이 반도체 드라이브(SSD)로 이용되는 경우, 시스템(1000)에 연결된 호스트(Host)의 동작 속도는 획기적으로 개선될 수 있다.
다른 예로서, 시스템(1000)은 컴퓨터, UMPC (Ultra Mobile PC), 워크스테이션, 넷북(net-book), PDA (Personal Digital Assistants), 포터블(portable) 컴퓨터, 웹 타블렛(web tablet), 무선 전화기(wireless phone), 모바일 폰(mobile phone), 스마트폰(smart phone), e-북(e-book), PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 블랙박스(black box), 디지털 카메라(digital camera), 3차원 수상기(3-dimensional television), 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 영상 녹화기(digital picture recorder), 디지털 영상 재생기(digital picture player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), 정보를 무선 환경에서 송수신할 수 있는 장치, 홈 네트워크를 구성하는 다양한 전자 장치들 중 하나, 컴퓨터 네트워크를 구성하는 다양한 전자 장치들 중 하나, 텔레매틱스 네트워크를 구성하는 다양한 전자 장치들 중 하나, RFID 장치, 또는 컴퓨팅 시스템을 구성하는 다양한 구성 요소들 중 하나 등과 같은 전자 장치의 다양한 구성 요소들 중 하나로 제공된다.
예시적으로, 비휘발성 메모리 장치(1100) 또는 시스템(1000)은 다양한 형태들의 패키지로 실장될 수 있다. 예를 들면, 비휘발성 메모리 장치(1100) 또는 시스템(1000)은 PoP(Package on Package), Ball grid arrays(BGAs), Chip scale packages(CSPs), Plastic Leaded Chip Carrier(PLCC), Plastic Dual In Line Package(PDIP), Die in Waffle Pack, Die in Wafer Form, Chip On Board(COB), Ceramic Dual In Line Package(CERDIP), Plastic Metric Quad Flat Pack(MQFP), Thin Quad Flatpack(TQFP), Small Outline(SOIC), Shrink Small Outline Package(SSOP), Thin Small Outline(TSOP), Thin Quad Flatpack(TQFP), System In Package(SIP), Multi Chip Package(MCP), Wafer-level Fabricated Package(WFP), Wafer-Level Processed Stack Package(WSP) 등과 같은 방식으로 패키지화되어 실장될 수 있다.
이어서, 도 20을 참조하면, 시스템(2000)은 비휘발성 메모리 장치(2100) 및 컨트롤러(2200)를 포함한다. 비휘발성 메모리 장치(2100)는 복수의 비휘발성 메모리 칩들을 포함한다. 복수의 비휘발성 메모리 칩들은 복수의 그룹들로 분할된다. 복수의 비휘발성 메모리 칩들의 각 그룹은 하나의 공통 채널을 통해 컨트롤러(2200)와 통신하도록 구성된다. 예를 들어, 복수의 비휘발성 메모리 칩들은 제 1 내지 제 k 채널들(CH1~CHk)을 통해 컨트롤러(2200)와 통신하는 것으로 도시되어 있다.
도 20에서, 하나의 채널에 복수의 비휘발성 메모리 칩들이 연결되는 것으로 설명되었다. 그러나, 하나의 채널에 하나의 비휘발성 메모리 칩이 연결되도록 시스템(2000)이 변형될 수 있음이 이해될 것이다.
이어서, 도 21을 참조하면, 시스템(3000)은 중앙 처리 장치(3100), 램(3200, RAM, Random Access Memory), 사용자 인터페이스(3300), 전원(3400), 그리고 도 20의 시스템(2000)을 포함한다.
시스템(2000)은 시스템 버스(3500)를 통해, 중앙처리장치(3100), 램(3200), 사용자 인터페이스(3300), 그리고 전원(3400)에 전기적으로 연결된다. 사용자 인터페이스(3300)를 통해 제공되거나, 중앙 처리 장치(3100)에 의해서 처리된 데이터는 시스템(2000)에 저장된다.
도 21에서, 비휘발성 메모리 장치(2100)는 컨트롤러(2200)를 통해 시스템 버스(3500)에 연결되는 것으로 도시되어 있다. 그러나, 비휘발성 메모리 장치(2100)는 시스템 버스(3500)에 직접 연결되도록 구성될 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10: 호스트 14: 가상 파일시스템
16: 파일시스템 18: 장치 드라이버
20: 스토리지 장치 63: 체크포인트 블록
64: 세그먼트 정보 테이블 65: 노드 어드레스 테이블
66: 세그먼트 요약 영역 298: 에프싱크 아이노드 리스트
CPB1, CPB2: 체크포인트 블록
SS1, SS2: 데이터 세그먼트 요약 블록
J1: 저널 블록

Claims (10)

  1. 스토리지 장치를 포함하며,
    체크포인팅(checkpointing)를 수행하고,
    상기 체크포인팅 후에, 다수의 노드를 순차적 라이트(sequential write) 방식으로 다수의 노드 블록에 라이트하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하고,
    복구(recovery) 동작시, 상기 위치 정보를 이용하여 상기 다수의 노드 블록을 스캔하여 복구가 필요한 노드를 선별하는 것을 포함하되,
    상기 스토리지 장치는 서로 구분되는 제1 영역과 제2 영역을 포함하고,
    상기 제1 영역은 랜덤 라이트(random write) 방식으로 사용되는 영역이고,
    상기 제2 영역은 순차적 라이트(sequential write) 방식으로 사용되는 영역이고,
    상기 체크포인팅를 수행함으로써 생성된 체크포인트는 상기 제1 영역에 저장되고,
    상기 다수의 노드 블록은 상기 제2 영역에 저장되는 컴퓨팅 시스템의 데이터 관리 방법.
  2. 제 1항에 있어서,
    상기 다수의 노드 중 적어도 하나의 노드는, 관련된 데이터가 에프싱크 명령에 따라 라이트되었는지를 나타내는 에프싱크 마크(fsync mark)를 더 포함하는 컴퓨팅 시스템의 데이터 관리 방법.
  3. 제 2항에 있어서,
    상기 에프싱크 마크를 포함하는 노드를 에프싱크 노드라고 하고, 상기 에프싱크 노드와 관련된 아이노드를 에프싱크 아이노드라 할 때,
    상기 복구가 필요한 노드는, 상기 다수의 노드 중에서 상기 에프싱크 아이노드에 포함되는 적어도 하나의 노드인 컴퓨팅 시스템의 데이터 관리 방법.
  4. 제 1항에 있어서,
    상기 다수의 노드는 페어런트 아이노드 번호(parent inode number)와 파일명(filename)을 포함하고,
    상기 페어런트 아이노드 번호와 상기 파일명을 이용하여, 상기 복구가 필요한 노드의 디렉토리(directory)를 복구하는 것을 더 포함하는 컴퓨팅 시스템의 데이터 관리 방법.
  5. 제 1항에 있어서,
    상기 체크포인팅을 수행할 때, 마지막으로 사용된 노드를 체크포인팅 노드(checkpointing node)라고 할 때,
    상기 체크포인팅 노드와, 상기 복구가 필요한 노드를 비교하여, 차이점을 찾아내고,
    상기 체크포인팅 노드에 상기 차이점을 반영하는 것을 포함하는 컴퓨팅 시스템의 데이터 관리 방법.
  6. 제 1항에 있어서,
    상기 체크포인팅을 수행하는 것은, 체크포인트 블록, 데이터 세그먼트 요약(data segment summary) 블록 및 저널(journal) 블록을 포함하는 체크포인트를 생성하고,
    상기 데이터 세그먼트 요약 블록 내에 노드 어드레스 테이블(node address table)과 세그먼트 정보 테이블(segment information table)의 변경사항이 저장되는 컴퓨팅 시스템의 데이터 관리 방법.
  7. 삭제
  8. 서로 구분되는 제1 영역과 제2 영역을 포함하는 스토리지 장치; 및
    상기 스토리지 장치를 제어하는 호스트 장치를 포함하되,
    상기 호스트 장치는 상기 제1 영역에는 체크포인팅을 수행함으로써 생성된 체크포인트를 저장되, 상기 제1 영역은 랜덤 라이트(random write) 방식으로 사용되는 영역이고, 상기 제2 영역의 다수의 데이터 블록에 다수의 데이터를 저장하되, 상기 제2 영역은 순차적 라이트(sequential write) 방식으로 사용되는 영역이고, 상기 제2 영역의 다수의 노드 블록에 상기 다수의 데이터와 연관된 다수의 노드를 저장하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하고, 복구(recovery) 동작시, 상기 위치 정보를 이용하여 상기 다수의 노드 블록을 스캔하여 복구가 필요한 노드를 선별하는 컴퓨팅 시스템.
  9. 서로 구분되는 제1 영역과 제2 영역을 포함하는 스토리지 장치를 관리하는 파일 시스템(filesystem)을 포함하는 컴퓨팅 시스템에 있어서,
    상기 제1 영역은 랜덤 라이트(random write) 방식으로 사용되는 영역이고,
    상기 제2 영역은 순차적 라이트(sequential write) 방식으로 사용되는 영역이고,
    상기 파일 시스템은 체크포인팅(checkpointing)를 수행하여 상기 스토리지 장치 내 상기 제1 영역에 체크포인트를 라이트하고, 다수의 노드를 순차적 라이트(sequential write) 방식으로 상기 스토리지 장치 내의 다수의 노드 블록에 라이트하되, 상기 다수의 노드 블록은 상기 스토리지 장치 내 상기 제2 영역에 저장되며, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하고, 복구(recovery) 동작을 수행하되, 상기 위치 정보를 이용하여 상기 다수의 노드 블록을 스캔하여 복구가 필요한 노드를 선별하는 것을 포함하는 컴퓨팅 시스템.
  10. 랜덤 라이트(random write) 방식으로 사용되는 제1 영역;
    순차적 라이트(sequential write) 방식으로 사용되는 제2 영역;
    상기 제1 영역에 저장된, 체크포인팅(checkpointing)을 수행하여 생성된 체크포인트;
    상기 제2 영역의 데이터 블록에 저장된 다수의 데이터; 및
    상기 제2 영역의 노드 블록에 저장되고, 상기 다수의 데이터와 연관된 다수의 노드(node)를 포함하되, 상기 각 노드는 다음에 사용할 상기 노드 블록의 위치 정보를 포함하되,
    상기 체크포인팅을 수행하고,
    상기 체크포인팅 후에, 상기 다수의 노드를 순차적 라이트 방식으로 상기 노드 블록에 라이트하며,
    복구(recovery) 동작시, 상기 위치 정보를 이용하여 상기 노드 블록을 스캔하여 복구가 필요한 노드를 선별하는 것을 포함하는 스토리지 장치.
KR1020120109190A 2012-09-28 2012-09-28 컴퓨팅 시스템 및 그 데이터 관리 방법 KR102050723B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120109190A KR102050723B1 (ko) 2012-09-28 2012-09-28 컴퓨팅 시스템 및 그 데이터 관리 방법
US14/038,953 US9336095B2 (en) 2012-09-28 2013-09-27 Computing system and related data management method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120109190A KR102050723B1 (ko) 2012-09-28 2012-09-28 컴퓨팅 시스템 및 그 데이터 관리 방법

Publications (2)

Publication Number Publication Date
KR20140042430A KR20140042430A (ko) 2014-04-07
KR102050723B1 true KR102050723B1 (ko) 2019-12-02

Family

ID=50386174

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120109190A KR102050723B1 (ko) 2012-09-28 2012-09-28 컴퓨팅 시스템 및 그 데이터 관리 방법

Country Status (2)

Country Link
US (1) US9336095B2 (ko)
KR (1) KR102050723B1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600558B2 (en) 2013-06-25 2017-03-21 Google Inc. Grouping of objects in a distributed storage system based on journals and placement policies
US9158472B2 (en) 2013-06-25 2015-10-13 Google Inc. Hierarchical chunking of objects in a distributed storage system
US9396202B1 (en) * 2013-12-27 2016-07-19 Google Inc. Weakly synchronized garbage collection and compaction for aggregated, replicated object stores
CN104657483B (zh) * 2015-02-28 2018-06-15 华为技术有限公司 处理事务的方法、处理节点、中心节点和集群
KR102570367B1 (ko) 2016-04-21 2023-08-28 삼성전자주식회사 불휘발성 메모리 장치 및 컨트롤러를 포함하는 스토리지 장치를 액세스하는 액세스 방법
KR20180041428A (ko) 2016-10-14 2018-04-24 에스케이하이닉스 주식회사 컨트롤러, 메모리 시스템 및 그의 동작 방법
US11003555B2 (en) * 2017-12-16 2021-05-11 Vmware, Inc. Tracking and recovering a disk allocation state
CN110109868B (zh) * 2018-01-18 2023-07-18 伊姆西Ip控股有限责任公司 用于索引文件的方法、装置和计算机程序产品
US11138185B1 (en) * 2018-02-02 2021-10-05 EMC IP Holding Company LLC Method, apparatus and computer program product for managing data inconsistencies in file systems
KR20200031886A (ko) * 2018-09-17 2020-03-25 에스케이하이닉스 주식회사 메모리 시스템 및 그것의 동작방법
KR102262409B1 (ko) * 2018-11-22 2021-06-08 서강대학교 산학협력단 비휘발성 메모리 기반 파일 시스템 및 이를 이용한 데이터 갱신 방법
US10924401B2 (en) 2019-05-15 2021-02-16 International Business Machines Corporation Live application and kernel migration using routing table entries
KR20210000414A (ko) 2019-06-25 2021-01-05 에스케이하이닉스 주식회사 메모리 시스템
CN111506458B (zh) * 2020-04-23 2023-04-07 华中科技大学 一种提升f2fs事务性能的方法、模块及系统
US20230169091A1 (en) * 2021-11-26 2023-06-01 Scality, S.A. Method and apparatus for rapidly synchronizing a replicate storage system with an active storage system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100274773A1 (en) 2009-04-27 2010-10-28 Dnyaneshwar Pawar Nearstore compression of data in a storage system
US20110246503A1 (en) * 2010-04-06 2011-10-06 Bender Michael A High-Performance Streaming Dictionary

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3178671B2 (ja) 1998-07-22 2001-06-25 日本電気株式会社 ファイルシステム及びそのファイル復旧方法
US6654912B1 (en) 2000-10-04 2003-11-25 Network Appliance, Inc. Recovery of file system data in file servers mirrored file system volumes
US7689599B1 (en) 2005-01-31 2010-03-30 Symantec Operating Corporation Repair of inconsistencies between data and metadata stored on a temporal volume using transaction log replay
US8145686B2 (en) * 2005-05-06 2012-03-27 Microsoft Corporation Maintenance of link level consistency between database and file system
US7613743B1 (en) 2005-06-10 2009-11-03 Apple Inc. Methods and apparatuses for data protection
US7467265B1 (en) * 2005-06-30 2008-12-16 Symantec Operating Corporation System and method for block conflict resolution within consistency interval marker based replication
JP4766240B2 (ja) 2005-11-08 2011-09-07 日本電気株式会社 ファイル管理方法、装置、およびプログラム
US7900088B1 (en) 2006-09-29 2011-03-01 Emc Corporation System for performing incremental file system check
US8055864B2 (en) 2007-08-06 2011-11-08 International Business Machines Corporation Efficient hierarchical storage management of a file system with snapshots
US8595191B2 (en) 2009-12-31 2013-11-26 Commvault Systems, Inc. Systems and methods for performing data management operations using snapshots
US9165012B2 (en) 2009-10-02 2015-10-20 Symantec Corporation Periodic file system checkpoint manager
US8224780B2 (en) 2010-06-15 2012-07-17 Microsoft Corporation Checkpoints for a file system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100274773A1 (en) 2009-04-27 2010-10-28 Dnyaneshwar Pawar Nearstore compression of data in a storage system
US20110246503A1 (en) * 2010-04-06 2011-10-06 Bender Michael A High-Performance Streaming Dictionary

Also Published As

Publication number Publication date
US9336095B2 (en) 2016-05-10
US20140095437A1 (en) 2014-04-03
KR20140042430A (ko) 2014-04-07

Similar Documents

Publication Publication Date Title
KR102050723B1 (ko) 컴퓨팅 시스템 및 그 데이터 관리 방법
KR102050725B1 (ko) 컴퓨팅 시스템 및 컴퓨팅 시스템의 데이터 관리 방법
KR101977575B1 (ko) 디렉토리 엔트리 조회 장치, 그 방법 및 디렉토리 엔트리 조회 프로그램이 기록된 기록 매체
KR102002830B1 (ko) 세그먼트 클리닝 장치 및 방법
US8856469B2 (en) Apparatus and method for logging optimization using non-volatile memory
KR102007650B1 (ko) 세그먼트 그룹을 고려하는 세그먼트 클리닝 장치 및 방법
US9645918B2 (en) Storage devices including non-volatile memory and memory controller and methods of allocating write memory blocks
KR102050732B1 (ko) 컴퓨팅 시스템 및 컴퓨팅 시스템의 데이터 관리 방법
CN108121813B (zh) 数据管理方法、装置、系统、存储介质及电子设备
JP2014071904A (ja) コンピュータシステム及びコンピュータシステムのデータ管理方法
CN112306898A (zh) 存储设备、其操作方法及包括其的电子设备
CN116257460B (zh) 基于固态硬盘的Trim命令处理方法及固态硬盘
KR20210068699A (ko) 스토리지 장치, 스토리지 시스템 및 스토리지 장치의 동작 방법
KR101979715B1 (ko) 컴퓨팅 시스템 및 그 데이터 관리 방법
US11256418B2 (en) Logical address history management in memory device
KR101716348B1 (ko) 메모리 시스템, 그것의 동작 방법, 그리고 그것을 포함하는 컴퓨팅 시스템
US20140095558A1 (en) Computing system and method of managing data thereof
US9740632B1 (en) Snapshot efficiency
KR20140042520A (ko) 비트맵을 이용한 세그먼트 클리닝 장치 및 상기 비트맵을 저장하는 스토리지 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant