상술한 기술적 과제를 해결하기 위한 본 발명에 의한 멀티미딩 앨범화 방법은, (a) 멀티미디어 컨텐츠로부터 앨범화 힌트 정보를 추출하는 단계; (b) 추출된 앨범화 힌트 정보를 소정의 서술 구조에 따라 서술하는 단계; (c) 상기 서술된 앨범화 힌트 정보를 이용하여 미디어 서술자를 생성하는 단계; 및 (d) 상기 미디어 서술자를 이용하여 멀티미디어 컨텐츠들을 앨범화하는 단계를 포함함을 특징으로 한다.
상기 멀티미디어 앨범화 방법은, (e) 앨범화된 결과를 이용하여 멀티미디어 컨텐츠의 앨범 정보를 관리하기 위한 앨범 메타데이터를 생성하는 단계; 및 (f) 앨범화된 멀티미디어 컨텐츠 및 앨범화와 관련된 앨범 메타데이터를 데이터베이스에 저장하는 단계를 더 포함하는 것이 바람직하다.
상기 멀티미디어 앨범화 방법은, 멀티미디어 컨텐츠 획득 장치로부터 컨텐츠를 획득하고 선처리를 수행하는 단계; 및 장치로부터 획득된 멀티미디어 컨텐츠 및 컨텐츠에 대응되는 메타데이터를 입력 받는 단계를 더 포함함이 바람직하다.
상기 (a)단계의 앨범화 힌트 정보는 사진 앨범화 힌트 정보, 음악 앨범화 힌트 정보, 비디오 앨범화 힌트 정보를 포함하는 것이 바람직하다.
상기 사진 앨범화 힌트정보의 서술구조는 사진 촬영 당시의 정보 및 카메라 정보를 표현하는 서술 구조; 사진의 내용에 대한 사람의 인지적 특성을 표현하는 서술 구조; 사진에 포함된 인물 정보를 표현하는 서술 구조; 사진의 구도 정보를 표현하는 서술 구조; 및 사진의 인기도 정보를 표현하는 서술 구조를 포함하는 것이 바람직하다.
사진 촬영 당시의 정보 및 카메라 정보를 표현하는 서술 구조는 해당 사진 데이터가 Exif 정보를 메타데이터로 포함하고 있는 지의 여부를 나타내는 정보와, 사진 촬영자 정보와, 사진 촬영시간 정보와, 사진촬영 카메라 제조회사 정보와, 촬영 카메라 모델 정보와, 촬영할 때의 셔터 스피드 정보와, 사진을 촬영할 때의 색상 모드 정보와, 사진을 촬영할 때의 필름(디지털 카메라의 경우, CCD나 CMOS의 촬상 소자)의 감도를 나타내는 정보와, 사진을 촬영할 때의 플래쉬를 이용했는 지의 여부를 나타내는 정보와, 사진을 촬영할 때의 렌즈 조리개의 개방치를 나타내는 정 보와, 사진을 촬영할 때 사용한 광학 줌의 거리를 나타내는 정보와, 사진을 촬영할 때 초점 거리 정보와, 사진을 촬영할 때의 초점에 맞은 객체와 카메라와의 거리를 나타내는 정보와, 사진을 촬영할 때의 장소에 대한 GPS 정보와, 사진을 촬영할 때의 카메라의 방향을 나타내는 정보로써 사진의 첫번째 픽셀이 위치하는 방향을 나타내는 정보와, 사진을 촬영할 때 함께 녹음된 사운드를 나타내는 정보와, 사진촬영 후 카메라 내에서의 고속 브라우징을 위하여 저장된 썸네일 이미지 정보 중 적어도 하나를 포함하는 것이 바람직하다.
상기 사진의 내용에 대한 사람의 인지적 특성을 표현하는 서술 구조는 사진의 색상 표현의 화려함 정도를 나타내는 항목(avgColorfulness)과, 사진에 나타낸 전체 색상의 응집도를 나타내는 항목(avgColorCoherence)과, 사진에 포함된 내용의 정밀도를 나타내는 항목(avgLevelOfDetail)과, 사진 내용의 질감 정보의 균질성을 나타내는 항목(avgHomogenity)과, 사진 내용의 에지 정보의 강인성을 나타내는 항목(avgPowerOfEdge)과, 사진 내용의 카메라 초점의 심도를 나타내는 항목(avgDepthOfField)과, 카메라 셔터를 누르는 순간 발생한 흔들림 현상에 의해 사진 내용이 흐려진 정도를 나타내는 항목(avgBlurrness)과, 사진을 촬영할 때 고도의 플래쉬의 광량이 사용되었거나, 강한 광량의 외부 광원에 의해 사진의 내용이 빛에 가려진 정도를 나타내는 항목(avgGlareness)과, 사진의 전체적인 밝기 정보를 나타내는 항목(avgBrightness) 중 적어도 하나를 포함하는 것이 바람직하다.
상기 사진의 색상 표현의 화려함 정도를 나타내는 항목은, 색상 히스토그램으로부터 각 RGB 색상값의 히스토그램 높이와 전체 색상값의 분포도값을 정규화하 여 측정하거나, CIE L*u*v* 색상 공간을 이용하여 측정한 색상의 분포도값을 이용하여 측정되는 것이 바람직하다. 상기 사진의 색상 표현의 응집도를 나타내는 항목은 MPEG-7 비주얼 서술자 중 주 색상(Dominant Color) 서술자를 이용하여 측정가능하며, 색상 히스토그램으로부터 각 색상값의 히스토그램 높이와 전체 색상값의 분포도 값을 정규화하여 측정되는 것이 바람직하다.
상기 사진에 포함된 내용의 정밀도를 나타내는 항목은 사진의 픽셀 정보로부터 측정한 엔트로피를 이용하여 측정하거나, 사진의 실제 복잡성을 판단하는 요소인 isopreference 커브(curve)를 이용하여 측정하거나, 동일한 압축조건으로 압축했을 경우에 압축율을 비교하는 상대적 측정 방법에 의해 측정되는 것이 바람직하다. 상기 사진 내용의 질감 정보의 균질성을 나타내는 항목은 MPEG-7 비주얼 서술자중 텍스쳐 브라우징(Texture Browsing) 서술자의 특징값으로부터 질감의 균질함(regularity), 방향(direction), 크기(scale)를 이용하여 측정되는 것이 바람직하다.
상기 사진에 포함된 내용의 에지 정보의 강인성을 나타내는 항목은 사진으로부터 에지 정보를 추출하여, 추출된 에지 강도를 정규화하여 측정되는 것이 이 바람직하다. 상기 사진에 포함된 내용에 대한 카메라 초점의 심도를 나타내는 항목은 카메라 렌즈의 초점 거리, 렌즈의 지름 및 조리개 수치를 이용하여 측정되는 것이 바람직하다. 상기 카메라 셔터를 누르는 순간 발생한 흔들림 현상에 의해 사진 내용이 흐려진 정도를 나타내는 항목은 사진 내용의 에지 강도를 이용하여 측정되는 것이 바람직하다.
상기 강한 광량의 외부 광원에 의해 사진의 내용이 빛에 의해 가려진 정도를 나타내는 항목은 사진 픽셀 값의 밝기를 이용하여 측정되는 것이 바람직하다. 상기 사진의 전체적인 밝기 정보를 나타내는 항목은 사진 픽셀 값의 밝기를 이용하여 측정하는 것이 바람직하다.
상기 사진에 포함된 인물에 대한 정보를 표현하기 위한 서술 구조는 사진에 포함된 인물의 인원 수를 나타내는 항목과, 사진에 포함된 각 인물의 얼굴 위치 정보 및 인물이 입고 있는 옷 위치 정보를 나타내는 항목과, 사진에 포함된 인물들 간의 관계를 나타내는 항목을 포함하는 것이 바람직하다. 상기 사진에 포함된 각 인물의 얼굴 위치 정보 및 인물이 입고 있는 옷 위치 정보를 나타내는 항목은 해당 인물의 식별자와, 해당 인물의 얼굴 위치와, 인물이 입고 있는 옷의 위치를 포함하는 것이 바람직하다.
상기 사진에 포함된 인물들 간의 관계를 나타내는 항목은 관계를 나타내기 위한 두 사람 가운데 첫 번째 사람을 나타내는 항목과, 두 번째 사람을 나타내는 항목과, 두 사람 간의 관계를 나타내는 항목을 포함하는 것이 바람직하다. 상기 사진의 구도 정보를 표현하기 위한 서술 구조는 사진에 표현된 주된 부분이 배경인지 전경인지의 여부를 나타내는 항목과, 사진에 표현된 내용들 가운데 배경에 해당하는 부분의 위치를 나타내는 항목과, 배경에 해당하는 부분의 위치를 나타낸는 항목을 포함하는 것이 바람직하다.
상기 음악 앨범화 힌트 정보의 서술 구조는 음악을 녹음, 생성 및 편집할 당시의 정보를 표현하는 서술 구조와, 음악의 하이라이트 부분을 표현하는 서술 구조 와, 음악의 인지적 음질 수준을 표현하는 서술 구조와, 음악의 분위기에 대한 정보를 표현하는 서술 구조와, 음악을 재생하기에 적절한 상황에 대한 정보를 표현하는 서술 구조와, 음악과 관련된 사진이나 동영상에 대한 미디어 리소스 정보를 표현하는 서술 구조와, 음악의 인기도 또는 선호도를 표현하는 서술 구조 중 적어도 하나를 포함하는 것이 바람직하다.
음악을 녹음, 생성 및 편집할 당시의 정보를 표현하는 서술 구조는 MP3 파일의 경우 음악에 대한 메타데이터에 ID3 헤더 정보를 포함하고 있는지의 여부를 나타내는 서술 구조와, 음악의 제목을 나타내는 서술 구조와, 음악의 가수명이나 연주자명을 나타내는 서술 구조와, 음악의 장르를 나타내는 서술 구조와, 음악이 재생되는 총 재생 시간을 나타내는 서술 구조와, 음악의 가사 정보를 나타내는 서술 구조와, 음악의 언어를 나타내는 서술 구조 중 적어도 하나를 포함하는 것이 바람직하다. 상기 비디오 앨범화 힌트 정보의 서술 구조는 비디오에 포함된 주요 인물의 정보를 표현하기 위한 서술 구조와, 비디오에서 가장 하이라이트가 되는 부분을 표현하기 위한 서술 구조와, 비디오의 인기도나 선호도를 표현하기 위한 서술 구조를 포함하는 것이 바람직하다.
상기 서술된 앨범화 힌트정보는 미디어 서술 툴에 의해 내용 기반 특징값 메타데이터와 함께 미디어를 서술하는 메타데이터인 미디어 서술자를 생성하는 것이 바람직하다.
상기 (d) 단계는 상기 미디어 서술자를 이용하여 사진 데이터, 음악 데이터, 비디오 데이터 중 적어도 하나를 클러스터링하거나 인덱싱함이 바람직하다.
상기 사진데이터의 클러스터링 또는 인덱싱은 사진을 찍은 상황에 기반하여 사진을 앨범화하는 단계; 사진이 포함하고 있는 의미적 카테고리에 기반하여 사진을 앨범화하는 단계; 및 사진에 포함된 인물에 기반하여 사진을 앨범화하는 단계 중 적어도 하나를 포함하는 것이 바람직하다. 상기 음악 데이터 클러스터링 또는 인덱싱은 음악의 제목, 가수앨범, 장르, 언어, 재생 시간 등의 ID3 메타데이터에 기반하여 음악을 앨범화하는 단계; 및 음악의 분위기에 기반하여 음악을 앨범화하는 단계 중 적어도 하나를 포함하는 것이 바람직하다.
상기 비디오 데이터를 클러스터링 또는 인덱싱은 비디오 세그먼트의 기본 단위 샷(shot)에 기반하여 앨범화하는 단계; 샷보다 의미 정보를 많이 포함하고 있는 장면(scene)에 기반하여 비디오 데이터를 앨범화하는 단계; 비디오의 장르에 기반하여 앨범화하는 단계; 및 비디오에 포함된 인물에 기반하여 앨범화하는 단계 중 적어도 하나를 포함하는 것이 바람직하다. 상기 (d)단계는 미디어 앨범화 힌트 정보만 이용하여 앨범화를 수행하는 단계; 및 미디어 앨범화 힌트와 내용 기반 특징값을 조합하여 앨범화를 수행하는 단계 중 적어도 하나를 포함하는 것이 바람직하다.
상술한 기술적 과제를 해결하기 위한 본 발명에 의한 멀티미디어 앨범화 시스템은 미디어 앨범화 힌트 서술구조를 제공하는 미디어 앨범화 힌트 서술구조 제공부; 상기 미디어 앨범화 힌트 서술구조 제공부에 의해 제공된 미디어 앨범화 힌트 서술구조에 따라 멀티미디어 컨텐츠로부터 앨범화 힌트 정보를 추출하여 앨범화 힌트를 서술하는 앨범화 힌트 추출부; 상기 서술된 앨범화 힌트 정보를 이용하여 미디어 서술자를 생성하는 미디어 서술부; 및 상기 미디어 서술자를 이용하여 멀티미디어 컨텐츠들을 앨범화하는 미디어 앨범화부를 포함함을 특징으로 한다.
상기 멀티미디오 앨범화 시스템은 앨범화된 결과를 이용하여 멀티미디어 컨텐츠의 앨범 정보를 관리하기 위한 앨범 메타데이터를 생성하는 미디어 앨범 서술부; 및 앨범화된 멀티미디어 컨텐츠 및 앨범화와 관련된 앨범 메타데이터를 저장하는 데이터베이스를 더 포함하는 것이 바람직하다.
상기 멀티미디어 앨범화 시스템은 멀티미디어 컨텐츠 획득 장치로부터 컨텐츠를 획득하고 전처리를 수행하는 미디어 획득부; 및 장치로부터 획득된 멀티미디어 컨텐츠 및 컨텐츠에 대응되는 메타데이터를 입력 받는 미디어 입력부를 더 포함함이 바람직하다.
상기 앨범화 힌트 추출부의 앨범화 힌트 정보는 사진 앨범화 힌트 정보, 음악 앨범화 힌트 정보, 비디오 앨범화 힌트 정보를 포함하는 것이 바람직하다. 상기 사진 앨범화 힌트정보에 대한 서술구조는 사진 촬영 당시의 정보 및 카메라 정보를 표현하는 서술 구조와, 사진의 내용에 대한 사람의 인지적 특성을 표현하는 서술 구조와, 사진에 포함된 인물 정보를 표현하는 서술 구조와, 사진의 구도 정보를 표현하는 서술 구조와, 사진의 인기도 정보를 표현하는 서술 구조 중 적어도 하나를 포함하는 것이 바람직하다. 상기 음악 앨범화 힌트 정보의 서술 구조는 음악을 녹음, 생성 및 편집할 당시의 정보를 표현하는 서술 구조와, 음악의 하이라이트 부분을 표현하는 서술 구조와, 음악의 인지적 음질 수준을 표현하는 서술 구조와, 음악의 분위기에 대한 정보를 표현하는 서술 구조와, 음악을 재생하기에 적절한 상황에 대한 정보를 표현하는 서술 구조와, 음악과 관련된 사진이나 동영상에 대한 미디어 리소스 정보를 표현하는 서술 구조와, 음악의 인기도 또는 선호도를 표현하는 서술 구조 중 적어도 하나를 포함하는 것이 바람직하다.
상기 비디오 앨범화 힌트 정보의 서술 구조는 비디오에 포함된 주요 인물의 정보를 표현하기 위한 서술 구조와, 비디오에서 가장 하이라이트가 되는 부분을 표현하기 위한 서술 구조와, 비디오의 인기도나 선호도를 표현하기 위한 서술 구조를 포함하는 것이 바람직하다.
상기 서술된 앨범화 힌트정보는 미디어 서술 툴에 의해 내용 기반 특징값 메타데이터와 함께 미디어를 서술하는 메타데이터인 미디어 서술자를 생성하는 것이 바람직하다. 상기 미디어 앨범화부는 상기 미디어 서술자를 이용하여 사진 데이터를 클러스터링하거나 인덱싱하는 사진데이터 앨범화부; 상기 미디어 서술자를 이용하여 음악 데이터를 클러스터링하거나 인덱싱하는 음악데이터 앨범화부; 및 상기 미디어 서술자를 이용하여 비디오 데이터를 클러스터링하거나 인덱싱하는 비디오 데이터 앨범화부 중 적어도 하나를 포함함이 바람직하다.
상기 사진데이터 앨범화부는 사진을 찍은 상황에 기반하여 사진을 앨범화하는 상황기반 사진 앨범화부; 사진이 포함하고 있는 의미적 카테고리에 기반하여 사진을 앨범화하는 카테고리기반 사진앨범화부; 및 사진에 포함된 인물에 기반하여 사진을 앨범화하는 인물기반 사진앨범화부 중 적어도 하나를 포함하는 것이 바람직하다. 상기 음악 데이터 앨범화부는 음악의 제목, 가수앨범, 장르, 언어, 재생 시간 정보 중 적어도 하나를 포함하는 ID3 메타데이터에 기반하여 음악을 앨범화하는 ID3기반 음악앨범화부; 및 음악의 분위기에 기반하여 음악을 앨범화하는 분위기 기반 음악앨범화부 중 적어도 하나를 포함하는 것이 바람직하다. 상기 비디오 데이터 앨범화부는 비디오 세그먼트의 기본 단위 샷(shot)에 기반하여 앨범화하는 샷기반 비디오 앨범화부; 샷보다 의미 정보를 많이 포함하고 있는 장면(scene)에 기반하여 비디오 데이터를 앨범화하는 장면기반 비디오 앨범화부; 비디오의 장르에 기반하여 앨범화하는 장르기반 비디오 앨범화부; 및 비디오에 포함된 인물에 기반하여 앨범화하는 인물기반 비디오 앨범화부 중 적어도 하나를 포함하는 것이 바람직하다. 상기 미디어 앨범화부는 미디어 앨범화 힌트 정보만 이용하여 앨범화를 수행하거나, 미디어 앨범화 힌트와 내용 기반 특징값을 조합하여 앨범화를 수행함이 바람직하다.
그리고 상기 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 먼저, 도 1은 본 발명의 일실시예에 따른 멀티미디어 앨범화 시스템의 구성을 블록도로 도시한 것으로서, 미디어 앨범화힌트 서술구조 제공부(120), 미디어 앨범화힌트 추출부(130), 미디어 서술부(140) 및 미디어 앨범화부(150)를 포함하여 이루어진다. 상기 본 발명에 의한 멀티미디어 앨범화 시스템은 미디어 앨범 서술부(160) 및 데이터베이스(170)을 더 포함함이 바람직하다. 또한 미디어획득부(100) 및 미디어 입력부(110)를 더 포함함이 바람직하다. 도 2는 본 발명에 의한 멀티미디어 앨범화 방법을 흐름도로 도시한 것이다. 도 1 및 도 2를 참조하여 본 발명에 의한 멀 티미디어 앨범화 시스템의 구성과 동작 및 앨범화 방법을 설명하기로 한다.
도 1을 참조하면, 상기 미디어획득부(Media Acquistion, 100)는 멀티미디어 컨텐츠 획득 장치로부터 컨텐츠를 획득하고 전처리를 수행한다.(200단계) 상기 미디어 획득부(100)는 디지털 촬영 장치나 녹음 장치를 통하여 사진, 음악, 비디오 등의 멀티미디어를 획득한다. 상기 미디어획득부(100)는 멀티미디어 컨텐츠를 생성하는 부분으로 미디어 데이터 및 미디어 획득과 관련된 메타데이터를 생성하는 미디어 전처리 툴(Media Pre-processing Tool, 102)을 포함한다. 상기 미디어 획득부(100)에서 획득된 멀티미디어 데이터 및 대응되는 메타데이터는 미디어 입력부(Media Input, 110)로 전달된다.
상기 미디어입력부(110)는 상기 획득된 멀티미디어 컨텐츠 및 컨텐츠에 대응되는 메타데이터를 입력 받는다.(210단계) 상기 미디어 입력부(110)는 미디어 데이터(Media, 112)뿐만 아니라, 미디어 데이터에 대응되는 기본 메타데이터(Basic Metadata, 114)를 포함한다. 상기 기본 메타데이터(1140)는 멀티미디어 데이터를 획득하거나 생성함에 의해 서술되는 메타데이터로서, JPEG 사진 파일의 Exif 메타데이터, MP3 음악 파일의 ID3 메타데이터, MPEG 비디오 파일의 압축 관련 메타데이터 등을 포함할 수 있으나, 상기 예에 기본 메타데이터(114)가 한정되지는 않는다.
입력된 미디어(112)와 해당 미디어에 대응되는 기본 메타데이터(114) 정보는 앨범화 힌트 정보를 추출하는 미디어 앨범화 힌트 추출부(Media Albuming Hint Extraction Tool, 130)로 전달된다.
상기 미디어 앨범화 힌트 서술구조 제공부(120)는 미디어 앨범화 힌트 서술 구조를 제공한다.
상기 앨범화 힌트 추출부(130)는 상기 미디어 앨범화 힌트 서술구조 제공부(120)에 의해 제공된 미디어 앨범화 힌트 서술구조에 따라 멀티미디어 컨텐츠로부터 앨범화 힌트 정보를 추출하여(220단계), 앨범화 힌트를 서술한다.(230단계) 상기 미디어 앨범화 힌트 추출부(130)는 멀티미디어 데이터를 획득하는 과정에서 얻은 정보와 같은 비교적 얻기 쉬운 정보이지만 앨범화에 중요하게 사용될 수 있는 정보를 앨범화의 힌트 정보로 활용함으로써, 멀티미디어 컨텐츠를 컨텐츠가 가지고 있는 의미 정보로 인덱싱하거나 클러스터링하는 앨범화 기능의 성능을 보다 향상시키고, 앨범화에 소요되는 계산 복잡도를 줄임으로써 보다 빠른 앨범화 수행에 도움을 준다.
도 3은 미디어 앨범화 힌트 추출부(130)를 이용하여 추출한 미디어 앨범화 힌트 서술 구조를 나타낸다. 도 3에서, 미디어 앨범화 힌트 서술 구조(4000)는 사진과 같은 이미지 미디어에 대한 앨범화 힌트 정보 서술 구조(Photo Albuming Hints, 7000), 음악과 같은 오디오 미디어에 대한 앨범화 힌트 정보 서술 구조(Music Albuming Hints, 8000), 비디오 미디어에 대한 앨범화 힌트 정보 서술 구조(Video Albuming Hints, 9000)를 포함한다.
도 4는 상기 사진앨범힌트 정보 서술 구조(7000)를 상세하게 도시한 구조도이다. 도 4를 참조하면, 사진앨범힌트 정보 서술 구조(7000)는 사진을 촬영할 당시의 정보 및 카메라 정보 등을 표현하기 위한 서술 구조(Acquisition Hints, 7100), 사진의 내용에 대한 사람의 인지적 특성을 표현하기 위한 서술 구 조(Perception Hints, 7200), 사진에 포함된 인물에 대한 정보를 표현하기 위한 서술 구조(Subject Hints, 7300), 사진의 구도(view) 정보를 표현하기 위한 서술 구조(View Hints, 7400), 사진의 인기도 정보를 표현하기 위한 서술 구조(Popularity, 7500)를 포함함이 바람직하다.
도 5는 사진을 촬영할 당시의 정보 및 카메라 정보 등을 표현하기 위한 사진 획득 힌트 서술 구조(7100)를 상세하게 도시한 구조도이다. 도 5를 참조하면, 사진 획득힌트 서술 구조(7100)는 사진 앨범화에 사용될 수 있는 기본적인 사진 촬영 정보 및 카메라 정보를 포함한다. 일반적으로 사진 데이터는 JPEG 형식으로 압축이 되며, JPEG 파일 내에는 사진을 촬영할 때의 촬영 정보 및 카메라 설정 정보를 포함하고 있는 Exif 정보가 존재하게 된다. 상기 메타데이터는 내용 기반 특징값에 의한 사진 인덱싱의 성능을 향상시키는데 도움을 줄 수 있다. 상기 사진 획득 힌트 서술 구조(7100)는 해당 사진 데이터가 Exif 정보를 메타데이터로 포함하고 있는 지의 여부를 나타내는 정보(ExifAvailable, 7110), 사진을 촬영한 촬영자 정보(Artist, 7120), 사진을 촬영한 시간 정보(takenDateTime, 7121), 사진을 촬영한 카메라를 생산한 회사 정보(Manufacturer, 7122), 사진을 촬영한 카메라 모델 정보(CameraModel, 7123), 사진을 촬영할 때의 셔터(shutter) 스피드 정보(ShutterSpeed, 7124), 사진을 촬영할 때의 색상 모드 정보(ColorMode, 7125), 사진을 촬영할 때의 필름(디지털 카메라의 경우, CCD나 CMOS의 촬상 소자)의 감도를 나타내는 정보(ISO, 7126), 사진을 촬영할 때의 플래쉬를 이용했는 지의 여부를 나타내는 정보(Flash, 7127), 사진을 촬영할 때의 렌즈 조리개의 개방치를 나타내 는 정보(Aperture, 7128), 사진을 촬영할 때 사용한 광학 줌의 거리를 나타내는 정보(ZoomingDistance, 7129), 사진을 촬영할 때 초점 거리를 나타내는 정보(FocalLength, 7130), 사진을 촬영할 때의 초점에 맞은 객체와 카메라와의 거리를 나타내는 정보(SubjectDistance, 7131), 사진을 촬영할 때의 장소에 대한 GPS 정보(GPS, 7132), 사진을 촬영할 때의 카메라의 방향을 나타내는 정보로써 사진 이미지의 첫번째 픽셀이 위치하는 방향을 나타내는 정보(Orientation, 7133), 사진을 촬영할 때 함께 녹음된 사운드를 나타내는 정보(relatedSoundClip, 7134), 사진을 촬영한 후, 카메라 내에서의 고속 브라우징을 위하여 저장된 썸네일 이미지를 나타내는 정보(ThumbnailImage, 7135)를 포함함이 바람직하다.
상기 정보는 Exif 메타데이터 내에 존재하는 정보이지만, 사진 앨범화에 유용하게 사용될 수 있는 정보이다. 만일 사진파일이 Exif 메타데이터를 포함하고 있다면, 더 많은 정보를 이용할 수 있지만, 사진 파일이 Exif 메타데이터를 포함하고 있지 않은 경우가 있을 수 있으므로, 중요한 메타데이터를 사진 앨범화 힌트로 서술한다. 사진획득 힌트 서술 구조의 요소들은 상기 중요 사진 획득 힌트 서술 구조의 요소들을 포함하지만, 상기 요소들에 한정되지는 않는다.
도 6은 사람이 인지하는 사진의 내용의 인지적 특성들을 표현하기 위한 사진 인지 힌트 서술 구조(7200)을 상세하게 도시한 구조도이다. 도 6을 참조하면, 사진인지 힌트 서술 구조(7200)는 사람의 인지적 특성 정보를 표현하는 서술 구조로서, 사람이 사진의 내용을 직관적으로 인지하는 특성에 대한 정보를 포함한다. 사람이 사진을 볼 때, 일반적으로 가장 강하게 느껴지는 느낌이 존재하게 된다.
도 7은 사람이 노을 사진을 볼 때에 일반적으로 인지하는 직관적 느낌을 도시한 예이다. 도 7에서, 아랫 부분은 매우 검고 단조로우며, 윗 부분은 붉그스름하고 단조롭고, 중간 부분은 상대적으로 매우 밝고 노란색이 눈에 띈다. 전체적으로는 매우 단조롭고, 두가지 정도의 색상이 강하게 느껴진다. 사람의 임의의 두 사진을 비교할 때, 두 사진의 직관적 느낌이 비슷하다면, 두 사진이 매우 비슷하다고 느끼게 된다. 다시 말해, 사진에 존재하는 가장 강한 특징 정보가 비슷하다는 것이다. 이러한 인지적 특징 정보는 다중의 내용 기반 특징값을 이용한 사진 앨범화에서, 각 특징값의 중요도를 설정하는데 중요한 역할을 수행할 수 있다.
도 6에서, 인지 힌트 서술 구조(7200)는, 사진의 색상 표현의 화려함 정도를 나타내는 항목(avgColorfulness, 7210), 사진에 나타낸 전체 색상의 응집도를 나타내는 항목(avgColorCoherence, 7220), 사진에 포함된 내용의 정밀도를 나타내는 항목(avgLevelOfDetail, 7230), 사진 내용의 질감 정보의 균질성을 나타내는 항목(avgHomogenity, 7240), 사진에 포함된 내용의 에지 정보의 강인성을 나타내는 항목(avgPowerOfEdge, 7250), 사진에 포함된 내용에 대한 카메라 초점의 심도를 나타내는 항목(avgDepthOfField, 7260), 카메라 셔터를 누르는 순간 발생한 흔들림 현상에 의해 사진 내용이 흐려진 정도를 나타내는 항목(avgBlurrness, 7270), 사진을 촬영할 때 고도의 플래쉬의 광량이 사용되었거나, 강한 광량의 외부 광원에 의해 사진의 내용이 빛에 의해 가려진 정도를 나타내는 항목(avgGlareness, 7280), 사진의 전체적인 밝기 정보를 나타내는 항목(avgBrightness, 7290)을 포함하는 것을 특징으로 한다.
사진의 색상 표현의 화려함 정도를 나타내는 항목(7210)은 색상 히스토그램으로부터 각 RGB 색상값의 히스토그램 높이와 전체 색상값의 분포도값을 정규화하여 측정하거나, CIE L*u*v* 색상 공간을 이용하여 측정한 색상의 분포도값을 이용하여 측정할 수 있다. 그러나, 사진의 색상 표현의 화려함 정도를 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
사진의 색상 표현의 응집도를 나타내는 항목(7220)은 MPEG-7 비주얼 서술자 중 Dominant Color 서술자를 이용하여 측정할 수 있으며, 색상 히스토그램으로부터 각 색상값의 히스토그램 높이와 전체 색상값의 분포도 값을 정규화하여 측정할 수 있다. 그러나, 사진의 색상 표현의 응집도를 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
사진에 포함된 내용의 정밀도를 나타내는 항목(7230)은 사진의 픽셀 정보로부터 측정한 엔트로피를 이용하여 측정하거나, 사진의 실제 복잡성을 판단하는 요소인 ‘isopreference curve’를 이용하여 측정하거나, 동일 조건(영상 크기, 양자화 스텝 등)을 가지고 압축했을 경우에 압축율을 비교하는 상대적 측정 방법에 의해 측정될 수 있다. 그러나, 사진에 포함된 내용의 정밀도를 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
사진 내용의 질감 정보의 균질성을 나타내는 항목(7240)은 MPEG-7 비주얼 서술자중 Texture Browsing 서술자의 특징값으로부터 질감의 균질함(regularity), 방향(direction), 크기(scale) 등을 이용하여 측정할 수 있다. 그러나, 사진 내용의 질감 정보의 균질성을 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
사진에 포함된 내용의 에지 정보의 강인성을 나타내는 항목(7250)은 사진으로부터 에지 정보를 추출하여, 추출된 에지 강도를 정규화하여 측정할 수 있다. 그러나, 사진에 포함된 내용의 에지 정보의 강인성을 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
사진에 포함된 내용에 대한 카메라 초점의 심도를 나타내는 항목(7260)은 일반적으로 카메라 렌즈의 초점 거리, 렌즈의 지름, 조리개 수치 등을 이용하여 측정할 수 있다. 그러나, 사진에 포함된 내용에 대한 카메라 초점의 심도를 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
카메라 셔터를 누르는 순간 발생한 흔들림 현상에 의해 사진 내용이 흐려진 정도를 나타내는 항목(7270)은 사진 내용의 에지 강도를 이용하여 측정할 수 있다. 그러나, 카메라 셔터를 누르는 순간 발생한 흔들림 현상에 의해 사진 내용이 흐려진 정도를 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
강한 광량의 외부 광원에 의해 사진의 내용이 빛에 의해 가려진 정도를 나타내는 항목(7280)은 사진의 일부 혹은 전체 영역에 걸쳐 기준치 이상의 광원이 찍힌 경우(과다 노출의 경우)를 나타내는 값으로, 사진 픽셀 값의 밝기를 이용하여 측정할 수 있다. 그러나, 강한 광량의 외부 광원에 의해 사진의 내용이 빛에 의해 가려진 정도를 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
사진의 전체적인 밝기 정보를 나타내는 항목(7290)은 사진 픽셀 값의 밝기를 이용하여 측정할 수 있다. 그러나, 사진의 전체적인 밝기 정보를 나타내는 항목을 측정하는 방법이 상기 방법에 한정되지는 않는다.
도 8의 (a)는 인물에 대한 정보를 나타내는 인물 힌트(Subject Hints, 7300)의 서술 구조를 상세하게 도시한 구조도를 나타낸다.
도 8의 (a)를 참조하면, 인물 힌트(7300)는 사진에 포함된 인물의 인원 수를 나타내는 항목(numOfPersons, 7310), 사진에 포함된 각 인물의 얼굴 위치 정보 및 인물이 입고 있는 옷 위치 정보를 나타내는 항목(PersionIdentityHints, 7320), 사진에 포함된 인물들 간의 관계를 나타내는 항목(InterPersonRelationshipHints, 7330)을 포함함이 바람직하다.
사진에 포함된 각 인물의 얼굴 위치 정보 및 인물이 입고 있는 옷 위치 정보를 나타내는 항목(7320)은 해당 인물의 식별자(PersonID, 7321), 해당 인물의 얼굴 위치(facePosition, 7322), 인물이 입고 있는 옷의 위치(clothPosition, 7323)를 포함하는 것을 특징으로 한다. 도 8의 (b)는 사진에 포함된 인물의 얼굴 위치 및 인물이 입고 있는 옷의 위치를 도시한 예이다.
사진에 포함된 인물들 간의 관계를 나타내는 항목(7330)은 관계를 나타내기 위한 두 사람 가운데 첫 번째 사람을 나타내는 항목(PersonID1, 7331), 두 번째 사람을 나타내는 항목(PersonID2, 7332), 두 사람 간의 관계를 나타내는 항목(Relation, 7333)을 포함하는 것을 특징으로 한다.
도 9의 (a)는 사진의 구도 힌트(View Hints, 7400)의 서술 구조를 상세하게 도시한 구조도를 나타낸다. 도 9의 (a)를 참조하면, 구도 힌트(7400)는 사진에 표현된 주된 부분이 배경인지 전경인지의 여부를 나타내는 항목(centricView, 7410), 사진에 표현된 내용들 가운데 배경에 해당하는 부분의 위치를 나타내는 항목(foregroundRegion, 7420), 배경에 해당하는 부분의 위치를 나타낸는 항목(backgroundRegion, 7430)을 포함함이 바람직하다.
표 1은 상기 효과적인 멀티미디어 앨범화를 위해 필요한 힌트 파라미터들을 표현하기 위한 서술 구조를 XML 형식으로 표현한 것이다. 도 10은 본 발명에 의한 멀티미디어 앨범화를 위한 힌트 파라미터 서술 구조를 XML 스키마로 표현한 블록도이다.
<complexType name="MediaAlbumingHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="PhotoAlbumingHints" type="mpeg7:PhotoAlbumingHintsType" minOccurs="0"/> <element name="MusicAlbumingHints" type="mpeg7:MusicAlbumingHintsType" minOccurs="0"/> <element name="VideoAlbumingHints" type="mpeg7:VideoAlbumingHintsType" minOccurs="0"/> </sequence> </extension> </complexContent> </complexType> |
표 2는 상기 효과적인 멀티미디어 앨범화를 위해 필요한 힌트 파라미터들가운데 사진 앨범화를 위해 필요한 힌트 파라미터들을 표현하기 위한 서술 구조를 XML 형식으로 표현한 것이고, 도 11은 본 발명에 의한 사진 앨범화를 위한 힌트 파라미터 서술 구조를 XML 스키마로 표현한 블록도이다.
<complexType name="PhotoAlbumingHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="AcquisitionHints" type="mpeg7:AcquisitionHintsType" minOccurs="0"/> <element name="PerceptionHints" type="mpeg7:PerceptionHintsType" minOccurs="0"/> <element name="SubjectHints" type="mpeg7:SubjectHintsType" minOccurs="0"/> <element name="ViewHints" type="mpeg7:ViewHintsType" minOccurs="0"/> <element name="Popularity" type="mpeg7:zeroToOneType" minOccurs="0"/> </sequence> </extension> </complexContent> </complexType> |
표 3은 상기 효과적인 사진 앨범화를 위해 필요한 힌트 파라미터들 가운데, 사진을 촬영할 당시의 정보 및 카메라 정보 등을 표현하기 위한 서술 구조를 XML 형식으로 표현한 것이고, 도 12는 본 발명에 의한 사진을 촬영할 당시의 정보 및 카메라 정보 등을 표현하기 위한 서술 구조를 XML 스키마로 표현한 블록도이다.
<complexType name="AcquisitionHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="CameraModel" type="mpeg7:TextualType"/> <element name="Manufacturer" type="mpeg7:TextualType"/> <element name="ColorMode" type="mpeg7:TextualType"/> <element name="Aperture" type="nonNegativeInteger"/> <element name="FocalLength" type="nonNegativeInteger"/> <element name="ISO" type="nonNegativeInteger"/> <element name="ShutterSpeed" type="nonNegativeInteger"/> <element name="Flash" type="boolean"/> <element name="Zoom" type="nonNegativeInteger"/> <element name="SubjectDistance" type="nonNegativeInteger"/> <element name="Orientation" type="mpeg7:TextualType"/> <element name="Artist" type="mpeg7:TextualType"/> <element name="LightSource" type="mpeg7:TextualType"/> <element name="GPS" type="mpeg7:TextualType"/> <element name="relatedSoundClip" type="mpeg7:MediaLocatorType"/> <element name="ThumbnailImage" type="mpeg7:MediaLocatorType"/> </sequence> <attribute name="ExifAvailable" type="boolean" use="optional"/> </extension> </complexContent> </complexType> |
표 4는 상기 효과적인 사진 앨범화를 위해 필요한 힌트 파라미터들 가운데, 사진의 내용에 대한 사람의 인지적 특성을 표현하기 위한 서술 구조를 XML 형식으로 표현한 것이고, 도 13는 본 발명에 의한 사진의 내용에 대한 사람의 인지적 특성을 표현하기 위한 서술 구조를 XML 스키마로 표현한 블록도이다.
<complexType name="PerceptionHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="avgColorfulness" type="mpeg7:zeroToOneType"/> <element name="avgColorCoherence" type="mpeg7:zeroToOneType"/> <element name="avgLevelOfDetail" type="mpeg7:zeroToOneType"/> <element name="avgDepthOfField" type="mpeg7:zeroToOneType"/> <element name="avgHomogeneity" type="mpeg7:zeroToOneType"/> <element name="avgPowerOfEdge" type="mpeg7:zeroToOneType"/> <element name="avgBlurrness" type="mpeg7:zeroToOneType"/> <element name="avgGlareness" type="mpeg7:zeroToOneType"/> <element name="avgBrightness" type="mpeg7:zeroToOneType"/> </sequence> </extension> </complexContent> </complexType> |
표 5는 상기 효과적인 사진 앨범화를 위해 필요한 힌트 파라미터들 가운데, 사진에 포함된 인물에 대한 정보를 표현하기 위한 서술 구조를 XML 형식으로 표현한 것이고, 도 14는 본 발명에 의한 사진에 포함된 인물에 대한 정보를 표현하기 위한 서술 구조를 XML 스키마로 표현한 블록도이다.
표 6은 상기 효과적인 사진 앨범화를 위해 필요한 힌트 파라미터들 가운데, 사진의 구도 정보를 표현하기 위한 서술 구조를 XML 형식으로 표현한 것이고, 도 15는 본 발명에 의한 사진의 구도 정보를 표현하기 위한 상세 서술 구조를 XML 스키마로 표현한 블록도이다.
<complexType name="SubjectHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="numOfPeople" type="nonNegativeInteger"/> <element name="PersonIdentityHints"> <complexType> <complexContent> <extension base="mpeg7:DType"> <sequence> <element name="FacePosition" minOccurs="0"> <complexType> <attribute name="xLeft" type="nonNegativeInteger" use="required"/> <attribute name="xRight" type="nonNegativeInteger" use="required"/> <attribute name="yDown" type="nonNegativeInteger" use="required"/> <attribute name="yUp" type="nonNegativeInteger" use="required"/> </complexType> </element> <element name="ClothPosition" minOccurs="0"> <complexType> <attribute name="xLeft" type="nonNegativeInteger" use="required"/> <attribute name="xRight" type="nonNegativeInteger" use="required"/> <attribute name="yDown" type="nonNegativeInteger" use="required"/> <attribute name="yUp" type="nonNegativeInteger" use="required"/> </complexType> </element> </sequence> <attribute name="PersonID" type="IDREF" use="optional"/> </extension> </complexContent> </complexType> </element> <element name="InterPersonRelationshipHints"> <complexType> <complexContent> <extension base="mpeg7:DType"> <sequence> <element name="Relation" type="mpeg7:TextualType"/> </sequence> <attribute name="PersonID1" type="IDREF" use="required"/> <attribute name="PersonID2" type="IDREF" use="required"/> </extension> </complexContent> </complexType> </element> </sequence> </extension> </complexContent> </complexType> |
<complexType name="ViewHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="ViewType"> <simpleType> <restriction base="string"> <enumeration value="closeUpView"/> <enumeration value="perspectiveView"/> </restriction> </simpleType> </element> <element name="ForegroundRegion" type="mpeg7:RegionLocatorType"/> <element name="BackgroundRegion" type="mpeg7:RegionLocatorType"/> </sequence> </extension> </complexContent> </complexType> |
도 15는 상기 음악 앨범 힌트 정보 서술 구조(8000)를 상세하게 도시한 구조도이다. 도 15에서, 음악 앨범 힌트 정보 서술 구조(8000)는 음악을 녹음 또는 생성 및 편집할 당시의 정보를 표현하기 위한 서술 구조(RecordingHints, 8100), 음악에서 하이라이트가 되는 부분을 표현하기 위한 서술 구조(HightlightBar, 8200), 음악의 인지적 음질 수준을 표현하기 위한 서술 구조(PerceptualQuality, 8300), 음악의 분위기에 대한 정보를 표현하기 위한 서술 구조(MoodHints, 8400), 음악을 재생하기에 적절한 상황에 대한 정보를 표현하기 위한 서술 구조(SituationHints, 8500), 음악과 관련된 사진이나 동영상에 대한 미디어 리소스 정보를 표현하기 위한 서술 구조(relatedMedia, 8600), 음악의 인기도 또는 선호도를 표현하기 위한 서술 구조(Popularity, 8700)을 포함하는 것을 특징으로 한다.
도 16은 음악을 녹음 또는 생성 및 편집할 당시의 정보를 표현하기 위한 서술 구조(8100)를 상세하게 도시한 구조도이다. 도 16에서, 음악을 녹음 또는 생성 및 편집할 당시의 정보를 표현하기 위한 서술 구조(8100)는 MP3 파일의 경우 음악에 대한 메타데이터에 ID3 헤더 정보를 포함하고 있는지의 여부를 나타내는 서술 구조(ID3Available, 8110), 음악의 제목을 나타내는 서술 구조(Title, 8120), 음악의 가수명이나 연주자명을 나타내는 서술 구조(Artist, 8130), 음악의 장르를 나타내는 서술 구조(Genre, 8140), 음악이 재생되는 총 재생 시간을 나타내는 서술 구조(PlayingTime, 8150), 음악의 가사 정보를 나타내는 서술 구조(Lyrics, 8160), 음악의 언어를 나타내는 서술 구조(Language, 8170)을 포함하는 것을 특징으로 한다. 그러나, 음악을 녹음 또는 생성 및 편집할 당시의 정보를 표현하기 위한 서술 구조가 상기 항목에 한정되지는 않는다.
음악에서 하이라이트가 되는 부분을 표현하기 위한 서술 구조(8200)는 음악에서 가장 중요한 부분에 해당되는 구간을 시간으로 표현하는 것을 특징으로 한다.
음악의 인지적 음질 수준을 표현하기 위한 서술 구조(8300)은 음악의 주관적 음질 수준을 정규화된 수치로 표현하는 것을 특징으로 한다.
음악의 분위기에 대한 정보를 표현하기 위한 서술 구조(8400)은 음악의 분위기(mood)에 대한 정보를 표현하기 위한 서술 구조로써, 조용함, 엄숙함, 밝음, 가벼움, 사랑, 행복, 그리움, 이별, 휴식, 기쁨, 축하 등의 느낌을 표현하는 것을 특징으로 한다.
음악을 재생하기에 적절한 상황 정보를 표현하기 위한 서술 구조(8500)는 날씨별 상황(햇빛나는 날, 구름낀 날, 비오는 날, 눈오는 날)이나, 장소별 상황(집, 사무실, 여행, 해변, 산, 드라이브, 클럽, 레스토랑) 등과 같은 정보를 표현하는 것을 특징으로 한다.
음악과 관련된 사진이나 동영상에 대한 미디어 리소스 정보를 표현하기 위한 서술 구조(8600)은 음악과 관련된 사진(가수 포스터, 앨범 자켓 사진 등)이나, 동영상(뮤직 비디오, 가수 인터뷰 동영상 등) 등과 같은 정보를 표현하는 것을 특징으로 한다.
표 7은 상기 효과적인 음악 앨범화를 위해 필요한 힌트 파라미터를 XML 형식으로 표현한 것이고, 도 17은 본 발명에 의한 음악 앨범화를 위해 필요한 힌트 파라미터를 위한 서술 구조를 XML 스키마로 표현한 블록도이다.
<complexType name="MusicAlbumingHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="RecordingHints" type="mpeg7:RecordingHintsType"/> <element name="HighlightBar" type="mpeg7:TemporalSegmentLocatorType"/> <element name="PerceptualQuality" type="mpeg7:zeroToOneType"/> <element name="MoodHints" type="mpeg7:TextualType"/> <element name="SituationHints" type="mpeg7:TextualType"/> <element name="relatedMedia" type="mpeg7:MediaLocatorType"/> <element name="Popularity" type="mpeg7:zeroToOneType"/> </sequence> </extension> </complexContent> </complexType> <complexType name="RecordingHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="Title" type="mpeg7:TextualType"/> <element name="Artist" type="mpeg7:TextualType"/> <element name="Album" type="mpeg7:TextualType"/> <element name="Genre" type="mpeg7:TextualType"/> <element name="PlayingTime" type="mpeg7:timePointType"/> <element name="Lyrics" type="mpeg7:TextualType"/> <element name="Language" type="mpeg7:TextualType"/> </sequence> <attribute name="ID3Available" type="boolean" use="optional"/> </extension> </complexContent> </complexType> |
도 18은 상기 비디오 앨범 힌트 정보 서술 구조(9000)를 상세하게 도시한 구조도이다. 도 18을 참조하면, 비디오 앨범 힌트 정보 서술 구조(9000)는 비디오에 포함된 주요 인물의 정보를 표현하기 위한 서술 구조(MainCharacter, 9100), 비디오에서 가장 하이라이트가 되는 부분을 표현하기 위한 서술 구조(HighlightSegment, 9200), 비디오의 인기도나 선호도를 표현하기 위한 서술 구조(Popularity, 9300)을 포함하는 것을 특징으로 한다.
표 8은 상기 효과적인 비디오 앨범화를 위한 힌트 파라미터를 XML 형식으로 표현한 것이고, 도 19는 본 발명에 의한 비디오 앨범화를 위해 필요한 힌트 파라미터를 위한 서술 구조를 XML 스키마로 표현한 블록도이다.
<complexType name="VideoAlbumingHintsType"> <complexContent> <extension base="mpeg7:DSType"> <sequence> <element name="MainCharacter" type="mpeg7:PersonType"/> <element name="HighlightSegment" type="mpeg7:TemporalSegmentLocatorType"/> <element name="Popularity" type="mpeg7:zeroToOneType"/> </sequence> </extension> </complexContent> </complexType> |
상기 미디어서술부(140)는 상기 서술된 앨범화 힌트 정보를 이용하여 미디어 서술자를 생성한다. 즉, 상기 서술된 앨범화 힌트는 미디어 서술부(140)에 전달되어 미디어 서술툴(Media Description Tool)에 의해 내용기반 특징값 메타데이터와 같은 다른 메타데이터와 함께 미디어를 서술하는 메타데이터인 미디어 서술자를 생성한다.(240단계)
상기 미디어앨범화부(150)는 상기 미디어 서술자를 이용하여 멀티미디어 컨텐츠들을 앨범화하며(250단계), 도 20에 도시된 바와 같이 사진데이터 앨범화부(20), 음악데이터 앨범화부(22) 및 비디오 데이터 앨범화부(24)를 포함하여 이루어진다. 상기 사진데이터 앨범화부(20)는 상기 미디어 서술자를 이용하여 사진 데이터를 클러스터링하거나 인덱싱하며, 도 21에 도시된 바와 같이 사진을 찍은 상황에 기반하여 사진을 앨범화하는 상황기반 사진 앨범화부(2100), 사진이 포함하고 있는 의미적 카테고리에 기반하여 사진을 앨범화하는 카테고리기반 사진앨범화부(2110) 및 사진에 포함된 인물에 기반하여 사진을 앨범화하는 인물기반 사진앨범화부(2120)를 포함하여 이루어진다.
상기 음악데이터 앱범화부(22)는 상기 미디어 서술자를 이용하여 음악 데이터를 클러스터링하거나 인덱싱하며, 도 22에 도시된 바와 같이 음악의 제목, 가수앨범, 장르, 언어, 재생 시간 정보 중 적어도 하나를 포함하는 ID3 메타데이터에 기반하여 음악을 앨범화하는 ID3기반 음악앨범화부(2200) 및 음악의 분위기에 기반하여 음악을 앨범화하는 분위기 기반 음악앨범화부(2210)를 포함하여 이루어진다.
상기 비디오 데이터 앨범화부(24)는 상기 미디어 서술자를 이용하여 비디오 데이터를 클러스터링하거나 인덱싱하며, 도 23에 도시된 바와 같이 비디오 세그먼트의 기본 단위 샷(shot)에 기반하여 앨범화하는 샷기반 비디오 앨범화부(2300), 샷보다 의미 정보를 많이 포함하고 있는 장면(scene)에 기반하여 비디오 데이터를 앨범화하는 장면기반 비디오 앨범화부(2310), 비디오의 장르에 기반하여 앨범화하는 장르기반 비디오 앨범화부(2320) 및 비디오에 포함된 인물에 기반하여 앨범화하는 인물기반 비디오 앨범화부(2330)를 포함하여 이루어진다.
상기 미디어 앨범화부(150)는 소프트웨어로 구현될 때, 미디어 서술자를 이용하여 멀티미디어를 앨범화하는 앨범화 툴(Media Albuming Tool)을 포함함이 바람직하다. 도 24는 상기 앨범화 툴(5000)의 구조를 도시한 것이다. 도 24를 참조하면, 멀티미디어를 앨범화하는 앨범화 툴(5000)은 사진 데이터를 클러스터링하거나 인덱싱하기 위한 사진 앨범화 툴(Photo Albuming Tool, 5100), 음악 데이터를 클러스터링하거나 인덱싱하기 위한 음악 앨범화 툴(Music Albuming Tool, 5200), 비디오 데이터를 클러스터링하거나 인덱싱하기 위한 비디오 앨범화 툴(Video Albuming Tool, 5300)을 포함함이 바람직하다.
도 25는 사진 데이터를 앨범화하기 위한 툴(5100)의 구조를 도시한 것이다. 도 25를 참조하면, 사진 데이터를 앨범화하기 위한 툴(5100)은 사진을 찍은 상황에 기반하여 사진을 앨범화하는 툴(Situation-based Albuming Tool, 5110), 사진이 포함하고 있는 의미적 카테고리(산, 바다, 건물 등)에 기반하여 사진을 앨범화하는 툴(Category-based Albuming Tool, 5120), 사진에 포함된 인물에 기반하여 사진을 앨범화하는 툴(Person-Identity-based Albuming Tool, 5130)을 포함함이 바람직하다. 도 26은 음악을 앨범화하기 위한 툴(5200)의 구조를 도시한 것이다. 도 26을 참조하면, 음악 데이터를 앨범화하기 위한 툴(5200)은 음악의 제목, 가수앨범, 장르, 언어, 재생 시간 등의 ID3 메타데이터에 기반하여 음악을 앨범화하는 툴(Header-based Albuming Tool, 5210), 음악의 분위기에 기반하여 음악을 앨범화하는 툴(Mood-based Albuming Tool, 5120)을 포함함이 바람직하다.
도 27은 비디오를 앨범화하기 위한 툴(5300)의 구조를 도시한 구조도이다. 도 27을 참조하면, 비디오 데이터를 앨범화하기 위한 툴(5300)은 비디오 세그먼트의 기본 단위 샷(shot)에 기반하여 앨범화하는 툴(Shot-based Albuming Tool, 5310), 샷보다 의미 정보를 많이 포함하고 있는 장면(scene)에 기반하여 비디오 데이터를 앨범화하는 툴(Scene-based Albuming Tool, 5320), 비디오의 장르에 기반하여 앨범화하는 툴(Genre-based Albuming Tool, 5330), 비디오에 포함된 인물에 기반하여 앨범화하는 툴(Person-Identity-based Albuming Tool, 5340)을 포함함이 바람직하다.
상기 미디어앨범 서술부(160)는 상기 앨범화된 결과를 이용하여 멀티미디어 컨텐츠의 앨범 정보를 관리하기 위한 앨범 메타데이터를 생성한다.(260단계) 상기 데이터베이스(170)는 앨범화된 멀티미디어 컨텐츠 및 앨범화와 관련된 앨범 메타데이터를 저장한다.(270단계)
본 발명에 의한 상기 미디어 앨범 힌트를 이용하여 멀티미디어 컨텐츠를 앨범화하는 방법을 보다 구체적으로 설명하기로 한다.
먼저, 앨범화를 수행할 N개의 멀티미디어 컨텐츠 집합 M이 있다고 가정하자. 멀티미디어 컨텐츠는 아래와 같은 수학식 1과 같이 표현된다.
여기서, 앨범화를 수행하고자 하는 컨텐츠 집합 M에 속하는 컨텐츠는 단일한 미디어 형식(이미지, 오디오, 비디오)을 가진다고 가정한다.
임의의 (j)번째 컨텐츠 mj에 해당하는 앨범 힌트는 아래와 같은 수학식2와 같이 표현된다.
여기서, L은 앨범 힌트 요소의 개수이다.
상기와 같은 표현 방법에 의해, 앨범화를 수행할 N개의 멀티미디어 컨텐츠 집합 M에 대한 앨범 힌트 집합은 아래와 같은 수학식 3과 같이 표현된다.
임의의 (j)번째 컨텐츠 mj에 해당하는 K개의 내용 기반 특징값은 아래와 같은 수학식 4와 같이 표현된다.
상기와 같은 표현 방법에 의해, 앨범화를 수행할 N개의 멀티미디어 컨텐츠 집합 M에 대한 내용 기반 특징값 집합은 아래와 같은 수학식 5와 같이 표현된다.
본 발명은 상기 앨범화 힌트를 이용하여, 미디어 앨범화를 수행하는 두 가지 방법을 포함함이 바람직하다. 첫 번째 방법은 앨범화 힌트만으로 앨범화를 수행하는 것이다. 두 번째 방법은 앨범화 힌트를 내용 기반 특징값과 조합하여 사용하는 방법이다.
미디어 앨범화 힌트를 이용한 첫 번째 앨범화 방법은 다음과 같다. 앨범화를 수행하기 위해, 먼저 입력된 N개의 멀티미디어 컨텐츠를 앨범 라벨 집합 G로 인덱싱 또는 클러스터링하여 앨범화를 수행한다고 가정하자. T개의 라벨로 구성된 앨범 라벨 집합 G는 아래와 같은 수학식 6과 같이 표현된다.
임의의 (j)번째 컨텐츠 mj를 앨범화 힌트만으로 (i)번째 라벨 gi로 인덱싱 또는 클러스터링을 수행하는 방법은 아래와 같은 수학식에서와 같이 표현된다.
여기서, 함수 B(a, b)는 a = b인 경우 결과값이 1이고, 그렇지 않은 경우 결과값이0인 불리언 함수이다. 최종 결정된 Lj는 (j)번째 컨텐츠 mj의 라벨을 나타낸다.
미디어 앨범화 힌트를 이용한 두 번째 앨범화 방법은 다음과 같다. 먼저, 임의의 (j)번째 컨텐츠 mj의 앨범화 힌트 Hj와 개의 내용 기반 특징값 Fj을 조합하여 새로운 특징값을 생성한다. 조합된 새로운 특징값 Fj은 아래와 같은 수학식 8과 같이 표현된다.
여기서,
는 내용 기반 특징값과 앨범화 힌트를 조합하는 임의의 함수이다.
조합된 새로운 특징값은 라벨 집합 G에 대해 학습(learning)된 특징값과 비교하여 유사도 거리값을 얻고, 가장 유사도가 큰 라벨을 (j)번째 컨텐츠 mj의 라벨로 결정한다. (j)번째 컨텐츠 mj의 라벨을 결정하는 방법은 아래의 수학식 9와 같 이 표현된다.
본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.