KR20030026529A

KR20030026529A - 키프레임 기반 비디오 요약 시스템

Info

Publication number: KR20030026529A
Application number: KR1020010059568A
Authority: KR
Inventors: 이진수; 김현준
Original assignee: 엘지전자 주식회사
Priority date: 2001-09-26
Filing date: 2001-09-26
Publication date: 2003-04-03
Also published as: US20030061612A1

Abstract

본 발명은 동영상 요약 시스템에 관한 것이다.

본 발명은 비디오 데이터를 저장한 후 재시청이 가능한 방송 데이터 저장 시스템에서 키프레임 기반의 비디오 요약 기술을 제공한다. 본 발명에서는 키프레임 기반 비디오 요약을 위하여, 방송 데이터를 수신하여 영상신호를 인코딩하고, 인코딩된 영상신호에서 DC이미지를 추출하여 저장한다. 추출된 DC이미지를 이용해서 비디오 요약에 필요한 특징정보를 추출하고, 추출된 특징정보를 비디오 요약을 위해 정의된 정보구조로 저장한다. 상기 저장된 정보구조를 이용해서 요약 비디오 정보를 사용자에게 제공하고, 사용자의 선택에 응답하여 해당 구간의 동영상을 검색하여 디스플레이한다.

본 발명에서 상기 비디오 요약을 위한 특징정보로 얼굴영역 기반의 키프레임을 이용할 수 있고, 보다 효과적인 비디오 요약정보 추출을 위하여 샷 정보를 검출하여 사용할 수도 있다.

Description

키프레임 기반 비디오 요약 시스템{Keyframe Based Video Summary System}

본 발명은 동영상 검색과 브라우징을 위하여, 비디오를 요약하여 검색할 수 있도록 한 비디오 요약 시스템에 관한 것이다.

인터넷 환경을 기반으로 하여 VOD, Pay Per View와 같은 동영상 서비스가 활성화되면서, 사용자에게 유용한 서비스를 위해 동영상 전체의 내용을 시청하지 않고도 그 내용을 함축하여 알아보고 검색할 수 있는 비디오 요약 기술들이 다양하게 제시되고 있다. 비디오 요약은 사용자가 시청하고자 하는 비디오를 선택하기에 앞서, 원하는 비디오를 보다 효과적으로 탐색하거나, 원하는 장면을 찾을 수 있도록 해준다. 이와 같은 비디오 요약 기술로는 키프레임(keyframe) 기반의 비디오 요약 기술과, 요약 디스플레이 방식의 비디오 요약 기술이 있다.

키프레임 기반의 비디오 요약 기술은 비디오에서 중요한 장면들을 키프레임으로 나열하여 사용자에게 보여 줌으로써, 사용자가 비디오 내용을 전체적으로 파악하고 원하는 장면을 쉽게 찾아갈 수 있도록 해준다. 이와 같이 키프레임 기반의 비디오 요약을 구현하려면 비디오를 구조적으로 분석하는 기술이 필요하다. 이러한 구조적 분석 중에서 기본 적인 기술은 내용을 구분하는 단위인 씬(scene)을 구분하는 것이다. 하지만 씬은 내용적으로 의미를 갖는 구분 단위이므로 자동으로 분석하여 구분하는 것은 매우 어렵다. 따라서 우선은 비디오를 편집하는 기본 단위인 샷(shot) 단위로 구분한 후 이를 그룹화하여 보다 씬에 가깝게 구분하려는 시도가보고되고 있다. 샷을 세그멘테이션(segmentation)하는 기술은 매우 많이 보고되어 왔다. 이와 같이 샷이나 씬 단위로 구분된 세그먼트 별로 키 프레임을 추출하여 디스플레이함으로써 비디오를 요약할 수 있다.

앞에서 기술한 키프레임 기반 요약 방식은 정지된 화면에서 동시에 여러 장면을 디스플레이함으로써 사용자가 원하는 장면을 찾기에 매우 유용하다. 하지만 전체적인 비디오 내용을 훑어보기 위한 목적이라면 하이라이트(highlight)와 같이 요약된 영상을 디스플레이하는 방식이 더 유용하다. 이와 같은 기술에서도 기본적으로 샷 세그멘테이션과 같은 기술이 적용되거나, 오디오 분석과 같은 매우 복잡한 기술들이 적용된다. 현재까지 보고된 대부분의 기술은 비디오 영상의 특정 장르에 대한 연구로서, 일반적인 장르에는 적용하기 어려운 단점이 있다. 왜냐하면 비디오 영상의 장르는 매우 다양하기 때문에, 특정한 장르에 대해서 특징적으로 나타나는 다른 장르의 비디오와 구별될 만한 정보를 기초로 비디오 분석과 요약, 검색 및 브라우징이 이루어지기 쉽기 때문이다.

한편, 최근 들어 디지털 TV방송이 시행되고 디지털 TV 수상기가 확산되면서, 가정에서 시청하는 TV도 앞에서 기술한 비디오 요약 기술을 사용하여 편리하게 시청하고자 하는 요구가 나타나고 있다. 이와 같은 TV 시청을 위한 비디오 요약 기술은 크게 방송사에서 방송 시에 요약 정보를 포함한 방송을 시행하는 방법과, 원래의 일반 방송을 TV와 같은 단말 수상기에서 분석하여 요약 정보를 자동으로 추출함으로써 시행하는 방법이 있다. 전자의 경우는 방송 장비 등 고가의 장비를 개조해야 하며, 방송사 입장에서 이러한 서비스가 수익성 관점에서 크게 기여하지 못하므로 그 실현 시점이 예상보다 늦어지고 있다. 후자의 경우는 TV와 같은 단말기에 비디오 또는 오디오 분석을 위한 프로세서 및 메모리를 장착하여 시행하는 방법, 혹은 셋톱박스(Set-top Box)형태로 수신된 TV 방송을 일시 저장하여 방송할 수 있는 PVR(Personal Video Recorder)을 이용하려는 시도가 이루어지고 있다. 하지만 다음과 같은 제약으로 인해 상기한 것과 같은 서비스를 제공하지 못하고 있다.

첫번째는 실시간 처리가 제약을 받는다는 점이다.

PVR은 방송을 수신하면서 동시에 이를 MPEG등과 같은 디지털 비디오 포멧으로 녹화하였다가, 사용자가 원할 때 다시 시청할 수 있는 기능을 제공한다. 상기 기술한 서비스를 PVR에서 제공하기 위해서는, 사용자가 녹화중인 시청물을 언제 다시 시청할지 모르기 때문에 녹화와 동시에 이러한 서비스를 위한 프로세스를 모두 수행할 수 있어야만 한다. 따라서 영상을 녹화하기 위한 인코더 작업과 동시에 실시간으로 이러한 프로세스(비디오 요약 프로세스)를 진행하여야 한다. 하지만 지금까지 보고된 많은 프로세스는 매우 복잡하여 소프트웨어상으로 실시간 처리되는 것은 매우 어렵다. 그렇기 때문에 많은 부분을 H/W로 구현하여야 실시간 처리가 가능하다.

두번째는 가격과 비용의 문제이다. 즉, 앞서 설명하였듯이 비디오 요약 프로세스를 실시간 처리하기 위해 많은 부분을 H/W로 구현하여야 하는데, PVR과 같은 개인 가전제품은 보급과 실용성의 측면에서 볼 때 그 가격이 높지 말아야 하므로 H/W로 구현하는데 제약이 따른다. 즉, 낮은 가격과 낮은 비용으로 구현 가능한 H/W만이 실용화에 기여할 수 있다.

세번째는 장르에 무관한 서비스의 문제이다. 방송 영상에 대한 서비스인 만큼 사용자에게 모든 방송(다양한 종류의 영상물)에 대해 어느 정도 효과적인 성능을 보장할 수 있는 서비스가 제공되어야 한다. 현재는 방송 데이터에 장르 정보가 제공되지 않으므로 비디오 요약에 사용되는 알고리즘이 특정 장르에 의존적으로 개발되어서는 곤란하다.

이와 같은 제약들에 의해 보다 적은 프로세스로서 상기 기술한 것과 같은 비디오 요약/탐색 기능을 모든 장르에 대해 효과적으로 제공하는 방법이 요구된다.

본 발명은 앞에서 기술한 문제점을 해결하고 현실적으로 요구되는 적은 프로세스로서 모든 장르에 대해 효과적인 키프레임 기반의 비디오 요약 서비스를 제공하기 위한 것이다.

본 발명은 방송 데이터 저장 시스템에서 수신되는 방송 데이터를 인코딩하여 저장하는 동시에 본 발명에서 제공하고자 하는 서비스에 필요한 정보를 추출하여야 하므로, 부분적으로는 H/W로 구현된 정보를 사용하고 나머지는 S/W로 처리하는 방식을 사용한다.

본 발명은 방송 데이터를 수신하는 방송 수신수단, 상기 수신된 방송 데이터를 저장하는 방송 데이터 저장수단, 상기 저장된 방송 데이터에서 DC이미지를 추출하여 저장하는 DC이미지 처리수단, 상기 DC 이미지를 이용해서 비디오 요약에 필요한 특징 정보를 추출하는 특징 정보 추출수단, 상기 추출된 특징 정보를 이용해서 비디오 요약을 서비스하기 위한 브라우징 수단으로 이루어지는 것을 특징으로 하는비디오 요약 시스템을 제공한다.

또한 본 발명은 동영상에서 일정 주기로 프레임을 추출하는 단계, 상기 추출된 프레임들 중에서 얼굴이 등장했다고 판단되는 프레임을 키프레임 후보로 지정하는 단계, 연속된 두 키프레임 후보들의 시간차이가 일정 임계치 이상이면 상기 추출된 프레임 중에서 일부를 키프레임 후보로 추가하는 단계, 연속된 두 키프레임 후보들의 시간차이가 일정 임계치 이하이면 두 키프레임 후보들의 유사도를 비교하여 유사도가 낮은 키프레임 후보를 키프레임 후보에서 삭제하는 단계로 이루어지는 것을 특징으로 하는 키프레임 추출방법을 제공한다.

또한 본 발명은 동영상에서 샷 정보와 일정 주기로 프레임을 추출하는 단계, 상기 추출된 프레임들 중에서 얼굴이 등장했다고 판단되는 프레임을 키프레임 후보로 지정하는 단계, 상기 지정된 키프레임 후보들 중 하나의 샷 내에 하나의 키프레임 후보도 등장하지 않을 경우에는 샷 내에 속한 프레임에서 키프레임 후보를 지정하는 단계, 상기 지정된 키프레임 후보들 중 하나의 샷 내에 두 개 이상의 키프레임 후보가 존재할 경우에는 하나의 키프레임 후보만을 선택하여 키프레임으로 지정하는 단계로 이루어지는 것을 특징으로 하는 키프레임 추출방법을 제공한다.

도1은 본 발명의 비디오 요약 시스템 제1실시예에 따른 방송 데이터 저장 시스템의 구성을 나타낸 도면

도2는 본 발명의 비디오 요약 시스템에 따른 키프레임 뷰의 예를 나타낸 도면

도3은 본 발명의 비디오 요약 시스템에서 키프레임 추출방법을 나타낸 도면

도4는 본 발명의 비디오 요약 시스템에서 얼굴영역 추출 방법을 나타낸 도면

도5는 본 발명의 비디오 요약 시스템에서 얼굴영역 추출을 위한 컬러 스페이스의 살색 영역을 나타낸 도면

도6은 본 발명의 비디오 요약 시스템에서 얼굴 등장영역의 추출방법을 나타낸 도면

도7은 본 발명의 비디오 요약 시스템에서 얼굴 등장영역의 추출방법을 설명하기 위한 이미지의 예를 나타낸 도면

도8은 본 발명의 비디오 요약 시스템 제2실시예에 따른 방송 데이터 저장 시스템의 구성을 나타낸 도면

도9은 본 발명의 비디오 요약 시스템에서 샷 정보를 포함하여 키프레임을 추출하는 방법을 나타낸 도면

[실시예1]

도1은 본 발명의 비디오 요약 시스템 제1실시예에 따른 방송 데이터 저장 시스템의 구성을 나타낸 도면으로서, 방송 데이터를 수신하는 방송 수신부(1), 상기 수신된 방송 데이터를 저장하기 위하여 인코딩하는 영상 인코더(2), 상기 인코딩된수신 영상 데이터를 저장하기 위한 수신 영상 저장용 메모리(3), 상기 저장된 수신 영상 데이터를 디코딩하기 위한 영상 디코더(4), 상기 디코딩된 영상신호를 디스플레이하고 키프레임 기반으로 요약하기 위한 브라우저(5), 상기 인코딩시에 DC이미지를 출력하기 위한 DC이미지 저장용 메모리(6), 상기 저장된 DC이미지를 이용해서 비디오 요약에 필요한 특징 정보로 키프레임을 추출하는 키프레임 추출부(7), 상기 추출된 특징 정보인 키프레임을 정의된 구조로 정의하여 비디오 요약을 위해 상기 브라우저(5)에 제공하는 키프레임 정보구조(8)를 포함하여 이루어지고 있다.

도1의 방송 데이터 저장 시스템은 방송 수신부(1)로 영상을 수신한 후 이를 영상 인코더(2)에서 인코딩하여 수신 영상 저장용 메모리(3)에 MPEG1 또는 MPEG2 형식으로 저장한다. 위 두 가지 포멧의 동영상으로 인코딩하기 위해서는 DCT 알고리즘을 사용하며, 이때 DC 이미지(DC image)를 얻을 수 있는데, DC 이미지를 상기 기술한 비디오 요약을 위한 특징 정보 추출용 데이터로 사용하기 위해서 DC 이미지를 임시로 저장하기 위한 DC이미지 저장용 메모리(6)에 인코딩하면서 저장하게 된다. 이 때 DC 이미지는 매 I타입(I-type)의 프레임마다 저장될 수 있다.

특징 정보 추출수단으로서 키프레임 검출부(7)는 필요한 DC 이미지를 DC 이미지 저장용 메모리(6)로부터 가져와서 키프레임 추출 알고리즘을 통해 키프레임으로 사용되어질 키프레임을 결정한다. 이때 사용되는 키프레임 추출 알고리즘은 얼굴 영역 기반의 키프레임을 추출하기 위한 알고리즘이다.

키프레임으로 결정된 동영상에서의 프레임은 디스플레이를 위하여 키프레임 메모리(키프레임 검출부에 포함될 수도 있고 별도의 메모리로 할당될 수도 있다)에축소된 정지 영상(Thumbnail)으로 저장되고, 저장된 정지 영상의 위치와 해당 키프레임이 동영상에서의 어느 위치인지를 나타내기 위한 위치 정보가 키프레임 정보구조(7)에 기술(description)된다.

이후 사용자가 키프레임 기반 비디오 요약을 요청하면, 비디오 요약 브라우저(4)는 상기 제작된 키프레임 정보 구조(8)를 사용하여 키프레임 기반의 비디오 요약을 제공한다.

이와 같이 수신/저장된 방송 데이터 포멧에서 추출한 DC 이미지만을 사용하여 비디오 요약 기능을 제공하는 방법은 실시간 처리가 가능하고 비용 측면에서도 매우 효과적이다. 키프레임 기반의 비디오 요약을 위한 사용자 인터페이스의 예가 도2에 나타나 있다. 도2는 DVD에서 주로 제공하는 인터페이스 형태를 나타낸 것으로서, 키프레임을 나타내는 축소 정지영상(Thumbnail)들(9a,9b,9c,9d)이 나열되어 있고, 사용자는 디스플레이되는 키프레임 중 하나를 선택하면 해당 위치로 바로 건너뛰어 시청할 수 있다.

도3에 상기 비디오 요약 시스템에서 키프레임을 추출하는 방법을 나타내었다. 본 발명의 비디오 요약을 위한 키프레임 추출방법은 시간 단위 프레임 추출단계, 얼굴 등장 프레임 추출단계, 후보 프레임 추가단계, 후보 프레임 필터링 단계로 이루어지며, 각 단계는 다음과 같다.

1. 시간단위 프레임 추출 단계(S1)

동영상 비디오에서 일정 시간 t를 주기로 프레임을 추출하되 I프레임을 대상으로 한다. 이 때 주기가 t이면 전체 영상의 길이가 T라고 했을 때 T/t 수만큼의프레임들이 추출되며, T/t 를 후보 프레임(# of candidate)이라고 정의하자. 후보 프레임(# of candidate)은 실제로 추출하고자 하는 키프레임 수보다 충분히 커야한다.

2. 얼굴 등장 프레임 추출 단계(S2,S3,S4)

S1에서 추출된 프레임들을 대상으로 얼굴이 등장했다고 가정되는 프레임들을 키프레임 후보로 지정한다. 즉, DC 이미지를 입력으로 하여 얼굴 영역을 추출하고, 얼굴 영역이 검출된 프레임을 키프레임 후보로 등록한다(S2,S3,S4). 여기서, 얼굴이 등장했다고 가정되는 프레임을 판별하는 알고리즘은 S1에서 추출된 프레임의 DC 이미지만을 사용하여 판별하는데 그 방법은 다음에 도4 내지 도8을 참조하여 설명하기로 한다.

3. 후보 프레임 추가 단계(S5,S6)

S4에서 지정된 키프레임 후보들 중에서 시간상에서 연속된 두 키프레임 후보의 시간 차이가 일정 임계치 maxT보다 크면, 시간상에서 두 키프레임 후보 사이에 있는 S1에서 추출된 프레임들 중 최대 공백 시간 (maxT) 간격으로 키프레임 후보를 더 지정한다. 즉, S4에서 지정된 키프레이 후보들 중에서 연속된 두 키프레임 후보간의 시간차를 계산해 보고, 그 시간차를 maxT와 비교하여 시간차가 maxT 보다 크다면 시간상에서 두 키프레임 후보 사이에 있는 S1에서 추출된 프레임들 중 최대 공백 시간 (maxT) 간격으로 키프레임 후보를 더 지정한다. 이 단계는 오랫동안 얼굴이 등장하지 않을 경우 너무 긴 시간동안 키프레임이 존재하지 않게 되는 현상을 방지하기 위하여, 강제로 일정 시간 간격으로 키프레임을 삽입하기 위한 것이다.최대 공백 시간 maxT는 실험에 의해 결정한다.

4. 후보 프레임 필터링 단계(S7,S8,S9,S10,S11)

시간상에서 연속된 두 키프레임 후보의 시간차를 계산하고, 그 시간차를 임계치(minT)와 비교한다(S7). 비교 결과 시간차가 임계치(minT) 보다 작으면 두 키프레임간 유사도를 측정하고(S8), 유사도를 임계치(Th)와 비교한다(S9). 유사도가 임계치(Th) 이상일 경우에는 상기 비교 대상이 되었던 두 키프레임 중에서 하나를 후보 키프레임에서 삭제하고(S10), 최종 선정된 키프레임을 키프레임 정보구조에 저장한다(S11). 이러한 일련의 후보 프레임 필터링 단계는 상기 S6까지의 과정을 거쳐 생성된 키프레임 후보들 중, 시간상에서 연속된 두 키프레임 후보의 시간 차이가 일정 임계치 minT보다 작으면, 두 키프레임 후보간의 유사도를 비교하여 유사도가 일정 임계치(Th) 이상일 경우 하나를 후보 키프레임에서 생략하는 과정이다.

이 것은 시간상으로 짧은 간격 안에 비슷한 등장인물 혹은 장면이 나타나는 경우 두 키프레임 중에서 한 개만 사용함으로써 불필요한 키프레임 선택을 막기 위한 것이다. 두 키프레임 후보간의 유사도 측정 방법은 부분 영역 칼라 히스토그램을 이용하는 방법과 전역 칼라 히스토그램을 이용하는 방법 중 하나를 사용할 수 있다.

부분 영역 칼라 히스토그램을 이용하는 유사도 측정방법은, 두 키프레임 후보가 모두 얼굴이 등장했다고 가정되는 프레임이고, 얼굴 등장 프레임 추출단계에서 사용한 얼굴 등장 여부를 판별하는 알고리즘이 얼굴의 영역 정보를 추출할 수 있는 경우, 추출된 얼굴 영역 이외의 영역에 대해서만 칼라 히스토그램을 생성하여비교한다. 즉, 두 키프레임 후보의 얼굴 영역 이외의 영역에 대한 칼라 히스토그램을 비교하여 그 차이가 작으면 작을수록 유사하다고 하고, 그 차이가 크면 클수록 유사하지 않다고 하면 된다.

전역 칼라 히스토그램을 이용하는 유사도 측정 방법은, 상기 기술한 경우가 아닐 경우, 즉 두 키프레임 후보 중 하나가 얼굴이 등장했다고 가정되는 프레임이 아니거나, 얼굴 등장 프레임 추출단계에서 사용한 얼굴 등장 여부를 판별하는 알고리즘이 얼굴의 영역 정보를 추출할 수 없는 경우, 프레임 전체를 대상으로 칼라 히스토그램을 추출하여 서로 비교함으로써 유사 여부를 측정한다.

지금까지 기술한 도3의 방법에 의해 키프레임들이 추출되며, 추출된 키프레임은 앞에서 기술하였듯이 축소 정지영상(Thumbnail)으로 저장하여 이후 키프레임 기반 비디오 요약에 사용된다.

앞에서 기술한 키프레임 추출방법은 하나의 동영상을 분석하기 위해 각 단계(시간단위 프레임 추출단계, 얼굴등장 프레임 추출단계, 후보 프레임 추가단계, 후보 프레임 필터링 단계)가 동영상 전체를 대상으로 순차적으로 수행될 수도 있으나, 네 가지 단계가 비디오의 일부만을 대상으로 수행된 후, 다시 다음 일부만을 대상으로 반복 수행될 수도 있다. 예를 들어 60분짜리 비디오를 수행하기 위하여 처음 1분에 대해서 키프레임 추출 알고리즘을 모두 수행하고 다시 다음 1분에 대해서 키프레임 추출 알고리즘을 수행하는 방식으로 비디오 분석을 비디오의 타임 축에 따라 연속적으로 분석할 수 있다. 이와 같은 방식은 순차적으로 영상이 녹화되면서 동시에 이와 같은 프로세싱을 하기에 적합한 방식이며, 사용자가 영상을 기록하는 중도에 키프레임 기반 비디오 요약 서비스를 요청하더라도 바로 서비스를 제공할 수 있다.

상기 도3의 얼굴 등장 프레임 추출단계에서 언급한 얼굴 등장 여부를 판별하는 방법은 크게 얼굴 영역까지 추출하는 방법과 얼굴의 등장 여부만을 판별하는 방법으로 나누어 생각할 수 있다. 전자의 경우 얼굴 영역 정보를 이후 후보 프레임 필터링 단계에서 사용할 수 있고, 보다 정확한 얼굴 등장 여부를 판별할 수 있는 반면 후자는 매우 간단한 프로세스가 장점이다. 각각의 방법을 자세히 살펴보면 다음과 같다.

얼굴 영역 정보까지 추출하는 방법은 도4에 기술되어 있다. 먼저 도면 3에서 기술한 t주기로 추출된 모든 프레임에 대해서 다음과 같은 과정을 수행한다. 해당 프레임의 DC 이미지를 입력받고(S1), DC 이미지의 각 픽셀에 대해 살색 픽셀만 세팅하는데 만일 살색 영역이면 1, 그렇지 않으면 0으로 세팅한다.

살색 영역의 판별은 YCrCb 칼라 스페이스(color space)에서 이루어지는데, 이것은 MPEG1이나 MPEG2의 DC 이미지가 YCrCb 칼라 스페이스에서 표현되기 때문에, 칼라스페이스 변환 없이 바로 색정보를 이용하기 위함이다. YCrCb 칼라 스페이스 내에서의 살색 영역 구간은 실험에 의해 결정되는데 실험 방법은 살색 영역 이미지들을 수집하여 만든 트레이닝 셋(Training set)에서 통계적 방법을 사용하여 구하였다. YCrCb영역에서 Y는 밝기에 해당하는 정보로서 일정 범위 이내의 밝기에 해당하는 구간이 살색 영역에 해당하고, CrCb 단면에서의 살색 구간은 도면 5에 도트(dot)로 표기하였다. 도면에서 알 수 있듯이 CrCb 단면에서의 살색 구간 조건은 네가지 선분으로 표시할 수 있다.

이와 같이 살색 영역만을 1로 세팅한 이미지를 N*M의 구간으로 나누어 블록킹(blocking)한다(S3). 그리고 나서 각 블록(block) 단위로 살색 영역을 포함하였는지의 여부에 따라 블록을 1 또는 0로 세팅한다(S4). 즉 살색 픽셀을 일정 부분 이상 포함할 경우 해당 블록을 1로 세팅한다. 다음, 1로 세팅된 블록들이 서로 연결되었는지를 검사하여 일정 크기 이상의 연결된 블록의 덩어리(connected component)가 존재하는지 검색한다(S5). 만일 존재하면 해당 덩어리를 포함하는 MBR(Minimum Boundary Rectangle)을 구하고(S6), MBR 내에 1로 세팅된 블록의 비율이 일정 임계치가 넘을 경우 이를 얼굴 영역이라고 가정한다(S7). 즉 구해진 BMR이 얼굴의 위치정보에 해당한다.

다음, 얼굴의 등장 여부만을 추출하는 방법은 매우 간단한 반면 정확도는 상대적으로 떨어진다. 도6에 이 방법을 나타내었으며 다음과 같다. 도3에서 기술한 t주기로 추출된 모든 프레임에 대해서 다음과 같은 과정을 수행한다. 먼저 도7과 같이 DC이미지의 가장자리 일부를 제외한 영역에서 칼라 히스토그램을 구한다(S1,S2,S3). 이 때 얼마만큼을 제외하는지는 실험에 의해 결정되어지는데, 이는 얼굴영역이 주로 중심부에 나타나는 경험에 의해 구현되었다. 다음, 구해진 칼라 히스토그램에서 나타난 칼라의 분포를 살펴보아, 살색에 해당하는 칼라가 일정 임계치 이상 포함되어 있으면 해당 이미지를 얼굴이 등장한 이미지로 설정한다(S4).

[실시예2]

실시예1에서는 방송 데이터 저장 시스템이 DC 이미지만을 H/W로 제공함으로써 이를 이용한 간단하면서도 효과적인 키프레임 기반의 비디오 요약 기술을 소개하였다.

H/W의 비용을 추가할 경우 DC 이미지 이외에 샷(Shot) 정보 또는 샷(Shot) 추출 모듈을 S/W로 구현하기 위한 특징 정보를 H/W로 추출하게 구현할 수도 있다.

이 경우 샷 정보를 앞에서 기술한 실시예1에 추가로 이용함으로써 보다 높은 성능의 비디오 요약 서비스를 제공할 수 있다. 샷이란 카메라로 연속해서 촬영한 영상 구간들을 편집하여 동영상을 구성할 때 편집의 단위인 연속된 영상 구간이 하나의 샷이 된다. 이러한 샷에는 급작스런 장면 변환인 하드 컷(Hard Cut), 서서히 두 장면이 교차하는 디졸브(Dissolve), 그 외에 다양한 영상효과(Effect)에 의해 샷이 구분된다. 앞에서 언급한 H/W로 샷 정보나 샷 추출 모듈을 S/W로 구현하기 위한 특징 정보를 추출한다는 것은 H/W로 샷이 전환되는 위치를 바로 추출하여 알려주거나, 또는 S/W로 쉽게 샷 전환 위치를 검출할 수 있도록 칼라히스토그램 등의 필요한 특징 정보를 H/W로 추출하여 출력한다는 의미이다.

이와 같이 샷 정보를 더 포함할 경우 비디오 요약 시스템은 도8과 같이 구성된다. 즉 샷 검출부(9)가 추가되었으며, 여기서 검출된 샷 정보는 키프레임 검출부(7)에서 사용되게 된다. 샷 검출부(9)는 상기 기술하였듯이, H/W로 샷 정보를 바로 추출하거나 필요한 정보만을 H/W로 추출한 후 이를 이용하여 S/W가 검출할 수도 있다. 즉, 후자의 경우는 샷의 위치를 검출하기 위한 특징 정보만을 추출할 수 있는 모듈을 H/W로 구현하고, 여기서 추출된 샷 위치 검출을 위한 특징 정보를이용해서 샷의 위치를 검출하는 모듈을 S/W로 구현하는 것이다. 도8에서 기타 각 부분에 대한 설명은 상기 도면 1에 대한 설명과 같고, 설명은 생략한다.

샷 정보를 더 추가하여 얼굴 영역 기반 키프레임을 추출하는 알고리즘은 도9에 기술되어 있으며 다음과 같이 시간 단위 프레임 추출단계, 얼굴 등장 프레임 추출단계, 후보 프레임 추가단계, 후보 프레임 필터링 단계로 이루어진다.

1. 시간단위 프레임 추출 단계(S1,S2)

입력된 영상을 일정 시간 t(t < 평균 샷의 길이)를 주기로 프레임을 추출하되 I프레임을 대상으로 한다. t의 결정은 하나의 샷 내에 복수개의 프레임이 추출될 수 있도록 결정하되, 샷이 짧아서 t보다 작은 길이를 가질 경우에는 강제로 하나 이상의 프레임을 추출한다.

2. 얼굴 등장 프레임 추출 단계(S3,S4)

S1,S2에서 추출된 프레임들을 대상으로 얼굴이 등장했다고 가정되는 프레임들을 키프레임 후보로 지정한다. 얼굴이 등장했다고 가정되는 프레임을 판별하는 알고리즘은 상기 기술한 도4 또는 도6의 방법과 동일하다.

3. 후보 프레임 추가 단계(S5,S6)

S4에서 지정된 키프레임 후보들 중 하나의 샷내에 하나의 키프레임 후보도 등장하지 않을 경우에는 시간 단위 프레임 추출단계에서 추출된 키프레임 중에서 하나를 해당 샷의 키프레임으로 지정한다. 이는 얼굴이 등장하지 않더라도 하나의 샷에는 하나의 키프레임을 지정하기 위함이다. 이 때 샷의 길이가 매우 짧을 경우 본 과정을 생략할 수도 있다.

4. 후보 프레임 필터링 단계(S7,S8a,S8b)

지금까지의 과정을 거쳐 생성된 키프레임 후보들 중, 하나의 샷내에 두개 이상의 키프레임 후보가 존재할 경우, 얼굴 영역이 등장했을 확률이 가장 높은 프레임만을 키프레임으로 지정한다(S7,S8a). 얼굴 영역이 등장했을 확률은 상기 기술한 얼굴 영역 추출 알고리즘에서 살색 영역이 포함된 비중에 비례하여 지정할 수 있다. 하나의 샷내에 한 개의 키프레임 후보가 존재하면 그 키프레임 후보를 키프레임으로 지정한다(S8b).

지금까지 기술한 키프레임 추출방법에 의해 키프레임들이 추출되며, 추출된 키프레임은 앞에서 기술하였듯이 축소 정지영상(Thumbnail)으로 저장하여 이후 키프레임 기반 비디오 요약에 사용된다.

도9에서 기술한 네 가지 단계는 실시예1과 같이 하나의 동영상을 분석하기 위해 각 단계가 동영상 전체를 대상으로 순차적으로 수행될 수도 있으나, 네 가지 단계가 비디오의 일부만을 대상으로 수행된 후, 다시 다음 일부만을 대상으로 반복 수행될 수도 있다. 예를 들어 처음 샷에 대해서 도9의 키프레임 추출과정을 모두 수행하고 다시 다음 샷에 대해서 키프레임 추출과정을 수행하는 방식으로 비디오 분석을 비디오의 시간 축에 따라 연속적으로 분석할 수 있다.

본 발명은 TV 방송 프로그램을 녹화하였다가 재 시청할 수 있는 셋톱박스(Set-top box)형태의 PVR 시스템에서, 간단하게 구현될 수 있는 프로세스를 이용하여 효과적인 키프레임 기반의 비디오 요약기능을 제공하기 위한 것으로서, 적은 비용으로 인텔리전트한 기능을 사용자에게 제공할 수 있는 효과가 있다. 특히 방송의 장르에 관계없이 효과적인 요약 기능을 제공하고 기술적으로 구현이 용이하여 현재 실현 가능한 방법을 제공한다.

Claims

방송 데이터를 수신하는 방송 수신수단, 상기 수신된 방송 데이터를 저장하는 방송 데이터 저장수단, 상기 저장된 방송 데이터에서 DC이미지를 추출하여 저장하는 DC이미지 처리수단, 상기 DC 이미지를 이용해서 비디오 요약에 필요한 특징 정보를 추출하는 특징 정보 추출수단, 상기 추출된 특징 정보를 이용해서 비디오 요약을 서비스하기 위한 브라우징 수단으로 이루어지는 것을 특징으로 하는 비디오 요약 시스템.
제 1 항에 있어서, 상기 특징 정보 추출을 위하여 샷 정보를 검출하는 샷 검출수단을 더 포함하여 이루어지는 것을 특징으로 하는 비디오 요약 시스템.
제 1 항 또는 제 2 항에 있어서, 상기 DC이미지 추출이 수신된 방송 데이터의 저장을 위한 인코딩시에 이루어지는 것을 특징으로 하는 비디오 요약 시스템.
제 1 항 또는 제 2 항에 있어서, 상기 DC이미지로부터 추출되는 특징 정보가 키프레임 기반 요약 정보인 것을 특징으로 하는 비디오 요약 시스템.
제 1 항 또는 제 2 항에 있어서, 상기 DC이미지로부터 추출되는 특징 정보가 얼굴 영역의 등장 여부를 기준으로 하는 키프레임 기반 요약 정보인 것을 특징으로하는 비디오 요약 시스템.
제 5 항에 있어서, 상기 얼굴 영역의 등장 여부 판단이 살색 정보 분석에 의해서 이루어지는 것을 특징으로 하는 비디오 요약 시스템.
동영상에서 일정 주기로 프레임을 추출하는 단계, 상기 추출된 프레임들 중에서 얼굴이 등장했다고 판단되는 프레임을 키프레임 후보로 지정하는 단계, 연속된 두 키프레임 후보들의 시간차이가 일정 임계치 이상이면 상기 추출된 프레임 중에서 일부를 키프레임 후보로 추가하는 단계, 연속된 두 키프레임 후보들의 시간차이가 일정 임계치 이하이면 두 키프레임 후보들의 유사도를 비교하여 유사도가 낮은 키프레임 후보를 키프레임 후보에서 삭제하는 단계로 이루어지는 것을 특징으로 하는 키프레임 추출방법.
제 7 항에 있어서, 상기 지정된 키프레임 후보들 중 연속된 두 키프레임 후보들의 시간차이가 일정 임계치 이상일 때 추가되는 키프레임은 상기 시간차이 임계치 시간 구간에 포함되는 추출된 프레임들의 일부에서 선택되어 추가되는 것을 특징으로 하는 키프레임 추출방법.
제 7 항에 있어서, 상기 얼굴 등장 여부의 판단은 해당 프레임에 대한 DC 이미지를 사용하여 판단하는 것을 특징으로 하는 키프레임 추출방법.
제 7 항에 있어서, 상기 두 키프레임 후보의 유사도 측정은 두 프레임의 칼라 히스토그램을 사용해서 이루어지는 것을 특징으로 하는 키프레임 추출방법.
제 7 항에 있어서, 상기 두 키프레임 후보의 유사도는 각 프레임에서 얼굴영역을 제외한 나머지 영역에 대한 칼라히스토그램의 비교를 통해서 이루어지는 것을 특징으로 하는 키프레임 추출방법.
동영상에서 샷 정보와 일정 주기로 프레임을 추출하는 단계, 상기 추출된 프레임들 중에서 얼굴이 등장했다고 판단되는 프레임을 키프레임 후보로 지정하는 단계, 상기 지정된 키프레임 후보들 중 하나의 샷 내에 하나의 키프레임 후보도 등장하지 않을 경우에는 샷 내에 속한 프레임에서 키프레임 후보를 지정하는 단계, 상기 지정된 키프레임 후보들 중 하나의 샷 내에 두 개 이상의 키프레임 후보가 존재할 경우에는 하나의 키프레임 후보만을 선택하여 키프레임으로 지정하는 단계로 이루어지는 것을 특징으로 하는 키프레임 추출방법.
제 12 항에 있어서, 상기 두 개 이상의 키프레임 후보가 존재할 경우의 키프레임 지정은 키프레임 후보 중에서 얼굴 등장 확률이 가장 큰 키프레임 후보를 키프레임으로 지정하는 것을 특징으로 하는 키프레임 추출방법.
제 12 항에 있어서, 상기 프레임을 추출하기 위한 주기가 샷의 평균 길이 보다 짧게 지정되는 것을 특징으로 하는 키프레임 추출방법.
제 12 항에 있어서, 상기 프레임을 추출하기 위한 주기보다 샷의 길이가 짧아서 프레임이 추출되지 않을 경우는 샷 내에 속한 프레임의 일부를 키프레임 후보 지정을 위한 프레임으로 추출하는 것을 특징으로 하는 키프레임 추출방법.
제 7 항 또는 제 12 항에 있어서, 상기 얼굴 영역의 등장 여부 판단이;

해당 프레임의 DC 이미지에 대해서 살색에 해당하는 칼라를 갖는 픽셀만을 구분하는 단계와, DC 이미지 전 구간을 N*M으로 구분하여 블록킹(blocking)하는 단계와, 각 블록마다 살색에 해당하는 칼라를 갖는 픽셀이 포함된 비율에 근거하여 살색 영역 블록을 구분하는 단계와, 이웃한 살색 영역 블록들을 연결하여 연결요소(connected component)를 구하는 단계와, 상기 연결요소(Connected component)를 포함하는 사각형인 MBR을 구하는 단계와, 상기 MBR에 포함된 살색 영역 블록의 비율에 근거하여 얼굴 영역을 추출하는 단계로 이루어지는 것을 특징으로 하는 키프레임 검출방법.
제 7 항 또는 제 12 항에 있어서, 상기 얼굴 영역의 등장 여부 판단이;

해당 프레임의 DC 이미지에서 칼라 히스토그램을 구하는 단계와, 상기 구해진 칼라 히스토그램으로부터 칼라의 분포가 살색 영역에 일정 부분 이상 집중해 있으면 얼굴이 등장했다고 판단하는 단계로 이루어지는 것을 특징으로 하는 키프레임 검출방법.