KR101378493B1

KR101378493B1 - 영상 데이터에 동기화된 텍스트 데이터 설정 방법 및 장치

Info

Publication number: KR101378493B1
Application number: KR1020110147730A
Authority: KR
Inventors: 이인권; 이선영
Original assignee: 포항공과대학교 산학협력단; 연세대학교 산학협력단
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2014-04-01
Also published as: KR20130078663A

Abstract

본 발명은 영상 데이터에 포함된 특성값 또는 특징점을 기초로 영상 데이터를 그룹핑하는 단계, 영상 데이터의 시간축을 기준으로 그룹핑된 영상 데이터에 텍스트 데이터를 매핑하는 단계 및 그룹핑된 영상 데이터의 특징점으로부터 미리 설정된 가중치 함수를 이용하여 영상 좌표를 결정하고, 결정된 영상 좌표에 기초하여 텍스트 데이터의 위치 정보를 생성하는 텍스트 위치 결정 단계를 포함하는 텍스트 데이터 설정 방법 및 장치를 제공한다.

Description

영상 데이터에 동기화된 텍스트 데이터 설정 방법 및 장치{SYNCHRONIZED TEXT EDITING METHOD AND APPARATUS BASED ON IMAGE DATA}

본 발명은 텍스트 데이터 설정 방법 및 장치에 관한 것으로, 보다 상세하게는 영상 데이터에 포함된 특징점 등에 기초하여 영상 데이터에 동기화된 텍스트 데이터의 표시 정보를 설정하는 방법 또는 장치에 관한 것이다.

최근 지상파 방송에 대하여 PC나 스마트폰으로 플레이 가능한 K-Player, 푹(Pooq) 등의 서비스가 제공되고 있으며, 모바일 영역에서는 LTE가 상용화 되는 등 스마트 미디어 영역은 빠르게 발전되어 가고 있다.

특히, 스마트 미디어 환경에서의 사용자의 플레이 시간은 스마트 기기를 통한 동영상 이용이 증가됨에 따라 스마트 미디어 환경에서의 콘텐츠 제작이 활발하게 요구되고 있으며, 동영상 플레이를 위한 어플리케이션을 사용하는 사용자들을 만족시키는 어플리케이션 개발을 위한 필요성이 있다.

동영상 플레이를 위한 어플리케이션의 한 종류로서, 자막을 포함하고 있는 비디오에 대하여 말풍선을 생성하고 렌더링하는 시스템이 개발되고 있다. 말풍선이란 영상에 표시하기 위하여 설정된 텍스트 상자의 일종으로서, 청각 장애인, 어린이, 또는 언어 교육을 위한 용도로 다양하게 사용되고 있다. 말풍선의 위치는 말하고 있는 배우 등의 얼굴과 근접하여야하며, 다른 사람의 얼굴 또는 중요한 영역을 기리면 안된다는 제약 조건을 가진다.

특히, 얼굴 자동 인식 알고리즘을 통해 배우의 얼굴 위치는 알아낼 수 있으나, 자막 파일에는 시간과 대사에 대한 텍스트만 있고 어느 배우의 대사인지에 대한 정보는 제공하고 있지 아니하다.

영상에서 텍스트 데이터를 자동으로 매핑하고 말풍선등으로 구현되는 텍스트 상자의 최적화된 위치를 계산하여 제공하고자 한다.

상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예는 영상 데이터에 포함된 특성값 또는 특징점을 기초로 상기 영상 데이터를 그룹핑하는 단계; 상기 영상 데이터의 시간축을 기준으로 상기 그룹핑된 영상 데이터에 텍스트 데이터를 매핑하는 단계; 및 상기 그룹핑된 영상 데이터의 특징점으로부터 미리 설정된 가중치 함수를 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 텍스트 데이터의 위치 정보를 생성하는 텍스트 위치 결정 단계를 포함하는 텍스트 데이터 설정 방법을 제공하는 것을 특징으로 할 수 있다.

또한, 상기 텍스트 위치 결정 단계는 상기 그룹핑된 영상 데이터의 특징점을 이용하여 객체의 중심점, 오버랩(overlap) 객체의 영역 또는 현출성(saliency) 중 적어도 하나 이상을 추출하는 단계; 상기 추출된 객체의 중심점, 오버랩 객체의 영역 또는 현출성 중 적어도 하나 이상을 기초로 미리 설정된 가중치 함수를 이용하여 결과값을 산출하는 단계; 및 상기 산출된 결과값을 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 텍스트 데이터의 위치 정보를 생성하는 단계를 포함하는 것을 특징으로 할 수 있다.

바람직하게는, 상기 결과값을 산출하는 단계는 상기 추출된 객체의 중심점과 상기 텍스트 데이터의 거리의 차이에 대하여 미리 설정된 거리 가중치를 부여하여 거리 결과값을 산출하는 단계; 상기 오버랩 객체의 영역과 상기 텍스트 데이터를 표시하기 위한 영역의 비율에 대하여 미리 설정된 영역 가중치를 부여하여 영역 결과값을 산출하는 단계; 상기 텍스트 데이터의 위치에 대한 현출성(saliency)에 대하여 미리 설정된 현출성 가중치를 부여하여 현출성 결과값을 산출하는 단계; 및 상기 거리 결과값, 상기 영역 결과값 또는 상기 현출성 결과값 중 적어도 어느 하나 이상을 기초로 가중치 결과값을 산출하는 단계를 포함하는 것을 특징으로 할 수 있다.

또한, 상기 가중치 결과값을 산출하는 단계는 상기 거리 결과값, 상기 영역 결과값, 및 상기 현출성 결과값을 합산하여 가중치 결과값을 생성하는 단계인 것을 특징으로 하는 텍스트 데이터 설정 방법인 것을 특징으로 할 수 있다.

또한, 상기 현출성 결과값을 산출하는 단계는 FAST 특징점 추출법을 이용하여 텍스트 데이터의 현출성 결과값을 산출하는 것을 특징으로 하는 단계인 것을 특징으로 할 수 있다.

또한, 상기 영상 데이터를 그룹핑하는 단계는 상기 영상 데이터에 포함된 픽셀 값들의 분포로 정의되는 특성값이 미리 설정된 임계치 이상으로 변환되는 경우 데이터 전환 지점으로 설정하고 상기 특성값이 미리 설정된 임계치 이하로 변화된 영상의 시간축 구간을 그룹핑하는 장면 전환 단계; 및 상기 영상 데이터에 포함된 객체를 식별할 수 있는 특징점이 공통되는 영상의 시간축 구간을 그룹핑하는 단계인 객체 그룹핑 단계를 포함하는 것을 특징으로 할 수 있다.

바람직하게는, 상기 객체 그룹핑 단계는 상기 영상데이터에 대하여 할라이크 특징(Haar-like feature)을 이용하여 상기 영상의 특징점을 추출하는 단계; 및 상기 추출된 특징점을 PCA(Principal Component Analysis) 기반의 얼굴 인식 기법을 이용하여 그룹핑하는 단계를 포함하는 것을 특징으로 할 수 있다.

또한, 상기 텍스트 데이터를 매핑하는 단계는 음성 인식(Voice Recognition)을 이용하여 상기 영상 데이터의 시간축을 기준으로 상기 그룹핑된 영상 데이터에 텍스트 데이터를 매핑하는 단계인 것을 특징으로 할 수 있다.

또한, 상기 텍스트 데이터의 위치 정보를 메타데이터로 저장하는 단계를 더 포함하는 것을 특징으로 할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예는 영상 데이터에 포함된 특성값 또는 특징점을 기초로 상기 영상 데이터를 그룹핑하는 영상 그룹핑부; 상기 영상 데이터의 시간축을 기준으로 상기 그룹핑된 영상 데이터에 텍스트 데이터를 매핑하는 텍스트 데이터 매핑부; 및 상기 그룹핑된 영상 데이터의 특징점으로부터 미리 설정된 가중치 함수를 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 텍스트 데이터의 위치 정보를 생성하는 텍스트 위치 결정부를 포함하는 텍스트 데이터 설정 장치를 제공하는 것을 특징으로 할 수 있다.

종래 기술은 영상에 대하여 정해진 위치에 고정된 자막을 제공하는 기술에 불과하였으나, 본 발명에 따르면 텍스트 데이터를 설정함에 따라 청각 장애인 또는 소음이 많은 야외 등 소리를 정확히 듣지 못하는 경우에 있어 재생되고 있는 텍스트 자막 등이 어느 배우 등의 대사인지 여부를 판별하기 용이하도록 하는 효과를 제공한다.

도 1은 본 발명의 일 실시예에 따른 영상 데이터에 동기화된 텍스트 데이터 설정 방법을 도시한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 영상 데이터에 동기화된 텍스트 데이터 설정 장치를 도시한 블록도이다.
도 3 및 도4는 본 발명의 일 실시예에 따른 영상 데이터에 동기화된 텍스트 데이터 설정 방법을 설명하기 위한 참고도이다.

이하에서는 본 발명의 일부 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

이하의 실시예들은 본 발명의 구성요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합하지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.

본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.

이하의 설명에서 사용되는 특정(特定) 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.

도 1을 참조하여 본 발명의 일 실시예에 따른 텍스트 데이터 설정 방법에 대하여 설명한다. 텍스트 데이터 설정 장치를 이용하여 텍스트 데이터를 설정하는 방법은 영상 데이터를 그룹핑하는 단계(S100), 영상 데이터에 텍스트 데이터를 매핑하는 단계(S200), 및 텍스트 위치 결정 단계(S300)를 포함한다.

S100 단계는 텍스트 데이터 설정 장치는 영상 데이터에 포함된 특성값 또는 특징점을 기초로 영상데이터를 그룹핑한다.

특성값이란 영상 데이터에 포함된 픽셀 값들의 분포로 정의되는 수치로서, 영상에 포함된 RGB 값, 또는 명암값 등의 분포를 그래프화하여 산출할 수 있으며, 예를 들어 특성값은 히스토그램(Histrogram)으로 구현될 수 있다. 따라서, 텍스트 데이터 설정 장치는 영상 데이터에 포함된 특성값이 미리 설정된 임계치 이상으로 변환되는 경우에는 장면 등이 전환된 것으로 판단하여 데이터 전환 지점으로 설정하고, 특성값이 미리 설정된 임계치 이하로 변화된 영상의 시간축 구간을 그룹핑한다. 미리 설정된 임계치는 장면 전환을 한 것으로 텍스트 데이터 설정 장치가 판단하기 위한 수치를 의미하며, 바람직하게는 영상을 흑백으로 처리한 상태에서 85의 값을 가진다.

특징점이란 영상 데이터에 포함된 객체를 식별할 수 있도록 하는 점을 말하는 것으로, 예를 들어 영상에 표시되는 사람의 얼굴에 대하여 식별할 수 있도록 하는 점으로 구현될 수 있다. 따라서, 본 발명의 일 실시예에 따르면, 특징점이 공통되는 영상의 시간축 구간을 하나의 영상 그룹으로 생성할 수 있다. 즉, 영상데이터에 대하여 할라이크 특징(Haar-like feature)를 이용하여 영상의 특징점을 추출한다. 예를 들어, OpenCV에서 제공하는 Haar-like feature 기반의 검출기를 사용하는 경우 초당 3프레임 정도의 성능이 나타난다. 얼굴이 아닌 객체를 식별한 경우에는 사용자에 의하여 제거됨이 바람직하다.

특징점을 기준으로 그룹핑된다는 것은 영상 데이터의 시간축을 기준으로 동일한 특징점을 가지는 객체에 대하여 하나의 그룹으로 설정되는 것을 의미한다. 하나의 그룹으로 설정되는 것은 사용자에 의하여 객체에 대한 그룹으로 설정되거나, 얼굴 인식(face recognition)과 같은 객체 인식 기법을 통하여 자동으로 설정될 수 있다. 예를 들어, 추출된 특징점은 PCA(Principal Component Analysis) 기반의 얼굴 인식 기법을 이용하여 그룹핑될 수 있다.

S200 단계는 텍스트 데이터 설정 장치는 영상 데이터의 시간축을 기준으로 그룹핑된 영상 데이터에 텍스트 데이터를 매핑한다. 본 발명에서, 텍스트 데이터는 시간 정보 또는 시간축에 따른 구간 정보를 가지고 있는 것이 바람직하며, SMI 파일 형식과 같은 시간과 텍스트 정보가 존재하는 자막 파일 또는 구조화된 텍스트 데이터를 포함한다.

텍스트 데이터에 사용자가 미리 설정한 문장 구별 부호가 포함되어 있는 경우에는 동일한 시간 구간에 포함된 경우라도 순차적으로 표시되도록 시간축을 분할할 수 있다. 예를 들어,"안녕하세요/오랜만이네요"라는 텍스트 데이터를 포함하며, 사용자가 "/"에 대하여 미리 문장 구별 부호로 설정한 경우에는 "안녕하세요"를 표시하고 이후에 "오랜만이네요"를 영상에 매핑하도록 설정된다.

본 발명의 일 실시예에 따르면, S100 단계에서 영상 데이터가 그룹핑되는바, 그룹핑된 영상 데이터의 재생 시간을 기준으로 재생 시작 시간과 재생 종료 시간을 산출한다. 산출된 재생 시작 시간과 재생 종료 시간에 따른 그룹핑된 영상 데이터의 재생 구간이 결정되며, 결정된 재생 구간에 대하여 대응되는 텍스트 데이터의 시간 정보가 매칭된다. 그룹핑된 영상 데이터와 텍스트 데이터가 매칭되는 경우, 그룹핑된 영상 데이터에 매칭되는 텍스트 데이터가 매핑(mapping)도니다. 본 발명의 일 실시예에 따르면, 텍스트 데이터를 매핑하는 과정은 사용자에 의하여 설정될 수도 있으나, 음성 인식(Voice Recognition)을 이용하여 영상 데이터의 시간축을 기준으로 그룹핑된 영상 데이터에 텍스트 데이터를 자동으로매핑하도록 설정될 수 있다.

S300 단계는 텍스트 데이터 설정 장치는 그룹핑된 영상 데이터의 특징점으로부터 미리 설정된 가중치 함수를 이용하여 영상 좌표를 결정하고, 결정된 영상 좌표에 기초하여 텍스트 데이터의 위치 정보를 생성한다. S300 단계는 그룹핑된 영상 데이터의 특징점을 이용하여 객체의 중심점, 오버랩(Overlap)된 객체의 영역 또는 현출성(saliency) 중 적어도 하나 이상을 추출하는 단계, 추출된 객체의 중심점, 오버랩 객체의 영역 또는 현출성 중 적어도 하나 이상을 기초로 미리 설정된 가중치 함수를 이용하여 결과값을 산출하는 단계, 산출된 결과값을 이용하여 영상 좌표를 결정하며, 결정된 영상 좌표에 기초하여 텍스트 데이터의 위치 정보를 생성하는 단계를 포함할 수 있다. 현출성(saliency)이란 주변의 이미지 영역이나 객체에 비하여 눈에 띄는 상태, 즉 시각적으로 현출되는 정도를 말하며, 현출성이 높을수록 사용자가 확인이 용이하다.

결과값을 산출하는 단계는 추출된 객체의 중심점과 텍스트 데이터의 거리의 차이에 대하여 미리 설정된 거리 가중치를 부여하여 거리 결과값을 산출하는 단계, 오버랩 객체의 영역과 텍스트 데이터를 표시하기 위한 영역의 비율에 대하여 미리 설정된 영역 가중치를 부여하여 영역 결과값을 산출하는 단계, 텍스트 데이터의 위치에 대한 현출성(saliency)에 대하여 미리 설정된 현출성 가중치를 부여하여 현출성 결과값을 산출하는 단계 및 거리 결과값, 영역 결과값 또는 현출성 결과값 중 적어도 어느 하나 이상을 기초로 가중치 결과값을 산출하는 단계를 포함한다.

거리 결과값을 산출하는 단계는 추출된 객체의 중심점과 텍스트 데이터의 거리의 차이를 미리 산출한다. 객체의 중심점이란, 특징점으로 식별된 객체에 대한 특징점의 좌표들을 기초로 중심이 되는 좌표를 의미하며, 객체의 중심점과 텍스트 데이터의 거리의 차이란 텍스트 데이터가 표시되는 텍스트 상자의 중심이 되는 좌표와의 거리를 의미한다. 객체의 중심점과 텍스트 데이터의 거리의 차이는 절대적인 차이를 계산하는 것인바, 제곱 연산 등을 통하여 양수의 결과값을 산출하는 것이 바람직하며, 미리 설정된 거리 가중치란 사용자가 객체와 텍스트 사이의 거리에 대한 중요도를 설정한 것이다. 미리 설정된 거리 가중치는 텍스트와 객체의 거리가 가까워야하며, 텍스트와 객체 간의 거리가 지나치게 멀어지거나, 텍스트 표시 영역의 지나친 확대를 방지하기 위하여 0 내지 1의 범위에서 가중치로 설정되며, 바람직하게는 0.2로 설정되는 경우 사용자의 선호도가 높다.

오버랩 객체의 영역과 텍스트 데이터를 표시하기 위한 영역의 비율에 대하여 미리 설정된 영역 가중치를 부여하여 영역 결과값을 산출하는 단계는 텍스트 데이터를 표시하기 위한 텍스트 상자 등의 영역에 대하여 넓이를 계산하고, 다른 객체를 가리는 것을 방지하기 위하여 오버랩된 객체의 영역의 넓이 비율을 산출한다. 미리 설정된 영역 가중치란 텍스트 데이터가 다른 객체를 가리는 것의 중요도가 설정된 것이다. 미리 설정된 영역 가중치는 다른 객체를 가리는 것을 방지하기 위하여 0 내지 100의 가중치로 설정되며, 바람직하게는 다른 객체를 가리는 것을 방지하기 위하여 100으로 설정되는 경우 사용자의 선호도가 높다.

텍스트 데이터의 위치에 대한 현출성(saliency)에 대하여 미리 설정된 현출성 가중치를 부여하여 현출성 결과값을 산출하는 단계는 텍스트 데이터가 영상에서 잘 표시될 수 있는지 여부의 기준인 현출성 결과값을 산출한다. 현출성 가중치란 텍스트 데이터가 시각적으로 명확하게 표시될 수 있는 영역(important region)을 계산하기 위한 가중치로서, 0 내지 1의 가중치를 가지도록 설정되며, 바람직하게는 사용자에게 명확하게 표시되는 1로 설정되는 경우 사용자의 선호도가 높다. 본 발명의 일 실시예에 따르면, FAST 특징점 추출법[E. Rosten et. al, 2010 참조]을 이용하여 텍스트 데이터의 현출성 결과값이 산출될 수 있다.

거리 결과값, 영역 결과값 또는 현출성 결과값 중 적어도 어느 하나 이상을 기초로 가중치 결과값을 산출하는 단계는 개별적으로 산출된 수치를 이용하여 텍스트 데이터가 표시되는 위치 정보를 최적화한다. 본 발명의 일 실시예에 따르면, 거리 결과값, 영역 결과값 또는 현출성 결과값에 대하여 사용자로부터 입력이 되지 아니하거나, 산출되지 아니한 결과값에 대하여는 가중치를 0으로 설정하여 가중치 결과값을 산출한다. 예를 들어, Nelder-Mead Simplex method 최적화 방법으로 가중치 결과값이 최소화되는 지점을 산출하고, 산출된 지점을 위치 정보로 결정할 수 있다.

본 발명의 일 실시예에 따르면, 가중치 결과값을 산출하는 단계는 거리 결과값, 영역 결과값 및 현출성 결과값을 합산하여 가중치 결과값을 생성할 수 있다.

[수학식 1]을 참조하여 텍스트 데이터의 위치 정보를 생성하는 것을 설명하면,

텍스트 데이터(WB)의 위치 정보(x)를 구하는 것으로, 텍스트 데이터의 위치 정보(x)는 좌표로 설정될 수 있으며, 가로축 좌표(coord_x), 세로축 좌표(coord_y), 폭(width) 및 높이(height) 정보를 포함한다. 객체의 중심점(fi)와 텍스트 데이터의 거리의 차이에 대한 제곱연산을 통하여 양수의 값을 생성하고, 생성된 차이에 거리 가중치(w1)를 연산하여 거리 결과값을 산출한다. 오버랩 객체의 영역의 넓이(overlap)와 텍스트 데이터를 표시하기 위한 영역의 넓이(Area(WB))에 대한 비율에 대하여 영역 가중치(w2)를 연산하여 영역 결과값을 산출한다. 현출성(Saliency)에 대하여 텍스트 데이터가 사용자에게 효과적으로 제공되기 위한 영역(important region)을 계산하기 위하여 현출성 가중치(w3)를 이용하여 현출성 결과값을 산출한다. 가중치 결과값(E(x))는 거리 결과값, 영역 결과값 및 현출성 결과값을 합산하여 산출된다.

본 발명의 일 실시예에 따르면, 텍스트 데이터 설정 장치가 가중치 결과값에 따라 산출된 텍스트 데이터의 위치 정보를 메타데이터로 저장하는 단계를 더 포함할 수 있다. 예를 들어, 말풍선으로 표시가능한 텍스트 상자에 대하여 텍스트 상자의 위치와 넓이, 높이 정보를 SMI 자막 형식의 파일에 메타데이터로 저장함으로써, 다른 사용자에게 동영상 재생에 따라 텍스트 상자가 오버레이되는 메타데이터가 저장된 SMI 자막 형식의 파일을 제공할 수 있다.

도 2를 참조하여 본 발명의 일 실시예에 따른 텍스트 데이터 설정 장치를 설명한다. 텍스트 데이터 설정 방법에서 상술한 내용과 동일한 내용은 상술한 내용으로 대체한다.

텍스트 데이터 설정 장치는 영상 그룹핑부(100), 텍스트 데이터 매핑부(200) 및 텍스트위치 결정부(300)를 포함한다.

영상 그룹핑부(100)는 영상 데이터에 포함된 특성값 또는 특징점을 기초로 영상 데이터를 그룹핑하며, 영상 그룹핑부(100)는 영상 데이터에 포함된 픽셀 값들의 분포로 정의되는 특성값이 미리 설정된 임계치 이상으로 변환되는 경우 데이터 전환 지점으로 설정하고 특성값이 미리 설정된 임계치 이하로 변화된 영상의 시간축 구간을 그룹핑하는 장면 전환 설정부(110) 및 영상 데이터에 포함된 객체를 식별할 수 있는 특징점이 공통되는 영상의 시간축 구간을 그룹핑하는 단계인 객체 그룹핑부를 포함한다.

텍스트 데이터 매핑부(200)는 영상 데이터의 시간축을 기준으로 그룹핑된 영상 데이터에 텍스트 데이터를 매핑한다.

텍스트 위치 결정부(300)는 그룹핑된 영상 데이터의 특징점으로부터 미리 설정된 가중치 함수를 이용하여 영상 좌표를 결정하고, 결정된 영상 좌표에 기초하여 텍스트 데이터의 위치 정보를 생성한다. 텍스트 위치 결정부(300)는 그룹핑된 영상 데이터의 특징점을 이용하여 객체의 중심점, 오버랩(overlap) 객체의 영역 또는 현출성(saliency) 중 적어도 하나 이상을 추출하는 추출부(310), 추출된 객체의 중심점, 오버랩 객체의 영역 또는 현출성 중 적어도 하나 이상을 기초로 미리 설정된 가중치 함수를 이용하여 결과값을 산출하는 산출부(320) 및 산출된 결과값을 이용하여 영상 좌표를 결정하고, 결정된 영상 좌표에 기초하여 텍스트 데이터의 위치 정보를 생성하는 위치 정보 생성부(330)를 포함한다.

산출부(320)는 추출된 객체의 중심점과 텍스트 데이터의 거리의 차이에 대하여 미리 설정된 거리 가중치를 부여하여 거리 결과값을 산출하는 거리 결과값 산출부(미도시), 오버랩 객체의 영역과 텍스트 데이터를 표시하기 위한 영역의 비율에 대하여 미리 설정된 영역 가중치를 부여하여 영역 결과값을 산출하는 영역 결과값 산출부(미도시), 텍스트 데이터의 위치에 대한 현출성(saliency)에 대하여 미리 설정된 현출성 가중치를 부여하여 현출성 결과값을 산출하는 현출성 결과값 산출부(미도시) 및 거리 결과값, 영역 결과값 또는 현출성 결과값 중 적어도 어느 하나 이상을 기초로 가중치 결과값을 산출하는 가중치 결과값 산출부(미도시)를 포함하며, 바람직하게는 가중치 결과값 산출부는 거리 결과값, 영역 결과값, 및 현출성 결과값을 합산하여 가중치 결과값을 생성하는 것을 특징으로 한다.

본 발명의 일 실시예에 따르면, 메타데이터 저장부(미도시)를 더 포함할 수 있으며, 텍스트 데이터의 위치 정보를 메타데이터로 저장한다.

도 3 및 도 4를 참조하여 본 발명의 일 실시예에 따른 텍스트 데이터 설정 방법 중 텍스트 데이터를 매핑하는 단계에 대하여 설명한다.

영상 그룹핑하는 단계를 수행하여 그룹화된 영상 데이터(410) 가운데 일부를 사용자에게 디스플레이한다(420). 텍스트 데이터 설정 장치는 그룹화된 영상 데이터와 매칭되는 텍스트 데이터(430)를 사용자에게 함께 제공할 수 있고, 사용자로부터 디스플레이된 영상에 대하여 텍스트 데이터를 동기화 설정을 입력받을 수 있다.

또한, 영상에 포함된 객체에 대하여 특징점이 공통된다고 판단되는 객체에 대하여 사용자가 판독가능하도록 표시하여(440), 사용자로부터 표시한 객체들에 대하여 병합(Merge), 첨가(Add) 또는 삭제(Delete) 명령을 입력받아 객체를 그룹핑할 수 있다. 그룹핑된 영상에 대하여는 그룹화된 영상 데이터와 매칭되는 텍스트 데이터가 매핑된다(450).

본 발명에 의한 실시예들은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(Computer Readable Media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 실시예를 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.

이제까지 본 발명에 대하여 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로, 상기 개시된 실시예 들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.

Claims

영상 데이터에 포함된 픽셀 값들의 분포로 정의되는 수치인 특성값 또는 영상 데이터에 포함된 객체를 식별할 수 있도록 하는 점인 특징점을 기초로 상기 영상 데이터를 시간축을 기준으로 그룹핑하는 단계;
상기 영상 데이터의 시간축을 기준으로 상기 그룹핑된 영상 데이터에 텍스트 데이터를 매핑하는 단계; 및
상기 그룹핑된 영상 데이터의 특징점으로부터 미리 설정된 가중치 함수를 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 텍스트 데이터의 위치 정보를 생성하는 텍스트 위치 결정 단계를 포함하고,
상기 텍스트 위치 결정 단계는,
상기 그룹핑된 영상 데이터의 특징점을 이용하여 객체의 중심점, 오버랩(overlap) 객체의 영역 또는 현출성(saliency) 중 적어도 하나 이상을 추출하는 단계;
상기 추출된 객체의 중심점, 오버랩 객체의 영역 또는 현출성 중 적어도 하나 이상을 기초로 미리 설정된 가중치 함수를 이용하여 결과값을 산출하는 단계; 및
상기 산출된 결과값을 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 텍스트 데이터의 위치 정보를 생성하는 단계를 포함하며,
상기 결과값을 산출하는 단계는,
상기 추출된 객체의 중심점과 상기 텍스트 데이터의 거리의 차이에 대하여 미리 설정된 거리 가중치를 부여하여 거리 결과값을 산출하는 단계;
상기 오버랩 객체의 영역과 상기 텍스트 데이터를 표시하기 위한 영역의 비율에 대하여 미리 설정된 영역 가중치를 부여하여 영역 결과값을 산출하는 단계;
상기 텍스트 데이터의 위치에 대한 현출성(saliency)에 대하여 미리 설정된 현출성 가중치를 부여하여 현출성 결과값을 산출하는 단계; 및
상기 거리 결과값, 상기 영역 결과값 또는 상기 현출성 결과값 중 적어도 어느 하나 이상을 기초로 가중치 결과값을 산출하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 설정 방법.
삭제
삭제
제1 항에 있어서, 상기 가중치 결과값을 산출하는 단계는
상기 거리 결과값, 상기 영역 결과값, 및 상기 현출성 결과값을 합산하여 가중치 결과값을 생성하는 단계인 것을 특징으로 하는 텍스트 데이터 설정 방법.
제1 항에 있어서, 상기 현출성 결과값을 산출하는 단계는
FAST(Features from Accelerated Segment Test) 특징점 추출법을 이용하여 텍스트 데이터의 현출성 결과값을 산출하는 것을 특징으로 하는 단계인 것을 특징으로 하는 텍스트 데이터 설정 방법.
제1 항에 있어서, 상기 영상 데이터를 그룹핑하는 단계는
상기 영상 데이터에 포함된 픽셀 값들의 분포로 정의되는 특성값이 미리 설정된 임계치 이상으로 변환되는 경우 데이터 전환 지점으로 설정하고 상기 특성값이 미리 설정된 임계치 이하로 변화된 영상의 시간축 구간을 그룹핑하는 장면 전환 단계; 및
상기 영상 데이터에 포함된 객체를 식별할 수 있는 특징점이 공통되는 영상의 시간축 구간을 그룹핑하는 단계인 객체 그룹핑 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 설정 방법.
제6 항에 있어서, 상기 객체 그룹핑 단계는
상기 영상데이터에 대하여 할라이크 특징(Haar-like feature)을 이용하여 상기 영상의 특징점을 추출하는 단계; 및
상기 추출된 특징점을 PCA(Principal Component Analysis) 기반의 얼굴 인식 기법을 이용하여 그룹핑하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 설정 방법.
제1 항에 있어서, 상기 텍스트 데이터를 매핑하는 단계는
음성 인식(Voice Recognition)을 이용하여 상기 영상 데이터의 시간축을 기준으로 상기 그룹핑된 영상 데이터에 텍스트 데이터를 매핑하는 단계인 것을 특징으로 하는 텍스트 데이터 설정 방법.
제1 항에 있어서,
상기 텍스트 데이터의 위치 정보를 메타데이터로 저장하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 데이터 설정 방법.
영상 데이터에 포함된 픽셀 값들의 분포로 정의되는 수치인 특성값 또는 영상 데이터에 포함된 객체를 식별할 수 있도록 하는 점인 특징점을 기초로 상기 영상 데이터를 시간축을 기준으로 그룹핑하는 영상 그룹핑부;
상기 영상 데이터의 시간축을 기준으로 상기 그룹핑된 영상 데이터에 텍스트 데이터를 매핑하는 텍스트 데이터 매핑부; 및
상기 그룹핑된 영상 데이터의 특징점으로부터 미리 설정된 가중치 함수를 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 텍스트 데이터의 위치 정보를 생성하는 텍스트 위치 결정부를 포함하고,
상기 텍스트 위치 결정부는,
상기 그룹핑된 영상 데이터의 특징점을 이용하여 객체의 중심점, 오버랩(overlap) 객체의 영역 또는 현출성(saliency) 중 적어도 하나 이상을 추출하는 추출부;
상기 추출된 객체의 중심점, 오버랩 객체의 영역 또는 현출성 중 적어도 하나 이상을 기초로 미리 설정된 가중치 함수를 이용하여 결과값을 산출하는 산출부; 및
상기 산출된 결과값을 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 텍스트 데이터의 위치 정보를 생성하는 위치 정보 생성부를 포함하며,
상기 산출부는,
상기 추출된 객체의 중심점과 상기 텍스트 데이터의 거리의 차이에 대하여 미리 설정된 거리 가중치를 부여하여 거리 결과값을 산출하는 거리 결과값 산출부;
상기 오버랩 객체의 영역과 상기 텍스트 데이터를 표시하기 위한 영역의 비율에 대하여 미리 설정된 영역 가중치를 부여하여 영역 결과값을 산출하는 영역 결과값 산출부;
상기 텍스트 데이터의 위치에 대한 현출성(saliency)에 대하여 미리 설정된 현출성 가중치를 부여하여 현출성 결과값을 산출하는 현출성 결과값 산출부; 및
상기 거리 결과값, 상기 영역 결과값 또는 상기 현출성 결과값 중 적어도 어느 하나 이상을 기초로 가중치 결과값을 산출하는 가중치 결과값 산출부를 포함하는 텍스트 데이터 설정 장치.
삭제
삭제
제10 항에 있어서, 상기 가중치 결과값 산출부는
상기 거리 결과값, 상기 영역 결과값, 및 상기 현출성 결과값을 합산하여 가중치 결과값을 생성하는 것을 특징으로 하는 텍스트 데이터 설정 장치.
제10 항에 있어서, 상기 영상 그룹핑부는
상기 영상 데이터에 포함된 픽셀 값들의 분포로 정의되는 특성값이 미리 설정된 임계치 이상으로 변환되는 경우 데이터 전환 지점으로 설정하고 상기 특성값이 미리 설정된 임계치 이하로 변화된 영상의 시간축 구간을 그룹핑하는 장면 전환 설정부; 및
상기 영상 데이터에 포함된 객체를 식별할 수 있는 특징점이 공통되는 영상의 시간축 구간을 그룹핑하는 단계인 객체 그룹핑부를 포함하는 것을 특징으로 하는 텍스트 데이터 설정 장치.
제10 항에 있어서,
상기 텍스트 데이터의 위치 정보를 메타데이터로 저장하는 메타데이터 저장부를 더 포함하는 것을 특징으로 하는 텍스트 데이터 설정 장치.
영상 데이터로부터 상기 영상 데이터에 포함된 객체를 식별할 수 있도록 하는 점인 특징점을 추출하는 단계;
상기 영상 데이터에, 시간 정보와 텍스트 정보를 포함하는 자막 데이터를 매핑하는 단계; 및
상기 추출된 특징점을 이용하여 상기 자막 데이터의 속성 정보를 생성하는 텍스트 위치 결정 단계를 포함하고,
상기 텍스트 위치 결정 단계는,
상기 영상 데이터의 특징점을 이용하여 객체의 중심점, 오버랩(overlap) 객체의 영역 또는 현출성(saliency) 중 적어도 하나 이상을 추출하는 단계;
상기 추출된 객체의 중심점, 오버랩 객체의 영역 또는 현출성 중 적어도 하나 이상을 기초로 미리 설정된 가중치 함수를 이용하여 결과값을 산출하는 단계; 및
상기 산출된 결과값을 이용하여 영상 좌표를 결정하고, 상기 결정된 영상 좌표에 기초하여 상기 자막 데이터의 속성 정보를 생성하는 단계를 포함하며,
상기 결과값을 산출하는 단계는,
상기 추출된 객체의 중심점과 상기 자막 데이터의 거리의 차이에 대하여 미리 설정된 거리 가중치를 부여하여 거리 결과값을 산출하는 단계;
상기 오버랩 객체의 영역과 상기 자막 데이터를 표시하기 위한 영역의 비율에 대하여 미리 설정된 영역 가중치를 부여하여 영역 결과값을 산출하는 단계;
상기 자막 데이터의 위치에 대한 현출성(saliency)에 대하여 미리 설정된 현출성 가중치를 부여하여 현출성 결과값을 산출하는 단계; 및
상기 거리 결과값, 상기 영역 결과값 또는 상기 현출성 결과값 중 적어도 어느 하나 이상을 기초로 가중치 결과값을 산출하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 설정 방법.
삭제
삭제
제1 항, 제4항 내지 제9 항, 제16 항 중 어느 한 항의 텍스트 데이터 설정 방법을 컴퓨터에서 실행가능하도록 기록한 것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체.