KR20140132246A

KR20140132246A - 오브젝트 선택 방법 및 오브젝트 선택 장치

Info

Publication number: KR20140132246A
Application number: KR1020130051555A
Authority: KR
Inventors: 권성혁; 김재엽; 이진하; 크리스토프 나우어진
Original assignee: 삼성전자주식회사
Priority date: 2013-05-07
Filing date: 2013-05-07
Publication date: 2014-11-17
Also published as: EP2801890A1; US20140337740A1

Abstract

오브젝트 선택 방법을 개시한다. 본 발명의 일 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하는 단계와, 사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계와, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계를 포함한다.

Description

오브젝트 선택 방법 및 오브젝트 선택 장치{OBJECT SELECTION METHOD AND OBJECT SELECTION APPARATUS}

본 발명은 오브젝트 선택 방법에 관한 것으로, 좀더 상세하게는 음성 인식(voice recognition)과 시선 추적(eye tracking)을 이용한 오브젝트 선택 방법 및 오브젝트 선택 장치에 관한 것이다.

최근의 인터페이스 기술은 좀더 직관적인 사용자 경험을 반영한다. 예를 들어, 사용자는 키보드, 마우스 등의 별도의 입력 장치를 조작하지 않고 스크린에 디스플레이된 아이템을 직접 터치하여 아이템을 선택한다. 또한, 사용자는 손짓만으로 원하는 TV 프로그램을 시청할 수 있다. 유사하게 일부 인공 지능 분야의 기술은 인터페이스에 적용이 시도되고 있는데, 그러한 예로 음성 인식(Voice Recognition), 시선 추적(Eye Tracking) 등이 있다.

음성 인식(Voice Recognition)은 인간의 음성을 수집하여 그 언어적 의미를 식별하는 기술을 일컫는다. 음성 인식 기술은 사용자가 자연어를 이용해서 전자 장치나 기계 장치와 인터렉션을 수행한다는 점에서 가장 직관적이고 혁신적인 인터페이스 기술 중 하나로 볼 수 있다. 다만, 인간의 언어는 문장 형식적 구조뿐 아니라 뉘앙스나, 문맥 등에 따라 표현이 달라지게 되므로 기계적인 정합에 의해서 발화되는 언어의 의미를 정확하게 해석하기에 어려움이 따른다. 이는 자연어가 갖는 본질적인 문제이기도 한데, 예를 들어, 사람들이 서로 대화를 하는 경우도 사람마다 갖고 있는 발화 특성에 따라 대화 상대방의 언어 이해도가 달라질 수 있음이 이를 반증한다.

시선 추적(Eye Tracking)은, 사용자의 시선을 감지하여 사용자가 시각적으로 인지하는 정보(즉,시야(Gaze Position)에 위치한 정보)와 동일한 정보를 식별하는 기술이다. 보통 사람의 시선은 빠르게 변화하고 시야에 있는 다양한 자극을 따라 움직인다. 따라서, 시선 추적 기술을 인터페이스로 이용하는 경우 시선을 최소한의 시간 동안 어느 한 곳에 고정하는 노력을 기울여야 하므로 눈의 피로도가 증가한다. 일상적인 의사 전달에서 사용자 경험에 비추어봐도 시선은 의사 전달의 보조적인 역할을 수행할 뿐, 그 자체만으로 완전한 의사 전달의 도구로 이용되기는 어렵다.

결국, 사람의 커뮤니케이션 체계는 시선, 언어, 몸짓 등을 조합하여 상대방에게 자신의 의사를 전달하는 방식으로 이루어지므로, 이러한 사용자 경험을 고려하여 인터페이스를 설계할 필요가 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 음성 인식(voice recognition)과 시선 추적(eye tracking)을 이용하여 좀더 정밀하게 오브젝트를 선택하는 방법 및 오브젝트 선택 장치를 제공하기 위함이다.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하는 단계, 사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계를 포함한다.

또한, 본 발명의 다른 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 사용자에 의해 발화된 음성을 인식하면, 상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 스크린에 대한 사용자의 시선을 추적하여, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.

이때, 상기 선택 단계는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택하는 단계를 포함할 수 있다.

또한, 상기 선택 단계는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 단계를 포함할 수 있다.

또한, 본 발명의 또 다른 실시 예에 따른, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 스크린에 대한 사용자의 시선을 추적하고, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택할 수 있다. 사용자에 의해 발화된 음성을 인식하면, 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.

또한, 상기 선택 단계는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택하는 단계를 포함할 수 있다.

또한, 상기 선택 단계는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택하는 단계를 포함할 수 있다.

또한, 본 발명의 또 다른 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 스크린에 대한 사용자의 시선을 추적하고, 상기 추적된 사용자의 시선이 이탈하면, 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고, 사용자의 음성이 인식되면, 상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택한다.

또한, 본 발명의 또 다른 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 사용자에 의해 발화된 음성을 인식하고 스크린에 대한 사용자의 시선을 추적할 수 있다. 그리고, 상기 인식된 음성 및 추적된 시선에 기초하여 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택한다. 이후, 사용자의 동작이 인식되면, 선택된 적어도 하나의 오브젝트 중 인식된 사용자 동작에 기초하여 적어도 하나의 오브젝트를 선택할 수 있다.

이때, 상기 오브젝트는, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나일 수 있다.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 오브젝트 선택 장치는 스크린 상에 복수의 오브젝트를 디스플레이하는 디스플레이부와, 상기 스크린에 대한 사용자의 시선을 추적하는 시선 추적부와, 상기 사용자에 의해 발화된 음성을 인식하는 음성 인식부와, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 제어부를 포함한다.

또한, 상기 제어부는, 상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.

또한, 상기 제어부는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하고, 상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택할 수 있다.

또한, 상기 제어부는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.

또한, 상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하고, 상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.

또한, 상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택할 수 있다.

또한, 상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택할 수 있다.

또한, 상기 제어부는, 상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적하여, 상기 추적된 사용자의 시선이 상기 스크린을 벗어난 것으로 판단되면, 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고, 상기 사용자에 의해 발화된 음성이 인식되면, 상기 사용자의 시선이 이동한 궤적에 대응되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.

또한, 사용자의 동작을 감지하여 인식하는 모션 감지부; 를 더 포함하고, 상기 제어부는, 상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택할 수 있다.

또한, 상기 오브젝트는, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나일 수 있다.

이상과 같은 본 발명의 다양한 실시 예에 따르면, 본 발명은 음성 인식(voice recognition)과 시선 추적(eye tracking)을 이용하여 좀더 정밀하게 오브젝트를 선택하는 방법 및 오브젝트 선택 장치를 제공한다.

도 1은 본 발명의 일 실시 예에 따른 오브젝트 선택 장치의 구성을 도시한 블록도,
도 2는 본 발명의 일 실시 예에 따른 디스플레이 화면을 나타낸 도면,
도 3은 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면,
즉, 도 4는 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면, 그리고,
도 5 내지 9는 본 발명의 다양한 실시 예에 따른 오브젝트 선택 방법의 흐름도이다.

이하에서는 첨부된 도면을 참조하여 본 발명의 다양한 실시 예를 설명한다.

오브젝트 선택 장치의 구성 및 동작

도 1은 본 발명의 일 실시 예에 따른 오브젝트 선택 장치의 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 오브젝트 선택 장치(100)는 디스플레이부(110), 음성 인식부(120), 시선 추적부(130), 제어부(140)를 포함한다.

디스플레이부(110)는, 스크린 상에 복수의 오브젝트를 디스플레이하는 구성이다. 여기서 스크린은 디스플레이 패널에 의해 영상이 표시되는 영역을 의미한다. 그리고, 오브젝트란, 화면 상에 표시되는 이미지에 포함되어 육안으로 식별 가능하고, 특정한 기능 또는 콘텐츠에 대응되는 이미지를 의미한다. 디스플레이부(110)는 상기 스크린에 대응되는 하나의 이미지를 디스플레이하고 하나의 이미지는 복수의 오브젝트를 포함할 수 있다.

오브젝트의 종류는 제한이 없다. 즉, 오브젝트는, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 적어도 하나일 수 있다.

어플리케이션 아이콘(Application Icon)은 대응되는 이미지를 선택하는 경우 디스플레이 장치(100)에 포함되는 어플리케이션을 실행시키는 아이콘이다. 콘텐츠 아이콘(Content Icon)은 대응되는 이미지를 선택하는 경우 콘텐츠를 재생시키는 아이콘이다. 썸네일 이미지(thumbnail image)는 이미지를 작은 사이즈로 축소하여 한 눈에 볼 수 있도록 표시한 이미지로, 선택되면 이미지를 풀 사이즈로 확대하여 표시하거나 이미지와 관련된 정보를 디스플레이하는 오브젝트이다. 폴더 아이콘(Folder Icon)은 대응되는 이미지를 선택하는 경우 폴더 내의 파일을 디스플레이 하는 아이콘이다. 위젯(Widget)은 어플리케이션을 여러 단계의 메뉴 선택 없이 곧바로 실행시킬 수 있도록 사용자 인터페이스를 제공하는 아이콘이고, 리스트 아이템(List Item)은, 파일을 리스트 형태로 표시하는 구성이다. 하이퍼 링크(Hyperlink)는 하이퍼 텍스트 문서 내에서 여러 요소를 연결하는 오브젝트로 선택되면 연결된 요소를 디스플레이하는 오브젝트이다. 메뉴(Menu)는 선택할 수 있는 메뉴를 표시하는 구성이다.

디스플레이부(110)는 통상적인 디스플레이 장치의 구성을 갖고 통상적인 디스플레이 장치와 동일하게 동작한다. 우선, 디스플레이부(110)는 표시하는 영상을 처리하여 구성한다. 이를 위해 디스플레이부(110)는 신호 처리 모듈을 포함한다. 신호 처리 모듈은 A/V디코더(미도시), 스케일러(미도시), 프레임 레이트 컨버터(미도시) 및 비디오 인헨서(video enhancer)(미도시) 중 적어도 하나를 포함한다. A/V디코더는 오디오, 비디오 데이터를 분리하여 디코딩하고, 스케일러는 오브젝트가 표시된 이미지의 화면비를 맞춘다. 그리고, 비디오 인헨서는 영상의 열화나 잡음을 제거하여, 처리된 영상은 프레임 버퍼에 저장되고, 프레임 레이트 컨버터에 의해 설정된 주파수에 따라 디스플레이 모듈로 전달된다.

디스플레이 모듈(미도시)은 디스플레이 패널(미도시)에 영상을 출력하는 회로구성으로서, 타이밍 컨트롤러(미도시), 게이트 드라이버(미도시), 데이터 드라이버(미도시), 전압 구동부(미도시)를 포함할 수 있다.

타이밍 컨트롤러(미도시)는 게이트 제어신호(주사 제어신호), 데이터 제어신호(데이터 신호)를 생성하고, 입력받은 R, G, B 데이터를 재정렬하여 데이터 드라이버(미도시)에 공급한다.

게이트 드라이버(미도시)는 타이밍 컨트롤러에 의해 생성된 게이트 제어 신호에 따라 전압 구동부로부터 제공받은 게이트 온/오프 전압(Vgh/Vgl)을 디스플레이 패널에 인가한다.

데이터 드라이버(미도시)는 타이밍 컨트롤러(미도시)에 의해 생성된 데이터 제어 신호에 따라 스케일링이 완료되고 영상 이미지 프레임의 RGB 데이터를 디스프플레이 패널에 입력한다.

전압 구동부(미도시)는 게이트 드라이버, 데이터 드라이버, 디스플레이 패널 등에 각각의 구동 전압을 생성하여 전달한다.

상기 디스플레이 모듈의 각 구성은 본 발명의 기술적 특징은 아니므로 상세한 설명은 생략한다.

전술한 디스플레이 패널은 다양한 기술로 설계될 수 있다. 즉, 디스플레이 패널은 유기발광 다이오드 OLED(Organic Light Emitting Diodes), 액정 디스플레이 패널(Liquid Crystal Display Panel: LCD Panel), 플라즈마 디스플레이 패널(Plasma Display Panel: PDP), VFD(Vacuum Fluorescent Display), FED(Field EmissionDisplay), ELD(Electro Luminescence Display) 중 어느 하나로 구성될 수 있다. 디스플레이 패널은 주로 발광형으로 이루어질 것이지만, 반사형 디스플레이(E-ink, P-ink, Photonic Crystal)를 배제하는 것은 아니다. 또한, 플렉서블 디스플레이(flexible display), 투명 디스플레이(transparent display) 등으로 구현 가능할 것이다. 또한, 오브젝트 선택 장치(100)는 두 개 이상의 디스플레이 패널을 구비하는 멀티 디스플레이 장치로 구현 가능하다.

음성 인식부(120)는 사용자에 의해 발화된 음성을 인식하는 구성이다. 음성 인식부(120)는 음성 수집부(미도시)와 음성 분석부(미도시)를 포함한다.

음성 수집부(미도시)는 사용자가 발화한 음성을 수집하는 구성이다. 음성의 수집은 통상적인 마이크로폰에 의해 수행 가능하다. 예를 들어, 다이내믹 마이크와 콘덴서 마이크, 압전 현상을 이용한 압전 마이크, 탄소 입자의 접촉 저항을 이용한 카본 마이크, 음압에 비례하는 출력을 발생하는(무지향성) 압력 마이크 및 음의 입자 속도에 비례하는 출력을 발생하는 양지향성 마이크 중 적어도 하나의 마이크로폰에 의해 음성 수집이 수행될 수 있다. 사용자는 디스플레이 스크린과 떨어져 위치할 수 있으므로 후술하는 것처럼 음성 수집부는 오브젝트 선택 장치(100)와 별도의 장치에 구비될 수 있다. 음성 수집부는 수집된 음성 정보를 음성 분석부로 전송한다.

음성 분석부(미도시)는 수집된 음성 정보를 수신하여 이를 인식하여 텍스트로 변환한다. 구체적으로, STT(Speech to Text) 엔진을 이용하여, 사용자의 음성에 대응되는 텍스트 정보를 생성할 수 있다. 여기에서, STT 엔진은 음성 신호를 텍스트로 변환하기 위한 모듈로서, 다양한 STT 알고리즘을 이용하여 음성 신호를 텍스트로 변환할 수 있다.

예를 들어, 수집된 사용자의 음성 내에서 사용자가 발화한 음성의 시작과 끝을 검출하여 음성 구간을 판단한다. 구체적으로, 수신된 음성 신호의 에너지를 계산하고, 계산된 에너지에 따라 음성 신호의 에너지 레벨을 분류하여, 동적 프로그래밍을 통해 음성 구간을 검출할 수 있다. 그리고, 검출된 음성 구간 내에서 음향 모델(Acoustic Model)을 기초로 음성의 최소 단위인 음소를 검출하여 음소 데이터를 생성하고, 생성된 음소 데이터에 HMM(Hidden Markov Model) 확률 모델을 적용하여 사용자의 음성을 텍스트로 변환할 수 있다.

또한, 음성 분석부는 수집된 음성으로부터 사용자의 음성이 갖는 특징을 추출할 수있다. 음성의 특징은 사용자가 갖는 말투나 억양, 높낮이 등의 정보로 구성되며 청자가 음성을 통해 사용자를 식별할 수 있는 특징을 의미한다. 음성의 특징은 수집된 음성의 주파수로부터 추출된다. 음성의 특징을 표현하는 파라미터는, 에너지, 영교차율(ZCR), 피치(Pitch), 포먼트(Formant) 등 이 있다. 음성 인식을 위한 음성 특징 추출 방법으로, 사람의 성도를 모델링한 선형 예측(LPC) 방법과, 사람의 청각 기관을 모델링한 필터 뱅크(Filter Bank) 방법이 널리 사용되고 있다. LPC 방법은 시간 영역에서의 분석 방법을 사용하므로, 계산량이 적고, 조용한 환경에서는 매우 우수한 인식 성능을 나타내지만, 잡음 환경에서의 인식 성능이 현저히 저하되는 문제가 있다. 잡음 환경에서의 음성 인식을 위한 분석 방법으로 주로 사람의 청각 기관을 필터 뱅크로 모델화하는 방법이 이용되며, 멜-척도 필터 뱅크에 근거한 MFCC(즉, 멜 켑스트럼 계수)가 음성 특징 추출 방법으로 많이 사용된다. 음향 심리학 연구에 따르면, 물리적 주파수와 인간이 인지하는 주관적인 주파수의 피치 사이의 관계는 선형이 아닌 것으로 밝혀진 바, 'Hz'로 표현되는 물리적인 주파수(f)와 구별하여 인간이 주관적으로 느끼는 주파수 스케일을 정의한 '멜(Mel)'이 사용된다. 이러한 음성 특징은 음성 인식의 노이즈를 제거하는데 사용될 수 있다.

시선 추적부(130)는 스크린에 대한 사용자의 시선을 추적하는 구성이다. 시선 추적부(130)는 다양한 시선 추적 기술(eye tracking, gaze tracking)을 이용해서 사용자 시선을 추적할 수 있다. 예를 들어, 스킨 전극(Skin Electrodes) 기반 방법, 콘텍트 렌즈(Contact Lens) 기반 방법, 두부 장착형 디스플레이(Head Mounted Display) 부착 기반 방법, 원격 팬＆틸트(Remote Pan＆Tilting) 장치 기반 방법 중 어느 하나로 구현 가능하다.

스킨 전극 기반 방법은 사용자 눈 주변에 전극(electrode)을 부착하여 망막(retina)과 각막(cornea) 사이의 전위차를 측정하고, 측정된 전위차를 통해 응시 위치를 계산하는 방법이다. 스킨 전극 기반 방법은 양 안의 응시위치를 모두 파악할 수 있으며, 가격이 저렴하며 사용 방법이 간편하다는 장점이 있다. 하지만, 스킨전극 기반 방법은 가로세로 방향의 움직임이 제한적이어서 정확성이 떨어진다.

콘텍트 렌즈 기반 방법은 각막에 미끄러지지 않는 렌즈를 부착하고 이곳에 자기장 코일이나 거울을 부착하여 응시위치를 계산하는 방법이다. 상기 콘텍트 렌즈 기반 방법은 정확히 응시위치를 계산할 수 있다. 하지만, 사용이 불편하고 눈의 깜박거림이 자유롭지 못하며, 계산이 가능한 범위가 제한되어 있다.

두부 장착형 디스플레이 부착 기반 방법은 헤드밴드 또는 헬멧 밑에 장착된 작은 카메라를 이용하여 응시 위치를 계산한다. 두부 장착형 디스플레이 부착 기반 방법은 사용자의 머리 움직임에 관계없이 응시위치를 계산할 수 있다. 그러나, 카메라가 사용자 눈높이보다 아래에 기울어져 있어 눈의 상하 움직임에 민감하지 못하여, 두부 장착형 디스플레이에만 적용된다.

원격 팬＆틸트 장치 기반 방법은 모니터 주변에 팬＆틸트가 되는 카메라와 조명을 장치하여 응시위치를 계산하는 방법이다. 원격 팬＆틸트 장치 기반 방법은 응시위치 계산이 정확하고 빠르며, 그 적용이 쉬운 장점을 가지나, 머리의 움직임을 추적하기 위해 2대 이상의 고가 스테레오 카메라 장치와 복잡한 알고리즘을 요구하며, 추가로 카메라와 모니터간의 복잡한 캘리브레이션을 요구한다.

또한, 사용자가 착용할 수 있는 안경 장치에 부착된 카메라를 이용하여 응시 위치를 계산하는 방법도 있다. 이 경우 시선 추적부(130)는 안경 장치의 구성이 되며, 객체를 디스플레이할 수 있는 디스플레이 장치는 별도로 구비된다. 안경 장치는 착용성이 좋고 고성능 하드웨어를 요구하지 않고 간편하게 구성할 수 있다.

제어부(140)는, 오브젝트 선택 장치(100)의 동작 전반을 제어한다. 제어부(140)는 CPU, 캐쉬 메모리 등의 하드웨어 구성과, 운영체제, 특정 목적을 수행하는 어플리케이션의 소프트웨어 구성을 포함한다. 시스템 클럭에 따라 오브젝트 선택 장치(100)의 동작을 위한 각 구성요소에 대한 제어 명령이 메모리에서 읽혀지며, 읽혀진 제어 명령에 따라 전기 신호를 발생시켜 하드웨어의 각 구성요소들을 동작시킨다.

특히, 제어부(140)는, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택한다. 이하에서는 오브젝트 선택 장치(100)의 구체적인 동작 실시 예를 설명한다.

음성 인식 후 시선 추적 실시 예

도 2는 본 발명의 일 실시 예에 따른 디스플레이 화면을 나타낸 도면이다.

본 발명의 일 실시 예에서 제어부(140)는, 먼저 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.

도 2의 실시 예에서 사용자가 웹 페이지가 디스플레이된 스크린에 “게임(game)”을 발화한 경우, 음성 인식부(120)는 이를 수집하여 STT 모듈이 텍스트로 변환한다. 제어부(140)는 상기 웹 페이지 상에서 상기 텍스트와 매칭되는 적어도 하나의 오브젝트를 검색하여 돋보이게 표시할 수 있다. 즉, 웹 페이지의 뉴스 섹션(210)에 있는 텍스트 중에서 ‘게임(game)’이라는 용어(230)를 검색하여 하이라이트하고, 어플리케이션 섹션(220)에 배치된 어플리케이션 아이콘 중 ‘게임(game)’ 카테고리에 포함되는 어플리케이션 아이콘(240)을 하이라이트하여 표시한다(도 2의 (1)).

그리고 상기와 같이 하이라이트 되어 선택된 ‘게임(game)’ 오브젝트들 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역(260)인 뉴스 섹션(210)의 일부분에 위치하는 ‘게임(game)’이라는 용어(230)를 최종적으로 선택하여 하이라이트 표시한다(도 2의 (2)).

이때, 제어부(140)는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시할 수도 있다. 예를 들어, 사용자가 “좀비(zombie)”를 발화한 경우, 스크린 상에 표시된 오브젝트 중 “좀비(zombie)”를 태그로 갖는 오브젝트가 선택될 수 있다. 즉, 좀비 관련 게임이나, 게시물, 좀비 의류, 좀비 가면, 좀비 영화 등이 선택되어 표시될 수 있다.

도 2에서는 웹 페이지가 디스플레이되어 웹 페이지 상에서 오브젝트를 선택하는 실시 예를 기재하였지만, 이는 일 실시 예에 불과하다. 즉, 전술한 다양한 종류의 오브젝트 즉, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 적어도 하나가 디스플레이된 상태에서 상술한 방법으로 오브젝트 선택이 가능할 것이다.

시선 추적 후 음성 인식 실시 예

도 3은 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면이다.

본 발명의 다른 실시 예에서 제어부(140)는, 먼저 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하고, 상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.

도 3의 실시 예는 쇼핑몰에서 아이템을 선택하는 시나리오를 도시한다. 사용자의 시선은 스크린의 좌측 아래 영역(310)에 위치하므로, 사용자 시선의 추적 결과에 따라 해당 영역의 아이템(320, 330, 340)이 돋보이게 표시되어 있다(도 3의 (1)).

이후 사용자가 “오른쪽 끝의 것”이라고 발화한 경우, 음성 인식부(120)는 이를 수집하고 STT 모듈이 텍스트로 변환한다. 제어부(140)는 “오른쪽 끝의 것”이라는 언어구와 매칭되는 조건을 결정한다. 예를 들어, 이러한 언어구의 의미는 처음에 선택된 세 개의 아이템 중 세번째 아이템을 가리키는 것이므로, 상기 언어구는 “third”, “last”, “right”이라는 용어로 매칭될 수 있다. 이렇게 매칭된 용어는 조건으로 판단되고 제어부(140)는 상기 조건에 기초하여 세 개의 아이템(320, 330, 340) 중 가장 오른쪽 아이템(340)을 선택한다(도 3의 (2)). 선택된 아이템(340)는 다른 아이템에 비해 돋보이게 표시될 수 있다.

또한, 전술한 실시 예와 유사하게 상기 제어부(140)는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택할 수 있다.

예를 들어, 사용자의 시선에 의해 오브젝트가 두드러지게 표시된 후, 사용자가 “빨간색”을 발화한 경우를 고려하자. 제어부(140)는 스크린 상에 표시된 오브젝트 중 “빨간색”을 태그로 갖는 오브젝트를 검색한다. 쇼핑몰의 실시 예에서 빨간색 의류, 빨간색 신발, 빨간색 속옷, 빨간색 자동차, 빨간색 기타 등이 선택되어 돋보이게 표시될 수 있을 것이다.

한편, 시선 추적부(130)는 실시간으로 동작할 수 있고, 이 경우 상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적할 수 있다. 도 4는 이러한 경우의 실시 예를 도시한다.

즉, 도 4는 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면이다.

시선 추적부(130)가 실시간으로 스크린에 대한 사용자의 시선의 움직임을 추적함으로써, 제어부(140)가 상기 스크린에 대한 상기 사용자의 시선의 움직임을 파악하는 경우, 상기 추적된 사용자의 시선이 상기 스크린을 벗어나는 순간, 제어부(140)는 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤 할 수 있다. 제어부(140)는 시선이 스크린 내에 머물다가 움직임이 감지되고 스크린 상의 기 설정된 거리 이상 움직이거나 기 설정된 시간 이상 시선의 움직임이 감지된 이후 시선이 스크린의 모서리에 걸치게 되면 시선의 이탈로 판단할 수 있다.

이때, 제어부(140)는, 사용자에 의해 발화된 음성이 인식되면, 사용자의 시선이 이동한 궤적에 대응되는 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.

도 4의 실시 예에서, 사용자의 시선이 스크린의 왼쪽에 위치함으로써 왼쪽에 위치한 아이템 A,D가 돋보이게 표시된다(도 4의 (1)). 그리고, 사용자의 시선이 스크린의 왼쪽 아래 부분으로 이동하는 것이 감지된 경우 제어부(140)는 스크린을 아래 방향으로 스크롤한다. 이때 사용자의 시선의 움직임 궤적에 위치하는 아이템 A,D,G,J가 모두 선택되어 돋보이게 표시된다(도 4의 (1), (2), (3)). 사용자가 특정 아이템인 “D”를 발화한 경우, 음성 인식부(120)가 이를 인식하고, 제어부(140)는 상기 선택된 아이템 들(A,D,G,J) 중 D를 선택하고, 화면을 D가 표시될 수 있도록 스크롤한다(도 4의 (4)).

모션 감지 실시 예

한편, 상기 오브젝트 선택 장치(100)는 사용자의 동작을 감지하여 인식하는 모션 감지부(미도시)를 더 포함할 수 있다.

모션 감지부(미도시)는 사용자 객체의 모션을 인식하는 구성이다. 구체적으로는, 모션 감지부는 사용자의 움직임을 센싱하여, 어떠한 모션이 이루어졌는지를 인식한다.

이를 위해, 모션 감지부는 카메라와 같은 촬영 수단을 포함할 수 있다. 모션 감지부는 촬영 수단의 촬영 범위 내에 존재하는 사용자 등을 촬영하여, 그 촬영 이미지 데이터를 분석하여 사용자가 어떠한 모션을 취하였는지를 인식하고, 그 결과를 제어부(140)로 제공한다

촬영 수단으로 오브젝트 선택 장치(100)의 스크린 전방을 촬영하는 카메라를 포함할 수 있다. 카메라는 전방에 놓여진 각종 객체들로부터 반사되는 빛을 수광하여, 촬영 이미지 데이터를 생성한다. 오브젝트 선택 장치(100) 방향의 모션에 대한 인식이 필요한 경우라면, 3차원 깊이 카메라를 포함할 수 있다. 3차원 깊이 카메라는 적외선을 방사하고, 그 적외선이 물체에 닿았다가 되돌아오는 시간을 측정해 물체까지의 거리를 산출한다. 깊이 카메라에서 얻은 이미지는 그레이 레벨로 출력되며, 각 픽셀 별로 가로, 세로, 거리와 같은 좌표 값이 표현된다. 즉, 픽셀 별로 뎁스 정보가 마련되는 촬영 이미지 데이터를 생성한다.

제어부(140)는 촬영 이미지 데이터의 분석하여 사용자 객체의 모션을 인식한다. 3차원모션 인식의 경우 제어부(140)는 사용자 객체에 해당하는 픽셀 군을 탐색하고, 해당 픽셀 군의 뎁스 정보가 변경되었는지 여부를 판단한다. 이 경우, 제어부(140)는 객체와의 거리가 장치로부터 멀어지는 경우와 가까워지는 경우를 구별한다.

이때 제어부(140)는, 상기 인식된 사용자 동작에 기초하여, 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택할 수 있다. 이러한 실시 예에 따르면, 사용자 입력을 좀더 정밀하게 수행할 수 있는 이점이 있다. 실세계에서 제스처가 사용되면 정확한 의사전달에 큰 도움이 되는 것과 유사하다.

오브젝트 선택 시스템

전술한 오브젝트 선택 장치(100)의 구성은 하나의 장치가 모든 구성을 포함할 수도 있지만, 복수의 장치가 역할을 분담할 수 있다.

즉, 오브젝트 선택 장치(100)는 전술한 바와 같이 스킨 전극(Skin Electrodes) 기반 방법, 콘텍트 렌즈(Contact Lens) 기반 방법, 두부 장착형 디스플레이(Head Mounted Display) 부착 기반 방법, 원격 팬＆틸트(Remote Pan＆Tilting) 장치 기반 방법, 안경 장치 기반 방법 등으로 구현될 수 있고, 이 경우 복수의 장치로 설계될 수 있다.

일 실시 예로 안경 장치 기반의 방식에서 안경 장치는 동공의 움직임을 촬상하는 카메라를 포함하고, 사용자 음성을 수집하는 음성 수집부를 구성으로 포함할 수 있다. 이때, 수집된 사용자 음성과 카메라에 의해 촬상된 영상은 근거리 통신 수단에 의해 디스플레이 장치(미도시)로 전달될 수 있다.

여기서 언급된 근거리 통신 기술은 특정한 기술로 제한되지 않는다. 일 예로 와이파이(WIFI) 통신 규격을 따를 수 있다.

와이파이(WIFI) 모듈은 IEEE 802.11 기술 규격에 따르는 근거리 통신을 수행한다. IEEE 802.11 기술 규격에 따르면, 단일 캐리어 DSSS(Single Carrier Direct Sequence Spread Spectrum)으로 불리는 대역확산 방식의 무선 통신 기술과, 다중캐리어 OFDM(Multi Carrier Orthogonal Frequency Multiflexing)으로 불리는 직교 주파수 분할 방식의 무선 통신 기술이 사용된다.

다른 실시 예로 다양한 이동통신기술로 구현될 수 있다. 즉, 기존의 무선 전화망을 이용해 데이터 송수신이 가능한 셀룰러 통신모듈을 포함할 수 있다.

예를 들어 3G(3세대) 이동통신 기술이 적용될 수 있다. 즉, WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access) 및 HSPA(High Speed Packet Access) 중 적어도 하나의 기술이 적용될 수 있다.

이와 달리 4G(4세대) 이동통신 기술이 적용될 수도 있다. 2.3GHz(포터블 인터넷) 모바일 와이맥스(Mobile WiMAX) 또는 와이브로(WiBro)는 고속으로 움직일 때도 사용 가능한 인터넷 기술이다.

또한, 4세대 LTE(Long Term Evolution) 기술이 적용될 수도 있다. LTE는 WCDMA의 확장 기술로 OFDMA(Orthogonal Frequency Division Multiple Access)과 MIMO(Multiple-Input Multiple-Output : 다중 안테나)기술을 기반으로 한다. WCDMA 기술을 활용한 것이므로 기존의 네트워크를 활용할 수 있는 장점이 있다.

이처럼 넓은 대역폭을 갖고 효율성이 높은 와이맥스, 와이파이, 3G, LTE 등이 활용될 수 있지만, 본 발명의 실시 예에서 기본적으로 데이터 전송량이 많다고 볼 수는 없으므로 좀더 효율적이고 값 싼 기술을 활용할 수도 있다. 즉, 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, NFC(Near Field Communication)모듈, 지그비(Zigbee) 모듈 등 기타 근거리 통신 모듈과, 무선랜 모듈을 적용할 수 있다.

다른 실시 예로 음성 인식부(120), 모션 인식부는 디스플레이 장치의 리모콘에 포함될 수 있다. 이 경우 사용자는 리모콘에 설치된 마이크를 통해 음성 명령을 디스플레이 장치로 전달하고, 리모콘에 포함된 움직임 센서는 사용자의 모션을 감지하고 감지된 신호를 디스플레이 장치로 전송한다. 반면, 시선 추적부(130)는 디스플레이 장치에 포함되며, 디스플레이 장치의 카메라는 사용자의 눈을 촬상하여 시선을 추적한다.

상기 디스플레이 장치는, 하나 이상의 디스플레이를 구비하며, 어플리케이션을 실행하거나 컨텐츠를 표시 가능하도록 구성되는 장치로써, 예를 들면, 디지털 텔레비전(Digital television), 태블릿 PC(Tablet PC), 개인 컴퓨터(Personal Computer: PC), 휴대용 멀티미디어 재생 장치(Portable Multimedia Player: PMP), 개인 정보 단말기(Personal Digital Assistant: PDA), 스마트 폰(Smart Phone), 휴대폰, 디지털 액자, 디지털 사이니지(Digital Signage) 및 키오스크 중 적어도 하나로 구현될 수 있다.

오브젝트 선택 방법

이하에서는 본 발명의 다양한 실시 예에 따른 오브젝트 선택 방법을 설명한다.

도 5 내지 9는 본 발명의 다양한 실시 예에 따른 오브젝트 선택 방법의 흐름도이다.

도 5를 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하는 단계(S510), 사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계(S520), 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계(S530)를 포함한다.

도 6을 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S610), 사용자에 의해 발화된 음성을 인식하면(S620-Y), 상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택한다(S630). 그리고, 스크린에 대한 사용자의 시선을 추적하여(S640), 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택한다(S650).

도 7를 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S710), 스크린에 대한 사용자의 시선을 추적하고(S720), 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택한다(S730). 그리고, 사용자에 의해 발화된 음성을 인식하면(S740-Y), 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택한다(S750).

도 8을 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S810), 스크린에 대한 사용자의 시선을 추적하고(S820), 상기 추적된 사용자의 시선이 이탈하면(S830-Y), 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고(S840), 사용자의 음성이 인식되면(S850-Y), 상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택한다(S860).

도 9를 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S910), 사용자에 의해 발화된 음성을 인식하고 스크린에 대한 사용자의 시선을 추적한다(S920). 그리고, 상기 인식된 음성 및 추적된 시선에 기초하여 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택한다(S930). 이후, 사용자의 동작이 인식되면(S940-Y), 선택된 적어도 하나의 오브젝트 중 인식된 사용자 동작에 기초하여 적어도 하나의 오브젝트를 선택한다(S950).

기록매체

전술한 오브젝트 선택 방법은, 컴퓨터에서 실행될 수 있는 실행 가능한 알고리즘을 포함하는 프로그램으로 구현될 수 있고, 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100 : 오브젝트 선택 장치
110 : 디스플레이부 120 : 음성 인식부(120)
130 : 시선 추적부 140 : 제어부

Claims

오브젝트 선택 방법에 있어서,
스크린 상에 복수의 오브젝트를 디스플레이하는 단계;
사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계; 및
상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 선택 단계는,
상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 단계; 및
상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 선택 단계는,
상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하는 단계; 및
상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 선택 단계는,
상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하는 단계; 및
상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 선택 단계는,
상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하는 단계; 및
상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 선택 단계는,
상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계; 및
상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 선택 단계는,
상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계; 및
상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 디스플레이 단계는,
상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적하는 단계; 및
상기 추적된 사용자의 시선이 상기 스크린을 벗어난 것으로 판단되면, 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하는 단계; 를 포함하고,
상기 선택 단계는,
상기 사용자에 의해 발화된 음성이 인식되면, 상기 사용자의 시선이 이동한 궤적에 대응되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
사용자의 동작을 감지하여 인식하는 단계; 및
상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
제1 항에 있어서,
상기 오브젝트는,
어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나인 것을 특징으로 하는 오브젝트 선택 방법.
스크린 상에 복수의 오브젝트를 디스플레이하는 디스플레이부;
상기 스크린에 대한 사용자의 시선을 추적하는 시선 추적부;
상기 사용자에 의해 발화된 음성을 인식하는 음성 인식부; 및
상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 제어부;를 포함하는 오브젝트 선택 장치.
제11 항에 있어서,
상기 제어부는,
상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제11 항에 있어서,
상기 제어부는,
상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하고, 상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제11 항에 있어서,
상기 제어부는,
상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제11 항에 있어서,
상기 제어부는,
상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하고, 상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제 11항에 있어서,
상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제11 항에 있어서,
상기 제어부는,
상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제11 항에 있어서,
상기 제어부는,
상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적하여, 상기 추적된 사용자의 시선이 상기 스크린을 벗어난 것으로 판단되면, 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고,
상기 사용자에 의해 발화된 음성이 인식되면, 상기 사용자의 시선이 이동한 궤적에 대응되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제11 항에 있어서,
사용자의 동작을 감지하여 인식하는 모션 감지부; 를 더 포함하고,
상기 제어부는,
상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
제11 항에 있어서,
상기 오브젝트는,
어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나인 것을 특징으로 하는 오브젝트 선택 장치.