KR20140132246A - 오브젝트 선택 방법 및 오브젝트 선택 장치 - Google Patents

오브젝트 선택 방법 및 오브젝트 선택 장치 Download PDF

Info

Publication number
KR20140132246A
KR20140132246A KR1020130051555A KR20130051555A KR20140132246A KR 20140132246 A KR20140132246 A KR 20140132246A KR 1020130051555 A KR1020130051555 A KR 1020130051555A KR 20130051555 A KR20130051555 A KR 20130051555A KR 20140132246 A KR20140132246 A KR 20140132246A
Authority
KR
South Korea
Prior art keywords
user
screen
voice
gaze
selecting
Prior art date
Application number
KR1020130051555A
Other languages
English (en)
Inventor
권성혁
김재엽
이진하
크리스토프 나우어진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130051555A priority Critical patent/KR20140132246A/ko
Priority to EP14167110.7A priority patent/EP2801890A1/en
Priority to US14/271,875 priority patent/US20140337740A1/en
Publication of KR20140132246A publication Critical patent/KR20140132246A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

오브젝트 선택 방법을 개시한다. 본 발명의 일 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하는 단계와, 사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계와, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계를 포함한다.

Description

오브젝트 선택 방법 및 오브젝트 선택 장치{OBJECT SELECTION METHOD AND OBJECT SELECTION APPARATUS}
본 발명은 오브젝트 선택 방법에 관한 것으로, 좀더 상세하게는 음성 인식(voice recognition)과 시선 추적(eye tracking)을 이용한 오브젝트 선택 방법 및 오브젝트 선택 장치에 관한 것이다.
최근의 인터페이스 기술은 좀더 직관적인 사용자 경험을 반영한다. 예를 들어, 사용자는 키보드, 마우스 등의 별도의 입력 장치를 조작하지 않고 스크린에 디스플레이된 아이템을 직접 터치하여 아이템을 선택한다. 또한, 사용자는 손짓만으로 원하는 TV 프로그램을 시청할 수 있다. 유사하게 일부 인공 지능 분야의 기술은 인터페이스에 적용이 시도되고 있는데, 그러한 예로 음성 인식(Voice Recognition), 시선 추적(Eye Tracking) 등이 있다.
음성 인식(Voice Recognition)은 인간의 음성을 수집하여 그 언어적 의미를 식별하는 기술을 일컫는다. 음성 인식 기술은 사용자가 자연어를 이용해서 전자 장치나 기계 장치와 인터렉션을 수행한다는 점에서 가장 직관적이고 혁신적인 인터페이스 기술 중 하나로 볼 수 있다. 다만, 인간의 언어는 문장 형식적 구조뿐 아니라 뉘앙스나, 문맥 등에 따라 표현이 달라지게 되므로 기계적인 정합에 의해서 발화되는 언어의 의미를 정확하게 해석하기에 어려움이 따른다. 이는 자연어가 갖는 본질적인 문제이기도 한데, 예를 들어, 사람들이 서로 대화를 하는 경우도 사람마다 갖고 있는 발화 특성에 따라 대화 상대방의 언어 이해도가 달라질 수 있음이 이를 반증한다.
시선 추적(Eye Tracking)은, 사용자의 시선을 감지하여 사용자가 시각적으로 인지하는 정보(즉,시야(Gaze Position)에 위치한 정보)와 동일한 정보를 식별하는 기술이다. 보통 사람의 시선은 빠르게 변화하고 시야에 있는 다양한 자극을 따라 움직인다. 따라서, 시선 추적 기술을 인터페이스로 이용하는 경우 시선을 최소한의 시간 동안 어느 한 곳에 고정하는 노력을 기울여야 하므로 눈의 피로도가 증가한다. 일상적인 의사 전달에서 사용자 경험에 비추어봐도 시선은 의사 전달의 보조적인 역할을 수행할 뿐, 그 자체만으로 완전한 의사 전달의 도구로 이용되기는 어렵다.
결국, 사람의 커뮤니케이션 체계는 시선, 언어, 몸짓 등을 조합하여 상대방에게 자신의 의사를 전달하는 방식으로 이루어지므로, 이러한 사용자 경험을 고려하여 인터페이스를 설계할 필요가 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 음성 인식(voice recognition)과 시선 추적(eye tracking)을 이용하여 좀더 정밀하게 오브젝트를 선택하는 방법 및 오브젝트 선택 장치를 제공하기 위함이다.
상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하는 단계, 사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계를 포함한다.
또한, 본 발명의 다른 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 사용자에 의해 발화된 음성을 인식하면, 상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 스크린에 대한 사용자의 시선을 추적하여, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.
이때, 상기 선택 단계는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택하는 단계를 포함할 수 있다.
또한, 상기 선택 단계는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 단계를 포함할 수 있다.
또한, 본 발명의 또 다른 실시 예에 따른, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 스크린에 대한 사용자의 시선을 추적하고, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택할 수 있다. 사용자에 의해 발화된 음성을 인식하면, 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.
또한, 상기 선택 단계는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택하는 단계를 포함할 수 있다.
또한, 상기 선택 단계는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택하는 단계를 포함할 수 있다.
또한, 본 발명의 또 다른 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 스크린에 대한 사용자의 시선을 추적하고, 상기 추적된 사용자의 시선이 이탈하면, 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고, 사용자의 음성이 인식되면, 상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택한다.
또한, 본 발명의 또 다른 실시 예에 따른 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고, 사용자에 의해 발화된 음성을 인식하고 스크린에 대한 사용자의 시선을 추적할 수 있다. 그리고, 상기 인식된 음성 및 추적된 시선에 기초하여 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택한다. 이후, 사용자의 동작이 인식되면, 선택된 적어도 하나의 오브젝트 중 인식된 사용자 동작에 기초하여 적어도 하나의 오브젝트를 선택할 수 있다.
이때, 상기 오브젝트는, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나일 수 있다.
상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 오브젝트 선택 장치는 스크린 상에 복수의 오브젝트를 디스플레이하는 디스플레이부와, 상기 스크린에 대한 사용자의 시선을 추적하는 시선 추적부와, 상기 사용자에 의해 발화된 음성을 인식하는 음성 인식부와, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 제어부를 포함한다.
또한, 상기 제어부는, 상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.
또한, 상기 제어부는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하고, 상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택할 수 있다.
또한, 상기 제어부는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.
또한, 상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하고, 상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.
또한, 상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택할 수 있다.
또한, 상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택할 수 있다.
또한, 상기 제어부는, 상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적하여, 상기 추적된 사용자의 시선이 상기 스크린을 벗어난 것으로 판단되면, 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고, 상기 사용자에 의해 발화된 음성이 인식되면, 상기 사용자의 시선이 이동한 궤적에 대응되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.
또한, 사용자의 동작을 감지하여 인식하는 모션 감지부; 를 더 포함하고, 상기 제어부는, 상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택할 수 있다.
또한, 상기 오브젝트는, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나일 수 있다.
이상과 같은 본 발명의 다양한 실시 예에 따르면, 본 발명은 음성 인식(voice recognition)과 시선 추적(eye tracking)을 이용하여 좀더 정밀하게 오브젝트를 선택하는 방법 및 오브젝트 선택 장치를 제공한다.
도 1은 본 발명의 일 실시 예에 따른 오브젝트 선택 장치의 구성을 도시한 블록도,
도 2는 본 발명의 일 실시 예에 따른 디스플레이 화면을 나타낸 도면,
도 3은 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면,
즉, 도 4는 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면, 그리고,
도 5 내지 9는 본 발명의 다양한 실시 예에 따른 오브젝트 선택 방법의 흐름도이다.
이하에서는 첨부된 도면을 참조하여 본 발명의 다양한 실시 예를 설명한다.
오브젝트 선택 장치의 구성 및 동작
도 1은 본 발명의 일 실시 예에 따른 오브젝트 선택 장치의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 오브젝트 선택 장치(100)는 디스플레이부(110), 음성 인식부(120), 시선 추적부(130), 제어부(140)를 포함한다.
디스플레이부(110)는, 스크린 상에 복수의 오브젝트를 디스플레이하는 구성이다. 여기서 스크린은 디스플레이 패널에 의해 영상이 표시되는 영역을 의미한다. 그리고, 오브젝트란, 화면 상에 표시되는 이미지에 포함되어 육안으로 식별 가능하고, 특정한 기능 또는 콘텐츠에 대응되는 이미지를 의미한다. 디스플레이부(110)는 상기 스크린에 대응되는 하나의 이미지를 디스플레이하고 하나의 이미지는 복수의 오브젝트를 포함할 수 있다.
오브젝트의 종류는 제한이 없다. 즉, 오브젝트는, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 적어도 하나일 수 있다.
어플리케이션 아이콘(Application Icon)은 대응되는 이미지를 선택하는 경우 디스플레이 장치(100)에 포함되는 어플리케이션을 실행시키는 아이콘이다. 콘텐츠 아이콘(Content Icon)은 대응되는 이미지를 선택하는 경우 콘텐츠를 재생시키는 아이콘이다. 썸네일 이미지(thumbnail image)는 이미지를 작은 사이즈로 축소하여 한 눈에 볼 수 있도록 표시한 이미지로, 선택되면 이미지를 풀 사이즈로 확대하여 표시하거나 이미지와 관련된 정보를 디스플레이하는 오브젝트이다. 폴더 아이콘(Folder Icon)은 대응되는 이미지를 선택하는 경우 폴더 내의 파일을 디스플레이 하는 아이콘이다. 위젯(Widget)은 어플리케이션을 여러 단계의 메뉴 선택 없이 곧바로 실행시킬 수 있도록 사용자 인터페이스를 제공하는 아이콘이고, 리스트 아이템(List Item)은, 파일을 리스트 형태로 표시하는 구성이다. 하이퍼 링크(Hyperlink)는 하이퍼 텍스트 문서 내에서 여러 요소를 연결하는 오브젝트로 선택되면 연결된 요소를 디스플레이하는 오브젝트이다. 메뉴(Menu)는 선택할 수 있는 메뉴를 표시하는 구성이다.
디스플레이부(110)는 통상적인 디스플레이 장치의 구성을 갖고 통상적인 디스플레이 장치와 동일하게 동작한다. 우선, 디스플레이부(110)는 표시하는 영상을 처리하여 구성한다. 이를 위해 디스플레이부(110)는 신호 처리 모듈을 포함한다. 신호 처리 모듈은 A/V디코더(미도시), 스케일러(미도시), 프레임 레이트 컨버터(미도시) 및 비디오 인헨서(video enhancer)(미도시) 중 적어도 하나를 포함한다. A/V디코더는 오디오, 비디오 데이터를 분리하여 디코딩하고, 스케일러는 오브젝트가 표시된 이미지의 화면비를 맞춘다. 그리고, 비디오 인헨서는 영상의 열화나 잡음을 제거하여, 처리된 영상은 프레임 버퍼에 저장되고, 프레임 레이트 컨버터에 의해 설정된 주파수에 따라 디스플레이 모듈로 전달된다.
디스플레이 모듈(미도시)은 디스플레이 패널(미도시)에 영상을 출력하는 회로구성으로서, 타이밍 컨트롤러(미도시), 게이트 드라이버(미도시), 데이터 드라이버(미도시), 전압 구동부(미도시)를 포함할 수 있다.
타이밍 컨트롤러(미도시)는 게이트 제어신호(주사 제어신호), 데이터 제어신호(데이터 신호)를 생성하고, 입력받은 R, G, B 데이터를 재정렬하여 데이터 드라이버(미도시)에 공급한다.
게이트 드라이버(미도시)는 타이밍 컨트롤러에 의해 생성된 게이트 제어 신호에 따라 전압 구동부로부터 제공받은 게이트 온/오프 전압(Vgh/Vgl)을 디스플레이 패널에 인가한다.
데이터 드라이버(미도시)는 타이밍 컨트롤러(미도시)에 의해 생성된 데이터 제어 신호에 따라 스케일링이 완료되고 영상 이미지 프레임의 RGB 데이터를 디스프플레이 패널에 입력한다.
전압 구동부(미도시)는 게이트 드라이버, 데이터 드라이버, 디스플레이 패널 등에 각각의 구동 전압을 생성하여 전달한다.
상기 디스플레이 모듈의 각 구성은 본 발명의 기술적 특징은 아니므로 상세한 설명은 생략한다.
전술한 디스플레이 패널은 다양한 기술로 설계될 수 있다. 즉, 디스플레이 패널은 유기발광 다이오드 OLED(Organic Light Emitting Diodes), 액정 디스플레이 패널(Liquid Crystal Display Panel: LCD Panel), 플라즈마 디스플레이 패널(Plasma Display Panel: PDP), VFD(Vacuum Fluorescent Display), FED(Field EmissionDisplay), ELD(Electro Luminescence Display) 중 어느 하나로 구성될 수 있다. 디스플레이 패널은 주로 발광형으로 이루어질 것이지만, 반사형 디스플레이(E-ink, P-ink, Photonic Crystal)를 배제하는 것은 아니다. 또한, 플렉서블 디스플레이(flexible display), 투명 디스플레이(transparent display) 등으로 구현 가능할 것이다. 또한, 오브젝트 선택 장치(100)는 두 개 이상의 디스플레이 패널을 구비하는 멀티 디스플레이 장치로 구현 가능하다.
음성 인식부(120)는 사용자에 의해 발화된 음성을 인식하는 구성이다. 음성 인식부(120)는 음성 수집부(미도시)와 음성 분석부(미도시)를 포함한다.
음성 수집부(미도시)는 사용자가 발화한 음성을 수집하는 구성이다. 음성의 수집은 통상적인 마이크로폰에 의해 수행 가능하다. 예를 들어, 다이내믹 마이크와 콘덴서 마이크, 압전 현상을 이용한 압전 마이크, 탄소 입자의 접촉 저항을 이용한 카본 마이크, 음압에 비례하는 출력을 발생하는(무지향성) 압력 마이크 및 음의 입자 속도에 비례하는 출력을 발생하는 양지향성 마이크 중 적어도 하나의 마이크로폰에 의해 음성 수집이 수행될 수 있다. 사용자는 디스플레이 스크린과 떨어져 위치할 수 있으므로 후술하는 것처럼 음성 수집부는 오브젝트 선택 장치(100)와 별도의 장치에 구비될 수 있다. 음성 수집부는 수집된 음성 정보를 음성 분석부로 전송한다.
음성 분석부(미도시)는 수집된 음성 정보를 수신하여 이를 인식하여 텍스트로 변환한다. 구체적으로, STT(Speech to Text) 엔진을 이용하여, 사용자의 음성에 대응되는 텍스트 정보를 생성할 수 있다. 여기에서, STT 엔진은 음성 신호를 텍스트로 변환하기 위한 모듈로서, 다양한 STT 알고리즘을 이용하여 음성 신호를 텍스트로 변환할 수 있다.
예를 들어, 수집된 사용자의 음성 내에서 사용자가 발화한 음성의 시작과 끝을 검출하여 음성 구간을 판단한다. 구체적으로, 수신된 음성 신호의 에너지를 계산하고, 계산된 에너지에 따라 음성 신호의 에너지 레벨을 분류하여, 동적 프로그래밍을 통해 음성 구간을 검출할 수 있다. 그리고, 검출된 음성 구간 내에서 음향 모델(Acoustic Model)을 기초로 음성의 최소 단위인 음소를 검출하여 음소 데이터를 생성하고, 생성된 음소 데이터에 HMM(Hidden Markov Model) 확률 모델을 적용하여 사용자의 음성을 텍스트로 변환할 수 있다.
또한, 음성 분석부는 수집된 음성으로부터 사용자의 음성이 갖는 특징을 추출할 수있다. 음성의 특징은 사용자가 갖는 말투나 억양, 높낮이 등의 정보로 구성되며 청자가 음성을 통해 사용자를 식별할 수 있는 특징을 의미한다. 음성의 특징은 수집된 음성의 주파수로부터 추출된다. 음성의 특징을 표현하는 파라미터는, 에너지, 영교차율(ZCR), 피치(Pitch), 포먼트(Formant) 등 이 있다. 음성 인식을 위한 음성 특징 추출 방법으로, 사람의 성도를 모델링한 선형 예측(LPC) 방법과, 사람의 청각 기관을 모델링한 필터 뱅크(Filter Bank) 방법이 널리 사용되고 있다. LPC 방법은 시간 영역에서의 분석 방법을 사용하므로, 계산량이 적고, 조용한 환경에서는 매우 우수한 인식 성능을 나타내지만, 잡음 환경에서의 인식 성능이 현저히 저하되는 문제가 있다. 잡음 환경에서의 음성 인식을 위한 분석 방법으로 주로 사람의 청각 기관을 필터 뱅크로 모델화하는 방법이 이용되며, 멜-척도 필터 뱅크에 근거한 MFCC(즉, 멜 켑스트럼 계수)가 음성 특징 추출 방법으로 많이 사용된다. 음향 심리학 연구에 따르면, 물리적 주파수와 인간이 인지하는 주관적인 주파수의 피치 사이의 관계는 선형이 아닌 것으로 밝혀진 바, 'Hz'로 표현되는 물리적인 주파수(f)와 구별하여 인간이 주관적으로 느끼는 주파수 스케일을 정의한 '멜(Mel)'이 사용된다. 이러한 음성 특징은 음성 인식의 노이즈를 제거하는데 사용될 수 있다.
시선 추적부(130)는 스크린에 대한 사용자의 시선을 추적하는 구성이다. 시선 추적부(130)는 다양한 시선 추적 기술(eye tracking, gaze tracking)을 이용해서 사용자 시선을 추적할 수 있다. 예를 들어, 스킨 전극(Skin Electrodes) 기반 방법, 콘텍트 렌즈(Contact Lens) 기반 방법, 두부 장착형 디스플레이(Head Mounted Display) 부착 기반 방법, 원격 팬&틸트(Remote Pan&Tilting) 장치 기반 방법 중 어느 하나로 구현 가능하다.
스킨 전극 기반 방법은 사용자 눈 주변에 전극(electrode)을 부착하여 망막(retina)과 각막(cornea) 사이의 전위차를 측정하고, 측정된 전위차를 통해 응시 위치를 계산하는 방법이다. 스킨 전극 기반 방법은 양 안의 응시위치를 모두 파악할 수 있으며, 가격이 저렴하며 사용 방법이 간편하다는 장점이 있다. 하지만, 스킨전극 기반 방법은 가로세로 방향의 움직임이 제한적이어서 정확성이 떨어진다.
콘텍트 렌즈 기반 방법은 각막에 미끄러지지 않는 렌즈를 부착하고 이곳에 자기장 코일이나 거울을 부착하여 응시위치를 계산하는 방법이다. 상기 콘텍트 렌즈 기반 방법은 정확히 응시위치를 계산할 수 있다. 하지만, 사용이 불편하고 눈의 깜박거림이 자유롭지 못하며, 계산이 가능한 범위가 제한되어 있다.
두부 장착형 디스플레이 부착 기반 방법은 헤드밴드 또는 헬멧 밑에 장착된 작은 카메라를 이용하여 응시 위치를 계산한다. 두부 장착형 디스플레이 부착 기반 방법은 사용자의 머리 움직임에 관계없이 응시위치를 계산할 수 있다. 그러나, 카메라가 사용자 눈높이보다 아래에 기울어져 있어 눈의 상하 움직임에 민감하지 못하여, 두부 장착형 디스플레이에만 적용된다.
원격 팬&틸트 장치 기반 방법은 모니터 주변에 팬&틸트가 되는 카메라와 조명을 장치하여 응시위치를 계산하는 방법이다. 원격 팬&틸트 장치 기반 방법은 응시위치 계산이 정확하고 빠르며, 그 적용이 쉬운 장점을 가지나, 머리의 움직임을 추적하기 위해 2대 이상의 고가 스테레오 카메라 장치와 복잡한 알고리즘을 요구하며, 추가로 카메라와 모니터간의 복잡한 캘리브레이션을 요구한다.
또한, 사용자가 착용할 수 있는 안경 장치에 부착된 카메라를 이용하여 응시 위치를 계산하는 방법도 있다. 이 경우 시선 추적부(130)는 안경 장치의 구성이 되며, 객체를 디스플레이할 수 있는 디스플레이 장치는 별도로 구비된다. 안경 장치는 착용성이 좋고 고성능 하드웨어를 요구하지 않고 간편하게 구성할 수 있다.
제어부(140)는, 오브젝트 선택 장치(100)의 동작 전반을 제어한다. 제어부(140)는 CPU, 캐쉬 메모리 등의 하드웨어 구성과, 운영체제, 특정 목적을 수행하는 어플리케이션의 소프트웨어 구성을 포함한다. 시스템 클럭에 따라 오브젝트 선택 장치(100)의 동작을 위한 각 구성요소에 대한 제어 명령이 메모리에서 읽혀지며, 읽혀진 제어 명령에 따라 전기 신호를 발생시켜 하드웨어의 각 구성요소들을 동작시킨다.
특히, 제어부(140)는, 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택한다. 이하에서는 오브젝트 선택 장치(100)의 구체적인 동작 실시 예를 설명한다.
음성 인식 후 시선 추적 실시 예
도 2는 본 발명의 일 실시 예에 따른 디스플레이 화면을 나타낸 도면이다.
본 발명의 일 실시 예에서 제어부(140)는, 먼저 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택할 수 있다.
도 2의 실시 예에서 사용자가 웹 페이지가 디스플레이된 스크린에 “게임(game)”을 발화한 경우, 음성 인식부(120)는 이를 수집하여 STT 모듈이 텍스트로 변환한다. 제어부(140)는 상기 웹 페이지 상에서 상기 텍스트와 매칭되는 적어도 하나의 오브젝트를 검색하여 돋보이게 표시할 수 있다. 즉, 웹 페이지의 뉴스 섹션(210)에 있는 텍스트 중에서 ‘게임(game)’이라는 용어(230)를 검색하여 하이라이트하고, 어플리케이션 섹션(220)에 배치된 어플리케이션 아이콘 중 ‘게임(game)’ 카테고리에 포함되는 어플리케이션 아이콘(240)을 하이라이트하여 표시한다(도 2의 (1)).
그리고 상기와 같이 하이라이트 되어 선택된 ‘게임(game)’ 오브젝트들 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역(260)인 뉴스 섹션(210)의 일부분에 위치하는 ‘게임(game)’이라는 용어(230)를 최종적으로 선택하여 하이라이트 표시한다(도 2의 (2)).
이때, 제어부(140)는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시할 수도 있다. 예를 들어, 사용자가 “좀비(zombie)”를 발화한 경우, 스크린 상에 표시된 오브젝트 중 “좀비(zombie)”를 태그로 갖는 오브젝트가 선택될 수 있다. 즉, 좀비 관련 게임이나, 게시물, 좀비 의류, 좀비 가면, 좀비 영화 등이 선택되어 표시될 수 있다.
도 2에서는 웹 페이지가 디스플레이되어 웹 페이지 상에서 오브젝트를 선택하는 실시 예를 기재하였지만, 이는 일 실시 예에 불과하다. 즉, 전술한 다양한 종류의 오브젝트 즉, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 적어도 하나가 디스플레이된 상태에서 상술한 방법으로 오브젝트 선택이 가능할 것이다.
시선 추적 음성 인식 실시 예
도 3은 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면이다.
본 발명의 다른 실시 예에서 제어부(140)는, 먼저 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하고, 상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.
도 3의 실시 예는 쇼핑몰에서 아이템을 선택하는 시나리오를 도시한다. 사용자의 시선은 스크린의 좌측 아래 영역(310)에 위치하므로, 사용자 시선의 추적 결과에 따라 해당 영역의 아이템(320, 330, 340)이 돋보이게 표시되어 있다(도 3의 (1)).
이후 사용자가 “오른쪽 끝의 것”이라고 발화한 경우, 음성 인식부(120)는 이를 수집하고 STT 모듈이 텍스트로 변환한다. 제어부(140)는 “오른쪽 끝의 것”이라는 언어구와 매칭되는 조건을 결정한다. 예를 들어, 이러한 언어구의 의미는 처음에 선택된 세 개의 아이템 중 세번째 아이템을 가리키는 것이므로, 상기 언어구는 “third”, “last”, “right”이라는 용어로 매칭될 수 있다. 이렇게 매칭된 용어는 조건으로 판단되고 제어부(140)는 상기 조건에 기초하여 세 개의 아이템(320, 330, 340) 중 가장 오른쪽 아이템(340)을 선택한다(도 3의 (2)). 선택된 아이템(340)는 다른 아이템에 비해 돋보이게 표시될 수 있다.
또한, 전술한 실시 예와 유사하게 상기 제어부(140)는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택할 수 있다.
예를 들어, 사용자의 시선에 의해 오브젝트가 두드러지게 표시된 후, 사용자가 “빨간색”을 발화한 경우를 고려하자. 제어부(140)는 스크린 상에 표시된 오브젝트 중 “빨간색”을 태그로 갖는 오브젝트를 검색한다. 쇼핑몰의 실시 예에서 빨간색 의류, 빨간색 신발, 빨간색 속옷, 빨간색 자동차, 빨간색 기타 등이 선택되어 돋보이게 표시될 수 있을 것이다.
한편, 시선 추적부(130)는 실시간으로 동작할 수 있고, 이 경우 상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적할 수 있다. 도 4는 이러한 경우의 실시 예를 도시한다.
즉, 도 4는 본 발명의 다른 실시 예에 따른 디스플레이 화면을 나타낸 도면이다.
시선 추적부(130)가 실시간으로 스크린에 대한 사용자의 시선의 움직임을 추적함으로써, 제어부(140)가 상기 스크린에 대한 상기 사용자의 시선의 움직임을 파악하는 경우, 상기 추적된 사용자의 시선이 상기 스크린을 벗어나는 순간, 제어부(140)는 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤 할 수 있다. 제어부(140)는 시선이 스크린 내에 머물다가 움직임이 감지되고 스크린 상의 기 설정된 거리 이상 움직이거나 기 설정된 시간 이상 시선의 움직임이 감지된 이후 시선이 스크린의 모서리에 걸치게 되면 시선의 이탈로 판단할 수 있다.
이때, 제어부(140)는, 사용자에 의해 발화된 음성이 인식되면, 사용자의 시선이 이동한 궤적에 대응되는 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택할 수 있다.
도 4의 실시 예에서, 사용자의 시선이 스크린의 왼쪽에 위치함으로써 왼쪽에 위치한 아이템 A,D가 돋보이게 표시된다(도 4의 (1)). 그리고, 사용자의 시선이 스크린의 왼쪽 아래 부분으로 이동하는 것이 감지된 경우 제어부(140)는 스크린을 아래 방향으로 스크롤한다. 이때 사용자의 시선의 움직임 궤적에 위치하는 아이템 A,D,G,J가 모두 선택되어 돋보이게 표시된다(도 4의 (1), (2), (3)). 사용자가 특정 아이템인 “D”를 발화한 경우, 음성 인식부(120)가 이를 인식하고, 제어부(140)는 상기 선택된 아이템 들(A,D,G,J) 중 D를 선택하고, 화면을 D가 표시될 수 있도록 스크롤한다(도 4의 (4)).
모션 감지 실시 예
한편, 상기 오브젝트 선택 장치(100)는 사용자의 동작을 감지하여 인식하는 모션 감지부(미도시)를 더 포함할 수 있다.
모션 감지부(미도시)는 사용자 객체의 모션을 인식하는 구성이다. 구체적으로는, 모션 감지부는 사용자의 움직임을 센싱하여, 어떠한 모션이 이루어졌는지를 인식한다.
이를 위해, 모션 감지부는 카메라와 같은 촬영 수단을 포함할 수 있다. 모션 감지부는 촬영 수단의 촬영 범위 내에 존재하는 사용자 등을 촬영하여, 그 촬영 이미지 데이터를 분석하여 사용자가 어떠한 모션을 취하였는지를 인식하고, 그 결과를 제어부(140)로 제공한다
촬영 수단으로 오브젝트 선택 장치(100)의 스크린 전방을 촬영하는 카메라를 포함할 수 있다. 카메라는 전방에 놓여진 각종 객체들로부터 반사되는 빛을 수광하여, 촬영 이미지 데이터를 생성한다. 오브젝트 선택 장치(100) 방향의 모션에 대한 인식이 필요한 경우라면, 3차원 깊이 카메라를 포함할 수 있다. 3차원 깊이 카메라는 적외선을 방사하고, 그 적외선이 물체에 닿았다가 되돌아오는 시간을 측정해 물체까지의 거리를 산출한다. 깊이 카메라에서 얻은 이미지는 그레이 레벨로 출력되며, 각 픽셀 별로 가로, 세로, 거리와 같은 좌표 값이 표현된다. 즉, 픽셀 별로 뎁스 정보가 마련되는 촬영 이미지 데이터를 생성한다.
제어부(140)는 촬영 이미지 데이터의 분석하여 사용자 객체의 모션을 인식한다. 3차원모션 인식의 경우 제어부(140)는 사용자 객체에 해당하는 픽셀 군을 탐색하고, 해당 픽셀 군의 뎁스 정보가 변경되었는지 여부를 판단한다. 이 경우, 제어부(140)는 객체와의 거리가 장치로부터 멀어지는 경우와 가까워지는 경우를 구별한다.
이때 제어부(140)는, 상기 인식된 사용자 동작에 기초하여, 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택할 수 있다. 이러한 실시 예에 따르면, 사용자 입력을 좀더 정밀하게 수행할 수 있는 이점이 있다. 실세계에서 제스처가 사용되면 정확한 의사전달에 큰 도움이 되는 것과 유사하다.
오브젝트 선택 시스템
전술한 오브젝트 선택 장치(100)의 구성은 하나의 장치가 모든 구성을 포함할 수도 있지만, 복수의 장치가 역할을 분담할 수 있다.
즉, 오브젝트 선택 장치(100)는 전술한 바와 같이 스킨 전극(Skin Electrodes) 기반 방법, 콘텍트 렌즈(Contact Lens) 기반 방법, 두부 장착형 디스플레이(Head Mounted Display) 부착 기반 방법, 원격 팬&틸트(Remote Pan&Tilting) 장치 기반 방법, 안경 장치 기반 방법 등으로 구현될 수 있고, 이 경우 복수의 장치로 설계될 수 있다.
일 실시 예로 안경 장치 기반의 방식에서 안경 장치는 동공의 움직임을 촬상하는 카메라를 포함하고, 사용자 음성을 수집하는 음성 수집부를 구성으로 포함할 수 있다. 이때, 수집된 사용자 음성과 카메라에 의해 촬상된 영상은 근거리 통신 수단에 의해 디스플레이 장치(미도시)로 전달될 수 있다.
여기서 언급된 근거리 통신 기술은 특정한 기술로 제한되지 않는다. 일 예로 와이파이(WIFI) 통신 규격을 따를 수 있다.
와이파이(WIFI) 모듈은 IEEE 802.11 기술 규격에 따르는 근거리 통신을 수행한다. IEEE 802.11 기술 규격에 따르면, 단일 캐리어 DSSS(Single Carrier Direct Sequence Spread Spectrum)으로 불리는 대역확산 방식의 무선 통신 기술과, 다중캐리어 OFDM(Multi Carrier Orthogonal Frequency Multiflexing)으로 불리는 직교 주파수 분할 방식의 무선 통신 기술이 사용된다.
다른 실시 예로 다양한 이동통신기술로 구현될 수 있다. 즉, 기존의 무선 전화망을 이용해 데이터 송수신이 가능한 셀룰러 통신모듈을 포함할 수 있다.
예를 들어 3G(3세대) 이동통신 기술이 적용될 수 있다. 즉, WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access) 및 HSPA(High Speed Packet Access) 중 적어도 하나의 기술이 적용될 수 있다.
이와 달리 4G(4세대) 이동통신 기술이 적용될 수도 있다. 2.3GHz(포터블 인터넷) 모바일 와이맥스(Mobile WiMAX) 또는 와이브로(WiBro)는 고속으로 움직일 때도 사용 가능한 인터넷 기술이다.
또한, 4세대 LTE(Long Term Evolution) 기술이 적용될 수도 있다. LTE는 WCDMA의 확장 기술로 OFDMA(Orthogonal Frequency Division Multiple Access)과 MIMO(Multiple-Input Multiple-Output : 다중 안테나)기술을 기반으로 한다. WCDMA 기술을 활용한 것이므로 기존의 네트워크를 활용할 수 있는 장점이 있다.
이처럼 넓은 대역폭을 갖고 효율성이 높은 와이맥스, 와이파이, 3G, LTE 등이 활용될 수 있지만, 본 발명의 실시 예에서 기본적으로 데이터 전송량이 많다고 볼 수는 없으므로 좀더 효율적이고 값 싼 기술을 활용할 수도 있다. 즉, 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, NFC(Near Field Communication)모듈, 지그비(Zigbee) 모듈 등 기타 근거리 통신 모듈과, 무선랜 모듈을 적용할 수 있다.
다른 실시 예로 음성 인식부(120), 모션 인식부는 디스플레이 장치의 리모콘에 포함될 수 있다. 이 경우 사용자는 리모콘에 설치된 마이크를 통해 음성 명령을 디스플레이 장치로 전달하고, 리모콘에 포함된 움직임 센서는 사용자의 모션을 감지하고 감지된 신호를 디스플레이 장치로 전송한다. 반면, 시선 추적부(130)는 디스플레이 장치에 포함되며, 디스플레이 장치의 카메라는 사용자의 눈을 촬상하여 시선을 추적한다.
상기 디스플레이 장치는, 하나 이상의 디스플레이를 구비하며, 어플리케이션을 실행하거나 컨텐츠를 표시 가능하도록 구성되는 장치로써, 예를 들면, 디지털 텔레비전(Digital television), 태블릿 PC(Tablet PC), 개인 컴퓨터(Personal Computer: PC), 휴대용 멀티미디어 재생 장치(Portable Multimedia Player: PMP), 개인 정보 단말기(Personal Digital Assistant: PDA), 스마트 폰(Smart Phone), 휴대폰, 디지털 액자, 디지털 사이니지(Digital Signage) 및 키오스크 중 적어도 하나로 구현될 수 있다.
오브젝트 선택 방법
이하에서는 본 발명의 다양한 실시 예에 따른 오브젝트 선택 방법을 설명한다.
도 5 내지 9는 본 발명의 다양한 실시 예에 따른 오브젝트 선택 방법의 흐름도이다.
도 5를 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하는 단계(S510), 사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계(S520), 상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계(S530)를 포함한다.
도 6을 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S610), 사용자에 의해 발화된 음성을 인식하면(S620-Y), 상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택한다(S630). 그리고, 스크린에 대한 사용자의 시선을 추적하여(S640), 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택한다(S650).
이때, 상기 선택 단계는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택하는 단계를 포함할 수 있다.
또한, 상기 선택 단계는, 상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 단계를 포함할 수 있다.
도 7를 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S710), 스크린에 대한 사용자의 시선을 추적하고(S720), 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택한다(S730). 그리고, 사용자에 의해 발화된 음성을 인식하면(S740-Y), 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택한다(S750).
또한, 상기 선택 단계는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택하는 단계를 포함할 수 있다.
또한, 상기 선택 단계는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계와, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택하는 단계를 포함할 수 있다.
도 8을 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S810), 스크린에 대한 사용자의 시선을 추적하고(S820), 상기 추적된 사용자의 시선이 이탈하면(S830-Y), 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고(S840), 사용자의 음성이 인식되면(S850-Y), 상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택한다(S860).
도 9를 참조하면, 오브젝트 선택 방법은, 스크린 상에 복수의 오브젝트를 디스플레이하고(S910), 사용자에 의해 발화된 음성을 인식하고 스크린에 대한 사용자의 시선을 추적한다(S920). 그리고, 상기 인식된 음성 및 추적된 시선에 기초하여 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택한다(S930). 이후, 사용자의 동작이 인식되면(S940-Y), 선택된 적어도 하나의 오브젝트 중 인식된 사용자 동작에 기초하여 적어도 하나의 오브젝트를 선택한다(S950).
이때, 상기 오브젝트는, 어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나일 수 있다.
기록매체
전술한 오브젝트 선택 방법은, 컴퓨터에서 실행될 수 있는 실행 가능한 알고리즘을 포함하는 프로그램으로 구현될 수 있고, 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100 : 오브젝트 선택 장치
110 : 디스플레이부 120 : 음성 인식부(120)
130 : 시선 추적부 140 : 제어부

Claims (20)

  1. 오브젝트 선택 방법에 있어서,
    스크린 상에 복수의 오브젝트를 디스플레이하는 단계;
    사용자에 의해 발화된 음성을 인식하고, 상기 스크린에 대한 상기 사용자의 시선을 추적하는 단계; 및
    상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 오브젝트 선택 방법.
  2. 제1 항에 있어서,
    상기 선택 단계는,
    상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 단계; 및
    상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
  3. 제1 항에 있어서,
    상기 선택 단계는,
    상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하는 단계; 및
    상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
  4. 제1 항에 있어서,
    상기 선택 단계는,
    상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하는 단계; 및
    상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
  5. 제1 항에 있어서,
    상기 선택 단계는,
    상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하는 단계; 및
    상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
  6. 제1 항에 있어서,
    상기 선택 단계는,
    상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계; 및
    상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
  7. 제1 항에 있어서,
    상기 선택 단계는,
    상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하는 단계; 및
    상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
  8. 제1 항에 있어서,
    상기 디스플레이 단계는,
    상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적하는 단계; 및
    상기 추적된 사용자의 시선이 상기 스크린을 벗어난 것으로 판단되면, 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하는 단계; 를 포함하고,
    상기 선택 단계는,
    상기 사용자에 의해 발화된 음성이 인식되면, 상기 사용자의 시선이 이동한 궤적에 대응되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 방법.
  9. 제1 항에 있어서,
    사용자의 동작을 감지하여 인식하는 단계; 및
    상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 단계;를 포함하는 것을 특징으로 하는 오브젝트 선택 방법.
  10. 제1 항에 있어서,
    상기 오브젝트는,
    어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나인 것을 특징으로 하는 오브젝트 선택 방법.
  11. 스크린 상에 복수의 오브젝트를 디스플레이하는 디스플레이부;
    상기 스크린에 대한 사용자의 시선을 추적하는 시선 추적부;
    상기 사용자에 의해 발화된 음성을 인식하는 음성 인식부; 및
    상기 인식된 음성 및 추적된 시선에 기초하여 상기 스크린 상의 복수의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 제어부;를 포함하는 오브젝트 선택 장치.
  12. 제11 항에 있어서,
    상기 제어부는,
    상기 스크린 상의 복수의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하고, 상기 선택된 적어도 하나의 오브젝트 중에서, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  13. 제11 항에 있어서,
    상기 제어부는,
    상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 텍스트를 검색하여 두드러지게 표시하고, 상기 표시된 적어도 하나의 텍스트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 텍스트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  14. 제11 항에 있어서,
    상기 제어부는,
    상기 스크린 상에서 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 위치하는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  15. 제11 항에 있어서,
    상기 제어부는,
    상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역을 선택하고, 상기 선택된 스크린 상의 영역에서 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  16. 제 11항에 있어서,
    상기 제어부는, 상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  17. 제11 항에 있어서,
    상기 제어부는,
    상기 추적된 사용자 시선과 매칭되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트를 두드러지게 표시하고, 상기 표시된 적어도 하나의 오브젝트 중 상기 인식된 사용자 음성과 매칭되는 태그(tag) 정보를 갖는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  18. 제11 항에 있어서,
    상기 제어부는,
    상기 스크린에 대한 상기 사용자의 시선의 움직임을 추적하여, 상기 추적된 사용자의 시선이 상기 스크린을 벗어난 것으로 판단되면, 상기 사용자의 시선이 이동한 방향을 따라 화면을 스크롤하고,
    상기 사용자에 의해 발화된 음성이 인식되면, 상기 사용자의 시선이 이동한 궤적에 대응되는 상기 스크린 상의 영역에 표시된 적어도 하나의 오브젝트 중, 상기 인식된 사용자 음성과 매칭되는 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  19. 제11 항에 있어서,
    사용자의 동작을 감지하여 인식하는 모션 감지부; 를 더 포함하고,
    상기 제어부는,
    상기 인식된 사용자 동작에 기초하여 상기 인식된 음성 및 추적된 시선에 기초하여 선택된 적어도 하나의 오브젝트 중 적어도 하나의 오브젝트를 선택하는 것을 특징으로 하는 오브젝트 선택 장치.
  20. 제11 항에 있어서,
    상기 오브젝트는,
    어플리케이션 아이콘(Application Icon), 콘텐츠 아이콘(Content Icon), 썸네일 이미지(thumbnail image), 폴더 아이콘(Folder Icon), 위젯(Widget), 리스트 아이템(List Item), 하이퍼 링크(Hyperlink), 텍스트(Text), 플래쉬 오브젝트(Flash Object), 메뉴(Menu) 및 콘텐츠 이미지(Contents Image) 중 어느 하나인 것을 특징으로 하는 오브젝트 선택 장치.
KR1020130051555A 2013-05-07 2013-05-07 오브젝트 선택 방법 및 오브젝트 선택 장치 KR20140132246A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020130051555A KR20140132246A (ko) 2013-05-07 2013-05-07 오브젝트 선택 방법 및 오브젝트 선택 장치
EP14167110.7A EP2801890A1 (en) 2013-05-07 2014-05-06 Method and apparatus for selecting an object on a screen
US14/271,875 US20140337740A1 (en) 2013-05-07 2014-05-07 Method and apparatus for selecting object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130051555A KR20140132246A (ko) 2013-05-07 2013-05-07 오브젝트 선택 방법 및 오브젝트 선택 장치

Publications (1)

Publication Number Publication Date
KR20140132246A true KR20140132246A (ko) 2014-11-17

Family

ID=50896150

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130051555A KR20140132246A (ko) 2013-05-07 2013-05-07 오브젝트 선택 방법 및 오브젝트 선택 장치

Country Status (3)

Country Link
US (1) US20140337740A1 (ko)
EP (1) EP2801890A1 (ko)
KR (1) KR20140132246A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117754A1 (ko) * 2015-01-22 2016-07-28 엘지전자 주식회사 디스플레이 디바이스 및 그 제어 방법
WO2017183943A1 (ko) * 2016-04-21 2017-10-26 주식회사 비주얼캠프 표시 장치와 이를 이용한 입력 처리 방법 및 시스템
US10423225B2 (en) 2016-04-21 2019-09-24 Visualcamp Co., Ltd. Display apparatus, and input processing method and system using same
WO2019190076A1 (ko) * 2018-03-28 2019-10-03 주식회사 비주얼캠프 시선 추적 방법 및 이를 수행하기 위한 단말
US10795641B2 (en) 2016-08-16 2020-10-06 Sony Corporation Information processing device and information processing method

Families Citing this family (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP2015125616A (ja) * 2013-12-26 2015-07-06 ソニー株式会社 表示制御装置、表示制御方法およびプログラム
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9966079B2 (en) * 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10317992B2 (en) * 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
CN107003805A (zh) * 2014-11-26 2017-08-01 索尼公司 信息处理设备、信息处理方法以及程序
US9569859B2 (en) 2014-12-29 2017-02-14 Dell Products, Lp System and method for redefining depth-based edge snapping for three-dimensional point selection
US9792487B2 (en) * 2014-12-29 2017-10-17 Dell Products, Lp System and method for determining dimensions of an object in an image
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
WO2016151396A1 (en) * 2015-03-20 2016-09-29 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
US20170262051A1 (en) * 2015-03-20 2017-09-14 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
JP6471589B2 (ja) * 2015-04-01 2019-02-20 富士通株式会社 説明支援装置、説明支援方法及び説明支援プログラム
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9990044B2 (en) * 2015-10-30 2018-06-05 Intel Corporation Gaze tracking system
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10867606B2 (en) 2015-12-08 2020-12-15 Chian Chiu Li Systems and methods for performing task using simple code
US9779756B2 (en) 2015-12-11 2017-10-03 International Business Machines Corporation Method and system for indicating a spoken word has likely been misunderstood by a listener
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017146941A (ja) * 2016-02-19 2017-08-24 富士通株式会社 画像表示装置、表示制御方法および表示制御プログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
KR101904453B1 (ko) * 2016-05-25 2018-10-04 김선필 인공 지능 투명 디스플레이의 동작 방법 및 인공 지능 투명 디스플레이
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10831763B2 (en) * 2016-06-10 2020-11-10 Apple Inc. System and method of generating a key list from multiple search domains
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10769182B2 (en) 2016-06-10 2020-09-08 Apple Inc. System and method of highlighting terms
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US20180024631A1 (en) * 2016-07-21 2018-01-25 Aivia, Inc. Interactive Display System with Eye Tracking to Display Content According to Subject's Interest
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10867445B1 (en) * 2016-11-16 2020-12-15 Amazon Technologies, Inc. Content segmentation and navigation
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US9811315B1 (en) 2017-01-03 2017-11-07 Chian Chiu Li Systems and methods for presenting location related information
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11393352B2 (en) * 2017-03-23 2022-07-19 Hello Clover , Llc Reading and contingent response educational and entertainment method and apparatus
US10142686B2 (en) 2017-03-30 2018-11-27 Rovi Guides, Inc. System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10327097B2 (en) 2017-10-02 2019-06-18 Chian Chiu Li Systems and methods for presenting location related information
US10768697B2 (en) 2017-11-02 2020-09-08 Chian Chiu Li System and method for providing information
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10540015B2 (en) 2018-03-26 2020-01-21 Chian Chiu Li Presenting location related information and implementing a task based on gaze and voice detection
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN108733214A (zh) * 2018-05-15 2018-11-02 宇龙计算机通信科技(深圳)有限公司 阅读器控制方法、装置、阅读器及计算机可读存储介质
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020116001A1 (ja) * 2018-12-03 2020-06-11 ソニー株式会社 情報処理装置および情報処理方法
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10847159B1 (en) 2019-05-01 2020-11-24 Chian Chiu Li Presenting location related information and implementing a task based on gaze, gesture, and voice detection
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11386898B2 (en) 2019-05-27 2022-07-12 Chian Chiu Li Systems and methods for performing task using simple code
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11074040B2 (en) 2019-12-11 2021-07-27 Chian Chiu Li Presenting location related information and implementing a task based on gaze, gesture, and voice detection
US11237798B2 (en) * 2020-02-03 2022-02-01 Chian Chiu Li Systems and methods for providing information and performing task
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11906317B2 (en) 2020-10-17 2024-02-20 Chian Chiu Li Presenting location related information and implementing a task based on gaze, gesture, and voice detection

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6106119A (en) * 1998-10-16 2000-08-22 The Board Of Trustees Of The Leland Stanford Junior University Method for presenting high level interpretations of eye tracking data correlated to saved display images
EP1250701B1 (de) * 2000-01-27 2004-11-17 Siemens Aktiengesellschaft System und verfahren zur blickfokussierten sprachverarbeitung
US6795806B1 (en) * 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
WO2006128248A1 (en) * 2005-06-02 2006-12-07 National Ict Australia Limited Multimodal computer navigation
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
WO2013033842A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US9791921B2 (en) * 2013-02-19 2017-10-17 Microsoft Technology Licensing, Llc Context-aware augmented reality object commands
US9864498B2 (en) * 2013-03-13 2018-01-09 Tobii Ab Automatic scrolling based on gaze detection

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117754A1 (ko) * 2015-01-22 2016-07-28 엘지전자 주식회사 디스플레이 디바이스 및 그 제어 방법
US10860288B2 (en) 2015-01-22 2020-12-08 Lg Electronics Inc. Display device and control method thereof
WO2017183943A1 (ko) * 2016-04-21 2017-10-26 주식회사 비주얼캠프 표시 장치와 이를 이용한 입력 처리 방법 및 시스템
US10423225B2 (en) 2016-04-21 2019-09-24 Visualcamp Co., Ltd. Display apparatus, and input processing method and system using same
US10795641B2 (en) 2016-08-16 2020-10-06 Sony Corporation Information processing device and information processing method
WO2019190076A1 (ko) * 2018-03-28 2019-10-03 주식회사 비주얼캠프 시선 추적 방법 및 이를 수행하기 위한 단말
KR20190113252A (ko) * 2018-03-28 2019-10-08 주식회사 비주얼캠프 시선 추적 방법 및 이를 수행하기 위한 단말
US11216067B2 (en) 2018-03-28 2022-01-04 Visualcamp Co., Ltd. Method for eye-tracking and terminal for executing the same

Also Published As

Publication number Publication date
EP2801890A1 (en) 2014-11-12
US20140337740A1 (en) 2014-11-13

Similar Documents

Publication Publication Date Title
KR20140132246A (ko) 오브젝트 선택 방법 및 오브젝트 선택 장치
US11423909B2 (en) Word flow annotation
EP3616050B1 (en) Apparatus and method for voice command context
EP3982236B1 (en) Invoking automated assistant function(s) based on detected gesture and gaze
US10423225B2 (en) Display apparatus, and input processing method and system using same
US8519909B2 (en) Multimode input field for a head-mounted display
KR102450803B1 (ko) 양방향 수화 번역 장치 및 장치가 수행하는 양방향 수화 번역 방법
US20170031652A1 (en) Voice-based screen navigation apparatus and method
US9720644B2 (en) Information processing apparatus, information processing method, and computer program
CN110326300B (zh) 信息处理设备、信息处理方法及计算机可读存储介质
US11854550B2 (en) Determining input for speech processing engine
US20140129207A1 (en) Augmented Reality Language Translation
US20140304606A1 (en) Information processing apparatus, information processing method and computer program
KR102393147B1 (ko) 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
KR20160115330A (ko) 컨텐츠 제공 방법 및 이를 수행하는 전자 장치
WO2017104272A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Yang et al. Proxitalk: Activate speech input by bringing smartphone to the mouth
Qvarfordt Gaze-informed multimodal interaction
US20200234187A1 (en) Information processing apparatus, information processing method, and program
Anand et al. Beyond touch: Natural interactions using facial expressions
Gepner et al. Gaze as a supplementary modality for interacting with ambient intelligence environments
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11995899B2 (en) Pointer-based content recognition using a head-mounted device
US20230394755A1 (en) Displaying a Visual Representation of Audible Data Based on a Region of Interest

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment