KR102393147B1 - 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형 - Google Patents

향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형 Download PDF

Info

Publication number
KR102393147B1
KR102393147B1 KR1020167037034A KR20167037034A KR102393147B1 KR 102393147 B1 KR102393147 B1 KR 102393147B1 KR 1020167037034 A KR1020167037034 A KR 1020167037034A KR 20167037034 A KR20167037034 A KR 20167037034A KR 102393147 B1 KR102393147 B1 KR 102393147B1
Authority
KR
South Korea
Prior art keywords
visual content
visual
user
display
layout
Prior art date
Application number
KR1020167037034A
Other languages
English (en)
Other versions
KR20170016399A (ko
Inventor
안드레아스 스톨케
제프리 츠바이크
말콤 슬라니
Original Assignee
마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 filed Critical 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Publication of KR20170016399A publication Critical patent/KR20170016399A/ko
Application granted granted Critical
Publication of KR102393147B1 publication Critical patent/KR102393147B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Rehabilitation Tools (AREA)
  • Digital Computer Display Output (AREA)
  • Eye Examination Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Road Signs Or Road Markings (AREA)

Abstract

여기에서 설명하는 기술은 자동 음성 인식(ASR, automatic speech recognition)의 성능 향상을 돕기 위해 디스플레이 상에 제시하기 위한 시각적 컨텐츠를 변형하는 것에 관한 것이다. 시각적 컨텐츠는 엘리먼트들이 서로에 대해 더 멀리 떨어지게 옮겨지도록 변형되는데, 옮겨지는 엘리먼트들은 ASR 시스템의 관점에서 애매성을 생기게 하는 것이다. 시각적 컨텐츠는 시선 추적의 정확성을 고려하여 변형된다. 사용자가 변형된 시각적 컨텐츠 내의 엘리먼트를 볼 때에, ASR 시스템은 사용자가 보고 있는 엘리먼트의 기능에 따라 커스텀마이징된다.

Description

향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형{MODIFICATION OF VISUAL CONTENT TO FACILITATE IMPROVED SPEECH RECOGNITION}
자동 음성 인식(ASR, automatic speech recognition) 시스템은 사용자가 행한 발화(spoken utterance)를 인식하도록 구성된다. 보다 구체적으로, 오디오를 포착한 것에 응답하여 마이크가 전기 신호를 생성하는데, 이 오디오가 발화를 포함한다. 전기 신호는 오디오로부터 잡음을 필터링하여 발화를 인식하는데 이용될 수 있는 특징을 추출하도록 처리된다. 지난 수년 동안 ASR 시스템의 성능(예컨대, 속도 및 정확성)이 크게 향상되었지만, 종래의 ASR 시스템은, 대량 어휘들이 고려될 때에, 특정 악센트나 방언을 나타내는 적합한 트레이닝 데이터로 ASR 시스템이 훈련되지 못했을 때에, 또는 다른 차선의 조건이 존재할 때에, 계속해서 어려움을 겪고 있다. 또한, ASR 시스템은 더러 잡음이 많은 환경에서 이루어진 발화, 예컨대 붐비는 공항, 이동하는 자동차 등에서 이루어진 발화를 인식하는 것이 곤란하다.
본 명세서에서 상세히 설명하는 발명의 대상의 간단한 개요가 이어진다. 이 개요는 청구범위의 범주에 대해 제한적인 것으로 의도되지 않는다.
여기에는, 디스플레이 상에 제시하기 위한 페이지의 수신을 돕는 기술이 설명되는데, 이 페이지는 서로 제1 거리를 두고 있는 제1 시각적 엘리먼트와 제2 시각적 엘리먼트를 포함한다. 이 페이지는 변형되어 변형된 페이지를 생성하는데, 변형된 페이지는 서로 제2 거리를 두고 있는 제1 시각적 엘리먼트와 제2 시각적 엘리먼트를 포함하고, 페이지의 변형은 제1 시각적 엘리먼트에 대응하는 적어도 하나의 단어와, 제2 시각적 엘리먼트에 대응하는 적어도 하나의 단어 사이의 발음 유사성에 기반을 둔다. 그런 다음 페이지는 디스플레이 상에 표시되게 된다.
도 1은 시각적 컨텐츠를 변형하도록 구성되는 예시적인 시스템의 기능 블록도이다.
도 2는 시각적 컨텐츠의 레이아웃을 변형하도록 구성되는 예시적인 레이아웃 생성 컴포넌트의 기능 블록도이다.
도 3은 추측된 시각적 주의에 기초하여 커스텀마이징될 수 있는 자동 음성 인식(ASR) 시스템의 기능 블록도이다.
도 4는 레이아웃 생성 컴포넌트에 의해 수행되는 시각적 컨텐츠의 예시적인 변형을 도시하고 있다.
도 5는 레이아웃 생성 컴포넌트에 의해 수행되는 시각적 컨텐츠의 다른 예시적인 변형을 도시하고 있다.
도 6은 사용자에게 그래픽 피드백을 제공하는 것을 도시하고 있다.
도 7은 사용자가 보고 있는 것을 명확하게 하는 것을 돕기 위해 시각적 컨텐츠를 변형하는 예시적인 방법론을 도시하는 흐름도이다.
도 8은 시각적 컨텐츠에서의 엘리먼트들 사이의 혼동성(confusability)을 나타내는 값에 기초하여 시각적 컨텐츠의 레이아웃을 변형하는 예시적인 방법론을 도시하는 흐름도이다.
도 9는 예시적인 컴퓨팅 시스템이다.
이하, 시각적 컨텐츠의 변형에 관한 다양한 기술에 대해서 도면을 참조하여 설명하며, 도면에서는 유사한 참조 번호는 전반에 걸쳐 유사한 엘리먼트를 가리키는데 이용된다. 다음의 설명에서는, 하나 이상의 양태에 대한 충분한 이해를 제공하기 위해 설명의 용도로 다수의 특정 상세를 개시한다. 그러한 양태가 이들 특정 상세 없이도 실시될 수 있는 것이 명백하다. 다른 경우에 있어서, 하나 이상의 양태의 설명을 돕기 위해 도면에 잘 알려진 구조 및 디바이스를 도시한다. 또한, 어떤 시스템 컴포넌트에 의해 수행되는 것으로서 설명하는 기능이 다중 컴포넌트에 의해 수행될 수도 있음은 물론이다. 마찬가지로, 예를 들어, 한 컴포넌트가, 다중 컴포넌트에 의해 수행되는 것으로서 설명하는 기능을 수행하도록 구성될 수도 있다.
또한, 용어 "또는"는 배타적인 "또는"이 아니라 포괄적인 "또는"을 의미하는 것이 의도된다. 즉, 다른 식으로 명시되지 않거나 문맥에서 명백하지 않다면, 표현 "X가 A 또는 B를 채택한다"는 통상의 포괄적 변형 중 어느 하나를 포함하는 것이 의도된다. 즉, 표현 "X가 A 또는 B를 채택한다"는 다음의 경우 중 어느 하나로 충족된다. X가 A를 채택한다, X가 B를 채택한다, 또는 X가 A와 B 모두를 채택한다. 추가로, 본 명세서에 사용되는 표현 "일"과 "어느 한"은 다른 식으로 지정되지 않거나 문맥에서 단일형으로 지시되는 것이 명백하지 않는다면 대체로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용될 때에, 용어 "컴포넌트(component)"와 "시스템(system)"은 프로세서에 의해 실행될 때에 어떤 기능이 수행되게 하는 컴퓨터 실행 가능한 명령어로 구성되는 컴퓨터 판독 가능한 데이터 스토리지를 망라하는 것이 의도된다. 컴퓨터 실행 가능한 명령어는 루틴, 함수 등을 포함할 수 있다. 또한 컴포넌트 또는 시스템은 단일 디바이스 상에 국소 배치될 수도 또는 여러 개의 디바이스 상에 분산될 수도 있음이 이해되어야 한다. 또, 본 명세서에 사용될 때에, 용어 "예시적인(exemplary)"은 "어떤 것의 예시 또는 예로서 기능하는"을 의미하는 것이 의도되며, 선호를 나타내는 것이 의도되지 않는다.
여기에는, 사용자가 말을 할 때에 사용자의 의도를 명확하게 하는 것을 돕기 위해 디스플레이 상에서 시각적 컨텐츠를 변형하는 것에 관한 다양한 기술이 설명된다. 사용자의 의도를 명확하게 하는 것은, (시간에 따라) 디스플레이 상에 보이는 시각적 컨텐츠와 협력하여 사용자가 행한 발화를 인식하는 것을 포함한다. 디스플레이는 시각적 컨텐츠를 제시하도록 구성되며, 시각적 컨텐츠는 텍스트, 이미지, 필드(서식 기입형 필드(form-fillable field)), 비디오, 버튼, 풀다운(pull-down) 등이거나 포함할 수 있다. 따라서, 시각적 컨텐츠는 웹 페이지나 애플리케이션(예컨대, 워드 프로세싱 애플리케이션, 슬라이드쇼 프레젠테이션 애플리케이션 등)의 페이지 처럼, 디스플레이 상에 제시되어야 하는 페이지에 포함될 수 있다.
디스플레이에 대한 사용자의 시각적 주의(visual attention)가 모니터링된다. 예를 들면, 디스플레이는 근접하거나 내장된 카메라(예컨대, RGB(red-green-blue) 카메라 및/또는 깊이 카메라)를 가질 수 있다. 카메라는 신호(예컨대, 이미지)를 출력하는데, 이 신호는 머리 자세 및 방향을 결정하도록 분석된 다음에 사용자의 시각적 주의(예컨대, 시선 방향)을 추론하는데 이용될 수 있다. 다른 예에 있어서, 이미지는 동공, 홍채, 각막 등의 눈의 부분을 식별하도록 분석될 수 있으며, 시각적 주의는 식별된 눈의 부분에 기초하여 추론될 수 있다.
마이크는 디스플레이에 근접한 환경에서 오디오를 나타내는 신호를 생성하도록 구성된다. 오디오는 사용자의 발화를 포함할 수 있고, 마이크에 의해 출력된 신호는 발화를 인식하도록 구성된 ASR 시스템에 제공될 수 있다. 여기에서 설명하는 기술은 사용자가 말을 할 때에 사용자의 의도를 명확하게 하기 위해 시각적 주의를 이용하는 것을 조장한다. 그러나, 시각적 주의의 결정이 다소 부정확할 수도 있기 때문에, 여기에 더욱 상세하게 설명하는 양태들은 디스플레이 상에 제시하기 위한 시각적 컨텐츠를 변형하는 것에 관한 것이며, 이 변형은 사용자가 보고 있는 시각적 엘리먼트를 명확하게 하는 것을 돕기 위해 행해진다.
일례에 따르면, 디스플레이 상에 제시되는 시각적 컨텐츠는 제1 단어열(word sequence)과 제2 단어열을 포함할 수 있고, 제1 단어열은 일부 양식에 있어서 제2 단어열과 혼동할 정도로 유사하다. 실례로, 제1 단어열은 제2 단어열과 청각적으로 유사할 수 있다. 다른 예에 있어서, 제1 단어열과 제2 단어열은 국소적으로 유사할 수 있다. 시각적 컨텐츠가 분석될 수 있고 시각적 엘리먼트의 쌍에 대해 스코어가 생성될 수 있는데, 스코어는 그 쌍의 시각적 엘리먼트들 사이의 혼동성(예컨대, ASR 시스템의 관점으로부터)을 나타낸다. 실례로, 청각적 유사성은 단어 발음의 비교에 기초하여 스코어가 배점될 수 있다. 스코어에 기초하여, 시각적 컨텐츠가 변형될 수 있는데, 시각적 컨텐츠의 변형은 시각적 컨텐츠 내의 시각적 엘리먼트들 사이의 거리를 변경하는 것을 포함할 수 있다.
전술한 예를 계속해서 참조하면, 제1 단어열과 제2 단어열의 쌍에 대해 산출된 스코어는 이 둘 단어열이 혼동할 정도로 유사한 것을 나타낼 수 있으며, 이것은 ASR 시스템에 대한 애매성의 소스일 수 있다. 스코어에 기초하여, 시각적 컨텐츠는 제1 단어열이 제2 단어열로부터 더 멀리 떨어져서 위치하도록 변형될 수 있다. 이 변형된 시각적 컨텐츠는 이어서 디스플레이 상에 제시될 수 있다. 사용자가 디스플레이를 보고 있을 때에, 사용자의 시각적 주의가 모니터링될 수 있고, 모니터링된 시각적 주의에 기초하여 사용자가 제2 단어열보다는 제1 단어열을 보고 있다는 것을 (어느 정도의 확률로) 알아낼 수 있다. 그러면 ASR 시스템이 제1 단어열에 기초하여 커스텀마이징될 수 있다. 다시 말해, 사용자의 현재의 컨텍스트(예컨대, 사용자가 디스플레이 상에서 보고 있는 것)이, ASR 시스템을 커스텀마이징하는데 이용되어, 이어지는 발화의 향상된 인식을 가능하게 한다. 정리하면, 시각적 컨텐츠의 변형은 사용자가 보고 있는 것을 명확하게 하는 것을 돕기 위해 행해져서, ASR 시스템을 커스텀마이징하는 데에 이용된다.
다른 예에 있어서, 디스플레이 상에 제시되는 시각적 엘리먼트에 대해 큐(cue)가 제공될 수도 있는데, 이 큐는 사용자가 그 시각적 엘리먼트에 집중하고 있다고 생각하는 것을 사용자에게 알린다. 큐는 오디오 큐, 그래픽 아이콘(예컨대, 마우스 포인터), 시각적 엘리먼트의 하이라이팅 등일 수 있다. 따라서, 사용자가 말을 할 때에, 사용자는 ASR 시스템이 시각적 엘리먼트에 기초하여 커스텀마이징되고 있다는 인식을 가질 수 있다. 사용자가 보고 있는 시각적 엘리먼트나 엘리먼트들을 명확하게 하는 것을 더욱 돕기 위해, 제스처도 인식될 수 있다. 예를 들어, 시각적 주의 추적과 함께, 카메라에 의해 캡처링된 이미지도, 사용자가 향하고 있고 고개를 끄덕이고 있는 곳을 식별하기 위해 분석될 수 있고, 사용자가 집중하고 있는 시각적 엘리먼트를 식별하는데 채택될 수 있다.
이제 도 1을 참조하면, 디스플레이 상에 제시되는 시각적 컨텐츠의 변형을 돕는 예시적인 시스템(100)이 도시되는데, 시각적 컨텐츠의 변형은 사용자가 행한 발화의 의도를 명확하게 하는 것을 돕기 위해 행해진다. 시스템(100)은 컴퓨팅 시스템(102)을 포함하고, 이 컴퓨팅 시스템은, 데스크탑 컴퓨팅 디바이스, 랩탑 컴퓨팅 디바이스, 모바일 컴퓨팅 디바이스(모바일 전화 또는 슬레이트 컴퓨팅 디바이스), 비디오 게임 콘솔, 셋톱 박스, 텔레비전 등일 수 있지만, 이들에 한정되지는 않는다. 다른 예에 있어서, 컴퓨팅 시스템(102)은 여러 컴퓨팅 디바이스 상에 분산될 수도 있다. 또한, 컴퓨팅 시스템(102)의 적어도 일부는 데이터 센터 내에 포함될 수도 있다. 컴퓨팅 시스템(102)은 프로세서(104)와 메모리(106)를 포함하고, 메모리(106)는 프로세서(104)에 의해 실행되는 컴포넌트 및/또는 시스템을 포함한다. 이러한 컴포넌트 및 시스템에 대해서는 이하에서 자세하게 설명할 것이다.
시스템(100)은 컴퓨팅 시스템(102)과 통신하는 디스플레이(108)를 포함한다. 디스플레이(108)가 컴퓨팅 시스템(102)과 분리된 것으로 도시되고 있지만, 다른 예에서는 디스플레이(108)가 컴퓨팅 시스템(102) 내에 포함될 수도 있다. 이에, 예컨대 디스플레이(108)는 모바일 컴퓨팅 디바이스의 디스플레이, 랩탑 컴퓨팅 디바이스의 디스플레이, 텔레비전의 디스플레이 등일 수 있다. 다르 예로, 디스플레이(108)는 투사형 디스플레이(projected display)일 수도 있다.
시스템(100)은 RGB(red-green-blue) 카메라, 그레이스케일 카메라, 및/또는 깊이 카메라일 수 있는 카메라(110)를 더 포함한다. 카메라(110)는 사용자(112)가 디스플레이(108) 상에 제시되는 시각적 컨텐츠를 볼 때에 사용자(112)의 (적어도 머리) 이미지를 캡처하도록 구성된다. 또한 시스템(100)은, 사용자(112) 및/또는 디스플레이(108) 근방에 배치되어 사용자(112)가 행한 발화를 포착하도록 구성되는 마이크(114)를 포함한다. 카메라(110)와 마이크(114)가 도 1에서는 디스플레이(108) 및/또는 컴퓨팅 시스템(102)으로부터 분리된 것으로 도시되지만, 카메라(110) 및/또는 마이크(114)는 디스플레이(108) 및/또는 컴퓨팅 시스템(102) 내에 포함될 수도 있음이 이해되어야 한다.
컴퓨팅 시스템(102)의 메모리(106)는 디스플레이(108) 상에 제시되어야 하는 시각적 컨텐츠(116)를 포함할 수 있다. 일례로, 시각적 컨텐츠(116)는 웹 페이지에 포함될 수 있다. 따라서, 시각적 컨텐츠(116)는 텍스트, 이미지, 비디오, 애니케이션 등을 포함할 수 있다. 다른 예에 있어서, 시각적 컨텐츠(116)는 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 슬라이드쇼 애플리케이션, 비디오 플레이어 등의 컴퓨터 실행 가능한 애플리케이션에 의해 표시되도록 구성될 수도 있다. 또 다른 예에 있어서, 시각적 컨텐츠(116)는 비디오 프로그램, 광고, 비디오 게임의 일부, 또는 기타 적절한 시각적 컨텐츠일 수도 있다. 시각적 컨텐츠(116)는 단어, 단어열, 이미지, 비디오 클립 등의 여러 시각적 엘리멘트를 포함할 수 있다. 시각적 컨텐츠(116)는 제1 레이아웃을 가질 수 있고, 엘리먼트는 제1 레이아웃에 따라 시각적 컨텐츠(116)에 포함될 수 있다.
또한 메모리(116)는, 마이크(114)의 출력에 기초하여 사용자(113)가 행한 발화를 인식하도록 구성되는 자동 음성 인식(ASR, automatic speech recognition) 시스템(118)을 포함한다. 메모리(116)는 카메라(110)에 의해 출력된 이미지(RGB 및/또는 깊이 이미지)에 기초하여 사용자(112)의 시선 방향을 식별하도록 구성되는 시각적 주의 추적 컴포넌트(120)도 포함한다. 일례로, 시각적 주의 추적 컴포넌트(120)는 사용자(112)의 머리 자세 및 회전을 식별할 수 있고, 시각적 주의 추적 컴포넌트는 그 사용자(112)의 머리 자세 및 회전에 기초하여 사용자(112)가 집중하고 있는 곳(예컨대, 사용자(112)의 시선 방향)을 추론할 수 있다. 다른 예에 있어서, 시각적 주의 추적 컴포넌트(120)는 카메라(110)에 의해 출력된 이미지를 분석할 수 있고, 이러한 이미지에서 사용자(112)의 눈을 식별할 수 있다. 실례로, 시선 추적 컴포넌트(120)는 동공, 홍채, 및/또는 각막 등의 눈의 요소들을 식별할 수 있고, 이러한 눈의 요소들의 검출된 위치에 기초하여(예컨대, 머리 자세 및 회전과 결합하여) 사용자(112)의 시선 방향을 추론할 수 있다.
카메라(110)의 위치가 디스플레이(108)에 대해 적어도 개략적으로 알려져 있고, 사용자(112)의 위치가 디스플레이(108)에 대해 적어도 개략적으로 알려져 있다고 하면, 시각적 주의 추적 컴포넌트(120)는 사용자(112)가 보고 있는 디스플레이(108) 상의 영역을 (예컨대, 꽤 적절한 확률로) 추측할 수 있다 디스플레이(108)에 대한 시각적 주의 추적 컴포넌트(120)의 정확성은 캘리브레이션 단계 중(예컨대, 제조 중이나 실제 사용 중)에 결정될 수 있다. 이러한 정확성은 디스플레이(108)의 폼팩터(예컨대, 디스플레이의 사이즈), 카메라(110)의 해상도(깊이 카메라인지 RGB 카메라인지), 프로세서(104)의 능력, 메모리(106)의 사이즈 등의 함수일 수 있다. 시각적 주의 추적 컴포넌트(120)의 정확성은 사용자가 식별되는 영역에서 어떤 시각적 엘리먼트를 보고 있는 경우에, 그 영역의 경계(사이즈)를 고려할 수 있다.
메모리(106)는, 컴퓨팅 디바이스에 포함되어 ASR와 시각적 주의 모니터링 둘다를 지원하기에 특히 적합한 레이아웃 생성 컴포넌트(122)를 더 포함할 수 있다. 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)를 변형하여 변형된 시각적 컨텐츠(이것은 "새로운" 시각적 컨텐츠라고도 칭해질 수 있음)를 작성하도록 구성되는데, 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)가 디스플레이(108) 상에 제시되기 전에 이러한 변형을 행한다. 레이아웃 생성 컴포넌트(122)는, 사용자(112)가 디스플레이(108)를 보고 있고/있거나 디스플레이와 상호작용하고(예컨대, 디스플레이 상에 보이는 컨텐츠에 대해 말을 하고) 있을 때에 사용자(112)의 의도를 명확하게 하는 것을 돕기 위해 이러한 변형을 행한다.
일반적으로, 레이아웃 생성 컴포넌트(122)는 컴퓨팅 시스템(102)이 시각적 주의 모니터링을 지원한다는 표시(indication)를 수신한다. 레이아웃 생성 컴포넌트(122)는 선택사항으로서 컴퓨팅 시스템(102)이 ASR 시스템(118)을 포함한다는 표시를 수신할 수 있다. 레이아웃 생성 컴포넌트(122)는 디스플레이(108) 상에 제시되어야 하는 시각적 컨텐츠(116)를 수신하며, 시각적 컨텐츠(116)가 디스플레이(108) 상에 제시되기 전에, 이러한 시각적 컨텐츠를 변형하여 변형된 (새로운) 시각적 컨텐츠를 생성한다. 레이아웃 생성 컴포넌트(122)는 (이하에 더 자세하게 설명하겠지만) 시각적 컨텐츠(116) 내의 엘리먼트에, 시각적 컨텐츠(116)의 제1 레이아웃에, 그리고 시각적 주의 추적 컴포넌트(120)의 전술한 정확성에 기초하여 시각적 컨텐츠(116)를 변형한다.
시각적 컨텐츠 내의 엘리먼트에 기초한 시각적 컨텐츠(116)의 변형에 대해서 보다 자세하게 살펴보면, 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)을 수신하여 그 컨텐츠에서 엘리먼트를 식별할 수 있다. 레이아웃 생성 컴포넌트(122)는 엘리먼트들 사이의 거리를 산출할 수 있고, 엘리먼트 쌍의 경우, ASR 시스템(118)에 대해 그 쌍의 엘리먼트들 사이의 애매성을 나타내는 값을 산출할 수 있다. 예컨대, 시각적 컨텐츠(116)의 제1 레이아웃은, 서로 유사한 발음을 가지며 서로 근접해 있는 2개의 단어열을 포함할 수 있는데, 그렇기 때문에 사용자(112)가 이들 단어열 중 하나를 말할 때에 2개의 단어열 사이를 ASR 시스템(118)이 명확하게 하는 것이 곤란할 가능성이 있다. 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)를 변형하여 변형된 시각적 컨텐츠를 생성할 수 있으며, 변형된 시각적 컨텐츠는 제2 레이아웃을 갖는데, 제2 레이아웃에서는 그 2개의 단어열이 서로 더 멀리 떨어지게 옮겨진다(또는 다른 컨텐츠에 의해 분리된다). 따라서, 레이아웃 생성 컴포넌트(122)는 유사한 발음을 가진 단어열들이 서로 더 멀리 떨어지게 옮겨질 수 있도록 시각적 컨텐츠(116)를 변형한다.
다른 예에 있어서, 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)의 줌 레벨(zoom level)을 변경하여 시각적 컨텐츠(116)를 변형할 수 있다. 즉, 시각적 컨텐츠(116)에는 디폴트 줌 레벨이 지정되어 있을 수 있다. 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)를 분석하고, 서로 근접해 있으며 몇몇 양식에 있어서 ASR 시스템(118)에 애매할 가능성이 있는 엘리먼트들을 식별할 수 있다. 레이아웃 생성 컴포넌트(122)은, 디스플레이(108) 상에 제시될 때에 엘리먼트들이 서로에 대해 더 멀리 위치하는 식으로, 시각적 컨텐츠가 특정 위치에서 "줌인(zoomed in)"되게 할 수 있다.
또한 메모리(106)는 변형된 시각적 컨텐츠를 사용자(112)가 볼 수 있는 경우에, 변형된 시각적 컨텐츠가 디스플레이(108) 상에 제시되게 하는 렌더링 컴포넌트(124)를 포함한다. 메모리(106)는 사용자(112)의 뷰잉 컨텍스트(viewing context)에 기초하여(예컨대, 시각적 주의 추적 컴포넌트(120)의 출력에 기초하여) ASR 시스템(118)을 커스텀마이징하는 커스텀마이징 컴포넌트(126)를 더 포함한다. ASR 시스템(118)의 커스텀마이징은, 1) 사용자의 뷰잉 컨텍스트에 기초하여 ASR 시스템(118) 내의 모델들의 가중치를 변경하는 것, 2) ASR 시스템(118)의 출력을 가중화하는 것, 그리고 3) ASR 시스템(118) 내의 모델들의 가중치를 변경하고 ASR 시스템(118)의 출력을 가중화하는 것을 포함하는 것이 의도된다.
사용자(112)가 디스플레이(108)를 보고 있을 때의 시스템(100)의 동작에 대해 이제 설명한다. 사용자(112)는 디스플레이(108)를 볼 수 있는 자리에 위치한다. 메모리(106)는 사용자(112)에 대해 디스플레이(108) 상에 제시되어야 하는 시각적 컨텐츠(116)를 포함한다. 컴퓨팅 시스템(102)이 시각적 주의 추적을 지원하고 ASR 시스템(118)을 포함하고 있기 때문에, 레이아웃 생성 컴포넌트(122)는 변형을 위해 시각적 컨텐츠(116)를 분석하도록 트리거될 수 있다. 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)를 수신하고, 사용자(112)가, ASR 시스템(118)에 애매성을 생기게 할 수 있는 엘리먼트들 중 적어도 하나에 대해 말을 할 때에, 이들 엘리먼트에 대해 시각적 컨텐츠(116)를 검색한다. 실례로, 레이아웃 생성 컴포넌트(122)는 청각적으로 유사한 단어 또는 단어열, 화제면에서 유사한 엘리먼트, 서로에 대해 근접해 있는 서식 기입형 필드, 서로에 대해 근접해 있는 버튼 등을 식별할 수 있다.
일례에 따르면, 레이아웃 생성 컴포넌트(122)는 박스-스프링 타입 모델(box-and-springs-type model)을 채택할 수 있는데, 이 모델에서는 시각적 컨텐츠(116) 내의 엘리먼트들이, 이들 엘리먼트들을 ASR 시스템(118)에 대한 그들의 잠재적인 애매성에 기초하여 서로 떨어지게 밀거나 서로 당겨지게 하는 "스프링"으로 연결되어 있다. 애매한 엘리먼트들이 서로로부터 멀어지게 옮겨져야 하는 거리는 시각적 주의 추적 컴포넌트(120)의 정확성의 함수일 수 있다(예컨대, 시각적 주의 추적 능력이 정확할수록 애매한 엘리먼트들이 옮겨져야 하는 거리가 덜 멀어지는 반면, 시각적 주의 추적 정확성이 저하할수록 애매한 엘리먼트들이 더 멀리 옮겨진다). 시각적 컨텐츠(116)에서의 엘리먼트들의 재배치는 이들 엘리먼트가 서식 기입형 필드인 경우에 특히 효과적일 수 있는데, ASR 시스템(118)은 상이한 서식 기입형 필드마다 상이한 언어 모델을 각각 이용할 수 있기 때문이다. 따라서, 2개의 상이한 언어 모델과 연관된 2개의 서식 기입형 필드는 레이아웃 생성 컴포넌트(122)에 의해 더 멀리 떨어지게 옮겨질 수 있다.
렌더링 컴포넌트(124)는 (레이아웃 생성 컴포넌트(122)에 의해 변형되는) 변형된 시각적 컨텐츠를 디스플레이(108) 상에 렌더링한다. 도 1에 도시하는 예에서는, 변형된 시각적 컨텐츠가 엘리먼트(128, 130, 132)를 포함할 수 있다. 시각적 컨텐츠(116)에서, 엘리먼트(128, 132)는 서로 인접할 수 있다. 그러나, 레이아웃 생성 컴포넌트(122)는 엘리먼트(128, 132)가 ASR 시스템(118)에 애매성을 생기게 할 수 있음을 확인할 수 있다(예컨대, ASR 시스템(118)은 사용자(112)가 말을 하고 있을 때에 언급하는 것이 엘리먼트(128 또는 132) 중 어느 것인지 식별하는 것이 곤란할 수 있다). 따라서, 레이아웃 생성 컴포넌트(122)는 엘리먼트(128, 132)를 서로로부터 더 멀리 떨어지게 옮기는 식으로 시각적 컨텐츠(116)를 변형한다.
시각적 주의 추적 컴포넌트(120)는 카메라(110)로부터 이미지를 수신하고, 카메라(110)에 의해 출력된 이미지에 기초하여 예컨대 사용자(112)의 시선 방향을 추정한다. 사용자(112)의 시선 방향이 추정될 수 있기 때문에, 엘리먼트(128-132) 중 (있다면) 사용자(112)가 보고 있는 것에 관한 추정치가 생성될 수 있다. 일례에 따르면, 사용자(112)가 특정 엘리먼트를 보고 있다고 시각적 주의 추적 컴포넌트(120)가 추측하면, 레이아웃 생성 컴포넌트(122)는 사용자(112)가 특정 엘리먼트를 보고 있다고 시각적 주의 추적 컴포넌트(120)가 추측하였음을 사용자(112)에게 표시하는 출력을 생성할 수 있다. 레이아웃 생성 컴포넌트(122)에 의해 생성된 출력은 가청 출력, 특정 엘리먼트에 대한 그래픽 아이콘(예컨대, 커서의 추가), 특정 엘리먼트의 하이라이팅 등일 수 있다.
커스텀마이징 컴포넌트(126)는 사용자(112)가 보고 있는 것이 엘리먼트(128-132) 중 어느 것인지에 관한 표시를 수신할 수 있다. 이 표시를 수신하는 것에 응답하여, 커스텀마이징 컴포넌트(126)는 (시각적 주의 추적 컴포넌트(120)에 의해 결정되는 것인) 사용자(112)가 보고 있는 디스플레이(108) 상의 엘리먼트에 기초하여 ASR 시스템(118)을 커스텀마이징할 수 있다. 예를 들어, 커스텀마이징 컴포넌트는 사용자(112)가 보고 있는 것으로 결정되는 엘리먼트에 기초하여 ASR 시스템(118)의 청각 모델, 어휘 모델, 및/또는 언어 모델의 가중치를 변경할 수 있다. 부가적으로 또는 대안적으로, 커스텀마이징 컴포넌트(126)는 사용자(112)가 보고 있는 것으로 결정된 엘리먼트에 기초하여 (수정이 없을 가능성이 있는) ASR 시스템(118)의 출력을 선택할 수 있다. 커스텀마이징 컴포넌트(126)는 상이한 컨텍스트마다 ASR 시스템(118)의 출력 라벨을 가중화할 수 있다. 다른 예에서는, 커스텀마이징 컴포넌트(126)는 ASR 시스템(118)의 출력을 선택하는 규칙을 이용할 수 있다(예컨대, 사용자(112)가 보고 있는 도시명을 수신하도록 서식 기입형 필드가 구성되어 있는 경우, 규칙은 도시명이 ASR 시스템(118)의 가능성 있는 출력 중에서 선택되게 할 수 있다). 사실상, 커스텀마이징 컴포넌트(126)는 컨텍스트, 즉 사용자(112)가 보고 있는 것에 기초해서 ASR 시스템(118)을 커스텀마이징하여, ASR 시스템(118)이 사용자(112)의 발화를 정확하게 인식할 가능성을 향상시킨다.
사용자(112)가 말을 할 때에, 마이크(114)는 발화를 포착하여 그 발화가 나타내는 신호를 출력할 수 있다. 커스텀마이징 컴포넌트(126)에 의해 커스텀마이징된 ASR 시스템(118)은 마이크(114)가 출력한 신호에 기초하여 발화를 인식할 수 있다. 사용자(112)가 보고 있는 것을 정확하게 결정할 수 있는 능력은 레이아웃 생성 컴포넌트(122)에 의해 행해지는 시각적 컨텐츠(116)의 변형에 의해 향상될 수 있다. 정리하면, 시스템(100)은, 보여지고 있는 엘리먼트들을 시각적 주의 추적 컴포넌트(120)가 더 쉽게 구별할 수 있을 정도로 잠재적으로 애매한 엘리먼트들을 충분히 멀리 떨어지게 옮기는 식으로 시각적 컨텐츠(116)의 변형을 지원한다. 레이아웃 생성 컴포넌트(122)는 시각적 주의 추적 컴포넌트(120)의 정확성뿐만 아니라 시각적 컨텐츠(116)의 레이아웃까지도 고려하여, 이 동작을 자동으로 수행할 수 있다. 또한, 시각적 주의 추적 컴포넌트(120)가 사용자(112)가 보고 있는 것에 관한 지식을 가질 수 있기 때문에, 사용자(112)가 무엇에 대해 말할 지에 대해 추론이 이루어질 수 있다. 이 정보는 ASR 시스템(118)에 제공될 수 있고, ASR 시스템(118)이 사용자(112)의 의도를 이해하는 것을 도울 수 있다. 이에, 예컨대 엘리먼트(132)가 도착 도시를 수신하기 위한 서식 기입형 필드이고, 사용자(112)가 이러한 서식 기입형 필드를 보고 있다고 시각적 주의 추적 컴포넌트(120)가 결정하면, 커스텀마이징 컴포넌트(126)는 사용자가 도시나 공항 이름을 포함하는 말을 할 것이라고 예상할 수 있다. 따라서, 커스텀마이징 컴포넌트(126)는 도시 및/또는 공항 이름을 현저하게 가중화하기 위해 ASR 시스템(118)의 언어 모델을 수정할 수 있다.
본 예에서는 렌더링 시에 시각적 컨텐츠(116)를 변형하는 것을 설명하고 있지만, 여기에서 설명하는 개념은 작성 시에 시각적 컨텐츠를 변형하는 데에도 적합할 수 있다. 예를 들면, 설계자는 웹 페이지에 대한 레이아웃을 생성할 수 있고, 레이아웃 생성 컴포넌트(122)는 그 레이아웃을 수신할 수 있다. 레이아웃 생성 컴포넌트(122)는 그런 다음 레이아웃을 변형할 수 있고 그 변형을 설계자에게 제시할 수 있다(그런 다음 설계자는 제안된 레이아웃 변경을 수락하거나 거절하는 것을 선택할 수 있다). 마찬가지로, 레이아웃 생성 컴포넌트(122)는 ASR 시스템(118)이 웹 페이지의 뷰어가 행한 발화를 인식하는 것을 돕기 위해 이러한 레이아웃 변경을 할 수 있다.
또 다른 예에 따르면, 시각적 주의의 모니터링과 함께, 메모리(106)는 예컨대 사용자(112)가 엘리먼트를 가리키는 것 등의 제스처를 인식하도록 구성되는 컴포넌트(도시 생략)를 포함할 수도 있다. 사용자(112)가 가리키는 곳과 사용자(112)가 디스플레이(118) 상에서 보고 있는 곳의 인식의 조합은 사용자의 관심사를 추론하고 사용자가 다음에 말할 예정인 것을 또한 추론하는 데에 이용될 수 있다. 따라서, 커스텀마이징 컴포넌트(126)는 사용자(112) 관심사의 추론에 기초하여 ASR 시스템(118)을 커스텀마이징할 수 있다.
또한, 여기에 기재하는 양태들이 ASR 시스템(118)과 관련하여 설명되고 있지만, 전술한 레이아웃 변형은 다른 컨텍스트에도 이용될 수 있음이 이해되어야 한다. 예를 들어, 컴퓨터 사용자의 바램을 예상하기 위해 구성되는 개인용 디지털 단말기(personal digital assistant)가 개발되었는데, 예컨대 이 개인용 디지털 단말기는 사용자로부터의 발화의 수신 없이 사용자에게 데이터를 제공할 수 있다. 시각적 컨텐츠는 사용자가 디스플레이 상에서 보고 있는 것에 대해 애매성을 저감시키도록 변형될 수 있으며, 개인용 디지털 단말기는 변형된 레이아웃을 이용하여 컨텐츠를 제공할 수 있다. 실례로, 시각적 컨텐츠(116)는 2개의 엘리먼트, 즉 이탈리안 레스토랑(Italian restaurant)을 나타내는 제1 엘리먼트와, 이탈리안 페스티벌(Italian festival)을 나타내는 제2 엘리먼트를 포함할 수 있다. 레이아웃 생성 컴포넌트(122)는 이들 2개의 엘리먼트가 서로로부터 더 멀리 떨어지도록 옮길 수 있고, 이에 사용자(112)가 제1 엘리먼트를 보고 있다고 인식될 때에, 개인용 디지털 단말기는 레스토랑용 메뉴가 제시되게 할 수 있고, 또는 사용자가 레스토랑 예약을 하고 싶어하는지를 사용자(112)에게 물을 수 있다. 반면, 사용자(112)가 제2 엘리먼트를 보고 있다고 인식되면, 개인용 디지털 단말기는 페스티벌의 시간과 장소가 디스플레이(108) 상에 제시되게 할 수 있다.
따라서, 시스템(110)이, ASR 시스템(118)의 관점에서, 시각적 컨텐츠에서의 제1 시각적 엘리먼트에 대응하는 적어도 하나의 단어와 제2 시각적 엘리먼트에 대응하는 적어도 하나의 단어 사이의 잠재적인 애매성에 기초하여 시각적 컨텐츠(116)를 변형하기 위한 수단을 지원하는 것을 확인할 수 있다. 일례로, 잠재적인 애매성은 제1 시각적 엘리먼트에 대응하는 적어도 하나의 단어와 제2 시각적 엘리먼트에 대응하는 적어도 하나의 단어 사이의 발음 유사성에 기초할 수 있다. 다른 예에 있어서, 잠재적인 애매성은 시각적 엘리먼트들의 각각의 타입 사이의 유사성에 기초할 수도 있다(예컨대, 양 시각적 엘리먼트는 서식 기입형 필드이다). 시스템(100)은 제1 시각적 엘리먼트와 제2 시각적 엘리먼트 사이의 거리가 변할 경우에, 변형된 시각적 컨텐츠를 표시하는 수단을 또한 지원한다.
이제 도 2를 참조하면, 레이아웃 생성 컴포넌트(122)의 기능 블록도가 도시된다. 레이아웃 생성 컴포넌트(122)는 정확성 분석 컴포넌트(202)를 포함한다. 정확성 분석 컴포넌트(202)는 (카메라(110)가 출력하는 이미지에 기초하여) 시선 방향을 결정할 때에 시선 추적 컴포넌트(120)의 정밀성(정확성)을 결정하도록 구성된다. 예를 들어, 정확성 분석 컴포넌트(202)는 디스플레이(108)의 사이즈, 카메마(110)의 해상도, 프로세서(107)의 프로세싱 능력, 메모리(106)의 사이즈, 디스플레이(108)와 사용자(112) 사이의 거리 등에 기초하여 정확성을 결정할 수 있다. 일례에 따르면, 정확성 분석 컴포넌트(202)는 시선 추적 컴포넌트(120)에 의해 행해진 시선 방향의 결정에 대응하는 에러량을 식별할 수 있다. 정확성 분석 컴포넌트(202)는 예를 들면, 사용자(112)가 보고 있는 것으로 (예컨대, 시선 추적 컴포넌트(120)에 의해) 결정되는 디스플레이 상의 위치의 함수에 따라 디스플레이(108) 내의 픽셀 상에서의 확률 분포를 출력할 수 있다.
레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116) 내의 엘리먼트를 분석하는 컨텐츠 분석 컴포넌트(204)도 포함한다. 구체적으로, 전술한 바와 같이, 컨텐츠 분석 컴포넌트(204)는 ASR 시스템(118)(및/또는 개인용 디지털 단말기)의 관점에서 애매성을 생기게 할 수 있는 시각적 컨텐츠(116) 내의 엘리먼트들을 식별할 수 있다. 예를 들면, 시각적 컨텐츠(116)는 서로 근접해 있는 2개의 서식 기입용 필드를 포함할 수 있는데, 이들은 ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있다. 다른 예에 있어서, 일부 임계 유사성을 갖는 오브젝트를 포함하거나 참조하는 이미지는 ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있다. 또 다른 예에 있어서, 청각적으로 유사한 2개의 단어 또는 2개의 단어열은 ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있다. 또 다른 예에 있어서, 화제면에서 유사한 이미지, 단어, 또는 단어열은 ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있다.
이에, 전술한 예에 따르면, 컨텐츠 분석 컴포넌트(204)는 ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있는 시각적 컨텐츠(116) 내의 엘리먼트들을 식별할 수 있다. 따라서, 컨텐츠 분석 컴포넌트(204)는 서로에 대해 비교적 근접한 시각적 컨텐츠(116) 내의 유사한 엘리먼트들(예컨대, 서식 기입형 필드)를 식별할 수 있다. 또한, 컨텐츠 분석 컴포넌트(204)는 시각적 컨텐츠(116)에서 참조되는 단어 또는 단어열 사이의 발음의 유사성을 나타내는 값을 산출할 수 있다. 실례로, 단어 발음은 벡터의 값으로 표현될 수 있고, 거리 기반 알고리즘(distance-based algorithm)이 벡터 간의 거리를 산출하는데 채택될 수 있다. 마찬가지로, 컨텐츠 분석 컴포넌트(204)는 서로 화제면에서 유사한 시각적 컨텐츠(116) 내의 유사한 엘리먼트들을 식별할 수 있다. 또, 컨텐츠 분석 컴포넌트(204)는 ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있는 오브젝트를 참조하거나 나타내는 시각적 컨텐츠(116) 내의 이미지를 식별할 수 있다. 실례로, 컨텐츠 분석 컴포넌트(204)는 이미지에서의 오브젝트 인식이 이미지의 시그니처(예컨대, 컬러 시그니처, 기울기 시그니처 등)에 기초할 경우에, 그러한 인식을 수행하는 시스템을 포함하거나 그 시스템과 통신할 수 있다. 일례로, 시각적 컨텐츠(116)는 카(car)를 포함하거나 참조하는 제1 이미지를 가질 수 있고, 스타(star)를 포함하거나 참조하는 제2 이미지를 가질 수 있다. 컨텐츠 분석 컴포넌트(204)는 그 2개의 이미지가, "카"와 "스타"의 발음 유사성 때문에, ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있다는 표시를 출력할 수 있다.
전술한 바와 같이, 컨텐츠 분석 컴포넌트(204)는, 한 쌍의 엘리먼트들 사이의 거리가 이들 엘리먼트 간의 유사성을 나타내는 경우에, 그 엘리먼트 쌍에 대해 거리 값을 산출하기 위해 거리 기반 알고리즘을 이용할 수 있다. 이러한 거리 기반 알고리즘은 엘리먼트들(또는 엘리먼트 발음들)이 벡터로 표현될 수 있는 경우에 적합할 수 있으며, 벡터들 간의 거리는 단어들 또는 단어열들 간의 (청각적) 유사성, 이미지들 간의 유사성 등을 결정하는데 이용될 수 있다. 2개의 엘리먼트가 화제면에서 유사하다는 결정에 대해서, 컨텐츠 분석 컴포넌트(204)는 엘리먼트에 지정된 화제에 액세스할 수 있다(예컨대, 검색 엔진에 의해). 2개의 엘리먼트가 화제를 공유하는 것이 발견되면, 컨텐츠 분석 컴포넌트(204)는 그 2개의 엘리먼트가 화제면에서 유사하다는 것을 표시하는 출력을 생성할 수 있다. 컨텐츠 분석 컴포넌트(204)는 또한 시각적 컨텐츠(116)에서 메타데이터를 분석할 수 있다. 예를 들어, 이미지 및 웹페이지에는 더러 메타데이터가 임베딩되어 있고, 컨텐츠 분석 컴포넌트(204)는 시각적 컨텐츠(116) 내의 엘리먼트들에 지정된 메타데이터를 비교할 수 있다. 그런 다음 컨텐츠 분석 컴포넌트(204)는 메타데이터의 비교에 기초하여 엘리먼트들 간의 유사성을 나타내는 값을 출력할 수 있다.
레이아웃 생성 컴포넌트(122)는, 1) 컨텐츠 분석 컴포넌트(204)에 의해 출력된 정확성 정보, 및 2) 컨텐츠 분석 컴포넌트(204)에 의해 출력된 엘리먼트 쌍에 대한 유사성 값(예컨대, 혼동성 값)에 기초하여 시각적 컨텐츠(116)를 변형하는 변형 컴포넌트(206)를 더 포함한다. 예를 들어, 정확성 분석 컴포넌트(202)가, 시각적 주의 추적 컴포넌트(120)가 고도로 정확하다고 결정할 경우, 컨텐츠 분석 컴포넌트(204)가, 시각적 컨텐츠(116) 내의 2개의 엘리먼트가 매우 유사하다(그래서 ASR 시스템(118)의 관점에서 애매성을 생기게 할 수 있다)고 결정하더라도, 변형 컴포넌트(206)는 시각적 컨텐츠(116)에서의 엘리먼트들의 위치를 철저하게 변경할 필요는 없다. 다른 예에 있어서, 시각적 주의 추적 컴포넌트(120)가 덜 정확하고 컨텐츠 분석 컴포넌트(204)가 ASR 시스템(118)의 관점에서 애매성을 생기게 하는 2개의 엘리먼트를 식별할 경우에, 변형 컴포넌트(206)는 변형된 시각적 컨텐츠에서, 2개의 엘리먼트가 서로 더 멀리 떨어져서 배치되는 식으로, 시각적 컨텐츠(116)를 변형할 수 있다.
또한 레이아웃 생성 컴포넌트(122)는 사용자(112)가 보고 있는 엘리먼트로서 시각적 주의 추적 컴포넌트(120)가 식별한 것에 관해 사용자(112)에게 피드백을 제공하는 피드백 컴포넌트(208)도 포함할 수 있다. 실례로, 시각적 주의 추적 컴포넌트(120)가 사용자(112)가 특정 엘리먼트를 보고 있다고 확인할 경우에, 피드백 컴포넌트(208)는 ASR 시스템(118)이 그러한 엘리먼트에 기초하여 입력을 예상하도록 커스텀마이징되고 있다는 것을 사용자(112)에게 알리는 피드백을 생성할 수 있다. 출력은 들을 수 있는 것일 수 있는데, 이 가청 출력은 사용자(112)에게, 시각적 주의 추적 컴포넌트(120)가 확인한, 사용자(112)가 보고 있는 엘리먼트에 대해 알린다. 다른 예에 있어서, 피드백 컴포넌트(208)는 마우스 포인터 등의 그래픽 아이콘이 그 엘리먼트 상에 표시되게 할 수 있다. 또 다른 예에 있어서, 엘리먼트는 하이라이팅될 수도 있다. 엘리먼트의 하이라이팅은 변형된 시각적 컨텐츠가 서식 기입형 필드를 포함하는 경우에 특히 효과적일 수 있다. 서식 기입형 필드의 하이라이팅은 ASR 시스템(118)이 사용자(112)로부터 수신하기로 예상하는 타입의 컨텐츠를 사용자(112)에 표시할 것이다. 예를 들면, 서식 기입형 필드가 출항(airline departure)에 대응한다면, 서식 기입형 필드는 ASR 시스템(118)이 장소명(도시, 공항 코드 등)을 수신할 것을 예상하는 것을 사용자(112)에게 알리도록 하이라이팅될 수 있다.
이제 도 3을 참조하면, ASR 시스템(118) 및 커스텀마이징 컴포넌트(126)의 기능 블록도가 도시된다. ASR 시스템(118)은 청각 모델(302), 어휘 모델(304), 및 언어 모델(306)을 포함한다. 청각 모델(302)은 사람이 말한 청각 사운드(음성)를 모델링한다. 어휘 모델(304)은 청각적 사운드열, 통상 특정 언어의 단어를 모델링한다. 언어 모델(306)은 특정 언어의 단어열을 모델링한다. 각각의 모델(302-306)에는 가중치가 할당되어 있는데, 가중치는 모델링되고 있는 것을 관찰할 가능성(예컨대, 아마도 이전의 관찰을 기초로 함)을 나타낸다. 일부 경우에서는 그러나 상이한 컨텍스트마다 가중치를 변경하는 것이 바람직할 수도 있다.
시각적 주의 추적 컴포넌트(120)는 결정된 시선 방향에 기초하여 컨텍스트 정보(예컨대, 디스플레이(108) 상에서의 사용자의 관심사)를 제공할 수 있다. 커스텀마이징 컴포넌트(126)는 사용자(112)가 현재 보고 있거나 최근에 보았던 것의 표시를 수신할 수 있고, 그러한 표시에 기초하여 ASR 시스템(118)을 커스텀마이징할 수 있다. 실례로, 커스텀마이징 컴포넌트(126)는 사용자가 현재 보고 있거나 최근에 보았던 것에 기초하여 모델(302-306) 중 하나 이상의 가중치를 커스텀마이징할 수 있다. 예컨대, 사용자(112)가 출발 도시에 대한 서식 기입형 필드를 주시하고 있다면, 언어 모델(304) 및/또는 어휘 모델(306)은 장소(예컨대, 공항 및/또는 공항 코드)에 대응하는 단어와 단어열에 더 높은 가중치를 할당하도록 커스텀마이징될 수 있다. 다른 예에 있어서, 시각적 주의 추적 컴포넌트(120)가, 사용자(112)가 특정 레스토랑을 기술하는 엘리먼트를 보고 있다고 결정할 경우, 커스텀마이징 컴포넌트(126)는 이 컨텍스트를 수신하고, ASR 시스템(118)으로 하여금 사용자(112)의 발화에서 음식 아이템을 인식시킬 가능성이 더 높이기 위해 ASR 시스템(118)의 모델(302-306) 중 하나 이상을 업데이트할 수 있다.
또한, 전술한 바와 같이, 커스텀마이징 컴포넌트(126)는 모델(302-306)에 할당된 가중치를 변경하는 것보다는, 모델(302-306)에 할당된 가중치를 변경하는 것과 함께, 사용자(112)가 보고 있는 것에 관해 시각적 주의 추적 컴포넌트(120)로부터 수신된 표시에 기초하여 ASR 시스템(118)의 출력을 선택할 수 있다. 예를 들어, ASR 시스템(118)은 잠재적인 단어 및/또는 단어열에 대한 확률 분포를 출력할 수 있다. 커스텀마이징 컴포넌트(126)는 단어나 단어열이 가장 가능성이 있는 단어나 단어열이 아니더라도, 시선 추적 컴포넌트(120)로부터 수신된 표시에 기초하여 그 단어나 단어열이 선택되게 할 수 있다.
이제 도 4를 참조하면, 레이아웃 생성 컴포넌트(122)에 의해 수행될 수 있는 시각적 컨텐츠의 예시적인 변형이 도시된다. 이 예에서는, 시각적 컨텐츠(116)가 3개의 엘리먼트를 포함하는데, 1) 단어열 "Amber India - Mountain View, 2) 단어열 "Amber Moon Indian Restaurant, 및 3) 단어 "Sakoon"이다. 컨텐츠 분석 컴포넌트(204)는 엘리먼트 1과 2가 서로 유사한 것과, 엘리먼트 3은 엘리먼트 1이나 2와 유사하지 않다는 것을 결정할 수 있다. 따라서, 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)를 변형하여, 바로 그 3개의 엘리먼트를 포함하지만 제2 레이아웃으로 배치되는 변형된 시각적 컨텐츠(400)를 생성할 수 있다. 구체적으로, 엘리먼트 1과 2가 서로 인접해 있는 것 대신에, 엘리먼트 3이 엘리먼트 1과 엘리먼트 2 사이에 배치된다. 이 변형된 시각적 컨텐츠(400)는 사용자(112)가 엘리먼트 1을 보고 있는 경우와 사용자(112)가 엘리먼트 2를 보고 있는 경우의 차이를 시각적 주의 추적 컴포넌트(120)가 명확하게 하는 것을 돕는다. 이에 따라, 사용자(112)가 엘리먼트 1을 보고 있고, 예컨대 "make reservations for Amber India"라고 말할 경우, ASR 시스템(118)은 사용자(112)의 의도를 더 잘 알아내도록 커스텀마이징될 수 있다.
이제 도 5를 참조하면, 레이아웃 생성 컴포넌트(122)에 의해 수행될 수 있는 시각적 컨텐츠의 다른 예시적인 변형이 도시된다. 이 예에 있어서, 시각적 컨텐츠(116)는 2개의 엘리먼트, 즉 출발 도시를 수신하도록 구성되는 제1 서식 기입형 필드(502)와, 도착 도시를 수신하도록 구성되는 제2 서식 기입형 필드(504)를 포함한다. 시각적 컨텐츠(116)에 있어서, 제1 엘리먼트(502)는 제2 엘리먼트(504)에 근접해 있다. 따라서, 사용자가 제1 엘리먼트(502)나 제2 엘리먼트(504)를 보고 있을 경우에, 시선 추적 컴포넌트(120)는 사용자(112)가 실제 보고 있는 것이 엘리먼트(502 또는 504) 중 어느 것인지 적절한 신뢰도로 알아낼 수 없다.
이에, 레이아웃 생성 컴포넌트(122)는 시각적 컨텐츠(116)를 변형하여, 제1 엘리먼트(502)와 제2 엘리먼트(504)가 서로 거리를 두고 있는, 변형된 시각적 레이아웃(506)을 생성할 수 있다. 즉, 시각적 컨텐츠(116)에서는, 제1 엘리먼트(502)가 제2 엘리먼트(504)로부터 제1 거리에 있지만, 변형된 시각적 컨텐츠(506)에서는, 제1 엘리먼트(502)가 제2 엘리먼트(504)로부터 제1 거리보다 큰 제2 거리에 있다. 그래서, 이 예에 있어서, 사용자(112)가 제1 엘리먼트(502)를 볼 수 있고, 시선 추적 컴포넌트(120)는 사용자(112)가 (제2 엘리먼트(504)보다는) 제1 엘리먼트(502)를 보고 있는 것을 비교적 높은 신뢰도로 알아낼 수 있다. 사용자(112)가 출발 도시명이나 공항 코드를 말할 경우. ASR 시스템(118)은 사용자(112)가 말한 출발 도시나 공항을 인식할 수 있고, (제2 엘리먼트(504)보다는) 제1 엘리먼트(502)에 사용자(112)가 말한 도시나 공항이 기입될 수 있다.
이제 도 6을 참조하면, 레이아웃 생성 컴포넌트(122)에 의해 수행될 수 있는 시각적 컨텐츠의 다른 예시적인 변형이 도시된다. 이 예에 있어서, 레이아웃 생성 컴포넌트(122)는 제1 엘리먼트(502)와 제2 엘리먼트(504)를 포함하는 변형된 시각적 컨텐츠(506)를 수신한다. 레이아웃 생성 컴포넌트(122)는 또한 시선 추적 컴포넌트(122)에 의해 식별되는 시선 입력도 수신할 수 있다. 시선 입력의 수신에 응답하여, 레이아웃 생성 컴포넌트(122)는 시선 추적 컴포넌트(120)가 추측하는, 엘리먼트(502 또는 504) 중 사용자(112)가 보고 있는 것에 관해 사용자(112)에게 알리는 출력을 제공할 수 있다. 이 예에서는, 사용자(12)가 제1 엘리먼트(502)를 보고 있다고 추측되고 따라서 제1 엘리먼트(502)가 하이라이팅된다. 그런 다음 사용자(112)는 자신이 말을 할 때에, 그러한 발화가 (엘리먼트(504)보다는) 엘리먼트(502)에 입력될 것을 예상할 수 있다.
도 7과 도 8은 ASR 시스템을 커스텀마이징하기 위한 시각적 컨텐츠의 변형에 관한 예시적인 방법론을 도시한다. 방법론이 순차적으로 수행되는 일련의 액트(act)로서 도시 및 설명되고 있지만, 방법론이 그 시퀀스의 순으로 제한되지 않는 것은 물론이다. 예를 들어, 일부 액트는 본 명세서에서 설명하는 것과 상이한 순서로 일어날 수 있다. 또한, 한 액트는 다른 액트와 동시에 일어날 수도 있다. 또, 일부 경우에, 본 명세서에서 설명하는 방법론을 구현하기 위해 반드시 모든 액트가 필요하지 않을 수도 있다.
또한, 본 명세서에서 설명하는 액트는 하나 이상의 프로세서에 의해 구현 및/또는 컴퓨터 판독 가능한 매체 또는 매체들 상에 저장될 수 있는 컴퓨터 실행 가능한 명령어일 수 있다. 컴퓨터 실행 가능한 명령어는 루틴, 서브루틴, 프로그램, 실행 스레드(thread) 등을 포함할 수 있다. 또한, 방법론의 액트의 결과는 컴퓨터 판독 가능한 매체에 저장되고, 표시 디바이스 상에 표시되고/되거나 등등이 이루어질 수 있다.
이제 도 7을 참조하면, 시각적 컨텐츠를 변형하기 위한 예시적인 방법론(700)이 도시된다. 방법론(700)은 702에서 시작하고, 704에서, 컴퓨팅 디바이스가 ASR 시스템을 포함한다는 표시가 수신된다. 706에서, 디스플레이에 대한 시각적 주의가 모니터링된다는 표시가 수신되고, 708에서, 디스플레이 상에 제시하기 위한 시각적 컨텐츠가 수신된다.
710에서, 시각적 컨텐츠가 디스플레이 상에 제시되게 하기 전에, 시각적 컨텐츠가 변형되어 변형된 시각적 컨텐츠를 생성한다. 이 변형은, 컴퓨팅 디바이스가 ASR 시스템을 포함한다는 표시와, 디스플레이에 대한 시각적 주의가 모니터링된다는 표시에 기초할 수 있다. 전술한 바와 같이, 변형은 시각적 컨텐츠의 레이아웃을 변경하여 제2 레이아웃을 생성하는 것을 포함할 수 있다. 다른 예에서는, 그러한 변형이 시각적 컨텐츠에 대한 디폴트 줌을 변경하는 것을 포함할 수 있다. 712에서, 변형된 시각적 컨텐츠가 디스플레이 상에 제시되게 된다. 그 후에, 예컨대 디스플레이의 뷰어의 시선이 추정될 수 있고, 뷰어가 보고 있는 것으로 식별되는 것에 기초하여, ASR 시스템이 커스텀마이징될 수 있다. 방법론(700)은 714에서 완료된다.
이제 도 8을 참조하면, 시각적 컨텐츠를 변형하기 위한 다른 예시적인 방법론(800)이 도시된다. 방법론(800)은 802에서 시작하고, 804에서, 디스플레이에 대한 시각적 주의가 모니터링된다는 표시가 수신된다. 806에서, 디스플레이 상의 컨텐츠에 대한 음성 입력이 수신 가능하다는 표시가 수신된다. 808에서, 디스플레이 상에 제시하기 위한 페이지가 수신되는데, 이 페이지는 서로 제1 거리를 두고 있는 제1 시각적 엘리먼트와 제2 시각적 엘리먼트를 포함한다. 예를 들면, 페이지는 웹 페이지일 수도 있지만, 방법론(800)은 그렇게 한정되지 않는다.
810에서, 페이지 상에서의 제1 시각적 엘리먼트와 제2 시각적 엘리먼트 사이의 제1 거리를 나타내는 제1 값이 산출된다. 전술한 바와 같이, 제1 시각적 엘리먼트와 제2 시각적 엘리먼트는 각각 제1 단어나 단어열과 제2 단어나 단어열일 수 있다. 다른 예에 있어서, 제1 시각적 엘리먼트와 제2 시각적 엘리먼트는 각각 제1 및 제2 서식 기입형 필드일 수도 있다. 또, 제1 시각적 엘리먼트와 제2 시각적 엘리먼트는 각각 제1 및 제2 이미지일 수도 있다. 엘리먼트는 이들 타입의 엘리먼트(또는 다른 엘리먼트)의 조합일 수도 있다.
812에서, 제2 값이 산출되는데, 이 제2 값은 제1 시각적 엘리먼트와 제2 시각적 엘리먼트 사이의 청각적 유사성을 나타내는 것이다. 814에서, 페이지가 변형되어 변형된 페이지를 생성하는데, 변형된 페이지는 서로 제2 거리를 두고 있는 제1 시각적 엘리먼트와 제2 시각적 엘리먼트를 포함한다. 또한, 814에서의 페이지 변형은 810과 812에서 각각 산출된 제1 값과 제2 값에 기초한다. 816에서, 변형된 시각적 컨텐츠가 디스플레이 상에 제시되게 된다. 방법론(800)은 818에서 끝난다.
이제, 다양한 실시예에 대해 설명한다.
실시예 1: 컴퓨팅 디바이스에 의해 실행되는 방법에 있어서, 이 방법은, 디스플레이 상에 제시하기 위한 시각적 컨텐츠를 수신하는 단계와, 시각적 컨텐츠가 디스플레이 상에 제시되게 하기 전에, 컴퓨팅 디바이스가 자동 음성 인식(ASR, automatic speech recognition)을 지원하는 것과, 컴퓨팅 디바이스가 시각적 주의 모니터링을 지원하는 것에 기초해서, 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계와, 시각적 컨텐츠의 변형에 응답하여, 새로운 시각적 컨텐츠가 디스플레이 상에 제시되게 하는 단계를 포함한다.
실시예 2: 실시예 1에 따른 방법에 있어서, 시각적 컨텐츠는 제1 레이아웃을 가지며, 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는 제1 레이아웃을 제2 레이아읏으로 변환하는 단계를 포함한다.
실시예 3: 실시예 1에 따른 방법에 있어서, 제1 레이아웃은 서로 제1 거리를 둔 제1 엘리먼트와 제2 엘리먼트를 포함하고, 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는, 제1 엘리먼트와 제2 엘리먼트 사이의 거리를 변경하여 제2 레이아웃에서는 제1 엘리먼트와 제2 엘리먼트가 제2 거리로 떨어지게 하는 단계를 포함한다.
실시예 4: 실시예 1에 따른 방법에 있어서, 제1 엘리먼트는 제1 단어 또는 단어열을 포함하고, 제2 엘리먼트는 제2 단어 또는 단어열을 포함하며, 방법은, 제1 단어 또는 단어열과 제2 단어 또는 단어열 사이의 청각적 유사성을 나타내는 값을 산출하고, 제1 단어 또는 단어열과 제2 단어 또는 단어열 사이의 청각적 유사성을 나타내는 값에 기초해서 시각적 컨텐츠를 변형하여 변형된 시각적 컨텐츠를 생성하는 단계를 포함한다.
실시예 5: 실시예 1 내지 4 중 어느 하나에 따른 방법에 있어서, 시각적 컨텐츠는 제1 줌레벨(zoom level)을 가지며, 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는 제1 줌레벨을 제2 줌레벨로 변경하는 단계를 포함한다.
실시예 6: 실시예 1 내지 5 중 어느 하나에 따른 방법에 있어서, 디스플레이의 뷰어(viewer)를 포함하는 이미지를 수신하는 단계와, 이미지에 기초하여, 보여지고 있는 디스플레이 상에 제시된 새로운 시각적 컨텐츠에서 엘리먼트를 식별하는 단계와, 엘리먼트의 식별에 기초하여 ASR 시스템을 커스텀마이징하는 단계를 더 포함한다.
실시예 7: 실시예 1 내지 6 중 어느 하나에 따른 방법에 있어서, 마이크로부터, 발화(spoken utterance)를 나타내는 신호를 수신하는 단계와, ASR 시스템의 커스텀마이징에 응답하여, 발화를 인식하는 단계를 더 포함한다.
실시예 8: 실시예 1에 따른 방법에 있어서, 디스플레이의 뷰어를 포함하는 신호를 수신하는 단계와, 그 신호에 기초하여, 새로운 시각적 컨텐츠 내의 엘리먼트가 보여지고 있다고 추측하는 단계와, 엘리먼트가 보여지고 있다는 추측에 응답하여, 그 엘리먼트가 보여지고 있는 것으로 추측된다고 표시하는 출력을 생성하는 단계를 더 포함한다.
실시예 9: 실시예 8에 따른 방법에 있어서, 출력을 생성하는 단계는 변형된 시각적 컨텐츠 내의 엘리먼트에 시각적 인디케이터를 지정하는 단계를 포함한다.
실시예 10: 실시예 8과 9 중 어느 하나에 따른 방법에 있어서, 엘리먼트는 서식 기입형 필드이다.
실시예 11: 실시예 1 내지 10 중 어느 하나에 따른 방법에 있어서, 시각적 컨텐츠는 제1 서식 기입형 필드와 제2 서식 기입형 필드를 포함하고, 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는, 제1 서식 기입형 필드가 제2 서식 기입형 필드로부터 더 멀리 떨어져서 위치하도록 제1 서식 기입형 필드 또는 제2 서식 기입형 필드 중 적어도 하나를 재배치하는 단계를 포함한다.
실시예 12: 컴퓨팅 디바이스에 있어서, 프로세서와, 프로세서에 의해 실행되는 복수의 컴포넌트를 포함하는 메모리를 포함하고, 복수의 컴포넌트는, 디스플레이 상에 제시되어야 하는 시각적 컨텐츠를 수신하는 레이아웃 생성 컴포넌트로서, 시각적 컨텐츠는 제1 레이아웃을 가지며, 레이아웃 생성 컴포넌트는, 시각적 컨텐츠가 디스플레이 상에 제시되기 전에, 변형 시에, 시각적 컨텐츠가 제2 레이아웃을 갖도록 시각적 컨텐츠를 변형하고, 레이아웃 생성 컴포넌트는 디스플레이에 대한 시각적 주의가 추적되는 것에 기초하여 시각적 컨텐츠를 변형하며, 제2 레이아웃은 제1 레이아웃과는 상이한 것인, 레이아웃 생성 컴포넌트와, 레이아웃 생성 컴포넌트와 통신하며, 시각적 컨텐츠를, 디스플레이 상에 제시하기 위한 제2 레이아웃으로 렌더링하는 렌더링 컴포넌트를 포함한다.
실시예 13: 실시예 12에 따른 컴퓨팅 디바이스에 있어서, 복수의 컴포넌트는, 카메라로부터 이미지를 수신하는 시선 추적 컴포넌트를 더 포함하고, 시선 추적 컴포넌트는 그 이미지에 기초하여 시선 방향을 식별하며, 시선 추적 컴포넌트는 시선 방향에 기초하여 엘리먼트가 디스플레이 상에 보여지고 있다고 추측하고, 레이아웃 생성 컴포넌트는 엘리먼트가 보여지고 있는 것으로 추측된다고 표시하는 그래픽 데이터(graphical data)가 디스플레이 상에 제시되게 한다.
실시예 14: 실시예 13에 따른 컴퓨팅 디바이스에 있어서, 엘리먼트는 서식 기입형 필드이고, 그래픽 데이터는 서식 기입형 필드의 하이라이팅이다.
실시예 15: 실시예 12 내지 14 중 어느 하나에 따른 컴퓨팅 디바이스에 있어서, 복수의 컴포넌트는 카메라로부터 이미지를 수신하는 시선 추적 컴포넌트를 더 포함하고, 시선 추적 컴포넌트는 그 이미지에 기초하여 시선 방향을 식별하며, 시선 추적 컴포넌트는 시선 방향에 기초하여 엘리먼트가 디스플레이 상에 보여지고 있다고 추측하고, 메모리는 프로세서에 의해 실행되는 자동 음성 인식(ASR) 시스템을 더 포함하며, ASR 시스템은 오디오 신호를 수신하고 그 오디오 신호에서 발화를 인식하도록 구성되고, 음성 인식 시스템은 엘리먼트가 시선 추적 컴포넌트에 의해 보여지고 있는 것으로 추측된 것에 기초하여 발화를 인식한다.
실시예 16: 실시예 15에 따른 컴퓨팅 디바이스에 있어서, 복수의 컴포넌트는, 엘리먼트가 시선 추적 컴포넌트에 의해 보여지고 있는 것으로 추측된 것에 기초하여 ASR 시스템을 커스텀마이징하는 커스텀마이징 컴포넌트를 더 포함한다.
실시예 17: 실시예 12 내지 16 중 어느 하나에 따른 컴퓨팅 디바이스에 있어서, 제1 레이아웃은 서로에 대해 제1 위치에 있는 제1 엘리먼트와 제2 엘리먼트를 포함하고, 제2 레이아웃은 서로에 대해 제2 위치에 있는 제1 엘리먼트와 제2 엘리먼트를 포함한다.-
실시예 18: 실시예 17에 따른 컴퓨팅 디바이스에 있어서, 레이아웃 생성 컴포넌트는 제1 엘리먼트와 제2 엘리먼트 사이의 청각적 유사성을 나타내는 값에 기초하여 시각적 컨텐츠를 변형한다.
실시예 19: 실시예 12 내지 18 중 어느 하나에 따른 컴퓨팅 디바이스에 있어서, 시각적 컨텐츠는 디스플레이 상에 표시되어야 하는 웹 페이지에 포함된다.
실시예 20: 명령어를 포함하는 컴퓨터 판독 가능한 저장 매체에 있어서, 명령어는 프로세서에 의해 실행될 때에 프로세서로 하여금 다음의 단계들을 수행하게 하고, 상기 단계들은, 디스플레이 상에 제시하기 위한 페이지를 수신하는 단계로서, 페이지는 서로로부터 제1 거리를 둔 제1 시각적 엘리먼트와 제2 시각적 엘리먼트를 포함하는 것인, 페이지 수신 단계와, 페이지를 변형하여 변형된 페이지를 생성하는 단계로서, 변형된 페이지는 서로로부터 제2 거리를 둔 제1 시각적 엘리먼트와 제2 시각적 엘리먼트를 포함하며, 페이지의 변형은, 제1 시각적 엘리먼트에 대응하는 적어도 하나의 단어와 제2 시각적 엘리먼트에 대응하는 적어도 하나의 단어 사이의 발음 유사성에 기초하는 것인, 변형된 페이지 생성 단계와, 변형된 페이지가 디스플레이 상에 제시되게 하는 단계를 포함한다.
실시예 21: 본 명세서에서 설명되는 컴퓨팅 시스템은 시각적 주의 추적을 수행하는 수단과, 자동 음성 인식을 수행하는 수단과, 시각적 주의 추적을 수행하는 수단과 자동 음성 인식을 수행하는 수단에 기초하여 페이지의 그래픽 레이아웃을 변형하는 수단을 포함한다.
이제 도 9를 참조하면, 본 명세서에 개시하는 시스템 및 방법론에 따라 이용될 수 있는 예시적인 컴퓨팅 디바이스(900)의 상위 레벨도가 도시된다. 실례로, 컴퓨팅 디바이스(900)는 시각적 주의 추적을 지원하는 시스템에서 이용될 수도 있다. 다른 예를 들면, 컴퓨팅 디바이스(900)는 ASR를 지원하는 시스템에서 이용될 수도 있다. 컴퓨팅 디바이스(900)는 메모리(904)에 저장되는 명령어를 실행하는 적어도 하나의 프로세서(902)를 포함한다. 명령어는 예를 들어 전술한 하나 이상의 컴포넌트에 의해 수행되는 것으로 설명한 기능을 구현하기 위한 명령어 또는 전술한 방법의 하나 이상을 구현하기 위한 명령어일 수 있다. 프로세서(902)는 시스템 버스(906)를 통해 메모리(904)에 액세스할 수 있다. 실행 가능한 명령어의 저장 외에, 메모리(904)는 시각적 컨텐츠, 발화 등도 저장할 수 있다.
부가적으로 컴퓨팅 디바이스(900)는 시스템 버스(906)를 통해 프로세서(902)에 의해 액세스될 수 있는 데이터 스토어(908)를 포함한다. 데이터 스토어(908)는 실행 가능한 명령어, 시각적 컨텐츠, 발화 등을 포함할 수 있다. 컴퓨팅 디바이스(900)는 또한 외부 디바이스로 하여금 컴퓨팅 디바이스(900)와 통신하게 하는 입력 인터페이스(910)를 포함한다. 예를 들어, 입력 인터페이스(910)는 외부 컴퓨터 디바이스로부터, 사용자 등으로부터 명령어를 수신하는데 이용될 수 있다. 컴퓨팅 디바이스(900)는 또한 그 컴퓨팅 디바이스(900)를 하나 이상의 외부 디바이스와 인터페이싱하는 출력 인터페이스(912)를 포함한다. 예를 들어, 컴퓨팅 디바이스(900)는 출력 인터페이스(912)를 통해 텍스트, 이미지 등을 표시할 수 있다.
입력 인터페이스(910)와 출력 인터페이스(912)를 통해 컴퓨팅 디바이스(900)와 통신하는 외부 디바이스는 사용자가 상호작용할 수 있는 실질적으로 모든 타입의 사용자 인터페이스를 제공하는 환경에 포함될 수 있다고 간주된다. 사용자 인터페이스 타입의 예는 그래픽 사용자 인터페이스(graphical user interface), 내처럴 사용자 인터페이스(natural user interface) 등을 포함한다. 예를 들어, 그래픽 사용자 인터페이스는 키보드, 마우스, 리모트 컨트롤 등의 입력 디바이스를 채택하는 사용자로부터 입력을 접수하고, 디스플레이 등의 출력 디바이스 상에 출력을 제공할 수 있다. 또한, 내처럴 사용자 인터페이스는 키보드, 마우스, 리모트 컨트롤 등의 입력 디바이스로부터 부과되는 제약 없이 사용자로 하여금 컴퓨팅 디바이스(900)와 통신하게 할 수 있다. 오히려, 내처럴 사용자 인터페이스는 스피치 인식, 터치 및 스타일러스 인식, 화면 상에서 그리고 화면 근처 모두에서 행해진 제스처 인식, 에어 제스처, 머리 및 시선 추적, 보이스 및 스피치, 비전(vision), 터치, 제스처, 인공 지능(machine intelligence) 등에 의존할 수 있다.
부가적으로, 단일 시스템으로서 예시하고 있지만, 컴퓨팅 디바이스(900)는 분산 시스템일 수도 있음은 물론이다. 이에, 예를 들어, 여러 개의 디바이스들이 네트워크 접속을 통해 통신하여, 컴퓨팅 디바이스(900)에 의해 행해지는 것으로 기술한 태스크를 집합적으로 수행할 수 있다.
본 명세서에서 설명하는 기능은 하드웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현될 때에, 기능은 컴퓨터 판독 가능한 매체 상에 하나 이상의 명령어 또는 코드로서 저장 또는 전송될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 저장 매체를 포함한다. 컴퓨터 판독 가능한 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 저장 매체일 수 있다. 제한이 아닌 예를 들면, 그러한 컴퓨터 판독 가능한 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스, 또는 컴퓨터에 의해 액세스될 수 있는 명령어 또는 데이터 구조의 형태로 원하는 프로그램 코드를 전달 또는 저장하는데 이용될 수 있는 기타 매체를 포함할 수 있다. 본 명세서에 사용될 때에, 디스크(disk, disc)는 CD(compact disc), 레이저 디스크(disc), 광 디스크(disc), DVD(digital versatile disc), 플로피 디스크(disk), 및 BD(blu-ray disc)를 포함하며, 여기서 disk는 통상 자기적으로 데이터를 재생하고, disc는 통상 레이저를 이용해 광학적으로 데이터를 재생한다. 또한, 전파 신호(propagated signal)는 컴퓨터 판독 가능한 저장 매체의 범주에 포함되지 않는다. 컴퓨터 판독 가능한 매체는 또한 한 장소로부터 다른 곳으로 컴퓨터 프로그램의 이동(transfer)을 용이하게 하는 임의의 매체를 포함하는 통신 매체를 포함한다. 예를 들면 접속(connection)이 통신 매체일 수 있다. 예컨대, 소프트웨어는 동축 케이블, 광파이버 케이블, 트위스트 페어, DSL(digital subscriber line), 또는 적외선, 무선, 및 마이크로파 등의 무선 기술을 이용해서 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되며, 동축 케이블, 광파이버 케이블, 트위스트 페어, DSL, 또는 적외선, 고주파(radio) 및 마이크로파 등의 무선 기술은 통신 매체의 정의에 포함되는 것이다. 전술한 것들의 조합도 컴퓨터 판독 가능한 매체의 범주 내에 포함된다.
대안적으로 또는 추가로, 본 명세서에서 설명하는 기능은 적어도 부분적으로, 하나 이상의 하드웨어 로직 컴포넌트에 의해 수행될 수 있다. 예를 들면, 제한 없이, 이용될 수 있는 하드웨어 로직 컴포넌트의 실례 타입은 FPGA(Field-programmable Gate Array), ASIC(Program-specific Integrated Circuit), ASSP(Program-specific Standard Product), SOC(System-on-a-chip system), CPLD(Complex Programmable Logic Device) 등을 포함한다.
이상 설명한 것은 하나 이상의 실시형태의 예를 포함한다. 물론, 전술한 양태를 기술하는 목적에서 이상의 디바이스 또는 방법론의 발상 가능한 모든 변형 및 대체를 설명하는 것은 가능하지 않지만, 당업자라면 다양한 양태의 다수의 추가 변형 및 치환이 가능함을 알 수 있다. 따라서, 전술한 양태는 첨부하는 청구범위의 사상 및 범주 내에 있는 그러한 대체, 변형 및 변화를 모두 포함하는 것이 의도된다. 더욱이, 용어 "포함한다(includes)"가 상세한 설명 또는 청구범위에 사용되는 정도에서, 상기 용어는 "포함하는(comprising)"이 청구범위에 전통적인 단어로서 채택될 때에 해석되는 경우와 같이 용어 "포함하는(comprising)"과 같은 방식으로 포괄적인 것이 의도된다.

Claims (20)

  1. 컴퓨팅 디바이스에 의해 실행되는 방법에 있어서,
    디스플레이 상에 제시할 시각적 컨텐츠를 수신하는 단계와,
    상기 시각적 컨텐츠가 상기 디스플레이 상에 제시되게 하기 전에,
    상기 컴퓨팅 디바이스가 자동 음성 인식(ASR, automatic speech recognition)을 지원하는 것과,
    상기 컴퓨팅 디바이스가 시각적 주의 모니터링(visual attention monitoring)을 지원하는 것에 기초해서, 상기 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계와,
    상기 시각적 컨텐츠의 변형에 응답하여, 상기 새로운 시각적 컨텐츠가 상기 디스플레이 상에 제시되게 하는 단계와,
    뷰어가 상기 새로운 시각적 컨텐츠 내의 엘리먼트를 보고 있다고 추정하는 단계와,
    상기 뷰어가 상기 새로운 시각적 컨텐츠 내의 엘리먼트를 보고 있다는 추정에 응답하여, 상기 새로운 시각적 컨텐츠 내의 상기 엘리먼트에 시각적 인디케이터를 할당하는 단계
    를 포함하는 컴퓨팅 디바이스에 의해 실행되는 방법.
  2. 제1항에 있어서, 상기 시각적 컨텐츠는 제1 레이아웃을 가지며, 상기 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는, 상기 제1 레이아웃을 제2 레이아웃으로 변환하는 단계를 포함하는 것인 컴퓨팅 디바이스에 의해 실행되는 방법.
  3. 제2항에 있어서, 상기 제1 레이아웃은 서로 간에 제1 거리를 둔 상기 엘리먼트와 제2 엘리먼트를 포함하고, 상기 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는, 상기 제2 레이아웃에서 상기 엘리먼트와 상기 제2 엘리먼트가 제2 거리로 떨어져 있도록 상기 엘리먼트와 상기 제2 엘리먼트 사이의 거리를 변경하는 단계를 포함하는 것인 컴퓨팅 디바이스에 의해 실행되는 방법.
  4. 제3항에 있어서, 상기 엘리먼트는 제1 단어 또는 단어열(word sequence)을 포함하고, 상기 제2 엘리먼트는 제2 단어 또는 단어열을 포함하며, 상기 방법은,
    상기 제1 단어 또는 단어열과 상기 제2 단어 또는 단어열 사이의 청각적 유사성(acoustic similarity)을 나타내는 값을 산출하는 단계와,
    상기 제1 단어 또는 단어열과 상기 제2 단어 또는 단어열 사이의 청각적 유사성을 나타내는 값에 기초해서, 상기 시각적 컨텐츠를 변형하여 변형된 시각적 컨텐츠를 생성하는 단계
    를 더 포함하는 것인 컴퓨팅 디바이스에 의해 실행되는 방법.
  5. 제1항에 있어서, 상기 시각적 컨텐츠는 제1 줌 레벨을 가지며, 상기 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는, 상기 제1 줌 레벨을 제2 줌 레벨로 변경하는 단계를 포함하는 것인 컴퓨팅 디바이스에 의해 실행되는 방법.
  6. 제1항에 있어서, 상기 뷰어가 보고 있는 것이 상기 엘리먼트로 추정되는 것에 기초하여 ASR 시스템을 커스텀마이징하는 단계를 더 포함하는 컴퓨팅 디바이스에 의해 실행되는 방법.
  7. 제6항에 있어서,
    마이크로부터, 발화(spoken utterance)를 나타내는 신호를 수신하는 단계와,
    상기 ASR 시스템의 커스텀마이징에 응답하여, 상기 발화를 인식하는 단계
    를 더 포함하는 컴퓨팅 디바이스에 의해 실행되는 방법.
  8. 제1항에 있어서,
    상기 새로운 시각적 컨텐츠 내의 상기 엘리먼트에 상기 시각적 인디케이터를 할당하는 것에 후속하여, 상기 뷰어가 상기 새로운 시각적 컨텐츠 내의 제2 엘리먼트를 보고 있다고 추정하는 단계와,
    상기 뷰어가 상기 제2 엘리먼트를 보고 있다는 추정에 응답하여, 상기 제2 엘리먼트에 상기 시각적 인디케이터를 할당하고 상기 엘리먼트로부터 상기 시각적 인디케이터를 삭제하는 단계
    를 더 포함하는 컴퓨팅 디바이스에 의해 실행되는 방법.
  9. 제8항에 있어서, 상기 시각적 인디케이터는 하이라이트인 것인 컴퓨팅 디바이스에 의해 실행되는 방법.
  10. 제9항에 있어서, 상기 엘리먼트는 서식 기입형 필드(form-fillable field)인 것인 컴퓨팅 디바이스에 의해 실행되는 방법.
  11. 제1항에 있어서, 상기 시각적 컨텐츠는 제1 서식 기입형 필드와 제2 서식 기입형 필드를 포함하고, 상기 시각적 컨텐츠를 변형하여 새로운 시각적 컨텐츠를 생성하는 단계는, 상기 제1 서식 기입형 필드가 상기 제2 서식 기입형 필드로부터 더 멀리 떨어져서 위치하도록 상기 제1 서식 기입형 필드와 상기 제2 서식 기입형 필드 중 적어도 하나를 재배치하는 단계를 포함하는 것인 컴퓨팅 디바이스에 의해 실행되는 방법.
  12. 컴퓨팅 시스템에 있어서,
    적어도 하나의 프로세서와,
    명령어를 저장한 메모리
    를 포함하고,
    상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행될 때에, 상기 적어도 하나의 프로세서로 하여금,
    디스플레이 상에 제시될 시각적 컨텐츠를 수신하는 것―상기 시각적 컨텐츠는 제1 레이아웃을 가지며, 상기 제1 레이아웃은 서로에 대해 제1 위치에 있는 제1 엘리먼트와 제2 엘리먼트를 포함함―과,
    상기 시각적 컨텐츠가 상기 디스플레이 상에 제시되기 전에, 변형될 때에 상기 시각적 컨텐츠가 상기 제1 레이아웃과는 상이한 제2 레이아웃을 갖도록 상기 시각적 컨텐츠를 변형하는 것―상기 제2 레이아웃은 서로에 대해 제2 위치에 있는 상기 제1 엘리먼트와 상기 제2 엘리먼트를 포함하고, 상기 시각적 컨텐츠는,
    상기 디스플레이에 대해 시각적 주의(visual attention)가 추적되는 것과,
    상기 제1 엘리먼트와 상기 제2 엘리먼트 사이의 청각적 유사성을 나타내는 값
    에 기초하여 변형됨―과,
    상기 디스플레이 상에 제시할 상기 제2 레이아웃으로 상기 시각적 컨텐츠를 렌더링하는 것
    을 포함하는 액트를 수행하게 하는 것인 컴퓨팅 디바이스.
  13. 제12항에 있어서, 상기 액트는,
    카메라로부터, 상기 디스플레이를 보고 있는 사용자를 캡처한 이미지를 수신하는 것과,
    상기 이미지에 기초하여 상기 사용자의 시선 방향을 식별하는 것과,
    상기 시선 방향에 기초하여 상기 사용자가 상기 제1 엘리먼트를 보고 있다고 추정하는 것과,
    상기 사용자가 보고 있는 것이 상기 제1 엘리먼트로 추정되는 것을 나타내는 그래픽 데이터(graphical data)가 상기 디스플레이 상에 제시되게 하는 것
    을 더 포함하는 것인 컴퓨팅 디바이스.
  14. 제13항에 있어서, 상기 제1 엘리먼트는 서식 기입형 필드이고, 상기 그래픽 데이터는 서식 기입형 필드의 하이라이팅(highlighting)인 것인 컴퓨팅 디바이스.
  15. 제12항에 있어서, 상기 액트는,
    카메라로부터, 상기 디스플레이를 보고 있는 사용자를 캡처한 이미지를 수신하는 것과,
    상기 이미지에 기초하여 상기 사용자의 시선 방향을 식별하는 것과,
    상기 시선 방향에 기초하여 상기 사용자가 상기 제1 엘리먼트를 보고 있다고 추정하는 것과,
    상기 사용자에 의해 행해진 발화를 포함하는 오디오 신호를 수신하는 것과,
    상기 사용자가 보고 있는 것이 상기 제1 엘리먼트로 추정되는 것에 기초하여 자동 음성 인식(ASR, automatic speech recognition) 시스템에 의해 상기 오디오 신호에서 상기 발화를 인식하는 것
    을 더 포함하는 것인 컴퓨팅 디바이스.
  16. 제15항에 있어서, 상기 액트는,
    상기 사용자가 보고 있는 것이 상기 제1 엘리먼트로 추정되는 것에 기초하여 상기 ASR 시스템을 커스텀마이징하는 것을 더 포함하는 것인 컴퓨팅 디바이스.
  17. 제12항에 있어서, 상기 시각적 컨텐츠는 상기 디스플레이 상에 표시될 웹 페이지에 포함된 것인 컴퓨팅 디바이스.
  18. 명령어를 포함하는 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 명령어는 프로세서에 의해 실행될 때에, 상기 프로세서로 하여금,
    디스플레이 상에 제시할 페이지를 수신하는 것―상기 페이지는 서로 간에 제1 거리를 둔 제1 시각적 엘리먼트와 제2 시각적 엘리먼트를 포함함―과,
    상기 페이지를 변형하여 변형된 페이지를 생성하는 것―상기 페이지를 변형하는 것은, 상기 제1 시각적 엘리먼트와 상기 제2 시각적 엘리먼트가 상기 변형된 페이지에서 서로 상기 제1 거리와는 상이한 제2 거리를 두고 있도록 상기 제1 시각적 엘리먼트와 상기 제2 시각적 엘리먼트 중 적어도 하나의 위치를 변경하는 것을 포함하고, 또한, 상기 페이지를 변형하는 것은, 상기 제1 시각적 엘리먼트에 대응하는 적어도 하나의 단어와 상기 제2 시각적 엘리먼트에 대응하는 적어도 하나의 단어 사이의 발음의 유사성에 기초함―과,
    상기 변형된 페이지가 상기 디스플레이 상에 표시되게 하는 것
    을 포함하는 액트를 수행하게 하는 것인 컴퓨터 판독 가능 저장 매체.
  19. 제18항에 있어서, 상기 액트는,
    뷰어가 상기 제1 시각적 엘리먼트를 보고 있다고 추정하는 것과,
    상기 뷰어가 상기 제1 시각적 엘리먼트를 보고 있다는 추정에 응답하여 자동 음성 인식(ASR) 시스템을 변형하는 것
    을 더 포함하는 것인 컴퓨터 판독 가능 저장 매체.
  20. 제18항에 있어서, 상기 액트는,
    뷰어가 상기 제1 시각적 엘리먼트를 보고 있다고 추정하는 것과,
    상기 뷰어가 상기 제1 시각적 엘리먼트를 보고 있다는 추정에 응답하여 상기 제1 시각적 엘리먼트를 하이라이팅하는 것
    을 더 포함하는 것인 컴퓨터 판독 가능 저장 매체.
KR1020167037034A 2014-06-06 2015-06-03 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형 KR102393147B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/297,742 2014-06-06
US14/297,742 US9583105B2 (en) 2014-06-06 2014-06-06 Modification of visual content to facilitate improved speech recognition
PCT/US2015/033865 WO2015187756A2 (en) 2014-06-06 2015-06-03 Modification of visual content to facilitate improved speech recognition

Publications (2)

Publication Number Publication Date
KR20170016399A KR20170016399A (ko) 2017-02-13
KR102393147B1 true KR102393147B1 (ko) 2022-04-29

Family

ID=54540159

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167037034A KR102393147B1 (ko) 2014-06-06 2015-06-03 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형

Country Status (11)

Country Link
US (1) US9583105B2 (ko)
EP (1) EP3152754B1 (ko)
JP (1) JP6545716B2 (ko)
KR (1) KR102393147B1 (ko)
CN (1) CN106463119B (ko)
AU (1) AU2015271726B2 (ko)
BR (1) BR112016026904B1 (ko)
CA (1) CA2948523C (ko)
MX (1) MX361307B (ko)
RU (1) RU2684475C2 (ko)
WO (1) WO2015187756A2 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613267B2 (en) * 2012-05-31 2017-04-04 Xerox Corporation Method and system of extracting label:value data from a document
KR102342117B1 (ko) * 2015-03-13 2021-12-21 엘지전자 주식회사 단말기, 및 이를 구비하는 홈 어플라이언스 시스템
KR101904889B1 (ko) 2016-04-21 2018-10-05 주식회사 비주얼캠프 표시 장치와 이를 이용한 입력 처리 방법 및 시스템
WO2017183943A1 (ko) * 2016-04-21 2017-10-26 주식회사 비주얼캠프 표시 장치와 이를 이용한 입력 처리 방법 및 시스템
WO2018169493A1 (en) * 2017-03-17 2018-09-20 Uilicious Private Limited Systems, methods and computer readable media for ambiguity resolution in instruction statement interpretation
US10142686B2 (en) * 2017-03-30 2018-11-27 Rovi Guides, Inc. System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user
CN109445757B (zh) * 2018-09-21 2022-07-29 深圳变设龙信息科技有限公司 新设计图生成方法、装置及终端设备
JP7414231B2 (ja) 2019-07-11 2024-01-16 中部電力株式会社 マルチモーダル音声認識装置およびマルチモーダル音声認識方法
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
US6629074B1 (en) * 1997-08-14 2003-09-30 International Business Machines Corporation Resource utilization indication and commit mechanism in a data processing system and method therefor
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
EP1250701B1 (de) 2000-01-27 2004-11-17 Siemens Aktiengesellschaft System und verfahren zur blickfokussierten sprachverarbeitung
US6741791B1 (en) * 2000-01-31 2004-05-25 Intel Corporation Using speech to select a position in a program
US7036080B1 (en) 2001-11-30 2006-04-25 Sap Labs, Inc. Method and apparatus for implementing a speech interface for a GUI
EP1505571A4 (en) * 2002-04-12 2007-02-21 Mitsubishi Electric Corp AUTONAVIGATION SYSTEM AND VOICE RECOGNITION DEVICE FOR THIS
US7158779B2 (en) * 2003-11-11 2007-01-02 Microsoft Corporation Sequential multimodal input
CN102272827B (zh) * 2005-06-01 2013-07-10 泰吉克通讯股份有限公司 利用语音输入解决模糊的手工输入文本输入的方法和装置
US7627819B2 (en) * 2005-11-01 2009-12-01 At&T Intellectual Property I, L.P. Visual screen indicator
JP4399607B2 (ja) * 2006-02-13 2010-01-20 国立大学法人埼玉大学 視線制御表示装置と表示方法
BRPI0708456A2 (pt) * 2006-03-03 2011-05-31 Koninkl Philips Electronics Nv método para prover um sumário de diversas imagens, dispositivo adaptado para gerar um sumário de diversas imagens, sistema, código de programa executável por computador, e, portador de dados
US9250703B2 (en) 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
US8793620B2 (en) 2011-04-21 2014-07-29 Sony Computer Entertainment Inc. Gaze-assisted computer interface
US20080141166A1 (en) * 2006-12-11 2008-06-12 Cisco Technology, Inc. Using images in alternative navigation
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
JP5230120B2 (ja) * 2007-05-07 2013-07-10 任天堂株式会社 情報処理システム、情報処理プログラム
US20130125051A1 (en) * 2007-09-28 2013-05-16 Adobe Systems Incorporated Historical review using manipulable visual indicators
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8438485B2 (en) * 2009-03-17 2013-05-07 Unews, Llc System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US9507418B2 (en) * 2010-01-21 2016-11-29 Tobii Ab Eye tracker based contextual action
JP2012022589A (ja) * 2010-07-16 2012-02-02 Hitachi Ltd 商品選択支援方法
US10120438B2 (en) * 2011-05-25 2018-11-06 Sony Interactive Entertainment Inc. Eye gaze to alter device behavior
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
KR102156175B1 (ko) * 2012-10-09 2020-09-15 삼성전자주식회사 멀티 모달리티를 활용한 유저 인터페이스를 제공하는 인터페이싱 장치 및 그 장치를 이용한 방법

Also Published As

Publication number Publication date
CN106463119A (zh) 2017-02-22
BR112016026904B1 (pt) 2023-03-14
CA2948523A1 (en) 2015-12-10
AU2015271726B2 (en) 2020-04-09
EP3152754A2 (en) 2017-04-12
WO2015187756A2 (en) 2015-12-10
MX361307B (es) 2018-12-03
KR20170016399A (ko) 2017-02-13
CN106463119B (zh) 2020-07-10
MX2016016131A (es) 2017-03-08
AU2015271726A1 (en) 2016-11-17
RU2016147071A3 (ko) 2018-12-29
RU2016147071A (ru) 2018-06-01
RU2684475C2 (ru) 2019-04-09
US9583105B2 (en) 2017-02-28
BR112016026904A2 (pt) 2017-08-15
JP2017525002A (ja) 2017-08-31
US20150356971A1 (en) 2015-12-10
BR112016026904A8 (pt) 2021-07-13
CA2948523C (en) 2021-12-07
EP3152754B1 (en) 2018-01-10
JP6545716B2 (ja) 2019-07-17
WO2015187756A3 (en) 2016-01-28

Similar Documents

Publication Publication Date Title
KR102393147B1 (ko) 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형
EP3596585B1 (en) Invoking automated assistant function(s) based on detected gesture and gaze
JP7022062B2 (ja) 統合化された物体認識および顔表情認識を伴うvpa
EP3404653A1 (en) Methods and systems for phonetic matching in digital assistant services
US9720644B2 (en) Information processing apparatus, information processing method, and computer program
US10824310B2 (en) Augmented reality virtual personal assistant for external representation
US11854550B2 (en) Determining input for speech processing engine
KR20170065563A (ko) 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선
WO2019087811A1 (ja) 情報処理装置、及び情報処理方法
US20140304606A1 (en) Information processing apparatus, information processing method and computer program
KR102429583B1 (ko) 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR20210047173A (ko) 오인식된 단어를 바로잡아 음성을 인식하는 인공 지능 장치 및 그 방법
JP6983118B2 (ja) 対話システムの制御方法、対話システム及びプログラム
KR20150144031A (ko) 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치
US20190371300A1 (en) Electronic device and control method
KR20180054362A (ko) 사용자의 음성 입력을 인식하는 방법 및 장치
KR20210042460A (ko) 복수의 언어가 포함된 음성을 인식하는 인공 지능 장치 및 그 방법
US20240055003A1 (en) Automated assistant interaction prediction using fusion of visual and audio input
US11501208B2 (en) Rehearsal-based presentation assistance
JPWO2020116001A1 (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant