JP2018515817A - 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 - Google Patents
視線追跡と音声認識とを組み合わせることにより制御を改善する方法 Download PDFInfo
- Publication number
- JP2018515817A JP2018515817A JP2017567559A JP2017567559A JP2018515817A JP 2018515817 A JP2018515817 A JP 2018515817A JP 2017567559 A JP2017567559 A JP 2017567559A JP 2017567559 A JP2017567559 A JP 2017567559A JP 2018515817 A JP2018515817 A JP 2018515817A
- Authority
- JP
- Japan
- Prior art keywords
- display screen
- user
- screen
- gaze
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Eye Examination Apparatus (AREA)
Abstract
Description
本明細書に開示され特許請求される方法は、アプリケーションを実行するにあたってシステムを起動することや、クライアントユーザシステムを使用してサーバベースのHTMLページ集約と対話すること(例えば、インターネットを用いてウェブサイトと対話すること)に起因し得る画面上のオブジェクトの位置を特定し選択することに利用可能である。本質的に、視線追跡および音声認識制御サブシステムに関連するこの方法は、基本的なプラットフォームの仕様とは無関係に、画面上に表示されたオブジェクトの相互作用に対する制御を向上させることができる。
Claims (7)
- 方法であって、
ユーザが注視している表示画面上の領域を決定すること、
1つまたは複数の話された単語を認識すること、
前記1つまたは複数の話された単語を前記表示画面上に表示されたオブジェクトと関連付けること、
前記表示画面上に表示されたオブジェクトをユーザが注視している前記表示画面上の前記領域に限定すること、
前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けること、
を備える方法。 - 前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けることの信頼度を決定すること、
前記信頼度を所定の信頼度の値と比較し、前記所定の信頼度の値よりも大きい場合に、前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けることを許容すること、
をさらに備える請求項1に記載の方法。 - 前記信頼度の値を、注視座標の精度、前記注視座標のノイズ、前記注視座標の信頼度、前記表示画面上の前記オブジェクトの位置、またはそれらの何れかの組み合わせに基づいて決定することをさらに備える請求項1に記載の方法。
- 前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語の認識と関連付けることの確度を決定すること、
前記確度を所定の確度の値と比較し、前記所定の確度の値よりも大きい場合に、前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けることを許容すること、
をさらに備える請求項1に記載の方法。 - 前記確度の値を、音声認識の信頼度、決定した注視位置から各オブジェクトまでの距離、前記決定した注視位置の持続期間、前記注視位置を決定してから音声コマンドが発せられるまでの経過時間、またはそれらの何れかの組み合わせに基づいて決定することをさらに備える請求項4に記載の方法。
- 方法であって、
ユーザが注視している表示画面上の領域に存在するオブジェクトを決定すること、
前記オブジェクトに基づいて音声認識エンジンの用語集を構築すること、
前記用語集を用いて1つまたは複数の話された単語を認識すること、
前記注視している領域に存在する前記オブジェクトを前記1つまたは複数の話された単語と関連付けること、
を備える方法。 - 前記ユーザの注視位置を固定する毎に前記音声認識エンジンの前記用語集を更新することをさらに備える請求項6に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562135904P | 2015-03-20 | 2015-03-20 | |
US62/135,904 | 2015-03-20 | ||
PCT/IB2016/000412 WO2016151396A1 (en) | 2015-03-20 | 2016-03-15 | Method for refining control by combining eye tracking and voice recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018515817A true JP2018515817A (ja) | 2018-06-14 |
Family
ID=59787861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017567559A Pending JP2018515817A (ja) | 2015-03-20 | 2016-03-15 | 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170262051A1 (ja) |
EP (1) | EP3271803A1 (ja) |
JP (1) | JP2018515817A (ja) |
KR (1) | KR20170129165A (ja) |
CN (1) | CN107567611A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020116001A1 (ja) * | 2018-12-03 | 2020-06-11 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
JP6565084B2 (ja) * | 2017-03-29 | 2019-08-28 | 本田技研工業株式会社 | 物体認証装置および物体認証方法 |
WO2018205083A1 (zh) * | 2017-05-08 | 2018-11-15 | 深圳前海达闼云端智能科技有限公司 | 机器人唤醒方法、装置和机器人 |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US11445235B2 (en) | 2017-10-24 | 2022-09-13 | Comcast Cable Communications, Llc | Determining context to initiate interactivity |
CN108803866A (zh) * | 2018-03-27 | 2018-11-13 | 北京七鑫易维信息技术有限公司 | 输出信息的方法、装置和系统 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
CN108874127A (zh) * | 2018-05-30 | 2018-11-23 | 北京小度信息科技有限公司 | 信息交互方法、装置、电子设备及计算机可读存储介质 |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11978448B2 (en) | 2019-02-26 | 2024-05-07 | Lg Electronics Inc. | Display device and method of operating the same |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11335342B2 (en) * | 2020-02-21 | 2022-05-17 | International Business Machines Corporation | Voice assistance system |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0651901A (ja) * | 1992-06-29 | 1994-02-25 | Nri & Ncc Co Ltd | 視線認識によるコミュニケーション装置 |
JPH08314493A (ja) * | 1995-05-22 | 1996-11-29 | Sanyo Electric Co Ltd | 音声認識方法,数字列音声認識装置及びビデオレコーダシステム |
JP2004510239A (ja) * | 2000-09-20 | 2004-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ディクテーションとコマンドの区別を向上させる方法 |
JP2008058409A (ja) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | 音声認識方法及び音声認識装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3990075B2 (ja) * | 1999-06-30 | 2007-10-10 | 株式会社東芝 | 音声認識支援方法及び音声認識システム |
CN103885743A (zh) * | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | 结合注视跟踪技术的语音文本输入方法和系统 |
US8744645B1 (en) * | 2013-02-26 | 2014-06-03 | Honda Motor Co., Ltd. | System and method for incorporating gesture and voice recognition into a single system |
KR20140132246A (ko) * | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 오브젝트 선택 방법 및 오브젝트 선택 장치 |
-
2016
- 2016-03-10 US US15/066,387 patent/US20170262051A1/en not_active Abandoned
- 2016-03-15 CN CN201680025224.5A patent/CN107567611A/zh active Pending
- 2016-03-15 EP EP16720164.9A patent/EP3271803A1/en not_active Withdrawn
- 2016-03-15 KR KR1020177027275A patent/KR20170129165A/ko not_active Application Discontinuation
- 2016-03-15 JP JP2017567559A patent/JP2018515817A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0651901A (ja) * | 1992-06-29 | 1994-02-25 | Nri & Ncc Co Ltd | 視線認識によるコミュニケーション装置 |
JPH08314493A (ja) * | 1995-05-22 | 1996-11-29 | Sanyo Electric Co Ltd | 音声認識方法,数字列音声認識装置及びビデオレコーダシステム |
JP2004510239A (ja) * | 2000-09-20 | 2004-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ディクテーションとコマンドの区別を向上させる方法 |
JP2008058409A (ja) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | 音声認識方法及び音声認識装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020116001A1 (ja) * | 2018-12-03 | 2020-06-11 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JPWO2020116001A1 (ja) * | 2018-12-03 | 2021-10-14 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
US11513768B2 (en) | 2018-12-03 | 2022-11-29 | Sony Group Corporation | Information processing device and information processing method |
JP7468360B2 (ja) | 2018-12-03 | 2024-04-16 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107567611A (zh) | 2018-01-09 |
US20170262051A1 (en) | 2017-09-14 |
KR20170129165A (ko) | 2017-11-24 |
EP3271803A1 (en) | 2018-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018515817A (ja) | 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 | |
US9703462B2 (en) | Display-independent recognition of graphical user interface control | |
RU2702270C2 (ru) | Обнаружение выбора рукописного фрагмента | |
US20180349346A1 (en) | Lattice-based techniques for providing spelling corrections | |
US10275152B2 (en) | Advanced methods and systems for text input error correction | |
US9058105B2 (en) | Automated adjustment of input configuration | |
US9098313B2 (en) | Recording display-independent computerized guidance | |
US10838513B2 (en) | Responding to selection of a displayed character string | |
JP6987067B2 (ja) | 複数の入力管理のためのシステムおよび方法 | |
US8418077B2 (en) | File content navigation using binary search | |
US9390341B2 (en) | Electronic device and method for manufacturing the same | |
EP2897055A1 (en) | Information processing device, information processing method, and program | |
US9405558B2 (en) | Display-independent computerized guidance | |
US10996843B2 (en) | System and method for selecting graphical objects | |
US20160154997A1 (en) | Handwriting input apparatus and control method thereof | |
JP5550598B2 (ja) | 手書き文字入力装置 | |
US11112965B2 (en) | Advanced methods and systems for text input error correction | |
US10755027B2 (en) | Gesture ambiguity determination and resolution | |
JP2011081778A (ja) | ディスプレイ非依存のコンピュータによるガイダンス方法および装置 | |
JP2019164182A (ja) | 文字評価プログラム、文字評価方法及び文字評価装置 | |
WO2016151396A1 (en) | Method for refining control by combining eye tracking and voice recognition | |
KR101989960B1 (ko) | 복수 개의 기계학습 모델을 사용한 실시간 필기 인식 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 실시간 필기 인식 시스템 | |
US11886801B1 (en) | System, method and device for multimodal text editing | |
KR102138095B1 (ko) | 음성 명령 기반의 가상 터치 입력 장치 | |
US20150268734A1 (en) | Gesture recognition method for motion sensing detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190308 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190517 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20190604 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200310 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201117 |