JP2018515817A - 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 - Google Patents

視線追跡と音声認識とを組み合わせることにより制御を改善する方法 Download PDF

Info

Publication number
JP2018515817A
JP2018515817A JP2017567559A JP2017567559A JP2018515817A JP 2018515817 A JP2018515817 A JP 2018515817A JP 2017567559 A JP2017567559 A JP 2017567559A JP 2017567559 A JP2017567559 A JP 2017567559A JP 2018515817 A JP2018515817 A JP 2018515817A
Authority
JP
Japan
Prior art keywords
display screen
user
screen
gaze
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017567559A
Other languages
English (en)
Inventor
ヘンリク タール、マルティン
ヘンリク タール、マルティン
プリエスム、ヨナス
アグスティン ロペス、ハビエル サン
アグスティン ロペス、ハビエル サン
Original Assignee
フェイスブック,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フェイスブック,インク. filed Critical フェイスブック,インク.
Priority claimed from PCT/IB2016/000412 external-priority patent/WO2016151396A1/en
Publication of JP2018515817A publication Critical patent/JP2018515817A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

本発明は、視線追跡と音声認識制御技術との組み合わせにより、表示画面上に表示されたオブジェクトの位置決めと選択の速度および/または精度を、後続の制御および動作のために向上させる方法である。

Description

本開示は、視線追跡と音声認識とを組み合わせることにより制御を改善する方法に関する。
パーソナルコンピュータ、スマートフォン、タブレットなどのコンピューティングデバイスは、グラフィカルユーザーインターフェイス(GUI)を利用することでユーザによる制御を容易化する。画面上には、画像、単語、英数字を含み得るオブジェクトを表示することが可能であり、ユーザは、カーソル制御デバイス(例えば、マウスまたはタッチパッド)やスイッチを使用して対話型画面要素の選択を指示する。
他の場合において、システムは、カーソルやスイッチではなくタッチ感知画面を使用することが可能であり、この場合、ユーザは指またはスタイラスを用いて画面位置をタッチすることにより、何らかのものを特定して選択する。この方法によれば、ユーザは、例えば、「印刷」などの制御アイコンを選択したり、またはハイパーリンクを選択したりすることができる。また、ユーザは、テキストの編集および/またはコピーアンドペースト対話操作のために英数字や単語の列を選択することができる。カーソル制御やタッチ制御パネルは、ユーザが制御装置を物理的に操作し画面上の項目の位置を特定して選択するように設計されている。
一方で、制御サブシステムを物理的に移動またはタッチすることを伴わないこのような制御の代替手段がある。そのような代替手段の1つはユーザの視線追跡(eye tracking)を利用することであり、この方法では、画面上におけるユーザの注視を使用して、関心のある画面領域や、対話選択用の画面上の項目を特定することができる。また、他の代替手段は音声認識を利用して、認識した単語を画面上に表示された関連項目と関連付けることである。視線追跡も音声認識制御も、それ単体では、画面上のオブジェクトの位置を特定し選択することに関して、すなわちカーソル制御やタッチ制御に関して正確ではない。視線追跡の場合、解像度に関して、視線追跡が、ある点または点の小さな集まりではなく、ある画面領域に制限されることがしばしばある。このため、その画面領域内またはその近傍に画面上のオブジェクトが複数存在する場合には、選択が曖昧となり得る。同様に、画面がテキストやオブジェクトの選択肢で満たされていると、音声認識サブシステムは、認識した単語を関連性の高い画面上のオブジェクトや単語で解析しようとする場合に曖昧さをもたらす。したがって、このような制御方法は、視線追跡制御の場合にあっては画面上のオブジェクトの数を制限してオブジェクト間の距離を増加させるためにズーム処理を使用し得ることや、正しい制御または選択の解釈の確度を高めるために反復的な発声コマンドを必要とする。
視線追跡と音声認識の制御を組み合わせることによって、位置特定および選択の精度を効果的に高めることができ、それによって、1つまたは他の制御技術を使用する際に現在必要とされている反復的なズーム処理や音声コマンドを減らすことができる。
本明細書に開示され特許請求される方法は、個別に実施されている視線追跡と音声認識の制御を協調させることにより、制御全体をより高速におよび/またはより正確にすることができる。
本明細書に開示され特許請求される方法は、視線追跡と音声認識の制御を組み合わせた統合制御システムで実施することができる。
本明細書に開示され特許請求される方法は、アプリケーションを実行するにあたってシステムを起動することや、クライアントユーザシステムを使用してサーバベースのHTMLページ集約と対話すること(例えば、インターネットを用いてウェブサイトと対話すること)に起因し得る画面上のオブジェクトの位置を特定し選択することに利用可能である。本質的に、視線追跡および音声認識制御サブシステムに関連するこの方法は、基本的なプラットフォームの仕様とは無関係に、画面上に表示されたオブジェクトの相互作用に対する制御を向上させることができる。
本明細書に開示され特許請求される方法は、視線追跡の属性を使用して音声認識制御の曖昧さを低減するとともに、音声認識を使用して視線追跡制御の曖昧さを低減する。これにより、制御の相乗効果を図る。すなわち、視線追跡と音声認識制御とを単独で使用する場合に比べて制御速度や精度を向上させることができる。
非テキストオブジェクトおよびテキストオブジェクトを表示する表示画面を示す図であり、画面は、例えば、コンピュータモニタ、スマートフォン画面、タブレット画面などの任意のシステム表示制御画面であり得る。 視線追跡制御により、ユーザの注視が本質的に非テキストオブジェクト上にあると判定する場合における図1の画面を示す図。 視線追跡制御により、ユーザの注視が本質的にテキストオブジェクトを含む画面領域上にあると判定する場合における図1の画面を示す図。 視線追跡と音声認識とをどのように組み合わせて位置および選択を決定する信頼度を向上し、それにより精度を向上するかを示す例示的なフローチャート。 視線追跡と音声認識とをどのように組み合わせて位置および選択を決定する確度を向上し、それにより精度を向上するかを示す例示的なフローチャート。 視線追跡と音声認識とをどのように組み合わせ、解釈した単語をユーザの注視画面領域として決定された小画面領域内における出現と関連付けることにより単語群の中で選択された単語を決定する確度を向上させるかを示す例示的なフローチャート。
各種の対話型コンピューティングシステムが進化するにつれて、GUIは、システムとユーザとの間の主要な対話機構となっている。画像、英数字、テキスト、アイコンなどであり得るオブジェクトが画面上に表示された状態で、ユーザは、GUIの一部を利用することにより画面上のオブジェクトの位置を特定して選択することができる。最も一般的な2つのGUIサブシステムは、画面上のオブジェクトの位置を特定して選択するためにカーソル制御デバイス(例えば、マウスやタッチパッド)と選択スイッチを採用する。画面上のオブジェクトが例えば印刷ボタンのような制御アイコンである場合、その位置を特定して選択することで、表示された文書ファイルを印刷することができる。画面上のオブジェクトが文字、単語、または強調表示されたテキスト部分である場合、それを選択することで、編集、削除、コピーアンドペースト、または類似の操作が可能となる。今日では、多くの装置は、画面上のオブジェクトの位置を特定および/または選択するために、指やスタイラスによるタッチを可能とするタッチパネル画面を使用する。いずれの場合にも、この制御は、画面上のオブジェクトの位置を特定して選択するためにユーザが制御装置に物理的に触れることに依存する。
カーソル制御を用いると、通常、ユーザは、画面上のオブジェクトの位置を正確に特定して選択することができる。場合によっては、ユーザは、画面上の意図するオブジェクトの位置を正確に特定して選択するために、画面の一部を拡大して、オブジェクトのサイズを大きくしたりオブジェクト同士を互いに離間させたりする必要がある。このズーム機能は、より一般的には指によるタッチ制御によるものであるが、ズーム機能が適用されるまでは、画面上のいくつかの小さなオブジェクトを含む領域上での指によるタッチが不正確となる。
また、GUIは、物理的な接触を必要とすることなく、画面上のオブジェクトの位置を特定し選択することを可能にする機能も有し得る。例えば、視線追跡制御を利用するGUIは、ユーザが注視している画面上の場所(例えば、位置)を決定し、選択制御のための何らかの方法(例えば、注視滞留時間(dwell time))を使用する。これは、マウスを使用してカーソルを画面上のオブジェクトに移動させた後、選択の意図を示すためにクリックすることに類似している。
音声認識型の制御も、物理的な接触を必要としない制御技術の役割を果たす。オブジェクトの画面情報は、オブジェクトに関連付けられた話された単語の用語集を有しており、ユーザが単語またはフレーズを発すると、制御システムはその単語を認識してそれを画面上の特定のオブジェクトに関連付ける。したがって、例えば、文字Aを中心に有する円をオブジェクトとして有する画面は、ユーザが「円A」と発声することにより位置が特定されて選択され、GUIシステムはそれを強調表示する。その後、ユーザが「選択」と発声すると、GUIシステムはそのオブジェクトを選択して通常は強調表示を除去する。明らかなのは、画面上に多くのオブジェクトが存在する場合には、同じ記述を持つものが存在し、種々のサイズや色による5つの円が存在する場合に「円」と発声した場合には曖昧となる。したがって、システムは、より高い信頼性またはより高い確度推定を得るために、ユーザに更なる説明を促すこととなる。
したがって、視線追跡や音声認識制御を使用する際のトレードオフは、ポインティング/選択デバイスや画面との物理的接触の必要性を排除する一方で、精度の低い位置特定や選択の解析結果を受け入れないことである。しばしば、より低い解析結果の結果として、システムがカーソル、タッチパッド、タッチ画面などのより厳密な制御に見合った確度でオブジェクトの位置を特定し選択を行う前に、より多くのステップが実行されることがある。
一般に、タイプ選択カーソルは、単独のまたは単語内の英数字よりも小さい。したがって、ユーザが誤字を修正する場合には、1つの文字を選択してそれを削除または変更することができる。タッチ制御を使用する場合は、通常、指やスタイラスによるタッチの領域はカーソルポインタよりも大きい。同様の誤字を訂正する場合、単語内の文字を選択することが困難となる。ユーザは、正しい文字を選択するためにいくつかの指示を試みたり、または、タッチ点が単一の意図した目標とする文字に当てられるようにその単語をより大きな比率に拡大(すなわち、ズーム)したりする必要がある。
ユーザがどのようなGUI位置および選択技術を使用するかに関わらず、フォントサイズや非テキストオブジェクトの寸法は制御解析に影響を及ぼす。一般に、物理的な接触を必要としない技術は、ズーム操作を繰り返さなければ、小さな文字や小さな寸法を有する非テキストオブジェクトを有する密なテキストに対応することができない。
本明細書に開示され特許請求された方法は、視線追跡と音声認識の制御技術を併用することにより、いずれかの制御技術を単独で使用して画面上のオブジェクトの位置を特定し選択する精度を効果的に改善する。この方法は、表示されたオブジェクトを有する任意のシステムに適用され、ユーザは画面上のオブジェクトの位置を特定して選択し、システムに1つまたは複数のオブジェクトに対する何らかの動作または複数の動作を実行させるように指示することによってシステムと対話する。このようなシステムは、表示されたオブジェクトを表示し、その位置を特定し、選択し、操作することを同時に支援するハードウェア、ファームウェア、およびソフトウェアの組み合わせを含むことができる。方法は、視線追跡および音声認識の制御を組み込んだ統合制御サブシステムの一部として、あるいは別個の視線追跡および音声認識制御サブシステムと相互作用可能なシステムの一部として、システムハードウェアおよび/またはソフトウェアと相互作用することを含み得る。したがって、本明細書に開示され特許請求される方法の発明は、特定のシステムアーキテクチャ、またはハードウェアおよびソフトウェアの構文解析の範囲に限定されるものではない。
視線追跡技術またはサブシステムとは、アーキテクチャや実装に関係なく、ユーザの目が表示画面の或る領域を注視している場所をほぼ決定することが可能な任意の技術またはサブシステムを指す。また、視線追跡技術またはサブシステムは、ユーザがその注視領域において1つ以上のオブジェクトを選択した、すなわち位置を特定したことを判定することができる。オブジェクトは、それが選択された場合に動作を開始するアイコンやリンクとすることができる。
音声認識技術またはサブシステムとは、アーキテクチャや実装に関係なく、ユーザが話した単語または語句を認識して、その認識した単語または語句を表示オブジェクトおよび/または動作コマンドと関連付けることが可能な任意の技術またはサブシステムを指す。
図1は、画面上のオブジェクトの表示を示す。オブジェクトは、英数字、単語、文章、段落などのテキストオブジェクトと、画像、ラインアート、アイコンなどを含む非テキストオブジェクトとから構成される。この図は例示的なものであり、画面上のオブジェクトのレイアウトや内容を限定するものとして解釈されるべきではない。
視線追跡制御の技術では、ユーザの目が図1の画面を注視している領域を決定することができる。例えば、図2において、視線追跡制御サブシステムは、ユーザの目が非テキストオブジェクトの一部を注視していると判定しており、その注視領域が201によって丸で囲まれた領域によって定義されている。
図3は、視線追跡制御サブシステムによりユーザの目がテキストオブジェクトの一部を注視していると判定されている場合の図1の画面を示し、その注視領域は301によって丸で囲まれている。
図2において、非テキストオブジェクトが201よりも小さく、また、そのようなオブジェクトが領域201内に複数配置されていた場合、視覚追跡サブシステムは、その時点では、領域201内のどのオブジェクトがユーザの関心オブジェクトであるかを解析することはできない。後続のステップに移ることにより、1つのオブジェクトのみが領域201内に位置するように画面上のオブジェクトが拡大される。しかし、その後続のステップは、正確に行うには時間を要する。また、最初のズームを試みても依然として領域201内に2つ以上のオブジェクトが残っていることもあり得る。このため、関心オブジェクトを決定するために次のズーム動作を行う必要があり得る。したがってここでも、より多くの時間が使用される。
図3において、注視領域301は、複数の英数字および単語に及んでいる。したがってここでも、視線追跡制御サブシステムは、どの文字または単語が関心オブジェクトであるかを具体的に決定することができない。どの文字または単語が関心オブジェクトであるかを解析するために、再度、反復的にズーム動作を行う必要があり得る。非テキストオブジェクトの場合と同様に、ズーム動作が適用される度に、より多くの時間が必要となる。
図1に関連して音声認識技術を使用すると、可視画面の全体とその画面上のあらゆるオブジェクトがユーザの選択対象となり得る。例えば、ユーザが「『ここで』(here)の単語を削除する」と発声した場合、音声認識サブシステムは、最初に単語「ここで」を認識した後に、その単語を画面上のオブジェクトのうちその全てのインスタンスに関連付ける。図1に示されるように、単語「ここで」(here)について3つのインスタンスが存在する。したがって、音声認識サブシステムは、単一のオブジェクト選択に対するコマンドを解析することができない。例えば、ユーザが「はい」と答えるまで、「ここで」の各インスタンスを順番に強調表示するという繰り返しの処理を行う必要があり得る。これによってさらに時間がかかることとなる。
図4は、本明細書に開示され特許請求される本発明の一実施形態における例示的な処理フローを示す。なお、図4に示すフローは、限定として解釈されるべきではない。フローはステップ401で始まり、ステップ401において、システムは画面上のオブジェクトを構成する要素を読み込んで解析する。フローチャートには示されていないが、この動作は繰り返し行われてもよい。ステップ402において、視線追跡サブシステムは、画面の注視座標を繰り返し計算し、その座標をシステムに渡す。ステップ402をもとに、注視領域Gが決定される(ステップ403)。領域Gが決定されると、ステップ404,405において、システムは、領域G内で検知されたリンクの辞書Dおよび用語集Vを構築する。用語集Vは、コンピューティングデバイスおよび/または音声認識サブシステムの能力に応じて、注視座標毎、注視座標位置を決定する毎、N個の注視座標毎、Tミリ秒ごとなどで更新されてもよい。ステップ402〜405は、音声コマンドが受信されるまで(ステップ406)、継続的に繰り返される。次いで、システムは、用語集Vに基づいて音声コマンドを認識し(ステップ407)、精度の信頼度Cに従ってリンクLを決定する(ステップ408)。音声認識では、音声コマンドと組み合わせられた外来音が、認識精度を低下させ得る音声アーティファクトを取り込む可能性がある。外来音による誤った選択を避けるために信頼度Cが閾値thと比較され、信頼度Cのほうが大きい場合(ステップ409)に、システムはリンクLを起動し(ステップ410)、そうでなければ、システムはステップ402に戻る。閾値thは、固定値を取ってもよいし、あるいは、注視座標のノイズ、視線追跡システムによって報告された画面上の精度、注視座標の信頼度、画面上のリンクLの位置、またはそれらの任意の組み合わせなどの様々な要因に応じてその都度計算されてもよい。視線追跡技術を使用することで、取り得るオブジェクトの全画面を注視領域G内に縮小する。反復的なズーム処理を繰り返すのではなく、視線追跡による注視領域Gを視線誘導標(delineator)として使用することによって、システムは、少ないステップ数およびより短い時間を用いて十分な信頼度でリンクLを起動することができる。
図5は、別の実施形態における例示的な処理フローを示す。図5のフローは、限定として解釈されるべきではない。フローはステップ501で始まり、このステップ501において、システムは画面上のオブジェクトを構成する要素を読み込んで解析する。フローチャートには示されていないが、この動作は繰り返し行われてもよい。視線追跡サブシステムは、注視領域の座標を繰り返し更新し、そのデータをシステムに供給する(ステップ502)。音声コマンドが受信されると、その音声コマンドが受信された時点から始まる所定秒数の時間窓(ステップ504よりも前)の間に受信された視線追跡座標群によって注視領域Gが決定される(ステップ503)。そして、領域Gに存在するリンクの辞書Dが構築されるとともに(ステップ505)、領域G内のリンクの用語集Vが構築される(ステップ506)。音声コマンドは、確度Pを用いて用語集Vに基づいて認識される(ステップ507)。複数のリンクが認識されている場合には、各リンクの確度Pが、例えば、音声認識の信頼度C、注視点すなわち決定した注視位置からリンクまでの距離、決定した注視位置の持続期間、リンクが注視されてから音声コマンドが発せられるまでの経過時間などの様々な要因に基づいて計算され得る(ステップ508)。これにより、最も高い確度Pを有するリンクを選択することができる。確度Pが閾値thよりも大きい場合(ステップ509)には、リンクLが起動され(ステップ510)、そうでなければ、システムはステップ502に戻って、新たな音声コマンドを待つ。閾値thは、固定値を取ってもよいし、あるいは、上述したステップ409と同様にその都度計算されてもよい。注目すべきは、図4および図5の双方でリンクが起動される点である。なお、これらの動作はリンクに限らず、対話可能な任意の画面上のオブジェクトに適用することができる。
図6は、別の実施形態における例示的な処理フローを示す。図6のフローは、限定として解釈されるべきではない。フローが開始されると、システムは画面上のオブジェクトを構成する要素を読み込んで解析する。フローチャートには示されていないが、この動作は繰り返し行われてもよい。次いで、システムは音声コマンドを待つ。ここでは、例えば、コマンドが「選択」である(ステップ603)。音声コマンドが受信された時点から始まる所定秒数の時間窓の間に受信された視線追跡座標群を用いて注視領域Gが決定される(ステップ604)。ここでは、注視領域は、図3のようにテキストオブジェクト上に位置している。領域G内におけるテキストTが解析されて、用語集Vが構築される(ステップ605)。用語集Vに基づいて、音声コマンドのテキストオブジェクトが認識される(ステップ606)。単語Wが確度Pについて評価され(ステップ607)、確度Pが閾値thと比較される(ステップ608)。確度Pが閾値thを越えている場合、単語Wが選択される(ステップ609)。確度Pおよび閾値thは、上述と同様に計算することができる。
図4〜図6に示されたフローは例示的なものである。各例では、ズーム動作に頼ることなく、オブジェクトの画面全体が注視領域内のオブジェクトに縮小されることで信頼度または確度が向上する。注視領域には幾らか曖昧な関心オブジェクトが依然として残っている可能性もあるが、その可能性は音声認識制御のみを使用する場合よりもはるかに低い。ズーム動作を行うことなく関心オブジェクトを解決する上で、話された単語を注視領域と組み合わせれば、大抵は十分である。明らかなのは、視線追跡技術と音声認識技術を組み合わせることで、視線追跡制御や音声認識制御が個別に適用される場合に比べて、迅速に関心オブジェクトを解析することができる。

Claims (7)

  1. 方法であって、
    ユーザが注視している表示画面上の領域を決定すること、
    1つまたは複数の話された単語を認識すること、
    前記1つまたは複数の話された単語を前記表示画面上に表示されたオブジェクトと関連付けること、
    前記表示画面上に表示されたオブジェクトをユーザが注視している前記表示画面上の前記領域に限定すること、
    前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けること、
    を備える方法。
  2. 前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けることの信頼度を決定すること、
    前記信頼度を所定の信頼度の値と比較し、前記所定の信頼度の値よりも大きい場合に、前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けることを許容すること、
    をさらに備える請求項1に記載の方法。
  3. 前記信頼度の値を、注視座標の精度、前記注視座標のノイズ、前記注視座標の信頼度、前記表示画面上の前記オブジェクトの位置、またはそれらの何れかの組み合わせに基づいて決定することをさらに備える請求項1に記載の方法。
  4. 前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語の認識と関連付けることの確度を決定すること、
    前記確度を所定の確度の値と比較し、前記所定の確度の値よりも大きい場合に、前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記1つまたは複数の話された単語と関連付けることを許容すること、
    をさらに備える請求項1に記載の方法。
  5. 前記確度の値を、音声認識の信頼度、決定した注視位置から各オブジェクトまでの距離、前記決定した注視位置の持続期間、前記注視位置を決定してから音声コマンドが発せられるまでの経過時間、またはそれらの何れかの組み合わせに基づいて決定することをさらに備える請求項4に記載の方法。
  6. 方法であって、
    ユーザが注視している表示画面上の領域に存在するオブジェクトを決定すること、
    前記オブジェクトに基づいて音声認識エンジンの用語集を構築すること、
    前記用語集を用いて1つまたは複数の話された単語を認識すること、
    前記注視している領域に存在する前記オブジェクトを前記1つまたは複数の話された単語と関連付けること、
    を備える方法。
  7. 前記ユーザの注視位置を固定する毎に前記音声認識エンジンの前記用語集を更新することをさらに備える請求項6に記載の方法。
JP2017567559A 2015-03-20 2016-03-15 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 Pending JP2018515817A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562135904P 2015-03-20 2015-03-20
US62/135,904 2015-03-20
PCT/IB2016/000412 WO2016151396A1 (en) 2015-03-20 2016-03-15 Method for refining control by combining eye tracking and voice recognition

Publications (1)

Publication Number Publication Date
JP2018515817A true JP2018515817A (ja) 2018-06-14

Family

ID=59787861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017567559A Pending JP2018515817A (ja) 2015-03-20 2016-03-15 視線追跡と音声認識とを組み合わせることにより制御を改善する方法

Country Status (5)

Country Link
US (1) US20170262051A1 (ja)
EP (1) EP3271803A1 (ja)
JP (1) JP2018515817A (ja)
KR (1) KR20170129165A (ja)
CN (1) CN107567611A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020116001A1 (ja) * 2018-12-03 2020-06-11 ソニー株式会社 情報処理装置および情報処理方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JP6565084B2 (ja) * 2017-03-29 2019-08-28 本田技研工業株式会社 物体認証装置および物体認証方法
WO2018205083A1 (zh) * 2017-05-08 2018-11-15 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11445235B2 (en) 2017-10-24 2022-09-13 Comcast Cable Communications, Llc Determining context to initiate interactivity
CN108803866A (zh) * 2018-03-27 2018-11-13 北京七鑫易维信息技术有限公司 输出信息的方法、装置和系统
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
CN108874127A (zh) * 2018-05-30 2018-11-23 北京小度信息科技有限公司 信息交互方法、装置、电子设备及计算机可读存储介质
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11978448B2 (en) 2019-02-26 2024-05-07 Lg Electronics Inc. Display device and method of operating the same
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11335342B2 (en) * 2020-02-21 2022-05-17 International Business Machines Corporation Voice assistance system
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651901A (ja) * 1992-06-29 1994-02-25 Nri & Ncc Co Ltd 視線認識によるコミュニケーション装置
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
JP2004510239A (ja) * 2000-09-20 2004-04-02 インターナショナル・ビジネス・マシーンズ・コーポレーション ディクテーションとコマンドの区別を向上させる方法
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3990075B2 (ja) * 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
US8744645B1 (en) * 2013-02-26 2014-06-03 Honda Motor Co., Ltd. System and method for incorporating gesture and voice recognition into a single system
KR20140132246A (ko) * 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651901A (ja) * 1992-06-29 1994-02-25 Nri & Ncc Co Ltd 視線認識によるコミュニケーション装置
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
JP2004510239A (ja) * 2000-09-20 2004-04-02 インターナショナル・ビジネス・マシーンズ・コーポレーション ディクテーションとコマンドの区別を向上させる方法
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020116001A1 (ja) * 2018-12-03 2020-06-11 ソニー株式会社 情報処理装置および情報処理方法
JPWO2020116001A1 (ja) * 2018-12-03 2021-10-14 ソニーグループ株式会社 情報処理装置および情報処理方法
US11513768B2 (en) 2018-12-03 2022-11-29 Sony Group Corporation Information processing device and information processing method
JP7468360B2 (ja) 2018-12-03 2024-04-16 ソニーグループ株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
CN107567611A (zh) 2018-01-09
US20170262051A1 (en) 2017-09-14
KR20170129165A (ko) 2017-11-24
EP3271803A1 (en) 2018-01-24

Similar Documents

Publication Publication Date Title
JP2018515817A (ja) 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
US9703462B2 (en) Display-independent recognition of graphical user interface control
RU2702270C2 (ru) Обнаружение выбора рукописного фрагмента
US20180349346A1 (en) Lattice-based techniques for providing spelling corrections
US10275152B2 (en) Advanced methods and systems for text input error correction
US9058105B2 (en) Automated adjustment of input configuration
US9098313B2 (en) Recording display-independent computerized guidance
US10838513B2 (en) Responding to selection of a displayed character string
JP6987067B2 (ja) 複数の入力管理のためのシステムおよび方法
US8418077B2 (en) File content navigation using binary search
US9390341B2 (en) Electronic device and method for manufacturing the same
EP2897055A1 (en) Information processing device, information processing method, and program
US9405558B2 (en) Display-independent computerized guidance
US10996843B2 (en) System and method for selecting graphical objects
US20160154997A1 (en) Handwriting input apparatus and control method thereof
JP5550598B2 (ja) 手書き文字入力装置
US11112965B2 (en) Advanced methods and systems for text input error correction
US10755027B2 (en) Gesture ambiguity determination and resolution
JP2011081778A (ja) ディスプレイ非依存のコンピュータによるガイダンス方法および装置
JP2019164182A (ja) 文字評価プログラム、文字評価方法及び文字評価装置
WO2016151396A1 (en) Method for refining control by combining eye tracking and voice recognition
KR101989960B1 (ko) 복수 개의 기계학습 모델을 사용한 실시간 필기 인식 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 실시간 필기 인식 시스템
US11886801B1 (en) System, method and device for multimodal text editing
KR102138095B1 (ko) 음성 명령 기반의 가상 터치 입력 장치
US20150268734A1 (en) Gesture recognition method for motion sensing detector

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190308

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190517

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190604

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201117