JP2018515817A

JP2018515817A - 視線追跡と音声認識とを組み合わせることにより制御を改善する方法

Info

Publication number: JP2018515817A
Application number: JP2017567559A
Authority: JP
Inventors: ヘンリクタール、マルティン; プリエスム、ヨナス; アグスティンロペス、ハビエルサン
Original assignee: フェイスブック，インク．
Priority date: 2015-03-20
Filing date: 2016-03-15
Publication date: 2018-06-14
Also published as: CN107567611A; US20170262051A1; KR20170129165A; EP3271803A1

Abstract

本発明は、視線追跡と音声認識制御技術との組み合わせにより、表示画面上に表示されたオブジェクトの位置決めと選択の速度および／または精度を、後続の制御および動作のために向上させる方法である。

Description

本開示は、視線追跡と音声認識とを組み合わせることにより制御を改善する方法に関する。

パーソナルコンピュータ、スマートフォン、タブレットなどのコンピューティングデバイスは、グラフィカルユーザーインターフェイス（ＧＵＩ）を利用することでユーザによる制御を容易化する。画面上には、画像、単語、英数字を含み得るオブジェクトを表示することが可能であり、ユーザは、カーソル制御デバイス（例えば、マウスまたはタッチパッド）やスイッチを使用して対話型画面要素の選択を指示する。

他の場合において、システムは、カーソルやスイッチではなくタッチ感知画面を使用することが可能であり、この場合、ユーザは指またはスタイラスを用いて画面位置をタッチすることにより、何らかのものを特定して選択する。この方法によれば、ユーザは、例えば、「印刷」などの制御アイコンを選択したり、またはハイパーリンクを選択したりすることができる。また、ユーザは、テキストの編集および／またはコピーアンドペースト対話操作のために英数字や単語の列を選択することができる。カーソル制御やタッチ制御パネルは、ユーザが制御装置を物理的に操作し画面上の項目の位置を特定して選択するように設計されている。

一方で、制御サブシステムを物理的に移動またはタッチすることを伴わないこのような制御の代替手段がある。そのような代替手段の１つはユーザの視線追跡（eye tracking）を利用することであり、この方法では、画面上におけるユーザの注視を使用して、関心のある画面領域や、対話選択用の画面上の項目を特定することができる。また、他の代替手段は音声認識を利用して、認識した単語を画面上に表示された関連項目と関連付けることである。視線追跡も音声認識制御も、それ単体では、画面上のオブジェクトの位置を特定し選択することに関して、すなわちカーソル制御やタッチ制御に関して正確ではない。視線追跡の場合、解像度に関して、視線追跡が、ある点または点の小さな集まりではなく、ある画面領域に制限されることがしばしばある。このため、その画面領域内またはその近傍に画面上のオブジェクトが複数存在する場合には、選択が曖昧となり得る。同様に、画面がテキストやオブジェクトの選択肢で満たされていると、音声認識サブシステムは、認識した単語を関連性の高い画面上のオブジェクトや単語で解析しようとする場合に曖昧さをもたらす。したがって、このような制御方法は、視線追跡制御の場合にあっては画面上のオブジェクトの数を制限してオブジェクト間の距離を増加させるためにズーム処理を使用し得ることや、正しい制御または選択の解釈の確度を高めるために反復的な発声コマンドを必要とする。

視線追跡と音声認識の制御を組み合わせることによって、位置特定および選択の精度を効果的に高めることができ、それによって、１つまたは他の制御技術を使用する際に現在必要とされている反復的なズーム処理や音声コマンドを減らすことができる。

本明細書に開示され特許請求される方法は、個別に実施されている視線追跡と音声認識の制御を協調させることにより、制御全体をより高速におよび／またはより正確にすることができる。

本明細書に開示され特許請求される方法は、視線追跡と音声認識の制御を組み合わせた統合制御システムで実施することができる。
本明細書に開示され特許請求される方法は、アプリケーションを実行するにあたってシステムを起動することや、クライアントユーザシステムを使用してサーバベースのＨＴＭＬページ集約と対話すること（例えば、インターネットを用いてウェブサイトと対話すること）に起因し得る画面上のオブジェクトの位置を特定し選択することに利用可能である。本質的に、視線追跡および音声認識制御サブシステムに関連するこの方法は、基本的なプラットフォームの仕様とは無関係に、画面上に表示されたオブジェクトの相互作用に対する制御を向上させることができる。

本明細書に開示され特許請求される方法は、視線追跡の属性を使用して音声認識制御の曖昧さを低減するとともに、音声認識を使用して視線追跡制御の曖昧さを低減する。これにより、制御の相乗効果を図る。すなわち、視線追跡と音声認識制御とを単独で使用する場合に比べて制御速度や精度を向上させることができる。

非テキストオブジェクトおよびテキストオブジェクトを表示する表示画面を示す図であり、画面は、例えば、コンピュータモニタ、スマートフォン画面、タブレット画面などの任意のシステム表示制御画面であり得る。視線追跡制御により、ユーザの注視が本質的に非テキストオブジェクト上にあると判定する場合における図１の画面を示す図。視線追跡制御により、ユーザの注視が本質的にテキストオブジェクトを含む画面領域上にあると判定する場合における図１の画面を示す図。視線追跡と音声認識とをどのように組み合わせて位置および選択を決定する信頼度を向上し、それにより精度を向上するかを示す例示的なフローチャート。視線追跡と音声認識とをどのように組み合わせて位置および選択を決定する確度を向上し、それにより精度を向上するかを示す例示的なフローチャート。視線追跡と音声認識とをどのように組み合わせ、解釈した単語をユーザの注視画面領域として決定された小画面領域内における出現と関連付けることにより単語群の中で選択された単語を決定する確度を向上させるかを示す例示的なフローチャート。

各種の対話型コンピューティングシステムが進化するにつれて、ＧＵＩは、システムとユーザとの間の主要な対話機構となっている。画像、英数字、テキスト、アイコンなどであり得るオブジェクトが画面上に表示された状態で、ユーザは、ＧＵＩの一部を利用することにより画面上のオブジェクトの位置を特定して選択することができる。最も一般的な２つのＧＵＩサブシステムは、画面上のオブジェクトの位置を特定して選択するためにカーソル制御デバイス（例えば、マウスやタッチパッド）と選択スイッチを採用する。画面上のオブジェクトが例えば印刷ボタンのような制御アイコンである場合、その位置を特定して選択することで、表示された文書ファイルを印刷することができる。画面上のオブジェクトが文字、単語、または強調表示されたテキスト部分である場合、それを選択することで、編集、削除、コピーアンドペースト、または類似の操作が可能となる。今日では、多くの装置は、画面上のオブジェクトの位置を特定および／または選択するために、指やスタイラスによるタッチを可能とするタッチパネル画面を使用する。いずれの場合にも、この制御は、画面上のオブジェクトの位置を特定して選択するためにユーザが制御装置に物理的に触れることに依存する。

カーソル制御を用いると、通常、ユーザは、画面上のオブジェクトの位置を正確に特定して選択することができる。場合によっては、ユーザは、画面上の意図するオブジェクトの位置を正確に特定して選択するために、画面の一部を拡大して、オブジェクトのサイズを大きくしたりオブジェクト同士を互いに離間させたりする必要がある。このズーム機能は、より一般的には指によるタッチ制御によるものであるが、ズーム機能が適用されるまでは、画面上のいくつかの小さなオブジェクトを含む領域上での指によるタッチが不正確となる。

また、ＧＵＩは、物理的な接触を必要とすることなく、画面上のオブジェクトの位置を特定し選択することを可能にする機能も有し得る。例えば、視線追跡制御を利用するＧＵＩは、ユーザが注視している画面上の場所（例えば、位置）を決定し、選択制御のための何らかの方法（例えば、注視滞留時間（dwell time））を使用する。これは、マウスを使用してカーソルを画面上のオブジェクトに移動させた後、選択の意図を示すためにクリックすることに類似している。

音声認識型の制御も、物理的な接触を必要としない制御技術の役割を果たす。オブジェクトの画面情報は、オブジェクトに関連付けられた話された単語の用語集を有しており、ユーザが単語またはフレーズを発すると、制御システムはその単語を認識してそれを画面上の特定のオブジェクトに関連付ける。したがって、例えば、文字Ａを中心に有する円をオブジェクトとして有する画面は、ユーザが「円Ａ」と発声することにより位置が特定されて選択され、ＧＵＩシステムはそれを強調表示する。その後、ユーザが「選択」と発声すると、ＧＵＩシステムはそのオブジェクトを選択して通常は強調表示を除去する。明らかなのは、画面上に多くのオブジェクトが存在する場合には、同じ記述を持つものが存在し、種々のサイズや色による５つの円が存在する場合に「円」と発声した場合には曖昧となる。したがって、システムは、より高い信頼性またはより高い確度推定を得るために、ユーザに更なる説明を促すこととなる。

したがって、視線追跡や音声認識制御を使用する際のトレードオフは、ポインティング／選択デバイスや画面との物理的接触の必要性を排除する一方で、精度の低い位置特定や選択の解析結果を受け入れないことである。しばしば、より低い解析結果の結果として、システムがカーソル、タッチパッド、タッチ画面などのより厳密な制御に見合った確度でオブジェクトの位置を特定し選択を行う前に、より多くのステップが実行されることがある。

一般に、タイプ選択カーソルは、単独のまたは単語内の英数字よりも小さい。したがって、ユーザが誤字を修正する場合には、１つの文字を選択してそれを削除または変更することができる。タッチ制御を使用する場合は、通常、指やスタイラスによるタッチの領域はカーソルポインタよりも大きい。同様の誤字を訂正する場合、単語内の文字を選択することが困難となる。ユーザは、正しい文字を選択するためにいくつかの指示を試みたり、または、タッチ点が単一の意図した目標とする文字に当てられるようにその単語をより大きな比率に拡大（すなわち、ズーム）したりする必要がある。

ユーザがどのようなＧＵＩ位置および選択技術を使用するかに関わらず、フォントサイズや非テキストオブジェクトの寸法は制御解析に影響を及ぼす。一般に、物理的な接触を必要としない技術は、ズーム操作を繰り返さなければ、小さな文字や小さな寸法を有する非テキストオブジェクトを有する密なテキストに対応することができない。

本明細書に開示され特許請求された方法は、視線追跡と音声認識の制御技術を併用することにより、いずれかの制御技術を単独で使用して画面上のオブジェクトの位置を特定し選択する精度を効果的に改善する。この方法は、表示されたオブジェクトを有する任意のシステムに適用され、ユーザは画面上のオブジェクトの位置を特定して選択し、システムに１つまたは複数のオブジェクトに対する何らかの動作または複数の動作を実行させるように指示することによってシステムと対話する。このようなシステムは、表示されたオブジェクトを表示し、その位置を特定し、選択し、操作することを同時に支援するハードウェア、ファームウェア、およびソフトウェアの組み合わせを含むことができる。方法は、視線追跡および音声認識の制御を組み込んだ統合制御サブシステムの一部として、あるいは別個の視線追跡および音声認識制御サブシステムと相互作用可能なシステムの一部として、システムハードウェアおよび／またはソフトウェアと相互作用することを含み得る。したがって、本明細書に開示され特許請求される方法の発明は、特定のシステムアーキテクチャ、またはハードウェアおよびソフトウェアの構文解析の範囲に限定されるものではない。

視線追跡技術またはサブシステムとは、アーキテクチャや実装に関係なく、ユーザの目が表示画面の或る領域を注視している場所をほぼ決定することが可能な任意の技術またはサブシステムを指す。また、視線追跡技術またはサブシステムは、ユーザがその注視領域において１つ以上のオブジェクトを選択した、すなわち位置を特定したことを判定することができる。オブジェクトは、それが選択された場合に動作を開始するアイコンやリンクとすることができる。

音声認識技術またはサブシステムとは、アーキテクチャや実装に関係なく、ユーザが話した単語または語句を認識して、その認識した単語または語句を表示オブジェクトおよび／または動作コマンドと関連付けることが可能な任意の技術またはサブシステムを指す。

図１は、画面上のオブジェクトの表示を示す。オブジェクトは、英数字、単語、文章、段落などのテキストオブジェクトと、画像、ラインアート、アイコンなどを含む非テキストオブジェクトとから構成される。この図は例示的なものであり、画面上のオブジェクトのレイアウトや内容を限定するものとして解釈されるべきではない。

視線追跡制御の技術では、ユーザの目が図１の画面を注視している領域を決定することができる。例えば、図２において、視線追跡制御サブシステムは、ユーザの目が非テキストオブジェクトの一部を注視していると判定しており、その注視領域が２０１によって丸で囲まれた領域によって定義されている。

図３は、視線追跡制御サブシステムによりユーザの目がテキストオブジェクトの一部を注視していると判定されている場合の図１の画面を示し、その注視領域は３０１によって丸で囲まれている。

図２において、非テキストオブジェクトが２０１よりも小さく、また、そのようなオブジェクトが領域２０１内に複数配置されていた場合、視覚追跡サブシステムは、その時点では、領域２０１内のどのオブジェクトがユーザの関心オブジェクトであるかを解析することはできない。後続のステップに移ることにより、１つのオブジェクトのみが領域２０１内に位置するように画面上のオブジェクトが拡大される。しかし、その後続のステップは、正確に行うには時間を要する。また、最初のズームを試みても依然として領域２０１内に２つ以上のオブジェクトが残っていることもあり得る。このため、関心オブジェクトを決定するために次のズーム動作を行う必要があり得る。したがってここでも、より多くの時間が使用される。

図３において、注視領域３０１は、複数の英数字および単語に及んでいる。したがってここでも、視線追跡制御サブシステムは、どの文字または単語が関心オブジェクトであるかを具体的に決定することができない。どの文字または単語が関心オブジェクトであるかを解析するために、再度、反復的にズーム動作を行う必要があり得る。非テキストオブジェクトの場合と同様に、ズーム動作が適用される度に、より多くの時間が必要となる。

図１に関連して音声認識技術を使用すると、可視画面の全体とその画面上のあらゆるオブジェクトがユーザの選択対象となり得る。例えば、ユーザが「『ここで』（here）の単語を削除する」と発声した場合、音声認識サブシステムは、最初に単語「ここで」を認識した後に、その単語を画面上のオブジェクトのうちその全てのインスタンスに関連付ける。図１に示されるように、単語「ここで」（here）について３つのインスタンスが存在する。したがって、音声認識サブシステムは、単一のオブジェクト選択に対するコマンドを解析することができない。例えば、ユーザが「はい」と答えるまで、「ここで」の各インスタンスを順番に強調表示するという繰り返しの処理を行う必要があり得る。これによってさらに時間がかかることとなる。

図４は、本明細書に開示され特許請求される本発明の一実施形態における例示的な処理フローを示す。なお、図４に示すフローは、限定として解釈されるべきではない。フローはステップ４０１で始まり、ステップ４０１において、システムは画面上のオブジェクトを構成する要素を読み込んで解析する。フローチャートには示されていないが、この動作は繰り返し行われてもよい。ステップ４０２において、視線追跡サブシステムは、画面の注視座標を繰り返し計算し、その座標をシステムに渡す。ステップ４０２をもとに、注視領域Ｇが決定される（ステップ４０３）。領域Ｇが決定されると、ステップ４０４，４０５において、システムは、領域Ｇ内で検知されたリンクの辞書Ｄおよび用語集Ｖを構築する。用語集Ｖは、コンピューティングデバイスおよび／または音声認識サブシステムの能力に応じて、注視座標毎、注視座標位置を決定する毎、Ｎ個の注視座標毎、Ｔミリ秒ごとなどで更新されてもよい。ステップ４０２〜４０５は、音声コマンドが受信されるまで（ステップ４０６）、継続的に繰り返される。次いで、システムは、用語集Ｖに基づいて音声コマンドを認識し（ステップ４０７）、精度の信頼度Ｃに従ってリンクＬを決定する（ステップ４０８）。音声認識では、音声コマンドと組み合わせられた外来音が、認識精度を低下させ得る音声アーティファクトを取り込む可能性がある。外来音による誤った選択を避けるために信頼度Ｃが閾値ｔｈと比較され、信頼度Ｃのほうが大きい場合（ステップ４０９）に、システムはリンクＬを起動し（ステップ４１０）、そうでなければ、システムはステップ４０２に戻る。閾値ｔｈは、固定値を取ってもよいし、あるいは、注視座標のノイズ、視線追跡システムによって報告された画面上の精度、注視座標の信頼度、画面上のリンクＬの位置、またはそれらの任意の組み合わせなどの様々な要因に応じてその都度計算されてもよい。視線追跡技術を使用することで、取り得るオブジェクトの全画面を注視領域Ｇ内に縮小する。反復的なズーム処理を繰り返すのではなく、視線追跡による注視領域Ｇを視線誘導標（delineator）として使用することによって、システムは、少ないステップ数およびより短い時間を用いて十分な信頼度でリンクＬを起動することができる。

図５は、別の実施形態における例示的な処理フローを示す。図５のフローは、限定として解釈されるべきではない。フローはステップ５０１で始まり、このステップ５０１において、システムは画面上のオブジェクトを構成する要素を読み込んで解析する。フローチャートには示されていないが、この動作は繰り返し行われてもよい。視線追跡サブシステムは、注視領域の座標を繰り返し更新し、そのデータをシステムに供給する（ステップ５０２）。音声コマンドが受信されると、その音声コマンドが受信された時点から始まる所定秒数の時間窓（ステップ５０４よりも前）の間に受信された視線追跡座標群によって注視領域Ｇが決定される（ステップ５０３）。そして、領域Ｇに存在するリンクの辞書Ｄが構築されるとともに（ステップ５０５）、領域Ｇ内のリンクの用語集Ｖが構築される（ステップ５０６）。音声コマンドは、確度Ｐを用いて用語集Ｖに基づいて認識される（ステップ５０７）。複数のリンクが認識されている場合には、各リンクの確度Ｐが、例えば、音声認識の信頼度Ｃ、注視点すなわち決定した注視位置からリンクまでの距離、決定した注視位置の持続期間、リンクが注視されてから音声コマンドが発せられるまでの経過時間などの様々な要因に基づいて計算され得る（ステップ５０８）。これにより、最も高い確度Ｐを有するリンクを選択することができる。確度Ｐが閾値ｔｈよりも大きい場合（ステップ５０９）には、リンクＬが起動され（ステップ５１０）、そうでなければ、システムはステップ５０２に戻って、新たな音声コマンドを待つ。閾値ｔｈは、固定値を取ってもよいし、あるいは、上述したステップ４０９と同様にその都度計算されてもよい。注目すべきは、図４および図５の双方でリンクが起動される点である。なお、これらの動作はリンクに限らず、対話可能な任意の画面上のオブジェクトに適用することができる。

図６は、別の実施形態における例示的な処理フローを示す。図６のフローは、限定として解釈されるべきではない。フローが開始されると、システムは画面上のオブジェクトを構成する要素を読み込んで解析する。フローチャートには示されていないが、この動作は繰り返し行われてもよい。次いで、システムは音声コマンドを待つ。ここでは、例えば、コマンドが「選択」である（ステップ６０３）。音声コマンドが受信された時点から始まる所定秒数の時間窓の間に受信された視線追跡座標群を用いて注視領域Ｇが決定される（ステップ６０４）。ここでは、注視領域は、図３のようにテキストオブジェクト上に位置している。領域Ｇ内におけるテキストＴが解析されて、用語集Ｖが構築される（ステップ６０５）。用語集Ｖに基づいて、音声コマンドのテキストオブジェクトが認識される（ステップ６０６）。単語Ｗが確度Ｐについて評価され（ステップ６０７）、確度Ｐが閾値ｔｈと比較される（ステップ６０８）。確度Ｐが閾値ｔｈを越えている場合、単語Ｗが選択される（ステップ６０９）。確度Ｐおよび閾値ｔｈは、上述と同様に計算することができる。

図４〜図６に示されたフローは例示的なものである。各例では、ズーム動作に頼ることなく、オブジェクトの画面全体が注視領域内のオブジェクトに縮小されることで信頼度または確度が向上する。注視領域には幾らか曖昧な関心オブジェクトが依然として残っている可能性もあるが、その可能性は音声認識制御のみを使用する場合よりもはるかに低い。ズーム動作を行うことなく関心オブジェクトを解決する上で、話された単語を注視領域と組み合わせれば、大抵は十分である。明らかなのは、視線追跡技術と音声認識技術を組み合わせることで、視線追跡制御や音声認識制御が個別に適用される場合に比べて、迅速に関心オブジェクトを解析することができる。

Claims

方法であって、
ユーザが注視している表示画面上の領域を決定すること、
１つまたは複数の話された単語を認識すること、
前記１つまたは複数の話された単語を前記表示画面上に表示されたオブジェクトと関連付けること、
前記表示画面上に表示されたオブジェクトをユーザが注視している前記表示画面上の前記領域に限定すること、
前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記１つまたは複数の話された単語と関連付けること、
を備える方法。
前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記１つまたは複数の話された単語と関連付けることの信頼度を決定すること、
前記信頼度を所定の信頼度の値と比較し、前記所定の信頼度の値よりも大きい場合に、前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記１つまたは複数の話された単語と関連付けることを許容すること、
をさらに備える請求項１に記載の方法。
前記信頼度の値を、注視座標の精度、前記注視座標のノイズ、前記注視座標の信頼度、前記表示画面上の前記オブジェクトの位置、またはそれらの何れかの組み合わせに基づいて決定することをさらに備える請求項１に記載の方法。
前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記１つまたは複数の話された単語の認識と関連付けることの確度を決定すること、
前記確度を所定の確度の値と比較し、前記所定の確度の値よりも大きい場合に、前記ユーザが注視している前記表示画面上の前記領域内で前記表示画面上に表示された前記オブジェクトを前記１つまたは複数の話された単語と関連付けることを許容すること、
をさらに備える請求項１に記載の方法。
前記確度の値を、音声認識の信頼度、決定した注視位置から各オブジェクトまでの距離、前記決定した注視位置の持続期間、前記注視位置を決定してから音声コマンドが発せられるまでの経過時間、またはそれらの何れかの組み合わせに基づいて決定することをさらに備える請求項４に記載の方法。
方法であって、
ユーザが注視している表示画面上の領域に存在するオブジェクトを決定すること、
前記オブジェクトに基づいて音声認識エンジンの用語集を構築すること、
前記用語集を用いて１つまたは複数の話された単語を認識すること、
前記注視している領域に存在する前記オブジェクトを前記１つまたは複数の話された単語と関連付けること、
を備える方法。
前記ユーザの注視位置を固定する毎に前記音声認識エンジンの前記用語集を更新することをさらに備える請求項６に記載の方法。