JP6545716B2

JP6545716B2 - 改善された音声認識を容易にする視覚的コンテンツの修正

Info

Publication number: JP6545716B2
Application number: JP2016567801A
Authority: JP
Inventors: ストーク，アンドレアス; ツヴァイク，ジェフリー; スレニー，マルコム
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-06-06
Filing date: 2015-06-03
Publication date: 2019-07-17
Anticipated expiration: 2035-06-03
Also published as: WO2015187756A3; JP2017525002A; EP3152754B1; RU2684475C2; MX361307B; AU2015271726B2; RU2016147071A3; AU2015271726A1; KR20170016399A; CA2948523C; KR102393147B1; WO2015187756A2; CA2948523A1; RU2016147071A; US20150356971A1; BR112016026904A2; US9583105B2; BR112016026904A8; EP3152754A2; MX2016016131A

Description

[0001] 自動音声認識（ASR: automatic speech recognition）システムは、ユーザによって示される口頭による発話を認識するように構成されている。より詳細には、マイクロフォンは、オーディオを取り込むことに応じて電気信号を生成し、そこでは、オーディオは、口頭による発話を含んでいる。電気信号は、処理されて、オーディオからノイズをフィルタにかけ、また口頭による発話を認識するために使用され得る特徴を抽出する。ＡＳＲシステムの性能（例えば、スピードおよび正確さ）が、最近の数年間にわたって非常に改善されたが、大規模な語彙集が考慮されるときに、ＡＳＲシステムが、特定のアクセントまたは方言を表している適切なトレーニングデータを用いてトレーニングされてきていないとき、あるいは他の準最適の条件が存在するときに、従来のＡＳＲシステムは、困難であり続ける。さらに、ＡＳＲシステムは、発話が、混雑した空港において、走行中の自動車においてなどで示されるときなど、騒音の多い環境の中で示される口頭による発話を認識することが、多くの場合に困難である。

[0002] 以下は、本明細書においてより詳細に説明される主題についての簡潔な概要である。この概要は、特許請求の範囲についての範囲について限定することを意図してはいない。

[0003] ディスプレイの上に表示するためのページを受信することを容易にする技術が、本明細書において説明されており、そのページは、お互いに第１の距離にある第１の視覚的要素と、第２の視覚的要素とを含んでいる。ページは、修正されて、修正されたページを生成しており、修正されたページは、お互いに第２の距離にある第１の視覚的要素と、第２の視覚的要素とを含んでおり、そこでは、ページの修正は、第１の視覚的要素に対応する少なくとも１つのワードと、第２の視覚的要素に対応する少なくとも１つのワードとの間の発音の類似性に基づいている。次いで、ページは、ディスプレイの上に表示されるようにさせられる。

[0004]視覚的コンテンツを修正するように構成されている例示のシステムの機能ブロック図である。 [0005]視覚的コンテンツのレイアウトを修正するように構成されている例示のレイアウトジェネレータコンポーネントの機能ブロック図である。 [0006]推定された視覚的注意に基づいてカスタマイズされ得る自動音声認識（ASR）システムの機能ブロック図である。 [0007]レイアウトジェネレータコンポーネントによって実行される、視覚的コンテンツの例示の修正を示す図である。 [0008]レイアウトジェネレータコンポーネントによって実行される、視覚的コンテンツの別の例示の修正を示す図である。 [0009]ユーザに対するグラフィカルフィードバックの提供を示す図である。 [0010]ユーザによって見られている曖昧性を除去することを容易にするために視覚的コンテンツを修正するための例示の方法を示す流れ図である。 [0011]視覚的コンテンツの中の要素の間の混同しやすさを示している値に基づいて、視覚的コンテンツのレイアウトを修正するための例示の方法を示す流れ図である。 [0012]例示のコンピューティングシステムを示す図である。

[0013] 視覚的コンテンツを修正することに関する様々な技術が、次に図面を参照して説明され、そこでは、同様な参照数字を使用して、全体を通して同様な要素を意味している。以下の説明においては、説明の目的のために、非常に多くの特定の詳細が、説明されて、１つまたは複数の態様についての完全な理解を提供している。しかしながら、そのような態様（単数または複数）は、これらの特定の詳細なしに、実行され得ることは、明らかである可能性がある。他の例では、よく知られている構造およびデバイスが、１つまたは複数の態様を説明することを容易にするためにブロック図形式で示される。さらに、ある種のシステムコンポーネントによって実行されているように説明される機能は、複数のコンポーネントによって実行され得ることを理解すべきである。同様に、例えば、コンポーネントは、複数のコンポーネントによって実行されているように説明される機能を実行するように構成されていることもある。

[0014] さらに、用語「または」は、排他的な「または」ではなくて包含的な「または」を意味することを意図している。すなわち、そうでないように指定されない限り、またはコンテキストから明らかでない限り、熟語「Ｘは、ＡまたはＢを使用する」は、自然の包含的並べ替えのうちの任意のものを意味することを意図している。すなわち、熟語「Ｘは、ＡまたはＢを使用する」は、以下のインスタンス、すなわち、Ｘは、Ａを使用する；Ｘは、Ｂを使用する；あるいはＸは、ＡとＢとの両方を使用する、のうちのどれかによって満たされる。さらに、本出願と添付の特許請求の範囲とにおいて使用されるような冠詞「ａ（１つの）」と「ａｎ（１つの）」とは、そうでないように指定されない限り、または単数形を対象とすることがコンテキストから明らかでない限り、「１つまたは複数の」を意味するように、一般的に解釈されるべきである。

[0015] さらに、本明細書において使用されるように、用語「コンポーネント」と「システム」とは、プロセッサによって実行されるときに、ある種の機能を実行されるようにさせるコンピュータ実行可能命令を用いて構成されているコンピュータ読取り可能データストレージを包含することを意図している。コンピュータ実行可能命令は、ルーチン、関数などを含むことができる。コンポーネントまたはシステムが、単一のデバイスの上にローカライズされ、またはいくつかのデバイスを通して分散され得ることも、理解すべきである。さらに、本明細書において使用されるように、用語「例示の」は、例証として、または何かの例としての役割を果たすことを意味することを意図しており、また好みを示すことを意図してはいない。

[0016] ユーザが、口頭による発話を示すときに、ユーザの意図の曖昧性を除去することを容易にするために、ディスプレイの上の視覚的コンテンツを修正することに関する様々な技術が、本明細書において説明される。ユーザの意図の曖昧性を除去することは、ディスプレイの上で（時間とともに）示される視覚的コンテンツと協力して、ユーザによって示される口頭による発話を認識することを含んでいる。ディスプレイは、その上に視覚的コンテンツを提示するように構成されており、ここで、視覚的コンテンツは、テキスト、画像、フィールド（フォーム入力可能フィールド）、ビデオ、ボタン、プルダウンなどとすることができ、またはそれらを含むことができる。それに応じて、視覚的コンテンツは、ウェブページやアプリケーションのページ（例えば、ワードプロセッシングアプリケーション、スライドショープレゼンテーションアプリケーションなど）など、ディスプレイの上で提示されるべきページの中に含まれることもある。

[0017] ユーザの視覚的注意は、ディスプレイと相対的に監視される。例えば、ディスプレイは、それに近接した、またはその中に埋め込まれたカメラ（例えば、赤色−緑色−青色（RGB）カメラおよび／または深度カメラ）を有することができる。カメラは、信号（例えば、画像）を出力し、この信号は、分析されて、頭部の姿勢および方向を決定することができ、この頭部の姿勢および方向は、次には、ユーザの視覚的注意（例えば、注視方向）を推論するために利用される。別の例では、画像は、分析されて、ひとみ、虹彩、角膜など、目の部分を識別することができ、また視覚的注意は、目の識別された部分に基づいて、推論される可能性がある。

[0018] マイクロフォンは、ディスプレイに近接した環境においてオーディオを示している信号を生成するように構成されている。オーディオは、ユーザの口頭による発話を含むことができ、またマイクロフォンによって出力される信号は、ＡＳＲシステムに提供される可能性があり、このＡＳＲシステムは、口頭による発話を認識するように構成されている。本明細書において説明される技術は、視覚的注意の使用を容易にして、ユーザが口頭による発話を示すときに、ユーザの意図の曖昧性を除去する。しかしながら、視覚的注意の決定が、いささか不正確である可能性があるので、本明細書においてより詳細に説明される態様は、ディスプレイの上に提示するための視覚的コンテンツを修正することに関連しており、そこでは、この修正は、ユーザによって見られている視覚的要素の曖昧性を除去することを容易にするために着手される。

[0019] 一例によれば、ディスプレイの上に提示されるべき視覚的コンテンツは、第１のワードシーケンスと、第２のワードシーケンスとを含むことができ、そこでは、第１のワードシーケンスは、第２のワードシーケンスに、何らかのやり方で、混同を引き起こすほど類似している。例えば、第１のワードシーケンスは、第２のワードシーケンスに音響学的に類似していることがある。別の例では、第１のワードシーケンスと、第２のワードシーケンスとは、局所的に類似していることがある。視覚的コンテンツは、分析される可能性があり、またスコアが、視覚的要素の対のために生成される可能性があり、そこでは、スコアは、対の中の視覚的要素の間の（例えば、ＡＳＲシステムの観点からの）混同しやすさを示している。例えば、音響学的類似性は、ワードの発音を比較することに基づいて、スコアがつけられることもある。スコアに基づいて、視覚的コンテンツは、修正される可能性があり、そこでは、視覚的コンテンツの修正は、視覚的コンテンツの中の視覚的要素の間の距離を変更することを含むことができる。

[0020] 上記で説明される例を用いて継続すると、第１のワードシーケンスと、第２のワードシーケンスとの対のために計算されるスコアは、２つのワードシーケンスが、混同を引き起こすほど類似していることを示すことができ、またＡＳＲシステムについての曖昧性の起源とすることができる。スコアに基づいて、視覚的コンテンツは、第１のワードシーケンスが、第２のワードシーケンスから離れて位置づけられるように、修正される可能性がある。この修正された視覚的コンテンツは、次いで、ディスプレイの上に提示されることもある。ユーザが、ディスプレイを見ているときに、ユーザの視覚的注意は、監視される可能性があり、また監視された視覚的注意に基づいて、ユーザが、第２のワードシーケンスではなくて第１のワードシーケンスを見ていることが、（ある種の可能性で）確実にされる可能性がある。次いで、ＡＳＲシステムは、第１のワードシーケンスに基づいてカスタマイズされる可能性がある。言い換えれば、ユーザの現在のコンテキスト（例えば、ユーザが、ディスプレイの上で見ているもの）を使用して、ＡＳＲシステムをカスタマイズし、現れようとしている発話の改善された認識を容易にしている。要約すれば、次いで、視覚的コンテンツの修正が、着手されて、ユーザによって見られているものの曖昧性を除去することを容易にしており、これを次に使用して、ＡＳＲシステムをカスタマイズする。

[0021] 別の例では、キューが、ディスプレイの上に提示される視覚的要素に対して提供される可能性があり、ここでキューは、ユーザが視覚的要素に焦点を当てていると考えられることをユーザに通知する。キューは、オーディオキュー、グラフィカルアイコン（例えば、マウスポインタ）、視覚的要素の強調表示などとすることができる。それゆえに、ユーザが、口頭による発話を示すときに、ユーザは、ＡＳＲシステムが視覚的要素に基づいてカスタマイズされているという知識を有することができる。どの１つまたは複数の視覚的要素が、ユーザによって見られているかの曖昧性を除去する際にさらに支援するために、ジェスチャもまた認識される可能性がある。例えば、視覚的注意トラッキングに加えて、カメラによって取り込まれる画像を分析して、ユーザがどこを指しているか、どこで頷いているかなどを識別することができ、これらを次に使用して、ユーザによって焦点を当てられている視覚的要素を識別することができる。

[0022] 次に図１を参照すると、ディスプレイの上で提示される視覚的コンテンツを修正することを容易にする例示のシステム１００が、示されており、そこでは視覚的コンテンツの修正が、着手されて、口頭による発話を示すユーザの意図の曖昧性を除去することを容易にしている。本システム１００は、コンピューティングシステム１０２を含んでおり、このコンピューティングシステム１０２は、それだけには限定されないが、デスクトップコンピューティングデバイス、ラップトップコンピューティングデバイス、モバイルコンピューティングデバイス（モバイル電話やスレートコンピューティングデバイスなど）、ビデオゲームコンソール、セットトップボックス、テレビジョンなどとすることができる。他の例においては、コンピューティングシステム１０２は、いくつかのコンピューティングデバイスを通して分散されることもある。さらにまた、コンピューティングシステム１０２の少なくとも一部分は、データセンタの中に含まれることもある。コンピューティングシステム１０２は、プロセッサ１０４とメモリ１０６とを含んでおり、そこではメモリ１０６は、プロセッサ１０４によって実行されるコンポーネントおよび／またはシステムを備えている。そのようなコンポーネントとシステムとは、以下でより詳細に説明されるであろう。

[0023] 本システム１００は、コンピューティングシステム１０２と通信しているディスプレイ１０８をさらに含んでいる。ディスプレイ１０８は、コンピューティングシステム１０２と別れているように示されているが、別の例においては、ディスプレイ１０８は、コンピューティングシステム１０２に組み込まれている可能性がある。したがって、例えば、ディスプレイ１０８は、モバイルコンピューティングデバイスのディスプレイ、ラップトップコンピューティングデバイスのディスプレイ、テレビジョンのディスプレイなどとすることができる。別の例においては、ディスプレイ１０８は、投影型ディスプレイとすることができる。

[0024] 本システム１００は、カメラ１１０をさらに備えており、このカメラ１１０は、赤色−緑色−青色（RGB）カメラ、グレースケールカメラ、および／または深度カメラとすることができる。ユーザ１１２が、ディスプレイ１０８の上で提示される視覚的コンテンツを見るので、カメラ１１０は、ユーザ１１２（の少なくとも頭部）の画像を取り込むように構成されている。システム１００はまた、ユーザ１１２および／またはディスプレイ１０８の近くに位置づけられたマイクロフォン１１４を含んでおり、またそれゆえに、ユーザ１１２によって示される口頭による発話を取り込むように構成されている。カメラ１１０およびマイクロフォン１１４は、ディスプレイ１０８および／またはコンピューティングシステム１０２とは別れているように、図１において示されているが、カメラ１１０および／またはマイクロフォン１１４は、ディスプレイ１０８および／またはコンピューティングシステム１０２の中に一体化される可能性があることを理解すべきである。

[0025] コンピューティングシステム１０２のメモリ１０６は、ディスプレイ１０８の上に提示されるべき視覚的コンテンツ１１６を含むことができる。一例においては、視覚的コンテンツ１１６は、ウェブページの中に含まれる可能性がある。それに応じて、視覚的コンテンツ１１６は、テキスト、画像、ビデオ、アニメーションなどを含むことができる。別の例では、視覚的コンテンツ１１６は、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、スライドショーアプリケーション、ビデオプレーヤーなどのコンピュータ実行可能アプリケーションによって表示されるように構成されている可能性がある。さらに別の例においては、視覚的コンテンツ１１６は、ビデオプログラム、広告、ビデオゲームの一部分、または他の適切な視覚的コンテンツとすることができる。視覚的コンテンツ１１６は、ワード、ワードのシーケンス、画像、ビデオクリップなど、いくつかの視覚的要素を含むことができる。視覚的コンテンツ１１６は、第１のレイアウトを有することができ、また複数の要素は、第１のレイアウトに従って視覚的コンテンツ１１６の中に含まれることもある。

[0026] メモリ１０６はまた、自動音声認識（ASR）システム１１８も含んでおり、この自動音声認識システム１１８は、マイクロフォン１１４の出力に基づいて、ユーザ１１２によって示される口頭による発話を認識するように構成されている。メモリ１０６はまた、カメラ１１０によって出力される画像（RGB画像および／または深度画像）に基づいてユーザ１１２の目の注視方向を識別するように構成されている視覚的注意トラッカーコンポーネント１２０も含んでいる。一例においては、視覚的注意トラッカーコンポーネント１２０は、ユーザ１１２の頭部の姿勢と回転とを識別することができ、また視覚的注意トラッカーコンポーネントは、ユーザ１１２の頭部の姿勢と回転とに基づいて、ユーザ１１２が、どこに焦点を当てているか（例えば、ユーザ１１２の注視方向）を推論することができる。別の例では、視覚的注意トラッカーコンポーネント１２０は、カメラ１１０によって出力される画像を分析することができ、またそのような画像におけるユーザ１１２の注視を識別することができる。例えば、注視トラッカーコンポーネント１２０は、ひとみ、虹彩、および／または角膜など、目の要素を識別することができ、またそのような目の要素の検出されたロケーション（例えば、頭部の姿勢および回転と組み合わせた）に基づいてユーザ１１２の注視方向を推論することができる。

[0027] カメラ１１０のロケーションが、ディスプレイ１０８に対して少なくともおおざっぱに知られており、またユーザ１１２のロケーションが、ディスプレイ１０８に対して少なくともおおざっぱに知られていることを仮定すると、視覚的注意トラッカーコンポーネント１２０は、ユーザ１１２によって見られているディスプレイ１０８の上のある領域を（例えば、ある適切な確率で）推定することができる。ディスプレイ１０８に対する視覚的注意トラッカーコンポーネント１２０の正確さは、キャリブレーションフェーズ中に（例えば、製造中または実際の使用中）に決定される可能性がある。そのような正確さは、ディスプレイ１０８のフォームファクタ（例えば、ディスプレイのサイズ）、カメラ１１０の分解能（深度またはRGBのいずれか）、プロセッサ１０４の能力、メモリ１０６のサイズなどの関数とすることができる。視覚的注意トラッカーコンポーネント１２０の正確さは、識別されるべき領域の境界（サイズ）を考慮に入れることができ、ここで、ユーザ１１２は、その領域における任意の視覚的要素を見ていることもある。

[0028] メモリ１０６は、レイアウトジェネレータコンポーネント１２２をさらに含むことができ、このレイアウトジェネレータコンポーネント１２２は、ＡＳＲと、視覚的注意の監視との両方をサポートするコンピューティングデバイスの中に包含するために特によく適している。レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を修正して、修正された視覚的コンテンツ（これはまた、「新しい」視覚的コンテンツと称されることもある）を生成するように構成されており、そこでは、レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６がディスプレイ１０８の上で提示されることに先立って、そのような修正を実行する。レイアウトジェネレータコンポーネント１２２は、ユーザ１１２が、ディスプレイ１０８を見ており、かつ／またはそれ以外の方法でディスプレイと対話している（例えば、ディスプレイの上で示されるコンテンツに対して口頭による発話を発行している）ときに、そのような修正を実行して、ユーザ１１２の意図の曖昧さを除去することを容易にしている。

[0029] 一般に、レイアウトジェネレータコンポーネント１２２は、コンピューティングシステム１０２が、視覚的注意の監視をサポートすることを示す表示を受信する。レイアウトジェネレータコンポーネント１２２は、コンピューティングシステム１０２が、ＡＳＲシステム１１８を備えていることを示す表示を任意選択により受信することができる。レイアウトジェネレータコンポーネント１２２は、ディスプレイ１０８の上で提示されるべき視覚的コンテンツ１１６を受信し、またそのような視覚的コンテンツを修正して、視覚的コンテンツ１１６がディスプレイ１０８の上に提示されることに先立って、修正された（新しい）視覚的コンテンツを生成する。レイアウトジェネレータコンポーネント１２２は、（以下でより詳細に説明されることになるような）視覚的コンテンツ１１６の中の要素と、視覚的コンテンツ１１６の第１のレイアウトと、視覚的注意トラッカーコンポーネント１２０の上述の正確さとに基づいて、視覚的コンテンツ１１６を修正する。

[0030] その中の要素に基づいて視覚的コンテンツ１１６を修正することに関してより詳細にすると、レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を受信することができ、またその中の要素を識別することができる。レイアウトジェネレータコンポーネント１２２は、要素の間の距離を計算することができ、また要素の対について、ＡＳＲシステム１１８に関して対の中の要素の間の曖昧性を示している値を計算することができる。例えば、視覚的コンテンツ１１６の第１のレイアウトは、それらの発音が互いに類似している、互いに近くにある２つのワードシーケンスを含むことができ、それゆえに、そのようなシーケンスのうちの一方がユーザ１１２によって発話されるときに、ＡＳＲシステム１１８が、２つのワードシーケンスの間の曖昧性を除去することを困難にする可能性がある。レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を修正して、修正された視覚的コンテンツを生成することができ、そこでは、修正された視覚的コンテンツは、第２のレイアウトを有しており、またその第２のレイアウトの中では、２つのワードシーケンスが、互いにさらに離れるように移動される（または他のコンテンツから分離される）。それゆえに、レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を修正して、類似した発音を有するワードシーケンスが、互いにさらに離れるように移動されるようにさせている。

[0031] 別の例においては、レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６のズームレベルを変更することにより、視覚的コンテンツ１１６を修正することができる。すなわち、視覚的コンテンツ１１６は、それに割り当てられたデフォルトズームレベルを有することができる。レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を分析し、また互いに近くにあり、また何らかのやり方で、ＡＳＲシステム１１８に対して曖昧な可能性のあることもある要素をその中で識別することができる。レイアウトジェネレータコンポーネント１２２は、ディスプレイ１０８の上で提示されるときにそれらの要素が、互いに離れて位置づけられるように、視覚的コンテンツが、特定のロケーションにおいて「ズームイン」されるようにさせることができる。

[0032] メモリ１０６はまた、修正された視覚的コンテンツが、ディスプレイ１０８の上で提示されるようにさせるレンダリングコンポーネント１２４も含んでおり、ここで、修正された視覚的コンテンツは、ユーザ１１２によって見られる可能性がある。メモリ１０６は、ユーザ１１２の見ているコンテキストに基づいて（例えば、視覚的注意トラッカーコンポーネント１２０の出力に基づいて）ＡＳＲシステム１１８をカスタマイズするカスタマイザコンポーネント１２６をさらに含んでいる。ＡＳＲシステム１１８のカスタマイズは、１）ユーザの見ているコンテキストに基づいてＡＳＲシステム１１８におけるモデルの中の重みを修正することと、２）ＡＳＲシステム１１８の出力に重み付けすることと、３）ＡＳＲシステム１１８におけるモデルの中の重みを修正すること、およびＡＳＲシステム１１８の出力に重み付けすることとを包含することを意図している。

[0033] ユーザ１１２がディスプレイ１０８を見ているときのシステム１００のオペレーションが、次に説明される。ユーザ１１２は、ディスプレイ１０８を見られるようにユーザ自身を位置づける。メモリ１０６は、ユーザ１１２に対するディスプレイ１０８の上に提示されるべき視覚的コンテンツ１１６を含んでいる。コンピューティングシステム１０２は、視覚的注意トラッキングをサポートし、またＡＳＲシステム１１８を備えているので、レイアウトジェネレータコンポーネント１２２は、修正のために視覚的コンテンツ１１６を分析するようにトリガされる可能性がある。レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を受信し、またユーザ１１２がそのような要素のうちの少なくとも１つに対して口頭による発話を示すときに、ＡＳＲシステム１１８に関して曖昧性を引き起こす可能性のある要素についての視覚的コンテンツ１１６をその中で検索する。例えば、レイアウトジェネレータコンポーネント１２２は、音響学的に類似したワードまたはワードシーケンス、局所的に類似している要素、互いに近くにあるフォーム入力可能フィールド、互いに近くにあるボタンなどを識別することができる。

[0034] 一例によれば、レイアウトジェネレータコンポーネント１２２は、ボックス−アンド−スプリングス−タイプモデルを使用することができ、そこでは、視覚的コンテンツ１１６の中の要素は、ＡＳＲシステム１１８に関するそれらの潜在的な曖昧性に基づいて、それらを押し離し、またはそれらを引き合わせる「スプリング」を用いて接続される。曖昧な要素が、互いに遠くに移動される距離は、視覚的注意トラッカーコンポーネント１２０の正確さの関数とすることができる（例えば、視覚的注意トラッキング能力がより正確になればなるほど、曖昧な要素は、遠くに離れるように移動される必要はより少なくなるが、視覚的注意トラッキングの正確さが減少するときに、曖昧な要素は、さらに離れるように移動される）。ＡＳＲシステム１１８は、異なるフォーム入力可能フィールドのために、それぞれ、異なる言語モデルを使用することができるので、それらの要素が、フォーム入力可能フィールドであるときに、視覚的コンテンツ１１６の中の要素を位置づけ直すことは、とりわけ有利である可能性がある。それゆえに、２つの異なる言語モデルに関連する２つのフォーム入力可能フィールドは、レイアウトジェネレータコンポーネント１２２によってさらに離れるように移動される可能性がある。

[0035] レンダリングコンポーネント１２４は、ディスプレイ１０８の上で修正された視覚的コンテンツ（レイアウトジェネレータコンポーネント１２２によって修正される）をレンダリングする。図１に示される例においては、修正された視覚的コンテンツは、要素１２８、１３０、および１３２を含むことができる。視覚的コンテンツ１１６においては、要素１２８と１３２とは、互いに隣接していることができる。しかしながら、レイアウトジェネレータコンポーネント１２２は、要素１２８と１３２とが、ＡＳＲシステム１１８に関して曖昧性を引き起こし得ることを確認した可能性がある（例えば、ＡＳＲシステム１１８は、口頭による発話を示すときに要素１２８または１３２のどちらをユーザ１１２が言及しているかを識別する困難さを有する可能性がある）。それゆえに、レイアウトジェネレータコンポーネント１２２は、要素１２８と、１３２とが、互いにさらに遠くに移動されるように、視覚的コンテンツ１１６を修正した。

[0036] 視覚的注意トラッカーコンポーネント１２０は、カメラ１１０から画像を受信し、またカメラ１１０によって出力される画像に基づいて、例えば、ユーザ１１２の注視方向を推定する。ユーザ１１２の注視の方向が、推定される可能性があるので、要素１２８〜１３２のうちの（もしあれば）どれが、ユーザ１１２によって見られているかに関する推定値が、生成される可能性がある。一例によれば、視覚的注意トラッカーコンポーネント１２０が、ユーザ１１２が特定の要素を見ていることを推定するときに、レイアウトジェネレータコンポーネント１２２は、視覚的注意トラッカーコンポーネント１２０が、ユーザ１１２が特定の要素を見ていることを推定したことをユーザ１１２に対して示す出力を生成することができる。レイアウトジェネレータコンポーネント１２２によって生成される出力は、聞こえる出力、特定の要素（例えば、カーソル）の上のグラフィカルアイコンの追加、特定の要素の強調表示などとすることができる。

[0037] カスタマイザコンポーネント１２６は、要素１２８〜１３２のうちのどれがユーザ１１２によって見られているかについての表示を受信することができる。この表示を受信することに応じて、カスタマイザコンポーネント１２６は、ユーザ１１２によって見られているディスプレイ１０８の上の要素に基づいて（視覚的注意トラッカーコンポーネント１２０によって決定されるように）ＡＳＲシステム１１８をカスタマイズすることができる。例えば、カスタマイザコンポーネントは、ユーザ１１２によって見られているように決定される要素に基づいて、ＡＳＲシステム１１８の音響学的モデル、用語集モデル、および／または言語モデルにおける重みを変更することができる。追加して、または代わりに、カスタマイザコンポーネント１２６は、ユーザ１１２によって見られているように決定される要素に基づいて、（場合によっては修正されていない）ＡＳＲシステム１１８の出力を選択することができる。カスタマイザコンポーネント１２６は、異なるコンテキストについてのＡＳＲシステム１１８の出力ラベルに重み付けすることができる。別の例においては、カスタマイザコンポーネント１２６は、ルールを使用して、ＡＳＲシステム１１８の出力を選択することができる（例えば、都市名を受信するように構成されているフォーム入力可能フィールドが、ユーザ１１２によって見られているときに、ルールは、都市名が、ＡＳＲシステム１１８の可能性のある出力から選択されるようにさせることができる）。効果的に、次いで、カスタマイザコンポーネント１２６は、コンテキスト−何をユーザ１１２が見ているかに基づいて、ＡＳＲシステム１１８をカスタマイズしており、それによってＡＳＲシステム１１８が、ユーザ１１２の口頭による発話を正しく認識することになる確率の向上を容易にしている。

[0038] ユーザ１１２が、口頭による発話を示すときに、マイクロフォン１１４は、そのような口頭による発話を取り込み、また口頭による発話を表している信号を出力することができる。カスタマイザコンポーネント１２６によってカスタマイズされるＡＳＲシステム１１８は、マイクロフォン１１４によって出力される信号に基づいて、口頭による発話を認識することができる。何がユーザ１１２によって見られているかを正確に決定する能力は、レイアウトジェネレータコンポーネント１２２によって実行される視覚的コンテンツ１１６の修正によって強化される。要約すれば、システム１００は、曖昧な可能性のある要素が、視覚的注意トラッカーコンポーネント１２０が見られている要素の間で差別化することをより簡単にするのに十分に遠く離して移動されるように、視覚的コンテンツ１１６の修正をサポートする。レイアウトジェネレータコンポーネント１２２は、視覚的注意トラッカーコンポーネント１２０、ならびに視覚的コンテンツ１１６の要素およびレイアウトについての正確さを考慮に入れることにより、自動的にこのオペレーションを実行することができる。さらに、視覚的注意トラッカーコンポーネント１２０は、何がユーザ１１２によって見られているかについての知識を有することができるので、推論が、何についてユーザ１１２が話すことになるかについて行われる可能性がある。この情報は、ＡＳＲシステム１１８に対して提供される可能性があり、ユーザ１１２の意図を理解する際にＡＳＲシステム１１８を支援する。したがって、例えば、要素１３２が、宛先都市を受信するためのフォーム入力可能フィールドであり、また視覚的注意トラッカーコンポーネント１２０が、ユーザ１１２がそのようなフォーム入力可能フィールドを見ていることを決定するとき、そのときには、カスタマイザコンポーネント１２６は、ユーザ１１２が都市または空港の名前を含む口頭による発話を発行することになることを予測することができる。カスタマイザコンポーネント１２６は、このようにして、ＡＳＲシステム１１８の言語モデルを修正して、都市名および／または空港名に顕著に重み付けすることができる。

[0039] この例は、レンダリングの時に、視覚的コンテンツ１１６を修正することを考察したが、本明細書において説明される概念はまた、生成の時に視覚的コンテンツを修正するためにもよく適している。例えば、設計者は、ウェブページについてのレイアウトを生成することができ、またレイアウトジェネレータコンポーネント１２２は、レイアウトを受信することができる。次いで、レイアウトジェネレータコンポーネント１２２は、レイアウトに対する修正を行い、また設計者に対して修正を提示することができる（この設計者は、次いで、提案されたレイアウト変更を受け入れ、または拒否することを選択できる）。この場合にも、レイアウトジェネレータコンポーネント１２２は、これらのレイアウト変更を行って、ウェブページの視聴者によって示される口頭による発話を認識する際に、ＡＳＲシステム１１８を支援することができる。

[0040] さらに別の例によれば、視覚的注意を監視することに加えて、メモリ１０６は、ユーザ１１２がある要素を指し示すことなどのジェスチャを認識するように構成されているコンポーネント（図示されず）を含むことができる。ディスプレイ１０８の上でどこをユーザ１１２が指し示しているかと、どこをユーザ１１２が見ているかとについての認識の組合せを使用して、何がユーザ１１２にとって興味があるかを推論し、また何をユーザ１１２が次に述べようとしているかをさらに推論することができる。このようにして、カスタマイザコンポーネント１２６は、何がユーザ１１２にとって興味があることが推論されるかに基づいて、ＡＳＲシステム１１８をカスタマイズすることができる。

[0041] さらに、本明細書において説明される態様が、ＡＳＲシステム１１８に関して説明されたが、上記で説明されるようなレイアウト修正が、他のコンテキストにおいても使用され得ることを理解すべきである。例えば、携帯型個人情報端末が、ユーザからの口頭による発話の受信なしに、ユーザに対してデータを提供することができるように、例えば、コンピュータユーザの望みを予測するように構成されている携帯型個人情報端末が、開発された。視覚的コンテンツを修正して、ディスプレイの上で何をユーザが見ているかに関する曖昧性を低減させることができ、また携帯型個人情報端末は、修正されたレイアウトを使用してコンテンツを提供することができる。例えば、視覚的コンテンツ１１６は、２つの要素、すなわち、イタリアンレストランを表している第１の要素と、イタリアンフェスティバルを表している第２の要素とを含むことができる。レイアウトジェネレータコンポーネント１２２は、２つの要素が、互いにさらに遠くに移動されるようにさせることができ、このようにして、ユーザ１１２が第１の要素を見ていることが識別されるときに、携帯型個人情報端末は、レストランのためのメニューが提示されるようにさせることができ、またはユーザがレストランに予約することを望むかどうかをユーザ１１２に質問することができる。対照的に、ユーザ１１２が、第２の要素を見ていることが識別されるときに、携帯型個人情報端末は、フェスティバルの時間とロケーションとが、ディスプレイ１０８の上に提示されるようにさせることができる。

[0042] それゆえに、システム１００は、視覚的コンテンツの中の第１の視覚的要素に対応する少なくとも１つのワードと、第２の視覚的要素に対応する少なくとも１つのワードとの間で、ＡＳＲシステム１１８の観点から、可能性のある曖昧性に基づいて、視覚的コンテンツ１１６を修正するための手段をサポートすることが、識別される可能性がある。一例においては、可能性のある曖昧性は、第１の視覚的要素に対応する少なくとも１つのワードと、第２の視覚的要素に対応する少なくとも１つのワードとの間の発音の間の類似性に基づいたものとすることができる。別の例においては、可能性のある曖昧性は、それぞれのタイプの視覚的要素（例えば、両方の視覚的要素は、フォーム入力可能フィールドである）の間の類似性に基づいたものとすることができる。システム１００は、修正された視覚的コンテンツを表示するための手段をさらにサポートしており、ここでは、第１の視覚的要素と、第２の視覚的要素との間の距離が、変更した。

[0043] 次に図２を参照すると、レイアウトジェネレータコンポーネント１２２の機能ブロック図が、示されている。レイアウトジェネレータコンポーネント１２２は、正確さアナライザコンポーネント２０２を含んでいる。正確さアナライザコンポーネント２０２は、注視方向を（カメラ１１０によって出力される画像に基づいて）決定するときに、注視トラッカーコンポーネント１２０の精度（正確さ）を決定するように構成されている。例えば、正確さアナライザコンポーネント２０２は、ディスプレイ１０８のサイズ、カメラ１１０の分解能、プロセッサ１０４の処理能力、メモリ１０６のサイズ、ディスプレイ１０８からのユーザ１１２の距離などに基づいて、正確さを決定することができる。一例によれば、正確さアナライザコンポーネント２０２は、注視トラッカーコンポーネント１２０によって行われる注視方向の決定に対応するエラーの量を識別することができる。正確さアナライザコンポーネント２０２は、例えば、ユーザ１１２が（例えば、注視トラッカーコンポーネント１２０により）見ていることが決定されるディスプレイ１０８の上の位置の関数として、ディスプレイ１０８におけるピクセルの上で確率分布を出力することができる。

[0044] レイアウトジェネレータコンポーネント１２２はまた、視覚的コンテンツ１１６の中の要素を分析するコンテンツアナライザコンポーネント２０４を含んでいる。具体的には、上記で言及されるように、コンテンツアナライザコンポーネント２０４は、ＡＳＲシステム１１８（および／または携帯型個人情報端末）の観点から曖昧性を引き起こすことができる、視覚的コンテンツ１１６の中の要素を識別することができる。例えば、視覚的コンテンツ１１６は、互いに近くにある２つのフォーム入力可能フィールドを含むことができ、この２つのフォーム入力可能フィールドは、ＡＳＲシステム１１８の観点から曖昧性を引き起こす可能性がある。別の例においては、何らかのしきい値類似性を有するオブジェクトを含み、または言及する画像が、ＡＳＲシステム１１８の観点から曖昧性を引き起こす可能性がある。さらに別の例においては、音響学的に類似している２つのワード、またはワードの２つのシーケンスは、ＡＳＲシステム１１８の観点から曖昧性を引き起こす可能性がある。さらにまた別の例においては、局所的に類似している画像、ワード、またはワードのシーケンスは、ＡＳＲシステム１１８の観点から曖昧性を引き起こすことができる。

[0045] それに応じて、上記で説明される例によれば、コンテンツアナライザコンポーネント２０４は、ＡＳＲシステム１１８の観点から曖昧性を引き起こす可能性がある、視覚的コンテンツ１１６の中の要素を識別することができる。それゆえに、コンテンツアナライザコンポーネント２０４は、互いに比較的に近くにある視覚的コンテンツ１１６の中で類似した要素（例えば、フォーム入力可能フィールド）を識別することができる。さらに、コンテンツアナライザコンポーネント２０４は、視覚的コンテンツ１１６の中で言及されるワードまたはシーケンスの間の発音における類似性を示している値を計算することができる。例えば、ワードの発音は、値のベクトルによって表される可能性があり、また距離ベースのアルゴリズムを使用して、ベクトルの間の距離を計算することができる。同様に、コンテンツアナライザコンポーネント２０４は、互いに局所的に類似している、視覚的コンテンツ１１６の中の要素を識別することができる。さらに、コンテンツアナライザコンポーネント２０４は、ＡＳＲシステム１１８の観点から曖昧性を引き起こす可能性があるオブジェクトを言及し、または表現する視覚的コンテンツ１１６の中の画像を識別することができる。例えば、コンテンツアナライザコンポーネント２０４は、画像においてオブジェクト認識を実行するシステムを含み、またはそのシステムと通信していることができ、ここで、そのような認識は、画像のシグネチャ（例えば、カラーシグネチャ、勾配シグネチャなど）に基づいたものとすることができる。一例においては、視覚的コンテンツ１１６は、自動車を含み、または言及する第１の画像を有することができ、また星を含み、または言及する第２の画像を有することができる。コンテンツアナライザコンポーネント２０４は、２つの画像が、「ｃａｒ」と、「ｓｔａｒ」との発音の間の類似性に起因して、ＡＳＲシステム１１８の観点から曖昧性を引き起こす可能性があることを示す表示を出力することができる。

[0046] 上記で言及されるように、コンテンツアナライザコンポーネント２０４は、距離ベースのアルゴリズムを利用して、要素の対についての距離の値を計算することができ、ここで距離の値は、それらの要素の間の類似性を示している（またこのようにして、可能性のある曖昧性を示している）。そのような距離ベースのアルゴリズムは、要素（または要素の発音）が、ベクトルによって表される可能性がある場合に、よく適していることもあり、またベクトルの間の距離を使用して、ワードまたはワードシーケンスの間の（音響学的）類似性、画像の間の類似性などを決定することができる。２つの要素が、局所的に類似していることを決定することに関して、コンテンツアナライザコンポーネント２０４は、要素に（例えば、検索エンジンにより）割り当てられるトピックスにアクセスすることができる。２つの要素が、トピックを共有することが見出されるときに、コンテンツアナライザコンポーネント２０４は、２つの要素が局所的に類似していることを示している出力を生成することができる。コンテンツアナライザコンポーネント２０４はまた、視覚的コンテンツ１１６の中のメタデータを分析することもできる。例えば、画像と、ウェブページとは、多くの場合に、メタデータをその中に埋め込んでおり、またコンテンツアナライザコンポーネント２０４は、視覚的コンテンツ１１６の中の要素に割り当てられたメタデータを比較することができる。コンテンツアナライザコンポーネント２０４は、次いで、メタデータの比較に基づいて、要素の間の類似性を示している値を出力することができる。

[0047] レイアウトジェネレータコンポーネント１２２は、１）正確さアナライザコンポーネント２０２によって出力される正確さの情報と、２）コンテンツアナライザコンポーネント２０４によって出力される要素の対についての類似性の値（例えば、混同しやすさの値）とに基づいて、視覚的コンテンツ１１６を修正する修正器コンポーネント２０６をさらに備えている。例えば、正確さアナライザコンポーネント２０２が、視覚的注意トラッカーコンポーネント１２０が非常に正確であることを決定するとき、そのときにはコンテンツアナライザコンポーネント２０４が、視覚的コンテンツ１１６の中の２つの要素が、非常に類似している（またこのようにして、ＡＳＲシステム１１８の観点から曖昧性を引き起こす可能性がある）ことを決定するときでさえ、修正器コンポーネント２０６は、視覚的コンテンツ１１６の中の要素の位置を大幅に変更する必要はない。別の例においては、視覚的注意トラッカーコンポーネント１２０が、あまり正確ではなく、またコンテンツアナライザコンポーネント２０４が、ＡＳＲシステム１１８の観点から曖昧性を引き起こす２つの要素を識別するとき、そのときには、修正器コンポーネント２０６は、修正された視覚的コンテンツの中で、２つの要素が、互いにさらに遠くに配置されるように、視覚的コンテンツ１１６を修正することができる。

[0048] レイアウトジェネレータコンポーネント１２２はまた、要素がユーザ１１２によって見られているときに、何を視覚的注意トラッカーコンポーネント１２０が識別したかについてユーザ１１２に対してフィードバックを提供するフィードバックコンポーネント２０８を含むこともできる。例えば、視覚的注意トラッカーコンポーネント１２０が、ユーザ１１２が特定の要素を見ていることを確認するときに、フィードバックコンポーネント２０８は、ＡＳＲシステム１１８が、そのような要素に基づいた入力を期待するようにカスタマイズされていることをユーザ１１２に通知するフィードバックを生成することができる。出力は可聴式とすることができ、そこでは可聴式の出力は、視覚的注意トラッカーコンポーネント１２０が、ユーザ１１２が見ていることを確認した要素についてユーザ１１２に通知する。別の例においては、フィードバックコンポーネント２０８は、マウスポインタなどのグラフィカルアイコンが、要素の上に表示されるようにさせることができる。さらに別の例においては、要素は強調表示されることもある。強調表示の要素は、修正された視覚的コンテンツが、フォーム入力可能フィールドを含むときにとりわけ都合が良いこともある。フォーム入力可能フィールドの強調表示は、ＡＳＲシステム１１８がユーザ１１２から受信することを期待するコンテンツのタイプをユーザ１１２に対して示すことになる。例えば、フォーム入力可能フィールドが、エアラインの出発に対応する場合、フォーム入力可能フィールドは、ＡＳＲシステム１１８が、ロケーション（都市、空港コードなど）の名前を受信することを期待することをユーザ１１２に対して示して、強調表示される可能性がある。

[0049] 次に図３を参照すると、ＡＳＲシステム１１８とカスタマイザコンポーネント１２６とについての機能ブロック図が、示されている。ＡＳＲシステム１１８は、音響学的モデル３０２と、用語集モデル３０４と、言語モデル３０６とを含む。音響学的モデル３０２は、人間によって発せられる音響学的サウンド（音）をモデル化する。用語集モデル３０４は、音響学的なサウンドの、一般的には特定の言語におけるワードのシーケンスをモデル化する。言語モデル３０６は、特定の言語におけるワードのシーケンスをモデル化する。モデル３０２〜３０６のそれぞれは、重みがそれに割り当てられており、そこでは、重みは、何がモデル化されているか（例えば、場合によっては以前の観察に基づいて）を観察する確率を示している。いくつかの場合には、しかしながら、異なるコンテキストについての重みを変更することが望ましいこともある。

[0050] 視覚的注意トラッカーコンポーネント１２０は、決定された注視方向に基づいて、コンテキスト情報（例えば、何が、ディスプレイ１０８の上でユーザにとって興味があるか）を提供することができる。カスタマイザコンポーネント１２６は、ユーザ１１２が、現在見ており、または最近になって見たものについての表示を受信することができ、またそのような表示に基づいてＡＳＲシステム１１８をカスタマイズすることができる。例えば、カスタマイザコンポーネント１２６は、ユーザが現在見ており、または最近になって見たものに基づいて、モデル３０２〜３０６のうちの１つまたは複数についての重みをカスタマイズすることができる。例えば、ユーザ１１２が、出発の都市についてのフォーム入力可能フィールドを注視しているときに、言語モデル３０４および／または用語集モデル３０６は、ロケーション（例えば、空港および／または空港コードを有する都市）に対応するワードとワードシーケンスとに対してより高い重みを割り当てるようにカスタマイズされる可能性がある。別の例においては、視覚的注意トラッカーコンポーネント１２０が、ユーザ１１２が特定のレストランを記述している要素を見ていることを決定するときに、カスタマイザコンポーネント１２６は、このコンテキストを受信し、またＡＳＲシステム１１８のモデル３０２〜３０６のうちの１つまたは複数をアップデートして、ＡＳＲシステム１１８が、ユーザ１１２の口頭による発話において食料品をより高い可能性で認識するようにさせることができる。

[0051] さらに、上述されるように、カスタマイザコンポーネント１２６は、モデル３０２〜３０６に割り当てられた重みを修正するのではなく、またはモデル３０２〜３０６に割り当てられた重みを修正することに加えて、何がユーザ１１２によって見られているかについて視覚的注意トラッカーコンポーネント１２０から受信される表示に基づいて、ＡＳＲシステム１１８の出力を選択することができる。例えば、ＡＳＲシステム１１８は、可能性のあるワードおよび／またはワードシーケンスの上の確率分布を出力することができる。ワードまたはワードシーケンスが最も可能性の高いワードまたはワードシーケンスでないときでさえ、カスタマイザコンポーネント１２６は、ワードまたはワードシーケンスが、注視トラッカーコンポーネント１２０から受信される表示に基づいて、選択されるようにさせることができる。

[0052] 次に図４を参照すると、レイアウトジェネレータコンポーネント１２２によって実行され得る視覚的コンテンツの例示の修正が、示されている。この例においては、視覚的コンテンツ１１６は、３つの要素、すなわち、１）ワードシーケンス「ＡｍｂｅｒＩｎｄｉａ−ＭｏｕｎｔａｉｎＶｉｅｗ」と、２）ワードシーケンス「ＡｍｂｅｒＭｏｏｎＩｎｄｉａｎＲｅｓｔａｕｒａｎｔ」と、３）ワード「Ｓａｋｏｏｎ」とを含む。コンテンツアナライザコンポーネント２０４は、要素１と２とは、互いに類似しているが、要素３は、要素１または要素２のいずれにも類似していないことを決定することができる。それに応じて、レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を修正して、修正された視覚的コンテンツ４００を生成することができ、この修正された視覚的コンテンツ４００は、同じ３つの要素を含んでいるが、第２のレイアウトで配置される。具体的には、要素１と２とが、互いに隣接している代わりに、要素３が、要素１と、要素２との間に位置づけられる。この修正された視覚的コンテンツ４００は、視覚的注意トラッカーコンポーネント１２０が、ユーザ１１２が要素１を見ているときと、ユーザ１１２が要素２を見ているときとの間の曖昧性を除去する助けを行う。それに応じて、ユーザ１１２が、要素１を見ているときに、例えば、「ｍａｋｅｒｅｓｅｒｖａｔｉｏｎｆｏｒＡｍｂｅｒＩｎｄｉａ」を述べるときに、ＡＳＲシステム１１８は、ユーザ１１２の意図をよりよく確認するようにカスタマイズされる可能性がある。

[0053] 次に図５を参照すると、レイアウトジェネレータコンポーネント１２２によって実行され得る視覚的コンテンツの別の例示の修正が、示されている。この例においては、視覚的コンテンツ１１６は、２つの要素を、すなわち、出発都市を受信するように構成されている第１のフォーム入力可能フィールド５０２と、到着都市を受信するように構成されている第２のフォーム入力可能フィールド５０４とを含む。視覚的コンテンツ１１６においては、第１の要素５０２は、第２の要素５０４のすぐ近くにある。それに応じて、ユーザが、第１の要素５０２または第２の要素５０４のいずれかを見るときに、注視トラッカーコンポーネント１２０は、要素５０２または５０４のどちらをユーザ１１２が実際に見ているかを適切な信頼度で確認することができない可能性がある。

[0054] このようにして、レイアウトジェネレータコンポーネント１２２は、視覚的コンテンツ１１６を修正して、修正された視覚的レイアウト５０６を生成することができ、ここでは第１の要素５０２と、第２の要素５０４とは、互いに遠ざけられる。すなわち、視覚的コンテンツ１１６においては、第１の要素５０２は、第２の要素５０４から第１の距離にあるが、修正された視覚的コンテンツ５０６においては、第１の要素５０２は、第２の要素５０４から第２の距離にあり、第２の距離は、第１の距離よりも長い。この例においては、ユーザ１１２は、第１の要素５０２を見ることができ、また注視トラッカーコンポーネント１２０は、ユーザ１１２が、（第２の要素５０４ではなくて）第１の要素５０２を見ていることを比較的高い信頼度で確認することができる。ユーザ１１２が、出発都市の名前または空港コードを発話するときに、ＡＳＲシステム１１８は、ユーザ１１２によって発話される出発の都市または空港を認識することができ、また第１の要素５０２は、（第２の要素５０４ではなくて）ユーザ１１２によって発話される都市または空港を入力される可能性がある。

[0055] 次に図６を参照すると、レイアウトジェネレータコンポーネント１２２によって実行され得る視覚的コンテンツに対する別の例示の修正が、示されている。この例においては、レイアウトジェネレータコンポーネント１２２は、修正された視覚的コンテンツ５０６を受信し、この修正された視覚的コンテンツ５０６は、第１の要素５０２と、第２の要素５０４とを含む。レイアウトジェネレータコンポーネント１２２はまた、注視トラッカーコンポーネント１２２によって識別されるような注視入力を受信することもできる。注視入力を受信することに応じて、レイアウトジェネレータコンポーネント１２２は、要素５０２または５０４のどちらをユーザ１１２が見ているかを注視トラッカーコンポーネント１２０が推定したかについてユーザ１１２に通知する出力を提供することができる。この例においては、ユーザ１１２が、第１の要素５０２を見ていることが、推定され、またそれに応じて、第１の要素５０２は、強調表示される。そのときに、ユーザ１１２は、ユーザが口頭による発話を示すときに、そのような口頭による発話が、（要素５０４ではなくて）要素５０２へと入力されることになることを期待することができる。

[0056] 図７〜８は、ＡＳＲシステムをカスタマイズする目的のために、視覚的コンテンツの修正に関連した例示の方法を示すものである。それらの方法は、シーケンスにおいて実行される一連の動作であるように示され、また説明されているが、それらの方法は、シーケンスの順序によって限定されないことが、理解され、また認識されるべきである。例えば、いくつかの動作は、本明細書において説明される順序とは異なった順序で行われる可能性がある。さらに、ある動作は、別の動作と同時に行われる可能性がある。さらに、いくつかの例では、必ずしもすべての動作が、本明細書において説明される方法を実装するために必要とされるとは限らない可能性がある。

[0057] さらに、本明細書において説明される動作は、１つまたは複数のプロセッサによって実施され、かつ／または１つまたは複数のコンピュータ読取り可能媒体の上に記憶され得るコンピュータ実行可能命令とすることができる。コンピュータ実行可能命令は、ルーチン、サブルーチン、プログラム、および／または実行のスレッドなどを含むことができる。さらにまた、方法についての動作の結果は、コンピュータ読取り可能媒体に記憶され、かつ／またはディスプレイデバイスの上に表示されるなどの可能性がある。

[0058] 次に、図７を参照すると、視覚的コンテンツを修正するための例示の方法７００が、示されている。方法７００は、７０２において開始し、また７０４において、コンピューティングデバイスがＡＳＲシステムを備えていることを示す表示が、受信される。７０６において、視覚的注意がディスプレイに対して監視されることを示す表示が、受信され、また７０８において、ディスプレイの上での提示のための視覚的コンテンツが、受信される。

[0059] ７１０において、視覚的コンテンツが、ディスプレイの上で提示されるようにさせることに先立って、視覚的コンテンツは、修正されて、修正された視覚的コンテンツを生成する。この修正は、コンピューティングデバイスがＡＳＲシステムを備えていることを示す表示と、視覚的注意がディスプレイに対して監視されることを示す表示とに基づいている。上記で示されるように、修正は、視覚的コンテンツのレイアウトを変更して、第２のレイアウトを生成することを含むことができる。別の例においては、そのような修正は、視覚的コンテンツのためのデフォルトズームを変更することを含むことができる。７１２において、修正された視覚的コンテンツは、ディスプレイの上に提示されるようにさせられる。その後に、例えば、ディスプレイの視聴者の目の注視が、推定される可能性があり、また視聴者によって見られているように識別されるものに基づいて、ＡＳＲシステムは、カスタマイズされる可能性がある。本方法７００は、７１４において完了する。

[0060] 次に図８を参照すると、視覚的コンテンツを修正するための別の例示の方法８００が、示されている。方法８００は、８０２において開始し、また８０４において、視覚的注意がディスプレイに対して監視されることを示す表示が、受信される。８０６において、音声入力がディスプレイの上のコンテンツに関して受信可能であることを示す表示が、受信される。８０８において、ページが、ディスプレイの上の提示のために受信され、そこでは、ページは、互いに第１の距離にある第１の視覚的要素と、第２の視覚的要素とを含む。例えば、ページは、ウェブページとすることができるが、本方法８００は、そのように限定されてはいない。

[0061] ８１０においては、ページの上の第１の視覚的要素と、第２の視覚的要素との間で第１の距離を示している第１の値が、計算される。以上で示されるように、第１の視覚的要素と、第２の視覚的要素とは、それぞれ、第１のワードまたはワードシーケンスと、第２のワードまたはワードシーケンスとすることができる。別の例においては、第１の視覚的要素と、第２の視覚的要素とは、それぞれ、第１のフォーム入力可能フィールドと、第２のフォーム入力可能フィールドとすることができる。さらにまた、第１の視覚的要素と、第２の視覚的要素とは、それぞれ、第１の画像と、第２の画像とすることができる。ある要素はまた、これらのタイプの要素（または他の要素）の組合せとすることもできる。

[0062] ８１２において、第２の値が計算され、そこでは、第２の値は、第１の視覚的要素と、第２の視覚的要素との間の音響学的類似性を示している。８１４において、ページは、修正されて、修正されたページを生成し、そこでは、修正されたページは、互いに第２の距離にある第１の視覚的要素と、第２の視覚的要素とを含んでいる。さらに、８１４におけるページについて修正することは、それぞれ、８１０と８１２とにおいて計算される第１の値と、第２の値とに基づいている。８１６において、修正されたページは、ディスプレイの上に提示されるようにさせられる。本方法８００は、８１８において完了する。

[0063] 様々な例が、次に説明される。

[0064] 実施例１
コンピューティングデバイスによって実行される方法であって、ディスプレイの上に提示するための視覚的コンテンツを受信するステップと、視覚的コンテンツが、ディスプレイの上に提示されるようにさせるステップに先立って、コンピューティングデバイスが自動音声認識（ASR）をサポートすること、およびコンピューティングデバイスが視覚的注意の監視をサポートすることに基づいて、視覚的コンテンツが、新しい視覚的コンテンツを生成するように修正するステップと、視覚的コンテンツを修正するステップに応じて、新しい視覚的コンテンツが、ディスプレイの上に提示されるようにさせるステップと、を含む方法。

[0065] 実施例２
視覚的コンテンツは、第１のレイアウトを有しており、またそこでは新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第１のレイアウトを第２のレイアウトに変換するステップを含む、実施例１に記載の方法。

[0066] 実施例３
第１のレイアウトは、その間に第１の距離を有する第１の要素と、第２の要素とを含み、またそこでは新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第２のレイアウトにおいて、第２の距離が、第２の要素から第１の要素を分離するように、第１の要素と、第２の要素との間の距離を変更するステップを含む、実施例１に記載の方法。

[0067] 実施例４
第１の要素は、第１のワードまたはワードシーケンスを含んでおり、第２の要素は、第２のワードまたはワードシーケンスを含んでおり、本方法は、第１のワードまたはワードシーケンスと、第２のワードまたはワードシーケンスとの間の音響学的類似性を示している値を計算するステップと、第１のワードまたはワードシーケンスと、第２のワードまたはワードシーケンスとの間の音響学的類似性を示している値に基づいて、修正された視覚的コンテンツを生成するように視覚的コンテンツを修正するステップとをさらに含む、実施例１に記載の方法。

[0068] 実施例５
視覚的コンテンツは、第１のズームレベルを有しており、またそこでは新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第１のズームレベルを第２のズームレベルに変更するステップを含む、実施例１〜４のいずれかに記載の方法。

[0069] 実施例６
ディスプレイの視聴者を含む画像を受信するステップと、画像に基づいて、見られているディスプレイの上に提示される新しい視覚的コンテンツの中の要素を識別するステップと、要素についての識別するステップに基づいて、ＡＳＲシステムをカスタマイズするステップとをさらに含む、実施例１〜５のいずれかに記載の方法。

[0070] 実施例７
マイクロフォンから口頭による発話を表す信号を受信するステップと、ＡＳＲシステムをカスタマイズするステップに応じて、口頭による発話を認識するステップとをさらに含む、実施例１〜６のいずれかに記載の方法。

[0071] 実施例８
ディスプレイの視聴者を含む信号を受信するステップと、信号に基づいて、新しい視覚的コンテンツの中の要素が見られていることを推定するステップと、要素が見られていることを推定するステップに応じて、要素が見られているように推定されたことを示す出力を生成するステップとをさらに含む、実施例１に記載の方法。

[0072] 実施例９
出力を生成するステップは、修正された視覚的コンテンツの中の要素に視覚的インジケータを割り当てるステップを含む、実施例８に記載の方法。

[0073] 実施例１０
そこでは要素は、フォーム入力可能フィールドである、実施例８〜９のいずれかに記載の方法。

[0074] 実施例１１
視覚的コンテンツは、第１のフォーム入力可能フィールドと、第２のフォーム入力可能フィールドとを含み、また新しい視覚的コンテンツを生成するように視覚的コンテンツを修正するステップは、第１のフォーム入力可能フィールドが、第２のフォーム入力可能フィールドからさらに遠くに位置づけられるように、第１のフォーム入力可能フィールドまたは第２のフォーム入力可能フィールドのうちの少なくとも一方を位置づけ直すステップを含む、実施例１〜１０のいずれかに記載の方法。

[0075] 実施例１２
プロセッサと、プロセッサによって実行される複数のコンポーネントを備えているメモリとを備えているコンピューティングデバイスであって、複数のコンポーネントは、ディスプレイの上で提示されるべきである視覚的コンテンツを受信するレイアウトジェネレータコンポーネントであって、視覚的コンテンツは、第１のレイアウトを有しており、レイアウトジェネレータコンポーネントは、視覚的コンテンツがディスプレイの上で提示されることに先立って、視覚的コンテンツが、修正されるときに、第２のレイアウトを有するように、視覚的コンテンツを修正し、レイアウトジェネレータコンポーネントは、ディスプレイに対して追跡されている視覚的注意に基づいて、視覚的コンテンツを修正し、そこでは第２のレイアウトは第１のレイアウトとは異なる、レイアウトジェネレータコンポーネントと、レイアウトジェネレータコンポーネントと通信しているレンダリングコンポーネントであって、レンダリングコンポーネントは、ディスプレイの上で提示するために第２のレイアウトを用いて視覚的コンテンツをレンダリングする、レンダリングコンポーネントとを備えている、コンピューティングデバイス。

[0076] 実施例１３
複数のコンポーネントは、カメラから画像を受信する注視トラッカーコンポーネントをさらに備えており、注視トラッカーコンポーネントは、画像に基づいて、注視方向を識別し、注視トラッカーコンポーネントは、注視方向に基づいて、ディスプレイの上で見られている要素を推定し、そこではレイアウトジェネレータコンポーネントは、グラフィカルデータが、要素が見られているように推定されることを示すディスプレイの上に提示されるようにさせる、実施例１２に記載のコンピューティングデバイス。

[0077] 実施例１４
要素は、フォーム入力可能フィールドであり、またグラフィカルデータは、フォーム入力可能フィールドの強調表示である、実施例１３に記載のコンピューティングデバイス。

[0078] 実施例１５
複数のコンポーネントは、カメラから画像を受信する注視トラッカーコンポーネントをさらに備えており、注視トラッカーコンポーネントは、画像に基づいて、注視方向を識別し、注視トラッカーコンポーネントは、注視方向に基づいて、ディスプレイの上で見られている要素を推定し、メモリは、プロセッサによって実行される自動音声認識（ASR）システムをさらに備えており、ＡＳＲシステムは、オーディオ信号を受信し、またオーディオ信号の形で口頭による発話を認識するように構成されており、音声認識システムは、注視トラッカーコンポーネントによって見られているように推定される要素に基づいて、口頭による発話を認識する、実施例１２〜１４のいずれかに記載のコンピューティングデバイス。

[0079] 実施例１６
複数のコンポーネントは、注視トラッカーコンポーネントによって見られているように推定される要素に基づいて、ＡＳＲシステムをカスタマイズするカスタマイザコンポーネントをさらに備えている、実施例１５に記載のコンピューティングデバイス。

[0080] 実施例１７
そこでは第１のレイアウトは、互いに対する第１の位置にある、第１の要素と、第２の要素とを含み、またそこでは第２のレイアウトは、互いに対する第２の位置にある第１の要素と、第２の要素とを含む、実施例１２〜１６のいずれかに記載のコンピューティングデバイス。

[0081] 実施例１８
そこではレイアウトジェネレータコンポーネントは、第１の要素と、第２の要素との間の音響学的類似性を示している値に基づいて、視覚的コンテンツを修正する、実施例１７に記載のコンピューティングデバイス。

[0082] 実施例１９
視覚的コンテンツは、ディスプレイの上に表示されるべきであるウェブページの中に含まれる、実施例１２〜１８のいずれかに記載のコンピューティングデバイス。

[0083] 実施例２０
プロセッサによって実行されるときに、ディスプレイの上に提示するための、互いに第１の距離にある第１の視覚的要素と、第２の視覚的要素とを含むページを受信するステップと、互いに第２の距離にある第１の視覚的要素と、第２の視覚的要素とを含む修正されたページを生成するようにページを修正するステップであって、ページの修正するステップは、第１の視覚的要素に対応する少なくとも１つのワードと、第２の視覚的要素に対応する少なくとも１つのワードとの間の発音の類似性に基づいている、修正するステップと、修正されたページが、ディスプレイの上に表示されるようにさせるステップと、を含む動作を、プロセッサが、実行するようにさせる命令を含むコンピュータ読取り可能ストレージ媒体。

[0084] 実施例２１
コンピューティングシステムが、本明細書において説明され、そこではコンピューティングシステムは、視覚的注意トラッキングを実行するための手段と、自動音声認識を実行するための手段と、視覚的注意トラッキングを実行するための手段と自動音声認識を実行するための手段とに基づいてページのグラフィカルレイアウトを修正するための手段と、を備えている。

[0085] 次に図９を参照すると、本明細書において開示されるシステムおよび方法に従って、使用され得る例示のコンピューティングデバイス９００の高レベル説明図が、示されている。例えば、コンピューティングデバイス９００は、視覚的注意トラッキングをサポートするシステムの中で使用されることもある。別の例として、コンピューティングデバイス９００は、ＡＳＲをサポートするシステムの中で使用される可能性がある。コンピューティングデバイス９００は、メモリ９０４に記憶される命令を実行する少なくとも１つのプロセッサ９０２を含んでいる。命令は、例えば、上記で考察される１つまたは複数のコンポーネントによって実行されるように説明される機能を実装するための命令、あるいは上記で説明される１つまたは複数の方法を実装するための命令とすることができる。プロセッサ９０２は、システムバス９０６を経由してメモリ９０４にアクセスすることができる。実行可能な命令を記憶することに加えて、メモリ９０４はまた、視覚的コンテンツ、口頭による発話などを記憶することもできる。

[0086] コンピューティングデバイス９００は、システムバス９０６を経由してプロセッサ９０２によってアクセス可能であるデータストア９０８をさらに含んでいる。データストア９０８は、実行可能な命令、視覚的コンテンツ、口頭による発話などを含むことができる。コンピューティングデバイス９００はまた、外部デバイスが、コンピューティングデバイス９００と通信することを可能にする入力インターフェース９１０を含んでいる。例えば、入力インターフェース９１０を使用して、外部コンピュータデバイスから、ユーザなどから命令を受信することができる。コンピューティングデバイス９００はまた、コンピューティングデバイス９００を１つまたは複数の外部デバイスとインターフェースさせる出力インターフェース９１２を含んでいる。例えば、コンピューティングデバイス９００は、出力インターフェース９１２を経由してテキスト、画像などを表示することができる。

[0087] 入力インターフェース９１０および出力インターフェース９１２を経由してコンピューティングデバイス９００と通信する外部デバイスは、ユーザが対話することができる実質的に任意のタイプのユーザインターフェースを提供する環境の中に含められ得ることが、企図される。ユーザインターフェースタイプの例は、グラフィカルユーザインターフェースと、自然のユーザインターフェースなどとを含む。例えば、グラフィカルユーザインターフェースは、キーボード、マウス、リモートコントロールなど、ユーザが使用する入力デバイス（単数または複数）から入力を受け入れ、またディスプレイなどの出力デバイスの上に出力を提供することができる。さらに、自然のユーザインターフェースは、ユーザが、キーボード、マウス、リモートコントロールなどの入力デバイスによって課される制約条件から自由なやり方で、コンピューティングデバイス９００と対話することを可能にすることができる。もっと正確に言えば、自然のユーザインターフェースは、音声認識、タッチ認識およびスタイラス認識、スクリーン上と、スクリーンに対する隣接との両方のジェスチャ認識、エアジェスチャ、頭部および目の追跡、声および音声、ビジョン、タッチ、ジェスチャ、マシンインテリジェンスなどを利用することができる。

[0088] さらに、単一のシステムとして示されるが、コンピューティングデバイス９００は、分散型システムとすることもできることを理解すべきである。このようにして、例えば、いくつかのデバイスは、ネットワーク接続を経由して通信することができ、またコンピューティングデバイス９００によって実行されるように説明されるタスクを一括して実行することができる。

[0089] 本明細書において説明される様々な機能は、ハードウェア、ソフトウェア、またはその任意の組合せの形で実施される可能性がある。ソフトウェアの形で実施される場合、それらの機能は、コンピュータ読取り可能媒体の上に１つまたは複数の命令またはコードとして、記憶され、またはコンピュータ読取り可能媒体の上で１つまたは複数の命令またはコードとして、送信される可能性がある。コンピュータ読取り可能媒体は、コンピュータ読取り可能ストレージ媒体を含んでいる。コンピュータ読取り可能ストレージ媒体は、コンピュータによってアクセスされ得る任意の使用可能なストレージ媒体とすることができる。例として、また限定するものではないが、そのようなコンピュータ読取り可能ストレージ媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、あるいは命令もしくはデータ構造の形態で望ましいプログラムコードを搬送し、または記憶するために使用される可能性があり、またコンピュータによってアクセスされる可能性がある任意の他の媒体を備えることができる。ディスク（disk）およびディスク（disc）は、本明細書において使用されるように、コンパクトディスク（CD: compact disc）と、レーザディスク（laser disc）と、光ディスク（optical disc）と、デジタル多用途ディスク（DVD: digital versatile disc）と、フロッピーディスク（floppy disk）と、ブルーレイディスク（BD: Blue-ray disc）とを含んでおり、ここでディスク（disk）は、通常、磁気的にデータを再生し、またディスク（disc）は、通常、レーザを用いて光学的にデータを再生する。さらに、伝搬された信号は、コンピュータ読取り可能ストレージ媒体の範囲内に含まれてはいない。コンピュータ読取り可能媒体はまた、１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含んでいる。接続は、例えば、通信媒体とすることができる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線（DSL: digital subscriber line）、または赤外線、無線、マイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、そのときには同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、マイクロ波などのワイヤレス技術は、通信媒体の定義の中に含められる。上記の組合せもまた、コンピュータ読取り可能媒体の範囲内に含められるべきである。

[0090] 代わりに、または追加して、本明細書において説明される機能は、１つまたは複数のハードウェアロジックコンポーネントにより、少なくとも部分的に実行される可能性がある。例えば、また限定することなく、使用され得る例証的なタイプのロジックコンポーネントは、フィールドプログラマブルゲートアレイ（FPGA: Field-programmable Gate Arrays）、プログラム特定集積回路（ASIC: Program-specific Integrated Circuit）、プログラム特定標準製品（ASSP: Program-specific Standard Product）、システムオンチップシステム（SOC: System-on-a-chip system）、複合プログラマブルロジックデバイス（CPLD: Complex Programmable Logic Device）などを含む。

[0091] 上記で説明されたものは、１つまたは複数の実施形態の例を含んでいる。もちろん、上述された態様を説明する目的のために、上記のデバイスまたは方法のあらゆる考えることができる修正形態および変更形態を説明することは、可能ではないが、当業者なら、様々な態様の多数のさらなる修正形態および置換形態が可能であることを認識することができる。それに応じて、説明された態様は、添付の特許請求の範囲の精神および範囲内に含まれる、すべてのそのような変更形態と、修正形態と、変形形態とを包含することを意図している。さらに、用語「含む」が、詳細な説明または特許請求の範囲のいずれかにおいて使用される程度まで、そのような用語は、用語「備えている／含んでいる」が、請求項における移行ワードとして、使用されるときに解釈されるので、用語「備えている／含んでいる」と同様なやり方で包含的であることを意図している。

Claims

コンピューティングデバイスによって実行される方法であって、
ディスプレイの上に提示するために視覚的コンテンツを受信するステップであって、前記視覚的コンテンツは、第１のレイアウトを有しており、前記第１のレイアウトは、その間に第１の距離を有する要素と、第２の要素とを含んでいる、ステップと、
前記視覚的コンテンツが、前記ディスプレイの上に提示されるようにさせるステップに先立って、
前記コンピューティングデバイスが自動音声認識（ASR）をサポートすること、
前記コンピューティングデバイスが視覚的注意の監視をサポートすること、および
前記要素と前記第２の要素との間の音響学的類似性を示す値を計算すること
に基づいて、前記第１のレイアウトとは異なる第２のレイアウトを有する新しい視覚的コンテンツを生成するように前記視覚的コンテンツを修正するステップであって、前記第２のレイアウトは、その間に第２の距離を有する前記要素と、前記第２の要素とを含んでいる、ステップと、
前記視覚的コンテンツを修正するステップに応じて、前記新しい視覚的コンテンツが、前記ディスプレイの上に提示されるようにさせるステップと
を含む方法。
視聴者が前記新しい視覚的コンテンツの要素を見ていることを推定するステップと、
前記視聴者が前記新しい視覚的コンテンツの要素を見ていることを推定することに応じて、前記新しい視覚的コンテンツの前記要素に視覚的インジケータを割り当てるステップと
をさらに含む、請求項１に記載の方法。
前記新しい視覚的コンテンツを生成するように前記視覚的コンテンツを修正するステップは、前記第２のレイアウトにおいて、前記第２の距離が、前記第２の要素から前記要素を分離するように、前記要素と、前記第２の要素との間の距離を変更するステップを含む、請求項１に記載の方法。
前記要素は、第１のワードまたはワードシーケンスを含んでおり、前記第２の要素は、第２のワードまたはワードシーケンスを含んでおり、
前記要素と前記第２の要素との間の音響学的類似性を示す値を計算することは、前記第１のワードまたはワードシーケンスと、前記第２のワードまたはワードシーケンスとの間の音響学的類似性を示す値を計算することを含む、請求項１に記載の方法。
前記視聴者によって見られていると推定される要素に基づいて、ＡＳＲシステムをカスタマイズするステップ
をさらに含む、請求項２に記載の方法。
前記新しい視覚的コンテンツの前記要素に前記視覚的インジケータを割り当てることに続いて、前記視聴者が前記新しい視覚的コンテンツの第２の要素を見ていることを推定するステップと、
前記視聴者が前記第２の要素を見ていることを推定することに応じて、前記第２の要素に前記視覚的インジケータを割り当てて、前記要素から前記視覚的インジケータを取り除くステップと
をさらに含む、請求項２に記載の方法。
前記視覚的インジケータは強調表示である、請求項６に記載の方法。
前記視覚的コンテンツは、第１のフォーム入力可能フィールドと、第２のフォーム入力可能フィールドとを含んでおり、また前記新しい視覚的コンテンツを生成するように前記視覚的コンテンツを修正するステップは、前記第１のフォーム入力可能フィールドが、前記第２のフォーム入力可能フィールドからさらに遠くに位置づけられるように、前記第１のフォーム入力可能フィールドまたは前記第２のフォーム入力可能フィールドのうちの少なくとも一方を位置づけ直すステップを含む、請求項１に記載の方法。
少なくとも１つのプロセッサと、
命令を記憶するメモリとを備えているコンピューティングデバイスであって、
前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくともも１つのプロセッサに、
ディスプレイの上に提示されるべき視覚的コンテンツを受信するステップであって、視覚的コンテンツは、第１のレイアウトを有しており、前記第１のレイアウトは、互いに対して第１の位置にある第１の要素と第２の要素とを含む、ステップと
前記視覚的コンテンツが前記ディスプレイの上で提示されることに先立って、前記ディスプレイに対して追跡されている視覚的注意および前記第１の要素と前記第２の要素との間の音響学的類似性を示す値に基づいて、前記視覚的コンテンツが修正されるときに、前記第１のレイアウトとは異なる第２のレイアウトを有するように前記視覚的コンテンツを修正するステップであって、前記第２のレイアウトは、互いに対して第２の位置にある第１の要素と第２の要素とを含む、ステップと、
前記ディスプレイの上で提示するために前記第２のレイアウトを用いて前記視覚的コンテンツをレンダリングするステップと
を含む動作を実行させる、コンピューティングデバイス。
前記動作は、
カメラから画像を受信するステップであって、前記画像は前記ディスプレイを見ているユーザを取り込む、ステップと、
前記画像に基づいて、前記ユーザの注視方向を識別するステップと、
前記注視方向に基づいて、前記ユーザによって見られている第１の要素を推定するステップと、
前記第１の要素が前記ユーザによって見られているように推定されることを示すグラフィカルデータが、前記ディスプレイの上に提示されるようにさせるステップと
をさらに含む、請求項９に記載のコンピューティングデバイス。
前記第１の要素は、フォーム入力可能フィールドであり、前記グラフィカルデータは、前記フォーム入力可能フィールドの強調表示である、請求項１０に記載のコンピューティングデバイス。
前記動作は、
カメラから画像を受信するステップであって、前記画像は前記ディスプレイを見ているユーザを取り込む、ステップと、
前記画像に基づいて、前記ユーザの注視方向を識別するステップと、
前記注視方向に基づいて、前記ユーザによって見られている第１の要素を推定するステップと、
前記ユーザによって示される口頭による発話を含むオーディオ信号を受信するステップと、
自動音声認識（ASR）システムが、前記ユーザによって見られているように推定される前記第１の要素に基づいて、前記オーディオ信号の前記口頭による発話を認識するステップと
をさらに含む、請求項９に記載のコンピューティングデバイス。
前記動作は、前記ユーザによって見られているように推定される前記第１の要素に基づいて、前記ＡＳＲシステムをカスタマイズするステップをさらに含む、請求項１２に記載のコンピューティングデバイス。
前記視覚的コンテンツは、前記ディスプレイの上に表示されることになるウェブページの中に含まれる、請求項９に記載のコンピューティングデバイス。