JP2017208086A

JP2017208086A - 自然言語ウェブブラウザ

Info

Publication number: JP2017208086A
Application number: JP2017090184A
Authority: JP
Inventors: ジョン・ティー・マクスウェル; T Maxwell John; カイル・ディー・デント; D Dent Kyle; ダニエル・ジー・ボブロウ; G Bobrow Daniel
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2016-05-19
Filing date: 2017-04-28
Publication date: 2017-11-24
Also published as: EP3246828A1; US20170337177A1; US11599709B2; JP7485485B2; JP2022116343A; US20230169259A1

Abstract

【課題】既存のウェブブラウザ又は新たに作成されたウェブブラウザに対して自然言語インターフェースを提供する方法及びシステムを提供する。
【解決手段】自然言語インターフェースは、入力及び出力として音声（又はテキスト）を使用してウェブブラウザと対話する。自然言語ウェブブラウザは、ユーザ質問、ステートメント及び／又はコマンドを動作に変換し、結果として得られたＨＴＭＬを読み出し、ユーザに提供するようにＨＴＭＬを自然言語記述へと変換する。
【選択図】図３

Description

オンライン検索は、現代の世界においては実質的にユビキタスになってきている。特に、インターネットを介したワールド・ワイド・ウェブ（ｗｗｗ）の検索は、ユーザが世界中から及び世界を超えて可算ソースからデータを取得するのを可能とする。より容易にこのデータにアクセスするために、ウェブブラウザは、インターネットの電子ネットワークとインテリジェントコンピューティングデバイスを使用するユーザとの間のインターフェースを提供するように開発されてきている。ウェブブラウザ又はブラウザは、ワールド・ワイド・ウェブへのアクセスを提供するためにインテリジェントコンピューティングデバイスにインストールされたアプリケーションソフトウェアである。様々な既存のウェブブラウザは、画像、動画などの必要なファイルとともに電子サーバからウェブページの形式でデータを取得する。最も一般的に既存のウェブブラウザは、これらのファイルを解釈した後に電子ディスプレイ上に視覚的な方法でファイルを表示するためのソフトウェアコードを含む。ファイルにアクセスするために、ユーザは、要求されている特定のウェブページにアクセスするために特定のウェブブラウザのアドレスバー又は入力領域にウェブページのＵＲＬ（ユニフォーム・リソース・ロケータ）を入力することができる。

モノのインターネット及びウェアラブルの一部であるスマートデバイスなどの電子ディスプレイを含まないものを含むますます多くのデバイスがインターネットに相互接続されるのにともない、また、自然言語処理及び自動音声認識がより確実になるのにともない、ウェブブラウジング動作のために自然言語処理を使用することが望ましい。これはまた、自動車、キッチン及びワークショップなどのハンズフリー環境についても価値がある。

自然言語ウェブブラウジングシステム及び方法は、自然言語入力を受け付けるように構成されたウェブブラウザを含む。ウェブブラウザは、ウェブページを有する複数のウェブサイトを含むコンピュータネットワークをブラウズし、質問、ステートメント及びコマンドのうちの少なくとも１つへと自然言語入力を構文解析するようにさらに構成されている。そして、ウェブブラウザは、判定されて構文解析された自然言語入力にしたがって動作し、自然言語を使用してウェブブラウジングの結果を返す。ここで、ウェブブラウジングは、少なくともディジタル処理装置の使用によって達成される。

必要に応じて、ウェブブラウザは、自然言語入力が曖昧であるかどうかを判定することができ、自然言語入力が曖昧であると判定された場合、自然言語入力が何を意味するかを問い合わせるクエリを生成する。その後、この任意の動作のもとに、ウェブブラウザは、以前に受け付けた自然言語入力と同じ又は概念的に類似した自然言語入力を受信し、自然言語入力が曖昧であると判定された場合、同じ又は概念的に類似した自然言語入力を、同じ又は概念的に類似した自然言語入力の質問、ステートメント及び／又はコマンドのうちの少なくとも１つへと構文解析する。

本方法は、自然言語のウェブブラウジング中に発生したウェブブラウザの動作に関する情報を提供することをさらに含む。

本方法は、ウェブブラウジングの現在のフォーカスが変化したときに情報を提供することをさらに含む。

本方法は、ワールド・ワイド・ウェブ上のウェブサイトへのアクセスを制限する方法なしで、判定されて構文解析された自然言語入力及び同じ又は概念的に類似した自然言語入力のうちの少なくとも１つにしたがってウェブブラウザを動作させることをさらに含む。

本方法は、動作が予め設定された数のウェブサイトに対して本方法によって制限されていないワールド・ワイド・ウェブ上の特定のウェブページに直接ナビゲートすることをさらに含む。

本方法は、構文解析が、現在のウェブブラウジングセッションにおいて特定された現在のウェブページのウェブ要素を列挙することと、列挙された各ウェブ要素の潜在的参照を生成することと、自然言語入力のセグメントと生成された潜在的参照との間の最良一致を見つけることと、自然言語入力のセグメントと、既知の質問、ステートメント及びコマンド種類との間の最良一致を見つけることと、見つけるステップの複数の最良一致段階が可能な場合に曖昧性を作成することとを含むことをさらに含む。

本方法は、列挙されたウェブ要素が、ヘッダセクション、第１のセクション及び第２のセクションのうちの少なくとも１つを含むことをさらに含む。

本方法は、自然言語入力が、ナビゲーションコマンド、読み出しコマンド、要約コマンド、記述コマンド、クリックコマンド、入力コマンド、ファインドコマンド及び検索コマンドのうちの１つを含むことをさらに含む。

本方法は、自然言語入力が「これを私のショッピングカートに追加する」などの現在のウェブサイトに特有のコマンドを含むことをさらに含む。

本方法は、ナビゲーションコマンドの宛先がユニフォーム・リソース・ロケータ（ＵＲＬ）宛先である場合、ナビゲーションコマンドが、ＵＲＬによって名称が付された宛先を訪問するようにウェブブラウザに指示し、ＵＲＬ宛先にフォーカスを設定し、ユーザにフォーカスを記述することによって行われることを含むことをさらに含む。

本方法は、ＵＲＬ宛先を訪問することが、ＵＲＬ宛先をウェブブラウザに与えることと、ＵＲＬ宛先に対応する選択されたウェブページをロードすることと、選択されたウェブページを記述する能力を向上させるように選択されたウェブページを再構築することとを含むことをさらに含む。

本方法は、ウェブページの再構築が、ツリー構造のＨＴＭＬに基づいてロードされたウェブページのツリー要素を有するツリー構造を作成することと、ロードされたウェブページのＨＴＭＬ内のツリー要素のラベルを見つけることと、ラベルが付されていないＨＴＭＬドキュメント分割要素（＜ｄｉｖ＞）をそれらの子要素に置き換えることと、Ｎ個よりも多い子要素を有するツリー要素について、子要素の残りによって「ｍｏｒｅ」要素を作成することとを含むことをさらに含む。

本方法は、記述コマンドが、さらに、与えられたウェブ要素の子要素を列挙することと、各子要素についての単純な自然言語参照を生成することと、与えられたウェブ要素についての自然言語参照を生成することと、与えられたウェブ要素参照が自然言語参照の生成されたリストを有することを識別することと、与えられたウェブ要素がＵＲＬである場合、必要に応じてウェブページのタイトルを識別することとを含むことをさらに含む。

本方法は、２つ以上の隣接する子要素が同じ自然言語参照を有する場合、それらを群参照に置き換えることをさらに含む。

本方法は、読み出しコマンドが、さらに、与えられたウェブ要素のテキストを取得することと、与えられたウェブ要素の子要素のそれぞれを読み出すことと、読み出した結果を与えられたウェブ要素のテキストと連結することとを含むことをさらに含む。

本方法は、要約コマンドが、さらに、与えられたウェブ要素のテキストを取得することと、テキストを要約することとを含むことをさらに含む。

本方法は、クリックコマンドが、さらに、ウェブ要素をクリックするようにウェブブラウザに指示することと、ウェブ要素がリンクである場合にナビゲーション動作を実行することと、ウェブページがどのように変更されたかを説明することとを含むことをさらに含む。

システムは、ウェブページを有する複数のウェブサイトを含むコンピュータネットワークと通信するように構成された少なくとも１つのディジタル処理装置、電子記憶装置及び入力／出力装置を有する通信装置をさらに含む。

図１は、ウェブブラウジング動作についての自然言語入力を可能とする通信ネットワークである。図２は、本特許出願の概念を実装するウェブブラウザモジュール構成のハイレベルバージョンを示している。図３は、本特許出願にかかるシステムについてのユーザの自然言語入力フロー図を提供している。図４は、本特許出願にかかる自然言語入力の構文解析を示すフロー図である。図５は、本特許出願にかかるナビゲーション動作を示すフロー図である。図６は、本特許出願にかかるＵＲＬを訪問する動作を示すフロー図である。図７は、本特許出願の動作にかかるウェブページの再構築を示すフロー図である。図８は、本特許出願にかかる記載された動作を始めるためのプロセスを示すフロー図である。図９は、本特許出願による読み出し動作を示すフロー図である。図１０は、本特許出願にかかるクリック動作についてのフロー図を示している。

ユーザが自然言語を使用してウェブサイトとのインターフェースを可能とするアップル社のＳｉｒｉ、マイクロソフト社のＣｏｒｔａｎａ、ＧｏｏｇｌｅＮｏｗ及びアマゾン社のＡｌｅｘａなどのパーソナルエージェントがある。例えば、ＯｐｅｎＴａｂｌｅ（ｈｔｔｐ：／／ａｐｐａｄｖｉｃｅ．ｃｏｍ／ａｐｐｎｎ／２０１２／１２／ｈｏｗ−ｔｏ−ｍａｋｅ−ｒｅｓｔａｕｒａｎｔ−ｒｅｓｅｒｖａｔｉｏｎｓ−ｗｉｔｈ−ｓｉｒｉ）においてレストランの予約を行うためにＳｉｒｉを使用することができる。しかしながら、これは、特定のウェブサイトにおける特定のコマンドについてのみ有効である。それは、ウェブブラウザがアクセス可能な任意のウェブサイトにアクセスするために自然言語を使用するのを可能としない。さらにまた、アップル社のＳｉｒｉなどのエージェントは、ＨＴＭＬをバイパスして基盤となるウェブサービスに直接アクセスすることから、誰かが特定のウェブサイト上で特定の行為に対して自然言語コマンドを接続するために特別なコードを書く場合にのみ動作するように理解される。現在のシステム及び方法の実施形態は、本願明細書において展開されるように、実施形態が特定のウェブサイトのそれぞれのＨＴＭＬを利用することから、必要とされる特別なサイト固有コードなしで、ほとんどのウェブサイトについて動作する。

視覚障害者が特別なサイト固有コードなしでウェブサイトにアクセスするのを可能とするように理解されるアップル社のＶｏｉｃｅＯｖｅｒ、ＮＶＤＡ（ｈｔｔｐ：／／ｗｗｗ．ｎｖａｃｃｅｓｓ．ｏｒｇ）、ＪＡＷＳ（ｈｔｔｐ：／／ｗｗｗ．ｆｒｅｅｄｏｍｓｃｉｅｎｔｉｆｉｃ．ｃｏｍ／Ｐｒｏｄｕｃｔｓ／Ｂｌｉｎｄｎｅｓｓ／ＪＡＷＳ）、ＷｉｎｄｏｗＥｙｅｓ（ｈｔｔｐ：／／ｗｗｗ．ｇｗｍｉｃｒｏ．ｃｏｍ／ｗｉｎｄｏｗ−ｅｙｅｓ／）、及びＤｏｌｐｈｉｎ（ｈｔｔｐ：／／ｙｏｕｒｄｏｌｐｈｉｎ．ｃｏｍ／ｐｒｏｄｕｃｔ？ｉｄ＝３）などのスクリーンリーダーもある。しかしながら、これらのスクリーンリーダーは、自然言語入力よりもむしろウェブページを移動するためにキーボード入力を使用する。さらにまた、それらは、ユーザが詳細について再帰的に展開することができるウェブサイトのトップレベルの説明を提供せず、また、ユーザがコマンドにおいて自然言語表現を使用してウェブ要素を参照するのを可能としない（例えば、「送信ボタンをクリックする」）。

既存のウェブブラウザ又は新たに作成されたウェブブラウザに自然言語インターフェースを提供するように構成された自然言語ウェブブラウザが本願明細書に記載されている。すなわち、ユーザは、入力としてマウス及びキーボード及び出力として電子表示画面を使用する代わりに、入力及び出力として音声（又はテキスト）を使用してウェブブラウザと対話する。自然言語ウェブブラウザの実施形態は、ユーザ質問、ステートメント及び／又はコマンドを動作に変換し、結果として得られたＨＴＭＬを読み出し、ユーザに提供するようにＨＴＭＬを自然言語記述へと変換する。

本特許出願の概念にかかるウェブページの取得及び検索を含むインターネットを介して通信するための電子ネットワークシステム１００が示されている図１を参照する。

より詳細には、システム１００は、インターネット１０４と動作可能に通信する複数のスマート電子コンピューティングデバイス１０２Ａ、１０２Ｂ〜１０２Ｎを示している。この簡略化された図において、インターネット１０４は、ウェブページ１０８などのウェブページを構成して記憶し且つインターネット１０４を介してスマート電子コンピューティングデバイス１０２Ａ〜１０２Ｎに対してデータを通信する要素を含むサーバ装置１０６に接続する。スマート電子コンピューティングデバイス１０２Ａ、１０２Ｂ〜１０２Ｎは、演算部１１０Ａ、１１０Ｂ〜１１０Ｎ、ウェブブラウザ１１２Ａ、１１２Ｂ〜１１２Ｎ及び（例えば、自動音声認識を有する）音声インターフェース１１４Ａ、１１４Ｂ〜１１４Ｎを有して構成されるように示されている。スマート電子コンピューティングデバイス１０２Ａ、１０２Ｂ〜１０２Ｎは、限定されるものではないが、ワークステーション、ラップトップ、スマートフォン、ポータブルデバイス並びにそれに埋め込まれるコンピューティングインテリジェンスを有する他のデバイスなどの演算能力を有する多数の電子デバイスのいずれかとすることができる。

図１の装置はまた、数多くの他の装置のうち、電子ディスプレイを有しても有しなくてもよいサーモスタット、テレビ、自動車、目覚まし時計、ウェアラブルに埋め込まれたスマート電子コンピューティングデバイスを有するモノのインターネット装置の例と考えることもできる。

ウェブブラウザ１１２Ａ、１１２Ｂ〜１１２Ｎは、質問、ステートメント、コマンドなどの形式とすることができるユーザの自然言語入力を受信するように各音声インターフェース１１４Ａ、１１４Ｂ〜１１４Ｎと対話する。音声インターフェース１１４Ａ、１１４Ｂ〜１１４Ｎはまた、音声インターフェースが自然言語入力並びにキーボード入力及び他の現在知られている方法の入力を受信することができるため、入力／出力要素と考えることもできる。この音声インターフェースはまた、コンピュータ生成音声出力を生成する方法を含むとともに、必要に応じて視覚的表現のための電子ディスプレイを含む。

サーバ１０６は、ワールド・ワイド・ウェブの一部とすることができる複数のサーバを表す。そのようなサーバは、ウェブページ（例えば、ウェブページ１０８）の記憶及び適切なプロトコル及びプロセスの使用時にインターネット１０４を介したこれらのウェブページの転送を可能とする構造及び要素を有する。例えば、ウェブページは、その特定の場所を識別するユニフォーム・リソース・ロケータ（ＵＲＬ）宛先を有する。

ウェブページ自体は、様々なバージョンのハイパーテキスト・マークアップ言語（ＨＴＭＬ）の使用によって構造化されて形成されることができ、当該技術分野において周知のように、ハイパーテキスト転送プロトコル（ＨＴＴＰ）のバージョンを介して転送されることができる。

ウェブページ１０８などのウェブページは、入力ボックス１１６、ボタン１１８によって表されるものなどのボタン（例えば、開始ボタン、停止ボタン、進むボタン、戻るボタンなど）、テキスト１２２、画像又は写真１２４並びに動画１２６を含むがこれに限定されない他のメディアを含むことができるコンテンツ１２０を含むことができる。これは、ウェブページ上の要素の単なる表現であり、本特許出願に関して限定することを意図するものではないことが理解されるべきである。ＨＴＭＬにおいて構造化されたウェブページは階層的構造を有し、そのようなページは、とりわけヘッダセクション、ボディセクション及びフッタセクションなどのラベル付きセクションに分割されることが言及される。本説明は、主にＨＴＭＬによって形成されたウェブページについて記載するが、これは限定されるものではなく、本発明の概念は他の形式にも適用することができることが理解される。特に、その一部であるアプリケーションの外部からアクセス可能なドキュメントオブジェクトモデルを提供する任意のユーザインターフェース（ＵＩ）に適用することができる。

図２は、本特許出願にかかるウェブブラウザ２００のハイレベルモジュール概念を示している。

ウェブブラウザの主な態様は、サーバからこのリソースを要求してそれをブラウザウィンドウに表示することにより、ユーザによって選択されたウェブリソース（例えば、ウェブページ）を提示することである。これは、一般にＨＴＭＬ文書である。しかしながら、ＰＤＦ又は他の種類の形式のコンテンツを含む異なる形式が取得されることができる。また、図１に関連して上述したように、リソース（例えば、ウェブページ）は、ＵＲＬ、又はより一般にはユニフォーム・リソース・アイデンティファイヤ（ＵＲＩ）を使用して配置される。ウェブブラウザ２００のモジュールのうちユーザインターフェース２０２が含まれるより具体的には図２に注目する。既存のシステムにおいて、ユーザインターフェースは、ユーザとウェブブラウザとの間の対話を可能とする構成である。インターフェースについての既存の種類の入力機能は、ユーザが情報を入力することができるアドレスバー、前後ボタン、リフレッシュボタン、停止ボタン及び他のオプションを含む。これに加えて、本特許出願の特定の実施形態において、ユーザインターフェースは、図１において上述したように、ユーザが自然言語入力スタイルにおいて話すのを可能とする音声インターフェースを有し、システムは、特定の実施形態においては視覚的ディスプレイを含む結果を、他の実施形態においてはユーザと対話するためにコンピュータ生成音声を出力する方法を含む。

ブラウザエンジン２０４は、ユーザインターフェースからの入力をレンダリングエンジン２０６に通信するのを可能とする。ブラウザエンジンは、ユーザからの入力にしたがってレンダリングエンジンを照会及び操作する責を負う。レンダリングエンジン２０６は、要求されたコンテンツを電子ディスプレイ上に表示する及び／又はコンピュータ生成音声応答を出力する責を負う。それは、一般に、ＨＴＭＬタグを構文解析した後にレンダリングツリーを構築し、画面に表示される及び／又はコンピュータ生成音声でユーザに話されることができるものを特定するレンダリングされたレイアウトを最終的に構築するエンジンである。

さらなるモジュールは、例えばサーバへのＨＴＴＰリクエストの送信など、様々なネットワークコールが送信されるネットワーキングモジュール２０８である。特定のウェブブラウザにおいて、ウェブページにおいて提示されるＪａｖａ（登録商標）スクリプトコードを解釈するためにＪａｖａ（登録商標）スクリプトインタープリターモジュール２１０が使用される。とりわけボックスやウィンドウなどの基本ウィジェットを描画するためにＵＩ（ユーザインターフェース）バックエンドモジュール２１２が使用される。最後に、データ記憶モジュール２１４は、スマート電子コンピューティングデバイスのローカルドライブ上に作成された小さなデータベースである持続層である。このデータベースは、キャッシュ、クッキーなどの様々なファイルを記憶することができる。

図３を参照すると、自然言語入力にしたがって動作するように構成された少なくとも１つのウェブブラウザ（及び１つの実施形態において口頭命令を入力し且つコンピュータ化音声を出力する方法を提供する入力及び出力要素を有するコンピューティングデバイス）を含むシステム及びプロセス３００の概要が示されている。一般に、図３のシステム及び／又はプロセスは、図１及び図２に示されるような構成内で達成されることができる。

図３における開始動作に続いて、ウェブブラウザは、自然言語インターフェースを介してユーザによって生成された自然言語入力を受け付ける（３０２）。自然言語インターフェースは、音声インターフェース又はチャットインターフェースとすることができる。ウェブブラウザは、多数のウェブページを有する複数のウェブサイトを含むインターネットなどのコンピュータネットワークをブラウズするように構成されている。受け付けられると、自然言語入力は、質問、ステートメント及びコマンドのうちの少なくとも１つに構文解析される（３０４）。

１つの実施形態において、構文解析動作に続いて、プロセスは、質問文に到達して自然言語入力が曖昧であるかどうかを判定する（３０６）。自然言語が曖昧でないと判定された場合、プロセスは、ステップ３０８へと移動し（いいえ）、ウェブブラウザは、判定されて構文解析された自然言語入力にしたがって動作される。ウェブブラウザの動作は、ナビゲーションコマンド、読み出しコマンド、要約コマンド、クリックコマンド、入力コマンド、ファインドコマンド及び／又は検索コマンドのうちの少なくとも１つを実行することを含む。その後、プロセスは、システムがどの動作を行ったかをユーザに伝える／通知するようにシステムに指示することができる（３１０）。次に、システムは、自然言語入力のフォーカスが変化したかどうかをユーザに伝える／通知する（３１２）。最後に、プロセスは、コンピュータ生成音声出力の形式とすることができ又はテキストの形式とすることができる自然言語の結果をユーザに返すようにシステムに指示する（３１４）。

標準的な既存のウェブブラウザにおける「フォーカス」の概念は、ユーザが入力を開始したときに文字が配置される例えばテキストボックスなどの関連するウェブページ上の場所に向けられる。通常、この場所を識別するために点滅文字又は他の要素がある。

本特許出願において、「フォーカス」は上記理解を含むが、この理解に限定されるものではない。むしろ、本願明細書におけるフォーカスは、ウェブページの他の領域のうち、ウェブページボタン上、テキスト又はセクションの一部上とすることができる。したがって、本特許出願において、「フォーカス」は、拡張された使用を有する。

処理ステップ３０６に戻り、自然言語入力が曖昧であるか否かを判定した結果が肯定的（はい）である場合、システムは、自然言語入力によって意図されたものをユーザに問い合わせるクエリを生成する（３１６）。この時点で、ユーザは、クエリに応答して提供されたものと同じ又は概念的に類似した自然言語入力を入力する（３１８）。概念的に類似した自然言語入力は、システムによって提供される１つ以上のオプションの受諾、選択又は拒否を含むことができる。この時点で、プロセスは、ステップ３０６に戻り、現在存在する自然言語入力が曖昧であるか否かを再度問い合わせる。結果が依然として曖昧である場合、プロセスは、上述したステップ３０６、３１６、３１８のループを継続する。一方、曖昧性が除去されると、プロセスは、ステップ３０８〜３１４に移動し、同じ又は概念的に類似した自然言語入力が処理される。他の設計において、上述したループはまた、Ｘ回問い合わせるように設計されてもよく、その回数が満たされたときに、プロセスは、判定された最も可能性の高い意味を使用し、プロセスを前進させる。

図３のフローチャート３００は、ステップ３０６、３１６及び３１８がオプションであるように動作することができることもまた理解されるべきである。特に、特定の実施形態において、プロセスは、自然言語入力が曖昧であるかどうかを確認するためにテストする必要はない。むしろ、プロセスは、ステップ３０４からステップ３０５へと直接移動した後に破線によって示されるようにステップ３０８に直接移動することができる。この実施形態において、プロセスは、ユーザに追加の問い合わせを行うことなく、自然言語入力の最も可能性のある解釈を選択する。この動作は、例えば自然言語パーサを使用してユーザ入力と一致するテストを使用して潜在的な意味を評価する。プロセスは、最高の評価結果を選択して前進する。

この状況において、プロセスは、自然言語入力の意味の最良の推定又は解釈を行い、そして、ユーザからの追加の明確化を要求又は問い合わせすることなく、最良の推定された意味を使用してステップ３０８〜３１４へと前進する。

全体的なプロセスが記載されたので、ステップ３０２の構文解析がフローチャート４００によって図４においてさらに詳細に記載される。具体的には、プロセスの開始に続いて、現在のウェブブラウジングセッションにおいてユーザに特定／言及されている現在のウェブページにおけるウェブ要素（例えば、「ヘッダセクション」、「第１のセクション」、「その他セクション」）が列挙される（４０２）。そして、プロセスは、列挙された各ウェブ要素について潜在的自然言語参照を生成する（４０４）。その後、潜在的自然言語参照が列挙されると、プロセスは、自然言語（又は概念的に類似した自然言語）入力のセグメントと生成された潜在的参照との間の最良一致を見つける（４０６）。次に、プロセスは、自然言語（又は概念的に類似した自然言語）入力のセグメントと既知又は入力された質問、ステートメント及び／又はコマンド種類との間の最良一致を見つける（４０８）。その後、見つけるステップの複数の最良一致が可能であることを見出した場合、図３と関連して記載したように曖昧性判定が形成される（４１０）。しかしながら、ステップ４１０は、システムが図３に関連して記載されたようにユーザによるさらなる明確化を要求することなく最良の可能性のある一致を受け付けている場合には任意であることが理解されるべきである。上述した「最良一致」は、１つの実施形態においては、格付けアルゴリズムの使用によって見出すことができる。

潜在的参照は、新たなウェブ要素を可能とするように新たなユーザ入力が提供されるたびに再生成されることに留意されたい。

記載された構文解析にさらに注目すると、ユーザの入力を解釈する他の可能な方法がある。１つの方法は、ユーザが発言したものの意味表現へとユーザの入力を構文解析し、会話の現在状態に基づいて意味表現を論理的に解釈しようとすることです。そうである場合、ユーザが「第１のセクションに移動」と発言した場合、これは、ＧｏＴｏ（第１の（セクション））と解釈される。そして、プロセスは、第１の（セクション）が現在の文脈において何を意味するのかを判定するように動作した後、そのセクション（例えば、Ｓｅｃｔｉｏｎ＿１４３）に移行する。他の方法は、深層学習などの周知の技術を使用してユーザ入力から意味表現へとマッピングするために機械学習を使用することである。いくつかの実施形態において、ユーザの入力を解釈するための好ましい実装は上述したものである：予め計算されたコマンド及びウェブ要素の記述に対してユーザの入力の一部と一致するようにファジーマッチングを使用すること。そうである場合、ユーザが「第１のセクションに移動する」と発言した場合には、プロセスは、可能なウェブ要素記述のリストにおいて「第１のセクション」を探し、それが最良一致したＳｅｃｔｉｏｎ＿１４３であると見出す。そして、「＜セクション＞に移動する」を探し、これがＧｏＴｏコマンドと最良一致したことを発見する。これは、ＧｏＴｏ（Ｓｅｃｔｉｏｎ＿１４３）を生成する。１つの実施形態において、ファジーマッチングは、どのくらい多くの語がユーザの入力と予め計算された記述との間において重複しているのか、語の重要性、及び、どのように語がユーザの入力と予め計算された記述との間において並べ替えられるのかなどの様々な要因に基づいて一致をスコアリングする。

曖昧性を引き起こす複数の最良一致を見つける問題を参照すると（図３及び図４を参照）、この曖昧性は、（ｉ）自然言語入力のセグメントと生成された潜在的参照との間の最良一致を見つけた場合、並びに、プロセスが（ｉｉ）自然言語入力のセグメントと既知の質問、ステートメント及びコマンド種類との間において最良一致を見つけた場合、複数の単一の最良一致がある場合に見出すことができる。そのため、（ｉ）の状況の例として、ユーザが「ボタンをクリックする」と入力し、識別された２つのボタンがあると想定する。本自然言語ウェブブラウザは、戻ってきて「「Ｘ」ボタン又は「Ｙ」ボタンを意味したか？」と問い合わせる。他の可能性は、ユーザからのコマンドが「プッシュ」ボタンである場合である。「プッシュ」が意味するものが完全に識別されていない場合、システムは、それを「クリック」操作として識別することができ、システムの動作は前進する。

図５を参照すると、図３のステップ３０８に関連して記載されたナビゲーション概念に拡張するナビゲーションプロセスであるフロー図５００が提供される。この実施形態において、ナビゲーションコマンド（例えば、「ＷＷＷ．ＡＭＡＺＯＮ．ＣＯＭに移動する」、「ヘッダセクションに移動する」など）が記述されている。ステップ５０２において、開始動作に続いて、宛先がＵＲＬアドレスである場合、ウェブブラウザは、言及されたＵＲＬを訪問するように指示される（例えば、ＶｉｓｉｔＵＲＬコマンド）。この時点で、プロセスは、ＵＲＬ宛先アドレス５０４であるようにシステムの動作のフォーカスを設定し、その後、記述コマンドがユーザに対してフォーカスを記述するように実施される（５０６）。

図６を参照すると、「ＶｉｓｉｔＵＲＬ」動作のより詳細な説明がフローチャート６００に示されており、開始動作に続いて、ＵＲＬ宛先がウェブブラウザに与えられ（６０２）、次のステップにおいて、システムは、ロードを終了するためにＵＲＬ宛先に対応するウェブページを待機する（６０４）。その後、プロセスは、セクションを平坦化するようにＵＲＬ宛先であるウェブページを再構築するように動作し、それにより、選択されたウェブページを記述する能力を向上させる（６０６）。セクションの平坦化は、文脈の選択、不要な構造などの除去を指し、レイアウト及びページ構造を単純化する最小限のアプローチにフォーカスされることが理解される。

次に、ウェブページの再構築についてのプロセスが図６のステップ６０６と関連して記載されたこの概念を拡張するフロー図７００として図７に示されている。開始動作の後、プロセスは、ウェブページＨＴＭＬツリー構造に基づいて、ロードされたウェブページについてのツリー要素を有するツリー構造を作成する（７０２）。そして、ラベルは、ＨＴＭＬとテキスト関連付けられたテキストを有するウェブ要素について見出される（７０４）。そして、プロセスは、それらの子要素とラベルが付されていない文書分割要素（＜ｄｉｖ＞）を置き換える（７０６）。その後、ツリー要素がＮ個の子要素よりも多くを有する場合、システムは、子要素の残りによって「多くの」要素を作成する（７０８）。図７において、数Ｎは、与えられたユーザの多くの情報とユーザを圧倒する情報との間のトレードオフである。音声動作の場合、Ｎは、３から５の間であってもよい。チャットインターフェースについて、Ｎは、５から１０の間であってもよい。

本議論の実施形態に関して、概念は、ウェブページ要素を記述するために使用可能なＨＴＭＬにおいて自然言語ラベルを見出すことである。これを行うために、タイトル及びＡＲＩＡラベルなどのＨＴＭＬにおける特殊な属性が検索される（ＡＲＩＡは、障害を有する人々がウェブアプリケーションにアクセスしやすくするためのウェブ標準である）。ページ要素がボタン又はリンクである場合、ページ要素のテキストは、ラベルとして使用される。いくつかの実施形態において、ラベルは、ウェブ要素の種類によって決定される。例えば、ウェブ要素がヘッダ又はフッタなどのＨＴＭＬ５セマンティック要素である場合、「ヘッダ」又は「フッタ」は、ラベルとして使用される。ウェブ要素がナビゲーションのＡＲＩＡロールを有する場合、ＡＲＩＡロールは、ラベルとして使用される。ウェブ要素が「ｍａｉｎ」などの特別なＩＤを有する場合、それはラベルとして使用される。ＡＲＩＡロールの「ロール」は属性であり、それが有することができる値は、問題の要素の目的に関する情報（それはナビゲーションか？メインデータか？又は正接コンテンツか？）を提供することに留意されたい。支援技術は、メインコンテンツに直接ジャンプして文書の主なナビゲーションを直ちに検出するなどのためにこの情報を使用することができる。

ウェブページの再構築にさらに注意を払うと、特定の実施形態において、セクションにラベルが付されておらず、「第１の要素」が短いテキスト要素（例えば、２０文字未満）であり、第２の要素が短いテキスト要素でない場合、第１の要素は、セクションのラベルとして使用される。ヘッダ要素（例、＜ｈ１＞）に非ヘッダ要素及びより高次を有するヘッダ要素（例えば、＜ｈ２＞、＜ｈ３＞）の混合が続く場合、プロセスは、そのラベルとしての第１のヘッダ要素及びその子要素としての残りの要素を有するセクションを作成する。

ここで図８を参照すると、例えば図３と関連して記載された「記述」プロセスを採用するために使用されるフローチャート８００が提供される。このプロセスの開始動作に続いて、再構築されたＨＴＭＬツリーにおける与えられたウェブ要素の子要素が列挙される（８０２）。その後、各子要素についての単純な自然言語参照がシステムによって生成される（８０４）。そして、２つ以上の隣接する子要素が同じ自然言語参照を有すると判定された場合、プロセスは、ウェブ要素参照とこれらの子要素を置き換える（８０６）。その後、プロセスは、与えられたウェブ要素についての自然言語参照を生成し（８０８）、そして、システムは、与えられたウェブ要素自然言語参照が自然言語参照の生成されたリストを有することを識別又は発言する（８１０）。最後に、与えられたウェブ要素がＵＲＬである場合、ウェブページは、タイトルを公表又は言及する（例えば、「タイトルページ」）（８１２）。

ステップ８０６は、３つ以上の隣接する子要素が存在しない状況において、生成される群参照が存在しない点で、任意の動作であることが理解されるべきである。

図９を参照すると、図３において上述した読み出しコマンドについてのプロセスを記述する読み出しフローチャート９００が示されている。プロセスの開始に続いて、プロセスは、上記与えられた記述コマンドを再帰的に使用して現在のウェブ要素を記述する（９０２）。それがそれに関連付けられたテキストを有するウェブ要素に遭遇した場合、それは記述におけるテキストを含む（９０４）。出力は、結果として得られた記述である（９０６）。

図１０を参照すると、図３のステップ３０８に関連して上述したクリックコマンドについてのプロセスを示すフローチャート１０００が示されている。具体的には、プロセスの開始に続いて、ウェブブラウザは、ウェブ要素上でクリックするように指示される（１００２）。これは、ユーザによって供給される自然言語入力によって発生する。その後、ウェブ要素がリンクである場合、プロセスは、上述したようなナビゲーション動作を実行するプロセスによって判定される（すなわち、ＶｉｓｉｔＵＲＬ）（１００４）。最後に、そうでなければ、プロセスは、どのようにウェブページが変更されたかをシステムがユーザに対して識別／記述することを有する（１００６）。

年代順に、記載された自然言語ウェブブラウザのプロセスは、（ｉ）ウェブページを再構築し、（ｉｉ）再構築されたウェブページに記述を与え、（ｉｉｉ）記述に対するユーザの入力を一致させ、及び（ｉｖ）ウェブページからユーザに追加情報を提供するように動作する。これらのステップは、ユーザが求められている情報を受信するまで繰り返される。

自然言語ウェブブラウザの動作を記載してきたが、それらの動作が実施されることができる方法の例が以下に記載される。

例：
ユーザは、「ｗｗｗ．ｕｓｐｔｏ．ｇｏｖに移動する」と発言する。

システムは、これをＵＲＬ「ｗｗｗ．ｕｓｐｔｏ．ｇｏｖ」を有するＶｉｓｉｔＵＲＬコマンドに構文解析する。

システムは、ｗｗｗ．ｕｓｐｔｏ．ｇｏｖに移動するようにウェブブラウザに指示する。

システムは、結果として得られたＨＴＭＬをツリー構造に変換し、そのトップレベルは、再構築後に以下のようなものにみえる。
＜ｂｏｄｙｔｉｔｌｅ＝“米国特許商標庁”＞
＜ａｈｒｅｆ＝“＃ｍａｉｎ”＞メインコンテンツにジャンプ＜／ａ＞
＜ｈｅａｄｅｒ＞…＜／ｈｅａｄｅｒ＞
＜ｄｉｖｉｄ＝“メイン”＞
＜ｄｉｖｔｉｔｌｅ＝“プロセスについての学習”＞＜／ｄｉｖ＞
＜ｄｉｖｔｉｔｌｅ＝“ニュース及び更新”＞…＜／ｄｉｖ＞
＜ｄｉｖｔｉｔｌｅ＝“手数料及び支払い”＞
＜ａｈｒｅｆ＝“ｈｔｔｐ：／／ｗｗｗ．ｕｓｐｔｏ．ｇｏｖ／ｌｅａｒｎｉｎｇ−ａｎｄ−ｒｅｓｏｕｒｃｅｓ／ｆｅｅｓ−ａｎｄ−ｐａｙｍｅｎｔ”＞手数料及び支払い＜／ａ＞
＜ｐ＞手数料の支払い並びに出願手数料及び他の支払いについての詳細の学習。＜／ｐ＞
＜／ｄｉｖ＞
＜ｄｉｖｔｉｔｌｅ＝“特許及び商標の取り組み”＞…＜／ｄｉｖ＞
＜ｄｉｖｔｉｔｌｅ＝“より深い理解”＞…＜／ｄｉｖ＞
＜／ｄｉｖ＞
＜ｆｏｏｔｅｒ＞…＜／ｆｏｏｔｅｒ＞
＜／ｂｏｄｙ＞

システムは、このツリーにおける最上位ノードにフォーカスを設定する。

システムは、フォーカス及びその子要素のそれぞれについての参照を含む現在のフォーカスの記述を作成する。

参照は、各要素の種類、タイトル及びテキストに基づいている。

システムは、ユーザに以下を返す：
＞あなたはｗｗｗ．ｕｓｐｔｏ．ｇｏｖにいる。
＞ｗｗｗ．ｕｓｐｔｏ．ｇｏｖのタイトルは、米国特許商標庁である。
＞ｗｗｗ．ｕｓｐｔｏ．ｇｏｖは、「メインコンテンツにジャンプ」リンク、ヘッダセクション、メインセクション及びフッタセクションを有する。

ユーザは、「メインセクションに移動する」と発言する。

システムは、このセッションにおいて言及されている現在のウェブページにおけるウェブ要素を列挙する。以下の５つがある：ＵＲＬ、「メインコンテンツにジャンプ」リンク、ヘッダセクション、メインセクション及びフッタセクション。

システムは、言及したウェブ要素のそれぞれについての複数の自然言語参照を生成する。例えば、それは、「メインセクション」、「第１のセクション」及びメインセクションについての可能な自然言語参照としての「セクション」を生成する。

そして、システムは、生成された参照における「メインセクション」と自然言語入力における「メインセクション」を一致させる。

それゆえに、システムは、ユーザの入力を、その引数としてメインセクションを有するＧＯＴＯコマンドへと構文解析する。

システムは、メインセクションにフォーカスを設定する。

システムは、現在のフォーカスの記述を作成する。

システムは、ユーザに以下を返す：
＞あなたはメインセクションにいる。
＞メインセクションは、プロセスについての学習セクション、ニュース及び更新セクション、手数料及び支払いセクション、特許及び商標の取り組みセクション並びにより深い理解セクションを有する。

ユーザは、「第３のセクションに移動する」と発言する。

システムは、このセッションにおいて言及されている現在のウェブページにおけるウェブ要素を列挙する。

システムは、それぞれ上述したウェブ要素についての複数の参照を生成する。例えば、それは、「手数料及び支払いセクション」、「第３のセクション」及びメインセクションについての可能な参照としての「セクション」を生成する（それは、直近の順番における要素についての「セクション」又は「第３のセクション」のような短い参照のみを生成する）。

システムは、手数料及び支払いセクションの「第３のセクション」とユーザの入力における「第３のセクション」と一致させる。

それゆえに、システムは、ユーザの入力を、その引数として手数料及び支払いセクションを有するＧＯＴＯコマンドへと構文解析する。

システムは、手数料及び支払いセクションにフォーカスを設定する。

システムは、ユーザに以下の記述を返す：
＞あなたは手数料及び支払いセクションにいる。
＞手数料及び支払いセクションは、「手数料及び支払い」リンク及びパラグラフを有する。

ユーザは、「パラグラフを読む」と発言する。

システムは、ユーザの入力を、その引数としてパラグラフを有する読み出しコマンドへと構文解析する。

システムは、ユーザに以下を返す：
＞手数料及び支払いセクションにおけるパラグラフは以下を述べている：手数料の支払い並びに出願手数料及び他の支払いについての詳細の学習。
＞あなたは手数料及び支払いセクションにおけるパラグラフにいる。

ユーザは、「リンクをクリックする」と発言する。

システムは、ユーザの入力を、その引数として手数料及び支払いリンクを有するクリックコマンドへと構文解析する。

システムは、ｗｗｗ．ｕｓｐｔｏ．ｇｏｖ／ｌｅａｒｎｉｎｇ−ａｎｄ−ｒｅｓｏｕｒｃｅｓ／ｆｅｅｓ−ａｎｄ−ｐａｙｍｅｎｔに移動するようにウェブブラウザに指示する。

システムは、結果として得られたＨＴＭＬを再構築されたツリー構造へと変換する。

システムは、再構築されたツリー構造の最上位ノードにフォーカスを設定する。

システムは、現在のフォーカスの記述を作成する。

システムは、ユーザに以下を返す：
＞私は「手数料及び支払い」リンクをクリックした。
＞あなたはｗｗｗ．ｕｓｐｔｏ．ｇｏｖ／ｌｅａｒｎｉｎｇ−ａｎｄ−ｒｅｓｏｕｒｃｅｓ／ｆｅｅｓ−ａｎｄ−ｐａｙｍｅｎｔにいる。
＞ｗｗｗ．ｕｓｐｔｏ．ｇｏｖ／ｌｅａｒｎｉｎｇ−ａｎｄ−ｒｅｓｏｕｒｃｅｓ／ｆｅｅｓ−ａｎｄ−ｐａｙｍｅｎｔのタイトルは、手数料及び支払い｜ＵＳＰＴＯである。
＞ｗｗｗ．ｕｓｐｔｏ．ｇｏｖ／ｌｅａｒｎｉｎｇ−ａｎｄ−ｒｅｓｏｕｒｃｅｓ／ｆｅｅｓ−ａｎｄ−ｐａｙｍｅｎｔは、「メインコンテンツにジャンプ」リンク、ヘッダセクション、メインセクション及びフッタセクションを有する。

本特許出願をさらに記載するために、ユーザが利用可能なコマンドリストが以下に提供される。
次（ｎｅｘｔ）：現在のページ要素の後にページ要素に移動する。
下（ｄｏｗｎ）：現在のページ要素の第１の娘に移動する。
上（ｕｐ）：現在のページ要素の親に移動する。
戻る（ｂａｃｋ）：訪問した最後のページ要素に移動する。
ページ要素に移動（ｇｏｔｏＰａｇｅＥｌｅｍｅｎｔ）：名称が付されたページ要素に移動する。
要素種類を見つける（ｆｉｎｄＥｌｅｍｅｎｔＴｙｐｅ）：与えられた種類の次のページ要素を見つける。
語を見つける（ｆｉｎｄＷｏｒｄｓ）：与えられた語を含む次のページ要素を見つける。
語を検索する（ｓｅａｒｃｈｆｏｒＷｏｒｄｓ）：ページの検索フォームを使用した与えられた語の検索。
ページ要素を記述する（ｄｅｓｃｒｉｂｅＰａｇｅＥｌｅｍｅｎｔ）：名称が付されたページ要素のトップレベルを記述する。
全てのページ要素を記述する（ｄｅｓｃｒｉｂｅａｌｌＰａｇｅＥｌｅｍｅｎｔ）：名称が付されたページ要素の全てを記述する。
ページ要素を読む（ｒｅａｄＰａｇｅＥｌｅｍｅｎｔ）：名称が付されたページ要素のテキストを読む。
ページ要素を要約する（ｓｕｍｍａｒｉｚｅＰａｇｅＥｌｅｍｅｎｔ）：名称が付されたページ要素のテキストを要約する。
ページ要素をクリックする（ｃｌｉｃｋＰａｇｅＥｌｅｍｅｎｔ）：名称が付されたボタンをクリックする。
語を入力する（ｔｙｐｅＷｏｒｄｓ）：現在の入力ボックスに与えられた語を入力する。
ページ要素を送信する（ｓｕｂｍｉｔＰａｇｅＥｌｅｍｅｎｔ）：与えられたフォームを送信する。
「ＰａｇｅＥｌｅｍｅｎｔ」は、ページ上の要素についての記述子である。
（例えば、ヘッダセクション、第１のリンク、ボタン）
「ＥｌｅｍｅｎｔＴｙｐｅ」は、ページ要素の種類の名称である。
（例えば、ボタン、フォーム、入力ボックス、ラベル、リンク、リスト、メニュー、セクション、パラグラフ）
「Ｗｏｒｄｓ」は、１つ以上の語である。

上（ｕｐ）、下（ｄｏｗｎ）、次（ｎｅｘｔ）及び戻る（ｂａｃｋ）を使用した例：
ユーザ：ｗｗｗ．ｕｓｐｔｏ．ｇｏｖに移動する。
システム：あなたはｗｗｗ．ｕｓｐｔｏ．ｇｏｖにいる。
ｗｗｗ．ｕｓｐｔｏ．ｇｏｖのタイトルは、米国特許商標庁である。
ｗｗｗ．ｕｓｐｔｏ．ｇｏｖは、「メインコンテンツにジャンプ」リンク、ヘッダセクション、メインセクション及びフッタセクションを有する。
ユーザ：下（ｄｏｗｎ）
システム：あなたは「メインコンテンツにジャンプ」リンクにいる。
ユーザ：次（ｎｅｘｔ）
システム：あなたはヘッダセクションにいる。
ヘッダセクションは、「米国特許商標庁−商務省の機関」リンク、メニュー、ナビゲーションセクション及び２つのリストを有する。
ユーザ：次（ｎｅｘｔ）
システム：あなたはメインセクションにいる。
メインセクションは、プロセスについての学習セクション、ニュース及び更新セクション、手数料及び支払いセクション、特許及び商標の取り組みセクション並びにより深い理解セクションを有する。
ユーザ：戻る（ｂａｃｋ）
システム：あなたはヘッダセクションにいる。
ユーザ：上（ｕｐ）
システム：あなたはｗｗｗ．ｕｓｐｔｏ．ｇｏｖにいる。
ユーザ：支払いを見つける。
システム：あなたは手数料及び支払いセクションにいる。
手数料及び支払いセクションは、「手数料及び支払い」リンク及びパラグラフを有する。

以上から、記載された自然言語ウェブブラウザは、ユーザが会話式に対話するのを可能とする。一般的なウェブページによる以下の対話を考える。

ユーザ：ｒａｄａｒ．ｏｒｅｉｌｌｙ．ｃｏｍに移動する。

システム：私は、上部にわたってナビゲーションバーを、その下方にカテゴリのリストを確認し、本体は記事のリストである。また、右側には、特集動画へのリンク、特集ダウンロード及び最近話題のアイテムがある。

ユーザ：特集動画は何？

システム：特集動画は、「Ｏ‘Ｒｅｉｌｌｙのラーニングパスは、プログラミング言語を学習し、新たなスキルを開発し、又は完全に新たな何かを始めているかにかかわらず、あなたが行きたい場所を得るのを助ける」である。語「ラーニングパス」についてのリンクがある。

ユーザ：第１の記事に移動する。

システム：了解。第１の記事は、「連続部分雇用の世界」と題されている。画像、そして記事のテキストがある。あなたは記事を読んで欲しいか又はそれを要約して欲しいか？

上述した開示を考慮すると、プロセスが選択されたウェブページに到達したときに、ページ全体が最初にユーザに記述されていないことが理解されるべきである。むしろ、プロセスは、ユーザハイレベル情報を与える（ヘッダセクション、メインセクション、第１のセクション、第２のセクションなどがあるなど）。そして、自然言語入力を介して、ユーザは、特定のセクションに関する詳細な情報を提供するようにウェブブラウザに問い合わせるウェブブラウザと対話する。例えば、ユーザは、「第２のセクションに関して詳しく伝えて欲しい」と入力することができ、特定のウェブページの第２のセクションにユーザをもたらす。ユーザが第２のセクション内にいると、追加的なユーザ入力は、より多くの情報を取得し、そのため、最終的にウェブページに関してウェブブラウザを照会することにより、ユーザは、ますます多くの情報にさらされる。

トップレベル記述は、常にヘッダ、メイン及びフッタセクションではなく、ページ設定に依存する。一部のページは、ヘッダ及びフッタを有しておらず、そのため、プロセスは、ウェブページ上で利用可能なものによって動作する。これは、ウェブブラウザによって自動的に行われる。

ＨＴＭＬ５は、何かが検索機能、ヘッダ機能又は他の項目であるかどうかを定義する特定のヘッダセクションを有する。そのため、特定の実施形態において、ＨＴＭＬから各セクションに付随される意味が有利に使用される。

本特許出願の特定の態様は、ユーザがＵＲＬ宛先を入力し、システムがそのＵＲＬにおけるウェブページにユーザをもたらすことである。したがって、１つの実施形態において、検索エンジン（例えば、グーグル、ヤフー、ビング又は他の検索エンジン）における検索を引き受けるためである。ユーザは、例えば、「Ｇｏｏｇｌｅ．ｃｏｍに移動する」又は任意の他の検索エンジンと発言することができる。これが達成された場合、ユーザは、検索エンジンのランディングページにいる。ユーザは、検索を入力する（例えば、「自動車ディーラーを検索」と発言する）。この時点で、本システムは、そのフレーズを入力するために検索エンジンの検索ボックスを見つけるであろう。そして、ユーザは、移動するか又は検索ボタンをアクティブにすることができ、その後、検索が行われるであろう。検索結果が返されると、システムは、「ヘッダ、メインセクション及びフッタセクションがある」と発言する。メインセクションに移動するようにプロセスに指示すると、項目のリストをもたらす（例えば、検索結果がグーグル検索によって返される）。そして、システムは、（自動車ディーラーウェブサイトへのリンクがある場合）結果を読み始めるように発言することができる。その時点で、ユーザは、その後、自動車ディーラーサイトにおいてより多くの情報を取得するように掘り下げることができる。

ウェブブラウザが本概念にしたがってゼロから構築される実施形態において、完全な機能を有するウェブブラウザは取得されないことがある（例えば、それは、マルチ検索エンジン機能、ブックマーク又はタブを有しないことがある）。しかしながら、それらの機能は追加されることができる。また、本特許出願の概念が既存のウェブブラウザに組み込まれる場合、そのような完全な機能は存在し、それらへの自然言語インターフェースが追加されることができる。

この時点まで、ウェブブラウザは、訪問されたウェブサイトのいずれの専門的な知識がなくても動作する。それはウェブサイトによって生成されるＨＴＭＬに依存するのみである。しかしながら、他の実施形態において、自然言語インターフェースは、訪問されたウェブサイトについて知っていることを追加してもよい。例えば、ｗｗｗ．ｕｓｐｔｏ．ｇｏｖを訪問する場合、本開示は、いくつかの情報をユーザに問い合わせて正しいウェブページにユーザをもたらすことによって「私の特許出願の現在のステータスは何？」を扱うことができる。

上記において、問い合わせの処理は、一般にウェブブラウザ自体の一部として処理されるように記載されているが、他の実施形態においては、ユーザ入力の処理が外部サーバへの入力を転送することによって達成され且つ結果がシステムに返されることも理解されるべきである。

同様に特定の実施形態の概要として、自然言語（会話）ウェブブラウザは、ユーザからチャット入力及び／又は音声入力を受信し、応答としてチャット出力又は音声出力を生成する。ユーザが第１のウェブページを訪問すると、自然言語ウェブブラウザは、ユーザにとっての部分的な記述を判定するためにウェブページの構造を分析する。そして、ユーザは、部分的記述に基づいてウェブページに関するより多くの情報を問い合わせることができ、自然言語ウェブブラウザは、より詳細な情報を提供する。ユーザは、この新たな記述に関するより多くの情報の問い合わせなどをすることができる。ユーザはまた、テキストを入力し、ボタンをクリックし、他のウェブページへのリンクをたどることができる。それゆえに、インターフェースを有する自然言語ウェブブラウザは、ユーザがより多くの情報を問い合わせる際に拡張されることができるウェブページの部分的記述を提供するように構成されている。これは、ウェブページ構造に基づいて短くて有益な記述を決定し、また、ユーザがそれらの入力に基づいてより多くの情報を望む記述のどの部分を把握することを含む。

本開示において、システムは、セッション全体について各ページに記載されているウェブ要素を覚えていることに留意すべきである。ウェブ要素が参照を決定して与えられると、ユーザは、ウェブページがフォーカスされている全体時間においてそれらを参照することができる。これは、ウェブページのコンテンツの非線形表現を可能とする。また、リンクをたどること、前のページに戻ることを含むことができ、それゆえに前のコンテキストを復元することができる。もちろん、ユーザは、再度構文解析された要素を問い合わせることができるが、ページを覚えている場合、そのページにおいて対話をまさに再開することができる。

本開示の態様は、盲人がウェブページにアクセスするのを容易とすることを含む。それは自由に手を必要とする人々が他の目的のためにウェブを使用するのを可能とする。（時計などの）非常に小さいか又は存在しない画面によってチャットインターフェース及びデバイスからウェブページにアクセスすることが可能となる。最後に、ウェブサイトは、音声及び／又はチャットインターフェースによってアクセスされる特別なものを行う必要がないことを意味する。

Claims

自然言語ウェブブラウジング方法において、
ウェブページを有する複数のウェブサイトを含むコンピュータネットワークをブラウズするように構成されたウェブブラウザによって自然言語入力を受け付けることと、
質問、ステートメント及びコマンドのうちの少なくとも１つへと前記自然言語入力を構文解析することと、
前記構文解析された自然言語入力に応じて前記ウェブブラウザを動作させることと、
前記自然言語ウェブブラウジングの結果を返すことと
を備え、前記ウェブブラウジングが少なくともディジタル処理装置の使用によって達成される、方法。
前記自然言語入力が曖昧であるかどうかを判定することと、
前記自然言語入力が曖昧であると判定された場合、前記自然言語入力が何を意味するかを問い合わせるクエリを生成することと、
以前に受け付けた自然言語入力と同じ又は概念的に類似した自然言語入力を前記ウェブブラウザによって受け付け、前記自然言語入力が曖昧であると判定された場合、前記同じ又は概念的に類似した自然言語入力を、前記同じ又は概念的に類似した自然言語入力の質問、ステートメント及びコマンドのうちの少なくとも１つへと構文解析することと
をさらに含む、請求項１に記載の方法。
前記自然言語ウェブブラウジング中に発生した前記ウェブブラウザの動作に関する情報を提供することをさらに含む、請求項１に記載の方法。
前記ウェブブラウジングの現在のフォーカスが変化したときに情報を提供することをさらに含む、請求項３に記載の方法。
ワールド・ワイド・ウェブ上のウェブサイトへのアクセスを制限する方法なしで、前記判定されて構文解析された自然言語入力及び前記同じ又は概念的に類似した自然言語入力のうちの少なくとも１つにしたがって前記ウェブブラウザを動作させることを含む、請求項２に記載の方法。
自然言語入力が、ナビゲーションコマンド、読み出しコマンド、要約コマンド、記述コマンド、クリックコマンド、入力コマンド、ファインドコマンド及び検索コマンドのうちの１つを含む、請求項１に記載の方法。
前記ナビゲーションコマンドが、
前記ナビゲーションコマンドの宛先がユニフォーム・リソース・ロケータ（ＵＲＬ）宛先である場合、ＵＲＬによって名称が付された宛先を訪問するように前記ウェブブラウザに指示し、
前記ＵＲＬ宛先にフォーカスを設定し、
ユーザに前記フォーカスを記述すること
によって行われる、請求項６に記載の方法。
前記ＵＲＬ宛先を訪問することが、
前記ＵＲＬ宛先を前記ウェブブラウザに与えることと、
前記ＵＲＬ宛先に対応する選択されたウェブページをロードすることと、
前記選択されたウェブページを記述する能力を向上させるように前記選択されたウェブページを再構築することと
を含む、請求項７に記載の方法。
自然言語ウェブブラウジングを行うためのシステムにおいて、
ウェブページを有する複数のウェブサイトのコンピュータネットワークと通信するように構成された少なくとも１つのディジタル処理装置、電子記憶及び入力／出力装置を含む通信装置を備え、前記通信装置が、
前記コンピュータネットワークをブラウズするように構成されたウェブブラウザによって自然言語入力を受け付け、
質問、ステートメント及びコマンドのうちの少なくとも１つへと前記自然言語入力を構文解析し、
前記構文解析された自然言語入力のうちの少なくとも１つに応じて前記ウェブブラウザを動作させ、
前記自然言語ウェブブラウジングの結果を返す
ように構成されている、システム。
前記自然言語入力が曖昧であるかどうかを判定することと、
前記自然言語入力が曖昧であると判定された場合、前記自然言語入力が何を意味するかを問い合わせるクエリを生成することと、
以前に受け付けた自然言語入力と同じ又は概念的に類似した自然言語入力を前記ウェブブラウザによって受け付け、前記自然言語入力が曖昧であると判定された場合、前記同じ又は概念的に類似した自然言語入力を、前記同じ又は概念的に類似した自然言語入力の質問、ステートメント及びコマンドのうちの少なくとも１つへと構文解析することと
を備える、請求項９に記載のシステム。