JP2020537224A

JP2020537224A - 名前付きエンティティの構文解析および識別に基づくクロスドキュメントの修辞的つながりの判断

Info

Publication number: JP2020537224A
Application number: JP2020517950A
Authority: JP
Inventors: ガリツキー，ボリス
Original assignee: オラクル・インターナショナル・コーポレイション
Priority date: 2017-09-28
Filing date: 2018-09-28
Publication date: 2020-12-17
Anticipated expiration: 2038-09-28
Also published as: US20200394363A1; US11295085B2; CN111149100A; WO2019067869A1; JP7187545B2; US20220261548A1; US20190095420A1; EP3688609A1; JP2023029931A; CN117114001A; CN111149100B; US10853574B2; US11797773B2

Abstract

本発明のシステム、デバイス、および方法は、拡張談話ツリー、および拡張談話ツリーを用いてテキストをナビゲートすることに関する。一例において、談話ナビゲーションアプリケーションは、第１のドキュメントの第１のパラグラフのための第１の談話ツリーと、第２のドキュメントの第２のパラグラフのための第２の談話ツリーとを作成する。アプリケーションは、第１の談話ツリーからエンティティおよび対応する第１の基本談話単位を判断する。アプリケーションは、第２の談話ツリーで、存在する、第１の基本談話単位に一致する第２の基本談話単位を判断する。アプリケーションは、それら２つの基本談話単位間の修辞的つながりを判断し、それら２つの談話ツリー間にナビゲート可能なリンクを作成する。

Description

関連出願への相互参照
この出願は、２０１７年９月２８日に提出された米国仮出願第６２／５６４，９６１号、および２０１８年９月１０日に提出された米国仮出願第６２／７２９，３３５号の利益を主張し、それらの全体をここに引用により援用する。

技術分野
本開示は、一般的に言語学に関するものである。より具体的には、本開示は、拡張談話ツリーを用いて、テキストの１つ以上の本文をナビゲートすることに関する。

連邦政府による資金提供を受けた研究開発の下でなされた発明に対する権利に関する声明
適用不可。

背景
自律型エージェント（チャットボット）は、カスタマーサービスの提供など、さまざまなアプリケーションでユーザの質問に答えるようにトレーニングできる。カスタマーサービスの履歴やその他のデータベースなど、自律型エージェントのトレーニングには、さまざまなコンテンツを利用できる。しかしながら、そのようなコンテンツには誤った情報が含まれている可能性があり、その情報を用いてトレーニングされた自律型エージェントは、ユーザから受け取った質問に対して誤った回答をすることがある。

代わりに、正式なドキュメントはより高いレベルの正確さを提供できる。正式なドキュメントの例には、銀行の処理および手順マニュアルが含まれる。しかしながら、キーワードベースの検索ソリューションなどの現在の分析手法では、これらの正式なドキュメントのさまざまな部分の関連性を捉えることができず、それは、誤った結果に繋がる。より具体的には、キーワードが存在するかどうかを判断するキーワードベースのソリューションは、テキストにおけるダイアログ（一連の関連した対話）を解釈できない。そのため、そのようなソリューションに依存する自律型エージェントは、ユーザからの質問に適切に対応せず、そのようなエージェントの有効性を低下させ、ユーザの不満を引き起こす。

したがって、テキストの本文内およびテキストの本文間を検索およびナビゲートするための改善されたソリューションが必要とされる。

簡単な要約
一般に、本発明のシステム、デバイス、および方法は、拡張談話ツリーに関する。一例では、ある方法は第１のドキュメントおよび第２のドキュメントにアクセスする。この方法は、第１のドキュメントの第１のパラグラフについて第１の談話ツリーを作成する。この方法は、第２のドキュメントの第２のパラグラフについて第２の談話ツリーを作成する。この方法は、第１の談話ツリーからエンティティおよび対応する第１の基本談話単位を判断し、前記判断は、談話ツリーから名詞句を抽出し、名詞句をエンティティまたはエンティティではないものとして分類し、第２の談話ツリーにおいて、第１の基本談話単位と一致する第２の基本談話単位を判断することによって、行われる。この方法は、第１の談話単位と第２の談話単位との間の修辞的つながりを判断することに応答して、修辞的つながりを介して第１の談話ツリーと第２の談話ツリーとをリンクし、それによって拡張談話ツリーを作成する。

一局面では、第１の談話ツリーを作成することおよび第２の談話ツリーを作成することは、フラグメントを含むセンテンスにアクセスすることをさらに含む。少なくとも１つのフラグメントには動詞および単語が含まれ、各単語にはフラグメント内の単語の役割が含まれる。各フラグメントは基本談話単位である。作成することは、複数のフラグメント間の修辞的つながりを表す談話ツリーを生成することをさらに含む。談話ツリーはノードを含み、各非終端ノードは２つのフラグメント間の修辞的つながりを表し、談話ツリーのノードの各終端ノードは複数のフラグメントの１つに関連付けられる。

一局面では、分類することは、トレーニングされた機械学習モデルの使用、キーワードのリスト、またはインターネットリソースの検索、のうちの１つ以上を含む。

一局面では、エンティティは、人、企業、場所、ドキュメントの名前、または日付もしくは時間のいずれかを指す。

一局面では、この方法は、修辞的つながりを判断しないことに応答して、第１の基本談話単位と第２の基本談話単位との間のタイプ詳述のデフォルトの修辞的つながりを作成し、第１の談話ツリーと第２の談話ツリーとをリンクすることにより、拡張談話ツリーを作成する。

一局面では、修辞的つながりを判断することは、第１の基本談話単位と第２の基本談話単位とを一時パラグラフに結合することと、談話構文解析を一時パラグラフに適用することによって一時パラグラフ内で修辞的つながりが見つかる、と判断することとをさらに含む。

一局面では、エンティティは、１つ以上のフレーズまたは１つ以上の基本談話単位のいずれかによって表される。

一局面では、第１のドキュメントおよび第２のドキュメントにアクセスすることは、第１のドキュメントの第１のコンテンツスコアと第２のドキュメントの第２のコンテンツスコアとの差がしきい値内である、と判断することを含む。

一局面では、第１のドキュメントおよび第２のドキュメントは、１つ以上のドキュメントのユーザクエリを実行することによって取得される。

一局面では、第１のドキュメントおよび第２のドキュメントは、特定のトピックに基づくテキストを含む。

一局面では、第１のドキュメントおよび第２のドキュメントにアクセスすることは、第１のドキュメントと第２のドキュメントとの間に既存のリンクが存在する、と判断することを含む。

さらなる局面では、拡張談話ツリーを用いてテキストの本文をナビゲートする方法は、ドキュメントを表す拡張談話ツリーにアクセスすることを含む。拡張談話ツリーは、第１のドキュメントのための第１の談話ツリーと、第２のドキュメントのための第２の談話ツリーとを含む。この方法はさらに、拡張談話ツリーから、ユーザデバイスからのクエリに応答する第１の基本談話単位と、第１の基本談話単位に対応する第１の位置とを判断することを含む。この方法はさらに、拡張談話ツリーから、第１の基本談話単位と第１の談話ツリーの第２の基本談話単位との間の第１の修辞的つながりと、第１の基本談話単位と第２の談話ツリーの第３の基本談話単位との間の第２の修辞的つながりとを含む、ナビゲーションオプションのセットを判断することを含む。この方法はさらに、第１の修辞的つながりおよび第２の修辞的つながりをユーザデバイスに提示することを含む。この方法はさらに、ユーザデバイスから第１の修辞的つながりの選択を受け取ることに応答して、第２の基本談話単位をユーザデバイスに提示すること、またはユーザデバイスから第２の修辞的つながりの選択を受け取ることに応答して、第３の基本談話単位をユーザデバイスに提示することを含む。

一局面では、この方法は、ユーザデバイスから追加のクエリを受け取ることに応答して、追加のクエリに応答する追加の基本談話単位を判断し、追加の基本談話単位をユーザデバイスに提示することをさらに含む。

一局面では、第１の基本談話単位を判断することは、第１の基本談話単位においてクエリからの１つ以上のキーワードを照合することをさらに含む。

一局面では、第１の基本談話単位を判断することは、クエリについて第１のパースツリーを生成することと、１つ以上の基本談話単位の各々について追加のパースツリーを生成することと、追加のパースツリーのうちの１つが第１のパースツリーを含む、と判断することに応答して、その１つの追加のパースツリーに対応する基本談話単位を第１の基本談話単位として選択することとをさらに含む。

一局面では、第１の修辞的つながりおよび第２の修辞的つながりは、詳述、可能化、条件、対比、または帰属のうちの１つを含む。

一局面では、上記の方法は、有形のコンピュータ読取可能媒体上に実現され、ならびに／またはコンピュータプロセッサおよび取り付けられたメモリ内で動作することができる。

一局面では、ある方法は、１つ以上のドキュメント間の修辞的つながりを判断する。この方法は、ドキュメントのセットの第１のドキュメントを表す第１の談話ツリーと、ドキュメントのセットからの第２のドキュメントを表す第２の談話ツリーとにアクセスする。この方法は、第１の談話ツリーおよび第２の談話ツリーをトレーニングされた分類モデルに適用することによって、拡張談話ツリーのセットから参照拡張談話ツリーを取得する。トレーニングされた分類モデルは、拡張談話ツリーのセットを通って反復して、第１の候補談話ツリーおよび第２の候補談話ツリーを識別する。第１の候補談話ツリーおよび第２の候補談話ツリーは、第１の談話ツリーおよび第２の談話ツリーについての最良の一致である。この方法は、参照拡張談話ツリーから、第１の参照談話ツリーと第２の参照談話ツリーとの間において１つ以上のリンクを判断する。この方法は、その１つ以上のリンクを第１の談話ツリーと第２の談話ツリーとに伝播し、それによって拡張談話ツリーを作成する。

一局面では、この方法は、さらに、１つ以上のリンクに基づいて、第１の談話ツリーと拡張ツリーとの間において１つ以上の修辞的つながりを判断し、その修辞的つながりをユーザデバイスに提示する。

一局面による例示的な修辞分類環境を示す。一局面による談話ツリーの例を示す。一局面による談話ツリーのさらなる例を示す。一局面による例示的なスキーマを示す。一局面による、階層型バイナリツリーのノードリンク表現を示す。一局面による、図５の表現の例示的なインデントされたテキストエンコーディングを示す。一局面による財産税に関する例示的な要求についての例示的なＤＴを示す。図７に表される質問に対する例示的な応答を示す。一局面による公式の回答の談話ツリーを示す。一局面による未処理の回答の談話ツリーを示す。一局面による、拡張談話ツリーの例を示す。一局面による、拡張談話ツリーを作成するためのプロセスの例のフローチャートを示す。これも、一局面による、異なる粒度レベルでのドキュメントのテキスト単位間の関係を示す。一局面による、拡張談話ツリーを用いてドキュメント間をナビゲートするためのプロセスの例のフローチャートを示す。一局面による、拡張談話ツリーを用いてユーザの質問に答える自律型エージェントの例を示す。一局面による、拡張談話ツリーの例を示す。一局面による、検索エンジンを用いるナビゲーションと拡張談話ツリーで有効になっている自律型エージェントを用いるナビゲーションとの間の比較を示す。局面の１つを実現するための分散型システムの簡略図を示す。ある局面のシステムのコンポーネントによって提供されるサービスがある局面に従ってクラウドサービスとして提供され得るシステム環境のコンポーネントの簡略化されたブロック図である。本発明のさまざまな局面を実現することができる例示的なコンピュータシステムを示す。

詳細な説明
上記のように、現在のキーワードベースのソリューションは、テキストの本文内のテキストのさまざまな部分についての関連性を捉えることができず、その結果、意思疎通談話を充分に理解せずに人間の対話を模倣しようとする自律型エージェントとなる。このようなソリューションでは、自律型エージェントがランダムな一連の発話を発し、タスクの達成や推奨の提供を困難にする。

対照的に、本明細書で開示される局面は、コンピュータにより実現される言語学およびテキストナビゲーションの領域に技術的改善を提供する。より具体的には、特定の局面は、特定のドキュメントの談話単位間の修辞的つながりだけでなく、複数のドキュメントにわたって識別されたエンティティ間の修辞的つながりも表す拡張談話ツリーを作成する。そうする際、特定の局面は、自律型エージェントとの対話、または異なるドキュメントに編成もしくは分割されるテキストの本文を検索およびナビゲートするために、結束性のある談話フローを提供する。

たとえば、談話ナビゲーションアプリケーションは、さまざまなテキスト単位（パラグラフなど）について個々の談話ツリーを構築し、談話分析を実行して談話ツリー間の修辞関係を判断し、そこから単一の拡張談話ツリーを作成する。拡張談話ツリーには、個々の談話ツリー内のドキュメント内修辞関係に加えて、ドキュメント間修辞関係が含まれる。次いで、談話ナビゲーションアプリケーションは、拡張談話ツリーを用いて、自律型エージェントまたは検索を促進できる。

談話ツリーは修辞構造理論（ＲＳＴ）に由来する。ＲＳＴは、テキストの部分間の関係に依存して、書き手によって用いられるテキストの論理的な編成をモデル化する。ＲＳＴは、談話ツリーを介してテキストの階層的な接続された構造を形成することにより、テキストの一貫性をシミュレートする。修辞関係は、同等のクラスおよび下位のクラスに分割され；これらの関係は２つ以上のテキストスパンにわたって保持されるため、一貫性を実現する。これらのテキストスパンを基本談話単位（ＥＤＵ）と称する。センテンス中の節およびテキスト中のセンテンスは、作成者によって論理的に接続される。所与のセンテンスの意味は前のセンテンスおよび次のセンテンスの意味と関係付けられる。

談話ツリーの葉は、ＥＤＵ、連続したアトミックテキストスパンに対応する。隣接するＥＤＵは一貫性関係（帰属、シーケンスなど）によって接続され、より高いレベルの談話単位を形成する。特定のＥＤＵの葉は論理的に関係付けられる。この関係は、テキストの一貫性構造と呼ばれる。関係の例には、詳述および可能化が含まれる。本明細書で用いられる場合、「核性」は、どのテキストセグメント、フラグメント、またはスパンが書き手の目的にとってより中心的であるかを指す。「核」とは、書き手の目的のより中心ではない「衛星」よりも書き手の目的の中心となるテキストのスパンを指す。

以下の非限定的な例は、特定の局面を紹介するために与えられる。コンピューティングデバイス上で実行される談話ナビゲーションアプリケーションは、入力ドキュメントのセットにアクセスする。談話ナビゲーションアプリケーションは、各ドキュメントの各パラグラフに対して個々の談話ツリーを作成する。各談話ツリーは、エンティティ間の修辞関係を識別し、それによってエンティティ（たとえば、場所、物、人などのトピック）間のナビゲーションを容易にする。たとえば、談話ツリーを用いると、ユーザは、カリフォルニアを説明するテキストから、共通のエンティティ（カリフォルニア）の識別に基づいて、サンフランシスコなどのカリフォルニアの都市に関する情報を含むテキストと、そのエンティティ（サンフランシスコ）についてさらに詳しく説明するテキストにナビゲートできる。

特定の談話ツリー内の判断された修辞関係に加えて、談話ナビゲーションアプリケーションは、談話ツリー間の追加の談話分析を実行し、分析に基づいてドキュメント間のリンクを作成する。より具体的には、談話ナビゲーションアプリケーションは、（たとえば、第１のドキュメントを表す）第１の談話ツリーにおいてエンティティを識別し、（たとえば、第２のドキュメントを表す）第２の談話ツリーにおいて任意のそのようなエンティティを識別し、次いで、対応するエンティティ間において修辞的つながりを判断する。このようにして、談話ナビゲーションアプリケーションは、複数のドキュメントにおいて表されるエンティティ間のナビゲーションを可能にする。

たとえば、談話ナビゲーションアプリケーションは、野球について論ずる第１のドキュメントの、あるパラグラフを、追加情報を提供して野球について詳しく説明する第２のドキュメントの第２のパラグラフ、アトランタブレーブスなどの野球チームの例を示す第３のドキュメントの第３のパラグラフなどと関係付ける。

別の例では、談話ナビゲーションアプリケーションは、対比の修辞関係を識別することができ、ユーザに対照的要素を提供するために用いることができる。たとえば、第１のドキュメントにおけるエンティティはあるトピックにおいてある位置をとり、たとえば、「一部の専門家は、気候変動は人間の活動によって引き起こされると信じている」は、第２のドキュメンにおけるエンティティに関係付けられるテキスト「しかし、少数の専門家は、気候変動は循環的であると信じている。」と対比される。拡張談話ツリーは、背景、正当化、動機などを含む、ドキュメント間の複数の修辞関係を表すことができる。

特定の局面では、トレーニングされた機械学習モデルを用いて、追加の拡張談話ツリーを構築する。トレーニングされた分類モデルは、第２のドメインにあるテキストについての拡張談話ツリーのセットを用いて、第１のドメインにあるテキストについての談話ツリーから拡張談話ツリーを作成できる。たとえば、拡張談話ツリーは、時事問題からの拡張談話ツリーでトレーニングされた分類モデルを用いて、法的ドキュメントからの複数の談話ツリーから作成できる。

特定の定義
本明細書で用いられる場合、「テキスト単位」は、テキストの単位を指す。例には、基本談話単位、フレーズ、フラグメント、センテンス、パラグラフ、ページ、ドキュメントが含まれる。

本明細書で用いられる場合、「エンティティ」は、他と明確に区別できる独立した存在を伴うものを指す。エンティティはテキスト単位において用いることができる。エンティティの例には、人、企業、場所、ドキュメントの名前、または日付もしくは時間が含まれる。

本明細書で用いられる場合、「修辞構造理論」は、談話の一貫性を分析することができる理論的基礎を提供した調査および研究の分野である。

本明細書で用いられる場合、「談話ツリー」または「ＤＴ」は、センテンスまたはセンテンスの一部についての修辞関係を表現する構造を指す。

本明細書で用いられる場合、「修辞関係（rhetorical relation）」、「修辞的つながり（retorical relationship）」、「一貫性関係」または「談話関係」は、２つの談話のセグメントが互いに如何に論理的に接続されているかを述べている。修辞関係の例は詳述、対比および帰属を含む。

本明細書で用いられる場合、「センテンスフラグメント」または「フラグメント」は、センテンスの残りから分割することができるセンテンスの一部である。フラグメントは基本談話単位である。たとえば、「Dutch accident investigators say that evidence points to pro-Russian rebels as being responsible for shooting down the plane（オランダの事故調査員は、証拠が、飛行機の撃墜をロシア支持派の反乱分子によるものであると示唆している、と述べている）」というセンテンスの場合、２つのフラグメントは、「Dutch accident investigators say that evidence points to pro-Russian rebels」および「as being responsible for shooting down the plane」である。フラグメントは動詞を含み得るが、必ずしも動詞を含んでいる必要はない。

本明細書で用いられる場合、「インデックス」は、テーブル、データ構造、ポインタ、または２つのキーワード、データ、もしくはテキストの部分同士をリンクする他のメカニズムである。インデックスには、検索可能なコンテンツを含めることができる。インデックスの例には、逆インデックス、検索可能なインデックス、文字列の一致などがある。逆インデックスも検索可能である。

次に図を参照して、図１は、一局面による例示的なドキュメントナビゲーション環境を示す。図１は、入力ドキュメント１１０ａ〜ｎ、コンピューティングデバイス１０１、ユーザデバイス１７０、およびデータネットワーク１０４を示す。

コンピューティングデバイス１０１は、談話ナビゲーションアプリケーション１０２、拡張談話ツリー１３０、機械学習モデル１２０、およびトレーニングデータ１２５を含む。一例では、談話ナビゲーションアプリケーション１０２は、入力ドキュメント１１０ａ〜ｎを受け取り、各入力ドキュメント１１０ａ〜ｎについて談話ツリーを作成し、生成された談話ツリー内においてエンティティを判断し、エンティティ間の修辞関係を判断し、拡張談話ツリー１３０を作成する。コンピューティングデバイスはまた、ユーザデバイス１７０からクエリを受信し、拡張談話ツリー１３０をナビゲートすることによってそれらのクエリを処理することができる。

ユーザデバイス１７０は、携帯電話、スマートフォン、タブレット、ラップトップ、スマートウォッチなどの任意のモバイルデバイスであり得る。ユーザデバイス１７０は、コンピューティングデバイス１０１とデータネットワーク１０４を介してコンピューティングデバイス１０１またはリモートサーバに通信する。データネットワーク１０４は、任意のパブリックもしくはプライベートネットワーク、有線もしくは無線ネットワーク、広域ネットワーク、ローカルエリアネットワーク、またはインターネットであり得る。ユーザデバイス１７０の機能は、例えば、アプリケーションまたはウェブアプリケーションを介して、ソフトウェアで実現することができる。ユーザデバイス１７０は、ディスプレイ１７１を含む。ディスプレイ１７１の例には、コンピュータ画面、モバイルデバイス画面、ＬＣＤ、またはＬＥＤバックライトディスプレイなどが含まれる。

ディスプレイ１７１は、３つのメッセージ１８１〜１８３を示す。例を続けると、談話ナビゲーションアプリケーション１０２は、ユーザデバイス１７０からメッセージ１８１を受け取る。メッセージ１８１は、「あるクレジットカードを用いて別のクレジットカードの代わりに支払うことはできるか？」というユーザクエリである。「談話ナビゲーションアプリケーション１０２は、拡張談話ツリー１３０にアクセスし、エンティティ「クレジットカード」が第１のドキュメントの談話ツリーに存在する、と判断する。その後、談話ナビゲーションアプリケーション１０２は、エンティティ「クレジットカード」についてさらに詳しく説明するいくつかの異なる可能性が存在する、と判断する。具体的には、談話ナビゲーションアプリケーション１０２は、名詞句「残高送金」、「当座預金口座での資金の利用」、および「あなたのクレジットカードを解約すること」が、各々、エンティティ「クレジットカード」からリンクされており、拡張談話ツリー１３０内の１つ以上の他の談話ツリーにおいて見いだされる、と判断する。したがって、談話ナビゲーションアプリケーション１０２は、ユーザデバイス上にメッセージ１８２を提示する。それに応じて、メッセージ１８３によって示されるように、ユーザが「解約」を選択すると、次いで、談話ナビゲーションアプリケーションはエンティティ「クレジットカード」と「あなたのクレジットカードを解約すること」との間の修辞関係に従う。

談話ナビゲーションアプリケーション１０２はこのプロセスを継続することができ、それは、この回答ナビゲーションセッションにおける収束を容易にし、なぜならば、メッセージ１８２がユーザによって読まれた後に出される追加の説明に基づいて追加の回答を提案することができるからである。追加の回答またはテキストは、特定の修辞関係に基づいて提案することができる。たとえば、詳述関係によって関係付けられるテキストを提示することは、ユーザにとってトピックについて詳しく説明するのに役立ち、対比関係によって関係付けられるテキストを提示することは、ユーザに対照的要素を提供する。このようにして、提示されたトピックは、要求がどのように理解されたかを評価し、質問に関連付けられるなんらかの基本的な知識を学習する機会をユーザに提供し、従来の検索エンジンベースのソリューションよりも収束を改善する結果となる。例えば、ドキュメントナビゲーションオプション１０２は、「悪い判断」、「絶縁」、または「経済的範囲外」などのオプションを提示することができる。

修辞学構造理論および談話ツリー
言語学は言語についての科学的研究である。たとえば、言語学は、センテンス（構文）の構造、たとえば、主語−動詞−目的語、センテンス（セマンティックス）の意味、たとえば、「dog bites man（犬が人を噛む）」に対して「man bites dog（人が犬を噛む）」、さらに、話し手が会話中に行うこと、すなわち、談話分析またはセンテンスの範囲を超えた言語の分析、を含み得る。

談話の理論上の基礎（修辞構造理論（Rhetoric Structure Theory：ＲＳＴ））は、Mann、WilliamおよびThompson、Sandraによる「Rhetorical structure theory: A Theory of Text organization」（Text-Interdisciplinary Journal for the Study of Discourse）8(3):243-281: 1988）によるものであり得る。プログラミング言語理論の構文およびセマンティックスが現代のソフトウェアコンパイラの可能化に如何に役立ったのかと同様に、ＲＳＴは談話の分析の可能化に役立った。より具体的には、ＲＳＴは、構造ブロックを少なくとも２つのレベルで想定している。２つのレベルは、核性および修辞関係などの第１のレベルと、構造またはスキーマの第２のレベルとを含む。談話パーサーまたは他のコンピュータソフトウェアは、テキストを談話ツリーにパース（構文解析）することができる。

修辞関係
上述したように、この明細書中に記載されるいくつかの局面は修辞関係および談話ツリーを用いている。修辞関係はさまざまな方法で説明することができる。たとえば、MannおよびThompsonは２３の実現可能な関係について記載している。C. Mann, William & Thompson, Sandra（１９８７）（「Mann and Thompson」）による「Rhetorical Structure Theory: A Theory of Text Organization）がある。他のいくつかの関係も実現可能である。以下の表２は、異なる修辞関係を挙げる。

いくつかの経験的研究は、大多数のテキストが核−衛星関係を用いて構築されていることを前提としている。MannおよびThompsonを参照されたい。しかしながら、他の関係は、核の有限選択を伴わない。このような関係の例を以下の表３に示す。

図２は、一局面に従った談話ツリーの例を示す。図２は談話ツリー２００を含む。談話ツリーは、テキストスパン２０１、テキストスパン２０２、テキストスパン２０３、関係２１０、および関係２１１を含む。図２における数は３つのテキストスパンに対応する。図２は、１、２、３と番号付けられた３つのテキストスパン付きの以下のテキスト例に相当する。

１．ホノルル（ハワイ）はハワイの歴史に関する２０１７年の会議の開催地になるだろう（Honolulu, Hawaii will be site of the 2017 Conference on Hawaiian History）。

２．米国およびアジアから２００人の歴史家が参加することが期待される（It is expected that 200 historians from the U.S. and Asia will attend）。

３．会議はポリネシア人がハワイまでどのように航海したかに関する（The conference will be concerned with how the Polynesians sailed to Hawaii）。

たとえば、関係２１０または詳述は、テキストスパン２０１とテキストスパン２０２との間の関係を記載する。関係２１０は、テキストスパン２０３とテキストスパン２０４との間の関係（詳述）を示す。示されるように、テキストスパン２０２および２０３はテキストスパン２０１をさらに詳述している。上述の例においては、読み手に会議を通知することが目的であると想定すると、テキストスパン１が核である。テキストスパン２および３は、会議に関するより多くの詳細を提供する。図２において、水平方向に並んだ数（たとえば１−３、１、２、３）は、（場合によってはさらに別のスパンで構成された）テキストのスパンをカバーしており、垂直な線は核または複数の核を示している。曲線は修辞関係（詳述）を表わしており、矢印の方向は衛星から核を指している。テキストスパンのみが、核としてではなく衛星として機能する場合、衛星を削除しても依然としてテキストには一貫性が残るだろう。図２から核を削除する場合、テキストスパン２および３を理解することが困難になる。

図３は、一局面に従った談話ツリーのさらなる例を示す。図３は、構成要素３０１および３０２、テキストスパン３０５〜３０７、関係３１０、および関係３１１を含む。関係３１０可能化は、構成要素３０６と構成要素３０５との間、および構成要素３０７と構成要素３０５との間の関係を記述する。図３は以下のテキストスパンを指している、
１．新しい技術報告の要約は、現在、簡略版辞典付近の蔵書の雑誌領域にあります（The new Tech Report abstracts are now in the journal area of the library near the abridged dictionary）。

２．閲覧に興味のある方はご署名ださい（Please sign your name by any means that you would be interested in seeing）。

３．登録の最終日は５月３１日です（Last day for sign-ups is 31 May）。
図から分かるように、関係３１０は、エンティティ３０７とエンティティ３０６との関係、すなわち可能化、を示している。図３は、複数の核を入れ子状にすることができるが、最も核性のある１つのテキストスパンだけが存在することを例示している。

談話ツリーの構築
談話ツリーはさまざまな方法を用いて生成することができる。ＤＴボトムアップ（DT bottom up）を構築するための方法の単純な例は以下のとおりである：
（１）以下の（ａ）および（ｂ）によって談話テキストを複数単位に分割する。

（ａ）単位サイズが分析の目的に応じて変わる可能性がある。
（ｂ）典型的には単位は節である。

（２）各々の単位およびそれぞれの隣接単位を検査する。それらの間に関係が保たれているか？
（３）関係が保たれている場合、その関係に印を付ける。

（４）関係が保たれていない場合、その単位はより高いレベルの関係の境界にある可能性がある。より大きな単位（スパン）同士の間に保たれている関係に注目する。

（５）テキスト中のすべての単位が把握されるまで続ける。
MannおよびThompsonはまた、スキーマ・アプリケーションと呼ばれるブロック構造の構築の第２のレベルを記載している。ＲＳＴにおいては、修辞関係が、テキスト上に直接マッピングされず、それらはスキーマ・アプリケーションと呼ばれる構造上に適合され、これらはさらにテキストに適合される。スキーマ・アプリケーションは、（図４によって示されるような）スキーマと呼ばれる、より単純な構造に由来している。各々のスキーマは、テキストの特定の単位が如何にしてより小さなテキスト単位に分解されるかを示している。修辞構造ツリーまたはＤＴは、スキーマ・アプリケーションの階層システムである。スキーマ・アプリケーションは、いくつかの連続するテキストスパンをリンクさせ、複雑なテキストスパンを作成する。複雑なテキストスパンはさらに、より高レベルのスキーマ・アプリケーションによってリンクされ得る。ＲＳＴの主張によれば、すべての一貫した談話の構造を単一の修辞構造ツリーによって記述することができ、その最上位のスキーマによって談話全体を包含するスパンが作成される。

図４は、一局面に従った例示的なスキーマを示す。図４は、ジョイントスキーマが、核から成るが衛星を含まないアイテムのリストであることを示す。図４はスキーマ４０１〜４０６を示す。スキーマ４０１は、テキストスパン４１０とテキストスパン４１１との状況関係を示す。スキーム４０２は、テキストスパン４２０とテキストスパン４２１とのシーケンス関係、およびテキストスパン４２１とテキストスパン４２２とのシーケンス関係を示す。スキーマ４０３は、テキストスパン４３０とテキストスパン４３１との対比関係を示す。スキーマ４０４は、テキストスパン４４０とテキストスパン４４１とのジョイント関係を示す。スキーマ４０５は、４５０と４５１との動機づけ関係、および４５２と４５１との可能化関係を示す。スキーマ４０６は、テキストスパン４６０とテキストスパン４６２とのジョイント関係を示す。ジョイント方式の一例が、以下の３つのテキストスパンに関して図４に示される。

１．本日、ニューヨーク首都圏における天候は部分的に晴天となるでしょう（Skies will be partly sunny in the New York metropolitan area today）。

２．温度は華氏８０度半ばで湿度はより高くなるでしょう（It will be more humid, with temperatures in the middle 80's）。

３．今晩、おおむね曇りとなり、華氏６５度から７０度と低温になるでしょう（Tonight will be mostly cloudy, with the low temperature between 65 and 70）。

図２〜図４は、談話ツリーをいくつかのグラフで表示しているが、他の表現も可能である。

図５は、一局面に従った階層型バイナリツリーのノードリンク表現を示す。図５から分かるように、ＤＴの葉部は基本談話単位（ＥＤＵ）と呼ばれる、連続するが重複しないテキストスパンに相当する。隣接するＥＤＵ同士は、関係（たとえば詳述、帰属…）によって接続されており、関係によって接続されるより大きな談話単位を形成している。「ＲＳＴにおける談話分析は２つのサブタスクを含む。談話セグメンテーションはＥＤＵを識別するタスクであり、談話構文解析は、談話単位をラベル付けされたツリーにリンクするタスクである。」Joty, Shafiq RおよびGiuseppe Carenini, Raymond T Ng，およびYashar Mehdad（２０１３年）による、「Combining intra-and multi-sentential rhetorical parsing for document-level discourse analysis」（ACL (1), pages 486-496）を参照されたい。

図５は、ツリー上の葉部または終端ノードであるテキストスパンを示しており、図６に示されるテキスト全体に現われる順序で番号付けされている。図５はツリー５００を含む。ツリー５００は、たとえばノード５０１〜５０７を含む。ノードは関係性を示す。ノードは、ノード５０１などの非終端ノードまたはノード５０２〜５０７などの終端ノードである。図から分かるように、ノード５０３および５０４はジョイントの関係性によって関連づけられている。ノード５０２、５０５、５０６および５０８は核である。点線は、ブランチまたはテキストスパンが衛星であることを示している。これらの関係は灰色のボックスにおけるノードである。

図６は、一局面に従った、図５における表現についての例示的なインデントされたテキストエンコーディングを示す。図６はテキスト６００をおよびテキストシーケンス６０２〜６０４を含む。テキスト６００は、コンピュータプログラミングにより適用し易い態様で表わされている。テキストシーケンス６０２はノード５０２に対応する。シーケンス６０３はノード５０３に対応する。シーケンス６０４はノード５０４に対応する。図６においては、「Ｎ」は核を示し、「Ｓ」は衛星を示す。

談話パーサの例
自動的な談話セグメンテーションはさまざまな方法で実行することができる。たとえば、或るセンテンスを想定すると、セグメンテーションモデルは、センテンスにおける各々の特定のトークンの前に境界が挿入されるべきであるかどうかを予測することによって、複合的な基本談話単位の境界を識別する。たとえば、１つのフレームワークは、センテンス内の各トークンを連続的に独立して考慮に入れる。このフレームワークにおいては、セグメンテーションモデルは、トークンによってセンテンストークンをスキャンし、サポートベクトルマシンまたはロジスティック回帰などの二進法分類を用いて、検査されているトークンの前に境界を挿入することが適切であるかどうかを予測する。別の例においては、タスクは連続的にラベル付けする際の問題である。テキストが基本談話単位にセグメント化されると、センテンスレベルの談話構文解析を実行して談話ツリーを構築することができる。機械学習技術を用いることができる。

本発明の一局面においては、構成要素の構文に依拠するCoreNLPProcessorおよび依存性構文を用いるFastNLPProcessorという２つの修辞構造理論（ＲＳＴ）談話パーサが用いられる。Surdeanu, Mihai & Hicks, Thomas & Antonio Valenzuela-Escarcega, Marcoによる「Two Practical Rhetorical Structure Theory Parsers」（２０１５）を参照されたい。

加えて、上述の２つの談話パーサ、すなわち、CoreNLPProcessorおよびFastNLPProcessorは、自然言語処理（Natural Language Processing：ＮＬＰ）を構文解析に用いる。たとえば、Stanford CoreNLPは、会社、人々などの名前であろうとなかろうとスピーチの部分である複数単語の基本形状を提示し、日付、時間および数値量を標準化し、フレーズおよび構文依存の点からセンテンスの構造に印を付け、どの名詞句が同じエンティティを指しているかを示す。実際には、ＲＳＴは依然として、談話の多くの場合に機能し得る理論であるが、場合によっては機能しない可能性もある。どんなＥＤＵが一貫したテキスト中にあるか、すなわち、どんな談話セグメンタが用いられているか、どんな関係のインベントリが用いられているか、ＥＤＵのためにどんな関係が選択されているか、トレーニングおよびテストのために用いられるドキュメントのコーパス、さらには、どんなパーサが用いられているか、を含むがこれらに限定されない多くの変数が存在している。このため、たとえば、Surdeanu他による上述の論文「Two Practical Rhetorical Structure Theory Parsers」においては、どのパーサがよりよい性能を与えるかを判断するために、特化されたメトリクスを用いて特定のコーパス上でテストを実行しなければならない。このため、予測可能な結果をもたらすコンピュータ言語パーサとは異なり、談話パーサ（およびセグメンタ）は、トレーニングおよび／またはテストのテキストコーパスに応じて、予測不可能な結果をもたらす可能性がある。したがって、談話ツリーは、予測可能な技術（たとえば、コンパイラ）と（たとえば、どの組合わせが所望の結果をもたらし得るかを判断するのに実験が必要となる化学のような）予測不可能な技術とを混合したものとなる。

談話分析が如何に優れているかを客観的に判断するために、たとえば、Daniel Marcuの「The Theory and Practice of Discourse Parsing and Summarization」（MIT Press）（２０００）によるPrecision/Recall/F1（精度／再現度／Ｆ１）測定基準などの一連のメトリクスが用いられている。精度または肯定的な予測値は検索されたインスタンス中の情報提供インスタンスのごく一部であるとともに、（感度としても公知である）再現度は、情報提供インスタンスの総量にわたって検索された情報提供インスタンスのごく一部である。したがって、精度および再現度はともに、関連性についての理解および基準に基づいている。写真中の犬を認識するためのコンピュータプログラムが１２匹の犬および何匹かの猫を含む写真中に８匹の犬を識別すると想定する。識別された８匹の犬のうち、５匹は実際に犬（真陽性）であるが残りは猫（擬陽性）である。プログラムの精度は５／８であり、その再現度は５／１２である。検索エンジンが３０ページを戻すがそのうち２０ページしか情報を提供せず、４０ページの追加の情報提供ページを戻してこなかった場合、その精度は２０／３０＝２／３であり、その再現度は２０／６０＝１／３である。したがって、この場合、精度は「検索結果がどれくらい有用であるか」であり、再現度は、「結果はどれくらい完全であるか」である。Ｆ１スコア（Ｆ−スコアまたはＦ−基準）はテストの精度の基準である。それは、スコアを計算するためにテストの精度および再現度の両方を考慮に入れる。Ｆ１＝２ｘ（精度ｘ再現度）／（精度＋再現度））であり、精度と再現度との調和平均である。Ｆ１スコアは、１（完全な精度および再現度）でその最適値に達し、０で最悪値に達する。

要求および応答のペアの分析
図７は、一局面に従った、財産税に関する要求例についての例示的な談話ツリーを示す。ノードラベルは関係であり、矢印付きの線は衛星を指している。核は実線である。図７は以下のテキストを表す談話ツリー７００を示す。

要求：「My husbands' grandmother gave him his grandfather's truck. She signed the title over but due to my husband having unpaid fines on his license, he was not able to get the truck put in his name. I wanted to put in my name and paid the property tax and got insurance for the truck. By the time it came to sending off the title and getting the tag, I didn't have the money to do so. Now, due to circumstances, I am not going to be able to afford the truck. I went to the insurance place and was refused a refund. I am just wondering that since I am not going to have a tag on this truck, is it possible to get the property tax refunded？（私の夫の祖母が彼に彼の祖父のトラックを与えました。彼女は所有権を譲渡しましたが、私の夫には自身の免許に対する未払いの罰金があったため、彼はトラックを自身の名義に入れることができませんでした。私は自分の名義に入れたかったので、財産税を納付し、トラック用の保険に入りました。所有権を取り寄せて識別票を得るときには、私はそうするだけのお金を持っていませんでした。現在、状況によっては、私はトラックを所有するだけの余裕がなくなるでしょう。私は保険代理店を訪れましたが、払い戻しは拒否されました。私は、このトラックに識別票を付けることができないのであれば、財産税を払い戻してもらうことができるのではないかと考えています）」。

応答：「The property tax is assessed on property that you own. Just because you chose to not register it does not mean that you don't own it, so the tax is not refundable. Even if you have not titled the vehicle yet, you still own it within the boundaries of the tax district, so the tax is payable. Note that all states give you a limited amount of time to transfer title and pay the use tax. If you apply late, there will be penalties on top of the normal taxes and fees. You don't need to register it at the same time, but you absolutely need to title it within the period of time stipulated in state law（財産税は、あなたが所有する財産に課されるものです。あなたがそれを登録しないことを選択しただけですので、これは、あなたがそれを所有していないことを意味するものではありません。したがいまして、税を払い戻すことはできません。あなたがまだ乗物の権利を得ていないとしても、あなたは依然として課税区画の境界内に当該乗物を所有していますので、税金を払わなくてはなりません。なお、いずれの州においても、所有権の譲渡および利用税の納付のためにあなたに与えられている時間には制限があることに留意してください。あなたの申請が遅れた場合には、普通税および通常料金に加えて罰金が課されることになるでしょう。あなたは、乗物を同時に登録する必要はありませんが、州の法律で規定された期間内に確実にその権利を得る必要があります）」
図７から分かるように、上述のテキストを分析することにより、以下の結果が得られる。「My husbands' grandmother gave him his grandfather's truck」は、「I wanted to put in my name」、「and paid the property tax」、および「and got insurance for the truck」という表現によって詳述される「having unpaid fines on his license, he was not able to get the truck put in his name」によって詳述される「She signed the title over but due to my husband」という表現によって詳述される。

「My husbands' grandmother gave him his grandfather's truck. She signed the title over but due to my husband having unpaid fines on his license, he was not able to get the truck put in his name. I wanted to put in my name and paid the property tax and got insurance for the truck.」は、「it came to sending off the title」によって詳述される「By the time」と対比される「to do so」によって詳述される「I didn't have the money」によって詳述される。

「My husbands' grandmother gave him his grandfather's truck. She signed the title over but due to my husband having unpaid fines on his license, he was not able to get the truck put in his name. I wanted to put in my name and paid the property tax and got insurance for the truck. By the time it came to sending off the title and getting the tag, I didn't have the money to do so」は、「I went to the insurance place」および「and was refused a refund」によって詳述される「I am not going to be able to afford the truck」によって詳述される「Now, due to circumstances,」と対比される。

「My husbands' grandmother gave him his grandfather's truck. She signed the title over but due to my husband having unpaid fines on his license, he was not able to get the truck put in his name. I wanted to put in my name and paid the property tax and got insurance for the truck. By the time it came to sending off the title and getting the tag, I didn't have the money to do so. Now, due to circumstances, I am not going to be able to afford the truck. I went to the insurance place and was refused a refund.」は、「I am just wondering that since I am not going to have a tag on this truck, is it possible to get the property tax refunded？」で詳述されている。

「I am just wondering」は、「since I am not going to have a tag on this truck 」という条件を有する「is it possible to get the property tax refunded？」と同じ単位である「that」に属している。

以上のように、トピックの主な主題は「自動車に対する財産税」である。質問は、一方では、すべての所有物は課税可能であるというのに対して、他方では、所有権がいくらか不完全であるという矛盾を含んでいる。好適な応答により、質問のトピックに対処するとともに矛盾を明確にしなければならない。このために、応答者は、登録状態に関係なく所有されるものすべてに関して税金を納付する必要性についてさらに強い請求を行なっている。この例は、Ｙａｈｏｏ（登録商標）！Ａｎｓｗｅｒｓの評価ドメインから得られる肯定的なトレーニングセットの一要素である。トピックの主な主題は「自動車に対する財産税」である。質問は、一方では、所有物はすべて課税可能であるのに対して、他方では、所有権はいくらか不完全であるという矛盾を含んでいる。好適な回答／応答により、質問のトピックに対処するとともに矛盾を明確にしなければならない。読み手は、質問が対比の修辞関係を含んでいるので、納得させるために同様の関係で回答をこの質問と一致させなければならないことに気付き得る。他の場合には、この回答はその分野のエキスパートでない人々にとっても不完全に見えるだろう。

図８は、本発明の特定の局面に従った、図７に表わされた質問についての例示的な応答を示す。図８は談話ツリー８００を示す。中心核は、「that you own」によって詳述される「The property tax is assessed on property」である。「The property tax is assessed on property that you own 」はまた、「Just because you chose to not register it does not mean that you don't own it, so the tax is not refundable. Even if you have not titled the vehicle yet, you still own it within the boundaries of the tax district, so the tax is payable. Note that all states give you a limited amount of time to transfer title and pay the use tax」によって詳述される核である。

核である「The property tax is assessed on property that you own. Just because you chose to not register it does not mean that you don't own it, so the tax is not refundable. Even if you have not titled the vehicle yet, you still own it within the boundaries of the tax district, so the tax is payable. Note that all states give you a limited amount of time to transfer title and pay the use tax.」は、「If you apply late,」という条件付きの「there will be penalties on top of the normal taxes and fees」によって詳述される。これは、さらに、「but you absolutely need to title it within the period of time stipulated in state law」および「You don't need to register it at the same time」という対比によって詳述される。

図７のＤＴと図８のＤＴとを比較することで、応答（図８）を要求（図７）と如何に適切に一致させるかを判断することが可能となる。本発明のいくつかの局面においては、上述のフレームワークは、ＤＴ間の要求／応答および修辞学的合致についてＤＴを判断するために、少なくとも部分的に用いられる。

別の例において、「What does The Investigative Committee of the Russian Federation do（ロシア連邦の調査委員会が何を行なったのか」という質問は、たとえば、公式の回答または実際の回答という少なくとも２つの回答を有する。

図９は、一局面に従った公式の回答についての談話ツリーを示す。図９は、「The Investigative Committee of the Russian Federation is the main federal investigating authority which operates as Russia's Anti-corruption agency and has statutory responsibility for inspecting the police forces, combating police corruption and police misconduct, is responsible for conducting investigations into local authorities and federal governmental bodies.（ロシア連邦の調査委員会は主たる連邦捜査機関であって、ロシアの汚職防止機関として機能するとともに、警察を監査して警察の汚職および警察の違法行動を根絶するための法定上の責任を有しており、地方自治体および連邦行政体の調査を行なう責任を負っている）」と述べる公式回答または声明はについての談話ツリー９００である。

図１０は、一局面に従った未処理の回答についての談話ツリー１０００を示す。図１０に示されるように、別の、場合によってはより正直な回答は以下のとおりである。「Investigative Committee of the Russian Federation is supposed to fight corruption. However, top-rank officers of the Investigative Committee of the Russian Federation are charged with creation of a criminal community. Not only that, but their involvement in large bribes, money laundering, obstruction of justice, abuse of power, extortion, and racketeering has been reported. Due to the activities of these officers, dozens of high-profile cases including the ones against criminal lords had been ultimately ruined.（ロシア連邦の調査委員会は汚職と戦うよう想定されている。しかしながら、ロシア連邦の調査委員会のトップランクの高官は、犯罪集団の設立の役割を担っている。それだけでなく、これらの高官らが大規模な賄賂、マネーロンダリング、司法妨害、職権乱用、恐喝およびゆすりに関与していることが報告されてきた。これらの職員の活動により、犯罪の大物に関する事例を含むとともに注目を集めた数十の事例は最終的に台無しにされた。」
回答の選択は文脈に依存する。修辞構造は、「公式の（official）」、「政治的に正しい（politically correct）」テンプレートベースの回答と、「実際の（actual）」、「未処理の（raw）」、「現場からの報告（reports from the field）」または「論争の的となる（controversial）」回答とを区別することを可能にする（図９および図１０を参照されたい）。時として、質問自体は、どのカテゴリの回答が期待されているかについてのヒントを与えることができる。質問が、第２の意味を持たない類事実または定義的性質をもつ質問として策定されている場合、第１のカテゴリーの回答が適している。他の場合には、質問が、「それが実際に何であるかを私に伝える」という意味を有する場合、第２のカテゴリが適している。一般に、質問から修辞構造を抽出した後、同様の修辞構造、一致した修辞構造、または補足的な修辞構造を有するであろう適切な回答を選択することはより容易である。

公式の回答は、テキストが含む可能性のある議論の点から見て中立的である詳述およびジョイントに基づいている（図９を参照）。同時に、未処理の回答は対比関係を含んでいる。エージェントが行うと予想されるものについてのフレーズと、このエージェントが行ったと判明したことについてのフレーズとのこの関係が抽出される。

拡張談話ツリー
本開示の局面は、複数のドキュメントなどの関連コンテンツのコーパスから構築された拡張談話ツリーをナビゲートすることを容易にする。拡張談話ツリーは、複数のドキュメントからの個々のテキスト単位（たとえば、パラグラフ）からなる談話ツリーの組み合わせである。さまざまな局面では、拡張談話ツリーを用いて、キーワードに基づくズームインだけでなく、ドキュメントがどのように相互接続されるかに基づいてナビゲーションに入るか出るかまたは戻ることも可能にし、それにより自律型エージェントがガイド付き検索などのコンテンツナビゲーションを提供できるようにする。

図１１は、一局面による、拡張談話ツリーの例を示す。図１１は、拡張談話ツリー１１００を示す。拡張談話ツリー１１００は、グループ１１００、１１２０、１１３０、１１４０、および１１５０を含む。各グループは、ドキュメントと、ドキュメントから生成される談話ツリーとを含む。例えば、グループ１１１０は談話ツリー１１１１およびドキュメント１１１２を含み、グループ１１２０は談話ツリー１１２１およびドキュメント１１２２を含み、以下同様である。

特定の談話ツリー内、たとえば談話ツリー１１１１、１１２１、１１３１、１１４１、および１１５１の間のリンクに加えて、拡張談話ツリー１１００は、談話ツリー間リンク１１６１〜１１６４および関連付けられるドキュメント間リンク１１７１〜１１７４を含む。図１２に関してさらに説明されるように、談話ナビゲーションアプリケーション１０２は、談話ツリー１１１１〜１１１５を構築する。談話ツリー１１１１はドキュメント１１１２を表し、談話ツリー１１２１はドキュメント１１２２を表し、以下同様である。拡張談話ツリー１１００は、各パラグラフまたはドキュメントについて談話ツリーを構築することによって構築される。

談話ツリー間リンク１１６１は談話ツリー１１１１および１１２１を接続し、談話ツリー間リンク１１６２は談話ツリー１１２１および１１３１を接続し、談話ツリー間リンク１１６３は談話ツリー１１１１および１１４１を接続し、談話ツリー間リンク１１６４は談話ツリー１１２１および１１５１を接続する。談話ツリー間リンク１１６１〜１１６４に基づいて、談話ナビゲーションアプリケーション１０２は、談話ツリー間リンク１１６１、１１６２、１１６３、および１１６４にそれぞれ対応するドキュメント間リンク１１７１、１１７２、１１７３、および１１７４を作成する。ドキュメント間リンク１１７１〜１１７４は、ドキュメント１１１２、１１２２、１１３２、１１４２、および１１５２をナビゲートするために用いることができる。

談話ナビゲーションアプリケーション１０２は、談話ツリー１１１１〜１１１５の第１の談話ツリー内において１つ以上のエンティティを判断する。エンティティの例には、場所、物、人、または企業が含まれる。次に、談話ナビゲーションアプリケーション１０２は、他の談話ツリーに存在する同じエンティティを識別する。判断されたエンティティに基づいて、談話ナビゲーションアプリケーション１０２は、各一致するエンティティ間の修辞的つながりを判断する。

たとえば「San Francisco is in California（サンフランシスコはカリフォルニアにある）」など、エンティティ「San Francisco」がドキュメント１１１２に出現し、ドキュメント１１２２は、さらに、「San Francisco has a moderate climate but can be quite windy（サンフランシスコは穏やかな気候であるが、非常に風が強い）」と説明する場合、談話ナビゲーションアプリケーション１０２は、エンティティ「San Francisco」間の修辞的つながりは「詳述」の１つであると判断し、リンク１１６１および１１７１を「詳述」としてマークするであろう。例を続けると、談話ナビゲーションアプリケーション１０２は、判断された修辞関係に基づいて、リンク１１６２〜１１６４および対応するリンク１１７２〜１１７４を判断する。談話ナビゲーションアプリケーション１０２は、ドキュメントのパラグラフの談話ツリーを結合して、拡張談話ツリー１１００を形成する。

拡張談話ツリー１１００内のリンクを用いることにより、談話ナビゲーションアプリケーションは、同じドキュメントのパラグラフ間、またはドキュメント間、たとえばドキュメント１１１２と１１２２との間をナビゲートできる。例えば、ユーザが特定のトピックに関するより多くの情報に関心がある場合、談話ナビゲーションアプリケーション１０２は、パラグラフ内の核から衛星への詳述修辞関係、またはトピックに関してより具体的な情報を提供するドキュメントへの詳述修辞関係ハイパーリンクを通してナビゲートする。

逆に、提案されたトピックが正に必要なものではないとユーザが判断した場合には、ユーザは、ドキュメントの、より上位レベルのビューに戻ることができる（たとえば、衛星から核に、または狭いドキュメントから広いドキュメントに戻ることができる）。次に、談話ナビゲーションアプリケーション１０２は、反対の順序で、すなわち、パラグラフまたはドキュメント間のいずれかにおいて衛星から核まで、詳述関係をナビゲートする。同様に、談話ナビゲーションアプリケーション１０２は、論争のあるトピックを探索するために対比または条件修辞的つながりに依存するなど、他のナビゲーションオプションを容易にする。

談話ナビゲーションアプリケーション１０２は、異なるパラグラフまたはドキュメントのテキストフラグメント間の修辞リンクを構築するために、元のパラグラフのそれぞれのテキストフラグメントから架空のテキストフラグメントまたは一時パラグラフを用いてエンティティ間の関係性を識別し、そのパラグラフにおいて同一指示分析および談話構文解析を実行する。

図１２は、一局面による、拡張談話ツリーを作成するためのプロセス１２００の例のフローチャートを示す。プロセス１２００の入力はドキュメントのセットであり、出力は拡張談話ツリーであり、それは各ノードに対するドキュメント識別のラベルを伴う通常の談話ツリーとしてエンコードされる。例示の目的で、プロセス１２００は、２つのドキュメント、例えば、ドキュメント１１０ａ〜ｂに関して説明されるが、プロセス１２００は、任意の数のドキュメントを用いることができる。

ブロック１２０１で、プロセス１２００は、第１のドキュメントおよび第２のドキュメントにアクセスすることを含む。ドキュメントの例には、テキスト、本、ニュース記事、およびその他の電子ドキュメントが含まれる。

一局面では、談話ナビゲーションアプリケーション１０２は、トピックが類似または同一であるドキュメントを選択する。例えば、談話ナビゲーションアプリケーション１０２は、例えば、ドキュメント間のキーワードの類似性を判断することにより、各ドキュメントのコンテンツスコアを判断することができる。例えば、談話ナビゲーションアプリケーション１０２は、第１のドキュメントの第１のコンテンツスコアおよび第２のドキュメントの第２のコンテンツスコアがしきい値内である、と判断し、類似性に基づいて、第１および第２のドキュメントを用いて拡張談話ツリーを作成する。

一局面では、談話ナビゲーションアプリケーション１０２は、ドキュメントのセンテンスおよびフレーズ構造を表すドキュメントツリーの生成を含むドキュメント分析を実行する。ドキュメント間リンクに関連付けられる修辞関係は、さまざまなナビゲーションシナリオを決定できる。デフォルトでは、詳述を用いることができる。談話ナビゲーションアプリケーション１０２は、ユーザが「なぜ」または「どのようにして」などの質問に興味がある場合に、帰属関係によって関係付けられる別のドキュメントへのリンクを提供する。談話ナビゲーションアプリケーション１０２は、ユーザが最初に提示されたドキュメントとの意見の相違を表明した場合、または現在のドキュメントに対する対照的要素を提供するドキュメントを要求した場合に、対比関係によって関係付けられるドキュメントへのリンクを提供することができる。

さらなる局面では、談話ナビゲーションアプリケーション１０２は、ユーザクエリを実行することによって第１および第２のドキュメントを取得する。ユーザクエリの例には、「気候変動」や「言語学に関するドキュメント」などが含まれる。

ブロック１２０２で、プロセス１２００は、第１のドキュメントの第１のパラグラフについて第１の談話ツリーを作成することを含む。談話ナビゲーションアプリケーション１０２は、第１のドキュメントからのパラグラフにアクセスする。パラグラフの各センテンスには、フラグメント、または基本談話単位が含まれる。少なくとも１つのフラグメントには動詞が含まれる。フラグメント内の各単語には、フラグメント内のその単語の役割（例：機能など）が含まれる。談話ナビゲーションアプリケーション１０２は、フラグメント間の修辞的つながりを表す談話ツリーを生成する。談話ツリーは複数のノードを含み、各非終端ノードは２つのフラグメント間の修辞的つながりを表し、各終端ノードは複数のフラグメントの１つに関連付けられる。談話ナビゲーションアプリケーション１０２は、このように継続し、第１のドキュメントの各パラグラフについて談話ツリーのセットを構築する。プロセス１２００は、テキストの単位としてパラグラフに関して説明されているが、他のサイズのテキストを用いることもできる。

ブロック１２０３で、プロセス１２００は、第２のドキュメントの第２のパラグラフについて第２の談話ツリーを作成することを含む。ブロック１２０３で、プロセス１２００は、ブロック１２０２で第１のドキュメントに対して実行されたものと実質的に同様のステップを第２のドキュメントに対して実行する。プロセス１２００が３つ以上のドキュメントについて拡張談話ツリーを作成する場合、プロセス１２００は、ブロック１２０２で説明された機能を複数のドキュメントに対して実行する。プロセス１２００は、各談話ツリーがドキュメントに対応する談話ツリーのセット内の談話ツリーのすべてのペアを通って反復することができる。談話ツリーのペアは、以下のように表すことができる。

ＤＴ_ｉおよびＤＴ_ｊ∈ＤＴＡ
ブロック１２０４で、プロセス１２００は、第１の談話ツリーからエンティティおよび対応する第１の基本談話単位を判断することを含む。キーワード処理（第１のドキュメントのセンテンスにおいて事前定義されたキーワードのリストの１つを検索する）、トレーニングされた機械学習モデルを用いる、インターネットリソースを検索するなど、さまざまな方法を用いることができる。談話ナビゲーションアプリケーション１０２は、談話ツリーＤＴ_ｉおよびＤＴ_ｊにおいてすべての名詞句および名前付きエンティティを識別する。

一例では、談話ナビゲーションアプリケーション１０２は、談話ツリーから名詞句を抽出する。次に、談話ナビゲーションアプリケーション１０２は、トレーニングされた機械学習モデルを用いることによって、その名詞句を、（ｉ）エンティティ、または、（ｉｉ）エンティティではない、として分類する。

ブロック１２０５で、プロセス１２００は、第２の談話ツリーにおいて、第１の基本談話単位に一致する第２の基本談話単位を判断することを含む。より具体的には、談話ナビゲーションアプリケーション１０２は、オーバーラップを計算し、ＤＴ_ｉとＤＴ_ｊとの間の共通エンティティＥ_ｉ，ｊを識別する。談話ナビゲーションアプリケーション１０２は、等しい、サブエンティティ、または一部などの、Ｅ_ｉ，ｊにおけるエンティティの発生間の関係性を確立する。次に、談話ナビゲーションアプリケーション１０２は、Ｅ_ｉ，ｊにおける各エンティティペアの発生に対してパラグラフ間修辞リンクＲ（Ｅ_ｉ，ｊ）を形成する。

ブロック１２０６で、プロセス１２００は、第１の基本談話単位と第２の基本談話単位と間の修辞的つながりを判断することに応答して、その修辞的つながりを介して第１の談話ツリーと第２の談話ツリーとをリンクし、それによって拡張談話ツリーを作成する。より具体的には、談話ナビゲーションアプリケーション１０２は、例えばＥＤＵ（Ｅ_ｉ）およびＥＤＵ（Ｅ_ｊ）などのテキストフラグメントのマージを形成し、そのＤＴを構築し、各修辞リンクに対して認識された関係ラベルを用いることにより、各修辞リンクの修辞関係を分類する。

一局面では、談話ナビゲーションアプリケーション１０２は、第１の基本談話単位および第２の基本談話単位を一時パラグラフに結合する。次に、談話ナビゲーションアプリケーション１０２は、談話構文解析を一時パラグラフに適用することによって、一時パラグラフ内の第１の基本談話単位と第２の基本談話単位との間の修辞的つながりを判断する。

さらなる局面では、修辞的つながりを判断しないことに応答して、談話ナビゲーションアプリケーション１０２は、第１の基本談話単位と第２の基本談話単位との間のタイプ詳述のデフォルトの修辞的つながりを作成し、第１の談話ツリーと第２の談話ツリーとをリンクする。

一局面では、談話ナビゲーションアプリケーション１０２は、ドキュメント間にわたるテキストスパン間のリンクの自動構築および分類を実行する。ここでは、以下のアプローチのファミリー：語彙的距離、語彙的連鎖、情報抽出、および言語テンプレートマッチングを用いることができる。語彙的距離は、センテンスのペアに亘ってコサイン類似度を用いることができ、語彙的連鎖は、同義語および超義語を活用して、より堅牢であることができる。

拡張談話ツリーは、２つ以上のドキュメント間の関係を、異なる粒度レベルで形成できる。例えば、プロセス１２００に関して説明したように、関係は、基本談話単位間で判断することができる。さらに、拡張談話ツリーは、単語間、センテンス間、パラグラフ間、ドキュメントのセクション間、または全ドキュメント間の関係を表すことができる。示されているように、各個々のグラフは、各個々のドキュメントについてのより小さなサブグラフで構成されている。１つのドキュメント内のトピック間において論理的な接続を表すリンクが示される。

図１３も、一局面による、異なる粒度レベルでのドキュメントのテキスト単位間の関係を示す。図１３は、別個のドキュメントに各々が対応する談話ツリー１３０１、１３０２、および１３０３を示す。図１３は、ドキュメント１３０２および１３０３において単語をリンクする単語リンク１３１０、ドキュメント１３０１および１３０２においてパラグラフまたはセンテンスをリンクするパラグラフ／センテンスリンク１３１１、ドキュメント１３０１および１３０３においてフレーズをリンクするフレーズリンク１３１２、ならびにドキュメント１３０１および１３０３をリンクするクロスドキュメントリンク１３１３など、さまざまなドキュメント間リンクも示す。談話ナビゲーションアプリケーション１０２は、リンク１３１０〜１３１３を用いて、ドキュメント１３０１〜１３０３間をナビゲートすることができる。

ナビゲーションのための拡張談話ツリーの使用
プロセス１２００によって作成されるような拡張談話ツリーを用いて、ドキュメントまたは他のテキスト本文をナビゲートできる。拡張談話ツリーは、自律型エージェント、改善された検索およびナビゲーション、ならびに質問と回答との調整など、さまざまなアプリケーションを可能にする。

図１４は、一局面による、拡張談話ツリーを用いてドキュメント間をナビゲートするためのプロセス１４００の例のフローチャートを示す。

ブロック１４０１で、方法１４００は、複数のドキュメントを表す拡張談話ツリーにアクセスすることを含む。プロセス１２００に関して説明したように、拡張談話ツリーは、第１のドキュメントの第１の談話ツリーおよび第２のドキュメントの第２の談話ツリー、ならびに修辞関係を表すドキュメント間のリンクのセットを含むことができる。

一局面では、ドキュメントは、特定のユーザの質問またはクエリに応答することができる。談話ナビゲーションアプリケーション１０２は、ドキュメントのセット、データベース、またはインターネットリソースの検索を実行して、関連するドキュメントを判断することができる。さらに、談話ナビゲーションアプリケーション１０２は、質問またはクエリを第１のドキュメントとして用い、質問またはクエリへの回答を含むドキュメントを第２のドキュメントとして用いることができる。

ブロック１４０２で、方法１４００は、拡張談話ツリーから、ユーザデバイスからのクエリに応答する第１の基本談話単位、および第１の基本談話単位に対応する第１の位置を判断することを含む。第１の基本談話単位を判断することは、第１の基本談話単位においてクエリからの１つ以上のキーワードを照合することをさらに含むことができる。たとえば、クエリにおけるしきい値数のキーワードが、ある基本談話単位と一致する場合、その基本談話単位が選択される。

たとえば、談話ナビゲーションアプリケーション１０２は、ユーザクエリ、たとえば「アトランタ」を受け取る。談話ナビゲーションアプリケーション１０２は、エンティティ「アトランタ」を含む第１の基本談話単位を判断する。次に、談話ナビゲーションアプリケーション１０２は、第１の談話ツリー内において、関連付けられる位置を判断する。位置は、ノード番号や、ドキュメント識別子とパラグラフ識別子とを含む順序付けられたペアなど、さまざまな手段で示すことができる。

ブロック１４０３で、方法１４００は、拡張談話ツリーから、ナビゲーションオプションのセットを判断することを含む。オプションには、第１の基本談話単位と第１の談話ツリーの第２の基本談話単位との間の第１の修辞的つながりなど、ドキュメント内の基本談話単位間の修辞関係を含めることができる。オプションには、第１の談話ツリーの第１の基本談話単位と第２の談話ツリーの第３の基本談話単位との間の第２の修辞的つながりなど、ドキュメント間の修辞関係を含めることもできる。

上記の例を続けると、談話ナビゲーションアプリケーション１０２は、２つのオプションが利用可能であると判断する：１つは「アトランタ」について詳述する第１の談話ツリー内、たとえば「アトランタブレーブス」と、もう１つは「ジョージア工科大学」に関するさらなる情報を含む第２の談話ツリー内である。

ブロック１４０４で、方法１４００は、第１の修辞的つながりおよび第２の修辞的つながりをユーザデバイスに提示することを含む。上記の例を続けると、ユーザデバイス１７０は、「アトランタブレーブス」および「ジョージア工科大学」をユーザに提示する。

ブロック１４０５で、方法１４００は、（ｉ）ユーザデバイスから第１の修辞的つながりの選択を受け取ることに応答して第２の基本談話単位をユーザデバイスに提示すること、または（ｉｉ）ユーザデバイスから第２の修辞的つながりの選択を受け取ることに応答して第３の基本談話単位をユーザデバイスに提示することを含む。

上記の例を続けると、ユーザデバイス１７０は、「ジョージア工科大学」の選択を受け取り、それに応答して、談話ナビゲーションアプリケーション１０２は、「ジョージア工科大学」に対応する基本談話単位、例えば、「ジョージア工科大学はアトランタの研究大学である」をユーザデバイス１７０に与える。

一局面では、談話ナビゲーションアプリケーション１０２は、選択された結果を用いて、さらなる分析を実行する。たとえば、「ジョージア工科大学」の選択に基づいて、談話ナビゲーションアプリケーションは１つ以上のドキュメントにおいて「ジョージア工科大学」に関係付けられるエンティティを検索するか、または追加のドキュメントを検索して、拡張談話ツリーを分析し、オプションでそれに統合できる。

自律型エージェントへの拡張談話ツリーの適用
自律型エージェントは、ダイアログを維持する人間の知的活動を模倣するように設計されている。エージェントは、ユーザにとって効率的で効果的な情報を提供するために、反復態様で動作することができる。ダイアログ内の単語シーケンスのディープラーニングを用いるものを含む、自律型エージェントを実現するための既存のソリューションは、ユーザのクエリに応答するために、もっともらしい単語のシーケンスの構築を試みる。対照的に、本明細書に記載される特定の局面は、拡張談話ツリーを用いて、エージェントがユーザを適切な回答にできるだけ速くナビゲートすることを可能にする。

たとえば、ユーザが以下のクエリ「あるクレジットカードで別のクレジットカードの代わりに支払うことができるか」を作成した場合、エージェントはユーザの意図およびこのユーザに関する背景知識を認識して適切なコンテキストを確立しようとする。たとえば、ある個人は、現金が利用できない場合、遅延支払い料金を回避するために、１つのクレジットカードで別のクレジットカードに代わって支払いたいかもしれない。主要な検索エンジンのように、この質問に対して関連のウェブページへのリンクを伴うスニペットの形式で回答を提供する代わりに、特定の局面では、ユーザが選択できる回答のトピックを提供する。このようなトピックにより、ユーザは、一方で、自分の要求がどのように理解されたか、および他方で、自分の質問に関連付けられる知識分野が何であるか、を評価する機会が与えられる。我々の例では、トピックには、「残高送金」、「当座預金口座での資金の利用」、または「あなたのクレジットカードを解約すること」が含まれる。ユーザは、説明オプションを選択するか、これらのオプションのいずれかに掘り下げるか、またはすべてのオプションを拒否して、エージェントが識別できる新しいトピックのセットを要求するよう、促される。

拡張談話ツリーを用いて、談話ナビゲーションアプリケーション１０２は、ユーザクエリに最も近く一致するテキストのセクションを表す談話ツリーのルートノードから始めることができる。次に、談話ナビゲーションアプリケーション１０２は、談話ツリーのルートノードの衛星である基本談話単位からフレーズを抽出することにより、可能なトピックのセットを構築する。ユーザが特定のトピックを受け入れる場合、ナビゲーションは、グラフの、選択されたエッジに沿って、続行される。そうではなく、トピックがユーザの興味をカバーしない場合、談話ナビゲーションアプリケーション１０２は、拡張談話ツリー内を後ろ向きにナビゲートし、元のユーザクエリに一致した別の他のセクションまたは別のドキュメントに進む。

図１５は、一局面による、拡張談話ツリーを用いてユーザの質問に答える自律型エージェントの例を示す。図１５は、メッセージ１５０１〜１５０６を含むチャットウィンドウ１５００を示す。メッセージ１５０１、１５０３、および１５０５は、ユーザデバイス１７０によって送信され、メッセージ１５０２、１５０４、および１５０６は、談話ナビゲーションアプリケーション１０２によって実現される自律型エージェントによって送信される。

見て取れるように、ユーザデバイス１７０は、「私は破産して、お金が足りない。」と述べるメッセージ１５０１を送ることによってエージェントとの会話を開始する。エージェントは、拡張談話ツリーをナビゲートし、拡張談話ツリー内の第１の談話ツリーにおいてトピックを見つけ、メッセージ１５０１に応答するいくつかのトピックを判断する。

メッセージ１５０２に示されるように、トピックには「あなたの経済的範囲外である」、「悪い判断は結果をもたらす」、「破産したことから私が学んだこと」、「破産後の人生」、「さまざまな人との絶縁問題に苦しんでいる」、「あなたの現在の支払いを抑える」が含まれる。各トピックは、拡張談話ツリーのリンクをナビゲートすることによって判断される。各トピックは第１の談話ツリーまたは別の談話ツリーにあり得、というのも、拡張談話ツリーはドキュメント間およびドキュメント内にリンクを含むからである。

メッセージ１５０３で、ユーザデバイス１７０は、エージェントによって提供されたオプションから「支払いを抑える」オプションを選択する。次に、エージェントは、関連付けられるテキストのパラグラフをユーザデバイス１７０に与える。このプロセスは、メッセージ１５０４〜１５０６で示されるように続行される。

検索およびコンテンツ探索への拡張談話ツリーの適用
ウェブ上では、情報は、通常、ウェブページおよびドキュメントにおいて、特定のセクション構造で表される。質問への回答、候補回答のトピックの形成、およびユーザが選択したトピックに基づく回答の提供の試行は、関係するテキストの談話ツリーを含む構造の助けを借りて表すことができる操作である。テキストの特定の部分が回答としてユーザに提案された場合、このユーザは、より具体的なものに掘り下げたり、より一般的なレベルの知識にまで上げたり、または同じレベルのトピックへと横に移動したいかもしれない。テキストのある部分から別の部分にナビゲートするこれらのユーザの意図は、これらの部分間の同等または下位の談話関係として表すことができる。

本開示の局面は、ウェブベースの検索のためのアクセス時間を改善する。たとえば、さまざまな局面は、さまざまなウェブページおよびドキュメントからのテキストの塊を動的にツリー形式に編成でき、ユーザの選択に応じて、システムはこのツリーの意図される末端葉にできるだけ早くナビゲートできる。さらに、ユーザが自分の問題を複数のセンテンスで説明している場合、自律型エージェントは、修辞構造が質問の構造と調和している回答を見つけることによって、この問題に対処しようとする。そうすることで、エージェントは、質問からのエンティティに関するだけでなく、それらの間の論理的な相互関係性と一致しもする回答を与える。

コンテンツ探索
一局面では、拡張談話ツリーは、コンテンツ探索を容易にするために使用される。一例では、ユーザデバイス１７０は、ユーザから「ファセット検索とは何であるか？」という質問を受け取る。ユーザは、ファセット検索がどのように動作するかを理解することを望んでいるため、他の関連する概念に精通したいであろう。

それに応答して、談話ナビゲーションアプリケーション１０２は、さらなるコンテンツ探索または検索オプションを提供する。談話ナビゲーションアプリケーション１０２は、拡張談話ツリーを形成することにより、関連するドキュメントのセットを判断する。

図１６は、一局面による、拡張談話ツリーの例を示す。図１６は、談話ツリー１６０２、１６０３、および１６０４を含む拡張談話ツリー１６００を示す。各談話ツリー１６０２〜１６０４は、特定のテキストのパラグラフから作成される。この例では、談話ナビゲーションアプリケーション１０２は、異なるテキストのパラグラフから個々の談話ツリー１６０２〜１６０４を作成する。ただし、センテンスまたは複数のパラグラフなど、さまざまなサイズのテキストの単位が可能である。

より具体的には、談話ナビゲーションアプリケーション１０２は、ファセット検索のトピックに関係する以下のテキスト： "Facets correspond to properties of the information elements. They are often derived by analysis of the text of an item using entity extraction techniques or from pre-existing fields in a database such as author, descriptor, language, and format. Thus, existing web-pages, product descriptions or online collections of articles can be augmented with navigational facets.（ファセットは情報要素のプロパティに対応する。それらは、多くの場合、エンティティ抽出手法を用いてのアイテムのテキストの分析によって、または、作成者、記述子、言語、およびフォーマットなどのデータベース内の既存のフィールドから派生する。したがって、存在するウェブページ、製品の説明、または記事のオンラインコレクションをナビゲーションファセットで拡張できる。）"から談話ツリー１６０３を作成する。

さらに、談話ナビゲーションアプリケーション１０２は、同じくファセット検索のトピックに関係する以下のテキスト："Within the academic community, faceted search has attracted interest primarily among library and information science researchers, but there is a limited interest of computer science researchers specializing in information retrieval.（学術界内では、ファセット検索は主に蔵書および情報科学の研究者の間で関心を集めているが、情報検索を専門とするコンピュータサイエンスの研究者の関心は限られている。）"から談話ツリー１６０２を作成する。

談話ナビゲーションアプリケーション１０２は、エンティティ抽出のトピックに関係する以下のテキスト："Entity extraction, also known as entity name extraction or named entity recognition, is an information retrieval technique that refers to the process of identifying and classifying key elements from text into pre-defined categories.（エンティティ抽出は、エンティティ名抽出または名前付きエンティティ認識としても知られ、テキストから主要な要素を識別して、事前定義されたカテゴリに分類するプロセスを参照する情報検索技術である。）"から談話ツリー１６０４を作成する。

作成された談話ツリーから、談話ナビゲーションアプリケーション１０２は、コンテンツ探索のために以下の追加エンティティ：（１）エンティティ抽出、（２）情報検索、（３）データベース内の既存のフィールド、および（４）ナビゲーションファセットで拡張、を識別する。より具体的には、談話ナビゲーションアプリケーション１０２は、これらのエンティティが詳述関係によって関係付けられていると判断し、リンク１６２０〜１６２３を作成する。ノード１６１１によって表される情報検索は、ノード１６１０によって表されるファセット検索について詳述し、したがってリンク１６２０はノード１６１０および１６１１を接続する。ノード１６１３で表されるエンティティ抽出は、ノード１６１２で表されるファセット検索について詳述し、したがってリンク１６２１はノード１６１２および１６１３を接続する。ノード１６１５によって表される情報検索は、エンティティ抽出、ノード１６１４について詳述し、したがってリンク１６２３はノード１６１４および１６１５を接続する。最後に、談話ナビゲーションアプリケーション１０２は、談話ツリー１６１５はエンティティ抽出について詳述し、したがって、談話ナビゲーションアプリケーション１０２は、ノード１６１３および１６１５を接続する談話ツリー間リンク１６２２を作成する。

談話ナビゲーションアプリケーション１０２は、エンティティをユーザデバイス１７０に与える。ユーザデバイス１７０は、エンティティをユーザに提供し、ユーザは、リンクをたどって単一の情報に到達するか、または新しい検索を実行して、複数の検索結果から選択することができる。例えば、「ファセット検索」から始めて、ユーザデバイス１７０は、情報検索（例えば、リンク１６２０を介してノード１６１１に）、エンティティ抽出（例えば、リンク１６２１を介してノード１６１２からノード１６１３に）、情報検索（リンク１６２２を介して）、または情報検索に関するさらなる情報（リンク１６２３を介してノード１６１５に）にナビゲートすることができる。

追加の拡張談話ツリーの作成
談話ナビゲーションアプリケーション１０２は、存在する拡張談話ツリーから追加の拡張談話ツリーを構築することができる。より具体的には、機械学習モデル１２０を用いることにより、談話ナビゲーションアプリケーション１０２は、第２のドメイン（たとえば、法律）にあるテキストについての拡張談話ツリーのセットを用いることにより、第１のドメイン（例えば、エンジニアリング）にあるテキストについての談話ツリーに基づいて、拡張談話ツリーを作成することができる。

例示的プロセスでは、談話ナビゲーションアプリケーション１０２は、ドキュメントのセットの第１のドキュメントを表す第１の談話ツリー、およびドキュメントのセットからの第２のドキュメントを表す第２の談話ツリーにアクセスする。

例を続けると、談話ナビゲーションアプリケーション１０２は、第１の談話ツリーおよび第２の談話ツリーを、トレーニングされた分類モード、例えば機械学習モデル１２０に適用することによって、拡張談話ツリーのセットから参照拡張談話ツリーを取得する。拡張談話ツリーのセットには、プロセス１２００などのプロセスによって作成される複数の拡張談話ツリーが含まれる。より具体的には、分類モデルは、拡張談話ツリーのセットを通って反復して、第１の候補談話ツリーおよび第２の候補談話ツリーを識別する。分類モデルは、第１の候補談話ツリーおよび第２の候補談話ツリーを、第１の談話ツリーおよび第２の談話ツリーの最適な一致として識別する。分類モデルは、分類子や最近傍などの異なるモデルを用いることができる。

例を続けると、談話ナビゲーションアプリケーション１０２は、参照拡張談話ツリーから、第１の参照談話ツリーと第２の参照談話ツリーとの間の１つ以上のリンクを判断する。リンクは、プロセス１２００（例えば、ブロック１２０６）を用いることによって判断することができる。次に、談話ナビゲーションアプリケーション１０２は、リンクを第１の談話ツリーおよび第２の談話ツリーに伝播し、それによって拡張談話ツリーを作成する。このようにして、談話ナビゲーションアプリケーション１０２は、第１および第２の談話ツリーと同様の談話ツリーを含む拡張談話ツリーを識別し、次いで適切な談話ツリー間リンクを生成することによって、拡張談話ツリーを作成した。

評価用データセット
我々は、１００個のクエリおよびClueweb09 cat. B dataset2（２００９年１月から２月の間にクロールされた英語の５０，２２０，４２３のウェブページ）に関するそれらの関連性評価をまとめて含む、Web 2009（クエリ１〜５０）およびWeb 2010（クエリ５１〜１００）トラックのＴＲＥＣデータセットで実験する。我々がこれらのデータセットを選択した理由は、それらが社会で広く使用されており、現在最新のものと比較できるためである。我々は、spam3を示すパーセンタイルスコアの推奨設定＜７０でCormack et al.のスパムランキングを用いてスパムを削除した。Indri IRシステムを用いて、調整された設定（セクション４．１．２で説明）でベースライン検索取得モデルによって各クエリに応答して取得された上位１０００件のドキュメントで構成される、このコレクションのサブセットを検討する。

我々は、車の修理の推奨事項に関係付けられるＱ／Ａペアのデータセットを作成した。これらのペアは第１および第２の発話としてダイアログから抽出されたため、質問は７〜１５個のキーワードであり、回答は３〜６センテンスである。このリソースは、ダイアログサポートシステムをトレーニングするために取得されたが、検索の評価にも役立つことが判明している。このデータセットは(CarPros 2017)からかき集められ、(Github Car Repair Dataset 2017)で入手できる。

Answer (Webscope 2017)は、幅広いトピックを伴う質問と回答とのペアのセットである。我々は、１４万件のユーザ質問のセットから、３〜５センテンスを含む３３００件を選択した。ほとんどの質問に対する回答はかなり詳細なので、センテンス長によるフィルタリングは回答に適用されなかった。

我々のソーシャルメディアデータセットには、主にFacebook上での投稿からの要求応答ペアが含まれる。我々は、雇用に関するLinkedIn.comおよびvk.comの会話の一部も使用した。ソーシャルドメインでは、ライティングの基準はかなり低い。テキストの結束性は非常に限られており、論理的な構造および関連性はしばしば欠けている。作成者らは、自身のアカウント、およびＡＰＩを介して数年にわたって利用可能な公開Facebookアカウントからも、トレーニングセットを形成した（書いた時点では、メッセージを取得するためのFacebook APIは利用可能ではない）。加えて、Enron dataset から８６０のｅメールメールスレッドを用いた(Cohen 2016)。さらに、我々は、人のユーザ−ホストに代わって自動的に投稿を生成するエージェントの投稿に対する手動応答のデータを収集した(Galitsky et al 2014)。我々は、さまざまなソーシャルネットワークソースから４０００のペアを形成した。

我々は、Fidelity.comからかき集めた経済上の質問のデータセットを形成した。このデータセットは、検索の関連性の改善が垂直ドメインにおいて妥当なカバレッジでどのように生ずるかを示す。提案されたチャットボットを使用した情報アクセスの効率を、Google（登録商標）などの主要なウェブ検索エンジンとの対比において、双方のシステムが関連する回答を有するクエリについて、比較した。検索エンジンの場合、ミスは、特定のユーザに関連する検索結果に先行する検索結果である。チャットボットの場合、ミスは、ユーザに、チャットボットによって提案された他のオプションを選択させるか、または他のトピックを要求させる回答である。

質問のトピックは個人の経済状態を含んでいた。１２人のユーザ（作成者の同僚）は、チャットボットにユーザの経済状況を反映する１５〜２０の質問をし、ユーザが回答に満足するかまたは不満であきらめたときに停止した。同じ質問がGoogleに送信され、評価者は各検索結果スニペットをクリックしてドキュメントまたはウェブページを取得し、それに満足できるかどうかを判断する必要があった。

チャットボット対検索エンジンの検索効率の比較の構造を図４に示す。矢印の上部は、すべての検索結果（左側）を用いて、説明のためにトピックのリストを形成していることを示す。下部の矢印は、下の回答が、２回のユーザフィードバックおよび説明に基づいて、チャットボットによって選択されることになったことを示す。

図１７は、一局面による、検索エンジンを用いるナビゲーションと拡張談話ツリーで有効にされる自律型エージェントを用いるナビゲーションとの間の比較を示す。図１７は、検索エンジンに提示された質問１７０１、検索に応答して収集された結果１７０２〜１７０５、およびユーザと自律型エージェントと間の対話１７０１〜１７０６を含む比較１７００を示す。矢印は、個別のトピックに関する複数の検索結果が、自動的に抽出されたトピックを列挙する単一の説明要求にどのように収束するかを示す。

ユーザは、（左側の検索エンジンを用いて）すべての検索結果を調べることにより関連する結果を見つけるのではなく、チャットボットによって作成された説明要求に答え、ユーザの関心のあるトピックに掘り下げる（右側）。矢印は、個別のトピックに対する複数の検索結果が、自動的に抽出されたトピックを列挙する単一の説明要求にどのように収束するかを示す。選択されたトピックは、次いで、ユーザを新たなドキュメントまたは同じドキュメントの新たなセクションにナビゲートする。

表４を見ると、チャットボットの知識探索セッションの時間は検索エンジンのそれよりも長いことがわかる。これは、ユーザにとってはメリットが少ないように見えるかもしれないが、事業体側はユーザが事業体のウェブサイトにより長く留まることを好み、なぜならば、ユーザ獲得の可能性が高まるからである。チャットボットの回答を読むのに７％多くの時間を費やすと、特にこれらの回答がこのユーザの選択に従うとき場合には、ユーザはよりドメインに慣れることができると予想される。チャットボットの探索セッションのステップ数は、検索エンジンに必要なものの４分の１である。ＭＡＰやＮＤＣＧなどの検索エンジンのパフォーマンスを測定する従来の方法は、情報アクセスの効率に関する従来の検索エンジンとチャットボットとの比較にも適用できる（Sakai 2007）。我々は、チャットボットを拡張談話ツリー駆動型ナビゲーションとともに用いることは、人間の知的活動の模倣に焦点を当てた従来の検索エンジンおよびチャットボットと比較して、効率的で有益な情報アクセス方法である、と結論付ける。

図１８は、上記局面のうちの１つを実現するための分散型システム１８００を示す簡略図である。例示された局面においては、分散型システム１８００は、１つ以上のネットワーク１８１０を介して、ウェブブラウザ、プロプライエタリクライアント（たとえばオラクルフォーム）などのクライアントアプリケーションを実行して動作させるように構成される１つ以上のクライアントコンピューティングデバイス１８０２、１８０４、１８０６および１８０８を含む。サーバ１８１２は、ネットワーク１８１０を介してリモートクライアントコンピューティングデバイス１８０２、１８０４、１８０６および１８０８と通信可能に結合されてもよい。

さまざまな局面においては、サーバ１８１２は、システムの構成要素のうち１つ以上によって提供される１つ以上のサービスまたはソフトウェアアプリケーションを実行するように適合されてもよい。サービスまたはソフトウェアアプリケーションは非仮想環境および仮想環境を含み得る。仮想環境は、２次元または３次元（three-dimensional：３Ｄ）表現、ページベースの論理的環境などであろうとなかろうと、仮想イベント、トレードショー、シミュレータ、クラスルーム、購買商品取引および企業活動のために用いられるものを含み得る。いくつかの局面においては、これらのサービスは、ウェブベースのサービスもしくはクラウドサービスとして、またはソフトウェア・アズ・ア・サービス（Software as a Service：ＳａａＳ）モデルのもとで、クライアントコンピューティングデバイス１８０２，１８０４，１８０６および／または１８０８のユーザに供給されてもよい。そして、クライアントコンピューティングデバイス１８０２，１８０４，１８０６および／または１８０８を動作させるユーザは、１つ以上のクライアントアプリケーションを利用して、サーバ１８１２と相互作用して、これらの構成要素によって提供されるサービスを利用し得る。

図に示されている構成では、分散型システム１８００のソフトウェアコンポーネント１８１８，１８２０および１８２２は、サーバ１８１２上に実装されるように示されている。また、他の局面においては、分散型システム１８００の構成要素のうちの１つ以上および／またはこれらの構成要素によって提供されるサービスは、クライアントコンピューティングデバイス１８０２，１８０４，１８０６および／または１８０８のうちの１つ以上によって実現されてもよい。その場合、クライアントコンピューティングデバイスを動作させるユーザは、１つ以上のクライアントアプリケーションを利用して、これらの構成要素によって提供されるサービスを使用し得る。これらの構成要素は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実現されてもよい。分散型システム１８００とは異なり得るさまざまな異なるシステム構成が可能であることが理解されるべきである。したがって、図に示されている局面は、局面のシステムを実現するための分散型システムの一例であり、限定的であるよう意図されたものではない。

クライアントコンピューティングデバイス１８０２，１８０４，１８０６および／または１８０８は、手持ち式携帯機器（たとえばｉＰｈｏｎｅ（登録商標）、携帯電話、ｉＰａｄ（登録商標）、計算タブレット、パーソナルデジタルアシスタント（personal digital assistant：ＰＤＡ））またはウェアラブル装置（たとえばグーグルグラス（登録商標）ヘッドマウントディスプレイ）であってもよく、当該装置は、マイクロソフト・ウィンドウズ（登録商標）・モバイル（登録商標）などのソフトウェアを実行し、および／または、ｉＯＳ、ウィンドウズ・フォン、アンドロイド、ブラックベリー１０、パームＯＳなどのさまざまなモバイルオペレーティングシステムを実行し、インターネット、ｅメール、ショート・メッセージ・サービス（short message service：ＳＭＳ）、ブラックベリー（登録商標）、または使用可能な他の通信プロトコルである。クライアントコンピューティングデバイスは、汎用パーソナルコンピュータであってもよく、当該汎用パーソナルコンピュータは、一例として、マイクロソフトウィンドウズ（登録商標）、アップルマッキントッシュ（登録商標）および／またはリナックス（登録商標）オペレーティングシステムのさまざまなバージョンを実行するパーソナルコンピュータおよび／またはラップトップコンピュータを含む。クライアントコンピューティングデバイスは、ワークステーションコンピュータであってもよく、当該ワークステーションコンピュータは、たとえばＧｏｏｇｌｅＣｈｒｏｍｅＯＳなどのさまざまなＧＮＵ／リナックスオペレーティングシステムを含むがこれらに限定されるものではないさまざまな市販のＵＮＩＸ（登録商標）またはＵＮＩＸライクオペレーティングシステムのうちのいずれかを実行する。代替的には、または付加的には、クライアントコンピューティングデバイス１８０２，１８０４，１８０６および１８０８は、シン・クライアントコンピュータ、インターネットにより可能なゲーミングシステム（たとえばキネクト（登録商標）ジェスチャ入力装置を備えるかまたは備えないマイクロソフトＸボックスゲーム機）、および／または、ネットワーク１８１０を介して通信が可能なパーソナルメッセージング装置などのその他の電子装置であってもよい。

例示的な分散型システム１８００は、４個のクライアントコンピューティングデバイスを有するように示されているが、任意の数のクライアントコンピューティングデバイスがサポートされてもよい。センサを有する装置などの他の装置が、サーバ１８１２と相互作用してもよい。

分散型システム１８００におけるネットワーク１８１０は、さまざまな市販のプロトコルのうちのいずれかを用いてデータ通信をサポートすることができる、当業者になじみのある任意のタイプのネットワークであってもよく、当該プロトコルは、ＴＣＰ／ＩＰ（伝送制御プロトコル／インターネットプロトコル）、ＳＮＡ（システムネットワークアーキテクチャ）、ＩＰＸ（インターネットパケット交換）、アップルトークなどを含むが、これらに限定されるものではない。単に一例として、ネットワーク１８１０は、イーサネット（登録商標）、トークンリングなどに基づくものなどのローカルエリアネットワーク（ＬＡＮ）であってもよい。ネットワーク１８１０は、広域ネットワークおよびインターネットであってもよい。ネットワーク１８１０は、仮想ネットワークを含んでいてもよく、当該仮想ネットワークは、仮想プライベートネットワーク（virtual private network：ＶＰＮ）、イントラネット、エクストラネット、公衆交換電話網（public switched telephone network：ＰＳＴＮ）、赤外線ネットワーク、無線ネットワーク（たとえば米国電気電子学会（Institute of Electrical and Electronics：ＩＥＥＥ）８０２．１８の一連のプロトコル、ブルートゥース（登録商標）および／またはその他の無線プロトコルのうちのいずれかのもとで動作するネットワーク）、および／またはこれらの任意の組合せ、および／または他のネットワークを含むが、これらに限定されるものではない。

サーバ１８１２は、１つ以上の汎用コンピュータ、専用サーバコンピュータ（一例として、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸ（登録商標）サーバ、ミッドレンジサーバ、メインフレームコンピュータ、ラックマウント式サーバなどを含む）、サーバファーム、サーバクラスタ、またはその他の適切な構成および／または組合せで構成され得る。サーバ１８１２は、仮想オペレーティングシステムを実行する１つ以上の仮想マシン、または仮想化を含む他のコンピューティングアーキテクチャを含み得る。論理記憶装置の１つ以上のフレキシブルプールは、サーバのための仮想記憶デバイスを維持するように仮想化することができる。仮想ネットワークは、ソフトウェア定義型ネットワーキングを用いて、サーバ１８１２によって制御することができる。さまざまな局面においては、サーバ１８１２は、上記の開示に記載されている１つ以上のサービスまたはソフトウェアアプリケーションを実行するように適合され得る。たとえば、サーバ１８１２は、本開示の局面に係る上記の処理を実行するためのサーバに対応してもよい。

サーバ１８１２は、上記のもののうちのいずれか、および、任意の市販のサーバオペレーティングシステムを含むオペレーティングシステムを実行し得る。また、サーバ１８１２は、ハイパーテキスト転送プロトコル（hypertext transport protocol：ＨＴＴＰ）サーバ、ファイル転送プロトコル（file transfer protocol：ＦＴＰ）サーバ、共通ゲートウェイインターフェース（common gateway interface：ＣＧＩ）サーバ、ＪＡＶＡ（登録商標）サーバ、データベースサーバなどを含むさまざまな付加的サーバアプリケーションおよび／または中間層アプリケーションのうちのいずれかを実行し得る。例示的なデータベースサーバは、オラクル社（Oracle）、マイクロソフト社（Microsoft）、サイベース社（Sybase）、ＩＢＭ社（International Business Machines）などから市販されているものを含むが、これらに限定されるものではない。

いくつかの実現例では、サーバ１８１２は、クライアントコンピューティングデバイス１８０２，１８０４，１８０６および１８０８のユーザから受取ったデータフィードおよび／またはイベント更新を分析および統合するための１つ以上のアプリケーションを含み得る。一例として、データフィードおよび／またはイベント更新は、１つ以上の第三者情報源および連続的なデータストリームから受信されるTwitter（登録商標）フィード、Facebook（登録商標）更新またはリアルタイム更新を含み得るが、これらに限定されるものではなく、センサデータアプリケーション、金融ティッカ、ネットワーク性能測定ツール（たとえばネットワークモニタリングおよびトラフィック管理アプリケーション）、クリックストリーム分析ツール、自動車交通モニタリングなどに関連するリアルタイムイベントを含み得る。また、サーバ１８１２は、クライアントコンピューティングデバイス１８０２，１８０４，１８０６および１８０８の１つ以上の表示装置を介してデータフィードおよび／またはリアルタイムイベントを表示するための１つ以上のアプリケーションを含み得る。

また、分散型システム１８００は、１つ以上のデータベース１８１４および１８１６を含み得る。データベース１８１４および１８１６は、さまざまな場所に存在し得る。一例として、データベース１８１４および１８１６の１つ以上は、サーバ１８１２にローカルな（および／または存在する）非一時的な記憶媒体に存在していてもよい。代替的に、データベース１８１４および１８１６は、サーバ１８１２から遠く離れていて、ネットワークベースまたは専用の接続を介してサーバ１８１２と通信してもよい。一組の局面においては、データベース１８１４および１８１６は、記憶領域ネットワーク（storage-area network：ＳＡＮ）に存在していてもよい。同様に、サーバ１８１２に起因する機能を実行するための任意の必要なファイルが、サーバ１８１２上にローカルに、および／または、リモートで適宜格納されていてもよい。一組の局面においては、データベース１８１４および１８１６は、ＳＱＬフォーマットコマンドに応答してデータを格納、更新および検索するように適合された、オラクル社によって提供されるデータベースなどのリレーショナルデータベースを含み得る。

図１９は、本開示の一局面に係る、一局面のシステムの１つ以上の構成要素によって提供されるサービスをクラウドサービスとして供給することができるシステム環境１９００の１つ以上の構成要素の簡略化されたブロック図である。示されている局面においては、システム環境１９００は、クラウドサービスを提供するクラウドインフラストラクチャシステム１９０２と相互作用するようにユーザによって使用され得る１つ以上のクライアントコンピューティングデバイス１９０４，１９０６および１９０８を含む。クライアントコンピューティングデバイスは、クラウドインフラストラクチャシステム１９０２によって提供されるサービスを使用するためにクラウドインフラストラクチャシステム１９０２と相互作用するようにクライアントコンピューティングデバイスのユーザによって使用され得る、ウェブブラウザ、専有のクライアントアプリケーション（たとえばオラクルフォームズ）または他のアプリケーションなどのクライアントアプリケーションを動作させるように構成され得る。

図に示されているクラウドインフラストラクチャシステム１９０２が図示されている構成要素とは他の構成要素を有し得ることが理解されるべきである。さらに、図に示されている局面は、本発明の局面を組込むことができるクラウドインフラストラクチャシステムの一例に過ぎない。いくつかの他の局面においては、クラウドインフラストラクチャシステム１９０２は、図に示されているものよりも多いまたは少ない数の構成要素を有していてもよく、２つ以上の構成要素を組合せてもよく、または構成要素の異なる構成または配置を有していてもよい。

クライアントコンピューティングデバイス１９０４，１９０６および１９０８は、２８０２，２８０４，２８０６および２８０８について上記したものと類似のデバイスであってもよい。

例示的なシステム環境１９００は３個のクライアントコンピューティングデバイスを有するように示されているが、任意の数のクライアントコンピューティングデバイスがサポートされてもよい。センサなどを有する装置などの他の装置が、クラウドインフラストラクチャシステム１９０２と相互作用してもよい。

ネットワーク１９１０は、クライアント１９０４，１９０６および１９０８とクラウドインフラストラクチャシステム１９０２との間のデータの通信およびやりとりを容易にし得る。各々のネットワークは、ネットワーク１９１０について上記したものを含むさまざまな市販のプロトコルのうちのいずれかを用いてデータ通信をサポートすることができる、当業者になじみのある任意のタイプのネットワークであってもよい。

クラウドインフラストラクチャシステム１９０２は、サーバ１７１２について上記したものを含み得る１つ以上のコンピュータおよび／またはサーバを備え得る。

特定の局面においては、クラウドインフラストラクチャシステムによって提供されるサービスは、オンラインデータ記憶およびバックアップソリューション、ウェブベースのｅメールサービス、ホスト型オフィススイートおよびドキュメントコラボレーションサービス、データベース処理、管理技術サポートサービスなどの、クラウドインフラストラクチャシステムのユーザがオンデマンドで利用可能な多数のサービスを含み得る。クラウドインフラストラクチャシステムによって提供されるサービスは、そのユーザのニーズを満たすように動的にスケーリング可能である。クラウドインフラストラクチャシステムによって提供されるサービスの具体的なインスタンス化は、本明細書では「サービスインスタンス」と称される。一般に、インターネットなどの通信ネットワークを介してクラウドサービスプロバイダのシステムからユーザが利用可能な任意のサービスは、「クラウドサービス」と称される。通常、パブリッククラウド環境では、クラウドサービスプロバイダのシステムを構成するサーバおよびシステムは、顧客自身のオンプレミスサーバおよびシステムとは異なっている。たとえば、クラウドサービスプロバイダのシステムがアプリケーションをホストしてもよく、ユーザは、インターネットなどの通信ネットワークを介してオンデマンドで当該アプリケーションを注文および使用してもよい。

いくつかの例では、コンピュータネットワーククラウドインフラストラクチャにおけるサービスは、ストレージ、ホスト型データベース、ホスト型ウェブサーバ、ソフトウェアアプリケーションへの保護されたコンピュータネットワークアクセス、またはクラウドベンダによってユーザに提供されるかもしくはそうでなければ当該技術分野において公知の他のサービスを含み得る。たとえば、サービスは、インターネットを介したクラウド上のリモートストレージへのパスワードによって保護されたアクセスを含み得る。別の例として、サービスは、ネットワーク化された開発者による私的使用のためのウェブサービスベースのホスト型リレーショナルデータベースおよびスクリプト言語ミドルウェアエンジンを含み得る。別の例として、サービスは、クラウドベンダのウェブサイト上でホストされるｅメールソフトウェアアプリケーションへのアクセスを含み得る。

特定の局面においては、クラウドインフラストラクチャシステム１９０２は、セルフサービスの、サブスクリプションベースの、弾性的にスケーラブルな、信頼性のある、高可用性の、安全な態様で顧客に配信される一連のアプリケーション、ミドルウェアおよびデータベースサービス提供品を含み得る。このようなクラウドインフラストラクチャシステムの一例は、本譲受人によって提供されるオラクルパブリッククラウドである。

時としてビッグデータとも称される大量のデータは、インフラストラクチャシステムによって、多数のレベルにおいて、および異なるスケールでホストおよび／または操作され得る。このようなデータが含み得るデータセットは、非常に大型で複雑であるので、典型的なデータベース管理ツールまたは従来のデータ処理アプリケーションを用いて処理するのが困難になる可能性がある。たとえば、テラバイトのデータはパーソナルコンピュータまたはそれらのラックベースの対応物を用いて格納、検索取得および処理することが難しいかもしれない。このようなサイズのデータは、最新のリレーショナルデータベース管理システムおよびデスクトップ統計ならびに視覚化パッケージを用いて機能させるのが困難である可能性がある。それらは、データを許容可能な経過時間内に捕捉しキュレーションし管理し処理するよう、一般的に用いられるソフトウェアツールの構造を超えて、何千ものサーバコンピュータを動作させる大規模並列処理ソフトウェアを必要とし得る。

大量のデータを視覚化し、トレンドを検出し、および／または、データと相互作用させるために、分析者および研究者は極めて大きいデータセットを格納し処理することができる。平行にリンクされた何十、何百または何千ものプロセッサがこのようなデータに対して作用可能であり、これにより、このようなデータを表示し得るか、または、データに対する外力をシミュレートし得るかもしくはそれが表しているものをシミュレートし得る。これらのデータセットは、データベースにおいて編制されたデータ、もしくは構造化モデルに従ったデータ、および／または、非体系的なデータ（たとえば電子メール、画像、データブロブ（バイナリ大型オブジェクト）、ウェブページ、複雑なイベント処理）などの構造化されたデータを必要とする可能性がある。目標物に対してより多くの（またはより少数の）コンピューティングリソースを比較的迅速に集中させるために局面の能力を強化することにより、ビジネス、政府関係機関、研究組織、私人、同じ目的をもった個々人もしくは組織のグループ、または他のエンティティからの要求に基づいて大量のデータセット上でタスクを実行するために、クラウドインフラストラクチャシステムがより良好に利用可能となる。

さまざまな局面においては、クラウドインフラストラクチャシステム１９０２は、クラウドインフラストラクチャシステム１９０２によって供給されるサービスへの顧客のサブスクリプションを自動的にプロビジョニング、管理および追跡するように適合され得る。クラウドインフラストラクチャシステム１９０２は、さまざまなデプロイメントモデルを介してクラウドサービスを提供し得る。たとえば、クラウドインフラストラクチャシステム１９０２が、（たとえばオラクル社によって所有される）クラウドサービスを販売する組織によって所有され、一般大衆またはさまざまな産業企業がサービスを利用できるパブリッククラウドモデルのもとでサービスが提供されてもよい。別の例として、クラウドインフラストラクチャシステム１９０２が単一の組織のためだけに運営され、当該組織内の１つ以上のエンティティにサービスを提供し得るプライベートクラウドモデルのもとでサービスが提供されてもよい。また、クラウドインフラストラクチャシステム１９０２およびクラウドインフラストラクチャシステム１９０２によって提供されるサービスが、関連のコミュニティ内のいくつかの組織によって共有されるコミュニティクラウドモデルのもとでクラウドサービスが提供されてもよい。また、２つ以上の異なるモデルの組合せであるハイブリッドクラウドモデルのもとでクラウドサービスが提供されてもよい。

いくつかの局面においては、クラウドインフラストラクチャシステム１９０２によって提供されるサービスは、ソフトウェア・アズ・ア・サービス（Software as a Service：ＳａａＳ）カテゴリ、プラットフォーム・アズ・ア・サービス（Platform as a Service：ＰａａＳ）カテゴリ、インフラストラクチャ・アズ・ア・サービス（Infrastructure as a Service：ＩａａＳ）カテゴリ、またはハイブリッドサービスを含むサービスの他のカテゴリのもとで提供される１つ以上のサービスを含み得る。顧客は、サブスクリプションオーダーによって、クラウドインフラストラクチャシステム１９０２によって提供される１つ以上のサービスをオーダーし得る。次いで、クラウドインフラストラクチャシステム１９０２は、顧客のサブスクリプションオーダーでサービスを提供するために処理を実行する。

いくつかの局面においては、クラウドインフラストラクチャシステム１９０２によって提供されるサービスは、アプリケーションサービス、プラットフォームサービスおよびインフラストラクチャサービスを含み得るが、これらに限定されるものではない。いくつかの例では、アプリケーションサービスは、ＳａａＳプラットフォームを介してクラウドインフラストラクチャシステムによって提供されてもよい。ＳａａＳプラットフォームは、ＳａａＳカテゴリに分類されるクラウドサービスを提供するように構成され得る。たとえば、ＳａａＳプラットフォームは、一体化された開発およびデプロイメントプラットフォーム上で一連のオンデマンドアプリケーションを構築および配信するための機能を提供し得る。ＳａａＳプラットフォームは、ＳａａＳサービスを提供するための基本的なソフトウェアおよびインフラストラクチャを管理および制御し得る。ＳａａＳプラットフォームによって提供されるサービスを利用することによって、顧客は、クラウドインフラストラクチャシステムで実行されるアプリケーションを利用することができる。顧客は、顧客が別々のライセンスおよびサポートを購入する必要なく、アプリケーションサービスを取得することができる。さまざまな異なるＳａａＳサービスが提供されてもよい。例としては、大規模組織のための販売実績管理、企業統合およびビジネスの柔軟性のためのソリューションを提供するサービスが挙げられるが、これらに限定されるものではない。

いくつかの局面においては、プラットフォームサービスは、ＰａａＳプラットフォームを介してクラウドインフラストラクチャシステムによって提供されてもよい。ＰａａＳプラットフォームは、ＰａａＳカテゴリに分類されるクラウドサービスを提供するように構成され得る。プラットフォームサービスの例としては、組織（オラクル社など）が既存のアプリケーションを共有の共通アーキテクチャ上で統合することを可能にするサービス、および、プラットフォームによって提供される共有のサービスを活用する新たなアプリケーションを構築する機能を挙げることができるが、これらに限定されるものではない。ＰａａＳプラットフォームは、ＰａａＳサービスを提供するための基本的なソフトウェアおよびインフラストラクチャを管理および制御し得る。顧客は、顧客が別々のライセンスおよびサポートを購入する必要なく、クラウドインフラストラクチャシステムによって提供されるＰａａＳサービスを取得することができる。プラットフォームサービスの例としては、オラクルＪａｖａクラウドサービス（Java Cloud Service：ＪＣＳ）、オラクルデータベースクラウドサービス（Database Cloud Service：ＤＢＣＳ）などが挙げられるが、これらに限定されるものではない。

ＰａａＳプラットフォームによって提供されるサービスを利用することによって、顧客は、クラウドインフラストラクチャシステムによってサポートされるプログラミング言語およびツールを利用することができ、デプロイされたサービスを制御することもできる。いくつかの局面においては、クラウドインフラストラクチャシステムによって提供されるプラットフォームサービスは、データベースクラウドサービス、ミドルウェアクラウドサービル（たとえばオラクルフージョンミドルウェアサービス）およびＪａｖａクラウドサービスを含み得る。一局面においては、データベースクラウドサービスは、組織がデータベースリソースをプールしてデータベースクラウドの形態でデータベース・アズ・ア・サービスを顧客に供給することを可能にする共有のサービスデプロイメントモデルをサポートし得る。ミドルウェアクラウドサービスは、クラウドインフラストラクチャシステムにおいてさまざまなビジネスアプリケーションを開発およびデプロイするために顧客にプラットフォームを提供し得るともに、Ｊａｖａクラウドサービスは、クラウドインフラストラクチャシステムにおいてＪａｖａアプリケーションをデプロイするために顧客にプラットフォームを提供し得る。

さまざまな異なるインフラストラクチャサービスは、クラウドインフラストラクチャシステムにおけるＩａａＳプラットフォームによって提供されてもよい。インフラストラクチャサービスは、ストレージ、ネットワークなどの基本的な計算リソース、ならびに、ＳａａＳプラットフォームおよびＰａａＳプラットフォームによって提供されるサービスを利用する顧客のための他の基礎的な計算リソースの管理および制御を容易にする。

また、特定の局面においては、クラウドインフラストラクチャシステム１９０２は、クラウドインフラストラクチャシステムの顧客にさまざまなサービスを提供するために使用されるリソースを提供するためのインフラストラクチャリソース１９３０を含み得る。一局面においては、インフラストラクチャリソース１９３０は、ＰａａＳプラットフォームおよびＳａａＳプラットフォームによって提供されるサービスを実行するための、サーバ、ストレージおよびネットワーキングリソースなどのハードウェアの予め一体化された最適な組合せを含み得る。

いくつかの局面においては、クラウドインフラストラクチャシステム１９０２におけるリソースは、複数のユーザによって共有され、デマンドごとに動的に再割り振りされてもよい。また、リソースは、異なる時間帯にユーザに割り振られてもよい。たとえば、クラウドインフラストラクチャシステム１９３０は、第１の時間帯におけるユーザの第１の組が規定の時間にわたってクラウドインフラストラクチャシステムのリソースを利用することを可能にし得るとともに、異なる時間帯に位置するユーザの別の組への同一のリソースの再割り振りを可能にし得ることによって、リソースの利用を最大化することができる。

特定の局面においては、クラウドインフラストラクチャシステム１９０２のさまざまな構成要素またはモジュール、および、クラウドインフラストラクチャシステム１９０２によって提供されるサービス、によって共有されるいくつかの内部共有サービス１９３２が提供され得る。これらの内部共有サービスは、セキュリティおよびアイデンティティサービス、インテグレーションサービス、企業リポジトリサービス、企業マネージャサービス、ウイルススキャンおよびホワイトリストサービス、高可用性・バックアップおよび回復サービス、クラウドサポートを可能にするためのサービス、ｅメールサービス、通知サービス、ファイル転送サービスなどを含み得るが、これらに限定されるものではない。

特定の局面においては、クラウドインフラストラクチャシステム１９０２は、クラウドインフラストラクチャシステムにおけるクラウドサービス（たとえばＳａａＳサービス、ＰａａＳサービスおよびＩａａＳサービス）の包括的管理を提供し得る。一局面においては、クラウド管理機能は、クラウドインフラストラクチャシステム１９０２によって受信された顧客のサブスクリプションをプロビジョニング、管理および追跡などするための機能を含み得る。

一局面においては、図に示されるように、クラウド管理機能は、オーダー管理モジュール１９１９、オーダーオーケストレーションモジュール１９２２、オーダープロビジョニングモジュール１９２４、オーダー管理および監視モジュール１９２６、ならびにアイデンティティ管理モジュール１９２８などの１つ以上のモジュールによって提供され得る。これらのモジュールは、汎用コンピュータ、専用サーバコンピュータ、サーバファーム、サーバクラスタ、またはその他の適切な構成および／もしくは組み合わせであり得る１つ以上のコンピュータおよび／またはサーバを含み得るか、またはそれらを用いて提供され得る。

例示的な動作１９３４において、クライアントデバイス１９０４，１９０６または１９０８などのクライアントデバイスを用いる顧客は、クラウドインフラストラクチャシステム１９０２によって提供される１つ以上のサービスを要求し、クラウドインフラストラクチャシステム１９０２によって供給される１つ以上のサービスのサブスクリプションについてオーダーを行うことによって、クラウドインフラストラクチャシステム１９０２と対話し得る。特定の局面においては、顧客は、クラウドユーザインターフェース（User Interface：ＵＩ）、すなわちクラウドＵＩ１９１９、クラウドＵＩ１９１４および／またはクラウドＵＩ１９１６にアクセスして、これらのＵＩを介してサブスクリプションオーダーを行い得る。顧客がオーダーを行ったことに応答してクラウドインフラストラクチャシステム１９０２によって受信されたオーダー情報は、顧客と、顧客がサブスクライブする予定のクラウドインフラストラクチャシステム１９０２によって提供される１つ以上のサービスとを特定する情報を含み得る。

オーダーが顧客によって行われた後、オーダー情報は、クラウドＵＩ１９１９，１９１４および／または１９１６を介して受信される。

動作１９３６において、オーダーは、オーダーデータベース１９１９に格納される。オーダーデータベース１９１９は、クラウドインフラストラクチャシステム１９１９によって動作させられるとともに他のシステム要素と連携して動作させられるいくつかのデータベースのうちの１つであってもよい。

動作１９３８において、オーダー情報は、オーダー管理モジュール１９１９に転送される。いくつかの例では、オーダー管理モジュール１９１９は、オーダーの確認および確認時のオーダーの予約などのオーダーに関連する請求書発行機能および会計経理機能を実行するように構成され得る。

動作１９４０において、オーダーに関する情報は、オーダーオーケストレーションモジュール１９２２に通信される。オーダーオーケストレーションモジュール１９２２は、顧客によって行われたオーダーについてのサービスおよびリソースのプロビジョニングをオーケストレートするためにオーダー情報を利用し得る。いくつかの例では、オーダーオーケストレーションモジュール１９２２は、オーダープロビジョニングモジュール１９２４のサービスを用いてサブスクライブされたサービスをサポートするためにリソースのプロビジョニングをオーケストレートし得る。

特定の局面においては、オーダーオーケストレーションモジュール１９２２は、各々のオーダーに関連付けられるビジネスプロセスの管理を可能にし、ビジネス論理を適用してオーダーがプロビジョニングに進むべきか否かを判断する。動作１９４２において、新たなサブスクリプションについてのオーダーを受信すると、オーダーオーケストレーションモジュール１９２２は、リソースを割り振って当該サブスクリプションオーダーを満たすのに必要とされるそれらのリソースを構成するための要求をオーダープロビジョニングモジュール１９２４に送る。オーダープロビジョニングモジュール１９２４は、顧客によってオーダーされたサービスについてのリソースの割り振りを可能にする。オーダープロビジョニングモジュール１９２４は、クラウドインフラストラクチャシステム１９００によって提供されるクラウドサービスと、要求されたサービスを提供するためのリソースをプロビジョニングするために使用される物理的実装層との間にあるレベルの抽象化を提供する。したがって、オーダーオーケストレーションモジュール１９２２は、サービスおよびリソースが実際に実行中にプロビジョニングされるか、事前にプロビジョニングされて要求があったときに割振られる／割当てられるのみであるかなどの実装の詳細から切り離すことができる。

動作１９４４において、サービスおよびリソースがプロビジョニングされると、提供されたサービスの通知が、クラウドインフラストラクチャシステム１９０２のオーダープロビジョニングモジュール１９２４によってクライアントデバイス１９０４，１９０６および／または１９０８上の顧客に送られ得る。

動作１９４６において、顧客のサブスクリプションオーダーが、オーダー管理および監視モジュール１９２６によって管理および追跡され得る。いくつかの例では、オーダー管理および監視モジュール１９２６は、使用される記憶量、転送されるデータ量、ユーザの数、ならびにシステムアップ時間およびシステムダウン時間の量などのサブスクリプションオーダーにおけるサービスについての使用統計を収集するように構成され得る。

特定の局面においては、クラウドインフラストラクチャシステム１９００は、アイデンティティ管理モジュール１９２８を含み得る。アイデンティティ管理モジュール１９２８は、クラウドインフラストラクチャシステム１９００におけるアクセス管理および認可サービスなどのアイデンティティサービスを提供するように構成され得る。いくつかの局面においては、アイデンティティ管理モジュール１９２８は、クラウドインフラストラクチャシステム１９０２によって提供されるサービスを利用したい顧客についての情報を制御し得る。このような情報は、このような顧客のアイデンティティを認証する情報と、それらの顧客がさまざまなシステムリソース（たとえばファイル、ディレクトリ、アプリケーション、通信ポート、メモリセグメントなど）に対してどのアクションを実行することを認可されるかを記載する情報とを含み得る。また、アイデンティティ管理モジュール１９２８は、各々の顧客についての説明的情報、ならびに、どのようにしておよび誰によってこの説明的情報がアクセスおよび変更され得るかについての説明的情報の管理を含み得る。

図２０は、本発明のさまざまな局面を実現することができる例示的なコンピュータシステム２０００を示す。システム２０００は、上記のコンピュータシステムのうちのいずれかを実現するために使用され得る。図に示されているように、コンピュータシステム２０００は、バスサブシステム２００２を介していくつかの周辺サブシステムと通信する処理ユニット２００４を含む。これらの周辺サブシステムは、処理加速ユニット２００６と、Ｉ／Ｏサブシステム２００８と、記憶サブシステム２０１８と、通信サブシステム２０２４とを含み得る。記憶サブシステム２０１８は、有形のコンピュータ読取可能な記憶媒体２０２２と、システムメモリ２０１０とを含む。

バスサブシステム２００２は、コンピュータシステム２０００のさまざまな構成要素およびサブシステムに、意図されたように互いに通信させるための機構を提供する。バスサブシステム２００２は、単一のバスとして概略的に示されているが、バスサブシステムの代替的な局面は、複数のバスを利用してもよい。バスサブシステム２００２は、メモリバスまたはメモリコントローラ、周辺バス、およびさまざまなバスアーキテクチャのうちのいずれかを使用するローカルバスを含むいくつかのタイプのバス構造のうちのいずれかであってもよい。たとえば、このようなアーキテクチャは、ＩＥＥＥＰ２０８６．１標準に合わせて製造されたメザニンバスとして実現可能な、業界標準アーキテクチャ（Industry Standard Architecture：ＩＳＡ）バス、マイクロチャネルアーキテクチャ（Micro Channel Architecture：ＭＣＡ）バス、拡張ＩＳＡ（Enhanced ISA：ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（Video Electronics Standards Association：ＶＥＳＡ）ローカルバスおよび周辺機器相互接続（Peripheral Component Interconnect：ＰＣＩ）バスを含み得る。

１つ以上の集積回路（たとえば従来のマイクロプロセッサまたはマイクロコントローラ）として実現可能な処理ユニット２００４は、コンピュータシステム２０００の動作を制御する。処理ユニット２００４には、１つ以上のプロセッサが含まれ得る。これらのプロセッサは、単一コアまたはマルチコアのプロセッサを含み得る。特定の局面においては、処理ユニット２００４は、各々の処理ユニットに含まれる単一コアまたはマルチコアのプロセッサを有する１つ以上の独立した処理ユニット２０３２および／または２０３４として実現されてもよい。また、他の局面においては、処理ユニット２００４は、２つのデュアルコアプロセッサを単一のチップに組み入れることによって形成されるクアッドコア処理ユニットとして実現されてもよい。

さまざまな局面においては、処理ユニット２００４は、プログラムコードに応答してさまざまなプログラムを実行し得るとともに、同時に実行される複数のプログラムまたはプロセスを維持し得る。任意の所与の時点において、実行されるべきプログラムコードのうちのいくつかまたは全ては、プロセッサ２００４および／または記憶サブシステム２０１８に存在し得る。好適なプログラミングを通じて、プロセッサ２００４は、上記のさまざまな機能を提供し得る。また、コンピュータシステム２０００は、加えて、デジタル信号プロセッサ（digital signal processor：ＤＳＰ）、特殊用途プロセッサなどを含み得る処理加速ユニット２００６を含み得る。

Ｉ／Ｏサブシステム２００８は、ユーザインターフェイス入力装置と、ユーザインターフェイス出力装置とを含み得る。ユーザインターフェイス入力装置は、キーボード、マウスまたはトラックボールなどのポインティング装置、タッチパッドまたはタッチスクリーンを含んでいてもよく、これらは、音声コマンド認識システム、マイクロホンおよび他のタイプの入力装置とともに、ディスプレイ、スクロールホイール、クリックホイール、ダイアル、ボタン、スイッチ、キーパッド、オーディオ入力装置に組込まれている。ユーザインターフェイス入力装置は、たとえば、ジェスチャおよび話されたコマンドを用いてナチュラルユーザインターフェースを介してユーザがマイクロソフトＸｂｏｘ（登録商標）３６０ゲームコントローラなどの入力装置を制御して入力装置と対話することを可能にするマイクロソフトキネクト（登録商標）モーションセンサなどのモーション検知および／またはジェスチャ認識装置を含み得る。また、ユーザインターフェイス入力装置は、ユーザから眼球運動（たとえば撮影および／またはメニュー選択を行っている間の「まばたき」）を検出して、当該眼球ジェスチャを入力装置への入力として変換するグーグルグラス（登録商標）まばたき検出器などの眼球ジェスチャ認識装置を含み得る。また、ユーザインターフェイス入力装置は、ユーザが音声コマンドを介して音声認識システム（たとえばＳｉｒｉ（登録商標）ナビゲータ）と対話することを可能にする音声認識検知装置を含み得る。

また、ユーザインターフェイス入力装置は、三次元（３Ｄ）マウス、ジョイスティックまたはポインティングスティック、ゲームパッドおよびグラフィックタブレット、およびスピーカなどのオーディオ／ビジュアル装置、デジタルカメラ、デジタルカムコーダ、携帯型メディアプレーヤ、ウェブカム、画像スキャナ、指紋スキャナ、バーコードリーダ３Ｄスキャナ、３Ｄプリンタ、レーザレンジファインダ、および視線検出装置を含み得るが、これらに限定されるものではない。また、ユーザインターフェイス入力装置は、たとえば、コンピュータ断層撮影、磁気共鳴画像化、位置発光断層撮影、医療用超音波検査装置などの医療用画像化入力装置を含み得る。また、ユーザインターフェイス入力装置は、たとえばＭＩＤＩキーボード、デジタル楽器などのオーディオ入力装置を含み得る。

ユーザインターフェイス出力装置は、ディスプレイサブシステム、表示灯、またはオーディオ出力装置などの非視覚的ディスプレイなどを含み得る。ディスプレイサブシステムは、陰極線管（cathode ray tube：ＣＲＴ）、液晶ディスプレイ（liquid crystal display：ＬＣＤ）またはプラズマディスプレイを使用するものなどのフラットパネルディスプレイ、投影装置、タッチスクリーンなどであってもよい。一般に、「出力装置」という用語の使用は、コンピュータシステム２０００からの情報をユーザまたは他のコンピュータに出力するための全ての実現可能なタイプの装置および機構を含むよう意図されている。たとえば、ユーザインターフェイス出力装置は、モニタ、プリンタ、スピーカ、ヘッドホン、自動車のナビゲーションシステム、プロッタ、音声出力装置およびモデムなどの、テキスト、グラフィックスおよびオーディオ／ビデオ情報を視覚的に伝えるさまざまな表示装置を含み得るが、これらに限定されるものではない。

コンピュータシステム２０００は、現在のところシステムメモリ２０１０内に位置しているように示されているソフトウェア要素を備える記憶サブシステム２０１８を備え得る。システムメモリ２０１０は、処理ユニット２００４上でロード可能および実行可能なプログラム命令と、これらのプログラムの実行中に生成されるデータとを格納し得る。

コンピュータシステム２０００の構成およびタイプに応じて、システムメモリ２０１０は、揮発性（ランダムアクセスメモリ（random access memory：ＲＡＭ）など）であってもよく、および／または、不揮発性（リードオンリメモリ（read-only memory：ＲＯＭ）、フラッシュメモリなど）であってもよい。ＲＡＭは、典型的には、処理ユニット２００４が直ちにアクセス可能なデータおよび／またはプログラムモジュール、および／または、処理ユニット２００４によって現在動作および実行されているデータおよび／またはプログラムモジュールを収容する。いくつかの実現例では、システムメモリ２０１０は、スタティックランダムアクセスメモリ（static random access memory：ＳＲＡＭ）またはダイナミックランダムアクセスメモリ（dynamic random access memory：ＤＲＡＭ）などの複数の異なるタイプのメモリを含み得る。いくつかの実現例では、始動中などにコンピュータシステム２０００内の要素間で情報を転送することを助ける基本ルーチンを含む基本入力／出力システム（basic input/output system：ＢＩＯＳ）が、典型的にはＲＯＭに格納され得る。一例としておよび非限定的に、システムメモリ２０１０は、クライアントアプリケーション、ウェブブラウザ、中間層アプリケーション、リレーショナルデータベース管理システム（relational database management system：ＲＤＢＭＳ）などを含み得るアプリケーションプログラム２０１２、プログラムデータ２０１４およびオペレーティングシステム２０１６も示す。一例として、オペレーティングシステム２０１６は、マイクロソフトウィンドウズ（登録商標）、アップルマッキントッシュ（登録商標）および／もしくはリナックスオペレーティングシステムのさまざまなバージョン、さまざまな市販のＵＮＩＸ（登録商標）もしくはＵＮＩＸライクオペレーティングシステム（さまざまなＧＮＵ／リナックスオペレーティングシステム、ＧｏｏｇｌｅＣｈｒｏｍｅ（登録商標）ＯＳなどを含むが、これらに限定されるものではない）、ならびに／または、ｉＯＳ、ウィンドウズ（登録商標）フォン、アンドロイド（登録商標）ＯＳ、ブラックベリー（登録商標）１０ＯＳおよびパーム（登録商標）ＯＳオペレーティングシステムなどのモバイルオペレーティングシステムを含み得る。

また、記憶サブシステム２０１８は、いくつかの局面の機能を提供する基本的なプログラミングおよびデータ構造を格納するための有形のコンピュータ読取可能な記憶媒体を提供し得る。プロセッサによって実行されたときに上記の機能を提供するソフトウェア（プログラム、コードモジュール、命令）が記憶サブシステム２０１８に格納され得る。これらのソフトウェアモジュールまたは命令は、処理ユニット２００４によって実行され得る。また、記憶サブシステム２０１８は、本発明に従って使用されるデータを格納するためのリポジトリを提供し得る。

また、記憶サブシステム２０００は、コンピュータ読取可能な記憶媒体２０２２にさらに接続可能なコンピュータ読取可能な記憶媒体リーダ２０２０を含み得る。ともにおよび任意には、システムメモリ２０１０と組合せて、コンピュータ読取可能な記憶媒体２０２２は、コンピュータ読取可能な情報を一時的および／または永久に収容、格納、送信および検索するための記憶媒体に加えて、リモートの、ローカルの、固定されたおよび／または取外し可能な記憶装置を包括的に表わし得る。

コードまたはコードの一部を含むコンピュータ読取可能な記憶媒体２０２２は、当該技術分野において公知のまたは使用される任意の適切な媒体を含み得る。当該媒体は、情報の格納および／または送信のための任意の方法または技術において実現される揮発性および不揮発性の、取外し可能および取外し不可能な媒体などであるが、これらに限定されるものではない記憶媒体および通信媒体を含む。これは、ＲＡＭ、ＲＯＭ、電子的消去・プログラム可能ＲＯＭ（electronically erasable programmable ROM：ＥＥＰＲＯＭ）、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（digital versatile disk：ＤＶＤ）、または他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または他の有形のコンピュータ読取可能な媒体などの有形の一時的なコンピュータ読取可能な記憶媒体を含み得る。また、これは、データ信号、データ送信などの無形の一時的なコンピュータ読取可能な媒体、または、所望の情報を送信するために使用可能であるとともに計算システム２０００によってアクセス可能である他の任意の媒体を含み得る。

一例として、コンピュータ読取可能な記憶媒体２０２２は、取外し不可能な不揮発性磁気媒体から読取るまたは当該媒体に書込むハードディスクドライブ、取外し可能な不揮発性磁気ディスクから読取るまたは当該ディスクに書込む磁気ディスクドライブ、ならびに、ＣＤＲＯＭ、ＤＶＤおよびブルーレイ（登録商標）ディスクまたは他の光学式媒体などの取外し可能な不揮発性光学ディスクから読取るまたは当該ディスクに書込む光学式ディスクドライブを含み得る。コンピュータ読取可能な記憶媒体２０２２は、ジップ（登録商標）ドライブ、フラッシュメモリカード、ユニバーサルシリアルバス（universal serial bus：ＵＳＢ）フラッシュドライブ、セキュアデジタル（secure digital：ＳＤ）カード、ＤＶＤディスク、デジタルビデオテープなどを含み得るが、これらに限定されるものではない。また、コンピュータ読取可能な記憶媒体２０２２は、フラッシュメモリベースのＳＳＤ、企業向けフラッシュドライブ、ソリッドステートＲＯＭなどの不揮発性メモリに基づくソリッドステートドライブ（solid-state drive：ＳＳＤ）、ソリッドステートＲＡＭ、ダイナミックＲＡＭ、スタティックＲＡＭなどの揮発性メモリに基づくＳＳＤ、ＤＲＡＭベースのＳＳＤ、磁気抵抗ＲＡＭ（magnetoresistive RAM：ＭＲＡＭ）ＳＳＤ、およびＤＲＡＭとフラッシュメモリベースのＳＳＤとの組合せを使用するハイブリッドＳＳＤを含み得る。ディスクドライブおよびそれらの関連のコンピュータ読取可能な媒体は、コンピュータ読取可能な命令、データ構造、プログラムモジュールおよび他のデータをコンピュータシステム２０００に提供し得る。

通信サブシステム２０２４は、他のコンピュータシステムおよびネットワークとのインターフェイスを提供する。通信サブシステム２０２４は、他のシステムからデータを受信したり、コンピュータシステム２０００から他のシステムにデータを送信するためのインターフェイスの役割を果たす。たとえば、通信サブシステム２０２４は、コンピュータシステム２０００がインターネットを介して１つ以上の装置に接続することを可能にし得る。いくつかの局面においては、通信サブシステム２０２４は、（たとえば３Ｇ、４ＧまたはＥＤＧＥ（enhanced data rates for global evolution）などの携帯電話技術、高度データネットワーク技術を用いて）無線音声および／またはデータネットワークにアクセスするための無線周波数（radio frequency：ＲＦ）トランシーバコンポーネント、ＷｉＦｉ（ＩＥＥＥ８０２．２８ファミリ標準または他のモバイル通信技術またはそれらの任意の組合せ）、全地球測位システム（global positioning system：ＧＰＳ）レシーバコンポーネント、および／または、他のコンポーネントを含み得る。いくつかの局面においては、通信サブシステム２０２４は、無線インターフェイスに加えて、または無線インターフェイスの代わりに、有線ネットワーク接続（たとえばイーサネット）を提供し得る。

また、いくつかの局面においては、通信サブシステム２０２４は、コンピュータシステム２０００を使用し得る１人以上のユーザを代表して、構造化されたおよび／または構造化されていないデータフィード２０２６、イベントストリーム２０２８、イベント更新２０２０などの形態で入力通信を受信し得る。

一例として、通信サブシステム２０２４は、ツイッター（登録商標）フィード、フェースブック（登録商標）更新、リッチ・サイト・サマリ（Rich Site Summary：ＲＳＳ）フィードなどのウェブフィードなどのデータフィード２０２６をリアルタイムでソーシャルメディアネットワークおよび／または他の通信サービスのユーザから受信し、および／または、１つ以上の第三者情報源からリアルタイム更新を受信するように構成され得る。

加えて、通信サブシステム２０２４は、連続的なデータストリームの形態でデータを受信するように構成され得る。当該データは、連続的である場合もあれば本質的に明確な端部をもたない状態で境界がない場合もあるリアルタイムイベントのイベントストリーム２０２８および／またはイベント更新２０２０を含み得る。連続的なデータを生成するアプリケーションの例としては、たとえばセンサデータアプリケーション、金融ティッカ、ネットワーク性能測定ツール（たとえばネットワークモニタリングおよびトラフィック管理アプリケーション）、クリックストリーム分析ツール、自動車交通モニタリングなどを含み得る。

また、通信サブシステム２０２４は、構造化されたおよび／または構造化されていないデータフィード２０２６、イベントストリーム２０２８、イベント更新２０２０などを、コンピュータシステム２０００に結合された１つ以上のストリーミングデータソースコンピュータと通信し得る１つ以上のデータベースに出力するように構成され得る。

コンピュータシステム２０００は、手持ち式携帯機器（たとえばｉＰｈｏｎｅ（登録商標）携帯電話、ｉＰａｄ（登録商標）計算タブレット、ＰＤＡ）、ウェアラブル装置（たとえばグーグルグラス（登録商標）ヘッドマウントディスプレイ）、ＰＣ、ワークステーション、メインフレーム、キオスク、サーバラックまたはその他のデータ処理システムを含むさまざまなタイプのうちの１つであってもよい。

コンピュータおよびネットワークの絶え間なく変化し続ける性質のために、図に示されているコンピュータシステム２０００の説明は、特定の例として意図されているに過ぎない。図２０に示されているシステムよりも多くのまたは少ない数の構成要素を有する多くの他の構成が可能である。たとえば、ハードウェア、ファームウェア、（アプレットを含む）ソフトウェア、または組合せにおいて、カスタマイズされたハードウェアが使用されてもよく、および／または、特定の要素が実装されてもよい。さらに、ネットワーク入力／出力装置などの他のコンピューティングデバイスへの接続が利用されてもよい。本明細書中に提供される開示および教示に基づいて、当業者は、さまざまな局面を実現するための他の手段および／または方法を理解するであろう。

上述の明細書では、本発明の局面は、その具体的な局面を参照して記載されているが、本発明はこれに限定されるものではないことを当業者は認識するであろう。上述の発明のさまざまな特徴および局面は、個々にまたは一緒に使用されてもよい。さらに、局面は、明細書のより広い精神および範囲から逸脱することなく、本明細書に記載されているものを越えたいくつもの環境およびアプリケーションでも利用可能である。したがって、明細書および図面は、限定的ではなく例示的なものとみなされるべきである。

Claims

１つ以上のドキュメント間の修辞的つながりを判断するための、コンピュータにより実現される方法であって、
第１のドキュメントおよび第２のドキュメントにアクセスすることと、
前記第１のドキュメントの第１のパラグラフについて第１の談話ツリーを作成することと、
前記第２のドキュメントの第２のパラグラフについて第２の談話ツリーを作成することと、
前記第１の談話ツリーの第１の基本談話単位がエンティティを含む、と判断することとを備え、前記判断することは、
前記第１の基本談話単位から名詞句を抽出することと、
前記名詞句をエンティティを含むものとして分類することとによって行われ、前記方法はさらに、
前記第２の談話ツリーにおいて、前記第１の基本談話単位と一致する第２の基本談話単位を判断することと、
前記第１の基本談話単位と前記第２の基本談話単位との間の修辞的つながりを判断することに応答して、前記修辞的つながりを介して前記第１の談話ツリーおよび前記第２の談話ツリーをリンクし、それによって拡張談話ツリーを作成することとを備える、コンピュータにより実現される方法。
前記第１の談話ツリーを作成することおよび前記第２の談話ツリーを作成することは、さらに、
複数のフラグメントを含むセンテンスにアクセスすることを含み、少なくとも１つのフラグメントは、動詞および複数の単語を含み、各単語は、前記フラグメント内おいて前記単語の役割を含み、各フラグメントは基本談話単位であり、前記第１の談話ツリーを作成することおよび前記第２の談話ツリーを作成することは、さらに、
前記複数のフラグメント間の修辞的つながりを表す談話ツリーを生成することを含み、前記談話ツリーは複数のノードを含み、各非終端ノードは前記複数のフラグメントのうちの２つのフラグメント間の修辞的つながりを表し、前記談話ツリーの前記ノードの各終端ノードは前記複数のフラグメントの１つに関連付けられる、請求項１に記載のコンピュータにより実現される方法。
前記分類することは、（ｉ）トレーニングされた機械学習モデルを用いること、（ｉｉ）キーワードのリスト、または（ｉｉｉ）インターネットリソースを検索すること、のうちの１つ以上を含む、請求項１に記載のコンピュータにより実現される方法。
エンティティは、（ｉ）人、（ｉｉ）企業、（ｉｉｉ）場所、（ｉｖ）ドキュメントの名前、または（ｖ）日付もしくは時間の１つを指す、請求項１に記載のコンピュータにより実現される方法。
修辞的つながりを判断しないことに応答して、前記第１の基本談話単位と前記第２の基本談話単位との間のタイプ詳述のデフォルトの修辞的つながりを作成し、前記第１の談話ツリーおよび前記第２の談話ツリーをリンクすることにより、拡張談話ツリーを作成することをさらに備える、請求項１に記載のコンピュータにより実現される方法。
前記修辞的つながりを判断することは、さらに、
前記第１の基本談話単位および前記第２の基本談話単位を一時パラグラフに結合することと、
談話構文解析を前記一時パラグラフに適用することにより、前記一時パラグラフ内において前記修辞的つながりを判断することとを含む、請求項１に記載のコンピュータにより実現される方法。
前記エンティティは、（ｉ）１つ以上のフレーズ、または（ｉｉ）１つ以上の基本談話単位のいずれかによって表される、請求項１に記載のコンピュータにより実現される方法。
前記第１のドキュメントおよび前記第２のドキュメントにアクセスすることは、（ｉ）前記第１のドキュメントの第１のコンテンツスコアと（ｉｉ）前記第２のドキュメントの第２のコンテンツスコアとの差がしきい値内である、と判断することを含む、請求項１に記載のコンピュータにより実現される方法。
前記第１のドキュメントおよび前記第２のドキュメントは、１つ以上のドキュメントのユーザクエリを実行することにより取得される、請求項１に記載のコンピュータにより実現される方法。
前記第１のドキュメントおよび前記第２のドキュメントは、特定のトピックに基づくテキストを含む、請求項１に記載のコンピュータにより実現される方法。
前記第１のドキュメントおよび前記第２のドキュメントにアクセスすることは、前記第１のドキュメントと前記第２のドキュメントとの間にリンクが存在する、と判断することを含む、請求項１に記載のコンピュータにより実現される方法。
拡張談話ツリーを用いてテキストをナビゲートする、コンピュータにより実現される方法であって、
複数のドキュメントを表す拡張談話ツリーにアクセスすることを備え、前記拡張談話ツリーは、第１ドキュメントについての第１談話ツリーと第２ドキュメントについての第２談話ツリーとを含み、前記方法はさらに、
前記拡張談話ツリーから、（ｉ）ユーザデバイスからのクエリに応答する第１の基本談話単位、および（ｉｉ）前記第１の基本談話単位に対応する第１の位置を判断することと、
前記拡張談話ツリーから、（ｉ）前記第１の基本談話単位と前記第１談話ツリーの第２の基本談話単位と間の第１の修辞的つながり、および（ｉｉ）前記第１の基本談話単位と前記第２の談話ツリーの第３の基本談話単位との間の第２の修辞的つながりを含むナビゲーションオプションのセットを判断することと、
前記第１の修辞的つながりおよび前記第２の修辞的つながりをユーザデバイスに提示することと、
（ｉ）ユーザデバイスから前記第１の修辞的つながりの選択を受け取ることに応答して、前記第２の基本談話単位を前記ユーザデバイスに提示すること、または（ｉｉ）前記ユーザデバイスから前記第２の修辞的つながりの選択を受け取ることに応答して、前記第３の基本談話単位を前記ユーザデバイスに提示することとを備える、コンピュータにより実現される方法。
前記ユーザデバイスから追加のクエリを受け取ることに応答して、前記追加のクエリに応答する追加の基本談話単位を判断し、前記追加の基本談話単位を前記ユーザデバイスに提示することをさらに備える、請求項１２に記載のコンピュータにより実現される方法。
前記第１の基本談話単位を判断することは、前記第１の基本談話単位において前記クエリからの１つ以上のキーワードを照合することをさらに含む、請求項１２に記載のコンピュータにより実現される方法。
前記第１の基本談話単位を判断することは、さらに、
前記クエリについて第１のパースツリーを生成することと、
１つ以上の基本談話単位の各々について追加のパースツリーを生成することと、
前記追加のパースツリーのうちの１つが前記第１のパースツリーを含む、と判断することに応答して、前記１つの追加のパースツリーに対応する基本談話単位を前記第１の基本談話単位として選択することとをさらに含む、請求項１２に記載のコンピュータにより実現される方法。
前記第１および第２の修辞的つながりは、（ｉ）詳述、（ｉｉ）可能化、（ｉｉｉ）条件、（ｉｖ）対比、または（ｖ）帰属のうちの１つを含む、請求項１２に記載のコンピュータにより実現される方法。
１つ以上のドキュメント間において修辞的つながりを判断するための、コンピュータにより実現される方法であって、
ドキュメントのセットからの第１のドキュメントを表す第１の談話ツリーおよび前記ドキュメントのセットからの第２のドキュメントを表す第２の談話ツリーにアクセスすることと、
前記第１の談話ツリーおよび前記第２の談話ツリーをトレーニング済み分類モデルに適用することにより、拡張談話ツリーのセットから参照拡張談話ツリーを取得することとを備え、前記トレーニング済み分類モデルは、前記拡張談話ツリーのセットを通って反復することにより、（ｉ）第１の候補談話ツリーおよび（ｉｉ）第２の候補談話ツリーを識別し、前記第１の候補談話ツリーおよび前記第２の候補談話ツリーは、前記第１の談話ツリーおよび前記第２の談話ツリーに対する最良の一致であり、前記方法はさらに、
前記参照拡張談話ツリーから、前記第１の参照談話ツリーと前記第２の参照談話ツリーとの間の１つ以上のリンクを判断することと、
前記１つ以上のリンクを前記第１の談話ツリーおよび前記第２の談話ツリーに伝播し、それによって拡張談話ツリーを作成することとを備える、コンピュータにより実現される方法。
前記１つ以上のリンクに基づいて、前記第１の談話ツリーと前記拡張ツリーとの間の１つ以上の修辞的つながりを判断することと、
前記修辞的つながりをユーザデバイスに提示することとをさらに備える、請求項１７に記載のコンピュータにより実現される方法。
前記修辞的つながりは、（ｉ）詳述、（ｉｉ）可能化、（ｉｉｉ）条件、（ｉｖ）対比、または（ｖ）帰属のうちの１つを含む、請求項１７に記載のコンピュータにより実現される方法。