JP6095621B2

JP6095621B2 - 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置

Info

Publication number: JP6095621B2
Application number: JP2014183049A
Authority: JP
Inventors: デイビット・ユージーン・ウィルソン; ロバート・レスリー・イエーツ; ウィリアム・グレゴリー・ビソフキ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-12-05
Filing date: 2014-09-09
Publication date: 2017-03-15
Anticipated expiration: 2034-09-09
Also published as: DE102014113870A1; US9558264B2; JP2015109068A; US20150161242A1; US9558263B2; CN104699730B; US20160171095A1; CN104699730A

Description

本発明は、契約番号２０１３−１２１０１００００８の下、米国政府の支援を受けて行われた。米国政府は本発明に一定の権利を有する。

本出願は、一般に、改良されたデータ処理装置および方法に関し、特に、質問応答（ＱＡ：ＱｕｅｓｔｉｏｎａｎｄＡｎｓｗｅｒ）システムにより生成された回答候補の間の関係を識別および表示するための機構に関する。

現在、私達は、インターネット等のコンピューティング・ネットワークの利用増加に伴い、様々な構造化ソースおよび非構造化ソースから入手可能な情報量にまみれ、圧倒されている。しかし、様々な対象に関する情報サーチの間にユーザが見つけた関連性がありそうなものをユーザ自身がつなぎ合わせて全体を知ろうとしても、情報ギャップが多く存在する。このようなサーチを助けるために、最近の研究は、入力された質問を取得し、入力された質問を分析し、入力された質問に対する最も確からしい回答を示す結果を返す、質問応答（ＱＡ）システムを作り出すことに向けられている。ＱＡシステムは、大量のコンテンツ・ソース、例えば電子文書をサーチするための自動化された機構を提供し、入力された質問に関してコンテンツ・ソースを分析して、質問に対する回答と、回答が入力された質問に回答する上でどのくらい正確かについての信頼基準とを決定する。

そのようなＱＡシステムの一つが、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ（ＩＢＭ：ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓ）・コーポレーションから利用可能なＷａｔｓｏｎ（商標）システムである。Ｗａｔｓｏｎ（商標）システムは、高度自然言語処理、情報取り出し、知識表現および推論、ならびに機械学習技術を、オープン・ドメイン質問応答の分野に応用したものである。Ｗａｔｓｏｎ（商標）システムは、仮説生成、大量証拠収集、分析、およびスコア付けに使用されるＩＢＭのＤｅｅｐＱＡ（商標）技術に基づいて構築される。ＤｅｅｐＱＡ（商標）は、入力された質問を取得し、入力された質問を分析し、質問を構成部分に分解し、分解された質問と回答ソースの一次サーチの結果とに基づいて一つ以上の仮説を生成し、証拠ソースからの証拠取り出しに基づいて仮説および証拠のスコア付けを行い、一つ以上の仮説の合成を行い、トレーニングされたモデルに基づいて最終的結合およびランク付けを行って、入力された質問に対する回答を信頼基準とともに出力する。

様々な米国特許出願公開に、様々なタイプの質問応答システムが記載されている。特許文献１は、データ・コーパスに基づいて質問および回答のペアを生成するための機構を開示する。このシステムは、一連の質問から開始し、その後コンテンツのセットを分析して、それらの質問に対する回答を抽出する。特許文献２は、分析された情報のレポートを質問の集まりに変換し、質問の集まりへの回答が情報セットから回答されるか否定されるかを決定するための機構を開示する。結果データは、更新された情報モデルに組み込まれる。

米国特許出願公開第２０１１／０１２５７３４号米国特許出願公開第２０１１／００６６５８７号

本発明は、入力された質問に応答して質問応答（ＱＡ）システムにより生成された回答候補間の共通性を識別するための機構、方法、コンピュータ・プログラム、および装置を提供することを目的とする。

一例示的実施形態では、データ処理システムにおいて、入力された質問に応答して質問応答（ＱＡ）システムが生成した、または質問応答（ＱＡ）システムによる検討のためにユーザが直接入力した回答候補の間の共通性を識別する方法が提供される。本方法は、データ処理システムまたはユーザ入力により、ＱＡシステムから、入力された質問への複数の回答候補を受け取るステップと、データ処理システムにより、それらの回答候補内に存在するタームを識別するステップとを含む。本方法は、データ処理システムにより、各回答候補内のターム間の関係を決定するステップをさらに含む。さらに、本方法は、データ処理システムにより、第一タームと第二タームとの間で共通する関係を決定するステップであって、この共通する関係は、決定された各回答候補内のターム間の関係に基づいて、複数の回答候補の少なくともサブセットの間で共通する、ステップを含む。加えて、本方法は、データ処理システムにより、複数の回答候補と共通する関係とを提示するステップを含む。

他の例示的実施形態では、コンピュータ読み取り可能プログラムを有するコンピュータ使用可能または読み取り可能媒体を含む、コンピュータ・プログラムが提供される。コンピュータ読み取り可能プログラムは、コンピューティング・デバイス上で実行されると、コンピューティング・デバイスに、方法の例示的実施形態に関して上に概説した様々な動作およびその組み合わせを行わせる。

さらに別の例示的実施形態では、システム／装置が提供される。システム／装置は、一つ以上のプロセッサと、一つ以上のプロセッサに結合されたメモリとを含みうる。メモリは命令を含めばよく、この命令は、一つ以上のプロセッサにより実行されると、一つ以上のプロセッサに、方法の例示的実施形態に関して上に概説した様々な動作およびその組み合わせを行わせる。

本発明のこれらならびに他の特徴および効果は、以下の本発明の実施形態例の詳細な説明に記載され、またはその詳細な説明を考慮すれば当業者に明らかとなるであろう。

本発明、ならびに本発明の好ましい使用様式およびさらなる目的および利点は、添付の図面を参照しながら以下の例示的実施形態の詳細な説明を参照することで最もよく理解されるであろう。

コンピュータ・ネットワークにおける質問／応答作成（ＱＡ）システムの一例示的実施形態の概略図を示す。例示的実施形態の態様が実装されうるデータ処理システムの例のブロック図を示す。一例示的実施形態による、入力された質問を処理するためのＱＡシステム・パイプラインを示す。一例示的実施形態による、回答候補関係識別エンジンの一次動作要素のブロック図の例を示す。一例示的実施形態による、回答候補内の関係を識別する際に使用する実体／ターム関係リソースを生成するために前処理動作を行うための動作例を概説したフローチャートを示す。一例示的実施形態による、実体／ターム関係リソースを使用して回答候補間の関係を決定するための動作例を概説したフローチャートを示す。一例示的実施形態による、回答候補ユーザ・インタフェースの図の例を示す。

例示的実施形態は、質問応答（ＱＡ）システムにより生成された回答候補の間の関係を識別するための機構を提供する。すなわち、例示的実施形態は、「質問に対してＱＡシステムにより計算された回答候補のセットが与えられたとき、回答候補に互いに共通するのは何か？」という質問に回答するための機構を提供する。例示的実施形態は、回答候補のセット内の要素に共通するタームを評価および表現することにより、回答候補の間で共通する回答候補内の実体およびタームの間の関係を評価および表現することにより、共通するターム、ならびに実体およびタームおよびそれらの関係に関する回答候補間の関連性を示すパッセージをコーパスから取り出して表示することにより、そのような質問に回答する。

当然のことながら、本明細書で用いられるところの「機構」という用語は、例示的実施形態の機能または態様の、装置、手順、またはコンピュータ・プログラムの形における任意の実装でありうる。本明細書に記載の機構は、専用ハードウェア、汎用ハードウェアで実行されるソフトウェア、専用または汎用ハードウェアにより命令が容易に実行可能であるように媒体に記憶されたソフトウェア命令、機能を実行するための手順もしくは方法、または以上の組み合わせとして実装されうる。

例示的実施形態の機構は、例えばデータベースなどの一つ以上のデータ・ストア内に、文書内の文のテキスト中に識別された実体の間の関係を識別する一つ以上のデータ構造を作成する。例示的実施形態の機構は、サーチ・インデックスにおいて実体をその共参照とさらに関連付ける。その結果、これらの機構は、質問に対する回答候補のセットに共通するタームを表示し、共通するタームをタームの実体タイプ（例えば人、組織、または他のターム「タイプ」）によりフィルタリングし、タームおよび実体の間の関係を識別し、回答候補と共通するタームとに関係があるという表明を裏付けるパッセージを表示しうる。

例示的実施形態の機構は、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションから利用可能なＳｔａｔｉｓｔｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＲｅｌａｔｉｏｎＥｘｔｒａｃｔｉｏｎ（ＳＩＲＥ）エンジン等の実体識別および追跡エンジンを利用しうる。ＳＩＲＥは、注釈付きデータからトレーニングできる最大エントロピー・モデルを用いたタームまたは実体検出のためのコンポーネント、文書内に検出された同じ実体に対応するタームをグループ分けするためのトレーニング可能共参照コンポーネント、およびトレーニング可能関係抽出システムを提供する。もちろん、例示的実施形態の趣旨および範囲から逸脱することなく他の実体識別および追跡エンジンが使用されてもよく、ＳＩＲＥは、本明細書において例示的実施形態により加えられた改良についての理解を促進するために例として使用されるにすぎない。

実体識別および追跡（ＥＩＴ；ｅｎｔｉｔｙｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｔｒａｃｋｉｎｇ）エンジンは、文書中のテキストの統語的ブレークダウン、テキスト中に検出された実体の識別、共参照解析（同じ実体を指す二つ以上のタームの解析）、および実体間の関係検出を提供する。加えて、ＥＩＴエンジンにより発見された共参照されたタームにより補強されたサーチ・インデックスを生成するため、および、ＥＩＴエンジンにより見つけられた実体と、実体タイプと、実体に関係するタームと、一つのコーパス内または複数のコーパス全体における特定の関係の頻度と、関係のソースである文書の公開時期と、コーパス識別子と、関係のソースである文書の文書識別子とを記憶する関係データベースを生成するための論理が提供される。

これらのリソースを用いて、ＱＡシステムにより生成された回答候補内の実体、ターム、および関係が識別され、これによって、回答候補が共通の入力された質問に対する回答であるという明らかな関係以外の回答候補間の関係が識別される。すなわち、例示的実施形態の論理は、ＱＡシステムにより返された、またはＱＡシステムによる検討のためにユーザにより明示的に入力された、入力された質問への回答候補のセットが与えられると、実体、ターム、および返された回答候補をリンクする実体およびタームの関係（例えば回答候補の間で共通するターム）を表示し、回答／実体／タームの関係を裏付けるコーパスからのパッセージを表示する。この実体、ターム、および関係の識別は、リソースの生成中に識別されたタームの共参照を考慮に入れる。

したがって、例示的実施形態の機構により生成された結果がユーザに出力され、それによりユーザは、回答候補間の共通性および回答候補間の関係についてのより深い洞察を得ることができ、ユーザには元の入力された質問に対する回答についてのより深い洞察が与えられる。例えばユーザに、ユーザ・インタフェース等を通じて回答候補の共通性に向けた質問をするオプションが与えられうる。問うことのできるそのような質問の例は、例えば「全ての回答に共通するタームは？（および、タームと回答とに関係があることを示すコーパスの文書からのパッセージは何か）」、「回答のサブセットに共通するタームは？（および、タームと回答とに関係があることを示すコーパスの文書からのパッセージは何か）」などでありうる。例えば「全ての回答に共通する人は？」（「人」が実体タイプである場合）、「全ての回答に共通する組織は？」、「全ての回答に共通する国は？」など、回答候補の間で共通する実体タイプを決定するために、実体タイプに質問が向けられうるケースもある。

例示的実施形態の機構により行われた分析の結果を用いて、決定されたタームの特性、ターム間の関係、およびユーザが回答候補についてする特定の質問に基づいて、回答候補の表示が変更されうる。例えばユーザが回答候補の間で共通するタームの指示を求めた場合には、回答候補内で共通するタームが、タームと特定の回答候補との間の関係を裏付けるパッセージとともに、ハイライトされうる。そのうえ、一つのコーパス内もしくは複数のコーパス全体またはその両方におけるタームおよび実体の間の関係の頻度が、関係の強さの尺度として使用され、例えば異なる強さを異なる色の強調、フォント、サイズ、またはその他の任意のテキストまたはグラフィック特性で示すなど、回答候補において関係の相対的強さを表現するように回答候補の表示を修正するために使用されうる。さらに、関係の固有性の尺度も、回答候補の表示を修正するために使用されうる。以上のいずれの特徴が個別にまたは組み合わせて実装されるかに関わらず、例示的実施形態は、入力された質問への回答候補としてなぜ回答候補が選択されたのかということの背後にある推論、ならびに、使用されたタームおよび回答候補内に言及されたターム／実体の間の関係に関して回答候補の間で何が共通するかについてのより深い洞察を提供する。

本発明の例示的実施形態の以上の態様および利点を、添付の図面を参照しながら以下に詳述する。当然のことながら、図面は、本発明の代表的な実施形態を説明することを目的とするにすぎない。本発明は、図面に明示的に示されてはいないが、本明細書の例示的実施形態の説明を考慮すれば通常の技術を有する当業者には直ちに明らかとなるであろう、図示された代表的な実施形態の態様、実施形態、および修正を包含しうる。

当業者には当然のことながら、本発明の態様は、システム、方法、またはコンピュータ・プログラムとして具現化されうる。したがって、本発明の態様は、本明細書においては全て一般的に「回路」、「モジュール」または「システム」と呼称しうる、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）またはソフトウェアおよびハードウェア態様を組み合わせた実施形態の形をとりうる。さらに、本発明の態様は、具現化されたコンピュータ使用可能プログラム・コードを有する任意の一つ以上のコンピュータ読み取り可能媒体（単数または複数）において具現化されたコンピュータ・プログラムの形をとりうる。

一つ以上のコンピュータ読み取り可能媒体（単数または複数）の任意の組み合わせを、利用しうる。コンピュータ読み取り可能媒体は、コンピュータ読み取り可能信号媒体またはコンピュータ読み取り可能記憶媒体であればよい。コンピュータ読み取り可能記憶媒体は、電子、磁気、光、電磁、または半導体の性質のシステム、装置、もしくはデバイス、以上の任意の適切な組み合わせ、またはその等価物でありうる。コンピュータ読み取り可能記憶媒体のより具体的な例（非網羅的リスト）には、記憶容量を有する電気デバイス、携帯可能コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、光ファイバ・ベースのデバイス、携帯可能コンパクト・ディスク読み取り専用メモリ（ＣＤＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または以上の任意の適切な組み合わせが含まれるであろう。本文書の文脈においては、コンピュータ読み取り可能記憶媒体は、命令実行システム、装置、またはデバイスによって使用されまたはこれと接続して使用されるプログラムを含みまたは記憶することができる、任意の有形の媒体でありうる。

いくつかの例示的実施形態では、コンピュータ読み取り可能媒体は、非一時的コンピュータ読み取り可能媒体である。非一時的コンピュータ読み取り可能媒体は、具現化されない信号または伝搬波、すなわち純粋な信号または伝搬波自体ではない任意の媒体である。非一時的コンピュータ読み取り可能媒体は、信号および伝搬波を利用しうるが、信号または伝搬波そのものではない。したがって例えば、任意の方法で信号を利用して、例えばその状態を維持する、様々な形のメモリ・デバイス、およびその他のタイプのシステム、デバイス、または装置が、本記載の範囲内の非一時的コンピュータ読み取り可能媒体であると考えられる。

一方でコンピュータ読み取り可能信号媒体は、例えばベースバンドにおいてまたは搬送波の一部として、具現化されたコンピュータ読み取り可能プログラム・コードを含む伝搬データ信号を含みうる。このような伝搬信号は、電磁、光、またはその任意の適切な組み合わせを含むがこれに限られない、様々な形のいずれかをとりうる。コンピュータ読み取り可能信号媒体は、コンピュータ読み取り可能記憶媒体でなく、命令実行システム、装置、またはデバイスによって使用されまたはこれと接続して使用されるプログラムを通信、伝搬、または伝達できる、任意のコンピュータ読み取り可能媒体でありうる。同様に、コンピュータ読み取り可能記憶媒体は、コンピュータ読み取り可能信号媒体ではない任意のコンピュータ読み取り可能媒体でありうる。

コンピュータ読み取り可能媒体上に具現化されるコンピュータ・コードは、無線、有線、光ファイバ・ケーブル、ラジオ周波数（ＲＦ）等、またはその任意の適切な組み合わせを含むがこれに限られない任意の適切な媒体を用いて伝送されうる。

本発明の態様の動作を行うためのコンピュータ・プログラム・コードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ（商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語等の従来の手続き型プログラミング言語を含む、一つ以上のプログラミング言語の任意の組み合わせで記述されればよい。プログラム・コードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン型のソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でおよび部分的にリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で、実行されうる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されればよく、または（例えばインターネット・サービス・プロバイダを用いてインターネットを通じて）外部コンピュータに対して接続がなされうる。

本発明の例示的実施形態による方法、装置（システム）およびコンピュータ・プログラムのフローチャート図もしくはブロック図またはその両方を参照して、本発明の態様を後述する。当然のことながら、フローチャート図もしくはブロック図またはその両方の各ブロック、フローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ・プログラム命令により実装されうる。これらのコンピュータ・プログラム命令は、コンピュータまたはその他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートもしくはブロック図またはその両方のブロック（単数または複数）に指定された機能／行為を実装する手段を創出するように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて機械が生み出されうる。

これらのコンピュータ・プログラム命令は、コンピュータ読み取り可能媒体に記憶された命令が、フローチャートもしくはブロック図またはその両方のブロック（単数または複数）に指定された機能／行為を実装する命令を含む製造物品を生み出すように、コンピュータ、その他のプログラム可能データ処理装置、またはその他のデバイスに特定の様式で機能するように指示しうるコンピュータ読み取り可能媒体に記憶されてもよい。

コンピュータ・プログラム命令は、コンピュータ、その他のプログラム可能装置、またはその他のデバイス上で一連の動作ステップを行わせて、コンピュータまたはその他のプログラム可能装置上で実行する命令が、フローチャートもしくはブロック図またはその両方のブロック（単数または複数）に指定された機能／行為を実装するためのプロセスを提供するようなコンピュータ実装されたプロセスを生み出すために、コンピュータ、その他のプログラム可能データ処理装置、またはその他のデバイスにロードされてもよい。

図のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラムの可能な実装のアーキテクチャ、機能性、および動作を例示する。この点において、フローチャートまたはブロック図の各ブロックは、指定された論理機能（単数または複数）を実装するための一つ以上の実行可能命令を含む、コードのモジュール、セグメント、または一部を表現しうる。いくつかの代替的実装では、ブロックに記された機能が、図面に記されたものとは異なる順序で生じうることにも注意しなければならない。例えば、連続して示される二つのブロックは、実際には、関連する機能性に応じて、実質的に同時に実行されることもあり、またはブロックが逆の順序で実行されることもありうる。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能もしくは行為を行う専用ハードウェア・ベースのシステム、または専用ハードウェアおよびコンピュータ命令の組み合わせにより実装されうることにも注意しなければならない。

上述のように、例示的実施形態は、質問応答（ＱＡ）システムにより生成された回答候補内の実体、ターム、ならびに実体間の関係、実体およびタームの間の関係などを識別するための機構を提供する。当然のことながら、例示的実施形態の機構は、一態様では、回答候補間の関係を識別するべくＱＡシステムの回答候補を処理するために使用されうるリソースを生成するための、単数または複数のコーパスの文書のプリプロセッサとして動作する。したがって第二態様として、プリプロセッサ機構により生成されたリソースが、さらにＱＡシステムのランタイム動作中に、ＱＡシステムによって生成された回答候補に適用されて、回答候補間の関係に関する追加情報がユーザに提供される。

図１〜３は、例示的実施形態の機構が実装されうる質問／応答、質問および応答、または質問応答（ＱＡ）システム、方法論、およびコンピュータ・プログラムの例を説明することに向けられている。以下でさらに詳述するように、例示的実施形態は、回答候補内および回答候補間の関係を、これらの回答候補内の共通するまたは関係がある実体およびタームに関して識別および表示することに関して、これらのＱＡ機構に統合され、その機能性を補強および拡張しうる。

したがって、例示的実施形態の機構がこのようなＱＡシステムにどのように統合されこれを補強するかを説明する前に、ＱＡシステムにおける質問および回答作成がどのように実装されるかをまず理解することが重要である。当然のことながら、図１〜３に説明したＱＡ機構は例にすぎず、例示的実施形態が実装されうるＱＡ機構のタイプに関する制限を述べまたは示唆してはいない。本発明の様々な実施形態においては、本発明の趣旨および範囲から逸脱することなく、図１〜３に示したＱＡシステムの例に対する多くの修正が実装されうる。

ＱＡ機構は、データまたは情報のコーパス（コンテンツ・コーパスとも呼称される）からの情報にアクセスし、分析してから、このデータの分析に基づいて回答結果を生成することにより動作する。データ・コーパスからの情報へのアクセスには、典型的に、構造化された記録の集まりに含まれるものについての質問に回答するデータベース・クエリと、非構造化データ（テキスト、マークアップ言語など）の集まりに対するクエリに応答して文書リンクの集まりを返すサーチとが含まれる。従来の質問応答システムは、データ・コーパスと入力された質問とに基づいて回答を生成し、データ・コーパスにつき質問の集まりに対する回答を検証し、データ・コーパスを使用してデジタル・テキストのエラーを訂正し、可能性のある回答すなわち回答候補のプールから質問に対する回答を選択することが可能である。

記事の著者、電子文書作成者、ウェブ・ページの著者、文書データベース作成者などのコンテンツ作成者は、コンテンツを書く前にそのようなコンテンツ中に記述される製品、ソリューション、およびサービスのユース・ケースを決定しうる。したがってコンテンツ作成者は、コンテンツが取り上げる特定のトピックの中でコンテンツがどのような質問に回答することを意図しているかを知りうる。データ・コーパスの各文書における質問に関連する役割、情報のタイプ、タスクなどに関する質問の分類により、具体的クエリに関係があるコンテンツを含む文書をＱＡシステムがより迅速に効率よく識別することが可能になりうる。コンテンツは、コンテンツ・ユーザにとって有用である可能性のある、コンテンツ作成者が企図しなかった他の質問にも回答しうる。質問および回答は、コンテンツ作成者により検証されて、所与の文書のコンテンツに含まれうる。これらの能力は、ＱＡシステムの正確さ、システム性能、機械学習、および信頼度の改善に寄与する。コンテンツ作成者、自動化ツールなどは、コンテンツのこれらの質問および回答属性を識別するためにＱＡシステムが使用できる情報を提供するために注釈を付与したり、または別途メタデータを生成しうる。

ＱＡシステムは、このようなコンテンツに対して動作し、入力された質問への最も確からしい回答すなわち回答候補を識別するためにコンテンツを評価する複数の集中分析機構を用いて入力された質問への回答を生成する。例示的実施形態は、ＱＡシステムが既に行った作業を活用して、ＱＡシステムが既に処理した質問に類似する質問の後続処理のための計算時間およびリソース・コストを削減する。

図１は、コンピュータ・ネットワーク１０２における質問／応答作成（ＱＡ）システム１００の一例示的実施形態の概略図を示す。本明細書に記載した原理とともに用いることができる質問／応答生成の一例は、参照により全体として本明細書に組み込まれる米国特許出願公開第２０１１／０１２５７３４号に記載されている。ＱＡシステム１００は、コンピュータ・ネットワーク１０２に接続された、（一つ以上のプロセッサおよび一つ以上のメモリ、ならびに潜在的にバス、記憶デバイス、通信インタフェースなどを含む当技術分野で周知の任意の他のコンピューティング・デバイス要素を含む）一つ以上のコンピューティング・デバイス１０４上に実装されうる。ネットワーク１０２は、一つ以上の有線もしくは無線データ通信リンクまたはその両方を介して互いにおよび他のデバイスまたはコンポーネントと通信する、複数のコンピューティング・デバイス１０４を含むことができ、各通信リンクが、一つ以上のワイヤ、ルータ、スイッチ、伝送器、受信器などを含みうる。ＱＡシステム１００およびネットワーク１０２は、一人以上のＱＡシステム・ユーザに、各自のコンピューティング・デバイス１１０〜１１２を介して質問／応答（ＱＡ）生成機能性を可能にしうる。ＱＡシステム１００の他の実施形態が、ここに示したもの以外のコンポーネント、システム、サブシステム、もしくはデバイスまたはその全てとともに使用されてもよい。

ＱＡシステム１００は、様々なソースからの入力を受け取るＱＡシステム・パイプライン１０８を実装するように構成されればよい。例えば、ＱＡシステム１００は、ネットワーク１０２、電子文書のコーパス１０６、ＱＡシステム・ユーザ、またはその他のデータおよびその他の考えられる入力のソースから入力を受け取りうる。一実施形態では、ＱＡシステム１００への入力の一部または全部がネットワーク１０２を経由しうる。ネットワーク１０２上の様々なコンピューティング・デバイス１０４は、コンテンツ作成者およびＱＡシステム・ユーザのためのアクセス・ポイントを含みうる。コンピューティング・デバイス１０４のいくつかは、データ・コーパス１０６（図１では説明の便宜上別個の実体として示される）を記憶するデータベースのためのデバイスを含みうる。データ・コーパス１０６の一部は、ネットワークに接続された一つ以上の他のストレージ・デバイス上、一つ以上のデータベース内、または図１に明示されないその他のコンピューティング・デバイスに提供されてもよい。ＱＡシステム１００がローカルおよびグローバル、例えばインターネットを含む任意のサイズの環境で動作しうるように、ネットワーク１０２は様々な実施形態においてローカル・ネットワーク接続およびリモート接続を含みうる。

一実施形態では、コンテンツ作成者が、ＱＡシステム１００によりデータ・コーパスの一部として使用するために、データ・コーパス１０６の文書内のコンテンツを作成する。文書は、ＱＡシステム１００において使用するための任意のファイル、テキスト、記事、またはデータのソースを含みうる。ＱＡシステム・ユーザは、ネットワーク１０２に対するネットワーク接続またはインターネット接続を介してＱＡシステム１００にアクセスし、データ・コーパス１０６内のコンテンツによって回答されうる質問を、ＱＡシステム１００に入力しうる。一実施形態では、自然言語を使用して質問を形成しうる。ＱＡシステム１００は、質問を解釈し、ＱＡシステム・ユーザ、例えばＱＡシステム・ユーザ１１０に、質問に対する一つ以上の回答を含む応答を提供しうる。いくつかの実施形態では、ＱＡシステム１００は、ランク付けされた回答候補のリストにおいて、ユーザに応答を提供しうる。

ＱＡシステム１００は、入力された質問、データ・コーパス１０６を処理し、データ・コーパス１０６の処理に基づいて入力された質問への回答を生成するための複数のステージを含む、ＱＡシステム・パイプライン１０８を実装する。ＱＡシステム・パイプライン１０８は、図３に関して以下に詳述する。

いくつかの例示的実施形態では、ＱＡシステム１００は、後述する例示的実施形態の機構により補強された、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションから利用可能なＷａｔｓｏｎ（商標）ＱＡシステムでありうる。Ｗａｔｓｏｎ（商標）ＱＡシステムは、入力された質問を受け取った後、これをパースして質問の主要な特徴を抽出し、さらにこれを用いて、データ・コーパスに適用されるクエリを構築する。データ・コーパスへのクエリの適用に基づいて、データ・コーパス全体の中から、入力された質問に対する価値のある応答を含む可能性があるデータ・コーパスの部分を探すことにより、入力された質問に対する仮説すなわち回答候補のセットが生成される。

それからＷａｔｓｏｎ（商標）ＱＡシステムは、様々な推論アルゴリズムを用いて、入力された質問の言語およびクエリの適用の間に見つかったデータ・コーパスの各部分に使用された言語の深い分析を行う。それぞれが異なる分析、例えば比較を行い、スコアを生成する何百または何千もの推論アルゴリズムが適用されうる。例えば、いくつかの推論アルゴリズムは、入力された質問およびデータ・コーパスから見つかった部分の言語の中のタームおよび同義語のマッチングに注目しうる。言語の時間または空間特徴に注目しうる推論アルゴリズムもあれば、データ・コーパスの部分のソースを評価し、その真実性を評価しうる推論アルゴリズムもある。

様々な推論アルゴリズムから得られたスコアは、その推論アルゴリズムの具体的な焦点エリアに基づいて、入力された質問によって可能性のある応答が推測される程度を示す。それから各結果のスコアが、統計モデルに対して重み付けされる。統計モデルは、推論アルゴリズムがＷａｔｓｏｎ（商標）ＱＡシステムのトレーニング期間中に特定のドメインで二つの類似パッセージ間の推測の確立をどのくらい良好に行ったかを捉える。次に統計モデルを用いて、質問によって可能性のある応答すなわち回答候補が推測されるという証拠に関してＷａｔｓｏｎ（商標）ＱＡシステムが有する信頼度のレベルが集約されうる。このプロセスは、Ｗａｔｓｏｎ（商標）ＱＡシステムが他の回答候補よりも有意に強力な回答候補として浮上する回答候補を特定し、ひいては入力された質問への最終回答またはランク付けされた回答のセットを生成するまで、各回答候補について繰り返されうる。Ｗａｔｓｏｎ（商標）ＱＡシステムに関するさらなる情報は、例えばＩＢＭコーポレーションのウェブサイト、ＩＢＭＲｅｄｂｏｏｋｓ（ＩＢＭ社の登録商標）などから得られる。例えば、Ｙｕａｎｅｔａｌ．，“ＷａｔｓｏｎａｎｄＨｅａｌｔｈｃａｒｅ，”ＩＢＭｄｅｖｅｌｏｐｅｒＷｏｒｋｓ，２０１１および“ＴｈｅＥｒａｏｆＣｏｇｎｉｔｉｖｅＳｙｓｔｅｍｓ：ＡｎＩｎｓｉｄｅＬｏｏｋａｔＩＢＭＷａｔｓｏｎａｎｄＨｏｗｉｔＷｏｒｋｓ”ｂｙＲｏｂＨｉｇｈ，ＩＢＭＲｅｄｂｏｏｋｓ，２０１２に、Ｗａｔｓｏｎ（商標）ＱＡシステムに関する情報が見られる。

図２は、例示的実施形態の態様が実装されうるデータ処理システムの例のブロック図である。データ処理システム２００は、本発明の例示的実施形態のプロセスを実装するコンピュータ使用可能コードまたは命令が置かれうる、図１のサーバ１０４またはクライアント１１０等のコンピュータの例である。一例示的実施形態では、図２は、後述する例示的実施形態の追加の機構を含むように補強されたＱＡシステム１００およびＱＡシステム・パイプライン１０８を実装する、サーバ１０４等のサーバ・コンピューティング・デバイスを表す。

図の例では、データ処理システム２００は、ノース・ブリッジおよびメモリ・コントローラ・ハブ（ＮＢ／ＭＣＨ）２０２と、サウス・ブリッジおよび入力／出力（Ｉ／Ｏ）コントローラ・ハブ（ＳＢ／ＩＣＨ）２０４とを含むハブ・アーキテクチャを採用する。処理ユニット２０６、メイン・メモリ２０８、およびグラフィックス・プロセッサ２１０が、ＮＢ／ＭＣＨ２０２に接続される。グラフィックス・プロセッサ２１０は、加速グラフィックス・ポート（ＡＧＰ）を通じてＮＢ／ＭＣＨ２０２に接続されうる。

図の例では、ローカル・エリア・ネットワーク（ＬＡＮ）アダプタ２１２が、ＳＢ／ＩＣＨ２０４に接続する。オーディオ・アダプタ２１６、キーボードおよびマウス・アダプタ２２０、モデム２２２、読み取り専用メモリ（ＲＯＭ）２２４、ハードディスク・ドライブ（ＨＤＤ）２２６、ＣＤ−ＲＯＭドライブ２３０、ユニバーサル・シリアル・バス（ＵＳＢ）ポートおよびその他の通信ポート２３２、ならびにＰＣＩ／ＰＣＩｅデバイス２３４が、バス２３８およびバス２４０を通じてＳＢ／ＩＣＨ２０４に接続する。ＰＣＩ／ＰＣＩｅデバイスは、例えば、イーサネット・アダプタ、アドイン・カード、およびノート・パソコン用のＰＣカードを含みうる。ＰＣＩはカード・バス・コントローラを使用するが、ＰＣＩｅは使用しない。ＲＯＭ２２４は、例えば、フラッシュ基本入力／出力システム（ＢＩＯＳ）でありうる。

ＨＤＤ２２６およびＣＤ−ＲＯＭドライブ２３０は、バス２４０を通じてＳＢ／ＩＣＨ２０４に接続する。ＨＤＤ２２６およびＣＤ−ＲＯＭドライブ２３０は、例えば、統合ドライブ・エレクトロニクス（ＩＤＥ：ｉｎｔｅｇｒａｔｅｄｄｒｉｖｅｅｌｅｃｔｒｏｎｉｃｓ）またはシリアルＡＴＡ（ＳＡＴＡ：ｓｅｒｉａｌａｄｖａｎｃｅｄｔｅｃｈｎｏｌｏｇｙａｔｔａｃｈｍｅｎｔ）インタフェースを使用しうる。スーパーＩ／Ｏ（ＳＩＯ：ＳｕｐｅｒＩ／Ｏ）デバイス２３６が、ＳＢ／ＩＣＨ２０４に接続されうる。

オペレーティング・システムは、処理ユニット２０６で稼働する。オペレーティング・システムは、図２のデータ処理システム２００内の様々なコンポーネントを調整し、制御を提供する。クライアントとして、オペレーティング・システムは、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ７（登録商標）等の市販のオペレーティング・システムであってもよい。Ｊａｖａ（登録商標）プログラミング・システム等のオブジェクト指向プログラミング・システムが、オペレーティング・システムとともに稼動することができ、データ処理システム２００上で実行するＪａｖａ（登録商標）プログラムまたはアプリケーションからオペレーティング・システムへの呼び出しを提供する。

サーバとしては、データ処理システム２００は、ＡｄｖａｎｃｅｄＩｎｔｅｒａｃｔｉｖｅＥｘｅｃｕｔｉｖｅ（ＡＩＸ（ＩＢＭ社の登録商標））オペレーティング・システムまたはＬＩＮＵＸ（登録商標）オペレーティング・システムを稼働する、例えばＩＢＭのｅＳｅｒｖｅｒＳｙｓｔｅｍｐ（ＩＢＭ社の登録商標）コンピュータ・システムであってもよい。データ処理システム２００は、処理ユニット２０６に複数のプロセッサを含む対称型マルチプロセッサ（ＳＭＰ：ｓｙｍｍｅｔｒｉｃｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）システムであってもよい。あるいは、単一のプロセッサ・システムが使用されてもよい。

オペレーティング・システム、オブジェクト指向プログラミング・システムへの命令、およびアプリケーションまたはプログラムは、ＨＤＤ２２６等の記憶デバイス上に置かれ、処理ユニット２０６による実行のためにメイン・メモリ２０８内にロードされうる。本発明の例示的実施形態のプロセスは、例えばメイン・メモリ２０８、ＲＯＭ２２４、または一つ以上の周辺デバイス２２６および２３０等のメモリ内に置かれうるコンピュータ使用可能プログラム・コードを使用して処理ユニット２０６により行われうる。

図２に示すバス２３８またはバス２４０等のバス・システムは、一つ以上のバスから構成されうる。もちろん、バス・システムは、ファブリックまたはアーキテクチャに取り付けられた異なるコンポーネントまたはデバイスの間でデータ転送を提供する、任意のタイプの通信ファブリックまたはアーキテクチャを使用して実装されうる。図２のモデム２２２またはネットワーク・アダプタ２１２等の通信ユニットは、データを伝送または受信するために使用される一つ以上のデバイスを含みうる。メモリは、例えばメイン・メモリ２０８、ＲＯＭ２２４、または図２のＮＢ／ＭＣＨ２０２内に見られるもの等のキャッシュでありうる。

当業者には当然のことながら、図１および図２に示したハードウェアは、実装によって変動しうる。フラッシュ・メモリ、等価の不揮発性メモリ、または光ディスク・ドライブなどの他の内部ハードウェアまたは周辺デバイスを、図１および２に示したハードウェアに追加または代用して使用しうる。また、本発明の趣旨および範囲から逸脱することなく、例示的実施形態のプロセスを前述のＳＭＰシステム以外のマルチプロセッサ・データ処理システムに適用することもできる。

さらに、データ処理システム２００は、クライアント・コンピューティング・デバイス、サーバ・コンピューティング・デバイス、タブレット・コンピュータ、ラップトップ・コンピュータ、電話または他の通信デバイス、パーソナル・ディジタル・アシスタント（ＰＤＡ）などを含む、多様なデータ処理システムのうちのいずれかの形をとりうる。いくつかの例示的実施形態では、データ処理システム２００は、例えばオペレーティング・システム・ファイルもしくはユーザが生成したデータまたはその両方を記憶するための不揮発性メモリを提供するようにフラッシュ・メモリとともに構成された携帯可能コンピューティング・デバイスであってもよい。基本的に、データ処理システム２００は、アーキテクチャの制限のない任意の既知のまたは今後開発されるデータ処理システムであればよい。

図３は、一例示的実施形態による、入力された質問を処理するためのＱＡシステム・パイプラインを示す。図３のＱＡシステム・パイプラインは、例えば、図１のＱＡシステム１００のＱＡシステム・パイプライン１０８として実装されうる。当然のことながら、図３に示したＱＡシステム・パイプラインのステージは、特定のステージに起因する機能性を実装するための論理で構成された一つ以上のソフトウェア・エンジン、コンポーネントなどとして実装されうる。このようなソフトウェア・エンジン、コンポーネントなどの一つ以上を用いて、各ステージが実装されうる。ソフトウェア・エンジン、コンポーネントなどは、一つ以上のデータ処理システムまたはデバイスの一つ以上のプロセッサ上で実行されればよく、一つ以上のデータ処理システム上の一つ以上のデータ記憶デバイス、メモリなどに記憶されたデータを利用するか、またはそれを基にして動作しうる。図３のＱＡシステム・パイプラインを、例えば、後述する例示的実施形態の改良された機構を実装するために一つ以上のステージにおいて補強することもできるし、改良された機構を実装するために追加のステージを提供することもできるし、またはパイプライン３００とインタフェースし、例示的実施形態の改良された機能性および動作を実装するための、パイプライン３００とは別個の論理を提供することもできる。

図３に示すように、ＱＡシステム・パイプライン３００は、ＱＡシステムが入力された質問を分析し、最終応答を生成するために動作する、複数のステージ３１０〜３８０を含む。最初の質問入力ステージ３１０では、ＱＡシステムが、自然言語フォーマットで提示され入力された質問を受け取る。すなわち、ユーザは、ユーザ・インタフェースを介して、例えば「ワシントンの側近の顧問は誰か？」など、ユーザが回答を得たい質問を入力すればよい。入力された質問を受け取ったことに応答して、ＱＡシステム・パイプライン３００の次のステージ、すなわち質問およびトピック分析ステージ３２０が、自然言語処理（ＮＬＰ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ）技術を用いて入力された質問をパースして、入力された質問から主要な特徴を抽出し、主要な特徴をタイプにしたがって、例えば名前、日付、またはその他の多数の定義されたトピックのいずれかにしたがって分類する。例えば、上の質問例では、「誰」というタームは、人の識別が求められていることを指示する「人」のトピックに関連付けることができ、「ワシントン」は、質問が関連付けられる人の固有名詞として識別でき、「側近の」は、近さまたは関係を指示する語として識別でき、「顧問」は名詞またはその他の言語トピックを指示しうる。

次に識別された主要な特徴が、質問分解ステージ３３０の間に用いられて、質問を、一つ以上の仮説を生成するためにデータ／情報・コーパス３４５に適用できる一つ以上クエリに分解しうる。クエリは、構造クエリ言語（ＳＱＬ：ＳｔｒｕｃｔｕｒｅＱｕｅｒｙＬａｎｇｕａｇｅ）などの任意の既知のまたは今後開発されるクエリ言語で生成されうる。クエリは、データ／情報・コーパス３４５を構成する電子テキスト、文書、記事、ウェブサイトなどについての情報を記憶した一つ以上のデータベースに適用されうる。すなわち、これらの様々なソース自体、様々なソースの集まりなどが、複数のコーパス３４５内の異なるコーパス３４７を表しうる。特定の実装に応じた様々な基準に基づいて、異なる文書の集まりについて異なるコーパス３４７が定義されうる。例えば、異なるトピック、対象事項カテゴリ、情報ソースなどにつき、異なるコーパスが確立されうる。一例として、第一コーパスは保健文書に関連し、第二コーパスは財政文書に関連しうる。あるいは、一つのコーパスは米国エネルギー省により公開された文書であり、別のコーパスはＩＢＭＲｅｄｂｏｏｋｓ（ＩＢＭ社の登録商標）文書であってもよい。何らかの類似の属性を有するコンテンツの任意の集まりを、複数のコーパス３４５内のコーパス３４７と考えることができる。

例えば図１のデータ・コーパス１０６などのデータ／情報・コーパスを構成する電子テキスト、文書、記事、ウェブサイトなどについての情報を記憶した一つ以上のデータベースに、クエリが適用されうる。クエリは、仮説生成ステージ３４０でデータ／情報・コーパスに適用されて、入力された質問に回答するための可能性のある仮説を識別した結果が生成され、これが評価されうる。すなわち、クエリの適用の結果、データ／情報・コーパスのうち、特定のクエリの基準にマッチする部分が抽出される。そして、これらのコーパスの部分が、仮説生成ステージ３４０の間に分析および使用されて、入力された質問に回答するための仮説が生成されうる。これらの仮説は、本明細書において、入力された質問への「回答候補」とも呼称される。このステージ３４０では、任意の入力された質問に対して、評価が必要となりうる何百もの仮説または回答候補が生成されうる。

それからＱＡシステム・パイプライン３００は、ステージ３５０で、入力された質問の言語および各仮説または「回答候補」の言語の深い分析および比較を行うとともに、特定の仮説が入力された質問への正しい回答である尤度を評価するために証拠のスコア付けを行う。これには上述のように、入力された質問の言語、もしくは仮説を裏付ける証拠を提供するあるいは提供しないコーパスのコンテンツの言語、またはその両方の別々のタイプの分析をそれぞれが行う、複数の推論アルゴリズムの使用を含みうる。各推論アルゴリズムは、行った分析に基づいて、クエリの適用により抽出されたデータ／情報・コーパスの各部分の適合性の尺度ならびに対応する仮説の正確性の尺度すなわち仮説の信頼度の尺度を示すスコアを生成する。

合成ステージ３６０では、様々な推論アルゴリズムにより生成された多数の適合性スコアが、様々な仮説の信頼度スコアに合成されうる。このプロセスは、様々なスコアに重みを付けることを含みうるが、その重みは、後述のように、ＱＡシステムが利用する統計モデルのトレーニングを通じて決定されるか、もしくは動的にアップデートされたものであるか、またはその両方である。重み付けされたスコアは、これらのスコアを組み合わせて個々の仮説または回答候補の信頼度スコアまたは尺度を生成しうる様式を識別する、ＱＡシステムのトレーニングを通じて生成された統計モデルにしたがって処理されうる。この信頼度スコアまたは尺度は、入力された質問によって回答候補が推測される、すなわち回答候補が入力された質問への正しい回答であるという証拠についてＱＡシステムが有する信頼度のレベルを集約する。

結果として得られた信頼度スコアまたは尺度は、最終信頼度結合およびランク付けステージ３７０により処理される。このステージは、信頼度スコアおよび尺度を比較し、これらを所定の閾値に対して比較し、または信頼度スコアのその他の任意の分析を行って、どの仮説／回答候補が入力された質問に対する回答である尤度が最も高いかを決定する。これらの比較にしたがって、仮説／回答候補がランク付けされて、ランク付けされた仮説／回答候補（以下では単に「回答候補」と呼称する）のリストが生成されうる。ステージ３８０では、ランク付けされた回答候補のリストから、最終回答および信頼度スコア、または回答候補および信頼度スコアの最終セットが生成され、元の入力された質問の提出者に対して出力されうる。

例示的実施形態は、図１〜３に関して上述したもの等のＱＡシステムを利用して入力された質問に回答する機構を提供し、ＱＡシステムにより生成された回答候補を分析して、回答候補内の共通するターム、実体、ならびにタームおよび実体の間の関係を識別する機構をさらに提供する。加えて、ターム、実体、ならびにタームおよび実体の間の関係に関連付けられた統計的尺度が決定され、回答候補の表示を修正するため、もしくは回答候補間の共通性に関する質問に回答するため、またはその両方のために使用されうる。

例示的実施形態の一態様は、ＱＡシステムにより生成された回答候補の共通性を分析する際に後で使用する、ターム、実体、タームおよび実体の間の関係、ならびにこれらのターム、実体、および関係に関する統計についての情報を記憶したリソースを生成するために、図３のコーパス３４７または複数のコーパス３４５等の単数または複数のコーパス内の文書を分析する、プリプロセッサを提供する。例示的実施形態の第二態様では、リソースを用いて回答候補内のターム、実体、および関係の実例が識別され、回答候補の共通性および関係性に関して結論が導かれる。この第二態様に関して、回答候補を提示するためのユーザ・インタフェースが生成され、これには回答候補間の共通性、回答候補の関係性に関する質問に回答するための、および回答候補間の共通性および関係を裏付ける単数または複数のコーパスからの裏付けパッセージを提示するための機構が備わっているほか、以上に基づいて回答候補の出力をハイライトまたは修正するための機構が提供される。

例示的実施形態の様々な態様を、図４に関して以下に詳述する。図４は、一例示的実施形態による回答候補関係識別エンジンの一次動作要素のブロック図の例である。図４に示される要素は、ハードウェア論理、一つ以上のハードウェア・デバイスにより実行されるソフトウェア論理、またはハードウェア論理とソフトウェア論理との任意の組み合わせにおいて実装されうる。一例示的実施形態では、図４に示される要素は、ソフトウェア論理を一つ以上のメモリ、記憶デバイスなどにロードした後に、一つ以上のコンピューティング・デバイスの一つ以上のプロセッサにより実行されるソフトウェア論理として実装される。

図４に示すように、回答候補関係識別エンジン４００は、コントローラ４１０と、コーパス・インタフェース４２０と、ターム／実体識別エンジン４３０と、関係識別エンジン４４０と、統計的尺度エンジン４５０と、実体／ターム／関係データ構造生成エンジン４６０と、回答候補関係分析エンジン４７０と、および回答候補ユーザ・インタフェース・エンジン４８０とを含む。当然のことながら、図４に示される例示的実施形態の例は、前処理の態様および論理と後処理の態様および論理との両方を単一の回答候補関係識別エンジン４００に組み合わせる。例えば、要素４３０〜４６０は、例示的実施形態の前処理の態様／論理に関連しうる一方で、回答候補関係分析エンジン４７０および回答候補ユーザ・インタフェース・エンジン４８０は、例示的実施形態の後処理の態様／論理の一部と考えることができる。

図４は前処理および後処理の態様／論理を同じエンジン４００の一部として示すが、例示的実施形態はこのようなものに限られない。むしろ、他の例示的実施形態では、前処理および後処理の態様／論理が互いに別々で異なっており、後処理の態様／論理が、例えばデータ構造４６２〜４６４など、前処理の態様／論理により生成された結果を利用して、その後処理の態様／論理を行ってもよい。したがって、第二エンジンに提供されうる後処理の態様／論理と同じまたは異なるコンピューティング・デバイス上の第一エンジンに、前処理の態様／論理が提供されうる。しかし、本明細書においては説明を簡単にするため、前処理および後処理の態様／論理が、同じ回答候補関係識別エンジン４００に統合されるものと想定する。

回答候補関係識別エンジン４００のコントローラ４１０は、回答候補関係識別エンジン４００の全動作を制御し、他の要素４２０〜４８０の動作を協調させる。コーパス・インタフェース４２０は、回答候補関係識別エンジン４００がコーパスまたは一つ以上のコーパス４０５の文書データを得ることができるデータ通信インタフェースを提供する。文書データは、非構造化文書のものであってもよく、文書データは、質問応答（ＱＡ）システムが入力された質問に対する回答候補を生成するために動作するトレーニング・コーパスまたはランタイム・コーパスの文書データであってもよい。

ターム／実体識別エンジン４３０、関係識別エンジン４４０、統計的尺度エンジン４５０、および実体／ターム／関係データ構造生成エンジン４６０は、コーパス４０５から受け取った文書データを分析し、様々な文書内のターム、実体、ならびにタームおよび実体の間の関係に関する情報を含むリソース・データ構造４６２〜４６４を生成するために、一緒に動作しうる。要素４３０〜４６０は、文書データの分析を行うために、既知のツールの機構を利用しうる。一例示的実施形態では、要素４３０〜４６０は、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションから利用可能なＳｔａｔｉｓｔｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＲｅｌａｔｉｏｎＥｘｔｒａｃｔｉｏｎ（ＳＩＲＥ）エンジンを利用し、またはＳＩＲＥエンジンにおいて提供されるものに類似する論理を利用しうる。ＳＩＲＥエンジンは、Ｆｌｏｒｉａｎｅｔａｌ．，“ＡＳｔａｔｉｓｔｉｃａｌＭｏｄｅｌｆｏｒＭｕｌｔｉｌｉｎｇｕａｌＥｎｔｉｔｙＤｅｔｅｃｔｉｏｎａｎｄＴｒａｃｋｉｎｇ，”ＩＢＭＴＪＷａｔｓｏｎＲｅｓｅａｒｃｈＣｅｎｔｅｒ，ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００４ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＣｏｎｆｅｒｅｎｃｅ，ＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓＡｎｎｕａｌＭｅｅｔｉｎｇ，ｐａｇｅｓ１−８に記載されている。

例示的実施形態は、リソース・データ構造４６２〜４６４の生成を助けるためにＳＩＲＥエンジンを利用しうるが、例示的実施形態はこのようなものに限られない。むしろ、非構造化／構造化文書の入力文書データを分析し、ターム／実体およびそれらの関係を指示するリソース・データ構造を生成することができる任意の分析エンジンを、例示的実施形態の趣旨および範囲から逸脱することなく使用しうる。例えば、例示的実施形態の機構とともに使用されうる別の分析エンジンは、ＳｔａｎｆｏｒｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇＧｒｏｕｐから利用可能なＳｔａｎｆｏｒｄＣｏｒｅＮＬＰエンジンである。ＳｔａｎｆｏｒｄＣｏｒｅＮＬＰエンジンは、ＳＩＲＥエンジンのように、文のトークン化、統語分析、実体検出、および共参照解析を提供する。

ターム／実体識別エンジン４３０は、ＳＩＲＥエンジンまたは他のタイプのＮＬＰ分析エンジンの論理を利用して、受け取った文書データの各文中において、文中のターム／実体、文中に見つかった実体タイプを識別するとともに、エンジン４００に入力された一つ以上の文書の文中のターム／実体の識別についての統計をとる。ターム／実体識別エンジン４３０は、さらに共参照識別を行って、共参照および文書内の共参照の位置ならびに共参照が指す実体を識別しうる。関係識別エンジン４４０は、文中に見つかったターム／実体の間の関係を分析して、ターム／実体のペア、ターム／実体の間の関係の性質、およびコーパス４０５の単数または複数の文書内で関係が見つけられる頻度などを識別する。このようにして、文書内の各実体またはタームにつき、他のターム／実体との一つ以上のペアワイズ関係が識別され、保存されうる。

例えば、一つの文中に、複数の関係、共参照などが識別されうる。ターム／実体識別エンジン４３０は、文中のターム／実体ならびにそれらの位置およびタイプをトークン化しまたは別途識別する。関係識別エンジン４４０は、ターム／実体識別エンジン４３０により見つけられたターム／実体の間の様々な関係を識別する。

次の例文を検討する。「ジョン・スミスは弁理士であり、彼は米国特許商標庁（ＵＳＰＴＯ）に登録されている。彼は２００４年にハーバードを卒業し、彼は現在ニューヨークに居住する。」一つの文において、例えばＳＩＲＥエンジンに提供されるようなＮＬＰ機構を用いて、「ジョン・スミス」、「弁理士」、「米国特許商標庁」、および「ＵＳＰＴＯ」という実体が識別されうる。「ジョン・スミス」は「人」の実体タイプに関連付けられ、「弁理士」は「職業」の実体タイプに関連付けられ、「米国特許商標庁」は「組織」であるように、実体の実体タイプがさらに識別されうる。加えて、「彼」（代名詞）および「ＵＳＰＴＯ」（頭字語）の共参照が文中で識別され、その関係は、「彼」が「ジョン・スミス」を指し、「ＵＳＰＴＯ」が米国特許商標庁を指すという関係である。

「ジョン・スミス」が一つのペアワイズ関係では「弁理士」に関係付けられ、第二ペアワイズ関係では「米国特許商標庁」に関係付けられ、第三ペアワイズ関係では「ハーバード」に関係付けられ、第四ペアワイズ関係では２００４年に関係付けられ、第五ペアワイズ関係ではニューヨークに関係付けられるように、実体およびタームの間のペアワイズ関係が識別される。同様に、「弁理士」という実体は、「米国特許商標庁」という実体と同様に、「ジョン・スミス」と関係を有しうる。例えばデータベースの「ジョン・スミス」のエントリが「弁理士」および「米国特許商標庁」とのペアワイズ関係を保存しうるなど、特定の実体と関連して各ペアワイズ関係が保存されうる。

関係識別エンジン４４０は、共参照識別および解析をさらに行って、共参照が指す実体名詞を決定しうる。例えば、上の例における「彼」という代名詞は「ジョン・スミス」を指し、「ＵＳＰＴＯ」という頭字語は「米国特許商標庁」という組織を指す。実体間の関係を表現する際に、共参照は、それが指す実体で置き換えられうる。すなわち、ペアワイズ関係を生成するために共参照の代わりに実体が保存され、例えばペアワイズ関係おいては「米国特許商標庁」が「ＵＳＰＴＯ」の代わりに保存されうる。

さらに、ターム／実体識別エンジン４３０は、例えば特定のテキスト域内にある、例えば文中の実体と、それと同じ場所にある動詞および名詞とを含めて５グラム内にある、文中の他の非実体名詞および動詞をさらに識別しうる。したがって、上の例では、「ジョン・スミス」は「登録される」という動詞に関連付けられ、「米国特許商標庁」も「登録される」という動詞に関連付けられうる。したがって、この関連性から、ジョン・スミスが登録されており、実体が米国特許商標庁に登録されている可能性があると決定することができる。

当然のことながら、上の例は二文のみについての例であるが、ペアワイズ関係は文書内の多数の文にわたりうる。したがって、共参照などが後の文中にあることもあるし、文書のコンテンツ内の一文または複数文前の、前の文中の実体を指すこともある。どの共参照がどの実体を指すか分かるように、文書内の実体の位置および共参照が保存されうる。

例示的実施形態によれば、ターム／実体識別エンジン４３０および関係識別エンジン４４０により生成された情報は、統計的尺度エンジン４５０により処理されて、一つのコーパス内もしくは複数のコーパス全体またはその両方で識別された各ペアワイズ関係の関係頻度が識別されうる。すなわち、一つの関係につき、その関係がコーパス４０５の一つ以上の文書の文中で識別された回数が維持され、これを用いてその関係についての頻度統計が生成される。さらに、統計的尺度エンジン４５０は、ターム／実体識別エンジン４３０と関係識別エンジン４４０とにより識別された様々なターム／実体および関係の他のタイプの統計も計算しうる。例えば、生成されうる別の統計は、ターム／実体／関係の希少性の尺度である、逆文書頻度（ＩＤＦ：ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）である。コーパス４０５の文書内において関係が希少であるほど、その関係は固有性が高い。ＩＤＦスコアが低いタームとの関係は、識別された関係の裏付けがコーパス４０５内にほとんどないことから破棄され、もはや保存されなくてもよい。

したがって、ターム／実体識別エンジン４３０、関係識別エンジン４４０、および統計的尺度エンジン４５０の動作を通じて、コーパス４０５の文書内の関係が識別されるが、これらの関係は、各々が二つのターム／実体を含み、各ターム／実体が複数の関係を有しうる。各関係につき、二つのターム／実体の実体タイプおよび関係頻度が保存される。保存される関係頻度は、単数または複数のコーパス内の全ての文書全体での関係の全実例の累計である。加えて、関係が識別された文書（単数または複数）のコーパスを識別するコーパス識別子、関係が識別された文書（単数または複数）を識別する文書識別子、関係が識別された文書（単数または複数）のタイムスタンプを含むがこれに限られない、関係の他の属性も保存されうる。関係についてのクエリをスコーピングまたはフィルタリングできるように、追加情報が保存される。例えば、コーパスＩｄを用いて、返された関係を選択したコーパスだけにフィルタリングしうる。同様に、文書ＩＤを用いて、返された関係を文書のセットにフィルタリングしうる。タイムスタンプを用いて、返された関係を特定の日時の前もしくは後または指定の日時Ｘと日時Ｙとの間に存在したものにフィルタリングしうる。

回答候補関係識別エンジン４００により分析されたコーパス４０５内の各文書につき生成された共参照は、データ／情報・コーパス３４５に追加される。これらの共参照により、仮説生成（３４０）の間に追加の回答候補を生成することができ、実体間の関係の表明を裏付ける、共参照された実体を含む正しい裏付けパッセージが返されることが可能になる。

実体／ターム／関係データ構造生成エンジン４６０は、エンジン４３０〜４５０により集められた関係およびインデックス情報を、サーチ・インデックス４６２および実体関係データ構造４６４に保存する。再び、実体関係データ構造４６４が、関係識別エンジン４４０により見つけられた実体／ターム間の各関係のエントリを記憶し、各エントリが、関係の実体、実体タイプ、実体に関係するターム、コーパス内の全ての文書全体での関係の頻度、関係が見つけられた文書（単数または複数）の公開時期、関係が見つけられた文書（単数または複数）のコーパス識別子、および関係が見つけられた文書（単数または複数）の文書識別子を記憶する。サーチ・インデックス４６２は、文書のそれぞれのインデックスを含み、インデックスは、文書内の共参照、共参照の位置、および共参照が指す実体を識別するメタデータを記憶する。サーチ・インデックス４６２は、リソース３４５および３４７の一部とすることができ、質問および回答仮説生成の間に使用されうる。サーチ・インデックス４６２は、共参照情報を含む、ＱＡシステムにより使用されるタイプの補強サーチ・インデックスであり、例えば要素３４５および３４７の補強部分である。サーチ・インデックス４６２は、（１）質問および回答仮説生成の間に、回答候補のセットを改良するため、および（２）関係の証拠として裏付けパッセージを提供するために、使用される。

リソース４６２〜４６４を生成するための上述の動作は、回答候補を生成し、入力された質問に応答してＱＡシステムにより生成された回答候補の関係および回答候補間の関係を分析し、関係を裏付ける正しいパッセージを返すべく、ランタイム動作中に使用できるリソース４６２〜４６４を生成するためのコーパス４０５の前処理の一部である。すなわち、ランタイム中には、図１〜３に示されるようなＱＡシステムが、入力された質問を受け取り、入力された質問への複数の回答候補（コーパス４０５でもありうる複数のコーパス３４５または一つのコーパス３４７から得られる）を生成しうる。サーチ・インデックス４６２に記憶された共参照されたタームのクエリから返された結果に基づいて、追加の回答候補が生成される。回答候補４７５は、回答候補関係識別エンジン４００に入力されうる。回答候補関係分析エンジン４７０は、リソース４６４を利用して回答候補を分析して、回答候補内に存在する実体およびその関係、したがって、各回答候補４７５内に見つかった実体／ターム／および関係に関して回答候補４７５間の共通性を識別する。

回答候補関係分析エンジン４７０の動作は、自動的に、または回答候補間の共通性の識別をリクエストするユーザ・インタフェースへのユーザ入力に応答して、開始しうる。例えば、回答候補ユーザ・インタフェース４９０を介して、回答候補がユーザに出力されうる。ユーザ・インタフェースは、回答候補ユーザ・インタフェース・エンジン４８０により生成されればよく、回答候補間の共通性等の回答候補についての追加情報をリクエストするためにユーザが選択可能な、ユーザ・インタフェース要素を含みうる。

回答候補関係分析エンジン４７０は、回答候補内のターム／実体を、実体関係データ構造４６４に記憶された関係と比較して、実体関係データ構造４６４内のマッチするエントリを識別し、対応する関係を取り出す。したがって、例えば、回答候補に「弁理士」という実体が含まれる場合には、実体関係データ構造４６４内の「弁理士」の関係が識別され、取り出される。実体関係を取り出す際には、例えば出現頻度、逆文書頻度など、実体関係に関連付けて記憶された様々な統計的尺度も取り出される。そのうえ、文書識別子、コーパス識別子、および実体の位置情報の識別を通じて、実体の関係を裏付けるコーパス４０５内の特定のパッセージを取り出すことができる。

回答候補内に見つかったターム／実体とマッチする実体関係データ構造４６４内のペアワイズ関係を見つけた後、回答候補関係分析エンジン４７０は、各回答候補のペア、各回答候補のトリプレット、全回答などでの関係の交点を決定する。したがって、例えば、分析によって、回答候補１が「ジョン・スミス」という実体と関係を有し、回答候補２が「ジョン・スミス」という名前を回答候補内に特に含まなかったとしても、回答候補２も「ジョン・スミス」という実体と関係を有すると識別されることもある。これらのタイプの結果は、単に回答候補について返されたパッセージだけから得ることはできない。例えば、返されたパッセージは代名詞を含みうるが、代名詞の指示対象を含まない。したがって、回答は代名詞の指示対象と関係を有するであろうが、その時点で指示対象が何かを知る術はないであろう。関係データ・ストアには、上述のように、実体と共参照が解析された代名詞の指示対象との間の関係が含まれる。加えて、各回答候補とともに返されるパッセージは、与えられた入力された質問に回答することだけに限定されるが、例示的実施形態の機構により返される関係はコーパス全体にわたり、したがって、尋ねられている入力された質問または回答候補を裏付けるパッセージに直接関係がない回答候補間の関係を提示しうる。

回答候補の全部またはサブセットに共通する具体的タイプの実体または回答候補間のその他のタイプの共通性を含む回答候補についての追加情報をユーザがリクエストできる、回答候補ユーザ・インタフェース・エンジン４８０により生成されたユーザ・インタフェース４９０を介して、様々なオプションがユーザに提示されうる。例えば、ユーザ・インタフェース４９０を介して、
（１）全ての回答候補に共通するタームは、また、タームと回答とに互いに関係があることを示すパッセージは何か？
（２）回答候補のサブセットに共通するタームは何か？タームと回答とが互いに関係があること示すパッセージは何か？
（３）全ての回答候補に共通する人は？
（４）２０１１年以降に公開された文書内で、五つの回答候補のうち少なくとも三つに共通する組織は？
（５）Ｗｉｋｉｐｅｄｉａだけをソースとして用いて、全ての回答候補に共通する国は？
を尋ねるオプションがユーザに提示されうる。これらの例においては、実体関係データ構造４６４に各関係における実体についての実体タイプ情報が記憶されており、したがって各回答候補にどの関係が当てはまるかを識別する際に実体タイプも識別されることから、回答候補の間で共通する特定のタイプの実体に向けられた上の（３）のような質問が回答されうる。上の質問（４）に関しては、例えばコーパス４０５内の文書などの関係のソースに関連付けられたタイムスタンプがエントリに維持されているため、特定の時間フレームの文書内の組織の識別が識別されうる。質問（５）に関しては、実体関係データ構造４６４のエントリにソース情報が維持されているため、この質問も関心のある特定のソースに関して回答されうる。

実体関係データ構造４６４内のエントリに関連付けられた統計的尺度情報を用いて、回答候補内および回答候補間の関係の表現を修正しうる。例えば、より高い出現頻度を有する回答候補内および回答候補間の関係が、回答候補内および回答候補間の他の関係に対して視覚的に区別またはハイライトされうる。回答候補内の共通のターム／実体が、回答候補内で区別またはハイライトされ、回答候補の間で共通すると決定された関係が、出現頻度または逆文書頻度などの相対的ランキングにしたがって提示および区別／ハイライトされうる。例えば、特定の単数または複数のコーパス４０５内で「バラク・オバマ」と「ジョン・ベイナー」の間の関係の出現頻度が５０であり、「バラク・オバマ」と「ラーム・エマニュエル」の間の関係の頻度が５である場合には、第一関係が強調またはハイライトされるように、ユーザ・インタフェースにおいて第一関係の表示が第二関係の表現と区別されうる。同様に固有性または逆文書頻度を用いて、全関係における「ジョン・ベイナー」の頻度が２０００であり、全関係における「ラーム・エマニュエル」の頻度が１０の場合には、「バラク・オバマ」／「ラーム・エマニュエル」の関係の固有性（５／１０）の方が「バラク・オバマ」／「ジョン・ベイナー」の関係の固有性（５０／２０００）より高く、この固有性の差が、一方の関係を他方の関係に対して区別することにより視覚的に表現されうる。

さらに、回答候補４７５内で共通する特定の関係を裏付ける単数または複数のコーパス４０５内のパッセージも、ユーザ・インタフェースの一部として表示されうる。したがってユーザには、回答候補内の共通するターム／実体、回答候補間で共通する関係、および関係の相対的頻度／固有性についての情報が提示されるだけでなく、関係についての文書の裏付けもユーザに提示される。

例として、「誰が最も偉大なレッド・ソックスの選手だったか？」といったＱＡシステムに対して入力された質問を検討する。ＱＡシステムにより返される回答候補には、「カール・ヤストレムスキー」、「ロジャー・クレメンス」、および「テッド・ウィリアムズ」が含まれうる。それから、「カール・ヤストレムスキー」、「ロジャー・クレメンス」、および「テッド・ウィリアムズ」を入力として用いて、これらの回答候補間の共通性につき、例示的実施形態の回答候補関係分析エンジンがクエリされうる。この例では、三つの回答候補につき実体関係データ・ストア４６４がクエリされ、以下の結果を返す（数字はペアリングに指定された実体間の関係がコーパスの文書内に生じる頻度を指示する）：
カール・ヤストレムスキー：ボビー・ドーア；７
カール・ヤストレムスキー：カールトン・フィスク；８
カール・ヤストレムスキー：フレッド・リン；７
ロジャー・クレメンス：カールトン・フィスク；２
ロジャー・クレメンス：フレッド・リン；１
テッド・ウィリアムズ：ボビー・ドーア；１２
テッド・ウィリアムズ：カールトン・フィスク；２
テッド・ウィリアムズ：フレッド・リン；１

このペアワイズ関係のセットから、ボビー・ドーアがカール・ヤストレムスキーおよびテッド・ウィリアムズと関係があるが、ロジャー・クレメンスとは関係がないことが分かる（ボビー・ドーアが恐らくカール・ヤストレムスキーおよびテッド・ウィリアムズとは同時期にプレーしたがロジャー・クレメンスとは同時期にプレーしなかったのであろうことを示唆する（ドーアは実際にはウィリアムズとともにプレーし、ヤストレムスキーを指導した））。さらに、カールトン・フィスクは、ＱＡシステムが最も偉大なレッド・ソックスの選手と考えたもの、すなわち三つの回答候補、との関係で登場することが分かる。このことは、カールトン・フィスクをＱＡシステムにより検討されるべき可能性のある回答候補としてユーザが恐らく追加して欲しいと思っているのではないかということを示す。したがって、例示的実施形態の機構は、これらの関係を分析し、ペアワイズ関係の交点を「カールトン・フィスク」として識別し、この追加情報を、関係の交点の結論につながる関係に加えて、ユーザに提供しうる。

そのうえ、ユーザが共通する関係およびこれらの共通する関係の交点の適合性または重要性をさらに決定しうるように、例示的実施形態の機構によってユーザに提示される関係、関係の統計、および関係の交点に加えて、交点につながる様々な関係を裏付ける証拠パッセージも返されうる。例えば、上述の関係を裏付けるパッセージ例は、以下のタイプのものがありうる（なお、第一パッセージは、「ヤズ」が共参照を通じて「カール・ヤストレムスキー」と解析されたので見つかったものであり、最後のパッセージは、「リン」が共参照を通じて「フレッド・リン」と解析されたので見つかったものである）。
（１）レッド・ソックス、ヤズの功績を称え、フェンウェイ・パークに銅像を建立−ヤズが１９６１年にレフトを継承したテッド・ウィリアムズの銅像と、ドム・ディマジオ、ジョニー・ペスキー、ボビー・ドーア、ウィリアムズを表した「チームメイト」の銅像との間に。
（２）カール・ヤストレムスキー、ジム・ライス、フレッド・リンの１１×１４写真、１６×２０ダブルマット額装。
（３）カール・ヤストレムスキー、カールトン・フィスク、ドワイト・エバンスのサイン入り。
（４）殿堂入りのカールトン・フィスクがマーク・マグワイア、ロジャー・クレメンスを非難
（５）だからウェイド・ボッグス、フレッド・リン、ロジャー・クレメンス、ノマー・ガルシアパーラ、ティト・フランコーナ、カールトン・フィスク、ジョニー・デイモンを始めとして、うちの選手はほとんど全員が厳しい評価を受けている。
（６）テッド・ウィリアムズのソックスでのルーキー・シーズンである１９３９年から、ドーアは１２シーズン連続して１０本以上のホームランと７３打点以上をマークした；１９４０年には、フォックス、ウィリアムズ、クローニン、ドーアのそれぞれが１０５打点以上を挙げ、レッド・ソックスは１００ＲＢＩの選手が４人いる大リーグ史上１２番目のチームとなった。
（７）「素晴らしいわ」と、スタンドの若い女性が言った。「テッド・ウィリアムズがカールトン・フィスクに投球したなんて。これで満足して帰れるわ。」
（８）リンは、レッド・ソックスの先輩の一人であるテッド・ウィリアムズと同様に人前に出るのが嫌いな男で、パーティーでの欠席が目立つことになるだろう。

このように、例示的実施形態は、回答候補間の共通性および関係を識別し、識別する情報を提示するための機構を提供する。この情報は、ユーザが提出した入力された質問への回答について、および潜在的には入力された質問に対して返された回答の背後にある推論についての、より深い洞察を提供する。ユーザは、ＱＡシステムが入力された質問に対して回答候補を選択した理由および最終的には最終回答を選択した理由を判断する際にユーザにとって有益でありうるとともに、ユーザを回答候補の対象事項のさらなる理解へと導くために使用されうる情報を提示しうる、回答候補についての様々なタイプの追加情報をリクエストしうる。

図５は、一例示的実施形態による、回答候補内の関係を識別する際に使用される実体／ターム関係リソースを生成するための前処理動作を行うための動作例を概説したフローチャートである。図５に示すように、単数または複数のコーパスからの文書の取り込みを開始するステップ（ステップ５１０）により、動作が開始する。単数または複数のコーパス内の次の文書の文書データが分析されて、実体に対する一切の共参照を含めて文書データ中に言及されたターム／実体が識別される（ステップ５２０）。実体と他の実体との間、実体と他の非実体タームとの間などのペアワイズ関係が識別される（ステップ５３０）。文書データ中の共参照の位置および共参照が指す実体が識別される（ステップ５４０）。ターム／実体／関係の出現頻度、逆文書頻度などの、ターム／実体／関係に関連付けられた統計的尺度が更新される（ステップ５５０）。共参照、共参照の位置、および共参照が指す実体の情報が、文書のサーチ・インデックスに記憶される（ステップ５６０）。実体／ターム関係情報が、実体関係データ構造のエントリに記憶される（ステップ５７０）。次に動作は、最後の文書が処理されているかを決定する（ステップ５８０）。処理されていない場合には、動作はステップ５２０に戻り、処理されている場合には動作が終了する。

図６は、一例示的実施形態による、実体／ターム関係リソースを用いて回答候補間の関係を決定するための動作例を概説したフローチャートである。入力された質問に対する回答候補の生成（ステップ６１０）、およびＱＡシステムによる検討のためのユーザによる回答の入力（ステップ６１５）により、動作が開始する。ユーザ・インタフェースを介して回答候補がユーザに提示され（ステップ６２０）、ユーザ・インタフェースには回答候補間の共通性および関係に関する情報を得るための一つ以上のユーザが選択可能なオプションがさらに含まれる。回答候補についての共通性／関係情報を得るためにユーザが選択可能なオプションが受け取られたかが決定される（ステップ６３０）。受け取った場合には、回答候補が分析されて、回答候補内のターム／実体が識別され（ステップ６４０）、これらのターム／実体が、実体関係データ構造に記憶された実体関係と相関付けられる（ステップ６５０）。相関に基づいて、各回答候補に関連する関係が決定される（ステップ６６０）。回答候補の関係の交点が決定され（ステップ６７０）、交点に基づいて、共通性／関係情報のリクエストに対する応答が生成され、ユーザ・インタフェースを介してユーザに返される（ステップ６８０）。それから、例えばユーザがユーザ・インタフェースを閉じる、新たな質問を入力する、またはユーザ・インタフェースがもう必要ないことを別途指示するなど、ユーザ・インタフェースの提示が終了されるべきか否かに関する決定がなされる（ステップ６９０）。終了されるべき場合には、動作が終了する。終了されるべきでない場合には、動作はステップ６３０に戻り、ユーザが他に回答候補についての共通性／関係情報をリクエストしているかが決定され、新たなリクエストに関して動作が繰り返される。

図７は、一例示的実施形態による、回答候補ユーザ・インタフェースの図の例である。一貫性のために、図７に示した例は、上で議論した入力された質問の例「誰が最も偉大なレッド・ソックスの選手だったか？」に対応する。これは単なる例であり、例示的実施形態の機構により使用または生成されうるユーザ・インタフェースのタイプに関するいかなる制限も表明せず示唆しない。例示的実施形態の趣旨および範囲から逸脱することなく、図示されたユーザ・インタフェースの例に対する多数の修正が行われうる。

図７に示すように、ユーザ・インタフェースは、入力された質問に応答して生成された回答候補を表示するための第一部分７１０を有する。回答候補についての共通性／関係情報をリクエストするためにユーザが選択可能な複数のインタフェース要素を提示するために、第二部分７２０が提供される。回答候補間で共通する関係を提示するために、第三部分７３０が提供される。第三部分７３０で識別された関係を裏付ける証拠パッセージを提示するために、第四部分７４０が提供されうる。

動作時には、ユーザがＱＡシステムに質問を入力し、ＱＡシステムが回答候補結果を返すと、回答候補が、回答候補に関連付けられた信頼度の程度に基づいてランク付けされたリストなどにおいて、第一部分７１０に提示されうる。第一部分７１０における回答候補の提示に応答して、ユーザは、回答候補間の共通性／関係についての追加情報がユーザに有用または有益となるであろうことを決定しうる。したがってユーザは、例えば回答候補のそれぞれに共通する全てのターム／実体を（回答候補自体の中に特に言及されていない場合であっても）識別するオプション、回答候補の間で共通するタイプの実体（例えば回答候補の間で共通する人、組織または国は何か）を決定するためのオプションなど、ユーザ・インタフェースの第二部分に提示されたオプションから所望のオプションを選択しうる。

第二部分７２０の一つ以上のオプションのユーザによる選択に応答して、第一部分７１０の回答候補間で共通するターム／実体／関係が決定され、共通する関係が第三部分７３０を介してユーザに提示されうる。加えて、共通する関係の中の共通するターム／実体が、第一部分７１０の中で強調またはハイライトされうる。さらに、共通する関係の中の実体の関係を裏付ける証拠パッセージが取り出され、第四部分７４０を介して提示されうる。こうして、ユーザ・インタフェースを介して、入力された質問につき生成された回答候補の間の共通性および関係が識別され、ユーザに提示されうる。

当然のことながら、上述の例示的実施形態は、一つ以上のコーパス内の文書の前処理の間に見つかったタームもしくは実体またはその両方の間の予め記憶されたペアワイズ関係を用いて、ＱＡシステムにより生成された回答候補の少なくともサブセットの間で共通する関係を識別することに向けられるが、例示的実施形態は、そのようなものに限定されない。むしろ、回答候補のサブセットの間で共通する関係の識別を行うための基礎として、任意のタイプの関係が用いられうる。したがって、例えば三つ以上のターム／実体を含む関係など、ペアワイズ関係よりも複雑な関係が利用されてもよく、これらのより複雑な関係の交点が前述の機構によって生成されてもよい。

上述のように、当然のことながら、例示的実施形態は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態またはハードウェアおよびソフトウェア要素の両方を含む実施形態の形をとりうる。一つの実施形態例では、例示的実施形態の機構は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれに限られないソフトウェアまたはプログラム・コードにおいて実装される。

プログラム・コードの記憶もしくは実行またはその両方に適したデータ処理システムは、システム・バスを通じて記憶素子に直接的または間接的に結合された少なくとも一つのプロセッサを含む。記憶素子は、プログラム・コードの実際の実行の間に使用されるローカル・メモリ、大容量記憶装置、および実行の間に大容量記憶装置からコードを取り出さなければならない回数を減らすために少なくとも一部のプログラム・コードの一時記憶を提供するキャッシュ・メモリを含みうる。

入力／出力またはＩ／Ｏデバイス（キーボード、ディスプレイ、ポインティング・デバイスなどを含むがこれに限られない）は、直接または介在するＩ／Ｏコントローラを通じてシステムに結合されうる。介在するプライベート・ネットワークまたはパブリック・ネットワークを通じてデータ処理システムが他のデータ処理システムまたはリモート・プリンタもしくは記憶デバイスに結合できるようにするために、ネットワーク・アダプタもシステムに結合されうる。モデム、ケーブル・モデムおよびイーサネット・カードは、現在利用可能なタイプのネットワーク・アダプタのほんの一部である。

本発明の説明は、例証および説明のために提示されており、網羅的であることも、本発明を開示された方法に限定することも意図していない。当業者には、多くの変更および変形例が明らかとなるであろう。実施形態は、本発明の原理、実際的応用を最も良く説明し、他の当業者が企図される特定の使用に適した様々な修正を含む様々な実施形態について本発明を理解することができるように選ばれ、記載された。

Claims

データ処理システムにおいて、入力された質問に応答して質問応答（ＱＡ）システムに
より生成された回答候補の間の共通性を識別するための方法であって、
前記データ処理システムにより、前記ＱＡシステムから、入力された質問への複数の回答候補を受け取るステップと；
前記データ処理システムにより、前記回答候補内に存在するタームを識別するステップと；
前記データ処理システムにより、各前記回答候補内のタームに対応する関係を決定し、
前記対応する関係に基づいて、前記複数の回答候補の少なくともサブセット内に存在する第一タームと第二タームとの間で共通する関係を決定するステップと；
前記データ処理システムにより、前記複数の回答候補と前記共通する関係とをユーザに提示するステップと
を含む、方法。
前記第一タームまたは前記第二タームの少なくとも一つが、実体タイプを有する実体である、請求項１に記載の方法。
前記共通する関係を決定するステップが、前記サブセット内の前記第一タームと前記第二タームとの間の関係の交点を決定するステップを含む、請求項１又は２に記載の方法。
前記共通する関係を決定するステップが、
複数のエントリを含む関係データ・ストアをサーチするステップであって、各エントリは、少なくとも一つのコーパスの文書の前処理の間に見つかった第一の見つかったタームと少なくとも一つの第二の見つかったタームとの間の関係に対応する、ステップと；
回答候補内に見つかったタームにマッチする、前記関係データ・ストア内の一つ以上のエントリを識別するステップと
を含む、請求項１乃至３のいずれかに記載の方法。
前記関係データ・ストア内の各エントリが、コーパスの少なくとも一つの文書の自然言語処理を通じて前記コーパスの前記少なくとも一つの文書内に識別された関係に基づいて、前記コーパスの前記少なくとも一つの文書の前処理の間に見つかった第一タームと前記コーパスの前記少なくとも一つの文書の前処理の間に見つかった第二タームとの間のペアワイズ関係を含む、請求項４に記載の方法。
前記関係データ・ストア内の各エントリが、前記前処理の間に前記コーパスの前記少なくとも一つの文書内に対応するペアワイズ関係が見つかった頻度を示す出現頻度値をさらに含む、請求項５に記載の方法。
前記複数の回答候補と前記共通する関係とをユーザに提示するステップが、各前記関係の前記出現頻度値とともに前記回答候補と前記関係との視覚的表示を生成するステップを含む、請求項６に記載の方法。
前記視覚的表示が、前記共通する関係を裏付ける、コーパスの少なくとも一つの文書からの少なくとも一つの証拠テキスト・パッセージをさらに含み、前記回答候補または前記証拠テキスト・パッセージの少なくとも一つの一部が、前記共通する関係の出現頻度値に対応する値に基づいて、前記視覚的表示において強調される、請求項７に記載の方法。
前記第一タームと前記第二タームとの間で共通する関係を決定するステップが、
前記回答候補を出力するためのグラフィカル・ユーザ・インタフェース（ＧＵＩ）の第一部分と、前記回答候補間でユーザが識別を望む所望の共通する関係を指定するためにユーザが選択可能な複数のオプションを出力するための前記ＧＵＩの第二部分と、前記回答候補内の前記ターム間の関係と前記共通する関係とを出力するための前記ＧＵＩの第三部分と、前記共通する関係を裏付ける、コーパスの文書からの証拠テキスト・パッセージを出力するための前記ＧＵＩの第四部分とを提供する、前記ＧＵＩを提示するステップ
をさらに含む、請求項１乃至８のいずれかに記載の方法。
前記複数の回答候補と前記共通する関係とをユーザに提示するステップが、前記回答候補と、前記共通する関係を裏付ける、コーパスの少なくとも一つの文書からの少なくとも一つの証拠テキスト・パッセージとの視覚的表示を生成するステップであって、前記回答候補の少なくとも一つまたは前記少なくとも一つの証拠テキスト・パッセージの一部が、前記視覚的表示において強調されるステップを含む、請求項１乃至９のいずれかに記載の方法。
コンピュータ・プログラムであり、コンピューティング・デバイス上で実行されると、前記コンピューティング・デバイスに、
前記ＱＡシステムから、入力された質問への複数の回答候補を受け取るステップと；
前記回答候補内に存在するタームを識別するステップと；
各前記回答候補内のタームに対応する関係を決定し、前記対応する関係に基づいて、前記複数の回答候補の少なくともサブセット内に存在する第一タームと第二タームとの間で共通する関係を決定するステップと、；
前記複数の回答候補と前記共通する関係とをユーザに提示するステップと
を実行させるコンピュータ・プログラム。
プロセッサと；
前記プロセッサに結合されたメモリとを含む装置であって、前記メモリは命令を含み、前記命令は、前記プロセッサにより実行されると、
前記ＱＡシステムから、入力された質問への複数の回答候補を受け取ること；
前記回答候補内に存在するタームを識別すること；
各前記回答候補内のタームに対応する関係を決定し、前記対応する関係に基づいて、前記複数の回答候補の少なくともサブセット内に存在する第一タームと第二タームとの間で共通する関係を決定すること；および
前記複数の回答候補と前記共通する関係とをユーザに提示すること
を前記プロセッサに行わせる、
装置。