JP6095621B2 - 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 - Google Patents

回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 Download PDF

Info

Publication number
JP6095621B2
JP6095621B2 JP2014183049A JP2014183049A JP6095621B2 JP 6095621 B2 JP6095621 B2 JP 6095621B2 JP 2014183049 A JP2014183049 A JP 2014183049A JP 2014183049 A JP2014183049 A JP 2014183049A JP 6095621 B2 JP6095621 B2 JP 6095621B2
Authority
JP
Japan
Prior art keywords
relationship
answer
term
answer candidates
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014183049A
Other languages
English (en)
Other versions
JP2015109068A5 (ja
JP2015109068A (ja
Inventor
デイビット・ユージーン・ウィルソン
ロバート・レスリー・イエーツ
ウィリアム・グレゴリー・ビソフキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2015109068A publication Critical patent/JP2015109068A/ja
Publication of JP2015109068A5 publication Critical patent/JP2015109068A5/ja
Application granted granted Critical
Publication of JP6095621B2 publication Critical patent/JP6095621B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、契約番号2013−1210100008の下、米国政府の支援を受けて行われた。米国政府は本発明に一定の権利を有する。
本出願は、一般に、改良されたデータ処理装置および方法に関し、特に、質問応答(QA:Question and Answer)システムにより生成された回答候補の間の関係を識別および表示するための機構に関する。
現在、私達は、インターネット等のコンピューティング・ネットワークの利用増加に伴い、様々な構造化ソースおよび非構造化ソースから入手可能な情報量にまみれ、圧倒されている。しかし、様々な対象に関する情報サーチの間にユーザが見つけた関連性がありそうなものをユーザ自身がつなぎ合わせて全体を知ろうとしても、情報ギャップが多く存在する。このようなサーチを助けるために、最近の研究は、入力された質問を取得し、入力された質問を分析し、入力された質問に対する最も確からしい回答を示す結果を返す、質問応答(QA)システムを作り出すことに向けられている。QAシステムは、大量のコンテンツ・ソース、例えば電子文書をサーチするための自動化された機構を提供し、入力された質問に関してコンテンツ・ソースを分析して、質問に対する回答と、回答が入力された質問に回答する上でどのくらい正確かについての信頼基準とを決定する。
そのようなQAシステムの一つが、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ(IBM:International Business Machines)・コーポレーションから利用可能なWatson(商標)システムである。Watson(商標)システムは、高度自然言語処理、情報取り出し、知識表現および推論、ならびに機械学習技術を、オープン・ドメイン質問応答の分野に応用したものである。Watson(商標)システムは、仮説生成、大量証拠収集、分析、およびスコア付けに使用されるIBMのDeepQA(商標)技術に基づいて構築される。DeepQA(商標)は、入力された質問を取得し、入力された質問を分析し、質問を構成部分に分解し、分解された質問と回答ソースの一次サーチの結果とに基づいて一つ以上の仮説を生成し、証拠ソースからの証拠取り出しに基づいて仮説および証拠のスコア付けを行い、一つ以上の仮説の合成を行い、トレーニングされたモデルに基づいて最終的結合およびランク付けを行って、入力された質問に対する回答を信頼基準とともに出力する。
様々な米国特許出願公開に、様々なタイプの質問応答システムが記載されている。特許文献1は、データ・コーパスに基づいて質問および回答のペアを生成するための機構を開示する。このシステムは、一連の質問から開始し、その後コンテンツのセットを分析して、それらの質問に対する回答を抽出する。特許文献2は、分析された情報のレポートを質問の集まりに変換し、質問の集まりへの回答が情報セットから回答されるか否定されるかを決定するための機構を開示する。結果データは、更新された情報モデルに組み込まれる。
米国特許出願公開第2011/0125734号 米国特許出願公開第2011/0066587号
本発明は、入力された質問に応答して質問応答(QA)システムにより生成された回答候補間の共通性を識別するための機構、方法、コンピュータ・プログラム、および装置を提供することを目的とする。
一例示的実施形態では、データ処理システムにおいて、入力された質問に応答して質問応答(QA)システムが生成した、または質問応答(QA)システムによる検討のためにユーザが直接入力した回答候補の間の共通性を識別する方法が提供される。本方法は、データ処理システムまたはユーザ入力により、QAシステムから、入力された質問への複数の回答候補を受け取るステップと、データ処理システムにより、それらの回答候補内に存在するタームを識別するステップとを含む。本方法は、データ処理システムにより、各回答候補内のターム間の関係を決定するステップをさらに含む。さらに、本方法は、データ処理システムにより、第一タームと第二タームとの間で共通する関係を決定するステップであって、この共通する関係は、決定された各回答候補内のターム間の関係に基づいて、複数の回答候補の少なくともサブセットの間で共通する、ステップを含む。加えて、本方法は、データ処理システムにより、複数の回答候補と共通する関係とを提示するステップを含む。
他の例示的実施形態では、コンピュータ読み取り可能プログラムを有するコンピュータ使用可能または読み取り可能媒体を含む、コンピュータ・プログラムが提供される。コンピュータ読み取り可能プログラムは、コンピューティング・デバイス上で実行されると、コンピューティング・デバイスに、方法の例示的実施形態に関して上に概説した様々な動作およびその組み合わせを行わせる。
さらに別の例示的実施形態では、システム/装置が提供される。システム/装置は、一つ以上のプロセッサと、一つ以上のプロセッサに結合されたメモリとを含みうる。メモリは命令を含めばよく、この命令は、一つ以上のプロセッサにより実行されると、一つ以上のプロセッサに、方法の例示的実施形態に関して上に概説した様々な動作およびその組み合わせを行わせる。
本発明のこれらならびに他の特徴および効果は、以下の本発明の実施形態例の詳細な説明に記載され、またはその詳細な説明を考慮すれば当業者に明らかとなるであろう。
本発明、ならびに本発明の好ましい使用様式およびさらなる目的および利点は、添付の図面を参照しながら以下の例示的実施形態の詳細な説明を参照することで最もよく理解されるであろう。
コンピュータ・ネットワークにおける質問/応答作成(QA)システムの一例示的実施形態の概略図を示す。 例示的実施形態の態様が実装されうるデータ処理システムの例のブロック図を示す。 一例示的実施形態による、入力された質問を処理するためのQAシステム・パイプラインを示す。 一例示的実施形態による、回答候補関係識別エンジンの一次動作要素のブロック図の例を示す。 一例示的実施形態による、回答候補内の関係を識別する際に使用する実体/ターム関係リソースを生成するために前処理動作を行うための動作例を概説したフローチャートを示す。 一例示的実施形態による、実体/ターム関係リソースを使用して回答候補間の関係を決定するための動作例を概説したフローチャートを示す。 一例示的実施形態による、回答候補ユーザ・インタフェースの図の例を示す。
例示的実施形態は、質問応答(QA)システムにより生成された回答候補の間の関係を識別するための機構を提供する。すなわち、例示的実施形態は、「質問に対してQAシステムにより計算された回答候補のセットが与えられたとき、回答候補に互いに共通するのは何か?」という質問に回答するための機構を提供する。例示的実施形態は、回答候補のセット内の要素に共通するタームを評価および表現することにより、回答候補の間で共通する回答候補内の実体およびタームの間の関係を評価および表現することにより、共通するターム、ならびに実体およびタームおよびそれらの関係に関する回答候補間の関連性を示すパッセージをコーパスから取り出して表示することにより、そのような質問に回答する。
当然のことながら、本明細書で用いられるところの「機構」という用語は、例示的実施形態の機能または態様の、装置、手順、またはコンピュータ・プログラムの形における任意の実装でありうる。本明細書に記載の機構は、専用ハードウェア、汎用ハードウェアで実行されるソフトウェア、専用または汎用ハードウェアにより命令が容易に実行可能であるように媒体に記憶されたソフトウェア命令、機能を実行するための手順もしくは方法、または以上の組み合わせとして実装されうる。
例示的実施形態の機構は、例えばデータベースなどの一つ以上のデータ・ストア内に、文書内の文のテキスト中に識別された実体の間の関係を識別する一つ以上のデータ構造を作成する。例示的実施形態の機構は、サーチ・インデックスにおいて実体をその共参照とさらに関連付ける。その結果、これらの機構は、質問に対する回答候補のセットに共通するタームを表示し、共通するタームをタームの実体タイプ(例えば人、組織、または他のターム「タイプ」)によりフィルタリングし、タームおよび実体の間の関係を識別し、回答候補と共通するタームとに関係があるという表明を裏付けるパッセージを表示しうる。
例示的実施形態の機構は、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションから利用可能なStatistical Information and Relation Extraction(SIRE)エンジン等の実体識別および追跡エンジンを利用しうる。SIREは、注釈付きデータからトレーニングできる最大エントロピー・モデルを用いたタームまたは実体検出のためのコンポーネント、文書内に検出された同じ実体に対応するタームをグループ分けするためのトレーニング可能共参照コンポーネント、およびトレーニング可能関係抽出システムを提供する。もちろん、例示的実施形態の趣旨および範囲から逸脱することなく他の実体識別および追跡エンジンが使用されてもよく、SIREは、本明細書において例示的実施形態により加えられた改良についての理解を促進するために例として使用されるにすぎない。
実体識別および追跡(EIT;entity identification and tracking)エンジンは、文書中のテキストの統語的ブレークダウン、テキスト中に検出された実体の識別、共参照解析(同じ実体を指す二つ以上のタームの解析)、および実体間の関係検出を提供する。加えて、EITエンジンにより発見された共参照されたタームにより補強されたサーチ・インデックスを生成するため、および、EITエンジンにより見つけられた実体と、実体タイプと、実体に関係するタームと、一つのコーパス内または複数のコーパス全体における特定の関係の頻度と、関係のソースである文書の公開時期と、コーパス識別子と、関係のソースである文書の文書識別子とを記憶する関係データベースを生成するための論理が提供される。
これらのリソースを用いて、QAシステムにより生成された回答候補内の実体、ターム、および関係が識別され、これによって、回答候補が共通の入力された質問に対する回答であるという明らかな関係以外の回答候補間の関係が識別される。すなわち、例示的実施形態の論理は、QAシステムにより返された、またはQAシステムによる検討のためにユーザにより明示的に入力された、入力された質問への回答候補のセットが与えられると、実体、ターム、および返された回答候補をリンクする実体およびタームの関係(例えば回答候補の間で共通するターム)を表示し、回答/実体/タームの関係を裏付けるコーパスからのパッセージを表示する。この実体、ターム、および関係の識別は、リソースの生成中に識別されたタームの共参照を考慮に入れる。
したがって、例示的実施形態の機構により生成された結果がユーザに出力され、それによりユーザは、回答候補間の共通性および回答候補間の関係についてのより深い洞察を得ることができ、ユーザには元の入力された質問に対する回答についてのより深い洞察が与えられる。例えばユーザに、ユーザ・インタフェース等を通じて回答候補の共通性に向けた質問をするオプションが与えられうる。問うことのできるそのような質問の例は、例えば「全ての回答に共通するタームは?(および、タームと回答とに関係があることを示すコーパスの文書からのパッセージは何か)」、「回答のサブセットに共通するタームは?(および、タームと回答とに関係があることを示すコーパスの文書からのパッセージは何か)」などでありうる。例えば「全ての回答に共通する人は?」(「人」が実体タイプである場合)、「全ての回答に共通する組織は?」、「全ての回答に共通する国は?」など、回答候補の間で共通する実体タイプを決定するために、実体タイプに質問が向けられうるケースもある。
例示的実施形態の機構により行われた分析の結果を用いて、決定されたタームの特性、ターム間の関係、およびユーザが回答候補についてする特定の質問に基づいて、回答候補の表示が変更されうる。例えばユーザが回答候補の間で共通するタームの指示を求めた場合には、回答候補内で共通するタームが、タームと特定の回答候補との間の関係を裏付けるパッセージとともに、ハイライトされうる。そのうえ、一つのコーパス内もしくは複数のコーパス全体またはその両方におけるタームおよび実体の間の関係の頻度が、関係の強さの尺度として使用され、例えば異なる強さを異なる色の強調、フォント、サイズ、またはその他の任意のテキストまたはグラフィック特性で示すなど、回答候補において関係の相対的強さを表現するように回答候補の表示を修正するために使用されうる。さらに、関係の固有性の尺度も、回答候補の表示を修正するために使用されうる。以上のいずれの特徴が個別にまたは組み合わせて実装されるかに関わらず、例示的実施形態は、入力された質問への回答候補としてなぜ回答候補が選択されたのかということの背後にある推論、ならびに、使用されたタームおよび回答候補内に言及されたターム/実体の間の関係に関して回答候補の間で何が共通するかについてのより深い洞察を提供する。
本発明の例示的実施形態の以上の態様および利点を、添付の図面を参照しながら以下に詳述する。当然のことながら、図面は、本発明の代表的な実施形態を説明することを目的とするにすぎない。本発明は、図面に明示的に示されてはいないが、本明細書の例示的実施形態の説明を考慮すれば通常の技術を有する当業者には直ちに明らかとなるであろう、図示された代表的な実施形態の態様、実施形態、および修正を包含しうる。
当業者には当然のことながら、本発明の態様は、システム、方法、またはコンピュータ・プログラムとして具現化されうる。したがって、本発明の態様は、本明細書においては全て一般的に「回路」、「モジュール」または「システム」と呼称しうる、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)またはソフトウェアおよびハードウェア態様を組み合わせた実施形態の形をとりうる。さらに、本発明の態様は、具現化されたコンピュータ使用可能プログラム・コードを有する任意の一つ以上のコンピュータ読み取り可能媒体(単数または複数)において具現化されたコンピュータ・プログラムの形をとりうる。
一つ以上のコンピュータ読み取り可能媒体(単数または複数)の任意の組み合わせを、利用しうる。コンピュータ読み取り可能媒体は、コンピュータ読み取り可能信号媒体またはコンピュータ読み取り可能記憶媒体であればよい。コンピュータ読み取り可能記憶媒体は、電子、磁気、光、電磁、または半導体の性質のシステム、装置、もしくはデバイス、以上の任意の適切な組み合わせ、またはその等価物でありうる。コンピュータ読み取り可能記憶媒体のより具体的な例(非網羅的リスト)には、記憶容量を有する電気デバイス、携帯可能コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバ・ベースのデバイス、携帯可能コンパクト・ディスク読み取り専用メモリ(CDROM)、光記憶デバイス、磁気記憶デバイス、または以上の任意の適切な組み合わせが含まれるであろう。本文書の文脈においては、コンピュータ読み取り可能記憶媒体は、命令実行システム、装置、またはデバイスによって使用されまたはこれと接続して使用されるプログラムを含みまたは記憶することができる、任意の有形の媒体でありうる。
いくつかの例示的実施形態では、コンピュータ読み取り可能媒体は、非一時的コンピュータ読み取り可能媒体である。非一時的コンピュータ読み取り可能媒体は、具現化されない信号または伝搬波、すなわち純粋な信号または伝搬波自体ではない任意の媒体である。非一時的コンピュータ読み取り可能媒体は、信号および伝搬波を利用しうるが、信号または伝搬波そのものではない。したがって例えば、任意の方法で信号を利用して、例えばその状態を維持する、様々な形のメモリ・デバイス、およびその他のタイプのシステム、デバイス、または装置が、本記載の範囲内の非一時的コンピュータ読み取り可能媒体であると考えられる。
一方でコンピュータ読み取り可能信号媒体は、例えばベースバンドにおいてまたは搬送波の一部として、具現化されたコンピュータ読み取り可能プログラム・コードを含む伝搬データ信号を含みうる。このような伝搬信号は、電磁、光、またはその任意の適切な組み合わせを含むがこれに限られない、様々な形のいずれかをとりうる。コンピュータ読み取り可能信号媒体は、コンピュータ読み取り可能記憶媒体でなく、命令実行システム、装置、またはデバイスによって使用されまたはこれと接続して使用されるプログラムを通信、伝搬、または伝達できる、任意のコンピュータ読み取り可能媒体でありうる。同様に、コンピュータ読み取り可能記憶媒体は、コンピュータ読み取り可能信号媒体ではない任意のコンピュータ読み取り可能媒体でありうる。
コンピュータ読み取り可能媒体上に具現化されるコンピュータ・コードは、無線、有線、光ファイバ・ケーブル、ラジオ周波数(RF)等、またはその任意の適切な組み合わせを含むがこれに限られない任意の適切な媒体を用いて伝送されうる。
本発明の態様の動作を行うためのコンピュータ・プログラム・コードは、Java(登録商標)、Smalltalk(商標)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語等の従来の手続き型プログラミング言語を含む、一つ以上のプログラミング言語の任意の組み合わせで記述されればよい。プログラム・コードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン型のソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でおよび部分的にリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で、実行されうる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されればよく、または(例えばインターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータに対して接続がなされうる。
本発明の例示的実施形態による方法、装置(システム)およびコンピュータ・プログラムのフローチャート図もしくはブロック図またはその両方を参照して、本発明の態様を後述する。当然のことながら、フローチャート図もしくはブロック図またはその両方の各ブロック、フローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ・プログラム命令により実装されうる。これらのコンピュータ・プログラム命令は、コンピュータまたはその他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートもしくはブロック図またはその両方のブロック(単数または複数)に指定された機能/行為を実装する手段を創出するように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて機械が生み出されうる。
これらのコンピュータ・プログラム命令は、コンピュータ読み取り可能媒体に記憶された命令が、フローチャートもしくはブロック図またはその両方のブロック(単数または複数)に指定された機能/行為を実装する命令を含む製造物品を生み出すように、コンピュータ、その他のプログラム可能データ処理装置、またはその他のデバイスに特定の様式で機能するように指示しうるコンピュータ読み取り可能媒体に記憶されてもよい。
コンピュータ・プログラム命令は、コンピュータ、その他のプログラム可能装置、またはその他のデバイス上で一連の動作ステップを行わせて、コンピュータまたはその他のプログラム可能装置上で実行する命令が、フローチャートもしくはブロック図またはその両方のブロック(単数または複数)に指定された機能/行為を実装するためのプロセスを提供するようなコンピュータ実装されたプロセスを生み出すために、コンピュータ、その他のプログラム可能データ処理装置、またはその他のデバイスにロードされてもよい。
図のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラムの可能な実装のアーキテクチャ、機能性、および動作を例示する。この点において、フローチャートまたはブロック図の各ブロックは、指定された論理機能(単数または複数)を実装するための一つ以上の実行可能命令を含む、コードのモジュール、セグメント、または一部を表現しうる。いくつかの代替的実装では、ブロックに記された機能が、図面に記されたものとは異なる順序で生じうることにも注意しなければならない。例えば、連続して示される二つのブロックは、実際には、関連する機能性に応じて、実質的に同時に実行されることもあり、またはブロックが逆の順序で実行されることもありうる。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能もしくは行為を行う専用ハードウェア・ベースのシステム、または専用ハードウェアおよびコンピュータ命令の組み合わせにより実装されうることにも注意しなければならない。
上述のように、例示的実施形態は、質問応答(QA)システムにより生成された回答候補内の実体、ターム、ならびに実体間の関係、実体およびタームの間の関係などを識別するための機構を提供する。当然のことながら、例示的実施形態の機構は、一態様では、回答候補間の関係を識別するべくQAシステムの回答候補を処理するために使用されうるリソースを生成するための、単数または複数のコーパスの文書のプリプロセッサとして動作する。したがって第二態様として、プリプロセッサ機構により生成されたリソースが、さらにQAシステムのランタイム動作中に、QAシステムによって生成された回答候補に適用されて、回答候補間の関係に関する追加情報がユーザに提供される。
図1〜3は、例示的実施形態の機構が実装されうる質問/応答、質問および応答、または質問応答(QA)システム、方法論、およびコンピュータ・プログラムの例を説明することに向けられている。以下でさらに詳述するように、例示的実施形態は、回答候補内および回答候補間の関係を、これらの回答候補内の共通するまたは関係がある実体およびタームに関して識別および表示することに関して、これらのQA機構に統合され、その機能性を補強および拡張しうる。
したがって、例示的実施形態の機構がこのようなQAシステムにどのように統合されこれを補強するかを説明する前に、QAシステムにおける質問および回答作成がどのように実装されるかをまず理解することが重要である。当然のことながら、図1〜3に説明したQA機構は例にすぎず、例示的実施形態が実装されうるQA機構のタイプに関する制限を述べまたは示唆してはいない。本発明の様々な実施形態においては、本発明の趣旨および範囲から逸脱することなく、図1〜3に示したQAシステムの例に対する多くの修正が実装されうる。
QA機構は、データまたは情報のコーパス(コンテンツ・コーパスとも呼称される)からの情報にアクセスし、分析してから、このデータの分析に基づいて回答結果を生成することにより動作する。データ・コーパスからの情報へのアクセスには、典型的に、構造化された記録の集まりに含まれるものについての質問に回答するデータベース・クエリと、非構造化データ(テキスト、マークアップ言語など)の集まりに対するクエリに応答して文書リンクの集まりを返すサーチとが含まれる。従来の質問応答システムは、データ・コーパスと入力された質問とに基づいて回答を生成し、データ・コーパスにつき質問の集まりに対する回答を検証し、データ・コーパスを使用してデジタル・テキストのエラーを訂正し、可能性のある回答すなわち回答候補のプールから質問に対する回答を選択することが可能である。
記事の著者、電子文書作成者、ウェブ・ページの著者、文書データベース作成者などのコンテンツ作成者は、コンテンツを書く前にそのようなコンテンツ中に記述される製品、ソリューション、およびサービスのユース・ケースを決定しうる。したがってコンテンツ作成者は、コンテンツが取り上げる特定のトピックの中でコンテンツがどのような質問に回答することを意図しているかを知りうる。データ・コーパスの各文書における質問に関連する役割、情報のタイプ、タスクなどに関する質問の分類により、具体的クエリに関係があるコンテンツを含む文書をQAシステムがより迅速に効率よく識別することが可能になりうる。コンテンツは、コンテンツ・ユーザにとって有用である可能性のある、コンテンツ作成者が企図しなかった他の質問にも回答しうる。質問および回答は、コンテンツ作成者により検証されて、所与の文書のコンテンツに含まれうる。これらの能力は、QAシステムの正確さ、システム性能、機械学習、および信頼度の改善に寄与する。コンテンツ作成者、自動化ツールなどは、コンテンツのこれらの質問および回答属性を識別するためにQAシステムが使用できる情報を提供するために注釈を付与したり、または別途メタデータを生成しうる。
QAシステムは、このようなコンテンツに対して動作し、入力された質問への最も確からしい回答すなわち回答候補を識別するためにコンテンツを評価する複数の集中分析機構を用いて入力された質問への回答を生成する。例示的実施形態は、QAシステムが既に行った作業を活用して、QAシステムが既に処理した質問に類似する質問の後続処理のための計算時間およびリソース・コストを削減する。
図1は、コンピュータ・ネットワーク102における質問/応答作成(QA)システム100の一例示的実施形態の概略図を示す。本明細書に記載した原理とともに用いることができる質問/応答生成の一例は、参照により全体として本明細書に組み込まれる米国特許出願公開第2011/0125734号に記載されている。QAシステム100は、コンピュータ・ネットワーク102に接続された、(一つ以上のプロセッサおよび一つ以上のメモリ、ならびに潜在的にバス、記憶デバイス、通信インタフェースなどを含む当技術分野で周知の任意の他のコンピューティング・デバイス要素を含む)一つ以上のコンピューティング・デバイス104上に実装されうる。ネットワーク102は、一つ以上の有線もしくは無線データ通信リンクまたはその両方を介して互いにおよび他のデバイスまたはコンポーネントと通信する、複数のコンピューティング・デバイス104を含むことができ、各通信リンクが、一つ以上のワイヤ、ルータ、スイッチ、伝送器、受信器などを含みうる。QAシステム100およびネットワーク102は、一人以上のQAシステム・ユーザに、各自のコンピューティング・デバイス110〜112を介して質問/応答(QA)生成機能性を可能にしうる。QAシステム100の他の実施形態が、ここに示したもの以外のコンポーネント、システム、サブシステム、もしくはデバイスまたはその全てとともに使用されてもよい。
QAシステム100は、様々なソースからの入力を受け取るQAシステム・パイプライン108を実装するように構成されればよい。例えば、QAシステム100は、ネットワーク102、電子文書のコーパス106、QAシステム・ユーザ、またはその他のデータおよびその他の考えられる入力のソースから入力を受け取りうる。一実施形態では、QAシステム100への入力の一部または全部がネットワーク102を経由しうる。ネットワーク102上の様々なコンピューティング・デバイス104は、コンテンツ作成者およびQAシステム・ユーザのためのアクセス・ポイントを含みうる。コンピューティング・デバイス104のいくつかは、データ・コーパス106(図1では説明の便宜上別個の実体として示される)を記憶するデータベースのためのデバイスを含みうる。データ・コーパス106の一部は、ネットワークに接続された一つ以上の他のストレージ・デバイス上、一つ以上のデータベース内、または図1に明示されないその他のコンピューティング・デバイスに提供されてもよい。QAシステム100がローカルおよびグローバル、例えばインターネットを含む任意のサイズの環境で動作しうるように、ネットワーク102は様々な実施形態においてローカル・ネットワーク接続およびリモート接続を含みうる。
一実施形態では、コンテンツ作成者が、QAシステム100によりデータ・コーパスの一部として使用するために、データ・コーパス106の文書内のコンテンツを作成する。文書は、QAシステム100において使用するための任意のファイル、テキスト、記事、またはデータのソースを含みうる。QAシステム・ユーザは、ネットワーク102に対するネットワーク接続またはインターネット接続を介してQAシステム100にアクセスし、データ・コーパス106内のコンテンツによって回答されうる質問を、QAシステム100に入力しうる。一実施形態では、自然言語を使用して質問を形成しうる。QAシステム100は、質問を解釈し、QAシステム・ユーザ、例えばQAシステム・ユーザ110に、質問に対する一つ以上の回答を含む応答を提供しうる。いくつかの実施形態では、QAシステム100は、ランク付けされた回答候補のリストにおいて、ユーザに応答を提供しうる。
QAシステム100は、入力された質問、データ・コーパス106を処理し、データ・コーパス106の処理に基づいて入力された質問への回答を生成するための複数のステージを含む、QAシステム・パイプライン108を実装する。QAシステム・パイプライン108は、図3に関して以下に詳述する。
いくつかの例示的実施形態では、QAシステム100は、後述する例示的実施形態の機構により補強された、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションから利用可能なWatson(商標)QAシステムでありうる。Watson(商標)QAシステムは、入力された質問を受け取った後、これをパースして質問の主要な特徴を抽出し、さらにこれを用いて、データ・コーパスに適用されるクエリを構築する。データ・コーパスへのクエリの適用に基づいて、データ・コーパス全体の中から、入力された質問に対する価値のある応答を含む可能性があるデータ・コーパスの部分を探すことにより、入力された質問に対する仮説すなわち回答候補のセットが生成される。
それからWatson(商標)QAシステムは、様々な推論アルゴリズムを用いて、入力された質問の言語およびクエリの適用の間に見つかったデータ・コーパスの各部分に使用された言語の深い分析を行う。それぞれが異なる分析、例えば比較を行い、スコアを生成する何百または何千もの推論アルゴリズムが適用されうる。例えば、いくつかの推論アルゴリズムは、入力された質問およびデータ・コーパスから見つかった部分の言語の中のタームおよび同義語のマッチングに注目しうる。言語の時間または空間特徴に注目しうる推論アルゴリズムもあれば、データ・コーパスの部分のソースを評価し、その真実性を評価しうる推論アルゴリズムもある。
様々な推論アルゴリズムから得られたスコアは、その推論アルゴリズムの具体的な焦点エリアに基づいて、入力された質問によって可能性のある応答が推測される程度を示す。それから各結果のスコアが、統計モデルに対して重み付けされる。統計モデルは、推論アルゴリズムがWatson(商標)QAシステムのトレーニング期間中に特定のドメインで二つの類似パッセージ間の推測の確立をどのくらい良好に行ったかを捉える。次に統計モデルを用いて、質問によって可能性のある応答すなわち回答候補が推測されるという証拠に関してWatson(商標)QAシステムが有する信頼度のレベルが集約されうる。このプロセスは、Watson(商標)QAシステムが他の回答候補よりも有意に強力な回答候補として浮上する回答候補を特定し、ひいては入力された質問への最終回答またはランク付けされた回答のセットを生成するまで、各回答候補について繰り返されうる。Watson(商標)QAシステムに関するさらなる情報は、例えばIBMコーポレーションのウェブサイト、IBM Redbooks(IBM社の登録商標)などから得られる。例えば、Yuan et al.,“Watson and Healthcare,”IBM developerWorks,2011および“The Era of Cognitive Systems:An Inside Look at IBM Watson and How it Works”by Rob High,IBM Redbooks,2012に、Watson(商標)QAシステムに関する情報が見られる。
図2は、例示的実施形態の態様が実装されうるデータ処理システムの例のブロック図である。データ処理システム200は、本発明の例示的実施形態のプロセスを実装するコンピュータ使用可能コードまたは命令が置かれうる、図1のサーバ104またはクライアント110等のコンピュータの例である。一例示的実施形態では、図2は、後述する例示的実施形態の追加の機構を含むように補強されたQAシステム100およびQAシステム・パイプライン108を実装する、サーバ104等のサーバ・コンピューティング・デバイスを表す。
図の例では、データ処理システム200は、ノース・ブリッジおよびメモリ・コントローラ・ハブ(NB/MCH)202と、サウス・ブリッジおよび入力/出力(I/O)コントローラ・ハブ(SB/ICH)204とを含むハブ・アーキテクチャを採用する。処理ユニット206、メイン・メモリ208、およびグラフィックス・プロセッサ210が、NB/MCH202に接続される。グラフィックス・プロセッサ210は、加速グラフィックス・ポート(AGP)を通じてNB/MCH202に接続されうる。
図の例では、ローカル・エリア・ネットワーク(LAN)アダプタ212が、SB/ICH204に接続する。オーディオ・アダプタ216、キーボードおよびマウス・アダプタ220、モデム222、読み取り専用メモリ(ROM)224、ハードディスク・ドライブ(HDD)226、CD−ROMドライブ230、ユニバーサル・シリアル・バス(USB)ポートおよびその他の通信ポート232、ならびにPCI/PCIeデバイス234が、バス238およびバス240を通じてSB/ICH204に接続する。PCI/PCIeデバイスは、例えば、イーサネット・アダプタ、アドイン・カード、およびノート・パソコン用のPCカードを含みうる。PCIはカード・バス・コントローラを使用するが、PCIeは使用しない。ROM224は、例えば、フラッシュ基本入力/出力システム(BIOS)でありうる。
HDD226およびCD−ROMドライブ230は、バス240を通じてSB/ICH204に接続する。HDD226およびCD−ROMドライブ230は、例えば、統合ドライブ・エレクトロニクス(IDE:integrated drive electronics)またはシリアルATA(SATA:serial advanced technology attachment)インタフェースを使用しうる。スーパーI/O(SIO:Super I/O)デバイス236が、SB/ICH204に接続されうる。
オペレーティング・システムは、処理ユニット206で稼働する。オペレーティング・システムは、図2のデータ処理システム200内の様々なコンポーネントを調整し、制御を提供する。クライアントとして、オペレーティング・システムは、Microsoft(登録商標)Windows7(登録商標)等の市販のオペレーティング・システムであってもよい。Java(登録商標)プログラミング・システム等のオブジェクト指向プログラミング・システムが、オペレーティング・システムとともに稼動することができ、データ処理システム200上で実行するJava(登録商標)プログラムまたはアプリケーションからオペレーティング・システムへの呼び出しを提供する。
サーバとしては、データ処理システム200は、Advanced Interactive Executive(AIX(IBM社の登録商標))オペレーティング・システムまたはLINUX(登録商標)オペレーティング・システムを稼働する、例えばIBMのeServer System p(IBM社の登録商標)コンピュータ・システムであってもよい。データ処理システム200は、処理ユニット206に複数のプロセッサを含む対称型マルチプロセッサ(SMP:symmetric multiprocessor)システムであってもよい。あるいは、単一のプロセッサ・システムが使用されてもよい。
オペレーティング・システム、オブジェクト指向プログラミング・システムへの命令、およびアプリケーションまたはプログラムは、HDD226等の記憶デバイス上に置かれ、処理ユニット206による実行のためにメイン・メモリ208内にロードされうる。本発明の例示的実施形態のプロセスは、例えばメイン・メモリ208、ROM224、または一つ以上の周辺デバイス226および230等のメモリ内に置かれうるコンピュータ使用可能プログラム・コードを使用して処理ユニット206により行われうる。
図2に示すバス238またはバス240等のバス・システムは、一つ以上のバスから構成されうる。もちろん、バス・システムは、ファブリックまたはアーキテクチャに取り付けられた異なるコンポーネントまたはデバイスの間でデータ転送を提供する、任意のタイプの通信ファブリックまたはアーキテクチャを使用して実装されうる。図2のモデム222またはネットワーク・アダプタ212等の通信ユニットは、データを伝送または受信するために使用される一つ以上のデバイスを含みうる。メモリは、例えばメイン・メモリ208、ROM224、または図2のNB/MCH202内に見られるもの等のキャッシュでありうる。
当業者には当然のことながら、図1および図2に示したハードウェアは、実装によって変動しうる。フラッシュ・メモリ、等価の不揮発性メモリ、または光ディスク・ドライブなどの他の内部ハードウェアまたは周辺デバイスを、図1および2に示したハードウェアに追加または代用して使用しうる。また、本発明の趣旨および範囲から逸脱することなく、例示的実施形態のプロセスを前述のSMPシステム以外のマルチプロセッサ・データ処理システムに適用することもできる。
さらに、データ処理システム200は、クライアント・コンピューティング・デバイス、サーバ・コンピューティング・デバイス、タブレット・コンピュータ、ラップトップ・コンピュータ、電話または他の通信デバイス、パーソナル・ディジタル・アシスタント(PDA)などを含む、多様なデータ処理システムのうちのいずれかの形をとりうる。いくつかの例示的実施形態では、データ処理システム200は、例えばオペレーティング・システム・ファイルもしくはユーザが生成したデータまたはその両方を記憶するための不揮発性メモリを提供するようにフラッシュ・メモリとともに構成された携帯可能コンピューティング・デバイスであってもよい。基本的に、データ処理システム200は、アーキテクチャの制限のない任意の既知のまたは今後開発されるデータ処理システムであればよい。
図3は、一例示的実施形態による、入力された質問を処理するためのQAシステム・パイプラインを示す。図3のQAシステム・パイプラインは、例えば、図1のQAシステム100のQAシステム・パイプライン108として実装されうる。当然のことながら、図3に示したQAシステム・パイプラインのステージは、特定のステージに起因する機能性を実装するための論理で構成された一つ以上のソフトウェア・エンジン、コンポーネントなどとして実装されうる。このようなソフトウェア・エンジン、コンポーネントなどの一つ以上を用いて、各ステージが実装されうる。ソフトウェア・エンジン、コンポーネントなどは、一つ以上のデータ処理システムまたはデバイスの一つ以上のプロセッサ上で実行されればよく、一つ以上のデータ処理システム上の一つ以上のデータ記憶デバイス、メモリなどに記憶されたデータを利用するか、またはそれを基にして動作しうる。図3のQAシステム・パイプラインを、例えば、後述する例示的実施形態の改良された機構を実装するために一つ以上のステージにおいて補強することもできるし、改良された機構を実装するために追加のステージを提供することもできるし、またはパイプライン300とインタフェースし、例示的実施形態の改良された機能性および動作を実装するための、パイプライン300とは別個の論理を提供することもできる。
図3に示すように、QAシステム・パイプライン300は、QAシステムが入力された質問を分析し、最終応答を生成するために動作する、複数のステージ310〜380を含む。最初の質問入力ステージ310では、QAシステムが、自然言語フォーマットで提示され入力された質問を受け取る。すなわち、ユーザは、ユーザ・インタフェースを介して、例えば「ワシントンの側近の顧問は誰か?」など、ユーザが回答を得たい質問を入力すればよい。入力された質問を受け取ったことに応答して、QAシステム・パイプライン300の次のステージ、すなわち質問およびトピック分析ステージ320が、自然言語処理(NLP:natural language processing)技術を用いて入力された質問をパースして、入力された質問から主要な特徴を抽出し、主要な特徴をタイプにしたがって、例えば名前、日付、またはその他の多数の定義されたトピックのいずれかにしたがって分類する。例えば、上の質問例では、「誰」というタームは、人の識別が求められていることを指示する「人」のトピックに関連付けることができ、「ワシントン」は、質問が関連付けられる人の固有名詞として識別でき、「側近の」は、近さまたは関係を指示する語として識別でき、「顧問」は名詞またはその他の言語トピックを指示しうる。
次に識別された主要な特徴が、質問分解ステージ330の間に用いられて、質問を、一つ以上の仮説を生成するためにデータ/情報・コーパス345に適用できる一つ以上クエリに分解しうる。クエリは、構造クエリ言語(SQL:Structure Query Language)などの任意の既知のまたは今後開発されるクエリ言語で生成されうる。クエリは、データ/情報・コーパス345を構成する電子テキスト、文書、記事、ウェブサイトなどについての情報を記憶した一つ以上のデータベースに適用されうる。すなわち、これらの様々なソース自体、様々なソースの集まりなどが、複数のコーパス345内の異なるコーパス347を表しうる。特定の実装に応じた様々な基準に基づいて、異なる文書の集まりについて異なるコーパス347が定義されうる。例えば、異なるトピック、対象事項カテゴリ、情報ソースなどにつき、異なるコーパスが確立されうる。一例として、第一コーパスは保健文書に関連し、第二コーパスは財政文書に関連しうる。あるいは、一つのコーパスは米国エネルギー省により公開された文書であり、別のコーパスはIBM Redbooks(IBM社の登録商標)文書であってもよい。何らかの類似の属性を有するコンテンツの任意の集まりを、複数のコーパス345内のコーパス347と考えることができる。
例えば図1のデータ・コーパス106などのデータ/情報・コーパスを構成する電子テキスト、文書、記事、ウェブサイトなどについての情報を記憶した一つ以上のデータベースに、クエリが適用されうる。クエリは、仮説生成ステージ340でデータ/情報・コーパスに適用されて、入力された質問に回答するための可能性のある仮説を識別した結果が生成され、これが評価されうる。すなわち、クエリの適用の結果、データ/情報・コーパスのうち、特定のクエリの基準にマッチする部分が抽出される。そして、これらのコーパスの部分が、仮説生成ステージ340の間に分析および使用されて、入力された質問に回答するための仮説が生成されうる。これらの仮説は、本明細書において、入力された質問への「回答候補」とも呼称される。このステージ340では、任意の入力された質問に対して、評価が必要となりうる何百もの仮説または回答候補が生成されうる。
それからQAシステム・パイプライン300は、ステージ350で、入力された質問の言語および各仮説または「回答候補」の言語の深い分析および比較を行うとともに、特定の仮説が入力された質問への正しい回答である尤度を評価するために証拠のスコア付けを行う。これには上述のように、入力された質問の言語、もしくは仮説を裏付ける証拠を提供するあるいは提供しないコーパスのコンテンツの言語、またはその両方の別々のタイプの分析をそれぞれが行う、複数の推論アルゴリズムの使用を含みうる。各推論アルゴリズムは、行った分析に基づいて、クエリの適用により抽出されたデータ/情報・コーパスの各部分の適合性の尺度ならびに対応する仮説の正確性の尺度すなわち仮説の信頼度の尺度を示すスコアを生成する。
合成ステージ360では、様々な推論アルゴリズムにより生成された多数の適合性スコアが、様々な仮説の信頼度スコアに合成されうる。このプロセスは、様々なスコアに重みを付けることを含みうるが、その重みは、後述のように、QAシステムが利用する統計モデルのトレーニングを通じて決定されるか、もしくは動的にアップデートされたものであるか、またはその両方である。重み付けされたスコアは、これらのスコアを組み合わせて個々の仮説または回答候補の信頼度スコアまたは尺度を生成しうる様式を識別する、QAシステムのトレーニングを通じて生成された統計モデルにしたがって処理されうる。この信頼度スコアまたは尺度は、入力された質問によって回答候補が推測される、すなわち回答候補が入力された質問への正しい回答であるという証拠についてQAシステムが有する信頼度のレベルを集約する。
結果として得られた信頼度スコアまたは尺度は、最終信頼度結合およびランク付けステージ370により処理される。このステージは、信頼度スコアおよび尺度を比較し、これらを所定の閾値に対して比較し、または信頼度スコアのその他の任意の分析を行って、どの仮説/回答候補が入力された質問に対する回答である尤度が最も高いかを決定する。これらの比較にしたがって、仮説/回答候補がランク付けされて、ランク付けされた仮説/回答候補(以下では単に「回答候補」と呼称する)のリストが生成されうる。ステージ380では、ランク付けされた回答候補のリストから、最終回答および信頼度スコア、または回答候補および信頼度スコアの最終セットが生成され、元の入力された質問の提出者に対して出力されうる。
例示的実施形態は、図1〜3に関して上述したもの等のQAシステムを利用して入力された質問に回答する機構を提供し、QAシステムにより生成された回答候補を分析して、回答候補内の共通するターム、実体、ならびにタームおよび実体の間の関係を識別する機構をさらに提供する。加えて、ターム、実体、ならびにタームおよび実体の間の関係に関連付けられた統計的尺度が決定され、回答候補の表示を修正するため、もしくは回答候補間の共通性に関する質問に回答するため、またはその両方のために使用されうる。
例示的実施形態の一態様は、QAシステムにより生成された回答候補の共通性を分析する際に後で使用する、ターム、実体、タームおよび実体の間の関係、ならびにこれらのターム、実体、および関係に関する統計についての情報を記憶したリソースを生成するために、図3のコーパス347または複数のコーパス345等の単数または複数のコーパス内の文書を分析する、プリプロセッサを提供する。例示的実施形態の第二態様では、リソースを用いて回答候補内のターム、実体、および関係の実例が識別され、回答候補の共通性および関係性に関して結論が導かれる。この第二態様に関して、回答候補を提示するためのユーザ・インタフェースが生成され、これには回答候補間の共通性、回答候補の関係性に関する質問に回答するための、および回答候補間の共通性および関係を裏付ける単数または複数のコーパスからの裏付けパッセージを提示するための機構が備わっているほか、以上に基づいて回答候補の出力をハイライトまたは修正するための機構が提供される。
例示的実施形態の様々な態様を、図4に関して以下に詳述する。図4は、一例示的実施形態による回答候補関係識別エンジンの一次動作要素のブロック図の例である。図4に示される要素は、ハードウェア論理、一つ以上のハードウェア・デバイスにより実行されるソフトウェア論理、またはハードウェア論理とソフトウェア論理との任意の組み合わせにおいて実装されうる。一例示的実施形態では、図4に示される要素は、ソフトウェア論理を一つ以上のメモリ、記憶デバイスなどにロードした後に、一つ以上のコンピューティング・デバイスの一つ以上のプロセッサにより実行されるソフトウェア論理として実装される。
図4に示すように、回答候補関係識別エンジン400は、コントローラ410と、コーパス・インタフェース420と、ターム/実体識別エンジン430と、関係識別エンジン440と、統計的尺度エンジン450と、実体/ターム/関係データ構造生成エンジン460と、回答候補関係分析エンジン470と、および回答候補ユーザ・インタフェース・エンジン480とを含む。当然のことながら、図4に示される例示的実施形態の例は、前処理の態様および論理と後処理の態様および論理との両方を単一の回答候補関係識別エンジン400に組み合わせる。例えば、要素430〜460は、例示的実施形態の前処理の態様/論理に関連しうる一方で、回答候補関係分析エンジン470および回答候補ユーザ・インタフェース・エンジン480は、例示的実施形態の後処理の態様/論理の一部と考えることができる。
図4は前処理および後処理の態様/論理を同じエンジン400の一部として示すが、例示的実施形態はこのようなものに限られない。むしろ、他の例示的実施形態では、前処理および後処理の態様/論理が互いに別々で異なっており、後処理の態様/論理が、例えばデータ構造462〜464など、前処理の態様/論理により生成された結果を利用して、その後処理の態様/論理を行ってもよい。したがって、第二エンジンに提供されうる後処理の態様/論理と同じまたは異なるコンピューティング・デバイス上の第一エンジンに、前処理の態様/論理が提供されうる。しかし、本明細書においては説明を簡単にするため、前処理および後処理の態様/論理が、同じ回答候補関係識別エンジン400に統合されるものと想定する。
回答候補関係識別エンジン400のコントローラ410は、回答候補関係識別エンジン400の全動作を制御し、他の要素420〜480の動作を協調させる。コーパス・インタフェース420は、回答候補関係識別エンジン400がコーパスまたは一つ以上のコーパス405の文書データを得ることができるデータ通信インタフェースを提供する。文書データは、非構造化文書のものであってもよく、文書データは、質問応答(QA)システムが入力された質問に対する回答候補を生成するために動作するトレーニング・コーパスまたはランタイム・コーパスの文書データであってもよい。
ターム/実体識別エンジン430、関係識別エンジン440、統計的尺度エンジン450、および実体/ターム/関係データ構造生成エンジン460は、コーパス405から受け取った文書データを分析し、様々な文書内のターム、実体、ならびにタームおよび実体の間の関係に関する情報を含むリソース・データ構造462〜464を生成するために、一緒に動作しうる。要素430〜460は、文書データの分析を行うために、既知のツールの機構を利用しうる。一例示的実施形態では、要素430〜460は、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションから利用可能なStatistical Information and Relation Extraction(SIRE)エンジンを利用し、またはSIREエンジンにおいて提供されるものに類似する論理を利用しうる。SIREエンジンは、Florian et al.,“A Statistical Model for Multilingual Entity Detection and Tracking,”IBM TJ Watson Research Center,proceedings of the 2004 Human Language Technology Conference,North American Chapter of the Association for Computational Linguistics Annual Meeting,pages1−8に記載されている。
例示的実施形態は、リソース・データ構造462〜464の生成を助けるためにSIREエンジンを利用しうるが、例示的実施形態はこのようなものに限られない。むしろ、非構造化/構造化文書の入力文書データを分析し、ターム/実体およびそれらの関係を指示するリソース・データ構造を生成することができる任意の分析エンジンを、例示的実施形態の趣旨および範囲から逸脱することなく使用しうる。例えば、例示的実施形態の機構とともに使用されうる別の分析エンジンは、Stanford Natural Language Processing Groupから利用可能なStanford CoreNLPエンジンである。Stanford CoreNLPエンジンは、SIREエンジンのように、文のトークン化、統語分析、実体検出、および共参照解析を提供する。
ターム/実体識別エンジン430は、SIREエンジンまたは他のタイプのNLP分析エンジンの論理を利用して、受け取った文書データの各文中において、文中のターム/実体、文中に見つかった実体タイプを識別するとともに、エンジン400に入力された一つ以上の文書の文中のターム/実体の識別についての統計をとる。ターム/実体識別エンジン430は、さらに共参照識別を行って、共参照および文書内の共参照の位置ならびに共参照が指す実体を識別しうる。関係識別エンジン440は、文中に見つかったターム/実体の間の関係を分析して、ターム/実体のペア、ターム/実体の間の関係の性質、およびコーパス405の単数または複数の文書内で関係が見つけられる頻度などを識別する。このようにして、文書内の各実体またはタームにつき、他のターム/実体との一つ以上のペアワイズ関係が識別され、保存されうる。
例えば、一つの文中に、複数の関係、共参照などが識別されうる。ターム/実体識別エンジン430は、文中のターム/実体ならびにそれらの位置およびタイプをトークン化しまたは別途識別する。関係識別エンジン440は、ターム/実体識別エンジン430により見つけられたターム/実体の間の様々な関係を識別する。
次の例文を検討する。「ジョン・スミスは弁理士であり、彼は米国特許商標庁(USPTO)に登録されている。彼は2004年にハーバードを卒業し、彼は現在ニューヨークに居住する。」一つの文において、例えばSIREエンジンに提供されるようなNLP機構を用いて、「ジョン・スミス」、「弁理士」、「米国特許商標庁」、および「USPTO」という実体が識別されうる。「ジョン・スミス」は「人」の実体タイプに関連付けられ、「弁理士」は「職業」の実体タイプに関連付けられ、「米国特許商標庁」は「組織」であるように、実体の実体タイプがさらに識別されうる。加えて、「彼」(代名詞)および「USPTO」(頭字語)の共参照が文中で識別され、その関係は、「彼」が「ジョン・スミス」を指し、「USPTO」が米国特許商標庁を指すという関係である。
「ジョン・スミス」が一つのペアワイズ関係では「弁理士」に関係付けられ、第二ペアワイズ関係では「米国特許商標庁」に関係付けられ、第三ペアワイズ関係では「ハーバード」に関係付けられ、第四ペアワイズ関係では2004年に関係付けられ、第五ペアワイズ関係ではニューヨークに関係付けられるように、実体およびタームの間のペアワイズ関係が識別される。同様に、「弁理士」という実体は、「米国特許商標庁」という実体と同様に、「ジョン・スミス」と関係を有しうる。例えばデータベースの「ジョン・スミス」のエントリが「弁理士」および「米国特許商標庁」とのペアワイズ関係を保存しうるなど、特定の実体と関連して各ペアワイズ関係が保存されうる。
関係識別エンジン440は、共参照識別および解析をさらに行って、共参照が指す実体名詞を決定しうる。例えば、上の例における「彼」という代名詞は「ジョン・スミス」を指し、「USPTO」という頭字語は「米国特許商標庁」という組織を指す。実体間の関係を表現する際に、共参照は、それが指す実体で置き換えられうる。すなわち、ペアワイズ関係を生成するために共参照の代わりに実体が保存され、例えばペアワイズ関係おいては「米国特許商標庁」が「USPTO」の代わりに保存されうる。
さらに、ターム/実体識別エンジン430は、例えば特定のテキスト域内にある、例えば文中の実体と、それと同じ場所にある動詞および名詞とを含めて5グラム内にある、文中の他の非実体名詞および動詞をさらに識別しうる。したがって、上の例では、「ジョン・スミス」は「登録される」という動詞に関連付けられ、「米国特許商標庁」も「登録される」という動詞に関連付けられうる。したがって、この関連性から、ジョン・スミスが登録されており、実体が米国特許商標庁に登録されている可能性があると決定することができる。
当然のことながら、上の例は二文のみについての例であるが、ペアワイズ関係は文書内の多数の文にわたりうる。したがって、共参照などが後の文中にあることもあるし、文書のコンテンツ内の一文または複数文前の、前の文中の実体を指すこともある。どの共参照がどの実体を指すか分かるように、文書内の実体の位置および共参照が保存されうる。
例示的実施形態によれば、ターム/実体識別エンジン430および関係識別エンジン440により生成された情報は、統計的尺度エンジン450により処理されて、一つのコーパス内もしくは複数のコーパス全体またはその両方で識別された各ペアワイズ関係の関係頻度が識別されうる。すなわち、一つの関係につき、その関係がコーパス405の一つ以上の文書の文中で識別された回数が維持され、これを用いてその関係についての頻度統計が生成される。さらに、統計的尺度エンジン450は、ターム/実体識別エンジン430と関係識別エンジン440とにより識別された様々なターム/実体および関係の他のタイプの統計も計算しうる。例えば、生成されうる別の統計は、ターム/実体/関係の希少性の尺度である、逆文書頻度(IDF:inverse document frequency)である。コーパス405の文書内において関係が希少であるほど、その関係は固有性が高い。IDFスコアが低いタームとの関係は、識別された関係の裏付けがコーパス405内にほとんどないことから破棄され、もはや保存されなくてもよい。
したがって、ターム/実体識別エンジン430、関係識別エンジン440、および統計的尺度エンジン450の動作を通じて、コーパス405の文書内の関係が識別されるが、これらの関係は、各々が二つのターム/実体を含み、各ターム/実体が複数の関係を有しうる。各関係につき、二つのターム/実体の実体タイプおよび関係頻度が保存される。保存される関係頻度は、単数または複数のコーパス内の全ての文書全体での関係の全実例の累計である。加えて、関係が識別された文書(単数または複数)のコーパスを識別するコーパス識別子、関係が識別された文書(単数または複数)を識別する文書識別子、関係が識別された文書(単数または複数)のタイムスタンプを含むがこれに限られない、関係の他の属性も保存されうる。関係についてのクエリをスコーピングまたはフィルタリングできるように、追加情報が保存される。例えば、コーパスIdを用いて、返された関係を選択したコーパスだけにフィルタリングしうる。同様に、文書IDを用いて、返された関係を文書のセットにフィルタリングしうる。タイムスタンプを用いて、返された関係を特定の日時の前もしくは後または指定の日時Xと日時Yとの間に存在したものにフィルタリングしうる。
回答候補関係識別エンジン400により分析されたコーパス405内の各文書につき生成された共参照は、データ/情報・コーパス345に追加される。これらの共参照により、仮説生成(340)の間に追加の回答候補を生成することができ、実体間の関係の表明を裏付ける、共参照された実体を含む正しい裏付けパッセージが返されることが可能になる。
実体/ターム/関係データ構造生成エンジン460は、エンジン430〜450により集められた関係およびインデックス情報を、サーチ・インデックス462および実体関係データ構造464に保存する。再び、実体関係データ構造464が、関係識別エンジン440により見つけられた実体/ターム間の各関係のエントリを記憶し、各エントリが、関係の実体、実体タイプ、実体に関係するターム、コーパス内の全ての文書全体での関係の頻度、関係が見つけられた文書(単数または複数)の公開時期、関係が見つけられた文書(単数または複数)のコーパス識別子、および関係が見つけられた文書(単数または複数)の文書識別子を記憶する。サーチ・インデックス462は、文書のそれぞれのインデックスを含み、インデックスは、文書内の共参照、共参照の位置、および共参照が指す実体を識別するメタデータを記憶する。サーチ・インデックス462は、リソース345および347の一部とすることができ、質問および回答仮説生成の間に使用されうる。サーチ・インデックス462は、共参照情報を含む、QAシステムにより使用されるタイプの補強サーチ・インデックスであり、例えば要素345および347の補強部分である。サーチ・インデックス462は、(1)質問および回答仮説生成の間に、回答候補のセットを改良するため、および(2)関係の証拠として裏付けパッセージを提供するために、使用される。
リソース462〜464を生成するための上述の動作は、回答候補を生成し、入力された質問に応答してQAシステムにより生成された回答候補の関係および回答候補間の関係を分析し、関係を裏付ける正しいパッセージを返すべく、ランタイム動作中に使用できるリソース462〜464を生成するためのコーパス405の前処理の一部である。すなわち、ランタイム中には、図1〜3に示されるようなQAシステムが、入力された質問を受け取り、入力された質問への複数の回答候補(コーパス405でもありうる複数のコーパス345または一つのコーパス347から得られる)を生成しうる。サーチ・インデックス462に記憶された共参照されたタームのクエリから返された結果に基づいて、追加の回答候補が生成される。回答候補475は、回答候補関係識別エンジン400に入力されうる。回答候補関係分析エンジン470は、リソース464を利用して回答候補を分析して、回答候補内に存在する実体およびその関係、したがって、各回答候補475内に見つかった実体/ターム/および関係に関して回答候補475間の共通性を識別する。
回答候補関係分析エンジン470の動作は、自動的に、または回答候補間の共通性の識別をリクエストするユーザ・インタフェースへのユーザ入力に応答して、開始しうる。例えば、回答候補ユーザ・インタフェース490を介して、回答候補がユーザに出力されうる。ユーザ・インタフェースは、回答候補ユーザ・インタフェース・エンジン480により生成されればよく、回答候補間の共通性等の回答候補についての追加情報をリクエストするためにユーザが選択可能な、ユーザ・インタフェース要素を含みうる。
回答候補関係分析エンジン470は、回答候補内のターム/実体を、実体関係データ構造464に記憶された関係と比較して、実体関係データ構造464内のマッチするエントリを識別し、対応する関係を取り出す。したがって、例えば、回答候補に「弁理士」という実体が含まれる場合には、実体関係データ構造464内の「弁理士」の関係が識別され、取り出される。実体関係を取り出す際には、例えば出現頻度、逆文書頻度など、実体関係に関連付けて記憶された様々な統計的尺度も取り出される。そのうえ、文書識別子、コーパス識別子、および実体の位置情報の識別を通じて、実体の関係を裏付けるコーパス405内の特定のパッセージを取り出すことができる。
回答候補内に見つかったターム/実体とマッチする実体関係データ構造464内のペアワイズ関係を見つけた後、回答候補関係分析エンジン470は、各回答候補のペア、各回答候補のトリプレット、全回答などでの関係の交点を決定する。したがって、例えば、分析によって、回答候補1が「ジョン・スミス」という実体と関係を有し、回答候補2が「ジョン・スミス」という名前を回答候補内に特に含まなかったとしても、回答候補2も「ジョン・スミス」という実体と関係を有すると識別されることもある。これらのタイプの結果は、単に回答候補について返されたパッセージだけから得ることはできない。例えば、返されたパッセージは代名詞を含みうるが、代名詞の指示対象を含まない。したがって、回答は代名詞の指示対象と関係を有するであろうが、その時点で指示対象が何かを知る術はないであろう。関係データ・ストアには、上述のように、実体と共参照が解析された代名詞の指示対象との間の関係が含まれる。加えて、各回答候補とともに返されるパッセージは、与えられた入力された質問に回答することだけに限定されるが、例示的実施形態の機構により返される関係はコーパス全体にわたり、したがって、尋ねられている入力された質問または回答候補を裏付けるパッセージに直接関係がない回答候補間の関係を提示しうる。
回答候補の全部またはサブセットに共通する具体的タイプの実体または回答候補間のその他のタイプの共通性を含む回答候補についての追加情報をユーザがリクエストできる、回答候補ユーザ・インタフェース・エンジン480により生成されたユーザ・インタフェース490を介して、様々なオプションがユーザに提示されうる。例えば、ユーザ・インタフェース490を介して、
(1)全ての回答候補に共通するタームは、また、タームと回答とに互いに関係があることを示すパッセージは何か?
(2)回答候補のサブセットに共通するタームは何か? タームと回答とが互いに関係があること示すパッセージは何か?
(3)全ての回答候補に共通する人は?
(4)2011年以降に公開された文書内で、五つの回答候補のうち少なくとも三つに共通する組織は?
(5)Wikipediaだけをソースとして用いて、全ての回答候補に共通する国は?
を尋ねるオプションがユーザに提示されうる。これらの例においては、実体関係データ構造464に各関係における実体についての実体タイプ情報が記憶されており、したがって各回答候補にどの関係が当てはまるかを識別する際に実体タイプも識別されることから、回答候補の間で共通する特定のタイプの実体に向けられた上の(3)のような質問が回答されうる。上の質問(4)に関しては、例えばコーパス405内の文書などの関係のソースに関連付けられたタイムスタンプがエントリに維持されているため、特定の時間フレームの文書内の組織の識別が識別されうる。質問(5)に関しては、実体関係データ構造464のエントリにソース情報が維持されているため、この質問も関心のある特定のソースに関して回答されうる。
実体関係データ構造464内のエントリに関連付けられた統計的尺度情報を用いて、回答候補内および回答候補間の関係の表現を修正しうる。例えば、より高い出現頻度を有する回答候補内および回答候補間の関係が、回答候補内および回答候補間の他の関係に対して視覚的に区別またはハイライトされうる。回答候補内の共通のターム/実体が、回答候補内で区別またはハイライトされ、回答候補の間で共通すると決定された関係が、出現頻度または逆文書頻度などの相対的ランキングにしたがって提示および区別/ハイライトされうる。例えば、特定の単数または複数のコーパス405内で「バラク・オバマ」と「ジョン・ベイナー」の間の関係の出現頻度が50であり、「バラク・オバマ」と「ラーム・エマニュエル」の間の関係の頻度が5である場合には、第一関係が強調またはハイライトされるように、ユーザ・インタフェースにおいて第一関係の表示が第二関係の表現と区別されうる。同様に固有性または逆文書頻度を用いて、全関係における「ジョン・ベイナー」の頻度が2000であり、全関係における「ラーム・エマニュエル」の頻度が10の場合には、「バラク・オバマ」/「ラーム・エマニュエル」の関係の固有性(5/10)の方が「バラク・オバマ」/「ジョン・ベイナー」の関係の固有性(50/2000)より高く、この固有性の差が、一方の関係を他方の関係に対して区別することにより視覚的に表現されうる。
さらに、回答候補475内で共通する特定の関係を裏付ける単数または複数のコーパス405内のパッセージも、ユーザ・インタフェースの一部として表示されうる。したがってユーザには、回答候補内の共通するターム/実体、回答候補間で共通する関係、および関係の相対的頻度/固有性についての情報が提示されるだけでなく、関係についての文書の裏付けもユーザに提示される。
例として、「誰が最も偉大なレッド・ソックスの選手だったか?」といったQAシステムに対して入力された質問を検討する。QAシステムにより返される回答候補には、「カール・ヤストレムスキー」、「ロジャー・クレメンス」、および「テッド・ウィリアムズ」が含まれうる。それから、「カール・ヤストレムスキー」、「ロジャー・クレメンス」、および「テッド・ウィリアムズ」を入力として用いて、これらの回答候補間の共通性につき、例示的実施形態の回答候補関係分析エンジンがクエリされうる。この例では、三つの回答候補につき実体関係データ・ストア464がクエリされ、以下の結果を返す(数字はペアリングに指定された実体間の関係がコーパスの文書内に生じる頻度を指示する):
カール・ヤストレムスキー:ボビー・ドーア;7
カール・ヤストレムスキー:カールトン・フィスク;8
カール・ヤストレムスキー:フレッド・リン;7
ロジャー・クレメンス:カールトン・フィスク;2
ロジャー・クレメンス:フレッド・リン;1
テッド・ウィリアムズ:ボビー・ドーア;12
テッド・ウィリアムズ:カールトン・フィスク;2
テッド・ウィリアムズ:フレッド・リン;1
このペアワイズ関係のセットから、ボビー・ドーアがカール・ヤストレムスキーおよびテッド・ウィリアムズと関係があるが、ロジャー・クレメンスとは関係がないことが分かる(ボビー・ドーアが恐らくカール・ヤストレムスキーおよびテッド・ウィリアムズとは同時期にプレーしたがロジャー・クレメンスとは同時期にプレーしなかったのであろうことを示唆する(ドーアは実際にはウィリアムズとともにプレーし、ヤストレムスキーを指導した))。さらに、カールトン・フィスクは、QAシステムが最も偉大なレッド・ソックスの選手と考えたもの、すなわち三つの回答候補、との関係で登場することが分かる。このことは、カールトン・フィスクをQAシステムにより検討されるべき可能性のある回答候補としてユーザが恐らく追加して欲しいと思っているのではないかということを示す。したがって、例示的実施形態の機構は、これらの関係を分析し、ペアワイズ関係の交点を「カールトン・フィスク」として識別し、この追加情報を、関係の交点の結論につながる関係に加えて、ユーザに提供しうる。
そのうえ、ユーザが共通する関係およびこれらの共通する関係の交点の適合性または重要性をさらに決定しうるように、例示的実施形態の機構によってユーザに提示される関係、関係の統計、および関係の交点に加えて、交点につながる様々な関係を裏付ける証拠パッセージも返されうる。例えば、上述の関係を裏付けるパッセージ例は、以下のタイプのものがありうる(なお、第一パッセージは、「ヤズ」が共参照を通じて「カール・ヤストレムスキー」と解析されたので見つかったものであり、最後のパッセージは、「リン」が共参照を通じて「フレッド・リン」と解析されたので見つかったものである)。
(1)レッド・ソックス、ヤズの功績を称え、フェンウェイ・パークに銅像を建立−ヤズが1961年にレフトを継承したテッド・ウィリアムズの銅像と、ドム・ディマジオ、ジョニー・ペスキー、ボビー・ドーア、ウィリアムズを表した「チームメイト」の銅像との間に。
(2)カール・ヤストレムスキー、ジム・ライス、フレッド・リンの11×14写真、16×20ダブルマット額装。
(3)カール・ヤストレムスキー、カールトン・フィスク、ドワイト・エバンスのサイン入り。
(4)殿堂入りのカールトン・フィスクがマーク・マグワイア、ロジャー・クレメンスを非難
(5)だからウェイド・ボッグス、フレッド・リン、ロジャー・クレメンス、ノマー・ガルシアパーラ、ティト・フランコーナ、カールトン・フィスク、ジョニー・デイモンを始めとして、うちの選手はほとんど全員が厳しい評価を受けている。
(6)テッド・ウィリアムズのソックスでのルーキー・シーズンである1939年から、ドーアは12シーズン連続して10本以上のホームランと73打点以上をマークした;1940年には、フォックス、ウィリアムズ、クローニン、ドーアのそれぞれが105打点以上を挙げ、レッド・ソックスは100RBIの選手が4人いる大リーグ史上12番目のチームとなった。
(7)「素晴らしいわ」と、スタンドの若い女性が言った。「テッド・ウィリアムズがカールトン・フィスクに投球したなんて。これで満足して帰れるわ。」
(8)リンは、レッド・ソックスの先輩の一人であるテッド・ウィリアムズと同様に人前に出るのが嫌いな男で、パーティーでの欠席が目立つことになるだろう。
このように、例示的実施形態は、回答候補間の共通性および関係を識別し、識別する情報を提示するための機構を提供する。この情報は、ユーザが提出した入力された質問への回答について、および潜在的には入力された質問に対して返された回答の背後にある推論についての、より深い洞察を提供する。ユーザは、QAシステムが入力された質問に対して回答候補を選択した理由および最終的には最終回答を選択した理由を判断する際にユーザにとって有益でありうるとともに、ユーザを回答候補の対象事項のさらなる理解へと導くために使用されうる情報を提示しうる、回答候補についての様々なタイプの追加情報をリクエストしうる。
図5は、一例示的実施形態による、回答候補内の関係を識別する際に使用される実体/ターム関係リソースを生成するための前処理動作を行うための動作例を概説したフローチャートである。図5に示すように、単数または複数のコーパスからの文書の取り込みを開始するステップ(ステップ510)により、動作が開始する。単数または複数のコーパス内の次の文書の文書データが分析されて、実体に対する一切の共参照を含めて文書データ中に言及されたターム/実体が識別される(ステップ520)。実体と他の実体との間、実体と他の非実体タームとの間などのペアワイズ関係が識別される(ステップ530)。文書データ中の共参照の位置および共参照が指す実体が識別される(ステップ540)。ターム/実体/関係の出現頻度、逆文書頻度などの、ターム/実体/関係に関連付けられた統計的尺度が更新される(ステップ550)。共参照、共参照の位置、および共参照が指す実体の情報が、文書のサーチ・インデックスに記憶される(ステップ560)。実体/ターム関係情報が、実体関係データ構造のエントリに記憶される(ステップ570)。次に動作は、最後の文書が処理されているかを決定する(ステップ580)。処理されていない場合には、動作はステップ520に戻り、処理されている場合には動作が終了する。
図6は、一例示的実施形態による、実体/ターム関係リソースを用いて回答候補間の関係を決定するための動作例を概説したフローチャートである。入力された質問に対する回答候補の生成(ステップ610)、およびQAシステムによる検討のためのユーザによる回答の入力(ステップ615)により、動作が開始する。ユーザ・インタフェースを介して回答候補がユーザに提示され(ステップ620)、ユーザ・インタフェースには回答候補間の共通性および関係に関する情報を得るための一つ以上のユーザが選択可能なオプションがさらに含まれる。回答候補についての共通性/関係情報を得るためにユーザが選択可能なオプションが受け取られたかが決定される(ステップ630)。受け取った場合には、回答候補が分析されて、回答候補内のターム/実体が識別され(ステップ640)、これらのターム/実体が、実体関係データ構造に記憶された実体関係と相関付けられる(ステップ650)。相関に基づいて、各回答候補に関連する関係が決定される(ステップ660)。回答候補の関係の交点が決定され(ステップ670)、交点に基づいて、共通性/関係情報のリクエストに対する応答が生成され、ユーザ・インタフェースを介してユーザに返される(ステップ680)。それから、例えばユーザがユーザ・インタフェースを閉じる、新たな質問を入力する、またはユーザ・インタフェースがもう必要ないことを別途指示するなど、ユーザ・インタフェースの提示が終了されるべきか否かに関する決定がなされる(ステップ690)。終了されるべき場合には、動作が終了する。終了されるべきでない場合には、動作はステップ630に戻り、ユーザが他に回答候補についての共通性/関係情報をリクエストしているかが決定され、新たなリクエストに関して動作が繰り返される。
図7は、一例示的実施形態による、回答候補ユーザ・インタフェースの図の例である。一貫性のために、図7に示した例は、上で議論した入力された質問の例「誰が最も偉大なレッド・ソックスの選手だったか?」に対応する。これは単なる例であり、例示的実施形態の機構により使用または生成されうるユーザ・インタフェースのタイプに関するいかなる制限も表明せず示唆しない。例示的実施形態の趣旨および範囲から逸脱することなく、図示されたユーザ・インタフェースの例に対する多数の修正が行われうる。
図7に示すように、ユーザ・インタフェースは、入力された質問に応答して生成された回答候補を表示するための第一部分710を有する。回答候補についての共通性/関係情報をリクエストするためにユーザが選択可能な複数のインタフェース要素を提示するために、第二部分720が提供される。回答候補間で共通する関係を提示するために、第三部分730が提供される。第三部分730で識別された関係を裏付ける証拠パッセージを提示するために、第四部分740が提供されうる。
動作時には、ユーザがQAシステムに質問を入力し、QAシステムが回答候補結果を返すと、回答候補が、回答候補に関連付けられた信頼度の程度に基づいてランク付けされたリストなどにおいて、第一部分710に提示されうる。第一部分710における回答候補の提示に応答して、ユーザは、回答候補間の共通性/関係についての追加情報がユーザに有用または有益となるであろうことを決定しうる。したがってユーザは、例えば回答候補のそれぞれに共通する全てのターム/実体を(回答候補自体の中に特に言及されていない場合であっても)識別するオプション、回答候補の間で共通するタイプの実体(例えば回答候補の間で共通する人、組織または国は何か)を決定するためのオプションなど、ユーザ・インタフェースの第二部分に提示されたオプションから所望のオプションを選択しうる。
第二部分720の一つ以上のオプションのユーザによる選択に応答して、第一部分710の回答候補間で共通するターム/実体/関係が決定され、共通する関係が第三部分730を介してユーザに提示されうる。加えて、共通する関係の中の共通するターム/実体が、第一部分710の中で強調またはハイライトされうる。さらに、共通する関係の中の実体の関係を裏付ける証拠パッセージが取り出され、第四部分740を介して提示されうる。こうして、ユーザ・インタフェースを介して、入力された質問につき生成された回答候補の間の共通性および関係が識別され、ユーザに提示されうる。
当然のことながら、上述の例示的実施形態は、一つ以上のコーパス内の文書の前処理の間に見つかったタームもしくは実体またはその両方の間の予め記憶されたペアワイズ関係を用いて、QAシステムにより生成された回答候補の少なくともサブセットの間で共通する関係を識別することに向けられるが、例示的実施形態は、そのようなものに限定されない。むしろ、回答候補のサブセットの間で共通する関係の識別を行うための基礎として、任意のタイプの関係が用いられうる。したがって、例えば三つ以上のターム/実体を含む関係など、ペアワイズ関係よりも複雑な関係が利用されてもよく、これらのより複雑な関係の交点が前述の機構によって生成されてもよい。
上述のように、当然のことながら、例示的実施形態は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態またはハードウェアおよびソフトウェア要素の両方を含む実施形態の形をとりうる。一つの実施形態例では、例示的実施形態の機構は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれに限られないソフトウェアまたはプログラム・コードにおいて実装される。
プログラム・コードの記憶もしくは実行またはその両方に適したデータ処理システムは、システム・バスを通じて記憶素子に直接的または間接的に結合された少なくとも一つのプロセッサを含む。記憶素子は、プログラム・コードの実際の実行の間に使用されるローカル・メモリ、大容量記憶装置、および実行の間に大容量記憶装置からコードを取り出さなければならない回数を減らすために少なくとも一部のプログラム・コードの一時記憶を提供するキャッシュ・メモリを含みうる。
入力/出力またはI/Oデバイス(キーボード、ディスプレイ、ポインティング・デバイスなどを含むがこれに限られない)は、直接または介在するI/Oコントローラを通じてシステムに結合されうる。介在するプライベート・ネットワークまたはパブリック・ネットワークを通じてデータ処理システムが他のデータ処理システムまたはリモート・プリンタもしくは記憶デバイスに結合できるようにするために、ネットワーク・アダプタもシステムに結合されうる。モデム、ケーブル・モデムおよびイーサネット・カードは、現在利用可能なタイプのネットワーク・アダプタのほんの一部である。
本発明の説明は、例証および説明のために提示されており、網羅的であることも、本発明を開示された方法に限定することも意図していない。当業者には、多くの変更および変形例が明らかとなるであろう。実施形態は、本発明の原理、実際的応用を最も良く説明し、他の当業者が企図される特定の使用に適した様々な修正を含む様々な実施形態について本発明を理解することができるように選ばれ、記載された。

Claims (12)

  1. データ処理システムにおいて、入力された質問に応答して質問応答(QA)システムに
    より生成された回答候補の間の共通性を識別するための方法であって、
    前記データ処理システムにより、前記QAシステムから、入力された質問への複数の回答候補を受け取るステップと;
    前記データ処理システムにより、前記回答候補内に存在するタームを識別するステップと;
    前記データ処理システムにより、各前記回答候補内のタームに対応する関係を決定し、
    前記対応する関係に基づいて、前記複数の回答候補の少なくともサブセット内に存在する第一タームと第二タームとの間で共通する関係を決定するステップ
    前記データ処理システムにより、前記複数の回答候補と前記共通する関係とをユーザに提示するステップと
    を含む、方法。
  2. 前記第一タームまたは前記第二タームの少なくとも一つが、実体タイプを有する実体である、請求項1に記載の方法。
  3. 前記共通する関係を決定するステップが、前記サブセット内の前記第一タームと前記第二タームとの間の関係の交点を決定するステップを含む、請求項1又は2に記載の方法。
  4. 前記共通する関係を決定するステップが、
    複数のエントリを含む関係データ・ストアをサーチするステップであって、各エントリは、少なくとも一つのコーパスの文書の前処理の間に見つかった第一の見つかったタームと少なくとも一つの第二の見つかったタームとの間の関係に対応する、ステップと;
    回答候補内に見つかったタームにマッチする、前記関係データ・ストア内の一つ以上のエントリを識別するステップと
    を含む、請求項1乃至3のいずれかに記載の方法。
  5. 前記関係データ・ストア内の各エントリが、コーパスの少なくとも一つの文書の自然言語処理を通じて前記コーパスの前記少なくとも一つの文書内に識別された関係に基づいて、前記コーパスの前記少なくとも一つの文書の前処理の間に見つかった第一タームと前記コーパスの前記少なくとも一つの文書の前処理の間に見つかった第二タームとの間のペアワイズ関係を含む、請求項4に記載の方法。
  6. 前記関係データ・ストア内の各エントリが、前記前処理の間に前記コーパスの前記少なくとも一つの文書内に対応するペアワイズ関係が見つかった頻度を示す出現頻度値をさらに含む、請求項5に記載の方法。
  7. 前記複数の回答候補と前記共通する関係とをユーザに提示するステップが、各前記関係の前記現頻度値とともに前記回答候補と前記関係との視覚的表示を生成するステップを含む、請求項6に記載の方法。
  8. 前記視覚的表示が、前記共通する関係を裏付ける、コーパスの少なくとも一つの文書からの少なくとも一つの証拠テキスト・パッセージをさらに含み、前記回答候補または前記証拠テキスト・パッセージの少なくとも一つの一部が、前記共通する関係の出現頻度値に対応する値に基づいて、前記視覚的表示において強調される、請求項7に記載の方法。
  9. 前記第一タームと前記第二タームとの間で共通する関係を決定するステップが、
    前記回答候補を出力するためのグラフィカル・ユーザ・インタフェース(GUI)の第一部分と、前記回答候補間でユーザが識別を望む所望の共通する関係を指定するためにユーザが選択可能な複数のオプションを出力するための前記GUIの第二部分と、前記回答候補内の前記ターム間の関係と前記共通する関係とを出力するための前記GUIの第三部分と、前記共通する関係を裏付ける、コーパスの文書からの証拠テキスト・パッセージを出力するための前記GUIの第四部分とを提供する、前記GUIを提示するステップ
    をさらに含む、請求項1乃至8のいずれかに記載の方法。
  10. 前記複数の回答候補と前記共通する関係とをユーザに提示するステップが、前記回答候補と、前記共通する関係を裏付ける、コーパスの少なくとも一つの文書からの少なくとも一つの証拠テキスト・パッセージとの視覚的表示を生成するステップであって、前記回答候補の少なくとも一つまたは前記少なくとも一つの証拠テキスト・パッセージの一部が、前記視覚的表示において強調されるステップを含む、請求項1乃至9のいずれかに記載の方法。
  11. コンピュータ・プログラムであり、コンピューティング・デバイス上で実行されると、前記コンピューティング・デバイスに、
    前記QAシステムから、入力された質問への複数の回答候補を受け取るステップと;
    前記回答候補内に存在するタームを識別するステップと;
    各前記回答候補内のタームに対応する関係を決定し、前記対応する関係に基づいて、前記複数の回答候補の少なくともサブセット内に存在する第一タームと第二タームとの間で共通する関係を決定するステップ、;
    前記複数の回答候補と前記共通する関係とをユーザに提示するステップと
    を実行させるコンピュータ・プログラム。
  12. プロセッサと;
    前記プロセッサに結合されたメモリとを含む装置であって、前記メモリは命令を含み、前記命令は、前記プロセッサにより実行されると、
    前記QAシステムから、入力された質問への複数の回答候補を受け取ること;
    前記回答候補内に存在するタームを識別すること;
    各前記回答候補内のタームに対応する関係を決定し、前記対応する関係に基づいて、前記複数の回答候補の少なくともサブセット内に存在する第一タームと第二タームとの間で共通する関係を決定すること;および
    前記複数の回答候補と前記共通する関係とをユーザに提示すること
    を前記プロセッサに行わせる、
    装置
JP2014183049A 2013-12-05 2014-09-09 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 Active JP6095621B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/097,697 US9558263B2 (en) 2013-12-05 2013-12-05 Identifying and displaying relationships between candidate answers
US14/097697 2013-12-05

Publications (3)

Publication Number Publication Date
JP2015109068A JP2015109068A (ja) 2015-06-11
JP2015109068A5 JP2015109068A5 (ja) 2015-11-05
JP6095621B2 true JP6095621B2 (ja) 2017-03-15

Family

ID=53185389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014183049A Active JP6095621B2 (ja) 2013-12-05 2014-09-09 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置

Country Status (4)

Country Link
US (2) US9558263B2 (ja)
JP (1) JP6095621B2 (ja)
CN (1) CN104699730B (ja)
DE (1) DE102014113870A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558263B2 (en) 2013-12-05 2017-01-31 International Business Machines Corporation Identifying and displaying relationships between candidate answers
US20160162582A1 (en) * 2014-12-09 2016-06-09 Moodwire, Inc. Method and system for conducting an opinion search engine and a display thereof
US10783159B2 (en) * 2014-12-18 2020-09-22 Nuance Communications, Inc. Question answering with entailment analysis
US10303798B2 (en) * 2014-12-18 2019-05-28 Nuance Communications, Inc. Question answering from structured and unstructured data sources
US10558666B2 (en) * 2015-07-10 2020-02-11 Trendkite, Inc. Systems and methods for the creation, update and use of models in finding and analyzing content
CN105589844B (zh) * 2015-12-18 2017-08-08 北京中科汇联科技股份有限公司 一种用于多轮问答系统中缺失语义补充的方法
CN105608183B (zh) * 2015-12-22 2018-11-02 北京奇虎科技有限公司 一种提供聚合类型回答的方法和装置
EP3188039A1 (en) * 2015-12-31 2017-07-05 Dassault Systèmes Recommendations based on predictive model
JP6334587B2 (ja) * 2016-03-08 2018-05-30 日本電信電話株式会社 単語抽出装置、方法、及びプログラム
US9842096B2 (en) * 2016-05-12 2017-12-12 International Business Machines Corporation Pre-processing for identifying nonsense passages in documents being ingested into a corpus of a natural language processing system
US10169328B2 (en) 2016-05-12 2019-01-01 International Business Machines Corporation Post-processing for identifying nonsense passages in a question answering system
US10585898B2 (en) 2016-05-12 2020-03-10 International Business Machines Corporation Identifying nonsense passages in a question answering system based on domain specific policy
EP3443467B1 (en) * 2016-05-17 2020-09-16 Microsoft Technology Licensing, LLC Machine comprehension of unstructured text
JP6727610B2 (ja) * 2016-09-05 2020-07-22 国立研究開発法人情報通信研究機構 文脈解析装置及びそのためのコンピュータプログラム
US10558754B2 (en) * 2016-09-15 2020-02-11 Infosys Limited Method and system for automating training of named entity recognition in natural language processing
US10824681B2 (en) * 2016-11-21 2020-11-03 Sap Se Enterprise resource textual analysis
US10681572B2 (en) 2017-03-30 2020-06-09 International Business Machines Corporation Dynamic bandwidth analysis for mobile devices
US11361229B2 (en) 2017-07-24 2022-06-14 International Business Machines Corporation Post-processor for factoid answer conversions into structured relations in a knowledge base
US10803100B2 (en) * 2017-11-30 2020-10-13 International Business Machines Corporation Tagging named entities with source document topic information for deep question answering
US10810215B2 (en) * 2017-12-15 2020-10-20 International Business Machines Corporation Supporting evidence retrieval for complex answers
CN110019719B (zh) * 2017-12-15 2023-04-25 微软技术许可有限责任公司 基于断言的问答
US10901989B2 (en) * 2018-03-14 2021-01-26 International Business Machines Corporation Determining substitute statements
US11321618B2 (en) 2018-04-25 2022-05-03 Om Digital Solutions Corporation Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
JP7099031B2 (ja) * 2018-04-27 2022-07-12 日本電信電話株式会社 回答選択装置、モデル学習装置、回答選択方法、モデル学習方法、プログラム
WO2019208222A1 (ja) * 2018-04-27 2019-10-31 日本電信電話株式会社 回答選択装置、回答選択方法、回答選択プログラム
US11048878B2 (en) * 2018-05-02 2021-06-29 International Business Machines Corporation Determining answers to a question that includes multiple foci
US11106664B2 (en) * 2018-05-03 2021-08-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for generating a contextually and conversationally correct response to a query
CN112106056A (zh) * 2018-05-09 2020-12-18 甲骨文国际公司 构造虚构的话语树来提高回答聚敛性问题的能力
US11016985B2 (en) * 2018-05-22 2021-05-25 International Business Machines Corporation Providing relevant evidence or mentions for a query
CN109635277B (zh) * 2018-11-13 2023-05-26 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN112115241B (zh) * 2019-06-21 2023-09-05 百度在线网络技术(北京)有限公司 问答方法、装置及设备
US11521078B2 (en) * 2019-07-10 2022-12-06 International Business Machines Corporation Leveraging entity relations to discover answers using a knowledge graph
US11188991B2 (en) 2020-02-07 2021-11-30 International Business Machines Corporation Real estate advisor engine on cognitive system
JP7168963B2 (ja) * 2020-04-28 2022-11-10 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
JP7112107B2 (ja) * 2020-04-28 2022-08-03 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
US20210383075A1 (en) * 2020-06-05 2021-12-09 International Business Machines Corporation Intelligent leading multi-round interactive automated information system
CN111814477B (zh) * 2020-07-06 2022-06-21 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN113392321A (zh) * 2021-06-02 2021-09-14 北京三快在线科技有限公司 一种信息推荐方法、装置、电子设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5519608A (en) 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
JP3960530B2 (ja) 2002-06-19 2007-08-15 株式会社日立製作所 テキストマイニングプログラム、方法、及び装置
JP2007199876A (ja) * 2006-01-24 2007-08-09 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
CN101872349B (zh) * 2009-04-23 2013-06-19 国际商业机器公司 处理自然语言问题的方法和装置
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
JP5816936B2 (ja) * 2010-09-24 2015-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム
US8738617B2 (en) 2010-09-28 2014-05-27 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
EP2622599B1 (en) 2010-09-28 2019-10-23 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
CN103229162B (zh) * 2010-09-28 2016-08-10 国际商业机器公司 使用候选答案逻辑综合提供问题答案
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center
US9558263B2 (en) 2013-12-05 2017-01-31 International Business Machines Corporation Identifying and displaying relationships between candidate answers

Also Published As

Publication number Publication date
DE102014113870A1 (de) 2015-06-11
US9558264B2 (en) 2017-01-31
JP2015109068A (ja) 2015-06-11
US20150161242A1 (en) 2015-06-11
US9558263B2 (en) 2017-01-31
CN104699730B (zh) 2018-02-16
US20160171095A1 (en) 2016-06-16
CN104699730A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
JP6095621B2 (ja) 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置
US10586155B2 (en) Clarification of submitted questions in a question and answer system
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US9318027B2 (en) Caching natural language questions and results in a question and answer system
US9621601B2 (en) User collaboration for answer generation in question and answer system
US9965548B2 (en) Analyzing natural language questions to determine missing information in order to improve accuracy of answers
US9740769B2 (en) Interpreting and distinguishing lack of an answer in a question answering system
US9715531B2 (en) Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
US9342561B2 (en) Creating and using titles in untitled documents to answer questions
US9720962B2 (en) Answering superlative questions with a question and answer system
US20190188271A1 (en) Supporting evidence retrieval for complex answers
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
US11520847B2 (en) Learning interpretable strategies in the presence of existing domain knowledge

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150915

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160713

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161013

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170214

R150 Certificate of patent or registration of utility model

Ref document number: 6095621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150