JP7232831B2 - 複雑な回答の補強証拠取り出し - Google Patents

複雑な回答の補強証拠取り出し Download PDF

Info

Publication number
JP7232831B2
JP7232831B2 JP2020531498A JP2020531498A JP7232831B2 JP 7232831 B2 JP7232831 B2 JP 7232831B2 JP 2020531498 A JP2020531498 A JP 2020531498A JP 2020531498 A JP2020531498 A JP 2020531498A JP 7232831 B2 JP7232831 B2 JP 7232831B2
Authority
JP
Japan
Prior art keywords
question
score
answer
passage
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020531498A
Other languages
English (en)
Other versions
JP2021507350A (ja
Inventor
マードック、ジェイムス、ウィリアム
ハー、ユンヨン
ハン、チャン、ウェイ
ハサン、カジ
マーカンダイア、ニサージャ
ノラン、クリストファー、ムンジャル
パン、リン
ペディ、サイ、プラスシャ
スウィフト、メアリー、ダイアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021507350A publication Critical patent/JP2021507350A/ja
Application granted granted Critical
Publication of JP7232831B2 publication Critical patent/JP7232831B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本明細書に記載の実施形態は、情報取り出しのためのシステムおよび方法に関する。より詳細には、本明細書に記載の実施形態は、取り出された証拠のクエリ結果の処理に関する。
質問に対する回答にスコアを付ける方法の1つは、それらの回答を含むパッセージ内の証拠を検索することと、そのような証拠にスコアを付けることとを含む。この方法は、回答が、一般に変形の数が少ない1つの単語(例えば名前)または句を有する単一の具体的な実体である場合にはよく機能する。例えば、「ニューヨーク州の州都はどこか」という質問が与えられ、その回答が「オールバニー」である場合、「オールバニー」という用語を含み、質問に対するこの回答を補強するパッセージの補強証拠取り出しを行うことができ、次に、それらのパッセージが質問にどの程度答えているかの累積スコアを計算することができる。しかし、多くの異なる方式で表現することができる、より長くてより複雑な回答に関連付けられた質問には、上記の方法が適用できない場合がある。例えば、「金はなぜ高価か」という質問が与えられ、回答候補が「希少で美しく、宝飾品を製作するのにきわめて有用であるため」である場合、データのコーパスが上記のような完全な回答をその通りに含む多くの文書(ある場合)を含むことを期待するのは非現実的である。
米国特許第7,139,752号
Yuan et al., "Watson and Healthcare," IBM developer Works, 2011 "The era of Cognitive Systems:An inside Look at IBM Watson and How it works" by Rob High, IBM Readbooks 2012 Lidan Wang, Ming Tan, and Chin-Yew Lin. "News Citation Recommendation with Implicit and Explicit Semantics" Association of Computational Linguistics (ACL) 2016 Dheeraj Mekala, Vivek Gupta, Harish Karnick, "Words are not Equal: Graded Weighting Model for building Composite Document Vectors", European Chapter of ACL 2017 Papineni et al. BLEU: a method forautomatic evaluation of machine translation, ACL 2012 Chin-Yew Lin, Rouge: A package for automatic evaluation of summaries. In Workshop of Text summarization branches out, 2004 David M. Blei, Michael I. Jordan,Thomas L. Griffiths, and Jushua B. Tenenbaum, (2003), "Hierarchical topic models and the nested Chinese restaurant process," in Proceedings of the 16th International Conference on Neural Information Processing Systems(NIPS'03) S. Thrun, L. K. Saul, and B.Shlolcopf (Eds.) MIT Press, Cambridge, MA. USA, 17-24 2004
本発明は、複雑な回答の補強証拠を取り出すことを目的とする。
上記およびその他の問題を解決するために、本明細書に記載の実施形態は、質問に対する回答を生成するためのシステムおよび方法を提供する。本明細書で提供されるシステムおよび方法では、補強証拠検索によって、スコアが付けられている回答を部分的にのみ含む可能性があるパッセージを見つけることができるように、回答内の用語がオプションとして設定される。また、パッセージが質問に答えている程度だけでなく、パッセージが回答候補に言及している程度も判断するために、パッセージ・スコアを使用する。したがって、本明細書に記載のシステムおよび方法は、従来の設計および技術と比較してより効率的かつ正確に質問に対する複雑な回答のための補強証拠を生成することができる、改良された質問回答(QA)システムを提供する。
例えば、一実施形態は、質問に対する回答を生成するためのシステムを提供する。このシステムは、複数の質問用語を有する質問を受け取り、質問に対する複数の回答候補を特定するように構成された電子プロセッサを含み、複数の回答候補のそれぞれが複数の回答用語を含む。電子プロセッサは、複数の回答候補のそれぞれについて、複数の質問用語の1つまたは複数の質問用語のうちの少なくとも1つの質問用語と、回答候補に含まれる複数の回答用語のうちの1つまたは複数の回答用語とを含む補強証拠パッセージを判断するために、複数のデータ供給源を検索するようにさらに構成される。電子プロセッサは、スコアリング機構を使用して、複数の回答候補のそれぞれのための補強証拠パッセージのそれぞれにスコアを付けるようにも構成される。スコアリング機構は、複数の質問用語との補強証拠パッセージの第1の関連度を計算することと、複数の回答候補のうちの1つの回答候補の複数の回答用語との補強証拠パッセージの第2の関連度を計算することとを含む。スコアリング機構は、第1の関連度と第2の関連度とを結合することによって、補強証拠パッセージのスコアを求めることも含む。電子プロセッサは、複数の回答候補のそれぞれのための補強証拠パッセージのそれぞれにスコアを付けることに関連付けられたスコアに基づいて、質問に対する複数の回答候補をランク付けし、複数の回答候補のランク付けに基づいて質問に対する回答を提供するようにも構成される。
別の実施形態は、質問に対する回答を生成する方法を提供する。この方法は、複数の質問用語を有する質問を受け取ることと、質問に対する複数の回答候補を特定することとを含み、複数の回答候補のそれぞれが複数の回答用語を含む。この方法は、複数の回答候補のそれぞれについて、複数の質問用語の1つまたは複数の質問用語のうちの少なくとも1つの質問用語と、回答候補に含まれる複数の回答用語のうちの1つまたは複数の回答用語とを含む補強証拠パッセージを判断するために、複数のデータ供給源を検索することも含む。この方法は、スコアリング機構を使用して、複数の回答候補のそれぞれのための補強証拠パッセージのそれぞれにスコアを付けることも含み、スコアリング機構は、複数の質問用語との補強証拠パッセージの第1の関連度を計算し、複数の回答候補のうちの1つの回答候補の複数の回答用語との補強証拠パッセージの第2の関連度を計算し、第1の関連度と第2の関連度とを結合することによって、補強証拠パッセージのスコアを求める。この方法は、複数の回答候補のそれぞれのための補強証拠パッセージのそれぞれにスコアを付けることに関連付けられたスコアに基づいて質問に対する複数の回答候補をランク付けすることと、複数の回答候補のランク付けに基づいて質問に対する回答を提供することとをも含む。
別の実施形態は、電子プロセッサによって実行されると1組の機能を実行する命令を記憶する非一過性のコンピュータ可読媒体を提供する。この1組の機能は、複数の質問用語を有する質問を受け取ることと、複数の回答候補のそれぞれが複数の回答用語を含む、質問に対する複数の回答候補を特定することと、複数の回答候補のそれぞれについて、複数の質問用語の1つまたは複数の質問用語のうちの少なくとも1つの質問用語と、回答候補に含まれる複数の回答用語のうちの1つまたは複数の回答用語とを含む補強証拠パッセージを判断するために、複数のデータ供給源を検索することと、スコアリング機構を使用して、複数の回答候補のそれぞれのための補強証拠パッセージのそれぞれにスコアを付けることであって、スコアリング機構が、複数の質問用語との補強証拠パッセージの第1の関連度を計算し、複数の回答候補のうちの1つの回答候補の複数の回答用語との補強証拠パッセージの第2の関連度を計算し、第1の関連度と第2の関連度とを結合することによって補強証拠パッセージのスコアを求める、スコアを付けることと、複数の回答候補のそれぞれのための補強証拠パッセージのそれぞれにスコアを付けることに関連付けられたスコアに基づいて質問に対する複数の回答候補をランク付けすることと、複数の回答候補のランク付けに基づいて質問に対する回答を提供することとを含む。
本発明の他の態様は、詳細な説明および添付図面を熟読すれば明らかになるであろう。
ある実施形態による質問回答(QA)システムの概略図である。 ある実施形態による、図1のQAシステムに含まれるコンピューティング・デバイスを示すブロック図である。 ある実施形態による、図1のQAシステムのアーキテクチャを示すシステム図である。 ある実施形態による、図3のシステム図において示されるQAシステムの動作図である。 図1のQAシステムに含まれる文脈依存回答候補処理モジュールを示す図である。 ある実施形態による、図1のQAシステムによって実行される質問と回答候補とを処理する方法を示すフロー・チャートである。 ある実施形態による、QAシステムによって実行される質問に対する回答を生成するための図6の方法の詳細を示すフロー・チャートである。
1つまたは複数の実施形態について、以下の説明および添付図面で説明し、図示する。これらの実施形態は、本明細書に示す特定の詳細には限定されず、様々な方法で修正することができる。また、本明細書に記載されていない他の実施形態も存在し得る。また、本明細書で1つのコンポーネントによって実行されるものとして記載されている機能は、分散方式で複数のコンポーネントによって実行することもできる。同様に、複数のコンポーネントによって実行される機能が統合され、単一のコンポーネントによって実行されてもよい。同様に、特定の機能を実行するものとして記載されているコンポーネントが、本明細書に記載されていない追加の機能も実行してもよい。例えば、特定の方式で「構成され」ているデバイスまたは構造は、少なくともその方式で構成されるが、記載されていない方式でも構成され得る。また、本明細書に記載の一部の実施形態は、非一過性のコンピュータ可読媒体に記憶されている命令を実行することによって、記載されている機能を実行するように構成された1つまたは複数の電子プロセッサを含み得る。同様に、本明細書に記載の実施形態は、記載されている機能を実行するように1つまたは複数の電子プロセッサによって実行可能な命令を記憶する非一過性のコンピュータ可読媒体として実装することもできる。本願で使用されている「非一過性のコンピュータ可読媒体」は、あらゆるコンピュータ可読媒体を含むが、一過性の伝播する信号からなるものではない。したがって、非一過性のコンピュータ可読媒体は、例えば、ハード・ディスク、CD-ROM、光学式ストレージ・デバイス、磁気ストレージ・デバイス、ROM(読み取り専用メモリ)、RAM(ランダム・アクセス・メモリ)、レジスタ・メモリ、プロセッサ・キャッシュ、またはこれらの任意の組み合わせを含み得る。
また、本明細書で使用する語句および用語は、説明のためのものであり、限定的であるものと見なされるべきではない。例えば、「含む(including)」、「含有する(containing)」、「備える(comprising)」、「有する(having)」、および本明細書に記載のこれらの様々な変形は、その前に記載されているものおよびその均等物と、追加のものとを包含することを意図している。「接続されている」および「結合されている」という用語は、広義に使用されており、直接および関節的接合および結合の両方を包含する。また、「接続されている」および「結合されている」という用語は、物理的または機械的接続または結合には限定されず、直接と間接とを問わず、電気的接続または結合も包含し得る。また、電子通信および電子的通知は、有線接続、無線接続、またはこれらの組み合わせを使用して行うことができ、直接、または1つまたは複数の介在デバイスを介して様々な種類のネットワーク、通信チャネル、および接続により送信することができる。また、第1および第2、上部および下部などの関係語は、本明細書では単に、1つの実体または動作を他の実体または動作と区別するために使用されているに過ぎないことがあり、必ずしもそのような実体または動作間の実際のそのような関係または順序付けを必要も含意もしない。
また、以下の説明では、例示の実施形態の例示の実装形態を詳細に例示するためと、例示の実施形態の機構についての理解を助けるために、例示の実施形態の様々な要素の複数の様々な例を使用することを理解されたい。これらの例は、非限定的であることを意図しており、例示の実施形態の機構を実装するための様々な可能性を網羅することを意図していない。当業者には、本明細書に照らして、本発明の思想および範囲から逸脱することなく、本明細書に記載の例に加えてまたはそれらに代えて利用することができる、これらの様々な要素の多くの他の代替実装形態があることがわかるであろう。
全体像としては、質問回答システム(QA)は、自然言語で提示される所与の主題の領域に関連する質問に回答する(図2に示すような)、データ処理ハードウェア上で実行される人工知能アプリケーションである。QAシステムは、ネットワークを介した入力、電子文書またはその他のデータのコーパス、コンテンツ作成者からのデータ、1人または複数のコンテンツ・ユーザからの情報、およびその他のあり得る入力源からの他のこのような入力を含む、様々な供給源から入力を受け取る。データ・ストレージ・デバイスが、データのコーパスを記憶する。コンテンツ作成者は、QAシステムとともにデータのコーパスの一部として使用するための文書の内容を作成する。文書は、QAシステムで使用するための任意のファイル、テキスト、記事またはデータ供給源を含み得る。例えば、QAシステムは、領域または主題分野(例えば金融領域、医療領域、法律領域など)に関する知識体系にアクセスし、知識体系(知識ベース)は、オントロジーなどの領域固有情報の構造化リポジトリ、または領域に関連する非構造化データ、または領域に関する自然言語文書の集合などであるがこれらには限定されない、様々な構成で編成することができる。
コンテンツ・ユーザがQAシステムに質問を入力し、QAシステムがコーパス内の文書、文書の一部文、データの一部などを評価することによって、データのコーパス内の内容を使用してその入力された質問に答える。意味内容についての文書の所与の一部の評価時に、QAシステムからそのような文書のクエリを行うための様々な規定が使用されることがある(例えば、QAシステムに適格な質問としてクエリを送り、それが次にQAシステムによって解釈され、その質問に対する1つまたは複数の回答を含む応答が提供される)。意味内容とは、単語、句、符号、および記号などの記号表現と、それらが表すもの、その明示的意味、または含意との関係に基づく内容であり、言い換えると、意味内容とは自然言語処理を使用するなどして表現を解釈する内容である。
例えば、以下で詳述するように、QAシステムは、入力された質問を受け取り、その質問を構文解析して質問の主要な特徴を抽出し、抽出された特徴を使用してクエリを構築し、次にそれらのクエリをデータのコーパスに適用する。データのコーパスへのクエリの適用に基づいて、QAシステムはデータのコーパスで、データのコーパスのうちの入力された質問に対する有用な応答を含む何らかの可能性を有する部分を探すことによって、1組の推測、または入力された質問に対する回答候補を生成する。次に、QAシステムは、様々な推論アルゴリズムを使用して、入力された質問の言語と、クエリの適用時に見つかったデータのコーパスの部分のそれぞれにおいて使用されている言語との深い解析を行う。数百さらには数千もの適用可能な推論アルゴリズムがあり得、そのそれぞれが異なる解析、例えば、比較、自然言語解析、字句解析などを行い、スコアを生成する。例えば、推論アルゴリズムの中には、入力された質問の言語内の用語および同義語とデータのコーパスのうちの見つかった部分との一致を調べるものがある。別の推論アルゴリズムには、言語の時間的特徴または空間的特徴を調べるものがあり、また別のアルゴリズムは、データのコーパスの各部分の供給源を評価し、その正確さを評価するものがある。
様々な推論アルゴリズムから得られるスコアは、その推論アルゴリズムが対象としている特定の分野に基づいて、入力された質問によってあり得る応答が推測される程度を示す。ある実施形態では、次に、統計モデルに照らしてそれぞれの結果スコアに重み付けをする。統計モデルは、QAシステムのトレーニング期間中に特定の領域のための2つの類似したパッセージ間に推測を確立するにあたって推論アルゴリズムがいかに有効に機能するかを捉える。統計モデルは、あり得る応答すなわち回答候補が質問によって推測されるという証拠に関してQAシステムが有する信頼性のレベルを集計するために使用される。このプロセスは、他の回答候補よりも有意に強力であるものとして浮上した回答候補をQAシステムが特定するまで回答候補のそれぞれについて繰り返され、これにより、入力された質問に対する最終的回答またはランク付けされた1組の回答を生成する。
上述のように、QAシステムおよび機構は、データまたは情報のコーパスの情報にアクセスし、それを分析し、次にそのデータの解析に基づいて回答結果を生成することによって動作する。データのコーパスの情報へのアクセスは、典型的には、構造化レコードの集合内にあるものについての質問に答えるデータベース・クエリと、非構造化データ(テキスト、マークアップ言語など)の集合に対するクエリに応答して文書リンクの集合を出力する検索とを含む。従来の質問回答システムは、データのコーパスと入力された質問とに基づいて回答を生成し、データのコーパスについて質問の集合に対する回答を検証し、コーパス・データを使用してデジタル・テキストのエラーを訂正し、あり得る回答すなわち回答候補のプールから質問に対する回答を選択することができる。ある実施形態では、QAシステムは、本明細書に記載の機能を実行するように構成された、米国ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーションから入手可能なIBM Watson(TM)QAシステムを含み得る。QAシステム全般について上述したように、IBM Watson(TM)QAシステムは、入力された質問を受け取り、入力された質問を解析して質問の主要な特徴を抽出し、システムはそれらの主要な特徴を使用して、データのコーパスに適用されるクエリを構築する。データのコーパスへのクエリの適用に基づいて、システムは、データのコーパス全体で、入力された質問に対する有用な応答を含む何らかの可能性があるデータのコーパスの部分を探すことによって、1組の推測、または入力された質問に対する回答候補を生成する。IBM Watson(TM)QAシステムは、次に、様々な推論アルゴリズムを使用して、入力された質問の言語と、クエリの適用時に見つかったデータのコーパスの各部分のそれぞれで使用されている言語との深い解析を行う。次に、システムは、あり得る応答すなわち回答候補が質問によって推測されるという証拠に関する信頼性のレベルを集計する統計モデルに照らして、様々な推論から得られたスコアに重み付けしてもよい。このプロセスを回答候補のそれぞれについて繰り返して、入力された質問を出したユーザに対して提示することができる回答候補のランク付けされたリスト、またはその中から最終的回答が選択され、ユーザに提示される回答候補のランク付けされたリストを生成することができる。IBM Watson(TM)QAシステムに関する追加情報は、Yuan et al., "Watson and Healthcare," IBM developer Works,2011および"The era of Cognitive Systems: An inside Look at IBM Watson and How it works" by Rob High, IBM Readbooks 2012に記載されている。
図1は、ある実施形態による質問回答(QA)システム100の概略図である。QAシステム100は、1つまたは複数のコンピューティング・デバイス104と、ネットワーク102を介した電子文書のコーパス106とを含む。ネットワーク102は、QAシステム100がローカル環境とグローバル環境、例えばインターネットを含む、任意の規模の環境で動作することができるように、様々な実施形態でローカル・ネットワーク接続とリモート接続とを含む。
図2は、例示の実施形態の態様が実装されるコンピューティング・デバイス104のブロック図である。コンピューティング・デバイス104は、本発明の例示の実施形態のためのプロセッサを実装するコンピュータ使用可能コードまたは命令が配置された、図1に示すようなサーバまたはクライアントまたはユーザ・デバイスとすることができる。ある実施形態では、コンピューティング・デバイス104は、電子プロセッサ202と、メモリ204と、ユーザ・インターフェース210と、通信インターフェース212と、バス214とを含む。図2に示すように、メモリ204は、オペレーティング・システム206と、1つまたは複数のソフトウェア・プログラム208とを含むことができる。電子プロセッサ202は、メモリ204に記憶された1組の命令を解釈し、実行する、少なくとも1つのプロセッサまたはマイクロプロセッサを含み得る。電子プロセッサ202は、メモリ204に記憶されているソフトウェア・プログラム208内のコンピュータ可読命令(「ソフトウェア」)にアクセスし、実行する。ソフトウェアは、ファームウェア、1つまたは複数のアプリケーション、プログラム・データ、フィルタ、ルール、1つまたは複数のプログラム・モジュールおよびその他の実行可能命令を含み得る。例えば、ソフトウェアは、本明細書に記載の方法を含む1組の機能を実行するための命令およびそれに付随するデータを含むことができる。メモリ204は、読み取り専用メモリ(「ROM」)、ランダム・アクセス・メモリ(「RAM」)(例えばダイナミックRAM(「DRAM」)、シンクロナスDRAM(「SDRAM」)など)、電気的消去可能プログラマブル読み取り専用メモリ(「EEPROM」)、フラッシュ・メモリ、ハード・ディスク、セキュア・デジタル(「SD」)カード、その他の適合するメモリ・デバイス、またはこれらの組み合わせなど、非一過性のコンピュータ可読媒体を含む。メモリ204は、様々なコンポーネントが互い遠隔にあるが電子プロセッサ202によりアクセスすることができる、分散アーキテクチャを有してもよい。
ユーザ・インターフェース210は、タッチ・スクリーン、マウス、キーボード、コンピュータ画面、マイクロフォンなどの1つまたは複数のヒューマン-マシン・インターフェース(HM)を含み得る。通信インターフェース212は、コンピューティング・デバイス104に外部ネットワーク(例えば、無線ネットワーク、インターネットなど)との通信ゲートウェイを提供する。通信インターフェース212は、例えば、Ethernet(R)カードもしくはアダプタ、または無線ローカル・エリア・ネットワーク(WLAN)カードもしくはアダプタ(例えば、IEEE規格802.11a/b/g/n)を含み得る。通信インターフェース212は、外部ネットワーク上での適切な通信を可能にするために、アドレス接続、制御接続またはデータ接続あるいはこれらの組み合わせを含むことができる。
バス214またはその他のコンポーネント相互接続により、コンピューティング・デバイス104のコンポーネント間の接続を可能にすることができる。バス214は、例えば、当技術分野で知られているように、1つまたは複数のバスまたはその他の有線または無線接続とすることができる。図を簡単にするために省かれているが、バス214は、通信を可能にするために、コントローラ、バッファ(例えばキャッシュ)、ドライバ、リピータおよび受信器またはその他の同様のコンポーネントなどの追加の要素を有し得る。バス214は、上記のコンポーネント間での適切な通信を可能にするために、アドレス接続、制御接続、データ接続、またはこれらの組み合わせも含み得る。
図3に、ある実施形態によるQAシステム100(サーバ104)のアーキテクチャ300を示すシステム図を示す。図3に示すシステムは、回答供給源知識ベース21と、構造化および非構造化データの一次供給源11と、クエリ解析モジュール312と、回答候補生成モジュール325と、証拠収集モジュール(補強パッセージ取り出しモジュール340と、回答候補処理およびスコアリング・モジュール350とを含む)と、回答ランク付けモジュール360とを含む。図3に示すように、アーキテクチャ300は、ユーザ・クエリまたは質問を受け取り、解析するための機能を実装する質問解析モジュール312を含む。ある実施形態によると、「ユーザ」とは、システム100と対話する1人または複数の人物を指し、「ユーザ・クエリ」という用語は、ユーザによって提示されるクエリ(およびその文脈)19を指す。ただし、本明細書で使用する「ユーザ」という用語は、電子的手段によってクエリを生成するユーザ・デバイス110も指すことがあり、その場合、「ユーザ・クエリ」という用語は、そのような電子的に生成されるクエリを指す。回答候補生成モジュール325は、取り出されたデータの解析に基づいて、回答候補を含む複数の出力データ構造を生成する。証拠収集モジュール50は、並列処理動作として並列して、回答候補を有するパッセージに基づいて証拠を解析し、回答候補のそれぞれにスコアを付けるために、一次供給源11と知識ベース21とを含む電子文書のコーパス106とインターフェースする。
回答候補生成モジュール335の機能モジュールの実装の結果として、回答候補生成モジュール335は、クエリを生成し、(ローカルおよび分散)供給源データベースまたは同様のメモリ・ストレージ・デバイス内の構造化および非構造化一次データ供給源11に対してクエリを実行するように構成される。このクエリは、回答候補リスト39を生成するために、構造化(知識ベース)、または半構造化(例えばWikipedia、IMDBデータベース、XBRLで書かれたSEC提出文書の集合など)、または非構造化データ(テキスト・リポジトリ)に対して実行される。
ある実施形態では、図3のアーキテクチャは、共通解析システム(CommonAnalysis System(CAS))回答候補構造を使用することができ、本明細書で以下で詳述するように、補強パッセージ取り出しを実装することができる。この処理は図3に記載されており、証拠収集モジュール50は、パッセージの解析と回答候補のそれぞれのスコア付けとを並列処理動作として並列して行うための別々の処理モジュールとして、補強パッセージ取り出しモジュール340と回答候補処理およびスコアリング・モジュール350とを含む。回答供給源知識ベース21(図1に示す電子文書のコーパス106の部分)が、関係の集合(例えば型付きリスト)を含む(事前計算またはその他による)構造化または半構造化供給源の1つまたは複数のデータベースを含むことができる。例示の実装形態では、回答供給源知識ベース21は、メモリ・ストレージ・システム、例えばハード・ドライブに記憶されたデータベースを含み得る。回答ランク付けモジュール360が、回答候補にランク付けし、ユーザ・デバイス110ないし112によって提供されるディスプレイ・インターフェース(図示せず)を介してユーザに返される応答99を決定する機能を提供する。応答は、回答、または前の回答を精緻化した回答、または、質問に対する十分に適格な回答が見つからない場合は、質問に応答した明確化の要求であってもよい。
前述のように、本明細書に記載の実施形態は、解析エンジンおよび非構造化情報管理アプリケーションなどの、様々な非構造化情報管理アーキテクチャ(Unstructured Information Management Architecture(UIMA))コンポーネント間のデータ交換を扱うUIMAのサブシステムである共通解析システム(Common Analysis System(CAS))を使用することができる。CASは、プログラミング言語とは独立した型システムを介してデータ・モデリングをサポートし、高機能な索引付け機構によるデータ・アクセスを提供し、テキスト・データの注釈作成のサポートを提供する。CASは、画像、ビデオまたはその他の非テキスト形式の解析に有用であるように、文書とその注釈とのリンクの複数の定義も可能にする。
ある実施形態では、共通解析構造(CAS)型のデータ構造形態は、参照によりその内容および開示の全体が本明細書に記載されているかのように組み込まれる米国特許第7,139,752号に記載のように実装される。本明細書に記載のように、様々な基準に基づいてCAS型データ構造59で与えられるスコアを使用して回答候補のスコアを計算するために、複数の並列処理モジュールを実装することができる。例えば、基準は、回答が類似した語彙関係および意味関係を満たすか否か、回答とクエリとがいかによく対応しているか、用語がいかによく一致し、用語が同様の順序で存在しているかなどを考慮することができる。したがって、複数のモジュールを使用して異なる回答候補を処理し、したがって場合によっては可能なスコアリング・モジュールの数に応じて多数のスコアを与えることができることがわかるであろう。
図3に示すように、回答ランク付けモジュール360は、証拠収集モジュール50(補強パッセージ取り出しモジュール340と回答候補処理およびスコアリング・モジュール350とを含む)から出力される複数のCAS型データ構造59を受け取り、各回答候補のスコアを生成する。
図4は、ある実施形態による、図3に示すアーキテクチャの動作図300である。図4は、図3に示すシステム・コンポーネントへの入力として供給され、またはシステム・コンポーネントによる出力として生成されるデータ構造を定義するデータ・モデルも示す。図4に示すように、質問処理モジュール310が、例えばユーザによって、ユーザのウェブ・ベースのブラウザ・デバイスを介して入力された質問19を含む入力を受け取る。入力される質問19は、「金はなぜ高価であるか」などの文字列を含み得る。質問処理モジュール310は、質問解析モジュール312と検索エンジン314とを含む。検索エンジン314は、検索一次構造化および非構造化供給源、例えば、Google、またはWikipediaのローカル・コピー、またはデータベース・ルックアップを含み得る。検索エンジン314は、抽象クエリからエンジン固有のクエリを生成し、それを検索エンジンのためのクエリ構文にフォーマットし、次にそのクエリを処理し、検索結果ヒット・リストをCAS型データ構造に付加するクエリ・ジェネレータを有する。検索オブジェクトは、検索エンジン・クエリと、検索エンジンの識別子と、検索結果とを含む。図4に示すように、例示のCAS型データ構造内のデータは質問解析処理モジュール310の検索結果モジュールから出力され、並列して処理されることが可能である。回答候補の並列検索を開始するために、検索ヒットCASスプリッタ315を使用することができる。並列動作のために、見つかった検索結果のそれぞれを処理するためと回答候補生成モジュール325において本明細書に記載の技術を使用して回答候補生成を(並列で)行うためにモジュール320における並列検索結果処理が適用されるように(分割作業)、検索リスト(検索結果パッセージ)がCASスプリッタ315によって分配される。
検索結果処理モジュール320と回答候補生成モジュール325とから出力される(例示のCAS型データ構造39の)データは、補強パッセージ取り出しモジュール340への入力のために回答候補を並列化するのに使用される回答候補CASスプリッタ330で再び並列処理される。回答候補の各組について、各CAS型データ構造が1つまたは複数の回答候補を含むようにCAS型データ構造が別々のCAS型データ構造に分割されてよく、証拠収集モジュール50(補強パッセージ取り出しモジュール340と回答処理およびスコアリング・モジュール350とを含む)とに送られる。モジュール342で、補強パッセージが取り出される。候補CASスプリッタ330の後で機能が開始される。補強パッセージ取り出し342によって作成された補強パッセージ・レコードを補強パッセージ・スプリッタ344によって分割することができ、さらに、これらのレコードは多数ある可能性があるため、スプリッタ344はこれらの新たなCAS型データ構造を(前に計算されたすべての情報、すなわち文脈、クエリ、回答候補、補強パッセージとともに)回答処理およびスコアリング・モジュール350に送ることができる。
結果は、(他の要素も含むが特に)回答候補と質問用語と補強パッセージの3つの項目を含む、1つまたは複数のCAS型データ構造を含む。1つの質問につきこのようなCAS型データ構造が数千個生成され得るため、これらの候補は並列してスコアが付けられてもよい。一実施形態では、回答処理およびスコアリング・モジュール350によって行われる候補スコア付けは、文脈依存回答候補処理モジュール352(回答スコアがパッセージの文脈に依存する)と、文脈非依存回答候補処理モジュール354(パッセージとは独立して回答にスコアを付けることができる)の2つのクラスに分けることができる。例えば、回答候補が文書のタイトルから得られる場合、スコアはパッセージの内容に依存しない可能性があり、したがって文脈非依存である。それに対して、テキスト対応付け、文法関係、または語彙関係および意味関係に基づく他の種類の回答候補スコア付けは、クエリとパッセージとの比較を伴うことがあり、したがって文脈依存である。これらの方法のいくつかはパッセージにおける文法関係および意味関係の計算に依存し得るため、モジュール352での文脈依存回答候補処理の前に、(検索結果処理モジュール340での検索結果処理で)検索結果が処理されてもよい。
回答処理およびスコアリング・モジュール350の結果は、CAS型データ構造を使用して保存される。回答ランク付けおよび処理360時に、回答候補の特徴を集約し、マージすることができ、最終回答候補スコアリング機能を適用して、ユーザに提供される最終スコアを生成することができる。
図5は、ある実施形態による図4に示す文脈依存回答候補処理ブロック352のブロック図である。図5に示すように、文脈依存回答候補処理モジュール352は、検索結果処理モジュール340からクエリ用語と回答候補用語とを受け取る。文脈依存回答候補処理ブロック352は、出力をマージおよびランク付けブロック360に提供する。ある実施形態では、文脈依存回答候補処理ブロック352は、パッセージ用語質問回答(QA)突き合わせモジュール402と、単語埋め込み意味QA突き合わせモジュール404と、トピック・ラベルQA突き合わせモジュール406と、変換メトリックQA突き合わせモジュール408と、統計QA突き合わせモジュール410とを含む。
ある実施形態では、パッセージ用語QA突き合わせモジュール402は、質問19内の質問用語の一致スコアを計算し、回答候補39内の回答候補用語の一致スコアを別に計算し、次に(例えば乗算するかまたは調和平均をとることによって)2つのスコアを結合するスコアラを含む。ある実施形態では、パッセージ用語QA突き合わせモジュール402は、質問19の焦点からかけ離れている質問用語を無視するように構成される。ある実施形態では、パッセージ用語QA突き合わせモジュール402は、任意の用語の対の一致度を評価するために、分布意味論を使用して用語の意味的な類似度を判定する。
ある実施形態では、単語埋め込み意味QA突き合わせモジュール404は、パッセージと質問と回答候補のそれぞれを、単語埋め込みの空間内の集約用語ベクトルとして表し、それらの集約用語ベクトルにわたる距離メトリックを計算することによって、質問19のためと回答候補39のためのパッセージの意味的スコアを別々に計算するスコアラを含む。ある実施形態では、2つのスコアは(例えば、乗算によってまたは調和平均をとることによって)結合される。一実施形態では、スコアラは距離メトリックとしてコサインを使用する。別の実施形態では、スコアラは、WMD(word mover's distance)を距離メトリックとして使用する。ある実施形態では、スコアラは、参照により本明細書に記載されているかのように組み込まれる、Lidan Wang, Ming Tan, and Chin-Yew Lin. "News Citation Recommendation with Implicit and Explicit Semantics." Association of Computational Linguistics (ACL) 2016のSection 3.3に記載されているようなプーリングおよび類似度計算を使用する。ある実施形態では、スコアラは、参照により本明細書に記載されているかのように組み込まれる、European Chapter of ACL 2017に提出されたDheeraj Mekala, Vivek Gupta, Harish Karnick, "Words are not Equal: Graded Weighting Model for building Composite Document Vectors,"のSection 3.2.1に記載されている用語重み付け方式を使用する。
図6は、ある実施形態による、質問と回答候補を処理する方法500を示すフロー・チャートである。方法500は、図3および図4に示すアーキテクチャを使用するなどして、QAシステム100によって実行可能である。図6に示すように、質問19と回答候補39が与えられると、方法500はキーワード検索クエリを生成することを含む(ブロック510)。ブロック510の出力は、キーワード検索クエリを使用してクエリを実行するブロック520に提供される。QAシステムは、キーワード・クエリに基づいて、電子文書のコーパス106から(例えば補強パッセージ取り出し340を使用して)パッセージを取り出すように構成される(ブロック530)。ブロック530の出力は、回答処理およびスコアリング・モジュール350での回答処理のためにパッセージを提供するブロック540に提供される。ブロック530の出力は、文脈依存回答候補処理を実行するブロック540に提供される。ブロック540の出力は、回答候補のマージとランク付けとを行うブロック550に提供される。
図7は、ある実施形態による、文脈依存回答候補処理を使用して質問に対する回答を生成する方法500のさらなる詳細を示すフロー・チャートである。ブロック610で、方法500は質問処理モジュール310で複数の質問用語を有する質問19を受け取ることを含む。ブロック620で、方法500は、回答候補生成モジュール325を使用して質問19に対する複数の回答候補を特定することを含み、特定される回答候補のそれぞれはいくつかの回答用語を含む。いくつかの回答候補のそれぞれについて、方法500は、複数の質問用語の1つまたは複数の質問用語のうちの少なくとも1つの質問用語と、回答候補に含まれる複数の回答用語のうちの1つまたは複数の回答用語とを含む補強証拠パッセージを判断するために、コーパス・データ106を検索することを含む(ブロック630)。ある実施形態では、方法500は、質問と回答候補とを使用してキーワード検索クエリを生成することを含み、オプションとして質問内と回答候補内の用語のすべてがタグ付けされる。ある実施形態では、質問処理モジュール310からのキーワード検索クエリを使用してデータのコーパス106から複数の証拠パッセージが取り出される。
ある実施形態では、方法500は、各補強証拠パッセージについて1組のパッセージ・スコアラを反復適用することを含む。方法500は、代替回答が回答候補と一致するように代替回答の裏付けとして補強証拠パッセージが質問に答えるとパッセージ・スコアラのそれぞれが判断する程度に対してスコアを付けることをさらに含む。ある実施形態では、1組のパッセージ・スコアラのスコアラごとに、補強証拠パッセージのスコアが、そのパッセージ・スコアラの代替回答の最終決定を示す1つの最終スコアに統合される。一実施例では、補強証拠パッセージのスコアは、スコアを合計するかまたはスコアの最大値をとることによって結合される。ある実施形態では、方法500は、質問に基づくパッセージの意味スコアと、回答候補に基づくパッセージの別の意味スコアとを計算することを含む。一実施例では、方法500は距離メトリックとしてコサインを使用して両方の意味スコアを結合することを含む。別の実施例では、方法500は、距離メトリックとしてWMD(word mover's distance)を使用して両方の意味スコアを結合することを含む。ある実施形態では、パッセージ・スコアラは、BLEUメトリック・スコアまたはRougeメトリック・スコアのうちの少なくとも一方を使用して、質問および回答候補との1組のパッセージの類似度を計算する。BLEUメトリック・スコアについては、参照により本明細書に記載されているかのように組み込まれる、Papineni et al. BLEU: a method for automatic evaluation of machine translation, ACL 2012に記載されている。Rougeメトリック・スコアについては、参照により本明細書に記載されているかのように組み込まれる、Chin-Yew Lin, Rouge: A package for automatic evaluation of summaries. In Workshop of Text summarization branches out, 2004に記載されている。ある実施形態では、パッセージ・スコアラは、パッセージを質問と回答候補とに関係づけるために、自動的にラベル付けされたトピックを使用する。パッセージ、質問および回答は、それぞれの本旨を捉えるトピックによって自動的にラベル付けされる。トピック・ラベルは、例えばWikipediaおよびその他のコーパス資源から計算された、または潜在的ディリクレ配分(Latent Dirichlet Allocation(LDA))法によって得られた単語および文書埋め込みからなど、様々な方法で自動的に生成することができる。LDA法については、参照により本明細書に記載されているかのように組み込まれる、David M. Blei, Michael I. Jordan, Thomas L. Griffiths, and Jushua B.Tenenbaum, (2003), "Hierarchical topic models and the nested Chinese restaurant process," in Proceedings of the 16th International Conferenceon Neural Information Processing Systems (NIPS'03)およびS.Thrun, L. K. Saul, and B. Schlolkopf (Eds.) MIT Press, Cambridge, MA. USA,17-24 2004に記載されている。
ある実施形態では、方法500は、パッセージ内のトピック用語の、質問および回答候補内のトピック用語との重複を評価する(例えば厳密な一致を探す)ことによって、パッセージの一致スコアを計算することをさらに含む。トピック用語重複スコアは、質問と回答候補とで別々に計算され、(例えば乗算によって、または調和平均をとることによって)最終スコアのために互いに結合される。
ある実施形態では、方法500は、2つの短いテキスト間の類似度を計算することをさらに含む。質問とそれらの質問に対する既知の正しい回答との対を使用してモデルがトレーニングされる。このモデルを使用して、質問と補強パッセージとの類似度を計算することができる。このモデルを使用して、回答候補と補強パッセージとの類似度を計算することもできる。次に、この2つの類似度スコアが(乗算によってまたは調和平均をとることによって)結合される。
ある実施形態では、方法500は、複数の質問用語と複数の回答用語のそれぞれの一致スコアを計算することと、複数の質問用語と複数の回答用語のそれぞれについて得られた一致スコアを結合することとをさらに含む。ある実施形態では、一致スコアを結合することは、複数の質問用語と複数の回答用語の一致スコアを乗算することを含む。ある実施形態では、一致スコアを結合することは、複数の質問用語の一致スコアと複数の回答用語の一致スコアとの調和平均を求めることを含む。
方法500は、スコアリング機構を使用して複数の回答候補のそれぞれのための補強証拠パッセージのそれぞれにスコアを付けることをさらに含む(ブロック640)。ある実施形態では、スコアリング機構は、複数の質問用語との補強証拠パッセージの第1の関連度を計算し、複数の回答候補のうちの1つの回答候補の複数の回答用語との補強証拠パッセージの第2の関連度も計算する。ある実施形態では、方法500は、用語の語彙的近似と、分布意味論と、統計モデルとからなるグループから選択された1つまたは複数の重み付けを使用して、第1の関連度と第2の関連度とを求めることを含む。ある実施形態では、方法500は、第1の関連度と第2の関連度とを結合することによって補強証拠パッセージのスコアを求めることを含む。
方法500は、複数の回答候補のそれぞれのための補強証拠パッセージに関連付けられたスコアに基づいて、質問に対する複数の回答候補にランク付けすることも含む(ブロック650)。ブロック660で、方法は、複数の回答候補のランク付けに基づいて質問19に対する回答を提供することを含む。ある実施形態では、方法500は、各質問用語の重みを計算し、パッセージ内で見つかった各質問用語の重みの和をすべての質問用語の重みの和で割ることによって、パッセージの一致スコアを求めることを含む。
本明細書に示す方法500は、QAシステム100を使用して質問に対する回答を決定することを可能にする。上述のように、QAシステム100は、いくつかの質問用語を有する質問19を受け取り、それぞれがいくつかの回答用語を有する回答候補を特定する。QAシステム100は、電子文書のコーパス106で、質問用語のうちの1つまたは複数の質問用語と回答用語のうちの1つまたは複数の回答用語とに関連する補強証拠パッセージを検索するように構成される。QAシステム100は、質問用語の関連度の計算値を回答用語の関連度の計算値と結合するスコアリング・アルゴリズムを使用して補強証拠パッセージにスコアを付けるようにさらに構成される。QAシステム100は、質問に対するあり得る回答にスコアを付け、ランク付けし、モジュール360で実行されるスコア付けおよびランク付けに基づいて質問に対する回答を提供するようにさらに構成される。
様々な特徴および利点については、添付の特許請求の範囲に記載されている。

Claims (18)

  1. 質問に対する回答を生成する方法であって、
    電子プロセッサによって、複数の質問用語を有する質問を受け取るステップと、
    前記電子プロセッサによって、複数の回答候補のそれぞれが複数の回答用語を含む、前記質問に対する前記複数の回答候補を特定するステップと、
    前記複数の回答候補のそれぞれについて、前記質問と前記回答候補を使用してキーワード検索クエリを生成し、当該キーワード検索クエリを使用して、前記複数の質問用語のうちの1つまたは複数の質問用語のうちの少なくとも1つの質問用語と、前記回答候補に含まれる前記複数の回答用語のうちの1つまたは複数の回答用語とを含む補強証拠パッセージを複数のデータ供給源から検索するステップと、
    前記電子プロセッサによって、スコアリング機構を使用して、前記複数の回答候補のそれぞれのための前記補強証拠パッセージのそれぞれにスコアを付けるステップであって、前記スコアリング機構は、前記複数の質問用語との前記補強証拠パッセージの第1の関連度を計算し、前記複数の回答候補のうちの1つの回答候補の前記複数の回答用語との前記補強証拠パッセージの第2の関連度を計算し、前記第1の関連度と前記第2の関連度とを結合することによって前記補強証拠パッセージのスコアを求める、前記スコアを付けるステップと、
    前記電子プロセッサによって、前記複数の回答候補のそれぞれのための前記補強証拠パッセージのそれぞれにスコアを付けることに関連付けられた前記スコアに基づいて、前記質問に対する前記複数の回答候補にランク付けするステップと、
    前記複数の回答候補のランク付けに基づいて前記質問に対する回答を提供するステップと
    を含む、方法。
  2. 前記質問と前記回答候補とを使用してキーワード検索クエリを生成する際に、オプションとして前記質問に含まれる前記質問用語と前記回答候補に含まれる前記回答用語のすべてがタグ付けされる、請求項1に記載の方法。
  3. 用語の語彙近接と、分散意味論と、統計モデルとからなるグループから選択された1つまたは複数の重み付けを使用して前記第1の関連度と前記第2の関連度とを求めるステップをさらに含む、請求項2に記載の方法。
  4. 前記補強証拠パッセージのそれぞれについて1組のパッセージ・スコアラを反復適用するステップと、
    前記補強証拠パッセージが代替回答の裏付けとして前記質問に回答すると前記パッセージ・スコアラのそれぞれが判断する程度に対してスコアを付けるステップであって、前記代替回答が前記回答候補と一致する、前記スコアを付けるステップと
    をさらに含む、請求項3に記載の方法。
  5. 前記複数の質問用語の第1の一致スコアを計算するステップと、
    前記複数の回答用語の第2の一致スコアを計算するステップと、
    前記第1の一致スコアと前記第2の一致スコアとを結合するステップと
    をさらに含む、請求項1に記載の方法。
  6. 前記キーワード検索クエリを使用してデータのコーパスから前記複数の補強証拠パッセージを取り出すステップをさらに含む、請求項2に記載の方法。
  7. 前記補強証拠パッセージのそれぞれについて1組のパッセージ・スコアラを反復適用するステップと、
    前記補強証拠パッセージが代替回答の裏付けとして前記質問に回答すると前記パッセージ・スコアラのそれぞれが判断する程度に対してスコアを付けるステップであって、前記代替回答が前記回答候補と一致する、前記スコアを付けるステップと
    をさらに含む、請求項6に記載の方法。
  8. 各質問用語の重みを計算し、パッセージ内で見つかった各質問用語の重みの和をすべての前記質問用語の重みの和で割ることによって、前記パッセージの一致スコアを求めるステップをさらに含む、請求項7に記載の方法。
  9. 前記1組のパッセージ・スコアラのそれぞれについて、前記補強証拠パッセージの前記スコアを、当該パッセージ・スコアラの前記代替回答についての最終決定を示す1つの最終スコアに結合するステップをさらに含む、請求項7に記載の方法。
  10. 前記補強証拠パッセージの前記スコアを合計することと前記スコアの最大値をとることとのうちの少なくとも一方によって、前記補強証拠パッセージの前記スコアを結合するステップをさらに含む、請求項9に記載の方法。
  11. 前記第1の一致スコアと前記第2の一致スコアとを乗算することによって前記第1の一致スコアと前記第2の一致スコアとを結合するステップをさらに含む、請求項5に記載の方法。
  12. 前記第1の一致スコアと前記第2の一致スコアとの調和平均を求めることによって前記第1の一致スコアと前記第2の一致スコアとを結合するステップをさらに含む、請求項5に記載の方法。
  13. パッセージの第1の意味スコアを計算するステップであって、前記第1の意味スコアが前記質問に関連付けられている、前記第1の意味スコアを計算するステップと、
    前記パッセージの第2の意味スコアを計算するステップであって、前記第2の意味スコアが前記回答候補に関連付けられている、前記第2の意味スコアを計算するステップと、
    前記第1の意味スコアと前記第2の意味スコアとを結合するステップと
    をさらに含む、請求項7に記載の方法。
  14. 距離メトリックとしてコサインを使用して前記第1の意味スコアと前記第2の意味スコアとを結合するステップをさらに含む、請求項13に記載の方法。
  15. 距離メトリックとしてWMD(word mover's distance)を使用することによって前記第1の意味スコアと前記第2の意味スコアとを結合するステップをさらに含む、請求項13に記載の方法。
  16. 前記パッセージ・スコアラが、前記質問および前記回答候補との1組のパッセージの類似度を計算するために、BLEUメトリック・スコアまたはRougeメトリック・スコアのうちの少なくとも一方を使用する、請求項7に記載の方法。
  17. 請求項1ないし16のいずれかに記載の方法のすべてのステップを実行するようになされた手段を含むシステム。
  18. コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータ・システム上で実行されると、請求項1ないし16のいずれかに記載の方法のすべてのステップを実行するための命令を含むコンピュータ・プログラム。
JP2020531498A 2017-12-15 2018-12-12 複雑な回答の補強証拠取り出し Active JP7232831B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/844,289 2017-12-15
US15/844,289 US10810215B2 (en) 2017-12-15 2017-12-15 Supporting evidence retrieval for complex answers
PCT/IB2018/059929 WO2019116253A1 (en) 2017-12-15 2018-12-12 Supporting evidence retrieval for complex answers

Publications (2)

Publication Number Publication Date
JP2021507350A JP2021507350A (ja) 2021-02-22
JP7232831B2 true JP7232831B2 (ja) 2023-03-03

Family

ID=66816033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020531498A Active JP7232831B2 (ja) 2017-12-15 2018-12-12 複雑な回答の補強証拠取り出し

Country Status (6)

Country Link
US (1) US10810215B2 (ja)
JP (1) JP7232831B2 (ja)
CN (1) CN111417940B (ja)
DE (1) DE112018006345T5 (ja)
GB (1) GB2581464A (ja)
WO (1) WO2019116253A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891352B1 (en) * 2018-03-21 2021-01-12 Optum, Inc. Code vector embeddings for similarity metrics
US10978189B2 (en) 2018-07-19 2021-04-13 Optum, Inc. Digital representations of past, current, and future health using vectors
US11429834B1 (en) * 2018-09-07 2022-08-30 Intuit, Inc. Neural-based agent assistance interface for providing answers based on a query vector
JP7216199B2 (ja) * 2019-05-20 2023-01-31 株式会社Nttドコモ 対話システム
US11379670B1 (en) * 2019-09-30 2022-07-05 Splunk, Inc. Automatically populating responses using artificial intelligence
US11314950B2 (en) * 2020-03-25 2022-04-26 International Business Machines Corporation Text style transfer using reinforcement learning
US20230195723A1 (en) * 2020-05-20 2023-06-22 Nippon Telegraph And Telephone Corporation Estimation apparatus, learning apparatus, estimation method, learning method and program
CN111694927B (zh) * 2020-05-22 2023-07-21 电子科技大学 一种基于改进词移距离算法的文档自动评阅方法
US11880661B2 (en) 2021-03-26 2024-01-23 International Business Machines Corporation Unsupervised dynamic confidence thresholding for answering questions
CN115552393A (zh) * 2021-04-29 2022-12-30 京东方科技集团股份有限公司 一种问答处理方法、装置、电子设备和计算机可读存储介质
CN114461889B (zh) * 2022-02-09 2023-04-25 北京百度网讯科技有限公司 数据搜索的方法、装置、电子设备及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2005025418A (ja) 2003-06-30 2005-01-27 Toshiba Corp 質問応答装置、質疑応答方法及びプログラム
JP2011096196A (ja) 2009-11-02 2011-05-12 Waki Pharmaceutical Co Ltd 配置用薬剤の情報提供システム、及び、それを用いた配置用薬剤提供システム
US20130290370A1 (en) 2010-09-24 2013-10-31 International Business Machines Corporation Method and process for semantic or faceted search over unstructured and annotated data
US20150039536A1 (en) 2013-08-01 2015-02-05 International Business Machines Corporation Clarification of Submitted Questions in a Question and Answer System
JP2016045652A (ja) 2014-08-21 2016-04-04 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
US20160125013A1 (en) 2014-11-05 2016-05-05 International Business Machines Corporation Evaluating passages in a question answering computer system
US20170011116A1 (en) 2015-07-07 2017-01-12 Google Inc. Generating elements of answer-seeking queries and elements of answers

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0029287D0 (en) 2000-11-30 2001-01-17 Ebbon Dacs Ltd Improvements relating to information systems
US6654764B2 (en) 2001-11-15 2003-11-25 International Business Machines Corporation Systems, methods, and computer program products to interpret, explain, and manipulate exceptions in multidimensional data
CA2429909A1 (en) 2003-05-27 2004-11-27 Cognos Incorporated Transformation of tabular and cross-tabulated queries based upon e/r schema into multi-dimensional expression queries
US7865375B2 (en) 2003-08-28 2011-01-04 Cerner Innovation, Inc. System and method for multidimensional extension of database information using inferred groupings
US20060053000A1 (en) * 2004-05-11 2006-03-09 Moldovan Dan I Natural language question answering system and method utilizing multi-modal logic
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US9317586B2 (en) * 2010-09-28 2016-04-19 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
CN103870528B (zh) * 2012-12-17 2018-04-17 东方概念有限公司 深度问题回答系统中的问题分类和特征映射的方法和系统
US9621601B2 (en) * 2013-03-29 2017-04-11 International Business Machines Corporation User collaboration for answer generation in question and answer system
US9558263B2 (en) * 2013-12-05 2017-01-31 International Business Machines Corporation Identifying and displaying relationships between candidate answers
WO2015180175A1 (zh) * 2014-05-30 2015-12-03 华为技术有限公司 一种下行控制信息的发送、接收方法和设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132811A (ja) 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2005025418A (ja) 2003-06-30 2005-01-27 Toshiba Corp 質問応答装置、質疑応答方法及びプログラム
JP2011096196A (ja) 2009-11-02 2011-05-12 Waki Pharmaceutical Co Ltd 配置用薬剤の情報提供システム、及び、それを用いた配置用薬剤提供システム
US20130290370A1 (en) 2010-09-24 2013-10-31 International Business Machines Corporation Method and process for semantic or faceted search over unstructured and annotated data
US20150039536A1 (en) 2013-08-01 2015-02-05 International Business Machines Corporation Clarification of Submitted Questions in a Question and Answer System
JP2016045652A (ja) 2014-08-21 2016-04-04 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
US20160125013A1 (en) 2014-11-05 2016-05-05 International Business Machines Corporation Evaluating passages in a question answering computer system
US20170011116A1 (en) 2015-07-07 2017-01-12 Google Inc. Generating elements of answer-seeking queries and elements of answers

Also Published As

Publication number Publication date
DE112018006345T5 (de) 2020-08-27
CN111417940B (zh) 2023-11-14
US20190188271A1 (en) 2019-06-20
US10810215B2 (en) 2020-10-20
GB202009777D0 (en) 2020-08-12
JP2021507350A (ja) 2021-02-22
WO2019116253A1 (en) 2019-06-20
CN111417940A (zh) 2020-07-14
GB2581464A (en) 2020-08-19

Similar Documents

Publication Publication Date Title
JP7232831B2 (ja) 複雑な回答の補強証拠取り出し
US11132370B2 (en) Generating answer variants based on tables of a corpus
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US11042794B2 (en) Extensible validation framework for question and answer systems
US10095740B2 (en) Selective fact generation from table data in a cognitive system
US9715531B2 (en) Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
US10140272B2 (en) Dynamic context aware abbreviation detection and annotation
US20170177675A1 (en) Candidate Answer Generation for Explanatory Questions Directed to Underlying Reasoning Regarding the Existence of a Fact
US9542496B2 (en) Effective ingesting data used for answering questions in a question and answer (QA) system
US10642874B2 (en) Using paraphrase metrics for answering questions
US9720962B2 (en) Answering superlative questions with a question and answer system
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US10372822B2 (en) Automated timeline completion using event progression knowledge base
JP2023507286A (ja) 自然言語クエリを構造化クエリ言語に変換するためのスキーマ注釈ファイルの自動作成
US20170371956A1 (en) System and method for precise domain question and answer generation for use as ground truth
US20170140289A1 (en) Automatically Assessing Question Answering System Performance Across Possible Confidence Values
Das et al. A novel approach for automatic Bengali question answering system using semantic similarity analysis
US11544312B2 (en) Descriptor uniqueness for entity clustering
US11574017B2 (en) Sub-question result merging in question and answer (QA) systems
JP2012243130A (ja) 情報検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210525

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230220

R150 Certificate of patent or registration of utility model

Ref document number: 7232831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150