JP2013543172A

JP2013543172A - 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム

Info

Publication number: JP2013543172A
Application number: JP2013530286A
Authority: JP
Inventors: ファン、ジェイムズ、ジェイ; フェルッチ、デイヴィッド、エイ; ゴンデック、デイヴィッド、シー; カルヤンプール、アディティヤ、エイ; ラリー、アダム、ピー; マードック、ザ、フォース、ジェイムズ、ダブリュ; ザドロズニ、ウロデク、ダブリュ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-24
Filing date: 2011-09-21
Publication date: 2013-11-28
Anticipated expiration: 2031-09-21
Also published as: CN103221952A; US20160005324A1; US20120078890A1; WO2012040350A1; JP5816936B2; US8600986B2; US9805613B2; CA2812338C; US8510296B2; US20120323906A1; EP2616974A1; EP2616974A4; CA2812338A1; US20160005325A1; US9240128B2; CN103221952B; US20120077178A1; US9965971B2

Abstract

【課題】得られた候補解答についてより正確な全体スコアを提供するために検出されたＬＡＴの信頼性を自動的に推定するためのシステム、方法、およびコンピュータ・プログラム製品を提供する。
【解決手段】それぞれの検出ＬＡＴの信頼「スコア」または値を入手し、このシステムおよび方法は、この信頼スコアを、ＬＡＴと候補解答の解答タイプとの一致度と結合して、候補解答について改善された全体スコアを提供することを実行する。
【選択図】図１

Description

関連出願の相互参照
本発明は、２０１０年９月２４日に出願され、本願所有者が所有する同時係属米国特許仮出願第６１／３８６，０２９号に関し、その出願日の恩恵を請求するものである。

質問解答（ＱＡ）に関する現在の課題および手法の紹介は、Ｗｅｂベースの参考文献であるhttp://en.wikipedia.org/wiki/Question_answeringで見つけることができる。一般に、ＱＡはあるタイプの情報検索である。文書の集合（ＷｏｒｌｄＷｉｄｅＷｅｂまたはローカル・コレクションなど）の場合、システムは自然言語で提起された質問に対する解答を検索することができなければならない。ＱＡは、文献検索など、その他のタイプの情報検索より複雑な自然言語処理（ＮＬＰ）技法を必要とするものと見なされ、ときには、検索エンジンを越える次のステップと見なされる。

ＱＡリサーチは、事実、リスト、定義、方法、理由、仮説、意味上の制約付き、および言語横断の質問を含む、広範囲の質問タイプを扱おうと試みる。検索集合は、小規模なローカル文書の集合から、内部組織文書、まとめられたニュースワイヤ・レポート、ＷｏｒｌｄＷｉｄｅＷｅｂまで様々である。

クローズド・ドメインのＱＡは、特定のドメイン、たとえば、医学または自動車のメンテナンスに属する質問を扱うものであり、オントロジにおいて頻繁に形式化されたドメイン固有の知識をＮＬＰシステムが活用できるので、より容易なタスクと見なすことができる。オープン・ドメインのＱＡは、ほとんどすべてのことに関する質問を扱うものであり、一般的なオントロジおよび対象世界に関する知識のみを頼りにすることができる。これに対して、これらのシステムは通常、そこから解答を抽出するために使用可能なデータをそれ以上に持っている。

代わって、クローズド・ドメインのＱＡは、手続き情報ではなく記述的情報を要求する質問など、限られたタイプの質問のみが受け入れられる状況に関する可能性がある。

情報へのアクセスは、現在、２つのパラダイムによって支配されている。第１に、構造化レコードの集合に含まれるものに関する質問に応答するデータベース照会である。第２に、たとえば、テキストまたはｈｔｍｌなどの非構造化データの集合に対する照会に応答して文書リンクの集合を配信する検索である。

このような情報照会パラダイムにおける主な未解決の問題は、構造化、非構造化、またはその両方になり得る文書の集合に含まれる情報に基づいて、事実に基づく質問に正確に応答できるコンピュータ・プログラムの欠如である。このような事実に基づく質問は、「ビタミンＫの欠乏によるリスクは何か」などの広いものまたは「ヒラリー・クリントンの父親はいつどこで生まれたか」などの狭いもののいずれかになる可能性がある。

照会を理解すること、解答を含む可能性のある適切な文書を見つけること、ならびにユーザに配信すべき正しい解答を抽出することは、難題である。

米国特許仮出願第６１／３８６，０２９号米国特許出願第１２／１２６，６４２号米国特許第７，１３９，７５２号米国特許出願第１２／１５２，４４１号米国特許第６，８２９，６０３号米国特許第６，９８３，２５２号米国特許第７，１３６，９０９号

１９９７年マグローヒル社発行でTomMitchellによる「Machine Learning」２０００年ケンブリッジ大学出版局発行でJohn Shawe-TaylorおよびNello Cristianiniによる「Support Vector Machines and other kernel-based learning methods」１９９６年３月ComputationalLinguistics Journal第２２巻第１刷に公表されたAdam L. Berger他による「A maximum entropy approach to natural language processing」

一態様では、質問解答を実行し、特定の照会について間違ったＬＡＴを計算するという問題に対処する、コンピューティング・インフラストラクチャおよび方法が提供される。

一態様では、候補解答（candidate answer）についてより正確な全体スコア（overall score）を提供するために照会検出ＬＡＴの信頼性を自動的に推定する、システム、方法、およびコンピュータ・プログラム製品（computer program product）が提供される。それぞれの検出ＬＡＴの信頼「スコア」または値を入手し、このシステムおよび方法は、この信頼スコア（confidence score）を、ＬＡＴと候補解答との一致度（degree ofmatch）と結合して、候補解答について改善された全体スコアを提供することを実行する。

したがって、一態様では、質問に対する解答を自動的に生成するためのシステムおよび方法が提供される。この方法は、入力照会に関連する字句解答タイプ（ＬＡＴ：lexical answer type）を決定することと、入力照会ＬＡＴに関する第１のスコアを計算することであって、第１のスコアが照会ＬＡＴの品質を示すことと、情報源から入力照会に対する候補解答を入手することと、候補解答に関する解答タイプ（ＡＴ：answer type）を決定することと、照会ＬＡＴと候補解答ＡＴを比較することと、比較した照会ＬＡＴと候補解答ＡＴとの一致度を表す第２のスコアを計算することと、第１のスコアと第２のスコアを結合して、候補解答の品質を示す合計スコア（total score）を提供することを含み、処理装置が、照会ＬＡＴを決定することと、第１および第２のスコアを計算することと、候補解答を入手することと、ＡＴを決定することと、比較することと、結合することのうちの１つまたは複数を自動的に実行する。

一態様では、入力照会に関連する照会ＬＡＴに関する第１のスコアを計算することが、決定された照会ＬＡＴを記述する特徴（feature）のセットを抽出することと、特徴セットにモデルを適用して、決定された照会ＬＡＴの推定正確度（estimated accuracy）を表すＬＡＴ信頼値を生成することであって、第１のスコアが信頼値を含むことを含む。

他の一態様では、質問に対する解答を自動的に生成するためのシステムであって、メモリ・ストレージ・デバイスと、それぞれがメモリ・デバイスに通じていて、入力照会に関連する字句解答タイプ（ＬＡＴ）を決定することと、照会ＬＡＴに関する第１のスコアを計算することであって、第１のスコアが照会ＬＡＴの品質を示すことと、情報源から入力照会に対する候補解答を入手することと、候補解答に関する解答タイプ（ＡＴ）を決定することと、照会ＬＡＴと候補解答ＡＴを比較することと、比較した照会ＬＡＴと候補解答ＡＴとの一致度を表す第２のスコアを計算することと、第１のスコアと第２のスコアを結合して、候補解答の品質を示す合計スコアを提供することを含む方法を実行するために構成された１つまたは複数のプロセッサ・デバイスとを含む、システムが提供される。

さらに他の一態様では、テキスト・ストリングを含む照会から特徴を抽出するための方法が提供される。この方法は、照会に関連する構文パターン・ルールを識別することであって、そのパターン・ルールが共通字句解答タイプ（ＬＡＴ）を定義する１組のパターン・ルールから識別され、抽出された特徴のうちの第１の特徴が識別されたパターン・ルールを含むことと、検出された字句解答タイプ（ＬＡＴ）の前のインスタンスについてチェックし、前のインスタンスに基づいてＬＡＴワード頻度（LAT word frequency）を計算することであって、抽出された特徴のうちの第２の特徴が照会ワードが候補ＬＡＴである算出頻度を含むことと、照会に関連する解析木データ構造（parse tree data structure）を入手することと、解析木構造内の候補ＬＡＴに関連するワード間の文法関係を識別することであって、抽出された特徴のうちの第３の特徴が候補ＬＡＴの品詞（part of speech）を含むことと、候補ＬＡＴワードがＬＡＴとして認識された照会内の他の何らかのワードを同一指示する（co-reference）かどうかを判断することであって、抽出された特徴のうちの第４の特徴が同一指示情報（co-reference information）を含むことを含み、１つまたは複数のプログラミングされたプロセッサ・デバイスが、構文パターン・ルールを識別することと、前のインスタンスについてチェックすることと、解析木データ構造を入手することと、文法関係を識別することと、ＬＡＴワード同一指示を判断することを実行する。

本発明の目的、特徴、および利点は、以下に明記されている詳細な説明の文脈内で理解される。この詳細な説明は、本発明の重要な部分を形成する添付図面の文脈内で理解される。

本発明を使用することができる質問／解答方法の高レベル論理アーキテクチャ１０を示す図である。ＬＡＴ信頼性推定スコアを生成するためのＬＡＴ信頼性推定プロセスおよびソフトウェア・アーキテクチャの流れ図である。ＬＡＴ信頼性推定の適用例を描写する流れ図である。図２の流れ図のステップ１６０で実行された特徴（複数も可）生成プロセスを示す流れ図である。照会ＬＡＴ信頼スコアを計算するためにトラバースされる決定木モデル１９０の一部分の例を描写する図である。本発明を使用することができる質問／解答方法の他の高レベル論理アーキテクチャ１０を示す図である。据え置きタイプの評価により質問および解答処理を実行するための流れ図の一例である。一実施形態において図７の流れ図のステップ１３２で実行されたＴｙＣｏｒスコア生成を示す流れ図である。ＣＡＳデータ構造を処理するためにあるタイプの分析エンジンを提供するためのＵＩＭＡフレームワーク実現例の一態様を描写する図である。一実施形態において図２、図３、図４〜図５、図７〜図８に記載されている方法ステップを実行するための模範的なハードウェア構成を示す図である。

「SYSTEM AND METHOD FORPROVIDING QUESTION AND ANSWERS WITH DEFERRED TYPE EVALUATION」という名称で本願所有者が所有する同時係属米国特許出願第１２／１２６，６４２号は、質問に関する解答が自動的に生成されるＱＡシステムおよび方法について記載している。詳細には、これは、質問から決定された字句タイプを、検索から導出された各候補解答に関連する字句タイプと比較することを伴う。質問によって要求された字句解答タイプは本明細書では「字句解答タイプ」または「ＬＡＴ」と呼ぶ。各候補解答に関連する字句タイプは本明細書では解答タイプまたは「ＡＴ」と呼ぶ。

一般に、質問解答（ＱＡ）システムは、おそらく構造化、半構造化、および非構造化情報資源の異種混合集合を調べることにより、弁明とともに自然言語で所与の質問に対して厳密な解答を返す。図１は、標準的な質問解答システム１０を構成する主要コンポーネントとその作業の流れを示している。

質問分析コンポーネント２０は、自然言語質問１９（たとえば、「米国の第４２代大統領は誰か」）を受け取り、その質問を分析して、最小限で予想解答の意味タイプ（この例では「大統領」）を生成し、そして任意選択で下流の処理のためのその他の分析結果を生成する。コア検索エンジンを使用する検索コンポーネント３０ａは、質問分析の出力２９から照会を公式化し、ＷｏｒｌｄＷｉｄｅＷｅｂ４１あるいは１つまたは複数の知識資源、たとえば、データベース、知識ベース４２などの様々な資源を調べて、質問に対する解答に関連する文書、一節、Ｗｅｂページ、データベース・タプルなどを取り出す。次に、候補解答生成コンポーネント３０ｂは、検索結果４５から質問に対する潜在的な（候補）解答を抽出し、次にその解答に対し、解答選択コンポーネント５０によってスコアおよびランクを付けて、関連の信頼スコアを有する解答の最終ランク付きリストを生成する。

据え置きタイプの評価を有するＱＡシステムでは、候補解答（すなわち、データ・コーパスまたはインターネットから得られた照会に対する候補解答インスタンス）の抽出後、典型的に、解答のタイプ分けが実行され、すなわち、検索された候補解答とその字句タイプとの関連の決定が行われる。決定された候補解答タイプは、質問分析によって検出された照会の算出字句解答タイプ（「ＬＡＴ」）と照らし合わせて比較され、解答の正しさを判断する際に評価が行われる。

タイプ強制（ＴｙＣｏｒ：TypeCoercion）プロセスは、候補解答の解答タイプ（ＡＴ）がいくつかの技法に基づいて質問ＬＡＴに「強制」されるプロセスである。強制プロセスは、構造化資源内のインスタンスに候補解答をマッピングし、そのタイプを入手し、それをＬＡＴにマッピングすることを伴う可能性がある。「強制」の結果はＴｙＣｏｒスコアと呼ばれる。

質問／照会のＬＡＴは、その質問／照会に対する有効な解答であるエンティティの指示対象のタイプ（すなわち、記述子）である。実際には、ＬＡＴは、パターンの集合を含む自然言語理解モジュールあるいは意味インタープリタを備えたパーサまたはその両方によって検出された解答の記述子である。

したがって、質問解答システムは、図１の照会分析モジュール２０内の字句解答タイプ（ＬＡＴ）検出処理ブロック２００を使用することができる。ＬＡＴは、正しい解答の意味タイプを識別する質問項目をさらに表している。したがって、ＬＡＴは、パターンＬＡＴ検出ルールにより質問内で検出可能である可能性がある。これらのルールは、関連ルール学習により自動的に機械によって実現され、コード化または学習される。自然言語理解モジュールはこれらのルールを実現することができる。

しかし、いかなる自然言語処理モジュールも完璧ではなく、誤ったＬＡＴが検出される。間違ったタイプの解答は正しい解答になる可能性が高いものとして判断されるので、間違ったＬＡＴはＱＡシステムの性能を著しく低減する可能性がある。

ＱＡシステム１０に関する詳細について図６に関して述べる。証拠収集および解答スコアリング機能５０は、（１）「字句解答タイプ」（ＬＡＴ）、たとえば、何らかの概念を記述するテキスト・ストリング、および（２）「候補解答」入力（複数も可）、たとえば、何らかのエンティティを記述するテキスト・ストリングを受け取るプログラム式処理コンポーネントである。このプログラム式処理コンポーネントは、そのエンティティがどの程度までその概念のインスタンスであるかを表す判断（たとえば、スコア）を含む出力を生成する。以下の図７および図８に記載されているように、これは、たとえば、算出候補解答タイプ（ＡＴ）に基づいて、解答スコアリング機能の一部として使用される。

図４に関して以下に記載されているように、入力照会を処理してＬＡＴを決定し、検索し、１つまたは複数の候補解答を入手した後、受け取られた各候補解答について、候補をデータベース内のインスタンスと突き合わせ、その結果、一致インスタンスを含む出力データ構造を生成するステップ１３２ａと、候補解答が要求されたＬＡＴを有するという証拠を探して（検索して）、知識ベース（ＫＢ）内のこれらのインスタンスに関連するＬＴ（複数も可）を取り出すステップ１３２ｂと、ＬＡＴ（複数も可）をＬＴ（複数も可）（たとえば、パーサ、意味インタープリタ、あるいは単純なパターン・マッチャ、またはこれらの組み合わせを使用する突き合わせ機能によって決定されたもの）と突き合わせようと試みて、一致度を表すスコアを生成するステップ１３２ｃが実行される。詳細には、候補ＡＴおよび照会ＬＡＴ（複数も可）は字句ストリングとして表される。「ＴｙＣｏｒ」（タイプ強制）スコアと呼ばれるスコアの生成は、（１）候補解答とインスタンスの突き合わせ、（２）インスタンスとタイプの関連の抽出、および（３）ＬＡＴとタイプの突き合わせという３つのステップで構成される。このスコアは、その候補がＬＡＴに「強制」される程度を反映し、スコアが高いほどより良好な強制を示す。

一実施形態では、本発明は、候補解答についてより良好な品質スコアを提供するための追加の機能を提供することにより、同時係属米国特許出願第１２／１２６，６４２号に記載されたＱＡシステムおよび方法の有効性を拡張し補足する。具体的には、図１に示されているようなＱＡシステムは、検出された照会ＬＡＴの信頼性の自動推定を実行して、ＬＡＴ信頼スコアを生成する。このＬＡＴ信頼スコアは、候補解答のＬＡＴと解答タイプ（ＡＴ）との一致度と結合されて、候補解答についてより良好な全体スコアを提供する。換言すれば、それぞれの検出されたＬＡＴの信頼スコアまたは値を入手し、本システムおよび方法はこのＬＡＴ信頼スコアとＴｙＣｏｒスコアとの結合を実行して、候補解答に関する全体スコアを改善する。付随する利点としては、ＱＡシステムがＬＡＴ検出エラーに対して抵抗力が高くなることと、ＬＡＴ信頼性を考慮するときに候補解答が正しくなる可能性が高くなることを含む。

ＬＡＴ信頼スコアの計算に関して、図２に関して言及しているが、同図は、図１に示されている照会分析モジュール２０内のＬＡＴ検出処理ブロック２００の一部としてまたはそれに関連して実行可能なものなどのＬＡＴ信頼性推定のプロセスを描写している。この処理では、本願所有者が所有する同時係属米国特許出願第１２／１２６，６４２号に記載されているプロセスを使用して、照会について字句解答タイプ（ＬＡＴ）を計算した後、それぞれのＬＡＴの信頼「スコア」または信頼値が計算される。

図２は、２つのコンポーネントを含むＬＡＴ信頼性推定のためにコンピュータによって実行されるプロセス１５０を特に示しており、第１の特徴生成コンポーネント１６０は候補ＬＡＴ（たとえば、質問中のワード）を記述する特徴のセット１６５を抽出する。特徴例としては、１）共通ＬＡＴを定義する１組のルールからのパターン・ルール（「ルールＩＤ」）の適用、たとえば、「この大統領がどのような・・・を行った」の中の「大統領」という名詞として、「この」または「これらの」などの限定詞によって修飾された名詞と一致する構文パターンを記述する「ｔｈｉｓＷｈａｔＮｏｕｎ」というＩＤを有するルール、２）そのワードが候補ＬＡＴになる従来の頻度、３）ＬＡＴに関連する文法関係を決定するための構文解析情報、たとえば、候補ＬＡＴワードが解析木の他の部分とどのように関係するか、４）ＬＡＴの品詞などのその他の文法情報、ならびに５）候補ＬＡＴワードがＬＡＴなどとして認識されたその他の何らかのワードを同一指示するかどうかを判断する同一指示情報を含むことができるが、これらに限定されない。信頼性推定処理コンポーネント１７５はこのＬＡＴ特徴のセットを取り、その組にモデル１８０が適用されて、そのＬＡＴに関連する信頼スコア１９９を生成する。モデル１８０は、１組の訓練インスタンスから手動でまたは自動的に構築することができる。

したがって、たとえば、一実施形態においてＰｒｏｌｏｇ（登録商標）論理プログラムによる処理に基づいてそのＬＡＴに至るパターンを質問の中に見つけることができる。たとえば、過去の訓練データ、すなわち、過去に手動でＬＡＴを識別するために以前のプロセスで使用されたデータにより、特定の識別済みパターン（複数も可）について適切な重みが決定される。ＬＡＴ信頼性推定中に、たとえば、Ｐｒｏｌｏｇ（登録商標）論理プログラムを使用して、そのＬＡＴを囲むテキストを処理して、そのパターンのいずれかが適合するかどうかを判断する。すなわち、一実施形態ではＰｒｏｌｏｇ（登録商標）論理プログラムを使用して、パターン・ルール突き合わせを実行することができる。あるパターンが適合する場合、識別済みパターンに関連するルールＩＤが提供され、その特定のパターンに関する従来の信頼性に基づいて、その特徴に重みが割り当てられる。いずれのパターンも一致しない場合、その特徴に割り当てられる重みは存在しないであろう。

次に、質問分析段階における特徴生成コンポーネント１６０の一実施形態について図４に関連して説明する。図示の通り、照会ＬＡＴは、それぞれが特定の特徴抽出機能を実行する複数のモジュールに並行して入力され処理される。複数のモジュールとしては、共通のＬＡＴを定義する１組のルールからパターン・ルールＩＤを識別するためのプロセス１６２と、たとえば、手動で注釈を付けられたデータの集合から検出されたＬＡＴワードの前のインスタンスをチェックし、前のインスタンスの量に基づいてＬＡＴワード頻度を計算するためのプロセス１６４と、候補ＬＡＴの品詞（たとえば、名詞、動詞、形容詞などのワード・タイプ）を決定するための解析木チェック・プロセス１６６と、ＬＡＴに関連する文法関係、たとえば、候補ＬＡＴワードが解析木の他の部分とどのように関係するかを識別するためのプロセス１６８と、候補ＬＡＴワードがＬＡＴとして認識されたその他の何らかのワードを同一指示するかどうかを判断する同一指示情報を識別するためのプロセス１７０とを含む（たとえば、「革命戦争中に将軍であった、この大統領・・・」という質問は、２つのＬＡＴ（大統領と将軍）を提供し、「大統領」というワードがＬＡＴであることが把握されている場合、「将軍」というワードは最も可能性の高いＬＡＴであるとともに「将軍」という候補入力ＬＡＴワードは既知のＬＡＴである大統領を同一指示する）。処理ブロック１６２〜１７０の出力１７２は、ブール（たとえば、文法関係あるいは候補ＬＡＴが他のＬＡＴを参照するかどうかを示す同一指示）、数値的特徴（たとえば、ＬＡＴ頻度としてのワード）、およびカテゴリ（たとえば、名詞などの品詞）のうちの１つまたは複数を含むがこれらに限定されない内容を有する特徴セットを提供する。次に、出力された特徴セットは信頼性推定モジュール１７５に入力される。信頼性推定ユニット１７５は特徴セットを受け取り、推定されたＬＡＴ信頼スコアを生成するために訓練されたモデル１８０がこの特徴セットに適用される。一実施形態では、特徴セットは数値のリスト（たとえば、１、０、０．２３４、１、１、・・・）を含む。カテゴリ特徴は１組のブール特徴に変えることができる（たとえば、品詞は、ｉｓ＿ｎｏｕｎ、ｉｓ＿ｖｅｒｂ、ｉｓ＿ａｄｊ、ｉｓ＿ａｄｖ、ｉｓ＿ｐｒｅｐに変えることができる）。

一実施形態では、ブール、カテゴリ値、および数値からなる特徴セットは前に訓練されたモデルに入力される。ブール値またはカテゴリ値の場合、たとえば、これらは、０または１などの２進数として特徴セット内に表すことができる。たとえば、０または１という値は、それぞれ偽または真という特徴セットのブール値に関連付けることができる。

訓練されたモデル１８０に関して、一実施形態は、種々の特徴を結合し、それらに重みを付けて、ＬＡＴ信頼性推定のための最終スコアを生成するように構成された機械学習モデルである。特徴セットの種々の特徴にどのように重みを付けなければならないかを判断するために数学的モデルである任意の機械学習モデルを使用することができる。この数学的モデルはそれぞれのタイプの特徴に関する重みを含み、特定の入力の特徴セット値の場合、その値はこのモデルに入力され、このモデルがスコアを生成する。個々の特徴値はモデル式（各変数ごとに異なる重みを有する関数）への変数であり、このモデルを適用する場合、数値を生成するためにそれぞれの変数に値が与えられる。このモデルは、１組の訓練インスタンスから手動でまたは自動的に構築することができる。

一実施形態では、訓練されたモデル１８０は、１９９７年マグローヒル社発行でTom Mitchellによる「Machine Learning」という参考文献にその説明が記載されているロジスティック回帰モデルである。他の諸実施形態では、２０００年ケンブリッジ大学出版局発行でJohn Shawe-TaylorおよびNello Cristianiniによる「Support Vector Machines and other kernel-based learning methods」という参考文献に記載されているように、サポートベクタマシン・モデルを使用することができる。さらに、１９９６年３月Computational Linguistics Journal第２２巻第１刷に公表されたAdam L. Berger他による「A maximum entropyapproach to natural language processing」という参考文献に記載されているような最大エントロピーマシン・モデルを見つけることができる。それ以外には、ルールベースまたは決定木ベースのモデルを実現することができる。

使用可能なロジスティック回帰モデルの一例は以下のように式１）として示される。

ここで、ｘ_１，．．．，ｘ_ｎは特徴値であり、一実施形態では以下のようになる。

ここで、ａ_１，．．．，ａ_ｎは係数であり、定数ｃはモデルの訓練中に割り当てられる。非限定的な一例では、特定のモデルは以下のような係数割り当てを有することができる。
ａ_１＝０．４８４，ｘ_１＝ｔｈｉｓＷｈａｔＲｕｌｅ発火
ａ_２＝２．８６７１，ｘ_２＝ｈｅＳｈｅＰｒｏｎｏｕｎＲｕｌｅ発火
ａ_３＝１２．５８７ｘ_３＝事前確率・・・

図５は、一連の判断ポイント（たとえば、決定木内のノード１９２、１９４、１９６）および種々の判断（決定木内の分岐）を含む決定木データ構造１９０の形で、あるモデルの他の一例を示している。図示の例では、判断は、入力が特定のパターンに適合するかどうかである。それぞれのパターン／ルールは、質問中の「このＸ・・・」などのパターンを検出する「ｔｈｉｓＷｈａｔＲｕｌｅ」などの関連する名前を有する。あるパターンが入力に適合する場合、特定の信頼性がＬＡＴとして返される。決定木データ構造１９０の処理は、訓練された決定木を自動的にトラバースすることと、信頼スコアを計算するために使用されるスコアをそれぞれの判断ステップ、たとえば、ステップ１９２、１９４、１９６などで計算することを含む。

前述の通り、ＱＡ処理中に、候補解答が照会ＬＡＴのインスタンスであるかどうかについて判断が行われる。ＬＡＴ検出はエラーを有する可能性があるので、タイプ一致スコア（ＴｙＣｏｒ）の結果を改善するために、すなわち、算出ＬＡＴ信頼スコアと生のＴｙＣｏｒスコアを結合することにより、ＬＡＴに関連する推定信頼スコアが生成される。

図３は、変更されたＴｙＣｏｒスコアを生成するために推定ＬＡＴ信頼スコア１９９を適用するためのプログラム式プロセス２５０を記述している。プログラム式ＬＡＴ信頼性適用プロセス２５０では、ＬＡＴ信頼性推定１９９および生のＴｙＣｏｒスコア２６０を結合して最終スコア２９９を生成する結合ユニット２７５で単一のステップが実行される。一実施形態では、ＬＡＴ信頼スコアは０〜１の数にすることができ、これに生のＴｙＣｏｒスコアを掛けて最終ＴｙＣｏｒスコアを計算することができる。ＬＡＴ信頼スコアと生のＴｙＣｏｒスコアの結合は、信頼性加重平均などの様々な方法で実現される。

１つまたは複数の候補ＬＡＴを有する照会の場合、ＬＡＴ信頼スコアは重みとして扱われる。たとえば、それぞれのＬＡＴは、それに関連する重みがＬＡＴ信頼スコアによって表されている。それぞれのＬＡＴに関する解答候補および関連の生のＴｙＣｏｒスコアの場合、それぞれのＬＡＴについてそれぞれの重み信頼性にタイプ一致（ＴｙＣｏｒ）スコアを掛けたものの合計として全体スコアが推定される。したがって、本明細書で上述した照会例の場合、すなわち、
「革命戦争中に将軍であった、この大統領・・・」
では、「大統領」と「将軍」という検出された２つのＬＡＴについて、「ジョージ・ワシントン」という候補解答に関する全信頼性加重平均は、「将軍」に関する加重信頼スコア（たとえば、０．８）にそのそれぞれのＴｙＣｏｒスコア（たとえば、１．０）を掛けたものを表す第１の合計と、「大統領」に関する加重信頼スコア（０．９５）にそのそれぞれのＴｙＣｏｒ（たとえば、１．０）を掛けたものを表す第２の合計とを結合した合計として計算される。一般に、１つまたは複数の検出されたＬＡＴを有する照会の場合、全加重信頼スコアは以下のように計算される。
全信頼性加重平均スコア＝（信頼スコア_ＬＡＴ１）（ＴｙＣｏｒ_ＬＡＴ１）＋（信頼スコア_ＬＡＴ２）（ＴｙＣｏｒ_ＬＡＴ２）＋・・・＋（信頼スコア_ＬＡＴｎ）（ＴｙＣｏｒ_ＬＡＴｎ）

この加算を計算すると、単一照会の「ｎ」個の検出されたＬＡＴについて信頼性加重平均が得られる。

図６は、高レベル論理アーキテクチャ１０を描写する、米国特許出願第１２／１２６，６４２号に記載されているＱＡシステム図を示している。一般に、図６に示されているように、高レベル論理アーキテクチャ１０は、ユーザ照会または質問を受け取って分析するための機能を実現する照会分析モジュール２０を含む。「ユーザ」という用語は、システムと対話している１人または複数の人を指す場合もあれば、機械的手段により照会を生成するコンピュータ・システム２２を指す場合もあり、ここで「ユーザ照会」という用語はこのように機械的に生成された照会およびコンテキスト１９’を指す。候補解答生成モジュール３０は、１次ソース・モジュール１１および１次ソースから抽出された関係およびリストの集合を含む解答ソース知識ベース（ＫＢ）モジュール２１に含まれる構造化、半構造化、および非構造化ソースをトラバースすることにより、候補解答の検索を実現するために提供される。すべての情報ソースは、ローカルに保管するか、またはインターネットを含むネットワークにより配布することができる。

アーキテクチャ１０の候補解答生成モジュール３０は、取り出されたデータの分析に基づいて、候補解答を含む複数の出力データ構造を生成する。図６では、証拠収集モジュール５０は、候補解答を有する一節に基づいて証拠を同時に分析するために１次ソース１１および知識ベース２１と対話し、一実施形態では並列処理動作として、候補解答のそれぞれにスコアを付ける。一実施形態では、このアーキテクチャは、本願所有者が所有する発行済み米国特許第７，１３９，７５２号に記載されているように共通分析システム（ＣＡＳ）候補解答構造を使用して利用することができる。

図６に描写されているように、証拠収集モジュール５０は、取り出された一節を分析し、取り出された一節の候補解答のそれぞれにスコアを付けるための候補解答スコアリング・モジュール４０を含む。解答ソース知識ベース（ＫＢ）２１は、関係の集合（たとえば、タイプ別リスト）を含む構造化または半構造化ソース（事前計算またはその他による）の１つまたは複数のデータベースを含むことができる。一実現例では、解答ソース知識ベースは、メモリ・ストレージ・システム、たとえば、ハード・ドライブに保管されたデータベースを含むことができる。

解答ランキング・モジュール６０は、候補解答にランクを付け、ユーザのコンピュータ・ディスプレイ・インターフェース（図示せず）またはコンピュータ・システム２２を介してユーザに返される応答９９を決定するための機能を提供し、この応答は、解答である場合もあれば、質問に対する高品質の解答が見つからないときに、質問に対する応答として前の解答の詳細あるいは解明の要求である場合もある。「解答ランキング」モジュール６０が、前のデータから機械学習技法を使用して生成された訓練されたモデル・コンポーネント（図示せず）を含む場合、機械学習の実現例がさらに提供される。

図６に描写されている処理は、エンタープライズ内のサーバまたはサーバ・クラスタ上でローカルに行われる場合もあれば、代わって、上記のように質問解答機能を高めるために公的なまたは私的に入手可能な検索エンジンで分散されるか、それと一体化しているか、あるいはその他の方法でそれと相俟って動作する可能性がある。したがって、この方法は、処理装置によって実行可能な命令を含むコンピュータ・プログラム製品として、あるいはそのコンピュータ・プログラム製品を配備するサービスとして、提供することができる。このアーキテクチャは、インターネット、公的に入手可能なデータベース、Ｗｅｂサイト（たとえば、ＩＭＤＢ．ｃｏｍ）、または私的に入手可能なデータベースの検索専用にすることができる候補解答生成モジュール３０の一部として検索エンジン（たとえば、文献検索システム）を使用する。データベースは、任意のストレージ・システム、不揮発性メモリ・ストレージ・システム、たとえば、ハード・ドライブまたはフラッシュ・メモリに保管することができ、ネットワークによって配布することができる。

前述の通り、図６のシステムおよび方法は、非構造化情報管理アーキテクチャ（ＵＩＭＡ）のサブシステムであって、分析エンジンおよび非構造化情報管理アプリケーションなどの様々なＵＩＭＡコンポーネント間のデータ交換を処理する共通分析システム（ＣＡＳ）を使用する。ＣＡＳは、プログラミング言語から独立したタイプ・システムを介してデータ・モデリングをサポートし、強力な索引付けメカニズムによるデータ・アクセスを可能にし、（http://www.research.ibm.com/journal/sj/433/gotz.html）に記載されているようにテキスト・データに関する注釈を作成するためのサポートを提供する。画像、ビデオ、またはその他の非テキスト・モダリティの分析に有用なように、ＣＡＳは文書とその注釈との間のリンクについて複数の定義を可能にすることに留意されたい（米国特許第７，１３９，７５２号に教示されている通り）。

一実施形態では、ＵＩＭＡは、広範囲の情報源にわたる非構造化情報の効果的な管理および交換のためのミドルウェアとして提供することができる。このアーキテクチャは、一般に、検索エンジン、データ・ストレージ、パイプライン化した文書アノテータを含む分析エンジン、および様々なアダプタを含む。ＵＩＭＡシステム、方法、およびコンピュータ・プログラムは、入力照会に対する解答を生成するために使用することができる。この方法は、文書を入力することと、文書データをトークン化し、特定のタイプの意味内容を識別して注釈を付けるために複数の結合されたアノテータを含む少なくとも１つのテキスト分析エンジンを操作することを含む。したがって、これは、質問を分析し、文書の集合から質問に対して可能な解答としてのエンティティを抽出するために使用することができる。

図６のアーキテクチャ図においてより詳細にさらに示されているように、「照会分析」モジュール２０は、たとえば、そのＷｅｂベースのブラウザ装置を介してユーザによって入力された照会１９を含む入力を受け取る。入力照会１９はテキスト・ストリングを含むことができる。照会分析ブロック２０は、解答タイプ（ＬＡＴ）に関する追加の制約を提供するための機能およびプログラミング・インターフェースを実現する字句解答タイプ（ＬＡＴ）ブロック２００をさらに含む。ブロック２０における計算は、字句解答タイプを含むがこれに限定されない。一実施形態では、ＬＡＴ検出ブロック２００は、検出されたＬＡＴに関するＬＡＴ信頼性推定機能を含むことができる。

上述の通り、質問／照会のＬＡＴは、質問に対する有効な解答であるエンティティの指示対象のタイプ（すなわち、記述子）である。実際には、ＬＡＴは、パターンの集合を含む自然言語理解モジュールまたは意味インタープリタを有するパーサまたはその両方によって検出された解答の記述子である。

図６の照会分析モジュール２０内の字句解答タイプ（ＬＡＴ）ブロック２００に関しては、ＬＡＴは正しい解答の意味タイプを識別する質問項目を表している。一実施形態では、既知の通り、ＬＡＴはパターンＬＡＴ検出ルールにより質問内で検出することができる。これらのルールは実現され、手動でコード化するかまたは関連ルール学習により自動的に機械によって学習することができる。この場合、自然言語理解モジュールはルールの実現に限定することができる。

図７は、米国特許出願第１２／１２６，６４２号に記載されているように、一実施形態において据え置きタイプの評価により質問および解答を実行するためのコンピュータ・プログラム式方法１００の流れ図である。一般に、図７に描写されている「据え置きタイプの評価」の方法では、第１の処理ステップ１１２は、処理装置で入力照会を受け取り、字句解答タイプ（ＬＡＴ）処理ユニット・ブロック２００（図６）に入力するための質問ストリングおよびコンテキストを含むデータ構造、たとえば、ＣＡＳ構造を生成するステップを表し、そのブロック２００では、ステップ１１５で示されるように、照会が分析され、字句解答タイプ（ＬＡＴ）およびＬＡＴ信頼スコアが計算される。

ステップ１１５で実行されるように、ＬＡＴ処理コンポーネント内の処理の結果として、算出ＬＡＴおよびおそらく元の質問からの追加の項目を含む出力データ構造、たとえば、ＣＡＳ構造が生成される。

次に、ステップ１２０で類型化されているように、ＬＡＴブロック２００内の処理の結果として、計算された元の照会（項、重み）を含む出力データ構造、たとえば、ＣＡＳ構造が生成される（同時係属米国特許出願第１２／１５２，４４１号に記載されている通り）。

図７に戻ると、処理ステップ１２２では、候補解答文書を検索し、その結果を返すステップが実行される。

ステップ１２２で類型化されているように、候補解答生成モジュール内の処理の結果として、データ・コーパス（たとえば、１次ソースおよび知識ベース）から検出された文書のすべてを含む出力データ構造、たとえば、ＣＡＳ構造が生成される。

図７のステップ１２８には、ＬＡＴ（字句解答タイプ）を使用してＣＡＳ構造として出力される可能性のある１組の候補解答を生成するために候補解答についてそれぞれの文書を分析するステップが描写されている。

本明細書で述べた質問例の場合、図７のステップ１３２で類型化されているように、候補解答生成モジュール３０内の処理の結果として、文書内で検出された候補解答が照会ＬＡＴ要件と照らし合わせてチェックされ、（そのスコアに基づいて）ステップ１３３で解答（複数も可）として返される。

候補解答とインスタンスの突き合わせにおいて、候補は知識資源内の１つまたは複数のインスタンスと突き合わされ、そのインスタンスが取る形は知識資源によって決まる。構造化知識ベースでは、インスタンスはエンティティになる可能性があり、Ｗｉｋｉｐｅｄｉａなどの百科事典的ソースでは、インスタンスは百科事典内の項目になる可能性があり、ＷｏｒｄＮｅｔ（登録商標）（プリンストン大学の理事会の商標）字句データベースなどの字句資源では、インスタンスはｓｙｎｓｅｔ項目（同義語のセット）になる可能性があり、非構造化文書（またはＷｅｂページ）集合では、インスタンスはテキスト内で発生する用語または語句になる可能性がある。複数のインスタンスが見つかった場合、集約機能を使用するロールアップを使用して、すべての候補からのスコアを結合する。適切なインスタンスがまったく見つからない場合、０というスコアが返される。

次に、インスタンス関連情報が資源から抽出される。この情報は、それぞれのインスタンスを１つのタイプまたは１組のタイプと関連付ける。資源次第でこれは異なる形を取る可能性があり、知識ベースでは、これはインスタンスをタイプに関係づける、関心のある特定の関係に対応し、百科事典的ソースでは、これは字句タイプをエンティティに割り当てる字句カテゴリ情報になる可能性があり、ＷｏｒｄＮｅｔ（登録商標）などの字句資源では、これはｓｙｎｓｅｔに関する包摂性などの１組の字句関係であり（たとえば、「アーチスト」は「人」である）、非構造化文書集合では、これはタイプを表す他の用語および語句に対する共起または近接性になる可能性がある。

次に、それぞれのＬＡＴをそれぞれのタイプと突き合わせようと試みる。そのタイプの字句表示が使用される。たとえば、百科事典では、これはカテゴリを表すストリングになる可能性があり、ＷｏｒｄＮｅｔ（登録商標）などの字句資源では、これはｓｙｎｓｅｔ内に含まれるストリングのセットになる可能性がある。この突き合わせは、ストリング突き合わせまたはＷｏｒｄｎｅｔ（登録商標）などの追加の字句資源を使用して、ＬＡＴとタイプとの同義性または包摂性の有無をチェックすることによって実行される。関心のあるタイプについて特別なロジックを実現することができ、たとえば、厳密な一致、同義語、または被包摂語関係を必要としないが、むしろＬＡＴとタイプの両方が「人」という用語の被包摂語であることを必要とする、人物照合ロジック（person matcher logic）を起動することができる。このようにして、たとえば、「彼」および「画家」は、厳密に同義語または被包摂語ではない場合でも、正のスコアが与えられるであろう。最後に、一致度のスコアを付ける複数対のスコアのセットは、集約機能を介して単一の最終スコアまで解くことができる。

したがって、質問例について図８のステップ１３２ａ〜１３２ｃに明記されている実現例では、それぞれの候補解答が自動的にＬＡＴ要件と照らし合わせてチェックされる。これは、証拠収集モジュール５０の一部として図６に示されている候補解答スコアリング・ブロック４０によって実行することができ、特に、確率を発生する候補解答タイプ分析モジュール４００は、たとえば、それによって候補解答が現れる文書の文法および意味分析に基づいて候補解答が正しいタイプのものであることを判断する。前述の通り、この処理は、異なるタイプ分けスコアの加重結合として表すことができる自動スコアリング機能を使用することを必要とし、一実施形態例では、これは以下のように表すことができる。

その他のスコアの結合も可能であり、最適スコアリング機能は、２００８年５月１４日出願の同時係属米国特許出願第１２／１５２，４４１号に記載されているように学習することができる。

スコアリング機能自体は数式であり、一実施形態では、ロジスティック回帰関数（一次式と指数関数の合成関数）に基づくものにすることができ、かなり多数のタイプ分けスコアに適用することができる。

「候補解答スコアリング」モジュール４０の出力は、証拠収集モジュール５０の候補解答スコアリング・ブロック４０に含まれる解答スコアリング・モジュール内の処理モジュールによってそれぞれのスコアが与えられた解答のリストを有するＣＡＳ構造である。一実施形態では、これらの候補解答には、上述のように加重信頼スコアと結合されたＴｙＣｏｒ一致スコアが提供される。

最後に、図７に戻ると、ステップ１３３では、最上位の候補解答（それぞれのＴｙＣｏｒスコアに基づく）が返されるか、あるいは本明細書に記載されているようにそれぞれの算出加重ＬＡＴ信頼スコアと結合するためにさらに処理されるか、またはその両方が行われる。

一実施形態では、図１および図６の上記のモジュールは、ＵＩＭＡ内の機能コンポーネントとして表すことができ、好ましくは、構造化および非構造化情報の組み合わせに対する検索および分析を統合するアプリケーションを開発するためにハードウェアおよびソフトウェアの組み合わせとして実施される。エンドユーザ機能を実現するためにＵＩＭＡコンポーネントを使用するソフトウェア・プログラムは一般にアプリケーション、アプリケーション・プログラム、またはソフトウェア・アプリケーションと呼ばれる。

ＵＩＭＡ高レベル・アーキテクチャは、その一実施形態が図６に示されており、ＵＩＭアプリケーションを実現するために協力する粒子の大きいコンポーネントの役割、インターフェース、および通信を定義する。これらは、テキスト・データあるいは画像データまたはその両方を含む文書などの非構造化ソース・アーチファクトを分析し、構造化ソースを統合してアクセスし、発見した意味内容に基づいてアーチファクトを保管し、索引を付け、検索することができるコンポーネントを含む。

図示されていないが、ＵＩＭＡ高レベル・アーキテクチャの非限定的な一実施形態は、意味検索エンジン、文書ストア、少なくとも１つのテキスト分析エンジン（ＴＡＥ）、少なくとも１つの構造化知識ソース・アダプタ、集合処理マネージャ、少なくとも１つの集合分析エンジンを含み、いずれもアプリケーション・ロジックとのインターフェースを取る。一実施形態例では、ＵＩＭＡは構造化情報および非構造化情報の両方にアクセスするように動作して、本明細書で述べたように候補解答および解答を生成する。非構造化情報は、文書の集合であると見なすことができ、テキスト、グラフィックス、静止画像および動画像、オーディオ、ならびにそれらの様々な組み合わせの形にすることができる。

ＵＩＭＡの諸態様は図９にさらに示されており、同図では、テキスト分析エンジン（ＴＡＥ）のコンポーネント部分になり得る分析エンジン（ＡＥ）６００が示されている。ＡＥ６００には、共通分析システム（ＣＡＳ）６１０と、アノテータ６２０と、コントローラ６３０が含まれる。ＴＡＥ（図示せず）の第２の実施形態は、ＣＡＳならびに２つ以上のコンポーネント分析エンジンから構成される集約分析エンジンを含み、ＡＥ６００と同じ外部インターフェースを実現する。

共通分析システム６１０
共通分析システム（ＣＡＳ）６１０は、分析構造にアクセスし変更するためにすべてのアノテータ６２０が使用する共通機構として設けられる。したがって、ＣＡＳ６１０は、アノテータ６２０間の調整を可能にし、異なるアプリケーションおよび異なるタイプのアーキテクチャ内でのアノテータ６２０の再利用を容易にする（たとえば、疎結合対密結合）。ＣＡＳ６１０は、様々なアノテータの動作を拘束するものと見なすことができる。

ＣＡＳ６１０は主として、データ・モデリング、データ作成、およびデータ取り出し機能を提供する。データ・モデリングは好ましくは、以下に示す表１の例に示されているように、（データ）タイプのツリー階層を定義する。これらのタイプは、特徴と呼ばれる属性または特性を有する。好ましい諸実施形態では、整数（ｉｎｔ）、浮動小数点（ｆｌｏａｔ）、およびストリングなどの少数の組み込み（事前定義）タイプが存在し、ＵＩＭＡは「注釈」という事前定義データ・タイプも含む。データ・モデルはアノテータ記述子に定義され、他のアノテータと共用される。表１では、本発明の好ましい実施形態において質問解答に対処するために従来技術の非構造化情報管理アプリケーションから拡張されたと見なされるいくつかのタイプとしては以下のものを含む。

表１では、たとえば、すべての質問解答タイプ（左側の列のリスト）は新しいタイプであり、他の新しいタイプまたは既存のタイプ（右側の列に示されている）のいずれかを拡張するものである。たとえば、照会および照会コンテキストはいずれも照会レコードの一種であって新しいタイプであり、候補解答レコードはＵＩＭＡタイプの注釈を拡張するものであるが、浮動小数点である新しい特徴の候補解答スコアを追加している。加えて、表１は、ＵＩＭＡ注釈タイプを有するものとして照会ＬＡＴを記述しており、候補解答ＡＴも注釈であるが、浮動小数点タイプの追加の特徴ＴｙＣｏｒスコアを有する。

ＣＡＳ６１０のデータ構造は「特徴構造」と呼ぶことができる。特徴構造を作成するために、タイプを指定しなければならない（表１を参照）。注釈（および特徴構造）は索引に保管される。

ＣＡＳ６１０は、表現に関するオブジェクトベースのデータ構造を抽象データ・タイプとして実現する、メソッドの集合（たとえば、ＪａｖａまたはＣ＋＋のクラスとして実現されたもの）であると見なすことができる。好ましくは、ＣＡＳ６１０の設計は、大部分は、ユーザ定義のオブジェクト、柔軟性に関する特性および値、効率に関する静的タイプ階層、ならびに１つまたは複数の反復子の使用により保管データにアクセスするための方法を提供する、ＴＡＥ特徴特性構造に基づくものである。

ＣＡＳ６１０により実現された抽象データ・モデルは、数ある特徴の中で特に、プラットフォームからの独立性（すなわち、プログラミング言語とは無関係にタイプ・システムが宣言的に定義される）、パフォーマンス上の利点（たとえば、異なるプログラミング言語で作成されたアノテータ６１０を共通データ・モデルにより結合する場合）、アノテータ６１０に関する入出力指定によるフローの組成（タイプ・チェックおよびエラー検出ならびにサービス・モデルとしてのアノテータ（ＴＡＥ）のサポートを可能にする宣言的指定を含むもの）、意味論的索引付け、検索、および取り出しによる第３世代の検索手順のサポート（すなわち、意味タイプは宣言的であって、キーワードベースではない）をＵＩＭＡ１００に提供する。

ＣＡＳ６１０は、分析構造を効率的に構築し検索するための機構をアノテータ６２０に提供する。分析構造は、主に元の文書のテキストの部分列を記述するメタデータで構成されるデータ構造である。分析構造における模範的なタイプのメタデータは注釈である。注釈は、それ専用の特性を有し、テキストの連続に注釈を付けるために使用されるオブジェクトである。任意の数の注釈タイプが存在する。たとえば、注釈は、文書の構造におけるその役割（たとえば、ワード、センテンス、パラグラフなど）に関してテキストの連続にラベルを付けるか、またはその文法上の役割（たとえば、名詞、名詞句、動詞、形容詞など）に関してそれを記述することができる。本質的に、注釈の数または適用に関する制限はまったくない。その他の例としては、適切な名前、位置、軍事目標、時間、イベント、機器、条件、時間条件、関係、生化学的関係、家族関係、あるいは重要性または関心のあるその他の項目としてそれを識別するためのテキストの注釈セグメントを含む。

典型的に、アノテータ６２０の機能は、テキストならびに既存の分析構造を分析して、認識するために設計された１組の注釈の新しいインスタンスを発見し、他のアノテータ６２０によりさらに処理するための入力用の分析構造にこれらの注釈を追加することである。

注釈に加えて、図８のＣＡＳ６１０は、元の文書テキストならびにアノテータ６２０によって生成可能な関連文書（たとえば、元の文書の翻訳あるいは要約またはその両方）を保管することができる。好ましくは、ＣＡＳ６１０は、ＸＭＬなどの確立されたフォーマットで分析構造の種々の態様（たとえば、１組の注釈）のエクスポートを容易にする拡張部分を含む。

詳細には、ＣＡＳ６１０は、ＴＡＥのうち、テキストの注釈を定義し保管する部分である。ＣＡＳＡＰＩは、注釈を作成し、それにアクセスするために、アプリケーションおよびアノテータ６２０の両方によって使用される。ＣＡＳＡＰＩは、好ましくは、少なくとも３つの別個のインターフェースを含む。タイプ・システムは、新しいタイプの作成を制御し、タイプ間の関係（継承）ならびにタイプおよび特徴に関する情報を提供する。タイプ定義の非限定的な一例は表１に示されている。構造アクセス・インターフェースは、新しい構造の作成ならびに値のアクセスおよび設定を処理する。構造照会インターフェースは既存の構造の取り出しを扱う。

タイプ・システムは、オブジェクト指向プログラミングにおけるクラス階層と同様に、システムにとって既知のエンティティの分類を提供する。タイプはクラスに対応し、特徴はメンバ変数に対応する。好ましくは、タイプ・システム・インターフェースは、新しいタイプに関する名前を提供し、それが付加されるべき階層内の場所を指定することによって、新しいタイプを追加することと、新しい特徴に関する名前を提供し、その特徴が付加されるべきタイプならびに値タイプを与えることによって、新しい特徴を追加することと、既存のタイプおよび特徴と、「どのタイプ（複数も可）がこのタイプから継承するか」など、それらの関係について照会することという機能を提供する。

好ましくは、タイプ・システムは少数の組み込みタイプを提供する。上述の通り、基本的なタイプはｉｎｔ、ｆｌｏａｔ、およびストリングである。Ｊａｖａの実現例では、これらは、それぞれＪａｖａのｉｎｔ、ｆｌｏａｔ、およびストリング・タイプに対応する。注釈のアレイおよび基本的なデータ・タイプもサポートされる。組み込みタイプは構造アクセス・インターフェース内に特殊なＡＰＩサポートを有する。

構造アクセス・インターフェースは、新しい構造の作成ならびに既存の構造の値のアクセスおよび設定を可能にする。好ましくは、これは、所与のタイプの新しい構造の作成、所与の構造上の特徴の値の取得および設定、ならびに組み込みタイプに関するメソッドへのアクセスを提供する。それぞれの特徴が所定の範囲を有するような特徴の定義がドメインについて提供される。

代替の一実施形態では、図１、図６のモジュールはＧＡＴＥ（General Architecture for Text Engineering：テキスト・エンジニアリングに関する一般アーキテクチャ）における機能コンポーネントとして表すことができる（http://gate.ac.uk/releases/gate-2.0alpha2-build484/doc/userguide.htmlを参照）。ＧＡＴＥでは、概念的にＧＡＴＥ自体から分離した明確なインターフェースとともに再利用可能なソフトウェア・チャンクであるコンポーネントを使用する。すべてのコンポーネント・セットは、ユーザによって拡張可能であり、まとめてＣＲＥＯＬＥ（Collection of REusable Objects for Language Engineering：言語工学に関する再利用可能なオブジェクトの集合）と呼ばれる。ＧＡＴＥフレームワークは、ＣＲＥＯＬＥコンポーネントを差し込むバックプレーンである。ユーザは、それが始動したときに検索すべきＵＲＬのリストをシステムに提供し、コンポーネントはそれらの位置でシステムによってロードされる。一実施形態では、それから始めるためにその構成データのみがロードされ、ユーザが資源のインスタンシエーションを要求したときに実際のクラスがロードされる。ＧＡＴＥコンポーネントは３つのタイプの専門ＪａｖａＢｅａｎｓの１つである。すなわち、１）資源：最上位のインターフェースであり、すべてのコンポーネントを記述する。すべてのコンポーネントが共通して共用するのは、それらがランタイムにロードできることであり、１組のコンポーネントがクライアントによって拡張可能であることである。それらは、ＲＤＦ、プレーンＸＭＬ、またはＪａｖａプロパティなどのフォーマットでメタデータとしてシステムの外部で表される特徴を有する。資源は一実施形態ではすべてＪａｖａのＢｅａｎにすることができる。２）処理資源：実行可能な資源であり、（ＲＭＩを介して）リモートで呼び出すことができ、クラス・ファイル内に存在する。ＰＲ（処理資源）をロードするために、システムはクラスまたはＪＡＲファイル（メタデータも含むことになる）を検出すべき場所を把握している。３）言語資源：Ｊａｖａ抽象層を介してアクセスされるデータからなる資源である。それらは関係データベース内に存在する。さらに、ビジュアル資源：ビジュアルＪａｖａのＢｅａｎであり、主なＧＡＴＥＧＵＩを含むＧＵＩのコンポーネントである。ＰＲのように、これらのコンポーネントは．ｃｌａｓｓまたは．ｊａｒファイル内に存在する。

ＧＡＴＥ処理モデルを記述する際に、その１次特性がパーサなどのアルゴリズム・ジェネレータなどである資源は処理資源としてモデル化される。ＰＲは、Ｊａｖａの実行可能インターフェースを実現する資源である。ＧＡＴＥ可視化モデルは、そのタスクがビジュアル資源としてモデル化された他の資源を表示し編集することである資源を実現する。ＧＡＴＥ内のコーパス・モデルは、そのメンバが文書であるＪａｖａＳｅｔである。Ｃｏｒｐｏｒａおよび文書はいずれも言語資源（ＬＲ）のタイプであり、すべてのＬＲはそれに関連付けられ、資源に関する属性／値情報を保管した特徴マップ（ＪａｖａＭａｐ）を有している。特徴マップは、注釈モデルを介して任意の情報を文書の範囲（たとえば、テキストの断片）に関連付けるためにも使用される。文書は、現在はテキストである文書内容（将来のバージョンは視聴覚内容のサポートを追加することができる）と、ＪａｖａＳｅｔである１つまたは複数の注釈セットを有する。

ＵＩＭＡとして、ＧＡＴＥは、主なサブモジュールの１つとして開示された質問解答システムを有する自然言語対話システムおよびマルチモーダル対話システムを実現するための基礎として使用することができる。参考文献（米国特許第６，８２９，６０３号、第６，９８３，２５２号、および第７，１３６，９０９号）により、当業者はこのような実現例を構築することができる。

図１０は、本システムおよび本方法を使用することができるコンピューティング・システム４０１の模範的なハードウェア構成を示している。このハードウェア構成は、好ましくは、少なくとも１つのプロセッサまたは中央演算処理装置（ＣＰＵ）４１１を有する。ＣＰＵ４１１はシステム・バス４１２を介して、ランダム・アクセス・メモリ（ＲＡＭ）４１４、読み取り専用メモリ（ＲＯＭ）４１６、入出力（Ｉ／Ｏ）アダプタ４１８（ディスク・ユニット４２１およびテープ・ドライブ４４２などの周辺装置をバス４１２に接続するため）、ユーザ・インターフェース・アダプタ４２２（キーボード４２４、マウス４２６、スピーカ４２８、マイクロホン４３２、あるいはその他のユーザ・インターフェース装置、またはこれらの組み合わせをバス４１２に接続するため）、システム４００をデータ処理ネットワーク、インターネット、イントラネット、ローカル・エリア・ネットワーク（ＬＡＮ）などに接続するための通信アダプタ４３４、およびバス４１２を表示装置４３８あるいはプリンタ４３９（たとえば、デジタル・プリンタなど）またはその両方に接続するためのディスプレイ・アダプタ４３６に相互接続される。

当業者によって認識されるように、本発明の諸態様は、システム、方法、またはコンピュータ・プログラム製品として実施することができる。したがって、本発明の諸態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、またはソフトウェアとハードウェアの態様を組み合わせる実施形態の形を取ることができ、いずれも一般に本明細書では「回路」、「モジュール」、または「システム」と呼ぶことができる。さらに、本発明の諸態様は、そこにコンピュータ可読プログラム・コードが実施されている１つまたは複数のコンピュータ可読媒体に実施されたコンピュータ・プログラム製品の形を取ることができる。

１つまたは複数のコンピュータ可読媒体の任意の組み合わせを使用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体にすることができる。コンピュータ可読記憶媒体は、たとえば、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、あるいは上記のものの任意の適切な組み合わせにすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的リスト）としては、１つまたは複数のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、光ファイバ、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、あるいは上記のものの任意の適切な組み合わせを含むであろう。本明細書の文脈では、コンピュータ可読記憶媒体は、命令を実行するシステム、装置、またはデバイスによりあるいはそれに関連して使用するためのプログラムを収容または保管することができる任意の有形媒体にすることができる。

コンピュータ可読信号媒体は、たとえば、ベースバンド内でまたは搬送波の一部として、そこに実施されたコンピュータ可読プログラム・コードを含む伝搬データ信号を含むことができる。このような伝搬信号は、電磁、光、またはそれらの任意の適切な組み合わせを含むがこれらに限定されない様々な形のうちのいずれかを取ることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令を実行するシステム、装置、またはデバイスによりあるいはそれに関連して使用するためのプログラムを通信、伝搬、または輸送することができる任意のコンピュータ可読媒体にすることができる。

コンピュータ可読媒体上に実施されたプログラム・コードは、無線、有線、光ファイバ・ケーブル、ＲＦなど、あるいは上記のものの任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体を使用して伝送することができる。

本発明の諸態様に関する動作を実行するためのコンピュータ・プログラム・コードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語あるいは「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで作成することができる。プログラム・コードは、完全にユーザのコンピュータ上で、一部分はユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、一部分はユーザのコンピュータ上でしかも一部分はリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行することができる。後者のシナリオでは、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してリモート・コンピュータがユーザのコンピュータに接続される場合もあれば、（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに接続が行われる場合もある。

本発明の諸態様は、本発明の諸実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図あるいはブロック図またはその両方に関連して記載されている。流れ図あるいはブロック図またはその両方の各ブロックおよび流れ図あるいはブロック図またはその両方内の複数ブロックの組み合わせは、コンピュータ・プログラム命令によって実現可能であることが理解されるであろう。これらのコンピュータ・プログラム命令は、汎用コンピュータ、特殊目的コンピュータ、またはその他のプログラマブル・データ処理装置のプロセッサに提供し、コンピュータまたはその他のプログラマブル・データ処理装置のプロセッサにより実行された命令が流れ図あるいはブロック図またはその両方の１つまたは複数のブロックに指定された機能／行為を実現するための手段を作成するようなマシンを生産することができる。また、これらのコンピュータ・プログラム命令は、コンピュータ可読媒体に保管された命令が流れ図あるいはブロック図またはその両方の１つまたは複数のブロックに指定された機能／行為を実現する命令を含む装置（article of manufacture）を生産するような特定の方法で機能するよう、コンピュータ、その他のプログラマブル・データ処理装置、またはその他のデバイスに指示することができるコンピュータ可読媒体に保管することもできる。

また、コンピュータ・プログラム命令は、コンピュータ、その他のプログラマブル・データ処理装置、またはその他のデバイス上にロードし、コンピュータまたはその他のプログラマブル装置上で実行された命令が流れ図あるいはブロック図またはその両方の１つまたは複数のブロックに指定された機能／行為を実現するためのプロセスを提供するようなコンピュータによって実行されるプロセスを生産するように、コンピュータ、その他のプログラマブル・データ処理装置、またはその他のデバイス上で一連の動作ステップを実行させることもできる。

図面内の流れ図およびブロック図は、本発明の様々な諸実施形態によるシステム、方法、およびコンピュータ・プログラム製品について可能な実現例のアーキテクチャ、機能、および動作を例示している。この点に関しては、流れ図またはブロック図内の各ブロックは、指定の論理機能（複数も可）を実現するための１つまたは複数の実行可能命令を含む、コードのモジュール、セグメント、または一部分を表すことができる。

また、いくつかの代替実現例では、ブロック内に示された機能は図面内に示された順序から外れて行われる可能性があることに留意されたい。たとえば、連続して示されている２つのブロックは、関係する機能次第で、実際にはほぼ同時に実行される場合もあれば、ときには逆の順序で実行される場合もある。また、ブロック図あるいは流れ図またはその両方の各ブロックおよびブロック図あるいは流れ図またはその両方内の複数ブロックの組み合わせは、指定の機能または行為を実行する特殊目的ハードウェアベースのシステムあるいは特殊目的ハードウェアとコンピュータ命令との組み合わせによって実現可能であることも留意されるであろう。

上記の諸実施形態は説明のための例であり、本発明がこれらの特定の諸実施形態に限定されると解釈してはならない。したがって、当業者であれば、特許請求の範囲に定義されている本発明の精神または範囲を逸脱せずに、様々な変更および修正を行うことができる。

Claims

質問に対する解答を自動的に生成するためのコンピュータによって実行される方法であって、
入力照会に関連する字句解答タイプ（ＬＡＴ）を決定するステップと、
前記入力照会ＬＡＴに関する第１のスコアを計算するステップであって、前記第１のスコアが前記照会ＬＡＴの品質を示すステップと、
情報源から前記入力照会に対する候補解答を入手するステップと、
前記候補解答に関する解答タイプ（ＡＴ）を決定するステップと、
前記照会ＬＡＴと前記候補解答ＡＴを比較するステップと、
前記比較した照会ＬＡＴと前記候補解答ＡＴとの一致度を表す第２のスコアを計算するステップと、
前記第１のスコアと前記第２のスコアを結合して、前記候補解答の品質を示す合計スコアを提供するステップと
を含み、
処理装置が、前記照会ＬＡＴを決定することと、前記第１のスコアおよび第２のスコアを計算することと、候補解答を入手することと、ＡＴを決定することと、比較することと、結合することのうちの１つまたは複数を自動的に実行する、コンピュータによって実行される方法。
前記入力照会に関連する前記照会ＬＡＴに関する第１のスコアを計算することが、
前記決定された照会ＬＡＴを記述する特徴のセットを抽出することと、
前記特徴セットにモデルを適用して、前記決定された照会ＬＡＴの推定正確度を表すＬＡＴ信頼値を生成することであって、前記第１のスコアが前記信頼値を含むこと
を含む、請求項１記載のコンピュータによって実行される方法。
前記適用されたモデルが、訓練インスタンスの以前のセットから手動でまたは自動的に構築されたロジスティック回帰モデルまたは決定木モデルのうちの１つまたは複数である、請求項２記載のコンピュータによって実行される方法。
前記抽出された特徴セットのうちの１つの特徴がパターン・ルールを含み、前記特徴のセットを抽出することが、
前記照会に関連する構文パターン・ルールを識別することであって、前記パターン・ルールが共通ＬＡＴを定義する１組のパターン・ルールから識別されること
を含む、請求項２記載のコンピュータによって実行される方法。
前記抽出された特徴セットのうちの１つの特徴が照会ワードが候補ＬＡＴである頻度を含み、前記特徴のセットを抽出することが、
検出されたＬＡＴワードの前のインスタンスをチェックすることと、
前記前のインスタンスに基づいてＬＡＴワード頻度を計算すること
をさらに含む、請求項２記載のコンピュータによって実行される方法。
前記抽出された特徴セットのうちの１つの特徴が前記候補ＬＡＴの品詞を含み、前記特徴のセットを抽出することが、
前記照会に関連する解析木データ構造を入手することと、
前記解析木をトラバースして、前記候補ＬＡＴに関連するワード間の文法関係を識別すること
をさらに含む、請求項２記載のコンピュータによって実行される方法。
前記抽出された特徴セットのうちの１つの特徴が同一指示情報を含み、前記特徴のセットを抽出することが、前記候補ＬＡＴワードがＬＡＴとして認識された前記照会内の他の何らかのワードを同一指示するかどうかを判断することをさらに含む、請求項２記載のコンピュータによって実行される方法。
前記抽出された特徴セットのうちの１つまたは複数の特徴が並行して抽出される、請求項２記載のコンピュータによって実行される方法。
前記比較した照会ＬＡＴと前記候補解答ＡＴとの一致度を表す第２のスコアを計算することが、
前記候補解答をコーパスまたは知識ベース内のインスタンスと突き合わせることと、
前記コーパスまたは前記知識ベース内のインスタンスに関連するタイプを取り出すことと、
前記照会ＬＡＴを前記取り出されたタイプと突き合わせてタイプ強制（ＴｙＣｏｒ）値を生成することであって、前記第２のスコアが前記ＴｙＣｏｒ値を含むこと
を含む、請求項２記載のコンピュータによって実行される方法。
１つの照会がｎ個までの候補ＬＡＴを有し、結合して前記合計スコアを提供することが、
（信頼スコア_ＬＡＴ１）（ＴｙＣｏｒ_ＬＡＴ１）＋（信頼スコア_ＬＡＴ２）（ＴｙＣｏｒ_ＬＡＴ２）＋・・・＋（信頼スコア_ＬＡＴｎ）（ＴｙＣｏｒ_ＬＡＴｎ）
による加算であり、ここで、信頼スコア_ＬＡＴ１、信頼スコア_ＬＡＴ２、および信頼スコア_ＬＡＴｎは前記照会のそれぞれの決定されたＬＡＴの推定正確度を表す生成された信頼値であり、ＴｙＣｏｒ_ＬＡＴ１、ＴｙＣｏｒ_ＬＡＴ２、およびＴｙＣｏｒ_ＬＡＴｎはそれぞれのＬＡＴを有する候補解答の生成されたタイプ強制（ＴｙＣｏｒ）値である、請求項９記載のコンピュータによって実行される方法。
質問に対する解答を自動的に生成するためのシステムであって、
メモリ・ストレージ・デバイスと、
それぞれが前記メモリ・デバイスに通じていて、
入力照会に関連する字句解答タイプ（ＬＡＴ）を決定することと、
前記照会ＬＡＴに関する第１のスコアを計算することであって、前記第１のスコアが前記照会ＬＡＴの品質を示すことと、
情報源から前記入力照会に対する候補解答を入手することと、
前記候補解答に関する解答タイプ（ＡＴ）を決定することと、
前記照会ＬＡＴと前記候補解答ＡＴを比較することと、
前記比較した照会ＬＡＴと前記候補解答ＡＴとの一致度を表す第２のスコアを計算することと、
前記第１のスコアと前記第２のスコアを結合して、前記候補解答の品質を示す合計スコアを提供すること
を含む方法を実行するために構成された１つまたは複数のプロセッサ・デバイスと
を含む、システム。
前記照会ＬＡＴに関する第１のスコアを計算するための前記１つまたは複数のプロセッサ・デバイスが、
前記決定された照会ＬＡＴを記述する特徴のセットを抽出することと、
前記特徴セットにモデルを適用して、前記決定された照会ＬＡＴの推定正確度を表すＬＡＴ信頼値を生成することであって、前記第１のスコアが前記信頼値を含むこと
によって前記計算ステップを実行するように構成される、請求項１１記載のシステム。
前記１つまたは複数のプロセッサ・デバイスが、訓練インスタンスの以前のセットから手動でまたは自動的に構築されたロジスティック回帰モデルまたは決定木モデルのうちの１つまたは複数を適用するように構成される、請求項１２記載のシステム。
前記抽出された特徴セットのうちの１つの特徴がパターン・ルールを含み、特徴のセットを抽出するための前記１つまたは複数のプロセッサ・デバイスが、
前記照会に関連する構文パターン・ルールを識別することであって、前記パターン・ルールが共通ＬＡＴを定義する１組のパターン・ルールから識別されること
をさらに実行する、請求項１２記載のシステム。
前記抽出された特徴セットのうちの１つの特徴が照会ワードが候補ＬＡＴである頻度を含み、特徴のセットを抽出するための前記１つまたは複数のプロセッサ・デバイスが、
検出されたＬＡＴワードの前のインスタンスをチェックすることと、
前記前のインスタンスに基づいてＬＡＴワード頻度を計算すること
をさらに実行する、請求項１２記載のシステム。
前記抽出された特徴セットのうちの１つの特徴が前記候補ＬＡＴの品詞を含み、特徴のセットを抽出するための前記１つまたは複数のプロセッサ・デバイスが、
前記照会に関連する解析木データ構造を入手することと、
前記解析木をトラバースして、前記候補ＬＡＴに関連するワード間の文法関係を識別すること
をさらに実行する、請求項１２記載のシステム。
前記抽出された特徴セットのうちの１つの特徴が同一指示情報を含み、特徴のセットを抽出するための前記１つまたは複数のプロセッサ・デバイスが、前記候補ＬＡＴワードがＬＡＴとして認識された前記照会内の他の何らかのワードを同一指示するかどうかを判断することをさらに実行する、請求項１２記載のシステム。
第２のスコアを計算するための前記１つまたは複数のプロセッサ・デバイスが、
前記候補解答をコーパスまたは知識ベース内のインスタンスと突き合わせることと、
前記コーパスまたは前記知識ベース内のインスタンスに関連するタイプを取り出すことと、
前記照会ＬＡＴを前記取り出されたタイプと突き合わせてタイプ強制（ＴｙＣｏｒ）値を生成することであって、前記第２のスコアが前記ＴｙＣｏｒ値を含むこと
によって前記計算ステップを実行するように構成される、請求項１２記載のシステム。
１つの照会がｎ個の候補ＬＡＴを有し、結合して前記合計スコアを提供するための前記１つまたは複数のプロセッサ・デバイスが、
（信頼スコア_ＬＡＴ１）（ＴｙＣｏｒ_ＬＡＴ１）＋（信頼スコア_ＬＡＴ２）（ＴｙＣｏｒ_ＬＡＴ２）＋・・・＋（信頼スコア_ＬＡＴｎ）（ＴｙＣｏｒ_ＬＡＴｎ）
による加算を実行し、ここで、信頼スコア_ＬＡＴ１、信頼スコア_ＬＡＴ２、および信頼スコア_ＬＡＴｎはそれぞれの決定された照会ＬＡＴの推定正確度を表す生成された信頼値であり、ＴｙＣｏｒ_ＬＡＴ１、ＴｙＣｏｒ_ＬＡＴ２、およびＴｙＣｏｒ_ＬＡＴｎはそれぞれのＬＡＴを有する候補解答の生成されたタイプ強制（ＴｙＣｏｒ）値である、請求項１８記載のシステム。
質問に対する解答を自動的に生成するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム装置が、処理装置によって読み取り可能で、ある方法を実行するために前記処理回路によって実行される命令を保管する記憶媒体を含み、前記方法が、
入力照会に関連する字句解答タイプ（ＬＡＴ）を決定することと、
前記照会ＬＡＴに関する第１のスコアを計算することであって、前記第１のスコアが前記照会ＬＡＴの品質を示すことと、
情報源から前記入力照会に対する候補解答を入手することと、
前記候補解答に関する解答タイプ（ＡＴ）を決定することと、
前記照会ＬＡＴと前記候補解答ＡＴを比較することと、
前記比較した照会ＬＡＴと前記候補解答ＡＴとの一致度を表す第２のスコアを計算することと、
前記第１のスコアと前記第２のスコアを結合して、前記候補解答の品質を示す合計スコアを提供すること
を含む、コンピュータ・プログラム製品。
前記入力照会に関連するそれぞれのＬＡＴに関する第１のスコアを計算することが、
前記算出された照会ＬＡＴを記述する特徴のセットを抽出することと、
前記特徴セットにモデルを適用して、前記決定された照会ＬＡＴの推定正確度を表すＬＡＴ信頼値を生成することであって、前記第１のスコアが前記信頼値を含むこと
を含む、請求項２０記載の質問に対する解答を自動的に生成するためのコンピュータ・プログラム製品。
前記抽出された特徴セットのうちの第１の特徴がパターン・ルールを含み、前記特徴のセットを抽出することが、前記照会に関連する構文パターン・ルールを識別することであって、前記パターン・ルールが共通ＬＡＴを定義する１組のパターン・ルールから識別されることを含み、
前記抽出された特徴セットのうちの第２の特徴が照会ワードが候補ＬＡＴである頻度を含み、前記特徴のセットを抽出することが、検出されたＬＡＴワードの前のインスタンスをチェックすることと、前記前のインスタンスに基づいてＬＡＴワード頻度を計算することをさらに含み、
前記抽出された特徴セットのうちの第３の特徴が前記候補ＬＡＴの品詞を含み、前記特徴のセットを抽出することが、前記照会に関連する解析木データ構造を入手することと、前記解析木をトラバースして、前記候補ＬＡＴに関連するワード間の文法関係を識別することをさらに含み、
前記抽出された特徴セットのうちの第４の特徴が同一指示情報を含み、前記特徴のセットを抽出することが、前記候補ＬＡＴワードがＬＡＴとして認識された前記照会内の他の何らかのワードを同一指示するかどうかを判断することをさらに含む、請求項２１記載の質問に対する解答を自動的に生成するためのコンピュータ・プログラム製品。
テキスト・ストリングを含む照会から特徴を抽出するための方法であって、前記方法が、
前記照会に関連する構文パターン・ルールを識別することであって、前記パターン・ルールが共通字句解答タイプ（ＬＡＴ）を定義する１組のパターン・ルールから識別され、前記抽出された特徴のうちの第１の特徴が識別されたパターン・ルールを含むことと、
検出された字句解答タイプ（ＬＡＴ）の前のインスタンスについてチェックし、前記前のインスタンスに基づいてＬＡＴワード頻度を計算することであって、前記抽出された特徴のうちの第２の特徴が照会ワードが候補ＬＡＴである算出頻度を含むことと、
前記照会に関連する解析木データ構造を入手することと、
前記解析木構造内の前記候補ＬＡＴに関連するワード間の文法関係を識別することであって、前記抽出された特徴のうちの第３の特徴が前記候補ＬＡＴの品詞を含むことと、
前記候補ＬＡＴワードがＬＡＴとして認識された前記照会内の他の何らかのワードを同一指示するかどうかを判断することであって、前記抽出された特徴のうちの第４の特徴が同一指示情報を含み、１つまたは複数のプログラミングされたプロセッサ・デバイスが、前記構文パターン・ルールを識別することと、前のインスタンスについてチェックすることと、前記解析木データ構造を入手することと、文法関係を識別することと、ＬＡＴワード同一指示を判断することを実行すること
を含む、特徴を抽出するための方法。
前記１つまたは複数のプログラミングされたプロセッサ・デバイスが、前記１つまたは複数の第１、第２、第３、および第４の特徴を並行して抽出することを実行する、請求項２３記載の特徴を抽出するための方法。
前記抽出された第１、第２、第３、および第４の特徴にモデルを適用して、検出された照会ＬＡＴの推定正確度を表す信頼値を生成すること
をさらに含む、請求項２３記載の特徴を抽出するための方法。