JP2014199475A

JP2014199475A - 言語表現抽出装置、言語表現抽出方法およびプログラム

Info

Publication number: JP2014199475A
Application number: JP2013073663A
Authority: JP
Inventors: 雄司野村; Yuji Nomura; 高志末永; Takashi Suenaga; 高木　徹; Toru Takagi; 徹高木
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2014-10-23

Abstract

【課題】所望の句表現を正確に抽出することを可能にする言語表現抽出装置を提供する。【解決手段】言語表現抽出装置１０は、特定の文字列からなる句表現を正解インスタンスとして登録する登録部１１と、文書データの中から句表現を含む文字列のパターンを生成し、パターンに基づいて、文書データに含まれる文字列表現を、仮インスタンスとして抽出する抽出部１２と、仮インスタンスの文字列表現の特徴と、正解インスタンスの句表現の特徴とが一致する度合いに基づいて、仮インスタンスに対する信頼性を評価する評価部１３と、信頼性の評価結果に応じて、仮インスタンスの中から絞り込まれた仮インスタンスの文字列表現を、インスタンスとして決定する決定部１４とを含む。【選択図】図１

Description

本発明は、文書データの中から所望の表現を抽出するための言語表現抽出装置、言語表現抽出方法およびプログラムに関する。

企業では一般に、自社製品のより深い分析や業務効率を向上させるために、消費者から直接寄せられる情報や、ウェブ上の様々な情報を活用する必要性がある。具体的には、企業では、そのような情報の中に含まれる一般的な製品の評判や評価に関する内容を分析することにより、製品の良し悪しについて把握するだけではなく、製品の不具合または消費者の苦情や要望・感謝などを表す情報を抽出し、事業の改善活動や今後の注意喚起につなげたい場合が多い。そのために、目的ごとに、意味のある単位で情報を抽出する必要がある。例えば、「メールを着信した際、音が鳴らない」という文がある場合、その事象が生じる条件となる「メールを着信した際」と、不具合の事象となる「音が鳴らない」とを対にした句表現として抽出することで、抽出した句表現が含まれる文全体の背景を含めた理解ができるようになる。

公知のキーワード検索に基づく情報分析では、キーワードとしての例えば「音」または「鳴らない」を個別に抽出する必要があるが、そのようなキーワードから、当該キーワードを含む表現が、重要な内容か否かを判断することは容易ではない。

従来、語彙を自動的に抽出するブートストラッピング技術が知られている。例えば、このブートストラッピング技術では、抽出対象となる語と、この語を含む抽出パターンとを交互に抽出していき、文書データの中から、正解データとしての語に対応する所望の語を取得するものがある（特許文献１、２）。

国際公開２００９／１１３２８９号

Pantel, P. and Pennacchiotti, M.: Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations, In Proc. of COLING-ACL, pp.113-120, 2006

上記ブートストラッピング技術では、所望の語を取得することができるものの、名詞を構成する語を抽出することを想定しているため、従来の技術では、文字列からなる所望の句表現を正確に抽出することができないという問題があった。

本発明は、上述した状況においてなされたものであり、所望の句表現を正確に抽出することを可能にする言語表現抽出装置、言語表現抽出方法およびプログラムを提供することにある。

上記の課題を解決するための言語表現抽出装置は、特定の文字列からなる句表現を正解データとして登録する登録部と、抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出する抽出部と、前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価する評価部と、前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定する決定部とを含む。

上記の課題を解決するための言語表現抽出方法は、コンピュータによって実行される言語表現抽出方法であって、特定の文字列からなる句表現を正解データとして登録するステップと、抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出するステップと、前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価するステップと、前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定するステップとを含む。

上記の課題を解決するためのプログラムは、上記言語表現抽出方法をコンピュータに実行させるためのものである。

本発明によれば、所望の句表現を正確に抽出することができる。

第１実施形態に係る言語表現抽出装置の構成例を示す図である。仮インスタンスと正規インスタンスとが一致する度合いを示す一致度を計算する方法を説明するための図である。第１実施形態の言語表現抽出装置における制御処理全体の一例を示すフローチャートである。第２実施形態に係る言語表現抽出装置の構成例を示す図である。文書記憶部のデータ構成の一例を示す図である。解析結果記憶部のデータ構成の一例を示す図である。インスタンス記憶部のデータ構成の一例を示す図である。パターン記憶部のデータ構成の一例を示す図である。単一パターン記憶部のデータ構成の一例を示す図である。第２実施形態の言語表現抽出装置における制御処理全体の一例を示すフローチャートである。第２実施形態の言語表現抽出装置において、ペアのインスタンス抽出処理のために実行される処理の一例を示すフローチャートである。ペアのインスタンス抽出処理時におけるインスタンス記憶部およびパターン記憶部の各データ構成の一例を示す図である。第２実施形態の言語表現抽出装置において、単一のインスタンス抽出処理のために実行される処理の一例を示すフローチャートである。単一のインスタンス抽出処理時におけるインスタンス記憶部およびパターン記憶部の各データ構成の一例を示す図である。第３実施形態に係る言語表現抽出装置の構成例を示す図である。

＜第１実施形態＞
以下、本発明の第１実施形態に係る言語表現抽出装置１０について説明する。この言語表現抽出装置１０は、文書データの中から抽出された文字列表現の信頼性を評価し、その結果に応じて、抽出された文字列表現の中から、信頼性の高い文字列表現を抽出するものである。

[言語表現抽出装置１０の構成]
本実施形態の言語表現抽出装置１０の構成例について図１および図２を参照して説明する。図１は、一実施形態に係る言語表現抽出装置１０の構成例を示す図である。図２は、仮インスタンスと正規インスタンスとが一致する度合いを示す一致度を計算する方法を説明するための図であって、（ａ）は文書中の正解インスタンスおよび仮インスタンス、（ｂ）は正解インスタンスおよび仮インスタンスの形態素列、（ｃ）は形態素列の各品詞、を示す。

図１に示すように、言語表現抽出装置１０は、登録部１１と、抽出部１２と、評価部１３と、決定部１４とを備える。言語表現抽出装置１０は、例えば、パーソナルコンピュータ、サーバコンピュータ等である。

登録部１１は、例えばＲＯＭまたはＲＡＭにより構成され、特定の文字列からなる表現を正解データとして登録する。この実施形態では、特定の文字列からなる表現は、複数の形態素列からなる１つ以上の文章表現（句表現）であるが、この文章表現は後に例示する。

なお、ＲＯＭにはプログラムが記憶されており、当該プログラムが実行され、本実施形態の言語表現抽出装置１０が実現される。このプログラムは、ＣＤ−ＲＯＭ等の記憶媒体に格納されていてもよい。

抽出部１２は、抽出対象となる文書データの中から、正解インスタンス（正解データ）となる表現を含む文字列の抽出パターン（以下、単に「パターン」と略記する。）を選び、その表現の出現頻度とパターンの出現頻度とに基づいて、文書データに含まれる文字列表現を、仮インスタンス（抽出候補）として抽出する。抽出部１２では、正解インスタンスおよび仮インスタンスの各々を対象として、形態素（言語で意味を持つ最小単位）の列に分割し、各形態素の品詞を判別する。そして、抽出部１２では、例えばブートストラッピング手法にしたがって、インスタンスとパターンとを相互再帰的に信頼度を計算する。この実施形態では、抽出部１２は、例えば自己相互情報量（特許文献１を参照）を利用し、下記の式によってインスタンスの第１信頼度Ｓｃｏｒｅ（ｉ）（ｉ＝１，２，・・・）と、パターンの第１信頼度Ｓｃｏｒｅ（ｐ）（ｐ＝１，２，・・・）を計算する。Ｓｃｏｒｅ（ｉ）は、下記の式によって計算される。

式（１）中、ｐｍｉ（ｉ，ｐ）はｌｏｇ_２{│ｉ，ｐ│／│ｉ││ｐ│}、│Ｉ│はインスタンスの数、│ｐ│はパターンの数、│ｉ│は文書中に出現するインスタンスの頻度、│ｐ│は文書中に出現するパターンの頻度、│ｉ，ｐ│は文書中におけるインスタンスとパターンとの共起頻度を示す。Ｓｃｏｒｅ（ｐ）は、下記の式によって計算される。

抽出部１２は、すべてのインスタンスと、すべてのパターンとを対象として、それぞれの第１信頼度を計算し、第１信頼度が閾値以上のインスタンスを、仮インスタンスとして抽出する。

評価部１３は、仮インスタンスの文字列表現と、正解インスタンスの表現とが一致する度合いに基づいて、仮インスタンスに対する信頼性を評価する。この実施形態では、仮インスタンスに対する信頼性の評価手法として、正解インスタンスの特徴（形態素の品詞、表層など）と仮インスタンスの特徴（形態素の品詞、表層など）との間の第２信頼度が計算される。この第２信頼度は、上述した式（１）で示した第１信頼度Ｓｃｏｒｅ（ｉ）（ｉ＝１，２，・・・）と、仮インスタンスと正規インスタンスとが一致する度合いを表す一致度ｍａｔｃｈＳｃｏｒｅ（ｉ）（ｉ＝１，２，・・・）とを用いて、例えば{Ｓｃｏｒｅ（ｉ）×ｍａｔｃｈＳｃｏｒｅ（ｉ）}によって計算されるが、{Ｓｃｏｒｅ（ｉ）＋ｍａｔｃｈＳｃｏｒｅ（ｉ）}によって計算されるようにしてもよい。一致度ｍａｔｃｈＳｃｏｒｅ(i)は、例えば下記式で計算される。

式（３）中、ｄｉｓｔａｎｃｅ（ｐｏｓ（ｉ），ｐｏｓ（ｃｏｒｒｅｃｔ））は仮インスタンスの形態素の品詞構成を正解インスタンスの形態素の品詞構成と一致させるために要する形態素の追加または削除の回数、ｍａｘ（│ｐｏｓ（ｉ）│，│ｐｏｓ（ｃｏｒｒｅｃｔ）│）は正解インスタンスまたは仮インスタンスのうち、形態素の数が多い方の形態素の数を示す値、を示す。

例えば図２（ａ）〜（ｃ）で示す例で説明すると、仮インスタンスと正規インスタンスとが一致する度合いを表す一致度ｍａｔｃｈＳｃｏｒｅ（ｉ）（ｉ＝１，２，・・・）の計算例として、正解インスタンスは、「アップデート」（名詞−一般）／「し」（動詞−自立）／「た」（助動詞）／「後」（名詞−非自立−副詞可能）の形態素の列を含む「アップデートした後」という表現が登録されている。そして、文書の中から、例えば、「ＯＳアップデート」（名詞−一般）／「を」（助詞−格助詞−一般）／「実施」（名詞−サ変接続）／「し」（動詞−自立）／「ら」（助動詞）の形態素の列を含む「ＯＳアップデートを実施したら」という文字列表現の仮インスタンスが抽出される。

図２（ｃ）に示すように、評価部１３では、仮インスタンスの形態素の品詞構成、および、正規インスタンスの形態素の品詞構成に基づいて、仮インスタンスの形態素の品詞構成を正規インスタンスの形態素の品詞構成と一致させるための編集の回数を判定することにより、一致度ｍａｔｃｈＳｃｏｒｅ（ｉ）（ｉ＝１，２，・・・）を計算する。図２では、仮インスタンスの形態素の品詞構成と正規インスタンスの形態素の品詞構成とを一致させるためには、例えば、仮インスタンスの「を」（助詞−格助詞−一般）と、「実施」（名詞−サ変接続）とを削除し、さらには、正解インスタンスの「後」（名詞−非自立−副詞可能）と同一の品詞を仮インスタンスに追加する必要がある。すなわち、編集の回数は３回になるので、式（３）に示したｄｉｓｔａｎｃｅ（ｐｏｓ（ｉ），ｐｏｓ（ｃｏｒｒｅｃｔ））は、３になる。

図２に示す例では、正規インスタンスは４つの形態素で構成され、仮インスタンスは５つの形態素で構成されているので、式（３）に示したｍａｘ（│ｐｏｓ（ｉ）│，│ｐｏｓ（ｃｏｒｒｅｃｔ）│）は、５になる。

評価部１３では、式（３）において、ｄｉｓｔａｎｃｅ（ｐｏｓ（ｉ），ｐｏｓ（ｃｏｒｒｅｃｔ））＝３、および、ｍａｘ（│ｐｏｓ（ｉ）│，│ｐｏｓ（ｃｏｒｒｅｃｔ）│）＝５を代入し、一致度ｍａｔｃｈＳｃｏｒｅ（ｉ）＝１−３／５＝０．４を得る。

この実施形態では、第２信頼度＝第１信頼度（式（１）の計算結果）×一致度（式（３）の計算結果）、または、第２信頼度＝第１信頼度（式（１）の計算結果）＋一致度（式（３）の計算結果）になるので、この計算結果から第２信頼度が得られる。

決定部１４は、評価部１３における信頼性の評価結果に応じて、仮インスタンスの中から絞り込まれた仮インスタンスの文字列表現を、抽出対象として決定する。例えば、仮インスタンスが閾値以上の第２信頼度を有すれば、その仮インスタンスが抽出対象として決定される。

なお、抽出部１２、評価部１３および決定部１４は、ＣＰＵによって実現される。

[言語表現抽出装置１０の動作]
次に、この言語表現抽出装置１０によって実現される全体処理について、図１〜図３を参照して説明する。図３は、言語表現抽出装置１０における制御処理全体の一例を示すフローチャートである。

図３において、正解インスタンスが入力されると、登録部１１は、その正解インスタンスを登録し（ステップＳ１）、抽出部１２は、文書の中から仮インスタンスを抽出する（ステップＳ２）。例えば言語表現抽出装置１０がサーバコンピュータの場合、正解インスタンスの入力は、サーバコンピュータと接続された外部のコンピュータから行われる。言語表現抽出装置１０がパーソナルコンピュータの場合は、正解インスタンスの入力は、キーボード等の入力装置によって行われる。正解インスタンスは、登録部１１に予め登録しておくようにしてもよい。

ステップＳ２では、抽出部１２は、仮インスタンスを抽出する場合には、パターンを生成して、インスタンスの第１信頼度（式（１）の計算結果）と、パターンの第１信頼度（式（２）を参照）とを計算し、閾値以上の第１信頼度をもつインスタンスを、仮インスタンスとして設定する。

次に評価部１３は、仮インスタンスの特徴と正解インスタンスの特徴とが一致するか否かに基づいて、仮インスタンスに対する信頼性の評価を行う（ステップＳ３）。図２の正解インスタンスおよび仮インスタンスの例によれば、評価部１３は、式（３）を用いて、仮インスタンスに対する一致度ｍａｔｃｈＳｃｏｒｅ（ｉ）を「０．４」に設定し、この「０．４」と、対応する第１信頼度Ｓｃｏｒｅ（ｉ）（式（１）の計算結果）とを例えば乗算して、仮インスタンスの第２信頼度を計算する。この第２信頼度が、仮インスタンスに対する信頼性の評価結果として与えられることになる。

図３において、決定部１４は、第２信頼度が与えられた評価結果に応じて、インスタンスを決定する（ステップＳ４）。決定部１４は、例えば、第２信頼度が閾値以上の仮インスタンスを、正解インスタンスに対応するインスタンスとして決定する。

以上説明したように、本実施形態の言語表現抽出装置１０によれば、正解インスタンスに対応する仮インスタンスを抽出し、仮インスタンスに対する信頼性を評価して、複数の仮インスタンスの中から信頼性の高い仮インスタンスを選択することによりインスタンスが決定される。ここで、仮インスタンスの信頼性を高くするためには、第２信頼度が高い必要があるので、上述した第１信頼度と、正解インスタンスと仮インスタンスとの一致度とが高いことが要求される。そのため、この実施形態の言語表現抽出装置１０では、正解インスタンスとの関係が強いインスタンスを抽出することができる。例えば、「Ａソフトをインストールした後、ＰＣが起動しない。」という文の「ＰＣが起動しない」と記述されている内容を、不具合の表現として正解インスタンスが登録されていれば、その不具合の表現とは関係のない記述である「インストールした後、すぐに利用することができました。」という文の信頼性が低くなり、その文の表現がインスタンスとして抽出されることがなくなる。

また、上記と同様に、「ＰＣが起動しない」ととい不具合を表す表現が正解インスタンスとして登録されている場合、例えば、「インストールした後、手順を何度も確認したが、正常に起動しません。」という文における「手順を何度も確認したが」の記述は、正解インスタンスとして登録された不具合の表現である「ＰＣが起動しない」という内容とは関係のない記述となるため、このような余事的記載を含む「手順を何度も確認したが、正常に起動しません。」という表現は、インスタンスとして抽出されなくなる。

ここで、信頼性の評価は、仮インスタンスの文字列表現内のすべての形態素列の構成（例えば、品詞等）と、正解データの句表現内のすべての形態素列の構成（例えば、品詞等）とが一致するか否か（図２（ｃ）参照）に基づいて行われるので、２つのインスタンス間の形態素列の品詞等が同じであればあるほど、信頼性が高くなる。これにより、正解インスタンスに対応するインスタンスを正確に抽出しやすくなる。

＜第２実施形態＞
以下、第２実施形態である言語表現抽出装置１００について説明する。

第１実施形態の言語表現抽出装置１０は、１つの正解インスタンスに基づいて抽出された仮インスタンスから、信頼性の高い仮インスタンスに絞り込んでインスタンスを決定する場合について説明したが、正解インスタンスは、必ずしも１つとする必要はない。本実施形態の言語表現抽出装置１００は、第１実施形態のものと同様のインスタンスの抽出を実現するものであるが、２つの正解インスタンス（ペアの句表現を含むもの）を与えて文字列の中から、その２つの正解インスタンスに対応する２つのインスタンスを抽出し、さらなる１つの正解インスタンスを与えて、上記２つのインスタンス（正解インスタンスを含む。）と関連があるインスタンスを抽出する。これにより、インスタンスの抽出精度が向上する。

以下の各実施形態の説明では、２つの正解インスタンスに対応する２つのインスタンスの抽出処理を、「ペアのインスタンスの抽出処理」と称する。また、さらなる１つの正解インスタンスに対応し、かつ上記２つのインスタンスと関連があるインスタンスの抽出処理を、「単一のインスタンスの抽出処理」と称する。

[言語表現抽出装置１００の構成]
言語表現抽出装置１００の構成例について図４〜図９を参照して説明する。図４は言語表現抽出装置１００の構成例を示す図である。図５は、文書記憶部のデータ構成の一例を示す図である。図６は、解析結果記憶部のデータ構成の一例を示す図である。図７は、インスタンス記憶部のデータ構成の一例を示す図である。図８は、パターン記憶部のデータ構成の一例を示す図である。図９は、単一パターン記憶部のデータ構成の一例を示す図である。

図４において、言語表現抽出装置１００は、文書記憶部１０１、形態素解析／係り受け解析部１０２、解析結果記憶部１０３、パターン生成部１０４、パターン信頼性評価部１０５、パターン記憶部１０６、インスタンス抽出部１０７、インスタンス信頼性評価部１０８およびインスタンス絞込部１０９を備える。さらに、言語表現抽出装置１００は、インスタンス記憶部１１０、単一パターン生成部１１１、単一パターン信頼性評価部１１２、単一インスタンス抽出部１１３、単一パターン記憶部１１４、単一インスタンス信頼性評価部１１５、単一インスタンス信頼性再評価部１１６、および、単一インスタンス絞込部１１７を備える。

文書記憶部１０１は、抽出対象の文書データを記憶する。図５に示すように、文書データは、文書ＩＤと、文ＩＤと、文テキストとを含む。

解析結果記憶部１０３は、形態素解析／係り受け解析部１０２によって解析された結果を記憶する。この解析結果は、図６に示すように、文ＩＤと対応付けられる。

インスタンス記憶部１１０は、インスタンスを記憶する。このインスタンスは、図７に示すように、インスタンスＩＤと、表現種別と、第２信頼度と、インスタンスの開始位置と、インスタンスの終了位置と、抽出元パターンＩＤと、抽出元文ＩＤと、抽出可否と対応付けられる。表現種別は、対応するインスタンスが意図する内容に応じて、原因、症状などがある。図７に示したインスタンスの開始位置および終了位置によって、文書中におけるインスタンスの各位置が特定される。インスタンス記憶部１１０のデータについては、後述する動作説明において適宜参照される。

パターン記憶部１０６は、パターンを記憶する。このパターンは、図８に示すように、パターンＩＤと、表現種別１と、表現種別２と、第２信頼度と、生成元インスタンスペアと対応付けられる。これらのデータは、後述する動作説明について適宜参照される。

単一パターン記憶部１１４は、単一パターンを記憶する。この単一パターンは、パターンＩＤと、表現種別と、生成元インスタンスペアとに対応付けられる。これらのデータは、後述する動作説明について適宜参照される。

図４に示した各記憶部１０１、１０３、１０６、１１０、１１４以外の構成要素については、以下の言語表現抽出装置１００の動作説明において適宜参照される。

なお、図４に示した各記憶部１０１、１０３、１０６、１１０、１１４は、図１に示した登録部１１として機能する。図４に示した解析部１０２、各生成部１０４、１１１および各抽出部１０７、１１３は、図１に示した抽出部１２として機能する。図４に示した各評価部１０５、１０８、１１２、１１５、１１６は、図１に示した評価部１３として機能する。図４に示した各絞込部１０９、１１７は、図１に示した決定部１４として機能する。

[言語表現抽出装置１００の動作]
以下、この言語表現抽出装置１００の動作について説明する。

先ず、言語表現抽出装置１００によって実行される処理の全体について、図４および図１０を参照して説明する。図１０は、言語表現抽出装置１００の制御処理の全体の一例を示すフローチャートである。

図１０において、形態素解析／係り受け解析部１０２は、文書記憶部１０１から文書データを読み出して、その全文書を対象として、形態素解析および係り受け解析を行う（ステップＳ１０）。その解析結果は、解析結果記憶部１０３に記憶される。

次に、初期の正解インスタンスの登録処理が行われた後に（ステップＳ１１）、言語表現抽出装置１００は、ペアのインスタンスの抽出処理を行うとともに（ステップＳ１２）、単一のインスタンスの抽出処理を行う（ステップＳ１３）。なお、ステップＳ１２およびＳ１３の処理は、それぞれ後述する図１１および図１３において、詳細なフローチャートを示してある。

図１１は、ペアのインスタンスの抽出処理の一例を示すフローチャートである。図１２は、図１１のペアのインスタンスの抽出処理時における各記憶部１０６、１１０のデータ構成であって、（ａ）はインスタンス記憶部１１０のデータ構成、（ｂ）はパターン記憶部１０６のデータ構成を示す。なお、以下の動作説明において、値が適宜示されるが、例示的に示しているに過ぎない。

図１１において、インスタンス抽出部１０７は、全文書の中から２つの正解インスタンスの表現を含む仮インスタンスを抽出する（ステップＳ１２１）。この抽出処理は、本実施形態においても図３のステップＳ２で示したものと同一である。

図１１の例では、初期の正解インスタンスとして、例えば、「アップデートした後」という条件を表す表現と、「起動しない」という症状を表す表現とが与えられ、これらの正解インスタンスは、図１２（ａ）に示すように、インスタンス記憶部１１０に記憶される。この正解インスタンスは、例えば「＜条件＞アップデートした後＜／条件＞、＜症状＞起動しない＜／症状＞ことがある。」という文（抽出元文）に含まれる。

なお、以下の説明において、＜条件＞は正規インスタンスの条件表現の開始位置、＜／条件＞は正規インスタンスの条件表現の終了位置、＜症状＞は正規インスタンスの症状表現の開始位置、＜／症状条件＞は正規インスタンスの症状表現の終了位置を示す。

この場合、ステップＳ１２１で抽出された仮インスタンスは、例えば、「アップデートした後、たまに起動しない場合があり困っています。」という文１（インスタンスＩＤ＝「１０００３」、「１０００４」：図１２（ａ）参照）、および、「アップデートした後、再起動せずにソフトを起動しないでください。」という文２（インスタンスＩＤ＝「１０００５」、「１０００６」：図１２（ａ）参照）等が抽出され、これらの仮インスタンスがインスタンス記憶部１１０（図１２（ａ）のＳ１２１で抽出された仮インスタンスを参照）に記憶される。

次に、パターン生成部１０４は、正解インスタンス、および、仮インスタンスの周辺情報を取得し（ステップＳ１２２）、周辺情報からインスタンスを抽出するためのパターンを生成する（ステップＳ１２３）。周辺情報は、対応する文中、対応するインスタンスの前後の文字列、または、対応するインスタンスの係り受けの文字列を意味する。

図１１のフローチャートの例によれば、ステップＳ１２３で、例えば５つのパターン、すなわち、パターン１＝「＾（．＋）、（．＋）ことがある。」（正解インスタンスに対応するもの）、パターン２＝「＾（．＋）、たまに（．＋）場合があり^＊」、パターン３＝「＾（．＋）、^＊？（．＋）場合が．^＊？」、パターン４＝「＾（．＋）、再起動せずにソフトを（．＋）でください。」、パターン５＝「＾（．＋）、^＊？ソフトを（．＋）でください。」が生成される（図１２（ｂ）の「パターン」を参照）。

なお、この実施形態の説明では、「＾」は先頭、パターン内の第１番目の「（．＋）」は正規インスタンスの条件表現に対応する文字列、パターン内の２番目の「（．＋）」は正規インスタンスの症状表現に対応する文字列を表してある。また、「^＊」は０語以上の語があり得ることを意味し、「？」は該当する記述（例えば、「たまに」）があってもなくてもよいことを意味する。

次に、パターン信頼性評価部１０５は、生成されたパターンの第２信頼度を算出する（ステップＳ１２４）。この第２信頼度の算出処理は、本実施形態においても第１実施形態で説明したものと同様に、第１信頼度（式（２）の計算結果）×一致度（式（３）と同様の計算）により行われる。例えば、上述したパターン１〜５の第１信頼度がそれぞれ、０．６、０．９、０．５、０．８、０．７で、パターン１〜５の一致度がそれぞれ、１、０．９、０．８、０．２、０．３の場合（この実施形態では、パターン１は、抽出元のパターンが存在しないため、正解インスタンスに対応するパターンとみなし、パターン１の一致度を例えば「１」とする。）、パターン１〜５の第２信頼度はそれぞれ、例えば（対応する第１信頼度）×（対応する一致度）となるため、次のとおりとなる。
・パターン１の第２信頼度：０．６（＝０．６×１）
・パターン２の第２信頼度：０．７２（＝０．９×０．８）
・パターン３の第２信頼度：０．４５（＝０．５×０．９）
・パターン４の第２信頼度：０．１６（＝０．８×０．２）
・パターン５の第２信頼度：０．２１（＝０．７×０．３）

パターン１〜５の第２信頼度は、パターン記憶部１０６に記憶される（図１２（ｂ）の「第２信頼度」を参照）。

次に、インスタンス抽出部１０７は、パターンに一致する新規インスタンスを、文書記憶部１０１の文書集合から抽出する（ステップＳ１２５）。ステップＳ１２５では、パターンは、閾値（例えば０．２等）以上の第２信頼度を有するものが選択される。

インスタンス抽出部１０７は、文書記憶部１０１を参照し、一致した新規インスタンスを含む文を検索してその文ＩＤを取得するとともに、一致する新規インスタンス部分の開始位置および終了位置を取得し、これらのデータをインスタンス記憶部１１０に記憶する（図１２（ｂ）のＳ１２５で抽出された新規インスタンスを参照）。

なお、ステップＳ１２５では、例えば、上述したパターン２、３に対応する下記仮インスタンス（「インスタンス１」ともいう。）、および、上述したパターン４、５に対応する下記仮インスタンス（「インスタンス２」ともいう。）も抽出される。

・インスタンス１：例えば「＜条件＞アップデートした後＜／条件＞、再起動せずにソフトを＜症状＞起動しない＜／症状＞でください。」（パターン２、３に対応する）
・インスタンス２：例えば、「＜条件＞アップデートした後＜／条件＞、再起動せずにソフトを＜症状＞起動しない＜／症状＞でください。」（パターン４、５に対応する）

さらに、この例では、次のようなインスタンス３〜６も抽出される。

・インスタンス３：「＜条件＞ＯＳアップデートを実施したら＜／条件＞、＜症状＞ＰＣが起動しない＜／症状＞ことがある。」（パターン１に対応する）
・インスタンス４：「＜条件＞インストールした後、毎回発生するわけではないが＜／条件＞、たまに＜症状＞動作が遅い＜／症状＞場合があります。」（パターン２に対応する）
・インスタンス５：「＜条件＞インストールした後＜／条件＞、なぜか毎回発生するわけではないが、＜症状＞動作が遅い＜／症状＞場合があります。」（パターン３に対応する）
・インスタンス６：「＜条件＞著作権保護のため＜／条件＞、コピーソフトを＜症状＞インストールしない＜／症状＞でください。」（（パターン５に対応する）

次に、インスタンス信頼性評価部１０８は、新規インスタンスの第２信頼度を算出する（ステップＳ１２６）。この第２信頼度の算出処理は、（１）新規インスタンスの第１信頼度の計算処理と、（２）新規インスタンスの一致度の計算処理と、（３）新規インスタンスの第２信頼度の計算処理とを含む。

（１）新規インスタンスの第１信頼度の計算処理
新規インスタンスの第１信頼度の計算処理では、例えば、{（対応するパターンの第２信頼度）×（対応するインスタンスの第１信頼度＝式（１）の計算結果）}／（対応するパターンの数）の式によって求められる。例えば、図１０のフローチャートの例によれば、インスタンス１は、２つのパターン２、３に対応し、パターン２、３の各第２信頼度はそれぞれ０．７２、０．４５である。そして、インスタンス１の第１信頼度は例えば０．８（式（１）の計算結果）になる。この結果、インスタンス１の第１信頼度は、{（０．７２×０．８）＋（０．４５×０．８）}／２から０．４６８になる。

同様に計算すると、上述したインスタンス２〜６の第１信頼度は以下のとおりになる。
・インスタンス２の第１信頼度：０．１４８（＝{（０．１６×０．８）＋（０．２１×０．８）}／２）
・インスタンス３の第１信頼度：０．５４（＝０．６×０．９）
・インスタンス４の第１信頼度：０．７２（＝０．７２×１．０）
・インスタンス５の第１信頼度：０．４０５（＝０．４５×０．９）
・インスタンス６の第１信頼度：０．１８９（＝０．２１×０．９）

（２）新規インスタンスの一致度の計算処理
新規インスタンスの一致度の計算処理では、インスタンス信頼性評価部１０８は、各インスタンスを抽出したパターン（例えば、インスタンス３の場合は、パターン１）を生成した元となるインスタンス（群）のＩＤをパターン記憶部１０６の「生成元インスタンスペア」（図１２（ｂ））から取得する。そして、インスタンス信頼性評価部１０８は、その生成元インスタンスペア（群）のＩＤをキーとして、インスタンス記憶部１１０（図１２（ａ）参照）から、抽出元文ＩＤを抽出し、さらには、その抽出元文ＩＤに対応する開始位置および終了位置を取得する。さらに、インスタンス信頼性評価部１０８は、上記抽出元文ＩＤに基に、解析結果記憶部１０３（図６参照）から、対応する文の形態素解析・係り受け解析結果を取得し、上記開始位置から上記終了位置までの形態素の情報を取得する。

そして、インスタンス信頼性評価部１０８は、取得した形態素の情報を参照して、ステップＳ１２５で抽出された新規インスタンスと、その生成元のインスタンスとが一致するか否かに基づいて、新規インスタンスの一致度を計算する。この一致度は、第１実施形態における式（３）で示したものと同一である。このとき、新規インスタンスはペアのインスタンス、すなわち２つの表現種別（この実施形態では、例えば、条件および症状）を有するため、表現種別ごとに一致度を計算し、それぞれの表現種別の一致度を乗算するようにする。

例えば、インスタンス３の場合、パターン１から抽出されることになるので、パターン１を生成した元のインスタンスはインスタンス１となるので、インスタンス３とインスタンス１とを対象として、式（３）に示した一致度が計算される。ここで、インスタンス３とインスタンス１の条件および症状の表現は以下のとおりである。
インスタンス３：
＜条件＞ＯＳアップデートを実施したら
＜症状＞ＰＣが起動しない
インスタンス１：
＜条件＞アップデートした後
＜症状＞起動しない

この場合、式（３）を用いて、条件の一致度＝０．６、症状の一致度＝０．９が計算され、インスタンス３の一致度は、０．６×０．９＝０．５４となる。

同様に、インスタンス１、２、４〜６の一致度は以下のとおりである。
・インスタンス１の一致度：１．０（＝１．０×１．０）
・インスタンス２の一致度：１．０（＝１．０×１．０）
・インスタンス４の一致度：０．１２（＝０．２×０．６）
・インスタンス５の一致度：０．５４（＝０．９×０．６）
・インスタンス６の一致度：０．２４（＝０．３×０．８）

（３）新規インスタンスの第２信頼度の計算処理
新規インスタンスの第２信頼度の計算処理では、（１）で求めた第１信頼度×（２）で求めた一致度によって、第２信頼度が計算される。その結果、インスタンス１〜６の各第２信頼度は以下のとおりである。
・インスタンス１の第２信頼度：０．４６８（＝０．４６８×１．０）
・インスタンス２の第２信頼度：０．１４８（＝０．１４８×１．０）
・インスタンス３の第２信頼度：０．３４０（＝０．５４×０．６３）
・インスタンス４の第２信頼度：０．０８６（＝０．７２×０．１２）
・インスタンス５の第２信頼度：０．２１９（＝０．４０５×０．５４）
・インスタンス６の第２信頼度：０．０４５（＝０．１８９×０．２４）

インスタンス信頼性評価部１０８は、計算された各第２信頼度を、インスタンス記憶部１１０に記憶する（図１２（ａ）の「第２信頼度」を参照）。

次に、インスタンス絞込部１０９は、第２信頼度が閾値以上の新規インスタンスに絞り込む（ステップＳ１２７）。図１１の例では、例えば閾値が０．２の場合、インスタンス絞込部１０９は、インスタンス１、３、５を選択して抽出し、この抽出の可否を示すデータ（true、または、false）をインスタンス記憶部１１０に書き込む（図１２（ａ）の「抽出可否」を参照）。

ステップＳ１３８において、終了条件を満たさない場合（ステップＳ１３９のＮＯ）は、抽出されたインスタンスの上位Ｎ個を正解インスタンスとして、ステップＳ１３２に進む。終了条件は、例えば、閾値０．３以上の新規インスタンスが１つも存在しない場合、新規インスタンスがＭ個以上抽出されない場合等である。

図１３は、単一のインスタンスの抽出処理の一例を示すフローチャートである。図１４は、図１３の単一のインスタンスの抽出処理時における各記憶部１１０、１１３のデータ構成であって、（ａ）はインスタンス記憶部１１０のデータ構成、（ｂ）は単一パターン記憶部１１４のデータ構成を示す。

図１３において、単一インスタンス抽出部１１３は、図１１のステップＳ１２１と同様に、全文書の中から単一の正解インスタンスの表現を含む仮インスタンスを抽出する（ステップＳ１３１）。この図１３の例では、単一の正解インスタンスの一例として、「時々、＜症状＞画面がうつらない＜／症状＞ことがあります。」が与えられ、インスタンス記憶部１１０に記憶される（図１４（ａ）を参照）。そして、単一パターン生成部１１１は、図１１のステップＳ１２２およびＳ１２３と同様に、正解インスタンスおよび仮インスタンスの周辺情報を取得し（ステップＳ１３２）、周辺情報から単一インスタンスを抽出するための単一パターンを生成する（ステップＳ１３３）。単一パターン生成部１１１は、これらの単一パターンを単一パターン記憶部１１４に記憶する（図１４（ｂ）を参照）。

単一パターン信頼性評価部１１２は、図１１のステップＳ１２４と同様に、生成された単一パターンの第２信頼度を算出する（ステップＳ１３４）。単一パターン信頼性評価部１１２は、各第２信頼度を単一パターン記憶部１１４に記憶する（図１４（ｂ）を参照）。

単一インスタンス抽出部１１３は、図１１のステップＳ１２５と同様に、生成された単一パターンに一致する単一の新規インスタンスを文書集合から抽出する（ステップＳ１３５）。そして、単一インスタンス信頼性評価部１１５は、図１１のステップＳ１２６と同様に、抽出された新規の単一インスタンスの第２信頼度を算出する（ステップＳ１３６）。単一インスタンス信頼性評価部１１５は、新規インスタンスの各第２信頼度をインスタンス記憶部１１０に記憶する（図１４（ａ）を参照）。

単一インスタンス信頼性再評価部１１６は、ステップＳ１３４で算出された単一インスタンスの第２信頼度について、図１１のステップＳ１２７で絞り込まれたインスタンスと、図１１のステップＳ１２５におけるパターンとの結果と参照して再算出する（ステップＳ１３７）。この第２信頼度の再算出処理は、（１）単一インスタンスの一致度の計算処理と、（２）単一インスタンスの抽出元パターンの一致度の計算処理と、（３）単一インスタンスの第２信頼度の再計算処理とを含む。

（１）単一インスタンスの一致度の計算処理
単一インスタンスの一致度の計算処理では、単一インスタンス信頼性再評価部１１６は、各単一インスタンス（例えば、図１４（ａ）のインスタンスＩＤ＝Ｉ００１６〜Ｉ００２０）に基づいて、解析結果記憶部１０３（図６参照）から、対応するインスタンスの形態素解析・係り受け解析結果（形態素の情報）を取得する。また、単一インスタンス信頼性再評価部１１６は、単一インスタンスの表現種別（例えば、症状）と同一のペアのインスタンス（（図１１のステップＳ１２７で絞り込まれたもの、つまり、図１２（ａ）の抽出可否がｔｒｕｅを示すもの）の形態素の情報を、解析結果記憶部１０３（図６参照）から取得する。そして、単一インスタンス信頼性再評価部１１６は、上記取得対象の単一インスタンスと、上記取得対象のペアのインスタンスとが一致するか否かに基づいて、単一インスタンスの一致度を計算する。この一致度は、第１実施形態における式（３）で示したものと同一である。このとき、比較対象となるペアのインスタンスは複数存在することが考えられるため、単一インスタンスの一致度は、複数の一致度の平均値としてもよいし、得られた一致度の最大値としてもよい。

例えば、インスタンスＩＤ＝Ｉ００１６（図１４（ａ））の場合、症状種別の単一インスタンスとして、例えば「画面がうつらない」が与えられるので、比較対象となる下記ペアのインスタンス（図１２（ａ））との一致度は例えば以下のとおりになる。
・インスタンスＩＤ＝Ｉ０００２、Ｉ０００４：「起動しない」：一致度＝０．５
・インスタンスＩＤ＝Ｉ０００８：「起動しない」：一致度＝０．７
・インスタンスＩＤ＝Ｉ００１２：「動作が遅い」：一致度＝０．３

この結果、インスタンスＩＤ＝Ｉ００１６の単一インスタンスの一致度は、例えば０．７（最大値）となる。

ここで、上記３つの一致度の最大値を採用すると、ペアのインスタンスの形態素情報の一致度は０．７となる。

同様に計算すると、インスタンスＩＤ＝Ｉ００１７〜Ｉ００２０の一致度は例えば以下のとおりである。
・インスタンスＩＤ＝Ｉ００１７の一致度：０．７
・インスタンスＩＤ＝Ｉ００１８の一致度：０．９
・インスタンスＩＤ＝Ｉ００１９の一致度：１．５
・インスタンスＩＤ＝Ｉ００２０の一致度：０．２

（２）単一インスタンスの抽出元パターンの一致度の計算処理
単一インスタンスの抽出元パターンの一致度の計算処理では、単一インスタンス信頼性再評価部１１６は、各単一インスタンス（例えば、図１４（ａ）のインスタンスＩＤ＝Ｉ００１６〜Ｉ００２０）の抽出元パターンＩＤを、インスタンス記憶部１１０から取得する。また、単一インスタンス信頼性再評価部１１６は、抽出元パターンＩＤに基づいて、対応するパターンの内、インスタンス以外の部分の形態素の情報を解析結果記憶部１０３（図６参照）から取得する。さらに、単一インスタンス信頼性再評価部１１６は、図１１のステップＳ１２５におけるパターン（閾値以上の第２信頼度を有するもの）の内、単一インスタンスと表現種別が同じインスタンス以外の部分の形態素の情報を、当該パターンＩＤに対応する生成元インスタンスペアＩＤ、抽出元文ＩＤ、開始位置および終了位置等の情報に基づいて、解析結果記憶部１０３（図６参照）から取得する。そして、単一インスタンス信頼性再評価部１１６は、上記単一インスタンスに対応するパターンと、上記取得対象のペアのインスタンス（単一インスタンスと表現種別が同じインスタンス部分を除く）とが一致するか否かに基づいて、単一インスタンスの抽出元パターンの一致度を計算する。この一致度は、第１実施形態における式（３）で示したものと同一である。このとき、比較対象となるペアのパターンは複数存在することが考えられるため、パターンの一致度は、複数の一致度の平均値としてもよいし、得られた一致度の最大値としてもよい。

例えば、インスタンスＩＤ＝Ｉ００１６（図１４（ａ））の場合、抽出元パターンとして、例えば抽出元パターンＩＤ＝ＳＰ０００２（図１４（ａ））の「ことがあり困っています」（症状種別）が与えられ、比較対象となる下記ペアのパターン（症状種別との一致度は例えば以下のとおりになる。なお、Ｐ０００１、Ｐ０００２およびＰ０００３はパターンＩＤを表してある（図１２（ａ））。
・「、」「ことがある。」（Ｐ０００１）：一致度＝０．７
・「、たまに」「場合があり」（Ｐ０００２）：一致度＝０．４
・「、」「場合が」（Ｐ０００３）：一致度＝０．３

この結果、インスタンスＩＤ＝Ｉ００１６の抽出元パターンの一致度は、例えば０．７（最大値）となる。

同様に計算すると、インスタンスＩＤ＝Ｉ００１７〜Ｉ００２０に対応するパターンの一致度は例えば以下のとおりである。
・インスタンスＩＤ＝Ｉ００１７の一致度：０．４
・インスタンスＩＤ＝Ｉ００１８の一致度：０．７
・インスタンスＩＤ＝Ｉ００１９の一致度：０．６
・インスタンスＩＤ＝Ｉ００２０の一致度：０．４

（３）単一インスタンスの第２信頼度の再計算処理
単一インスタンスの第２信頼度の再計算処理では、（１）で求めたインスタンスの一致度×（２）で求めたパターンの一致度によって、第２信頼度が再計算される。その結果、単一インスタンスの各第２信頼度は以下のとおりになる。なお、両者の一致度を加算してもよい。
・インスタンスＩＤ＝Ｉ００１６の第２信頼度：０．６５（＝（０．７＋０．６）／２）
・インスタンスＩＤ＝Ｉ００１７の第２信頼度：０．５５（＝（０．７＋０．４）／２）
・インスタンスＩＤ＝Ｉ００１８の第２信頼度：０．８０（＝（０．９＋０．７）／２）
・インスタンスＩＤ＝Ｉ００１９の第２信頼度：０．５５（＝（０．５＋０．６）／２）
・インスタンスＩＤ＝Ｉ００２０の第２信頼度：０．３０（＝（０．２＋０．４）／２）

インスタンス信頼性評価部１０８は、再計算された各第２信頼度を、インスタンス記憶部１１０に記憶する（図１２（ａ）の「第２信頼度」を参照）。

次に、単一インスタンス絞込部１１７は、図１１のステップＳ１２８と同様、第２信頼度が閾値以上の単一インスタンスに絞り込む（ステップＳ１３８）。図１３の例では、例えば閾値が０．２の場合、インスタンス絞込部１０９は、インスタンスＩＤ＝Ｉ００１６〜Ｉ００１９に対応するインスタンスを選択して抽出し、この抽出の可否を示すデータ（true、または、false）をインスタンス記憶部１１０に書き込む（図１４（ａ）の「抽出可否」を参照）。

終了条件を満たさない場合（ステップＳ１３９のＮＯ）は、抽出されたインスタンスの上位Ｎ個を正解インスタンスとして、ステップＳ１３２に進む。終了条件は、例えば、閾値０．３以上の新規インスタンスが１つも存在しない場合、単一インスタンスがＭ個以上抽出されない場合等である。このようにして、単一の句表現の抽出が終了する。

以上説明したように、本実施形態の言語表現抽出装置１００によれば、ペアの句表現の組み合わせを用いてペアのインスタンスを抽出し（図１０のステップＳ１２）、そのペアのインスタンスに対する信頼性の評価結果に応じて、単一のインスタンスの信頼性を変更する（図１０のステップＳ１３）。ここで、信頼性の変更は、単一のインスタンスと、その単一のインスタンスと同じ表現種別を有するペアのインスタンスとが一致する度合いに基づいて行われるので、ペアのインスタンスとの関係に応じて、単一のインスタンスが抽出されるようになる。これにより、インスタンスの誤抽出が防止できる。また、文中に１つの表現しか存在しない場合でも、ペアのインスタンスとの関係を考慮することで、インスタンスとして抽出することができるようになる。

＜第３実施形態＞
第２実施形態では、言語表現抽出装置の一例として、初期の正解インスタンスに対応するインスタンスを抽出した後にパターンを生成する場合について説明したが、この実施形態では、パターンを生成した後にインスタンスを抽出するようにした言語表現抽出装置１００Ａとしている。

図１５に本実施形態の言語表現抽出装置１００Ａの構成例を示す。なお、図１５では、図４に示した言語表現抽出装置１００と同一の構成要素については同一の符号を付している。この実施形態における言語表現抽出装置１００Ａの構成は、第２実施形態で説明したもの（図４参照）とほぼ同様である。これは、図１１のフローチャートにおいて、与えられた初期の正解パターンを基準にしてステップＳ１２５から処理が開始し、Ｓ１２６→Ｓ１２７→Ｓ１２８→・・・と進んでいくことになる。また、図１３のフローチャートにおいて、与えられた単一の正解パターンを基準にしてステップＳ１３５から処理が開始し、Ｓ１３６→Ｓ１３７→Ｓ１３８→・・・と進んでいくことになる。

この結果、第３実施形態の言語表現抽出装置１００Ａでも、第２実施形態のものと同様に、ペアのインスタンスとの関係に応じて、単一のインスタンスが抽出されるようになる。

次に、第１実施形態の言語表現抽出装置１０の変形例１〜３について説明する。

（変形例１）
第１実施形態の変形例１に係る言語表現抽出装置では、上述した仮インスタンスの一致度は、第１実施形態で例示したものに限られず、様々な設定が可能である。例えば、各インスタンスを構成するすべての形態素の内、語尾に位置する形態素（特徴）が一致するか否か（一致する場合の「１」、または、不一致の場合の「０」）に基づいて、計算しても構わない。例えば、図２では、正解インスタンスの語尾に対応する形態素として、「後」（名詞−非自立−副詞可能）という品詞が与えられ、仮インスタンスの語尾に対応する文字として、「ら」（助動詞）という品詞が与えられるので、両者の一致度は、「０」となる。

また、語尾に位置する表層（特徴）が一致するか否かに基づいて、一致度を計算してもよい。例えば図２の例では、「後」および「ら」がそれぞれ対応する語尾の表層となるので、一致度は、「０」として設定される。

また、例えば、上述した形態素すべてを対象とした一致度（式（３）の計算結果）と、上述した語尾の品詞を対象とした一致度と、上述した表層を対象とした一致度とを組み合わせて（例えば、３つの一致度の平均値）一致度を計算してもよい。あるいは、３つの一致度の内、任意の一致度の平均値を計算してもよい。

あるいは、各インスタンス中の全形態素の内、所定の位置（例えば、第１番目のみ、または、第１番目から第３番目まで、等）に存在する形態素（特徴）を対象として、式（３）に示した一致度を計算するようにしてもよい。

さらに、例えば、複数の仮インスタンスの上記一致度（例えば、式（３）の計算結果）を平均化して、その平均値を、それらの仮インスタンスの一致度としてもよい。あるいは、複数の仮インスタンスの上記一致度（例えば、式（３）の計算結果）の内、最大値を、それらの仮インスタンスの一致度としてもよい。

（変形例２）
第１実施形態の変形例２に係る言語表現抽出装置においても、正確なインスタンスを抽出できるようにするため、図１１に示したものと同様に、パターンの第２信頼度を算出することで、インスタンスの決定を行うようにしてもよい。図１、図３および図１３を参照して、そのときの動作について説明する。

変形例２の言語表現抽出装置では、図３のインスタンスの抽出処理（ステップＳ４）後、図１３に示したステップＳ１３２→Ｓ１３３→Ｓ１３４→Ｓ１３５→Ｓ１３６→Ｓ１３８→Ｓ１３９の処理を繰り返すことになる。この場合、図３に示したステップＳ４の後に、抽出部１２はさらに、ステップＳ４において決定されたインスタンスを含む文字列表現の第２の抽出パターン（以下、第２パターンという。）を生成し、この第２パターンに基づいて、文書に含まれる文字列表現を、仮インタンスとして抽出する。次に、評価部１３は、正解インスタンスのパターンと、上記第２パターンとに基づいて、第２パターンに対する信頼性を評価する。この評価結果（第２パターンの第２信頼度）は、ステップＳ３で説明したものと同様に、例えば、上述した第２パターンの第１信頼度（式（２）の計算結果）と一致度とが乗算または加算されて得られる。そして、決定部１４は、抽出部１２によって抽出された仮インスタンスに信頼性の評価結果と、上記第２パターンの評価結果とに応じて、パターンを選択する。例えば、仮インスタンスに信頼性の評価結果を示す第２信頼度と、上記第２パターンの評価結果を示す第２信頼度とを乗算した値が閾値以上のパターンが選択される。上述した抽出部１２、評価部１３および決定部１４の各処理は、一連の処理として繰り返し実行されることになる。

この結果、インスタンスが絞り込まれて決定される。これにより、正解インスタンスが本来意図する内容とは関係のない表現を含むパターン（文脈が異なるもの）が生成されず、所望のインスタンスが正確に抽出される。例えば、正解インスタンスを表す不具合の表現として、「Ａソフトをインストールした後、ＰＣが起動しない。」という文の「ＰＣが起動しない」が登録されている場合、抽出部１２は、「アップデートした後、起動しないことがある。」という文については、正規インスタンスが意図する不具合を記述するので、パターンの信頼性が高くなり、パターンとして生成することとなる。

一方、「アップデートした後、再起動せずにソフトを起動しないでください。」という文については、正規インスタンスの「ＰＣが起動しない」と同様の表現（「ソフトを起動しない」）を含むものの、正規インスタンスが本来意図する不具合とは関係のない内容を表すので、パターンの信頼性が低くなり、このような文がパターンとして生成されなくなる。よって、所望のインスタンスが正確に抽出されやすくなる。

（変形例３）
第１実施形態の変形例３に係る言語表現抽出装置では、抽出部１２において、文書データに含まれる仮インスタンスの文字列表現の直前もしくは直後に存在する形態素、または、仮インスタンスの文字列表現の係りもしくは受け側に存在する形態素を参照してパターンを生成してもよい。例えば、仮インスタンスが正解インスタンスとは異なる文脈で使用されている場合に、そのような仮インスタンスを排除することができ、これにより、正確なインスタンスの抽出が行える。

１０,１００，１００Ａ言語表現抽出装置
１１登録部
１２抽出部
１３評価部
１４決定部
１０４パターン生成部
１０５パターン信頼性評価部
１０６インスタンス抽出部
１０７インスタンス信頼性評価部
１０８インスタンス絞込部
１１１単一パターン生成部
１１２単一パターン信頼性評価部
１１３単一インスタンス抽出部
１１４単一パターン記憶部
１１５単一インスタンス信頼性評価部
１１６単一インスタンス信頼性再評価部
１１７単一インスタンス絞込部

Claims

特定の文字列からなる句表現を正解データとして登録する登録部と、
抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出する抽出部と、
前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価する評価部と、
前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定する決定部と、
を含むことを特徴とする言語表現抽出装置。
前記抽出部は、前記決定部によって決定された前記抽出対象の文字列表現を含む文字列の第２の抽出パターンを生成し、前記第２の抽出パターンに基づいて前記文書データに含まれる文字列表現を、抽出候補として抽出し、前記評価部は、前記抽出パターンと前記第２の抽出パターンとに基づいて、前記第２の抽出パターンに対する信頼性を評価し、
前記決定部は、前記抽出候補に対する信頼性の評価結果と、前記抽出パターンに対する信頼性の評価結果とに応じて、前記抽出パターンを選択し、
前記抽出部、前記評価部および前記決定部の各処理は、一連の処理として繰り返し実行されるように構成されている
ことを特徴とする請求項１に記載の言語表現抽出装置。
前記評価部は、ペアの句表現を正解データとして登録した場合にはさらに、前記ペアの句表現に基づいて抽出された抽出結果と、前記抽出候補とが一致する度合いに応じて、前記抽出候補に対する信頼性を変更することを特徴とする請求項１または２に記載の言語表現抽出装置。
前記抽出パターンは、前記文書データに含まれる前記抽出候補の前記文字列表現の直前もしくは直後に存在する形態素、または、前記抽出候補の前記文字列表現の係りもしくは受け側に存在する形態素を参照して生成されることを特徴とする請求項１ないし３のいずれか１項に記載の言語表現抽出装置。
前記評価部は、前記抽出候補の前記文字列表現内のすべての形態素列の構成と、前記正解データの前記句表現内のすべての形態素列の構成とが一致する度合いに基づいて、前記信頼性を評価することを特徴とする請求項１ないし４のいずれか１項に記載の言語表現抽出装置。
コンピュータによって実行される言語表現抽出方法であって、
特定の文字列からなる句表現を正解データとして登録するステップと、
抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出するステップと、
前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価するステップと、
前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定するステップと、
を含むことを特徴とする言語表現抽出方法。
請求項６に記載の言語表現抽出方法をコンピュータに実行させるためのプログラム。