JP2005190185A

JP2005190185A - 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体

Info

Publication number: JP2005190185A
Application number: JP2003430982A
Authority: JP
Inventors: Tsutomu Hirao; 努平尾; Hideki Isozaki; 秀樹磯崎; Jun Suzuki; 潤鈴木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-12-25
Filing date: 2003-12-25
Publication date: 2005-07-14

Abstract

【課題】複雑な構造を有する文に対して精度の高い類似文の選択処理を提供すること。
【解決手段】類似判定の対象文の集合から検索文に類似する文を選択する類似文選択装置１が、類似判定の対象文の入力を受け付ける手順と、検索文の入力を受け付ける手順と、検索文および対象文について文から文節へ分割する手順と、分割された文節から文断片へ統合する手順と、文断片間の類似度を算出する手順と、検索文を構成する文断片に対して最高の類似度となる文断片を有する文を類似文として選択する手順と、類似文を出力する手順と、を実行し、かつ、分割された文節から文断片へ統合する手順は、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を文断片とすることを特徴とする。
【選択図】図１

Description

本発明は、類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体に関する。

ある与えられた検索文をもとに、その検索文に類似する文を選択する処理が、コンピュータによる自然言語処理の一形態として行われている。類似する文を選択することにより、レポートの盗作の発見や、検索エンジンにおける検索文をキーとした文書検索を、効率的に実現することができる。また、類似する文の集合（コーパス）は、所定の言語の文法を理解する上で貴重な情報となるので、類似文の選択処理は、文法理解の支援ツールおよび文法書の作成支援ツールとして、有用となる。

そのため、類似文の選択処理を実現する様々な手法が、提案されている（非特許文献１など）。これらの従来の手法は、文を構成する品詞を手がかりとする。つまり、ある文と別の文とが類似する度合いを類似度として定義し、類似度が高い文どうしを、類似する文として抽出する。なお、類似度は、ある文と別の文とで一致する品詞数によって算出される。

また、コンピュータによる自然言語処理において、類似性を利用する一例として、蓄積されたテキスト集合から有効な相関情報を見つけだすための情報マイニング方法（特許文献１など）や、保存するデータを比較することでデータの重複を抑制する電子ファイル方法（特許文献２など）が、提案されている。
Michele Banko、Vibhu Mittal、Mark Kantrowitz、Jade Goldstein著、"Generating Extraction-Based Summaries from Hand-Written Summaries by Aligning Text Spans"、出典"Proc. of the Pacific Association for Computational Linguistics"、１９９９年特開２０００−１７２６９１号公報（段落［０００５］〜［００１７］）特開平１１−８５７７９号公報（段落［０００７］〜［００２１］）

ここで、文は、主語・述語の関係が１回だけで成り立っている単文だけでなく、複雑な構造を持つ文も存在する。例えば、複数の単文を要約した結果、独立した２つ以上の文が対等の資格で結合した重文や、主語・述語の関係が入れ子構造となっている複文が現れることもある。これらの複雑な構造を持つ文は、複数の文から構成されるため、類似する文も、構成要素となる文の数だけ存在する。

しかし、従来の類似文の選択処理（非特許文献１など）は、文と文とが直接対応されることを前提として、処理を行ってきた。換言すると、複数の文を基にして作成された複雑な構造を持つ文と、単純な単文の構造を持つ文とを区別せずに扱っていたため、検索文に類似する文の数を、その検索文の構造に従って変化させることは、なされてこなかった。その結果、複雑な構造を持つ文が、１つの類似文だけに対応付けられるなどの不都合が発生してしまい、複雑な構造を持つ文に対する類似文の検索精度は、不十分であった。

また、特許文献１は、データマイニングの統計処理に利用するために係り受け構造を抽出するに過ぎないため、類似文の選択処理という目的とは適合しない。さらに、特許文献２は、類似性の比較対象となる範囲が文ではなくデータとなっており、かつ、構文解析処理で得られた構造を利用するという抽象的な表現に留めているので、複文や重文などの複雑な構造を持つ文を基にした類似文の選択処理という目的を実現するには不十分である。

そこで、本発明は、前記した問題を解決し、複雑な構造を有する文に対して精度の高い類似文の選択処理を提供することを主な目的とする。

前記課題を解決するため、請求項１に記載の類似文選択方法は、類似判定の対象文の集合から検索文に類似する文を選択する類似文選択方法であって、類似文選択装置が、前記類似判定の対象文の入力を受け付ける手順と、前記検索文の入力を受け付ける手順と、前記検索文および前記対象文について文から文節へ分割する手順と、前記分割された文節から文断片へ統合する手順と、前記文断片間の類似度を算出する手順と、前記検索文を構成する文断片に対して最高の類似度となる文断片を有する文を類似文として選択する手順と、前記類似文を出力する手順と、を実行し、かつ、前記分割された文節から文断片へ統合する手順は、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を文断片とすることを特徴とする。

請求項２に記載の類似文選択方法は、請求項１に記載の類似文選択方法であって、前記文断片間の類似度を算出する手順は、後記の関数Ｋ_essk（Ｔ，Ｕ）によって算出されることを特徴とする。但し、Ｋ_essk（Ｔ，Ｕ）は、文断片（Ｔ）と文断片（Ｕ）との間の類似度を返す関数であり、ｔ_iおよびｕ_jは、ＴおよびＵが有する品詞およびその出現順序（第ｉ番目または第ｊ番目に出現する品詞）を示し、ｖａｌ（ｔ_i，ｕ_j）は、品詞ｔ_iと、品詞ｕ_jとが一致している場合に１を返し、品詞が不一致の場合に０を返す関数であり、変数（ｄ）は、組み合わせる品詞数を示す。

請求項３に記載の類似文選択装置は、類似判定の対象文の集合から検索文に類似する文を選択する類似文選択装置であって、前記検索文および前記類似判定の対象文の文法を格納する文法記録部と、前記検索文および前記類似判定の対象文を記録する入力文記録部と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割部と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成部と、前記検索文における類似判定の過程および結果を格納する類似判定記録部と、前記文断片間の類似度を算出する文断片間類似判定部と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定部と、を含めて構成されることを特徴とする。

請求項４に記載の類似文選択装置は、請求項３に記載の類似文選択装置であって、前記類似文選択装置は、前記文法付きのサンプル文を記録するサンプル文記録部と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出部と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録部と、を含めて構成されることを特徴とする。

請求項５に記載の類似文選択プログラムの記録媒体は、類似判定の対象文の集合から検索文に類似する文を選択する類似文選択プログラムの記録媒体であって、コンピュータを、前記検索文および前記類似判定の対象文の文法を格納する文法記録手段と、前記検索文および前記類似判定の対象文を記録する入力文記録手段と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割手段と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成手段と、前記検索文における類似判定の過程および結果を格納する類似判定記録手段と、前記文断片間の類似度を算出する文断片間類似判定手段と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定手段、として機能させることを特徴とする。

請求項６に記載の類似文選択プログラムの記録媒体は、請求項５に記載のコンピュータ読み取り可能な類似文選択プログラムの記録媒体であって、前記コンピュータを、前記文法付きのサンプル文を記録するサンプル文記録手段と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出手段と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録手段、としてさらに機能させることを特徴とする。

本発明は、文から主語と述語の関係または修飾語と被修飾語の関係を抽出して文断片を作成し、その文断片ごとに、類似判定を行う。よって、複雑な構造を持つ文は、その文の基となる複数の文の要素が、各文断片として抽出される。よって、複雑な構造を持つ文は、文断片ごとに、類似判定が行われるため、適切な数の類似文と対応付けることが可能となり、精度の高い類似文の選択処理が実現される。

以下に、本発明が適用される類似文選択装置１の一実施形態について、図面を参照して詳細に説明する。まず、本実施形態の類似文選択装置１の構成について、図１から図３を参照して説明する。

図１は、類似文選択装置１の構成図である。類似文選択装置１は、所定の検索文と類似する文を選択する機能を有する。このため、類似文選択装置１は、所定の検索文と類似判定の対象文とを記録する入力文記録部１０と、所定の検索文における類似判定の過程および結果を格納する類似判定記録部２０と、類似文選択処理に使用される文法を格納する文法記録部３０と、を含めて構成される。

入力文記録部１０のデータは、類似文選択装置１の構成要素である、文をその構成要素である文節単位に分割する文節分割部１１と、修飾関係または主語述語関係を有する文節群を文断片に統合する文断片作成部１２と、によって処理される。

類似判定記録部２０のデータは、類似文選択装置１の構成要素である、所定の文断片と、別の文断片との類似度を算出する文断片間類似判定部２１と、文断片間の類似度を基に所定の文と別の文とが類似するかを判定する文間類似判定部２２と、によって処理される。

文法記録部３０のデータは、類似文選択装置１の構成要素である、文法記録部３０に格納される文法をサンプル文を基に作成する文法抽出部３１によって処理される。また、類似文選択装置１は、文法抽出部３１が文法の抽出に使用するデータを格納するために、文法付きのサンプル文を記録するサンプル文記録部３２と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録部３３と、を含めて構成される。なお、シソーラス記録部３３の辞書データは、例えば、果物（上位概念）と、林檎（下位概念）との対応情報を示すものである。

なお、類似文選択装置１の各記録部（入力文記録部１０、類似判定記録部２０、文法記録部３０、サンプル文記録部３２、シソーラス記録部３３）は、例えば、ＲＡＭ（Random-Access Memory）などの記憶手段によって構成される。また、類似文選択装置１の各処理部（文節分割部１１、文断片作成部１２、文断片間類似判定部２１、文間類似判定部２２、文法抽出部３１）は、例えば、類似文選択装置１のＣＰＵ（Central Processing Unit）によって読み取られて実行されるプログラムとして構成される。

以上、類似文選択装置１の構成について、説明した。次に、本実施形態の類似文選択装置１の動作について、図１を参照しつつ、図２に沿って説明する。なお、図２は、類似文選択装置１を主体にしたフローチャートである。

まず、類似文選択装置１は、前準備として、文法記録部３０に文法の登録を行う（Ｓ１０１）。ここで、文法は、文節を構成する品詞の集合（名詞と、助詞“は”との組など）と、ある文節と別の文節との関係（主語と述語の関係、修飾語と被修飾語の関係など）と、を含めて構成される。なお、主語と述語の関係は、例えば、主語となりうる文節が有する品詞（固有名詞と、助詞“は”との組など）と、述語となりうる文節が有する品詞（動詞など）と、の組として定義される。また、修飾語と被修飾語の関係は、例えば、修飾語となりうる文節が有する品詞（副詞など）と、被修飾語となりうる文節が有する品詞（動詞など）と、の組として定義される。これらの文法は、ユーザによって類似文選択装置１に入力されたデータであり、文法記録部３０に記録される。

次に、類似文選択装置１は、類似判定の対象文の入力を受け付け、入力された対象文を入力文記録部１０に記録する（Ｓ１０２）。ここで、類似判定の対象文は、ある与えられた検索文に類似する文の選択の対象となる文の集合である。

そして、類似文選択装置１は、検索文の入力を受け付け、入力された検索文を入力文記録部１０に記録する（Ｓ１０３）。図３（Ａ）は、入力文記録部１０に記録された文の集合を示す図である。図３（Ａ）は、１つの検索文（検索文Ｋ）と、３つの類似判定の対象文（対象文ＴＡ、対象文ＴＢ、対象文ＴＣ）とが記録されている旨を示している。

さらに、文節分割部１１は、入力文記録部１０に格納された各文（検索文Ｋ、対象文ＴＡ、対象文ＴＢ、対象文ＴＣ）に対して、文から文節への分割処理を行う（Ｓ１０４）。ここで、文から文節への分割処理は、文をその構成要素である品詞に分割する処理、および、分割された１つ以上の品詞を文節に統合する処理から構成される。

なお、品詞に分割する処理は、類似文選択装置１が、シソーラス記録部３３に記録された辞書データの各品詞の文字列と、文を構成する文字列とを比較し、両文字列が一致する場合に、その文字列の品詞が存在するとみなす処理である。

また、文節に統合する処理は、類似文選択装置１が、品詞の集合について、文法記録部３０に記録された文法（文節を構成する品詞）に基づいて、品詞を文節にグループ化する処理である。以上、文から文節への分割処理によって、類似文選択装置１は、図３（Ａ）に示す各文を、図３（Ｂ）に示す文節の集合に分割する。なお、図３（Ｂ）は、第１文節、第２文節、第３文節、のように文節の出現順序を規定し、“／”によって各文節が区切られている。

そして、文断片作成部１２は、Ｓ１０４によって文節に分割されている各文に対して、文節から文断片への統合処理を行う（Ｓ１０５）。具体的には、文断片作成部１２は、文法記録部３０に記録されている文法（主語と述語の関係、修飾語と被修飾語の関係）に従って、修飾関係または主語述語関係を有する文節群を文節の集合から抽出し、文断片に統合する。

ここで、文断片作成部１２は、修飾関係または主語述語関係が連続する場合には、それらの連続した文節を全て繋ぎ合わせて１つの文断片を作成する。例えば、対象文ＴＡについて、文節“過去最高の”から文節“約４１５万編にも”への修飾関係があり、かつ、文節“約４１５万編にも”から文節“及んだ”への修飾関係があるとする。その場合、文断片作成部１２は、文節“過去最高の”と、文節“約４１５万編にも”と、文節“及んだ”とを、連続した文節の集合であるとみなし、それらの文節の集合を全て繋ぎ合わせて１つの文断片ＴＡ２を作成する。なお、連続した文節を全て繋ぎ合わせる処理は、各文節をノード（葉または節）とし、かつ、修飾関係または主語述語関係による文節間の接続をリンク（枝）とするツリー（依存構造木）の作成処理とみなすこともできる。

以上、文節から文断片への統合処理によって、類似文選択装置１は、図４（Ａ）に示す各文を、図４（Ｂ）に示す文節の集合に分割する。ここで、図４（Ａ）は、図３（Ｂ）と同一である。なお、図４（Ｂ）は、各文断片が、第１文節、第２文節、第３文節の順序で、修飾関係または主語述語関係が存在する旨を示している。なお、作成された各文断片は、類似判定処理に使用されるために、入力文記録部１０から類似判定記録部２０にコピーされる。

さらに、文断片間類似判定部２１は、類似判定記録部２０に記録された文断片間の類似判定を行う（Ｓ１０６）。類似文選択装置１は、図５（Ａ）に示す検索文Ｋの文断片（文断片Ｋ１、文断片Ｋ２、文断片Ｋ３、文断片Ｋ４）ごとに、類似判定を行った結果を付す（図５（Ｂ）参照）。ここで、図５（Ａ）は、図４（Ｂ）と同一である。なお、文断片間の類似判定は、例えば、文断片を構成する文節において、両文断片に共通して含まれる文節の数が多いほど、類似度が高いとするアルゴリズムによって、行われる。次に、検索文Ｋの各文断片に対して、最高の類似度となる対象文の文断片が、文断片ごとに選択される。

そして、文間類似判定部２２は、Ｓ１０６における文断片間の類似判定の結果を基に、文間の類似判定を行う（Ｓ１０７）。類似文選択装置１は、図６（Ａ）に示す検索文Ｋの文断片（文断片Ｋ１、文断片Ｋ２、文断片Ｋ３、文断片Ｋ４）ごとに、類似する文断片を有する対象文を、検索文Ｋに類似する文として選択する（図６（Ｂ）参照）。ここで、図６（Ａ）は、図５（Ｂ）と同一である。よって、検索文Ｋと類似する対象文は、文断片ＴＡ１および文断片ＴＡ２の類似による対象文ＴＡと、文断片ＴＢ１および文断片ＴＢ２の類似による対象文ＴＢの２つとなる。

さらに、類似文選択装置１は、Ｓ１０７の結果として得られた検索文に類似する文を出力する（Ｓ１０８）。つまり、Ｓ１０７で選択された２つの対象文（対象文ＴＡ、対象文ＴＢ）が、検索文Ｋに類似する文として、出力される。なお、出力形式は、例えば、ディスプレイへの表示、電子ファイルへの書き出し、および、ネットワークを介してのデータ送信などである。

以上説明した本発明は、以下のように発明の趣旨を逸脱しない範囲で広く変形実施することができる。

例えば、文法記録部３０への文法の登録（Ｓ１０１）は、文法そのものを登録させる代わりに、文法の手がかりとなるサンプル文を入力させ、そのサンプル文から類似文選択装置１が文法を抽出する処理を行ってもよい。図７は、サンプル文からの文法の抽出処理を示す図である。まず、図７（Ａ）は、類似文選択装置１のサンプル文記録部３２に入力されるサンプル文の一例を示している。サンプル文は、所定の文“佐藤は、リンゴを食べる。”と、その文に対して付加された文法とによって構成される。なお、付加された文法は、文を文節に分割する文法（“／”によって区切られている）と、分割された文節間の関係を示す文法（主語述語の関係および修飾語被修飾語の関係）と、によって構成される。

まず、類似文選択装置１は、文を文節に分割する文法を、サンプル文から抽出する。その結果、文節に分割するための文法が、３つ取得される（図７（Ｂ）参照）。次に、類似文選択装置１は、文節間の関係を示す文法を、サンプル文から抽出する。それにより、２つの文節間の関係（主語述語の関係および修飾語被修飾語の関係）が、取得される（図７（Ｃ）参照）。ここで、類似文選択装置１は、シソーラス記録部３３を用いて、サンプル文に使用される品詞そのものの代わりに、一般化（上位概念化）した品詞（例えば、“佐藤”→“固有名詞”）を、文法として取得してもよい。

また、類似文選択装置１は、図２に示す類似文の選択処理を複数回行う場合に、文節から文断片への統合処理（Ｓ１０５）までは、検索文または対象文に変更がなければ、前回の処理結果を次回以降に活用することができる。そこで、類似文選択装置１は、作成した文断片を記録し、次回以降の類似文の選択処理に活用してもよい。これにより、既に作成した文断片を使用するために、処理時間の短縮が期待できる。

そして、文断片間の類似判定（Ｓ１０６）において算出した類似度から、文間の類似判定を行う（Ｓ１０７）際に、算出された最高の類似度に所定のしきい値（例えば、０）を設け、そのしきい値以下の類似度の場合には、該当する文断片が存在しないとみなしてもよい。これにより、あまり似ていない文断片の誤検出を抑制することができる。

さらに、文断片間の類似判定（Ｓ１０６）における類似度の算出には、様々なアルゴリズムを活用することができる。例えば、以下の数式１またはその数式１を類似度が０から１の間に収まるように正規化した数式２を用いて文断片間の類似度を算出し、最高の類似度となる文断片を、検索文の文断片ごとに取得してもよい。なお、数式１の各変数は、次の通りである。まず、ＴおよびＵは、文断片を示し、ｔ_iおよびｕ_jは、ＴおよびＵが有する品詞およびその出現順序（第ｉ番目または第ｊ番目に出現する品詞）を示す。次に、Ｋ_essk（Ｔ，Ｕ）は、文断片Ｔと文断片Ｕとの間の類似度を返す関数であり、ｖａｌ（ｔ_i，ｕ_j）は、品詞が一致している場合に１を返し、品詞が不一致の場合に０を返す関数である。ここで、ｖａｌ関数が判定する品詞の一致とは、名詞や動詞などの品詞の種別の一致ではなく、品詞の内容の一致を意味する。例えば、動詞“走る”と、動詞“歩く”とでは、動詞という品詞の種別は一致するものの、品詞の内容が異なるため、ｖａｌ関数は、品詞の不一致の旨を示す０を返す。そして、変数ｄは、組み合わせる品詞数を示す。この数式１または数式２は、各文節に出現する品詞の順序情報の組み合わせを活用するので、単に出現する品詞の一致または不一致を考慮する方法に比べ、精度の高い類似度を算出することができ、類似文の検出精度の向上に貢献する。

本発明の一実施形態に関する類似文選択装置の構成図である。本発明の一実施形態に関する類似文選択装置の類似文選択処理を示すフローチャートである。本発明の一実施形態に関する文から文節への分割処理を示す図である。本発明の一実施形態に関する文節から文断片への統合処理を示す図である。本発明の一実施形態に関する文断片間の類似判定処理を示す図である。本発明の一実施形態に関する文間の類似判定処理を示す図である。本発明の一実施形態に関するサンプル文からの文法の抽出処理を示す図である。

符号の説明

１類似文選択装置
１０入力文記録部
１１文節分割部
１２文断片作成部
２０類似判定記録部
２１文断片間類似判定部
２２文間類似判定部
３０文法記録部
３１文法抽出部
３２サンプル文記録部
３３シソーラス記録部

Claims

類似判定の対象文の集合から検索文に類似する文を選択する類似文選択方法であって、類似文選択装置が、前記類似判定の対象文の入力を受け付ける手順と、前記検索文の入力を受け付ける手順と、前記検索文および前記対象文について文から文節へ分割する手順と、前記分割された文節から文断片へ統合する手順と、前記文断片間の類似度を算出する手順と、前記検索文を構成する文断片に対して最高の類似度となる文断片を有する文を類似文として選択する手順と、前記類似文を出力する手順と、を実行し、かつ、前記分割された文節から文断片へ統合する手順は、類似文選択装置の記憶手段に格納された文法データを参照して、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を文断片とすることを特徴とする類似文選択方法。
前記文断片間の類似度を算出する手順は、後記の関数Ｋ_essk（Ｔ，Ｕ）によって算出されることを特徴とする請求項１に記載の類似文選択方法。但し、Ｋ_essk（Ｔ，Ｕ）は、文断片（Ｔ）と文断片（Ｕ）との間の類似度を返す関数であり、ｔ_iおよびｕ_jは、ＴおよびＵが有する品詞およびその出現順序（第ｉ番目または第ｊ番目に出現する品詞）を示し、ｖａｌ（ｔ_i，ｕ_j）は、品詞ｔ_iと、品詞ｕ_jとが一致している場合に１を返し、品詞が不一致の場合に０を返す関数であり、変数（ｄ）は、組み合わせる品詞数を示す。
類似判定の対象文の集合から検索文に類似する文を選択する類似文選択装置であって、前記検索文および前記類似判定の対象文の文法を格納する文法記録部と、前記検索文および前記類似判定の対象文を記録する入力文記録部と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割部と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成部と、前記検索文における類似判定の過程および結果を格納する類似判定記録部と、前記文断片間の類似度を算出する文断片間類似判定部と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定部と、を含めて構成されることを特徴とする類似文選択装置。
前記類似文選択装置は、前記文法付きのサンプル文を記録するサンプル文記録部と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出部と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録部と、を含めて構成されることを特徴とする請求項３に記載の類似文選択装置。
類似判定の対象文の集合から検索文に類似する文を選択する類似文選択プログラムの記録媒体であって、コンピュータを、前記検索文および前記類似判定の対象文の文法を格納する文法記録手段と、前記検索文および前記類似判定の対象文を記録する入力文記録手段と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割手段と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成手段と、前記検索文における類似判定の過程および結果を格納する類似判定記録手段と、前記文断片間の類似度を算出する文断片間類似判定手段と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定手段、として機能させるためのプログラムを記録したコンピュータ読み取り可能な類似文選択プログラムの記録媒体。
前記コンピュータを、前記文法付きのサンプル文を記録するサンプル文記録手段と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出手段と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録手段、としてさらに機能させるためのプログラムを記録した請求項５に記載のコンピュータ読み取り可能な類似文選択プログラムの記録媒体。