JP2007041767A

JP2007041767A - テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Info

Publication number: JP2007041767A
Application number: JP2005223971A
Authority: JP
Inventors: Takahiro Ikeda; 崇博池田; Satoshi Nakazawa; 聡中澤; Yosuke Sakao; 要祐坂尾; Kenji Sato; 研治佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-08-02
Filing date: 2005-08-02
Publication date: 2007-02-15
Anticipated expiration: 2025-08-02
Also published as: JP4815934B2

Abstract

【課題】依存構造木が異なる同義表現を同一視してマイニングを行うことができるテキストマイニング装置等を提供すること
【解決手段】テキストマイニング装置１０では、言語解析手段２１が同義表現辞書に登録されている表現の依存構造木（同義表現依存構造木）とテキストマイニングの対象となる文の依存構造木（対象文依存構造木）を生成する。同義表現識別手段２２は、対象文依存構造木の中に同義表現部分木と一致する部分木（一致部分木）が含まれているかどうかを識別する。節点置換手段は２４、一致部分木を同義表現が属するグループを示す特別な節点（同義表現節点）で置き換え、特徴部分木抽出手段２５は、置き換え後の対象文依存構造木から特徴部分木を抽出する。
【選択図】図７

Description

本発明は、テキストマイニングに関し、特に依存構造木が異なる同義表現を同一視してマイニングを行うことができるテキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムに関する。

テキストマイニング装置は、大量のテキストから有用な知識を抽出するために、テキスト中に頻出する単語のパターンを抽出することを目的として構成されている。従来のテキストマイニング装置の一例が、特許文献１に記載されている。
この特許文献１に記載されたテキストマイニング装置は、テキスト中の各文の構文構造を解析し構文木を構築する言語解析装置と、構文木の中から頻出するパターンを発見するパターン抽出装置とを有し、テキスト中に頻出する単語の構文的なパターンを抽出する。

一方、依存構造木を変形し、同義の表現に対応する別の依存構造木に変換するシステムの一例が、非特許文献１に記載されている。この非特許文献１に記載された依存構造処理システムは、予め定めておく変換規則（照合パターン・書き換えパターン）を参照して、照合パターンに適合する依存構造木を書き換えパターンに従って別の依存構造木に変換する。
変換規則では、変数を用いて、変換前の依存構造木と変換後の依存構造木との間で対応する節点の関係を記述する。非特許文献１には、例えば、「Ｎ１がＮ２にＶさせられる」という表現に対応する依存構造木を「Ｎ２がＮ１をＶする」という同義の表現に対応する別の依存構造木に変換するための変換規則の例が示されている。この例において、Ｎ１およびＮ２は名詞に対応する変数、Ｖは動詞に対応する変数である。

特開２００１−８４２５０号公報岩倉友哉他４名、汎用依存構造処理モジュールＫＵＲＡＬＡＮＧ、言語処理学会第９回年次大会予稿集、２００３年３月１８日、ｐｐ．６８７−６９０

しかし、従来のテキストマイニング装置には、同義の表現の依存構造木を同一視してマイニングを行うことができないという問題があった。

従来のテキストマイニング装置は、依存構造木が異なる同義表現、すなわち、同一の意味内容を表しているにもかかわらず依存構造木が異なる（用いられている単語やその単語間の係り受け関係が異なる）表現を同一視してマイニングを行うことができない。その理由は、従来のテキストマイニング装置では、依存構造木が異なる同義表現について何ら考慮されていないためである。
この結果、同義の意味内容に対応する表現が複数存在する場合、それぞれの表現ごとにそれを抽出するかしないかを判定しなければならず、特徴的な意味内容を抽出し損なうおそれがあった。

例えば、表現ＥＸ１「表示する文字を小さくする」および表現ＥＸ２「小さな文字で表示する」は、いずれも「表示に使用する文字のサイズを小さくする」という同一の意味内容を表現しているため、同義表現である。しかし、図１（ａ）に示す表現ＥＸ１に対応する依存構造木ＤＴ−ＥＸ１と図１（ｂ）に示す表現ＥＸ２に対応する依存構造木ＤＴ−ＥＸ２は異なっている。
なお、ここでは、一例として、文節を節点とし、文節に属する自立語を終止形に直したものを節点のラベルとし、文節間の係り受け関係を枝とする形態の依存構造木の例を示している。以降の例も同様である。

従来のテキストマイニング装置は、これらの表現を同一視することができないため、例えば、「表示に使用する文字のサイズを小さくする」という意味内容が表現ＥＸ１を用いて述べられているテキストが２３件、表現ＥＸ２を用いて述べられているテキストが３４件ある場合に、「表示に使用する文字のサイズを小さくする」という意味内容が述べられているテキストが合わせて５７件あると認定することができない。この結果、例えば、５０件以上出現する表現を抽出するようにマイニングを行う場合、「表示に使用する文字のサイズを小さくする」という意味内容は５７件のテキストで述べられているにもかかわらず、特徴的な意味内容として抽出することができない。

従来のテキストマイニング装置は、同義表現を１つの表現に統一するように依存構造木を事前に変換し、変換後の依存構造木に対してマイニングを行うにしても、依存構造木間の変換規則を事前に作成するのに手間がかかる。その理由は、依存構造木間の変換規則においては、変換前の依存構造木の各節点に接合していた節点を、変換後の依存構造木においてどの節点に接合し直せばよいのかを明確に記述しておく必要があるためである。

例えば、表現ＥＸ１に対応する依存構造木ＤＴ−ＥＸ１（図１（ａ））を、表現ＥＸ２に対応する依存構造木ＤＴ−ＥＸ２（図１（ｂ））に変換する規則を記述する場合、ＤＴ−ＥＸ１中の節点「表示する」に接合していた節点と、節点「する」に接合していた節点とを、ともにＤＴ−ＥＸ２中の節点「表示する」に接合するように変換し、ＤＴ−ＥＸ１中の節点「小さい」に接合していた節点を、ＤＴ−ＥＸ２中の節点「小さな」に接合するように変換すること等を明確に記述しておく必要がある。さもなくば、文Ｓ１「メールを表示する文字をできるだけ小さくする方法をＷＥＢで調べた」に対応する依存構造木ＤＴ−Ｓ１（図２）において、依存構造木ＤＴ−ＥＸ１に適合する部分（図３のＰＴ１）を依存構造木ＤＴ−ＥＸ２（図１（ｂ））に変換する際に、節点「メール」、節点「できるだけ」および節点「調べる」を変換後の依存構造木においてどの節点に接合すればよいか決めることができず、依存構造木の変換を行うことができない。

従来のテキストマイニング装置は、同義表現を１つの表現に統一するように依存構造木を事前に変換し、変換後の依存構造木に対してマイニングを行うにしても、同義と見なしたい表現が完全に同一の意味ではなく依存構造木間で節点の対応を付けられない場合には、それらの表現に対応する依存構造木を事前に統一してマイニングを行うことができない。その理由は、変換前の依存構造木の各節点に接合していた節点を、変換後の依存構造木においてどの節点に接合し直せばいいのかを明確にしなければ、依存構造木間の変換を行うことができないためである。

例えば、表現ＥＸ３「表示する行数を増やす」に対応する依存構造木ＤＴ−ＥＸ３は、図４（ａ）のようになる。このとき、図１（ａ）に示す表現ＥＸ１「表示する文字を小さくする」に対応する依存構造木ＤＴ−ＥＸ１の各節点と図４（ａ）の依存構造木ＤＴ−ＥＸ３の各節点とを完全に対応づけることはできず、表現ＥＸ１と表現ＥＸ３を同義と見なしたい場合でも、対応する依存構造木間の変換を行うことができない。
実際、文Ｓ２「メールを表示する行数を２倍に増やす」に対応する依存構造木ＤＴ−Ｓ２（図４（ｂ））において、依存構造木ＤＴ−ＥＸ３（図４（ａ））に適合する部分を依存構造木ＤＴ−ＥＸ１（図１（ａ））に変換しようとしても、表現ＥＸ１「表示する文字を小さくする」において、文Ｓ２中の「２倍に」という文節が係る先は存在せず、依存構造木ＤＴ−Ｓ２中の節点「２倍」を変換後の依存構造木のどの節点にも接合することができない。

従来のテキストマイニング装置では、同義表現を１つの表現に統一するように依存構造木を事前に変換し、変換後の依存構造木に対してマイニングを行うとすると、本来は特徴的ではない表現が誤って抽出されたり、本来は特徴的である表現が誤って抽出されなかったりするおそれがある。その理由は、依存構造木の変換によって、本来は存在しなかった節点が新たに生成されたり、本来は存在していた節点が削除されたりするという副作用があるためである。

例えば、表現ＥＸ２「小さな文字で表示する」に対応する依存構造木ＤＴ−ＥＸ２（図１（ｂ））を、表現ＥＸ１「表示する文字を小さくする」に対応する依存構造木ＤＴ−ＥＸ１（図１（ａ））に変換する場合、本来は存在しなかった節点「小さい」、節点「する」が新たに生成されることになる。
このような依存構造木の変換を行う場合、例えば、表現ＥＸ１「表示する文字を小さくする」が使われているテキストが２１件、表現ＥＸ２「小さな文字で表示する」が使われているテキストが１８件、このほかに、「表示する画像のサイズを小さくする」のように表現ＥＸ１とも表現ＥＸ２とも異なるが、「小さくする」を含む表現が使われているテキストが１６件存在するものとすると、変換後、節点「小さい」と節点「する」によって構成される部分木は全依存構造木中に合計５５件出現することになる。
この結果、例えば、５０件以上出現する部分木を抽出するようにマイニングを行う場合、節点「小さい」と節点「する」によって構成される部分木は、本来であれば３７件しか出現しないにもかかわらず、特徴的な部分木として抽出されてしまう。

逆に、例えば、表現ＥＸ１「表示する文字を小さくする」に対応する依存構造木ＤＴ−ＥＸ１（図１（ａ））を、表現ＥＸ２「小さな文字で表示する」に対応する依存構造木ＤＴ−ＥＸ２（図１（ｂ））に変換する場合、本来存在していた節点「小さい」と節点「する」が削除されることになる。
このような依存構造木の変換を行う場合、例えば、表現ＥＸ１「表示する文字を小さくする」が使われているテキストが３４件、表現ＥＸ２「小さな文字で表示する」が使われているテキストが１３件、このほかに、「表示する画像のサイズを小さくする」のように、表現ＥＸ１とも表現ＥＸ２とも異なるが、「小さくする」を含む表現が使われているテキストが１９件存在するものとすると、変換後、節点「小さい」と節点「する」によって構成される部分木は全依存構造木中に合計１９件しか出現しないことになる。
この結果、例えば、５０件以上出現する部分木を抽出するようにマイニングを行う場合、節点「小さい」と節点「する」によって構成される部分木は、本来であれば５３件出現していたにもかかわらず、特徴的な部分木としては抽出されなくなってしまう。

そこで、本発明は、依存構造木が異なる同義表現を同一視してマイニングを行うことができるテキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムを提供することをその目的とする。

本発明に係るテキストマイニング装置では、同義表現識別手段が、テキストマイニングの対象となる文の依存構造木（対象文依存構造木）の中に同義表現辞書に登録されている表現の依存構造木（同義表現依存構造木）と一致する部分木（一致部分木）が含まれているかどうかを識別する。
節点置換手段は、一致部分木を同義表現が属するグループを示す特別な節点（同義表現節点）で置き換え、特徴部分木抽出手段は、置き換え後の対象文依存構造木から特徴部分木を抽出する（請求項１）。

上記テキストマイニング装置によれば、対象文依存構造木に含まれる一致部分木を、節点置換手段が同義表現節点で置換し、特徴部分木抽出手段は、置換後の対象文依存構造木から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。

本発明に係るテキストマイニング装置では、同義表現識別手段が、対象文依存構造木の中に一致部分木が含まれているかどうかを識別する。
節点追加手段は、対象文依存構造木に同義表現節点を追加する。節点追加手段は、同義表現節点から、一致部分木外の節点で一致部分木内の節点からの係り受け枝を有している節点への係り受け枝を追加し、一致部分木外の節点で一致部分木内の節点への係り受け枝を有している節点から、同義表現節点への係り受け枝を追加する。特徴部分木抽出手段は、同義表現節点の追加と係り受け枝の追加がされた後の対象文依存構造木（依存構造束）から特徴部分木を抽出する（請求項２）。

上記テキストマイニング装置によれば、節点追加手段が、対象文依存構造木に含まれる一致部分木に相当する同義表現節点を対象文依存構造木に追加し、一致部分木と外部の節点の関係を示す係り受け枝と同等の係り受け枝を同義表現節点に追加して依存構造束を生成する。特徴部分木抽出手段は、節点と係り受け枝の追加後の依存構造束から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる依存構造束には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。

上記テキストマイニング装置において、排他関係枝追加手段が同義表現節点と一致部分木に含まれる各節点とを排他関係枝で接続した依存構造束を生成し、特徴部分木抽出手段は、排他関係枝で接続された節点を含まない部分木から特徴部分木を抽出するようにしてもよい（請求項３）。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。

上記テキストマイニング装置において、抽出結果出力手段を備え、この抽出結果出力手段は、特徴部分木に含まれる同義表現部節点のラベルを、このラベルが示す同義表現グループに属する表現を代表する出力用表現に置き換えて前記特徴部分木の形状を人間が視認可能な形で出力するようにしてもよい（請求項４）。
このようにすれば、出力装置に表示される特徴構造に含まれる同義表現節点のラベルは、使用者にとって意味のわからない記号等ではなく、同義表現グループを表す表現となるので、使用者はラベルの意味を理解できるようになる。

上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す同義表現グループの中で最初に列挙されている表現としても良い（請求項５）。

上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループの中で最も長さが短い表現としても良い（請求項６）。

上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループの中で前記テキストマイニングの対象となる文集合中に最も多く出現した表現としてもよい（請求項７）。

上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループの中で出力用表現として用いるものとして予め指定されている表現としてもよい（請求項８）。

上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループに対応して、この同義表現グループに含まれる表現とは別に予め定義されている表現としても良い（請求項９）。

本発明に係るテキストマイニング方法では、マイニングの対象となるテキストデータベースから対象文依存構造木を生成し、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成し、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別し、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成し、一致部分木に含まれる全節点を同義表現節点で置換し、置換がされた後の対象文依存構造木から特徴部分木を抽出する（請求項１０）。

上記テキストマイニング方法によれば、対象文依存構造木に含まれる一致部分木を、同義表現節点で置換し、置換後の対象文依存木から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。

本発明に係るテキストマイニング方法では、マイニングの対象となるテキストデータベースから対象文依存構造木を生成し、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成し、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別し、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成して対象文依存構造木に追加する。このとき、同義表現節点から、一致部分木外の節点で一致部分木の内の節点からの係り受け枝を有している節点への係り受け枝を追加し、一致部分木外の節点で一致部分木内の節点への係り受け枝を有している節点から、同義表現節点への係り受け枝を追加しておく。そして、同義表現節点の追加と係り受け枝の追加がされた後の対象文依存構造木（依存構造束）から特徴部分木を抽出する（請求項１１）。

上記テキストマイニング方法によれば、対象文依存構造木に含まれる一致部分木に相当する同義表現節点を対象文依存構造木に追加し、一致部分木と外部の節点の関係を示す係り受け枝と同等の係り受け枝を同義表現節点に追加して依存構造束を生成する。そして、依存構造束から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる対象文依存構造木には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。

上記テキストマイニング方法において、対象文依存構造木に同義表現節点が追加された後、この同義表現節点と一致部分木に含まれる各節点を排他関係枝で接続した依存構造束を生成し、依存構造束の排他関係枝で接続された節点を含まない部分木から特徴部分木を抽出するようにしてもよい（請求項１２）。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。

本発明のテキストマイニングプログラムでは、マイニングの対象となるテキストデータベースから対象文依存構造木を生成する機能と、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成する機能と、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別する機能と、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、一致部分木に含まれる全節点を同義表現節点で置換する機能と、置換がされた後の対象文依存構造木から特徴部分木を抽出する機能とをコンピュータに実行させる（請求項１３）。

上記テキストマイニングプログラムによれば、対象文依存構造木に含まれる一致部分木を、同義表現節点で置換し、置換後の対象文依存木から特徴部分木を抽出する。
そのため、コンピュータをテキストマイニング装置として動作させ、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。

本発明に係るテキストマイニングプログラムでは、マイニングの対象となるテキストデータベースから対象文依存構造木を生成する機能と、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成する機能と、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別する機能と、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成して対象文依存構造木に追加する機能とをコンピュータ実行させる。このとき、同義表現節点から、一致部分木外の節点で一致部分木の内の節点からの係り受け枝を有している節点への係り受け枝を追加させ、一致部分木外の節点で一致部分木内の節点からの係り受け枝を有している節点から、同義表現節点への係り受け枝を追加させるようにする。そして、同義表現節点の追加と係り受け枝の追加がされた後の対象文依存構造木（依存構造束）から特徴部分木を抽出させる（請求項１４）。

上記テキストマイニングプログラムによれば、対象文依存構造木に含まれる一致部分木に相当する同義表現節点を対象文依存構造木に追加し、一致部分木と外部の節点の関係を示す係り受け枝と同等の係り受け枝を同義表現節点に追加して依存構造束を生成する。そして依存構造束から特徴部分木を抽出する。
そのため、コンピュータをテキストマイニング装置として動作させ、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる対象文依存構造木には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。

上記テキストマイニングプログラムにおいて、対象文依存構造木に同義表現節点が追加された後、同義表現節点と一致部分木に含まれる各節点を排他関係枝で接続した依存構造束を生成する機能をコンピュータに実行させ、依存構造束の排他関係枝で接続された節点を含まない部分木から特徴部分木を抽出するようにしてもよい（請求項１５）。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。

本発明によれば、対象文依存構造木に含まれる一致部分木を、節点置換手段が同義表現節点で置換し、特徴部分木抽出手段は、置換後の対象文依存木から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。

図を参照しながら本発明の第１の実施形態であるテキストマイニング装置１０の構成と動作について説明する。
（テキストマイニング装置１０の構成）
図５は、テキストマイニング装置１０の概略機能ブロック図である。
テキストマイニング装置１０は、キーボード、マウス等の入力装置１と、プログラム制御により動作するデータ処理装置２０と、情報を記憶するハードディスク等の記憶装置３０と、ディスプレイ装置等の出力装置４とを備える。

記憶装置３０は、同義表現辞書記憶部３１と、テキスト集合記憶部３２とを備える。
同義表現辞書記憶部３１は、テキストマイニングを行う際に同義と見なす表現を同義と見なす表現ごとにグループ化して定義した同義表現辞書を予め記憶している。テキスト集合記憶部３２は、テキストマイニングの対象となるテキストを予め記憶している。
同義表現辞書において同一の同義表現グループに属する同義表現どうしが、テキストマイニングを行う際に同一視される。

図６に、同義表現辞書の一例を示す。この例は、テキストマイニング時に、表現ＥＸ１「表示する文字を小さくする」と表現ＥＸ２「小さな文字で表示する」と表現ＥＸ３「表示する行数を増やす」とを同一視し（同義表現グループＧ１）、さらに、表現ＥＸ４「画像をメールで送る」と表現ＥＸ５「メールに画像を添付する」とを同一視したい（同義表現グループＧ２）場合の同義表現辞書の定義例である。

データ処理装置２０は、言語解析手段２１と、同義表現識別手段２２と、同義表現節点生成手段２３と、節点置換手段２４と、特徴部分木抽出手段２５と、抽出結果出力手段２６とを備える。
言語解析手段２１は、同義表現辞書記憶部３１に記憶されている全ての表現およびテキスト集合記憶部３２に記憶されているテキスト中の全ての文について対応する依存構造木を構築する。
依存構造木とは、文の構成要素を節点とし、文の構成要素間の依存関係（係り受け関係）を枝として、文を木構造として表現したものである。各節点は、節点に付与されたラベルによって区別される。

節点に対応する文の構成要素としては、例えば形態素を採用し、各形態素の原型を節点のラベルとし、形態素間の依存関係を枝とする依存構造木を構築するようにしてもよいし、図１（ａ）の例のように文節を採用し、文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする依存構造木を構築するようにしてもよい。
依存構造木を構築するには、例えば、形態素解析を行って文を形態素の単位に分割し、構文解析を行って各形態素間の関係を求める等、一般に知られている方法を用いることができる。
なお、言語解析手段２１によって構築された依存構造木は、図示しないＤＲＡＭ(Dynamic Random Access Memory)等の一時記憶装置に保持するようにしてもよいし、記憶装置３０に保持するようにしてもよい。

同義表現識別手段２２は、テキスト集合記憶部３２に記憶されているテキスト中の各文に対応する依存構造木（対象文依存構造木）と、同義表現辞書記憶部３１に記憶されている表現に対応する依存構造木（同義表現依存構造木）を照合する。これにより、テキスト中で同義表現辞書中の表現が使用されている箇所を特定し、テキスト中のどの箇所で同義表現辞書中のどの表現が使用されているのかを識別する。

同義表現節点生成手段２３は、テキスト中の各文において、同義表現辞書中の表現が使用されている箇所、すなわち、テキスト中の各文に対応する依存構造木において同義表現辞書中の表現に対応する依存構造木（一致部分木）が部分木として含まれている箇所のそれぞれに対応づけて、新しい節点（同義表現節点）を生成する。
生成する節点には、その箇所で使用されていた表現が属する同義表現グループを表す識別子をラベルとして付与する。すなわち、同一の同義表現グループに属する表現が使用されている箇所に対して生成された節点には、共通のラベルを付与するようにする。また、ラベルは、言語解析手段２１によって構築された依存構造木にはじめから存在していた節点のラベルとは異なる特別なラベルとする。

節点置換手段２４は、テキスト中の各文に対応する依存構造木において、一致部分木が含まれている箇所に対して、その部分木に含まれる全節点を、同義表現節点生成手段２３がその箇所に対応づけて生成した同義表現節点で置換する。この置換処理により、始点と終点の両方が同一の節点に置換される枝は削除する。始点と終点の一方の節点のみが置換される枝はそのまま残す。

節点置換手段２４による処理の例を図７に示す。これは、文Ｓ１「メールを表示する文字をできるだけ小さくする方法をＷＥＢで調べた」に対応する依存構造木ＤＴ−Ｓ１（図２）において、表現ＥＸ１「表示する文字を小さくする」に対応する依存構造木ＤＴ−ＥＸ１が部分木として含まれている箇所（図３のＰＴ１）に対して、その箇所の部分木に含まれる全節点を、新しい節点「Ｇ１」によって置換する場合の例である。
この例では、４つの節点「表示する」「文字」「小さい」「する」が節点「Ｇ１」によって置換される。これらの４節点間を接合していた枝ＢＲ１、ＢＲ２、ＢＲ３は削除される。節点「メール」と節点「表示する」とを接合していた枝ＢＲ４は、節点「メール」と節点「Ｇ１」とを接合する形でそのまま残される。また、節点「できるだけ」と節点「小さい」とを接合していた枝ＢＲ５は、節点「できるだけ」と節点「Ｇ１」とを接合する形でそのまま残される。また、節点「する」と節点「方法」とを接合していた枝ＢＲ６は、節点「Ｇ１」と節点「方法」とを接合する形でそのまま残される。

特徴部分木抽出手段２５は、テキスト中の各文に対応する依存構造木から特徴的な部分木を抽出する。
ある部分木が特徴的かどうかの判定は、一般的なデータマイニングの手法を用いる。例えば、全依存構造木中で予め定める閾値以上の回数出現する部分木を特徴的な部分木として抽出することができる。また、対応する依存構造木中に、ある部分木が出現する文が１つ以上存在するテキストが予め定める閾値以上の個数存在する場合に、その部分木を特徴的な部分木として抽出することも可能である。このほか、テキストが予め定める集合に属するか否かと、そのテキスト中の各文に対応する依存構造木中に部分木が出現するか否かに、予め定める閾値以上の相関性がある部分木を特徴的な部分木として抽出するようにしてもよい。

ある部分木が特徴的かどうかを判定する基準（例えば、出現回数の閾値や、相関性を求める対象となるテキストの集合、相関性の閾値等）は、入力装置１を通して利用者が入力するようにしてもよい。また、特徴的かどうかを判定する方法を複数用意し、利用者が選択できるようにしてもよい。このほか、利用者が、抽出する部分木の条件や、部分木を抽出するテキストの条件を指定できるようにしてもよい。

抽出結果出力手段２６は、抽出された部分木の形状を出力装置４に利用者が視認できる形で出力する。このとき、言語解析手段２１によって構築された依存構造木にはじめから存在していた節点についてはそのまま出力し、同義表現節点生成手段２３によって生成された節点については、同義表現辞書記憶部３１を参照して、そのラベルを対応する同義表現グループに応じた表現に置換して出力する。これにより、同義表現節点生成手段２３によって付与された特殊なラベルを利用者が理解できる状態に直すことができる。

ラベルの置換に使用する表現は、例えば、同義表現グループ中で最初の表現、もっとも長さが短い表現、テキスト中にもっとも多く出現した表現等を同義表現辞書から自動的に選択するようにすることができる。
また、同義表現辞書において、同義表現グループを代表する表現に予め印を付けておき、その表現を使用するようにしてもよい。
また、同義表現辞書において、ラベルの置換に使用する表現を同義と見なす表現とは別に格納しておくようにしてもよい。

次に、テキストマイニング装置１０の動作について詳細に説明する。
図８は、テキストマイニング装置の動作を示すフローチャートである。
まず、言語解析手段２１が、同義表現辞書記憶部３１に記憶されている全表現を解析し、同義表現依存構造木を構築する（図８のステップＡ１およびＡ２）。
次に、言語解析手段２１は、テキスト集合記憶部３２に記憶されているテキスト中の１つの文を解析し、対象文依存構造木を構築する（ステップＡ３）。
続いて、同義表現識別手段２２が、ステップＡ３で構築された対象文依存構造木を、ステップＡ１において構築された同義表現依存構造木と照合し、対象文中に同義表現辞書に記録されている表現が含まれているかどうかを判別する（ステップＡ４およびステップＡ５）。

対象文依存構造木の中に、同義表現辞書中の表現に対応する依存構造木（一致部分木）が部分木として含まれている箇所が存在する場合、同義表現節点生成手段２３が、その表現が属する同義表現グループに応じた識別子をラベルとする特別な節点（同義表現節点）を、その箇所に対応づけて生成する（ステップＡ６）。さらに、節点置換手段２４が、一致部分木に含まれる全節点を、同義表現節点によって置換する（ステップＡ７）。

同義表現識別手段２２は、ステップＡ１において構築されたすべての同義表現依存構造木との照合が終わったかどうかを判定する（ステップＡ８）。まだ照合していない同義表現依存構造木が残っている場合には、同義表現識別手段２２、同義表現節点生成手段２３および節点置換手段２４が、ステップＡ４からＡ７までの動作を繰り返す。なお、このとき２巡目以降は、１巡目の処理が行われた後の構造を対象として処理を行う。

さらに、言語解析手段２１が、テキスト集合記憶部３２に記憶されているテキスト中のすべての文に対して解析が終了したかどうかを判定する（ステップＡ９）。まだ解析していない文が残っている場合には、言語解析手段２１、同義表現識別手段２２、同義表現節点生成手段２３および節点置換手段２４が、ステップＡ３からＡ８までの動作を繰り返す。

すべての文について、ここまでの処理が終了すると、特徴部分木抽出手段２５が、各文に対応する依存構造木から特徴的な部分木を抽出する（ステップＡ１０）。
最後に、抽出結果出力手段２６が、抽出結果を順に出力装置４に出力する。まず、同義表現辞書記憶部３１を参照し、抽出結果において、ステップＡ６において生成された同義表現節点のラベルを相応な表現（出力用表現）に置換する（ステップＡ１０）。続いて、出力装置４を通して抽出結果を出力する（ステップＡ１１）。すべての抽出結果に対してこの動作を繰り返す(ステップＡ１２）。

なお、本実施の形態では、テキスト集合記憶部３２に記憶されているテキストに対して、言語解析手段２１が一文ごとに依存構造木を構築し、同義表現識別手段２２、同義表現節点生成手段２３、および、節点置換手段２４がこの依存構造木を順に処理するものとして説明したが、テキスト集合記憶部３２に記憶されているテキスト中の全文に対して言語解析手段２１が一括して依存構造木を構築し、同義表現識別手段２２、同義表現節点生成手段２３および節点置換手段２４が、それぞれ、全依存構造木を一括して処理するようにしてもよい。

次に、テキストマイニング装置１０の具体的な動作例について説明する。
本実動作例では、依存構造木として、文節を節点とし、文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする木構造を採用する。
同義表現辞書記憶部３１には、図６に示す内容が予め記憶されている。
また、テキスト集合記憶部３２には、テキストマイニングの対象となるテキストが予め記憶されている。図１５において長方形３０３で模式的に示したのが一つのテキスト、たとえばコールセンターに寄せられた問い合わせの内容を電子的に記録したものである。一つのテキストには、１または複数の文が含まれている。テキスト集合記憶部３２には、このようなテキストが複数記憶されている。

まず、言語解析手段２１が、同義表現辞書記憶部３１中の各表現を解析し、同義表現依存構造木を構築する。
本実施例では、形態素解析により各表現を形態素に分割し、構文解析により文節間の係り受け関係を求めて、同義表現依存構造木を構築する。
この処理により、図６の表現ＥＸ１から依存構造木ＤＴ−ＥＸ１（図１（ａ））が、表現ＥＸ２から依存構造木ＤＴ−ＥＸ２（図１（ｂ））が、表現ＥＸ３から依存構造木ＤＴ−ＥＸ３（図４（ａ））が、表現ＥＸ４から依存構造木ＤＴ−ＥＸ４（図１６（ａ））が、そして、表現ＥＸ５から依存構造木ＤＴ−ＥＸ５（図１６（ｂ））が構築される。

同義表現辞書記憶部３１中のすべての表現に対して同義表現依存構造木の構築が終了すると、続いて、言語解析手段２１が、テキスト集合記憶部３２中のテキストに含まれる各文を解析して対象文依存構造木を構築し、同義表現識別手段２２が、一致部分木が対象文依存構造木に含まれているかどうかを識別し、同義表現節点生成手段２３が、一致部分木が含まれる箇所に対応づけて同義表現節点を生成し、節点置換手段２４が、一致部分木に含まれる全節点を同義表現節点により置換する処理を行う。

ここでは、テキスト中の文Ｓ１「メールを表示する文字をできるだけ小さくする方法をＷＥＢで調べた」に対する上記処理の例を説明する。
まず、言語解析手段２１が、この文を解析して対象文依存構造木を構築する。この結果、図２に示す依存構造木ＤＴ−Ｓ１が構築される。
次に、同義表現識別手段２２が、同義表現依存構造木ＤＴ−ＥＸ１（図１（ａ））、ＤＴ−ＥＸ２（図１（ｂ））、ＤＴ−ＥＸ３（図４（ａ））、ＤＴ−ＥＸ４（図１６（ａ））、および、ＤＴ−ＥＸ５（図１６（ｂ））のそれぞれと、文Ｓ１に対応する依存構造木ＤＴ−Ｓ１（図２）とを照合し、依存構造木ＤＴ−Ｓ１中のどの箇所に、どの表現に対応する依存構造木が部分木として含まれているかを識別する。

照合の結果、依存構造木ＤＴ−Ｓ１中には、図３に示すように、依存構造木ＤＴ−ＥＸ１が部分木ＰＴ１として含まれているが、依存構造木ＤＴ−ＥＸ２、ＤＴ−ＥＸ３、ＤＴ−ＥＸ４、および、ＤＴ−ＥＸ５は含まれていないことが識別される。
同義表現節点生成手段２３は、図３の部分木ＰＴ１に対応づけて、同義表現節点を生成する。同義表現節点には、適合した依存構造木に対応する表現が属する同義表現グループを表す識別子をラベルとして付与する。

依存構造木ＤＴ−ＥＸ１は、表現ＥＸ１に対応するものであり、表現ＥＸ１は同義表現グループＧ１に属するため、ここでは、「Ｇ１」というラベルを付与する（図１７）。なお、このラベルは、言語解析手段２１によって構築された依存構造木にはじめから存在していた節点のラベルとは異なる特別なラベルである。図中では「Ｇ１」に下線を引くことで、同義表現節点生成手段２３によって生成された同義表現節点であることを示している。

次に、節点置換手段２４が、依存構造木ＤＴ−Ｓ１の部分木ＰＴ１に含まれる全節点を、同義表現節点生成手段２３によって生成された節点「Ｇ１」によって置換する（図７）。節点置換手段２４は、始点と終点の両方が同一の節点に置換される枝ＢＲ１ないし３を削除し、始点と終点の一方の節点のみが置換される枝ＢＲ４ないし６はそのまま残す。この結果、依存構造木ＤＴ−Ｓ１は、依存構造木ＤＴ−Ｓ１Ｒ（図１８（ａ））へと変換される。

言語解析手段２１、同義表現識別手段２２、同義表現節点生成手段２３、および、節点置換手段２４がこのように動作することで、文Ｓ１「メールを表示する文字をできるだけ小さくする方法をＷＥＢで調べた」から依存構造木ＤＴ−Ｓ１（図２）が構築され、最終的に依存構造木ＤＴ−Ｓ１Ｒ（図１８（ａ））に変換される。このようにして生成された依存構造木ＤＴ−Ｓ１Ｒが、特徴部分木抽出手段２５が特徴的な部分木を抽出する対象となる。

同様の処理により、文Ｓ２「メールを表示する行数を２倍に増やす」からは、依存構造木ＤＴ−Ｓ２（図４（ｂ））が構築され、最終的に依存構造木ＤＴ−Ｓ２Ｒ（図１８（ｂ））が生成される。さらに、文Ｓ３「メールを小さな文字で別な画面に表示する」からは、依存構造木ＤＴ−Ｓ３（図１９（ａ））が構築され、最終的に依存構造木ＤＴ−Ｓ３Ｒ（図１９（ｂ））が生成される。

依存構造木ＤＴ−Ｓ１Ｒ（図１８（ａ））、依存構造木ＤＴ−Ｓ２Ｒ（図１８（ｂ））、依存構造木ＤＴ−Ｓ３Ｒ（図１９（ｂ））を比較すると、これらの依存構造木は、いずれも節点「Ｇ１」を含む。これは、同義表現識別手段２２、同義表現節点生成手段２３および節点置換手段２４の処理により、文Ｓ１で使われている表現ＥＸ１、文Ｓ２で使われている表現ＥＸ２および文Ｓ３で使われている表現ＥＸ３の差異が吸収され、いずれも、依存構造木中で単一の節点「Ｇ１」として表されるようになったことを示している。

また、文Ｓ４「撮影した画像をメールで２人に送る」からは、依存構造木ＤＴ−Ｓ４（図２０（ａ））が構築され、最終的に依存構造木ＤＴ−Ｓ４Ｒ（図２０（ｂ））が生成される。文Ｓ５「メールにカメラで撮影した画像を添付する」からは、依存構造木ＤＴ−Ｓ５（図２１（ａ））が構築され、最終的に依存構造木ＤＴ−Ｓ５Ｒ（図２１（ｂ））が生成される。

依存構造木ＤＴ−Ｓ４Ｒ（図２０（ｂ））と依存構造木ＤＴ−Ｓ５Ｒ（図２１（ｂ））を比較すると、これらの依存構造木は、いずれも節点「Ｇ２」を含む。これは、同義表現識別手段２２、同義表現節点生成手段２３および節点置換手段２４の処理により、文Ｓ４で使われている表現ＥＸ４および文Ｓ５で使われている表現ＥＸ５の差異が吸収され、いずれも、依存構造木中で単一の節点「Ｇ２」として表されるようになったことを示している。

言語解析手段２１、同義表現識別手段２２、同義表現節点生成手段２３および節点置換手段２４が処理を繰り返し、テキスト集合記憶部３２中の各テキスト中の文すべてに対して依存構造木を生成すると、特徴部分木抽出手段２５が、生成された全依存構造木を対象として特徴的な部分木を抽出する。
ここでは、節点置換後の全依存構造木中で、５０回以上出現する部分木を特徴的な部分木として抽出するものとする。この場合、例えば、特徴部分木抽出手段２５は、依存構造木中に含まれる部分木を全種類列挙して、それぞれの出現回数をカウントし、出現回数が５０回以上の部分木を抽出することができる。

特徴的な部分木の抽出が終了すると、抽出結果出力手段２６が、抽出結果を順に出力する。このとき、言語解析手段２１によって構築された依存構造木にはじめから存在していた節点についてはそのまま出力し、同義表現節点生成手段２３によって生成された節点については、ラベルを、対応する同義表現グループに応じた表現に置換して出力する。
この動作例では、対応する同義表現グループ中の最初の表現を用いて、同義表現節点生成手段２３によって生成された節点のラベルを置換するものとする。

抽出結果には、図２２（ａ）に示す依存構造木ＤＴ−Ｒ１が含まれていたとし、抽出結果出力手段２６が、この依存構造木ＤＴ−Ｒ１を出力する例を説明する。
依存構造木ＤＴ−Ｒ１において、節点「メール」は、言語解析手段２１によって構築された依存構造木にはじめから存在していた節点であるが、節点「Ｇ１」は、同義表現節点生成手段２３によって生成された節点である。同義表現グループＧ１（図６参照）中の最初の表現は、表現ＥＸ１「表示する文字を小さくする」であるため、節点「Ｇ１」のラベルは、この表現ＥＸ１によって置換され、図２２（ｂ）のように結果が出力される。

文Ｓ１中の表現ＥＸ１に対応する部分、文Ｓ２中の表現ＥＸ３に対応する部分、および、文Ｓ３中の表現ＥＸ２に対応する部分がいずれも同一の節点「Ｇ１」によって表され、同一視された状態で特徴的な部分木の抽出が行われる。また、文Ｓ４中の表現ＥＸ４に対応する部分、および、文Ｓ５中の表現ＥＸ５に対応する部分がいずれも同一の節点「Ｇ２」によって表され、これらも同一視された状態で特徴的な部分木の抽出が行われる。また、追加された節点のラベルは、出力時に、それぞれの節点によって同一視された表現に対応する適当な表現に置換されるため、表現の同一視が行われた場合でも、利用者は容易に結果を理解できる。
また、これらの節点「Ｇ１」「Ｇ２」は、文節に属する自立語を終止形に直したしたものをラベルとする元の依存構造木中の節点とは異なるものであるため、元の依存構造木中の節点と区別することができ、本来特徴的ではない部分木が誤って抽出されることはない。

このように、テキストマイニング装置１０は、特徴構造を抽出する前に節点置換手段２４が対象文依存構造木の一致部分木を同義表現節点生成手段２２が生成した同義表現節点に置換するため、特徴部分木抽出手段２５は、同義表現を同一視して特徴的な部分木の抽出を行うことができる。
なお、置換後の構造も木構造であり、なおかつ、置換によって節点が増加することがないため、特徴的な部分木の抽出にかかるコストが、置換前と比べて増加することはない。
また、対象文依存構造木において、同義の表現に対応する部分の構造を統一する際に、別の依存構造木に変換するのではなく、同義表現節点という単一の節点に置換するため、依存構造木間の変換規則を記述することなく同義表現を同一視することができる。また、対応する依存構造木間の変換を行うことが不可能な同義表現を同一視することも可能である。
さらに、節点置換手段によって追加される同義表現節点は、既存の節点とは異なる特殊な節点であるため、既存の節点のみからなる部分木の抽出には影響を及ぼさない。この結果、同義表現を統一することによる副作用を低く抑えることができる。

次に、図を参照しながら本発明の第２の実施形態であるテキストマイニング装置１１の構成と動作について説明する。テキストマイニング装置１１は、多くの要素がテキストマイニング装置１０と共通するので、共通する要素には同一の符号を付して説明を省略する。

（テキストマイニング装置１１の構成）
図９は、テキストマイニング装置１１の概略機能ブロック図である。
テキストマイニング装置１１は、データ処理装置２９の構成が、図５のテキストマイニング装置１０のデータ処理装置２０と異なっている。データ処理装置２９は、図５の節点置換手段２４と特徴部分木抽出手段２５に代わり、束構成手段（節点追加手段および排他関係枝追加手段）２７と束用特徴部分木抽出手段（特徴部分木抽出手段）２８を有している。

束構成手段２７は、対象文依存構造木に一致部分木が含まれているとき、同義表現節点を追加する。束構成手段２７は、さらに、一致部分木に含まれる全節点を同義表現節点によって置換した場合と同等の枝を依存構造木に追加する。
すなわち、一致部分木について、一致部分木に含まれる節点を始点とし一致部分木に含まれない節点を終点とする枝が、元の依存構造木中に存在するならば、同義表現節点からその終点への枝を依存構造木に追加する。また、一致部分木に含まれない節点を始点とし、一致部分木に含まれる節点を終点とする枝が、元の依存構造木中に存在するならば、その始点から同義表現節点への枝を依存構造木に追加する。

束構成手段２７は、このとき、一致部分木に含まれる各節点と同義表現節点とを互いに排他関係枝で結び排他関係にある節点として関連づけておく。
なお、束構成手段２７の処理により、依存構造木は、木構造から束構造へと変換される。以降、変換後の構造を依存構造束と呼ぶ。

束構成手段２７による処理の例を図１０に示す。これは、文Ｓ１「メールを表示する文字をできるだけ小さくする方法をＷＥＢで調べた」に対応する依存構造木ＤＴ−Ｓ１（図２）において、表現ＥＸ１「表示する文字を小さくする」に対応する依存構造木ＤＴ−ＥＸ１が部分木として含まれている箇所（図１０のＰＴ１）に対応づけて節点「Ｇ１」が生成されているときに、枝を追加する場合の例である。
この例では、ＰＴ１に含まれる節点「する」を始点としＰＴ１の外側の節点「方法」を終点とする枝ＢＲ６が存在するため、節点「Ｇ１」から節点「方法」への枝ＢＲ７が追加される。
また、ＰＴ１の外側の節点「メール」を始点とし内側の節点「表示する」を終点とする枝ＢＲ４およびＰＴ１の外側の節点「できるだけ」を始点とし内側の節点「小さい」を終点とする枝ＢＲ５が存在するため、節点「メール」および節点「できるだけ」から節点「Ｇ１」への枝ＢＲ８および枝ＢＲ９が追加される。
また、ＰＴ１内の４つの節点「表示する」「文字」「小さい」「する」と、節点「Ｇ１」とが互いに排他関係枝ＢＲ１０ないしＢＲ１３で結ばれ排他関係にある節点として関連づけられる。図１０では、点線によって排他関係が示されている。

ここで、互いに排他関係にある節点とは、その両方が同時に出現していると解釈することができない節点を意味する。同義表現節点生成手段２３によって、一致部分木に対して生成された同義表現節点は、その部分木全体をひとまとめにして、同義表現辞書中の表現が出現していると解釈したことに相当する節点である。
一方、一致部分木中の各節点は、その表現を構成する構成要素が個別に出現していると解釈したことに相当する節点である。
したがって、両方が同時に出現していると解釈することはできないため、束構成手段２７は、両者を互いに排他関係にある節点として関連づける。

なお、一致部分木に含まれる節点と排他関係にある同義表現節点がすでに存在していた場合には、その同義表現節点も、新たに生成された同義表現節点と互いに排他関係にある節点として関連づける。その両者が表す表現は、構成要素として同一の節点を持っており、両方が同時に出現していると解釈することはできないためである。

束用特徴部分木抽出手段２８は、言語解析手段２１によって構築された依存構造木および束構成手段２７によって構成された依存構造束から特徴的な部分木を抽出する。依存構造木から依存構造束が構成されている場合、元の依存構造木は特徴的な部分木の抽出に使用しない。また、互いに排他関係にある複数の節点を含む部分木は抽出しない。
例えば、図１１に示す依存構造束ＤＬ−Ｓ１において、節点「表示する」と節点「文字」と節点「小さい」と節点「する」がそれぞれ排他関係枝で節点Ｇ１と接続されている場合、図１２に示す依存構造木ＰＴ２は、排他関係にある節点「する」および節点「Ｇ１」が含まれるため、束用特徴部分木抽出手段１８は、これを抽出しない。

本実施の形態においても、ある部分木が特徴的かどうかの判定は、一般的なデータマイニングの手法を用いることができる。例えば、全依存構造木中で予め定める閾値以上の回数出現する部分木を特徴的な部分木として抽出することができる。また、対応する依存構造木中に、ある部分木が出現する文が１つ以上存在するテキストが、予め定める閾値以上の個数存在する場合に、その部分木を特徴的な部分木として抽出することも可能である。このほか、テキストが予め定める集合に属するか否かと、そのテキスト中の各文に対応する依存構造木中に部分木が出現するか否かに、予め定める閾値以上の相関性がある部分木を、特徴的な部分木として抽出するようにしてもよい。

本実施の形態においても、第１の実施の形態と同様に、特徴的かどうかを判定する基準（例えば、出現回数の閾値や、相関性を求める対象となるテキストの集合、相関性の閾値等）は、入力装置１を通して利用者が入力するようにしてもよい。また、特徴的かどうかを判定する方法を複数用意し、利用者が選択できるようにしてもよい。このほか、利用者が、抽出する部分木の条件や、部分木を抽出するテキストの条件を指定できるようにしてもよい。

次に、テキストマイニング装置１１の動作について詳細に説明する。
図１３は、テキストマイニング装置１１の動作を示すフローチャートである。ステップＡ１ないしステップＡ６の動作は、テキストマイニング装置１０と同様である。

ステップＢ１では、束構成手段２７が、ステップＡ３において構築された対象文依存構造木に、同義表現依存構造木に対応する一致部分木が含まれているとき、対象文依存構造木の節点と、ステップＡ６において生成された同義表現節点との間に枝を追加し、依存構造束を構成する。すなわち、一致部分木に含まれる節点を始点とし一致部分木に含まれない節点を終点とする枝が元の依存構造木中に存在していた場合に、同義表現節点からその終点への枝を追加し、また、一致部分木に含まれない節点を始点とし一致部分木に含まれる節点を終点とする枝が元の依存構造木中に存在していた場合に、その始点から同義表現節点への枝を追加する。
ステップＢ２では、束構成手段２７が、一致部分木に含まれる各節点と同義表現節点とを互いに排他関係にある節点として関連づける。
ステップＢ３では、束用特徴部分木抽出手段２８が、各文に対応する依存構造木もしくは依存構造束から特徴的な部分木を抽出する。ただし、互いに排他関係にある複数の節点を含む部分木は抽出しない。

次に、テキストマイニング装置１１の具体的な動作例について説明する。
本実施例も、テキストマイニング装置１０の動作例と同様に、依存構造木として文節を節点とし文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする木構造を採用する。
また、同義表現辞書記憶部３１には、図２３に示す内容が予め記憶されている。
また、テキスト集合記憶部３２には、図１５に示す内容のテキストマイニングの対象となるテキストが予め記憶されている。

本実施例においても、テキストマイニング装置１０の場合と同様に、まず、言語解析手段２１が、同義表現辞書記憶部３１中の各表現を解析し、同義表現依存構造木を構築する。
この処理により、表現ＥＸ１から依存構造木ＤＴ−ＥＸ１（図１（ａ））が、表現ＥＸ２から依存構造木ＤＴ−ＥＸ２（図１（ｂ））が、表現ＥＸ３から依存構造木ＤＴ−ＥＸ３（図４（ａ））が、表現ＥＸ６から依存構造木ＤＴ−ＥＸ６（図２４（ａ））が、そして、表現ＥＸ７から依存構造木ＤＴ−ＥＸ７（図２４（ｂ））が構築される。

続いて、言語解析手段２１が、テキスト集合記憶部３２中のテキストに含まれる各文を解析して対象文依存構造木を構築し、同義表現識別手段２２が、同義表現辞書中の表現に対応する一致部分木が対象文依存構造木に含まれているかどうかを識別し、同義表現節点生成手段２３が、一致部分木と対応付けて同義表現節点を生成する。

ここでは、まず、テキスト中の文Ｓ１「メールを表示する文字をできるだけ小さくする方法をＷＥＢで調べた」に対する処理を例として説明する。
まず、言語解析手段２１により依存構造木ＤＴ−Ｓ１（図２）が構築さる。続いて、同義表現識別手段２２によって、各依存構造木ＤＴ−ＥＸ１（図１（ａ））、ＤＴ−ＥＸ２（図１（ｂ））、ＤＴ−ＥＸ３（図４（ａ））、ＤＴ−ＥＸ６（図２４（ａ））、および、ＤＴ−ＥＸ７（図２４（ｂ））が、この依存構造木ＤＴ−Ｓ１と順に照合される。
この結果、依存構造木ＤＴ−ＥＸ１（図１（ａ））がこの依存構造木ＤＴ−Ｓ１中に部分木として含まれていることが識別され（図３）、同義表現節点生成手段２３によって、その部分に対応づけて新たに同義表現節点「Ｇ１」が生成される（図１７）。ここまでは、第１の実施例と同じ処理が行われる。

次に、束構成手段２７が同義表現節点「Ｇ１」と、元の依存構造木ＤＴ−Ｓ１中の節点との間に枝を追加し、依存構造束を構成する（図１０）。このとき、依存構造木ＤＴ−ＥＸ１に適合する一致部分木ＰＴ１に着目し、部分木ＰＴ１内の節点を始点とし部分木ＰＴ１外の節点を終点とする枝が、依存構造木ＤＴ−Ｓ１中に存在する場合に、節点「Ｇ１」からその終点への枝を追加し、部分木ＰＴ１外の節点を始点とし部分木ＰＴ２内の節点を終点とする枝が、依存構造木中ＤＴ−Ｓ１中に存在していた場合に、その始点から節点「Ｇ１」への枝を追加する。
図１０において、左側の依存構造木ＤＴ−ＥＸ２に適合する部分木ＰＴ１の内側の節点「する」を始点とし、外側の節点「方法」を終点とする枝ＢＲ６が存在するため、節点「Ｇ１」から節点「方法」へのＢＲ７枝が追加される。また、部分木ＰＴ１の外側の節点「メール」を始点とし、内側の節点「表示する」を終点とする枝ＢＲ４、および、部分木ＰＴ１の外側の節点「できるだけ」を始点とし、内側の節点「小さい」を終点とする枝ＢＲ５が存在するため、束構成手段２７によって、節点「メール」および節点「できるだけ」から節点「Ｇ１」への枝ＢＲ８およびＢＲ９が追加され、依存構造束ＤＬ−Ｓ１（図１１）が構成される。

束構成手段２７は、さらに、依存構造木ＤＴ−ＥＸ１に適合する部分木に含まれる各節点と、節点「Ｇ１」とを互いに排他関係にある節点として関連づける。この結果、図１７において点線部分の内側に存在していた４つの節点「する」「小さい」「文字」「表示する」と、節点「Ｇ１」とが互いに排他関係にある節点として関連づけられる。図１１では、点線によって排他関係が示されている。
このようにして構成された依存構造束ＤＬ−Ｓ１（図１１）に対して、同義表現識別手段２２による同義表現辞書中の表現に対応する依存構造木との照合が続けられるが、他に含まれている依存構造木は存在しないため、最終的にこの依存構造束ＤＬ−Ｓ１が、束用特徴部分木抽出手段２８が特徴的な部分木を抽出する対象となる。

次に、文Ｓ３「メールを表示する文字をできるだけ小さくする方法をＷＥＢで調べた」を含むテキストがテキスト集合記憶部３２中に存在したとし、この文Ｓ３に対する処理を説明する。
まず、言語解析手段２１により依存構造木ＤＴ−Ｓ３（図１９（ａ））が構築される。続いて、同義表現識別手段２２によって、各依存構造木ＤＴ−ＥＸ１（図１（ａ））、ＤＴ−ＥＸ２（図１（ｂ））、ＤＴ−ＥＸ３（図４（ａ））、ＤＴ−ＥＸ６（図２４（ａ））、および、ＤＴ−ＥＸ７（図２４（ｂ））が、この依存構造木ＤＴ−Ｓ３と順に照合される。
この結果、依存構造木ＤＴ−ＥＸ２（図１（ｂ））がこの依存構造木ＤＴ−Ｓ３中に部分木ＰＴ３として含まれていることが識別され、同義表現節点生成手段２３によって、その部分に対応づけて新しい節点「Ｇ１」が生成される（図２５（ａ））。

次に、束構成手段２７が同義表現節点「Ｇ１」と、元の依存構造木ＤＴ−Ｓ３中の節点との間に枝を追加し、依存構造束を構成する。このとき、依存構造木ＤＴ−ＥＸ２に適合する一致部分木ＰＴ３に着目し、部分木ＰＴ３内の節点を始点とし部分木ＰＴ３外の節点を終点とする枝が依存構造木中ＤＴ−Ｓ３に存在する場合に、節点「Ｇ１」からその終点への枝を追加し、部分木ＰＴ３外の節点を始点とし部分木ＰＴ３内の節点を終点とする枝が依存構造木中ＤＴ−Ｓ３中に存在していた場合に、その始点から節点「Ｇ１」への枝を追加する。
図２５（ａ）において、依存構造木ＤＴ−ＥＸ２に適合する部分木ＰＴ３の外側の節点「メール」を始点とし、内側の節点「表示する」を終点とする枝ＢＲ１４、および、部分木ＰＴ３の外側の節点「画面」を始点とし、内側の節点「表示する」を終点とする枝ＢＲ１５が存在するため、束構成手段２７によって、節点「メール」および節点「画面」から節点「Ｇ１」への枝ＢＲ１６およびＢＲ１７が追加され、依存構造束ＤＬ−Ｓ３Ａ（図２５（ｂ））が構成される。

束構成手段２７は、さらに、部分木ＰＴ３に含まれる各節点と、節点「Ｇ１」とを互いに排他関係にある節点として関連づける。この結果、図２５（ａ）において部分木ＰＴ３の内側に存在していた３つの節点「表示する」「文字」「小さな」と、節点「Ｇ１」とが互いに排他関係枝ＢＲ１８、ＢＲ１９、ＢＲ２０により結ばれ排他関係にある節点として関連づけられる。
このようにして構成された依存構造束ＤＬ−Ｓ３Ａ（図２５（ｂ））に対して、同義表現識別手段２２による、同義表現辞書中の表現に対応する依存構造木との照合が続けられ、表現ＥＸ６に対応する依存構造木ＤＴ−ＥＸ６（図２４（ａ））がこの依存構造束ＤＬ−Ｓ３Ａ（図２５（ｂ））中に部分木ＰＴ４として存在することが識別される。表現ＥＸ６は、同義表現グループＧ３に属するため、同義表現節点生成手段２３は、その部分に対応づけて新しい節点「Ｇ３」を生成する（図２６）。

束構成手段２７は、依存構造木中ＤＴ−Ｓ３中の節点と節点「Ｇ１」との間に枝を追加したときと同様の処理により、依存構造木中ＤＬ−Ｓ３Ａ中の節点と節点「Ｇ３」との間に枝を追加する。図２６によると、依存構造木ＤＴ−ＥＸ６に適合する部分木ＰＴ４の外側の節点「メール」を始点とし内側の節点「表示する」を終点とする枝ＢＲ２１および部分木ＰＴ４の外側の節点「文字」を始点とし内側の節点「表示する」を終点とする枝ＢＲ２２が存在するため、束構成手段２７によって、節点「メール」および節点「文字」から節点「Ｇ３」への枝ＢＲ２３およびＢＲ２４が追加され、依存構造束ＤＬ−Ｓ３Ｂ（図２７）が構成される。

束構成手段２７は、さらに、依存構造木ＤＴ−ＥＸ６に適合する部分木に含まれる各節点と節点「Ｇ３」とを互いに排他関係にある節点として関連づける。この結果、図２６において部分木ＰＴ４の内側に存在していた３つの節点「表示する」「画面」「別」と、節点「Ｇ３」とが互いに排他関係にある節点として関連づけられ、排他関係枝ＢＲ２５、ＢＲ２６、ＢＲ２７でそれぞれ接続される。
このとき、部分木ＰＴ４に含まれ節点のうち、節点「表示する」に対して互いに排他関係にある節点として節点「Ｇ１」がすでに関連づけられているため、節点「Ｇ１」と節点「Ｇ３」も互いに排他関係にある節点として関連づけられ排他関係枝ＢＲ２８で接続される。

本実施例では、依存構造木ＤＴ−Ｓ３（図１９（ａ））において、節点「小さな」、節点「文字」および節点「表示する」からなる部分木が依存構造木ＤＴ−ＥＸ２に適合すると識別されると同時に、節点「別」、節点「画面」および節点「表示する」からなる部分木が依存構造木ＤＴ−ＥＸ６に適合すると識別される。本実施例では、同義表現節点生成手段２３によって生成された節点によって元の依存構造木の節点を置き換えてしまうことがないため、このように、単一の節点「表示する」を表現ＥＸ２の一部としても、表現ＥＸ６の一部としてもとらえることができている。

こうして構成された依存構造束ＤＬ−Ｓ３Ｂ（図２７）に対して、同義表現識別手段２２による同義表現辞書中の表現に対応する依存構造木との照合が続けられるが、他に含まれている依存構造木は存在しないため、最終的にこの依存構造束ＤＬ−Ｓ３Ｂが、束用特徴部分木抽出手段２８が特徴的な部分木を抽出する対象となる。
このようにして、同義表現識別手段２２、同義表現節点生成手段２３および束構成手段２７の処理により、表現ＥＸ１、表現ＥＸ２および表現ＥＸ３が使われている箇所に対して節点「Ｇ１」が新たに依存構造木中に追加される。表現ＥＸ１、表現ＥＸ２および表現ＥＸ３は、いずれも単一の節点「Ｇ１」として表され、それらの差異が吸収される。同様に、表現ＥＸ６および表現ＥＸ７も単一の節点「Ｇ３」として表され、それらの差異が吸収される。

言語解析手段２１、同義表現識別手段２２、同義表現節点生成手段２３および束構成手段２７が処理を繰り返し、テキスト集合記憶部３２中の各テキスト中の文すべてに対して依存構造木または依存構造束を生成すると、束用特徴部分木抽出手段２８が、生成された依存構造木または依存構造束を対象として特徴的な部分木を抽出する。このとき、依存構造木から依存構造束が構成されている場合、元の依存構造木は特徴的な部分木の抽出に使用しない。また、互いに排他関係にある複数の節点を含む部分木は抽出しない。

ここでは、特徴的な部分木を抽出する対象となる依存構造木および依存構造束中で計５０回以上出現する部分木を特徴的な部分木として抽出するものとする。この場合、例えば、依存構造木および依存構造束中に含まれる部分木を全種類列挙して、それぞれの出現回数をカウントし、出現回数が５０回以上の部分木を抽出することができる。
抽出結果出力手段２６が、このようにして抽出された部分木を順に出力する。このとき、言語解析手段２１によって構築された依存構造木にはじめから存在していた節点についてはそのまま出力し、同義表現節点生成手段２３によって生成された節点については、対応する同義表現グループに応じた表現にラベルを置換して出力する。

テキストマイニング装置１０の場合と同様に、対応する同義表現グループ中の最初の表現を用いてラベルを置換するものとすると、例えば、図２８（ａ）に示す依存構造木ＤＴ−Ｒ２のような抽出結果は、節点「Ｇ３」のラベルが同義表現グループＧ３（図２３参照）の最初の表現である表現ＥＸ６「別の画面に表示する」によって置換され図２８（ｂ）のように結果が出力される。
本実施例においても、テキストマイニング装置１０の場合のように、同義表現辞書中で同一の同義表現グループに属する表現に対応する部分がいずれも同一の節点で表され、これらが同一視された状態で特徴的な部分木の抽出が行われる。また、追加された節点のラベルは、出力時に、それぞれの節点によって同一視された表現に対応する適当な表現に置換されるため、表現の同一視が行われた場合でも、利用者が容易に結果を理解できる。
第１の実施例と同様に、追加される節点「Ｇ１」「Ｇ３」は、元の依存構造木中の節点とは異なるため、誤って特徴的と見なされることはない。

また、表現を同一視する際に、その表現に対応する依存構造木に相当する部分を削除することがないため、その部分からも特徴的な部分木が抽出されうる。例えば、図１１の依存構造束ＤＬ−Ｓ１において、表現ＥＸ１に対応する依存構造木ＤＴ−ＥＸ１（図１（ａ））に含まれる４つの節点「する」「小さい」「文字」「表示する」はそのまま残っており、その部分も特徴的な部分木を抽出する対象となっている。

さらに、互いに排他関係にある節点を含む部分木を抽出しないため、統一する前の構造と統一した後の構造の両方を残しておいても、その両方を含むような抽出結果として意味をなさない部分木を抽出することがない。例えば、図１１の依存構造束ＤＬ−Ｓ１において、節点「する」と節点「Ｇ１」とは互いに排他関係にあるため、図１２に示すような抽出結果として意味をなさない部分木は抽出されない。

このように、テキストマイニング装置１１では、対象文依存構造木において、同義の表現に対応する部分の構造を統一する際、束構成手段２７は、一致部分木を同義表現節点で置換する代わりに、対象文依存構造木に同義表現節点を追加して束構造を生成し、構造の統一により既存の節点が削除されることを防ぐ。
このため、同義の表現に対応する部分の木構造が失われることがなくなり、束用特徴部分木抽出手段２８は、その部分からも特徴的な部分木を抽出することができる。
また、同義の表現に対応する部分の構造を統一する際、束構成手段２７は、同義表現節点と一致部分木内の各節点とを排他関係枝で結び排他関係にある節点として関連づけておく。そして、束用特徴部分木抽出手段２８は、特徴的な部分木の抽出を行う際に、互いに排他関係にある節点を含む部分木を抽出しない。
このため、統一する前の構造と統一した後の構造の両方を残しておいても、その両方を含むような、抽出結果として意味をなさない部分木を抽出することがない。
このように、本実施の形態によれば、第１の実施の形態の効果に加え、同義表現を統一することによる副作用をさらに低く抑えることができるという効果が得られる。

上記に説明したテキストマイニング装置１０およびテキストマイニング装置１１は、コンピュータとそれを動作させるプログラムによっても実現することができる。
図１４は、このような実施形態を説明する図である。
コンピュータ４０は、記憶装置３０と出力装置４と入力装置１とＣＰＵ(Central Processing Unit)４１と主記憶装置４２を備えている。記憶装置１は、例えばハードディスク装置で、同義表現辞書を記憶する同義表現辞書記憶部３１とマイニングの対象となるテキスト集合を記憶するテキスト集合記憶部３２を備えている。主記憶装置４２は、たとえばＲＡＭ(Random Access Memory)により構成され、テキストマイニング用プログラム４３を記憶している。
主記憶装置４２に格納されたテキストマイニング用プログラム４３は、ＣＰＵ４１に読み込まれ実行される。
ここで、テキストマイニング用プログラム４３は、コンピュータに、上記に説明した各動作を実行させるプログラムである。
このようにすれば、ＣＰＵ４１を言語解析手段２１、同義表現識別手段２２、同義表現節点生成手段２３、節点置換手段２４、特徴部分木抽出手段２５、抽出結果出力手段２６として機能するデータ処理装置２０として動作させ、コンピュータ４０をテキストマイニング装置１０として動作させることができる。
同様に、ＣＰＵ４１を言語解析手段２１、同義表現識別手段２２、同義表現節点生成手段２３、束構成手段２７、束用特徴部分木抽出手段２８、抽出結果出力手段２６として機能するデータ処理装置２９として動作させ、コンピュータ４０をテキストマイニング装置１１として動作させることができる。

図１（ａ）は、表現「表示する文字を小さくする」に対応する依存構造木を示す図である。図１（ｂ）は、表現「小さな文字で表示する」に対応する依存構造木を示す図である。文「メールを表示する文字を小さくする方法をＷＥＢで調べた」に対応する依存構造木を示す図である。図２の依存構造木において図１（ａ）の依存構造木に適合する部分を示す図である。図４（ａ）は、表現「表示する行数を増やす」対応する依存構造木を示す図である。図４（ｂ）は、表現「メールを表示する行数を２倍に増やす」に対応する依存構造木を示す図である。本発明の第１の実施の形態であるテキストマイニング装置の構成を示すブロック図である。同義表現辞書の一例を示す図である。節点置換手段が依存構造木に対して節点の置換を行う例を示す図である。テキストマイニング装置の動作を示す流れ図である。本発明の第２の実施の形態であるテキストマイニング装置の構成を示すブロック図である。束構成手段が依存構造木に対して枝の追加を行う例を示す図である。束構成手段が依存構造木に対して枝の追加を行うことによって生成された依存構造束を示す図である。図１１の依存構造束からは抽出されない部分木の例を示す図である。図９のテキストマイニング装置の動作を示す流れ図である。コンピュータとコンピュータプログラムによる本発明の実施形態を示す図である。テキスト集合の一例を示す図である。図１６（ａ）は、表現「画像をメールで送る」対応する依存構造木を示す図である。図１６（ｂ）は、表現「メールに画像を添付する」に対応する依存構造木を示す図である。同義表現節点生成手段が図２の依存構造木に対して新たに節点を生成する例を示す図である。図１８（ａ）は、節点置換手段が図２依存構造木に対して節点の置換を行うことによって生成された依存構造木を示す図である。図１８（ｂ）は、節点置換手段が図４（ｂ）の依存構造木に対して節点の置換を行うことによって生成された依存構造木を示す図である。図１９（ａ）は、文「メールを小さな文字で別な画面に表示する」に対応する依存構造木を示す図である。図１９（ｂ）は、図１９（ａ）の依存構造木に対して節点置換を行った後の依存構造木を示す図である。図２０（ａ）は、文「撮影した画像をメールで２人に送る」に対応する依存構造木を示す図である。図２０（ｂ）は、図２０（ａ）の依存構造木に対して節点置換を行った後の依存構造木示す図である。図２１（ａ）は、文「メールにカメラで撮影した画像を添付する」に対応する依存構造木を示す図である。図２１（ｂ）は、図２１（ａ）の依存構造木に対して節点置換を行った後の依存構造木を示す図である。図２２（ａ）は、抽出結果の依存構造木の例を示す図である。図２２（ｂ）は、抽出結果の出力例示す図である。同義表現辞書の別の一例を示す図である。図２４（ａ）は、表現「別の画面に表示する」に対応する依存構造木を示す図である。図２４（ｂ）は、表現「表示する画面を分ける」に対応する依存構造木を示す図である。図２５（ａ）は、図１９（ａ）の依存構造木に対して同義表現節点を生成する例を示す図である。図２５（ｂ）は、図２５（ａ）の依存構造木から依存構造束を生成する例を示す図である。束構成手段が図１９の依存構造木に対して枝の追加を行うことによって生成された依存構造束を示す図である。束構成手段が図２６の依存構造木に対して枝の追加を行うことによって生成された依存構造束を示す図である。図２８（ａ）は、抽出結果の依存構造木の例を示す図である。図２８（ｂ）は、抽出結果の出力例示す図である。

符号の説明

１０、１１：テキストマイニング装置
２１：言語解析手段
２２：同義表現識別手段
２３：同義表現節点生成手段
２４：節点置換手段
２５：特徴部分木抽出手段
２６：抽出結果出力手段
２７：束構成手段
２８：束用特徴部分木抽出手段
３１：同義表現辞書記憶部

Claims

同義内容で異なった表現を同義表現グループとして定義する同義表現辞書を記憶する同義表現辞書記憶手段と、
テキストマイニングの対象となる文集合に含まれる各文の依存構造木である対象文依存構造木と前記同義表現辞書に含まれる各表現の依存構造木である同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別手段と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成手段と、
前記一致部分木に含まれる全節点を前記同義表現節点で置換する節点置換手段と、
前記置換がされた後の対象文依存構造木から特徴部分木を抽出する特徴部分木抽出手段とを備えたテキストマイニング装置。
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書を記憶する同義表現辞書記憶手段と、
テキストマイニングの対象となる文集合に含まれる各文の依存構造木である対象文依存構造木と前記同義表現辞書に含まれる各表現の依存構造木である同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別手段と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成手段と、
前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する節点追加手段と、
前記依存構造束から特徴部分木を抽出する特徴部分木抽出手段とを備えたテキストマイニング装置。
前記同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する排他関係枝接続手段を備え、
前記特徴部分木抽出手段は、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とする請求項２に記載のテキストマイニング装置。
前記特徴部分木に含まれる前記同義表現部節点のラベルを、このラベルが示す前記同義表現グループに属する表現を代表する出力用表現に置き換え、前記特徴部分木の形状を人間が視認可能な形で出力する抽出結果出力手段を有することを特徴とする請求項１ないし３のいずれか一つに記載のテキストマイニング装置。
前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で最初に列挙されている表現であることを特徴とする請求項４に記載のテキストマイニング装置。
前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で最も長さが短い表現であることを特徴とする請求項４に記載のテキストマイニング装置。
前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で前記テキストマイニングの対象となる文集合中に最も多く出現した表現であることを特徴とする請求項４に記載のテキストマイニング装置。
前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で出力用表現として用いるものとして予め指定されている表現であることを特徴とする請求項４に記載のテキストマイニング装置。
前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループに対応して
この同義表現グループに含まれる表現とは別に予め定義されている表現であることを特徴とする請求項４に記載のテキストマイニング装置。
テキストデータベースに含まれる文章を解析して対象文依存構造木を生成し、この対象文依存構造木から特徴部分木を抽出するテキストマイニング方法において、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する言語解析ステップと、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別ステップと、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成ステップと、
前記一致部分木に含まれる全節点を前記同義表現節点で置換する節点置換ステップと、
前記置換がされた後の対象文依存構造木から特徴部分木を抽出する特徴部分木抽出ステップとを備えたことを特徴としたテキストマイニング方法。
テキストデータベースに含まれる文章を解析して対象文依存構造木を生成し、この対象文依存構造木から特徴部分木を抽出するテキストマイニング方法において、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する言語解析ステップと、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別ステップと、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成ステップと、
前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する節点追加ステップと、
前記依存構造束から特徴部分木を抽出する特徴部分木抽出ステップとを備えたことを特徴としたテキストマイニング方法。
前記節点追加ステップで前記対象文依存構造木に同義表現節点が追加された後、この同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する排他関係枝接続ステップを備え、
前記特徴部分木抽出ステップでは、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とした請求項１１に記載のテキストマイニング方法。
テキストデータベースに含まれる文章を解析して対象文依存構造木を生成する機能と、この対象文依存構造木から特徴部分木を抽出する機能をコンピュータに実行させるテキストマイニングプログラムにおいて、
前記コンピュータに、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する機能と、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する機能と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、
前記一致部分木に含まれる全節点を前記同義表現節点で置換する機能と、
前記置換がされた後の対象文依存構造木から特徴部分木を抽出する機能とを実行させることを特徴としたテキストマイニングプログラム。
テキストデータベースに含まれる文章を解析して対象文依存構造木を生成する機能と、この対象文依存構造木から特徴部分構造を抽出する機能をコンピュータに実行させるテキストマイニングプログラムにおいて、
前記コンピュータに、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する機能と、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する機能と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、
前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する機能と、
前記依存構造束から特徴部分木を抽出する機能とを実行させることを特徴としたテキストマイニングプログラム。
前記対象文依存構造木に同義表現節点が追加された後、この同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する機能をコンピュータに実行させ、
前記特徴部分木を抽出する際は、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とした請求項１４に記載のテキストマイニングプログラム。