JP4992715B2

JP4992715B2 - データ処理装置、データ処理方法、データ処理プログラム

Info

Publication number: JP4992715B2
Application number: JP2007529503A
Authority: JP
Inventors: 要祐坂尾; 崇博池田; 研治佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-08-04
Filing date: 2006-08-02
Publication date: 2012-08-08
Anticipated expiration: 2026-08-02
Also published as: US8775158B2; US20100063795A1; WO2007015505A1; JPWO2007015505A1

Description

本発明は、コンピュータ上に蓄積される電子化テキストなどの入力データを構文解析などの手段により構造化して分析を行う、テキストマイニングやテキスト要約、テキスト検索、テキスト分類などのデータ処理に関し、特に、構文解析などの手段により得られた入力データの構造を表すグラフを節点同士の関係に基づいて変形し、変形後のグラフから特徴構造を抽出するデータ処理装置、データ処理方法、データ処理プログラムに関する。

テキストマイニング装置の一例として、特許文献１には、図２４に示すような構成が開示されている。この従来のテキストマイニング装置は、基本辞書記憶部と、文書データ記憶部と、分野依存辞書記憶部と、言語特徴分析装置と、言語解析装置と、パターン抽出装置と、頻出パターン表示装置とを備えている。
図２４のテキストマイニング装置は、おおまかには、次のように動作する。まず、言語特徴分析装置が、基本辞書と文書データとから分野依存辞書を作成する。次に、言語解析装置が基本辞書と分野依存辞書と文書データから１文毎に構文木などの文構造を作成する。ここで、文構造とは、テキストを構文解析することで得られるテキストを表現するグラフ構造を指す。その次に、パターン抽出装置が、この文構造を用いて特徴構造を抽出し、この特徴構造に合致する文書データ中の文書を頻出パターン適合文書記憶部に記憶させると同時にこの特徴構造を出力する。ここで、特徴構造とは、文構造の部分構造に対してテキストマイニング処理を適用して抽出される頻出パターンなどのテキスト集合を特徴付ける部分構造を指す。

特開２００１−８４２５０号公報

上記のような従来のマイニング装置は、テキストの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合に、特徴構造を正しく抽出することができないという問題がある。ここで言う「同一の内容を指す語」とは、たとえば照応関係にある代名詞またはゼロ代名詞と先行詞である。

従来のテキストマイニング装置は、たとえば、意味の同じ一つの内容について、１テキスト内で単一の語を用いて書かれている場合と、１テキスト内で同一の内容を指す複数の語（テキスト中で省略されているゼロ代名詞等を含む）を用いて書かれている場合とを同一視してテキストマイニングを行うことができない。
これは、従来のテキストマイニング装置は、意味の同じ一つの内容について、１テキスト内で単一の語を用いて書かれている場合と、１テキスト内で同一の内容を指す複数の語を用いて書かれている場合とを同一視する手段を備えていないためである。

図２５は、「車種Ａは安くて高性能だ。」（テキストＳ１００）と「車種Ａは安い。しかも高性能だ。」（テキストＳ１０１）という二つのテキストを構文解析して得られる文構造と、その文構造に対して従来技術によるテキストマイニングを行った際にそれぞれの文構造から抽出される特徴構造の例である。
テキストＳ１００を構文解析すると文構造Ｔ１００が得られ、これがそのまま特徴構造ＰＴ１０１として抽出される（図２５（ａ））。テキストＳ１０１を構文解析すると文構造Ｔ１０１と文構造Ｔ１０２が得られ、特徴構造として特徴構造ＰＴ１０１およびＰＴ１０２が抽出される（図２５（ｂ））。

テキストＳ１００は、「車種Ａ」という単一の語を用いて、テキストＳ１０１は「車種Ａ」および「高性能だ」の前に省略されている「ゼロ代名詞」という二つの語を用いて、「車種Ａは安く且つ高性能だ」という同一の内容について述べている。従って、この内容を表現する図２６の部分構造ＰＴ１０３が二つのテキストから特徴構造として抽出されることが望ましい。
しかし、この内容を「車種Ａ」という単一の語で述べているテキストＳ１００の文構造Ｔ１００と、この内容を先行詞「車種Ａ」と「ゼロ代名詞」を用いて述べているテキストＳ１０１の文構造Ｔ１０１およびＴ１０２では、異なる構造となってしまっている。その結果、既存のテキストマイニング手法では同じ意味内容を表す両者の文の構造を同一視できず、別々の特徴部分構造として抽出されてしまう。

また、従来のテキストマイニング装置は、たとえば、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができない。
これは、従来のテキストマイニング装置は、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出する手段を備えていないためである。
「意味的に関連のある語」には、例えば、同表層の語、シソーラス中で同義語の関係にある語、ユーザ指定の同義語、上位概念と下位概念などシソーラス中で相互に関係を持つ語（シソーラス中での関連語）、ユーザ指定の関連語などの意味的に関連するが同じ内容を指さない語が挙げられる。なお、ユーザ指定の同義語とは、同一の内容を指し得る複数の語としてユーザが指定する語で、頻出パターンなどの特徴構造抽出時に同一の語として判定される。また、ユーザ指定の関連語とは、相互に関連するが必ずしも同一の内容を指さない語としてユーザが指定する語である。

図２７に、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、従来技術では、その内容を一つの構造にまとめて抽出を行うことが出来ない例を示す。図２７は、「軽自動車は一般に安いが、Ｂ社の軽自動車は高い。」（テキストＳ１０２）と「軽自動車は安い。Ｂ社の軽自動車は高いが。」（テキストＳ１０３）という二つのテキストを構文解析して得られる文構造と、その文構造に対して従来技術によるテキストマイニングを行った際にそれぞれの文構造から抽出される構造の例である。テキストＳ１０２を構文解析すると、文構造Ｔ１０３が得られ、部分構造ＰＴ１０４およびＰＴ１０５が特徴部分構造として抽出される（図２７（ａ））。テキストＳ１０３を構文解析すると、文構造Ｔ１０４およびＴ１０５が得られ部分構造ＰＴ１０６およびＰＴ１０７が特徴部分構造として抽出される（図２７（ｂ））。

どちらのテキストも一般の軽自動車とＢ社の軽自動車を比較して述べている。従って、この比較を表現する図２８のＰＴ１０８のような構造が、この二つのテキストから特徴構造として抽出されることが望ましい。
しかし、テキストＳ１０２の文構造Ｔ１０３では、一般の軽自動車とＢ社の軽自動車の意味的な関係が文構造上で表現されていないため、既存のテキストマイニング手法ではこの比較を表す構造を一つの構造にまとめて抽出を行うことができない。また、テキストＳ１０３の文構造では、この比較を表す構造が文構造Ｔ１０４およびＴ１０５の２つに分割されてしまっているため、既存のテキストマイニング手法では一つの構造にまとめて抽出を行うことができない。
その結果として、二つのテキストには同表層の複数の語「軽自動車」を用いて書かれた関連する内容があるのに、一般の軽自動車について述べた内容の構造（ＰＴ１０４およびＰＴ１０６）とＢ社の軽自動車について述べた内容の構造（ＰＴ１０５およびＰＴ１０７）が別々に抽出されてしまう。

そこで、本発明は、テキストなどの入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができるデータ処理装置および方法並びにプログラムを提供することを目的とする。

本発明に係るデータ処理装置は、関連節点抽出手段を備え、構文解析などの結果得られたグラフから意味的に関連する語を含む関連節点を抽出する。
関連節点接合手段は、関連節点の一部または全部を接合することによりグラフを変形する。ここで、「接合」とは、複数の節点を一つの節点に結合すること、または、グラフ中のある節点と他の節点を新たな枝で接続することを意味する。
特徴構造抽出手段は、関連節点接合手段により変形されたグラフから、特徴構造を抽出する（請求項１）。

上記データ処理装置によれば、関連節点接合手段が関連節点を接合することによりグラフを変形する。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。

上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性の強弱により強関連節点と弱関連節点に分類し、強関連節点を一つの節点に結合するようにしても良い（請求項２）。
このようにすれば、同一の内容を指す節点を一つの節点に結合するようにグラフを変形することができる。すなわち、１つの入力データ内で単一の語を用いて書かれている場合の構造と、１つの入力データ内で同一の内容を指す複数の語を用いて書かれている場合の構造とを同一の形に変形することができる。
特徴構造抽出手段は、このように変形した後のグラフから特徴構造を抽出するから、意味の同じ一つの内容について、１つの入力データ内で単一の語を用いて書かれている場合と、１つの入力データ内で同一の内容を指す複数の語（たとえば、先行詞とそれに照応する代名詞）を用いて書かれている場合とを、同一視して特徴構造を抽出することができる。

上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性の強弱により強関連節点と弱関連節点に分類して、弱関連節点を意味的関連枝で接続し、特徴構造抽出手段が、前記グラフの部分構造が、意味的関連枝で接続された節点を含み、かつ、その中の少なくとも１の節点が係り受け枝により他の節点と接続されていない場合は特徴構造として抽出しないようにしても良い（請求項３）。なお、特徴構造抽出処理の際には、この意味的関連枝はグラフ構造中の係り受け関係を表す枝とは区別される。

このようにすれば、互いに意味的に関連する節点どうしを意味的関連枝により結んで構造変形することで、一つの入力データが意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その語に対応する節点を意味的関連枝により結び一つの部分構造にまとめるようにグラフを変形することができる。
特徴構造抽出手段は、このように変形したグラフから特徴構造を抽出するから、一つの入力データの中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。

前記データ処理装置において、関連節点抽出手段が、代名詞またはゼロ代名詞と照応関係にある先行詞を含む節点である照応節点を関連節点として抽出し、前記関連節点接合手段が、照応節点を強関連節点として分類するようにしてもよい（請求項４）。

前記データ処理装置において、関連節点抽出手段が、表層が同じである語を含む節点である同表層節点を関連節点として抽出し、関連節点接合手段が、同表層節点を弱関連節点として分類するようにしてもよい（請求項５）。

前記データ処理装置において、関連節点抽出手段が、シソーラスで同義語とされている語を含む節点である同義語節点を関連節点として抽出し、関連節点接合手段は、同義語節点を弱関連節点として分類するようにしてもよい（請求項６）。

前記データ処理装置において、関連節点抽出手段が、使用者が指定した同義語を含む節点である指定同義語節点を関連節点として抽出し、関連節点接合手段が、指定同義語節点を弱関連節点として分類するようにしてもよい（請求項７）。

前記データ処理装置において、関連節点抽出手段が、シソーラスで関連語とされている語を含む節点である関連語節点を関連節点として抽出し、関連節点接合手段が、関連語節点を弱関連節点として分類するようにしてもよい（請求項８）。

前記データ処理装置において、関連節点抽出手段が、使用者が指定した関連語を含む節点である指定関連語節点を関連節点として抽出し、関連節点接合手段が、指定関連語節点を弱関連節点として分類するようにしてもよい（請求項９）。

前記データ処理装置において、意味的関連度計算手段が関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算し、関連節点接合手段は、意味的関連度に基づいて関連節点を強関連節点と弱関連節点に分類するようにしてもよい（請求項１０）。
このようにすれば、強関連節点と弱関連節点の分類を、定量的な指標に基づいて行うことができる。

前記データ処理装置において、関連節点接合手段が、意味的関連度が第１の閾値より小さい関連節点を弱関連節点として分類し、意味的関連度が第１の閾値以上である関連節点は強関連節点として分類するようにしてもよい（請求項１１）。
さらに、意味的関連度が第２の閾値（第１の閾値より小）よりも小さい関連節点に対しては接合を行わないようにしてもよい（請求項１２）。
このようにすれば、マイニングなどのデータ処理の目的や対象の入力データの性質に応じて閾値を適切に定めて関連節点接合手段の動作を調整し、特徴構造抽出手段により抽出される特徴構造を調整することができる。

本発明に係る、データ処理方法では、文章の構造を表すグラフの節点から意味的に関連する節点である関連節点を抽出し、関連節点の一部または全部を接合することにより前記グラフを変形し、この変形されたグラフから特徴構造を抽出する（請求項１３）。

上記データ処理方法によれば、関連節点を接合することによりグラフを変形する。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。

本発明に係るデータ処理プログラムでは、コンピュータに、入力データの構造を表すグラフの節点から意味的に関連する節点である関連節点を抽出するステップと、関連節点の一部または全部を接合することにより前記グラフを変形するステップと、この変形されたグラフから特徴構造を抽出ステップとを実行させる（請求項１４）。

上記データ処理プログラムによれば、コンピュータに、関連節点を接合することによりグラフを変形するステップを実行させる。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。
そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。

本発明のデータ処理装置等によれば、関連節点抽出手段が意味的に関連のある節点を関連節点として抽出し、関連節点接合手段が関連節点を接合することによりマイニングなどのデータ処理の対象となる入力データを解析して得られたグラフを変形する。特徴構造抽出手段は、変形後のグラフから特徴構造を抽出する。
そのため、データ処理の対象となる入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。

次に、図を参照しながら本発明の第１の実施形態であるテキストマイニング装置１０の構成と動作について説明する。
（テキストマイニング装置１０の構成）
図１は、テキストマイニング装置１０の構成を示す機能ブロック図である。
テキストマイニング装置１０は、たとえばパーソナルコンピュータで構成され、情報を記憶する記憶装置１と、プログラム制御により動作するデータ処理装置２と、検出された部分構造を表示する出力装置３とを備えている。記憶装置１にはテキストデータベース（ＤＢ）１１が格納されている。テキストＤＢ１１には、テキストマイニングの対象となるテキストの集合が記憶されている。

データ処理装置２は、言語解析手段２１と、関連節点抽出手段２２と、関連節点接合手段２３と、特徴構造抽出手段２４を備えている。
言語解析手段２１は、テキストＤＢ１１からテキスト集合を読み込み、集合中の各テキストを解析して文構造を生成する。
関連節点抽出手段２２は、言語解析手段２１から送られてきた文構造の集合中の各文構造から、互いに意味的に関連する節点（関連接点）の抽出を行う。意味的に関連のある節点としては、例えば、照応関係にある代名詞またはゼロ代名詞と先行詞の関係にある節点、表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点などが挙げられる。

なお、関連節点の抽出には、例えば、照応解析、２つの文節の表層のパターンマッチング、ユーザ指定の同義語や関連語の表層と文節の表層とのパターンマッチング、シソーラス中の語と文節の表層とのパターンマッチングなどの公知技術が用いられる。

関連節点接合手段２３は、関連節点抽出手段２２から文構造の集合と関連節点の情報を受け取り、各文構造の変形を行う。
例えば、関連節点接合手段２３は、関連節点抽出手段２２から文構造の集合と関連節点の情報を受け取り、各文構造中の互いに関連のある節点どうしを結合して一つの節点として各文構造の変形を行う。
別の例としては、関連節点接合手段２３は、関連節点抽出手段２２から文構造の集合と関連節点の情報を受け取り、各文構造中の意味的に互いに関連のある節点どうしを意味的関連枝で結ぶことで各文構造の変形を行う。

さらに別の例としては、関連節点接合手段２３は、関連節点抽出手段２２から文構造の集合と関連節点の情報を受け取り、各文構造中の抽出された関連節点について、節点間の関係を分類する。たとえば、関連節点として抽出された複数の節点が同一の内容を指す場合（強関連節点）と意味的に関連があるが必ずしも同一の内容を指さない場合（弱関連節点）の２種類に分類する。
そして、強関連節点については、関連のある節点どうしを結合して一つの節点に結合し、弱関連節点については、関連のある節点どうしを意味的関連枝で結ぶ。

関連節点を強関連節点と弱関連節点に分類するには、たとえば次のようにする。
照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点を強関連節点とする。
表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点を弱関連節点とする。

また、ある文構造中の節点Ａ、Ｂ、Ｃについて、節点Ａと節点Ｂが関連節点であり、節点Ｂと節点Ｃも関連節点である場合に、節点Ａと節点Ｃも関連節点としても良い。その場合の節点Ａと節点Ｃの関係の分類は、例えば、節点Ａと節点Ｂが強関連節点で、かつ、節点Ｂと節点Ｃも強関連節点である場合は、節点Ａと節点Ｃを強関連節点とし、その他の場合は、節点Ａと節点Ｃを弱関連節点とすることにより行う。

文構造から、一つの節点に結合するべき強関連節点の組が複数抽出され、且つある節点がその複数の強関連連節点の組に含まれる場合がある。そのような場合の例として、図２に「車種Ａは安い。これは速い。これは人気だ。」（テキストＳ２０）というテキストの文構造を示す。テキストＳ２０からは、構造Ｔ２０−Ａ、Ｔ２０−Ｂ、Ｔ３２０−Ｃが得られる。なお、図２中に２つ存在する「これ」という節点を区別するために、テキストＳ２０中での出現順にＡ，Ｂの添え字を振っている。
関連節点接合手段２３により、照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点が一つの節点に結合される場合、図２中の「車種Ａ」と「これ」（添え字Ａ）、「車種Ａ」と「これ」（添え字Ｂ）がそれぞれ一つの節点に結合するべき関連節点の組となり、「車種Ａ」はその両方に含まれることになる。

このような場合の節点接合は、たとえば、全ての関連節点を一つの節点に結合（方法１）してもよいし、１組の関連節点を結合した節点を関連節点の組の数だけ生成（方法２）してもよい。

図２の文構造に方法１を適用し関連節点の接合を行った結果の文構造Ｔ２１を図３に示す。構造Ｔ２１では、図２の３つの節点「車種Ａ」、「これ」（添え字Ａ）、「これ」（添え字Ｂ）が一つの節点に結合され、図３の節点「車種Ａ」となっている。
図２の文構造に方法２を適用し、関連節点の接合を行った結果の文構造Ｔ２２を図４に示す。構造Ｔ２２では、図２の節点「車種Ａ」と「これ」（添え字Ａ）が一つの節点に結合され、図４の節点「車種Ａ」（添え字Ａ）となっている。また、図２の節点「車種Ａ」と「これ」（添え字Ｂ）が一つの節点に結合され、図４の節点「車種Ａ」（添え字Ｂ）となっている。
なお、図４の各接点を結ぶ枝は、いずれも係り受けを示す通常の枝である。

また、文構造から、意味的関連枝で結ぶべき弱関連節点の組が複数抽出され、且つある節点がその複数の弱関連連節点の組に含まれる場合が存在する。そのような場合の例として図５に「関東の車種と関西の車種と中部の車種の比較。」（テキストＳ２１）というテキストの文構造Ｔ２３を示す。なお、Ｔ２３中に３つ存在する「車種」という節点を区別するために、テキストＳ２１中での出現順にＡ、Ｂ、Ｃの添え字を振っている。関連節点接合手段２３により、同表層の関係にある節点が意味的関連枝で結ばれる場合、Ｔ２３中の節点「車種」（添え字Ａ）と「車種」（添え字Ｂ）、「車種」（添え字Ａ）と「車種」（添え字Ｃ）、「車種」（添え字Ｂ）と「車種」（添え字Ｃ）がそれぞれ意味的関連枝で結ばれるべき弱関連節点の組となり、「車種」（添え字Ａ）、「車種」（添え字Ｂ）、「車種」（添え字Ｃ）はそれぞれ複数の弱関連節点の組に含まれることになる。

このような場合は、たとえば、全ての関連節点の組について、関連節点どうしを意味的関連枝で結ぶ方法（方法３）がある。
また、複数の関連節点の組に含まれる各節点について、関連節点のうち最もテキスト内での距離が近い文節に対応する節点と意味的関連枝で結んでもよい（方法４）。ただし、関連節点のうち最もテキスト内での距離が近い文節に対応する節点が複数ある場合は、その全てに意味的関連枝を結ぶ。

図５の文構造Ｔ２３に方法３を適用し関連節点の接合を行った結果の文構造Ｔ２４を、図６に示す。図６の文構造Ｔ２４中の点線は、意味的関連枝を示す。図５の関連節点「車種」（添え字Ａ）と「車種」（添え字Ｂ）、「車種」（添え字Ａ）と「車種」（添え字Ｃ）、「車種」（添え字Ｂ）と「車種」（添え字Ｃ）の３組全てについて意味的関連枝が張られ、文構造Ｔ２４となっている。

図５の文構造Ｔ２３に方法４を適用し関連節点の接合を行った結果の文構造Ｔ２５を、図７に示す。図７の文構造Ｔ２５中の点線は、意味的関連枝を示す。
図７の節点「車種」（添え字Ａ）からは、二つある関連節点「車種」（添え字Ｂ）、「車種」（添え字Ｃ）のうち、文内距離がより短い文節に対応する「車種」（添え字Ｂ）に意味的関連枝を結ぶ。
図７の節点「車種」（添え字Ｂ）からは、二つある関連節点「車種」（添え字Ａ）、「車種」（添え字Ｃ）が等距離にあるため、双方に意味的関連枝を結ぼうとするが、「車種」（添え字Ａ）と「車種」（添え字Ｂ）は既に意味的関連枝で結ばれているため、「車種」（添え字Ｂ）と「車種」（添え字Ｃ）のみが意味的関連枝で結ばれる。
図７の節点「車種」（添え字Ｃ）からは、二つある関連節点「車種」（添え字Ａ）、「車種」（添え字Ｂ）のうち、文内距離がより短い文節に対応する「車種」（添え字Ｂ）に意味的関連枝を結ぼうとするが、「車種」（添え字Ｂ）と「車種」（添え字Ｃ）は既に意味的関連枝で結ばれているため何も行われない。
このようにして、図５の「車種」（添え字Ａ）と「車種」（添え字Ｂ）、「車種」（添え字Ｂ）と「車種」（添え字Ｃ）がそれぞれ意味的関連枝で結ばれ、図７の文構造Ｔ２５となる。

特徴構造抽出手段２４は、関連節点接合手段２３から送られた関連節点の接合により変形された文構造の集合から特徴的な部分構造を抽出し、出力装置３へ送る。ただし、関連節点接合手段２３により意味的関連枝で結ばれた節点の少なくとも一方から、係り受けの枝が他の節点に結ばれていない構造を、特徴構造抽出手段２４は特徴構造として抽出しない。

（テキストマイニング装置１０の動作）
図８は、テキストマイニング装置１０の動作を説明するための流れ図である。
まず、言語解析手段２１が、テキストＤＢ１１からテキスト集合を読み込む。言語解析手段２１は、テキスト集合中の各テキストに対し解析を行い、解析結果として文構造を生成し、関連節点抽出手段２２に送る（図８のステップＡ１）。

関連節点抽出手段２２は、与えられた文構造の集合中の各文構造から互いに関連する節点の抽出を行い、文構造の集合と各文構造中の関連節点の情報を関連節点接合手段２３に送る（図８のステップＡ２：関連節点抽出ステップ）。

関連節点接合手段２３は、与えられた文構造の集合と各文構造中の関連節点の情報から、各文構造中の互いに関連のある節点の接合を行うことで、文構造の集合中の各文構造の変形を行い、変形結果として得た構造の集合を特徴構造抽出手段２４に送る（図８のステップＡ３：関連節点接合ステップ）。

特徴構造抽出手段２４は、与えられた関連節点の接合による変形後の文構造の集合から、特徴的な部分構造の抽出を行う（図８のステップＡ４：特徴構造抽出ステップ）。
最後に、特徴構造抽出手段２４は、抽出した特徴構造を出力装置３に出力する（図８のステップＡ５）。

次に、テキストマイニング装置１０の具体的な動作例について説明する。
この動作例においては、関連節点抽出手段２２は照応関係にある先行詞と代名詞またはゼロ代名詞を関連節点として抽出し、関連節点接合手段２３は関連節点を一つの節点に結合することで文構造の構造変形を行う。

図９に示したテキストＳ１乃至テキストＳ３は、図１のテキストＤＢ１１に記憶されているテキスト集合の一部である。
言語解析手段２１は、図９の各テキストに対して言語解析を行い、各テキストの文構造を得る（図８のステップＡ１）。図１０に、言語解析手段２１による解析の結果得られる文構造を示す。図９のテキストＳ１の文構造が図１０の構造Ｔ１、図９のテキストＳ２の文構造が図１０の構造Ｔ２−ＡおよびＴ２−Ｂ、図９のテキストＳ３の文構造が図１０の構造Ｔ３−ＡおよびＴ３−Ｂである。なお、図１０の構造Ｔ１については言語解析手段２１による並列処理が適用されており、図１０の構造Ｔ２−Ｂについては言語解析手段２１によるゼロ代名詞抽出処理が適用されている。

関連節点抽出手段２２は、図１０に示される各文構造から意味的に関連する節点の抽出を行う（図８のステップＡ２）。本実施例では、照応する先行詞と代名詞の関係にある構造Ｔ２−Ａの「車種Ａ」と構造Ｔ２−Ｂの「（ゼロ代名詞）」および照応する先行詞と代名詞の関係にある構造Ｔ３−Ａの「車種Ａ」と構造Ｔ３−Ｂの「その」「車種」（１節点が２節点に照応する）の２組が関連節点としてそれぞれ抽出される。

関連節点接合手段２３は、図１０に示す文構造の集合中の各文構造に対して、関連節点抽出手段２２が抽出した関連節点の情報を元に、関連節点の接合による文構造の変形を行う（図８のステップＡ３）。図１１に、関連節点接合手段２３により得られる変形後の構造を示す。
図１０の構造Ｔ１には、関連節点が存在しないので特に変形が行われず図１１の構造Ｔ１’となる。
図１０の構造Ｔ２−ＡとＴ２−Ｂでは、関連節点である構造Ｔ２−Ａの「車種Ａ」と構造Ｔ２−Ｂの「（ゼロ代名詞）」は照応関係にある先行詞とゼロ代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図１０の構造Ｔ２−ＡとＴ２−Ｂは接合されて図１１の構造Ｔ２’となる。
図１０の構造Ｔ３−ＡとＴ３−Ｂでは、関連節点である構造Ｔ３−Ａの「車種Ａ」と構造Ｔ３−Ｂの「その」「車種」は照応関係にある先行詞と代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図１０の構造Ｔ３−Ａと３−Ｂは接合されて図１１の構造Ｔ３’となる。

特徴構造抽出手段２４は、図１１に示される変形後の文構造の集合から特徴構造の抽出を行う（図８のステップＡ４）。ここでは、３回以上出現している部分構造を特徴構造として抽出する。図１１を参照すると、抽出される頻出部分構造は図１２の頻出部分構造ＰＴ１ないしＰＴ６のようになる。
最後に、抽出された特徴構造を出力装置３に表示する（図２のステップＡ５）。

このようにして照応関係にある代名詞・ゼロ代名詞と先行詞の節点を一つの節点に結合する構造変形を行うことで、図９のテキストＳ２およびテキストＳ３で、同一の内容を指す複数の語を用いて書かれている一つの内容を一つの構造にまとめ、図１２の頻出部分構造ＰＴ６を抽出できるようになっていることが分かる。
「車種Ａは安く高性能だ」という一つの内容について単一の語「車種Ａ」を用いて述べている図９のテキストＳ１の文構造では、この内容が一つの部分構造Ｔ１にまとまっている。これに対して、「車種Ａは安く高性能だ」という内容について同一の内容を指す複数の語を用いて述べている図９のテキストＳ２およびテキストＳ３では、この内容が複数の部分構造に分割されてしまっているので、既存のマイニング装置では、同一の構造と判定してマイニングを行うことができなかった。
しかし、テキストマイニング装置１０によれば、関連節点接合手段２３が関連節点を接合することによりテキストＳ１乃至テキストＳ３の「車種Ａは安く高性能だ」という内容が同一の形の部分構造（図１２の頻出部分構造６）になり、同一視してマイニングできるようになっている。

次に、テキストマイニング装置１０の第２の具体的動作例について説明する。
この例においては、関連節点抽出手段２２は、表層が同じである節点、ユーザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。関連節点接合手段２３は関連節点を意味的関連枝で結合することで文構造の構造変形を行う。
また、「軽自動車」と「軽」が、ユーザ指定の同義語として、「自動車」と「車種Ｃ」および「自動車」と「軽自動車」が、ユーザ指定の関連語として指定されているものとする。このような指定は、たとえば、同義語と関連語を定義するファイルを記憶装置１１に予め作成しておくことにより行う。
ユーザ指定の関連語を、必ずしも同一の内容を指さないが意味的に関連のある語として扱うとする。

図１３に示したテキストＳ４乃至テキストＳ９は、図１のテキストＤＢ１１に記憶されているテキスト集合の一部である。
言語解析手段２１は、図１３の各テキストに対して言語解析を行い、各テキストの文構造を得る（図８のステップＡ１）。図１４に、言語解析手段２１による解析の結果得られる文構造を示す。図１３のテキストＳ４の文構造が図１４の構造Ｔ４である。図１３のテキストＳ５の文構造が図１４の構造Ｔ５−ＡおよびＴ５−Ｂである。図１３のテキスト６Ｓの文構造が図１４の構造Ｔ６−ＡおよびＴ６−Ｂである。図１３のテキストＳ７の文構造が図１４の構造Ｔ７である。図１３のテキストＳ８の文構造が図１４の構造Ｔ８−ＡおよびＴ８−Ｂである。図１３のテキストＳ９の文構造が図１４の構造Ｔ９−ＡおよびＴ９−Ｂである。

関連節点抽出手段２２は、図１４に示される各文構造から意味的に関連する節点の抽出を行う（図８のステップＡ２）。
テキストＳ４からは、同表層の関係にある構造Ｔ４の二つの「軽自動車」が関連節点として抽出される。
テキストＳ５からは、同表層の関係にある構造Ｔ５−Ａの「軽自動車」と構造Ｔ５−Ｂの「軽自動車」が関連節点として抽出される。
テキストＳ６からは、ユーザ指定の同義語の関係にある構造Ｔ６−Ａの「軽自動車」と構造Ｔ６−Ｂの「軽」が関連節点として抽出される。
テキストＳ７からは、ユーザ指定の関連語の関係にある構造Ｔ７の「自動車」と「車種Ｃ」が関連節点として抽出される。
テキストＳ８からは、ユーザ指定の関連語の関係にある構造Ｔ８−Ａの「自動車」と構造Ｔ８−Ｂの「車種Ｃ」が関連節点として抽出される。
テキストＳ９からは、ユーザ指定の関連語の関係にある構造Ｔ９−Ａの「自動車」と構造Ｔ９−Ｂの「車種Ｃ」が関連節点として抽出される。

関連節点接合手段２３は、図１４に示す文構造の集合中の各文構造に対して、関連節点抽出手段２２が抽出した関連節点の情報を元に、関連節点の接合による文構造の変形を行う（図８のステップＡ３）。
図１５に、関連節点接合手段２３による処理の結果得られる変形後の文構造を示す。
図１４の構造Ｔ４では、関連節点である二つの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝（図１５では点線で示されている）で結ばれ、図１５の構造Ｔ４’となる。なお、特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される。
図１４の構造Ｔ５−ＡとＴ５−Ｂでは、関連節点である構造Ｔ５−Ａの「軽自動車」と構造Ｔ５−Ｂの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝で結ばれ、図１４の構造Ｔ５−ＡとＴ５−Ｂは接合されて図１５の構造Ｔ５’となる。
図１４の構造Ｔ６−ＡとＴ６−Ｂでは、関連節点である構造Ｔ６−Ａの「軽自動車」と構造Ｔ６−Ｂの「軽」はユーザ指定の同義語の関係にある節点なので、これらの節点が意味的関連枝で結ばれ、図１４の構造Ｔ６−ＡとＴ６−Ｂは接合されて図１５の構造Ｔ６’となる。
図１４の構造Ｔ７では、関連節点である「自動車」と「車種Ｃ」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図１５の構造Ｔ７’となる。
図１４の構造Ｔ８−ＡとＴ８−Ｂでは、関連節点である構造Ｔ８−Ａの「自動車」と構造Ｔ８−Ｂの「車種Ｃ」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図１５の構造Ｔ８’となる。
図１４の構造Ｔ９−ＡとＴ９−Ｂでは、関連節点である構造Ｔ９−Ａの「自動車」と構造Ｔ９−Ｂの「車種Ｃ」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図１５の構造Ｔ９’となる。

特徴構造抽出手段２４は、図１５に示される変形後の文構造の集合から特徴構造の抽出を行う（図８のステップＡ４）。ただし、この動作例においては、関連節点接合手段２３が導入した意味的関連枝が結ぶ二つの節点の少なくとも一方から、係り受けの枝が他の節点に結ばれていない構造は、意味を持たない構造であるので特徴構造として抽出しない。
図１６に、このような構造の例を示す。図１６のＴ２６では、対比関係にある二つの「軽自動車」節点の片方（図では左側）が、他の節点と係り受けの枝で結ばれておらず、意味を持たない構造となってしまっているのが分かる。
ここでは、そのような構造を除き、３回以上出現している部分構造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われることに注意して、図１５を参照すると、抽出される頻出部分構造は図１７の頻出部分構造ＰＴ７乃至頻出部分構造ＰＴ２３のようになる。
最後に、そのようにして抽出された特徴構造を出力装置３に出力する（図２のステップＡ５）。

このようにして同表層の節点やユーザ指定の同義語の関係にある節点の間に意味的関連枝を張ることで、図１３のテキストＳ4とテキストＳ５とテキストＳ６、および、テキストＳ７とテキストＳ８とテキストＳ９で、意味的に関連する複数の語を用いて分けて書かれている内容を一つの構造にまとめ、図１７の頻出部分構造ＰＴ１４、１５、１６、２３を抽出できるようになっていることが分かる。
図１３のテキストＳ４とＳ５とＳ６では、一般の軽自動車とＢ社の軽自動車とを比較して述べていた内容が、また、テキストＳ７とＳ８とＳ９では、一般の自動車と車種Ｃとを比較して述べた内容が、意味的に関連のある複数の語を用いて書いているため、従来のテキストマイニング手法ではこれらの内容が複数の部分構造に分かれて抽出されてしまい、両者を比較して述べていることがマイニング結果からは分からなかった。
この動作例では、関連節点接合手段２３が弱関連節点を意味的関連枝により接続して文構造を変形し一つの部分構造にまとめている。特徴節点集出手段２４は、このような変形後の文構造Ｔ４’（図１５）等から特徴部分構造を抽出するので、従来のテキストマイニング装置では抽出できなかった特徴部分構造ＰＴ１４（図１７）等を抽出することができる。

また本実施例では、別テキストの文構造に存在している意味的に関連する節点を接合することで生成される図１８のＴ２７のような構造は特徴構造として抽出されない。特徴構造を抽出してから意味的に関連する節点の接合を行った場合には、図１７に示す特徴構造のうち、頻出部分構造ＰＴ１３の節点「軽自動車」と頻出部分構造ＰＴ２１の節点「自動車」が意味的関連枝により結ばれ、図１８の構造Ｔ２７が生成される。
しかし、構造Ｔ２７が表す一般の自動車とＢ社の軽自動車を比較して述べているような内容を実際に述べているテキストは、図１３に示す入力テキスト集合中に存在しないため、この構造Ｔ２７は特徴構造として抽出されないことが望ましい。
テキストマイニング装置１０は、特徴構造を抽出してから意味的に関連する節点の接合を行う手法とは異なり、別テキストの文構造に存在している意味的に関連する節点を接合しないため、このような誤った特徴構造を抽出しない。

次に、図を参照しながら本発明の第２の実施形態であるテキストマイニング装置３０の構成と動作について説明する。テキストマイニング装置３０は、多くの部分がテキストマイニング装置１０と共通するので、テキストマイニング装置１０と同一の部分には同一の符号を付し説明を省略する。
（テキストマイニング装置３０の構成）
図１９は、テキストマイニング装置３０の構成を示す機能ブロック図である。
テキストマイニング装置３０は、図１のテキストマイニング装置１０は備えていない入力装置５を備えている。また、データ処理装置４は、図１のデータ処理装置２の関連節点接合手段２３の代わりに関連度別関連節点接合手段（関連節点接合手段）２６を備え、データ処理装置２は備えていない意味的関連度計算手段２５を備えている。

意味的関連度計算手段２５は、関連節点抽出手段２２から各文構造中の関連節点の情報を受け取り、互いに関連する節点どうしの意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段２６に送る。意味的関連度とは関連節点の意味的な関連性の指標であり、例えば、関連節点が同一の内容を指すか否か、シソーラス中で関連語の関係にある関連節点のシソーラス中での距離、関連節点に対応する文節のテキスト中での距離のようなパラメータの組み合わせにより計算される。

また、ある文構造中の節点Ａ、Ｂ、Ｃについて、節点Ａと節点Ｂが関連節点であり、節点Ｂと節点Ｃも関連節点である場合に、節点Ａと節点Ｃも関連節点とする場合は、節点Ａと節点Ｃの意味的関連度は、たとえば、節点Ａと節点Ｂの意味的関連度と、節点Ｂと節点Ｃの意味的関連度に基づいて求めることができる。

入力装置５は、ユーザから、関連節点の意味的関連度に応じて関連節点を分類するための閾値、たとえば閾値Ａ（第２の閾値）と閾値Ｂ（第１の閾値）の二つ、を入力として受け付け、関連度別関連節点接合手段２６に送る。なお、閾値Ｂの値は常に閾値Ａの値以上であることが要求される。

関連度別関連節点接合手段２６は、意味的関連度計算手段２５から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置５から閾値Ａと閾値Ｂを受け取り、互いに関連する節点の意味的関連度の値と閾値Ａ、閾値Ｂとの大小関係に応じて次のように関連節点の接合をすることで各文構造の構造変形を行う。
意味的関連度の値が閾値Ａより小さい場合は、関連節点について、何ら構造変形を行わない。
意味的関連度の値が閾値Ａ以上で、閾値Ｂより小さい場合は、関連節点を意味的関連枝で結ぶ。
意味的関連度の値が閾値Ｂ以上の場合は、関連節点を結合して一つの節点とする。

また、入力装置５から入力された閾値が１個（これを閾値Ｃとする）の場合は、関連度別関連節点接合手段２６は、互いに関連する節点の意味的関連度の値と閾値Ｃとの大小関係に応じて次のように関連節点の接合をすることで各文構造の構造変形を行う。
意味的関連度の値が閾値Ｃより小さい場合は、関連節点について、何ら構造変形を行わない。
意味的関連度の値が閾値以上の場合は、関連節点を結合して一つの節点とする。
２個の閾値が入力されたが、それらの値が同一である場合も上記と同様にする。

（テキストマイニング装置３０の動作）
図２０は、テキストマイニング装置３０の動作を説明するための流れ図である。
テキストマイニング装置１０と異なる点は、図８のステップＡ３のかわりにステップＢ３が実行され、さらにステップＡ２とステップＢ３の間にステップＢ１、Ｂ２が挿入されることである。図２０のステップＡ１、Ａ２、Ａ４、Ａ５で示される処理は、テキストマイニング装置１０における処理と同一であるため、説明は省略する。

テキストマイニング装置１０では、関連節点接合手段２３は予め定められた接合方法により関連節点の接合を行っていたが、テキストマイニング装置３０では、意味的関連度計算手段２５が算出した意味的関連度に応じて関連接点の接合を行う。
意味的関連度計算手段２５は、関連節点抽出手段２２から各文構造中の関連節点の情報を受け取り、互いに関連する節点の意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段２６に送る（図２０のステップＢ１）。
入力装置５は、関連節点の意味的関連度に応じて関連節点を分類するための２つの閾値、閾値Ａと閾値Ｂを入力として受け付け、関連度別関連節点接合手段２６に送る（図２０のステップＢ２）。なお、ステップＢ２が実行されるタイミングは、図２０に示した位置に限らず、ステップＡ４の前であれば任意の位置でよい。

関連度別関連節点接合手段２６は、意味的関連度計算手段２５から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置５から閾値Ａと閾値Ｂを受け取り、関連節点の意味的関連度の値と閾値Ａ、閾値Ｂとの大小関係に応じて、関連節点の接合をすることで各文構造の構造変形を行う（図２０のステップＢ３）。

このように、テキストマイニング装置１０によれば、関連節点抽出手段２２が抽出した文構造中の関連節点を関連節点接合手段２３が接合することで変形してから、特徴構造抽出手段２４が特徴構造抽出を行うように構成されている。
このため、意味の同じ一つの内容について、１テキスト内で単一の語を用いて書かれている場合と、１テキスト内で同一の内容を指す複数の語を用いて書かれている場合とを、同一視してテキストマイニングを行うことができる。さらに、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。

次に、テキストマイニング装置３０の具体的な動作例について説明する。
なお、本実施例においては、関連節点抽出手段２２は、表層が同じである節点、ユーザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。
テキストマイニング装置１０の第２の動作例と同様に、図１３に示したテキストＳ４乃至テキストＳ９がテキストＤＢ１１に記憶されているとする。

言語解析手段２１は、テキストＤＢ１１中の図１３に示されるテキスト集合の各テキストに対して言語解析を行い、各テキストの文構造を得る（図２０のステップＡ１）。ここで得られる文構造は、図１４のようになる。

関連節点抽出手段２２は、図１４に示される各文構造から意味的に関連する節点の抽出を行う（図２０のステップＡ２）。
テキストＳ４からは、同表層の関係にある構造Ｔ４の「軽自動車」と「軽自動車」が関連節点として抽出される。
テキストＳ５からは、同表層の関係にある構造Ｔ５−Ａの「軽自動車」と構造Ｔ５−Ｂの「軽自動車」が関連節点として抽出される。
テキストＳ６からは、ユーザ指定の同義語の関係にある構造Ｔ６−Ａの「軽自動車」と構造Ｔ６−Ｂの「軽」が関連節点として抽出される。
テキストＳ７からは、ユーザ指定の関連語の関係にある構造Ｔ７の「自動車」と「車種Ｃ」が関連節点として抽出される。
テキストＳ８からは、ユーザ指定の関連語の関係にある構造Ｔ８−Ａの「自動車」と構造Ｔ８−Ｂの「車種Ｃ」が関連節点として抽出される。
テキストＳ９からは、ユーザ指定の関連語の関係にある構造Ｔ９−Ａの「自動車」と構造Ｔ９−Ｂの「車種Ｃ」が関連節点として抽出される。
ここまでの動作は、テキストマイニング装置１０の場合と同様である。

意味的関連度計算手段２５は、関連節点抽出手段２２から各文構造中の関連節点の情報を受け取り、その意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段２６に送る（図２０のステップＢ１）。
関連節点の意味的関連度は、たとえば、表層が同じである節点の意味的関連度は４、ユーザ指定の同義語の関係にある節点の意味的関連度は３、ユーザ指定の関連語の関係にある節点の意味的関連度は１とする。
図１４に示される各文構造中の関連節点の意味的関連度は、同表層の関係にある構造４の「軽自動車」と「軽自動車」については４、同表層の関係にある構造Ｔ５−Ａの「軽自動車」と構造Ｔ５−Ｂの「軽自動車」については４、ユーザ指定の同義語の関係にある構造Ｔ６−Ａの「軽自動車」と構造Ｔ６−Ｂの「軽」については３、ユーザ指定の関連語の関係にある構造Ｔ７の「自動車」と「車種Ｃ」については１、ユーザ指定の関連語の関係にある構造Ｔ８−Ａの「自動車」と構造Ｔ８−Ｂの「車種Ｃ」については１、ユーザ指定の関連語の関係にある構造Ｔ９−Ａの「自動車」と構造Ｔ９−Ｂの「車種Ｃ」については１とそれぞれ計算される。

入力装置５は関連節点の意味的関連度に応じて関連節点を分類するための２つの閾値、閾値Ａと閾値Ｂを入力として受け付け、関連度別関連節点接合手段２６に送る（図２０のステップＢ２）。ここでは、閾値Ａとして２が、閾値Ｂとして５が入力されたとする。

関連度別関連節点接合手段２６は、意味的関連度計算手段２５から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置５から閾値Ａと閾値Ｂを受け取り、関連節点の意味的関連度の値と閾値Ａ、閾値Ｂとの大小関係に応じて各文構造の構造変形を行う（図２０のステップＢ３）。

図２１に、関連節点接合手段２６により得られる変形後の文構造を示す。
図１４の構造Ｔ４では、関連節点である「軽自動車」と「軽自動車」の意味的関連度は４であり、閾値Ａ以上で閾値Ｂより小さいため、これらの節点が意味的関連枝（図２１では点線で示されている）で結ばれ、図２１の構造Ｔ４”となる。なお特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される。
図１４の構造Ｔ５−ＡとＴ５−Ｂでは、関連節点である構造Ｔ５−Ａの「軽自動車」と構造Ｔ５−Ｂの「軽自動車」の意味的関連度は４であり、閾値Ａ以上で閾値Ｂより小さいため、これらの節点が意味的関連枝で結ばれ、図２１の構造Ｔ５”となる。
図１４の構造Ｔ６−ＡとＴ６−Ｂでは、関連節点である構造Ｔ６−Ａの「軽自動車」と構造Ｔ６−Ｂの「軽」の意味的関連度は３であり、閾値Ａ以上で閾値Ｂより小さいため、これらの節点が意味的関連枝で結ばれ、図２１の構造Ｔ６”となる。
図１４の構造Ｔ７では、関連節点である「自動車」と「車種Ｃ」の意味的関連度は１であり、閾値Ａより小さいため、何ら構造変形は行われず、図２１の構造Ｔ７”となる。
図１４の構造Ｔ８−ＡとＴ８−Ｂでは、関連節点である構造Ｔ８−Ａの「自動車」と構造Ｔ８−Ｂの「車種Ｃ」の意味的関連度は１であり、閾値Ａより小さいため、何ら構造変形は行われず、図２１の構造Ｔ８”−ＡとＴ８”−Ｂとなる。
図１４の構造Ｔ９−ＡとＴ９−Ｂでは、関連節点である構造Ｔ９−Ａの「自動車」と構造Ｔ９−Ｂの「車種Ｃ」の意味的関連度は１であり、閾値Ａより小さいため、何ら構造変形は行われず、図２１の構造Ｔ９”−ＡとＴ９”−Ｂとなる。

特徴構造抽出手段２４は、図２１に示される変形後の文構造の集合から特徴構造の抽出を行う（図２０のステップＡ４）。ただし本発明においては、関連度別関連節点接合手段２６により意味的関連枝で結ばれた双方の節点の少なくとも一方から係り受けの枝が他の節点に結ばれていない構造は、意味を持たない構造であるので特徴構造として抽出しない。ここでは、そのような構造を除き、３回以上出現している部分構造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われることに注意して、図２１を参照すると、抽出される頻出部分構造は図２２の頻出部分構造ＰＴ７乃至頻出部分構造ＰＴ２２のようになる。
最後に、そのようにして抽出された特徴構造を出力装置３に出力する（図２０のステップＡ５）。

図１７に示すテキストマイニング装置１０の場合の特徴構造の集合と図２２に示すテキストマイニング装置３０の場合の特徴構造の集合とを比較すると、テキストマイニング装置１０においては抽出されていた図１７の、ユーザ指定の関連語の関係にある関連節点を意味的関連枝で結ぶことで得られる頻出部分構造ＰＴ２３が抽出されなくなっていることが分かる。

テキストマイニング装置３０によれば、関連度別関連節点接合手段２６が、意味的関連度計算手段２５が計算した関連節点の意味的関連度とユーザが入力した閾値との大小関係に応じて関連節点の接合による文構造の構造変形を行うため、ユーザが、関連節点を、その意味的な関連の深さに応じて、どのように接合してテキストマイニングを行うかを調整することが出来る。

図８に示したテキストマイニング装置１０の動作は、コンピュータとコンピュータプログラムにより実現することができる。図２３は、このような実施例を示す図である。
図２３のコンピュータ４０は、記憶装置１と出力装置３と入力装置５とＣＰＵ(Central Processing Unit)6と主記憶装置９を備えている。記憶装置１は、例えばハードディスク装置で、テキストデータベース１１を記憶している。主記憶装置９は、たとえばＲＡＭ(Random Access Memory)により構成され、テキストマイニング用プログラム７を記憶している。テキストマイニング用プログラム７は、上記に説明したテキストマイニング装置１０の動作をＣＰＵ６に実行させるプログラムである。テキストマイニング用プログラム７は、ＣＰＵ６に読み込まれ実行される。
このようにすれば、ＣＰＵ６を言語解析手段２１、関連接点抽出手段２２、関連接点結合手段２３、特徴構造抽出手段２４として動作させ、コンピュータ４０をテキストマイニング装置１０として動作させることができる。
上記と同様に、ＣＰＵ６を言語解析手段２１、関連接点抽出手段２２、意味的関連度計算手段２５、関連度別関連接点結合手段２６、特徴構造抽出手段２４として動作させ、コンピュータ４０をテキストマイニング装置３０として動作させることもできる。

ここまででは本発明の実施の形態および具体的な動作例として、テキスト集合を入力データとしたテキストマイニング装置とその動作について説明したが、本発明は、テキスト要約やテキスト検索、テキスト分類、音声認識結果を入力とした構造のマイニングなどの、テキストマイニング以外のデータ処理にも応用することができる。

本発明の第１の実施形態であるテキストマイニング装置の構成を示すブロック図である。文構造中に一つの節点に結合するべき関連節点の組が複数組存在し、且つある節点がその複数の関連連節点の組に含まれる例を示す図である。図２の文構造に関連節点の接合を行った結果の文構造を示す図である。図２の文構造に関連節点の接合を行った結果の文構造を示す図である。文構造中に意味的関連枝で結ぶべき関連節点の組が複数組存在し、且つある節点がその複数の関連連節点の組に含まれる例を示す図である。図５の文構造に関連節点の接合を行った結果の文構造を示す図である。図５の文構造に関連節点の接合を行った結果の文構造を示す図である。図１のテキストマイニング装置の動作を示す流れ図である。テキストＤＢ中のテキスト集合を示す例である。言語解析手段により、図９のテキスト集合を言語解析して得られる文構造の集合を示す図である。図１０に示す文構造の集合に対して関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。特徴抽出手段が、図１１に示す変形後の文構造の集合から抽出した特徴構造を示す図である。テキストＤＢ１１中のテキスト集合を示す例である。言語解析手段により、図１３のテキスト集合を言語解析して得られる文構造の集合を示す図である。図１４に示す文構造の集合に対して関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。意味的関連枝で結ばれている節点に係り受けの枝で結ばれる節点がないために、特徴構造として抽出されない部分構造を示す図である。図１５に示す変形後の文構造の集合から抽出される特徴構造を示す図である。図１４に示す文書構造の関連節点を意味的関連枝で接合することで得られるが、実際には抽出されない構造を示す図である。本発明の第２の実施形態であるテキストマイニング装置の構成を示すブロック図である。図１９のテキストマイニング装置の動作を示す流れ図である。図１４に示す文構造の集合に対して関連度別関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。図２１に示す変形後の文構造の集合から抽出される特徴構造を示す図である。本発明のテキストマイニングプログラムの動作を説明する図である。従来のテキストマイニング装置の構成を示すブロック図である。従来技法では正しく特徴構造を抽出できないテキストの例を示す図である。図２５の例において、テキストから抽出されることが望ましい特徴構造の例を示す図である。従来技法ではその内容を一つの構造にまとめて抽出を行うことが出来ないテキストの例を示す図である。図２７の例において、二つのテキストから抽出されることが望ましい特徴構造の例を示す図である。

符号の説明

７テキストマイニング用プログラム
１０、３０テキストマイニング装置
４０コンピュータ
１１テキストＤＢ
２２関連節点抽出手段
２３関連節点接合手段
２４特徴構造抽出手段
２５意味的関連度計算手段
２６関連度別関連節点接合手段（関連節点接合手段）

Claims

単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある２個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理装置において、
文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出手段と、
前記文構造の集合と前記関連節点抽出手段が抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合手段と、
前記関連節点接合手段により変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出手段と、を
備えたことを特徴としたデータ処理装置。
前記関連節点接合手段は、前記関連節点を意味的関連性が強い強関連節点と意味的関連性が弱い弱関連節点に分類する機能と、前記強関連節点を一つの節点に結合する機能とを備えたことを特徴とした請求項１に記載のデータ処理装置。
前記関連節点接合手段は、前記弱関連節点を意味的関連枝で接合する機能を備え、
前記特徴構造抽出手段は、前記グラフの部分構造が、前記意味的関連枝で接続された節点を含み、かつ、その中の少なくとも１の節点が前記係り受け枝により他の節点と接続されていない場合は前記特徴構造として抽出しない否抽出機能を備えていることを特徴とした請求項２に記載のデータ処理装置。
前記関連節点抽出手段は、代名詞またはゼロ代名詞およびこれらと照応関係にある先行詞を含む節点である照応節点を前記関連節点として抽出する照応節点抽出機能を備え、
前記関連節点接合手段は、前記照応節点を前記強関連節点として分類する節点分類機能を備えたことを特徴とした請求項３に記載のデータ処理装置。
前記関連節点抽出手段は、表層が同じである語を含む節点である同表層節点を前記関連節点として抽出する同表層節点抽出機能を備え、
前記関連節点接合手段は、前記同表層節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項３または４に記載のデータ処理装置。
前記関連節点抽出手段は、シソーラスで同義語とされている語を含む節点である同義語節点を前記関連節点として抽出する同義節点抽出機能を備え、
前記関連節点接合手段は、前記同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項３ないし請求項５のいずれか一つに記載のデータ処理装置。
前記関連節点抽出手段は、使用者が指定した同義語を含む節点である指定同義語節点を前記関連節点として抽出する指定同義語節点抽出機能を備え、
前記関連節点接合手段は、前記指定同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項３ないし請求項６のいずれか一つに記載のデータ処理装置。
前記関連節点抽出手段は、シソーラスで関連語とされている語を含む節点である関連語節点を前記関連節点として抽出する関連後節点抽出機能を備え、
前記関連節点接合手段は、前記関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項３ないし請求項７のいずれか一つに記載のデータ処理装置。
前記関連節点抽出手段は、使用者が指定した関連語を含む節点である指定関連語節点を前記関連節点として抽出する指定関連語節点抽出機能を備え、
前記関連節点接合手段は、前記指定関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項３ないし請求項８のいずれか一つに記載のデータ処理装置。
前記関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算する意味的関連度計算手段を有し、
前記関連節点接合手段は、前記意味的関連度に基づいて前記関連節点を前記強関連節点と前記弱関連節点に分類することを特徴とした請求項２または３に記載のデータ処理装置。
前記関連節点接合手段は、前記意味的関連度が第１の閾値より小さい前記関連節点を弱関連節点として分類し、前記意味的関連度が前記第１の閾値以上である前記関連節点は前記強関連節点として分類することを特徴とした請求項１０に記載のデータ処理装置。
前記関連節点接合手段は、前記意味的関連度が第２の閾値より小さい前記関連節点に対しては接合を行わないことを特徴とした請求項１１に記載のデータ処理装置。
単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある２個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理方法において、
文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出ステップと、
前記文構造の集合と前記関連節点抽出ステップにおいて抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合ステップと、
前記関連節点ステップにおいて変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出ステップとを実行することを特徴としたデータ処理方法。
文構造の集合中の各文構造から、互いに意味的に関連する節点を抽出する関連節点抽出機能と、
前記文構造の集合と前記抽出した節点の情報とを受け取り、各文構造中の意味的に互いに関連する節点同士を意味的関連枝で結びことにより文構造の変形を行う関連節点接合機能と、
前記変形された文構造の集合から特徴的な部分構造を抽出する特徴構造抽出機能とをコンピュータに実行させることを特徴としたデータ処理プログラム。