JP2007041767A - テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム - Google Patents

テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム Download PDF

Info

Publication number
JP2007041767A
JP2007041767A JP2005223971A JP2005223971A JP2007041767A JP 2007041767 A JP2007041767 A JP 2007041767A JP 2005223971 A JP2005223971 A JP 2005223971A JP 2005223971 A JP2005223971 A JP 2005223971A JP 2007041767 A JP2007041767 A JP 2007041767A
Authority
JP
Japan
Prior art keywords
expression
node
dependency structure
subtree
structure tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005223971A
Other languages
English (en)
Other versions
JP4815934B2 (ja
Inventor
Takahiro Ikeda
崇博 池田
Satoshi Nakazawa
聡 中澤
Yosuke Sakao
要祐 坂尾
Kenji Sato
研治 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005223971A priority Critical patent/JP4815934B2/ja
Publication of JP2007041767A publication Critical patent/JP2007041767A/ja
Application granted granted Critical
Publication of JP4815934B2 publication Critical patent/JP4815934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】依存構造木が異なる同義表現を同一視してマイニングを行うことができるテキストマイニング装置等を提供すること
【解決手段】テキストマイニング装置10では、言語解析手段21が同義表現辞書に登録されている表現の依存構造木(同義表現依存構造木)とテキストマイニングの対象となる文の依存構造木(対象文依存構造木)を生成する。同義表現識別手段22は、対象文依存構造木の中に同義表現部分木と一致する部分木(一致部分木)が含まれているかどうかを識別する。節点置換手段は24、一致部分木を同義表現が属するグループを示す特別な節点(同義表現節点)で置き換え、特徴部分木抽出手段25は、置き換え後の対象文依存構造木から特徴部分木を抽出する。
【選択図】図7

Description

本発明は、テキストマイニングに関し、特に依存構造木が異なる同義表現を同一視してマイニングを行うことができるテキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムに関する。
テキストマイニング装置は、大量のテキストから有用な知識を抽出するために、テキスト中に頻出する単語のパターンを抽出することを目的として構成されている。従来のテキストマイニング装置の一例が、特許文献1に記載されている。
この特許文献1に記載されたテキストマイニング装置は、テキスト中の各文の構文構造を解析し構文木を構築する言語解析装置と、構文木の中から頻出するパターンを発見するパターン抽出装置とを有し、テキスト中に頻出する単語の構文的なパターンを抽出する。
一方、依存構造木を変形し、同義の表現に対応する別の依存構造木に変換するシステムの一例が、非特許文献1に記載されている。この非特許文献1に記載された依存構造処理システムは、予め定めておく変換規則(照合パターン・書き換えパターン)を参照して、照合パターンに適合する依存構造木を書き換えパターンに従って別の依存構造木に変換する。
変換規則では、変数を用いて、変換前の依存構造木と変換後の依存構造木との間で対応する節点の関係を記述する。非特許文献1には、例えば、「N1がN2にVさせられる」という表現に対応する依存構造木を「N2がN1をVする」という同義の表現に対応する別の依存構造木に変換するための変換規則の例が示されている。この例において、N1およびN2は名詞に対応する変数、Vは動詞に対応する変数である。
特開2001−84250号公報 岩倉友哉他4名、汎用依存構造処理モジュールKURALANG、言語処理学会第9回年次大会予稿集、2003年3月18日、pp.687−690
しかし、従来のテキストマイニング装置には、同義の表現の依存構造木を同一視してマイニングを行うことができないという問題があった。
従来のテキストマイニング装置は、依存構造木が異なる同義表現、すなわち、同一の意味内容を表しているにもかかわらず依存構造木が異なる(用いられている単語やその単語間の係り受け関係が異なる)表現を同一視してマイニングを行うことができない。その理由は、従来のテキストマイニング装置では、依存構造木が異なる同義表現について何ら考慮されていないためである。
この結果、同義の意味内容に対応する表現が複数存在する場合、それぞれの表現ごとにそれを抽出するかしないかを判定しなければならず、特徴的な意味内容を抽出し損なうおそれがあった。
例えば、表現EX1「表示する文字を小さくする」および表現EX2「小さな文字で表示する」は、いずれも「表示に使用する文字のサイズを小さくする」という同一の意味内容を表現しているため、同義表現である。しかし、図1(a)に示す表現EX1に対応する依存構造木DT−EX1と図1(b)に示す表現EX2に対応する依存構造木DT−EX2は異なっている。
なお、ここでは、一例として、文節を節点とし、文節に属する自立語を終止形に直したものを節点のラベルとし、文節間の係り受け関係を枝とする形態の依存構造木の例を示している。以降の例も同様である。
従来のテキストマイニング装置は、これらの表現を同一視することができないため、例えば、「表示に使用する文字のサイズを小さくする」という意味内容が表現EX1を用いて述べられているテキストが23件、表現EX2を用いて述べられているテキストが34件ある場合に、「表示に使用する文字のサイズを小さくする」という意味内容が述べられているテキストが合わせて57件あると認定することができない。この結果、例えば、50件以上出現する表現を抽出するようにマイニングを行う場合、「表示に使用する文字のサイズを小さくする」という意味内容は57件のテキストで述べられているにもかかわらず、特徴的な意味内容として抽出することができない。
従来のテキストマイニング装置は、同義表現を1つの表現に統一するように依存構造木を事前に変換し、変換後の依存構造木に対してマイニングを行うにしても、依存構造木間の変換規則を事前に作成するのに手間がかかる。その理由は、依存構造木間の変換規則においては、変換前の依存構造木の各節点に接合していた節点を、変換後の依存構造木においてどの節点に接合し直せばよいのかを明確に記述しておく必要があるためである。
例えば、表現EX1に対応する依存構造木DT−EX1(図1(a))を、表現EX2に対応する依存構造木DT−EX2(図1(b))に変換する規則を記述する場合、DT−EX1中の節点「表示する」に接合していた節点と、節点「する」に接合していた節点とを、ともにDT−EX2中の節点「表示する」に接合するように変換し、DT−EX1中の節点「小さい」に接合していた節点を、DT−EX2中の節点「小さな」に接合するように変換すること等を明確に記述しておく必要がある。さもなくば、文S1「メールを表示する文字をできるだけ小さくする方法をWEBで調べた」に対応する依存構造木DT−S1(図2)において、依存構造木DT−EX1に適合する部分(図3のPT1)を依存構造木DT−EX2(図1(b))に変換する際に、節点「メール」、節点「できるだけ」および節点「調べる」を変換後の依存構造木においてどの節点に接合すればよいか決めることができず、依存構造木の変換を行うことができない。
従来のテキストマイニング装置は、同義表現を1つの表現に統一するように依存構造木を事前に変換し、変換後の依存構造木に対してマイニングを行うにしても、同義と見なしたい表現が完全に同一の意味ではなく依存構造木間で節点の対応を付けられない場合には、それらの表現に対応する依存構造木を事前に統一してマイニングを行うことができない。その理由は、変換前の依存構造木の各節点に接合していた節点を、変換後の依存構造木においてどの節点に接合し直せばいいのかを明確にしなければ、依存構造木間の変換を行うことができないためである。
例えば、表現EX3「表示する行数を増やす」に対応する依存構造木DT−EX3は、図4(a)のようになる。このとき、図1(a)に示す表現EX1「表示する文字を小さくする」に対応する依存構造木DT−EX1の各節点と図4(a)の依存構造木DT−EX3の各節点とを完全に対応づけることはできず、表現EX1と表現EX3を同義と見なしたい場合でも、対応する依存構造木間の変換を行うことができない。
実際、文S2「メールを表示する行数を2倍に増やす」に対応する依存構造木DT−S2(図4(b))において、依存構造木DT−EX3(図4(a))に適合する部分を依存構造木DT−EX1(図1(a))に変換しようとしても、表現EX1「表示する文字を小さくする」において、文S2中の「2倍に」という文節が係る先は存在せず、依存構造木DT−S2中の節点「2倍」を変換後の依存構造木のどの節点にも接合することができない。
従来のテキストマイニング装置では、同義表現を1つの表現に統一するように依存構造木を事前に変換し、変換後の依存構造木に対してマイニングを行うとすると、本来は特徴的ではない表現が誤って抽出されたり、本来は特徴的である表現が誤って抽出されなかったりするおそれがある。その理由は、依存構造木の変換によって、本来は存在しなかった節点が新たに生成されたり、本来は存在していた節点が削除されたりするという副作用があるためである。
例えば、表現EX2「小さな文字で表示する」に対応する依存構造木DT−EX2(図1(b))を、表現EX1「表示する文字を小さくする」に対応する依存構造木DT−EX1(図1(a))に変換する場合、本来は存在しなかった節点「小さい」、節点「する」が新たに生成されることになる。
このような依存構造木の変換を行う場合、例えば、表現EX1「表示する文字を小さくする」が使われているテキストが21件、表現EX2「小さな文字で表示する」が使われているテキストが18件、このほかに、「表示する画像のサイズを小さくする」のように表現EX1とも表現EX2とも異なるが、「小さくする」を含む表現が使われているテキストが16件存在するものとすると、変換後、節点「小さい」と節点「する」によって構成される部分木は全依存構造木中に合計55件出現することになる。
この結果、例えば、50件以上出現する部分木を抽出するようにマイニングを行う場合、節点「小さい」と節点「する」によって構成される部分木は、本来であれば37件しか出現しないにもかかわらず、特徴的な部分木として抽出されてしまう。
逆に、例えば、表現EX1「表示する文字を小さくする」に対応する依存構造木DT−EX1(図1(a))を、表現EX2「小さな文字で表示する」に対応する依存構造木DT−EX2(図1(b))に変換する場合、本来存在していた節点「小さい」と節点「する」が削除されることになる。
このような依存構造木の変換を行う場合、例えば、表現EX1「表示する文字を小さくする」が使われているテキストが34件、表現EX2「小さな文字で表示する」が使われているテキストが13件、このほかに、「表示する画像のサイズを小さくする」のように、表現EX1とも表現EX2とも異なるが、「小さくする」を含む表現が使われているテキストが19件存在するものとすると、変換後、節点「小さい」と節点「する」によって構成される部分木は全依存構造木中に合計19件しか出現しないことになる。
この結果、例えば、50件以上出現する部分木を抽出するようにマイニングを行う場合、節点「小さい」と節点「する」によって構成される部分木は、本来であれば53件出現していたにもかかわらず、特徴的な部分木としては抽出されなくなってしまう。
そこで、本発明は、依存構造木が異なる同義表現を同一視してマイニングを行うことができるテキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムを提供することをその目的とする。
本発明に係るテキストマイニング装置では、同義表現識別手段が、テキストマイニングの対象となる文の依存構造木(対象文依存構造木)の中に同義表現辞書に登録されている表現の依存構造木(同義表現依存構造木)と一致する部分木(一致部分木)が含まれているかどうかを識別する。
節点置換手段は、一致部分木を同義表現が属するグループを示す特別な節点(同義表現節点)で置き換え、特徴部分木抽出手段は、置き換え後の対象文依存構造木から特徴部分木を抽出する(請求項1)。
上記テキストマイニング装置によれば、対象文依存構造木に含まれる一致部分木を、節点置換手段が同義表現節点で置換し、特徴部分木抽出手段は、置換後の対象文依存構造木から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
本発明に係るテキストマイニング装置では、同義表現識別手段が、対象文依存構造木の中に一致部分木が含まれているかどうかを識別する。
節点追加手段は、対象文依存構造木に同義表現節点を追加する。節点追加手段は、同義表現節点から、一致部分木外の節点で一致部分木内の節点からの係り受け枝を有している節点への係り受け枝を追加し、一致部分木外の節点で一致部分木内の節点への係り受け枝を有している節点から、同義表現節点への係り受け枝を追加する。特徴部分木抽出手段は、同義表現節点の追加と係り受け枝の追加がされた後の対象文依存構造木(依存構造束)から特徴部分木を抽出する(請求項2)。
上記テキストマイニング装置によれば、節点追加手段が、対象文依存構造木に含まれる一致部分木に相当する同義表現節点を対象文依存構造木に追加し、一致部分木と外部の節点の関係を示す係り受け枝と同等の係り受け枝を同義表現節点に追加して依存構造束を生成する。特徴部分木抽出手段は、節点と係り受け枝の追加後の依存構造束から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる依存構造束には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。
上記テキストマイニング装置において、排他関係枝追加手段が同義表現節点と一致部分木に含まれる各節点とを排他関係枝で接続した依存構造束を生成し、特徴部分木抽出手段は、排他関係枝で接続された節点を含まない部分木から特徴部分木を抽出するようにしてもよい(請求項3)。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。
上記テキストマイニング装置において、抽出結果出力手段を備え、この抽出結果出力手段は、特徴部分木に含まれる同義表現部節点のラベルを、このラベルが示す同義表現グループに属する表現を代表する出力用表現に置き換えて前記特徴部分木の形状を人間が視認可能な形で出力するようにしてもよい(請求項4)。
このようにすれば、出力装置に表示される特徴構造に含まれる同義表現節点のラベルは、使用者にとって意味のわからない記号等ではなく、同義表現グループを表す表現となるので、使用者はラベルの意味を理解できるようになる。
上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す同義表現グループの中で最初に列挙されている表現としても良い(請求項5)。
上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループの中で最も長さが短い表現としても良い(請求項6)。
上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループの中で前記テキストマイニングの対象となる文集合中に最も多く出現した表現としてもよい(請求項7)。
上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループの中で出力用表現として用いるものとして予め指定されている表現としてもよい(請求項8)。
上記テキストマイニング装置において、出力用表現を同義表現節点のラベルが示す前記同義表現グループに対応して、この同義表現グループに含まれる表現とは別に予め定義されている表現としても良い(請求項9)。
本発明に係るテキストマイニング方法では、マイニングの対象となるテキストデータベースから対象文依存構造木を生成し、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成し、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別し、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成し、一致部分木に含まれる全節点を同義表現節点で置換し、置換がされた後の対象文依存構造木から特徴部分木を抽出する(請求項10)。
上記テキストマイニング方法によれば、対象文依存構造木に含まれる一致部分木を、同義表現節点で置換し、置換後の対象文依存木から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
本発明に係るテキストマイニング方法では、マイニングの対象となるテキストデータベースから対象文依存構造木を生成し、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成し、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別し、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成して対象文依存構造木に追加する。このとき、同義表現節点から、一致部分木外の節点で一致部分木の内の節点からの係り受け枝を有している節点への係り受け枝を追加し、一致部分木外の節点で一致部分木内の節点への係り受け枝を有している節点から、同義表現節点への係り受け枝を追加しておく。そして、同義表現節点の追加と係り受け枝の追加がされた後の対象文依存構造木(依存構造束)から特徴部分木を抽出する(請求項11)。
上記テキストマイニング方法によれば、対象文依存構造木に含まれる一致部分木に相当する同義表現節点を対象文依存構造木に追加し、一致部分木と外部の節点の関係を示す係り受け枝と同等の係り受け枝を同義表現節点に追加して依存構造束を生成する。そして、依存構造束から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる対象文依存構造木には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。
上記テキストマイニング方法において、対象文依存構造木に同義表現節点が追加された後、この同義表現節点と一致部分木に含まれる各節点を排他関係枝で接続した依存構造束を生成し、依存構造束の排他関係枝で接続された節点を含まない部分木から特徴部分木を抽出するようにしてもよい(請求項12)。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。
本発明のテキストマイニングプログラムでは、マイニングの対象となるテキストデータベースから対象文依存構造木を生成する機能と、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成する機能と、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別する機能と、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、一致部分木に含まれる全節点を同義表現節点で置換する機能と、置換がされた後の対象文依存構造木から特徴部分木を抽出する機能とをコンピュータに実行させる(請求項13)。
上記テキストマイニングプログラムによれば、対象文依存構造木に含まれる一致部分木を、同義表現節点で置換し、置換後の対象文依存木から特徴部分木を抽出する。
そのため、コンピュータをテキストマイニング装置として動作させ、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
本発明に係るテキストマイニングプログラムでは、マイニングの対象となるテキストデータベースから対象文依存構造木を生成する機能と、同義表現辞書に記憶されている表現を記憶装置から読み出して同義表現依存構造木を生成する機能と、対象文依存構造木と同義表現依存構造木を照合して一致部分木が対象文依存構造木に含まれているかどうかを識別する機能と、通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成して対象文依存構造木に追加する機能とをコンピュータ実行させる。このとき、同義表現節点から、一致部分木外の節点で一致部分木の内の節点からの係り受け枝を有している節点への係り受け枝を追加させ、一致部分木外の節点で一致部分木内の節点からの係り受け枝を有している節点から、同義表現節点への係り受け枝を追加させるようにする。そして、同義表現節点の追加と係り受け枝の追加がされた後の対象文依存構造木(依存構造束)から特徴部分木を抽出させる(請求項14)。
上記テキストマイニングプログラムによれば、対象文依存構造木に含まれる一致部分木に相当する同義表現節点を対象文依存構造木に追加し、一致部分木と外部の節点の関係を示す係り受け枝と同等の係り受け枝を同義表現節点に追加して依存構造束を生成する。そして依存構造束から特徴部分木を抽出する。
そのため、コンピュータをテキストマイニング装置として動作させ、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる対象文依存構造木には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。
上記テキストマイニングプログラムにおいて、対象文依存構造木に同義表現節点が追加された後、同義表現節点と一致部分木に含まれる各節点を排他関係枝で接続した依存構造束を生成する機能をコンピュータに実行させ、依存構造束の排他関係枝で接続された節点を含まない部分木から特徴部分木を抽出するようにしてもよい(請求項15)。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。
本発明によれば、対象文依存構造木に含まれる一致部分木を、節点置換手段が同義表現節点で置換し、特徴部分木抽出手段は、置換後の対象文依存木から特徴部分木を抽出する。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
図を参照しながら本発明の第1の実施形態であるテキストマイニング装置10の構成と動作について説明する。
(テキストマイニング装置10の構成)
図5は、テキストマイニング装置10の概略機能ブロック図である。
テキストマイニング装置10は、キーボード、マウス等の入力装置1と、プログラム制御により動作するデータ処理装置20と、情報を記憶するハードディスク等の記憶装置30と、ディスプレイ装置等の出力装置4とを備える。
記憶装置30は、同義表現辞書記憶部31と、テキスト集合記憶部32とを備える。
同義表現辞書記憶部31は、テキストマイニングを行う際に同義と見なす表現を同義と見なす表現ごとにグループ化して定義した同義表現辞書を予め記憶している。テキスト集合記憶部32は、テキストマイニングの対象となるテキストを予め記憶している。
同義表現辞書において同一の同義表現グループに属する同義表現どうしが、テキストマイニングを行う際に同一視される。
図6に、同義表現辞書の一例を示す。この例は、テキストマイニング時に、表現EX1「表示する文字を小さくする」と表現EX2「小さな文字で表示する」と表現EX3「表示する行数を増やす」とを同一視し(同義表現グループG1)、さらに、表現EX4「画像をメールで送る」と表現EX5「メールに画像を添付する」とを同一視したい(同義表現グループG2)場合の同義表現辞書の定義例である。
データ処理装置20は、言語解析手段21と、同義表現識別手段22と、同義表現節点生成手段23と、節点置換手段24と、特徴部分木抽出手段25と、抽出結果出力手段26とを備える。
言語解析手段21は、同義表現辞書記憶部31に記憶されている全ての表現およびテキスト集合記憶部32に記憶されているテキスト中の全ての文について対応する依存構造木を構築する。
依存構造木とは、文の構成要素を節点とし、文の構成要素間の依存関係(係り受け関係)を枝として、文を木構造として表現したものである。各節点は、節点に付与されたラベルによって区別される。
節点に対応する文の構成要素としては、例えば形態素を採用し、各形態素の原型を節点のラベルとし、形態素間の依存関係を枝とする依存構造木を構築するようにしてもよいし、図1(a)の例のように文節を採用し、文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする依存構造木を構築するようにしてもよい。
依存構造木を構築するには、例えば、形態素解析を行って文を形態素の単位に分割し、構文解析を行って各形態素間の関係を求める等、一般に知られている方法を用いることができる。
なお、言語解析手段21によって構築された依存構造木は、図示しないDRAM(Dynamic Random Access Memory)等の一時記憶装置に保持するようにしてもよいし、記憶装置30に保持するようにしてもよい。
同義表現識別手段22は、テキスト集合記憶部32に記憶されているテキスト中の各文に対応する依存構造木(対象文依存構造木)と、同義表現辞書記憶部31に記憶されている表現に対応する依存構造木(同義表現依存構造木)を照合する。これにより、テキスト中で同義表現辞書中の表現が使用されている箇所を特定し、テキスト中のどの箇所で同義表現辞書中のどの表現が使用されているのかを識別する。
同義表現節点生成手段23は、テキスト中の各文において、同義表現辞書中の表現が使用されている箇所、すなわち、テキスト中の各文に対応する依存構造木において同義表現辞書中の表現に対応する依存構造木(一致部分木)が部分木として含まれている箇所のそれぞれに対応づけて、新しい節点(同義表現節点)を生成する。
生成する節点には、その箇所で使用されていた表現が属する同義表現グループを表す識別子をラベルとして付与する。すなわち、同一の同義表現グループに属する表現が使用されている箇所に対して生成された節点には、共通のラベルを付与するようにする。また、ラベルは、言語解析手段21によって構築された依存構造木にはじめから存在していた節点のラベルとは異なる特別なラベルとする。
節点置換手段24は、テキスト中の各文に対応する依存構造木において、一致部分木が含まれている箇所に対して、その部分木に含まれる全節点を、同義表現節点生成手段23がその箇所に対応づけて生成した同義表現節点で置換する。この置換処理により、始点と終点の両方が同一の節点に置換される枝は削除する。始点と終点の一方の節点のみが置換される枝はそのまま残す。
節点置換手段24による処理の例を図7に示す。これは、文S1「メールを表示する文字をできるだけ小さくする方法をWEBで調べた」に対応する依存構造木DT−S1(図2)において、表現EX1「表示する文字を小さくする」に対応する依存構造木DT−EX1が部分木として含まれている箇所(図3のPT1)に対して、その箇所の部分木に含まれる全節点を、新しい節点「G1」によって置換する場合の例である。
この例では、4つの節点「表示する」「文字」「小さい」「する」が節点「G1」によって置換される。これらの4節点間を接合していた枝BR1、BR2、BR3は削除される。節点「メール」と節点「表示する」とを接合していた枝BR4は、節点「メール」と節点「G1」とを接合する形でそのまま残される。また、節点「できるだけ」と節点「小さい」とを接合していた枝BR5は、節点「できるだけ」と節点「G1」とを接合する形でそのまま残される。また、節点「する」と節点「方法」とを接合していた枝BR6は、節点「G1」と節点「方法」とを接合する形でそのまま残される。
特徴部分木抽出手段25は、テキスト中の各文に対応する依存構造木から特徴的な部分木を抽出する。
ある部分木が特徴的かどうかの判定は、一般的なデータマイニングの手法を用いる。例えば、全依存構造木中で予め定める閾値以上の回数出現する部分木を特徴的な部分木として抽出することができる。また、対応する依存構造木中に、ある部分木が出現する文が1つ以上存在するテキストが予め定める閾値以上の個数存在する場合に、その部分木を特徴的な部分木として抽出することも可能である。このほか、テキストが予め定める集合に属するか否かと、そのテキスト中の各文に対応する依存構造木中に部分木が出現するか否かに、予め定める閾値以上の相関性がある部分木を特徴的な部分木として抽出するようにしてもよい。
ある部分木が特徴的かどうかを判定する基準(例えば、出現回数の閾値や、相関性を求める対象となるテキストの集合、相関性の閾値等)は、入力装置1を通して利用者が入力するようにしてもよい。また、特徴的かどうかを判定する方法を複数用意し、利用者が選択できるようにしてもよい。このほか、利用者が、抽出する部分木の条件や、部分木を抽出するテキストの条件を指定できるようにしてもよい。
抽出結果出力手段26は、抽出された部分木の形状を出力装置4に利用者が視認できる形で出力する。このとき、言語解析手段21によって構築された依存構造木にはじめから存在していた節点についてはそのまま出力し、同義表現節点生成手段23によって生成された節点については、同義表現辞書記憶部31を参照して、そのラベルを対応する同義表現グループに応じた表現に置換して出力する。これにより、同義表現節点生成手段23によって付与された特殊なラベルを利用者が理解できる状態に直すことができる。
ラベルの置換に使用する表現は、例えば、同義表現グループ中で最初の表現、もっとも長さが短い表現、テキスト中にもっとも多く出現した表現等を同義表現辞書から自動的に選択するようにすることができる。
また、同義表現辞書において、同義表現グループを代表する表現に予め印を付けておき、その表現を使用するようにしてもよい。
また、同義表現辞書において、ラベルの置換に使用する表現を同義と見なす表現とは別に格納しておくようにしてもよい。
次に、テキストマイニング装置10の動作について詳細に説明する。
図8は、テキストマイニング装置の動作を示すフローチャートである。
まず、言語解析手段21が、同義表現辞書記憶部31に記憶されている全表現を解析し、同義表現依存構造木を構築する(図8のステップA1およびA2)。
次に、言語解析手段21は、テキスト集合記憶部32に記憶されているテキスト中の1つの文を解析し、対象文依存構造木を構築する(ステップA3)。
続いて、同義表現識別手段22が、ステップA3で構築された対象文依存構造木を、ステップA1において構築された同義表現依存構造木と照合し、対象文中に同義表現辞書に記録されている表現が含まれているかどうかを判別する(ステップA4およびステップA5)。
対象文依存構造木の中に、同義表現辞書中の表現に対応する依存構造木(一致部分木)が部分木として含まれている箇所が存在する場合、同義表現節点生成手段23が、その表現が属する同義表現グループに応じた識別子をラベルとする特別な節点(同義表現節点)を、その箇所に対応づけて生成する(ステップA6)。さらに、節点置換手段24が、一致部分木に含まれる全節点を、同義表現節点によって置換する(ステップA7)。
同義表現識別手段22は、ステップA1において構築されたすべての同義表現依存構造木との照合が終わったかどうかを判定する(ステップA8)。まだ照合していない同義表現依存構造木が残っている場合には、同義表現識別手段22、同義表現節点生成手段23および節点置換手段24が、ステップA4からA7までの動作を繰り返す。なお、このとき2巡目以降は、1巡目の処理が行われた後の構造を対象として処理を行う。
さらに、言語解析手段21が、テキスト集合記憶部32に記憶されているテキスト中のすべての文に対して解析が終了したかどうかを判定する(ステップA9)。まだ解析していない文が残っている場合には、言語解析手段21、同義表現識別手段22、同義表現節点生成手段23および節点置換手段24が、ステップA3からA8までの動作を繰り返す。
すべての文について、ここまでの処理が終了すると、特徴部分木抽出手段25が、各文に対応する依存構造木から特徴的な部分木を抽出する(ステップA10)。
最後に、抽出結果出力手段26が、抽出結果を順に出力装置4に出力する。まず、同義表現辞書記憶部31を参照し、抽出結果において、ステップA6において生成された同義表現節点のラベルを相応な表現(出力用表現)に置換する(ステップA10)。続いて、出力装置4を通して抽出結果を出力する(ステップA11)。すべての抽出結果に対してこの動作を繰り返す(ステップA12)。
なお、本実施の形態では、テキスト集合記憶部32に記憶されているテキストに対して、言語解析手段21が一文ごとに依存構造木を構築し、同義表現識別手段22、同義表現節点生成手段23、および、節点置換手段24がこの依存構造木を順に処理するものとして説明したが、テキスト集合記憶部32に記憶されているテキスト中の全文に対して言語解析手段21が一括して依存構造木を構築し、同義表現識別手段22、同義表現節点生成手段23および節点置換手段24が、それぞれ、全依存構造木を一括して処理するようにしてもよい。
次に、テキストマイニング装置10の具体的な動作例について説明する。
本実動作例では、依存構造木として、文節を節点とし、文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする木構造を採用する。
同義表現辞書記憶部31には、図6に示す内容が予め記憶されている。
また、テキスト集合記憶部32には、テキストマイニングの対象となるテキストが予め記憶されている。図15において長方形303で模式的に示したのが一つのテキスト、たとえばコールセンターに寄せられた問い合わせの内容を電子的に記録したものである。一つのテキストには、1または複数の文が含まれている。テキスト集合記憶部32には、このようなテキストが複数記憶されている。
まず、言語解析手段21が、同義表現辞書記憶部31中の各表現を解析し、同義表現依存構造木を構築する。
本実施例では、形態素解析により各表現を形態素に分割し、構文解析により文節間の係り受け関係を求めて、同義表現依存構造木を構築する。
この処理により、図6の表現EX1から依存構造木DT−EX1(図1(a))が、表現EX2から依存構造木DT−EX2(図1(b))が、表現EX3から依存構造木DT−EX3(図4(a))が、表現EX4から依存構造木DT−EX4(図16(a))が、そして、表現EX5から依存構造木DT−EX5(図16(b))が構築される。
同義表現辞書記憶部31中のすべての表現に対して同義表現依存構造木の構築が終了すると、続いて、言語解析手段21が、テキスト集合記憶部32中のテキストに含まれる各文を解析して対象文依存構造木を構築し、同義表現識別手段22が、一致部分木が対象文依存構造木に含まれているかどうかを識別し、同義表現節点生成手段23が、一致部分木が含まれる箇所に対応づけて同義表現節点を生成し、節点置換手段24が、一致部分木に含まれる全節点を同義表現節点により置換する処理を行う。
ここでは、テキスト中の文S1「メールを表示する文字をできるだけ小さくする方法をWEBで調べた」に対する上記処理の例を説明する。
まず、言語解析手段21が、この文を解析して対象文依存構造木を構築する。この結果、図2に示す依存構造木DT−S1が構築される。
次に、同義表現識別手段22が、同義表現依存構造木DT−EX1(図1(a))、DT−EX2(図1(b))、DT−EX3(図4(a))、DT−EX4(図16(a))、および、DT−EX5(図16(b))のそれぞれと、文S1に対応する依存構造木DT−S1(図2)とを照合し、依存構造木DT−S1中のどの箇所に、どの表現に対応する依存構造木が部分木として含まれているかを識別する。
照合の結果、依存構造木DT−S1中には、図3に示すように、依存構造木DT−EX1が部分木PT1として含まれているが、依存構造木DT−EX2、DT−EX3、DT−EX4、および、DT−EX5は含まれていないことが識別される。
同義表現節点生成手段23は、図3の部分木PT1に対応づけて、同義表現節点を生成する。同義表現節点には、適合した依存構造木に対応する表現が属する同義表現グループを表す識別子をラベルとして付与する。
依存構造木DT−EX1は、表現EX1に対応するものであり、表現EX1は同義表現グループG1に属するため、ここでは、「G1」というラベルを付与する(図17)。なお、このラベルは、言語解析手段21によって構築された依存構造木にはじめから存在していた節点のラベルとは異なる特別なラベルである。図中では「G1」に下線を引くことで、同義表現節点生成手段23によって生成された同義表現節点であることを示している。
次に、節点置換手段24が、依存構造木DT−S1の部分木PT1に含まれる全節点を、同義表現節点生成手段23によって生成された節点「G1」によって置換する(図7)。節点置換手段24は、始点と終点の両方が同一の節点に置換される枝BR1ないし3を削除し、始点と終点の一方の節点のみが置換される枝BR4ないし6はそのまま残す。この結果、依存構造木DT−S1は、依存構造木DT−S1R(図18(a))へと変換される。
言語解析手段21、同義表現識別手段22、同義表現節点生成手段23、および、節点置換手段24がこのように動作することで、文S1「メールを表示する文字をできるだけ小さくする方法をWEBで調べた」から依存構造木DT−S1(図2)が構築され、最終的に依存構造木DT−S1R(図18(a))に変換される。このようにして生成された依存構造木DT−S1Rが、特徴部分木抽出手段25が特徴的な部分木を抽出する対象となる。
同様の処理により、文S2「メールを表示する行数を2倍に増やす」からは、依存構造木DT−S2(図4(b))が構築され、最終的に依存構造木DT−S2R(図18(b))が生成される。さらに、文S3「メールを小さな文字で別な画面に表示する」からは、依存構造木DT−S3(図19(a))が構築され、最終的に依存構造木DT−S3R(図19(b))が生成される。
依存構造木DT−S1R(図18(a))、依存構造木DT−S2R(図18(b))、依存構造木DT−S3R(図19(b))を比較すると、これらの依存構造木は、いずれも節点「G1」を含む。これは、同義表現識別手段22、同義表現節点生成手段23および節点置換手段24の処理により、文S1で使われている表現EX1、文S2で使われている表現EX2および文S3で使われている表現EX3の差異が吸収され、いずれも、依存構造木中で単一の節点「G1」として表されるようになったことを示している。
また、文S4「撮影した画像をメールで2人に送る」からは、依存構造木DT−S4(図20(a))が構築され、最終的に依存構造木DT−S4R(図20(b))が生成される。文S5「メールにカメラで撮影した画像を添付する」からは、依存構造木DT−S5(図21(a))が構築され、最終的に依存構造木DT−S5R(図21(b))が生成される。
依存構造木DT−S4R(図20(b))と依存構造木DT−S5R(図21(b))を比較すると、これらの依存構造木は、いずれも節点「G2」を含む。これは、同義表現識別手段22、同義表現節点生成手段23および節点置換手段24の処理により、文S4で使われている表現EX4および文S5で使われている表現EX5の差異が吸収され、いずれも、依存構造木中で単一の節点「G2」として表されるようになったことを示している。
言語解析手段21、同義表現識別手段22、同義表現節点生成手段23および節点置換手段24が処理を繰り返し、テキスト集合記憶部32中の各テキスト中の文すべてに対して依存構造木を生成すると、特徴部分木抽出手段25が、生成された全依存構造木を対象として特徴的な部分木を抽出する。
ここでは、節点置換後の全依存構造木中で、50回以上出現する部分木を特徴的な部分木として抽出するものとする。この場合、例えば、特徴部分木抽出手段25は、依存構造木中に含まれる部分木を全種類列挙して、それぞれの出現回数をカウントし、出現回数が50回以上の部分木を抽出することができる。
特徴的な部分木の抽出が終了すると、抽出結果出力手段26が、抽出結果を順に出力する。このとき、言語解析手段21によって構築された依存構造木にはじめから存在していた節点についてはそのまま出力し、同義表現節点生成手段23によって生成された節点については、ラベルを、対応する同義表現グループに応じた表現に置換して出力する。
この動作例では、対応する同義表現グループ中の最初の表現を用いて、同義表現節点生成手段23によって生成された節点のラベルを置換するものとする。
抽出結果には、図22(a)に示す依存構造木DT−R1が含まれていたとし、抽出結果出力手段26が、この依存構造木DT−R1を出力する例を説明する。
依存構造木DT−R1において、節点「メール」は、言語解析手段21によって構築された依存構造木にはじめから存在していた節点であるが、節点「G1」は、同義表現節点生成手段23によって生成された節点である。同義表現グループG1(図6参照)中の最初の表現は、表現EX1「表示する文字を小さくする」であるため、節点「G1」のラベルは、この表現EX1によって置換され、図22(b)のように結果が出力される。
文S1中の表現EX1に対応する部分、文S2中の表現EX3に対応する部分、および、文S3中の表現EX2に対応する部分がいずれも同一の節点「G1」によって表され、同一視された状態で特徴的な部分木の抽出が行われる。また、文S4中の表現EX4に対応する部分、および、文S5中の表現EX5に対応する部分がいずれも同一の節点「G2」によって表され、これらも同一視された状態で特徴的な部分木の抽出が行われる。また、追加された節点のラベルは、出力時に、それぞれの節点によって同一視された表現に対応する適当な表現に置換されるため、表現の同一視が行われた場合でも、利用者は容易に結果を理解できる。
また、これらの節点「G1」「G2」は、文節に属する自立語を終止形に直したしたものをラベルとする元の依存構造木中の節点とは異なるものであるため、元の依存構造木中の節点と区別することができ、本来特徴的ではない部分木が誤って抽出されることはない。
このように、テキストマイニング装置10は、特徴構造を抽出する前に節点置換手段24が対象文依存構造木の一致部分木を同義表現節点生成手段22が生成した同義表現節点に置換するため、特徴部分木抽出手段25は、同義表現を同一視して特徴的な部分木の抽出を行うことができる。
なお、置換後の構造も木構造であり、なおかつ、置換によって節点が増加することがないため、特徴的な部分木の抽出にかかるコストが、置換前と比べて増加することはない。
また、対象文依存構造木において、同義の表現に対応する部分の構造を統一する際に、別の依存構造木に変換するのではなく、同義表現節点という単一の節点に置換するため、依存構造木間の変換規則を記述することなく同義表現を同一視することができる。また、対応する依存構造木間の変換を行うことが不可能な同義表現を同一視することも可能である。
さらに、節点置換手段によって追加される同義表現節点は、既存の節点とは異なる特殊な節点であるため、既存の節点のみからなる部分木の抽出には影響を及ぼさない。この結果、同義表現を統一することによる副作用を低く抑えることができる。
次に、図を参照しながら本発明の第2の実施形態であるテキストマイニング装置11の構成と動作について説明する。テキストマイニング装置11は、多くの要素がテキストマイニング装置10と共通するので、共通する要素には同一の符号を付して説明を省略する。
(テキストマイニング装置11の構成)
図9は、テキストマイニング装置11の概略機能ブロック図である。
テキストマイニング装置11は、データ処理装置29の構成が、図5のテキストマイニング装置10のデータ処理装置20と異なっている。データ処理装置29は、図5の節点置換手段24と特徴部分木抽出手段25に代わり、束構成手段(節点追加手段および排他関係枝追加手段)27と束用特徴部分木抽出手段(特徴部分木抽出手段)28を有している。
束構成手段27は、対象文依存構造木に一致部分木が含まれているとき、同義表現節点を追加する。束構成手段27は、さらに、一致部分木に含まれる全節点を同義表現節点によって置換した場合と同等の枝を依存構造木に追加する。
すなわち、一致部分木について、一致部分木に含まれる節点を始点とし一致部分木に含まれない節点を終点とする枝が、元の依存構造木中に存在するならば、同義表現節点からその終点への枝を依存構造木に追加する。また、一致部分木に含まれない節点を始点とし、一致部分木に含まれる節点を終点とする枝が、元の依存構造木中に存在するならば、その始点から同義表現節点への枝を依存構造木に追加する。
束構成手段27は、このとき、一致部分木に含まれる各節点と同義表現節点とを互いに排他関係枝で結び排他関係にある節点として関連づけておく。
なお、束構成手段27の処理により、依存構造木は、木構造から束構造へと変換される。以降、変換後の構造を依存構造束と呼ぶ。
束構成手段27による処理の例を図10に示す。これは、文S1「メールを表示する文字をできるだけ小さくする方法をWEBで調べた」に対応する依存構造木DT−S1(図2)において、表現EX1「表示する文字を小さくする」に対応する依存構造木DT−EX1が部分木として含まれている箇所(図10のPT1)に対応づけて節点「G1」が生成されているときに、枝を追加する場合の例である。
この例では、PT1に含まれる節点「する」を始点としPT1の外側の節点「方法」を終点とする枝BR6が存在するため、節点「G1」から節点「方法」への枝BR7が追加される。
また、PT1の外側の節点「メール」を始点とし内側の節点「表示する」を終点とする枝BR4およびPT1の外側の節点「できるだけ」を始点とし内側の節点「小さい」を終点とする枝BR5が存在するため、節点「メール」および節点「できるだけ」から節点「G1」への枝BR8および枝BR9が追加される。
また、PT1内の4つの節点「表示する」「文字」「小さい」「する」と、節点「G1」とが互いに排他関係枝BR10ないしBR13で結ばれ排他関係にある節点として関連づけられる。図10では、点線によって排他関係が示されている。
ここで、互いに排他関係にある節点とは、その両方が同時に出現していると解釈することができない節点を意味する。同義表現節点生成手段23によって、一致部分木に対して生成された同義表現節点は、その部分木全体をひとまとめにして、同義表現辞書中の表現が出現していると解釈したことに相当する節点である。
一方、一致部分木中の各節点は、その表現を構成する構成要素が個別に出現していると解釈したことに相当する節点である。
したがって、両方が同時に出現していると解釈することはできないため、束構成手段27は、両者を互いに排他関係にある節点として関連づける。
なお、一致部分木に含まれる節点と排他関係にある同義表現節点がすでに存在していた場合には、その同義表現節点も、新たに生成された同義表現節点と互いに排他関係にある節点として関連づける。その両者が表す表現は、構成要素として同一の節点を持っており、両方が同時に出現していると解釈することはできないためである。
束用特徴部分木抽出手段28は、言語解析手段21によって構築された依存構造木および束構成手段27によって構成された依存構造束から特徴的な部分木を抽出する。依存構造木から依存構造束が構成されている場合、元の依存構造木は特徴的な部分木の抽出に使用しない。また、互いに排他関係にある複数の節点を含む部分木は抽出しない。
例えば、図11に示す依存構造束DL−S1において、節点「表示する」と節点「文字」と節点「小さい」と節点「する」がそれぞれ排他関係枝で節点G1と接続されている場合、図12に示す依存構造木PT2は、排他関係にある節点「する」および節点「G1」が含まれるため、束用特徴部分木抽出手段18は、これを抽出しない。
本実施の形態においても、ある部分木が特徴的かどうかの判定は、一般的なデータマイニングの手法を用いることができる。例えば、全依存構造木中で予め定める閾値以上の回数出現する部分木を特徴的な部分木として抽出することができる。また、対応する依存構造木中に、ある部分木が出現する文が1つ以上存在するテキストが、予め定める閾値以上の個数存在する場合に、その部分木を特徴的な部分木として抽出することも可能である。このほか、テキストが予め定める集合に属するか否かと、そのテキスト中の各文に対応する依存構造木中に部分木が出現するか否かに、予め定める閾値以上の相関性がある部分木を、特徴的な部分木として抽出するようにしてもよい。
本実施の形態においても、第1の実施の形態と同様に、特徴的かどうかを判定する基準(例えば、出現回数の閾値や、相関性を求める対象となるテキストの集合、相関性の閾値等)は、入力装置1を通して利用者が入力するようにしてもよい。また、特徴的かどうかを判定する方法を複数用意し、利用者が選択できるようにしてもよい。このほか、利用者が、抽出する部分木の条件や、部分木を抽出するテキストの条件を指定できるようにしてもよい。
次に、テキストマイニング装置11の動作について詳細に説明する。
図13は、テキストマイニング装置11の動作を示すフローチャートである。ステップA1ないしステップA6の動作は、テキストマイニング装置10と同様である。
ステップB1では、束構成手段27が、ステップA3において構築された対象文依存構造木に、同義表現依存構造木に対応する一致部分木が含まれているとき、対象文依存構造木の節点と、ステップA6において生成された同義表現節点との間に枝を追加し、依存構造束を構成する。すなわち、一致部分木に含まれる節点を始点とし一致部分木に含まれない節点を終点とする枝が元の依存構造木中に存在していた場合に、同義表現節点からその終点への枝を追加し、また、一致部分木に含まれない節点を始点とし一致部分木に含まれる節点を終点とする枝が元の依存構造木中に存在していた場合に、その始点から同義表現節点への枝を追加する。
ステップB2では、束構成手段27が、一致部分木に含まれる各節点と同義表現節点とを互いに排他関係にある節点として関連づける。
ステップB3では、束用特徴部分木抽出手段28が、各文に対応する依存構造木もしくは依存構造束から特徴的な部分木を抽出する。ただし、互いに排他関係にある複数の節点を含む部分木は抽出しない。
次に、テキストマイニング装置11の具体的な動作例について説明する。
本実施例も、テキストマイニング装置10の動作例と同様に、依存構造木として文節を節点とし文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする木構造を採用する。
また、同義表現辞書記憶部31には、図23に示す内容が予め記憶されている。
また、テキスト集合記憶部32には、図15に示す内容のテキストマイニングの対象となるテキストが予め記憶されている。
本実施例においても、テキストマイニング装置10の場合と同様に、まず、言語解析手段21が、同義表現辞書記憶部31中の各表現を解析し、同義表現依存構造木を構築する。
この処理により、表現EX1から依存構造木DT−EX1(図1(a))が、表現EX2から依存構造木DT−EX2(図1(b))が、表現EX3から依存構造木DT−EX3(図4(a))が、表現EX6から依存構造木DT−EX6(図24(a))が、そして、表現EX7から依存構造木DT−EX7(図24(b))が構築される。
続いて、言語解析手段21が、テキスト集合記憶部32中のテキストに含まれる各文を解析して対象文依存構造木を構築し、同義表現識別手段22が、同義表現辞書中の表現に対応する一致部分木が対象文依存構造木に含まれているかどうかを識別し、同義表現節点生成手段23が、一致部分木と対応付けて同義表現節点を生成する。
ここでは、まず、テキスト中の文S1「メールを表示する文字をできるだけ小さくする方法をWEBで調べた」に対する処理を例として説明する。
まず、言語解析手段21により依存構造木DT−S1(図2)が構築さる。続いて、同義表現識別手段22によって、各依存構造木DT−EX1(図1(a))、DT−EX2(図1(b))、DT−EX3(図4(a))、DT−EX6(図24(a))、および、DT−EX7(図24(b))が、この依存構造木DT−S1と順に照合される。
この結果、依存構造木DT−EX1(図1(a))がこの依存構造木DT−S1中に部分木として含まれていることが識別され(図3)、同義表現節点生成手段23によって、その部分に対応づけて新たに同義表現節点「G1」が生成される(図17)。ここまでは、第1の実施例と同じ処理が行われる。
次に、束構成手段27が同義表現節点「G1」と、元の依存構造木DT−S1中の節点との間に枝を追加し、依存構造束を構成する(図10)。このとき、依存構造木DT−EX1に適合する一致部分木PT1に着目し、部分木PT1内の節点を始点とし部分木PT1外の節点を終点とする枝が、依存構造木DT−S1中に存在する場合に、節点「G1」からその終点への枝を追加し、部分木PT1外の節点を始点とし部分木PT2内の節点を終点とする枝が、依存構造木中DT−S1中に存在していた場合に、その始点から節点「G1」への枝を追加する。
図10において、左側の依存構造木DT−EX2に適合する部分木PT1の内側の節点「する」を始点とし、外側の節点「方法」を終点とする枝BR6が存在するため、節点「G1」から節点「方法」へのBR7枝が追加される。また、部分木PT1の外側の節点「メール」を始点とし、内側の節点「表示する」を終点とする枝BR4、および、部分木PT1の外側の節点「できるだけ」を始点とし、内側の節点「小さい」を終点とする枝BR5が存在するため、束構成手段27によって、節点「メール」および節点「できるだけ」から節点「G1」への枝BR8およびBR9が追加され、依存構造束DL−S1(図11)が構成される。
束構成手段27は、さらに、依存構造木DT−EX1に適合する部分木に含まれる各節点と、節点「G1」とを互いに排他関係にある節点として関連づける。この結果、図17において点線部分の内側に存在していた4つの節点「する」「小さい」「文字」「表示する」と、節点「G1」とが互いに排他関係にある節点として関連づけられる。図11では、点線によって排他関係が示されている。
このようにして構成された依存構造束DL−S1(図11)に対して、同義表現識別手段22による同義表現辞書中の表現に対応する依存構造木との照合が続けられるが、他に含まれている依存構造木は存在しないため、最終的にこの依存構造束DL−S1が、束用特徴部分木抽出手段28が特徴的な部分木を抽出する対象となる。
次に、文S3「メールを表示する文字をできるだけ小さくする方法をWEBで調べた」を含むテキストがテキスト集合記憶部32中に存在したとし、この文S3に対する処理を説明する。
まず、言語解析手段21により依存構造木DT−S3(図19(a))が構築される。続いて、同義表現識別手段22によって、各依存構造木DT−EX1(図1(a))、DT−EX2(図1(b))、DT−EX3(図4(a))、DT−EX6(図24(a))、および、DT−EX7(図24(b))が、この依存構造木DT−S3と順に照合される。
この結果、依存構造木DT−EX2(図1(b))がこの依存構造木DT−S3中に部分木PT3として含まれていることが識別され、同義表現節点生成手段23によって、その部分に対応づけて新しい節点「G1」が生成される(図25(a))。
次に、束構成手段27が同義表現節点「G1」と、元の依存構造木DT−S3中の節点との間に枝を追加し、依存構造束を構成する。このとき、依存構造木DT−EX2に適合する一致部分木PT3に着目し、部分木PT3内の節点を始点とし部分木PT3外の節点を終点とする枝が依存構造木中DT−S3に存在する場合に、節点「G1」からその終点への枝を追加し、部分木PT3外の節点を始点とし部分木PT3内の節点を終点とする枝が依存構造木中DT−S3中に存在していた場合に、その始点から節点「G1」への枝を追加する。
図25(a)において、依存構造木DT−EX2に適合する部分木PT3の外側の節点「メール」を始点とし、内側の節点「表示する」を終点とする枝BR14、および、部分木PT3の外側の節点「画面」を始点とし、内側の節点「表示する」を終点とする枝BR15が存在するため、束構成手段27によって、節点「メール」および節点「画面」から節点「G1」への枝BR16およびBR17が追加され、依存構造束DL−S3A(図25(b))が構成される。
束構成手段27は、さらに、部分木PT3に含まれる各節点と、節点「G1」とを互いに排他関係にある節点として関連づける。この結果、図25(a)において部分木PT3の内側に存在していた3つの節点「表示する」「文字」「小さな」と、節点「G1」とが互いに排他関係枝BR18、BR19、BR20により結ばれ排他関係にある節点として関連づけられる。
このようにして構成された依存構造束DL−S3A(図25(b))に対して、同義表現識別手段22による、同義表現辞書中の表現に対応する依存構造木との照合が続けられ、表現EX6に対応する依存構造木DT−EX6(図24(a))がこの依存構造束DL−S3A(図25(b))中に部分木PT4として存在することが識別される。表現EX6は、同義表現グループG3に属するため、同義表現節点生成手段23は、その部分に対応づけて新しい節点「G3」を生成する(図26)。
束構成手段27は、依存構造木中DT−S3中の節点と節点「G1」との間に枝を追加したときと同様の処理により、依存構造木中DL−S3A中の節点と節点「G3」との間に枝を追加する。図26によると、依存構造木DT−EX6に適合する部分木PT4の外側の節点「メール」を始点とし内側の節点「表示する」を終点とする枝BR21および部分木PT4の外側の節点「文字」を始点とし内側の節点「表示する」を終点とする枝BR22が存在するため、束構成手段27によって、節点「メール」および節点「文字」から節点「G3」への枝BR23およびBR24が追加され、依存構造束DL−S3B(図27)が構成される。
束構成手段27は、さらに、依存構造木DT−EX6に適合する部分木に含まれる各節点と節点「G3」とを互いに排他関係にある節点として関連づける。この結果、図26において部分木PT4の内側に存在していた3つの節点「表示する」「画面」「別」と、節点「G3」とが互いに排他関係にある節点として関連づけられ、排他関係枝BR25、BR26、BR27でそれぞれ接続される。
このとき、部分木PT4に含まれ節点のうち、節点「表示する」に対して互いに排他関係にある節点として節点「G1」がすでに関連づけられているため、節点「G1」と節点「G3」も互いに排他関係にある節点として関連づけられ排他関係枝BR28で接続される。
本実施例では、依存構造木DT−S3(図19(a))において、節点「小さな」、節点「文字」および節点「表示する」からなる部分木が依存構造木DT−EX2に適合すると識別されると同時に、節点「別」、節点「画面」および節点「表示する」からなる部分木が依存構造木DT−EX6に適合すると識別される。本実施例では、同義表現節点生成手段23によって生成された節点によって元の依存構造木の節点を置き換えてしまうことがないため、このように、単一の節点「表示する」を表現EX2の一部としても、表現EX6の一部としてもとらえることができている。
こうして構成された依存構造束DL−S3B(図27)に対して、同義表現識別手段22による同義表現辞書中の表現に対応する依存構造木との照合が続けられるが、他に含まれている依存構造木は存在しないため、最終的にこの依存構造束DL−S3Bが、束用特徴部分木抽出手段28が特徴的な部分木を抽出する対象となる。
このようにして、同義表現識別手段22、同義表現節点生成手段23および束構成手段27の処理により、表現EX1、表現EX2および表現EX3が使われている箇所に対して節点「G1」が新たに依存構造木中に追加される。表現EX1、表現EX2および表現EX3は、いずれも単一の節点「G1」として表され、それらの差異が吸収される。同様に、表現EX6および表現EX7も単一の節点「G3」として表され、それらの差異が吸収される。
言語解析手段21、同義表現識別手段22、同義表現節点生成手段23および束構成手段27が処理を繰り返し、テキスト集合記憶部32中の各テキスト中の文すべてに対して依存構造木または依存構造束を生成すると、束用特徴部分木抽出手段28が、生成された依存構造木または依存構造束を対象として特徴的な部分木を抽出する。このとき、依存構造木から依存構造束が構成されている場合、元の依存構造木は特徴的な部分木の抽出に使用しない。また、互いに排他関係にある複数の節点を含む部分木は抽出しない。
ここでは、特徴的な部分木を抽出する対象となる依存構造木および依存構造束中で計50回以上出現する部分木を特徴的な部分木として抽出するものとする。この場合、例えば、依存構造木および依存構造束中に含まれる部分木を全種類列挙して、それぞれの出現回数をカウントし、出現回数が50回以上の部分木を抽出することができる。
抽出結果出力手段26が、このようにして抽出された部分木を順に出力する。このとき、言語解析手段21によって構築された依存構造木にはじめから存在していた節点についてはそのまま出力し、同義表現節点生成手段23によって生成された節点については、対応する同義表現グループに応じた表現にラベルを置換して出力する。
テキストマイニング装置10の場合と同様に、対応する同義表現グループ中の最初の表現を用いてラベルを置換するものとすると、例えば、図28(a)に示す依存構造木DT−R2のような抽出結果は、節点「G3」のラベルが同義表現グループG3(図23参照)の最初の表現である表現EX6「別の画面に表示する」によって置換され図28(b)のように結果が出力される。
本実施例においても、テキストマイニング装置10の場合のように、同義表現辞書中で同一の同義表現グループに属する表現に対応する部分がいずれも同一の節点で表され、これらが同一視された状態で特徴的な部分木の抽出が行われる。また、追加された節点のラベルは、出力時に、それぞれの節点によって同一視された表現に対応する適当な表現に置換されるため、表現の同一視が行われた場合でも、利用者が容易に結果を理解できる。
第1の実施例と同様に、追加される節点「G1」「G3」は、元の依存構造木中の節点とは異なるため、誤って特徴的と見なされることはない。
また、表現を同一視する際に、その表現に対応する依存構造木に相当する部分を削除することがないため、その部分からも特徴的な部分木が抽出されうる。例えば、図11の依存構造束DL−S1において、表現EX1に対応する依存構造木DT−EX1(図1(a))に含まれる4つの節点「する」「小さい」「文字」「表示する」はそのまま残っており、その部分も特徴的な部分木を抽出する対象となっている。
さらに、互いに排他関係にある節点を含む部分木を抽出しないため、統一する前の構造と統一した後の構造の両方を残しておいても、その両方を含むような抽出結果として意味をなさない部分木を抽出することがない。例えば、図11の依存構造束DL−S1において、節点「する」と節点「G1」とは互いに排他関係にあるため、図12に示すような抽出結果として意味をなさない部分木は抽出されない。
このように、テキストマイニング装置11では、対象文依存構造木において、同義の表現に対応する部分の構造を統一する際、束構成手段27は、一致部分木を同義表現節点で置換する代わりに、対象文依存構造木に同義表現節点を追加して束構造を生成し、構造の統一により既存の節点が削除されることを防ぐ。
このため、同義の表現に対応する部分の木構造が失われることがなくなり、束用特徴部分木抽出手段28は、その部分からも特徴的な部分木を抽出することができる。
また、同義の表現に対応する部分の構造を統一する際、束構成手段27は、同義表現節点と一致部分木内の各節点とを排他関係枝で結び排他関係にある節点として関連づけておく。そして、束用特徴部分木抽出手段28は、特徴的な部分木の抽出を行う際に、互いに排他関係にある節点を含む部分木を抽出しない。
このため、統一する前の構造と統一した後の構造の両方を残しておいても、その両方を含むような、抽出結果として意味をなさない部分木を抽出することがない。
このように、本実施の形態によれば、第1の実施の形態の効果に加え、同義表現を統一することによる副作用をさらに低く抑えることができるという効果が得られる。
上記に説明したテキストマイニング装置10およびテキストマイニング装置11は、コンピュータとそれを動作させるプログラムによっても実現することができる。
図14は、このような実施形態を説明する図である。
コンピュータ40は、記憶装置30と出力装置4と入力装置1とCPU(Central Processing Unit)41と主記憶装置42を備えている。記憶装置1は、例えばハードディスク装置で、同義表現辞書を記憶する同義表現辞書記憶部31とマイニングの対象となるテキスト集合を記憶するテキスト集合記憶部32を備えている。主記憶装置42は、たとえばRAM(Random Access Memory)により構成され、テキストマイニング用プログラム43を記憶している。
主記憶装置42に格納されたテキストマイニング用プログラム43は、CPU41に読み込まれ実行される。
ここで、テキストマイニング用プログラム43は、コンピュータに、上記に説明した各動作を実行させるプログラムである。
このようにすれば、CPU41を言語解析手段21、同義表現識別手段22、同義表現節点生成手段23、節点置換手段24、特徴部分木抽出手段25、抽出結果出力手段26として機能するデータ処理装置20として動作させ、コンピュータ40をテキストマイニング装置10として動作させることができる。
同様に、CPU41を言語解析手段21、同義表現識別手段22、同義表現節点生成手段23、束構成手段27、束用特徴部分木抽出手段28、抽出結果出力手段26として機能するデータ処理装置29として動作させ、コンピュータ40をテキストマイニング装置11として動作させることができる。
図1(a)は、表現「表示する文字を小さくする」に対応する依存構造木を示す図である。図1(b)は、表現「小さな文字で表示する」に対応する依存構造木を示す図である。 文「メールを表示する文字を小さくする方法をWEBで調べた」に対応する依存構造木を示す図である。 図2の依存構造木において図1(a)の依存構造木に適合する部分を示す図である。 図4(a)は、表現「表示する行数を増やす」対応する依存構造木を示す図である。図4(b)は、表現「メールを表示する行数を2倍に増やす」に対応する依存構造木を示す図である。 本発明の第1の実施の形態であるテキストマイニング装置の構成を示すブロック図である。 同義表現辞書の一例を示す図である。 節点置換手段が依存構造木に対して節点の置換を行う例を示す図である。 テキストマイニング装置の動作を示す流れ図である。 本発明の第2の実施の形態であるテキストマイニング装置の構成を示すブロック図である。 束構成手段が依存構造木に対して枝の追加を行う例を示す図である。 束構成手段が依存構造木に対して枝の追加を行うことによって生成された依存構造束を示す図である。 図11の依存構造束からは抽出されない部分木の例を示す図である。 図9のテキストマイニング装置の動作を示す流れ図である。 コンピュータとコンピュータプログラムによる本発明の実施形態を示す図である。 テキスト集合の一例を示す図である。 図16(a)は、表現「画像をメールで送る」対応する依存構造木を示す図である。図16(b)は、表現「メールに画像を添付する」に対応する依存構造木を示す図である。 同義表現節点生成手段が図2の依存構造木に対して新たに節点を生成する例を示す図である。 図18(a)は、節点置換手段が図2依存構造木に対して節点の置換を行うことによって生成された依存構造木を示す図である。図18(b)は、節点置換手段が図4(b)の依存構造木に対して節点の置換を行うことによって生成された依存構造木を示す図である。 図19(a)は、文「メールを小さな文字で別な画面に表示する」に対応する依存構造木を示す図である。図19(b)は、図19(a)の依存構造木に対して節点置換を行った後の依存構造木を示す図である。 図20(a)は、文「撮影した画像をメールで2人に送る」に対応する依存構造木を示す図である。図20(b)は、図20(a)の依存構造木に対して節点置換を行った後の依存構造木示す図である。 図21(a)は、文「メールにカメラで撮影した画像を添付する」に対応する依存構造木を示す図である。図21(b)は、図21(a)の依存構造木に対して節点置換を行った後の依存構造木を示す図である。 図22(a)は、抽出結果の依存構造木の例を示す図である。図22(b)は、抽出結果の出力例示す図である。 同義表現辞書の別の一例を示す図である。 図24(a)は、表現「別の画面に表示する」に対応する依存構造木を示す図である。図24(b)は、表現「表示する画面を分ける」に対応する依存構造木を示す図である。 図25(a)は、図19(a)の依存構造木に対して同義表現節点を生成する例を示す図である。図25(b)は、図25(a)の依存構造木から依存構造束を生成する例を示す図である。 束構成手段が図19の依存構造木に対して枝の追加を行うことによって生成された依存構造束を示す図である。 束構成手段が図26の依存構造木に対して枝の追加を行うことによって生成された依存構造束を示す図である。 図28(a)は、抽出結果の依存構造木の例を示す図である。図28(b)は、抽出結果の出力例示す図である。
符号の説明
10、11:テキストマイニング装置
21:言語解析手段
22:同義表現識別手段
23:同義表現節点生成手段
24:節点置換手段
25:特徴部分木抽出手段
26:抽出結果出力手段
27:束構成手段
28:束用特徴部分木抽出手段
31:同義表現辞書記憶部

Claims (15)

  1. 同義内容で異なった表現を同義表現グループとして定義する同義表現辞書を記憶する同義表現辞書記憶手段と、
    テキストマイニングの対象となる文集合に含まれる各文の依存構造木である対象文依存構造木と前記同義表現辞書に含まれる各表現の依存構造木である同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別手段と、
    前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成手段と、
    前記一致部分木に含まれる全節点を前記同義表現節点で置換する節点置換手段と、
    前記置換がされた後の対象文依存構造木から特徴部分木を抽出する特徴部分木抽出手段とを備えたテキストマイニング装置。
  2. 同義内容で異なった表現を同義表現グループとして定義する同義表現辞書を記憶する同義表現辞書記憶手段と、
    テキストマイニングの対象となる文集合に含まれる各文の依存構造木である対象文依存構造木と前記同義表現辞書に含まれる各表現の依存構造木である同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別手段と、
    前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成手段と、
    前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する節点追加手段と、
    前記依存構造束から特徴部分木を抽出する特徴部分木抽出手段とを備えたテキストマイニング装置。
  3. 前記同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する排他関係枝接続手段を備え、
    前記特徴部分木抽出手段は、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とする請求項2に記載のテキストマイニング装置。
  4. 前記特徴部分木に含まれる前記同義表現部節点のラベルを、このラベルが示す前記同義表現グループに属する表現を代表する出力用表現に置き換え、前記特徴部分木の形状を人間が視認可能な形で出力する抽出結果出力手段を有することを特徴とする請求項1ないし3のいずれか一つに記載のテキストマイニング装置。
  5. 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で最初に列挙されている表現であることを特徴とする請求項4に記載のテキストマイニング装置。
  6. 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で最も長さが短い表現であることを特徴とする請求項4に記載のテキストマイニング装置。
  7. 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で前記テキストマイニングの対象となる文集合中に最も多く出現した表現であることを特徴とする請求項4に記載のテキストマイニング装置。
  8. 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で出力用表現として用いるものとして予め指定されている表現であることを特徴とする請求項4に記載のテキストマイニング装置。
  9. 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループに対応して
    この同義表現グループに含まれる表現とは別に予め定義されている表現であることを特徴とする請求項4に記載のテキストマイニング装置。
  10. テキストデータベースに含まれる文章を解析して対象文依存構造木を生成し、この対象文依存構造木から特徴部分木を抽出するテキストマイニング方法において、
    同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する言語解析ステップと、
    前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別ステップと、
    前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成ステップと、
    前記一致部分木に含まれる全節点を前記同義表現節点で置換する節点置換ステップと、
    前記置換がされた後の対象文依存構造木から特徴部分木を抽出する特徴部分木抽出ステップとを備えたことを特徴としたテキストマイニング方法。
  11. テキストデータベースに含まれる文章を解析して対象文依存構造木を生成し、この対象文依存構造木から特徴部分木を抽出するテキストマイニング方法において、
    同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する言語解析ステップと、
    前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別ステップと、
    前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成ステップと、
    前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する節点追加ステップと、
    前記依存構造束から特徴部分木を抽出する特徴部分木抽出ステップとを備えたことを特徴としたテキストマイニング方法。
  12. 前記節点追加ステップで前記対象文依存構造木に同義表現節点が追加された後、この同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する排他関係枝接続ステップを備え、
    前記特徴部分木抽出ステップでは、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とした請求項11に記載のテキストマイニング方法。
  13. テキストデータベースに含まれる文章を解析して対象文依存構造木を生成する機能と、この対象文依存構造木から特徴部分木を抽出する機能をコンピュータに実行させるテキストマイニングプログラムにおいて、
    前記コンピュータに、
    同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する機能と、
    前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する機能と、
    前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、
    前記一致部分木に含まれる全節点を前記同義表現節点で置換する機能と、
    前記置換がされた後の対象文依存構造木から特徴部分木を抽出する機能とを実行させることを特徴としたテキストマイニングプログラム。
  14. テキストデータベースに含まれる文章を解析して対象文依存構造木を生成する機能と、この対象文依存構造木から特徴部分構造を抽出する機能をコンピュータに実行させるテキストマイニングプログラムにおいて、
    前記コンピュータに、
    同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する機能と、
    前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する機能と、
    前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、
    前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する機能と、
    前記依存構造束から特徴部分木を抽出する機能とを実行させることを特徴としたテキストマイニングプログラム。
  15. 前記対象文依存構造木に同義表現節点が追加された後、この同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する機能をコンピュータに実行させ、
    前記特徴部分木を抽出する際は、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とした請求項14に記載のテキストマイニングプログラム。
JP2005223971A 2005-08-02 2005-08-02 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム Active JP4815934B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005223971A JP4815934B2 (ja) 2005-08-02 2005-08-02 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005223971A JP4815934B2 (ja) 2005-08-02 2005-08-02 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Publications (2)

Publication Number Publication Date
JP2007041767A true JP2007041767A (ja) 2007-02-15
JP4815934B2 JP4815934B2 (ja) 2011-11-16

Family

ID=37799700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005223971A Active JP4815934B2 (ja) 2005-08-02 2005-08-02 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム

Country Status (1)

Country Link
JP (1) JP4815934B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250388A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JP2009157845A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報検索装置
JP2011118550A (ja) * 2009-12-01 2011-06-16 Fuji Xerox Co Ltd プログラム及び情報処理システム
JP2011123626A (ja) * 2009-12-09 2011-06-23 Fuji Xerox Co Ltd プログラム及び情報抽出装置
JP2011123619A (ja) * 2009-12-09 2011-06-23 Fuji Xerox Co Ltd プログラム及び情報抽出装置
WO2013161397A1 (ja) * 2012-04-27 2013-10-31 楽天株式会社 集計装置、集計プログラム、記録媒体、及び集計方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5484643B1 (ja) 2013-03-29 2014-05-07 楽天株式会社 データキャッシュシステム、プログラム、記録媒体、及び方法
CN104462360B (zh) * 2014-12-05 2020-02-18 北京奇虎科技有限公司 一种为文本集合生成语义标识的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014990A (ja) * 2000-06-28 2002-01-18 Communication Research Laboratory 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体
JP2003167898A (ja) * 2001-12-04 2003-06-13 Tokyo Soft Kk 情報検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014990A (ja) * 2000-06-28 2002-01-18 Communication Research Laboratory 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体
JP2003167898A (ja) * 2001-12-04 2003-06-13 Tokyo Soft Kk 情報検索システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250388A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JP2009157845A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報検索装置
JP2011118550A (ja) * 2009-12-01 2011-06-16 Fuji Xerox Co Ltd プログラム及び情報処理システム
JP2011123626A (ja) * 2009-12-09 2011-06-23 Fuji Xerox Co Ltd プログラム及び情報抽出装置
JP2011123619A (ja) * 2009-12-09 2011-06-23 Fuji Xerox Co Ltd プログラム及び情報抽出装置
WO2013161397A1 (ja) * 2012-04-27 2013-10-31 楽天株式会社 集計装置、集計プログラム、記録媒体、及び集計方法
JP2013232111A (ja) * 2012-04-27 2013-11-14 Rakuten Inc 集計装置、集計プログラム、集計プログラムを記録したコンピュータ読み取り可能な記録媒体、及び集計方法
EP2849094A4 (en) * 2012-04-27 2015-12-30 Rakuten Inc COUNTER, COUNTER PROGRAM, STORAGE MEDIUM AND COUNTER METHOD

Also Published As

Publication number Publication date
JP4815934B2 (ja) 2011-11-16

Similar Documents

Publication Publication Date Title
JP4815934B2 (ja) テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
Carley et al. AutoMap User's Guide 2013
US10839155B2 (en) Text analysis of morphemes by syntax dependency relationship with determination rules
JP4862072B2 (ja) 設計チェック知識構築方法及びシステム
US20190243842A1 (en) Information extraction method and system
US9811449B2 (en) Test scenario generation support device and test scenario generation support method
WO2019208507A1 (ja) 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
CN108549694B (zh) 一种文本中时间信息的处理方法
JP2003208307A (ja) ソースプログラム生成システム
US7900136B2 (en) Structured document processing apparatus and structured document processing method, and program
JP2009015395A (ja) 辞書構築支援装置および辞書構築支援プログラム
JP3724878B2 (ja) キーワード抽出ルール生成方法
JP6022815B2 (ja) 構文解析を用いたソースコードの差分抽出方法およびシステム
CN113177391B (zh) 在流式界面中操作光标重定向方法、计算设备及存储介质
JP5150657B2 (ja) マニュアル修正箇所提示装置、システム、方法およびプログラム
JP4519081B2 (ja) ドキュメント変換装置、およびプログラム
JP4646328B2 (ja) 関係情報抽出装置及びその方法
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
CN103678607A (zh) 一种情感标注系统的构建方法
JPH07210556A (ja) 自然言語処理装置及び自然言語処理方法
KR101905675B1 (ko) 모듈의 구조 해석을 지원하는 장치 및 프로그램
JP6677158B2 (ja) 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム
JP7083473B2 (ja) 入力支援装置
JP5400344B2 (ja) ドキュメント変換装置、およびプログラム
CN103324653B (zh) 要点抽出装置以及要点抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4815934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150