JP2007041767A - テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム - Google Patents
テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム Download PDFInfo
- Publication number
- JP2007041767A JP2007041767A JP2005223971A JP2005223971A JP2007041767A JP 2007041767 A JP2007041767 A JP 2007041767A JP 2005223971 A JP2005223971 A JP 2005223971A JP 2005223971 A JP2005223971 A JP 2005223971A JP 2007041767 A JP2007041767 A JP 2007041767A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- node
- dependency structure
- subtree
- structure tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】テキストマイニング装置10では、言語解析手段21が同義表現辞書に登録されている表現の依存構造木(同義表現依存構造木)とテキストマイニングの対象となる文の依存構造木(対象文依存構造木)を生成する。同義表現識別手段22は、対象文依存構造木の中に同義表現部分木と一致する部分木(一致部分木)が含まれているかどうかを識別する。節点置換手段は24、一致部分木を同義表現が属するグループを示す特別な節点(同義表現節点)で置き換え、特徴部分木抽出手段25は、置き換え後の対象文依存構造木から特徴部分木を抽出する。
【選択図】図7
Description
この特許文献1に記載されたテキストマイニング装置は、テキスト中の各文の構文構造を解析し構文木を構築する言語解析装置と、構文木の中から頻出するパターンを発見するパターン抽出装置とを有し、テキスト中に頻出する単語の構文的なパターンを抽出する。
変換規則では、変数を用いて、変換前の依存構造木と変換後の依存構造木との間で対応する節点の関係を記述する。非特許文献1には、例えば、「N1がN2にVさせられる」という表現に対応する依存構造木を「N2がN1をVする」という同義の表現に対応する別の依存構造木に変換するための変換規則の例が示されている。この例において、N1およびN2は名詞に対応する変数、Vは動詞に対応する変数である。
この結果、同義の意味内容に対応する表現が複数存在する場合、それぞれの表現ごとにそれを抽出するかしないかを判定しなければならず、特徴的な意味内容を抽出し損なうおそれがあった。
なお、ここでは、一例として、文節を節点とし、文節に属する自立語を終止形に直したものを節点のラベルとし、文節間の係り受け関係を枝とする形態の依存構造木の例を示している。以降の例も同様である。
実際、文S2「メールを表示する行数を2倍に増やす」に対応する依存構造木DT−S2(図4(b))において、依存構造木DT−EX3(図4(a))に適合する部分を依存構造木DT−EX1(図1(a))に変換しようとしても、表現EX1「表示する文字を小さくする」において、文S2中の「2倍に」という文節が係る先は存在せず、依存構造木DT−S2中の節点「2倍」を変換後の依存構造木のどの節点にも接合することができない。
このような依存構造木の変換を行う場合、例えば、表現EX1「表示する文字を小さくする」が使われているテキストが21件、表現EX2「小さな文字で表示する」が使われているテキストが18件、このほかに、「表示する画像のサイズを小さくする」のように表現EX1とも表現EX2とも異なるが、「小さくする」を含む表現が使われているテキストが16件存在するものとすると、変換後、節点「小さい」と節点「する」によって構成される部分木は全依存構造木中に合計55件出現することになる。
この結果、例えば、50件以上出現する部分木を抽出するようにマイニングを行う場合、節点「小さい」と節点「する」によって構成される部分木は、本来であれば37件しか出現しないにもかかわらず、特徴的な部分木として抽出されてしまう。
このような依存構造木の変換を行う場合、例えば、表現EX1「表示する文字を小さくする」が使われているテキストが34件、表現EX2「小さな文字で表示する」が使われているテキストが13件、このほかに、「表示する画像のサイズを小さくする」のように、表現EX1とも表現EX2とも異なるが、「小さくする」を含む表現が使われているテキストが19件存在するものとすると、変換後、節点「小さい」と節点「する」によって構成される部分木は全依存構造木中に合計19件しか出現しないことになる。
この結果、例えば、50件以上出現する部分木を抽出するようにマイニングを行う場合、節点「小さい」と節点「する」によって構成される部分木は、本来であれば53件出現していたにもかかわらず、特徴的な部分木としては抽出されなくなってしまう。
節点置換手段は、一致部分木を同義表現が属するグループを示す特別な節点(同義表現節点)で置き換え、特徴部分木抽出手段は、置き換え後の対象文依存構造木から特徴部分木を抽出する(請求項1)。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
節点追加手段は、対象文依存構造木に同義表現節点を追加する。節点追加手段は、同義表現節点から、一致部分木外の節点で一致部分木内の節点からの係り受け枝を有している節点への係り受け枝を追加し、一致部分木外の節点で一致部分木内の節点への係り受け枝を有している節点から、同義表現節点への係り受け枝を追加する。特徴部分木抽出手段は、同義表現節点の追加と係り受け枝の追加がされた後の対象文依存構造木(依存構造束)から特徴部分木を抽出する(請求項2)。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる依存構造束には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。
このようにすれば、出力装置に表示される特徴構造に含まれる同義表現節点のラベルは、使用者にとって意味のわからない記号等ではなく、同義表現グループを表す表現となるので、使用者はラベルの意味を理解できるようになる。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる対象文依存構造木には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。
そのため、コンピュータをテキストマイニング装置として動作させ、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
そのため、コンピュータをテキストマイニング装置として動作させ、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。さらに、特徴部分木の抽出の対象となる対象文依存構造木には、既存の節点はそのまま残されているから、同義表現を統一することによる悪影響を低く抑えることができる。
このようにすれば、一致部分木に含まれる節点と同義表現節点の両方を含むような抽出結果として意味を成さない部分木は特徴部分木として抽出されなくなる。
そのため、依存構造木が異なる同義表現を同一視して特徴的な部分木の抽出を行うことができる。
(テキストマイニング装置10の構成)
図5は、テキストマイニング装置10の概略機能ブロック図である。
テキストマイニング装置10は、キーボード、マウス等の入力装置1と、プログラム制御により動作するデータ処理装置20と、情報を記憶するハードディスク等の記憶装置30と、ディスプレイ装置等の出力装置4とを備える。
同義表現辞書記憶部31は、テキストマイニングを行う際に同義と見なす表現を同義と見なす表現ごとにグループ化して定義した同義表現辞書を予め記憶している。テキスト集合記憶部32は、テキストマイニングの対象となるテキストを予め記憶している。
同義表現辞書において同一の同義表現グループに属する同義表現どうしが、テキストマイニングを行う際に同一視される。
言語解析手段21は、同義表現辞書記憶部31に記憶されている全ての表現およびテキスト集合記憶部32に記憶されているテキスト中の全ての文について対応する依存構造木を構築する。
依存構造木とは、文の構成要素を節点とし、文の構成要素間の依存関係(係り受け関係)を枝として、文を木構造として表現したものである。各節点は、節点に付与されたラベルによって区別される。
依存構造木を構築するには、例えば、形態素解析を行って文を形態素の単位に分割し、構文解析を行って各形態素間の関係を求める等、一般に知られている方法を用いることができる。
なお、言語解析手段21によって構築された依存構造木は、図示しないDRAM(Dynamic Random Access Memory)等の一時記憶装置に保持するようにしてもよいし、記憶装置30に保持するようにしてもよい。
生成する節点には、その箇所で使用されていた表現が属する同義表現グループを表す識別子をラベルとして付与する。すなわち、同一の同義表現グループに属する表現が使用されている箇所に対して生成された節点には、共通のラベルを付与するようにする。また、ラベルは、言語解析手段21によって構築された依存構造木にはじめから存在していた節点のラベルとは異なる特別なラベルとする。
この例では、4つの節点「表示する」「文字」「小さい」「する」が節点「G1」によって置換される。これらの4節点間を接合していた枝BR1、BR2、BR3は削除される。節点「メール」と節点「表示する」とを接合していた枝BR4は、節点「メール」と節点「G1」とを接合する形でそのまま残される。また、節点「できるだけ」と節点「小さい」とを接合していた枝BR5は、節点「できるだけ」と節点「G1」とを接合する形でそのまま残される。また、節点「する」と節点「方法」とを接合していた枝BR6は、節点「G1」と節点「方法」とを接合する形でそのまま残される。
ある部分木が特徴的かどうかの判定は、一般的なデータマイニングの手法を用いる。例えば、全依存構造木中で予め定める閾値以上の回数出現する部分木を特徴的な部分木として抽出することができる。また、対応する依存構造木中に、ある部分木が出現する文が1つ以上存在するテキストが予め定める閾値以上の個数存在する場合に、その部分木を特徴的な部分木として抽出することも可能である。このほか、テキストが予め定める集合に属するか否かと、そのテキスト中の各文に対応する依存構造木中に部分木が出現するか否かに、予め定める閾値以上の相関性がある部分木を特徴的な部分木として抽出するようにしてもよい。
また、同義表現辞書において、同義表現グループを代表する表現に予め印を付けておき、その表現を使用するようにしてもよい。
また、同義表現辞書において、ラベルの置換に使用する表現を同義と見なす表現とは別に格納しておくようにしてもよい。
図8は、テキストマイニング装置の動作を示すフローチャートである。
まず、言語解析手段21が、同義表現辞書記憶部31に記憶されている全表現を解析し、同義表現依存構造木を構築する(図8のステップA1およびA2)。
次に、言語解析手段21は、テキスト集合記憶部32に記憶されているテキスト中の1つの文を解析し、対象文依存構造木を構築する(ステップA3)。
続いて、同義表現識別手段22が、ステップA3で構築された対象文依存構造木を、ステップA1において構築された同義表現依存構造木と照合し、対象文中に同義表現辞書に記録されている表現が含まれているかどうかを判別する(ステップA4およびステップA5)。
最後に、抽出結果出力手段26が、抽出結果を順に出力装置4に出力する。まず、同義表現辞書記憶部31を参照し、抽出結果において、ステップA6において生成された同義表現節点のラベルを相応な表現(出力用表現)に置換する(ステップA10)。続いて、出力装置4を通して抽出結果を出力する(ステップA11)。すべての抽出結果に対してこの動作を繰り返す(ステップA12)。
本実動作例では、依存構造木として、文節を節点とし、文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする木構造を採用する。
同義表現辞書記憶部31には、図6に示す内容が予め記憶されている。
また、テキスト集合記憶部32には、テキストマイニングの対象となるテキストが予め記憶されている。図15において長方形303で模式的に示したのが一つのテキスト、たとえばコールセンターに寄せられた問い合わせの内容を電子的に記録したものである。一つのテキストには、1または複数の文が含まれている。テキスト集合記憶部32には、このようなテキストが複数記憶されている。
本実施例では、形態素解析により各表現を形態素に分割し、構文解析により文節間の係り受け関係を求めて、同義表現依存構造木を構築する。
この処理により、図6の表現EX1から依存構造木DT−EX1(図1(a))が、表現EX2から依存構造木DT−EX2(図1(b))が、表現EX3から依存構造木DT−EX3(図4(a))が、表現EX4から依存構造木DT−EX4(図16(a))が、そして、表現EX5から依存構造木DT−EX5(図16(b))が構築される。
まず、言語解析手段21が、この文を解析して対象文依存構造木を構築する。この結果、図2に示す依存構造木DT−S1が構築される。
次に、同義表現識別手段22が、同義表現依存構造木DT−EX1(図1(a))、DT−EX2(図1(b))、DT−EX3(図4(a))、DT−EX4(図16(a))、および、DT−EX5(図16(b))のそれぞれと、文S1に対応する依存構造木DT−S1(図2)とを照合し、依存構造木DT−S1中のどの箇所に、どの表現に対応する依存構造木が部分木として含まれているかを識別する。
同義表現節点生成手段23は、図3の部分木PT1に対応づけて、同義表現節点を生成する。同義表現節点には、適合した依存構造木に対応する表現が属する同義表現グループを表す識別子をラベルとして付与する。
ここでは、節点置換後の全依存構造木中で、50回以上出現する部分木を特徴的な部分木として抽出するものとする。この場合、例えば、特徴部分木抽出手段25は、依存構造木中に含まれる部分木を全種類列挙して、それぞれの出現回数をカウントし、出現回数が50回以上の部分木を抽出することができる。
この動作例では、対応する同義表現グループ中の最初の表現を用いて、同義表現節点生成手段23によって生成された節点のラベルを置換するものとする。
依存構造木DT−R1において、節点「メール」は、言語解析手段21によって構築された依存構造木にはじめから存在していた節点であるが、節点「G1」は、同義表現節点生成手段23によって生成された節点である。同義表現グループG1(図6参照)中の最初の表現は、表現EX1「表示する文字を小さくする」であるため、節点「G1」のラベルは、この表現EX1によって置換され、図22(b)のように結果が出力される。
また、これらの節点「G1」「G2」は、文節に属する自立語を終止形に直したしたものをラベルとする元の依存構造木中の節点とは異なるものであるため、元の依存構造木中の節点と区別することができ、本来特徴的ではない部分木が誤って抽出されることはない。
なお、置換後の構造も木構造であり、なおかつ、置換によって節点が増加することがないため、特徴的な部分木の抽出にかかるコストが、置換前と比べて増加することはない。
また、対象文依存構造木において、同義の表現に対応する部分の構造を統一する際に、別の依存構造木に変換するのではなく、同義表現節点という単一の節点に置換するため、依存構造木間の変換規則を記述することなく同義表現を同一視することができる。また、対応する依存構造木間の変換を行うことが不可能な同義表現を同一視することも可能である。
さらに、節点置換手段によって追加される同義表現節点は、既存の節点とは異なる特殊な節点であるため、既存の節点のみからなる部分木の抽出には影響を及ぼさない。この結果、同義表現を統一することによる副作用を低く抑えることができる。
図9は、テキストマイニング装置11の概略機能ブロック図である。
テキストマイニング装置11は、データ処理装置29の構成が、図5のテキストマイニング装置10のデータ処理装置20と異なっている。データ処理装置29は、図5の節点置換手段24と特徴部分木抽出手段25に代わり、束構成手段(節点追加手段および排他関係枝追加手段)27と束用特徴部分木抽出手段(特徴部分木抽出手段)28を有している。
すなわち、一致部分木について、一致部分木に含まれる節点を始点とし一致部分木に含まれない節点を終点とする枝が、元の依存構造木中に存在するならば、同義表現節点からその終点への枝を依存構造木に追加する。また、一致部分木に含まれない節点を始点とし、一致部分木に含まれる節点を終点とする枝が、元の依存構造木中に存在するならば、その始点から同義表現節点への枝を依存構造木に追加する。
なお、束構成手段27の処理により、依存構造木は、木構造から束構造へと変換される。以降、変換後の構造を依存構造束と呼ぶ。
この例では、PT1に含まれる節点「する」を始点としPT1の外側の節点「方法」を終点とする枝BR6が存在するため、節点「G1」から節点「方法」への枝BR7が追加される。
また、PT1の外側の節点「メール」を始点とし内側の節点「表示する」を終点とする枝BR4およびPT1の外側の節点「できるだけ」を始点とし内側の節点「小さい」を終点とする枝BR5が存在するため、節点「メール」および節点「できるだけ」から節点「G1」への枝BR8および枝BR9が追加される。
また、PT1内の4つの節点「表示する」「文字」「小さい」「する」と、節点「G1」とが互いに排他関係枝BR10ないしBR13で結ばれ排他関係にある節点として関連づけられる。図10では、点線によって排他関係が示されている。
一方、一致部分木中の各節点は、その表現を構成する構成要素が個別に出現していると解釈したことに相当する節点である。
したがって、両方が同時に出現していると解釈することはできないため、束構成手段27は、両者を互いに排他関係にある節点として関連づける。
例えば、図11に示す依存構造束DL−S1において、節点「表示する」と節点「文字」と節点「小さい」と節点「する」がそれぞれ排他関係枝で節点G1と接続されている場合、図12に示す依存構造木PT2は、排他関係にある節点「する」および節点「G1」が含まれるため、束用特徴部分木抽出手段18は、これを抽出しない。
図13は、テキストマイニング装置11の動作を示すフローチャートである。ステップA1ないしステップA6の動作は、テキストマイニング装置10と同様である。
ステップB2では、束構成手段27が、一致部分木に含まれる各節点と同義表現節点とを互いに排他関係にある節点として関連づける。
ステップB3では、束用特徴部分木抽出手段28が、各文に対応する依存構造木もしくは依存構造束から特徴的な部分木を抽出する。ただし、互いに排他関係にある複数の節点を含む部分木は抽出しない。
本実施例も、テキストマイニング装置10の動作例と同様に、依存構造木として文節を節点とし文節に属する自立語を終止形に直したしたものを節点のラベルとし、文節間の係り受け関係を枝とする木構造を採用する。
また、同義表現辞書記憶部31には、図23に示す内容が予め記憶されている。
また、テキスト集合記憶部32には、図15に示す内容のテキストマイニングの対象となるテキストが予め記憶されている。
この処理により、表現EX1から依存構造木DT−EX1(図1(a))が、表現EX2から依存構造木DT−EX2(図1(b))が、表現EX3から依存構造木DT−EX3(図4(a))が、表現EX6から依存構造木DT−EX6(図24(a))が、そして、表現EX7から依存構造木DT−EX7(図24(b))が構築される。
まず、言語解析手段21により依存構造木DT−S1(図2)が構築さる。続いて、同義表現識別手段22によって、各依存構造木DT−EX1(図1(a))、DT−EX2(図1(b))、DT−EX3(図4(a))、DT−EX6(図24(a))、および、DT−EX7(図24(b))が、この依存構造木DT−S1と順に照合される。
この結果、依存構造木DT−EX1(図1(a))がこの依存構造木DT−S1中に部分木として含まれていることが識別され(図3)、同義表現節点生成手段23によって、その部分に対応づけて新たに同義表現節点「G1」が生成される(図17)。ここまでは、第1の実施例と同じ処理が行われる。
図10において、左側の依存構造木DT−EX2に適合する部分木PT1の内側の節点「する」を始点とし、外側の節点「方法」を終点とする枝BR6が存在するため、節点「G1」から節点「方法」へのBR7枝が追加される。また、部分木PT1の外側の節点「メール」を始点とし、内側の節点「表示する」を終点とする枝BR4、および、部分木PT1の外側の節点「できるだけ」を始点とし、内側の節点「小さい」を終点とする枝BR5が存在するため、束構成手段27によって、節点「メール」および節点「できるだけ」から節点「G1」への枝BR8およびBR9が追加され、依存構造束DL−S1(図11)が構成される。
このようにして構成された依存構造束DL−S1(図11)に対して、同義表現識別手段22による同義表現辞書中の表現に対応する依存構造木との照合が続けられるが、他に含まれている依存構造木は存在しないため、最終的にこの依存構造束DL−S1が、束用特徴部分木抽出手段28が特徴的な部分木を抽出する対象となる。
まず、言語解析手段21により依存構造木DT−S3(図19(a))が構築される。続いて、同義表現識別手段22によって、各依存構造木DT−EX1(図1(a))、DT−EX2(図1(b))、DT−EX3(図4(a))、DT−EX6(図24(a))、および、DT−EX7(図24(b))が、この依存構造木DT−S3と順に照合される。
この結果、依存構造木DT−EX2(図1(b))がこの依存構造木DT−S3中に部分木PT3として含まれていることが識別され、同義表現節点生成手段23によって、その部分に対応づけて新しい節点「G1」が生成される(図25(a))。
図25(a)において、依存構造木DT−EX2に適合する部分木PT3の外側の節点「メール」を始点とし、内側の節点「表示する」を終点とする枝BR14、および、部分木PT3の外側の節点「画面」を始点とし、内側の節点「表示する」を終点とする枝BR15が存在するため、束構成手段27によって、節点「メール」および節点「画面」から節点「G1」への枝BR16およびBR17が追加され、依存構造束DL−S3A(図25(b))が構成される。
このようにして構成された依存構造束DL−S3A(図25(b))に対して、同義表現識別手段22による、同義表現辞書中の表現に対応する依存構造木との照合が続けられ、表現EX6に対応する依存構造木DT−EX6(図24(a))がこの依存構造束DL−S3A(図25(b))中に部分木PT4として存在することが識別される。表現EX6は、同義表現グループG3に属するため、同義表現節点生成手段23は、その部分に対応づけて新しい節点「G3」を生成する(図26)。
このとき、部分木PT4に含まれ節点のうち、節点「表示する」に対して互いに排他関係にある節点として節点「G1」がすでに関連づけられているため、節点「G1」と節点「G3」も互いに排他関係にある節点として関連づけられ排他関係枝BR28で接続される。
このようにして、同義表現識別手段22、同義表現節点生成手段23および束構成手段27の処理により、表現EX1、表現EX2および表現EX3が使われている箇所に対して節点「G1」が新たに依存構造木中に追加される。表現EX1、表現EX2および表現EX3は、いずれも単一の節点「G1」として表され、それらの差異が吸収される。同様に、表現EX6および表現EX7も単一の節点「G3」として表され、それらの差異が吸収される。
抽出結果出力手段26が、このようにして抽出された部分木を順に出力する。このとき、言語解析手段21によって構築された依存構造木にはじめから存在していた節点についてはそのまま出力し、同義表現節点生成手段23によって生成された節点については、対応する同義表現グループに応じた表現にラベルを置換して出力する。
本実施例においても、テキストマイニング装置10の場合のように、同義表現辞書中で同一の同義表現グループに属する表現に対応する部分がいずれも同一の節点で表され、これらが同一視された状態で特徴的な部分木の抽出が行われる。また、追加された節点のラベルは、出力時に、それぞれの節点によって同一視された表現に対応する適当な表現に置換されるため、表現の同一視が行われた場合でも、利用者が容易に結果を理解できる。
第1の実施例と同様に、追加される節点「G1」「G3」は、元の依存構造木中の節点とは異なるため、誤って特徴的と見なされることはない。
このため、同義の表現に対応する部分の木構造が失われることがなくなり、束用特徴部分木抽出手段28は、その部分からも特徴的な部分木を抽出することができる。
また、同義の表現に対応する部分の構造を統一する際、束構成手段27は、同義表現節点と一致部分木内の各節点とを排他関係枝で結び排他関係にある節点として関連づけておく。そして、束用特徴部分木抽出手段28は、特徴的な部分木の抽出を行う際に、互いに排他関係にある節点を含む部分木を抽出しない。
このため、統一する前の構造と統一した後の構造の両方を残しておいても、その両方を含むような、抽出結果として意味をなさない部分木を抽出することがない。
このように、本実施の形態によれば、第1の実施の形態の効果に加え、同義表現を統一することによる副作用をさらに低く抑えることができるという効果が得られる。
図14は、このような実施形態を説明する図である。
コンピュータ40は、記憶装置30と出力装置4と入力装置1とCPU(Central Processing Unit)41と主記憶装置42を備えている。記憶装置1は、例えばハードディスク装置で、同義表現辞書を記憶する同義表現辞書記憶部31とマイニングの対象となるテキスト集合を記憶するテキスト集合記憶部32を備えている。主記憶装置42は、たとえばRAM(Random Access Memory)により構成され、テキストマイニング用プログラム43を記憶している。
主記憶装置42に格納されたテキストマイニング用プログラム43は、CPU41に読み込まれ実行される。
ここで、テキストマイニング用プログラム43は、コンピュータに、上記に説明した各動作を実行させるプログラムである。
このようにすれば、CPU41を言語解析手段21、同義表現識別手段22、同義表現節点生成手段23、節点置換手段24、特徴部分木抽出手段25、抽出結果出力手段26として機能するデータ処理装置20として動作させ、コンピュータ40をテキストマイニング装置10として動作させることができる。
同様に、CPU41を言語解析手段21、同義表現識別手段22、同義表現節点生成手段23、束構成手段27、束用特徴部分木抽出手段28、抽出結果出力手段26として機能するデータ処理装置29として動作させ、コンピュータ40をテキストマイニング装置11として動作させることができる。
21:言語解析手段
22:同義表現識別手段
23:同義表現節点生成手段
24:節点置換手段
25:特徴部分木抽出手段
26:抽出結果出力手段
27:束構成手段
28:束用特徴部分木抽出手段
31:同義表現辞書記憶部
Claims (15)
- 同義内容で異なった表現を同義表現グループとして定義する同義表現辞書を記憶する同義表現辞書記憶手段と、
テキストマイニングの対象となる文集合に含まれる各文の依存構造木である対象文依存構造木と前記同義表現辞書に含まれる各表現の依存構造木である同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別手段と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成手段と、
前記一致部分木に含まれる全節点を前記同義表現節点で置換する節点置換手段と、
前記置換がされた後の対象文依存構造木から特徴部分木を抽出する特徴部分木抽出手段とを備えたテキストマイニング装置。 - 同義内容で異なった表現を同義表現グループとして定義する同義表現辞書を記憶する同義表現辞書記憶手段と、
テキストマイニングの対象となる文集合に含まれる各文の依存構造木である対象文依存構造木と前記同義表現辞書に含まれる各表現の依存構造木である同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別手段と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成手段と、
前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する節点追加手段と、
前記依存構造束から特徴部分木を抽出する特徴部分木抽出手段とを備えたテキストマイニング装置。 - 前記同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する排他関係枝接続手段を備え、
前記特徴部分木抽出手段は、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とする請求項2に記載のテキストマイニング装置。 - 前記特徴部分木に含まれる前記同義表現部節点のラベルを、このラベルが示す前記同義表現グループに属する表現を代表する出力用表現に置き換え、前記特徴部分木の形状を人間が視認可能な形で出力する抽出結果出力手段を有することを特徴とする請求項1ないし3のいずれか一つに記載のテキストマイニング装置。
- 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で最初に列挙されている表現であることを特徴とする請求項4に記載のテキストマイニング装置。
- 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で最も長さが短い表現であることを特徴とする請求項4に記載のテキストマイニング装置。
- 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で前記テキストマイニングの対象となる文集合中に最も多く出現した表現であることを特徴とする請求項4に記載のテキストマイニング装置。
- 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループの中で出力用表現として用いるものとして予め指定されている表現であることを特徴とする請求項4に記載のテキストマイニング装置。
- 前記出力用表現は、前記同義表現節点のラベルが示す前記同義表現グループに対応して
この同義表現グループに含まれる表現とは別に予め定義されている表現であることを特徴とする請求項4に記載のテキストマイニング装置。 - テキストデータベースに含まれる文章を解析して対象文依存構造木を生成し、この対象文依存構造木から特徴部分木を抽出するテキストマイニング方法において、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する言語解析ステップと、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別ステップと、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成ステップと、
前記一致部分木に含まれる全節点を前記同義表現節点で置換する節点置換ステップと、
前記置換がされた後の対象文依存構造木から特徴部分木を抽出する特徴部分木抽出ステップとを備えたことを特徴としたテキストマイニング方法。 - テキストデータベースに含まれる文章を解析して対象文依存構造木を生成し、この対象文依存構造木から特徴部分木を抽出するテキストマイニング方法において、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する言語解析ステップと、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する同義表現識別ステップと、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する同義表現節点生成ステップと、
前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する節点追加ステップと、
前記依存構造束から特徴部分木を抽出する特徴部分木抽出ステップとを備えたことを特徴としたテキストマイニング方法。 - 前記節点追加ステップで前記対象文依存構造木に同義表現節点が追加された後、この同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する排他関係枝接続ステップを備え、
前記特徴部分木抽出ステップでは、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とした請求項11に記載のテキストマイニング方法。 - テキストデータベースに含まれる文章を解析して対象文依存構造木を生成する機能と、この対象文依存構造木から特徴部分木を抽出する機能をコンピュータに実行させるテキストマイニングプログラムにおいて、
前記コンピュータに、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する機能と、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する機能と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、
前記一致部分木に含まれる全節点を前記同義表現節点で置換する機能と、
前記置換がされた後の対象文依存構造木から特徴部分木を抽出する機能とを実行させることを特徴としたテキストマイニングプログラム。 - テキストデータベースに含まれる文章を解析して対象文依存構造木を生成する機能と、この対象文依存構造木から特徴部分構造を抽出する機能をコンピュータに実行させるテキストマイニングプログラムにおいて、
前記コンピュータに、
同義内容で異なった表現を同義表現グループとして定義する同義表現辞書に記憶されている表現を記憶装置から読み出して前記表現の依存構造木である同義表現依存構造木を生成する機能と、
前記対象文依存構造木と前記同義表現依存構造木を照合し、前記同義表現依存構造木と一致する部分木である一致部分木が前記対象文依存構造木に含まれているかどうかを識別する機能と、
前記一致部分木に対応する表現が属する前記同義表現グループを示し通常の節点のラベルとは区別される識別子をラベルとする同義表現節点を生成する機能と、
前記同義表現節点を前記対象文依存構造木に追加し、前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点へ向かう係り受け枝を有している節点から前記同義表現節点へ向かう係り受け枝を追加し、前記同義表現節点から前記一致部分木に含まれない節点であって前記一致部分木に含まれる節点から向けられた係り受け枝を有している節点へ向けた係り受け枝を追加して依存構造束を生成する機能と、
前記依存構造束から特徴部分木を抽出する機能とを実行させることを特徴としたテキストマイニングプログラム。 - 前記対象文依存構造木に同義表現節点が追加された後、この同義表現節点と前記一致部分木に含まれる各節点を排他関係枝で接続する機能をコンピュータに実行させ、
前記特徴部分木を抽出する際は、前記依存構造束の前記排他関係枝で接続された節点を含まない部分木から前記特徴部分木を抽出することを特徴とした請求項14に記載のテキストマイニングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005223971A JP4815934B2 (ja) | 2005-08-02 | 2005-08-02 | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005223971A JP4815934B2 (ja) | 2005-08-02 | 2005-08-02 | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007041767A true JP2007041767A (ja) | 2007-02-15 |
JP4815934B2 JP4815934B2 (ja) | 2011-11-16 |
Family
ID=37799700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005223971A Active JP4815934B2 (ja) | 2005-08-02 | 2005-08-02 | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4815934B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250388A (ja) * | 2007-03-29 | 2008-10-16 | Toshiba Corp | 情報検索装置、情報検索方法及び情報検索プログラム |
JP2009157845A (ja) * | 2007-12-27 | 2009-07-16 | Toshiba Corp | 情報検索装置 |
JP2011118550A (ja) * | 2009-12-01 | 2011-06-16 | Fuji Xerox Co Ltd | プログラム及び情報処理システム |
JP2011123626A (ja) * | 2009-12-09 | 2011-06-23 | Fuji Xerox Co Ltd | プログラム及び情報抽出装置 |
JP2011123619A (ja) * | 2009-12-09 | 2011-06-23 | Fuji Xerox Co Ltd | プログラム及び情報抽出装置 |
WO2013161397A1 (ja) * | 2012-04-27 | 2013-10-31 | 楽天株式会社 | 集計装置、集計プログラム、記録媒体、及び集計方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5484643B1 (ja) | 2013-03-29 | 2014-05-07 | 楽天株式会社 | データキャッシュシステム、プログラム、記録媒体、及び方法 |
CN104462360B (zh) * | 2014-12-05 | 2020-02-18 | 北京奇虎科技有限公司 | 一种为文本集合生成语义标识的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014990A (ja) * | 2000-06-28 | 2002-01-18 | Communication Research Laboratory | 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体 |
JP2003167898A (ja) * | 2001-12-04 | 2003-06-13 | Tokyo Soft Kk | 情報検索システム |
-
2005
- 2005-08-02 JP JP2005223971A patent/JP4815934B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014990A (ja) * | 2000-06-28 | 2002-01-18 | Communication Research Laboratory | 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体 |
JP2003167898A (ja) * | 2001-12-04 | 2003-06-13 | Tokyo Soft Kk | 情報検索システム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250388A (ja) * | 2007-03-29 | 2008-10-16 | Toshiba Corp | 情報検索装置、情報検索方法及び情報検索プログラム |
JP2009157845A (ja) * | 2007-12-27 | 2009-07-16 | Toshiba Corp | 情報検索装置 |
JP2011118550A (ja) * | 2009-12-01 | 2011-06-16 | Fuji Xerox Co Ltd | プログラム及び情報処理システム |
JP2011123626A (ja) * | 2009-12-09 | 2011-06-23 | Fuji Xerox Co Ltd | プログラム及び情報抽出装置 |
JP2011123619A (ja) * | 2009-12-09 | 2011-06-23 | Fuji Xerox Co Ltd | プログラム及び情報抽出装置 |
WO2013161397A1 (ja) * | 2012-04-27 | 2013-10-31 | 楽天株式会社 | 集計装置、集計プログラム、記録媒体、及び集計方法 |
JP2013232111A (ja) * | 2012-04-27 | 2013-11-14 | Rakuten Inc | 集計装置、集計プログラム、集計プログラムを記録したコンピュータ読み取り可能な記録媒体、及び集計方法 |
EP2849094A4 (en) * | 2012-04-27 | 2015-12-30 | Rakuten Inc | COUNTER, COUNTER PROGRAM, STORAGE MEDIUM AND COUNTER METHOD |
Also Published As
Publication number | Publication date |
---|---|
JP4815934B2 (ja) | 2011-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4815934B2 (ja) | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム | |
Carley et al. | AutoMap User's Guide 2013 | |
US10839155B2 (en) | Text analysis of morphemes by syntax dependency relationship with determination rules | |
JP4862072B2 (ja) | 設計チェック知識構築方法及びシステム | |
US20190243842A1 (en) | Information extraction method and system | |
US9811449B2 (en) | Test scenario generation support device and test scenario generation support method | |
WO2019208507A1 (ja) | 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム | |
CN108549694B (zh) | 一种文本中时间信息的处理方法 | |
JP2003208307A (ja) | ソースプログラム生成システム | |
US7900136B2 (en) | Structured document processing apparatus and structured document processing method, and program | |
JP2009015395A (ja) | 辞書構築支援装置および辞書構築支援プログラム | |
JP3724878B2 (ja) | キーワード抽出ルール生成方法 | |
JP6022815B2 (ja) | 構文解析を用いたソースコードの差分抽出方法およびシステム | |
CN113177391B (zh) | 在流式界面中操作光标重定向方法、计算设备及存储介质 | |
JP5150657B2 (ja) | マニュアル修正箇所提示装置、システム、方法およびプログラム | |
JP4519081B2 (ja) | ドキュメント変換装置、およびプログラム | |
JP4646328B2 (ja) | 関係情報抽出装置及びその方法 | |
KR100631086B1 (ko) | Xml을 이용한 텍스트 정규화 방법 및 장치 | |
CN103678607A (zh) | 一种情感标注系统的构建方法 | |
JPH07210556A (ja) | 自然言語処理装置及び自然言語処理方法 | |
KR101905675B1 (ko) | 모듈의 구조 해석을 지원하는 장치 및 프로그램 | |
JP6677158B2 (ja) | 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム | |
JP7083473B2 (ja) | 入力支援装置 | |
JP5400344B2 (ja) | ドキュメント変換装置、およびプログラム | |
CN103324653B (zh) | 要点抽出装置以及要点抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110815 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4815934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |