JP2006031198A - テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム - Google Patents

テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム Download PDF

Info

Publication number
JP2006031198A
JP2006031198A JP2004206661A JP2004206661A JP2006031198A JP 2006031198 A JP2006031198 A JP 2006031198A JP 2004206661 A JP2004206661 A JP 2004206661A JP 2004206661 A JP2004206661 A JP 2004206661A JP 2006031198 A JP2006031198 A JP 2006031198A
Authority
JP
Japan
Prior art keywords
text mining
text
syntax tree
tree
syntax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004206661A
Other languages
English (en)
Inventor
Satoshi Morinaga
聡 森永
Kazuhiko Ono
和彦 大野
Kenji Yamanishi
健司 山西
Hironori Arimura
博紀 有村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004206661A priority Critical patent/JP2006031198A/ja
Publication of JP2006031198A publication Critical patent/JP2006031198A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 正例集合と負例集合との構文解析の結果から木の複雑性まで考慮した情報量基準に基づいて任意の大きさの特徴的な表現を実時間で抽出可能なテキストマイニング装置を提供する。
【解決手段】 構文木入力手段1はテキスト集合を構文解析技術によって構文解析した結果を入力し、正例構文木集合2もしくは負例構文木集合3として保存する。部分構文木枚挙手段4は正例構文木集合2の各構文木に対して、その部分構文木を全て枚挙し、情報量基準計算手段5は枚挙された各部分構文木に対して、正例構文木集合2における出現頻度A、負例構文木集合3における出現頻度Bを集計し、その部分構文木の特徴度を木の複雑性を考慮した情報量基準を用いて計算する。結果出力手段6は枚挙された部分構文木に対して、情報量基準計算手段5で計算された情報量基準を特徴度として付与して出力する。
【選択図】 図1

Description

本発明はテキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラムに関し、特にテキストマイニング、自然言語処理の分野において、特定のテキスト集合の特徴表現を同定して出力するテキストマイニング装置に関する。
特定のテキスト集合の特徴表現を抽出する方法としては、テキスト集合(以下、正例集合とする)を形態素解析した結果と、対照群として与えられるテキスト集合(以下、負例集合とする)を形態素解析した結果とから各表現の正例集合における出現回数、負例集合における出現回数を集計し、これらの回数と正例集合及び負例集合の要素数とから、情報量基準を用いて各表現の正例集合における特徴度を計算し、特徴度の高い表現を出力する方法がある(例えば、特許文献1参照)。
また、与えられたテキストを構文木解析した結果から、3文節以上の構文構造からなる特徴表現を抽出するとしている方法としては、構文解析の結果から、そこに現れる各部分構文木の出現頻度が集計され、頻度の高い順に各部分構文木が特徴表現として出力する方法がある(例えば、特許文献2参照)。
さらに、与えられた木構造データの集合に対して任意の深さの部分木の出現頻度を実時間で集計し、高頻度部分木を特徴部分木として出力する方法としては、最右拡張とよばれる手順で、木構造データ集合におけるすべての部分木を高速に枚挙することで、深さが1より大きい部分木の頻度も実時間で集計する方法がある(例えば、非特許文献1参照)。
特開2001−266060号公報 特開2001−134575号公報 Asaiらの"Efficient Substructure Discovery from Large Semi−structured Data",Proc.Second SIAM International Conference on Data Mining 2002(SDM´02),158−174,SIAM,2002.
しかしながら、上述した従来のテキスト集合の特徴表現を抽出する方法では、上記の特許文献1の場合、形態素解析した結果を利用して各表現の特徴度を計算するので、単一文節または単一係り受け程度の単位で表現を抽出するだけで、3文節以上の構文構造からなる特徴表現を抽出することができないという問題がある。
この場合、3文節未満の表現のみが特徴として抽出されるのでは、断片的な情報がリストアップされるのみで、ユーザーが正例集合の特徴を理解するのに効率が悪くなってしまう。
また、従来のテキスト集合の特徴表現を抽出する方法では、上記の特許文献2の場合、負例集合が与えられないため、抽出される表現は正例集合における単なる高頻度表現であり、日本語における単なる高頻度表現などの必ずしも特徴的でない表現が取り出されるという問題がある。
この場合、出力される部分構文木には、互いに包含・類似関係にあるものが大量に含まれてしまい、ユーザーが正例集合の特徴を理解するのに効率が悪くなるという問題もある。そもそも、上記の方法を実行するには、多大な計算処理を必要とし、出現頻度を集計する部分構文木として深さ1以下のものに限定しないと実時間では動かないという問題もある。
さらに、従来のテキスト集合の特徴表現を抽出する方法では、上記の非特許文献1の場合、この方法を構文木集合に適用しても、上記の特許文献2と同様に、抽出されるのは単なる高頻度表現に過ぎない。互いに包含・類似関係にあるものが抽出結果に大量に含まれるという問題に関しても同様である。
一方、上記の技術の自明な組み合わせとしては、上記の非特許文献1の方法において、Asaiらの最右拡張で正例集合に含まれるすべての部分構文木を高速に枚挙した上で、正例集合と負例集合におけるそれらの頻度を集計し、上記の特許文献1の方法における情報量基準に基づいて特徴表現を抽出するとしても、その情報量基準には部分木の複雑さが考慮されていないので、いたずらに大きなサイズの部分木の特徴度が大きく計算され、必ずしも特徴的とはいえない表現が抽出されたり、真に特徴的な表現が他の表現と比較して相対的に特徴度が低いものとして出力されたりするという問題がある。この場合、互いに包含・類似関係にあるものが抽出結果に大量に含まれるという問題に関しては、この自明な組み合わせでは改善されない。
さらに、上記の全ての方法において、抽出結果の木構造データはグラフィックディスプレイデバイスに単純に木の絵として表示され、日本語の語順を考慮してキャラクタディスプレイデバイスに見やすく表示することができないという問題がある。
また、そもそもこれらの方法は、「ある部分構文木が対象となる構文木に出現している」と判定されるには、その部分構文木内のノードの中の兄弟関係にあるノードの兄弟順と辞書順が異なる親子順とが対象構文木における対応ノードのそれらと一致している必要がある。
これでは、「私が説明書を読んだ」という表現(ルートノードが「読んだ」。「私」と「説明書」の二つが子ノード)は「説明書を私が読んだ。」(子ノードの兄弟順だけ入れ替わっている)や「私が読んだ説明書。」(ルートノードが「説明書」、「読んだ」が「説明書」の子ノード、「私」が「読んだ」の子ノード)という文章に出現しないとしてカウントしていることになり、語順の変更を許して特徴表現を抽出する手段がないという問題もある。
そこで、本発明の第一の目的は上記の問題点を解消し、正例集合と負例集合との構文解析の結果から木の複雑性まで考慮した情報量基準に基づいて任意の大きさの特徴的な表現を実時間で抽出することができるテキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラムを提供することにある。
また、本発明の第二の目的は、互いに包含・類似関係にある抽出結果を整理して出力することができるテキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラムを提供することにある。
本発明の第三の目的は、抽出結果を日本語の語順を考慮してキャラクタディスプレイデバイスに表示することができるテキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラムを提供することにある。
本発明の第四の目的は、語順の変更を許した特徴表現の抽出を行うことができるテキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラムを提供することにある。
本発明による第1のテキストマイニング装置は、テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙する手段と、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算する手段とを備えている。
本発明による第2のテキストマイニング装置は、テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出する手段と、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更する手段とを備えている。
本発明による第3のテキストマイニング装置は、テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出する手段と、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行う手段とを備えている。
本発明による第4のテキストマイニング装置は、テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を備えている。
本発明による第5のテキストマイニング装置は、テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を備えている。
本発明による第1のテキストマイニング方法は、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙するステップと、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算するステップとを備えている。
本発明による第2のテキストマイニング方法は、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出するステップと、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更するステップとを備えている。
本発明による第3のテキストマイニング方法は、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出するステップと、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行うステップとを備えている。
本発明による第4のテキストマイニング方法は、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置が、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成している。
本発明による第5のテキストマイニング方法は、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置が、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成している。
本発明による第1のテキストマイニング方法のプログラムは、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙する処理と、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算する処理とを実行させている。
本発明による第2のテキストマイニング方法のプログラムは、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出する処理と、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更する処理とを実行させている。
本発明による第3のテキストマイニング方法のプログラムは、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出する処理と、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行う処理とを実行させている。
本発明による第4のテキストマイニング方法のプログラムは、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する処理を実行させている。
本発明による第5のテキストマイニング方法のプログラムは、テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する処理を実行させている。
すなわち、本発明のテキストマイニング装置は、上記の第一の目的を達成するために、テキスト集合(以下、正例集合とする)の構文解析結果(以下、正例構文木とする)とそのテキスト集合の対照群として与えられるテキスト集合(以下、負例集合とする)の構文解析結果(以下、負例構文木とする)とが与えられた時に、正例構文木に含まれる各部分木に対して木の複雑さまで考慮した情報量基準を用いて特徴度を計算し、その計算値の大きいものを取り出すことで正例集合における特徴表現を抽出している。
上記の方法は、正例と負例とに分けて構文木を与えるのではなく、構文木全体を与えた上で、正例部分を指定し、その残りを負例部分として上記の処理を行ってもよい。
また、情報量基準としては、上記の特許文献1の方法におけるESC(Extended Stochastic Complexity:拡張型確率的コンプレキシティ)に基づく情報量基準を木の記述長と呼ばれる量で修正したものを用いてもよい。さらに、情報量基準としては、後述する認識情報量基準でもよい。
情報量基準計算の対象とする部分木構造の抽出は、上記の非特許文献1の方法における最右拡張によって、正例構文木における部分木を枚挙するようにしてもよい。
本発明のテキストマイニング装置では、上記の第二の目的を達成するために、抽出された特徴表現の集合に対して、木構造として包含・類似関係にあるものを検出し、何らかの基準で幾つかの特徴表現の出力方法を変更している。
これは、特徴表現として取り出された木構造で他の特徴木構造に含まれるものを単純に取り除くのでもよい。その場合、包含関係にある二つの木構造の上記の情報量基準もしくはそのほかの情報量基準の大小も考慮して取り除くか否かを決定してもよい。
さらに、上記のような単純な二構造比較ではなく、互いに包含関係もしくは類似関係にある特徴構造の全体集合を構成した上で、上記の情報量基準もしくは認識情報量基準、あるいは何らかのその他の基準に基づいて削除する構文木を決定してもよい。また、削除を行うのではなく、フォントを変えたり、ユーザからの出力指示があるまで出力を待つようにする等の方法でもよい。
本発明のテキストマイニング装置では、上記の第三の目的を達成するために、出力すべき特徴木構造を、ノードの表示順が日本語の語順になるように順序を調整したうえで、キャラクタディスプレイデバイスに表示している。
この場合、ノードの連結構造は記号等のキャラクタを用いて表示してもよく、見易さのために、1行に1ノード表示をするのでもよい。また、ノードの連結構造はノードの深さ情報を見やすいように、ノードの深さに応じて表示のタブ位置を調整してもよい。その際、ノードラベルの表示文字数を固定して、ノードラベル自体は別に表示してもよい。
本発明のテキストマイニング装置では、上記の第四の目的を達成するために、語順が変更されている表現でも特徴として抽出できるように、入力された構文木に対して変換を施してから処理を行っている。
これは、与えられた構文木に対して兄弟関係にあるノードの兄弟順をラベルの辞書順等の一定の方法でソートするのでも良い。その場合、同じ順位になるノードが複数あった場合には、該当するノードの兄弟関係だけを入れ替えた構文木を複数生成するのでもよい。
また、与えられた構文木に対して、特定のノードをルートノードとし、始点及び終点のない無向グラフとみなした場合に元の構文木と同じになる木を生成するのでもよい。その特別な場合として、構文木中の全てのノードのそれぞれに対して、それをルートノードとする元の構文木と無向グラフ的に同じになる木を生成してもよい。
本発明は、以下に述べるような構成及び動作とすることで、正例集合と負例集合との構文解析の結果から木の複雑性まで考慮した情報量基準に基づいて任意の大きさの特徴的な表現を実時間で抽出することができるという効果がある。
また、本発明は、以下に述べるような構成及び動作とすることで、互いに包含・類似関係にある抽出結果を整理して出力することができるという効果がある。
さらに、本発明は、以下に述べるような構成及び動作とすることで、抽出結果を日本語の語順を考慮してキャラクタディスプレイデバイスに表示することができるという効果がある。
さらにまた、本発明は、以下に述べるような構成及び動作とすることで、語順の変更を許した特徴表現の抽出を行うことができるという効果がある。
次に、本発明の実施例について図面を参照して説明する。図1は本発明の第1の実施例によるテキストマイニング装置の構成を示すブロック図である。図1において、本発明の第1の実施例によるテキストマイニング装置は全体としてコンピュータ[少なくともCPU(中央処理装置)と、RAM(ランダムアクセスメモリ)と、プログラムを格納する記録媒体とを含む]からなり、構文木入力手段1と、正例構文木集合2と、負例構文木集合3と、部分構文木枚挙手段4と、情報量基準計算手段5と、結果出力手段6とから構成されている。
構文木入力手段1はコールセンタデータベースやアンケート結果データベース等におけるテキストデータ欄等のテキスト集合を、公知の構文解析技術によって構文解析した結果を入力し、正例構文木集合2もしくは負例構文木集合3として保存する手段である。一般に、構文解析技術においては、一つの文が一つの木構造を持つデータ、すなわち構文木に変換される。また、各構文木を正例構文木集合2の要素とするか、負例構文木集合3の要素とするかはユーザによって指定される。
部分構文木枚挙手段4は正例構文木集合2の各構文木に対して、その部分構文木を全て枚挙し、それぞれを情報量基準計算手段5に入力する。ここで、構文木Tの部分構文木とは、木構造データでTの幾つかのノードやリンクを削除して得られるものを指すものとする。高速に部分構文木を枚挙する方法としては、上記の非特許文献1における最右拡張を行えばよい。また、全ての部分構文木を枚挙して情報量基準計算手段5に入力するのではなく、出現頻度が一定以上のもののみに限定するのでもよい。
情報量基準計算手段5は部分構文木枚挙手段4から入力された各部分構文木に対して、正例構文木集合2における出現頻度A、負例構文木集合3における出現頻度Bを集計し、その部分構文木の特徴度を木の複雑性を考慮した情報量基準を用いて計算する。
例えば、その部分構文木の節の数をX、葉の数をY、正例構文木集合の要素数をC、負例構文木集合の要素数をDとした場合、情報量基準の式として、上記の特許文献1の方法で採用されているESC(Extended Stochastic Complexity:拡張型確率的コンプレキシティ)を用いた情報量基準を木の記述長と呼ばれる量Lで修正した式、
ESC−(ESC1+ESC0)−λ’*L ・・・(1)
を使用してもよい。但し、(1)式の各項は、
ESC=C+λ*Sqrt((C+D)*Log(C+D))
ESC1=B+λ*Sqrt((A+B)*Log(A+B))
ESC0=(C−A)
+λ*Sqrt((C+D−A−B)
*Log(C+D−A−B))
L=−X*Log(P1)
−Y*Log(P0)
+X*Log(V)
で与えられる。ここで、P1=X/(X+Y)、P2=Y/(X+Y)、Vは入力された構文木におけるノードラベルのバリエーション数、λ,λ’は正の定数をとるものとする。また、項Lは複雑な構造の木ほど大きな値になり、いたずらに大きな木の特徴度にペナルティを与えることができる。
出現頻度A,Bの集計方法としては、単なる出現頻度ではなく、その部分木を含む構文木の数を集計するのでもよい。この場合、単一の構文木に該当部分木が複数回現れても、各出現をカウントするのではなく、回数1と数えることになる。さらに、各構文木に何らかのインデックスがついている場合には、出現頻度A,Bの集計方法として、その部分木を含む構文木のインデックスのバリエーション数を与えるのでもよい。
例えば、自由記述型アンケートの結果(テキストデータ)を構文解析した結果を構文木集合として与える場合に、各構文木のインデックスとしてアンケートの回答者ID(識別情報)を付与している場合には、出現頻度A,Bは「その部分木で表される表現を用いた回答者数」となる。この方法で出現頻度A,Bを集計する場合には、要素数C,Dも正例構文木集合2及び負例構文木集合3におけるインデックスのバリエーション数で与える必要がある。要素数C,Dは正例/負例を与えた回答者数となる
結果出力手段6は部分構文木枚挙手段4で枚挙された部分構文木に対して情報量基準計算手段5で計算された情報量基準を特徴度として付与して出力する。この場合、情報量基準の大きい順に部分構文木をソートしてから出力してもよい。また、結果出力手段6は部分構文木枚挙手段4で枚挙された全ての部分構文木を出力するのではなく、一定の特徴度の値以上のものに限定して出力するのでもよい。もしくは、結果出力手段6は特徴度の上位から一定の件数のみを出力するのでもよい。
図2は本発明の第1の実施例によるテキストマイニング装置の動作を示すフローチャートである。これら図1及び図2を参照して本発明の第1の実施例によるテキストマイニング装置の動作について説明する。尚、図2に示す処理は上記のコンピュータにおいて、CPUが記録媒体からのプログラムをRAMに移して実行することで実現される。
構文木入力手段1が正例構文木集合2と負例構文木集合3とを入力すると(図2ステップS1)、部分構文木枚挙手段4は正例構文木集合2に属する構文木の部分木を枚挙する(図2ステップS2)。
情報量基準計算手段5は部分構文木枚挙手段4で枚挙された各部分構文木に対して特徴度を計算し(図2ステップS3)、結果出力手段6は各部分構文木に特徴度の大きさを付与して出力する(図2ステップS4)。
図3は本発明の第2の実施例によるテキストマイニング装置の構成を示すブロック図である。図3において、本発明の第2の実施例によるテキストマイニング装置は、包含・類似関係整理手段7を追加した以外は、図1に示す本発明の第1の実施例と同様の構成となっており、同一構成要素には同一符号を付してある。また、同一構成要素の動作は本発明の第1の実施例の動作と同様である。
包含・類似関係整理手段7は情報量基準計算手段5によって特徴度が付与された各部分構文木を受け取り、互いに包含関係・類似関係にある木を整理してから結果出力手段6に出力する。
包含・類似関係整理手段7における整理の仕方としては、受け取った部分構文木で他の部分構文木に含まれるものを単純に検出するのでもよく、包含関係の判定のみで単純に検出するのではなく、より情報量基準の高い他の部分構文木に含まれる部分構文木のみを検出するのでもよい。この場合の情報量基準としては、情報量基準計算手段5によって付与された値を用いてもよいし、その他の情報量基準(例えば、(1)式で木の記述長の重みを表すλ’の大きさを変えたもの)を用いてもよい。
さらに、上記のような単純な二構造比較ではなく、特定の部分構文木に包含される部分構文木の集合を構成しておいた上で、何らかの情報量基準に基づいて検出する部分構文木を決定してもよい。または、互いの類似関係に基づいて部分構文木の集合を構成しておいた上で、検出する部分構文木を決定してもよい。
本実施例では、上記のような構成とし、検出された部分構文木の出力方法を変更することで、特徴表現として出力される部分構文木から、互いに包含・類似関係にあるものが整理され、ユーザが正例集合の特徴を理解する効率を高くすることができる。
図4は本発明の第3の実施例によるテキストマイニング装置の構成を示すブロック図である。図4において、本発明の第3の実施例によるテキストマイニング装置は、キャラクタディスプレイ用表示整形手段8を追加した以外は、図1に示す本発明の第1の実施例と同様の構成となっており、同一構成要素には同一符号を付してある。また、同一構成要素の動作は本発明の第1の実施例の動作と同様である。
キャラクタディスプレイ用表示整形手段8は、情報量基準計算手段5から出力すべき部分構文木を受け取り、キャラクタディスプレイに表示するための整形を行ったうえで、結果出力手段6に出力する。尚、キャラクタディスプレイ用表示整形手段8を上記の第2の実施例に追加した場合には、キャラクタディスプレイ用表示整形手段8が包含・類似関係整理手段7から出力すべき部分構文木を受け取り、キャラクタディスプレイに表示するための整形を行ったうえで、結果出力手段6に出力することになる。
キャラクタディスプレイ用表示整形手段8による整形の仕方としては、
・ノードは日本語の語順に従って表示する
・1行に1ノードの表示を行う
・深さの大きいノードが左に、浅いノードが右に来るようにタブ位置をつける
・同じ深さのノードは同じタブ位置をつける
・ノードの連結構造は記号等のキャラクターを用いて表示する
・連結構造とともに表示されるノードラベルの文字数は固定する
・連結構造と別に文字数を固定しないでノードラベルを再表示する
・部分構文木を元のテキストに逆変換する
の全て、もしくはいくつかを行ってもよい。
本実施例では、上記のような構成にすることで、出力の書式を整形することによって、キャラクタディスプレイデバイスにも見やすい結果を表示することができる。
また、上述した本発明の各実施例を通して、情報量基準計算手段5で計算する特徴度としては、部分構文木の価値を評価する基準として、以下に定義する認識情報量基準でもよい。さらに、本発明の第二の実施例に用いられる包含・類似関係整理手段7における整理の方法も、以下に記述するように認識情報量基準に基づいて類似関係にある複数の部分構文木を代表表現にまとめるのでもよい。以下に述べる内容では、類似関係の整理を例としてやや詳しく説明する。
「例」としては、「テレビのスイッチが壊れた」、「購入したテレビのスイッチが壊れた」、「古いテレビのスイッチが異常」、「TVのスイッチが壊れた」、「テレビのスイッチ」、「テレビが壊れた」等のテキストに相当する部分構文木を、例えば、「テレビのスイッチが壊れた」というテキストに相当する部分構文木(以下、代表表現と記述)にまとめる。
「提案方式」としては、(1)特徴度上位N件(例えば、1000件等)の部分構文木を対象として、代表表現候補を1個づつ選択し、(2)部分構文木の中で、代表表現候補との差異の大きさが指定された値以下の全ての部分構文木の集合Sを求める(類似木構造の抽出処理)方法がある。ここで、二つの部分構文木pと部分構文木qとの差異がrであるとは、部分構文木pに対してそのr個のノードラベルを別のラベルに変更すると、部分構文木qと一致することを指すものとする。
さらに、(3)代表表現候補の情報量ゲインIG(typical)を、
IG(typical)=I(typical)+αI(detail)
+βI(ol)+γI(simple)
−Loss(typical)
というように計算し、最も情報量の多い代表表現候補を代表表現として出力し、それ以外のSに属する部分構文木を検出する方法もある。
代表表現(typical)
「テレビのスイッチが壊れた」 情報量 I(typical)
部分表現/詳細部分木(detail)
「購入したテレビのスイッチが壊れた」 情報量 I(detail)
部分表現/部分的重複(over lap)
「古いテレビのスイッチが壊れた」
「TVのスイッチが壊れた」 情報量 I(ol)
部分表現/簡素部分木(simple)
「テレビのスイッチ」、「テレビが壊れた」 情報量 I(simple)
情報量I(x)=(Ns+1)
*log((Ns+1)/(Ns+Nf+2))
但し、Ns=xの正例における頻度、Nf=xの負例における頻度、xが複数の部分木からなる場合は、頻度の重複に注意。この情報量は負の値を取る。
α=詳細部分木の認識重み
β=重複部分木の認識重み
γ=簡素部分木の認識重み
Loss(x)=認識ロス関数:xに含まれる単語数に関して単調に増加する関数
というように定義する。
「認識」については、上記の定義に「認識重み」、「認識ロス」という用語が現れるが、これらは、代表表現を認識する際の人間の「認識」作業をモデル化したものである。
人間は、文(大きな部分木)を読む際に、それに含まれる部分的な情報も認識している。例えば、「テレビのスイッチが壊れた」を読んだ場合、その部分である「テレビのスイッチ」、「テレビが壊れた」をも認識している。
同様に、少し情報が追加、変更された文も類推して認識することができる。例えば、「購入したテレビのスイッチが壊れた」、「古いテレビのスイッチが異常」、「TVのスイッチが壊れた」等も、「テレビのスイッチが壊れた」と“同じようなもの”として認識することができる。
このため、上記の表現が同時に表示されると、“冗長である”と感じるものと思われる。これをモデル化したのが、情報量ゲインの前半である。一方、あまりに長すぎる文は、認識するための労力が必要になる。これをモデル化したのが、認識ロス関数Lossである。
「情報量の考え方」としては、情報理論の情報源符号化問題を基盤とする。すなわち、「情報源Sの情報」を、「通信路」を経由して「受信者R」に送る。数学モデルをこの問題の基盤とし、「情報源Sの情報」を分類結果X(正例及び負例のラベル)と分類手がかりY(文字列情報等)との組及びそのID番号と想定し、「通信路」をID番号と、分類手がかりYと、それから生成される情報とのみを通すことができるものと想定する。尚、「通信路」はID番号の分類結果を直接通すことはできない。「受信者R」は通信路を経て送られた情報Yを用いて、ID番号の分類結果Xを推定するものと想定する。
上記の分類手がかりYを知ることによって分類結果Xに関して得ることのできる情報量は、相互情報量と呼ばれ、
I(X,Y)=H(X)−H(X|Y)
で定義される。H(X)はエントロピ、H(X|Y)は条件つきエントロピである。本実施例で用いた情報量I(y)は、条件つきエントロピ「−H(X|y)」のXの成立項を取り出したものである。H(X)は共通であるため、無視している。
図5は本発明の第4の実施例によるテキストマイニング装置の構成を示すブロック図であり、図6は本発明の第4の実施例による兄弟整列手段の作用を表す図である。図5において、本発明の第4の実施例によるテキストマイニング装置は、兄弟整列手段9を追加した以外は、図1に示す本発明の第1の実施例と同様の構成となっており、同一構成要素には同一符号を付してある。また、同一構成要素の動作は本発明の第1の実施例の動作と同様である。
兄弟整列手段9は、構文木入力手段1から構文木を受け取ると、その中で兄弟関係にあるノードをラベルの辞書順等の一定の方法でソートし、正例構文木集合2もしくは負例構文木集合3として保存する。これによって、「私が説明書を読んだ。」と「説明書を私が読んだ。」とのように、兄弟ノード(「私」と「説明書」が兄弟ノード)の順序だけが異なる構文木も同一の構文木に変換される。
但し、「私は簡単な説明書と分厚い黒い説明書と英語の説明書も読んだ。」のような文には、辞書順が同じ兄弟が存在するので、その場合には、図6に示すように、それら全ての兄弟関係の順列を生成し、その数だけ構文木を複製する。
兄弟整列手段9では構文木の複製が行われる可能性があるので、(1)式の中で用いる頻度の集計に関しては、上述したインデックスのバリエーションを与える方法を採用する必要がある。この場合、兄弟整列手段9から出力される構文木に関しては元の構文木と同じインデックスを与えるものとする。
本実施例では、上記のような構成にすることで、構文木として兄弟順の違いしかない表現を同じものとして頻度集計し、特徴度が高ければ、特徴表現として抽出している。
図7は本発明の第5の実施例によるテキストマイニング装置の構成を示すブロック図である。図7において、本発明の第5の実施例によるテキストマイニング装置は、ルート多様化手段10を追加した以外は、図1に示す本発明の第1の実施例と同様の構成となっており、同一構成要素には同一符号を付してある。また、同一構成要素の動作は本発明の第1の実施例の動作と同様である。
ルート多様化手段10は、構文木入力手段1から構文木を受け取ると、その中の特定のノードをルートとし、無向グラフとみなした時に元の構文木と等しくなる木を生成し、正例構文木集合2もしくは負例構文木集合3として保存する。特に、以下に述べる内容では全てのノードに関して、それをルートとして上記の木の生成を行うものとする。
図8は図7のルート多様化手段10の作用を示す図である。図8において、「私が分厚い説明書を読んだ。」という文に対応する構文木が入力された場合、四つのノードのそれぞれに関して、それをルートノードとし、始点及び終点のない無向グラフとみなした場合に元の構文木と等しくなる木が出力される。与えられた構文木から、特定のノードをルートとする上記のような木を生成するのは、そのノードからルートまでのパス上の各リンクに対して親子関係を逆転させることで簡単に実現することができる。
この例では、それぞれ「分厚い説明書を読んだ私」、「私が分厚い説明書を読んだ」、「私が読んだ分厚い説明書」、「私が読んだ説明書は分厚い」に相当する構文木が生成されており、「説明書は分厚い」といった親子関係の逆転によって元の構文木のままでは出現していないと判定される表現も、出現しているものとして後段で頻度集計される。
ルート多様化手段10でも単一の構文木に対して複数の構文木が出力されるので、(1)式の中で用いる頻度の集計に関しては、上述したインデックスのバリエーションを与える方法を採用する必要がある。すなわち、ルート多様化手段10から出力される構文木に関しては元の構文木と同じインデックスを与えるものとする。
本実施例では、上記のような構成にすることで、構文木における親子関係の逆転に相当する語順の違いをもつ表現も同じものとして頻度集計され、特徴度が高ければ特徴表現として抽出している。
また、ルート多様化手段10の出力を、さらに兄弟整列手段9に通したものを正例構文木集合2もしくは負例構文木集合3とすることで、親子関係と兄弟関係の両方の逆転に相当する語順の違いをもつ表現も同じものとして頻度集計され、特徴度が高ければ特徴表現として抽出することも可能である。これは、構文木を木としてではなく、グラフとみなして特徴部分グラフを抽出しているのと同値である。
図9(a),(b)は本発明のテキストマイニング装置への入力データの例を示す図である。図9においては、ノートPC(パーソナルコンピュータ)関係の自由記述アンケート結果を公知の構文解析技術を用いて構文木に変換した結果を示している。図9(a)は正例構文木集合(一部)を示し、図9(b)は負例構文木集合(一部)を示している。
この場合には、特定の機種に関する記述を正例構文木に、その他の機種に関する記述を負例構文木としている。また、それらを表示するためには、上述した本発明の第3の実施例におけるキャラクタディスプレイデバイス用の整形を行っている。
図10は本発明のテキストマイニング装置による特徴表現の出力例を示す図である。図10においては、「グラフ表示が遅い」に相当する部分構文木等、3文節以上の特徴表現や深さ2以上の特徴表現も抽出されている。また、一般に、合計1000件程度の正例/負例構文木集合から特徴表現を抽出する処理は数秒で終了し、十分に実時間での特徴表現抽出が実現されている。
図11は本発明のテキストマイニング装置による包含・類似関係を整理した出力例を示す図である。図11においては、図9では出力されていた「グラフ」や「表示が遅い」等に相当する部分構文木が「グラフ表示が遅い」に相当する部分構文木に包含されているので削除している。このように、冗長な表現が削除されることによって、正例の特徴を発見する効率を向上させることができる。
このように、本発明では、上述した本発明の第1の実施例によるテキストマイニング装置の構成及び動作とすることで、任意の大きさの真に特徴的な表現を実時間で抽出することができる。
また、本発明では、上述した本発明の第2の実施例によるテキストマイニング装置の構成及び動作とすることで、互いに包含・類似関係にある結果を整理し、ユーザに提示することができる。
さらに、本発明では、上述した本発明の第3の実施例によるテキストマイニング装置の構成及び動作とすることで、部分構文木をキャラクタディスプレイデバイス用に整形し、ユーザに見やすく提示することができる。
さらにまた、本発明では、上述した本発明の第4の実施例によるテキストマイニング装置の構成及び動作とすることで、語順の変更を許した特徴表現の抽出を行うことができる。
本発明の第1の実施例によるテキストマイニング装置の構成を示すブロック図である。 本発明の第1の実施例によるテキストマイニング装置の動作を示すフローチャートである。 本発明の第2の実施例によるテキストマイニング装置の構成を示すブロック図である。 本発明の第3の実施例によるテキストマイニング装置の構成を示すブロック図である。 本発明の第4の実施例によるテキストマイニング装置の構成を示すブロック図である。 本発明の第4の実施例による兄弟整列手段の作用を表す図である。 本発明の第5の実施例によるテキストマイニング装置の構成を示すブロック図である。 図7のルート多様化手段の作用を示す図である。 (a),(b)は本発明のテキストマイニング装置への入力データの例を示す図である。 本発明のテキストマイニング装置による特徴表現の出力例を示す図である。 本発明のテキストマイニング装置による包含・類似関係を整理した出力例を示す図である。
符号の説明
1 構文木入力手段
2 正例構文木集合
3 負例構文木集合
4 部分構文木枚挙手段
5 情報量基準計算手段
6 結果出力手段
7 包含・類似関係整理手段
8 キャラクタディスプレイ用表示整形手段
9 兄弟整列手段
10 ルート多様化手段

Claims (23)

  1. テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
    前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙する手段と、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算する手段とを有することを特徴とするテキストマイニング装置。
  2. テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
    構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出する手段と、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更する手段とを有することを特徴とするテキストマイニング装置。
  3. テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
    構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出する手段と、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行う手段とを有することを特徴とするテキストマイニング装置。
  4. 前記情報量基準として、前記構文木の正例頻度と負例頻度と文字列の長さとの組、前記構文木を含む詳細部分木の正例頻度と負例頻度と認識重みとの組、前記構文木に含まれる簡素部分木の正例頻度と負例頻度と認識重みとの組、前記構文木と重複する重複部分木の正例頻度と負例頻度と認識重みとの組のうちの任意の組の組み合わせから計算される認識情報量基準を用いることを特徴とする請求項1から請求項3のいずれか記載のテキストマイニング装置。
  5. 受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を含むことを特徴とする請求項1から請求項4のいずれか記載のテキストマイニング装置。
  6. 受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を含むことを特徴とする請求項1から請求項5のいずれか記載のテキストマイニング装置。
  7. テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
    受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を有することを特徴とするテキストマイニング装置。
  8. テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
    受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を有することを特徴とするテキストマイニング装置。
  9. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いられる変換装置であって、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を有することを特徴とする変換装置。
  10. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いられる変換装置であって、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を有することを特徴とする変換装置。
  11. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙するステップと、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算するステップとを有することを特徴とするテキストマイニング方法。
  12. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出するステップと、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更するステップとを有することを特徴とするテキストマイニング方法。
  13. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出するステップと、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行うステップとを有することを特徴とするテキストマイニング方法。
  14. 前記情報量基準として、前記構文木の正例頻度と負例頻度と文字列の長さとの組、前記構文木を含む詳細部分木の正例頻度と負例頻度と認識重みとの組、前記構文木に含まれる簡素部分木の正例頻度と負例頻度と認識重みとの組、前記構文木と重複する重複部分木の正例頻度と負例頻度と認識重みとの組のうちの任意の組の組み合わせから計算される認識情報量基準を用いることを特徴とする請求項11から請求項13のいずれか記載のテキストマイニング方法。
  15. 前記テキストマイニング装置が、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成することを特徴とする請求項11から請求項14のいずれか記載のテキストマイニング方法。
  16. 前記テキストマイニング装置が、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成することを特徴とする請求項11から請求項15のいずれか記載のテキストマイニング方法。
  17. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置が、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成することを特徴とするテキストマイニング方法。
  18. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置が、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成することを特徴とするテキストマイニング方法。
  19. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙する処理と、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算する処理とを実行させるためのプログラム。
  20. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出する処理と、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更する処理とを実行させるためのプログラム。
  21. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出する処理と、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行う処理とを実行させるためのプログラム。
  22. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する処理を実行させるためのプログラム。
  23. テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する処理を実行させるためのプログラム。
JP2004206661A 2004-07-14 2004-07-14 テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム Pending JP2006031198A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004206661A JP2006031198A (ja) 2004-07-14 2004-07-14 テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004206661A JP2006031198A (ja) 2004-07-14 2004-07-14 テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム

Publications (1)

Publication Number Publication Date
JP2006031198A true JP2006031198A (ja) 2006-02-02

Family

ID=35897499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004206661A Pending JP2006031198A (ja) 2004-07-14 2004-07-14 テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム

Country Status (1)

Country Link
JP (1) JP2006031198A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062822A1 (fr) * 2006-11-22 2008-05-29 Nec Corporation Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
WO2011148571A1 (ja) * 2010-05-24 2011-12-01 日本電気株式会社 情報抽出システム、方法及びプログラム
US9135326B2 (en) 2009-12-10 2015-09-15 Nec Corporation Text mining method, text mining device and text mining program
JP2023007367A (ja) * 2021-06-30 2023-01-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008062822A1 (fr) * 2006-11-22 2008-05-29 Nec Corporation Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
US9135326B2 (en) 2009-12-10 2015-09-15 Nec Corporation Text mining method, text mining device and text mining program
WO2011148571A1 (ja) * 2010-05-24 2011-12-01 日本電気株式会社 情報抽出システム、方法及びプログラム
JPWO2011148571A1 (ja) * 2010-05-24 2013-07-25 日本電気株式会社 情報抽出システム、方法及びプログラム
JP5751253B2 (ja) * 2010-05-24 2015-07-22 日本電気株式会社 情報抽出システム、方法及びプログラム
US9189748B2 (en) 2010-05-24 2015-11-17 Nec Corporation Information extraction system, method, and program
JP2023007367A (ja) * 2021-06-30 2023-01-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
JP7358698B2 (ja) 2021-06-30 2023-10-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体

Similar Documents

Publication Publication Date Title
Kumar et al. Sentiment analysis of multimodal twitter data
Welbers et al. Text analysis in R
Akimushkin et al. Text authorship identified using the dynamics of word co-occurrence networks
Ghosh et al. Fracking sarcasm using neural network
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
US9323741B2 (en) System and method for searching functions having symbols
US20160299955A1 (en) Text mining system and tool
US8312041B2 (en) Resource description framework network construction device and method using an ontology schema having class dictionary and mining rule
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20060245641A1 (en) Extracting data from semi-structured information utilizing a discriminative context free grammar
US20080221870A1 (en) System and method for revising natural language parse trees
CN111680159A (zh) 数据处理方法、装置及电子设备
JP2007122719A (ja) 複数の言語を連動する自動完成推薦語提供システムおよび方法
Reganti et al. Modeling satire in English text for automatic detection
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Biten et al. Ocr-idl: Ocr annotations for industry document library dataset
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN108319583A (zh) 从中文语料库提取知识的方法与系统
Fernández-González et al. Faster shift-reduce constituent parsing with a non-binary, bottom-up strategy
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN116561275A (zh) 对象理解方法、装置、设备及存储介质
CN104881446A (zh) 搜索方法及装置
Pham et al. Information extraction for Vietnamese real estate advertisements
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090519