JP2006031198A - テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム - Google Patents
テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム Download PDFInfo
- Publication number
- JP2006031198A JP2006031198A JP2004206661A JP2004206661A JP2006031198A JP 2006031198 A JP2006031198 A JP 2006031198A JP 2004206661 A JP2004206661 A JP 2004206661A JP 2004206661 A JP2004206661 A JP 2004206661A JP 2006031198 A JP2006031198 A JP 2006031198A
- Authority
- JP
- Japan
- Prior art keywords
- text mining
- text
- syntax tree
- tree
- syntax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000014509 gene expression Effects 0.000 claims abstract description 96
- 238000000547 structure data Methods 0.000 claims description 46
- 239000000284 extract Substances 0.000 claims description 17
- 238000007493 shaping process Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 101150047683 ESC1 gene Proteins 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 構文木入力手段1はテキスト集合を構文解析技術によって構文解析した結果を入力し、正例構文木集合2もしくは負例構文木集合3として保存する。部分構文木枚挙手段4は正例構文木集合2の各構文木に対して、その部分構文木を全て枚挙し、情報量基準計算手段5は枚挙された各部分構文木に対して、正例構文木集合2における出現頻度A、負例構文木集合3における出現頻度Bを集計し、その部分構文木の特徴度を木の複雑性を考慮した情報量基準を用いて計算する。結果出力手段6は枚挙された部分構文木に対して、情報量基準計算手段5で計算された情報量基準を特徴度として付与して出力する。
【選択図】 図1
Description
前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙する手段と、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算する手段とを備えている。
構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出する手段と、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更する手段とを備えている。
構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出する手段と、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行う手段とを備えている。
受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を備えている。
受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を備えている。
ESC−(ESC1+ESC0)−λ’*L ・・・(1)
を使用してもよい。但し、(1)式の各項は、
ESC=C+λ*Sqrt((C+D)*Log(C+D))
ESC1=B+λ*Sqrt((A+B)*Log(A+B))
ESC0=(C−A)
+λ*Sqrt((C+D−A−B)
*Log(C+D−A−B))
L=−X*Log(P1)
−Y*Log(P0)
+X*Log(V)
で与えられる。ここで、P1=X/(X+Y)、P2=Y/(X+Y)、Vは入力された構文木におけるノードラベルのバリエーション数、λ,λ’は正の定数をとるものとする。また、項Lは複雑な構造の木ほど大きな値になり、いたずらに大きな木の特徴度にペナルティを与えることができる。
・ノードは日本語の語順に従って表示する
・1行に1ノードの表示を行う
・深さの大きいノードが左に、浅いノードが右に来るようにタブ位置をつける
・同じ深さのノードは同じタブ位置をつける
・ノードの連結構造は記号等のキャラクターを用いて表示する
・連結構造とともに表示されるノードラベルの文字数は固定する
・連結構造と別に文字数を固定しないでノードラベルを再表示する
・部分構文木を元のテキストに逆変換する
の全て、もしくはいくつかを行ってもよい。
IG(typical)=I(typical)+αI(detail)
+βI(ol)+γI(simple)
−Loss(typical)
というように計算し、最も情報量の多い代表表現候補を代表表現として出力し、それ以外のSに属する部分構文木を検出する方法もある。
代表表現(typical)
「テレビのスイッチが壊れた」 情報量 I(typical)
部分表現/詳細部分木(detail)
「購入したテレビのスイッチが壊れた」 情報量 I(detail)
部分表現/部分的重複(over lap)
「古いテレビのスイッチが壊れた」
「TVのスイッチが壊れた」 情報量 I(ol)
部分表現/簡素部分木(simple)
「テレビのスイッチ」、「テレビが壊れた」 情報量 I(simple)
情報量I(x)=(Ns+1)
*log((Ns+1)/(Ns+Nf+2))
但し、Ns=xの正例における頻度、Nf=xの負例における頻度、xが複数の部分木からなる場合は、頻度の重複に注意。この情報量は負の値を取る。
α=詳細部分木の認識重み
β=重複部分木の認識重み
γ=簡素部分木の認識重み
Loss(x)=認識ロス関数:xに含まれる単語数に関して単調に増加する関数
というように定義する。
I(X,Y)=H(X)−H(X|Y)
で定義される。H(X)はエントロピ、H(X|Y)は条件つきエントロピである。本実施例で用いた情報量I(y)は、条件つきエントロピ「−H(X|y)」のXの成立項を取り出したものである。H(X)は共通であるため、無視している。
2 正例構文木集合
3 負例構文木集合
4 部分構文木枚挙手段
5 情報量基準計算手段
6 結果出力手段
7 包含・類似関係整理手段
8 キャラクタディスプレイ用表示整形手段
9 兄弟整列手段
10 ルート多様化手段
Claims (23)
- テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙する手段と、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算する手段とを有することを特徴とするテキストマイニング装置。 - テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出する手段と、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更する手段とを有することを特徴とするテキストマイニング装置。 - テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出する手段と、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行う手段とを有することを特徴とするテキストマイニング装置。 - 前記情報量基準として、前記構文木の正例頻度と負例頻度と文字列の長さとの組、前記構文木を含む詳細部分木の正例頻度と負例頻度と認識重みとの組、前記構文木に含まれる簡素部分木の正例頻度と負例頻度と認識重みとの組、前記構文木と重複する重複部分木の正例頻度と負例頻度と認識重みとの組のうちの任意の組の組み合わせから計算される認識情報量基準を用いることを特徴とする請求項1から請求項3のいずれか記載のテキストマイニング装置。
- 受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を含むことを特徴とする請求項1から請求項4のいずれか記載のテキストマイニング装置。
- 受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を含むことを特徴とする請求項1から請求項5のいずれか記載のテキストマイニング装置。
- テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を有することを特徴とするテキストマイニング装置。 - テキスト集合の特徴表現を抽出するテキストマイニング装置であって、
受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を有することを特徴とするテキストマイニング装置。 - テキスト集合の特徴表現を抽出するテキストマイニング装置に用いられる変換装置であって、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する木構造データ変換手段を有することを特徴とする変換装置。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いられる変換装置であって、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する木構造データ変換手段を有することを特徴とする変換装置。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙するステップと、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算するステップとを有することを特徴とするテキストマイニング方法。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出するステップと、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更するステップとを有することを特徴とするテキストマイニング方法。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置側に、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出するステップと、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行うステップとを有することを特徴とするテキストマイニング方法。
- 前記情報量基準として、前記構文木の正例頻度と負例頻度と文字列の長さとの組、前記構文木を含む詳細部分木の正例頻度と負例頻度と認識重みとの組、前記構文木に含まれる簡素部分木の正例頻度と負例頻度と認識重みとの組、前記構文木と重複する重複部分木の正例頻度と負例頻度と認識重みとの組のうちの任意の組の組み合わせから計算される認識情報量基準を用いることを特徴とする請求項11から請求項13のいずれか記載のテキストマイニング方法。
- 前記テキストマイニング装置が、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成することを特徴とする請求項11から請求項14のいずれか記載のテキストマイニング方法。
- 前記テキストマイニング装置が、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成することを特徴とする請求項11から請求項15のいずれか記載のテキストマイニング方法。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置が、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成することを特徴とするテキストマイニング方法。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法であって、前記テキストマイニング装置が、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成することを特徴とするテキストマイニング方法。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、前記テキスト集合を示す正例と前記テキスト集合の対照群として与えられるテキスト集合を示す負例との二つの構文木集合を受け取った時に前記正例に属する構文木の部分構文木を枚挙する処理と、その枚挙された各部分構文木に対して前記部分構文木の出現頻度及び木の複雑さを考慮した情報量基準によって前記部分構文木の正例における特徴度を計算する処理とを実行させるためのプログラム。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて複数抽出する処理と、その抽出された複数の部分構文木に対してそれらの包含関係及び重複関係に基づいて出力方法を変更する処理とを実行させるためのプログラム。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、構文木の集合を受け取った時に前記構文木の集合からその部分構文木を少なくとも頻度及び情報量基準のうちの一方に基づいて抽出する処理と、その抽出された部分構文木に対して日本語の語順でノードを表示し、深いノードを左に、浅いノードを右に、深さが等しいノードを同じ位置にそれぞれ配置するためにキャラクタディスプレイデバイス用の表示整形を行う処理とを実行させるためのプログラム。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、受け取った木構造データの中の兄弟関係にあるノードの兄弟順をラベル順にソートしかつ同ラベルの兄弟ノードが存在する場合に兄弟関係の全ての順列を生成してその数だけ構文木を生成する処理を実行させるためのプログラム。
- テキスト集合の特徴表現を抽出するテキストマイニング装置に用いるテキストマイニング方法のプログラムであって、コンピュータに、受け取った木構造データの中の特定のノードをルートノードとして始点及び終点のない無向グラフとみなした時に元の木構造データと等しくなる木構造データを生成する処理を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004206661A JP2006031198A (ja) | 2004-07-14 | 2004-07-14 | テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004206661A JP2006031198A (ja) | 2004-07-14 | 2004-07-14 | テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006031198A true JP2006031198A (ja) | 2006-02-02 |
Family
ID=35897499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004206661A Pending JP2006031198A (ja) | 2004-07-14 | 2004-07-14 | テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006031198A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008062822A1 (fr) * | 2006-11-22 | 2008-05-29 | Nec Corporation | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte |
WO2011148571A1 (ja) * | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
US9135326B2 (en) | 2009-12-10 | 2015-09-15 | Nec Corporation | Text mining method, text mining device and text mining program |
JP2023007367A (ja) * | 2021-06-30 | 2023-01-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 |
-
2004
- 2004-07-14 JP JP2004206661A patent/JP2006031198A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008062822A1 (fr) * | 2006-11-22 | 2008-05-29 | Nec Corporation | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte |
US9135326B2 (en) | 2009-12-10 | 2015-09-15 | Nec Corporation | Text mining method, text mining device and text mining program |
WO2011148571A1 (ja) * | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
JPWO2011148571A1 (ja) * | 2010-05-24 | 2013-07-25 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
JP5751253B2 (ja) * | 2010-05-24 | 2015-07-22 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
US9189748B2 (en) | 2010-05-24 | 2015-11-17 | Nec Corporation | Information extraction system, method, and program |
JP2023007367A (ja) * | 2021-06-30 | 2023-01-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 |
JP7358698B2 (ja) | 2021-06-30 | 2023-10-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Sentiment analysis of multimodal twitter data | |
Welbers et al. | Text analysis in R | |
Akimushkin et al. | Text authorship identified using the dynamics of word co-occurrence networks | |
Ghosh et al. | Fracking sarcasm using neural network | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
US9323741B2 (en) | System and method for searching functions having symbols | |
US20160299955A1 (en) | Text mining system and tool | |
US8312041B2 (en) | Resource description framework network construction device and method using an ontology schema having class dictionary and mining rule | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US20060245641A1 (en) | Extracting data from semi-structured information utilizing a discriminative context free grammar | |
US20080221870A1 (en) | System and method for revising natural language parse trees | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
JP2007122719A (ja) | 複数の言語を連動する自動完成推薦語提供システムおよび方法 | |
Reganti et al. | Modeling satire in English text for automatic detection | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Biten et al. | Ocr-idl: Ocr annotations for industry document library dataset | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN108319583A (zh) | 从中文语料库提取知识的方法与系统 | |
Fernández-González et al. | Faster shift-reduce constituent parsing with a non-binary, bottom-up strategy | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN116561275A (zh) | 对象理解方法、装置、设备及存储介质 | |
CN104881446A (zh) | 搜索方法及装置 | |
Pham et al. | Information extraction for Vietnamese real estate advertisements | |
CN111259661B (zh) | 一种基于商品评论的新情感词提取方法 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090406 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090519 |