JP5657338B2 - 入力情報分析装置 - Google Patents
入力情報分析装置 Download PDFInfo
- Publication number
- JP5657338B2 JP5657338B2 JP2010234997A JP2010234997A JP5657338B2 JP 5657338 B2 JP5657338 B2 JP 5657338B2 JP 2010234997 A JP2010234997 A JP 2010234997A JP 2010234997 A JP2010234997 A JP 2010234997A JP 5657338 B2 JP5657338 B2 JP 5657338B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- input
- classification
- symbol
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 39
- 239000000284 extract Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 description 66
- 239000011159 matrix material Substances 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 239000010749 BS 2869 Class C1 Substances 0.000 description 1
- 239000010750 BS 2869 Class C2 Substances 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
テキストマイニング技術の一つとして、予めカテゴリ(分類)を定めない文書分類技術(文書クラスタリング)が提案されている。例えば、特許文献1に記載されているような文書クラスタリングが知られている。この特許文献1に記載されている文書クラスタリングは、(1)分析対象のテキスト集合に応じて適切なクラスタ数(分類数)を推定する、(2)生成されたクラスタ(分類)に対し意味内容を示すクラスタラベル語を付与する、(3)文書データを階層構造に分類する階層化クラスタリング等を特徴としている。
本発明は、このような点に鑑みて創案されたものであり、文書等の入力情報を分析する入力情報分析装置において、分析結果(クラスタリング結果)を容易に理解することができる技術を提供することを目的とする。
本発明の入力情報分析装置は、入力手段、管理手段、入力情報解析手段、分類帰属度判別手段、分類特徴情報判別手段、分類シンボル座標情報算出手段、入力シンボル座標情報算出手段、出力手段を備えている。入力手段としては、テンキー、マウス、記憶媒体に記憶されている情報を読み取る読取手段等の種々の公知の入力手段が用いられる。出力手段としては、表示手段や印刷手段等の公知の種々の出力手段が用いられる。
入力情報解析手段は、入力手段から入力された複数の入力情報に含まれている複数の単語情報(変化形を考慮した、互いに異なる単語情報)を抽出し、抽出した各単語情報と各入力情報との対応関係を解析する。各単語情報と各入力情報との対応関係は、例えば、n行(n個の異なる単語情報)×m列(m個の入力情報)の単語・入力情報行列として判別することができる。
分類帰属度判別手段は、入力情報解析手段によって解析された、各単語情報と各入力情報との対応関係と分類数に基づいて、入力情報が分類に属する度合いを示す、入力情報の分類に対する帰属度を、各入力情報について、分類数の各分類に対して判別する。
分類特徴情報判別手段は、入力情報解析手段によって解析された、各単語情報と各入力情報との対応関係と分類数に基づいて、単語情報が分類に属する度合いを示す、単語情報の分類に対する帰属度を、各単語情報について、各分類に対して判別する。そして、判別した各単語情報の各分類に対する帰属度に基づいて、各分類に対して、複数の単語情報の中から、入力手段から入力された分類特徴情報数の単語情報を選択し、各分類の特徴を示す分類特徴情報として判別する。分類特徴情報数としては、適宜の正の整数を設定することができる。
分類帰属度判別手段により各入力情報の各分類に対する帰属度を判別する手法や、分類特徴情報判別手段により各単語情報の各分類に対する帰属度を判別する手法としては、公知の種々の手法を用いることができる。例えば、後述するNMF法を用いることができる。NMF法を用いる場合には、各入力情報の各分類に対する帰属度と各単語情報の各分類に対する帰属度を同時に判別することができる。
分類シンボル座標情報算出手段は、分類帰属度判別手段によって判別された、各入力情報の各分類に対する帰属度に基づいて、各分類を示す分類シンボル情報を、類似している分類を示す分類シンボル情報が隣接するように2次元平面上に配置するための分類シンボル座標情報を算出する。分類シンボル情報としては、記号や文字等の種々の情報を用いることができる。分類シンボル座標情報算出手段は、さらに、分類シンボル座標情報で示される位置を中心とする円または楕円に沿った位置に、当該分類シンボル座標位置に配置される分類シンボル情報で示される分類の分類特徴情報を配置するための分類特徴座標情報を算出する。
入力シンボル座標情報算出手段は、各入力情報を示す入力シンボル情報を、分類シンボル情報が配置された、分類を座標軸とする2次元平面上に配置するための入力シンボル座標情報を算出する。入力シンボル情報としては、分類シンボル情報と識別可能な、記号や文字等の種々の情報を用いることができる。
管理手段は、分類シンボル座標情報算出手段によって算出された分類シンボル座標情報および分類特徴座標情報と、入力シンボル座標情報算出手段によって算出された入力シンボル座標情報に基づいて、分類シンボル情報、分類特徴情報および入力シンボル情報を出力手段から出力する。
本発明では、類似している分類の分類シンボル情報が2次元平面上に配置されるため、類似している分類が存在するか否かを容易に把握することができる。また、どの分類に属する入力情報の数が多いかを容易に把握することができる。また、2次元平面上に分類シンボル情報とともに、分類シンボル情報で示される分類の分類特徴情報も配置されるため、各分類の内容を容易に理解することができる。さらに、各分類の分類特徴情報が、各分類を示す分類シンボル情報の周りに配置されるため、各分類の内容をより容易に把握することができる。
円または楕円に沿った位置は、厳密に円または楕円の外周に沿っていなくてもよい。
なお、円又は楕円に沿って配置する場合には、円または楕円の外周線が閉じているため、隣接して配置されている分類シンボル情報で示される分類が類似していない箇所が存在することがある。例えば、類似している分類を示す分類シンボル情報を一方向に沿って順に配置する場合(第1番目の分類を示す第1番目の分類シンボル情報を配置し、第1番目の分類に類似している第2番目の分類を示す第2番目の分類シンボル情報を第1番目の分類シンボル情報に対して時計回り方向に配置する場合)には、最後の分類シンボル情報で示される分類と第1番目の分類シンボル情報で示される分類が類似していないことがある。本形態では、このような配置態様も、「類似している分類を示す分類シンボル情報が隣接するように2次元平面上に配置する」構成に包含される。
本形態では、閉じている線に沿って分類シンボル情報が配置されるため、類似している分類をより容易に把握することができる。
異なる出力態様としては、指示されている分類特徴情報を含む入力情報を示す入力シンボル情報と他の入力シンボル情報を識別可能な種々の出力態様を用いることができる。例えば、色、形、大きさ等が異なる出力態様が用いられる。
なお、分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報も出力可能に構成するのが好ましい。例えば、入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報を、他の入力シンボル情報と異なる出力態様で出力するとともに、当該分類特徴情報を含む入力情報の一覧を出力するように構成する。あるいは、入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報を、他の入力シンボル情報と異なる出力態様で出力し、この状態で、入力情報出力要求信号(例えば、入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報のいずれかを指示する入力情報出力要求信号)が入力手段から入力されると、当該分類特徴情報を含む入力情報の一覧を出力する。
本形態では、分類特徴情報と入力情報との対応関係、同じ分類特徴情報を含む入力情報の数や分布状態を容易に把握することができる。
本発明のプログラムあるいは記憶媒体を用いることにより、前述した効果を得ることができる。
本実施の形態の入力情報分析装置の概略構成が図1に示されている。
本実施の形態の入力情報分析装置は、処理手段10、記憶手段20、入力手段30、出力手段40等により構成される。
記憶手段20としては、ROMやRAM等の種々の記憶手段を用いることができる。記憶手段20は、入力された複数の入力情報が記憶される入力情報データベース20aを有している。記憶手段20の配設位置は、処理手段10がアクセス可能な範囲内で適宜設定可能である。
記憶手段20が本発明の「記憶手段」に対応する。
入力手段30としては、入力情報や各種の指示信号等を入力可能な、キーボード、表示手段の表示部に設けられているタッチパネル、マウス、記憶媒体に記憶されている情報を読み取る情報読取手段等の種々の入力手段を用いることができる。
入力手段30が本発明の「入力手段」に対応する。
出力手段40としては、表示手段や印刷手段等の出力情報を視覚で確認することができる出力手段を用いることができる。なお、遠方の端末装置と通信可能に構成される場合には、遠方の端末装置の入力手段や出力手段が、本発明の入力手段や出力手段に対応する。
出力手段40が本発明の「出力手段」に対応する。
管理手段10aが本発明の「管理手段」に対応し、入力情報解析手段10bが本発明の「入力情報解析手段」に対応し、クラスタ帰属度判別手段10cが本発明の「分類帰属度判別手段」に対応し、クラスタラベル語判別手段10dが本発明の「分類特徴情報判別手段」に対応し、クラスタシンボル座標情報算出手段10eが本発明の「分類シンボル座標情報算出手段」に対応し、入力シンボル座標情報算出手段10fが本発明の「入力シンボル座標情報算出手段」に対応する。
また、抽出した各単語情報(変化形を考慮した異なる単語情報)と各入力情報との対応関係を解析する。各単語情報と各入力情報との対応関係は、例えば、n個の単語情報×m個の入力情報から成る行列の形態で解析することができる。
入力情報データベース20aに記憶されている入力情報は、入力手段30から入力されて記憶される。したがって、入力情報データベース20aに記憶されている入力情報は、入力手段30から入力された入力情報に包含される。
ここで、複数の入力情報をクラスタリングする(分類する)手法としては、種々の手法が知られている。
例えば、入力情報が属するクラスタ(分類)を一つに決定するハードクラスタリングが知られている。代表的なアルゴリズムとしては、例えば、k−means法、スペクトルクラスタリングが知られている。
また、入力情報が複数のクラスタ(分類)に属することを許容するソフトクラスタリングが知られている。代表的なアルゴリズムとしては、例えば、NMF(Non−negative Matrix Factorization:非負値行列因子分解)、pLSI、混合分布モデルが知られている。
NMFは、特異値分解と異なり、非負の行列に分解する次元縮約を利用したクラスタリング手法であり、文書以外にも画像、音声等のデータも取り扱うことができる。この手法により、文書データのクラスタリングと同時に、生成されたクラスタの特徴を表すクラスタラベル語(分類特徴語)を抽出することができる。
本実施の形態では、入力情報のクラスタリング手法としてNMFを用いている。
以下の[式1]に示すように、n×mの単語文書行列Xを、想定するクラスタ数kの次元に縮約するために、n×kの行列Uと、k×mの行列VTに分解する。VTは、Vの転置行列である。なお、nは、異なり単語数(入力された複数の文章中に出現する異なる単語の数)であり、mは、文書数であり、kは、クラスタ数(分類数)である。行列Xの要素としては、単語情報を用いることもできるし、[1]あるいは[0]を用いることもできるし、単語情報重要度評価値(TF−IDF)を用いることもできる。単語情報重要度評価値(TF−IDF)は、(TF−IDF)=TF×log(N/DF)によって求めることができる。ここで、TFは、文書毎の単語情報出現回数であり、Nは、文書の数であり、DFは、ある単語情報を含む文書の数である。
X=U×VT 〔式1〕
[式1]で分解された行列Uは、単語がクラスタに属する度合い(単語のクラスタに対する帰属度)を示し、行列Vは、文書がクラスタに属する度合い(文書のクラスタに対する帰属度)を示す。また、複数の単語のうち、クラスタに属する度合い(単語のクラスタに対する帰属度)の高い単語は、そのクラスタの特徴語(クラスタの内容を示すクラスタラベル語)として抽出することができる。
ここで、NMFは、縮約後の各軸をトピック(話題)と解釈することができ、その軸へ射影した値が関連度の大きさを表していると考える。NMFでは、縮約後の各軸は、LSI(潜在的意味インデキシング)のように直交していないが、縮約後の各軸を文書の構成要素であるトピックと捉えることによって、より意味的に適切なクラスタリングを行うことができる。
NMFを用いたクラスタリングでは、与えられた単語文書行列Xとクラスタ数kから、行列VとUを以下の[式2]の繰り返し計算から求める。
なお、UとVの初期値は適当な乱数が与えられる。
繰り返し計算によって||X−UVT||の値(分解の誤差)は単調に減少するが、解の最適性を保証するものではない(初期値に依存して局所最適解に収束)。
そして、判別した各単語情報の各クラスタに対する帰属度に基づいて、各クラスタに対して、複数の単語情報の中からクラスタラベル数(分類特徴情報数)の単語情報を選択し、選択した単語情報を各クラスタのクラスタラベル語(分類特徴情報)として判別する。クラスタラベル数は、入力手段30から適宜入力することができる。勿論、記憶手段20に予め記憶されているクラスタラベル数を用いることもできる。また、各単語情報の各クラスタに対する帰属度に基づいて、クラスタラベル数の単語情報を選択する方法としては、例えば、各単語情報の該当クラスタに対する帰属度を比較し、該当クラスタに対する帰属度が高いクラスタラベル数の単語情報を選択する方法が用いられる。
なお、クラスタ帰属度判別手段10cによる、入力情報のクラスタに対する帰属度の判別方法や、クラスタラベル語判別手段10dによる、単語情報のクラスタに対する帰属度の判別方法はこれに限定されない。
また、後述する入力情報を示す入力シンボル情報とクラスタシンボル情報との関係や入力情報の分布状態の判別を容易にするために、対応分析により算出した座標情報を、円(例えば、表示手段の表示エリアの内接円)または楕円に射影し、射影した位置を、クラスタシンボル情報を配置するクラスタシンボル座標情報として用いている。
クラスタシンボル情報を、円または楕円等の閉じている線に沿って、類似しているクラスタを示すクラスタシンボル情報が隣接するように配置する方法としては適宜の方法を用いることができる。例えば、一方向(時計回り方向あるいは反時計回り方向)に、類似しているクラスタが隣接するように各クラスタを示すクラスタシンボル情報を配置する方法を用いることができる。
クラスタシンボル情報を2次元平面上の円または楕円に沿って(閉じている線に沿って)配置することにより、類似したクラスタをより容易に把握することができる。勿論、クラスタシンボル情報の配置態様は、これに限定されず、適宜設定可能である。
このように、クラスタシンボル情報の周りに、当該クラスタシンボル情報で示されるクラスタのクラスタラベル語が配置されていることにより、クラスタの内容を容易に把握することができる。
本実施の形態では、クラスタシンボル座標情報算出手段10eによってクラスタシンボル座標情報およびクラスタラベル語座標情報を算出したが、クラスタシンボル座標情報算出手段10eに代えて、クラスタシンボル座標情報算出手段とクラスタラベル語座標情報算出手段を設け、クラスタシンボル座標情報算出手段により、前述した方法でクラスタシンボル座標情報を算出し、クラスタラベル語座標情報算出手段により、前述した方法でクラスタラベル語座標情報を算出してもよい。
クラスタシンボル情報、入力シンボル情報としては、記号、文字や線等の種々の情報を用いることができる。また、クラスタラベル語としては、通常、文字情報が用いられる。
図2に示されている処理は、例えば、入力情報分析処理の開始を指示する入力情報分析処理開始信号が入力手段30から入力されることによって開始される。
ステップA2では、入力手段30からクラスタ数(分類数)k、クラスタラベル語数(分類特徴情報数)uが入力される。なお、クラスタ数kおよびクラスタラベル語数uは、予め入力し、記憶手段20に記憶させておいてもよい。
ステップA3では、入力されたm個の文書からn個の単語情報Wt(t:1,2,…,n)を抽出する。そして、抽出した各単語情報Wtと各文書Diとの対応関係を判別する。ステップA3の処理は、入力情報解析手段10bによって実行される。
そして、判別した、各単語情報Wtの各クラスタCjに対する帰属度に基づいて、各クラスタCjに対して、複数の単語情報Wtの中から、ステップA2で入力されたクラスタラベル語数uの単語情報を選択し、選択したクラスタラベル語数uの単語情報を各クラスタCjのクラスタラベル語Sjr(j:1,2,…,k、r:1,2,…,u)として判別する。ステップA5の処理は、クラスタラベル語判別手段10dによって実行される。
本実施の形態では、まず、各文書Diの各クラスタCjに対する帰属度Rijに基づいて、対応分析により、図5に示されているように、クラスタCj間の相関を表す2次元座標情報を算出する。この時、類似しているクラスタCjを示すクラスタシンボル情報が隣接するように2次元座標情報が算出される。
そして、図6に示されているように、算出した2次元座標情報を、表示手段の表示画面に内接する円または楕円に射影した位置を示す2次元座標情報を、各クラスタCjを示すクラスタシンボル情報SCjのクラスタシンボル座標情報SCj(xj,yj)とする。ステップA6の処理は、クラスタシンボル座標情報算出手段10eによって実行される。
図8に、クラスタC1を示すクラスタシンボル情報が配置されている箇所を中心とする円に沿ってクラスタC1のクラスタラベル語W10〜W19が配置されている1例が示されている。クラスタラベル語W10〜W19は、クラスタシンボル情報の周りに同じ表示態様で配置されていてもよいが、クラスタラベル語の重要度等に応じて配置位置や表示態様を変えて配置するのが好ましい。
図8では、クラスタラベル語W10〜W19の文書内での共起関係に基づいてグループ分けし、グループ毎に配置している。文書内での共起関係は、例えば、クラスタラベル語が該当クラスタに分類された同一文書に出現しているか否かによって判別する方法等を用いることができる。図8の例では、クラスタラベル語W10、W11およびW12が同じ文書内に出現していることから共起関係がある(相関が高い)と見なされ、{W10、W11、W12}を含むグループができる。同様に、共起関係から、{W13、W14}、{W15、W16、W17}、{W18、W19}を含むグループができる。
クラスタラベル語座標情報の算出方法については、共起関係によりグループ化を行い、得られたグループ数を判別する。次に、クラスタシンボル情報が配置されている箇所を中心とする円周を前記判別したグループ数で等分し、クラスタラベル語の各グループを円周上に配置する起点となる座標を算出する。図8では、円周をグループ数4で等分した箇所を、各グループの起点として算出している。そして、算出したクラスタラベル語の各グループの起点となる座標から一方向(時計方向あるいは反時計方向)に各グループのクラスタラベル語を順に配置する。これにより、クラスタの内容を示す各クラスタラベル語の相関を容易に把握することができる。
なお、各グループのクラスタラベル語を配置する際の配置順序は、各クラスタラベル語の重要度の順等を用いることができる。クラスタラベル語の重要度は、各単語の単語情報重要度評価値(TF−IDF)や、各単語のクラスタに対する帰属度を用いて判別することができる。
また、図8では、各クラスタラベル語W10〜W19の重要度に応じて各クラスタラベル語W10〜W19のフォントサイズを変更している。これにより、各クラスタラベル語W10〜W19の重要度を容易に把握することができる。なお、各クラスタラベル語W10〜W19の重要度を識別可能に表示する方法としては、フォントサイズを変更する方法以外にも、例えば、色を変更する方法等を用いることもできる。
クラスタラベル語の配置方法や表示方法(フォントサイズ、色等)は、前述した方法に限定されず種々の方法を用いることができる。
また、ステップA7の処理は、クラスタシンボル座標情報算出手段10eによって実行される。
図7には、クラスタシンボル情報SCjと文書シンボル情報SDiが表示された1例が示されている。図7に示されている例は、文書D5のクラスタC1に対する帰属度が0.7、クラスタC4に対する帰属度が0.8、クラスタC2およびC3に対する帰属度が0の場合のものである。この場合、クラスタC1に対する帰属度0.7の長さを有するクラスタC1方向のベクトルと、クラスタC4に対する帰属度0.8の長さを有するクラスタC4方向のベクトルを合成した合成ベクトルが文書D5のベクトルを表している。これにより、文書D5を示す文書シンボル情報の文書シンボル座標情報が決定される。なお、各文書のベクトルの長さは、正規化することもできる。
ステップA8の処理は、入力シンボル座標情報算出手段10fによって実行される。
ステップA9の処理は、管理手段10aによって実行される。
本実施の形態では、各クラスタを示すクラスタシンボル情報が、2次元平面上の円に沿って、類似しているクラスタ(分類)を示すクラスタシンボル情報が隣接するように配置されている。また、各クラスタの内容を示すクラスタラベル語が、クラスタシンボル情報を中心とする円に沿って、重要度や共起関係に基づいた配置位置や表示態様で配置されている。そして、文書シンボル情報が、各クラスタに対する帰属度に対応する位置に配置されている。
これにより、入力情報にどのような話題のグループ(クラスタ)があるかを把握することができる。また、類似しているクラスタを容易に把握することができる。また、クラスタラベル語により、クラスタの内容をある程度理解することができる。また、クラスタシンボル情報の位置と文書シンボル情報の位置によって、文書の話題間の相関をある程度把握することができる。
なお、現在の表示状態がどの階層にあるかを把握することができるようにするために、階層状態を示す階層ナビゲーションを設けるのが好ましい。階層ナビゲーションウィンドウは、階層状にクラスタリングが可能なクラスタを指示するために使用することもできる。各階層のクラスタ数は、同じであってもよいし、入力手段30から異なるクラスタ数を設定することができるようにしてもよい。また、下位のクラスタリングが必要な場合に、クラスタ数を設定することができるようにしてもよい。
階層状のクラスタリングを可能とすることにより、より詳細に入力文書の分析を行うことができる。
例えば、図11に示されているように、クラスタシンボル情報、クラスタラベル語、文書シンボル情報が表示画面に表示されている状態で、任意のクラスタラベル語(例えば、「太陽光発電」)が指示されて、クラスタラベル語を指示するクラスタラベル語指示信号(分類特徴情報を指示する分類特徴情報指示信号)が入力手段30から入力されると、クラスタラベル語指示信号で指示されているクラスタラベル語を含む文書(例えば、「太陽光発電」を含む文書)を示す文書シンボル情報が他の文書シンボル情報と識別可能な出力態様で出力される。他の文書シンボル情報と識別可能な出力態様としては、例えば、色、形、大きさ等が異なる出力態様を用いることができる。
なお、クラスタラベル語指示信号で指示されているクラスタラベル語を含む文書(入力情報)も出力可能に構成するのが好ましい。例えば、入力されたクラスタラベル語報指示信号で指示されているクラスタラベル語を含む文書を示す文書シンボル情報を、他の文書シンボル情報と異なる出力態様で出力するとともに、当該クラスタラベル語を含む文書の一覧を出力するように構成する。あるいは、入力されたクラスタラベル語指示信号で指示されているクラスタラベル語を含む文書を示す文書シンボル情報を、他の文書シンボル情報と異なる出力態様で出力し、この状態で、文書出力要求信号(入力情報出力要求信号)が入力手段30から入力されると、当該クラスタラベル語を含む入力情報の一覧を出力する。文書出力要求信号(入力情報出力要求信号)の入力方法としては、例えば、入力されたクラスタラベル語指示信号で指示されているクラスタラベル語を含む文書を示す文書シンボル情報(分類特徴情報を含む入力情報を示す入力シンボル情報)のいずれかを指示する方法等を用いることができる。
これにより、クラスタラベル語(分類特徴情報)と文書(入力情報)との対応関係、同じクラスタラベル語(分類特徴情報)を含む文書(入力情報)の数や分布状態を容易に把握することができる。
例えば、クラスタシンボル情報(分類シンボル情報)を円または楕円に沿って配置したが、クラスタシンボル情報(分離シンボル情報)の配置態様は適宜変更可能である。また、クラスタシンボル情報(分類シンボル情報)の表示態様も適宜変更可能である。
クラスタラベル語(分類特徴情報)をクラスタシンボル情報(分類シンボル情報)を中心とする円または楕円に沿って配置したが、クラスタラベル語(分類特徴情報)の配置態様はこれに限定されない。また、クラスタラベル語(分類特徴情報)の出力は省略することもできる。
各文書(入力情報)の各クラスタ(分類)に対する帰属度や、各単語情報の各クラスタ(分類)に対する帰属度を判別する方法としては、NMF以外の種々の方法を用いることができる。
10a 管理手段
10b 入力情報解析手段
10c クラスタ帰属度判別手段(分類帰属度判別手段)
10d クラスタラベル語判別手段(分類特徴情報判別手段)
10e クラスタシンボル座標情報算出手段(分類シンボル座標情報算出手段)
10f 入力シンボル座標情報算出手段
20 記憶手段
20a 入力情報データベース
30 入力手段
40 出力手段
Claims (5)
- 入力情報を分析する入力情報分析装置であって、
入力手段と、管理手段と、入力情報解析手段と、分類帰属度判別手段と、分類特徴情報判別手段と、分類シンボル座標情報算出手段と、入力シンボル座標情報算出手段と、出力手段を備え、
前記入力情報解析手段は、前記入力手段から入力された複数の入力情報に含まれている複数の単語情報を抽出し、抽出した前記各単語情報と前記各入力情報との対応関係を解析し、
前記分類帰属度判別手段は、前記入力情報解析手段によって解析された、前記各単語情報と前記各入力情報との対応関係と、前記入力手段から入力された分類数に基づいて、入力情報が分類に属する度合いを示す入力情報の帰属度を、前記各入力情報について、前記分類数の各分類に対して判別し、
前記分類特徴情報判別手段は、
前記入力情報解析手段によって判別された、前記各単語情報と前記各入力情報との対応関係と、前記入力手段から入力された前記分類数に基づいて、単語情報が分類に属する度合いを示す単語情報の帰属度を、前記各単語情報について、前記各分類に対して判別し、
前記判別した各単語情報の帰属度に基づいて、前記各分類に対して、前記複数の単語情報の中から、前記入力手段から入力された分類特徴情報数の単語情報を選択し、前記各分類の特徴を示す分類特徴情報として判別し、
前記分類シンボル座標情報算出手段は、前記分類帰属度判別手段によって判別された前記各入力情報の帰属度に基づいて、前記各分類を示す分類シンボル情報を、類似している分類を示す分類シンボル情報が隣接するように2次元平面上に配置するための分類シンボル座標情報を算出し、さらに、前記算出した分類シンボル座標情報で示される位置を中心とする円または楕円に沿った位置に、当該分類シンボル座標位置に配置される分類シンボル情報で示される分類の分類特徴情報を配置するための分類特徴座標情報を算出し、
前記入力シンボル座標情報算出手段は、前記各入力情報を示す入力シンボル情報を、前記分類シンボル情報が配置された、前記分類を座標軸とする2次元平面上に配置するための入力シンボル座標情報を算出し、
前記管理手段は、前記分類シンボル座標情報算出手段によって算出された分類シンボル座標情報および分類特徴座標情報と、前記入力シンボル座標情報算出手段によって算出された入力シンボル座標情報に基づいて、前記分類シンボル情報、前記分類特徴情報および前記入力シンボル情報を前記出力手段から出力することを特徴とする入力情報分析装置。 - 請求項1に記載の入力情報分析装置であって、
前記分類シンボル座標情報算出手段は、前記分類シンボル情報が、2次元平面上の円または楕円に沿った位置に配置されるように、前記分類シンボル座標情報を算出することを特徴とする入力情報分析装置。 - 請求項1または2に記載の入力情報分析装置であって、
前記管理手段は、前記分類シンボル情報、前記入力シンボル情報および前記分類特徴情報を前記出力手段から出力している状態で、いずれかの分類特徴情報を指示する分類特徴情報指示信号が前記入力手段から入力されると、前記入力された分類特徴情報指示信号で指示されている分類特徴情報を含む入力情報を示す入力シンボル情報を、他の入力シンボル情報と異なる出力態様で出力することを特徴とする入力情報分析装置。 - コンピュータに請求項1〜3のいずれかに記載の前記管理手段と、前記入力情報解析手段と、前記分類帰属度判別手段と、前記分類特徴情報判別手段と、前記分類シンボル座標情報算出手段と、前記入力シンボル座標情報算出手段の処理を実行させるためのプログラム。
- コンピュータに請求項1〜3のいずれかに記載の前記管理手段と、前記入力情報解析手段と、前記分類帰属度判別手段と、前記分類特徴情報判別手段と、前記分類シンボル座標情報算出手段と、前記入力シンボル座標情報算出手段の処理を実行させるためのプログラムが記録された記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010234997A JP5657338B2 (ja) | 2010-10-19 | 2010-10-19 | 入力情報分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010234997A JP5657338B2 (ja) | 2010-10-19 | 2010-10-19 | 入力情報分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012088930A JP2012088930A (ja) | 2012-05-10 |
JP5657338B2 true JP5657338B2 (ja) | 2015-01-21 |
Family
ID=46260489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010234997A Active JP5657338B2 (ja) | 2010-10-19 | 2010-10-19 | 入力情報分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5657338B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5944809B2 (ja) * | 2012-10-29 | 2016-07-05 | 日本電信電話株式会社 | 文書解析装置、方法、及びプログラム |
JP6078380B2 (ja) * | 2013-03-04 | 2017-02-08 | 日本放送協会 | 文書解析装置、及びプログラム |
JP6166688B2 (ja) * | 2014-06-04 | 2017-07-19 | 日本電信電話株式会社 | データ解析方法、装置、及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9027A (en) * | 1852-06-15 | Improvement in preparations of archil | ||
JP4120137B2 (ja) * | 2000-06-30 | 2008-07-16 | 富士ゼロックス株式会社 | 接続関係表示装置 |
JP2003167914A (ja) * | 2001-11-30 | 2003-06-13 | Fujitsu Ltd | マルチメディア情報検索方法、プログラム、記録媒体及びシステム |
JP5171087B2 (ja) * | 2007-03-29 | 2013-03-27 | 株式会社中電シーティーアイ | 入力情報分析装置 |
JP5594145B2 (ja) * | 2008-11-26 | 2014-09-24 | 日本電気株式会社 | 検索装置、検索方法、及びプログラム |
-
2010
- 2010-10-19 JP JP2010234997A patent/JP5657338B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012088930A (ja) | 2012-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7302022B2 (ja) | テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 | |
CN108628971B (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
Dou et al. | Hierarchicaltopics: Visually exploring large text collections using topic hierarchies | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108647205A (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
JPH07295989A (ja) | データを解析するためのインタプリタを形成する装置 | |
JP5137567B2 (ja) | 検索フィルタリング装置及び検索フィルタリングプログラム | |
EP4172803A1 (en) | Computerized information extraction from tables | |
JP2008084064A (ja) | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
US20210350068A1 (en) | Descriptive insight generation and presentation system | |
JP2022500808A (ja) | 文生成方法と装置、電子機器及びプログラム | |
CN107077640A (zh) | 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理 | |
Priya | Emoji based sentiment analysis using KNN | |
Gawalt et al. | Discovering word associations in news media via feature selection and sparse classification | |
JP5657338B2 (ja) | 入力情報分析装置 | |
WO2014057965A1 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
KR20200053334A (ko) | 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템 | |
Kusumaningrum et al. | WCLOUDVIZ: Word cloud visualization of Indonesian news articles classification based on Latent dirichlet allocation | |
CN112560490A (zh) | 知识图谱关系抽取方法、装置、电子设备及存储介质 | |
US20230153335A1 (en) | Searchable data structure for electronic documents | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN113111664A (zh) | 文本的生成方法、装置、存储介质及计算机设备 | |
CN113495963A (zh) | 网络安全知识图谱的嵌入表示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5657338 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |