JP3600611B2 - 情報処理装置および情報処理方法、並びに情報処理プログラム - Google Patents
情報処理装置および情報処理方法、並びに情報処理プログラム Download PDFInfo
- Publication number
- JP3600611B2 JP3600611B2 JP2002360352A JP2002360352A JP3600611B2 JP 3600611 B2 JP3600611 B2 JP 3600611B2 JP 2002360352 A JP2002360352 A JP 2002360352A JP 2002360352 A JP2002360352 A JP 2002360352A JP 3600611 B2 JP3600611 B2 JP 3600611B2
- Authority
- JP
- Japan
- Prior art keywords
- thesaurus
- correlation coefficient
- appearance frequency
- text data
- sorting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、情報処理装置および情報処理方法、並びに情報処理プログラムに関し、特に、テキストデータを元にシソーラスを作成し、シソーラス間の相関を求める情報処理装置および情報処理方法、並びに情報処理プログラムに関する。
【0002】
【従来の技術】
各単語の出現回数の集計結果を参照して、切り出した単語から出現頻度が規定値以上の単語を抽出し、その抽出した各単語間の関連性を評価して、関連度が規定値以上の共起単語のクラスタを生成する。このとき、予め、分析対象のテキストに合わせてカテゴリ辞書を作成すれば、そのテキストの分析結果を提示することができるというものがある(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開2001−101194号公報(図1)
【0004】
【発明が解決しようとする課題】
しかしながら、テキストデータから抽出したキーワード同士の相関に基づいて、テキストデータの特徴を検出することができないという問題があった。
【0005】
本発明はこのような状況に鑑みてなされたものであり、テキストデータから抽出したキーワード同士の相関に基づいて、テキストデータの特徴を検出することができるようにするものである。
【0006】
【課題を解決するための手段】
請求項1に記載の情報処理装置は、テキストデータを入力する入力手段と、テキストデータを記憶するテキストデータ記憶手段と、テキストデータに対してワードカッティング処理を実行するワードカッティング手段と、ワードカッティング処理が行われたテキストデータに対して構文解析処理を行う構文解析手段と、構文解析処理が行われたテキストデータからシソーラスを作成するシソーラス作成手段と、シソーラス作成手段によって作成されたシソーラスを記憶するシソーラス記憶手段と、ワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行うシソーラス仕分け手段と、シソーラス仕分け手段による仕分け処理によって仕分けられた、テキストデータにシソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶手段と、仕分け結果記憶手段によって記憶されている仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出手段と、出現頻度算出手段によって算出された出現頻度を記憶する出現頻度記憶手段と、シソーラス間の相関係数を算出する相関係数算出手段と、相関係数算出手段によって算出されたシソーラス間の相関係数を記憶する相関係数記憶手段と、シソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計算出手段によって算出されたシソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶手段と、出現頻度記憶手段によって記憶されている出現頻度と、シソーラス毎の相関係数合計記憶手段によって記憶されているシソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示手段とを備え、ワードカッティング手段および構文解析手段は、シソーラス作成手段によって作成されたシソーラスに基づいて再度ワードカッティング処理および構文解析処理を行うことを特徴とする。
請求項2に記載の情報処理方法は、入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置における情報処理方法であって、入力手段がテキストデータを入力する入力ステップと、テキストデータ記憶手段がテキストデータを記憶するテキストデータ記憶ステップと、ワードカッティング手段がテキストデータに対してワードカッティング処理を実行するワードカッティングステップと、構文解析手段がワードカッティング処理が行われたテキストデータに対して構文解析処理を行う構文解析ステップと、シソーラス作成手段が構文解析処理が行われたテキストデータからシソーラスを作成するシソーラス作成ステップと、シソーラス記憶手段がシソーラス作成ステップにおいて作成されたシソーラスを記憶するシソーラス記憶ステップと、ワードカッティング手段および構文解析手段がシソーラス記憶ステップにおいて記憶されたシソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、シソーラス仕分け手段がワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行うシソーラス仕分けステップと、仕分け結果記憶手段がシソーラス仕分けステップにおける仕分け処理によって仕分けられた、テキストデータにシソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、出現頻度算出手段が仕分け結果記憶ステップにおいて記憶された仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、出現頻度記憶手段が出現頻度算出ステップにおいて算出された出現頻度を記憶する出現頻度記憶ステップと、相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、相関係数記憶手段が相関係数算出ステップにおいて算出されたシソーラス間の相関係数を記憶する相関係数記憶ステップと、シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、シソーラス毎の相関係数合計記憶手段がシソーラス毎の相関係数合計算出ステップにおいて算出されたシソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、グラフ作成表示手段が出現頻度記憶ステップにおいて記憶された出現頻度と、シソーラス毎の相関係数合計記憶ステップにおいて記憶されたシソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップとを含むことを特徴とする。
請求項3に記載の情報処理プログラムは、入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置を制御する情報処理プログラムであって、入力手段がテキストデータを入力する入力ステップと、テキストデータ記憶手段がテキストデータを記憶するテキストデータ記憶ステップと、ワードカッティング手段がテキストデータに対してワードカッティング処理を実行するワードカッティングステップと、構文解析手段がワードカッティング処理が行われたテキストデータに対して構文解析処理を行う構文解析ステップと、シソーラス作成手段が構文解析処理が行われたテキストデータからシソーラスを作成するシソーラス作成ステップと、シソーラス記憶手段がシソーラス作成ステップにおいて作成されたシソーラスを記憶するシソーラス記憶ステップと、ワードカッティング手段および構文解析手段がシソーラス記憶ステップにおいて記憶されたシソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、シソーラス仕分け手段がワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行うシソーラス仕分けステップと、仕分け結果記憶手段がシソーラス仕分けステップにおける仕分け結果を記憶する仕分け結果記憶ステップと、仕分け結果記憶手段がシソーラス仕分けステップにおける仕分け処理によって仕分けられた、テキストデータにシソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、出現頻度算出手段が仕分け結果記憶ステップにおいて記憶された仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、出現頻度記憶手段が出現頻度算出ステップにおいて算出された出現頻度を記憶する出現頻度記憶ステップと、相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、相関係数記憶手段が相関係数算出ステップにおいて算出されたシソーラス間の相関係数を記憶する相関係数記憶ステップと、シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、シソーラス毎の相関係数合計記憶手段がシソーラス毎の相関係数合計算出ステップにおいて算出されたシソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、グラフ作成表示手段が出現頻度記憶ステップにおいて記憶された出現頻度と、シソーラス毎の相関係数合計記憶ステップにおいて記憶されたシソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップとを実行するように情報処理装置を制御することを特徴とする。
【0007】
【発明の効果】
以上の如く、本発明に係る情報処理装置および情報処理方法、並びに情報処理プログラムによれば、テキストデータを入力し、テキストデータを記憶し、テキストデータに対してワードカッティング処理を実行し、ワードカッティング処理が行われたテキストデータに対して構文解析処理を行い、構文解析処理が行われたテキストデータからシソーラスを作成し、作成されたシソーラスを記憶し、記憶されたシソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行い、ワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行い、仕分け結果を記憶し、記憶された仕分け結果に基づいて、各シソーラス毎に出現頻度を算出し、算出された出現頻度を記憶し、シソーラス間の相関係数を算出し、算出したシソーラス間の相関係数を記憶し、シソーラス毎の相関係数の合計を算出し、算出されたシソーラス毎の相関係数の合計を記憶し、記憶された出現頻度と、シソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するようにしたので、テキストデータから抽出したキーワードから作成したシソーラス同士の相関および出現頻度に基づいて、テキストデータの特徴を検出し、テキストデータに隠れている潜在的な意味を類推することが可能となる。
【0008】
【発明の実施の形態】
図1は、本発明の情報処理装置の一実施の形態の機能ブロック図である。本実施の形態は、パーソナルコンピュータ等で構成されている。同図に示すように、本実施の形態は、機能的に次のようなブロックで構成される。各ブロックの処理は、実際には所定のアプリケーションプログラムによって実行され、各記憶部は、図示せぬハードディスクによって実現される。
【0009】
各ブロックの機能を簡単に説明する。入力部1は、テキストデータを入力し、テキスト記憶部2に記憶させるようになっている。ワードカッティング部3は、テキスト記憶部2に記憶されているテキストデータに対して、ワードカッティング処理を実行するようになっている。構文解析部4は、ワードカッティング処理されたテキストデータに対して構文解析を行うようになっている。
【0010】
シソーラス作成部5は、テキスト記憶部2に記憶されているテキストデータからシソーラスを作成するようになっている。シソーラス記憶部6は、作成されたシソーラスを記憶するようになっている。シソーラス仕分け部7は、全サンプルについて、シソーラス毎に仕分け処理を行うようになっている。仕分け結果記憶部8は、仕分け結果を記憶するようになっている。出現頻度算出部9は、仕分け結果記憶部8に記憶されているデータに基づいて、各シソーラス毎に出現頻度を算出するようになっている。出現頻度記憶部10は、出現頻度算出部9によって算出された結果を記憶するようになっている。
【0011】
相関係数算出部11は、シソーラス間の相関係数を算出するようになっている。相関係数記憶部12は、相関係数算出部11において算出された相関係数を記憶するようになっている。シソーラス毎の相関係数合計算出部13は、求めた相関係数をシソーラス毎に合計するようになっている。シソーラス毎の相関係数合計記憶部14は、シソーラス毎の相関係数合計算出部13において算出されたシソーラス毎の相関係数の合計を記憶するようになっている。グラフ作成表示部15は、出現頻度記憶部10に記憶されている出現頻度と、シソーラス毎の相関係数合計記憶部14に記憶されているシソーラス毎の相関係数合計とに基づいて、グラフを作成し、表示するようになっている。
【0012】
次に、図2のフローチャートを参照して、本実施の形態の処理手順について説明する。ここでは、顧客から寄せられる苦情や要望等のテキストデータを分析する場合について説明する。まず最初に、ステップS1において、入力部1より顧客毎にテキストデータが入力される。例えば、ある顧客から「先週、部品を注文したのだが、まだ納入されない。」が入力されたものとする。入力されたテキストデータは、テキスト記憶部2に記憶される。
【0013】
次に、ステップS2において、ワードカッティング部3により、所定のテキストマイニングツール(アプリケーションソフトウェア)によるワードカッティング処理が行われる。例えば、上記テキストは、「先週、部品 を 注文 し た の だ が、 まだ 納入 され ない。」となる。
【0014】
次に、ステップS3において、構文解析部4により、テキストマイニングツールによる構文解析処理が行われる。例えば、上記テキストは、「先週、部品を 注文したのだが、 まだ納入されない。」となる。
【0015】
次に、ステップS4において、シソーラス作成部5により、類義語(キーワード)を集約したシソーラスの作成が行われる。例えば、図3に示すように、「先週」というシソーラスに、「一週間」等の類義語のキーワードを集約する。また、「注文する」というシソーラスに、「オーダーしたが」等のキーワードを集約する。また、「納入する」というシソーラスに、「搬入する」等のキーワードを集約する。また、「部品」というシソーラスに、「パーツ」等のキーワードを集約する。また、「連絡が」というシソーラスに、「情報を」等のキーワードを集約する。作成されたシソーラスは、シソーラス記憶部6に記憶される。
【0016】
次に、ステップS5において、いま作成され、シソーラス記憶部6に記憶されたシソーラスに基づいて、ワードカッティング部3により、再度、ワードカッティング処理が行われ、構文解析部4により、再度、構文解析処理が行われる。
【0017】
次に、ステップS6において、シソーラス仕分け部7により、全顧客からのテキストデータに対して、その内容について、各シソーラス毎に仕分けが行われる。例えば、各顧客毎に、その顧客の苦情等のテキストデータに含まれるシソーラスには「1」を、含まれないシソーラスには「0」をセットする。仕分け結果は仕分け結果記憶部8に記憶される。
【0018】
図4は、仕分け結果記憶部8に記憶されている仕分け結果を示している。図中、「K−1」、「K−2」、「K−3」、・・・「K−n」は、顧客を識別する識別番号を示している。この例では、例えば、顧客K−1により、「注文する」、「部品」というシソーラスに含まれるキーワードを含むテキストデータが入力されたことがわかる。
【0019】
次に、ステップS7において、相関係数算出部11により、シソーラス間の相関係数が求められる。例えば、「注文する」と、「納入する」の相関係数は、次式で表される。
【0020】
相関係数r注文−納入=(S注文−納入)/(S注文・S納入)
ただし、S注文−納入 は、共分散、S注文 、S納入 は、それぞれ標準偏差である。
【0021】
共分散S注文−納入 = ((注文1−注文)(納入1−納入)+(注文2−注文)(納入2−納入)+・・・+(注文n−注文)(納入n−納入))/(n−1)
【0022】
標準偏差S注文 = ((注文1−注文)2+(注文2−注文)2 +・・・+(注文n−注文)2 )/(n−1)
標準偏差S納入 = ((納入1−納入)2+(納入2−納入)2 +・・・+(納入n−納入)2 )/(n−1)
【0023】
以下、同様にして、全シソーラス間の相関係数を求め、相関係数記憶部12に記憶させる。図5は、シソーラス間の相関係数を示している。例えば、シソーラス「先週」とシソーラス「注文する」の間の相関係数は0.025となっている。同一のシソーラス間の相関係数は1となる。
【0024】
次に、ステップS8において、シソーラス毎の相関係数合計算出部13により、ステップS7で求められ、相関係数記憶部12に記憶された相関係数を、各シソーラス毎に合計する。例えば、シソーラス「先週」の場合、1+0.025+0.038+0.001+・・・となる。このとき、同一のシソーラス間の相関係数1を除く。以下同様にして、シソーラス「注文する」、「納入する」、「部品」等の他のシソーラスについても、相関係数の合計を求める。求められた各シソーラス毎の相関係数の合計は、シソーラス毎の相関係数合計記憶部14に記憶される。
【0025】
次に、ステップS9において、出現頻度算出部9により、各シソーラスの出現頻度が求められる。即ち、図6に示すように、シソーラス毎の仕分け結果(図4)に基づいて、各シソーラス毎の出現頻度が求められる。図6の例では、例えば、シソーラス「先週」については、顧客K−2、K−3、・・・K−nの苦情等のテキストデータの中に、そのシソーラス「先週」が含まれていることがわかる。シソーラス「先週」についての各顧客毎の値を合計することにより、出現数Aが算出される。同様に、シソーラス「注文」の出現数はB、シソーラス「納入する」の出現数はC、シソーラス「部品」の出現数は「D」となる。全シソーラスの出現数の合計Σ(A+B+C+D+・・・)を求め、各シソーラスの出現頻度をパーセンテージで表す。
【0026】
例えば、シソーラス「先週」の出現頻度は、(A/Σ(A+B+C+D+・・・))*100(%)となる。算出された各シソーラス毎の出現頻度は、出現頻度記憶部10に記憶される。
【0027】
次に、ステップS10において、グラフ作成表示部15により、各シソーラスの出現頻度(%)をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフが作成される。図7は、作成されたグラフを示している。
【0028】
図7に示すように、各顧客が苦情等で発言した中で、出現回数は多くはないが、他のシソーラスとの結びつき(何らかの意味上の関連性)が強いシソーラスが第1のグループに現れる。
【0029】
また、他のシソーラスとの結びつきはそれほど強くないが、出現回数が多いもの。即ち、頻繁に発言されるので見逃せないシソーラスが第3のグループに現れる。
【0030】
ここでは、相関係数の数値の大小に意味を求めるのではなく、ある一定レベルに基準を定め、その基準レベルを超えたものは結びつきが強く、下回ったものは結びつきが弱いものと判断する。
【0031】
y座標の数値がある一定レベルを超えたか否かが重要であり、一定のレベルを超えたシソーラスは、他のキーワードと結びついて何らかの意味を構成している可能性が高いとした。このケースの場合、テキストは顧客の部品に関する苦情であるので、「何らかの意味」とは苦情、即ち「潜在的な不満」を示すものであると類推できる。
【0032】
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更することができることは言うまでもない。
【0033】
【図面の簡単な説明】
【図1】本発明の情報処理装置の一実施の形態の機能ブロック図である。
【図2】本実施の形態の処理手順を説明するためのフローチャートである。
【図3】類義語を集約したシソーラスの例を示す図である。
【図4】シソーラス毎の仕分け結果を示す図である。
【図5】シソーラス毎の相関係数を示す図である。
【図6】各シソーラス毎の出現頻度を示す図である。
【図7】各シソーラスの出現頻度と相関係数との関係を示すグラフである。
【符号の説明】
1 入力部
2 テキスト記憶部
3 ワードカッティング部
4 構文解析部
5 シソーラス作成部
6 シソーラス記憶部
7 シソーラス仕分け部
8 仕分け結果記憶部
9 出現頻度算出部
10 出現頻度記憶部
11 相関係数算出部
12 相関係数記憶部
13 シソーラス毎の相関係数合計算出部
14 シソーラス毎の相関係数合計記憶部
15 グラフ作成表示部
Claims (3)
- テキストデータを入力する入力手段と、
前記テキストデータを記憶するテキストデータ記憶手段と、
前記テキストデータに対してワードカッティング処理を実行するワードカッティング手段と、
前記ワードカッティング処理が行われた前記テキストデータに対して構文解析処理を行う構文解析手段と、
前記構文解析処理が行われた前記テキストデータからシソーラスを作成するシソーラス作成手段と、
前記シソーラス作成手段によって作成された前記シソーラスを記憶するシソーラス記憶手段と、
前記ワードカッティングおよび前記構文解析が行われた前記テキストデータに対して仕分け処理を行うシソーラス仕分け手段と、
前記シソーラス仕分け手段による前記仕分け処理によって仕分けられた、前記テキストデータに前記シソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶手段と、
前記仕分け結果記憶手段によって記憶されている前記仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出手段と、
前記出現頻度算出手段によって算出された前記出現頻度を記憶する出現頻度記憶手段と、
シソーラス間の相関係数を算出する相関係数算出手段と、
前記相関係数算出手段によって算出された前記シソーラス間の相関係数を記憶する相関係数記憶手段と、
シソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出手段と、
前記シソーラス毎の相関係数合計算出手段によって算出された前記シソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶手段と、
前記出現頻度記憶手段によって記憶されている前記出現頻度と、前記シソーラス毎の相関係数合計記憶手段によって記憶されている前記シソーラス毎の相関係数の合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの前記出現頻度をx軸、前記シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示手段と
を備え、
前記ワードカッティング手段および前記構文解析手段は、前記シソーラス作成手段によって作成された前記シソーラスに基づいて再度ワードカッティング処理および構文解析処理を行う
ことを特徴とする情報処理装置。 - 入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置における情報処理方法であって、
前記入力手段がテキストデータを入力する入力ステップと、
前記テキストデータ記憶手段が前記テキストデータを記憶するテキストデータ記憶ステップと、
前記ワードカッティング手段が前記テキストデータに対してワードカッティング処理を実行するワードカッティングステップと、
前記構文解析手段が前記ワードカッティング処理が行われた前記テキストデータに対して構文解析処理を行う構文解析ステップと、
前記シソーラス作成手段が前記構文解析処理が行われた前記テキストデータからシソーラスを作成するシソーラス作成ステップと、
前記シソーラス記憶手段が前記シソーラス作成ステップにおいて作成された前記シソーラスを記憶するシソーラス記憶ステップと、
前記ワードカッティング手段および前記構文解析手段が前記シソーラス記憶ステップにおいて記憶された前記シソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、
前記シソーラス仕分け手段が前記ワードカッティングおよび前記構文解析が行われた前記テキストデータに対して仕分け処理を行うシソーラス仕分けステップと、
前記仕分け結果記憶手段が前記シソーラス仕分けステップにおける前記仕分け処理によって仕分けられた、前記テキストデータに前記シソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、
前記出現頻度算出手段が前記仕分け結果記憶ステップにおいて記憶された前記仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、
前記出現頻度記憶手段が前記出現頻度算出ステップにおいて算出された前記出現頻度を記憶する出現頻度記憶ステップと、
前記相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、
前記相関係数記憶手段が前記相関係数算出ステップにおいて算出された前記シソーラス間の相関係数を記憶する相関係数記憶ステップと、
前記シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、
前記シソーラス毎の相関係数合計記憶手段が前記シソーラス毎の相関係数合計算出ステップにおいて算出された前記シソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、
前記グラフ作成表示手段が前記出現頻度記憶ステップにおいて記憶された前記出現頻度と、前記シソーラス毎の相関係数合計記憶ステップにおいて記憶された前記シソーラス毎の相関係数の合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの前記出現頻度をx軸、前記シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップと
を含むことを特徴とする情報処理方法。 - 入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置を制御する情報処理プログラムであって、
前記入力手段がテキストデータを入力する入力ステップと、
前記テキストデータ記憶手段が前記テキストデータを記憶するテキストデータ記憶ステップと、
前記ワードカッティング手段が前記テキストデータに対してワードカッティング処理を実行するワードカッティングステップと、
前記構文解析手段が前記ワードカッティング処理が行われた前記テキストデータに対して構文解析処理を行う構文解析ステップと、
前記シソーラス作成手段が前記構文解析処理が行われた前記テキストデータからシソーラスを作成するシソーラス作成ステップと、
前記シソーラス記憶手段が前記シソーラス作成ステップにおいて作成された前記シソーラスを記憶するシソーラス記憶ステップと、
前記ワードカッティング手段および前記構文解析手段が前記シソーラス記憶ステップにおいて記憶された前記シソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、
前記シソーラス仕分け手段が前記ワードカッティングおよび前記構文解析が行われた前記テキストデータに対して仕分け処理を行うシソーラス仕分けステップと、
前記仕分け結果記憶手段が前記シソーラス仕分けステップにおける前記仕分け処理によって仕分けられた、前記テキストデータに前記シソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、
前記出現頻度算出手段が前記仕分け結果記憶ステップにおいて記憶された前記仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、
前記出現頻度記憶手段が前記出現頻度算出ステップにおいて算出された前記出現頻度を記憶する出現頻度記憶ステップと、
前記相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、
前記相関係数記憶手段が前記相関係数算出ステップにおいて算出された前記シソーラス間の相関係数を記憶する相関係数記憶ステップと、
前記シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、
前記シソーラス毎の相関係数合計記憶手段が前記シソーラス毎の相関係数合計算出ステップにおいて算出された前記シソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、
前記グラフ作成表示手段が前記出現頻度記憶ステップにおいて記憶された前記出現頻度と、前記シソーラス毎の相関係数合計記憶ステップにおいて記憶された前記シソーラス毎の相関係数の合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの前記出現頻度をx軸、前記シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップと
を実行するように前記情報処理装置を制御することを特徴とする情報処理プログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002360352A JP3600611B2 (ja) | 2002-12-12 | 2002-12-12 | 情報処理装置および情報処理方法、並びに情報処理プログラム |
US10/730,287 US7398202B2 (en) | 2002-12-12 | 2003-12-09 | Information processing apparatus, information processing method and information processing program |
BRPI0317260-0A BR0317260A (pt) | 2002-12-12 | 2003-12-11 | aparelho de processamento de informação, método de processamento de informação e programa de processamento de informação |
EP03778809A EP1574968A4 (en) | 2002-12-12 | 2003-12-11 | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING PROGRAM |
PCT/JP2003/015865 WO2004053735A1 (ja) | 2002-12-12 | 2003-12-11 | 情報処理装置および情報処理方法、並びに情報処理プログラム |
CNA2003801054367A CN1723457A (zh) | 2002-12-12 | 2003-12-11 | 信息处理装置、信息处理方法以及信息处理程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002360352A JP3600611B2 (ja) | 2002-12-12 | 2002-12-12 | 情報処理装置および情報処理方法、並びに情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004192398A JP2004192398A (ja) | 2004-07-08 |
JP3600611B2 true JP3600611B2 (ja) | 2004-12-15 |
Family
ID=32500983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002360352A Expired - Lifetime JP3600611B2 (ja) | 2002-12-12 | 2002-12-12 | 情報処理装置および情報処理方法、並びに情報処理プログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US7398202B2 (ja) |
EP (1) | EP1574968A4 (ja) |
JP (1) | JP3600611B2 (ja) |
CN (1) | CN1723457A (ja) |
BR (1) | BR0317260A (ja) |
WO (1) | WO2004053735A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711584B2 (en) | 2003-09-04 | 2010-05-04 | Hartford Fire Insurance Company | System for reducing the risk associated with an insured building structure through the incorporation of selected technologies |
US9311676B2 (en) | 2003-09-04 | 2016-04-12 | Hartford Fire Insurance Company | Systems and methods for analyzing sensor data |
JP4189369B2 (ja) * | 2004-09-24 | 2008-12-03 | 株式会社東芝 | 構造化文書検索装置及び構造化文書検索方法 |
US20070219987A1 (en) * | 2005-10-14 | 2007-09-20 | Leviathan Entertainment, Llc | Self Teaching Thesaurus |
US20080077451A1 (en) * | 2006-09-22 | 2008-03-27 | Hartford Fire Insurance Company | System for synergistic data processing |
US8359209B2 (en) | 2006-12-19 | 2013-01-22 | Hartford Fire Insurance Company | System and method for predicting and responding to likelihood of volatility |
US7945497B2 (en) * | 2006-12-22 | 2011-05-17 | Hartford Fire Insurance Company | System and method for utilizing interrelated computerized predictive models |
US20090043615A1 (en) * | 2007-08-07 | 2009-02-12 | Hartford Fire Insurance Company | Systems and methods for predictive data analysis |
JP5309537B2 (ja) * | 2007-11-19 | 2013-10-09 | 富士ゼロックス株式会社 | グラフ表示装置およびプログラム |
US9665910B2 (en) | 2008-02-20 | 2017-05-30 | Hartford Fire Insurance Company | System and method for providing customized safety feedback |
JP5526396B2 (ja) * | 2008-03-11 | 2014-06-18 | クラリオン株式会社 | 情報検索装置、情報検索システム及び情報検索方法 |
JP2009277183A (ja) * | 2008-05-19 | 2009-11-26 | Hitachi Ltd | 情報識別装置及び情報識別システム |
JP5387577B2 (ja) * | 2008-09-25 | 2014-01-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
US20110137845A1 (en) * | 2009-12-09 | 2011-06-09 | Zemoga, Inc. | Method and apparatus for real time semantic filtering of posts to an internet social network |
US8355934B2 (en) * | 2010-01-25 | 2013-01-15 | Hartford Fire Insurance Company | Systems and methods for prospecting business insurance customers |
US9460471B2 (en) | 2010-07-16 | 2016-10-04 | Hartford Fire Insurance Company | System and method for an automated validation system |
US9275015B2 (en) * | 2011-12-05 | 2016-03-01 | Nexalogy Environics, Inc. | System and method for performing analysis on information, such as social media |
US10394871B2 (en) | 2016-10-18 | 2019-08-27 | Hartford Fire Insurance Company | System to predict future performance characteristic for an electronic record |
CN113204620A (zh) * | 2021-05-12 | 2021-08-03 | 首都师范大学 | 一种叙词表自动构建的方法、系统、设备以及计算机存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5099426A (en) * | 1989-01-19 | 1992-03-24 | International Business Machines Corporation | Method for use of morphological information to cross reference keywords used for information retrieval |
US5056021A (en) * | 1989-06-08 | 1991-10-08 | Carolyn Ausborn | Method and apparatus for abstracting concepts from natural language |
JP2527817B2 (ja) * | 1989-07-14 | 1996-08-28 | シャープ株式会社 | 主題連想装置および単語連想装置 |
US5384703A (en) * | 1993-07-02 | 1995-01-24 | Xerox Corporation | Method and apparatus for summarizing documents according to theme |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
EP0856175A4 (en) * | 1995-08-16 | 2000-05-24 | Univ Syracuse | SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON |
JP3583631B2 (ja) * | 1998-12-03 | 2004-11-04 | 三菱電機株式会社 | 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4037001B2 (ja) | 1999-02-23 | 2008-01-23 | 三菱電機株式会社 | データベース作成装置およびデータベース検索装置 |
US6845354B1 (en) * | 1999-09-09 | 2005-01-18 | Institute For Information Industry | Information retrieval system with a neuro-fuzzy structure |
JP2001101194A (ja) * | 1999-09-27 | 2001-04-13 | Mitsubishi Electric Corp | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体 |
US20020026435A1 (en) * | 2000-08-26 | 2002-02-28 | Wyss Felix Immanuel | Knowledge-base system and method |
US7813915B2 (en) * | 2000-09-25 | 2010-10-12 | Fujitsu Limited | Apparatus for reading a plurality of documents and a method thereof |
JP2002117035A (ja) * | 2000-10-10 | 2002-04-19 | Citation Japan:Kk | フリーワードを用いた分析装置、分析方法および記憶媒体 |
JP2002230006A (ja) | 2000-11-28 | 2002-08-16 | Sadanobu Takane | 自由記述回答の解析法、自由記述文書からのキーワード抽出法、および自由記述文書の解析支援法 |
JP2002183175A (ja) | 2000-12-08 | 2002-06-28 | Hitachi Ltd | テキストマイニング方法 |
WO2002054279A1 (en) * | 2001-01-04 | 2002-07-11 | Agency For Science, Technology And Research | Improved method of text similarity measurement |
EP1239459A1 (en) * | 2001-03-07 | 2002-09-11 | Sony International (Europe) GmbH | Adaptation of a speech recognizer to a non native speaker pronunciation |
US7031910B2 (en) * | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
WO2003067471A1 (fr) * | 2002-02-04 | 2003-08-14 | Celestar Lexico-Sciences, Inc. | Appareil et procede permettant de traiter des connaissances dans des documents |
-
2002
- 2002-12-12 JP JP2002360352A patent/JP3600611B2/ja not_active Expired - Lifetime
-
2003
- 2003-12-09 US US10/730,287 patent/US7398202B2/en not_active Expired - Fee Related
- 2003-12-11 CN CNA2003801054367A patent/CN1723457A/zh active Pending
- 2003-12-11 BR BRPI0317260-0A patent/BR0317260A/pt unknown
- 2003-12-11 EP EP03778809A patent/EP1574968A4/en not_active Withdrawn
- 2003-12-11 WO PCT/JP2003/015865 patent/WO2004053735A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20050060141A1 (en) | 2005-03-17 |
US7398202B2 (en) | 2008-07-08 |
CN1723457A (zh) | 2006-01-18 |
JP2004192398A (ja) | 2004-07-08 |
EP1574968A4 (en) | 2010-03-17 |
BR0317260A (pt) | 2006-04-18 |
WO2004053735A1 (ja) | 2004-06-24 |
EP1574968A1 (en) | 2005-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3600611B2 (ja) | 情報処理装置および情報処理方法、並びに情報処理プログラム | |
US20190250778A1 (en) | Generating visualizations of facet values for facets defined over a collection of objects | |
US8719246B2 (en) | Generating and presenting a suggested search query | |
JP5353173B2 (ja) | 文書の具体性の決定 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
US20110078101A1 (en) | Recommending one or more existing notes related to a current analytic activity of a user | |
JP2009093647A (ja) | ワードと文書の深さの決定 | |
CN117009605B (zh) | 一种策略化创新设计问题求解方法及系统 | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
JP2007011604A (ja) | 不具合診断システム及びプログラム | |
JP5772599B2 (ja) | テキストマイニングシステム、テキストマイニング方法および記録媒体 | |
Wardani et al. | Sentiment Analysis on Beauty Product Review Using Modified Balanced Random Forest Method and Chi-Square | |
JP2008146293A (ja) | 閲覧対象情報の評価システム、方法、およびプログラム | |
Hussain et al. | Sentiment Analysis of Amazon Product Reviews using VADER and RoBERTa Models | |
US20130318104A1 (en) | Method and system for analyzing data in artifacts and creating a modifiable data network | |
JPH05324728A (ja) | 情報検索装置 | |
JP2005165754A (ja) | テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム | |
JP7171352B2 (ja) | ワークショップ支援システム及びワークショップ支援方法 | |
Yerpude et al. | Sentiment analysis on product features based on lexicon approach using natural language processing | |
JP2009271772A (ja) | テキストマイニング方法、テキストマイニング装置、及びテキストマイニングプログラム | |
JP2006285499A (ja) | データマイニング装置、データマイニング方法およびそのプログラム | |
JP4525224B2 (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 | |
JP2010198246A (ja) | 意味解析装置、方法、およびプログラム | |
WO2019030884A1 (ja) | レビュア管理システムおよび方法 | |
JP2004133510A (ja) | 技術文献検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040330 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040629 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040916 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080924 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100924 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110924 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120924 Year of fee payment: 8 |