JP3600611B2 - 情報処理装置および情報処理方法、並びに情報処理プログラム - Google Patents

情報処理装置および情報処理方法、並びに情報処理プログラム Download PDF

Info

Publication number
JP3600611B2
JP3600611B2 JP2002360352A JP2002360352A JP3600611B2 JP 3600611 B2 JP3600611 B2 JP 3600611B2 JP 2002360352 A JP2002360352 A JP 2002360352A JP 2002360352 A JP2002360352 A JP 2002360352A JP 3600611 B2 JP3600611 B2 JP 3600611B2
Authority
JP
Japan
Prior art keywords
thesaurus
correlation coefficient
appearance frequency
text data
sorting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002360352A
Other languages
English (en)
Other versions
JP2004192398A (ja
Inventor
雅晴 鈴木
定信 高根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2002360352A priority Critical patent/JP3600611B2/ja
Priority to US10/730,287 priority patent/US7398202B2/en
Priority to BRPI0317260-0A priority patent/BR0317260A/pt
Priority to EP03778809A priority patent/EP1574968A4/en
Priority to PCT/JP2003/015865 priority patent/WO2004053735A1/ja
Priority to CNA2003801054367A priority patent/CN1723457A/zh
Publication of JP2004192398A publication Critical patent/JP2004192398A/ja
Application granted granted Critical
Publication of JP3600611B2 publication Critical patent/JP3600611B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理装置および情報処理方法、並びに情報処理プログラムに関し、特に、テキストデータを元にシソーラスを作成し、シソーラス間の相関を求める情報処理装置および情報処理方法、並びに情報処理プログラムに関する。
【0002】
【従来の技術】
各単語の出現回数の集計結果を参照して、切り出した単語から出現頻度が規定値以上の単語を抽出し、その抽出した各単語間の関連性を評価して、関連度が規定値以上の共起単語のクラスタを生成する。このとき、予め、分析対象のテキストに合わせてカテゴリ辞書を作成すれば、そのテキストの分析結果を提示することができるというものがある(例えば、特許文献1参照)。
【0003】
【特許文献1】
特開2001−101194号公報(図1)
【0004】
【発明が解決しようとする課題】
しかしながら、テキストデータから抽出したキーワード同士の相関に基づいて、テキストデータの特徴を検出することができないという問題があった。
【0005】
本発明はこのような状況に鑑みてなされたものであり、テキストデータから抽出したキーワード同士の相関に基づいて、テキストデータの特徴を検出することができるようにするものである。
【0006】
【課題を解決するための手段】
請求項1に記載の情報処理装置は、テキストデータを入力する入力手段と、テキストデータを記憶するテキストデータ記憶手段と、テキストデータに対してワードカッティング処理を実行するワードカッティング手段と、ワードカッティング処理が行われたテキストデータに対して構文解析処理を行う構文解析手段と、構文解析処理が行われたテキストデータからシソーラスを作成するシソーラス作成手段と、シソーラス作成手段によって作成されたシソーラスを記憶するシソーラス記憶手段と、ワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行うシソーラス仕分け手段と、シソーラス仕分け手段による仕分け処理によって仕分けられた、テキストデータにシソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶手段と、仕分け結果記憶手段によって記憶されている仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出手段と、出現頻度算出手段によって算出された出現頻度を記憶する出現頻度記憶手段と、シソーラス間の相関係数を算出する相関係数算出手段と、相関係数算出手段によって算出されたシソーラス間の相関係数を記憶する相関係数記憶手段と、シソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計算出手段によって算出されたシソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶手段と、出現頻度記憶手段によって記憶されている出現頻度と、シソーラス毎の相関係数合計記憶手段によって記憶されているシソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示手段とを備え、ワードカッティング手段および構文解析手段は、シソーラス作成手段によって作成されたシソーラスに基づいて再度ワードカッティング処理および構文解析処理を行うことを特徴とする。
請求項2に記載の情報処理方法は、入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置における情報処理方法であって、入力手段がテキストデータを入力する入力ステップと、テキストデータ記憶手段がテキストデータを記憶するテキストデータ記憶ステップと、ワードカッティング手段がテキストデータに対してワードカッティング処理を実行するワードカッティングステップと、構文解析手段がワードカッティング処理が行われたテキストデータに対して構文解析処理を行う構文解析ステップと、シソーラス作成手段が構文解析処理が行われたテキストデータからシソーラスを作成するシソーラス作成ステップと、シソーラス記憶手段がシソーラス作成ステップにおいて作成されたシソーラスを記憶するシソーラス記憶ステップと、ワードカッティング手段および構文解析手段がシソーラス記憶ステップにおいて記憶されたシソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、シソーラス仕分け手段がワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行うシソーラス仕分けステップと、仕分け結果記憶手段がシソーラス仕分けステップにおける仕分け処理によって仕分けられた、テキストデータにシソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、出現頻度算出手段が仕分け結果記憶ステップにおいて記憶された仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、出現頻度記憶手段が出現頻度算出ステップにおいて算出された出現頻度を記憶する出現頻度記憶ステップと、相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、相関係数記憶手段が相関係数算出ステップにおいて算出されたシソーラス間の相関係数を記憶する相関係数記憶ステップと、シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、シソーラス毎の相関係数合計記憶手段がシソーラス毎の相関係数合計算出ステップにおいて算出されたシソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、グラフ作成表示手段が出現頻度記憶ステップにおいて記憶された出現頻度と、シソーラス毎の相関係数合計記憶ステップにおいて記憶されたシソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップとを含むことを特徴とする。
請求項3に記載の情報処理プログラムは、入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置を制御する情報処理プログラムであって、入力手段がテキストデータを入力する入力ステップと、テキストデータ記憶手段がテキストデータを記憶するテキストデータ記憶ステップと、ワードカッティング手段がテキストデータに対してワードカッティング処理を実行するワードカッティングステップと、構文解析手段がワードカッティング処理が行われたテキストデータに対して構文解析処理を行う構文解析ステップと、シソーラス作成手段が構文解析処理が行われたテキストデータからシソーラスを作成するシソーラス作成ステップと、シソーラス記憶手段がシソーラス作成ステップにおいて作成されたシソーラスを記憶するシソーラス記憶ステップと、ワードカッティング手段および構文解析手段がシソーラス記憶ステップにおいて記憶されたシソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、シソーラス仕分け手段がワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行うシソーラス仕分けステップと、仕分け結果記憶手段がシソーラス仕分けステップにおける仕分け結果を記憶する仕分け結果記憶ステップと、仕分け結果記憶手段がシソーラス仕分けステップにおける仕分け処理によって仕分けられた、テキストデータにシソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、出現頻度算出手段が仕分け結果記憶ステップにおいて記憶された仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、出現頻度記憶手段が出現頻度算出ステップにおいて算出された出現頻度を記憶する出現頻度記憶ステップと、相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、相関係数記憶手段が相関係数算出ステップにおいて算出されたシソーラス間の相関係数を記憶する相関係数記憶ステップと、シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、シソーラス毎の相関係数合計記憶手段がシソーラス毎の相関係数合計算出ステップにおいて算出されたシソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、グラフ作成表示手段が出現頻度記憶ステップにおいて記憶された出現頻度と、シソーラス毎の相関係数合計記憶ステップにおいて記憶されたシソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップとを実行するように情報処理装置を制御することを特徴とする。
【0007】
【発明の効果】
以上の如く、本発明に係る情報処理装置および情報処理方法、並びに情報処理プログラムによれば、テキストデータを入力し、テキストデータを記憶し、テキストデータに対してワードカッティング処理を実行し、ワードカッティング処理が行われたテキストデータに対して構文解析処理を行い、構文解析処理が行われたテキストデータからシソーラスを作成し、作成されたシソーラスを記憶し、記憶されたシソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行い、ワードカッティングおよび構文解析が行われたテキストデータに対して仕分け処理を行い、仕分け結果を記憶し、記憶された仕分け結果に基づいて、各シソーラス毎に出現頻度を算出し、算出された出現頻度を記憶し、シソーラス間の相関係数を算出し、算出したシソーラス間の相関係数を記憶し、シソーラス毎の相関係数の合計を算出し、算出されたシソーラス毎の相関係数の合計を記憶し、記憶された出現頻度と、シソーラス毎の相関係数合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの出現頻度をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するようにしたので、テキストデータから抽出したキーワードから作成したシソーラス同士の相関および出現頻度に基づいて、テキストデータの特徴を検出し、テキストデータに隠れている潜在的な意味を類推することが可能となる。
【0008】
【発明の実施の形態】
図1は、本発明の情報処理装置の一実施の形態の機能ブロック図である。本実施の形態は、パーソナルコンピュータ等で構成されている。同図に示すように、本実施の形態は、機能的に次のようなブロックで構成される。各ブロックの処理は、実際には所定のアプリケーションプログラムによって実行され、各記憶部は、図示せぬハードディスクによって実現される。
【0009】
各ブロックの機能を簡単に説明する。入力部1は、テキストデータを入力し、テキスト記憶部2に記憶させるようになっている。ワードカッティング部3は、テキスト記憶部2に記憶されているテキストデータに対して、ワードカッティング処理を実行するようになっている。構文解析部4は、ワードカッティング処理されたテキストデータに対して構文解析を行うようになっている。
【0010】
シソーラス作成部5は、テキスト記憶部2に記憶されているテキストデータからシソーラスを作成するようになっている。シソーラス記憶部6は、作成されたシソーラスを記憶するようになっている。シソーラス仕分け部7は、全サンプルについて、シソーラス毎に仕分け処理を行うようになっている。仕分け結果記憶部8は、仕分け結果を記憶するようになっている。出現頻度算出部9は、仕分け結果記憶部8に記憶されているデータに基づいて、各シソーラス毎に出現頻度を算出するようになっている。出現頻度記憶部10は、出現頻度算出部9によって算出された結果を記憶するようになっている。
【0011】
相関係数算出部11は、シソーラス間の相関係数を算出するようになっている。相関係数記憶部12は、相関係数算出部11において算出された相関係数を記憶するようになっている。シソーラス毎の相関係数合計算出部13は、求めた相関係数をシソーラス毎に合計するようになっている。シソーラス毎の相関係数合計記憶部14は、シソーラス毎の相関係数合計算出部13において算出されたシソーラス毎の相関係数の合計を記憶するようになっている。グラフ作成表示部15は、出現頻度記憶部10に記憶されている出現頻度と、シソーラス毎の相関係数合計記憶部14に記憶されているシソーラス毎の相関係数合計とに基づいて、グラフを作成し、表示するようになっている。
【0012】
次に、図2のフローチャートを参照して、本実施の形態の処理手順について説明する。ここでは、顧客から寄せられる苦情や要望等のテキストデータを分析する場合について説明する。まず最初に、ステップS1において、入力部1より顧客毎にテキストデータが入力される。例えば、ある顧客から「先週、部品を注文したのだが、まだ納入されない。」が入力されたものとする。入力されたテキストデータは、テキスト記憶部2に記憶される。
【0013】
次に、ステップS2において、ワードカッティング部3により、所定のテキストマイニングツール(アプリケーションソフトウェア)によるワードカッティング処理が行われる。例えば、上記テキストは、「先週部品 注文 た の まだ 納入 され ない。」となる。
【0014】
次に、ステップS3において、構文解析部4により、テキストマイニングツールによる構文解析処理が行われる。例えば、上記テキストは、「先週部品を 注文したのだがまだ納入されない。」となる。
【0015】
次に、ステップS4において、シソーラス作成部5により、類義語(キーワード)を集約したシソーラスの作成が行われる。例えば、図3に示すように、「先週」というシソーラスに、「一週間」等の類義語のキーワードを集約する。また、「注文する」というシソーラスに、「オーダーしたが」等のキーワードを集約する。また、「納入する」というシソーラスに、「搬入する」等のキーワードを集約する。また、「部品」というシソーラスに、「パーツ」等のキーワードを集約する。また、「連絡が」というシソーラスに、「情報を」等のキーワードを集約する。作成されたシソーラスは、シソーラス記憶部6に記憶される。
【0016】
次に、ステップS5において、いま作成され、シソーラス記憶部6に記憶されたシソーラスに基づいて、ワードカッティング部3により、再度、ワードカッティング処理が行われ、構文解析部4により、再度、構文解析処理が行われる。
【0017】
次に、ステップS6において、シソーラス仕分け部7により、全顧客からのテキストデータに対して、その内容について、各シソーラス毎に仕分けが行われる。例えば、各顧客毎に、その顧客の苦情等のテキストデータに含まれるシソーラスには「1」を、含まれないシソーラスには「0」をセットする。仕分け結果は仕分け結果記憶部8に記憶される。
【0018】
図4は、仕分け結果記憶部8に記憶されている仕分け結果を示している。図中、「K−1」、「K−2」、「K−3」、・・・「K−n」は、顧客を識別する識別番号を示している。この例では、例えば、顧客K−1により、「注文する」、「部品」というシソーラスに含まれるキーワードを含むテキストデータが入力されたことがわかる。
【0019】
次に、ステップS7において、相関係数算出部11により、シソーラス間の相関係数が求められる。例えば、「注文する」と、「納入する」の相関係数は、次式で表される。
【0020】
相関係数r注文−納入=(S注文−納入)/(S注文・S納入
ただし、S注文−納入 は、共分散、S注文 、S納入 は、それぞれ標準偏差である。
【0021】
共分散S注文−納入 = ((注文−注文)(納入−納入)+(注文−注文)(納入−納入)+・・・+(注文−注文)(納入−納入))/(n−1)
【0022】
標準偏差S注文 = ((注文−注文)+(注文−注文) +・・・+(注文−注文) )/(n−1)
標準偏差S納入 = ((納入−納入)+(納入−納入) +・・・+(納入−納入) )/(n−1)
【0023】
以下、同様にして、全シソーラス間の相関係数を求め、相関係数記憶部12に記憶させる。図5は、シソーラス間の相関係数を示している。例えば、シソーラス「先週」とシソーラス「注文する」の間の相関係数は0.025となっている。同一のシソーラス間の相関係数は1となる。
【0024】
次に、ステップS8において、シソーラス毎の相関係数合計算出部13により、ステップS7で求められ、相関係数記憶部12に記憶された相関係数を、各シソーラス毎に合計する。例えば、シソーラス「先週」の場合、1+0.025+0.038+0.001+・・・となる。このとき、同一のシソーラス間の相関係数1を除く。以下同様にして、シソーラス「注文する」、「納入する」、「部品」等の他のシソーラスについても、相関係数の合計を求める。求められた各シソーラス毎の相関係数の合計は、シソーラス毎の相関係数合計記憶部14に記憶される。
【0025】
次に、ステップS9において、出現頻度算出部9により、各シソーラスの出現頻度が求められる。即ち、図6に示すように、シソーラス毎の仕分け結果(図4)に基づいて、各シソーラス毎の出現頻度が求められる。図6の例では、例えば、シソーラス「先週」については、顧客K−2、K−3、・・・K−nの苦情等のテキストデータの中に、そのシソーラス「先週」が含まれていることがわかる。シソーラス「先週」についての各顧客毎の値を合計することにより、出現数Aが算出される。同様に、シソーラス「注文」の出現数はB、シソーラス「納入する」の出現数はC、シソーラス「部品」の出現数は「D」となる。全シソーラスの出現数の合計Σ(A+B+C+D+・・・)を求め、各シソーラスの出現頻度をパーセンテージで表す。
【0026】
例えば、シソーラス「先週」の出現頻度は、(A/Σ(A+B+C+D+・・・))*100(%)となる。算出された各シソーラス毎の出現頻度は、出現頻度記憶部10に記憶される。
【0027】
次に、ステップS10において、グラフ作成表示部15により、各シソーラスの出現頻度(%)をx軸、シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフが作成される。図7は、作成されたグラフを示している。
【0028】
図7に示すように、各顧客が苦情等で発言した中で、出現回数は多くはないが、他のシソーラスとの結びつき(何らかの意味上の関連性)が強いシソーラスが第1のグループに現れる。
【0029】
また、他のシソーラスとの結びつきはそれほど強くないが、出現回数が多いもの。即ち、頻繁に発言されるので見逃せないシソーラスが第3のグループに現れる。
【0030】
ここでは、相関係数の数値の大小に意味を求めるのではなく、ある一定レベルに基準を定め、その基準レベルを超えたものは結びつきが強く、下回ったものは結びつきが弱いものと判断する。
【0031】
y座標の数値がある一定レベルを超えたか否かが重要であり、一定のレベルを超えたシソーラスは、他のキーワードと結びついて何らかの意味を構成している可能性が高いとした。このケースの場合、テキストは顧客の部品に関する苦情であるので、「何らかの意味」とは苦情、即ち「潜在的な不満」を示すものであると類推できる。
【0032】
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更することができることは言うまでもない。
【0033】
【図面の簡単な説明】
【図1】本発明の情報処理装置の一実施の形態の機能ブロック図である。
【図2】本実施の形態の処理手順を説明するためのフローチャートである。
【図3】類義語を集約したシソーラスの例を示す図である。
【図4】シソーラス毎の仕分け結果を示す図である。
【図5】シソーラス毎の相関係数を示す図である。
【図6】各シソーラス毎の出現頻度を示す図である。
【図7】各シソーラスの出現頻度と相関係数との関係を示すグラフである。
【符号の説明】
1 入力部
2 テキスト記憶部
3 ワードカッティング部
4 構文解析部
5 シソーラス作成部
6 シソーラス記憶部
7 シソーラス仕分け部
8 仕分け結果記憶部
9 出現頻度算出部
10 出現頻度記憶部
11 相関係数算出部
12 相関係数記憶部
13 シソーラス毎の相関係数合計算出部
14 シソーラス毎の相関係数合計記憶部
15 グラフ作成表示部

Claims (3)

  1. テキストデータを入力する入力手段と、
    前記テキストデータを記憶するテキストデータ記憶手段と、
    前記テキストデータに対してワードカッティング処理を実行するワードカッティング手段と、
    前記ワードカッティング処理が行われた前記テキストデータに対して構文解析処理を行う構文解析手段と、
    前記構文解析処理が行われた前記テキストデータからシソーラスを作成するシソーラス作成手段と、
    前記シソーラス作成手段によって作成された前記シソーラスを記憶するシソーラス記憶手段と、
    前記ワードカッティングおよび前記構文解析が行われた前記テキストデータに対して仕分け処理を行うシソーラス仕分け手段と、
    前記シソーラス仕分け手段による前記仕分け処理によって仕分けられた、前記テキストデータに前記シソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶手段と、
    前記仕分け結果記憶手段によって記憶されている前記仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出手段と、
    前記出現頻度算出手段によって算出された前記出現頻度を記憶する出現頻度記憶手段と、
    シソーラス間の相関係数を算出する相関係数算出手段と、
    前記相関係数算出手段によって算出された前記シソーラス間の相関係数を記憶する相関係数記憶手段と、
    シソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出手段と、
    前記シソーラス毎の相関係数合計算出手段によって算出された前記シソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶手段と、
    前記出現頻度記憶手段によって記憶されている前記出現頻度と、前記シソーラス毎の相関係数合計記憶手段によって記憶されている前記シソーラス毎の相関係数の合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの前記出現頻度をx軸、前記シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示手段と
    を備え、
    前記ワードカッティング手段および前記構文解析手段は、前記シソーラス作成手段によって作成された前記シソーラスに基づいて再度ワードカッティング処理および構文解析処理を行う
    ことを特徴とする情報処理装置。
  2. 入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置における情報処理方法であって、
    前記入力手段がテキストデータを入力する入力ステップと、
    前記テキストデータ記憶手段が前記テキストデータを記憶するテキストデータ記憶ステップと、
    前記ワードカッティング手段が前記テキストデータに対してワードカッティング処理を実行するワードカッティングステップと、
    前記構文解析手段が前記ワードカッティング処理が行われた前記テキストデータに対して構文解析処理を行う構文解析ステップと、
    前記シソーラス作成手段が前記構文解析処理が行われた前記テキストデータからシソーラスを作成するシソーラス作成ステップと、
    前記シソーラス記憶手段が前記シソーラス作成ステップにおいて作成された前記シソーラスを記憶するシソーラス記憶ステップと、
    前記ワードカッティング手段および前記構文解析手段が前記シソーラス記憶ステップにおいて記憶された前記シソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、
    前記シソーラス仕分け手段が前記ワードカッティングおよび前記構文解析が行われた前記テキストデータに対して仕分け処理を行うシソーラス仕分けステップと、
    前記仕分け結果記憶手段が前記シソーラス仕分けステップにおける前記仕分け処理によって仕分けられた、前記テキストデータに前記シソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、
    前記出現頻度算出手段が前記仕分け結果記憶ステップにおいて記憶された前記仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、
    前記出現頻度記憶手段が前記出現頻度算出ステップにおいて算出された前記出現頻度を記憶する出現頻度記憶ステップと、
    前記相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、
    前記相関係数記憶手段が前記相関係数算出ステップにおいて算出された前記シソーラス間の相関係数を記憶する相関係数記憶ステップと、
    前記シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、
    前記シソーラス毎の相関係数合計記憶手段が前記シソーラス毎の相関係数合計算出ステップにおいて算出された前記シソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、
    前記グラフ作成表示手段が前記出現頻度記憶ステップにおいて記憶された前記出現頻度と、前記シソーラス毎の相関係数合計記憶ステップにおいて記憶された前記シソーラス毎の相関係数の合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの前記出現頻度をx軸、前記シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップと
    を含むことを特徴とする情報処理方法。
  3. 入力手段と、テキストデータ記憶手段と、ワードカッティング手段と、構文解析手段と、シソーラス作成手段と、シソーラス記憶手段と、シソーラス仕分け手段と、仕分け結果記憶手段と、出現頻度算出手段と、出現頻度記憶手段と、相関係数算出手段と、相関係数記憶手段と、シソーラス毎の相関係数合計算出手段と、シソーラス毎の相関係数合計記憶手段と、グラフ作成表示手段とを備える情報処理装置を制御する情報処理プログラムであって、
    前記入力手段がテキストデータを入力する入力ステップと、
    前記テキストデータ記憶手段が前記テキストデータを記憶するテキストデータ記憶ステップと、
    前記ワードカッティング手段が前記テキストデータに対してワードカッティング処理を実行するワードカッティングステップと、
    前記構文解析手段が前記ワードカッティング処理が行われた前記テキストデータに対して構文解析処理を行う構文解析ステップと、
    前記シソーラス作成手段が前記構文解析処理が行われた前記テキストデータからシソーラスを作成するシソーラス作成ステップと、
    前記シソーラス記憶手段が前記シソーラス作成ステップにおいて作成された前記シソーラスを記憶するシソーラス記憶ステップと、
    前記ワードカッティング手段および前記構文解析手段が前記シソーラス記憶ステップにおいて記憶された前記シソーラスに基づいて、再度ワードカッティング処理および構文解析処理をそれぞれ行うワードカッティングおよび構文解析ステップと、
    前記シソーラス仕分け手段が前記ワードカッティングおよび前記構文解析が行われた前記テキストデータに対して仕分け処理を行うシソーラス仕分けステップと、
    前記仕分け結果記憶手段が前記シソーラス仕分けステップにおける前記仕分け処理によって仕分けられた、前記テキストデータに前記シソーラスが含まれるか否かを示す値からなる仕分け結果を記憶する仕分け結果記憶ステップと、
    前記出現頻度算出手段が前記仕分け結果記憶ステップにおいて記憶された前記仕分け結果に基づいて、各シソーラス毎に出現頻度を算出する出現頻度算出ステップと、
    前記出現頻度記憶手段が前記出現頻度算出ステップにおいて算出された前記出現頻度を記憶する出現頻度記憶ステップと、
    前記相関係数算出手段がシソーラス間の相関係数を算出する相関係数算出ステップと、
    前記相関係数記憶手段が前記相関係数算出ステップにおいて算出された前記シソーラス間の相関係数を記憶する相関係数記憶ステップと、
    前記シソーラス毎の相関係数合計算出手段がシソーラス毎の相関係数の合計を算出するシソーラス毎の相関係数合計算出ステップと、
    前記シソーラス毎の相関係数合計記憶手段が前記シソーラス毎の相関係数合計算出ステップにおいて算出された前記シソーラス毎の相関係数の合計を記憶するシソーラス毎の相関係数合計記憶ステップと、
    前記グラフ作成表示手段が前記出現頻度記憶ステップにおいて記憶された前記出現頻度と、前記シソーラス毎の相関係数合計記憶ステップにおいて記憶された前記シソーラス毎の相関係数の合計とに基づいて、出現回数は多くはないが他のシソーラスとの結びつきが所定の基準値を超えるシソーラスと、他のシソーラスとの結びつきが所定の基準値を下回るが出現回数が多いシソーラスとが識別可能となるように、各シソーラスの前記出現頻度をx軸、前記シソーラス毎の相関係数の合計をy軸にとり、プロットして、グラフを作成し、表示するグラフ作成表示ステップと
    を実行するように前記情報処理装置を制御することを特徴とする情報処理プログラム。
JP2002360352A 2002-12-12 2002-12-12 情報処理装置および情報処理方法、並びに情報処理プログラム Expired - Lifetime JP3600611B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2002360352A JP3600611B2 (ja) 2002-12-12 2002-12-12 情報処理装置および情報処理方法、並びに情報処理プログラム
US10/730,287 US7398202B2 (en) 2002-12-12 2003-12-09 Information processing apparatus, information processing method and information processing program
BRPI0317260-0A BR0317260A (pt) 2002-12-12 2003-12-11 aparelho de processamento de informação, método de processamento de informação e programa de processamento de informação
EP03778809A EP1574968A4 (en) 2002-12-12 2003-12-11 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING PROGRAM
PCT/JP2003/015865 WO2004053735A1 (ja) 2002-12-12 2003-12-11 情報処理装置および情報処理方法、並びに情報処理プログラム
CNA2003801054367A CN1723457A (zh) 2002-12-12 2003-12-11 信息处理装置、信息处理方法以及信息处理程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002360352A JP3600611B2 (ja) 2002-12-12 2002-12-12 情報処理装置および情報処理方法、並びに情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2004192398A JP2004192398A (ja) 2004-07-08
JP3600611B2 true JP3600611B2 (ja) 2004-12-15

Family

ID=32500983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002360352A Expired - Lifetime JP3600611B2 (ja) 2002-12-12 2002-12-12 情報処理装置および情報処理方法、並びに情報処理プログラム

Country Status (6)

Country Link
US (1) US7398202B2 (ja)
EP (1) EP1574968A4 (ja)
JP (1) JP3600611B2 (ja)
CN (1) CN1723457A (ja)
BR (1) BR0317260A (ja)
WO (1) WO2004053735A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711584B2 (en) 2003-09-04 2010-05-04 Hartford Fire Insurance Company System for reducing the risk associated with an insured building structure through the incorporation of selected technologies
US9311676B2 (en) 2003-09-04 2016-04-12 Hartford Fire Insurance Company Systems and methods for analyzing sensor data
JP4189369B2 (ja) * 2004-09-24 2008-12-03 株式会社東芝 構造化文書検索装置及び構造化文書検索方法
US20070219987A1 (en) * 2005-10-14 2007-09-20 Leviathan Entertainment, Llc Self Teaching Thesaurus
US20080077451A1 (en) * 2006-09-22 2008-03-27 Hartford Fire Insurance Company System for synergistic data processing
US8359209B2 (en) 2006-12-19 2013-01-22 Hartford Fire Insurance Company System and method for predicting and responding to likelihood of volatility
US7945497B2 (en) * 2006-12-22 2011-05-17 Hartford Fire Insurance Company System and method for utilizing interrelated computerized predictive models
US20090043615A1 (en) * 2007-08-07 2009-02-12 Hartford Fire Insurance Company Systems and methods for predictive data analysis
JP5309537B2 (ja) * 2007-11-19 2013-10-09 富士ゼロックス株式会社 グラフ表示装置およびプログラム
US9665910B2 (en) 2008-02-20 2017-05-30 Hartford Fire Insurance Company System and method for providing customized safety feedback
JP5526396B2 (ja) * 2008-03-11 2014-06-18 クラリオン株式会社 情報検索装置、情報検索システム及び情報検索方法
JP2009277183A (ja) * 2008-05-19 2009-11-26 Hitachi Ltd 情報識別装置及び情報識別システム
JP5387577B2 (ja) * 2008-09-25 2014-01-15 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
US20110137845A1 (en) * 2009-12-09 2011-06-09 Zemoga, Inc. Method and apparatus for real time semantic filtering of posts to an internet social network
US8355934B2 (en) * 2010-01-25 2013-01-15 Hartford Fire Insurance Company Systems and methods for prospecting business insurance customers
US9460471B2 (en) 2010-07-16 2016-10-04 Hartford Fire Insurance Company System and method for an automated validation system
US9275015B2 (en) * 2011-12-05 2016-03-01 Nexalogy Environics, Inc. System and method for performing analysis on information, such as social media
US10394871B2 (en) 2016-10-18 2019-08-27 Hartford Fire Insurance Company System to predict future performance characteristic for an electronic record
CN113204620A (zh) * 2021-05-12 2021-08-03 首都师范大学 一种叙词表自动构建的方法、系统、设备以及计算机存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
JP2527817B2 (ja) * 1989-07-14 1996-08-28 シャープ株式会社 主題連想装置および単語連想装置
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
JP3583631B2 (ja) * 1998-12-03 2004-11-04 三菱電機株式会社 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4037001B2 (ja) 1999-02-23 2008-01-23 三菱電機株式会社 データベース作成装置およびデータベース検索装置
US6845354B1 (en) * 1999-09-09 2005-01-18 Institute For Information Industry Information retrieval system with a neuro-fuzzy structure
JP2001101194A (ja) * 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
US20020026435A1 (en) * 2000-08-26 2002-02-28 Wyss Felix Immanuel Knowledge-base system and method
US7813915B2 (en) * 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
JP2002117035A (ja) * 2000-10-10 2002-04-19 Citation Japan:Kk フリーワードを用いた分析装置、分析方法および記憶媒体
JP2002230006A (ja) 2000-11-28 2002-08-16 Sadanobu Takane 自由記述回答の解析法、自由記述文書からのキーワード抽出法、および自由記述文書の解析支援法
JP2002183175A (ja) 2000-12-08 2002-06-28 Hitachi Ltd テキストマイニング方法
WO2002054279A1 (en) * 2001-01-04 2002-07-11 Agency For Science, Technology And Research Improved method of text similarity measurement
EP1239459A1 (en) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Adaptation of a speech recognizer to a non native speaker pronunciation
US7031910B2 (en) * 2001-10-16 2006-04-18 Xerox Corporation Method and system for encoding and accessing linguistic frequency data
WO2003067471A1 (fr) * 2002-02-04 2003-08-14 Celestar Lexico-Sciences, Inc. Appareil et procede permettant de traiter des connaissances dans des documents

Also Published As

Publication number Publication date
US20050060141A1 (en) 2005-03-17
US7398202B2 (en) 2008-07-08
CN1723457A (zh) 2006-01-18
JP2004192398A (ja) 2004-07-08
EP1574968A4 (en) 2010-03-17
BR0317260A (pt) 2006-04-18
WO2004053735A1 (ja) 2004-06-24
EP1574968A1 (en) 2005-09-14

Similar Documents

Publication Publication Date Title
JP3600611B2 (ja) 情報処理装置および情報処理方法、並びに情報処理プログラム
US20190250778A1 (en) Generating visualizations of facet values for facets defined over a collection of objects
US8719246B2 (en) Generating and presenting a suggested search query
JP5353173B2 (ja) 文書の具体性の決定
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US20110078101A1 (en) Recommending one or more existing notes related to a current analytic activity of a user
JP2009093647A (ja) ワードと文書の深さの決定
CN117009605B (zh) 一种策略化创新设计问题求解方法及系统
JP2007219929A (ja) 感性評価システム及び方法
JP2007011604A (ja) 不具合診断システム及びプログラム
JP5772599B2 (ja) テキストマイニングシステム、テキストマイニング方法および記録媒体
Wardani et al. Sentiment Analysis on Beauty Product Review Using Modified Balanced Random Forest Method and Chi-Square
JP2008146293A (ja) 閲覧対象情報の評価システム、方法、およびプログラム
Hussain et al. Sentiment Analysis of Amazon Product Reviews using VADER and RoBERTa Models
US20130318104A1 (en) Method and system for analyzing data in artifacts and creating a modifiable data network
JPH05324728A (ja) 情報検索装置
JP2005165754A (ja) テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム
JP7171352B2 (ja) ワークショップ支援システム及びワークショップ支援方法
Yerpude et al. Sentiment analysis on product features based on lexicon approach using natural language processing
JP2009271772A (ja) テキストマイニング方法、テキストマイニング装置、及びテキストマイニングプログラム
JP2006285499A (ja) データマイニング装置、データマイニング方法およびそのプログラム
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2010198246A (ja) 意味解析装置、方法、およびプログラム
WO2019030884A1 (ja) レビュア管理システムおよび方法
JP2004133510A (ja) 技術文献検索システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040916

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110924

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120924

Year of fee payment: 8