JP2006285499A - データマイニング装置、データマイニング方法およびそのプログラム - Google Patents

データマイニング装置、データマイニング方法およびそのプログラム Download PDF

Info

Publication number
JP2006285499A
JP2006285499A JP2005102803A JP2005102803A JP2006285499A JP 2006285499 A JP2006285499 A JP 2006285499A JP 2005102803 A JP2005102803 A JP 2005102803A JP 2005102803 A JP2005102803 A JP 2005102803A JP 2006285499 A JP2006285499 A JP 2006285499A
Authority
JP
Japan
Prior art keywords
original text
analyzed
information
displayed
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005102803A
Other languages
English (en)
Inventor
Yoshimi Takemoto
義美 竹元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005102803A priority Critical patent/JP2006285499A/ja
Publication of JP2006285499A publication Critical patent/JP2006285499A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 同じ原文を重複して読むことをなくすことができる、可読性の高い、テキストマイニング結果を得る。
【解決手段】 分析対象の文章を解析する文章解析手段11と、解析された情報を統計解析する統計解析手段12と、解析された単語情報を含む原文を検索する検索手段15と、検索された原文を表示する表示手段17と、表示手段17に既に表示した原文を記憶する記憶手段22と、検索手段15で検索された原文が記憶手段22にある場合に、表示手段17に表示済みの原文と同じである、検索された原文に既読情報を付与する、又は表示手段17に表示済みの原文に含まれる単語情報と同じである、統計解析手段12で解析された単語情報に既読情報を付与する情報付与手段23と、を有する。
【選択図】 図1

Description

本発明は、データマイニング装置、データマイニング方法およびそのプログラムに関する。
近年、企業内に大量の電子化データが蓄積されるようになり、その大部分がデータとして定量的に扱いにくいテキストデータであると言われている。なかでも、コンタクトセンタ、アンケートなどに寄せられる顧客の声、営業日報、インターネットなどに記載されている情報は、顧客管理の上で重要視されており、その定量的な分析が求められている。そのための手法としてデータマイニングが注目されている。
データマイニングでは、分析結果を分かりやすく見せる点が課題となっている。分析者が有効な分析を行うためには、結果の可読性向上が重要なポイントである。
従来のデータマイニング装置では、単語一覧、表やグラフなどの形式で出力し、結果表示することができる。例えば、テキストマイニング製品TopicScope(非特許文献1)では、結果の単語一覧で単語をクリック操作などで選択するとその原文を表示する機能を備えている。他のテキストマイニング製品においても同様の機能を標準的に備えている。
本発明に関連する技術としては、特許文献1に過去に行われた操作履歴と分析中の操作履歴とが重複した場合に分析中の分析ツールにその旨を通知する情報マイニングシステムが記載されている。また特許文献2には、電子メールの重要度や未読・既読などの属性と電子メールを示す情報を対応づけて出力することの記載がある。
TopicScope Version2.0 資料ダウンロード TSV2紹介資料.pdf(URL:http://www.topicscope.com/) 特開2004−362223号公報(段落番号(0017)) 特開平05−191446号公報(段落番号(0014)、(0045))
しかしながら、従来のデータマイニング装置では、結果の単語一覧で、各々の単語から同じ原文を参照することがあり、可読性が悪いという問題があった。例えば、単語一覧で「悪い」、「態度」という単語が表示され、「悪い」を選択して「店員の態度が悪い」という原文が表示され、その後、「態度」を選択して、「店員の態度が悪い」という原文が表示されるというように、同じ原文を重複して読むことになる。
また、単独の単語の一覧のみならず、係り受け関係(文の主語・述語の関係、修飾語・被修飾語の関係)や共起関係(共に出現する回数が多い単語同士)にある単語の一覧を表示する場合がある。上記例文では、「店員→態度」のような修飾関係や「態度→悪い」のような主語述語関係が表示される。各々の結果を選択すると、「店員の態度が悪い」という同じ原文が表示され、重複して読むことになる。とくに、このように複数の単語の組み合わせを一覧表示する場合に、同じ原文を参照することが多くなり、可読性が悪くなる。
本発明の目的は可読性の高い、テキストマイニング結果を得ることができるデータマイニング装置、データマイニング方法およびそのプログラムを提供することにある。
本発明のデータマイニング装置は、分析対象の文章を解析する文章解析手段と、前記文章解析手段で解析された情報を統計解析する統計解析手段と、前記統計解析手段で解析された単語情報を含む原文を検索する検索手段と、検索された原文を表示する表示手段と、前記表示手段に既に表示した原文を記憶する記憶手段と、前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文と同じの該検索された原文に既読情報を付与する情報付与手段と、を有するデータマイニング装置である。
また本発明のデータマイニング装置は、分析対象のデータの文章を解析する文章解析手段と、前記文章解析手段で解析された情報を統計解析する統計解析手段と、前記統計解析手段で解析された単語情報を含む原文を検索する検索手段と、検索された原文を表示する表示手段と、前記表示手段に既に表示した原文を記憶する記憶手段と、前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に含まれる単語情報と同じの、前記統計解析手段で解析された単語情報に既読情報を付与する情報付与手段と、を有するデータマイニング装置である。
また本発明のデータマイニング装置は、分析対象のデータの文章を解析する文章解析手段と、前記文章解析手段で解析された情報を統計解析する統計解析手段と、前記統計解析手段で解析された単語情報を含む原文を検索する検索手段と、検索された原文を表示する表示手段と、前記表示手段に既に表示した原文を記憶する記憶手段と、前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に係わる単語情報を含み前記表示手段で表示されていない原文の未読件数を算出し、前記表示手段に表示済みの原文に含まれる単語情報と同じである、前記統計解析手段で解析された単語情報に、前記未読件数の情報を付与する未読件数算出手段と、を有するデータマイニング装置である。
本発明のデータマイニング方法は、解析手段により、分析対象の文章を解析し、解析された情報を統計解析するステップと、
解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文と同じの、該検索された原文に既読情報を付与するステップと、を有するデータマイニング方法である。
また本発明のデータマイニング方法は、解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に含まれる単語情報と同じの、前記解析手段により解析された単語情報に既読情報を付与するステップと、を有するデータマイニング方法である。
また本発明のデータマイニング方法は、解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に係わる単語情報を含み前記表示手段で表示されていない原文の未読件数を算出し、前記表示手段に表示済みの原文に含まれる単語情報と同じである、前記統計解析手段で解析された単語情報に、前記未読件数の情報を付与するステップと、を有するデータマイニング方法である。
本発明のプログラムは、解析手段により、分析対象の文章を解析し、解析された情報を統計解析するステップと、
解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文と同じの、該検索された原文に既読情報を付与するステップと、を含む処理をコンピュータに実行させるためのプログラムである。
また本発明のプログラムは、解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に含まれる単語情報と同じの、前記解析手段により解析された単語情報に既読情報を付与するステップと、を含む処理をコンピュータに実行させるためのプログラムである。
また本発明のプログラムは、解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に係わる単語情報を含み前記表示手段で表示されていない原文の未読件数を算出し、前記表示手段に表示済みの原文に含まれる単語情報と同じである、前記統計解析手段で解析された単語情報に、前記未読件数の情報を付与するステップと、を含む処理をコンピュータに実行させるためのプログラムである。
本発明によれば、同じ原文を重複して読むことをなくすことができる、可読性の高い、テキストマイニング結果を得ることができるデータマイニング装置、データマイニング方法およびそのプログラムを得ることができる。
以下、本発明の実施形態の構成について図面を参照して詳細に説明する。
図1は本発明のテキストマイニング装置の第1実施形態の構成を示すブロック図である。
図1を参照すると、本実施形態のテキストマイニング装置は、データ入力手段10、文章解析手段11、統計解析手段12、単語一覧表示手段13、単語選択手段14、原文検索手段15、単語位置情報記憶手段16、原文表示手段17、既読情報取得手段21、既読情報記憶手段22、及び既読情報付与手段23から構成される。
データ入力手段10は、分析対象とするデータを入力するための手段であり、例えばキーボードである。データは、文書ファイルや文章を含むテキストファイルなどである。CSVと呼ばれるコンマ区切りのテキストファイル、リレーショナルデータベース等のデータベースから抽出される、行と列から成るフォーマットのファイルなどの場合もある。
文章解析手段11は、データ入力手段10で入力されたデータの文章を単語単位に分割し各単語に品詞情報を付与する形態素解析処理、主語・述語や修飾語関係を判定する係り受け解析処理などを行うための手段である。
統計解析手段12は、文章解析手段で解析処理された単語情報および係り受け情報のリストを頻度などの統計情報に基づき、ランキングを行う手段である。
単語一覧表示手段13は、統計解析手段12の結果、すなわちテキストマイニングの結果を表示するための手段である。表示される内容は、単語の一覧のほか、係り受けの関係の単語の一覧なども含めて想定している。
単語選択手段14では、ユーザが単語一覧表示手段13を目視しながら任意の単語を選択するための手段である。
原文検索手段15は、単語位置情報記憶手段16を参照して単語選択手段14で選択した単語を含む原文を検索する手段である。単語位置情報記憶手段16は、単語を含む原文の文書IDなどを記憶する手段である。
原文表示手段17は、原文検索手段15が検索した原文を表示する手段である。
既読情報取得手段21は、原文表示手段17が原文を表示したことがある文書IDを既読情報として取得する手段である。
既読情報記憶手段22は、既読情報取得手段21が取得した文書IDを記憶する手段である。
既読情報付与手段23は、既読情報記憶手段22に存在する文書IDに対して、既読情報を付与し、原文表示手段17で既読情報付きの原文を表示する手段である。
[動作の説明]
図1を参照して本実施形態の全体の動作について詳細に説明する。
まず、データ入力手段10において、分析対象とするデータを入力する。データは、文書ファイルや文章を含むテキストファイルなどである。ここでは、CSVと呼ばれるコンマ区切りのテキストファイルを入力するものとし、図6に内容の例を示す。
図6は、企業内に設置されたコンタクトセンタ(お客様相談室)で蓄積されたデータの例で、日時・商品名・顧客名・連絡先・問い合わせ内容などの項目から成る、表形式のファイルである。コンタクトセンタには、その企業の商品に対する質問や苦情、要望などの問い合わせが電話やFAX、電子メールなどで寄せられる。図6は、その問い合わせ内容を電子化してデータとして蓄積したものの例である。図6で、「日時」は問い合わせを受けた年月日および時刻情報、「問い合わせ内容」は電話などで受けた問い合わせの内容であり文章で記述されたものである。このようなデータは、コンタクトセンタ以外にも、アンケートに寄せられる意見や、営業担当者が書く日報をデータベース化したものなどがある。
文章解析手段11は、データ入力手段10で入力されたデータの文章を解析する。具体的には、形態素解析処理、係り受け解析処理などを行う。形態素解析処理は、データ入力手段10で入力されたデータの文章を、辞書を用いて単語単位に分割し各単語に品詞情報を付与する処理である。とくに日本語のように分かち書きのない言語をコンピュータで処理する場合に一般的に適用される技術であり、「国語辞書の記憶と日本語文の自動分割」(長尾真ほか、情報処理、Vol.19、No.6 、1978年)などに記載がある。また、係り受け解析処理は、文中の係り受け関係(文の主語・述語の関係、修飾語・被修飾語の関係)などを判定する技術であり、特開2000−172691号、特開2001−84250号、「係り受け解析を用いた複合語の分割方法」(宮崎正弘、情報処理学会論文誌、Vol.25、No.6、1984年)などに記載されている。図7に、図6の「問い合わせ内容」の文章の一例に対する形態素解析処理結果、および、係り受け解析処理結果の例を示す。
図7に示すように、「 店員の態度がとても悪かった。 」を形態素解析すると、
「 店員(名詞)/の(助詞)/対応(名詞)/が(助詞)/とても(副詞)/悪(形容詞語幹)/かっ(形容詞活用語尾)/た(過去助動詞)/。(句点) 」
(/は単語の区切り、かっこ内は品詞を示す)
のように解析される。
また「 店員の態度がとても悪かった。 」を係り受け解析すると、
「 店員 → 対応 (修飾・被修飾語関係)
態度 → 悪い (主語・述語関係) 」
のように解析される。
統計解析手段12は、単語情報および係り受け情報のリストを頻度などの統計情報に基づき、例えば頻度の高い順にランキングを行う。頻度の他の統計情報としては、特開2001−266060号公報に記載されているように確率的コンプレキシティを用いる方法や、特開2000−172691号公報に記載されているようにカイ二乗を用いる方法などがある。
単語一覧表示手段13は、統計解析手段12の結果、すなわちテキストマイニングの結果をCRTや液晶表示装置に一覧表示(リスト表示)するための手段である。表示される内容は、単語の一覧だけでなく、係り受けの関係(文の主語・述語の関係、修飾語・被修飾語の関係)にある単語の一覧などを含める。単語の一覧のほかの情報として、単語の品詞、出現回数などを表示する。また、従来のテキストマイニング装置では、表やグラフなどの形式で出力し、表示することができる。表やグラフに表示される単語や係り受け関係の単語についても、単語一覧表示手段13において表示対象とみなす。
単語選択手段14は、単語一覧表示手段13から任意の単語をユーザがクリック操作などで選択するための手段である。ユーザは、単語一覧表示手段13の結果を目視しながら、注目する単語の原文を参照することができる。ここで、原文とは、単語を含む元の文や文章、文書全体を指す。
原文検索手段15は、単語位置情報記憶手段16を参照して単語選択手段14で選択した単語を含む原文を検索する手段である。単語位置情報記憶手段16は、指定した単語を含む原文の文書IDなどを記憶する手段である。図8に単語位置情報記憶手段16の内容例を示す。図8のように、単語ID(単語をユニークに識別するID)に対して、その単語が存在するすべての文書ID情報が付与されたインデックスファイルとなっている。これらの情報は、入力データを文章解析した際に予め作成しておくことができる。
原文表示手段17は、原文検索手段15が検索した原文を表示する手段である。図11に、単語一覧表示手段13に表示された単語をクリック操作によって選択し、原文表示手段17において原文を表示する例を示す。なお、単語位置情報記憶手段16において原文・文書内での位置情報(先頭からのバイト位置)を持たせることにより、原文全体ではなく該当箇所へのマークも可能である。
既読情報取得手段21は、原文表示手段17が原文を表示したことがある文書IDを既読情報として取得する手段である。既読情報記憶手段22は、既読情報取得手段21が取得した文書IDを記憶する手段である。図9に既読情報記憶手段22の内容例を示す。図9では、過去に表示された文書IDの単純なリストとなっている。
既読情報付与手段23は、既読情報記憶手段22に存在する文書IDに対して、既読情報を付与する。原文表示手段17は、既読情報が付与された原文に対して、図11のように既読マークを付与して表示する。あるいは、最初に未読マークをすべての原文に付与しておき既読のものだけ未読マークを外す、既読のものは原文自体を表示しない、などの表示方法も考えられる。
図4は、単語一覧表示手段13以降の動作の流れを示したフローチャートである。ステップS101で、単語一覧表示手段14で単語を選択すると、単語IDおよび単語に付随する情報として、ここでは単語を含む原文の総数n=Nを取得する。ここで、単語IDは、文章解析手段11で用いる辞書中にユニークなIDを持たせることで実現できる。あるいは、単語IDの代わりに、単語を識別できる情報(単語の見出しと品詞情報の組み合わせなど)を用いてもよい。
ステップS102で、原文検索手段15は、単語IDを検索キーとして単語位置情報記憶手段16を検索し、その単語が存在する文書IDを取得する。ステップS103で、既読情報付与手段23は、原文検索手段15で検索キーとなった文書IDが既読情報記憶手段22の中にあるかどうかを判定する。ステップS103でYesであれば、ステップS104において、既読情報付与手段23は、その文書IDに対して既読情報を付与し、ステップS105において、原文表示手段17は、既読マークを付けて文書を表示する。ステップS103でNoであれば、ステップS106において、原文表示手段17でそのまま原文を表示し、既読情報取得手段21は既読情報記憶手段22に表示した文書IDを追加する。ステップS110では、次の原文を表示するかを判定し、Yesかつnが0でなければ、ステップS102〜ステップS106を繰り返す。
本実施形態においては、原文側に既読情報を持たせることで、以前読んだ文は読み飛ばすことができ、マイニング結果の原文の可読性を向上させることができる。
例えば、図11で、「店員」をクリックして、「店員」を含む原文をすべて参照したとする。つまり、原文例1A、原文2Aは参照されたことになる。その後で、「態度」をクリックして原文例1Aを参照すると、原文例1Aに既読マークが付く。その結果、ユーザは、既読マークが付いていない原文だけを参照することに集中することができる。
本発明の第2の実施形態について図面を参照して説明する。
本実施形態では、リスト側に既読情報を持たせることで、マイニング結果の可読性を向上させる。図2は本発明のテキストマイニング装置の第2実施形態の構成を示すブロック図である。図2において、図1に示した構成部材と同一構成部材については同一符号を付する。
図2を参照すると、本実施形態のテキストマイニング装置は、既読情報付与手段23が、既読情報記憶手段22と原文内単語記憶手段31とを参照して、単語一覧表示手段13において既読情報を表示させているという点で図1と異なる。
原文内単語記憶手段31は、ある文書IDに含まれるすべての単語IDを記憶する。図10に、原文内単語記憶手段31の内容例を示す。既読情報付与手段23は、原文検索手段15で検索対象とする文書IDが既読情報記憶手段22に存在するならば、その文書IDをキーに原文内単語記憶手段31から単語IDを取得する。
単語一覧表示手段13は、既読情報付与手段23が取得した単語IDの単語に既読マークを付与して表示する。図12に既読マークを付与して表示した例を示す。
図12で、「店員→対応」をクリックして、「店員→対応」を含む原文をすべて参照したとする。つまり、原文例1B、原文2Bは参照されたことになる。その際、原文例1Bを指している「対応→悪い」に既読マークを付与する。その結果、ユーザは、既読マークの付与された単語の原文は飛ばして、既読マークが付いていない単語の原文だけを参照することに集中することができる。とくに、係り受けや共起の結果などの場合、同じ原文を指すことが多いので、有効となる。
図5は、単語一覧表示手段13以降の動作の流れを示したフローチャートである。図4とほぼ同様の図であるが、ステップS204、ステップS205における動作が異なる。つまり、ステップS203でYesの場合、ステップS204で既読情報付与手段23は、その文書IDをキーに原文内単語記憶手段31を検索して単語IDを取得する。そして、ステップS205で単語一覧表示手段13は、該当する単語IDに既読マークを付けて文書を表示する。最初に未読マークをすべての該当する単語IDに付与しておき既読のものだけ未読マークを外すことも可能である。
図3は本発明のテキストマイニング装置の第3実施形態の構成を示すブロック図である。図3において、図1に示した構成部材と同一構成部材については同一符号を付する。
図3を参照すると、本実施形態のテキストマイニング装置は、既読情報付与手段23の代わりに未読文書数算出手段41が、既読情報記憶手段22と原文内単語記憶手段31とを参照して、単語一覧表示手段13において既読情報を表示させているという点で図2と異なる。
未読文書数算出手段41は、単語一覧表示手段13に未読文書数情報(まだ表示していない原文の件数)を付与する手段である。
図13は、単語一覧表示手段13以降の動作の流れを示したフローチャートである。図5とほぼ同様の図であるが、ステップS305における動作が異なる。ステップS305において、nの値を未読件数として付与し、単語一覧表示手段13で未読文書数を表示する。未読件数が0になった時、既読マークを付与する。
図2に示した実施形態2では、図14のように原文例3Cを読み飛ばしてしまう問題がある。そこで、未読の文書の件数情報を付与することにより、可読性を上げることができる。
以上説明した実施形態の各手段の機能は、コンピュータで実行するプログラムとして具現化される。すなわち、図15に示すようなコンピュータにおいて、図1〜図3に示したような各手段の機能、図4,図5,図13のフローは、これらを記述したプログラムにより実現され、かかるプログラムをハードディスク装置等のディスク装置124やROM等の記憶装置に記憶し、CPU126によりそのプログラムが実行される。キーボード121は図1のデータ出力手段10となる。CRTや液晶表示装置からなるディスプレイ122(ここではCRTとして示している)は単語一覧表示手段13や原文表示手段17となるものである。125はデータバス等のバス、123はCPU126の情報処理に必要な情報を記憶するDRAM等のメモリを示す。
本発明は、顧客管理(CRM)、データ分析コンサルティングビジネス等に用いられるデータマイニング装置、データマイニング方法およびそのプログラムに適用される。
本発明のテキストマイニング装置の第1実施形態の構成を示すブロック図である。 本発明のテキストマイニング装置の第2実施形態の構成を示すブロック図である。 本発明のテキストマイニング装置の第3実施形態の構成を示すブロック図である。 単語一覧表示手段13以降の動作の流れを示したフローチャートである。 単語一覧表示手段13以降の動作の流れを示したフローチャートである。 企業内に設置されたコンタクトセンタ(お客様相談室)で蓄積されたデータの例を示す図である。 図6の「問い合わせ内容」の文章の一例に対する形態素解析処理結果、および、係り受け解析処理結果の例を示す図である。 単語位置情報記憶手段16の内容例を示す図である。 既読情報記憶手段22の内容例を示す図である。 原文内単語記憶手段31の内容例を示す図である。 単語一覧表示手段13に表示された単語をクリック操作によって選択し、原文表示手段17において原文を表示する例を示す図である。 既読マークを付与して表示した例を示す図である。 単語一覧表示手段13以降の動作の流れを示したフローチャートである。 未読の文書の件数情報を付与して表示した例を示す図である。 コンピュータの構成を示す図である。
符号の説明
10 データ入力手段
11 文章解析手段
12 統計解析手段
13 単語一覧表示手段
14 単語選択手段
15 原文検索手段
16 単語位置情報記憶手段
17 原文表示手段
21 既読情報取得手段
22 既読情報記憶手段
23 既読情報付与手段
31 原文内単語記憶手段
41 未読文書数算出手段

Claims (12)

  1. 分析対象の文章を解析する文章解析手段と、前記文章解析手段で解析された情報を統計解析する統計解析手段と、前記統計解析手段で解析された単語情報を含む原文を検索する検索手段と、検索された原文を表示する表示手段と、前記表示手段に既に表示した原文を記憶する記憶手段と、前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文と同じの該検索された原文に既読情報を付与する情報付与手段と、を有するデータマイニング装置。
  2. 請求項1に記載のデータマイニング装置において、前記検索された原文に既読情報を付与して前記表示手段に表示するデータマイニング装置。
  3. 分析対象のデータの文章を解析する文章解析手段と、前記文章解析手段で解析された情報を統計解析する統計解析手段と、前記統計解析手段で解析された単語情報を含む原文を検索する検索手段と、検索された原文を表示する表示手段と、前記表示手段に既に表示した原文を記憶する記憶手段と、前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に含まれる単語情報と同じの、前記統計解析手段で解析された単語情報に既読情報を付与する情報付与手段と、を有するデータマイニング装置。
  4. 請求項3に記載のデータマイニング装置において、前記統計解析手段で解析された単語情報を表示する単語情報表示手段を有し、前記統計解析手段で解析された単語情報に既読情報を付与して前記単語情報表示手段に表示するデータマイニング装置。
  5. 分析対象のデータの文章を解析する文章解析手段と、前記文章解析手段で解析された情報を統計解析する統計解析手段と、前記統計解析手段で解析された単語情報を含む原文を検索する検索手段と、検索された原文を表示する表示手段と、前記表示手段に既に表示した原文を記憶する記憶手段と、前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に係わる単語情報を含み前記表示手段で表示されていない原文の未読件数を算出し、前記表示手段に表示済みの原文に含まれる単語情報と同じである、前記統計解析手段で解析された単語情報に、前記未読件数の情報を付与する未読件数算出手段と、を有するデータマイニング装置。
  6. 請求項5に記載のデータマイニング装置において、前記統計解析手段で解析された単語情報を表示する単語情報表示手段を有し、前記統計解析手段で解析された単語情報に前記未読件数の情報を付与して前記単語情報表示手段に表示するデータマイニング装置。
  7. 解析手段により、分析対象の文章を解析し、解析された情報を統計解析するステップと、
    解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
    前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文と同じの該検索された原文に既読情報を付与するステップと、を有するデータマイニング方法。
  8. 解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
    解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
    前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に含まれる単語情報と同じの、前記解析手段により解析された単語情報に既読情報を付与するステップと、を有するデータマイニング方法。
  9. 解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
    解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
    前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に係わる単語情報を含み前記表示手段で表示されていない原文の未読件数を算出し、前記表示手段に表示済みの原文に含まれる単語情報と同じである、前記統計解析手段で解析された単語情報に、前記未読件数の情報を付与するステップと、を有するデータマイニング方法。
  10. 解析手段により、分析対象の文章を解析し、解析された情報を統計解析するステップと、
    解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
    前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文と同じの、該検索された原文に既読情報を付与するステップと、を含む処理をコンピュータに実行させるためのプログラム。
  11. 解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
    解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
    前記検索手段により検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に含まれる単語情報と同じの、前記解析手段により解析された単語情報に既読情報を付与するステップと、を含む処理をコンピュータに実行させるためのプログラム。
  12. 解析手段により、分析対象のデータの文章を解析し、解析された情報を統計解析するステップと、
    解析された単語情報を含む原文を検索手段により検索し、検索された原文を表示手段により表示し、既に表示した原文を記憶手段に記憶するステップと、
    前記検索手段で検索された原文と同じ原文が前記記憶手段にある場合に、前記表示手段に表示済みの原文に係わる単語情報を含み前記表示手段で表示されていない原文の未読件数を算出し、前記表示手段に表示済みの原文に含まれる単語情報と同じである、前記統計解析手段で解析された単語情報に、前記未読件数の情報を付与するステップと、を含む処理をコンピュータに実行させるためのプログラム。
JP2005102803A 2005-03-31 2005-03-31 データマイニング装置、データマイニング方法およびそのプログラム Pending JP2006285499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005102803A JP2006285499A (ja) 2005-03-31 2005-03-31 データマイニング装置、データマイニング方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005102803A JP2006285499A (ja) 2005-03-31 2005-03-31 データマイニング装置、データマイニング方法およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2006285499A true JP2006285499A (ja) 2006-10-19

Family

ID=37407381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005102803A Pending JP2006285499A (ja) 2005-03-31 2005-03-31 データマイニング装置、データマイニング方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2006285499A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010047286A1 (ja) * 2008-10-20 2010-04-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、検索方法およびプログラム
JP2015125594A (ja) * 2013-12-26 2015-07-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2018194881A (ja) * 2017-05-12 2018-12-06 株式会社日立製作所 文書分類システムおよび文書分類方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010047286A1 (ja) * 2008-10-20 2010-04-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、検索方法およびプログラム
US9031935B2 (en) 2008-10-20 2015-05-12 International Business Machines Corporation Search system, search method, and program
JP2015125594A (ja) * 2013-12-26 2015-07-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2018194881A (ja) * 2017-05-12 2018-12-06 株式会社日立製作所 文書分類システムおよび文書分類方法

Similar Documents

Publication Publication Date Title
JP4772378B2 (ja) Webページから時系列データを生成する方法及び装置
US7899818B2 (en) Method and system for providing focused search results by excluding categories
US9922383B2 (en) Patent claims analysis system and method
Lind et al. Content analysis by the crowd: Assessing the usability of crowdsourcing for coding latent constructs
US7949674B2 (en) Integration of documents with OLAP using search
US20110035211A1 (en) Systems, methods and apparatus for relative frequency based phrase mining
US20040049374A1 (en) Translation aid for multilingual Web sites
US20070027750A1 (en) Webpage advertisement mechanism
US9583099B2 (en) Method and system for performing term analysis in social data
WO2011080899A1 (ja) 情報推薦方法
WO2007087349A2 (en) Method and system for automatic summarization and digest of celebrity news
JP2009169541A (ja) Webページ検索サーバ及びクエリ推薦方法
KR20070089898A (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
JP2006119991A (ja) Faqデータ作成装置及び方法、整理装置及び方法、faq回答システム
JP2007011604A (ja) 不具合診断システム及びプログラム
US20120179709A1 (en) Apparatus, method and program product for searching document
JP5345987B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20180357227A1 (en) System and method for analyzing popularity of one or more user defined topics among the big data
JP2005190284A (ja) 情報分類装置および情報分類方法
JP2017117021A (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP2006285499A (ja) データマイニング装置、データマイニング方法およびそのプログラム
JP2010204864A (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP2007226843A (ja) 文書管理システム及び文書管理方法
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP2010218216A (ja) 類似文書検索システム、方法及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090710