JP2003281161A - 情報分類方法、情報分類装置、プログラムおよび記録媒体 - Google Patents

情報分類方法、情報分類装置、プログラムおよび記録媒体

Info

Publication number
JP2003281161A
JP2003281161A JP2002076922A JP2002076922A JP2003281161A JP 2003281161 A JP2003281161 A JP 2003281161A JP 2002076922 A JP2002076922 A JP 2002076922A JP 2002076922 A JP2002076922 A JP 2002076922A JP 2003281161 A JP2003281161 A JP 2003281161A
Authority
JP
Japan
Prior art keywords
document data
emotion
inquiry
text sentence
classifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002076922A
Other languages
English (en)
Inventor
Koji Yamada
孝司 山田
Takashige Tanaka
敬重 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2002076922A priority Critical patent/JP2003281161A/ja
Publication of JP2003281161A publication Critical patent/JP2003281161A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 例えばメーカの担当者が顧客の反響を取り入
れ、顧客が満足する製品を開発するときの指針を得るこ
とができるように文書データを分類する。 【解決手段】 問合せ分析装置10の問合せデータ分類
部100は、問合せデータベース24aに蓄積されてい
る問合せデータを内容ごとに分類する。そして、感情判
定部104は、各問合せデータの問合せ文に反映された
顧客の感情を判定し、この判定結果に従って、データ集
計部106が内容ごとに分類された問合せデータを感情
ごとに細分類する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報分類方法、情
報分類装置、コンピュータを情報分類装置として機能さ
せるためのプログラム、および、このプログラムを記録
したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】近年では、一般家庭へのコンピュータの
普及と、インターネット環境の発達とが相俟って、顧客
が購入した製品のサポートに電子メールなどを利用する
メーカが増えている。顧客から寄せられる電子メールの
内容には、消費者の動向や製品に対する要望、ニーズと
いったメーカ側にとって貴重な情報が含まれていること
が多い。そこで、メーカでのサポート業務に携わるコー
ルセンタなどでは、顧客から寄せられた電子メールを文
書データとしてデータベースに蓄積し、テキストマイニ
ングと呼ばれる手法により、例えば製品名などのキーワ
ードを基に類似する内容の文書データを分類し、顧客の
ニーズなどを把握するといったことが行われている。例
えば、テキストマイニングの結果、「○○製品」という
キーワードに類似する内容の文書データの数よりも、
「××製品」というキーワードに類似する内容の文書デ
ータの数の方が多ければ、メーカは、顧客の関心が「×
×製品」に傾倒していると類推できるのである。
【0003】
【発明が解決しようとする課題】しかしながら、メーカ
側は、従来の文書データの分類手法による分類結果か
ら、顧客からの反響がどの製品に対して多かったかを把
握できるものの、それがどのような反響であるかを把握
するのは困難である。従って、従来の分類手法では、メ
ーカが顧客の反響を取り入れ、顧客が満足する製品を開
発するときの指針を得ることができないといった問題が
あった。
【0004】本発明は、上述した事情を鑑みてなされた
ものであり、例えばメーカの担当者が顧客の反響を取り
入れ、顧客が満足する製品を開発するときの指針を得る
ことができるように文書データを分類する情報分類方
法、情報分類装置、プログラムおよび記録媒体を提供す
ることを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、テキスト文を含む文書データを分類する
情報分類方法において、文書データのテキスト文を解析
して、この解析結果に応じて当該文書データをクラスタ
に分類する第1の過程と、クラスタに分類された文書デ
ータのテキスト文の感情表現に応じて当該文書データを
サブクラスタに細分類する第2の過程とを備える情報分
類方法を提供する。また、上記目的を達成するために、
本発明は、テキスト文を含む文書データを分類する情報
分類装置において、文書データのテキスト文を解析し
て、この解析結果に応じて当該文書データをクラスタに
分類する第1の分類手段と、クラスタに分類された文書
データのテキスト文の感情表現に応じて当該文書データ
をサブクラスタに細分類する第2の分類手段とを備える
情報分類装置を提供する。
【0006】上述の情報分類方法および情報分類装置に
よれば、テキスト文の解析結果に応じて文書データがク
ラスタに分類され、更に、当該テキスト文の感情表現に
応じて当該文書データがサブクラスタに細分類される。
これにより、例えばメーカの担当者などは、どのような
問合せ(問合せ文)があるかを把握でき、なおかつ、そ
の問合せ文に反映された顧客の感情を把握できる。従っ
て、担当者は、ある製品に対して、顧客がどのような怒
りを覚え、または、喜んでいるのかといった、製品が顧
客にどのような反響を与えたかを容易に把握でき、顧客
が満足する製品を開発する指針を得ることができる。
【0007】ここで、上述した情報分類方法において、
前記第1の過程における解析にあっては、文書データの
テキスト文に含まれる各単語の統計値を解析することが
望ましい。また、前記統計値は、全てのテキスト文を対
象に計数された単語の出現回数と、テキスト文ごとに計
数された単語の出現回数とから算出され、テキスト文に
出現する各単語と、当該各単語の統計値とに従って、各
テキスト文を、テキスト文の各々に出現する全ての単語
を要素とした空間ベクトルにて表し、各テキスト文の空
間ベクトル間の距離に応じて各文書データをクラスタに
分類することが望ましい。
【0008】さらに、上述した情報分類方法において、
前記テキスト文の感情表現は、単語ごとに感情が予め数
値化された感情値と、前記文書データのテキスト文に含
まれる各単語とから特定されることが望ましい。より具
体的には、前記感情値は、複数の感情の各々を要素とす
る感情ベクトルによって表される値であり、前記テキス
ト文の感情表現は、テキスト文に含まれる各単語の感情
ベクトルを要素ごとに積算したときに、積算値が最も大
きい要素に対応する感情から特定される。
【0009】上記目的を達成するために、本発明は、テ
キスト文を含む文書データを分類するコンピュータを、
文書データのテキスト文を解析して、この解析結果に応
じて当該文書データをクラスタに分類する第1の分類手
段、および、クラスタに分類された文書データのテキス
ト文の感情表現に応じて当該文書データをサブクラスタ
に細分類する第2の分類手段として機能させるためのプ
ログラムを提供する。このプログラムは、例えば磁気デ
ィスクや光磁気ディスク、光ディスクなどのコンピュー
タ読み取り可能な記録媒体に記録されていても良い。
【0010】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。本実施形態では、メーカなど
のコールセンタに寄せられた問合せを、その内容に応じ
て分類するとともに、その問合せに反映された顧客の感
情に応じて分類して分析する問合せ分析装置に本発明が
適用された場合について例示する。
【0011】図1は、本発明の実施形態に係る問合せ分
析装置が用いられるコールセンタシステムの構成を示す
ブロック図である。この図において、担当者入力端末2
0は、コールセンタ1のサポート担当者によって利用さ
れるコンピュータ端末である。サポート担当者は、電話
交換網5aを介して顧客から電話やFAXなどで寄せら
れる問合せに対応する者であり、受け付けた問合せを文
章化して担当者入力端末20に入力する。また、担当者
入力端末20は、例えばLAN(Local Area Network)
などの社内ネットワーク22を介してデータベースサー
バ24と接続されている。データベースサーバ24は、
磁気ディスク装置などの記憶装置に格納された問合せデ
ータベース24aを有しており、問合せ文が電子データ
化された問合せデータを担当者入力端末20から受け取
り、問合せデータベース24aに蓄積する。
【0012】メールサーバ26は、インターネット5b
に接続された端末との間で電子メールの送受信するもの
であり、顧客が利用する顧客端末3から製品に対する問
合せ文を含んだ電子メールを受信し、社内ネットワーク
22を介してデータベースサーバ24に送信する。デー
タベースサーバ24は、メールサーバ26から受け取っ
た電子メールを、問合せデータベース24aに問合せデ
ータとして蓄積する。このような構成により、問合せデ
ータベース24aには、顧客からの問合せに応じた問合
せデータが次々に蓄積される。
【0013】また、同図において、問合せ分析装置10
は、問合せデータベース24aに蓄積されている問合せ
データを分類・集計し、この結果を問合せ分析担当者に
示すものである。この問合せ分析装置10は、コンピュ
ータなどにより構成されるものであり、問合せデータ分
類部100を備えている。問合せデータ分類部100
は、データベースサーバ24を介して問合せデータベー
ス24aに蓄積されている問合せデータを順次受信した
後に、問合せデータの問合せ文に含まれる単語に応じて
分類する分類処理(テキストマイニング処理)を実行し
て、この処理結果を記憶部102に出力する。この問合
せデータ分類部100は、コンピュータにおけるネット
ワークインタフェースデバイス、CPUおよびRAMに
相当する。
【0014】ここで、問合せデータ分類部100が実行
する分類処理には、ベクトル化処理と、クラスタリング
処理との2つの処理が含まれている。より具体的に説明
すると、ベクトル化処理は、次のようにして行われる。
先ず、1件の問合せ文dを単語(形態素)に分解する形
態素解析を実行し、この1件の問合せ文dに対して、1
つの単語tが出現する頻度を示す単語出現頻度TF(Te
rm Frequency)を、その問合せ文に含まれる単語ごとに
算出する。ここで、単語出現頻度TFは、その問合せ文
dに現れる単語の数で正規化されており、次式によって
算出される。 単語出現頻度TF(d、t) =(単語tが問合せ文dに出現する回数)/(問合せ文dに含まれる単語の数)
【0015】次いで、全問合せ文からみて、単語tを含
む問合せ文がどの程度特徴的であるか(すなわち、全問
合せ文数に対して単語tを含む問合せ文数がどの程度
か)を示す文書出現頻度IDF(Inverse Document Fre
quency)を次式によって算出する。 IDF(t) =log{(全問合せ文の数)/(単語tが出現する問合せ文の数)}
【0016】そして、単語出現頻度TFと、文書出現頻
度IDFとから、1つの問合せ文dにおいて単語tがど
れだけ特徴的(すなわち、出現頻度が高く)であり、な
おかつ、その問合せ文dが、問合せ文全体から見てどれ
だけ特徴的であるか(すなわち、どれだけ少ないか)を
示す単語文書出現頻度TFIDF(Term Frequency Inv
erse Document Frequency)を次式から算出する。 TFIDF(d、t)=TF(d、t)×IDF(t)
【0017】次に、全ての問合せ文から、各々の問合せ
文において出現した全単語について、各々の単語の単語
文書出現頻度TFIDF(Term Frequency Inverse Doc
ument Frequency)を要素とするベクトル空間を形成
し、このベクトル空間における問合せ文dのベクトルを
求める。問合せ文dのベクトルは、その問合せ文dに出
現する各単語についての単語文書出現頻度TFIDFを
要素として求められ、次式のようになる。 問合せ文dのベクトル= (TFIDF(t1)、TFIDF(t2)、・・・・TFIDF(tn)) なお、nは、問合せ文dに出現する単語数である。
【0018】さて、上述の分類処理におけるクラスタリ
ング処理は、上述したベクトル空間上で、ベクトル間距
離が近い問合せ文同士をグループ化(以下、グループを
「クラスタ」と言う)する処理である。さらに説明する
と、このクラスタリング処理にあっては、略同じ値の単
語文書出現頻度TFIDFの単語によって構成されるベ
クトルを持つ問合せ文同士がグループ化されるため、同
じような文章内容(以下、単に「内容」という)の問い
合わせ文がクラスタに分類されることになる。
【0019】問合せデータ分類部100は、この分類処
理を実行することにより、クラスタリング結果テーブル
50を生成し、分類処理結果として記憶部102に記憶
させる。このクラスタリング結果テーブル50は、図1
2に示すように、問合せデータがどのクラスタに属する
かを示すものであり、問合せデータごとに固有に割り当
てられた問合せ識別情報と、問合せデータが属するクラ
スタのクラスタ識別情報とが対応付けられている。
【0020】記憶部102は、例えば磁気ディスク装置
などの記憶装置で構成されており、問合せデータ分類部
100からの分類処理結果を記憶する。感情判定部10
4は、問合せデータ分類部100にてクラスタに分類さ
れた各問合せデータに対して顧客の感情を判定し、この
判定結果を記憶部102に出力するものであり、コンピ
ュータにおけるネットワークインタフェースデバイス、
CPUおよび記憶装置などから構成される。
【0021】図2は、感情判定部の機能的構成を示すブ
ロック図である。同図において、辞書記憶部1042
は、各種辞書を記憶するものである。形態素解析部10
40は、辞書記憶部1042に記憶されている辞書を参
照して、問合せデータが示す問合せ文に対して形態素解
析する。
【0022】より詳細に説明すると、辞書記憶部104
2には、自立語辞書70、付属語辞書72、感情表現辞
書74の各々が記憶されている。自立語辞書70には、
名詞、動詞、形容詞、副詞といった単独でも文節を構成
することのできる単語(自立語)が収録されている。ま
た、付属語辞書72には、助詞、接続詞といった単独で
は文節を構成せず、常に自立語に付属する単語(付属
語)が収録されている。なお、感情表現辞書74につい
ては、後述する。形態素解析部1040は、自立語辞書
70および付属語辞書72を参照しつつ、問合せデータ
の問合せ文を単語(形態素)に分解するといった形態素
解析を実行し、各単語を単語ベクトル検索部1044に
出力する。なお、形態素解析には、接続コスト最小法な
どの一般的なアルゴリズムが適用され得る。
【0023】単語ベクトル検索部1044は、形態素解
析部1040からの単語を検索キーとして、感情表現辞
書74を検索し、その単語に該当する感情ベクトル値を
特定するものである。感情表現辞書74は、図3に示す
ように、1つの単語に感情表現を構成する要素(感情要
素)がどの程度含まれているかを感情ベクトル値として
表したものである。ここで、本実施形態では、図3に示
すように、感情表現は、「喜び」、「悲しみ」、「驚
き」、「恐怖」、「怒り」および「嫌悪」の6次元の感
情要素で構成されるものとし、また、各単語の感情ベク
トル値は、感情要素ごとの合計が「1」になるように割
り当てられるものとする。なお、感情要素として、他の
要素(例えば「苛立ち」や「あせり」など)が含まれる
ようにしても良いことは勿論である。このように単語を
感情要素で数値化すると、例えば、「ありがとう」とい
う単語は、「喜び」の感情ベクトル値が「1」で、他の
感情ベクトル値が「0」となり、また、「わからない」
という単語は、「悲しみ」と「驚き」の感情ベクトル値
が各々「0.5」で、他の感情ベクトル値が「0」とな
る。
【0024】この感情表現辞書74は、上述した6次元
の感情要素を有する問合せ文のサンプル(以下、「サン
プル文」という)から感情ベクトル値を求めることによ
り作成されている。感情表現辞書74の作成手順は、簡
単に説明すると次の通りである。すなわち、第1に、1
つの感情要素につき数十個程度の単語が含まれるような
サンプル文に対して形態素解析する。第2に、形態素解
析によって得られた各単語を、既知の単語文書出現頻度
TFIDFを使用した単語を次元とするベクトル空間上
に配置して、感情の平均ベクトルを求める。ここで、感
情ベクトルの次元数は、全てのサンプル文書における出
現単語数になる。
【0025】図4は、ベクトル空間上に配置された感情
要素ごとの感情ベクトルの分布を示す模式図である。同
図には、「喜び」の感情を有するサンプル文、「悲し
み」の感情を有するサンプル文、「驚き」の感情を有す
るサンプル文、「恐怖」の感情を有するサンプル文、
「怒り」の感情を有するサンプル文、「嫌悪」の感情を
有するサンプル文の夫々について感情ベクトルの分布が
模式的に示されている。次に各単語について感情要素ご
とに感情の平均ベクトルを求め(図5参照)、その平均
ベクトルの中からベクトル値の大きい感情要素を取り出
して感情表現辞書を作成するのである。
【0026】さて、このようにして作成された感情表現
辞書74に対して、単語ベクトル検索部1044は、形
態素解析部1040からの各単語を検索キーとした検索
を行い、1件の問合せ文(すなわち、1つの問合せデー
タ)に含まれる各単語の感情ベクトル値を単語ごとに感
情表現積算部1046に順次出力する。感情表現積算部
1046は、受け取った感情ベクトル値を次々に積算
し、問合せ文全体の感情ベクトル値を算出して、判定部
1048に出力する。判定部1048は、受け取った問
合せ文全体の感情ベクトル値から、この問合せ文に反映
された顧客の感情を判定し、判定結果を記憶部102に
出力する。この判定は、例えば問合せ文全体について積
算された感情ベクトル値のうち、最大値を示す感情要素
をもってその問合せ文に反映された顧客の感情と判定す
る。例えば、図6に示すように、問合せ文Aの場合、積
算された感情ベクトル値のうち、「怒り」の感情ベクト
ル値が最大なので、問合せ文Aに反映されている顧客の
感情は、「怒り」であると判定される。同様にして、問
合せ文Bに反映されている顧客の感情は、「悲しみ」で
あると判定され、問合せ文Cに反映されている顧客の感
情は、「喜び」であると判定される。
【0027】判定部1048は、問合せデータベース2
4aに蓄積されている全ての問合せデータに対して上述
した判定を行い、この判定結果から図11に示す感情判
定結果テーブル54を生成し、記憶部102に記憶させ
る。同図に示すように、感情判定結果テーブル54に
は、問合せデータの問合せ識別情報と、この問合せデー
タの問合せ文について判定された感情とが対応付けて記
録されている。
【0028】次いで、図1において、データ集計部10
6は、記憶部102に記憶されている感情判定結果テー
ブル54に従って、同一のクラスタであり、かつ、同一
の感情に分類される問合せデータの数を計数し、計数結
果を降順に並べ替えた集計結果テーブル58を生成し、
記憶部102に記憶させるものである。このデータ集計
部106は、コンピュータにおけるCPUおよびRAM
に相当する。
【0029】また、表示部110は、例えばCRT(Ca
thode-Ray Tube)ディスプレイや液晶ディスプレイなど
の表示装置に相当し、各種情報を示す画面を表示する。
表示制御部108は、表示部110に表示動作を制御す
るものであり、コンピュータにおけるCPUなどが相当
する。より具体的には、表示制御部108は、記憶部1
02に記憶された集計結果テーブル58に従って、デー
タ集計部106の集計結果画面を表示部110に表示さ
せる(図15参照)。
【0030】さて、このような構成の下、問合せ分析装
置10は、問合せデータベース24aに蓄積されている
問合せデータを分類・集計する分析処理を行う。この分
析処理の処理手順を示すプログラムは、記憶部102に
記憶されている。また、このプログラムは、例えば、光
ディスクや光磁気ディスクなどの可搬型の記録媒体に記
録されたプログラムである。なお、このプログラムがイ
ンターネットなどを介して他のコンピュータから受信さ
れたプログラムがインストールされたものであっても良
い。
【0031】図7は、問合せ分析装置10によって実行
される分析処理の手順を示すフローチャートである。同
図に示すように、先ず、問合せ分析装置10の問合せデ
ータ分類部100が問合せデータベース24aに蓄積さ
ている問合せデータに対してテキストマイニング処理を
実行する(ステップS1)。このテキストマイニング処
理にあっては、図8に示すように、上述した問合せデー
タの問合せ文のベクトル化処理(ステップS10)が行
われる。図9は、このベクトル化処理の手順を示すフロ
ーチャートである。同図に示すように、問合せデータ分
類部100は、問合せデータベースサーバ24から問合
せデータを1つ取得する(ステップS101)。次い
で、問合せデータ分類部100は、この問合せデータの
問合せ文を形態素解析して単語(形態素)に分解する
(ステップS102)。次に、問合せデータ分類部10
0は、その問合せ文を対象にして上述した単語出現頻度
TFと文書出現頻度IDFとを算出し(ステップS10
3)、問合せデータに固有の識別情報を割り当て、識別
情報と単語出現頻度TFと文書出現頻度IDFとの各々
を対応づけてRAMに格納する(ステップS104)。
次いで、問合せデータ分類部100は、問合せデータベ
ース24a内に未処理の問合せデータがあるかを判別し
(ステップS105)、この判別結果がYESであれ
ば、この未処理の問合せデータを処理すべく、処理手順
をステップS101に戻す。一方、ステップS105の
判別結果がNOであれば、問合せデータごとに、上述し
た単語文書出現頻度IFIDFを算出して各問合せ文を
ベクトル化する(ステップS106)。
【0032】次いで、問合せデータ分類部100は、図
8に示すように、問合せ文のベクトル化処理(ステップ
S10)が終了した後、ベクトル化された各問合せデー
タに対してクラスタリング処理を行う(ステップS1
2)。図10は、クラスタリング処理の手順を示すフロ
ーチャートである。同図に示すように、先ず、問合せデ
ータ分類部100は、問合せデータごとに、その問合せ
データに対応するクラスタを生成する(ステップ12
0)。次いで、問合せデータ分類部100は、問合せデ
ータのベクトルをクラスタのベクトルとして、ベクトル
間距離が一定値以下となるクラスタをまとめ、新たなク
ラスタを生成する(ステップS121)。次に、問合せ
データ分類部100は、ステップS121にて生成した
各クラスタに固有の識別情報を割り当て(ステップS1
22)、クラスタリング結果テーブル50(図12参
照)を生成し、記憶部102に記憶させる(ステップ1
23)。
【0033】このようにして、各問合せデータが分類さ
れた後、図7に示すように、感情判定部104が各問合
せデータに対して上述した感情判定処理を行う(ステッ
プS2)。図11は、感情判定処理の手順を示すフロー
チャートである。同図に示すように、先ず、形態素解析
部1040は、データベースサーバ24から問合せデー
タを1つ取得する(ステップS201)。次に、形態素
解析部1040は、辞書記憶部1042に記憶されてい
る辞書を参照して、問合せデータの問合せ文に対して形
態素解析する(ステップS202)。次いで、単語ベク
トル検索部1044は、形態素解析部1040からの各
単語の感情ベクトル値を、感情表現辞書74を参照して
特定し、感情表現積算部1046に単語ごとに順次出力
する(ステップS203)。
【0034】感情表現積算部1046は、単語ベクトル
検索部1044から順次受け取った感情ベクトル値を次
々に積算し、問合せ文全体の感情ベクトル値を算出し
て、判定部1048に出力する(ステップS204)。
そして、判定部1048は、受け取った問合せ文全体の
感情ベクトル値から、この問合せ文に反映された顧客の
感情(感情表現)を判定し、この判定結果をRAMなど
に格納する(ステップS205)。次いで、形態素解析
部1040は、問合せデータベース24a内に未処理の
問合せデータがあるかを判別し(ステップS206)、
この判別結果がYESであれば、その問合せデータに対
して処理を実行すべく、処理手順をステップS201に
戻す。一方、ステップS206における判別結果がNO
であれば、判定部1048は、各問合せデータについて
判定した感情から、図13に示すような感情判定結果テ
ーブル54を生成し、記憶部102に記憶させる(ステ
ップS207)
【0035】次いで、図7に示すように、データ集計部
106は、感情判定結果テーブル54を参照して、同一
のクラスタであり、かつ、同一の感情に分類される問合
せデータの数を計数し、計数結果を降順に並べ替えた集
計結果テーブル58を生成し、記憶部102に記憶させ
る(ステップS3)。そして、表示制御部108が記憶
部102に記憶された集計結果テーブル58に従って、
図15に示すような集計結果画面を表示部110に表示
させる(ステップS4)。これにより、問合せ分析担当
者は、顧客がどのような感情を抱いているかを、問合せ
の内容別に把握することができる。ここで、図15にお
いて、集計結果画面の「内容」に表示される文は、クラ
スタに含まれる全問合せデータに対して重要文抽出を実
施し、最も重要であると判定される文である。なお、以
上説明した分析処理は、問合せデータベース24aの更
新に対応すべく、一定時間ごとに行われるものであって
も良く、また、問合せ分析担当者の指示があったときに
行われるものであっても良い。
【0036】以上説明したように、本実施形態によれ
ば、顧客の問合せがその内容および感情によって分類さ
れる。これにより、メーカの担当者などは、顧客がどの
ようなことに対して不満を抱いているかが把握でき、そ
の対応策を講じることができる。すなわち、メーカの担
当者などが顧客の反響を取り入れ、顧客が満足する製品
を開発するときの指針を得ることができる。
【0037】<変形例>上述した実施形態は、あくまで
も例示であって、本発明の一態様を示すものであり、本
発明の範囲内で任意に変形可能である。そこで、以下
に、各種の変形例について説明する。
【0038】(変形例1)上述した実施形態において、
テキストマイニング処理として、空間ベクトルを用いた
方法について例示したが、これに限らず、例えば、構文
木を用いたものであっても良い。
【0039】(変形例2)上述した実施形態において、
本発明がメーカなどのコールセンタに寄せられた問合せ
内容を分析する問合せ分析装置に適用された場合につい
て例示したが、これに限らない、すなわち、本発明は、
人の意見が反映された文書データを感情別に分類する装
置に適用可能であり、例えば、インターネット上に設け
られた掲示板に書き込まれた文書を対象として分類する
装置や、アンケートの結果を対象として分類する装置に
も適用可能である。
【0040】(変形例3)上述した実施形態において、
感情判定部104が全ての問合せデータに対して感情を
判定する場合について例示したが、これに限らず、問合
せデータ数が比較的大きいクラスタについてのみ、感情
判定する構成であっても良い。
【0041】
【発明の効果】メーカの担当者などが顧客の反響を取り
入れ、顧客が満足する製品を開発するときの指針を得る
ことができるように文書データを分類する情報分類方
法、情報分類装置、プログラムおよび記録媒体が提供さ
れる。
【図面の簡単な説明】
【図1】 本発明の実施形態に係る情報分類装置が用い
られたコールセンタシステムの構成を示すブロック図で
ある。
【図2】 感情判定部の機能的構成を示すブロック図で
ある。
【図3】 感情表現辞書の構成を示す概念図である。
【図4】 ベクトル空間上に配置された感情要素ごとの
感情ベクトルの分布を示す模式図である。
【図5】 感情要素ごとの平均ベクトルを示す模式図で
ある。
【図6】 問合せ文の感情判定方法を説明するための図
である。
【図7】 問合せ分析装置によって実行される分析処理
の手順を示すフローチャートである。
【図8】 問合せデータ分類部によって実行されるテキ
ストマイニング処理の手順を示すフローチャートであ
る。
【図9】 問合せデータ分類部によって実行されるベク
トル化処理の手順を示すフローチャートである。
【図10】 問合せデータ分類部によって実行されるク
ラスタリング処理の手順を示すフローチャートである。
【図11】 感情判定部によって実行される感情判定処
理の手順を示すフローチャートである。
【図12】 クラスタリング結果テーブルの一例を示す
図である。
【図13】 感情判定結果テーブルの一例を示す図であ
る。
【図14】 集計結果テーブルの一例を示す図である。
【図15】 表示部に表示される画面の一例を示す図で
ある。
【符号の説明】
10・・・問合せ分析装置(情報分類装置)、50・・・クラ
スタリング結果テーブル、54・・・感情判定結果テーブ
ル、58・・・集計結果テーブル、100・・・問合せデータ
分類部、102・・・記憶部、104・・・感情判定部、10
6・・・データ集計部、110・・・表示部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 テキスト文を含む文書データを分類する
    情報分類方法において、 文書データのテキスト文を解析して、この解析結果に応
    じて当該文書データをクラスタに分類する第1の過程
    と、 クラスタに分類された文書データのテキスト文の感情表
    現に応じて当該文書データをサブクラスタに細分類する
    第2の過程とを具備することを特徴とする情報分類方
    法。
  2. 【請求項2】 前記第1の過程における解析にあって
    は、文書データのテキスト文に含まれる各単語の統計値
    を解析することを特徴とする請求項1に記載の情報分類
    方法。
  3. 【請求項3】 前記統計値は、全てのテキスト文を対象
    に計数された単語の出現回数と、テキスト文ごとに計数
    された単語の出現回数とから算出され、 テキスト文に出現する各単語と、当該各単語の統計値と
    に従って、各テキスト文を、テキスト文の各々に出現す
    る全ての単語を要素とした空間ベクトルにて表し、各テ
    キスト文の空間ベクトル間の距離に応じて各文書データ
    をクラスタに分類することを特徴とする請求項2に記載
    の情報分類方法。
  4. 【請求項4】 前記テキスト文の感情表現は、単語ごと
    に感情が予め数値化された感情値と、前記文書データの
    テキスト文に含まれる各単語とから特定されることを特
    徴とする請求項1に記載の情報分類方法。
  5. 【請求項5】 前記感情値は、複数の感情の各々を要素
    とする感情ベクトルによって表される値であり、 前記テキスト文の感情表現は、テキスト文に含まれる各
    単語の感情ベクトルを要素ごとに積算したときに、積算
    値が最も大きい要素に対応する感情から特定されること
    を特徴とする請求項4に記載の情報分類方法。
  6. 【請求項6】 テキスト文を含む文書データを分類する
    情報分類装置において、 文書データのテキスト文を解析して、この解析結果に応
    じて当該文書データをクラスタに分類する第1の分類手
    段と、 クラスタに分類された文書データのテキスト文の感情表
    現に応じて当該文書データをサブクラスタに細分類する
    第2の分類手段とを具備することを特徴とする情報分類
    装置。
  7. 【請求項7】 テキスト文を含む文書データを分類する
    コンピュータを、 文書データのテキスト文を解析して、この解析結果に応
    じて当該文書データをクラスタに分類する第1の分類手
    段、および、 クラスタに分類された文書データのテキスト文の感情表
    現に応じて当該文書データをサブクラスタに細分類する
    第2の分類手段として機能させるためのプログラム。
  8. 【請求項8】 テキスト文を含む文書データを分類する
    コンピュータを、 文書データのテキスト文を解析して、この解析結果に応
    じて当該文書データをクラスタに分類する第1の分類手
    段、および、 クラスタに分類された文書データのテキスト文の感情表
    現に応じて当該文書データをサブクラスタに細分類する
    第2の分類手段として機能させるためのプログラムを記
    録したコンピュータ読み取り可能な記録媒体。
JP2002076922A 2002-03-19 2002-03-19 情報分類方法、情報分類装置、プログラムおよび記録媒体 Pending JP2003281161A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002076922A JP2003281161A (ja) 2002-03-19 2002-03-19 情報分類方法、情報分類装置、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002076922A JP2003281161A (ja) 2002-03-19 2002-03-19 情報分類方法、情報分類装置、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2003281161A true JP2003281161A (ja) 2003-10-03

Family

ID=29227852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002076922A Pending JP2003281161A (ja) 2002-03-19 2002-03-19 情報分類方法、情報分類装置、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2003281161A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202118A (ja) * 2005-01-21 2006-08-03 Yafoo Japan Corp 属性評価装置、属性評価方法および属性評価プログラム
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
JP2010113511A (ja) * 2008-11-06 2010-05-20 Nippon Telegr & Teleph Corp <Ntt> 感性情報抽出・検索装置、その方法およびプログラム
US7788086B2 (en) 2005-03-01 2010-08-31 Microsoft Corporation Method and apparatus for processing sentiment-bearing text
US7788087B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
JP2010211821A (ja) * 2010-05-13 2010-09-24 Internatl Business Mach Corp <Ibm> 検索システム、検索方法、報告システム、報告方法、及びプログラム
JP2010224813A (ja) * 2009-03-23 2010-10-07 Toshiba Corp 感情推定装置、及び方法
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
KR101613259B1 (ko) * 2014-07-17 2016-04-19 건국대학교 산학협력단 소셜 네트워크 서비스 사용자의 감성 분석 시스템 및 그 방법
WO2022181399A1 (ja) * 2021-02-25 2022-09-01 学校法人東洋大学 感情表現語句辞書を生成する方法、文における感情を分析する方法、感情表現語句辞書、プログラム、およびシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250925A (ja) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd 文書検索・分類方法および装置
JP2001209820A (ja) * 2000-01-25 2001-08-03 Nec Corp 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2001331514A (ja) * 2000-05-19 2001-11-30 Ricoh Co Ltd 文書分類装置及び文書分類方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250925A (ja) * 1999-02-26 2000-09-14 Matsushita Electric Ind Co Ltd 文書検索・分類方法および装置
JP2001209820A (ja) * 2000-01-25 2001-08-03 Nec Corp 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2001331514A (ja) * 2000-05-19 2001-11-30 Ricoh Co Ltd 文書分類装置及び文書分類方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徳永 健伸, 言語と計算5 情報検索と言語処理, vol. 第1版, JPN6007016176, 25 November 1999 (1999-11-25), JP, pages 41 - 43, ISSN: 0000952094 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202118A (ja) * 2005-01-21 2006-08-03 Yafoo Japan Corp 属性評価装置、属性評価方法および属性評価プログラム
US7788086B2 (en) 2005-03-01 2010-08-31 Microsoft Corporation Method and apparatus for processing sentiment-bearing text
US7788087B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
JP2010113511A (ja) * 2008-11-06 2010-05-20 Nippon Telegr & Teleph Corp <Ntt> 感性情報抽出・検索装置、その方法およびプログラム
JP2010224813A (ja) * 2009-03-23 2010-10-07 Toshiba Corp 感情推定装置、及び方法
JP2010211821A (ja) * 2010-05-13 2010-09-24 Internatl Business Mach Corp <Ibm> 検索システム、検索方法、報告システム、報告方法、及びプログラム
CN103744838A (zh) * 2014-01-24 2014-04-23 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
CN103744838B (zh) * 2014-01-24 2016-09-07 福州大学 一种用于度量主流情感信息的中文情感文摘系统及方法
KR101613259B1 (ko) * 2014-07-17 2016-04-19 건국대학교 산학협력단 소셜 네트워크 서비스 사용자의 감성 분석 시스템 및 그 방법
WO2022181399A1 (ja) * 2021-02-25 2022-09-01 学校法人東洋大学 感情表現語句辞書を生成する方法、文における感情を分析する方法、感情表現語句辞書、プログラム、およびシステム

Similar Documents

Publication Publication Date Title
Chau et al. Finding People with Emotional Distress in Online Social Media: A Design Combining Machine Learning and Rule-Based Classification.
Zhang Weighing stars: Aggregating online product reviews for intelligent e-commerce applications
JP4870448B2 (ja) 情報処理装置、顧客ニーズ分析方法、およびプログラム
US20160371280A1 (en) System and method for predicting user behaviors based on phrase connections
JP3266586B2 (ja) データ分析システム
US9251249B2 (en) Entity summarization and comparison
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
Tabak et al. Comparison of emotion lexicons
JP2003281161A (ja) 情報分類方法、情報分類装置、プログラムおよび記録媒体
Marzijarani et al. Opinion mining with reviews summarization based on clustering
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20100073793A (ko) 집단지성을 이용한 지식 구조화 장치 및 그 방법과, 그를 이용한 지식서비스 제공 시스템
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
Velmurugan et al. Mining implicit and explicit rules for customer data using natural language processing and apriori algorithm
JP2003157271A (ja) テキストマイニング装置および方法
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及系统
Özyirmidokuz Mining unstructured Turkish economy news articles
EP4002151A1 (en) Data tagging and synchronisation system
Prathyusha et al. Normalization Methods for Multiple Sources of Data
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP2022137569A (ja) 情報管理システム
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置
JP5720071B2 (ja) 複合語概念分析システム、方法およびプログラム
Dickinson et al. Dimensionality reduction of distributed vector word representations and emoticon stemming for sentiment analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080430