JP2003248687A - 情報処理装置およびその方法 - Google Patents

情報処理装置およびその方法

Info

Publication number
JP2003248687A
JP2003248687A JP2002046233A JP2002046233A JP2003248687A JP 2003248687 A JP2003248687 A JP 2003248687A JP 2002046233 A JP2002046233 A JP 2002046233A JP 2002046233 A JP2002046233 A JP 2002046233A JP 2003248687 A JP2003248687 A JP 2003248687A
Authority
JP
Japan
Prior art keywords
document
discrimination
result
documents
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002046233A
Other languages
English (en)
Other versions
JP3677006B2 (ja
Inventor
Yoshio Matsuda
芳雄 松田
Hideo Hayashida
英雄 林田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nihon Unisys Ltd
Original Assignee
Nihon Unisys Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nihon Unisys Ltd filed Critical Nihon Unisys Ltd
Priority to JP2002046233A priority Critical patent/JP3677006B2/ja
Publication of JP2003248687A publication Critical patent/JP2003248687A/ja
Application granted granted Critical
Publication of JP3677006B2 publication Critical patent/JP3677006B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 文書を機械的に判別し、結果だけを示す場
合、判別精度や判別結果の信頼度が不明なため、個人に
依存する判断によって、カテゴリ分けされた顧客の声が
対応部門の間で盥回しされ、長期間放置される危惧があ
る。 【解決手段】 文書10から出現頻度が高い連語を抽出し
(S20)、抽出された連語から文書のカテゴリを判別する
ための判別関数8aを作成し(S30)、作成された判別関数8
aに基づき文書10のカテゴリを判別し(S40)、別結果の分
類ルールを作成して、判別結果を分類し(S50-S60)、分
類結果ごとに判別結果の正答率を計算し(S70)、判別関
数、分類ルールおよび正答率を文書判別情報としてメモ
リに格納する。そして、文書判別情報に基づき、文書10
と同類の文書6のカテゴリを判別して、その正答率を含
む判別結果9を出力する(S110-S140)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報処理装置および
その方法に関し、例えば、文書をその内容によりカテゴ
リに分ける情報処理に関する。
【0002】
【従来の技術】インターネットやコールセンタなどの新
しいビジネス形態の普及にともない、顧客の問い合わ
せ、要望および苦情などが、紙ではなく、ディジタル化
された文書として電子的に蓄積されることが多い。そし
て、各企業は、蓄積文書に記録された顧客の声を、商品
企画やマーケティングへ反映させようとする。その際、
顧客の声をカテゴリに分けして、各カテゴリに対応する
部門に送る必要がある。
【0003】大量の文書をカテゴリに分ける処理は文書
判別と呼ばれる手法で行われる。例えば、文書が予め決
められた「要望」「質問」「苦情」「感想」のどのカテ
ゴリに属するかを判別する場合は四つの判別関数を作成
する。すなわち、文書が「要望」か否かを判別する関
数、「質問」か否かを判別する関数、「苦情」か否かを
判別する関数、および、「感想」か否かを判別する関数
である。これら四つの関数によって判別確率P(deman
d)、P(query)、P(complaint)、P(impression)が計算さ
れ、これら確率の大きさによって、文書がどのカテゴリ
に属するかが判別される。
【0004】
【発明が解決しようとする課題】人間が書いた文書は単
純ではなく、色々な要素を含む。例えば、苦情の要素を
含む「要望」とか、苦情に近い「要望」もあり得る。こ
れらを単に「要望」「質問」「苦情」「感想」のどれか
に分けることには無理があるし、判別結果の信頼度も明
確ではない。
【0005】また、機械的に判別し、結果だけを示す場
合、判別精度や判別結果の信頼度が不明なため、個人に
依存する判断によって、カテゴリ分けされた顧客の声が
対応部門の間で盥回しされ、長期間放置される危惧があ
る。顧客の声を長期間放置するなどすれば、顧客に不安
感や不信感を抱かせ、時には反感を買う危険性がある。
【0006】本発明は、上述の問題を個々にまたはまと
めて解決するためのもので、 高い信頼度で文書を判別
することを目的とする。
【0007】また、文書の判別結果に、判別の信頼度を
示す情報を与えることを他の目的とする。
【0008】
【課題を解決するための手段】本発明は、前記の目的を
達成する一手段として、以下の構成を備える。
【0009】本発明にかかる情報処理方法は、文書をそ
の内容により分類する情報処理方法であって、所定数の
文書から重要度および出現頻度に基づき連語を抽出し、
抽出された連語から文書のカテゴリを判別するための判
別関数を作成し、作成された判別関数に基づき、前記所
定数の文書のカテゴリを判別し、その判別結果に基づ
き、前記判別結果の分類ルールを作成して、前記判別結
果を分類し、その分類結果ごとに前記判別結果の正答率
を計算し、前記連語、前記判別関数、前記分類ルールお
よび前記正答率を文書判別情報としてメモリに格納し、
前記文書判別情報に基づき、前記所定数の文書と同類の
文書のカテゴリを判別して、その正答率を含む判別結果
を出力することを特徴とする。
【0010】本発明にかかる情報処理装置は、文書をそ
の内容により分類する情報処理装置であって、所定数の
文書から重要度および出現頻度に基づき連語を抽出する
抽出手段と、抽出された連語から文書のカテゴリを判別
するための判別関数を作成する作成手段と、作成された
判別関数に基づき、前記所定数の文書のカテゴリを判別
する第一の判別手段と、その判別結果に基づき、前記判
別結果の分類ルールを作成して、前記判別結果を分類す
る分類手段と、その分類結果ごとに前記判別結果の正答
率を計算する計算手段と、前記連語、前記判別関数、前
記分類ルールおよび前記正答率を文書判別情報として記
憶するメモリと、前記文書判別情報に基づき、前記所定
数の文書と同類の文書のカテゴリを判別して、その正答
率を含む判別結果を出力する第二の判別手段とを有する
ことを特徴とする。
【0011】
【発明の実施の形態】以下、本発明にかかる一実施形態
の文書処理を図面を参照して詳細に説明する。
【0012】[概要]本実施形態は、以下の方法によ
り、顧客の声のような文書を短時間に、高い信頼度で判
別するものである。
【0013】● 判別関数の精度向上 回帰分析により判別関数を作成するに当って、使用する
連語辞書を予め人が作成する。連語辞書に登録する連語
とは、それぞれの判別項目に属する文書で出現頻度が高
いと思われる表現である。通常、連語辞書を構成する方
法として、単語形式を採用する方法、構文形式を採用す
る方法がある。単語形式の連語辞書は作成が容易、構文
形式の連語辞書は高精度の判別関数が得られる、という
特徴がある。
【0014】顧客の声のような文章を判別対象にする場
合、必ずしも、正しい構文の文章とは限らない。従っ
て、構文形式の連語辞書を採用する精度向上のメリット
は得られない。そこで、本実施形態では、単語形式の連
語辞書を採用し、連語辞書の内容を正規表現が可能にす
ることで、精度の高い判別関数を得る。さらに、判別関
数を一次直線、二次曲線、指数曲線などから選択するこ
とで、判別関数を固定した場合に比べて、より精度の高
い判別関数を得る。
【0015】● 判別結果の帰属度と正答率の提示 本実施形態では、図1に一例を示すように、判別結果を
各カテゴリへの帰属度の確率として表現する。これによ
り、各文書が「要望」「質問」「感想」「苦情」の各要
素をどの程度含むかを示し、択一ではない適切な判別を
可能にする。例えば、図1の例では、感想の要素を含む
「要望」、または、感想に近い「要望」と判断すること
ができる。
【0016】そして、帰属度の確率表現と同時に、帰属
度についてどの程度の信頼度があるかを正答率として提
示する。
【0017】● 自動処理 本実施形態では、事前処理により、一旦、連語辞書、判
別関数、分類ルールおよびパターン情報を作成し保存す
る。その後、同種の文書について判別を実施する際に、
保存された情報を利用して、人手を介さずに自動的に判
別を実施する。
【0018】本実施形態は、顧客の声のような文書を商
品企画やマーケティングへ適用するために、上記の構成
により、前処理として、それら文書を判別する。判別処
理において、正規表現が可能な連語辞書を利用し、一次
直線、二次曲線、指数曲線などから適切な判別関数を自
動選択して判別精度を向上させる。そして、判別結果の
正答率を示すことで、判別された文書を対応部門へ送付
する際に、正答率が高い文書については自動処理し、信
頼度が低い文書は人の判断を介在させるなどして、後処
理(対応部門における処理)との効率的な連携が可能に
なる。勿論、同種の文書に対しては、保存情報を利用す
る自動処理によって短時間に文書判別が可能になる。
【0019】[構成]図2は実施形態の文書処理を実行
するシステム構成例を示すブロック図である。なお、実
施形態は、クライアントサーバ構成に限らず、スタンド
アローンのコンピュータでも実現可能である。
【0020】図2において、文書処理の利用者は、クラ
イアント1や2のモニタに表示された画面を介して、文書
処理装置4を構成する文書判別サーバ5にアクセスする。
クライアント1や2と文書判別サーバ5とはインターネッ
トやLANなどのネットワーク3を介して接続されている。
【0021】インターネットなどを利用して収集される
大量の文書データ6は、文書判別サーバ5に接続されたハ
ードディスクなどの外部記憶装置に保存されている。利
用者は、連語辞書7などを予め準備して、文書判別サー
バ5に接続されたハードディスクなどの外部記憶装置に
保存しておく。
【0022】[文書判別処理]図3は実施形態の文書判
別処理の一例を示すフローチャートで、文書判別サーバ
5によって実行される処理を示す。
【0023】文書処理の利用者は、予め人手によって判
別された既存の文書データ(五千件程度)を判別関数の
作成用文書10として準備する。なお、判別関数の作成用
文書10および文書データ6は、処理精度を上げるため
に、表現・表記が統一されていることが望ましい。すな
わち、英字の大文字(または小文字)への統一、英字の
全角文字(または半角文字)への統一、半角カナ文字を
全角カナ文字への変換、並びに、意味が同じで表記が異
なる文字列の表記の統一など、所謂データクリーニング
を施す。
【0024】以降、図3に示す処理の流れに沿って、文
書を「要望」「質問」「感想」「苦情」の四種類に判別
する例を説明する。勿論、判別カテゴリはこの四つに限
定されるものではなく、判別対象の文書の特性に応じた
カテゴリを設定することになる。
【0025】図3に示すステップS10からS70の処理は、
計算量が多く、また人手を介したり、試行錯誤による繰
り返しが必要になることもあり、一般に処理に時間を要
する。本実施形態は、一旦、ステップS10からS70の処理
を行い、連語辞書7、判別関数8a、分類ルール8b、8cお
よび8d、並びに、パターン情報8eを作成して外部記憶装
置に保存する。その後、判別関数の作成用文書10に類似
する内容の別の文書データ6の判別を行う場合は、図2に
示すステップS110からS140の処理を自動的に実行する。
従って、大量の文書データ6の判別を短時間に実行する
ことができる。勿論、異なる分野の文書データ6を判別
する場合や、時間や状況が変化して判別対象の文書の傾
向に変化があると思われる場合は、改めてステップS10
からS70の処理を実施すればよい。
【0026】● 連語辞書の作成(S10) 文書判別サーバ5は、利用者が予め判別した情報(以降
「教師信号」と呼ぶ)に基づき連語辞書7を作成する。
本実施形態においては、上述したように、単語形式の連
語辞書とし、かつ、正規表現を可能にすることで、高い
精度の判別関数が得られる連語辞書7にする。
【0027】図4は連語辞書を作成するための処理画面
の一例を示す図で、文書判別サーバ5によってクライア
ント1または2のモニタに表示される。
【0028】文書判別サーバ5は、判別関数の作成用文
書10の中から、あるカテゴリ、例えば要望に判別された
文書を、画面左上の文書一覧21に表示する。利用者が画
面右下の採用中連語一覧24に、判別のキーとなるであろ
う連語を入力すると、文書判別サーバ5は、その連語に
一致する文字列をもつ文書の表示を、画面左上の文書一
覧21から画面左下の文書一覧22へ移動する。
【0029】利用者は、複数の連語を入力・選択・取り
消し(まとめて「指定」と呼ぶ)が可能である。具体的
には、文書のカテゴリに一致する連語を指定する。つま
り、連語は、その重要度および出現頻度などの情報に基
づき、判別関数の作成用文書10から抽出されることにな
る。
【0030】文書判別サーバ5は、他の連語が指定され
ると、上記と同様の処理を行う。また、利用者が画面右
下の採用中連語一覧24に表示された連語の取消を指示す
ると、文書判別サーバ5は、取消対象の連語の表示を、
画面右下の採用中連語一覧24から画面右上の未採用連語
一覧23へ移動するとともに、取消された連語とのみ一致
する文字列をもつ文書の表示を、画面左下の文書一覧22
から画面左上の文書一覧21へ移動する。
【0031】本実施形態では、正規表現による次の連語
指定が可能である。なお、正規表現は下記に限定され
ず、周知の様々な正規表現を利用することが可能であ
る。
【0032】「*」は任意の文字列を表す。例えば「AB*
CD」は文字列「AB」の後ろに一つ以上の文字があり、そ
の後に文字列「CD」が続くことを表す。
【0033】「?」は任意の一文字を表す。例えば「AB?
CD」が文字列「AB」の後ろに一文字があり、その後に文
字列「CD」が続くことを表す。
【0034】「#」は数字一文字を表す。例えば「#秒以
内」であれば、数字一文字の後ろに文字列「秒以内」が
続くことを表す。
【0035】ブラケット([…])は、ブラケットに囲ま
れ、かつ、「,」で区切られた複数の文字列の一つを表
す。例えば「[証明,立証]する」は「証明する」または
「立証する」を表す。
【0036】利用者が指定した連語から、文書判別サー
バ5は連語辞書7を作成し、外部記憶装置に保存する。図
5は連語辞書7の例を示す図である。
【0037】図5において「判別項目番号」は判別カテ
ゴリを整数で示す。例えば、判別項目番号「1」は「要
望」を、「2」は「質問]を、「3」は「感想」を、
「4」は「苦情」をそれぞれ示す。「採用フラグ」は、
その連語が採用されているか否かを示し‘1’は採用、
‘0’は不採用を示す。
【0038】なお、文書判別サーバ5は、ステップS10の
処理を再実行する場合、前回作成した連語辞書7を読み
込んで図4に示す処理画面をクライアントのモニタに表
示する。従って、利用者は処理画面を参照して連語辞書
7の修正を指示することが可能である。
【0039】● 連語の抽出(S20) 文書判別サーバ5は、判別関数の作成用文書10の一文書
ごとに、連語辞書7に登録された全連語について、該当
する連語を含むか否かを調べ、図6に示すテーブルを作
成する。
【0040】図6に示すテーブルおいて、「教師信号」
の列は各行の文書の該当カテゴリを示し、教師信号
「2」は対応する文書が該当カテゴリに分類されたこと
を、「1」は対応する文書が該当カテゴリに分類されて
いないことを示す。例えば、文書No.1は「要望」カテゴ
リに分類されている。「連語の出現」の列は、各行の文
書に該当する連語が出現するか否かを示し‘1’は該当
する連語が出現することを、‘0’は該当する連語が出
現しないことを示す。
【0041】● 判別関数の作成(S30) 文書判別サーバ5は、四つのカテゴリに対応する判別関
数を回帰分析の手法で作成する。すなわち「要望」か否
かを判別する関数、「質問」か否かを判別する関数、
「感想」か否かを判別する関数、および、「苦情」か否
かを判別する関数を作成する。具体的には回帰式(1)が
作成される。 y = b1・x1 + b2・x2 + b3・x3 + … + bn・xn + c …(1) ここで、yは「教師信号」の値(図6参照) xは「連語の出現」の値(図6参照) nはその判別における連語の数
【0042】文書判別サーバ5は、図6に示す連語の抽出
結果を示すテーブルの値に対して回帰分析を行い、定数
b1、b2、b3、…、bnおよびcの各値を計算する。回帰分
析については、例えば、田中豊、脇本和昌「多変量統計
解析法」(現代数学社、1983年5月、第1章回帰分析法)
に示されている方法などを利用する。
【0043】文書判別サーバ5は、回帰式を作成した
後、曲線を当て嵌めて式を補正する。文書判別サーバ5
が行う曲線の当て嵌めにあたり、カテゴリ「要望」「質
問」「感想」「苦情」それぞれについて、図7に示す処
理を行う。
【0044】連語の抽出結果を示すテーブルの全データ
を、「連語の出現」の値に基づき、回帰式に当て嵌め
て、教師信号に相当する値の予測値(以降「スコア」と
呼ぶ)を計算する(S301)。
【0045】スコアの値をキーにして文書をソートする
(S302)。
【0046】ソート結果の文書を自然数m(例えばm=2
0)のグループに分ける(S303)。ただし、同一スコアの
値をもつ文書は同一グループ(以降「ランク」と呼ぶ)
に分けるため、各ランクの文書の数が同一になるとは限
らない。
【0047】各ランクのスコアの値の平均値(以降「ス
コア平均」と呼ぶ)を計算する。また、ランクごとに、
連語抽出結果を示すテーブル(図6)の「教師信号」の
値が「2」である文書の数(以降「反応数」と呼ぶ)の
割合(以降「反応率」と呼ぶ)を算出する(S304)。そし
て、各ランクの「教師信号」の値の平均値(以降「評価
変数平均」と呼ぶ)を計算する(S305)。
【0048】図8は以上の処理結果の一例を示す図であ
る。なお「サンプル数」列は各ランクに含まれる文書の
数を示す。
【0049】次に、m個のスコア平均を使用して、評価
変数が予測されるように曲線を当て嵌める(S306)。当て
嵌める曲線は例えば次の四種類である。 一次直線: Y = A + BX 二次曲線: Y = A + BX + CX2 指数曲線: Y = ABX 二次指数曲線: Y = 10Z ここで、Z = A + BX + CX2
【0050】上記の曲線の何れにおいても、Yは評価変
数であり、Xは各ランクのスコア平均である。文書判別
サーバ5は、以下に示す方法で回帰分析を行い、A、Bお
よびCの値を計算する。
【0051】一次曲線および二次曲線の場合、スコア平
均の値をXに代入して回帰分析を行い、A、BおよびCを求
める。
【0052】指数曲線の場合は、その両辺を対数変換し
た式(2)に評価変数平均の値から求まるlogY、および、
スコア平均の値Xを代入して回帰分析を行い、AおよびB
を求める。 logY = logA + X・logB …(2)
【0053】二次指数曲線の場合は、両辺を対数変換し
た式(3)に評価変数平均の値から求まるlogY、並びに、
スコア平均の値Xから求まるlogXおよび2・logXを代入し
て回帰分析を行い、A、BおよびCを求める。 logY = (A + BX + CX2)・log10 = log10・A + log10・BX + 2・log10・CX …(3)
【0054】続いて、m個のスコア平均を使用して、反
応率が予測されるように曲線に当て嵌める(S307)。当て
嵌める曲線は例えば次の四種類である。 一次直線: Y = A + BX 二次曲線: Y = A + BX + CX2 指数曲線: Y = ABX 二次指数曲線: Y = 10Z ここで、Z = A + BX + CX2
【0055】上記の曲線の何れにおいても、Yは反応率
であり、Xは各ランクのスコア平均である。文書判別サ
ーバ5は、ステップS306と同様の方法で回帰分析を行
い、A、BおよびCの値を計算する。
【0056】次に、文書判別サーバ5は、ステップS306
およびS307でそれぞれ得られた四種類の曲線をクライア
ントの画面に並べてグラフ表示する(S308)。図9はステ
ップS306で得られる評価変数の予測結果を示す図、図10
はステップS307で得られる反応率の予測結果を示す図で
ある。なお、図11に示す数値表示も可能である。さら
に、文書判別サーバ5は、採用を推奨する曲線を一つ選
定して、図9および10に示すように推奨曲線のグラフを
囲んだり、図11に示すように推奨曲線の採用フラグを
‘1’にして、推奨曲線を示すことができる。
【0057】文書判別サーバ5は、採用を推奨する曲線
の選定に当り、決定係数Rの高いものを選定する。決定
係数とは、回帰分析による式の当て嵌りの度合を表す指
標で、0から1の間の値をとる。なお、利用者はグラフ表
示または数値表示を観て、採用する曲線の変更を指示す
ることもできる。また、採用される曲線の種類はカテゴ
リ「要望」「質問」「苦情」「感想」ごとに異なっても
よく、例えば「要望」は二次曲線を、「質問」は指数曲
線を採用することができる。
【0058】文書判別サーバ5は、採用された曲線の数
値情報を各カテゴリの判別関数8aとして外部記憶装置に
保存する(S309)。
【0059】● 判別関数を使用した文書判別(S40) 文書判別サーバ5は、図6に示した連語抽出結果を判別関
数8aに当て嵌めて、判別関数の作成用文書10の各文書の
判別関数の値を計算する(以降、計算結果を「判別結
果」と呼ぶ)。なお、以下では、反応率を予測する判別
関数を例にして説明する。
【0060】図12は判別結果の一例を示す図である。図
12において「教師信号」列は各行の文書の該当カテゴリ
を示し、教師信号「1」は対応する文書が該当カテゴリ
に分類されたことを、「0」は対応する文書が該当カテ
ゴリに分類されていないことを示す。また、「反応率」
列は判別関数の値の計算結果を示す。そして、「判別結
果」列は、該当する文書の該当するカテゴリの反応率が
閾値(例えば50)以上の場合に‘1’になる。
【0061】● 主成分分析によるマップ作成(S50) 文書判別サーバ5は、前のステップS40で計算した文書の
判別結果を基準化し、多変量解析の手法の一つである主
成分分析を用いて、判別結果のデータを空間上に配置す
る。基準化は、図13に示す各データの平均値(例えば
「要望」の判別結果の平均値)とその標準偏差(例えば
「要望」の判別結果の標準偏差)を用いて、田中豊、脇
本和昌「多変量統計解析法」(現代数学社、1983年5
月、第2章主成分分析法)に示されるような方法(式(4)
参照)によって行う。 Dstd = (D - Dave) / Dsd …(4) ここで、Dstd: 基準化後の判別結果 D: 基準化前の判別結果 Dave: 判別結果の平均値 Dsd: 判別結果の標準偏差
【0062】そして、主成分分析の結果できあがる空間
上に、各判別結果を配置してサンプルマップを作成す
る。サンプルマップの作成も、前記の文献に示されるよ
うな方法を利用する。
【0063】図14および図15は作成されるサンプルマッ
プのグラフ表示例および数値表示例を示す図である。ま
た、図16は、基準化された判別結果を主成分分析の結果
できあがる空間上に配置するために、主成分分析で使用
される固有値の例を示す図である。さらに、文書判別サ
ーバ5は、判別結果の基準化に用いた、図13に示され
る、各判別結果の平均と標準偏差を分類ルール8bとし
て、図16に示される固有値を分類ルール8cとして外部記
憶装置に保存する。
【0064】● クラスタ分析による判別結果の分類(S6
0) 文書判別サーバ5は、前のステップS50で作成したサンプ
ルマップについて、多変量解析の手法の一つであるk-me
ans法によるクラスタ分析を行い、判別結果のデータを
グループ化する。なお、この処理を「分類」と呼び、グ
ループの総称を「クラスタ」と呼ぶ。
【0065】文書判別サーバ5は、得られたクラスタに
属する全サンプルの重心を計算し、その結果のクラスタ
の重心(図17参照)を分類ルール8dとして外部記憶装置
に保存する。なお、クラスタ分析については、例えば、
西田英郎監訳「クラスター分析とその応用」(株式会社
内田老鶴圃、1995年12月、7章 非階層的クラスター分析
法)に紹介されている。
【0066】サンプルマップのすべての軸についてk-me
ans法によるクラスタ分析を行うと、すべての軸を用い
た計算を必要とし、計算に長時間を要する。このため、
クラスタ分析に使用される軸の数は、出力されるすべて
の軸の数ではなく、各軸のサンプルのばらつきなどを観
ながら、試行錯誤を繰り返して軸数mを決定する。この
ため、データを分類するたびにK-means法によるクラス
タ分析を行えば、非常に手間がかかる処理になる。そこ
で、本実施形態では、これを改善するために、後述する
ように、二回目以降の分類実施処理においてはk-means
法によるクラスタ分析を行わずに分類結果を生成する。
【0067】● 判別結果の正答率の計算(S70) 文書判別サーバ5が計算した反応率は、図12に示すよう
に、0から100の間の実数値をとるので、判別結果の値に
ついて閾値(例えば50)で真偽を求め、事前に利用者が
与えた教師信号と突き合わせて、正答か否かを判定す
る。そして分類ごとの正答率(図18参照)をパターン情
報8eとして外部記憶装置に保存する。
【0068】ここで、正答率は式(5)で示される。例え
ば、図18において、分類番号1の文書数が579件、そのう
ち教師信号と判別結果が一致した文書数は553件である
から、分類番号1の正答率は553/579×100=95.51%にな
る。
【0069】文書判別サーバ5は、ここまでの処理で外
部記憶装置に保存された連語辞書7、判別関数8a、分類
ルール8b(各判別結果の平均と標準偏差)、分類ルール
8c(固有値)、分類ルール8d(クラスタの重心)、およ
び、パターン情報8eを利用することで、この後、同じよ
うな内容の文書があれば、何時でも人手を介すること無
く、図3に示すステップS110からS140の手順を自動的に
実行し、文書判別を行うことができる。例えば、文書判
別サーバ5は、毎日集まってくるデータを、毎日、自動
的に判別することができる。
【0070】続いて、図3に示すステップS110からS140
の処理を説明する。
【0071】● 連語の抽出(S110) 文書判別サーバ5は、判別対象の文書データ6の文書一件
ごとに、連語辞書7の全連語について、該当する連語を
含むか否かを調べて、図19に示すテーブルを作成する。
【0072】● 判別関数を使用する判別(S120) 文書判別サーバ5は、図19に示す連語抽出結果を示すテ
ーブルについて、文書データ6の文書一件ごとに「要
望」「質問」「苦情」「感想」の四つのカテゴリに対応
する判別関数を適用し、判別関数の値(判別結果)を計
算する。
【0073】図20は判別結果のテーブル例を示す図で、
「確率」列は該当する文書の各判別関数の計算結果の値
を示す。「判別結果」列は該当する文書の、該当するカ
テゴリの「確率」の値がある閾値(例えば50)以上であ
れば‘1’になり、閾値未満であれば‘0’になる。
【0074】●判別結果のマップ上への配置と分類(S13
0) 文書判別サーバ5は、分類ルール8b(平均および標準偏
差)、分類ルール8c(固有値)、分類ルール8d(クラス
タの重心)を読み込み、次の手順で、判別結果をマップ
上へ配置し分類を作成する。 (1) 図20に示される判別結果テーブルから文書データ、
例えば文書No.30を取り出し、その確率に基づき、分類
ルール8bを使用して、ステップS50と同様の基準化を行
う(式(4)参照)。図21は基準化後の確率の一例を示す
図である。 (2) 基準化された確率に基づき、分類ルール8cを使用し
て、以下のような方法で、マップ上の位置Zを計算し、
文書データ6をマップ上に配置する。図22はマップ上の
位置Zの例を示す図である。 Z = d1・d2 + q1・q2 + i1・i2 + c1・c2 ここで、d1: 基準化された要望予測値[率] d2: マップ(数値情報)の軸1の要望予測値[率] q1: 基準化された質問予測値[率] q2: マップ(数値情報)の軸1の質問予測値[率] i1: 基準化された感想予測値[率] i2: マップ(数値情報)の軸1の感想予測値[率] c1: 基準化された苦情予測値[率] c2: マップ(数値情報)の軸1の苦情予測値[率] (3) 図17に示すクラスタの重心の各分類の重心と、位置
Zとの間の距離を計算する。 (4) 距離が最小となる分類の番号を「最も近い分類番
号」として記憶する。 (5) 以降、すべての文書データについて、上記(1)から
(4)の処理を繰り返す。
【0075】このように文書判別サーバ5は、分類ルー
ル8bから8dを利用することで、文書データ6に対して自
動的に分類処理を行うことができる。つまり、異なる文
書データに対して、毎回、判別関数の作成、主成分分析
およびクラスタ分析を人手を介して行う必要がない。
【0076】図23は文書判別サーバ5が図20に示す判別
結果の分類を作成した結果の一例を示す図である。
【0077】また、マップの作成(S50)における主成分
分析に要する処理時間、および、K-means法によるクラ
スタ分析(S60)に要する処理時間を割愛できるため、短
時間に分類結果を得ることができる。
【0078】● 判別結果9の出力(S140) 分類の作成結果から得られた「最も近い分類番号」に基
づき、図18に示すパターン情報から得られる「正答率」
を、判別結果9に付加して出力する。
【0079】図24は正答率付きの判別結果9の一例を示
す図である。
【0080】このように、本実施形態によれば、文書判
別サーバ5は、最初の処理(S10からS70)で、連語辞書
7、判別関数8a、分類ルール8b(各平均と標準偏差)、
分類ルール8c(マップの数値情報)、分類ルール8d(ク
ラスタの重心)およびパターン情報8eを作成して外部記
憶装置に保存する。つまり、内容が類似する文書の場
合、経験者による人手処理を介在させたステップS10か
らS70の繰り返し処理が不要になる。例えばインターネ
ットを利用したアンケート収集のように、毎日、同じよ
うな内容の文書データ6が集まる場合、一度、ステップS
10からS70の処理を行えば、以降、ステップS110からS14
0の処理により、逐次発生する文書データ6を自動的に文
書判別処理することができる。
【0081】さらに、文書データ6の判別結果9に正答率
を付加するため、その判別精度や判別結果の信頼度が明
確になる。例えば、正答率の高い、カテゴリ分けされた
顧客の声は適切な部門へ自動送付して対応を図ることが
できるし、逆に、正答率の低い、カテゴリ分けされた顧
客の声は、その詳細を分析するように担当者へ送付する
などができる。従って、顧客の声が対応部門の間で盥回
しされたり、長期間放置されるなどを防ぐことができ
る。
【0082】
【発明の効果】以上説明したように、本発明によれば、
高い信頼度で文書を判別することができる。
【0083】また、文書の判別結果に、判別の信頼度を
示す情報を与えることができる。
【図面の簡単な説明】
【図1】カテゴリの判別結果の表現例を示す図、
【図2】文書処理を実行するシステム構成例を示すブロ
ック図、
【図3】文書判別処理の一例を示すフローチャート、
【図4】連語辞書を作成するための処理画面の一例を示
す図、
【図5】連語辞書の例を示す図、
【図6】連語の抽出を説明する図、
【図7】判別関数の作成を説明するフローチャート、
【図8】判別関数の作成を説明する図、
【図9】評価変数の予測結果を示す図、
【図10】反応率の予測結果を示す図、
【図11】評価変数と反応率の予測結果を数値表現で示
す図、
【図12】文書の判別結果の一例を示す図、
【図13】判別結果の平均値および標準偏差の一例を示
す図、
【図14】サンプルマップのグラフ表示例を示す図、
【図15】サンプルマップの数値表示例を示す図、
【図16】主成分分析で使用される固有値の例を示す
図、
【図17】クラスタの重心を説明する図、
【図18】分類ごとの正答率を説明する図、
【図19】連語の抽出結果を示すテーブル例を示す図、
【図20】判別結果のテーブル例を示す図、
【図21】基準化後の確率の一例を示す図、
【図22】判別結果のマップ上への配置を説明する図、
【図23】判別結果の分類を作成した結果の一例を示す
図、
【図24】正答率付きの判別結果の一例を示す図であ
る。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書をその内容により分類する情報処理
    方法であって、 所定数の文書から重要度および出現頻度に基づき連語を
    抽出し、 抽出された連語から文書のカテゴリを判別するための判
    別関数を作成し、 作成された判別関数に基づき、前記所定数の文書のカテ
    ゴリを判別し、 その判別結果に基づき、前記判別結果の分類ルールを作
    成して、前記判別結果を分類し、 その分類結果ごとに前記判別結果の正答率を計算し、 前記連語、前記判別関数、前記分類ルールおよび前記正
    答率を文書判別情報としてメモリに格納し、 前記文書判別情報に基づき、前記所定数の文書と同類の
    文書のカテゴリを判別して、その正答率を含む判別結果
    を出力することを特徴とする情報処理方法。
  2. 【請求項2】 前記分類ルールは、前記判別結果の平均
    値および標準偏差、前記判別結果を主成分分析するため
    の固有値、並びに、前記判別結果をクラスタ分析した結
    果の重心であることを特徴とする請求項1に記載された
    情報処理方法。
  3. 【請求項3】 前記正答率は、前記判別結果および予め
    与えられている判別結果を示す教師信号に基づき計算さ
    れることを特徴とする請求項1または請求項2に記載され
    た情報処理方法。
  4. 【請求項4】 前記正答率は、前記判別結果と前記教師
    信号とが一致する文書数の割合を示すことを特徴とする
    請求項3に記載された情報処理方法。
  5. 【請求項5】 前記判別結果の出力は、判別結果を各カ
    テゴリへの帰属度の確率として表現することを特徴とす
    る請求項1から請求項4の何れかに記載された情報処理方
    法。
  6. 【請求項6】 情報処理装置を制御して、請求項1から
    請求項5の何れかに記載された情報処理を実行すること
    を特徴とするプログラム。
  7. 【請求項7】 請求項6に記載されたプログラムが記録
    されたことを特徴とする記録媒体。
  8. 【請求項8】 文書をその内容により分類する情報処理
    装置であって、 所定数の文書から重要度および出現頻度に基づき連語を
    抽出する抽出手段と、 抽出された連語から文書のカテゴリを判別するための判
    別関数を作成する作成手段と、 作成された判別関数に基づき、前記所定数の文書のカテ
    ゴリを判別する第一の判別手段と、 その判別結果に基づき、前記判別結果の分類ルールを作
    成して、前記判別結果を分類する分類手段と、 その分類結果ごとに前記判別結果の正答率を計算する計
    算手段と、 前記連語、前記判別関数、前記分類ルールおよび前記正
    答率を文書判別情報として記憶するメモリと、 前記文書判別情報に基づき、前記所定数の文書と同類の
    文書のカテゴリを判別して、その正答率を含む判別結果
    を出力する第二の判別手段とを有することを特徴とする
    情報処理装置。
JP2002046233A 2002-02-22 2002-02-22 情報処理装置およびその方法 Expired - Lifetime JP3677006B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002046233A JP3677006B2 (ja) 2002-02-22 2002-02-22 情報処理装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002046233A JP3677006B2 (ja) 2002-02-22 2002-02-22 情報処理装置およびその方法

Publications (2)

Publication Number Publication Date
JP2003248687A true JP2003248687A (ja) 2003-09-05
JP3677006B2 JP3677006B2 (ja) 2005-07-27

Family

ID=28659715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002046233A Expired - Lifetime JP3677006B2 (ja) 2002-02-22 2002-02-22 情報処理装置およびその方法

Country Status (1)

Country Link
JP (1) JP3677006B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005174330A (ja) * 2003-12-05 2005-06-30 Internatl Business Mach Corp <Ibm> テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
JP2007026347A (ja) * 2005-07-21 2007-02-01 Nec Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2007172616A (ja) * 2005-12-19 2007-07-05 Ricoh Co Ltd 文書検索方法及び装置
JP2008537811A (ja) * 2005-03-11 2008-09-25 ヤフー! インコーポレイテッド リスティングを管理するためのシステム及び方法
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
JP2010282416A (ja) * 2009-06-04 2010-12-16 Fujitsu Ltd 区分データレコメンド方法、プログラム、及び装置
JP2011081495A (ja) * 2009-10-05 2011-04-21 Tokyo Electric Power Co Inc:The 文書データ解析装置、方法及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259658A (ja) * 1999-03-10 2000-09-22 Fujitsu Ltd 文書分類装置
JP2000293537A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データ分析支援方法および装置
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001331514A (ja) * 2000-05-19 2001-11-30 Ricoh Co Ltd 文書分類装置及び文書分類方法
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2003141132A (ja) * 2001-10-30 2003-05-16 Nippon Yunishisu Kk 情報処理装置およびその方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259658A (ja) * 1999-03-10 2000-09-22 Fujitsu Ltd 文書分類装置
JP2000293537A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データ分析支援方法および装置
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001331514A (ja) * 2000-05-19 2001-11-30 Ricoh Co Ltd 文書分類装置及び文書分類方法
JP2003076705A (ja) * 2001-08-30 2003-03-14 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2003141132A (ja) * 2001-10-30 2003-05-16 Nippon Yunishisu Kk 情報処理装置およびその方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005174330A (ja) * 2003-12-05 2005-06-30 Internatl Business Mach Corp <Ibm> テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
US7865354B2 (en) 2003-12-05 2011-01-04 International Business Machines Corporation Extracting and grouping opinions from text documents
JP2008537811A (ja) * 2005-03-11 2008-09-25 ヤフー! インコーポレイテッド リスティングを管理するためのシステム及び方法
JP2007026347A (ja) * 2005-07-21 2007-02-01 Nec Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP4735958B2 (ja) * 2005-07-21 2011-07-27 日本電気株式会社 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP2007172616A (ja) * 2005-12-19 2007-07-05 Ricoh Co Ltd 文書検索方法及び装置
JP2008243126A (ja) * 2007-03-29 2008-10-09 Chuden Cti Co Ltd 入力情報分析装置
JP2010282416A (ja) * 2009-06-04 2010-12-16 Fujitsu Ltd 区分データレコメンド方法、プログラム、及び装置
JP2011081495A (ja) * 2009-10-05 2011-04-21 Tokyo Electric Power Co Inc:The 文書データ解析装置、方法及びプログラム

Also Published As

Publication number Publication date
JP3677006B2 (ja) 2005-07-27

Similar Documents

Publication Publication Date Title
Sawatsky et al. Partial least squares regression in the social sciences
KR101981075B1 (ko) 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
CN113935434A (zh) 一种数据分析处理系统及自动建模方法
KR20080005208A (ko) 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법
US6631362B1 (en) General decision-making support method and system
US20080097937A1 (en) Distributed method for integrating data mining and text categorization techniques
US20090105984A1 (en) Methods and Apparatus for Dynamic Data Transformation for Visualization
KR101806452B1 (ko) 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
US20130054498A1 (en) System and Method For Providing Personalized Recommendations
JP2008123111A (ja) 文書類似性導出装置及びそれを用いた回答支援システム
WO2013179340A1 (ja) 情報分析システム及び情報分析方法
JP5905651B1 (ja) 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
CN111612491B (zh) 状态分析模型构建方法、分析方法及装置
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP2009116457A (ja) インターネットサイト情報分析方法と装置
JP2003248687A (ja) 情報処理装置およびその方法
US7516050B2 (en) Defining the semantics of data through observation
Ren et al. Evaluation index system for academic papers of humanities and social sciences
JP5171087B2 (ja) 入力情報分析装置
KR20160121132A (ko) 소셜 빅데이터 기반의 상품 트랜드 및 매출 분석 장치 및 방법
Peng Statistical analysis of employee retention
JP3155033B2 (ja) 類似尺度構成処理方法
JP2003141132A (ja) 情報処理装置およびその方法
Welbers et al. Linking event archives to news: a computational method for analyzing the gatekeeping process

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050502

R150 Certificate of patent or registration of utility model

Ref document number: 3677006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090513

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100513

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100513

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110513

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110513

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120513

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130513

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term