JP3677006B2

JP3677006B2 - 情報処理装置およびその方法

Info

Publication number: JP3677006B2
Application number: JP2002046233A
Authority: JP
Inventors: 芳雄松田; 英雄林田
Original assignee: Nihon Unisys Ltd
Current assignee: Nihon Unisys Ltd
Priority date: 2002-02-22
Filing date: 2002-02-22
Publication date: 2005-07-27
Anticipated expiration: 2022-02-22
Also published as: JP2003248687A

Description

【０００１】
【発明の属する技術分野】
本発明は情報処理装置およびその方法に関し、例えば、文書をその内容によりカテゴリに分ける情報処理に関する。
【０００２】
【従来の技術】
インターネットやコールセンタなどの新しいビジネス形態の普及にともない、顧客の問い合わせ、要望および苦情などが、紙ではなく、ディジタル化された文書として電子的に蓄積されることが多い。そして、各企業は、蓄積文書に記録された顧客の声を、商品企画やマーケティングへ反映させようとする。その際、顧客の声をカテゴリに分けて、各カテゴリに対応する部門に送る必要がある。
【０００３】
大量の文書をカテゴリに分ける処理は文書判別と呼ばれる手法で行われる。例えば、文書が予め決められた「要望」「質問」「苦情」「感想」のどのカテゴリに属するかを判別する場合は四つの判別関数を作成する。すなわち、文書が「要望」か否かを判別する関数、「質問」か否かを判別する関数、「苦情」か否かを判別する関数、および、「感想」か否かを判別する関数である。これら四つの関数によって判別確率P(demand)、P(query)、P(complaint)、P(impression)が計算され、これら確率の大きさによって、文書がどのカテゴリに属するかが判別される。
【０００４】
【発明が解決しようとする課題】
人間が書いた文書は単純ではなく、色々な要素を含む。例えば、苦情の要素を含む「要望」とか、苦情に近い「要望」もあり得る。これらを単に「要望」「質問」「苦情」「感想」のどれかに分けることには無理があるし、判別結果の信頼度も明確ではない。
【０００５】
また、機械的に判別し、結果だけを示す場合、判別精度や判別結果の信頼度が不明なため、個人に依存する判断によって、カテゴリ分けされた顧客の声が対応部門の間で盥回しされ、長期間放置される危惧がある。顧客の声を長期間放置するなどすれば、顧客に不安感や不信感を抱かせ、時には反感を買う危険性がある。
【０００６】
本発明は、上述の問題を個々にまたはまとめて解決するためのもので、高い信頼度で文書を判別することを目的とする。
【０００７】
また、文書の判別結果に、判別の信頼度を示す情報を与えることを他の目的とする。
【０００８】
【課題を解決するための手段】
本発明は、前記の目的を達成する一手段として、以下の構成を備える。
【０００９】
本発明にかかる、所定数の文書データから文書のカテゴリ別に選択された連語が登録される、メモリに格納された連語辞書に基づき、文書をその内容により分類する情報処理装置およびその情報処理方法は、所定数の文書データのそれぞれを入力して、当該文書データに予め設定されたカテゴリを示す教師信号、および、連語辞書に登録された各連語が出現するか否かを示す第一のテーブルを作成し、第一のテーブルを用いて回帰分析を行い、文書のカテゴリを判別するための判別関数を作成してメモリに格納し、判別関数および第一のテーブルを用いて、所定数の文書データそれぞれのカテゴリを判別し、カテゴリごとの判別結果の平均値と標準偏差で基準化した判別結果に主成分分析を施して、判別結果をマップに配置するとともに、平均値と標準偏差、および、主成分分析に使用した固有値をメモリに格納し、マップへの配置結果にクラスタ分析を施して、判別結果をクラスタに分類し、クラスタごとの重心をメモリに格納し、所定数の文書データと同類の文書データを入力して、当該文書データに連語辞書に登録された各連語が出現するか否かを示す第二のテーブルを作成し、第二のテーブルに判別関数を適用して判別関数の値を計算し、平均値と標準偏差、固有値および判別関数の値を用いて、同類の文書データのマップ上の位置を計算し、クラスタごとの重心およびマップ上の位置から、同類の文書データに最も近いクラスタを判別して、当該クラスタのカテゴリを同類の文書データの分類データとして出力することを特徴とする。
【００１０】
好ましくは、さらに、クラスタに含まれる文書のうち、当該文書に予め設定された教師信号が示すカテゴリと、判別結果のカテゴリが一致する文書の割合を示す正答率を計算して、クラスタごとの正答率をメモリに格納し、同類の文書データに最も近いクラスタのカテゴリの正答率を分類データに含めて出力することを特徴とする。
【００１１】
【発明の実施の形態】
以下、本発明にかかる一実施形態の文書処理を図面を参照して詳細に説明する。
【００１２】
［概要］
本実施形態は、以下の方法により、顧客の声のような文書を短時間に、高い信頼度で判別するものである。
【００１３】
● 判別関数の精度向上
回帰分析により判別関数を作成するに当って、使用する連語辞書を予め人が作成する。連語辞書に登録する連語とは、それぞれの判別項目に属する文書で出現頻度が高いと思われる表現である。通常、連語辞書を構成する方法として、単語形式を採用する方法、構文形式を採用する方法がある。単語形式の連語辞書は作成が容易、構文形式の連語辞書は高精度の判別関数が得られる、という特徴がある。
【００１４】
顧客の声のような文章を判別対象にする場合、必ずしも、正しい構文の文章とは限らない。従って、構文形式の連語辞書を採用する精度向上のメリットは得られない。そこで、本実施形態では、単語形式の連語辞書を採用し、連語辞書の内容の正規表現を可能にすることで、精度の高い判別関数を得る。さらに、判別関数を一次直線、二次曲線、指数曲線などから選択することで、判別関数を固定した場合に比べて、より精度の高い判別関数を得る。
【００１５】
● 判別結果の帰属度と正答率の提示
本実施形態では、図1に一例を示すように、判別結果を各カテゴリへの帰属度の確率として表現する。これにより、各文書が「要望」「質問」「感想」「苦情」の各要素をどの程度含むかを示し、択一ではない適切な判別を可能にする。例えば、図1の例では、感想の要素を含む「要望」、または、感想に近い「要望」と判断することができる。
【００１６】
そして、帰属度の確率表現と同時に、帰属度についてどの程度の信頼度があるかを正答率として提示する。
【００１７】
● 自動処理
本実施形態では、事前処理により、一旦、連語辞書、判別関数、分類ルールおよびパターン情報を作成し保存する。その後、同種の文書について判別を実施する際に、保存された情報を利用して、人手を介さずに自動的に判別を実施する。
【００１８】
本実施形態は、顧客の声のような文書を商品企画やマーケティングへ適用するために、上記の構成により、前処理として、それら文書を判別する。判別処理において、正規表現が可能な連語辞書を利用し、一次直線、二次曲線、指数曲線などから適切な判別関数を自動選択して判別精度を向上させる。そして、判別結果の正答率を示すことで、判別された文書を対応部門へ送付する際に、正答率が高い文書については自動処理し、信頼度が低い文書は人の判断を介在させるなどして、後処理（対応部門における処理）との効率的な連携が可能になる。勿論、同種の文書に対しては、保存情報を利用する自動処理によって短時間に文書判別が可能になる。
【００１９】
［構成］
図2は実施形態の文書処理を実行するシステム構成例を示すブロック図である。なお、実施形態は、クライアントサーバ構成に限らず、スタンドアローンのコンピュータでも実現可能である。
【００２０】
図2において、文書処理の利用者は、クライアント1や2のモニタに表示された画面を介して、文書処理装置4を構成する文書判別サーバ5にアクセスする。クライアント1や2と文書判別サーバ5とはインターネットやLANなどのネットワーク3を介して接続されている。
【００２１】
インターネットなどを利用して収集される大量の文書データ6は、文書判別サーバ5に接続されたハードディスクなどの外部記憶装置に保存されている。利用者は、連語辞書7などを予め準備して、文書判別サーバ5に接続されたハードディスクなどの外部記憶装置に保存しておく。
【００２２】
［文書判別処理］
図3は実施形態の文書判別処理の一例を示すフローチャートで、文書判別サーバ5によって実行される処理を示す。
【００２３】
文書処理の利用者は、予め人手によって判別された既存の文書データ（五千件程度）を判別関数の作成用文書10として準備する。なお、判別関数の作成用文書10および文書データ6は、処理精度を上げるために、表現・表記が統一されていることが望ましい。すなわち、英字の大文字（または小文字）への統一、英字の全角文字（または半角文字）への統一、半角カナ文字を全角カナ文字への変換、並びに、意味が同じで表記が異なる文字列の表記の統一など、所謂データクリーニングを施す。
【００２４】
以降、図3に示す処理の流れに沿って、文書を「要望」「質問」「感想」「苦情」の四種類に判別する例を説明する。勿論、判別カテゴリはこの四つに限定されるものではなく、判別対象の文書の特性に応じたカテゴリを設定することになる。
【００２５】
図3に示すステップS10からS70の処理は、計算量が多く、また人手を介したり、試行錯誤による繰り返しが必要になることもあり、一般に処理に時間を要する。本実施形態は、一旦、ステップS10からS70の処理を行い、連語辞書7、判別関数8a、分類ルール8b、8cおよび8d、並びに、パターン情報8eを作成して外部記憶装置に保存する。その後、判別関数の作成用文書10に類似する内容の別の文書データ6の判別を行う場合は、図2に示すステップS110からS140の処理を自動的に実行する。従って、大量の文書データ6の判別を短時間に実行することができる。勿論、異なる分野の文書データ6を判別する場合や、時間や状況が変化して判別対象の文書の傾向に変化があると思われる場合は、改めてステップS10からS70の処理を実施すればよい。
【００２６】
● 連語辞書の作成(S10)
文書判別サーバ5は、利用者が予め判別した情報（以降「教師信号」と呼ぶ）に基づき連語辞書7を作成する。本実施形態においては、上述したように、単語形式の連語辞書とし、かつ、正規表現を可能にすることで、高い精度の判別関数が得られる連語辞書7にする。
【００２７】
図4は連語辞書を作成するための処理画面の一例を示す図で、文書判別サーバ5によってクライアント1または2のモニタに表示される。
【００２８】
文書判別サーバ5は、判別関数の作成用文書10の中から、あるカテゴリ、例えば要望に判別された文書を、画面左上の文書一覧21に表示する。利用者が画面右下の採用中連語一覧24に、判別のキーとなるであろう連語を入力すると、文書判別サーバ5は、その連語に一致する文字列をもつ文書の表示を、画面左上の文書一覧21から画面左下の文書一覧22へ移動する。
【００２９】
利用者は、複数の連語を入力・選択・取り消し（まとめて「指定」と呼ぶ）が可能である。具体的には、文書のカテゴリに一致する連語を指定する。つまり、連語は、その重要度および出現頻度などの情報に基づき、判別関数の作成用文書10から抽出されることになる。
【００３０】
文書判別サーバ5は、他の連語が指定されると、上記と同様の処理を行う。また、利用者が画面右下の採用中連語一覧24に表示された連語の取消を指示すると、文書判別サーバ5は、取消対象の連語の表示を、画面右下の採用中連語一覧24から画面右上の未採用連語一覧23へ移動するとともに、取消された連語とのみ一致する文字列をもつ文書の表示を、画面左下の文書一覧22から画面左上の文書一覧21へ移動する。
【００３１】
本実施形態では、正規表現による次の連語指定が可能である。なお、正規表現は下記に限定されず、周知の様々な正規表現を利用することが可能である。
【００３２】
「*」は任意の文字列を表す。例えば「AB*CD」は文字列「AB」の後ろに一つ以上の文字があり、その後に文字列「CD」が続くことを表す。
【００３３】
「?」は任意の一文字を表す。例えば「AB?CD」が文字列「AB」の後ろに一文字があり、その後に文字列「CD」が続くことを表す。
【００３４】
「#」は数字一文字を表す。例えば「#秒以内」であれば、数字一文字の後ろに文字列「秒以内」が続くことを表す。
【００３５】
ブラケット（[…]）は、ブラケットに囲まれ、かつ、「,」で区切られた複数の文字列の一つを表す。例えば「[証明,立証]する」は「証明する」または「立証する」を表す。
【００３６】
利用者が指定した連語から、文書判別サーバ5は連語辞書7を作成し、外部記憶装置に保存する。図5は連語辞書7の例を示す図である。
【００３７】
図5において「判別項目番号」は判別カテゴリを整数で示す。例えば、判別項目番号「1」は「要望」を、「2」は「質問］を、「3」は「感想」を、「4」は「苦情」をそれぞれ示す。「採用フラグ」は、その連語が採用されているか否かを示し‘1’は採用、‘0’は不採用を示す。
【００３８】
なお、文書判別サーバ5は、ステップS10の処理を再実行する場合、前回作成した連語辞書7を読み込んで図4に示す処理画面をクライアントのモニタに表示する。従って、利用者は処理画面を参照して連語辞書7の修正を指示することが可能である。
【００３９】
● 連語の抽出(S20)
文書判別サーバ5は、判別関数の作成用文書10の一文書ごとに、連語辞書7に登録された全連語について、該当する連語を含むか否かを調べ、図6に示すテーブルを作成する。
【００４０】
図6に示すテーブルおいて、「教師信号」の列は各行の文書の該当カテゴリを示し、教師信号「2」は対応する文書が該当カテゴリに分類されたことを、「1」は対応する文書が該当カテゴリに分類されていないことを示す。例えば、文書No.1は「要望」カテゴリに分類されている。「連語の出現」の列は、各行の文書に、該当する連語が出現するか否かを示し、‘1’は該当する連語が出現することを、‘0’は該当する連語が出現しないことを示す。
【００４１】
● 判別関数の作成(S30)
文書判別サーバ5は、四つのカテゴリに対応する判別関数を回帰分析の手法で作成する。すなわち「要望」か否かを判別する関数、「質問」か否かを判別する関数、「感想」か否かを判別する関数、および、「苦情」か否かを判別する関数を作成する。具体的には回帰式(1)が作成される。
y = b1・x1 + b2・x2 + b3・x3 + … + bn・xn + c …(1)
ここで、yは「教師信号」の値（図6参照）
xは「連語の出現」の値（図6参照）
nはその判別における連語の数
【００４２】
文書判別サーバ5は、図6に示す連語の抽出結果を示すテーブルの値に対して回帰分析を行い、定数b1、b2、b3、…、bnおよびcの各値を計算する。回帰分析については、例えば、田中豊、脇本和昌「多変量統計解析法」（現代数学社、1983年5月、第1章回帰分析法）に示されている方法などを利用する。
【００４３】
文書判別サーバ5は、回帰式を作成した後、曲線を当て嵌めて式を補正する。文書判別サーバ5が行う曲線の当て嵌めにあたり、カテゴリ「要望」「質問」「感想」「苦情」それぞれについて、図7に示す処理を行う。
【００４４】
連語の抽出結果を示すテーブルの全データを、「連語の出現」の値に基づき、回帰式に当て嵌めて、教師信号に相当する値の予測値（以降「スコア」と呼ぶ）を計算する(S301)。
【００４５】
スコアの値をキーにして文書をソートする(S302)。
【００４６】
ソート結果の文書を自然数m（例えばm=20）のグループに分ける(S303)。ただし、同一スコアの値をもつ文書は同一グループ（以降「ランク」と呼ぶ）に分けるため、各ランクの文書の数が同一になるとは限らない。
【００４７】
各ランクのスコアの値の平均値（以降「スコア平均」と呼ぶ）を計算する。また、ランクごとに、連語抽出結果を示すテーブル（図6）の「教師信号」の値が「2」である文書の数（以降「反応数」と呼ぶ）の割合（以降「反応率」と呼ぶ）を算出する(S304)。そして、各ランクの「教師信号」の値の平均値（以降「評価変数平均」と呼ぶ）を計算する(S305)。
【００４８】
図8は以上の処理結果の一例を示す図である。なお「サンプル数」列は各ランクに含まれる文書の数を示す。
【００４９】
次に、m個のスコア平均を使用して、評価変数が予測されるように曲線を当て嵌める(S306)。当て嵌める曲線は例えば次の四種類である。
一次直線: Y = A + BX
二次曲線: Y = A + BX + CX²
指数曲線: Y = AB^X
二次指数曲線: Y = 10^Z
ここで、Z = A + BX + CX²
【００５０】
上記の曲線の何れにおいても、Yは評価変数であり、Xは各ランクのスコア平均である。文書判別サーバ5は、以下に示す方法で回帰分析を行い、A、BおよびCの値を計算する。
【００５１】
一次曲線および二次曲線の場合、スコア平均の値をXに代入して回帰分析を行い、A、BおよびCを求める。
【００５２】
指数曲線の場合は、その両辺を対数変換した式(2)に評価変数平均の値から求まるlogY、および、スコア平均の値Xを代入して回帰分析を行い、AおよびBを求める。
logY = logA + X・logB …(2)
【００５３】
二次指数曲線の場合は、両辺を対数変換した式(3)に評価変数平均の値から求まるlogY、並びに、スコア平均の値Xから求まるlogXおよび2・logXを代入して回帰分析を行い、A、BおよびCを求める。

【００５４】
続いて、m個のスコア平均を使用して、反応率が予測されるように曲線に当て嵌める(S307)。当て嵌める曲線は例えば次の四種類である。
一次直線: Y = A + BX
二次曲線: Y = A + BX + CX²
指数曲線: Y = AB^X
二次指数曲線: Y = 10^Z
ここで、Z = A + BX + CX²
【００５５】
上記の曲線の何れにおいても、Yは反応率であり、Xは各ランクのスコア平均である。文書判別サーバ5は、ステップS306と同様の方法で回帰分析を行い、A、BおよびCの値を計算する。
【００５６】
次に、文書判別サーバ5は、ステップS306およびS307でそれぞれ得られた四種類の曲線をクライアントの画面に並べてグラフ表示する(S308)。図9はステップS306で得られる評価変数の予測結果を示す図、図10はステップS307で得られる反応率の予測結果を示す図である。なお、図11に示す数値表示も可能である。さらに、文書判別サーバ5は、採用を推奨する曲線を一つ選定して、図9および10に示すように推奨曲線のグラフを囲んだり、図11に示すように推奨曲線の採用フラグを‘1’にして、推奨曲線を示すことができる。
【００５７】
文書判別サーバ5は、採用を推奨する曲線の選定に当り、決定係数Rの高いものを選定する。決定係数とは、回帰分析による式の当て嵌りの度合を表す指標で、0から1の間の値をとる。なお、利用者はグラフ表示または数値表示を観て、採用する曲線の変更を指示することもできる。また、採用される曲線の種類はカテゴリ「要望」「質問」「苦情」「感想」ごとに異なってもよく、例えば「要望」は二次曲線を、「質問」は指数曲線を採用することができる。
【００５８】
文書判別サーバ5は、採用された曲線の数値情報を各カテゴリの判別関数8aとして外部記憶装置に保存する(S309)。
【００５９】
● 判別関数を使用した文書判別(S40)
文書判別サーバ5は、図6に示した連語抽出結果を判別関数8aに当て嵌めて、判別関数の作成用文書10の各文書の判別関数の値を計算する（以降、計算結果を「判別結果」と呼ぶ）。なお、以下では、反応率を予測する判別関数を例にして説明する。
【００６０】
図12は判別結果の一例を示す図である。図12において「教師信号」列は各行の文書の該当カテゴリを示し、教師信号「1」は対応する文書が該当カテゴリに分類されたことを、「0」は対応する文書が該当カテゴリに分類されていないことを示す。また、「反応率」列は判別関数の値の計算結果を示す。そして、「判別結果」列は、該当する文書の該当するカテゴリの反応率が閾値（例えば50）以上の場合に‘1’になる。
【００６１】
● 主成分分析によるマップ作成(S50)
文書判別サーバ5は、前のステップS40で計算した文書の判別結果を基準化し、多変量解析の手法の一つである主成分分析を用いて、判別結果のデータを空間上に配置する。基準化は、図13に示す各データの平均値（例えば「要望」の判別結果の平均値）とその標準偏差（例えば「要望」の判別結果の標準偏差）を用いて、田中豊、脇本和昌「多変量統計解析法」（現代数学社、1983年5月、第2章主成分分析法）に示されるような方法（式(4)参照）によって行う。
Dstd = (D - Dave) / Dsd …(4)
ここで、Dstd: 基準化後の判別結果
D: 基準化前の判別結果
Dave: 判別結果の平均値
Dsd: 判別結果の標準偏差
【００６２】
そして、主成分分析の結果できあがる空間上に、各判別結果を配置してサンプルマップを作成する。サンプルマップの作成も、前記の文献に示されるような方法を利用する。
【００６３】
図14および図15は作成されるサンプルマップのグラフ表示例および数値表示例を示す図である。また、図16は、基準化された判別結果を主成分分析の結果できあがる空間上に配置するために、主成分分析で使用される固有値の例を示す図である。さらに、文書判別サーバ5は、判別結果の基準化に用いた、図13に示される、各判別結果の平均と標準偏差を分類ルール8bとして、図16に示される固有値を分類ルール8cとして外部記憶装置に保存する。
【００６４】
● クラスタ分析による判別結果の分類(S60)
文書判別サーバ5は、前のステップS50で作成したサンプルマップについて、多変量解析の手法の一つであるk-means法によるクラスタ分析を行い、判別結果のデータをグループ化する。なお、この処理を「分類」と呼び、グループの総称を「クラスタ」と呼ぶ。
【００６５】
文書判別サーバ5は、得られたクラスタに属する全サンプルの重心を計算し、その結果のクラスタの重心（図17参照）を分類ルール8dとして外部記憶装置に保存する。なお、クラスタ分析については、例えば、西田英郎監訳「クラスター分析とその応用」（株式会社内田老鶴圃、1995年12月、7章非階層的クラスター分析法）に紹介されている。
【００６６】
サンプルマップのすべての軸についてk-means法によるクラスタ分析を行うと、すべての軸を用いた計算を必要とし、計算に長時間を要する。このため、クラスタ分析に使用される軸の数は、出力されるすべての軸の数ではなく、各軸のサンプルのばらつきなどを観ながら、試行錯誤を繰り返して軸数mを決定する。このため、データを分類するたびにK-means法によるクラスタ分析を行えば、非常に手間がかかる処理になる。そこで、本実施形態では、これを改善するために、後述するように、二回目以降の分類実施処理においてはk-means法によるクラスタ分析を行わずに分類結果を生成する。
【００６７】
● 判別結果の正答率の計算(S70)
文書判別サーバ5が計算した反応率は、図12に示すように、0から100の間の実数値をとるので、判別結果の値について閾値（例えば50）で真偽を求め、事前に利用者が与えた教師信号と突き合わせて、正答か否かを判定する。そして分類ごとの正答率（図18参照）をパターン情報8eとして外部記憶装置に保存する。
【００６８】
ここで、正答率は式(5)で示される。例えば、図18において、分類番号1の文書数が579件、そのうち教師信号と判別結果が一致した文書数は553件であるから、分類番号1の正答率は553/579×100=95.51%になる。

【００６９】
文書判別サーバ5は、ここまでの処理で外部記憶装置に保存された連語辞書7、判別関数8a、分類ルール8b（各判別結果の平均と標準偏差）、分類ルール8c（固有値）、分類ルール8d（クラスタの重心）、および、パターン情報8eを利用することで、この後、同じような内容の文書があれば、何時でも人手を介すること無く、図3に示すステップS110からS140の手順を自動的に実行し、文書判別を行うことができる。例えば、文書判別サーバ5は、毎日集まってくるデータを、毎日、自動的に判別することができる。
【００７０】
続いて、図3に示すステップS110からS140の処理を説明する。
【００７１】
● 連語の抽出(S110)
文書判別サーバ5は、判別対象の文書データ6の文書一件ごとに、連語辞書7の全連語について、該当する連語を含むか否かを調べて、図19に示すテーブルを作成する。
【００７２】
● 判別関数を使用する判別(S120)
文書判別サーバ5は、図19に示す連語抽出結果を示すテーブルについて、文書データ6の文書一件ごとに「要望」「質問」「苦情」「感想」の四つのカテゴリに対応する判別関数を適用し、判別関数の値（判別結果）を計算する。
【００７３】
図20は判別結果のテーブル例を示す図で、「確率」列は該当する文書の各判別関数の計算結果の値を示す。「判別結果」列は該当する文書の、該当するカテゴリの「確率」の値がある閾値（例えば50）以上であれば‘1’になり、閾値未満であれば‘0’になる。
【００７４】
●判別結果のマップ上への配置と分類(S130)
文書判別サーバ5は、分類ルール8b（平均および標準偏差)、分類ルール8c（固有値）、分類ルール8d（クラスタの重心）を読み込み、次の手順で、判別結果をマップ上へ配置し分類を作成する。
(1) 図20に示される判別結果テーブルから文書データ、例えば文書No.30を取り出し、その確率に基づき、分類ルール8bを使用して、ステップS50と同様の基準化を行う（式(4)参照）。図21は基準化後の確率の一例を示す図である。
(2) 基準化された確率に基づき、分類ルール8cを使用して、以下のような方法で、マップ上の位置Zを計算し、文書データ6をマップ上に配置する。図22はマップ上の位置Zの例を示す図である。
Z = d1・d2 + q1・q2 + i1・i2 + c1・c2
ここで、d1: 基準化された要望予測値[率]
d2: マップ（数値情報）の軸1の要望予測値[率]
q1: 基準化された質問予測値[率]
q2: マップ（数値情報）の軸1の質問予測値[率]
i1: 基準化された感想予測値[率]
i2: マップ（数値情報）の軸1の感想予測値[率]
c1: 基準化された苦情予測値[率]
c2: マップ（数値情報）の軸1の苦情予測値[率]
(3) 図17に示すクラスタの重心の各分類の重心と、位置Zとの間の距離を計算する。
(4) 距離が最小となる分類の番号を「最も近い分類番号」として記憶する。
(5) 以降、すべての文書データについて、上記(1)から(4)の処理を繰り返す。
【００７５】
このように文書判別サーバ5は、分類ルール8bから8dを利用することで、文書データ6に対して自動的に分類処理を行うことができる。つまり、異なる文書データに対して、毎回、判別関数の作成、主成分分析およびクラスタ分析を人手を介して行う必要がない。
【００７６】
図23は文書判別サーバ5が図20に示す判別結果の分類を作成した結果の一例を示す図である。
【００７７】
また、マップの作成(S50)における主成分分析に要する処理時間、および、K-means法によるクラスタ分析(S60)に要する処理時間を割愛できるため、短時間に分類結果を得ることができる。
【００７８】
● 判別結果9の出力(S140)
分類の作成結果から得られた「最も近い分類番号」に基づき、図18に示すパターン情報から得られる「正答率」を、判別結果9に付加して出力する。
【００７９】
図24は正答率付きの判別結果9の一例を示す図である。
【００８０】
このように、本実施形態によれば、文書判別サーバ5は、最初の処理（S10からS70）で、連語辞書7、判別関数8a、分類ルール8b（各平均と標準偏差）、分類ルール8c（マップの数値情報）、分類ルール8d（クラスタの重心）およびパターン情報8eを作成して外部記憶装置に保存する。つまり、内容が類似する文書の場合、経験者による人手処理を介在させたステップS10からS70の繰り返し処理が不要になる。例えばインターネットを利用したアンケート収集のように、毎日、同じような内容の文書データ6が集まる場合、一度、ステップS10からS70の処理を行えば、以降、ステップS110からS140の処理により、逐次発生する文書データ6を自動的に文書判別処理することができる。
【００８１】
さらに、文書データ6の判別結果9に正答率を付加するため、その判別精度や判別結果の信頼度が明確になる。例えば、正答率の高い、カテゴリ分けされた顧客の声は適切な部門へ自動送付して対応を図ることができるし、逆に、正答率の低い、カテゴリ分けされた顧客の声は、その詳細を分析するように担当者へ送付するなどができる。従って、顧客の声が対応部門の間で盥回しされたり、長期間放置されるなどを防ぐことができる。
【００８２】
【発明の効果】
以上説明したように、本発明によれば、高い信頼度で文書を判別することができる。
【００８３】
また、文書の判別結果に、判別の信頼度を示す情報を与えることができる。
【図面の簡単な説明】
【図１】カテゴリの判別結果の表現例を示す図、
【図２】文書処理を実行するシステム構成例を示すブロック図、
【図３】文書判別処理の一例を示すフローチャート、
【図４】連語辞書を作成するための処理画面の一例を示す図、
【図５】連語辞書の例を示す図、
【図６】連語の抽出を説明する図、
【図７】判別関数の作成を説明するフローチャート、
【図８】判別関数の作成を説明する図、
【図９】評価変数の予測結果を示す図、
【図１０】反応率の予測結果を示す図、
【図１１】評価変数と反応率の予測結果を数値表現で示す図、
【図１２】文書の判別結果の一例を示す図、
【図１３】判別結果の平均値および標準偏差の一例を示す図、
【図１４】サンプルマップのグラフ表示例を示す図、
【図１５】サンプルマップの数値表示例を示す図、
【図１６】主成分分析で使用される固有値の例を示す図、
【図１７】クラスタの重心を説明する図、
【図１８】分類ごとの正答率を説明する図、
【図１９】連語の抽出結果を示すテーブル例を示す図、
【図２０】判別結果のテーブル例を示す図、
【図２１】基準化後の確率の一例を示す図、
【図２２】判別結果のマップ上への配置を説明する図、
【図２３】判別結果の分類を作成した結果の一例を示す図、
【図２４】正答率付きの判別結果の一例を示す図である。

Claims

所定数の文書データから文書のカテゴリ別に選択された連語が登録される、メモリに格納された連語辞書に基づき、文書をその内容により分類する情報処理装置の情報処理方法であって、
前記所定数の文書データのそれぞれを入力して、当該文書データに予め設定されたカテゴリを示す教師信号、および、前記連語辞書に登録された各連語が出現するか否かを示す第一のテーブルを作成し、
前記第一のテーブルを用いて回帰分析を行い、文書のカテゴリを判別するための判別関数を作成して前記メモリに格納し、
前記判別関数および前記第一のテーブルを用いて、前記所定数の文書データそれぞれのカテゴリを判別し、
前記カテゴリごとの判別結果の平均値と標準偏差で基準化した前記判別結果に主成分分析を施して、前記判別結果をマップに配置するとともに、前記平均値と標準偏差、および、前記主成分分析に使用した固有値を前記メモリに格納し、
前記マップへの配置結果にクラスタ分析を施して、前記判別結果をクラスタに分類し、前記クラスタごとの重心を前記メモリに格納し、
前記所定数の文書データと同類の文書データを入力して、当該文書データに前記連語辞書に登録された各連語が出現するか否かを示す第二のテーブルを作成し、
前記第二のテーブルに前記判別関数を適用して判別関数の値を計算し、
前記平均値と標準偏差、前記固有値および前記判別関数の値を用いて、前記同類の文書データの前記マップ上の位置を計算し、
前記クラスタごとの重心および前記マップ上の位置から、前記同類の文書データに最も近いクラスタを判別して、当該クラスタのカテゴリを前記同類の文書データの分類データとして出力することを特徴とする情報処理方法。
さらに、前記クラスタに含まれる文書のうち、当該文書に予め設定された前記教師信号が示すカテゴリと、前記判別結果のカテゴリが一致する文書の割合を示す正答率を計算して、前記クラスタごとの前記正答率を前記メモリに格納し、前記同類の文書データに最も近いクラスタのカテゴリの前記正答率を前記分類データに含めて出力することを特徴とする請求項1に記載された情報処理方法。
情報処理装置を制御して、請求項1または請求項2に記載された情報処理を実行することを特徴とするプログラム。
請求項3に記載されたプログラムが記録されたことを特徴とする記録媒体。
所定数の文書データから文書のカテゴリ別に選択された連語が登録される、メモリに格納された連語辞書に基づき、文書をその内容により分類する情報処理装置であって、
前記所定数の文書データのそれぞれを入力して、当該文書データに予め設定されたカテゴリを示す教師信号、および、前記連語辞書に登録された各連語が出現するか否かを示す第一のテーブルを作成する第一のテーブル作成手段と、
前記第一のテーブルを用いて回帰分析を行い、文書のカテゴリを判別するための判別関数を作成して前記メモリに格納する関数作成手段と、
前記判別関数および前記第一のテーブルを用いて、前記所定数の文書データそれぞれのカテゴリを判別する第一の判別手段と、
前記カテゴリごとの判別結果の平均値と標準偏差で基準化した前記判別結果に主成分分析を施して、前記判別結果をマップに配置するとともに、前記平均値と標準偏差、および、前記主成分分析に使用した固有値を前記メモリに格納するマップ作成手段と、
前記マップへの配置結果にクラスタ分析を施して、前記判別結果をクラスタに分類し、前記クラスタごとの重心を前記メモリに格納する分類手段と、
前記所定数の文書データと同類の文書データを入力して、当該文書データに前記連語辞書に登録された各連語が出現するか否かを示す第二のテーブルを作成する第二のテーブル作成手段と、
前記第二のテーブルに前記判別関数を適用して判別関数の値を計算する第一の計算手段と、
前記平均値と標準偏差、前記固有値および前記判別関数の値を用いて、前記同類の文書データの前記マップ上の位置を計算する第二の計算手段と、
前記クラスタごとの重心および前記マップ上の位置から、前記同類の文書データに最も近いクラスタを判別して、当該クラスタのカテゴリを前記同類の文書データの分類データとして出力する第二の判別手段とを有することを特徴とする情報処理装置。
さらに、前記クラスタに含まれる文書のうち、当該文書に予め設定された前記教師信号が示すカテゴリと、前記判別結果のカテゴリが一致する文書の割合を示す正答率を計算して、前記クラスタごとの前記正答率を前記メモリに格納する第三の計算手段を有し、
前記第二の判別手段は、前記同類の文書データに最も近いクラスタのカテゴリの前記正答率を前記分類データに含めて出力することを特徴とする請求項 5 に記載された情報処理装置。