JP2003248687A

JP2003248687A - 情報処理装置およびその方法

Info

Publication number: JP2003248687A
Application number: JP2002046233A
Authority: JP
Inventors: Yoshio Matsuda; 芳雄松田; Hideo Hayashida; 英雄林田
Original assignee: Nihon Unisys Ltd
Current assignee: Nihon Unisys Ltd
Priority date: 2002-02-22
Filing date: 2002-02-22
Publication date: 2003-09-05
Anticipated expiration: 2022-02-22
Also published as: JP3677006B2

Abstract

(57)【要約】【課題】文書を機械的に判別し、結果だけを示す場
合、判別精度や判別結果の信頼度が不明なため、個人に
依存する判断によって、カテゴリ分けされた顧客の声が
対応部門の間で盥回しされ、長期間放置される危惧があ
る。【解決手段】文書10から出現頻度が高い連語を抽出し
(S20)、抽出された連語から文書のカテゴリを判別する
ための判別関数8aを作成し(S30)、作成された判別関数8
aに基づき文書10のカテゴリを判別し(S40)、別結果の分
類ルールを作成して、判別結果を分類し(S50-S60)、分
類結果ごとに判別結果の正答率を計算し(S70)、判別関
数、分類ルールおよび正答率を文書判別情報としてメモ
リに格納する。そして、文書判別情報に基づき、文書10
と同類の文書6のカテゴリを判別して、その正答率を含
む判別結果9を出力する(S110-S140)。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は情報処理装置および
その方法に関し、例えば、文書をその内容によりカテゴ
リに分ける情報処理に関する。

【０００２】

【従来の技術】インターネットやコールセンタなどの新
しいビジネス形態の普及にともない、顧客の問い合わ
せ、要望および苦情などが、紙ではなく、ディジタル化
された文書として電子的に蓄積されることが多い。そし
て、各企業は、蓄積文書に記録された顧客の声を、商品
企画やマーケティングへ反映させようとする。その際、
顧客の声をカテゴリに分けして、各カテゴリに対応する
部門に送る必要がある。

【０００３】大量の文書をカテゴリに分ける処理は文書
判別と呼ばれる手法で行われる。例えば、文書が予め決
められた「要望」「質問」「苦情」「感想」のどのカテ
ゴリに属するかを判別する場合は四つの判別関数を作成
する。すなわち、文書が「要望」か否かを判別する関
数、「質問」か否かを判別する関数、「苦情」か否かを
判別する関数、および、「感想」か否かを判別する関数
である。これら四つの関数によって判別確率P(deman
d)、P(query)、P(complaint)、P(impression)が計算さ
れ、これら確率の大きさによって、文書がどのカテゴリ
に属するかが判別される。

【０００４】

【発明が解決しようとする課題】人間が書いた文書は単
純ではなく、色々な要素を含む。例えば、苦情の要素を
含む「要望」とか、苦情に近い「要望」もあり得る。こ
れらを単に「要望」「質問」「苦情」「感想」のどれか
に分けることには無理があるし、判別結果の信頼度も明
確ではない。

【０００５】また、機械的に判別し、結果だけを示す場
合、判別精度や判別結果の信頼度が不明なため、個人に
依存する判断によって、カテゴリ分けされた顧客の声が
対応部門の間で盥回しされ、長期間放置される危惧があ
る。顧客の声を長期間放置するなどすれば、顧客に不安
感や不信感を抱かせ、時には反感を買う危険性がある。

【０００６】本発明は、上述の問題を個々にまたはまと
めて解決するためのもので、高い信頼度で文書を判別
することを目的とする。

【０００７】また、文書の判別結果に、判別の信頼度を
示す情報を与えることを他の目的とする。

【０００８】

【課題を解決するための手段】本発明は、前記の目的を
達成する一手段として、以下の構成を備える。

【０００９】本発明にかかる情報処理方法は、文書をそ
の内容により分類する情報処理方法であって、所定数の
文書から重要度および出現頻度に基づき連語を抽出し、
抽出された連語から文書のカテゴリを判別するための判
別関数を作成し、作成された判別関数に基づき、前記所
定数の文書のカテゴリを判別し、その判別結果に基づ
き、前記判別結果の分類ルールを作成して、前記判別結
果を分類し、その分類結果ごとに前記判別結果の正答率
を計算し、前記連語、前記判別関数、前記分類ルールお
よび前記正答率を文書判別情報としてメモリに格納し、
前記文書判別情報に基づき、前記所定数の文書と同類の
文書のカテゴリを判別して、その正答率を含む判別結果
を出力することを特徴とする。

【００１０】本発明にかかる情報処理装置は、文書をそ
の内容により分類する情報処理装置であって、所定数の
文書から重要度および出現頻度に基づき連語を抽出する
抽出手段と、抽出された連語から文書のカテゴリを判別
するための判別関数を作成する作成手段と、作成された
判別関数に基づき、前記所定数の文書のカテゴリを判別
する第一の判別手段と、その判別結果に基づき、前記判
別結果の分類ルールを作成して、前記判別結果を分類す
る分類手段と、その分類結果ごとに前記判別結果の正答
率を計算する計算手段と、前記連語、前記判別関数、前
記分類ルールおよび前記正答率を文書判別情報として記
憶するメモリと、前記文書判別情報に基づき、前記所定
数の文書と同類の文書のカテゴリを判別して、その正答
率を含む判別結果を出力する第二の判別手段とを有する
ことを特徴とする。

【００１１】

【発明の実施の形態】以下、本発明にかかる一実施形態
の文書処理を図面を参照して詳細に説明する。

【００１２】［概要］本実施形態は、以下の方法によ
り、顧客の声のような文書を短時間に、高い信頼度で判
別するものである。

【００１３】● 判別関数の精度向上回帰分析により判別関数を作成するに当って、使用する
連語辞書を予め人が作成する。連語辞書に登録する連語
とは、それぞれの判別項目に属する文書で出現頻度が高
いと思われる表現である。通常、連語辞書を構成する方
法として、単語形式を採用する方法、構文形式を採用す
る方法がある。単語形式の連語辞書は作成が容易、構文
形式の連語辞書は高精度の判別関数が得られる、という
特徴がある。

【００１４】顧客の声のような文章を判別対象にする場
合、必ずしも、正しい構文の文章とは限らない。従っ
て、構文形式の連語辞書を採用する精度向上のメリット
は得られない。そこで、本実施形態では、単語形式の連
語辞書を採用し、連語辞書の内容を正規表現が可能にす
ることで、精度の高い判別関数を得る。さらに、判別関
数を一次直線、二次曲線、指数曲線などから選択するこ
とで、判別関数を固定した場合に比べて、より精度の高
い判別関数を得る。

【００１５】● 判別結果の帰属度と正答率の提示本実施形態では、図1に一例を示すように、判別結果を
各カテゴリへの帰属度の確率として表現する。これによ
り、各文書が「要望」「質問」「感想」「苦情」の各要
素をどの程度含むかを示し、択一ではない適切な判別を
可能にする。例えば、図1の例では、感想の要素を含む
「要望」、または、感想に近い「要望」と判断すること
ができる。

【００１６】そして、帰属度の確率表現と同時に、帰属
度についてどの程度の信頼度があるかを正答率として提
示する。

【００１７】● 自動処理本実施形態では、事前処理により、一旦、連語辞書、判
別関数、分類ルールおよびパターン情報を作成し保存す
る。その後、同種の文書について判別を実施する際に、
保存された情報を利用して、人手を介さずに自動的に判
別を実施する。

【００１８】本実施形態は、顧客の声のような文書を商
品企画やマーケティングへ適用するために、上記の構成
により、前処理として、それら文書を判別する。判別処
理において、正規表現が可能な連語辞書を利用し、一次
直線、二次曲線、指数曲線などから適切な判別関数を自
動選択して判別精度を向上させる。そして、判別結果の
正答率を示すことで、判別された文書を対応部門へ送付
する際に、正答率が高い文書については自動処理し、信
頼度が低い文書は人の判断を介在させるなどして、後処
理（対応部門における処理）との効率的な連携が可能に
なる。勿論、同種の文書に対しては、保存情報を利用す
る自動処理によって短時間に文書判別が可能になる。

【００１９】［構成］図2は実施形態の文書処理を実行
するシステム構成例を示すブロック図である。なお、実
施形態は、クライアントサーバ構成に限らず、スタンド
アローンのコンピュータでも実現可能である。

【００２０】図2において、文書処理の利用者は、クラ
イアント1や2のモニタに表示された画面を介して、文書
処理装置4を構成する文書判別サーバ5にアクセスする。
クライアント1や2と文書判別サーバ5とはインターネッ
トやLANなどのネットワーク3を介して接続されている。

【００２１】インターネットなどを利用して収集される
大量の文書データ6は、文書判別サーバ5に接続されたハ
ードディスクなどの外部記憶装置に保存されている。利
用者は、連語辞書7などを予め準備して、文書判別サー
バ5に接続されたハードディスクなどの外部記憶装置に
保存しておく。

【００２２】［文書判別処理］図3は実施形態の文書判
別処理の一例を示すフローチャートで、文書判別サーバ
5によって実行される処理を示す。

【００２３】文書処理の利用者は、予め人手によって判
別された既存の文書データ（五千件程度）を判別関数の
作成用文書10として準備する。なお、判別関数の作成用
文書10および文書データ6は、処理精度を上げるため
に、表現・表記が統一されていることが望ましい。すな
わち、英字の大文字（または小文字）への統一、英字の
全角文字（または半角文字）への統一、半角カナ文字を
全角カナ文字への変換、並びに、意味が同じで表記が異
なる文字列の表記の統一など、所謂データクリーニング
を施す。

【００２４】以降、図3に示す処理の流れに沿って、文
書を「要望」「質問」「感想」「苦情」の四種類に判別
する例を説明する。勿論、判別カテゴリはこの四つに限
定されるものではなく、判別対象の文書の特性に応じた
カテゴリを設定することになる。

【００２５】図3に示すステップS10からS70の処理は、
計算量が多く、また人手を介したり、試行錯誤による繰
り返しが必要になることもあり、一般に処理に時間を要
する。本実施形態は、一旦、ステップS10からS70の処理
を行い、連語辞書7、判別関数8a、分類ルール8b、8cお
よび8d、並びに、パターン情報8eを作成して外部記憶装
置に保存する。その後、判別関数の作成用文書10に類似
する内容の別の文書データ6の判別を行う場合は、図2に
示すステップS110からS140の処理を自動的に実行する。
従って、大量の文書データ6の判別を短時間に実行する
ことができる。勿論、異なる分野の文書データ6を判別
する場合や、時間や状況が変化して判別対象の文書の傾
向に変化があると思われる場合は、改めてステップS10
からS70の処理を実施すればよい。

【００２６】● 連語辞書の作成(S10) 文書判別サーバ5は、利用者が予め判別した情報（以降
「教師信号」と呼ぶ）に基づき連語辞書7を作成する。
本実施形態においては、上述したように、単語形式の連
語辞書とし、かつ、正規表現を可能にすることで、高い
精度の判別関数が得られる連語辞書7にする。

【００２７】図4は連語辞書を作成するための処理画面
の一例を示す図で、文書判別サーバ5によってクライア
ント1または2のモニタに表示される。

【００２８】文書判別サーバ5は、判別関数の作成用文
書10の中から、あるカテゴリ、例えば要望に判別された
文書を、画面左上の文書一覧21に表示する。利用者が画
面右下の採用中連語一覧24に、判別のキーとなるであろ
う連語を入力すると、文書判別サーバ5は、その連語に
一致する文字列をもつ文書の表示を、画面左上の文書一
覧21から画面左下の文書一覧22へ移動する。

【００２９】利用者は、複数の連語を入力・選択・取り
消し（まとめて「指定」と呼ぶ）が可能である。具体的
には、文書のカテゴリに一致する連語を指定する。つま
り、連語は、その重要度および出現頻度などの情報に基
づき、判別関数の作成用文書10から抽出されることにな
る。

【００３０】文書判別サーバ5は、他の連語が指定され
ると、上記と同様の処理を行う。また、利用者が画面右
下の採用中連語一覧24に表示された連語の取消を指示す
ると、文書判別サーバ5は、取消対象の連語の表示を、
画面右下の採用中連語一覧24から画面右上の未採用連語
一覧23へ移動するとともに、取消された連語とのみ一致
する文字列をもつ文書の表示を、画面左下の文書一覧22
から画面左上の文書一覧21へ移動する。

【００３１】本実施形態では、正規表現による次の連語
指定が可能である。なお、正規表現は下記に限定され
ず、周知の様々な正規表現を利用することが可能であ
る。

【００３２】「*」は任意の文字列を表す。例えば「AB*
CD」は文字列「AB」の後ろに一つ以上の文字があり、そ
の後に文字列「CD」が続くことを表す。

【００３３】「?」は任意の一文字を表す。例えば「AB?
CD」が文字列「AB」の後ろに一文字があり、その後に文
字列「CD」が続くことを表す。

【００３４】「#」は数字一文字を表す。例えば「#秒以
内」であれば、数字一文字の後ろに文字列「秒以内」が
続くことを表す。

【００３５】ブラケット（[…]）は、ブラケットに囲ま
れ、かつ、「,」で区切られた複数の文字列の一つを表
す。例えば「[証明,立証]する」は「証明する」または
「立証する」を表す。

【００３６】利用者が指定した連語から、文書判別サー
バ5は連語辞書7を作成し、外部記憶装置に保存する。図
5は連語辞書7の例を示す図である。

【００３７】図5において「判別項目番号」は判別カテ
ゴリを整数で示す。例えば、判別項目番号「1」は「要
望」を、「2」は「質問］を、「3」は「感想」を、
「4」は「苦情」をそれぞれ示す。「採用フラグ」は、
その連語が採用されているか否かを示し‘1’は採用、
‘0’は不採用を示す。

【００３８】なお、文書判別サーバ5は、ステップS10の
処理を再実行する場合、前回作成した連語辞書7を読み
込んで図4に示す処理画面をクライアントのモニタに表
示する。従って、利用者は処理画面を参照して連語辞書
7の修正を指示することが可能である。

【００３９】● 連語の抽出(S20) 文書判別サーバ5は、判別関数の作成用文書10の一文書
ごとに、連語辞書7に登録された全連語について、該当
する連語を含むか否かを調べ、図6に示すテーブルを作
成する。

【００４０】図6に示すテーブルおいて、「教師信号」
の列は各行の文書の該当カテゴリを示し、教師信号
「2」は対応する文書が該当カテゴリに分類されたこと
を、「1」は対応する文書が該当カテゴリに分類されて
いないことを示す。例えば、文書No.1は「要望」カテゴ
リに分類されている。「連語の出現」の列は、各行の文
書に該当する連語が出現するか否かを示し‘1’は該当
する連語が出現することを、‘0’は該当する連語が出
現しないことを示す。

【００４１】● 判別関数の作成(S30) 文書判別サーバ5は、四つのカテゴリに対応する判別関
数を回帰分析の手法で作成する。すなわち「要望」か否
かを判別する関数、「質問」か否かを判別する関数、
「感想」か否かを判別する関数、および、「苦情」か否
かを判別する関数を作成する。具体的には回帰式(1)が
作成される。 y = b1・x1 + b2・x2 + b3・x3 + … + bn・xn + c …(1) ここで、yは「教師信号」の値（図6参照） xは「連語の出現」の値（図6参照） nはその判別における連語の数

【００４２】文書判別サーバ5は、図6に示す連語の抽出
結果を示すテーブルの値に対して回帰分析を行い、定数
b1、b2、b3、…、bnおよびcの各値を計算する。回帰分
析については、例えば、田中豊、脇本和昌「多変量統計
解析法」（現代数学社、1983年5月、第1章回帰分析法）
に示されている方法などを利用する。

【００４３】文書判別サーバ5は、回帰式を作成した
後、曲線を当て嵌めて式を補正する。文書判別サーバ5
が行う曲線の当て嵌めにあたり、カテゴリ「要望」「質
問」「感想」「苦情」それぞれについて、図7に示す処
理を行う。

【００４４】連語の抽出結果を示すテーブルの全データ
を、「連語の出現」の値に基づき、回帰式に当て嵌め
て、教師信号に相当する値の予測値（以降「スコア」と
呼ぶ）を計算する(S301)。

【００４５】スコアの値をキーにして文書をソートする
(S302)。

【００４６】ソート結果の文書を自然数m（例えばm=2
0）のグループに分ける(S303)。ただし、同一スコアの
値をもつ文書は同一グループ（以降「ランク」と呼ぶ）
に分けるため、各ランクの文書の数が同一になるとは限
らない。

【００４７】各ランクのスコアの値の平均値（以降「ス
コア平均」と呼ぶ）を計算する。また、ランクごとに、
連語抽出結果を示すテーブル（図6）の「教師信号」の
値が「2」である文書の数（以降「反応数」と呼ぶ）の
割合（以降「反応率」と呼ぶ）を算出する(S304)。そし
て、各ランクの「教師信号」の値の平均値（以降「評価
変数平均」と呼ぶ）を計算する(S305)。

【００４８】図8は以上の処理結果の一例を示す図であ
る。なお「サンプル数」列は各ランクに含まれる文書の
数を示す。

【００４９】次に、m個のスコア平均を使用して、評価
変数が予測されるように曲線を当て嵌める(S306)。当て
嵌める曲線は例えば次の四種類である。一次直線: Y = A + BX 二次曲線: Y = A + BX + CX² 指数曲線: Y = AB^X 二次指数曲線: Y = 10^Z ここで、Z = A + BX + CX²

【００５０】上記の曲線の何れにおいても、Yは評価変
数であり、Xは各ランクのスコア平均である。文書判別
サーバ5は、以下に示す方法で回帰分析を行い、A、Bお
よびCの値を計算する。

【００５１】一次曲線および二次曲線の場合、スコア平
均の値をXに代入して回帰分析を行い、A、BおよびCを求
める。

【００５２】指数曲線の場合は、その両辺を対数変換し
た式(2)に評価変数平均の値から求まるlogY、および、
スコア平均の値Xを代入して回帰分析を行い、AおよびB
を求める。 logY = logA + X・logB …(2)

【００５３】二次指数曲線の場合は、両辺を対数変換し
た式(3)に評価変数平均の値から求まるlogY、並びに、
スコア平均の値Xから求まるlogXおよび2・logXを代入し
て回帰分析を行い、A、BおよびCを求める。 logY = (A + BX + CX²)・log10 = log10・A + log10・BX + 2・log10・CX …(3)

【００５４】続いて、m個のスコア平均を使用して、反
応率が予測されるように曲線に当て嵌める(S307)。当て
嵌める曲線は例えば次の四種類である。一次直線: Y = A + BX 二次曲線: Y = A + BX + CX² 指数曲線: Y = AB^X 二次指数曲線: Y = 10^Z ここで、Z = A + BX + CX²

【００５５】上記の曲線の何れにおいても、Yは反応率
であり、Xは各ランクのスコア平均である。文書判別サ
ーバ5は、ステップS306と同様の方法で回帰分析を行
い、A、BおよびCの値を計算する。

【００５６】次に、文書判別サーバ5は、ステップS306
およびS307でそれぞれ得られた四種類の曲線をクライア
ントの画面に並べてグラフ表示する(S308)。図9はステ
ップS306で得られる評価変数の予測結果を示す図、図10
はステップS307で得られる反応率の予測結果を示す図で
ある。なお、図11に示す数値表示も可能である。さら
に、文書判別サーバ5は、採用を推奨する曲線を一つ選
定して、図9および10に示すように推奨曲線のグラフを
囲んだり、図11に示すように推奨曲線の採用フラグを
‘1’にして、推奨曲線を示すことができる。

【００５７】文書判別サーバ5は、採用を推奨する曲線
の選定に当り、決定係数Rの高いものを選定する。決定
係数とは、回帰分析による式の当て嵌りの度合を表す指
標で、0から1の間の値をとる。なお、利用者はグラフ表
示または数値表示を観て、採用する曲線の変更を指示す
ることもできる。また、採用される曲線の種類はカテゴ
リ「要望」「質問」「苦情」「感想」ごとに異なっても
よく、例えば「要望」は二次曲線を、「質問」は指数曲
線を採用することができる。

【００５８】文書判別サーバ5は、採用された曲線の数
値情報を各カテゴリの判別関数8aとして外部記憶装置に
保存する(S309)。

【００５９】● 判別関数を使用した文書判別(S40) 文書判別サーバ5は、図6に示した連語抽出結果を判別関
数8aに当て嵌めて、判別関数の作成用文書10の各文書の
判別関数の値を計算する（以降、計算結果を「判別結
果」と呼ぶ）。なお、以下では、反応率を予測する判別
関数を例にして説明する。

【００６０】図12は判別結果の一例を示す図である。図
12において「教師信号」列は各行の文書の該当カテゴリ
を示し、教師信号「1」は対応する文書が該当カテゴリ
に分類されたことを、「0」は対応する文書が該当カテ
ゴリに分類されていないことを示す。また、「反応率」
列は判別関数の値の計算結果を示す。そして、「判別結
果」列は、該当する文書の該当するカテゴリの反応率が
閾値（例えば50）以上の場合に‘1’になる。

【００６１】● 主成分分析によるマップ作成(S50) 文書判別サーバ5は、前のステップS40で計算した文書の
判別結果を基準化し、多変量解析の手法の一つである主
成分分析を用いて、判別結果のデータを空間上に配置す
る。基準化は、図13に示す各データの平均値（例えば
「要望」の判別結果の平均値）とその標準偏差（例えば
「要望」の判別結果の標準偏差）を用いて、田中豊、脇
本和昌「多変量統計解析法」（現代数学社、1983年5
月、第2章主成分分析法）に示されるような方法（式(4)
参照）によって行う。 Dstd = (D - Dave) / Dsd …(4) ここで、Dstd: 基準化後の判別結果 D: 基準化前の判別結果 Dave: 判別結果の平均値 Dsd: 判別結果の標準偏差

【００６２】そして、主成分分析の結果できあがる空間
上に、各判別結果を配置してサンプルマップを作成す
る。サンプルマップの作成も、前記の文献に示されるよ
うな方法を利用する。

【００６３】図14および図15は作成されるサンプルマッ
プのグラフ表示例および数値表示例を示す図である。ま
た、図16は、基準化された判別結果を主成分分析の結果
できあがる空間上に配置するために、主成分分析で使用
される固有値の例を示す図である。さらに、文書判別サ
ーバ5は、判別結果の基準化に用いた、図13に示され
る、各判別結果の平均と標準偏差を分類ルール8bとし
て、図16に示される固有値を分類ルール8cとして外部記
憶装置に保存する。

【００６４】● クラスタ分析による判別結果の分類(S6
0) 文書判別サーバ5は、前のステップS50で作成したサンプ
ルマップについて、多変量解析の手法の一つであるk-me
ans法によるクラスタ分析を行い、判別結果のデータを
グループ化する。なお、この処理を「分類」と呼び、グ
ループの総称を「クラスタ」と呼ぶ。

【００６５】文書判別サーバ5は、得られたクラスタに
属する全サンプルの重心を計算し、その結果のクラスタ
の重心（図17参照）を分類ルール8dとして外部記憶装置
に保存する。なお、クラスタ分析については、例えば、
西田英郎監訳「クラスター分析とその応用」（株式会社
内田老鶴圃、1995年12月、7章非階層的クラスター分析
法）に紹介されている。

【００６６】サンプルマップのすべての軸についてk-me
ans法によるクラスタ分析を行うと、すべての軸を用い
た計算を必要とし、計算に長時間を要する。このため、
クラスタ分析に使用される軸の数は、出力されるすべて
の軸の数ではなく、各軸のサンプルのばらつきなどを観
ながら、試行錯誤を繰り返して軸数mを決定する。この
ため、データを分類するたびにK-means法によるクラス
タ分析を行えば、非常に手間がかかる処理になる。そこ
で、本実施形態では、これを改善するために、後述する
ように、二回目以降の分類実施処理においてはk-means
法によるクラスタ分析を行わずに分類結果を生成する。

【００６７】● 判別結果の正答率の計算(S70) 文書判別サーバ5が計算した反応率は、図12に示すよう
に、0から100の間の実数値をとるので、判別結果の値に
ついて閾値（例えば50）で真偽を求め、事前に利用者が
与えた教師信号と突き合わせて、正答か否かを判定す
る。そして分類ごとの正答率（図18参照）をパターン情
報8eとして外部記憶装置に保存する。

【００６８】ここで、正答率は式(5)で示される。例え
ば、図18において、分類番号1の文書数が579件、そのう
ち教師信号と判別結果が一致した文書数は553件である
から、分類番号1の正答率は553/579×100=95.51%にな
る。

【００６９】文書判別サーバ5は、ここまでの処理で外
部記憶装置に保存された連語辞書7、判別関数8a、分類
ルール8b（各判別結果の平均と標準偏差）、分類ルール
8c（固有値）、分類ルール8d（クラスタの重心）、およ
び、パターン情報8eを利用することで、この後、同じよ
うな内容の文書があれば、何時でも人手を介すること無
く、図3に示すステップS110からS140の手順を自動的に
実行し、文書判別を行うことができる。例えば、文書判
別サーバ5は、毎日集まってくるデータを、毎日、自動
的に判別することができる。

【００７０】続いて、図3に示すステップS110からS140
の処理を説明する。

【００７１】● 連語の抽出(S110) 文書判別サーバ5は、判別対象の文書データ6の文書一件
ごとに、連語辞書7の全連語について、該当する連語を
含むか否かを調べて、図19に示すテーブルを作成する。

【００７２】● 判別関数を使用する判別(S120) 文書判別サーバ5は、図19に示す連語抽出結果を示すテ
ーブルについて、文書データ6の文書一件ごとに「要
望」「質問」「苦情」「感想」の四つのカテゴリに対応
する判別関数を適用し、判別関数の値（判別結果）を計
算する。

【００７３】図20は判別結果のテーブル例を示す図で、
「確率」列は該当する文書の各判別関数の計算結果の値
を示す。「判別結果」列は該当する文書の、該当するカ
テゴリの「確率」の値がある閾値（例えば50）以上であ
れば‘1’になり、閾値未満であれば‘0’になる。

【００７４】●判別結果のマップ上への配置と分類(S13
0) 文書判別サーバ5は、分類ルール8b（平均および標準偏
差)、分類ルール8c（固有値）、分類ルール8d（クラス
タの重心）を読み込み、次の手順で、判別結果をマップ
上へ配置し分類を作成する。 (1) 図20に示される判別結果テーブルから文書データ、
例えば文書No.30を取り出し、その確率に基づき、分類
ルール8bを使用して、ステップS50と同様の基準化を行
う（式(4)参照）。図21は基準化後の確率の一例を示す
図である。 (2) 基準化された確率に基づき、分類ルール8cを使用し
て、以下のような方法で、マップ上の位置Zを計算し、
文書データ6をマップ上に配置する。図22はマップ上の
位置Zの例を示す図である。 Z = d1・d2 + q1・q2 + i1・i2 + c1・c2 ここで、d1: 基準化された要望予測値[率] d2: マップ（数値情報）の軸1の要望予測値[率] q1: 基準化された質問予測値[率] q2: マップ（数値情報）の軸1の質問予測値[率] i1: 基準化された感想予測値[率] i2: マップ（数値情報）の軸1の感想予測値[率] c1: 基準化された苦情予測値[率] c2: マップ（数値情報）の軸1の苦情予測値[率] (3) 図17に示すクラスタの重心の各分類の重心と、位置
Zとの間の距離を計算する。 (4) 距離が最小となる分類の番号を「最も近い分類番
号」として記憶する。 (5) 以降、すべての文書データについて、上記(1)から
(4)の処理を繰り返す。

【００７５】このように文書判別サーバ5は、分類ルー
ル8bから8dを利用することで、文書データ6に対して自
動的に分類処理を行うことができる。つまり、異なる文
書データに対して、毎回、判別関数の作成、主成分分析
およびクラスタ分析を人手を介して行う必要がない。

【００７６】図23は文書判別サーバ5が図20に示す判別
結果の分類を作成した結果の一例を示す図である。

【００７７】また、マップの作成(S50)における主成分
分析に要する処理時間、および、K-means法によるクラ
スタ分析(S60)に要する処理時間を割愛できるため、短
時間に分類結果を得ることができる。

【００７８】● 判別結果9の出力(S140) 分類の作成結果から得られた「最も近い分類番号」に基
づき、図18に示すパターン情報から得られる「正答率」
を、判別結果9に付加して出力する。

【００７９】図24は正答率付きの判別結果9の一例を示
す図である。

【００８０】このように、本実施形態によれば、文書判
別サーバ5は、最初の処理（S10からS70）で、連語辞書
7、判別関数8a、分類ルール8b（各平均と標準偏差）、
分類ルール8c（マップの数値情報）、分類ルール8d（ク
ラスタの重心）およびパターン情報8eを作成して外部記
憶装置に保存する。つまり、内容が類似する文書の場
合、経験者による人手処理を介在させたステップS10か
らS70の繰り返し処理が不要になる。例えばインターネ
ットを利用したアンケート収集のように、毎日、同じよ
うな内容の文書データ6が集まる場合、一度、ステップS
10からS70の処理を行えば、以降、ステップS110からS14
0の処理により、逐次発生する文書データ6を自動的に文
書判別処理することができる。

【００８１】さらに、文書データ6の判別結果9に正答率
を付加するため、その判別精度や判別結果の信頼度が明
確になる。例えば、正答率の高い、カテゴリ分けされた
顧客の声は適切な部門へ自動送付して対応を図ることが
できるし、逆に、正答率の低い、カテゴリ分けされた顧
客の声は、その詳細を分析するように担当者へ送付する
などができる。従って、顧客の声が対応部門の間で盥回
しされたり、長期間放置されるなどを防ぐことができ
る。

【００８２】

【発明の効果】以上説明したように、本発明によれば、
高い信頼度で文書を判別することができる。

【００８３】また、文書の判別結果に、判別の信頼度を
示す情報を与えることができる。

【図面の簡単な説明】

【図１】カテゴリの判別結果の表現例を示す図、

【図２】文書処理を実行するシステム構成例を示すブロ
ック図、

【図３】文書判別処理の一例を示すフローチャート、

【図４】連語辞書を作成するための処理画面の一例を示
す図、

【図５】連語辞書の例を示す図、

【図６】連語の抽出を説明する図、

【図７】判別関数の作成を説明するフローチャート、

【図８】判別関数の作成を説明する図、

【図９】評価変数の予測結果を示す図、

【図１０】反応率の予測結果を示す図、

【図１１】評価変数と反応率の予測結果を数値表現で示
す図、

【図１２】文書の判別結果の一例を示す図、

【図１３】判別結果の平均値および標準偏差の一例を示
す図、

【図１４】サンプルマップのグラフ表示例を示す図、

【図１５】サンプルマップの数値表示例を示す図、

【図１６】主成分分析で使用される固有値の例を示す
図、

【図１７】クラスタの重心を説明する図、

【図１８】分類ごとの正答率を説明する図、

【図１９】連語の抽出結果を示すテーブル例を示す図、

【図２０】判別結果のテーブル例を示す図、

【図２１】基準化後の確率の一例を示す図、

【図２２】判別結果のマップ上への配置を説明する図、

【図２３】判別結果の分類を作成した結果の一例を示す
図、

【図２４】正答率付きの判別結果の一例を示す図であ
る。

Claims

【特許請求の範囲】

【請求項１】文書をその内容により分類する情報処理
方法であって、所定数の文書から重要度および出現頻度に基づき連語を
抽出し、抽出された連語から文書のカテゴリを判別するための判
別関数を作成し、作成された判別関数に基づき、前記所定数の文書のカテ
ゴリを判別し、その判別結果に基づき、前記判別結果の分類ルールを作
成して、前記判別結果を分類し、その分類結果ごとに前記判別結果の正答率を計算し、前記連語、前記判別関数、前記分類ルールおよび前記正
答率を文書判別情報としてメモリに格納し、前記文書判別情報に基づき、前記所定数の文書と同類の
文書のカテゴリを判別して、その正答率を含む判別結果
を出力することを特徴とする情報処理方法。
【請求項２】前記分類ルールは、前記判別結果の平均
値および標準偏差、前記判別結果を主成分分析するため
の固有値、並びに、前記判別結果をクラスタ分析した結
果の重心であることを特徴とする請求項1に記載された
情報処理方法。
【請求項３】前記正答率は、前記判別結果および予め
与えられている判別結果を示す教師信号に基づき計算さ
れることを特徴とする請求項1または請求項2に記載され
た情報処理方法。
【請求項４】前記正答率は、前記判別結果と前記教師
信号とが一致する文書数の割合を示すことを特徴とする
請求項3に記載された情報処理方法。
【請求項５】前記判別結果の出力は、判別結果を各カ
テゴリへの帰属度の確率として表現することを特徴とす
る請求項1から請求項4の何れかに記載された情報処理方
法。
【請求項６】情報処理装置を制御して、請求項1から
請求項5の何れかに記載された情報処理を実行すること
を特徴とするプログラム。
【請求項７】請求項6に記載されたプログラムが記録
されたことを特徴とする記録媒体。
【請求項８】文書をその内容により分類する情報処理
装置であって、所定数の文書から重要度および出現頻度に基づき連語を
抽出する抽出手段と、抽出された連語から文書のカテゴリを判別するための判
別関数を作成する作成手段と、作成された判別関数に基づき、前記所定数の文書のカテ
ゴリを判別する第一の判別手段と、その判別結果に基づき、前記判別結果の分類ルールを作
成して、前記判別結果を分類する分類手段と、その分類結果ごとに前記判別結果の正答率を計算する計
算手段と、前記連語、前記判別関数、前記分類ルールおよび前記正
答率を文書判別情報として記憶するメモリと、前記文書判別情報に基づき、前記所定数の文書と同類の
文書のカテゴリを判別して、その正答率を含む判別結果
を出力する第二の判別手段とを有することを特徴とする
情報処理装置。