JP2003248687A - 情報処理装置およびその方法 - Google Patents
情報処理装置およびその方法Info
- Publication number
- JP2003248687A JP2003248687A JP2002046233A JP2002046233A JP2003248687A JP 2003248687 A JP2003248687 A JP 2003248687A JP 2002046233 A JP2002046233 A JP 2002046233A JP 2002046233 A JP2002046233 A JP 2002046233A JP 2003248687 A JP2003248687 A JP 2003248687A
- Authority
- JP
- Japan
- Prior art keywords
- document
- discrimination
- result
- documents
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
合、判別精度や判別結果の信頼度が不明なため、個人に
依存する判断によって、カテゴリ分けされた顧客の声が
対応部門の間で盥回しされ、長期間放置される危惧があ
る。 【解決手段】 文書10から出現頻度が高い連語を抽出し
(S20)、抽出された連語から文書のカテゴリを判別する
ための判別関数8aを作成し(S30)、作成された判別関数8
aに基づき文書10のカテゴリを判別し(S40)、別結果の分
類ルールを作成して、判別結果を分類し(S50-S60)、分
類結果ごとに判別結果の正答率を計算し(S70)、判別関
数、分類ルールおよび正答率を文書判別情報としてメモ
リに格納する。そして、文書判別情報に基づき、文書10
と同類の文書6のカテゴリを判別して、その正答率を含
む判別結果9を出力する(S110-S140)。
Description
その方法に関し、例えば、文書をその内容によりカテゴ
リに分ける情報処理に関する。
しいビジネス形態の普及にともない、顧客の問い合わ
せ、要望および苦情などが、紙ではなく、ディジタル化
された文書として電子的に蓄積されることが多い。そし
て、各企業は、蓄積文書に記録された顧客の声を、商品
企画やマーケティングへ反映させようとする。その際、
顧客の声をカテゴリに分けして、各カテゴリに対応する
部門に送る必要がある。
判別と呼ばれる手法で行われる。例えば、文書が予め決
められた「要望」「質問」「苦情」「感想」のどのカテ
ゴリに属するかを判別する場合は四つの判別関数を作成
する。すなわち、文書が「要望」か否かを判別する関
数、「質問」か否かを判別する関数、「苦情」か否かを
判別する関数、および、「感想」か否かを判別する関数
である。これら四つの関数によって判別確率P(deman
d)、P(query)、P(complaint)、P(impression)が計算さ
れ、これら確率の大きさによって、文書がどのカテゴリ
に属するかが判別される。
純ではなく、色々な要素を含む。例えば、苦情の要素を
含む「要望」とか、苦情に近い「要望」もあり得る。こ
れらを単に「要望」「質問」「苦情」「感想」のどれか
に分けることには無理があるし、判別結果の信頼度も明
確ではない。
合、判別精度や判別結果の信頼度が不明なため、個人に
依存する判断によって、カテゴリ分けされた顧客の声が
対応部門の間で盥回しされ、長期間放置される危惧があ
る。顧客の声を長期間放置するなどすれば、顧客に不安
感や不信感を抱かせ、時には反感を買う危険性がある。
めて解決するためのもので、 高い信頼度で文書を判別
することを目的とする。
示す情報を与えることを他の目的とする。
達成する一手段として、以下の構成を備える。
の内容により分類する情報処理方法であって、所定数の
文書から重要度および出現頻度に基づき連語を抽出し、
抽出された連語から文書のカテゴリを判別するための判
別関数を作成し、作成された判別関数に基づき、前記所
定数の文書のカテゴリを判別し、その判別結果に基づ
き、前記判別結果の分類ルールを作成して、前記判別結
果を分類し、その分類結果ごとに前記判別結果の正答率
を計算し、前記連語、前記判別関数、前記分類ルールお
よび前記正答率を文書判別情報としてメモリに格納し、
前記文書判別情報に基づき、前記所定数の文書と同類の
文書のカテゴリを判別して、その正答率を含む判別結果
を出力することを特徴とする。
の内容により分類する情報処理装置であって、所定数の
文書から重要度および出現頻度に基づき連語を抽出する
抽出手段と、抽出された連語から文書のカテゴリを判別
するための判別関数を作成する作成手段と、作成された
判別関数に基づき、前記所定数の文書のカテゴリを判別
する第一の判別手段と、その判別結果に基づき、前記判
別結果の分類ルールを作成して、前記判別結果を分類す
る分類手段と、その分類結果ごとに前記判別結果の正答
率を計算する計算手段と、前記連語、前記判別関数、前
記分類ルールおよび前記正答率を文書判別情報として記
憶するメモリと、前記文書判別情報に基づき、前記所定
数の文書と同類の文書のカテゴリを判別して、その正答
率を含む判別結果を出力する第二の判別手段とを有する
ことを特徴とする。
の文書処理を図面を参照して詳細に説明する。
り、顧客の声のような文書を短時間に、高い信頼度で判
別するものである。
連語辞書を予め人が作成する。連語辞書に登録する連語
とは、それぞれの判別項目に属する文書で出現頻度が高
いと思われる表現である。通常、連語辞書を構成する方
法として、単語形式を採用する方法、構文形式を採用す
る方法がある。単語形式の連語辞書は作成が容易、構文
形式の連語辞書は高精度の判別関数が得られる、という
特徴がある。
合、必ずしも、正しい構文の文章とは限らない。従っ
て、構文形式の連語辞書を採用する精度向上のメリット
は得られない。そこで、本実施形態では、単語形式の連
語辞書を採用し、連語辞書の内容を正規表現が可能にす
ることで、精度の高い判別関数を得る。さらに、判別関
数を一次直線、二次曲線、指数曲線などから選択するこ
とで、判別関数を固定した場合に比べて、より精度の高
い判別関数を得る。
各カテゴリへの帰属度の確率として表現する。これによ
り、各文書が「要望」「質問」「感想」「苦情」の各要
素をどの程度含むかを示し、択一ではない適切な判別を
可能にする。例えば、図1の例では、感想の要素を含む
「要望」、または、感想に近い「要望」と判断すること
ができる。
度についてどの程度の信頼度があるかを正答率として提
示する。
別関数、分類ルールおよびパターン情報を作成し保存す
る。その後、同種の文書について判別を実施する際に、
保存された情報を利用して、人手を介さずに自動的に判
別を実施する。
品企画やマーケティングへ適用するために、上記の構成
により、前処理として、それら文書を判別する。判別処
理において、正規表現が可能な連語辞書を利用し、一次
直線、二次曲線、指数曲線などから適切な判別関数を自
動選択して判別精度を向上させる。そして、判別結果の
正答率を示すことで、判別された文書を対応部門へ送付
する際に、正答率が高い文書については自動処理し、信
頼度が低い文書は人の判断を介在させるなどして、後処
理(対応部門における処理)との効率的な連携が可能に
なる。勿論、同種の文書に対しては、保存情報を利用す
る自動処理によって短時間に文書判別が可能になる。
するシステム構成例を示すブロック図である。なお、実
施形態は、クライアントサーバ構成に限らず、スタンド
アローンのコンピュータでも実現可能である。
イアント1や2のモニタに表示された画面を介して、文書
処理装置4を構成する文書判別サーバ5にアクセスする。
クライアント1や2と文書判別サーバ5とはインターネッ
トやLANなどのネットワーク3を介して接続されている。
大量の文書データ6は、文書判別サーバ5に接続されたハ
ードディスクなどの外部記憶装置に保存されている。利
用者は、連語辞書7などを予め準備して、文書判別サー
バ5に接続されたハードディスクなどの外部記憶装置に
保存しておく。
別処理の一例を示すフローチャートで、文書判別サーバ
5によって実行される処理を示す。
別された既存の文書データ(五千件程度)を判別関数の
作成用文書10として準備する。なお、判別関数の作成用
文書10および文書データ6は、処理精度を上げるため
に、表現・表記が統一されていることが望ましい。すな
わち、英字の大文字(または小文字)への統一、英字の
全角文字(または半角文字)への統一、半角カナ文字を
全角カナ文字への変換、並びに、意味が同じで表記が異
なる文字列の表記の統一など、所謂データクリーニング
を施す。
書を「要望」「質問」「感想」「苦情」の四種類に判別
する例を説明する。勿論、判別カテゴリはこの四つに限
定されるものではなく、判別対象の文書の特性に応じた
カテゴリを設定することになる。
計算量が多く、また人手を介したり、試行錯誤による繰
り返しが必要になることもあり、一般に処理に時間を要
する。本実施形態は、一旦、ステップS10からS70の処理
を行い、連語辞書7、判別関数8a、分類ルール8b、8cお
よび8d、並びに、パターン情報8eを作成して外部記憶装
置に保存する。その後、判別関数の作成用文書10に類似
する内容の別の文書データ6の判別を行う場合は、図2に
示すステップS110からS140の処理を自動的に実行する。
従って、大量の文書データ6の判別を短時間に実行する
ことができる。勿論、異なる分野の文書データ6を判別
する場合や、時間や状況が変化して判別対象の文書の傾
向に変化があると思われる場合は、改めてステップS10
からS70の処理を実施すればよい。
「教師信号」と呼ぶ)に基づき連語辞書7を作成する。
本実施形態においては、上述したように、単語形式の連
語辞書とし、かつ、正規表現を可能にすることで、高い
精度の判別関数が得られる連語辞書7にする。
の一例を示す図で、文書判別サーバ5によってクライア
ント1または2のモニタに表示される。
書10の中から、あるカテゴリ、例えば要望に判別された
文書を、画面左上の文書一覧21に表示する。利用者が画
面右下の採用中連語一覧24に、判別のキーとなるであろ
う連語を入力すると、文書判別サーバ5は、その連語に
一致する文字列をもつ文書の表示を、画面左上の文書一
覧21から画面左下の文書一覧22へ移動する。
消し(まとめて「指定」と呼ぶ)が可能である。具体的
には、文書のカテゴリに一致する連語を指定する。つま
り、連語は、その重要度および出現頻度などの情報に基
づき、判別関数の作成用文書10から抽出されることにな
る。
ると、上記と同様の処理を行う。また、利用者が画面右
下の採用中連語一覧24に表示された連語の取消を指示す
ると、文書判別サーバ5は、取消対象の連語の表示を、
画面右下の採用中連語一覧24から画面右上の未採用連語
一覧23へ移動するとともに、取消された連語とのみ一致
する文字列をもつ文書の表示を、画面左下の文書一覧22
から画面左上の文書一覧21へ移動する。
指定が可能である。なお、正規表現は下記に限定され
ず、周知の様々な正規表現を利用することが可能であ
る。
CD」は文字列「AB」の後ろに一つ以上の文字があり、そ
の後に文字列「CD」が続くことを表す。
CD」が文字列「AB」の後ろに一文字があり、その後に文
字列「CD」が続くことを表す。
内」であれば、数字一文字の後ろに文字列「秒以内」が
続くことを表す。
れ、かつ、「,」で区切られた複数の文字列の一つを表
す。例えば「[証明,立証]する」は「証明する」または
「立証する」を表す。
バ5は連語辞書7を作成し、外部記憶装置に保存する。図
5は連語辞書7の例を示す図である。
ゴリを整数で示す。例えば、判別項目番号「1」は「要
望」を、「2」は「質問]を、「3」は「感想」を、
「4」は「苦情」をそれぞれ示す。「採用フラグ」は、
その連語が採用されているか否かを示し‘1’は採用、
‘0’は不採用を示す。
処理を再実行する場合、前回作成した連語辞書7を読み
込んで図4に示す処理画面をクライアントのモニタに表
示する。従って、利用者は処理画面を参照して連語辞書
7の修正を指示することが可能である。
ごとに、連語辞書7に登録された全連語について、該当
する連語を含むか否かを調べ、図6に示すテーブルを作
成する。
の列は各行の文書の該当カテゴリを示し、教師信号
「2」は対応する文書が該当カテゴリに分類されたこと
を、「1」は対応する文書が該当カテゴリに分類されて
いないことを示す。例えば、文書No.1は「要望」カテゴ
リに分類されている。「連語の出現」の列は、各行の文
書に該当する連語が出現するか否かを示し‘1’は該当
する連語が出現することを、‘0’は該当する連語が出
現しないことを示す。
数を回帰分析の手法で作成する。すなわち「要望」か否
かを判別する関数、「質問」か否かを判別する関数、
「感想」か否かを判別する関数、および、「苦情」か否
かを判別する関数を作成する。具体的には回帰式(1)が
作成される。 y = b1・x1 + b2・x2 + b3・x3 + … + bn・xn + c …(1) ここで、yは「教師信号」の値(図6参照) xは「連語の出現」の値(図6参照) nはその判別における連語の数
結果を示すテーブルの値に対して回帰分析を行い、定数
b1、b2、b3、…、bnおよびcの各値を計算する。回帰分
析については、例えば、田中豊、脇本和昌「多変量統計
解析法」(現代数学社、1983年5月、第1章回帰分析法)
に示されている方法などを利用する。
後、曲線を当て嵌めて式を補正する。文書判別サーバ5
が行う曲線の当て嵌めにあたり、カテゴリ「要望」「質
問」「感想」「苦情」それぞれについて、図7に示す処
理を行う。
を、「連語の出現」の値に基づき、回帰式に当て嵌め
て、教師信号に相当する値の予測値(以降「スコア」と
呼ぶ)を計算する(S301)。
(S302)。
0)のグループに分ける(S303)。ただし、同一スコアの
値をもつ文書は同一グループ(以降「ランク」と呼ぶ)
に分けるため、各ランクの文書の数が同一になるとは限
らない。
コア平均」と呼ぶ)を計算する。また、ランクごとに、
連語抽出結果を示すテーブル(図6)の「教師信号」の
値が「2」である文書の数(以降「反応数」と呼ぶ)の
割合(以降「反応率」と呼ぶ)を算出する(S304)。そし
て、各ランクの「教師信号」の値の平均値(以降「評価
変数平均」と呼ぶ)を計算する(S305)。
る。なお「サンプル数」列は各ランクに含まれる文書の
数を示す。
変数が予測されるように曲線を当て嵌める(S306)。当て
嵌める曲線は例えば次の四種類である。 一次直線: Y = A + BX 二次曲線: Y = A + BX + CX2 指数曲線: Y = ABX 二次指数曲線: Y = 10Z ここで、Z = A + BX + CX2
数であり、Xは各ランクのスコア平均である。文書判別
サーバ5は、以下に示す方法で回帰分析を行い、A、Bお
よびCの値を計算する。
均の値をXに代入して回帰分析を行い、A、BおよびCを求
める。
た式(2)に評価変数平均の値から求まるlogY、および、
スコア平均の値Xを代入して回帰分析を行い、AおよびB
を求める。 logY = logA + X・logB …(2)
た式(3)に評価変数平均の値から求まるlogY、並びに、
スコア平均の値Xから求まるlogXおよび2・logXを代入し
て回帰分析を行い、A、BおよびCを求める。 logY = (A + BX + CX2)・log10 = log10・A + log10・BX + 2・log10・CX …(3)
応率が予測されるように曲線に当て嵌める(S307)。当て
嵌める曲線は例えば次の四種類である。 一次直線: Y = A + BX 二次曲線: Y = A + BX + CX2 指数曲線: Y = ABX 二次指数曲線: Y = 10Z ここで、Z = A + BX + CX2
であり、Xは各ランクのスコア平均である。文書判別サ
ーバ5は、ステップS306と同様の方法で回帰分析を行
い、A、BおよびCの値を計算する。
およびS307でそれぞれ得られた四種類の曲線をクライア
ントの画面に並べてグラフ表示する(S308)。図9はステ
ップS306で得られる評価変数の予測結果を示す図、図10
はステップS307で得られる反応率の予測結果を示す図で
ある。なお、図11に示す数値表示も可能である。さら
に、文書判別サーバ5は、採用を推奨する曲線を一つ選
定して、図9および10に示すように推奨曲線のグラフを
囲んだり、図11に示すように推奨曲線の採用フラグを
‘1’にして、推奨曲線を示すことができる。
の選定に当り、決定係数Rの高いものを選定する。決定
係数とは、回帰分析による式の当て嵌りの度合を表す指
標で、0から1の間の値をとる。なお、利用者はグラフ表
示または数値表示を観て、採用する曲線の変更を指示す
ることもできる。また、採用される曲線の種類はカテゴ
リ「要望」「質問」「苦情」「感想」ごとに異なっても
よく、例えば「要望」は二次曲線を、「質問」は指数曲
線を採用することができる。
値情報を各カテゴリの判別関数8aとして外部記憶装置に
保存する(S309)。
数8aに当て嵌めて、判別関数の作成用文書10の各文書の
判別関数の値を計算する(以降、計算結果を「判別結
果」と呼ぶ)。なお、以下では、反応率を予測する判別
関数を例にして説明する。
12において「教師信号」列は各行の文書の該当カテゴリ
を示し、教師信号「1」は対応する文書が該当カテゴリ
に分類されたことを、「0」は対応する文書が該当カテ
ゴリに分類されていないことを示す。また、「反応率」
列は判別関数の値の計算結果を示す。そして、「判別結
果」列は、該当する文書の該当するカテゴリの反応率が
閾値(例えば50)以上の場合に‘1’になる。
判別結果を基準化し、多変量解析の手法の一つである主
成分分析を用いて、判別結果のデータを空間上に配置す
る。基準化は、図13に示す各データの平均値(例えば
「要望」の判別結果の平均値)とその標準偏差(例えば
「要望」の判別結果の標準偏差)を用いて、田中豊、脇
本和昌「多変量統計解析法」(現代数学社、1983年5
月、第2章主成分分析法)に示されるような方法(式(4)
参照)によって行う。 Dstd = (D - Dave) / Dsd …(4) ここで、Dstd: 基準化後の判別結果 D: 基準化前の判別結果 Dave: 判別結果の平均値 Dsd: 判別結果の標準偏差
上に、各判別結果を配置してサンプルマップを作成す
る。サンプルマップの作成も、前記の文献に示されるよ
うな方法を利用する。
プのグラフ表示例および数値表示例を示す図である。ま
た、図16は、基準化された判別結果を主成分分析の結果
できあがる空間上に配置するために、主成分分析で使用
される固有値の例を示す図である。さらに、文書判別サ
ーバ5は、判別結果の基準化に用いた、図13に示され
る、各判別結果の平均と標準偏差を分類ルール8bとし
て、図16に示される固有値を分類ルール8cとして外部記
憶装置に保存する。
0) 文書判別サーバ5は、前のステップS50で作成したサンプ
ルマップについて、多変量解析の手法の一つであるk-me
ans法によるクラスタ分析を行い、判別結果のデータを
グループ化する。なお、この処理を「分類」と呼び、グ
ループの総称を「クラスタ」と呼ぶ。
属する全サンプルの重心を計算し、その結果のクラスタ
の重心(図17参照)を分類ルール8dとして外部記憶装置
に保存する。なお、クラスタ分析については、例えば、
西田英郎監訳「クラスター分析とその応用」(株式会社
内田老鶴圃、1995年12月、7章 非階層的クラスター分析
法)に紹介されている。
ans法によるクラスタ分析を行うと、すべての軸を用い
た計算を必要とし、計算に長時間を要する。このため、
クラスタ分析に使用される軸の数は、出力されるすべて
の軸の数ではなく、各軸のサンプルのばらつきなどを観
ながら、試行錯誤を繰り返して軸数mを決定する。この
ため、データを分類するたびにK-means法によるクラス
タ分析を行えば、非常に手間がかかる処理になる。そこ
で、本実施形態では、これを改善するために、後述する
ように、二回目以降の分類実施処理においてはk-means
法によるクラスタ分析を行わずに分類結果を生成する。
に、0から100の間の実数値をとるので、判別結果の値に
ついて閾値(例えば50)で真偽を求め、事前に利用者が
与えた教師信号と突き合わせて、正答か否かを判定す
る。そして分類ごとの正答率(図18参照)をパターン情
報8eとして外部記憶装置に保存する。
ば、図18において、分類番号1の文書数が579件、そのう
ち教師信号と判別結果が一致した文書数は553件である
から、分類番号1の正答率は553/579×100=95.51%にな
る。
部記憶装置に保存された連語辞書7、判別関数8a、分類
ルール8b(各判別結果の平均と標準偏差)、分類ルール
8c(固有値)、分類ルール8d(クラスタの重心)、およ
び、パターン情報8eを利用することで、この後、同じよ
うな内容の文書があれば、何時でも人手を介すること無
く、図3に示すステップS110からS140の手順を自動的に
実行し、文書判別を行うことができる。例えば、文書判
別サーバ5は、毎日集まってくるデータを、毎日、自動
的に判別することができる。
の処理を説明する。
ごとに、連語辞書7の全連語について、該当する連語を
含むか否かを調べて、図19に示すテーブルを作成する。
ーブルについて、文書データ6の文書一件ごとに「要
望」「質問」「苦情」「感想」の四つのカテゴリに対応
する判別関数を適用し、判別関数の値(判別結果)を計
算する。
「確率」列は該当する文書の各判別関数の計算結果の値
を示す。「判別結果」列は該当する文書の、該当するカ
テゴリの「確率」の値がある閾値(例えば50)以上であ
れば‘1’になり、閾値未満であれば‘0’になる。
0) 文書判別サーバ5は、分類ルール8b(平均および標準偏
差)、分類ルール8c(固有値)、分類ルール8d(クラス
タの重心)を読み込み、次の手順で、判別結果をマップ
上へ配置し分類を作成する。 (1) 図20に示される判別結果テーブルから文書データ、
例えば文書No.30を取り出し、その確率に基づき、分類
ルール8bを使用して、ステップS50と同様の基準化を行
う(式(4)参照)。図21は基準化後の確率の一例を示す
図である。 (2) 基準化された確率に基づき、分類ルール8cを使用し
て、以下のような方法で、マップ上の位置Zを計算し、
文書データ6をマップ上に配置する。図22はマップ上の
位置Zの例を示す図である。 Z = d1・d2 + q1・q2 + i1・i2 + c1・c2 ここで、d1: 基準化された要望予測値[率] d2: マップ(数値情報)の軸1の要望予測値[率] q1: 基準化された質問予測値[率] q2: マップ(数値情報)の軸1の質問予測値[率] i1: 基準化された感想予測値[率] i2: マップ(数値情報)の軸1の感想予測値[率] c1: 基準化された苦情予測値[率] c2: マップ(数値情報)の軸1の苦情予測値[率] (3) 図17に示すクラスタの重心の各分類の重心と、位置
Zとの間の距離を計算する。 (4) 距離が最小となる分類の番号を「最も近い分類番
号」として記憶する。 (5) 以降、すべての文書データについて、上記(1)から
(4)の処理を繰り返す。
ル8bから8dを利用することで、文書データ6に対して自
動的に分類処理を行うことができる。つまり、異なる文
書データに対して、毎回、判別関数の作成、主成分分析
およびクラスタ分析を人手を介して行う必要がない。
結果の分類を作成した結果の一例を示す図である。
分析に要する処理時間、および、K-means法によるクラ
スタ分析(S60)に要する処理時間を割愛できるため、短
時間に分類結果を得ることができる。
づき、図18に示すパターン情報から得られる「正答率」
を、判別結果9に付加して出力する。
す図である。
別サーバ5は、最初の処理(S10からS70)で、連語辞書
7、判別関数8a、分類ルール8b(各平均と標準偏差)、
分類ルール8c(マップの数値情報)、分類ルール8d(ク
ラスタの重心)およびパターン情報8eを作成して外部記
憶装置に保存する。つまり、内容が類似する文書の場
合、経験者による人手処理を介在させたステップS10か
らS70の繰り返し処理が不要になる。例えばインターネ
ットを利用したアンケート収集のように、毎日、同じよ
うな内容の文書データ6が集まる場合、一度、ステップS
10からS70の処理を行えば、以降、ステップS110からS14
0の処理により、逐次発生する文書データ6を自動的に文
書判別処理することができる。
を付加するため、その判別精度や判別結果の信頼度が明
確になる。例えば、正答率の高い、カテゴリ分けされた
顧客の声は適切な部門へ自動送付して対応を図ることが
できるし、逆に、正答率の低い、カテゴリ分けされた顧
客の声は、その詳細を分析するように担当者へ送付する
などができる。従って、顧客の声が対応部門の間で盥回
しされたり、長期間放置されるなどを防ぐことができ
る。
高い信頼度で文書を判別することができる。
示す情報を与えることができる。
ック図、
す図、
す図、
す図、
図、
図、
る。
Claims (8)
- 【請求項1】 文書をその内容により分類する情報処理
方法であって、 所定数の文書から重要度および出現頻度に基づき連語を
抽出し、 抽出された連語から文書のカテゴリを判別するための判
別関数を作成し、 作成された判別関数に基づき、前記所定数の文書のカテ
ゴリを判別し、 その判別結果に基づき、前記判別結果の分類ルールを作
成して、前記判別結果を分類し、 その分類結果ごとに前記判別結果の正答率を計算し、 前記連語、前記判別関数、前記分類ルールおよび前記正
答率を文書判別情報としてメモリに格納し、 前記文書判別情報に基づき、前記所定数の文書と同類の
文書のカテゴリを判別して、その正答率を含む判別結果
を出力することを特徴とする情報処理方法。 - 【請求項2】 前記分類ルールは、前記判別結果の平均
値および標準偏差、前記判別結果を主成分分析するため
の固有値、並びに、前記判別結果をクラスタ分析した結
果の重心であることを特徴とする請求項1に記載された
情報処理方法。 - 【請求項3】 前記正答率は、前記判別結果および予め
与えられている判別結果を示す教師信号に基づき計算さ
れることを特徴とする請求項1または請求項2に記載され
た情報処理方法。 - 【請求項4】 前記正答率は、前記判別結果と前記教師
信号とが一致する文書数の割合を示すことを特徴とする
請求項3に記載された情報処理方法。 - 【請求項5】 前記判別結果の出力は、判別結果を各カ
テゴリへの帰属度の確率として表現することを特徴とす
る請求項1から請求項4の何れかに記載された情報処理方
法。 - 【請求項6】 情報処理装置を制御して、請求項1から
請求項5の何れかに記載された情報処理を実行すること
を特徴とするプログラム。 - 【請求項7】 請求項6に記載されたプログラムが記録
されたことを特徴とする記録媒体。 - 【請求項8】 文書をその内容により分類する情報処理
装置であって、 所定数の文書から重要度および出現頻度に基づき連語を
抽出する抽出手段と、 抽出された連語から文書のカテゴリを判別するための判
別関数を作成する作成手段と、 作成された判別関数に基づき、前記所定数の文書のカテ
ゴリを判別する第一の判別手段と、 その判別結果に基づき、前記判別結果の分類ルールを作
成して、前記判別結果を分類する分類手段と、 その分類結果ごとに前記判別結果の正答率を計算する計
算手段と、 前記連語、前記判別関数、前記分類ルールおよび前記正
答率を文書判別情報として記憶するメモリと、 前記文書判別情報に基づき、前記所定数の文書と同類の
文書のカテゴリを判別して、その正答率を含む判別結果
を出力する第二の判別手段とを有することを特徴とする
情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002046233A JP3677006B2 (ja) | 2002-02-22 | 2002-02-22 | 情報処理装置およびその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002046233A JP3677006B2 (ja) | 2002-02-22 | 2002-02-22 | 情報処理装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003248687A true JP2003248687A (ja) | 2003-09-05 |
JP3677006B2 JP3677006B2 (ja) | 2005-07-27 |
Family
ID=28659715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002046233A Expired - Lifetime JP3677006B2 (ja) | 2002-02-22 | 2002-02-22 | 情報処理装置およびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3677006B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005174330A (ja) * | 2003-12-05 | 2005-06-30 | Internatl Business Mach Corp <Ibm> | テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム |
JP2007026347A (ja) * | 2005-07-21 | 2007-02-01 | Nec Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2007172616A (ja) * | 2005-12-19 | 2007-07-05 | Ricoh Co Ltd | 文書検索方法及び装置 |
JP2008537811A (ja) * | 2005-03-11 | 2008-09-25 | ヤフー! インコーポレイテッド | リスティングを管理するためのシステム及び方法 |
JP2008243126A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
JP2010282416A (ja) * | 2009-06-04 | 2010-12-16 | Fujitsu Ltd | 区分データレコメンド方法、プログラム、及び装置 |
JP2011081495A (ja) * | 2009-10-05 | 2011-04-21 | Tokyo Electric Power Co Inc:The | 文書データ解析装置、方法及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259658A (ja) * | 1999-03-10 | 2000-09-22 | Fujitsu Ltd | 文書分類装置 |
JP2000293537A (ja) * | 1999-04-09 | 2000-10-20 | Hitachi Ltd | データ分析支援方法および装置 |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001331514A (ja) * | 2000-05-19 | 2001-11-30 | Ricoh Co Ltd | 文書分類装置及び文書分類方法 |
JP2003076705A (ja) * | 2001-08-30 | 2003-03-14 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2003141132A (ja) * | 2001-10-30 | 2003-05-16 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
-
2002
- 2002-02-22 JP JP2002046233A patent/JP3677006B2/ja not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259658A (ja) * | 1999-03-10 | 2000-09-22 | Fujitsu Ltd | 文書分類装置 |
JP2000293537A (ja) * | 1999-04-09 | 2000-10-20 | Hitachi Ltd | データ分析支援方法および装置 |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001331514A (ja) * | 2000-05-19 | 2001-11-30 | Ricoh Co Ltd | 文書分類装置及び文書分類方法 |
JP2003076705A (ja) * | 2001-08-30 | 2003-03-14 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2003141132A (ja) * | 2001-10-30 | 2003-05-16 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005174330A (ja) * | 2003-12-05 | 2005-06-30 | Internatl Business Mach Corp <Ibm> | テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム |
US7865354B2 (en) | 2003-12-05 | 2011-01-04 | International Business Machines Corporation | Extracting and grouping opinions from text documents |
JP2008537811A (ja) * | 2005-03-11 | 2008-09-25 | ヤフー! インコーポレイテッド | リスティングを管理するためのシステム及び方法 |
JP2007026347A (ja) * | 2005-07-21 | 2007-02-01 | Nec Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP4735958B2 (ja) * | 2005-07-21 | 2011-07-27 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2007172616A (ja) * | 2005-12-19 | 2007-07-05 | Ricoh Co Ltd | 文書検索方法及び装置 |
JP2008243126A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
JP2010282416A (ja) * | 2009-06-04 | 2010-12-16 | Fujitsu Ltd | 区分データレコメンド方法、プログラム、及び装置 |
JP2011081495A (ja) * | 2009-10-05 | 2011-04-21 | Tokyo Electric Power Co Inc:The | 文書データ解析装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3677006B2 (ja) | 2005-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sawatsky et al. | Partial least squares regression in the social sciences | |
KR101981075B1 (ko) | 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체 | |
CN113935434A (zh) | 一种数据分析处理系统及自动建模方法 | |
KR20080005208A (ko) | 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법 | |
US6631362B1 (en) | General decision-making support method and system | |
US20080097937A1 (en) | Distributed method for integrating data mining and text categorization techniques | |
US20090105984A1 (en) | Methods and Apparatus for Dynamic Data Transformation for Visualization | |
KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
US20130054498A1 (en) | System and Method For Providing Personalized Recommendations | |
JP2008123111A (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
WO2013179340A1 (ja) | 情報分析システム及び情報分析方法 | |
JP5905651B1 (ja) | 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム | |
CN111612491B (zh) | 状态分析模型构建方法、分析方法及装置 | |
JP6025487B2 (ja) | フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム | |
JP5827206B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
JP2009116457A (ja) | インターネットサイト情報分析方法と装置 | |
JP2003248687A (ja) | 情報処理装置およびその方法 | |
US7516050B2 (en) | Defining the semantics of data through observation | |
Ren et al. | Evaluation index system for academic papers of humanities and social sciences | |
JP5171087B2 (ja) | 入力情報分析装置 | |
KR20160121132A (ko) | 소셜 빅데이터 기반의 상품 트랜드 및 매출 분석 장치 및 방법 | |
Peng | Statistical analysis of employee retention | |
JP3155033B2 (ja) | 類似尺度構成処理方法 | |
JP2003141132A (ja) | 情報処理装置およびその方法 | |
Welbers et al. | Linking event archives to news: a computational method for analyzing the gatekeeping process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3677006 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090513 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100513 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100513 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110513 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110513 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120513 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130513 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |