JP2003091542A - 文書分類方法、文書分類装置、プログラム及び記録媒体 - Google Patents

文書分類方法、文書分類装置、プログラム及び記録媒体

Info

Publication number
JP2003091542A
JP2003091542A JP2001281613A JP2001281613A JP2003091542A JP 2003091542 A JP2003091542 A JP 2003091542A JP 2001281613 A JP2001281613 A JP 2001281613A JP 2001281613 A JP2001281613 A JP 2001281613A JP 2003091542 A JP2003091542 A JP 2003091542A
Authority
JP
Japan
Prior art keywords
category
document
vector
effective word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001281613A
Other languages
English (en)
Inventor
Shuichi Morisawa
秀一 森澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001281613A priority Critical patent/JP2003091542A/ja
Publication of JP2003091542A publication Critical patent/JP2003091542A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 正しい分類先を1個しか選択できない場合
に、そのカテゴリを特徴付ける極端な方向に文書ベクト
ルが引っ張られてしまうことに起因する、新たな文書の
分類に際して悪い影響が出ることを避け、副作用のない
学習を行わせることが可能文書分類方法、文書分類装
置、プログラム及び記憶媒体を提供する。 【解決手段】 複数個の正解カテゴリを、それぞれ重み
付きで指定し(ステップS401)、有効語を抽出し
(ステップS402)、指定されないカテゴリに関して
は、それへの帰属度を減少させ(ステップS403)、
指定されたカテゴリに関しては、それへの帰属度を増加
する(ステップS405)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された文書を
与えられたカテゴリに自動的に分類する文書分類方法、
文書分類装置、プログラム及び記憶媒体に関する。
【0002】
【従来の技術】従来、入力された文書を与えられたカテ
ゴリに自動的に分類する文書分類装置は公知である。
【0003】
【発明が解決しようとする課題】従来の文書分類装置に
よる文書の分類結果がユーザの意図と異なる場合、即
ち、ユーザが分類したいカテゴリと文書分類装置が分類
したカテゴリとが異なる場合、ユーザは文書分類装置に
対して分類結果が適切でないことを学習させるため、手
作業により、文書を自分が意図する正しいカテゴリに移
し変えることが一般に必要となる。
【0004】例えば、新聞記事を『政治』、『経済』、
『外交』、『司法』、『メディア』、『社会情勢』の6
つのカテゴリに分類する場合に、例えば、『米フロリダ
州で続いている大統領選の得票再集計をめぐり、共和党
候補ブッシュ・テキサス州知事の代理人、ベーカー元国
務長官は11日、州都タラハシで記者会見し、民主党の
ゴア副大統領側の要請で追加実施が決まった、手作業に
よる再集計の差し止め請求訴訟を起こすと発表した。
(中略)次の大統領がいまだに決まらない米国の混迷は、
中東和平をはじめとする外交にも大きな影を落としてい
る。外交・安全保障等の政権移行の本格準備が遅れてい
るからだけではない。次の政権の正統性をめぐる論議が
尾を引けば、外交舞台での発言力の裏付けとなってきた
「威信」も揺さぶられてしまうからだ。』という内容の
記事に対し、文書分類装置は類似度9で『政治』、類似
度6で『外交』と分類したとする。しかし、ユーザは、
この記事の主旨が大統領選挙をめぐって訴訟にまで発展
したことにあると考え、『政治』、『外交』的側面は二
の次で、むしろ『司法』的要素が強いと判断したとす
る。
【0005】そこで、学習させるため手分類で正しいカ
テゴリに移動するのであるが、従来の文書分類装置で
は、ただ一つの正しいカテゴリのみを指定するしか方法
がなかったため、ユーザは『司法』にのみ分類してい
た。この結果、文書分類装置は、この記事中の『政治』
的要素を示す単語、即ち、『政治』カテゴリの有効語で
ある「大統領選」、「得票」、「国務長官」、「政
権」、「共和党」、「民主党」の各有効語の重みが、
『司法』カテゴリを特徴付ける方向へ修正されてしま
い、また、『外交』カテゴリの有効語である「和平」、
「外交」、「安全保障」の重みも同様となる。
【0006】そのため、次の新たな記事として、例え
ば、『プーチン大統領が13日に戦略核の大幅削減提案
を米国へぶつけたことをロシア政府当局者は「周到に練
られた構想であり、次期政権へ向けたシグナル」と解説
した。後継大統領が決まらない混迷の中で先手をとる狙
いがあったのは間違いない。イワノフ外相のイラク入り
等「米不在」の国際環境で、外交面でのロシアの動きも
目立つ。史上まれに見る僅差から、共和、民主両党が激
しく対立する政策課題では、新政権も発足当初は自重せ
ざるを得ないだろうとの観測もある。だが、同部長は
「ブッシュ氏が勝てば、議会での共和党優位を背景にで
きる。ゴア氏が勝てば、全米での得票の多さを背景にで
きる。統治力に違いはない」と分析する。米本土ミサイ
ル防衛(NMD)計画でも両党に大きな立場の違いはな
いため、影響は少ないとの見方が有力だ。』を文書分類
装置が分類する際に、これら各有効語の『政治』、『外
交』カテゴリに対する重みが減少した分、他の第三のカ
テゴリへの寄与分が相対的に上昇し、誤分類されてしま
う可能性が高くなる。
【0007】また、従来の文書分類装置の一つである特
許登録第2978044号では、有効語ベクトルから文
書の距離を求めて分類する点においては本発明とほぼ同
じであるが、トレーニング手段を持たない。
【0008】また、別の従来の文書分類装置の一つであ
る特開平11−045247号では、トレーニングによ
り学習させることができるが、本発明の特徴である、正
解カテゴリを複数個指定することはできず、ユーザが唯
一つに決める必要があった。
【0009】更に、別の従来の文書分類装置の一つであ
る特開平05−342272号では、適当なカテゴリが
無い場合に無理やり分類せずにユーザに尋ねて、必要に
応じて新たなカテゴリを設けることができるが、既存の
カテゴリに分類されている文書の自動再分類は行ってい
ない。
【0010】従って、上述した従来の文書分類装置のい
ずれも、正しい分類先を1個しか選択できない場合に、
そのカテゴリを特徴付ける極端な方向に文書ベクトルが
引っ張られてしまい、新たな文書の分類に際して悪い影
響が出てしまうという問題点があった。
【0011】本発明は、上述した従来技術の有する問題
点を解消するためになされたもので、その目的は、正し
い分類先を1個しか選択できない場合に、そのカテゴリ
を特徴付ける極端な方向に文書ベクトルが引っ張られて
しまうことに起因する、新たな文書の分類に際して悪い
影響が出ることを避け、副作用のない学習を行わせるこ
とが可能な文書分類方法、文書分類装置、プログラム及
び記憶媒体を提供することである。
【0012】
【課題を解決するための手段】上記目的を達成するため
に、本発明の請求項1に記載の文書分類方法は、分類対
象文書を有限個の単語を軸とするベクトルで表現して、
与えられたいずれかのカデゴリに分類されるかを決定す
る文書分類方法において、複数の文書を前記カテゴリに
予め分けて保存した学習用文書データベースに保存され
た学習用文書から入力された文書を分類するために有効
な単語を有効語として抽出する有効語抽出ステップと、
前記有効語抽出ステップにより抽出された有効語と該有
効語の各カテゴリへの帰属度とを有効語辞書に保持する
有効語保持ステップと、文書内容に対する前記有効語の
重要度を評価する評価項目別に該重要度の値を評価項目
テーブルに記述する評価項目記述ステップと、前記有効
語の数を基に各有効語の組の共起頻度を求める共起頻度
計算ステップと、前記共起頻度計算ステップにより求め
られた前記共起頻度を参照して前記各有効語の有効語ベ
クトルを求める有効語ベクトル計算ステップと、前記学
習用文書と前記分類対象文書とのそれぞれについて前記
有効語ベクトル計算ステップにより求められた前記有効
語ベクトル及び前記評価項目テーブル内の重要度の値を
参照して文書ベクトルを求める文書ベクトル計算ステッ
プと、前記学習用文書について求められた前記文書ベク
トルを用いて各カテゴリのフォルダベクトルを求めるフ
ォルダベクトル計算ステップと、前記分類対象文書につ
いて求められた前記文書ベクトルと前記フォルダベクト
ル計算ステップにより求められた前記各カテゴリのフォ
ルダベクトルとを比較し且つその比較結果に応じて前記
分類対象文書が属するカテゴリを推定するカテゴリ推定
ステップと、前記カテゴリ推定ステップによる推定結果
をユーザに表示する分類結果表示ステップと、前記カテ
ゴリ推定ステップによる推定結果がユーザの意図に反す
る場合に前記評価項目テーブル内の重要度の値を修正し
て学習する学習ステップと、前記評価項目テーブル内の
重要度の値を修正するために前記カテゴリ推定ステップ
により推定したカテゴリの代わりにユーザが複数個の適
当なカテゴリを指定する正解カテゴリ指定ステップとを
有することを特徴とする。
【0013】また、上記目的を達成するために、本発明
の請求項2に記載の文書分類方法は、請求項1に記載の
文書分類方法において、前記分類結果表示ステップにお
いてユーザの意図と異なる分類がなされた文書アイコン
を複数個の適当なカテゴリアイコン上にドラッグするこ
とにより、前記学習ステップが自動的に学習するように
制御する制御ステップを有することを特徴とする。
【0014】また、上記目的を達成するために、本発明
の請求項3に記載の文書分類方法は、請求項1に記載の
文書分類方法において、前記正解カテゴリ指定ステップ
において複数個の適当なカテゴリを指定する際に、それ
ぞれに対するユーザの重要度に応じて重み付けを行うよ
うに制御する制御ステップを有することを特徴とする。
【0015】また、上記目的を達成するために、本発明
の請求項4に記載の文書分類方法は、請求項1に記載の
文書分類方法において、前記正解カテゴリ指定ステップ
においてカテゴリを指定する際に、適当なカテゴリが存
在しないとユーザが考えた場合には新たなカテゴリを設
けることができ、新たなカテゴリが作成されたら既に既
存のカテゴリ群に分類されている各文書の中で新たなカ
テゴリに分類した方が適当であると思われる文書を自動
的に再分類させるように制御する制御ステップを有する
ことを特徴とする。
【0016】また、上記目的を達成するために、本発明
の請求項5に記載の文書分類方法は、請求項4に記載の
文書分類方法において、前記制御ステップは、新たなカ
テゴリに再分類された文書が存在する場合に、その旨を
ユーザに通知してトレーニングを促すように制御するこ
とを特徴とする。
【0017】また、上記目的を達成するために、本発明
の請求項6に記載の文書分類方法は、請求項4に記載の
文書分類方法において、前記制御ステップは、新たなカ
テゴリをユーザが削除した場合に、そのカテゴリに分類
された文書のうち、カテゴリ作成前から存在し且つ他の
カテゴリに分類されていた文書については元のカテゴリ
に戻し、再分類されたものでない文書については再び文
書ベクトルを計算して、その時点で最も適当なカテゴリ
に振り分けるように制御することを特徴とする。
【0018】また、上記目的を達成するために、本発明
の請求項7に記載の文書分類装置は、分類対象文書を有
限個の単語を軸とするベクトルで表現して、与えられた
いずれかのカデゴリに分類されるかを決定する文書分類
装置において、複数の文書を前記カテゴリに予め分けて
保存した学習用文書データベースに保存された学習用文
書から入力された文書を分類するために有効な単語を有
効語として抽出する有効語抽出手段と、前記有効語抽出
手段により抽出された有効語と該有効語の各カテゴリへ
の帰属度とを有効語辞書に保持する有効語保持手段と、
文書内容に対する前記有効語の重要度を評価する評価項
目別に該重要度の値を評価項目テーブルに記述する評価
項目記述手段と、前記有効語の数を基に各有効語の組の
共起頻度を求める共起頻度計算手段と、前記共起頻度計
算手段により求められた前記共起頻度を参照して前記各
有効語の有効語ベクトルを求める有効語ベクトル計算手
段と、前記学習用文書と前記分類対象文書とのそれぞれ
について前記有効語ベクトル計算手段により求められた
前記有効語ベクトル及び前記評価項目テーブル内の重要
度の値を参照して文書ベクトルを求める文書ベクトル計
算手段と、前記学習用文書について求められた前記文書
ベクトルを用いて各カテゴリのフォルダベクトルを求め
るフォルダベクトル計算手段と、前記分類対象文書につ
いて求められた前記文書ベクトルと前記フォルダベクト
ル計算手段により求められた前記各カテゴリのフォルダ
ベクトルとを比較し且つその比較結果に応じて前記分類
対象文書が属するカテゴリを推定するカテゴリ推定手段
と、前記カテゴリ推定手段による推定結果をユーザに表
示する分類結果表示手段と、前記カテゴリ推定手段によ
る推定結果がユーザの意図に反する場合に前記評価項目
テーブル内の重要度の値を修正して学習する学習手段
と、前記評価項目テーブル内の重要度の値を修正するた
めに前記カテゴリ推定手段により推定したカテゴリの代
わりにユーザが複数個の適当なカテゴリを指定する正解
カテゴリ指定手段とを有することを特徴とする。
【0019】また、上記目的を達成するために、本発明
の請求項8に記載の文書分類装置は、請求項7に記載の
文書分類装置において、前記分類結果表示手段において
ユーザの意図と異なる分類がなされた文書アイコンを複
数個の適当なカテゴリアイコン上にドラッグすることに
より、前記学習ステップが自動的に学習するように制御
する制御手段を有することを特徴とする。
【0020】また、上記目的を達成するために、本発明
の請求項9に記載の文書分類装置は、請求項7に記載の
文書分類装置において、前記正解カテゴリ指定手段にお
いて複数個の適当なカテゴリを指定する際に、それぞれ
に対するユーザの重要度に応じて重み付けを行うように
制御する制御手段を有することを特徴とする。
【0021】また、上記目的を達成するために、本発明
の請求項10に記載の文書分類装置は、請求項7に記載
の文書分類装置において、前記正解カテゴリ指定手段に
おいてカテゴリを指定する際に、適当なカテゴリが存在
しないとユーザが考えた場合には新たなカテゴリを設け
ることができ、新たなカテゴリが作成されたら既に既存
のカテゴリ群に分類されている各文書の中で新たなカテ
ゴリに分類した方が適当であると思われる文書を自動的
に再分類させるように制御する制御手段を有することを
特徴とする。
【0022】また、上記目的を達成するために、本発明
の請求項11に記載の文書分類装置は、請求項10に記
載の文書分類装置において、前記制御手段は、新たなカ
テゴリに再分類された文書が存在する場合に、その旨を
ユーザに通知してトレーニングを促すように制御するこ
とを特徴とする。
【0023】また、上記目的を達成するために、本発明
の請求項12に記載の文書分類装置は、請求項10に記
載の文書分類装置において、前記制御手段は、新たなカ
テゴリをユーザが削除した場合に、そのカテゴリに分類
された文書のうち、カテゴリ作成前から存在し且つ他の
カテゴリに分類されていた文書については元のカテゴリ
に戻し、再分類されたものでない文書については再び文
書ベクトルを計算して、その時点で最も適当なカテゴリ
に振り分けるように制御することを特徴とする。
【0024】また、上記目的を達成するために、本発明
の請求項13に記載のプログラムは、分類対象文書を有
限個の単語を軸とするベクトルで表現して、与えられた
いずれかのカデゴリに分類されるかを決定する文書分類
装置を制御するためのコンピュータ読み取り可能なプロ
グラムであって、複数の文書を前記カテゴリに予め分け
て保存した学習用文書データベースに保存された学習用
文書から入力された文書を分類するために有効な単語を
有効語として抽出する有効語抽出ステップと、前記有効
語抽出ステップにより抽出された有効語と該有効語の各
カテゴリへの帰属度とを有効語辞書に保持する有効語保
持ステップと、文書内容に対する前記有効語の重要度を
評価する評価項目別に該重要度の値を評価項目テーブル
に記述する評価項目記述ステップと、前記有効語の数を
基に各有効語の組の共起頻度を求める共起頻度計算ステ
ップと、前記共起頻度計算ステップにより求められた前
記共起頻度を参照して前記各有効語の有効語ベクトルを
求める有効語ベクトル計算ステップと、前記学習用文書
と前記分類対象文書とのそれぞれについて前記有効語ベ
クトル計算ステップにより求められた前記有効語ベクト
ル及び前記評価項目テーブル内の重要度の値を参照して
文書ベクトルを求める文書ベクトル計算ステップと、前
記学習用文書について求められた前記文書ベクトルを用
いて各カテゴリのフォルダベクトルを求めるフォルダベ
クトル計算ステップと、前記分類対象文書について求め
られた前記文書ベクトルと前記フォルダベクトル計算ス
テップにより求められた前記各カテゴリのフォルダベク
トルとを比較し且つその比較結果に応じて前記分類対象
文書が属するカテゴリを推定するカテゴリ推定ステップ
と、前記カテゴリ推定ステップによる推定結果をユーザ
に表示する分類結果表示ステップと、前記カテゴリ推定
ステップによる推定結果がユーザの意図に反する場合に
前記評価項目テーブル内の重要度の値を修正して学習す
る学習ステップと、前記評価項目テーブル内の重要度の
値を修正するために前記カテゴリ推定ステップにより推
定したカテゴリの代わりにユーザが複数個の適当なカテ
ゴリを指定する正解カテゴリ指定ステップとをコンピュ
ータに実行させるためのプログラムコードから成ること
を特徴とする。
【0025】また、上記目的を達成するために、本発明
の請求項14に記載のプログラムは、請求項13に記載
のプログラムにおいて、前記分類結果表示ステップにお
いてユーザの意図と異なる分類がなされた文書アイコン
を複数個の適当なカテゴリアイコン上にドラッグするこ
とにより、前記学習ステップが自動的に学習するように
制御する制御ステップをコンピュータに実行させるため
のプログラムコードから成ることを特徴とする。
【0026】また、上記目的を達成するために、本発明
の請求項15に記載のプログラムは、請求項13に記載
のプログラムにおいて、前記正解カテゴリ指定ステップ
において複数個の適当なカテゴリを指定する際に、それ
ぞれに対するユーザの重要度に応じて重み付けを行うよ
うに制御する制御ステップをコンピュータに実行させる
ためのプログラムコードから成ることを特徴とする。
【0027】また、上記目的を達成するために、本発明
の請求項16に記載のプログラムは、請求項13に記載
のプログラムにおいて、前記正解カテゴリ指定ステップ
においてカテゴリを指定する際に、適当なカテゴリが存
在しないとユーザが考えた場合には新たなカテゴリを設
けることができ、新たなカテゴリが作成されたら既に既
存のカテゴリ群に分類されている各文書の中で新たなカ
テゴリに分類した方が適当であると思われる文書を自動
的に再分類させるように制御する制御ステップをコンピ
ュータに実行させるためのプログラムコードから成るこ
とを特徴とする。
【0028】また、上記目的を達成するために、本発明
の請求項17に記載のプログラムは、請求項16に記載
のプログラムにおいて、前記制御ステップは、新たなカ
テゴリに再分類された文書が存在する場合に、その旨を
ユーザに通知してトレーニングを促すように制御するこ
とを特徴とする。
【0029】また、上記目的を達成するために、本発明
の請求項18に記載のプログラムは、請求項16に記載
のプログラムにおいて、前記制御ステップは、新たなカ
テゴリをユーザが削除した場合に、そのカテゴリに分類
された文書のうち、カテゴリ作成前から存在し且つ他の
カテゴリに分類されていた文書については元のカテゴリ
に戻し、再分類されたものでない文書については再び文
書ベクトルを計算して、その時点で最も適当なカテゴリ
に振り分けるように制御することを特徴とする。
【0030】更に、請求項19に記載の記憶媒体は、請
求項13〜18のいずれかに記載のプログラムを格納し
たことを特徴とする。
【0031】
【発明の実施の形態】以下、本発明の各実施の形態を図
面に基づき説明する。
【0032】入力された分類対象文書をユーザの意図に
沿って、予め決められたカテゴリ群のいずれかに分類す
る方法の一つとして、ベクトル空間モデルを利用した方
法がある。このベクトル空間モデルでは、分類に有用な
語や文書、カテゴリをベクトルで表現し、ベクトルの方
向を目安として、その文書が属するカテゴリを決定す
る。このベクトル空間モデルを利用した文書自動分類処
理は、主に学習フェーズ、分類フェーズ及びトレーニン
グフェーズの3つのフェーズに分けられる。
【0033】学習フェーズでは、予め正しく分類された
学習用文書から分類に有用な語(以下、有効語と記述す
る。)を選出し、各有効語をベクトル表現する。このベ
クトルは有効語ベクトルと呼ばれ、この有効語ベクトル
の成分は、出現頻度や単語共起確率等により求められ
る。各有効語を見出しとし、その有効語ベクトルを格納
したものを有効語辞書と呼ぶ。また、学習用文書に含ま
れる各有効語ベクトルの重み付き平均を計算することに
より、文書の内容をベクトル表現でき、各カテゴリ毎に
それに属する文書ベクトルの平均を求めることで、カテ
ゴリの特徴を表わすフォルダベクトルの算出が行われ
る。
【0034】また、分類フェーズでは、学習フェーズで
得られた有効語辞書を用いて分類対象文書をベクトルで
表現し(以下、文書ベクトルと記述する。)、この文書
ベクトルとフォルダベクトルとを比較し、その比較結果
に応じて分類対象文書が属するカテゴリを決定する。
【0035】更に、トレーニングフェーズでは、決定さ
れたカテゴリがユーザの意図に反する場合に、ユーザが
正しいと考えるカテゴリをシステムに対して指示し、シ
ステムがその結果を再び学習して、次回以降の分類に反
映させるものである。
【0036】以下、この方法を採用した本発明の各実施
の形態を図面に基づき説明する。
【0037】(第1実施の形態)図1は、本発明の第1
実施の形態に係る文書分類装置の全体構成を示すブロッ
ク図、図2は、図1の文書分類装置における学習フェー
ズの処理手順を示すフローチャート、図3は、図1の文
書分類装置における分類フェーズの処理手順を示すフロ
ーチャート、図4は、図1の文書分類装置におけるトレ
ーニングフェーズの処理手順を示すフローチャートであ
る。
【0038】文書分類装置は、図1に示すように、学習
用文書を保持する学習用文書データベース101と、分
類対象文書を保持する分類対象文書保持部102と、学
習用文書から有効語を抽出する有効語抽出手段103
と、該有効語抽出手段103により抽出された有効語を
各カテゴリへの帰属度と共に保持する有効語辞書104
と、学習用文書と有効語とを参照して各文書に含まれて
いる有効語の数を求める有効語数計算部105と、該有
効語数計算部105により求められた各文書内の有効語
数を保持する有効語数保持部106と、有効語の数を基
に各有効語の組の共起頻度を求める共起頻度計算手段1
07と、該共起頻度計算手段107により求められた共
起頻度を保持する共起頻度保持部108と、該共起頻度
保持部108に保持された共起頻度を参照して各有効語
の有効語ベクトルを求める有効語ベクトル計算手段10
9と、該有効語ベクトル計算手段109により求められ
た有効語ベクトルを保持する有効語ベクトル保持部11
0と、学習用文書と分類対象文書とのそれぞれについて
有効語ベクトル保持部110に保持された有効語ベクト
ルを参照して文書ベクトルを求める文書ベクトル計算手
段111と、該文書ベクトル計算手段111により求め
られた文書ベクトルを保持する文書ベクトル保持部11
2と、学習用文書について求められた文書ベクトルを用
いて各カテゴリのフォルダベクトルを求めるフォルダベ
クトル計算手段113と、該フォルダベクトル計算手段
113により求められたフォルダベクトルを保持するフ
ォルダベクトル保持部114と、分類対象文書について
求められた文書ベクトルとフォルダベクトル保持部11
4に保持されたいる各カテゴリのフォルダベクトルとを
比較し、その比較結果に応じて分類対象文書が属するカ
テゴリを推定するカテゴリ推定手段115と、該カテゴ
リ推定手段115がカテゴリ毎に分類した分類対象文書
の分類結果を保持する分類結果保持部116と、該カテ
ゴリ推定手段115がカテゴリ毎に分類した分類対象文
書の分類結果一覧を表示する分類結果表示手段117
と、有効語の重要度を評価する評価項目別に重要度の値
が記述された評価項目テーブル118と、カテゴリ推定
手段115による分類結果(推定結果)がユーザの意図
に反する場合に分類結果表示手段117上で適当と思わ
れるカテゴリを複数個選択して指示することにより評価
項目テーブル118内の重要度の値を修正して学習する
学習手段119と、正解カテゴリを指定する正解カテゴ
リ指定手段120とから構成される。
【0039】有効語数保持部106に保持された文書内
の有効語数は共起頻度計算手段107に与えられ、該共
起頻度計算手段107は有効語数を用いて各有効語の組
の共起頻度を求める。この求められた共起頻度は、共起
頻度保持部108に保持された後に、有効語ベクトル計
算手段109に与えられる。該有効語ベクトル計算手段
109は、前記共起頻度を用いて各有効語の有効語ベク
トルを求める。
【0040】ここで、有効語Ti と有効語Tj の共起確
率をci,j 、有効語数をNとすると、有効語Ti の有効
語ベクトルTi は、下記(1)式により、 Ti =(ci,1 ,ci,2 ,…,ci,N ) … (1) となる。
【0041】また、共起確率ci,j は、下記(2)式に
より定義される。
【0042】 ci,j =(Ti とTj の両方を含む文書数)/(Ti を含む文書数)… (2 ) 有効語ベクトル計算手段109により求められた有効語
ベクトルは、有効語ベクトル保持部110に保持された
後に文書ベクトル計算手段111に与えられる。該文書
ベクトル計算手段111は、学習用文書と分類対象文書
のそれぞれについて、有効語ベクトルを参照して文書ベ
クトルを求め、学習用文書と分類対象文書のそれぞれに
ついて求められた文書ベクトルは、文書ベクトル保持部
112に保持される。該文書ベクトル保持部112に保
持された学習用文書の文書ベクトルはフォルダベクトル
計算手段113に与えられる。該フォルダベクトル計算
手段113は、学習用文書の文書ベクトルを用いて各カ
テゴリのフォルダベクトルを求める。該求められた各カ
テゴリのフォルダベクトルは、フォルダベクトル保持部
114に保持される。該フォルダベクトル保持部114
に保持された各カテゴリのフォルダベクトルは、文書ベ
クトル保持部112に保持された分類対象文書の文書ベ
クトルと共に、カテゴリ推定手段115に与えられる。
該カテゴリ推定手段115は、分類対象文書の文書ベク
トルと各カテゴリのフォルダベクトルとを比較し、該比
較結果に応じて分類対象文書が属するカテゴリを決定す
る。この決定された分類対象文書のカテゴリは分類結果
保持部116に保持される。次に、本実施の形態に係る
文書分類装置における学習フェーズの処理手順につい
て、図2を参照しながら説明する。
【0043】まず、ステップS201において学習用文
書を形態素解析し、それに含まれる語の中から、分類に
有用な語を有効語として選定する。次に、ステップS2
02で、各文書内に含まれている選定した有効語の数を
求める。この有効語は、普通名詞、固有名詞、サ変名詞
及び未知語を対象に、特定のカテゴリに偏って出現する
単語を選定する。
【0044】次に、各有効語の重み付けを行う。重みの
評価は2つの観点から行う。即ち その有効語自体が分類という行為に対してどの程度有
効かという点。 その有効語が各文書の中でどの程度重要な位置を示し
ているかという点。 の重みw1は、各カテゴリへの帰属度の度合いを表わす
もので、特定のカテゴリを特徴付ける度合いの高い有効
語ほど重みを重くするという考えであり、次の要領で算
出する。
【0045】まず、カテゴリCkに属する学習用文書の中
で、有効語Wiを含む文書の割合Pikを求める。 Pik = (カテゴリCkに属し有効語Wiを含む文書の数)/
(カテゴリCkに属する文書の数) 但し、 Σpik(全てのカテゴリに亘る和)= 1となるよう正規化
する。 w1 = 1−H(Wi)、ただしH(Wi)はPikのエントロピーと定
義する。
【0046】の重みw2は、対象とする文書の中でその
有効語がどのように使われているか、文書の内容とどの
ように関わっているのかという側面を評価する。例え
ば、『…テレビの発達したマスメディア国家アメリカで
は、サーカスみたいな政治になっていて、優れた学生は
政治家になりたいとは思わないだろう。』という文章を
含む『政治』カテゴリに属すべき新聞記事があった場
合、“サーカス”という単語はアメリカの“政治”に対
する比喩として用いられたに過ぎず、文章の内容とは直
接関係は少ない。従って、“サーカス”という単語その
ものが『娯楽』という特定のカテゴリを特徴付ける度合
いが高いからといって、この有効語に高い重みをつけて
しまうと、文書ベクトルが誤った方向に引っ張られてし
まう。そこで、と合わせて)のような重みの評価も
必要となる。(以下、の重みを文書内重要度と記述す
る。) 文書中での重要性に関連ある要素として、(1)その有
効語の出現位置及び(2)その有効語の格役割、修飾タ
イプ等の言語的役割に注目して評価項目を予め作成して
おき、有効語が各評価項目の条件を満たした場合に与え
る重みの値を学習によって求める。
【0047】まず、(1)の重みについて説明する。文
書中での有効語の出現位置は、その重要度と相関が強い
と考えられる。たとえば、新聞記事では先頭段落に大意
を表現するような重要な単語が現れることは周知の事実
である。そこで文書全体を、文を単位としてn個のブロ
ックに等分し、各ブロックに対する重みを求める。
【0048】次に、(2)の重みについて説明する。言
語的役割と有効語の重要度との相関としては、例えば、
『…が”、“…は”等の主語の形で使われている単語は
重要』、『連体修飾する用言はあまり重要ではない』等
の法則が考えられる。そこで、言語的役割として次のよ
うな評価項目を用意し、それぞれの重みを学習によって
求める。 ・「が」格 ・「を」格 ・「に」格 ・「へ」格 ・「は」格 ・「も」格 ・その他の連用修飾する体言 ・連体修飾する体言 ・連体修飾するサ変 ・文末のサ変 ・読点付きのサ変 ・文末の体言 本実施の形態では、評価項目としては、図7に示したよ
うに、□有効語が「段落の先頭文に含まれているか」、
□有効語の「が」格、「を」格等の「格役割」、□有効
語が「文末のサ変名詞」であるかを採用しているが、評
価項目としては、その有効語の文書内での出現位置や、
その単語の係り受けの役割等を採用することも可能であ
る。
【0049】尚、図7は、評価項目テーブルの初期状態
を示しており、各文書内重要度の値は全て“1.0”と
なっている。
【0050】再び図2に戻って、ステップS203に進
み、有効語数から各有効語の組の共起頻度を求め、次の
ステップS204で、共起頻度から有効語ベクトルを算
出する。そして、有効語ベクトルを参照して学習用文書
から有効語を取り出し、次のステップS205で、前記
ステップS204において取り出した有効語の有効語ベ
クトルの平均を取って学習用文書の文書ベクトルを求め
る。
【0051】次いで、ステップS206に進み、各カテ
ゴリ毎にそれに属する全ての学習用文書の文書ベクトル
の平均を求め、その求めた値をそのカテゴリの代表ベク
トルとして、本処理動作を終了する。
【0052】次に、文書内重要度の値の学習アルゴリズ
ムについて、図5を参照しながら説明する。
【0053】まず、全ての評価項目に対する文書内重要
度の値を1に初期化する。次に、学習に用いた学習用文
書の数をカウントするカウンタ変数nを“0”に初期化
する(ステップS501)。次に、正しい分類カテゴリ
(=C*とする)が付与された学習用文書を読み出し、
カウンタ変数nを“1”だけインクリメントする(ステ
ップS502)。読み出した文書の例として、カテゴリ
『事件』に分類されている図6に示すような文書を想定
する。そして、読み出した学習用文書の中から、有効語
辞書104(図1参照)に記載された有効語を抽出し、
評価項目テーブル118(図1参照)の評価項目に従っ
て抽出に係る有効語の属性テーブルを作成する(ステッ
プS503)。ここで、図6に示す文書において、有効
語辞書104に従って抽出された有効語と、その有効語
に係る属性テーブルの一例を図8に示す。
【0054】次に、抽出した各有効語に係る属性テーブ
ルと評価項目テーブル118に記述された重要度の値に
基づいて、各有効語の文書内重要度を計算する(ステッ
プS504)。そして、計算した文書内重要度、有効語
辞書104に保持された各有効語のカテゴリへの帰属度
データ等を用いて、その文書の各カテゴリへの帰属度を
計算し、最も帰属度の高いカテゴリを分類結果(=C)
とする(ステップS505)。
【0055】次に、この分類結果(C)を前記ステップ
S302において取得した正しい分類カテゴリ(C*)
と比較して、その分類結果(C)が正しいか否かを調べ
(ステップS506)、正しくなければ、評価項目テー
ブル118の重要度の値を修正する(ステップS50
7)。
【0056】ここで、同じく図6〜図8を用いて、重要
度の値の更新方法を説明する。
【0057】今、図6に示す文書がカテゴリ『科学』に
誤分類されたとすると、まず、誤分類であるカテゴリ
『科学』への帰属度の大きい有効語「工学部」、「研究
室」、「化学実験」に注目する。これら有効語は誤分類
の原因であると考えられるので、その文書内重要度が小
さくなるように、図7に示す評価項目テーブルの重要度
の値を修正する。
【0058】即ち、「工学部」に着目した際には、「工
学部」に係る図8に示す属性テーブルの「段落先頭文に
あるか否か」(図7の評価項目1)の属性値は“TRU
E”であり、「格役割」(図7の評価項目2)は
“「の」の連体”であるので、評価項目テーブル(*
*)の「段落先頭文にあるか否か」の“TRUE”及び
「格役割」の“「の」の連体”の重要度の値を微小量だ
け減らす。「研究室」、「化学実験」に着目した際に
も、「工学部」と同様の処理を行う。
【0059】次に、正しい分類カテゴリである『事件』
への帰属度の大きい有効語「火災」、「負傷」に注目す
る。正しい分類結果を出すには、これら有効語の文書内
重要度を大きく評価しなければならない。そこで、「火
災」に着目した際には、「火災」に係る属性テーブルの
「段落先頭文にあるか否か」(評価項目1)の属性値は
“TRUE”であり、「格役割」(評価項目2)は
“「が」格”であるので、評価項目テーブル118の
「段落先頭文にあるか否か」の“TRUE”及び「格役
割」の“「が格」”の重要度の値を微小量だけ増やす。
「負傷」に着目した際にも、「火災」と同様の処理を行
う。
【0060】このようにして重要度の値を更新した後は
ステップS508に進み、過去N個(N≦n)の学習用
文書に対する分類の正解率rを計算する。
【0061】尚、前記ステップS506において、分類
結果が正しいと判別された場合は、ステップS507で
の重要度の値の更新処理をスキップしてステップS50
8に進む。
【0062】次に、正解率rが所定の値Thを越えてい
るか、または学習に用いた学習用文書数が所定の値Mを
越えているかを調べ(ステップS509)、いずれかが
満たされていたら終了し、いずれも満たされていなけれ
ば前記ステップS502へ戻り、次の学習用文書に基づ
いて同様の処理を行う。
【0063】このような処理を行うことにより、各評価
項目の重要度が適切に修正された評価項目テーブル11
8が実現されることとなる。
【0064】このように、単語の出現位置、格役割、修
飾タイプ等、文書内重要度の評価に有用であると思われ
る評価項目に対する具体的な重要度の値を、カテゴリ毎
に別けて保存された複数の学習用文書によって学習によ
り求めている。即ち、最初は、各評価項目の重要度の初
期値を適当に与えておき、学習用文書を分類してみて、
その分類結果が正しいカテゴリと異なって誤分類が発生
した場合には、その誤分類に大きな影響を与えた有効語
を抽出し、文書内重要度の評価項目で、そのケースに当
てはまるものに付与された重要度の値を微少量だけ修正
する。このような処理を大量の学習用文書に対して行っ
て、分類の正解率が極力高くなるような文書内重要度の
値を自動的に求める。
【0065】以上、学習フェーズでの処理を説明した
が、次に、実際に入力されたカテゴリの不明な分類対象
文書を自動分類させる分類フェーズの処理手順につい
て、図3を参照しながら説明する。
【0066】分類フェーズでは、まず、ステップS30
1で、前記図2のステップS204において求めた有効
語ベクトルを参照して分類対象文書から有効語を取り出
す。次に、ステップS302で、前記ステップS301
において取り出した有効語のベクトル(前記図2のステ
ップS204において求めた有効語ベクトル)の平均を
取り、このベクトルの平均から分類対象文書の文書ベク
トルを求める。
【0067】次に、ステップS303に進み、分類対象
文書の文書ベクトルと学習フェーズで求められたフォル
ダベクトルとを比較し、該比較結果に応じて分類対象文
書が属するカテゴリを決定して、本処理動作を終了す
る。
【0068】最後に、本発明の特徴であるトレーニング
フェーズの処理手順について、図4のフローチャート及
び図9〜図13を参照して説明する。
【0069】図6に示すような文書を4つのカテゴリ
『経済』、『教育』、『文化』、『事件』のいずれかに
自動分類する場合について説明する。
【0070】この文書中には、『事件』カテゴリへの帰
属度が最も高い有効語として「火災」「事故」、「負
傷」が含まれ、また、『教育』カテゴリへの帰属度が最
も高い有効語として「大学」、「研究室」、「学生」が
含まれている。これらの有効語の有効語ベクトル値は、
分類を実行する前の時点において図9に示すようになっ
ていたものとする。即ち、有効語「火災」の例を見てみ
ると、『事件』カテゴリへの帰属度が4.5で最も高
く、次いで『経済』、『教育』カテゴリへの帰属度が
1.0、『文化』カテゴリへの帰属度は0.5となって
いる。また、有効語「大学」では、『教育』カテゴリが
5.0、『事件』、『文化』カテゴリが1.0、『経
済』カテゴリに対しては0.5という値になっている。
【0071】説明の簡素化のために、文書内重要度を全
て1.0とすると、分類フェーズで説明したように、当
該文書の文書ベクトルは、これら全ての有効語ベクトル
の単純平均をとったものとなり、図10に示すように計
算される。従って、自動分類によれば『事件』カテゴリ
に分類されてしまうが、ユーザの関心が電気分野におけ
る大学での研究にあり、火災になったという事件性より
もむしろ、どこの大学のなんという研究室ではどのよう
な研究を行っているかという点にあった場合には、『教
育』カテゴリに分類したいと考えると思われる。
【0072】さて、自動分類により決定されたカテゴリ
『事件』がユーザの意図に反するため、分類結果表示部
において図11に示すようにカテゴリ一覧を表示し、
『事件』カテゴリを指定して、そこに分類された文書群
を表示させ、その中の当該文書を指定して、その正しい
分類先として『教育』と『事件』の両方を指定する(ス
テップS401)。分類先を複数個指定する場合には、
各々に対する重み付けをユーザの判断で指定することが
できる。ここでは説明の簡素化のために、図11に示す
ように、共に1.0と指定する。分類フェーズと同じよ
うに、文書中から有効語が抽出される(ステップS40
2)。本実施の形態においては、各有効語の有効語ベク
トルの値は、ユーザにより指定されたカテゴリに関して
は、それへの帰属度が0.5ポイント増加され、指定さ
れなかったカテゴリに関しては、帰属度が0.5ポイン
ト減少されるものとする。
【0073】従って、図12に示すように、有効語「火
災」の『教育』カテゴリへの帰属度は1.0ポイントか
ら1.5ポイントに増加し、『事件』カテゴリへの帰属
度は4.5ポイントから5.0ポイントに増加する。反
対に、『経済』カテゴリへの帰属度は1.0ポイントか
ら0.5ポイントに、『文化』カテゴリに対しては0.
5ポイントから0ポイントに減少する。同様に、有効語
「大学」の『教育』カテゴリへの帰属度は5.0ポイン
トから5.5ポイントに増加し、『事件』カテゴリへの
帰属度は1.0ポイントから1.5ポイントに増加し、
『文化』カテゴリは1.0ポイントから0.5ポイント
に減少し、『経済』カテゴリは0.5ポイントから0ポ
イントに減少する(ステップS403〜ステップS40
5)。
【0074】本実施の形態に係る文書分類装置は、以上
のようなトレーニングにより、関連する有効語の重み
(各カテゴリへの帰属度)を再計算し、それを学習して
次回以降の分類に反映させる。
【0075】該文書に対するトレーニングフェーズは以
上で終了するが、ここで新たな文書として、例えば、
『**市**町の大学教授宅で深夜火災が発生し、消防
士一人が負傷した。』を自動分類させたとする。有効語
辞書を参照して、この文書中に現れる有効語を全て検索
し、「大学」、「教授」、「火災」、「消防士」、「負
傷」を得るので、この文書の文書ベクトルとして、図1
3に示す値が得られる。『事件』カテゴリへの帰属度が
3.1ポイント、また、『教育』カテゴリへの帰属度が
2.9ポイントであり、帰属度が最も高い『事件』カテ
ゴリに分類される。
【0076】ところが、若しユーザが前の文書の分類結
果に対して、正しいカテゴリを『教育』のみ指定してい
たとすると、トレーニングによる有効語ベクトルは図1
4に示すようになり、この文書に対して適当ではない
『教育』カテゴリに分類してしまう。
【0077】このように正しい分類先を1個しか選択で
きない場合、そのカテゴリを特徴付ける極端な方向に文
書ベクトルが引っ張られてしまい、新たな文書の分類に
際して悪い影響が出ることがある。
【0078】(他の実施の形態)上述した第1実施の形
態では、トレーニングフェーズにおいて誤分類された文
書の正しいカテゴリを複数個指定する場合に、各カテゴ
リに対する重み付けを考慮しなかったが、ユーザの判断
により重み付けを行うこともできる。上述した第1実施
の形態での元文書の例において、『教育』カテゴリと
『事件』カテゴリとの重みの比率を2対1としたとする
と、各有効語の『教育』カテゴリへの帰属度は1.0*
2/3=0.67ポイント増加し、『事件』カテゴリへ
の帰属度は1.0*1/3=0.33ポイント増加する
ことになる。
【0079】尚、本発明は、複数の機器(例えば、ホス
トコンピュータ、インターフェース機器、リーダー、プ
リンタ等)から構成されるシステムに適用しても、1つ
の機器からなる装置(例えば、複写機、ファクシミリ装
置等)に適用してもよい。
【0080】また、本発明の目的は、上記実施の形態の
機能を実現するソフトウェアのプログラムコードを記録
した記憶媒体を、システム或いは装置に供給し、そのシ
ステム或いは装置のコンピュータ(またはCPUやMP
U等)が記憶媒体に格納されたプログラムコードを読み
出して実行することによっても達成されることは言うま
でもない。
【0081】この場合、記憶媒体から読み出されたプロ
グラムコード自体が前述した実施の形態の機能を実現す
ることになり、そのプログラムコードを記憶した記憶媒
体は本発明を構成することになる。
【0082】また、プログラムコードを供給するための
記憶媒体としては、例えば、フロッピー(登録商標)デ
ィスク、ハードディスク、光磁気ディスク、CD−RO
M、CD−R、CD−RW、DVD−ROM、DVD−
RAM、DVD−RW、DVD+RW、磁気テープ、不
揮発性のメモリカード、ROM等を用いることができ
る。
【0083】また、コンピュータが読み出したプログラ
ムコードを実行することにより、上記実施の形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼動しているOS(オペレ
ーティングシステム)等が実際の処理の一部または全部
を行い、その処理によって前述した実施の形態の機能が
実現される場合も含まれることは言うまでもない。
【0084】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPU等が実際の処理の一部または全部を行い、そ
の処理によって前述した実施の形態の機能が実現される
場合も含まれることは言うまでもない。
【0085】
【発明の効果】従来は、自動分類により決定されたカテ
ゴリがユーザの意図と異なる場合に、その文書にふさわ
しいカテゴリをただ1個しか指定できなかったため、文
書の内容が複数のカテゴリにまたがる場合や曖昧な場合
に、正しいカテゴリを1つに決められないことが発生し
たり、また、その文書に含まれる有効語の誤分類とされ
たカテゴリへの帰属度が減少するため、そのカテゴリに
正しく分類されていた他の文書が、この副作用により他
のカテゴリに分類されてしまうといった問題があった。
【0086】例えば、各実施の形態で説明した例におい
て、ユーザによる正しいカテゴリ指定が『教育』カテゴ
リ1個しか指定できなかった場合、各有効語の有効語ベ
クトルは図14に示すような変更を受ける。『事件』カ
テゴリへの帰属度を見ると、有効語「火災」は3.5ポ
イントから3.0ポイントに減少し、有効語「大学」は
1.0ポイントから0.5ポイントに減少する。前と同
様に、例えば、『**市**町の大学教授宅で深夜火災
が発生し、消防士一人が負傷した。』を自動分類したと
すると、この文書の文書ベクトルとして図15に示す値
が得られ、『教育』カテゴリへの帰属度が2.9ポイン
トとなって、『事件』カテゴリへの帰属度2.5ポイン
トを上回り、『教育』カテゴリに分類されてしまう。
【0087】これに対して、本発明によれば、文書の分
類システムにおいて誤分類された文書を、ユーザが手作
業で意図したカテゴリ(正解カテゴリ)へと移動してシ
ステムに学習させる、所謂分類結果のトレーニングにお
いて、複数個の正解カテゴリを、それぞれ重み付きで指
定できるようにしたので、システムの学習精度を高める
ことができる。従って、正しい分類先を1個しか選択で
きない場合に、そのカテゴリを特徴付ける極端な方向に
文書ベクトルが引っ張られてしまうことに起因する、新
たな文書の分類に際して悪い影響が出ることを避け、副
作用のない学習を行わせることが可能である。
【図面の簡単な説明】
【図1】本発明の第1実施の形態に係る文書分類装置の
全体構成を示すブロック図である。
【図2】学習フェーズの処理手順を示すフローチャート
である。
【図3】本発明の第1実施の形態に係る文書分類装置に
おける分類フェーズの処理手順を示すフローチャートで
ある。
【図4】本発明の第1実施の形態に係る文書分類装置に
おけるトレーニングフェーズの処理手順を示すフローチ
ャートである。
【図5】本発明の第1実施の形態に係る文書分類装置に
おける文書内重要度の学習アルゴリズムを示すフローチ
ャートである。
【図6】本発明の第1実施の形態に係る文書分類装置に
おける分類対象文書の一例を示す図である。
【図7】本発明の第1実施の形態に係る文書分類装置に
おける評価項目テーブルを示す図である。
【図8】本発明の第1実施の形態に係る文書分類装置に
おける属性テーブルを示す図である。
【図9】本発明の第1実施の形態に係る文書分類装置に
おけるトレーニング前の有効語ベクトルの内容を示す図
である。
【図10】本発明の第1実施の形態に係る文書分類装置
におけるトレーニング前の文書ベクトルの内容及び分類
結果を示す図である。
【図11】本発明の第1実施の形態に係る文書分類装置
における分類結果表示手段での表示例及び正解カテゴリ
を指定する画面の一例を示す図である。
【図12】本発明の第1実施の形態に係る文書分類装置
におけるトレーニング後の有効語ベクトルの内容を示す
図である。
【図13】本発明の第1実施の形態に係る文書分類装置
におけるトレーニング後の文書ベクトルの内容及び分類
結果を示す図である。
【図14】従来の文書分類装置によりトレーニングを行
った後の有効語ベクトルの内容を示す図である。
【図15】従来の文書分類装置によりトレーニングを行
った後の文書ベクトルの内容及び分類結果を示す図であ
る。
【符号の説明】
101 学習用文書データベース 102 分類対象文書保持部 103 有効語抽出手段 104 有効語辞書 105 有効語数計算部 106 有効語数保持部 107 共起頻度計算手段 108 共起頻度保持部 109 有効語ベクトル計算手段 110 有効語ベクトル保持部 111 文書ベクトル計算手段 112 文書ベクトル保持部 113 フォルダベクトル計算手段 114 フォルダベクトル保持部 115 カテゴリ推定手段 116 分類結果保持部 117 分類結果表示手段 118 評価項目テーブル 119 学習手段 120 正解カテゴリ指定手段

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 分類対象文書を有限個の単語を軸とする
    ベクトルで表現して、与えられたいずれかのカデゴリに
    分類されるかを決定する文書分類方法において、 複数の文書を前記カテゴリに予め分けて保存した学習用
    文書データベースに保存された学習用文書から入力され
    た文書を分類するために有効な単語を有効語として抽出
    する有効語抽出ステップと、 前記有効語抽出ステップにより抽出された有効語と該有
    効語の各カテゴリへの帰属度とを有効語辞書に保持する
    有効語保持ステップと、 文書内容に対する前記有効語の重要度を評価する評価項
    目別に該重要度の値を評価項目テーブルに記述する評価
    項目記述ステップと、 前記有効語の数を基に各有効語の組の共起頻度を求める
    共起頻度計算ステップと、 前記共起頻度計算ステップにより求められた前記共起頻
    度を参照して前記各有効語の有効語ベクトルを求める有
    効語ベクトル計算ステップと、 前記学習用文書と前記分類対象文書とのそれぞれについ
    て前記有効語ベクトル計算ステップにより求められた前
    記有効語ベクトル及び前記評価項目テーブル内の重要度
    の値を参照して文書ベクトルを求める文書ベクトル計算
    ステップと、 前記学習用文書について求められた前記文書ベクトルを
    用いて各カテゴリのフォルダベクトルを求めるフォルダ
    ベクトル計算ステップと、 前記分類対象文書について求められた前記文書ベクトル
    と前記フォルダベクトル計算ステップにより求められた
    前記各カテゴリのフォルダベクトルとを比較し且つその
    比較結果に応じて前記分類対象文書が属するカテゴリを
    推定するカテゴリ推定ステップと、 前記カテゴリ推定ステップによる推定結果をユーザに表
    示する分類結果表示ステップと、 前記カテゴリ推定ステップによる推定結果がユーザの意
    図に反する場合に前記評価項目テーブル内の重要度の値
    を修正して学習する学習ステップと、 前記評価項目テーブル内の重要度の値を修正するために
    前記カテゴリ推定ステップにより推定したカテゴリの代
    わりにユーザが複数個の適当なカテゴリを指定する正解
    カテゴリ指定ステップとを有することを特徴とする文書
    分類方法。
  2. 【請求項2】 前記分類結果表示ステップにおいてユー
    ザの意図と異なる分類がなされた文書アイコンを複数個
    の適当なカテゴリアイコン上にドラッグすることによ
    り、前記学習ステップが自動的に学習するように制御す
    る制御ステップを有することを特徴とする請求項1に記
    載の文書分類方法。
  3. 【請求項3】 前記正解カテゴリ指定ステップにおいて
    複数個の適当なカテゴリを指定する際に、それぞれに対
    するユーザの重要度に応じて重み付けを行うように制御
    する制御ステップを有することを特徴とする請求項1に
    記載の文書分類方法。
  4. 【請求項4】 前記正解カテゴリ指定ステップにおいて
    カテゴリを指定する際に、適当なカテゴリが存在しない
    とユーザが考えた場合には新たなカテゴリを設けること
    ができ、新たなカテゴリが作成されたら既に既存のカテ
    ゴリ群に分類されている各文書の中で新たなカテゴリに
    分類した方が適当であると思われる文書を自動的に再分
    類させるように制御する制御ステップを有することを特
    徴とする請求項1に記載の文書分類方法。
  5. 【請求項5】 前記制御ステップは、新たなカテゴリに
    再分類された文書が存在する場合に、その旨をユーザに
    通知してトレーニングを促すように制御することを特徴
    とする請求項4に記載の文書分類方法。
  6. 【請求項6】 前記制御ステップは、新たなカテゴリを
    ユーザが削除した場合に、そのカテゴリに分類された文
    書のうち、カテゴリ作成前から存在し且つ他のカテゴリ
    に分類されていた文書については元のカテゴリに戻し、
    再分類されたものでない文書については再び文書ベクト
    ルを計算して、その時点で最も適当なカテゴリに振り分
    けるように制御することを特徴とする請求項4に記載の
    文書分類方法。
  7. 【請求項7】 分類対象文書を有限個の単語を軸とする
    ベクトルで表現して、与えられたいずれかのカデゴリに
    分類されるかを決定する文書分類装置において、 複数の文書を前記カテゴリに予め分けて保存した学習用
    文書データベースに保存された学習用文書から入力され
    た文書を分類するために有効な単語を有効語として抽出
    する有効語抽出手段と、 前記有効語抽出手段により抽出された有効語と該有効語
    の各カテゴリへの帰属度とを有効語辞書に保持する有効
    語保持手段と、 文書内容に対する前記有効語の重要度を評価する評価項
    目別に該重要度の値を評価項目テーブルに記述する評価
    項目記述手段と、 前記有効語の数を基に各有効語の組の共起頻度を求める
    共起頻度計算手段と、 前記共起頻度計算手段により求められた前記共起頻度を
    参照して前記各有効語の有効語ベクトルを求める有効語
    ベクトル計算手段と、 前記学習用文書と前記分類対象文書とのそれぞれについ
    て前記有効語ベクトル計算手段により求められた前記有
    効語ベクトル及び前記評価項目テーブル内の重要度の値
    を参照して文書ベクトルを求める文書ベクトル計算手段
    と、 前記学習用文書について求められた前記文書ベクトルを
    用いて各カテゴリのフォルダベクトルを求めるフォルダ
    ベクトル計算手段と、 前記分類対象文書について求められた前記文書ベクトル
    と前記フォルダベクトル計算手段により求められた前記
    各カテゴリのフォルダベクトルとを比較し且つその比較
    結果に応じて前記分類対象文書が属するカテゴリを推定
    するカテゴリ推定手段と、 前記カテゴリ推定手段による推定結果をユーザに表示す
    る分類結果表示手段と、 前記カテゴリ推定手段による推定結果がユーザの意図に
    反する場合に前記評価項目テーブル内の重要度の値を修
    正して学習する学習手段と、 前記評価項目テーブル内の重要度の値を修正するために
    前記カテゴリ推定手段により推定したカテゴリの代わり
    にユーザが複数個の適当なカテゴリを指定する正解カテ
    ゴリ指定手段とを有することを特徴とする文書分類装
    置。
  8. 【請求項8】 前記分類結果表示手段においてユーザの
    意図と異なる分類がなされた文書アイコンを複数個の適
    当なカテゴリアイコン上にドラッグすることにより、前
    記学習ステップが自動的に学習するように制御する制御
    手段を有することを特徴とする請求項7に記載の文書分
    類装置。
  9. 【請求項9】 前記正解カテゴリ指定手段において複数
    個の適当なカテゴリを指定する際に、それぞれに対する
    ユーザの重要度に応じて重み付けを行うように制御する
    制御手段を有することを特徴とする請求項7に記載の文
    書分類装置。
  10. 【請求項10】 前記正解カテゴリ指定手段においてカ
    テゴリを指定する際に、適当なカテゴリが存在しないと
    ユーザが考えた場合には新たなカテゴリを設けることが
    でき、新たなカテゴリが作成されたら既に既存のカテゴ
    リ群に分類されている各文書の中で新たなカテゴリに分
    類した方が適当であると思われる文書を自動的に再分類
    させるように制御する制御手段を有することを特徴とす
    る請求項7に記載の文書分類装置。
  11. 【請求項11】 前記制御手段は、新たなカテゴリに再
    分類された文書が存在する場合に、その旨をユーザに通
    知してトレーニングを促すように制御することを特徴と
    する請求項10に記載の文書分類装置。
  12. 【請求項12】 前記制御手段は、新たなカテゴリをユ
    ーザが削除した場合に、そのカテゴリに分類された文書
    のうち、カテゴリ作成前から存在し且つ他のカテゴリに
    分類されていた文書については元のカテゴリに戻し、再
    分類されたものでない文書については再び文書ベクトル
    を計算して、その時点で最も適当なカテゴリに振り分け
    るように制御することを特徴とする請求項10に記載の
    文書分類装置。
  13. 【請求項13】 分類対象文書を有限個の単語を軸とす
    るベクトルで表現して、与えられたいずれかのカデゴリ
    に分類されるかを決定する文書分類装置を制御するため
    のコンピュータ読み取り可能なプログラムであって、 複数の文書を前記カテゴリに予め分けて保存した学習用
    文書データベースに保存された学習用文書から入力され
    た文書を分類するために有効な単語を有効語として抽出
    する有効語抽出ステップと、 前記有効語抽出ステップにより抽出された有効語と該有
    効語の各カテゴリへの帰属度とを有効語辞書に保持する
    有効語保持ステップと、 文書内容に対する前記有効語の重要度を評価する評価項
    目別に該重要度の値を評価項目テーブルに記述する評価
    項目記述ステップと、 前記有効語の数を基に各有効語の組の共起頻度を求める
    共起頻度計算ステップと、 前記共起頻度計算ステップにより求められた前記共起頻
    度を参照して前記各有効語の有効語ベクトルを求める有
    効語ベクトル計算ステップと、 前記学習用文書と前記分類対象文書とのそれぞれについ
    て前記有効語ベクトル計算ステップにより求められた前
    記有効語ベクトル及び前記評価項目テーブル内の重要度
    の値を参照して文書ベクトルを求める文書ベクトル計算
    ステップと、 前記学習用文書について求められた前記文書ベクトルを
    用いて各カテゴリのフォルダベクトルを求めるフォルダ
    ベクトル計算ステップと、前記分類対象文書について求
    められた前記文書ベクトルと前記フォルダベクトル計算
    ステップにより求められた前記各カテゴリのフォルダベ
    クトルとを比較し且つその比較結果に応じて前記分類対
    象文書が属するカテゴリを推定するカテゴリ推定ステッ
    プと、 前記カテゴリ推定ステップによる推定結果をユーザに表
    示する分類結果表示ステップと、 前記カテゴリ推定ステップによる推定結果がユーザの意
    図に反する場合に前記評価項目テーブル内の重要度の値
    を修正して学習する学習ステップと、 前記評価項目テーブル内の重要度の値を修正するために
    前記カテゴリ推定ステップにより推定したカテゴリの代
    わりにユーザが複数個の適当なカテゴリを指定する正解
    カテゴリ指定ステップとをコンピュータに実行させるた
    めのプログラムコードから成ることを特徴とするプログ
    ラム。
  14. 【請求項14】 前記分類結果表示ステップにおいてユ
    ーザの意図と異なる分類がなされた文書アイコンを複数
    個の適当なカテゴリアイコン上にドラッグすることによ
    り、前記学習ステップが自動的に学習するように制御す
    る制御ステップをコンピュータに実行させるためのプロ
    グラムコードから成ることを特徴とする請求項13に記
    載のプログラム。
  15. 【請求項15】 前記正解カテゴリ指定ステップにおい
    て複数個の適当なカテゴリを指定する際に、それぞれに
    対するユーザの重要度に応じて重み付けを行うように制
    御する制御ステップをコンピュータに実行させるための
    プログラムコードから成ることを特徴とする請求項13
    に記載のプログラム。
  16. 【請求項16】 前記正解カテゴリ指定ステップにおい
    てカテゴリを指定する際に、適当なカテゴリが存在しな
    いとユーザが考えた場合には新たなカテゴリを設けるこ
    とができ、新たなカテゴリが作成されたら既に既存のカ
    テゴリ群に分類されている各文書の中で新たなカテゴリ
    に分類した方が適当であると思われる文書を自動的に再
    分類させるように制御する制御ステップをコンピュータ
    に実行させるためのプログラムコードから成ることを特
    徴とする請求項13に記載のプログラム。
  17. 【請求項17】 前記制御ステップは、新たなカテゴリ
    に再分類された文書が存在する場合に、その旨をユーザ
    に通知してトレーニングを促すように制御することを特
    徴とする請求項16に記載のプログラム。
  18. 【請求項18】 前記制御ステップは、新たなカテゴリ
    をユーザが削除した場合に、そのカテゴリに分類された
    文書のうち、カテゴリ作成前から存在し且つ他のカテゴ
    リに分類されていた文書については元のカテゴリに戻
    し、再分類されたものでない文書については再び文書ベ
    クトルを計算して、その時点で最も適当なカテゴリに振
    り分けるように制御することを特徴とする請求項16に
    記載のプログラム。
  19. 【請求項19】 請求項13〜18のいずれかに記載の
    プログラムを格納したことを特徴とする記憶媒体。
JP2001281613A 2001-09-17 2001-09-17 文書分類方法、文書分類装置、プログラム及び記録媒体 Pending JP2003091542A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001281613A JP2003091542A (ja) 2001-09-17 2001-09-17 文書分類方法、文書分類装置、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001281613A JP2003091542A (ja) 2001-09-17 2001-09-17 文書分類方法、文書分類装置、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2003091542A true JP2003091542A (ja) 2003-03-28

Family

ID=19105406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001281613A Pending JP2003091542A (ja) 2001-09-17 2001-09-17 文書分類方法、文書分類装置、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2003091542A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2008225582A (ja) * 2007-03-08 2008-09-25 Mazda Motor Corp テキスト分類装置及びプログラム
JP2014056331A (ja) * 2012-09-11 2014-03-27 Hitachi Advanced Systems Corp 文書分類方法、文書分類プログラム及び文書分類装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP4615279B2 (ja) * 2004-10-12 2011-01-19 ヤフー株式会社 文献分類認識装置、その方法、文献分類装置、および、それらのプログラム
JP2008225582A (ja) * 2007-03-08 2008-09-25 Mazda Motor Corp テキスト分類装置及びプログラム
JP2014056331A (ja) * 2012-09-11 2014-03-27 Hitachi Advanced Systems Corp 文書分類方法、文書分類プログラム及び文書分類装置

Similar Documents

Publication Publication Date Title
JP6629678B2 (ja) 機械学習装置
Breiman Statistical modeling: The two cultures (with comments and a rejoinder by the author)
Paisley et al. Bayesian Nonnegative Matrix Factorization with Stochastic Variational Inference.
US20150120624A1 (en) Apparatus and method for information processing
EP2428926A2 (en) Rating prediction device, rating prediction method, and program
CN111328407A (zh) 用于基于学习效率提供私人定制教育内容的机械学习方法、装置及计算机程序
US20090111085A1 (en) Personalized textbook suggestion based on test scores and link structures of covered topics
US20050036712A1 (en) Image retrieving apparatus and image retrieving program
Van den Bogaerd et al. Applying machine learning in accounting research
US8204889B2 (en) System, method, and computer-readable medium for seeking representative images in image set
KR20180077847A (ko) 문장 검증 장치 및 방법
Faliszewski et al. Multiwinner rules with variable number of winners
Pargent et al. Predictive modeling with psychological panel data
Lee et al. Fair selective classification via sufficiency
CN112784054A (zh) 概念图处理装置、概念图处理方法和计算机可读介质
CN110377692B (zh) 一种训练机器人模仿学习人工客服方法及装置
US20200251008A1 (en) Similarity-based question recommendation method and server
JP2017049975A (ja) スライド要約装置、学習支援システム、スライド選択方法及びプログラム
CN110765278B (zh) 一种查找相似习题的方法、计算机设备及存储介质
JP2008524675A (ja) 判別器のための特徴削減方法
JP2003091542A (ja) 文書分類方法、文書分類装置、プログラム及び記録媒体
JP6899973B2 (ja) 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
US20210303599A1 (en) Analysis apparatus, analysis method and program
Lenin et al. Learning from Imbalanced Educational Data Using Ensemble Machine Learning Algorithms.
US20220108071A1 (en) Information processing device, information processing system, and non-transitory computer readable medium

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060413

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626