JP2002073643A - 文書分類システム - Google Patents

文書分類システム

Info

Publication number
JP2002073643A
JP2002073643A JP2000266291A JP2000266291A JP2002073643A JP 2002073643 A JP2002073643 A JP 2002073643A JP 2000266291 A JP2000266291 A JP 2000266291A JP 2000266291 A JP2000266291 A JP 2000266291A JP 2002073643 A JP2002073643 A JP 2002073643A
Authority
JP
Japan
Prior art keywords
document
registered
classification
reference count
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000266291A
Other languages
English (en)
Inventor
Akio Hirota
明雄 廣田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba System Development Co Ltd
Original Assignee
Toshiba Corp
Toshiba System Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba System Development Co Ltd filed Critical Toshiba Corp
Priority to JP2000266291A priority Critical patent/JP2002073643A/ja
Publication of JP2002073643A publication Critical patent/JP2002073643A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 外部記憶装置に登録されている各分野毎の登
録文書のうち、不要な登録文書を選択させて、削除さ
せ、分類対象となる文書を分野別に分類する際の文書分
類精度、処理速度を飛躍的に向上させる。 【解決手段】 登録文書の削除処理を行うとき、参照回
数カウント部18によって各登録文書が参照された回数
をカウントさせ、このカウント結果に基づき、削除文書
選択部19によって、参照回数が参照回数条件設定値に
達していない登録文書を不要な登録文書として選択させ
るとともに、登録文書削除部20によって、外部記憶装
置5に格納されている各登録文書の中から、不要な登録
文書を削除させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を分野毎に分
類する文書分類システムに係わり、特に分類基準となる
登録文書の更新を容易にして、文書を分類する際の精
度、処理速度が低下しないようにした文書分類システム
に関する。
【0002】
【従来の技術】近年、電子化された文書データが大量に
流通するようになり、その文書データがどのような分野
に属するかを自動的に分類する技術も、いくつか実用化
されている。
【0003】一般的な技術としては、データベースに色
々な分野を代表する文書を複数、登録しておき、ベクト
ル空間法などの手法を用いて、入力された文書と、登録
されている文書との間の類似度を求め、類似していた文
書が属する分野を参考にして、入力された文書が属する
と思われる分野を特定するというものである。
【0004】この際、このような文書分類システムで
は、時間が経つにしたがって、分野を代表するような新
しい単語が使用されるようになったり、逆にあまり使わ
れなくなる単語があったりすることから、いつまでも同
じデータベースを利用していると、分類精度が低下して
しまう。
【0005】このため、自動分類したものに対し、その
ままの分野を付与しないで、自動分類された結果が正し
いかどうかを人手によって、確認した後、文書に分野を
付与している。
【0006】
【発明が解決しようとする課題】ところで、このような
文書分類システムでは、技術の進歩により作られる最先
端の用語や流行語などが日々、変化し、これに伴い各分
野で良く使用される用語も日々、変化することから、あ
る程度の時間が経過する毎に、文書分類用のデータベー
スに、良く使用される新しい文書を登録しなければなら
ない。
【0007】しかしながら、新しい文書の登録数を増や
し続けると、データベースが肥大化し、分類速度の低下
やリソース(メモリや外部記憶装置などのデバイス)不
足につながる。
【0008】そこで、このような文書分類システムで
は、オペレータなどによって、文書分類用のデータベー
スを更新させる際、データベースに登録されている各文
書のうち、削除すると精度が低下すると思われる文書を
選択させて、これを削除させるとともに、データベース
に登録されていない、新たな文書のうち、登録すると文
書分類精度を向上させると思われる文書を選択させて、
これをデータベースに登録させるという方法で、データ
ベースの内容を更新させている。
【0009】このため、オペレータの得意分野、不得意
分野などによって、データベースの内容に偏りが生じ、
文書分類精度が低下してしまうことがあった。
【0010】また、各文書が属する分野と直接的に関係
が無く、分類作業に効果的でない文書がデータベースに
登録されてしまい、入力された文書を分野毎に分類する
際、これらの文書との類似度が計算され、その分だけ分
類精度、処理速度などが低下してしまうことも多かっ
た。
【0011】本発明は上記の事情に鑑み、請求項1で
は、データベースに登録されている各文書の使用頻度が
指定された頻度に達しているかどうかを判定し、この判
定結果に基づき、削除対象となる文書を選択させること
ができ、これによって文書分類精度、処理速度を飛躍的
に向上させることができる文書分類システムを提供する
ことを目的としている。
【0012】また、請求項2では、システムの使用環境
に応じて、各登録文書を多めに削除させたり、少なめに
削除させたりして、分類処理時間などを調整させること
ができる文書分類システムを提供することを目的として
いる。
【0013】
【課題を解決するための手段】上記の目的を達成するた
めに本発明は、請求項1では、分類対象となる分類文書
の内容と、分類基準となる各登録文書の内容とを比較し
て、分類文書の分野を特定する文書分類システムにおい
て、分類書類の分野を特定したときに得られた情報に基
づき、分類処理に対する各登録文書の参照回数カウント
値を求める参照回数カウント部と、各登録文書の削除条
件となる参照回数条件設定値を記憶する参照回数条件設
定格納バッファ部と、不要登録文書削除指示が入力され
たとき、前記参照回数条件設定格納バッファ部に記憶さ
れている参照回数条件設定値と前記参照回数カウント部
で得られた各登録文書の参照回数カウント値とを比較
し、前記参照回数条件設定値に達していない参照回数カ
ウント値の登録文書を削除する削除文書選択/登録文書
削除部とを備えたことを特徴としている。
【0014】また、請求項2では、請求項1に記載の文
書分類システムにおいて、前記参照回数条件設定部に記
憶される参照回数条件設定値は、システムを実際に稼動
させて得られた“0”以外の値であることを特徴として
いる。
【0015】上記の構成により、請求項1では、分類対
象となる分類文書の内容と、分類基準となる各登録文書
の内容とを比較して、分類文書の分野を特定する文書分
類システムにおいて、参照回数条件設定格納バッファ部
によって、各登録文書の削除条件となる参照回数条件設
定値を記憶させ、不要登録文書削除指示が入力されたと
き、分類書類の分野を特定したときに得られた情報に基
づき、参照回数カウント部によって、分類処理に対する
各登録文書の参照回数をカウントさせて、参照回数カウ
ント値を求めさせるとともに、削除文書選択/登録文書
削除部によって、前記参照回数条件設定格納バッファ部
に記憶されている参照回数条件設定値と前記参照回数カ
ウント部で得られた各登録文書の参照回数カウント値と
を比較させ、前記参照回数条件設定値に達していない参
照回数カウント値の登録文書を削除させることにより、
データベースに登録されている各文書の使用頻度が指定
された頻度に達しているかどうかを判定させ、この判定
結果に基づき、削除対象となる文書を選択させて、文書
分類精度、処理速度を飛躍的に向上させる。
【0016】また、請求項2では、請求項1に記載の文
書分類システムにおいて、前記参照回数条件設定部に記
憶される参照回数条件設定値として、システムを実際に
稼動させて得られた“0”以外の値を使用させることに
より、システムの使用環境に応じて、各登録文書を多め
に削除させたり、少なめに削除させたりして、分類処理
時間などを調整させる。
【0017】
【発明の実施の形態】《実施形態の構成》図1は本発明
による文書分類システムの一実施形態を示すブロック図
である。
【0018】この図に示す文書分類システム1は、オペ
レータによって操作されたとき、操作内容に応じた各種
指令、各種データを生成する入力装置2と、各種の情報
処理を行うCPU、このCPUの作業エリアなどとして
使用するメモリなどを有し、予め登録されているプログ
ラム、入力装置2から出力される各種指令、各種データ
に基づき、分類対象となっている文書(以下、これを分
類文書と称する)の取込み処理、分類基準となる文書
(以下、これを登録文書と称する)の取込み処理、分類
処理、削除対象となる登録文書を判定する際に必要な参
照回数条件設定値の取込み処理、登録文書のうち、削除
対象となる登録文書の判定処理などを行う制御装置3
と、この制御装置3から出力される表示信号を取り込ん
で、文書分類処理内容、削除対象文書内容などを画面表
示する表示装置4と、分類対象となる分類文書、分類基
準となる登録文書などの記録媒体の内容を読み取るリー
ドライト装置、類似度情報、各種設定値の格納エリアな
どとして使用される外部記憶装置5とを備えており、分
類対象となる分類文書が外部記憶装置5にセットされた
状態で、入力装置2から分類開始指示が入力されたと
き、制御装置3によって、外部記憶装置5にセットされ
ている分類文書のうち、分類開始指示で指定された分類
文書を取り込んで、分類処理を行い、また削除開始指示
が入力されたとき、分類文書を分類処理で使用した各登
録文書の使用回数をカウントするとともに、参照回数条
件設定値で指定された参照回数に達していない登録文書
を選択し、これを削除する。
【0019】入力部装置2は、複数のキーなどを有する
キーボード、ポインティングデバイスなどとして使用さ
れるマウス、画像入力機器として使用されるスキャナ、
音声入力機器として使用されるマイクなどを備えてお
り、オペレータによって操作されたとき、操作内容に応
じた各種指令、各種データを生成して、制御装置3に供
給する。
【0020】制御装置3は、図2に示す如く入力装置2
から出力される各種指令、各種データに応じて、分類文
書の取込み処理、登録文書の取込み処理、分類処理、参
照回数条件設定値を取り込む処理、削除対象となる登録
文書の判定処理、登録文書の削除処理などを行うプログ
ラム部6と、このプログラム部6で使用される参照回数
条件設定値、分類文書、登録文書、類似度、参照回数、
削除対象候補などの格納エリアとして使用されるバッフ
ァ部7とを備えており、入力装置2から出力される各種
指令、各種データに応じて、バッファ部7内に、削除対
象となる登録文書を判定する際に使用される参照回数条
件設定値の記憶エリアとなる参照回数条件設定格納バッ
ファ部22、分類文書の一時記憶エリアとなる分類文書
格納バッファ部8、登録文書の一時記憶エリアとなる登
録文書格納バッファ部9、類似度の一時記憶エリアとな
る類似度算出結果格納バッファ部10、参照回数カウン
ト値の一時格納エリアとなる参照回数カウンタ値格納バ
ッファ部11、削除対象候補と判定された登録文書に対
応した登録文書IDの一時格納エリアとなる削除候補格
納バッファ部12を形成するとともに、プログラム部6
内に初期化部13、参照回数条件設定部21、分類文書
入力部14、登録文書読み込み部15、類似度算出部1
6、分野特定部17、参照回数カウント部18、削除文
書選択部19、登録文書削除部20を形成して、分類文
書の取込み処理、登録文書の取込み処理、参照回数条件
設定値の取込み処理、分類処理、削除対象となる登録文
書の判定処理、登録文書の削除処理などを行う。
【0021】この場合、初期化部13は、分類文書に対
する分類処理を行うとき、バッファ部7内に形成された
参照回数条件設定格納バッファ部22、分類文書格納バ
ッファ部8、登録文書格納バッファ部9、類似度算出結
果格納バッファ部10、参照回数カウンタ値格納バッフ
ァ部11、削除候補格納バッファ部12などに格納され
ているデータをクリアし、また参照回数条件設定部21
は、入力装置2が操作されて“0”以外の値となる参照
回数条件設定値が入力されたとき、これを取り込んで参
照回数条件設定格納バッファ部22に格納し、また分類
文書入力部14は、外部記憶装置5に記憶されている各
分類文書のうち、入力装置2から出力される分類対象文
書名などに対応した分類文書を読み出すとともに、この
分類文書に分類文書IDを付加して、文書格納バッファ
部8に格納する。
【0022】また、登録分類文書読み込み部15は、分
類文書に対する分類処理を行うとき、外部記憶装置5に
登録されている各登録文書を読み出し、これを登録文書
格納バッファ部9に格納し、また類似度算出部16は、
分類文書に対する分類処理を行うとき、分類文書格納バ
ッファ部8に格納されている分類文書と、登録文書格納
バッファ部9に格納されている各登録文書とを単語に分
割して、各単語の出現回数を成分とするベクトルを生成
するとともに、ベクトル空間法などの手法を用いて、分
類文書側の単語と、登録文書側の単語との類似度を算出
した後、分類文書IDと、登録文書IDと、類似度と、
登録文書が属する分野情報とを1組の情報として、類似
度算出結果格納バッファ部10に格納する。
【0023】また、分野特定部17は、分類文書に対す
る分類処理を行うとき、類似度算出結果格納バッファ部
10に格納されている、分類文書IDに対する各登録文
書の各分野別の類似度を加算して、各分野毎の類似度を
示すヒストグラムを作成するとともに、値が大きい順
に、各ヒストグラムを整理(ソート)して、これを分類
文書に対する分野特定結果として、表示装置4に表示さ
せ、また参照回数カウント部18は、登録文書の削除処
理を行うとき、類似度算出結果格納バッファ部10に格
納されている各登録文書IDの類似度などに基づき、分
類文書と比較された各登録文書毎の参照回数を加算し
て、各登録文書ID毎の参照回数カウント値を求め、こ
れを参照回数カウンタ値格納バッファ部11に格納す
る。
【0024】また、削除文書選択部19は、登録文書の
削除処理を行うとき、参照回数条件設定格納バッファ部
22に格納されている参照回数条件設定値と、参照回数
カウンタ値格納バッファ部11に格納されている各登録
文書ID毎の参照回数カウント値とを取り込むととも
に、参照回数条件設定値で指定された参照回数に達して
いない参照回数カウント値となっている登録文書の登録
文書IDを選択し、これを削除候補格納バッファ部12
に格納し、また登録文書削除部20は、登録文書の削除
処理を行うとき、外部記憶装置5に格納されている各登
録文書のうち、削除候補格納バッファ部12に格納され
ている登録文書IDに対応する登録文書を削除する。
【0025】また、表示装置4は、分類対象となる文
書、分類基準となる文書、分類内容などを表示するのに
充分な表示容量を持つCRT表示器、分類対象となる文
書、分類基準となる文書、分類内容などを表示するのに
充分な表示容量を持つLCD表示器などを備えており、
制御装置3から出力される表示信号を取り込んで、文書
分類処理内容、削除対象文書内容などを画面表示する。
【0026】外部記憶装置5は、分類対象となる文書、
分類基準となる文書、類似度情報、各種設定値などを記
憶するハードディスクドライブ、MOドライブ、DVD
−RAMドライブなどを備えており、制御装置3から書
き込み指令が出力されたとき、この書き込み指令ととも
に出力される類似度情報、各種設定値などを取り込ん
で、記憶し、また制御装置3から読み出し指令が出力さ
れたとき、この読み出し指令で指定された類似文書の内
容、登録文書の内容、類似度情報、各種設定値などを読
み出して、これを制御装置3に供給し、また制御装置3
から削除指令が出力されたとき、この削除指令で指定さ
れた登録文書などを削除する。
【0027】《実施形態の動作》次に、図3、図4に示
すフローチャート、図6〜図10に示す模式図を参照し
ながら、文書分類システム1の文書分類動作と、登録文
書の削除動作とを説明する。
【0028】<文書の分類動作>まず、図3のフローチ
ャートに示す如くオペレータによって、外部記憶装置5
に分類対象となる文書(分類文書)が格納されたMOデ
ィスケット、DVD−RAMディスケットなどがセット
された後(ステップST1)、入力装置2が操作され
て、分類開始指示が入力されると、制御装置3の初期化
部13によって、バッファ部7を構成する参照回数条件
設定格納バッファ部22、分類文書格納バッファ部8、
登録文書格納バッファ部9、類似度算出結果格納バッフ
ァ部10、参照回数カウンタ値格納バッファ部11、削
除候補格納バッファ部12などに格納されているデータ
がクリアされる(ステップST2)。
【0029】次いで、オペレータによって、入力装置2
が操作されて、削除対象となる参照回数条件設定値が入
力されると、制御装置3の参照回数条件設定部21によ
って、これが取り込まれ、図5に示す如く参照回数条件
設定格納バッファ部22に格納される(ステップST
3)。
【0030】この後、文書分類入力部14によって、外
部記憶装置5にセットされたMOディスケット、DVD
−RAMディスケットなどに格納されている各分類文書
のうち、分類開始指示を入力する際に指定された検索キ
ーワードに対応する各分類文書、例えば図6に示す如く
“この文書は、パソコンによって記述したものです。”
という分類文書などが読み出されるとともに、この分類
文書に分類文書ID(この例では、“1”)が付加され
て、分類文書格納バッファ部8に格納される(ステップ
ST4)。
【0031】次いで、登録文書読み込み部15によっ
て、外部記憶装置5内に予め登録されている各登録文書
の1つ、例えば図7に示す如く“1”という登録文書I
D、“印刷”という分野が割り当てられたされた“この
文書は、印刷について記述したものです。”という登録
文書、または“2”という登録文書ID、“テレビ”と
いう分野が割り当てられたされた“この文書は、テレビ
について記述したものです。”という登録文書などが読
み出され、これが登録文書バッファ部9に格納される
(ステップST5)。
【0032】この後、類似度算出部16によって、分類
文書格納バッファ部8に格納されている分類文書と、登
録文書格納バッファ部9に格納されている登録文書とが
単語に分割されて、各単語の出現回数を成分とするベク
トルが生成されるとともに、ベクトル空間法などの手法
が用いられて、分類文書側の単語と、登録文書側の単語
との類似度が算出されて、分類文書IDと、登録文書I
Dと、登録文書IDに対する分野情報と、登録文書ID
に対する類似度とが1組の情報として、類似度算出結果
格納バッファ部10に格納される(ステップST6)。
【0033】以下、外部記憶装置5内に登録されている
各登録文書のうち、未処理の登録文書が無くなるまで、
上述した登録文書の読み込み、格納処理、類似度判定処
理、類似度格納処理が繰り返されて、類似度算出結果格
納バッファ部10内に各登録文書ID毎に、分類文書I
D、登録文書IDに対する分野情報と、登録文書IDに
対する類似度とが格納される(ステップST5〜ST
7)。
【0034】これにより、類似度算出結果格納バッファ
部10内に、上述した類似度算出結果として、例えば図
8に示す如く“1”という分類文書IDと、“102
3”、“9924”、…という各登録文書IDと、“テ
レビ”、“パソコン”、…という各登録文書IDに対す
る分野情報と、“0.378”、“0.226”、…と
いう各登録文書IDに対する類似度とが格納される。
【0035】次いで、分野特定部17によって、類似度
算出結果格納バッファ部10に格納されている、分類文
書IDと対にされた類似度が各分野毎に加算されて、各
分野毎の類似度を示すヒストグラム、例えば図9に示す
如く“テレビ”という分野に対し、“1.782”とい
う類似度、“ビデオ”という分野に対し、“1.02
3”という類似度、…が算出されるとともに(ステップ
ST8)、各類似度が大きい順に、整理(ソート)さ
れ、この整理結果が分類文書に対する分野特定結果とし
て、外部記憶装置5の分類文書に付加されるとともに、
表示装置4に表示される(ステップST9)。
【0036】以下、外部記憶装置5内に登録されている
各分類文書のうち、未処理の分類文書が無くなるまで、
上述した分類文書の読み込み、格納処理、登録文書の読
み込み、格納処理、類似度判定処理、類似度格納処理、
分野特定処理、分野記憶処理、分野表示処理が繰り返さ
れて、これらの各分類文書に対する分野が特定され、こ
れが外部記憶装置5に記憶されるとともに、表示装置4
に表示される(ステップST4〜ST10)。
【0037】<登録文書の削除動作>また、図4のフロ
ーチャートに示す如くオペレータによって、入力装置2
が操作されて、外部記憶装置5に格納されている各登録
文書のうち、不要な登録文書を削除する指示(不要登録
文書削除指示)が入力されると、制御装置3の初期化部
13によって、参照回数条件設定格納バッファ部22に
格納されている参照回数条件設定値、類似度算出結果格
納バッファ部10に格納されている各分類文書ID、各
登録文書ID、類似度、分野情報などが保持されたま
ま、分類文書格納バッファ部8、登録文書格納バッファ
部9、参照回数カウンタ値格納バッファ部11、削除候
補格納バッファ部12などに格納されている各データが
クリアされる(ステップST11)。
【0038】この後、参照回数カウント部18によっ
て、類似度算出結果格納バッファ部10に格納されてい
る各登録文書IDの1つが選択され、分野特定部17に
よってヒストグラムが作成される際、この登録文書ID
に対応する登録文書が分類文書と何回、比較されたかが
判定されるとともに、この判定処理で得られた回数(参
照回数)が加算されて、この登録文書IDに対応する参
照回数カウント値が求められ、これが参照回数カウンタ
値格納バッファ部11に格納される(ステップST1
2)。
【0039】以下、類似度算出結果格納バッファ部10
内に格納されている各登録文書IDのうち、未処理の登
録文書が無くなるまで、参照回数カウント部18によっ
て、上述した参照回数カウンタ値算出処理が繰り返され
て、図10に示す如く参照回数カウンタ値格納バッファ
部11内に各登録文書IDに対する参照回数カウンタ値
が格納される(ステップST12、ST13)。
【0040】この後、削除文書選択部19によって、参
照回数条件設定格納バッファ部22に格納されている参
照回数条件設定値が読み出されるとともに、参照回数カ
ウンタ値格納バッファ部11に格納されている各登録文
書IDうち、1つ目の登録文書IDが選択されて、この
登録文書IDに対応する参照回数カウント値が読み出さ
れた後、この参照回数カウント値が参照回数条件設定
値、例えば“5回”以下という削除条件を満たしている
かどうかがチェックされ、この参照回数カウント値が削
除条件を満たしていれば、この参照回数カウンタ値に対
応する登録文書IDが削除候補格納バッファ部12に格
納される(ステップST14)。
【0041】次いで、登録文書削除部20によって、削
除候補格納バッファ部12に格納されている登録文書I
Dが選択されて、この登録文書IDに対応する登録文書
が削除対象に指定されて、外部記憶装置5に格納されて
いる各登録文書のうち、削除対象に指定された登録文書
が削除される(ステップST15)。
【0042】以下、参照回数カウンタ値格納バッファ部
11に格納されている各登録文書IDのうち、未処理の
登録文書IDが無くなるまで、削除文書選択部19によ
って、登録文書IDに対応する参照回数カウント値が削
除条件を満たしているかどうかが判定されるとともに、
この判定結果に基づき、登録文書削除部20によって、
外部記憶装置5に格納されている各登録文書のうち、削
除対象に指定された登録文書が削除される(ステップS
T14〜ST16)。
【0043】《実施形態の効果》このように、この実施
形態においては、登録文書の削除処理を行うとき、参照
回数カウント部18によって、各登録文書が参照された
回数を求め、これら各登録文書毎の参照回数に基づき、
削除文書選択部19によって、参照回数条件設定値に達
していない登録文書を選択し、これを削除対象とするよ
うにしているので、削除対象となる登録文書を決定する
際のアルゴリズムを簡素化することができ、これによっ
て登録文書の数が膨大なときでも、短い処理時間で、削
除対象となる登録文書を決定させることができる。
【0044】この際、参照回数条件設定値として、実際
に文書分類システム1を稼動させて得られた、“0”以
外の値を設定させるようにしているので、文書分類シス
テム1の使用環境に応じて、各登録文書を多めに削除さ
せたり、少なめに削除させたりして、分類処理時間など
を調整させることができる。
【0045】《他の実施形態》また、上述した実施形態
では、外部記憶装置5にセットされたMOディスケッ
ト、DVD−RAMディスケット内の分類文書を分類処
理するようにしているが、入力装置2から入力された文
書を分類文書として分類処理するようにしても良い。
【0046】また、上述した実施形態では、類似度算出
部16によって、分類文書と、登録文書とを比較して、
類似度を算出するとき、ベクトル空間法を使用するよう
にしているが、このようなベクトル空間法以外の方法、
例えば分類文書を構成する各単語と、登録文書を構成す
る各単語とを比較して、共通している単語の数に基づ
き、類似度を算出するという方法などを使用するように
しても良い。
【0047】また、上述した実施形態では、類似度算出
部16によって得られた各類似度をそのまま類似度算出
結果格納バッファ部10に格納するようにしているが、
これら各類似度のうち、一定の件数だけを類似度算出結
果格納バッファ部10に格納したり、一定の類似度以上
のものだけを類似度算出結果格納バッファ部10に格納
したりするようにしても良い。
【0048】また、上述した実施形態では、分野特定部
17によって、分類文書の分野を特定するとき、分類文
書に対する各分野毎の類似度を加算したヒストグラムを
作成し、このヒストグラムに基づき、分類文書の分野を
特定するようにしているが、このようなヒストグラムを
使用した分野特定法以外の方法、例えば類似度が高い登
録文書が属する分野を類似文書の分野とし、これをその
まま出力するようにしても良い。
【0049】
【発明の効果】以上説明したように本発明によれば、請
求項1の文書分類システムでは、データベースに登録さ
れている各文書の使用頻度が指定された頻度に達してい
るかどうかを判定し、この判定結果に基づき、削除対象
となる文書を選択させることができ、これによって文書
分類精度、処理速度を飛躍的に向上させることができ
る。
【0050】また、請求項2のの文書分類システムで
は、システムの使用環境に応じて、各登録文書を多めに
削除させたり、少なめに削除させたりして、分類処理時
間などを調整させることができる文書分類システムを提
供することを目的としている。
【図面の簡単な説明】
【図1】本発明による文書分類システムの一実施形態を
示すブロック図である。
【図2】図1に示す制御装置の詳細な構成例を示すブロ
ック図である。
【図3】図1に示す文書分類システムの文書分類動作例
を示すフローチャートである。
【図4】図1に示す文書分類システムの登録文書削除動
作例を示すフローチャートである。
【図5】図1に示す文書分類システムの参照回数条件設
定動作によって、参照回数条件設定格納バッファ部に書
き込まれる参照回数条件の一例を示す模式図である。
【図6】図1に示す文書分類システムの文書分類動作に
よって、分類文書格納バッファ部に書き込まれる分類文
書の一例を示す模式図である。
【図7】図1に示す文書分類システムの文書分類動作に
よって、登録文書格納バッファ部に書き込まれる登録文
書の一例を示す模式図である。
【図8】図1に示す文書分類システムの文書分類動作に
よって、類似度算出結果格納バッファ部に書き込まれる
情報の一例を示す模式図である。
【図9】図1に示す文書分類システムの文書分類動作に
よって、表示装置に表示される分類結果の一例を示す模
式図である。
【図10】図1に示す文書分類システムの登録文書削除
動作によって、参照回数カウンタ値格納バッファ部に書
き込まれる登録文書ID、参照回数カウンタ値の一例を
示す模式図である。
【符号の説明】
1:文書分類システム 2:入力装置 3:制御装置 4:表示装置 5:外部記憶装置 6:プログラム部 7:バッファ部 8:分類文書格納バッファ部 9:登録文書格納バッファ部 10:類似度算出結果格納バッファ部 11:参照回数カウンタ値格納バッファ部 12:削除候補格納バッファ部 13:初期化部 14:分類文書入力部 15:登録文書読み込み部 16:類似度算出部 17:分野特定部 18:参照回数カウント部 19:削除文書選択部(削除文書選択/登録文書削除
部) 20:登録文書削除部(削除文書選択/登録文書削除
部) 21:参照回数条件設定部 22:参照回数条件設定格納バッファ部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 NK02 NR02 NR12 PQ02 PR04 PR06 QM08 5B082 CA14 FA11 GC05

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 分類対象となる分類文書の内容と、分類
    基準となる各登録文書の内容とを比較して、分類文書の
    分野を特定する文書分類システムにおいて、 分類書類の分野を特定したときに得られた情報に基づ
    き、分類処理に対する各登録文書の参照回数カウント値
    を求める参照回数カウント部と、 各登録文書の削除条件となる参照回数条件設定値を記憶
    する参照回数条件設定格納バッファ部と、 不要登録文書削除指示が入力されたとき、前記参照回数
    条件設定格納バッファ部に記憶されている参照回数条件
    設定値と前記参照回数カウント部で得られた各登録文書
    の参照回数カウント値とを比較し、前記参照回数条件設
    定値に達していない参照回数カウント値の登録文書を削
    除する削除文書選択/登録文書削除部と、 を備えたことを特徴とする文書分類システム。
  2. 【請求項2】 請求項1に記載の文書分類システムにお
    いて、 前記参照回数条件設定部に記憶される参照回数条件設定
    値は、システムを実際に稼動させて得られた“0”以外
    の値である、 ことを特徴とする文書分類システム。
JP2000266291A 2000-09-01 2000-09-01 文書分類システム Pending JP2002073643A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000266291A JP2002073643A (ja) 2000-09-01 2000-09-01 文書分類システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000266291A JP2002073643A (ja) 2000-09-01 2000-09-01 文書分類システム

Publications (1)

Publication Number Publication Date
JP2002073643A true JP2002073643A (ja) 2002-03-12

Family

ID=18753400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000266291A Pending JP2002073643A (ja) 2000-09-01 2000-09-01 文書分類システム

Country Status (1)

Country Link
JP (1) JP2002073643A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
JP2019003524A (ja) * 2017-06-19 2019-01-10 富士通株式会社 抽出プログラム、抽出方法および抽出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法
JP2019003524A (ja) * 2017-06-19 2019-01-10 富士通株式会社 抽出プログラム、抽出方法および抽出装置

Similar Documents

Publication Publication Date Title
US7769771B2 (en) Searching a document using relevance feedback
US7130849B2 (en) Similarity-based search method by relevance feedback
US7392233B2 (en) Image searching system, image searching method, and a recording medium storing an image searching program
US20050234896A1 (en) Image retrieving apparatus, image retrieving method and image retrieving program
US7844139B2 (en) Information management apparatus, information management method, and computer program product
US20100180196A1 (en) Document management system, document management method, and document management program embodied on computer readable medium
US6606636B1 (en) Method and apparatus for retrieving dynamic images and method of and apparatus for managing images
JP2010211688A (ja) 文書編集装置、データ処理方法及びプログラム
JP4808579B2 (ja) 画像評価装置および方法並びにプログラム
CN107909054A (zh) 图片文本的相似度评价方法及装置
JP5151394B2 (ja) 情報管理装置、情報管理方法、及びプログラム
JP2002073643A (ja) 文書分類システム
JPH11259515A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP3726442B2 (ja) 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JP2001256243A (ja) 文書分類システム
CN115587214A (zh) 不可信检测结果的分库检索方法、装置、电子设备及介质
US6792417B1 (en) Information processing apparatus and method for storing and managing objects together with additional information
US20080181525A1 (en) Image evaluation method, apparatus, and program
JP3602084B2 (ja) データベース管理装置
JP4692784B2 (ja) 画像記述システムにおける特徴量選択プログラム、特徴量選択方法および装置
JP6485084B2 (ja) 画像探索装置、画像探索方法および画像探索プログラム
JP6485072B2 (ja) 画像探索装置、画像探索方法および画像探索プログラム
JP2002099555A (ja) 文書分類装置及び文書分類方法
JP2002297638A (ja) 文書画像からのタイトル抽出方法
KR100210401B1 (ko) 거리영상 분류방법