JP2003108576A - データベース管理装置およびデータベース管理方法 - Google Patents

データベース管理装置およびデータベース管理方法

Info

Publication number
JP2003108576A
JP2003108576A JP2001299138A JP2001299138A JP2003108576A JP 2003108576 A JP2003108576 A JP 2003108576A JP 2001299138 A JP2001299138 A JP 2001299138A JP 2001299138 A JP2001299138 A JP 2001299138A JP 2003108576 A JP2003108576 A JP 2003108576A
Authority
JP
Japan
Prior art keywords
document
registered
influence degree
similarity
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001299138A
Other languages
English (en)
Other versions
JP3602084B2 (ja
Inventor
Tsutomu Kobayashi
勉 小林
Shigemi Nakazato
茂美 中里
Takeshi Matsukuma
剛 松隈
Yukio Nakamoto
幸夫 中本
Hiroshi Yamazaki
弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001299138A priority Critical patent/JP3602084B2/ja
Publication of JP2003108576A publication Critical patent/JP2003108576A/ja
Application granted granted Critical
Publication of JP3602084B2 publication Critical patent/JP3602084B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 分類の精度を維持しながら、データベースの
メンテナンスを行うことのできる文書分類装置および文
書分類方法を提供する。 【解決手段】 ユーザが予め所定の分野に属することが
分かっている分類文書で分類動作を行い、分類文書とデ
ータベースに登録されている文書(以下「登録文書」と
表記する)間の類似度と確度を算出する。これらを元
に、登録文書の登録分野と、分類文書の分野が一致して
いた場合と異なっていた場合に、それぞれ正解影響度と
不正解影響度を算出し、登録文書ごとに蓄積する。この
操作を分類文書を複数種用いて繰り返す。蓄積した正解
影響度と不正解影響度から登録文書毎の削除文書候補点
数を算出する。この削除文書候補点数が大きい文書を削
除文書候補として抽出する

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書検索技術に
係わり、検索に用いるデータベースの管理装置及び管理
方法に関する。
【0002】
【従来の技術】近年、大量の電子化された文書データが
流通するようになり、その文書データが、どのような分
野に属するかを自動的に分類する技術が実用化されてい
る。一般的な技術としては、データベースに色々な分野
を代表する文書を複数登録しておき、入力された文書と
登録されている文書間の類似性の度合いを表す値(以下
「類似度」と表記)をベクトル空間法などを用いて求
め、類似していた文書が属する分野を参考に入力された
文書が属すると思われる分野を特定するというものであ
る。
【0003】このような文書自動分類システムは、時間
が経つにしたがって、分野を代表するような新しい単語
が使われるようになったり、逆に、あまり使われなくな
る単語があったりし、いつまでも同じデータベースを利
用することは、分類の精度低下につながる。
【0004】また、自動分類したものは、そのままその
分野が付与されることは少なく、自動分類された結果が
正しいかどうかを人手によって判断し、その結果を元に
正解/不正解と類似度情報からデータベースに登録され
ている文書に点数を付け、点数の悪い文書をデータベー
スから削除する方式があった。
【0005】このように、従来は、データベースから削
除すべき文書であるかの判断の材料として、「分野特定
結果が正解であったかどうか」といった情報や、「分野
特定の要となったデータベース内の文書と、その文書と
の類似度」といった情報が用いられてきた。このような
手法を用いた例として、特開2001−155025公
報に開示された文書分類装置がある。
【0006】しかし、データベースに登録されている文
書の属する分野は、すべて独立している訳ではなく、関
連性の深い分野も存在する。例えば「レーザー」という
言葉は、印刷機器や医療機器、記憶装置、計測機器など
の広い分野で使用される可能性がある。このような、様
々な分野で使用される単語を多く含む文書は、分野特定
においてある1つの分野に特定することは難しく、複数
の可能性のある分野に特定され易くなる。
【0007】このような、複数の分野と関連性の高い分
野に属する文書については、複数の分野で同じような類
似度となる可能性が高く、一つの分野に特定することは
困難である。このような文書は、分野特定で失敗する可
能性も高くなるが、これは、その分野の特徴によるもの
であり、データベースに登録されている特定の文書が悪
影響している訳ではない。
【0008】このような正解しにくい分野の文書を分類
した際に、不正解に影響した文書を優先的に削除するこ
では精度向上は望めず、逆に、関連のある分野の文書が
削除され易くなり、それらの分野の特定精度が低下する
ことにもつながる。
【0009】また、分類する文書から抽出した単語に、
データベースに登録されている分野の特徴を表す単語が
ほとんど含まれていない場合なども考えられる。このよ
うな場合にも、その文書とデータベースに登録されてい
る文書との間の類似度は全体的に同じような値になるた
め、このような文書の分類結果から、データベースに登
録されている文書の悪影響の度合いを判断しデータベー
スから削除することは、精度低下を招くことになる。
【0010】
【発明が解決しようとする課題】本発明は上記の問題を
解決するためになされたものであり、分類の精度を維持
しながら、データベースのメンテナンスを行うことので
きる文書分類装置および文書分類方法を提供することを
目的とする。
【0011】
【課題を解決するための手段】この発明は、分野情報を
有する登録文書を記録したデータベースを管理する管理
装置であって、所定の文書を入力する第一入力手段と、
前記データベースに登録された登録文書を読み込む読み
込み手段と、前記所定の文書と前記登録文書との間の類
似度を算出する類似度算出手段と、前記類似度算出手段
により算出された類似度をもとに、確度を算出する確度
算出手段と、前記所定の文書の属する分野を入力する第
二入力手段と、前記所定の文書の属する分野と、前記登
録文書が登録されている分野との一致/不一致を判別す
る判別手段と、前記判別手段が前記所定の文書の属する
分野と、前記登録文書が登録されている分野とが一致し
ていると判別した場合、前記類似度と前記確度をもとに
正解影響度を算出する正解影響度算出手段と、前記判別
手段が前記所定の文書の属する分野と、前記登録文書が
登録されている分野とが一致していないと判別した場
合、前記類似度と前記確度をもとに不正解影響度を算出
する正解影響度算出手段と、前記正解影響度及び前記不
正解影響度から削除文書候補点数を算出する削除文書候
補点数算出手段とを具備することを特徴とする。
【0012】このような構成によれば、分類の精度を維
持しながら、データベースのメンテナンスを行うことが
可能となる。
【0013】この発明は、分野情報を有する登録文書を
記録したデータベースを管理するデータベース管理方法
であって、所定の文書を入力する第一入力ステップと、
前記データベースに登録された登録文書を読み込む読み
込みステップと、前記所定の文書と前記登録文書との間
の類似度を算出する類似度算出ステップと、前記類似度
算出ステップにより算出された類似度をもとに、確度を
算出する確度算出ステップと、前記所定の文書の属する
分野を入力する第二入力ステップと、前記第二入力ステ
ップで入力された所定の文書の属する分野と、前記登録
文書が登録されている分野との一致/不一致を判別する
判別ステップと、前記判別ステップにおいて、手段が前
記所定の文書の属する分野と、前記登録文書が登録され
ている分野とが一致していると判別した場合、前記類似
度と前記確度をもとに正解影響度を算出する正解影響度
算出ステップと、前記判別手段が前記所定の文書の属す
る分野と、前記登録文書が登録されている分野とが一致
していないと判別した場合、前記類似度と前記確度をも
とに不正解影響度を算出する正解影響度算出ステップ
と、前記正解影響度及び前記不正解影響度から削除文書
候補点数を算出する削除文書候補点数算出ステップとを
具備することを特徴とする。
【0014】このような構成によれば、分類の精度を維
持しながら、データベースのメンテナンスを行うことが
可能となる。
【0015】
【発明の実施の形態】本発明の具体的な構成について説
明する前に、発明の理解の一助として、本発明のアウト
ラインを説明する。本発明においては、データベースの
メンテナンスを行うために、ユーザが予め所定の分野に
属することが分かっている文書を入力して、文書分類装
置に分類動作を行わせる。ここでユーザが入力する文書
を「分類文書」とし、この分類文書が属する分野として
ユーザが予め認識している分野を「正解分野」とする。
【0016】この分類文書を用いて、文書分類を行う際
に、この文書分類装置は分類文書とデータベースに登録
されている文書(以下「登録文書」と表記する)間の類
似度と、その類似度や類似度算出時に参照した単語数な
どから算出した確度を算出する。
【0017】次に、登録文書がそれぞれ分類されている
分野(以下「登録分野」と表記する)と、先述の分類文
書の正解分野が一致していた場合と異なっていた場合
に、その分野の特定に影響した文書との類似度と、分野
を特定した際に、比較した文書との類似度や比較に使用
した単語数などの情報から、特定結果がどの程度信頼で
きるかを表す値(以下「確度」と表記)を元に、それぞ
れ正解影響度と不正解影響度を算出する。すなわち、あ
る登録文書に関し、第一の分類文書について類似度と確
度を求める。つづいてこの登録文書の登録分野と分類文
書の正解分野が一致した場合は、正解影響度を蓄積す
る。また、登録分野と正解分野が一致しなかった場合
は、不正解影響度を蓄積する。
【0018】この操作を分類文書を複数種用いて繰り返
し、各々の登録文書について正解影響度と不正解影響度
を蓄積して登録文書毎に格納する。
【0019】この蓄積した正解影響度と不正解影響度
(以下、両者をまとめて「正解/不正解影響度」と表
記)をもとに、登録文書毎の削除文書候補点数を算出す
る。この削除文書候補点数は不正解影響度を正解影響度
で除することで求められ、正解影響度に比して不正解影
響度が大きい文書については、削除文書候補点数が大き
くなる。データベースのメンテナンスに当たっては、こ
の削除文書候補点数が大きい文書を削除文書候補として
抽出するというものである。
【0020】以下、図面を参照して本発明の実施形態に
ついて以下の通り説明する。図1は本発明に関する一実
施形態である類似文書検索装置のハードウェア構成を示
すブロック図である。なお、本装置は一般的なアーキテ
クチャを持つコンピュータ上の一機能として構成される
ものである。
【0021】図1に示すように、この類似文書検索装置
は、CPUおよびメモリなどから構成される制御装置
1、キーボード、ポインティングデバイス、スキャナ、
マイクなどの入力装置2、類似文書の検索結果などを表
示する表示装置3、および文書データや類似度情報、各
種設定値などを格納する外部記憶装置4(ハードディス
ク、MO、DVD−RAMなど)から構成される。
【0022】図2に本類似文書検索装置における制御装
置1の構成を示す。制御装置1はプログラム部200と
バッファ部250からなる。プログラム部200は、初
期化部201、分類文書入力部202、登録文書読み込
み部203、類似度算出部204、確度算出部205、
分類結果出力部206、正解/不正解影響度格納部20
7、削除文書候補点数算出部208、削除文書候補出力
部209の機能を有している。
【0023】バッファ部250は、分類文書格納バッフ
ァ部251、登録文書格納バッファ部252、類似度算
出結果格納バッファ部253、正解/不正解影響度格納
バッファ部254、削除文書候補格納バッファ部255
の領域を有している。
【0024】初期化部201は、バッファ部250内の
各バッファ部をクリアする。分類文書入力部202は、
ユーザが入力装置2を用いて入力する分類文書データ
を、分類文書格納バッファ部251へ格納する。この
時、分類文書IDが発行され、このIDも分類文書格納
バッファ部251へ格納される。登録文書読み込み部2
03は、外部記憶装置4に格納された登録文書を読み出
し、登録文書格納バッファ部252へ格納する。
【0025】類似度算出部204は、分類文書格納バッ
ファ部251に格納されている分類文書と、登録文書格
納バッファ部252に格納されている登録文書を単語に
分割し、各単語の出現回数をベクトルの成分とするベク
トル空間法などで類似の度合いを算出し、分類文書ID
と登録文書IDと類似度と登録文書が属する分野情報を
組にして、類似度算出結果格納バッファ部253に格納
する。類似度はベクトル空間法の代わりに共通単語数に
より算出するようにしても構わない。
【0026】確度算出部205は、類似度算出結果格納
バッファ部253に格納されている類似度の合計値を算
出し、各登録文書との類似度が占める割合を確度として
算出し、類似度算出結果格納バッファ部253に格納す
る。
【0027】分類結果出力部206は、類似度算出結果
格納バッファ部253に格納されているデータを類似度
でソートし、類似度の高い登録文書に付与されている分
野を出力する。
【0028】正解/不正解影響度格納部206は、類似
度算出結果格納バッファ253に格納される、類似度算
出結果情報と入力装置2より入力された、分類文書の正
解分野情報から、登録文書毎の正解/不正解への影響の
度合いとして類似度に確度を掛け合せた値を、正解/不
正解影響度格納バッファ部254に加算する。正解/不
正解への影響の度合いとしては、類似度に確度を掛け合
せた値の他に、確度が設定された閾値以上の場合にのみ
類似度を加算するようにしても良い。
【0029】削除文書候補点数算出部208は、正解/
不正解影響度格納バッファ部254に格納されている正
解/不正解影響度から削除文書候補としての点数を算出
し、削除文書候補格納バッファ部255に格納する。削
除文書候補出力部209は、削除文書候補格納バッファ
部255に格納されている削除文書候補を削除文書候補
点数でソートし出力する。
【0030】次に、本発明の実施形態の一つである文書
分類装置の動作について図3及び図4のフローチャート
図を参照して以下の通り説明する。
【0031】本実施例は、大きく分けて図3に示す第1
のステップと、図4に示す第2のステップとからなる。
第1のステップは、文書分類装置に登録された文書か
ら、削除すべき文書を選択するために、ユーザが予め正
解分野を把握している分類文書を用いて分類処理を行
い、その処理結果を蓄積するステップである。第2のス
テップは、この蓄積された処理結果をもとに、削除すべ
き文書の候補を出力するステップである。
【0032】まず、図3を参照して分類処理結果を蓄積
する第1のステップについて説明する。はじめにユーザ
は、入力装置2を使用して、外部記憶装置4にデータベ
ースのメンテナンスの対象となる登録文書の文書データ
を格納する(ステップ301)。続いて初期化部201
により全バッファをクリアする(ステップ302)。
【0033】次に、分類文書入力部202が、入力装置
2を通じてユーザより分類文書を受け付けて、分類文書
格納バッファ部251に格納する。(ステップ30
3)。具体例として、図5に示すような「この文書は、
計測機器について記述したものです。」というテキスト
文書を分類文書の一つとして格納したとする。
【0034】続いて登録文書読み出し部203が、外部
記憶装置4から複数の登録文書を読み出し、登録文書格
納バッファ部252に登録文書として格納する(ステッ
プ304)。検索対象となる登録文書には、文書を識別
するための文書IDと、その文書の分類を表す分野(登
録分野)の情報が付与されている。具体例として、図6
に示すように、文書ID、分野情報、本文からなるデー
タを格納したとする。例えば文書IDが「1」の文書は
「エンジン」に関する分野であり、本文として「この文
書は、エンジンについて記述したものです。」というデ
ータを格納する。もちろん、より長い本文データについ
ても同様に処理する。以下、文書ID「2」、「3」…
と各登録文書について同様の処理を行う。
【0035】次に、類似度算出部204が、分類文書格
納バッファ部251に格納された分類文書と、登録文書
格納バッファ部252に格納された登録文書の本文とを
比較し、類似の度合いを示す数値である類似度をベクト
ル空間法を用いて算出した後、登録文書IDとその文書
の分類を表す分野情報とともに類似度算出結果格納バッ
ファ部253に格納する(ステップ305)。ここで、
ベクトル空間法は、特開2000−311173公報に
記載されたような手法を用いることができる。
【0036】この時、類似度が大きいものから一定の件
数だけ格納したり、一定の類似度以上のものだけを格納
しても構わない。図7の類似度算出結果格納例では、分
類文書IDが「1」の文書について、登録文書に関する
1番目のデータは、文書ID=1023、登録分野=記憶装
置、類似度=0.378という内容が格納されていることを示
す。以下、2番目、3番目と同様に格納される。
【0037】次に、類似度を算出していない登録文書が
残っているかを判断し(ステップ306)、残っている
場合は、ステップ304に戻って残りの登録文書に対し
てステップ304、305の動作を繰り返す。一方、他
に登録文書が無い場合は、ステップ307に進む。
【0038】次に、ステップ305で類似度算出結果格
納バッファ部253に格納した類似度算出結果の登録文
書ごとの類似度の和を算出し、その値に対して各文書の
類似度が占める割合を確度として算出し、類似度算出結
果格納バッファ部253に格納する(ステップ30
7)。なお、確度は分類結果の確からしさを表す値であ
れば、類似度の合計値に対する占有率以外にも、文書同
士を比較した際の共通単語数などから算出したものでも
構わない。図8に図7に示した例における確度の算出例
を示す。類似度算出結果格納バッファ部253に格納さ
れた登録文書の類似度の和は2.783である。ここで、登
録文書ID「1023」の文書は分類文書ID「1」の分類
文書に対する類似度が0.378である場合、登録文書ID
「1023」の文書の確度は0.378÷2.783=0.136となり、
確度の値として0.136が格納される。他の文書について
も同様に確度が求められ、格納される。
【0039】次に、ステップ307までで算出された各
情報について出力する(ステップ308)。この出力は
図8の情報を出力する形が好ましいが、類似度順にソー
トし、上位の文書から順に付与されている登録分野の分
野情報を出力するようにしても構わない。ソートした上
で分野情報を出力した例を図9に示す。ここで、各登録
分野ごとにその分野に含まれる登録文書の類似度の和を
取り、高い順に並べている。この出力はこの後の処理で
は使用しないが、ユーザにとって分類状況を把握しやす
くなるという効果がある。
【0040】分類結果出力が済むと、他に使用する分類
文書が残っているかを判断し(ステップ309)、残っ
ていればステップ303に戻り、ステップ303から3
08までを繰り返す。図8に相当するデータは分類文書
ごとに異なるので、分類文書ごとにそれぞれ格納され
る。一方、分類文書が残っていなければ分類処理を終了
する。
【0041】次に、第1のステップで格納された、類似
度算出結果を使用して、登録文書から削除する文献の候
補を出力する第2のステップについて説明する。図4は
その手順を示すフローチャートである。
【0042】はじめに初期化部201により類似度度算
出結果格納バッファ部253以外のバッファをクリアす
る(ステップ351)。次に、入力装置2より、第1の
ステップで用いた分類文書のIDとその分類文書の正解
分野を入力する(ステップ352)。
【0043】次に、ステップ352で入力された分類文
書IDに対応する類似度算出結果と正解分野をもとに、
各登録文書について、登録分野と正解分野が一致してい
れば正解影響度として、一致していなければ不正解影響
度として、類似度に確度を掛け合せた値を正解/不正解
影響度格納バッファ部254に加算する(ステップ35
3)。類似度と確度を掛け合わせることで、一種の重み
付けを行うことができる。この正解/不正解影響度は登
録文書ごとに管理される。
【0044】分類文書IDが1で、正解分野が計測機器
であった場合、類似度算出結果が図8の状態であるとす
ると、登録文書ID=1023の文書は、その分野が正解分野
と異なるので、その類似度に確度を掛け合せた値0.378
×0.136=0.051を不正解影響度に加算して格納する。登
録文書ID=5933の文書は、その分野が正解分野と同じな
ので、その類似度に確度を掛け合せた値0.172×0.062=
0.011を正解影響度に加算して格納する。
【0045】ここでは、正解/不正解影響度に加算する
値として類似度に確度を掛け合せた値を利用している
が、確度に閾値を設けて、その閾値よりも確度が大きい
場合にのみ類似度を正解/不正解影響度に加算する方式
であっても構わない。
【0046】続いて、処理中の分類文書の類似度算出結
果が残っているか判断し(ステップ354)、残ってい
る場合はステップ353に戻り、ステップ353の処理
を繰り返す。この処理の対象となるのはすべての類似度
算出結果でも構わないし、類似度の高いものから何件、
または類似度や確度が一定の値以上のものでも構わな
い。一方、処理する類似度算出結果が残っていない場合
はステップ355に進む。
【0047】ステップ355では、他に正解情報が残っ
ているかを判断し(ステップ355)、残っている場合
はステップ352に戻り、上述したステップ352から
354までの処理を繰り返し、残っていなければ、ステ
ップ356に進む。ここで、正解情報が残っている場
合、すなわち別の分類文書による計算結果を用いる場合
は、その正解情報に対応する分類文書IDで管理された
算出結果を用いることになる。
【0048】このようにして、登録文書ごとにいくつか
の分類文書についてそれぞれ正解/不正解影響度を求
め、登録文書ごとに格納した結果となる、正解/不正解
影響度格納バッファ部254の例を図10に示す。例え
ば登録文書ID「1」の文書について、登録分野は「エ
ンジン」であり、正解影響度は0.00249、不正解影響度
は0.25382、となる。正解影響度の大きい登録文書は、
所定の分類文書と同じ分野であり、一般的に類似度も高
く、確度も高いということができる。一方、不正解影響
度の大きい登録文書は、所定の分類文書と異なる分野で
あるが、類似度や確度が高く、紛らわしい文書であると
いうことができる。
【0049】ステップ356では、ステップ353で正
解/不正解影響度格納バッファ部255に格納した、正
解/不正解影響度をもとに、データベースに登録されて
いる各登録文書について「削除文書候補点数」を算出す
る。この削除文書候補点数の算出式の例を図11に示
す。ここで、削除文書候補点数は、「不正解影響度÷
(正解影響度+0.001)」で求められる。分母とな
る正解影響度に0.001を加えているのは、正解影響
度が0である文書があった場合に0による除算エラーが
発生するのを防ぐためである。この式によれば、正解影
響度に比して不正解影響度が大きい登録文書が削除文書
候補点数が高くなる。削除文書候補点数算出部208は
算出した結果を削除文書候補格納バッファ部255に格
納する。
【0050】図12の例は、図10の類似度算出結果格
納バッファ部253に格納されている類似度算出結果を
図11に示す削除文書候補点数の算出式を用いて点数を
算出した結果を表す。この結果は削除文書候補格納バッ
ファ部255に格納される。例えば登録文書ID「1」
の登録文書について、その削除文書候補点数は「0.2538
2/(0.00249+0.001」で求められ、その値は72.72779
となる。
【0051】次に、正解/不正解影響度データが残って
いるか、すなわち削除候補点数を算出する登録文書が残
っているかを判断し(ステップ357)、残っていれば
ステップ356に戻り、ステップ356を繰り返す。正
解/不正解影響度データが残っていない場合はステップ
358に進む。
【0052】ステップ358では、ステップ356で算
出した削除文書候補点数を用いて削除文献候補格納バッ
ファ部255の内容をソートし、削除文書候補点数の高
い文書順に削除文書候補として出力する。図13に、削
除文書候補の出力例を示す。登録文書IDが9924の文書
は、計測機器分野の文書で、削除文書候補点数が129.16
973であることを表す。
【0053】以上で、第2のステップである登録文書削
除候補出力処理を終了する。ユーザはこの出力を見て、
データベースから削除すべき登録文書を選択することが
できる。この選択まで、自動的に実行させることも可能
である。
【0054】複数の分野と関連の深い(類似性の高い)
分野の文書は、1つの分野に特定することが難しく、特
定した分野が正解分野と一致する確率も低くなる傾向に
ある。本発明では確度が低い場合には不正解への影響度
として加算する値を低くするので、そのような分野の文
書が優先的に削除されることによる、分類精度の低下を
抑えることができる。
【0055】また、分類する文書に分野の特徴を表す単
語が少ないような分類処理に不向きな文書を分類した場
合、正解分野に特定される確率は低くなる。このような
文書を分類処理した場合、分野特定結果が不正解であっ
ても、確度が小さければ不正解影響度として類似度が加
算されにくくなるため、削除文書候補の抽出時に不適当
な候補が抽出されることを少なくできる。
【0056】
【発明の効果】以上説明したように、この発明によれ
ば、分類の精度を維持しながら、データベースのメンテ
ナンスを行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態に係わる類似文書検索装置の
ハードウェア構成を示すブロック図。
【図2】本発明の実施形態に係わる類似文書検索装置の
制御装置の機能ブロック図。
【図3】文書分類処理の流れを示すフローチャート図。
【図4】削除文書の候補を出力する処理の流れを示すフ
ローチャート図。
【図5】分類文書の例を示す図。
【図6】登録文書の例を示す図。
【図7】類似度算出結果の例を示す図。
【図8】確度算出の例を示す図。
【図9】分類結果の出力例を示す図。
【図10】正解/不正解影響度の例を示す図。
【図11】削除文書候補点数計算式の例を示す図。
【図12】削除文書候補格納の例を示す図。
【図13】削除文書候補出力の例を示す図。
【符号の説明】
1…制御装置、2…入力装置、3…表示装置、4…外部
記憶装置、200…プログラム部、201…初期化部、
202…分類文書入力部、203…登録文書読み込み
部、204…類似度算出部、205…確度算出部、20
6…分類結果出力部、207…正解/不正解影響度格納
部、208…削除文書候補点数算出部、209…削除文
書候補出力部、250…バッファ部、251…分類文書
格納バッファ部、252…登録文書格納バッファ部、2
53…類似度算出結果格納バッファ部、254…正解/
不正解影響度格納バッファ部、255…削除文書候補格
納バッファ部
フロントページの続き (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 Fターム(参考) 5B075 ND03 NK32 PQ36 QM07 QM08 UU06

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 分野情報を有する登録文書を記録したデ
    ータベースを管理する管理装置であって、 所定の文書を入力する第一入力手段と、 前記データベースに登録された登録文書を読み込む読み
    込み手段と、 前記所定の文書と前記登録文書との間の類似度を算出す
    る類似度算出手段と、 前記類似度算出手段により算出された類似度をもとに、
    確度を算出する確度算出手段と、 前記所定の文書の属する分野を入力する第二入力手段
    と、 前記所定の文書の属する分野と、前記登録文書が登録さ
    れている分野との一致/不一致を判別する判別手段と、 前記判別手段が前記所定の文書の属する分野と、前記登
    録文書が登録されている分野とが一致していると判別し
    た場合、前記類似度と前記確度をもとに正解影響度を算
    出する正解影響度算出手段と、 前記判別手段が前記所定の文書の属する分野と、前記登
    録文書が登録されている分野とが一致していないと判別
    した場合、前記類似度と前記確度をもとに不正解影響度
    を算出する正解影響度算出手段と、 前記正解影響度及び前記不正解影響度から削除文書候補
    点数を算出する削除文書候補点数算出手段とを具備する
    ことを特徴とするデータベース管理装置。
  2. 【請求項2】 前記データベース管理装置は、所定の文
    書を複数入力することが可能であり、前記正解影響度算
    出手段及び前記不正解影響度算出手段はこの複数の所定
    の文書ごとに正解影響度や不正解影響度を算出し、 前記登録文書ごとにこれらの正解影響度及び不正解影響
    度を累算することを特徴とする請求項1記載のデータベ
    ース管理装置。
  3. 【請求項3】 前記確度算出手段は、当該登録文書の類
    似度を当該登録文書を含む他の登録文書の類似度の和で
    除算した値を確度として算出することを特徴とする請求
    項1記載のデータベース管理装置。
  4. 【請求項4】 前記正解影響度算出手段は、前記類似度
    と前記確度との積を正解影響度として算出することを特
    徴とする請求項1ないし3記載のデータベース管理装
    置。
  5. 【請求項5】 前記不正解影響度算出手段は、前記類似
    度と前記確度との積を正解影響度として算出することを
    特徴とする請求項1ないし3記載のデータベース管理装
    置。
  6. 【請求項6】 分野情報を有する登録文書を記録したデ
    ータベースを管理するデータベース管理方法であって、 所定の文書を入力する第一入力ステップと、 前記データベースに登録された登録文書を読み込む読み
    込みステップと、 前記所定の文書と前記登録文書との間の類似度を算出す
    る類似度算出ステップと、 前記類似度算出ステップにより算出された類似度をもと
    に、確度を算出する確度算出ステップと、 前記所定の文書の属する分野を入力する第二入力ステッ
    プと、 前記第二入力ステップで入力された所定の文書の属する
    分野と、前記登録文書が登録されている分野との一致/
    不一致を判別する判別ステップと、 前記判別ステップにおいて、手段が前記所定の文書の属
    する分野と、前記登録文書が登録されている分野とが一
    致していると判別した場合、前記類似度と前記確度をも
    とに正解影響度を算出する正解影響度算出ステップと、 前記判別手段が前記所定の文書の属する分野と、前記登
    録文書が登録されている分野とが一致していないと判別
    した場合、前記類似度と前記確度をもとに不正解影響度
    を算出する正解影響度算出ステップと、 前記正解影響度及び前記不正解影響度から削除文書候補
    点数を算出する削除文書候補点数算出ステップとを具備
    することを特徴とするデータベース管理方法。
  7. 【請求項7】 前記データベース管理方法は、所定の文
    書を複数入力することが可能であり、前記正解影響度算
    出ステップ及び前記不正解影響度算出ステップはこの複
    数の所定の文書ごとに正解影響度や不正解影響度を算出
    し、 前記登録文書ごとにこれらの正解影響度及び不正解影響
    度を累算することを特徴とする請求項6記載のデータベ
    ース管理方法。
  8. 【請求項8】 前記確度算出ステップは、当該登録文書
    の類似度を当該登録文書を含む他の登録文書の類似度の
    和で除算した値を確度として算出することを特徴とする
    請求項6記載のデータベース管理方法。
  9. 【請求項9】 前記正解影響度算出ステップは、前記類
    似度と前記確度との積を正解影響度として算出すること
    を特徴とする請求項6ないし8記載のデータベース管理
    方法。
  10. 【請求項10】前記不正解影響度算出ステップは、前記
    類似度と前記確度との積を正解影響度として算出するこ
    とを特徴とする請求項6ないし8記載のデータベース管
    理方法。
JP2001299138A 2001-09-28 2001-09-28 データベース管理装置 Expired - Fee Related JP3602084B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001299138A JP3602084B2 (ja) 2001-09-28 2001-09-28 データベース管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001299138A JP3602084B2 (ja) 2001-09-28 2001-09-28 データベース管理装置

Publications (2)

Publication Number Publication Date
JP2003108576A true JP2003108576A (ja) 2003-04-11
JP3602084B2 JP3602084B2 (ja) 2004-12-15

Family

ID=19119937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001299138A Expired - Fee Related JP3602084B2 (ja) 2001-09-28 2001-09-28 データベース管理装置

Country Status (1)

Country Link
JP (1) JP3602084B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007050760A (ja) * 2005-08-18 2007-03-01 Kawasaki Shipbuilding Corp 船舶の運航診断方法、及び船舶の運航診断システム
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP2018190131A (ja) * 2017-05-01 2018-11-29 日本電信電話株式会社 特定装置、分析システム、特定方法及び特定プログラム
JP2020009494A (ja) * 2019-10-04 2020-01-16 日本電信電話株式会社 特定装置、特定方法及び特定プログラム
JP2020109689A (ja) * 2018-11-06 2020-07-16 データ・サイエンティスト株式会社 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007050760A (ja) * 2005-08-18 2007-03-01 Kawasaki Shipbuilding Corp 船舶の運航診断方法、及び船舶の運航診断システム
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP4521459B2 (ja) * 2008-12-18 2010-08-11 株式会社日立製作所 文書分類装置、文書分類方法およびプログラム
JP2018190131A (ja) * 2017-05-01 2018-11-29 日本電信電話株式会社 特定装置、分析システム、特定方法及び特定プログラム
JP2020109689A (ja) * 2018-11-06 2020-07-16 データ・サイエンティスト株式会社 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP2020009494A (ja) * 2019-10-04 2020-01-16 日本電信電話株式会社 特定装置、特定方法及び特定プログラム

Also Published As

Publication number Publication date
JP3602084B2 (ja) 2004-12-15

Similar Documents

Publication Publication Date Title
US5794236A (en) Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US8005300B2 (en) Image search system, image search method, and storage medium
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US6778941B1 (en) Message and user attributes in a message filtering method and system
US5745745A (en) Text search method and apparatus for structured documents
US7236968B2 (en) Question-answering method and question-answering apparatus
US7783629B2 (en) Training a ranking component
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
US20070043774A1 (en) Method and Apparatus for Incremental Computation of the Accuracy of a Categorization-by-Example System
US20080273802A1 (en) Program and apparatus for forms processing
US7089238B1 (en) Method and apparatus for incremental computation of the accuracy of a categorization-by-example system
US7933911B2 (en) Medium storing document retrieval program, document retrieval apparatus and document retrieval method
US20080065682A1 (en) Search index generation apparatus
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
US20030126138A1 (en) Computer-implemented column mapping system and method
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
TWI794547B (zh) 文書檢索裝置、文書檢索程式、文書檢索方法
WO2007070010A1 (en) Improvements in electronic document analysis
US6424963B1 (en) Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence
JP2003108576A (ja) データベース管理装置およびデータベース管理方法
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JP2002183667A (ja) 文字認識装置及び記録媒体
JPH0484366A (ja) 文書種別判別装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040921

LAPS Cancellation because of no payment of annual fees