JP3602084B2 - Database management device - Google Patents
Database management device Download PDFInfo
- Publication number
- JP3602084B2 JP3602084B2 JP2001299138A JP2001299138A JP3602084B2 JP 3602084 B2 JP3602084 B2 JP 3602084B2 JP 2001299138 A JP2001299138 A JP 2001299138A JP 2001299138 A JP2001299138 A JP 2001299138A JP 3602084 B2 JP3602084 B2 JP 3602084B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- registered
- similarity
- field
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、文書検索技術に係わり、検索に用いるデータベースの管理装置及び管理方法に関する。
【0002】
【従来の技術】
近年、大量の電子化された文書データが流通するようになり、その文書データが、どのような分野に属するかを自動的に分類する技術が実用化されている。一般的な技術としては、データベースに色々な分野を代表する文書を複数登録しておき、入力された文書と登録されている文書間の類似性の度合いを表す値(以下「類似度」と表記)をベクトル空間法などを用いて求め、類似していた文書が属する分野を参考に入力された文書が属すると思われる分野を特定するというものである。
【0003】
このような文書自動分類システムは、時間が経つにしたがって、分野を代表するような新しい単語が使われるようになったり、逆に、あまり使われなくなる単語があったりし、いつまでも同じデータベースを利用することは、分類の精度低下につながる。
【0004】
また、自動分類したものは、そのままその分野が付与されることは少なく、自動分類された結果が正しいかどうかを人手によって判断し、その結果を元に正解/不正解と類似度情報からデータベースに登録されている文書に点数を付け、点数の悪い文書をデータベースから削除する方式があった。
【0005】
このように、従来は、データベースから削除すべき文書であるかの判断の材料として、「分野特定結果が正解であったかどうか」といった情報や、「分野特定の要となったデータベース内の文書と、その文書との類似度」といった情報が用いられてきた。このような手法を用いた例として、特開2001−155025公報に開示された文書分類装置がある。
【0006】
しかし、データベースに登録されている文書の属する分野は、すべて独立している訳ではなく、関連性の深い分野も存在する。例えば「レーザー」という言葉は、印刷機器や医療機器、記憶装置、計測機器などの広い分野で使用される可能性がある。このような、様々な分野で使用される単語を多く含む文書は、分野特定においてある1つの分野に特定することは難しく、複数の可能性のある分野に特定され易くなる。
【0007】
このような、複数の分野と関連性の高い分野に属する文書については、複数の分野で同じような類似度となる可能性が高く、一つの分野に特定することは困難である。このような文書は、分野特定で失敗する可能性も高くなるが、これは、その分野の特徴によるものであり、データベースに登録されている特定の文書が悪影響している訳ではない。
【0008】
このような正解しにくい分野の文書を分類した際に、不正解に影響した文書を優先的に削除するこでは精度向上は望めず、逆に、関連のある分野の文書が削除され易くなり、それらの分野の特定精度が低下することにもつながる。
【0009】
また、分類する文書から抽出した単語に、データベースに登録されている分野の特徴を表す単語がほとんど含まれていない場合なども考えられる。このような場合にも、その文書とデータベースに登録されている文書との間の類似度は全体的に同じような値になるため、このような文書の分類結果から、データベースに登録されている文書の悪影響の度合いを判断しデータベースから削除することは、精度低下を招くことになる。
【0010】
【発明が解決しようとする課題】
本発明は上記の問題を解決するためになされたものであり、分類の精度を維持しながら、データベースのメンテナンスを行うことのできる文書分類装置および文書分類方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
この発明は、分野情報を有する登録文書を記録したデータベースを管理する管理装置であって、所定の文書を入力する第一入力手段と、前記データベースに登録された登録文書を読み込む読み込み手段と、前記所定の文書と前記登録文書との間の類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度をもとに、確度を算出する確度算出手段と、前記所定の文書の属する分野を入力する第二入力手段と、前記所定の文書の属する分野と、前記登録文書が登録されている分野との一致/不一致を判別する判別手段と、前記判別手段が前記所定の文書の属する分野と、前記登録文書が登録されている分野とが一致していると判別した場合、前記類似度と前記確度をもとに正解影響度を算出する正解影響度算出手段と、前記判別手段が前記所定の文書の属する分野と、前記登録文書が登録されている分野とが一致していないと判別した場合、前記類似度と前記確度をもとに不正解影響度を算出する正解影響度算出手段と、前記正解影響度及び前記不正解影響度から削除文書候補点数を算出する削除文書候補点数算出手段とを具備することを特徴とする。
【0012】
このような構成によれば、分類の精度を維持しながら、データベースのメンテナンスを行うことが可能となる。
【0013】
この発明は、分野情報を有する登録文書を記録したデータベースを管理するデータベース管理方法であって、所定の文書を入力する第一入力ステップと、前記データベースに登録された登録文書を読み込む読み込みステップと、前記所定の文書と前記登録文書との間の類似度を算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度をもとに、確度を算出する確度算出ステップと、前記所定の文書の属する分野を入力する第二入力ステップと、前記第二入力ステップで入力された所定の文書の属する分野と、前記登録文書が登録されている分野との一致/不一致を判別する判別ステップと、前記判別ステップにおいて、手段が前記所定の文書の属する分野と、前記登録文書が登録されている分野とが一致していると判別した場合、前記類似度と前記確度をもとに正解影響度を算出する正解影響度算出ステップと、前記判別手段が前記所定の文書の属する分野と、前記登録文書が登録されている分野とが一致していないと判別した場合、前記類似度と前記確度をもとに不正解影響度を算出する正解影響度算出ステップと、前記正解影響度及び前記不正解影響度から削除文書候補点数を算出する削除文書候補点数算出ステップとを具備することを特徴とする。
【0014】
このような構成によれば、分類の精度を維持しながら、データベースのメンテナンスを行うことが可能となる。
【0015】
【発明の実施の形態】
本発明の具体的な構成について説明する前に、発明の理解の一助として、本発明のアウトラインを説明する。本発明においては、データベースのメンテナンスを行うために、ユーザが予め所定の分野に属することが分かっている文書を入力して、文書分類装置に分類動作を行わせる。ここでユーザが入力する文書を「分類文書」とし、この分類文書が属する分野としてユーザが予め認識している分野を「正解分野」とする。
【0016】
この分類文書を用いて、文書分類を行う際に、この文書分類装置は分類文書とデータベースに登録されている文書(以下「登録文書」と表記する)間の類似度と、その類似度や類似度算出時に参照した単語数などから算出した確度を算出する。
【0017】
次に、登録文書がそれぞれ分類されている分野(以下「登録分野」と表記する)と、先述の分類文書の正解分野が一致していた場合と異なっていた場合に、その分野の特定に影響した文書との類似度と、分野を特定した際に、比較した文書との類似度や比較に使用した単語数などの情報から、特定結果がどの程度信頼できるかを表す値(以下「確度」と表記)を元に、それぞれ正解影響度と不正解影響度を算出する。すなわち、ある登録文書に関し、第一の分類文書について類似度と確度を求める。つづいてこの登録文書の登録分野と分類文書の正解分野が一致した場合は、正解影響度を蓄積する。また、登録分野と正解分野が一致しなかった場合は、不正解影響度を蓄積する。
【0018】
この操作を分類文書を複数種用いて繰り返し、各々の登録文書について正解影響度と不正解影響度を蓄積して登録文書毎に格納する。
【0019】
この蓄積した正解影響度と不正解影響度(以下、両者をまとめて「正解/不正解影響度」と表記)をもとに、登録文書毎の削除文書候補点数を算出する。この削除文書候補点数は不正解影響度を正解影響度で除することで求められ、正解影響度に比して不正解影響度が大きい文書については、削除文書候補点数が大きくなる。データベースのメンテナンスに当たっては、この削除文書候補点数が大きい文書を削除文書候補として抽出するというものである。
【0020】
以下、図面を参照して本発明の実施形態について以下の通り説明する。図1は本発明に関する一実施形態である類似文書検索装置のハードウェア構成を示すブロック図である。なお、本装置は一般的なアーキテクチャを持つコンピュータ上の一機能として構成されるものである。
【0021】
図1に示すように、この類似文書検索装置は、CPUおよびメモリなどから構成される制御装置1、キーボード、ポインティングデバイス、スキャナ、マイクなどの入力装置2、類似文書の検索結果などを表示する表示装置3、および文書データや類似度情報、各種設定値などを格納する外部記憶装置4(ハードディスク、MO、DVD−RAMなど)から構成される。
【0022】
図2に本類似文書検索装置における制御装置1の構成を示す。制御装置1はプログラム部200とバッファ部250からなる。プログラム部200は、初期化部201、分類文書入力部202、登録文書読み込み部203、類似度算出部204、確度算出部205、分類結果出力部206、正解/不正解影響度格納部207、削除文書候補点数算出部208、削除文書候補出力部209の機能を有している。
【0023】
バッファ部250は、分類文書格納バッファ部251、登録文書格納バッファ部252、類似度算出結果格納バッファ部253、正解/不正解影響度格納バッファ部254、削除文書候補格納バッファ部255の領域を有している。
【0024】
初期化部201は、バッファ部250内の各バッファ部をクリアする。分類文書入力部202は、ユーザが入力装置2を用いて入力する分類文書データを、分類文書格納バッファ部251へ格納する。この時、分類文書IDが発行され、このIDも分類文書格納バッファ部251へ格納される。
登録文書読み込み部203は、外部記憶装置4に格納された登録文書を読み出し、登録文書格納バッファ部252へ格納する。
【0025】
類似度算出部204は、分類文書格納バッファ部251に格納されている分類文書と、登録文書格納バッファ部252に格納されている登録文書を単語に分割し、各単語の出現回数をベクトルの成分とするベクトル空間法などで類似の度合いを算出し、分類文書IDと登録文書IDと類似度と登録文書が属する分野情報を組にして、類似度算出結果格納バッファ部253に格納する。類似度はベクトル空間法の代わりに共通単語数により算出するようにしても構わない。
【0026】
確度算出部205は、類似度算出結果格納バッファ部253に格納されている類似度の合計値を算出し、各登録文書との類似度が占める割合を確度として算出し、類似度算出結果格納バッファ部253に格納する。
【0027】
分類結果出力部206は、類似度算出結果格納バッファ部253に格納されているデータを類似度でソートし、類似度の高い登録文書に付与されている分野を出力する。
【0028】
正解/不正解影響度格納部206は、類似度算出結果格納バッファ253に格納される、類似度算出結果情報と入力装置2より入力された、分類文書の正解分野情報から、登録文書毎の正解/不正解への影響の度合いとして類似度に確度を掛け合せた値を、正解/不正解影響度格納バッファ部254に加算する。正解/不正解への影響の度合いとしては、類似度に確度を掛け合せた値の他に、確度が設定された閾値以上の場合にのみ類似度を加算するようにしても良い。
【0029】
削除文書候補点数算出部208は、正解/不正解影響度格納バッファ部254に格納されている正解/不正解影響度から削除文書候補としての点数を算出し、削除文書候補格納バッファ部255に格納する。削除文書候補出力部209は、削除文書候補格納バッファ部255に格納されている削除文書候補を削除文書候補点数でソートし出力する。
【0030】
次に、本発明の実施形態の一つである文書分類装置の動作について図3及び図4のフローチャート図を参照して以下の通り説明する。
【0031】
本実施例は、大きく分けて図3に示す第1のステップと、図4に示す第2のステップとからなる。第1のステップは、文書分類装置に登録された文書から、削除すべき文書を選択するために、ユーザが予め正解分野を把握している分類文書を用いて分類処理を行い、その処理結果を蓄積するステップである。第2のステップは、この蓄積された処理結果をもとに、削除すべき文書の候補を出力するステップである。
【0032】
まず、図3を参照して分類処理結果を蓄積する第1のステップについて説明する。はじめにユーザは、入力装置2を使用して、外部記憶装置4にデータベースのメンテナンスの対象となる登録文書の文書データを格納する(ステップ301)。続いて初期化部201により全バッファをクリアする(ステップ302)。
【0033】
次に、分類文書入力部202が、入力装置2を通じてユーザより分類文書を受け付けて、分類文書格納バッファ部251に格納する。(ステップ303)。 具体例として、図5に示すような「この文書は、計測機器について記述したものです。」というテキスト文書を分類文書の一つとして格納したとする。
【0034】
続いて登録文書読み出し部203が、外部記憶装置4から複数の登録文書を読み出し、登録文書格納バッファ部252に登録文書として格納する(ステップ304)。検索対象となる登録文書には、文書を識別するための文書IDと、その文書の分類を表す分野(登録分野)の情報が付与されている。具体例として、図6に示すように、文書ID、分野情報、本文からなるデータを格納したとする。例えば文書IDが「1」の文書は「エンジン」に関する分野であり、本文として「この文書は、エンジンについて記述したものです。」というデータを格納する。もちろん、より長い本文データについても同様に処理する。以下、文書ID「2」、「3」…と各登録文書について同様の処理を行う。
【0035】
次に、類似度算出部204が、分類文書格納バッファ部251に格納された分類文書と、登録文書格納バッファ部252に格納された登録文書の本文とを比較し、類似の度合いを示す数値である類似度をベクトル空間法を用いて算出した後、登録文書IDとその文書の分類を表す分野情報とともに類似度算出結果格納バッファ部253に格納する(ステップ305)。ここで、ベクトル空間法は、特開2000−311173公報に記載されたような手法を用いることができる。
【0036】
この時、類似度が大きいものから一定の件数だけ格納したり、一定の類似度以上のものだけを格納しても構わない。図7の類似度算出結果格納例では、分類文書IDが「1」の文書について、登録文書に関する1番目のデータは、文書ID=1023、登録分野=記憶装置、類似度=0.378という内容が格納されていることを示す。以下、2番目、3番目と同様に格納される。
【0037】
次に、類似度を算出していない登録文書が残っているかを判断し(ステップ306)、残っている場合は、ステップ304に戻って残りの登録文書に対してステップ304、305の動作を繰り返す。一方、他に登録文書が無い場合は、ステップ307に進む。
【0038】
次に、ステップ305で類似度算出結果格納バッファ部253に格納した類似度算出結果の登録文書ごとの類似度の和を算出し、その値に対して各文書の類似度が占める割合を確度として算出し、類似度算出結果格納バッファ部253に格納する(ステップ307)。なお、確度は分類結果の確からしさを表す値であれば、類似度の合計値に対する占有率以外にも、文書同士を比較した際の共通単語数などから算出したものでも構わない。図8に図7に示した例における確度の算出例を示す。類似度算出結果格納バッファ部253に格納された登録文書の類似度の和は2.783である。ここで、登録文書ID「1023」の文書は分類文書ID「1」の分類文書に対する類似度が0.378である場合、登録文書ID「1023」の文書の確度は0.378÷2.783=0.136となり、確度の値として0.136が格納される。他の文書についても同様に確度が求められ、格納される。
【0039】
次に、ステップ307までで算出された各情報について出力する(ステップ308)。この出力は図8の情報を出力する形が好ましいが、類似度順にソートし、上位の文書から順に付与されている登録分野の分野情報を出力するようにしても構わない。ソートした上で分野情報を出力した例を図9に示す。ここで、各登録分野ごとにその分野に含まれる登録文書の類似度の和を取り、高い順に並べている。この出力はこの後の処理では使用しないが、ユーザにとって分類状況を把握しやすくなるという効果がある。
【0040】
分類結果出力が済むと、他に使用する分類文書が残っているかを判断し(ステップ309)、残っていればステップ303に戻り、ステップ303から308までを繰り返す。図8に相当するデータは分類文書ごとに異なるので、分類文書ごとにそれぞれ格納される。一方、分類文書が残っていなければ分類処理を終了する。
【0041】
次に、第1のステップで格納された、類似度算出結果を使用して、登録文書から削除する文献の候補を出力する第2のステップについて説明する。図4はその手順を示すフローチャートである。
【0042】
はじめに初期化部201により類似度度算出結果格納バッファ部253以外のバッファをクリアする(ステップ351)。次に、入力装置2より、第1のステップで用いた分類文書のIDとその分類文書の正解分野を入力する(ステップ352)。
【0043】
次に、ステップ352で入力された分類文書IDに対応する類似度算出結果と正解分野をもとに、各登録文書について、登録分野と正解分野が一致していれば正解影響度として、一致していなければ不正解影響度として、類似度に確度を掛け合せた値を正解/不正解影響度格納バッファ部254に加算する(ステップ353)。類似度と確度を掛け合わせることで、一種の重み付けを行うことができる。この正解/不正解影響度は登録文書ごとに管理される。
【0044】
分類文書IDが1で、正解分野が計測機器であった場合、類似度算出結果が図8の状態であるとすると、登録文書ID=1023の文書は、その分野が正解分野と異なるので、その類似度に確度を掛け合せた値0.378×0.136=0.051を不正解影響度に加算して格納する。登録文書ID=5933の文書は、その分野が正解分野と同じなので、その類似度に確度を掛け合せた値0.172×0.062=0.011を正解影響度に加算して格納する。
【0045】
ここでは、正解/不正解影響度に加算する値として類似度に確度を掛け合せた値を利用しているが、確度に閾値を設けて、その閾値よりも確度が大きい場合にのみ類似度を正解/不正解影響度に加算する方式であっても構わない。
【0046】
続いて、処理中の分類文書の類似度算出結果が残っているか判断し(ステップ354)、残っている場合はステップ353に戻り、ステップ353の処理を繰り返す。この処理の対象となるのはすべての類似度算出結果でも構わないし、類似度の高いものから何件、または類似度や確度が一定の値以上のものでも構わない。一方、処理する類似度算出結果が残っていない場合はステップ355に進む。
【0047】
ステップ355では、他に正解情報が残っているかを判断し(ステップ355)、残っている場合はステップ352に戻り、上述したステップ352から354までの処理を繰り返し、残っていなければ、ステップ356に進む。ここで、正解情報が残っている場合、すなわち別の分類文書による計算結果を用いる場合は、その正解情報に対応する分類文書IDで管理された算出結果を用いることになる。
【0048】
このようにして、登録文書ごとにいくつかの分類文書についてそれぞれ正解/不正解影響度を求め、登録文書ごとに格納した結果となる、正解/不正解影響度格納バッファ部254の例を図10に示す。例えば登録文書ID「1」の文書について、登録分野は「エンジン」であり、正解影響度は0.00249、不正解影響度は0.25382、となる。正解影響度の大きい登録文書は、所定の分類文書と同じ分野であり、一般的に類似度も高く、確度も高いということができる。一方、不正解影響度の大きい登録文書は、所定の分類文書と異なる分野であるが、類似度や確度が高く、紛らわしい文書であるということができる。
【0049】
ステップ356では、ステップ353で正解/不正解影響度格納バッファ部255に格納した、正解/不正解影響度をもとに、データベースに登録されている各登録文書について「削除文書候補点数」を算出する。この削除文書候補点数の算出式の例を図11に示す。ここで、削除文書候補点数は、「不正解影響度÷(正解影響度+0.001)」で求められる。分母となる正解影響度に0.001を加えているのは、正解影響度が0である文書があった場合に0による除算エラーが発生するのを防ぐためである。この式によれば、正解影響度に比して不正解影響度が大きい登録文書が削除文書候補点数が高くなる。削除文書候補点数算出部208は算出した結果を削除文書候補格納バッファ部255に格納する。
【0050】
図12の例は、図10の類似度算出結果格納バッファ部253に格納されている類似度算出結果を図11に示す削除文書候補点数の算出式を用いて点数を算出した結果を表す。この結果は削除文書候補格納バッファ部255に格納される。例えば登録文書ID「1」の登録文書について、その削除文書候補点数は「0.25382/(0.00249+0.001」で求められ、その値は72.72779となる。
【0051】
次に、正解/不正解影響度データが残っているか、すなわち削除候補点数を算出する登録文書が残っているかを判断し(ステップ357)、残っていればステップ356に戻り、ステップ356を繰り返す。正解/不正解影響度データが残っていない場合はステップ358に進む。
【0052】
ステップ358では、ステップ356で算出した削除文書候補点数を用いて削除文献候補格納バッファ部255の内容をソートし、削除文書候補点数の高い文書順に削除文書候補として出力する。図13に、削除文書候補の出力例を示す。登録文書IDが9924の文書は、計測機器分野の文書で、削除文書候補点数が129.16973であることを表す。
【0053】
以上で、第2のステップである登録文書削除候補出力処理を終了する。ユーザはこの出力を見て、データベースから削除すべき登録文書を選択することができる。この選択まで、自動的に実行させることも可能である。
【0054】
複数の分野と関連の深い(類似性の高い)分野の文書は、1つの分野に特定することが難しく、特定した分野が正解分野と一致する確率も低くなる傾向にある。本発明では確度が低い場合には不正解への影響度として加算する値を低くするので、そのような分野の文書が優先的に削除されることによる、分類精度の低下を抑えることができる。
【0055】
また、分類する文書に分野の特徴を表す単語が少ないような分類処理に不向きな文書を分類した場合、正解分野に特定される確率は低くなる。このような文書を分類処理した場合、分野特定結果が不正解であっても、確度が小さければ不正解影響度として類似度が加算されにくくなるため、削除文書候補の抽出時に不適当な候補が抽出されることを少なくできる。
【0056】
【発明の効果】
以上説明したように、この発明によれば、分類の精度を維持しながら、データベースのメンテナンスを行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態に係わる類似文書検索装置のハードウェア構成を示すブロック図。
【図2】本発明の実施形態に係わる類似文書検索装置の制御装置の機能ブロック図。
【図3】文書分類処理の流れを示すフローチャート図。
【図4】削除文書の候補を出力する処理の流れを示すフローチャート図。
【図5】分類文書の例を示す図。
【図6】登録文書の例を示す図。
【図7】類似度算出結果の例を示す図。
【図8】確度算出の例を示す図。
【図9】分類結果の出力例を示す図。
【図10】正解/不正解影響度の例を示す図。
【図11】削除文書候補点数計算式の例を示す図。
【図12】削除文書候補格納の例を示す図。
【図13】削除文書候補出力の例を示す図。
【符号の説明】
1…制御装置、2…入力装置、3…表示装置、4…外部記憶装置、200…プログラム部、201…初期化部、202…分類文書入力部、203…登録文書読み込み部、204…類似度算出部、205…確度算出部、206…分類結果出力部、207…正解/不正解影響度格納部、208…削除文書候補点数算出部、209…削除文書候補出力部、250…バッファ部、251…分類文書格納バッファ部、252…登録文書格納バッファ部、253…類似度算出結果格納バッファ部、254…正解/不正解影響度格納バッファ部、255…削除文書候補格納バッファ部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document search technique, and relates to a management device and a management method of a database used for search.
[0002]
[Prior art]
In recent years, a large amount of digitized document data has been distributed, and a technology for automatically classifying to which field the document data belongs has been put to practical use. As a general technique, a plurality of documents representing various fields are registered in a database, and a value indicating the degree of similarity between the input document and the registered document (hereinafter referred to as “similarity”). ) Is determined using a vector space method or the like, and the field to which the input document is supposed to belong is specified with reference to the field to which the similar document belongs.
[0003]
Such an automatic document classification system uses the same database forever because new words that are representative of the field are used over time, or words that are used less frequently are used. This leads to a decrease in classification accuracy.
[0004]
In the case of automatically classified items, the field is rarely given as it is. It is manually judged whether the automatically classified result is correct, and based on the result, the correct / incorrect and similarity information are stored in a database. There has been a method of marking a registered document and deleting a document with a poor score from a database.
[0005]
As described above, conventionally, as a material for determining whether a document should be deleted from the database, information such as "whether or not the field identification result was correct" or "document in the database that became the key to field identification, Information such as "similarity with the document" has been used. As an example using such a method, there is a document classification device disclosed in JP-A-2001-155025.
[0006]
However, the fields to which the documents registered in the database belong are not all independent, and some fields are closely related. For example, the word "laser" may be used in a wide range of fields, such as printing equipment, medical equipment, storage devices, and measurement equipment. Such a document containing many words used in various fields is difficult to specify in one field in field specification, and is likely to be specified in a plurality of possible fields.
[0007]
Such a document belonging to a field that is highly relevant to a plurality of fields is likely to have the same similarity in the plurality of fields, and it is difficult to specify a single field. Such documents are also more likely to fail in field identification, but this is due to the characteristics of the field and not the specific documents registered in the database.
[0008]
When documents in fields that are difficult to answer correctly are classified, it is not possible to improve accuracy by preferentially deleting documents that affected incorrect answers, and conversely, documents in related fields are more likely to be deleted, This also leads to a decrease in the accuracy of specifying those fields.
[0009]
It is also conceivable that the words extracted from the document to be classified hardly include words representing the characteristics of the field registered in the database. Even in such a case, since the similarity between the document and the document registered in the database has the same overall value, the document is registered in the database based on the classification result of such a document. Determining the degree of adverse effects on a document and deleting it from the database will result in a decrease in accuracy.
[0010]
[Problems to be solved by the invention]
SUMMARY An advantage of some aspects of the invention is to provide a document classification device and a document classification method capable of maintaining a database while maintaining classification accuracy.
[0011]
[Means for Solving the Problems]
The present invention is a management device that manages a database that stores registered documents having field information, a first input unit that inputs a predetermined document, a reading unit that reads a registered document registered in the database, A similarity calculator that calculates a similarity between a predetermined document and the registered document; a similarity calculator that calculates a certainty based on the similarity calculated by the similarity calculator; A second input unit for inputting a field to which the document belongs; a discriminating unit for discriminating a match / mismatch between the field to which the predetermined document belongs and the field in which the registered document is registered; When it is determined that the field to which the document belongs and the field in which the registered document is registered match, a correct answer influence calculating means for calculating a correct influence based on the similarity and the accuracy, If the discriminating unit determines that the field to which the predetermined document belongs and the field in which the registered document is registered do not match, the correct answer for calculating the degree of incorrect answer impact based on the similarity and the accuracy The apparatus further comprises an influence degree calculating means, and a deleted document candidate point calculating means for calculating a deleted document candidate point from the correct answer influence degree and the incorrect answer influence degree.
[0012]
According to such a configuration, it is possible to maintain the database while maintaining the accuracy of the classification.
[0013]
The present invention is a database management method for managing a database recording registered documents having field information, a first input step of inputting a predetermined document, a reading step of reading a registered document registered in the database, A similarity calculating step of calculating a similarity between the predetermined document and the registered document; a probability calculating step of calculating a certainty based on the similarity calculated in the similarity calculating step; A second input step of inputting a field to which the document belongs, and a discriminating step of discriminating a match / mismatch between the field to which the predetermined document input in the second input step belongs and the field in which the registered document is registered. In the determining step, the means determines that the field to which the predetermined document belongs and the field in which the registered document is registered match. If it is different, a correct answer influence calculating step of calculating a correct influence based on the similarity and the accuracy, a field to which the determination unit belongs to the predetermined document, and a field in which the registered document is registered If it is determined that does not match, the correct answer impact calculating step of calculating the incorrect answer impact based on the similarity and the accuracy, the deleted document candidate score from the correct answer impact and the incorrect answer impact Calculating the number of deleted document candidate points to be calculated.
[0014]
According to such a configuration, it is possible to maintain the database while maintaining the accuracy of the classification.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Before describing a specific configuration of the present invention, an outline of the present invention will be described to assist understanding of the present invention. In the present invention, in order to perform database maintenance, a user inputs a document that is known to belong to a predetermined field in advance, and causes the document classification device to perform a classification operation. Here, a document input by the user is referred to as a “classified document”, and a field to which the user belongs in advance is referred to as a “correct answer field”.
[0016]
When classifying a document using this classification document, the document classification apparatus uses the similarity between the classification document and a document registered in the database (hereinafter referred to as a “registered document”), and the similarity and similarity. The accuracy calculated from the number of words referred to at the time of calculating the degree is calculated.
[0017]
Next, if the fields in which the registered documents are classified (hereinafter referred to as “registered fields”) and the correct fields in the above-mentioned classified documents are different from those in the case where they match, this will affect the identification of those fields. A value indicating how reliable the specified result is based on information such as the similarity with the specified document and the similarity with the compared document and the number of words used in the comparison when the field is specified (hereinafter referred to as “accuracy”). And the correct answer influence degree and the incorrect answer influence degree, respectively. That is, for a certain registered document, the similarity and certainty are obtained for the first classified document. Subsequently, when the registered field of this registered document matches the correct answer field of the classification document, the degree of correct answer influence is accumulated. If the registered field and the correct answer field do not match, the degree of incorrect answer influence is accumulated.
[0018]
This operation is repeated using a plurality of types of classified documents, and the correct answer influence and the incorrect answer influence are accumulated for each registered document and stored for each registered document.
[0019]
Based on the accumulated correct answer influence degree and incorrect answer influence degree (hereinafter collectively referred to as “correct answer / incorrect answer influence degree”), a deleted document candidate score for each registered document is calculated. The deleted document candidate score is obtained by dividing the incorrect answer influence degree by the correct answer influence degree. For a document having a higher incorrect answer influence degree than the correct answer influence degree, the deleted document candidate score becomes larger. In maintenance of the database, a document having a large number of candidates for a deleted document is extracted as a candidate for a deleted document.
[0020]
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a hardware configuration of a similar document search device according to an embodiment of the present invention. This apparatus is configured as one function on a computer having a general architecture.
[0021]
As shown in FIG. 1, the similar document search device includes a
[0022]
FIG. 2 shows a configuration of the
[0023]
The
[0024]
The
The registered
[0025]
The
[0026]
The
[0027]
The classification
[0028]
Based on the similarity calculation result information stored in the similarity calculation
[0029]
The deleted document candidate
[0030]
Next, the operation of the document classification device according to one embodiment of the present invention will be described below with reference to the flowcharts of FIGS.
[0031]
This embodiment is roughly divided into a first step shown in FIG. 3 and a second step shown in FIG. In the first step, in order to select a document to be deleted from the documents registered in the document classifying device, the user performs a classification process using a classification document in which the correct answer field is known in advance, and the processing result is determined. This is the step of accumulating. The second step is a step of outputting document candidates to be deleted based on the accumulated processing results.
[0032]
First, a first step of accumulating the classification processing result will be described with reference to FIG. First, the user uses the
[0033]
Next, the classified
[0034]
Subsequently, the registered
[0035]
Next, the
[0036]
At this time, a certain number of cases may be stored from the one with the highest similarity, or only those having a certain degree of similarity or more may be stored. In the storage example of the similarity calculation result in FIG. 7, for the document with the classification document ID “1”, the first data related to the registered document is such that the document ID is 1023, the registered field is the storage device, and the similarity is 0.378. Is stored. Hereinafter, it is stored in the same manner as the second and third.
[0037]
Next, it is determined whether or not there remains a registered document for which the similarity has not been calculated (step 306). If there is, the process returns to step 304 to repeat the operations of
[0038]
Next, in
[0039]
Next, each information calculated up to step 307 is output (step 308). This output is preferably in the form of outputting the information shown in FIG. 8, but it is also possible to sort in the order of similarity and output the field information of the registered fields assigned in order from the top document. FIG. 9 shows an example in which field information is output after sorting. Here, for each registered field, the sum of the similarities of the registered documents included in the field is calculated and arranged in descending order. This output is not used in the subsequent processing, but has the effect of making it easier for the user to grasp the classification situation.
[0040]
When the classification result is output, it is determined whether or not another classification document to be used remains (step 309). If the classification document remains, the process returns to step 303, and steps 303 to 308 are repeated. Since the data corresponding to FIG. 8 differs for each classified document, it is stored for each classified document. On the other hand, if no classification document remains, the classification processing ends.
[0041]
Next, the second step of outputting a candidate for a document to be deleted from a registered document using the similarity calculation result stored in the first step will be described. FIG. 4 is a flowchart showing the procedure.
[0042]
First, buffers other than the similarity calculation result
[0043]
Next, based on the similarity calculation result corresponding to the classification document ID input in
[0044]
If the classification document ID is 1 and the correct answer field is a measurement device, and the similarity calculation result is in the state of FIG. 8, the document with the registered document ID = 1023 has a different field from the correct answer field. A value obtained by multiplying the degree of similarity by the degree of accuracy, 0.378 × 0.136 = 0.051, is added to the degree of influence of the incorrect answer and stored. Since the field of the registered document ID = 5933 has the same field as the correct answer field, a value obtained by multiplying the similarity by the accuracy, 0.172 × 0.062 = 0.011, is added to the correct answer influence degree and stored.
[0045]
Here, a value obtained by multiplying the similarity by the accuracy is used as a value to be added to the degree of influence of the correct / incorrect answer. A method of adding to the influence degree of incorrect answer may be used.
[0046]
Subsequently, it is determined whether or not the similarity calculation result of the classified document being processed remains (step 354). If the similarity calculation result remains, the process returns to step 353 and the process of
[0047]
In
[0048]
FIG. 10 shows an example of the correct answer / incorrect answer influence
[0049]
In
[0050]
The example of FIG. 12 shows the result of calculating the score of the similarity calculation result stored in the similarity calculation result
[0051]
Next, it is determined whether correct / incorrect answer influence data remains, that is, whether a registered document for calculating a deletion candidate score remains (step 357), and if it remains, returns to step 356 and repeats step 356. When there is no correct answer / incorrect answer influence data, the process proceeds to step 358.
[0052]
In
[0053]
This is the end of the registered document deletion candidate output process of the second step. The user can view the output and select a registered document to be deleted from the database. Up to this selection, it is also possible to automatically execute the selection.
[0054]
Documents in a field closely related to a plurality of fields (high similarity) are difficult to specify in one field, and the probability that the specified field matches the correct field tends to be low. In the present invention, when the accuracy is low, the value to be added as the degree of influence on the incorrect answer is reduced, so that a decrease in the classification accuracy due to the preferential deletion of a document in such a field can be suppressed.
[0055]
Further, when a document that is unsuitable for the classification process in which the words to be classified have few words representing the characteristics of the field is classified, the probability of being specified as the correct answer field decreases. When such a document is classified, even if the field identification result is incorrect, if the accuracy is small, it is difficult to add the similarity as the influence of the incorrect answer. Extraction can be reduced.
[0056]
【The invention's effect】
As described above, according to the present invention, it is possible to perform database maintenance while maintaining the accuracy of classification.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a hardware configuration of a similar document search device according to an embodiment of the present invention.
FIG. 2 is a functional block diagram of a control device of the similar document search device according to the embodiment of the present invention.
FIG. 3 is a flowchart showing the flow of a document classification process.
FIG. 4 is a flowchart showing the flow of processing for outputting a candidate for a deleted document.
FIG. 5 is a diagram showing an example of a classified document.
FIG. 6 is a diagram showing an example of a registered document.
FIG. 7 is a diagram showing an example of a similarity calculation result.
FIG. 8 is a diagram showing an example of accuracy calculation.
FIG. 9 is a diagram showing an output example of a classification result.
FIG. 10 is a diagram showing an example of a correct answer / incorrect answer influence degree.
FIG. 11 is a diagram showing an example of a deleted document candidate point calculation formula.
FIG. 12 is a diagram showing an example of storing deleted document candidates.
FIG. 13 is a view showing an example of output of a deleted document candidate.
[Explanation of symbols]
DESCRIPTION OF
Claims (5)
所定の文書を入力する第一入力手段と、
前記データベースに登録された登録文書を読み込む読み込み手段と、
前記所定の文書と前記登録文書との間の類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度をもとに、確度を算出する確度算出手段と、
前記所定の文書の属する分野を入力する第二入力手段と、
前記所定の文書の属する分野と、前記登録文書が登録されている分野との一致/不一致を判別する判別手段と、
前記判別手段が前記所定の文書の属する分野と、前記登録文書が登録されている分野とが一致していると判別した場合、前記類似度と前記確度をもとに正解影響度を算出する正解影響度算出手段と、
前記判別手段が前記所定の文書の属する分野と、前記登録文書が登録されている分野とが一致していないと判別した場合、前記類似度と前記確度をもとに不正解影響度を算出する不正解影響度算出手段と、
前記正解影響度及び前記不正解影響度から削除文書候補点数を算出する削除文書候補点数算出手段とを具備することを特徴とするデータベース管理装置。A management device that manages a database that records registered documents having field information,
First input means for inputting a predetermined document;
Reading means for reading a registered document registered in the database;
Similarity calculating means for calculating the similarity between the predetermined document and the registered document,
Based on the similarity calculated by the similarity calculating means, a certainty calculating means for calculating the certainty,
Second input means for inputting a field to which the predetermined document belongs;
Determining means for determining a match / mismatch between a field to which the predetermined document belongs and a field in which the registered document is registered;
When the discriminating unit determines that the field to which the predetermined document belongs and the field in which the registered document is registered match, a correct answer for calculating a correct answer impact based on the similarity and the accuracy Impact degree calculating means;
When the determining unit determines that the field to which the predetermined document belongs and the field in which the registered document is registered do not match, an incorrect answer influence degree is calculated based on the similarity and the accuracy. Means for calculating the degree of influence of an incorrect answer;
A database management apparatus comprising: a deleted document candidate score calculating unit configured to calculate a deleted document candidate score from the correct answer impact and the incorrect answer impact.
前記登録文書ごとにこれらの正解影響度及び不正解影響度を累算することを特徴とする請求項1記載のデータベース管理装置。The database management device is capable of inputting a plurality of predetermined documents, and the correct answer influence calculating unit and the incorrect answer influence calculating unit are configured to correct the correct answer influence or the incorrect answer influence for each of the plurality of predetermined documents. Is calculated,
2. The database management apparatus according to claim 1, wherein the correct answer influence degree and the incorrect answer influence degree are accumulated for each of the registered documents.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001299138A JP3602084B2 (en) | 2001-09-28 | 2001-09-28 | Database management device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001299138A JP3602084B2 (en) | 2001-09-28 | 2001-09-28 | Database management device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003108576A JP2003108576A (en) | 2003-04-11 |
JP3602084B2 true JP3602084B2 (en) | 2004-12-15 |
Family
ID=19119937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001299138A Expired - Fee Related JP3602084B2 (en) | 2001-09-28 | 2001-09-28 | Database management device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3602084B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4916686B2 (en) * | 2005-08-18 | 2012-04-18 | 川崎重工業株式会社 | Ship operation diagnosis method and ship operation diagnosis system |
JP4521459B2 (en) * | 2008-12-18 | 2010-08-11 | 株式会社日立製作所 | Document classification apparatus, document classification method, and program |
JP6611268B2 (en) * | 2017-05-01 | 2019-11-27 | 日本電信電話株式会社 | Identification device, analysis system, identification method, and identification program |
JP6924450B2 (en) * | 2018-11-06 | 2021-08-25 | データ・サイエンティスト株式会社 | Search needs evaluation device, search needs evaluation system, and search needs evaluation method |
JP6805313B2 (en) * | 2019-10-04 | 2020-12-23 | 日本電信電話株式会社 | Specific device, specific method and specific program |
-
2001
- 2001-09-28 JP JP2001299138A patent/JP3602084B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003108576A (en) | 2003-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100688121B1 (en) | Method and apparatus for retrieving, accumulating, and sorting table-formatted data | |
US7444325B2 (en) | Method and system for information extraction | |
US6662189B2 (en) | Method of performing data mining tasks for generating decision tree and apparatus therefor | |
US20060085405A1 (en) | Method for analyzing and classifying electronic document | |
JP2008027072A (en) | Database analysis program, database analysis apparatus and database analysis method | |
US7822700B2 (en) | Method for using lengths of data paths in assessing the morphological similarity of sets of data by using equivalence signatures | |
US20060184474A1 (en) | Data analysis apparatus, data analysis program, and data analysis method | |
US10877989B2 (en) | Data conversion system and method of converting data | |
JP4977420B2 (en) | Search index creation device | |
KR20130137048A (en) | Dictionary generation device, method, and program | |
WO2008062822A1 (en) | Text mining device, text mining method and text mining program | |
JP3602084B2 (en) | Database management device | |
US20140181124A1 (en) | Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents | |
US6424963B1 (en) | Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence | |
JP2006251975A (en) | Text sorting method and program by the method, and text sorter | |
JP2013130965A (en) | Data analysis device, data analysis method, and program | |
JP2008282111A (en) | Similar document retrieval method, program and device | |
JP2001155020A (en) | Device and method for retrieving similar document and recording medium | |
CN114021716A (en) | Model training method and system and electronic equipment | |
JP5164876B2 (en) | Representative word extraction method and apparatus, program, and computer-readable recording medium | |
JP2000305941A (en) | Data analyzer and its program storage medium | |
JPH0484366A (en) | Document kind discriminating device | |
US11797592B2 (en) | Document classification method, document classifier, and recording medium | |
US20090252415A1 (en) | Method for retrieving text blocks in documents | |
JP2002183667A (en) | Character-recognizing device and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040608 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040921 |
|
LAPS | Cancellation because of no payment of annual fees |