JP2006350749A

JP2006350749A - 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体

Info

Publication number: JP2006350749A
Application number: JP2005177078A
Authority: JP
Inventors: Atsuyuki Goto; 淳之後藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2005-06-17
Filing date: 2005-06-17
Publication date: 2006-12-28

Abstract

【課題】検索者が適合文書に指定をするという面倒な手続きを踏むことなく、検索文に適合する文書のみを検索する文書フィルタリング装置を提供する。
【解決手段】検索文に適合する文書をフィルタリングする文書フィルタリング装置において、文書ＤＢに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索部と、関連文書検索部により検索された複数の文書から、適合文書を抽出する適合文書抽出部と、関連文書検索部により検索された複数の文書から、不適合文書を抽出する不適合文書抽出部と、適合文書と不適合文書とに基づいて分類用パラメータを生成する学習部と、分類用パラメータの妥当性を検証して補正するプレフィルタリング部と、プレフィルタリング部で妥当性が検証された分類用パラメータを検索語として、関連文書検索部で再検索した結果を分類して適合文書を出力する分類部とを備えている。
【選択図】図１

Description

本発明は、文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体に関し、文書データ集合から関連する文書データのみを抽出する文書フィルタリングに関する。

文書検索では、いかに効率よく目的とする文書を探し当てるかが問題である。このため、従来の文書検索では、キーワードからなる検索式で文書検索を行い、ここで得られた検索結果に対して新たな検索式を立てて絞込み検索を行っていた。

しかし、妥当な検索式を作成するためには、検索する分野の専門知識が必要であったり、キーワードを見つけ出すための時間が必要になる等の問題があった。
さらに、検索結果の内容を一つ一つ吟味するまでは、得られた検索結果が適切な検索条件のもとに検索されたかどうか判断がつかない等の問題があった。

また、文書検索は、複数の文書群からユーザが求める適合文書を検索する文書フィルタリングの技術であるともいえる。この文書フィルタリングの技術は、ユーザが関連文書の検索結果から適合文書と不適合文書を選択し、それらを学習データとして分類用のパラメータを生成し、その分類用パラメータを使用して、文書群を適合文書と不適合文書とに分類し、不適合文書を削除して得られる適合文書を最終的な検索結果としている。

しかしながら、適合文書を指定するには、検索者が検索結果の内容を吟味し、その適合性を判断する必要がある。
一方、精度の要求されないおおまかな検索を行いたい場合もある。例えば、検索者自身が被検索対象に明確な印象、概念を持たない場合に、試しに被検索対象に近い説明をしていると思われる文章をどこかのＷＥＢページで見つけ、その文章を検索文に指定して検索を行い、その検索結果を見ながら、検索を進めるといったスタイルがこれに相当する。
こうした場合、検索者が検索結果から適合性を判断するのは難しく、従来の技術ではこうした状況を改善するには役に立たない。

本発明は、上述の実情を考慮してなされたものであって、検索者が適合文書に指定をするという面倒な手続きを踏むことなく、検索文に適合する文書のみを検索する文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体を提供することを目的とする。

上記課題を解決するために、請求項１に記載の発明は、電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング装置において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索部と、前記関連文書検索部により検索された複数の文書から、適合文書を抽出する適合文書抽出部と、前記関連文書検索部により検索された複数の文書から、不適合文書を抽出する不適合文書抽出部と、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習部と、前記分類用パラメータの妥当性を検証して補正するプレフィルタリング部と、前記プレフィルタリング部で妥当性が検証された分類用パラメータを検索語として、前記関連文書検索部で再検索した結果を分類して適合文書を出力する分類部とを備えることを特徴とする。

請求項２に記載の発明は、請求項１に記載の文書フィルタリング装置において、前記不適合文書抽出部は、前記適合文書の数と同数の不適合文書を抽出することを特徴とする。
請求項３に記載の発明は、請求項１に記載の文書フィルタリング装置において、前記適合文書抽出部は、入力した検索文が適合文書を抽出するのに十分な情報を含まない場合、フィルタリングを行わずに前記関連文書検索部で検索した結果を検索結果とすることを特徴とする。

請求項４に記載の発明は、電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング方法において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索ステップと、前記関連文書検索ステップにより検索された複数の文書から、適合文書を抽出する適合文書抽出ステップと、前記関連文書検索ステップにより検索された複数の文書から、不適合文書を抽出する不適合文書抽出ステップと、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習ステップと、前記分類用パラメータの妥当性を検証して補正するプレフィルタリングステップと、前記プレフィルタリングステップで妥当性が検証された分類用パラメータを検索語として、前記関連文書検索ステップで再検索した結果を分類して適合文書を出力する分類ステップとを備えることを特徴とする。

請求項５に記載の発明は、コンピュータに、請求項１乃至３のいずれかに記載の文書フィルタリング装置の機能を実現させるためのプログラムである。
請求項６に記載の発明は、コンピュータが読み取り可能な記録媒体であって、請求項５に記載のプログラムを記録したことを特徴とする記録媒体である。

本発明によれば、検索者が適合文書に指定をするという面倒な手続きを踏むことなく、通常の関連文書検索と同じ操作で、検索文に適合する文書のみを検索することができる。
通常の関連文書検索では、検索文を構成する単語の中で最大の（文書データベースにおける）出現頻度数が、予想される検索件数の最小になる。
しかし、本発明によってフィルタリングされた結果の検索件数は、通常の関連文書検索の場合の検索結果の件数よりもはるかに小さくなる（より絞り込まれる）。

以下、図面を参照して本発明の好適な実施形態について説明する。
図１は、本発明の実施形態に係る文書フィルタリング装置の機能構成を示すブロック図であり、同図において、文書フィルタリング装置２０は、検索者が指定した検索文から検索語を抽出する検索語抽出部２１、検索語や関連語に基づいて文書群からランキング検索する関連文書検索部２２、検索結果の中から検索者の操作に応じて適合文書を抽出する適合文書指定部２３、適合文書から関連語を抽出する関連語抽出部２４、検索結果の中から適合文書を抽出する適合文書抽出部２５、適合文書をもとに検索結果の中から不適合文書を抽出する不適合文書抽出部２６、適合文書と不適合文書を使用して分類用パラメータを生成する学習部２７、分類用パラメータの妥当性を検証して、分類用パラメータを補正するプレフィルタリング部２８、分類用パラメータを用いて、検索結果をフィルタリングして適合文書を取り出す分類部２９を含み構成されている。

この文書フィルタリング装置２０には、入出力部１０と文書データベース（ＤＢ）３０とが接続されている。
入出力部１０は、キーボードやマウス等の入力装置および液晶ディスプレイ等の表示装置により構成され、文書フィルタリング装置２０に対して、検索者からのフィルタリング要求や適合文書の選択を入力したり、フィルタリング結果を提示する。なお、入出力部１０と文書フィルタリング装置２０とが直接接続するのに限るものではなく、例えば、ネットワークを介して接続するようにしてもよい。

文書ＤＢ３０は、ハードディスクドライブのような大容量の記憶装置により構成され、電子化された複数の文書を文書群として維持管理し、関連文書検索部２２の検索要求に対して文書群に関する情報を提供する。なお、文書ＤＢ３０と文書フィルタリング装置２０とが直接接続するのに限るものではなく、例えば、文書ＤＢ３０がネットワークを介して接続された記憶装置であってもよいし、または文書データベースサーバを用いてもよい。

検索語抽出部２１は、検索者が入出力部１０によって入力した検索文を受け取り、この検索文から形態素解析等を行って検索語を抽出し、抽出した検索語を関連文書検索部２２へ渡す。ここで、入力される検索文の長さは、１文、１段落や１文書のいずれのものであってもよい。
また、抽出された検索語が多い場合には、検索文中での出現頻度が多いものの上位から所定数を選択するようにしてもよい。

関連文書検索部２２は、適合文書を検索者自身が選択すると予め指定されていた場合には、検索語抽出部２１または関連語抽出部２４から起動され、検索語や関連語等を基に文書ＤＢ３０をランキング検索し、検索結果を一覧表の形式にして入出力部１０に渡す。入出力部１０は、検索結果を一覧表として表示装置へ表示し、検索者に適合文書を選択させる。入出力部１０は、検索者が検索結果の内容を吟味して選択した適合文書（複数可）を適合文書指定部２３へ渡す。

適合文書指定部２３は、入出力部１０から受け取った、検索者が選択した適合文書を文書ＤＢ３０から取り出して、関連語抽出部２４へ渡す。
関連語抽出部２４は、渡された適合文書から形態素解析等を行って関連語を抽出し、関連文書検索部２２に渡す。
関連語抽出および文書検索、適合文書選択を複数回繰り返すことにより、検索者が所望する適合文書が検索結果の上位に現れるようになる。これは、検索結果が少ない場合や検索対象について明確な概念を有する場合には有効である。

また、関連文書検索部２２は、適合文書を装置側で選択すると予め指定されていれば、検索語抽出部２１から起動され、検索語や分類用パラメータを基に文書ＤＢ３０をランキング検索し、検索結果を適合文書抽出部２５へ渡す。関連文書検索部２２がプレフィルタリング部２８から起動された場合には、検索結果を分類部２９へ渡す。

適合文書抽出部２５は、渡された検索結果から適合文書を抽出し、不適合文書抽出部２６へ検索結果と適合文書とを渡す。
図２のフローチャートを用いて、適合文書抽出部２５の処理手順を説明する。図２において、ｎ、ｍ、ｐ、αは、外部から文書フィルタリング装置２０に与えるパラメータとし、ｐは適合文書として抽出する文書数（例えば、７程度の値）、αは適合文書とみなす類似度の閾値、ｎは関連文書検索結果から適合文書の候補として抽出する文書数、ｍは適合文書の文書数がｐに達しなかったときに追加する文書数とする。

まず、検索者が指定した検索文の文書ベクトルＣを求める（ステップＳ１）。
文書ベクトルは、次のようにして求める。
検索文から形態素解析等により単語を取り出し、例えば単語のｔｆ×ｉｄｆ値を計算する。ここで、ｔｆはterm frequencyで単語が文書内に出現する頻度、ｉｄｆはinverse document frequencyでＮを文書数、ｄｆを単語が出現する文書の頻度とした場合、ｌｏｇ（Ｎ／ｄｆ）で表現される。
単語のｔｆ×ｉｄｆ値が大きい上位の単語を取り出してベクトルを生成し、線形変換を施すことにより正規化した文書ベクトルＣを生成する。ただし、文書ベクトルを生成する方法は、上記に限定されるものではない。また、代表的な単語の数も固定数でなく、検索文のデータ量に応じて動的に変化するようにしてもよい。

次に、検索文の文書ベクトルの次元数（上例では、代表的な単語の数）が小さ過ぎる場合（ステップＳ２のＮＯ）、適合文書抽出は行わず、関連文書検索部２２の検索結果を入出力部１０へ通知するようにして処理を終了する。

関連文書検索部２２で検索した結果の上位からｎ個の文書を選択し、文書集合Ｓとする（ステップＳ３）。
文書集合Ｓのすべての文書を選択していない場合には（ステップＳ４のＮＯ）、文書集合Ｓから文書を１つ選択し、選択した文書の文書ベクトルＤを求め（ステップＳ６）、文書ベクトルＣと文書ベクトルＤとにより類似度ｓｉｍ（Ｃ，Ｄ）を計算し、ｓｉｍ（Ｃ，Ｄ）の値で半整列して、結果を優先順序キューＱに入れる（ステップＳ７）。

優先順位キューＱのキューサイズがｐ以下であれば（ステップＳ８のＮＯ）、ステップＳ４に戻り次の文書の処理を続ける。
一方、優先順位キューＱのキューサイズがｐ以上の場合（ステップＳ８のＹＥＳ）、優先順位キューＱの先頭要素の類似度（最小値）が閾値α以上であれば（ステップＳ９のＹＥＳ）、優先順序キューＱ内の文書を適合文書Ｒとして（ステップＳ１０）、適合文書抽出処理を終了する。
他方、優先順位キューＱの先頭要素の類似度（最小値）が閾値α以下であれば（ステップＳ９のＮＯ）、優先順位キューＱの先頭要素を削除して（ステップＳ１１）、ステップＳ４へ戻る。

また、文書集合Ｓ中のｎ個の文書をすべてに対して類似度を計算しても、優先順序キューＱ内の要素の最小値が閾値α以上にならない場合（ステップＳ４のＹＥＳ）、関連文書検索部２２で検索された結果からさらにｍ個の文書を選択して文書集合Ｓへ追加し、文書集合Ｓの文書数をｎ（＝ｎ＋ｍ）として（ステップＳ５）、ステップＳ６以降を実行する。

このようにして、検索者から与えられた検索文の文書ベクトルＣと検索結果の各文書の文書ベクトルＤとの類似度ｓｉｍ（Ｃ，Ｄ）をベクトル空間上で行い、類似度ｓｉｍ（Ｃ，Ｄ）が閾値α以上のｐ個の適合文書を抽出することができる。

不適合文書抽出部２６は、文書間の類似度を決めて、適合文書をもとにベクトル空間上で類似度計算を行うことで不適合文書を適合文書と同じ数だけ抽出して、適合文書と不適合文書とを学習部２７へ渡す。
図３のフローチャートを用いて、不適合文書抽出部２６の処理手順を説明する。図３において、ｎ、ｍ、ｐ、αは、外部から文書フィルタリング装置に与えるパラメータとし、ｐは不適合文書として抽出する文書数であり適合文書の文書数と同じで、αは適合文書とみなす類似度の閾値、ｎは関連文書検索結果から不適合文書の候補として抽出する文書数、ｍは不適合文書の文書数がｐに達しなかったときに追加する文書数とする。

まず、適合文書の集合Ｒに属する各文書の文書ベクトルから、例えば、平均ベクトルを計算することによって中心ベクトルＣを求める（ステップＳ２１）。
関連文書検索部２２での検索結果の上位からｎ個の文書を選択して文書集合Ｓとする（ステップＳ２２）。
文書集合Ｓのすべての文書について処理した場合（ステップＳ２３のＹＥＳ）、関連文書検索部２２での検索結果からｍ個の文書をさらに選択して文書集合Ｓ中の文書数をｎからｎ＋ｍに拡張し（ステップＳ２４）、ステップＳ２３へ戻って、文書集合Ｓ中で未選択の文書の文書ベクトルＤに対して、上述と同じことを繰り返す。

文書集合Ｓから未選択の文書を１つ選択して、上述のように文書ベクトルＤを求める（ステップＳ２５）。
文書ベクトルＤと中心ベクトルＣとの類似度ｓｉｍ（Ｃ，Ｄ）を計算し、類似度ｓｉｍ（Ｃ，Ｄ）の大きい順に半整列して、文書と類似度ｓｉｍ（Ｃ，Ｄ）を優先順序キューＱに入れる（ステップＳ２６）。

優先順序キューＱのサイズがｐ以下であれば（ステップＳ２７のＮＯ）、ステップＳ２３へ戻って他の処理していない文書に対して類似度を求める。
また、優先順序キューＱのサイズがｐ以上であれば（ステップＳ２７のＹＥＳ）、優先順序キューＱの先頭要素の値（最大値）が閾値α以下であれば（ステップＳ２８のＹＥＳ）、優先順序キューＱ内の文書を不適合文書Ｎとし（ステップＳ２９）、不適合文書の抽出は完了する。
しかし、優先順序キューＱの先頭要素の値（最大値）が閾値α以上であれば（ステップＳ２８のＮＯ）、優先順序キューＱの先頭要素を削除して（ステップＳ３０）、ステップＳ２３へ戻って他の処理していない文書に対して類似度を求める。
以上により、検索結果の中から適合文書Ｒと同じ数の不適合文書Ｎを求めることができる。

学習部２７は、適合文書と不適合文書を学習データとして使用してフィルタリング用の分類用パラメータを生成して、プレフィルタリング部２８へ渡す。ここでは、フィルタリングを次の線形分類器ｆ（ｘ）により行う場合の生成方法について説明する。
ｆ（ｘ）＝ｓｉｇｎ（ｗ・ｘ＋ｂ）（１）
ここで、ｘは学習データの文書ベクトル、ｗ・ｘはベクトルｗとベクトルｘの内積である。ｗとｂが学習により決定される分類用パラメータとなる。ｓｉｇｎ（ｘ）は、引数ｘ（スカラー値）の値が正なら＋１の値をとり、０以下なら−１の値をとる。

上記線形分類器ｆ（ｘ）におけるベクトルｗは次のように表される。
ｗ＝ΣＶ（ｗｉ）×ｗｉ（ｉ＝１〜ｎ：ｎは単語の数）
ここで、Ｖ（ｗｉ）は単語ｗｉの重み（単語の特徴量）、ｂは閾値である。ｗｉは各単語に対応している。また、単語の特徴量は、先に文書ベクトルで求めた代表となる単語のｔｆ×ｉｄｆ値を基にして求めた値である。

分類用パラメータは、上記線形分類器ｆ（ｘ）におけるベクトルｗおよび閾値ｂであり、これらの分類用パラメータを学習アルゴリズム（たとえば、線形ＳＶＭ、Fisher判別式、BayesのBinary Independence Model等のアルゴリズム）に基づいて決定する。このとき、学習データが適合文書の場合には、ｆ（ｘ）の値が＋１になるように、また、学習データが不適合文書の場合には、ｆ（ｘ）の値が−１になるように、Ｖ（ｗｉ），ｗｉ，ｂの値が決定される。

プレフィルタリング部２８は、分類用パラメータの妥当性を検証して、分類用パラメータを補正する。ここでは、上記式（１）で示されるフィルタリングを線形分類器ｆ（ｘ）により行う場合を例にとり説明する。

以下の説明で、学習データ中の各文書をｄｉ、分類用パラメータをｗｊ、ｗｊの特徴値をＶ（ｗｊ）で表すものとする。
まず、文書ｄｉのｓｃｏｒｅを初期化する。文書ｄｉが分類用パラメータｗｊを含むならば、文書ｄｉのｓｃｏｒｅに分類用パラメータｗｊの重みＶ（ｗｊ）を加算する。
次に、「ｓｃｏｒｅ（ｄｉ）＋ｂ」の値の正負を判定する。文書ｄｉが適合文書であるのに負であるか、文書ｄｉが不適合文書であるのに正である場合は、分類用パラメータｗに不適切なものがあることを意味する。

適合文書を用いてｆ（ｘ）＞０となるようにして生成された分類用パラメータに対して、不適合文書を適用したときにｆ（ｘ）＞０となってしまった場合には、このときの分類用パラメータを削除する。分類用パラメータを生成するときと同様にして追加し、追加した分類用パラメータの重みと閾値ｂを再計算して、「ｓｃｏｒｅ（ｄｉ）＋ｂ」が負の場合は、分類用パラメータの補正を終了し、０以上の場合は、再度分類用パラメータを追加する。

また、不適合文書を用いてｆ（ｘ）≦０となるようにして生成された分類用パラメータに対して、適合文書を適用したときにｆ（ｘ）≦０となってしまった場合には、このときの分類用パラメータを削除する。分類用パラメータを生成するときと同様にして追加し、追加した分類用パラメータの重みと閾値ｂを再計算して、「ｓｃｏｒｅ（ｄｉ）＋ｂ」が制の場合は、分類用パラメータの補正を終了し、０以下の場合は、再度分類用パラメータを追加する。

プレフィルタリング部２８は、分類用パラメータの補正が終了すると、妥当性が検証された分類用パラメータを検索語として関連文書検索部２２で再検索を行い、その再検索結果を分類部２９へ渡す。
分類部２９は、再検索結果を関連文書検索部２２から受け取る。このとき、再検索結果には、再検索された文書と分類用パラメータを使用したときのスコアが渡される。
分類部２９では、再検索結果中の文書のスコアが学習部２７で求められた（あるいは、プレフィルタリング部２８で修正された）閾値ｂを超えた文書を適合文書として取り出して入出力部１０へ渡して、入出力部１０は表示装置へ検索結果を表示する。

次に、図１をもとに、本実施形態に係る文書フィルタリング装置の動作を説明する。
検索者は、入出力部１０を用いて検索文を入力して、文書フィルタリング装置２０に対して、フィルタリング要求を出す。
文書フィルタリング装置２０は、フィルタリング要求を受け取ると次の処理を行う。
検索語抽出部２１が検索者の指定した検索文から検索語を抽出し、関連文書検索部２２の入力とする。
関連文書検索部２２は、文書ＤＢ３０から該当する文書をランキング検索し、検索結果を適合文書抽出部２５に渡す。

適合文書抽出部２５では、検索文を解析し、適合文書を抽出するのに十分な情報を含んでないと判断した場合は、入出力部１０を介して検索結果を検索者に提示する。この場合には、検索者は検索結果の内容を吟味して、適合している文書に対しては適合文書指定部２３を使用して、複数の適合文書を指定した後で、関連語抽出部２４がこの適合文書から関連語を抽出して再検索を行う。

一方、適合文書を抽出するのに十分な情報を含んでいると判断した場合には、適合文書抽出部２５は、検索文をもとに検索結果から自動的に抽出した適合文書を不適合文書抽出部２６に渡す。
不適合文書抽出部２６は、適合文書をもとに不適合文書を関連文書検索部２２での結果から適合文書と同数の不適合文書を自動的に抽出する。抽出した不適合文書は、適合文書とともに学習部２７に渡り、分類用パラメータを生成する学習データとなる。

学習部２７は、学習データを使用して、分類用パラメータを生成し、プレフィルタリング部２８では、分類用パラメータの妥当性を検証するとともに、適合文書が適合文書、不適合文書が不適合文書となるように分類用パラメータを補正する。
検証が終わると分類用パラメータを関連文書検索部２２に渡し、関連文書検索部２２は、分類用パラメータを検索語として再検索を行う。
分類部２９は、関連文書検索部２２から再検索結果を受け取り、フィルタリングを行って適合文書のみを取り出して、入出力部１０へ検索結果として渡す。
入出力部１０は、渡された検索結果を検索者に提示する。

次に、検索者側から見たデータの流れについて、従来の文書フィルタリング装置と本実施形態における文書フィルタリング装置の相違について説明する。

まず、従来の文書フィルタリング装置のデータの流れについて、図４の画面例を用いて説明する。
検索画面（Ａ）で、検索語「リコーのコピア」を入力して、検索実行ボタンを押すと画面（Ｂ１）になり、数千、数万になる検索結果が表示される。
この検索結果では、関連度の高い一部の結果が表示されるが、関連度が低く計算された検索者の欲しい結果が表示されない可能性がある。
そのため、検索結果の文書の内容を確認し、適合していると思われる文書を適合文書とし選択し（画面（Ｂ１）では○が付けられている）、検索実行ボタンを押して再検索を行う。

すると、画面（Ｂ２）になり画面（Ｂ１）で適合文書として指定した文書が検索上位にくる。また、それに合わせて適合文書と関連する文書が検索結果の上位に出現するようになる（適合性フィードバック検索）。画面（Ｂ２）における検索結果をさらに良くするために、適合文書を指定して、適合性フィードバック検索を行う。

画面（Ｂ１）〜（Ｂ２）の操作を複数回繰り返すと画面（Ｃ）のようになり、検索上位に適合文書が並ぶようになる。この状態で、フィルタリングボタンを押すと、文書ＤＢで管理されている文書群の中で適合文書と類似する文書がフィルタリングされて画面（Ｄ）に表示される。ここで、画面（Ｃ）の検索結果には、適合文書よりも関連しない文書のほうが非常に多く含まれているのが普通であるが、画面（Ｄ）の検索結果には適合文書と関連しない文書は含まれない。また、画面（Ｄ）には、画面（Ｂ１），（Ｂ２），（Ｃ）で指定した適合文書がフィルタリング結果一覧として必ず現れる。

次に、本実施形態における文書フィルタリング装置のデータの流れについて、図５の画面例を用いて説明する。
本実施形態における文書フィルタリング装置では、画面変遷は一回しかない。
即ち、検索画面（Ａ）で、検索語「リコーのコピア」を入力して、フィルタリングボタンを押すと、検索語抽出部２１→関連文書検索部２２→適合文書抽出部２５→不適合文書抽出部２６→学習部２７→プレフィルタリング部２８→関連文書検索部２２→分類部２９の順で実行され、分類部２９でフィルタリグされ適合文書のみになった検索結果が画面（Ｂ）に表示される。
ただし、検索画面（Ａ）で検索実行ボタンを押した場合と、検索文に適合文書を抽出するのに十分な情報を含んでないと適合文書抽出部が判断した場合には、従来の文書フィルタリング装置として動作する。

以上のように本実施形態を構成することによって、検索者が適合文書に指定をするという面倒な手続きを踏むことなく、通常の関連文書検索と同じ操作で、フィルタリングが行える。通常の関連文書検索では、検索文を構成する単語の中で最大の（文書データベースにおける）出現頻度数が、予想される検索件数の最小になる。
しかし、本実施形態によってフィルタリングされた結果の検索件数は、通常の関連文書検索の場合の検索結果の件数よりもはるかに小さくなる（より絞り込まれる）。

本発明は、上述した実施形態のみに限定されたものではない。上述した実施形態を構成する各機能をそれぞれプログラム化して、予め記録媒体に書き込んでおき、この記録媒体に記録されたこれらのプログラムをコンピュータに備えられたメモリあるいは記憶装置に格納し、そのプログラムを実行することによって、本発明の目的が達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
また、上記プログラムは、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。

なお、上述した実施形態の機能を実現するプログラムは、ディスク系（例えば、磁気ディスク、光ディスク等）、カード系（例えば、メモリカード、光カード等）、半導体メモリ系（例えば、ＲＯＭ、不揮発性メモリ等）、テープ系（例えば、磁気テープ、カセットテープ等）等のいずれの形態の記録媒体で提供されてもよい。あるいは、ネットワークを介して記憶装置に格納されたプログラムをサーバコンピュータから直接供給を受けるようにしてもよい。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このように、上述した実施形態の機能をプログラム化して流通させることによって、コストの低廉化、および可搬性や汎用性を向上させることができる。

本発明の実施形態に係る文書フィルタリング装置の機能構成を示すブロック図である。適合文書抽出部の処理手順を示すフローチャートである。不適合文書抽出部の処理手順を示すフローチャートである。従来の文書フィルタリング装置のデータの流れを説明するための画面例である。実施形態における文書フィルタリング装置のデータの流れを説明するための画面例である。

符号の説明

１０…入出力部、２０…文書フィルタリング装置、２１…検索語抽出部、２２…関連文書検索部、２３…適合文書指定部、２４…関連語抽出部、２５…適合文書抽出部、２６…不適合文書抽出部、２７…学習部、２８…プレフィルタリング部、２９…分類部、３０…文書データベース（ＤＢ）。

Claims

電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング装置において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索部と、前記関連文書検索部により検索された複数の文書から、適合文書を抽出する適合文書抽出部と、前記関連文書検索部により検索された複数の文書から、不適合文書を抽出する不適合文書抽出部と、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習部と、前記分類用パラメータの妥当性を検証して補正するプレフィルタリング部と、前記プレフィルタリング部で妥当性が検証された分類用パラメータを検索語として、前記関連文書検索部で再検索した結果を分類して適合文書を出力する分類部とを備えることを特徴とする文書フィルタリング装置。
請求項１に記載の文書フィルタリング装置において、前記不適合文書抽出部は、前記適合文書の数と同数の不適合文書を抽出することを特徴とする文書フィルタリング装置。
請求項１に記載の文書フィルタリング装置において、前記適合文書抽出部は、入力した検索文が適合文書を抽出するのに十分な情報を含まない場合、フィルタリングを行わずに前記関連文書検索部で検索した結果を検索結果とすることを特徴とする文書フィルタリング装置。
電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング方法において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索ステップと、前記関連文書検索ステップにより検索された複数の文書から、適合文書を抽出する適合文書抽出ステップと、前記関連文書検索ステップにより検索された複数の文書から、不適合文書を抽出する不適合文書抽出ステップと、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習ステップと、前記分類用パラメータの妥当性を検証して補正するプレフィルタリングステップと、前記プレフィルタリングステップで妥当性が検証された分類用パラメータを検索語として、前記関連文書検索ステップで再検索した結果を分類して適合文書を出力する分類ステップとを備えることを特徴とする文書フィルタリング方法。
コンピュータに、請求項１乃至３のいずれかに記載の文書フィルタリング装置の機能を実現させるためのプログラム。
コンピュータが読み取り可能な記録媒体であって、請求項５に記載のプログラムを記録したことを特徴とする記録媒体。