JP2006350749A - 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 - Google Patents
文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2006350749A JP2006350749A JP2005177078A JP2005177078A JP2006350749A JP 2006350749 A JP2006350749 A JP 2006350749A JP 2005177078 A JP2005177078 A JP 2005177078A JP 2005177078 A JP2005177078 A JP 2005177078A JP 2006350749 A JP2006350749 A JP 2006350749A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- search
- unit
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】検索者が適合文書に指定をするという面倒な手続きを踏むことなく、検索文に適合する文書のみを検索する文書フィルタリング装置を提供する。
【解決手段】検索文に適合する文書をフィルタリングする文書フィルタリング装置において、文書DBに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索部と、関連文書検索部により検索された複数の文書から、適合文書を抽出する適合文書抽出部と、関連文書検索部により検索された複数の文書から、不適合文書を抽出する不適合文書抽出部と、適合文書と不適合文書とに基づいて分類用パラメータを生成する学習部と、分類用パラメータの妥当性を検証して補正するプレフィルタリング部と、プレフィルタリング部で妥当性が検証された分類用パラメータを検索語として、関連文書検索部で再検索した結果を分類して適合文書を出力する分類部とを備えている。
【選択図】図1
【解決手段】検索文に適合する文書をフィルタリングする文書フィルタリング装置において、文書DBに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索部と、関連文書検索部により検索された複数の文書から、適合文書を抽出する適合文書抽出部と、関連文書検索部により検索された複数の文書から、不適合文書を抽出する不適合文書抽出部と、適合文書と不適合文書とに基づいて分類用パラメータを生成する学習部と、分類用パラメータの妥当性を検証して補正するプレフィルタリング部と、プレフィルタリング部で妥当性が検証された分類用パラメータを検索語として、関連文書検索部で再検索した結果を分類して適合文書を出力する分類部とを備えている。
【選択図】図1
Description
本発明は、文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体に関し、文書データ集合から関連する文書データのみを抽出する文書フィルタリングに関する。
文書検索では、いかに効率よく目的とする文書を探し当てるかが問題である。このため、従来の文書検索では、キーワードからなる検索式で文書検索を行い、ここで得られた検索結果に対して新たな検索式を立てて絞込み検索を行っていた。
しかし、妥当な検索式を作成するためには、検索する分野の専門知識が必要であったり、キーワードを見つけ出すための時間が必要になる等の問題があった。
さらに、検索結果の内容を一つ一つ吟味するまでは、得られた検索結果が適切な検索条件のもとに検索されたかどうか判断がつかない等の問題があった。
さらに、検索結果の内容を一つ一つ吟味するまでは、得られた検索結果が適切な検索条件のもとに検索されたかどうか判断がつかない等の問題があった。
また、文書検索は、複数の文書群からユーザが求める適合文書を検索する文書フィルタリングの技術であるともいえる。この文書フィルタリングの技術は、ユーザが関連文書の検索結果から適合文書と不適合文書を選択し、それらを学習データとして分類用のパラメータを生成し、その分類用パラメータを使用して、文書群を適合文書と不適合文書とに分類し、不適合文書を削除して得られる適合文書を最終的な検索結果としている。
しかしながら、適合文書を指定するには、検索者が検索結果の内容を吟味し、その適合性を判断する必要がある。
一方、精度の要求されないおおまかな検索を行いたい場合もある。例えば、検索者自身が被検索対象に明確な印象、概念を持たない場合に、試しに被検索対象に近い説明をしていると思われる文章をどこかのWEBページで見つけ、その文章を検索文に指定して検索を行い、その検索結果を見ながら、検索を進めるといったスタイルがこれに相当する。
こうした場合、検索者が検索結果から適合性を判断するのは難しく、従来の技術ではこうした状況を改善するには役に立たない。
一方、精度の要求されないおおまかな検索を行いたい場合もある。例えば、検索者自身が被検索対象に明確な印象、概念を持たない場合に、試しに被検索対象に近い説明をしていると思われる文章をどこかのWEBページで見つけ、その文章を検索文に指定して検索を行い、その検索結果を見ながら、検索を進めるといったスタイルがこれに相当する。
こうした場合、検索者が検索結果から適合性を判断するのは難しく、従来の技術ではこうした状況を改善するには役に立たない。
本発明は、上述の実情を考慮してなされたものであって、検索者が適合文書に指定をするという面倒な手続きを踏むことなく、検索文に適合する文書のみを検索する文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体を提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング装置において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索部と、前記関連文書検索部により検索された複数の文書から、適合文書を抽出する適合文書抽出部と、前記関連文書検索部により検索された複数の文書から、不適合文書を抽出する不適合文書抽出部と、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習部と、前記分類用パラメータの妥当性を検証して補正するプレフィルタリング部と、前記プレフィルタリング部で妥当性が検証された分類用パラメータを検索語として、前記関連文書検索部で再検索した結果を分類して適合文書を出力する分類部とを備えることを特徴とする。
請求項2に記載の発明は、請求項1に記載の文書フィルタリング装置において、前記不適合文書抽出部は、前記適合文書の数と同数の不適合文書を抽出することを特徴とする。
請求項3に記載の発明は、請求項1に記載の文書フィルタリング装置において、前記適合文書抽出部は、入力した検索文が適合文書を抽出するのに十分な情報を含まない場合、フィルタリングを行わずに前記関連文書検索部で検索した結果を検索結果とすることを特徴とする。
請求項3に記載の発明は、請求項1に記載の文書フィルタリング装置において、前記適合文書抽出部は、入力した検索文が適合文書を抽出するのに十分な情報を含まない場合、フィルタリングを行わずに前記関連文書検索部で検索した結果を検索結果とすることを特徴とする。
請求項4に記載の発明は、電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング方法において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索ステップと、前記関連文書検索ステップにより検索された複数の文書から、適合文書を抽出する適合文書抽出ステップと、前記関連文書検索ステップにより検索された複数の文書から、不適合文書を抽出する不適合文書抽出ステップと、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習ステップと、前記分類用パラメータの妥当性を検証して補正するプレフィルタリングステップと、前記プレフィルタリングステップで妥当性が検証された分類用パラメータを検索語として、前記関連文書検索ステップで再検索した結果を分類して適合文書を出力する分類ステップとを備えることを特徴とする。
請求項5に記載の発明は、コンピュータに、請求項1乃至3のいずれかに記載の文書フィルタリング装置の機能を実現させるためのプログラムである。
請求項6に記載の発明は、コンピュータが読み取り可能な記録媒体であって、請求項5に記載のプログラムを記録したことを特徴とする記録媒体である。
請求項6に記載の発明は、コンピュータが読み取り可能な記録媒体であって、請求項5に記載のプログラムを記録したことを特徴とする記録媒体である。
本発明によれば、検索者が適合文書に指定をするという面倒な手続きを踏むことなく、通常の関連文書検索と同じ操作で、検索文に適合する文書のみを検索することができる。
通常の関連文書検索では、検索文を構成する単語の中で最大の(文書データベースにおける)出現頻度数が、予想される検索件数の最小になる。
しかし、本発明によってフィルタリングされた結果の検索件数は、通常の関連文書検索の場合の検索結果の件数よりもはるかに小さくなる(より絞り込まれる)。
通常の関連文書検索では、検索文を構成する単語の中で最大の(文書データベースにおける)出現頻度数が、予想される検索件数の最小になる。
しかし、本発明によってフィルタリングされた結果の検索件数は、通常の関連文書検索の場合の検索結果の件数よりもはるかに小さくなる(より絞り込まれる)。
以下、図面を参照して本発明の好適な実施形態について説明する。
図1は、本発明の実施形態に係る文書フィルタリング装置の機能構成を示すブロック図であり、同図において、文書フィルタリング装置20は、検索者が指定した検索文から検索語を抽出する検索語抽出部21、検索語や関連語に基づいて文書群からランキング検索する関連文書検索部22、検索結果の中から検索者の操作に応じて適合文書を抽出する適合文書指定部23、適合文書から関連語を抽出する関連語抽出部24、検索結果の中から適合文書を抽出する適合文書抽出部25、適合文書をもとに検索結果の中から不適合文書を抽出する不適合文書抽出部26、適合文書と不適合文書を使用して分類用パラメータを生成する学習部27、分類用パラメータの妥当性を検証して、分類用パラメータを補正するプレフィルタリング部28、分類用パラメータを用いて、検索結果をフィルタリングして適合文書を取り出す分類部29を含み構成されている。
図1は、本発明の実施形態に係る文書フィルタリング装置の機能構成を示すブロック図であり、同図において、文書フィルタリング装置20は、検索者が指定した検索文から検索語を抽出する検索語抽出部21、検索語や関連語に基づいて文書群からランキング検索する関連文書検索部22、検索結果の中から検索者の操作に応じて適合文書を抽出する適合文書指定部23、適合文書から関連語を抽出する関連語抽出部24、検索結果の中から適合文書を抽出する適合文書抽出部25、適合文書をもとに検索結果の中から不適合文書を抽出する不適合文書抽出部26、適合文書と不適合文書を使用して分類用パラメータを生成する学習部27、分類用パラメータの妥当性を検証して、分類用パラメータを補正するプレフィルタリング部28、分類用パラメータを用いて、検索結果をフィルタリングして適合文書を取り出す分類部29を含み構成されている。
この文書フィルタリング装置20には、入出力部10と文書データベース(DB)30とが接続されている。
入出力部10は、キーボードやマウス等の入力装置および液晶ディスプレイ等の表示装置により構成され、文書フィルタリング装置20に対して、検索者からのフィルタリング要求や適合文書の選択を入力したり、フィルタリング結果を提示する。なお、入出力部10と文書フィルタリング装置20とが直接接続するのに限るものではなく、例えば、ネットワークを介して接続するようにしてもよい。
入出力部10は、キーボードやマウス等の入力装置および液晶ディスプレイ等の表示装置により構成され、文書フィルタリング装置20に対して、検索者からのフィルタリング要求や適合文書の選択を入力したり、フィルタリング結果を提示する。なお、入出力部10と文書フィルタリング装置20とが直接接続するのに限るものではなく、例えば、ネットワークを介して接続するようにしてもよい。
文書DB30は、ハードディスクドライブのような大容量の記憶装置により構成され、電子化された複数の文書を文書群として維持管理し、関連文書検索部22の検索要求に対して文書群に関する情報を提供する。なお、文書DB30と文書フィルタリング装置20とが直接接続するのに限るものではなく、例えば、文書DB30がネットワークを介して接続された記憶装置であってもよいし、または文書データベースサーバを用いてもよい。
検索語抽出部21は、検索者が入出力部10によって入力した検索文を受け取り、この検索文から形態素解析等を行って検索語を抽出し、抽出した検索語を関連文書検索部22へ渡す。ここで、入力される検索文の長さは、1文、1段落や1文書のいずれのものであってもよい。
また、抽出された検索語が多い場合には、検索文中での出現頻度が多いものの上位から所定数を選択するようにしてもよい。
また、抽出された検索語が多い場合には、検索文中での出現頻度が多いものの上位から所定数を選択するようにしてもよい。
関連文書検索部22は、適合文書を検索者自身が選択すると予め指定されていた場合には、検索語抽出部21または関連語抽出部24から起動され、検索語や関連語等を基に文書DB30をランキング検索し、検索結果を一覧表の形式にして入出力部10に渡す。入出力部10は、検索結果を一覧表として表示装置へ表示し、検索者に適合文書を選択させる。入出力部10は、検索者が検索結果の内容を吟味して選択した適合文書(複数可)を適合文書指定部23へ渡す。
適合文書指定部23は、入出力部10から受け取った、検索者が選択した適合文書を文書DB30から取り出して、関連語抽出部24へ渡す。
関連語抽出部24は、渡された適合文書から形態素解析等を行って関連語を抽出し、関連文書検索部22に渡す。
関連語抽出および文書検索、適合文書選択を複数回繰り返すことにより、検索者が所望する適合文書が検索結果の上位に現れるようになる。これは、検索結果が少ない場合や検索対象について明確な概念を有する場合には有効である。
関連語抽出部24は、渡された適合文書から形態素解析等を行って関連語を抽出し、関連文書検索部22に渡す。
関連語抽出および文書検索、適合文書選択を複数回繰り返すことにより、検索者が所望する適合文書が検索結果の上位に現れるようになる。これは、検索結果が少ない場合や検索対象について明確な概念を有する場合には有効である。
また、関連文書検索部22は、適合文書を装置側で選択すると予め指定されていれば、検索語抽出部21から起動され、検索語や分類用パラメータを基に文書DB30をランキング検索し、検索結果を適合文書抽出部25へ渡す。関連文書検索部22がプレフィルタリング部28から起動された場合には、検索結果を分類部29へ渡す。
適合文書抽出部25は、渡された検索結果から適合文書を抽出し、不適合文書抽出部26へ検索結果と適合文書とを渡す。
図2のフローチャートを用いて、適合文書抽出部25の処理手順を説明する。図2において、n、m、p、αは、外部から文書フィルタリング装置20に与えるパラメータとし、pは適合文書として抽出する文書数(例えば、7程度の値)、αは適合文書とみなす類似度の閾値、nは関連文書検索結果から適合文書の候補として抽出する文書数、mは適合文書の文書数がpに達しなかったときに追加する文書数とする。
図2のフローチャートを用いて、適合文書抽出部25の処理手順を説明する。図2において、n、m、p、αは、外部から文書フィルタリング装置20に与えるパラメータとし、pは適合文書として抽出する文書数(例えば、7程度の値)、αは適合文書とみなす類似度の閾値、nは関連文書検索結果から適合文書の候補として抽出する文書数、mは適合文書の文書数がpに達しなかったときに追加する文書数とする。
まず、検索者が指定した検索文の文書ベクトルCを求める(ステップS1)。
文書ベクトルは、次のようにして求める。
検索文から形態素解析等により単語を取り出し、例えば単語のtf×idf値を計算する。ここで、tfはterm frequencyで単語が文書内に出現する頻度、idfはinverse document frequencyでNを文書数、dfを単語が出現する文書の頻度とした場合、log(N/df)で表現される。
単語のtf×idf値が大きい上位の単語を取り出してベクトルを生成し、線形変換を施すことにより正規化した文書ベクトルCを生成する。ただし、文書ベクトルを生成する方法は、上記に限定されるものではない。また、代表的な単語の数も固定数でなく、検索文のデータ量に応じて動的に変化するようにしてもよい。
文書ベクトルは、次のようにして求める。
検索文から形態素解析等により単語を取り出し、例えば単語のtf×idf値を計算する。ここで、tfはterm frequencyで単語が文書内に出現する頻度、idfはinverse document frequencyでNを文書数、dfを単語が出現する文書の頻度とした場合、log(N/df)で表現される。
単語のtf×idf値が大きい上位の単語を取り出してベクトルを生成し、線形変換を施すことにより正規化した文書ベクトルCを生成する。ただし、文書ベクトルを生成する方法は、上記に限定されるものではない。また、代表的な単語の数も固定数でなく、検索文のデータ量に応じて動的に変化するようにしてもよい。
次に、検索文の文書ベクトルの次元数(上例では、代表的な単語の数)が小さ過ぎる場合(ステップS2のNO)、適合文書抽出は行わず、関連文書検索部22の検索結果を入出力部10へ通知するようにして処理を終了する。
関連文書検索部22で検索した結果の上位からn個の文書を選択し、文書集合Sとする(ステップS3)。
文書集合Sのすべての文書を選択していない場合には(ステップS4のNO)、文書集合Sから文書を1つ選択し、選択した文書の文書ベクトルDを求め(ステップS6)、文書ベクトルCと文書ベクトルDとにより類似度sim(C,D)を計算し、sim(C,D)の値で半整列して、結果を優先順序キューQに入れる(ステップS7)。
文書集合Sのすべての文書を選択していない場合には(ステップS4のNO)、文書集合Sから文書を1つ選択し、選択した文書の文書ベクトルDを求め(ステップS6)、文書ベクトルCと文書ベクトルDとにより類似度sim(C,D)を計算し、sim(C,D)の値で半整列して、結果を優先順序キューQに入れる(ステップS7)。
優先順位キューQのキューサイズがp以下であれば(ステップS8のNO)、ステップS4に戻り次の文書の処理を続ける。
一方、優先順位キューQのキューサイズがp以上の場合(ステップS8のYES)、優先順位キューQの先頭要素の類似度(最小値)が閾値α以上であれば(ステップS9のYES)、優先順序キューQ内の文書を適合文書Rとして(ステップS10)、適合文書抽出処理を終了する。
他方、優先順位キューQの先頭要素の類似度(最小値)が閾値α以下であれば(ステップS9のNO)、優先順位キューQの先頭要素を削除して(ステップS11)、ステップS4へ戻る。
一方、優先順位キューQのキューサイズがp以上の場合(ステップS8のYES)、優先順位キューQの先頭要素の類似度(最小値)が閾値α以上であれば(ステップS9のYES)、優先順序キューQ内の文書を適合文書Rとして(ステップS10)、適合文書抽出処理を終了する。
他方、優先順位キューQの先頭要素の類似度(最小値)が閾値α以下であれば(ステップS9のNO)、優先順位キューQの先頭要素を削除して(ステップS11)、ステップS4へ戻る。
また、文書集合S中のn個の文書をすべてに対して類似度を計算しても、優先順序キューQ内の要素の最小値が閾値α以上にならない場合(ステップS4のYES)、関連文書検索部22で検索された結果からさらにm個の文書を選択して文書集合Sへ追加し、文書集合Sの文書数をn(=n+m)として(ステップS5)、ステップS6以降を実行する。
このようにして、検索者から与えられた検索文の文書ベクトルCと検索結果の各文書の文書ベクトルDとの類似度sim(C,D)をベクトル空間上で行い、類似度sim(C,D)が閾値α以上のp個の適合文書を抽出することができる。
不適合文書抽出部26は、文書間の類似度を決めて、適合文書をもとにベクトル空間上で類似度計算を行うことで不適合文書を適合文書と同じ数だけ抽出して、適合文書と不適合文書とを学習部27へ渡す。
図3のフローチャートを用いて、不適合文書抽出部26の処理手順を説明する。図3において、n、m、p、αは、外部から文書フィルタリング装置に与えるパラメータとし、pは不適合文書として抽出する文書数であり適合文書の文書数と同じで、αは適合文書とみなす類似度の閾値、nは関連文書検索結果から不適合文書の候補として抽出する文書数、mは不適合文書の文書数がpに達しなかったときに追加する文書数とする。
図3のフローチャートを用いて、不適合文書抽出部26の処理手順を説明する。図3において、n、m、p、αは、外部から文書フィルタリング装置に与えるパラメータとし、pは不適合文書として抽出する文書数であり適合文書の文書数と同じで、αは適合文書とみなす類似度の閾値、nは関連文書検索結果から不適合文書の候補として抽出する文書数、mは不適合文書の文書数がpに達しなかったときに追加する文書数とする。
まず、適合文書の集合Rに属する各文書の文書ベクトルから、例えば、平均ベクトルを計算することによって中心ベクトルCを求める(ステップS21)。
関連文書検索部22での検索結果の上位からn個の文書を選択して文書集合Sとする(ステップS22)。
文書集合Sのすべての文書について処理した場合(ステップS23のYES)、関連文書検索部22での検索結果からm個の文書をさらに選択して文書集合S中の文書数をnからn+mに拡張し(ステップS24)、ステップS23へ戻って、文書集合S中で未選択の文書の文書ベクトルDに対して、上述と同じことを繰り返す。
関連文書検索部22での検索結果の上位からn個の文書を選択して文書集合Sとする(ステップS22)。
文書集合Sのすべての文書について処理した場合(ステップS23のYES)、関連文書検索部22での検索結果からm個の文書をさらに選択して文書集合S中の文書数をnからn+mに拡張し(ステップS24)、ステップS23へ戻って、文書集合S中で未選択の文書の文書ベクトルDに対して、上述と同じことを繰り返す。
文書集合Sから未選択の文書を1つ選択して、上述のように文書ベクトルDを求める(ステップS25)。
文書ベクトルDと中心ベクトルCとの類似度sim(C,D)を計算し、類似度sim(C,D)の大きい順に半整列して、文書と類似度sim(C,D)を優先順序キューQに入れる(ステップS26)。
文書ベクトルDと中心ベクトルCとの類似度sim(C,D)を計算し、類似度sim(C,D)の大きい順に半整列して、文書と類似度sim(C,D)を優先順序キューQに入れる(ステップS26)。
優先順序キューQのサイズがp以下であれば(ステップS27のNO)、ステップS23へ戻って他の処理していない文書に対して類似度を求める。
また、優先順序キューQのサイズがp以上であれば(ステップS27のYES)、優先順序キューQの先頭要素の値(最大値)が閾値α以下であれば(ステップS28のYES)、優先順序キューQ内の文書を不適合文書Nとし(ステップS29)、不適合文書の抽出は完了する。
しかし、優先順序キューQの先頭要素の値(最大値)が閾値α以上であれば(ステップS28のNO)、優先順序キューQの先頭要素を削除して(ステップS30)、ステップS23へ戻って他の処理していない文書に対して類似度を求める。
以上により、検索結果の中から適合文書Rと同じ数の不適合文書Nを求めることができる。
また、優先順序キューQのサイズがp以上であれば(ステップS27のYES)、優先順序キューQの先頭要素の値(最大値)が閾値α以下であれば(ステップS28のYES)、優先順序キューQ内の文書を不適合文書Nとし(ステップS29)、不適合文書の抽出は完了する。
しかし、優先順序キューQの先頭要素の値(最大値)が閾値α以上であれば(ステップS28のNO)、優先順序キューQの先頭要素を削除して(ステップS30)、ステップS23へ戻って他の処理していない文書に対して類似度を求める。
以上により、検索結果の中から適合文書Rと同じ数の不適合文書Nを求めることができる。
学習部27は、適合文書と不適合文書を学習データとして使用してフィルタリング用の分類用パラメータを生成して、プレフィルタリング部28へ渡す。ここでは、フィルタリングを次の線形分類器f(x)により行う場合の生成方法について説明する。
f(x)=sign(w・x+b) (1)
ここで、xは学習データの文書ベクトル、w・xはベクトルwとベクトルxの内積である。wとbが学習により決定される分類用パラメータとなる。sign(x)は、引数x(スカラー値)の値が正なら+1の値をとり、0以下なら−1の値をとる。
f(x)=sign(w・x+b) (1)
ここで、xは学習データの文書ベクトル、w・xはベクトルwとベクトルxの内積である。wとbが学習により決定される分類用パラメータとなる。sign(x)は、引数x(スカラー値)の値が正なら+1の値をとり、0以下なら−1の値をとる。
上記線形分類器f(x)におけるベクトルwは次のように表される。
w=ΣV(wi)×wi(i=1〜n:nは単語の数)
ここで、V(wi)は単語wiの重み(単語の特徴量)、bは閾値である。wiは各単語に対応している。また、単語の特徴量は、先に文書ベクトルで求めた代表となる単語のtf×idf値を基にして求めた値である。
w=ΣV(wi)×wi(i=1〜n:nは単語の数)
ここで、V(wi)は単語wiの重み(単語の特徴量)、bは閾値である。wiは各単語に対応している。また、単語の特徴量は、先に文書ベクトルで求めた代表となる単語のtf×idf値を基にして求めた値である。
分類用パラメータは、上記線形分類器f(x)におけるベクトルwおよび閾値bであり、これらの分類用パラメータを学習アルゴリズム(たとえば、線形SVM、Fisher判別式、BayesのBinary Independence Model等のアルゴリズム)に基づいて決定する。このとき、学習データが適合文書の場合には、f(x)の値が+1になるように、また、学習データが不適合文書の場合には、f(x)の値が−1になるように、V(wi),wi,bの値が決定される。
プレフィルタリング部28は、分類用パラメータの妥当性を検証して、分類用パラメータを補正する。ここでは、上記式(1)で示されるフィルタリングを線形分類器f(x)により行う場合を例にとり説明する。
以下の説明で、学習データ中の各文書をdi、分類用パラメータをwj、wjの特徴値をV(wj)で表すものとする。
まず、文書diのscoreを初期化する。文書diが分類用パラメータwjを含むならば、文書diのscoreに分類用パラメータwjの重みV(wj)を加算する。
次に、「score(di)+b」の値の正負を判定する。文書diが適合文書であるのに負であるか、文書diが不適合文書であるのに正である場合は、分類用パラメータwに不適切なものがあることを意味する。
まず、文書diのscoreを初期化する。文書diが分類用パラメータwjを含むならば、文書diのscoreに分類用パラメータwjの重みV(wj)を加算する。
次に、「score(di)+b」の値の正負を判定する。文書diが適合文書であるのに負であるか、文書diが不適合文書であるのに正である場合は、分類用パラメータwに不適切なものがあることを意味する。
適合文書を用いてf(x)>0となるようにして生成された分類用パラメータに対して、不適合文書を適用したときにf(x)>0となってしまった場合には、このときの分類用パラメータを削除する。分類用パラメータを生成するときと同様にして追加し、追加した分類用パラメータの重みと閾値bを再計算して、「score(di)+b」が負の場合は、分類用パラメータの補正を終了し、0以上の場合は、再度分類用パラメータを追加する。
また、不適合文書を用いてf(x)≦0となるようにして生成された分類用パラメータに対して、適合文書を適用したときにf(x)≦0となってしまった場合には、このときの分類用パラメータを削除する。分類用パラメータを生成するときと同様にして追加し、追加した分類用パラメータの重みと閾値bを再計算して、「score(di)+b」が制の場合は、分類用パラメータの補正を終了し、0以下の場合は、再度分類用パラメータを追加する。
プレフィルタリング部28は、分類用パラメータの補正が終了すると、妥当性が検証された分類用パラメータを検索語として関連文書検索部22で再検索を行い、その再検索結果を分類部29へ渡す。
分類部29は、再検索結果を関連文書検索部22から受け取る。このとき、再検索結果には、再検索された文書と分類用パラメータを使用したときのスコアが渡される。
分類部29では、再検索結果中の文書のスコアが学習部27で求められた(あるいは、プレフィルタリング部28で修正された)閾値bを超えた文書を適合文書として取り出して入出力部10へ渡して、入出力部10は表示装置へ検索結果を表示する。
分類部29は、再検索結果を関連文書検索部22から受け取る。このとき、再検索結果には、再検索された文書と分類用パラメータを使用したときのスコアが渡される。
分類部29では、再検索結果中の文書のスコアが学習部27で求められた(あるいは、プレフィルタリング部28で修正された)閾値bを超えた文書を適合文書として取り出して入出力部10へ渡して、入出力部10は表示装置へ検索結果を表示する。
次に、図1をもとに、本実施形態に係る文書フィルタリング装置の動作を説明する。
検索者は、入出力部10を用いて検索文を入力して、文書フィルタリング装置20に対して、フィルタリング要求を出す。
文書フィルタリング装置20は、フィルタリング要求を受け取ると次の処理を行う。
検索語抽出部21が検索者の指定した検索文から検索語を抽出し、関連文書検索部22の入力とする。
関連文書検索部22は、文書DB30から該当する文書をランキング検索し、検索結果を適合文書抽出部25に渡す。
検索者は、入出力部10を用いて検索文を入力して、文書フィルタリング装置20に対して、フィルタリング要求を出す。
文書フィルタリング装置20は、フィルタリング要求を受け取ると次の処理を行う。
検索語抽出部21が検索者の指定した検索文から検索語を抽出し、関連文書検索部22の入力とする。
関連文書検索部22は、文書DB30から該当する文書をランキング検索し、検索結果を適合文書抽出部25に渡す。
適合文書抽出部25では、検索文を解析し、適合文書を抽出するのに十分な情報を含んでないと判断した場合は、入出力部10を介して検索結果を検索者に提示する。この場合には、検索者は検索結果の内容を吟味して、適合している文書に対しては適合文書指定部23を使用して、複数の適合文書を指定した後で、関連語抽出部24がこの適合文書から関連語を抽出して再検索を行う。
一方、適合文書を抽出するのに十分な情報を含んでいると判断した場合には、適合文書抽出部25は、検索文をもとに検索結果から自動的に抽出した適合文書を不適合文書抽出部26に渡す。
不適合文書抽出部26は、適合文書をもとに不適合文書を関連文書検索部22での結果から適合文書と同数の不適合文書を自動的に抽出する。抽出した不適合文書は、適合文書とともに学習部27に渡り、分類用パラメータを生成する学習データとなる。
不適合文書抽出部26は、適合文書をもとに不適合文書を関連文書検索部22での結果から適合文書と同数の不適合文書を自動的に抽出する。抽出した不適合文書は、適合文書とともに学習部27に渡り、分類用パラメータを生成する学習データとなる。
学習部27は、学習データを使用して、分類用パラメータを生成し、プレフィルタリング部28では、分類用パラメータの妥当性を検証するとともに、適合文書が適合文書、不適合文書が不適合文書となるように分類用パラメータを補正する。
検証が終わると分類用パラメータを関連文書検索部22に渡し、関連文書検索部22は、分類用パラメータを検索語として再検索を行う。
分類部29は、関連文書検索部22から再検索結果を受け取り、フィルタリングを行って適合文書のみを取り出して、入出力部10へ検索結果として渡す。
入出力部10は、渡された検索結果を検索者に提示する。
検証が終わると分類用パラメータを関連文書検索部22に渡し、関連文書検索部22は、分類用パラメータを検索語として再検索を行う。
分類部29は、関連文書検索部22から再検索結果を受け取り、フィルタリングを行って適合文書のみを取り出して、入出力部10へ検索結果として渡す。
入出力部10は、渡された検索結果を検索者に提示する。
次に、検索者側から見たデータの流れについて、従来の文書フィルタリング装置と本実施形態における文書フィルタリング装置の相違について説明する。
まず、従来の文書フィルタリング装置のデータの流れについて、図4の画面例を用いて説明する。
検索画面(A)で、検索語「リコーのコピア」を入力して、検索実行ボタンを押すと画面(B1)になり、数千、数万になる検索結果が表示される。
この検索結果では、関連度の高い一部の結果が表示されるが、関連度が低く計算された検索者の欲しい結果が表示されない可能性がある。
そのため、検索結果の文書の内容を確認し、適合していると思われる文書を適合文書とし選択し(画面(B1)では○が付けられている)、検索実行ボタンを押して再検索を行う。
検索画面(A)で、検索語「リコーのコピア」を入力して、検索実行ボタンを押すと画面(B1)になり、数千、数万になる検索結果が表示される。
この検索結果では、関連度の高い一部の結果が表示されるが、関連度が低く計算された検索者の欲しい結果が表示されない可能性がある。
そのため、検索結果の文書の内容を確認し、適合していると思われる文書を適合文書とし選択し(画面(B1)では○が付けられている)、検索実行ボタンを押して再検索を行う。
すると、画面(B2)になり画面(B1)で適合文書として指定した文書が検索上位にくる。また、それに合わせて適合文書と関連する文書が検索結果の上位に出現するようになる(適合性フィードバック検索)。画面(B2)における検索結果をさらに良くするために、適合文書を指定して、適合性フィードバック検索を行う。
画面(B1)〜(B2)の操作を複数回繰り返すと画面(C)のようになり、検索上位に適合文書が並ぶようになる。この状態で、フィルタリングボタンを押すと、文書DBで管理されている文書群の中で適合文書と類似する文書がフィルタリングされて画面(D)に表示される。ここで、画面(C)の検索結果には、適合文書よりも関連しない文書のほうが非常に多く含まれているのが普通であるが、画面(D)の検索結果には適合文書と関連しない文書は含まれない。また、画面(D)には、画面(B1),(B2),(C)で指定した適合文書がフィルタリング結果一覧として必ず現れる。
次に、本実施形態における文書フィルタリング装置のデータの流れについて、図5の画面例を用いて説明する。
本実施形態における文書フィルタリング装置では、画面変遷は一回しかない。
即ち、検索画面(A)で、検索語「リコーのコピア」を入力して、フィルタリングボタンを押すと、検索語抽出部21→関連文書検索部22→適合文書抽出部25→不適合文書抽出部26→学習部27→プレフィルタリング部28→関連文書検索部22→分類部29の順で実行され、分類部29でフィルタリグされ適合文書のみになった検索結果が画面(B)に表示される。
ただし、検索画面(A)で検索実行ボタンを押した場合と、検索文に適合文書を抽出するのに十分な情報を含んでないと適合文書抽出部が判断した場合には、従来の文書フィルタリング装置として動作する。
本実施形態における文書フィルタリング装置では、画面変遷は一回しかない。
即ち、検索画面(A)で、検索語「リコーのコピア」を入力して、フィルタリングボタンを押すと、検索語抽出部21→関連文書検索部22→適合文書抽出部25→不適合文書抽出部26→学習部27→プレフィルタリング部28→関連文書検索部22→分類部29の順で実行され、分類部29でフィルタリグされ適合文書のみになった検索結果が画面(B)に表示される。
ただし、検索画面(A)で検索実行ボタンを押した場合と、検索文に適合文書を抽出するのに十分な情報を含んでないと適合文書抽出部が判断した場合には、従来の文書フィルタリング装置として動作する。
以上のように本実施形態を構成することによって、検索者が適合文書に指定をするという面倒な手続きを踏むことなく、通常の関連文書検索と同じ操作で、フィルタリングが行える。通常の関連文書検索では、検索文を構成する単語の中で最大の(文書データベースにおける)出現頻度数が、予想される検索件数の最小になる。
しかし、本実施形態によってフィルタリングされた結果の検索件数は、通常の関連文書検索の場合の検索結果の件数よりもはるかに小さくなる(より絞り込まれる)。
しかし、本実施形態によってフィルタリングされた結果の検索件数は、通常の関連文書検索の場合の検索結果の件数よりもはるかに小さくなる(より絞り込まれる)。
本発明は、上述した実施形態のみに限定されたものではない。上述した実施形態を構成する各機能をそれぞれプログラム化して、予め記録媒体に書き込んでおき、この記録媒体に記録されたこれらのプログラムをコンピュータに備えられたメモリあるいは記憶装置に格納し、そのプログラムを実行することによって、本発明の目的が達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラム自体が上述した実施形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
また、上記プログラムは、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
また、上記プログラムは、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することによって上述した実施形態の機能が実現される場合も含まれる。
なお、上述した実施形態の機能を実現するプログラムは、ディスク系(例えば、磁気ディスク、光ディスク等)、カード系(例えば、メモリカード、光カード等)、半導体メモリ系(例えば、ROM、不揮発性メモリ等)、テープ系(例えば、磁気テープ、カセットテープ等)等のいずれの形態の記録媒体で提供されてもよい。あるいは、ネットワークを介して記憶装置に格納されたプログラムをサーバコンピュータから直接供給を受けるようにしてもよい。この場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
このように、上述した実施形態の機能をプログラム化して流通させることによって、コストの低廉化、および可搬性や汎用性を向上させることができる。
このように、上述した実施形態の機能をプログラム化して流通させることによって、コストの低廉化、および可搬性や汎用性を向上させることができる。
10…入出力部、20…文書フィルタリング装置、21…検索語抽出部、22…関連文書検索部、23…適合文書指定部、24…関連語抽出部、25…適合文書抽出部、26…不適合文書抽出部、27…学習部、28…プレフィルタリング部、29…分類部、30…文書データベース(DB)。
Claims (6)
- 電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング装置において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索部と、前記関連文書検索部により検索された複数の文書から、適合文書を抽出する適合文書抽出部と、前記関連文書検索部により検索された複数の文書から、不適合文書を抽出する不適合文書抽出部と、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習部と、前記分類用パラメータの妥当性を検証して補正するプレフィルタリング部と、前記プレフィルタリング部で妥当性が検証された分類用パラメータを検索語として、前記関連文書検索部で再検索した結果を分類して適合文書を出力する分類部とを備えることを特徴とする文書フィルタリング装置。
- 請求項1に記載の文書フィルタリング装置において、前記不適合文書抽出部は、前記適合文書の数と同数の不適合文書を抽出することを特徴とする文書フィルタリング装置。
- 請求項1に記載の文書フィルタリング装置において、前記適合文書抽出部は、入力した検索文が適合文書を抽出するのに十分な情報を含まない場合、フィルタリングを行わずに前記関連文書検索部で検索した結果を検索結果とすることを特徴とする文書フィルタリング装置。
- 電子化された複数の文書を蓄積した文書データベースから、検索文に適合する文書をフィルタリングする文書フィルタリング方法において、前記文書データベースに蓄積されている文書群から、検索語を含む文書を検索する関連文書検索ステップと、前記関連文書検索ステップにより検索された複数の文書から、適合文書を抽出する適合文書抽出ステップと、前記関連文書検索ステップにより検索された複数の文書から、不適合文書を抽出する不適合文書抽出ステップと、前記適合文書と前記不適合文書とに基づいて分類用パラメータを生成する学習ステップと、前記分類用パラメータの妥当性を検証して補正するプレフィルタリングステップと、前記プレフィルタリングステップで妥当性が検証された分類用パラメータを検索語として、前記関連文書検索ステップで再検索した結果を分類して適合文書を出力する分類ステップとを備えることを特徴とする文書フィルタリング方法。
- コンピュータに、請求項1乃至3のいずれかに記載の文書フィルタリング装置の機能を実現させるためのプログラム。
- コンピュータが読み取り可能な記録媒体であって、請求項5に記載のプログラムを記録したことを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005177078A JP2006350749A (ja) | 2005-06-17 | 2005-06-17 | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005177078A JP2006350749A (ja) | 2005-06-17 | 2005-06-17 | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006350749A true JP2006350749A (ja) | 2006-12-28 |
Family
ID=37646510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005177078A Pending JP2006350749A (ja) | 2005-06-17 | 2005-06-17 | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006350749A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008276571A (ja) * | 2007-04-27 | 2008-11-13 | Nippon Telegr & Teleph Corp <Ntt> | ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体 |
JP2009163303A (ja) * | 2007-12-28 | 2009-07-23 | Mitsubishi Electric Corp | 検索フィルタリング装置及び検索フィルタリングプログラム |
JP2013513895A (ja) * | 2009-12-15 | 2013-04-22 | マイクロン テクノロジー, インク. | 適応型コンテンツ・インスペクション |
-
2005
- 2005-06-17 JP JP2005177078A patent/JP2006350749A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008276571A (ja) * | 2007-04-27 | 2008-11-13 | Nippon Telegr & Teleph Corp <Ntt> | ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体 |
JP2009163303A (ja) * | 2007-12-28 | 2009-07-23 | Mitsubishi Electric Corp | 検索フィルタリング装置及び検索フィルタリングプログラム |
JP2013513895A (ja) * | 2009-12-15 | 2013-04-22 | マイクロン テクノロジー, インク. | 適応型コンテンツ・インスペクション |
US9684867B2 (en) | 2009-12-15 | 2017-06-20 | Micron Technology, Inc. | Adaptive content inspection |
US10235627B2 (en) | 2009-12-15 | 2019-03-19 | Micron Technology, Inc. | Adaptive content inspection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
JP4622589B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2004348591A (ja) | 文書検索方法及び装置 | |
US20110191336A1 (en) | Contextual image search | |
US9256649B2 (en) | Method and system of filtering and recommending documents | |
JP2004062893A (ja) | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 | |
US7162413B1 (en) | Rule induction for summarizing documents in a classified document collection | |
JP4349875B2 (ja) | 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム | |
US10949452B2 (en) | Constructing content based on multi-sentence compression of source content | |
CN100511232C (zh) | 文档检索装置及方法 | |
JP4754849B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2006323517A (ja) | テキスト分類装置およびプログラム | |
JP2006350749A (ja) | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 | |
JP2009199302A (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
JPH113343A (ja) | 情報検索装置 | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
JP2005107931A (ja) | 画像検索装置 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP2006251975A (ja) | テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置 | |
JP2020071678A (ja) | 情報処理装置、制御方法、プログラム | |
JP2005173999A (ja) | 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体 | |
JP2005128872A (ja) | 文書検索システム及び文書検索プログラム | |
JP2010108268A (ja) | 文書処理装置 | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP2011100240A (ja) | 代表画像抽出方法,代表画像抽出装置および代表画像抽出プログラム |