JP2005092825A - 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム - Google Patents

文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム Download PDF

Info

Publication number
JP2005092825A
JP2005092825A JP2003329206A JP2003329206A JP2005092825A JP 2005092825 A JP2005092825 A JP 2005092825A JP 2003329206 A JP2003329206 A JP 2003329206A JP 2003329206 A JP2003329206 A JP 2003329206A JP 2005092825 A JP2005092825 A JP 2005092825A
Authority
JP
Japan
Prior art keywords
document
search
classification
learning data
classification parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003329206A
Other languages
English (en)
Other versions
JP4349875B2 (ja
Inventor
Atsuyuki Goto
淳之 後藤
Hideo Ito
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003329206A priority Critical patent/JP4349875B2/ja
Priority to US10/941,835 priority patent/US20050065919A1/en
Priority to CNB200410010451XA priority patent/CN100504857C/zh
Publication of JP2005092825A publication Critical patent/JP2005092825A/ja
Application granted granted Critical
Publication of JP4349875B2 publication Critical patent/JP4349875B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】初期の検索結果から学習データを作成し、この学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示すること。
【解決手段】文書情報を入力しまた検索結果情報を出力する情報入出力部101、前記文書情報から検索対象となる検索語を抽出する検索語抽出部102、前記検索語を含む文書をデータベース110から検索し、また後述する分類用パラメータに対応する単語を含む文書をデータベース110から再検索する文書ランキング検索部103、前記検索の結果から学習データを作成する学習データ作成部104、前記学習データから分類用パラメータを生成する分類用パラメータ生成部105、および前記再検索の結果から検索者の検索意図に適合する文書を分類する分類部106により構成される。
【選択図】 図1

Description

本発明は、検索対象の文書データから関連文書データのみを抽出する文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムに関する。
文書検索における課題は、いかに効率よく目的とする文書を探し当てるかにある。この課題を解決するために、従来の文書検索では、キーワードを論理演算子と組み合わせて文書検索を行い、ここで得られた検索結果に対し新たなキーワードと論理演算子とを組み合わせて検索結果の絞込みを行っていた。しかし、検索のために妥当なキーワードを指定したり、キーワードと論理演算子とを組み合わせて指定するには、検索する分野の専門知識が必要であったり、キーワードを見つけ出すための時間が必要になる等の問題があった。さらに、検索結果の内容を一つ一つ吟味するまでは、得られた検索結果が適切な検索条件のもとに検索されたかどうか判断がつかない等の問題があった。
そこで、かかる問題点を解決するため、以下のような技術が提案されている。例えば、各情報に割り振られた複数のキーワード(学習データ)と符号辞書を使用して、入力情報をスコア計算のためのベクトルに変換する。スコア計算は、キーワード符号に対する肯定メトリック、否定メトリックを取り出して行う。計算されたスコアと判定パラメータを使用して、情報の必要性と信頼性を学習(計算)する。そして、学習した必要性と信頼性の数値で、未知データを評価し、必要性の大きい順に並べ替えて検索者に提示する(特許文献1を参照。)。
また、ベクトル生成手段により情報に割り振られた複数のキーワードをベクトルに変換し、検索者の興味を反映したメトリックを生成し、さらにそれを分割し、それぞれのメトリックを用いて検索者の興味を前記ベクトルと前記分割されたメトリックを用いて計算されるスコアの大きい順に情報を掲示する技術が提案されている(特許文献2を参照。)。
特許第3244005号公報 特開2000−137731号公報
しかしながら、特許文献1,2に記載の技術では、フィルタリングの結果、検索者に掲示される文書には必要のない文書データも含まれてしまい、未知データのうち検索者が真に欲するデータがどれで、どのデータが不要であるかを明確に分離することができないという問題があった。
本発明は、上述した従来技術による問題点を解消するため、初期の検索結果から学習データを作成し、さらにこの学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示する文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる文書フィルタリング装置は、文書情報を入力し、また検索結果情報を出力する情報入出力手段と、該情報入出力手段から入力された文書情報から検索対象となる検索語を抽出する検索語抽出手段と、該検索語抽出手段により抽出された検索語を含む文書をデータベースから検索する検索手段と、該検索手段による検索結果から検索者の検索意図を反映させた学習データを作成する学習データ作成手段と、該学習データ作成手段により作成された学習データから分類用パラメータを生成する分類用パラメータ生成手段と、該分類用パラメータ生成手段により生成された分類用パラメータに対応する単語を含む文書を前記データベースから検索する再検索手段と、該再検索手段による再検索結果から検索者の検索意図に適合する文書を分類する分類手段と、を含み構成されていることを特徴とする。
この請求項1の発明によれば、初期の検索結果から学習データを作成し、さらにこの学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示することができる。この結果、検索者の意図に合致した文書検索を短時間で効率的に行うことができる。
また、請求項2の発明にかかる文書フィルタリング装置は、請求項1に記載の発明において、前記学習データ作成手段は、前記検索手段による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする。
この請求項2の発明によれば、一部の検索データを用いて前記学習データを作成することができるので、前記分類用パラメータを生成するまでの時間を短縮することができる。なお、すべての検索データを用いてより検索精度を高めるための分類用パラメータを生成することも可能である。
また、請求項3にかかる文書フィルタリング装置によれば、請求項1または2に記載の発明において、前記分類用パラメータ生成手段は、所定のアルゴリズムを用いて前記分類用パラメータを生成することを特徴とする。
この請求項3に記載の発明によれば、前記分類用パラメータを容易に生成することができる。
また、請求項4にかかる文書フィルタリング装置は、請求項1〜3のいずれか一つに記載の発明において、前記分類手段は、前記再検索手段による再検索の結果、得られた文書群を構成する各文書を前記分類用パラメータで評価し、評価された文書が所定の条件を満たすならば関連文書さもなければ非関連文書とし、該関連文書のみを抽出することを特徴とする。
この請求項4に記載の発明によれば、関連文書検索結果をフィルタリングすることで、検索結果の下位に埋もれている適合文書を上位に移動させることができる。
また、請求項5にかかる文書フィルタリング装置は、請求項4に記載の発明において、 前記分類手段は、さらに前記関連文書を所定の基準に基づいてソートすることを特徴とする。
この請求項5に記載の発明によれば、さらに関連文書を所定の基準でソートすることができる。
また、請求項6にかかる文書フィルタリング方法は、文書情報を入力する情報入力工程と、前記文書情報から検索対象となる検索語を抽出する検索語抽出工程と、前記検索語を含む文書をデータベースから検索する検索工程と、該検索工程による検索結果から検索者の検索意図を反映させた学習データを作成する学習データ作成工程と、前記学習データから分類用パラメータを生成する分類用パラメータ生成工程と、前記分類用パラメータに対応する単語を含む文書を前記データベースから再検索する再検索工程と、該再検索工程による再検索結果から検索者の検索意図に適合する文書を分類する分類工程と、該分類工程により分類された文書を表示する分類文書表示工程と、を含むことを特徴とする。
この請求項6の発明によれば、初期の検索結果から学習データを作成し、さらにこの学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示することができる。この結果、検索者の意図に合致した文書検索を短時間で効率的に行うことができる。
また、請求項7にかかる文書フィルタリング方法は、請求項6に記載の発明において、前記学習データ作成工程は、前記検索工程による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする。
この請求項7の発明によれば、一部の検索データを用いて前記学習データを作成することができるので、前記分類用パラメータを生成するまでの時間を短縮することができる。なお、すべての検索データを用いてより検索精度を高めるための分類用パラメータを生成することも可能である。
また、請求項8にかかる文書フィルタリング方法は、請求項6または7に記載の発明において、前記分類用パラメータ生成工程は、所定のアルゴリズムを用いて前記分類用パラメータを生成することを特徴とする。
この請求項8に記載の発明によれば、前記分類用パラメータを容易に生成することができる。
また、請求項9にかかる文書フィルタリング方法は、請求項6〜8のいずれか一つに記載の発明において、前記分類工程は、前記再検索工程による再検索の結果、得られた文書群を構成する各文書を前記分類用パラメータで評価し、評価された文書が所定の条件を満たすならば関連文書さもなければ非関連文書とし、該関連文書のみを抽出することを特徴とする。
この請求項9に記載の発明によれば、関連文書検索結果をフィルタリングすることで、検索結果の下位に埋もれている適合文書を上位に移動させることができる。
また、請求項10にかかる文書フィルタリング方法は、請求項9に記載の発明において、前記分類工程は、さらに前記関連文書を所定の基準に基づいてソートすることを特徴とする。
この請求項10に記載の発明によれば、さらに関連文書を所定の基準でソートすることができる。
また、請求項11にかかる文書フィルタリングプログラムは、請求項6〜10のいずれか一つに記載の文書フィルタリング方法をコンピュータに実行させることを特徴とする。
この請求項11に記載の発明によれば、請求項6〜10のいずれか一つに記載の文書フィルタリング方法をコンピュータに実行させることができる。
本発明にかかる文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムによれば、初期の検索結果から学習データを作成し、さらにこの学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示することができる。この結果、検索者の意図に合致した文書検索を短時間で効率的に行うことができるという効果を奏する。
以下に添付図面を参照して、本発明にかかる文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムの好適な実施の形態を詳細に説明する。
(実施の形態)
図1は、本発明にかかる文書フィルタリング装置の概略構成を示すブロック図である。本発明の文書フィルタリング装置100は、情報入出力部101、検索語抽出部102、文書ランキング検索部103、学習データ作成部104、分類用パラメータ生成部105、および分類部106を含み構成される。
情報入出力部101は、検索者が入力した検索文を検索語抽出部102へ送る。検索語抽出部102は、検索者が入力した検索文から検索語を抽出しこれを文書ランキング検索部103へ送る。文書ランキング検索部103は、検索語抽出部102が抽出した検索語を含む文書を文書フィルタリング装置100と接続されているデータベース110からランキング検索する。ランキング検索とは、過去に最も多く検索対象となった単語を含む文書から順に検索することである。文書ランキング検索部103は、ランキング検索の結果を情報入出力部101へ送る。そして、情報入出力部101は、表示部(不図示)に文書ランキング検索部103から送られた検索結果を表示する。検索者は、前記表示部に表示された検索結果の内容を吟味し、表示された文書に対し情報入出力部101から適合文書または非適合文書を指定する。学習データ作成部104は、情報入出力部101から入力された情報に基づき、検索者の検索意図と合致した文書を適合文書、検索者の検索意図と合致していない文書を非適合文書として学習データを作成する。分類用パラメータ生成部105は、学習データ作成部104で作成された学習データに基づき、分類用パラメータを生成する(詳細は後述する)。文書ランキング検索部103は、分類用パラメータ生成部105で生成された分類用パラメータに対応する単語を検索語として、当該検索語を含む文書をデータベース110から再検索する。分類部106は、文書ランキング検索部103による再検索結果に対して後述するフィルタリング(検索結果を関連文書と非関連文書に分ける)を行い、関連文書のみを取り出して、これを検索結果として情報入出力部101へ送る。情報入出力部101は、分類部106から送られた検索結果を表示部に表示する。
以下、本発明の文書フィルタリング装置を用いた文書フィルタリング方法について詳細に説明する。図2−1,図2−2は、この文書フィルタリング方法の実行手順を示すフローチャートである。まず、検索者が文書フィルタリング装置100の情報入出力部101から検索文を入力する(ステップS201)。具体的には、情報入出力部101から入力された検索文は、情報入出力部101の表示部上で図3に示す如く画像300の検索語入力フィールド301に表示される。そして、画像300の検索実行フィールド302をクリックすることで当該検索文の検索が開始される。
次に、検索語抽出部102は、情報入出力部101から入力された検索文から検索語を抽出する(ステップS202)。文書ランキング検索部103は、検索語抽出部102が抽出した検索語を含む文書をデータベース110からランキング検索する(ステップS203)。この工程での検索結果は情報入出力部101へ送られる。なお、ランキング検索とは、過去に最も多く検索対象となった単語を含む文書から順に検索することである。情報入出力部101は文書ランキング検索部103から送られたランキング検索の結果を、表示部に表示する(ステップS204)。
検索者は、前記表示部に表示された検索結果の内容を吟味し、表示された文書に対し情報入出力部101から適合文書または非適合文書を指定する。具体的には、図4に示すように、前記表示部に検索結果一覧として表示された画像400の各情報に対し、例えば適合文書には○印、非適合文書には×印を付与する等して、当該データに対する適合・非適合文書情報を分別して入力し、フィルタリングフィールド401をクリックする。そして、学習データ作成部104は、情報入出力部101から入力された情報(適合・非適合文書を分別した情報)に基づき、検索者の検索意図と合致した文書を適合文書、検索者の検索意図と合致していない文書を非適合文書とした学習データを作成する(ステップS205)。ここでは、検索したすべての適合・非適合文書を学習データとして用いてもよいし、その一部を学習データとして用いてもよい。ただ、できるだけ多くのデータに基づいた方が精度が向上する。分類用パラメータ生成部105は、学習データ作成部104で作成された学習データに基づき、分類用パラメータを自動的に生成する(ステップS206)。
ここで、分類用パラメータの生成方法について説明する。分類用パラメータの生成には、線形SVM,Fisher判別式,BayesのBinary Independence Model等のアルゴリズムを使用する。以下、具体的に説明する。
分類用のパラメータには、例えば、次のベクトル式中のw,bを使用する。
f(x)=sgn(w・x+b) ・・・(1)
xは学習データの特徴量ベクトル、w・xはベクトルwとベクトルxの内積である。wとbが学習により決定されるパラメータとなる。sgn(x)は、引数x(スカラー値)の値が正なら+1の値をとり、0以下なら−1の値をとる。
また、ベクトルwは、
w=ΣV(wi)×wi(i=1〜n:nは検索語の数)
と表される。そして、学習により、V(wi),wi,bの値が決定される。具体的には、正の学習データxに対してはf(x)の値が+1(適合文書)、負の学習データxに対してはf(x)の値が−1(非適合文書)になるように、V(wi),wi,bの値が決定される。V(wi)は単語wiの重み(単語の特徴量)、bはしきい値である。wiは各単語に対応している。
文書ランキング検索部103は、分類用パラメータ生成部105で生成された分類用パラメータに対応する単語を検索語として、この検索語を含む文書をデータベース110から再検索する(ステップS207)。この工程では、分類用のパラメータに対応するn個の各単語を使用して再検索を行う。この再検索の結果、各文書diには、次のような文書スコアが付与される。例えば、
f(x)=sgn(w・x+b)
の分類パラメータwを使用した場合は、
score(di)=w・xi ・・・(2)
なる文書スコアが付与される。xiは文書diの特徴量ベクトルである。
次に、分類部106は、文書ランキング検索部103による再検索結果に対してフィルタリングを行う。具体的には、以下のような処理を行う。まず、ステップS207の再検索の結果、得られた文書群から文書を取り出し、これをdiとする(ステップS208)。なお、diには分類用パラメータを使用したスコア(score(di))が付与されている。次に、score(di)がステップS206で求められたしきい値(b)を超えたか否かを判断する(ステップS209)。score(di)がステップS206で求められたしきい値(b)を超えている(例えば、f(x)=sgn(w・x+b)の分類パラメータbを使用した場合は、score(di)+b>0となった場合)場合(ステップS209:Yes)は、diを検索結果(関連文書)とし(ステップS210)、ステップS211へ進む。score(di)がステップS206で求められたしきい値(b)を超えていない場合(ステップS209:No)は、そのままステップS211へ進む。続いて、再検索の結果、得られた文書群中のすべての文書の処理が終了したか否かを判断する(ステップS211)。すべての文書の処理が終了した場合(ステップS211:Yes)は、ステップS212へ進む。すべての文書の処理を終了していない場合(ステップS211:No)は、再度ステップS208へ戻り、処理を続行する。
ステップS211においてすべての文書の処理が終了した場合は(ステップS211:Yes)、分類部106は、ステップS210における検索結果を情報入出力部101へ送る。そして、情報入出力部101は分類部106から送られた検索結果(関連文書一覧)を表示部に表示する(ステップS212)。このとき、前記表示部には、例えば図5に示すような画像500が表示される。なお、この工程で前記再検索の結果を文書スコア順にソートしてもよい。
以下、本発明の文書フィルタリング方法による検索の一例を示す。例えば、検索質問文「AAAのCCC」を情報入出力部101から入力する。この質問文に対して文書ランキング検索を行った結果、ランキング上位に文書群
1.AAAのCCC
2.BBBのCCC
3.AAAのDDD
4.AAAのEEE
が検索結果として得られたとする。そこで、検索者は、各文書に対して適合(○)、非適合(×)を次のように指定する。
○「AAAのCCC」
×「BBBのCCC」
×「AAAのDDD」
○「AAAのEEE」
そして、これを元に分類用パラメータを自動生成したところ、
「重みつき単語集合w=AAA:0.5,BBB:−0.6,CCC:0.3,DDD:−0.2,EEE:0.1,しきい値b=−0.4」
となったとする。
そこで、AAA,BBB,CCC,DDDを検索語として再検索を行い、検索された文書に対して前述のようなスコアを算出する。その結果、次のようなスコアつき文書d1,d2,d3が得られたとする。
BBB,CCCを含む文書d1のスコアscore(d1)は、−0.6+0.3=−0.3であり、
score(d1)+b=−0.3−0.4=−0.7<0
なので検索結果として出力しない。
AAA,DDDを含む文書d2のスコアscore(d2)は、0.5−0.2=0.3であり、
score(d2)+b=0.3−0.4=−0.1<0
なので検索結果として出力しない。
AAA,EEEを含む文書d3のスコアscore(d3)は、0.5+0.1=0.6であり、
score(d3)+b=0.6−0.4=0.2>0
なので検索結果として出力する。
以上説明したように、文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムによれば、初期の検索結果を学習データとして構成し、その学習データから再検索のための分類用パラメータを自動生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示することができる。この結果、検索者の意図に合致した文書検索を短時間で効率的に行うことができる。
なお、本実施の形態で説明した文書フィルタリング方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク,フレキシブルディスク,CD−ROM,MO,DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、本発明にかかる文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムは、文書検索に有用であり、特に、膨大なデータからの文書検索に適している。
本発明にかかる文書フィルタリング装置の概略構成を示すブロック図である。 本発明の文書フィルタリング方法の実行手順を示すフローチャートである。 本発明の文書フィルタリング方法の実行手順を示すフローチャートである。 検索者が入力した検索文の表示例を示す図である。 ランキング検索結果の表示例を示す図である。 再検索結果の表示例を示す図である。
符号の説明
100 文書フィルタリング装置
101 情報入出力部
102 検索語抽出部
103 文書ランキング検索部
104 学習データ作成部
105 分類用パラメータ生成部
106 分類部
110 データベース
300,400,500 画像
301 検索語入力フィールド
302 検索実行フィールド
401 フィルタリングフィールド

Claims (11)

  1. 文書情報を入力し、また検索結果情報を出力する情報入出力手段と、
    該情報入出力手段から入力された文書情報から検索対象となる検索語を抽出する検索語抽出手段と、
    該検索語抽出手段により抽出された検索語を含む文書をデータベースから検索する検索手段と、
    該検索手段による検索結果から検索者の検索意図を反映させた学習データを作成する学習データ作成手段と、
    該学習データ作成手段により作成された学習データから分類用パラメータを生成する分類用パラメータ生成手段と、
    該分類用パラメータ生成手段により生成された分類用パラメータに対応する単語を含む文書を前記データベースから検索する再検索手段と、
    該再検索手段による再検索結果から検索者の検索意図に適合する文書を分類する分類手段と、を含み構成されていることを特徴とする文書フィルタリング装置。
  2. 前記学習データ作成手段は、前記検索手段による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする請求項1に記載の文書フィルタリング装置。
  3. 前記分類用パラメータ生成手段は、所定のアルゴリズムを用いて前記分類用パラメータを生成することを特徴とする請求項1または2に記載の文書フィルタリング装置。
  4. 前記分類手段は、前記再検索手段による再検索の結果、得られた文書群を構成する各文書を前記分類用パラメータで評価し、評価された文書が所定の条件を満たすならば関連文書さもなければ非関連文書とし、該関連文書のみを抽出することを特徴とする請求項1〜3のいずれか一つに記載の文書フィルタリング装置。
  5. 前記分類手段は、さらに前記関連文書を所定の基準に基づいてソートすることを特徴とする請求項4に記載の文書フィルタリング装置。
  6. 文書情報を入力する情報入力工程と、
    前記文書情報から検索対象となる検索語を抽出する検索語抽出工程と、
    前記検索語を含む文書をデータベースから検索する検索工程と、
    該検索工程による検索結果から検索者の検索意図を反映させた学習データを作成する学習データ作成工程と、
    前記学習データから分類用パラメータを生成する分類用パラメータ生成工程と、
    前記分類用パラメータに対応する単語を含む文書を前記データベースから再検索する再検索工程と、
    該再検索工程による再検索結果から検索者の検索意図に適合する文書を分類する分類工程と、
    該分類工程により分類された文書を表示する分類文書表示工程と、を含むことを特徴とする文書フィルタリング方法。
  7. 前記学習データ作成工程は、前記検索工程による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする請求項6に記載の文書フィルタリング方法。
  8. 前記分類用パラメータ生成工程は、所定のアルゴリズムを用いて前記分類用パラメータを生成することを特徴とする請求項6または7に記載の文書フィルタリング方法。
  9. 前記分類工程は、前記再検索工程による再検索の結果、得られた文書群を構成する各文書を前記分類用パラメータで評価し、評価された文書が所定の条件を満たすならば関連文書さもなければ非関連文書とし、該関連文書のみを抽出することを特徴とする請求項6〜8のいずれか一つに記載の文書フィルタリング方法。
  10. 前記分類工程は、さらに前記関連文書を所定の基準に基づいてソートすることを特徴とする請求項9に記載の文書フィルタリング方法。
  11. 請求項6〜10のいずれか一つに記載の文書フィルタリング方法をコンピュータに実行させることを特徴とする文書フィルタリングプログラム。

JP2003329206A 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム Expired - Fee Related JP4349875B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003329206A JP4349875B2 (ja) 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
US10/941,835 US20050065919A1 (en) 2003-09-19 2004-09-16 Method and apparatus for document filtering capable of efficiently extracting document matching to searcher's intention using learning data
CNB200410010451XA CN100504857C (zh) 2003-09-19 2004-09-19 用学习数据有效提取检索者合意的文档的过滤方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003329206A JP4349875B2 (ja) 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム

Publications (2)

Publication Number Publication Date
JP2005092825A true JP2005092825A (ja) 2005-04-07
JP4349875B2 JP4349875B2 (ja) 2009-10-21

Family

ID=34308850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003329206A Expired - Fee Related JP4349875B2 (ja) 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム

Country Status (3)

Country Link
US (1) US20050065919A1 (ja)
JP (1) JP4349875B2 (ja)
CN (1) CN100504857C (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217312A (ja) * 2007-03-02 2008-09-18 Sony Corp 情報処理装置および方法、並びにプログラム
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP2010282502A (ja) * 2009-06-05 2010-12-16 Ricoh Co Ltd 分類パラメータ生成装置、生成方法及び生成プログラム
US8229927B2 (en) 2008-01-11 2012-07-24 Ricoh Company, Limited Apparatus, system, and method for information search
US8612429B2 (en) 2008-01-18 2013-12-17 Ricoh Company, Limited Apparatus, system, and method for information search
JP2018169753A (ja) * 2017-03-29 2018-11-01 トヨタテクニカルディベロップメント株式会社 文書分類装置、文書分類方法及び文書分類プログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4825544B2 (ja) * 2005-04-01 2011-11-30 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
US7685199B2 (en) * 2006-07-31 2010-03-23 Microsoft Corporation Presenting information related to topics extracted from event classes
US7577718B2 (en) * 2006-07-31 2009-08-18 Microsoft Corporation Adaptive dissemination of personalized and contextually relevant information
US7849079B2 (en) * 2006-07-31 2010-12-07 Microsoft Corporation Temporal ranking of search results
US7493330B2 (en) * 2006-10-31 2009-02-17 Business Objects Software Ltd. Apparatus and method for categorical filtering of data
US8112421B2 (en) 2007-07-20 2012-02-07 Microsoft Corporation Query selection for effectively learning ranking functions
JP5123032B2 (ja) * 2008-04-10 2013-01-16 株式会社リコー 情報配信装置、情報配信方法、情報配信プログラム及び記録媒体
JP5049871B2 (ja) * 2008-05-16 2012-10-17 株式会社リコー 画像検索装置、画像検索方法、情報処理プログラム、記録媒体及び画像検索システム
US8713007B1 (en) * 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
CN101901235B (zh) * 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和系统
JP5656585B2 (ja) * 2010-02-17 2015-01-21 キヤノン株式会社 文書作成支援装置、文書作成支援方法及びプログラム
JP6150291B2 (ja) * 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
CN106156179B (zh) * 2015-04-20 2020-01-07 阿里巴巴集团控股有限公司 一种信息检索方法及装置
WO2021107447A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799304A (en) * 1995-01-03 1998-08-25 Intel Corporation Information evaluation
US6314420B1 (en) * 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3219386B2 (ja) * 1997-12-26 2001-10-15 松下電器産業株式会社 情報フィルタ装置及び情報フィルタ方法
JP3344953B2 (ja) * 1998-11-02 2002-11-18 松下電器産業株式会社 情報フィルタ装置及び情報フィルタリング方法
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
US20030016250A1 (en) * 2001-04-02 2003-01-23 Chang Edward Y. Computer user interface for perception-based information retrieval
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
US6829599B2 (en) * 2002-10-02 2004-12-07 Xerox Corporation System and method for improving answer relevance in meta-search engines
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217312A (ja) * 2007-03-02 2008-09-18 Sony Corp 情報処理装置および方法、並びにプログラム
JP4730619B2 (ja) * 2007-03-02 2011-07-20 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8229927B2 (en) 2008-01-11 2012-07-24 Ricoh Company, Limited Apparatus, system, and method for information search
US8612429B2 (en) 2008-01-18 2013-12-17 Ricoh Company, Limited Apparatus, system, and method for information search
JP2010033377A (ja) * 2008-07-29 2010-02-12 Yahoo Japan Corp Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP2010282502A (ja) * 2009-06-05 2010-12-16 Ricoh Co Ltd 分類パラメータ生成装置、生成方法及び生成プログラム
JP2018169753A (ja) * 2017-03-29 2018-11-01 トヨタテクニカルディベロップメント株式会社 文書分類装置、文書分類方法及び文書分類プログラム

Also Published As

Publication number Publication date
US20050065919A1 (en) 2005-03-24
JP4349875B2 (ja) 2009-10-21
CN1627294A (zh) 2005-06-15
CN100504857C (zh) 2009-06-24

Similar Documents

Publication Publication Date Title
JP4349875B2 (ja) 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
Xia et al. Dual sentiment analysis: Considering two sides of one review
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
JP2009163303A (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
JP3791877B2 (ja) 文書の参照理由を用いて情報検索を行う装置
Vainshtein et al. A hybrid approach for automatic model recommendation
Kumar et al. Mood classifiaction of lyrics using SentiWordNet
US20230177362A1 (en) Risk assessment apparatus, risk assessment method, and program
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6433937B2 (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
CN118113806A (zh) 一种大模型检索增强生成的可解释事件脉络生成方法
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
CN113779981A (zh) 一种基于指针网络和知识图谱的推荐方法及装置
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
KR101986784B1 (ko) 특허 검색을 위한 최적 검색식 자동 추천 시스템 및 방법
JP2007156932A (ja) 学習方法、学習装置、および検索方法、検索装置
JP2008090396A (ja) 電子文書検索方法、電子文書検索装置及びプログラム
Mishael et al. Investigating classification techniques with feature selection for intention mining from Twitter feed
JP2006350749A (ja) 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP7168826B2 (ja) データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060615

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130731

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees