JP4349875B2 - 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム - Google Patents

文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム Download PDF

Info

Publication number
JP4349875B2
JP4349875B2 JP2003329206A JP2003329206A JP4349875B2 JP 4349875 B2 JP4349875 B2 JP 4349875B2 JP 2003329206 A JP2003329206 A JP 2003329206A JP 2003329206 A JP2003329206 A JP 2003329206A JP 4349875 B2 JP4349875 B2 JP 4349875B2
Authority
JP
Japan
Prior art keywords
document
search
unit
classification
conforming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003329206A
Other languages
English (en)
Other versions
JP2005092825A (ja
Inventor
淳之 後藤
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003329206A priority Critical patent/JP4349875B2/ja
Priority to US10/941,835 priority patent/US20050065919A1/en
Priority to CNB200410010451XA priority patent/CN100504857C/zh
Publication of JP2005092825A publication Critical patent/JP2005092825A/ja
Application granted granted Critical
Publication of JP4349875B2 publication Critical patent/JP4349875B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索対象の文書データから関連文書データのみを抽出する文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムに関する。
文書検索における課題は、いかに効率よく目的とする文書を探し当てるかにある。この課題を解決するために、従来の文書検索では、キーワードを論理演算子と組み合わせて文書検索を行い、ここで得られた検索結果に対し新たなキーワードと論理演算子とを組み合わせて検索結果の絞込みを行っていた。しかし、検索のために妥当なキーワードを指定したり、キーワードと論理演算子とを組み合わせて指定するには、検索する分野の専門知識が必要であったり、キーワードを見つけ出すための時間が必要になる等の問題があった。さらに、検索結果の内容を一つ一つ吟味するまでは、得られた検索結果が適切な検索条件のもとに検索されたかどうか判断がつかない等の問題があった。
そこで、かかる問題点を解決するため、以下のような技術が提案されている。例えば、各情報に割り振られた複数のキーワード(学習データ)と符号辞書を使用して、入力情報をスコア計算のためのベクトルに変換する。スコア計算は、キーワード符号に対する肯定メトリック、否定メトリックを取り出して行う。計算されたスコアと判定パラメータを使用して、情報の必要性と信頼性を学習(計算)する。そして、学習した必要性と信頼性の数値で、未知データを評価し、必要性の大きい順に並べ替えて検索者に提示する(特許文献1を参照。)。
また、ベクトル生成手段により情報に割り振られた複数のキーワードをベクトルに変換し、検索者の興味を反映したメトリックを生成し、さらにそれを分割し、それぞれのメトリックを用いて検索者の興味を前記ベクトルと前記分割されたメトリックを用いて計算されるスコアの大きい順に情報を掲示する技術が提案されている(特許文献2を参照。)。
特許第3244005号公報 特開2000−137731号公報
しかしながら、特許文献1,2に記載の技術では、フィルタリングの結果、検索者に掲示される文書には必要のない文書データも含まれてしまい、未知データのうち検索者が真に欲するデータがどれで、どのデータが不要であるかを明確に分離することができないという問題があった。
本発明は、上述した従来技術による問題点を解消するため、初期の検索結果から学習データを作成し、さらにこの学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示する文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、この発明にかかる文書フィルタリング装置は、文書情報を入力し、また検索結果情報を出力する情報入出力部と、該情報入出力部から入力された文書情報から検索対象となる検索語を抽出する検索語抽出部と、該検索語抽出部により抽出された検索語を含む文書をデータベースから検索し、該検索結果を、前記情報入出力部に出力する検索部と、検索者から入力された情報に基づいて、前記検索結果に含まれる文書のうち、前記検索者の意図に適合しているとして指定された文書を適合文書とし、検索者の意図に適合していないとして指定された文書を非適合文書とした情報を含む学習データを生成する学習データ作成部と、前記学習データに基づいて、前記適合もしくは非適合とされた文書に含まれる単語に対して、該文書が適合文書の場合には正の値を用いて重み付けをし、該文書が非適合文書の場合には負の値を用いて重み付けをし、該重み付けに基づいて、前記文書に含まれる各単語のパラメータおよび関連文書か否かを判定するしきい値を含む分類用パラメータを生成する分類用パラメータ生成部と、前記分類用パラメータに対応する各単語を検索語として、該検索語を含む文書を前記データベースから再検索する再検索部と、前記再検索結果に含まれる文書に対して、該文書に含まれる単語に対応する前記分類用パラメータに基づいてスコアを付与し、該スコアと前記分類用パラメータに含まれるしきい値とに基づいて、前記再検索結果に含まれる文書を関連文書と非関連文書のいずれかに分類する分類部と、を備えることを特徴とする。
この発明によれば、初期の検索結果から学習データを作成し、さらにこの学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示することができる。この結果、検索者の意図に合致した文書検索を短時間で効率的に行うことができる。また、関連文書検索結果をフィルタリングすることで、検索結果の下位に埋もれている適合文書を上位に移動させることができる。
また、前記学習データ作成部は、前記検索部による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする。
この発明によれば、一部の検索データを用いて前記学習データを作成することができるので、前記分類用パラメータを生成するまでの時間を短縮することができる。なお、すべての検索データを用いてより検索精度を高めるための分類用パラメータを生成することも可能である。
また、前記分類用パラメータ生成部は、線形SVM、Fisher判別式、BayesのBinary Independence Modelのアルゴリズムのいずれかを用いて前記分類用パラメータを生成することを特徴とする。
また、前記情報入出力部は、前記分類部による検索結果である関連文書一覧を表示部に表示させることを特徴とする。
また、この発明の文書フィルタリング方法は、文書フィルタリング装置によって文書フィルタリングを行う文書フィルタリング方法において、文書情報を入力し、また検索結果情報を出力する情報入出力部が行う情報入出力工程と、該情報入出力部から入力された文書情報から検索対象となる検索語を検索後抽出部により抽出する検索語抽出工程と、該検索語抽出工程により抽出された検索語を含む文書をデータベースから検索し、該検索結果を、前記情報入出力部に出力する検索部が行う検索工程と、検索者から入力された情報に基づいて、前記検索結果に含まれる文書のうち、前記検索者の意図に適合しているとして指定された文書を適合文書とし、検索者の意図に適合していないとして指定された文書を非適合文書とした情報を含む学習データを学習データ生成部が生成する学習データ作成工程と、前記学習データに基づいて、前記適合もしくは非適合とされた文書に含まれる単語に対して、該文書が適合文書の場合には正の値を用いて重み付けをし、該文書が非適合文書の場合には負の値を用いて重み付けをし、該重み付けに基づいて、前記文書に含まれる各単語のパラメータおよび関連文書か否かを判定するしきい値を含む分類用パラメータを分類用パラメータ生成部が生成する分類用パラメータ生成工程と、前記分類用パラメータに対応する各単語を検索語として、該検索語を含む文書を前記データベースから再検索部が再検索する再検索工程と、前記再検索結果に含まれる文書に対して、該文書に含まれる単語に対応する前記分類用パラメータに基づいてスコアを付与し、該スコアと前記分類用パラメータに含まれるしきい値とに基づいて、前記再検索結果に含まれる文書を関連文書と非関連文書のいずれかに分類部が分類する分類工程と、を含むことを特徴とする。
また、前記学習データ作成工程は、前記検索部による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする。
また、前記分類用パラメータ生成工程は、線形SVM、Fisher判別式、BayesのBinary Independence Modelのアルゴリズムのいずれかを用いて前記分類用パラメータを生成することを特徴とする。
また、前記情報入出力工程は、前記分類部による検索結果である関連文書一覧を表示部に表示させることを特徴とする。
また、この発明の文書フィルタリングプログラムは、上記のいずれか一つに記載の文書フィルタリング方法をコンピュータに実行させることを特徴とする。
本発明にかかる文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムによれば、初期の検索結果から学習データを作成し、さらにこの学習データから再検索のための分類用パラメータを生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示することができる。この結果、検索者の意図に合致した文書検索を短時間で効率的に行うことができるという効果を奏する。
以下に添付図面を参照して、本発明にかかる文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムの好適な実施の形態を詳細に説明する。
(実施の形態)
図1は、本発明にかかる文書フィルタリング装置の概略構成を示すブロック図である。本発明の文書フィルタリング装置100は、情報入出力部101、検索語抽出部102、文書ランキング検索部103、学習データ作成部104、分類用パラメータ生成部105、および分類部106を含み構成される。
情報入出力部101は、検索者が入力した検索文を検索語抽出部102へ送る。検索語抽出部102は、検索者が入力した検索文から検索語を抽出しこれを文書ランキング検索部103へ送る。文書ランキング検索部103は、検索語抽出部102が抽出した検索語を含む文書を文書フィルタリング装置100と接続されているデータベース110からランキング検索する。ランキング検索とは、過去に最も多く検索対象となった単語を含む文書から順に検索することである。文書ランキング検索部103は、ランキング検索の結果を情報入出力部101へ送る。そして、情報入出力部101は、表示部(不図示)に文書ランキング検索部103から送られた検索結果を表示する。検索者は、前記表示部に表示された検索結果の内容を吟味し、表示された文書に対し情報入出力部101から適合文書または非適合文書を指定する。学習データ作成部104は、情報入出力部101から入力された情報に基づき、検索者の検索意図と合致した文書を適合文書、検索者の検索意図と合致していない文書を非適合文書として学習データを作成する。分類用パラメータ生成部105は、学習データ作成部104で作成された学習データに基づき、分類用パラメータを生成する(詳細は後述する)。文書ランキング検索部103は、分類用パラメータ生成部105で生成された分類用パラメータに対応する単語を検索語として、当該検索語を含む文書をデータベース110から再検索する。分類部106は、文書ランキング検索部103による再検索結果に対して後述するフィルタリング(検索結果を関連文書と非関連文書に分ける)を行い、関連文書のみを取り出して、これを検索結果として情報入出力部101へ送る。情報入出力部101は、分類部106から送られた検索結果を表示部に表示する。
以下、本発明の文書フィルタリング装置を用いた文書フィルタリング方法について詳細に説明する。図2−1,図2−2は、この文書フィルタリング方法の実行手順を示すフローチャートである。まず、検索者が文書フィルタリング装置100の情報入出力部101から検索文を入力する(ステップS201)。具体的には、情報入出力部101から入力された検索文は、情報入出力部101の表示部上で図3に示す如く画像300の検索語入力フィールド301に表示される。そして、画像300の検索実行フィールド302をクリックすることで当該検索文の検索が開始される。
次に、検索語抽出部102は、情報入出力部101から入力された検索文から検索語を抽出する(ステップS202)。文書ランキング検索部103は、検索語抽出部102が抽出した検索語を含む文書をデータベース110からランキング検索する(ステップS203)。この工程での検索結果は情報入出力部101へ送られる。なお、ランキング検索とは、過去に最も多く検索対象となった単語を含む文書から順に検索することである。情報入出力部101は文書ランキング検索部103から送られたランキング検索の結果を、表示部に表示する(ステップS204)。
検索者は、前記表示部に表示された検索結果の内容を吟味し、表示された文書に対し情報入出力部101から適合文書または非適合文書を指定する。具体的には、図4に示すように、前記表示部に検索結果一覧として表示された画像400の各情報に対し、例えば適合文書には○印、非適合文書には×印を付与する等して、当該データに対する適合・非適合文書情報を分別して入力し、フィルタリングフィールド401をクリックする。そして、学習データ作成部104は、情報入出力部101から入力された情報(適合・非適合文書を分別した情報)に基づき、検索者の検索意図と合致した文書を適合文書、検索者の検索意図と合致していない文書を非適合文書とした学習データを作成する(ステップS205)。ここでは、検索したすべての適合・非適合文書を学習データとして用いてもよいし、その一部を学習データとして用いてもよい。ただ、できるだけ多くのデータに基づいた方が精度が向上する。分類用パラメータ生成部105は、学習データ作成部104で作成された学習データに基づき、分類用パラメータを自動的に生成する(ステップS206)。
ここで、分類用パラメータの生成方法について説明する。分類用パラメータの生成には、線形SVM,Fisher判別式,BayesのBinary Independence Model等のアルゴリズムを使用する。以下、具体的に説明する。
分類用のパラメータには、例えば、次のベクトル式中のw,bを使用する。
f(x)=sgn(w・x+b) ・・・(1)
xは学習データの特徴量ベクトル、w・xはベクトルwとベクトルxの内積である。wとbが学習により決定されるパラメータとなる。sgn(x)は、引数x(スカラー値)の値が正なら+1の値をとり、0以下なら−1の値をとる。
また、ベクトルwは、
w=ΣV(wi)×wi(i=1〜n:nは検索語の数)
と表される。そして、学習により、V(wi),wi,bの値が決定される。具体的には、正の学習データxに対してはf(x)の値が+1(適合文書)、負の学習データxに対してはf(x)の値が−1(非適合文書)になるように、V(wi),wi,bの値が決定される。V(wi)は単語wiの重み(単語の特徴量)、bはしきい値である。wiは各単語に対応している。
文書ランキング検索部103は、分類用パラメータ生成部105で生成された分類用パラメータに対応する単語を検索語として、この検索語を含む文書をデータベース110から再検索する(ステップS207)。この工程では、分類用のパラメータに対応するn個の各単語を使用して再検索を行う。この再検索の結果、各文書diには、次のような文書スコアが付与される。例えば、
f(x)=sgn(w・x+b)
の分類パラメータwを使用した場合は、
score(di)=w・xi ・・・(2)
なる文書スコアが付与される。xiは文書diの特徴量ベクトルである。
次に、分類部106は、文書ランキング検索部103による再検索結果に対してフィルタリングを行う。具体的には、以下のような処理を行う。まず、ステップS207の再検索の結果、得られた文書群から文書を取り出し、これをdiとする(ステップS208)。なお、diには分類用パラメータを使用したスコア(score(di))が付与されている。次に、score(di)がステップS206で求められたしきい値(b)を超えたか否かを判断する(ステップS209)。score(di)がステップS206で求められたしきい値(b)を超えている(例えば、f(x)=sgn(w・x+b)の分類パラメータbを使用した場合は、score(di)+b>0となった場合)場合(ステップS209:Yes)は、diを検索結果(関連文書)とし(ステップS210)、ステップS211へ進む。score(di)がステップS206で求められたしきい値(b)を超えていない場合(ステップS209:No)は、そのままステップS211へ進む。続いて、再検索の結果、得られた文書群中のすべての文書の処理が終了したか否かを判断する(ステップS211)。すべての文書の処理が終了した場合(ステップS211:Yes)は、ステップS212へ進む。すべての文書の処理を終了していない場合(ステップS211:No)は、再度ステップS208へ戻り、処理を続行する。
ステップS211においてすべての文書の処理が終了した場合は(ステップS211:Yes)、分類部106は、ステップS210における検索結果を情報入出力部101へ送る。そして、情報入出力部101は分類部106から送られた検索結果(関連文書一覧)を表示部に表示する(ステップS212)。このとき、前記表示部には、例えば図5に示すような画像500が表示される。なお、この工程で前記再検索の結果を文書スコア順にソートしてもよい。
以下、本発明の文書フィルタリング方法による検索の一例を示す。例えば、検索質問文「AAAのCCC」を情報入出力部101から入力する。この質問文に対して文書ランキング検索を行った結果、ランキング上位に文書群
1.AAAのCCC
2.BBBのCCC
3.AAAのDDD
4.AAAのEEE
が検索結果として得られたとする。そこで、検索者は、各文書に対して適合(○)、非適合(×)を次のように指定する。
○「AAAのCCC」
×「BBBのCCC」
×「AAAのDDD」
○「AAAのEEE」
そして、これを元に分類用パラメータを自動生成したところ、
「重みつき単語集合w=AAA:0.5,BBB:−0.6,CCC:0.3,DDD:−0.2,EEE:0.1,しきい値b=−0.4」
となったとする。
そこで、AAA,BBB,CCC,DDD,EEEを検索語として再検索を行い、検索された文書に対して前述のようなスコアを算出する。その結果、次のようなスコアつき文書d1,d2,d3が得られたとする。
BBB,CCCを含む文書d1のスコアscore(d1)は、−0.6+0.3=−0.3であり、
score(d1)+b=−0.3−0.4=−0.7<0
なので検索結果として出力しない。
AAA,DDDを含む文書d2のスコアscore(d2)は、0.5−0.2=0.3であり、
score(d2)+b=0.3−0.4=−0.1<0
なので検索結果として出力しない。
AAA,EEEを含む文書d3のスコアscore(d3)は、0.5+0.1=0.6であり、
score(d3)+b=0.6−0.4=0.2>0
なので検索結果として出力する。
以上説明したように、文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムによれば、初期の検索結果を学習データとして構成し、その学習データから再検索のための分類用パラメータを自動生成し、この分類用パラメータを使用して、未知データを検索者にとって必要なデータと不要なデータに分類し、必要なデータのみをフィルタリングして検索者に提示することができる。この結果、検索者の意図に合致した文書検索を短時間で効率的に行うことができる。
なお、本実施の形態で説明した文書フィルタリング方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク,フレキシブルディスク,CD−ROM,MO,DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、本発明にかかる文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラムは、文書検索に有用であり、特に、膨大なデータからの文書検索に適している。
本発明にかかる文書フィルタリング装置の概略構成を示すブロック図である。 本発明の文書フィルタリング方法の実行手順を示すフローチャートである。 本発明の文書フィルタリング方法の実行手順を示すフローチャートである。 検索者が入力した検索文の表示例を示す図である。 ランキング検索結果の表示例を示す図である。 再検索結果の表示例を示す図である。
符号の説明
100 文書フィルタリング装置
101 情報入出力部
102 検索語抽出部
103 文書ランキング検索部
104 学習データ作成部
105 分類用パラメータ生成部
106 分類部
110 データベース
300,400,500 画像
301 検索語入力フィールド
302 検索実行フィールド
401 フィルタリングフィールド

Claims (9)

  1. 文書情報を入力し、また検索結果情報を出力する情報入出力と、
    該情報入出力から入力された文書情報から検索対象となる検索語を抽出する検索語抽出と、
    該検索語抽出により抽出された検索語を含む文書をデータベースから検索し、該検索結果を、前記情報入出力部に出力する検索と、
    検索者から入力された情報に基づいて、前記検索結果に含まれる文書のうち、前記検索者の意図に適合しているとして指定された文書を適合文書とし、検索者の意図に適合していないとして指定された文書を非適合文書とした情報を含む学習データを生成する学習データ作成と、
    前記学習データに基づいて、前記適合もしくは非適合とされた文書に含まれる単語に対して、該文書が適合文書の場合には正の値を用いて重み付けをし、該文書が非適合文書の場合には負の値を用いて重み付けをし、該重み付けに基づいて、前記文書に含まれる各単語のパラメータおよび関連文書か否かを判定するしきい値を含む分類用パラメータを生成する分類用パラメータ生成と、
    前記分類用パラメータに対応する各単語を検索語として、該検索語を含む文書を前記データベースから検索する再検索と、
    前記再検索結果に含まれる文書に対して、該文書に含まれる単語に対応する前記分類用パラメータに基づいてスコアを付与し、該スコアと前記分類用パラメータに含まれるしきい値とに基づいて、前記再検索結果に含まれる文書を関連文書と非関連文書のいずれかに分類する分類と、
    を備えることを特徴とする文書フィルタリング装置。
  2. 前記学習データ作成は、前記検索による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする請求項1に記載の文書フィルタリング装置。
  3. 前記分類用パラメータ生成は、線形SVM、Fisher判別式、BayesのBinary Independence Modelのアルゴリズムのいずれかを用いて前記分類用パラメータを生成することを特徴とする請求項1または2に記載の文書フィルタリング装置。
  4. 前記情報入出力部は、前記分類部による検索結果である関連文書一覧を表示部に表示させることを特徴とする請求項1〜3のいずれか一つに記載の文書フィルタリング装置。
  5. 文書フィルタリング装置によって文書フィルタリングを行う文書フィルタリング方法において、
    文書情報を入力し、また検索結果情報を出力する情報入出力部が行う情報入出力工程と、
    該情報入出力部から入力された文書情報から検索対象となる検索語を検索後抽出部により抽出する検索語抽出工程と、
    該検索語抽出工程により抽出された検索語を含む文書をデータベースから検索し、該検索結果を、前記情報入出力部に出力する検索部が行う検索工程と、
    検索者から入力された情報に基づいて、前記検索結果に含まれる文書のうち、前記検索者の意図に適合しているとして指定された文書を適合文書とし、検索者の意図に適合していないとして指定された文書を非適合文書とした情報を含む学習データを学習データ生成部が生成する学習データ作成工程と、
    前記学習データに基づいて、前記適合もしくは非適合とされた文書に含まれる単語に対して、該文書が適合文書の場合には正の値を用いて重み付けをし、該文書が非適合文書の場合には負の値を用いて重み付けをし、該重み付けに基づいて、前記文書に含まれる各単語のパラメータおよび関連文書か否かを判定するしきい値を含む分類用パラメータを分類用パラメータ生成部が生成する分類用パラメータ生成工程と、
    前記分類用パラメータに対応する各単語を検索語として、該検索語を含む文書を前記データベースから再検索部が再検索する再検索工程と、
    前記再検索結果に含まれる文書に対して、該文書に含まれる単語に対応する前記分類用パラメータに基づいてスコアを付与し、該スコアと前記分類用パラメータに含まれるしきい値とに基づいて、前記再検索結果に含まれる文書を関連文書と非関連文書のいずれかに分類部が分類する分類工程と、
    を含むことを特徴とする文書フィルタリング方法。
  6. 前記学習データ作成工程は、前記検索部による検索結果のすべてまたはその一部のデータを用いて前記学習データを作成することを特徴とする請求項5に記載の文書フィルタリング方法。
  7. 前記分類用パラメータ生成工程は、線形SVM、Fisher判別式、BayesのBinary Independence Modelのアルゴリズムのいずれかを用いて前記分類用パラメータを生成することを特徴とする請求項5または6に記載の文書フィルタリング方法。
  8. 前記情報入出力工程は、前記分類部による検索結果である関連文書一覧を表示部に表示させることを特徴とする請求項5〜7のいずれか一つに記載の文書フィルタリング方法。
  9. 請求項5〜8のいずれか一つに記載の文書フィルタリング方法をコンピュータに実行させることを特徴とする文書フィルタリングプログラム。
JP2003329206A 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム Expired - Fee Related JP4349875B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003329206A JP4349875B2 (ja) 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
US10/941,835 US20050065919A1 (en) 2003-09-19 2004-09-16 Method and apparatus for document filtering capable of efficiently extracting document matching to searcher's intention using learning data
CNB200410010451XA CN100504857C (zh) 2003-09-19 2004-09-19 用学习数据有效提取检索者合意的文档的过滤方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003329206A JP4349875B2 (ja) 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム

Publications (2)

Publication Number Publication Date
JP2005092825A JP2005092825A (ja) 2005-04-07
JP4349875B2 true JP4349875B2 (ja) 2009-10-21

Family

ID=34308850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003329206A Expired - Fee Related JP4349875B2 (ja) 2003-09-19 2003-09-19 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム

Country Status (3)

Country Link
US (1) US20050065919A1 (ja)
JP (1) JP4349875B2 (ja)
CN (1) CN100504857C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107447A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4825544B2 (ja) * 2005-04-01 2011-11-30 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
US7849079B2 (en) * 2006-07-31 2010-12-07 Microsoft Corporation Temporal ranking of search results
US7685199B2 (en) * 2006-07-31 2010-03-23 Microsoft Corporation Presenting information related to topics extracted from event classes
US7577718B2 (en) * 2006-07-31 2009-08-18 Microsoft Corporation Adaptive dissemination of personalized and contextually relevant information
US7493330B2 (en) * 2006-10-31 2009-02-17 Business Objects Software Ltd. Apparatus and method for categorical filtering of data
JP4730619B2 (ja) * 2007-03-02 2011-07-20 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8112421B2 (en) 2007-07-20 2012-02-07 Microsoft Corporation Query selection for effectively learning ranking functions
JP5309570B2 (ja) 2008-01-11 2013-10-09 株式会社リコー 情報検索装置、情報検索方法、制御プログラム
JP5194826B2 (ja) 2008-01-18 2013-05-08 株式会社リコー 情報検索装置、情報検索方法及び制御プログラム
JP5123032B2 (ja) * 2008-04-10 2013-01-16 株式会社リコー 情報配信装置、情報配信方法、情報配信プログラム及び記録媒体
JP5049871B2 (ja) * 2008-05-16 2012-10-17 株式会社リコー 画像検索装置、画像検索方法、情報処理プログラム、記録媒体及び画像検索システム
JP5049223B2 (ja) * 2008-07-29 2012-10-17 ヤフー株式会社 Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
US8713007B1 (en) * 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
CN101901235B (zh) * 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和系统
JP5305241B2 (ja) * 2009-06-05 2013-10-02 株式会社リコー 分類パラメータ生成装置、生成方法及び生成プログラム
JP5656585B2 (ja) * 2010-02-17 2015-01-21 キヤノン株式会社 文書作成支援装置、文書作成支援方法及びプログラム
JP6150291B2 (ja) * 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
CN106156179B (zh) * 2015-04-20 2020-01-07 阿里巴巴集团控股有限公司 一种信息检索方法及装置
JP6735247B2 (ja) * 2017-03-29 2020-08-05 トヨタテクニカルディベロップメント株式会社 文書分類装置、文書分類方法及び文書分類プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799304A (en) * 1995-01-03 1998-08-25 Intel Corporation Information evaluation
US6314420B1 (en) * 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3219386B2 (ja) * 1997-12-26 2001-10-15 松下電器産業株式会社 情報フィルタ装置及び情報フィルタ方法
JP3344953B2 (ja) * 1998-11-02 2002-11-18 松下電器産業株式会社 情報フィルタ装置及び情報フィルタリング方法
US6574632B2 (en) * 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
US20030016250A1 (en) * 2001-04-02 2003-01-23 Chang Edward Y. Computer user interface for perception-based information retrieval
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
US6829599B2 (en) * 2002-10-02 2004-12-07 Xerox Corporation System and method for improving answer relevance in meta-search engines
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107447A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치

Also Published As

Publication number Publication date
US20050065919A1 (en) 2005-03-24
CN100504857C (zh) 2009-06-24
CN1627294A (zh) 2005-06-15
JP2005092825A (ja) 2005-04-07

Similar Documents

Publication Publication Date Title
JP4349875B2 (ja) 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
Devika et al. Sentiment analysis: a comparative study on different approaches
EP2041669B1 (en) Text categorization using external knowledge
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
JP6870421B2 (ja) 判定プログラム、判定装置および判定方法
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2018045537A (ja) 検索プログラム、検索装置および検索方法
Kumar et al. Mood classifiaction of lyrics using SentiWordNet
Vainshtein et al. A hybrid approach for automatic model recommendation
Domeniconi et al. Markov chain based method for in-domain and cross-domain sentiment classification
JP2007018389A (ja) データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
Adeleke et al. Automating quranic verses labeling using machine learning approach
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6433937B2 (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
Moumtzidou et al. Discovery of environmental nodes in the web
JP7409484B2 (ja) リスク評価装置、リスク評価方法およびプログラム
CN112182159B (zh) 一种基于语义表示的个性化检索式对话方法和系统
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
JP2007156932A (ja) 学習方法、学習装置、および検索方法、検索装置
Mishael et al. Investigating classification techniques with feature selection for intention mining from Twitter feed
JP5521670B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060615

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130731

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees