JP4754849B2 - 文書検索装置、文書検索方法、および文書検索プログラム - Google Patents

文書検索装置、文書検索方法、および文書検索プログラム Download PDF

Info

Publication number
JP4754849B2
JP4754849B2 JP2005064680A JP2005064680A JP4754849B2 JP 4754849 B2 JP4754849 B2 JP 4754849B2 JP 2005064680 A JP2005064680 A JP 2005064680A JP 2005064680 A JP2005064680 A JP 2005064680A JP 4754849 B2 JP4754849 B2 JP 4754849B2
Authority
JP
Japan
Prior art keywords
document
search
documents
conforming
classification parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005064680A
Other languages
English (en)
Other versions
JP2006251935A (ja
Inventor
淳之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005064680A priority Critical patent/JP4754849B2/ja
Publication of JP2006251935A publication Critical patent/JP2006251935A/ja
Application granted granted Critical
Publication of JP4754849B2 publication Critical patent/JP4754849B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、文書検索装置、文書検索方法、および文書検索プログラムに関する。
文書検索における課題は、いかに効率よく目的とする文書を探し当てるかにある。この課題を解決するために、従来の文書検索では、キーワードを論理演算子と組み合わせて文書検索を行い、ここで得られた検索結果に対し新たなキーワードと論理演算子とを組み合わせて検索結果の絞込みを行っていた。特に、検索者が検索結果の一部から適合文書を選択して学習データとして与えれば、全文検索文書サーバが管理する全文書を適合文書と不適合文書に分類するための分類用パラメータを生成でき、検索者に適合文書のみを提示(フィルタリング)することが可能であった。
しかしながら、従来技術では、全文検索文書サーバが管理する全文書からフィルタリングによって取り出した適合文書に、学習データとして指定した適合文書が含まれる保障がないという問題がある。具体的には、次のような場合が考えられる。
第一に、分類用パラメータに学習データである適合文書の単語が十分に反映されない場合、その適合文書は、フィルタリング処理で不適合文書として扱われるおそれがある。
第二に、適合文書に含まれない単語で不適合文書に含まれる単語が分類用パラメータになり、単純検索すると適合文書がヒットしまうおそれがある。たとえば、『リーン』が分類用パラメータに選ばれ、単純検索すると『リン』を含む適合文書がヒットするような場合である。これは、検索モジュールが単語『リーン』を正規化し、『リン』と同一視するための副作用が生じる。このとき、適合文書は『リーン』が含まれているとみなされ、分類用パラメータ『リーン』に対応する重みが減じられ、その結果、不適合文書に分類されることになる。
第三に、部分文字列の一部が分類用パラメータになる場合、文書検索に不具合が生じるおそれがある。たとえば、分類用パラメータとして、『京都』が選択され、『京都』で単純検索すると『東京都』を含む文書もヒットする。すなわち、不適合文書が単語『京都』、適合文書が単語『東京都』を含む場合がこれに該当する。
以上のような不具合は、検索者が文書検索装置に対し学習データとして適合文書を指定したのに、フィルタリング結果にそれらの適合文書が現れないのは検索者にとり大きな不満になる。
この発明は、上述した従来技術による問題点を解消するため、検索者が学習データとして指定した適合文書が必ず文書検索した結果に含まれるようにすることで文書検索用の分類用パラメータが補正され、良好な文書検索結果が得られる文書検索装置、文書検索方法、および文書検索プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、この発明の請求項1にかかる文書検索装置は、操作命令を受け付ける操作手段と、前記操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出手段と、電子化された複数の文書を文書群として蓄積する蓄積手段と、前記蓄積手段に蓄積されている文書群から、前記検索語抽出手段により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索手段と、表示動作を行う表示手段と、前記第1の関連文書検索手段により検索された前記第1の関連文書を前記表示手段に表示させる第1の表示制御手段と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索手段により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定手段と、
前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索手段と、文書をベクトルで表現したベクトル空間上で、前記適合文書指定手段により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索手段により検索された複数の前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出手段と、前記適合文書指定手段により指定された前記適合文書、及び前記不適合文書抽出手段により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出手段により抽出された前記不適合文書の集合よりも前記適合文書指定手段により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定手段により指定された前記適合文書の集合よりも前記不適合文書抽出手段により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成手段と、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの補正を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの補正を行うプレフィルタリング手段と、前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索手段と、前記第3の関連文書検索手段により検索された前記第3の関連文書から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する分類手段と、前記分類手段による分類結果を前記表示画面に表示させる第2の表示制御手段と、を備えていることを特徴とする。
この請求項1に記載の発明によれば、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができる。
また、請求項にかかる文書検索装置は、請求項に記載の発明において、前記プレフィルタリング手段は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの削除を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの削除することを特徴とする。
この請求項に記載の発明によれば、妥当でない分類用パラメータが用いられるような不具合を回避することができる。
また、請求項3にかかる文書検索方法は、コンピュータが、操作を受け付ける操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出工程と、電子化された複数の文書を文書群として蓄積する蓄積手段に蓄積されている文書群から、前記検索語抽出工程により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索工程と、前記第1の関連文書検索工程により検索された前記第1の関連文書を表示させる第1の検索結果表示工程と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索工程により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定工程と、前記適合文書指定工程により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出工程と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出工程により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索工程と、文書をベクトルで表現したベクトル空間上で、前記適合文書指定工程により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索工程により検索された前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出工程と、前記適合文書指定工程により指定された前記適合文書、及び前記不適合文書抽出工程により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出工程により抽出された前記不適合文書の集合よりも前記適合文書指定工程により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定工程により指定された前記適合文書の集合よりも前記不適合文書抽出工程により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成工程と、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの補正を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータの補正を行うプレフィルタリング工程と、前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索工程と、前記第3の関連文書検索工程により検索された前記第3の関連文書から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する適合文書分類工程と、前記適合文書分類工程による分類結果を表示する第2の表示工程と、を実行することを特徴とする。

この請求項に記載の発明によれば、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができる。
また、請求項にかかる文書検索方法は、請求項に記載の発明において、前記プレフィルタリング工程は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの削除を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータの削除を行うことを特徴とする。
この請求項に記載の発明によれば、妥当でない分類用パラメータが用いられるような不具合を回避することができる。
また、請求項にかかる文書検索プログラムは、請求項3又は4のいずれか一つに記載の文書検索方法をコンピュータに実行させることを特徴とする。
この請求項に記載の発明によれば、請求項3又は4のいずれか一つに記載の文書検索方法をコンピュータに実行させることができる。
以上説明したように、請求項1に記載の発明によれば、操作命令を受け付ける操作手段と、前記操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出手段と、電子化された複数の文書を文書群として蓄積する蓄積手段と、前記蓄積手段に蓄積されている文書群から、前記検索語抽出手段により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索手段と、表示動作を行う表示手段と、前記第1の関連文書検索手段により検索された前記第1の関連文書を前記表示手段に表示させる第1の表示制御手段と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索手段により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定手段と、前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索手段と、文書をベクトルで表現したベクトル空間上で、前記適合文書指定手段により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索手段により検索された複数の前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出手段と、前記適合文書指定手段により指定された前記適合文書、及び前記不適合文書抽出手段により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出手段により抽出された前記不適合文書の集合よりも前記適合文書指定手段により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定手段により指定された前記適合文書の集合よりも前記不適合文書抽出手段により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成手段と、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの補正を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの補正を行うプレフィルタリング手段と、前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索手段と、前記第3の関連文書検索手段により検索された前記第3の関連文書から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する分類手段と、前記分類手段による分類結果を前記表示画面に表示させる第2の表示制御手段と、を備えているので、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができるという効果を奏する。
また、請求項に記載の発明によれば、請求項に記載の発明において、前記プレフィルタリング手段は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの削除を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを削除するので、妥当でない分類用パラメータが用いられるような不具合を回避することがきるという効果を奏する。
また、請求項に記載の発明によれば、操作を受け付ける操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出工程と、電子化された複数の文書を文書群として蓄積する蓄積手段に蓄積されている文書群から、前記検索語抽出工程により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索工程と、前記第1の関連文書検索工程により検索された前記第1の関連文書を表示させる第1の検索結果表示工程と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索工程により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定工程と、前記適合文書指定工程により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出工程と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出工程により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索工程と、文書をベクトルで表現したベクトル空間上で、前記適合文書指定工程により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索工程により検索された前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出工程と、前記適合文書指定工程により指定された前記適合文書、及び前記不適合文書抽出工程により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出工程により抽出された前記不適合文書の集合よりも前記適合文書指定工程により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定工程により指定された前記適合文書の集合よりも前記不適合文書抽出工程により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成工程と、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの補正を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータの補正を行うプレフィルタリング工程と、前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索工程と、前記第3の関連文書検索工程により検索された前記第3の関連文書から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する適合文書分類工程と、前記適合文書分類工程による分類結果を表示する第2の表示工程と、を含むので、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができるという効果を奏する。
また、請求項に記載の発明によれば、請求項に記載の発明において、前記プレフィルタリング工程は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの削除を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを削除するので、妥当でない分類用パラメータが用いられるような不具合を回避することができるという効果を奏する。
また、請求項に記載の発明によれば、請求項3又は4のいずれか一つに記載の文書検索方法をコンピュータに実行させることによって、請求項3又は4のいずれか一つに記載の文書検索方法をコンピュータで実現することが可能なプログラムが得られるという効果を奏する。
以下、添付図面を参照して、この発明にかかる文書検索装置、文書検索方法、および文書検索プログラムの好適な実施の形態を詳細に説明する。
(文書検索装置のハードウエア構成)
まず、この発明の実施の形態にかかる文書検索装置のハードウエア構成について説明する。図1は、この発明の実施の形態にかかる文書検索装置のハードウエア構成を示す図である。この文書検索装置100は、各種演算を行って装置全体を制御するCPU101と、各種のROMやRAMからなるメモリ102とを備えており、それらはバス103で接続されている。
バス103には、所定のインターフェースを介して、ハードディスクなどの磁気記憶装置104と、キーボードやマウスなどの入力装置105と、表示動作を行うLCDやCRTなどの表示装置106と、光ディスクなどの記憶媒体107を読み取る記憶媒体読取装置108とが接続されている。また、バス103には、ネットワーク110と通信を行う通信制御装置109が接続されている。なお、記憶媒体107としては、CDやDVDなどの光ディスク、光磁気ディスク、フレキシブルディスクなどの各種メディアが用いられる。また、記憶媒体読取装置108は、記憶媒体107の種類に応じて光ディスク装置、光磁気ディスク装置、フレキシブルディスク装置などが用いられる。
磁気記憶装置104には、この発明のプログラムを文書検索プログラム120が記憶されている。この文書検索プログラム120は、記憶媒体107から記憶媒体読取装置108により読み取るか、あるいは、インターネットなどのネットワーク110からダウンロードするかなどして、磁気記憶装置104にインストールされたものである。このインストールにより文書検索装置100は動作可能な状態となる。なお、この文書検索プログラム120は、所定のOS上で動作するものであってもよい。また、特定のアプリケーションソフトの一部をなすものであってもよい。
また、この文書検索装置100がサーバ装置としてネットワーク110を介して端末装置に接続されているような場合には、検索者は文書検索装置100を端末装置により操作することができる。端末装置としては、たとえば、パーソナルコンピュータ、携帯情報端末(PDA)、携帯電話などの情報処理装置が用いられる。また、ネットワーク110としては、無線、有線及び放送波のいずれを用いたものでもよく、たとえば、LAN、WAN、インターネット、アナログ電話網、デジタル電話網、PHS(パーソナルハンディホンシステム)網、携帯電話網、衛星通信網などを利用することができる。
(文書検索の機能的構成)
次に、この発明の実施の形態にかかる文書検索装置の機能的構成について説明する。図2は、この発明の実施の形態にかかる文書検索装置の機能的構成を示すブロック図である。
図2に示すように、この文書検索装置100は、電子化された複数の文書を文書群として蓄積している蓄積部であるデータベース(DB)210と、文書群から適合文書を抽出するための文書検索部220と、入出力部230とを備えている。なお、文書群は、電子化された複数の文書から構成されている。
データベース210は磁気記憶装置104により構成されており、入出力部230は入力装置105および表示装置106により構成されている。ここで、入出力部230は操作部および表示部として機能する。なお、データベース210は、磁気記憶装置104で構成されているが、これに限るものではなく、たとえば、ネットワーク110を介して文書検索装置100に接続されていてもよい。
文書検索部220は、操作者である検索者が指定した検索文から検索語(検索用の語句)を抽出する検索語抽出部201、文書群から関連文書を検索する関連文書検索部202、入出力部230に対する検索者の操作に応じて関連文書から適合文書を指定する適合文書指定部203、適合文書に基づいて関連語(検索用の語句)を抽出する関連語抽出部204、適合文書でない不適合文書を抽出する不適合文書抽出部205、不適合文書(学習データ)を使用して分類用パラメータを生成する学習部206、分類用パラメータの妥当性を検証するプレフィルタリング部207、プレフィルタリング部207で妥当性が検証された分類用パラメータを用いて、関連文書から適合文書を分類する分類部208を含み構成されている。
以上のように構成された文書検索装置100において、まず、検索者は入出力部230を操作することにより検索要求となる検索文を指定する。すると、検索語抽出部201は検索者が指定した検索文から検索語を抽出し、関連文書検索部202に入力する。関連文書検索部202は、データベース210の文書群から検索語を含む文書を関連文書としてランキング検索し、その検索結果を入出力部230に入力する。入出力部230はその検索結果を表示する。
検索者は検索結果の内容を吟味して、入出力部230を操作することにより自身が求める(すなわち適合する)文書を適合文書として選択する。すると、適合文書指定部203は、その選択に応じて検索結果から複数の適合文書を指定する。関連語抽出部204は、検索者が指定した適合文書から関連語を抽出し、関連文書検索部202に入力する。関連文書検索部202は、データベース210の文書群から関連語を含む文書を関連文書としてランキング検索し、その検索結果を入出力部230に入力する。入出力部230はその検索結果を表示する。これにより、検索者が指定した適合文書は検索上位に現れるようになる。このような適合文書の指定および関連文書の検索が複数回繰り返され、十分な適合文書が得られる。
検索者は入出力部230を操作することによりフィルタリング要求を指定する。すると、不適合文書抽出部205は、適合文書を入力データとして検索者が要求しない(すなわち適合しない)不適合文書を「不適合文書の抽出法(後述する)」に従って検索結果から自動的に抽出する。抽出された不適合文書は、適合文書とともに学習部206に渡り、分類用パラメータを生成する学習データとなる。学習部206はその学習データを使用して分類用パラメータを生成し、分類用パラメータをプレフィルタリング部207に渡す。
プレフィルタリング部207では、分類用パラメータの妥当性を検証するために、実際に分類用パラメータを使用して検索者が指定した適合文書と不適合文書の抽出法により抽出された不適合文書を分類する。そして、確実に、適合文書と不適合文書とに分類されるように分類用パラメータを補正する。なお、妥当でない分類用パラメータが検出された場合には、その分類用パラメータを削除する。検証が終わると分類用パラメータを関連文書検索部202に渡す。
関連文書検索部202は、妥当性が検証された分類用パラメータを検索語として再検索を行い、その再検索結果を分類部208に入力する。分類部208は、再検索結果を関連文書検索部202から受け取り、妥当性が検証された分類用パラメータを使用してフィルタリングを行い、関連文書のみを取り出して、その関連文書を適合文書として入出力部230に入力する。入出力部230はその適合文書を検索結果として表示する。
ここで、不適合文書の抽出法について説明する。この不適合文書の抽出法は、与えられた文書群(文書集合)の中から適合文書に基づいて不適合文書を抽出する方法であり、文書間の類似度を決めて、ベクトル空間上で類似度計算を行うことで不適合文書を抽出する。ここでは、適合文書と(適合文書の中心ベクトルをCとする)とラベルなしの各文書(ラベルなし文書の文書ベクトルをDとする)との類似度simが閾値α以下(sim(C,D)≦α)の文書が不適合文書とされる。また、ラベルなし文書としては、関連文書の検索結果の上位からユーザが指定した適合文書を除いたn個の文書が選択される。そして、不適合文書は適合文書と同じ数だけ抽出される。
不適合文書の抽出方法は次の手順による。まず、適合文書の集合Rから中心ベクトルCを求める。関連文書の検索結果の上位からn個の文書を選択してSとする。Sから未選択の文書を1つ選択し文書ベクトルDを求め、中心ベクトルCとの類似度sim(C,D)を計算し、その計算結果を優先順序キューQに入れる。なお、優先順序キューQはsim(C,D)の値で半整列(判順序化)されている。また、キューサイズは適合文書サイズとなるように管理されている。優先順序キューQ内の要素の最大値がαになると、優先順序キューQ内の文書を不適合文書Nとし、不適合文書の抽出は完了する。S中の全て(n個)の文書に対して類似度を計算しても、優先順序キューQ内の要素の最大値がα以下にならない場合には、関連文書の検索結果からm個の文書をさらに選択してS中の文書数をnからn+mに拡張し、S中で未選択の文書の文書ベクトルDに対して、上述と同じことを繰り返す。
このような文書検索部220の各機能は文書検索プログラム120に基づいてCPU101が実行する処理により実現される。
(文書検索処理)
次に、文書検索装置による文書検索処理の手順について説明する。図3は、この文書検索処理の手順を示すフローチャートである。この処理は、CPU101が文書検索プログラム120を実行することにより行われる。
図3に示すように、まず、CPU101は、たとえば図4に示すような検索画面を入出力部230により表示する(ステップS301)。そして、検索語を入力し、検索実行ボタン401を押下する(ステップS302)。これにより、CPU101は、検索語に基づいて関連文書の検索を実行し(ステップS303)、その関連文書の検索結果を入出力部230に表示する(ステップS304)。これにより、数千や数万になる関連文書の検索結果のうち、関連度の高いものから所定件数分表示される。このとき、検索画面はたとえば図5に示すような画面になる。
検索者は検索結果を確認して、より良い検索結果を得るために検索結果の文書の内容を確認し、入出力部230を操作して、自身が求める(適合する)文書に○(図5参照)をつけて適合文書の指定を行い、入力後に検索実行ボタン501を押下する(ステップS305)。
これにより、CPU101は、○がついている関連文書を適合文書として指定し、その適合文書に基づいて関連語を抽出し、その関連語に基づいて関連文書の検索を実行する(ステップS306)。その後、その関連文書の検索結果を入出力部230により表示する(ステップS307)。すると、検索画面はたとえば図6に示すような画面になり、図5に示すような画面で適合文書として指定した文書が検索上位に移動する。また、それに合わせて適合文書と関連する文書が検索結果の上位に出現するようになる。CPU101は、関連文書の検索結果の適合性をさらに良くするために、入出力部230に対する検索者の操作に応じて適合文書を指定して、その後検索実行ボタン601を押下し、再び適合性フィードバック検索を開始する(ステップS308)。その後、フィルタリングに必要な適合文書数が得られたか否かを判断する(ステップS309)。
通常、2〜3回の適合性フィードバック検索を行えば、フィルタリングに必要な適合文書数は得られる。適合文書数が多いほど、正確なフィルタリングを行うことができ、実用的には7つ程度の適合文書数で満足のいくフィルタリング結果が得られる。なお、DB210に検索者が求める文書がもともと3文書しかない場合には、適合性フィードバック検索を何回行っても、フィルタリングに必要な適合文書数は多く得られない。
ステップS309においてフィルタリングに必要な適合文書数が得られていない場合(ステップS309:No)は、ステップS308へ戻り処理を続行する。ステップS309においてフィルタリングに必要な適合文書数が得られた場合(ステップS309:Yes)は、入出力部230に検索上位に適合文書が記された検索結果(図7に示す画面を参照)が表示される(ステップS310)。この状態で、フィルタリングボタン701が押されると(ステップS311)、適合文書を入力データとして検索者が要求しない(すなわち適合しない)不適合文書を前述の不適合文書の抽出法に従って検索結果から抽出する(ステップS312)。抽出された不適合文書および適合文書を学習データとして分類用パラメータを生成する(ステップS313)。そこで生成された分類用パラメータの妥当性を検証(プレフィルタリングを実行)する(ステップS314)。ここでは、確実に、適合文書と不適合文書とに分類されるように分類用パラメータの補正が実行される。また、妥当でない分類用パラメータが検出された場合には、その分類用パラメータは削除される。そして、妥当性が検証された分類用パラメータを検索語として再検索を実行する(ステップS315)。その検索結果の関連文書をフィルタリングを実行し(ステップS316)、その再検索結果を表示する(ステップS317)。これにより、検索画面は図8に示すような画面になる。
このとき、図7に示すような画面の検索結果には、適合文書よりも不適合文書のほうが多く含まれるのが普通であるが、図8に示すような画面の再検索結果には、適合文書と関連しない文書は含まれていない。図8に示す画面には、図5、図6、図7の画面で指定した適合文書がフィルタリング結果一覧として必ず現れる。
このような処理により、図4に示すような画面は、検索実行ボタン401が押されるとデータが図2に示すようにa→b→c→d→eと流れ、図5に示すような画面になる。より良い検索結果を得るために図5および図6に示すような画面において、検索者が検索結果に○をつけると、適合文書が指定されて適合性フィードバック検索が行われる。このとき、データは図2に示すようにf→g→h→c→d→eと流れる。その後、図6に示すような画面は十分な適合文書が得られると図7に示すような画面になる。この図7に示すような画面は、フィルタリングボタン701が押されるとデータがi→j→k→l→c→d→m→nと流れ、図8に示すような画面になる。
次に、ステップS314のプレフィルタリングの処理について説明する。ここでは、フィルタリングを線形分類により行う場合を例にとり説明する。
フィルタリング向けの分類器f(x)は、分類用パラメータw={w1,w2,・・・
,wn}と、文書ベクトルx={x1,x2,・・・,xn}により、
Σwi×xi+β ・・・(1)
(βはしきい値)の形式で表現され、(適合文書か非適合文書か判定したい)被フィルタリング文書の文書ベクトルxに対して、
f(x)>0 ・・・(2)
の場合に、xは適合文書になり、
f(x)≦0 ・・・(3)
の場合に、xは不適合文書になる。
なお、分類用パラメータは、単語の重みと単語のペアで表現される。以後、分類用パラメータwiが単語そのものを表す場合は、便宜上単にwiと表記し、単語の重みはvalue(wi)と表記することにする。
式(1)において、各wiは分類用パラメータであり、学習により決定される。
次に分類用パラメータの生成法を説明する。
(A1)学習データdi(d1,d2,d3,・・・,dn)を用意する。
(A2)各diから形態素解析等により単語を取り出す。
(A3)各diを特徴づける単語を取り出すためにたとえば単語のtf×idf値を計算し、上位n個を取り出し集合Qに格納する(tfはterm frequencyで単語が文書内に出現する頻度、idfはinverse document frequencyでNを文書数、dfを単語が出現する文書の頻度とした場合、log(N/df)で表現される)。
(A4)集合Qからたとえばtf×idf値の大きい順に単語を取り出し、取り出した単語が不適合文書集合よりも適合文書集合により多く含まれる場合は正の分類用パラメータ、逆の場合に負の分類用パラメータとする。
(A5)各分類用パラメータの重みを学習アルゴリズム(たとえば、線形SVM、Fisher判別式、BayesのBinary Independence Model等のアルゴリズム)に基づき決定する。
続いて、分類用パラメータの生成法を踏まえてプレフィルタリングの説明をする。
正の重みを持つ分類用パラメータをw(+)1,w(+)2,・・・,w(+)i、負の重みを持つ分類用パラメータをw(−)1,w(−)2,・・・,w(−)iと表現したとき、プレフィルタリング処理の前には、正の重みを持つ分類用パラメータw(+)1,w(+)2,・・・,w(+)iを降順に整列し、負の重みを持つ分類用パラメータw(−)1,w(−)2,・・・,w(−)iを昇順に整列していると仮定する。このとき、各学習データdiと分類用パラメータwjに対して、次の処理をする。
まず、文書のscoreを初期化する。
score(d i)←0 ・・・(4)
di が分類用パラメータwjを含むならば、文書のscoreに分類用パラメータwjの重みを加算する。
score(di)←score(di)+value(wj) ・・・(5)
次に、
score(di)+b ・・・(6)
の値の正負を判定する。diが適合文書であるのに式(6)の値が負であるか、diが不適合文書であるのに式(6)の値が正である場合は、分類用パラメータw1,w2,・・・,wnに不適切なものがあることを意味する。
分類用パラメータの補正は、正負の分類用パラメータを別々に行う。場合分けを簡単にするために、正の分類用パラメータを先に評価し、次に負の分類用パラメータを評価する。学習データとして与えられた適合文書xに対して、f(x)≦0になるのは、正の分類
用パラメータをすべて評価した後と負の分類用パラメータの評価中に起こる可能性がある。また、学習データとして与えられた不適合文書xに対して、f(x)>0になるのは、
正の分類用パラメータの評価中と負の分類用パラメータをすべて評価した後に起きる可能性がある。分類用パラメータの補正は、適合文書を使用して負の分類用パラメータを補正し、不適合文書を使用して正の分類用パラメータを補正する。
不適合文書xが正の分類用パラメータw(+)iによるプレフィルタリングにおいて、f(x)>0となる場合は、次の操作で分類用パラメータw(+)iを補正する。
(B1)分類用パラメータw(+)iをwから削除する。
(B2)Qから分類用パラメータを追加し、追加した分類用パラメータの重みとしきい値βを再計算する。 式(6)を計算し、正負を判定する。
(B3)負の場合は、分類用パラメータの補正は終了し、0以上の場合は、(B1)に戻る。
次に、負の分類用パラメータw(−)iによるプレフィルタリングにおいて、適合文書xがf(x)≦0となる場合は、次の操作で分類用パラメータw(−)iを補正する。
(C1)分類用パラメータw(−)iをwから削除する。
(C2)Qから分類用パラメータを追加し、追加した分類用パラメータの重みとしきい値βを再計算する。 式(6)を計算し、正負を判定する。
(C3)正の場合は分類用パラメータの補正は終了し、0以下の場合は(C1)に戻る。
ここで、プレフィルタリングの処理手順について説明する。図9は、このプレフィルタリングの処理手順を示すフローチャートである。
図9に示すフローチャートにおいて、まず、学習データとして指定した適合文書を集合Rに入れる(ステップS901)。i番目の負の分類用パラメータw(−)iを検索語としてデータベース210に対して検索する(ステップS902)。検索の結果得られる文書群から一文書ずつ取り出し、集合R内の文書と一致するかどうかを調べる(ステップS903)。検索結果と一致した集合R内の文書djについて、分類用パラメータを使用したスコアscore(d j)を付与する(ステップS904)。
そして、score(d j)は0以下か否かを判定する(ステップS905)。ここで、score(d j)が0以下ならば(ステップS905:Yes)、分類用パラメータwからw(−)iを削除し、集合Qから分類用パラメータを追加し、w(−)iの代わりとする。そして、追加した分類用パラメータの重みとしきい値bを再計算する(ステップS906)。一方、score(d j)が0以下でないならば(ステップS905:No)、jにj+1を代入して(ステップS907)、ステップS904へ移行する。
ステップS906の処理の後、すべてのjについての処理が終了したか否かを判定する(ステップS908)。ここで、すべてのjについての処理が終了していない場合(ステップS908:No)は、ステップS907へ移行する。一方、すべてのjについての処理が終了した場合(ステップS908:Yes)は、続けてすべてのiについての処理が終了したか否かを判定する(ステップS909)。ここで、すべてのiについての処理が終了した場合(ステップS909:Yes)は、一連の処理が終了となる。一方、すべてのiについての処理が終了していない場合(ステップS909:No)は、iにi+1を代入して(ステップS910)、ステップS902へ移行する。
なお、図9に示したフローチャートでは、負のパラメータを用いたプレフィルタリングの処理を示したが、正のパラメータを用いた場合はその対象性から容易に想像できるため省略した。
以上説明したように、この発明にかかる文書検索装置、文書検索方法によれば、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができる。また、ユーザはフィルタリングのために不適合文書の指定をせずともフィルタリングを実行することができるので、ユーザの操作効率を向上させることができる。
なお、本実施の形態で説明した文書検索方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、本発明にかかる文書検索装置、文書検索方法、および文書検索プログラムは、検索者が指定した適合文書に基づく関連文書の検索に有用であり、特に、精度の高い文書検索が必要な場合に適している。
この発明の実施の形態にかかる文書検索装置のハードウェア構成を示す図である。 この発明の実施の形態にかかる文書検索装置の機能的構成を示すブロック図である。 文書検索処理の手順を示すフローチャートである。 検索画面の表示例を示す図である。 検索画面の表示例を示す図である。 検索画面の表示例を示す図である。 検索画面の表示例を示す図である。 検索画面の表示例を示す図である。 プレフィルタリングの処理手順を示すフローチャートである。
符号の説明
100 文書検索装置
101 CPU
102 メモリ
103 バス
104 磁気記憶装置
105 入力装置
106 表示装置
107 記憶媒体
108 記憶媒体読取装置
109 通信制御装置
110 ネットワーク
120 文書検索プログラム
201 検索語抽出部
202 関連文書検索部
203 適合文書指定部
204 関連語抽出部
205 不適合文書抽出部
206 学習部
207 プレフィルタリング部
208 分類部
210 データベース(DB)
220 文書検索部
230 入出力部

Claims (5)

  1. 操作命令を受け付ける操作手段と、
    前記操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出手段と、
    電子化された複数の文書を文書群として蓄積する蓄積手段と、
    前記蓄積手段に蓄積されている文書群から、前記検索語抽出手段により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索手段と、
    表示動作を行う表示手段と、
    前記第1の関連文書検索手段により検索された前記第1の関連文書を前記表示手段に表示させる第1の表示制御手段と、
    前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索手段により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定手段と、
    前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、
    前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索手段と、
    文書をベクトルで表現したベクトル空間上で、前記適合文書指定手段により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索手段により検索された複数の前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出手段と、
    前記適合文書指定手段により指定された前記適合文書、及び前記不適合文書抽出手段により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出手段により抽出された前記不適合文書の集合よりも前記適合文書指定手段により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定手段により指定された前記適合文書の集合よりも前記不適合文書抽出手段により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成手段と、
    前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの補正を行い、
    前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの補正を行うプレフィルタリング手段と、
    前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索手段と、
    前記第3の関連文書検索手段により検索された前記第3の関連文書から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する分類手段と、
    前記分類手段による分類結果を前記表示画面に表示させる第2の表示制御手段と、
    を備えていることを特徴とする文書検索装置。
  2. 前記プレフィルタリング手段は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの削除を行い、
    前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの削除を行うことを特徴とする請求項1に記載の文書検索装置。
  3. コンピュータが、
    操作を受け付ける操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出工程と、
    電子化された複数の文書を文書群として蓄積する蓄積手段に蓄積されている文書群から、前記検索語抽出工程により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索工程と、
    前記第1の関連文書検索工程により検索された前記第1の関連文書を表示させる第1の検索結果表示工程と、
    前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索工程により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定工程と、
    前記適合文書指定工程により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出工程と、
    前記蓄積手段に蓄積されている文書群から、前記関連語抽出工程により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索工程と、
    文書をベクトルで表現したベクトル空間上で、前記適合文書指定工程により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索工程により検索された前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出工程と、
    前記適合文書指定工程により指定された前記適合文書、及び前記不適合文書抽出工程により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出工程により抽出された前記不適合文書の集合よりも前記適合文書指定工程により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定工程により指定された前記適合文書の集合よりも前記不適合文書抽出工程により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成工程と、
    前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの補正を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータの補正を行うプレフィルタリング工程と、
    前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索工程と、
    前記第3の関連文書検索工程により検索された前記第3の関連文書から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する適合文書分類工程と、
    前記適合文書分類工程による分類結果を表示する第2の表示工程と、
    実行することを特徴とする文書検索方法。
  4. 前記プレフィルタリング工程は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの削除を行い、
    前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータの削除を行うことを特徴とする請求項3に記載の文書検索方法。
  5. 請求項3又は4のいずれか一つに記載の文書検索方法をコンピュータに実行させることを特徴とする文書検索プログラム。
JP2005064680A 2005-03-08 2005-03-08 文書検索装置、文書検索方法、および文書検索プログラム Expired - Fee Related JP4754849B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005064680A JP4754849B2 (ja) 2005-03-08 2005-03-08 文書検索装置、文書検索方法、および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005064680A JP4754849B2 (ja) 2005-03-08 2005-03-08 文書検索装置、文書検索方法、および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2006251935A JP2006251935A (ja) 2006-09-21
JP4754849B2 true JP4754849B2 (ja) 2011-08-24

Family

ID=37092394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005064680A Expired - Fee Related JP4754849B2 (ja) 2005-03-08 2005-03-08 文書検索装置、文書検索方法、および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP4754849B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102160066A (zh) * 2008-06-24 2011-08-17 沙伦·贝伦宗 特别适用于专利文献的搜索引擎和方法
JP5199168B2 (ja) * 2008-09-30 2013-05-15 ヤフー株式会社 検索装置
KR101413988B1 (ko) * 2012-04-25 2014-07-01 (주)이스트소프트 문서의 이산분리시스템 및 방법
CN104899322B (zh) 2015-06-18 2021-09-17 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
JP7243196B2 (ja) * 2019-01-11 2023-03-22 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7238411B2 (ja) * 2019-01-11 2023-03-14 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4179858B2 (ja) * 2002-11-28 2008-11-12 株式会社リコー 文書検索装置、文書検索方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2006251935A (ja) 2006-09-21

Similar Documents

Publication Publication Date Title
US8335787B2 (en) Topic word generation method and system
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
JP2004326216A (ja) 文書検索装置、方法、プログラム、及び記録媒体
JP6123143B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
JP4754849B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JPWO2006134682A1 (ja) 固有表現抽出装置、方法、及びプログラム
JP2019053767A (ja) 保守装置
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP3743204B2 (ja) データ分析支援方法および装置
WO2011052116A1 (ja) ウェブクローリング初期点選択システム、方法及びプログラム
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
JPH11272709A (ja) ファイル検索方式
JP4416644B2 (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP2006350749A (ja) 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体
JP2005234772A (ja) 文書管理装置および方法
JP3902825B2 (ja) 文書検索システムおよび方法
JP4496797B2 (ja) 文書管理装置および方法
JP2002092017A (ja) 概念辞書拡張方法、装置、および概念辞書拡張プログラムを記録した記録媒体
JP3383485B2 (ja) 情報検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4754849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees