JP4825544B2 - 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 - Google Patents

文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 Download PDF

Info

Publication number
JP4825544B2
JP4825544B2 JP2006049066A JP2006049066A JP4825544B2 JP 4825544 B2 JP4825544 B2 JP 4825544B2 JP 2006049066 A JP2006049066 A JP 2006049066A JP 2006049066 A JP2006049066 A JP 2006049066A JP 4825544 B2 JP4825544 B2 JP 4825544B2
Authority
JP
Japan
Prior art keywords
document
search
seed
seed document
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006049066A
Other languages
English (en)
Other versions
JP2007149047A (ja
Inventor
哲也 池田
卓也 平岡
浩生 早野
史郎 堀部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006049066A priority Critical patent/JP4825544B2/ja
Priority to US11/395,731 priority patent/US20060230031A1/en
Publication of JP2007149047A publication Critical patent/JP2007149047A/ja
Application granted granted Critical
Publication of JP4825544B2 publication Critical patent/JP4825544B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置、文書検索方法、文書検索プログラム及び記録媒体に関し、特に入力された検索条件に基づいて所定の文書の集合より前記検索条件に適合する文書を検索する文書検索装置、文書検索方法、文書検索プログラム及び記録媒体に関する。
文書検索の分野において、検索結果が利用者の検索要求に合致しているか否かは重要な評価基準の一つである。従来、検索要求に指定された検索語に基づいて各文書に対して検索要求に合致する度合い(以下、「適合度」という。)を求め、適合度が大きい順に検索結果を出力する文書検索装置が提案されている(例えば、特許文献1)。
検索結果の品質は平均適合率などで評価される。平均適合率とは、検索結果一覧の上位n個の文書群に含まれる適合文書(検索要求に合致する文書)の割合(すなわち、適合率)をn=1,2,…,Nのそれぞれに対して求め、それらN個の適合率の値を平均したものである。
高い品質の検索結果を得るために、利用者が検索要求に指定した検索語だけではなく関連する語も検索語として追加する手法(以下、「関連語拡張」という。)が存在する。関連語拡張により追加される検索語(以下、「拡張語」という。)の選択方法に対しても、様々な提案がされている。
例えば、適合性フィードバックという手法が知られている。システムは、まず利用者が指定した検索語を用いた検索(1次検索)の結果を利用者に提示し、利用者がその結果を適合文書とそうでない文書に分ける。システムはその結果を得て適合文書に含まれる語から選択された拡張語を用いた検索(2次検索)の結果を最終的な結果として出力する。以下、拡張語を選択するために用いられる文書をシード文書と呼ぶ。
また、適合性フィードバックが利用者に強いる負担を軽減するため、擬似適合性フィードバックという手法がある。これは、1次検索の結果の上位に位置づけられた文書をシード文書として拡張語を得るというものである。
特開平11−224264号公報 特開2003−242170号公報 特開2004−192374号公報 特開2003−022275号公報
しかしながら、従来の適合性フィードバックや擬似適合性フィードバックでは、シード文書は検索語に基づいて検索された文書群から選ばれることを前提としているため、拡張語の選択が検索対象の文書群の構成に左右される。この欠点を補う手法はいくつか提案されており、例えば、特許文献2では、2次検索の適合度計算に1次検索の適合度計算の結果をマージすることで1次検索の品質が悪い場合でも最終結果の質への影響を軽減させることのできる方式が提案されている。
また、特許文献3では、著者や日付などの書誌事項に基づいてシード文書を分割することにより、多様な観点から拡張語を選出できるように工夫している。いずれの方法もシード文書を指定するという共通の処理を行うため、用途に応じてそれぞれの方式を選択することが考えられるが、シード文書の選択はシステムが行うため、それぞれの構成をシステムが使い分けることになり、使い易さの面で問題がある。
一方、単語ごとに関連する語をあらかじめ登録しておき、その対応関係をもとに関連語拡張を行う手法も提案されている。例えば特許文献4では、共起語データベースという形で関連する語を登録しておく手法が提案されている。しかし、あらかじめ対応関係を登録する手法の場合、対応関係のメンテナンスが必要となり、用語が次々と追加されるような分野には適用が困難であるという問題がある。
本発明は、上記の点に鑑みてなされたものであって、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラム及び記録媒体の提供を目的とする。
そこで上記課題を解決するため、本発明は、入力された検索条件に基づいて所定の文書の集合より前記検索条件に適合する文書を検索する文書検索装置であって、前記検索条件とは別の情報に基づいてシード文書を取得するシード文書取得手段と、前記シード文書取得手段によって取得された前記シード文書より前記検索条件と関連性を有する単語の集合を抽出する単語抽出手段と、前記検索条件と前記単語抽出手段によって抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索する検索手段とを有し、前記シード文書取得手段は、前記検索条件とは別に入力された文字列に基づいて前記シード文書を取得し、前記シード文書取得手段は、前記文字列を構成する単語ごとに該文字列内の出現頻度を算出し、該出現頻度を用いて選択される所定の個数の単語に基づいて前記シード文書を取得することを特徴とする。
このような文書検索装置では、検索要求に対して適切な検索結果を出力することができる。
また、上記課題を解決するため、本発明は、上記文書検索装置における文書検索方法、前記文書検索方法をコンピュータに実行させるための文書検索プログラム、又は前記文書検索プログラムを記録した記録媒体としてもよい。
本発明によれば、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラム及び記録媒体を提供することができる。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における文書管理システムの機能構成例を示す図である。図1において、文書管理システム10は、検索要求入力部11、シード文書取得部12、拡張語抽出部13及び文書データベース部14等より構成されている。
検索要求入力部11は、文書検索に用いる検索条件と共に関連語拡張に用いるシード文書を取得するための文字列を利用者に入力させる。シード文書取得部12は検索要求入力部11に入力されたシード文書を取得するための文字列に基づいてシード文書を取得又は検索する。拡張語抽出部13はシード文書を構成する単語から拡張語を所定数選択する。文書データベース部14は検索条件に加えて拡張語抽出部13で選択された拡張語を用いて文書データベース部14に蓄積されている文書の集合の中から検索条件及び拡張語に適合する文書を検索し、検索結果の一覧を利用者に提示する。
ここで、関連語拡張とは、高い品質の検索結果を得るために、検索条件に含まれる検索語とは別に関連する語も検索語として追加する手法をいう。関連語拡張により追加される検索語を拡張語といい、拡張語を選択又は抽出するために用いられる文書をシード文書という。
外部データベース15は、文書管理システム10とは別のシステムにおける文書データベースの一例である。
なお、文書管理システム10は、一台のコンピュータで構成してもよいし、クライアント・サーバ型等を採用して複数台のコンピュータで構成してもよい。後者の場合、例えば、検索要求入力部11についてはクライアントに実装し、シード文書取得部12、拡張語抽出部13及び文書データベース部14については、サーバに実装してもよい。
図2は、本発明の実施の形態における文書管理システムのハードウェア構成例を示す図である。図2の文書管理システム10は、それぞれ相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、演算処理装置104と、表示装置105と、入力装置106とを有するように構成される。
文書管理システム10での処理を実現するプログラムは、CD―ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。演算処理装置104は、メモリ装置103に格納されたプログラムに従って文書管理システム10に係る機能を実行する。表示装置105はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置106はキーボード及びマウス等で構成され、様々な操作指示を受け付けるために用いられる。
以下、図1及び図2の文書管理システム10の処理手順について説明する。図3は、第一の実施の形態における文書管理システムによる文書検索処理を説明するためのフローチャートである。
ステップS101において、検索要求入力部11は、検索要求を入力させるための画面(以下「検索要求入力画面」という。)を表示装置105に表示させ、利用者に検索要求を入力させる。
図4は、検索要求入力画面の表示例を示す図である。図4において、検索要求入力画面110は、検索条件入力領域111、シード取得文字列入力領域112、シード数入力領域113、検索ボタン114及びキーワードボタン115等より構成されている。
検索条件入力領域111は、検索条件を入力させるためのテキストボックスである。所定の条件式や検索語を検索条件として入力することができる。シード取得文字列入力領域112は、シード文書を取得又は検索するための文字列(単語、複合語、又は文章等。以下「シード取得文字列」という。)を入力させるためのテキストボックスである。シード数入力領域113は、シード文書の最大数を入力させるためのテキストボックスである。キーワード表示ボタン115は、検索条件やシード取得文字列に用いるキーワードを選択させるためのダイアログを表示させるためのボタンである。
利用者が、検索条件、シード取得文字列、シード文書の最大数等を入力し検索ボタン114をクリックすると、ステップS102に進む。
ステップS102において、検索要求入力部11は、検索要求入力画面110に入力されたシード取得文字列を単語に分割する。シード取得文字列の単語への分割は、公知の構文解析を用いればよい。続いて、検索要求入力部11は、シード取得文字列に含まれていた単語ごとにシード取得文字列における出現頻度(例えば、出現する数)を算出する(S103)。
続いて、検索要求入力部11は、例えば、出現頻度の高い順に所定数の単語を選択し(S104)、選択された単語と、検索要求入力画面110に入力された検索条件及びシード文書の最大数と等に基づいて文書データベース部14に対する検索要求を示す命令文を生成する(S105)。
検索要求を示す命令文は、公知のSQL構文、あるいはその拡張構文で実現できる。例えば、副問合せを用いた拡張構文を用いてもよい。以下に例を挙げる。

select title from Documents where data contains '環境保護' ・・・(1)
expand from (select data from Documents where data contains '温暖化' limit 10) ・・・(2)

命令文(1)に示されるselect文は、文書データベース部14に定義されている「Documents」というテーブルからの検索命令である。より詳しくは、「Documentsテーブルにおいてdata項目(文書の本文)に”環境保護”という語を含むレコードのtitle項目(文書のタイトル)の値を検索せよ。」という命令を意味する。
また、(2)に示される、expand fromという記述に続く副問合せは、シード文書を取得するための検索命令である。より詳しくは、「Documentsテーブルにおいてdata項目に”温暖化”という語を含むレコードの上位10件のdata項目を検索せよ。」という命令を意味する。上位10件を定める順位は、例えば、各文書の適合度に基づく。
なお、「温暖化」というキーワードは、シード取得文字列より抽出された単語であり、「limit 10」は、シード文書の最大数を示す。また、「環境保護」は、検索条件として入力された検索語である。
なお、(1)及び(2)で示される命令文を利用者に明示的に入力させてもよい。但し、検索要求入力画面110のようなGUI(Graphical User Interface)を提供することにより、システム側が自動的に命令文を作成する方が、SQLに不慣れな利用者にとっての利便性という観点からは望ましい。
続いて、シード文書取得部12は、検索要求入力部11によって生成された命令文(2)に基づいて文書データベース部14又は外部データベース15よりシード文書を取得する(S106)。上記の例では副問合せにある、
select data from Documents where data contains '温暖化' limit 10 ・・・(2)
という問合せを文書データベース部14に対して実行することで、「温暖化」というキーワードに合致する文書のうち上位10件の文書のdata項目の値がシード文書として取得される。
続いて、拡張語抽出部13は、expand句に対応する処理として、シード文書取得部12によって取得されたシード文書を適合文書とみなして拡張語の抽出と選択を行う。
すなわち、拡張語抽出部13は、シード文書を単語に分割し(S107)、単語ごとに文書頻度を算出する(S108)。ここで、単語Wの文書頻度とは単語Wを含むシード文書の数をいう。更に、拡張語抽出部13は、文書頻度が高い順に所定数の単語を選択し、選択された単語を拡張語とする(S109)。
なお、シード文書の単語への分割は、空白で区切られた単位を用いてもよいし、公知の形態素解析を用いてもよい。あるいは単純に一定の文字数で切ったものを用いてもよい。また、予め検索語には不適切な単語を登録しておき、文書頻度が高くても不適切な単語として登録されているものは拡張語として選択しないといった仕組みを実装してもよい。また、拡張語として抽出する個数はシステムで固定にしてもよいし、検索要求入力部11が、GUI等を介して利用者に指定させるようにしてもよい。
ステップS109に続いてステップS110に進み、文書データベース部14は、検索要求入力画面110において入力された検索条件(検索語)と、拡張語抽出部13によって抽出された拡張語の全て又は一部を含む文書を文書データベース部14における文書の集合の中から検索し、検索結果を利用者に提示する。文書データベース部14による処理は、例えば、特開2003−281181号公報に記載されている方法を用いてもよい。
上述したように、第一の実施の形態における文書管理システム10によれば、利用者によって指定された文字列に基づいて拡張語が選択されるため、利用者の意図により近い高い品質の検索結果を出力することができる。また、シード取得文字列は、検索条件の入力と共に入力させることができるため、利用者は、一回の入力操作で簡便に高品質の検索結果を得ることができる。
次に第二の実施の形態について説明する。第二の実施の形態では、検索対象とされている文書の集合と異なる文書の集合よりシード文書を取得する例について説明する。なお、第二の実施の形態において、文書管理システム10の機能構成(図1)、ハードウェア構成(図2)及び検索処理のフロー(図3)は、上述したものとほぼ同様である。
第二の実施の形態では、ステップS105において、検索要求入力部11は、文書データベース部14に対する検索要求を示す命令文として以下のような命令文を生成する。すなわち、第一の実施の形態において示した副問合せを用いた拡張構文において、副問合せに検索対象のテーブル以外のテーブルを検索対象として指定する。例えば、以下のようなものが一例となる。

select title from Documents where data contains '環境保護' ・・・(1)
expand from (select headline from MyFavoriteNews where headline like '%環境%') ・・・(3)

命令文(3)に示される、expand fromという記述に続く副問合せは、検索対象となる文書の集合を格納したテーブルDocumentsとは異なる文書の集合を格納したテーブルMyFavoriteNewsに対して、「headline項目に”環境”という文字列を含むレコードのheadline項目の値を検索せよ。」という命令を意味する。
したがって、この場合、MyFavoriteNewsテーブルより検索されたレコードのheadline項目の値がシード文書として用いられ、ステップS106以降の処理が実行される。
テーブルMyFavoriteNewsは、検索対象のテーブルDocumentsとは独立にデータの追加、削除、変更が行われるため、シード文書の選択は、テーブルDocumentsの内容に左右されない。MyFavoriteNewsに格納される文書は文書管理システム10の外部から取得されるものでもよい。例えば、利用者がWWW(Word Wide Web)上で見つけた文書の集合によってテーブルMyFavoriteNewsを構成してもよい。この場合、テーブルDocumentsの内容とは無関係に、利用者が興味のある文書の内容を用いて拡張語の選択が行われる。したがって、テーブルDocumentsに利用者が関心のない情報が含まれていても、そのことに拡張語の選択が影響されることは無い。よって、利用者の要求に沿った検索結果を出力できる可能性を高めることができる。
次に第三の実施の形態について説明する。第三の実施の形態において、文書管理システム10の機能構成(図1)、ハードウェア構成(図2)及び検索処理のフロー(図3)は、上述したものとほぼ同様である。
第三の実施の形態では、ステップS105において、検索要求入力部11は、文書データベース部14に対する検索要求を示す命令文として以下のような命令文を生成する。すなわち、第一の実施の形態において示した副問合せを用いた拡張構文において、副問合せに更に副問合せを用いた拡張構文を指定する。例えば以下のようなものが一例となる。

select title from Documents where data contains '環境保護' ・・・(1)
expand from (
select data from Documents where data contains '二酸化炭素'
expand from (
select headline from RecentNews
where headline like '%温暖化%' limit 10
) ・・・(5)
limit 20) ・・・(4)

この例では、命令文(1)による「環境保護」に基づく検索に用いる拡張語を抽出するシード文書に、命令文(4)による検索結果の上位20件を使用している。更に、「二酸化炭素」に基づくシード文書の検索では、テーブルRecentNewsからheadline項目に「温暖化」を含むレコードの上位10件のheadline項目の値をシード文書として抽出された拡張語を追加している。
これにより、単に「二酸化炭素」で検索した結果をシード文書とする場合に比べて、「温暖化」が含まれる文書を構成する単語を拡張語として検索された結果がシード文書として使われることになり、より適切な拡張語が得られうる。このように、副問い合わせを入れ子にすることにより、擬似適合性フィードバックを少なくとも2回実施する検索を、一回の検索要求に基づいて行うことができる。なお、副問合せの入れ子は、二重以上にしてもよい。
次に第四の実施の形態について説明する。第四の実施の形態において、文書管理システム10の機能構成(図1)、ハードウェア構成(図2)及び検索処理のフロー(図3)は、上述したものとほぼ同様である。
第四の実施の形態では、ステップS105において、検索要求入力部11は、文書データベース部14に対する検索要求を示す命令文として以下のような命令文を生成する。すなわち、第一の実施の形態において示した副問合せを用いた拡張構文において、副問合せに書誌事項に対する検索条件を指定する。例えば、以下のようなものが一例となる。

select title from Documents where data contains '環境保護'
expand from (
select data from Documents
where title like '%取り組み%'
and author like '%RRRR%'
and publish_date >= '2004/10/01' limit 20)

この例では「環境保護」に基づく検索に用いる拡張語を抽出するシード文書に、title項目(タイトル)に「取り組み」を含み、author項目(著者)に「RRRR」を含み、publish_date項目(公開日)が2004年10月1日以降である文書のうち上位20件が用いられている。
これにより、文書に対する検索要求とは別の基準を加味して選択した文書より拡張語を選択することができる。したがって、多様な観点に基づくフィードバックにより高い品質の検索結果を出力することができる。
次に第五の実施の形態について説明する。第五の実施の形態において、文書管理システム10の機能構成(図1)、ハードウェア構成(図2)及び検索処理のフロー(図3)は、上述したものとほぼ同様である。
第五の実施の形態では、ステップS105において、検索要求入力部11は、文書データベース部14に対する検索要求を示す命令文として以下のような命令文を生成する。すなわち、第一の実施の形態において示した副問合せを用いた拡張構文において、副問合せに文字列を列挙させる。例えば、以下のようなものが一例となる。

select title from Documents where data contains '環境保護'
expand from (
values ('近年の温暖化傾向が…',
'京都議定書が…',
'…', …)
)

この例では「環境保護」の検索に用いる拡張語を抽出するシード文書として、values()
に指定されている文字列が直に使用される。これらの文字列は、例えば、検索要求入力画面110におけるシード取得文字列入力領域112に入力させたものを用いてもよい。この場合、図3におけるステップS102からS105までの処理は不要となり、ステップS106においてシード文書取得部12はシード取得文字列入力領域112に入力された文字列を切り出して、それぞれをシード文書として使用する。
第5の実施の形態における文書管理システム10によれば、検索要求の時点で利用者に直接指定させた文字列をシード文書として検索を行うことができる。したがって、検索対象の文書群に左右されずに関連語拡張を行うことができる。例えばWWW(Word Wide Web)上で検索した結果の文書の全部又は一部を用いて拡張語を抽出した検索を実施することが容易となる。
次に第六の実施の形態について説明する。第六の実施の形態において、文書管理システム10の機能構成(図1)及びハードウェア構成(図2)は、上述したものとほぼ同様である。
第六の実施の形態において、検索要求入力部11は、検索条件をユーザに入力させ、その検索条件に基づいて関連語拡張のためのシード文書を取得するための文字列を検索(取得)する。但し、シード文書を取得するための文字列は、検索条件と共にユーザに入力させることにより取得してもよい。
したがって、検索要求入力画面110(図4)のシード取得文字列入力領域112には、例えば、検索条件入力領域111に入力された検索条件に基づく検索結果の中から適合度の最も高い文字列が自動的に入力されるようにしてもよい。また、検索条件入力領域111に入力された検索条件に基づく検索結果の中からユーザの任意によって選択されたものが入力されるようにしてもよい。更に、検索条件とは別に、ユーザの任意による文字列を入力させるようにしてもよい。
シード文書取得部12は、検索要求入力部11が取得したシード取得文字列に基づいてシード文書を取得又は検索する。より詳しくは、シード文書取得部12は、検索要求入力部11が取得したシード文書を取得するための文字列に基づいて一次的な検索を行い、その一時的な検索によって得られた文書と所定の属性が共通する文書をシード文書として取得又は検索する。ここで、所定の属性とは、シード文書として適切な文書を得ることが期待できるものであれば所定のものには限定されないが、例えば、著者、出版社、又は翻訳者等、文書の出所を示す情報等でもよい。
拡張語抽出部13はシード文書を構成する単語から拡張語を所定数選択する。文書データベース部14は検索条件に加えて拡張語抽出部13で選択された拡張語を用いて文書データベース部14に蓄積されている文書の集合の中から検索条件及び拡張語に適合する文書を検索し、検索結果の一覧を利用者に提示する。
外部データベース15は、文書管理システム10とは別のシステムにおける文書データベースの一例である。
以下、第六の実施の形態における文書管理システム10の処理手順について説明する。第六の実施の形態において、文書管理システム10の検索処理の基本フローは、図3に示されるものと同様である。
但し、第六の実施の形態では、ステップS105において、検索要求入力部11は、文書データベース部14に対する検索要求を示す命令文として以下のような命令文を生成する。

select title from Documents where title contains ‘環境保護’ ・・・(1)
expand from (select title from Documents where [所定の属性] in ・・・(6)
(select [所定の属性] from Documents where title contains ‘温暖化’ limit 10)) ・・・(7)

命令文(1)に示されるselect文は、上述したように文書データベース部14に定義されている「Documents」というテーブルからの検索命令である。より詳しくは、「Documentsテーブルにおいてtitle項目(文書の題名)に”環境保護”という語を含むレコードのtitle項目(文書のタイトル)の値を検索せよ。」という命令を意味する。
また、(6)に示される、expand fromという記述に続く副問合せにおける外側のselect文は、より多くのシード文書を取得するための検索命令である。より詳しくは、「Documentsテーブルにおいて所定の属性の値が(7)の検索結果の値に一致するレコードのtitle項目を検索せよ。」という命令を意味する。
更に、(7)に示される、expand fromという記述に続く副問合せにおける内側のselect文は、シード文書を取得するための検索命令である。より詳しくは、「Documentsテーブルにおいてtitle項目に”温暖化”という語を含むレコードの上位10件のtitle項目を検索せよ。」という命令を意味する。上位10件を定める順位は、例えば、各文書の適合度に基づく。
なお、「温暖化」というキーワードは、シード取得文字列より抽出された単語であり、「limit 10」は、シード文書の最大数を示す。また、「環境保護」は、検索条件として入力された検索語である。
すなわち、上記のSQL構文では、(7)において検索された文書と所定の属性の値が共通する文書が(6)において検索され、その検索結果がシード文書として拡張語の抽出に用いられる。これによって、(7)において検索された文書のみをシード文書とする場合に比べ、より多くのシード文書が得られるようになる。
なお、(1)及び(6)で示される命令文を利用者に明示的に入力させてもよい。但し、検索要求入力画面110のようなGUI(Graphical User Interface)を提供することにより、システム側が自動的に命令文を作成する方が、SQLに不慣れな利用者にとっての利便性という観点からは望ましい。
続いて、シード文書取得部12は、検索要求入力部11によって生成された命令文(6)及び(7)に基づいて文書データベース部14又は外部データベース15よりシード文書を取得する(S106)。上記の例では副問合せにある、
select title from Documents where [所定の属性] in ・・・(6)
(select [所定の属性] from Documents where title contains ‘温暖化’ limit 10) ・・・(7)
という問合せを文書データベース部14に対して実行することで、「温暖化」というキーワードに合致する文書のうち上位10件のいずれかの文書のtitle項目の値が、所定の属性の値に一致する文書がシード文書として取得される。
ここで、所定の属性が著者である場合(すなわち、(7)によって検索された文書と著者が共通する文書をシード文書とする場合)の上記(6)及び(7)の命令文は以下のようになる。
select title from Documents where 著者ID in ・・・(6)
(select 著者ID from Documents where title contains ‘温暖化’ limit 10) ・・・(7)
また、所定の属性が出版社である場合(すなわち、(7)によって検索された文書と出版社が共通する文書をシード文書とする場合)の上記(6)及び(7)の命令文は以下のようになる。
select title from Documents where 出版社ID in ・・・(6)
(select 出版社ID from Documents where title contains ‘温暖化’ limit 10)
更に、所定の属性が翻訳者である場合(すなわち、(7)によって検索された文書と翻訳者が共通する文書をシード文書とする場合)の上記(6)及び(7)の命令文は以下のようになる。
select title from Documents where 翻訳者ID in ・・・(6)
(select 翻訳者ID from Documents where title contains ‘温暖化’ limit 10) ・・・(7)

上述したように、第六の実施の形態における文書管理システム10によれば、利用者によって指定された文字列(シード取得文字列)に基づいて拡張語が選択されるため、利用者の意図により近い高い品質の検索結果を出力することができる。また、シード取得文字列は、検索条件の入力と共に入力させることができるため、利用者は、一回の入力操作で簡便に高品質の検索結果を得ることができる。
また、利用者の意図によって指定されたシード取得文字列に基づいて検索される文書と所定の属性が共通する文書をもシード文書として用いるため、拡張語を抽出するための集合(シード文書)を大きくすることができ、より多くの文書の中から抽出された拡張語によってより利用者の期待に沿った検索結果が得られることが期待できる。
特に、ある著者、出版社又は翻訳者等は、特定のジャンルに特化した文書を発行する傾向が高いものと考えられる。したがって、著者、出版社又は翻訳者等、文書の出所を示す情報が共通している文書は、有効なシード文書として機能するものと期待できる。
なお、第六の実施の形態においては、シード取得文字列に基づいて取得された文書と所定の属性が共通する文書を更なるシード文書とする例について説明したが、検索条件に基づいて検索された文書と所定の属性が共通する文書を更なるシード文書として扱うようにしてもよい。
以上、本発明の実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明の実施の形態における文書管理システムの機能構成例を示す図である。 本発明の実施の形態における文書管理システムのハードウェア構成例を示す図である。 第一の実施の形態における文書管理システムによる文書検索処理を説明するためのフローチャートである。 検索要求入力画面の表示例を示す図である。
符号の説明
10 文書管理システム
11 検索要求入力部
12 シード文書取得部
13 拡張語抽出部
14 文書データベース部
15 外部データベース
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 演算処理装置
105 表示装置
106 入力装置

Claims (16)

  1. 入力された検索条件に基づいて所定の文書の集合より前記検索条件に適合する文書を検索する文書検索装置であって、
    前記検索条件とは別の情報に基づいてシード文書を取得するシード文書取得手段と、
    前記シード文書取得手段によって取得された前記シード文書より前記検索条件と関連性を有する単語の集合を抽出する単語抽出手段と、
    前記検索条件と前記単語抽出手段によって抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索する検索手段とを有し、
    前記シード文書取得手段は、前記検索条件とは別に入力された文字列に基づいて前記シード文書を取得し、
    前記シード文書取得手段は、前記文字列を構成する単語ごとに該文字列内の出現頻度を算出し、該出現頻度を用いて選択される所定の個数の単語に基づいて前記シード文書を取得することを特徴とする文書検索装置。
  2. 前記シード文書取得手段は、前記検索手段が対象とする前記所定の文書の集合と異なる文書の集合より前記シード文書を取得することを特徴とする請求項記載の文書検索装置。
  3. 前記シード文書取得手段は、当該シード文書取得手段が取得したシード文書より抽出された前記単語の集合と前記文字列とに基づいて第二のシード文書を取得し、
    前記単語抽出手段は、前記第二のシード文書より前記検索条件と関連性を有する単語の集合を抽出し、
    前記検索手段は、前記検索条件と、前記第二のシード文書より抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項1又は2記載の文書検索装置。
  4. 前記シード文書取得手段は、前記文字列の少なくとも一部を書誌事項に含む文書を前記シード文書として取得することを特徴とする請求項1乃至3いずれか一項記載の文書検索装置。
  5. 前記シード文書取得手段は、前記検索条件とは別の情報に基づいて取得されたシード文書と所定の属性が共通する文書を更なるシード文書として取得し、
    前記単語抽出手段は、前記シード文書取得手段によって取得された前記シード文書における出現頻度に基づいて、前記シード文書より所定数の単語を抽出し、
    前記検索手段は、前記検索条件と前記単語抽出手段によって抽出された単語とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項1記載の文書検索装置。
  6. 前記検索条件とは別の情報は、前記検索条件に基づいて前記所定の文書の集合より検索された文字列、又は前記検索条件とは別に入力された文字列であることを特徴とする請求項記載の文書検索装置。
  7. 前記所定の属性は、前記文書の出所を示す情報であることを特徴とする請求項5又は6記載の文書検索装置。
  8. 入力された検索条件に基づいて所定の文書の集合より前記検索条件に適合する文書を検索する検索手段と、前記検索に用いるシード文書を取得するシード文書取得手段と、前記シード文書より単語の集合を抽出する単語抽出手段とを有する文書検索装置により実行される文書検索方法であって、
    前記シード文書取得手段が、前記検索条件とは別の情報に基づいてシード文書を取得するシード文書取得手順と、
    前記単語抽出手段が、前記シード文書取得手順において取得された前記シード文書より前記検索条件と関連性を有する単語の集合を抽出する単語抽出手順と、
    前記検索手段が、前記検索条件と前記単語抽出手順において抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索する検索手順とを有し、
    前記シード文書取得手順は、前記検索条件とは別に入力された文字列に基づいて前記シード文書を取得し、
    前記シード文書取得手順は、前記文字列を構成する単語ごとに該文字列内の出現頻度を算出し、該出現頻度を用いて選択される所定の個数の単語に基づいて前記シード文書を取得することを特徴とする文書検索方法。
  9. 前記シード文書取得手順は、前記検索手順が対象とする前記所定の文書の集合と異なる文書の集合より前記シード文書を取得することを特徴とする請求項記載の文書検索方法。
  10. 前記シード文書取得手順は、当該シード文書取得手順が取得したシード文書より抽出された前記単語の集合と前記文字列とに基づいて第二のシード文書を取得し、
    前記単語抽出手順は、前記第二のシード文書より前記検索条件と関連性を有する単語の集合を抽出し、
    前記検索手順は、前記検索条件と、前記第二のシード文書より抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項8又は9記載の文書検索方法。
  11. 前記シード文書取得手順は、前記文字列の少なくとも一部を書誌事項に含む文書を前記シード文書として取得することを特徴とする請求項8乃至10いずれか一項記載の文書検索方法。
  12. 前記シード文書取得手順は、前記検索条件とは別の情報に基づいて取得されたシード文書と所定の属性が共通する文書を更なるシード文書として取得し、
    前記単語抽出手順は、前記シード文書取得手順において取得された前記シード文書における出現頻度に基づいて、前記シード文書より所定数の単語を抽出し、
    前記検索手順は、前記検索条件と前記単語抽出手順によって抽出された単語とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項記載の文書検索方法。
  13. 前記検索条件とは別の情報は、前記検索条件に基づいて前記所定の文書の集合より検索された文字列、又は前記検索条件とは別に入力された文字列であることを特徴とする請求項12記載の文書検索方法。
  14. 前記所定の属性は、前記文書の出所を示す情報であることを特徴とする請求項12又は13記載の文書検索方法。
  15. 請求項8乃至14いずれか一項記載の文書検索方法をコンピュータに実行させるための文書検索プログラム。
  16. 請求項15記載の文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006049066A 2005-04-01 2006-02-24 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 Expired - Fee Related JP4825544B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006049066A JP4825544B2 (ja) 2005-04-01 2006-02-24 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
US11/395,731 US20060230031A1 (en) 2005-04-01 2006-03-31 Document searching device, document searching method, program, and recording medium

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2005106886 2005-04-01
JP2005106886 2005-04-01
JP2005322793 2005-11-07
JP2005322793 2005-11-07
JP2006049066A JP4825544B2 (ja) 2005-04-01 2006-02-24 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2007149047A JP2007149047A (ja) 2007-06-14
JP4825544B2 true JP4825544B2 (ja) 2011-11-30

Family

ID=37084270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006049066A Expired - Fee Related JP4825544B2 (ja) 2005-04-01 2006-02-24 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Country Status (2)

Country Link
US (1) US20060230031A1 (ja)
JP (1) JP4825544B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4972358B2 (ja) * 2006-07-19 2012-07-11 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
US8065321B2 (en) * 2007-06-20 2011-11-22 Ricoh Company, Ltd. Apparatus and method of searching document data
JP2009271659A (ja) * 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
CN101901235B (zh) 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和系统
US20130173610A1 (en) * 2011-12-29 2013-07-04 Microsoft Corporation Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches
US20140181097A1 (en) * 2012-12-20 2014-06-26 Microsoft Corporation Providing organized content
US10095750B2 (en) * 2016-01-13 2018-10-09 Ricoh Company, Ltd. Adaptive query processing
CN109558538B (zh) * 2018-11-23 2022-02-01 北京字节跳动网络技术有限公司 输入联想词的构建方法、装置、存储介质及电子设备
JP7341090B2 (ja) * 2020-03-17 2023-09-08 株式会社日立製作所 文献検索システム及び方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2894301B2 (ja) * 1996-11-15 1999-05-24 日本電気株式会社 文脈情報を用いた文書検索方法および装置
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
JP4118571B2 (ja) * 2002-02-15 2008-07-16 株式会社リコー 文書検索装置、文書検索方法および記録媒体
JP4227797B2 (ja) * 2002-05-27 2009-02-18 株式会社リコー 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法
JP4253483B2 (ja) * 2002-09-20 2009-04-15 株式会社リコー 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP4265737B2 (ja) * 2002-09-20 2009-05-20 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム、及び記録媒体
JP2004126840A (ja) * 2002-10-01 2004-04-22 Hitachi Ltd 文書検索方法、プログラムおよびシステム
JP4349875B2 (ja) * 2003-09-19 2009-10-21 株式会社リコー 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム

Also Published As

Publication number Publication date
US20060230031A1 (en) 2006-10-12
JP2007149047A (ja) 2007-06-14

Similar Documents

Publication Publication Date Title
JP4825544B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
EP1988476B1 (en) Hierarchical metadata generator for retrieval systems
JP4644420B2 (ja) ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置
US8930822B2 (en) Method for human-centric information access and presentation
US8019758B2 (en) Generation of a blended classification model
US20090083230A1 (en) Apparatus and method for supporting information searches
US20080021891A1 (en) Searching a document using relevance feedback
US20060277189A1 (en) Translation of search result display elements
US20110302149A1 (en) Identifying dominant concepts across multiple sources
CN107870915B (zh) 对搜索结果的指示
JP2011215950A (ja) キーワード提示装置、方法及びプログラム
US20120179709A1 (en) Apparatus, method and program product for searching document
US20040059726A1 (en) Context-sensitive wordless search
JP2008084070A (ja) 構造化文書検索装置およびプログラム
US20110252313A1 (en) Document information selection method and computer program product
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
Singla et al. A novel approach for document ranking in digital libraries using extractive summarization
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JPH05204983A (ja) リレーショナルデータベース処理装置および処理方法
US20070244861A1 (en) Knowledge management tool
JP4933869B2 (ja) 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
JP2007233752A (ja) 検索装置、コンピュータプログラム及び記録媒体
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009276826A (ja) 情報検索装置及び情報検索プログラム
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110912

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4825544

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees