JP4933869B2 - 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体 - Google Patents

文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4933869B2
JP4933869B2 JP2006250049A JP2006250049A JP4933869B2 JP 4933869 B2 JP4933869 B2 JP 4933869B2 JP 2006250049 A JP2006250049 A JP 2006250049A JP 2006250049 A JP2006250049 A JP 2006250049A JP 4933869 B2 JP4933869 B2 JP 4933869B2
Authority
JP
Japan
Prior art keywords
document
search
word
seed
search condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006250049A
Other languages
English (en)
Other versions
JP2008071198A (ja
Inventor
浩生 早野
哲也 池田
卓也 平岡
史郎 堀部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006250049A priority Critical patent/JP4933869B2/ja
Publication of JP2008071198A publication Critical patent/JP2008071198A/ja
Application granted granted Critical
Publication of JP4933869B2 publication Critical patent/JP4933869B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体に関し、特に、入力された検索条件に基づいて所定の文書の集合よりその検索条件に適合する文書を検索する文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体に関する。
文書検索の分野において、検索結果がユーザ(検索者)の検索要求に合致しているか否かは重要な評価基準の一つである。従来、検索要求に指定された検索語に基づいて検索要求に合致する度合い(以下、「適合度」という。)を文書毎に求め、適合度が大きい順に検索結果を出力する文書検索装置が提案されている(例えば、特許文献1)。
また、高い品質の検索結果を得るために、利用者が検索要求に指定した検索語だけでなく関連する語も検索語として追加する手法(以下、「関連語拡張」という。)が存在する。関連語拡張により追加される検索語(以下、「拡張語」という。)の選択方法に対しても、様々な提案がされている。
例えば、適合性フィードバックという手法が知られており、この手法は、まず利用者が指定した検索語による検索(一次検索)の結果を利用者に提示し、結果として提示された文書を適合文書(利用者が所望とする文書)と非適合文書とに分類させる。その後、その結果を得て適合文書に含まれる語から選択された拡張語による検索(二次検索)の結果を最終的な結果として出力させる。以下、拡張語を選択するために用いられる文書を「シード文書」と呼ぶ。
また、適合性フィードバックが利用者に強いる負担を軽減するため、擬似適合性フィードバックという手法がある。これは、一次検索の結果の上位に位置付けられた文書をシード文書として拡張語を得るというものである。
しかし、上述のような従来の適合性フィードバックや擬似適合性フィードバックでは、シード文書が検索対象の文書群(一次検索の結果)から選択されるので、拡張語の選択が一次検索の結果に制限されてしまい、最終的な検索結果の質を低下させてしまう場合がある。
この欠点を補う手法はいくつか提案されており、例えば、特許文献2では、二次検索の適合度計算に一次検索の適合度計算の結果をフィードバックさせることで一次検索結果の質が悪い場合でも最終検索結果の質への悪影響を軽減させている。
また、特許文献3では、一次検索の結果得られたシード文書を著者や日付等の書誌事項に基づいて複数のグループに分割し、多様な観点から拡張語を選出することで最終検索結果の質を向上させている。
また一方で、単語毎に関連する語を予め登録しておき、その対応関係を元に関連語拡張を行う手法も提案されている。例えば、特許文献4では、共起語データベースという形で関連する語を登録しておく手法が提案されている。
特開平11−224264号公報 特開2003−242170号公報 特開2004−192374号公報 特開2003−022275号公報
しかしながら、特許文献2および特許文献3における文書検索装置は、シード文書の選択に際し一次検索の影響を大きく受けてしまうことに変わりはない。また、特許文献4に記載の文書検索装置は、拡張語の対応関係を予め登録しておく必要があるので、対応関係のメンテナンスが必要となり、用語が次々と追加されるような分野には適用が困難であるという問題がある。
本発明は、上記の点に鑑みてなされたものであって、シード文書や拡張語の選択に余計な制限を設けることなく、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体を提供することを目的とする。
上述の目的を達成するために、第一の発明に係る文書検索装置は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索装置であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、前記シード文書取得手段により取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得手段と、前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出手段と、前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、を有することを特徴とする。
また、第二の発明は、第一の発明に係る文書検索装置であって、前記関連文書は、前記シード文書の利用者が利用した他の文書の他に、前記シード文書の借用者が借りた他の文書、前記シード文書の購入者が購入した他の文書または前記シード文書の閲覧者が閲覧した他の文書を含むことを特徴とする。
また、第三の発明に係る文書検索装置は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索装置であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、前記シード文書取得手段が取得した前記シード文書から前記検索条件に関連する単語を抽出する単語抽出手段と、前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、を有し、前記単語抽出手段は、各単語と所定のキーワードとの間の距離に基づいて各単語の該所定のキーワードに対する関連度を決定し、該関連度が高い順に所定数の単語を抽出することを特徴とする。
また、第四の発明は、第三の発明に係る文書検索装置であって、前記単語抽出手段は、各単語と前記所定のキーワードとの間の距離に加え、各単語の出現頻度もしくは各単語を含むシード文書の数に基づいて各単語の前記キーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出することを特徴とする。
また、第五の発明は、第三または第四の発明に係る文書検索装置であって、単語と前記所定のキーワードとの間の距離が大きくなるに従って減少する関連度の減少率を設定させる減少率設定手段を有することを特徴とする。
また、第六の発明は、第五の発明に係る文書検索装置であって、前記減少率は、文毎に変化することを特徴とする。
また、第七の発明に係る文書検索方法は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索方法であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有することを特徴とする。
また、第八の発明に係る文書検索方法は、入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索方法であって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得された前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有し、前記単語抽出ステップは、単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出することを特徴とする。
また、第九の発明に係る文書検索プログラムは、入力された検索条件に基づいて所定の文書データベースからの文書の検索をコンピュータに実行させる文書検索プログラムであって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップとを有することを特徴とする。
また、第十の発明に係る文書検索プログラムは、入力された検索条件に基づいて所定の文書データベースからの文書の検索をコンピュータに実行させる文書検索プログラムであって、入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、前記シード文書取得ステップにおいて取得された前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有し、前記単語抽出ステップは、単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出することを特徴とする。
また、第十一の発明に係る記録媒体は、第九または第十の発明に係る文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
本発明によれば、シード文書や拡張語の選択に余計な制限を設けることなく、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体を提供することができる。
以下、図面に基づいて本発明の実施の形態を説明する。
図1は、本発明の実施の形態における文書検索装置の機能構成例を示す図である。図1において、文書検索装置10は、検索要求入力部11、シード文書取得部12、拡張語抽出部13、文書検索部14および文書データベース15から構成される。
検索要求入力部11は、検索要求入力画面を表示させ、所望とする文書を検索するための検索語、検索文字列、検索式等を入力させて検索条件を取得するための手段である。
また、検索要求入力部11は、所望とする文書の内容を表す単語、文字列または文章等をユーザに入力させてシード文書を取得するためのシード文書取得用文字列(単語、複合語または文章等である。)を取得する。
図2は、検索要求入力画面の表示例を示す図であり、検索要求入力画面110は、検索条件入力領域111、シード文書取得用文字列入力領域112、シード数入力領域113および検索ボタン114から構成される。
検索条件入力領域111は、検索条件を入力させるためのテキストボックスであり、シード文書取得用文字列入力領域112は、シード文書取得用文字列またはそれを含む文章を入力させるためのテキストボックスである。
シード文書取得用文字列入力領域112には、例えば、話し言葉のような自然文が入力されてもよく、その場合、検索要求入力部11は、入力された自然文から形態素解析等によりシード文書取得用文字列を抽出する。
また、シード文書取得文字列入力領域112には、検索条件入力領域111に入力された検索条件に基づく検索結果(文書群)の中から関連度の最も高い文字列(例えば、検索された文書の中で出現頻度が最も高い文字列)が自動的に抽出されたうえで入力されてもよく、検索結果(文書群)の中からユーザが任意に選択した文字列が入力されてもよい。
シード数入力領域113は、シード文書取得用文字列によって取得するシード文書の最大数を入力させるためのテキストボックスであり、例えば、シード文書の最大数に「10」が入力された場合、シード文書取得用文字列に基づいて検索された文書が100件であってもシード文書取得用文字列の出現頻度等に基づいて100件のうちの10件のみをシード文書とする。
検索ボタン114は、文書の検索を開始させるためのボタンであり、検索ボタン114が押下されるとシード文書取得用文字列に基づいてシード文書が抽出され、シード文書から拡張語が抽出され、検索条件と拡張語に基づいて文書が検索される。
シード文書取得部12は、検索要求入力部11が取得したシード文書取得用文字列に基づいてシード文書を取得するための手段である。
また、シード文書取得部12は、検索要求入力部11が取得したシード文書取得用文字列に基づいて一次的な検索を行い、その一次的な検索によって得られた文書の利用者が利用した他の文書を関連文書として取得する。
関連文書をシード文書に加えてシード文書の数を増大させ、シード文書から抽出される拡張語をより適切なものとするためであり、また、シード文書の利用者は、シード文書と内容が類似する文書を利用している可能性が高いからである。
拡張語抽出部13は、シード文書を構成する単語から拡張語を所定数選択するための手段であり、シード文書および関連文書を構成する単語から拡張語を所定数選択するようにしてもよい。
拡張語抽出部13は、例えば、形態素解析によりシード文書に含まれるすべての単語を抽出し、各単語のシード文書における出現頻度を算出し、出現頻度の高い順に所定数(例えば、5個)の単語を拡張語として抽出する。
文書検索部14は、検索条件と拡張語抽出部13で抽出された拡張語とに基づいて文書データベース15に蓄積されている文書の集合(以下、「被検索文書」という。)の中から適合する文書を検索して検索結果の一覧を利用者に提示するための手段であり、例えば、検索条件および拡張語の双方を含む文書を検索してもよく、検索条件または拡張語のいずれかを含む文書を検索してもよい。
また、文書検索部14は、拡張語のすべてを含む文書を検索してもよく、所定数(例えば、3個)以上の拡張語を含む文書を検索してもよい。
文書データベース15は、被検索文書を蓄積したデータベースである。
なお、文書検索装置10は、一台のコンピュータで構成されてもよく、クライアント・サーバ型等を採用して複数台のコンピュータで構成されてもよい。後者の場合、例えば、検索要求入力部11がクライアントに実装され、シード文書取得部12、拡張語抽出部13、文書検索部14および文書データベース15がサーバに実装されるようにしてもよい。
図3は、本発明の実施の形態における文書検索装置10のハードウェア構成例を示す図である。図3の文書検索装置10は、ドライブ装置100、補助記憶装置102、メモリ装置103、演算処理装置104、表示装置105および入力装置106から構成される。
ドライブ装置100は、記録媒体101に記録されたプログラム等を読み出すための装置である。
記録媒体101は、各種データを記録するための持ち運び可能な記録媒体であり、例えば、CD−ROMやDVD―ROM等がある。
補助記憶装置102は、文書検索装置10において各種処理を実行するためのプログラムを記憶するための不揮発性記録媒体であり、例えば、ハードディスクがある。文書検索装置10は、プログラムを記録した記録媒体101がドライブ装置100にセットされると、ドライブ装置100の記録媒体101からそのプログラムを読み出して補助記憶装置102にインストールする。
メモリ装置103は、文書検索装置10において各種処理を実行するためのプログラムをロードするための揮発性記録媒体であり、例えば、RAM(Random Access Memory)がある。文書検索装置10は、プログラムの起動命令があった場合、補助記憶装置102からプログラムを読み出してメモリ装置103にロードする。
演算処理装置104は、メモリ装置103にロードされたプログラムを逐次実行させるための装置である。
表示装置105は、プログラムによるGUI(Graphical User Interface)等を表示するための装置であり、入力装置106は、キーボードおよびマウス等で構成され、様々な操作指示を受け付けるための装置である。
次に、図4を参照しながら、文書検索装置10における処理手順について説明する。図4は、第一の実施の形態における文書検索装置10による文書検索処理を説明するためのフローチャートである。
最初に、検索要求入力部11は、検索要求入力画面110を表示装置105に表示させ、利用者に検索要求を入力させる(ステップS101)。
検索条件、シード文書取得用文字列もしくはそれを含む文章、および、シード文書の最大数等が入力され、検索ボタン114がクリックされると、シード文書取得部12は、シード文書取得用文字列入力領域112に入力された文章を形態素解析により単語に分割する(ステップS102)。
次に、シード文書取得部12は、単語毎に被検索文書における出現頻度を算出する(ステップS103)。
次に、シード文書取得部12は、出現頻度の最も高い単語を選択し(ステップS104)、選択された単語と検索条件入力領域111に入力された検索条件とシード文書の最大数とに基づいて文書データベース15に対する検索要求を示す命令文を生成する(ステップS105)。なお、シード文書取得部12は、出現頻度の高い順に複数の単語を選択してもよい。
検索要求を示す命令文は、公知のSQL(Structured Query Language)構文またはその拡張構文で記述され、例えば、以下のような副問い合せを用いた拡張構文とする。
select タイトル from ドキュメント where 本文 contains '環境保護'expand from (select タイトル from ドキュメント where 文書ID in (select 文書ID from 文書ID履歴 where 利用者ID in (select 第一利用者ID from 利用者ID履歴 where 文書ID in (select 文書ID from ドキュメント where 本文 contains '温暖化' limit 10))))
なお、以下は、上述の命令文を説明のため複数の部分に分割したものである。
select タイトル from ドキュメント where 本文 contains '環境保護' ・・・(1)
expand from・・・(2)
(select タイトル from ドキュメント where 文書ID in ・・・(3)
(select 文書ID from 文書ID履歴 where 利用者ID in ・・・(4)
(select 第一利用者ID from 利用者ID履歴 where 文書ID in ・・・(5)
(select 文書ID from ドキュメント where 本文 contains '温暖化' limit 10))))・・・(6)
(1)の部分は、文書データベース15に定義されているドキュメントテーブルに対する検索命令であり、より詳しくは、「ドキュメントテーブルにおいて文書の本文に'環境保護'という語を含む文書のタイトルを抽出せよ。」という命令を意味する。
「ドキュメントテーブル」は、文書IDで特定される文書に関する各種データを体系的に構成したテーブルであり、例えば、図4(A)に示すように、文書ID、タイトル、著者、出版社、翻訳者等のフィールドを有する。
また、「文書ID」とは、文書データベース15に格納された文書を特定するための識別子であり、例えば、数字、記号、文字列等で表現され、ドキュメントテーブル、利用者ID履歴テーブルおよび文書ID履歴テーブルに共通する項目として用いられる。
「利用者ID履歴テーブル」は、利用者の履歴を文書毎に記録したテーブルであり、例えば、文書データベース15に格納され、図4(B)に示すように、文書ID、第一利用者ID、第二利用者ID等のフィールドを有する。
また、利用者ID履歴テーブルは、各文書を利用した利用者の履歴を時系列で記録するテーブルであって、例えば、図書館の貸し出し履歴の管理、書店の販売履歴の管理、ウェブサイトの閲覧履歴の管理等に利用される。
「利用者ID」とは、利用者を特定するための識別子であり、例えば、数字、記号、文字列等で表現され、利用者ID履歴テーブルおよび文書ID履歴テーブルにおけるフィールドとして用いられる。「利用者」とは、文書を利用した者であり、例えば、文書検索装置10が図書館に導入された場合における文書(書籍)の借用者、文書検索装置10が書店に導入された場合における文書(書籍)の購入者、文書検索装置10がウェブサイトに導入された場合における文書(コンテンツ)の閲覧者等を含む。
また、第一利用者IDは、対応する文書を利用した直近の利用者の識別子であり、第二利用者IDは、第一利用者IDが示す利用者の前に文書を利用した利用者の識別子である。
「文書ID履歴テーブル」とは、各利用者が利用した文書の履歴を利用者毎に記録したテーブルであり、例えば、文書データベース15に格納され、図4(C)に示すように、利用者ID、第一文書ID、第二文書ID等のフィールドを有する。
また、文書ID履歴テーブルは、各利用者が利用した文書の履歴を時系列で記録するテーブルであって、例えば、利用者ID履歴テーブルと同様、図書館の貸し出し履歴の管理、書店の販売履歴の管理、ウェブサイトの閲覧履歴の管理等に利用される。
また、第一文書IDは、対応する利用者が利用した直近の文書の識別子であり、第二文書IDは、対応する利用者が利用した第一文書IDで示す文書の前に利用した文書の識別子である。
また、「expand from」という記述(2)に続く副問い合せにおける最も外側のselect文(3)は、より多くのシード文書を取得するための検索命令であり、より詳しくは、「ドキュメントテーブルにおいて文書IDの値が(4)の検索結果の値に一致するレコードのタイトルを抽出せよ。」という命令を意味する。
なお、「expand from X」は、「Xで示される文書群から所定数の拡張語を抽出せよ。」という命令を意味する。
また、二番目に外側のselect文(4)は、「文書ID履歴テーブルにおいて利用者IDの値が(5)の検索結果の値に一致するレコードの文書IDを抽出せよ。」という命令を意味する。
また、三番目に外側のselect文(5)は、「利用者ID履歴テーブルにおいて文書IDの値が(6)の検索結果の値に一致するレコードの第一利用者IDを抽出せよ。」という命令を意味する。
また、最も内側のselect文(6)は、「ドキュメントテーブルにおいて文書の本文に'温暖化'という語を含むレコードの上位10件の文書IDを検索せよ。」という命令を意味する。上位10件を定める順位は、例えば、各文書における「温暖化」の出現頻度に基づいて決定される。
なお、「温暖化」という単語は、シード文書取得用文字列より抽出された単語であり、「limit 10」は、取得するシード文書の最大数を示す。また、「環境保護」は、検索条件として入力された検索語である。
すなわち、上記のSQL構文は、(6)において検索されたシード文書を利用した利用者の第一利用者ID(直近の利用者IDを意味する。)を(5)において検索し、(5)において検索された第一利用者IDを有する利用者が利用したシード文書以外の文書の文書IDを(4)において検索し、さらに、(4)において検索された文書IDが示す文書を(3)において関連文書として抽出し、(3)において抽出された関連文書から所定数の拡張語を(2)において抽出し、(2)において抽出された拡張語または検索語「環境保護」を本文に含む文書のタイトルを抽出せよ。」を意味することとなる。
文書検索装置10は、例えば、図5(A)のドキュメントテーブルから文書の本文に'温暖化'という語を含むレコードの文書IDの値2を取得し、利用者ID履歴テーブルを参照して文書IDの値2に対応する利用者IDの履歴を取得する(図5(B)の場合、第一利用者ID=3を取得する。)。
その後、文書検索装置10は、文書ID履歴テーブルを参照して利用者IDの値3に対応する文書IDの履歴を取得する(図5(C)の場合、第一文書ID=2、第二文書ID=4、第三文書ID=5を取得する。)。
その後、文書検索装置10は、文書IDの値が2、4または5の文書を関連文書として抽出し、シード文書およびこれら関連文書から拡張語を抽出し、さらに、抽出された拡張語または検索語「環境保護」を本文に含む文書を検索する。
なお、文書検索装置10は、第一文書IDで示される文書のみを関連文書としてもよく、履歴にあるすべての文書を関連文書としてもよい。
これによって、(6)において検索されたシード文書のみを拡張語抽出の対象とする場合に比べ、より多くの文書を拡張語抽出の対象とすることができ、抽出される拡張語をより適切なものとすることができる。
なお、上述の命令文をユーザ(検索者)に明示的に入力させてもよい。但し、検索要求入力画面110のようなGUIを提供することによりシステム側が自動的に命令文を作成する方が、SQLに不慣れな利用者に対する利便性という観点からも望ましい。
続いて、再度図4を参照すると、シード文書取得部12は、生成した命令文に基づいて文書データベース15よりシード文書を実際に取得する(ステップS106)。すなわち、シード文書取得部12は、上述の(6)の命令を文書データベース15に対して実行することで、「温暖化」というキーワードを含む文書のうちの上位10件をシード文書として取得する。
続いて、シード文書取得部12は、命令文(5)に基づいて各シード文書の第一利用者IDを取得する(ステップS107)。
その後、シード文書取得部12は、命令文(3)および(4)に基づいて第一利用者IDが示す利用者が利用したシード文書以外の文書を関連文書として取得する(ステップS108)。
すなわち、シード文書取得部12は、上述の(3)乃至(5)の命令を文書データベース15に対して実行することで、「温暖化」というキーワードを含む文書のうちの上位10件のシード文書の利用者が利用した他の文書を関連文書として取得する。
上述のように、文書検索装置10は、シード文書取得用文字列により抽出したシード文書の利用者(借用者、購入者または閲覧者等をいう。)の利用者IDに基づいてシード文書を利用した利用者が利用(借用、購入または閲覧等を含む。)した他の文書の文書IDを抽出し、それら文書IDで示される文書を関連文書として取得する。
続いて、拡張語抽出部13は、シード文書取得部12によって取得されたシード文書および関連文書から拡張語の選択と抽出を行う。
すなわち、拡張語抽出部13は、シード文書および関連文書を単語に分割し(ステップS109)、単語毎に文書頻度を算出する(ステップS110)。ここで、単語に対する「文書頻度」とは、単語を含むシード文書または関連文書の数をいい、例えば、全シード文書数に対する割合で表され、シード文書と関連文書の合計が50件であって、ある単語がそのうちの25件に含まれる場合、文書頻度は0.5(50%)となる。
さらに、拡張語抽出部13は、文書頻度が高い順に所定数の単語を選択し、選択された単語を拡張語として抽出する(ステップS111)。なお、文書頻度の代わりに出現頻度(シード文書における単語の出現数)が用いられてもよい。
また、シード文書および関連文書の単語への分割は、空白で区切られた単位を用いてもよいし、公知の形態素解析を用いてもよい。或いは、単純に一定の文字数で区切ったものを用いてもよい。
また、拡張語抽出部13は、拡張語とするには不適切な単語を予め登録しておき、それら単語を拡張語として抽出しないといった仕組みを実装するようにしてもよい。
また、拡張語抽出部13は、拡張語として抽出する単語の個数を固定値としてもよく、検索要求入力部11によりGUI等を介してユーザ(検索者)に指定させるようにしてもよい。
続いて、文書検索部14は、検索要求入力画面110において入力された検索条件(検索語)と拡張語抽出部13により抽出された拡張語の全部または一部とを含む文書を文書データベース15における文書の集合の中から検索し(ステップS112)、検索結果を利用者に提示する。かかる処理は、例えば、特開2003−281181号公報に記載されている方法を用いてもよい。
また、文書検索部14は、検索語または拡張語の全部もしくは一部を含む文書を検索するようにしてもよい。
上述のように、第一の実施の形態における文書検索装置10は、ユーザ(検索者)によって指定された文字列(シード文書取得用文字列)に基づいて拡張語を選択するので、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
また、第一の実施の形態における文書検索装置10は、シード文書取得用文字列を検索条件の入力と共に入力させることができるため、ユーザ(検索者)による一回の入力操作で簡便に高品質の検索結果を提供することができる。
また、第一の実施の形態における文書検索装置10は、ユーザ(検索者)が指定したシード文書取得用文字列に基づいて検索される文書と利用者が共通する文書をシード文書に加えるため、拡張語を抽出するための集合(シード文書の母数)を大きくすることができ、より多くの文書の中から厳選された拡張語に基づいてユーザ(検索者)の期待に添った検索結果を提供することができる。
次に、第二の実施の形態について説明する。第二の実施の形態では、拡張語抽出部13が単語とキーワードとの間の距離に基づいて各単語のキーワードに対する関連度を決定し、関連度の高い単語を拡張語として抽出する点に特徴を有する。
なお、第二の実施の形態において、文書検索装置10の機能構成およびハードウェア構成は、それぞれ図1および図2に示されたものと同様とする。
図6は、第二の実施の形態における文書検索装置10による文書検索処理を説明するためのフローチャートであり、ステップS201乃至ステップS206が図4のフローチャートで説明した処理の流れと共通する。
ステップS201乃至ステップS206の処理によりシード文書を取得すると、拡張語抽出部13は、シード文書を形態素解析等により単語に分割し(ステップS207)、各単語とキーワードとの間の距離(例えば、ある単語が同じ文書内に複数存在する場合には、キーワードとの間の最短距離とする。)を取得する(ステップS208)。
キーワードは、検索条件入力領域111に入力された検索語「環境保護」であってもよく、シード文書取得用文字列から選択した単語(例えば、「地球」、「温暖化」等をいう。)であってもよい。
ここで、「距離」とは、各単語とキーワードとの間の文字数、単語数、文章数等で表現される間隔であり、距離が小さいほど各単語とキーワードとの間の関連度は高いものとされる。
拡張語抽出部13は、単語毎に文書頻度または出現頻度(シード文書における各単語の出現数)を算出し、文書頻度または出現頻度が高い順に所定数の単語を拡張語として抽出するが、さらに、各単語とキーワードとの間の距離に基づいて重み係数を導出し、文書頻度または出現頻度に重み係数を乗じて各単語とキーワードとの間の関連度(関連度=重み係数×文書頻度または出現頻度)を決定する(ステップS209)。
拡張語抽出部13は、重み係数を0以上1以下の範囲で表し、キーワード自体の場合を1とし(距離が0の状態をいう。)、距離が大きくなるほど0に近づけ、所定距離以上の場合を0とする。なお、重み係数の算出方法は後述する。
また、拡張語抽出部13は、文書頻度または出現頻度を0以上1以下の範囲(例えば、文書頻度の場合には、各単語が含まれる文書数をシード文書数で除した値とする。)で表す。
なお、拡張語抽出部13は、文書頻度または出現頻度に重み係数を加えた値を2で除して関連度を算出するようにしてもよい。
さらに、拡張語抽出部13は、各単語の出現頻度や文書頻度を考慮せず、重み係数をそのまま関連度(関連度=重み係数×1)としてもよい。被検索文書や単語の性質により出現頻度や文書頻度が意味をなさない場合にも(例えば、被検索文書が特定の分野に偏っていたり、単語がどのような分野でも一般的に使用されるものであったりする場合をいう。)、適切な関連度を算出できるようにするためである。
このように、文書検索装置10は、単語とキーワードとの間の距離に基づく関連度(0以上1以下の値)と文書頻度または出現頻度に基づく関連度(0以上1以下の値)とから最終的な関連度を導出して拡張語を抽出するので、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
拡張語抽出部13により各単語のキーワードに対する関連度を決定して拡張語を抽出する場合、文書検索装置10は、例えば、検索要求を示す命令文を以下のような副問い合せを用いた拡張構文とする。
select タイトル from ドキュメント where 本文 contains '環境保護' expand from (select タイトル from ドキュメント where 本文 contains '温暖化' limit 10) distance factor 0.2
なお、以下は、上述の命令文を説明のため複数の部分に分割したものである。
select タイトル from ドキュメント where 本文 contains '環境保護' ・・・(7)
expand from・・・(8)
(select タイトル from ドキュメント where 本文 contains '温暖化' limit 10) ・・・(9)
distance factor 0.2・・・(10)
(7)の部分は、文書データベース15に定義されているドキュメントテーブルに対する検索命令であり、より詳しくは、「ドキュメントテーブルにおいて文書の本文に'環境保護'という語を含むレコードのタイトルを抽出せよ。」という命令を意味する。
また、expand fromという記述(8)に続く副問い合せにおけるselect文(9)は、より多くのシード文書を取得するための検索命令である。より詳しくは、ドキュメントテーブルにおいて文書の本文に「温暖化」という語を含むレコードの上位10件のタイトルを抽出せよ。」という命令を意味する。
また、(10)の部分は、(9)において検索されるシード文書における各単語とキーワード(例えば、文字列「温暖化」)との間の距離(文字数または単語数)に基づいて関連度を算出するための命令であり、値「0.2」は、各単語とキーワードとの間の距離が大きくなるに従って減少する重み係数の減少率を意味する。
重み係数は、例えば、「重み係数=1÷((距離−1)^減少率)」または「重み係数=1−減少率×距離」(この場合、重み係数の最小値は0とする。)で示される数式を用いて算出される。何れの数式においても、減少率が大きい程、重み係数の低下が急激となる。
なお、減少率は、固定値であってもよく、検索要求入力画面110において値が直接入力されるようにしてもよく、或いは、「High」、「Middle」、「Low」の3段階のラジオボタンにより選択されるようにしてもよい。「High」、「Middle」、「Low」の何れかのラジオボタンが選択された場合、減少率は、例えば、それぞれ0.8、0.5、0.2となる。
このように、文書検索装置10は、減少率を指定する簡単な方法を提供することにより、各単語のキーワードに対する関連度が拡張語の抽出に及ぼす影響度を調整できるようにし、検索結果の傾向(質)を調整する場合におけるユーザ(検索者)の利便性を向上させることができる。
また、文書検索装置10は、文(センテンス)毎に減少率を変化させるようにし、単語を含む文がキーワードを含む文から遠ざかるにつれて文毎に所定割合(例えば、10%)刻みで減少率を低減させるようにしてもよい(例えば、減少率が0.2%、0.18%、0.162%・・・のように文毎に減少する。)。この場合、所定割合は、「distance factor」の第二引数として設定されてもよく、その場合、(9)の部分は、例えば、減少率を0.2%、所定割合を10%とすると「distance factor 0.2, 10」のように記述される。
また、文書検索装置10は、例えば、単語を含む文がキーワードを含む文と同じである場合に重み係数を1とし、単語を含む文がキーワードを含む文から遠ざかるにつれて重み係数を所定の割合で0に近づけ、単語を含む文がキーワードを含む文から所定の文数以上離れた場合に重み係数を0とする。
このように、文書検索装置10は、キーワードとの間の距離は大きいがキーワードを含む文と同じ文に含まれる単語が、キーワードとの間の距離は小さいがキーワードを含む文と異なる文に含まれる単語よりも、キーワードに対する関連度が低くなってしまうのを防止し、適切な関連度を設定して適切な拡張語を抽出することにより、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
続いて、再度図6を参照すると、拡張語抽出部13は、関連度(重み係数×文書頻度)の高い順に単語を拡張語として抽出し(ステップS210)、その後、文書検索装置10は、検索条件入力領域111に入力された検索条件(検索語)と拡張語抽出部13により抽出された拡張語の全部または一部とを含む文書を文書データベース15における文書の集合の中から検索し(ステップS211)、検索結果を利用者に提示する。
上述のように、第二の実施の形態における文書検索装置10は、シード文書に含まれる単語とキーワードとの間の距離に基づいて単語のキーワードに対する関連度を決定し拡張語を抽出するので、ユーザ(検索者)の意図により近い高品質の検索結果を出力することができる。
なお、第二の実施の形態における文書検索装置10は、シード文書の利用者が利用した他の文書を関連文書として抽出し、シード文書または関連文書に含まれる単語とキーワードとの間の距離に基づいて単語のキーワードに対する関連度を決定し拡張語を抽出するようにしてもよい。
以上、本発明の実施例について詳述したが、本発明は、上述のような特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形または変更を加えることができる。
例えば、上述の実施例では、拡張語抽出部13が関連度の高い順に所定数の単語を拡張語として抽出するが、関連度が所定値以上の単語を全て拡張語として抽出するようにしてもよい。
また、上述の実施例では、シード文書取得部12によりシード文書の利用者が利用した他の文書の全部または一部を関連文書として取得するが、シード文書の利用者が所定期間内に利用した文書のみを関連文書として取得するようにしてもよい。利用日が時間的に離れている場合、シード文書との関連性が低くなると考えられるからである。
また、第二の実施例では、拡張語抽出部13が各単語とキーワードとの間の最短距離(最小値)に基づいて関連度を算出するが、平均距離(平均値)、最長距離(最大値)、中間距離(中間値)に基づいて関連度を算出するようにしてもよい。
本発明の実施の形態における文書検索装置の機能構成例を示す図である。 検索要求入力画面の表示例を示す図である。 本発明の実施の形態における文書検索装置のハードウェア構成例を示す図である。 第一の実施の形態における文書検索装置による文書検索処理を説明するためのフローチャートである。 第一の実施の形態における文書検索装置により利用される各種テーブルを示す図である。 第二の実施の形態における文書検索装置による文書検索処理を説明するためのフローチャートである。
符号の説明
10 文書検索装置
11 検索要求入力部
12 シード文書取得部
13 拡張語抽出部
14 文書検索部
15 文書データベース
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 演算処理装置
105 表示装置
106 入力装置
110 検索要求入力画面
111 検索条件入力領域
112 シード文書取得用文字列入力領域
113 シード数入力領域
114 検索ボタン

Claims (11)

  1. 入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索装置であって、
    前記検索条件とは別に入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、
    前記シード文書取得手段により取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得手段と、
    前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出手段と、
    前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、
    を有することを特徴とする文書検索装置。
  2. 前記関連文書は、当該文書検索装置が図書館の貸し出し履歴の管理に適用される際の前記シード文書の借用者が借りた他の文書、当該文書検索装置が書店の販売履歴の管理に適用される際の前記シード文書の購入者が購入した他の文書または、当該文書検索装置がウェブサイトの閲覧履歴の管理に適用される際の前記シード文書の閲覧者が閲覧した他の文書を含む、
    ことを特徴とする請求項1に記載の文書検索装置。
  3. 入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索装置であって、
    前記検索条件とは別に入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得手段と、
    前記シード文書取得手段が取得した前記シード文書から前記検索条件に関連する単語を抽出する単語抽出手段と、
    前記検索条件と前記単語抽出手段が抽出した単語とに基づいて文書を検索する検索手段と、を有し、
    前記単語抽出手段は、前記検索条件に関連する単語と所定のキーワードとの間の距離に基づいて単語の該所定のキーワードに対する関連度を決定し、該関連度が高い順に所定数の単語を抽出する、
    ことを特徴とする文書検索装置。
  4. 前記単語抽出手段は、前記検索条件に関連する単語と前記所定のキーワードとの間の距離に加え、単語の出現頻度もしくは単語を含むシード文書の数に基づいて単語の前記キーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出する、
    ことを特徴とする請求項3に記載の文書検索装置。
  5. 前記単語と前記所定のキーワードとの間の距離が大きくなるに従って減少する関連度の減少率を設定させる減少率設定手段、
    を有することを特徴とする請求項3または4に記載の文書検索装置。
  6. 前記減少率は、前記単語を含む文と前記キーワードを含む文との間の文の数に応じて変化する、
    ことを特徴とする請求項5に記載の文書検索装置。
  7. 入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索方法であって、
    コンピュータが、前記検索条件とは別に入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
    コンピュータが、前記シード文書取得ステップにおいて取得たシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、
    コンピュータが、前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
    コンピュータが、前記検索条件と前記単語抽出ステップにおいて抽出た単語とに基づいて文書を検索する検索ステップと、
    を有することを特徴とする文書検索方法。
  8. 入力された検索条件に基づいて所定の文書データベースから文書を検索する文書検索方法であって、
    コンピュータが、前記検索条件とは別に入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
    コンピュータが、前記シード文書取得ステップにおいて取得た前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
    コンピュータが、前記検索条件と前記単語抽出ステップにおいて抽出た単語とに基づいて文書を検索する検索ステップと、を有し、
    前記単語抽出ステップにおいてコンピュータは、前記検索条件に関連する単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度を決定し、該関連度の高い順に所定数の単語を抽出する、
    ことを特徴とする文書検索方法。
  9. 入力された検索条件に基づいて所定の文書データベースからの文書の検索をコンピュータに実行させる文書検索プログラムであって、
    前記検索条件とは別に入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
    前記シード文書取得ステップにおいて取得されたシード文書の利用者が利用した他の文書を関連文書として取得する関連文書取得ステップと、
    前記シード文書および前記関連文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
    前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、
    を有することを特徴とする文書検索プログラム。
  10. 入力された検索条件に基づいて所定の文書データベースからの文書の検索をコンピュータに実行させる文書検索プログラムであって、
    前記検索条件とは別に入力されたシード文書取得用文字列に基づいてシード文書を取得するシード文書取得ステップと、
    前記シード文書取得ステップにおいて取得された前記シード文書から前記検索条件に関連する単語を抽出する単語抽出ステップと、
    前記検索条件と前記単語抽出ステップにおいて抽出された単語とに基づいて文書を検索する検索ステップと、を有し、
    前記単語抽出ステップにおいて前記検索条件に関連する単語と所定のキーワードとの間の距離に基づいて該単語の前記所定のキーワードに対する関連度決定され、該関連度の高い順に所定数の単語抽出される、
    ことを特徴とする文書検索プログラム。
  11. 請求項9または請求項10に記載の文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006250049A 2006-09-14 2006-09-14 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体 Expired - Fee Related JP4933869B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006250049A JP4933869B2 (ja) 2006-09-14 2006-09-14 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006250049A JP4933869B2 (ja) 2006-09-14 2006-09-14 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2008071198A JP2008071198A (ja) 2008-03-27
JP4933869B2 true JP4933869B2 (ja) 2012-05-16

Family

ID=39292715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006250049A Expired - Fee Related JP4933869B2 (ja) 2006-09-14 2006-09-14 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4933869B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
CN110895556B (zh) * 2018-09-13 2023-07-28 北京蓝灯鱼智能科技有限公司 文本检索方法和装置、存储介质及电子装置
JP7085499B2 (ja) * 2019-01-23 2022-06-16 株式会社日立製作所 テキストデータ収集装置及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4227797B2 (ja) * 2002-05-27 2009-02-18 株式会社リコー 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体
JP2005135113A (ja) * 2003-10-29 2005-05-26 Sony Corp 電子機器装置、関連語抽出方法及びプログラム
JP2005242401A (ja) * 2004-02-24 2005-09-08 Fujitsu Ltd 文書検索プログラム及び文書検索方法
CN100550014C (zh) * 2004-10-29 2009-10-14 松下电器产业株式会社 信息检索装置

Also Published As

Publication number Publication date
JP2008071198A (ja) 2008-03-27

Similar Documents

Publication Publication Date Title
US10394894B2 (en) Search with autosuggest and refinements
US8126883B2 (en) Method and system for re-ranking search results
CA2917471C (en) Retrieval of attribute values based upon identified entities
US8739061B1 (en) Method and apparatus for output of search results
US9846744B2 (en) Media discovery and playlist generation
US7769771B2 (en) Searching a document using relevance feedback
US8332391B1 (en) Method and apparatus for automatically identifying compounds
US9652558B2 (en) Lexicon based systems and methods for intelligent media search
US20090083230A1 (en) Apparatus and method for supporting information searches
US20050165819A1 (en) Document tabulation method and apparatus and medium for storing computer program therefor
US8930822B2 (en) Method for human-centric information access and presentation
US20180189297A1 (en) Search Query Generation Using Query Segments and Semantic Suggestions
JP4942727B2 (ja) テキスト要約装置、その方法およびプログラム
WO2002048921A1 (en) Method and apparatus for searching a database and providing relevance feedback
US8782049B2 (en) Keyword presenting device
JP2003132060A (ja) 検索支援装置、検索支援方法、及び検索支援プログラム
JP4825544B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP2004326216A (ja) 文書検索装置、方法、プログラム、及び記録媒体
TW200805095A (en) Data product search using related concepts
JP2007183859A (ja) 情報検索システム、情報検索方法、及び情報管理装置
JP2004341753A (ja) 検索支援装置、検索支援方法、およびプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US8082240B2 (en) System for retrieving information units
JP4933869B2 (ja) 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
KR101140724B1 (ko) 개념 네트워크 기반 사용자 프로파일 구성 방법 및 시스템과 이를 이용한 개인화 질의 확장 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120217

R150 Certificate of patent or registration of utility model

Ref document number: 4933869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees