JP3998201B2 - 文書検索方法 - Google Patents

文書検索方法 Download PDF

Info

Publication number
JP3998201B2
JP3998201B2 JP2003163643A JP2003163643A JP3998201B2 JP 3998201 B2 JP3998201 B2 JP 3998201B2 JP 2003163643 A JP2003163643 A JP 2003163643A JP 2003163643 A JP2003163643 A JP 2003163643A JP 3998201 B2 JP3998201 B2 JP 3998201B2
Authority
JP
Japan
Prior art keywords
document
keyword
interest level
search
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003163643A
Other languages
English (en)
Other versions
JP2005004247A (ja
Inventor
範人 渡辺
一郎 原島
敬司 土井
弘幸 湯地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003163643A priority Critical patent/JP3998201B2/ja
Publication of JP2005004247A publication Critical patent/JP2005004247A/ja
Application granted granted Critical
Publication of JP3998201B2 publication Critical patent/JP3998201B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索方法、文書検索プログラム、ならびに、文書検索装置に関する。
【0002】
【従来の技術】
所定の検索条件を入力させて、検索対象の文書群から、所定の検索条件に適合する文書を検索する技術が、検索エンジンとして広く使用されている。文書の検索に使用される検索条件は、1つ以上のキーワードによって構成されるので、検索を行うユーザは、検索条件となるキーワードとして使用する用語を選択することが必要となる。このキーワードの入力の手間がユーザにとって、負担となっていた。
【0003】
そこで、検索条件となるキーワードの入力を支援する技術として、上位概念や下位概念などのキーワード間の関連情報を有するシソーラスの辞書を用いて、キーワードを直接入力させる代わりに、シソーラスの辞書のキーワードを選択される手法が、提案されている(例えば、特許文献1)。これにより、ユーザは、検索条件として入力するキーワードを、効率的に選択することができる。
【0004】
【特許文献1】
特開平9−198393号公報(段落[0010]等)
【0005】
【発明が解決しようとする課題】
しかしながら、検索条件を基にした文書検索の結果の出力について、ユーザの観点が充分に反映されてはいなかった。例えば、ユーザが複数のキーワードを入力した場合、複数のキーワードの中でもユーザが関心の高いキーワードを考慮して文書を優先的に検索することは、従来の技術では充分に実現されてこなかった。よって、ユーザは、文書検索の結果の出力から、文書の内容を逐一チェックして、所望の文書を探す手間を強いられていた。なお、どのキーワードを優先的に検索させるかは、ユーザの観点によって異なる。
【0006】
そこで本発明は、前記に鑑み、検索条件を基にした文書検索の結果の出力に、ユーザの観点を反映させることを、主な目的とする。
【0007】
【課題を解決するための手段】
本発明は、前記目的を達成するために創案されたものであり、キーワードと文書に対する関心の度合いを示す文書関心度とを用いて文書群から前記キーワードと前記文書関心度に対応する文書を検索して出力する文書検索方法であって、文書検索装置が、前記キーワードが入力されると、記憶手段に予め登録されているユーザごとのキーワードと当該キーワードに対する個別の関心度との対応関係を定義した登録情報、および複数のユーザで共通に使用されるキーワードと当該キーワードに対する共通の関心度との対応関係を定義した登録情報を、前記入力されたキーワードを用いて検索し、前記入力されたキーワードに対応する、個別の関心度および共通の関心度を取得する処理と、検索された前記個別の関心度および前記共通の関心度を用いて、前記入力されたキーワードに対する関心の度合いを示すキーワード関心度を算出する処理と、前記算出したキーワード関心度を用いて、前記文書関心度を算出する処理と、前記入力されたキーワードと前記算出された文書関心度とを用いて、文書群から文書を検索する処理と、を実行することを特徴とする。
なお、前記キーワード関心度を算出する処理は、入力されたキーワードと同一のキーワードが前記記憶手段に予め登録されているとき、前記同一のキーワードへのキーワード関心度を増加させて前記記憶手段に記憶すること、を特徴とする。
または、前記キーワード関心度を算出する処理は、検索結果として出力された文書のうち、閲覧された文書に含まれるキーワードと同一のキーワードが前記記憶手段に予め登録されているとき、前記同一のキーワードへのキーワード関心度を増加させて前記記憶手段に記憶すること、を特徴とする。
【0008】
【発明の実施の形態】
以下に、本発明が適用される文書検索装置の一実施形態について、図面を参照して詳細に説明する。まず、本実施形態の文書検索装置の構成について、図1を参照して説明する。
【0009】
図1に示す文書検索装置1は、ユーザの観点を反映した文書の検索機能を有する。このため、文書検索装置1は、文書の検索に使用されるデータを格納するデータ管理部10と、検索条件の入力に関する処理を行う検索入力処理部20と、検索条件を基に行う文書検索に関する処理を行う検索処理部30と、文書検索の結果をユーザに出力する処理を行う検索出力処理部40とを含んで構成される。以下、文書検索装置1の各構成要素について、より具体的に説明する。
【0010】
文書検索装置1のデータ管理部10は、検索対象の文書群を格納する文書格納部11と、検索条件となる用語の選択に用いられる辞書データ格納部12と、以前入力された検索条件をユーザごとに格納する検索条件格納部13と、文書検索装置1によって行われた検索の結果を格納する検索結果格納部14を含んで構成される。なお、検索対象の文書群は、デジタルデータであり、例えば、S−JISのテキスト形式によって記述されたファイルとして構成される。
【0011】
次に、文書検索装置1の検索入力処理部20は、ユーザの識別および検索を行うキーワードを入力する検索条件入力部21と、検索条件格納部13に格納された検索条件のうち使用するものを選択させる検索条件記録選択部22とを含んで構成される。なお、検索入力処理部20は、文書検索装置1に接続されたキーボードなどの入力装置によって構成しても良い。また、文書検索装置1が、ユーザ端末(図示は省略)からの検索条件などの入力を、ユーザ端末の接続されたネットワーク(図示は省略)から受け付けるために、検索入力処理部20は、文書検索装置1とネットワークとを接続するネットワークデバイスとして構成してもよい。
【0012】
そして、文書検索装置1の検索処理部30は、検索条件を構成するキーワードに付された関心度を考慮する文書検索を行う関心度付全文検索部32を含めて構成され、従来の技術における関心度を考慮しない文書検索を行う全文検索部31をさらに含めても良い。
【0013】
さらに、文書検索装置1の検索出力処理部40は、文書検索の結果を加工してユーザに出力する検索結果出力部41と、文書検索の処理結果を記録された検索条件に反映させる処理を行う検索条件更新部42とを含んで構成される。
【0014】
次に、文書格納部11の内容について、図2および図3を参照して説明する。文書格納部11に格納されている文書のデジタルデータの形式は、様々な形式とすることができる。まず、図2に示す内容は、文書ごとのテキストデータとして格納する一例を示している。テキストデータの作成は、例えば、ワープロなどで作成した文書はそのままの形で格納される。紙の文書の場合は、スキャナなどによりデジタルデータ化され、さらにOCR(Optical Character Reader)などにより、記載されている文字が抽出されているものとする。
【0015】
そして、文書格納部11の内容について、文書検索装置1は、図2に示すテキストデータから、さらに検索に適した形式に変換する処理を行ってもよい。文書の変換処理の一例を、図3に示す。文書検索装置1は、入力された検索対象の文書群の全ての文書に対して、テキスト情報を読み出し、読み出したテキスト情報を分かち書き処理などにより用語に分断して、文書と用語との関係を求める。なお、分かち書き処理は、形態素解析などで一般的に行われる処理で良いため、ここで詳細な説明は省略する。なお、検索に適した形式への変換は、検索を依頼された時点で行っても良いが、高速化のために、検索処理受付の前に行っておくこともできる。
【0016】
なお、図3では、文書検索装置1は、各文書から抽出された用語群について、文書と用語群との包含関係を文書管理テーブルにより管理している。文書管理テーブルは、文書ごとに用語群へのポインタ(参照)を有しており、文書検索装置1は、このポインタを参照することにより、文書に含まれている用語群を参照する。
【0017】
そして、辞書データ格納部12の内容について、図4を参照して説明する。辞書データ格納部12に格納されている辞書データは、様々な形式で実現することができる。例えば、辞書データを構成するキーワードについて、辞書データは、キーワードどうしの関係を考慮しないリスト形式として実現してもよい。また、辞書データは、キーワードどうしの関係(例えば、上位概念、下位概念)を含めたシソーラスとして実現してもよい。なお、図4は、シソーラスの一例をツリー形式として表現するものであり、図4の左側が上位概念、右側が下位概念に対応している。よって、例えば、“ノート型PC”の下位概念を参照する場合は、ツリーの“ノート型PC”の右側を参照することにより、“A4ノートPC”、“B5ノートPC”、ならびに、“タブレット型PC”の3つの下位概念となるキーワードを得る。このように、階層的に用語を管理することで、階層の途中段階の用語の関心度を設定するだけで、その下位用語に対しても同様の関心度を割り振ることができる。これにより、細かい用語まで、ユーザが直接設定する手間を省くことができる。
【0018】
さらに、検索条件格納部13の内容について、図5を参照して説明する。検索条件格納部13に格納されている検索条件の内容は、ユーザごとに分別されている。そして、ユーザごとの検索条件の内容は、図5に示すように、キーワードとその関心度との対応を1組の検索条件として構成されている。例えば、キーワード“PDA”について、ユーザ“佐藤”は関心度を“−1”に設定しているが、ユーザ“山本”は関心度を“5”に設定している。文書検索装置1は、ユーザがキーワードごとに関心度を設定可能とすることによって、ユーザの観点を検索条件に反映させる。ここで、マイナスの関心度を有するキーワードを含む文書は、そのキーワードを含まない文書よりも、ユーザにとって関心の低い文書というユーザの観点を表している。
【0019】
ここで、検索条件格納部13は、辞書データ格納部12と同様にして、検索条件を構成する用語を階層的に管理する構成としてもよい。これにより、検索条件を階層構造として表示することが可能となる。階層構造の表示をすることで、用語の全体的な位置付けを把握することが可能となり、また、どういった用語まで関心度を設定できるかを把握できる。
【0020】
以上、本実施形態の文書検索装置の構成について、説明した。次に、本実施形態の文書検索装置の動作の概要について、図1〜図5を参照しつつ、図6に示すフローチャートに沿って説明する。また、この動作説明において、文書検索装置1の構成を、より明らかにする。
【0021】
まず、S101(前準備)について、説明する。文書検索装置1は、データ管理部10に格納されるデータについて、受け付ける。なお、格納されるデータの受け付け方法は、文書検索装置1に挿入された記録媒体からデータを読み取ってもよいし、文書検索装置1と接続されたネットワークから、オンラインで受信してもよい。
【0022】
次に、S102(検索方法の選択)について、説明する。文書検索装置1は、検索条件からの文書の検索を行う際に、検索条件に付される関心度を参照するかどうかを、選択させる。なお、関心度を参照するかどうかの選択方法は、ユーザに選択画面を提示する方法、ユーザに予め登録させたバッチ処理により選択させる方法などが挙げられる。そして、関心度を参照する文書の検索が選択された場合(S102、関心度あり)は、関心度付全文検索部32を用いて行われる文書検索(S103〜S105)に、処理を進める。一方、関心度を参照しない文書の検索が選択された場合(S102、関心度なし)は、全文検索部31を用いて行われる文書検索(S113〜S115)に、処理を進める。ここで、関心度を参照しない文書の検索は、従来の検索と同様であるので、補足説明として後述するものとする。
【0023】
そして、S103(関心度付の検索条件の入力)について、説明する。文書検索装置1は、関心度付の検索条件を、ユーザに入力させる。なお、ユーザから文書検索装置1への入力には、例えば、文書検索装置1に接続されたキーボードなどの入力装置からの入力の方式、または、文書検索装置1と接続されたユーザ端末(図示は省略)から文書検索装置1へのデータ転送の方式が挙げられる。ここで、データ転送の際には、HTTP(Hyper Text Transfer Protocol)などが用いられる。なお、検索条件の入力手法は、前回以前の検索条件の入力を活用せずに、検索条件入力部21を介して直接入力させる手法、および、前回以前の検索条件の入力を活用して、検索条件記録選択部22を介して入力させる手法とに分類できる。これらの検索条件の入力手法は、どちらか1つのみを用いてもよいし、併用してもよい。
【0024】
まず、検索条件入力部21を介する検索条件の入力手法について、説明する。文書検索装置1は、例えば、図7に示される検索条件の入力画面を、文書検索装置1に接続された表示装置、または、ユーザが操作する入力端末に提示して、今回の検索に使用する検索条件を、キーボードなどの入力装置を介して、ユーザに入力させる。図7に示される検索条件の入力画面は、利用者の名前(ユーザ名)を入力するエリアと、この利用者の関心用語を一覧で表示しているエリアがある。ユーザは、自分の名前と、関心のある用語および、各用語に対する関心度をこのエリアを用いて設定する。なお、入力の形式は、例えば、キーワードを直接打ちこんで入力させる形式、辞書データ格納部12に格納されている辞書のキーワードから選択させる形式、ならびに、文書格納部11に格納されている文書の構成要素であるキーワードから選択させる形式が挙げられる。なお、辞書のキーワードから選択させる形式について、辞書データ格納部12にシソーラスのようなキーワード間の関連情報が格納されている場合、文書検索装置1は、所定のキーワードに関連するキーワードを一括して入力させてもよい。
【0025】
ここで、検索条件入力部21を介する検索条件の入力手法では、キーワードの入力(選択による入力も含む)に加え、文書検索装置1は、入力されたキーワードに対応するユーザの関心度も、ユーザに入力させる。なお、ユーザの関心度の入力に、シソーラスのようなキーワード間の関連情報が格納されている辞書データ格納部12を使用する場合は、文書検索装置1は、例えば図8に示されるユーザの関心度の入力画面をユーザに提示して、複数のキーワードの関心度を、一括で入力させてもよい。その場合、ユーザの関心度の入力画面は、図8に示すように、階層構造を持つ選択欄、および、キーワードごとの関心度の入力欄を有する。関心度の一括入力の一例として、所定のキーワードの関心度が入力されると、所定のキーワードに関連する(例えば、所定のキーワードの上位概念または下位概念に相当する)キーワードに、所定のキーワードの関心度と同じ値を、文書検索装置1が自動で設定する手法が挙げられる。さらに、所定のキーワードの関心度と同一の関心度を、所定のキーワードに関連するキーワードに設定するかわりに、所定のキーワードからみた関連の大きさ(例えば、上位概念または下位概念の関連のリンクの回数)に応じて、所定のキーワードに関連するキーワードに設定する関心度の値を、一定の割合(例えば1割)で減少させてもよい。これにより、所定のキーワードに関連するキーワードを順にたどっていくと、関連するキーワードの数が多くなりすぎてしまう場合に、関連するキーワードの数を制限することができる。
【0026】
次に、検索条件記録選択部22を介する検索条件の入力手法について、説明する。文書検索装置1は、前回以前に入力された検索条件を再利用して検索条件を入力させるために、検索条件記録選択部22を用いて、検索条件格納部13に格納された検索条件から、今回使用する検索条件を選択させる。
【0027】
なお、検索条件記録選択部22において、1ユーザが、検索条件記録選択部22に複数の検索条件を有している場合の、今回の検索に使用する検索条件の選択方法は、様々な方法がある。例えば、文書検索装置1は、検索条件記録選択部22に格納されている所定のユーザの検索条件のリストを提示して、所定のユーザに選択を促す手法を用いてもよい。また、文書検索装置1は、入力された検索条件に含まれるキーワードと、検索条件記録選択部22に格納されている検索条件に含まれるキーワードとを照合して、例えば一致するキーワードの数が最多となる検索条件を、選択してもよい。さらに、文書検索装置1は、入力された検索条件に含まれるキーワードと、検索条件記録選択部22に格納されている検索条件の内容そのものには含まれないが、その検索条件を説明するための属性情報とを照合して、例えば、一致するキーワードの数が最多となる検索条件を、選択してもよい。
【0028】
さらに、S104(関心度付の検索条件をもとにした文書検索)について、説明する。文書検索装置1は、関心度付全文検索部32を用いて、文書格納部11または検索結果格納部14に格納された検索対象の文書群から、S103(関心度付の検索条件の入力)によって入力された検索条件に適合する文書を検索する。具体的には、関心度付全文検索部32は、検索対象となる各文書について、検索条件のキーワードの出現頻度と、検索条件のキーワードの関心度とを参照することにより、文書ごとの関心度を算出する。
【0029】
そして、S105(関心度付の検索結果の出力)について、説明する。文書検索装置1は、S104(関心度付の検索条件をもとにした文書検索)の結果を、ユーザに出力する。なお、文書検索装置1は、文書ごとの関心度を降順または昇順にソートさせてから、検索条件に適合する文書のリストを提示してもよい。これにより、関心の高いと思われる文書から結果を表示することが可能となる。さらに、文書検索装置1は、文書ごとの関心度と所定のしきい値とを比較して、所定のしきい値を上回る関心度を有する文書のみを、提示してもよい。そして、文書検索装置1は、文書の検索処理を複数回行うことに対応するため、S105(関心度付の検索結果の出力)の結果を、検索結果格納部14に格納する。これにより、文書検索装置1は、今回の検索結果を次回の検索対象とすることにより、しぼりこみ検索をユーザに提供することができる。
【0030】
ここで、S105(関心度付の検索結果の出力)の出力結果について、図9を参照して説明する。まず、図9(A)は、ユーザ“山本”が検索条件として“新発売”というキーワードを入力した場合における検索結果を示すものであり。“文書A”、“文書C”、“文書B”の順に、検索結果が表示されている。一方、図9(B)は、ユーザ“佐藤”が、同様の検索条件を入力した場合における検索結果を示すものであり、“文書B”、“文書A”、“文書C”の順に、検索結果が表示されている。なお、ユーザの認識は、システムへのログインなどにより行うことが可能である。また、ユーザは、“検索”ボタンを選択することで、検索結果を得る。図9(A)と図9(B)とにおいて、検索条件が同一にも関らず、検索結果の順序が異なる理由は、関心度が考慮された検索が行われたことによる。
【0031】
まず、図9(A)は、利用者(ここでは山本)の図5の関心度データが加味されることで、“パーソナルコンピュータ”のキーワードを含んだ文書Aが最も優先順位が高く評価されている。また、ユーザ“山本”は、“PDA”に関しても“パーソナルコンピュータ”の10という値ほど大きくはないが、5という値の関心度を持っているため、文書Cが2番目に評価されている。文書Bでは、関心のある用語が利用されていないため、最も低い優先順位となっている。
【0032】
一方、図9(B)では、利用者(ここでは佐藤)の図5の関心度テーブルの情報から、“大型コンピュータ”に3の値の関心度を持つため、文書Bが最も高い優先度を持っている。一方“PDA”には、負の関心度−1が設定されている。つまり、PDAに関しては興味が無いことを示している。これにより、優先順位処理部104は、PDAに関して記述がある文書Cを最も低い順位で表示している。
【0033】
つまり、文書検索装置1は、S104によってキーワードごとの関心度から文書の関心度を算出するので、処理の文書の関心度は、ユーザごとに異なる関心度が算出される。よって、図9(A)と図9(B)とは、検索結果の出力の順序が異なっている。以上のように、同じ検索キーワードでも利用者の関心度により、異なった検索結果を得ることができ、関心の高い文書へのアクセスを確実に行うことが可能となる。
【0034】
ここで、S106(検索処理の終了判定)について、説明する。文書検索装置1は、検索処理の終了判定、つまり、今回の検索から次回の検索を行うかどうかの判定を行う。なお、判定方法は、例えば、予めユーザに指定された設定ファイルによって規定された検索条件を全て利用することによって終了とする方法、または、今回の検索結果をユーザに提示して、さらなる検索を行うかどうかをユーザに選択させる方法が、挙げられる。そして、文書検索装置1は、検索を続行する場合(S106、No)には、処理をS102(検索方法の選択)に戻す。
【0035】
そして、S107(関心度付の検索条件の更新)について、説明する。文書検索装置1は、入力された検索条件を、次回以降の文書検索に再利用させるために、検索条件格納部13に格納する。そして、文書検索装置1は、既に前回以前に格納されているキーワードについて、そのキーワードに対応する関心度の更新処理を行ってもよい。
【0036】
なお、関心度の更新処理は、例えば、S103(関心度付の検索条件の入力)またはS113(検索条件の入力)において入力されたキーワードと、同一のキーワードが検索条件格納部13に格納されているとき、そのキーワードの関心度を増加させる処理である。また、関心度の更新処理の別の例では、S115(検索結果の出力)またはS105(関心度付の検索結果の出力)において、検索結果として出力された文書に含まれるキーワードと、同一のキーワードが検索条件格納部13に格納されているとき、そのキーワードの関心度を増加させる処理である。さらに、S115(検索結果の出力)またはS105(関心度付の検索結果の出力)で出力される文書のうち、ユーザによって実際に閲覧された文書に含まれるキーワードに限り、キーワードの関心度を増加させてもよい。
【0037】
以上、キーワードの関心度を参照した文書の検索処理の概要について、一通り説明した。ここで、キーワードの関心度を参照しない文書の検索処理について、補足説明する。この処理は、S102(検索方法の選択)において、“関心度なし”が選択されたときの処理である。まず、文書検索装置1は、S113(検索条件の入力)において、S103(関心度付の検索条件の入力)と同様に、検索条件となるキーワードを入力させるが、関心度の入力処理は行わない。次に、文書検索装置1は、S114(検索条件をもとにした文書検索)において、全文検索部31を用いて、文書格納部11または検索結果格納部14に格納されている文書から、検索条件に適合する文書を検索する。さらに、文書検索装置1は、S115(検索結果の出力)において、S114(検索条件をもとにした文書検索)の結果を、ユーザに出力する。
【0038】
以上、本実施形態の文書検索装置の動作の概要について、図6に示すフローチャートに沿って説明した。さらに、図6におけるS104(関心度付の検索条件をもとにした文書検索)の処理について、図1〜図9を参照しつつ、図10に示すフローチャートに沿って説明する。
【0039】
まず、S201(検索の前準備)について、説明する。文書検索装置1は、検索の対象となる文書を、文書格納部11または検索結果格納部14から選択する。
【0040】
次に、S202(検索対象の文書の選択)について、説明する。文書検索装置1は、検索対象の文書群の全数チェックを行うために、チェックが行われていない所定の検索対象の文書を選択する。そして、文書検索装置1は、所定の検索対象の文書に対応する文書の関心度を初期化(例えば値を0に設定)する。
【0041】
そして、S203(検索条件から検索キーとなるキーワードの選択)について、説明する。文書検索装置1は、検索キーの全数チェックを行うために、チェックが行われていない検索キーとなるキーワードを選択する。
【0042】
さらに、S204(検索対象の文書が検索キーを含んでいるかの判定)について、説明する。文書検索装置1は、S202(検索対象の文書の選択)で選択された文書に対して、S203(検索条件から検索キーとなるキーワードの選択)で選択された検索キーの出現頻度を検索する。これにより、S203(検索条件から検索キーとなるキーワードの選択)により選択された検索キーは、検索に使用されたので、検索キーの全数チェックについて、チェック済とする。そして、文書検索装置1は、検索された検索キーの出現頻度から、検索対象の文書が検索キーを含んでいるかを判定する。まず、検索対象の文書が検索キーを含んでいる場合(S204、含む)は、処理をS205に進める。一方、検索対象の文書が検索キーを含んでいない場合(S204、含まない)は、処理をS206に進める。
【0043】
そして、S205(文書の関心度に検索キーの関心度を加算)について、説明する。文書検索装置1は、S204(検索対象の文書が検索キーを含んでいるかの判定)によって得た検索キーの出現頻度と、検索キーの関心度とを用いて、S202(検索対象の文書の選択)で選択された文書の関心度を計算する。なお、文書の関心度は、例えば、検索キーの出現頻度と検索キーの関心度との積を、文書の関心度として加算する処理である。また、文書の関心度は、検索キーの出現頻度に関らず、検索キーの関心度の値をそのまま文書の関心度として加算してもよい。
【0044】
ここで、S206(全ての検索キーの検索の終了判定)について、説明する。文書検索装置1は、S202(検索対象の文書の選択)で選択された所定の文書についての検索の終了判定を行う。もし、全ての検索キーの全数チェックが行われたなら(S206、Yes)、所定の文書についての検索が終了したと判定されるので、所定の文書をチェック済として、処理をS207に進める。一方、全数チェックの対象となる検索キーが存在する場合には(S206、No)、文書検索装置1は、処理をS203に戻す。
【0045】
また、S207(全ての文書の検索の終了判定)について、説明する。文書検索装置1は、検索対象となる全ての文書について、検索の終了判定を行う。もし、検索対象となる全ての文書について、全数チェックが行われたなら(S207、Yes)、S104(関心度付の検索条件をもとにした文書検索)の処理を終了し、S105(関心度付の検索結果の出力)に移行する。一方、全数チェックの対象となる文書が存在する場合は(S207、No)、処理をS202に戻す。
【0046】
以上、本発明の一実施形態について説明した。かかる構成によれば、検索条件にユーザの観点である関心度を含めることによって、文書検索にユーザの観点を反映させることができる。
【0047】
以上説明した本発明は、発明の趣旨を逸脱しない範囲で広く変形実施することができる。
【0048】
例えば、ユーザは、個人に限定される必要は無く、複数のメンバから構成される組織を1ユーザとして扱ってもよい。つまり、所定の組織のメンバは、1ユーザの検索条件を共用する。これにより、グループとして共通的に関心を持つべき文書を、優先度を上げて検索することが可能となる。
【0049】
さらに、検索条件の関心度データは、利用者毎に管理するようにしているが、別の案として、利用者の業務種別や、関心領域毎に管理することも可能である。このとき、利用者と、業務種別や関心領域との対応関係を管理するテーブルを保持する方法がとれる。また、利用者が検索依頼時に業務種別や関心領域を選択する方法もとることができる。また、さらに利用者の関心度と、業務の共通の関心度とを2セット持ち、それらを重み付けし加算することで、文書の優先度を計算する方法をとることが可能である。
【0050】
また、図1に示すシステム(文書検索装置1に対応)は、具体的には、キーボードやマウスやスキャナやネットワークとの接続装置などの入力装置(検索入力処理部20に対応)、プリンタやデイスプレイやネットワークへの接続装置などの出力装置(検索出力処理部40に対応)、中央演算装置、記憶装置がネットワークで接続された汎用のコンピュータシステムとその上で稼働する処理プログラム(検索処理部30に対応)によって実現することが可能であるが、専用の装置として構成することも可能である。
【0051】
このような汎用のコンピュータシステムに処理プログラムを付加して実現するときには、処理プログラムは、磁気ディスクやCD−ROMなどのメディア(コンピュータで読み出し可能な記録媒体)に記録して配送、保管、実装され、中央演算装置に設けた磁気ディスク読み取り装置やCD−ROM読み取り装置によって読み取って内部メモリに取り込まれる。通信ネットワークを通じて配送される処理プログラムを入力部によって取り込んで実現する場合には、取り込んだ処理プログラムを磁気ディスク等のメディアに記憶させて保存することにより、繰り返し使用できるようにする。このような汎用のコンピユータシステムの一例として、パーソナルコンピュータ、オフィスコンピュータ、ワークステーション等が使用できる。
【0052】
【発明の効果】
本発明によって、検索条件にユーザの観点である関心度を含めることによって、文書検索の結果にユーザの観点を反映させることができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る文書検索装置の構成図である。
【図2】 本発明の一実施形態に係る文書格納部に格納されているデータを示す図である。
【図3】 本発明の一実施形態に係る文書格納部に格納されているデータについて、検索がしやすいように加工する過程を説明する図である。
【図4】 本発明の一実施形態に係る辞書データ格納部に格納されているデータを示す図である。
【図5】 本発明の一実施形態に係る検索条件格納部に格納されているデータを示す図である。
【図6】 本発明の一実施形態に係る文書検索の動作の概要を示すフローチャートである。
【図7】 本発明の一実施形態に係る検索条件の入力画面の一例を示す図である。
【図8】 本発明の一実施形態に係る検索条件の入力画面の一例を示す図であり、階層的なキーワードの一括入力を行われる画面図である。
【図9】 本発明の一実施形態に係る文書検索の結果を出力する画面の一例を示す図である。
【図10】 本発明の一実施形態に係る文書検索の動作を示すフローチャートである。
【符号の説明】
1…文書検索装置
10…データ管理部
11…文書格納部
12…辞書データ格納部
13…検索条件格納部
14…検索結果格納部
20…検索入力処理部
21…検索条件入力部
22…検索条件記録選択部
30…検索処理部
31…全文検索部
32…関心度付全文検索部
40…検索出力処理部
41…検索結果出力部
42…検索条件更新部

Claims (6)

  1. キーワードと文書に対する関心の度合いを示す文書関心度とを用いて文書群から前記キーワードと前記文書関心度に対応する文書を検索して出力する文書検索方法であって、
    文書検索装置が、
    前記キーワードが入力されると、記憶手段に予め登録されているユーザごとのキーワードと当該キーワードに対する個別の関心度との対応関係を定義した登録情報、および複数のユーザで共通に使用されるキーワードと当該キーワードに対する共通の関心度との対応関係を定義した登録情報を、前記入力されたキーワードを用いて検索し、前記入力されたキーワードに対応する、個別の関心度および共通の関心度を取得する処理と、
    検索された前記個別の関心度および前記共通の関心度を用いて、前記入力されたキーワードに対する関心の度合いを示すキーワード関心度を算出する処理と、
    前記算出したキーワード関心度を用いて、前記文書関心度を算出する処理と、
    前記入力されたキーワードと前記算出された文書関心度とを用いて、文書群から文書を検索する処理と、を実行し、
    前記キーワード関心度を算出する処理は、入力されたキーワードと同一のキーワードが前記記憶手段に予め登録されているとき、前記同一のキーワードへのキーワード関心度を増加させて前記記憶手段に記憶すること、を特徴とする
    書検索方法。
  2. キーワードと文書に対する関心の度合いを示す文書関心度とを用いて文書群から前記キーワードと前記文書関心度に対応する文書を検索して出力する文書検索方法であって、
    文書検索装置が、
    前記キーワードが入力されると、記憶手段に予め登録されているユーザごとのキーワードと当該キーワードに対する個別の関心度との対応関係を定義した登録情報、および複数のユーザで共通に使用されるキーワードと当該キーワードに対する共通の関心度との対応関係を定義した登録情報を、前記入力されたキーワードを用いて検索し、前記入力されたキーワードに対応する、個別の関心度および共通の関心度を取得する処理と、
    検索された前記個別の関心度および前記共通の関心度を用いて、前記入力されたキーワードに対する関心の度合いを示すキーワード関心度を算出する処理と、
    前記算出したキーワード関心度を用いて、前記文書関心度を算出する処理と、
    前記入力されたキーワードと前記算出された文書関心度とを用いて、文書群から文書を検索する処理と、を実行し、
    前記キーワード関心度を算出する処理は、検索結果として出力された文書のうち、閲覧された文書に含まれるキーワードと同一のキーワードが前記記憶手段に予め登録されているとき、前記同一のキーワードへのキーワード関心度を増加させて前記記憶手段に記憶すること、を特徴とする
    書検索方法。
  3. 前記文書検索装置が、
    前記文書群から文書を検索する処理を複数回繰り返すこととし、
    前回以前の前記文書群から文書を検索する処理は、検索した文書を前記記憶手段に記録する手順を含むものとし、
    今回の文書を検索する対象となる前記文書群は、前回の検索した文書を前記記憶手段から読み取ることにより、構成することを特徴とする
    請求項1または請求項2に記載の文書検索方法。
  4. 前記キーワードを入力されるための入力手段は、入力させるキーワードどうしの上位概念および下位概念を表現する階層構造を持つ選択欄、および、前記入力させるキーワードへのキーワード関心度の入力欄を有することを特徴とする
    請求項1ないし請求項のいずれか1項に記載の文書検索方法。
  5. 前記入力手段は、所定のキーワードが選択され、かつ前記所定のキーワードへのキーワード関心度が入力されると、前記文書検索装置が、前記所定のキーワードの上位概念または下位概念に対応するキーワードの選択およびキーワード関心度の設定を行い、前記キーワード関心度の設定は、所定のキーワードへのキーワード関心度以下の値が設定されることを特徴とする
    請求項に記載の文書検索方法。
  6. 前記文書関心度を算出する処理は、所定の文書における所定のキーワードの出現頻度と、所定のキーワードへの前記キーワード関心度の積を、所定の文書への前記文書関心度として算出することを特徴とする
    請求項1ないし請求項のいずれか1項に記載の文書検索方法。
JP2003163643A 2003-06-09 2003-06-09 文書検索方法 Expired - Fee Related JP3998201B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003163643A JP3998201B2 (ja) 2003-06-09 2003-06-09 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003163643A JP3998201B2 (ja) 2003-06-09 2003-06-09 文書検索方法

Publications (2)

Publication Number Publication Date
JP2005004247A JP2005004247A (ja) 2005-01-06
JP3998201B2 true JP3998201B2 (ja) 2007-10-24

Family

ID=34090703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003163643A Expired - Fee Related JP3998201B2 (ja) 2003-06-09 2003-06-09 文書検索方法

Country Status (1)

Country Link
JP (1) JP3998201B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102358048B1 (ko) * 2017-12-28 2022-02-03 주식회사 엔씨소프트 문서들로부터 스토리라인을 생성하기 위한 장치 및 방법

Also Published As

Publication number Publication date
JP2005004247A (ja) 2005-01-06

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
JP4398992B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
US9495363B1 (en) System and method for search with the aid of images associated with product categories
WO1999046698A1 (fr) Processeur de documents et support d'enregistrement
JPH1125113A (ja) 画像検索装置,画像検索用キーテキストの生成方法,並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN103430172A (zh) 检索装置、检索方法及程序
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
JP5424798B2 (ja) メタデータ設定方法及びメタデータ設定システム、並びにプログラム
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP4287464B2 (ja) システム基盤構成策定支援システム及び支援方法
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
JP2005202714A (ja) 文書検索システム
JP3998201B2 (ja) 文書検索方法
JP2002014971A (ja) 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2000231560A (ja) 文書自動分類方式
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
JP2004234582A (ja) 辞書構築方法,システム及び画面
JP6700450B1 (ja) 文書出力システム、文書出力方法及び文書出力プログラム
JP4189251B2 (ja) キーワード解析方法及びそれに使用するプログラム
JP2006338114A (ja) データ管理装置およびデータ管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070803

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees