JP4634821B2 - 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 - Google Patents

文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 Download PDF

Info

Publication number
JP4634821B2
JP4634821B2 JP2005048848A JP2005048848A JP4634821B2 JP 4634821 B2 JP4634821 B2 JP 4634821B2 JP 2005048848 A JP2005048848 A JP 2005048848A JP 2005048848 A JP2005048848 A JP 2005048848A JP 4634821 B2 JP4634821 B2 JP 4634821B2
Authority
JP
Japan
Prior art keywords
document
hit
group
documents
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005048848A
Other languages
English (en)
Other versions
JP2006235928A (ja
Inventor
雅輝 四ッ谷
忠孝 松林
十悟 野田
岐勇 飯島
祐一 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005048848A priority Critical patent/JP4634821B2/ja
Publication of JP2006235928A publication Critical patent/JP2006235928A/ja
Application granted granted Critical
Publication of JP4634821B2 publication Critical patent/JP4634821B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンピュータを用いた文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体に関する。
近年、パーソナルコンピュータやインターネット技術の普及に伴い、電子化文書が爆発的に増加しつつある。このような状況下において、蓄積された膨大な電子化文書の中から、必要とする情報を含んだ文書を効率的に検索したいという要望が高まってきている。
このような要望に応えるための基本的な技術として、全文検索技術がある。全文検索技術の一例としては、特許文献1で開示されている技術がある。この技術では、文書の登録時に文書中の全ての連続するn文字からなる文字列(以下、n-gramと呼ぶ)をインデクスとして格納しておき、検索時に指定された文字列(以下、検索タームと呼ぶ)を構成するn-gramを参照して、検索タームを含む文書を検索する。そして、この技術によれば、予め作成したインデクスを利用することによって、検索者が指定した検索タームを含む文書を漏れなく検索することができる。
しかし、大量に表示された検索結果から、所望の情報が記載された文書を取得することは、検索者にとって多くの時間が必要となる。このため、所望する情報を短時間に取得したいという要望が高まってきている。
このような要望に応える技術として、検索条件に対する適合度の高い文書を検索結果の上位に表示するランキング技術がある。ランキング技術の一例として、特許文献2および非特許文献1で開示されている技術がある。この技術は、インターネット上に存在する文書において、有用な文書には多くの文書からリンクが張られている、という仮定に基づき文書の有用性を算出し、その降順に検索条件を満たす文書(以下、ヒット文書と呼ぶ)を表示する。この技術によれば、検索者は、有用性が高いと評価されたヒット文書を検索結果から容易に取得することができるため、検索結果から所望する情報が記載された文書を取得するための時間を短縮することができる。
特開平8−194718号公報(請求項1など) 米国特許第6,799,176号明細書 Sergey Brin and Lawrence Page, "The Anatomy of a Large-Scale Hypertextual Web Search Engine.", Proc. of the 7th International World Wide Web Conference,(米国)1988.
しかし、従来技術では、検索者の所望する情報が複数の話題から構成されており、それぞれの話題が異なる文書に記載されている場合には、次のような問題点がある。すなわち、従来技術では、対象としている文書に張られたリンクの数に基づき、有効性を評価しているが、リンクを利用して別の文書へ辿ることに関しての有効性は評価されなかった。この結果、検索者の所望する情報に含まれる複数の話題のうち、一部の話題に関する情報しか得ることができない文書であっても高い評価を与えてしまい、より広範な情報を含む文書をうまく選択できない場合があるという問題点がある。
例えば、自動車Aに搭載可能なカーステレオやカーナビなどの装備に関して記載された文書(以下、「オプション装備」の文書と呼ぶ)や、自動車Aの燃費や最大出力などのエンジン性能に関して記載された文書(以下、「エンジン性能」の文書と呼ぶ)と、これらの文書に対するリンクを持った「製品トップ」の文書から成るサイトにおいて、前記「エンジン性能」の文書に対して多くの文書からリンクが張られている場合、検索条件「自動車A」による検索結果には、前記「エンジン性能」の文書が上位に表示されることになる。
これでは、自動車Aに対する調査を目的に、検索条件として「自動車A」と入力した検索者にとって、この「エンジン性能」の文書からは、自動車Aのエンジン性能に関する情報しか取得することができないため、所望する情報の一部を取得するに留まる結果となる。すなわち、検索者にとって有用な情報を持つ文書へのリンクを持ち、しかも、その文書自体も求めている情報の概要を持っている文書が、必ずしも重要な文書と判断されるとは限らない。
このような問題点に対処すべく、本発明では、検索者の所望する情報が複数の話題から構成されており、それぞれの話題が異なる文書に記載されている場合であっても、これらの話題に関して幅広く情報を提示できる文書検索装置を提供することを課題とする。
前記の課題を解決するために、本発明では、文書検索装置が、登録する文書を解析する手段と、文書をデータベースに登録する手段と、文書を解析して登録する手段と、与えられたキーワードを含むヒット文書を検索する手段と、有用な文書を含む文書群を決定する手段と、文書群に含まれるヒット文書の数である文書群適合度を算出する手段と、ヒット文書から出ている有用な文書へのリンクの数である文書アクセス容易度を算出する手段と、検索結果を出力する手段とを備え、文書登録時には、前記登録する文書を解析する手段が前記文書に含まれるキーワードを解析し、前記文書をデータベースに登録する手段が検索対象となる文書を登録し、文書検索時には、前記ヒット文書を検索する手段が検索時に与えられたキーワードを含む文書を検索し、文書群を決定する手段が対象となるヒット文書を含む文書群を決定し、文書群適合度を算出する手段が前記文書群とヒット文書の情報を元に文書適合度を算出し、文書アクセス容易度を算出する手段がヒット文書のリストを元に文書アクセス容易度を算出し、検索結果を出力する手段が文書群適合度と文書アクセス容易度の高い文書を重要な順に出力する。
このような構成によれば、その文書自身が有用な情報を持ち、かつ、有用な情報を持つ文書へのリンクを持つ文書を効率よく検索することができる。
本発明によれば、単一の文書としての情報提示だけではなく、文書群およびリンク先の文書を用いて、高精度な検索結果を提示することができ、検索者の負担を軽減することができる。
以下、図を参照して、本発明の実施形態について説明する。
なお、本発明においては、後記する文書群の決定方法に応じて複数の実施形態がある。そのうち、ディレクトリを利用して文書群を決定する実施形態を第1の実施形態とし、リンクを利用して文書群を決定する実施形態を第2の実施形態として、それぞれについて説明する。
<<第1の実施形態>>
第1の実施形態は、本発明の基本的な実施形態である。ここでは、まず、第1の実施形態の文書検索装置の構成を説明し、その後、各部についての処理内容を説明する。
〔文書検索装置の構成〕
図1は第1の実施形態の装置構成を説明する図である。図1に示されているように、文書検索装置10は、ディスプレイ100、キーボード101、CPU(Central Processing Unit、中央演算処理装置)102、磁気ディスク装置103、主メモリ104、これらを結ぶバス105および他の機器と本システムを接続するネットワーク106から構成される。
なお、磁気ディスク装置103は、二次記憶装置の一例であり、他の二次記憶装置を用いてもよい。この磁気ディスク装置103には、登録文書管理テーブル140が格納される。
主メモリ104は、例えば半導体メモリなどで構成される記憶装置である。主メモリ104には、システム制御処理部110の機能を実現させるためのプログラムが格納されると共に、ワークエリア150が確保される。そして、システム制御処理部110は、登録制御処理部120および検索制御処理部130を含んで構成される。
このうち、登録制御処理部120は、登録される文書の構文解析を行う登録文書解析処理部121および文書に含まれるキーワードなどの情報を取得する文書情報取得処理部122を含み、これらの制御を行う。
検索制御処理部130は、検索時に与えられたキーワードを含むヒット文書を取得するヒット文書取得処理部131、検索処理において後記する適合度および文書アクセス容易度を算出する基礎となる文書群を決定する文書群決定処理部132、決定された文書群から文書群適合度を算出する文書群適合度算出処理部133、決定された文書群から文書アクセス容易度を算出する文書アクセス容易度算出処理部134および文書群適合度や文書アクセス容易度が高い文書を表示する検索結果出力処理部135で構成され、これらの制御を行う。
なお、これらは、それぞれ機能を実現するためのプログラムを主メモリ104に読み込むことで実現される。
本実施形態においては、登録制御処理部120および検索制御処理部130は、検索システムの利用者によるキーボード101からの入力に応じてシステム制御処理部110によって起動される。
なお、本実施形態では、キーボード101から入力されたコマンドにより登録制御処理部120および検索制御処理部130が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるものであってもよい。
また、これらの処理を実行させるためのプログラムは主メモリ104に格納されるものとしたが、磁気ディスク装置103、フロッピディスク(登録商標)、MO(Magneto-Optical disk)、CD−ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)等の記憶媒体(図1には図示せず)に格納され、駆動装置を介して主メモリ104に読み込まれ、CPU102によって実行されるものであってもよい。あるいは、これらの処理を実行させるためのプログラムは、ネットワーク106を介して主メモリ104に読み込まれて、CPU102によって実行する構成としてもよい。
さらに、本実施形態では登録文書管理テーブル140は磁気ディスク装置103に格納されるものとしたが、フロッピディスク(登録商標)、MO、CD−ROM、DVD等の記憶媒体(図1には図示せず)に格納され、駆動装置を介して主メモリ104に読み込まれ、利用することも可能であるし、あるいは、ネットワーク106を介して、他の計算機システムに接続された記憶媒体(図1には図示せず)に格納されていて、ここから読み込まれるものであってもよい。
[文書検索装置の処理]
以下、本実施形態における文書検索装置10の処理手順を説明する。文書検索装置10における処理は、システム制御処理部110によって実行される。
[システム制御処理部の処理]
図2は、システム制御処理部の処理手順を説明する図である。まず、図2のPAD(Problem Analysis Diagram)図を用いて、システム制御処理部110の処理手順について説明する(適宜図1参照)。
システム制御処理部110は、まずキーボード101から入力されたコマンドを解析し、コマンドの種類を判定する(S200)。この判定結果が、登録処理のコマンドであると解析された場合には(S200の「登録処理」)、登録制御処理部120を起動して、登録実行のコマンドで指定された文書の登録処理を実行する(S210)。また、検索処理のコマンドであると解析された場合には(S200の「検索処理」)、検索制御処理部130を起動して、検索条件に適合する文書の検索処理を実行し(S220)、処理を終了する。
以上が、システム制御処理部110の処理手順である。
[登録制御処理部の処理]
図3は、登録制御処理部の処理手順を説明する図である。
ここでは、図2に示したステップS210でシステム制御処理部110により起動される登録制御処理部120の処理手順について、図3のPAD図を用いて説明する。
まず、登録制御処理部120は、登録文書解析処理部121を起動し、登録対象として指定された文書(以下、登録対象文書と呼ぶ)を解析して、テキストとリンク先の文書(以下、リンク先文書と呼ぶ)のURL(Uniform Resource Locator)(あるいは識別情報)を取得し、登録対象文書のURL(識別情報)と共にワークエリア150に格納する(S300)。
次に、文書情報取得処理部122を起動し、登録対象文書に文書IDを付与し、ワークエリアに格納された該文書のURL、テキストおよびリンク先文書のURLを該文書に付与された文書IDと共に磁気ディスク装置103上の登録文書管理テーブル140に格納する(S301)。以上が、登録制御処理部120の処理手順である。
ここで、図3に示した文書検索システムにおける文書の登録処理の手順について図4を用いて具体的に説明する。
図4は、HTML(Hyper Text Markup Language)形式で記述された文書D001〜文書D006が登録される場合の処理の流れの具体例を説明する図である。
図4に示した例では、文書D001〜文書D003はディレクトリAに含まれており、文書D004〜文書D006はディレクトリBに含まれることを示している。文書D001は、URLが「/A/a1.htm」で示されるファイルに、「中古車販売のトップ」というテキストが記載されており、「/A/a2.htm」および「/A/a3.htm」がリンク先文書のURLとして記載されていることを表している。
また、文書D002は、URLが「/A/a2.htm」で示されるファイルに、「自動車A」がテキストとして記載されており、リンク先文書のURLは存在しないことを表している。また、文書D003は、URLが「/A/a3.htm」で示されるファイルに、「自動車B」がテキストとして記載されており、リンク先文書のURLは存在しないことを表している。以下、ディレクトリBに含まれる文書D004〜文書D006についても同様である。
まず、ディレクトリAおよびディレクトリBに含まれる文書D001〜文書D006に対して、登録文書解析処理部121により各文書のテキスト、URLおよびリンク先文書のURLが図4中のワークエリア150上に格納される(図3のS300に該当)。
図4に示した例では、文書D001は、URLが「/A/a1.htm」、テキストが「中古車販売のトップ」、リンク先の文書のURLが「/A/a2.htm」および「/A/a3.htm」が解析結果501aとして、ワークエリア150上に格納されたことを示している。以下、文書D002〜文書D006についても同様である。
次に、ワークエリア150上に格納された文書D001〜文書D006の解析結果501a〜513aに対して、文書情報取得処理部122により登録対象として指定された文書に文書IDが付与され、該文書のURL、テキストおよびリンク先文書のURLが該文書の文書IDと共に登録文書管理テーブル140に格納される(図3のS301に該当)。
図4に示した例では、ワークエリア150上に格納された文書D001の解析結果501aに含まれていた、文書ID「D001」、URL「/A/a1.htm」、テキスト「中古車販売のトップ」およびリンク先文書のURL「/A/a2.htm」「/A/a3.htm」が、登録文書管理テーブル140における1件目の登録文書501bに登録されるデータとして格納されたことを示している。なお、リンク先文書が存在しない場合は、登録文書管理テーブル140上のリンク先文書のURLが格納される領域に「-」が格納される。なお、文書D002〜文書D006についても同様の処理を行う。以上が、本実施形態に示した文書検索システムにおける文書の登録処理の具体的な流れである。
なお、図3に示したステップS300において、登録文書解析処理部121により、登録対象文書を解析する際に、その登録対象文書に関連付けられた文書の識別情報として、リンク先文書のURLを用いるものとしたが、登録対象文書がメールなど添付機能を有した文書の場合は、その登録対象文書に関連付けられた文書の識別情報として、添付ファイル名を利用するものとしてもよい。また、以上挙げたような、登録対象文書とその登録対象文書に関連付けられた文書の識別情報は、組み合わせて用いてもよい。これにより、多種類の文書を登録の対象とすることができるため、検索者は多種類の文書を検索することができる。
[検索制御処理部の処理]
図5は、検索制御処理部の処理を説明する図である。ここでは、図2に示したステップS220でシステム制御処理部110により起動される検索制御処理部130の処理手順について、図5のPAD図を用いて説明する(適宜図1参照)。
まず、ヒット文書取得処理部131を起動し、登録文書管理テーブル140から指定された検索条件に適合する文書(以下、ヒット文書と呼ぶ)を取得する(S400)。
次に、文書群決定処理部132を起動し、登録文書管理テーブル140に格納された全ての文書に対して、同じディレクトリの下にある文書の集合を文書群と決定する(S401)。なお、ここでは、前記文書群決定処理部132による処理は、検索時に行うものとしたが、登録処理時に予め行うものとしてもよい。この場合は、検索処理を短時間で行うことができるようになる。
その後、文書群適合度算出処理部133を起動し、ステップS401で切り出された文書群に含まれるヒット文書の数を計数し、該文書群の文書群適合度(M1)として算出する(S402)。なお、前記文書群決定処理部132による処理は、文書群に含まれるヒット文書を計数する際に、文書群に含まれる文書のURLとヒット文書のURLのマッチングにより一致判定を行い、計数するものとしたが、各々の文書IDで一致判定を行ってもよい。この場合は、一致判定の処理を高速に行うことができるため、検索処理を短時間で行うことができる。なお、ここでは、ヒット文書の数を文書群適合度(M1)としているが、文書群に含まれる文書の数に対するヒット文書数の割合を文書群適合度としてもよい。
次に、文書アクセス容易度算出処理部134を起動し、対象とする文書群に含まれる全てのヒット文書について、リンク先文書の数を計数し、文書アクセス容易度M2として算出する(S403)。
そして、検索結果出力処理部135を起動し、ステップS402で取得した文書群適合度(M1)を第1ソートキー、ステップS403で取得した文書アクセス容易度(M2)を第2ソートキーに設定して、ヒット文書をそれぞれ降順に並び換えて表示する(S404)。以上が、検索制御処理部130の処理手順である。
次に、図5に示した文書検索システムにおける文書の検索処理の手順について図6を用いて具体的に説明する(適宜図1参照)。図6は、図5に示した文書D001〜文書D006が登録された文書検索システムに対し、検索条件600「自動車A」が指定され、検索される場合の処理の流れの具体例を説明する図である。
まず、ヒット文書取得処理部131により登録文書管理テーブル140から指定された検索条件600「自動車A」に適合する文書の文書ID、URLおよびリンク先文書のURLがヒット文書リスト601として取得される(図5のS400に該当)。
図6に示した例では、ヒット文書リスト601における1件目のヒット文書のデータとしては、文書ID「D002」、URL「/A/a2.htm」、リンク先文書のURL「-」の文書であることを示している。以下同様にして、ヒット文書リスト601では、全部で4件の文書がヒットしたことを示している。
次に、文書群決定処理部132により、登録文書管理テーブル140に格納された全ての文書に対して、同じディレクトリの下にある文書の集合(以下、文書群と呼ぶ)が切り出され、文書群リスト602として取得される(図5のS401に該当)。
図6に示した例では、文書群リスト602における1件目の文書群のデータとしては、文書群「/A/」に含まれる文書のURLは「/A/a1.htm」、「/A/a2.htm」および「/A/a3.htm」であることを示している。同様にして、文書群リスト602における2件目の文書群のデータとしては、文書群「/B/」に含まれる文書のURLは「/B/b1.htm」、「/B/b2.htm」および「/B/b3.htm」であることを示している。
その後、文書群適合度算出処理部133により、ヒット文書リスト601と文書群リスト602が読み込まれ、各文書群に含まれるヒット文書の数が計数された値が文書群適合度(M1)として算出される。そして、算出されたすべての文書群に対する文書群適合度(M1)が文書群適合度算出結果603として取得される(図5のS402に該当)。
図6に示した例では、文書群適合度算出結果603における1件目のデータを取得するために、まず、文書群リスト602が参照されることにより「/A/a1.htm」、「/A/a2.htm」および「/A/a3.htm」が文書群「/A/」に含まれる文書のURLとして取得される。次に、ヒット文書リスト601を参照することにより前記3文書のうちヒット文書は「/A/a2.htm」であることが判定され、ヒット文書の数は「1」と計数される。文書群適合度算出結果603における1件目のデータは、前記計数されたヒット文書の数「1」が文書群「/A/」の文書群適合度(M1)として取得されたことを示している。
同様にして、文書群適合度算出結果603における2件目のデータを取得するために、まず、文書群リスト602が参照されることにより「/B/b1.htm」、「/B/b2.htm」および「/B/b3.htm」が文書群「/B/」に含まれる文書のURLとして取得される。次にヒット文書リスト601を参照することにより前記3文書のうちヒット文書は「/B/b1.htm」、「/B/b2.htm」および「/B/b3.htm」であることが判定され、ヒット文書の数は「3」と計数される。文書群適合度算出結果603における2件目のデータは、前記計数されたヒット文書の数「3」が文書群「/B/」の文書群適合度(M1)として取得されたことを示している。
次に、文書アクセス容易度算出処理部134により、ヒット文書リスト601が読み込まれ、リンク先文書のURLを取得して、リンク先文書のURLの種類数が計数された値が文書アクセス容易度(M2)として算出される。そして、すべてのヒット文書について算出された結果が文書アクセス容易度算出結果604として取得される(図4のS403に該当)。
図6に示した例では、文書アクセス容易度算出結果604における1件目のデータを取得するために、ヒット文書リスト601を参照することにより「-」が文書ID「D002」のリンク先文書のURLとして取得され、リンク先文書のURLの種類数として「0」が計数される。文書アクセス容易度算出結果604における1件目のデータは、前記計数されたリンク先文書のURLの種類数「0」が文書ID「D002」の文書アクセス容易度(M2)として取得されたことを示している。
同様にして、文書アクセス容易度算出結果604における2件目のデータを取得するために、ヒット文書リスト601を参照することにより「-」が文書ID「D004」のリンク先文書のURLとして取得され、リンク先文書のURLの種類数として「0」が計数される。文書アクセス容易度算出結果604における2件目のデータは、前記計数されたリンク先文書のURLの種類数「0」が文書ID「D004」の文書アクセス容易度(M2)として取得されたことを示している。
また、同様にして、文書アクセス容易度算出結果604における3件目のデータを取得するために、ヒット文書リスト601を参照することにより「/B/b1.htm」および「/B/b3.htm」が文書ID「D005」のリンク先文書のURLとして取得され、リンク先文書のURLの種類数として「2」が計数される。文書アクセス容易度算出結果604における3件目のデータは、前記計数されたリンク先文書のURLの種類数「2」が文書ID「D005」の文書アクセス容易度(M2)として取得されたことを示している。
さらに、同様にして、文書アクセス容易度算出結果604における4件目のデータを取得するために、ヒット文書リスト601を参照することにより「/B/b2.htm」が文書ID「D006」のリンク先文書のURLとして取得され、リンク先文書のURLの種類数として「1」が計数される。文書アクセス容易度算出結果604における4件目のデータは、前記計数されたリンク先文書のURLの種類数「1」が文書ID「D006」の文書アクセス容易度(M2)として取得されたことを示している。
次に、検索結果出力処理部135により、文書群適合度算出結果603と文書アクセス容易度算出結果604が読み込まれ、文書群適合度(M1)を第1ソートキー、文書アクセス容易度(M2)を第2ソートキーに設定して、それぞれ降順に並び換え、検索結果605が表示される(図4のS404に該当)。
図6に示した例では、検索結果605における1件目のデータを取得するために、文書群適合度算出結果603を参照することにより、文書群適合度(M1)の最も高い値が「3」であることが判定され、その文書群適合度(M1)に対応する文書群「/B/」が取得される。次に、文書アクセス容易度算出結果604を参照することにより、文書群「/B/」において文書アクセス容易度(M2)が最も高い値が「2」であることが判定され、その文書アクセス容易度(M2)に対応する文書ID「D005」が取得される。検索結果605における1件目のデータは、並び換えられた後の順位「1」として、文書ID「D005」が取得されたことを示している。以下同様にして、検索結果605はすべてのヒット文書4件が並び替えられた結果を示している。以上が、本発明の第1の実施形態に示した文書検索装置10における文書の検索処理の具体的な流れである。
この第1の実施形態によれば、単一の文書としての情報提示だけではなく、ヒット文書を含むディレクトリ内に含まれる文書群およびヒット文書からのリンク先の文書を用いて、検索者が求めている情報をより多く含む文書に対する高精度な検索結果を提示することができる。その結果、検索者は少ない回数の文書参照で必要な情報を入手することができるので、検索者の負担を軽減することができる。
[ディレクトリを考慮した文書群適合度の算出]
第1の実施形態では、文書適合度(M1)を算出する際に、図5に示したステップS402が実行され、文書群適合度算出処理部133により、文書群に含まれるヒット文書の数を計数するが、このときに文書群を含んでいるディレクトリに含まれるサブディレクトリも考慮する算出方法をとることもできる。
この場合の文書群適合度算出方法では、文書群適合度算出処理部133が、該文書群に含まれるサブディレクトリにヒット文書が含まれるかを判定し、ヒット文書が含まれるサブディレクトリの数(以下、ヒットディレクトリ数と呼ぶ)も計数し、該文書群に含まれるヒット文書数およびヒットディレクトリ数の少なくとも一方に基づき、文書群適合度(M1)を算出する。
例えば、ディレクトリ「/A/」が文書群を決定するディレクトリであって、その下に文書群に含まれる文書に加えて、サブディレクトリ「/A/B/」、「/A/C/」、「/A/B/D/」、「/A/B/E/」および「/A/C/F/」を含み、それぞれのサブディレクトリが、ヒット文書を含んでいるとする。この場合には、これらのサブディレクトリは全てヒットディレクトリとなり、ヒットディレクトリ数は5となる。
なお、文書群適合度は、前記のヒットディレクトリ数としてもよいし、文書群に含まれるディレクトリの数に対するヒットディレクトリ数の割合としてもよい。
この算出方法を採用した場合には、文書群適合度(M1)を算出する際、ディレクトリも評価対象に含めることができるため、文書群適合度(M1)をより高精度に算出できるようになる。
[ヒット文書による対象の限定]
本実施形態で示した検索処理手順では、図5に示したステップS401が実行され、文書群決定処理部132により、文書群を決定する際に、登録文書管理テーブル140に格納された全ての文書に対して、同じディレクトリの下にある文書全ての集合を文書群と決定するものとしたが、ヒット文書リスト601から取得したヒット文書に限定して文書群を切り出してもよい。この場合には、文書群を切り出す対象を登録された全文書数から、ヒット文書数に限定することができるため、処理時間を短縮することができる。
また、本実施形態で示した検索処理手順では、図5に示したステップS403が実行され、文書アクセス容易度算出処理部134により、文書アクセス容易度を算出する際に、計数するリンク先文書の対象を全てのリンク先文書とするものとしたが、ヒット文書リスト601から取得したヒット文書に限定して計数してもよい。
<<第2の実施形態>>
第1の実施形態においては、文書群をディレクトリによって特定するが、この文書群を決定するための適切なディレクトリがない場合がある。このような場合には、ディレクトリを用いずに他の方法で文書群を形成することができる。第2の実施形態では、第1の実施形態とは異なる文書群の決定方法を用いて、ディレクトリではなくリンクを辿ることによって文書群を決定する。ただし、文書群の決定以外の処理および装置の構成などは、第1の実施形態と同じである。
図7は、第2の実施形態におけるリンクを辿ることによる文書群決定を説明する図である。文書群決定以前の処理は、第1の実施形態と同じなので説明を省略する。まず、文書群に入れるべきリンク先文書の取得範囲を決定するために用いるリンクの経由回数Lを取得する(S800)。ここでのリンクの経由回数とは、リンクを辿って次の文書を参照する回数を指す。例えば、文書Aから文書Bへのリンクおよび文書Bから文書Cへのリンクが存在する場合に、文書Aから文書Bへのリンクを参照して文書Bを取得する場合の経由回数は1回となり、文書Aから文書Bを経て文書Cまでを取得する場合の経由回数を2回となる。この経由回数を変えることで文書群の範囲を制御できる。
次に、登録文書管理テーブル140に格納された各文書に対して、以下のステップS811からステップS813までの処理を繰り返し(S810)、所定の処理が終了した後には処理を終了する。
ステップS811では、該文書のURLと該文書からL回以内のリンク経由で到達するリンク先文書のURLを取得する。そして、ステップS812では、該文書とステップS811で取得した該文書のリンク先文書の集合を文書群と決定する。次に、ステップS813では、ここまでに決定した文書群に対して文書群IDを付与する。そして、ステップS810で対象となった文書がまだ残っていれば、ステップS811に戻って次の文書に対する処理を繰り返し、全ての文書に対して処理した後に、文書群決定の処理を終了する。
これ以降の処理は、第1の実施形態と同じなので説明を省略する。
図8は、第2の実施形態においてリンクを辿ることによる文書群決定の具体例を説明する図である。まず、文書群決定処理部132aがリンクを辿る経由回数を取得するが(図7のS800に該当)、ここでは、取得の結果、経由回数(L)は1と設定されたものとする。そして、図8の上部に示されている登録文書管理テーブル140に格納されている文書D001から文書D006までの各文書を対象として(図7のS810に該当)、リンク先URLの取得し(図7のS811に該当)、文書群と決定し(図7のS812に該当)、文書群IDを付与する処理(図7のS813に該当)を繰り返す。
前記の文書群決定の処理を文書D001に対して行うと、1回のリンク経由で到達するリンク先文書のURLである「/A/a2.htm」および「/A/a3.htm」を文書群に含むことになり、図8の中央部左に示されている文書群G001が決定される。同様に、文書D002に対しては文書群G002が、文書D003に対しては文書群G003が、文書D004に対しては文書群G004が、文書D005に対しては文書群G005が、文書D006に対しては文書群G006が、決定される。
そして、これらの文書群は、図8の下部に示されている文書群リスト602aに格納する。なお、この文書群リスト602aを用いて、文書群適合度(M1)、文書アクセス容易度(M2)を求める処理などの第1の実施形態と同様の処理が続行される。また、文書アクセス容易度(M2)を求める処理においては、ヒット文書からリンクで関連付けられた文書のうち、その文書が属する文書群内にある文書の数を文書アクセス容易度(M2)としてもよいし、ヒット文書からリンクで関連付けられたヒット文書のうち、その文書が属する文書群内にあるヒット文書の数を文書アクセス容易度(M2)としてもよい。あるいは、ヒット文書からリンクで関連付けられた文書のうち、その文書が属する文書群内にある文書の数に対するその文書が属する文書群内にあるヒット文書の数の割合を文書アクセス容易度(M2)としてもよい。
なお、図8の例では、経由回数(L)を1としているが、経由回数(L)を増加した場合には、文書群に含まれる文書は一般的には増加する傾向を示す。ただし、図8の中心部および下部に示されている例では、リンクの記載例が少ないので、文書群に含まれる文書の数は増えない。例えば、文書群G005において、URLとしては「/B/b3.htm」で示される文書D006からURLとしては「/B/b2.htm」で示される文書D005へとリンクを辿ることができるが、このリンクは、元の文書に戻っているだけなので、文書群G005に含まれる文書の数は増えないことになる。
この第2の実施形態によれば、検索でヒットした文書が適切なディレクトリによって分類されていない場合でも、第1の実施形態と同様に、単一の文書としての情報提示だけではなく、リンクによって関連付けられた文書群およびヒットした該文書のリンク先の文書を用いて、検索者が求めている情報をより多く含む文書に対する高精度な検索結果を提示することができる。
<<その他の実施形態>>
本発明においては、第1の実施形態および第2の実施形態以外にも、多くの実施形態が可能である。以下では、その他の実施形態の例を挙げて説明する。
[文書群外へのリンクも処理対象とする実施形態例]
第1の実施形態および第2の実施形態においては、文書群の中にある文書は対象とするが、文書群の外にある文書については対象とせずに、文書アクセス容易度(M2)を求めている。しかし、文書群の中にある文書に加えて文書群の外にある文書も対象にすることもできる。図9は、リンク先文書が文書群に含まれる場合と含まれない場合で重みを付けて文書アクセス容易度(M2)を求める処理を説明する図である。ここでは、文書適合度(M1)は第1の実施形態と同じであり、文書アクセス容易度(M2)を求める処理以外の処理や装置構成なども、第1の実施形態と同じとする。
図9に示すように、リンク先文書が文書群に含まれる場合と含まれない場合で重みを付けて文書アクセス容易度(M2)を求める処理では、まず、リンク先文書が文書群に含まれる場合の重みW1とリンク先文書が文書群に含まれない場合の重みW2を取得する(S700)。
そして、対象とする文書群に含まれる全てのヒット文書に対して、以下のステップS720からステップS732までの処理を繰り返す(S710)。
ステップS720では、まず、該ヒット文書のリンク先文書のURLを取得する。そして、取得したリンク先文書のURLが該文書群に含まれるか否かを判定する(S720)。この判定の結果、取得したリンク先文書が該文書群に含まれる場合(S730の「文書群に含まれる場合」)、該文書群に含まれるリンク先文書の数N1を計数する(S731)。取得したリンク先文書が該文書群に含まれない場合(S730の「文書群に含まれない場合」)、該文書群に含まれないリンク先文書の数N2を計数する(S732)。そして、ここまでの処理をステップS710で対象となったヒット文書全てについて処理が終了するまで、ステップS720からステップS732までの処理を繰り返す。
最後に、リンク先文書が文書群に含まれる場合の重みW1およびリンク先文書が文書群に含まれない場合の重みW2と、該文書群に含まれるリンク先文書の数N1および該文書に含まれないリンク先文書の数N2を用いて文書アクセス容易度(M2)を算出して(S740)、処理を終了する。このとき、例えば、以下に示す式(1)によって、文書アクセス容易度(M2)を求めることができる。
M2=W1*N1+W2*N2 式(1)
なお、文書アクセス容易度(M2)を求める式は、この例に限定されず、様々な計算方法を用いた式を定義することができる。
このような文書アクセス容易度(M2)の計算を行う場合には、リンク先の文書がヒット文書であるか否か、あるいは、リンク先の文書が文書群内に存在するか否かを評価することができるようになるため、文書アクセス容易度(M2)をより高精度に算出できるようになる。
[検索結果の表示例]
図10は、文書検索装置10において検索を行った結果を示す画面の例である。例えば、図1のディスプレイ100やネットワーク106を介して接続した端末装置(図示せず)に画面1000が表示される。この例では、「自動車A」という単語を用いて検索を行い、その結果として、符号1010によって示されている文書群Bと符号1020によって示されている文書群Aの2つの文書群が示されている。
この例においては、文書群Bは文書群適合度が3であり、文書群Aは文書群適合度が1であるので、文書群適合度が高い文書群Bから先に表示している。そして、文書群Bに含まれる複数の文書については、文書アクセス容易度が高いものから表示されている。この例においては、符号1011で示されている文書は文書アクセス容易度が2であり、符号1012で示されている文書は文書アクセス容易度が1であり、符号1013で示されている文書は文書アクセス容易度が0であるので、最初に符号1011で示されている文書、次に符号1012で示されている文書、最後に符号1013で示されている文書の順に示されている。文書群Aには、符号1021で示されている文書の1件しかないが、複数の文献が含まれている場合には、文書群Bと同様に文書アクセス容易度が高いものから表示される。
この例では、まず、文書群適合度に従って文書群を降順に並べ、さらに、各文書群に含まれる文書を文書アクセス容易度に従って降順に並べているが、文書を表示する順序はこの例に限定されない。例えば、文書群適合度(M1)と文書アクセス容易度(M2)を用いて文書の重要度を算出し、該重要度の降順にヒット文書を出力するものとしてよい。また、前記の文書群適合度(M1)と文書アクセス容易度(M2)の他に、文書の更新日時などの書誌情報も加味して算出した文書の重要度の降順に出力するものとしてもよい。この場合には、文書群適合度(M1)、文書アクセス容易度(M2)および別途追加した指標で文書を評価することができ、ヒット文書の重要度を詳細に算出することができるようになる。その結果として、検索者は所望する情報を検索結果から効率良く取得できるようになる。
なお、ここまでに説明した実施形態では、登録対象文書は、HTML形式で記述されているものを用いて説明を行ったが、メールソフトやワープロソフトなどのアプリケーションソフトを用いて作成された文書であっても構わず、形式は限定されない。また、リンクもURLの指定によるリンクに限定されず、例えば、文書中でリンク先の文書IDを記述する方法であってもよい。
ここまで説明したように、本発明によれば、検索者の所望する情報が複数の話題から構成されており、それぞれの話題が異なる文書に記載されている場合であっても、所望する情報に関する話題が多く含まれた文書群を検索した上で、それらの話題へ関連度の高い文書を取得することにより、所望する情報に関する多くの話題を取得できるようになる。結果として、本発明の文書検索装置は、検索者の負担を軽減することができる。
なお、本発明の実施形態は、本発明の趣旨を逸脱しない範囲で変更することが可能である。例えば、文書検索装置10を1台の計算機で構成するのではなく、複数の計算機によって構成し、これらの計算機の協調的な処理によって本発明の処理を実行してもよい。また、本発明の各実施形態は、計算機の演算手段を用いてプログラムを実行することで実現されており、このプログラムを記録した記憶媒体から計算機に読み込むことで稼動可能な装置を構成することができる。
文書検索装置の第一の実施形態における全体構成を示す図である。 第一の実施形態におけるシステム制御処理部の処理手順を説明するPAD図である。 第一の実施形態における登録制御処理部の処理手順を説明するPAD図である。 第一の実施形態におけるHTML文書の登録処理の流れの具体例を説明する図である。 第一の実施形態における検索制御処理部の処理手順を説明するPAD図である。 第一の実施形態における検索処理の流れの具体例を説明する図である。 第2の実施形態における文書群決定の処理を説明する図である。 第2の実施形態における文書群決定の具体例を説明する図である。 リンク先文書が文書群に含まれる場合と含まれない場合で重みを付けて文書アクセス容易度(M2)を求める処理を説明する図である。 文書検索装置において検索を行った結果を示す画面の例である。
符号の説明
100 ディスプレイ
101 キーボード
102 中央演算処理装置(CPU)
103 磁気ディスク装置
104 主メモリ
105 バス
106 ネットワーク
110 システム制御処理部
120 登録制御処理部
121 登録文書解析処理部
122 文書情報取得処理部
130 検索制御処理部
131 ヒット文書取得処理部
132 文書群決定処理部
133 文書群適合度算出処理部
134 文書アクセス度算出処理部
135 検索結果出力処理部
140 登録文書管理テーブル
150 ワークエリア

Claims (14)

  1. 計算機が、与えられたキーワードを含むヒット文書を検索する手段と、前記ヒット文書を含む文書群を決定する手段と、前記文書群に関する尺度である文書群適合度を算出する手段と、前記ヒット文書から検索者の所望する文書への辿りやすさに関する尺度である文書アクセス容易度を算出する手段と、検索結果を出力する手段を備えて実行する文書検索方法であって、
    前記ヒット文書を検索する手段が検索時に与えられたキーワードを含むヒット文書を検索し、ヒット文書のリストに検索されたヒット文書を記録するステップと、
    前記文書群を決定する手段が前記ヒット文書と同じURLのディレクトリに含まれる文書の集合を前記文書群と決定するステップと、
    前記文書群適合度を算出する手段が前記文書群を含むURLのディレクトリに含まれるサブディレクトリの中からヒット文書を含む前記サブディレクトリを計数して文書適合度とするステップと、
    前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップと、
    前記検索結果を出力する手段が、前記文書群適合度を第1ソートキーとし、前記文書群を文書群適合度の高い順に出力し、さらに、前記文書アクセス容易度を第2ソートキーとし、前記出力された文書群のそれぞれについて、文書アクセス容易度の高い順に当該文書群に含まれる前記ヒット文書を出力するステップを備えること
    を特徴とする文書検索方法。
  2. 前記計算機が、登録する文書を解析する手段と、前記文書をデータベースに登録する手段とをさらに備えて、
    前記登録する文書を解析する手段が前記文書に含まれるテキストを取得するステップと、
    前記データベースに登録する手段が前記文書を前記テキストと関連付けて検索対象となる文書を登録するステップとをさらに備えること
    を特徴とする請求項1に記載の文書検索方法。
  3. 前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップにおいて、
    前記ヒット文書からリンクを所定の回数辿って到達できる文書を計数して文書アクセス容易度とすること
    を特徴とする請求項1または請求項2に記載の文書検索方法。
  4. 前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップにおいて、
    前記ヒット文書からリンクを所定の回数辿って到達できる文書に対して、前記文書群に含まれる文書の数および前記文書群に含まれない文書の数を計数し、
    前記文書群に含まれる文書の数および前記文書群に含まれない文書の数から所定の計算式により文書アクセス容易度を算出すること
    を特徴とする請求項1または請求項2に記載の文書検索方法。
  5. 前記登録する文書を解析する手段が前記文書に含まれるキーワードを解析するステップにおいて、
    前記登録する文書から格納位置情報を取得し、
    前記文書をデータベースに登録する手段が検索対象となる文書を登録するステップにおいて、
    前記格納位置情報をデータベースに登録すること
    を特徴とする請求項2に記載の文書検索方法。
  6. 前記検索結果を出力する手段が前記文書群適合度および前記文書アクセス容易度に基づいた重要度の順に文書を出力するステップにおいて、
    前記文書群適合度に応じて降順で文書を分類し、分類された前記文書の集合ごとに前記文書アクセス容易度に応じて降順で出力すること
    を特徴とする請求項に記載の文書検索方法。
  7. 計算機が、
    検索時に与えられたキーワードを含むヒット文書を検索し、ヒット文書のリストに検索されたヒット文書を記録する前記ヒット文書を検索する手段と、
    前記ヒット文書と同じURLのディレクトリに含まれる文書の集合を文書群と決定する手段と、
    前記文書群を含むURLのディレクトリに含まれるサブディレクトリの中からヒット文書を含むサブディレクトリを計数して文書群適合度とする前記文書群適合度を算出する手段と、
    前記ヒット文書のリストを元に文書アクセス容易度を算出する前記文書アクセス容易度を算出する手段と、
    前記文書群適合度を第1ソートキーとし、前記文書群を文書群適合度の高い順に出力し、さらに、前記文書アクセス容易度を第2ソートキーとし、前記出力された文書群のそれぞれについて、文書アクセス容易度の高い順に当該文書群に含まれる前記ヒット文書を出力する前記検索結果を出力する手段を備えること
    を特徴とする文書検索装置。
  8. 前記計算機が、
    前記文書に含まれるテキストの取得を行う前記登録する文書を解析する手段と、
    検索対象となる文書の登録を行う前記文書を前記テキストと関連付けてデータベースに登録する手段とをさらに備えること
    を特徴とする請求項に記載の文書検索装置。
  9. 前記文書アクセス容易度を算出する手段が前記ヒット文書からリンクを所定の回数辿って到達できる文書を計数して文書アクセス容易度とすること
    を特徴とする請求項または請求項に記載の文書検索装置。
  10. 前記文書アクセス容易度を算出する手段が前記ヒット文書からリンクを所定の回数辿って到達できる文書に対して、前記文書群に含まれる文書の数および前記文書群に含まれない文書の数を計数し、
    前記文書群に含まれる文書の数および前記文書群に含まれない文書の数から所定の計算式により文書アクセス容易度を計算すること
    を特徴とする請求項または請求項に記載の文書検索装置。
  11. 前記登録する文書を解析する手段が前記登録する文書から格納位置情報を取得し、
    前記文書をデータベースに登録する手段が前記格納位置情報をデータベースに登録すること
    を特徴とする請求項に記載の文書検索装置。
  12. 前記検索結果を出力する手段が前記文書群適合度に応じて降順で文書を分類し、分類された前記文書の集合ごとに前記文書アクセス容易度に応じて降順で出力すること
    を特徴とする請求項に記載の文書検索装置。
  13. 計算機が、与えられたキーワードを含むヒット文書を検索する手段と、前記ヒット文書を含む文書群を決定する手段と、前記文書群に関する尺度である文書群適合度を算出する手段と、前記ヒット文書から検索者の所望する文書への辿りやすさに関する尺度である文書アクセス容易度を算出する手段と、検索結果を出力する手段とを備えて実行する文書検索プログラムを記録した記憶媒体であって、
    前記ヒット文書を検索する手段が検索時に与えられたキーワードを含むヒット文書を検索し、ヒット文書のリストに検索されたヒット文書を記録するステップと、
    前記文書群を決定する手段が前記ヒット文書と同じURLのディレクトリに含まれる文書の集合を前記文書群と決定するステップと、
    前記文書群適合度を算出する手段が前記文書群を含むURLのディレクトリに含まれるサブディレクトリの中からヒット文書を含む前記サブディレクトリを計数して文書群適合度とするステップと、
    前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップと、
    前記検索結果を出力する手段が、前記文書群適合度を第1ソートキーとし、前記文書群を文書群適合度の高い順に出力し、さらに、前記文書アクセス容易度を第2ソートキーとし、前記出力された文書群のそれぞれについて、文書アクセス容易度の高い順に当該文書群に含まれる前記ヒット文書を出力するステップを備えること
    を特徴とする文書検索プログラムを記録した記憶媒体。
  14. 前記計算機が、登録する文書を解析する手段と、文書をデータベースに登録する手段をさらに備えて、
    前記登録する文書を解析する手段が前記文書に含まれるテキストを取得するステップと、
    前記文書をデータベースに登録する手段が検索対象となる文書を前記テキストと関連付けてデータベースに登録するステップをさらに実行すること
    を特徴とする請求項13に記載の文書検索プログラムを記録した記憶媒体。
JP2005048848A 2005-02-24 2005-02-24 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 Expired - Fee Related JP4634821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005048848A JP4634821B2 (ja) 2005-02-24 2005-02-24 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005048848A JP4634821B2 (ja) 2005-02-24 2005-02-24 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体

Publications (2)

Publication Number Publication Date
JP2006235928A JP2006235928A (ja) 2006-09-07
JP4634821B2 true JP4634821B2 (ja) 2011-02-16

Family

ID=37043514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005048848A Expired - Fee Related JP4634821B2 (ja) 2005-02-24 2005-02-24 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体

Country Status (1)

Country Link
JP (1) JP4634821B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7955736B2 (en) 2004-06-23 2011-06-07 Samsung Sdi Co., Ltd. Secondary battery

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4830981B2 (ja) * 2007-06-13 2011-12-07 富士ゼロックス株式会社 会議環境管理装置、会議環境管理システム及び会議室選択方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242647A (ja) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2001229329A (ja) * 2000-02-15 2001-08-24 Canon Inc 取引実績情報提供システム、取引実績情報提供方法及び記録媒体
WO2003079229A1 (fr) * 2002-03-15 2003-09-25 Fujitsu Limited Procédé et dispositif de recherche d'informations de régions
JP2004164290A (ja) * 2002-11-13 2004-06-10 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP2004213347A (ja) * 2002-12-27 2004-07-29 Canon Sales Co Inc データベース検索クエリー生成方法、データベース検索方法、データベース検索装置、プログラム及び記録媒体
JP2005018454A (ja) * 2003-06-26 2005-01-20 Fujitsu Ltd テーブル出力プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242647A (ja) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2001229329A (ja) * 2000-02-15 2001-08-24 Canon Inc 取引実績情報提供システム、取引実績情報提供方法及び記録媒体
WO2003079229A1 (fr) * 2002-03-15 2003-09-25 Fujitsu Limited Procédé et dispositif de recherche d'informations de régions
JP2004164290A (ja) * 2002-11-13 2004-06-10 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP2004213347A (ja) * 2002-12-27 2004-07-29 Canon Sales Co Inc データベース検索クエリー生成方法、データベース検索方法、データベース検索装置、プログラム及び記録媒体
JP2005018454A (ja) * 2003-06-26 2005-01-20 Fujitsu Ltd テーブル出力プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7955736B2 (en) 2004-06-23 2011-06-07 Samsung Sdi Co., Ltd. Secondary battery

Also Published As

Publication number Publication date
JP2006235928A (ja) 2006-09-07

Similar Documents

Publication Publication Date Title
JP3717808B2 (ja) 情報検索システム
JP5632124B2 (ja) 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム
JP4633162B2 (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
Wöber Domain specific search engines
JP5318125B2 (ja) 複合検索用のシステムと方法
JP3895955B2 (ja) 情報検索方法および情報検索システム
EP2367121A1 (en) Search system, search method, and program
JP2008533596A (ja) 検索結果の関連性の再ランク付けおよびその増強
JP5040396B2 (ja) Webページ検索プログラム、方法、及び装置
JPH11224256A (ja) 情報検索方法および情報検索プログラムを記録した記録媒体
JP4324650B2 (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
JP5266975B2 (ja) 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP4634821B2 (ja) 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体
JP2004280569A (ja) 情報監視装置
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
KR100445943B1 (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
JP5396845B2 (ja) 文書群検出方法及び文書群検出装置
JP5286007B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2003271648A (ja) 検索装置、検索方法、ならびに、プログラム
JP2001014326A (ja) 構造指定による類似文書の検索装置及び検索方法
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
JP2010122932A (ja) 文書検索装置、文書検索方法、および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101119

R150 Certificate of patent or registration of utility model

Ref document number: 4634821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees