JP4634821B2 - 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 - Google Patents
文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 Download PDFInfo
- Publication number
- JP4634821B2 JP4634821B2 JP2005048848A JP2005048848A JP4634821B2 JP 4634821 B2 JP4634821 B2 JP 4634821B2 JP 2005048848 A JP2005048848 A JP 2005048848A JP 2005048848 A JP2005048848 A JP 2005048848A JP 4634821 B2 JP4634821 B2 JP 4634821B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- hit
- group
- documents
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
なお、本発明においては、後記する文書群の決定方法に応じて複数の実施形態がある。そのうち、ディレクトリを利用して文書群を決定する実施形態を第1の実施形態とし、リンクを利用して文書群を決定する実施形態を第2の実施形態として、それぞれについて説明する。
第1の実施形態は、本発明の基本的な実施形態である。ここでは、まず、第1の実施形態の文書検索装置の構成を説明し、その後、各部についての処理内容を説明する。
図1は第1の実施形態の装置構成を説明する図である。図1に示されているように、文書検索装置10は、ディスプレイ100、キーボード101、CPU(Central Processing Unit、中央演算処理装置)102、磁気ディスク装置103、主メモリ104、これらを結ぶバス105および他の機器と本システムを接続するネットワーク106から構成される。
なお、これらは、それぞれ機能を実現するためのプログラムを主メモリ104に読み込むことで実現される。
以下、本実施形態における文書検索装置10の処理手順を説明する。文書検索装置10における処理は、システム制御処理部110によって実行される。
図2は、システム制御処理部の処理手順を説明する図である。まず、図2のPAD(Problem Analysis Diagram)図を用いて、システム制御処理部110の処理手順について説明する(適宜図1参照)。
以上が、システム制御処理部110の処理手順である。
図3は、登録制御処理部の処理手順を説明する図である。
ここでは、図2に示したステップS210でシステム制御処理部110により起動される登録制御処理部120の処理手順について、図3のPAD図を用いて説明する。
図4は、HTML(Hyper Text Markup Language)形式で記述された文書D001〜文書D006が登録される場合の処理の流れの具体例を説明する図である。
図5は、検索制御処理部の処理を説明する図である。ここでは、図2に示したステップS220でシステム制御処理部110により起動される検索制御処理部130の処理手順について、図5のPAD図を用いて説明する(適宜図1参照)。
第1の実施形態では、文書適合度(M1)を算出する際に、図5に示したステップS402が実行され、文書群適合度算出処理部133により、文書群に含まれるヒット文書の数を計数するが、このときに文書群を含んでいるディレクトリに含まれるサブディレクトリも考慮する算出方法をとることもできる。
本実施形態で示した検索処理手順では、図5に示したステップS401が実行され、文書群決定処理部132により、文書群を決定する際に、登録文書管理テーブル140に格納された全ての文書に対して、同じディレクトリの下にある文書全ての集合を文書群と決定するものとしたが、ヒット文書リスト601から取得したヒット文書に限定して文書群を切り出してもよい。この場合には、文書群を切り出す対象を登録された全文書数から、ヒット文書数に限定することができるため、処理時間を短縮することができる。
第1の実施形態においては、文書群をディレクトリによって特定するが、この文書群を決定するための適切なディレクトリがない場合がある。このような場合には、ディレクトリを用いずに他の方法で文書群を形成することができる。第2の実施形態では、第1の実施形態とは異なる文書群の決定方法を用いて、ディレクトリではなくリンクを辿ることによって文書群を決定する。ただし、文書群の決定以外の処理および装置の構成などは、第1の実施形態と同じである。
これ以降の処理は、第1の実施形態と同じなので説明を省略する。
本発明においては、第1の実施形態および第2の実施形態以外にも、多くの実施形態が可能である。以下では、その他の実施形態の例を挙げて説明する。
第1の実施形態および第2の実施形態においては、文書群の中にある文書は対象とするが、文書群の外にある文書については対象とせずに、文書アクセス容易度(M2)を求めている。しかし、文書群の中にある文書に加えて文書群の外にある文書も対象にすることもできる。図9は、リンク先文書が文書群に含まれる場合と含まれない場合で重みを付けて文書アクセス容易度(M2)を求める処理を説明する図である。ここでは、文書適合度(M1)は第1の実施形態と同じであり、文書アクセス容易度(M2)を求める処理以外の処理や装置構成なども、第1の実施形態と同じとする。
M2=W1*N1+W2*N2 式(1)
なお、文書アクセス容易度(M2)を求める式は、この例に限定されず、様々な計算方法を用いた式を定義することができる。
図10は、文書検索装置10において検索を行った結果を示す画面の例である。例えば、図1のディスプレイ100やネットワーク106を介して接続した端末装置(図示せず)に画面1000が表示される。この例では、「自動車A」という単語を用いて検索を行い、その結果として、符号1010によって示されている文書群Bと符号1020によって示されている文書群Aの2つの文書群が示されている。
101 キーボード
102 中央演算処理装置(CPU)
103 磁気ディスク装置
104 主メモリ
105 バス
106 ネットワーク
110 システム制御処理部
120 登録制御処理部
121 登録文書解析処理部
122 文書情報取得処理部
130 検索制御処理部
131 ヒット文書取得処理部
132 文書群決定処理部
133 文書群適合度算出処理部
134 文書アクセス度算出処理部
135 検索結果出力処理部
140 登録文書管理テーブル
150 ワークエリア
Claims (14)
- 計算機が、与えられたキーワードを含むヒット文書を検索する手段と、前記ヒット文書を含む文書群を決定する手段と、前記文書群に関する尺度である文書群適合度を算出する手段と、前記ヒット文書から検索者の所望する文書への辿りやすさに関する尺度である文書アクセス容易度を算出する手段と、検索結果を出力する手段を備えて実行する文書検索方法であって、
前記ヒット文書を検索する手段が検索時に与えられたキーワードを含むヒット文書を検索し、ヒット文書のリストに検索されたヒット文書を記録するステップと、
前記文書群を決定する手段が前記ヒット文書と同じURLのディレクトリに含まれる文書の集合を前記文書群と決定するステップと、
前記文書群適合度を算出する手段が前記文書群を含むURLのディレクトリに含まれるサブディレクトリの中からヒット文書を含む前記サブディレクトリを計数して文書適合度とするステップと、
前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップと、
前記検索結果を出力する手段が、前記文書群適合度を第1ソートキーとし、前記文書群を文書群適合度の高い順に出力し、さらに、前記文書アクセス容易度を第2ソートキーとし、前記出力された文書群のそれぞれについて、文書アクセス容易度の高い順に当該文書群に含まれる前記ヒット文書を出力するステップを備えること
を特徴とする文書検索方法。 - 前記計算機が、登録する文書を解析する手段と、前記文書をデータベースに登録する手段とをさらに備えて、
前記登録する文書を解析する手段が前記文書に含まれるテキストを取得するステップと、
前記データベースに登録する手段が前記文書を前記テキストと関連付けて検索対象となる文書を登録するステップとをさらに備えること
を特徴とする請求項1に記載の文書検索方法。 - 前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップにおいて、
前記ヒット文書からリンクを所定の回数辿って到達できる文書を計数して文書アクセス容易度とすること
を特徴とする請求項1または請求項2に記載の文書検索方法。 - 前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップにおいて、
前記ヒット文書からリンクを所定の回数辿って到達できる文書に対して、前記文書群に含まれる文書の数および前記文書群に含まれない文書の数を計数し、
前記文書群に含まれる文書の数および前記文書群に含まれない文書の数から所定の計算式により文書アクセス容易度を算出すること
を特徴とする請求項1または請求項2に記載の文書検索方法。 - 前記登録する文書を解析する手段が前記文書に含まれるキーワードを解析するステップにおいて、
前記登録する文書から格納位置情報を取得し、
前記文書をデータベースに登録する手段が検索対象となる文書を登録するステップにおいて、
前記格納位置情報をデータベースに登録すること
を特徴とする請求項2に記載の文書検索方法。 - 前記検索結果を出力する手段が前記文書群適合度および前記文書アクセス容易度に基づいた重要度の順に文書を出力するステップにおいて、
前記文書群適合度に応じて降順で文書を分類し、分類された前記文書の集合ごとに前記文書アクセス容易度に応じて降順で出力すること
を特徴とする請求項1に記載の文書検索方法。 - 計算機が、
検索時に与えられたキーワードを含むヒット文書を検索し、ヒット文書のリストに検索されたヒット文書を記録する前記ヒット文書を検索する手段と、
前記ヒット文書と同じURLのディレクトリに含まれる文書の集合を文書群と決定する手段と、
前記文書群を含むURLのディレクトリに含まれるサブディレクトリの中からヒット文書を含むサブディレクトリを計数して文書群適合度とする前記文書群適合度を算出する手段と、
前記ヒット文書のリストを元に文書アクセス容易度を算出する前記文書アクセス容易度を算出する手段と、
前記文書群適合度を第1ソートキーとし、前記文書群を文書群適合度の高い順に出力し、さらに、前記文書アクセス容易度を第2ソートキーとし、前記出力された文書群のそれぞれについて、文書アクセス容易度の高い順に当該文書群に含まれる前記ヒット文書を出力する前記検索結果を出力する手段を備えること
を特徴とする文書検索装置。 - 前記計算機が、
前記文書に含まれるテキストの取得を行う前記登録する文書を解析する手段と、
検索対象となる文書の登録を行う前記文書を前記テキストと関連付けてデータベースに登録する手段とをさらに備えること
を特徴とする請求項7に記載の文書検索装置。 - 前記文書アクセス容易度を算出する手段が前記ヒット文書からリンクを所定の回数辿って到達できる文書を計数して文書アクセス容易度とすること
を特徴とする請求項7または請求項8に記載の文書検索装置。 - 前記文書アクセス容易度を算出する手段が前記ヒット文書からリンクを所定の回数辿って到達できる文書に対して、前記文書群に含まれる文書の数および前記文書群に含まれない文書の数を計数し、
前記文書群に含まれる文書の数および前記文書群に含まれない文書の数から所定の計算式により文書アクセス容易度を計算すること
を特徴とする請求項7または請求項8に記載の文書検索装置。 - 前記登録する文書を解析する手段が前記登録する文書から格納位置情報を取得し、
前記文書をデータベースに登録する手段が前記格納位置情報をデータベースに登録すること
を特徴とする請求項8に記載の文書検索装置。 - 前記検索結果を出力する手段が前記文書群適合度に応じて降順で文書を分類し、分類された前記文書の集合ごとに前記文書アクセス容易度に応じて降順で出力すること
を特徴とする請求項7に記載の文書検索装置。 - 計算機が、与えられたキーワードを含むヒット文書を検索する手段と、前記ヒット文書を含む文書群を決定する手段と、前記文書群に関する尺度である文書群適合度を算出する手段と、前記ヒット文書から検索者の所望する文書への辿りやすさに関する尺度である文書アクセス容易度を算出する手段と、検索結果を出力する手段とを備えて実行する文書検索プログラムを記録した記憶媒体であって、
前記ヒット文書を検索する手段が検索時に与えられたキーワードを含むヒット文書を検索し、ヒット文書のリストに検索されたヒット文書を記録するステップと、
前記文書群を決定する手段が前記ヒット文書と同じURLのディレクトリに含まれる文書の集合を前記文書群と決定するステップと、
前記文書群適合度を算出する手段が前記文書群を含むURLのディレクトリに含まれるサブディレクトリの中からヒット文書を含む前記サブディレクトリを計数して文書群適合度とするステップと、
前記文書アクセス容易度を算出する手段が前記ヒット文書のリストを元に文書アクセス容易度を算出するステップと、
前記検索結果を出力する手段が、前記文書群適合度を第1ソートキーとし、前記文書群を文書群適合度の高い順に出力し、さらに、前記文書アクセス容易度を第2ソートキーとし、前記出力された文書群のそれぞれについて、文書アクセス容易度の高い順に当該文書群に含まれる前記ヒット文書を出力するステップを備えること
を特徴とする文書検索プログラムを記録した記憶媒体。 - 前記計算機が、登録する文書を解析する手段と、文書をデータベースに登録する手段をさらに備えて、
前記登録する文書を解析する手段が前記文書に含まれるテキストを取得するステップと、
前記文書をデータベースに登録する手段が検索対象となる文書を前記テキストと関連付けてデータベースに登録するステップをさらに実行すること
を特徴とする請求項13に記載の文書検索プログラムを記録した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005048848A JP4634821B2 (ja) | 2005-02-24 | 2005-02-24 | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005048848A JP4634821B2 (ja) | 2005-02-24 | 2005-02-24 | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006235928A JP2006235928A (ja) | 2006-09-07 |
JP4634821B2 true JP4634821B2 (ja) | 2011-02-16 |
Family
ID=37043514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005048848A Expired - Fee Related JP4634821B2 (ja) | 2005-02-24 | 2005-02-24 | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4634821B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7955736B2 (en) | 2004-06-23 | 2011-06-07 | Samsung Sdi Co., Ltd. | Secondary battery |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4830981B2 (ja) * | 2007-06-13 | 2011-12-07 | 富士ゼロックス株式会社 | 会議環境管理装置、会議環境管理システム及び会議室選択方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242647A (ja) * | 1999-02-12 | 2000-09-08 | Internatl Business Mach Corp <Ibm> | 関連情報検索方法およびシステム |
JP2001229329A (ja) * | 2000-02-15 | 2001-08-24 | Canon Inc | 取引実績情報提供システム、取引実績情報提供方法及び記録媒体 |
WO2003079229A1 (fr) * | 2002-03-15 | 2003-09-25 | Fujitsu Limited | Procédé et dispositif de recherche d'informations de régions |
JP2004164290A (ja) * | 2002-11-13 | 2004-06-10 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2004213347A (ja) * | 2002-12-27 | 2004-07-29 | Canon Sales Co Inc | データベース検索クエリー生成方法、データベース検索方法、データベース検索装置、プログラム及び記録媒体 |
JP2005018454A (ja) * | 2003-06-26 | 2005-01-20 | Fujitsu Ltd | テーブル出力プログラム |
-
2005
- 2005-02-24 JP JP2005048848A patent/JP4634821B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242647A (ja) * | 1999-02-12 | 2000-09-08 | Internatl Business Mach Corp <Ibm> | 関連情報検索方法およびシステム |
JP2001229329A (ja) * | 2000-02-15 | 2001-08-24 | Canon Inc | 取引実績情報提供システム、取引実績情報提供方法及び記録媒体 |
WO2003079229A1 (fr) * | 2002-03-15 | 2003-09-25 | Fujitsu Limited | Procédé et dispositif de recherche d'informations de régions |
JP2004164290A (ja) * | 2002-11-13 | 2004-06-10 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2004213347A (ja) * | 2002-12-27 | 2004-07-29 | Canon Sales Co Inc | データベース検索クエリー生成方法、データベース検索方法、データベース検索装置、プログラム及び記録媒体 |
JP2005018454A (ja) * | 2003-06-26 | 2005-01-20 | Fujitsu Ltd | テーブル出力プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7955736B2 (en) | 2004-06-23 | 2011-06-07 | Samsung Sdi Co., Ltd. | Secondary battery |
Also Published As
Publication number | Publication date |
---|---|
JP2006235928A (ja) | 2006-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3717808B2 (ja) | 情報検索システム | |
JP5632124B2 (ja) | 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム | |
CN100472522C (zh) | 用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品 | |
JP4633162B2 (ja) | インデックス生成システム、情報検索システム、及びインデックス生成方法 | |
Wöber | Domain-specific search engines. | |
JP5318125B2 (ja) | 複合検索用のシステムと方法 | |
JP3895955B2 (ja) | 情報検索方法および情報検索システム | |
EP2367121A1 (en) | Search system, search method, and program | |
JP5040396B2 (ja) | Webページ検索プログラム、方法、及び装置 | |
JP2007249322A (ja) | 文書視覚化装置及び文書視覚化プログラム | |
JPH11224256A (ja) | 情報検索方法および情報検索プログラムを記録した記録媒体 | |
JP5266975B2 (ja) | 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体 | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2003271609A (ja) | 情報監視装置及び情報監視方法 | |
JP4324650B2 (ja) | 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム | |
JP4634821B2 (ja) | 文書検索方法、文書検索装置および文書検索プログラムを記録した記憶媒体 | |
JP2004280569A (ja) | 情報監視装置 | |
JP2001188802A (ja) | 情報検索装置及び情報検索方法 | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
KR100445943B1 (ko) | 근접 검색식을 이용한 정보 검색 시스템 및 방법 | |
JP5396845B2 (ja) | 文書群検出方法及び文書群検出装置 | |
JP2001014326A (ja) | 構造指定による類似文書の検索装置及び検索方法 | |
JP2010072909A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2010282403A (ja) | 文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101116 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4634821 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |