JP2011048718A - 情報検索装置、情報検索プログラム - Google Patents
情報検索装置、情報検索プログラム Download PDFInfo
- Publication number
- JP2011048718A JP2011048718A JP2009197659A JP2009197659A JP2011048718A JP 2011048718 A JP2011048718 A JP 2011048718A JP 2009197659 A JP2009197659 A JP 2009197659A JP 2009197659 A JP2009197659 A JP 2009197659A JP 2011048718 A JP2011048718 A JP 2011048718A
- Authority
- JP
- Japan
- Prior art keywords
- document
- citation
- information
- index
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】引用情報抽出機能部3は、Web文書間の引用情報(Web文書のURL、引用部分を含む。)を抽出する。インデックス機能部4は、Web文書を全文検索用の単位に分割して文書インデックスに格納する際に引用情報を反映させる。引用情報の反映は、文書インデックスにWeb文書番号と引用部分に含まれる単語やフレーズなどの重みを格納する。作成された文書インデックスは、文書インデックスDB5に保存される。キーワード一致度計算部7は、検索キーワードをもって文書インデックスDB5を参照し、検索キーワードとの一致度を算出する。総合ランキング計算部8は、検索キーワードとの一致度と文書重要度テーブル6の文書重要度とを総合して検索結果の出力順を決定する。
【選択図】図1
Description
図1に基づき前記情報検索装置の詳細を説明する。ここでは前記情報検索装置1は、ユーザ所有の情報検索端末2とインターネットを通じてデータの送受信が可能に接続されている。
前記引用情報抽出機能3は、検索対象のWeb文書11.12から引用情報を抽出する。ここでは一例としてWeb文書11は、Web文書12中のフレーズ「犬には玉葱は毒なので、エサに入れないように注意してください。」を引用しているものとする。
前記インデックス機能部4は、Web文書を単語、n−gram、サフィックスアレイといった全文検索用の単位に分割して文書インデックスを作成し、これを前記文書インデックスDB5に保存する。なお、作成する文書インデックスの形式は上記の他いかなる形式であってもよいものとする。
前記キーワード一致度計算部7は、前記情報検索端末2から検索キーワードを指定した検索要求を受信後に、検索キーワードを用いて前記文書インデックスDB5を参照し、検索キーワードを含むWeb文書をリストアップする。ここでリストアップされた各Web文書の検索キーワードとの一致度を非特許文献1のBM25、BM25F、tf・idfなどの方法で算出する。このとき文書インデックスに格納された重みを変数として加えて、前記キーワード一致度を算出する。
前記情報検索装置1は、図2に示すように、前記抽出機能部3の抽出した引用情報に基づき検索対象Web文書間の関係(リンク)を判定する文書間関係判定機能部9を追加してもよい。
(http://hoge.hoge.com/hoge/hoge.html,http://fuga.fuga.com/fuga/fuga.html,引用開始位置, 引用終了位置)
・2番目の引用情報
(http://hoge.hoge.com/hoge/hoge.html,http://fuga.hoge.com/fuga/fuga.html,引用開始位置, 引用終了位置)
・3番目の引用情報
(http://hoge.hoge.com/hoge/hoge.html,http://hoge.hoge.com/fuga/fuga.html,引用開始位置, 引用終了位置)
・4番目の引用情報
(http://hoge.hoge.com/hoge/hoge.html,http://hoge.hoge.com/hoge/fuga.html,引用開始位置, 引用終了位置)
ここでは引用しているWeb文書と引用されているWeb文書の関係(深度)を重みとして反映させることができる。例えば1番目の引用情報は全く異なるドメインによる引用であるので重みを「1」に設定し、2番目の引用情報は同一ドメインの別ホストによる引用であるので重みを「0.5」に設定し、3番目の引用情報は同一ホスト内の異なるディレクトリ間での引用であるので重みを「0.1」に設定し、4番目の引用情報は同一ホストの同一ディレクトリ内の引用であるので重みを「0.05」に設定可能である。
本発明は、前記各実施形態に限定されるものではなく、例えばWeb文書の重要度やWeb文書間の関係(リンク)を反映させることなく、単語を含む部分を引用している他のWeb文書数のみを単語の重みとすることもできる。この場合には単語の重みは、「Web文書内における単語の出現回数×単語を含む部分を引用している他のWeb文書数」として算出される。同様に単語を含む部分を引用している他のWeb文書数とWeb文書間の関係(リンク)とを単語の重みとすることも可能である。
2…情報検索端末(ユーザ端末)
3…引用情報抽出機能部(引用情報抽出手段)
4…インデックス機能部(インデックス手段)
5…文書インデックスDB
6…文書重要度テーブル
7…キーワード一致度計算部
8…総合ランキング計算部
9…文書間関係判定機能部(文書間関係判定手段)
11.12…Web文書
Claims (5)
- ユーザ端末から指示された検索キーワードを用いて電子文書群を検索する際に、各電子文書を任意の単位に分割した文書インデックスを参照して前記検索キーワードとの一致度を算出する装置であって、
あらかじめ検索対象の電子文書間における引用情報を抽出しておく引用情報抽出手段と、該引用情報抽出手段の抽出した引用情報に基づき各電子文書の前記文書インデックスの分割単位ごとに重みを付与するインデックス手段と、を備え、
前記検索キーワードとの一致度を、前記インデックス手段の付与した前記分割単位ごとの重みを加味して算出することを特徴とする情報検索装置。 - 前記インデックス手段は、前記引用情報に示された被引用部分中の前記各分割単位に対する引用回数を、
引用元の電子文書の前記重みに反映させることを特徴とする請求項1記載の情報検索装置。 - 前記インデックス手段は、電子文書毎に重要度を記録した文書重要度テーブルを参照して、
前記引用情報に示された引用先の電子文書に対する重要度を取得し、該重要度を引用元の電子文書の前記重みに反映させる
ことを特徴とする請求項1または2のいずれか1項に記載の情報検索装置。 - 前記引用情報抽出手段の抽出した引用情報に基づき電子文書間の関係の深度を判定する文書間関係判定手段をさらに備え、
前記インデックス手段は、前記文書間関係判定手段の判定した深度を引用元の電子文書の前記重みに反映させる
ことを特徴とする請求項1〜3のいずれか1項に記載の情報検索装置。 - 請求項1〜4のいずれか1項に記載の情報検索装置を構成する各手段として、コンピュータを機能させる情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009197659A JP5261326B2 (ja) | 2009-08-28 | 2009-08-28 | 情報検索装置、情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009197659A JP5261326B2 (ja) | 2009-08-28 | 2009-08-28 | 情報検索装置、情報検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011048718A true JP2011048718A (ja) | 2011-03-10 |
JP5261326B2 JP5261326B2 (ja) | 2013-08-14 |
Family
ID=43834945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009197659A Expired - Fee Related JP5261326B2 (ja) | 2009-08-28 | 2009-08-28 | 情報検索装置、情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5261326B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5522598B1 (ja) * | 2013-08-05 | 2014-06-18 | 求 藤川 | 情報管理システム、情報管理プログラム、情報管理方法、情報管理装置、記録媒体 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09293077A (ja) * | 1996-04-17 | 1997-11-11 | Internatl Business Mach Corp <Ibm> | 情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体 |
JPH1125108A (ja) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム |
JP2001290843A (ja) * | 2000-02-04 | 2001-10-19 | Fujitsu Ltd | 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体 |
JP2006155556A (ja) * | 2004-10-27 | 2006-06-15 | Hitachi Software Eng Co Ltd | テキストマイニング方法及びテキストマイニングサーバ |
JP2007188134A (ja) * | 2006-01-11 | 2007-07-26 | Yafoo Japan Corp | 索引ファイルを用いた文書検索の方法 |
JP2008176721A (ja) * | 2007-01-22 | 2008-07-31 | Internatl Business Mach Corp <Ibm> | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 |
JP2009505292A (ja) * | 2005-08-15 | 2009-02-05 | マイクロソフト コーポレーション | ネットワーク上の文書のバイアスクリック距離を使用するランキング関数 |
JP2009086944A (ja) * | 2007-09-28 | 2009-04-23 | Fuji Xerox Co Ltd | 情報処理装置および情報処理プログラム |
-
2009
- 2009-08-28 JP JP2009197659A patent/JP5261326B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09293077A (ja) * | 1996-04-17 | 1997-11-11 | Internatl Business Mach Corp <Ibm> | 情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体 |
JPH1125108A (ja) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム |
JP2001290843A (ja) * | 2000-02-04 | 2001-10-19 | Fujitsu Ltd | 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体 |
JP2006155556A (ja) * | 2004-10-27 | 2006-06-15 | Hitachi Software Eng Co Ltd | テキストマイニング方法及びテキストマイニングサーバ |
JP2009505292A (ja) * | 2005-08-15 | 2009-02-05 | マイクロソフト コーポレーション | ネットワーク上の文書のバイアスクリック距離を使用するランキング関数 |
JP2007188134A (ja) * | 2006-01-11 | 2007-07-26 | Yafoo Japan Corp | 索引ファイルを用いた文書検索の方法 |
JP2008176721A (ja) * | 2007-01-22 | 2008-07-31 | Internatl Business Mach Corp <Ibm> | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 |
JP2009086944A (ja) * | 2007-09-28 | 2009-04-23 | Fuji Xerox Co Ltd | 情報処理装置および情報処理プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5522598B1 (ja) * | 2013-08-05 | 2014-06-18 | 求 藤川 | 情報管理システム、情報管理プログラム、情報管理方法、情報管理装置、記録媒体 |
JP2015052811A (ja) * | 2013-08-05 | 2015-03-19 | 求 藤川 | 情報管理システム、情報管理プログラム、情報管理方法、情報管理装置、記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP5261326B2 (ja) | 2013-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8745039B2 (en) | Method and system for user guided search navigation | |
CN102542052B (zh) | 优先散列索引 | |
KR101311050B1 (ko) | 문서 사용 통계치를 사용한 랭킹 함수 | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
AU2007324329B2 (en) | Annotation index system and method | |
US20110196861A1 (en) | Propagating Information Among Web Pages | |
US7809736B2 (en) | Importance ranking for a hierarchical collection of objects | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
JP2008071259A (ja) | ブックマーク・タグ設定装置 | |
KR20080073289A (ko) | 계층 구조 기반의 문서의 기여도의 전달 | |
Chowdhary et al. | Study of web page ranking algorithms: a review | |
Gurrin et al. | Replicating web structure in small-scale test collections | |
JP4824070B2 (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
JP2010123036A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5261326B2 (ja) | 情報検索装置、情報検索プログラム | |
JP5286007B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
KR101180371B1 (ko) | 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템 | |
JP2011170583A (ja) | 情報検索装置、情報検索方法、情報検索プログラム | |
JP5384884B2 (ja) | 情報検索装置および情報検索プログラム | |
JP2011128669A (ja) | 情報検索装置および情報検索プログラム | |
JP2011192029A (ja) | 情報検索装置及び方法及びプログラム | |
Inkpen | Information retrieval on the internet | |
Gurrin et al. | Dublin City University experiments in connectivity analysis for TREC-9. | |
US20110022591A1 (en) | Pre-computed ranking using proximity terms | |
Praba et al. | Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130426 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160502 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5261326 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |