JP2008117407A - 有損失インデックス圧縮装置 - Google Patents
有損失インデックス圧縮装置 Download PDFInfo
- Publication number
- JP2008117407A JP2008117407A JP2007303708A JP2007303708A JP2008117407A JP 2008117407 A JP2008117407 A JP 2008117407A JP 2007303708 A JP2007303708 A JP 2007303708A JP 2007303708 A JP2007303708 A JP 2007303708A JP 2008117407 A JP2008117407 A JP 2008117407A
- Authority
- JP
- Japan
- Prior art keywords
- index
- document
- ranking
- documents
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】 この方法は、インデックスにおけるポスティングをランク付けするステップ(50)及びそのランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップ(48)を含む。所与のレベルは、ユーザから受け取ったパラメータ及びランキングに基づいて、プルーニング前の逆インデックスを使用して戻される結果の上位と、プルーニング後の逆インデックスを使用して戻される結果の上位とが類似するように設定される。
【選択図】 図2
Description
Maarek及びSmadja、「Full text indexing based on lexical relations, an application: Software libraries」、Proceedings of the Twelfth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval、1989年、198-206頁 Salton及びMcGill、「An Introduction to Modern Information Retrieval」、McGraw-Hill SHA、1983年 Chris Buckley、外、「New retreival approaches using SMART:TREC 4」、Proceedings of the Fourth Text Retrieval Conference(TRE-4)、1995年、25-48頁 「Overview of the Seventh Text Retrieval Conference(TREC」、Proceedings of the Seventh Text Retrieval Conference(TRE-7)、National Institute of Standards and Technology、1999年 Witten、外、「Managing Gigabytes」、Morgan Kaufman Publishers、1999年 Deerweester、外、「Indexing by Latent Semantic Analysis」、Journal of the American Society for Information Science、41巻、1号、1990年、391-407頁 Persin、「Document Filtering for Fast Ranking」、Proceeedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval、1994年、339-348頁
ドキュメントに現れるタームの逆インデックスであって、ドキュメントにおけるタームのポスティングを含むインデックスを作成するステップと、
インデックスにおけるポスティングをランク付けするステップと、
ランク付けにおいて所与のレベルよりも低いポスティングをインデックスからプルーニングするステップと、
を含む。
望ましくは、限定されたメモリ容量の装置は、ハンドヘルド・コンピュータ装置を含む。
(1)「k-トップ・アンサー」方法は、1つの照会に対して最高のスコアを有するk個のドキュメントとして「トップ・アンサー」を定義する(ここでKはステップ48における入力である)。任意の照会における最大の許容可能なターム数としてrを定義する。各タームtに対して、値 A(t,d0),A(t,d1),.....が、ステップ50において、それらの絶対値に従ってランク付けされる。zt をランキングにおけるk番目のタームの絶対値であると仮定する。そこで、ステップ52において、A(t,d) < Zt/r である場合、A*(t,d) は 0 にセットされる。しかし、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d)=0 の場合のポスティングは、勿論、インデックスから除去される。
(2)「δ-トップ・アンサー」方法は、所与の照会に対してスコアリング関数のトップ・スコアからの距離における閾値の点から「トップ・アンサー」を定義する。この場合、δは、ステップ48において入力される。例えば、δ=0.9に対して、トップ・スコアの90%よりも高いスコアを有するいずれのドキュメントも、トップ・アンサーと見なされる。ここでも、ステップ50において、A(t,d) の値がランク付けされる。ステップ52において、各タームtに対し、最大値 max(A(t,d)) が検出される。Zt = δ* max(A(t,d)) あると仮定する。そこで、他の点では、A(t,d) < Zt/r である場合、A*(t,d) = 0 であり、そうでない場合、A*(t,d) = A(t,d) である。A*(t,d) = 0 の場合のポスティングは、勿論、インデックスから除去される。
12 インデックス処理装置
14 ドキュメント・アーカイブ
22 圧縮されたアーカイブ
24 コンピュータ装置
Claims (5)
- テキスト・ドキュメントのコーパスをインデックス化するための装置であって、
前記ドキュメントに現れるタームの逆インデックスを作成するように構成されたインデックス・プロセッサと、
少なくとも1つのパラメータを受け取るためのユーザ・インターフェースとを含み、
前記逆インデックスは、各タームについて、当該タームを含むドキュメントの識別子及び当該ドキュメントにおける前記タームのスコアを含むポスティングのリストを含み、
前記プロセッサは、前記タームの少なくともいくつかの各々について、ポスティングのランキングを決定し、前記ランキングにおける所与のレベルよりも低い前記ポスティングを前記インデックスからプルーニングし、
前記所与のレベルは、前記パラメータ及び前記ランキングに基づいて、プルーニング前の前記逆インデックスを使用して戻される照会結果の上位と、プルーニング後の前記逆インデックスを使用して戻される照会結果の上位とが類似するように設定される、
装置。 - 前記少なくとも1つのパラメータは、前記逆インデックスから検索すべきドキュメントの数k及び1つの照会において許容されるタームの数rを含み、
前記プロセッサは、前記ランキングにおけるトップからkにランク付けされた前記ドキュメントの1つの前記スコアに基づいて前記所与のレベルを設定するように構成される、請求項1に記載の装置。 - 前記プロセッサは、前記ドキュメントの1つの前記スコアをrによって除することによって前記所与のレベルを設定するように構成される、請求項2に記載の装置。
- 前記少なくとも1つのパラメータは、前記ランキングから検索すべきドキュメントの数δ及び1つの照会において許容されるタームの数rを含み、
前記プロセッサは、前記ランキングにおけるドキュメントのうちの1番目のドキュメントのスコア、並びにδ及びrに基づいて前記所与のレベルを設定するように構成される、請求項1に記載の装置。 - 前記プロセッサは、前記1番目のドキュメントのスコアをδによって乗じ、かつrによって除して前記所与のレベルを設定するよう構成される、請求項4に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25899100P | 2000-12-29 | 2000-12-29 | |
US60/258,991 | 2000-12-29 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002555320A Division JP4080878B2 (ja) | 2000-12-29 | 2001-12-19 | 有損失インデックス圧縮装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008117407A true JP2008117407A (ja) | 2008-05-22 |
JP4808697B2 JP4808697B2 (ja) | 2011-11-02 |
Family
ID=22983032
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002555320A Expired - Lifetime JP4080878B2 (ja) | 2000-12-29 | 2001-12-19 | 有損失インデックス圧縮装置 |
JP2007303708A Expired - Lifetime JP4808697B2 (ja) | 2000-12-29 | 2007-11-22 | 有損失インデックス圧縮装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002555320A Expired - Lifetime JP4080878B2 (ja) | 2000-12-29 | 2001-12-19 | 有損失インデックス圧縮装置 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1346296B1 (ja) |
JP (2) | JP4080878B2 (ja) |
CN (1) | CN1191540C (ja) |
CA (1) | CA2432357A1 (ja) |
WO (1) | WO2002054289A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US8417693B2 (en) * | 2005-07-14 | 2013-04-09 | International Business Machines Corporation | Enforcing native access control to indexed documents |
US8600997B2 (en) * | 2005-09-30 | 2013-12-03 | International Business Machines Corporation | Method and framework to support indexing and searching taxonomies in large scale full text indexes |
US7689559B2 (en) * | 2006-02-08 | 2010-03-30 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
JP5741577B2 (ja) | 2010-05-28 | 2015-07-01 | 富士通株式会社 | 情報生成プログラム、情報生成装置、および情報生成方法 |
CN102929988B (zh) * | 2012-10-19 | 2015-07-08 | 中国科学院计算技术研究所 | 用于对倒排索引进行压缩的文档序号重排方法及其系统 |
CN108804477A (zh) * | 2017-05-05 | 2018-11-13 | 广东神马搜索科技有限公司 | 动态截断方法、装置及服务器 |
CN112513831A (zh) * | 2018-06-06 | 2021-03-16 | 西门子股份公司 | 在数字时间序列数据中施行范围搜索的方法和计算机化设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05257774A (ja) * | 1992-03-10 | 1993-10-08 | Fujitsu Ltd | インデックス・レコード番号を圧縮・格納した情報検索装置 |
US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
JPH11306203A (ja) * | 1998-04-20 | 1999-11-05 | Intec Inc | インデックス作成方法及び文書検索処理方法 |
JP2000285116A (ja) * | 1999-03-31 | 2000-10-13 | Just Syst Corp | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867799A (en) * | 1996-04-04 | 1999-02-02 | Lang; Andrew K. | Information system and method for filtering a massive flow of information entities to meet user information classification needs |
US5915249A (en) * | 1996-06-14 | 1999-06-22 | Excite, Inc. | System and method for accelerated query evaluation of very large full-text databases |
AU3484897A (en) | 1996-06-17 | 1998-01-07 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6163782A (en) * | 1997-11-19 | 2000-12-19 | At&T Corp. | Efficient and effective distributed information management |
AU6233800A (en) * | 1999-07-23 | 2001-02-13 | Merck & Co., Inc. | Text influenced molecular indexing system and computer-implemented and/or computer-assisted method for same |
-
2001
- 2001-12-19 EP EP01992199A patent/EP1346296B1/en not_active Expired - Lifetime
- 2001-12-19 CA CA002432357A patent/CA2432357A1/en not_active Abandoned
- 2001-12-19 CN CNB018212808A patent/CN1191540C/zh not_active Expired - Lifetime
- 2001-12-19 WO PCT/US2001/049260 patent/WO2002054289A1/en active Application Filing
- 2001-12-19 JP JP2002555320A patent/JP4080878B2/ja not_active Expired - Lifetime
-
2007
- 2007-11-22 JP JP2007303708A patent/JP4808697B2/ja not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05257774A (ja) * | 1992-03-10 | 1993-10-08 | Fujitsu Ltd | インデックス・レコード番号を圧縮・格納した情報検索装置 |
US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
JPH11306203A (ja) * | 1998-04-20 | 1999-11-05 | Intec Inc | インデックス作成方法及び文書検索処理方法 |
JP2000285116A (ja) * | 1999-03-31 | 2000-10-13 | Just Syst Corp | 文書作成装置、文書作成方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
EP1346296A4 (en) | 2008-07-02 |
CN1191540C (zh) | 2005-03-02 |
EP1346296A1 (en) | 2003-09-24 |
JP4080878B2 (ja) | 2008-04-23 |
JP2004525442A (ja) | 2004-08-19 |
CA2432357A1 (en) | 2002-07-11 |
CN1483169A (zh) | 2004-03-17 |
EP1346296B1 (en) | 2012-09-19 |
WO2002054289A1 (en) | 2002-07-11 |
JP4808697B2 (ja) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7356527B2 (en) | Lossy index compression | |
JP4808697B2 (ja) | 有損失インデックス圧縮装置 | |
US8626781B2 (en) | Priority hash index | |
US8290975B2 (en) | Graph-based keyword expansion | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
US20170083553A1 (en) | Tiering of posting lists in search engine index | |
US8620907B2 (en) | Matching funnel for large document index | |
JP5616444B2 (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
Asadi et al. | Fast candidate generation for two-phase document ranking: Postings list intersection with Bloom filters | |
Blanco et al. | Static pruning of terms in inverted files | |
Billerbeck et al. | Techniques for efficient query expansion | |
Bast et al. | Efficient index-based snippet generation | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
Billerbeck et al. | Efficient query expansion with auxiliary data structures | |
Veretennikov | An efficient algorithm for three-component key index construction | |
Chen et al. | An empirical analysis of pruning techniques: performance, retrievability and bias | |
US20200117735A1 (en) | Method for identifying complex textual patterns containing keywords within data records | |
Lacour et al. | Efficiency comparison of document matching techniques | |
AU2002232665A1 (en) | Lossy index compression | |
JP2011128669A (ja) | 情報検索装置および情報検索プログラム | |
Dang et al. | Fast forward index methods for pseudo-relevance feedback retrieval | |
Veretennikov | Proximity Full-Text Search with a Response Time Guarantee by Means of Additional Indexes with Multi-Component Keys. | |
Praba et al. | Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies | |
JP5903370B2 (ja) | 情報検索装置、情報検索方法、及びプログラム | |
Chen et al. | ICTNET at Web Track 2010 Ad-hoc Task. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100921 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110817 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4808697 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
EXPY | Cancellation because of completion of term |