RU2010150819A - Оптимизация формата поискового индекса - Google Patents

Оптимизация формата поискового индекса Download PDF

Info

Publication number
RU2010150819A
RU2010150819A RU2010150819/08A RU2010150819A RU2010150819A RU 2010150819 A RU2010150819 A RU 2010150819A RU 2010150819/08 A RU2010150819/08 A RU 2010150819/08A RU 2010150819 A RU2010150819 A RU 2010150819A RU 2010150819 A RU2010150819 A RU 2010150819A
Authority
RU
Russia
Prior art keywords
document
identifier
list
delta
entry
Prior art date
Application number
RU2010150819/08A
Other languages
English (en)
Other versions
RU2503058C2 (ru
Inventor
Раиф ХАССАНОВ (US)
Раиф ХАССАНОВ
Чэдд Крейтон МЕРРИГАН (US)
Чэдд Крейтон МЕРРИГАН
Михай ПЕТРИУК (US)
Михай ПЕТРИУК
Артем Иванович КОХАН (US)
Артем Иванович КОХАН
Original Assignee
Майкрософт Корпорейшн (Us)
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн (Us), Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн (Us)
Publication of RU2010150819A publication Critical patent/RU2010150819A/ru
Application granted granted Critical
Publication of RU2503058C2 publication Critical patent/RU2503058C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. Способ поиска множества документов в области поиска, содержащий этапы, на которых: ! (a) обеспечивают (1022) сжатый список (708) дельта-индекса идентификатора ID документа, в котором имеется последовательность непрерывных записей (904) дельта-индексов идентификатора ID документа переменной длины, по одной на каждый из множества документов, содержащего ключевое слово; ! (b) обеспечивают (1023) список (710) частоты вхождения, в котором имеется последовательность непрерывных записей частоты вхождения ключевого слова переменной длины, по одной на каждый, по меньшей мере, из множества документов сжатого списка (710) дельта-индексов идентификатора ID документа; и ! (c) отыскивают (202) множество документов с применением списка (708) дельта-индексов идентификатора ID документа и с применением сжатого списка (710) частоты вхождений. ! 2. Способ по п.1, кроме того, содержащий этапы, на которых: !сопоставляют каждую запись частоты вхождений ключевого слова с одной из категорий конечного набора, причем каждая из категорий имеет размер записи вхождения, и причем каждая запись частоты вхождения ключевого слова имеет размер, равный размеру записи вхождения. ! 3. Способ по п.2, в котором одна категория имеет размер записи вхождения, которая указывает на то, что запись частоты вхождений ключевого слова не сохраняется в списке частоты вхождений. ! 4. Способ по п.2, в котором каждая из категорий конечного набора дополнительно содержит основное значение, а каждая из записей списка дельта-индексов идентификатора ID документа представляет собой символ, являющийся суммой основного значения категории и сопоставленной с ней записи дельта-индекса идентификатора

Claims (20)

1. Способ поиска множества документов в области поиска, содержащий этапы, на которых:
(a) обеспечивают (1022) сжатый список (708) дельта-индекса идентификатора ID документа, в котором имеется последовательность непрерывных записей (904) дельта-индексов идентификатора ID документа переменной длины, по одной на каждый из множества документов, содержащего ключевое слово;
(b) обеспечивают (1023) список (710) частоты вхождения, в котором имеется последовательность непрерывных записей частоты вхождения ключевого слова переменной длины, по одной на каждый, по меньшей мере, из множества документов сжатого списка (710) дельта-индексов идентификатора ID документа; и
(c) отыскивают (202) множество документов с применением списка (708) дельта-индексов идентификатора ID документа и с применением сжатого списка (710) частоты вхождений.
2. Способ по п.1, кроме того, содержащий этапы, на которых:
сопоставляют каждую запись частоты вхождений ключевого слова с одной из категорий конечного набора, причем каждая из категорий имеет размер записи вхождения, и причем каждая запись частоты вхождения ключевого слова имеет размер, равный размеру записи вхождения.
3. Способ по п.2, в котором одна категория имеет размер записи вхождения, которая указывает на то, что запись частоты вхождений ключевого слова не сохраняется в списке частоты вхождений.
4. Способ по п.2, в котором каждая из категорий конечного набора дополнительно содержит основное значение, а каждая из записей списка дельта-индексов идентификатора ID документа представляет собой символ, являющийся суммой основного значения категории и сопоставленной с ней записи дельта-индекса идентификатора ID документа.
5. Способ по п.4, в котором значения символов формируют одиночную непрерывную последовательность через все категории в конечном наборе категорий.
6. Способ по п.4, дополнительно содержащий этапы, на которых:
представляют список дельта-индексов идентификатора ID документа с применением одиночного набора значений дельта-индексов идентификатора ID документа, в котором каждая из конечного набора категорий представляет собой весь набор, а каждое дискретное значение дельта-индекса идентификатора ID документа входит в каждую вышеупомянутую категорию с отличным значением символа, причем каждое значение символа представляет собой отличное значение дельта-индекса идентификатора ID документа и составляет пару размеру записи вхождения.
7. Способ по п.6, дополнительно содержащий этапы, на которых:
обеспечивают таблицу кодирования, применяемую для сжатия списка значений идентификатора ID документа, причем упорядочение кодов в таблице кодирования соответствует порядку сопоставленных с ними символов конечного набора категорий, причем на основе упорядочения может быть вычислен символ, соответствующий каждому коду таблицы кодирования.
8. Способ по п.7, дополнительно содержащий этапы, на которых:
(a) сжимают список дельта-индексов идентификатора ID документа, с применением кодирования Хаффмана, модифицированного посредством определения верхнего порогового значения размера дельта-индекса идентификатора ID документа;
(b) не кодируют все значения дельта-индекса идентификатора ID документа, превышающие верхнее пороговое значение; и
(c) явным образом сохраняют все значения дельта-индекса идентификатора ID документа, превышающие верхнее пороговое значение списка дельта-индексов идентификатора ID документа.
9. Способ по п.1, дополнительно содержащий этапы, на которых:
сжатый список дельта-индексов идентификатора ID документа определяет набор документов на основе множества ключевых слов, проводят поиск по набору документов посредством применения сжатого списка дельта-индексов идентификатора ID документа для идентифицирования подмножества документов, содержащих данное ключевое слово, и применяют список вхождений для идентифицирования того, сколько раз данное ключевое слово входит в каждый документ подмножества документов.
10. Способ поиска ключевых слов, входящих во множество документов области поиска, содержащий этапы, на которых:
(a) используют индекс (100) для идентификации документов, содержащих ключевые слова, причем индекс (100) содержит закодированный список (708) дельта-индексов идентификатора ID документа, причем список дельта-индексов идентификатора ID документа содержит множество записей, причем в каждой вышеупомянутой записи применяется символ для представления значения дельта-индекса идентификатора ID документа для каждого из множества документов области поиска, содержащей ключевое слово; и
(b) сопоставляют (1016) каждый из символов (902) списка (708) дельта-индексов идентификатора ID документа с одним из конечных наборов категорий (502) и с порядком в каждом конечном наборе категорий (502).
11. Способ по п.10, в котором каждая категория содержит основное значение, а каждый символ в списке дельта-индексов идентификатора ID документа является суммой основного значения сопоставленной с ним категории и значения дельта-индекса идентификатора ID документа, представляющего этот символ.
12. Способ по п.11, дополнительно содержащий этапы, на которых:
представляют список дельта-индексов идентификатора ID документа, с применением одиночного набора значений дельта-индексов идентификатора ID документа, причем каждая вышеупомянутая категория представляет весь набор, и каждое дискретное значение дельта-индекса идентификатора ID документа появляется в каждой вышеупомянутой категории с отличным значением символа.
13. Способ по п.12, дополнительно содержащий этапы, на которых:
кодируют список дельта-индексов идентификатора ID документа посредством способа, применяющего таблицу кодирования, причем упорядочение кодов в таблице кодирования соответствует порядку сопоставленных с ними символов вышеупомянутых категорий, причем символ, соответствующий каждому коду таблицы кодирования, может быть вычислен на основе упорядочения кодов.
14. Способ по п.10, дополнительно содержащий этапы, на которых:
(a) кодируют список дельта-индексов идентификатора ID документа с применением кодирования Хаффмана, модифицированного посредством задания верхнего порогового значения размера дельта-индексов идентификатора ID документа;
(b) не кодируют все числовые значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение; и
(c) явным образом сохраняют все числовые значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение списка дельта-индексов идентификатора ID документа.
15. Способ по п.10, дополнительно содержащий этапы, на которых:
применяют список частоты вхождений для определения количества вхождений ключевого слова в каждый документ, в котором в списке частоты вхождений имеется запись частоты вхождения ключевого слова, сопоставленная по меньшей мере с некоторыми из записей списка дельта-индексов идентификатора ID документа.
16. Способ по п.15, в котором список частоты вхождений содержит последовательность непрерывных записей переменной длины, а длину каждой записи выбирают из конечного набора постоянных значений.
17. Способ по п.16, дополнительно содержащий этапы, на которых:
(a) сопоставляют каждую категорию с размером записи вхождения; и
(b) сохраняют каждую запись списка частоты вхождений для записи списка дельта-индексов идентификатора ID документа, сопоставленного с категорией в поле, имеющем размер, равный размеру поля, сопоставленного с категорией.
18. Способ по п.17, в котором одна категория имеет размер записи вхождения, которая указывает на то, что частота вхождений не сохраняется в списке частоты вхождений.
19. Способ поиска ключевых слов, появляющихся во множестве документов в области поиска, содержащий этапы, на которых:
(a) обеспечивают структуру (100) индекса, в которой имеется множество записей (400) ключевого слова, причем каждая вышеупомянутая запись (400) ключевого слова содержит:
(1) множество логических категорий (502):
(i) причем каждая вышеупомянутая категория (502) содержит основное значение (608) символа, размер (606) записи вхождения и набор символов,
(ii) каждая вышеупомянутая категория (502), представляет идентичную непрерывную последовательность значений дельта-индексов идентификатора ID документа как отдельную последовательность символов (1008), и
(iii) каждый вышеупомянутый символ (1008) вычисляют как сумму основного значения (608) символа категории (502) и значения дельта-индекса идентификатора ID документа, которое представляет данный символ (602);
(2) сжатый список (708) дельта-индексов идентификатора ID документа, в котором имеется последовательность непрерывных записей (904) дельта-индексов идентификатора ID документа переменной длины, по одной на каждый из множества документов области поиска, содержащей ключевое слово:
(i) причем каждая вышеупомянутая запись (904) дельта-индексов идентификатора ID документа, сопоставлена с одной из множества логических категорий (502), и
(ii) каждая вышеупомянутая запись (904) дельта-индексов идентификатора ID документа, содержит соответствующий символ (1008) из сопоставленной с ней логической категории (502);
(3) список (710) частоты вхождений, в котором имеются последовательности непрерывных записей частоты вхождений ключевого слова переменной длины:
(i) причем каждая вышеупомянутая запись частоты вхождений сопоставлена с одной из записей (904) дельта-индекса идентификатора ID документа, и
(ii) каждое вышеупомянутое значение частоты вхождений ключевого слова сохраняется в поле, размер которого равен размеру (606) записи вхождения логической категории (502), с которой сопоставлена запись (904) дельта-индекса идентификатора ID документа; и
(4) таблицу (504) кодирования, в которой имеется список кодов (902):
(i) причем каждый вышеупомянутый код (902) сопоставлен с символом из одного из множества логических категорий (502), и
(ii) упорядочение кодов соответствует порядку сопоставленных с ними символов во множестве логических категорий (502), причем может быть вычислен символ, соответствующий каждому вышеупомянутому коду (902) таблицы (504) кодирования; и
(b) проводят (202) поиск по множеству документов посредством применения списка дельта-индексов идентификатора ID документа для идентифицирования документов, содержащих ключевые слова, с применением списка (710) частоты вхождений для идентифицирования количества вхождений ключевого слова в каждый документ, и с применением таблицы (504) кодирования для сжатия списка (708) дельта-индексов идентификатора ID документа.
20. Способ по п.19, дополнительно содержащий этапы, на которых:
(a) кодируют список дельта-индексов идентификатора ID документа с применением кодирования Хаффмана, модифицированного посредством задания верхнего порогового значения размера дельта-индексов идентификатора ID документа;
(b) не кодируют все значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение; и
(c) явным образом сохраняют все значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение в списке дельта-индексов идентификатора ID документа.
RU2010150819/08A 2008-06-13 2009-05-13 Оптимизация формата поискового индекса RU2503058C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/139,213 US8166041B2 (en) 2008-06-13 2008-06-13 Search index format optimizations
US12/139,213 2008-06-13
PCT/US2009/043816 WO2009151861A2 (en) 2008-06-13 2009-05-13 Search index format optimizations

Publications (2)

Publication Number Publication Date
RU2010150819A true RU2010150819A (ru) 2012-06-27
RU2503058C2 RU2503058C2 (ru) 2013-12-27

Family

ID=41415696

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010150819/08A RU2503058C2 (ru) 2008-06-13 2009-05-13 Оптимизация формата поискового индекса

Country Status (13)

Country Link
US (3) US8166041B2 (ru)
EP (1) EP2310959A4 (ru)
JP (1) JP5415529B2 (ru)
KR (1) KR101527994B1 (ru)
CN (1) CN102057378B (ru)
AU (1) AU2009257851B2 (ru)
BR (1) BRPI0912728A2 (ru)
HK (1) HK1157897A1 (ru)
IL (1) IL208807A (ru)
RU (1) RU2503058C2 (ru)
TW (1) TWI480744B (ru)
WO (1) WO2009151861A2 (ru)
ZA (1) ZA201007424B (ru)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504552B2 (en) * 2007-03-26 2013-08-06 Business Objects Software Ltd. Query based paging through a collection of values
US8166041B2 (en) 2008-06-13 2012-04-24 Microsoft Corporation Search index format optimizations
CN101739400B (zh) * 2008-11-11 2014-08-13 日电(中国)有限公司 生成索引的方法和装置以及检索方法和装置
US9298722B2 (en) * 2009-07-16 2016-03-29 Novell, Inc. Optimal sequential (de)compression of digital data
US8832103B2 (en) 2010-04-13 2014-09-09 Novell, Inc. Relevancy filter for new data based on underlying files
US8566324B1 (en) 2010-09-12 2013-10-22 Giovanni M Sacco Inverted index and inverted list process for storing and retrieving information
US8996531B1 (en) 2010-09-12 2015-03-31 Giovanni M Sacco Inverted index and inverted list process for storing and retrieving information
US20120078874A1 (en) 2010-09-27 2012-03-29 International Business Machine Corporation Search Engine Indexing
US9336225B2 (en) * 2011-02-24 2016-05-10 A9.Com, Inc. Encoding of variable-length data with unary formats
US9058377B2 (en) * 2011-06-03 2015-06-16 Google Inc. Fixed width encoding document posting lists
US9581612B2 (en) 2013-08-26 2017-02-28 EveryFit, Inc. Systems and methods for a power efficient method for detecting wear and non-wear of a sensor
US9947198B2 (en) 2013-08-26 2018-04-17 EveryFit, Inc. Systems and methods for context-aware transmission of longitudinal safety and wellness data wearable sensors
US9554747B2 (en) 2013-08-26 2017-01-31 EveryFit, Inc. Power efficient system and method for measuring physical activity in resource constrained devices
WO2015052690A1 (en) * 2013-10-10 2015-04-16 Yandex Europe Ag Methods and systems for indexing references to documents of a database and for locating documents in the database
US10055482B2 (en) * 2014-03-18 2018-08-21 Ntt Docomo Inc. Knowledge engine for managing massive complex structured data
US11741121B2 (en) 2019-11-22 2023-08-29 Takashi Suzuki Computerized data compression and analysis using potentially non-adjacent pairs
CN107766414B (zh) * 2017-09-06 2020-06-12 北京三快在线科技有限公司 多文档交集获取方法、装置、设备及可读存储介质
US11073828B2 (en) * 2017-12-08 2021-07-27 Samsung Electronics Co., Ltd. Compression of semantic information for task and motion planning
CN112435674A (zh) * 2020-12-09 2021-03-02 北京百瑞互联技术有限公司 优化频谱数据的lc3算术编码搜索表的方法、装置、介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02158870A (ja) * 1988-12-12 1990-06-19 Nippon Telegr & Teleph Corp <Ntt> データベース検索方式
CA2000006C (en) * 1989-01-23 1994-07-12 Walter W. Chang Combinatorial signatures for data encoding and searching
CA2066559A1 (en) * 1991-07-29 1993-01-30 Walter S. Rosenbaum Non-text object storage and retrieval
US5649183A (en) * 1992-12-08 1997-07-15 Microsoft Corporation Method for compressing full text indexes with document identifiers and location offsets
CA2125337A1 (en) * 1993-06-30 1994-12-31 Marlin Jay Eller Method and system for searching compressed data
US5696963A (en) * 1993-11-19 1997-12-09 Waverley Holdings, Inc. System, method and computer program product for searching through an individual document and a group of documents
JP3531281B2 (ja) * 1995-04-18 2004-05-24 富士ゼロックス株式会社 文書登録検索装置
US5987459A (en) * 1996-03-15 1999-11-16 Regents Of The University Of Minnesota Image and document management system for content-based retrieval
JP3898717B2 (ja) * 1997-02-28 2007-03-28 富士通株式会社 データ圧縮/復元装置およびデータ圧縮/復元方法
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
KR19990069299A (ko) * 1998-02-06 1999-09-06 윤종용 특정 위치에 속한 정보를 찾는 웹 검색 방법
JP3664874B2 (ja) * 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
US6055526A (en) * 1998-04-02 2000-04-25 Sun Microsystems, Inc. Data indexing technique
JP2000101847A (ja) * 1998-09-21 2000-04-07 Fuji Xerox Co Ltd 画像信号符号化方法、画像信号復号方法および装置
GB9825102D0 (en) * 1998-11-16 1999-01-13 Insignia Solutions Plc Computer system
JP2000298668A (ja) * 1999-04-12 2000-10-24 Ntt Data Corp 情報検索システムの情報格納装置及び方法
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
US6636849B1 (en) * 1999-11-23 2003-10-21 Genmetrics, Inc. Data search employing metric spaces, multigrid indexes, and B-grid trees
IES20000407A2 (en) * 2000-05-24 2001-08-08 Nua Ltd A System and Method for Categorising and Retrieving Documents on a Network
CN1203411C (zh) * 2000-11-10 2005-05-25 林圣富 资料索引搜寻存取管理方法
US6801904B2 (en) * 2001-10-19 2004-10-05 Microsoft Corporation System for keyword based searching over relational databases
US7028045B2 (en) * 2002-01-25 2006-04-11 International Business Machines Corporation Compressing index files in information retrieval
US6993534B2 (en) * 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US7243110B2 (en) * 2004-02-20 2007-07-10 Sand Technology Inc. Searchable archive
RU2266560C1 (ru) * 2004-04-28 2005-12-20 Федеральное государственное унитарное предприятие "Институт промышленного развития "Информэлектро" Способ поиска информации в политематических массивах неструктурированных текстов
CN101025737B (zh) * 2006-02-22 2011-08-17 王东 基于关注度的同源信息搜索引擎聚合显示方法
TW200807264A (en) * 2006-07-26 2008-02-01 Yu Chun Hsia Multimedia data search system and method thereof
US7756877B2 (en) * 2006-08-04 2010-07-13 Apple Inc. Index compression
US8321485B2 (en) * 2006-11-08 2012-11-27 Hitachi, Ltd. Device and method for constructing inverted indexes
US20080162432A1 (en) * 2006-12-29 2008-07-03 Wen-Shan Wang Search table for unary k-th order exp-golomb decoder
CN100470551C (zh) * 2007-08-24 2009-03-18 新诺亚舟科技(深圳)有限公司 在手持学习终端上实现的联合搜索的方法
US7853598B2 (en) * 2007-10-01 2010-12-14 Sap Ag Compressed storage of documents using inverted indexes
US8166041B2 (en) 2008-06-13 2012-04-24 Microsoft Corporation Search index format optimizations

Also Published As

Publication number Publication date
EP2310959A2 (en) 2011-04-20
RU2503058C2 (ru) 2013-12-27
KR20110027679A (ko) 2011-03-16
US20090313238A1 (en) 2009-12-17
ZA201007424B (en) 2011-12-28
JP2011523152A (ja) 2011-08-04
IL208807A0 (en) 2011-01-31
AU2009257851A1 (en) 2009-12-17
CN102057378B (zh) 2013-04-24
JP5415529B2 (ja) 2014-02-12
WO2009151861A2 (en) 2009-12-17
TWI480744B (zh) 2015-04-11
US20120179668A1 (en) 2012-07-12
HK1157897A1 (en) 2012-07-06
CN102057378A (zh) 2011-05-11
KR101527994B1 (ko) 2015-06-10
IL208807A (en) 2014-06-30
US20150066899A1 (en) 2015-03-05
AU2009257851B2 (en) 2014-07-03
EP2310959A4 (en) 2012-10-31
TW201009616A (en) 2010-03-01
WO2009151861A3 (en) 2010-02-18
US8166041B2 (en) 2012-04-24
US8914380B2 (en) 2014-12-16
BRPI0912728A2 (pt) 2019-08-27

Similar Documents

Publication Publication Date Title
RU2010150819A (ru) Оптимизация формата поискового индекса
JP2011523152A5 (ru)
KR101049699B1 (ko) 데이터의 압축방법
CN101783788B (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
US8933829B2 (en) Data compression using dictionary encoding
Stabno et al. RLH: Bitmap compression technique based on run-length and Huffman encoding
RU2015156692A (ru) Способ и система базы данных для индексирования ссылок на документы базы данных
US8392433B2 (en) Self-indexer and self indexing system
US11488061B2 (en) High-dimensional data nearest-neighbor query method based on variable-length hash codes
Grabowski et al. Engineering relative compression of genomes
WO2009001174A1 (en) System and method for data compression and storage allowing fast retrieval
CN117194490B (zh) 基于人工智能的金融大数据存储查询方法
Ma et al. BreadZip: a combination of network traffic data and bitmap index encoding algorithm
CN101216852A (zh) 基于序列模式的数据导入及查询方法
Özbey Joint Compression of Document Identifiers and Term Frequencies via Dense Unary Codes
Klein et al. Enhanced Extraction from Huffman Encoded Files.
Chen et al. Using d-gap patterns for index compression
Islam et al. An Enhanced Short Text Compression Scheme for Smart Devices.
Rajon et al. An Effective Approach for Compression of Bengali Text
Belazzougui et al. Optimal Lower and Upper Bounds for Representing Sequences
CN111831876A (zh) 查询方法、设备和存储介质
Islam et al. Short text compression for smart devices
CN112435674A (zh) 优化频谱数据的lc3算术编码搜索表的方法、装置、介质
CN117421481A (zh) 人群查找方法、系统、电子设备和计算机可读存储介质
Mamun et al. A new compression based index structure for efficient information retrieval

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150306