RU2010150819A

RU2010150819A - Оптимизация формата поискового индекса

Info

Publication number: RU2010150819A
Application number: RU2010150819/08A
Authority: RU
Inventors: Раиф ХАССАНОВ (US); Раиф ХАССАНОВ; Чэдд Крейтон МЕРРИГАН (US); Чэдд Крейтон МЕРРИГАН; Михай ПЕТРИУК (US); Михай ПЕТРИУК; Артем Иванович КОХАН (US); Артем Иванович КОХАН
Original assignee: Майкрософт Корпорейшн (Us); Майкрософт Корпорейшн
Priority date: 2008-06-13
Filing date: 2009-05-13
Publication date: 2012-06-27
Also published as: EP2310959A2; RU2503058C2; KR20110027679A; US20090313238A1; ZA201007424B; JP2011523152A; IL208807A0; AU2009257851A1; CN102057378B; JP5415529B2; WO2009151861A2; TWI480744B; US20120179668A1; HK1157897A1; CN102057378A; KR101527994B1; IL208807A; US20150066899A1; AU2009257851B2; EP2310959A4

Abstract

1. Способ поиска множества документов в области поиска, содержащий этапы, на которых: ! (a) обеспечивают (1022) сжатый список (708) дельта-индекса идентификатора ID документа, в котором имеется последовательность непрерывных записей (904) дельта-индексов идентификатора ID документа переменной длины, по одной на каждый из множества документов, содержащего ключевое слово; ! (b) обеспечивают (1023) список (710) частоты вхождения, в котором имеется последовательность непрерывных записей частоты вхождения ключевого слова переменной длины, по одной на каждый, по меньшей мере, из множества документов сжатого списка (710) дельта-индексов идентификатора ID документа; и ! (c) отыскивают (202) множество документов с применением списка (708) дельта-индексов идентификатора ID документа и с применением сжатого списка (710) частоты вхождений. ! 2. Способ по п.1, кроме того, содержащий этапы, на которых: !сопоставляют каждую запись частоты вхождений ключевого слова с одной из категорий конечного набора, причем каждая из категорий имеет размер записи вхождения, и причем каждая запись частоты вхождения ключевого слова имеет размер, равный размеру записи вхождения. ! 3. Способ по п.2, в котором одна категория имеет размер записи вхождения, которая указывает на то, что запись частоты вхождений ключевого слова не сохраняется в списке частоты вхождений. ! 4. Способ по п.2, в котором каждая из категорий конечного набора дополнительно содержит основное значение, а каждая из записей списка дельта-индексов идентификатора ID документа представляет собой символ, являющийся суммой основного значения категории и сопоставленной с ней записи дельта-индекса идентификатора

Claims

1. Способ поиска множества документов в области поиска, содержащий этапы, на которых:

(a) обеспечивают (1022) сжатый список (708) дельта-индекса идентификатора ID документа, в котором имеется последовательность непрерывных записей (904) дельта-индексов идентификатора ID документа переменной длины, по одной на каждый из множества документов, содержащего ключевое слово;

(b) обеспечивают (1023) список (710) частоты вхождения, в котором имеется последовательность непрерывных записей частоты вхождения ключевого слова переменной длины, по одной на каждый, по меньшей мере, из множества документов сжатого списка (710) дельта-индексов идентификатора ID документа; и

(c) отыскивают (202) множество документов с применением списка (708) дельта-индексов идентификатора ID документа и с применением сжатого списка (710) частоты вхождений.

2. Способ по п.1, кроме того, содержащий этапы, на которых:

сопоставляют каждую запись частоты вхождений ключевого слова с одной из категорий конечного набора, причем каждая из категорий имеет размер записи вхождения, и причем каждая запись частоты вхождения ключевого слова имеет размер, равный размеру записи вхождения.

3. Способ по п.2, в котором одна категория имеет размер записи вхождения, которая указывает на то, что запись частоты вхождений ключевого слова не сохраняется в списке частоты вхождений.

4. Способ по п.2, в котором каждая из категорий конечного набора дополнительно содержит основное значение, а каждая из записей списка дельта-индексов идентификатора ID документа представляет собой символ, являющийся суммой основного значения категории и сопоставленной с ней записи дельта-индекса идентификатора ID документа.

5. Способ по п.4, в котором значения символов формируют одиночную непрерывную последовательность через все категории в конечном наборе категорий.

6. Способ по п.4, дополнительно содержащий этапы, на которых:

представляют список дельта-индексов идентификатора ID документа с применением одиночного набора значений дельта-индексов идентификатора ID документа, в котором каждая из конечного набора категорий представляет собой весь набор, а каждое дискретное значение дельта-индекса идентификатора ID документа входит в каждую вышеупомянутую категорию с отличным значением символа, причем каждое значение символа представляет собой отличное значение дельта-индекса идентификатора ID документа и составляет пару размеру записи вхождения.

7. Способ по п.6, дополнительно содержащий этапы, на которых:

обеспечивают таблицу кодирования, применяемую для сжатия списка значений идентификатора ID документа, причем упорядочение кодов в таблице кодирования соответствует порядку сопоставленных с ними символов конечного набора категорий, причем на основе упорядочения может быть вычислен символ, соответствующий каждому коду таблицы кодирования.

8. Способ по п.7, дополнительно содержащий этапы, на которых:

(a) сжимают список дельта-индексов идентификатора ID документа, с применением кодирования Хаффмана, модифицированного посредством определения верхнего порогового значения размера дельта-индекса идентификатора ID документа;

(b) не кодируют все значения дельта-индекса идентификатора ID документа, превышающие верхнее пороговое значение; и

(c) явным образом сохраняют все значения дельта-индекса идентификатора ID документа, превышающие верхнее пороговое значение списка дельта-индексов идентификатора ID документа.

9. Способ по п.1, дополнительно содержащий этапы, на которых:

сжатый список дельта-индексов идентификатора ID документа определяет набор документов на основе множества ключевых слов, проводят поиск по набору документов посредством применения сжатого списка дельта-индексов идентификатора ID документа для идентифицирования подмножества документов, содержащих данное ключевое слово, и применяют список вхождений для идентифицирования того, сколько раз данное ключевое слово входит в каждый документ подмножества документов.

10. Способ поиска ключевых слов, входящих во множество документов области поиска, содержащий этапы, на которых:

(a) используют индекс (100) для идентификации документов, содержащих ключевые слова, причем индекс (100) содержит закодированный список (708) дельта-индексов идентификатора ID документа, причем список дельта-индексов идентификатора ID документа содержит множество записей, причем в каждой вышеупомянутой записи применяется символ для представления значения дельта-индекса идентификатора ID документа для каждого из множества документов области поиска, содержащей ключевое слово; и

(b) сопоставляют (1016) каждый из символов (902) списка (708) дельта-индексов идентификатора ID документа с одним из конечных наборов категорий (502) и с порядком в каждом конечном наборе категорий (502).

11. Способ по п.10, в котором каждая категория содержит основное значение, а каждый символ в списке дельта-индексов идентификатора ID документа является суммой основного значения сопоставленной с ним категории и значения дельта-индекса идентификатора ID документа, представляющего этот символ.

12. Способ по п.11, дополнительно содержащий этапы, на которых:

представляют список дельта-индексов идентификатора ID документа, с применением одиночного набора значений дельта-индексов идентификатора ID документа, причем каждая вышеупомянутая категория представляет весь набор, и каждое дискретное значение дельта-индекса идентификатора ID документа появляется в каждой вышеупомянутой категории с отличным значением символа.

13. Способ по п.12, дополнительно содержащий этапы, на которых:

кодируют список дельта-индексов идентификатора ID документа посредством способа, применяющего таблицу кодирования, причем упорядочение кодов в таблице кодирования соответствует порядку сопоставленных с ними символов вышеупомянутых категорий, причем символ, соответствующий каждому коду таблицы кодирования, может быть вычислен на основе упорядочения кодов.

14. Способ по п.10, дополнительно содержащий этапы, на которых:

(a) кодируют список дельта-индексов идентификатора ID документа с применением кодирования Хаффмана, модифицированного посредством задания верхнего порогового значения размера дельта-индексов идентификатора ID документа;

(b) не кодируют все числовые значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение; и

(c) явным образом сохраняют все числовые значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение списка дельта-индексов идентификатора ID документа.

15. Способ по п.10, дополнительно содержащий этапы, на которых:

применяют список частоты вхождений для определения количества вхождений ключевого слова в каждый документ, в котором в списке частоты вхождений имеется запись частоты вхождения ключевого слова, сопоставленная по меньшей мере с некоторыми из записей списка дельта-индексов идентификатора ID документа.

16. Способ по п.15, в котором список частоты вхождений содержит последовательность непрерывных записей переменной длины, а длину каждой записи выбирают из конечного набора постоянных значений.

17. Способ по п.16, дополнительно содержащий этапы, на которых:

(a) сопоставляют каждую категорию с размером записи вхождения; и

(b) сохраняют каждую запись списка частоты вхождений для записи списка дельта-индексов идентификатора ID документа, сопоставленного с категорией в поле, имеющем размер, равный размеру поля, сопоставленного с категорией.

18. Способ по п.17, в котором одна категория имеет размер записи вхождения, которая указывает на то, что частота вхождений не сохраняется в списке частоты вхождений.

19. Способ поиска ключевых слов, появляющихся во множестве документов в области поиска, содержащий этапы, на которых:

(a) обеспечивают структуру (100) индекса, в которой имеется множество записей (400) ключевого слова, причем каждая вышеупомянутая запись (400) ключевого слова содержит:

(1) множество логических категорий (502):

(i) причем каждая вышеупомянутая категория (502) содержит основное значение (608) символа, размер (606) записи вхождения и набор символов,

(ii) каждая вышеупомянутая категория (502), представляет идентичную непрерывную последовательность значений дельта-индексов идентификатора ID документа как отдельную последовательность символов (1008), и

(iii) каждый вышеупомянутый символ (1008) вычисляют как сумму основного значения (608) символа категории (502) и значения дельта-индекса идентификатора ID документа, которое представляет данный символ (602);

(2) сжатый список (708) дельта-индексов идентификатора ID документа, в котором имеется последовательность непрерывных записей (904) дельта-индексов идентификатора ID документа переменной длины, по одной на каждый из множества документов области поиска, содержащей ключевое слово:

(i) причем каждая вышеупомянутая запись (904) дельта-индексов идентификатора ID документа, сопоставлена с одной из множества логических категорий (502), и

(ii) каждая вышеупомянутая запись (904) дельта-индексов идентификатора ID документа, содержит соответствующий символ (1008) из сопоставленной с ней логической категории (502);

(3) список (710) частоты вхождений, в котором имеются последовательности непрерывных записей частоты вхождений ключевого слова переменной длины:

(i) причем каждая вышеупомянутая запись частоты вхождений сопоставлена с одной из записей (904) дельта-индекса идентификатора ID документа, и

(ii) каждое вышеупомянутое значение частоты вхождений ключевого слова сохраняется в поле, размер которого равен размеру (606) записи вхождения логической категории (502), с которой сопоставлена запись (904) дельта-индекса идентификатора ID документа; и

(4) таблицу (504) кодирования, в которой имеется список кодов (902):

(i) причем каждый вышеупомянутый код (902) сопоставлен с символом из одного из множества логических категорий (502), и

(ii) упорядочение кодов соответствует порядку сопоставленных с ними символов во множестве логических категорий (502), причем может быть вычислен символ, соответствующий каждому вышеупомянутому коду (902) таблицы (504) кодирования; и

(b) проводят (202) поиск по множеству документов посредством применения списка дельта-индексов идентификатора ID документа для идентифицирования документов, содержащих ключевые слова, с применением списка (710) частоты вхождений для идентифицирования количества вхождений ключевого слова в каждый документ, и с применением таблицы (504) кодирования для сжатия списка (708) дельта-индексов идентификатора ID документа.

20. Способ по п.19, дополнительно содержащий этапы, на которых:

(b) не кодируют все значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение; и

(c) явным образом сохраняют все значения дельта-индексов идентификатора ID документа, превышающие верхнее пороговое значение в списке дельта-индексов идентификатора ID документа.