EA002016B1 - Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов - Google Patents

Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов Download PDF

Info

Publication number
EA002016B1
EA002016B1 EA200100467A EA200100467A EA002016B1 EA 002016 B1 EA002016 B1 EA 002016B1 EA 200100467 A EA200100467 A EA 200100467A EA 200100467 A EA200100467 A EA 200100467A EA 002016 B1 EA002016 B1 EA 002016B1
Authority
EA
Eurasian Patent Office
Prior art keywords
document
documents
fragments
information
search
Prior art date
Application number
EA200100467A
Other languages
English (en)
Other versions
EA200100467A1 (ru
Inventor
Лев Лазаревич Матвеев
Александр Иванович Акимов
Original Assignee
Лев Лазаревич Матвеев
Александр Иванович Акимов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Лев Лазаревич Матвеев, Александр Иванович Акимов filed Critical Лев Лазаревич Матвеев
Priority to EA200100467A priority Critical patent/EA200100467A1/ru
Publication of EA002016B1 publication Critical patent/EA002016B1/ru
Publication of EA200100467A1 publication Critical patent/EA200100467A1/ru

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к способам поиска на устройствах хранения данных электронных документов и их фрагментов, похожих по текстовому и/или смысловому содержанию на выбранный фрагмент. Для поиска используют все слова, входящие в выбранный документ (фрагмент документа), или их определенное множество, формируемое с использованием различных правил, в том числе установленных пользователями. Изобретение предусматривает устранение дублирования заносимой в архив информации и позволяет осуществлять автоматическую классификацию сохраняемых в архиве документов (фрагментов документов). Изобретение позволяет сохранять заносимые в архив документы в виде новых версий ранее сохраненных в архиве документов, имеющих определенную степень сходства с заносимым в архив документом. Изобретение также предназначено для полнотекстового фразового поиска с учетом интервала между словами и порядка их чередования в запросе. При этом, для расширения запроса смысловыми аналогами используют последовательность операций предварительной обработки запроса и в отображаемых полученных документах визуализируют результаты, соответствующие параметрам поиска и запросам, полученным после предварительной обработки.

Description

Настоящее изобретение относится к способам поиска информации, хранимой на локальных и удаленных устройствах хранения данных. В частности изобретение относится к способам поиска на устройствах хранения данных электронных документов и их фрагментов, похожих по текстовому и/или смысловому содержимому на выбранный фрагмент. Изобретение также относится к способам поиска документов по запросам, состоящим из двух и более слов, расширенных смысловыми аналогами и с учетом интервала между словами и порядка их чередования в запросе.
Характеристика уровня техники
Способы полнотекстового индексного поиска электронных документов, хранимых на устройствах хранения данных, достаточно хорошо известны и применяются в различных информационно-поисковых системах, функционирующих как на локальных устройствах хранения данных, так и в условиях распределенных компьютерных систем, в том числе в Интернет. Такие системы позволяют осуществлять поиск интересующих пользователя документов, хранимых в архивах данных, в соответствии с заданными параметрами.
Одним из направлений развития технологий полнотекстового поиска является разработка систем позволяющих осуществлять фразовый поиск документов. Такие системы предусматривают формирование исходного запроса, состоящего из двух и более слов, и определение параметров поиска, включающих указание интервала между словами и последовательности их чередования в искомых документах. При этом существующие системы позволяют осуществлять поиск документов, содержащих в указанном интервале любое количество слов из исходного запроса. Полученный в результате выполнения поисковой операции список включает документы, релевантные исходному запросу лишь по формальному признаку сходства словарного состава исходной и входящих в упомянутые документы фраз. При этом наиболее качественные системы предусматривают расширение запроса морфологическими словоформами, а также синонимами из предопределенного разработчиками словаря. Расширение запросов другими смысловыми аналогами, например, посредством семантических тезаурусов, а также использование при расширении запроса одновременно нескольких обработчиков, в том числе созданных пользователем, не предусмотрено. Это отрицательно влияет на результативность поисковых операций.
Включение в полученный список тех документов, которые содержат фразы, похожие на заданные не только по текстовому содержимому, но и по смысловому (использование семантических тезаурусов) не предусмотрено, что снижает результативность поисковых операций.
Существующие системы, предназначенные для полнотекстового фразового поиска, не решают всех проблем, связанных с повышением эффективности поисковых операций. В первую очередь это связано с ростом объемов информации, которую приходится обрабатывать любому пользователю, работающему за компьютером. К сожалению, информация, попадая в архив, расположенный на устройстве хранения данных из различных источников, зачастую дублирует ранее сохраненные данные. При этом формируемые в результате обычного полнотекстового поиска списки документов могут содержать дубли, на повторную обработку которых пользователь вынужден затрачивать время. Особенно актуальна такая проблема в том случае, когда в многопользовательском режиме работы несколько пользователей одновременно осуществляют наполнение архива документами одной тематики.
Поэтому в последнее время весьма популярными становятся системы, предназначенные для поиска документов, похожих по текстовому и/или смысловому содержимому. Их популярность обусловлена тем, что они призваны избавить пользователя от ряда проблем, главная из которых связана с существенными временными затратами на обработку избыточной (дублирующейся) информации. Такие системы позволяют оптимизировать процесс наполнения архива документами путем отсеивания дублей. Кроме того, автоматическая классификация сохраняемых на устройстве хранения данных документов способствуют упорядочиванию хранимого архива информации.
При этом существующие системы, предназначенные для поиска похожих по текстовому и/или смысловому содержимому документов, не лишены недостатков. Главным из которых является то, что они не позволяют задействовать для поиска все множество слов, встречающихся в тексте выбранного документа. Это связано с тем, что отработка поискового запроса, состоящего из большого количества слов, требует значительных временных затрат и потому неприемлема для пользователя. Проблема еще более усугубляется в случае расширения исходного запроса смысловыми аналогами, например, путем использования морфологических анализаторов или тезаурусов. Поэтому существующие системы, предназначенные для поиска документов, похожих по текстовому содержимому, позволяют задействовать в запросе лишь определенное количество значимых (ключевых) слов, входящих в документ, для которого осуществляют поисковую операцию. Такой подход к реализации существенно снижает эффективность выполнения операций поиска похожих по текстовому содержимому документов и не позволяет достичь желаемого результата.
Характеристика аналогов
В качестве аналога для способа поиска похожих по текстовому и/или смысловому содержимому документов и их фрагментов выбран метод и устройство для поиска текста с помощью сигнатур документов [Патент И86029167 международный класс С06Р 017/00]. Метод предназначен для поиска похожих и идентичных фрагментов документов, хранимых в базе данных.
Метод позволяет кодировать фрагменты текстов документов при помощи последовательности маркеров. При этом каждому фрагменту присваивается сигнатура маркеров. Закодированный фрагмент сравнивают с закодированными таким же образом фрагментами, хранимыми в базе данных. Сравнение осуществляют по последовательностям маркеров (сигнатурам), присущих фрагментам. В случае обнаружения в базе данных фрагментов, похожих на выбранный (с идентичными сигнатурами), осуществляют извлечение из базы данных документов, содержащих фрагменты, похожие на выбранный. После чего осуществляют сравнение выбранного фрагмента с найденными в базе данных документами при помощи поиска по последовательным строкам символов, либо каждое слово из исходного фрагмента сравнивают с каждым словом из найденных документов.
Недостатком изобретения И86029167 является то, что оно предназначено для поиска документов и их фрагментов лишь по формальным признакам соответствия слов, входящих в их текстовое содержимое. При этом изобретение И86029167 не предусматривает расширение поисковых запросов какими-либо аналогами (морфологическими словоформами, синонимами и т.д.). Т.е. И86029167 осуществляет поиск документов, похожих лишь по текстовому содержимому, и не позволяет находить документы, имеющие сходство с выбранным по смысловому содержимому.
Следующим недостатком изобретения И86029167 является то, что в нем отсутствует возможность выбора методики формирования поискового запроса. Т. е. поиск осуществляют только с использованием определенных образом сформированных последовательностей маркеров. Возможность поиска похожих документов или фрагментов с использованием других методик формирования поискового запроса не реализована, что ограничивает функциональные возможности изобретения поиском плагиата в различных документах.
В качестве аналога для способа поиска похожих по текстовому и/или смысловому содержимому документов и их фрагментов выбран метод поиска и извлечения документов при помощи приложений для автоматического персонализированного поиска в базе данных [Патент И85926812 международный класс С06Р 017/30]. Метод позволяет осуществлять поиск интере сующих пользователя документов на устройствах хранения данных. Метод включает в себя следующие операции:
- определение множества слов наиболее часто встречаемых в документах, хранимых в архиве на пользовательском устройстве. При этом учитывается число вхождений слов в документы и их важность, определяемая расположением в заголовках и т.д.,
- пересылка полученного множества слов удаленному устройству хранения данных и поиск на нем документов, соответствующих упомянутому множеству слов. Формирование множества документов, соответствующих запросу,
- извлечение из архива, хранимого на удаленном устройстве документов, имеющих наивысшую степень сходства с документами, хранимыми на пользовательском устройстве и их отображение пользователю.
Недостатком изобретения И85926812 является то, что оно предназначено для поиска документов лишь по формальным признакам соответствия слов, входящих в их текстовое содержимое. При этом изобретение И85926812 не предусматривает расширение поисковых запросов какими-либо аналогами (морфологическими словоформами, синонимами и т.д.). Т.е. И85926812 осуществляет поиск документов, похожих лишь по текстовому содержимому, и не позволяет находить документы, имеющие сходство с выбранным документом по смысловому содержимому.
Следующим недостатком изобретения И85926812 является то, что в нем отсутствует возможность выбора методики формирования поискового запроса. Т. е. поиск осуществляют только с использованием наиболее значимых (ключевых) слов, присущих заданному множеству документов. Возможность поиска похожих документов с использованием других методик формирования поискового запроса не реализована. Например, изобретение не предоставляет возможности осуществить поиск по словам, встречающимся в текстовом содержимом заданного множества документов с определенной частотой, что ограничивает функциональные возможности изобретения.
В качестве аналога для способа поиска документов по исходному запросу из двух и более слов выбран метод и устройство индексирования и поиска документов [Патент νΟ 9959085 международный класс С06Р 17/30]. Метод включает в себя следующие операции:
- разбиение заданного документа на элементы (последовательности), состоящие из 3 слов. Т.е. документ из N слов разбивают на N-2 элементов, например, документ из пяти слов '01234' разбивают на три последовательности '012', '123' и '234',
- присваивание каждому полученному для заданного документа элементу определенной оценки,
- сравнение оценок (всех или некоторого их подмножества), полученных для заданного документа с оценками в индексе базы данных хранимых документов, определение ГО хранимых документов с соответствующими оценками и их поиск в базе данных,
- подсчет количества элементов, присутствующих в заданном и найденных документах для определения их идентичности.
Метод предполагает использование устройства, которое обеспечивает выполнение операций, предусмотренных изобретением АО 9959085.
Недостатком изобретения АО 9959085 является то, что оно предназначено для поиска документов лишь по формальным признакам соответствия последовательностей, входящих в документы слов, что не позволяет осуществлять поиск документов, имеющих смысловое сходство.
В качестве аналога для способа поиска документов по исходному запросу из двух и более слов выбрана также Интернет поисковая машина Ωοίρίηοη |\у\у\у.бс1р1поп.сот|. Данная поисковая система позволяет осуществлять фразовый поиск интересующих пользователя документов (патентов) по запросу, состоящему из двух и более слов с учетом расстояния между ними и порядка их чередования в искомом документе |1Шр://\у\у\у.бс1р1иоп.сот/11с1р/1апд11с1р|. Запрос при этом дополнительно расширяют синонимами для одного и более слов, входящих в запрос.
Недостатком поисковой машины Ωοίρίιίοη является то, что она позволяет расширять запрос только синонимами из предопределенного разработчиками словаря. Расширение запроса другими смысловыми аналогами, например, посредством семантических тезаурусов, а также использование при расширении запроса заданной последовательности обработчиков в Эс1рЫои не предусмотрено, что отрицательно влияет на результативность поисковых операций. Кроме того, в Ωοίρίιίοη не предусмотрена возможность создания пользователем собственных тезаурусов.
Задача, решаемая изобретением
Задача, решаемая изобретением, заключается в оптимизации поиска на устройствах хранения данных документов и их фрагментов, имеющих сходство не только по текстовому, но и по смысловому содержимому, а также в устранении дублирования информации, хранимой в архиве. Задача, решаемая изобретением, заключается также в оптимизации поиска документов по запросам из двух и более слов с учетом интервала между ними и порядка их чередования в искомом документе. При этом фразовый поиск документов осуществляют не только по формальному признаку соответствия запросу, но и с учетом смысловых аналогов. Задача решается за счет
- использования в качестве параметров поиска документов, похожих по текстовому и/или смысловому содержимому на выбранный как всего множества слов, входящих в выбранный документ, так и установленного количества слов из множества, сформированного по определенным правилам, в том числе заданным пользователем,
- использования различных методик формирования множества слов, используемого в качестве поискового запроса в зависимости от целей поиска,
- определения степени сходства документов и их автоматической классификации при занесении в архив,
- расширения исходных запросов посредством добавления в него смысловых аналогов для слов, входящих в исходный запрос с использованием операций предварительной обработки,
- формирования списков документов и их фрагментов, соответствующих параметрам поиска и их ранжирования в соответствии с релевантностью по отношению к запросу, полученному, в том числе, с учетом предварительной обработки,
- визуализации в отображаемых документах результатов, соответствующих параметрам поиска и запросу, полученному после предварительной обработки.
Краткое описание чертежей
На фиг. 1 и 2 показан процесс предварительной обработки поискового запроса, заключающийся в использовании обработчиков двух типов.
На фиг. 3 показан процесс предварительной обработки поискового запроса, состоящего из одного слова с использованием нескольких дополняющих обработчиков.
На фиг. 4 показан способ предварительной обработки поискового запроса.
На фиг. 5 показан алгоритм формирования списка документов для слов, включенных в поисковый запрос и объединенных булевским оператором 'ОК'.
На фиг. 6 и 7 схематически показаны методы разбиения документов на фрагменты.
На фиг. 8 показан алгоритм поиска на устройствах хранения данных фрагментов документов, похожих по текстовому и/или смысловому содержимому на выбранный фрагмент.
На фиг. 9 показан алгоритм поиска на устройствах хранения данных документов по запросу из двух и более исходных слов, с учетом интервала между словами и порядка их чередования в искомых фразах.
Основные положения и определения
Обработка информации на компьютере, реализованная в настоящем изобретении, состоит из операций, добавления, вызова, получения, передачи, сравнения информации и т.д., что часто ассоциируется с ручными операциями, выполняемыми оператором. Описанные здесь операции являются машинными операциями, выполняемыми в сочетании с различными входными данными, предоставляемыми оператором или пользователем, который взаимодействует с компьютером.
Ключевым моментом, определяющим единство замысла настоящих изобретений, является использование предварительной обработки первоначально сформулированного пользователем поискового запроса.
Предварительная обработка запроса
В качестве операций предварительной обработки используют преобразования по различным правилам, по которым из исходного слова получают одно или несколько слов, связанных с исходным словом заданным соотношением. К таким правилам относится использование различных словарей и тезаурусов: морфологических, синонимических, семантических, двуязычных и т.д., а также использование различных функций преобразования. К функциям преобразования, например, относятся: замена строчных символов на прописные и наоборот, замена латинских букв кириллицей и наоборот и т.д. Правила, используемые для предварительной обработки (словари, тезаурусы и функции преобразования) могут быть как заранее предопределенными, так и созданными самим пользователем. Пользователь формирует свои собственные правила в соответствии с известными ему критериями. Например, для удобства поиска видеофильмов, пользователь создаст собственный тезаурус, в соответствии с которым расширяет поисковый запрос. Т.е., любитель комедийных фильмов с участием конкретных актеров составит тематический тезаурус, в котором свяжет слово 'комедия' с фамилиями актеров 'Ришар', 'Мэрфи' и т.д., что позволит ему в дальнейшем оптимизировать поиск нужных данных. После отработки запроса 'комедия', расширенного с использованием такого тематического тезауруса, в результирующем списке будут представлены документы, содержащие также слова 'Ришар' и 'Мэрфи'. Таким образом, формируют любое количество тематических тезаурусов для дальнейшего их использования в качестве обработчиков. Настоящее изобретение предусматривает выбор, по меньшей мере, одной операции предварительной обработки запроса, причем последовательность выполнения операций предварительной обработки запроса задают пользователи. Механизм предварительной обработки запроса предусматривает использование двух типов обработчиков: расширяющего обработчика (РО) и дополняющего обработчика (ДО).
Каждое из слов, используемых для предварительной обработки запроса, входит в какуюлибо логическую группу, формируемую для слов, имеющих сходство по определенному признаку. Например, слова 'зеленый', 'зеленые', 'зеленых' и т.д. входят в одну группу слов, объединенных по морфологическому признаку (однокоренные слова). Необходимо заметить, что в качестве логических групп для РО могут быть использованы группы слов, объединенных признаками, отличными от морфологического признака. В частном случае, логическая группа представлена одним словом. Логические группы слов используются при обработке запроса посредством расширяющего обработчика (РО). При этом, каждое слово входит только в одну логическую группу слов, имеющих сходство по определенному признаку (например, только в одну морфологическую группу). РО используется для выполнения двух типов преобразования, а именно
- от слова к группе, т. е. преобразования, определяющего идентификатор логической группы нужного типа для каждого из обрабатываемых слов;
- от группы к слову, т. е. преобразования, определяющего по идентификатору логической группы все входящие в данную группу слова.
В качестве ДО используют различные словари и тезаурусы: синонимические, семантические, двуязычные и т.д., а также различные функции преобразования, описанные выше (замена строчных символов на прописные и наоборот и т.д.). ДО используется для выполнения преобразования по следующему алгоритму:
- от группы к группе, т. е. преобразование, определяющее по идентификатору конкретной логической группы идентификаторы групп, соответствующие конкретной логической группе.
Такой подход к реализации обработчиков оптимизирует процесс предварительной обработки запроса. Т. е. пользователю не приходится вручную устанавливать связи между всеми словами, входящими в связанные логические группы. Такая обработка будет осуществляться автоматически.
Схематично весь процесс предварительной обработки запроса с использованием обработчиков двух типов (РО и ДО) показан на фиг. 1 в виде графа обработчиков, в котором первая вершина представляет собой РО (преобразование от слова к группе), а все последующие вершины представляют собой ДО (преобразование от группы к группе). Данный процесс иллюстрирует использование неограниченного количества (одного и более) ДО на каждом из этапов предварительной обработки. Т.е., логическая группа, полученная после преобразования посредством РО, обрабатывается с использованием ДО-1/1 - ДО-1/Ν, группы, полученные после преобразования посредством ДО-1/1, обрабатываются с использованием ДО-1/1/1 — ДОЛ/1/Ν, группы, полученные после преобразования посредством ДО-1 /Ν, обрабатываются с использованием ДО-1/№1-ДО-1/М/Ы и т.д.
Для того, чтобы облегчить восприятие описываемого процесса предварительной обра ботки запроса, приведем конкретный пример, в котором осуществляют предварительную обработку запроса, состоящего из одного слова с использованием трех дополняющих обработчиков как это показано на фиг. 2. Осуществляют получение тематических данных из базы данных, содержащей документы на различных языках. Причем упомянутые данные должны соответствовать исходному запросу не только в формальном, но и в смысловом значении. Т.е. пользователь осуществляет поиск интересующей его информации, хранимой не только на родном для него языке (например, русском), но также и той информации, которая хранится на других языках (например, английском и французском).
Таким образом, осуществляют поиск в архиве, данные в котором хранятся на различных языках. Причем для получения искомых данных исходный запрос расширяют с использованием операций предварительной обработки. При этом используют заданную последовательность предварительной обработки запроса, которая заключается в поэтапном использовании расширяющего морфологического обработчика, дополняющего синонимического обработчика и двух дополняющих обработчиков, представленных двуязычными словарями для перевода (русско-английским и русско-французским).
Используют следующий алгоритм предварительной обработки. Пользователь формирует исходный запрос, который состоит из одного слова и при этом задает тип и количество обработчиков, а также последовательность их использования. Поскольку осуществляется тематический поиск данных, на этапе 1, как это показано на фиг.2, целесообразно использовать в качестве РО морфологический преобразователь, который определяет идентификатор логической группы для каждого из слов, входящих в запрос (в данном примере одного слова). После выполнения этапа 1 будет получена группа, включающая в себя слова, объединенные с исходным словом морфологическим признаком (однокоренные слова). Полученная группа (первая группа) может включать в себя одно и более слово. Поскольку искомые данные должны соответствовать исходному запросу не только в формальном, но и в смысловом значении, на этапе 2 целесообразно использование дополняющего обработчика, осуществляющего формирование множества групп, связанных с первой группой синонимическим признаком. Таким образом, в качестве первого дополняющего обработчика ДО-1 будет использован словарь синонимов, что позволит расширить исходный запрос смысловыми аналогами (синонимами). ДО-1 осуществляет преобразование от группы к группе и определит идентификаторы групп для группы, полученной на этапе 1 (первой группы), в соответствии с используемым преобразованием. Слова, входящие в полученные на этапе 2 группы, составляют синонимический ряд. Одним из условий проведения предварительной обработки запроса для данного примера является обязательное присутствие в множестве групп, полученных на этапе 2 первой группы. Поскольку слова, входящие в первую группу, необходимы для проведения дальнейшего поиска информации, и их исключение из процесса дальнейшей обработки приведет к снижению результативности выполнения поисковой операции. В других случаях первая группа может быть исключена из множества групп, полученных на этапе 2, и тем самым не подвергаться дальнейшей обработке. Далее, на этапе 3, каждая из групп, полученных на этапе 2, обрабатывается с использованием двух дополняющих обработчиков: ДО-2, в качестве которого используют русско-английский словарь и ДО-3, в качестве которого используют русскофранцузский словарь. В результате выполнения этапа 3 формируется множество групп, связанных с группами, полученными на этапе 2 соответствующими преобразованиями.
Все группы, полученные на этапах 1-3, включаются в итоговое множество групп. Далее, из полученного итогового множества групп формируют множество слов, из которых формируют окончательный запрос для осуществления поиска в архиве, содержащем информацию на разных языках (русском, английском, французском), с использованием смысловых аналогов для каждого из упомянутых языков. Т.е. заключительный этап предварительной обработки предусматривает использование расширяющего обработчика (РО) для преобразования по типу от группы к слову для всех групп, входящих в итоговое множество. Это преобразование определяет по идентификаторам логических групп все входящие в конкретные группы слова и формирует из них итоговое множество слов, включающее все слова, присущие полученным группам. Из этих слов впоследствии формируется окончательный запрос.
В приведенном выше примере заданная последовательность обработчиков включает по одному дополняющему обработчику конкретного типа: один синонимический для русского языка, один русско-английский для перевода и один русско-французский. Такой подход к формированию последовательности обработчиков является частным случаем. В общем случае, в заданную последовательность при необходимости включается в любом порядке любое количество дополняющих обработчиков конкретного типа (несколько синонимических, несколько двуязычных и т.д.). Причем возможен вариант, при котором дополняющий обработчик одного типа (например, синонимический для русского языка) будет участвовать в обработке одной и той же группы несколько раз.
Для упрощения восприятия процесса предварительной обработки запроса опишем приве денный выше пример более детально. Стоит напомнить, что рассматриваемый пример описывает предварительную обработку запроса, состоящего из одного слова. В том случае, когда запрос будет состоять из нескольких слов, алгоритм предварительной обработки будет применен для каждого из слов, входящих в исходный запрос. В качестве исходного запроса для данного примера, как это показано на фиг. 3, используют слово 'Информация'. Предварительная обработка осуществляется с использованием РО, объединяющего в логические группы слова по морфологическому признаку. Кроме этого используются три дополняющих обработчика: синонимический для русского языка, русскоанглийский для перевода и русско-французский. Преобразования посредством РО обозначены на фиг. 3 пунктирными линиями, а преобразования посредством ДО жирными линиями.
Для исходного слова 'Информация', как это показано на фиг. 3, путем преобразования расширяющим обработчиком от слова к группе определяется логическая группа (ЛГ-1), которая включает в себя слова, имеющие общий морфологический признак с исходным словом. Множество слов для ЛГ-1 будет включать в себя слова 'Информация' и 'Информации' (слова, объединенные с исходным словом 'Информация' морфологическим признаком). Разумеется, группа может включать большее количество слов, но введенное в данном примере ограничение на количество слов связано с упрощением восприятия процесса предварительной обработки. Необходимо отметить, что предварительная обработка РО может заключаться в операции тождества, что используется для тех случаев, когда логическая группа состоит из одного слова.
Далее осуществляется предварительная обработка с использованием дополняющих обработчиков, включающая преобразование от группы к группе. Сначала в соответствии с заданными параметрами предварительной обработки осуществляется обработка синонимическим обработчиком ДО-1 , который формирует множество групп, связанных с ЛГ-1 по синонимическому признаку. Такими группами являются ЛГ-2 и ЛГ-3. Кроме того, одним из условий предварительной обработки запроса является необходимость присутствия в формируемом множестве групп, подлежащих дальнейшей обработке группы ЛГ-1 , как это показано на фиг. 2. Таким образом, после обработки запроса обработчиком ДО-1 получаем множество групп ЛГ-1, ЛГ-2 и ЛГ-3. Разумеется, упомянутое множество может включать большее количество логических групп, но введенное в данном примере ограничение на количество групп связано с упрощением описания процесса предварительной обработки и для облегчения его восприятия. Поскольку группы ЛГ-2 и ЛГ-3 формировались с использованием синонимического преобразо вания, эти группы будут включать в себя слова, составляющие со словом 'Информация' синонимический ряд. Например, множество слов для ЛГ-2 будет включать в себя слова 'Сведения' и 'Сведений', а для ЛГ-3 множество слов будет состоять из 'Сообщение' и 'Сообщения'. Как видно из описания, полученные множества слов связаны между собой синонимическим признаком (обработка ДО-1), а слова в каждом из множеств связаны между собой морфологическим признаком (обработка РО).
Данный пример предусматривает последующую обработку полученных групп дополняющими обработчиками ДО-2 и ДО-3. ДО-2 представляет собой русско-английский словарь для перевода, а ДО-3 русско-французский словарь. Обработка каждым из упомянутых обработчиков приводит к получению новых групп, связанных с группами ЛГ-1 , ЛГ-2 и ЛГ-3 соответствующими преобразованиями. Так, для ЛГ1 посредством ДО-2 формируется множество групп, состоящее из группы ЛГ-4, которая включает в себя слова 1и1огта1юи' и '1п1огтаДопаТ. Аналогичным образом предварительная обработка ДО-2 для ЛГ-2 приводит к формированию множества, состоящего из группы ЛГ-6, которая включает слова 'Ма1еДаТ и 'Ма1епа1з\ а обработка для ЛГ-3 - к формированию множества, состоящего из группы ЛГ-8, которая включает слова 'Меззаде' и 'Меззадез'. Связи между множествами слов, входящих в ЛГ-4 и ЛГ-1, также как и для связок ЛГ -6 - ЛГ-2 и ЛГ-8 - ЛГ-3 определяются признаком использования русско-английского словаря для перевода.
Кроме того, предусмотренное алгоритмом предварительной обработки использование ДО3 для обработки групп ЛГ-1, ЛГ-2 и ЛГ-3 приводит к получению новых множеств групп. Для ЛГ-1 будет получена группа ЛГ-5, состоящая из слов '1п1огтаДоп' и '1п1огтаДоппеГ, для ЛГ-2 будет получена группа ЛГ-7, состоящая из слов 'Репзе1дтепГ и 'Репзе1дтеп1з' и для ЛГ-3 будет получена группа ЛГ-9, состоящая из слов 'Меезаде' и 'Меззадез'. Связи между множествами слов, входящих в ЛГ-5 и ЛГ-1 , также как и для связок ЛГ -7 - ЛГ -2 и ЛГ-9 - ЛГ-3, определяются признаком использования русско-французского словаря для перевода.
Все формируемые в процессе обработки логические группы включаются в итоговое множество групп, которое после выполнения всех преобразований будет состоять из: ЛГ-1, ЛГ-2, ЛГ-3, ЛГ-4, ЛГ-5, ЛГ-6, ЛГ-7, ЛГ-8 и ЛГ9. Заключительная стадия предварительной обработки запроса (после всех преобразований с использованием дополняющих обработчиков) включает в себя преобразование для каждой из логических групп, входящих в итоговое множество, заключающееся в обработке всех упомянутых логических групп расширяющим обработчиком по типу от группы к слову. Это приводит к формированию множества слов для ка ждой из логических групп. При этом, как уже говорилось выше, полученные для каждой из групп множества слов будут включать в себя слова, имеющие общий морфологический признак.
Преобразование посредством РО определяет по идентификаторам логических групп все входящие в конкретные группы слова и формирует из них итоговое множество слов, включающее все слова, присущие полученным группам. При этом осуществляется удаление избыточной информации из итогового множества слов, т. е. удаление дублирующих слов, такими словами в данном примере являются слова 'Ιηίοηηαΐίοη', 'Меккаде' и 'Меккадек,' повторяющиеся по два раза. Из оставшихся в итоговом множестве слов впоследствии формируется окончательный запрос путем объединения упомянутых слов булевским оператором 'ОК'.
Таким образом, для данного примера, окончательный запрос примет вид:
'Информация ОК Информации ОК Сведения ОК Сведений ОК Сообщение ОК Сообщения ОК ΙηίοπηηΙίοη ОК Ιηίοπηηΐίοηηΐ ОК 1пГогша1юппе1 ОК Ма1епа1 ОК Ма1епа1к ОК Меккаде ОК Меккадек ОК Кеηке^дтеηΐ ОК Кешегдтейк'
Стоит обратить внимание на тот факт, что поскольку одно и то же слово может присутствовать в нескольких языках, как например, слово 'Меккаде', одинаково употребимое и в английском, и во французском языках, его обработка РО путем преобразования от слова к группе может включать в себя выбор типа РО. Т. е. в том случае, если для рассмотренного примера слово 'Меккаде' будет являться исходным в запросе (вместо слова 'Информация'), перед пользователем при формировании последовательности обработчиков возникнет дилемма, какой из типов РО использовать для обработки слова 'Меккаде' с целью формирования ЛГ-1 (английской морфологии или французской). При этом РО может быть задан по умолчанию, например, когда с изобретением работает англоязычный пользователь, по умолчанию будет задан РО английской морфологии. Однако это не отрицает явного выбора РО другого типа, например, РО французской морфологии. Необходимо отметить, что выбор типа РО осуществляется только при обработке путем преобразования от слова к группе. В случае обратного преобразования - от группы к слову, определение нужного типа РО осуществляется автоматически, поскольку тип РО будет определен по идентификатору конкретной логической группы.
Алгоритм предварительной обработки представлен в виде последовательности операций, выполняемых системой, в которой функционирует настоящее изобретение, как это показано на фиг. 4. На этапе 4 определяются исходные данные для проведения предварительной обработки, которые включают в себя опре деление исходного слова для предварительной обработки, количество и последовательность использования дополняющих обработчиков (ДО), а также определение расширяющего обработчика (РО) для обработки исходного слова. В частном случае РО определяется по умолчанию и представляет собой морфологический обработчик. На этапе 5 осуществляют операцию инициализации процесса предварительной обработки, в результате чего формируется итоговое множество слов (пустое), итоговое множество групп (пустое), множества групп для обработки для всех ДО (пустые), а также пустой стек обработчиков (СО). Формат стека обработчиков предполагает хранение информации об идентификаторах ДО и информации об идентификаторах групп, предназначенных для обработки упомянутыми ДО. Далее, на этапе 6, осуществляют получение по заданному на этапе 4 исходному слову логической группы, в которую входит данное слово. Данная операция включает в себя обработку посредством РО, и заключается в преобразовании от слова к группе.
На этапе 6, в соответствии с форматом стека обработчиков, осуществляют занесение в СО информации, включающей в себя идентификаторы всех ДО, связанных с РО (как это показано на фиг. 3, таковым будет являться ДО-1), а также идентификаторы групп, предназначенных для обработки упомянутыми ДО (как это показано на фиг. 3, такой группой для ДО-1 будет являться ЛГ-1 ).
Кроме того, полученную группу заносят в итоговое множество групп. Под итоговым множеством групп понимают все множество групп, полученных в процессе предварительной обработки дополняющими обработчиками, путем преобразований от группы к группе.
На этапе 7 осуществляют проверку стека обработчиков. Если стек пустой, то на этапе 8 формируют результирующее множество слов путем преобразования с использованием РО от группы к слову (определение РО для каждой группы на данном этапе осуществляется автоматически). Т.е. из полученного на предыдущих этапах итогового множества групп получают множество слов, из которого исключаются возможные дубли. Затем на этапе 9 осуществляют операцию объединения всех слов, входящих в итоговое множество слов, полученное на этапе 8 булевским оператором 'ОК'.
Если СО не пустой, то на этапе 10 обращаются к последнему обработчику, расположенному в стеке (при этом данному обработчику присваивается статус текущего обработчика). На этапе 11 осуществляют обработку всех групп, входящих в множество, предназначенное для обработки текущим обработчиком с использованием преобразования от группы к группе.
На этапе 11, в соответствии с форматом стека обработчиков, осуществляют занесение в СО информации, включающей в себя иденти фикаторы всех ДО, связанных с текущим обработчиком (как это показано на фиг.3, такими обработчиками будут ДО-2 и ДО-3, связанные с текущим обработчиком ДО-1), а также идентификаторы групп, предназначенных для обработки конкретными ДО (как это показано на фиг. 3, стек будет включать в себя информацию о том, что группы ЛГ -1, ЛГ -2 и ЛГ-3 будут обработаны ДО-2, а также информацию о том, что упомянутые группы будут обработаны ДО-3).
Кроме того, множество групп, полученное после обработки текущим ДО, заносят в итоговое множество групп, исключая при этом возможные дубли. Далее, на этапе 12 из стека обработчиков удаляют обработчик, имеющий статус текущего, после чего возвращаются к выполнению этапа 7.
Выполнение последовательности операций, включенных в этапы 7-12 осуществляют до тех пор, пока стек обработчиков не станет пустым. После чего переходят к выполнению этапа 8.
Поскольку пример приводился для запроса, состоящего из одного слова, стоит заметить, что в случае предварительной обработки более сложных запросов, состоящих из нескольких слов, результаты, полученные после предварительной обработки каждого из слов, входящих в исходный запрос, объединяют с использованием булевских операторов. Например, использование оператора 'ΑΝΏ' в случае поиска по группе слов или оператора 'ΝΕΑΚ1 в случае фразового поиска с учетом последовательности слов и интервала между ними.
Расширение поискового запроса посредством предварительной обработки способствует более широкому охвату информационного пространства используемого для поиска интересующих данных. При этом итоговый запрос формируют без особого труда с использованием как стандартных обработчиков (словарей и функций преобразования), так и созданных пользователем. Таким образом, предварительная обработка расширяет поисковый запрос различными смысловыми аналогами, что способствует поиску документов, похожих по текстовому содержимому не только в формальном, но и в смысловом значении. Такая функциональная возможность исключительно полезна в тех случаях, когда обрабатываются документы близкой тематики, но имеющие различный словарный состав, например, содержащие слова 'обмен информацией' и 'передача данных'. При обычном поиске (без использования предварительной обработки) упомянутые словосочетания при видимом смысловом сходстве не будут интерпретироваться как имеющие сходство, так как отсутствует формальный признак сходства по словарному составу. В случае использования предварительной обработки с применением словаря синонимов, оба словосочетания будут определены как имеющие сходство по смысловому значению и соответственно при поиске с использованием предварительной обработки будут обнаружены документы, содержащие любое из упомянутых словосочетаний.
Количество используемых обработчиков в данном изобретении не ограничено, но необходимо помнить о том, что использование их большого числа не всегда целесообразно, поскольку может привести к получению результирующих списков, содержащих избыточную информацию.
Часто используемые в тексте описания изобретения положения и определения
Блоки информации - находящиеся в документе последовательности символов, ограниченные определенными символами. Таким образом, в качестве блоков информации используют слова, последовательности символов, обозначающих даты (например, 21/03/2001), последовательности цифр обозначающих количество чего-либо и т.д., разделенные пробелами, запятыми, точками и другими знаками препинания.
Программный модуль обработки документов определенного типа - предназначен для разбиения выбранного фрагмента документа на исходные блоки информации (слова). Конкретный модуль разбивает документы определенного типа (формата) на блоки информации, т.е. представляет собой конвертер для извлечения блоков информации из текстового содержимого документов определенного формата. Использование данного модуля позволяет сравнивать на предмет сходства документы различных форматов, имеющих текстовое содержимое. Например, можно сравнивать текстовое содержимое веб страниц с текстовым содержимым документов формата Мюгокой \Уогб и т.д. Данный модуль может быть сформирован самим пользователем. Изобретение предусматривает также использование стандартных модулей для обработки документов определенного типа. Стандартные модули используются для разбиения на исходные слова документов известных форматов (М1сто8ой ОГйсе, АбоЬе АсгоЬа! и т.д.). Например, для разбиения документов формата М1сгокой \Уогб и их фрагментов на исходные слова будет использован стандартный модуль (конвертер, разработанный компанией Мюгокой).
Исходные слова - множество блоков информации, полученное после разбиения конкретного документа программным модулем обработки документов определенного типа.
Множество уникальных слов, входящих в конкретный документ. Формируется из множества исходных слов, входящих в конкретный документ. Например, если какое-либо слово встречается в упомянутом документе несколько раз, в множестве уникальных слов оно будет представлено лишь однажды. Таким образом, множество уникальных слов представляет собой оптимизированное множество исходных слов.
Группа соответствия исходному (или уникальному) слову - представляет собой множест17 во слов, полученное в процессе предварительной обработки конкретного исходного (или уникального) слова. В группу соответствия входят все слова, связанные с исходным (или уникальным) словом соотношениями, определяемыми заданными операциями предварительной обработки.
Элемент группы соответствия - слово, входящее в конкретную группу соответствия, сформированную в процессе предварительной обработки исходного (или уникального) слова, входящего в поисковый запрос.
Формирование списков документов для групп соответствия
Общим для изобретений, включенных в настоящую заявку, является алгоритм формирования списка документов (или их фрагментов) для группы соответствия, связанной с конкретным словом, включенным в поисковый запрос. В дальнейшем при описании алгоритма для простоты будет использован только термин документ, так как полная копия документа является частным случаем фрагмента.
Алгоритм реализуют следующим образом. Получают промежуточный список документов (ПСД) для каждого элемента, входящего в группу соответствия, связанную с конкретным словом. Промежуточные списки документов для каждого из элементов группы соответствия сохраняют. Это связано с тем, что для нескольких слов, входящих в запрос, в процессе предварительной обработки могут быть получены идентичные элементы групп соответствия. Например, для слов 'информация' и 'сообщение' будет получен идентичный элемент - слово 'сведения'. Повторная обработка этого слова с целью формирования для него промежуточного списка при обработке слов 'информация' и 'сообщение' нецелесообразна. Особенно это актуально в тех случаях, когда поисковый запрос состоит из близких по смыслу слов, например, синонимов. Сформировав один раз промежуточный список для элемента группы соответствия, в дальнейшем осуществляют к нему обращение.
Полученные для каждого элемента группы соответствия списки (ПСД1 - ПСДт, где т количество элементов, входящих в группу) объединяют в общий список документов для конкретной группы соответствия. Т.е., например, объединяют списки для слов 'информация', 'сведения' и 'сообщение', входящих в одну группу. Упомянутый общий список документов (СД) для группы соответствия, связанной с конкретным словом, включенным в поисковый запрос, формируют с использованием булевского оператора 'ОК':
СД = 'ПСД1' ОК 'ПСД2' ОК 'ПСДт'.
Таким образом, для конкретной группы соответствия формируют список документов, в которых встречается как минимум один элемент упомянутой группы соответствия. Например, осуществляют формирование списка докумен тов для слова 'информация'. В группу соответствия, полученную для данного слова, входят слова: 'информация', 'сведения' и 'сообщение'. В полученный список документов будут включены документы, содержащие, по меньшей мере, одно из перечисленных слов, входящих в группу соответствия для слова 'информация'. Например, в Документ1 входят слова 'информация' и 'сведения', в Документ2 входит слово 'сведения', в ДокументЗ входит слово 'информация'. Тогда список документов для слова 'информация' будет включать все три документа, причем каждый из документов будет представлен по одному разу (несмотря на наличие в Документ1 двух слов, удовлетворяющих параметрам запроса).
Списки документов, полученные для групп соответствия, сохраняют. Это связано с тем, что для нескольких слов, входящих в запрос, могут быть получены идентичные группы соответствия. Например, для слов 'информация' и 'сообщение' может быть получена идентичная группа соответствия: 'информация', 'сообщение', 'сведения' и 'данные'. Соответственно повторное формирование списка для данной группы нецелесообразно.
Вышеописанный алгоритм применяется для формирования групп соответствия для каждого из слов, включенных в поисковый запрос.
Формирование списка документов для слов, объединенных в запросе оператором 'ОК'
Общим для изобретений, включенных в настоящую заявку, является также алгоритм формирования списка документов для множества слов, объединенных в поисковом запросе булевским оператором 'ОК'.
Формат описания документов, входящих в итоговый список, включает поля 'Идентификатор методики', 'Идентификатор документа', а также поле для подсчета количества содержащихся в документах групп соответствия - 'Количество групп соответствия'. В том случае, если речь идет о формировании списка фрагментов, упомянутый формат описания будет дополнительно включать поле 'Идентификатор фрагмента'. Т.е. формат описания фрагментов в итоговом списке можно представить в виде:
Ю Методики II) Документа Ю Фрагмента Количество групп соответствия
Если фрагментом является полная копия документа, то ГО фрагмента может совпадать с ГО документа. Формирование итогового списка (ИС) документов для слов, объединенных в запросе булевским оператором 'ОК', осуществляют следующим образом.
На этапе 13, как это показано на фиг. 5, в качестве исходных параметров используют списки документов, сформированные для групп соответствия, связанных со словами, входящими в поисковый запрос. На этапе 14 в итоговый список документов заносят список документов, сформированный для группы соответствия, связанной с первым словом, входящим в поисковый запрос. При этом значение поля для подсчета количества групп соответствия, для всех занесенных в ИС документов, примет значение единицы. Далее, на этапе 15, определяют все ли слова, входящие в поисковый запрос, обработаны. Если нет, то на этапе 16 обращаются к группе соответствия, связанной со следующим словом, входящим в поисковый запрос, и присваивают ей статус текущей. После чего на этапе 17 осуществляют формирование итогового списка документов с использованием правила:
ИС=ИС' ОК. 'СД текущей группы соответствия'
Т.е. на этапе 17 в итоговый список документов заносят документы из списка, полученного для конкретной группы соответствия, связанной со словом, включенным в поисковый запрос. На этапе 17 также осуществляют увеличение значения поля для подсчета количества групп соответствия для документов, включенных в ИС. Данная операция осуществляется следующим образом. Например, запрос состоит из двух слов:
первое - 'информация' и второе 'необходимая'. Для каждого из этих слов получена группа соответствия: первая группа 'информация', 'сведения' и 'сообщение'; вторая группа - 'необходимая' и 'нужные'. В архиве имеются четыре документа:
Идентификатор документа Слова, входящие в текстовое содержимое документа
ГО Документ1 'необходимая', 'информация', 'нужные', 'сведения'
ГО Документ2 'нужные', 'сведения'
ГО ДокументЗ 'информация'
ГО Документ4 'необходимая'
Слова из группы соответствия для первого слова 'информация' входят только в три документа. Поэтому список документов, полученный для группы соответствия, связанной со словом 'информация', будет включать: Документ1, Документ2 и ДокументЗ. Соответственно итоговый список после выполнения этапа 14 можно представить в следующем виде:
Идентификатор документа Количество групп соответствия
ГО Документ1 1
ГО Документ2 1
ГО ДокументЗ 1
Слова из группы соответствия для второго слова 'необходимая' также представлены не во всех документах, а лишь в Документ1, Документ и Документ4. Поэтому итоговый список документов после выполнения этапа 17 для группы соответствия, связанной со вторым словом, входящим в поисковый запрос, примет вид:
ГО Документ2 2
ГО ДокументЗ 1
ГО Документ4 1
Поскольку Документ1 и Документ2 включают элементы групп соответствия, связанные как с первым, так и со вторым словом, входящим в поисковый запрос, значение поля для подсчета количества групп соответствия, встречающихся в этих документах на этапе 17 примет значение два. Сами упомянутые документы при этом повторно в итоговый список не заносятся. В итоговый список также добавляется новый Документ4, и значение поля для подсчета количества групп соответствия для него принимает значение единицы.
Этапы 16 и 17 выполняют до тех пор, пока на этапе 15 не определят, что все слова из поискового запроса обработаны. После чего переходят к этапу 18, на котором итоговый список документов для множества слов, объединенных в поисковом запросе булевским оператором 'ОК', считают сформированным.
Способ поиска похожих по текстовому и/или смысловому содержимому фрагментов в электронных документах, хранимых на устройствах хранения данных Сущность изобретения
Способ заключается в индексировании каждого сохраняемого в архиве документа, разбиении документов на фрагменты и формировании тематик из одного и более фрагмента, определении параметров поиска, проведении поиска и ранжировании полученного в результате поиска списка фрагментов документов в соответствии с определенными параметрами.
В качестве параметров поиска определяют множество входящих в выбранный фрагмент документа уникальных блоков информации и расширяют его посредством предварительной обработки каждого из упомянутых уникальных блоков информации. При этом под уникальным блоком информации понимают блок информации, встретившийся в выбранном фрагменте документа один и более раз. В качестве предварительной обработки используют операцию получения, по меньшей мере, из одного уникального блока информации, одного или нескольких блоков информации, связанных с уникальным блоком информации заданным соотношением.
В качестве блока информации используют находящуюся в документе последовательность символов, ограниченную определенными символами. В качестве фрагмента документа используют любую выбранную последовательность блоков информации, входящую в документ, в том числе полную копию документа.
Документ разбивают на фрагменты с использованием, по меньшей мере, одного установленного правила. Множество фрагментов документов, среди которых осуществляют по-
Идентификатор документа Количество групп соответствия
ГО Документ1 2
иск фрагментов, похожих по текстовому и/или смысловому содержимому на выбранный, ограничивают указанием, по меньшей мере, одного правила, посредством которого осуществляли разбиение документов на фрагменты и/или указанием тематики. Тематика представляет собой множество фрагментов, объединенных определенным признаком. В качестве тематики используют, например, раздел классификатора.
Разбиение документов на фрагменты можно осуществлять в автоматическом режиме. Для разбиения фрагментов документов на множество блоков информации используют программный модуль обработки документов.
Для формирования поискового запроса из множества блоков информации выбирают, по меньшей мере, одну операцию предварительной обработки, причем последовательность выполнения операций предварительной обработки задают пользователи. При этом изобретение в качестве предварительной обработки запроса предусматривает использование одной логической операции тождества. После выполнения операции предварительной обработки исходный блок информации либо удаляют из результирующего запроса, либо оставляют в результирующем запросе.
Поиск фрагментов документов, похожих по текстовому и/или смысловому содержимому на выбранный, осуществляют с использованием либо всего множества уникальных блоков информации, входящих в выбранный фрагмент документа, либо определенного их количества. Количество уникальных блоков информации, определяемых в качестве параметров для поиска и методику их выбора устанавливают пользователи. Множество уникальных блоков информации определяемое в качестве параметров поиска формируют с использованием одной и более функции, в качестве которых используют
- функцию формирования списка уникальных блоков информации для выбранного фрагмента,
- функцию определения количества вхождений в текстовое содержимое фрагментов выбранной тематики блоков информации, полученных в процессе предварительной обработки уникального блока информации,
- функцию определения частоты вхождения уникальных блоков информации в текстовое содержимое фрагментов выбранной тематики, где частоту вхождения исчисляют в процентах от числа вхождений наиболее часто используемого в текстовом содержимом выбранной тематики уникального блока информации.
Кроме того, множество уникальных блоков информации, определяемое в качестве параметров поиска, формируют по определенным пользователем правилам.
Поиск фрагментов документов, соответствующих параметрам поиска, осуществляют на локальных и/или удаленных устройствах хране ния данных. В качестве удаленных устройств используют любой информационный ресурс или систему, предназначенную для поиска данных, функционирующую в компьютерной сети и предоставляющую в ответ на поисковый запрос список фрагментов документов, удовлетворяющих параметрам поиска.
Полученные результаты поиска (списки фрагментов документов) отображают и осуществляют их ранжирование в соответствии с определенными параметрами. Ранжирование списка фрагментов документов, похожих по текстовому и/или смысловому содержимому на выбранный, осуществляют в соответствии с количеством присутствующих в найденных фрагментах документов групп блоков информации. Упомянутые группы объединяют блоки информации, полученные в процессе предварительной обработки конкретного блока информации. Для тех фрагментов документов, в которых количество групп блоков информации совпадает, осуществляют уточняющую сортировку. При этом для каждого фрагмента осуществляют подсчет количества вхождений в текстовое содержимое фрагментов выбранной тематики, всех присущих фрагменту групп блоков информации. Фрагменты, входящие в полученный в результате поиска список фрагментов, отображают с визуализацией отличий их текстового содержимого от текстового содержимого выбранного фрагмента.
В случае обнаружения в архиве документа, имеющего заданную степень сходства с заносимым в архив документом, заносимый в архив документ сохраняют как новую версию обнаруженного в архиве документа. При этом новую версию сохраняют в виде полной копии заносимого в архив документа или в виде отличий текстового содержимого заносимого в архив документа от текстового содержимого обнаруженного в архиве документа. Фрагменты заносимых в архив документов автоматически классифицируют.
Описание изобретения
Данный способ предусматривает формирование на устройстве хранения данных архива документов и их фрагментов, в котором все сохраняемые фрагменты документов проиндексированы. Фрагмент документа представляет собой любую выбранную последовательность исходных слов, входящих в документ, и состоит, по меньшей мере, из одного исходного слова. В качестве фрагмента документа используют например, предложение, абзац, параграф или раздел документа и т.д. Частным случаем фрагмента документа является полная копия документа. Индексирование заносимых в архив документов осуществляют в соответствии с установленными правилами. Т.е. при занесении в архив документа определяют фрагменты, на которые он будет разбит и, в соответствии с выбранной методикой разбиения документа, осуществляют его индексирование для дальнейшего индексного поиска фрагментов документов. При этом, независимо от того, будет документ разбит на фрагменты или нет, по умолчанию осуществляют индексирование его полной копии с использованием определенной методики, единой для всех документов. Таким образом, документ в архиве хранится в виде, по меньшей мере, одного фрагмента, представляющего собой его полную копию. Причем фрагменты, представляющие собой полные копии хранимых в архиве документов, проиндексированы с использованием единой методики.
Определение методики разбиения документа на фрагменты не зависит от количества слов, входящих в заданную последовательность слов, составляющих фрагмент. Например, в одном случае документ разбивается на предложения, в другом случае на абзацы, а в третьем случае фрагмент представляет собой полный документ. Документ одновременно может быть разбит на разные фрагменты, представляющие собой, например, как абзацы, так и предложения. Фрагменты могут пересекаться между собой. При определении фрагмента маркируют область документа, которую определяют в качестве фрагмента. На фиг. 6 схематически показан документ, который разбит на пять различных фрагментов. При этом Фрагмент1 и Фрагмент2 пересекаются, а Фрагмент5 перекрывает ФрагментЗ, Фрагмент4 и часть Фрагмент2. При разбиении документа использована одна методика (Методика1). Это означает, что все упомянутые фрагменты документа будут проиндексированы с использованием одной методики.
На фиг. 7 схематически показан документ, который разбит на четыре фрагмента. Причем при определении Фрагмент6-8 использована Методика1, а при определении Фрагмент8-9 использована Методика2. Соответственно в данном случае фрагменты одного документа будут проиндексированы с использованием различных методик. Один и тот же фрагмент документа (Фрагмент8) может быть определен и проиндексирован с использованием нескольких методик. Формат хранимого в архиве фрагмента документа можно представить в следующем виде:_____________________________________________
II) Методики | II) Документа | II) Фрагмента
Такой формат позволяет однозначно идентифицировать любой фрагмент, хранимый в архиве при его поиске с использованием любой методики. Формат хранимого в архиве фрагмента документа может иметь другой вид, например, может быть расширен путем введения дополнительных полей.
При индексном поиске фрагментов документов указывают методику, с использованием которой будут осуществлять поиск упомянутых фрагментов. Поиск фрагментов документов можно осуществлять с использованием одной и более методик. Например, для поиска фрагментов, похожих по текстовому и/или смысловому содержимому на Фрагмент8 с использованием Методики1, будут задействованы Фрагменты17. Для поиска фрагментов, похожих по текстовому и/или смысловому содержимому на Фрагмент8 с использованием Методики2, будет задействован Фрагмент9. В случае поиска фрагментов, похожих по текстовому и/или смысловому содержимому на Фрагмент8 с использованием обеих методик, будут задействованы Фрагменты1-7 и 9. Изобретение предусматривает установку параметров использования методики по умолчанию. В этом случае по умолчанию поиск ведут по той методике (или методикам) в соответствии с которой формировался выбранный фрагмент. Указание методики позволяет ограничивать область поиска искомых фрагментов документов. Область поиска также можно ограничивать указанием одной и более тематик, среди которых осуществляют поиск фрагментов, похожих по текстовому и/или смысловому содержимому на выбранный.
Методику разбиения документов на фрагменты определяют пользователи. При этом предусмотрен режим, при котором устанавливают параметры для автоматического разбиения документов на фрагменты, например, на абзацы и т.д. Для этого формируют правила, в соответствии с которыми будет осуществляться разбиение документов на фрагменты. Для разбиения документа на предложения таким правилом будет ограничение последовательности слов в тексте соответствующим знаком препинания, т. е. точкой. Для определения абзацев будет использоваться, например, маркер перевода курсора на новую строку и т.д. Изобретение предусматривает настройку режима, при котором осуществляется самообучение системы для дальнейшего автоматического разбиения документов на фрагменты в соответствии с определенными правилами. Такой режим предусмотрен для разбиения на фрагменты тех документов, формат которых представляет собой упорядоченную последовательность блоков информации. В качестве примера можно привести текст патентной заявки, включающий обязательные разделы: 'Описание изобретения', 'Формула изобретения', 'Реферат' и т.д. Несколько раз обратившись к документу такого типа (являющегося патентной заявкой) и разделив его на фрагменты с использованием конкретной методики, пользователь неявно формирует правила для дальнейшего автоматического разбиения на фрагменты всех текстов патентных заявок. Система 'запоминает' правила разбиения документа (определив в качестве маркеров, например заголовки разделов), и в дальнейшем разбиение патентных заявок осуществляется автоматически без вмешательства пользователя. Изобретение позволяет осуществлять поиск фрагментов, похожих по текстовому и/или смысловому содержимому на выбранный одновременно для одного и более выбранного фрагмента.
Изобретение предусматривает формирование тематик из одного и более фрагмента. При этом множество фрагментов для формирования конкретной тематики определяет пользователь. Тематика представляет собой, например, множество фрагментов, привязанных к классификатору или к его конкретному разделу. Один и тот же хранимый в архиве документ (и соответственно его фрагмент) может быть привязан к нескольким тематикам.
Способ реализуют следующим образом. На этапе 19, как это показано на фиг. 8, осуществляют разбиение текста выбранного фрагмента документа на исходные блоки информации (исходные слова). Выбранным фрагментом документа является тот фрагмент, для которого осуществляют поиск похожих с ним по текстовому и/или смысловому содержимому фрагментов документов. Для разбиения выбранного фрагмента документа на исходные слова используют программный модуль обработки документов определенного типа. Из полученного множества исходных слов формируют множество уникальных слов, присущих выбранному фрагменту документу. Множество уникальных слов представляет собой оптимизированное множество исходных слов. Например, если какое-либо слово встречается в выбранном фрагменте несколько раз, в множестве уникальных слов оно будет представлено лишь однажды.
Далее на этапе 20 осуществляют предварительную обработку каждого уникального слова из полученного на этапе 19 множества уникальных слов для выбранного фрагмента. Таким образом, на этапе 20 осуществляют формирование групп соответствия для каждого уникального слова. Предварительная обработка уникальных слов расширяет поисковый запрос различными смысловыми аналогами, что способствует поиску фрагментов документов, похожих по текстовому содержимому не только в формальном, но и в смысловом значении.
На этапе 21 определяют, будут ли для поиска фрагментов документов, похожих по текстовому и/или смысловому содержимому на выбранный, использовать все уникальные слова ,полученные на этапе 19. Список уникальных слов, используемых для поиска, может включать либо все уникальные слова, полученные на этапе 19, либо определенное их количество. Если на этапе 21 определяют, что будут использовать не все уникальные слова, а определенное их количество, то переходят к выполнению этапа 22. На этом этапе определяют, будут ли для определения множества уникальных слов использовать определенные пользователем правила. Если да, то переходят к выполнению этапа 23, на котором формируют список уникальных слов для поиска по правилам, установленным пользователем. Такими правилами могут быть, например, формирование множества уникальных слов для поиска из множества уникальных слов, полученных на этапе 19 с количеством символов, не превышающим заданное пользователем число. Для формирования множества уникальных слов для поиска пользователь может устанавливать и более сложные правила. Например, определение для поиска тех слов, частота вхождения которых в выбранный фрагмент находится в определенном интервале. Кроме того, список слов для поиска может быть задан путем ручного выбора слов из списка уникальных слов, полученного на этапе 19.
Если на этапе 22 определяют, что для формирования множества уникальных слов для поиска не будут использовать определенные пользователем правила, то переходят к выполнению этапа 24. На этом этапе осуществляют выбор одной и более функций, предусмотренных настоящим изобретением для определения множества уникальных слов, которые будут использованы для поиска. В качестве функций, посредством которых осуществляют формирование множества уникальных слов для поиска, используют
- функцию формирования списка уникальных слов для выбранного фрагмента,
- функцию подсчета количества вхождений уникальных слов в текстовое содержимое фрагментов выбранной тематики,
- функцию определения частоты вхождения уникальных слов в текстовое содержимое фрагментов выбранной тематики.
Использование упомянутых функций актуально в тех случаях, когда в качестве выбранного фрагмента используют полную копию документа. Если при поиске в качестве выбранного фрагмента используют относительно небольшой фрагмент и поиск имеющих с ним сходство фрагментов осуществляют в архиве, использование в запросе всего множества уникальных слов из выбранного фрагмента не создает проблем. Если же в запросе используют все множество уникальных слов, полученное для выбранной полной копии достаточно большого документа, то скорость формирования итогового списка фрагментов снижается. Еще более критичен показатель скорости формирования итогового списка при поиске фрагментов на удаленных устройствах. Поэтому в ряде случаев для формирования множества уникальных слов для поиска гораздо удобнее воспользоваться следующими функциями.
Функция формирования списка уникальных слов для выбранного фрагмента
Данная функция (Ф1) предназначена для формирования множества уникальных слов, присущих выбранному фрагменту.
Функция подсчета количества вхождений уникальных слов в выбранную тематику
Данная функция (Ф2) реализована следующим образом. Имеется уникальное слово, причем для него сформирована группа соответствия, полученная в процессе предварительной обработки. Для каждого элемента группы соответствия, связанной с уникальным словом, определяют количество его вхождений в текстовое содержимое фрагментов выбранной тематики (или в текстовое содержимое всех документов хранимых в архиве). Затем суммируют показатели количества вхождений всех элементов групп соответствия, составляющих конкретную группу. Например, в процессе предварительной обработки уникального слова 'информация' получают группу соответствия, включающую множество элементов: 'информация', 'сведения' и 'сообщение'. Далее для каждого элемента осуществляют подсчет количества вхождений в текстовое содержимое выбранной тематики: 'информация' - десять, 'сведения' - пять, 'сообщение' - три. Таким образом, данная функция определяет, что общее количество вхождений в выбранную тематику всех элементов составляющих группу соответствия, полученную для уникального слова 'информация', равно восемнадцати.
Функция определения частоты вхождений уникальных слов в выбранную тематику Данная функция (Ф3) реализована следующим образом. Берется уникальное слово и для него определяют частоту вхождения в текстовое содержимое фрагментов выбранной тематики. Частота вхождения исчисляется в процентах от количества вхождений уникального слова, наиболее часто используемого в текстовом содержимом фрагментов выбранной тематики. Например, берется уникальное слово 'информация', для которого необходимо определить частоту вхождения в текстовое содержимое фрагментов выбранной тематики. Определяют, что в текстовом содержимом фрагментов выбранной тематики наиболее часто встречается уникальное слово 'поиск' и общее количество вхождений этого слова - 100 раз. Данный показатель считают за 100%. При этом количество вхождений в выбранную тематику уникального слова 'информация' равно 30 и это означает, что частота его вхождений равна 30%.
Манипулирование вышеописанными функциями позволяет пользователю создавать различные правила (логики) для определения множества уникальных слов, используемых в качестве параметров поиска. Приведем три возможных логики, каждая из которых может использоваться в зависимости от цели поисковой операции.
Первая логика
Данная логика позволяет осуществлять выбор установленного количества слов из списка уникальных слов, полученного на этапе 19 и упорядоченного в соответствии с общим количеством вхождений в выбранную тематику (или весь архив) всех слов, полученных в процессе предварительной обработки уникального слова.
Данная логика предполагает использование функции формирования списка уникальных слов для выбранного фрагмента и функции подсчета количества вхождений уникальных слов в выбранную тематику.
Для выбранного фрагмента определяют список уникальных слов (Ф1) и для каждого из этих уникальных слов осуществляют подсчет количества вхождений в выбранную тематику (использование Ф2). Далее список сортируют в порядке возрастания количества вхождений уникальных слов в выбранную тематику. Т. е. на первом месте в полученном списке будет располагаться уникальное слово с наименьшим числом вхождений (наиболее редкое для выбранной тематики). После этого из упорядоченного списка уникальных слов по определенным пользователем правилам формируют множество слов для поиска. Такими правилами является указание интервала для выбора слов. Интервал для выбора слов может быть любым. Если список включает в себя пятьдесят уникальных слов и при этом выбирают двадцать слов, то можно задать, например, следующие интервалы: с первого по двадцатое слово, с одиннадцатого по тридцатое, с тридцать первого по пятидесятое и т.д. При формировании множества уникальных слов для поиска с использованием первой логики можно указать процентный показатель, например, выбрать из списка 30% наиболее редких слов и т. д.
Основная задача данной логики - выбор для поиска установленного количества наиболее редких или наиболее часто используемых в выбранной тематике уникальных слов.
Вторая логика
Данная логика позволяет из множества уникальных слов, полученных для выбранного фрагмента, выбрать слова, входящие в выбранную тематику (или весь архив) с заданной частотой. Данная логика предполагает использование функции формирования списка уникальных слов для выбранного фрагмента и функции определения частоты вхождений уникальных слов в выбранную тематику.
Для выбранного фрагмента формируют множество уникальных слов (Ф1) и для каждого из этих уникальных слов определяют частоту его вхождения в выбранную тематику (использование Ф3). После этого из всего множества уникальных слов, полученных для выбранного фрагмента, осуществляют выбор уникальных слов по определенным пользователем правилам. В качестве правил указывают интервал частоты вхождения, в соответствии с которым формируют список уникальных слов для поиска или количество слов, имеющих наименьший или наоборот набольший показатель частоты вхождения. Для примера, рассмотренного при описании функции определения частоты вхождений, в случае задания интервала 25-30% для поиска будет отобрано слово 'информация'.
Использование уникальных слов с заданным диапазоном частоты вхождения в отличие от первой логики позволяет более гибко подходить к формированию поискового запроса. Указание количества слов (первая логика), даже наиболее редко входящих в выбранную тематику, не всегда позволяет сформировать оптимальный запрос. Например, в множество из установленных двадцати наиболее редких слов могут войти слова с частотой вхождения 5% (первое слово) и 30% (двадцатое слово). Т.е. разрыв между показателями частоты вхождения обоих слов слишком велик. Использование второй логики позволяет устранить эту проблему.
Третья логика
Данная логика позволяет формировать для поиска множество уникальных слов с наибольшим количеством вхождений в выбранную тематику и при этом имеющих наименьшее количество вхождений в весь хранимый архив за исключением выбранной тематики. Данная логика предполагает использование функции формирования списка уникальных слов для выбранного фрагмента и функции определения частоты вхождений уникальных слов в выбранную тематику.
Формируют список уникальных слов для выбранного фрагмента (Ф1). После чего для каждого из полученных уникальных слов определяют частоту его вхождения в текстовое содержимое фрагментов выбранной тематики (Ф3). Далее последовательно обращаются к каждому уникальному слову из полученного списка и осуществляют определение частоты его вхождения в весь архив за исключением выбранной тематики (Ф3). Таким образом, для каждого уникального слова определяют два показателя: частоту вхождения в выбранную тематику (Ч1) и частоту вхождения в весь архив за исключением выбранной тематики (Ч2). Затем для каждого уникального слова определяют разницу показателей Ч1 и Ч2 (Р=Ч1-Ч2), после чего список уникальных слов сортируют в порядке убывания показателя Р. Из сформированного списка для запроса выбирают установленное количество уникальных слов, имеющих наибольший показатель Р.
Преимущество данной логики заключается в том, что она позволяет осуществлять поиск по словам, являющимся ключевыми для интересующей пользователя тематики. Например, выбранная тематика представляет собой раздел классификатора 'Инвестиции'. Разумеется, слово 'Инвестиции' и его словоформы будут встречаться в текстовом содержимом выбранной тематики довольно часто и, например, имеют показатель Ч1=80%. Аналогичный показатель (Ч1=80%) будет иметь и уникальное слово 'могут', использование которого в запросе не желательно, т. к. оно является общеупотребимым. Показатель частоты вхождения слова 'инвестиции' в весь архив за исключением вы бранной тематики будет достаточно низким, например, Ч2=1 %. Чего нельзя сказать об общеупотребимом слове 'могут', показатель Ч2 которого равен, например, 10%. Таким образом, показатель Р для слова 'инвестиции' будет равен 80-1=79, а показатель Р для слова 'могут' будет равен 80-10=70. В запрос будет включено слово 'инвестиции', как имеющее наиболее высокий показатель Р. В случае возможного равенства показателя Р осуществляют уточняющую сортировку в соответствии с параметрами, определенными пользователем. Например, предпочтение отдают уникальному слову, имеющему больший показатель Ч1 или слову, имеющему меньший показатель Ч2.
Таким образом, данная логика позволяет исключить из запроса общеупотребимые слова и сформировать запрос из множества уникальных слов, наиболее точно характеризующих текстовое содержимое выбранной тематики. Использование данной логики актуально в тех случаях, когда в архиве хранится большое количество документов, привязанных к соответствующим тематикам. Использование данной логики не ограничивается выбором установленного количества уникальных слов, имеющих наибольший показатель Р. Для поиска могут быть выбраны уникальные слова, показатель Р которых находится в заданном диапазоне.
Необходимо заметить, что количество логик не ограничивается описанными выше тремя логиками, т. к. пользователь может использовать другие комбинации функций для создания новых логик.
После выполнения этапов 23, 24 или если на этапе 21 определяют, что для поиска будет использовано все множество уникальных слов, переходят к выполнению этапа 25, на котором формируют итоговый список уникальных слов для участия в поисковом запросе. После формирования итогового списка уникальных слов для участия в поисковом запросе переходят к выполнению этапа 26. На данном этапе осуществляют формирование итогового списка документов для множества слов, полученного на этапе 25. Список формируют с использованием алгоритма формирования списка документов (или их фрагментов) для множества слов, объединенных в поисковом запросе булевским оператором 'ΘΚ.'.
Поиск фрагментов, соответствующих параметрам запроса, осуществляют как на локальных, так и на удаленных устройствах хранения данных. Изобретение позволяет осуществлять поиск фрагментов документов, соответствующих сформированному запросу одновременно на локальных и удаленных устройствах. При этом в качестве удаленных устройств используют любой информационный ресурс или систему, предназначенную для поиска данных и функционирующую в компьютерной сети.
При поиске фрагментов на удаленных устройствах для каждого элемента группы соответствия формируют промежуточный список фрагментов, полученный от указанных пользователем удаленных устройств. При этом список фрагментов, полученный от удаленных устройств, может представлять собой как список полных копий документов (ссылок на них), так и список их фрагментов. Разбиение полных копий документов, полученных от удаленных устройств, на фрагменты осуществляют по формальным правилам, которые могут быть заданы, например, для документов, получаемых от конкретных устройств. Пример разбиения документов, представляющих собой патентные заявки, был описан выше. Аналогичным образом можно разбивать на фрагменты документы другого типа, например, электронные письма с рассылкой новостей и т.д. Если разбиение документов, получаемых от удаленных устройств, на фрагменты невозможно, то фрагментом считаются полные копии этих документов.
После того как итоговый список фрагментов, похожих по текстовому и/или смысловому содержимому на выбранный, будет сформирован, на этапе 26 осуществляют его упорядочивание и отображение.
Список на этапе 26 упорядочивают в соответствии с количеством присутствующих в полученных фрагментах групп соответствия. При этом в конкретную группу соответствия входят все слова, полученные в процессе предварительной обработки уникального слова, входящего в выбранный фрагмент и включенного в запрос. Например, уникальным словом является слово 'информация'. Для предварительной обработки используют морфологический РО и два ДО - словарь синонимов и русско-английский словарь для перевода. Тогда в группу соответствия, сформированную для слова 'информация' будут входить, например, элементы: 'информация', 'информации', 'сведения', 'сведений', 'сообщение', 'сообщений', 'ίπίοηηαΐίοη' и т.д. В случае любого количества вхождений одного и более упомянутых элементов во фрагмент считается, что в нем присутствует одна группа соответствия. Таким образом, осуществляют сортировку списка в порядке убывания количества входящих во фрагменты групп соответствия. В список включены четыре фрагмента:
ГО фрагмента Слова, входящие во фрагмент Количество групп во фрагменте Кол-во вхождений групп в тематику
ГО Фрагмент! 'необходимая', 'нужные', 'информация', 'сведения', 'поиск', 'искать' II) Группа1 /необходимая, нужные/ 7
ГО Группа2 /информация, сведения/ 10
ГО ГруппаЗ /поиск, искать/ 5
ГО Фрагмент2 'информация', 'сведения', 'поиск', 'искать' ГО Группа2 /информация, сведения/ 10
ГО ГруппаЗ /поиск, искать/ 5
ГО ФрагментЗ 'поиск', 'искать', 'необходимая' 'нужные' ГО Группа1 /необходимая, нужные/ 7
ГО Группа2 /информация, сведения/ 10
ГО Фрагмент4 'информация' ГО Группа2 /информация, сведения/ 10
На первом месте в списке расположен Фрагмент1, поскольку в него входят слова из трех групп соответствия. Далее идут два фрагмента с одинаковым количеством групп соответствия - Фрагмент2 и ФрагментЗ (по две группы). Замыкает список Фрагмент4 с одной группой соответствия.
Далее осуществляют уточняющую сортировку итогового списка для тех фрагментов, в которых количество групп соответствия одинаково: Фрагмент 2 (Группа2, ГруппаЗ) и ФрагментЗ (Группа1, Группа2). Уточняющая сортировка итогового списка заключается в определении общего количества вхождений групп соответствия, присущих упомянутым фрагментам в текстовое содержимое фрагментов выбранной тематики. Приоритет присваивают фрагменту с наибольшим показателем количества вхождений групп соответствия в выбранную тематику. Поскольку количество вхождений групп соответствия в текстовое содержимое фрагментов выбранной тематики для Фрагмент2 равно 15 (10+5), а для ФрагментЗ равно 17 (7+10), окончательный вид итогового списка будет таков: на первом месте Фрагмент1, на втором ФрагментЗ, далее Фрагмент2, и замыкает список Фрагмент4.
ГО фрагмента Количество групп во фрагменте Количество вхождений групп в тематику
ГО Фрагмент! З 22
ГО ФрагментЗ 2 17
ГО Фрагмент2 2 15
ГО Фрагмент4 1 10
После уточняющей сортировки Фрагмент2 и ФрагментЗ в итоговом списке поменялись местами. В случае равенства показателей количества вхождений в выбранную тематику групп соответствия, для дополнительной сортировки используют, например, весовые коэффициенты, присвоенные группам соответствия. В случае равенства всех показателей приоритет может быть присвоен по дате последнего обращения к фрагменту и т.д.
Далее на этапе 26 итоговый список фрагментов отображают пользователю в соответствии с установленными параметрами. В качестве параметров отображения используют, например, минимальное значение показателя степени сходства, при котором фрагмент, входящий в итоговый список отображают. Установка параметров для отображения итогового списка фрагментов включает в себя также ограничение количества отображаемых фрагментов. В этом случае отображают итоговый список, в котором содержится определенное количество фрагментов, имеющих наибольшую степень сходства с выбранным. Установка параметров отображения включает в себя также комбинированный метод. Т. е. в качестве параметров отображения одновременно используют как показатель степени сходства, так и ограничение количества отображаемых фрагментов.
Степень сходства определяют следующим образом. Осуществляют подсчет количества групп соответствия, входящих в определенное в качестве параметров поиска множество уникальных слов. После чего определяют соотношение количества групп соответствия в каждом из фрагментов, включенных в итоговый список к количеству групп соответствия в определенном в качестве параметров поиска множестве уникальных слов. Полученный показатель может измеряться, например, в процентах. Если в множестве уникальных слов, определенных в качестве параметров поиска, присутствует десять групп соответствия, а в конкретном фрагмент, входящем в итоговый список, восемь групп, то коэффициент степени сходства для данного фрагмента будет равен 8/10=0,8 или 80%. Если в качестве параметров отображения будет задан, например, минимальный показатель - 70%, то фрагменты, включенные в итоговый список и имеющие степень сходства с выбранным фрагментом менее 70%, отображаться не будут.
Если поиск фрагментов, имеющих сходство с выбранным, осуществлялся на удаленных устройствах, то после определения степени сходства осуществляют откачку с удаленных устройств тех документов (фрагментов), которые удовлетворяют заданным параметрам отображения. При этом осуществляют уточняющую сортировку списка фрагментов, полученных от удаленных устройств. Уточняющую сортировку осуществляют на основании данных, полученных в результате пересчета количества групп соответствия, входящих в каждый упомянутый фрагмент. Выполнение данной операции очень актуально, т.к. фрагменты, полученные от удаленных устройств, могут не соответствовать параметрам поиска из-за некачественной отработки поискового запроса удаленными устройствами. В случае полного несоответствия полученного от удаленных устройств фрагмента параметрам поиска упомянутый фрагмент исключают из итогового списка. Кроме того, осуществляют уточняющую сортировку полученного от удаленных устройств списка фрагментов в соответствии с действительным количеством групп соответствия, присущих полученным фрагментам.
Далее на этапе 27 осуществляют обработку фрагментов, заносимых в архив. Обработку осуществляют вручную или автоматически, в соответствии с установленными параметрами. Установка параметров для автоматической обработки фрагментов, заносимых в архив, заключается в определении степени сходства, при которой над упомянутыми фрагментами осуществляют операции: удаления, сохранения в архиве, авторубрикации. Т. е. пользователь, например, задает интервалы для показателя степени сходства, в соответствии с которыми осуществляют обработку фрагментов.
Например, при поиске на удаленных устройствах найдены документы, имеющие 100% показатель степени сходства с выбранным документом, хранимым в архиве. После того как найденные документы будут получены (откачаны) от удаленных устройств, осуществляют их дополнительную проверку на предмет определения 100% сходства с выбранным. Если после проверки определяют, что найденный и выбранный документы действительно идентичны на 100%, полученный документ считают дублем и удаляют. При неполном сходстве выбранного и полученного документов (менее 100%) полученный документ отображают пользователю, визуализируя при этом все отличия текстового содержимого полученного документа от выбранного. В качестве визуализации отличий используют, например, подсветку, выделение цветом, подчеркивание и т.д. При занесении в архив полученного документа он может быть сохранен как новая версия выбранного документа. Причем новую версию сохраняют либо как полную копию полученного документа, либо в виде отличий текстового содержимого полученного документа от текстового содержимого выбранного (ранее сохраненного в архиве) документа. Документы (фрагменты), имеющие более низкую степень сходства с выбранным, например, в интервале от 70 до 90% могут быть просто сохранены в архиве.
Изобретение на этапе 27 предусматривает автоматическую классификацию фрагментов, заносимых в архив документов, которая реализуется следующим образом. Для полученного фрагмента формируют множество уникальных слов. Каждому разделу классификатора (тематике) в соответствие также поставлено множество уникальных слов, формируемое и обновляемое по мере привязки к тематике новых фрагментов. Для определения соответствующей тематики, к которой целесообразно привязать полученный фрагмент, осуществляют сравнение множества уникальных слов, присущих полученному фрагменту с множествами уникальных слов, присущих каждой из тематик. На основании анализа определяют одну и более тематику, к которой может быть привязан полученный фрагмент. Привязку осуществляют как вручную, так и в автоматическом режиме, в соответ35 ствии с заданными параметрами. При автоматическом режиме задают показатель степени сходства, в соответствии с которым и определяют целесообразность привязки полученного фрагмента к той или иной тематике. Для определения степени сходства при автоматической классификации могут быть использованы не все уникальные слова, присущие тематикам, а, например, наиболее редкие или наоборот, наиболее часто употребимые в текстовом содержимом тематики.
Данное изобретение иллюстрируется простым примером реализации
В качестве примера рассмотрим обработку информации (новостей), приходящей по почтовой рассылке и заносимой в архив. В том случае, если пользователь подписан на несколько рассылок, зачастую одни и те же новости могут полностью, либо частично дублировать друг друга. Кроме того, оперативность получения новостей в каждой рассылке различна, т. е. идентичные новости могут приходить с разницей в несколько дней. Все это приводит к тому, что пользователю приходится осуществлять повторный просмотр одной и той же или идентичной информации.
В данном примере настоящее изобретение позволяет избежать повторного просмотра новостей, а также упорядочить процесс наполнения архива информацией, приходящей по почтовой рассылке. Вся приходящая информация заносится в архив, причем приходящие документы разбивают на фрагменты и индексируют. При этом разбиение документов из конкретной рассылки на фрагменты происходит автоматически в соответствии с правилами, установленными пользователем. Установка правил не является сложной процедурой, поскольку в каждой рассылке фрагмент (новость) ограничивается конкретной последовательностью символов, например определенным заголовком. При определении этих символов в документе и осуществляется автоматическое маркирование конкретной области документа, представляющей собой фрагмент, содержащий новость. В данном примере для разбиения документов на фрагменты (новости) и их индексирования используют единую методику. Это означает, что поиск фрагментов, похожих по текстовому и/или смысловому содержимому на выбранный, будет по умолчанию осуществлен среди всех фрагментов, хранимых в архиве.
Для каждого нового фрагмента, заносимого в архив, осуществляют поиск в архиве фрагментов, похожих на него по текстовому и/или смысловому содержимому. С этой целью каждый фрагмент разбивают на исходные слова, из которых формируют множества уникальных слов для каждого фрагмента. При этом отсеивают все стоп-слова, после чего формируют список уникальных слов для выбранного фрагмента. Например, новость включает текст:
'Московское представительство компании Атлант организовало для журналистов прессконференцию с участием президента компании'. Список уникальных слов для выбранного фрагмента будет включать в себя слова: 'Московское', 'представительство', 'компании', 'Атлант', 'организовало', 'журналистов' 'прессконференцию', 'участием' и 'президента'. Из списка уникальных слов исключены стоп-слова 'для' и 'с'.
Каждое из полученных уникальных слов подвергают предварительной обработке с использованием морфологического обработчика. Это позволяет осуществлять поиск новостей, содержащих не только упомянутые уникальные слова, но также и их словоформы. Т.е. будут найдены фрагменты, содержащие текст вида: 'В Москве открылось представительство компании Атлант. В организованной пресс-конференции принял участие президент компании, ответивший на вопросы журналистов'. Подчеркиванием выделены те слова, которые являются словоформами соответствующих им уникальных слов, включенных в выбранный фрагмент.
Таким образом определяют, что в архиве уже содержится новость идентичная выбранной. Причем степень сходства фрагментов составляет 100%, т.к. в выбранном и найденном фрагментах имеется по девять идентичных уникальных слов (групп соответствия). Соответственно степень сходства составляет 9/9=1 или 100%. В соответствии с установленными для данного примера параметрами выбранный фрагмент (новость) заносят в архив, причем осуществляют его автоматическую классификацию. Автоматическая классификация заключается в привязке выбранного фрагмента к тому разделу классификатора (тематике), к которому привязан найденный в архиве похожий на него по текстовому и/или смысловому содержимому фрагмент. Аналогичным образом обрабатывают все входящие новости.
Способ поиска электронных документов, хранимых на устройствах хранения данных Сущность изобретения
Способ заключается в индексировании каждого сохраняемого на устройстве хранения данных документа, определении параметров поиска, осуществлении поиска документов на устройствах хранения данных и ранжировании полученных результатов (списков документов) в соответствии с определенными параметрами. В качестве параметров поиска определяют два и более блока информации, указывают интервал между ними, а также порядок их чередования в искомом документе в указанном интервале.
Формируемые поисковые запросы расширяют посредством предварительной обработки одного или более блоков информации, входящих в исходный запрос, и осуществляют поиск с использованием множества блоков информации, сформированного посредством предвари37 тельной обработки. В качестве предварительной обработки исходного запроса используют операцию получения, по меньшей мере, из одного исходного блока информации, одного или нескольких блоков информации, связанных с исходным блоком информации, заданным соотношением. При этом поиск документов осуществляют с использованием любого заданного количества блоков информации из числа определенных в качестве параметров поиска при формировании исходного запроса.
В качестве блока информации используют находящуюся в документе последовательность символов, ограниченную определенными символами. Для разбиения документов на множество блоков информации используют программный модуль обработки документов.
Для расширения исходного запроса выбирают, по меньшей мере, одну операцию предварительной обработки, причем последовательность выполнения операций предварительной обработки задают пользователи. При этом изобретение в качестве предварительной обработки запроса предусматривает использование одной логической операции тождества. После выполнения операции предварительной обработки исходный блок информации либо удаляют из результирующего запроса, либо оставляют в результирующем запросе.
Поиск документов, соответствующих параметрам поиска, осуществляют на локальных и/или удаленных устройствах хранения данных. В качестве удаленных устройств используют любой информационный ресурс или систему, предназначенную для поиска данных, функционирующую в компьютерной сети и предоставляющую в ответ на поисковый запрос список документов, удовлетворяющих параметрам поиска.
Полученные результаты поиска (списки документов) упорядочивают в соответствии с количеством вхождений в документы последовательностей блоков информации, удовлетворяющих параметрам поиска и длиной интервалов, в которые входят упомянутые последовательности. При упорядочивании списка документов также учитывают весовые коэффициенты, присвоенные блокам информации.
Найденные фрагменты документов отображают с визуализацией в них последовательностей блоков информации, соответствующих параметрам поиска и запросу, полученному после предварительной обработки. Изобретение позволяет осуществлять навигацию по текстовому содержимому документов с использованием входящих в них последовательностей блоков информации в пределах всего списка документов, полученного в результате поиска.
Описание изобретения
Данный способ предусматривает формирование на устройстве хранения данных архива документов, в котором все сохраняемые доку менты проиндексированы. Для разбиения документов на исходные блоки информации (исходные слова) используют программный модуль обработки документов определенного типа. Использование модулей обработки документов определенного типа для разбиения документов на исходные слова позволяет осуществлять полнотекстовый поиск документов различных форматов, имеющих текстовое содержимое. Изобретение предусматривает формирование программных модулей обработки документов определенного типа пользователями.
Способ реализуют следующим образом. На этапе 28, как это показано на фиг. 9, формируют исходный запрос, состоящий, по меньшей мере, из двух исходных слов. Кроме того, на этапе 28 осуществляют определение параметров поиска, в качестве которых используют
- указание максимального интервала, в котором должны находиться исходные слова в искомой фразе в документе,
- указание порядка чередования упомянутых исходных слов в заданном интервале. Порядок чередования исходных слов может быть задан как произвольный, так и жестко определенный, в зависимости от предпочтений пользователя,
- определение минимального количества слов из числа исходных слов, включенных в запрос, для которого будут осуществлять поисковую операцию. Например, исходный запрос состоит из четырех слов, но осуществляют поиск документов, содержащих фразы из не менее чем трех любых слов, включенных в исходный запрос. Соответственно будут найдены документы, содержащие фразы как с четырьмя словами, так и с комбинациями из трех любых исходных слов,
- определение слов, которые должны присутствовать в искомой фразе в документе в обязательном порядке (обязательные слова). Например, для запроса по словам 'необходимая информация' обязательным для включения в искомую фразу является слово 'информация'. Таким образом, в качестве искомых будут определены фразы, включающие либо оба слова 'необходимая' и 'информация', либо только слово 'информация'. Фразы, включающие только одно слово 'необходимая' (необязательное слово) для данного примера как искомые определены не будут
- указание весовых коэффициентов для слов, входящих в исходный запрос. Весовые коэффициенты определяют значимость слов и в дальнейшем будут использованы для определения релевантности найденных документов исходному запросу при формировании и упорядочивании итогового списка найденных документов.
На этапе 29 определяют исходные слова, подлежащие предварительной обработке, и осуществляют их предварительную обработку.
Предварительная обработка расширяет поисковый запрос различными аналогами, что способствует поиску документов, содержащих фразы, релевантные исходному запросу не только в формальном, но и в смысловом значении. Таким образом, на этапе 29 осуществляют формирование групп соответствия для каждого из исходных слов. Например, в процессе предварительной обработки слова 'информация' с использованием словаря синонимов получают группу соответствия, в которую входят слова 'информация', 'сведения' и 'сообщение'. Частным случаем операции предварительной обработки может быть одна логическая операция тождества. При этом для слова 'информация' будет сформирована группа, состоящая из одного тождественного слова, т.е. слова 'информация'. Операция тождества выполняется для тех исходных слов, которые не были определены на этапе 29 как подлежащие предварительной обработке.
Далее на этапе 30 осуществляют формирование списков документов для групп соответствия, связанных со словами, входящими в поисковый запрос, после чего переходят к выполнению этапа 31. На этапе 31определяют, включены ли в запрос обязательные слова.
Если обязательные слова включены в запрос, то переходят к выполнению этапа 32, на котором в итоговый список документов для обязательных слов (ИСО) заносят список документов, сформированный для группы соответствия связанной с первым обязательным словом, входящим в поисковый запрос. Далее на этапе 33 определяют, все ли обязательные слова, входящие в поисковый запрос, обработаны. Если нет, то на этапе 34 обращаются к группе соответствия, связанной со следующим обязательным словом, входящим в поисковый запрос и присваивают ей статус текущей. После чего на этапе 35 осуществляют формирование итогового списка документов с использованием правила: ИСО=ИСО' ΛΝΏ 'СД текущей группы соответствия'
Т.е. на этапе 35 в ИСО заносят документы из списка полученного для конкретной группы соответствия, связанной с обязательным словом, включенным в поисковый запрос. При этом в итоговый список включают только те документы, которые одновременно представлены в ИСО и в СД текущей группы соответствия.
Этапы 34 и 35 выполняют до тех пор, пока на этапе 33 не определят, что все обязательные слова из поискового запроса обработаны. После чего итоговый список документов для обязательных слов будет сформирован и в поле для подсчета количества групп соответствия для каждого документа в ИСО будет записано значение, равное количеству обработанных обязательных слов. Сформированный на этапе 35 ИСО включает в себя документы, в которых представлены все обязательные слова.
Далее переходят к выполнению этапа 36, на котором определяют, включены ли в запрос необязательные слова. Если необязательные слова в запросе отсутствуют, то на этапе 37 формируют итоговый список документов (ИС), который включает в себя список документов, полученный для обязательных слов (ИС=ИСО).
Если в запросе присутствуют необязательные слова, то на этапе 38 формируют список документов для необязательных слов с использованием алгоритма формирования списка документов для слов, объединенных в запросе оператором 'ОК'. После чего на этапе 39 на основании ИСО и ИСН формируют итоговый список документов (ИС). Итоговый список будет включать в себя все документы из ИСО. При этом для документов итогового списка, которые одновременно представлены в ИСО и в ИСН, осуществляют подсчет количества групп соответствия. Т.е. подсчет количества групп осуществляют для тех документов, в которых одновременно присутствуют обязательные и необязательные слова. Документы, которые содержат только обязательные слова, будут представлены в итоговом списке с показателем значения поля для подсчета количества групп соответствия, полученным для них при формировании ИСО.
При подсчете количества групп соответствия суммируют показатели значений полей для подсчета количества групп соответствия документа, включенного в ИСО и соответствующего ему документа из ИСН. Например, запрос состоит из фразы 'поиск необходимой информации', причем два слова - 'поиск' и 'информация' являются обязательными. Документ1 содержит оба обязательных слова и потому при формировании ИСО значение поля для подсчета количества групп соответствия Документ1 примет значение два (по количеству обязательных слов).
Помимо двух обязательных слов Документ1 также содержит необязательное слово 'необходимой' и потому будет включен и в ИСН. Причем значение поля для подсчета количества групп соответствия для Документ1, включенного в ИСН, примет значение один (одно необязательное слово).
Соответственно на этапе 39 после формирования ИС значение поля для подсчета в Документ1 количества групп соответствия примет значение три (2+1). Полученные показатели значений количества групп соответствия, присущие документам включенным в ИС, учитывают при упорядочивании итогового списка.
Если на этапе 31 определяют, что в запросе отсутствуют обязательные слова, то переходят к выполнению этапа 40, на котором формируют итоговый список документов (ИСН) для необязательных слов, включенных в запрос (все слова входящие в запрос) с использованием алгоритма формирования списка документов для слов, объединенных в запросе оператором 'ОК'. После чего формируют итоговый список, который включает в себя список документов, полученный для необязательных слов (ИС=ИСН).
После того, как на этапах 37, 39 или 40 будет сформирован итоговый список документов для слов, включенных в исходный запрос, переходят к выполнению этапа 41, на котором осуществляют упорядочивание итогового списка документов, его обработку и отображение.
Если поиск документов осуществляли в хранимом архиве, то итоговый список включает в себя документы, соответствующие параметрам поиска, и такой список не нуждается в дополнительной обработке. Поскольку формирование итогового списка документов, полученных из архива, сопровождается его оптимизацией с использованием дополнительных индексов (проверка интервалов, порядка чередования слов и т. д.). Если же поиск документов осуществлялся на удаленных устройствах, то итоговый список документов откачивают с удалённых устройств и проверяют на предмет соответствия включенных в него документов параметрам поиска. При этом откачку полных копий документов, найденных на удаленных устройствах, осуществляют только один раз - после того, как будет сформирован итоговый список документов. Проверка документов, полученных от удаленных устройств, очень актуальна, т.к. упомянутые документы могут не соответствовать параметрам поиска из-за некачественной отработки поискового запроса удаленными устройствами. В случае полного несоответствия, полученного от удаленных устройств документа параметрам поиска, упомянутый документ исключают из итогового списка. Т. е. из итогового списка исключают те документы, в которых не содержится ни одной фразы, удовлетворяющей параметрам поиска.
Например, условиями поиска является введение ограничения на интервал между искомыми словами, включенным в исходный запрос 'ба1а тападетей дуДет' - не более двух (ΝΕΑΚ 2). При этом учитывают предварительную обработку запроса, в результате которой искомые документы включают слова 'ба1а'. 'тападетепГ и 'дуДет' и '4а1а', 'соп!го1' и 'дуДет'. Таким образом, в итоговый список документов будут включены следующие документы. Документ1, который содержит фразу '...соттишсаОопх дуд1ет, 111егта1 соп!го1 Ьоагб апб ба1а сойгоГ и Документ, который содержит фразу '... ипййрйей 1еа4ег о£ 4а1а тападетей дуДет тагке!'. И хотя в текстах обоих документов представлены слова из запроса, в том числе расширенные посредством предварительной обработки, первый документ (Документ1) не соответствует параметрам запроса (интервал между блоками информации не более двух). Поскольку фраза '...соштишсайопк дуДет, 111егта1 соп!го1 Ьоагб апб ба1а сойго1' не соответствует условиям поискового запроса, документ, ее содержащий, (Документ1) автоматически будет удален из итогового списка. Аналогичным образом осуществляют проверку на соответствие поисковым параметрам в случае указания четкой последовательности чередования слов в искомом документе. Например, если в качестве четкой последовательности укажут '4а1а, та^детет, дуДет' или '4а1а, сойго1, дуДет', то Документ1 будет исключен из итогового списка и по этому признаку, так как в нем нарушена заданная последовательность чередования искомых слов.
На этапе 41 итоговый список документов, полученных при фразовом поиске, упорядочивают в соответствии с релевантностью документов по отношению к поисковому запросу, полученному с учетом предварительной обработки. При этом учитывают количество искомых последовательностей обработанных слов и длину интервалов, в которые входят упомянутые последовательности. Кроме того, учитывают порядок чередования слов в запросе, а также дополнительные параметры, установленные пользователем для поиска документов, содержащих фразы с количеством слов Ν и менее. Количество слов определяется показателем количества групп соответствия, присущих документам. При упорядочивании списков приоритетом пользуются те документы, которые включают фразы, содержащие все Ν слов и далее в порядке убывания (Ν-1, Ν-2 и т.д.). В случае равенства количества слов во фразах, присутствующих в документах (например, Ν), приоритет отдается тому документу, в котором слова встречаются в минимальном интервале. Например, если итоговый список формируется с учетом интервала между словами десять и произвольным чередованием упомянутых слов в искомом интервале, то оба документа из приведенного выше примера (Документ1 и Документ2) будут соответствовать указанным параметрам. Но при этом для Документ1 интервал между словами составляет пять, а для Документ2 интервал между словами составляет два. Таким образом, на первое место в итоговом списке будет вынесен Документ2. При расчете интервала в данном случае не использовалась возможность исключения так называемых стоп-слов: предлогов и т.д. Тем не менее, настоящее изобретение предусматривает возможность исключения стоп-слов из последовательностей искомых слов при определении интервала между ними.
Если и минимальный интервал между искомыми словами оказывается одинаков для нескольких документов, включенных в итоговый список, для них осуществляют подсчет последовательностей искомых слов, входящих в эти документы. При этом сначала подсчитывают последовательности слов с минимальным совпадающим интервалом и в случае равенства этого показателя переходят к подсчету количества последовательностей, имеющих интервал 'минимальный совпадающий интервал +1'. Данную операцию при необходимости осуществля ют до тех пор, пока значение интервала не достигнет максимального значения, определяемого заданными параметрами поиска. Т.е., если документы содержат одинаковое количество последовательностей слов с интервалом два, переходят к подсчету количества последовательностей с интервалом три и т. д.
В качестве дополнительных параметров для упорядочивания итогового списка используют весовые коэффициенты, присвоенные искомым словам. В этом случае приоритет будет отдан фразе, имеющей наивысший суммарный весовой коэффициент, который формируется, например, как сумма весовых коэффициентов всех слов, входящих в искомую фразу. В случае равенства всех показателей документы в итоговом списке могут быть упорядочены в соответствии с установленными настройками. Например, приоритет может быть присвоен по дате последнего обращения к документам и т.д.
Итоговый список документов может включать в себя документы, в которых содержатся не все слова, определенные в качестве параметров поиска. Такая ситуация возникает, когда в исходный запрос включены как обязательные, так и необязательные слова и в качестве параметров поиска определяют минимальное количество слов, которое должно присутствовать в искомых фразах. В таком случае итоговый список может включать в себя документы, не соответствующие параметрам поиска. Например, исходный запрос включает в себя семь слов, три из которых определены как обязательные для включения в искомую фразу. При этом в качестве параметра поиска задают минимальное количество слов, которое должно присутствовать в искомых фразах, например, пять слов. Но итоговый список документов включает в себя документы, содержащие фразы с любым количеством слов в интервале от трех до семи (три обязательных слова и любое количество необязательных слов). Т.е. в итоговый список включены документы, содержащие фразы с количеством слов три и четыре, что не соответствует параметрам запроса. Такие документы на этапе 41 будут исключены из итогового списка документов, полученного при фразовом поиске.
В исходный запрос могут быть включены несколько фраз, объединенных булевскими операторами 'ОК', 'ΑΝΏ' и т.д. В этом случае описанный выше алгоритм для фразового поиска выполняется для каждой из фраз, включенных в исходный запрос. После чего итоговые списки документов, полученные для каждой из фраз, подвергают операции комбинирования с использованием соответствующих упомянутых булевских операторов.
Далее на этапе 42 осуществляют отображение интересующих пользователя документов из итогового списка с визуализацией всех встречающихся в них последовательностей искомых слов. При визуализации учитывают па раметры запроса (интервал между словами и порядок их чередования). В качестве визуализации используют подсветку результатов поиска, подчеркивание, выделение цветом и т.д. Визуализация результатов поиска сразу адресует пользователя к нужному ему месту в документе. При этом изобретение предусматривает возможность навигации по документу (по визуализированным в тексте документа последовательностям искомых слов), причем навигацию осуществляют в пределах всего итогового списка документов.
Данное изобретение иллюстрируется простым примером реализации
Имеется архив документов, полученных из разнородных информационных источников. При этом в архиве хранятся документы различных форматов: веб страницы, полученные из Интернет по ссылкам, предоставленным Интернет поисковыми машинами в ответ на поисковые запросы, документы формата М1сго§ой О£йсе (\Уогб. Ехсе1), полученные с жестких дисков компьютеров, функционирующих в локальной сети и другие документы, содержащие в себе текстовую информацию. Все хранимые в архиве документы проиндексированы.
Пользователя интересует получение списка хранимых в архиве документов, содержащих данные об информационных технологиях, а точнее о конференциях, посвященных данной тематике. Для получения интересующего пользователя списка документов формируют запрос 'конференция по информационным технологиям' с учетом интервала между словами и порядка чередования слов в запросе (фразовый поиск). В качестве параметров поиска устанавливают интервал между словами четыре и произвольный порядок чередования слов в искомых документах. Установка такого интервала между словами вызвана тем, что искомая фраза может иметь вид 'конференция, посвященная современным информационным технологиям' и при задании меньшего интервала документ, содержащий такую фразу, обнаружен не будет. Все слова в исходном запросе определены как обязательные. Упомянутый запрос преобразуется в запрос вида:
'(конференция, информационным, технологии)/ЯЕАК(4)',
т.е. из него исключается стоп-слово 'по'. Для того чтобы повысить результативность поиска, используют предварительную обработку сформированного запроса, которая заключается в использовании двух обработчиков: словаря синонимов и русско-английского словаря для перевода. При этом предварительной обработке подвергают все слова, входящие в запрос. Последовательность выполнения операций предварительной обработки задается пользователем и предполагает в первую очередь использование семантического тезауруса, а затем русскоанглийского словаря перевода.
В результате выполнения операций предварительной обработки формируют группы соответствия для каждого из слов, входящих в исходный запрос. Таким образом, для данного случая будут сформированы три группы соответствия, например: [конференция, семинар, еопГсгспес. хеттаг]; [информационные, ίηίοΓшайои]; [технологии, 1ес11по1офех|. В пределах каждой группы слова объединяются булевским оператором 'ОН'. Итоговый запрос будет иметь следующий вид:
((конференция ОН семинар ОН еопГегеисе ОН зетшаг), (информационные ОН тГогтайоп), (технологии ОН 1есЬпо1од1е8))/ЫЕАЯ(4)
Итоговый список документов включает документы, содержащие, по меньшей мере, одно из следующих словосочетаний (фраз): 'конференция, посвященная современным информационным технологиям' (Документ1), 'семинар, посвященный информационным технологиям' (Документ2), 'тГогшаНоп 1есНпо1о§1ех сопГегепсе' (ДокументЗ) или 'тГогшаНоп 1ес11по1още5 хетта г' (Документ4) и т.д. Причем интервал между словами, входящими в фразу, не должен превышать четыре.
Полученный список упорядочивают в соответствии с поисковыми параметрами и отображают пользователю. При этом документ, содержащий фразу 'тГогтайоп 1есНпо1од1ех хеттаг' (Документ4), будет иметь более высокий рейтинг (место в списке), нежели документ, содержащий фразу 'конференция, посвященная современным информационным технологиям' (Документ1). Поскольку интервал между словами в Документ4 меньше, чем интервал между словами в Документ1 (2 и 4 соответственно). Для документов, содержащих фразы с одинаковым интервалом между словами - Документ3 и Документ4, осуществляют подсчет количества фраз, отвечающих поисковым запросам и имеющих интервал между словами два. При этом определяют, что Документ3 содержит на одну фразу больше и таким образом ему присваивают более высокий рейтинг. Окончательный вид отображаемого списка документов будет следующим: на первом месте расположен Документ3, а далее в порядке очередности идут Документ4, Документ2 и Документ1.
Далее пользователь обращается к интересующему его документу с целью его просмотра. При отображении интересующего пользователя документа осуществляется визуализация результатов поиска, соответствующих запросу, полученному с учетом предварительной обработки. Таким образом, при обращении, например, к Документ2 осуществляют подсветку всей последовательности слов, отвечающей параметрам поиска и запросу, полученному после предварительной обработки:
'семинар посвященный информационным технологиям', хотя слово 'семинар' и не входило в исходный запрос: '(конференция, информационным, технологии)/ЫЕАК(4·).
Рассмотренные примеры реализации изобретений являются лишь одними из множества возможных примеров, не исключающих других вариантов реализации, и в них могут вноситься изменения людьми с навыками работы с настоящими изобретениями.
Другие реализации или разновидности реализации изобретений осуществляются в рамках данных изобретений, которые определяются патентной формулой.
Промышленная применимость
Изобретение относится к способам поиска похожих по текстовому и/или смысловому содержимому фрагментов в электронных документах, хранимых на устройствах хранения данных. Изобретение также предназначено для поиска документов по запросам, состоящим из двух и более слов, расширенных смысловыми аналогами, с учетом интервала между упомянутыми словами и порядка их чередования в запросе.
Изобретение может функционировать в различных коммуникационных и компьютерных сетях, например, локальных компьютерных сетях, глобальной сети Интернет и т.д. Изобретение может также использоваться в распределенных вычислительных системах, где задачи выполняются удаленными вычислительными устройствами, которые объединены коммуникационной сетью, в том числе в прикладных программах, функционирующих на различных устройствах хранения данных.
Промышленная применимость изобретения обусловлена оптимизацией поиска документов (фрагментов) близкой тематики, в том числе имеющих сходство не только в формальном, но и в смысловом значении и в устранении дублирования информации, хранимой в архиве. Причем эффективность поисковых операций определяется возможностью выбора методики формирования множества слов для поискового запроса, с использованием определенных правил, в том числе установленных пользователем. Промышленная применимость изобретения обусловлена также оптимизацией процесса обработки информации путем автоматической классификации документов, заносимых в архив.
Данное изобретение применимо в системах, связанных с получением, поиском, обработкой и хранением информации в компьютерных системах, и повышает эффективность работы с информацией, хранимой на устройствах хранения данных.
Преимущества изобретения
Настоящее изобретение обладает по сравнению с существующими аналогами рядом преимуществ, позволяющих существенно сократить временные затраты, требуемые для получения и обработки интересующих пользователя документов и их фрагментов. Изобретение позволяет осуществлять поиск документов (фрагментов), имеющих сходство с выбранным по текстовому и/или смысловому содержанию как с использованием всего множества слов, входящих в выбранный документ (фрагмент), так и установленного их количества. При этом эффективность поисковых операций повышается за счет возможности выбора методики формирования множества слов для поискового запроса, с использованием определенных правил, в том числе установленных пользователем.
Изобретение определяет степень сходства выбранного и соответствующих ему найденных в архиве или на удаленных устройствах документов и осуществляет автоматическую классификацию документов (фрагментов) при занесении их в архив, хранимый на устройстве хранения данных.
Изобретение также позволяет оптимизировать поиск документов по запросам, состоящим из двух и более слов с учетом интервала между словами и порядка чередования слов в запросе, за счет расширения упомянутых запросов путем предварительной обработки входящих в него слов. Это позволяет формировать список документов, релевантных запросу не только в формальном, но и в смысловом значении. Причем при отображении документов из полученного списка осуществляют визуализацию в них результатов, соответствующих параметрам поиска и запросу, полученному после предварительной обработки.

Claims (36)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Способ поиска похожих по текстовому и/или смысловому содержимому фрагментов в электронных документах, хранимых на устройствах хранения данных, заключающийся в индексировании каждого сохраняемого в архиве документа, разбиении упомянутых документов на фрагменты и формировании тематик из одного и более фрагмента, определении параметров поиска, проведении поиска, ранжировании полученного в результате поиска списка фрагментов документов, отличающийся тем, что в качестве параметров поиска определяют множество входящих в выбранный фрагмент документа уникальных блоков информации и расширяют его посредством предварительной обработки каждого из упомянутых уникальных блоков информации, где под уникальным блоком информации понимают блок информации, встретившийся в выбранном фрагменте документа один и более раз, где в качестве предварительной обработки используют операцию получения, по меньшей мере, из одного уникального блока информации, одного или нескольких блоков информации, связанных с уникальным блоком информации заданным соотношением.
  2. 2. Способ по п.1 отличающийся тем, что в качестве блока информации используют входящую в документ последовательность символов, ограниченную определенными символами.
  3. 3. Способ по п.1 отличающийся тем, что в качестве фрагмента документа используют любую выбранную последовательность блоков информации, входящую в документ.
  4. 4. Способ по п.3, отличающийся тем, что в качестве фрагмента документа используют полную копию документа.
  5. 5. Способ по п.3, отличающийся тем, что устанавливают правила разбиения документов на фрагменты.
  6. 6. Способ по п.5, отличающийся тем, что документ разбивают на фрагменты с использованием, по меньшей мере, одного правила.
  7. 7. Способ по п.5, отличающийся тем, что разбиение документов на фрагменты осуществляют в автоматическом режиме.
  8. 8. Способ по п.1, отличающийся тем, что множество фрагментов документов, среди которых осуществляют поиск фрагментов, похожих по текстовому и/или смысловому содержимому на выбранный, ограничивают указанием, по меньшей мере, одного правила, посредством которого осуществляли разбиение документов на фрагменты и/или указанием тематики.
  9. 9. Способ по п.1, отличающийся тем, что тематику формируют пользователи.
  10. 10. Способ по п.1, отличающийся тем, что для разбиения документов и фрагментов документов на множество блоков информации используют программный модуль обработки документов.
  11. 11. Способ по п.1, отличающийся тем, что выбирают, по меньшей мере, одну операцию предварительной обработки, причем последовательность выполнения операций предварительной обработки задают пользователи.
  12. 12. Способ по п.11, отличающийся тем, что предварительная обработка состоит из одной логической операции тождества.
  13. 13. Способ по п.1, отличающийся тем, что после выполнения операции предварительной обработки, по меньшей мере, один исходный блок удаляют из запроса или оставляют в запросе.
  14. 14. Способ по п.1, отличающийся тем, что в множество уникальных блоков информации, определяемых в качестве параметров поиска, включают все уникальные блоки информации, входящие в выбранный фрагмент документа.
  15. 15. Способ по п.1, отличающийся тем, что множество уникальных блоков информации, определяемое в качестве параметров поиска, формируют с использованием одной и более функции.
  16. 16. Способ по п.15, отличающийся тем, что используют функцию формирования списка уникальных блоков информации для выбранного фрагмента.
  17. 17. Способ по п.15, отличающийся тем, что используют функцию определения количества вхождений в текстовое содержимое фрагментов выбранной тематики блоков информации, полученных в процессе предварительной обработки уникального блока информации.
  18. 18. Способ по п.15, отличающийся тем, что используют функцию определения частоты вхождения уникальных блоков информации в текстовое содержимое фрагментов выбранной тематики, где частоту вхождения исчисляют в процентах от числа вхождений наиболее часто используемого в текстовом содержимом выбранной тематики уникального блока информации.
  19. 19. Способ по п.1, отличающийся тем, что в множество уникальных блоков информации, определяемых в качестве параметров поиска, включают установленное количество уникальных блоков информации из множества сформированного по определенным пользователем правилам.
  20. 20. Способ по п.1, отличающийся тем, что поиск фрагментов документов осуществляют на локальных и/или удаленных устройствах хранения данных.
  21. 21. Способ по п.20, отличающийся тем, что в качестве удаленных устройств используют любой информационный ресурс или систему, предназначенную для поиска данных, функционирующую в компьютерной сети и предоставляющую в ответ на поисковый запрос список фрагментов документов, удовлетворяющих параметрам поиска.
  22. 22. Способ по п.1, отличающийся тем, что ранжирование полученного в результате поиска списка фрагментов документов осуществляют в соответствии с количеством присутствующих в найденных фрагментах документов групп блоков информации, объединяющих блоки информации, полученные в процессе предварительной обработки уникального блока информации.
  23. 23. Способ по п.22, отличающийся тем, что при ранжировании для тех фрагментов документов, в которых количество групп блоков информации совпадает, дополнительно определяют количество вхождений в текстовое содержимое фрагментов выбранной тематики упомянутых групп блоков информации.
  24. 24. Способ по п.1, отличающийся тем, что осуществляют отображение фрагментов, входящих в полученный в результате поиска список фрагментов документов, с визуализацией отличий их текстового содержимого от текстового содержимого выбранного фрагмента.
  25. 25. Способ по п.1, отличающийся тем, что заносимый в архив документ сохраняют как новую версию сохраненного ранее в архиве документа, имеющего заданную степень сходства по текстовому и/или смысловому содержимому с заносимым в архив документом, и при этом упомянутую новую версию сохраняют в виде полной копии заносимого в архив документа или в виде отличий текстового содержимого заносимого в архив документа от текстового содержимого упомянутого, сохраненного ранее в архиве документа.
  26. 26. Способ по п.1, отличающийся тем, что осуществляют автоматическую классификацию фрагментов, сохраняемых на устройстве хранения данных документов.
  27. 27. Способ поиска электронных документов, хранимых на устройствах хранения данных, заключающийся в индексировании каждого сохраняемого в архиве документа, определении параметров поиска электронных документов, включающих формирование исходного запроса из двух и более блоков информации, указание максимального количества блоков информации, которое может находиться между упомянутыми двумя и более блоками информации в искомом документе (интервал), а также порядка чередования упомянутых двух и более блоков информации в искомом документе в указанном интервале, ранжировании полученного в результате поиска списка документов, отличающийся тем, что сформированный из двух и более блоков информации исходный запрос расширяют посредством предварительной обработки одного и более блоков информации, входящих в исходный запрос, где в качестве предварительной обработки исходного запроса используют операцию получения, по меньшей мере, из одного блока информации, входящего в исходный запрос, одного или нескольких блоков информации, связанных с исходным блоком информации заданным соотношением, поиск документов осуществляют с использованием любого заданного количества блоков информации, определенных в качестве параметров поиска при формировании исходного запроса.
  28. 28. Способ по п.27, отличающийся тем, что в качестве блока информации используют входящую в документ последовательность символов, ограниченную определенными символами.
  29. 29. Способ по п.27, отличающийся тем, что для разбиения документов на множество блоков информации используют программный модуль обработки документов.
  30. 30. Способ по п.27, отличающийся тем, что выбирают, по меньшей мере, одну операцию предварительной обработки исходного запроса, причем последовательность выполнения операций предварительной обработки исходного запроса задают пользователи.
  31. 31. Способ по п.30, отличающийся тем, что предварительная обработка исходного запроса состоит из одной логической операции тождества.
  32. 32. Способ по п.27, отличающийся тем, что после выполнения операции предварительной обработки, по меньшей мере, один блок информации, входящий в исходный запрос, удаляют из запроса или оставляют в запросе.
  33. 33. Способ по п.27, отличающийся тем, что поиск документов осуществляют на локальных и/или удаленных устройствах хранения данных.
  34. 34. Способ по п.33, отличающийся тем, что в качестве удаленных устройств используют любой информационный ресурс или систему, предназначенную для поиска данных, функционирующую в компьютерной сети и предоставляющую в ответ на поисковый запрос список документов, удовлетворяющих параметрам поиска.
  35. 35. Способ по п.27, отличающийся тем, что полученный в результате поиска список документов упорядочивают в соответствии с количе-
    Фиг. 1
    Фиг. 2 ством вхождений в документы последовательностей блоков информации, удовлетворяющих параметрам поиска, длиной интервалов, в которые входят упомянутые последовательности, и с учетом весовых коэффициентов, присвоенных блокам информации.
  36. 36. Способ по п.35, отличающийся тем, что осуществляют отображение документов с визуализацией в них последовательностей блоков информации, соответствующих параметрам поиска и запросу, полученному после предварительной обработки, и осуществляют навигацию по текстовому содержимому документов с использованием входящих в них последовательностей блоков информации в пределах всего спи- ска документов, полученного в результате поиска.
EA200100467A 2001-04-06 2001-04-06 Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов EA200100467A1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EA200100467A EA200100467A1 (ru) 2001-04-06 2001-04-06 Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EA200100467A EA200100467A1 (ru) 2001-04-06 2001-04-06 Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов

Publications (2)

Publication Number Publication Date
EA002016B1 true EA002016B1 (ru) 2001-10-22
EA200100467A1 EA200100467A1 (ru) 2001-10-22

Family

ID=8161581

Family Applications (1)

Application Number Title Priority Date Filing Date
EA200100467A EA200100467A1 (ru) 2001-04-06 2001-04-06 Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов

Country Status (1)

Country Link
EA (1) EA200100467A1 (ru)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2571406C1 (ru) * 2014-06-27 2015-12-20 Игорь Петрович Рогачев Способ двухуровневого поиска информации в предварительно преобразованном структурированном массиве данных
RU2571407C1 (ru) * 2014-06-27 2015-12-20 Игорь Петрович Рогачев Способ формирования карты связей компонентов преобразованного структурированного массива данных
RU2571405C1 (ru) * 2014-06-27 2015-12-20 Игорь Петрович Рогачев Способ предварительного преобразования структурированного массива данных
RU2572367C1 (ru) * 2014-06-27 2016-01-10 Игорь Петрович Рогачев Способ поиска информации в предварительно преобразованном структурированном массиве данных
RU2623901C2 (ru) * 2012-12-28 2017-06-29 ТУЗОВА Алла Павловна Осуществимый компьютером способ переработки машиночитаемой информации
CN110851692A (zh) * 2018-07-27 2020-02-28 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2623901C2 (ru) * 2012-12-28 2017-06-29 ТУЗОВА Алла Павловна Осуществимый компьютером способ переработки машиночитаемой информации
RU2571406C1 (ru) * 2014-06-27 2015-12-20 Игорь Петрович Рогачев Способ двухуровневого поиска информации в предварительно преобразованном структурированном массиве данных
RU2571407C1 (ru) * 2014-06-27 2015-12-20 Игорь Петрович Рогачев Способ формирования карты связей компонентов преобразованного структурированного массива данных
RU2571405C1 (ru) * 2014-06-27 2015-12-20 Игорь Петрович Рогачев Способ предварительного преобразования структурированного массива данных
RU2572367C1 (ru) * 2014-06-27 2016-01-10 Игорь Петрович Рогачев Способ поиска информации в предварительно преобразованном структурированном массиве данных
CN110851692A (zh) * 2018-07-27 2020-02-28 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Also Published As

Publication number Publication date
EA200100467A1 (ru) 2001-10-22

Similar Documents

Publication Publication Date Title
US9697249B1 (en) Estimating confidence for query revision models
US8341167B1 (en) Context based interactive search
US7565345B2 (en) Integration of multiple query revision models
US7283951B2 (en) Method and system for enhanced data searching
US20170235841A1 (en) Enterprise search method and system
US6055528A (en) Method for cross-linguistic document retrieval
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US8266077B2 (en) Method of analyzing documents
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
US20110055192A1 (en) Full text query and search systems and method of use
US20110161309A1 (en) Method Of Sorting The Result Set Of A Search Engine
US20120095984A1 (en) Universal Search Engine Interface and Application
US20080021887A1 (en) Data product search using related concepts
US9619555B2 (en) System and process for natural language processing and reporting
GB2397147A (en) Organising, linking and summarising documents using weighted keywords
US7024405B2 (en) Method and apparatus for improved internet searching
JPH09101991A (ja) 情報フィルタリング装置
CN101933017B (zh) 文件检索装置、文件检索系统和文件检索方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
EA002016B1 (ru) Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов
Milić-Frayling Text processing and information retrieval
CN113407813B (zh) 确定候选信息的方法、确定查询结果的方法、装置、设备
US8930373B2 (en) Searching with exclusion tokens
WO2012052794A1 (en) Universal search engine interface and application

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM MD TM

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AZ KZ KG TJ

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): BY

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): RU