EA001895B1 - Способ получения, обработки и хранения ссылок на информационные источники, списков ссылок и полных копий информационных источников - Google Patents

Способ получения, обработки и хранения ссылок на информационные источники, списков ссылок и полных копий информационных источников Download PDF

Info

Publication number
EA001895B1
EA001895B1 EA200100235A EA200100235A EA001895B1 EA 001895 B1 EA001895 B1 EA 001895B1 EA 200100235 A EA200100235 A EA 200100235A EA 200100235 A EA200100235 A EA 200100235A EA 001895 B1 EA001895 B1 EA 001895B1
Authority
EA
Eurasian Patent Office
Prior art keywords
links
information
search
lists
information sources
Prior art date
Application number
EA200100235A
Other languages
English (en)
Other versions
EA200100235A1 (ru
Inventor
Лев Лазаревич Матвеев
Александр Иванович Акимов
Original Assignee
Лев Лазаревич Матвеев
Александр Иванович Акимов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Лев Лазаревич Матвеев, Александр Иванович Акимов filed Critical Лев Лазаревич Матвеев
Priority to EA200100235A priority Critical patent/EA001895B1/ru
Publication of EA200100235A1 publication Critical patent/EA200100235A1/ru
Publication of EA001895B1 publication Critical patent/EA001895B1/ru
Priority to PCT/EA2002/000002 priority patent/WO2002065333A1/ru
Priority to PL02358783A priority patent/PL358783A1/xx

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

Изобретение относится к способам получения, обработки, хранения и использования ссылок на информационные источники, списков ссылок и полных копий информационных источников. Данное изобретение работает с разнородными ссылками и списками разнородных ссылок и позволяет добавлять новые типы ссылок. Под получением ссылок на информационные источники и их списков понимается метапоиск информации в разнородных информационных ресурсах, функционирующих в распределенной сети (в частности в Интернет), причем предусмотрено добавление новых поисковых машин для метапоиска пользователем. Также предусмотрено получение списков ссылок из внешних источников (например из веб-страниц). Под получением полных копий информационных источников понимается в том числе и отложенное получение полных копий информационных источников с установкой параметров их отображения. Причем после получения полных копий информационных источников предусматривается возможность исключения из списка для отображения уже существующих на пользовательском устройстве хранения данных полных копий информационных источников. Под обработкой ссылок на информационные источники и их списков понимается добавление к ссылкам и спискам ссылок описательных полей, удобный поиск нужных ссылок, а также операции получения новых списков ссылок на базе двух и более существующих списков. Изобретением предусмотрены операции структурирования хранимых ссылок и списков ссылок и получение информации о том, в каких списках присутствует указанная ссылка. Изобретение предусматривает одновременное функционирование на нескольких устройствах хранения данных и

Description

Область техники
Настоящее изобретение относится к способам получения, обработки, хранения и использования ссылок на информационные источники, списков ссылок и полных копий информационных источников. Изобретение также относится к способам хранения информации одновременно на нескольких устройствах и синхронизации хранимой информации. Изобретение относится и к способам получения информации посредством метапоиска в разнородных информационных ресурсах с использованием множества поисковых машин и обработки полученных результатов поиска. Изобретение также относится к способам обработки списков ссылок и формирования новых списков ссылок на базе двух и более существующих списков, а также к способам отложенного получения информации от удаленных ресурсов (в частности, Интернет) и последующего отложенного отображения этой информации.
Характеристика уровня техники
Системы и методы, позволяющие хранить и обрабатывать ссылки на информационные источники и их списки, хорошо известны. И в данной области техники можно выделить несколько направлений развития:
- системы и методы, позволяющие хранить веб-ссылки на локальном диске пользовательского компьютера, например Интернет браузер М1стокой 1п1сгпс1 Ехр1огег, разработанный Μίстокой Сотротайои, йебтоиб И8Л [ййр:// \у\\лу.х6пе1.сот/сотри1ег81юррег/е6н/с81юррег/ соп1еи1/9612/скйр0014.Ыт1],
- программные продукты, работающие на компьютере пользователя и позволяющие осуществлять хранение полученных из различных Интернет ресурсов веб-ссылок на локальном диске пользовательского компьютера, например программа метапоиска Соретшс, разработанная Соретшс Тес1то1още8 1ис. |1Шр://\у\у\у.сорегшс. сот/рто6исй/рго/1есйкреск.Ы:т1],
- системы и методы, предназначенные для хранения веб-ссылок и работающие на удаленных устройствах (веб-серверах), например персональный каталог для хранения ссылок компании Уаибех |1Шр://хак1а6к|.уаи6ех.ги/1оиг/| и аналогичный проект Вйпк.сот. 1ис. [ййр:// Ышк.сот/аЬои!/].
Такие системы позволяют пользователю создавать и хранить списки (коллекции) интересующих его ссылок на информационные источники для облегчения дальнейшего доступа к соответствующим информационным источникам. Если речь идет об информационных ресурсах, размещенных в Интернет, то список ссылок представляет собой, например, список вебстраниц, если же речь идет о базах данных, то список ссылок представляет собой, например, список ΙΌ записей базы данных или список наименований товаров, отвечающих поисковому запросу.
Обычно пользователь определяет ссылки, которые он хотел бы сохранить в системе для дальнейшей работы с ними, которая, как правило, заключается в структурировании (классификации) ссылок в системе, формировании из ссылок списков ссылок, сортировке ссылок в полученных списках, редактировании самих списков и поиске в системе нужных ссылок по различительным признакам (связанным со ссылками предопределенным полям описания). Ссылки и списки ссылок сохраняют, например, после отработки поисковых запросов поисковыми ресурсами и формирования списка ссылок, отвечающих поисковому запросу; путем сохранения конкретной ссылки, соответствующей загруженной в окне Интернет браузера веб-странице; посредством сохранения точного адреса известного информационного источника; путем сохранения ссылок, содержащихся в текстах вебстраниц и других электронных документов, например е-тай и т.д. Сохраненные в системе ссылки позволяют получать и отображать полные копии информационных источников, соответствующих сохраненным ссылкам. Кроме того, в случае функционирования системы, например, на удаленном общедоступном устройстве (веб-сервере) в многопользовательском режиме, предполагающем совместный доступ к хранимым в системе данным, пользователь предоставляет доступ к сохраненным им данным другим пользователям. При этом пользователи осуществляют управление правами доступа к созданным им ссылкам и их спискам.
Способы получения информации, в частности ссылок на информационные источники и списков ссылок также широко известны и одним из таких способов является метапоиск. Преимущество способов метапоиска в сравнении с обычными поисковыми системами заключается в том, что осуществляется одновременное обращение сразу к нескольким поисковым машинам (пересылка поискового запроса на отработку), после чего результаты поиска, полученные от этих поисковых машин, объединяют в единый список.
В данной области техники можно выделить два направления развития:
- программы метапоиска, работающие на компьютере клиента (размещенные на локальном диске пользовательского компьютера), например Соретшс, разработанная Соретшс Тес1по1още8 1ис. |1и1р://\у\у\у.сорегшс.сот/рго6ис18/ ргоЛесНкреск.Ытй
- Интернет-сервисы, позволяющие осуществлять метапоиск с конкретного веб-сайта и соответственно функционирующие на удаленных устройствах (веб-серверах), например, Ме1аС’га\у1ег - разработка 1иГо8расе, 1ис. |1и1р://\у\у\у.те1асга\у1ег.сот/рге88/Гас18.111т1|.
Обычно пользователь обращается к системе метапоиска, выбирает из предложенного ему списка поисковые машины (например, Л11аУ1к1а,
ЕхсПе и т.д.), которые будут участвовать в отработке поискового запроса (список поисковых машин определяется разработчиками системы). Далее пользователь вводит запрос, описывающий искомую информацию и состоящий, например, из ключевых слов или фраз и булевых операторов. Примеры таких запросов: аммиак ΛΝΌ токсичность, где аммиак - одно ключевое слово, токсичность - другое, ΑΝΏ - булевский оператор, требующий, чтобы в искомом документе находились оба ключевых слова. Запрос при этом дополнительно расширяют синонимами, которые выбираются для одного и более слов, входящих в запрос, из предварительно определенного разработчиками словаря [Патент И8 6078914, 6 06Е 17/30, 20.06.2000].
После ввода запроса система метапоиска обращается к выбранным поисковым машинам, которые в свою очередь обращаются к тем индексным базам данных или другим источникам информации, которые они поддерживают, для поиска совпадающих данных. Список ссылок на документы, которые совпадают с заданным поисковым запросом, затем отображают пользователю. Количество совпадений (ссылок) в списке ограничивается определенным числом. При этом из списка удаляют избыточную информацию, т. е. дубли ссылок, полученные от различных поисковых машин. Совпадения в списке ранжируются в соответствии с частотностью ключевых слов в документе. Обычно информация, отображаемая на экране пользователя для каждого совпадения, содержит указание местонахождения документа (например, ИКЬ адрес для гипертекстовых документов), а также дополнительные данные, например, такие как заголовок документа и т.д. Таким образом, пользователю нет необходимости последовательно осуществлять один и тот же поиск с использованием многочисленных поисковых машин.
Сформированные поисковые запросы и соответствующие им результаты поиска (списки ссылок) сохраняют в системе. В дальнейшем системы метапоиска позволяют осуществлять получение новых результатов поиска с использованием сохраненных ранее поисковых запросов и заданных списков поисковых машин, как это делает система метапоиска Сорегтс, разработанная Сорегшс Тес1то1още5 1пс. |1Шр:// \у\у\у.сорегшс.сот/ргобис15/рго/1ес115рес5.111т1|.
Характеристики аналогов
В качестве аналога для изобретений, относящихся к способам хранения и обработки ссылок и списков ссылок, хранимых на доступных пользователю устройствах хранения данных, выбрана заявка Устройство и метод для создания системы взаимосвязанных закладок [Заявка АО 99/62008; РСТ/И8 99/09600, 6 06Е 17/30, 02.12.1999].
Изобретение представляет собой способ хранения, извлечения и обработки закладок (ссылок на информационные источники), расположенных на удаленном устройстве хранения данных. Способ описывает действия (операции), проводимые со ссылками на информационные источники, хранимыми на удаленном устройстве хранения данных в сети. Упомянутые операции включают в себя:
- описание ссылок, хранимых на устройстве хранения данных, путем заполнения предопределенных полей описания, связанных с каждой из ссылок, позволяющее осуществлять автоматические упорядочивание хранимых ссылок;
- упорядочивание ссылок путем разнесения их по множеству классификаторов (библиотек), где в каждой библиотеке хранят ссылки определенной тематики. Способ предполагает наличие личных (пользовательских) и общедоступных классификаторов, предоставляющих совместный доступ к хранимым данным;
- хранение одной и той же ссылки одновременно в нескольких библиотеках;
- определение прав доступа для каждого пользователя при работе с множеством библиотек, состоящее из определения прав доступа к личной библиотеке пользователя, а также из определения прав доступа к общедоступной библиотеке;
- формирование интересующих пользователя подборок ссылок, хранимых на устройстве хранения данных.
Недостаток изобретения, описанного в заявке АО 99/62008, заключается в том, что оно предусматривает хранение, извлечение и обработку лишь однородных ссылок на информационные источники (полученных из однородных информационных ресурсов), что сужает область охватываемого изобретением информационного пространства.
Недостаток изобретения, описанного в заявке АО 99/62008, обусловлен также наличием весьма ограниченного набора сведений о хранимых ссылках и списках ссылок. Эти сведения, как правило, ограничиваются информацией, включенной в предопределенные поля описания, связанные со ссылками и списками ссылок. Поиск ссылок и списков ссылок с использованием только упомянутых предопределенных полей описания не всегда приводит к ожидаемому результату, так как полученные в результате поиска по предопределенным полям описания списки ссылок зачастую содержат ссылки, не интересующие пользователя. Такие списки ссылок требуют дополнительной оптимизации и их обработка приводит к значительным временным потерям, связанным с просмотром ненужной информации.
Оптимизация списков ссылок, например, исключение из списков мертвых и устаревших ссылок, доступ к информационным источникам по которым невозможен, в ряде случаев является существенным моментом процесса обработки ссылок и списков ссылок. Но в изобретении, описанном в заявке ХУО 99/62008, данная операция требует значительных временных затрат и следовательно малоэффективна при работе со списками, особенно если они велики. Это приводит к тому, что процесс получения по ссылкам полных копий информационных источников будет прерываться сообщениями об ошибках доступа.
Реализованный в изобретении, описанном в заявке ХУО 99/62008, механизм редактирования (модификации) списков ссылок также не избавлен от недостатков и является малоэффективным, когда речь заходит о формировании новых списков ссылок на основе уже существующих. Т.е. пользователь последовательно обращается к различным спискам и формирует новый список путем копирования или переноса ссылок из ранее сформированных списков в новый список, но данный процесс, по сути, выполняется вручную и, следовательно, отнимает много времени.
Недостаток изобретения, описанного в заявке ХУО 99/62008, заключается также в том, что в случае его использования одновременно на нескольких устройствах хранения данных осуществляют одностороннюю синхронизацию хранимых на упомянутых устройствах хранения данных ссылок и списков ссылок. Синхронизация заключается в пересылке всего массива данных от одного устройства хранения данных другому. Такая реализация сильно ограничивает функциональные возможности изобретения тем, что модификация данных одновременно на нескольких устройствах хранения данных бесполезна, т.к. при полной перезаписи массива данных с одного устройства хранения данных на другое, происходит потеря всех изменений (модификаций), проводимых на этом устройстве. К тому же полная перезапись массива данных занимает достаточно много времени.
В качестве аналога для изобретений, относящихся к способам хранения и обработки ссылок и списков ссылок, хранимых на доступных пользователю устройствах хранения данных, выбрана также заявка Система обработки и хранения закладок с адресами [Патент υδ 6032162, Ο 06Р 13/00, 29.02.2000].
Изобретение поддерживает закачку ссылок на устройство хранения данных, скачивание ссылок с устройства хранения данных, сортировку и классификацию ссылок на информационные источники. Способ включает в себя последовательность операций:
- установление соединения с удаленным устройством (Интернет-сайтом), предназначенным для хранения ссылок;
- идентификация пользователя для получения доступа к хранимым на удаленном устройстве (Интернет-сайте) ссылкам;
- передача ссылок на хранилище на удаленном сайте;
- выбор, по меньшей мере, одной ссылки из файла пользовательских ссылок для обработки;
- сортировка сохраненных ссылок по связанным с ними предопределенным полям описания и формирование из полученного файла со ссылками общей подборки пользовательских ссылок;
- классификация сохраненных ссылок;
- отображение отсортированных ссылок вместе с присущими им полями описания;
- настройка атрибутов отображаемых списков ссылок.
Недостаток изобретения И8 6032162 заключается в том, что оно предусматривает хранение, извлечение и обработку лишь однородных ссылок на информационные источники (полученных из однородных информационных ресурсов), что сужает область охватываемого изобретением информационного пространства.
Недостаток изобретения, описанного в заявке ϋδ 6032162, также обусловлен наличием весьма ограниченного набора сведений о хранимых ссылках и списках ссылок. Эти сведения, как правило, ограничиваются информацией, включенной в предопределенные поля описания, связанные со ссылками и списками ссылок. Поиск ссылок и списков ссылок с использованием только упомянутых предопределенных полей описания не всегда приводит к ожидаемому результату, так как полученные в результате поиска по предопределенным полям описания списки ссылок зачастую содержат ссылки, не интересующие пользователя. Такие списки ссылок требуют дополнительной оптимизации и их обработка приводит к значительным временным потерям, связанным с просмотром ненужной информации.
Оптимизация списков ссылок, например, исключение из списков мертвых и устаревших ссылок, доступ к информационным источникам по которым невозможен, в ряде случаев является существенным моментом процесса обработки ссылок и списков ссылок. Но в изобретении, описанном в заявке ϋδ 6032162, данная операция требует значительных временных затрат и следовательно малоэффективна при работе со списками, особенно если они велики. Это приводит к тому, что процесс получения по ссылкам полных копий информационных источников будет прерываться сообщениями об ошибках доступа.
Кроме того, реализованный в изобретении υδ 6032162 механизм редактирования (модификации) списков ссылок также не избавлен от недостатков и является малоэффективным, когда речь заходит о формировании новых списков ссылок на основе уже существующих. Т. е. пользователь последовательно обращается к различным спискам и формирует новый список путем копирования или переноса ссылок из ранее сформированных списков в новый список, но данный процесс, по сути, выполняется вручную и, следовательно, отнимает много времени.
Недостаток изобретения И8 6032162 заключается также в том, что в случае его использования одновременно на нескольких устройствах хранения данных, осуществляют одностороннюю синхронизацию хранимых на упомянутых устройствах хранения данных ссылок и списков ссылок. Синхронизация заключается в пересылке всего массива данных от одного устройства хранения данных другому. Такая реализация сильно ограничивает функциональные возможности изобретения тем, что модификация данных одновременно на нескольких устройствах хранения данных бесполезна, т. к. при полной перезаписи массива данных с одного устройства хранения данных на другое происходит потеря всех изменений (модификаций), проводимых на этом устройстве. К тому же полная перезапись массива данных занимает достаточно много времени.
В качестве ближайшего аналога для изобретений, относящихся к способам получения ссылок, определяющих доступ к информационным источникам, и списков ссылок, выбрана система метапоиска и способ получения релевантной информации по отношению к запросу на естественном языке из множества документов [Патент И8 6078914, С 06Р 17/30,
20.06.2000].
Способ включает в себя последовательность операций:
- выбор, по меньшей мере, одной поисковой машины из существующей базы данных упомянутых поисковых машин;
- формирование пользователем запроса, описывающего искомую информацию;
- предварительную обработку сформированного запроса, преобразование запроса в форму данных для поиска, подходящую к каждой из упоминаемых, по меньшей мере, одной поисковых машин;
- пересылку созданных данных для поиска к каждой упоминаемой, по крайней мере, одной поисковой машине для инициализации поиска;
- получение результатов поиска, включающих, по меньшей мере, один список ссылок на информационные источники от каждой упоминаемой, по крайней мере, одной поисковой машины и объединение результатов поиска для получения единого результирующего списка ссылок на информационные источники;
- обработку результатов поиска, включающую фильтрацию списка, удаляющую избыточную информацию из результатов поиска, для получения сокращенного списка найденных документов и проведение анализа каждого документа, найденного поисковой системой, его ранжирование в зависимости от связи с релевантными словами и определение релевантных отрывков каждого документа по отношению к извлеченным словам;
- добавление синонимов к словам, извлеченным из запроса на естественном языке, для расширения запроса.
Недостаток изобретения И8 6078914 заключается в том, что оно предусматривает хранение, извлечение и обработку лишь однородных ссылок на информационные источники (полученных из однородных информационных ресурсов с использованием Интернет поисковых машин), что сужает область охватываемого изобретением информационного пространства.
Недостаток изобретения И8 6078914 заключается в том, что его использование для осуществления поисковых операций зачастую не приводит к получению ожидаемого пользователем результата. С одной стороны, это определяется тем, что формирование поисковых запросов для метапоиска с использованием только булевых операторов налагает существенные ограничения на функциональные возможности системы. Поскольку ряд возможностей присущих отдельным поисковым машинам не будет задействован при отработке запроса, что отрицательно скажется на результатах поиска. С другой стороны, списки поисковых машин формируются с использованием тематических классификаторов и не всегда включают в себя те машины, использование которых для того или иного запроса наиболее оптимально, поскольку тематическая классификация не позволяет осуществлять выбор поисковых машин по их качественным и количественным характеристикам.
Получение результатов поиска (списков ссылок), содержащих ненужную (избыточную) информацию, затрудняет обработку полученных списков, что приводит к тому, что пользователи излишне ограничивают список для метапоиска несколькими наиболее известными поисковыми машинами. Такое ограничение отрицательно сказывается на результативности металоиска, поскольку сужается охват информационного пространства.
Использование в изобретении И8 6078914 только тех поисковых машин, которые входят в предопределенный разработчиками перечень, ограничивает информационное пространство, охватываемое при метапоиске, и не позволяет задействовать те информационные ресурсы, которые не являются популярными, но интересуют конкретного пользователя, в том числе разработанные им самим информационно поисковые системы и базы данных.
Кроме того, недостаток изобретения И8
6078914 заключается в низкой эффективности обработки полученных результатов поиска, приводящей к тому, что пользователю повторно отображается уже ранее просмотренная им информация (идентичные документы, полученные по разным ссылкам). Таким образом увеличи9 ваются временные затраты на обработку полученной информации.
В качестве аналога для изобретения, относящегося к способам формирования и обработки списков ссылок, а также к способам получения полных копий информационных источников по соответствующим им ссылкам и их дальнейшего отображения выбран программный продукт класса 4о\уп1оа4 тападег - НакйОе! |1Шр://\у\у\у.атахс5оП.сот/т<1сх.1ит|. Данный программный продукт позволяет осуществлять отложенную закачку информации (различных файлов) из Интернет в удобное для пользователя время в соответствии с установленными параметрами.
Недостатком ИакйОе! является то, что установка упомянутых параметров ограничивается возможностью определения ссылок, по которым осуществляют получение информации и установкой временных параметров для откачки информации. При этом функциональные возможности На511Се1 не предусматривают установку параметров для отображения полученной информации, а также параметров для осуществления проверки актуальности получения и дальнейшего отображения полученной информации.
В качестве аналога для изобретения, относящегося к способам формирования и обработки списков ссылок, а также к способам получения полных копий информационных источников по соответствующим им ссылкам и их дальнейшего отображения выбран также программный продукт класса 4о\уп1оа4 тападег - Те1ерой Рго, Теппукоп Махуе11 1пГогта0оп Зуйетк 1пс. |1Шр://\у\у\у.1ептах.сот/1е1ерог1/рго/ГеаЦ1ге5.1ит|. Данный программный продукт позволяет осуществлять отложенную закачку информации (веб-страниц) из Интернет в удобное для пользователя время в соответствии с установленными параметрами. В качестве параметров используют определение уровня вложенности откачиваемой информации, что позволяет осуществлять целиком откачку веб-сайтов.
Недостатком Те1ерот1 Рго является то, что установка упомянутых параметров также ограничивается возможностью определения ссылок, по которым осуществляют получение информации, и установкой временных параметров для откачки информации. При этом функциональные возможности Те1ерот1 Рго не предусматривают установку параметров для отображения полученной информации, а также параметров для осуществления проверки актуальности получения и дальнейшего отображения полученной информации.
Задача, решаемая изобретением
Задача, решаемая изобретением, заключается в расширении функциональных возможностей существующих систем и методов, предназначенных для хранения, поиска и обработки ссылок на информационные источники, их спи сков, а также полных копий информационных источников, соответствующих упомянутым ссылкам, за счет:
- оптимизации процесса метапоиска с использованием разнородных информационных ресурсов;
- повышения эффективности операций обработки ссылок, списков ссылок и полных копий информационных источников;
- оптимизации процесса хранения ссылок и списков ссылок в системах одновременно функционирующих на нескольких устройствах хранения данных и повышения эффективности администрирования упомянутых систем;
- оптимизации процесса получения и отображения ссылок, списков ссылок и полных копий информационных источников;
- устранения информационной избыточности в списках ссылок и в архиве полных копий информационных источников, хранимых на устройствах хранения данных;
- повышения эффективности использования сетевых ресурсов и коммуникационных линий при формировании массива данных полных копий информационных источников.
Единство замысла изобретений
Общим положением, объединяющим все изобретения, входящие в заявку, является то, что в них реализован механизм для работы с разнородными ссылками и списками разнородных ссылок. Настоящие изобретения предназначены для формирования, хранения и обработки списков разнородных ссылок, включающих в себя одновременно ссылки нескольких типов, например веб-ссылки (\у\у\у.4оси1пепЦпп.со1п/ 1п4ех.й1т1), ссылки, представляющие собой путь к файлу, расположенному на доступном устройстве (с:\4оситеп1\ра1еи1.4ос), ссылки, представляющие собой ΙΌ записей баз данных, ссылки, представляющие собой наименования товаров в информационно-поисковых системах и т.д.
Основные определения и положения настоящего изобретения
В настоящем изобретении разнородные ссылки представляют собой последовательности байт, определяющие пути, методы, а также одновременно пути и методы доступа к информационным источникам. Ссылка, определяющая путь к файлу, расположенному на доступном устройстве, представляет собой последовательность байт, определяющую тип ссылки, и последовательность байт, определяющую адрес ссылки (путь доступа, например ИРЬ). Ссылка, представляющая собой ΙΌ записи в базе данных, состоит из последовательности байт, включающей в себя тип ссылки, последовательности байт, определяющей адрес информационного ресурса (если это необходимо, например, в тех случаях, когда база данных является внешним информационным источником), а также последовательности байт, определяющей метод доступа к записи в этом информационном ресурсе (базе данных). При этом последовательность байт, определяющая метод доступа (правила доступа к информационным источникам определенного типа), будет представлена в виде поискового запроса по первичному ключу, присущему упомянутой записи. Например, ссылка на патент υδ 6078914, информация о котором хранится в базе данных американского патентного ведомства \ν\ν\ν.ι.ΐ5ρΙο.βον, будет представлена в виде следующей последовательности байт:
ййр://164.195.100.11/пе1асд1/прйРагкег?8есП=РТО1&8ес12=Н1ТОРР&б=РАЬЬ&р = 1 &ц=/пе1аЫт1/кгсйпцт. Ыт&г= 1 &Г= С&1=50& κ1='6078914'.^Κυ.&0δ=ΡΝ/6078914&Κδ=ΡΝ/ 6078914
Ссылка на запись базы данных (наименование кинофильма Ьюп’к Неай), реализованной с использованием приложения Мюгокой Ассекк и хранимой на локальном пользовательском устройстве, будет представлена в виде следующей последовательности байт:
с:\ба1аЬаке\у1бео.тбЬ\8ЕЬЕСТ №ипе РКОМ У1бео ^НЕКЕ №1те=Ьюп'5 Неай, т.е. по сути представляет собой поисковый запрос к упомянутой базе данных. В качестве первичного ключа используют ΙΌ записи или ключевое поле, по которому однозначно идентифицируется запись в базе данных.
Необходимо заметить, что в настоящем изобретении последовательность байт, определяющая метод доступа (правила доступа к информационным источникам определенного типа), может быть представлена в виде поискового запроса не только по первичному ключу, присущему упомянутой записи. Такой подход используется в том случае, когда необходимо сформировать так называемую многоцелевую ссылку, т.е. ссылку, по которой получают не одну, а сразу несколько записей, объединенных определенным признаком (например, параметром поискового запроса). Примером многоцелевой ссылки является запрос на поиск патентов в базе данных \у\у\у.икр1о.доу по признаку их принадлежности к конкретному классу. Т.е. многоцелевая ссылка представляет собой последовательность байт, которая будет однозначно идентифицировать те записи в базе данных, которые принадлежат к конкретному классу. Эта последовательность байт, определяющая метод доступа к записям базы данных включена в общую последовательность байт, определяющую путь и метод доступа к информационному источнику. Кроме этого, в общую последовательность байт включена также последовательность байт, включающая идентификатор типа ссылки, и последовательность байт, определяющая путь доступа к информационному источнику (\у\у\у.икр1о.доу). Примером многоцелевой ссылки, определяющей доступ к патентам, информация о которых хранится в базе данных американского патентного ведомства \у\у\у.икр1о.доу и относящихся к классу С 06Р
17/30, является следующая последовательность байт:
ййр://164.195.100.11/пе1асщ/пр11Рагкег?8ес11=РТО2&8ес12=НГТОРР&ц= %2Рпе1а1Ит1%2Р кеагсйабу. 1Ит&г=0&р=1&Г= 8& 1-50&0иегу=1СЬ%2РС06Р017%2Р30&б=ра11
Таким образом, при обращении к многоцелевой ссылке будет отображен список информационных источников (записей в базе данных), соответствующих многоцелевой ссылке.
Работа с разнородными ссылками, представляющими собой методы доступа к информационным источникам, обусловлена наличием программных модулей, определяющих правила доступа (МОПД) к информационным источникам определенного типа. МОПД обрабатывают последовательности байт, определяющие методы доступа к информационному источнику, и однозначно интерпретируют их в формат данных, присущий информационным источникам определенного типа. Для определенного типа ссылок создают соответствующий программный модуль, определяющий правила доступа к информационным источникам определенного типа. Для формирования последовательности байт, определяющей метод доступа к информационным источникам определенного типа, пользователь обращается, например, к базе данных американского патентного ведомства, расположенной на удаленном веб-сервере, по адресу \у\у\у.икр1о.доу. Обратившись к упомянутой базе данных, пользователь не может сразу получить доступ к интересующим его патентам, поскольку для этого он должен дополнительно воспользоваться поисковой системой, осуществляющей поиск конкретных записей в базе данных по ряду параметров. Осуществив такой поиск и получив искомый результат в виде динамически формируемой веб-страницы, пользователь может ее целиком сохранить на диске своего компьютера, но сформировать ссылку, по которой можно будет в следующий раз обратиться непосредственно к интересующему патенту в базе данных, пользователь не сможет. Таким образом, в обычном случае пользователь может лишь воспользоваться ссылкой \у\у\у.икр1о.доу для перехода к базе данных американского патентного ведомства и далее заново осуществлять поисковые операции. Наличие модуля, определяющего правила доступа к записям (в данном случае патентам) в базе данных \у\у\у.икр1о.доу. позволит существенно упростить эту процедуру. Т.е. МОПД сформирует последовательность байт, которая будет однозначно им интерпретироваться и идентифицировать конкретную запись в базе данных, по первичному ключу, в данном случае таким ключом является номер патента (поисковый запрос по номеру патента υδ 6078914):
пе1асщ/пр11Рагкег?8ес11=РТО1&8ес12=Н1ТОРР&б=РАЕЕ&р =1 &ц=/пе1аЫт1/кгсйпцт. 1Ит&г= 1 &Г= С&1=50&
51='6078914'.’№Κυ.&Οδ=ΡΝ/6078914&Κ.δ=ΡΝ/ 6078914
Эта последовательность байт, определяющая метод доступа к записям базы данных, будет добавлена в общую последовательность байт, определяющую путь и метод доступа к информационному источнику. Кроме этого, в общую последовательность байт будет добавлена (записана) также последовательность байт, включающая идентификатор типа ссылки (ссылка υδΡΤΟ), и последовательность байт, определяющая путь доступа к информационному источнику (иВЬ Ы1р://164.195.100.11). В общем случае идентификатор типа ссылки включает информацию, указывающую на то, будет ли использоваться последовательность байт, определяющая путь доступа к информационному источнику, а также информацию, определяющую МОПД (ГО МОПД), который будет использован для обработки ссылки данного типа.
Поскольку в большинстве случаев работа со ссылками на информационные источники предполагает получение по ним полных копий информационных источников (их сохранения на устройстве хранения данных), формат ссылки предполагает наличие дополнительной информации. А именно, информации, идентифицирующей получение полной копии информационного источника по данной ссылке (получена полная копия информационного источника или нет), и если полная копия информационного источника была получена, то информацией, определяющей путь доступа к сохраненной на устройстве хранения данных, упомянутой полной копии информационного источника. Таким образом, полный формат ссылки, определяющей доступ к полной копии информационного источника и идентифицирующей получение по упомянутой ссылке полной копии информационного источника, в общем случае будет представлен в виде:
Идентификатор типа ссылки Путь к информационному ресурсу Последовательность байт, интерпретируемая МОПД Идентификатор получения полной копии Путь к полученной (сохраненной) полной копии
Применительно к описанному выше частному случаю работы с базой данных американского патентного ведомства (\ν\ν\ν.ι.ΐ5ρΙο.βον), полный формат ссылки, определяющей доступ к записи упомянутой базы данных и идентифицирующей получение по ссылке полной копии информационного источника, будет представлен в виде:
Идентификатор типа ссылки Путь к базе данных Последовательность байт, интерпретируемая МОПД Идентификатор получения полной копии Путь к полученной (сохраненной) полной копии
Ссылка υδΡΤΟ Ь«р://164.195.100.11 υδ6078914 1гие с:\ра!еп!\6078914.бос
Изобретение при обращении к сохраненной полной копии информационного источника предоставляет информацию о том, по какой ссылке и из какого источника была получена эта полная копия. При обращении к ссылке первым делом идентифицируется ее тип (ссылка υδΡΤΟ), который в данном случае укажет на необходимость осуществления перехода к базе данных американского патентного ведомства по указанному адресу (йбр://164.195.100.11). Далее по идентификатору типа ссылки будет определен МОПД, отвечающий за обработку ссылок данного типа. МОПД будет активизирован, после чего он обработает (интерпретирует) последовательность байт, определяющую метод доступа к информационному источнику (υδ 6078914), и отобразит пользователю соответствующий ссылке информационный источник. Проще говоря, при интерпретации последовательности байт (υδ 6078914), МОПД по номеру патента сгенерирует в соответствующем формате запрос пс1асщ/пр11Раг8ег?8ес11=РТО1&8ес12=Н1ТОРР&б=РАЬЬ&р = 1&и=/пс1а111т1/5гс11пит.1ит&г=1&Г=С&1=50&51 ='6078914'.^Κυ.&ΘδΡΝ/6078914&Βδ=ΡΝ/6078914 к базе данных, расположенной по адресу (ййр://164.195.100.11), после чего запрос будет отослан к упомянутой базе данных, от которой будет получена соответствующая полная копия информационного источника (патент υδ 6078914), которая отобразится пользователю. Таким образом, у пользователя, работающего с изобретением, создается иллюзия того, что он по имеющейся ссылке обращается напрямую к конкретному патенту (т.к. весь процесс обращения к базе данных и извлечения нужного патента от пользователя скрыт). Последовательность байт, определяющая метод доступа к информационному источнику, может включать в себя информацию о пароле для доступа к защищенной от несанкционированного доступа базе данных, поисковый запрос, непосредственно ГО записи и т.д. Идентификатор получения полной копии информационного источника и последовательность байт, определяющая путь к сохраненной полной копии, позволяют не осуществлять повторное получение информации, отображая пользователю уже сохраненные документы. Т.е. система отобразит пользователю документ, извлеченный из хранимого на локальном устройстве массива данных, без обращения к удаленному устройству. Получение документа от удаленного устройства будет осуществляться только при отсутствии упомянутого документа на локальном устройстве или по явной команде пользователя, что позволит также сэкономить время, затрачиваемое на получение информации.
Для того чтобы добавить в систему новый тип ссылок, пользователь должен создать соответствующий этому типу ссылок МОПД, определяющий правила доступа к информационным источникам. Для этого ему предоставляется соответствующий инструментарий, позволяющий создавать целые библиотеки МОПД предназначенных для обработки ссылок определенного типа, интегрируемых с настоящим изобретением. Стоит также заметить, что МОПД может использоваться для доступа к информационным источникам одного и более типа. Изобретение также использует стандартные модули для обработки ссылок определенного типа. Например, ссылка типа (с:\боситеи1\ра1еи1.бос) указывает на то, что для получения полной копии информационного источника соответствующего упомянутой ссылке необходимо активизировать приложение М1стокой \Уогб. которое и будет использован в качестве МОПД. На это указывает расширение файла (ра!еи1.бос). Для таких случаев предусмотрено создание таблиц соответствия конкретных ссылок стандартным модулям. Расширение χΐκ указывает на активизацию приложения Мютокой Ехсе1. расширение тбЬ укажет на активизацию приложения М1сгокой Ассекк и т.д.
Модуль, определяющий правила доступа к информационным источникам определенного типа, выполняет ряд операций, вытекающих из его функциональных возможностей: запись (добавление) в ссылку последовательности байт, идентифицирующей информационный источник; чтение (интерпретация) последовательности байт, идентифицирующей информационный источник; отображение (обработка) полной копии информационного источника, проверка (контроль) доступа к полной копии информационного источника. Функциональные возможности МОПД на этом не ограничиваются и дополнительно расширяются операциями, например, управления просмотром полных копий информационных источников, разбиения полных копий информационных источников на определенные последовательности символов и т.д. Т.е. операциями, повышающими эффективность работы с полными копиями информационных источников. Таким образом, изобретение применимо в открытых системах, т. е. системах, позволяющих интегрировать дополнительные операции, расширяющие их функциональные возможности. В частности, создание МОПД, предназначенного для обработки новых типов ссылок, расширяет количество информационных источников, поддерживаемых настоящим изобретением. Таким образом, использование данного изобретения в конкретных системах будет способствовать более динамичному их развитию, поскольку динамика развития этих систем будет определяться не только разработчиками, но и участием большого количества пользователей, работающих с упомянутыми системами.
Представленные в данном разделе основные определения и положения настоящего изобретения далее подробно описываться не будут и для облегчения восприятия информации при обнаружении упомянутых определений и положений в тексте описания заявки желательно обращаться к данному разделу.
Краткое описание чертежей
На фиг. 1 показан способ обработки хранимых на доступных устройствах данных списков ссылок, заключающийся в определении для заданного списка тех ссылок, которые присутствуют хотя бы в одном сохраненном списке, за исключением заданного;
на фиг. 2 показан способ синхронизации ссылок и списков ссылок, одновременно хранимых на нескольких доступных устройствах хранения данных;
на фиг. 3 показан способ создания новых списков ссылок путем комбинирования двух и более списков и процесс их дальнейшей обработки;
на фиг. 4 показан процесс обработки списков ссылок, заключающийся в комбинировании двух списков с использованием булевского оператора ΑΝΏ и формировании на их основе нового результирующего списка;
на фиг. 5 показан процесс обработки списков ссылок, заключающийся в комбинировании двух списков с использованием булевского оператора Ой и формировании на их основе нового результирующего списка;
на фиг. 6 показан процесс обработки списков ссылок, заключающийся в комбинировании двух списков с использованием булевского оператора 8ИВ и формировании на их основе нового результирующего списка;
на фиг. 7 показан способ обработки ссылок и списков ссылок, заключающийся в создании пользовательских полей описания, связанных со ссылками и списками ссылок, и осуществлении поиска ссылок и списков ссылок по упомянутым полям описания;
на фиг. 8 показан способ метапоиска ссылок, определяющих доступ к информационным источникам с использованием операций предварительной обработки поискового запроса;
на фиг. 9 показан процесс выбора поисковых машин для проведения метапоиска по за17 данной комбинации параметров поиска, присущих поисковым машинам;
на фиг. 10 и 11 показан процесс предварительной обработки поискового запроса, заключающийся в использовании обработчиков двух типов;
на фиг. 12 показан процесс предварительной обработки поискового запроса, состоящего из одного слова, с использованием нескольких дополняющих обработчиков;
на фиг. 13 показан способ предварительной обработки поискового запроса;
на фиг. 14 показан способ получения и отображения новых ссылок, определяющих доступ к информационным источникам с использованием сохраненных поисковых запросов, сохраненных результатов поиска и списков поисковых машин;
на фиг. 15 показан способ отложенного получения и отображения полных копий информационных источников по соответствующим им ссылкам;
на фиг. 16 показан способ проверки наличия на устройстве хранения данных полных копий информационных источников, имеющих сходство по текстовому содержимому с вновь полученной полной копией информационного источника.
Способ обработки ссылок, определяющих доступ к информационным источникам, и списков ссылок, хранимых на доступных пользователю устройствах хранения данных, заключающийся в получении, хранении, поиске и синхронизации ссылок на информационные источники и их списков Сущность изобретения
Изобретение представляет собой способ обработки разнородных ссылок и списков разнородных ссылок, хранимых на доступных пользователю устройствах хранения данных, заключающийся в получении, хранении, поиске и синхронизации ссылок на информационные источники и их списков. В качестве разнородных ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам.
Способ включает в себя последовательность операций, выполняемых системой, которая функционирует на доступных устройствах хранения данных, в качестве которых используют как локальные, так и удаленные устройства. Способ заключается в формировании списков, включающих разнородные ссылки, определяемые путями и/или методами доступа к информационным источникам, в поиске ссылок и списков ссылок на одном и более доступных пользователю устройствах хранения данных и/или их отображении и дальнейшей обработке.
Последовательность байт, определяющую метод доступа к информационному источнику, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа. Настоящее изобретение предусматривает добавление нового типа ссылок, предназначенных для последующей обработки, путем создания программного модуля, определяющего правила доступа к информационным источникам определенного типа.
Обработка ссылок и списков ссылок заключается в их структурировании посредством классификаторов, в том числе созданных пользователем и в упорядочивании отображаемых списков ссылок по выбранному пользователем одному и более полям описания, связанным со ссылками. При отображении списков ссылок количество отображаемых в списках ссылок ограничивают одним и более фильтрами и устанавливают перечень полей описания к ссылкам для отображения, а также порядок и атрибуты для отображения упомянутых полей описания. Формирование списков ссылок предусматривает включение ссылки в различные списки и при обращении к конкретной ссылке предоставляется информация о том, в какие списки ссылок включена конкретная ссылка. Для каждой ссылки осуществляют проверку возможности доступа к полной копии информационного источника, соответствующего ссылке на информационный источник с заданной пользователем периодичностью.
В изобретении реализован механизм синхронизации ссылок, определяющих доступ к информационным источникам, и списков ссылок, одновременно хранимых на нескольких доступных устройствах хранения данных. Синхронизацию осуществляют путем пересылки новых и/или измененных ссылок и списков ссылок от одного доступного устройства хранения данных другому, выявляя и устраняя при этом возникающие конфликтные ситуации.
При работе в многопользовательском режиме пользователь автоматически получает права администратора на сохраненные им ссылки, и/или списки ссылок и осуществляют передачу прав доступа и/или прав администратора, по меньшей мере, на одну ссылку и/или список ссылок, по меньшей мере, одному другому пользователю. При этом, передача прав доступа и/или прав администратора, по меньшей мере, на одну ссылку и/или список ссылок другому пользователю, предусматривает установку параметров доступа к упомянутым ссылкам и/или спискам ссылок и виды операций, допустимые при работе с упомянутыми ссылками и списками ссылок.
Описание изобретения
Настоящее изобретение предназначено для работы со ссылками и списками ссылок, т.е. все описанные операции применимы к работе непосредственно со ссылками на информационные источники и их списками. Изобретение относят к способам обработки разнородных ссылок и списков разнородных ссылок, хранимых на доступных пользователю устройствах хранения данных, заключающимся в получении, хранении, поиске и синхронизации ссылок на информационные источники и их списков.
Формирование архива разнородных ссылок на любом из устройств включает в себя его наполнение ссылками, полученными от разнородных информационных ресурсов, например, Интернет поисковых машин (ЛИаУШа, Ехсйе), систем метапоиска, баз данных, функционирующих на удаленных устройствах (например, \ν\ν\ν.ι.ΐ5ρΙο.βον), баз данных, функционирующих на локальных устройствах и реализованных пользователем (например, с использованием приложения Мктокой Лссекк) и т.д. Полученные разнородные ссылки объединяют в единые списки разнородных ссылок для дальнейшей работы с ними. Формирование и обработка списков, включающих разнородные ссылки, способствует более широкому охвату информационного пространства (обеспечивает доступ к большому количеству информационных источников, хранимых в разнородных информационных ресурсах). При этом наполнение архива разнородными ссылками предусматривает расширение количества информационных ресурсов, от которых получают упомянутые ссылки. Таким информационным ресурсом является база данных, разработанная пользователем и функционирующая на его локальном компьютере. Для того чтобы обеспечить поддержку упомянутой базы данных, создают программный модуль, определяющий правила доступа к информационным источникам определенного типа, который будет интерпретировать последовательность байт, определяющую метод доступа к информационным источникам, хранимым в базе данных.
При работе с информацией архив ссылок одновременно хранят на нескольких устройствах хранения данных, в качестве которых используют как локальные, так и удаленные устройства, например, жесткий диск локального компьютера и удаленный Интернет-сервер. Это позволяет не беспокоится о возможности получения доступа к хранимым ссылкам и спискам ссылок в случае поездок в командировки и в других аналогичных случаях, когда доступ к локальному компьютеру, на котором хранится архив данных, невозможен (работа на различных компьютерах, расположенных в офисе и дома). Сохраняемым ссылкам автоматически присваивают предопределенный набор полей описания, включающий в себя сопроводительную информацию, которая присваивается каждой ссылке автоматически, например, дата и время сохранения ссылки и т. д. Эта информация очень полезна не только для получения первичных сведений о ссылке при ее просмотре, но также позволяет осуществлять поиск в архиве ссылок по упомянутым предопределенным по лям описания. Поиск ссылок осуществляют одновременно на нескольких определенных устройствах хранения данных.
Сохраняемые на устройствах хранения данных ссылки и списки ссылок структурируют, привязывая их к различным классификаторам. При этом, в качестве классификаторов используют как заранее предопределенные, так и созданные пользователем в соответствии с его личными предпочтениями классификаторы. Данное изобретение позволяет иметь в системе нескольких предопределенных и/или пользовательских классификаторов, причем упомянутые классификаторы имеют линейную или иерархическую структуру. В качестве классификатора используют также любые логические структуры, позволяющие упорядочить хранение информации (например, каталоги ссылок и т.д.).
Отображаемые списки ссылок упорядочивают по выбранным пользователем одному и более полям описания, связанным со ссылками, а также определение перечня полей описания, отображаемых пользователю, и параметров их отображения, т.е. порядка и атрибутов для их отображения. Например, в перечень отображаемых полей описания к ссылкам, представленным в списке включают поля Дата сохранения, Название ссылки и Название поисковой машины, что позволяет получить первичную информацию об отображаемых в списках ссылках.
При отображении списков ссылок используют механизм ограничения количества отображаемых пользователю ссылок (ограничение области просмотра) одним и более фильтрами. В качестве фильтров, ограничивающих область просмотра, используют, например, дату сохранения ссылок на устройстве хранения данных, наличие ключевых слов в названиях ссылок, разделы классификаторов, данные из полей описания и т. д. Использование фильтров для ограничения области просмотра позволяет избежать выполнения лишних операций при работе с отображаемыми пользователю ссылками и списками ссылок. Например, зачастую для получения и отображения необходимого пользователю списка ссылок приходится осуществлять поиск по полям описания ссылок, а затем вручную удалять ненужные пользователю ссылки из списка. Использование фильтров позволяет упростить эту задачу, которая будет сведена к выполнению лишь одной операции (поиск с ограничением по заданному фильтру).
Изобретение предусматривает для каждой ссылки проверку возможности получения по ней полной копии информационного источника, причем устанавливают периодичность, с которой осуществляют упомянутую проверку. Поскольку информация в Интернет постоянно претерпевает изменения (в том числе появляются новые веб-страницы, исчезают старые), сущест вует вероятность того, что в определенный момент времени ссылка станет не актуальной, что приведет к тому, что дальнейший процесс получения по ней полной копии информационного источника будет прерван сообщением об ошибке доступа. Изобретение позволяет избежать таких сбоев в работе увеличивающих время обработки списков, периодически посылая запрос к полным копиям информационных источников, соответствующих указанным ссылкам, и если в ответ на запрос выдается сообщение об ошибке доступа, то неактуальная ссылка удаляется из списка или с устройства хранения данных в соответствии с установленными параметрами.
Ссылку, хранимую на устройстве хранения данных, включают в один и более списков ссылок и предоставляют информацию о том, в какие еще списки ссылок, кроме заданного, включена конкретная ссылка. Данная операция может осуществляться над списком ссылок. Способ реализуют следующим образом. На этапе 1, как это показано на фиг. 1, пользователь выбирает интересующий его список ссылок. Далее на этапе 2 осуществляют выполнение операции проверки наличия на доступном устройстве хранения данных списков, содержащих ссылки, имеющиеся в заданном пользователем списке. Операция выполняется для каждой из ссылок, входящей в заданный пользователем список. На этапе 3 осуществляют проверку на предмет обнаружения искомых ссылок в ранее сохраненных списках, отличных от заданного. Если ссылки, содержащиеся в заданном списке, не будут обнаружены ни в одном другом ранее сохраненном списке, то заданный список не модифицируется (остается без изменений). Если же такие ссылки будут найдены, то на этапе 4 заданный список модифицируют и упомянутые ссылки либо автоматически исключаются из заданного списка ссылок, либо визуализируются (в зависимости от установленных параметров). Визуализация ссылок, для которых найдены аналоги, предусматривает получение информации, в каких еще списках содержатся упомянутые ссылки. Это позволяет получать аналитическую информацию о хранимых ссылках в плане определения их полезности и популярности (по количеству списков, в которые включена ссылка), а также отношение ссылки и соответственно определяемой ею полной копии информационного источника к определенным тематикам. Далее на этапе 5 пользователю отображают обновленный заданный список ссылок. Как уже говорилось выше, отображаемый список может не претерпеть изменений.
Изобретение осуществляет синхронизацию ссылок и списков ссылок, одновременно хранимых на нескольких устройствах хранения данных. Синхронизация заключается в пересылке лишь новых и/или измененных данных от одного устройства другому, без полной перезаписи имеющегося массива данных. Синхронизация является двусторонней и учитывает все изменения в массивах данных, хранимых на различных устройствах, с учетом разрешения возникающих при синхронизации конфликтных ситуаций. Под двусторонней синхронизацией понимают механизм синхронизации, учитывающий все изменения, произошедшие с данными, хранимыми на различных устройствах, и формирующий итоговый массив данных, включающий все упомянутые изменения.
Способ реализуют следующим образом. На этапе 6, как это показано на фиг. 2, осуществляют обращение к доступным устройствам хранения данных, после чего на этапе 7 осуществляют проверку на предмет того, модифицировались ли данные, хранимые на упомянутых устройствах. Если данные не модифицировались, то процесс завершается, в противном случае, на этапе 8 для каждого из устройств хранения данных формируется свой файл изменений, в который включается только новые и и/или измененные данные. В одном случае упомянутые изменения представляют собой данные о модификации информации, содержащейся в конкретном поле описания, связанном с определенной ссылкой, например информацию об изменении даты последнего обращения к данной ссылке в поле описания Дата последнего обращения. В другом случае изменения включают в себя информацию о модификации конкретного списка ссылок, например информацию о том, что из упомянутого списка были удалены определенные ссылки и т.д. Файл изменений на каждом из устройств формируется следующим образом. Перед началом работы с данными (ссылками и списками) на каждом из устройств создается рабочая копия базы данных (синхронизированных ссылок и списков ссылок). После чего при работе с упомянутой базой данных на каждом из устройств формируется файл изменений, которые вносились в базу данных на конкретном устройстве в течение временного интервала, ограниченного двумя синхронизациями (предыдущей и последующей). Этот временной интервал, в течение которого на каждом из устройств формируется файл изменений, называется интервалом синхронизации. Файл изменений пополняется информацией в течение всего интервала синхронизации.
Далее на этапе 9 осуществляют проверку возникновения конфликтных ситуаций, которые заключаются в том, что на разных устройствах хранения данных была модифицирована одна и та же ссылка, причем модификация касалась одного и того же поля описания, связанного с этой ссылкой или самой ссылки, например модификация ее названия. Остальные ситуации, например, когда модификация касается разных полей описания одной и той же ссылки, не считаются конфликтными и не влияют на корректность выполнения синхронизации. Если кон фликт обнаружен, то на этапе 10 его устраняют. Причем конфликт устраняют несколькими возможными способами в зависимости от настроек системы, в которой функционирует данный способ. Например, право разрешения конфликта предоставляют пользователю, санкционирующему синхронизацию. Второй вариант разрешения конфликта предполагает устранение упомянутого конфликта самой системой в соответствии с установленными параметрами, например использовать приоритет по дате модификации. Т.е. в дальнейшем при синхронизации будет учитываться то изменение, которое имеет более позднюю дату. Третий вариант предполагает дублирование данных (например, ссылки или ее конкретного поля описания), для которых выявлена конфликтная ситуация.
Если конфликт на этапе 9 не обнаружен или устранен на этапе 10, на этапе 11 формируют единый файл изменений, включающий все изменения, произошедшие с данными, хранимыми на различных устройствах хранения данных в течение интервала синхронизации. После этого на этапе 12 осуществляют пересылку единого файла изменений всем устройствам, для которых осуществляют синхронизацию данных. На этапе 13 на каждом из устройств, для которых осуществляют синхронизацию, проводят операцию отката базы данных к тому состоянию, которое имелось на момент начала интервала синхронизации. Откат для базы данных, хранимой на конкретном устройстве, осуществляют в соответствии с файлом изменений, сформированным для данного устройства. После отката база данных будет приведена к тому состоянию, в котором она пребывала сразу после проведения предыдущей синхронизации, т.е. до того как в нее внеслись первые после проведения предыдущей синхронизации изменения. Затем на этапе 14 на каждом из устройств осуществляют обработку полученного единого файла изменений, заключающуюся в операции обновления данных (ссылок и списков ссылок). Таким образом, после проведения обновления данных путем обработки единого файла изменений, на каждом из устройств будет сформирована полностью идентичная, актуальная база данных (ссылок и списков ссылок на информационные источники).
Изюминка механизма синхронизации состоит в том, что весь процесс проводится автоматически. Впрочем, изобретение позволяет настроить систему таким образом, что устранение конфликтов возьмет на себя администратор сети, при этом система выдает сообщение о конфликте и предлагает его устранить. Механизм разрешения конфликтных ситуаций, возникающих при синхронизации, учитывает все изменения, произошедшие с данными на различных устройствах хранения данных, и потому особенно эффективен в том случае, когда пользователь модифицирует данные, хранимые на каждом из устройств, поскольку при полной перезаписи массива данных с одного устройства на другое часть информации может быть утеряна. При этом существенно снижаются временные затраты, необходимые для проведения данной операции.
При работе в многопользовательском режиме пользователь автоматически получает права администратора на сохраненные им ссылки и списки ссылок и осуществляет управление правами доступа к сохраненным им ссылкам и спискам ссылок, которое заключается в передаче управления правами доступа над конкретными ссылками и их списками другим пользователям. Передача прав доступа предусматривает установку параметров, в соответствии с которыми пользователю, которому переданы права доступа предоставляются все или только часть операций, предусмотренных при работе со ссылками на информационные источники и их списками. Например, пользователь, имеющий права администратора, предоставляет права доступа другому пользователю только по чтению, т.е. запретив осуществлять модификацию данных. Или разрешает модификацию ссылок и списков ссылок только в части создания и заполнения полей описания к упомянутым ссылкам и спискам ссылок. Пользователь, имеющий права администратора, предоставляет права доступа и/или права администратора, по меньшей мере, одному другому пользователю. Т. е. каждый пользователь выступает администратором по отношению не только к сохраненным им самим ссылкам и спискам ссылок, но и по отношению к тем ссылкам и спискам ссылок, управление правами доступа которыми ему предоставляют другие пользователи. Таким образом, изобретение повышает эффективность администрирования системы, работающей в многопользовательском режиме и предназначенной для хранения ссылок и списков ссылок.
Данное изобретение иллюстрируется простыми примерами реализации.
В данном примере, иллюстрирующем процесс определения для заданного списка ссылок тех ссылок, которые включены в списки ссылок, отличные от заданного, поставлена задача формирования архива уникальных ссылок (т.е. ссылка должна быть представлена в архиве лишь один раз). Это делается для того, чтобы пользователю впоследствии не приходилось тратить время на повторный просмотр одних и тех же ссылок, сохраненных в архиве неоднократно. Поскольку архив ссылок уже достаточно велик и формируется довольно длительное время, вероятность того, что при получении нового списка ссылок, даже по разным запросам, можно занести конкретную ссылку в архив повторно, велика. Для того чтобы избежать сохранения в архиве дублей, для каждого вновь полученного списка 1, как это показано на фиг. 1, на этапе 2 осуществляют проверку наличия в архиве ссылок, представленных в упомянутом списке. Идентичными считаются ссылки, для которых полностью совпадают последовательности байт, определяющие путь и метод доступа к информационному источнику. При этом в соответствии с установленными параметрами, на этапе 4 осуществляют автоматическое удаление из вновь полученного списка ссылок тех ссылок, для которых на этапе 3 будут обнаружены ранее занесенные в архив аналоги. Проверка осуществляется автоматически и позволяет формировать итоговый список, в котором представлены только те ссылки, аналогов которых нет в хранящемся на устройстве хранения данных архиве ссылок. Затем итоговый список ссылок на этапе 5 отображают пользователю, после чего сохраняют в архиве. Таким образом, данный пример реализации изобретения позволяет пользователю формировать архив, состоящий из уникальных (хранимых в одном экземпляре) ссылок на информационные источники.
В данном примере, иллюстрирующем процесс синхронизации, в качестве устройств хранения разнородных ссылок и списков ссылок одновременно используют локальный компьютер пользователя и удаленный Интернет-сервер. Архивы данных идентичны (синхронизированы) на текущий момент времени. Работая с локальным компьютером в условиях офиса, пользователь осуществляет наполнение существующего архива дополнительными данными, добавляя в архив, расположенный на локальном компьютере, новые ссылки на информационные источники, полученные из Интернет. Кроме того, после просмотра ряда ранее сохраненных ссылок модифицируют их поля описания Статус ссылки, например, присвоив упомянутым ссылкам статус неинтересно. После этого пользователь уезжает в командировку и, не имея доступа к своему локальному компьютеру, добавляет ряд новых ссылок, полученных из Интернет (отличных от тех, что были сохранены на локальном компьютере), в архив ссылок, расположенный на удаленном Интернет-сервере, а также удаляет часть ранее сохраненных ссылок из упомянутого архива. При этом из архива на Интернетсервере удаляют те ссылки, которые были модифицированы в архиве, хранимом на локальном компьютере. Вернувшись из командировки, пользователь снова модифицирует архив, расположенный на локальном компьютере (добавляет новые ссылки), забыв о том, что необходимо осуществить синхронизацию хранимой на разных устройствах хранения данных информации.
Таким образом, архивы данных, хранимые на различных устройствах (локальном компьютере и Интернет-сервере) перестают быть идентичными и продублировать операции, совершенные над упомянутыми архивами для приведения их к единому состоянию вручную, не представляется возможным, поскольку пользователь не в состоянии вспомнить все выполненные им операции. Но наличие идентичной информации в этих архивах критично, так как пользователь опять собирается в командировку и соответственно желает добавить сохраненные им на локальном компьютере новые ссылки в архив, расположенный на удаленном Интернетсервере. Обычная перезапись архива с локального компьютера на Интернет-сервер приведет к потере той информации, которая была добавлена в архив, расположенный на Интернетсервере, что крайне не желательно.
Поэтому на этапе 6, как это показано на фиг. 2, осуществляют обращение к жесткому диску локального компьютера и удаленному Интернет-серверу и на этапе 7 определяют, что в архивы, расположенные на упомянутых устройствах, вносились изменения. На каждом из устройств (жесткий диск локального компьютера и Интернет-сервер) на этапе 8 создают файл изменений, в который включают информацию лишь о добавленных и/или модифицированных данных. Эти файлы изменений (в данном случае два файла, по одному от каждого из устройств) объединяют в единый файл изменений на этапе 11. При этом в единый файл изменений однозначно автоматически будет включена информация о ссылках, добавленных в архивы, расположенные как на локальном компьютере, так и на Интернет-сервере, поскольку в данном случае добавленные в разные архивы ссылки не совпадают. Иначе обстоит дело с теми ссылками, которые были модифицированы на локальном компьютере и в то же время были удалены из архива, расположенного на Интернетсервере. Поскольку часть ссылок совпадает, система на этапе 9 определяет возникновение конфликтной ситуации. В соответствии с установленными параметрами синхронизации система на этапе 10 выдает пользователю сообщение о возникновении конфликта. Разобравшись в сути конфликта, пользователь отдает системе команду удалить те ссылки, которым был присвоен статус неинтересно на локальном компьютере и которые в тоже время были удалены из архива на Интернет-сервере. Упомянутые ссылки удаляются из формируемого архива данных. Таким образом, единый файл изменений, сформированный на этапе 11, включает в себя информацию о добавленных ссылках и о том, что часть ссылок должна быть удалена из формируемого архива данных. Единый файл изменений на этапе 12 пересылают локальному компьютеру и Интернет-серверу и на каждом из этих устройств на этапе 13 проводят операцию отката архива данных. Откат для архивов данных, хранимых на локальном компьютере и Интернет-сервере, осуществляют в соответствии с файлами изменений, сформированными для каждого из упомянутых устройств. После отката архивы данных на локальном компьютере и Ин27 тернет-сервере будут приведены к тому состоянию, в котором они пребывали сразу после проведения предыдущей синхронизации, т.е. до того как в них внеслись первые после проведения предыдущей синхронизации изменения. Далее на этапе 14 на локальном компьютере и Интернет-сервере осуществляют обработку полученного единого файла изменений, заключающуюся в операции обновления данных (ссылок и списков ссылок). Таким образом, после обновления данных путем обработки единого файла изменений, на локальном компьютере и Интернет-сервере будут сформированы полностью идентичные, актуальные архивы данных (ссылок и списков ссылок на информационные источники). В эти архивы будут включены все новые ссылки, добавленные в процессе работы с архивами, расположенными как на локальном компьютере, так и на Интернет-сервере, а также из них будут исключены ссылки, удаленные из архива, расположенного на Интернет-сервере.
В данном примере, иллюстрирующем процесс передачи прав управления над ссылками и списками ссылок, рассматривается система, предусматривающая совместный доступ к сохраненным данным для всех или для определенной группы пользователей (многопользовательский режим работы). При этом пользователь, сохранивший в архиве данные, автоматически получает права доступа и права управления доступа к сохраненным им ссылкам и спискам ссылок.
В данном примере начальнику управления автоматизации требуется получить отчет о состоянии дел на рынке информационных технологий, в частности информации, касающейся систем управления данными. Имеется довольно большой список разнородных ссылок на информационные источники, относящиеся к упомянутой тематике, полные копии которых хранятся в различных информационных ресурсах, функционирующих в распределенной компьютерной сети. Для того чтобы получить нужный отчет, начальник управления автоматизации предоставляет имеющийся у него список ссылок в распоряжение начальника аналитического отдела. При этом предоставление списка ссылок включает в себя не только возможность доступа к нему, но и возможность управления правами доступа к этому списку. Такой подход вызван тем, что обработка большого списка потребует усилий нескольких человек и соответственно начальнику аналитического отдела необходимо предоставить возможность распределения работы (обработка ссылок из списка) между своими подчиненными.
Получив права управления доступом, начальник аналитического отдела в свою очередь предоставляет доступ конкретным исполнителям к определенным ссылкам из списка, разрешив при этом операции чтения и модификации ссылок (в том числе, создание и заполнение пользовательских полей описания). Обрабатывая предоставленные им ссылки (просматривая полные копии информационных источников, соответствующих ссылкам), исполнители сопровождают каждую из ссылок своими комментариями на тему полезности конкретной ссылки и соответствующего ей информационного источника, для составления сводного аналитического отчета. После чего начальник аналитического отдела изучает предоставленную ему информацию (комментарии и замечания ко всем ссылкам, включенным в список) и на основании этой информации, в соответствии с предоставленными ему возможностями, оптимизирует список ссылок, удаляя из него избыточную на его взгляд информацию (ссылки на не интересующие информационные источники). Оптимизированный список ссылок (существенно уменьшенный) предоставляется начальнику управления автоматизации с кратким резюме начальника аналитического отдела ко всему результирующему списку ссылок. Таким образом, реализованная в данном изобретении функция передачи управления правами доступа к хранимым в архиве данным другим пользователям позволила оптимизировать процесс обработки данных и ускорила процесс формирования интересующего списка ссылок.
Способ формирования и обработки списков ссылок, определяющих доступ к информационным источникам, хранимых на доступных пользователю устройствах хранения данных Сущность изобретения
Изобретение представляет собой способ формирования и обработки списков разнородных ссылок, хранимых на доступных пользователю устройствах хранения данных. В качестве разнородных ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам.
Способ включает в себя последовательность операций, выполняемых системой, которая функционирует на доступных устройствах хранения данных, в качестве которых используют как локальные, так и удаленные устройства. Способ заключается в формировании списков, включающих разнородные ссылки, определяемые путями и/или методами доступа к информационным источникам и создании новых списков разнородных ссылок путем осуществления операций комбинирования. Операции комбинирования заключаются в формировании нового результирующего списка ссылок на основании двух и более списков ссылок.
Последовательность байт, определяющую метод доступа к информационному источнику, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа. Настоящее изобретение предусматривает добавление нового типа ссылок, предназначенных для последующей обработки, путем создания программного модуля, определяющего правила доступа к информационным источникам определенного типа.
Для создания новых списков ссылок используют операции импорта ссылок из внешних информационных источников, поиск ссылок по связанным с ними полям описания и операции комбинирования. При комбинировании используют списки ссылок, хранимые на одном и более доступных пользователю устройствах хранения данных. Сформированные и/или полученные списки ссылок модифицируют посредством операций добавления, удаления и переноса упомянутых ссылок с использованием кармана, в качестве которого используют служебный список, который служит для упрощения операций изменения списков ссылок на информационные источники.
Описание изобретения
Настоящее изобретение предназначено для работы со ссылками и списками ссылок, т. е. все описанные операции применимы к работе непосредственно со ссылками на информационные источники и их списками. Изобретение относят к способам формирования и обработки списков разнородных ссылок, хранимых на доступных пользователю устройствах хранения данных. Формирование списков ссылок осуществляют с использованием различных методик и внешних источников данных, содержащих одну и более ссылку на информационные источники. При этом для формирования списков ссылок используют операции комбинирования, заключающиеся в формировании нового результирующего списка ссылок на основании двух и более списков ссылок.
В качестве внешних источников данных используют, например, различные поисковые ресурсы, осуществляющие поиск ссылок на информационные источники. К таким поисковым ресурсам относятся, например, Интернет поисковые машины (ЛНаУМа, Ехсйе и т.д.) или системы метапоиска. Список ссылок на информационные источники получают, например, после осуществления поиска в любой специализированной базе данных, функционирующей на удаленном устройстве, например \ν\ν\ν.ι.ΐ5ρΙο.βον или в базе данных, функционирующей на локальном устройстве и реализованной с использованием приложения М1сто8ой Лссс55. Кроме того, список ссылок на информационные источники получают из хранилищ ссылок на информационные источники и их подборок, например, из папки Избранное Интернет браузера М1сго8ой [п(егпе( Ехр1огег. Изобретение предусматривает также расширение количества внешних информационных ресурсов, от которых получают ссылки путем создания программного модуля, определяющего правила доступа к информационным источникам определенного типа.
Таким информационным ресурсом является, например, реализованная пользователем с использованием приложения Мктокой Ассекк база данных, функционирующая на локальном устройстве.
В качестве внешних информационных ресурсов для получения списков ссылок также используют различные электронные документы (файлы), содержащие упомянутые ссылки на информационные источники, например, файлы рассылки электронных писем из различных информационных ресурсов или даже конкретные веб-страницы. Определение ссылок на информационные источники, содержащихся в упомянутых электронных документах, для формирования из них списков для дальнейшего использования в соответствии с настоящим изобретением, осуществляют автоматически путем выбора ссылок на информационные источники из выделенного пользователем фрагмента электронного документа, содержащего упомянутые ссылки.
Изобретение предусматривает получение новых списков ссылок с использованием поиска ссылок по связанным с ними полям описания. Такой поиск осуществляют для ссылок, хранимых на доступных пользователю устройствах хранения данных, например, по интервалу дат с 01.12.2000 по 01.01.2001 для поля описания Дата сохранения ссылки. При поиске используют поиск ссылок как по предопределенным полям описания, включающим сопроводительную информацию, которая присваивается каждой ссылке автоматически, например, дата и время сохранения ссылки и т.д., так и по полям описания, созданным и заполненным пользователем, что повышает эффективность поиска нужной информации. Поиск осуществляют по любой комбинации предопределенных и пользовательских полей описания. Использование при поиске как предопределенных, так и пользовательских полей описания устраняет избыточность информации в полученных списках ссылок и позволяет получать результаты, соответствующие ожиданиям пользователя, что в свою очередь упрощает процесс дальнейшей обработки полученных списков и снижает временные затраты, требуемые для их обработки. Особенно актуальна такая проблема при работе с большим массивом данных (ссылок). Поиск ссылок для формирования нового списка ссылок осуществляется с использованием нескольких доступных устройств хранения данных.
Изобретение также позволяет пользователю формировать список ссылок вручную. Для этого пользователь создает пустой список, в котором изначально не содержится ни одной ссылки. После этого пользователь модифицирует пустой список, например, путем добавления и/или переноса в него интересующих ссылок, из любых уже существующих списков ссылок.
При этом полученные списки разнородных ссылок хранят на различных устройствах хранения данных, что позволяет не беспокоится о возможности получения доступа к хранимым спискам ссылок в случае поездок в командировки и в других аналогичных случаях, когда доступ к локальному компьютеру, на котором хранятся списки ссылок невозможен (работа на различных компьютерах, расположенных в офисе и дома).
Способ реализуют следующим образом. На этапе 15, как это показано на фиг. 3, осуществляют определение (выбор) двух и более списков ссылок, которые будут использованы для проведения над ними операций комбинирования. При этом выбирают списки, хранимые на одном и более локальном и/или удаленном устройстве хранения данных. Данная операция позволяет осуществлять интеграцию данных (ссылок), хранимых в разнородных информационных ресурсах, функционирующих в условиях распределенной компьютерной сети. Далее на этапе 16 определяют операцию, которая будет использована при комбинировании списков. В качестве операций комбинирования используют формирование новых списков ссылок посредством выполнения операций над двумя и более списками. В качестве операций, используемых при комбинировании, применяются булевские операторы, например, ΆΝΏ, ОК, 8ϋΒ, а также различные правила, по которым из двух и более списков ссылок получают новый список.
Далее на этапе 17, как это показано на фиг. 3, осуществляют операцию комбинирования с участием выбранных на этапе 15 списков ссылок и при этом используют списки, хранимые на нескольких доступных устройствах хранения данных. На этапе 18 определяют будет ли в результате выполнения этапа 17 (проведение операции комбинирования) создаваться новый список ссылок. Если да, то на этапе 19 создается новый список ссылок, полученный в результате операции комбинирования. В противном случае на этапе 20 осуществляют замену одного из уже существующих списков ссылок вновь полученным списком, причем пользователь выбирает, какой из существующих списков заменить полученным. На этапе 21 определяют будет ли сохранен полученный после выполнения операции комбинирования список на доступном устройстве хранения данных. Если да, то на этапе 22 список сохраняют, при этом пользователь сохраняет упомянутый список на нескольких доступных устройствах хранения данных. Далее на этапе 23 осуществляют обработку списков ссылок в соответствии с функциональными возможностями, реализованными в настоящем изобретении. Т. е. над полученными списками ссылок проводят операции модификации, заключающиеся в добавлении новых ссылок в список, их удалении из списка и переносе ссылок из одного списка в другой с использованием служебного списка - так называемого кармана. Использование кармана упрощает и ускоряет процесс формирования и модификации списков ссылок.
Как было описано выше, в качестве операций, используемых при комбинировании, применяются булевские операторы, например, ΆΝΏ, ОК, 8ИВ (изобретение предусматривает использование и других булевых операторов), а также различные правила, по которым из двух и более списков ссылок получают новый список. В качестве правил, по которым осуществляют комбинирование списков ссылок, используют также различные функции, в том числе, заданные пользователями. Необходимо заметить, что при формировании функций для комбинирования списков используют предопределенные правила, например упомянутые булевские операторы ΛΝΏ, ОК, 8ИВ и т.д. При этом предоставляется инструментарий для интеграции формируемой функции с программным модулем, определяющим правила доступа к информационным источникам определенного типа. Таким образом, посредством упомянутой функции получают доступ к любой информации, относящейся к спискам ссылок и к самим ссылкам, представленным в этих списках (в том числе к полям описания), и можно использовать все признаки, предусмотренные изобретением, для работы с данными (поиск и т.д.). Формирование функции включает в себя определение последовательности выполнения простых операций над списками с целью получения интересующего пользователя результата. Т.е. формирование функции, например, включает в себя определение булевских операторов и последовательности, в соответствии с которой они будут задействованы. Формирование нужной функции, выполнение которой позволит пользователю сразу получить искомый результат, существенно упростит обработку информации. Особенно это важно для тех случаев, когда созданная функция достаточно часто используется при работе со списками ссылок.
Не менее важны при работе и операции комбинирования списков с использованием булевских операторов. На фиг. 4 показан процесс формирования нового списка ссылок на основании двух других с использованием булевого оператора ΛΝΏ. На этапе обработки списка ссылок на информационные источники пользователь выбирает два ранее сохраненных списка 24 и 25, каждый из которых включает в себя различные совпадения. В данном случае число ссылок для каждого списка ограничено пятью элементами. Как уже говорилось выше, ссылки, входящие в списки, представляют собой ИКЬ адрес, по которому можно обнаружить вебдокумент, идентификатором записи в базе данных, адресом любого файла, расположенного на удаленном или пользовательском устройстве хранения данных, наименованием товара в коммерческой базе данных и т.д. Причем в результирующем списке одновременно присутствуют ссылки, представляющие собой и ИКЬ адреса, и идентификаторы записи баз данных, и адреса файлов и т.д., т.е. разнородные ссылки, представляющие собой пути, методы, а также пути и методы доступа к информационным источникам. В результате выполнения комбинирования с использованием оператора ΑΝΏ на основании списков 24 и 25 формируется новый результирующий список 26, в который входят ссылки, одновременно присутствующие как в списке 24, так и в списке 25. Для данного примера, полученный после комбинирования список 26 будет включать в себя Совпадение 1, Совпадение 3 и Совпадение 5. Причем Совпадение 1 является ИКЬ адресом веб-страницы, Совпадение 3 является идентификатором записи в базе данных, а Совпадение 5 является адресом файла, расположенного на устройстве хранения данных. Схематично процесс комбинирования представлен на фиг. 4 и в виде диаграммы, на которой изображены два множества: слева изображено множество, символизирующее список 24, справа изображено множество, символизирующее список 25. Как видно из диаграммы, имеется и заштрихованная область пересечения обоих множеств, которая и представляет собой множество, символизирующее новый результирующий список 26.
На фиг. 5 показан процесс формирования нового списка ссылок на основании двух других с использованием булевого оператора ОК. В результате выполнения комбинирования с использованием оператора ОК, на основании списков 27 и 28 формируется новый результирующий список 29, в который входят все ссылки, присутствующие в списках 27 и 28. Для данного примера полученный после комбинирования список 29 будет включать в себя семь ссылок, поскольку при его формировании был удален избыток информации, состоящий из дублирующих элементов: Совпадение 1 , Совпадение 3 и Совпадение 5, присутствующих в обоих списках 27 и 28. Схематично процесс комбинирования представлен на фиг. 5 и в виде диаграммы, на которой изображены два множества: слева изображено множество, символизирующее список 27, справа изображено множество, символизирующее список 28. Как видно из диаграммы, имеется и заштрихованная область объединения обоих множеств, которая и представляет собой множество, символизирующее новый результирующий список 29.
На фиг. 6 показан процесс формирования нового списка ссылок на основании двух других с использованием булевого оператора 8ИВ В результате выполнения комбинирования с использованием оператора 8ИВ, на основании списков 30 и 31 формируется новый результи рующий список 32, в который входят ссылки, присутствующие в списке 30 и при этом отсутствующие в списке 31. Для данного примера полученный после комбинирования список будет включать в себя лишь две ссылки: Совпадение 2 и Совпадение 4. Схематично процесс комбинирования представлен на фиг. 6 и в виде диаграммы, на которой изображены два множества: слева изображено множество, символизирующее список 30, справа изображено множество, символизирующее список 31. Как видно из диаграммы, имеется и заштрихованная область, представляющая собой часть множества 30, за исключением тех ссылок, которые одновременно присущи как множеству 30, так и множеству 31. Упомянутая заштрихованная область и представляет собой множество, символизирующее новый результирующий список 32.
Эффект от использования операций комбинирования можно оценить в сравнении с существующими аналогами, чьи функциональные возможности ограничены редактированием списков посредством операций добавления ссылок в список, удаления ссылок из списка, а также переноса ссылок из одного списка в другой. Процесс формирования новых списков ссылок посредством вышеупомянутых операций является малоэффективным, т. к. операции добавления, удаления и переноса ссылок по сути выполняются вручную и отнимают много времени. Таким образом, обработка списков ссылок посредством инструмента, реализованного в известных системах обработки данных страдает от неудобств, связанных с отсутствием механизма для совместной обработки двух и более списков ссылок посредством операций комбинирования как это показано на фиг. 4-6. Помимо неудобства в работе, налицо ограничение функциональных возможностей существующих систем обработки данных в плане быстрого и эффективного формирования новых списков ссылок. Реализованный в данном изобретении механизм создания новых списков разнородных ссылок посредством комбинирования существенно повышает эффективность работы с информацией и экономит время, затрачиваемое на ее обработку. Это достигается за счет осуществления автоматической обработки двух и более списков ссылок по определенным правилам, установленным пользователем и включающим использование как булевых операторов, так и различных функций заданных пользователем.
Данное изобретение иллюстрируется простым примером реализации.
Пользователи, чья профессиональная деятельность связана с активной работой в Интернет, зачастую работают как в условиях дома, так и в условиях офиса. При этом осуществляют поиск информации, касающейся систем управления документами для составления аналитического отчета по упомянутой тематике. После отработки запроса боситеп! ΆΝΏ та падете ηΐ ΛΝΏ зуз1ет. например, поисковой машиной ЛНаУМа. сохраняют список (Ыз11) полученных от этой поисковой машины веб-ссылок. При этом поиск информации проводился с компьютера, расположенного в офисе, и поэтому полученный список ссылок сохраняют на жестком диске офисного компьютера. Т.е. доступ к сохраненному списку получают только с офисного компьютера. В случае продолжения поиска информации в домашних условиях получают другой список веб-страниц аналогичной тематики с использованием поисковой машины Ьусоз по запросу ЭОС8 Ореп ΆΝΏ ЭоситеШит (системы, лидирующие на рынке систем управления документами), при этом полученные результаты поиска (список ссылок Ыз12) сохраняют на удаленном Интернет-сервере, что позволяет получить доступ к сохраненному списку с любого компьютера, подключенного к Интернет.
Оба сохраненных списка одинаково важны для дальнейшей работы, а кроме того они относятся к одной тематике, и потому весьма актуальной задачей является формирование списка ссылок, включающего в себя ссылки, содержащиеся как в списке Ыз11. так и в списке Ыз12. В данном случае, работая с компьютером, расположенным в офисе, устанавливают соединение с удаленным устройством (Интернет-сервером) и осуществляют операцию получения единого списка ссылок на основании двух ранее сохраненных на различных устройствах хранения данных список ссылок. При этом активизируют системы, функционирующие как на локальном компьютере, так и на Интернет-сервере и на этапе 15. как это показано на фиг. 3, указывают списки для участия в операции формирования нового списка, в данном случае Ыз11 и Ыз12. В качестве правила, по которому осуществляют данную операцию комбинирования списков (формирование нового списка ссылок), на этапе 16 определяют булевский оператор ОК. В результате выполнения на этапе 17 операции Ь1511 ОК Ь1512 на этапе 19 получают вновь сформированный список ссылок Ыз13. включающий в себя ссылки, присущие обоим спискам, участвующим в операции комбинирования. Использование оператора ОК предполагает исключение из результирующего списка Ь1513 избыточной информации. Эта операция заключается в исключении из упомянутого результирующего списка дублирующих элементов. Например, если в списках ссылок Ыз11 и Ыз12 содержится ссылка \\л\л\-.боситеп1ит. сот/тбех.111т1. то в результирующем списке данная ссылка будет представлена один раз. Список ссылок на этапе 22 сохраняют на удаленном Интернет-сервере для дальнейшей работы с ним. Результирующий список ссылок модифицируют на этапе 23. вначале отсортировав его в соответствии с рейтингом, полученным от поисковых машин, для каждой из представленных ссылок, а затем удалив из него те ссылки, рейтинг которых составляет менее 50%. Комбинирование списков ссылок позволяет пользователю существенно упростить процесс и повысить эффективность работы с информацией и тем самым сэкономить время, затрачиваемое на ее обработку.
Способ поиска ссылок, определяющих доступ к информационным источникам, и списков ссылок, хранимых на доступных пользователю устройствах хранения данных Сущность изобретения
Изобретение представляет собой способ поиска разнородных ссылок, хранимых на доступных пользователю устройствах хранения данных. В качестве разнородных ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам.
Способ включает в себя последовательность операций, выполняемых системой, которая функционирует на доступных устройствах хранения данных, в качестве которых используют как локальные, так и удаленные устройства. Способ заключается в создании и модификации пользовательских полей описания, связанных с разнородными ссылками, в поиске упомянутых ссылок по любой комбинации, связанных с ними полей описания, формировании списков разнородных ссылок и дальнейшей обработке ссылок и списков ссылок.
Настоящее изобретение предусматривает создание нового типа данных для полей описания, связанных со ссылкой или списком ссылок. Добавление нового типа ссылок осуществляют путем создания программного модуля обработки данных определенного типа и интерпретирующего новый тип данных.
При формировании запроса на поиск ссылок и списков ссылок по связанным с ними полям описания выполняют операции предварительной обработки запроса, которые заключаются в получении, по меньшей мере, из одного исходного слова, входящего в запрос, одного или нескольких слов, связанных с исходным словом заданным соотношением. При отображении списков ссылок, полученных в результате поиска по любой комбинации полей описания, связанных с упомянутыми ссылками, количество отображаемых в полученных списках ссылок ограничивают одним и более фильтрами.
Обработка ссылок заключается в формировании множеств из одной и более ссылок, характеризующихся определенными наборами полей описания. Каждое формируемое множество имеет иерархическую структуру, в котором каждому подмножеству, по меньшей мере, присущ набор полей описания, характеризующий упомянутое множество, и каждой ссылке, вхо дящей в упомянутое множество, по меньшей мере, присущ набор полей описания, характеризующих это множество.
Описание изобретения
Настоящее изобретение предназначено для работы со ссылками и списками ссылок, т.е. все описанные операции применимы к работе непосредственно со ссылками на информационные источники и их списками. Изобретение относят к способам поиска разнородных ссылок и списков разнородных ссылок, хранимых на доступных пользователю устройствах хранения данных по связанным с упомянутыми ссылками и списками ссылок различительным признакам (полям описания).
Способ реализуют следующим образом. На этапе 33, как это показано на фиг. 7, определяют, какие из доступных устройств хранения данных будут использованы для определения (выбора) ссылок на информационные источники и их списков, предназначенных для обработки, заключающейся в создании и модификации пользовательского набора полей описания к упомянутым ссылкам и спискам. Т.е. изобретение, помимо работы с предопределенными полями описания к ссылкам, предполагает создание и модификацию пользователем дополнительного набора полей описания различного типа, связанных с каждой из ссылок. В качестве операций модификации полей описания, созданных пользователем, используют добавление новых полей описания, удаления существующих полей описания, а также изменение параметров, присущих полям описания, например, изменение типа поля, его размера и т.д.
К предопределенным полям описания относят сопроводительную информацию, которая присваивается каждой ссылке автоматически, например, дата и время сохранения ссылки и т.д. В качестве пользовательских полей описания используют созданные пользователями поля примечаний различного типа (текстовые, числовые, дата и т.д.). При этом пользователь создает поля описания пользовательского типа, например, комбинированные поля описания, состоящие из нескольких частей и включающие информацию символьного и числового типа (например, место и время события) и т.д. Пользователь также создает данные перечислимого типа. Т. е. данные, чей тип определяется перечнем присущих им элементов, например, перечнем стран и т.д. Работа с такими типами данных не требует от пользователя формирования функций для их обработки, достаточно лишь сформировать перечень элементов, присущих определенному типу данных. В дальнейшем, при работе с данными перечислимого типа, необходимо лишь выбрать нужный элемент из перечня. Перечислимый тип данных состоит из любых символов (набор букв, цифр, комбинированный и т.д.). Таким образом, изобретением не только поддерживаются стандартные типы полей описания, но также и предоставляется механизм для расширения их числа, путем создания пользователем новых типов данных, что обусловлено наличием программных модулей обработки данных определенного типа, которые создают пользователи.
Создавая новый тип данных, для них создают новый программный модуль обработки данных, который однозначно интерпретирует данные определенного типа и осуществляет их поддержку. Создание нового типа данных предусматривает полное описание его характеристик, таких как формат данных, уточняющие параметры (например, максимальный размер последовательности байт для конкретного типа данных) и т.д. Кроме того, для каждого нового типа данных формируют набор функций, поддерживающих работу с новым типом данных. Таким образом, с новым типом данных работают как со стандартным, т. е. система, в которой функционирует настоящее изобретение, автоматически будет поддерживать новые (пользовательские) типы данных при выполнении любых действий над ними: проведение поисковых операций, отображение и т.д. Для создания модулей обработки данных определенного типа пользователю предоставляется соответствующий инструментарий для создания библиотек модулей обработки данных определенного типа, предназначенных для обработки данных определенного типа. Модуль обработки данных определенного типа выполняет ряд операций, вытекающих из его функциональных возможностей: сравнение полей данного типа (для осуществления поиска); интерпретацию данных определенного типа и приведение их к формату, позволяющему осуществлять операцию сравнения; запись данных определенного типа в символьную строку; чтение данных определенного типа из символьной строки; запись данных определенного типа в последовательность байт (например, запись в файл); чтение данных определенного типа из последовательности байт (из файла). Функциональные возможности модуля обработки данных на этом не ограничивается и дополнительно расширяется операциями, например, преобразования одного типа данных в другой, управления визуализацией данных определенного типа и т. д.
На этапе 33, как это показано на фиг. 7, выбирают списки, хранимые на одном и более локальном и/или удаленном устройстве хранения данных. Данная операция позволяет осуществлять интеграцию данных (ссылок), хранимых в разнородных информационных ресурсах, функционирующих в условиях распределенной компьютерной сети. На этапе 34 определяют каким из способов будут определены ссылки и/или их списки и будут ли для этого задействованы поисковые операции. Если нет, то на этапе 35 осуществляют выбор ссылок на информационные источники и списков ссылок, располо женных на определенных на этапе 33 доступных устройствах хранения данных. При этом для выбора ссылок и их списков используют, например, классификаторы, как заранее предопределенные, так и созданные самим пользователем в соответствии с его личными предпочтениями. Данное изобретение позволяет иметь в системе нескольких предопределенных и/или пользовательских классификаторов, причем упомянутые классификаторы имеют линейную или иерархическую структуру. В качестве классификатора используют также любые логические структуры, позволяющие упорядочить хранение информации (например, каталоги ссылок и т.д.).
Если для определения ссылок и их списков будут использованы поисковые операции, то на этапе 36 формируют поисковый запрос для поиска интересующих пользователя ссылок и списков ссылок по различным параметрам. Формирование запроса включает в себя определение комбинации полей описания, связанных со ссылкой или списком ссылок, по которым будет осуществляться поиск и определения параметров запроса для каждого из выбранных полей описания. Необходимо заметить, что изобретение предусматривает использование любой комбинации полей описания, которая включает в себя, как предопределенные поля описания, так и поля описания созданные пользователем.
Далее на этапе 37 определяют, будет ли использоваться предварительная обработка для расширения сформированного пользователем исходного запроса. Если предварительная обработка будет использоваться, то переходят к выполнению этапа 38. на котором осуществляют предварительную обработку поискового запроса, заключающуюся в операции получения из, по меньшей мере, одного исходного слова, входящего в запрос, одного или нескольких слов, связанных с исходным словом заданным соотношением. К правилам, используемым для предварительной обработки, относится использование различных словарей и тезаурусов: морфологических, синонимических, семантических, двуязычных и т.д., а также использование различных функций преобразования. К функциям преобразования, например, относятся: замена строчных символов на прописные и наоборот, замена латинских букв кириллицей и наоборот и т. д. Для предварительной обработки используют как заранее предопределенные, так и созданные самим пользователем правила (словари, тезаурусы и функции преобразования). Пользователь формирует свои собственные правила в соответствии с известными ему критериями. Настоящее изобретение предусматривает выбор, по меньшей мере, одной операции предварительной обработки запроса, причем последовательность выполнения операций предварительной обработки запроса задают пользователи. Таким образом изобретение предусматривает расширение параметров запроса для любого из полей описания, используемых для поиска ссылок на информационные источники и их списков. Необходимо заметить, что операция предварительной обработки может заключаться в простой операции тождества, например, после предварительной обработки исходного слова результирующий запрос будет включать только упомянутое исходное слово. Далее на этапе 39 осуществляют поиск ссылок и списков ссылок в соответствии с условиями поискового запроса. Поиск осуществляется одновременно на всех, определенных на этапе 33 устройствах хранения данных.
На этапе 40 формируют список ссылок, отвечающий параметрам запроса, причем при формировании результирующего списка предусмотрена ограничение количества найденных ссылок одним и более фильтрами. В качестве фильтров, ограничивающих количество найденных ссылок, используют, например, дату сохранения ссылок на устройстве хранения данных, наличие ключевых слов в названиях ссылок, разделы классификаторов, данные из полей описания и т.д. Использование фильтров для ограничения области просмотра устраняет избыточность представленной в списках информации и позволяет избежать выполнения лишних операций при работе с отображаемыми ссылками и списками ссылок. Например, зачастую для получения и отображения необходимого списка ссылок приходится осуществлять поиск по полям описания ссылок, а затем еще дополнительно проводить операцию комбинирования списков или вручную удалять ненужные ссылки из списка. Использование фильтров повышает эффективность процесса получения списков ссылок, который будет сведен к выполнению лишь одной операции (поиск с ограничением по заданному фильтру). При этом в качестве фильтров также используют поля описания, созданные пользователем, устраняющие избыточность информации в формируемых списках более эффективно. Списки ссылок упорядочивают по выбранным пользователем одному и более полям описания, связанным со ссылками, а также определение перечня полей описания отображаемых пользователю и параметров их отображения, т. е. порядка и атрибутов для их отображения.
Далее на этапе 41 осуществляют обработку ссылок и их списков, определенных на этапах 35 или 40. Обработка списка ссылок и/или ссылок, входящих в упомянутый список, включает создание и модификацию пользователем полей описания различного типа к ссылкам на информационные источники и списку ссылок, в том числе создание полей описания новых типов. Обработка ссылок и списков ссылок на этапе 41 включает в себя также формирование из одной и более ссылок на информационные источники множеств, характеризующихся определенными наборами полей описания. Т.е. изобретение предусматривает структурирование ссылок и списков ссылок, для чего в способе дополнительно реализован механизм создания так называемых шкафов. Шкаф фактически будет представлять собой отдельную информационную подсистему, характеризующуюся наличием индивидуального набора пользовательских полей описания любого типа и имеющую иерархическую структуру (шкаф уровня 1, шкаф уровня 2 и т.д.). При создании шкафов соблюдается логика наследования набора полей описания, т.е. шкаф более низкого уровня характеризуется набором пользовательских полей описания, которые будут присущи шкафам более высокого уровня, а, кроме того, имеет ряд собственных полей. Набор пользовательских полей описания задают как в процессе формирования шкафа, так и расширяют впоследствии. Изобретение предусматривает поиск по этим полям описания. Удобство работы со шкафами можно показать на следующем примере. Если пользователь хранит ссылки на файлы с электронными сообщениями, то он структурирует их, размещая ссылки в шкафу Электронные сообщения, что вполне логично. Логично это по двум причинам. Первая: разместив ссылки на файлы электронных сообщений в соответствующем шкафу, пользователю не нужно будет ломать голову над тем, какие поля описания создать к этому документу. Поскольку шкафу 'Электронные сообщения присущ специализированный набор полей описания, который автоматически присваивается каждой ссылке и может быть сразу заполнен (дата отправки, дата получения, обратный адрес и т.д.). Вторая: пользователь может ограничивать зону поиска интересующих ссылок конкретным шкафом. Механизм структурирования информации посредством создания шкафов будет удобен при работе со ссылками определенной тематики (ссылками на вебстраницы, ссылками на электронные сообщения и т.д.), имеющими характерный набор пользовательских полей описания.
Далее на этапе 42 определяют будет ли продолжаться сеанс работы. Если да, то переходят к выполнению этапа 33, в противном случае сеанс работы завершается.
Механизм создания и модификации пользовательских полей описания очень полезен в работе, поскольку облегчает пользователю доступ к интересующим его ссылкам. Надо заметить, что количество заполняемых пользователем полей примечаний не ограничено и при умелом оперировании ими пользователь существенно повышает удобство работы со ссылками и списками ссылок.
Данное изобретение иллюстрируется одним из примеров реализации
Сохраняемым в системе ссылкам автоматически присваивается предопределенный на бор полей описания, включающий в себя информацию о дате сохранения ссылки, ее название, имя пользователя, сохранившего ссылку, источник получения ссылки. Эта информация очень полезна не только для получения первичных сведений о ссылке при ее просмотре, но также позволяет осуществлять поиск ссылок, хранимых на доступном устройстве хранения данных по упомянутым предопределенным полям описания. Но поскольку этой информации бывает недостаточно как для получения полного представления о конкретной ссылке, так и для осуществления более точного поиска ссылок, сохраняемым ссылкам дополнительно присваивают набор полей описания, созданный пользователем. При этом создают новые типы данных, а для того чтобы обеспечить поддержку упомянутых типов данных создают программные модули обработки данных, которые будут однозначно интерпретировать данные нового типа. Например, собирая информацию о международных европейских выставках, посвященных автотранспорту и проводимых в 2001 году, очень удобно к ссылке на информационный источник, содержащий информацию о выставке, вместо создания двух полей различного типа создать одно комбинированное пользовательское поле описания, включающее в себя информацию о месте проведения выставки (символьные данные) и дате ее проведения (данные типа дата) Место проведения выставки; Дата открытия выставки, например, выставка Аи1отоЫ1е 1п1етпа1юпа1 (АМ1): Лейпциг; 06/03/2001, выставка Ттапкрой: Мюнхен; 15/05/2001, выставка Аи1отоЫ1е: Будапешт; 17/10/2001, выставка Мо1ог-5>1ю\у: 'Эссен; 30/11/2001 и т.д. Ссылки сохраняют на жестком диске локального компьютера. При обращении к таким ссылкам сразу получают полную информацию о том, где и когда состоится та или иная выставка. Кроме того, наличие упомянутого поля описания позволяет осуществлять удобный поиск хранимых в архиве ссылок как по отдельности по месту проведения выставки и дате ее проведения, так и одновременно по месту и дате проведения выставки (при этом используют одно поле описания).
Пользователь на этапе 33, как это показано на фиг. 7, обращается к жесткому диску локального компьютера и на этапе 34 определяет для выбора интересующих его ссылок операцию поиска. Поиск ссылок по комбинации связанных с ними полей описания (пользовательских и предопределенных) позволяет расширять запросы путем их предварительной обработки. В данном случае, осуществляя поиск по названию выставки с использованием слова Аи1отоЫ1е пользователь на этапе 36 формирует соответствующий запрос и на этапе 37 принимает решение осуществить предварительную обработку запроса с использованием словаря синонимов, в соответствии с которым на этапе 38 запрос будет расширен словами ТтапкротГ и МоЮг Такая обработка запроса позволит пользователю получить на этапе 40 список ссылок, включающий все приведенные в данном примере ссылки. Но в дополнение к расширению запроса путем предварительной обработки принимают решение ограничить количество отображаемых ссылок датой проведения выставки. Т.е. осуществляют установку фильтра на дату проведения выставки: не позднее 1 июня 2001 (или с 01/01/2001 по 01/06/2001). В соответствии с установленным фильтром в результирующем списке будут представлены только ссылки: выставка ЛШотоЬПе 1п1етпабопа1 (ΑΜΙ): Лейпциг; 06/03/2001 и выставка Ттапкрой: Мюнхен; 15/05/2001.
Все ссылки, имеющие отношение к выставкам очень удобно хранить в архиве в единой информационной подсистеме (шкафу), которая характеризуется индивидуальным набором пользовательских полей описания и имеющей иерархическую структуру. Поэтому на этапе 41 полученные ссылки заносят в соответствующий шкаф. Такая реализация очень удобна, поскольку ссылкам, заносимым на этапе 41 в шкаф Выставки, автоматически присваивается заданный пользователем набор полей описания, включающий в себя поля Дата открытия выставки, Дата закрытия выставки, Тематика выставки, Примечания, и пользователю уже не надо ломать голову над тем, какие поля описания присвоить упомянутым ссылкам. По полям описания, которые ссылки наследуют от шкафа, осуществляют поиск, что также облегчает доступ к хранимым ссылкам. При этом ссылки сохраняют и все присущие им до занесения в шкаф поля описания (в данном примере это все предопределенные поля и комбинированное поле, созданное пользователем Место проведения выставки; Дата открытия выставки). Таким образом оптимизируют процесс хранения ссылок в архиве и повышают удобство доступа к ним.
Способ получения ссылок, определяющих доступ к информационным источникам посредством метапоиска Сущность изобретения
Изобретение представляет собой способ получения разнородных ссылок и списков разнородных ссылок посредством метапоиска. В качестве разнородных ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам.
Способ включает в себя последовательность операций, выполняемых системой, которая функционирует на доступных устройствах хранения данных, в качестве которых используют как локальные, так и удаленные устройст ва. Способ заключается в получении ссылок и списков ссылок, включающих разнородные ссылки, определяемые путями и/или методами доступа к информационным источникам посредством метапоиска, в обработке полученных списков ссылок, а также в получении полных копий информационных источников.
Последовательность байт, определяющую метод доступа к информационному источнику, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
Способ предусматривает выбор поисковых машин из существующего для метапоиска списка поисковых машин, формирование поискового запроса, его преобразование в форму данных для поиска, соответствующую каждой из поисковых машин, пересылку созданных данных для поиска к поисковым машинам, получение единого результирующего списка ссылок от всех поисковых машин и обработку полученного списка ссылок. При преобразовании запроса в форму данных для поиска, соответствующую каждой из поисковых машин, учитывают все параметры поиска, присущие каждой из упомянутых поисковых машин, а также расширяют параметры поиска, присущие каждой из поисковых машин путем введения предварительной обработки запроса.
В качестве поисковой машины используют любой информационный ресурс или систему, позволяющую осуществлять поиск данных. Выбор поисковых машин для метапоиска осуществляют по классификатору, в том числе созданному пользователем, а также по заданной комбинации параметров поиска, присущих поисковым машинам. Формирование пользователем запроса включает в себя заполнение поисковой формы, на которой представлен набор полей, соответствующих всем параметрам поиска, присущим выбранным поисковым машинам.
При формировании запроса на поиск ссылок посредством метапоиска выполняют операции предварительной обработки запроса, которые заключаются в получении, по меньшей мере, из одного исходного слова, входящего в запрос, одного или нескольких слов, связанных с исходным словом заданным соотношением. Предварительная обработка запроса включает, по меньшей мере, одну операцию предварительной обработки запроса, причем последовательность выполнения операций предварительной обработки запроса задают пользователи. После выполнения операций предварительной обработки исходное слово как удаляют, так и оставляют в окончательном запросе.
Сформированные запросы, в том числе полученные с учетом предварительной обработки, и соответствующие им результаты поиска сохраняют на доступных пользователю устройствах хранения данных и обеспечивает после45 дующий доступ к сохраненным упомянутым запросам и результатам поиска. При этом задают периодичность проведения метапоиска с использованием сохраненных запросов и списков поисковых машин и в результирующем списке ссылок оставляют только те ссылки, которые отсутствуют в предыдущем списке ссылок, полученном посредством метапоиска с использованием упомянутых сохраненных поисковых запросов и списка поисковых машин.
В существующий для метапоиска список поисковых машин добавляют новые поисковые машины и при этом указывают для них адрес, правила соответствия языка запросов, используемого в данном способе, языку запросов упомянутых поисковых машин или формируют программный модуль обработки правил соответствия языка запросов изобретения языку запросов добавляемой поисковой машины, тип ссылки на информационный источник, присущий добавленной поисковой машине. Новые поисковые машины в существующий для метапоиска список поисковых машин добавляют пользователи. При указании нового типа ссылок создают соответствующий им программный модуль, определяющий правила доступа к информационным источникам, причем модулем, определяющим правила доступа к информационным источникам, обрабатывают один и более тип ссылок.
По ссылкам дополнительно осуществляют получение полных копий информационных источников с последующей визуализацией результата, соответствующего запросу, в том числе полученному с учетом предварительной обработки, и при этом осуществляют проверку соответствия полученных полных копий информационных источников условиям поискового запроса.
Описание изобретения
Изобретение относят к способам метапоиска информации в разнородных информационных ресурсах и используют для получения разнородных ссылок, формирования списков разнородных ссылок, сохранения и отображения полученных результатов метапоиска (списков разнородных ссылок) и получения полных копий информационных источников, соответствующих разнородным ссылкам.
Способ реализуют следующим образом. На этапе 43, как это показано на фиг. 8, определяют (выбирают) поисковые машины для участия в отработке запроса. В качестве поисковой машины используют информационный ресурс или систему, функционирующую на доступном устройстве хранения данных, позволяющую осуществлять поиск данных и предоставляющую открытый канал для обмена данными с внешними источниками. В качестве устройств хранения данных, используемых для метапоиска, используют локальные и удаленные устройства.
Далее на этапе 44 формируют исходный поисковый запрос для отработки выбранными на этапе 43 поисковыми машинами. После того как запрос будет сформирован, на этапе 45 определяют, будут ли осуществлять предварительную обработку сформированного запроса. Если запрос будет подвергаться предварительной обработке, то происходит переход к этапу 46, на котором проводят операции получения, по меньшей мере, из одного исходного слова, входящего в запрос, одного или нескольких слов, связанных с исходным словом заданным соотношением. Окончательный запрос, сформированный в том числе с учетом выполнения операций предварительной обработки, передается устройству связи 47 с поисковыми машинами. Изобретение сохраняет сформированные запросы, в том числе полученные после предварительной обработки, как на пользовательском, так и на удаленном устройстве хранения данных. При сохранении запросов их структурируют и в качестве операции структурирования (классификации) запросов используют тематическую сортировку, в соответствии с которой запросы распределяют по категориям. Пользователь в дальнейшем получает доступ к сохраненным поисковым запросам и использует их для осуществления поисковых операций.
Устройство связи 47 получает запрос и обрабатывает его, чтобы преобразовать в формат, подходящий для каждой из поисковых машин, которые были определены для поиска в блоке 43. Преобразованные в соответствующий подходящий для каждой из поисковых машин формат запросы 48 посылают поисковым машинам 49 при помощи известных средств передачи, после чего устройство связи 47 получает от каждой поисковой машины результаты поиска (совпадения) 50. После того как все результаты будут получены от каждой поисковой машины или истечет заданный промежуток времени, а результаты поиска не будут получены от одной или нескольких поисковых машин, все полученные от поисковых машин совпадения объединяют в результирующий список на этапе 51 и сохраняют на устройстве хранения данных.
При формировании результирующего списка удаляют избыточную информацию. Эта операция заключается в исключении из упомянутого результирующего списка дублирующих элементов. Элементы (ссылки) в результирующем списке отображают в заданном порядке. Порядок этот определяется оценкой каждого полученного совпадения, которая зависит от двух составляющих. Первая составляющая информация, полученная от каждой поисковой машины 49 о релевантности обнаруженной поисковой машиной полной копии информационного источника 50 окончательному запросу. Вторая составляющая - рейтинг каждой поисковой машины, принимающей участие в отработке запроса. Рейтинг каждой поисковой машины может быть как заранее предопределен на основании субъективных предпочтений разработчиков или пользователя, так и формироваться автоматически, в процессе функционирования системы.
Далее обработанные результаты попадают в устройство получения и отображения полных копий информационных источников 52, при помощи которого по желанию пользователя через устройство связи 47 получают полные копии информационных источников, которые отображаются с использованием устройства отображения полных копий информационных источников. Получение полных копий информационных источников и их сохранение на пользовательских устройствах хранения данных предполагает наличие сопроводительной информации к каждой сохраненной полной копии, например дата и время получения, размер, по какой ссылке получена данная полная копия и т.д.
В том случае, если полная копия информационного источника 50 представляет собой файл, содержащий текстовую информацию, осуществляют отображение упомянутого файла (документа) с визуализацией результатов поиска, соответствующих условиям поискового запроса, в том числе полученного с учетом предварительной обработки. Изобретение позволяет также осуществлять автоматическую проверку соответствия полученных полных копий информационных источников условиям поискового запроса.
Одним из ключевых моментов настоящего изобретения является механизм выбора поисковых машин для метапоиска на этапе 43, как это показано на фиг. 8, в том числе по комбинации поисковых параметров, присущих поисковым машинам. Данный механизм предназначен для использования при метапоиске всех параметров поиска, присущих каждой из выбранных поисковых машин. Изобретение в отличие от существующих систем метапоиска не ограничивается осуществлением поиска документов по информации, содержащейся в их текстах, с использованием простейших булевых операторов и задействует любой параметр поиска, присущий поисковой машине. Это касается, например, фразового поиска с учетом расстояния между словами и порядка чередования слов в запросе, а также поиска, например, по дате создания документа, его названию и другим атрибутам. Таким образом, изобретение повышает эффективность поиска, поскольку полученные результаты будут соответствовать ожиданиям пользователя (соответствие запросу любой сложности, сформированному с использованием любых параметров поиска).
Выбор поисковых машин осуществляют следующим образом. На этапе 53, как это показано на фиг. 9, осуществляют выбор поисковых машин. Для метапоиска выбирают любое коли чество поисковых машин и в зависимости от цели поиска любой набор поисковых машин. Например, обычный запрос для поиска вебстраниц обрабатывают при помощи ЛЛаУШа, Ехсйе и т.д., в то время как запрос, связанный с юридическими вопросами, обрабатывают при помощи перечисленных поисковых машин и базы данных Ьех1к. Запрос, связанный с получением информации о конкретном патенте, прошедшем регистрацию в США, обрабатывают с использованием базы данных американского патентного ведомства \у\у\у.икр1о.доу и среди файлов, хранимых на локальном компьютере. Запрос, сформированный с целью поиска интересующих пользователя файлов формата МР3, обрабатывают, например, при помощи АИаУШа и Аи4юЕт4. Запрос, сформированный с целью поиска интересующих пользователя видеофайлов формата МРЕС и информации о них, обрабатывают с помощью АНаУШа и пользовательской базы данных, расположенной на локальном компьютере пользователя и реализованной с использованием приложения Мюгокой Ассекк. Запросы для поиска информации о сотрудниках адресуют к корпоративной базе данных, реализованной на СУБД Огас1е и функционирующей на сервере локальной сети и к личной записной книжке Мюгокой ОиЙоок. Таким образом при поиске информации используют разнородные информационные ресурсы, что существенно расширяет область охватываемого при поиске информационного пространства и соответственно повышает результативность поиска.
На этапе 54 определяют, будут ли поисковые машины выбраны пользователем из существующего перечня (например, классификатора) поисковых машин вручную или выбор будет осуществлен по комбинации поисковых параметров, присущих поисковым машинам. Если выбор поисковых машин будет осуществлен из перечня поисковых машин вручную, то на этапе 55 определяют, какие из упомянутых машин будут участвовать в отработке поискового запроса. Перечень поисковых машин может быть представлен в виде линейного списка или в виде любого известного классификатора, например, иерархического - рубрикатора. В качестве классификаторов, по которым пользователь осуществляет выбор поисковых машин, используют как заранее предопределенные классификаторы, так и созданные самим пользователем в соответствии с его личными предпочтениями. Поскольку в природе не существует классификаторов, способных в равной степени удовлетворить требования всех пользователей, создание пользовательских классификаторов в соответствии с предпочтениями того или иного пользователя повышает удобство структурирования определенных для метапоиска поисковых машин, что в ряде случаев упрощает доступ пользователя к этим поисковым машинам. Данное изобретение использует несколько предопределенных и/или пользовательских классификаторов.
Если выбор поисковых машин осуществляют по комбинации поисковых параметров, присущих поисковым машинам, то на этапе 56 создают форму, отображающую все параметры поиска, присущие тем поисковым машинам, информация о которых имеется в системе (в базе данных системы). Набор поисковых параметров поисковых машин весьма разнообразен и включает в себя, например, поиск документов по их содержимому с использованием булевых операторов, фразовый поиск с учетом интервала между словами и порядком чередования слов в запросе, поиск с использованием конкретного языка, поиск с учетом морфологических особенностей этого языка, поиск файлов нужного формата, например МР3, поиск конкретных наименований товаров в коммерческих базах данных и т.д. Далее на этапе 57 формируют список машин, обладающих заданными на этапе 56 поисковыми параметрами. На этапе 58 определяют, какие из поисковых машин из списка, полученного на этапе 57, будут участвовать в отработке поискового запроса. На основании выбора поисковых машин на этапе 55 или на этапе 58, на этапе 59 формируют окончательный список поисковых машин для непосредственного участия в отработке поискового запроса.
Далее на этапе 60 формируют поисковую форму и заполняют ее поля в соответствии с критериями предполагаемого поиска. Поисковую форму на этапе 60 создают на основании списка поисковых машин, полученного на этапе 59 и на ней отображают только те поля, которые присущи хотя бы одной из поисковых машин, присутствующих в упомянутом списке. Например, если одной поисковой машине (А) присущи параметры полнотекстового поиска по ключевым словам, содержащимся в тексте полной копии информационного источника с использованием булевого оператора ΑΝΏ, а также поиск по дате создания полной копии информационного источника, а другой поисковой машине (В), помимо вышеперечисленных параметров, дополнительно присущи параметры фразового поиска с учетом интервала между словами и порядка чередования слов в запросе, поиска по названию полной копии информационного источника, а также поиск с использованием различных языков, то поисковая форма в блоке 60 будет включать в себя все перечисленные выше поля:
- полнотекстовый поиск по ключевым словам в тексте полной копии информационного источника с использованием булевого оператора ΑΝΏ;
- поиск по дате создания полной копии информационного источника;
- фразовый поиск с учетом интервала между словами и порядка чередования слов в запросе;
- поиск с использованием различных языков;
- поиск по названию полной копии информационного источника.
Интерфейс поисковой формы блока 60 единый, вне зависимости от выбора поисковых машин. Это позволит пользователю всегда работать с привычным интерфейсом, а не с несколькими различными интерфейсами, как при прямом обращении к разным поисковым машинам.
В случае заполнения всех полей поисковой формы 60 возможен вариант, при котором конкретная поисковая машина не поддерживает параметры поиска, соответствующие заполненному в форме 60 полю. Так, например, поисковая машина (А) не поддерживает фразовый поиск с учетом интервала между словами и порядка чередования слов в запросе, а также поиск с использованием различных языков и поиск по названию документа. В этом случае поисковая машина (А) в дальнейшем будет игнорировать при отработке запроса параметры ей не присущие, тогда как поисковая машина (В) будет отрабатывать поисковый запрос с учетом всех параметров, указанных на поисковой форме 60. Выбор поисковых машин по комбинации присущих им поисковых параметров и использование всех параметров поиска присущих поисковым машинам, задействованным при метапоиске, повышает результативность поиска. Использование комбинации поисковых параметров для выбора поисковых машин повышает эффективность использования систем метапоиска, так как выбор поисковых машин из существующего перечня (классификатора) зачастую является неэффективным, поскольку по названию поисковых машин трудно судить об их качественных и количественных характеристиках. Поэтому в ряде случаев выбор поисковых машин, участвующих к отработке поискового запроса по классификатору, приводит либо к формированию избыточного списка поисковых машин (например, привязанных к конкретному разделу классификатора), либо наоборот излишне ограничивает список в случае выбора для метапоиска только нескольких наиболее известных поисковых машин. И то, и другое отрицательно сказывается на результативности метапоиска.
Следующим ключевым моментом настоящего изобретения является использование на этапе 46, как это показано на фиг. 8, предварительной обработки первоначально сформулированного пользователем поискового запроса. В качестве операций предварительной обработки используют преобразования по различным правилам, по которым из исходного слова получают одно или несколько слов, связанных с исходным словом заданным соотношением. К та ким правилам относится использование различных словарей и тезаурусов: морфологических, синонимических, семантических, двуязычных и т.д., а также использование различных функций преобразования. К функциям преобразования, например, относятся: замена строчных символов на прописные и наоборот, замена латинских букв кириллицей и наоборот и т.д. Правила, используемые для предварительной обработки (словари, тезаурусы и функции преобразования), могут быть как заранее предопределенными, так и созданными самим пользователем. Пользователь формирует свои собственные правила в соответствии с известными ему критериями. Например, для удобства поиска видеофильмов, пользователь создаст собственный тезаурус, в соответствии с которым расширяет поисковый запрос. Т. е. любитель комедийных фильмов с участием конкретных актеров составит тематический тезаурус, в котором свяжет слово комедия с фамилиями актеров Ришар, Мэрфи и т.д., что позволит ему в дальнейшем оптимизировать поиск нужных данных. После отработки запроса комедия, расширенного с использованием такого тематического тезауруса, в результирующем списке будут представлены документы, содержащие также слова Ришар и Мэрфи. Таким образом, формируют любое количество тематических тезаурусов для дальнейшего их использования в качестве обработчиков. Настоящее изобретение предусматривает выбор, по меньшей мере, одной операции предварительной обработки запроса, причем последовательность выполнения операций предварительной обработки запроса задают пользователи. Механизм предварительной обработки запроса предусматривает использование двух типов обработчиков: так называемого расширяющего обработчика (РО) и дополняющего обработчика (ДО).
Каждое из слов, используемых для предварительной обработки запроса, входит в какуюлибо логическую группу, формируемую для слов, имеющих сходство по определенному признаку. Например, слова зеленый, зеленые, зеленых и т.д. входят в одну группу слов, объединенных по морфологическому признаку (однокоренные слова). Необходимо заметить, что в качестве логических групп для РО могут быть использованы группы слов, объединенных признаками, отличными от морфологического признака. В частном случае, логическая группа представлена одним словом. Логические группы слов используются при обработке запроса посредством расширяющего обработчика (РО). При этом каждое слово входит только в одну логическую группу слов, имеющих сходство по определенному признаку (например, только в одну морфологическую группу). РО используется для выполнения двух типов преобразования, а именно:
- от слова к группе, т. е. преобразования, определяющего идентификатор логической группы нужного типа для каждого из обрабатываемых слов;
- от группы к слову, т. е. преобразования, определяющего по идентификатору логической группы все входящие в данную группу слова.
В качестве ДО используют различные словари и тезаурусы: синонимические, семантические, двуязычные и т.д., а также различные функции преобразования, описанные выше (замена строчных символов на прописные и наоборот и т.д.). ДО используется для выполнения преобразования по следующему алгоритму:
- от группы к группе, т.е. преобразование, определяющее по идентификатору конкретной логической группы идентификаторы групп, соответствующие конкретной логической группе.
Такой подход к реализации обработчиков оптимизирует процесс предварительной обработки запроса. Т.е. пользователю не приходится вручную устанавливать связи между всеми словами, входящими в связанные логические группы. Такая обработка будет осуществляться автоматически.
Схематично весь процесс предварительной обработки запроса с использованием обработчиков двух типов (РО и ДО) показан на фиг. 10 в виде графа обработчиков, в котором первая вершина представляет собой РО (преобразование от слова к группе), а все последующие вершины представляют собой ДО (преобразование от группы к группе). Данный процесс иллюстрирует использование неограниченного количества (одного и более) ДО на каждом из этапов предварительной обработки. Т.е. логическая группа, полученная после преобразования посредством РО, обрабатывается с использованием ДО-1/1 - ДО-1/Ν, группы, полученные после преобразования посредством ДО-1/1, обрабатываются с использованием ДО-1 /1 /1 - ДО-1 /1 /Ν, группы, полученные после преобразования посредством ДО-1 /Ν, обрабатываются с использованием ДО- 1/Ν/1 - ДО-1/Ν/Ν и т.д.
Для того чтобы облегчить восприятие описываемого процесса предварительной обработки запроса, приведем конкретный пример, в котором осуществляют предварительную обработку запроса, состоящего из одного слова с использованием трех дополняющих обработчиков, как это показано на фиг. 11. Для внесения полной ясности поясним, что осуществляют получение тематических данных из различных информационных ресурсов, поддерживающих различные языки, причем упомянутые данные должны соответствовать исходному запросу не только в формальном, но и в смысловом значении. Т. е. пользователь осуществляет поиск интересующих его данных не только в тех информационных источниках, которые поддерживают родной для него язык (например, русский), но также и в тех информационных источниках, которые оформлены на других языках (например, английском и французском). Такой подход способствует более широкому охвату информационного пространства для поиска интересующих данных.
Таким образом, метапоиск осуществляют в информационных ресурсах, данные в которых хранятся на различных языках, причем для получения искомых данных исходный запрос расширяют с использованием операций предварительной обработки. При этом используют заданную последовательность предварительной обработки запроса, которая заключается в поэтапном использовании расширяющего морфологического обработчика, дополняющего синонимического обработчика и двух дополняющих обработчиков, представленных двуязычными словарями для перевода (русско-английским и русско-французским).
Используют следующий алгоритм предварительной обработки. Пользователь формирует исходный запрос и при этом задает тип и количество обработчиков, а также последовательность их использования. Для простоты восприятия в данном примере будет использован запрос, состоящий из одного слова. В том случае, когда запрос будет состоять из нескольких слов, алгоритм предварительной обработки будет применен для каждого из слов, входящих в исходный запрос. Поскольку осуществляется тематический поиск данных, на этапе 61, как это показано на фиг. 11, целесообразно использовать в качестве РО морфологический преобразователь, который определяет идентификатор логической группы для каждого из слов, входящих в запрос (в данном примере одного слова). После выполнения этапа 61 будет получена группа, включающая в себя слова, объединенные с исходным словом морфологическим признаком (однокоренные слова). Полученная группа (первая группа) может включать в себя одно и более слово. Поскольку искомые данные должны соответствовать исходному запросу не только в формальном, но и в смысловом значении, на этапе 62 целесообразно использование дополняющего обработчика, осуществляющего формирование множества групп, связанных с первой группой синонимическим признаком. Таким образом, в качестве первого дополняющего обработчика ДО-1 будет использован словарь синонимов, что позволит расширить исходный запрос смысловыми аналогами (синонимами). ДО-1 осуществляет преобразование от группы к группе и определит идентификаторы групп для группы, полученной на этапе 61 (первой группы), в соответствии с используемым преобразованием. Слова, входящие в полученные на этапе 62 группы, составляют синонимический ряд. Одним из условий проведения предварительной обработки запроса для данного примера является обязательное присутствие в множестве групп, полученных на этапе 62 пер вой группы, поскольку слова, входящие в первую группу, необходимы для проведения дальнейшего поиска информации, и их исключение из процесса дальнейшей обработки приведет к снижению результативности выполнения поисковой операции. В других случаях первая группа может быть исключена из множества групп, полученных на этапе 62, и тем самым не подвергаться дальнейшей обработке. Далее, на этапе 63 каждая из групп, полученных на этапе 62, обрабатывается с использованием двух дополняющих обработчиков: ДО-2, в качестве которого используют русско-английский словарь, и ДО-3, в качестве которого используют русскофранцузский словарь. В результате выполнения этапа 63 формируется множество групп, связанных с группами, полученными на этапе 62, соответствующими преобразованиями.
Все группы, полученные на этапах 61-63, включаются в итоговое множество групп. Далее из полученного итогового множества групп формируют множество слов, из которых формируют окончательный запрос, для осуществления поиска в информационных ресурсах, поддерживающих разные языки (русский, английский, французский) с использованием смысловых аналогий для каждого из упомянутых языков. Т.е. заключительный этап предварительной обработки предусматривает использование расширяющего обработчика (РО) для преобразования по типу от группы к слову для всех групп, входящих в итоговое множество. Это преобразование определяет по идентификаторам логических групп все входящие в конкретные группы слова и формирует из них итоговое множество слов, включающее все слова, присущие полученным группам. Из этих слов впоследствии формируется окончательный запрос.
В приведенном выше примере заданная последовательность обработчиков включает по одному дополняющему обработчику конкретного типа: один синонимический для русского языка, один русско-английский для перевода и один русско-французский. Необходимо заметить, что такой подход к формированию последовательности обработчиков является частным случаем. В общем случае, в заданную последовательность при необходимости включается в любом порядке любое количество дополняющих обработчиков конкретного типа (несколько синонимических, несколько двуязычных и т.д.). Причем возможен вариант, при котором дополняющий обработчик одного типа (например, синонимический для русского языка) будет участвовать в обработке одной и той же группы несколько раз.
Для упрощения восприятия процесса предварительной обработки запроса опишем приведенный выше пример более детально. Стоит напомнить, что рассматриваемый пример описывает предварительную обработку запроса, состоящего из одного слова. В том случае, когда запрос будет состоять из нескольких слов, алгоритм предварительной обработки будет применен для каждого из слов, входящих в исходный запрос. В качестве исходного запроса для данного примера, как это показано на фиг. 12, используют слово Информация. Предварительная обработка осуществляется с использованием РО, объединяющего в логические группы слова по морфологическому признаку. Кроме этого используются три дополняющих обработчика: синонимический для русского языка, русскоанглийский для перевода и русско-французский. Преобразования посредством РО обозначены на фиг. 12 пунктирными линиями, а преобразования посредством ДО жирными линиями.
Для исходного слова Информация, как это показано на фиг. 1 2, путем преобразования расширяющим обработчиком от слова к группе определяется логическая группа (ЛГ-1), которая включает в себя слова, имеющие общий морфологический признак с исходным словом. Множество слов для ЛГ-1 будет включать в себя слова Информация и Информации (слова, объединенные с исходным словом Информация морфологическим признаком). Разумеется, группа может включать большее количество слов, но введенное в данном примере ограничение на количество слов связано с упрощением восприятия процесса предварительной обработки. Необходимо отметить, что предварительная обработка РО может заключаться в операции тождества, что используется для тех случаев, когда логическая группа состоит из одного слова.
Далее осуществляется предварительная обработка с использованием дополняющих обработчиков, включающая преобразование от группы к группе. Сначала в соответствии с заданными параметрами предварительной обработки осуществляется обработка синонимическим обработчиком ДО-1 , который формирует множество групп, связанных с ЛГ-1 по синонимическому признаку. Такими группами являются ЛГ-2 и ЛГ-3. Кроме того, одним из условий предварительной обработки запроса является необходимость присутствия в формируемом множестве групп, подлежащих дальнейшей обработке группы ЛГ-1 , как это показано на фиг. 11. Таким образом, после обработки запроса обработчиком ДО-1 получаем множество групп ЛГ-1, ЛГ-2 и ЛГ-3. Разумеется, упомянутое множество может включать большее количество логических групп, но введенное в данном примере ограничение на количество групп связано с упрощением описания процесса предварительной обработки и для облегчения его восприятия. Поскольку группы ЛГ-2 и ЛГ-3 формировались с использованием синонимического преобразования, эти группы будут включать в себя слова, составляющие со словом Информация синонимический ряд. Например, множество слов для
ЛГ-2 будет включать в себя слова Сведения и Сведений, а для ЛГ-3 множество слов будет состоять из Сообщение и Сообщения. Как видно из описания, полученные множества слов связаны между собой синонимическим признаком (обработка ДО-1), а слова в каждом из множеств связаны между собой морфологическим признаком (обработка РО).
Данный пример предусматривает последующую обработку полученных групп дополняющими обработчиками ДО-2 и ДО-3. ДО-2 представляет собой русско-английский словарь для перевода, а ДО-3 русско-французский словарь. Обработка каждым из упомянутых обработчиков приводит к получению новых групп, связанных с группами ЛГ-1 , ЛГ-2 и ЛГ-3 соответствующими преобразованиями. Так для ЛГ-1 посредством ДО-2 формируется множество групп, состоящее из группы ЛГ-4, которая включает в себя слова ΙηίοηηαΙίοη и ΙηίοπηαΙίοηηΐ. Аналогичным образом предварительная обработка ДО-2 для ЛГ-2 приводит к формированию множества, состоящего из группы ЛГ-6, которая включает слова Ма1епа1 и Ма1епа1к а обработка для ЛГ-3 - к формированию множества, состоящего из группы ЛГ-8, которая включает слова Меккаде и Меккадтд Связи между множествами слов, входящих в ЛГ-4 и ЛГ-1, также как и для связок ЛГ-6-ЛГ -2 и ЛГ-8 ЛГ-3, определяются признаком использования русско-английского словаря для перевода.
Кроме того, предусмотренное алгоритмом предварительной обработки использование ДО3 для обработки групп ЛГ-1 , ЛГ-2 и ЛГ-3 приводит к получению новых множеств групп. Для ЛГ-1 будет получена группа ЛГ-5, состоящая из слов Ιηίοπη;·ιΙίοη и Ιηίοπη;·ιΙίοηι·κ1 для ЛГ-2 будет получена группа ЛГ-7, состоящая из слов Кеикехдтей и 'КеикехдтеШк, и для ЛГ-3 будет получена группа ЛГ-9, состоящая из слов Меккаде и Меккадек. Связи между множествами слов, входящих в ЛГ-5 и ЛГ-1 , так же как и для связок ЛГ-7 - ЛГ-2 и ЛГ-9 - ЛГ-3, определяются признаком использования русскофранцузского словаря для перевода.
Все формируемые в процессе обработки логические группы включаются в итоговое множество групп, которое после выполнения всех преобразований будет состоять из ЛГ-1, ЛГ-2, ЛГ-3, ЛГ-4, ЛГ-5, ЛГ-6, ЛГ-7, ЛГ-8 и ЛГ9. Заключительная стадия предварительной обработки запроса (после всех преобразований с использованием дополняющих обработчиков) включает в себя преобразование для каждой из логических групп, входящих в итоговое множество, заключающееся в обработке всех упомянутых логических групп расширяющим обработчиком по типу от группы к слову. Это приводит к формированию множества слов для каждой из логических групп. При этом, как уже говорилось выше, полученные для каждой из групп множества слов будут включать в себя слова, имеющие общий морфологический признак.
Преобразование посредством РО определяет по идентификаторам логических групп все входящие в конкретные группы слова и формирует из них итоговое множество слов, включающее все слова, присущие полученным группам. При этом осуществляется удаление избыточной информации из итогового множества слов, т. е. удаление дублирующих слов, такими словами в данном примере являются слова ТпΓοηηηΙίοπ и Меккаде, повторяющиеся по два раза. Из оставшихся в итоговом множестве слов впоследствии формируется окончательный запрос путем объединения упомянутых слов булевским оператором ОК.
Таким образом для данного примера окончательный запрос примет вид:
Информация ОК Информации ОК Сведения ОК Сведений ОК Сообщение ОК Сообщения ОК ΙπΓοπηαΙίοη ОК 1иГогтабопа1 ОК 1пГогтабоппе1 ОК Ма1епа1 ОК Ма1епа1к ОК Меккаде ОК Меккадтд ОК Меккадек ОК Кепке1дтеп! ОК Кепке1дтеп!к
Стоит обратить внимание на тот факт, что поскольку одно и то же слово может присутствовать в нескольких языках, как, например, слово Меккаде, одинаково употребимое и в английском, и во французском языках, его обработка РО путем преобразования от слова к группе может включать в себя выбор типа РО. Т. е. в том случае, если для рассмотренного примера слово Меккаде будет являться исходным в запросе (вместо слова Информация), перед пользователем при формировании последовательности обработчиков возникнет дилемма, какой из типов РО использовать для обработки слова Меккаде с целью формирования ЛГ-1 (английской морфологии или французской). При этом РО может быть задан по умолчанию, например, когда с изобретением работает англоязычный пользователь, по умолчанию будет задан РО английской морфологии. Однако это не отрицает явного выбора РО другого типа, например, РО французской морфологии. Необходимо отметить, что выбор типа РО осуществляется только при обработке путем преобразования от слова к группе. В случае обратного преобразования - от группы к слову, определение нужного типа РО осуществляется автоматически, поскольку тип РО будет определен по идентификатору конкретной логической группы.
Алгоритм предварительной обработки представлен в виде последовательности операций, выполняемых системой, в которой функционирует настоящее изобретение, как это показано на фиг. 13. На этапе 64 определяются исходные данные для проведения предварительной обработки, которые включают в себя определение исходного слова для предобработки, количество и последовательность использования дополняющих обработчиков (ДО), а также определение расширяющего обработчика (РО) для обработки исходного слова. В частном случае РО определяется по умолчанию и представляет собой морфологический обработчик. На этапе 65 осуществляют операцию инициализации процесса предварительной обработки, в результате чего формируется итоговое множество слов (пустое), итоговое множество групп (пустое), множества групп для обработки для всех ДО (пустые), а также пустой стек обработчиков (СО). Формат стека обработчиков предполагает хранение информации об идентификаторах ДО и информации об идентификаторах групп, предназначенных для обработки упомянутыми ДО. Далее на этапе 66 осуществляют получение по заданному на этапе 64 исходному слову логической группы, в которую входит данное слово. Данная операция включает в себя обработку посредством РО и заключается в преобразовании от слова к группе.
На этапе 66, в соответствии с форматом стека обработчиков, осуществляют занесение в СО информации, включающей в себя идентификаторы всех ДО, связанных с РО (как это показано на фиг. 1 2, таковым будет являться ДО1), а также идентификаторы групп, предназначенных для обработки упомянутыми ДО (как это показано на фиг. 12, такой группой для ДО-1 будет являться ЛГ-1).
Кроме того, полученную группу заносят в итоговое множество групп. Под итоговым множеством групп понимают все множество групп, полученных в процессе предварительной обработки дополняющими обработчиками, путем преобразований от группы к группе.
На этапе 67 осуществляют проверку стека обработчиков. Если стек пустой, то на этапе 68 формируют результирующее множество слов путем преобразования с использованием РО от группы к слову (определение РО для каждой группы на данном этапе осуществляется автоматически). Т.е. из полученного на предыдущих этапах итогового множества групп получают множество слов, из которого исключаются возможные дубли. Затем на этапе 69 осуществляют операцию объединения всех слов, входящих в итоговое множество слов, полученное на этапе 68, булевским оператором ОК.
Если СО не пустой, то на этапе 70 обращаются к последнему обработчику, расположенному в стеке (при этом данному обработчику присваивается статус текущего обработчика). На этапе 71 осуществляют обработку всех групп, входящих в множество, предназначенное для обработки текущим обработчиком с использованием преобразования от группы к группе.
На этапе 71 в соответствии с форматом стека обработчиков осуществляют занесение в
СО информации, включающей в себя иденти59 фикаторы всех ДО, связанных с текущим обработчиком (как это показано на фиг. 12, такими обработчиками будут ДО-2 и ДО-3, связанные с текущим обработчиком ДО-1), а также идентификаторы групп, предназначенных для обработки конкретными ДО (как это показано на фиг. 12, стек будет включать в себя информацию о том, что группы ЛГ-1, ЛГ-2 и ЛГ-3 будут обработаны ДО-2, а также информацию о том, что упомянутые группы будут обработаны ДО-3).
Кроме того, множество групп, полученное после обработки текущим ДО, заносят в итоговое множество групп, исключая при этом возможные дубли. Далее, на этапе 72 из стека обработчиков удаляют обработчик, имеющий статус текущего, после чего возвращаются к выполнению этапа 67.
Выполнение последовательности операций, включенных в этапы 67-72, осуществляют до тех пор, пока стек обработчиков не станет пустым. После чего переходят к выполнению этапа 68.
Поскольку пример приводился для исходного запроса, состоящего из одного слова, стоит заметить, что в случае предварительной обработки более сложных запросов, состоящих из нескольких слов, результаты, полученные после предварительной обработки каждого из слов, входящих в исходный запрос, объединяют с использованием булевских операторов. Например, использование оператора ΑΝΏ в случае поиска по группе слов или оператора ΝΕΑΚ в случае фразового поиска с учетом последовательности слов и интервала между ними.
Расширение поискового запроса посредством предварительной обработки способствует более широкому охвату информационного пространства, используемого для поиска интересующих данных. При этом итоговый запрос формируют без особого труда, используя как стандартные обработчики (словари и функции преобразования), так и созданные пользователем.
После формирования итоговых запросов (полученные с использованием предварительной обработки или без ее использования) их сохраняют и в дальнейшем осуществляют поисковые операции с использованием сохраненных запросов, сохраненных результатов поиска и списков поисковых машин. Данная операция позволяет отображать только вновь обнаруженные ссылки, соответствующие конкретному поисковому запросу и полученные с использованием определенного списка поисковых машин. Способ реализуют следующим образом. На этапе 73, как это показано на фиг. 14, на доступных устройствах хранения данных сохраняют полученные в процессе формирования и предварительной обработки поисковые запросы с целью их дальнейшего использования для проведения поисковых операций. Аналогичным образом сохраняют и результаты поиска, соответствующие упомянутым поисковым запросам. На этапе 74 определяют условия, в соответствии с которыми будут осуществлять получение новых ссылок на информационные источники. К таким условиям относят определение сохраненного запроса, в соответствии с которым будут осуществлять отслеживание появления новых ссылок на информационные источники, определение периодичности, в соответствии с которой будет осуществляться данная операция, а также определение поисковых машин, которые будут задействованы в данной операции. Таким образом изобретение позволяет отслеживать с заданной периодичностью появление новых ссылок на информационные источники с использованием сохраненных поисковых запросов, упомянутых результатов поиска и выбранного списка поисковых машин.
На этапе 75 осуществляют проверку параметров периодичности проведения операции получения новых ссылок, в соответствии с которыми на этапе 76 осуществляют чтение определенного сохраненного поискового запроса и его пересылку к поисковым машинам, входящим в определенный на этапе 74 список поисковых машин. Далее на этапе 77 получают новые результаты поиска (список ссылок) и сохраняют их на устройстве хранения данных для дальнейшей работы с ними. Причем в соответствии с установленными параметрами осуществляют либо запись нового списка на устройство хранения данных, либо осуществляют перезапись нового списка взамен ранее сохраненного.
После получения новых результатов поиска, соответствующих упомянутому запросу, на этапе 78 с устройства хранения данных извлекают сохраненные ранее результаты поиска, соответствующие упомянутому запросу. При этом обращаются к ранее сохраненному по аналогичному запросу списку ссылок, имеющему наиболее позднюю дату получения. После чего на этапе 79 осуществляют совместную обработку полученного и ранее сохраненного результатов поиска (списков ссылок на информационные источники), которая заключается в проведении операции комбинирования упомянутых списков с использованием булевского оператора δυΒ.
Таким образом на этапе 80 получают результирующий список, содержащий в себе ссылки, представленные в полученном списке, за исключением тех ссылок, которые одновременно присущи полученному и сохраненному ранее списку. Результирующий список новых ссылок отображают пользователю для просмотра. На этапе 81 определяют, будет ли сохранен результирующий список, если да, то на этапе 82 список сохраняют на устройстве хранения данных. Далее переходят к выполнению этапа 75.
Изобретение предусматривает добавление новых поисковых машин в существующий для метапоиска список поисковых машин. Добавление новых поисковых машин осуществляют как путем обновления базы данных информацией, полученной из внешних источников, например, предоставленной разработчиками поисковой машины или разработчиками системы, в которой функционирует данный способ метапоиска, так и самим пользователем. Пользователь добавляет новую поисковую машину в существующий перечень и в дальнейшем задействует эту поисковую машину для поиска нужных данных. При добавлении новых поисковых машин указывают адрес добавляемой поисковой машины; правила соответствия языка запросов, используемого в данном способе, языку запросов добавляемой поисковой машины или формируют программный модуль обработки правил соответствия языка запросов изобретения языку запросов добавляемой поисковой машины; тип ссылок на информационные источники, присущий добавляемой поисковой машине. Модуль обработки правил соответствия осуществляет приведение в соответствие языка запросов изобретения языку запросов добавляемой поисковой машины. Т.е. осуществляет трансляцию правил языка запросов изобретения в правила языка запросов добавляемой поисковой машины.
При указании нового типа ссылок создают соответствующий им программный модуль, определяющий правила доступа к информационным источникам определенного типа. Создание модуля определяющего правила доступа к информационным источникам определенного типа также расширяет количество информационных источников, поддерживаемых настоящим изобретением.
Если добавляемой поисковой машине помимо тех параметров поиска, которые присущи поисковым машинам, входящим в перечень для метапоиска, присущи дополнительные параметры поиска, они будут включены в общий список поисковых параметров, присущий всем поисковым машинам, входящим в перечень для метапоиска. Например, включение в список поисковых машин корпоративной базы данных, реализованной на СУБД Огас1е, позволяющей осуществлять поиск по полю Номер отдела, повлечет за собой включение данного параметра в поисковую форму 56 (как это показано на фиг. 9), предназначенную для выбора поисковых машин по комбинации их поисковых параметров (добавление нового поля в поисковой форме). Таким образом, при метапоиске с использованием Интернет поисковых машин и упомянутой корпоративной базы данных на поисковой форме отобразится также и поле Номер отдела и соответственно это поле может быть задействовано для поиска интересующей пользователя информации в корпоративной базе данных.
Добавляя новые поисковые машины, пользователь расширяет существующий для метапоиска список поисковых машин по своему усмотрению. Данную операцию используют для включения в перечень поисковых машин дополнительных информационных ресурсов, в том числе разработанных пользователем баз данных и т.д., что расширяет охват информационного пространства, включая в него разнородные информационные источники.
По полученным посредством метапоиска ссылкам дополнительно осуществляют получение полных копий информационных источников. В том случае, если полная копия полученного информационного источника представляет собой файл, содержащий текстовую информацию, осуществляют отображение упомянутого файла (документа) с визуализацией результатов поиска, соответствующих условиям поискового запроса. Т.е. в отображенной полной копии информационного источника будут визуализированы все слова, которые входили в исходный запрос, причем при визуализации результатов поиска будут учитываться условия поискового запроса. При этом, если запрос подвергался предварительной обработке, визуализированы будут не только те слова, которые входили в исходный запрос, но также и те слова, связанные заданными соотношениями с исходными словами, которыми исходный запрос был расширен в процессе предварительной обработки. Так, после предварительной обработки запроса стоимость копировальной техники с использованием словаря синонимов, при условии фразового поиска с учетом интервала между словами 2 и формирования окончательного запросавида:
((цена ОК стоимость) ΆΝΏ (копировальной техники ОК ксерокса))/ЫЕАК(2) в отображаемых информационных источниках, помимо исходного запроса стоимость копировальной техники, будут визуализированы и следующие словосочетания: цена ксерокса, стоимость ксерокса, цена копировальной техники. В качестве визуализации используют подсветку результатов поиска, подчеркивание, выделение цветом и т. д. Визуализация результатов поиска сразу адресует пользователя к нужному ему месту в полученной полной копии информационного источника.
В дополнение к визуализации результатов поиска осуществляют автоматическую проверку соответствия полученных полных копий информационных источников условиям поискового запроса. Например, в том случае, если одним из критериев предполагаемого поиска является фразовый поиск с учетом интервала между словами и порядка чередования слов, система учитывает этот критерий при проверке соответствия полученных информационных источников условиям поискового запроса. Если фразовый поиск с учетом последовательности чередования слов и интервала между ними не поддерживается какой-либо поисковой машиной, полученные от нее полные копии информационных источников могут не соответствовать условиям поискового запроса. В этом случае система позволяет автоматически удалять не соответствующие условиям поискового запроса информационные источники из полученного списка полных копий информационных источников. Таким образом, корректируют не только соответствие полученных полных копий информационных источников условиям поискового запроса, но и их ранжирование в результирующем списке.
Использование всех параметров поиска, присущих поисковым машинам, задействованным при метапоиске, повышает результативность поиска. Расширение существующего для метапоиска перечня поисковых машин путем добавления в него новых поисковых машин также существенно расширяет функциональные возможности изобретения, поскольку метапоиск осуществляют по разнородным информационным ресурсам, в том числе по архиву, скомпонованному пользователем. Визуализация результатов поиска и их проверка на соответствие запросу отсеивает возможный мусор, полученный из-за некачественной обработки поисковых запросов некоторыми поисковыми машинами.
Данное изобретение иллюстрируется простым примером реализации
Формирование архива данных на любом из устройств включает в себя его наполнение разнородными ссылками, полученными от разнородных информационных ресурсов: Интернет поисковых машин (АНаУ1к1а. Уаибех). специализированных оиНие баз данных (база данных американского патентного ведомства \\л\л\'.икрЮ.доу). корпоративных баз данных, функционирующих в условиях локальных компьютерных сетей и реализованных, например, на СУБД Огас1е. информационно поисковых систем, функционирующих на локальных устройствах и реализованных, например, с использованием приложения Мюгокой Ассекк и т.д.
Полученные посредством метапоиска разнородные ссылки объединяют в единые списки ссылок для дальнейшей работы с ними. Механизм выбора поисковых машин, реализованный в данном изобретении, позволяет быстро и эффективно осуществить формирование списка поисковых машин для участия в метапоиске. Кроме того, упомянутый механизм позволяет пользователю рассчитывать на то, что в представленном списке будут присутствовать те поисковые машины, выбор которых наиболее оптимален для проведения дальнейшего метапоиска не только с точки зрения пользователя, но и с точки зрения качественных и количественных характеристик, присущих поисковым ма шинам. Формирование такого списка достигается путем выбора поисковых машин по присущим им параметрам поиска.
Например, осуществляют метапоиск с использованием Интернет поисковых машин по фразам, состоящим из нескольких ключевых слов, с указанием интервала между словами и последовательности их чередования в искомых информационных источниках, а также по параметру, который определяет способность поисковых машин осуществлять поиск с использованием различных языков. Примером поисковой машины, подходящей для отработки поискового запроса в соответствии с упомянутыми параметрами поиска и выбранными на этапе 43. как это показано на фиг. 8, являются, например, А1!аУ1к!а и Уаибех. Сформированный на этапе 44 поисковый запрос на этапе 46 расширяют посредством предварительной обработки. Например, осуществляют поиск информации по запросу ба!а таиадетеи! кук!ет. При этом для расширения области охвата информационного пространства исходный запрос расширяют посредством использования словаря синонимов. Т.е. слову таиадетеи! в соответствие ставят слово сои!го1. являющееся синонимом слова таиадетеи! Таким образом, после проведения поиска в результирующем списке ссылок будут представлены ссылки не только на полные копии информационных источников, содержащие фразу ба!а таиадетеи! кук!ет. но также и ссылки на полные копии информационных источников, содержащих фразу ба!а сои!го1 кук!ет.
На этапе 47 сформированные запросы преобразуют в форму 48. подходящую для каждой из поисковых машин, участвующих в метапоиске, и при помощи известных средств передачи передают к Интернет поисковым машинам 49 для отработки (в данном примере используют телефонные линии и передачу данных по известному ТСР/1Р протоколу). Результаты 50. полученные от упомянутых Интернет поисковых машин, представляют собой списки ссылок на веб-страницы, хранимые в тех информационных ресурсах, информация о которых содержится в базах данных, упомянутых поисковых машин. Упомянутые списки на этапе 51 объединяются в результирующий список ссылок (Ык!1). из которого исключаются возможные дубли, т.е. ссылки, полученные от двух и более поисковых машин. Т. е. если в списках совпадений (ссылок), полученных от каждой из упомянутых машин, содержится ссылка тетете.боситеи!ит.сот/тбех.й!т1. то в результирующем списке данная ссылка будет представлена один раз. Ссылки, представленные в результирующем списке, отсортированы в соответствии с рейтингом, присвоенным им поисковыми машинами, от которых они получены.
Кроме того, рейтинг ссылки дополнительно оп65 ределяется поправочным коэффициентом, в качестве которого используют рейтинг каждой поисковой машины. Рейтинг поисковой машины заранее предопределен на основании субъективных предпочтений пользователя. Т.е. пользователь формирует для каждой из поисковых машин коэффициент, который выражается в абсолютных значениях, распределенных в интервале от 0 до 1. Поскольку для поисковых операций чаще используется АИаУЗйа (и ее рейтинг выше), ссылки, полученные от нее при прочих равных условиях со ссылками, полученными от Уапбех (при одинаковом рейтинге присвоенный самими поисковыми машинами), будут иметь более высокий рейтинг.
Поисковый запрос ба!а тападетей кук1ет расширенный посредством предварительной обработки, и соответствующие ему полученные результаты поиска (Ый1) на этапе 73, как это показано на фиг. 14, сохраняют на устройстве хранения данных (жестком диске локального компьютера), при этом на этапе 76 устанавливают параметры для постоянного обновления информации, полученной по упомянутому запросу, поскольку эта информация весьма актуальна для постоянного мониторинга развития рынка систем управления данными. В соответствии с этим устанавливают периодичность, с которой будет осуществляться операция получения результатов поиска, соответствующих запросу ба!а тападетей куйет от поисковых машин Л11аУ1к1а и Уапбех. Заданная периодичность такова: раз в неделю, по понедельникам в 10 часов утра. В соответствии с установленными параметрами на этапе 75 в понедельник в 10 часов утра система метапоиска установит соединение с Интернет и, обратившись на этапе 76 к упомянутым поисковым машинам, осуществит поиск информации по заданному запросу. Поскольку информация в Интернет постоянно обновляется, соответственно обновляется и индексная база данных Интернет поисковых машин, велика вероятность того, что за неделю (с прошлого понедельника по текущий) в информационных ресурсах, информация о которых имеется в индексных базах данных А11аУ1йа и Уапбех, появятся новые веб-страницы, отвечающие заданному запросу. Таким образом, вновь полученные на этапе 77 результаты поиска (Ык12) с большой долей вероятности содержат ссылки, которые не были включены в ранее сохраненные результаты поиска (ЫкИ). Поэтому на этапе 78 обращаются к списку Ый 1 и затем осуществляют получение списка новых ссылок посредством проведения на этапе 79 операции комбинирования двух списков (полученного и ранее сохраненного) с использованием булевого оператора δυΒ: Ык12 δυΒ ЫкИ. В результате на этапе 80 формируется список Ык13, в котором содержаться те ссылки, которые представлены в Ый2 и в тоже время отсут ствуют в Ык11. Т.е. только те ссылки, которые соответствуют информационным источникам, появившимся в Интернет в течение интервала времени, прошедшего с момента предыдущей поисковой операции (с прошлого понедельника). Полученный список ссылок Ый3 на этапе 82 сохраняют на жестком диске локального компьютера. Список Ый3 отображается пользователю для дальнейшей обработки, которая заключается в получении полных копий информационных источников, соответствующих новым ссылкам. Такая реализация повышает эффективность обработки результатов поиска и позволяет избежать дублирующих действий, например, повторного просмотра ранее обработанных ссылок и соответствующих им полных копий информационных источников.
После формирования результирующего списка ссылок на этапе 82 осуществляют получение полных копий информационных источников, соответствующих ссылкам, представленным в результирующем списке. Полученные полные копии информационных источников отображают с визуализацией результатов поиска, осуществляя при этом проверку на соответствие полученных результатов поиска условиям поискового запроса. Одним из условий поиска является введение ограничения на интервал между искомыми словами, включенными во фразу ''ба1а тападетей кук1ет - не более двух (ΝΞΑΒ 2). При этом учитывают предварительную обработку запроса. Если конкретная поисковая машина не поддерживает фразовый поиск с заданием интервала между словами 2 (например, АЙаУЗйа, у которой по умолчанию установлен фразовый поиск с интервалом между словами 10), после отработки запроса она найдет, например, два документа, один из которых содержит фразу ..соттишсабопк куйет, 1йегта1 сойго1 Ьоагб апб ба!а сойго1, а второй ... ипбйрйеб 1еабег оГ тагке! ба!а тападетей кук!ет. И хотя в текстах обоих документов представлены слова из запроса, в том числе расширенные посредством предварительной обработки, точность поиска существенно отличается в пользу второго варианта. Поскольку фраза ..соттишсабопк куйет, 111егта1 сойго1 Ьоагб апб ба!а сойго1 не соответствует условиям поискового запроса, искомые слова в данном документе визуализированы не будут. Кроме того, проверка соответствия полных копий информационных источников условиям поискового запроса не только определит большую релевантность второго документа, содержащего фразу ... ипбйрйеб 1еабег оГ тагке! ба!а тападетей куйет, но и позволит автоматически удалить из списка не соответствующий условиям поискового запроса документ. Таким образом осуществляют анализ полученных полных копий информационных источников на предмет полного соответствия условиям поискового запроса и отсеивать ненужный мусор, полученный, например, из-за некачественной отработки поисковых запросов некоторыми поисковыми машинами.
Способ отложенного получения и отображения полных копий информационных источников по ссылкам, определяющим доступ к информационным источникам Сущность изобретения
Изобретение представляет собой способ отложенного получения и отображения полных копий информационных источников, соответствующих разнородным ссылкам. В качестве разнородных ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам. Последовательность байт, определяющую метод доступа к информационному источнику, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
Способ включает в себя последовательность операций, выполняемых системой, которая функционирует на доступном устройстве хранения данных, в качестве которого используют как локальное, так и удаленное устройство. При этом формируют списки ссылок, определяющих доступ к информационным источникам для последующего получения полных копий информационных источников, и устанавливают соединение с доступным устройством хранения данных для получения полных копий информационных источников по ссылкам, входящим в сформированный список. Способ заключается в фиксировании запросов на отложенное получение информации для ее последующего получения и отображения.
Для формирования списка ссылок на отложенное получение информации используют файлы и/или внешние источники данных, содержащие одну и более ссылку. Сформированные списки ссылок модифицируют посредством операций удаления и/или добавления ссылок. Изобретение предусматривает заполнение полей описания связанных со ссылками. Для ссылок, включенных в список на получение полных копий информационных источников, устанавливают приоритет на получение по ним полных копий информационных источников. Для каждого из элементов списка ссылок устанавливают интервал времени, в течение которого по ним должны быть получены полные копии информационных источников.
По истечении установленного интервала времени получение полных копий информационных источников не осуществляют и удаляют из списка ссылок те элементы, для которых истек установленный интервал времени. Перед получением полной копии информационного источника по ссылке, входящей в список, осу ществляют проверку наличия упомянутой ссылки и соответствующей ей полной копии информационного источника на устройстве хранения данных, предназначенном для получения полной копии информационного источника. Дополнительно устанавливают интервал времени, в течение которого полученная полная копия информационного источника должна быть отображена и/или правила оповещения о необходимости отображения полученных полных копий информационных источников, и по истечении установленного интервала времени осуществляют дополнительную обработку не просмотренной полной копии информационного источника.
Описание изобретения
Настоящее изобретение предназначено для функционирования в системах, используемых для обработки ссылок, списков ссылок и полных копий информационных источников. Настоящее изобретение относят к способам формирования и обработки списков разнородных ссылок, а также к способам получения полных копий информационных источников по соответствующим им разнородным ссылкам и их дальнейшего отображения.
Способ реализуют следующим образом. На доступном устройстве хранения данных хранят информацию, включающую в себя разнородные ссылки, списки разнородных ссылок и полные копии информационных источников. Хранимые в системе ссылки и списки ссылок используют для получения по ним полных копий информационных источников в соответствии с установленными параметрами, при этом полученные и сохраненные полные копии информационных источников отображают пользователю также в соответствии с установленными параметрами. На этапе 83, как это показано на фиг. 15, при обращении к системе, в которой функционирует данный способ, осуществляют проверку актуальности получения по ссылкам (спискам ссылок) и дальнейшего отображения полных копий информационных источников в соответствии с установленными временными параметрами. На этапе 84 удаляют из списков на получение информации те ссылки и списки ссылок, для которых истек интервал времени, установленный для получения по упомянутым ссылкам полных копий информационных источников. На этапе 84 удаляют также полученные и не отображенные полные копии информационных источников, для которых истек интервал времени, установленный для их отображения.
Далее на этапе 85 осуществляют выбор операции для дальнейшей работы с информацией в соответствии с функциональными возможностями, реализованными в настоящем изобретении. Если на этапе 85 определяют, что будет осуществляться работа со списками, то на этапе формируют список, в соответствии с кото69 рым будет осуществляться отложенное получение и отображение интересующих пользователя полных копий информационных источников.
Формирование списка ссылок осуществляют с использованием различных методик и при этом используют внешние источники данных, содержащих одну и более ссылку на информационные источники. В качестве внешних источников данных используют различные поисковые ресурсы, осуществляющие поиск ссылок на информационные источники, например, Интернет поисковые машины (АНаУМа. Ехсйе и т.д.), системы метапоиска, базы данных, функционирующие на удаленных устройствах (например, тетете.икрк.доу), базы данных, функционирующие на локальных устройствах и реализованные пользователем (например, с использованием приложения Мкгокой Ассекк) и т.д. В качестве внешних информационных источников для получения списков ссылок также используют различные электронные файлы, содержащие ссылки на информационные источники, например, файлы рассылки электронных писем из различных информационных ресурсов или даже конкретные веб-страницы. Кроме того, списки ссылок на информационные источники получают из хранилищ ссылок на информационные источники и их подборок, например, из папки Избранное Интернет браузера Мкгокой !п!егпе1 Ехр1огег. Изобретение предусматривает формирование нового списка ссылок с использованием поиска ссылок по связанным с ними полям описания, а также формирование списка ссылок вручную. Формирование и обработка списков, включающих разнородные ссылки, способствует более широкому охвату информационного пространства (обеспечивает доступ к большому количеству информационных источников, хранимых в разнородных информационных ресурсах).
Список ссылок на отложенное получение и отображение информации формируют также путем фиксирования запросов на получение информации. Т.е. при активном действии (например, клик на ссылку) конкретная ссылка на информационный источник заносится в очередь на отложенное получение и дальнейшее отображение информации.
Изобретение формирует списки ссылок на информационные источники для отложенного получения информации путем фиксирования запросов на получение информации как в режиме оп1ше, так и в режиме оГПте. При работе в опйпе изобретение позволяет пользователю не отвлекаться для просмотра интересующей его информации от основной работы. Т.е. работа с Интернет, как правило, предполагает просмотр множества веб-страниц конкретной тематики, при этом зачастую в тексте просматриваемых страниц встречаются ссылки на те страницы, которые не соответствуют данной тематике, но тем не менее также интересны. В обычном слу чае пользователь чтобы не потерять упомянутые ссылки должен или сохранить интересующую его страницу, или хотя бы ссылку на нее (для дальнейшего обращения к ней и ссылкам на ней), или сразу обратиться к ссылке для перехода к соответствующей ей полной копии информационного источника (веб-странице). И тот, и другой способ имеют существенные недостатки. Даже сделав комментарии к сохраненной веб-странице (или ссылке на нее), после установления соединения с удаленным устройством необходимо сначала обратиться к этой странице, затем найти интересующую его ссылку в тексте этой страницы и только после этого получить информацию. Такая методика приемлема только в том случае, когда работают с одной ссылкой, а если их множество, то это приведет к существенным временным затратам для получения интересующей информации. К тому же, при работе с большим количеством ссылок всегда есть вероятность того, что о некоторых из них попросту забудут. Поэтому обращение по ссылке к полной копии информационного источника сразу после ее обнаружения кажется более предпочтительным вариантом (во всяком случае не надо полагаться на память). Но это в свою очередь приводит к тому, что при переходе к соответствующей веб-странице будут обнаружены новые интересные ссылки и таким образом пользователь удалиться от той темы, с которой он непосредственно работал, что также нежелательно. Формирование списка ссылок для отложенного получения и отображения полных копий информационных источников устраняет эти недостатки.
Аналогичным образом формируют список ссылок при работе в режиме оГйте, когда, например, работают с сохраненными вебстраницами, не имея соединения с удаленным устройством (веб-сервером) и соответственно не имея возможности получения полных копий информационных источников. Например, осуществляют просмотр веб-страниц в режиме оГГ11пе и при этом проявляют интерес к получению дополнительной информации, соответствующей ссылкам, содержащимся в тексте упомянутых веб-страниц. Для того чтобы получить эту информацию в режиме опйпе, достаточно было бы кликнуть по ссылке и в окне веб-браузера отобразилась бы соответствующая ссылке вебстраница, полученная от удаленного устройства. Но поскольку работа осуществляется в оГйте, ссылки, над которыми осуществляли активные действия, заносят в очередь на отложенное получение и отображение информации.
Изобретение предусматривает отложенное получение информации как в фоновом, так и в приоритетном режимах. Т.е., например, устанавливают приоритет для отложенного получения конкретной веб-страницы, и тогда эта вебстраница будет получена в первую очередь, сразу, как только будет установлено соединение с удаленным устройством. Фоновый режим предусматривает отложенное получение информации при простаивании линии связи при наличии соединения с удаленным устройством. Например, при получении электронных писем, серфинге в Интернет и т. д.
Далее на этапе 87 сформированный список ссылок модифицируют посредством удаления из него ссылок и/или добавления в него новых ссылок. Кроме того, изобретение предусматривает заполнение пользователем полей описания, связанных с конкретной ссылкой, с целью повышения информативности, присущей ссылкам и их спискам. Что позволяет не только сопровождать ссылки пользовательскими комментариями для удобства их обработки, но и осуществлять в дальнейшем поиск интересующих пользователя ссылок по упомянутым полям описания. Это удобно в тех случаях, например, когда пользователь имеет несколько списков ссылок на отложенное получение информации и желает сформировать из них новый тематический список для получения полных копий информационных источников конкретной тематики.
Далее на этапе 88 определяют условия получения и отображения информации по ссылкам, входящим в сформированный с учетом модификации список ссылок на информационные источники. Под определением условий получения и отображения информации понимают установку приоритета на получение полной копии информационного источника для каждой из ссылок, входящей в список. Т. е. определение по какой из ссылок, входящих в список, будут осуществлять в первую очередь получение полных копий информационных источников. Установка этих параметров оптимизирует процесс отложенного получения полных копий информационных источников в соответствии с предпочтениями, определенными пользователем. Т.е. наиболее интересующие пользователя документы будут получены в первую очередь, что особенно актуально при откачке большого массива данных, когда откачка всей информации может не осуществиться в течение одного сеанса связи с удаленным устройством.
На этапе 88 также осуществляют установку временных параметров для получения и последующего отображения полных копий информационных источников по их ссылкам. Т. е. устанавливают интервал времени, в течение которого полные копии информационных источников, соответствующие ссылкам, должны быть получены и отображены и настраивают систему оповещения о необходимости отображения полученных полных копий информационных источников (свои параметры как для получения, так и для отображения). Например, отображать информацию можно сразу после ее получения, в строго заданное время (дата и время), с определенным интервалом времени, в течение которого информация должна быть отображена, с настройкой системы оповещения о необходимости отображения информации. Это позволяет осуществлять контроль над актуальностью получения информации и ее последующего отображения.
Настройка параметров отображения предусматривает установку настроек для системы оповещения пользователя с определенной периодичностью о том, что ему необходимо просмотреть ту или иную информацию. Например, задают интервал для отображения полученной информации 10 дней и устанавливают настройки для системы оповещения, в соответствии с которыми при каждом обращении к системе, в которой функционирует данный способ, будет выводиться сообщение о необходимости отображения полученной информации. После оповещения упомянутую информацию либо сразу отображают, либо откладывают ее отображение на более поздний срок. Настройка параметров оповещения предусматривает сопровождение отображаемого сообщения дополнительными сигналами, например, звуковыми и т.д. Отложенное отображение полученной информации осуществляют как в режиме оп1те, так и в режиме ойИпе.
Если на этапе 85 определяют, что будет осуществляться получение полных копий информационных источников в соответствии с установленными временными параметрами, то на этапе 89 осуществляют дополнительную проверку актуальности получения информации. Т. е. уточняют актуальность получения по ссылкам полных копий информационных источников непосредственно перед установлением соединения с доступными удаленными устройствами, на которых размещаются соответствующие полные копии информационных источников. Проверка актуальности получения информации предусматривает, в случае необходимости, удаление тех ссылок, для которых истек интервал времени, установленный для получения по упомянутым ссылкам полных копий информационных источников. В дополнение к этому, непосредственно перед получением полной копии информационного источника по ссылке, находящейся в списке на отложенное получение информации, осуществляют проверку наличия на устройстве хранения данных упомянутой полной копии информационного источника. Проверка осуществляется по ссылке, т. е. осуществляется поисковая операция на предмет обнаружения на устройстве хранения данных ссылки, идентичной той, по которой ожидается получение полной копии информационного источника. В случае обнаружения такой ссылки анализируется ее формат (формат разнородной ссылки), после чего по идентификатору получения полной копии определяют, имеется ли на устройстве хранения данных соответствующая полная копия информационного источника. Если таковая отсутствует, то получение информации осуществляется автоматически. Если же на устройстве хранения данных имеется соответствующая полная копия информационного источника, то в соответствии с установленными параметрами либо осуществляют повторное получение (перезапись) информации, либо из списка на получение информации удаляют соответствующую имеющейся полной копии информационного источника ссылку.
Отложенное получение информации осуществляют в автоматическом режиме при первом же соединении с удаленным устройством или в соответствии с установленными временными параметрами. На этапе 90 устанавливают соединение с доступными устройствами, на которых размещаются полные копии информационных источников. Далее на этапе 91 осуществляют получение полных копий информационных источников по ссылкам, входящим в список на отложенное получение информации. После того как полные копии информационных источников будут получены (сохранены), на этапе 92 удаляют из списка на получение полных копий информационных источников те ссылки, по которым информация получена.
Если на этапе 85 определяют, что будет осуществляться отображение полных копий информационных источников в соответствии с установленными временными параметрами, то на этапе 93 осуществляют дополнительную проверку актуальности отображения ранее полученных (сохраненных) полных копий информационных источников непосредственно перед их отображением. Если полные копии информационных источников были получены, но не отображены в соответствии с установленными параметрами отображения, то по истечении интервала времени, в течение которого полученная полная копия информационного источника должна быть отображена, ее либо удаляют, либо переносят в специальный служебный каталог (аналог корзины в М1сго8ой \νίηάο\ν5). Для выполнения этой операции устанавливают параметры, в соответствии с которыми будет осуществляться упомянутый перенос информации в служебный каталог. Перенос просроченной информации в служебный каталог сопровождается удалением полной копии информационного источника (ссылки на нее) из списка на отображение информации.
На этапе 94 осуществляют отображение интересующей информации. Далее на этапе 95 из списка на отображение информации удаляют ссылки на полные копии информационных источников, которые были отображены. Дополнительная проверка актуальности получения и отображения информации незаменима в тех случаях, когда сеанс работы с системой, в которой функционирует данный способ, будет длительным и существует вероятность истечения интервала времени, установленного для получе ния и отображения информации. После выполнения любого из этапов 88, 92 или 95 переходят к выполнению этапа 85.
Данное изобретение позволяет не отвлекаться от основной работы для просмотра информации, соответствующей интересующим ссылкам, встречающимся в полных копиях информационных источников. Т.е. пользователю не придется отвлекаться от основной работы для получения и отображения информации, соответствующей интересующим его ссылкам, и соответственно не нарушать ритм работы. Полезно данное изобретение и при работе в оййпе, когда отсутствует соединение с устройствами, на которых расположены полные копии информационных источников. Кроме того, изобретение позволяет в любой момент получить информацию о том, какие из уже полученных полных копий информационных источников еще не просмотрены. Кроме того, изобретение оптимизирует процесс получения информации с точки зрения эффективного использования линий связи, т. е. получение информации осуществляют тогда, когда линии связи не перегружены.
Данное изобретение иллюстрируется простым примером реализации
Пользователь, осуществляющий поиск информации в Интернет, как правило, просматривает множество веб-страниц интересующей его тематики. При этом тексты просматриваемых веб-страниц содержат большое количество ссылок на другие веб-страницы, часть из которых интересует пользователя в не меньшей степени, нежели та информация, ради которой он осуществляет серфинг по Интернет. Конечно, пользователь может отвлечься от основной тематики и, обратившись к интересующей его ссылке, перейти на соответствующую ей веб-страницу, но бывают случаи, когда, путешествуя по сети, пользователь не имеет времени для таких переходов, особенно если интересующие его ссылки встречаются довольно часто, а отвлечение от основной работы для пользователя нежелательно.
Такая ситуация вполне возможна перед рождественскими праздниками, когда в Интернет появляется множество предложений, рекламирующих товары (в том числе файлы с программным обеспечением и т.д.), продаваемые со значительными скидками. Просмотреть все упомянутые предложения в опйпе затруднительно из-за их большого количества, к тому же задача пользователя заключается в поиске информации, отличной от той, которую можно получить по дополнительным ссылкам. Поэтому для оптимизации процесса работы лучше воспользоваться режимом отложенного получения интересующей пользователя информации и с этой целью осуществляют занесение в очередь на отложенное получение информации каждой из интересующих пользователя ссылок.
В данном примере пользователь осуществляет серфинг в Интернет с целью поиска интересующей его информации, касающейся ИМ8 (систем документооборота). При этом пользователя интересует информация, касающаяся возможностей, предоставляемых этим классом программных продуктов, поскольку перед ним стоит задача составления аналитического отчета. Просматривая множество веб-страниц, содержащих информацию о возможностях ИМ§, пользователь встречает в их тексте ссылки на веб-страницы с описанием интегрируемых с той или иной ИМ§ систем индексирования. Информация о системах индексирования и их характеристиках не входит в первоочередную задачу, но тем не менее полезна для составления более полного аналитического отчета о ИМ§. Поэтому не желая отвлекаться от основной работы, пользователь на этапе 85, как это показано на фиг. 15, активизируют операцию фиксирования запросов на отложенное получение информации и при обращении к ссылке, указывающей на вебстраницу с информацией о конкретной системе индексирования, будет осуществляться не переход на соответствующую веб-страницу, а занесение ссылки в специально формируемый на этапе 86 список. Таким образом пользователь формирует список ссылок на отложенное получение информации, по которому позднее будут получены веб-страницы с информацией о системах индексирования. Полученная информация будет занесена в архивную систему, функционирующую на жестком диске локального компьютера.
При формировании списка на отложенное получение информации на этапе 88 пользователь устанавливает параметры, в соответствии с которыми отложенное получение информации будет осуществляться в ночное время, когда линии связи менее загружены. При этом пользователь устанавливает максимальный срок, в течение которого должна быть осуществлено получение информации - два дня. Это связано с тем, что аналитический отчет, составлением которого пользователь занимается, должен быть готов не позднее указанного срока (два дня), и более поздний срок получения информации по ссылкам на веб-страницы с описанием систем индексирования делает информацию не актуальной для пользователя. Поэтому в соответствии с установленными параметрами ссылки, по которым в течение двух ближайших дней не будут получены соответствующие им вебстраницы, будут удалены из очереди на отложенное получение информации.
Помимо установки параметров для отложенного получения информации пользователь также устанавливает параметры для ее дальнейшего отображения. В соответствии с этими параметрами полученные веб-страницы с информацией о системах индексирования будут отображены при первом же обращении пользо вателя к системе, в которой функционирует изобретение. При этом пользователь устанавливает срок для отображения полученной информации, который также равен двум дням (по прошествии этого срока не отображенная информация будет удалена). Установка таких параметров отображения связана с тем, что пользователь сформировал достаточно большой список на отложенное получение информации и есть вероятность того, что обработать (просмотреть) всю полученную информацию в течение двух дней он не сможет. А в дальнейшем хранении полученных веб-страниц с информацией о системах индексирования пользователь не заинтересован, поскольку упомянутая информация нужна ему лишь для составления конкретного отчета о ИМ8.
В соответствии с установленными на этапе 88 параметрами на этапе 90 автоматически осуществится подключение к Интернет и будет произведена откачка веб-страниц с информацией о системах индексирования по ссылкам, включенным в очередь на отложенное получение информации. Непосредственно перед получением упомянутых веб-страниц автоматически осуществляется проверка наличия в архивной системе, функционирующей на жестком диске локального компьютера ссылок, идентичных ссылкам, входящим в список на отложенное получение информации. Кроме того, осуществляется проверка наличия в упомянутой архивной системе соответствующих ссылкам вебстраниц.
Таким образом сначала осуществляется поиск в архивной системе на жестком диске локального компьютера ссылки, идентичной той, по которой ожидается получение вебстраницы с информацией о системах индексирования. Поиск осуществляется путем сравнения последовательностей байт, определяющих путь и метод доступа к веб-страницам. При этом выясняется, что часть ссылок ранее уже была сохранена в связи с тем, что месяц назад пользователь осуществлял поиск информации, посвященной развитию информационных технологий. В сохраненный тогда пользователем список ссылок были включены ссылки на компании, занимающиеся разработкой поисковых технологий (систем индексирования). Далее анализируется формат ссылок, идентичных включенным в список на отложенное получение информации и обнаруженных на жестком диске локального компьютера, после чего по идентификатору получения полной копии определяют, что по упомянутым ссылкам была получена лишь одна веб-страница, которая была сохранена в архивной системе на локальном компьютере. Ссылка, соответствующая сохраненной вебстранице, удаляется из очереди на отложенное получение информации. Для остальных ссылок, включенных в очередь на отложенное получение информации, осуществляют откачку (зане сение в архивную систему на локальном компьютере) соответствующих им веб-страниц с информацией о системах индексирования.
После получения соответствующих ссылкам веб-страниц на этапе 92 из списка на отложенное получение информации удаляют соответствующие полученным веб-страницам ссылки. Список на отложенное получение информации при этом не стал пустым, поскольку из-за проблем с линиями связи отсутствовал доступ к некоторым веб-страницам, и они не были получены. В соответствии с установленными временными параметрами следующая попытка их получения будут осуществляться во время следующего ночного соединения с Интернет.
Обратившись к архивной системе на локальном компьютере, пользователь на этапе 94 в режиме оГГНпе просмотрит интересующие его (полученные ночью) веб-страницы с информацией о системах индексирования. Отображенные пользователю веб-страницы на этапе 95 удаляют из списка на отложенное отображение информации. Просматривая полученные вебстраницы с информацией о системах индексирования, пользователь обнаружил в их текстах ссылки на веб-страницы с перечнем компаний, лицензировавших ту или иную систему индексирования. Такая информация весьма полезна для составления аналитического отчета, и потому пользователь принимает решение откачать соответствующие веб-страницы. При этом он пользуется возможностью фиксирования запросов на отложенное получение информации в оГГНпе. Обращение к любой ссылке на вебстраницу с перечнем компаний, лицензировавших конкретную систему индексирования, приведет к тому, что эта ссылка на этапе 86 будет занесена в список на отложенное получение информации. Как и при работе в опйпе, в оГГНпе на этапе 88 пользователь устанавливает параметры отложенного получения и отображения упомянутых новых веб-страниц. При этом пользователь устанавливает параметры, в соответствии с которыми получение информации будет осуществляться при первом же соединении с Интернет (так как у него осталось не так уж много времени на составление отчета). Поскольку информация должна быть получена как можно раньше, пользователь дополнительно устанавливает для каждой из ссылок, входящих в очередь на отложенное получение информации, приоритет. Т. е. ссылкам на веб-страницы с перечнем компаний, лицензировавших ту или иную систему индексирования, присваивается высший приоритет, и упомянутые веб-страницы будут получены в первую очередь.
Настраивая параметры получения и отображения веб-страниц с перечнем компаний, лицензировавших ту или иную систему индексирования, пользователь принимает решение не ограничивать срок получения и отображения информации. Это связано с тем, что упомянутая информация (соответствующие ей вебстраницы) может пригодиться для расширения подборки материалов, посвященных развитию информационных технологий и компонуемых пользователем в архивной системе на локальном компьютере.
Получив и обработав всю интересующую информацию, пользователь к определенному сроку составляет аналитический отчет о ΌΜ8. Поскольку в течение второго ночного сеанса связи с Интернет доступ к веб-страницам, соответствующим оставшимся в списке на отложенное получение информации ссылкам, опять отсутствовал, по истечении установленного временного интервала (два дня) упомянутые ссылки автоматически удаляются из списка на отложенное получение информации о системах индексирования. Кроме того, по истечении двух дней уже полученные и не отображенные вебстраницы с информацией о системах индексирования также удаляются из архивной системы на локальном компьютере, в соответствии с установленными пользователем параметрами. Это позволит пользователю не заботится о том, что на жестком диске его локального компьютера будет храниться уже не актуальная для него информация.
Способ получения полных копий информационных источников по списку ссылок, определяющих доступ к информационным источникам
Сущность изобретения
Изобретение представляет собой способ получения полных копий информационных источников по списку разнородных ссылок. В качестве разнородных ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам. Последовательность байт, определяющую метод доступа к информационному источнику, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
Способ включает в себя последовательность операций, выполняемых системой, которая функционирует на доступном устройстве хранения данных, в качестве которого используют как локальное, так и удаленное устройство. При этом формируют списки ссылок, определяющих доступ к информационным источникам для последующего получения полных копий информационных источников, и устанавливают соединение с доступным устройством хранения данных для получения полных копий информационных источников по ссылкам, входящим в сформированный список. Способ заключается в том, что для каждой полученной полной копии информационного источника осуществляют проверку наличия на устройстве хранения данных полных копий информационных источников, имеющих сходство по текстовому содержимому с упомянутой полученной полной копией информационного источника.
Для формирования списка ссылок используют файлы и/или внешние источники данных, содержащие одну и более ссылку. Сформированные списки ссылок модифицируют посредством операций удаления и/или добавления ссылок. Для поиска на устройстве хранения данных полных копий информационных источников, имеющих сходство по словарному составу с полученной полной копией информационного источника, устанавливают параметры поиска, в соответствии с которыми для каждой полученной полной копии информационного источника формируют список найденных полных копий информационных источников, имеющих сходство по словарному составу с упомянутой полученной полной копией информационного источника. После чего сравнивают последовательности блоков информации в полученной и найденной полной копиях информационных источников и принимают решение о сходстве сравниваемых найденной и полученной полных копий информационных источников по их текстовому содержимому. Причем в качестве блока информации используют находящуюся в полной копии информационного источника последовательность символов, ограниченных определенными символами, и для получения последовательностей блоков информации используют программный модуль обработки полных копий информационных источников определенного типа. Кроме того, осуществляют дополнительную обработку полученной и имеющей с ней сходство по текстовому содержимому найденных полных копий информационных источников, а также ссылок, идентифицирующих упомянутые полные копии информационных источников. Причем при неполном сходстве найденной и полученной полных копий информационных источников, при отображении полученной полной копии информационного источника визуализируют ее отличия от найденной полной копии информационного источника, с указанием относительно какой найденной полной копии информационного источника визуализируют отличия.
Описание изобретения
Настоящее изобретение относят к способам формирования и обработки списков разнородных ссылок, а также к способам получения полных копий информационных источников по соответствующим им разнородным ссылкам и проверки наличия на устройстве хранения данных полных копий информационных источников, имеющих сходство по текстовому содержимому с упомянутой полученной полной копией информационного источника.
Различают два вида устройств хранения данных. Первые: доступные устройства хранения данных - любой информационный ресурс, из которого будут получены по ссылкам полные копии информационных источников. Вторые: пользовательские устройства хранения данных устройства, на которых расположена информация, сохраненная пользователем. В качестве пользовательских устройств хранения данных используют, например, жесткий диск пользовательского компьютера, сервера, расположенные в локальных компьютерных сетях, удаленные устройства, такие как Интернет-сервера и т. д. Причем изобретение использует в качестве пользовательских устройств хранения данных одновременно несколько устройств, расположенных в распределенных компьютерных системах.
Способ реализуют следующим образом. На пользовательском устройстве хранения данных хранится архив полных копий информационных источников (документов), полученных по ссылкам из разнородных информационных ресурсов. На этапе 96, как это показано на фиг. 16, формируют список, в соответствии с которым будет осуществляться получение интересующих пользователя полных копий информационных источников. Формирование списка ссылок осуществляют с использованием различных методик и при этом используют внешние источники данных, содержащих одну и более ссылку на информационные источники. В качестве внешних источников данных используют различные поисковые ресурсы, осуществляющие поиск ссылок на информационные источники, например, Интернет поисковые машины (АЙаУ1йа, Е.хсбе и т.д.), системы метапоиска, базы данных, функционирующие на удаленных устройствах (например, \ν\ν\ν.ιΐ5ρΙο.βον). базы данных, функционирующие на локальных устройствах и реализованные пользователем (например, с использованием приложения М1сто8ой Лссекк), различные электронные файлы, содержащие ссылки на информационные источники, например, файлы рассылки электронных писем. Кроме того, списки ссылок на информационные источники получают из хранилищ ссылок на информационные источники и их подборок, например, из папки Избранное Интернет браузера Мкто8ой !п(егпе( Ехр1огег. Изобретение предусматривает формирование нового списка ссылок с использованием поиска ссылок по связанным с ними полям описания, а также формирование списка ссылок вручную. Формирование и обработка списков, включающих разнородные ссылки, способствует более широкому охвату информационного пространства (обеспечивает доступ к большому количеству информационных источников, хранимых в разнородных информационных ресурсах).
Далее на этапе 97 осуществляют модификацию сформированного списка, которая заключается в том, что в сформированный список добавляют новые ссылки и/или удаляют из него содержащиеся в нем ссылки на информацион81 ные источники. На этапе 98 устанавливают соединение с доступными устройствами хранения данных для получения по ссылкам из сформированного пользователем списка полных копий информационных источников. Непосредственно перед получением информации осуществляют проверку наличия на устройстве хранения данных полных копий информационных источников, соответствующих ссылкам, входящим в список на получение информации. Проверка осуществляется по ссылке, т. е. осуществляется поисковая операция на предмет обнаружения на устройстве хранения данных ссылки, идентичной той, по которой ожидается получение полной копии информационного источника. В случае обнаружения такой ссылки анализируется ее формат (формат разнородной ссылки), после чего по идентификатору получения полной копии определяют, имеется ли на устройстве хранения данных соответствующая полная копия информационного источника. Если таковая отсутствует, то получение информации осуществляется автоматически. Если же на устройстве хранения данных имеется соответствующая полная копия информационного источника, то либо осуществляют повторное получение (перезапись) информации, либо из списка на получение информации удаляют соответствующую имеющейся полной копии информационного источника ссылку. После чего на этапе 98 осуществляют получение (запись на пользовательское устройство хранения данных) интересующих пользователя полных копий информационных источников.
Далее на этапе 99 устанавливают параметры, в соответствии с которыми на пользовательских устройствах хранения данных будут осуществлять поиск документов, имеющих сходство по словарному составу с полученными документами. При этом осуществляют поиск документов, имеющих сходство по словарному составу с полученным, в распределенных компьютерных системах, в которых информация располагается одновременно на нескольких устройствах. В качестве параметров поиска используют, например, коэффициенты, определяющие степень сходства полученного и искомого документов по словарному составу, выраженную в процентном соотношении. Изобретение позволяет в качестве параметров поиска для определения степени сходства документов по словарному составу использовать не весь словарный состав упомянутых документов, а, например, лишь определенное количество наиболее редко употребимых слов или слов, наиболее редко встречающихся в архиве, хранимых на устройстве хранения данных документов (полных копий информационных источников). Использование заданного количества наиболее редко употребимых слов для поиска документов, имеющих сходство по словарному составу, повышает эффективность поисковых операций.
В соответствии с установленными параметрами поиска для каждого полученного документа на этапе 100 формируют список найденных на доступных устройствах хранения данных документов, имеющих сходство по словарному составу с полученным документом. После того как списки документов, хранящихся на пользовательских устройствах хранения данных и имеющих сходство по словарному составу, будут сформированы для каждого из полученных документов, на этапе 101 осуществляют определение степени сходства полученного и найденных документов путем сравнения в них последовательности блоков информации. После чего определяют степень сходства сравниваемых документов.
В качестве блоков информации используют находящиеся в документе последовательности символов, ограниченные определенными символами (т.е. в качестве блоков информации выступают слова, последовательности символов, обозначающих дату, последовательности цифр, обозначающих количество чего-либо и т.д., разделенные пробелами, запятыми, точками и т.д.). При сравнении последовательностей блоков информации осуществляют фиксирование всех различий полученного документа от найденного. Причем фиксируются все изменения: изменения в словах, например, после их корректировки, изменение порядка чередования слов в документе, изменения в тексте документа, например, добавление одних слов и удаление других и т.д. Фиксирование всех изменений позволяет позднее, при отображении полученных документов, осуществлять визуализацию отличий полученного документа от найденного.
Для получения упомянутых последовательностей блоков информации используют программный модуль обработки полных копий информационных источников определенного типа. Этот же модуль используют для разбиения документов на блоки информации. В качестве модуля обработки полных копий используют программный модуль, определяющий правила доступа к информационным источникам определенного типа. При этом используют функциональную возможность модуля определяющего правила доступа к информационным источникам определенного типа, которая заключается в разбиении полных копий информационных источников на определенные последовательности символов (блоки информации). Использование модулей, определяющих правила доступа к информационным источникам определенного типа для разбиения документов на блоки информации и получения их последовательностей, позволяет сравнивать на предмет сходства документы различных форматов с текстовым содержимым. Например, осуществляют сравнение веб-страниц с документами формата Мюгозой Аогб и т.д.
Далее, после того как на этапе 101 осуществили определение степени сходства полученного и найденных документов, на этапе 102 осуществляют их дополнительную обработку, а также обработку соответствующих им ссылок в соответствии с установленными параметрами. Обработка зависит от установки параметров и заключается в любой из следующих операций:
- ссылку, по которой получен документ (полная копия информационного источника), имеющий полное сходство с найденным, автоматически удаляют, так же как и соответствующую ей полную копию информационного источника;
- ссылку, по которой получен документ, имеющий полное сходство с найденным, автоматически привязывают к найденному документу, при этом соответствующую ей полную копию информационного источника удаляют;
- ссылку, по которой получен документ, имеющий неполное сходство с найденным, привязывают к найденному документу, при этом соответствующую ей полную копию информационного источника удаляют;
- при неполном сходстве полученного и найденного документов, полученный документ сохраняют на пользовательском устройстве как новый документ;
- при неполном сходстве полученного и найденного документов, на пользовательском устройстве сохраняют вновь полученный документ взамен найденного (ранее сохраненного) и ссылку, соответствующую найденному документу (ранее сохраненному), привязывают к полученному и вновь сохраненному документу.
Привязываемые к документам ссылки сохраняют все присущие им поля описания. Таким образом, изобретение предусматривает при обращении к документу предоставление информации о том, по каким ссылкам данный документ может быть получен от удаленных устройств хранения данных.
После того как ссылка, соответствующая полученному документу, будет привязана к найденному документу, на этапе 98 осуществляют получение упомянутого найденного документа (его полной копии) по любой из привязанных к нему ссылок, что расширяет возможности получения полной копии информационного источника. Например, доступ к полной копии информационного источника по какойлибо ссылке может временно отсутствовать изза проблем с установкой соединения с устройством, на котором расположена упомянутая полная копия информационного источника. В этом случае проблема будет решена путем получения документа по другой связанной с ним ссылке. Такой механизм полезен также для оптимизации временных затрат, связанных с получением полных копий информационных источников. Т.е. система, в которой функционирует данный способ, автоматически определит то устройство, получение полной копии информационного источника от которого осуществляется в течение минимального интервала времени и в первую очередь обратиться именно к этому устройству. Кроме того, привязка нескольких ссылок к одному документу позволяет не сохранять на пользовательском устройстве дубли документов.
Привязка ссылок, соответствующих полученным документам к найденным документам, при неполном сходстве полученного и найденного документов осуществляется пользователем. Это полезно в тех случаях, например, когда полученный документ полностью перекрывается (по текстовому содержанию) найденным или различия между документами не являются существенными, например, изменение последовательности чередования блоков информации, не влекущее за собой изменение смыслового содержания и т. д.
Сохранение (перезапись) вновь полученного документа взамен найденного (ранее сохраненного) и привязка ссылки, соответствующей найденному документу к вновь полученному, полезна в тех случаях, когда полученный документ полностью перекрывает по текстовому содержимому найденный документ и пользователь принимает решение о целесообразности перезаписи документов.
При неполном сходстве найденного и полученного документов на этапе 103 полученный документ отображают пользователю, визуализируя при этом все отличия полученного документа от найденного документа. Причем если для полученного документа найдено несколько сходных с ним документов (список документов, имеющих сходство по текстовому содержимому в соответствии с установленными параметрами), то при отображении полученного документа предоставляется информация о том, относительно какого найденного документа визуализируют отличия. Таким образом на этапе 103 выбирают найденные документы, относительно которых осуществляют визуализацию отличий полученного документа. В качестве визуализации отличий используют, например, подсветку, выделение цветом, подчеркивание и т. д.
Полезность изобретения состоит в том, что очень часто одни и те же документы хранятся в распределенных системах по разным ссылкам (имеют разные адреса, например, разные ИКЬ). К тому же они могут иметь незначительные отличия, например в заголовках названий. Это приводит к тому, что использование обычных методик проверки документов на сходство по ссылкам на них или по названиям документов не позволяет распознавать дубли. Таким образом, пользователь вынужден затрачивать время на повторный просмотр уже имеющихся у него и ранее просмотренных документов. Кроме того, привязка нескольких ссылок к одному документу оптимизирует процесс хранения полных копий информационных источников, имеющих сходство по текстовому содержимому, а также оптимизировать процесс получения документов по ссылкам на них в плане экономии затрачиваемого на это времени.
Полезность изобретения заключается еще и в том, что оно позволяет отслеживать динамику изменений, произошедших с конкретным документом. Например, на устройстве хранения данных хранят полную копию информационного источника, полученного по определенной ссылке (веб-страницу). Периодически осуществляя получение полной копии информационного источника по упомянутой ссылке, отслеживают все изменения, происходящие с конкретным документом. Удобство отслеживания изменений заключается в том, что изобретение осуществляет визуализацию отличий полученного документа от ранее сохраненного.
Изобретение решает проблемы, связанные с дублированием информации (полных копий информационных источников) на устройствах хранения данных. Проблемы эти решаются за счет автоматической проверки наличия в хранимом массиве данных документов, похожих по текстовому содержимому с вновь полученными по ссылкам документами и формирования списков документов, имеющих определенную заданную степень сходства по текстовому содержимому с вновь полученным по ссылке документом. Это в свою очередь позволяет, например, осуществлять быструю и эффективную классификацию вновь полученных по ссылкам документов.
Данное изобретение иллюстрируется оптимальным примером реализации
Имеется архив полных копий информационных источников (документов), полученных по ссылкам из разнородных информационных ресурсов. При этом в архиве хранятся документы различных форматов: веб-страницы, полученные из Интернет по ссылкам, предоставленным Интернет поисковыми машинами в ответ на поисковые запросы, документы формата Мюгокой ОГПсе (^огк, Ехсе1), полученные с жестких дисков компьютеров, функционирующих в локальной сети, и другие документы, содержащие в себе текстовую информацию. Архив является распределенным, то есть информация хранится на нескольких устройствах хранения данных. Поскольку архив достаточно велик и его наполнение осуществляется несколькими пользователями, обычными методами практически невозможно отследить процесс занесения в архив дублирующих документов. Особенно актуальна такая проблема в том случае, когда в многопользовательском режиме работы несколько пользователей одновременно осуществляют наполнение архива документами одной тематики. Таким образом, вероятность занесения в архив уже имеющихся документов и уж тем более имеющих определенное сходство по текстовому содержимому с уже имеющимися в архиве документами, достаточно велика. Это приводит к тому, что в архиве будет хранится множество идентичных документов и работа с таким архивом неизбежно приведет к повторному просмотру одних и тех же документов, что связано с большими временными потерями. Для того чтобы избежать дублирования информации и оптимизировать процесс наполнения архива документами, изобретение предусматривает возможность проверки наличия в архиве документов, имеющих сходство по текстовому содержимому с заданным документом.
На этапе 96, как это показано на фиг. 16, формируют список ссылок, полученный посредством метапоиска с использованием разнородных информационных источников, функционирующих в распределенной компьютерной системе. Перед пользователем стоит задача оптимизации данного списка ссылок и исключения возможности попадания в архив дублей уже хранящихся там полных копий информационных источников. Поэтому в первую очередь на этапе 97 удаляют из списка те ссылки, которые имеют наименьший рейтинг, т.е. имеют меньшую степень релевантности тому поисковому запросу, по которому они были получены. Далее осуществляют проверку наличия в архиве документов, полученных по ссылкам, представленным в модифицированном списке. В случае наличия таковых документов в архиве из списка удаляют соответствующие ссылки. Затем на этапе 98 осуществляют получение по оптимизированному списку ссылок полных копий информационных источников (документов) для каждой из представленных в списке ссылок. При этом получение документов предусматривает проверку их сходства по словарному составу с уже имеющимися в архиве документами, для этого на этапе 99 задают параметры сходства, и для данного примера параметры поиска выражены в процентах и составляют 80%. Таким образом, для каждого из документов, представленных в полученном списке, на этапе 100 формируется список найденных в архиве документов, похожих по словарному составу на полученные, не менее чем на 80%, т.е. документов, для которых достаточно высока степень вероятности быть идентичными полученным документам. При этом учитывается процент совпадения только уникальных слов.
Далее каждый из полученных и найденных документов разбивают на блоки информации (для текстовых документов такими блоками являются слова) и осуществляют операцию сравнения последовательностей блоков информации в полученном и каждом соответствующем ему найденном документах, в результате чего на этапе 101 определяется степень сходства документов по их текстовому содержимому. При этом осуществляют фиксирование всех различий полученного документа от конкретно87 го найденного и фиксируются все различия: изменения в словах, изменения в порядке их чередования, наличие новых слов, отсутствие старых и т. д. На основании зафиксированной информации о различиях определяют степень сходства документов. При этом устанавливают параметры в соответствии с которыми, в случае достаточно большей степени сходства полученного и найденного в архиве документов (в интервале от 90 до 100%), полученный документ на этапе 102 удаляют с устройства хранения данных, а ссылку, по которой он получен, привязывают к найденному в архиве документу. Для документов, имеющих сходство в интервале от 75 до 89%, на этапе 102 осуществляют дополнительную обработку, которая заключается в просмотре полученных документов, на основании чего принимают решение о занесении полученных документов в архив, либо об их удалении и привязке ссылок, по которым они были получены, к найденным соответствующим им документам. При отображении на этапе 103 документов из списка полученных полных копий информационных источников осуществляют визуализацию всех зафиксированных различий между сравниваемыми документами, что позволяет быстро оценить необходимость удаления или сохранения полученного документа. Если для полученного документа найдено несколько имеющих с ним сходство по текстовому содержимому документов, то просмотр и визуализацию различий осуществляют последовательно в сравнении с каждым из найденных документов. Полученные документы, степень сходства которых с найденными составляет менее 75%, сохраняют в архиве. Таким образом, данное изобретение позволяет не просто снизить вероятность, а избежать занесения в систему дублей для уже имеющихся там документов.
Один из примеров реализации, иллюстрирующий единство замысла изобретений
Работа с информацией как правило связана с обработкой большого количества данных: ссылок, списков ссылок, полных копий информационных источников (документов), полученных из различных информационных источников. При этом для получения, хранения и обработки данных используют различные системы и методы. Например, для работы со ссылками, полученными из Интернет, используют системы метапоиска, для создания архива полных копий информационных источников (документов) используют ΌΜ8 (боситеи! таиадетеи! куйет), для хранения информации о сотрудниках компании используют корпоративную базу данных, реализованную на СУБД Огас1е и т.д. Обрабатываемые данные чаще всего являются разнородными, поскольку получены они из разнородных информационных ресурсов, функционирующих как на локальных, так и на удаленных устройствах хранения данных: локальных компьютерах, серверах, функционирующих в ло кальной сети, Интернет-серверах и т.д. При этом эффективность обработки разнородных данных может быть достигнута только в том случае, если пользователь, работающий с разнородными данными, может осуществить их совместное получение, хранение и обработку.
Данный пример иллюстрирует повышение эффективности процесса получения, хранения и обработки разнородной информации с использованием изобретений, включенных в настоящую заявку. Изобретения используются в системе, функционирующей одновременно на локальном и удаленном устройствах хранения данных (локальном компьютере и Интернетсервере). В качестве внешних разнородных информационных источников для получения информации могут быть использованы Интернет поисковые машины, корпоративные базы данных, функционирующие на удаленных Интернет-серверах, ΌΜ8, функционирующие в локальных сетях, и т.д.
Пользователь, работающий с системой, в которой используют изобретения (в дальнейшем просто системой), осуществляет поиск и получение из упомянутых разнородных внешних информационных источников интересующей его информации, касающейся развития информационных технологий. Наличие актуальной информации данной тематики интересует любую компанию, желающую успешно развивать свой бизнес в условиях жесткой конкурентной борьбы, когда динамика развития предприятий во многом определяется использованием новейших информационных технологий.
Для осуществления быстрого поиска интересующей информации из нескольких внешних источников используют метапоиск. При этом пользователя интересует получение информации о конференциях и семинарах, посвященных информационным технологиям, которые должны состояться в ближайшее время, и ее сохранение на жестком диске локального компьютера. Поиск информации будет осуществляться по запросу конференция ΛΝΏ информационные ΆΝΏ технологии с учетом интервала между словами и порядка чередования слов в запросе (фразовый поиск). В качестве параметров поиска устанавливают интервал между словами 4 и произвольный порядок чередования слов в искомых документах. Установка такого интервала между словами вызвана тем, что искомая фраза может иметь вид конференция, посвященная современным информационным технологиям и при задании меньшего интервала документ, содержащий такую фразу, обнаружен не будет.
Использование Интернет поисковых машин, корпоративных баз данных и локальных
ΌΜ8 обусловлено тем, что в каждом из перечисленных информационных источников может содержаться интересующая пользователя информация. Интернет поисковая машина обна89 ружит ссылки на сайты принадлежащие компаниям организаторам конференций или ссылки на веб страницы с анонсами конференций по информационным технологиям, в корпоративной базе данных и в ΌΜ8 могут быть обнаружены уже внесенные кем-то документы, касающиеся данной тематики и полученные из других источников (например, отсканированная с использованием ОСК журнальная статья с информацией о предстоящей конференции).
Выбор поисковых машин осуществляют по комбинации их поисковых возможностей и при этом в качестве интересующих поисковых параметров задают полнотекстовый поиск по фразам и способность поисковых машин осуществлять поиск с использованием различных языков. Выбор поисковых машин по упомянутым параметрам поиска осуществляют по причине заинтересованности пользователя в осуществлении фразового поиска с использованием русского и английского языков. В качестве поисковых машин (внешних разнородных информационных источников), соответствующих критериям выбора, в данном случае используют Интернет поисковую машину Л11аУ151а. корпоративную базу данных, реализованную на СУБД Огас1е и функционирующую на удаленном Интернетсервере, а также ΌΜ8 (например, Ооситейит), функционирующую в локальной сети.
Для того чтобы повысить результативность поиска, используют предварительную обработку сформированного запроса, которая заключается в использовании двух обработчиков: словаря синонимов и русско-английского словаря для перевода. Последовательность выполнения операций предварительной обработки задается пользователем и предполагает в первую очередь использование семантического тезауруса, а затем русско-английского словаря перевода. В результате выполнения операций предварительной обработки получают итоговый запрос имеющий вид:
((конференция ОК семинар ОК сопГегепсе ОК 8ет1иаг) ΛΝΌ (информационные ОК 1иГогтабои) ΆΝΏ (технологии ОК 1есбио1од1е8))/КЕЛК(4)
Итоговый запрос пересылают выбранным поисковым машинам и в итоге получают результирующий список ссылок на полные копии информационных источников, соответствующие запросу, полученному после предварительной обработки и заданным параметрам поиска. При этом также получают полные копии информационных источников, соответствующих ссылкам, входящим в результирующий список, и осуществляют проверку соответствия полученных результатов поисковому запросу. Поскольку в Л11аУб1а реализован фразовый поиск с установкой по умолчанию интервала между словами 10, полученные от нее результаты поиска могут не соответствовать ожиданиям. Т.е. ЛбаУб1а обнаружит не только те документы, в ко торых искомые слова встречаются в интервале 4, но также и те документы, в которых искомые слова встречаются в интервале 10, что не соответствует параметрам запроса, заданным пользователем. Не соответствующие условиям запроса документы удаляют с жесткого диска локального компьютера. Список ссылок при этом также будет оптимизирован (удаление ссылок, соответствующих удаленным документам). Оптимизированный список ссылок, соответствующий ему поисковый запрос и перечень используемых поисковых машин сохраняют на жестком диске локального компьютера с целью их дальнейшего использования для получения и отображения новой информации (нового списка ссылок), соответствующей упомянутому запросу. При этом пользователь устанавливает периодичность получения новой информации раз в неделю по понедельникам в 10 часов утра.
Кроме того, пользователю отображают документы, соответствующие входящим в оптимизированный список ссылкам, и визуализируют результаты поиска, соответствующие запросу, полученному с учетом предварительной обработки. На основании оптимизированного списка пользователь формирует еще один новый список, включающий в себя те ссылки, которые пользователь успел обработать (просмотреть соответствующие им документы). При этом ссылки, входящие в новый список, сопровождаются пользовательскими примечаниями, например, пользователь заполняет созданное им самим комбинированное поле описания Место проведения; Дата проведения. Новый список ссылок заносят в соответствующий шкаф с названием Мероприятия, который характеризуется определенным набором полей Дата открытия, Дата закрытия, Тематика мероприятия, Примечание и т. д. При этом с каждой ссылкой, занесенной в упомянутый шкаф, дополнительно будет связан набор упомянутых полей описания, что достаточно удобно, поскольку пользователю не нужно ломать голову над тем, информацией какого рода сопровождать сохраняемые ссылки (какие поля описания создавать дополнительно к ранее созданному полю Место проведения; Дата проведения). Заполнив все поля описания, в дальнейшем пользователь может осуществлять по ним поиск интересующей его информации (ссылок), например, по интервалу дат проведения мероприятий, по их тематике (в данном примере конференции и семинары по информационным технологиям), месту их проведения и т.д.
Поскольку доступ к сохраненной информации нежелательно ограничивать возможностью доступа только с локального устройства, ее полезно продублировать на удаленном устройстве хранения данных (Интернет-сервере).
Хранение информации на Интернет-сервере позволяет не беспокоится о получении к ней доступа в том случае, если пользователь будет работать на компьютере, расположенном, например, не в офисе, а дома и т.д. К тому же пользователь собирается в командировку и потому возможность доступа к сохраненной им информации для него критична. Поэтому пользователь осуществляет синхронизацию информации на локальном и удаленном устройствах хранения данных (на локальном компьютере и Интернет-сервере). Поскольку синхронизация осуществляется в первый раз (на Интернетсервере хранимые данные отсутствуют), процесс синхронизации будет заключаться в копировании всего массива данных с жесткого диска локального компьютера на Интернет-сервер.
В командировке пользователь обращается к Интернет-серверу и осуществляет работу с сохраненной им информацией. При этом помимо модификации хранимых данных (создание и модификация полей описания к ссылкам, формирование новых списков ссылок путем комбинирования или поиска по полям описания, изменение уже существующих списков) пользователь дополнительно осуществляет наполнение массива данных новой информацией. Т. е. в систему, функционирующую на Интернет-сервере, добавляют новые ссылки, полученные, например, посредством метапоиска.
Вернувшись через неделю из командировки, пользователь обращается к системе, функционирующей на локальном компьютере, и ему отображается новый список ссылок, полученный в соответствии с заданной им периодичностью (еженедельно) по запросу:
((конференция ΟΒ семинар ΟΒ сопГегепсе ΟΒ кеттаг) ΑΝΌ (информационные ΟΒ 1пГогтабоп) ΑΝΏ (технологии ΟΒ 1есНпо1о^5))/ΝΕΑ6(4)
При этом ему отображаются только новые ссылки, обнаруженные определенными ранее поисковыми машинами. Данная операция осуществляется путем комбинирования двух списков: вновь полученного и ранее сохраненного по аналогичному запросу списка с использованием булевского оператора δυΒ. Затем пользователь осуществляет получение документов, соответствующих новым ссылкам.
Поскольку интересующие пользователя анонсы конференций по информационным технологиям могут быть получены от разных информационных ресурсов (веб-сайтов) существует вероятность того, что вновь полученные ссылки, точнее соответствующие им документы в случае их сохранения будут дублировать документы ранее сохраненные в системе, но полученные по другим ссылкам. Поэтому с целью исключения попадания в архив дублирующей информации, пользователь для получаемых по новым ссылкам документов осуществляет проверку наличия документов, имеющих сходство с получаемыми по текстовому содержимому. Поскольку просмотр нового списка пользователь осуществлял в режиме оГГНпе, новый список, а точнее все входящие в него ссылки будут занесены в очередь на отложенное получение информации. Для отложенного получения и дальнейшего отображения полученной информации пользователь устанавливает соответствующие параметры: временные параметры для получения и отображения информации, параметры приоритета для получения и отображения и т. д. В соответствии с установленными параметрами получение информации будут осуществляться в оптимальное время, когда линии связи не перегружены, например в ночные часы.
При этом осуществляют проверку наличия на жестком диске локального компьютера документов, имеющих сходство по текстовому содержимому с получаемыми документами. В случае обнаружения в системе для полученных документов таких документов, которые имеют определенную заданную степень сходства по текстовому содержимому (например, не менее 90%), в соответствии с установленными параметрами осуществляется удаление упомянутых получаемых документов. При этом ссылки, соответствующие удаленным полученным документам, привязываются к тем документам, которые имеют с ними сходство не менее чем на 90%. Полученные документы, для которых в системе обнаружены документы, имеющие степень сходства по текстовому содержимому менее чем на 90% сохраняют. При этом список сохраненных полученных документов отображают пользователю. При желании пользователь может отобразить любой из упомянутых документов с визуализацией его отличий от соответствующего ему ранее сохраненного документа. Если документов, ранее сохраненных в системе и имеющих сходство менее чем на 90%, найдено множество, то пользователь определяет относительно какого из этих документов визуализировать отличия.
Таким образом массив данных на жестком диске локального компьютера будет модифицирован (добавление новых документов), так же как был модифицирован и массив данных на Интернет-сервере. Т. е. информация, хранимая в массивах на локальном компьютере и Интернетсервере, будет существенно отличаться и для приведения ее в соответствие необходимо выполнить операцию синхронизации. С этой целью на каждом из устройств будет сформированы файлы изменений, включающие только новые и измененные данные, появившиеся на конкретном устройстве с момента предыдущей синхронизации.
Затем осуществляют проверку возникновения конфликтных ситуаций, которые заключаются в том, что на разных устройствах хранения данных была модифицирована одна и та же информация (например, ссылка), причем модификация касалась одного и того же поля описания, связанного с этой ссылкой или самой ссыл93 ки, например модификация ее названия. Остальные ситуации, например, когда модификация касается разных полей описания одной и той же ссылки, не считаются конфликтными и не влияют на корректность выполнения синхронизации. В случае обнаружения конфликта в соответствии с параметрами синхронизации право его разрешения предоставляют пользователю, санкционирующему синхронизацию. После устранения конфликтов формируют единый файл изменений, включающий все изменения, произошедшие с данными, хранимыми на различных устройствах хранения данных в течение интервала синхронизации и пересылают его локальному компьютеру и Интернет-серверу. На каждом из упомянутых устройств проводят операцию отката базы данных к тому состоянию, которое имелось на момент начала интервала синхронизации. Откат для базы данных, хранимой на локальном компьютере и Интернет-сервере, осуществляют в соответствии с файлами изменений, сформированными для каждого из упомянутых устройств. После отката база данных будет приведена к тому состоянию, в котором она пребывала сразу после проведения предыдущей синхронизации, т.е. до того как в нее внеслись первые после проведения предыдущей синхронизации изменения. Далее на локальном компьютере и Интернет-сервере осуществляют обработку полученного единого файла изменений, заключающуюся в операции обновления данных (ссылок и списков ссылок). Таким образом, после проведения обновления данных путем обработки единого файла изменений, на локальном компьютере и Интернетсервере будет сформирована полностью идентичная актуальная база данных (ссылок и списков ссылок на информационные источники).
С синхронизированными массивами данных (базами данных) осуществляют дальнейшую работу. Так, например, при обращении к локальному компьютеру пользователю отобразиться список полученных, но еще не просмотренных им документов, которые были занесены в очередь на отложенное отображение. Для части из этих документов уже истек срок их отображения, и потому они будут удалены из системы. Оставшиеся документы будут отображены пользователю для обработки и т. д.
Реализация и одновременное использование изобретений, включенных в настоящую заявку, решает задачу повышения эффективности получения, хранения и обработки ссылок, списков ссылок и полных копий информационных источников. При этом признаки, реализованные в конкретном изобретении, существенно оптимизируют использование признаков, реализованных в других изобретениях, что позволяет говорить о реализации группы изобретений, взаимодополняющих друг друга. Причем эффект от совместного использования изобрете ний существенно превышает эффект от использования всех изобретений по отдельности.
Рассмотренные примеры реализации изобретений являются лишь одними из множества возможных примеров, не исключающих других вариантов реализации, и в них могут вноситься изменения людьми с навыками работы с настоящими изобретениями. Другие реализации или разновидности реализаций изобретений осуществляются в рамках данных изобретений, которые определяются патентной формулой.
Промышленная применимость
Изобретение относится к способам обработки информации на компьютере, состоящим из операций, например, добавления, вызова, получения, передачи, сравнения информации и т. д., причем все упомянутые выше операции являются машинными операциями, выполняемыми в сочетании с различными входными данными, предоставляемыми оператором или пользователем, который взаимодействует с компьютером. Изобретение может функционировать в различных коммуникационных и компьютерных сетях, например, локальных компьютерных сетях, глобальной сети Интернет и т. д. Изобретение может также использоваться в распределенных вычислительных системах, где задачи выполняются удаленными вычислительными устройствами, которые объединены коммуникационной сетью, в том числе в прикладных программах, функционирующих на различных устройствах хранения данных. В распределенной вычислительной среде изобретение может функционировать как на локальных, так и на удаленных запоминающих устройствах. Кроме того, настоящее изобретение может функционировать на локальном и удаленном устройствах одновременно, обеспечивая при этом синхронизацию данных, хранимых в связанных системах.
Промышленная применимость изобретения обусловлена оптимизацией поиска информации в распределенных системах (в том числе в Интернет), наличием функции для отложенного получения и отображения информации, а также оптимизацией процесса обработки полученной информации, позволяющими исключить дублирование информации и сэкономить время на ее просмотр. Данные изобретения применимы в системах, связанных с получением, поиском, обработкой и хранением информации в распределенных системах (в частности, в Интернет) и повышают эффективность работы с информацией, хранимой на локальных и удаленных устройствах хранения данных.
Преимущества изобретения
Настоящее изобретение обладает по сравнению с существующими аналогами рядом преимуществ, позволяющих существенно сократить временные затраты, требуемые для получения и обработки интересующих пользователя данных. Например, за счет более широкого охвата информационного пространства (доступа к большому количеству разнородных информационных источников), определяемого включением в списки ссылок на информационные источники разнородных ссылок. Более широкий охват информационного пространства достигается также за счет получения искомой информации из разнородных информационных ресурсов, в том числе посредством метапоиска, по запросам, расширенным с использованием предварительной обработки. Аналогичная цель достигается тем, что пользователи самостоятельно расширяют перечень поисковых машин, предназначенных для метапоиска информации.
Преимуществом данного изобретения является также оптимизация хранения информации, размещенной одновременно на нескольких устройствах хранения данных, заключающаяся в том, что процесс синхронизации данных учитывает все изменения, произошедшие с данными на различных устройствах хранения данных, и не требует полной перезаписи массивов данных с одного устройства на другое.
Следующим преимуществом изобретения является повышение эффективности операций создания новых списков ссылок и их дальнейшей обработки путем комбинирования двух и более списков ссылок.
Изобретение позволяет существенно упростить и ускорить доступ к ссылкам и спискам ссылок, хранимым на доступных устройствах хранения данных за счет использования поиска упомянутых данных по полям описания, созданным пользователем, в том числе с использованием предварительной обработки поисковых запросов. Поскольку поиск данных по информации, представленной в предопределенных полях описания, приводит к информационной избыточности, заключающейся в том, что формируемые списки включают ссылки, не соответствующие интересам пользователя, осуществляющего поиск. Преимуществом изобретения является также оптимизация процесса администрирования систем для хранения ссылок и списков ссылок за счет ее одновременного администрирования несколькими пользователями.
Преимуществом изобретения является оптимизация процесса получения и отображения информации, позволяющая пользователю не отвлекаться от основной работы для получения и отображения информации, соответствующей интересующим его ссылкам, и соответственно не нарушать ритм работы. Эффективность отложенного получения и отображения информации заключается также в том, что выполнение данной операции может осуществляться в любое удобное время, в том числе тогда, когда коммуникационные линии не перегружены.
Преимущество изобретения заключается также в решении проблем, связанных с дублированием информации на устройствах хранения данных. Проблемы эти решаются за счет автоматической проверки наличия в хранимом мас сиве данных не только полученных ссылок на информационные источники, но и полных копий информационных источников, похожих по текстовому содержимому с вновь полученными по ссылкам полным копиям информационных источников. В дополнение к этому изобретение позволяет формировать списки полных копий информационных источников, имеющих определенную заданную степень сходства по текстовому содержимому с вновь полученной по ссылке полной копией информационного источника. Это в свою очередь позволяет, например, осуществлять быструю и эффективную классификацию вновь полученных по ссылкам полных копий информационных источников.

Claims (83)

1. Способ обработки ссылок, определяющих доступ к информационным источникам, и списков ссылок, хранимых на доступных пользователю устройствах хранения данных, заключающийся в получении, хранении, поиске и синхронизации ссылок на информационные источники и их списков, отличающийся тем, что в качестве ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам, списки включают ссылки, определяемые путями и/или методами доступа к информационным источникам.
2. Способ по п.1, отличающийся тем, что формируют программный модуль, определяющий правила доступа к информационным источникам определенного типа.
3. Способ по п.1, отличающийся тем, что последовательность байт, определяющую метод доступа к информационному источнику определенного типа, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
4. Способ по п.1, отличающийся тем, что одновременно осуществляют поиск ссылок и списков ссылок, хранимых на одном и более доступных пользователю устройствах хранения данных.
5. Способ по п.1, отличающийся тем, что ссылки и списки ссылок связывают с одним и более классификатором, сформированным пользователем.
6. Способ по п.1, отличающийся тем, что при отображении списков ссылок их упорядочивают по выбранному пользователем одному и более полям описания, связанным со ссылками, устанавливают перечень полей описания к ссылкам для отображения, а также порядок и атрибуты для отображения полей описания к ссылкам.
7. Способ по п.1, отличающийся тем, что при отображении списков ссылок количество отображаемых в списках ссылок ограничивают одним и более фильтрами.
8. Способ по п. 1, отличающийся тем, что ссылку включают в один и более списков ссылок.
9. Способ по п.8, отличающийся тем, что получают информацию о том, в какие списки ссылок включена ссылка.
10. Способ по п.1, отличающийся тем, что осуществляют проверку возможности получения полной копии информационного источника, соответствующего ссылке.
11. Способ по п. 10, отличающийся тем, что пользователь определяет периодичность, с которой осуществляют проверку возможности доступа к одной и более полной копии информационного источника, соответствующего ссылке.
12. Способ по п.1, отличающийся тем, что осуществляют синхронизацию ссылок, определяющих доступ к информационным источникам, и списков ссылок, одновременно хранимых на нескольких доступных устройствах хранения данных, путем пересылки новых и/или измененных ссылок и списков ссылок от одного доступного устройства хранения данных другому.
13. Способ по п.1, отличающийся тем, что при синхронизации осуществляют выявление конфликтных ситуаций и оповещение об упомянутых конфликтных ситуациях.
14. Способ по п.1, отличающийся тем, что при работе в многопользовательском режиме пользователь автоматически получает права администратора на сохраненные им ссылки и/или списки ссылок.
15. Способ по п.1, отличающийся тем, что при работе в многопользовательском режиме пользователь осуществляет передачу прав доступа и/или прав администратора, по меньшей мере, на одну ссылку и/или список ссылок, по меньшей мере, одному другому пользователю.
16. Способ по п.1, отличающийся тем, что при работе в многопользовательском режиме пользователь, предоставляя права доступа и/или права администратора, по меньшей мере, на одну ссылку и/или список ссылок другому пользователю, устанавливает параметры доступа к упомянутым ссылкам и/или спискам ссылок и виды операций, допустимые при работе с упомянутыми ссылками и списками ссылок.
17. Способ формирования и обработки списков ссылок, определяющих доступ к информационным источникам, хранимых на доступных пользователю устройствах хранения данных, включающий в себя операции создания новых списков ссылок, определяющих доступ к информационным источникам, сохранения и загрузки списков ссылок, определяющих доступ к информационным источникам, отличающийся тем, что в качестве ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам, осуществляют операции комбинирования списков ссылок, определяющих доступ к информационным источникам, и операции комбинирования заключаются в формировании нового результирующего списка ссылок на основании двух и более списков ссылок.
18. Способ по п.17, отличающийся тем, что списки включают ссылки, определяемые путями и/или методами доступа к информационным источникам.
19. Способ по п.17, отличающийся тем, что формируют программный модуль, определяющий правила доступа к информационным источникам определенного типа.
20. Способ по п.17, отличающийся тем, что последовательность байт, определяющую метод доступа к информационному источнику определенного типа, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
21. Способ по п.17, отличающийся тем, что для создания новых списков ссылок используют импорт ссылок на информационные источники.
22. Способ по п.21, отличающийся тем, что для выполнения операций импорта ссылок используют внешние информационные ресурсы.
23. Способ по п.17, отличающийся тем, что для создания новых списков ссылок используют поиск ссылок по связанным с ними полям описания.
24. Способ по п.17, отличающийся тем, что для создания новых списков ссылок используют комбинирование списков.
25. Способ по п.17, отличающийся тем, что при комбинировании используют списки ссылок, хранимые на одном и более доступных пользователю устройствах хранения данных.
26. Способ по п.17, отличающийся тем, что для создания новых списков ссылок используют создание пустого списка.
27. Способ по п.17, отличающийся тем, что в качестве операций изменения списков ссылок используют добавление, и/или удаление, и/или перенос упомянутых ссылок с использованием кармана.
28. Способ по п.27, отличающийся тем, что в качестве кармана используют служебный список, который служит для упрощения операций изменения списков ссылок на информационные источники.
29. Способ поиска ссылок, определяющих доступ к информационным источникам, и списков ссылок, хранимых на доступных пользователю устройствах хранения данных, заключающийся в нахождении необходимых ссылок и списков ссылок по связанным с ними различительным признакам, отличающийся тем, что в качестве ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или
100 метод доступа к информационным источникам, пользователь создает и модифицирует набор полей описания, связанных со ссылкой, определяющей доступ к информационному источнику, или списком ссылок, осуществляют поиск упомянутых ссылок и/или списков ссылок по любой комбинации полей описания.
30. Способ по п.29. отличающийся тем, что списки включают ссылки, определяемые путями и/или методами доступа к информационным источникам.
31. Способ по п.29. отличающийся тем, что создают новые типы данных для полей описания, связанных со ссылкой или списком ссылок.
32. Способ по п.31. отличающийся тем, что формируют программный модуль обработки данных определенного типа для интерпретации нового типа данных.
33. Способ по п.29. отличающийся тем, что при формировании запроса на поиск по полям описания, связанным со ссылками и списками ссылок, выполняют операции предварительной обработки запроса, которые заключаются в получении, по меньшей мере, из одного исходного слова, входящего в запрос, одного или нескольких слов, связанных с исходным словом заданным соотношением.
34. Способ по п.29. отличающийся тем, что при отображении списков ссылок, полученных в результате поиска по любой комбинации полей описания, связанных с упомянутыми ссылками, количество отображаемых в полученных списках ссылок ограничивают одним и более фильтрами.
35. Способ по п.29. отличающийся тем, что формируют множества из одной и более ссылок, характеризующиеся определенными наборами полей описания.
36. Способ по п.35. отличающийся тем, что каждое множество имеет иерархическую структуру и каждому подмножеству, входящему в упомянутое множество, по меньшей мере, присущ набор полей описания, характеризующий упомянутое множество.
37. Способ по п.29. отличающийся тем, что каждой ссылке, входящей в множество, по меньшей мере, присущ набор полей описания, характеризующих упомянутое множество.
38. Способ получения ссылок, определяющих доступ к информационным источникам посредством метапоиска, включающий в себя операции выбора, по меньшей мере, одной поисковой машины из существующего для метапоиска списка поисковых машин, формирования пользователем запроса, описывающего искомую информацию, преобразования запроса в форму данных для поиска, соответствующую каждой из упоминаемых, по меньшей мере, одной поисковых машин, пересылки созданных данных для поиска к каждой упоминаемой, по крайней мере, одной поисковой машине для инициализации поиска, получения результатов поиска, включающих, по меньшей мере, один список ссылок, определяющих доступ к информационным источникам от каждой упоминаемой, по крайней мере, одной поисковой машины, и объединения результатов поиска для получения единого результирующего списка ссылок, определяющих доступ к информационным источникам, обработки результатов поиска, отличающийся тем, что в качестве ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам, при преобразовании запроса в форму данных для поиска, соответствующую каждой из поисковых машин, учитывают все параметры поиска, присущие каждой из упомянутых поисковых машин, и/или расширяют параметры поиска, присущие каждой из упомянутых поисковых машин, путем введения предварительной обработки всех составляющих запроса.
39. Способ по п.38. отличающийся тем, что списки включают ссылки, определяемые путями и/или методами доступа к информационным источникам.
40. Способ по п.38. отличающийся тем, что формируют программный модуль, определяющий правила доступа к информационным источникам определенного типа.
41. Способ по п.38. отличающийся тем, что последовательность байт, определяющую метод доступа к информационному источнику определенного типа, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
42. Способ по п.38. отличающийся тем, что в качестве упомянутой поисковой машины используют любой информационный ресурс или систему, осуществляющую поиск данных.
43. Способ по п.38. отличающийся тем, что выбор, по меньшей мере, одной поисковой машины осуществляют по классификатору.
44. Способ по п.38. отличающийся тем, что выбор, по меньшей мере, одной поисковой машины осуществляют по классификатору, созданному пользователем.
45. Способ по п.38. отличающийся тем, что выбор, по меньшей мере, одной поисковой машины осуществляют по заданной комбинации параметров поиска, присущих поисковым машинам.
46. Способ по п.38. отличающийся тем, что формирование пользователем запроса включает в себя заполнение поисковой формы, на которой представлен набор полей, соответствующих всем параметрам поиска, присущим выбранным поисковым машинам.
101
102
47. Способ по п.38, отличающийся тем, что выбирают, по меньшей мере, одну операцию предварительной обработки запроса, причем последовательность выполнения операций предварительной обработки запроса задают пользователи.
48. Способ по п.38, отличающийся тем, что в качестве предварительной обработки запроса используют операцию получения, по меньшей мере, из одного исходного слова, входящего в запрос, одного или нескольких слов, связанных с исходным словом заданным соотношением.
49. Способ по п.48, отличающийся тем, что после выполнения операции предварительной обработки, по меньшей мере, одно исходное слово удаляют из запроса или оставляют в запросе.
50. Способ по п.38, отличающийся тем, что предварительная обработка состоит из одной логической операции тождества.
51. Способ по п.38, отличающийся тем, что сформированный запрос сохраняют на доступных пользователю устройствах хранения данных и обеспечивают последующий доступ к сохраненному упомянутому запросу.
52. Способ по п.51, отличающийся тем, что задают периодичность проведения метапоиска с использованием сохраненного запроса и списка поисковых машин и в результирующем списке ссылок оставляют только те ссылки, которые отсутствуют в предыдущем списке ссылок, полученном посредством метапоиска с использованием упомянутого сохраненного поискового запроса и списка поисковых машин.
53. Способ по п.38, отличающийся тем, что в существующий для метапоиска список поисковых машин добавляют новые поисковые машины и при этом указывают для них адрес, правила соответствия языка запросов, используемого в настоящем способе, языку запросов упомянутых поисковых машин или формируют программный модуль обработки правил соответствия языка запросов изобретения языку запросов добавляемой поисковой машины, тип ссылки на информационный источник, присущий добавленной поисковой машине.
54. Способ по п.53, отличающийся тем, что при указании нового типа ссылок создают соответствующий программный модуль, определяющий правила доступа к информационным источникам определенного типа.
55. Способ по п.54, отличающийся тем, что программным модулем, определяющим правила доступа к информационным источникам, обрабатывают один и более тип ссылок.
56. Способ по п.53, отличающийся тем, что пользователи добавляют поисковые машины в существующий для метапоиска список поисковых машин.
57. Способ по п.38, отличающийся тем, что дополнительно получают полную копию информационного источника с последующей ви зуализацией результата, соответствующего запросу, и осуществляют проверку соответствия полученных полных копий информационных источников условиям поискового запроса.
58. Способ отложенного получения и отображения полных копий информационных источников по ссылкам, определяющим доступ к информационным источникам, включающий формирование списка ссылок, определяющих доступ к информационным источникам, для последующего получения полных копий информационных источников;
установление соединения с доступным устройством хранения данных для получения полных копий информационных источников по ссылкам, отличающийся тем, что в качестве ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам, фиксируют запросы на получение информации для ее последующего получения и отображения.
59. Способ по п.58, отличающийся тем, что списки включают ссылки, определяемые путями и/или методами доступа к информационным источникам.
60. Способ по п.58, отличающийся тем, что формируют программный модуль, определяющий правила доступа к информационным источникам определенного типа.
61. Способ по п.58, отличающийся тем, что последовательность байт, определяющую метод доступа к информационному источнику определенного типа, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
62. Способ по п.58, отличающийся тем, что для формирования списка ссылок используют файлы и/или внешние источники данных, содержащие одну и более ссылок.
63. Способ по п.58, отличающийся тем, что список ссылок модифицируют посредством операций удаления и/или добавления ссылок.
64. Способ по п.58, отличающийся тем, что заполняют поля описания, связанные со ссылками, определяющими доступ к информационным источникам.
65. Способ по п.58, отличающийся тем, что устанавливают приоритет на получение полной копии информационного источника для каждого элемента списка ссылок.
66. Способ по п.58, отличающийся тем, что устанавливают интервал времени, в течение которого должны быть получены полные копии информационных источников для каждого из элементов списка ссылок.
67. Способ по п.66, отличающийся тем, что по истечении установленного интервала времени получение полных копий информационных источников не осуществляют и удаляют из спи
103
104 ска ссылок элементы, для которых истек установленный интервал времени.
68. Способ по п.66, отличающийся тем, что перед получением полной копии информационного источника по ссылке, входящей в список, осуществляют проверку наличия упомянутой ссылки и соответствующей ей полной копии информационного источника на устройстве хранения данных, предназначенном для получения полной копии информационного источника, и, в случае обнаружения полной копии информационного источника на упомянутом устройстве хранения данных, получение полной копии информационного источника по ссылке, входящей в список, не осуществляют.
69. Способ по п.58, отличающийся тем, что устанавливают интервал времени, в течение которого полученная полная копия информационного источника должна быть отображена, и/или правила оповещения о необходимости отображения полученных полных копий информационных источников.
70. Способ по п.69, отличающийся тем, что по истечении установленного интервала времени осуществляют дополнительную обработку не просмотренной полной копии информационного источника.
71. Способ получения полных копий информационных источников по списку ссылок, определяющих доступ к информационным источникам, заключающийся в формировании списка ссылок, определяющих доступ к информационным источникам, для последующего получения полных копий информационных источников, установлении соединения с устройством хранения данных для получения полных копий информационных источников по ссылкам, определяющих доступ к информационным источникам, отличающийся тем, что в качестве ссылок, определяющих доступ к информационным источникам, используют последовательности байт, определяющие путь и/или метод доступа к информационным источникам, для каждой полученной полной копии информационного источника осуществляют проверку наличия на устройстве хранения данных полных копий информационных источников, имеющих сходство по текстовому содержимому с упомянутой полученной полной копией информационного источника.
72. Способ по п. 71, отличающийся тем, что списки включают ссылки, определяемые путями и/или методами доступа к информационным источникам.
73. Способ по п.71, отличающийся тем, что формируют программный модуль, определяющий правила доступа к информационным источникам определенного типа.
74. Способ по п. 71, отличающийся тем, что последовательность байт, определяющую метод доступа к информационному источнику определенного типа, интерпретируют путем обработки программным модулем, определяющим правила доступа к информационным источникам определенного типа.
75. Способ по п.71, отличающийся тем, что для формирования списка ссылок используют файлы и/или внешние источники данных, содержащие одну и более ссылок.
76. Способ по п.71, отличающийся тем, что список ссылок модифицируют посредством операций удаления и/или добавления ссылок.
77. Способ по п.71, отличающийся тем, что устанавливают параметры для поиска на устройстве хранения данных полных копий информационных источников, имеющих сходство по словарному составу с полученной полной копией информационного источника.
78. Способ по п.77, отличающийся тем, что для каждой полученной полной копии информационного источника формируют список найденных в соответствии с установленными параметрами полных копий информационных источников, имеющих сходство по словарному составу с упомянутой полученной полной копией информационного источника.
79. Способ по п.78, отличающийся тем, что сравнивают последовательности блоков информации в полученной и найденной полной копиях информационных источников и принимают решение о сходстве сравниваемых найденной и полученной полных копий информационных источников, где в качестве блока информации используют находящуюся в полной копии информационного источника последовательность символов, ограниченных определенными символами.
80. Способ по п.79, отличающийся тем, что для получения последовательностей блоков информации используют программный модуль обработки полных копий информационных источников определенного типа.
81. Способ по п.79, отличающийся тем, что для разбиения полных копий информационных источников на блоки информации используют программный модуль обработки полных копий информационных источников.
82. Способ по п.79, отличающийся тем, что осуществляют дополнительную обработку полученной и имеющей с ней сходство по текстовому содержимому найденной полных копий информационных источников, а также ссылок, идентифицирующих упомянутые полные копии информационных источников.
83. Способ по п.79, отличающийся тем, что при неполном сходстве найденной и полученной полных копий информационных источников при отображении полученной полной копии информационного источника визуализируют ее отличия от найденной полной копии информационного источника с указанием, относительно какой найденной полной копии информационного источника визуализируют отличия.
105
106
15 Определение двух и более списков
Фиг. 1
20 Замена существующего списка вновь полученным в результате комбинирования
Определение операции для получения нового списка
I Ζ
Проведение операции комбинирования
Создание нового списка са результате операции
Сохранение полученного списка ~Г.....
23 Обработка списков
Фиг. 3
Фиг. 2
24 ΑΝϋ 25 совпадение 1 гики) совпадение 1 алии = 26 совпадение 2 <υκι 2) совпадение з (Ю1) совпадение 1 (ины) совпадение 3 (Ю1) совпадение 5 (Я!е оайй совпадение 3 (Ю1) совпадение 4 (Ю2) совпадение < (υκι.3) совпадение 5 (1-не1 раНп) совпадение 5 (ЕНе1 оа1Ы совпадение У (Н1е2 р^К)
Фиг. 4
29 совпадение Ί 27 28 сини) совпадение 1 совпадение 1 совпадение 2 ШРИ) гики) (иК1 2) совпадение 2 совпадение з совпадение з (υκι 2) (Ю1) (Ю1) совпадение 3 (Ю1) ОК совпадение 5 (РНе оа1М = совпадение 4 (Ю2) совпадение 4 (Ю2) совпадение ( (икьз) в совпадение 5 ίΡϊΙβΙ оайй совпадение 5 совпадение у совпадение У (Я1е1 оа1Ш (Р81е2 ра1М (ΡίΙβ2 оаШ) совпадение 1 (икьз)
Фиг. 5
107
108
30 31 совпадение 1 ШНИ) совпадение ι — 32 совпадение ζ (ϋΚί-2) совпадение з (ΙΟ1) совпадение ζ (1)Κί2) совпадение 3 (Ю1) зив совпадение 6 (ЕНе ра<1П совпадение 4 (Ю2) совпадение 4 (Ю2) совпадение < (иР1 3) совпадение Ь совпадение У (А1е) йаЦ?) . [Е11е2 еа1Ю
Фиг. 6
Фиг. 7
Фиг. 8
Фиг. 9
109
110
Фиг. 10
Фиг. 11
Фиг. 13 [
1п£огтайоп |
Ξ1
Фиг. 12
Информация] | Информации | ]
X
11пТогта1юпа11
X —А.
| Реп8е1дтёп?] | Кепз^дтегПз] | Ма1епа1 | | Ма1епа151
Фиг. 14
111
112
Фиг. 15
Фиг. 16
EA200100235A 2001-02-15 2001-02-15 Способ получения, обработки и хранения ссылок на информационные источники, списков ссылок и полных копий информационных источников EA001895B1 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EA200100235A EA001895B1 (ru) 2001-02-15 2001-02-15 Способ получения, обработки и хранения ссылок на информационные источники, списков ссылок и полных копий информационных источников
PCT/EA2002/000002 WO2002065333A1 (fr) 2001-02-15 2002-01-31 Procédés d'obtention, de traitement, de stockage et d'utilisation des liens vers des sources d'informations, de listes de liens et de copies intégrales de sources d'informations
PL02358783A PL358783A1 (en) 2001-02-15 2002-01-31 Method for retrieving, processing and storing links to information sources, lists of links and complete copies of information sources

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EA200100235A EA001895B1 (ru) 2001-02-15 2001-02-15 Способ получения, обработки и хранения ссылок на информационные источники, списков ссылок и полных копий информационных источников

Publications (2)

Publication Number Publication Date
EA200100235A1 EA200100235A1 (ru) 2001-08-27
EA001895B1 true EA001895B1 (ru) 2001-10-22

Family

ID=8161576

Family Applications (1)

Application Number Title Priority Date Filing Date
EA200100235A EA001895B1 (ru) 2001-02-15 2001-02-15 Способ получения, обработки и хранения ссылок на информационные источники, списков ссылок и полных копий информационных источников

Country Status (3)

Country Link
EA (1) EA001895B1 (ru)
PL (1) PL358783A1 (ru)
WO (1) WO2002065333A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370939B2 (en) 2010-07-23 2013-02-05 Kaspersky Lab, Zao Protection against malware on web resources

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW388982B (en) * 1995-03-31 2000-05-01 Samsung Electronics Co Ltd Memory controller which executes read and write commands out of order
US6078914A (en) * 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370939B2 (en) 2010-07-23 2013-02-05 Kaspersky Lab, Zao Protection against malware on web resources

Also Published As

Publication number Publication date
EA200100235A1 (ru) 2001-08-27
WO2002065333A1 (fr) 2002-08-22
PL358783A1 (en) 2004-08-23

Similar Documents

Publication Publication Date Title
US7620624B2 (en) Systems and methods for indexing content for fast and scalable retrieval
US7849063B2 (en) Systems and methods for indexing content for fast and scalable retrieval
JP4574356B2 (ja) 電子的ドキュメントレポジトリーマネジメントおよびアクセスシステム
JP4623820B2 (ja) ネットワークベース情報検索システム及びドキュメントサーチ促進方法
US7401078B2 (en) Information processing apparatus, document search method, program, and storage medium
US9092523B2 (en) Methods of and systems for searching by incorporating user-entered information
CN1988536B (zh) 用于管理网站内容的方法、系统和设备
US20070282829A1 (en) Pipelined architecture for global analysis and index building
US20060129538A1 (en) Text search quality by exploiting organizational information
US20020178394A1 (en) System for processing at least partially structured data
US20040162816A1 (en) Text and attribute searches of data stores that include business objects
JP2010134963A (ja) 文書に付与されたプロパティを用いたサ―ビスの起動方法
GB2401215A (en) Digital Library System
US7024405B2 (en) Method and apparatus for improved internet searching
JP2011065546A (ja) ファイル検索システム及びプログラム
US6938032B1 (en) Presentation builder
López et al. An efficient and scalable search engine for models
Chowdhury et al. An overview of the information retrieval features of twenty digital libraries
KR100672278B1 (ko) 웹 브라우저의 즐겨찾기 리스트를 이용한 개인화 검색 방법및 검색 서버
Hughes et al. A metadata search engine for digital language archives
JPH07239854A (ja) 画像ファイルシステム
EA001895B1 (ru) Способ получения, обработки и хранения ссылок на информационные источники, списков ссылок и полных копий информационных источников
JP2003044486A (ja) 知識分析システム、クラスタ管理方法およびクラスタ管理プログラム
EP1672544A2 (en) Improving text search quality by exploiting organizational information
Wenyin et al. A media agent for automatically building a personalized semantic index of Web media objects

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM MD TM

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AZ KZ KG TJ

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): BY

MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): RU