RU105758U1

RU105758U1 - ANALYSIS AND FILTRATION SYSTEM FOR INTERNET TRAFFIC BASED ON THE CLASSIFICATION METHODS OF MULTI-DIMENSIONAL DOCUMENTS

Info

Publication number: RU105758U1
Application number: RU2010147571/08U
Authority: RU
Inventors: Валентина Владимировна Глазкова; Игорь Валерьевич Машечкин; Михаил Игоревич Петровский
Original assignee: Валентина Владимировна Глазкова; Игорь Валерьевич Машечкин; Михаил Игоревич Петровский
Priority date: 2010-11-23
Filing date: 2010-11-23
Publication date: 2011-06-20

Abstract

Система анализа и фильтрации Интернет-трафика на основе обучаемых методов классификации содержимого гипертекстовых документов, включающая модуль разбора и классификации, осуществляющий преобразование во внутреннее представление и классификацию гипертекстовых документов на основе методов машинного обучения с возможностью дообучения для определения тематик документов и учета ссылочной структуры документов посредством включения тематик документов из гипертекстового окружения в представление документа; модуль принятия решений, разрешающий или блокирующий доступ к ресурсам на основе пользовательских и групповых политик фильтрации, а также выявленных тематик запрашиваемых гипертекстовых документов; ядро системы, осуществляющее координацию всех операций в системе; кэш-прокси-сервер, осуществляющий перехват запросов из локальной сети и переадресацию их ядру системы, и робот, осуществляющий загрузку содержимого ресурсов из Интернет для формирования наборов документов для обучения и дообучения системы. A system for analyzing and filtering Internet traffic based on training methods for classifying the contents of hypertext documents, including a parsing and classification module that converts into internal representation and classification of hypertext documents based on machine learning methods with the possibility of further training to determine the subjects of documents and take into account the reference structure of documents by including topics of documents from the hypertext environment in the presentation of the document; a decision-making module that allows or blocks access to resources based on user and group filtering policies, as well as identified topics of requested hypertext documents; the core of the system, coordinating all operations in the system; a cache proxy server that intercepts requests from the local network and redirects them to the core of the system, and a robot that downloads the contents of resources from the Internet to create sets of documents for training and further training the system.

Description

Полезная модель относится к области вычислительной техники, в частности, к системе анализа и фильтрации Интернет-трафика с возможностью адаптивной фильтрации по содержимому и гипертекстовому окружению документов на основе обучаемых методов классификации.The utility model relates to the field of computing, in particular, to a system for analyzing and filtering Internet traffic with the possibility of adaptive filtering by content and hypertext environment of documents based on trained classification methods.

Система предназначена для анализа и фильтрации Интернет-графика на основе применения методов машинного обучения с возможностью дообучения для задания и распознавания тематик гипертекстовых веб-страниц с учетом содержащейся в них ссылочной информации. Применение таких методов позволяет системе обладать следующими свойствами:The system is intended for analysis and filtering of Internet graphics based on the use of machine learning methods with the possibility of further training for setting and recognizing the topics of hypertext web pages, taking into account the reference information contained in them. The use of such methods allows the system to possess the following properties:

- фильтрация на основе содержимого и гипертекстового окружения Интернет-ресурсов, которое может динамически изменяться по времени;- filtering based on the content and hypertext environment of Internet resources, which can dynamically change over time;

- анализ входящего и исходящего трафика в режиме реального времени;- analysis of incoming and outgoing traffic in real time;

- возможность динамического изменения списка тематик фильтрации Интернет-трафика (добавление новых и удаление существующих);- the ability to dynamically change the list of topics for filtering Internet traffic (adding new ones and deleting existing ones);

- автономность - независимость от внешних баз знаний и экспертов.- autonomy - independence from external knowledge bases and experts.

Известны системы, которые могут быть использованы для анализа и фильтрации Интернет-трафика [1, 2, 3, 4].Known systems that can be used to analyze and filter Internet traffic [1, 2, 3, 4].

Первая из систем [1] в основном опирается на статические правила фильтрации ресурсов. Системой поддерживается пользовательский профиль. Решение заключается в хранении одобренного разрешенного списка, который нет необходимости фильтровать. Все ресурсы, которые не попадают в заданный список, считаются запрещенными. Список не обязан быть локальным и может храниться на некотором удаленном сервере и использоваться несколькими пользователями. Предложенная же полезная модель использует адаптивные методы контентного анализа на основе машинного обучения наряду со статическими методами анализа трафика.The first of the systems [1] is mainly based on static rules for filtering resources. The system supports a user profile. The solution is to store an approved approved list, which is not necessary to filter. All resources that do not fall into the specified list are considered prohibited. The list does not have to be local and can be stored on some remote server and used by several users. The proposed utility model uses adaptive methods of content analysis based on machine learning along with static methods of traffic analysis.

Система фильтрации [2] основана на классификации, но предлагает осуществлять классификацию не программными средствами, а средствами самих провайдеров онлайн-контента, после чего проходить сертификацию у надлежащих органов сертификации, что принципиально отличается от предложенной полезной модели ввиду отсутствия адаптивности и автономности.The filtering system [2] is based on classification, but offers classification not by software, but by the online content providers themselves, and then to be certified by the appropriate certification bodies, which is fundamentally different from the proposed utility model due to the lack of adaptability and autonomy.

Система [3] хотя и использует четкие понятия категоризованного сайта и категоризованного контента, но не описывает никаких способов автоматической классификации документов, а также предлагает алгоритмы для сравнения новых ресурсов с имеющимися в базе данных (локальной и удаленной), что также не подразумевает автономности системы и не обеспечивает высокой точности категоризации.Although the system [3] uses clear concepts of a categorized site and categorized content, it does not describe any methods for automatically classifying documents, it also offers algorithms for comparing new resources with those available in the database (local and remote), which also does not imply the autonomy of the system and does not provide high accuracy of categorization.

Система [4] описывает систему фильтрации трафика на основе категоризации ресурсов. В патенте предлагается использовать уже существующие базы данных классифицированных ресурсов, и основное внимание уделено освещению проблем контроля нагрузки пропускной способности силами системы фильтрации трафика и вопросам идентификации пользователей.System [4] describes a traffic filtering system based on resource categorization. The patent proposes to use existing databases of classified resources, and the main attention is paid to the coverage of the problems of bandwidth load control by the traffic filtering system and user identification issues.

В результате поиска по базам данных Федеральной службы по интеллектуальной собственности, патентам и товарным знакам (Роспатента) российских патентов по заданной тематике не обнаружено.As a result of a search in the databases of the Federal Service for Intellectual Property, Patents and Trademarks (Rospatent), Russian patents on a given topic were not found.

Цель изобретения - решение задачи анализа и фильтрации Интернет-трафика с возможностью адаптивной фильтрации по содержимому и гипертекстовому окружению документов на основе обучаемых методов классификации.The purpose of the invention is to solve the problem of analyzing and filtering Internet traffic with the possibility of adaptive filtering by content and hypertext environment of documents based on trained classification methods.

Поставленная цель достигается путем создания системы анализа и фильтрации Интернет-трафика (фиг.1), содержащей следующие модули:This goal is achieved by creating a system for analyzing and filtering Internet traffic (figure 1), containing the following modules:

- Кэш-прокси-сервер 1 - модуль, осуществляющий перехват запросов из локальной сети и их переадресацию ядру системы фильтрации трафика.- Cache proxy server 1 - a module that intercepts requests from the local network and redirects them to the core of the traffic filtering system.

- Ядро 2 - центральный модуль системы фильтрации трафика, через который выполняются все операции в рамках системы.- Kernel 2 is the central module of the traffic filtering system through which all operations within the system are performed.

- Модуль принятия решений 3 - модуль, осуществляющий принятие решения о разрешении или блокировке доступа к ресурсам.- Decision making module 3 - a module that makes decisions about allowing or blocking access to resources.

- Модуль разбора и классификации 4 - модуль, осуществляющий лексический разбор содержимого ресурса, преобразование во внутреннее представление и классификацию.- Parsing and classification module 4 - a module that performs lexical analysis of the contents of a resource, converts it into an internal representation and classification.

- Робот 5 - модуль, осуществляющий загрузку содержимого ссылок из Интернета для формирования наборов документов для обучения и дообучения системы.- Robot 5 - a module that downloads the contents of links from the Internet to create sets of documents for training and further training the system.

Модуль 1 кэш-прокси-сервера выполнен в виде вычислительного блока, производящего анализ НТТР-трафика локальной сети с целью кэширования для повышения эффективности доступа пользователей локальной сети к Интернету за счет сокращения среднего времени доступа к Интернет-ресурсам. Для взаимодействия прокси-сервера и системы фильтрации трафика используется протокол ICAP в силу того, что он является логическим расширением протокола HTTP и добавляет минимальное количество избыточной информации к анализируемым HTTP-запросам и ответам. Основная идея взаимодействия кэш-прокси-сервера и системы фильтрации трафика с использованием протокола ICAP заключается в следующем: ICAP кэш-прокси-сервер содержит встроенный ICAP-клиент, перенаправляющий новые HTTP-запросы и ответы пользователей на ICAP-сервер, встроенный в ядро системы фильтрации трафика. Кэш-прокси-сервер не делает различий между типами анализируемого HTTP-трафика и перехватывает как входящий, так и исходящий трафик. Исходящий трафик перехватывается на этапе фильтрации запроса пользователя. В этом случае система осуществляет фильтрацию на основе IP-адреса или домена машины, к которой адресован запрос, либо на основе содержимого запроса, используя методы классификации.Cache proxy server module 1 is designed as a computing unit that analyzes the HTTP network traffic of a local network with the goal of caching to increase the efficiency of local network users access to the Internet by reducing the average access time to Internet resources. ICAP is used for the interaction of the proxy server and the traffic filtering system because it is a logical extension of the HTTP protocol and adds a minimal amount of redundant information to the analyzed HTTP requests and responses. The main idea of interaction between the cache proxy server and the traffic filtering system using ICAP is as follows: ICAP cache proxy server contains an integrated ICAP client that redirects new HTTP requests and user responses to the ICAP server integrated into the filtering system core traffic. The cache proxy server does not distinguish between the types of HTTP traffic being analyzed and intercepts both incoming and outgoing traffic. Outgoing traffic is intercepted during the filtering phase of the user request. In this case, the system performs filtering based on the IP address or domain of the machine to which the request is addressed, or based on the contents of the request, using classification methods.

Модуль 2 ядро является центральным элементом системы и выполнен в виде вычислительного блока, осуществляющего:The module 2 core is the central element of the system and is made in the form of a computing unit that implements:

1. Контроль процесса фильтрации входящего и исходящего трафика, а именно, идентификация того, кто запрашивает информацию; хранение каждого запроса в базе знаний; передача запросов модулю принятия решений, сохранение результатов классификации и модуля принятия решений в базе знаний.1. Monitoring the filtering process of incoming and outgoing traffic, namely, identification of the one who requests the information; storage of each request in the knowledge base; transfer of requests to the decision-making module, saving the classification results and the decision-making module in the knowledge base.

2. Предоставление API для других модулей, а именно, API для сохранения ссылок, полученных с помощью анализа классификатором содержимого ресурса; API для модуля принятия решений, который может запросить дополнительную информацию о ресурсах, пользователях или статистике.2. Providing an API for other modules, namely, an API for storing links received through analysis by a resource content classifier; An API for a decision module that can request additional information about resources, users, or statistics.

3. Организация работы с базой знаний и предоставление интерфейса базы знаний, которая позволяет пользователям и администраторам системы смотреть статистику и настраивать систему.3. Organization of work with the knowledge base and the provision of a knowledge base interface that allows users and system administrators to view statistics and configure the system.

4. Идентификация того, кто запрашивает информацию, а именно, идентификацию по IP-адресу или идентификацию с помощью LDAP и других протоколов.4. Identification of the one who requests information, namely, identification by IP address or identification using LDAP and other protocols.

5. Хранение белых списков разрешенных доменов и IP-адресов, черных списков запрещенных доменов и IP-адресов, хранение информации о пользователях системы и их правах для различных категорий ресурсов.5. Storage of white lists of allowed domains and IP addresses, black lists of prohibited domains and IP addresses, storage of information about users of the system and their rights for various resource categories.

Каждый пользователь может принадлежать к одной или нескольким группам. Каждому пользователю или группе назначается белый и черный список разрешенных и запрещенных доменов и IP-адресов, а также список разрешенных и запрещенных категорий ресурсов. Для идентификации ресурса используется его URL. Поэтому каждый запрос однозначно идентифицируется временем запроса, пользователем, который его запросил, и URL ресурса. Для совместимости с другими компонентами используется XML-RPC-протокол, чтобы писать компоненты на разных языках и размещать их на разных физических машинах. В ядро встроен ICAP-сервер, получающий и фильтрующий запросы от кэш-прокси-сервера.Each user can belong to one or several groups. Each user or group is assigned a white and black list of allowed and forbidden domains and IP addresses, as well as a list of allowed and forbidden resource categories. To identify a resource, its URL is used. Therefore, each request is uniquely identified by the time of the request, the user who requested it, and the URL of the resource. For compatibility with other components, the XML-RPC protocol is used to write components in different languages and place them on different physical machines. An ICAP server is built into the kernel, which receives and filters requests from the cache proxy server.

Модуль 3 модуля принятия решений выполнен в виде вычислительного блока, осуществляющего анализ данных, поступающих в ядро, и принятие решения, разрешить или блокировать тем или иным пользователям доступ к запрашиваемому Интернет-ресурсу. Модуль принятия решений работает в два этапа:Module 3 of the decision-making module is made in the form of a computing unit that analyzes the data entering the kernel and makes a decision to allow or block access to the requested Internet resource for one or another user. The decision module works in two stages:

1. Анализ и фильтрация запросов, поступающих от пользователей. На этом этапе ядро передает модулю принятий решений следующую информацию: IP-адрес машины, с которой запрашивается ресурс, URL ресурса и метаинформация о ресурсе, т.е. все заголовки, полученные из HTTP-запроса. Используя эту информацию, модуль пытается принять решение. Решение на этом этапе может быть принято, если, например, домен запрашиваемого ресурса попал в белый или черный список для текущего пользователя или если категории ресурса были определены ранее.1. Analysis and filtering of requests from users. At this stage, the kernel transmits the following information to the decision-making module: IP-address of the machine from which the resource is requested, resource URL and meta-information about the resource, i.e. All headers received from the HTTP request. Using this information, the module is trying to make a decision. A decision at this stage can be made if, for example, the domain of the requested resource is in the white or black list for the current user or if the resource categories have been previously determined.

2. Если этой информации недостаточно для принятия решения, модуль принятия решений запрашивает содержимое ресурса. Ядро перенаправляет этот запрос кэш-прокси-серверу, который загружает ресурс из Интернета и передает содержимое ядру. Ядро вызывает метод модуля принятий решений, отвечающий за фильтрацию содержимого. Вместе с содержимым передается информация о пользователе, сайте ресурса, дополнительные метаданные, такие как тип содержимого ресурса, дата последней модификации и другие метаданные, полученные из HTTP-ответа. Для получения информации о категориях ресурса модуль принятия решений может обратиться к модулю разбора и классификации.2. If this information is not enough to make a decision, the decision module requests the content of the resource. The kernel redirects this request to the cache proxy server, which downloads the resource from the Internet and transfers the contents to the kernel. The kernel calls the decision module method, which is responsible for filtering content. Along with the content, information is transmitted about the user, the resource’s site, additional metadata, such as the type of resource’s content, the date of the last modification, and other metadata received from the HTTP response. To obtain information about the categories of the resource, the decision-making module may refer to the parsing and classification module.

На фиг.1 показаны информационные входы 1 и 2, на которые подаются текущий анализируемый документ и обучающий набор документов, настроечный вход 3 для задания администратором параметров работы системы, а также информационные выходы 4 и 5 с результатами классификации и решением о блокировании или разрешении ресурса.Figure 1 shows the information inputs 1 and 2, which are fed the current analyzed document and a training set of documents, tuning input 3 for the administrator to set the system operation parameters, as well as information outputs 4 and 5 with the classification results and the decision to block or allow the resource.

Модуль 4 разбора и классификации многотемных гипертекстовых документов выполнен в виде вычислительного блока и состоит из трех основных компонент (фиг.2):Module 4 parsing and classification of multi-dark hypertext documents is made in the form of a computing unit and consists of three main components (figure 2):

1. компонент лексического анализа (парсер) 6 - осуществляет разбор, выделение признаков и преобразование гипертекстовых документов во внутреннее представление;1. lexical analysis component (parser) 6 - parses, highlights features and converts hypertext documents into an internal representation;

2. компонент вычисления меры сходства 7 - определяет значения близости между документами на основе выданного парсером представления и осуществляет кэширование этих значений;2. component for calculating the similarity measure 7 - determines the proximity values between documents based on the presentation issued by the parser and caches these values;

3. классификатор 8 - строит дообучаемую модель классификации и на ее основе осуществляет классификацию многотемных гипертекстовых документов.3. Classifier 8 - builds a retraining classification model and, on its basis, classifies multi-dark hypertext documents.

Парсер осуществляет разбор гипертекстовых документов на поток лексем. Лексемы, встречающиеся в обучающей коллекции документов, сохраняются в словаре. В нем устанавливается отображение строкового представления признака на номер признака в векторном представлении, а также собирается статистика о частоте вхождений слов в обучающий набор. Также компонент лексического анализа осуществляет фильтрацию стоп-слов, выделение гиперссылок в документах и преобразование их в лексемы специального вида. На выход парсер подает идентификаторы встречающихся в документе лексем (соответствие между лексемами и их идентификаторами устанавливается в словаре), а также заменяет каждую встречающуюся гиперссылку на список идентификаторов, соответствующий темам документа, находящегося по этой ссылке.The parser parses hypertext documents to a stream of tokens. Tokens found in the training collection of documents are stored in the dictionary. It sets the mapping of the string representation of the attribute to the attribute number in the vector representation, as well as statistics on the frequency of occurrences of words in the training set. The lexical analysis component also filters stop words, selects hyperlinks in documents and converts them into special tokens. The parser outputs the identifiers of the tokens found in the document (the correspondence between the tokens and their identifiers is established in the dictionary), and also replaces each encountered hyperlink with a list of identifiers corresponding to the topics of the document located at this link.

Архитектура парсера состоит из пяти основных модулей (фиг.3), соответствующих этапам преобразования документа: преобразователь кодировок, лексический анализатор, фильтр стоп-слов, модуль выделения признаков и агрегатор. Парсер работает по принципу конвейера: каждый документ последовательно «проходит» через все его модули и в результате преобразуется во внутренне представление.The parser architecture consists of five main modules (Fig. 3), corresponding to the stages of document conversion: encoding converter, lexical analyzer, stop-word filter, feature extraction module and aggregator. The parser works on the principle of a pipeline: each document sequentially "passes" through all its modules and as a result is converted into an internal representation.

Преобразователь кодировок распознает кодировку документа и осуществляет ее преобразование в кодировку UTF-8. На вход он получает исходный HTML-документ в виде байтового потока, на выходе выдает документ в виде потока байт, но уже приведенный к нужной кодировке.The encoding converter recognizes the encoding of the document and converts it to UTF-8 encoding. At the input, it receives the source HTML document in the form of a byte stream; at the output, it issues the document in the form of a byte stream, but already converted to the desired encoding.

Лексический анализатор осуществляет разбор структуры HTML-документов (выделение тегов, ссылок, специальной разметки), чтобы в результате получить представление документа в виде потока слов, которые отображаются в браузере. Получая от преобразователя кодировок байтовый поток в кодировке UTF-8, лексический анализатор распознает встречающие теги и выделяет теги BASE (в которых содержится полный путь к файлам), а также ссылки на другие документы. Эти теги удаляются из потока, обрабатываются отдельно и затем снова записываются в поток. Также лексический анализатор удаляет другие элементы разметки HTML-документов и знаки препинания. Результатом работы этого компонента является преобразование документа в виде потока слов.The lexical analyzer parses the structure of HTML documents (highlighting tags, links, special markup) in order to obtain a representation of the document as a stream of words that are displayed in the browser. Receiving a UTF-8 encoded byte stream from the encoding converter, the lexical analyzer recognizes meeting tags and selects BASE tags (which contain the full path to the files), as well as links to other documents. These tags are removed from the stream, processed separately, and then written back to the stream. The lexical analyzer also removes other markup elements of HTML documents and punctuation marks. The result of this component is the transformation of the document as a stream of words.

Задачей фильтра стоп-слов является удаление всех стоп-слов из полученного после работы лексического анализатора потока данных.The task of the stop word filter is to remove all stop words from the data stream obtained after the lexical analyzer works.

В модуле выделения признаков происходит преобразование потока слов в поток соответствующих лексем. В качестве метода выделения признаков используется выделение базовых словоформ на основе стемминга и метод N-грамм. Слова по очереди выделяются из потока, преобразуются соответствующим образом в набор лексем, затем устанавливается соответствие этих лексем с идентификаторами в словаре и номера лексем (идентификаторы) записываются в выходной поток с сохранением порядка следования. В результате на выходе модуля выделения признаков получается поток идентификаторов. Каждому признаку в словаре выделяется свой номер, который в дальнейшем играет роль индекса данного признака в векторе признаков.In the feature extraction module, the word stream is converted to the corresponding token stream. As a method for distinguishing features, the basic stemming based on stemming and the N-gram method are used. Words are selected in turn from the stream, converted accordingly into a set of tokens, then the correspondence of these tokens with the identifiers in the dictionary is established and the numbers of tokens (identifiers) are recorded in the output stream with preservation of the sequence. As a result, an identifier stream is obtained at the output of the feature extraction module. Each feature in the dictionary is allocated its own number, which subsequently plays the role of the index of this feature in the feature vector.

Агрегатор получает преобразованные гиперссылки, выделенные модулем лексического анализа (преобразование происходит вне этого модуля). На данном этапе гиперссылки представлены в виде наборов специальных идентификаторов, соответствующих тематикам данной ссылки. Эти идентификаторы вставляются в основной поток, причем они вставляются в те места преобразованного текста, которое занимали соответствующие ссылки в исходном документе. Полученный на выходе агрегатора поток идентификаторов признаков является результатом работы парсера, и этот поток далее используется при вычислении меры сходства между документами.The aggregator receives converted hyperlinks highlighted by the lexical analysis module (conversion takes place outside this module). At this stage, hyperlinks are presented in the form of sets of special identifiers corresponding to the topics of this link. These identifiers are inserted into the main stream, and they are inserted into those places of the transformed text that occupied the corresponding links in the source document. The stream of attribute identifiers received at the output of the aggregator is the result of the parser, and this stream is then used to calculate the measure of similarity between documents.

Компонент вычисления меры сходства (фиг.4) определяет значения близости между документами на основе выданного парсером представления (в виде последовательности идентификаторов признаков) и осуществляет кэширование вычисленных значений близости с целью повышения скорости обучения и классификации. Алгоритм вычисления меры сходства основан на модели представления в виде векторов частотных характеристик признаков. В качестве метода выделения признаков документов используется метод, основанный на расширении традиционной векторной модели представления за счет добавления частых комбинаций признаков. Близость между документами оценивается на основе скалярного произведения между соответствующими векторами частотных характеристик признаков. При вычислении частотных характеристик признаков учитывается не только частота встречаемости признака в данном документе, но и частота появления признака во всей коллекции документов.The component for calculating the similarity measure (Fig. 4) determines the proximity values between documents based on the presentation issued by the parser (as a sequence of identifiers of attributes) and caches the calculated proximity values in order to increase the learning speed and classification. The algorithm for calculating the measure of similarity is based on a representation model in the form of vectors of frequency characteristics of features. The method based on the extension of the traditional vector representation model by adding frequent combinations of features is used as a method for distinguishing features of documents. The proximity between the documents is estimated based on the scalar product between the corresponding vectors of the frequency characteristics of the attributes. When calculating the frequency characteristics of signs, not only the frequency of occurrence of the characteristic in this document is taken into account, but also the frequency of occurrence of the characteristic in the entire collection of documents.

Компонент вычисления меры сходства имеет два режима работы: режим обучения и режим классификации.The component for calculating the similarity measure has two operating modes: a training mode and a classification mode.

В режиме обучения компонент принимает на вход тренировочный набор для алгоритма классификации, предварительно преобразованный парсером HTML-документов. Во время обучения происходит построение векторов признаков для документов тренировочного набора и вычисление весов признаков на базе метода TF-IDF. После обучения, вся информация, необходимая для последующей классификации документов (а именно, вычисленные вектора признаков тренировочного набора), сохраняется в контексте обучения. Компонент вычисления меры сходства также поддерживает кэширование для повышения скорости обучения.In the training mode, the component receives a training set for the classification algorithm, previously transformed by the HTML document parser. During training, the construction of feature vectors for training set documents and the calculation of feature weights based on the TF-IDF method are performed. After training, all the information necessary for the subsequent classification of documents (namely, the computed vectors of training set attributes) is stored in the context of training. The similarity measure component also supports caching to improve learning speed.

При работе в режиме классификации компонент использует сохраненные вектора тренировочного набора, чтобы «сравнивать» с ними поступающие документы. При этом для каждого поступающего документа модуль производит вычисление значений близости только один раз и сохраняет эти значения перед подачей классификатору, за счет чего достигается выигрыш в скорости классификации.When working in the classification mode, the component uses the saved training set vectors to “compare” incoming documents with them. At the same time, for each incoming document, the module calculates the proximity values only once and saves these values before submitting it to the classifier, thereby achieving a gain in the classification speed.

Работа классификатора основана на методе классификации многотемных документов на основе декомпозиции в набор бинарных проблем типа «каждый-против-каждого». Классификатор строит дообучаемую модель классификации и на ее основе осуществляет классификацию многотемных гипертекстовых документов. Классификатор использует результаты вычисления меры сходства. Классификатор имеет четыре основных внешних интерфейса: обучение, дообучение, классификация и удаление темы.The work of the classifier is based on the method of classifying multi-dark documents on the basis of decomposition into a set of binary problems of the “every-against-every” type. The classifier builds a retraining classification model and, on its basis, classifies multi-dark hypertext documents. The classifier uses the results of calculating the measure of similarity. The classifier has four main external interfaces: training, further training, classification and removal of topics.

Модель классификации, которую строит классификатор, состоит из следующих элементов:The classification model that the classifier builds consists of the following elements:

- модель multi-label декомпозиции (multi-label модель);- model of multi-label decomposition (multi-label model);

- набор моделей бинарной классификации (количество моделей зависит от типа декомпозиции);- a set of models of binary classification (the number of models depends on the type of decomposition);

- модель пороговой функции.- threshold function model.

Классификатор имеет модуль композиции/декомпозиции, который осуществляет декомпозицию multi-label проблемы обучения на бинарные подпроблемы в соответствие с подходом попарных сравнений для существенно пересекающихся классов. Информация о декомпозиции на бинарные подпроблемы сохраняется в multi-label модели. Для каждой бинарной подпроблемы обучается бинарная модель классификации. При построении бинарных моделей классификатор использует данные о мерах сходства между документами тренировочного набора. Классификатор также осуществляет обучение пороговой функции и сохраняет ее коэффициенты в модели.The classifier has a composition / decomposition module that decomposes the multi-label problems of learning into binary subproblems in accordance with the approach of pairwise comparisons for substantially overlapping classes. Information on decomposition into binary subproblems is stored in a multi-label model. For each binary subproblem, a binary classification model is trained. When constructing binary models, the classifier uses data on measures of similarity between the documents of the training set. The classifier also provides training for the threshold function and stores its coefficients in the model.

При предсказании тематик новых документов в классификатор передается мера сходства текущего классифицируемого документа со всеми документами из тренировочного набора. Классификатор осуществляет применение построенных бинарных моделей к текущему классифицируемому документу (используя результаты меры сходства), а затем осуществляет композицию предсказанных результатов для оценки степеней принадлежности документа классам. Далее на основе модели пороговой функции классификатор выделяет релевантные для документа классы.When predicting the topics of new documents, a measure of similarity of the current classified document to all documents from the training set is passed to the classifier. The classifier applies the constructed binary models to the current classified document (using the results of the similarity measure), and then composes the predicted results to assess the degrees of belonging of the document to the classes. Then, on the basis of the threshold function model, the classifier selects classes relevant to the document.

Модуль 5 робот выполнен в виде вычислительного блока, осуществляющего загрузку содержимого гиперссылок из Интернета для формирования наборов документов для обучения и дообучения системы. Типичный сценарий работы робота следующий. В начале работы робот добавляет URL-адреса в очередь. Из очереди берется очередной URL адрес. Планировщик принимает решение о времени, когда данный ресурс можно скачать, и при наступлении данного времени, передает задание на скачку многопоточному загрузчику. Многопоточный загрузчик скачивает содержимое из Интернета, записывает необходимую информацию в базу знаний ресурсов, выделяет нужные ссылки и добавляет их в очередь, и процесс повторяется.Module 5, the robot is made in the form of a computing unit that downloads the contents of hyperlinks from the Internet to form sets of documents for training and further training the system. A typical robot operation scenario is as follows. At the beginning of the work, the robot adds the URLs to the queue. The next URL is taken from the queue. The scheduler makes a decision about the time when this resource can be downloaded, and when this time arrives, it transfers the download task to the multithreaded bootloader. A multi-threaded downloader downloads content from the Internet, writes the necessary information to the knowledge base of resources, selects the necessary links and adds them to the queue, and the process repeats.

Источники информации, принятые во внимание при составлении описания заявки:Sources of information taken into account when drawing up the description of the application:

1. Патент US №6745367.1. US patent No. 6745367.

2. Патент WO 2002/005148.2. Patent WO 2002/005148.

3. Патент WO 2006/036170.3. Patent WO 2006/036170.

4. Патент US №6 947 985.4. US patent No. 6 947 985.

Краткое описание чертежей:Brief Description of the Drawings:

1. Фиг.1. Архитектура системы фильтрации трафика.1. Figure 1. The architecture of the traffic filtering system.

2. Фиг.2. Архитектура модуля классификации.2. Figure 2. Classification module architecture.

3. Фиг.3. Общая схема работы парсера.3. Figure 3. The general scheme of the parser.

4. Фиг.4. Общая схема работы компонента вычисления меры.4. Figure 4. The general scheme of the component calculation measure.

Claims

A system for analyzing and filtering Internet traffic based on training methods for classifying the contents of hypertext documents, including a parsing and classification module that converts into internal representation and classification of hypertext documents based on machine learning methods with the possibility of further training to determine the subjects of documents and take into account the reference structure of documents by including topics of documents from the hypertext environment in the presentation of the document; decision-making module, allowing or blocking access to resources based on user and group filtering policies, as well as identified topics of requested hypertext documents; the core of the system, coordinating all operations in the system; a cache proxy server that intercepts requests from the local network and redirects them to the core of the system, and a robot that downloads the contents of resources from the Internet to create sets of documents for training and further training the system.