RU2790330C2 - Method for determination of phishing electronic message - Google Patents

Method for determination of phishing electronic message Download PDF

Info

Publication number
RU2790330C2
RU2790330C2 RU2020131453A RU2020131453A RU2790330C2 RU 2790330 C2 RU2790330 C2 RU 2790330C2 RU 2020131453 A RU2020131453 A RU 2020131453A RU 2020131453 A RU2020131453 A RU 2020131453A RU 2790330 C2 RU2790330 C2 RU 2790330C2
Authority
RU
Russia
Prior art keywords
phishing
email
message
electronic message
model
Prior art date
Application number
RU2020131453A
Other languages
Russian (ru)
Other versions
RU2020131453A (en
RU2020131453A3 (en
Inventor
Никита Дмитриевич Бенькович
Даниил Максимович Ковальчук
Дмитрий Сергеевич Голубев
Роман Андреевич Деденок
Юрий Геннадьевич Слободянюк
Original Assignee
Акционерное общество "Лаборатория Касперского"
Filing date
Publication date
Application filed by Акционерное общество "Лаборатория Касперского" filed Critical Акционерное общество "Лаборатория Касперского"
Priority to RU2020131453A priority Critical patent/RU2790330C2/en
Publication of RU2020131453A publication Critical patent/RU2020131453A/en
Publication of RU2020131453A3 publication Critical patent/RU2020131453A3/ru
Application granted granted Critical
Publication of RU2790330C2 publication Critical patent/RU2790330C2/en

Links

Images

Abstract

FIELD: information security.
SUBSTANCE: method for determination of a phishing electronic message uses at least two machine learning models, while, using the first model, an electronic message is determined as suspicious based on the first type attributes of an intercepted electronic message, and, using the second model, a suspicious electronic message is determined as phishing based on the second type attributes.
EFFECT: increase in the accuracy of determination of a phishing electronic message, reduction in a number of false determinations of a phishing electronic message, reduction in time and resource costs for use of a resource-intensive second machine learning model by preliminary determination of an electronic message as suspicious, using the first model.
7 cl, 4 dwg

Description

Область техникиTechnical field

Изобретение относится к области обеспечения информационной безопасности путем блокирования фишингового электронного сообщения.The invention relates to the field of information security by blocking a phishing email.

Уровень техникиState of the art

Фишинг (англ. phishing) представляет собой противоправные действия, совершаемые с целью вынудить жертву поделиться конфиденциальной информацией, например, паролем или номером кредитной карты. Чаще всего мошенники пытаются обманным путем добиться того, чтобы пользователь посетил фальшивый сайт и ввел на нем свои данные - регистрационное имя, пароль или PIN-код.Phishing is an illegal act carried out in order to force the victim to share confidential information, such as a password or credit card number. Most often, scammers try to trick the user into visiting a fake site and entering their data on it - a login name, password or PIN.

Для привлечения жертвы на сайт-ловушку злоумышленники используют массовую или адресную рассылку электронных сообщений, которые маскируются под сообщения, отправленные коллегой по работе, сотрудником банка или представителем государственного учреждения, но при этом содержат вредоносную ссылку. Текст требует от жертвы перейти по ссылке и немедленно выполнить определенные действия, чтобы избежать опасности или каких-либо серьезных последствий. Другой вариант включает использование вложения в виде файла, где также содержатся вредоносные ссылки либо используются эксплойты для уязвимых приложений для дальнейшей компрометации компьютера пользователя.To attract a victim to a trap site, attackers use mass or targeted mailing of electronic messages that disguise themselves as messages sent by a work colleague, a bank employee, or a representative of a government institution, but at the same time contain a malicious link. The text requires the victim to follow the link and immediately perform certain actions in order to avoid danger or any serious consequences. Another option involves using a file attachment that also contains malicious links or uses exploits for vulnerable applications to further compromise the user's computer.

Пройдя по ссылке, жертва попадает на фишинговый сайт, где ей предлагают «войти в систему», используя свою учетную запись (некоторые мошенники идут еще дальше, требуя отправить им копии документов или фото с удостоверением личности). Если жертва оказывается достаточно доверчивой и соглашается, то переданные данные попадают напрямую к злоумышленникам, которые используют их для кражи конфиденциальной информации или денежных средств.By clicking on the link, the victim is taken to a phishing site, where they are offered to “log in” using their account (some scammers go even further, requiring them to send them copies of documents or a photo with an identity card). If the victim is gullible enough and agrees, then the transmitted data goes directly to the attackers, who use it to steal confidential information or money.

Существуют два основных типа схем обнаружения мошенничества. Первый тип относится к схемам, которые обнаруживают фишинг на основе анализа содержимого целевых веб-страниц, то есть анализа веб-страниц, ссылки на которые находятся в электронном сообщении (или во вложенных документах). Второй тип - это схемы, которые работают непосредственно с содержимым электронных сообщений.There are two main types of fraud detection schemes. The first type refers to schemes that detect phishing based on the analysis of the content of the target web pages, that is, the analysis of web pages that are linked in an email (or in attached documents). The second type are schemes that work directly with the content of electronic messages.

В патентной публикации US 20170085584 A1 описана технология обнаружения фишингового электронного сообщения. На основании сравнения адреса отправителя сообщения с адресом из базы данных легитимных известных отправителей определяют подозрительные письма. Если отправитель отсутствует в базе и степень схожести с легитимным отправителем выше заранее заданного значения, пользователя оповещают о подозрительном электронном сообщении.US Patent Publication 20170085584 A1 describes a technology for detecting a phishing email. Based on the comparison of the address of the sender of the message with the address from the database of legitimate known senders, suspicious letters are determined. If the sender is not in the database and the degree of similarity to the legitimate sender is higher than a predetermined value, the user is notified of a suspicious e-mail.

Хотя описанный выше способ хорошо справляется с задачей распознавания адресных рассылок, имитирующих электронные сообщения от доверенных отправителей, он не позволяет распознать фишинговое сообщение от неизвестных отправителей. К тому же определение фишинга на основании степени схожести доменов может дискредитировать легального отправителя. Вместо этого необходимо применять многоуровневый подход, чтобы уменьшить количество атак и снизить количество ложных определений фишинговых сообщений.Although the method described above does a good job of recognizing targeted mailings that imitate emails from trusted senders, it does not allow you to recognize phishing messages from unknown senders. In addition, the definition of phishing based on the degree of similarity of domains can discredit a legitimate sender. Instead, a layered approach should be taken to reduce the number of attacks and false positives for phishing messages.

Настоящее изобретение позволяет решать задачу обеспечения информационной безопасности путем блокирования фишингового электронного сообщения.The present invention allows solving the problem of ensuring information security by blocking a phishing email message.

Раскрытие изобретенияDisclosure of invention

Изобретение предназначено для обеспечения информационной безопасности путем блокирования фишингового электронного сообщения.The invention is intended to provide information security by blocking a phishing email message.

Технический результат настоящего изобретения заключается в определении фишингового электронного сообщения. Другой технический результат настоящего изобретения заключается в уменьшении количества ложных определений фишингового электронного сообщения. Еще один технический результат заключается в обеспечении информационной безопасности путем блокирования фишингового электронного сообщения.The technical result of the present invention is to identify a phishing email message. Another technical result of the present invention is to reduce the number of false positives of a phishing email. Another technical result is to ensure information security by blocking a phishing email message.

Данные результаты достигаются с помощью использования способа определения фишингового электронного сообщения на основании использования по меньшей мере двух моделей машинного обучения, при этом с помощью первой модели определяют электронное сообщение как подозрительное, а с помощью второй модели определяют подозрительное электронное сообщение как фишинговое.These results are achieved by using a method for determining a phishing email based on the use of at least two machine learning models, with the first model determining the email as suspicious, and using the second model determining the suspicious email as phishing.

В частном случае реализации способа первую модель заранее обучают на атрибутах электронных сообщений, к которым относят по меньшей мере: значение заголовка электронного сообщения Message_ID; значение заголовка электронного сообщения X-mailer; последовательность значений заголовков электронного сообщения.In a particular case of the implementation of the method, the first model is trained in advance on the attributes of electronic messages, which include at least: the value of the header of the electronic message Message_ID; X-mailer email header value; sequence of e-mail header values.

Еще в одном частном случае реализации способа электронное сообщение, определенное как подозрительное, дополнительно помещают во временный карантин.In yet another particular case of the implementation of the method, an electronic message identified as suspicious is additionally placed in a temporary quarantine.

В другом частном случае реализации способа вторую модель заранее обучают на атрибутах электронных сообщений, к которым относят по меньшей мере: репутацию множества ссылок, которая характеризует вероятность того, что электронное сообщение содержит фишинговую ссылку; категорию электронного сообщения; флаг присутствия домена отправителя в заранее сформированной базе нежелательных отправителей; флаг присутствия домена отправителя в заранее сформированной базе известных отправителей; степень схожести домена отправителя с доменами в заранее сформированной базе известных отправителей; флаг наличия HTML-кода в теле электронного сообщения; флаг наличия скриптовых вставок в теле электронного сообщения.In another particular case of the implementation of the method, the second model is trained in advance on the attributes of electronic messages, which include at least: the reputation of a set of links, which characterizes the probability that the electronic message contains a phishing link; the category of the email message; the presence flag of the sender's domain in a pre-formed database of unwanted senders; the presence flag of the sender's domain in a pre-formed database of known senders; the degree of similarity of the sender's domain with domains in a pre-formed database of known senders; flag for the presence of HTML-code in the body of the e-mail; flag for the presence of scripted inserts in the body of the e-mail.

Еще в одном частном случае реализации способа репутацию множества ссылок вычисляют с помощью рекуррентной нейронной сети.In another particular case of implementing the method, the reputation of a set of links is calculated using a recurrent neural network.

В другом частном случае реализации способа в качестве категории электронного сообщения используют N-граммы текста электронного сообщения, определенные путем отбора наиболее важных признаков, сильнее всего влияющих на результат бинарной классификации фишингового электронного сообщения.In another particular case of the implementation of the method, N-grams of the text of the electronic message are used as the category of the electronic message, determined by selecting the most important features that most strongly affect the result of the binary classification of the phishing electronic message.

Еще в одном частном случае реализации способа классификацию фишингового электронного сообщения выполняют на основании алгоритма логистической регрессии с регуляризацией.In another particular case of the implementation of the method, the classification of a phishing email message is performed based on the logistic regression algorithm with regularization.

В другом частном случае реализации способа в качестве алгоритма машинного обучения второй модели выступает по меньшей мере: байесовские классификаторы; логистическая регрессия; модифицированный алгоритм обучения случайного леса; метод опорных векторов; методы ближайших соседей; дерево принятия решений.In another particular case of the implementation of the method as a machine learning algorithm of the second model is at least: Bayesian classifiers; logistic regression; modified random forest learning algorithm; support vector method; nearest neighbor methods; decision tree.

Еще в одном частном случае реализации способа дополнительно обеспечивают информационную безопасность путем по меньшей мере: блокирования фишингового электронного сообщения; информирования получателя о фишинговом характере электронного сообщения; помещения идентификатора фишингового электронного сообщения в базу данных вредоносных сообщений.In another particular case, the implementation of the method additionally provide information security by at least: blocking a phishing email message; informing the recipient about the phishing nature of the electronic message; placing the identifier of the phishing email in the database of malicious messages.

Краткое описание чертежейBrief description of the drawings

Фиг. 1 иллюстрирует пример системы, предназначенной для сбора и хранения атрибутов электронного сообщения.Fig. 1 illustrates an example system for collecting and storing email message attributes.

Фиг. 2 иллюстрирует пример системы, реализующей способ определения фишингового электронного сообщения.Fig. 2 illustrates an example system implementing a method for detecting a phishing email.

Фиг. 3 иллюстрирует способ определения фишингового электронного сообщения.Fig. 3 illustrates a method for detecting a phishing email.

Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер.Fig. 4 represents an example of a general purpose computer system, a personal computer or a server.

Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.Although the invention may have various modifications and alternative forms, the characteristic features shown by way of example in the drawings will be described in detail. It should be understood, however, that the purpose of the description is not to limit the invention to a particular embodiment thereof. On the contrary, the purpose of the description is to cover all changes, modifications, included in the scope of this invention, as defined by the attached claims.

Описание вариантов осуществления изобретенияDescription of embodiments of the invention

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.The objects and features of the present invention, methods for achieving these objects and features will become apparent by reference to exemplary embodiments. However, the present invention is not limited to the exemplary embodiments disclosed below, but may be embodied in various forms. The gist of the description is nothing but the specific details necessary to assist a person skilled in the art in a thorough understanding of the invention, and the present invention is defined within the scope of the appended claims.

Фиг. 1 иллюстрирует пример системы, предназначенной для сбора и хранения атрибутов электронного сообщения.Fig. 1 illustrates an example system for collecting and storing email message attributes.

Структурная схема примера системы, предназначенной для сбора и хранения атрибутов электронного сообщения, содержит коммуникационную сеть 100, устройство пользователя 110, электронное сообщение 111, атрибуты №1140, агент 120, устройство хранения данных 130, Модель №1150.A block diagram of an exemplary system for collecting and storing attributes of an electronic message contains a communication network 100, a user device 110, an electronic message 111, attributes #1140, an agent 120, a data storage device 130, Model #1150.

Коммуникационная сеть 100 представляет собой систему физических каналов связи, реализующую протокол передачи электронного сообщения 111 между терминальными устройствами, а также передачу атрибутов №1140 устройству хранения данных 130.The communication network 100 is a system of physical communication channels that implements a protocol for transmitting an electronic message 111 between terminal devices, as well as transmitting attributes No. 1140 to a data storage device 130.

Электронное сообщение 111 имеет определенную структуру. Оно содержит тело (англ. body) и заголовки (англ. header) - служебную информацию о маршруте прохождения писем. К примеру, в заголовках представлены данные о том, когда, откуда и по какому маршруту пришло письмо, а также информация, добавляемая к письму различными служебными программами (почтовыми клиентами).The electronic message 111 has a certain structure. It contains the body (eng. body) and headers (eng. header) - service information about the route of the messages. For example, the headers contain data about when, from where and by what route the letter came, as well as information added to the letter by various utility programs (mail clients).

В качестве атрибутов №1140 выступают значения заголовков, относящихся к информации о маршруте прохождения электронного сообщения 111, а также служебная информация, сформированная почтовыми клиентами.As attributes No. 1140 are the values of headers relating to information about the route of the electronic message 111, as well as service information generated by mail clients.

К примеру, в качестве атрибутов №1140 выступает по меньшей мере:For example, attributes #1140 are at least:

• Message_ID - уникальный идентификатор электронного сообщения 111, присваиваемый первым почтовым сервером, который встретится у него на пути;• Message_ID - unique identifier of the electronic message 111, assigned by the first mail server that it meets on the way;

• X-mailer (mailer_name) - значение поля заголовка, в котором почтовый клиент или сервис, с помощью которого было создано электронное сообщение 111, идентифицирует себя;• X-mailer (mailer_name) - the value of the header field in which the mail client or service with which the email 111 was created identifies itself;

• последовательность значений заголовков электронного сообщения 111.• the sequence of values for the headers of the e-mail 111.

Устройство пользователя 110 содержит почтовый клиент и агент 120. С помощью почтового клиента устройство пользователя 110 формирует электронное сообщение 111 и передает его по коммуникационной сети 100, а также принимает электронное сообщение 111 от других устройств.User device 110 includes an email client and an agent 120. Using the email client, user device 110 generates and transmits email 111 over communication network 100 and also receives email 111 from other devices.

Агент 120 перехватывает электронное сообщение 111 по меньшей мере:Agent 120 intercepts email 111 at least:

• отслеживая принимаемый и передаваемый по почтовым протоколам трафик (РОР3, SMTP, IMAP, NNTP);• monitoring traffic received and transmitted via mail protocols (POP3, SMTP, IMAP, NNTP);

• отслеживая файлы в хранилищах почтовых серверов;• keeping track of files in mail server storages;

• отслеживая файлы в хранилищах почтовых клиентов.• keeping track of files in mail client repositories.

Агент 120 определяет атрибуты №1140, содержащиеся в перехваченном электронном сообщении 111, и передает их устройству хранения данных 130 с помощью коммуникационной сети 100.The agent 120 determines the attributes #1140 contained in the intercepted email message 111 and transmits them to the storage device 130 via the communication network 100.

Устройство хранения данных 130 предназначено для сбора, хранения и обработки атрибутов №1140. К примеру, атрибуты №1140 используют для обучения Модели №1150.The data storage device 130 is designed to collect, store and process attributes #1140. For example, attributes #1140 are used to train Model #1150.

В качестве устройства хранения данных 130 выступает облачное хранилище данных, обрабатывающее атрибуты №1140 в так называемом «облаке», где «облако» - модель хранилища, предусматривающая хранение данных в Интернете с помощью поставщика облачных вычислительных ресурсов, который предоставляет хранилище данных как сервис и обеспечивает управление им.The storage device 130 is a cloud storage that processes the attributes of No. 1140 in the so-called "cloud", where "cloud" is a storage model that stores data on the Internet using a cloud computing resource provider that provides data storage as a service and provides managing them.

К примеру, в качестве устройства хранения данных 130 может выступать средство, содержащее систему Kaspersky Security Network (KSN) компании AO «Лаборатория Касперского».For example, the data storage device 130 can be a tool containing the Kaspersky Security Network (KSN) system from Kaspersky Lab JSC.

Фиг. 2 иллюстрирует пример системы, реализующей способ определения фишингового электронного сообщения.Fig. 2 illustrates an example system implementing a method for detecting a phishing email.

Структурная схема системы определения фишингового электронного сообщения содержит электронное сообщение 111, агент 120, устройство хранения данных 130, атрибуты №1140, атрибуты №2200, модель №1150, средство фильтрации 220, модель №2230, средство обеспечения безопасности 240.The block diagram of the phishing email detection system contains an email 111, an agent 120, a storage device 130, attributes #1140, attributes #2200, model #1150, a filtering tool 220, model #2230, a security tool 240.

Агент 120 предназначен для перехвата электронного сообщения 111, определения атрибутов №1140, атрибутов №2200, а также передачи атрибутов №1140 устройству хранения данных 130.Agent 120 is designed to intercept email 111, determine attributes #1140, attributes #2200, and transfer attributes #1140 to storage device 130.

В качестве атрибутов №1140 выступает по меньшей мере:Attributes #1140 are at least:

• значение заголовка электронного сообщения 111 Message_ID;• the value of the email header 111 Message_ID;

• значение заголовка электронного сообщения 111 X-mailer (mailername);e-mail header value 111 X-mailer (mailername);

• последовательность значений заголовков электронного сообщения 111.• the sequence of values for the headers of the e-mail 111.

Модель №1150 предназначена для классификации электронного сообщения 111 на основании атрибутов №1140. Модель №1150 классифицирует электронное сообщение 111 по меньшей мере как:Model #1150 is designed to classify email 111 based on attributes #1140. Model #1150 classifies email 111 as at least:

• подозрительное (к примеру, содержащее спам, вредоносное вложение, фишинговую ссылку);• suspicious (for example, containing spam, malicious attachment, phishing link);

• регулярное.• regular.

В одном из вариантов реализации системы Модель №1150 заранее обучают при помощи атрибутов №1140, переданных на устройство хранения данных 130, таким образом, что Модель №1150 определяет на основании указанных атрибутов признаки, при помощи которых классифицирует электронное сообщение 111 с некоторой вероятностью.In one embodiment of the system, Model #1150 is pre-trained with attributes #1140 transferred to data storage device 130 such that Model #1150 determines, based on the specified attributes, features by which it classifies email 111 with some probability.

К примеру, Модель №1150 может быть основана на методах глубокого обучения (англ. deep learning). В частности, атрибуты №1140 представляют в виде матрицы, где каждый символ атрибута №1140 закодирован вектором чисел фиксированной длины, и подвергают преобразованию с помощью нейронной сети, которая вычисляет степень схожести указанных атрибутов с атрибутами подозрительных сообщений. В качестве признаков выступают преобразованные слоем нейронной сети атрибуты №1140.For example, Model No. 1150 can be based on deep learning methods. Specifically, attributes #1140 are represented as a matrix, where each symbol of attribute #1140 is encoded as a vector of fixed length numbers, and subjected to a neural network transformation that calculates the degree of similarity of said attributes to poison message attributes. The attributes No. 1140 transformed by the layer of the neural network act as features.

Средство фильтрации 220 предназначено для помещения электронного сообщения 111, которое было классифицировано Моделью №1150 как подозрительное, во временный карантин.The filtering tool 220 is designed to put the email 111, which was classified as suspicious by Model #1150, into a temporary quarantine.

В одном из вариантов реализации системы средство фильтрации 220 помещает во временный карантин электронное сообщение 111, степень схожести которого с подозрительным сообщением выше заранее заданного значения (к примеру, 0.7).In one implementation of the system, the filter engine 220 temporarily quarantines an email message 111 that is more similar to a poison message than a predetermined value (eg, 0.7).

Модель №2230 предназначена для классификации подозрительного электронного сообщения на основании атрибутов №2200. Модель №2230 классифицирует подозрительное электронное сообщение по меньшей мере как:Model #2230 is designed to classify a suspicious email based on attributes #2200. Model #2230 classifies a suspicious email as at least:

• фишинговое;• phishing;

• неизвестное.• unknown.

В качестве атрибутов №2 200 выступает по меньшей мере:Attributes #2 200 are at least:

• репутация множества ссылок, которая характеризует вероятность того, что электронное сообщение содержит фишинговую ссылку;• reputation of a set of links, which characterizes the probability that an email contains a phishing link;

• категория электронного сообщения;• category of the electronic message;

• флаг присутствия домена отправителя в заранее сформированной базе нежелательных отправителей;• Flag of presence of the sender's domain in the pre-formed database of unwanted senders;

• флаг присутствия домена отправителя в заранее сформированной базе известных отправителей;• Flag of presence of the sender's domain in the pre-formed database of known senders;

• степень схожести домена отправителя с доменами в заранее сформированной базе известных отправителей;• the degree of similarity of the sender's domain with domains in a pre-formed database of known senders;

• флаг наличия HTML-кода в теле электронного сообщения;• flag of presence of HTML-code in the body of the electronic message;

• флаг наличия скриптовых вставок в теле электронного сообщения.• a flag for the presence of scripted inserts in the body of an electronic message.

В одном из вариантов реализации системы агент 120 вычисляет репутацию множества ссылок с помощью рекуррентной нейронной сети (англ. recurrent neural network, RNN).In one implementation of the system, agent 120 calculates the reputation of a set of links using a recurrent neural network (RNN).

К примеру, агент 120 кодирует строку URL-адреса ссылки как матрицу чисел (в частности, кодирует каждый символ URL-адреса вектором фиксированной длины), а затем передает закодированную строку в рекуррентную нейронную сеть. Сеть извлекает структурные и семантические признаки из URL-адреса, а затем использует функцию активации для вычисления степени схожести извлеченных признаков с аналогичными признаками фишинговых URL-адресов. В результате в качестве репутации ссылки выступает вероятность принадлежности URL-адреса ссылки к фишинговым URL-адресам.For example, agent 120 encodes a link URL string as a matrix of numbers (in particular, encodes each character of the URL as a fixed length vector), and then passes the encoded string to a recurrent neural network. The network extracts structural and semantic features from a URL and then uses an activation function to calculate how similar the extracted features are to those of phishing URLs. As a result, the link reputation is the probability that the link URL belongs to phishing URLs.

Еще в одном из вариантов реализации системы в качестве репутации множества ссылок выступает мера центральной тенденции репутаций множества ссылок.In another implementation of the system, the reputation of a set of links is a measure of the central tendency of the reputations of a set of links.

В одном из вариантов реализации системы в качестве категории электронного сообщения используют N-граммы текста сообщения, определенные путем отбора наиболее важных признаков, сильнее всего влияющих на результат бинарной классификации фишингового электронного сообщения.In one of the implementation options of the system, N-grams of the message text are used as the category of the electronic message, determined by selecting the most important features that most affect the result of the binary classification of the phishing email message.

К примеру, в фишинговых электронных сообщениях часто встречаются триграммы: «аккаунт будет заблокирован», «вы выиграли деньги», «срочно смените пароль», которые взывают к эмоциям получателя.For example, phishing emails often contain trigrams: “account will be blocked”, “you won money”, “change your password urgently”, which appeal to the emotions of the recipient.

Еще в одном из вариантов реализации системы классификацию фишингового сообщения выполняют на основании алгоритма логистической регрессии с регуляризацией.In another embodiment of the system, the classification of a phishing message is performed based on a logistic regression algorithm with regularization.

К примеру, текст сообщения из обучающей выборки разбивают на N-граммы заранее заданной длины. Указанные N-граммы используют в качестве признаков для обучения модели классификации фишингового электронного сообщения на основании алгоритма логистической регрессии с L1-регуляризацией. Применение L1-регуляризации позволяет определить весовой коэффициент каждой N-граммы, который характеризует степень влияния указанной N-граммы на результат классификации. N-граммы, весовой коэффициент которых больше заранее заданного значения (например, больше 0), используют в качестве категории сообщения.For example, the message text from the training sample is divided into N-grams of a predetermined length. These N-grams are used as features to train a phishing email classification model based on a logistic regression algorithm with L1 regularization. The use of L1-regularization allows you to determine the weight coefficient of each N-gram, which characterizes the degree of influence of the specified N-gram on the classification result. N-grams whose weight is greater than a predetermined value (eg, greater than 0) are used as the message category.

В одном из вариантов реализации системы предварительно собирают атрибуты электронных сообщений, относящихся к заранее известному классу сообщений (к примеру, фишинговые). На основании собранных данных обучают Модель №2230 таким образом, чтобы схожие по своим атрибутам электронные сообщения могли быть классифицированы упомянутой моделью с точностью выше заданной.In one embodiment, the system pre-collects attributes of electronic messages belonging to a pre-known class of messages (eg, phishing). Based on the collected data, Model No. 2230 is trained in such a way that electronic messages similar in their attributes can be classified by the mentioned model with an accuracy higher than the specified one.

В качестве алгоритма классификации выступает по меньшей мере один из следующих алгоритмов (или их комбинация):The classification algorithm is at least one of the following algorithms (or a combination thereof):

• байесовские классификаторы (англ. naive bayesian classifier);• Bayesian classifiers (English naive bayesian classifier);

• логистическая регрессия (англ. logistic regression);• logistic regression;

• MRF-классификатор (англ. MRF classifier);• MRF classifier (eng. MRF classifier);

• метод опорных векторов (англ. SVM, support vector machine);• support vector machine (SVM, support vector machine);

• методы ближайших соседей (англ. k-nearest neighbor);• nearest neighbor methods (eng. k-nearest neighbor);

• дерево принятия решений (англ. decision tree).• decision tree.

В одном из вариантов реализации система дополнительно содержит средство обеспечения безопасности 240, предназначенное для обеспечения информационной безопасности.In one embodiment, the system further comprises a security tool 240 for information security.

Обеспечение информационной безопасности включает в себя по меньшей мере:Ensuring information security includes at least:

• блокирование фишингового электронного сообщения;• Blocking a phishing email;

• информирование получателя о фишинговом характере электронного сообщения;• informing the recipient about the phishing nature of the electronic message;

• помещение идентификатора фишингового электронного сообщения в базу данных вредоносных сообщений.• Placing the ID of the phishing email in the database of malicious messages.

К примеру, в качестве средства обеспечения безопасности 240 выступает модуль приложения безопасности компании АО «Лаборатория Касперского» (например, Kaspersky Internet Security).For example, the security tool 240 is a security application module of Kaspersky Lab JSC (eg, Kaspersky Internet Security).

Фиг. 3 иллюстрирует способ определения фишингового электронного сообщения.Fig. 3 illustrates a method for detecting a phishing email.

Структурная схема способа передачи данных системе хранения данных содержит этап 310, на котором определяют электронное сообщение как подозрительное, этап 320, на котором помещают электронное сообщение, определенное как подозрительное, во временный карантин, этап 330, на котором определяют фишинговое электронное сообщение, этап 340, на котором обеспечивают информационную безопасность.The block diagram of the method for transferring data to the storage system includes step 310, which determines the email as suspicious, step 320, which places the electronic message determined as suspicious, in a temporary quarantine, step 330, which determines the phishing email, step 340, which provide information security.

На этапе 310 с помощью Модели №1150 определяют электронное сообщение как подозрительное.At 310, Model #1150 determines the email is suspicious.

На этапе 320 с помощью средства фильтрации 220 помещают электронное сообщение, определенное как подозрительное, во временный карантин.At 320, the filtering engine 220 places the e-mail identified as suspicious into a temporary quarantine.

На этапе 330 с помощью Модели №2230 определяют подозрительное электронное сообщение как фишинговое.At step 330, using Model #2230, the suspicious email message is determined to be phishing.

На этапе 340 с помощью средства обеспечения безопасности 240 обеспечивают информационную безопасность.At step 340, information security is provided by the security tool 240.

Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.Fig. 4 shows an example of a general purpose computer system, a personal computer or a server 20, comprising a central processing unit 21, a system memory 22, and a system bus 23 that contains various system components, including memory associated with the central processing unit 21. The system bus 23 is implemented as any bus structure known from the prior art, which in turn contains a bus memory or bus memory controller, a peripheral bus, and a local bus that is capable of interfacing with any other bus architecture. The system memory contains read-only memory (ROM) 24, random access memory (RAM) 25. The main input/output system (BIOS) 26 contains the basic procedures that ensure the transfer of information between the elements of a personal computer 20, for example, at the time of loading the operating systems using ROM 24.

Персональный компьютер 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.The personal computer 20 in turn comprises a hard disk 27 for reading and writing data, a magnetic disk drive 28 for reading and writing to removable magnetic disks 29 and an optical drive 30 for reading and writing to removable optical disks 31, such as CD-ROM, DVD -ROM and other optical storage media. The hard disk 27, the magnetic disk drive 28, the optical drive 30 are connected to the system bus 23 via the hard disk interface 32, the magnetic disk interface 33, and the optical drive interface 34, respectively. Drives and related computer storage media are non-volatile means of storing computer instructions, data structures, program modules, and other data of the personal computer 20.

Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.The present description discloses an implementation of a system that uses a hard disk 27, a removable magnetic disk 29, and a removable optical disk 31, but it should be understood that other types of computer storage media 56 that are capable of storing data in a computer-readable form (solid-state drives, flash memory cards, digital disks, random access memory (RAM), etc.), which are connected to the system bus 23 through the controller 55.

Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.The computer 20 has a file system 36 where the recorded operating system 35 is stored, as well as additional software applications 37, other program modules 38 and program data 39. The user has the ability to enter commands and information into the personal computer 20 through input devices (keyboard 40, manipulator " mouse" 42). Other input devices (not shown) may be used: microphone, joystick, game console, scanner, etc. Such input devices are typically connected to computer system 20 via serial port 46, which in turn is connected to the system bus, but may be connected in other ways, such as through a parallel port, game port, or universal serial bus (USB). A monitor 47 or other type of display device is also connected to the system bus 23 via an interface such as a video adapter 48. In addition to the monitor 47, the personal computer may be equipped with other peripheral output devices (not shown), such as speakers, a printer, etc. .

Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 4. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.The personal computer 20 is capable of operating in a networked environment, using a network connection to another or more remote computers 49. The remote computer (or computers) 49 are the same personal computers or servers that have most or all of the elements mentioned earlier in the description of the being personal computer 20 shown in FIG. 4. Other devices may also be present in the computer network, such as routers, network stations, peering devices, or other network nodes.

Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключен к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.The network connections may form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks, the personal computer 20 is connected to the local area network 50 via a network adapter or network interface 51. When using networks, the personal computer 20 may use a modem 54 or other means to communicate with a wide area network such as the Internet. Modem 54, which is an internal or external device, is connected to system bus 23 via serial port 46. It should be clarified that network connections are only exemplary and are not required to represent the exact network configuration, i. in fact, there are other ways to establish a connection by technical means of communication from one computer to another.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой.In conclusion, it should be noted that the information given in the description are examples that do not limit the scope of the present invention defined by the formula.

Claims (26)

1. Способ определения фишингового электронного сообщения на основании использования по меньшей мере двух моделей машинного обучения, при этом с помощью первой модели определяют электронное сообщение как подозрительное на основании атрибутов первого типа перехваченного электронного сообщения, к которым относят по меньшей мере: 1. A method for determining a phishing email message based on the use of at least two machine learning models, wherein the first model determines the email message as suspicious based on the attributes of the first type of intercepted email message, which include at least: значение заголовка электронного сообщения Message_ID; the value of the message header Message_ID; значение заголовка электронного сообщения X–mailer; X-mailer e-mail header value; последовательность значений заголовков электронного сообщения, a sequence of email header values, а с помощью второй модели определяют подозрительное электронное сообщение как фишинговое на основании атрибутов второго типа, к которым относят по меньшей мере: and using the second model, determine the suspicious email message as phishing based on attributes of the second type, which include at least: репутацию множества ссылок, которая характеризует вероятность того, что электронное сообщение содержит фишинговую ссылку; link score reputation, which measures the likelihood that an email contains a phishing link; категорию электронного сообщения; the category of the email message; флаг присутствия домена отправителя в заранее сформированной базе нежелательных отправителей; the presence flag of the sender's domain in a pre-formed database of unwanted senders; флаг присутствия домена отправителя в заранее сформированной базе известных отправителей; степень схожести домена отправителя с доменами в заранее сформированной базе известных отправителей; the presence flag of the sender's domain in a pre-formed database of known senders; the degree of similarity of the sender's domain with domains in a pre-formed database of known senders; флаг наличия HTML–кода в теле электронного сообщения; flag for the presence of HTML code in the body of the electronic message; флаг наличия скриптовых вставок в теле электронного сообщения.flag for the presence of scripted inserts in the body of the e-mail. 2. Способ по п. 1, по которому электронное сообщение, определенное как подозрительное, дополнительно помещают во временный карантин.2. The method according to claim. 1, in which the electronic message, determined as suspicious, is additionally placed in a temporary quarantine. 3. Способ по п. 1, по которому репутацию множества ссылок вычисляют с помощью рекуррентной нейронной сети.3. The method according to claim 1, wherein the reputation of the set of links is calculated using a recurrent neural network. 4. Способ по п. 1, по которому в качестве категории электронного сообщения используют N–граммы текста электронного сообщения, определенные путем отбора наиболее важных признаков, сильнее всего влияющих на результат бинарной классификации фишингового электронного сообщения.4. The method according to claim 1, according to which N-grams of the text of the electronic message are used as the category of the electronic message, determined by selecting the most important features that most strongly affect the result of the binary classification of the phishing electronic message. 5. Способ по п. 4, по которому классификацию фишингового электронного сообщения выполняют на основании алгоритма логистической регрессии с регуляризацией.5. The method of claim 4, wherein the classification of the phishing email message is performed based on a logistic regression algorithm with regularization. 6. Способ по п. 1, по которому в качестве алгоритма машинного обучения второй модели выступает по меньшей мере:6. The method according to claim 1, in which at least the following acts as a machine learning algorithm of the second model: байесовские классификаторы;Bayesian classifiers; логистическая регрессия;logistic regression; модифицированный алгоритм обучения случайного леса;modified random forest learning algorithm; метод опорных векторов;support vector method; методы ближайших соседей;nearest neighbor methods; дерево принятия решений.decision tree. 7. Способ по п. 1, по которому дополнительно обеспечивают информационную безопасность путем по меньшей мере:7. The method according to claim 1, according to which information security is additionally provided by at least: блокирования фишингового электронного сообщения;blocking phishing email; информирования получателя о фишинговом характере электронного сообщения;informing the recipient about the phishing nature of the electronic message; помещения идентификатора фишингового электронного сообщения в базу данных вредоносных сообщений.placing the identifier of the phishing email in the database of malicious messages.
RU2020131453A 2020-09-24 Method for determination of phishing electronic message RU2790330C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020131453A RU2790330C2 (en) 2020-09-24 Method for determination of phishing electronic message

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020131453A RU2790330C2 (en) 2020-09-24 Method for determination of phishing electronic message

Publications (3)

Publication Number Publication Date
RU2020131453A RU2020131453A (en) 2022-03-24
RU2020131453A3 RU2020131453A3 (en) 2022-04-25
RU2790330C2 true RU2790330C2 (en) 2023-02-16

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158626A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation Detection and categorization of malicious urls
RU2011148263A (en) * 2009-05-26 2013-05-27 Майкрософт Корпорейшн MANAGEMENT OF POTENTIAL-FISHING MESSAGES APPLICABLE TO AUTONOMOUS POSTAL CUSTOMER
US20160344770A1 (en) * 2013-08-30 2016-11-24 Rakesh Verma Automatic Phishing Email Detection Based on Natural Language Processing Techniques
US20190199745A1 (en) * 2016-11-30 2019-06-27 Agari Data, Inc. Using a measure of influence of sender in determining a security risk associated with an electronic message
US20190238571A1 (en) * 2018-01-29 2019-08-01 International Business Machines Corporation Method and system for email phishing attempts identification and notification through organizational cognitive solutions
RU2710739C1 (en) * 2019-03-29 2020-01-10 Акционерное общество "Лаборатория Касперского" System and method of generating heuristic rules for detecting messages containing spam
US20200067861A1 (en) * 2014-12-09 2020-02-27 ZapFraud, Inc. Scam evaluation system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2011148263A (en) * 2009-05-26 2013-05-27 Майкрософт Корпорейшн MANAGEMENT OF POTENTIAL-FISHING MESSAGES APPLICABLE TO AUTONOMOUS POSTAL CUSTOMER
US20120158626A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation Detection and categorization of malicious urls
US20160344770A1 (en) * 2013-08-30 2016-11-24 Rakesh Verma Automatic Phishing Email Detection Based on Natural Language Processing Techniques
US20200067861A1 (en) * 2014-12-09 2020-02-27 ZapFraud, Inc. Scam evaluation system
US20190199745A1 (en) * 2016-11-30 2019-06-27 Agari Data, Inc. Using a measure of influence of sender in determining a security risk associated with an electronic message
US20190238571A1 (en) * 2018-01-29 2019-08-01 International Business Machines Corporation Method and system for email phishing attempts identification and notification through organizational cognitive solutions
RU2710739C1 (en) * 2019-03-29 2020-01-10 Акционерное общество "Лаборатория Касперского" System and method of generating heuristic rules for detecting messages containing spam

Similar Documents

Publication Publication Date Title
Bhowmick et al. Machine learning for e-mail spam filtering: review, techniques and trends
US10834127B1 (en) Detection of business email compromise attacks
Subramaniam et al. Overview of textual anti-spam filtering techniques
Blanzieri et al. A survey of learning-based techniques of email spam filtering
Amayri et al. A study of spam filtering using support vector machines
Carpinter et al. Tightening the net: A review of current and next generation spam filtering tools
Rathod et al. Content based spam detection in email using Bayesian classifier
US20210250369A1 (en) System and method for providing cyber security
JP2009516269A (en) Content-based policy compliance system and method
EP1714201A2 (en) Dynamic message filtering
US10958684B2 (en) Method and computer device for identifying malicious web resources
RU2750643C2 (en) Method for recognizing a message as spam through anti-spam quarantine
Taylor et al. A model to detect spam email using support vector classifier and random forest classifier
Kumar Birthriya et al. A comprehensive survey of phishing email detection and protection techniques
Alkahtani et al. A taxonomy of email SPAM filters
EP4187871A1 (en) System and method for identifying a phishing email
RU2790330C2 (en) Method for determination of phishing electronic message
Mageshkumar et al. Efficient spam filtering through intelligent text modification detection using machine learning
Zhang et al. A behavior-based detection approach to mass-mailing host
RU2763921C1 (en) System and method for creating heuristic rules for detecting fraudulent emails attributed to the category of bec attacks
Banu et al. Detecting phishing attacks using natural language processing and machine learning
Morovati et al. Detection of Phishing Emails with Email Forensic Analysis and Machine Learning Techniques.
Maleki A behavioral based detection approach for business email compromises
Hershkop et al. Identifying spam without peeking at the contents
SINGH A DETALED DTUDY ON EMAIL SPAM FILTERING TECHNIQUES