EA039466B1

EA039466B1 - Method and system for classifying data in order to detect confidential information in a text

Info

Publication number: EA039466B1
Application number: EA201992491A
Authority: EA
Inventors: Алексей Алексеевич ТЕРЕНИН; Маргарита Александровна КОТОВА
Original assignee: Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date: 2019-10-16
Filing date: 2019-11-18
Publication date: 2022-01-31
Also published as: RU2755606C2; RU2019132817A; EA201992491A1; RU2019132817A3; WO2021075998A1

Abstract

The invention relates in general to the field of electronic data processing, and more particularly to methods for classifying data in order to detect confidential information. Claimed is a computerized method for classifying data in order to detect confidential information, which is carried out using at least one processor and comprises the steps of obtaining data presented in text format; processing the obtained data with the aid of machine learning algorithms, wherein each word in the text is assigned a tag corresponding to a set type of confidential information, and wherein a classification matrix is generated for each machine learning algorithm, said matrix being used as the basis on which to calculate an F-score for each type of data; classifying each word in the text on the basis of the tagged texts obtained from each machine learning algorithm and the F-score matrix corresponding to the machine learning algorithms, and generating a summary version of the text with tags assigned; classifying, according to confidentiality classes, the text with tags assigned to each word by comparing all of the tags in the text with set confidential information tags.

Description

Область техникиTechnical field

Настоящее техническое решение, в общем, относится к области вычислительной обработки данных, а в частности, к методам классификации данных для выявления конфиденциальной информации.The present technical solution, in general, relates to the field of computational data processing, and in particular, to methods for classifying data to identify confidential information.

Уровень техникиState of the art

В настоящее время выявление конфиденциальной информации из большого массива данных и последующая ее классификация является приоритетной задачей для многих отраслей. Наиболее широкое применение данных технологий наблюдается в финансовом секторе, где среди больших объемов различных данных необходимо отдельно выявлять и классифицировать конфиденциальную информацию. Для этого используются различные инструменты и технологии, позволяющие так или иначе выявлять конфиденциальную информацию из больших объемов общих данных. Ключевой особенностью в работе таких инструментов является анализ данных с помощью алгоритмов машинного обучения.Currently, the identification of confidential information from a large amount of data and its subsequent classification is a priority for many industries. The most widespread use of these technologies is observed in the financial sector, where among large volumes of various data it is necessary to separately identify and classify confidential information. To do this, various tools and technologies are used to somehow reveal confidential information from large volumes of shared data. A key feature in the operation of such tools is data analysis using machine learning algorithms.

Данные хранятся и обрабатываются в различных автоматизированных системах и файловых ресурсах, имеющих различные уровни конфиденциальности, способы доступа, атрибутивный состав. Проверка на наличие чувствительных данных осуществляется различными инструментами. В связи с этим появилась необходимость создать единое техническое решение, позволяющее с помощью нейронных сетей автоматически обрабатывать большое количество данных и выявлять конфиденциальную информацию. Для этого необходимо обучить искусственный интеллект распознавать содержимое документов, в которых может содержаться конфиденциальная информация. На сегодняшний момент из уровня техники известны решения, направленные на хранение и классификацию данных по заданным пользователем критериям.Data is stored and processed in various automated systems and file resources that have different levels of confidentiality, access methods, and attributive composition. Checking for the presence of sensitive data is carried out by various tools. In this regard, it became necessary to create a single technical solution that allows using neural networks to automatically process a large amount of data and identify confidential information. To do this, it is necessary to train artificial intelligence to recognize the contents of documents that may contain confidential information. At the moment, solutions are known from the prior art that are aimed at storing and classifying data according to user-defined criteria.

Сервис Amazon Macie - сервис, который проводит мониторинг данных, использующий несколько методов автоматической классификации контента, чтобы идентифицировать и расставить приоритеты для конфиденциальных данных и точно определить ценность данных для бизнеса. Сервис распознаёт такую информацию, как персональная информация или интеллектуальная собственность. Одним из методов классификации является классификация по регулярному выражению. Классификация объектов с помощью регулярных выражений основана на конкретных данных или шаблонах данных, которые ищет Amazon Macie при проверке содержимого объектов данных. Amazon Macie предлагает набор управляемых регулярных выражений, каждый из которых имеет определенный уровень риска от 1 до 10. Также Amazon Macie классифицирует объекты с помощью метода опорных векторов.Amazon Macie is a data monitoring service that uses several automatic content classification methods to identify and prioritize sensitive data and pinpoint the business value of the data. The Service recognizes information such as personal information or intellectual property. One classification method is regular expression classification. Classification of objects using regular expressions is based on specific data or data patterns that Amazon Macie looks for when it inspects the contents of data objects. Amazon Macie offers a set of managed regular expressions, each with a specific risk level from 1 to 10. Amazon Macie also classifies objects using support vector machines.

Недостатками данного решения являются отсутствие возможности изменять существующие или добавлять новые регулярные выражения, возможность только включить или отключить поиск любых существующих регулярных выражений, сервис идентифицирует только те объекты, которые подходят под правила. Недостатки использования регулярных выражений заключаются в том, что для каждого вида конфиденциальной информации необходимо прописывать несколько регулярных выражений, которые не учитывают редкие особенности данных или могут быть более общими, например содержать в себе лишние данные.The disadvantages of this solution are the inability to change existing or add new regular expressions, the ability to only enable or disable the search for any existing regular expressions, the service identifies only those objects that match the rules. The disadvantages of using regular expressions are that for each type of confidential information it is necessary to write several regular expressions that do not take into account rare features of the data or may be more general, for example, contain unnecessary data.

Известно решение Google Cloud DLP, обеспечивающее быструю, масштабируемую классификацию и редактирование для чувствительных данных, таких как номера кредитных карт, имена, номера социального страхования, выбранные международные идентификаторы, номера телефонов и учетные данные GCP. Облако DLP классифицирует эти данные, используя более 90 предопределенных детекторов, чтобы идентифицировать шаблоны, форматы и контрольные суммы.The Google Cloud DLP solution is known to provide fast, scalable classification and editing for sensitive data such as credit card numbers, names, social security numbers, selected international identifiers, phone numbers, and GCP credentials. The DLP cloud classifies this data using over 90 predefined detectors to identify patterns, formats, and checksums.

Недостаток данного решения заключается в использовании только регулярных выражений, для каждого вида конфиденциальной информации необходимо прописывать несколько регулярных выражений, которые не учитывают редкие особенности данных или могут быть более общими, например содержать в себе лишние данные.The disadvantage of this solution is the use of only regular expressions, for each type of confidential information it is necessary to write several regular expressions that do not take into account the rare features of the data or may be more general, for example, contain unnecessary data.

Сущность технического решенияThe essence of the technical solution

Заявленное техническое решение предлагает новый подход в области выявления и классификации конфиденциальной информации с помощью создания моделей машинного обучения для обработки большого объема данных.The claimed technical solution offers a new approach in the field of identifying and classifying confidential information by creating machine learning models for processing large amounts of data.

Решаемой технической проблемой или технической задачей является создание нового способа классификации данных, обладающего высокой степенью точности и высокой скоростью распознавания конфиденциальной информации.The technical problem or technical challenge to be solved is to create a new data classification method with a high degree of accuracy and a high speed of recognition of confidential information.

Основным техническим результатом, достигающимся при решении вышеуказанной технической проблемы, является повышение точности классификации конфиденциальной информации.The main technical result achieved in solving the above technical problem is to increase the accuracy of the classification of confidential information.

Дополнительным техническим результатом, достигающимся при решении вышеуказанной технической проблемы, является повышение скорости классификации конфиденциальной информации.An additional technical result achieved by solving the above technical problem is to increase the speed of classifying confidential information.

Заявленные результаты достигаются за счет компьютерно-реализуемого способа классификации данных для выявления конфиденциальной информации, выполняемого с помощью по меньшей мере одного процессора и содержащего этапы, на которых:The claimed results are achieved through a computer-implemented method for classifying data to identify confidential information, performed using at least one processor and comprising the steps of:

получают данные, представленные в текстовом формате;receive data presented in text format;

осуществляют обработку полученных данных с помощью алгоритмов машинного обучения, в ходе которой каждому слову в тексте присваивается тег, соответствующий заданному типу конфиденциаль- 1 039466 ной информации, причем для каждого алгоритма машинного обучения сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных;processing the obtained data using machine learning algorithms, during which each word in the text is assigned a tag corresponding to a given type of confidential information, and for each machine learning algorithm a classification matrix is formed, on the basis of which the F-measure is calculated for each type data;

выполняют классификацию каждого слова в тексте на основе полученных от каждого алгоритма машинного обучения текстов с проставленными тегами и соответствующей алгоритмам машинного обучения матрицы F-мер и формируют итоговый вариант текста с проставленными тегами;classifying each word in the text based on the tagged texts obtained from each machine learning algorithm and the matrix of F-measures corresponding to the machine learning algorithms, and forming the final version of the tagged text;

выполняют классификацию текста с проставленными у каждого слова тегами по классам конфиденциальности на основе сравнения совокупности имеющихся тегов в тексте с заданными тегами конфиденциальной информации.classifying the text with tags for each word according to privacy classes based on a comparison of the totality of available tags in the text with the given tags of confidential information.

В одном из частных вариантов осуществления способа для каждого алгоритма машинного обучения вычисляются показатели F-меры для каждого типа данных.In one particular embodiment of the method, for each machine learning algorithm, F-measure scores are calculated for each type of data.

В другом частном варианте осуществления способа конфиденциальная информация представлена, по меньшей мере, в виде текстовых данных и/или числовых данных.In another particular embodiment of the method, the confidential information is presented at least in the form of textual data and/or numerical data.

Также указанные технические результаты достигаются за счет осуществления системы классификации данных для выявления конфиденциальной информации, которая содержит по меньшей мере один процессор; по меньшей мере одну память, соединенную с процессором, которая содержит машиночитаемые инструкции, которые при их выполнении по меньшей мере одним процессором обеспечивают выполнение вышеуказанного способа.Also, these technical results are achieved through the implementation of a data classification system to identify confidential information, which contains at least one processor; at least one memory coupled to the processor that contains machine-readable instructions that, when executed by the at least one processor, perform the above method.

Описание чертежейDescription of drawings

Признаки и преимущества настоящего изобретения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:The features and advantages of the present invention will become apparent from the following detailed description of the invention and the accompanying drawings, in which:

фиг. 1 иллюстрирует блок-схему выполнения заявленного способа;fig. 1 illustrates a block diagram of the claimed method;

фиг. 2 иллюстрирует пример извлекаемых именованных сущностей;fig. 2 illustrates an example of retrieved named entities;

фиг. 3 иллюстрирует пример архитектуры CRF с Bi-LSTM;fig. 3 illustrates an example of a CRF architecture with Bi-LSTM;

фиг. 4 иллюстрирует пример размеченных данных для обучения моделей;fig. 4 illustrates an example of labeled data for model training;

фиг. 5 иллюстрирует результаты обучения моделей;fig. 5 illustrates the results of model training;

фиг. 6 иллюстрирует результаты обучения моделей;fig. 6 illustrates the results of model training;

фиг. 7 иллюстрирует пример результатов проверки на тестовой выборке;fig. 7 illustrates an example of test results on a test set;

фиг. 8 иллюстрирует общий вид заявленной системы.fig. 8 illustrates a general view of the claimed system.

Осуществление изобретенияImplementation of the invention

В данном техническом решении могут использоваться для ясности понимания работы термины и сокращения, которые будут расшифрованы далее в настоящих материалах заявки.In this technical solution, terms and abbreviations can be used for clarity of understanding of the work, which will be deciphered later in these application materials.

Модель в машинном обучении - совокупность методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.A model in machine learning is a set of artificial intelligence methods, the characteristic feature of which is not the direct solution of a problem, but learning in the process of applying solutions to many similar problems.

AI (Artificial Intelligence) - искусственный интеллект.AI (Artificial Intelligence) - artificial intelligence.

Токен - элемент последовательности из букв или слов или знак препинания.A token is an element of a sequence of letters or words, or a punctuation mark.

Тег - значение, присваиваемое токену.Tag - the value assigned to the token.

Задача теггирования последовательности (sequence labeling problem) - присвоение каждому элементу последовательности (токену) соответствующего тега.The sequence labeling problem is the assignment of a corresponding tag to each element of a sequence (token).

Именованная сущность - это слово или словосочетание, обозначающее предмет или явление определенной категории.A named entity is a word or phrase denoting an object or phenomenon of a certain category.

Named entity recognition, NER - извлечение именованных сущностей - выделение из текста объектов, совокупности объектов и присвоение этим объектам категории, определяющей значение этих объектов (например, ФИО, названия организаций, локации).Named entity recognition, NER - extraction of named entities - selection of objects, collections of objects from the text and assigning to these objects a category that determines the value of these objects (for example, full name, names of organizations, locations).

RNN - сокращение от Recurrent neural network, рекуррентные нейронные сети.RNN is short for Recurrent neural network, recurrent neural networks.

LSTM - сокращение от Long ShortTerm Memory, долгая краткосрочная память - архитектура рекуррентной нейронной сети.LSTM is short for Long Short Term Memory, long short term memory is a recurrent neural network architecture.

Bi-LSTM - сокращение от Bidirectional Long ShortTerm Memory, Двунаправленная Долгая краткосрочная память - архитектура рекуррентной нейронной сети.Bi-LSTM is short for Bidirectional Long ShortTerm Memory. Bidirectional Long Short Term Memory is a recurrent neural network architecture.

NLP - сокращение от Natural Language Processing, обработка естественного языка.NLP is short for Natural Language Processing, natural language processing.

CRF - сокращение от Conditional Random Field, условные случайные поля.CRF is short for Conditional Random Field, conditional random fields.

Word embeddings - векторное представление слов - сопоставление подаваемых на вход модели объектов векторам.Word embeddings - vector representation of words - comparison of objects supplied to the input of the model to vectors.

Заявленный способ (100) классификации данных для выявления конфиденциальной информации, как представлено на фиг. 1, заключается в выполнении ряда последовательных этапов, осуществляемых процессором вычислительного устройства.The claimed method (100) for classifying data to identify sensitive information, as shown in FIG. 1 is to perform a series of sequential steps performed by the processor of a computing device.

Начальным шагом (101) является получение массива данных в текстовом формате. Текстовые данные содержат информацию, которая может представлять собой номера банковских карт, СНИЛС, ОКПО, ОГРН, ИНН, дату, номер паспорта, номер телефона, фамилию, имя, отчество, электронную почту, адрес, должность, адрес сайта и др., не ограничиваясь.The initial step (101) is to receive an array of data in text format. Text data contains information that can be bank card numbers, SNILS, OKPO, OGRN, TIN, date, passport number, phone number, last name, first name, patronymic, email, address, position, website address, etc., without being limited .

Следующим шагом (102) осуществляют обработку полученных данных с помощью алгоритмов машинного обучения, в ходе которой, каждому слову в тексте присваивается тег, соответствующий задан- 2 039466 ному типу конфиденциальной информации, причем для каждой нейронной сети сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных.The next step (102) is processing the received data using machine learning algorithms, during which each word in the text is assigned a tag corresponding to a given type of confidential information, and for each neural network a classification matrix is formed, on the basis of which F is calculated. -measure for each data type.

Для того, чтобы модели могли обрабатывать данные, подаваемые им на вход, необходимо текст представить в форме, понятной, нейронным сетям. Для этого необходимо сопоставить все подаваемые на вход объекты векторам. В заявленном способе для этого используется комбинация векторного представления слов и символов. Комбинация методов вводится для улучшения качества работы модели. Буквы каждого слова в предложении подаются в Bi-LSTM сеть, для того чтобы выявить характеристики слов на символьном уровне. Отдельно создаётся векторное представление слов (token embedding). Затем векторное представление слов и символов конкатенируются, а затем подаются в модель Bi-LSTM+CRF. Стандартным компонентом нейронной сети для решения задач обработки естественного языка являются предобученные векторные представления слов.In order for the models to process the data supplied to them as input, it is necessary to present the text in a form understandable to neural networks. To do this, it is necessary to match all objects supplied to the input with vectors. In the claimed method, a combination of vector representation of words and symbols is used for this. A combination of methods is introduced to improve the performance of the model. The letters of each word in a sentence are fed into the Bi-LSTM network in order to reveal the characteristics of the words at the character level. A vector representation of words (token embedding) is created separately. Then the vector representation of words and characters are concatenated and then fed into the Bi-LSTM+CRF model. The standard component of a neural network for solving natural language processing problems is pre-trained vector representations of words.

Обучение нейронных сетей происходит на заранее размеченных данных. Каждому токену в последовательности ставится в соответствие тег (короткая строка, которая взаимно однозначно соответствуют видам конфиденциальной информации) из предварительно определенного набора тегов. Теги подбираются таким образом, чтобы пользователь мог интуитивно понять, что этот тег обозначает, например, CARD - номер карты, NAME - имя и т.д. Теги пишутся на латинице, для того, чтобы они имели общий вид на всех кодировках. Виды конфиденциальной информации входят в одну из категорий законодательно регулируемых данных, например персональные данные, банковская тайна, коммерческая тайна и т.д.Neural networks are trained on pre-labeled data. Each token in the sequence is assigned a tag (a short string that one-to-one matches types of sensitive information) from a predefined set of tags. Tags are selected in such a way that the user can intuitively understand what this tag means, for example, CARD - card number, NAME - name, etc. Tags are written in Latin, so that they have a common form in all encodings. Types of confidential information are included in one of the categories of legally regulated data, such as personal data, bank secrecy, trade secret, etc.

Для задачи NER есть несколько общих типов сущностей, которые по сути являются тегами. Для определения конфиденциальности документа необходимо умение извлекать следующие сущности: ФИО, дата, должность, почтовый индекс и т.д., не ограничиваясь. Пример извлекаемых именованных сущностей приведен на фиг. 2. Исходный текст токенизируется и тегируется. Для каждого токена есть отдельный тег с разметкой. Теги отделяются от токенов пробелами. Предложения разделены пустыми строками. Набор данных представляет собой текстовый файл или набор текстовых файлов. Набор данных должен быть разбит на три раздела: тренировочные, тестовые и валидационные. Тренировочные используются для обучения сети, а именно для регулировки весов с градиентным спуском. Валидация используется для мониторинга прогресса обучения и более ранней остановки.For the NER task, there are several common entity types that are essentially tags. To determine the confidentiality of a document, it is necessary to be able to extract the following entities: full name, date, position, postal code, etc., without being limited. An example of retrieved named entities is shown in FIG. 2. The source text is tokenized and tagged. Each token has a separate markup tag. Tags are separated from tokens by spaces. The sentences are separated by blank lines. The data set is a text file or a set of text files. The data set should be divided into three sections: training, testing and validation. The training ones are used to train the network, namely to adjust the weights with gradient descent. Validation is used to monitor learning progress and stop early.

Способ обучения нейронных сетей будет раскрыт далее в настоящих материалах заявки.A method for training neural networks will be disclosed later in the present application materials.

Матрица классификации - стандартный инструмент для оценки статистических моделей, в ней отображены вероятности распознавания действительного значения как прогнозируемого для каждого заданного прогнозируемого варианта.A classification matrix is a standard tool for evaluating statistical models and displays the probabilities of recognizing an actual value as a predictor for each given predictor.

На основе классификации тестовых данных вычисляются F-меры. F-мера или (F1-score) представляет собой совместную оценку точности и полноты. Данная метрика вычисляется по следующей формуле: F-мера = 2 * Точность * Полнота / (Точность + Полнота). F-мера вычисляется в каждом алгоритме для каждого вида данных.Based on the classification of the test data, F-measures are calculated. F-score or (F1-score) is a joint score of precision and recall. This metric is calculated using the following formula: F-score = 2 * Precision * Recall / (Precision + Recall). The F-measure is calculated in each algorithm for each kind of data.

Следующим шагом (103) выполняют классификацию каждого слова в тексте на основе полученных от каждой нейронной сети текстов с проставленными тегами и соответствующей нейронным сетям матрицы F-мер и формируют итоговый вариант текста с проставленными тегами.The next step (103) is to classify each word in the text based on the tagged texts received from each neural network and the F-measures matrix corresponding to the neural networks and form the final tagged text.

Набор тегов заранее предопределен. Данный набор формируется для обозначение всех категорий данных, которые необходимо проверить на отнесение к конфиденциальным согласно законодательным, регуляторным, внутренним или иным нормам. Предобработка (векторизация) данных направлена на ускорение и облегчение дальнейшей обработки, а комбинации нескольких нейронных сетей - для повышения точности простановки тегов. Проставляется тот тег, на который с наибольшей вероятностью указывает не менее одной модели. Также модели должны проводить контекстный последовательный анализ, так как адреса, ФИО и некоторые другие типы данных в общем случае состоят из нескольких слов. Для подготовки текста к классификации он токенизируется и тегируется. Для каждого токена есть отдельный тег с разметкой. Теги отделяются от токенов пробелами. Предложения разделены пустыми строками. Итоговый набор данных представляет собой тегированный текстовый файл или набор текстовых файлов.The set of tags is predefined. This set is formed to designate all categories of data that need to be checked for confidentiality in accordance with legislative, regulatory, internal or other standards. Preprocessing (vectorization) of data is aimed at speeding up and facilitating further processing, and combinations of several neural networks - to improve the accuracy of tagging. The tag is affixed to which at least one model points to with the highest probability. Models must also perform contextual sequential analysis, since addresses, full names, and some other data types generally consist of several words. To prepare the text for classification, it is tokenized and tagged. Each token has a separate markup tag. Tags are separated from tokens by spaces. The sentences are separated by blank lines. The resulting data set is a tagged text file or a set of text files.

Для извлечения именованных сущностей в данном решении используется Yargy-парсер. Парсер для разметки - это готовый механизм, который способен извлекать имена, даты, локации, организации и т.д. Для улучшения работы парсера используется существующая библиотека, получившая имя Natasha. Часть готовых правил парсинга уже доступны в библиотеке Natasha. Для текущего решения правила для извлечения сущностей описываются с помощью контекстно-свободных грамматик и словарей, построенных на основе требований, заданных нормативными документами. Например, если существует несколько уровней критичности информации, то перечисляется, какие сущности должны относится к каждому из уровней.To extract named entities, this solution uses the Yargy parser. The markup parser is a ready-made engine that can extract names, dates, locations, organizations, etc. To improve the performance of the parser, an existing library named Natasha is used. Some ready-made parsing rules are already available in the Natasha library. For the current solution, the rules for extracting entities are described using context-free grammars and dictionaries built on the basis of requirements specified by normative documents. For example, if there are several levels of information criticality, then it is listed which entities should belong to each of the levels.

В результате производится разбивка по предложениям, каждому предложению присваивается соответствующий номер. Сопоставляются все имеющиеся символы со словами в предложениях. Теги приводятся к категориальному типу.As a result, a breakdown is made by proposals, each proposal is assigned a corresponding number. All available characters are matched with words in sentences. Tags are cast to a categorical type.

Первый слой модели (Embedding слой) превращает последовательности чисел (слова сопоставили числам) в плотные векторы фиксированного размера. Далее используется оболочка TimeDistributed, что- 3 039466 бы применить слой Embedding к каждой последовательности символов и получить векторное представление слов. Далее векторные представления слов и символов конкатенируются.The first layer of the model (Embedding layer) turns sequences of numbers (words associated with numbers) into fixed-size dense vectors. Next, the TimeDistributed wrapper is used to apply the Embedding layer to each sequence of characters and get a vector representation of the words. Next, vector representations of words and characters are concatenated.

Полученные векторные представления подаются в основной слой модели (Bidirectional). Данный слой рассчитывает вероятности тегов для каждого слова в предложении. Далее эти вероятности подаются в слой CRF, который рассчитывает распределение вероятностей перехода от одного тега к другому.The resulting vector representations are fed into the main layer of the model (Bidirectional). This layer calculates tag probabilities for each word in a sentence. These probabilities are then fed into the CRF layer, which calculates the probability distribution of the transition from one tag to another.

На шаге (104) выполняют классификацию текста с проставленными у каждого слова тегами по классам конфиденциальности на основе сравнения совокупности имеющихся тегов в тексте с заданными тегами конфиденциальной информации.At step (104), the text is classified with tags affixed to each word according to privacy classes based on a comparison of the totality of available tags in the text with the given tags of confidential information.

Подготовленные на шаге (103) данные, используются для анализа и присвоения уровня классификации всего текста. Для этого используются подготовленные таблицы сочетания тегов, определяющих суммарный уровень конфиденциальности всего текста. Уровень конфиденциальности зависит от сочетания тегов, а не только от их наличия.The data prepared in step (103) is used to analyze and assign a classification level to the entire text. To do this, prepared tables of tag combinations are used that determine the total level of confidentiality of the entire text. The level of privacy depends on the combination of tags, not just their presence.

Пример: просто адрес во всем тексте не представляет критичности, а адрес с упоминанием обращающихся денежных средств уже должен классифицироваться с повышенной строгостью. Также, имя классифицирует целую группу людей и не может считаться критичным. Но имя с номером телефона уже персональные данные, которые должны классифицироваться на соответствующем уровне критичности. Если в документе содержится только ФИО, это один уровень, но если кроме ФИО имеется номер телефона и дата рождения, то уровень конфиденциальности документа намного выше. Для корректной классификации важно отслеживать контекст тегируемого словат, то есть оценивать сущности, находящиеся слева и справа. Теги получают приставки: В-, если это первое вхождение тега данного типа, и I-, если продолжение. Пример: апрель [B-Date] 2019 [I-Date] года [I-Date] или 117 [B-Money] миллионов [IMoney].Example: just an address in the entire text does not represent criticality, and an address with a mention of circulating funds should already be classified with increased severity. Also, the name classifies a whole group of people and cannot be considered critical. But a name with a phone number is already personal data that should be classified at the appropriate level of criticality. If the document contains only the full name, this is one level, but if, in addition to the full name, there is a phone number and date of birth, then the level of confidentiality of the document is much higher. For correct classification, it is important to track the context of the tagged word, that is, to evaluate the entities located on the left and right. Tags are prefixed with B- if this is the first occurrence of a tag of this type, and I- if it is a continuation. Example: April [B-Date] 2019 [I-Date] of [I-Date] or 117 [B-Money] million [IMoney].

Рекуррентные нейронные сети (RNN) используются для решения различных задач, включая проблемы обработки естественного языка из-за их способности использовать предыдущую информацию из последовательности для расчета текущего выхода.Recurrent Neural Networks (RNNs) are used to solve a variety of problems including natural language processing problems due to their ability to use previous information from a sequence to calculate the current output.

Чтобы правильно обработать текущее слово в тексте (присвоить тег), необходимо, чтобы сеть основывалась на понимании предыдущего контекста. Значит она должна помнить, какой был текст слева от текущего слова. Традиционные нейронные сети не обладают этим свойством, их нельзя обучить долговременным зависимостям. Рекуррентные нейронные сети помогают решить данную проблему. Они содержат обратные связи, благодаря которым могут передавать информацию от одного шага сети к другому.In order to correctly process the current word in the text (assign a tag), the network needs to be based on an understanding of the previous context. So she must remember what was the text to the left of the current word. Traditional neural networks do not have this property, they cannot be trained for long-term dependencies. Recurrent neural networks help solve this problem. They contain feedback, thanks to which they can transfer information from one step of the network to another.

Однако, несмотря на возможность обучения долговременным зависимостям, на практике модели RNN не работают должным образом и страдают из-за проблемы исчезающего градиента. Данная проблема возникает по причине того, что сигналы об обратно распространяемых ошибках быстро становятся очень маленькими (или наоборот, чрезмерно большими). На практике они уменьшаются экспоненциально с количеством слоев в сети. По этой причине была разработана специальная архитектура RNN под названием долгая краткосрочная память (Long ShortTerm Memory - LSTM), чтобы справиться с исчезающим градиентом. Один повторяющийся модуль LSTM-сети состоит из четырёх слоев. LSTM заменяет скрытые блоки в архитектуре RNN на блоки, называемые блоками памяти, которые содержат четыре компонента: три вида фильтров (входной фильтр, фильтр забывания, выходной фильтр и ячейку памяти (memory cell). Правильное распознавание именованного объекта в предложении зависит от контекста. Предшествующие и последующие слова имеют значение для предсказания тега. Двунаправленные рекуррентные нейронные сети были разработаны для кодирования каждого элемента в последовательность с учетом левого и правого контекстов, что делает их одним из лучших выборов для задачи NER. Двунаправленная модель расчета состоит из двух этапов: прямой слой вычисляет представление левого контекста, обратный слой вычисляет представление правого контекста. Выходы этих шагов объединяются для получения полного представления элемента входной последовательности. Условные случайные поля (Conditional Random Field, CRF) - это ненаправленная вероятностная графическая модель для структурированного предсказания условных вероятностей событий, соответствующих вершинам некоторого графа, при условии наблюдаемых данных. Архитектура CRF с Bi-LSTM, применяемая для реализации способа (100), представлена на фиг. 3.However, despite the ability to learn long-term dependencies, in practice, RNN models do not perform well and suffer from the vanishing gradient problem. This problem occurs because back-propagated error signals quickly become very small (or, conversely, excessively large). In practice, they decrease exponentially with the number of layers in the network. For this reason, a special RNN architecture called Long Short Term Memory (LSTM) was developed to deal with the vanishing gradient. One repeating module of the LSTM network consists of four layers. The LSTM replaces the hidden blocks in the RNN architecture with blocks called memory blocks, which contain four components: three kinds of filters (input filter, forget filter, output filter, and memory cell). Proper recognition of a named object in a sentence depends on the context. and subsequent words are important for tag prediction.Bidirectional recurrent neural networks have been designed to encode each element into a sequence given left and right contexts, making them one of the best choices for the NER task.The bidirectional calculation model consists of two steps: the forward layer computes representation of the left context, the back layer computes the representation of the right context The outputs of these steps are combined to obtain a full representation of the input sequence element Conditional Random Field (CRF) is a non-directional probabilistic graphical model for structured conditional prediction even probabilities of events corresponding to the vertices of some graph, given the observed data. The Bi-LSTM CRF architecture used to implement method (100) is shown in FIG. 3.

В комбинированной модели векторные представления слов (способ получения векторного представления описан в практической части) подаются в двунаправленную нейросеть Bi-LSTM. Эта сеть рассчитывает вероятности тегов для каждого слова в предложении. Пусть для входной последовательности слов (предложения) Х=(х₀, х1,.., x_n) Р - матрица вероятностей, которую выдаёт сеть Bi-LSTM. Эта матрица размером n*k, где k - число различных тегов, a n - длина входящей последовательности. Pi,j - это вероятность, что у i-го слова в предложении тег j. Для последовательности ответов у = {у₀, у1, ..,y_N } score вычисляется по следующей формуле:In the combined model, vector representations of words (the method for obtaining a vector representation is described in the practical part) are fed into the Bi-LSTM bidirectional neural network. This network calculates tag probabilities for each word in a sentence. Let for the input sequence of words (sentence) Х=(х ₀ , x1,.., x _n ) Р - probability matrix, which is produced by the Bi-LSTM network. This matrix is n*k, where k is the number of different tags, an is the length of the input sequence. Pi,j is the probability that the i-th word in the sentence has tag j. For a sequence of answers y = {y ₀ , y1, ..,y _N } score is calculated using the following formula:

Score(X,y) =Σ^₀Α_γυγί+1 +ZAiA,_yi где A_yi,_yi+1 - обозначает вероятность, которая представляет собой оценку перехода от тега i к тегу j, то есть того, что на позиции j=i+1 будет именно тег y_i+1, при условии, что предыдущий тег yi.Score(X,y) =Σ^ ₀ Α _γυγί+1 ₊ _ZAiA , _yi i+1 will be exactly the tag y _i+1 , provided that the previous tag is yi.

- 4 039466- 4 039466

Для повышения точности предсказания слой CRF обучен обеспечивать соблюдение ограничений в зависимости от порядка тегов. Например, в схеме I O B (I - Внутри, О - Другое, В - Начало) тег I никогда не появляется в начале предложения, или O IB O - недопустимая последовательность тегов. Полный набор параметров для этой модели состоит из параметров Bi-LSTM слоев (весовые матрицы, смещения, матрица векторных представлений слов) и матрицы перехода CRF слоя. Все эти параметры настраиваются во время тренировки алгоритма обратного распространения ошибки со стохастическим градиентным спуском.To improve prediction accuracy, the CRF layer is trained to enforce constraints based on tag order. For example, in an I O B schema (I - Inside, O - Other, B - Beginning), the I tag never appears at the beginning of a sentence, or O IB O is an invalid sequence of tags. The complete set of parameters for this model consists of the Bi-LSTM layer parameters (weight matrices, biases, word vector representation matrix) and the CRF layer transition matrix. All these parameters are tuned during training of the stochastic gradient descent backpropagation algorithm.

Далее будет представлен принцип обучения нейронных сетей и оценка качества моделей для целей осуществления заявленного способа.Next, the principle of training neural networks and assessing the quality of models for the purposes of implementing the claimed method will be presented.

На фиг. 4 представлен пример размеченных данных для обучения моделей.In FIG. 4 shows an example of labeled data for training models.

Для обучения моделей необходимо подготовить размеченный датасет с текстом и тегами (фиг. 4). Производится разбивка по предложениям, каждому предложению присваивается соответствующий номер.To train models, it is necessary to prepare a labeled dataset with text and tags (Fig. 4). A breakdown is made by proposals, each proposal is assigned a corresponding number.

Пример: в подготавливаемом тексте 47959 предложений, содержащих 35179 различных слов. Получается 847657 строк в датасете.Example: in the prepared text there are 47959 sentences containing 35179 different words. It turns out 847657 lines in the dataset.

На первом этапе обучения производится разбивка по предложениям, каждому предложению присваивается соответствующий номер. На следующем этапе приводят токены (каждое значение столбца Word на фиг. 4) к векторному виду. Для этого вводятся словари для слов, для символов и для тегов. Слова в предложениях сопоставляются с последовательностью чисел, а затем применяется к числовым последовательностям функцию pad_sequensec(), чтобы привести последовательности к одному размеру. Далее сопоставляются все имеющиеся символы со словами в предложениях, а теги приводятся к категориальному типу.At the first stage of training, a breakdown is made by proposals, each proposal is assigned a corresponding number. At the next stage, the tokens (each value of the Word column in Fig. 4) are brought to a vector form. To do this, dictionaries are introduced for words, for symbols and for tags. Words in sentences are matched against a sequence of numbers, and then the pad_sequensec() function is applied to the number sequences to bring the sequences to the same size. Next, all available characters are compared with words in sentences, and tags are converted to a categorical type.

На следующем этапе разделяется выборка на тренировочную, валидационную и тестовую. Используется пропорции 80% к 10% к 10%.At the next stage, the sample is divided into training, validation and test. The proportions used are 80% to 10% to 10%.

Пример: тренировочная - 38846 предложений, валидационная - 4317 предложений, тестовая - 4796 предложений.Example: training - 38846 sentences, validation - 4317 sentences, test - 4796 sentences.

Следующим этапом обучения идет построение модели. Первым слоем является Embedding слой, задача которого: перевести последовательности чисел (которым сопоставили слова размеченного текста) в плотные векторы фиксированного размера. Таким образом получаем векторное представление слов.The next step in learning is building the model. The first layer is the Embedding layer, whose task is to translate the sequences of numbers (to which the words of the markup text have been assigned) into dense vectors of a fixed size. Thus, we obtain a vector representation of words.

Далее используется оболочка TimeDistributed, чтобы применить слой Embedding к каждой последовательности символов. После приведенной обработки получается векторное представление символов. Далее производится конкатенация векторных представлений слов и символов.Next, the TimeDistributed wrapper is used to apply the Embedding layer to each character sequence. After the above processing, a vector representation of the characters is obtained. Next, the vector representations of words and symbols are concatenated.

На следующем этапе задействуется основной слой модели - Bidirectional. Полученные на предыдущем этапе векторные представления подаются в слой Bidirectional. Данный слой рассчитывает вероятности тегов для каждого слова в предложении. Далее эти вероятности подаются в слой CRF, который рассчитывает распределение вероятностей перехода от одного тега к другому. Все параметры модели (весовые матрицы, смещения, матрица векторных представлений слов и матрица перехода CRF слоя) настраиваются во время тренировки алгоритма обратного распространения ошибки со стохастическим градиентным спуском.At the next stage, the main layer of the model is activated - Bidirectional. The vector representations obtained at the previous stage are fed into the Bidirectional layer. This layer calculates tag probabilities for each word in a sentence. These probabilities are then fed into the CRF layer, which calculates the probability distribution of the transition from one tag to another. All model parameters (weight matrices, biases, word vector representation matrix, and layer CRF transition matrix) are tuned during training of the stochastic gradient descent backpropagation algorithm.

Далее проводится тренировка/обучение модели.Next, the model is trained/trained.

На фиг. 5, 6 представлены результаты обучения Bi-LSTM+CRF модели. Здесь показывается рост точности обучения (accuracy) и рост точности на валидационных данных (validation accuracy) с ростом числа эпох, а также показано как уменьшались потери.In FIG. Figures 5 and 6 show the results of training the Bi-LSTM+CRF model. It shows the increase in training accuracy (accuracy) and the increase in accuracy on validation data (validation accuracy) with an increase in the number of epochs, and also shows how the loss decreased.

На фиг. 7 представлены результаты проверки на тестовой выборке. Сопоставляется текст, который был размечен человеком с результатами разметки, полученными на выходе модели. Качество работы модели определяется тем, насколько близко модель предугадала значение тега или, иными словами, насколько меньше отклонений у результата работы модели от предразмеченных значений тегов. Для оценки качества работы той или иной модели применяются общепринятые методы и метрики оценки качества моделей.In FIG. 7 shows the results of the check on the test sample. The text that was marked up by a person is compared with the markup results obtained at the output of the model. The quality of the model is determined by how closely the model predicted the value of the tag, or, in other words, how much less deviation the result of the model has from the pre-labeled tag values. To assess the quality of work of a particular model, generally accepted methods and metrics for assessing the quality of models are used.

На фиг. 8 представлен пример общего вида вычислительной системы (300), которая обеспечивает реализацию заявленного способа (100) или является частью компьютерной системы, например сервером, персональным компьютером, частью вычислительного кластера, обрабатывающего необходимые данные для осуществления заявленного технического решения.In FIG. 8 shows an example of a general view of a computing system (300), which provides the implementation of the claimed method (100) or is a part of a computer system, for example, a server, a personal computer, a part of a computing cluster that processes the necessary data to implement the claimed technical solution.

В общем случае система (300) содержит объединенные общей шиной информационного обмена один или несколько процессоров (301), средства памяти, такие как ОЗУ (302) и ПЗУ (303), интерфейсы ввода/вывода (304), устройства ввода/вывода (1105) и устройство для сетевого взаимодействия (306).In the general case, the system (300) contains one or more processors (301) connected by a common information exchange bus, memory facilities such as RAM (302) and ROM (303), input/output interfaces (304), input/output devices (1105 ) and a device for networking (306).

Процессор (301) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (300) также необходимо учитывать графический процессор, например GPU NVIDIA или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа (100), а также может применяться для обучения и применения моThe processor (301) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example from manufacturers such as: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™ , Qualcomm Snapdragon™, etc. Under the processor or one of the processors used in the system (300), it is also necessary to take into account the graphics processor, such as NVIDIA GPU or Graphcore, the type of which is also suitable for full or partial execution of the method (100), and can also be used for learning and applying mods.

- 5 039466 делей машинного обучения в различных информационных системах.- 5 039466 machine learning tasks in various information systems.

ОЗУ (302) представляет собой оперативную память и предназначено для хранения исполняемых процессором (301) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (302), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (302) может выступать доступный объем памяти графической карты или графического процессора.RAM (302) is a random access memory and is designed to store machine-readable instructions executable by the processor (301) to perform the necessary data logical processing operations. The RAM (302) typically contains the executable instructions of the operating system and associated software components (applications, program modules, etc.). In this case, the RAM (302) may be the available memory of the graphics card or graphics processor.

ПЗУ (303) представляет собой одно или более устройств постоянного хранения данных, например жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAKD и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.The ROM (303) is one or more persistent storage devices such as a hard disk drive (HDD), a solid state data drive (SSD), flash memory (EEPROM, NAKD, etc.), optical storage media (CD-R/ RW, DVD-R/RW, BlueRay Disc, MD), etc.

Для организации работы компонентов системы (300) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (304). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. Для обеспечения взаимодействия пользователя с вычислительной системой (300) применяются различные средства (305) В/В информации, например клавиатура, дисплей (монитор), сенсорный дисплей, тачпад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.Various types of I/O interfaces (304) are used to organize the operation of system components (300) and organize the operation of external connected devices. The choice of appropriate interfaces depends on the particular design of the computing device, which can be, but not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc. To ensure user interaction with the computing system (300), various means (305) of I/O information are used, for example, a keyboard, a display (monitor), a touch screen, a touchpad, a joystick, a mouse, a light pen, a stylus, a touchpad, a trackball, speakers , microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retinal scanner, fingerprint scanner, voice recognition module), etc.

Средство сетевого взаимодействия (306) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (306) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные, примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.The networking means (306) provides data transmission via an internal or external computer network, such as an Intranet, Internet, LAN, and the like. As one or more means (306) can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and etc. The submitted application materials disclose preferred examples of the implementation of the technical solution and should not be interpreted as limiting other, particular, examples of its implementation that do not go beyond the scope of the requested legal protection, which are obvious to specialists in the relevant field of technology.

Claims

1. A computer-implemented method for classifying data to identify confidential information, performed using at least one processor and comprising the steps of:

receive data presented in text format;

processing the received data using machine learning algorithms, during which each word in the text is assigned a tag corresponding to a given type of confidential information, and for each machine learning algorithm a classification matrix is formed, on the basis of which the F-measure is calculated for each type of data;

classifying each word in the text based on the tagged texts obtained from each machine learning algorithm and the matrix of F-measures corresponding to the machine learning algorithms, and forming the final version of the tagged text;

classifying the text with tags for each word according to privacy classes based on a comparison of the totality of available tags in the text with the given tags of confidential information.

2. The method according to claim 1, characterized in that for each machine learning algorithm, F-measure scores are calculated for each type of data.

3. The method according to claim 1, characterized in that the confidential information is presented at least in the form of textual data and/or numerical data.

4. Data classification system for detecting confidential information, containing at least one processor;

at least one memory connected to the processor, which contains machine-readable instructions, which, when executed by at least one processor, perform the method according to any one of paragraphs. 1-4.

- 6 039466 (101) Data presented in text format is received.

(102) The received data is processed using machine learning algorithms.

(SW)

Perform classification of each word in the text based on step (102).

(104)

The text is classified with tags for each word according to privacy classes.