EA040376B1

EA040376B1 - METHOD FOR OBTAINING LOW-DIMENSIONAL NUMERICAL REPRESENTATIONS OF EVENT SEQUENCES

Info

Publication number: EA040376B1
Application number: EA202092230
Authority: EA
Inventors: Дмитрий Леонидович Бабаев; Никита Павлович Овсов; Иван Александрович Киреев
Original assignee: Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date: 2020-02-14
Filing date: 2020-10-20
Publication date: 2022-05-25

Description

Область техникиTechnical field

Заявленное изобретение относится к области информационных технологий, в частности к способу получения низкоразмерных числовых представлений последовательностей событий.The claimed invention relates to the field of information technology, in particular to a method for obtaining low-dimensional numerical representations of sequences of events.

Уровень техникиState of the art

Создание семантически значимых числовых представлений из огромного количества неразмеченых данных событий жизненного потока является сложной задачей для машинного обучения. Эти предварительно обученные числовые представления извлекают сложную информацию из исходных данных в виде низкоразмерных числовых векторов фиксированной длины и могут быть легко применены в различных последующих задачах машинного обучения в качестве признаков или дообучены под конкретную целевую переменную.Generating semantically meaningful numerical representations from a vast amount of raw lifestream event data is a challenging task for machine learning. These pre-trained numeric representations extract complex information from the input data as low-dimensional, fixed-length numeric vectors and can be easily applied to various subsequent machine learning problems as features or retrained for a specific target variable.

Традиционно для подхода метрического обучения или метрик лернинг (англ. Metric learning) требуются пары объектов, помеченные как похожие, но эти пары часто недоступны для данных жизненного потока событий. Данные о последовательности событий генерируются во многих бизнес-приложениях, некоторые примеры - транзакции по кредитным картам и данные о посещениях интернет-сайтов, а анализ последовательности событий - очень распространенная проблема машинного обучения [1]-[4]. Lifestream - это последовательность событий, которая присваивается человеку и фиксирует его/ее регулярные и рутинные действия определенного типа, например транзакции, поисковые запросы, телефонные звонки и сообщения. Метрик лернинг подход к обучению, лежащий в основе заявленного способа MeLES, широко используется в различных областях, включая такие домены как компьютерное зрение, НЛП и аудио. В частности, метрик лернинг подход к обучению для распознавания лиц был первоначально предложен в [5], где контрастивная функция потерь (англ. contrastive loss) использовалась для обучения функции сопоставления входных данных с их низкоразмерными представления, используя некоторые предварительные знания об отношении похожести между обучающими выборками или ручную разметку. Кроме того, в [6] авторы представили FaceNet, метод, который обучает отображение изображений лиц на 128-мерные представления с использованием функции потери триплет (англ. triplet loss), основанной на классификации ближайших соседей с большим маржином (LMNN) [7]. В FaceNet авторы также представили онлайн-метод выбора троек объектов - триплетов и технику hard-positive и hard-negative майнинга для процедуры обучения.Traditionally, the metric learning or metric learning approach requires pairs of objects marked as similar, but these pairs are often not available for life event data. Event sequence data is generated in many business applications, some examples are credit card transactions and internet site visit data, and sequence of events analysis is a very common machine learning problem [1]-[4]. Lifestream is a sequence of events that is assigned to a person and captures his/her regular and routine activities of a certain type, such as transactions, search queries, phone calls and messages. The metrics learning approach underlying the claimed MeLES method is widely used in various fields, including computer vision, NLP, and audio domains. In particular, a metric learning approach to learning for face recognition was originally proposed in [5], where a contrastive loss function was used to train the function of matching input data to their low-dimensional representations using some prior knowledge of the similarity relationship between trainees. selections or manual markup. In addition, in [6], the authors presented FaceNet, a method that trains face image mapping to 128-dimensional representations using a triplet loss function based on high-margin nearest neighbor classification (LMNN) [7]. In FaceNet, the authors also presented an online method for selecting triplets of objects - triplets and a hard-positive and hard-negative mining technique for the training procedure.

Кроме того, метрик лернинг использовался для задачи распознавания голоса [8], где конрастивная функция потери (contrastive loss) определяется как близость численного представления каждого высказывания к центроиду численных представлений всех высказываний этого говорящего (positive pair - положительная пара) и дальность от центроидов численных представлений высказываний других говорящих, выбранных по наибольшей близости среди всех других говорящих (hard negative pair - жесткая отрицательная пара).In addition, the learning metric was used for the voice recognition problem [8], where the contrastive loss function is defined as the proximity of the numerical representation of each utterance to the centroid of the numerical representations of all utterances of this speaker (positive pair) and the distance from the centroids of the numerical representations statements of other speakers, selected by the closest proximity among all other speakers (hard negative pair - a hard negative pair).

Наконец, в [9] авторы предложили дообучение модели BERT [10], которая использует метрик лернинг в форме сиамских и триплет нейронных сетей для обучения численных представлений предложений для задач семантического текстового сходства с использованием семантической близости аннотаций пар предложений.Finally, in [9], the authors proposed retraining of the BERT model [10], which uses metric learning in the form of Siamese and triplet neural networks to train numerical representations of sentences for semantic text similarity problems using the semantic similarity of sentence pair annotations.

Хотя метрик лернинг использовался во всех этих областях, он не был применен к анализу событий жизненного потока, связанных с транзакционными данными, кликстримом и другими типами данных событий жизненного потока, что является предметом данной статьи.While metric learning has been used in all of these areas, it has not been applied to the analysis of lifestream events associated with transactional data, clickstream, and other types of lifestream event data, which is the subject of this article.

Важно отметить, что в предыдущей литературе подход метрик лернинг применялся в своих областях как обучение с учителем, в то время как заявленный способ MeLES внедряет идеи метрик лернинга совершенно новым способом, способом обучения без учителя в области последовательностей событий.It is important to note that in the previous literature, the learning metrics approach has been applied in their fields as supervised learning, while the claimed MeLES method introduces the ideas of learning metrics in a completely new way, unsupervised learning in the field of event sequences.

Другая идея применения обучения без учителя к последовательным данным была ранее предложена в методе контрастного прогнозирующего кодирования (англ. contrastive predicting coding - СРС) [11], где значимые представления извлекаются путем прогнозирования будущего в скрытом пространстве с использованием авторегрессивных методов. Представления СРС продемонстрировали высокую эффективность в четырех различных областях: аудио, компьютерное зрение, естественный язык и обучение с подкреплением.Another idea for applying unsupervised learning to sequential data was previously proposed in contrastive predictive coding (CPC) [11], where meaningful representations are extracted by predicting the future in the latent space using autoregressive methods. The CPC representations have shown high performance in four different areas: audio, computer vision, natural language, and reinforcement learning.

В области компьютерного зрения существует множество других подходов к обучению с учителем, которые хорошо обобщены в источнике [12]. Есть несколько способов определить задачу обучения с учителем (аналогично заданию предсказания следующего слова в тексте) для изображения. Один из вариантов - изменить изображение, а затем попытаться восстановить исходное изображение. Примерами этого подхода являются супер-разрешение, изменение цвета изображения и восстановление поврежденного изображения. Другой вариант - предсказать контекстную информацию из локальных признаков, например, предсказать место патча изображения на изображении с несколькими отсутствующими патчами.In the field of computer vision, there are many other approaches to supervised learning, which are well summarized in [12]. There are several ways to define a supervised learning task (similar to a task to predict the next word in a text) for an image. One option is to change the image and then try to restore the original image. Examples of this approach are super resolution, recoloring an image, and repairing a damaged image. Another option is to predict contextual information from local features, such as predicting the location of an image patch in an image with multiple missing patches.

При этом почти каждый подход к обучению без учителя может быть использован для получения численных представлений исходных данных в форме эмбеддингов. Существует несколько примеров применения полученного набора численных представлений исходных данных для нескольких последующих задач [13], [14].At the same time, almost every approach to unsupervised learning can be used to obtain numerical representations of the original data in the form of embeddings. There are several examples of applying the resulting set of numerical representations of the initial data for several subsequent problems [13], [14].

- 1 040376- 1 040376

Одним из распространенных подходов к изучению представлений без учителя является либо традиционный автокодировщик (автоэнкодер) [15], либо вариационный автоэнкодер [16]. Он широко используется для изображений, текста и аудио или агрегированных данных событий жизненного потока ([17]). Хотя автоэнкодеры успешно использовались в нескольких перечисленных выше областях, они не применялись к необработанным данным событий жизненного потока в виде последовательностей событий, в основном из-за проблем определения расстояний между входом и восстановленными через автоэнкодер входными последовательностями.One common approach to learning unsupervised representations is either a traditional autoencoder (autoencoder) [15] or a variational autoencoder [16]. It is widely used for images, text and audio or aggregated data of lifestream events ([17]). Although autoencoders have been successfully used in several of the areas listed above, they have not been applied to raw lifestream event data as event sequences, mainly due to problems in determining the distances between the input and the autoencoder-reconstructed input sequences.

Сущность изобретенияThe essence of the invention

В настоящем решении предлагается новый метод: метрик лернинг (метрическое обучение от англ. metric learning) для последовательностей событий (MeLES), используемый для получения представления данных жизненного потока в скрытом пространстве.The present solution proposes a new method: metric learning for sequences of events (MeLES), used to obtain a representation of life flow data in latent space.

В настоящем решении воплощен новый метод - метрик лернинг на последовательностях событий (MeLES) для получения низкоразмерных числовых представлений последовательностей событий, который может хорошо работать со специфическими свойствами жизненных потоков событий, такими как их дискретная природа.The present solution implements a new method, Metrics Learning on Event Sequences (MeLES), for obtaining low-dimensional numerical representations of event sequences, which can work well with the specific properties of life event streams, such as their discrete nature.

В широком смысле метод MeLES адаптирует подход метрик лернинг [18]-[19]. Метрик лернинг часто ставится как задача обучения с учителем для отображения многомерных объектов в пространство низкоразмерных числовых представлений. Целью метрик лернинга является представление семантически похожих объектов (изображений, видео, аудио и т.д.) ближе друг к другу, а разнородных - дальше. Большинство подходов метрик лернинга используются в таких приложениях, как распознавание речи [8], компьютерное зрение [20]-[21] и анализ текста [9].In a broad sense, the MeLES method adapts the metrics learning approach [18]-[19]. Metrics learning is often posed as a supervised learning task for mapping high-dimensional objects into a space of low-dimensional numerical representations. The purpose of learning metrics is to represent semantically similar objects (images, video, audio, etc.) closer to each other, and heterogeneous objects further away. Most learning metrics approaches are used in applications such as speech recognition [8], computer vision [20]-[21], and text analysis [9].

В этих областях метрик лернинг успешно применяется как задача обучения с учителем к датасетам (наборам данных), где пары многомерных экземпляров помечены как один и тот же объект или разные объекты. В отличие от всех предыдущих методов метрик лернинга, MeLES полностью обучается без учителя и не требует никаких меток. Он основан на наблюдении, что данные жизненного потока событий подчиняются периодичности и повторяемости событий в последовательности. Поэтому некоторые подпоследовательности одного и того же жизненного потока можно рассматривать как многомерные представления одного и того же человека. Идея MeLES заключается в том, что в скрытом низкоразмерном пространстве численные представления таких подпоследовательностей должны быть ближе друг к другу.In these areas of metrics, learning has been successfully applied as a supervised learning problem to datasets (datasets) where pairs of multidimensional instances are labeled as the same object or different objects. Unlike all previous learning metrics methods, MeLES is completely unsupervised and does not require any labels. It is based on the observation that the data of the life-stream of events are subject to the periodicity and recurrence of events in a sequence. Therefore, some subsequences of the same life stream can be considered as multidimensional representations of the same person. The idea of MeLES is that in the hidden low-dimensional space, the numerical representations of such subsequences should be closer to each other.

Обучение без учителя позволяет обучать модели, используя внутреннюю структуру больших неразмеченных или частично размеченных обучающих датасетов. Обучение без учителя продемонстрировало эффективность в различных областях машинного обучения, таких как обработка естественного языка (например, ELMO, BERT, и компьютерное зрение).Unsupervised learning allows you to train models using the internal structure of large unlabeled or partially labeled training datasets. Unsupervised learning has been shown to be effective in various areas of machine learning such as natural language processing (eg ELMO, BERT, and computer vision).

Модель MeLES, обученная без учителя, может использоваться двумя способами. Представления, создаваемые моделью, могут непосредственно использоваться в качестве фиксированного вектора признаков в некоторой последующей задаче машинного обучения с учителем (например, задаче классификации), аналогично решению из источника [22]. В качестве альтернативы, обученная модель может быть дообучена [10] для конкретной последующей задачи машинного обучения с учителем. Проведенные эксперименты с двумя открытыми датасетами с банковскими транзакциями позволили оценить эффективность заявленного метода для последующих задач машинного обучения. Когда численные представления MeLES непосредственно используются в качестве признаков, метод обеспечивает высокую производительность, сопоставимую с базовыми методами (бейзлайном).An unsupervised MeLES model can be used in two ways. The representations generated by the model can be directly used as a fixed feature vector in some subsequent supervised machine learning problem (for example, a classification problem), similar to the solution from the source [22]. Alternatively, the trained model can be retrained [10] for a specific subsequent supervised machine learning task. The conducted experiments with two open datasets with banking transactions made it possible to evaluate the effectiveness of the proposed method for subsequent machine learning tasks. When numerical representations of MeLES are directly used as features, the method provides high performance comparable to the basic methods (baseline).

Дообученные под конкретную задачу обучения с учителем представления позволяют достигать самых высоких показателей качества, значительно превосходя несколько других методов обучения с учителем и методов с предварительным обучением без учителя. Далее в настоящих материалах будет также представлено превосходство представлений MeLES над методами обучения с учителем в применении к частично размеченным данным по причине недостаточного количества разметки для обучения достаточно сложной модели с нуля.Task-specific supervised presentations achieve the highest quality scores, far outperforming several other supervised and unsupervised pre-training methods. Later in this paper, we will also present the superiority of MeLES representations over supervised learning methods when applied to partially labeled data due to insufficient labeling to train a fairly complex model from scratch.

Существующая техническая проблема состоит в том, что генерация численных представлений событийных данных является необратимым преобразованием, поэтому невозможно восстановить точную последовательность событий из ее представления. Следовательно, использование представлений приводит к большей конфиденциальности и безопасности данных для конечных пользователей, чем при работе непосредственно с необработанными данными событий, и все это достигается без потери качества моделирования.An existing technical problem is that the generation of numerical representations of event data is an irreversible transformation, so it is not possible to reconstruct the exact sequence of events from its representation. Therefore, the use of views results in greater data privacy and security for end users than when working directly with the raw event data, all without compromising the quality of the simulation.

Техническим результатом является повышение эффективности формирования признаков для моделей машинного обучения с помощью формирования низкоразмерных числовых представлений последовательностей событий.The technical result is to increase the efficiency of feature generation for machine learning models by generating low-dimensional numerical representations of event sequences.

Заявленный технический результат достигается за счет компьютерно-реализуемого способа получения низкоразмерных числовых представлений последовательностей событий, содержащего этапы, на которых получают набор входных данных, характеризующий события, агрегированные в последовательность и связанные с по меньшей мере одной информационной сущностью, причем упомянутые данныеThe claimed technical result is achieved due to a computer-implemented method for obtaining low-dimensional numerical representations of sequences of events, which contains the steps at which a set of input data is obtained that characterizes events aggregated into a sequence and associated with at least one information entity, moreover, the said data

- 2 040376 содержат набор атрибутов, включающий категориальные переменные, числовые переменные и временную метку;- 2 040376 contain a set of attributes including categorical variables, numeric variables and timestamp;

при этом выполняется предобработка упомянутого набора входных данных, при которой формируют позитивные пары последовательностей транзакционных событий, которые представляют собой подпоследовательности, принадлежащие последовательности транзакционных событий одной информационной сущности;at the same time, preprocessing of the mentioned set of input data is performed, in which positive pairs of sequences of transactional events are formed, which are subsequences belonging to the sequence of transactional events of one information entity;

формируют негативные пары подпоследовательностей транзакционных событий, которые являются подпоследовательностями, принадлежащими последовательностям транзакционных событий разных информационных сущностей;generating negative pairs of transactional event subsequences, which are subsequences belonging to transactional event sequences of different information entities;

с помощью кодировщика транзакционных событий формируют векторное представление каждого транзакционного события из упомянутого набора атрибутов, при этом кодировщик содержит первичный набор параметров и выполняет этапы, на которых осуществляют кодирование категориальных переменных в виде векторных представлений;using a transactional event encoder, a vector representation of each transactional event from said set of attributes is formed, wherein the encoder contains a primary set of parameters and performs the steps of encoding categorical variables in the form of vector representations;

осуществляют нормирование числовых переменных;carry out normalization of numerical variables;

осуществляют обработку временных меток для выстраивания упорядоченной по времени последовательности транзакционных событий;carry out the processing of timestamps to build a time-ordered sequence of transactional events;

осуществляют конкатенацию полученных векторных представлений категориальных переменных и нормированных числовых переменных;carry out the concatenation of the obtained vector representations of categorical variables and normalized numerical variables;

формируют единый числовой вектор одного транзакционного события по итогам выполненной конкатенации;form a single numerical vector of one transactional event based on the results of the performed concatenation;

с помощью кодировщика подпоследовательности формируют векторное представление подпоследовательности транзакционных событий из набора числовых векторов транзакционных событий, полученных с помощью кодировщика транзакционных событий, при этом кодировщик содержит первичный набор параметров;using a subsequence encoder, generating a vector representation of a subsequence of transactional events from a set of numeric transactional event vectors obtained using the transactional event encoder, the encoder comprising a primary set of parameters;

осуществляют фильтрацию негативных пар векторов подпоследовательностей транзакционных событий, значение векторного расстояния между которыми не выше заданного порогового значения;carry out filtering of negative pairs of vectors of subsequences of transactional events, the value of the vector distance between which is not higher than a specified threshold value;

корректируют первичные параметры упомянутых кодировщика транзакционных событий и кодировщика подпоследовательности с помощью применения функции потерь вида маржинальных или контрастивных потерь; и формируют низкоразмерные числовых представления последовательностей событий, связанных с одной информационной сущностью, на основании выполненной корректировки.adjusting primary parameters of said transactional event encoder and subsequence encoder by applying a marginal or contrastive loss type loss function; and generating low-dimensional numerical representations of sequences of events associated with one information entity based on the adjustment made.

В одном из частных вариантов реализации способа информационная сущность представляет собой транзакционные данные физического или юридического лица.In one of the particular embodiments of the method, the information entity is the transactional data of an individual or legal entity.

В другом частном варианте реализации способа создание позитивных пар осуществляется с помощью алгоритма формирования несвязных подпоследовательностей.In another particular embodiment of the method, the creation of positive pairs is carried out using the algorithm for the formation of disconnected subsequences.

В другом частном варианте реализации способа создание позитивных пар осуществляется с помощью алгоритма генерации случайных срезов последовательности.In another particular embodiment of the method, the creation of positive pairs is carried out using an algorithm for generating random slices of the sequence.

В другом частном варианте реализации способа формируемые подпоследовательности не пересекаются между собой.In another particular embodiment of the method, the generated subsequences do not intersect with each other.

В другом частном варианте реализации способа формируемые подпоследовательности не пересекаются и/или пересекаются между собой.In another particular embodiment of the method, the generated subsequences do not intersect and/or intersect with each other.

В другом частном варианте реализации способа кодировщик подпоследовательности представляет собой рекуррентную нейронную сеть (РНС).In another particular embodiment of the method, the subsequence encoder is a recurrent neural network (RNN).

Краткое описание чертежейBrief description of the drawings

Фиг. 1 иллюстрирует концептуальную схему заявленного решения.Fig. 1 illustrates a conceptual diagram of the claimed solution.

Фиг. 2 и 3 иллюстрируют графики зависимостей размерности векторов в задачах прогнозирования.Fig. 2 and 3 illustrate plots of vector dimension dependencies in forecasting problems.

Фиг. 4 иллюстрирует распределение векторов в задаче прогнозирования возрастной группы.Fig. 4 illustrates the distribution of vectors in the age group prediction problem.

Фиг. 5-8 иллюстрируют примеры прогнозирования на различных датасетах.Fig. 5-8 illustrate examples of predictions on various datasets.

Осуществление изобретенияImplementation of the invention

Заявленный способ создан специально для данных событий жизненного потока. Такие данные состоят из отдельных событий информационной сущности, например, человека или юридического лица в непрерывном времени, например, поведения на вебсайтах, выполнением транзакций и т.д.The claimed method was created specifically for these life flow events. Such data consists of individual events of an information entity, such as a person or entity, in continuous time, such as website behavior, transaction execution, etc.

Принимая во внимание транзакции, например, транзакции по кредитным картам, каждая транзакция имеет набор атрибутов, категориальных или числовых, включая временную метку транзакции. Пример последовательности трех операций с их атрибутами представлен в табл. 1. Поле типа продавца представляет категорию продавца, такую как авиакомпания, гостиница, ресторан и т.д.Considering transactions, such as credit card transactions, each transaction has a set of attributes, either categorical or numeric, including the timestamp of the transaction. An example of a sequence of three operations with their attributes is presented in Table. 1. The seller type field represents the category of the seller, such as airline, hotel, restaurant, etc.

- 3 040376- 3 040376

Таблица 1. Структура данныхTable 1. Data structure

Сумма Sum 230 230 5 5 40 40 Валюта Currency EUR EUR USD USD USD USD Страна A country FR FR US US US US Время Time 16:40 16:40 20:15 20:15 09:30 09:30 Дата date 21 Jun Jun 21 21 Jun Jun 21 21 Jun Jun 21 Продавец Salesman Ресторан Restaurant Транспорт Transport Магазин Shop

Другим примером данных жизненного потока является кликстрим (от англ. click-stream) - журнал посещений интернет-страниц. Пример журнала посещений интернет-страниц для одного пользователя представлен в табл. 2.Another example of life stream data is clickstream (from the English click-stream) - a log of visits to Internet pages. An example of a log of visits to Internet pages for one user is presented in Table. 2.

Таблица 2. Журнал посещений интернет-страниц Table 2. Log of visits to Internet pages Время Time Дата date Домен Domain Домен перехода Transition domain 17:40 17:40 21 Jun Jun 21 Amazon.com Amazon.com Google.com Google.com 17:41 17:41 21 Jun Jun 21 Amazon.com Amazon.com Amazon.com Amazon.com 17:45 17:45 21 Jun Jun 21 En.wikipedia.org En.wikipedia.org Google.com Google.com

На фиг. 1 представлен общий принцип заявленного способа. Задано количество дискретных событий {x_t}^Tt=1 в заданном интервале наблюдения [1, Т] конечной целью является получение численного представления последовательности ct для временной метки Т в скрытое пространство R^d. Чтобы обучить кодировщик последовательности {xt}^Tt=1 генерировать осмысленное численное представление ct из {xt}^Tt=1, необходимо применить подход метрик лернинг так, чтобы расстояние между представлениями одной и той же информационной сущности было небольшим, тогда как представления разных сущностей (отрицательные пары) велики.In FIG. 1 shows the general principle of the claimed method. Given the number of discrete events {x _t } ^T t=1 in a given observation interval [1, T], the ultimate goal is to obtain a numerical representation of the sequence ct for the timestamp T in the latent space R ^d . To train the sequence encoder {xt} ^T t=1 to generate a meaningful numerical representation ct from {xt} ^T t=1, it is necessary to apply the learning metrics approach so that the distance between representations of the same information entity is small, while representations of different entities (negative pairs) are great.

Одними из трудностей применения подхода метрик лернинг для данных жизненного потока заключается в том, что понятие семантического сходства как и различий требует знания базовых областей, а также процесса разметки положительных и отрицательных примеров является трудоемким. Ключевым свойством предметной области событий жизненного потока является периодичность и повторяемость событий в последовательности событий, что позволяет нам переформулировать задачу метрик лернинг как задачу обучения без учителя. MeLES изучает низкоразмерные представления из последовательных данных о выбранной информационной сущности, например, о человеке, отбирая положительные пары как подпоследовательности одной и той же последовательности одного человека и отрицательные пары как подпоследовательности из последовательностей разных людей. Соответствующие пары формируются с помощью обработки входных данных кодировщиками, формирующими векторные представления транзакционных событий, о чем будет более детально раскрыто далее. Представление последовательности c_t, полученное на основе метрик лернинг, затем используется в различных задачах машинного обучения в качестве вектора признаков. Кроме того, одним из возможных способов повышения качества задачи в которой применяются численные представления событийных данных является встраивание предварительно обученного c_t (например, выходного вектора последнего слоя рекуррентной нейронной сети RNN) в задачу классификации с конкретной целевой переменной, а затем совместно обучать, то есть настраивать веса сети кодировщиков и классификатора.One of the difficulties in applying the learning metrics approach to lifestream data is that the notion of semantic similarity as well as differences requires knowledge of base areas, and the process of labeling positive and negative examples is labor intensive. The key property of the life flow event domain is the periodicity and repetition of events in the sequence of events, which allows us to reformulate the learning metrics problem as an unsupervised learning problem. MeLES learns low-dimensional representations from sequential data about a selected information entity, such as a person, by selecting positive pairs as subsequences of the same sequence of one person and negative pairs as subsequences from sequences of different people. The corresponding pairs are formed by processing the input data by encoders that form vector representations of transactional events, which will be discussed in more detail below. The sequence representation c _t obtained from the learning metrics is then used in various machine learning problems as a feature vector. In addition, one possible way to improve the quality of a problem that uses numerical representations of event data is to embed a pretrained c _t (for example, the output vector of the last layer of a recurrent neural network RNN) into a classification problem with a specific target variable, and then jointly train, that is, adjust the weights of the network of encoders and the classifier.

Чтобы построить представление последовательности событий в виде вектора фиксированного размера c_teR^d, используется подход, аналогичный энкодеру транзакций карты E.T.-RNN, описанному в работе авторов [15]. Вся сеть кодировщиков состоит из двух концептуальных частей: кодировщик событий и подсети кодировщика последовательности событий.To build a representation of a sequence of events as a fixed-size vector c _t eR ^d , an approach similar to the ET-RNN card transaction encoder described in the authors' work [15] is used. The entire encoder network consists of two conceptual parts: the event encoder and the event sequence encoder subnet.

Кодировщик событий берет на вход набор атрибутов одного события xt и выводит его представление в скрытое пространство ZeR^m:z_t=e(x_t). Кодировщик последовательности s принимает скрытые представления последовательности событий: z_1:T=z1, z₂, .. z_T и выводит представление всей последовательности c_t на временном шаге t: c_t=s(z_1:t).The event encoder takes as input a set of attributes of a single event xt and outputs its representation to the latent space ZeR ^m :z _t =e(x _t ). The sequence encoder s takes hidden representations of the sequence of events: z _1:T =z1, z ₂ , .. z _T and outputs a representation of the entire sequence c _t at time step t: c _t =s(z _1:t ).

Сеть кодировщика событий состоит из нескольких эмбеддинг слоев и слоя батч нормализации [16]. Каждый эмбеддинг слой используется для кодирования каждого категориального атрибута события. Батч нормализация применяется к числовым атрибутам события. Наконец, выходные данные каждого эмбеддинг слоя и слоя батч нормализации конкатенируются для создания представления zt одного события в скрытом пространстве. Последовательность скрытых представлений событий z_1:t передается в кодировщик последовательности s для получения вектора c_t фиксированного размера. Несколько подходов могут быть использованы для кодирования последовательности. Одним из возможных подходов является использование рекуррентной сети (RNN), как в [17]. Другой подход заключается в использовании кодирующей части архитектуры Transformer, представленной в [18]. В обоих случаях вектор последнего события может использоваться для представления всей последовательности событий. В случае RNN последний выход h_t является представлением последовательности событий. Кодировщик, основанный на архитектуре RNN-типа, такой как GRU [18], позволяет вычислять представление c_t+k путем обновленияThe event encoder network consists of several embedding layers and a batch normalization layer [16]. Each embedding layer is used to encode each categorical event attribute. Batch normalization is applied to the numeric attributes of the event. Finally, the output of each embedding and batch normalization layer is concatenated to create a zt representation of a single event in latent space. The sequence of hidden event representations z _1:t is passed to the sequence encoder s to obtain a vector c _t of fixed size. Several approaches can be used to encode a sequence. One possible approach is to use a recurrent network (RNN) as in [17]. Another approach is to use the encoding part of the Transformer architecture presented in [18]. In both cases, the last event vector can be used to represent the entire sequence of events. In the case of RNN, the last output h _t is a representation of the sequence of events. An encoder based on an RNN-type architecture such as GRU [18] allows computing a representation c _{t + k} by updating

- 4 040376 представления c_t вместо расчета представления c_t+k из всей последовательности прошлых событий z_1:t:c_k=rnn(c_t, z_t+1:k). Эта опция позволяет сократить время инференса, когда необходимо обновить уже существующие расчитанные клиентские представления новыми событиями, произошедшими после расчета. Это возможно из-за периодического характера сетей, подобных RNN.- 4 040376 representation c _t instead of calculating representation c _t+k from the entire sequence of past events z _1:t :c _k =rnn(c _t , z _t+1:k ). This option allows you to reduce the inference time when it is necessary to update already existing calculated client views with new events that occurred after the calculation. This is possible due to the periodic nature of networks like RNNs.

Функция потери в метрик лернинге изменяют численные представления таким образом, что расстояние между представлениями из одного класса уменьшается, а между представлениями из другого класса увеличивается. Было рассмотрено несколько функций потерь метрик лернинга - contrastive loss (конрастивных потерь) [19], binomial deviance (потерь биномиального отклонения) [20], triplet loss (триплетных потерь) [21], histogram loss (гистограммных потерь) [22] и margin loss (маржинальных потерь) [23].The loss function in metrics learning changes numerical representations in such a way that the distance between representations from one class decreases, and between representations from another class increases. Several loss functions of learning metrics have been considered - contrastive loss [19], binomial deviance [20], triplet loss [21], histogram loss [22], and margin loss (marginal losses) [23].

Все вышеуказанные функции потерь решают следующую проблему подхода метрик лернинга: использование всех пар выборок неэффективно, например, расстояние между представлениями некоторых из отрицательных пар уже достаточно большое, поэтому эти пары не пригодны для обучения ([24]-[25]).All the above loss functions solve the following problem of the learning metrics approach: using all pairs of samples is inefficient, for example, the distance between the representations of some of the negative pairs is already large enough that these pairs are not suitable for learning ([24]-[25]).

Далее рассмотрим два вида функций потерь, которые концептуально просты, но в то же время продемонстрировали высокую эффективность при валидации в экспериментах с заявленным способом, а именно, функции контрастивных потерь и маржинальных потерь.Next, we will consider two types of loss functions that are conceptually simple, but at the same time have demonstrated high efficiency in validation in experiments with the claimed method, namely, contrastive loss and marginal loss functions.

Функция контрастивных потерь имеет контрастивное слагаемое для отрицательной пары представлений, которое штрафует модель только в том случае, если отрицательная пара недостаточно удалена и расстояние между представлениями меньше, чем маржин m:The contrast loss function has a contrast term for the negative pair of views, which only penalizes the model if the negative pair is not far enough away and the distance between views is less than the margin m:

p 1 ₁ p 1 ₁

X = Σ p - ^y) 2 ^{+ Y} * ₂ ’ W где Р - количество всех пар в батче, DiW - функция расстояния между i-й помеченной выборкой пары представлений X1 и X2, Y - бинарная метка, назначенная паре: Y=0 означает позитивная пара, Y=1 означает негативную пару, m>0 - маржин. Как предложено в [26], используется евклидово расстояние как функция расстояния:X = Σ p - ^y) 2 ^{+ Y} * ₂ ' W means positive pair, Y=1 means negative pair, m>0 - margin. As suggested in [26], the Euclidean distance is used as a function of distance:

= D(AB) = - B_t)².= D(AB) = - B _t ) ² .

Функция маржинальных потерь похожа на контрастивных потерь, основное отличие заключается в том, что не существует штрафа для положительных пар, которые находятся ближе, чем порог в функции маржинальных потерь.The margin loss function is similar to the contrastive loss function, the main difference is that there is no penalty for positive pairs that are closer than the threshold in the margin loss function.

р £ = [(1 - Y)max(0, D^l _w -b + т) + Y * тах(0, b - + m)], ϊ=1 . (²) где Р - количество всех пар в батче, DiW - функция расстояния между i-й помеченной выборочной парой представлений X₁ и X₂, Y - бинарная метка, назначенная паре: Y=0 означает позитивную пару, Y=1 означает негативную пару, m>0 и b>0 определитель порогового значения маржина.p £ = [(1 - Y)max(0, D ^l _w -b + m) + Y * max(0, b - + m)], ϊ=1. ( ² ) where P is the number of all pairs in the batch, DiW is the distance function between the i-th labeled sample pair of representations X ₁ and X ₂ , Y is the binary label assigned to the pair: Y=0 means positive pair, Y=1 means negative pair, m>0 and b>0 margin threshold determinant.

Выборка негативных пар - это еще один способ решения проблемы, заключающейся в том, что некоторые из негативных пар уже достаточно отдалены, поэтому эти пары не пригодны для обучения ([24][26]). Следовательно, при расчете функции потерь учитывается только часть возможных негативных пар. При этом рассматриваются только текущие пары в батче. Существует несколько возможных стратегий выбора наиболее подходящих для обучения негативных пар:Sampling negative pairs is another way of dealing with the problem that some of the negative pairs are already far enough away that these pairs are not suitable for training ([24][26]). Therefore, when calculating the loss function, only a part of possible negative pairs is taken into account. In this case, only the current pairs in the batch are considered. There are several possible strategies for choosing the most suitable negative pairs for learning:

случайная выборка негативных пар;random sampling of negative pairs;

жесткий негативный майнинг пар: генерировать к самых сложных негативых пар для каждой положительной пары;hard negative pair mining: generate k most difficult negative pairs for each positive pair;

взвешенная по расстоянию выборка пар, где негативные к рассматриваемому примеры семплируются равномерно в соответствии с их относительным расстоянием от этого рассматриваемого примера [27];distance-weighted sample of pairs, where examples negative to the considered example are sampled uniformly according to their relative distance from this considered example [27];

полужесткий отбор, при котором осуществляется выбор ближайшего к рассматриваемому примеру негативный пример из набора всех негативных примеров, которые находятся дальше от рассматриваемого примера, чем его позитивный пример ([28]).semi-rigid selection, in which the choice of the negative example closest to the considered example is made from the set of all negative examples that are farther from the considered example than its positive example ([28]).

Чтобы выбрать негативные пары, необходимо вычислить попарно расстояние между всеми возможными парами векторов представлений в батче. Чтобы сделать эту процедуру более вычислительно эффективной, мы выполняем нормализацию векторов представлений, то есть проецируем их на гиперсферу единичного радиуса. Поскольку D(A,B) - \Х(Л -зд³ - ^Σί^ + Σ.Λ -2Σ.Λ·^ и ||А|| = ||В|| = 1, чтобы вычислить евклидово расстояние, то необходимо вычислить: V² “ ²(^ * Я).To select negative pairs, it is necessary to calculate in pairs the distance between all possible pairs of representation vectors in the batch. To make this procedure more computationally efficient, we normalize the representation vectors, i.e., project them onto a hypersphere of unit radius. Since D(A,B) - \X(A -zd ³ - ^Σί^ + Σ.Λ -2Σ.Λ·^ and ||A|| = ||B|| = 1, to calculate the Euclidean distance, then it is necessary to calculate: V ² “ ² (^ * R).

Чтобы вычислить скалярное произведение между всеми парами в батче, необходимо умножить матрицу всех векторов представлений батча на саму себя транспонированную, что является высоко оптимизированной вычислительной процедурой в большинстве современных сред разработки для глубокого обучения. Следовательно, вычислительная сложность выбора негативной пары составляет О (n²h), где h - размер представления, a n - размер батча.In order to calculate the dot product between all pairs in a batch, it is necessary to multiply the matrix of all batch representation vectors by itself transposed, which is a highly optimized computational procedure in most modern deep learning frameworks. Therefore, the computational complexity of choosing a negative pair is O (n ² h), where h is the size of the representation, an is the size of the batch.

Процедура генерации позитивных пар используется для создания батча для обучения MeLES. N на- 5 040376 чальных последовательностей взяты для генерации батча. Затем производится К подпоследовательностей для каждой начальной последовательности. Пары подпоследовательностей, полученных из одной и той же последовательности, рассматриваются как положительные образцы, а пары из разных последовательностей рассматриваются как отрицательные образцы. Следовательно, после генерации положительной пары каждый батч содержит NxK подпоследовательностей, используемых в качестве обучающих выборок. В партии имеется K - 1 положительных пар и (N-1)xK отрицательных пар на образец.The positive pair generation procedure is used to create a MeLES training batch. N initial sequences were taken to generate the batch. Then K subsequences are produced for each initial sequence. Pairs of subsequences derived from the same sequence are considered as positive samples, and pairs from different sequences are considered as negative samples. Therefore, after generating a positive pair, each batch contains NxK subsequences used as training samples. There are K - 1 positive pairs and (N-1)xK negative pairs per sample per lot.

Существует несколько возможных стратегий генерации подпоследовательности. Простейшей стратегией является случайная выборка без замены. Другой стратегией является создание подпоследовательности от случайной последовательности расщепления до нескольких подпоследовательностей без пересечения между ними (см. Алгоритм 1). Третий вариант - использовать случайно выбранные срезы событий с возможным пересечением между срезами (см. Алгоритм 2). Порядок событий в сгенерированных подпоследовательностях всегда сохраняется.There are several possible subsequence generation strategies. The simplest strategy is random sampling without replacement. Another strategy is to create a subsequence from a random splitting sequence to multiple subsequences with no intersection between them (see Algorithm 1). The third option is to use randomly selected event slices with possible intersection between the slices (see Algorithm 2). The order of events in generated subsequences is always preserved.

Алгоритм 1. Стратегия генерации несвязных подпоследовательностей.Algorithm 1. Strategy for generating disconnected subsequences.

Гиперпараметры: k - число генерируемых подпоследовательностей, вход: последовательность S длины l, выход: S_l,...,S_k -подпоследовательности сгенерированные из S, сформировать вектор inds длины l со случайными числами из [l,k], для i^l to k выполнять:Hyperparameters: k - number of generated subsequences, input: sequence S of length l, output: S _l ,...,S _k - subsequences generated from S, form vector inds of length l with random numbers from [l,k], for i^ l to k do:

Si = S[inds == i]Si = S[inds == i]

Конец.End.

Алгоритм 2. Стратегия генерации случайных срезов последовательности.Algorithm 2. Strategy for generating random slices of a sequence.

Гиперпараметры: m, M - минимальная и максимально возможная длина подпоследовательности, k - количество подпоследовательностей, которые будут произведены, вход: последовательность S длины l, выход: Sl,...,S_k -подпоследовательности сгенерированные из S, для i^l to k выполнять:Hyperparameters: m, M - minimum and maximum possible subsequence lengths, k - number of subsequences to be produced, input: sequence S of length l, output: Sl,...,S _k -subsequences generated from S, for i^l to k do:

сгенерировать случайное число h, m<li<min(M,l), сгенерировать случайное число s, 0<s<l-li.generate random number h, m<li<min(M,l), generate random number s, 0<s<l-li.

Si =S[s: s+li] Конец.Si =S[s: s+li] End.

Датасеты.Datasets.

(1) Соревнование по предсказанию возрастной группы клиента - задача предсказать возрастную группу клиента в пределах 4 классов как целевые переменные, и точность используется в качестве показателя качества. Датасет состоит из 44 млн анонимных транзакций, представляющих 50 тыс. клиентов с целевой переменной, размеченной только для 30 тыс. из них (27 млн из 44 млн транзакций), для остальных 20 тыс. клиентов (17 млн из 44 млн транзакций) метка неизвестна. Каждая транзакция включает дату, тип (например, продуктовый магазин, одежду, заправку, товары для детей и т.д.) и сумму. Мы используем все доступные 44М транзакций для метрик лернинга, за исключением 10% - для тестовой части датасета и 5% для валидации метрик лернинга.(1) Client age group prediction competition is the task of predicting the client's age group within 4 classes as target variables, and accuracy is used as a measure of quality. The dataset consists of 44 million anonymous transactions representing 50 thousand clients with the target variable labeled for only 30 thousand of them (27 million out of 44 million transactions), for the remaining 20 thousand clients (17 million out of 44 million transactions) the label is unknown . Each transaction includes date, type (eg grocery store, clothing, gas station, baby products, etc.) and amount. We use all available 44M transactions for learning metrics, with the exception of 10% for the test part of the dataset and 5% for validating learning metrics.

(2) Соревнование по предсказания пола клиента - задача представляет собой бинарную классификационную задачу прогнозирования пола клиента, и используется метрика ROC-AUC. Датасет состоит из 6,8 млн анонимных транзакций, представляющих 15 тыс. клиентов, из которых только 8,4 тыс. из них размечены. Каждая транзакция характеризуется датой, типом (например, депозит наличными через банкомат), суммой и кодом категории продавца (также известный как МСС).(2) Client Gender Prediction Competition - The task is a binary classification task of client gender prediction, and the ROC-AUC metric is used. The dataset consists of 6.8 million anonymous transactions representing 15 thousand clients, of which only 8.4 thousand of them are marked. Each transaction is characterized by a date, type (for example, ATM cash deposit), amount, and merchant category code (also known as MCC).

Для каждого набора данных мы выделяем 10% клиентов из размеченной части данных как тестовую выборку, на которой мы сравнивали качество различных моделей. В представленных экспериментах используется функция контрастивных потерь и стратегия генерации случайных срезов последовательности. Для всех методов гиперпараметры были выбраны с использованием случайного поиска с 5-фолдовой кросс-валидацией на тренировочной выборке с точки зрения качества на отложенной выборке. Результаты настройки гиперпараметров, полученные для MeLES, показан в табл. 3.For each data set, we select 10% of the clients from the labeled part of the data as a test sample, on which we compared the quality of different models. The presented experiments use the contrast loss function and the strategy of generating random slices of the sequence. For all methods, hyperparameters were selected using random search with 5-fold cross-validation on the training set in terms of performance on the deferred sample. The hyperparameter tuning results obtained for MeLES are shown in Table 1. 3.

Таблица 3. Гиперпараметры при обучении MeLESTable 3. Hyperparameters in MeLES training

Соревнование по предсказанию возрастной группы клиента Customer Age Group Prediction Competition Соревнование по предсказания пола клиента Competition in client gender prediction Параметр обучения Learning parameter 0.002 0.002 0.002 0.002 Количество примеров в батче Number of examples in a batch 64 64 128 128 Количество эпох Number of epochs 100 100 150 150 Число сгенерированных подпоследовательностей Number of generated subsequences 5 5 5 5

- 6 040376- 6 040376

Для оценки методов обучения без учителя (включая MeLES) были использованы все транзакции, включая неразмеченные данные, кроме тестовой выборки, поскольку эти методы подходят для датасетов с частичной разметкой или вообще не требуют разметки. Обучение архитектуры нейронной сети, пригодной для реализации заявленного способа, проводилось на одной видеокарте Tesla P-100. При обучении нейронной сети MeLES один батч тренировочной выборки обрабатывается за 142 миллисекунды. Для датасета прогнозирования возраста один один батч тренировочной выборки содержит 64 уникальных клиента с 5 подвыборками на каждого клиента, то есть в общей сложности 320 обучающих выборок, среднее число транзакций на выборку составляет 90, следовательно, каждый батч содержит около 28800 транзакций.To evaluate unsupervised learning methods (including MeLES), all transactions were used, including unlabeled data, except for the test set, since these methods are suitable for datasets with partial labeling or do not require labeling at all. The training of the neural network architecture suitable for the implementation of the claimed method was carried out on one Tesla P-100 video card. When training the MeLES neural network, one batch of the training sample is processed in 142 milliseconds. For the age prediction dataset, one single training sample batch contains 64 unique clients with 5 subsamples per client, i.e. a total of 320 training samples, the average number of transactions per sample is 90, hence each batch contains about 28800 transactions.

Заявленный способ сравнивался со следующими двумя базовыми моделями. Во-первых, будет проанализирован метод Gradient Boosting Machine (GBM) на вручную построенных признаках. GBM можно рассматривать как надежную базовую модель в случае табличных данных с разнородными признаками. В частности, подходы, основанные на GBM, позволяют достигать самых современных результатов в различных практических задачах, включая поиск в Интернете, прогнозирование погоды, обнаружение мошенничества и многие другие.The claimed method was compared with the following two base models. First, the Gradient Boosting Machine (GBM) method on manually constructed features will be analyzed. GBM can be considered as a reliable base model in case of tabular data with heterogeneous features. In particular, GBM-based approaches achieve state-of-the-art results in a variety of practical tasks, including Internet search, weather forecasting, fraud detection, and many others.

Во-вторых, применяется недавно предложенный метод контрастного прогнозирования (СРС), метод обучения без учителя, который показал высокое качество для последовательных данных таких традиционных областей, как аудио, компьютерное зрение, естественный язык и обучение с подкреплением. Модель, основанная на GBM, требует большого количества вручную подготовленных из необработанных данных транзакций агрегатных признаков. Примером агрегатных признаков может служить средняя сумма расходов в некоторых категориях продавцов, таких как отели, рассчитанная за всю историю транзакций. Применялась LightGBM реализация алгоритма GBM с почти 1 тыс. признаков, подготовленных вручную для данной задачи.Second, the recently proposed Contrast Prediction (CPC), an unsupervised learning method that has shown high quality for sequential data from traditional domains such as audio, computer vision, natural language, and reinforcement learning, is applied. The GBM-based model requires a large number of manually prepared aggregate features from raw transactional data. An example of aggregate features is the average amount of expenses in some categories of sellers, such as hotels, calculated over the entire history of transactions. The LightGBM implementation of the GBM algorithm was used with almost 1000 features prepared manually for this task.

В дополнение к упомянутым базовым моделям заявленный способ сравнивался с методом обучения с учителем, когда подсеть кодировщика и подсеть классификатора совместно обучаются под целевую переменную данной задачи. При этом в данном случае предварительная подготовка агрегатных признаков не производится.In addition to the reference models mentioned, the claimed method was compared with a supervised learning method where the encoder subnet and the classifier subnet are jointly trained under the target variable of a given task. At the same time, in this case, preliminary preparation of aggregate characteristics is not performed.

Далее в табл. 4, 5, 6 и 7 будут представлены результаты экспериментов по различным вариантам заявленного способа.Further in table. 4, 5, 6 and 7 will present the results of experiments on various variants of the claimed method.

Таблица 4. Сравнение типов кодировщиковTable 4. Comparison of encoder types

Тип кодировщика encoder type Возраст, Точность ±95% Age, Accuracy ±95% Пол, AUROC ±95% Sex, AUROC ±95% LSTM LSTM 0.620 ±0.003 0.620±0.003 0.870 ±0.005 0.870±0.005 GRU GRU 0.639 ±0.006 0.639±0.006 0.871 ±0.004 0.871±0.004 Transformer transformer 0.621 ±0.001 0.621±0.001 0.848 ±0.002 0.848±0.002 Таблица 5. Сравнение функций потерь метрик лернинга Table 5. Comparison of learning metrics loss functions Тип потерь Loss type Возраст, Age, Пол, Floor, Точность ±95% Accuracy ±95% AUROC ±95% AUROC±95% Контрастивные потери Contrastive losses 0.639 ±0.006 0.639±0.006 0.871 ±0.003 0.871±0.003 Биномиальное отклонение Binomial Deviation 0.535 ±0.005 0.535±0.005 0.853 ±0.005 0.853±0.005 Гистограммные потери Histogram loss 0.642 ±0.002 0.642±0.002 0.851 ±0.004 0.851±0.004 Маржинальные потери Marginal losses 0.631 ±0.003 0.631±0.003 0.871 ±0.004 0.871±0.004 Триплетные потери Triplet loss 0.610 ±0.006 0.610 ±0.006 0.855 ±0.003 0.855±0.003

Таблица 6. Сравнение алгоритмов формирования парTable 6. Comparison of pairing algorithms

Алгоритм формирования пар Pair formation algorithm Возраст, Точность ±95% Age, Accuracy ±95% Пол, AUROC ±95% Sex, AUROC ±95% Случайная выборка random sample 0.628 ±0.003 0.628±0.003 0.851 ±0.004 0.851±0.004 Случайные несвязные примеры Random disconnected examples 0.608 ±0.004 0.608±0.004 0.836 ±0.008 0.836±0.008 Случайные срезы Random slices 0.639 ±0.006 0.639±0.006 0.872 ±0.005 0.872±0.005

Таблица 7. Сравнение алгоритмов негативного сэмплированияTable 7. Comparison of negative sampling algorithms

Алгоритм негативного сэмплирования Negative Sampling Algorithm Возраст, Точность ±95% Age, Accuracy ±95% Пол, AUROC ±95% Sex, AUROC ±95% Жесткий негативный майнинг hard negative mining 0.637 ±0.005 0.637±0.005 0.872 ±0.004 0.872±0.004 Случайные негативный сэмплинг Random negative sampling 0.615 ±0.005 0.615±0.005 0.826 ±0.004 0.826±0.004 Отдаленные взвешенные образцы Remote weighed samples 0.620 ±0.003 0.620±0.003 0.867±0.003 0.867±0.003

- 7 040376- 7 040376

Как показано в табл. 4, различные варианты архитектур кодировщиков показывают сопоставимое качество в данных задачах. При этом функция контрастивных потерь, которая может рассматриваться как основной вариант функции потери метрик лернинга, позволяет получить высокие результаты при использовании представлений в задачах машинного обучения (см. табл. 5). Это позволяет отразить тот факт, что увеличение качества модели для задачи метрик лернинга не всегда приводит к увеличению качества при использовании представлений в задачах машинного обучения. Жесткий негативный майнинг приводит к значительному повышению качества при использовании представлений в задачах машинного обучения по сравнению со случайной негативной выборкой (см. табл. 7). Другое наблюдение состоит в том, что более сложная стратегия генерации подпоследовательности (например, случайные срезы) демонстрирует немного более низкое качество при использовании представлений в задачах машинного обучения по сравнению со случайной выборкой событий (см. табл. 6). На фиг. 2 показано, что при использовании представлений в задачах машинного обучения качество задачи увеличивается с размерностью представления. Наилучшее качество достигается при размерности представления 800. Дальнейшее увеличение размерности представления снижает качество. Результаты могут быть интерпретированы как проблема компромисса смещения-отклонения. Когда размерность представления слишком мала, можно отбросить слишком много информации (высокое смещение уклон). С другой стороны, когда размерность представления слишком велика, добавляется слишком много шума (высокая дисперсия).As shown in Table. 4, various encoder architectures show comparable performance in these tasks. At the same time, the contrastive loss function, which can be considered as the main variant of the learning metrics loss function, makes it possible to obtain high results when using representations in machine learning problems (see Table 5). This reflects the fact that increasing the quality of a model for a learning metrics problem does not always lead to an increase in quality when using representations in machine learning problems. Hard negative mining results in a significant quality improvement when using representations in machine learning problems compared to random negative sampling (see Table 7). Another observation is that a more complex subsequence generation strategy (such as random slicing) shows slightly lower quality when using representations in machine learning problems compared to random sampling of events (see Table 6). In FIG. Figure 2 shows that when using representations in machine learning problems, the quality of the problem increases with the dimension of the representation. The best quality is achieved with a representation dimension of 800. Further increase in the representation dimension reduces the quality. The results can be interpreted as a bias-deviation trade-off problem. When the representation dimension is too small, too much information can be discarded (high slope bias). On the other hand, when the dimension of the representation is too large, too much noise is added (high variance).

На фиг. 3 представлена схожая зависимость, отображающую плато между размерностью 256 и 2048, когда качество в задачах не увеличивается. Во всех экспериментах, кроме тех, что представлены на графике использовался размер векторов (эмбеддингов) равный 256.In FIG. Figure 3 shows a similar relationship showing a plateau between 256 and 2048 when the quality in the tasks does not increase. In all experiments, except for those presented in the graph, the size of vectors (embeddings) was 256.

Увеличение размерности представления также будет линейно увеличивать время обучения и объем используемой памяти на GPU.Increasing the dimension of the view will also linearly increase the training time and memory usage on the GPU.

Чтобы визуализировать представления MeLES в двумерном пространстве, был применен метод преобразования tSNE. tSNE преобразует многомерное пространство в низкоразмерное на основе локальных отношений между точками, поэтому соседние векторы представлений в многомерном пространстве представлений оказываются близкими в 2-мерном пространстве.To visualize MeLES representations in 2D space, the tSNE transform method was applied. tSNE converts high-dimensional space to low-dimensional space based on local relationships between points, so neighboring representation vectors in high-dimensional representation space are close in 2-dimensional space.

Представления были получены полностью обучением без учителя из необработанных пользовательских транзакций без какой-либо информации о целевой переменной. Последовательность транзакций отражает поведение пользователя, поэтому модель MeLES фиксирует поведенческие паттерны и выводит представления пользователей с похожими паттернами поблизости. Векторы tSNE из набора данных прогнозирования возраста представлены на фиг. 4. На фиг. 4 можно наблюдать 4 кластера: кластеры для группы '1' и '2' находятся на противоположной стороне облака, кластеры для групп '2' и '3' в середине.The views were obtained entirely by unsupervised learning from raw user transactions without any information about the target variable. The sequence of transactions reflects user behavior, so the MeLES model captures behavioral patterns and infers user views with similar patterns nearby. The tSNE vectors from the age prediction dataset are shown in FIG. 4. In FIG. 4, 4 clusters can be observed: clusters for groups '1' and '2' are on the opposite side of the cloud, clusters for groups '2' and '3' are in the middle.

Сравнение с базовыми методами. Как показано в табл. 8, заявленный способ генерирует представления последовательностей данных жизненного потока, которые обеспечивают высокое качество, сравнимое с вручную подготовленными признаками при использовании в последующих задачах. Более того представления, полученные с помощью нашего метода, дообученные под целевую переменную позволяют достигать самое высокое качество в обоих датасетах банковских транзакций, значительно опережая все часто используемые методы обучения.Comparison with basic methods. As shown in Table. 8, the inventive method generates lifestream data sequence representations that provide high quality comparable to manually prepared features when used in downstream tasks. Moreover, the representations obtained using our method, retrained for the target variable, allow us to achieve the highest quality in both datasets of banking transactions, significantly outperforming all commonly used training methods.

Таблица 8. Результаты обработки данных жизненного потокаTable 8. Results of processing lifestream data

Способ Way Возраст, Точность ±95% Age, Accuracy ±95% Пол, AUROC ±95% Sex, AUROC ±95% LightGBM на вручную построенных признаках LightGBM on manual constructed features 0.626 ±0.004 0.626±0.004 0.875 ±0.004 0.875±0.004 LightGBM с MeLES эмбедд ингами LightGBM with MeLES embedding 0.639 ±0.006 0.639±0.006 0.872 ±0.005 0.872±0.005 LightGBM на вручную построенных признаках и MeLES эмбеддингами LightGBM on manual built features and MeLES embeddings 0.643 ±0.009 0.643±0.009 0.882 ±0.003 0.882±0.003 Обучение с учителем Learning with a teacher 0.631 ±0.010 0.631±0.010 0.871 ±0.007 0.871±0.007 MeLES дообученный по целевую переменную MeLES retrained on the target variable 0.643 ±0.007 0.643±0.007 0.888 ±0.002 0.888±0.002 LightGBM на СРС эмбеддингах LightGBM on CPC embeddings 0.595 ±0.004 0.595±0.004 0.848 ±0.004 0.848±0.004 Дообученный по целевую переменную СРС Retrained for the target CPC variable 0.621 ±0.007 0.621±0.007 0.873±0.007 0.873±0.007

Кроме того, использование представлений последовательностей вместе с подготовленными вручную агрегатными признаками приводит к лучшему качеству, чем использование только агрегатных признаков или только представлении последовательностей, то есть возможно комбинировать различные подходы, чтобы получить еще более лучшую модель.Also, using sequence representations together with manually prepared aggregate features results in better quality than using only aggregate features or only sequence representation, i.e. it is possible to combine different approaches to get an even better model.

Чтобы оценить заявленный способ в условиях ограниченного количества размеченных данных, используется только часть доступной разметки для эксперимента с обучением без учителя. Так же как и в подходе обучения с учителем, выполняется сравнение предложенного метода с ligthGBM по вручнуюIn order to evaluate the claimed method with a limited amount of labeled data, only a portion of the available labeling is used for the unsupervised learning experiment. As in the supervised learning approach, the proposed method is compared with ligthGBM by hand.

- 8 040376 подготовленными агрегатным признакам и методом контрастного прогнозирующего кодирования СРС.- 8 040376 prepared aggregate features and the method of contrast predictive coding CPC.

Для обоих методов генерации представлений (MeLES и СРС) оценивается качество lightGBM как на представлениях, так и дообученных под целевую переменную представлений. В дополнение к этим экспериментам заявленный способ сравнивается с обучением с учителем на размеченной части датасета.For both methods of generating views (MeLES and CPC), the quality of lightGBM is evaluated both on views and views retrained for the target variable. In addition to these experiments, the claimed method is compared with supervised learning on the labeled part of the dataset.

На фиг. 5 - фиг. 6 сравнивается качество подготовленных вручную агрегатных признаков и представлений, накладывая метод lightGBM поверх них. Кроме того, на фиг. 7 - фиг. 8 можно найти сравнение отдельных моделей на задачах, рассмотренных в статье. Как видно на рисунках, если количество разметки ограничено, MeLES значительно превосходит подходы обучения с учителем и другие. Также MeLES неизменно превосходит СРС для данных с разным объемом разметки.In FIG. 5 - fig. 6 compares the quality of manually prepared aggregate features and views by overlaying the lightGBM method on top of them. In addition, in FIG. 7 - fig. 8 you can find a comparison of individual models on the tasks considered in the article. As can be seen in the figures, if the amount of markup is limited, MeLES is vastly superior to supervised learning and other approaches. MeLES also consistently outperforms CPC for data with varying amounts of markup.

В настоящем способе был применен подход на основе метрик лернинга для анализа данных жизненного потока новым образом, обучением без учителя. В рамках этого был разработан метод Metric Learning for Sequences (MeLES), основанный на обучении без учителя. В частности, метод MeLES может использоваться для создания представлений последовательностей событий со сложной структурой, которые могут эффективно использоваться в различных последующих задачах машинного обучения. Кроме того, заявленный метод может быть использован для предобработки признаков в условиях обучения без учителя. С помощью эмпирических экспериментов демонстрируется эффективность заявленного способа за счет достижения высоких результатов в качестве для нескольких задач, существенно опережая как классические базовые модели машинного обучения на основе созданных вручную признаков, так и подходы, основанные на нейронных сетях.The present method has applied a learning metrics approach to analyze lifestream data in a new way, unsupervised learning. As part of this, the Metric Learning for Sequences (MeLES) method was developed based on unsupervised learning. In particular, the MeLES method can be used to create complex structured event sequence representations that can be used effectively in various subsequent machine learning problems. In addition, the claimed method can be used for feature preprocessing under unsupervised learning conditions. With the help of empirical experiments, the effectiveness of the claimed method is demonstrated by achieving high quality results for several tasks, significantly outperforming both classical basic machine learning models based on manually created features and approaches based on neural networks.

В среде с ограниченной разметкой, заявленный способ демонстрирует еще более сильные результаты при сравнении с методами на основании обучения с учителем. Предложенный метод генерации представлений удобен для использования в продуктиве, поскольку для получения сложных компактных представлений почти не требуется предварительной обработки признаков на основе сложных потоков событий.In an environment with limited markup, the claimed method shows even stronger results when compared to methods based on supervised learning. The proposed view generation method is convenient for use in production, since obtaining complex compact views requires almost no preprocessing of features based on complex event flows.

Предварительно рассчитанные представления могут быть легко использованы для различных последующих задач без выполнения сложных и трудоемких вычислений агрегатных признаков на основе необработанных данных о событиях. Для некоторых архитектур кодировщиков становится возможно постепенно обновлять уже рассчитанные представления, когда поступают дополнительные новые данные событий жизненного потока. Другое преимущество использования представлений на основе последовательности событий вместо явных данных о событиях заключается в том, что невозможно восстановить точную входную последовательность из ее представлений. Следовательно, использование представлений приводит к конфиденциальности и безопасности данных для конечных пользователей, чем непосредственно при работе с необработанными данными событий, и все это достигается без потери информации при использования последующих задачах машинного обучения.The pre-calculated representations can be easily used for various downstream tasks without performing complex and time-consuming aggregate feature calculations based on the raw event data. For some encoder architectures, it becomes possible to incrementally update already computed views as additional new lifestream event data arrives. Another benefit of using sequence-of-event representations instead of explicit event data is that it is not possible to reconstruct the exact input sequence from its representations. Therefore, the use of views leads to data privacy and security for end users than directly working with raw event data, and all this is achieved without information loss when using subsequent machine learning tasks.

Источники информации:Information sources:

1. Srivatsan Laxman, Vikram Tankasali, and RyenWWhite. 2008. Stream prediction using a generative model based on frequent episodes in event sequences. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 453-461.1. Srivatsan Laxman, Vikram Tankasali, and RyenWWhite. 2008. Stream prediction using a generative model based on frequent episodes in event sequences. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 453-461.

2. Benard Wiese and Christian Omlin. 2009. Credit card transactions, fraud detection, and machine learning: Modelling time with LSTM recurrent neural networks. In Innovations in neural information paradigms and applications. Springer, 231-268.2. Benard Wiese and Christian Omlin. 2009. Credit card transactions, fraud detection, and machine learning: Modeling time with LSTM recurrent neural networks. In Innovations in neural information paradigms and applications. Springer, 231-268.

3. Yishen Zhang, DongWang, Yuehui Chen, Huijie Shang, and Qi Tian. 2017. Credit risk assessment based on long short-term memory model. In International conference on intelligent computing. Springer, 700-712.3. Yishen Zhang, DongWang, Yuehui Chen, Huijie Shang, and Qi Tian. 2017. Credit risk assessment based on long short-term memory model. In International conference on intelligent computing. Springer, 700-712.

4. Luca Bigon, Giovanni Cassani, Ciro Greco, Lucas Lacasa, Mattia Pavoni, Andrea Polonioli, and Jacopo Tagliabue. 2019. Prediction is very hard, especially about conversion. Predicting user purchases from clickstream data in fashion e-commerce. arXiv preprint arXiv: 1907.00400 (2019).4. Luca Bigon, Giovanni Cassani, Ciro Greco, Lucas Lacasa, Mattia Pavoni, Andrea Polonioli, and Jacopo Tagliabue. 2019. Prediction is very hard, especially about conversion. Predicting user purchases from clickstream data in fashion e-commerce. arXiv preprint arXiv: 1907.00400 (2019).

5. Sumit Chopra, Raia Hadsell, and Yann LeCun. 2005. Learning a similarity metric discriminatively, with application to face verification. In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), Vol. 1. IEEE, 539546.5. Sumit Chopra, Raia Hadsell, and Yann LeCun. 2005. Learning a similarity metric discriminatively, with application to face verification. In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), Vol. 1. IEEE, 539546.

6. Florian Schroff, Dmitry Kalenichenko, and James Philbin. 2015. FaceNet: A unified embedding for face recognition and clustering. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015), 815-823.6. Florian Schroff, Dmitry Kalenichenko, and James Philbin. 2015. FaceNet: A unified embedding for face recognition and clustering. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015), 815-823.

- 9 040376- 9 040376

7. Kilian Q Weinberger, John Blitzer, and Lawrence К Saul. 2006. Distance metric learning for large margin nearest neighbor classification. In Advances in neural information processing systems. 1473-1480.7. Kilian Q Weinberger, John Blitzer, and Lawrence K Saul. 2006. Distance metric learning for large margin nearest neighbor classification. In Advances in neural information processing systems. 1473-1480.

8. Li Wan, Quan Wang, Alan Papir, and Ignacio Lopez Moreno. 2017. Generalized End-toEnd Loss for Speaker Verification. (2017). arXiv:eess.AS/1710.104678. Li Wan, Quan Wang, Alan Papir, and Ignacio Lopez Moreno. 2017. Generalized End-to-End Loss for Speaker Verification. (2017). arXiv:eess.AS/1710.10467

9. Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. http://arxiv.org/abs/1908.100849. Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. http://arxiv.org/abs/1908.10084

10. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding. In NAACLHLT10. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding. In NAACLHLT

11. Aaron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation Learning with Contrastive Predictive Coding. CoRR abs/1807.03748 (2018). arXiv: 1807.03748 http://arxiv.org/abs/1807.0374811. Aaron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation Learning with Contrastive Predictive Coding. CoRR abs/1807.03748 (2018). arXiv: 1807.03748 http://arxiv.org/abs/1807.03748

12. Longlong Jing and Yingli Tian. 2019. Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey. (2019). arXiv:cs.CV/1902.06162.12 Longlong Jing and Yingli Tian. 2019. Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey. (2019). arXiv:cs.CV/1902.06162.

13. Yang Song, Yuan Li, BoWu, Chao-Yeh Chen, Xiao Zhang, and HartwigAdam. 2017. Learning Unified Embedding for Apparel Recognition. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) (2017), 2243-2246.13. Yang Song, Yuan Li, BoWu, Chao-Yeh Chen, Xiao Zhang, and HartwigAdam. 2017. Learning Unified Embedding for Apparel Recognition. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) (2017), 2243-2246.

14. Andrew Zhai, Hao-Yu Wu, Eric Tzeng, Dong Huk Park, and Charles Rosenberg. 2019. Learning a Unified Embedding for Visual Search at Pinterest. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD Ί9). ACM, New York, NY, USA, 2412-2420. https://doi.org/10.1145/3292500.3330739.14. Andrew Zhai, Hao-Yu Wu, Eric Tzeng, Dong Huk Park, and Charles Rosenberg. 2019. Learning a Unified Embedding for Visual Search at Pinterest. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD Ί9). ACM, New York, NY, USA, 2412-2420. https://doi.org/10.1145/3292500.3330739.

15. David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. 1985. Learning internal representations by error propagation. Technical Report. California Univ San Diego La Jolla Inst for Cognitive Science.15. David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. 1985. Learning internal representations by error propagation. technical report. California Univ San Diego La Jolla Inst for Cognitive Science.

16. Diederik P Kingma and Max Welling. 2013. Auto-encoding variational bayes. arXiv preprint arXiv: 1312.6114 (2013).16. Diederik P Kingma and Max Welling. 2013. Auto-encoding variational bayes. arXiv preprint arXiv: 1312.6114 (2013).

17. Rogelio A Mancisidor, Michael Kampffmeyer, Kjersti Aas, and Robert Jenssen. 2019. Learning Latent Representations of Bank Customers With The Variational Autoencoder. (2019). arXiv:stat.ML/1903.06580.17. Rogelio A Mancisidor, Michael Kampffmeyer, Kjersti Aas, and Robert Jenssen. 2019. Learning Latent Representations of Bank Customers With The Variational Autoencoder. (2019). arXiv:stat.ML/1903.06580.

18. Eric P Xing, Michael I Jordan, Stuart J Russell, and Andrew Y Ng. 2003. Distance metric learning with application to clustering with side-information. In Advances in neural information processing systems. 521-528.18. Eric P Xing, Michael I Jordan, Stuart J Russell, and Andrew Y Ng. 2003. Distance metric learning with application to clustering with side-information. In Advances in neural information processing systems. 521-528.

19. Raia Hadsell, Sumit Chopra, and Yann LeCun. 2006. Dimensionality Reduction by Learning an Invariant Mapping. In Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR ’06). IEEE Computer Society, Washington, DC, USA, 1735-1742. https://doi.org/10.1109/CVPR.2006.10Q.19. Raia Hadsell, Sumit Chopra, and Yann LeCun. 2006. Dimensionality Reduction by Learning an Invariant Mapping. In Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR ’06). IEEE Computer Society, Washington, DC, USA, 1735-1742. https://doi.org/10.1109/CVPR.2006.10Q.

20. Florian Schroff, Dmitry Kalenichenko, and James Philbin. 2015. FaceNet: A unified embedding for face recognition and clustering. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015), 815-823.20. Florian Schroff, Dmitry Kalenichenko, and James Philbin. 2015. FaceNet: A unified embedding for face recognition and clustering. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015), 815-823.

21. Chengzhi Mao, Ziyuan Zhong, Junfeng Yang, Carl Vondrick, and Baishakhi Ray. 2019. Metric learning for adversarial robustness. In Advances in Neural Information Processing Systems (2019), 478-489.21. Chengzhi Mao, Ziyuan Zhong, Junfeng Yang, Carl Vondrick, and Baishakhi Ray. 2019. Metric learning for adversarial robustness. In Advances in Neural Information Processing Systems (2019), 478-489.

22. Tomas Mikolov, G.s Corrado, Kai Chen, and Jeffrey Dean. 2013. Efficient Estimation of Word Representations in Vector Space. 1-12.22. Tomas Mikolov, G.s Corrado, Kai Chen, and Jeffrey Dean. 2013. Efficient Estimation of Word Representations in Vector Space. 1-12.

- 10 040376- 10 040376

Claims

CLAIM

1. A computer-implemented method for obtaining low-dimensional numerical representations of sequences of events, comprising the steps of obtaining a set of input data characterizing events aggregated into a sequence and associated with at least one information entity, wherein said data contains a set of attributes, including categorical variables, numeric variables and timestamp; at the same time, the preprocessing of the mentioned set of input data is performed, in which positive pairs of sequences of transactional events are formed, which are subsequences belonging to the sequence of transactional events of one information entity;

generating negative pairs of transactional event subsequences, which are subsequences belonging to transactional event sequences of different information entities;

using the transactional event encoder, a vector representation of each transactional event from the above set of attributes is formed, while the encoder contains a primary set of parameters and performs the steps of encoding categorical variables in the form of vector representations;

carry out normalization of numerical variables;

carry out the processing of timestamps to build a time-ordered sequence of transactional events;

carry out the concatenation of the obtained vector representations of categorical variables and normalized numerical variables;

form a single numerical vector of one transactional event based on the results of the performed concatenation;

using a subsequence encoder, generating a vector representation of a subsequence of transactional events from a set of numeric transactional event vectors obtained using the transactional event encoder, the encoder comprising a primary set of parameters;

carry out filtering of negative pairs of vectors of subsequences of transactional events, the value of the vector distance between which is not higher than the specified threshold value;

adjusting primary parameters of said transactional event encoder and subsequence encoder by applying a marginal or contrastive loss type loss function; and generating low-dimensional numerical representations of sequences of events associated with one information entity based on the adjustment made.

2. The method according to claim 1, characterized in that the information entity is the transactional data of an individual or legal entity.

3. The method according to claim 1, characterized in that the creation of positive pairs is carried out using an algorithm for the formation of disconnected subsequences.

4. The method according to claim 1, characterized in that the creation of positive pairs is carried out using an algorithm for generating random slices of the sequence.

5. The method according to claim 3, characterized in that the generated subsequences do not intersect with each other.

6. The method according to claim 4, characterized in that the generated subsequences do not intersect and/or intersect with each other.

7. The method according to claim 1, characterized in that the subsequence encoder is a recurrent neural network (RNN).

I loc.ic 1on:11s.1yyusl> cooypsh ΧΊ

minimization