EA041011B1 - Способ и система определения легитимности транзакций на основании векторных представлений участников транзакций - Google Patents

Способ и система определения легитимности транзакций на основании векторных представлений участников транзакций Download PDF

Info

Publication number
EA041011B1
EA041011B1 EA201991626 EA041011B1 EA 041011 B1 EA041011 B1 EA 041011B1 EA 201991626 EA201991626 EA 201991626 EA 041011 B1 EA041011 B1 EA 041011B1
Authority
EA
Eurasian Patent Office
Prior art keywords
transaction
devices
transactions
vector
participants
Prior art date
Application number
EA201991626
Other languages
English (en)
Inventor
Дмитрий Андреевич Андреев
Андрей Михайлович Пинчук
Original Assignee
Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) filed Critical Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк)
Publication of EA041011B1 publication Critical patent/EA041011B1/ru

Links

Description

Область техники
Заявленное решение относится, в общем, к области обработки данных, а в частности к способу и системе определения схожести векторных представлений участников транзакций.
Уровень техники
В настоящее время в наибольшем количестве случаев мошенничества в качестве канала вывода средств используются переводы на платежные карты (дебетовые или кредитные). Для эффективного противодействия мошенничеству, в частности, с учетом доминирующего типа мошенничества самопереводы, важной является задача определения пространственной геопозиционной близости клиентов, совершающих транзакционные переводы, т.е. анализ их фактического расположения в той или иной географической области.
Поскольку в большинстве случаев мошенники не знают территориальной принадлежности клиента и не могут подобрать мошеннические карты вывода из той же локации, то осуществляют вывод денежных средств на доступные дроперские платежные карты. При этом легитимные переводы в основном происходят между клиентами из близкой геолокации (покупка товаров, оплата оказанных р2р услуг, перевод знакомым и пр.). Информация, позволяющая определить, насколько отправитель и получатель близки относительно их геопозиций, поможет повысить качество моделей выявления мошенничества.
Известные подходы основываются, например, на привязке клиентов к тому или иному территориально расположенному банку и/или геоданных POS-терминалов/УС (банкоматов), в которых клиент пользуется платежной картой, и использовать их для определения геолокации клиента. Такие решения, например, раскрываются в следующих патентных документах: US 20120215701 A1 (Playspan Inc., 23.08.2012), US 20190043054 A1 (Capital One Services LLC, 07.02.2019), US 20120209773 A1 (PayPal Inc., 16.08.2012). Известный подход обладает следующими недостатками.
Территориальная принадлежность банка - очень обширная территория, поэтому сильно возрастает шанс, что карта вывода мошенников окажется из того же территориального банка;
POS - геоданные по POS-терминалам отсутствуют, есть только информация по мерчантуарендатору и его юридический адрес/индекс. Данная информация для крупных сетей не позволяет установить местонахождение POS-терминалов. также реально они могут самим мерчантом перемещаться в другие города/регионы без информирования об этом банка.
Банкомат - по данной категории информация представлена наиболее полно. Проблема заключается в том. что не все клиенты при осуществлении транзакций пользуются банкоматами.
Таким образом, необходимо разработать эффективный механизм определения геопозиционной близости участников транзакций без использования географических координат.
Раскрытие изобретения
Решаемой технической проблемой или технической задачей является определение геопозиционной близости между участниками транзакции на основании их векторных представлений. Техническим результатом является обеспечение возможности определения местоположения клиентов на основании данных о транзакции. Основной задачей заявленного способа является представление участников транзакции в виде векторов, позволяющих определить близость/удаленность участников (отправителей и получателей платежей) за счет преобразования их данных в векторную форму и определению векторной близости (например, cosine similarity) и использование данной информации в моделях оценки риска транзакций. Заявленный результат достигается за счет компьютерно-реализуемого способа определения схожести векторных представлений участников транзакций, выполняемый с помощью процессора и содержащий этапы, на которых получают данные транзакций, содержащие, по меньшей мере, идентификационные данные отправителей и получателей транзакций, и данные устройств осуществления транзакций, включающие ID устройств, используемых упомянутыми участниками транзакций;
формируют на основании полученных данных цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций;
осуществляют формирование векторных сущностей с помощью преобразования упомянутых цепочек транзакционных активностей, причем упомянутые сущности содержат представления устройств осуществления транзакций;
определяют медиану среди значений векторного представления для каждого участника транзакции и формируют его векторную сущность на основании усредненного значения векторных представлений цепочки связанных с ним устройств осуществления транзакции;
выполняют расчет косинусного расстояния между векторным представлением участников транзакций, причем участники являются связанными отправителем и получателем транзакции; и определяют векторное расстояние между упомянутыми участниками транзакций на основании значения косинусной близости.
В одном из частных вариантов осуществления способа устройства осуществления транзакций представляют собой банкомат и/или POS-терминал.
В другом частном варианте осуществления способа данные транзакций характеризуют р2р перево
- 1 041011 ды. Заявленный результат также реализуется за счет системы определения схожести векторных представлений участников транзакций, которая содержит по меньшей мере один процессор и память, хранящую машиночитаемые инструкции, которые при их исполнении процессором реализуют вышеуказанный способ.
Краткое описание чертежей
Фиг. 1 иллюстрирует блок-схемы процесса выполнения заявленного способа, фиг. 2 - пример валидации тестовой выборки, фиг. 3 - график распределения типов транзакций, фиг. 4 - пример вычислительной системы.
Осуществление изобретения
На фиг. 1 представлен процесс исполнения заявленного способа (100) определения схожести векторных представлений участников транзакций. Под участниками транзакций понимаются лица, осуществляющие транзакционные переводы типа клиент-клиент (р2р). На первом этапе (101) выполнения способа (100) осуществляется сбор транзакционных данных, которые содержат информацию о транзакционной активности клиентов (покупки товаров, переводы, оплата услуг, снятие наличных и пр.). Каждый транзакционный перевод, как правило, характеризуется информацией, идентифицирующей отправителя перевода и ID устройства для осуществления транзакции, в качестве которых может использоваться POS-терминал или банкомат.Дополнительно может учитываться информация об IP-адресах устройств осуществления транзакций. Затем на основании полученной информации на этапе (101) формируют цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций (102). По транзакционной информации для каждого клиента известна последовательность устройств для осуществления транзакций, которые используются для осуществления операций, например
Клиент 1 - (POS_1, POS_2, POS_3, АТМ_5);
Клиент 2 - (АТМ_1, POS_10, POES_2, АТМ_4).
Далее с помощью модели машинного обучения осуществляется векторизация ID устройств для каждой цепочки транзакционной активности (103) для формирования векторных представлений ID устройств, которые используются клиентами в ходе выполнения транзакций. В данной задаче используется модель семейства векторного преобразования word2vec, в частности Continuous Bag of Words (CBOW), которая широко применяется в задачах NLP. Суть алгоритма заключается в том, что на вход нейронной сети с одним скрытым слоем и выходным слоем подается контекст какого-либо слова, а целевой переменной для оптимизации при этом является само слово. Таким образом, модель учится предсказывать слово по данному контексту. Скрытый слой обученной модели используется как эмбеддинг (англ. Wordembedding - (векторное) представление слова), который на практике показал хорошую способность обобщать взаимоотношения между словами корпуса. В данном случае в качестве слов выступают векторные представления устройств для выполнения транзакций: POS/УС (устройства самообслуживания), а предложений - последовательность устройств, которые использует один пользователь. Под УС в данном контексте будут пониматься банкоматы.
Для обучающей выборки модели машинного обучения были выбраны операции в УС и POSтерминалах на подвыборке из пользователей за определенный временной промежуток, в частности 1 месяц. Сэмплирование проводилось по пользователям, соответственно, если пользователь попадает в выборку, то все его УС и POS, которые он использовал для выполнения транзакций, используются для обучения модели. Точки пользователя были упорядочены по времени, и если точка использовалась два или более раз подряд, то повторные использования удалялись, но если эта точка использовалась дальше, после другой точки, то она оставалась в выборке. Например
Исходная последовательность точек: А -> А -> С -> А -> В -> В
Последовательность после обработки: А -> С -> А -> В
Представленный выше пример цепочки используемых ID устройств в векторной форме будет выглядеть следующим образом:
POS1 =(1,1,1);
POS2 = (2,0,5);
P0S-1O = (1,0,0);
АТМ1 = (3,3,3);
АТМ4 = (1,1,1);
АТМ5 = (0,1,4).
После преобразования ID устройств для осуществления транзакций в векторную форму, на этапе (104) определяют медиану среди значений векторного представления для каждого участника транзакции и формируют его векторное представление на основании усредненного значения векторных представлений цепочки связанных с ним ID устройств осуществления транзакций. Для каждого клиента соответствующая цепочка транзакционной активности приобретает следующий вид: клиент 1 = ((1,1,1), (2,0,5),
- 2 041011 (1,1,1), (0,1,4)). На основании полученного векторного представления в виде цепочки транзакционной активности осуществляется покоординатное усреднение через медиану. Для приведенного выше примера усредненное значение будет представлено в виде вектора (1,1,2.5).На основании сформированных цепочек производится трансформация представлений (POS/ATM, IP-адреса) в пространство латентных переменных, в котором косинусная близость усредненных по медиане векторов, описывающих клиентов, определяет их пространственную близость (105), т.е. близость в векторном пространстве между отправителями и получателями транзакции. Ниже будет представлен пример вычисления соответствующих векторов.
Пример.
Клиент 1 = (1,1,2.5).
Клиент 2 =(1,1.2,2.1).
Клиент 3 = (4, 0, 0.3) cosine distance = 1 - cosine similarity cosine distance Клиент 1 - Клиент 2 = 1 - (1*1 + 1* 1,2 + 2,5*2,1)/(2,87*2,62) = 1 - 0,99 =
0,01 cosine distance Клиент 1 - Клиент 3 = 1 - (1*4 + 1*0 + 2,5*0,3)/(2,87*4,01) = 1 - 0,41 =
0,59.
Из приведенного примера видно, что клиент 1 и клиент 2, с точки зрения косинусного расстояния, расположены гораздо ближе друг к другу по сравнению с клиентом 1 и клиентом 3. Следовательно, геопозиционная близость и паттерн поведения клиента 1 и клиента 2 достаточно близки, из чего можно судить, что транзакции между ними будут более легитимными по сравнению с транзакциями между клиентом 1 и клиентом 3.
Алгоритм формирования векторных представлений пользователей на основании векторных представлений устройств для выполнения транзакций позволяет вычислить embedding-вектора самого пользователя - участника транзакции, чтобы косинусная близость векторов пользователей отвечала их геолокационной близости. Таким образом, данную информацию можно впоследствии использовать для анализа транзакционной мошеннической активности.
Далее рассмотрим процесс валидации выборки модели машинного обучения, представленный на фиг. 2. Для быстрой валидации обученных векторных представлений был использован следующий алгоритм: бралось случайное УС (по которому доступны координаты) и искались ближайшие к нему соседи УС по векторному представлению (эмбеддингу). Точка и соседи визуализировались на карте по их геокоординатам. Аналогично по этим же начальным точкам строились самые удаленные УС. Процесс повторялся для нескольких десятков точек. Такая валидация позволяла наглядно оценить, насколько близко на географической карте лежат друг к другу точки, которые близки на эмбеддинге.
Второй вариант проверки - это использование эмбеддинга по УС/POS для расчета расстояния между пользователями и подсчет статистик по этому расстоянию для анализа ложных срабатываний системы фрод-мониторинга (легитимные транзакции) и мошеннических операций. Расстояние между пользователями считалось по следующему алгоритму:
1) ко всем устройствам, которые использовал пользователь, присоединялись рассчитанные измерения эмбеддинга (если по какому-то из устройств эмбеддинг отсутствовал, то он удалялся);
2) по измерениям эмбеддинга бралась медиана для каждого пользователя;
3) по медиане эмбеддинга измерялось косинусное расстояние между пользователями.
Далее по рассчитанному расстоянию брались перцентили с шагом 5 для операций с маркировкой F (мошенничество), G ложные сработки (легитимные). Для заданного диапазона валидационного периода, например, 1 месяц, была получена следующая статистика, представленная в табл. 1.
- 3 041011
Таблица 1
Резолюция G Резолюция F
Среднее значение 0.438722 0.605779
10% 0.045853 0.368789
15% 0.078012 0.447429
20% 0.129106 0.500713
25% 0.200715 0.535979
30% 0.279735 0.562158
35% 0.347871 0.584887
40% 0.404844 0.605386
45% 0.451961 0.625186
50% 0.491147 0.640448
55.0% 0.524677 0.655949
60% 0.556372 0.677363
65% 0.586804 0.691357
70% 0.616419 0.710837
75% 0.645766 0.726743
80% 0.675748 0.750359
85% 0.707574 0.770369
90% 0.747735 0.803793
95% 0.803826 0.860480
Из приведенного выше примера следует, что если установить значения порога допустимости для легитимных операций, например, расстояние в 0.44, то таким образом будет заблокировано 85% мошеннических операций, но при этом ложные срабатывания можно сократить на более чем 40%, что показывает хорошую разделяющую способность данной метрики.
Если расстояния по всей выборке разбить на бины и потом проанализировать соотношение мошеннических операций к легитимным (ложные срабатывания), то будет видно, что с увеличением дистанции увеличивается количество мошеннических операций и их доля в бине (табл. 2). Пример графика представлен на фиг. 3.
Таблица 2
Перцентиль расстояния Мошенническая Легитимная Соотношение F/G
регс_10 12 166 7%
регс_20 11 170 6%
регс_30 10 170 6%
регс_40 22 157 14%
регс_50 26 154 17%
регс_60 28 151 19%
регс_70 42 138 30%
регс_80 56 123 46%
регс_90 80 100 80%
регс_100 107 73 147%
В результате реализации заявленного способа (100) был создан эффективный принцип представления и обработки данных для определения геоблизости клиентов без использования геокоординат. Также использование полученных данных может применяться для целей анализа и противодействия мошенническим операциям. На фиг. 4 представлен пример общего вида вычислительной системы (200) на базе вычислительного устройства (200), которое обеспечивает реализацию заявленного способа или является частью компьютерной системы, например сервером, обрабатывающим необходимые данные для осуществления способа (100). В общем случае, вычислительное устройство (200) содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как
-

Claims (2)

  1. ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205) и устройство для сетевого взаимодействия (206).
    Процессор (201) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором также необходимо учитывать графический процессор, например GPU NVIDIA или ATI, который также является пригодным для полного или частичного выполнения способа (100). При этом средством памяти может выступать доступный объем памяти графической карты или графического процессора. ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.).
    ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш-память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD-R/RW, BlueRay Disc, MD) и др.
    Для организации работы компонентов устройства (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь, PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. Для обеспечения взаимодействия пользователя с вычислительным устройством (200) применяются различные средства (205) В/В информации, например клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.
    Средство сетевого взаимодействия (206) обеспечивает передачу данных устройством (200) посредством внутренней или внешней вычислительной сети, например Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться, Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль,Wi-Fi модуль и др.Дополнительно могут применяться также средства спутниковой навигации в составе устройства (200), например GPS, ГЛОНАСС, BeiDou, Galileo. Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные,частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.
    ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Компьютерно-реализуемый способ определения легитимности транзакций на основании близости векторных представлений участников транзакций, выполняемый с помощью процессора и содержащий этапы, на которых по лучают данные транзакций, содержащие, по меньшей мере, идентификационные данные отправителей и получателей транзакций, и данные устройств осуществления транзакций, включающие ID устройств, используемых упомянутыми участниками транзакций;
    фо рмируют на основании полученных данных цепочки транзакционных активностей, причем каждая из цепочек относится к транзакциям одного участника транзакций между устройствами осуществления транзакций;
    ос уществляют формирование векторных представлений устройств осуществления транзакций с помощью преобразования упомянутых цепочек транзакционных активностей;
    оп ределяют медиану среди полученных значений векторных представлений устройств для осуществления транзакций для каждого участника транзакции и формируют его векторное представление на основании усредненного значения векторных представлений цепочки связанных с ним устройств осуществления транзакции;
    вы полняют расчет косинусного расстояния между усредненными векторными представлениями участников транзакций, причем участники являются связанными отправителем и получателем транзакции;
    оп ределяют векторное расстояние между упомянутыми участниками транзакций на основании значения косинусного расстояния;
    определяют легитимность транзакции между упомянутыми участниками транзакций на основании определенного векторного расстояния.
  2. 2. Способ по п.1, характеризующийся тем, что устройство осуществления транзакций представляет
    -
EA201991626 2019-05-28 2019-07-31 Способ и система определения легитимности транзакций на основании векторных представлений участников транзакций EA041011B1 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019116394 2019-05-28

Publications (1)

Publication Number Publication Date
EA041011B1 true EA041011B1 (ru) 2022-08-29

Family

ID=

Similar Documents

Publication Publication Date Title
WO2018121113A1 (zh) 一种异常转账侦测方法和装置
US20210264458A1 (en) Preempting or resolving fraud disputes relating to introductory offer expirations
US20220284435A1 (en) System, Method, and Computer Program Product for Determining a Reason for a Deep Learning Model Output
KR102142524B1 (ko) 인공지능을 이용한 암호화폐 가격 변동성 예측 방법, 장치 및 컴퓨터프로그램
CN111428872A (zh) 用于将来自更复杂模型的知识融入更简单模型中的系统、方法和计算机程序产品
KR102110266B1 (ko) 인공지능을 이용한 암호화폐 탈세 여부 판단 방법, 장치 및 컴퓨터프로그램
WO2023067025A1 (en) Mixed quantum-classical method for fraud detection with quantum feature selection
Lokanan Predicting mobile money transaction fraud using machine learning algorithms
Reardon et al. Visualization of ATM usage patterns to detect counterfeit cards usage
US10049306B2 (en) System and method for learning from the images of raw data
KR102199587B1 (ko) 암호화폐 거래 분석 방법 및 장치
RU2728953C1 (ru) Способ и система определения схожести векторных представлений участников транзакций
EA041011B1 (ru) Способ и система определения легитимности транзакций на основании векторных представлений участников транзакций
KR20210110442A (ko) 인공지능을 이용한 암호화폐 계좌의 클러스터링 방법, 장치 및 컴퓨터프로그램
CN113052512A (zh) 风险预测方法、装置和电子设备
KR20210106592A (ko) 인공지능을 이용한 암호화폐 계좌 분류 방법, 장치 및 컴퓨터프로그램
CN113159924A (zh) 授信客户对象的确定方法及装置
Zand Towards intelligent risk-based customer segmentation in banking
JP2010079555A (ja) 与信判定システム及び書類改竄判定方法
WO2020130868A1 (ru) Способ и система поиска мошеннических транзакций
KR102112798B1 (ko) 인공지능을 이용한 암호화폐 계좌의 클러스터링 방법, 장치 및 컴퓨터프로그램
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
RU2769084C2 (ru) Способ и система нахождения схожих мошеннических групп по графовым моделям
Kanimozhi et al. Predicting Mortgage-Backed Securities Prepayment Risk Using Machine Learning Models
Shivraman et al. A Model Frame Work To Segregate Clusters Through K-Means Method