CN114746873A - 利用先前交易的交易后数据以允许使用近期交易数据的技术 - Google Patents

利用先前交易的交易后数据以允许使用近期交易数据的技术 Download PDF

Info

Publication number
CN114746873A
CN114746873A CN201980102321.3A CN201980102321A CN114746873A CN 114746873 A CN114746873 A CN 114746873A CN 201980102321 A CN201980102321 A CN 201980102321A CN 114746873 A CN114746873 A CN 114746873A
Authority
CN
China
Prior art keywords
transaction
transactions
classifier
data
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980102321.3A
Other languages
English (en)
Inventor
林鹰
张家琪
王真
莫文凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PayPal Inc
Original Assignee
PayPal Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PayPal Inc filed Critical PayPal Inc
Publication of CN114746873A publication Critical patent/CN114746873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/085Payment architectures involving remote charge determination or related payment systems
    • G06Q20/0855Payment architectures involving remote charge determination or related payment systems involving a third party
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/405Establishing or using transaction specific rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

公开了与交易分类相关的技术。在一些实施例中,计算机系统基于已生成训练标签的第一组交易的交易前数据和交易后数据来训练初始交易分类器。计算机系统可以将未生成训练标签的第二组交易的交易前数据和交易后数据输入到经训练的初始交易分类器。经训练的初始交易分类器可以基于输入来生成分类器输出。计算机系统可以选择分类器输出满足置信度阈值的第二组交易的子集,并且可以基于分类器输出来生成所选子集中的交易的训练标签。在一些实施例中,计算机系统基于子集的交易前数据和生成的训练标签来训练第二交易分类器,并且存储用于经训练的第二交易分类器的配置参数。

Description

利用先前交易的交易后数据以允许使用近期交易数据的技术
背景技术
技术领域
本公开总体涉及处理电子交易,并且更具体地,涉及用于训练交易分类器以例如为了交易安全而对交易进行分类的技术。
相关技术的描述
欺诈性电子交易可能会导致重大损失和安全漏洞。可以对被识别为欺诈性交易的交易进行适当的标记,并且使用这些交易来检测和处理后续的欺诈性交易。例如,使用传统技术,安全系统可以使用基于已知标签的较早交易的交易前信息进行训练的模型来对交易进行分类。
附图说明
图1是示出根据一些实施例的示例训练模型的框图,该训练模型涉及两个不同的训练流程,以利用较早交易的交易后数据来使用更近期的交易对分类器进行训练。
图2是示出根据一些实施例的在训练分类器中使用的交易数据的示例时间线的图示。
图3是示出根据一些实施例的训练模型的更详细示例的框图。
图4是示出根据一些实施例的使用传统分类器和使用所公开技术而训练的分类器两者的示例集成(ensemble)技术的图示。
图5是示出根据一些实施例的详细示例交易时间线的图示。
图6是示出根据一些实施例的用于基于近期交易来生成经训练的交易分类器的方法的流程图,包括通过利用较早交易的交易后数据来生成用于近期交易的标签。
图7是示出根据一些实施例的示例计算设备的框图。
本说明书包括对各种实施例的引用,以表明本公开并非旨在引用一个特定的实现方式,而是在包括所附权利要求的本公开的精神内的一系列实施例。特定的特征、结构或特性可以以与本公开一致的任何合适方式进行组合。
在本公开中,不同实体(可以在不同情况下被称为“单元”、“电路”、其他组件等)可以被描述或称为“被配置为”执行一个或多个任务或操作。这种表述——被配置为[执行一个或多个任务]的[实体]——在本文中用于指代结构(即,实体事物,诸如,电子电路)。更具体地,这种表述用于指示此结构被布置为在操作期间执行一个或多个任务。可以说一种结构“被配置为”执行某个任务,即使此结构当前没有被操作。“被配置为对一笔或多笔交易进行分类的交易处理系统”旨在涵盖,例如,在操作期间执行此功能的计算机系统,即使它当前未被使用(例如,当其电源未连接时)。因此,被描述或引用为“被配置为”执行某个任务的实体是指实体事物,诸如,设备、电路、存储可执行以实现任务的程序指令的存储器等。此短语在本文中不用于指代无形的事物。
术语“被配置为”并非意指“可被配置为”。例如,未编程的移动计算设备将不会被视为“被配置为”执行某个特定功能,但是它可能“可被配置为”执行此功能。在适当的编程之后,移动计算设备随后可以被配置为执行此功能。
在所附权利要求中陈述一种结构被“被配置为”执行一个或多个任务的明确意图不是援引35U.S.C.§112(f)用于此权利要求要素。因此,本申请中所提交的权利要求均不旨在被解释为具有设备加功能要素。如果申请人希望在审查(prosecution)期间援引第112(f)条,那么将使用“用于[执行某种功能]的设备”结构体来列举权利要求要素。
如本文所用,词语“第一”、“第二”等用作它们前面的名词的标签,并且不暗示任何类型的排序(例如,空间、时间、逻辑等),除非特别说明。例如,在具有多个用户账户的计算系统中,词语“第一”和“第二”用户账户可以用于指代任何用户。换言之,例如,“第一”和“第二”用户账户不限于最初创建的两个用户账户。当在本文中使用时,词语“或”用作包含性的“或”,而不用作排他性的“或”。例如,短语“x、y或z中的至少一者”意指x、y和z中的任一者,以及它们的任何组合(例如,x和y但不包括z,或x、y以及z)。
如本文所用,“基于”一词用于描述影响确定的一个或多个因素。此词语不排除附加因素可能影响确定的可能性。也就是说,确定可以仅基于指定的因素,或基于指定的因素以及其他未指定的因素。考虑“基于B来确定A”这一短语。此短语指定B是一个因素,且用于确定A或影响A的确定。此短语不排除A的确定也可能基于某些其他因素(诸如,C)。此短语还旨在涵盖仅基于B来确定A的实施例。如本文所用,短语“基于”与短语“至少部分地基于”同义。
如本文所用,“处理元件”一词是指被配置为执行程序指令(或其部分或其组合)的各种元件。处理元件包括,例如,诸如ASIC(专用集成电路)之类的电路、单个处理器核心的部分或电路、整个处理器核心、单个处理器、诸如现场可编程门阵列(FPGA)之类的可编程硬件设备,和/或包括多个处理器的系统的更大部分,以及它们的任何组合。
具体实施方式
公开了利用交易后数据以使用未成熟交易数据来训练机器学习模型的技术。“未成熟”交易是相关标签尚未为人所知或尚未生成,且通常是相对近期的那些交易。例如,这些交易可能已经完成,但可能仍在审核间隔内,之后它们可以被标记为是正当的或是欺诈性的。相比之下,成熟交易的相关分类器标签是众所周知的。传统上,来自未成熟交易的数据并未用于训练机器学习分类器。此外,传统的训练技术通常不使用交易后数据。
相比之下,在公开的实施例中,成熟和未成熟交易的交易后数据被用于生成针对高置信度未成熟交易的子集的标签。然后,使用这些标签来训练一个或多个分类器,以对生产环境中的交易进行分类。如下文进一步详细讨论的,这可能涉及使用不同交易分类器的多个训练流程。
在一些情况下,所公开的技术可以通过将未成熟交易合并到分类器训练中来改进对欺诈性交易的识别。例如,考虑包括交易A、B和C的一组交易,其中交易A是成熟的(例如,具有已知标签)且与交易B和C相比相对较早的欺诈性交易,交易B是未成熟且相对较近期的,且交易C是正在进行归类的当前交易。使用传统技术,由于交易B的标签未知,因此交易B不会在交易C之前用于训练分类模型。然而,在所公开的技术中,可以利用交易A的交易后数据来生成交易B的标签,其可以被用于训练交易分类器以对生产交易(诸如,交易C)进行分类。
利用较早交易的交易后数据来生成近期交易的标签,然后使用这些标签来训练分类模型,这可以有利地允许经训练的分类模型比传统技术更准确地对生产交易进行分类(例如,确定交易是否是欺诈性的)。这可以允许安全系统针对检测到的欺诈性交易发起安全操作,诸如,防止交易发生、对交易进行标记以进行额外的审核或分类,或者提示对交易进行额外的认证。
多分类器训练示例
图1是示出根据一些实施例的示例训练技术的框图,该示例训练技术具有利用较早交易的交易后数据以使用更近期的交易来训练分类器的两个不同训练元件。在所示实施例中,训练系统对初始交易分类器110进行训练并使用初始交易分类器来生成针对未成熟交易的标签,然后使用这些标签来训练第二交易分类器130。
在所示实施例中,初始交易分类器110接收第一组交易114的交易前和交易后数据,并将第一组中的交易的分类提供给训练模块112。在一些实施例中,第一组交易114包括一笔或多笔较早的交易,这些交易在当前时间之前的阈值时间量完成并且已经为其生成了标签。
在所示实施例中,训练模块112将第一组交易114的已知训练标签116与分类器110的输出进行比较。基于比较,训练模块112向初始交易分类器110提供反馈。在一些实施例中,来自训练模块112的反馈包括用于分类器110的一个或多个调整后的训练权重。例如,分类器110可以是为各种交易生成介于0和1之间的输出值的神经网络,并且训练模块112可以基于输出值和标签之间的差异来调整训练权重。在其他实施例中,可以实施各种类型的反馈控制中的任何一种来训练各种分类器类型。
如本文所用,“交易前信息”一词是指在相关待处理交易完成之前分类器可用的信息。因此,交易前信息可以包括在交易已经发起之后但在交易完成之前接收到的信息。交易前信息可以包括,例如,来自在当前待处理交易完成之前待处理或完成的交易的数据以及独立于交易的其他非交易信息,诸如,与发起交易的用户相关联的信息(例如,用户活动、用户位置等)。可以使用各种交易前或交易后信息(经过或没有经过预处理)来生成输入到分类器110、120或130的特征。
如本文所用,“交易后信息”一词是指在相关交易完成后才能获得的信息。在一些实施例中,交易后信息包括在当前待处理交易完成之后发起的交易的数据。此外,交易后信息可以包括非交易信息,诸如,其他用户活动。因此,特定交易的交易后信息可以包括以下属性中的一者或多者:与特定交易相关联的用户的活动(例如,在一个或多个设备上)、参与特定交易的设备的位置信息(例如,交易来源和目的地)、用户的点击或滚动活动、特定交易之后的一笔或多笔交易的货币金额、交易的内容(例如,基于货币或基于物品的交易)、用户信息(例如,用户名和密码)等。例如,交易后信息可以由交易安全系统的管理员获得。一般而言,各种类型的数据可以基于获取的时间被归类为交易前数据或交易后数据。传统上,由于交易后数据不可用于正在分类的实时交易,因此交易后数据尚未用于训练机器学习分类器。
在所示实施例中,经训练的初始交易分类器120接收第二组交易122(例如,一组未成熟交易)的交易前和交易后数据两者。然后,分类器120生成分类器输出124,其包括第二组交易122中的交易的分类值。在一些实施例中,过滤模块可以过滤分类器输出124,以确定第二组交易的子集。在一些实施例中,子集包括第二组交易中的具有满足置信度阈值的分类器输出值的交易。例如,这些交易的输出值可以在与一个或多个预期分类器值的阈值差内。
在所示实施例中,第二交易分类器130接收第二组交易的子集中的具有阈值置信度的交易的交易前数据。基于此输入,第二交易分类器130生成分类器输出值,并将它们发送到训练模块132。在一些实施例中,使用类似的机器学习技术来训练分类器110和130。例如,可以使用以下机器学习技术中的一种或多种来训练分类器110和130:神经网络、集成方法、回归(例如,线性或逻辑)、聚类(例如,k均值)、分类(例如,朴素贝叶斯)等。
在所示实施例中,训练模块132接收为包括在第二组交易的子集134中的高置信度交易生成的分类器标签136。在一些实施例中,过滤模块(例如,下文讨论的模块322)或一些其他模块基于经训练的初始交易分类器120的输出值来生成针对高置信度交易的标签。在所示示例中,训练模块132对来自分类器130的分类器输出值与针对高置信度交易的标签136进行比较。训练模块132向分类器130提供训练反馈,该反馈包括对训练权重的调整。
应注意的是,尽管在所示实施例中第二交易分类器130仅接收用于第二组交易的子集的数据,但是此分类器可以另外基于各种其他类型的训练数据而被训练,例如,来自成熟交易的、用于训练初始交易分类器110的交易前数据。如上所述,所公开的技术可以允许基于未成熟交易来训练第二交易分类器130,这可以提高其相对于传统技术的准确性,例如,通过比传统技术更早地合并有恶意趋势的数据。
使用指定间隔内的数据来训练示例分类器
可以从特定时间间隔获得针对特定分类系统的用于训练交易分类器和对一笔或多笔电子交易进行分类的交易前和交易后信息。例如,训练系统可以从比未成熟交易数据更早的时间间隔获得成熟交易数据。应注意的是,获得训练数据的特定时间间隔的长度可能会有所不同,具体取决于正在执行的训练或分类、交易量等。
图2是示出根据一些实施例的图3所示的训练技术中使用的交易数据的示例时间线的图示(图3是图1的技术的稍微更详细的示例)。在所示实施例中,时间线被显示为具有两笔交易212A和212B以及标记在时间线的最右边部分的当前时间220,这两笔交易212A和212B在两个不同的时间间隔210A和210B中发生,标记在沿时间线的不同点处。
在所示示例中,间隔210A包括训练标签可用的成熟交易,而间隔210B包括训练标签不可用的未成熟交易。应注意的是,间隔210可以包括任何数量的交易,并且在间隔210A中发起交易的特定用户或账户也可以在间隔210B中发起交易。在一些实施例中,训练系统选择间隔210A,使其在时间上是距间隔210B的阈值距离,并且使得标签可用于间隔210A内的交易(例如,成熟)。对于交易212A,在间隔210A内,交易后数据被显示为在间隔214A内可用的信息,间隔214A从交易212A发起时延伸到当前时间220。类似地,交易212B的交易后数据214被显示为从交易212B发起到当前时间220可用的信息。
在一些实施例中,在间隔214A内的针对交易212A的用于训练的交易后数据被限制为仅包括来自与间隔214B相似的时间长度的交易信息,从间隔214B可得到针对交易212B的交易后数据(例如,针对交易212A的交易后数据选自比所示示例中示出的更小的时间间隔)。应注意的是,下文讨论的图5包括显示特定时间间隔的更详细的示例时间线。
图3是示出根据一些实施例的使用根据图2的时间线的交易数据的图1中所示的训练技术的更详细示例的框图。在所示实施例中,过滤模块322确定具有高分类器置信度的交易的子集,并且训练系统在训练期间将此子集的交易前数据提供给所利用的交易分类器330。
在所示示例中,初始交易分类器110接收针对间隔210A内的交易(包括交易212A)的交易前和交易后数据,并将分类器输出值提供给训练模块112。分类器110基于针对间隔210A中的交易的训练标签来从训练模块112接收控制信令。在所示示例中,一旦分类器110满足训练阈值,其就被称为经训练的初始交易分类器120。经训练的初始交易分类器120接收针对间隔210B中的交易的交易前和交易后数据,并将分类器输出提供给过滤模块322。
在所示实施例中,过滤模块322确定满足阈值置信度的分类器输出值(这些值与高分类器置信度相关联),并选择间隔210B内的交易的子集。例如,经训练的初始交易分类器120可以输出介于0和1之间的值。在此示例中,在0-0.2和0.8-1范围内的分类器输出值可以满足置信度阈值,并且与这些高置信度输出值相关联的交易可以被包括在由过滤模块322选择的交易的子集中。在一些实施例中,过滤模块322基于交易的分类值来生成子集中的交易的标签。例如,对于分类器输出为0.2的特定交易,过滤模块322将标签0分配给交易。基于间隔210B内的交易的子集,所利用的交易分类器330接收所选子集中的交易的交易前数据。
在所示实施例中,所利用的交易分类器330将分类器输出发送到训练模块132,其包括交易的子集的分类值。训练模块132基于为高置信度交易(包括在由过滤模块322选择的子集中)生成的标签来向所利用的交易分类器330发送训练反馈。应注意的是,所利用的交易分类器330是图1所示的第二交易分类器130的一个示例。
在所示实施例中,箭头显示了潜在的时间间隔,其中交易前数据222可用于在当前时间220发起的交易。应注意的是,使用所利用的交易分类器330,可以选择此交易数据的全部或部分以用于对在当前时间220或之后发起的一笔或多笔交易进行分类。例如,从交易212B延伸到交易212A的交易前数据222的一部分可以被所利用的交易分类器330用于对交易进行分类。在一些实施例中,可以使用更新后的时间间隔内的交易来周期性地更新所利用的交易分类器330。
应注意的是,本文中的各种示例将交易分类为欺诈性交易或非欺诈性交易,但这些示例是出于说明的目的而讨论的,并不旨在限制本公开的范围。在其他实施例中,可以实现各种分类中的任一种。
示例分类器组合
图4是示出根据一些实施例的使用传统分类器和使用所公开技术而训练的分类器两者的集成技术的框图。在所示实施例中,来自经训练的所利用的交易分类器410和传统交易分类器420的分类器输出406由集成模块430进行组合,以为一笔或多笔新交易402生成(一个或多个)分类输出408。
所示示例中示出的经训练的所利用的交易分类器410是,例如,已经经过训练且满足一个或多个训练阈值的所利用的交易分类器330的一个示例。
所示示例中示出的传统交易分类器420是已使用传统技术(例如,不使用交易后数据)训练的机器学习模型的一个示例。分类器420的训练可以包括将交易前数据用于训练标签已知的交易。例如,这些交易通常是相对于当前时间较早的交易,诸如,包括在间隔210A中的那些交易,如图2所示。在一些实施例中,使用与用于训练分类器110和130的那些机器学习技术相同或相似的机器学习技术来训练分类器420。
在所示示例中,集成模块430从分类器410和420接收分类器输出406。基于这些输出406,模块430使用一种或多种集成方法来生成一个或多个分类输出408。集成模块430可以,例如,对多个分类器的输出进行分析并将它们进行聚合,以产生正确识别的分类器输出相对于各个分类器的分类器输出的增加。例如,分类器训练系统可以使用以下集成方法中的一者或多者来对来自两个或更多个相同或不同交易分类器的分类器输出进行组合:随机森林模型、引导聚合、提升(例如,自适应提升(Adaboost))、贝叶斯参数平均、贝叶斯模型组合等。例如,由集成模块430生成的(一个或多个)分类输出408可以相对于由诸如分类器420之类的传统分类器生成的标签有利地增加正确识别的交易。
示例交易时间线
使用传统的交易分类技术可以识别出仅在特定时间间隔之后才符合趋势的欺诈性交易(例如,一旦符合趋势的交易已经成熟)。例如,交易标签常常在交易发生后的一个月或三个月才可用。因此,传统的分类技术可能具有检测不到欺诈性交易的斜升时间(ramp-up time)。使用所公开的多分类器技术来利用较早交易的交易后数据以为更近期的未成熟交易生成标签,可以有利地允许安全系统检测到符合已识别趋势的额外的欺诈性交易。
图5是示出根据一些实施例的具有特定时间间隔510的详细示例交易时间线500的图示,基于特定时间间隔510来选择用于训练的交易数据。在所示实施例中,在时间520T之前三个月的时间520S被示出在交易时间线500上,其中在时间520S之前的交易是成熟的(例如,已经为这些交易生成了训练标签)。
在所示实施例中,间隔510B在时间520T之前的两周到四周之间。类似地,间隔510A在520S之前的两周到四周之间,并且与间隔510B的长度相同。在一些实施例中,间隔510A和510B的长度不同。在所示示例中,两个不同示例交易512A和512B的交易后数据,如图所示,选自相同长度的时间间隔。然而,示出了其中交易512B的交易前数据被显示为跨越比与交易512A相关联的交易前数据更长的潜在时间长度的间隔的箭头。在一些实施例中,交易512B的交易前数据选自与从中选择交易512A的交易前数据的时间间隔具有相同长度的间隔。应注意的是,交易512B包括在间隔510B内的交易的高置信度子集中。
在一个示例情况下,用户可以在5月12日创建一个帐户并完成第一笔交易。使用同一个帐户,用户在5月14日完成了第二笔交易。6月12日,交易安全系统发起针对第一笔交易的退款程序,并将此交易标记为欺诈性的。使用同一个帐户,用户在6月24日完成了第三笔交易。在此示例中,第三笔交易的特性和与第三笔交易相关的用户活动类似于第二笔交易。7月27日,交易安全系统发起针对第二笔交易的退款程序,并将此交易标记为欺诈性的。在此示例中,使用传统的分类技术,交易安全系统可能无法识别前两笔交易中的趋势,并在第三笔交易完成之前将由该同一用户发起的第三笔交易分类为欺诈性的。然而,使用所公开的技术,系统可以识别前两笔交易的趋势并预测第三笔交易也将是欺诈性的,从而允许交易安全系统阻断由该用户账户或其他账户发起的后续交易。在此示例中,交易安全系统可能能够使用新的分类器模型更早地(例如,在6月24日之前)将第二笔交易标记为欺诈性的,因此可以基于第二笔交易是欺诈性的来将第三笔交易标识为欺诈性的。
示例方法
图6是示出根据一些实施例的用于基于一个或多个账户的修改的安全风险值来执行安全操作的方法的流程图。图6所示的方法可以与本文公开的计算机电路、系统、设备、元件或组件中的任一者以及其他设备结合使用。在各种实施例中,所示的一些方法元素可以同时执行、以与所示不同的顺序执行,或者可以被省略。还可以根据需要来执行额外的方法元素。
在610,在所示实施例中,计算机系统基于已生成训练标签的第一组交易的交易前数据和交易后数据来训练初始交易分类器。
在620,计算机系统将未生成训练标签的第二组交易的交易前数据和交易后数据输入到经训练的初始交易分类器,其中经训练的初始交易分类器基于该输入来生成分类器输出。在一些实施例中,第一组交易中的交易在第一时间间隔期间发生,并且第二组交易中的交易在不与第一时间间隔重叠的第二时间间隔中发生,其中第二时间间隔在时间上晚于第一时间间隔。在一些实施例中,第二组交易中的交易在从第一时间间隔结束后至少一个月开始的第二时间间隔中发生。在一些实施例中,第一时间间隔中的交易在当前时间之前的至少一个月中发生。
在一些实施例中,第一组交易的交易后数据选自第一时间间隔,第一时间间隔的长度是基于第二组交易中的交易与当前时间之间的时间差来确定的。在一些实施例中,第一时间间隔和第二时间间隔的长度相同。例如,用于训练初始交易分类器的交易后数据和用于训练第二分类器的交易后数据选自长度相同的两个不同时间间隔。
在一些实施例中,第一组交易和第二组交易的交易前数据包括与第一组交易和第二组交易中的一笔或多笔交易相关联的账户的账户凭证,其中第二组交易中的至少第一笔交易的交易后数据包括账户的用户在第一笔交易完成之后的活动。在一些实施例中,第二组交易中的至少第一笔交易的交易前数据包括与在第二组交易中的第一笔交易之前发起的一笔或多笔交易相关联的交易数据,其中第二组交易中的至少第一笔交易的交易后数据包括在第一笔交易完成之后发起第一笔交易的用户设备的位置信息。例如,用于使用经训练的初始交易分类器来生成分类器输出的交易后数据可以包括用于完成了由经训练的初始交易分类器分类的交易的用户的设备的地理围栏信息(geofencing information)。作为另一示例,特定交易的交易前信息可以包括与在特定交易之前发起的任何数量的交易相关联的信息。
在630,计算机系统选择分类器输出满足置信度阈值的第二组交易的子集。例如,介于0.8和1以及0和0.2之间的分类器输出可以满足置信度阈值,并且与这些输出相关联的交易可以包括在子集中。
在640,计算机系统基于分类器输出来生成所选子集中的交易的训练标签。在一些实施例中,训练标签指定所选子集中的交易是否是欺诈性的。
在650,计算机系统基于所选子集的交易前数据和生成的训练标签来训练第二交易分类器。在一些实施例中,训练第二交易分类器不包括基于交易后数据进行训练。在一些实施例中,训练第二交易分类器是使用一种或多种监督式机器学习技术来执行的。在一些实施例中,所选子集中的交易的至少50%的交易后数据不用于训练第二交易分类器。例如,第二交易分类器可以用于对交易后数据有限或不存在的交易进行分类。因此,在此示例中,训练第二交易分类器是在交易后数据很少或没有的情况下执行的。
在660,计算机系统存储用于经训练的第二交易分类器的配置参数。在一些实施例中,在存储之后,交易处理系统使用经训练的第二交易分类器来对一笔或多笔交易进行分类。在一些实施例中,在第二组交易中的交易完成之后发起一笔或多笔交易。
在一些实施例中,经训练的第二交易分类器可用于预测由生产交易计算机系统接收到的交易是否是欺诈性的。在一些实施例中,计算机系统基于来自多个经训练的交易分类器的分类器输出来生成最终分类器输出。在一些实施例中,多个经训练的交易分类器包括经训练的第二交易分类器和未使用交易后数据训练的第三交易分类器。例如,计算机系统可以使用一种或多种集成方法将经训练的第二交易分类器和传统的交易分类器(例如,未使用交易后数据训练的分类器)集成,以生成最终分类器输出。
示例计算设备
现在转向图7,描绘了计算设备(也可以称为计算系统)710的一个实施例的框图。计算设备710可以用于实现本公开的各个部分。计算设备710可以是任何合适类型的设备,包括但不限于个人计算机系统、台式计算机、膝上型计算机或笔记本计算机、大型计算机系统、网络服务器、工作站,或网络计算机。如图所示,计算设备710包括通过互连760(例如,系统总线)耦合的处理单元750、存储装置712以及输入/输出(I/O)接口730。I/O接口730可以耦合到一个或多个I/O设备740。计算设备710还包括网络接口732,其可以耦合到网络720,用于与例如其他计算设备进行通信。
在各种实施例中,处理单元750包括一个或多个处理器。在一些实施例中,处理单元750包括一个或多个协处理器单元。在一些实施例中,处理单元750的多个实例可以耦合到互连760。处理单元750(或750内的每个处理器)可以包含缓存或其他形式的板上存储器。在一些实施例中,处理单元750可以实现为通用处理单元,并且在其他实施例中,其可以实现为专用处理单元(例如,ASIC)。总体而言,计算设备710不限于任何特定类型的处理单元或处理器子系统。
如本文所用,“模块”一词是指被配置为执行指定操作的电路或存储指示其他电路(例如,处理器)执行指定操作的信息(例如,程序指令)的物理非暂态计算机可读介质。模块可以以多种方式实现,包括实现为硬连线电路或实现为其中存储有可由一个或多个处理器执行以执行操作的程序指令的存储器。硬件电路可以包括,例如,定制的超大规模集成(VLSI)电路或门阵列、成品半导体,诸如,逻辑芯片、晶体管或其他分立组件。模块也可以在可编程硬件设备中实现,诸如,现场可编程门阵列、可编程阵列逻辑、可编程逻辑器件等。模块还可以是存储可执行以执行指定操作的程序指令的任何合适形式的非暂态计算机可读介质。
存储子系统712可由处理单元750使用(例如,用于存储可由处理单元750执行的指令和可由处理单元750使用的数据)。存储子系统712可以由任何合适类型的物理存储器介质来实现,包括硬盘存储装置、软盘存储装置、可移动磁盘存储装置、闪存、随机存取存储器(RAM-SRAM、EDO RAM、SDRAM、DDR SDRAM、RDRAM等)、ROM(PROM、EEPROM等)等等。在一个实施例中,存储子系统712可以仅由易失性存储器组成。存储子系统712可以存储可由计算设备710使用处理单元750执行的程序指令,包括可执行以使计算设备710实施本文公开的各种技术的程序指令。
根据各种实施例,I/O接口730可以表示一个或多个接口,并且可以是被配置为耦合到其他设备并与其他设备进行通信的各种类型的接口中的任一种。在一个实施例中,I/O接口730是从前端到一个或多个后端总线的桥接芯片。I/O接口730可以通过一个或多个相应的总线或其他接口耦合到一个或多个I/O设备740。I/O设备的示例包括存储设备(硬盘、光驱、可移动闪存驱动器、存储阵列、SAN,或相关联的控制器)、网络接口设备、用户接口设备或其他设备(例如,图形、声音等)。
还设想了存储可由计算系统执行以实现本文公开的技术的指令(和可选地,数据)的各种制品。计算系统可以使用一个或多个处理元件来执行指令。制品包括非暂态计算机可读存储器介质。设想的非暂态计算机可读存储器介质包括计算设备的存储器子系统的部分以及存储介质或存储器介质,诸如,磁性介质(例如,磁盘)或光学介质(例如,CD、DVD,以及相关技术等)。非暂态计算机可读介质可以是易失性或非易失性存储器。
***
尽管上文已经描述了特定的实施例,但是这些实施例并不旨在限制本公开的范围,即使仅针对特定特征描述了单个实施例。除非另有说明,否则本公开中提供的特征的示例旨在是说明性而非限制性的。以上描述旨在涵盖对受益于本公开的本领域技术人员将显而易见的这些替代、修改以及等同物。
本公开的范围包括本文公开的任何特征或特征的组合(显式或隐含),或其任何概括,与其是否减轻了本文解决的任何或所有问题无关。因此,在针对任何这样的特征组合对本申请(或要求其优先权的申请)进行审查的过程中,可以提出新的权利要求。具体地,参考所附权利要求,来自从属权利要求的特征可以与独立权利要求的特征组合,并且来自各个独立权利要求的特征可以以任何适当的方式组合,而不仅仅是以所附权利要求中列举的特定组合。

Claims (20)

1.一种方法,包括:
由计算机系统基于已生成训练标签的第一组交易的交易前数据和交易后数据来训练初始交易分类器;
由所述计算机系统将尚未生成训练标签的第二组交易的交易前数据和交易后数据输入到经训练的初始交易分类器,其中,所述经训练的初始交易分类器基于所述输入来生成分类器输出;
由所述计算机系统来选择分类器输出满足置信度阈值的第二组交易的子集;
由所述计算机系统基于分类器输出来生成所选子集中的交易的训练标签;
由所述计算机系统基于所选子集的交易前数据和生成的训练标签来训练第二交易分类器;以及
由所述计算机系统来存储用于经训练的第二交易分类器的配置参数。
2.根据权利要求1所述的方法,还包括:
在所述存储之后,由交易处理系统使用所述经训练的第二交易分类器对一笔或多笔交易进行分类。
3.根据权利要求1所述的方法,其中,训练所述第二交易分类器不包括基于交易后数据进行训练。
4.根据权利要求1所述的方法,其中,所述经训练的第二交易分类器能够用于预测由生产交易计算机系统接收到的交易是否是欺诈性的。
5.根据权利要求1所述的方法,还包括:
由所述计算机系统基于来自多个经训练的交易分类器的分类器输出来生成最终分类器输出。
6.根据权利要求5所述的方法,其中,所述多个经训练的交易分类器包括所述经训练的第二交易分类器和未使用交易后数据训练的第三交易分类器。
7.根据权利要求1所述的方法,其中,所述第一组交易中的交易在第一时间间隔期间发生,并且所述第二组交易中的交易在第二时间间隔中发生,其中,所述第二时间间隔不与所述第一时间间隔重叠,所述第二时间间隔在时间上晚于所述第一时间间隔。
8.根据权利要求7所述的方法,其中,所述第一时间间隔中的交易在当前时间之前至少一个月发生。
9.根据权利要求1所述的方法,其中,所述第一组交易的交易后数据选自第一时间间隔,所述第一时间间隔的长度是基于所述第二组交易中的交易与当前时间之间的时间差来确定的。
10.一种非暂态计算机可读介质,其上存储有指令,所述指令能够由计算设备执行以执行操作,所述操作包括:
基于已生成训练标签的第一组交易的交易前数据和交易后数据来训练初始交易分类器;
将尚未生成训练标签的第二组交易的交易前数据和交易后数据输入到经训练的初始交易分类器,其中,所述经训练的初始交易分类器基于所述输入来生成分类器输出;
选择分类器输出满足置信度阈值的第二组交易的子集;
基于分类器输出来生成所选子集中的交易的训练标签;
基于所选子集的交易前数据和生成的训练标签来训练第二交易分类器;以及
存储用于经训练的第二交易分类器的配置参数,以允许使用所述经训练的第二交易分类器来对交易进行分类。
11.根据权利要求10所述的非暂态计算机可读介质,其中,所述操作还包括:
在所述存储之后,使用所述经训练的第二交易分类器对一笔或多笔交易进行分类,其中,所述一笔或多笔交易是在所述第二组交易中的交易完成后发起的。
12.根据权利要求10所述的非暂态计算机可读介质,其中,所述操作还包括:
基于以下项来生成最终分类器输出:
所述经训练的第二交易分类器的分类器输出;以及
未使用交易后数据训练的第三交易分类器的分类器输出;
其中,使用一种或多种集成技术来执行所述生成。
13.根据权利要求10所述的非暂态计算机可读介质,其中,所述第一组交易中的交易在第一时间间隔期间发生,并且所述第二组交易中的交易在第二时间间隔中发生,所述第二时间间隔在时间上晚于所述第一时间间隔。
14.根据权利要求10所述的非暂态计算机可读介质,其中,所述第一组交易和所述第二组交易的交易前数据包括与所述第一组交易和所述第二组交易中的一笔或多笔交易相关联的账户的账户凭证,并且其中,所述第二组交易中的至少第一笔交易的交易后数据包括所述账户的用户在所述第一笔交易完成之后的活动。
15.根据权利要求10所述的非暂态计算机可读介质,其中,使用一种或多种监督式机器学习技术来执行对所述第二交易分类器的训练。
16.一种方法,包括:
由交易处理系统来访问交易的交易数据;以及
由所述交易处理系统使用经训练的交易分类器对一笔或多笔交易进行分类,所述分类器由以下操作训练,所述操作包括:
基于已生成训练标签的第一组交易的交易前数据和交易后数据来训练初始交易分类器;
将尚未生成训练标签的第二组交易的交易前数据和交易后数据输入到经训练的初始交易分类器,其中,所述初始交易分类器基于所述输入来生成分类器输出;
选择分类器输出满足置信度阈值的第二组交易的子集;
基于分类器输出来生成所选子集中的交易的训练标签;以及
基于所选子集的交易前数据和生成的训练标签来训练所述交易分类器。
17.根据权利要求16所述的方法,其中,所述第一组交易中的交易在第一时间间隔期间发生,并且所述第二组交易中的交易在从所述第一时间间隔结束后至少一个月开始的第二时间间隔中发生。
18.根据权利要求17所述的方法,其中,所述第一组交易的交易后数据和所述第二组交易的交易后数据选自长度相同的两个不同的时间间隔,其中,所述两个不同的时间间隔不重叠。
19.根据权利要求16所述的方法,其中,所选子集中交易的至少50%的交易后数据不用于训练所述交易分类器。
20.根据权利要求16所述的方法,其中,所述第二组交易中的至少第一笔交易的交易前数据包括与在所述第二组交易中的第一笔交易之前发起的一笔或多笔交易相关联的交易数据,并且其中,所述第二组交易中的至少第一笔交易的交易后数据包括在所述第一笔交易完成之后发起所述第一笔交易的用户设备的位置信息。
CN201980102321.3A 2019-11-20 2019-11-20 利用先前交易的交易后数据以允许使用近期交易数据的技术 Pending CN114746873A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/119675 WO2021097702A1 (en) 2019-11-20 2019-11-20 Techniques for leveraging post-transaction data for prior transactions to allow use of recent transaction data

Publications (1)

Publication Number Publication Date
CN114746873A true CN114746873A (zh) 2022-07-12

Family

ID=75909080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980102321.3A Pending CN114746873A (zh) 2019-11-20 2019-11-20 利用先前交易的交易后数据以允许使用近期交易数据的技术

Country Status (5)

Country Link
US (1) US20210150530A1 (zh)
EP (1) EP4062328A4 (zh)
CN (1) CN114746873A (zh)
AU (1) AU2019475423B2 (zh)
WO (1) WO2021097702A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321632B2 (en) * 2018-11-21 2022-05-03 Paypal, Inc. Machine learning based on post-transaction data

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819226A (en) * 1992-09-08 1998-10-06 Hnc Software Inc. Fraud detection using predictive modeling
US20070179849A1 (en) * 2006-02-02 2007-08-02 Microsoft Corporation Ad publisher performance and mitigation of click fraud
US8224029B2 (en) * 2008-03-03 2012-07-17 Videoiq, Inc. Object matching for tracking, indexing, and search
US10540606B2 (en) * 2014-06-30 2020-01-21 Amazon Technologies, Inc. Consistent filtering of machine learning data
US20160335432A1 (en) * 2015-05-17 2016-11-17 Bitdefender IPR Management Ltd. Cascading Classifiers For Computer Security Applications
US20180053105A1 (en) * 2016-08-18 2018-02-22 Paypal, Inc. Model Training for Multiple Data Spaces for Pattern Classification and Detection
US11144825B2 (en) * 2016-12-01 2021-10-12 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
US20180350006A1 (en) * 2017-06-02 2018-12-06 Visa International Service Association System, Method, and Apparatus for Self-Adaptive Scoring to Detect Misuse or Abuse of Commercial Cards
US10911319B2 (en) * 2017-12-28 2021-02-02 Paypal, Inc. Systems and methods for characterizing a client device

Also Published As

Publication number Publication date
EP4062328A4 (en) 2023-08-16
AU2019475423A1 (en) 2022-05-26
WO2021097702A1 (en) 2021-05-27
US20210150530A1 (en) 2021-05-20
EP4062328A1 (en) 2022-09-28
AU2019475423B2 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
CA3060678A1 (en) Systems and methods for determining credit worthiness of a borrower
US11481687B2 (en) Machine learning and security classification of user accounts
US20070106582A1 (en) System and method of detecting fraud
US11836739B2 (en) Adaptive transaction processing system
Kennedy et al. Using semi-supervised classifiers for credit scoring
AU2021290143B2 (en) Machine learning module training using input reconstruction techniques and unlabeled transactions
CN111566683A (zh) 强健和自适应的人工智能建模
US11907954B2 (en) Transaction anomaly detection
AU2022246433B2 (en) Machine learning based on post-transaction data
US20230351426A1 (en) Techniques to predict and implement an amortized bill payment system
CN114746873A (zh) 利用先前交易的交易后数据以允许使用近期交易数据的技术
US11361254B2 (en) Computerized-system and method for generating a reduced size superior labeled training dataset for a high-accuracy machine learning classification model for extreme class imbalance of instances
EP4145356A1 (en) Constrained optimization for gradient boosting machines
US20230070086A1 (en) Constrained optimization for gradient boosting machines
US11416925B2 (en) Adaptive system for detecting abusive accounts
US20230195056A1 (en) Automatic Control Group Generation
JP7369759B2 (ja) 情報処理システム、情報処理方法、およびプログラム
US12118560B2 (en) Pointer movement modelling for entity classification
US20210201334A1 (en) Model acceptability prediction system and techniques
Sevinç A Classification Of The Banks In Turkey With Bayesian Cluster Analysis Based On Mixture Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination