CN111898626B - 模型确定方法、装置和电子设备 - Google Patents

模型确定方法、装置和电子设备 Download PDF

Info

Publication number
CN111898626B
CN111898626B CN202010418654.1A CN202010418654A CN111898626B CN 111898626 B CN111898626 B CN 111898626B CN 202010418654 A CN202010418654 A CN 202010418654A CN 111898626 B CN111898626 B CN 111898626B
Authority
CN
China
Prior art keywords
transaction data
time
model
moment
streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010418654.1A
Other languages
English (en)
Other versions
CN111898626A (zh
Inventor
管楚
付子圣
陈红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AlipayCom Co ltd
Original Assignee
AlipayCom Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AlipayCom Co ltd filed Critical AlipayCom Co ltd
Priority to CN202010418654.1A priority Critical patent/CN111898626B/zh
Publication of CN111898626A publication Critical patent/CN111898626A/zh
Application granted granted Critical
Publication of CN111898626B publication Critical patent/CN111898626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例公开了一种模型确定方法、装置和电子设备的实施例。所述方法包括:获取T时刻的流式交易数据,所述T时刻为当前时刻;根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;判断候选模型的性能指标是否满足预设条件;若是,将候选模型确定为T+1时刻的异常交易数据检测模型。本说明书实施例的模型确定方法、装置和电子设备,可以根据预设条件有选择地更新异常交易数据检测模型,使异常交易数据检测模型保持好的预测效果。

Description

模型确定方法、装置和电子设备
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种模型确定方法、装置和电子设备。
背景技术
随着人工智能技术的发展,通过机器学习构建相应的任务模型,再利用构建的任务模型进行具体的数据处理,这种数据处理方法在越来越多的领域得到普及应用。
在一些场景下,数据的特征有可能会随着时间的推移以不可预见的方式发生变化。因此为了达到好的预测效果,需要对任务模型进行更新。如何对任务模型进行更新,以使任务模型保持好的预测效果,是当前亟需解决的技术问题。
发明内容
本说明书实施例提供一种模型确定方法、装置和电子设备,以对异常交易数据检测模型进行更新。本说明书实施例的技术方案如下。
本说明书实施例的第一方面,提供了一种模型确定方法,包括:获取T时刻的流式交易数据,所述T时刻为当前时刻;根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;判断候选模型的性能指标是否满足预设条件;若是,将候选模型确定为T+1时刻的异常交易数据检测模型。
本说明书实施例的第二方面,提供了一种模型确定方法,包括:获取T时刻的流式交易数据,所述T时刻为当前时刻;根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;判断候选模型的性能指标是否满足预设条件;若否,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
本说明书实施例的第三方面,提供了一种模型确定装置,包括:流式交易数据获取模块,用于获取T时刻的流式交易数据,所述T时刻为当前时刻;候选模型确定模块,用于根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;性能指标判断模块,用于判断候选模型的性能指标是否满足预设条件;异常交易数据检测模型确定模块,用于若是,将候选模型确定为T+1时刻的异常交易数据检测模型。
本说明书实施例的第四方面,提供了一种模型确定装置,包括:流式交易数据获取模块,用于获取T时刻的流式交易数据,所述T时刻为当前时刻;候选模型确定模块,用于根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;性能指标判断模块,用于判断候选模型的性能指标是否满足预设条件;异常交易数据检测模型确定模块,用于若否,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
本说明书实施例的第五方面,提供了一种电子设备,包括:至少一个处理器和存储有程序指令的存储器;其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面或第二方面所述方法的指令。
本说明书实施例提供的技术方案,在根据T时刻的流式交易数据确定得到候选模型以后,可以判断候选模型的性能指标是否满足预设条件;若是,可以将候选模型确定为T+1时刻的异常交易数据检测模型。这样可以根据预设条件有选择地更新异常交易数据检测模型,使异常交易数据检测模型保持好的预测效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中模型确定方法的流程示意图;
图2为本说明书实施例中模型确定过程的示意图;
图3为本说明书实施例中模型确定方法的流程示意图;
图4为本说明书实施例中模型确定装置的结构示意图;
图5为本说明书实施例中模型确定装置的结构示意图;
图6为本说明书实施例中电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
时刻的跨度大小可以根据实际需要灵活设定,例如可以为数百毫秒、数秒、1小时、5小时、或者1天等。例如,T时刻为当前时刻,T-1时刻为当前时刻的上一时刻,T+1时刻为当前时刻的下一时刻。那么,若时刻的跨度为1天,则T时刻可以为当天,T-1时刻可以为昨天,T+1时刻可以为明天。若时刻的跨度为1小时,则T时刻可以为当前的小时,T-1时刻可以为上一个小时,T+1时刻可以为下一个小时。
流式数据是指持续生成并连续到达的数据。流式数据可以包括交易数据等。所述交易数据例如可以包括商品的购买交易数据、账户之间资金的转账交易数据等。
模型的训练方法可以包括批量学习方法和在线学习方法。批量学习方法在学习任务开始前预先准备好大量的训练样本,然后利用训练样本来训练模型。但是一方面,预先准备好的训练样本会占用较大的存储空间,使得批量学习方法不适用于存储空间受限的场景。另一方面,数据的特征有可能会随着时间的推移以不可预见的方式发生变化。即,数据有可能会表现出概念漂移的现象。批量学习方法是利用预先准备好的训练样本来训练模型的,使得模型无法跟随数据的变化及时地调整。这样模型在概念漂移的场景下无法达到好的预测效果。在线学习方法可以利用增量的流式数据来训练模型。相较于批量学习方法,一方面,在线学习方法无需存储大量的训练样本,能够节省存储空间。另一方面,在线学习方法能够跟随流式数据的变化及时地调整模型,使得模型能够在概念漂移的场景下达到好的预测效果。
在线学习方法可以基于在线学习算法实现。所述在线学习算法可以包括FTRL(Follow The Leader)、和在线随机森林(Online Random Forest)等。在线学习算法的性能可以通过悔恨值(Regret)来度量。悔恨值可以表示为由在线性学习算法所获得的模型与已知的较优模型之间的累积损失值之差。悔恨值越小表示在线学习算法的性能越好。在线学习算法的悔恨值是跟随时间的变化而变化的。例如,在线学习算法在T时刻的悔恨值可以表示为
Figure GDA0002698813310000031
Figure GDA0002698813310000032
其中,T表示当前时刻。RT表示在线学习算法在T时刻的悔恨值。L(wt;xt)表示t时刻的任务模型的损失值,wt表示t时刻的任务模型的参数,此处t时刻的任务模型是根据在线学习算法获得的。/>
Figure GDA0002698813310000033
表示t时刻的参考模型的损失值,/>
Figure GDA0002698813310000034
表示t时刻的参考模型的参数。xt表示t时刻的流式数据。t时刻的参考模型可以为在t时刻已知的较优模型。值得说明的是,上述悔恨值计算公式仅为示例,在实际应用中上述悔恨值计算公式还可以具有其它的变形或变化。所述损失值可以为损失函数的取值。所述损失函数可以包括对数损失函数、铰链损失函数、指数损失函数、以及平方损失函数等。
不同时刻的已知的较优模型可以是固定不变的,即,不同时刻的参考模型可以是固定不变的。这样计算得到的悔恨值便为静态悔恨值。以上述悔恨值计算公式为例,从第1时刻到第T时刻,各个时刻的参考模型均相同。或者,不同时刻的已知的较优模型可以是不同的,即,不同时刻的参考模型可以是不同的。这样计算得到的悔恨值便为动态悔恨值。以上述悔恨值计算公式为例,从第1时刻到第T时刻,各个时刻的参考模型可以不同。相较于静态悔恨值,动态悔恨值可以在概念漂移的场景下更加准确地度量在线学习算法的性能。
本说明书提供模型确定方法的一个实施例。所述模型确定方法可以应用于服务器。所述服务器可以为单个服务器、由多个服务器构成的服务器集群、或者部署在云端的服务器。
请参阅图1和图2。所述模型确定方法可以包括以下步骤。
步骤S12:获取T时刻的流式交易数据。
在一些实施例中,所述T时刻可以为当前时刻。所述流式交易数据例如可以包括商品的购买交易数据、账户之间资金的转账交易数据等。所述流式交易数据具体例如可以包括支付账户、收款账户、支付金额、商品标识、交易时刻等等。
T时刻的流式交易数据的数量可以为一个或多个。例如,时刻的跨度可以为1天,T时刻的流式交易数据可以包括当天内用户在购物平台中的商品购买交易数据。所述服务器具体可以接收上游设备发来的T时刻的流式交易数据。所述上游设备可以为面向用户的终端设备或者面向后台的服务器等。当然,所述服务器还可以采用其它方式获取T时刻的流式交易数据。
此处,所述当前时刻是指所述服务器获取到流式交易数据的时刻,或者,与该时刻的时间差在误差允许范围内的其它时刻。例如,所述当前时刻是指所述服务器接收到上游设备发来的流式交易数据的时刻,或者,所述上游设备向所述服务器发送流式交易数据的时刻。
步骤S14:根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型。
在一些实施例中,所述异常交易数据检测模型可以为神经网络模型、逻辑回归模型、或者决策树模型等。所述异常交易数据检测模型可以用于检测出异常的交易数据。所述异常的交易数据例如可以包括涉及欺诈的交易数据等。
所述T时刻的异常交易数据检测模型用于从T时刻的流式交易数据中检测出异常的交易数据。具体地,所述服务器可以根据T时刻的异常交易数据检测模型,对T时刻的流式交易数据进行预测,得到预测结果。所述预测结果用于表示流式交易数据为正常的交易数据或异常的交易数据。例如,所述预测结果可以为分值,所述分值用于表示流式交易数据为异常交易数据的概率。另举一例,所述预测结果还可以为类别,所述类别可以包括白类别和黑类别,所述白类别用于表示流式交易数据为正常的交易数据,所述黑类别用于表示流式交易数据为异常的交易数据。
在一些实施例中,所述服务器可以将T时刻的流式交易数据作为增量流式交易数据;可以通过在线学习算法,根据增量流式交易数据对T时刻的异常交易数据检测模型进行训练,得到候选模型;以便于对T时刻的异常交易数据检测模型进行更新。
所述服务器可以根据T时刻的异常交易数据检测模型,对T时刻的流式交易数据进行预测,得到预测结果;可以根据T时刻的流式交易数据的预测结果和真实结果,确定T时刻的异常交易数据检测模型的损失值;可以根据损失值,计算候选模型的参数。所述真实结果可以通过由专家经验构建的数据处理逻辑获得。当然,所述真实结果还可以通过其它方式获得,此处不做具体限定。例如,所述服务器可以根据公式
Figure GDA0002698813310000051
计算T时刻的异常交易数据检测模型的损失值。wT表示T时刻的异常交易数据检测模型的参数,xT表示T时刻的流式交易数据,yT表示xT的预测结果,/>
Figure GDA0002698813310000052
表示xT的真实结果。
所述服务器可以采用梯度下降法对T时刻的异常交易数据检测模型进行训练。当然所述服务器还可以采用其它方法对T时刻的异常交易数据检测模型进行训练,例如牛顿法。
在实际应用中,流式交易数据往往具有多个维度的特征,例如具有数百个维度或数千个维度的特征。在所述多个维度的特征中,许多维度的特征与预测结果无关,使得流式交易数据具有特征高维稀疏性。特征高维稀疏性容易使模型产生过拟合的问题。稀疏性的模型能够约减流式交易数据中与预测结果无关的维度,因而能够在特征高维稀疏性的场景下达到好的预测效果。为此,所述服务器可以采用基于梯度下降法的线性分类算法计算候选模型的参数,以使候选模型为稀疏性的模型。例如,所述服务器可以根据公式
Figure GDA0002698813310000053
计算候选模型的参数。其中,wc表示候选模型的参数。η表示梯度下降法的学习步长。/>
Figure GDA0002698813310000054
表示损失函数在wT处的梯度。wT表示T时刻的异常交易数据检测模型的参数。yT表示xT的预测结果,/>
Figure GDA0002698813310000055
表示xT的真实结果。值得说明的是,上述参数计算公式仅为示例,在实际应用中上述参数计算公式还可以具有其它的变形或变化。
进一步地,所述基于梯度下降法的线性分类算法可以包括稀疏近似线性分类算法(Sparse Approximated Linear Classifier,SALC)。例如,所述服务器可以以‖z‖0>k为约束条件,计算wc=arg min‖w‖0,以使‖w‖0≥k、并且‖w-zc‖≤∈。其中,wc表示候选模型的参数。zc=(1-λη)wT+ηγTyTxT。γT=I[yTw′TxT<1]。在yTw′TxT<1成立时γT取0,在yTw′TxT<1不成立时γT取1。λ表示正则化项系数。η表示梯度下降法的学习步长。wT表示T时刻的异常交易数据检测模型的参数。w′T表示wT的转置。xT表示T时刻的流式交易数据。yT表示xT的预测结果。‖w‖0表示w的l0伪范数。‖w-zc‖表示w-zc的l1范数。∈表示截断误差,用于控制zc和wc之间的近似程度,能够影响候选模型的稀疏性。k用于防止∈被设置的过大,具体例如可以为1。值得说明的是,上述参数计算公式仅为示例,在实际应用中上述参数计算公式还可以具有其它的变形或变化。此外,这里的稀疏近似线性分类算法仅为示例,在实际应用中还可以采用其它的基于梯度下降法的线性分类算法来计算候选模型的参数。
在一些实施例中,所述服务器可以根据T时刻的全部流式交易数据和T时刻的异常交易数据检测模型,确定候选模型。具体地,所述服务器可以将T时刻的全部流式交易数据作为增量流式交易数据;可以通过在线学习算法,根据增量流式交易数据对T时刻的异常交易数据检测模型进行训练,得到候选模型。
所述服务器可以根据T时刻的异常交易数据检测模型,对T时刻的全部流式交易数据进行预测,得到预测结果;可以根据T时刻的全部流式交易数据的预测结果和真实结果,确定T时刻的异常交易数据检测模型的损失值;可以根据损失值,计算候选模型的参数。
在一些实施例中,所述服务器可以根据T时刻的部分流式交易数据和T时刻的异常交易数据检测模型,确定候选模型。具体地,所述服务器可以从T时刻的多个流式交易数据中选取目标流式交易数据;可以将目标流式交易数据作为增量流式交易数据;可以通过在线学习算法,根据增量流式交易数据对T时刻的异常交易数据检测模型进行训练,得到候选模型。
所述服务器可以根据T时刻的异常交易数据检测模型,对T时刻的多个流式交易数据进行预测;可以根据预测结果,从T时刻的多个流式交易数据中选取目标流式交易数据;可以根据目标流式交易数据的预测结果和真实结果,确定T时刻的异常交易数据检测模型的损失值;可以根据损失值,计算候选模型的参数。选取的目标流式交易数据可以为在T时刻的多个流式交易数据中预测结果准确性较大的流式交易数据。例如,所述预测结果可以为分值。所述服务器可以从T时刻的多个流式交易数据中选取对应的分值大于或等于第一阈值的流式交易数据,作为目标流式交易数据;可以从T时刻的多个流式交易数据中选取对应的分值小于或等于第二阈值的流式交易数据,作为目标流式交易数据。所述第一阈值可以大于所述第二阈值。具体地,例如,所述预测结果的取值范围可以为0-1。所述第一阈值可以为0.8、0.85、或0.9等,所述第二阈值可以为0.2、0.15、或0.1等。值得说明的是,此处,所述服务器可以将分值大于或等于第一阈值的流式交易数据作为黑样本;可以将分值小于或等于第二阈值的流式交易数据作为白样本;可以根据黑样本和白样本对T时刻的异常交易数据检测模型进行训练,得到候选模型。
例如,T时刻的流式交易数据可以包括流式交易数据xT1、流式交易数据xT2、以及流式交易数据xT3。所述服务器可以对流式交易数据xT1、流式交易数据xT2、以及流式交易数据xT3进行预测,分别得到预测结果yT1、预测结果yT2、以及预测结果yT3;可以根据预测结果yT1、预测结果yT2、以及预测结果yT3,从流式交易数据xT1、流式交易数据xT2、以及流式交易数据xT3中选取流式交易数据xT1和流式交易数据xT3;可以根据流式交易数据xT1的预测结果和真实结果、以及流式交易数据xT3的预测结果和真实结果,确定T时刻的异常交易数据检测模型的损失值;可以根据损失值,计算候选模型的参数。
步骤S16:判断候选模型的性能指标是否满足条件。
在一些实施例中,T时刻的流式交易数据往往并不纯净。例如,T时刻的流式交易数据中有可能包含了受到污染的流式交易数据。数据污染是指一种由人们故意的或偶然的行为造成的对真实数据的完整性和真实性的损害,是对真实数据的扭曲。当然,上述受到污染的流式交易数据仅为示例,在实际应用中还存在其它的因素使得T时刻的流式交易数据并不纯净。
由于T时刻的流式交易数据往往并不纯净,使得根据T时刻的流式交易数据确定的候选模型有可能无法满足需求,因而所述服务器可以判断候选模型的性能指标是否满足条件。
在一些实施例中,所述性能指标可以包括第一性能指标。所述第一性能指标可以用于度量候选模型在T时刻的漂移情况,可以用于检验候选模型的稳定性。
所述服务器可以计算在线学习算法在T时刻的悔恨值,作为候选模型的第一性能指标。具体地,所述服务器可以计算在线学习算法在T时刻的静态悔恨值或动态悔恨值。例如,所述服务器可以根据公式
Figure GDA0002698813310000071
计算在线学习算法在T时刻的静态悔恨值或动态悔恨值。其中,L(wt;xt)表示t时刻的异常交易数据检测模型的损失值,wt表示t时刻的异常交易数据检测模型的参数,t时刻的异常交易数据检测模型是根据在线学习算法获得的。/>
Figure GDA0002698813310000072
表示t时刻的参考模型的损失值,/>
Figure GDA0002698813310000073
表示t时刻的参考模型的参数。t时刻的参考模型可以为在t时刻已知的较优模型。此处,t时刻的参考模型可以是固定不变的,这样RT便为在线学习算法在T时刻的静态悔恨值。或者,t时刻的参考模型还可以为t-1时刻的异常交易数据检测模型。这样RT便为在线学习算法在T时刻的动态悔恨值。
所述预测条件可以包括第一预设条件。所述第一预设条件可以根据实际需要灵活设定。例如,所述第一预设条件可以为当前时刻的第一性能指标小于或等于某一阈值。另举一例,所述第一预设条件还可以为当前时刻的第一性能指标与上一时刻的第一性能指标的差值小于或等于某一阈值。
所述服务器可以判断第一性能指标是否满足第一预设条件。通过判断第一性能指标是否满足第一预设条件,可以判断候选模型是否具有低的悔恨值,从而可以对候选模型的稳定性进行检验。具体地,若第一性能指标满足第一预设条件,所述服务器可以判断候选模型具有低的悔恨值,可以认定候选模型通过稳定性检验。若第一性能指标不满足第一预设条件,所述服务器可以判断候选模型具有高的悔恨值,可以认定候选模型没有通过稳定性检验。
在一些实施例中,所述性能指标还可以包括第二性能指标。所述第二性能指标可以用于度量候选模型的预测情况。所述第二性能指标可以取自精确率、准确率和召回率等。所述预测条件还可以包括第一预设条件。所述第二预设条件可以根据实际需要灵活设定。例如,所述第二预设条件可以为当前时刻的第二性能指标小于或等于某一阈值。另举一例,所述第二预设条件可以为当前时刻的第二性能指标与上一时刻的第二性能指标的差值小于或等于某一阈值。所述服务器可以计算候选模型的第二性能指标;可以判断第二性能指标是否满足第二预设条件。通过判断第二性能指标是否满足第二预设条件,可以更加全面地检验候选模型的性能,确保更新后的异常交易数据检测模型具有好的预测效果。
步骤S18:若是,将候选模型确定为T+1时刻的异常交易数据检测模型。
在一些实施例中,所述T+1时刻可以为当前时刻的下一时刻。所述T+1时刻的异常交易数据检测模型用于从T+1时刻的流式交易数据中检测出异常的交易数据。具体地,所述服务器可以根据T+1时刻的异常交易数据检测模型,对T+1时刻的流式交易数据进行预测,得到预测结果。所述预测结果用于表示流式交易数据为正常的交易数据或异常的交易数据。例如,所述预测结果可以为分值,所述分值用于表示流式交易数据为异常交易数据的概率。另举一例,所述预测结果还可以为类别,所述类别可以包括白类别和黑类别,所述白类别用于表示流式交易数据为正常的交易数据,所述黑类别用于表示流式交易数据为异常的交易数据。
在一些实施例中,如前面所述,所述服务器可以计算在线学习算法在T时刻的悔恨值,作为候选模型的第一性能指标;可以判断第一性能指标是否满足第一预设条件。如此,若第一性能指标满足第一预设条件,所述服务器可以将候选模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以使用新的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。若第一性能指标不满足第一预设条件,所述服务器可以将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以沿用T时刻的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。
进一步地,如前面所述,所述服务器还可以计算候选模型的第二性能指标;可以判断第二性能指标是否满足第二预设条件。如此,若第一性能指标满足第一预设条件、并且第二性能指标满足第二预设条件,所述服务器可以将候选模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以使用新的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。若第一性能指标满足第一预设条件、并且第二性能指标不满足第二预设条件,所述服务器可以将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以沿用T时刻的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。若第一性能指标不满足第一预设条件,所述服务器可以将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以沿用T时刻的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。
本说明书实施例的模型确定方法,在根据T时刻的流式交易数据确定得到候选模型以后,可以判断候选模型的性能指标是否满足预设条件;若是,可以将候选模型确定为T+1时刻的异常交易数据检测模型。这样可以根据预设条件有选择地更新异常交易数据检测模型,使异常交易数据检测模型保持好的预测效果。
本说明书还提供模型确定方法的另一个实施例。所述模型确定方法可以应用于服务器。所述服务器可以为单个服务器、由多个服务器构成的服务器集群、或者部署在云端的服务器。所述模型确定方法可以基于在线学习算法实现。
请参阅图3。所述模型确定方法可以包括以下步骤。
步骤S32:获取T时刻的流式交易数据。
步骤S34:根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型。
步骤S36:判断候选模型的性能指标是否满足预设条件。
步骤S38:若否,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
在一些实施例中,所述性能指标可以包括第一性能指标,第一性能指标用于检验候选模型的稳定性。所述服务器可以计算在线学习算法在T时刻的悔恨值,作为候选模型的第一性能指标。所述预设条件可以包括第一预设条件。所述服务器可以判断第一性能指标是否满足第一预设条件。若第一性能指标满足第一预设条件,所述服务器可以将候选模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以使用新的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。若第一性能指标不满足第一预设条件,所述服务器可以将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以沿用T时刻的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。
在一些实施例中,所述性能指标还可以包括第二性能指标,所述第二性能指标可以取自精确率、准确率和召回率等。所述预设条件还可以包括第二预设条件。所述服务器还可以计算候选模型的第二性能指标;可以判断第二性能指标是否满足第二预设条件。
若第一性能指标满足第一预设条件、并且第二性能指标满足第二预设条件,所述服务器可以将候选模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以使用新的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。若第一性能指标满足第一预设条件、并且第二性能指标不满足第二预设条件,所述服务器可以将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以沿用T时刻的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。若第一性能指标不满足第一预设条件,所述服务器可以将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。这样所述服务器可以沿用T时刻的异常交易数据检测模型对T+1时刻的流式交易数据进行预测。
本说明书实施例的模型确定方法,在根据T时刻的流式交易数据确定得到候选模型以后,可以判断候选模型的性能指标是否满足预设条件;若是,可以将候选模型确定为T+1时刻的异常交易数据检测模型。这样可以根据预设条件有选择地更新异常交易数据检测模型,使异常交易数据检测模型保持好的预测效果。
以下介绍本说明书实施例的一个应用场景示例。
交易数据是以流的方式持续生成并连续到达的。在金融风控领域,通常需要检测流式交易数据是否为异常的交易数据。为此服务器可以获取T时刻的流式交易数据;可以根据T时刻的异常交易数据检测模型,对T时刻的流式交易数据进行预测,以检测T时刻的流式交易数据中是否包括异常的交易数据。所述T时刻可以为当前时刻。另外,服务器还可以根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;可以判断候选模型的性能指标是否满足预设条件;若是,可以将候选模型确定为T+1时刻的异常交易数据检测模型;若否,可以将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。这样服务器在获取到T+1时刻的流式交易数据以后,可以根据T+1时刻的异常交易数据检测模型,对T+1时刻的流式交易数据进行预测,以检测T+1时刻的流式交易数据中是否包括异常的交易数据。
请参阅图4。本说明书还提供模型确定装置的一个实施例。
所述模型确定装置可以包括以下模块单元。
流式交易数据获取模块42,用于获取T时刻的流式交易数据,所述T时刻为当前时刻;
候选模型确定模块44,用于根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;
性能指标判断模块46,用于判断候选模型的性能指标是否满足预设条件;
异常交易数据检测模型确定模块48,用于若是,将候选模型确定为T+1时刻的异常交易数据检测模型。
请参阅图5。本说明书还提供模型确定装置的另一个实施例。
所述模型确定装置可以包括以下模块单元。
流式交易数据获取模块52,用于获取T时刻的流式交易数据,所述T时刻为当前时刻;
候选模型确定模块54,用于根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;
性能指标判断模块56,用于判断候选模型的性能指标是否满足预设条件;
异常交易数据检测模型确定模块58,用于若否,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
下面介绍本说明书电子设备的一个实施例。图6是该实施例中电子设备的硬件结构示意图。如图6所示,该电子设备可以包括一个或多个(图中仅示出一个)处理器、存储器和传输模块。当然,本领域普通技术人员可以理解,图6所示的硬件结构仅为示意,其并不对上述电子设备的硬件结构造成限定。在实际中该电子设备还可以包括比图6所示更多或者更少的组件单元;或者,具有与图6所示不同的配置。
所述存储器可以包括高速随机存储器;或者,还可以包括非易失性存储器,例如一个或者多个磁性存储装置、闪存或者其他非易失性固态存储器。当然,所述存储器还可以包括远程设置的网络存储器。所述远程设置的网络存储器可以通过诸如互联网、企业内部网、局域网、移动通信网等网络连接至所述电子设备。所述存储器可以用于存储应用软件的程序指令或模块,例如本说明书图1或图3所对应实施例的程序指令或模块。
所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以读取并执行所述存储器中的程序指令或模块。
所述传输模块可以用于经由网络进行数据传输,例如经由诸如互联网、企业内部网、局域网、移动通信网等网络进行数据传输。
本说明书还提供计算机存储介质的一个实施例。所述计算机存储介质包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)、存储卡(Memory Card)等等。所述计算机存储介质存储有计算机程序指令。在所述计算机程序指令被执行时实现:本说明书图1或图3所对应实施例的程序指令或模块。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例、电子设备实施例、以及计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (11)

1.一种模型确定方法,包括:
获取T时刻的流式交易数据,所述T时刻为当前时刻;
根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;其中,所述确定候选模型包括:根据T时刻的异常交易数据检测模型,对T时刻的多个流式交易数据进行预测;根据预测结果,从T时刻的多个流式交易数据中选取目标流式交易数据;将选取的目标流式交易数据作为增量流式交易数据,通过在线学习算法,根据增量流式交易数据对T时刻的异常交易数据检测模型进行训练,得到候选模型;
判断候选模型的性能指标是否满足预设条件;
若是,将候选模型确定为T+1时刻的异常交易数据检测模型。
2.如权利要求1所述的方法,所述预测结果包括分值;
所述从T时刻的多个流式交易数据中选取目标流式交易数据,包括:
从T时刻的多个流式交易数据中选取对应的分值大于或等于第一阈值的流式交易数据、以及对应的分值小于或等于第二阈值的流式交易数据,作为目标流式交易数据;所述第一阈值大于所述第二阈值。
3.如权利要求1所述的方法,所述异常交易数据检测模型通过在线学习算法得到;
所述判断候选模型的性能指标是否满足预设条件,包括:
计算在线学习算法在T时刻的悔恨值,作为候选模型的第一性能指标;
判断所述第一性能指标是否满足第一预设条件。
4.如权利要求3所述的方法,所述计算在线学习算法在T时刻的悔恨值,包括:
根据公式
Figure FDA0004086157840000011
计算在线学习算法在T时刻的悔恨值;
其中,RT表示在线学习算法在T时刻的悔恨值,L(wt;xt)表示t时刻的异常交易数据检测模型的损失值,wt表示t时刻的异常交易数据检测模型的参数,
Figure FDA0004086157840000012
)表示t时刻的参考模型的损失值,/>
Figure FDA0004086157840000013
表示t时刻的参考模型的参数,xt表示t时刻的流式交易数据。
5.如权利要求3所述的方法,在将候选模型确定为T+1时刻的异常交易数据检测模型之前,还包括:
计算候选模型的第二性能指标,所述第二性能指标取自精确率、准确率和召回率;
判断所述第二性能指标是否满足第二预设条件;
相应地,所述将候选模型确定为T+1时刻的异常交易数据检测模型,包括:
若所述第一性能指标满足第一预设条件、并且所述第二性能指标满足第二预设条件,将候选模型确定为T+1时刻的异常交易数据检测模型。
6.如权利要求5所述的方法,还包括:
若所述第一性能指标满足第一预设条件、并且第二性能指标不满足第二预设条件,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型;或者,
若所述第一性能指标不满足第一预设条件,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
7.如权利要求1所述的方法,还包括:
若否,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
8.一种模型确定方法,包括:
获取T时刻的流式交易数据,所述T时刻为当前时刻;
根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;其中,所述确定候选模型包括:根据T时刻的异常交易数据检测模型,对T时刻的多个流式交易数据进行预测;根据预测结果,从T时刻的多个流式交易数据中选取目标流式交易数据;将选取的目标流式交易数据作为增量流式交易数据,通过在线学习算法,根据增量流式交易数据对T时刻的异常交易数据检测模型进行训练,得到候选模型;
判断候选模型的性能指标是否满足预设条件;
若否,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
9.一种模型确定装置,包括:
流式交易数据获取模块,用于获取T时刻的流式交易数据,所述T时刻为当前时刻;
候选模型确定模块,用于根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;其中,所述确定候选模型包括:根据T时刻的异常交易数据检测模型,对T时刻的多个流式交易数据进行预测;根据预测结果,从T时刻的多个流式交易数据中选取目标流式交易数据;将选取的目标流式交易数据作为增量流式交易数据,通过在线学习算法,根据增量流式交易数据对T时刻的异常交易数据检测模型进行训练,得到候选模型;
性能指标判断模块,用于判断候选模型的性能指标是否满足预设条件;
异常交易数据检测模型确定模块,用于若是,将候选模型确定为T+1时刻的异常交易数据检测模型。
10.一种模型确定装置,包括:
流式交易数据获取模块,用于获取T时刻的流式交易数据,所述T时刻为当前时刻;
候选模型确定模块,用于根据T时刻的流式交易数据和T时刻的异常交易数据检测模型,确定候选模型;其中,所述确定候选模型包括:根据T时刻的异常交易数据检测模型,对T时刻的多个流式交易数据进行预测;根据预测结果,从T时刻的多个流式交易数据中选取目标流式交易数据;将选取的目标流式交易数据作为增量流式交易数据,通过在线学习算法,根据增量流式交易数据对T时刻的异常交易数据检测模型进行训练,得到候选模型;
性能指标判断模块,用于判断候选模型的性能指标是否满足预设条件;
异常交易数据检测模型确定模块,用于若否,将T时刻的异常交易数据检测模型确定为T+1时刻的异常交易数据检测模型。
11.一种电子设备,包括:至少一个处理器和存储有程序指令的存储器;
其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。
CN202010418654.1A 2020-05-18 2020-05-18 模型确定方法、装置和电子设备 Active CN111898626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418654.1A CN111898626B (zh) 2020-05-18 2020-05-18 模型确定方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418654.1A CN111898626B (zh) 2020-05-18 2020-05-18 模型确定方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111898626A CN111898626A (zh) 2020-11-06
CN111898626B true CN111898626B (zh) 2023-05-30

Family

ID=73206545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418654.1A Active CN111898626B (zh) 2020-05-18 2020-05-18 模型确定方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111898626B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907257B (zh) * 2021-04-26 2024-03-26 中国工商银行股份有限公司 风险阈值确定方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989374A (zh) * 2015-03-03 2016-10-05 阿里巴巴集团控股有限公司 一种在线训练模型的方法和设备
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090648B2 (en) * 2009-03-04 2012-01-03 Fair Isaac Corporation Fraud detection based on efficient frequent-behavior sorted lists

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989374A (zh) * 2015-03-03 2016-10-05 阿里巴巴集团控股有限公司 一种在线训练模型的方法和设备
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《在线学习算法研究与应用》;刘成昊;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20180115;摘要、正文第1-100页 *

Also Published As

Publication number Publication date
CN111898626A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN109359793B (zh) 一种针对新场景的预测模型训练方法及装置
CN109242135B (zh) 一种模型运营方法、装置、及业务服务器
CN110245047B (zh) 时间序列异常检测方法、装置及设备
US20200090077A1 (en) Method for determining risk preference of user, information recommendation method, and apparatus
CN109214436A (zh) 一种针对目标场景的预测模型训练方法及装置
US20200320428A1 (en) Fairness improvement through reinforcement learning
CN110263821B (zh) 交易特征生成模型的训练、交易特征的生成方法和装置
JP6869347B2 (ja) リスク制御イベント自動処理の方法および装置
CN110472802B (zh) 一种数据特征评估方法、装置及设备
CN110633989B (zh) 一种风险行为生成模型的确定方法及装置
CN110929799B (zh) 用于检测异常用户的方法、电子设备和计算机可读介质
CN109003091A (zh) 一种风险防控处理方法、装置及设备
US11210673B2 (en) Transaction feature generation
CN109426912A (zh) 风控系统优化方法、系统、装置以及电子设备
CN115082920A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN117041017A (zh) 数据中心的智能运维管理方法及系统
CN112738098A (zh) 一种基于网络行为数据的异常检测方法及装置
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
CN116188940A (zh) 训练模型的方法、装置、存储介质以及电子设备
CN111898626B (zh) 模型确定方法、装置和电子设备
CN115422028A (zh) 标签画像体系的可信度评估方法、装置、电子设备及介质
CN111401569B (zh) 超参数优化方法、装置和电子设备
CN115567371B (zh) 一种异常检测方法、装置、设备及可读存储介质
CN115408449B (zh) 一种用户行为的处理方法、装置及设备
CN111783883A (zh) 一种异常数据的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230109

Address after: 310099 B, Huanglong Times Square, 18 Wan Tang Road, Xihu District, Hangzhou, Zhejiang.

Applicant after: Alipay.com Co.,Ltd.

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant