CN109583729B - 用于平台在线模型的数据处理方法和装置 - Google Patents

用于平台在线模型的数据处理方法和装置 Download PDF

Info

Publication number
CN109583729B
CN109583729B CN201811379058.6A CN201811379058A CN109583729B CN 109583729 B CN109583729 B CN 109583729B CN 201811379058 A CN201811379058 A CN 201811379058A CN 109583729 B CN109583729 B CN 109583729B
Authority
CN
China
Prior art keywords
period
model
time
predetermined period
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811379058.6A
Other languages
English (en)
Other versions
CN109583729A (zh
Inventor
赵乾坤
高利翠
陈露佳
金宏
王维强
赵闻彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811379058.6A priority Critical patent/CN109583729B/zh
Publication of CN109583729A publication Critical patent/CN109583729A/zh
Application granted granted Critical
Publication of CN109583729B publication Critical patent/CN109583729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种用于平台在线模型的数据处理方法和装置,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。

Description

用于平台在线模型的数据处理方法和装置
技术领域
本说明书实施例涉及机器学习技术领域,更具体地,涉及一种用于平台在线模型的数据处理方法和装置。
背景技术
在机器学习领域,模型的自动重新调整(refit)和自动重新训练(retrain),是智能风控系统的重要组成部分,所述风控系统包括各个场景模型,如防盗用模型、防欺诈模型等。在这些模型中,一些特定的场景会对模型的自动更新提出特殊的要求,通用的自动更新方法将无法适用。比如在商户交易的欺诈风险场景中,商户的交易行为会有很多短期的系统性突变,比如双11、双12等大促活动以及春节等节假日,在这期间商户的交易量及交易流水等都会有很大的突变,而这些突变都是一些短期的变化,并不是常态的趋势性变化,不应该成为风控模型去“适应”的目标,因为风控模型应当保持一定的稳定性,更新的目的主要是适应趋势性的风险变化,如果直接把这些短期突变数据放到模型自动更新里,就会造成模型的频繁波动,不仅不能提升模型性能,还会极大增加模型运营成本。而且这种短期突变并不一定是固定日期,很难用简单的规则进行排除。
因此,需要一种更有效的用于所述模型的数据处理方案,以改进模型的自动更新方案。
发明内容
本说明书实施例旨在提供一种更有效的用于平台在线模型的数据处理方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种用于平台在线模型的数据处理方法,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:
获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在一个实施例中,所述方法还包括,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
在一个实施例中,所述方法还包括,在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及
在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
在一个实施例中,所述性能指标包括以下至少一种:准确率、召回率、AUC、KS值、PSI。
在一个实施例中,所述第一预定时段为过去一天。
在一个实施例中,获取与所述多个输入数据分别相应的标签值包括,在三天之后,获取与所述多个输入数据分别相应的标签值。
在一个实施例中,所述第一预定时段为过去的与当天间隔三天的一天。
在一个实施例中,所述模型输入数据和相应的模型输出数据通过所述模型的运行日志获取。
在一个实施例中,所述平台支持商户与消费者之间的交易业务,所述模型为交易风控模型,其中,所述模型输入数据为交易的特征数据,所述模型输出数据预测该交易是否存在风险,所述标签数据指示该交易是否存在风险,以及,所述交互数据为交易额。
在一个实施例中,所述第一预定时段具有第一预定时长,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段包括,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
在一个实施例中,基于所述各个时段的交易额,确定所述第一预定时段内的交易额是否异常包括,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
在一个实施例中,所述选定商户基于以下至少一项确定:
商户业务指标;
商户在过去一段时间中的正常期经营指标与异常期经营指标的差异性。
在一个实施例中,所述正常期和所述异常期各自包括至少一个具有第二预定时长的时段,所述经营指标包括每时段交易额的均值和/或方差。
本说明书另一方面提供一种用于平台在线模型的数据处理装置,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述装置包括:
第一获取单元,配置为,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
第一确定单元,配置为,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
第二获取单元,配置为,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在一个实施例中,所述装置还包括,放入单元,配置为,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
在一个实施例中,所述装置还包括第二确定单元,配置为,在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及训练单元,配置为,在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
在一个实施例中,所述第二获取单元还配置为,在三天之后,获取与所述多个输入数据分别相应的标签值。
在一个实施例中,所述第一预定时段具有第一预定时长,所述第一确定单元还配置为,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
在一个实施例中,所述第一确定单元还配置为,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一种方法。
在根据本说明书实施例的用于平台在线模型的数据处理方案中,通过增加对突变数据的检测模块,可检测出由于各种营销活动或节假日等导致的短期系统性经营趋势突变数据,从而对整个模型自动更新系统进行了以下改进:将短期系统性突变数据排除在训练样本之外,对训练样本进行提纯,提升模型重训练的性能;以及,优化模型更新时机,将短期突变导致的模型性能突变排除,提升模型稳定性,减少运营成本。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出根据本说明书实施例的模型更新系统100的示意图;
图2示出根据本说明书实施例的一种用于平台在线模型的数据处理方法;
图3示意示出对商户进行筛选的流程图;
图4示意示出商户10天每日总交易额的直方图;以及
图5示出根据本说明书实施例的一种用于平台在线模型的数据处理装置500。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出根据本说明书实施例的模型更新系统100的示意图。如图1所示,系统100包括:在线模型11、商户筛选模块12、异常检测模块13、数据处理模块14、标注模块15、性能监控模块16、以及模型训练模块17。在线模型11为用于平台的在线计算模型,该模型例如可以为风控模型,可以理解,所述模型不限于为风控模型,而可以为平台中可使用的任意模型,例如,平台用户的行为预测模型等等。该平台支持第一类用户与第二类用户之间的交互业务。例如,所述平台为交易平台,其支持商户与消费者之间的交易业务。然而,所述平台不限于交易平台,例如,所述平台还可以为数据共享平台、支付平台、婚介平台、社交平台等等,例如,在数据共享平台中,支持数据发布用户与数据使用用户之间的数据交换业务。
在所述交易平台中的交易事件调用所述在线模型11时,模型产生日志数据,该数据中例如包括模型输入数据(交易特征数据)和模型输出数据(交易风险预测值)。数据处理模块14从模型运行日志中获取例如过去一天内的模型数据。同时,异常检测模块13通过判断平台中商户池中的全部商户在过去一天的交易额是否正常(是否为突变数据),而确定过去一天是否为异常天。其中,所述商户池通过商户筛选模块12预先获取,并且商户池可定期更新。在确定过去一天为异常天的情况中,可删除所述过去一天的模型数据。在确定过去一天不是异常天的情况中,数据处理模块14可从标注模块15中获取过去一天中各个输入数据各自的标签数据,从而获取模型的多个训练样本,并将该多个训练样本放入模型的训练样本池中。性能监控模块16可使用所述多个训练样本计算模型的性能指标。在模型的性能指标超出给定范围的情况中,进行更新决策,可由模型训练模块17使用训练样本池中的预定时段内(如60天内)的训练样本,对模型进行重新训练,以对模型进行更新。
图2示出根据本说明书实施例的一种用于平台在线模型的数据处理方法,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:
在步骤S202,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
在步骤S204,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
在步骤S206,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
首先,在步骤S202,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据。在一个实施例中,所述模型例如为交易平台中的风控模型,该风控模型用于监控商户欺诈风险。在该情况中,所述模型输入数据为与商户相关的交易的特征数据,如商户的经营年限、商户的经营流量、商品的价格、商品的月出售次数等等,所述交易的风险值为商户欺诈风险值。在一个实施例中,所述模型为交易平台中的消费者行为预测模型,在该情况中,所述模型输入数据为与消费者相关的特征数据,如消费者的月消费额,消费者的画像特征等等,所述模型的输出数据为消费者行为预测值。如上文所述,基于不同的平台,所述模型可以是不同的模型,从而具有不同的输入数据和输出数据。例如,在数据共享平台中,所述模型例如为数据使用用户的行为预测,相应地,模型输入数据和输出数据都是与数据使用用户相关的数据。
在一个实施例中,所述第一预定时段例如为过去一天,例如,从当前时刻开始的前24小时,或者从当天零点开始的前24小时。在该情况中,所述方法例如在每天预定时刻(例如每天零点)执行一次。然而,所述第一预定时段不限于为过去一天,例如,所述方法例如可以每半天执行一次,例如,在零点执行一次,在中午12点执行一次,则所述第一预定时段可以为当前时刻(或者当天零点)开始的前12小时。
在一个实施例中,考虑到标签值的滞后获取,可在当前获取过去的与当天间隔几天的一天的模型数据,例如,对于执行该方法的当天d0,可获取过去的与当天间隔三天的一天d-4,即对于d-4天的模型数据,滞后三天获取并处理。同样地,这里的第一预定时段的长度不限于为一天,例如还可以为半天、几小时等等。其中,所述“当天”可以为从当天的零点开始的一天,或者,所述“当天”也可以为从所述方法开始执行时刻开始的一天
在步骤S204,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段。
在交易平台的场景中,所述平台的在所述第一预定时段内的交互数据为所述平台在所述第一预定时段内的交易额。在一个实施例中,基于所述平台中的选定商户在所述第一预定时段内的交易额,确定所述第一预定时段是否为异常时段。可以理解,本说明书实施例不限于基于商户的交易额,确定异常时段,例如,也可以基于多个选定消费者的交易额,确定异常时段。
在一个实施例中,所述选定商户是从平台的全量的活跃商户中筛选出的具有指示性的典型商户,该选定商户构成商户池。选定商户的数目N可基于需要的精确性自行设定,例如,选定商户的数目N可占平台总商户数的5%。在一个实施例中,可定期进行对商户的筛选,以进行对商户池的更新。图3示意示出对商户进行筛选的流程图。如图3所示,首先,可根据商户业务指标进行初选。业务指标例如包括商户签约时间、近期经营流量情况等等,例如,可设定筛选条件为,签约时间大于2年,且最近2年每天的经营流量稳定。从而通过该筛选,可初选出成熟且经营稳定的商户。
进一步,如图3所示,可基于差异性指标对商户进行筛选,所述差异性指标指示商户过去一段时间正常期经营指标与异常期经营指标的差异性。在一个实施例中,具体可通过以下步骤进行该筛选:首先,对于选定商户中的每个商户,选取过去t天(例如,t=180),计算过去t天每天的交易额;然后,将过去t天分为两类,如果涉及到节假日或大型营销活动日,则归为一类(异常类),类标签c=1,统计该类包含的天数为n1,其余天归为一类(正常类),类标签c=0,并统计该类包含的天数为n0;通过以下公式(1)和(2)计算正常类(c=0)日交易额的均值μ0和方差σ0
Figure BDA0001871455320000081
Figure BDA0001871455320000082
然后,通过公式(3)所示的差异性指标D衡量商户检测突变异常点指向性强弱,其中,差异性指标指示商户在异常类c=1与正常类c=0之间的差异性,D值越高,说明该差异性越大,对于检测异常数据越有效,
Figure BDA0001871455320000083
最后,选取指标D最大的N个商户作为选定商户。
从公式(3)可见,差异性指标D即为异常天的日交易额的方差平方与正常天的日交易额的方差平方比。可以理解,差异性指标不限于公式(3)所示指标,例如,还可以为两类日交易额的均值比、均值与方差的线性和之比等等。
在确定N个选定商户之后,可基于N个选定商户的交易额确定所述第一预定时段是否为异常时段。例如,在第一预定时段为过去一天d-1的情况中,例如可基于N个商户在d-1之前的m天(例如m可为60天,即d-2-d-61)每天的总交易额(g1,g2,…,gm),通过以下公式(4)和(5)计算所述m天中日总交易额的均值μ和方差σ
Figure BDA0001871455320000091
Figure BDA0001871455320000092
对于过去一天d-1的交易额gm+1,当其满足如下公式(6)时,则是正常的,相应地,d-1为正常天,否则,则属于异常突变数据,相应地,d-1为异常天:
gt+1≤μ+3σ且gt+1≥μ-3σ (6)。
在上文的实例中,基于所述选定商户在d-2-d-61天的每日总交易额的方差和均值确定过去一天是否为异常时段,然而,本说明书实施例中的确定方法不限于此,例如,可基于所述选定商户在d-1-d-61天的每日总交易额的直方图确定过去一天(d-1)是否为异常时段。图4示意示出商户10天每日总交易额的直方图,通过绘制每天总交易额的直方图,可直观地示出交易额较突出的异常天(4-6天),通过在直方图中设定交易额正常区域(通过图中虚线之间的区域示出),可从图中直接获取异常天数。
上文中以第一预定时段为过去一天的实例进行了描述,然而,所述第一预定时段不限于为过去一天,例如,所述第一预定时段为过去的与当天间隔三天的一天,即如果当天为d0天,则第一预定时段为d-4天,仍可通过上述公式(4)-(6)类似地计算d-4天商户总交易额是否为异常数据,从而确定d-4天是否为异常天。其中,所述“当天”可以为从当天的零点开始的一天,相应地,所述过去一天为从当天零点过去的一天,所述“当天”也可以为从所述方法开始执行时刻开始的一天,相应地,所述过去一天为从所述方法开始执行时刻过去的一天。
在一个实施例中,第一预定时段的时长不限于为一天,例如,第一预定时段可以为过去半天,在该情况中,可与上述步骤类似地确定该第一预定时段是否为异常时段,例如,可以同样使用公式(4)-(6)确定过去半日总交易额gm+1是否异常,所不同的是,公式中的gi为在过去半日之前的m个半日中各自的半日商户总交易额。
上文中,虽然以交易平台中交易额为例说明了对异常时段的判断,在其它平台的场景中,可类似地进行对异常时段的判断,例如,在数据共享平台中,可基于数据上传用户与数据使用用户之间的交换数据量对异常时段进行判断。
在步骤S206,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在交易平台的风控模型场景中,在确定所述第一预定时段不是异常时段之后,可获取该时段中各个交易的标签值,该标签值例如指示所述交易是否为欺诈交易。例如,当该交易为欺诈交易时,将该交易对应的样本定性为黑样本,即标签值为1,当该交易为正常交易时,可将该交易对应的样本定性为白样本,即标签值为0。该标签值的获取例如主要基于用户(例如消费者)的主动投诉,并由平台业务人员基于交易的相关信息进行人工分析而确认。在获取各个标签值之后,可基于交易号,将标签值与相应的模型输入数据(即交易的特征数据)和模型输出数据关联到一起,从而获取模型的多个训练样本,其中,每个训练样本包括模型输入数据、模型输出数据、以及标签值。
在一个实施例中,标签值的生成时间相比于日志数据的生成滞后例如3天,因此,可将获取标签值的时间相比于获取日志数据的时间延后3天。例如,在获取所述模型过去一天内的多个输入数据和相应的多个输出数据之后,可在三天之后获取与所述多个输入数据分别对应的标签值。
在一个实施例中,标签值的生成时间相比于日志数据的生成滞后例如3天,在该情况中,可将第一预定时段设定为过去的与当天间隔三天的一天,从而,在获取该天的模型数据之后,可直接过去相应的标签值。
在一个实施例中,在获取所述多个训练样本之后,可将所述多个训练样本放入训练样本池中。从而,可通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围,所述性能指标包括但不限于以下至少一种:准确率、召回率、AUC、KS值、PSI(分数的分布)。在一个实施例中,使用召回率作为模型的性能指标。召回率通过以下公式(7)计算:
Figure BDA0001871455320000111
其中,A为模型对黑样本(标签值为1)预测准确的项,B为模型对黑样本(标签值为1)预测不准确的项。例如,在上述交易平台风控模型的场景中,对于一批用于监控的训练样本中的全部欺诈交易,该召回率为模型预测出的欺诈交易数与全部欺诈交易数的比例。因此,对于该批用于监控的训练样本,可先获取训练样本中的标签值为1的全部样本,获取其数量N,然后获取该标签值为1的全部样本中模型预测值为1的样本,获取其数量M,之后通过计算M/N,即可获取召回率的值作为该模型的性能指标。
所述第二预定时段例如可以为过去一天,即,可在每天执行图2所示方法之后,例如,当在训练样本池中增加过去一天的训练样本的情况中,则通过该新增加的训练样本进行对模型性能指标的监控。所述第二预定时段例如可以为过去两天,即,每两天进行一次对模型性能指标的监控。由于训练样本池中的样本都是除去异常天之后的正常天的训练样本,即排除了短期突变异常数据,从而该性能监控不会受到突变数据的干扰。
在所述性能指标超出(例如高于或低于)预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型,从而更新所述在线模型。所述第三预定时段例如为过去两个月。由于训练样本池中的样本都是除去异常天之后的正常天的训练样本,即排除了短期突变异常数据,从而,对模型的训练不会因为突变数据的干扰而不准确。在所述性能指标在预定范围内的情况中,则不进行对模型的重新训练和更新。
图5示出根据本说明书实施例的一种用于平台在线模型的数据处理装置500,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述装置包括:
第一获取单元51,配置为,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
第一确定单元52,配置为,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
第二获取单元53,配置为,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在一个实施例中,所述装置还包括,放入单元54,配置为,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
在一个实施例中,所述装置还包括第二确定单元55,配置为,在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及训练单元56,配置为,在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
在一个实施例中,所述第二获取单元还配置为,在三天之后,获取与所述多个输入数据分别相应的标签值。
在一个实施例中,所述第一预定时段具有第一预定时长,所述第一确定单元还配置为,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
在一个实施例中,所述第一确定单元还配置为,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一种方法。
在根据本说明书实施例的用于平台在线模型的数据处理方案中,通过增加对突变数据的检测模块,可检测出由于各种营销活动或节假日等导致的短期系统性经营趋势突变数据,从而对整个模型自动更新系统进行了以下改进:将短期系统性突变数据排除在训练样本之外,对训练样本进行提纯,提升模型重训练的性能;以及,优化模型更新时机,将短期突变导致的模型性能突变排除,提升模型稳定性,减少运营成本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (27)

1.一种用于平台在线模型的数据处理方法,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:
获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值;
在确定所述第一预定时段是异常时段的情况中,删除所述第一预定时段内的多个输入数据和相应的多个输出数据。
2.根据权利要求1所述的方法,还包括,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
3.根据权利要求2所述的方法,还包括
在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及
在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
4.根据权利要求3所述的方法,其中,所述性能指标包括以下至少一种:准确率、召回率、AUC、KS值、PSI。
5.根据权利要求1所述的方法,其中,所述第一预定时段为过去一天。
6.根据权利要求5所述的方法,其中,获取与所述多个输入数据分别相应的标签值包括,在三天之后,获取与所述多个输入数据分别相应的标签值。
7.根据权利要求1所述的方法,其中,所述第一预定时段为过去的与当天间隔三天的一天。
8.根据权利要求1所述的方法,其中,所述模型输入数据和相应的模型输出数据通过所述模型的运行日志获取。
9.根据权利要求1所述的方法,其中,所述平台支持商户与消费者之间的交易业务,所述模型为交易风控模型,其中,所述模型输入数据为交易的特征数据,所述模型输出数据预测该交易是否存在风险,所述标签数据指示该交易是否存在风险,以及,所述交互数据为交易额。
10.根据权利要求9所述的方法,其中,所述第一预定时段具有第一预定时长,其中,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段包括,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
11.根据权利要求10所述的方法,其中,基于所述各个时段的交易额,确定所述第一预定时段内的交易额是否异常包括,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
12.根据权利要求10所述的方法,其中,所述选定商户基于以下至少一项确定:
商户业务指标;
商户在过去一段时间中的正常期经营指标与异常期经营指标的差异性。
13.根据权利要求12所述的方法,其中,所述正常期和所述异常期各自包括至少一个具有第二预定时长的时段,所述经营指标包括每时段交易额的均值和/或方差。
14.一种用于平台在线模型的数据处理装置,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述装置包括:
第一获取单元,配置为,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
第一确定单元,配置为,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
第二获取单元,配置为,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值;在确定所述第一预定时段是异常时段的情况中,删除所述第一预定时段内的多个输入数据和相应的多个输出数据。
15.根据权利要求14所述的装置,还包括,放入单元,配置为,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
16.根据权利要求15所述的装置,还包括
第二确定单元,配置为,在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及
训练单元,配置为,在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
17.根据权利要求16所述的装置,其中,所述性能指标包括以下至少一种:准确率、召回率、AUC、KS值、PSI。
18.根据权利要求14所述的装置,其中,所述第一预定时段为过去一天。
19.根据权利要求18所述的装置,其中,所述第二获取单元还配置为,在三天之后,获取与所述多个输入数据分别相应的标签值。
20.根据权利要求14所述的装置,其中,所述第一预定时段为过去的与当天间隔三天的一天。
21.根据权利要求14所述的装置,其中,所述模型输入数据和相应的模型输出数据通过所述模型的运行日志获取。
22.根据权利要求14所述的装置,其中,所述平台支持商户与消费者之间的交易业务,所述模型为交易风控模型,其中,所述模型输入数据为交易的特征数据,所述模型输出数据预测该交易是否存在风险,所述标签数据指示该交易是否存在风险,以及,所述交互数据为交易额。
23.根据权利要求22所述的装置,其中,所述第一预定时段具有第一预定时长,所述第一确定单元还配置为,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
24.根据权利要求23所述的装置,其中,所述第一确定单元还配置为,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
25.根据权利要求23所述的装置,其中,所述选定商户基于以下至少一项确定:
商户业务指标;
商户在过去一段时间中的正常期经营指标与异常期经营指标的差异性。
26.根据权利要求25所述的装置,其中,所述正常期和所述异常期各自包括至少一个具有第二预定时长的时段,所述经营指标包括每时段交易额的均值和/或方差。
27.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-13中任一项所述的方法。
CN201811379058.6A 2018-11-19 2018-11-19 用于平台在线模型的数据处理方法和装置 Active CN109583729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811379058.6A CN109583729B (zh) 2018-11-19 2018-11-19 用于平台在线模型的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811379058.6A CN109583729B (zh) 2018-11-19 2018-11-19 用于平台在线模型的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN109583729A CN109583729A (zh) 2019-04-05
CN109583729B true CN109583729B (zh) 2023-06-20

Family

ID=65923321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811379058.6A Active CN109583729B (zh) 2018-11-19 2018-11-19 用于平台在线模型的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN109583729B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN111814548B (zh) * 2020-06-03 2022-12-09 中铁第四勘察设计院集团有限公司 一种异常行为检测方法和装置
CN111967779B (zh) * 2020-08-19 2022-12-16 支付宝(杭州)信息技术有限公司 一种风险评估方法、装置及设备
CN112785063B (zh) * 2021-01-26 2023-07-04 上海瀚银信息技术有限公司 一种基于交易额预测模型的交易额预测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN105654381A (zh) * 2015-12-28 2016-06-08 上海瀚银信息技术有限公司 业务交易额的预测系统
CN108197845A (zh) * 2018-02-28 2018-06-22 四川新网银行股份有限公司 一种基于深度学习模型lstm的交易指标异常的监测方法
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
CN108537592A (zh) * 2018-04-10 2018-09-14 网易(杭州)网络有限公司 交易检测方法、装置,存储介质和电子装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403922B1 (en) * 1997-07-28 2008-07-22 Cybersource Corporation Method and apparatus for evaluating fraud risk in an electronic commerce transaction
CN106055607B (zh) * 2016-05-25 2020-05-19 百度在线网络技术(北京)有限公司 用户到访预测模型建立、用户到访预测方法和装置
CN106682067B (zh) * 2016-11-08 2018-05-01 浙江邦盛科技有限公司 一种基于交易数据的机器学习反欺诈监测系统
CN106951925B (zh) * 2017-03-27 2021-04-30 成都晓多科技有限公司 数据处理方法、装置、服务器及系统
CN107291911B (zh) * 2017-06-26 2020-01-21 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN107358360A (zh) * 2017-07-14 2017-11-17 成都农村商业银行股份有限公司 反洗钱系统的异常业务数据筛选方法
CN107609793A (zh) * 2017-10-09 2018-01-19 税友软件集团股份有限公司 一种处理生产交易系统异常状态的方法及装置
CN107798390B (zh) * 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN108737406B (zh) * 2018-05-10 2020-08-04 北京邮电大学 一种异常流量数据的检测方法及系统
CN108665166A (zh) * 2018-05-10 2018-10-16 易联支付有限公司 一种风险控制模型的训练方法及装置
CN108596150A (zh) * 2018-05-10 2018-09-28 南京大学 一种可排除异常动作的行为识别系统及其工作方法
CN108717602B (zh) * 2018-05-15 2021-09-28 创新先进技术有限公司 一种交易行为异常的识别方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN105654381A (zh) * 2015-12-28 2016-06-08 上海瀚银信息技术有限公司 业务交易额的预测系统
CN108197845A (zh) * 2018-02-28 2018-06-22 四川新网银行股份有限公司 一种基于深度学习模型lstm的交易指标异常的监测方法
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
CN108537592A (zh) * 2018-04-10 2018-09-14 网易(杭州)网络有限公司 交易检测方法、装置,存储介质和电子装置

Also Published As

Publication number Publication date
CN109583729A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109583729B (zh) 用于平台在线模型的数据处理方法和装置
CN104881783A (zh) 电子银行账户欺诈行为及风险检测方法与系统
WO2020024718A1 (zh) 外汇交易量预测方法和装置
CN107093120A (zh) 服务策略推送方法和装置
JP2004528611A (ja) 構造化金融性能監視指標
CN111353901A (zh) 风险识别监控方法、装置以及电子设备
CN112581291B (zh) 风险测评异动检测方法、装置、设备及存储介质
CN110796539A (zh) 一种征信评估方法及装置
CN111259922A (zh) 基于客户退单预警的订单数据处理方法、装置
CN114943565A (zh) 基于智能算法的电力现货价格预测方法及装置
CN112308293B (zh) 违约概率预测方法及装置
CN110796379B (zh) 业务渠道的风险评估方法、装置、设备及存储介质
CN117172825A (zh) 基于大数据的电商数据分析方法、装置及计算设备
CN116167646A (zh) 基于交易算法的评价方法、装置、设备及存储介质
CN110717653A (zh) 风险识别方法及装置和电子设备
CN114663232A (zh) 异常交易行为的监测方法、装置及计算机程序产品
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
CN114298825A (zh) 还款积极度评估方法及装置
CN113657894A (zh) 一种外汇报价处理方法、装置及电子设备
KR101954131B1 (ko) 무인 납부 시스템
CN113657945A (zh) 用户价值预测方法、装置、电子设备和计算机存储介质
CN113743994A (zh) 一种供应商的旺季预测方法、系统、设备及存储介质
KR101954132B1 (ko) 체납처분 시스템
KR102721408B1 (ko) 날씨 및 캘린더 데이터를 이용한 신용도평가방법
CN116957751B (zh) 一种订单业务异常监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant