发明内容
本说明书实施例旨在提供一种更有效的用于平台在线模型的数据处理方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种用于平台在线模型的数据处理方法,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:
获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在一个实施例中,所述方法还包括,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
在一个实施例中,所述方法还包括,在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及
在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
在一个实施例中,所述性能指标包括以下至少一种:准确率、召回率、AUC、KS值、PSI。
在一个实施例中,所述第一预定时段为过去一天。
在一个实施例中,获取与所述多个输入数据分别相应的标签值包括,在三天之后,获取与所述多个输入数据分别相应的标签值。
在一个实施例中,所述第一预定时段为过去的与当天间隔三天的一天。
在一个实施例中,所述模型输入数据和相应的模型输出数据通过所述模型的运行日志获取。
在一个实施例中,所述平台支持商户与消费者之间的交易业务,所述模型为交易风控模型,其中,所述模型输入数据为交易的特征数据,所述模型输出数据预测该交易是否存在风险,所述标签数据指示该交易是否存在风险,以及,所述交互数据为交易额。
在一个实施例中,所述第一预定时段具有第一预定时长,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段包括,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
在一个实施例中,基于所述各个时段的交易额,确定所述第一预定时段内的交易额是否异常包括,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
在一个实施例中,所述选定商户基于以下至少一项确定:
商户业务指标;
商户在过去一段时间中的正常期经营指标与异常期经营指标的差异性。
在一个实施例中,所述正常期和所述异常期各自包括至少一个具有第二预定时长的时段,所述经营指标包括每时段交易额的均值和/或方差。
本说明书另一方面提供一种用于平台在线模型的数据处理装置,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述装置包括:
第一获取单元,配置为,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
第一确定单元,配置为,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
第二获取单元,配置为,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在一个实施例中,所述装置还包括,放入单元,配置为,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
在一个实施例中,所述装置还包括第二确定单元,配置为,在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及训练单元,配置为,在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
在一个实施例中,所述第二获取单元还配置为,在三天之后,获取与所述多个输入数据分别相应的标签值。
在一个实施例中,所述第一预定时段具有第一预定时长,所述第一确定单元还配置为,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
在一个实施例中,所述第一确定单元还配置为,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一种方法。
在根据本说明书实施例的用于平台在线模型的数据处理方案中,通过增加对突变数据的检测模块,可检测出由于各种营销活动或节假日等导致的短期系统性经营趋势突变数据,从而对整个模型自动更新系统进行了以下改进:将短期系统性突变数据排除在训练样本之外,对训练样本进行提纯,提升模型重训练的性能;以及,优化模型更新时机,将短期突变导致的模型性能突变排除,提升模型稳定性,减少运营成本。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出根据本说明书实施例的模型更新系统100的示意图。如图1所示,系统100包括:在线模型11、商户筛选模块12、异常检测模块13、数据处理模块14、标注模块15、性能监控模块16、以及模型训练模块17。在线模型11为用于平台的在线计算模型,该模型例如可以为风控模型,可以理解,所述模型不限于为风控模型,而可以为平台中可使用的任意模型,例如,平台用户的行为预测模型等等。该平台支持第一类用户与第二类用户之间的交互业务。例如,所述平台为交易平台,其支持商户与消费者之间的交易业务。然而,所述平台不限于交易平台,例如,所述平台还可以为数据共享平台、支付平台、婚介平台、社交平台等等,例如,在数据共享平台中,支持数据发布用户与数据使用用户之间的数据交换业务。
在所述交易平台中的交易事件调用所述在线模型11时,模型产生日志数据,该数据中例如包括模型输入数据(交易特征数据)和模型输出数据(交易风险预测值)。数据处理模块14从模型运行日志中获取例如过去一天内的模型数据。同时,异常检测模块13通过判断平台中商户池中的全部商户在过去一天的交易额是否正常(是否为突变数据),而确定过去一天是否为异常天。其中,所述商户池通过商户筛选模块12预先获取,并且商户池可定期更新。在确定过去一天为异常天的情况中,可删除所述过去一天的模型数据。在确定过去一天不是异常天的情况中,数据处理模块14可从标注模块15中获取过去一天中各个输入数据各自的标签数据,从而获取模型的多个训练样本,并将该多个训练样本放入模型的训练样本池中。性能监控模块16可使用所述多个训练样本计算模型的性能指标。在模型的性能指标超出给定范围的情况中,进行更新决策,可由模型训练模块17使用训练样本池中的预定时段内(如60天内)的训练样本,对模型进行重新训练,以对模型进行更新。
图2示出根据本说明书实施例的一种用于平台在线模型的数据处理方法,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述方法包括:
在步骤S202,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
在步骤S204,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
在步骤S206,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
首先,在步骤S202,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据。在一个实施例中,所述模型例如为交易平台中的风控模型,该风控模型用于监控商户欺诈风险。在该情况中,所述模型输入数据为与商户相关的交易的特征数据,如商户的经营年限、商户的经营流量、商品的价格、商品的月出售次数等等,所述交易的风险值为商户欺诈风险值。在一个实施例中,所述模型为交易平台中的消费者行为预测模型,在该情况中,所述模型输入数据为与消费者相关的特征数据,如消费者的月消费额,消费者的画像特征等等,所述模型的输出数据为消费者行为预测值。如上文所述,基于不同的平台,所述模型可以是不同的模型,从而具有不同的输入数据和输出数据。例如,在数据共享平台中,所述模型例如为数据使用用户的行为预测,相应地,模型输入数据和输出数据都是与数据使用用户相关的数据。
在一个实施例中,所述第一预定时段例如为过去一天,例如,从当前时刻开始的前24小时,或者从当天零点开始的前24小时。在该情况中,所述方法例如在每天预定时刻(例如每天零点)执行一次。然而,所述第一预定时段不限于为过去一天,例如,所述方法例如可以每半天执行一次,例如,在零点执行一次,在中午12点执行一次,则所述第一预定时段可以为当前时刻(或者当天零点)开始的前12小时。
在一个实施例中,考虑到标签值的滞后获取,可在当前获取过去的与当天间隔几天的一天的模型数据,例如,对于执行该方法的当天d0,可获取过去的与当天间隔三天的一天d-4,即对于d-4天的模型数据,滞后三天获取并处理。同样地,这里的第一预定时段的长度不限于为一天,例如还可以为半天、几小时等等。其中,所述“当天”可以为从当天的零点开始的一天,或者,所述“当天”也可以为从所述方法开始执行时刻开始的一天
在步骤S204,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段。
在交易平台的场景中,所述平台的在所述第一预定时段内的交互数据为所述平台在所述第一预定时段内的交易额。在一个实施例中,基于所述平台中的选定商户在所述第一预定时段内的交易额,确定所述第一预定时段是否为异常时段。可以理解,本说明书实施例不限于基于商户的交易额,确定异常时段,例如,也可以基于多个选定消费者的交易额,确定异常时段。
在一个实施例中,所述选定商户是从平台的全量的活跃商户中筛选出的具有指示性的典型商户,该选定商户构成商户池。选定商户的数目N可基于需要的精确性自行设定,例如,选定商户的数目N可占平台总商户数的5%。在一个实施例中,可定期进行对商户的筛选,以进行对商户池的更新。图3示意示出对商户进行筛选的流程图。如图3所示,首先,可根据商户业务指标进行初选。业务指标例如包括商户签约时间、近期经营流量情况等等,例如,可设定筛选条件为,签约时间大于2年,且最近2年每天的经营流量稳定。从而通过该筛选,可初选出成熟且经营稳定的商户。
进一步,如图3所示,可基于差异性指标对商户进行筛选,所述差异性指标指示商户过去一段时间正常期经营指标与异常期经营指标的差异性。在一个实施例中,具体可通过以下步骤进行该筛选:首先,对于选定商户中的每个商户,选取过去t天(例如,t=180),计算过去t天每天的交易额;然后,将过去t天分为两类,如果涉及到节假日或大型营销活动日,则归为一类(异常类),类标签c=1,统计该类包含的天数为n1,其余天归为一类(正常类),类标签c=0,并统计该类包含的天数为n0;通过以下公式(1)和(2)计算正常类(c=0)日交易额的均值μ0和方差σ0:
然后,通过公式(3)所示的差异性指标D衡量商户检测突变异常点指向性强弱,其中,差异性指标指示商户在异常类c=1与正常类c=0之间的差异性,D值越高,说明该差异性越大,对于检测异常数据越有效,
最后,选取指标D最大的N个商户作为选定商户。
从公式(3)可见,差异性指标D即为异常天的日交易额的方差平方与正常天的日交易额的方差平方比。可以理解,差异性指标不限于公式(3)所示指标,例如,还可以为两类日交易额的均值比、均值与方差的线性和之比等等。
在确定N个选定商户之后,可基于N个选定商户的交易额确定所述第一预定时段是否为异常时段。例如,在第一预定时段为过去一天d-1的情况中,例如可基于N个商户在d-1之前的m天(例如m可为60天,即d-2-d-61)每天的总交易额(g1,g2,…,gm),通过以下公式(4)和(5)计算所述m天中日总交易额的均值μ和方差σ
对于过去一天d-1的交易额gm+1,当其满足如下公式(6)时,则是正常的,相应地,d-1为正常天,否则,则属于异常突变数据,相应地,d-1为异常天:
gt+1≤μ+3σ且gt+1≥μ-3σ (6)。
在上文的实例中,基于所述选定商户在d-2-d-61天的每日总交易额的方差和均值确定过去一天是否为异常时段,然而,本说明书实施例中的确定方法不限于此,例如,可基于所述选定商户在d-1-d-61天的每日总交易额的直方图确定过去一天(d-1)是否为异常时段。图4示意示出商户10天每日总交易额的直方图,通过绘制每天总交易额的直方图,可直观地示出交易额较突出的异常天(4-6天),通过在直方图中设定交易额正常区域(通过图中虚线之间的区域示出),可从图中直接获取异常天数。
上文中以第一预定时段为过去一天的实例进行了描述,然而,所述第一预定时段不限于为过去一天,例如,所述第一预定时段为过去的与当天间隔三天的一天,即如果当天为d0天,则第一预定时段为d-4天,仍可通过上述公式(4)-(6)类似地计算d-4天商户总交易额是否为异常数据,从而确定d-4天是否为异常天。其中,所述“当天”可以为从当天的零点开始的一天,相应地,所述过去一天为从当天零点过去的一天,所述“当天”也可以为从所述方法开始执行时刻开始的一天,相应地,所述过去一天为从所述方法开始执行时刻过去的一天。
在一个实施例中,第一预定时段的时长不限于为一天,例如,第一预定时段可以为过去半天,在该情况中,可与上述步骤类似地确定该第一预定时段是否为异常时段,例如,可以同样使用公式(4)-(6)确定过去半日总交易额gm+1是否异常,所不同的是,公式中的gi为在过去半日之前的m个半日中各自的半日商户总交易额。
上文中,虽然以交易平台中交易额为例说明了对异常时段的判断,在其它平台的场景中,可类似地进行对异常时段的判断,例如,在数据共享平台中,可基于数据上传用户与数据使用用户之间的交换数据量对异常时段进行判断。
在步骤S206,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在交易平台的风控模型场景中,在确定所述第一预定时段不是异常时段之后,可获取该时段中各个交易的标签值,该标签值例如指示所述交易是否为欺诈交易。例如,当该交易为欺诈交易时,将该交易对应的样本定性为黑样本,即标签值为1,当该交易为正常交易时,可将该交易对应的样本定性为白样本,即标签值为0。该标签值的获取例如主要基于用户(例如消费者)的主动投诉,并由平台业务人员基于交易的相关信息进行人工分析而确认。在获取各个标签值之后,可基于交易号,将标签值与相应的模型输入数据(即交易的特征数据)和模型输出数据关联到一起,从而获取模型的多个训练样本,其中,每个训练样本包括模型输入数据、模型输出数据、以及标签值。
在一个实施例中,标签值的生成时间相比于日志数据的生成滞后例如3天,因此,可将获取标签值的时间相比于获取日志数据的时间延后3天。例如,在获取所述模型过去一天内的多个输入数据和相应的多个输出数据之后,可在三天之后获取与所述多个输入数据分别对应的标签值。
在一个实施例中,标签值的生成时间相比于日志数据的生成滞后例如3天,在该情况中,可将第一预定时段设定为过去的与当天间隔三天的一天,从而,在获取该天的模型数据之后,可直接过去相应的标签值。
在一个实施例中,在获取所述多个训练样本之后,可将所述多个训练样本放入训练样本池中。从而,可通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围,所述性能指标包括但不限于以下至少一种:准确率、召回率、AUC、KS值、PSI(分数的分布)。在一个实施例中,使用召回率作为模型的性能指标。召回率通过以下公式(7)计算:
其中,A为模型对黑样本(标签值为1)预测准确的项,B为模型对黑样本(标签值为1)预测不准确的项。例如,在上述交易平台风控模型的场景中,对于一批用于监控的训练样本中的全部欺诈交易,该召回率为模型预测出的欺诈交易数与全部欺诈交易数的比例。因此,对于该批用于监控的训练样本,可先获取训练样本中的标签值为1的全部样本,获取其数量N,然后获取该标签值为1的全部样本中模型预测值为1的样本,获取其数量M,之后通过计算M/N,即可获取召回率的值作为该模型的性能指标。
所述第二预定时段例如可以为过去一天,即,可在每天执行图2所示方法之后,例如,当在训练样本池中增加过去一天的训练样本的情况中,则通过该新增加的训练样本进行对模型性能指标的监控。所述第二预定时段例如可以为过去两天,即,每两天进行一次对模型性能指标的监控。由于训练样本池中的样本都是除去异常天之后的正常天的训练样本,即排除了短期突变异常数据,从而该性能监控不会受到突变数据的干扰。
在所述性能指标超出(例如高于或低于)预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型,从而更新所述在线模型。所述第三预定时段例如为过去两个月。由于训练样本池中的样本都是除去异常天之后的正常天的训练样本,即排除了短期突变异常数据,从而,对模型的训练不会因为突变数据的干扰而不准确。在所述性能指标在预定范围内的情况中,则不进行对模型的重新训练和更新。
图5示出根据本说明书实施例的一种用于平台在线模型的数据处理装置500,其中,所述平台支持第一类用户与第二类用户之间的交互业务,所述装置包括:
第一获取单元51,配置为,获取所述模型第一预定时段内的多个输入数据和相应的多个输出数据;
第一确定单元52,配置为,基于所述平台的在所述第一预定时段内的交互数据,确定所述第一预定时段是否为异常时段;以及
第二获取单元53,配置为,在确定所述第一预定时段不是异常时段的情况中,获取与所述多个输入数据分别相应的标签值,以获取所述模型的多个训练样本,其中,每个训练样本包括输入数据、相应的输出数据和相应的标签值。
在一个实施例中,所述装置还包括,放入单元54,配置为,在获取所述多个训练样本之后,将所述多个训练样本放入训练样本池中。
在一个实施例中,所述装置还包括第二确定单元55,配置为,在将所述多个训练样本放入训练样本池之后,通过训练样本池中第二预定时段内的样本,确定所述模型的性能指标是否超出预定范围;以及训练单元56,配置为,在所述性能指标超出预定范围的情况中,使用所述训练样本池中第三预定时段内的样本训练所述模型。
在一个实施例中,所述第二获取单元还配置为,在三天之后,获取与所述多个输入数据分别相应的标签值。
在一个实施例中,所述第一预定时段具有第一预定时长,所述第一确定单元还配置为,基于所述平台中多个选定商户在所述第一预定时段之前的第一预定数目个具有所述第一预定时长的时段中各个时段的交易额,确定所述第一预定时段内的交易额是否异常,以确定所述第一预定时段是否为异常时段。
在一个实施例中,所述第一确定单元还配置为,基于所述各个时段的交易额的均值和方差,确定所述第一预定时段内的交易额是否异常。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一种方法。
在根据本说明书实施例的用于平台在线模型的数据处理方案中,通过增加对突变数据的检测模块,可检测出由于各种营销活动或节假日等导致的短期系统性经营趋势突变数据,从而对整个模型自动更新系统进行了以下改进:将短期系统性突变数据排除在训练样本之外,对训练样本进行提纯,提升模型重训练的性能;以及,优化模型更新时机,将短期突变导致的模型性能突变排除,提升模型稳定性,减少运营成本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。