CN108764290A - 模型异动的原因确定方法及装置和电子设备 - Google Patents

模型异动的原因确定方法及装置和电子设备 Download PDF

Info

Publication number
CN108764290A
CN108764290A CN201810384855.7A CN201810384855A CN108764290A CN 108764290 A CN108764290 A CN 108764290A CN 201810384855 A CN201810384855 A CN 201810384855A CN 108764290 A CN108764290 A CN 108764290A
Authority
CN
China
Prior art keywords
model
value
unusual fluctuation
design variables
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810384855.7A
Other languages
English (en)
Other versions
CN108764290B (zh
Inventor
吴星
金宏
王维强
赵闻飙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810384855.7A priority Critical patent/CN108764290B/zh
Publication of CN108764290A publication Critical patent/CN108764290A/zh
Application granted granted Critical
Publication of CN108764290B publication Critical patent/CN108764290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例提供一种模型异动的原因确定方法及装置和电子设备,所述方法包括:在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;判断所述预设变量是否发生异常;在所述预设变量发生异常时,确定模型异动的原因为变量异常。

Description

模型异动的原因确定方法及装置和电子设备
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种模型异动的原因确定方法及装置和电子设备。
背景技术
随着机器学习技术的不断发展,越来越多的领域开始采用机器学习技术构建业务模型。例如,在风控领域,通过机器学习技术构建风控模型从而识别和防控盗用、欺诈、作弊等风险行为。随着业务的变化,业务模型的性能往往会发生衰减甚至是失效,通常模型出现上述问题时称为模型存在模型异动。通常,在监控到模型存在模型异动后,需要及时对模型进行修复。
在相关技术中,模型修复通常都是简单的重新训练一个新的模型,用来替换原有异动的模型。然而,实际情况下模型异动的原因存在多种情况,并不是所有模型异动都必须重新训练模型的。因此,如何确定模型异动的原因,成为亟须解决的问题。
发明内容
本说明书实施例提供的一种模型异动的原因确定方法及装置和电子设备:
根据本说明书实施例的第一方面,提供一种模型异动的原因确定方法,所述方法包括:
在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;
判断所述预设变量是否发生异常;
在所述预设变量发生异常时,确定模型异动的原因为变量异常。
根据本说明书实施例的第二方面,提供一种模型异动的原因确定方法,所述方法包括:
在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设特征的特征值;
判断所述预设特征的特征值与预设阈值是否不符;
在所述预设特征的特征值与预设阈值不符时,确定模型异动的原因为特征异常。
根据本说明书实施例的第三方面,提供一种模型异动的原因确定装置,所述装置包括:
获取单元,在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;
判断单元,判断所述预设变量是否发生异常;
确定单元,在所述预设变量发生异常时,确定模型异动的原因为变量异常。
根据本说明书实施例的第四方面,提供一种模型异动的原因确定装置,所述装置包括:
获取单元,在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设特征的特征值;
判断单元,判断所述预设特征的特征值与预设阈值是否不符;
确定单元,在所述预设特征的特征值与预设阈值不符时,确定模型异动的原因为特征异常。
根据本说明书实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述任一项所述的模型异动的原因确定方法。
本说明书实施例,提供了一个模型异动的原因确定方案,通过参考异动模型中预设变量和/或预设特征;如果预设变量发生异常,则可以确定模型异动原因为变量异常;如果预设特征的特征值与预设阈值是否不符,则可以确定模型异动原因为特征异常。如此,可以根据具体异动的原因来进行模型修复,例如可以针对变量异常,可以将异常变量调整为正常即可;针对特征异常,可以重新拟合模型即可;无需重新训练新的模型,从而节约了由于训练模型而产生的资源消耗。
附图说明
图1是一种传统的模型异动监控系统的示意图;
图2是本说明书一实施例提供的模型异动监控系统的示意图;
图3是本说明书一实施例提供的模型异动的识别方案的流程图;
图4是本说明书一实施例提供的模型异动的原因确定方案的流程图;
图5是本说明书一实施例提供的模型异动的原因确定方案的流程图;
图6是本说明书一实施例提供的模型异动的原因确定装置的硬件结构图;
图7是本说明书一实施例提供的模型异动的原因确定装置的模块示意图;
图8是本说明书一实施例提供的模型异动的原因确定装置的模块示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如前所述,随着机器学习技术的不断发展,越来越多的领域开始采用机器学习技术构建业务模型。例如,在风控领域,通过机器学习技术构建风控模型从而识别和防控盗用、欺诈、作弊等风险行为。通常业务模型的性能直接关系到最终业务处理的效果,因此理想状态下需要业务模型的性能尽可能高。然而,随着业务的变化,业务模型的性能往往会发生异动或衰减,甚至是失效。因此如何识别业务模型异动,准确给出业务模型异动的原因,并及时触发对业务模型进行修复或更新是亟须解决的问题。
在相关技术中,传统用于识别业务模型异动的方式通常是在业务模型上线后,对其进行监控;并在识别出业务模型异动时重新训练一个新的业务模型,并替换线上异动的业务模型。这里的异动可以是指模型性能发生异常的波动或者失效。如图1所示,传统的模型监控系统可以包括模型监控模块,在目标模型上线后,通过所述模型监控模块对目标模型进行监控;当目标模型异动时重新训练一个新的模型,并替换线上异动的目标模型;或者,可以是周期性训练一个新的模型,并替换线上的目标模型。
以下结合如图2所示的本说明书提供实施例适用的模型监控系统的示意图。图2中,相对于图1所示传统模型监控系统,增加了原因下探模块用于确定模型异动的原因。在确定模型异动的原因后,可以基于不同的原因采用不同的修复方式。具体的所述原因下探模型的实现方式请参考如下实施例的描述。
现有技术中,在确定了模型存在异动后,修复模型的方式均是重新训练模型,并替换原有异动的模型。然而,实际情况下模型异动的原因存在多种情况,并不是所有模型异动都必须重新训练模型的;例如,由于模型中某个变量的缺失值过多造成的模型异动,其实只需要对该变量进行调整就可以修改异动的模型,并不需要对异动的模型立即采用重新训练的方式来修复。因此,如何确定模型异动的原因,成为亟须解决的问题。
另一方面,传统的模型异动的识别方案,主要是采用单一指标预警机制。例如在目标模型的KS值或PSI值大于阈值时,则输出模型预警。这样的方式容易造成模型预警频率过高,还可能存在误报、错报的情况,因此传统模型异动的原因确定的准确性不高。
本说明书提出了一种模型异动的原因确定方案,以下详细介绍本说明书一种模型异动的原因确定方法的实施例,该方法可以应用在模型监控服务器(以下简称为服务器),该实施例首先介绍模型异动的识别方案,如图3所示可以包括:
步骤110:获取目标模型的多种预设基础指标的值;
步骤120:综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值;
步骤130:在所述模型稳定值超过阈值的情况下,确定所述目标模型存在模型异动。
本说明书综合多种预设基础指标判断目标模型是否存在模型异动,相比于传统采用单一指标进行判断,不仅可以做到模型异动的识别更为准确;而且可以有效减少误报、错报的出现。
在一实施例中,所述模型基础指标包括如下至少一种:
打扰率、覆盖率、KS、PSI、AUC和/或Top Captured。
其中,所述打扰率,是一种衡量模型预测准确性的指标。具体地,可以是指模型预测结果中命中预设分数段内的样本数与总的样本数的比值。
所述预设分数段可以是根据实际业务模型确定的,例如针对风控模型,所述打扰率可以是指风控模型预测结果中命中高分段(存在风险)的样本数与总的样本数的比值。
计算公式如下公式1所示:
打扰率=预设分数段内的样本数/总样本数 公式1
举例说明,某一风控模型预测10组样本数据,预测结果中命中高分段的样本数为4;那么该风控模型的打扰率基于上述公式1可以计算得到40%。
其中,所述覆盖率,是一种衡量模型预测准确性的指标。具体地,可以是指模型预测结果中命中预设分数段内的黑样本数与总的样本数的比值。
所述预设分数段可以是根据实际业务模型确定的,例如针对风控模型,所述打扰率可以是指风控模型预测结果中命中高分段(存在风险)的黑样本数与总的黑样本数的比值。
这里的黑样本可以是指模型预测结果与实际结果不同的样本。例如,某个样本实际结果是低风险,而模型预测结果却命中高风险时,该样本即可以认为是黑样本。
计算公式如下公式2所示:
覆盖率=预设分数段内的黑样本数/总的黑样本数 公式2
举例说明,某一风控模型预测10组样本数据,假设预测结果命中低分段的样本数为4,命中高分段的样本数为6;将预测结果与实际结果比较后发现,命中低分段的4个样本中存在2个黑样本,而命中高分段的6个样本中存在3个黑样本;那么该风控模型的覆盖率基于上述公式2为:3/(3+2)=60%。
其中,所述KS,是一种在模型中用于区分预测黑白样本分隔程度的评价指标。
计算公式如下公式3所示:
KS=|(max(累加命中率-累加未命中率))| 公式3
该公式3的含义为:
计算每个分数段的白样本数和黑样本数;
累加每个分数段的白样本数与总的白样本数的比值,得到第一比值;
累加每个分数段的黑样本数与总的黑样本数的比值,得到第二比值;
计算第一比值和第二比值的差值序列,取所述差值序列的最大值并取其绝对值得到KS值。
其中,所述PSI(population stability index,群体稳定性指标),是一种衡量模型的预测值与实际值偏差大小的指标。一般的,PSI值越大说明模型越不稳定,PSI值越小说明模型越稳定。
计算公式如下公式4所示:
PSI=sum((实际占比-预期占比)*ln(实际占比/预期占比))公式4
举例说明,假设训练一个logistic回归模型;有若干训练样本,将所述训练样本中概率输出定义为p1;将p1从小到大排序后分为N等份。所述N可以是人为预先设置的经验值,例如10等份。使用所述训练样本训练得到的logistic回归模型,对新的样本进行预测,并将新的样本的概率输出定义为p2;同样将p2从小到大排序后分为N等份。上述公式4中,实际占比就是p2上在各区间的样本占比,预期占比就是p1上各区间的样本占比。如果模型更稳定,那么p1和p2上各区间的样本应该是相近的,占比不会变动很大,也就是预测出来的概率不会差距很大。一般的,认为PSI小于0.1时候模型稳定性很高,0.1-0.25一般,大于0.25模型稳定性差,建议修复。
值得一提的是,除了按概率值大小等分外,还可以对概率排序后按数量等分,两种方法计算得到的psi可能有所区别但数值相差不大。
其中,AUC(Area Under Curve),可以表示ROC(Receiver OperatingCharacteristic)曲线下的面积;一般的,AUC可以用于衡量一个分类模型的优劣。AUC值可以在0.5到1之间。
简单理解来说,AUC值是一个概率值,当随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。
其中,Top Captured,一种分类模型优劣的评价指标,通常来说越大越好。
在一实施例中,所述步骤120综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值,具体包括:
将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值。
以预设基础指标为打扰率、覆盖率、KS、PSI、AUC和Top Captured为例,则模型稳定值KSI可以是将这些预设基础指标的值相加。
计算公式如下公式5所示:
KSI=打扰率值+覆盖率值+KS值+PSI值+AUC值+Top Captured值公式5
当KSI值超过阈值时,可以确定目标模型存在模型异动;当KSI值不超过阈值时,可以确定目标模型不存在模型异动。这里的超过可以是指大于或者等于的情况。
在一实施例中,每种预设基础指标对应有一个权重值;所有预设基础指标的权重值之和为1;
所述将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值,具体包括:
在将多种预设基础指标与对应的权重值相乘后求和,得到所述目标模型的模型稳定值。
其中,每种预设基础指标对应的权重值,可以是人为预先设置的经验值,并且所有预设基础指标的权重值之和为1。
以下列举一个示例性的模型稳定值的计算公式如下公式6所示:
KSI=20%*打扰率值+20%*覆盖率值+15%*KS值+20%*PSI值+15%*AUC值+10%*Top Captured值公式6
需要说明的是,该公式6中的权重值仅是一种示例,在实际应用中针对不同业务模型可以灵活配置。
在一种实施例中,所述权重值可以是通过数据驱动的方式自动进行调整,从而使得权重值最优。具体地,首先利用一个已知模型是否异动的测试模型采用默认的权重值进行KSI计算,如果计算出的KSI表示的模型是否异动的结果与实际模型是否异动不符,则需要调整权重值。一般的,可以根据预设基础指标的重要程度进行调整;例如,将重要程度高的预设基础指标的权重值调大,相应地需要将重要程度低的预设基础指标的权重值调小,使权重值之和始终为1;再次计算KSI,如果计算出的KSI表示的模型是否异动的结果与实际模型是否异动依然不符,则继续调整权重值;直到计算出的KSI表示的模型是否异动的结果与实际模型是否异动相符。
在基于上述图3所示模型异动的识别方案基础上,如果识别出目标模型存在模型异动,那么可以继续采用如下图4所示的模型异动的原因确定方案来确定模型异动的原因。需要说明的是,本说明书中提出的模型异动的原因确定方案还可以直接在传统模型异动的识别方案基础上实施的。也就是说,对于模型异动的原因确定方案来说,如何识别出目标模型存在模型异动并不对其进行限定。具体地,所述模型异动的原因确定方案,可以包括:
步骤210:在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;
步骤220:判断所述预设变量是否发生异常;
步骤230:在所述预设变量发生异常时,确定模型异动的原因为变量异常。
在一实施例中,在确定模型异动的原因为变量异常时,将所述异常的预设变量调整为正常。
在一实施例中,所述预设变量可以包括IV、MEAN、PSI中的至少一种。
其中,所述IV(Information Value),主要用于在机器学习的二分类问题中对输入变量进行编码和预测能力进行评估的特征。IV值的大小即表示该变量预测能力的强弱。
其中,所述MAEAN,表示某一个数据的平均值。
其中,所述PSI与前述PSI相同,此处不再赘述。
在一实施例中,所述步骤220判断所述预设变量是否发生异常,包括:
判断所述预设变量是否存在变量缺失异常。
具体地,所述判断所述预设变量是否存在变量缺失异常,具体包括:
计算所述预设变量的缺失值数量;
判断所述预设变量的缺失值数量是否大于预设数量;其中,所述预设数量为该模型未异动时该预设变量的缺失值数量;
在所述预设变量的缺失值数量大于正常数量的情况下,确定所述预设变量存在变量缺失异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量缺失异常。
举例说明,假设某个变量,通常针对100次计算,在正常模型中,通常存在1个缺失值(可以认为预设数量为1);而在异动模型中,存在50个缺失值;那么,可以确定该模型异动的原因是变量缺失值异常。在确定变量缺失值异常后,可以针对该异常的变量进行调整从而修复模型,无需新训练模型;节约了由于训练模型而产生的资源消耗。
在一实施例中,所述步骤220判断所述预设变量是否发生异常,包括:
判断所述预设变量的分布是否出现偏移异常。
具体地,所述判断所述预设变量的分布是否出现偏移异常,具体包括:
获取所述预设变量的分布;
判断所述预设变量的分布与正常分布是否一致;其中,所述正常分布为该模型未异动时该预设变量的分布;
在所述预设变量的分布与正常分布不一致的情况下,确定所述预设变量存在变量分布偏移异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量分布偏移异常。
举例说明,假设某个变量,在正常模型中的分布为1,2,3,4,5;而在异动模型中的分别变为6,7,8,9,10;那么可以确定该模型异动的原因是变量分布偏移。在确定变量分布偏移后,可以针对该异常的变量进行调整从而修复模型,无需新训练模型;节约了由于训练模型而产生的资源消耗。
通过参考异动模型中预设变量;如果预设变量发生异常,则可以确定模型异动原因为变量异常。如此,针对变量异常,可以将异常变量调整为正常即可,无需重新训练新的模型,从而节约了由于训练模型而产生的资源消耗
类似的,在基于上述图3所示模型异动的识别方案基础上,如果识别出目标模型存在模型异动,那么可以继续采用如下图5所示的模型异动的原因确定方案来确定模型异动的原因。需要说明的是,本说明书中提出的模型异动的原因确定方案还可以直接在传统模型异动的识别方案基础上实施的。也就是说,对于模型异动的原因确定方案来说,如何识别出目标模型存在模型异动并不对其进行限定。具体地,所述模型异动的原因确定方案,可以包括:
步骤310:在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设特征的特征值;
步骤320:判断所述预设特征的特征值与预设阈值是否不符;
步骤330:在所述预设特征的特征值与预设阈值不符时,确定模型异动的原因为特征异常。
在一实施例中,所述预设特征至少可以包括Event Rate。
其中,Event Rate,表示黑样本数/总的样本数。
在一实施例中,在确定模型异动的原因为特征异常时,重新拟合所述存在模型异动的目标模型。
由于模型中某个预设特征发生变化造成的模型异动,其实可以尝试对异动模型进行重新拟合来进行模型修复,当重新拟合成功即完成模型修复,当重新拟合不成功在采用重新训练模型的方式进行模型修复。
通过参考异动模型中预设特征,如果预设特征的特征值与预设阈值是否不符,则可以确定模型异动原因为特征异常。如此,特征异常,可以重新拟合模型即可;无需重新训练新的模型,从而节约了由于训练模型而产生的资源消耗。
在基于上述图3所示模型异动的识别方案基础上,如果识别出目标模型存在模型异动,那么可以继续采用如下所示的模型异动的原因确定方案来确定模型异动的原因。需要说明的是,本说明书中提出的模型异动的原因确定方案还可以直接在传统模型异动的识别方案基础上实施的。也就是说,对于模型异动的原因确定方案来说,如何识别出目标模型存在模型异动并不对其进行限定。具体地,所述模型异动的原因确定方案,可以包括:
获取所述存在模型异动的目标模型中的预设得分;
在所述预设得分与得分阈值不符时,确定模型异动的原因为关系异常;
在确定模型异动的原因为关系异常时,重新训练模型。
在一实施例中,所述预设得分可以包括:PSI、AUC、Top Captured中的至少一种。
通过参考异动模型中预设得分(Score),如果预设得分与得分阈值不符时,则可以确定模型异动的原因为关系异常。针对关系异常,则可以采用重新训练模型的方式修复异动的模型。
与前述模型异动的原因确定方法实施例相对应,本说明书还提供了模型异动的原因确定装置的实施例。所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机业务程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本说明书模型异动的原因确定装置所在的一种硬件结构图,除了图6所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中通常根据该模型异动的原因确定的实际功能,还可以包括其他硬件,对此不再赘述。
请参见图7,为本说明书一实施例提供的模型异动的原因确定装置的模块图,所述装置对应了图4所示实施例,所述装置包括:
获取单元410,在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;
判断单元420,判断所述预设变量是否发生异常;
确定单元430,在所述预设变量发生异常时,确定模型异动的原因为变量异常。
在一种可选的实施例中:
所述判断单元420,具体包括:
第一判断子单元,判断所述预设变量是否存在变量缺失异常;
或者
第二判断子单元,判断所述预设变量的分布是否出现偏移异常。
在一种可选的实施例中:
所述第一判断子单元,具体包括:
计算子单元,计算所述预设变量的缺失值数量;
数量判断子单元,判断所述预设变量的缺失值数量是否大于预设数量;其中,所述预设数量为该模型未异动时该预设变量的缺失值数量;
第一确定子单元,在所述预设变量的缺失值数量大于正常数量的情况下,确定所述预设变量存在变量缺失异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量缺失异常。
在一种可选的实施例中:
所述第二判断子单元,具体包括:
获取子单元,获取所述预设变量的分布;
分布判断子单元,判断所述预设变量的分布与正常分布是否一致;其中,所述正常分布为该模型未异动时该预设变量的分布;
第二确定子单元,在所述预设变量的分布与正常分布不一致的情况下,确定所述预设变量存在变量分布偏移异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量分布偏移异常。
在一种可选的实施例中:
所述预设变量包括IV、MEAN、PSI中的至少一种。
在一种可选的实施例中:
所述装置还包括:
指标获取子单元,获取目标模型的多种预设基础指标的值;
稳定值计算子单元,综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值;
异动识别子单元,在所述模型稳定值超过阈值的情况下,确定所述目标模型存在模型异动。
在一种可选的实施例中:
所述稳定值计算子单元,具体包括:
将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值。
在一种可选的实施例中:
每种预设基础指标对应有一个权重值;所有预设基础指标的权重值之和为1;
所述将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值,具体包括:
在将多种预设基础指标与对应的权重值相乘后求和,得到所述目标模型的模型稳定值。
在一种可选的实施例中:
所述模型基础指标包括如下任意一种组合:
打扰率、覆盖率、KS、PSI、AUC、Top Captured。
请参见图8,为本说明书一实施例提供的模型异动的原因确定装置的模块图,所述装置对应了图5所示实施例,所述装置包括:
获取单元510,在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设特征的特征值;
判断单元520,判断所述预设特征的特征值与预设阈值是否不符;
确定单元530,在所述预设特征的特征值与预设阈值不符时,确定模型异动的原因为特征异常。
在一种可选的实施例中:
所述装置还包括:
修复单元,在确定模型异动的原因为特征异常时,重新拟合所述存在模型异动的目标模型。
在一种可选的实施例中:
所述预设特征包括Event Rate。
在一种可选的实施例中:
所述装置还包括:
指标获取子单元,获取目标模型的多种预设基础指标的值;
稳定值计算子单元,综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值;
异动识别子单元,在所述模型稳定值超过阈值的情况下,确定所述目标模型存在模型异动。
在一种可选的实施例中:
所述稳定值计算子单元,具体包括:
将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值。
在一种可选的实施例中:
每种预设基础指标对应有一个权重值;所有预设基础指标的权重值之和为1;
所述将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值,具体包括:
在将多种预设基础指标与对应的权重值相乘后求和,得到所述目标模型的模型稳定值。
在一种可选的实施例中:
所述模型基础指标包括如下任意一种组合:
打扰率、覆盖率、KS、PSI、AUC、Top Captured。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上图7描述了模型异动的原因确定装置的内部功能模块和结构示意,其实质上的执行主体可以为一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;
判断所述预设变量是否发生异常;
在所述预设变量发生异常时,确定模型异动的原因为变量异常。
可选的,所述判断所述预设变量是否发生异常,具体包括:
判断所述预设变量是否存在变量缺失异常;
或者
判断所述预设变量的分布是否出现偏移异常。
可选的,所述判断所述预设变量是否存在变量缺失异常,具体包括:
计算所述预设变量的缺失值数量;
判断所述预设变量的缺失值数量是否大于预设数量;其中,所述预设数量为该模型未异动时该预设变量的缺失值数量;
在所述预设变量的缺失值数量大于正常数量的情况下,确定所述预设变量存在变量缺失异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量缺失异常。
可选的,所述判断所述预设变量的分布是否出现偏移异常,具体包括:
获取所述预设变量的分布;
判断所述预设变量的分布与正常分布是否一致;其中,所述正常分布为该模型未异动时该预设变量的分布;
在所述预设变量的分布与正常分布不一致的情况下,确定所述预设变量存在变量分布偏移异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量分布偏移异常。
可选的,所述预设变量包括IV、MEAN、PSI中的至少一种。
可选的,还包括:
获取目标模型的多种预设基础指标的值;
综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值;
在所述模型稳定值超过阈值的情况下,确定所述目标模型存在模型异动。
可选的,所述综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值,具体包括:
将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值。
可选的,每种预设基础指标对应有一个权重值;所有预设基础指标的权重值之和为1;
所述将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值,具体包括:
在将多种预设基础指标与对应的权重值相乘后求和,得到所述目标模型的模型稳定值。
可选的,所述模型基础指标包括如下任意一种组合:
打扰率、覆盖率、KS、PSI、AUC、Top Captured。
以上图8描述了模型异动的原因确定装置的内部功能模块和结构示意,其实质上的执行主体可以为一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设特征的特征值;
判断所述预设特征的特征值与预设阈值是否不符;
在所述预设特征的特征值与预设阈值不符时,确定模型异动的原因为特征异常。
可选的,还包括:
在确定模型异动的原因为特征异常时,重新拟合所述存在模型异动的目标模型。
可选的,所述预设特征包括Event Rate。
可选的,还包括:
获取目标模型的多种预设基础指标的值;
综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值;
在所述模型稳定值超过阈值的情况下,确定所述目标模型存在模型异动。
可选的,所述综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值,具体包括:
将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值。
可选的,每种预设基础指标对应有一个权重值;所有预设基础指标的权重值之和为1;
所述将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值,具体包括:
在将多种预设基础指标与对应的权重值相乘后求和,得到所述目标模型的模型稳定值。
可选的,所述模型基础指标包括如下任意一种组合:
打扰率、覆盖率、KS、PSI、AUC、Top Captured。
在上述电子设备的实施例中,应理解,该处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-only memory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

Claims (20)

1.一种模型异动的原因确定方法,所述方法包括:
在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;
判断所述预设变量是否发生异常;
在所述预设变量发生异常时,确定模型异动的原因为变量异常。
2.根据权利要求1所述的方法,所述判断所述预设变量是否发生异常,具体包括:
判断所述预设变量是否存在变量缺失异常;
或者
判断所述预设变量的分布是否出现偏移异常。
3.根据权利要求2所述的方法,所述判断所述预设变量是否存在变量缺失异常,具体包括:
计算所述预设变量的缺失值数量;
判断所述预设变量的缺失值数量是否大于预设数量;其中,所述预设数量为该模型未异动时该预设变量的缺失值数量;
在所述预设变量的缺失值数量大于正常数量的情况下,确定所述预设变量存在变量缺失异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量缺失异常。
4.根据权利要求2所述的方法,所述判断所述预设变量的分布是否出现偏移异常,具体包括:
获取所述预设变量的分布;
判断所述预设变量的分布与正常分布是否一致;其中,所述正常分布为该模型未异动时该预设变量的分布;
在所述预设变量的分布与正常分布不一致的情况下,确定所述预设变量存在变量分布偏移异常;
所述确定模型异动的原因为变量异常,具体包括:
确定模型异动的原因为变量分布偏移异常。
5.根据权利要求1所述的方法,所述预设变量包括IV、MEAN、PSI中的至少一种。
6.根据权利要求1所述的方法,所述方法包括:
获取目标模型的多种预设基础指标的值;
综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值;
在所述模型稳定值超过阈值的情况下,确定所述目标模型存在模型异动。
7.根据权利要求6所述的方法,所述综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值,具体包括:
将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值。
8.根据权利要求6所述的方法,每种预设基础指标对应有一个权重值;所有预设基础指标的权重值之和为1;
所述将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值,具体包括:
在将多种预设基础指标与对应的权重值相乘后求和,得到所述目标模型的模型稳定值。
9.根据权利要求6所述的方法,所述模型基础指标包括如下任意一种组合:
打扰率、覆盖率、KS、PSI、AUC、Top Captured。
10.一种模型异动的原因确定方法,所述方法包括:
在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设特征的特征值;
判断所述预设特征的特征值与预设阈值是否不符;
在所述预设特征的特征值与预设阈值不符时,确定模型异动的原因为特征异常。
11.根据权利要求10所述,所述方法还包括:
在确定模型异动的原因为特征异常时,重新拟合所述存在模型异动的目标模型。
12.根据权利要求10所述的方法,所述预设特征包括Event Rate。
13.根据权利要求10所述的方法,所述方法包括:
获取目标模型的多种预设基础指标的值;
综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值;
在所述模型稳定值超过阈值的情况下,确定所述目标模型存在模型异动。
14.根据权利要求13所述的方法,所述综合所述多种预设基础指标的值,计算所述目标模型的模型稳定值,具体包括:
将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值。
15.根据权利要求13所述的方法,每种预设基础指标对应有一个权重值;所有预设基础指标的权重值之和为1;
所述将所述多种预设基础指标的值相加,得到所述目标模型的模型稳定值,具体包括:
在将多种预设基础指标与对应的权重值相乘后求和,得到所述目标模型的模型稳定值。
16.根据权利要求13所述的方法,所述模型基础指标包括如下任意一种组合:
打扰率、覆盖率、KS、PSI、AUC、Top Captured。
17.一种模型异动的原因确定装置,所述装置包括:
获取单元,在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设变量;
判断单元,判断所述预设变量是否发生异常;
确定单元,在所述预设变量发生异常时,确定模型异动的原因为变量异常。
18.一种模型异动的原因确定装置,所述装置包括:
获取单元,在识别出目标模型存在模型异动的情况下,获取所述目标模型中预设特征的特征值;
判断单元,判断所述预设特征的特征值与预设阈值是否不符;
确定单元,在所述预设特征的特征值与预设阈值不符时,确定模型异动的原因为特征异常。
19.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述权利要求1-9中任一项所述的方法。
20.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述权利要求10-16中任一项所述的方法。
CN201810384855.7A 2018-04-26 2018-04-26 模型异动的原因确定方法及装置和电子设备 Active CN108764290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810384855.7A CN108764290B (zh) 2018-04-26 2018-04-26 模型异动的原因确定方法及装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810384855.7A CN108764290B (zh) 2018-04-26 2018-04-26 模型异动的原因确定方法及装置和电子设备

Publications (2)

Publication Number Publication Date
CN108764290A true CN108764290A (zh) 2018-11-06
CN108764290B CN108764290B (zh) 2021-07-30

Family

ID=64011839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810384855.7A Active CN108764290B (zh) 2018-04-26 2018-04-26 模型异动的原因确定方法及装置和电子设备

Country Status (1)

Country Link
CN (1) CN108764290B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636243A (zh) * 2019-01-03 2019-04-16 深圳壹账通智能科技有限公司 模型故障检测方法、装置、计算机设备以及存储介质
CN110111200A (zh) * 2019-04-23 2019-08-09 北京淇瑀信息科技有限公司 一种基于psi的数据异常智能监控方法及智能监控装置
CN110852602A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 基于机器学习的数据监控方法及装置
CN114036018A (zh) * 2021-10-26 2022-02-11 江苏苏宁银行股份有限公司 一种机器学习模型的监控方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294568A (zh) * 2013-06-24 2013-09-11 国家电网公司 基于e语言的配网模型增量入库方法
CN103713628A (zh) * 2013-12-31 2014-04-09 上海交通大学 基于符号有向图和数据重构的故障诊断方法
CN105989441A (zh) * 2015-02-11 2016-10-05 阿里巴巴集团控股有限公司 模型参数调整方法和装置
CN107066365A (zh) * 2017-02-20 2017-08-18 阿里巴巴集团控股有限公司 一种系统异常的监测方法及装置
CN107491970A (zh) * 2017-08-17 2017-12-19 北京三快在线科技有限公司 实时反作弊检测监控方法和系统以及计算设备
US20180101788A1 (en) * 2015-06-29 2018-04-12 Wepay, Inc. System and methods for generating reason codes for ensemble computer models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294568A (zh) * 2013-06-24 2013-09-11 国家电网公司 基于e语言的配网模型增量入库方法
CN103713628A (zh) * 2013-12-31 2014-04-09 上海交通大学 基于符号有向图和数据重构的故障诊断方法
CN105989441A (zh) * 2015-02-11 2016-10-05 阿里巴巴集团控股有限公司 模型参数调整方法和装置
US20180101788A1 (en) * 2015-06-29 2018-04-12 Wepay, Inc. System and methods for generating reason codes for ensemble computer models
CN107066365A (zh) * 2017-02-20 2017-08-18 阿里巴巴集团控股有限公司 一种系统异常的监测方法及装置
CN107491970A (zh) * 2017-08-17 2017-12-19 北京三快在线科技有限公司 实时反作弊检测监控方法和系统以及计算设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636243A (zh) * 2019-01-03 2019-04-16 深圳壹账通智能科技有限公司 模型故障检测方法、装置、计算机设备以及存储介质
CN110111200A (zh) * 2019-04-23 2019-08-09 北京淇瑀信息科技有限公司 一种基于psi的数据异常智能监控方法及智能监控装置
CN110852602A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 基于机器学习的数据监控方法及装置
CN114036018A (zh) * 2021-10-26 2022-02-11 江苏苏宁银行股份有限公司 一种机器学习模型的监控方法及设备

Also Published As

Publication number Publication date
CN108764290B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN108764290A (zh) 模型异动的原因确定方法及装置和电子设备
CN104021264B (zh) 一种缺陷预测方法及装置
CN111932269B (zh) 设备信息处理方法及装置
CN109064446A (zh) 显示屏质量检测方法、装置、电子设备及存储介质
US11580456B2 (en) System to correct model drift in machine learning application
CN108319974A (zh) 数据处理方法、装置、存储介质和电子装置
CN110888625A (zh) 基于需求变更和项目风险对代码质量进行控制的方法
CN111681235A (zh) 一种基于学习机制的ic焊点缺陷检测方法
CN116934385A (zh) 用户流失预测模型的构建方法、用户流失预测方法及装置
CN117669384A (zh) 基于物联网的温度传感器生产智能监测方法及系统
CN117333290B (zh) 一种一体化多尺度风控模型构建方法
CN114240928A (zh) 板卡质量的分区检测方法、装置、设备及可读存储介质
CN112926663A (zh) 分类模型的训练方法、装置、计算机设备及存储介质
CN117291707A (zh) 贷款申请处理方法、装置、电子设备和存储介质
JP2007164346A (ja) 決定木変更方法、異常性判定方法およびプログラム
US20220230028A1 (en) Determination method, non-transitory computer-readable storage medium, and information processing device
JP7371694B2 (ja) 劣化検出方法、劣化検出プログラムおよび情報処理装置
CN115577287A (zh) 数据处理方法、设备及计算机可读存储介质
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
CN106055483B (zh) 基于欠采样操作的代价敏感神经网络的警告分类方法
CN112257765B (zh) 基于未知类相似类别集的零样本图像分类方法及系统
TWI755774B (zh) 損失函數的優化系統、優化方法及其電腦可讀取記錄媒體
JP7371695B2 (ja) 劣化検出方法、劣化検出プログラムおよび情報処理装置
WO2022051974A1 (zh) 应用于嵌入式平台的代码检测方法、装置、设备及计算机可读存储介质
JP7371696B2 (ja) 劣化検出方法、劣化検出プログラムおよび情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant